《復旦大學:2023從深度匹配到深度問答報告(50頁).pdf》由會員分享,可在線閱讀,更多相關《復旦大學:2023從深度匹配到深度問答報告(50頁).pdf(50頁珍藏版)》請在三個皮匠報告上搜索。
1、從深度匹配到深度問答復旦大學 張奇1目錄21從搜索到問答234深度語義匹配機器閱讀理解語言模型預訓練從PC到移動?)?(?3任何可聯網的設備(眼鏡、車載、音箱、服務機器人)?無處不在的問答引擎Q:大紅袍是什么茶?A:烏龍茶。Q:學生證買火車票一年能用幾次?A:4次。Q:汽車沒電了打不著火怎么辦?A:首先需要一根跨接電線,然后將兩車的車頭面對面Q:北京處理違章需要帶什么證件?4來自搜索的問題分布用戶需求強,難度大查詢類別搜索請求占比問答24%醫療9%小說9%教育7%人物7%知識4.5%購物4%問題類型多問題類型搜索請求占比非事實類20%觀點類2%事實類2%約1/4用戶查詢是問答需求更長尾,更偏向
2、自然語言描述事實類,非事實類,觀點類獼猴桃和奇異果有什么區別腰肌勞損掛什么科眼鏡蛇和眼鏡王蛇的區別蜂蛹泡酒的功效人有多少顆牙齒什么是幽門螺旋桿菌沒有房產證的酒店拆遷如何補償手機怎么注冊淘寶賬號低燒可以進藏嗎落地簽證是什么意思影響發電量的三大因素充電器可以托運嗎esp是什么蘋果手機信號不好怎么辦神經繃緊怎么回事燙傷的水泡會自然消嗎頂的網絡意思網速突然變慢的原因大米生蟲子了還能吃嗎在家原地跑步能減肥嗎網很卡是什么原因交首付款注意事項折耳兔怎么養故鄉魯迅發生的變化的原因石家莊市銀監局投訴電話是多少疝氣會影響生育嗎5搜索問答的挑戰面臨復雜的互聯網文檔,文檔質量、文本長度千差萬別,機器閱讀理解難度更大,
3、更具挑戰性。任務閱讀對象文檔質量文本長度文檔是否一定存在答案Squad1.0/2.0 Wiki段落高質量平均長度約138個詞,200詞以下占比86%,300詞以下占比98%1.0一定存在答案2.0不一定存在答案搜索問答網頁文本類型多樣,質量差異大,大量UGC內容質量低平均正文約460字(除視頻等非文本頁)超過600字的占比約1/3不一定存在答案單個搜索結果中的答案可能錯誤從全網信息中精準找到包含答案的結果更高的相關性要求深度匹配深度問答從多樣的網頁中精準抽取出答案更復雜的閱讀理解關鍵問題1:關鍵問題2:6深度匹配7深度匹配 數據來源8深度匹配Apple 官方支持:如果您的 iPhone、iPa
4、d 或 iPod touch 開不了機或死機怎么辦用戶:iPhone 死機了怎么辦蘋果8突然卡死,主界面不能動,在線急等我的腎7突然無法操作,這種情況怎么解決?9用戶輸入與標準問法差別很大深度匹配小孩子發燒38度怎么辦 小孩子發燒41度怎么辦北京大學 北京的大學鹽酸氯丙嗪 鹽酸異丙嗪定金 訂金10失之毫厘,差以千里!腦袋測得出的東西叫智商,腦袋測不出的東西叫智慧;眼睛看得到的地方叫視線,眼睛看不到的地方叫視野;耳朵聽得到的動靜是聲音,耳朵聽不到的動靜是聲譽;嘴里說得出來的話叫內容,嘴里說不出來的話叫內涵;深度匹配基于句子表示的方法基于交互關系的方法QueryDocumentMatching s
5、coreMatchingsignalsAggregationQueryDocumentNeural NetworkNeural NetworkQueryRepresentationDocumentRepresentationMatching score11基于句子表示的方法DSSM:Learning Deep Structured Semantic Models for Web Search using Click-through Data(Huang et al.,CIKM13)12基于句子表示的方法CNN-DSSMCNTN13多層表示學習 QRNN-ATTQuery和Doc的多層交互,三層
6、QRNN提供了由淺到深的語義編碼能力Attention機制建模Query和Doc的語義一致性,利用Query重構Doc上下文表示的能力,語義信息層層遞進Query Embeddings:Doc Embeddings:qrnn1qrnn2qrnn3att1Q hidden1D hidden1Bilinearsigmoidatt2D hidden2D hidden3Q hidden2Q hidden3基于句子表示的方法14基于交互關系的方法ARC-II15基于交互關系的方法16MatchPyramid多層匹配學習 MV-LSTMQueryEmbeddingQLSTMLayer1QLSTMLayer
7、2QLSTMLayer3Doc EmbeddingDLSTM Layer1DLSTM Layer2DLSTM Layer3MatchMatch MatrixMatrix2 2x x2 2 conv conv with ReLUwith ReLUK K-Max Max PoolingPoolingMLPMLP基于交互關系的方法17單層QRNN-ATTQ hiddenmaxQuery Embeddings:Doc Embeddings:D embdD AttD hiddenBilinearsigmoidBilinear Sim Matrix基于QRNN和注意力機制的表示學習序列表示,3倍加速于LS
8、TM注意力機制加強Query-Doc的交互基于交互關系的方法18公開數據集上的表現深度匹配模型與傳統BM25特征差距不大 數據深度不足,Robust 04 包含60萬詞,50萬篇文檔?;诮换リP系的方法優于基于表示的方法 基于交互關系的方法引入了詞精確命中,模糊命中,模板匹配等強信息,緩解了訓練數據不足的問題。MethodMethodMAPMAPnDCG20nDCG20Traditional IRBM25BM250.2550.2550.4180.418Deep Learning Approaches to Matching Representation LearningDSSM0.0950.2
9、01CDSSM0.0670.146ARC-10.0410.066MV-LSTM0.1190.185MatchingFunctionLearning ARC-20.0670.147MatchPyramid0.1890.330Match-SRNN0.2030.374Robust 04(龐亮 深度文本匹配綜述 計算機學報 2016)19Sogou longtail dataset多層模型表示學習優于匹配學習,隨層數增加,表示學習效果提升更明顯Representation Learning模型能夠更好地設計多層間交互,提升模型擬合能力MethodMethodERR1ERR1ERR5ERR5Tradit
10、ionalTraditional IRIRBM250.1810.331Deep Learning Deep Learning Approaches to Approaches to Matching Matching RepresentationRepresentationLearningLearning單層QRNN-ATT0.1980.350三層QRNNQRNN-ATTATT0.2080.2080.3630.363MatchingMatchingFunctionFunction Learning Learning 單層MV-LSTM0.1960.349三層MV-LSTM0.2020.355方
11、法比較-多層模型20機器閱讀理解21機器閱讀理解22周杰倫蠟像什么時間亮相上海杜莎夫人蠟像館?文章問題答案+機器閱讀理解232015年之前2015年之后From:“Towards the Machine Comprehension of Text”by Danqi Chen,2017.機器閱讀理解24From:“Towards the Machine Comprehension of Text”by Danqi Chen,2017.2015年之前的模型:單詞匹配、邏輯回歸、分類等2015年之后的模型:神經網絡文章問題+答案開始位置答案結束位置R-NETR-NET:MACHINE READING
12、 COMPREHENSION WITH SELF-MATCHING NETWORKS,ACL 201725Google QANET26Yu,Adams Wei,et al.QANet:Combining Local Convolution with Global Self-Attention for Reading Comprehension.arXiv preprint arXiv:1804.09541(2018).Google QANET27DATA AUGMENTATION BY BACKTRANSLATIONKnReaderIncorporating Commonsense Knowl
13、edgeCommonsense knowledge or factualbackground knowledge about entitiesand eventsKnowledgeable Reader:Enhancing Cloze-Style Reading Comprehension with External Commonsense Knowledge,ACL 20181.Knowledge RetrievalPerforms fact retrieval and selects a number of facts2.Knowledgeable ReaderUse Attention
14、Sum Reader as one of the strongest core models for single-hop RC and extend it with a knowledge fact memory that is filled with pre-selected facts.28KnReaderIncorporating Commonsense KnowledgeKnowledgeable Reader:Enhancing Cloze-Style Reading Comprehension with External Commonsense Knowledge,ACL 201
15、829事實類問答面臨的問題解決思路大量現有模型針對規范文本,假設文本中存在正確答案,而真實場景面臨不存在答案的情況;現有模型很少考慮外部知識,對于涉及推理的問題,效果不好;對答案存在性進行判斷,避免錯答;充分利用豐富的外部知識,不僅有利于處理復雜推理問題,也有助于答案存在性判斷;方案:提出融合答案存在性判斷、并結合外部知識的答案提取模型EK-RNet30Manual featureCharacterWordQP attentionXXXXXXXPP attentionXXQuestion&Passage EncodingQuestion-PassageMatchingPassage Self-
16、MatchingXXXuQuPvPhPXQuestion PoolingrQ+Passage contains answer ProbBegin ProbEnd ProbAnswer Prediction2、在字、詞表示基礎上融入外部知識信息:全局|局部詞頻、是否為LAT、實體類型、數量詞、來源網頁質量等EK-RNet模型,相比原始Rnet模型,在相同精度水平下(90%),召回提升30%EK-Rnet1、融入passage包含答案的概率31非事實類問答面臨的問題解決思路網頁通常包含長文本,現有閱讀理解模型往往因長距離依賴導致丟失重要信息而提取錯誤答案網頁可能不存在正確答案,易過召針對長距離依賴
17、和信息丟失問題,在以詞為單位的表示和注意力機制基礎上,融入以句子為單位的長距離信息傳遞機制,同時使用ELMO詞嵌入,增加上下文相關表示能力對答案存在性進行判斷方案:提出聯合學習答案存在性判斷與答案提取的分層匹配模型HM-LSTM32Pointer NetworkBilinear NetworkQuestionAttention MatrixAttention MatrixPassageHM-LSTM1.聯合學習:答案存在概率+答案起止位置概率2.引入句子級別注意力機制詞注意力機制+句子注意力機制3.使用上下文相關的詞向量表示 ELMO33語言模型預訓練34Word Embedding的缺陷35
18、一詞多義l山上到處是盛開的杜鵑;樹林里傳來了杜鵑的叫聲。l把電視關上,我們要學習文件;大家注意,下午要拿學習文件來。lproduce filets of smoked bass;exciting jazz bass playerlJobs is the CEO of Apple;He finally ate the apple.WordSense Disambiguation語言模型預訓練方法36ELMOOpenAI GPTBERTl傳統Word Embeddings l每一個詞只對應一個詞向量lEMLol利用預訓練好的雙向語言模型,然后根據具體輸入從該語言模型中可以得到上下文依賴的當前詞表l
19、對于不同上下文的同一個詞的表示是不一樣的Embeddings from Language Models37Peters,M.E.et al.Deep contextualized word representations.NAACL(2018).Embeddings from Language Models38Peters,M.E.et al.Deep contextualized word representations.NAACL(2018).ELMO雙向的 LSTM 語言模型,一個前向和一個后向語言模型目標函數:取這兩個方向語言模型的最大似然訓練時與任務無關l針對每個Tokenl針對某個
20、特定的任務,將雙向語言模型的每一中間層進行一個求和l有監督的 NLP 任務時,可以將 ELMo 直接當做特征拼接到具體任務模型的詞向量輸入或者是模型的最高層表示上。Embeddings from Language Models39Embeddings from Language Models40Generative Pre-Training 41l利用Transformer網絡代替LSTM作為語言模型l更好的捕獲長距離語言結構l具體任務時使用有監督數據微調語言模型作為附屬任務訓練目標Radford,A.&Salimans,T.Improving Language Understanding b
21、y Generative Pre-Training.(2018).Generative Pre-Training 42Radford,A.&Salimans,T.Improving Language Understanding by Generative Pre-Training.(2018).OpenAI GPTUnsupervised pre-trainingSupervised fine-tuningGenerative Pre-Training 43Radford,A.&Salimans,T.Improving Language Understanding by Generative
22、Pre-Training.(2018).Generative Pre-Training 44Radford,A.&Salimans,T.Improving Language Understanding by Generative Pre-Training.(2018).Bidirectional Encoder Representations from Transformers45Devlin,J.,Chang,M.-W.,Lee,K.&Toutanova,K.BERT:Pre-training of Deep Bidirectional Transformers for Language U
23、nderstanding.(2018).l使用 Transformer 的編碼器來作為語言模型,所有層中都是雙向的l語言模型預訓練l遮擋語言模型 MLMl預測下一個句子lWordPiece Embedding 作為詞向量l加入了位置向量和句子切分向量BERTBidirectional Encoder Representations from Transformers46Devlin,J.,Chang,M.-W.,Lee,K.&Toutanova,K.BERT:Pre-training of Deep Bidirectional Transformers for Language Underst
24、anding.(2018).Bidirectional Encoder Representations from Transformers47Devlin,J.,Chang,M.-W.,Lee,K.&Toutanova,K.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.(2018).Bidirectional Encoder Representations from Transformers48Devlin,J.,Chang,M.-W.,Lee,K.&Toutanova,K.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.(2018).語言模型預訓練49l可以充分利用大規模的單語語料l一定程度上可以對一詞多義進行建模l采用Pretrain 模式還可以在很大程度上緩解具體任務對模型結構的依賴50謝謝!