1、知識圖譜和自然語言處理-技術分享語音語義研究部-融智Lab楊棟2023-03-18日期,OPPOSans R,8pt,品牌綠色2個人簡介楊棟,OPPO研究院語音語義部融智Lab高級算法研究員。他畢業于香港城市大學博士,現在主要研究方向是自然語言處理,圖學習網絡,預訓練模型,網絡研究和應用,致力于使用簡單方法解決復雜的實際問題。近期,他主責部門知識增強預訓練模型和知識圖譜多跳邏輯推理等算法開發。主導構建預訓練模型CHAOS,登頂CLUE 三大榜單。在知識圖譜多跳推理上,提出GammaE 模型,論文被EMNLP2022 會議Oral Presentation 錄取。職位核心職責技術課題高級算法研究
2、員OPPO知識增強預訓練模型和知識圖譜多跳邏輯推理等算法開發知識增強的自然語言處理,知識圖譜邏輯推理,推薦系統3分享內容如何在知識圖譜上進行多跳推理(KGs)?Gamma Embeddings(GammaE)如何登頂CLUE?Chinese Hierarchical Language Model Systems for Knowledge Transforming(CHAOS)總結4如何登頂CLUE?1.現狀2.解決方案3.模型訓練技巧51.1 現狀61.1 現狀疑問:模型一定是越大越好?Models:155,136,Date:2023.03.187百億模型1.1 現狀萬億模型百億模型30億模
3、型萬億MOE百億模型百億模型疑問:模型一定是越大越好?8#tokens seen during traininghttps:/babylm.github.io/1.1 現狀Trained on more and more data91.1 現狀疑問:語料是越多越好?101.1 現狀疑問:AI超過人類?111.2 解決方案121.2 解決方案知識增強的預訓練模型預訓練模型缺乏先驗知識。因此,融入知識到預訓練模型是一個非常有效的方法。Joint modelsLanguageKnowledge EmbeddingObjectiveContextualized?ObjectiveContextuali
4、zed?Wang(2014)Skig-gramNoTransENoERNIE 1.0 and 2.0(BAIDU 2019,2020)MLMYesTransENoKnowBERT(2019)MLMYes-NoK-BERT(2020)MLMYesVisible Matrix(MLM)YesKEPLER(2020)MLMYesTransENoKG-BART(2021)MLMYesGAT+TransENoCoLAKE(2021)MLMYesMLM(similar to K-BERT)YesERNIE 3.0(BAIDU 2021)MLMYesMLM(Concat)YesJAKET(2021)MLMY
5、esGAT+TransENo1.2 解決方案知識圖譜Common KnowledgeLarge Language ModelsCovid-19 networksScholar networks141.2 解決方案知識增強預訓練模型框架Pre-trained models15解決方案Encoder:RoBERTa,DeBERTaEncoder-Decoder:T5,ERNIE 3.0模型架構Encoder:BERT,RoBERTa,DeBERTa,ERNIE 1.0 or 2.0,LUKEEncoder-Decoder:T5,BART,BigBird,ERNIE 3.0,mT5,LongT5,B
6、yT5,SentenceT5Decoder:GPT,OPT,BLOOM,Transformer-XL,XLNet1.2 解決方案16Encoder模型RoBERTa 優點:模型泛化能力強,魯棒性好 缺點:收斂速度太慢啦,需要2.2萬億中文tokens,其次,模型參量小,調整到100億大模型,有很多不確定因素。DeBERTaDGX-2 machine:16 v100s 優點:解決了BERT和RoBERT,相對位置編碼的消失問題;SuperGLUE第一的成績。缺點:收斂速度太慢啦,需要10萬億中文tokens,其次,模型層數深,訓練起來容易不收斂。17Encoder-Decoder模型 ERNIE
7、系列優點:分開訓練NLU(雙向)和NLG(單向)模塊 長文本處理技巧:Transformer-XL 多任務學習,LOSS組合優化缺點:語料4TB,非常巨大,且未開源;模型參數100億,但是在clue上數據表現一般,沒有遠超RoBERTa。訓練代碼未開源,訓練收斂慢,需要3.75萬億的tokens。18優點:模型收斂快,迭代方便。Span Denoising滿足實體掩碼需求。缺點:模型參量越大,效果越好,反之,亦然。訓練內存開銷大,加速無法使用AdaFactor優化器Encoder-Decoder模型 T519CHAOSCHAOS模型框架圖和預訓練策略。圖a中,紫色箭頭方向意味著attentio
8、n計算方向,即 雙 箭 頭 是 Fully-visible mask 和 單 箭 頭 是 Causal mask。輸 出 目 標 函 數 是Denoising objective。圖b展示了預訓練每個步驟的策略。核心亮點:基于Encoder-Decoder的框架 使用Denoising Spans的掩碼策略 目標函數是Denoising objective 加速:應用前沿技術Deepspeed和Megatron的加速框架,選擇了Zero-stage 2加速方式(2.4倍加速),通過24張A100,實現了30億CHAOS模型預訓練,訓練了430億中文tokens(BERT大約需要1370億中文
9、tokens,RoBERTa大約需要2.2萬億中文tokens,DeBERTa 大約需要10萬億中文tokens)。20 ERNIE系列1.2 解決方案:知識融入21 K-BERT,CoLAKE1.2 解決方案:知識融入K-BERT(Liu et al.2019)K-BERT(Sun et al.2020)22 LUKE1.2 解決方案:知識融入LUKE(Yamada et al.2020)23 KEPLER,K-ADAPTER1.2 解決方案:知識融入KEPLER(Wang et al.2020)K-ADAPTER(Wang et al.2020)24 CHAOS詞表融入法我們的方法:對中文
10、語料進行切詞,然后再進行頻率統計,快速獲得高頻詞,再取前10%,進行實體匹配,最后一步的匹配復雜度,通過算法優化做到了(1),極大程度上減少了算法復雜度。傳統方法:對齊圖譜。從語料中遍歷知識圖譜,尋找相匹配的實體,這樣算法復雜度約(),其中是語料sample數量,是三元組個數。1.2 解決方案:知識融入切詞高頻詞篩選實體匹配251.3 模型訓練技巧26 技巧1.3 模型訓練技巧1.傳統方法:數據增強,Mixup、Manifold-Mixup和R-drop。2.模型融合以CHAOS為底座,調整不同參數,得到多個CHAOS模 型,完 成 下 游 Fine-tuning.27如何在知識圖譜上進行多跳
11、推理(KGs)?1.背景2.模型3.實驗結果282.1 背景292.1 背景目標:如何在知識圖譜上進行多跳推理?知識圖譜多跳邏輯推理 路徑搜索:TransE.空間嵌入:Query2Box,BETAE,ConE.TransE(Bordes et al.2013),Query2Box(Ren et al.2020),BETAE(Ren et al.2020),ConE(Zhang et al.2021).30一階邏輯查詢(First-order Logical Queries:FOL)Existential quantifier()Conjunction ()Negation ()Disjunct
12、ion ()NoteExistential quantifier(存在)Conjunction(并)Disjunction(或)Negation(非)Projection of entity setsUnion of entity setsIntersection of entity setsComplement of entity sets例子:Query:which field cannot win a Nobel Prize?Logical Form:q=,V:(,)(,)(,)2.1 背景31一跳問句長路徑問句“并”問句2022年世界杯在哪里舉行?(e:2022年世界杯,(r:舉行))
13、C羅的老婆是哪國人?(e:C羅,(r:妻子,r:國家))誰既拿了圖靈獎,又拿了諾貝爾獎?(e:圖靈獎,(r:獲得者),(e:諾貝爾獎,(r:獲得者)“或”問句招聘,主修計算機或者統計學的人才?(e:計算機,(r:主修),(e:統計學,(r:主修)“非”問句愛吃白菜,但不吃香菜的客戶?(e:白菜,(r:愛吃),(e:香菜,(r:愛吃)2.1 背景32路徑搜索:TransE解決思路:Query embedding:=+.Goal:使query embedding 靠近answer embedding =TransE(Bordes et al.2013)優點:TransE 可以處理任意的三元組關系和
14、邏輯運算。缺點:由于KG并不完整,存在一定得缺失(incompleteness),所有實體中有部分無法通過遍歷找到。高昂的計算成本。2.1 背景33Query2BoxWhere did Canadian citizens with Turing Award graduate?空間嵌入:幾何模型Query2Box(Ren et al.2020)優點:Query2Box 可以直接處理projection 和 intersection operators.缺點:Query2Box 不能進行 negation operator.為了處理union operator,Query2Box 必須使用 dis
15、junctive normal form(DNF),而這會增加計算成本(computation costs).2.1 背景34Query2Box空間嵌入:幾何模型Query2Box(Ren et al.2020)析取范式 Disjunctive normal form2.1 背景35Query2Box空間嵌入:幾何模型析取范式 Disjunctive normal form1.取所有union算子的一端,作為父節點2.把所有union算子刪除,保留父節點3.拆開各個計算圖的目標下沉節點 sink node,也就是匯聚計算結果的節點,各個計算圖進行聯合計算4.生成新的下沉節點,各個計算圖結果取u
16、nion,結果匯聚到下沉節點DistanceLossQuery2Box(Ren et al.2020)2.1 背景36空間嵌入:幾何模型ConE(Zhang et al.2021)優點:ConE 可以有效處理projection,intersection,和negation operators.缺點:ConE的初始嵌入會和其取反操作后的互補嵌入有邊界的重疊original embedding shares same boundary edges with its complement embedding.為了處理union operator,ConE 必須使用 De Morgans laws(
17、DM)或者 disjunctive normal form(DNF),而這會增加計算成本.ConE List all the directors of non-American movies that win the Academy AwardsDM or DNF2.1 背景37空間嵌入:幾何模型ConE(Zhang et al.2021)ConE ProjectionIntersectionSemanticAverageCardMin2.1 背景38空間嵌入:幾何模型ConE(Zhang et al.2021)ConE DistanceLoss Function2.1 背景39空間嵌入:概率
18、分布模型BETAE(Ren et al.2020)Pros:BETAE 可以直接進行projection,intersection,and negation operators.Cons:為了進行union operator,BETAE 需要使用De Morgans laws(DM)和disjunctive normal form(DNF).在 BETAE,初始嵌入與取反的互補嵌入總是有兩個交叉點,可能導致邊界問題.BETAE:Query embedding:對每一個實體和關系以 BETA 分布 =1(1)1(,)進行初始化,其中 為BETA函數.Goal:最小化 query embeddin
19、g 和 answer embedding 之間的距離Dist,=(,)List the presidents of European countries that have never held the World Cup2.1 背景402.2 模型412.2 模型GammaEGamma Distributionf;,=1()Projection Operator=MLPr()Intersection OperatorInter=1=1(;=1,=1)GammaE:Gamma Embeddings for Logical Queries on Knowledge Graphs,202242Ga
20、mmaEGamma Distributionf;,=1()Union=1=1=;1,+目標函數:最小化query embedding 和answer embedding 之間的距離Dist,=(,)Union OperatorNegation OperatorElasticity2.2 模型43GammaEComputation GraphQuery:which field cannot win a Nobel Prize?Logical form:q=2.2 模型44GammaE實驗設置FB15K,FB15k-237,NELL995三個基準數據集上的query structures的統計結果
21、.2.2 模型452.3 實驗結果462.3 實驗結果GammaEEPFO問句結論 Table 1顯示,GammaE 在 FB15k、FB15k-237 和 NELL995 上比之前表現最好的 ConE 在MRR上平均提高了 5.0%、3.8%和 3.7%。Table 2顯示 GammaE 相對于FB15k、FB15k-237 和 NELL995 的基線顯著提高了 17.2%、23.9%和25.8%。47GammaE“非”問句結論 GammaE 在 FB15k、FB15K-237 和 NELL995 的兩個Baseline上實現了平均 12.2%、14.9%和 9.1%的MRR提高。The e
22、lasticity 可以顯著提高GammaE的性能.2.3 實驗結果48GammaE分析:模型魯棒性結果 GammaE優于所有以前的模型,并且在 B15k、FB15k-237 和 NELL995 上的correlation比ConE 高出 6.1%、2.9%和 2.9%。GammaE可以有效減少查詢的不確定性.2.3 實驗結果49GammaE分析:“合問句”結果 使用混合模型(MM)的 GammaE 的性能優于使用De Morgans laws(DM)和disjunctive normal form(DNF)的 GammaE。2.3 實驗結果50GammaE時間復雜度結果 GammaE接近于G
23、QE,優于其他模型。2.3 實驗結果GammaE:Gamma Embeddings for Logical Queries on Knowledge Graphs,202251總結52總結 中文預訓練大模型CHAOS 在中文自然語言理解測評基準CLUE1.1上登頂,以30億參量同時刷新了CLUE1.1總排行榜、CLUE1.1分類任務排行榜和CLUE1.1閱讀理解排行榜的最好成績。我們提出了一種新的邏輯推理模型,即 GammaE,以處理任意 FOL 查詢并有效地實現了KG 上的多跳推理。與以往的方法相比,其union operator使用Gamma混合模型,避免了De Morgan定律和disj
24、unctive normal form。由于減輕了邊界效應,GammaE 顯著提高了negation operator的性能。未來我們將深耕中文自然語言處理,設計出更有效的模型,擴大行業影響力。53彩蛋54OPPO研究院語音語義部融智Lab1.中文預訓練大模型CHAOS(Chinese Hierarchical Language Model Systems for Knowledge Transforming)在中文自然語言理解測評基準CLUE1.1上登頂,以30億參量同時刷新了CLUE1.1總排行榜、CLUE1.1分類任務排行榜和CLUE1.1閱讀理解排行榜的最好成績。2.在業界首個大規模中文多模態評測基準MUGE(Multimodal Understanding and Generation Evaluation)上,自主訓練的中文多模態預訓練模型也在綜合圖文檢索,看圖說話,文本到圖像生成三個賽道的總成績上位列總榜第一名。3.融智團隊將在融合符號化知識推進感知認知融合方面,更可控/可編輯的視覺生成方向,及促進工業化落地轉化的模型小型化等方向上繼續做出努力。https:/