《講習班-大語言模型的多語言能力增強-上海人工智能實驗室.pdf》由會員分享,可在線閱讀,更多相關《講習班-大語言模型的多語言能力增強-上海人工智能實驗室.pdf(60頁珍藏版)》請在三個皮匠報告上搜索。
1、Page#Shanghai Artificial Intelligence L大語言模型的多語言能力增強袁袁飛飛上海人工智能實驗室上海人工智能實驗室Page#Shanghai Artificial Intelligence LPage 2RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artificial Intelligence LPage 3大語言模型:LLM模型結構 結構基于Transformer架構Decoder-Only架構:僅包含解碼器(decoder)大規模參數:現代LLM的模型參數非常龐大 損失函數Next Token Prediction:LLM 的訓練目
2、標是基于輸入文本(12 1)去預測下一個文本()的可能性(|121)。Input EmbeddingTransformer Layer 1Transformer Layer Output EmbeddingTransformer Layer L+Positional EmbeddingInputOutputPage#Shanghai Artificial Intelligence LPage 4LLM強大的通用智能效果 Wei et al.,Emergent Abilities of Large Language Models,TMLR2022Chen et al.,MEGA-Bench:Sc
3、aling Multimodal Evaluation to over 500 Real-World Tasks,arXiv2024LLMLLM翻譯潤色郵件摘要回答日常問題數學代碼Page#Shanghai Artificial Intelligence LPage 5English-Centric 的LLM多語言性能不好 英語和非英語的性能差異大。推理任務性能Shi et al.,Language Models Are Multilingual Chain-Of-Thought Reasoners,ICLR2023Zhu et al.,Multilingual Machine Transla
4、tion with Large Language Models:Empirical Results and Analysis,Findings of NAACL2024LLaMA3 翻譯效果Chinese Input:媽媽總是說生活就像一盒巧克力,你永遠不知道你會得到什么。Chinese to English:Mom always says life is like a box of chocolates,you never know what youre gonna get.English to Chinese:媽媽總是說生活就像一盒巧克力,你永遠不知道你會得到什么。Chinese to N
5、epali:,.Nepali to Chinese:我媽媽總是說你玩了凡妮莎的巧克力,你不知道我們給的是什么。Page#Shanghai Artificial Intelligence LPage 6多語言增強的必要性是否有必要進行多語言增強,學好英語是不是就夠了?No!Lu,Yinquan,et al.Llamax:Scaling linguistic horizons of llm by enhancing translation capabilities beyond 100 languages.Findings of EMNLP 20247.963.8310.297.0814.4915
6、.4716.1616.86Nepali-XX-NepaliLLaMA3LLaMA3-pivotLLaMAXLLaMAX-pivotPage#Shanghai Artificial Intelligence LPage 7LLM 性能差的原因1 詞表預訓練的詞表并未適配多語言的需要。Tokenization Ratio=Llama 分詞結果長度/詞級別分詞長度Yuan,Fei,et al.How Vocabulary Sharing Facilitates Multilingualism in LLaMA?.Findings of the Association for Computationa
7、l Linguistics ACL 2024.2024.Page#Shanghai Artificial Intelligence LPage 8LLM 性能差的原因2 數據 預訓練數據中覆蓋的語言不多。公開的多語言數據量差異大。LLaMA2 訓練數據MADLAD 多語言數據量差異大Touvron et al,LLaMA2:Open Foundation and Fine-Tuned Chat Models,arXiv2023Kudugunta,Sneha,et al.Madlad-400:A multilingual and document-level large audited data
8、set.Advances in Neural Information Processing Systems 36(2024).Page#Shanghai Artificial Intelligence LPage 9現有的增強方案 詞典 數據數據收集數據清洗質量提升 訓練Fine-TuningContinual PretrainingPage#Shanghai Artificial Intelligence LPage 10RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artificial Intelligence LPage 11詞表常見的詞表構建方式。輸入:The m
9、ost eager is Oregon which is enlisting 5,000 drivers in the countrymosteagerisOregonwhichisenlisting5driversinthecountryWord level(詞級別)ThemosteagerisChar level(字符級別)Sub-word level(子詞級別)mosteagerisOregonwhichisenlisting5,000driver,000TheOregonsinthecountryPage#Shanghai Artificial Intelligence LPage 1
10、2分詞器“Many words dont map to one token:indivisible.”分詞器查找 embedding 表輸入文本子詞文本序列子詞ID序列Embedding的向量矩陣Page#Shanghai Artificial Intelligence LPage 13常見的分詞算法 基本切分原則 高頻部分在詞表中完整出現 低頻詞被切分成多個高頻子詞的集合 常用的子詞分詞算法:BPE:Byte Pair EncodingBBPE:Byte-level Byte Pair EncodingSP:SentencePiecePage#Shanghai Artificial Inte
11、lligence LPage 14頻數分詞(BPE)的問題問題1:詞表冗余問題2:對于數字類的token過度關注問題3:頻數和模型訓練關注的token并不一致詞表冗余對數字類token過度關注Page#Shanghai Artificial Intelligence LPage 15改進方案:基于模型分詞使用模型對合成路徑進行打分Yehezkel,Shaked,and Yuval Pinter.Incorporating context into subword vocabularies.“EACL 2023.Page#Shanghai Artificial Intelligence LPag
12、e 16通用詞表和多語言之間的GAP 通用詞表上的英語能正確編碼輸入:Mom always says life is like a box of chocolates,you never know what youre gonna get.Llama分詞結果:M om always says life is like a box of ch oc ol ates,you never know whatyou re g onna get.https:/belladoreai.github.io/llama-tokenizer-js/example-demo/build/多語言的輸入會被過度分詞輸
13、入:,.Llama分詞結果:,.Mom always says life is like a box of chocolates,you never know what youre gonna get.Page#Shanghai Artificial Intelligence LPage 17多語言詞表的挑戰 現狀:通用詞表無法充分滿足具體語言/領域的需求 挑戰:1.擴展詞表是否就可以增加多語言的支持?2.預訓練的詞表token經過充分訓練,新加token如何有效訓練3.模型訓練新詞表需要和模型主干網絡部分對齊Yehezkel,Shaked,and Yuval Pinter.Incorpora
14、ting context into subword vocabularies.“EACL 2023.Page#Shanghai Artificial Intelligence LPage 18多語言詞表常見的處理方案 常見處理策略:不變 擴展詞表=增加支持度 重新訓練新詞表=更小的壓縮率語言語言中文中文LLM日語日語LLM俄語俄語LLM阿拉伯語阿拉伯語LLM泰語泰語LLM東南亞語東南亞語LLM歐洲語言歐洲語言LLM模型Chinese LLaMASwallow-7BYalm-100bALLaM-70BTyphoonSeaLLMsEuroLLM策略擴展詞表擴展詞表重新學習擴展詞表不變擴展詞表重新訓
15、練是否需要為新的語言擴展詞表Page#Shanghai Artificial Intelligence LPage 19調整詞表的原因 Byte-BPE(BBPE)分詞后的序列長度超過字符長度 饕 to(gluttonous)會被分為三個子詞227,234,260 shortening:去掉相同前綴 227Page#Shanghai Artificial Intelligence LPage 20多語言擴展高性價比方案 不動詞表(TowerLLM,LLaMAX)Yuan,Fei,et al.How Vocabulary Sharing Facilitates Multilingualism i
16、n LLaMA?.2024.Findings of ACL 2024Alves,Duarte M.,et al.Tower:An open multilingual large language model for translation-related tasks.arXiv preprint arXiv:2402.17733(2024).Lu,Yinquan,et al.Llamax:Scaling linguistic horizons of llm by enhancing translation capabilities beyond 100 languages.Findings o
17、f EMNLP 202405101520enkmenloenguenteFull TuningExtend VocabShortenPage#Shanghai Artificial Intelligence LPage 21Embedding 初始化基礎方案 基礎方案:現有token的線性組合 Step 1:從原始Embedding空間轉化得到 Step 2:基于稀疏權重的線性組合Tran,Ke.From english to foreign languages:Transferring pre-trained language models.arXiv preprint Dobler,Kon
18、stantin,and Gerard De Melo.Page#Shanghai Artificial Intelligence LPage 22Embedding 初始化增強方案 增強方案:語義相鄰token的線性組合 生成輔助空間:借助fastText等工具,為目標詞表生成輔助Embedding 計算語義距離:目標詞表中,新token與pretrained token在輔助空間上的距離 初始化非重合token:基于語義距離,線性組合重合token的原始EmbeddingTran,Ke.From english to foreign languages:Transferring pre-tr
19、ained language models.arXiv preprint Dobler,Konstantin,and Gerard De Melo.Page#Shanghai Artificial Intelligence LPage 23Zero-Shot Tokenizer 模型結構 用原Tokenizer為神經網絡的token分詞 分詞后的序列輸入基于Transformer的神經網絡,生成Embedding 模型訓練 迭代采樣數據,生成新的Tokenizer作訓練樣本 語言模型loss作為訓練目標 對于重合的token,約束網絡生成原始的Embedding作為輔助lossMinixhof
20、er,Benjamin,Edoardo Maria Ponti,and Ivan Vuli.Zero-Shot Tokenizer Transfer.NIPS 2024.Page#Shanghai Artificial Intelligence LPage 24 預定義分詞器依賴特定的分詞規則或者模型對某些語言和領域支持度差 Tokenizer Free不依賴特定的分詞規則或者模型適應性強:處理特定任務和領域更加靈活處理多樣性:對于各種模態的輸入都可以統一處理Page#Shanghai Artificial Intelligence LPage 25Tokenizer Free-字節級輸入缺點
21、:需要增加Transform Layers 或者增大隱藏層大小和前饋網絡維度,補償Embedding參數量Xue,Linting,et al.Byt5:Towards a token-free future with pre-trained byte-to-byte models.“TACL 2022.Page#Shanghai Artificial Intelligence LPage 26Tokenizer Free-Byte-GPT 將所有的輸入都看成一個byte序列 優勢:簡化集成難度提高了模型的擴展性Wu,Shangda,et al.Beyond Language Models:By
22、te Models are Digital World Simulators.arXiv preprint arXiv:2402.19155(2024).Page#Shanghai Artificial Intelligence LPage 27小結 增加多語言支持高性價比是不動詞表 調整詞表支持多語言:新Token的Embedding初始化非常重要 降低詞表依賴:Tokenizer Free的方法擴展性強但效果還不夠好Page#Shanghai Artificial Intelligence LPage 28RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artifici
23、al Intelligence LPage 29單語數據-MADLAD 處理流程:去重去掉過短/過長的文本過濾非該語言的文本啟發式過濾規則 低資源數據受噪聲影響非常大Kudugunta,Sneha,et al.Madlad-400:A multilingual and document-level large audited dataset.NIPS 2024.Page#Shanghai Artificial Intelligence LPage 30平行數據-Lego-MT 處理流程:統一所有語言的語言編碼統一不同語言文本的預處理融合不同來源的平行數據去重去除不平行的文本去除過長或者過短的文
24、本 仍然存在大量信息量很低的噪聲數據Costa-juss,Marta R.,et al.No language left behind:Scaling human-centered machine translation.arXiv preprint arXiv:2207.04672(2022).Yuan,Fei,et al.Lego-MT:Learning Detachable Models for Massively Multilingual Machine Translation.“Findings of ACL 2023.NLLB 公開的數據中仍存在大量噪聲數據Page#Shangha
25、i Artificial Intelligence LPage 31從通用文本到更豐富預訓練數據 通用文本主要來自互聯網,網頁數據 預訓練:更豐富數據需要關注的domain更加豐富:通用文本/math/code 等 預訓練語料處理面臨的挑戰Math 和code即使純英文的數據質量難以評估多語言的math/code 數據獲取難度大Page#Shanghai Artificial Intelligence LPage 32預訓練數據質量示例 高質量數學數據 包含大量數學相關的符號和內容Page#Shanghai Artificial Intelligence LPage 33預訓練數據質量示例 低
26、質量數學數據普通文本內容占比多,數學相關性不大Page#Shanghai Artificial Intelligence LPage 34預訓練數據處理流程-Dolma 處理流程過濾需要的語言質量過濾(如 格式問題的數據)內容過濾(如 有毒有害的數據)去重 Dolma 開源了數據和處理的ToolkitSoldaini,Luca,et al.Dolma:An open corpus of three trillion tokens for language model pretraining research.ACL 2024.Page#Shanghai Artificial Intellige
27、nce LPage 35預訓練數據處理流程-OpenELM 收集開源的數據集 過濾過短的文本字符級別:過濾低于200個字符的文本Token級別:過濾低于256個token的文本Soldaini,Luca,et al.Dolma:An open corpus of three trillion tokens for language model pretraining research.ACL 2024.Page#Shanghai Artificial Intelligence LPage 36數據質量調整模型 ProX 處理流程:訓練一個refining model生成復雜的處理流程調用函數鏈
28、使用python執行器執行函數SCALE,EXPERTS AT.Programming Every Example:Lifting Pre-training Data Quality like Experts at Scale.Page#Shanghai Artificial Intelligence LPage 37數據質量調整模型 Refining Model 構建流程使用強的LLM對文本進行處理流程的標注基于標注結果訓練一個小的模型(Refining Model)利用小的模型進行大規模的數據篩選Page#Shanghai Artificial Intelligence LPage 38數
29、據質量調整模型 ProX中的處理函數 涉及的數據處理函數SCALE,EXPERTS AT.Programming Every Example:Lifting Pre-training Data Quality like Experts at Scale.Page#Shanghai Artificial Intelligence LPage 39數據質量調整模型 ProX模型效果 基于過濾后的數據進行訓練收斂速度更快模型效果更好SCALE,EXPERTS AT.Programming Every Example:Lifting Pre-training Data Quality like Exp
30、erts at Scale.Page#Shanghai Artificial Intelligence LPage 40多語言預訓練數據處理 LLaMA3 處理流程使用語言識別工具,將文本進行劃分在文檔/句子級別分別進行去重操作使用特定語言啟發式的算法過濾數據基于模型去過濾低質量的數據 多語言預訓練質量篩選和評估挑戰速度快(限制了模型大小和使用)對于內容的準確把握Dubey,Abhimanyu,et al.The llama 3 herd of models.arXiv preprint arXiv:2407.21783(2024).Page#Shanghai Artificial Intel
31、ligence LPage 41小結 常見的數據處理流程去重質量篩選內容篩選 數據篩選并沒有過多考慮多語言的性質(僅包含語言識別)LLM需要的數據更加復雜,給多語言數據帶來更大的挑戰Page#Shanghai Artificial Intelligence LPage 42RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artificial Intelligence LPage 43Fine-Tuning 基本流程收集數據:指令數據格式微調LLM 優點:提高對應任務的能力 挑戰:很難提高語言的一致性。很難將英語知識傳導到其他語言。Gao,Changjiang,et al.M
32、ultilingual pretraining and instruction tuning improve cross-lingual knowledge alignment,but only shallowly.NAACL 2024.任務性能增加跨語言一致性沒有明顯增長跨語言知識傳導性指標沒有明顯增長Page#Shanghai Artificial Intelligence LPage 44Fine-Tuning 兩階段訓練方式1:LangBridge 純英文任務數據對齊利用 multilingual LM的encoderYoon,Dongkeun,et al.Langbridge:Mul
33、tilingual reasoning without multilingual supervision.ACL 2024.Page#Shanghai Artificial Intelligence LPage 45Fine-Tuning 兩階段訓練Huang,Zixian,et al.MindMerger:Efficient Boosting LLM Reasoning in non-English Languages.NIPS 2024.方式1:MindMerger對齊通用翻譯數據任意的 Multilingual Encoder Page#Shanghai Artificial Intel
34、ligence LPage 46Fine-Tuning 兩階段訓練方式2:基于數據的兩階段對齊 QAlign 先基于多語言的Question數據促進語言和英語之間的對齊 再僅利用純英文的任務數據訓練,可以極大地提高該任務多語言效果Zhu,Wenhao,et al.Question translation training for better multilingual reasoning.“Findings of ACL 2024.Zhu,Wenhao,et al.The Power of Question Translation Training in Multilingual Reason
35、ing:Broadened Scope and Deepened Insights.arXiv preprint arXiv:2405.01345(2024).Page#Shanghai Artificial Intelligence LPage 47Continual Pretraining-LLaMAX增加LLM支持的語言數量已經是社區關注的重要問題之一。Page#Shanghai Artificial Intelligence LPage 48LLaMAX-數據構成 混入適量比例的英文數據 混合單語和多語數據一起訓練 單語數據 MC4,MADLAD-400 等 多語言的平行數據 例如CC
36、100,ParaCrawl,LegoMT等 Code-switchedXue et al.,mT5:A Massively Multilingual Pre-trained Text-to-Text Transformer,NAACL2021Kudugunta et al.,MADLAD-400:A Multilingual And Document-Level Large Audited Dataset,arXiv2023Banon et al.,ParaCrawl:Web-Scale Acquisition of Parallel Corpora,ACL2020Ji et al.,EMMA
37、-500:Enhancing Massively Multilingual Adaptation of Large Language Models,arXiv2024Yuan et al.,Lego-MT:Learning Detachable Models for Massively Multilingual Machine Translation,Findings of ACL2023Page#Shanghai Artificial Intelligence LPage 49LLaMAX Zero-Shot 性能 在 101 種語言上的平均性能遠超LLM。26.553.837.750.36
38、19.370.4818.870.6220.572.6919.042.2731.8514.16X-EnglishX-NepaliLLaMA3-8BPolyLM-13BYayi2-13BTowerLM-7BAya-23-8BQwen2-7BLLaMAX3-8BPage#Shanghai Artificial Intelligence LPage 50LLaMAX Zero-Shot 性能 相當于 LLM 內嵌了一個專業翻譯模型。28.012.8531.9217.1338.1413.9338.621.8431.8514.16X-EnglishX-NepaliM2M-100-12BAya-101-13
39、BMADLAD-400-7BNLLB-200-1.3BLLaMAX3-8BPage#Shanghai Artificial Intelligence LPage 51LLaMAX 泛化性可以很好的泛化到未見過的語言上Page#Shanghai Artificial Intelligence LPage 52LLaMAX 泛化性 僅用英文任務數據也可以極大提高該任務多語言上的效果Page#Shanghai Artificial Intelligence LPage 53小結 基于預訓練的LLM進行訓練,可以有效提高模型的多語言能力。訓練的方式主要有:Fine-Tuning Continual P
40、retraining 跨語言對齊的問題仍然是聚焦的重點問題Page#Shanghai Artificial Intelligence LPage 54RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artificial Intelligence LPage 55LLM-MT:多語言的落地應用基于LLM的翻譯器,充分利用上下文信息,擁有更強的意譯能力和領域適應力。https:/ Living in chaotic times,even if ones fate may be insignificant like an ant,there are still people wh
41、o strive for what is right and good.Page#Shanghai Artificial Intelligence LPage 56Doc-MT:多語言的落地應用 需要LLM long-context的能力 檢測模型的long-context能力的benchmarkWu,Minghao,et al.Adapting large language models for document-level machine translation.arXiv preprint arXiv:2401.06468(2024).Page#Shanghai Artificial I
42、ntelligence LPage 57學習范式的變化 越獄現象Deng,Yue,et al.Multilingual jailbreak challenges in large language models.arXiv preprint arXiv:2310.06474(2023).Page#Shanghai Artificial Intelligence LPage 58壓縮視角下的LLM 文本壓縮 一次壓縮 Tokenizer 對于輸入 二次壓縮 LLM 對于世界知識Deltang,Grgoire,et al.Language modeling is compression.ICLR 2024Page#Shanghai Artificial Intelligence LPage 59壓縮視角下的LLM 知識壓縮 一次壓縮 Tokenizer 對于輸入 二次壓縮 LLM 對于世界知識Lester,Brian,et al.Training LLMs over Neurally Compressed Text.arXiv preprint arXiv:2404.03626(2024).Page#Shanghai Artificial Intelligence L謝 謝!