當前位置：首頁 > 報告詳情

講習班-大語言模型的多語言能力增強-上海人工智能實驗室.pdf

上傳人：山海編號：627097 2025-04-21 PDF PDF 60頁 3.81MB

該報告所屬合集： 2024第二十屆全國機器翻譯大會嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/60

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《講習班-大語言模型的多語言能力增強-上海人工智能實驗室.pdf》由會員分享，可在線閱讀，更多相關《講習班-大語言模型的多語言能力增強-上海人工智能實驗室.pdf（60頁珍藏版）》請在三個皮匠報告上搜索。

1、Page#Shanghai Artificial Intelligence L大語言模型的多語言能力增強袁袁飛飛上海人工智能實驗室上海人工智能實驗室Page#Shanghai Artificial Intelligence LPage 2RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artificial Intelligence LPage 3大語言模型：LLM模型結構結構基于Transformer架構Decoder-Only架構：僅包含解碼器（decoder）大規模參數：現代LLM的模型參數非常龐大損失函數Next Token Prediction:LLM 的訓練目

2、標是基于輸入文本（12 1）去預測下一個文本()的可能性(|121)。Input EmbeddingTransformer Layer 1Transformer Layer Output EmbeddingTransformer Layer L+Positional EmbeddingInputOutputPage#Shanghai Artificial Intelligence LPage 4LLM強大的通用智能效果 Wei et al.,Emergent Abilities of Large Language Models,TMLR2022Chen et al.,MEGA-Bench:Sc

3、aling Multimodal Evaluation to over 500 Real-World Tasks,arXiv2024LLMLLM翻譯潤色郵件摘要回答日常問題數學代碼Page#Shanghai Artificial Intelligence LPage 5English-Centric 的LLM多語言性能不好英語和非英語的性能差異大。推理任務性能Shi et al.,Language Models Are Multilingual Chain-Of-Thought Reasoners,ICLR2023Zhu et al.,Multilingual Machine Transla

4、tion with Large Language Models:Empirical Results and Analysis,Findings of NAACL2024LLaMA3 翻譯效果Chinese Input:媽媽總是說生活就像一盒巧克力,你永遠不知道你會得到什么。Chinese to English:Mom always says life is like a box of chocolates,you never know what youre gonna get.English to Chinese:媽媽總是說生活就像一盒巧克力,你永遠不知道你會得到什么。Chinese to N

5、epali:,.Nepali to Chinese:我媽媽總是說你玩了凡妮莎的巧克力，你不知道我們給的是什么。Page#Shanghai Artificial Intelligence LPage 6多語言增強的必要性是否有必要進行多語言增強，學好英語是不是就夠了？No!Lu,Yinquan,et al.Llamax:Scaling linguistic horizons of llm by enhancing translation capabilities beyond 100 languages.Findings of EMNLP 20247.963.8310.297.0814.4915

6、.4716.1616.86Nepali-XX-NepaliLLaMA3LLaMA3-pivotLLaMAXLLaMAX-pivotPage#Shanghai Artificial Intelligence LPage 7LLM 性能差的原因1 詞表預訓練的詞表并未適配多語言的需要。Tokenization Ratio=Llama 分詞結果長度/詞級別分詞長度Yuan,Fei,et al.How Vocabulary Sharing Facilitates Multilingualism in LLaMA?.Findings of the Association for Computationa

7、l Linguistics ACL 2024.2024.Page#Shanghai Artificial Intelligence LPage 8LLM 性能差的原因2 數據預訓練數據中覆蓋的語言不多。公開的多語言數據量差異大。LLaMA2 訓練數據MADLAD 多語言數據量差異大Touvron et al,LLaMA2:Open Foundation and Fine-Tuned Chat Models,arXiv2023Kudugunta,Sneha,et al.Madlad-400:A multilingual and document-level large audited data

8、set.Advances in Neural Information Processing Systems 36(2024).Page#Shanghai Artificial Intelligence LPage 9現有的增強方案詞典數據數據收集數據清洗質量提升訓練Fine-TuningContinual PretrainingPage#Shanghai Artificial Intelligence LPage 10RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artificial Intelligence LPage 11詞表常見的詞表構建方式。輸入：The m

9、ost eager is Oregon which is enlisting 5,000 drivers in the countrymosteagerisOregonwhichisenlisting5driversinthecountryWord level(詞級別)ThemosteagerisChar level（字符級別）Sub-word level（子詞級別）mosteagerisOregonwhichisenlisting5,000driver,000TheOregonsinthecountryPage#Shanghai Artificial Intelligence LPage 1

10、2分詞器“Many words dont map to one token:indivisible.”分詞器查找 embedding 表輸入文本子詞文本序列子詞ID序列Embedding的向量矩陣Page#Shanghai Artificial Intelligence LPage 13常見的分詞算法基本切分原則高頻部分在詞表中完整出現低頻詞被切分成多個高頻子詞的集合常用的子詞分詞算法：BPE：Byte Pair EncodingBBPE:Byte-level Byte Pair EncodingSP:SentencePiecePage#Shanghai Artificial Inte

11、lligence LPage 14頻數分詞（BPE）的問題問題1：詞表冗余問題2：對于數字類的token過度關注問題3：頻數和模型訓練關注的token并不一致詞表冗余對數字類token過度關注Page#Shanghai Artificial Intelligence LPage 15改進方案：基于模型分詞使用模型對合成路徑進行打分Yehezkel,Shaked,and Yuval Pinter.Incorporating context into subword vocabularies.“EACL 2023.Page#Shanghai Artificial Intelligence LPag

12、e 16通用詞表和多語言之間的GAP 通用詞表上的英語能正確編碼輸入：Mom always says life is like a box of chocolates,you never know what youre gonna get.Llama分詞結果：M om always says life is like a box of ch oc ol ates,you never know whatyou re g onna get.https:/belladoreai.github.io/llama-tokenizer-js/example-demo/build/多語言的輸入會被過度分詞輸

13、入：,.Llama分詞結果：,.Mom always says life is like a box of chocolates,you never know what youre gonna get.Page#Shanghai Artificial Intelligence LPage 17多語言詞表的挑戰現狀：通用詞表無法充分滿足具體語言/領域的需求挑戰：1.擴展詞表是否就可以增加多語言的支持？2.預訓練的詞表token經過充分訓練，新加token如何有效訓練3.模型訓練新詞表需要和模型主干網絡部分對齊Yehezkel,Shaked,and Yuval Pinter.Incorpora

14、ting context into subword vocabularies.“EACL 2023.Page#Shanghai Artificial Intelligence LPage 18多語言詞表常見的處理方案常見處理策略：不變擴展詞表=增加支持度重新訓練新詞表=更小的壓縮率語言語言中文中文LLM日語日語LLM俄語俄語LLM阿拉伯語阿拉伯語LLM泰語泰語LLM東南亞語東南亞語LLM歐洲語言歐洲語言LLM模型Chinese LLaMASwallow-7BYalm-100bALLaM-70BTyphoonSeaLLMsEuroLLM策略擴展詞表擴展詞表重新學習擴展詞表不變擴展詞表重新訓

15、練是否需要為新的語言擴展詞表Page#Shanghai Artificial Intelligence LPage 19調整詞表的原因 Byte-BPE(BBPE)分詞后的序列長度超過字符長度饕 to(gluttonous)會被分為三個子詞227,234,260 shortening:去掉相同前綴 227Page#Shanghai Artificial Intelligence LPage 20多語言擴展高性價比方案不動詞表（TowerLLM,LLaMAX）Yuan,Fei,et al.How Vocabulary Sharing Facilitates Multilingualism i

16、n LLaMA?.2024.Findings of ACL 2024Alves,Duarte M.,et al.Tower:An open multilingual large language model for translation-related tasks.arXiv preprint arXiv:2402.17733(2024).Lu,Yinquan,et al.Llamax:Scaling linguistic horizons of llm by enhancing translation capabilities beyond 100 languages.Findings o

17、f EMNLP 202405101520enkmenloenguenteFull TuningExtend VocabShortenPage#Shanghai Artificial Intelligence LPage 21Embedding 初始化基礎方案基礎方案：現有token的線性組合 Step 1：從原始Embedding空間轉化得到 Step 2：基于稀疏權重的線性組合Tran,Ke.From english to foreign languages:Transferring pre-trained language models.arXiv preprint Dobler,Kon

18、stantin,and Gerard De Melo.Page#Shanghai Artificial Intelligence LPage 22Embedding 初始化增強方案增強方案：語義相鄰token的線性組合生成輔助空間：借助fastText等工具，為目標詞表生成輔助Embedding 計算語義距離：目標詞表中，新token與pretrained token在輔助空間上的距離初始化非重合token：基于語義距離，線性組合重合token的原始EmbeddingTran,Ke.From english to foreign languages:Transferring pre-tr

19、ained language models.arXiv preprint Dobler,Konstantin,and Gerard De Melo.Page#Shanghai Artificial Intelligence LPage 23Zero-Shot Tokenizer 模型結構用原Tokenizer為神經網絡的token分詞分詞后的序列輸入基于Transformer的神經網絡，生成Embedding 模型訓練迭代采樣數據，生成新的Tokenizer作訓練樣本語言模型loss作為訓練目標對于重合的token，約束網絡生成原始的Embedding作為輔助lossMinixhof

20、er,Benjamin,Edoardo Maria Ponti,and Ivan Vuli.Zero-Shot Tokenizer Transfer.NIPS 2024.Page#Shanghai Artificial Intelligence LPage 24 預定義分詞器依賴特定的分詞規則或者模型對某些語言和領域支持度差 Tokenizer Free不依賴特定的分詞規則或者模型適應性強：處理特定任務和領域更加靈活處理多樣性：對于各種模態的輸入都可以統一處理Page#Shanghai Artificial Intelligence LPage 25Tokenizer Free-字節級輸入缺點

21、：需要增加Transform Layers 或者增大隱藏層大小和前饋網絡維度，補償Embedding參數量Xue,Linting,et al.Byt5:Towards a token-free future with pre-trained byte-to-byte models.“TACL 2022.Page#Shanghai Artificial Intelligence LPage 26Tokenizer Free-Byte-GPT 將所有的輸入都看成一個byte序列優勢：簡化集成難度提高了模型的擴展性Wu,Shangda,et al.Beyond Language Models:By

22、te Models are Digital World Simulators.arXiv preprint arXiv:2402.19155(2024).Page#Shanghai Artificial Intelligence LPage 27小結增加多語言支持高性價比是不動詞表調整詞表支持多語言：新Token的Embedding初始化非常重要降低詞表依賴：Tokenizer Free的方法擴展性強但效果還不夠好Page#Shanghai Artificial Intelligence LPage 28RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artifici

23、al Intelligence LPage 29單語數據-MADLAD 處理流程：去重去掉過短/過長的文本過濾非該語言的文本啟發式過濾規則低資源數據受噪聲影響非常大Kudugunta,Sneha,et al.Madlad-400:A multilingual and document-level large audited dataset.NIPS 2024.Page#Shanghai Artificial Intelligence LPage 30平行數據-Lego-MT 處理流程：統一所有語言的語言編碼統一不同語言文本的預處理融合不同來源的平行數據去重去除不平行的文本去除過長或者過短的文

24、本仍然存在大量信息量很低的噪聲數據Costa-juss,Marta R.,et al.No language left behind:Scaling human-centered machine translation.arXiv preprint arXiv:2207.04672(2022).Yuan,Fei,et al.Lego-MT:Learning Detachable Models for Massively Multilingual Machine Translation.“Findings of ACL 2023.NLLB 公開的數據中仍存在大量噪聲數據Page#Shangha

25、i Artificial Intelligence LPage 31從通用文本到更豐富預訓練數據通用文本主要來自互聯網，網頁數據預訓練：更豐富數據需要關注的domain更加豐富：通用文本/math/code 等預訓練語料處理面臨的挑戰Math 和code即使純英文的數據質量難以評估多語言的math/code 數據獲取難度大Page#Shanghai Artificial Intelligence LPage 32預訓練數據質量示例高質量數學數據包含大量數學相關的符號和內容Page#Shanghai Artificial Intelligence LPage 33預訓練數據質量示例低

26、質量數學數據普通文本內容占比多，數學相關性不大Page#Shanghai Artificial Intelligence LPage 34預訓練數據處理流程-Dolma 處理流程過濾需要的語言質量過濾（如格式問題的數據）內容過濾（如有毒有害的數據）去重 Dolma 開源了數據和處理的ToolkitSoldaini,Luca,et al.Dolma:An open corpus of three trillion tokens for language model pretraining research.ACL 2024.Page#Shanghai Artificial Intellige

27、nce LPage 35預訓練數據處理流程-OpenELM 收集開源的數據集過濾過短的文本字符級別：過濾低于200個字符的文本Token級別：過濾低于256個token的文本Soldaini,Luca,et al.Dolma:An open corpus of three trillion tokens for language model pretraining research.ACL 2024.Page#Shanghai Artificial Intelligence LPage 36數據質量調整模型 ProX 處理流程：訓練一個refining model生成復雜的處理流程調用函數鏈

28、使用python執行器執行函數SCALE,EXPERTS AT.Programming Every Example:Lifting Pre-training Data Quality like Experts at Scale.Page#Shanghai Artificial Intelligence LPage 37數據質量調整模型 Refining Model 構建流程使用強的LLM對文本進行處理流程的標注基于標注結果訓練一個小的模型（Refining Model）利用小的模型進行大規模的數據篩選Page#Shanghai Artificial Intelligence LPage 38數

29、據質量調整模型 ProX中的處理函數涉及的數據處理函數SCALE,EXPERTS AT.Programming Every Example:Lifting Pre-training Data Quality like Experts at Scale.Page#Shanghai Artificial Intelligence LPage 39數據質量調整模型 ProX模型效果基于過濾后的數據進行訓練收斂速度更快模型效果更好SCALE,EXPERTS AT.Programming Every Example:Lifting Pre-training Data Quality like Exp

30、erts at Scale.Page#Shanghai Artificial Intelligence LPage 40多語言預訓練數據處理 LLaMA3 處理流程使用語言識別工具，將文本進行劃分在文檔/句子級別分別進行去重操作使用特定語言啟發式的算法過濾數據基于模型去過濾低質量的數據多語言預訓練質量篩選和評估挑戰速度快（限制了模型大小和使用）對于內容的準確把握Dubey,Abhimanyu,et al.The llama 3 herd of models.arXiv preprint arXiv:2407.21783(2024).Page#Shanghai Artificial Intel

31、ligence LPage 41小結常見的數據處理流程去重質量篩選內容篩選數據篩選并沒有過多考慮多語言的性質（僅包含語言識別）LLM需要的數據更加復雜，給多語言數據帶來更大的挑戰Page#Shanghai Artificial Intelligence LPage 42RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artificial Intelligence LPage 43Fine-Tuning 基本流程收集數據：指令數據格式微調LLM 優點：提高對應任務的能力挑戰：很難提高語言的一致性。很難將英語知識傳導到其他語言。Gao,Changjiang,et al.M

32、ultilingual pretraining and instruction tuning improve cross-lingual knowledge alignment,but only shallowly.NAACL 2024.任務性能增加跨語言一致性沒有明顯增長跨語言知識傳導性指標沒有明顯增長Page#Shanghai Artificial Intelligence LPage 44Fine-Tuning 兩階段訓練方式1：LangBridge 純英文任務數據對齊利用 multilingual LM的encoderYoon,Dongkeun,et al.Langbridge:Mul

33、tilingual reasoning without multilingual supervision.ACL 2024.Page#Shanghai Artificial Intelligence LPage 45Fine-Tuning 兩階段訓練Huang,Zixian,et al.MindMerger:Efficient Boosting LLM Reasoning in non-English Languages.NIPS 2024.方式1：MindMerger對齊通用翻譯數據任意的 Multilingual Encoder Page#Shanghai Artificial Intel

34、ligence LPage 46Fine-Tuning 兩階段訓練方式2：基于數據的兩階段對齊 QAlign 先基于多語言的Question數據促進語言和英語之間的對齊再僅利用純英文的任務數據訓練，可以極大地提高該任務多語言效果Zhu,Wenhao,et al.Question translation training for better multilingual reasoning.“Findings of ACL 2024.Zhu,Wenhao,et al.The Power of Question Translation Training in Multilingual Reason

35、ing:Broadened Scope and Deepened Insights.arXiv preprint arXiv:2405.01345(2024).Page#Shanghai Artificial Intelligence LPage 47Continual Pretraining-LLaMAX增加LLM支持的語言數量已經是社區關注的重要問題之一。Page#Shanghai Artificial Intelligence LPage 48LLaMAX-數據構成混入適量比例的英文數據混合單語和多語數據一起訓練單語數據 MC4，MADLAD-400 等多語言的平行數據例如CC

36、100，ParaCrawl，LegoMT等 Code-switchedXue et al.,mT5:A Massively Multilingual Pre-trained Text-to-Text Transformer,NAACL2021Kudugunta et al.,MADLAD-400:A Multilingual And Document-Level Large Audited Dataset,arXiv2023Banon et al.,ParaCrawl:Web-Scale Acquisition of Parallel Corpora,ACL2020Ji et al.,EMMA

37、-500:Enhancing Massively Multilingual Adaptation of Large Language Models,arXiv2024Yuan et al.,Lego-MT:Learning Detachable Models for Massively Multilingual Machine Translation,Findings of ACL2023Page#Shanghai Artificial Intelligence LPage 49LLaMAX Zero-Shot 性能在 101 種語言上的平均性能遠超LLM。26.553.837.750.36

38、19.370.4818.870.6220.572.6919.042.2731.8514.16X-EnglishX-NepaliLLaMA3-8BPolyLM-13BYayi2-13BTowerLM-7BAya-23-8BQwen2-7BLLaMAX3-8BPage#Shanghai Artificial Intelligence LPage 50LLaMAX Zero-Shot 性能相當于 LLM 內嵌了一個專業翻譯模型。28.012.8531.9217.1338.1413.9338.621.8431.8514.16X-EnglishX-NepaliM2M-100-12BAya-101-13

39、BMADLAD-400-7BNLLB-200-1.3BLLaMAX3-8BPage#Shanghai Artificial Intelligence LPage 51LLaMAX 泛化性可以很好的泛化到未見過的語言上Page#Shanghai Artificial Intelligence LPage 52LLaMAX 泛化性僅用英文任務數據也可以極大提高該任務多語言上的效果Page#Shanghai Artificial Intelligence LPage 53小結基于預訓練的LLM進行訓練，可以有效提高模型的多語言能力。訓練的方式主要有：Fine-Tuning Continual P

40、retraining 跨語言對齊的問題仍然是聚焦的重點問題Page#Shanghai Artificial Intelligence LPage 54RoadMap背景詞表數據訓練機遇與挑戰Page#Shanghai Artificial Intelligence LPage 55LLM-MT:多語言的落地應用基于LLM的翻譯器，充分利用上下文信息，擁有更強的意譯能力和領域適應力。https:/ Living in chaotic times,even if ones fate may be insignificant like an ant,there are still people wh

41、o strive for what is right and good.Page#Shanghai Artificial Intelligence LPage 56Doc-MT：多語言的落地應用需要LLM long-context的能力檢測模型的long-context能力的benchmarkWu,Minghao,et al.Adapting large language models for document-level machine translation.arXiv preprint arXiv:2401.06468(2024).Page#Shanghai Artificial I

42、ntelligence LPage 57學習范式的變化越獄現象Deng,Yue,et al.Multilingual jailbreak challenges in large language models.arXiv preprint arXiv:2310.06474(2023).Page#Shanghai Artificial Intelligence LPage 58壓縮視角下的LLM 文本壓縮一次壓縮 Tokenizer 對于輸入二次壓縮 LLM 對于世界知識Deltang,Grgoire,et al.Language modeling is compression.ICLR 2024Page#Shanghai Artificial Intelligence LPage 59壓縮視角下的LLM 知識壓縮一次壓縮 Tokenizer 對于輸入二次壓縮 LLM 對于世界知識Lester,Brian,et al.Training LLMs over Neurally Compressed Text.arXiv preprint arXiv:2404.03626(2024).Page#Shanghai Artificial Intelligence L謝謝！

相關圖表

本文主要介紹了大語言模型（LLM）的多語言能力增強方法。首先，作者指出LLM在非英語語言上的表現不佳，主要原因是預訓練詞表未適配多語言需求，以及預訓練數據中覆蓋的語言不多。接著，作者詳細介紹了詞表構建、數據處理、模型訓練等方法來增強LLM的多語言能力。其中，詞表構建方面，提出了基于模型分詞和使用模型對合成路徑進行打分的方法；數據處理方面，提出了數據篩選和質量調整模型；模型訓練方面，提出了微調（Fine-Tuning）和持續預訓練（Continual Pretraining）等方法。最后，作者指出LLM在多語言翻譯和文檔級機器翻譯等應用中的潛力，以及LLM在壓縮視角下的文本壓縮和知識壓縮等新方向。

如何提高LLM的多語言能力？數據處理對LLM多語言性能有何影響？如何利用LLM進行多語言翻譯？

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站