《商恒超-盤古多語言大模型業務落地探索.pdf》由會員分享,可在線閱讀,更多相關《商恒超-盤古多語言大模型業務落地探索.pdf(47頁珍藏版)》請在三個皮匠報告上搜索。
1、盤古多語言大模型業務落地探索 華為2012文本機器翻譯實驗室/商恒超提綱機器翻譯Lab-業務動機泰語&阿語大模型現狀盤古大模型支持多語言(TH/AR)的實現基于RAG的呼叫中心提效基于Agent的個性化營銷活動機器翻譯Lab-業務動機機器翻譯Lab業務與動機傳統模型時代傳統模型時代:支撐內部(華為云、終端、資料)翻譯訴求同聲傳譯大模型時代大模型時代:大模型機器翻譯:使用LLM提升翻譯能力翻譯輔助LLM:大模型翻譯相關任務增強、多語言大模型(數據、策略)承接承接翻譯根技術翻譯根技術泰語&阿語大模型現狀泰語&阿語大模型現狀2022年OpenAI ChatGPT的出現,率先展現出大模型的無限潛力,掀
2、起了Decode-Only架構大模型的研究浪潮泰語&阿語大模型現狀目前的大模型主要以英文、中文為主,對中低資源語種的支持較少目前支持泰語的大模型ChatGPT/GPT-4、LLama3.1PolyLMWangChanGLMTyphoon支持阿語的大模型:ChatGPT/GPT-4JaisAceGPT泰語&阿語大模型現狀泰語、阿語(低資源語種)大模型需求與發展的矛盾語言使用人口數量高 vs.語言數據占比低Llama 2:2萬億token語言分布語言人口數據泰語&阿語大模型現狀泰語、阿語(低資源語種)大模型需求與發展的矛盾單語數據稀缺,訓練資源昂貴對話數據稀缺,尤其是多輪對話人類偏好數據稀缺,RL
3、HF訓練繁瑣如何直接將高資源語言知識遷移至低資源語言?盤古大模型支持多語言的實現(泰語為例)盤古大模型支持多語言的實現機器翻譯橋接-最樸素(No Training)機器翻譯+高資源語種大模型Work Well問題:錯誤傳遞、文化風格、知識缺失等泰語Question泰英翻譯英語大模型英泰翻譯泰語Answer盤古大模型支持多語言的實現開源常規適配訓練范式:以Typhoon為例(Training)Base LLM:Mistral-7B擴詞表:增加5K泰語tokenCPT(Continue PreTraining):50/50比率的泰英數據SFT(Supervised Fine-Tuning)盤古大模
4、型支持多語言的實現Training范式的分析:只用泰語數據?英文+泰語的混合基于Base模型做適配?基于Instruct模型?英文知識會被遺忘,等同重訓 注入泰語知識的同時,緩解災難性遺忘 泰語對話能力需要重新構建 強英文對話能力可以服務于泰語(Helpfulness&Safety)盤古大模型支持多語言的實現再次思考“翻譯橋接”把機器翻譯做到LLM中,變成一種思維鏈(CoT)Step1:LLM將泰語問題翻譯為英文問題Step2:LLM給出英文回答Step3:LLM將英文答案翻譯為泰語答案盤古大模型支持多語言的實現基于翻譯思維鏈(MT-COT)的方式 利用LLM知識,翻譯質量更好 非級聯系統,緩
5、解錯誤傳遞 實現泰語英語知識更好的對齊 LLM越強,COT后泰語能力越強盤古大模型支持多語言的實現顯式MT-CoT要解決的問題:泰語知識的注入,以及英文知識的保留 EN-TH 雙向翻譯能力的增強顯式MT-COT的問答模式的學習LLM英文對話能力的保留盤古大模型支持多語言的實現模型結構與適配策略:必要時擴展詞表使用LoRA減少對基礎模型的擾動多階段訓練,任務拆解盤古大模型支持多語言的實現MT-COT的三階段訓練策略階段1:擴展泰語詞表,泰語數據CPT(泰語知識注入)階段2:英泰雙向翻譯+英文單語CPT(跨語言對齊+英文能力保持)Sent_TH Sent_EN,Sent_EN Sent_TH階段3
6、:MT-COT能力遷移SFTRecovery KD:Query_EN Response_EN-KD(英文對話能力召回)MT-COT:Query_TH Query_EN Response_EN Response_THEN-TH MT:Translation prompt(En,TH)(翻譯能力激活)盤古大模型支持多語言的實現MT-COT的訓練配置 Base LLM:Pangu13B-Instruct、Llama2/3 TH 單語:10B 泰語MC4+數據工程 EN-TH MT:100W 自有高質量 SFT數據:Alpaca/自有SFT+翻譯 訓練平臺:華為云 ModelArt+D910B*512
7、盤古大模型支持多語言的實現問題:林先生在暹羅商業銀行存有問題:林先生在暹羅商業銀行存有5 5萬泰銖,定期存款萬泰銖,定期存款3 3年,林先生能賺多少利息?年,林先生能賺多少利息?SFT:存了3年,林將賺取11固定周的利息,成本為1利息。由于林有50,000泰銖,利息將是11利息,即11 x 11 x 5泰銖=575泰銖,利息 575 泰銖 x 3 年=1725 泰銖CoT-MT:50,000泰銖的3年期定期存款的利息是根據此時的當前利率計算的,當前的利率是標準的0.03正常,所以林的3年期固定利息將是50,000泰銖x 0.03正常x 3=4,500泰銖。但是,利率定期波動。因此,有必要現在就
8、查看當前的利率,看看最準確的利率。問題:有的月份有問題:有的月份有3030天,有的月份有天,有的月份有3131天,有多少個月有天,有多少個月有2828天?天?SFT:有 2 個月,共 28 天:二月。和十一月CoT-MT:閏年沒有一個月有 28 天。常規日歷格式一年有 365 天,常規日歷格式閏年有 366 天。有 28 天的月份是二月。盤古大模型支持多語言的實現實驗結果GPT-4 與 人工測評對話能力:單輪+多輪翻譯能力安全性盤古大模型支持多語言的實現GPT-4 打分與人工測評一致性盤古大模型支持多語言的實現開源LLama2/3 MT-Bench 驗證試驗結果:盤古大模型支持多語言的實現Pa
9、ngu13B-TH:AlpacaEval(GPT-4打分0-10)5個不同數據集上的單輪對話問題盤古大模型支持多語言的實現Pangu13B-TH:MT-Bench 多輪能力強于ChatGPT高質量多輪對話測試集:8大類別盤古大模型支持多語言的實現MT-Bench:人工評測,代碼和抽取能力項上弱于ChatGPT盤古大模型支持多語言的實現客戶人工測評:泰語達到GPT-4的103分為,阿語為90.2分位 盤古大模型支持多語言的實現MT-Bench上的消融實驗盤古大模型支持多語言的實現MT-Bench Case分析第一輪:評價兩款智能手機的提綱,少于200字第二輪:將以上內容改寫為五行打油詩(Lime
10、rick)ChatGPT重復第一輪答案:Ours成功改寫為打油詩:!:Sure!Heres a limerick about the two smartphones being compared:There once were two smartphones so fine,With features that made them truly divine.Their displays were bright and clear,Their cameras took pictures so dear,And their performance was simply divine.盤古大模型支持
11、多語言的實現翻譯能力評估(FLORES測試集)模型模型語項語項BLEUCOMETChatGPT英-泰31.260.8547Transformer英-泰36.270.8506盤古大模型英-泰33.990.8677模型模型語項語項BLEUCOMETChatGPT泰-英23.470.8629Transformer泰-英27.820.8645盤古大模型泰-英27.680.8756盤古大模型支持多語言的實現安全性:在AdvBenchmark數據集上優于GPT-4攻擊大模型數據集盤古大模型支持多語言的實現顯示MT-COT隱式化嘗試(AR):策略:策略:知識蒸餾+對比偏好數據與訓練:數據與訓練:DPO 算法
12、+Alpaca52K結果:結果:聯合訓練提升了顯式能力?DPO對First Turn有一定效果盤古大模型支持多語言的實現在深入一層:顯式的COT過程隱式化(進行中)語言Code-Switch:對話中Code-Switch的增強隱藏顯式翻譯COT過程,但結果看齊翻譯COT知識路由:世界知識走英文,泰語專有知識額外注入基于RAG的呼叫中心提效基于RAG的呼叫中心提效泰國金融客戶:通過大模型更好的整理客戶數據,提升效果Contact CenterAgent(Manual customer)Pangu LLMCUSTOMEROnebox,Sharepoint,Excel,and etcAS-ISMan
13、ual Search is inefficientTo-Be Intelligent Search2 21 1How to report the loss of a credit cardHow to cancel a credit cardHow to cancel a credit card0 0API and GUITo cancel a credit card here are the stepsWork order system3 3Summarize the task problems and solution基于RAG的呼叫中心提效KooSearch:大模型時代的搜索引擎基于RA
14、G的呼叫中心提效我們的方案:KooSearch+Pangu LLMQueryQueryUserUserSearch for Top N possible Search for Top N possible answersanswersChatChatPangu AIPangu AIGenerate the final Generate the final answeranswerDirect output when the matching Direct output when the matching threshold is reachedthreshold is reachedQuery
15、 Query classificationclassificationQ1A1Q2A2Q3A3KTC service-relatedKTC service-relatedquestionsquestionsAnswerAnswerSolution highlights:Solution highlights:KTC knowledge-based RAG-AccurateAccurate KooSearch+Pangu LLM as an assistant-IntelligentIntelligent Answer output in seconds-EfficientEfficient Both Thailand and English supported-BilingualBilingual基于RAG的呼叫中心提效關鍵技術指標Query分類(2分類:業務QA+閑聊QA):F1 0.99業務QA(問題解決率):人工評測90%,可基本滿足業務需要閑聊QA(多輪能力):人工評測達GPT-4的80分位基于Agent的個性化營銷活動基于Agent的個性化營銷活動客戶需求 個性化商家推薦 商家精確信息查詢 Query理解:NL2SQL Agent調用基于Agent的個性化營銷活動方案拆解:讓大模型做擅長的事情