《盤古泰語大模型業務落地探索-張敏.pdf》由會員分享,可在線閱讀,更多相關《盤古泰語大模型業務落地探索-張敏.pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、盤古泰語大模型業務落地探索 華為2012文本機器翻譯實驗室/張敏提綱泰語大模型現狀盤古大模型支持泰語的實現基于RAG的呼叫中心提效基于Agent的個性化營銷活動泰語大模型現狀泰語大模型現狀2022年OpenAI ChatGPT的出現,率先展現出大模型的無限潛力,掀起了Decode-Only架構大模型的研究浪潮泰語大模型現狀目前的大模型主要以英文、中文為主,對中低資源語種的支持較少目前支持泰語的大模型ChatGPT/GPT-4PolyLMWangChanGLMTyphoon泰語大模型現狀中低資源語種大模型的訓練范式:以Typhoon為例Base LLM:Mistral-7B擴詞表:增加5K泰語t
2、okenCPT(Continue PreTraining):50/50比率的泰英數據SFT(Supervised Fine-Tuning)泰語大模型現狀泰語(低資源語種)大模型需求與發展的矛盾語言使用人口數量高 vs.語言數據占比低Llama 2:2萬億token語言分布語言人口數據泰語大模型現狀泰語(低資源語種)大模型需求與發展的矛盾單語數據稀缺,訓練資源昂貴對話數據稀缺,尤其是多輪對話人類偏好數據稀缺,RLHF訓練繁瑣如何直接將高資源語言知識遷移至低資源語言?盤古大模型支持泰語的實現盤古大模型支持泰語的實現再次思考CPT:只用泰語數據?英文+泰語的混合能不能借助英文的知識來回答泰語的問題?
3、英文知識會被遺忘,等同重訓 借助英文知識來加速泰語的學習YES!YES!盤古大模型支持泰語的實現最樸素的實現方式機器翻譯+高資源語種大模型Work Well問題:錯誤傳遞、文化風格、知識缺失等泰語Question泰英翻譯英語大模型英泰翻譯泰語Answer盤古大模型支持泰語的實現再次思考思維鏈把機器翻譯做到LLM中,變成一種思維鏈(CoT)Step1:將泰語問題翻譯為英文問題Step2:LLM給出英文回答Step3:將英文答案翻譯為泰語答案盤古大模型支持泰語的實現基于思維鏈翻譯(CoT-MT)的方式把機器翻譯通過LLM來實現,作為思維鏈 利用LLM知識,翻譯質量更好 非級聯系統,緩解錯誤傳遞 實
4、現泰語英語知識更好的對齊盤古大模型支持泰語的實現CoT-MT的三階段訓練策略階段1:擴展泰語詞表,泰語數據CPT階段2:英泰雙向翻譯訓練Sent_TH Sent_EN,Sent_EN Sent_TH階段3:翻譯思維鏈SFTQuery_TH Query_EN Response_EN Response_THQuery_EN Response_EN 盤古大模型支持泰語的實現CoT-MT的訓練方式 盤古13B基座模型 10B泰語數據 100W英泰平行數據 SFT數據:Alpaca數據+翻譯 LoRA方式訓練盤古大模型支持泰語的實現問題:林先生在暹羅商業銀行存有問題:林先生在暹羅商業銀行存有5 5萬泰銖
5、,定期存款萬泰銖,定期存款3 3年,林先生能賺多少利息?年,林先生能賺多少利息?SFT:存了3年,林將賺取11固定周的利息,成本為1利息。由于林有50,000泰銖,利息將是11利息,即11 x 11 x 5泰銖=575泰銖,利息 575 泰銖 x 3 年=1725 泰銖CoT-MT:50,000泰銖的3年期定期存款的利息是根據此時的當前利率計算的,當前的利率是標準的0.03正常,所以林的3年期固定利息將是50,000泰銖x 0.03正常x 3=4,500泰銖。但是,利率定期波動。因此,有必要現在就查看當前的利率,看看最準確的利率。問題:有的月份有問題:有的月份有3030天,有的月份有天,有的月
6、份有3131天,有多少個月有天,有多少個月有2828天?天?SFT:有 2 個月,共 28 天:二月。和十一月CoT-MT:閏年沒有一個月有 28 天。常規日歷格式一年有 365 天,常規日歷格式閏年有 366 天。有 28 天的月份是二月。盤古大模型支持泰語的實現實驗結果單輪對話能力多輪對話能力翻譯能力安全性盤古大模型支持泰語的實現AlpacaEval:GPT-4打分(0-10),僅差于GPT-45個不同數據集上的單輪對話問題盤古大模型支持泰語的實現MT-Bench:GPT-4打分(0-10)多輪能力強于ChatGPT高質量多輪對話測試集:8大類別盤古大模型支持泰語的實現MT-Bench:人
7、工評測,代碼和抽取能力項上弱于ChatGPT盤古大模型支持泰語的實現MT-Bench上的消融實驗盤古大模型支持泰語的實現MT-Bench Case分析第一輪:評價兩款智能手機的提綱,少于200字第二輪:將以上內容改寫為五行打油詩(Limerick)ChatGPT重復第一輪答案:Ours成功改寫為打油詩:!:Sure!Heres a limerick about the two smartphones being compared:There once were two smartphones so fine,With features that made them truly divine.T
8、heir displays were bright and clear,Their cameras took pictures so dear,And their performance was simply divine.盤古大模型支持泰語的實現翻譯能力評估(FLORES測試集)模型模型語項語項BLEUBLEUCOMETCOMETChatGPT英-泰31.260.8547Transformer英-泰36.270.8506盤古大模型英-泰33.990.86770.8677模型模型語項語項BLEUBLEUCOMETCOMETChatGPT泰-英23.470.8629Transformer泰-英2
9、7.820.8645盤古大模型泰-英27.680.86970.8697盤古大模型支持泰語的實現安全性:在AdvBenchmark數據集上優于GPT-4攻擊大模型數據集基于RAG的呼叫中心提效基于RAG的呼叫中心提效泰國金融客戶:通過大模型更好的整合客戶數據,提升效果Contact CenterAgent(Manual customer)Pangu LLMCUSTOMEROnebox,Sharepoint,Excel,and etcAS-ISManual Search is inefficientTo-Be Intelligent Search21How to report the loss o
10、f a credit cardHow to cancel a credit cardHow to cancel a credit card0API and GUITo cancel a credit card here are the stepsWork order system3Summarize the task problems and solution基于RAG的呼叫中心提效KooSearch:大模型時代的搜索引擎基于RAG的呼叫中心提效我們的方案:KooSearch+Pangu LLMQueryUserSearch for Top N possible answersChatPang
11、u AIGenerate the final answerDirect output when the matching threshold is reachedQuery classificationQ1A1Q2A2Q3A3KTC service-relatedquestionsAnswerSolution highlights:KTC knowledge-based RAG-Accurate KooSearch+Pangu LLM as an assistant-Intelligent Answer output in seconds-Efficient Both Thailand and
12、 English supported-Bilingual基于RAG的呼叫中心提效關鍵技術指標Query分類(2分類:業務QA+閑聊QA):F1 0.99業務QA(問題解決率):人工評測90%,可基本滿足業務需要閑聊QA(多輪能力):人工評測達GPT-4的80分位基于Agent的個性化營銷活動基于Agent的個性化營銷活動客戶需求 個性化商家推薦 商家精確信息查詢 Query理解:NL2SQL Agent調用基于Agent的個性化營銷活動方案拆解:讓大模型做擅長的事情大模型比賽成績大模型比賽成績個性化營銷活動個性化營銷活動SemEval 2024 國際語義評測大賽大模型法律領域知識推理任務,第一名無監督語義相似度旁遮普語項,第一名大模型反常識推理任務,第二名ACL 2024 Shared Task基于大模型的知識圖譜問答比賽,第二名WSDM 2024 CUP基于大模型的多文檔問答比賽,第三名