《1-黃裕城 -海外游戲場景的大模型落地實踐.pdf》由會員分享,可在線閱讀,更多相關《1-黃裕城 -海外游戲場景的大模型落地實踐.pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、演講嘉賓:黃裕城-騰訊黃裕城騰訊海外游戲算法研究員 2022年加入騰訊IEG Global,主要從事游戲出海場景NLP&Speech算法的研究與落地 研究方向:多模態理解,大語言模型,AI智能體等1角色扮演的數據構造流程是什么?2角色扮演大模型如何進行訓練?3角色扮演的評測體系如何構建?1游戲場景下機器翻譯的挑戰有哪些?2機器翻譯如何有效利用大模型能力?3游戲場景下機器翻譯怎么持續優化?1角色扮演的數據構造流程是什么?2角色扮演大模型如何進行訓練?3角色扮演的評測體系如何構建?角色扮演大模型通用大模型的答案具有一種濃濃的Assistant語氣,具體來說就是很官方、書面,具有強烈的說教口吻,不夠
2、口語化角色扮演大模型旨在為游戲中的 NPC(非玩家角色)提供可定制的、高度擬人化的有情緒、有溫度的交互維度通用AI角色AI句式表達句式完整;書面語非統一格式;口語化情緒無有立場中立有偏好道德約束高隨人設,不設限角色檔案 角色設定“5+3”原則:基本要素:姓名、性別、年齡、性格和背景附加要素:動作表情、對話風格和角色知識 場景構建三要素:對話場景+對話者+對話者關系角色扮演數據集構建數據來源 多來源人設的角色數據,包括小說、劇本、游戲等 針對游戲特定的情境,采集相關的類別數據,如奇幻、科幻、歷史、二次元等題材Stage I:Supervised FTStage II:Retrieval Augm
3、ented FT+知識注入對話數據角色扮演對話數據Stage III:Preference FT+偏好拒絕對話數據通用世界知識角色特定知識安全問題防越獄認知邊界懂拒絕角色扮演大模型訓練:Staging Train小說劇本對話抽取對話改寫和用戶一起完成某個虛擬情節的演繹強化角色的邏輯性和知識表達能力會造成一定的角色扮演能力的損失+情節、旁白描述性文本角色扮演超擬人通用指令語料相似問答檢索角色對話改寫劇情片段劇情對話訪談角色對話改寫強化模型的角色知識和RAG能力角色扮演喪失邏輯能力角色扮演無所不知百曉生安全問題收集多回答生成邊界問題構造DPO專家校驗純對話語料打分模型評估評估準則1.Convers
4、ational Ability(評價角色的基本語言能力)a)Language Fluency:語言的流暢程度,原則讓人感覺到流暢,擬人,不生硬,不嚴格考慮語法。b)Language Relevance:角色是否能正確對當前話題做出反應,不談無關的信息,即Instruction Following 的能力。2.Character Consistency Ability(評價角色的基本特點)a)Role-specific Tone:具有角色特點的用詞和口吻,以及產生恰當的描述性旁白b)Role Knowledge:主要包含2部分,對基礎知識的掌握,以及角色知識的掌握3.Character Attr
5、activeness(評價角色的高級特點)a)Emotional Expression:在恰當的情形下,表現符合角色特點的情緒和性格。b)Interactive Engagement:沉浸感強,讓人有繼續溝通下去的沖動角色扮演評估框架搭建角色扮演Benchmark評估評分是0-3之間的值,以下為每個類別的區分點的整體性定義:0 -針對某條評價準則,對話中存在負向表現1 -對話不涉及這條評價準則,或者勉強涉及但基本不能滿足2 -對話涉及這條評價準則,且基本滿足3 -對話涉及這條評價準則,且完美滿足這條評價標準He,Huang,et al.Crab:A Novel Configurable Rol
6、e-Playing LLM with Assessing Benchmark.角色扮演對話案例對比1游戲場景下機器翻譯的挑戰有哪些?2機器翻譯如何有效利用大模型能力?3游戲場景下機器翻譯怎么持續優化?隨著全球市場的擴展,本地化已成為游戲開發不可或缺的一部分。游戲本地化的需求主要源于全球市場的廣泛覆蓋和文化差異的適應,旨在提供符合當地文化習慣和語言的游戲體驗。游戲本地化翻譯游戲版本內翻譯用戶社交翻譯運營活動翻譯離線短文本離線長文本實時對話文本系統類用詞固定劇情類偏創意性要求克服文化差異文本風格差異性大拼寫、語法錯誤術語俚語和習語傳統的翻譯解決方案比如 Google 翻譯、DeepL 翻譯使用中小
7、型的 AI 模型,雖然在常規文本上表現出色,但是在游戲領域的文本上卻表現得不如人意。需要理解游戲術語原文谷歌翻譯正確翻譯解釋還以為有大招了I thought I had a big movethought there was ultimate術語表中,“大招”對應“ultimate”中路看地圖不Cant you look at the map in the middle?did you see the map,middle lane?中路對應“middle lane”需要理解游戲黑話需要理解游戲語境加個微Add a microAdd my WeChat“微”是“微信”的縮寫like for l
8、ike喜歡對喜歡互相點贊網絡用語push la stup!d推拉斯塔普!d快推啊笨蛋la是東南亞常用語氣詞,“stup!d”是stupid的故意拼寫錯誤。就是菜Just foodjust a noob”菜“是網絡用語,意思是游戲水平不高明明不會勾,為什么又要選鐘馗了?Why choose Zhong Kui when you obviously cant seduce him?Why did you pick Kui again when you cant hook?“勾”是指鐘馗”鉤子“的技能,而不是勾引。any girl wan a play任何女孩都想玩有女孩想玩嗎想表達有沒有女生一起玩
9、游戲本地化翻譯的難點文檔chunks游戲領域embedding翻譯任務檢索器語種識別評估智能體改進專家語料庫西方語種中文東亞東南亞語種針對翻譯結果提出修改建議根據修改建議重新生成翻譯定制小語種翻譯模型千億參數,3000億 token訓練語料,西方語系表現優異萬億參數,采用混合專家模型(MOE),中英文表現優商業大模型定制翻譯模型預訓練檢索增強指令微調人類反饋偏好學習游戲領域增量預訓練Prompt檢索游戲本地化翻譯技術框架基于大模型的多語言理解能力和知識注入能力,采用檢索增強生成(RAG)+檢索增強指令微調方案,并通過評估反饋修正的自動化流程持續積累專家語料,迭代優化翻譯性能。專家語料庫檢索增強
10、指令微調在微調期間如何整合上下文中的檢索增強,以增強模型在游戲領域內回答問題的性能?1.使LLM更好地利用相關背景知識進行預測2.通過訓練模型忽略不貢獻于回答特定問題的檢索知識,從而消除干擾。SFTRAITsampled negative termsqueryqueryRetrieverLLMRetriever Fine-tuningRetrieval Augmented Instruction Tuningminmin 1 1,2 2,max 1 max 2 不是哥們兒,你瀾紅開啊Translate this Chinese text into English:Reference:紅開 Cr
11、imson Golem;Text:不是哥們兒,你瀾紅開啊Bro,really?You have to start with Crimson Golem when playing Lam.Bro,really?You have to start with Crimson Golem when playing Lam.Translate this Chinese text into English:Reference:藍開 Azure Golem;Text:不是哥們兒,你瀾紅開啊不是哥們兒,你瀾紅開啊不是哥們兒,你瀾紅開啊紅開Crimson Golem紅開 Crimson Golem藍開 Azur
12、e Golem波瀾 fluctuations紅隊 Red TeamLin,Xi Victoria,et al.Ra-dit:Retrieval-augmented dual instruction tuning.arXiv preprint arXiv:2310.01352(2023).Zhang,Tianjun,et al.Raft:Adapting language model to domain specific rag.arXiv preprint arXiv:2403.10131(2024).LLM離線翻譯評估優化策略基于 翻譯評估修正 多智能體鏈路,支持自動評估翻譯質量,并提供詳細
13、的質量評估解釋和建議。此外還能從大量的數據中自動提取潛在的新術語,持續提升翻譯質量。Feng,Zhaopeng,et al.Improving llm-based machine translation with systematic self-correction.arXiv preprint arXiv:2402.16379(2024).語言對GoogleOurs中文-馬來36.41%71.24%英文-馬來57.09%81.82%馬來-中文18.50%73.50%馬來-英文37.13%79.00%中文-英文51.80%87.63%英文-中文53.38%92.93%英文-印尼68.66%84
14、.08%印尼-英文38.89%57.07%馬來-印尼58.42%64.85%印尼-馬來48.14%65.37%平均準確率46.84%75.74%語言對GoogleOurs中文-馬來34.8168.53英文-馬來39.8771.61馬來-中文43.8167.53馬來-英文51.8147.85中文-英文27.7871.67英文-中文31.9772.82英文-印尼49.8669.82印尼-英文46.5970.43馬來-印尼45.2460.53印尼-馬來43.8464.31平均得分41.5666.51傳統指標難以準確評估實際需求Bleu Score專家評估游戲場景下,尤其是創意性文本,傳統基于 N-Gram 的機器翻譯評估指標與業務標準間可能存在偏差,無法反應實際翻譯質量專家為主,指標為輔 從產品場景出發,如何理解大模型的能力邊界與限制?如何針對內容生成,特別是創意類,做更客觀的模型評估?如何對大模型數據做持續的質量提升?大模型未來能創造什么有價值的場景?演講嘉賓:黃裕城-騰訊