1、1大模型推動的人機交互對話百度自然語言處理部 鮑思琪2對話系統概覽 任務型對話系統 完成特定任務,定鬧鐘、播放歌曲等等 Apple Siri、Amazon Alexa、Baidu Xiaodu 開放域對話系統 能在開放領域內,進行有意義地對話 Google Meena、Meta Blender、Baidu PLATO3端到端對話生成 對話系統的新機遇 網絡架構 Encoder 編碼對話上文 Decoder 生成對話回復 訓練語料 人人對話語料 訓練目標 Minimize Negative Log-Likelihood4開放域對話面臨的挑戰內容空洞、缺乏信息知識濫用5百度 PLATO內容空洞、缺
2、乏信息知識濫用基于隱變量的預訓練對話生成技術融合知識的弱監督對話生成模型實現了開放域下更合理、更多樣化的生成提升了對話豐富度和知識準確率6開放域對話“一對多”問題 對話語料背景復雜,使得對話成為一個一對多問題 一 一映射的神經網絡,容易產生安全回復7PLATO-1 隱空間對話生成模型8PLATO-1 效果示例9PLATO-2 基于課程學習的通用對話模型 網絡規模:16億參數 32層 訓練語料:深度清洗后中文語料12億(千億級Token),英文語料7億(千億級Token)Unified TransformerCurriculum LearningDiverse GenerationRespons
3、e Evaluation10PLATO-2 基于課程學習的通用對話模型 開放域閑聊模型 PLATO-2 是否可賦能任務型或者知識對話?11PLATO-2 in DSTC-9在 DSTC9 三個賽道6 項任務中,取得了5 項冠軍12PLATO-XL 首個百億參數中/英文對話生成模型13PLATO 對話效果50%60%70%80%90%100%合理性豐富度吸引度中文多輪開放域聊天評估百度小冰小愛天貓精靈圖靈40%50%60%70%80%90%100%合理性豐富度吸引度英文多輪開放域聊天評估百度PLATODialoGPTMeenaBlender14PLATO 對話效果15百度 PLATO內容空洞、缺
4、乏信息知識濫用基于隱變量的預訓練對話生成技術融合知識的弱監督對話生成模型實現了開放域下更合理、更多樣化的生成提升了對話豐富度和知識準確率16知識濫用17融合外部知識 融合外部知識,有希望改善知識濫用問題 挑戰 大規模對話語料,缺乏外部知識選擇的標簽信息18PostKS 基于后驗指導的知識選擇PostKS 訓練過程19PLATO-KAG 基于聯合優化的無監督知識對話 聯合建模 知識選擇&基于知識的回復生成 訓練、推理一致 端到端優化提升回復對知識的利用能力20PLATO 全面知識增強對話21PLATO 融合知識對話效果22知識濫用 知識濫用問題,這是解決了嗎?Not yet,緩解而已 開放域對話
5、提升知識能力的幾個關鍵點 外部知識的觸發時機 知識選擇的準確性 回復中知識利用的合理性及保真度23對話大模型落地應用、挑戰及展望24落地應用25落地應用26落地應用遇到的挑戰 推理性能 極致算子融合減少 98%算子數量 計算精度優化減少 40%顯存 推理卡適配 A10 降低使用成本 架構優化及平臺遷移降低鏈路開銷優化效果優化前(V100)優化后(A10)優化比例模型推理耗時1.2s292ms降低 75.67%QPS0.833.42提升 312.05%1QPS GPU 使用成本2141元/月201元/月降低 90.61%穩定性99.6%99.99%27落地應用遇到的挑戰 對話安全性 挑戰 對話安
6、全涵蓋面較廣,包括有害言論、群體歧視、政治敏感、個人隱私等等 不同群體的安全性側重存在差異 優化策略 語料深度清洗,刪去不安全對話樣本 安全判別模型,移除不安全候選回復 維護關鍵詞表,針對用戶敏感話題返回預定回復 對抗攻擊訓練,查漏補缺提升安全性28展望連貫,流暢,豐富,跨領域人設,情感,常識,專業知識人格,思辨,縝密推理領域內問答,特定任務處理,兜底道阻且長,行則將至行而不輟,未來可期29ReferenceSiqi Bao,Huang He,Fan Wang,Hua Wu and Haifeng Wang.PLATO:Pre-trained Dialogue Generation Model
7、 with Discrete Latent Variable.ACL 2020.Siqi Bao,Huang He,Fan Wang,Hua Wu,Haifeng Wang,Wenquan Wu,Zhen Guo,Zhibin Liu,Xinchao Xu.PLATO-2:Towards Building an Open-Domain Chatbot via Curriculum Learning.Findings of ACL 2021.Huang He,Hua Lu,Siqi Bao,Fan Wang,Hua Wu,Zhengyu Niu,Haifeng Wang.Learning to
8、Select External Knowledge with Multi-Scale Negative Sampling.AAAI 2021 DSTC9 Workshop.Siqi Bao,Bingjin Chen,Huang He,Xin Tian,Han Zhou,Fan Wang,Hua Wu,Haifeng Wang,Wenquan Wu,Yingzhan Lin.A Unified Pre-training Framework for Conversational AI.AAAI 2021 DSTC9 Workshop.Siqi Bao,Huang He,Fan Wang,Hua W
9、u,Haifeng Wang,Wenquan Wu,Zhihua Wu,Zhen Guo,Hua Lu,Xinxian Huang,Xin Tian,Xinchao Xu,Yingzhan Lin,Zhengyu Niu.PLATO-XL:Exploring the Large-scale Pre-training of Dialogue Generation.arXiv:2109.09519.Rongzhong Lian,Min Xie,Fan Wang,Jinhua Peng,Hua Wu.Learning to Select Knowledge for Response Generati
10、on in Dialog Systems.IJCAI 2019.Xinxian Huang,Huang He,Siqi Bao,Fan Wang,Hua Wu,Haifeng Wang.PLATO-KAG:Unsupervised Knowledge-Grounded Conversation via Joint Modeling.NLP4ConvAI workshop 2021.Xinchao Xu,Zhibin Gou,Wenquan Wu,Zheng-Yu Niu,Hua Wu,Haifeng Wang,Shihang Wang.Long Time No See!Open-Domain Conversation with Long-Term Persona Memory.Findings of ACL 2022.