《9-6預訓練的應用挑戰與實踐探索.pdf》由會員分享,可在線閱讀,更多相關《9-6預訓練的應用挑戰與實踐探索.pdf(42頁珍藏版)》請在三個皮匠報告上搜索。
1、預訓練的應用挑戰與實踐探索 小米AI實驗室NLP團隊 崔建偉 2020-07-25 預訓練簡介 預訓練應用挑戰 預訓練實踐探索 總結 分享大綱 預訓練簡介 詞向量 靜態 Word Embedding 上下文相關 Word Embedding CBOW/Skip-GramEmbedding Matrix 任務相關: 任務無關: 蘋果公司最近發布新產品 喜歡吃蘋果嗎? 任務相關網絡 序列建模方法 LSTMTransformer 遠距離的詞語間接交互SelfAttention: 任意詞語間直接交互 Multihead Attention: 不同類型語義交互 預訓練模型 BiLSTM + Langua
2、ge Model Feature based Pretraining Transformer + Language Model Transformer + Mask Language Model ELMoGPTBERT BERT模型 非監督語料 1B+ 監督語料 100k Mask Language Model Next Sentence Prediction 分類、序列標注等 PretrainFinetune BERT效果 靈活適配下游任務效果顯著提升 參數規模 BertBase:110M BertLarge: 340M 預訓練模型發展 參數規模持續增長 預訓練落地挑戰 預訓練對話系統 周末
3、/去/哪兒/玩周末去哪兒玩 意圖分類 天氣音樂 聊天電臺 Query Reply 去爬山吧 Q-Q匹配 生成Q-R 語義斷句分詞 周末/去/哪兒/玩 預訓練挑戰 挑戰一:推理延時高、成本高 BertBase參數規模 100M, 推理延時(P99) 200ms, 單卡QPS約100 預訓練挑戰 挑戰二:知識融入 Query:播放張杰的歌 實體知識:歌手、歌曲名等 預訓練挑戰 挑戰三: 如何根據任務調整 模型和訓練 Query:這是一家移動互聯網公司 粗粒度:這/是/一家/移動互聯網/公司 細粒度:這/是/一家/移動/互聯網/公司 Q(“周末去哪兒玩”)- R(“去爬山吧”) Seq2Seq生成+ 預訓練 預訓練實踐探索 推理效率知識融入任務適配 推理效率-知識蒸餾 原始訓練 數據 蒸餾后 數據 Query: “今天心情怎么樣” Label: 天氣:0, 聊天:1 Query: “今天心情怎么