1、NLP在面向企業場景中的算法優化與落地自然語言是什么自然語言是什么智能智能對話對話系統中的系統中的NLPNLP能力能力搭建搭建一個智能對話一個智能對話系統系統對話對話系統在企業智能中如何發揮作用系統在企業智能中如何發揮作用自然語言是什么?自然語言是什么?最不“自然”的自然語言 離散的符號系統 社會性 語言 VS 圖像、語音 語音、圖像自然界存在的連續信號 意義都是人賦予的歧義乒乓球拍賣完了(分詞歧義)咬死獵人的狗 VS.咬死獵人的狗(短語歧義)你真討厭?。ㄕZ用歧義)冬天能穿多少穿多少,夏天能穿多少穿多少(世界知識)幾個栗子幾個栗子人要是行,干一行行一行,一行行行行行;要是不行,干一行不行一行,
2、一行不行行行不行病構不合乎語法的句子例子:他非常男人。(名詞不能受程度副詞修飾)不合乎語義約束的搭配例子:My car drinks gasoline like waterNLPNLP-應用場景應用場景NLPNLP-對話系統對話系統中文分詞的難點歧義:嚴守一/把/手機/關了世界知識:夏天能穿多少穿多少,冬天能穿多少穿多少企業應用的難點適配多種應用的分詞粒度檢索:細粒度=高召回率意圖識別:粗粒度=實體領域適配封閉域=開放域通用域=垂直領域實戰經驗多粒度分詞領域詞典構建+模型融合詞典深度學習NLPNLP算法算法-分詞分詞NLPNLP算法算法-NERNER企業場景的難點不同領域都有不同類別的實體娛樂
3、=歌名、電影、電視劇醫療=藥名、疾病、癥狀不同任務需要識別不同類別的實體安防/輿情=人名、證件號、手機號、Email對話=各種槽填充(餐館、航司、地名)標注數據少、遷移困難實戰經驗沒有一招鮮吃遍天的萬能藥(即使是BERT)多種方式的混合解決方案(正則、詞典、深度學習)NLPNLP算法算法-文本相似度文本相似度輸入層輸入層表示層(DNN/CNN/RNN)表示層(DNN/CNN/RNN)匹配層輸出將字或者詞映射為向量將孤立的詞語embedding表示轉換為具有全局信息的一個或者多個低維稠密的語義向量輸出最終利用文本表示向量進行交互計算任務任務TextsTexts類型類型文本間關系文本間關系信息檢索
4、A=query,B=document相關自動問答A=question,B=answer答案對應問題機器翻譯A=text,B=text相關聊天系統A=text,B=text回復和評論相似文檔檢測A=text,B=text相似在線廣告A=query,B=Ads相關文本蘊含A=text,B=text蘊含語義匹配的難點漢語的一詞多義和同義詞問題蘋果=水果?iPhone?Apple inc?妻子=老婆,媳婦兒語言的組合性問題北京到上海的航班和上海到北京的航班詞語雖然完全相同,但語義完全不同廣州恒大打敗了上海上港和上海上港被廣州恒大打敗了語義完全相同實戰經驗實戰經驗基于表示的模型:基于表示的模型:Siam
5、ese Network 基于交互的模型:tensor、attention多粒度多層次模型:詞匯級、短語級預訓練模型:ELMo、BERTNLPNLP算法算法-意圖識別意圖識別常見的方法:1、關鍵詞、規則2、ML:svm、lr等3、DL:如cnn、rnn、transformer、bert等。企業場景的難點 數據少、質量差、冷啟動 場景不同類別不同,類別數量決定難度實戰經驗 根據不同階段,設定不同模型。比如:前期冷啟動中使用一些正則來匹配,以及無監督模型,比如利用預訓練的詞向量。在數據量充足的情況下,采用深度學習模型以及利用知識圖譜對詞匯進行泛化抽象。RCNNRCNN 實體鏈接可以同時解決歧義和多樣
6、性問題對話系統:意圖理解、槽填充搜索系統:查詢分析、改寫、擴展 實體鏈接的難點如何識別實體邊界如何鏈接實體與知識庫如何克服訓練樣本稀疏 企業場景的實戰通用域=實體標注問題,百科圖譜作為知識庫垂直域=實體識別+對齊,依賴領域知識庫NLPNLP-對話系統對話系統-算法算法-Entity linkingEntity linking蘋果就“降速門”致歉:蘋果就“降速門”致歉:iphoneiphone換電池降價換電池降價390390元元蘋果蘋果 蘋果公司蘋果公司iPhone iPhone iPhoneiPhone紅富士蘋果紅富士蘋果紅富士紅富士 紅富士紅富士蘋果蘋果 蘋果(薔薇科蘋果屬果實)蘋果(薔薇科
7、蘋果屬果實)李白李白是李榮浩作詞作曲并演唱的歌曲是李榮浩作詞作曲并演唱的歌曲李白李白 李白(李榮浩演唱歌曲)李白(李榮浩演唱歌曲)李榮浩李榮浩 李榮浩(中國流行男歌手、音樂人、演員)李榮浩(中國流行男歌手、音樂人、演員)唐朝詩仙李白唐朝詩仙李白唐朝唐朝 唐朝(中國歷史朝代)唐朝(中國歷史朝代)詩仙詩仙 李白(唐代著名浪漫主義詩人)李白(唐代著名浪漫主義詩人)李白李白 李白(唐代著名浪漫主義詩人)李白(唐代著名浪漫主義詩人)NLPNLP算法算法-多輪對話管理多輪對話管理難點:語音識別/語言理解錯誤,不確定性大,真實場景狀態空間大常用方法:有限狀態機槽填充Pomdp、prob-rule-based
8、深度學習端到端狀態機狀態機槽填充框架槽填充框架POMDPPOMDP概率規則概率規則深度端到端深度端到端智能客服智能客服快速搭建一個智能客服機器人快速搭建一個智能客服機器人 開通機器人開通機器人 新建或導入語料新建或導入語料 領域知識領域知識 模型管理、訓練模型管理、訓練快速快速搭建一個搭建一個qabotqabot:問題閉環:問題閉環 未解決問題學習未解決問題學習 問答日志問答日志 問題診斷問題診斷快速快速搭建一個搭建一個qabotqabot:運營統計:運營統計 運營統計運營統計快速快速搭建一個搭建一個qabotqabot:接口調用:接口調用 TokenToken認證認證 搜索提示接口搜索提示接口快速快速搭建一個搭建一個qabotqabot:接口調用:接口調用 問答請求接口問答請求接口應用案例應用案例-售后智能客服售后智能客服應用案例應用案例-智能家居智能家居應用案例應用案例-智能呼叫中心智能呼叫中心應用案例應用案例-話務機器人話務機器人2019.5.6 2019.5.6 北京國際會議中心北京國際會議中心AIAI與云原生實踐與云原生實踐