1、YOUR LOGO NLP技術在短視頻場景中的 應用實踐 愛奇藝 苗艷軍 簡介 實體識別 實體鏈接 內容標簽 分享大綱 NLP 數據挖掘 分詞詞典情感詞典 同義詞典糾錯詞典 知識圖譜 中文詞法分析分詞詞性標注實體識別實體鏈接詞權重 NLP應用研發 內容標簽機器翻譯標題生成輿情分析標題相似度 深度語義表示詞標題文本封面圖視頻理解多模態 文本糾錯事件聚合查詢理解語音助手Query生成 隨刻推薦用戶畫像 廣告國際站 搜索 客服中心BI 知識付費樂高 審核平臺 支持業務 實體識別 實體識別 短視頻場景下實體類型 影視綜名、人名、音樂名、游戲名、角色名、 難點 歧義性大 實體詞與普通詞的歧義 電影:狙擊
2、手、英雄、功夫 電視?。籂攤儍?、懸崖 明星:黎明、寧靜 實體詞與實體詞的歧義 笑傲江湖(電視劇? 電影? 綜藝? 文學?) 訓練語料獲取困難 需兼顧模型效果和推理速度 綜藝 電視劇 電影 相聲 文學 實體識別 主流模型 CRF、BILSTM-CRF、BERT-CRF、 業務中的考量 訓練數據如何生成? 如何兼顧效果和速度? 日調用高峰10億以上 如何提升泛化能力? 新實體不斷出現 訓練數據構造 原則 盡量標注模型識別不夠好的句子 利用更多信息輔助文本標注 方法 基于搜索用戶點擊行為的實體標注 基于短視頻內容理解的實體標注 借助知識圖譜信息輔助標注 標題:笑傲江湖:令狐沖獨孤九劍一出,向問天都不
3、是對手,真是精彩! 視頻幀 OCR:笑傲江湖 2:東方不敗 電影 模型選擇:LSTM vs SRU = (+ ) x= = (+ ) = -1+ (1 ) = tanh() + (1 ) = (-1,+ ) = (-1,+ ) = (-1,+ ) = (-1,+ ) = tanh() = -1+ a) LSTM 可并行計算 b) SRU(Simple Recurrent Unit) 無法并行計算 x 1 x + x tanh -1 1- + x1- x tanh x + x tanh -1 -1 C 1,2,., = 實體識別模型:BISRU-CRF Embedding , , O O O OutputCRF Input Text w1 w2 w3 w4 wn-3 wn-2 wn-1 wn word O O O character sru-based O O O BISRUBISRU fe