《2020年終大會-計算機視覺:11-5.pdf》由會員分享,可在線閱讀,更多相關《2020年終大會-計算機視覺:11-5.pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、多媒體內容理解在美圖社區的 應實踐 付超 分享綱 多媒體內容理解 短視頻分類 視頻指紋 OCR 總結 多媒體內容理解 多媒體內容理解 短視頻分類 短視頻分類在社區的應場景 基于標簽的召回搜索相關推薦排序模型特征用戶畫像 短視頻的特點 隨意性多樣性單一性 不平均性多元性個性 時效性實時性結構性 模型選擇 多模態嘗試 分類模型:NextVlad 均勻取300幀 特征提取:efficientnet-b3 音頻特征提取:VGGish 文本特征提取:Bert 改進NextVlad 多模態嘗試 93%的時間都消耗在圖片特 征提取 精度相差不大 流程復雜 下載下載 1% 視頻特征視頻特征 93% 音頻特征音
2、頻特征 4% 文本特征文本特征 2% 分類分類 0% 多模態多模態TSMGSM 特征提取(ms)81565656 推理時間(ms)86623031 準確率90.2%86.3%89.6% 舞蹈類別對比 舞蹈類別: 爵士舞韓舞街舞手勢舞古典舞 肚皮舞拉丁舞民族舞少兒舞鋼管舞 芭蕾舞鬼步舞廣場舞宅舞 Nextvlad pipeline 耗時對比 單模態視頻分類模型 C3D 一般性能都不好,而且由于涉及大量的參數和計算量 TSN 每幀取均值,缺乏時間編碼能力 GST 在分離的通道,2D和3D卷積并行模擬空間和時空相互作用 TSM 使通道在時間上固定前移或者后移 GSM 特征選擇能力和數據路由能力的時空
3、間特征模塊 視頻分類模型GSM GSM(Gate-Shift Module)模塊 GSM是對幾種現有方法的概括: 當gating = 0時,退化為TSN 當gating = 1時,收斂到TSM GSM放在卷積數較少的分支上 GSM優化點 增加128位全連接層 增加網絡深度 效果:提升2% 優化采樣 解決數據不均勻問題 例: 視頻:64幀,間隔:8幀 效果:最多可以提升20% GSM VS TSM TSM GSM TSM VS GSM性能對比 GSM準確率提升8.81% GSM召回率提升27.63% 二次標簽預測 目標 進一步提升召回率 結果 準確率基本不變 整體召回率提升 11% 視頻指紋 視頻指紋難點 改變視頻時長 添加水印、 logo和文字 修改分辨率 改變視頻內容 我們的解決方案 特殊的數據增強方法 中心加權&特征聚合 二次校驗 視頻指紋Pipeline 特征提取 Center Ke