2020年終大會-計算機視覺:11-5.pdf

編號:29892 PDF 35頁 20.50MB 下載積分:VIP專享
下載報告請您先登錄!

2020年終大會-計算機視覺:11-5.pdf

1、多媒體內容理解在美圖社區的 應實踐 付超 分享綱 多媒體內容理解 短視頻分類 視頻指紋 OCR 總結 多媒體內容理解 多媒體內容理解 短視頻分類 短視頻分類在社區的應場景 基于標簽的召回搜索相關推薦排序模型特征用戶畫像 短視頻的特點 隨意性多樣性單一性 不平均性多元性個性 時效性實時性結構性 模型選擇 多模態嘗試 分類模型:NextVlad 均勻取300幀 特征提取:efficientnet-b3 音頻特征提取:VGGish 文本特征提取:Bert 改進NextVlad 多模態嘗試 93%的時間都消耗在圖片特 征提取 精度相差不大 流程復雜 下載下載 1% 視頻特征視頻特征 93% 音頻特征音

2、頻特征 4% 文本特征文本特征 2% 分類分類 0% 多模態多模態TSMGSM 特征提取(ms)81565656 推理時間(ms)86623031 準確率90.2%86.3%89.6% 舞蹈類別對比 舞蹈類別: 爵士舞韓舞街舞手勢舞古典舞 肚皮舞拉丁舞民族舞少兒舞鋼管舞 芭蕾舞鬼步舞廣場舞宅舞 Nextvlad pipeline 耗時對比 單模態視頻分類模型 C3D 一般性能都不好,而且由于涉及大量的參數和計算量 TSN 每幀取均值,缺乏時間編碼能力 GST 在分離的通道,2D和3D卷積并行模擬空間和時空相互作用 TSM 使通道在時間上固定前移或者后移 GSM 特征選擇能力和數據路由能力的時空

3、間特征模塊 視頻分類模型GSM GSM(Gate-Shift Module)模塊 GSM是對幾種現有方法的概括: 當gating = 0時,退化為TSN 當gating = 1時,收斂到TSM GSM放在卷積數較少的分支上 GSM優化點 增加128位全連接層 增加網絡深度 效果:提升2% 優化采樣 解決數據不均勻問題 例: 視頻:64幀,間隔:8幀 效果:最多可以提升20% GSM VS TSM TSM GSM TSM VS GSM性能對比 GSM準確率提升8.81% GSM召回率提升27.63% 二次標簽預測 目標 進一步提升召回率 結果 準確率基本不變 整體召回率提升 11% 視頻指紋 視頻指紋難點 改變視頻時長 添加水印、 logo和文字 修改分辨率 改變視頻內容 我們的解決方案 特殊的數據增強方法 中心加權&特征聚合 二次校驗 視頻指紋Pipeline 特征提取 Center Ke

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(2020年終大會-計算機視覺:11-5.pdf)為本站 (X-iao) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站