6-3 游戲視頻的多模態與細粒度理解分析技術.pdf

編號:102373 PDF 36頁 11.61MB 下載積分:VIP專享
下載報告請您先登錄!

6-3 游戲視頻的多模態與細粒度理解分析技術.pdf

1、游戲視頻的多模態與細粒度理解分析技術姚韜騰訊游戲 級算法研究員CONTENTS01游戲視頻理解簡介游戲視頻細粒度理解技術游戲視頻多模態理解技術游戲視頻事件檢測框架020304|01游戲視頻理解簡介1.游戲內容個性化推薦 游戲視頻動打標,動事件檢測,基于內容的推薦2.游戲光時刻動剪輯 動提取出對局視頻中的精彩事件及光段3.輔助創作者進次創作 動剪輯,動配樂,動表情包添加,動解說4.打擊版權侵權為 識別外部渠道違規直播未經授權的游戲內容英雄聯盟0.99MOBA0.99復仇之0.98精彩集錦0.50團戰0.11游戲視頻理解簡介|02游戲視頻事件檢測框架視頻理解分析中的事件層次定義 畫元素(Eleme

2、nt)動作(Action)劇本事件(Event)舉例(王者)Frame_1Frame_2Frame_3Frame_4Frame_5Frame_6Frame_7Frame_8Frame_9Frame_10播報,防御塔攻擊Element(畫元素)Element(畫元素)Element(畫元素)Element(畫元素)越塔,1v1,擊殺Action(動作)Action(動作)越塔強殺,多殺Event(事件)Event(事件)舉例(CFM)Frame_1Frame_2Frame_3Frame_4Frame_5Frame_6Frame_7Frame_8Frame_9Frame_10流播報Element(

3、畫元素)Element(畫元素)Element(畫元素)Element(畫元素)Element(畫元素)Element(畫元素)Element(畫元素)Element(畫元素)Element(畫元素)Element(畫元素)爆頭Action(動作)Action(動作)雷殺Action(動作)Action(動作)三連殺Event(事件)四殺Event(事件)游戲事件層次定義|當前分 4:6當前分 4:6當前分 4:6當前分 6:62分球連續得分當前分 2:6當前分 2:6當前分 2:6當前分 4:62分球畫元素Element動作Action劇本事件Event 其他游戲也有類似的事件層次,因此我們

4、的事件層次定義具有很好的通性 已持王者/和平精英/CFM/LOL/NBA2k/DNF/影等款頭部游戲,持續增加中 多層次:標簽體系與事件層次對應 細粒度:精確到元素級別游戲事件層次定義|事件層次定義標準化 算法服務開發框架標準化 業務開發流程標準化 整套流程可快速擴展其他游戲王者榮耀視頻結構化分析游戲視頻結構化分析|視頻預處理幀處理事件打點視頻裁剪視頻錄制邊裁切幀采樣擊殺檢測兵線檢測條檢測越塔檢測幀分類封圖連殺事件搞笑事件特殊屬性素材裁剪動標題智能封紅兵防御塔藍兵防御塔兵線對抗事件節點元素節點空間位置LOL視頻結構化分析影忍者視頻結構化分析游戲視頻結構化分析|03游戲視頻細粒度理解技術游戲視頻

5、細粒度理解畫元素檢測識別 多尺度模板匹配 標檢測識別 特征點匹配+Homography對應 標檢測識別|深度神經絡標識別阿古朵OCR字識別KDA=3/0/3游戲視頻細粒度理解畫元素檢測識別|基于YOLO的標檢測 檢測包含形變的標 視變換 定位物體實際位置游戲視頻細粒度理解畫元素檢測識別|服務于游戲視頻細粒度理解框架 幫助戶快速實現指定各種游戲中指定標檢測功能 框架檢測流程游戲視頻細粒度理解通游戲標檢測框架|框架功能依賴邏輯 檢測器 模板匹配 特征匹配 濾波器 模板匹配分數 顏直圖 pHash SSIM 灰度均值 孿絡 框架持模式 單張圖推理 單張圖調參 單個視頻調參 圖像模板定義 系列圖像標注

6、檢測結果 系列圖像動調參游戲視頻細粒度理解通游戲標檢測框架|基于該框架的標檢測示例游戲視頻細粒度理解通游戲標檢測框架|視頻分析-王者榮耀視頻分析-和平精英內容態-IP侵權識別打擊營造 框架背景游戲視頻細粒度理解游戲場景OCR框架游戲推游戲開發游戲體驗打造游戲態完整閉環加速正向循環同時著態的四向打造態級|圖像合成本&字符檢測本識別 框架內容游戲視頻細粒度理解游戲場景OCR框架|具有模仿復雜本圖像能的合成框架字成算法unity對圖像進渲染OPENCV對圖像進映射導出合成的圖像半動圖形特征統計 圖像合成框架游戲視頻細粒度理解游戲場景OCR框架發光描邊字距變化漸變陰影浮雕特效庫seamless正?;旌?/p>

7、疊底旋轉變形裁剪模糊后處理庫半動圖像特征統計模塊級特效渲染模塊配置件|寫體數據合成數據街景數據合成數據合成數據合成數據合成數據驗證碼數據牌數據告數據數字數據合成數據合成數據總計 15,997,702合成數據占82.5%總計 3,393,451標注占17.5%游戲視頻細粒度理解游戲場景OCR框架|編碼器解碼器稠密預測階段標檢測算法檢測結果RNN解碼器CRNN本識別算法識別結果分分111億億現CTC規則分1億現分1億現后處理后處理結果后處理結果識別結果檢測幫助識別識別幫助檢測 基于交錯監督的階段標檢測算法游戲視頻細粒度理解游戲場景OCR框架輸圖像編碼器|ResNet34+CRNN+CTCResNe

8、t34+CRNN+AttentionResNet50+CRNN+CTCBagging訓練去哪了?去哪去哪了?多維度融合訓練數據集測試測試測試測試 基于隨機森林本識別模型游戲視頻細粒度理解游戲場景OCR框架|王者榮耀-時間識別(100 qps)專OCR準確率97%,外部OCR準確率90%LOL-時間識別(50 qps)專OCR準確率97%,外部OCR準確率90%和平精英-數字識別(100 qps)專OCR準確率99%,外部OCR準確率89%法字識別(15 qps)專OCR準確率99%,外部OCR準確率90%業務價值游戲視頻細粒度理解游戲場景OCR框架|標準視頻標準視頻樣例版式橫版橫版、豎版尺度不

9、存在縮放存在局部放縮邊框邊框版式少邊框版式多樣特效存在特效清晰度存在低清晰度完整度畫完整存在畫裁剪遮擋較少存在表情包等遮擋時視頻,游戲對局完整存在短視頻,游戲對局不完整 短視頻帶來的新挑戰游戲視頻細粒度理解信息流短視頻理解|王者榮耀LOL游LOL游條/技能區/播報/防御塔/KDA識別進步挖掘深度模型的潛使個深度模型完成位置/量/陣營檢測 把游戲內的多種類型標都作為同模型的檢測對象 把游戲標進梳理歸類 L0 框架復 L1 模型重新訓練/替換數據 使 L2 模型fine tuning使 L3 模型直接復游戲視頻細粒度理解信息流短視頻理解|短視頻標簽召回從46.5%提升68.5%游戲視頻細粒度理解信

10、息流短視頻理解效果優化:持續迭代模型泛化性提升:數據成+數據增強+深度標檢測模型解決在 短視頻場景 存在的以下挑戰:畫裁剪視頻特效標遮擋定義邊框|功能模塊 識別任意視頻中(包括混剪視頻)包含的特定游戲段 難點:游戲畫在視頻中出現的形式千變萬化,很難準確識別 解決案:綜合利多種圖像識別法對視頻幀進識別畫被裁剪(LOL)畫被旋轉(LOL)背景擾(王者)翻拍畫(DNF)相似游戲(CSGO,和CF較像)膚展示類視頻(LOL)名稱描述視頻預處理為了得到較為純凈的游戲畫于識別游戲名稱對旋轉視頻的校正和對疊加背景的視頻裁剪掉背景圖像識別模型基于視頻幀的圖像識別,判斷每幀是否為特定游戲畫OCR基于視頻幀的OC

11、R,通過識別特定字符判斷畫是否為特定游戲畫標檢測使多標檢測框架,檢測畫中是否存在特定游戲的特定界元素,從判斷是否為特定游戲畫游戲視頻細粒度理解典型應:視頻游戲畫識別|旋轉識別與校正位置識別與裁剪LOL對戰LOL棋LOL膚展示OCR識別游戲界(王者榮耀)標檢測識別游戲界(王者榮耀)游戲王者榮耀游戲穿越線游戲視頻細粒度理解典型應:視頻游戲畫識別預處理游戲類別細分OCR與標檢測|04游戲視頻多模態理解技術EfficientNetVggishBert存在問題 視頻數據量少相對較少 視頻信息提取不 標簽數量不平衡,尾標簽出現頻率低 需要更好的對多模態信息進融合膚展示(圖像模態)教學攻略(本模態)Line

12、arBCE英雄聯盟:銳雯精彩操作,絲滑連招,秀殺對!特征提取多模態融合分類輸出游戲視頻多模態理解視頻多標簽任務為什么需要為游戲視頻打標簽?每天會產量游戲視頻內容,對這些視頻內容做科學管理可以帶來巨的價值增益游戲視頻的運營、推薦、分析需要準確全的內容描述,游戲視頻分類和打標是個最普遍的內容描述式為什么需要多模態理解來解決游戲視頻多標簽任務?游戲視頻的語義信息包含在不同的模態數據中多模態視頻理解模型包含圖像、視頻、頻、本等模態本模態由視頻標題、OCR、ASR等來源融合成|1.利開源預訓練模型能來提取底層數據特征 凍結預訓練模型參數來保留預訓練模型的識別能 凍結預訓練神經絡前層參數,只在最后1-2層

13、參數進BP優化,更好的保留預訓練模型的特征抽取能,避免overfitting 解決視頻量不導致模型法充分訓練的問題2.升級單模態預訓練模型的能 通過升級模型,提單模態底層特征表達能,從提融合后的多模態模型的識別能模型選擇模型特點視頻Swin更好的提取patch化圖信息,增強了對畫中元素的理解能Video-Swin引了時序patch,增加了對時序信息的理解能頻Wav2Vec該模型在asr任務中具有更好的表現效果,可以提升通過頻理解語義信息的能AST利transformer結構提了模型對頻捕獲全局上下的能,可以更好的提取頻特征游戲視頻多模態理解多模態預訓練模型|視頻模態全局clipClip 1Cl

14、ip 2Clip 3Clip 4圖像模型連續視頻抽幀結果稀疏抽幀密集抽幀 稀疏抽幀和密集抽幀同時使頻模態 采和視頻類似的密集抽幀和處理式Clip 1Clip 2Clip 3Clip 4頻模型密集抽幀連續頻抽幀結果短本短本短本短本本模態 因為Bert模型限制最輸為512字符,普通法法處理512字符以上的本,往往截斷成短本進處理;為了提取本特征,我們考慮游戲視頻中不太會有過的上下依賴,采分段的思路處理本;本 因為asr從頻中提取的本會有錯誤和些語擾本,我們利N-gram計算ASR本的困惑度,篩除掉困惑度過的句;Bert游戲視頻多模態理解優化視頻抽幀|優化Loss函數 在游戲視頻理解中,多數標簽出現

15、的頻率不,有較明顯的正負樣本不平衡 為了解決這個問題,我們實驗了Focal Loss及其變體ASY Loss正樣本比例標簽數量=10%11個=5%7個=1%33個1%74個Focal LossAsymmetric(ASY)Loss!=log=log(1 )!=1#log=#log 1 置信度的sample會在loss上進衰減,更多優化“難”的樣本。對于負樣本過多的情況,預測負樣本是簡單的,所以被衰減,正樣本則不被衰減。CE Loss:Focal Loss:,!=1#!log=$#log 1%正負樣本衰減系數解耦,并且屏蔽置信度過的負樣本的lossASY Loss:%=max(1 ,0)游戲視頻

16、多模態理解優化LOSS函數|Transformer融合Transformer融合模塊利self-attention讓不同模態的特征之間進充分的信息交換MBT(Multimodal Bottleneck Transformer)融合游戲視頻不同模態數據中包含量冗余信息,直接融合會帶來量效信息MBT迫使模態間信息只通過少量瓶頸節點進流動,要求單模態模型整理和濃縮每種模態中最相關的信息,提融合性能我們的模型中進了視頻、頻、標題、其他本四個模態的融合圖像模塊頻模塊本模塊拼接融合圖像模塊頻模塊本模塊Transformer融合Transformer普通Transformer融合MBT融合Bottlenec

17、k本頻視頻本頻視頻游戲視頻多模態理解優化多模態融合|前多模態覆蓋43個頻標簽,其中包括語義標簽和實體標簽,準80%召60%多模態標簽提升打標效率 多模態標簽輔助打標,提升打標效率,可更好地服務內容管理、內容推薦、內容分析等應場景;前多模態覆蓋43個頻標簽,其中包括語義標簽和實體標簽,準80%召60%。游戲視頻多模態理解業務應|多模態模型提升游戲分類效果 該模型結構同時復于游戲分類業務,帶來了顯著的效果提升。多模態embedding幫助推薦提效 打標模型輸出的多模態embedding包含更豐富的視頻語義信息,將其輸出給推薦場景,可提升推薦召回效率和效果。游戲分類能持更多應場景 基于多模態建設的游戲內容分類能,可更好地服務內容初始化處理、內容分析、內容引等場景。常感謝您的觀看

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(6-3 游戲視頻的多模態與細粒度理解分析技術.pdf)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站