《DataFun-下午-1st-騰訊內容理解中的時序行為檢測技術介紹-davidxtzhao(趙小彤)-上傳.pptx》由會員分享,可在線閱讀,更多相關《DataFun-下午-1st-騰訊內容理解中的時序行為檢測技術介紹-davidxtzhao(趙小彤)-上傳.pptx(31頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊內容理解中的時序行為檢測技術介紹,趙小彤 騰訊 算法工程師,|,目錄 CONTENT,|,|,內容理解,Content Understanding,|,什么是內容理解?騰訊內容中臺每日會產生大量文字、圖片、視頻、語音等內容信息,為了能夠讓相關應用在保證內容合規的前提下快速、合理的使用到其中高質量的內容信息,需要大量的相關機器學習模型可以自動化的針對不同業務需求產生對應的結果,從而進一步的挖掘現有數據的潛力以及業務價值,提升業務競爭力,內容理解,Content Understanding,|,什么是內容理解?騰訊內容中臺每日會產生大量文字、圖片、視頻、語音等內容信息,為了能夠讓相關應用在保證
2、內容合規的前提下快速、合理的使用到其中高質量的內容信息,需要大量的相關機器學習模型可以自動化的針對不同業務需求產生對應的結果,從而進一步的挖掘現有數據的潛力以及業務價值,提升業務競爭力,內容理解,Content Understanding,|,內容理解的應用質量保證動態以及專項管控音視頻及圖像中娛樂炒作、偽科學、導流、畫面問題、惡意推廣等相關問題,保證相關內容的高質量相關技術:多標簽分類、多模態內容理解等推薦系統針對用戶的觀看、瀏覽、購買等偏好進行對應圖文、視頻、商品等的推薦相關技術:多標簽分類、圖文匹配等檢索系統針對用戶提供的文本、圖片等信息,在現有數據中快速精準的進行相關內容的檢索、匹配,
3、以滿足使用者檢索需求相關技術:圖文、視文檢索、特征對齊等音視頻創作/新聞撰寫針對文字、圖像、視頻、音頻、虛擬人等內容,基于給定的格式或者風格,并通過用戶提供的描述進行相關內容的自動化生成,顯著降低相關內容生成的門檻相關技術:AIGC、鏡頭拆分等,內容理解,Content Understanding,|,內容理解相關機器學習技術Label Classification/Generation針對輸入的圖像、文本、音頻進行對應標簽的分類或者生成Text-to-Image/Video Retrieval針對輸入的文本,輸出現有數據中匹配度最高的圖片或視頻Image/Video Caption針對輸入的
4、圖片或視頻,輸出描述該圖片或視頻的文本Visual/Video Question Answering針對輸入的圖片或視頻,以及對應的問題輸出該問題的答案AI Generated Content(AIGC)基于用戶的一段描述,自動生成對應的文本、圖像、視頻、音頻等內容Visual Grounding/Object Detection針對輸入的圖片和用戶描述,輸出該描述涉及物體的標定框ASR/OCR針對輸入的音頻或圖片,輸出其中包含的文本內容,|,行為檢測,Applications,|,“行為”,作為最能體現圖像內容及其價值的屬性之一,是否能快速準確的通過模型對一段圖像內容中所發生的的行為進行檢測
5、,也即成為了能否有效進行內容理解的關鍵任務“行為檢測技術”作為內容理解中標簽分類以及標簽生成中的子任務之一,其承擔著對于圖像內容動態特征的有效理解,行為檢測,Overview,|,定義:給定一段視頻輸入,返回其中發生行為的起始幀、結束幀,以及行為類別行為檢測作為標簽分類的子任務,已成為視頻內容理解中最重要的下游任務之一,考慮到現有業務中,不論是內容質量或者視頻匹配檢索,均與其中發生的行為緊密相關,由此,構建一個高準且魯棒的行為檢測器成為了視頻理解的關鍵同時,經過行為檢測任務訓練好的行為特征可以作為多模態特征之一,有效應用于如視頻預訓練等特征表征任務中,進一步增強其中特征的時序信息,行為檢測,R
6、elated Works,|,Segment-based representation作為現在最常用的行為檢測方法,類似于現在流行的物體檢測方法,當前時序行為檢測主要有三種使用行為片段的方式:1.作為錨點,2.作為中間結果,3.作為最終預測結果作為錨點的表征方式主要應用于anchor-based架構,這類方法采用時序滑動窗口或者預選區域生成的結果作為錨點作為中間結果是當前行為檢測最常用的方法,均勻采樣或者時序池化被用于從這些中間片段結果中最終提取出行為特征P-GCN在局部行為片段中使用最大池化操作得到潛在的行為特征 G-TAD將行為片段以區域形式進行均勻池化從而實現潛在行為特征抽取AFSD在行
7、為邊界區域采用邊界池化去進一步的優化行為特征然而,基于片段的行為檢測方法嚴重依賴于片段的生成效果,同時其中片段所覆蓋的幀大多被以相同權重進行處理,缺乏關鍵幀的語義信息提取,Runhao Zeng,Wenbing Huang,Chuang Gan,Mingkui Tan,Yu Rong,Peilin Zhao,and Junzhou Huang.Graph convolutional networks for temporal action localization.In ICCV,pages 70937102.IEEE,2019.,Mengmeng Xu,Chen Zhao,David S.R
8、ojas,Ali K.Thabet,and Bernard Ghanem.G-TAD:sub-graph localization for temporal action detection.In CVPR,pages 1015310162.Computer Vision Foundation/IEEE,2020.,行為檢測,Related Works,|,Point-based representation當前部分研究采用特征點去描述關鍵幀以及物體信息早期的方法多采用SIFT特征或者圖像局部統計特征進行聚類后采用貪心算法處理關鍵幀選取的問題RepPoints采用點表征的形式去提取相關特征,同
9、時迭代的對該特征進行更新然而,該類方法雖然被證明可以在視頻以及圖片相關任務上進行學習,但是仍然缺少在行為識別中的使用和驗證,同時如何采用特征點同時學習行為的起始結束點以及相關類別也還未被研究,Ze Yang,Shaohui Liu,Han Hu,Liwei Wang,and Stephen Lin.Reppoints:Point set representation for object detection.In ICCV,pages 96569665.IEEE,2019.,行為檢測,Related Works,|,Multi-label temporal action detection早期
10、的行為檢測多借助高斯濾波、膨脹時序核、時序卷積以attention的形式去構建不同時序尺度下幀間的時序關系,從而對其中的行為進行定位后再識別Coarse-Fine采用X3D作為骨干網絡,以slow-fast的形式去處理不同時序顆粒,同時在特征聚合時采用空時注意力機制MLAD同時在每幀上的空間以及類別維度上采用多頭注意力機制去構建類別間的關系上述方法缺乏在不同特征語義層下的時序上下文建模,同時缺乏行為起始幀和結束幀特征的關系提取,Kumara Kahatapitiya and Michael S.Ryoo.Coarse-fine networks for temporal activity de
11、tection in videos.In CVPR,pages 83858394.Computer Vision Foundation/IEEE,2021.,Praveen Tirupattur,Kevin Duarte,Yogesh S.Rawat,and Mubarak Shah.Modeling multi-label action dependencies for temporal action localization.In CVPR,pages 14601470.Computer Vision Foundation/IEEE,2021.,|,PointTAD:Multi-Label
12、 Temporal Action Detection with Learnable Query Points,背景介紹,|,Problem,目標:解決現實世界中最常遇到的多標簽時序行為檢測(Multi-label Temporal Action Detection,Multi-label TAD)問題,什么是多標簽時序行為檢測?多標簽:現實世界中的同一段視頻幀序列中經常會同時發生多種目標行為,一段視頻幀序列僅標注一種行為不但不符合大部分的視頻場景,同時在實際應用中會造成大量噪聲數據多標簽時序行為檢測即為在一段長視頻中同時對時序上重疊的多種行為進行起始點、結束點的定位以及對應類別的識別,什么是時
13、序行為檢測?在一段長視頻中對其中發生的所有非重疊行為進行行為起始點、結束點的定位,同時確定每一段行為的具體類別,背景介紹,|,Challenges,挑戰1:需要模型對于時序行為能夠提取出便于進行類別區分的細粒度特征挑戰2:需要對時序上重疊的多種行為能夠進行準確的定位,傳統方法存在的問題:基于視頻序列分割(segmentation-style)的架構:極度依賴于視頻序列分割的粒度以及準度,容易造成時序行為定位的不完整基于粗粒度行為表征(coarse action representation)的架構:難以生成可分辨性強的行為特征,容易造成多標簽行為類別的誤識別,Fig.1 Segment-bas
14、ed detectors mainly predicts incomplete action highlights or get misclassified over good localization.,背景介紹,|,Objective&Contributions,貢獻1:提出了一種可以用于處理復雜度顯著提升的多標簽時序行為檢測問題的深度學習模型:PointTAD貢獻2:模型將行為檢測問題由片段級別(segment-level)的檢測進一步提升為實例級別(instance-level)的檢測貢獻3:提出了一種可同時針對行為邊界幀以及語義關鍵幀進行行為細粒度表征的可學習查詢點貢獻4:提出了一種
15、同時考慮了點級別(point-level)的局部時序信息以及實例級別(instance-level)的預選區域關系的多級交互模塊Multi-level Interactive Module貢獻5:在僅使用RGB作為輸入的前提下,在公開數據集MultiThumos以及Charades中獲得了SOTA的detection-mAP,目標:實現一個多標簽行為檢測器,其可以實現盡可能多的時序行為定位,同時可以生成強表征能力的細粒度特征,模型架構設計,|,Overview,問題建模:多標簽時序行為檢測問題可以考慮成一個行為集合預測問題,給定一個由T幀組成的時序視頻幀序列,模型需要預測一組行為實例集合:=(
16、,)=1 這其中,是可學習查詢向量的數量。這里,標定行為集合可表示為:=(t,)=1 這其中,t 和 是第n個行為的起始和結束幀,則是第n個行為的具體行為類別,則是標定行為實例的數量。,模型架構設計,|,Overview,PointTAD模型由一個視頻編碼器作為骨干網絡,同時由一個行為解碼器組成模型輸入共包含三部分:RGB幀序列,可學習查詢點集,可學習查詢向量集,這其中可學習查詢點通過在行為邊界幀以及語義關鍵幀進行分布實現對于行為的定位,可學習查詢向量則用于對行為語義進行編碼以及進行對應查詢點集的更新視頻編碼器采用I3D架構并對RGB序列進行視頻特征抽?。篢 行為解碼器由L個解碼層堆疊組成,并
17、將由編碼器得到的視頻特征,可學習查詢點集,可學習查詢向量集作為輸入每一個行為解碼層由兩部分組成:用于建模查詢向量間attention關系的多級注意力頭(Multi-Head Self-Attentinon,MHSA)以及用于建模點級別語義以及實例級別語義的多級交互模塊Multi-level Interactive Module,模型架構設計,|,Learnable Query Points,Overview可學習查詢點的目的是同時學習行為的邊界幀以及語義關鍵幀,從而解決傳統的基于片段的表征方式難以同時表征行為的邊界以及語義信息針對每一個查詢向量,查詢點可以表示為=1,這里 是針對第i個查詢點的
18、時序位置,Iterative Point Refinement可學習查詢點的最終位置通過查詢向量以及多級解碼層的連續迭代得到。在每一級的解碼層中,查詢點的偏移值通過查詢向量經過線性映射預測得到。針對查詢點偏移值的學習,PointTAD設計了一個尺度自適應的自更新策略。針對第個解碼層,查詢點集偏移量的更新可以表示為:+1=+0.5=1,這里=max()min()是第層查詢點的尺度參數。針對短時間行為,更新步長會逐步變小,由此可以更好的對短時間行為進行定位。,模型架構設計,|,Learnable Query Points,Learning Query Points可學習查詢點的訓練由回歸損失實現,
19、這里通過將可學習點轉換為偽視頻片段實現回歸損失的計算(L1 Loss以及tIoU Loss)??蓪W習點至偽視頻片段的轉換可表示為:=,。模型共采用了兩種轉換方式:Min-max以及Partial min-max。Min-max使用查詢點的最小以及最大位置作為偽視頻片段的起始以及結束幀:1:min,max。Partial min-max則是選取查詢點的一個子集 local,并在該子集上執行Min-max來決定偽視頻片段:2:min local,max local,該方法允許多組查詢點從行為區域之外進行信息聚合。具體的,我們從查詢點集中隨機選取2/3作為 local。,模型架構設計,|,Multi
20、-level Interactive Module,Overview現有研究除了缺乏行為分割的表征,同時缺乏對相關采樣幀的有效解碼缺乏在各個特征層級上的行為語義聚合PointTAD的Multi-level Interactive Module則是同時考慮了點級別(point-level)的局部時序信息以及實例級別(instance-level)的預選區域關系,從而聚合了各個層級的特征,模型架構設計,|,Multi-level Interactive Module,Point-level Locality PreservationPointTAD采用可變卷積的形式去對處于同一個局部領域的查詢點進
21、行特征抽取針對每個查詢點,PointTAD基于查詢向量預測四個時序偏移向量 以及對應的權重 查詢點作為局部中心點與四個時序偏移向量相加得到四個可變的子查詢點,這些子查詢點用以描述處于該局部領域中查詢點的特征。這里,子查詢點的特征通過雙線性插值后與對應權重加權得到:=(+)偏移量以及權重均通過查詢向量 通過線性映射實現:=()4,=()4,模型架構設計,|,Multi-level Interactive Module,Instance-level Adaptive Mixing考慮到當不同行為實例間時序重疊過多時由于特征過于相似造成的分類效果降低的情況,PointTAD提出將幀特征和通道特征進行
22、自適應融合幀混合通過對查詢點 進行映射后并通過LayerNorm和ReLU層得到潛在行為預測區間中幀的關系:=,=通道混合在特征通道維度使用兩個瓶頸結構的映射層去增強行為語義:,1=(),,2=(),=(,1),2)PointTAD將這兩個混合特征進行級聯并映射為與查詢向量相同形狀,與查詢向量進行殘差連接,模型架構設計,|,Video Encoder,PointTAD采用I3D作為視頻編碼器,并以端到端的形式采用多標簽行為檢測的損失對模型進行訓練考慮到模型部署的便捷性,PointTAD僅使用圖像的RGB作為模型輸入為了使本方案提出的模型可以達到與同時使用RGB和光流特征的模型相同的效果,Poi
23、ntTAD做出了如下改進:1.移除了Mixed_5c層的時序池化2.將I3D網絡中Mixed_5c層特征與Mixed_4f層特征進行融合3.通過對backbone得到的空時特征進行均勻池化得到圖像的時序特征,Joao Carreira and Andrew Zisserman.Quo vadis,action recognition?A new model and the kinetics dataset.In CVPR,pages 47244733,2017.,模型架構設計,|,Training&Inference,TrainingPointTAD采用匈牙利匹配法去實現最優的偽視頻片段的標簽
24、分配組合(),每個視頻片段的標定集 通過無行為標簽標示形成大小為Nq的標定集。這里匹配花銷可以表示為:=:1,為了最小化匹配損失,PointTAD采用雙邊匹配實現最終的分配組合方案()在訓練過程中,PointTAD基于多任務學習共同對行為的定位和識別進行學習,并使用L1損失函數以及IoU損失函數作為定位損失:=:()1,+(1,)針對行為類別的識別,PointTAD采用交叉熵損失作為分類損失,為了進一步實現幀級別的mAP的計算(segmentation-mAP),PointTAD通過對視頻特征線性映射得到密集分類得分。最終的分類損失可以表示為:=,+(,)整體的損失函數為:=+,Inferen
25、cePointTAD使用查詢向量通過線性層+LayerNorm+ReLU層獲得預測的類別PointTAD使用查詢點獲得偽視頻片段得到最終的預測結果得到的片段級別稀疏預測分數通過detection-mAP進行評估,幀級別的密集預測分數則由下式得到:S=1+(1)S,實驗結果,|,Comparison to the SOTA,實驗結果,|,Ablation Study,實驗結果,|,Qualitative Comparison,PointTAD predicts more precise boundaries and distinguishes more categories than MS-TCT and PDAN.,實驗結果,|,Qualitative Comparison,非常感謝您的觀看,|,