《劉洋《QQ瀏覽器視頻搜索中的多模態技術》.pdf》由會員分享,可在線閱讀,更多相關《劉洋《QQ瀏覽器視頻搜索中的多模態技術》.pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊騰訊QQQQ瀏覽器視頻搜索瀏覽器視頻搜索中的多模態技術中的多模態技術Jelmeliu(劉洋)-騰訊QB視頻搜索負責人主題目錄1.背景介紹 1.QQ瀏覽器視頻搜索介紹2.多模態技術的位置與重要性3.面臨技術挑戰2.技術分享1.封面視覺匹配2.視頻內容幀3.OCR/ASR引入4.多模態融合3.后續技術展望QQ瀏覽器視頻搜索場景 QQ瀏覽器每天承接數以億計的搜索請求。其中50%的請求下都有視頻結果。承接QQ瀏覽器、搜狗搜索下的搜索流量。視頻搜索新挑戰 視頻生產、視頻消費已成為趨勢。傳統基于圖文網頁的搜索技術面臨新的挑戰??缒B檢索、多模態理解成為必需。視頻封面作為豐富的視覺呈現,對用戶有很大的吸
2、引力,同時視頻幀也蘊含巨大的信息,并且視頻還有封面OCR文本、字幕文本等有信息增益的特征。視頻搜索架構圖 視頻搜索與通用搜索引擎一樣復雜,同時還具有自身的特性。多模態技術應用在在召回、理解、排序各個階段。精排階段以query&視頻封面/視頻內容幀/視頻感知域/視頻融合態匹配為主。多模態信號在搜索排序中權重非常大,同時多模態模型逐步呈現出大參數量模型的趨勢。視頻多模態技術整體框架 數據層:使用了視頻不同模態的多種信號域。表征層:不同范式下不同模型的多種維度表征。匹配層:有雙流、單流、半交互等不同方式計算query-視頻的匹配度。應用層:生效在精排業務,以及多模態向量召回業務。視頻精排重要特征信號
3、 接下來將圍繞視頻搜索精排中幾個重要的跨模態信號來闡述:Query-視頻封面跨模態匹配Query-視頻內容幀跨模態匹配Query-視頻感知域跨模態匹配Query-視頻融合域匹配它們都是生效到精排線上,在排序模型中起到非常重要的影響。Query-視頻封面 視頻封面是視頻資源最重要的摘要:傳統文本匹配存在的局限性。展現結果的面積大、視覺元素吸引度強,封面對吸引用戶點擊有著至關重要的影響。初期我們采用基于卷積的ResNet方式,后升級為基于attention的MAE。開源圖像數據集和實際視頻搜索封面有很大差異,引入業務數據的預訓練,在離線業務封面測試集上PNR指標有顯著的提升(提升39%)Query
4、-視頻封面 Image-Encoder和Text-Encoder分別以mask方式去建?;謴蛅oken,其實并未真正解決跨模態向量空間的映射問題。CLIP對比學習的方式實現了兩者的統一。CLIP ChineseCLIP QA-CLIP 訓練范式的升級:通過引入大規模的業務數據(標題-封面)進行Post-Pretrain,點擊樣本(query-封面)和人工標注相關性樣本(query-封面)等多個階段的訓練手段,更好地讓模型適配業務場景。多模態蒸餾技術的探索和實踐 受限于線上GPU資源和成本的約束,query側12層模型難以直接在線部署,于是我們探索針對多模態匹配場景的蒸餾方案。方案一(兩階段訓練
5、和蒸餾方案):首先訓練大模型,效果收斂后凍住大模型參數,蒸餾小模型;蒸餾階段的Loss包含與文本小模型和圖片表征的對比學習損失和文本表征蒸餾損失。方案二(蒸訓一體的方案):訓練大模型和蒸餾小模型的過程同時進行,這里的Loss為兩個尺寸的文本模型表征和圖片表征的對比學習損失和文本表征蒸餾損失。蒸餾損失相比兩階段蒸餾方案在封面測試集和排序測試集上分別減少2.22%和1.03%。Query-視頻內容幀 搜索結果摘要相關不代表真實內容相關,需要重點關注內容相關性,提升用戶對視頻的長點和消費時長。V1早期版本-X3D:視頻幀模態表征模型為X3D,輸入多個連續的視頻幀,通過卷積核進行特征提取,得到視頻幀模
6、態的表征,在空間、時間、寬度和深度上沿多個網絡軸擴展,同時具備參數輕量級、高時空分辨率的優點。V2版本-Video-Swin-Transformer:將Conv算子的滑窗機制和Transformer的自注意力機制進行結合,能夠實現Transformer全局表征能力的同時兼具訓練參數量和訓練效率的優勢。Query-視頻融合態 不同模態之間信息的互補特性,通常多模態融合能取得較單模態更好的效果。在視頻搜索業務中多模態融合技術體現在兩個方面:視頻感知域融合:我們將視頻感知定義為用戶點擊播放視頻前能看到視頻展現結果的所有信息。它是用戶點擊消費視頻的前提,因此我們希望產生更多的用戶點擊。視頻內容域融合:
7、在視頻感知信息域的基礎上,還有內容OCR,內容幀,音頻/ASR等。也是影響用戶體驗/深度消費最重要的維度。兩者的目標的不同:目標的差異導致弱監督階段訓練數據的不同,視頻感知域融合采用點擊樣本為主,而視頻內容域融合則在點擊樣本的基礎上引入視頻播放時長、完播率等指標進行樣本的優化,旨在過濾出內容真實相關的視頻結果。內容文本:“step1:圍巾往脖子后繞一圈;step2:從圈里抓起一邊的圍巾.”視頻ASR引入 ASR是視頻音頻的文本模態,也是表征視頻內容信息的重要模態。由于搜索查詢query以文本模態為主,query與ASR的匹配會更加容易些。視頻ASR普遍偏長,平均長度在600字左右。直接將原始的
8、ASR輸入模型對性能開銷有很大的挑戰,因此需要解決如何對長文本進行建模和表征的問題。ASR建模V1版本-基于title-based的貪心策略抽取方法,做法是通過視頻標題的分詞詞權和緊密度對ASR的分句進行核心句篩選,同時考慮多樣性問題。LLM提取ASR核心句 基于貪心抽取核心句的方法問題在于:1.存在信息量低、抽取出的核心句有偏。2.語義片段可能聯系較弱,常出現語義理解不通順、錯字等問題。我們嘗試引入LLM技術來抽取核心句,基于開源的LLM模型進行通用NLP任務(包括摘要任務)的微調對齊,輸入調優后的PROMPT指令,對ASR進行核心句的抽取?;贚LM抽取的方式相比貪心的方式在排序測試集的P
9、NR指標有相對4%的提升,驗證了LLM抽取核心句的有效性。視頻多模態融合LMF+GATE 早期的多模態融合方法采用LMF+GATE,通過對各個模態的權重參數進行低秩矩陣分解降低參數,GATE網絡控制各個模態的權重,進行輕量級的模態融合。視頻多模態融合Fusion transformer LMF對輸入的模態特征維數敏感,而特征降維勢必對效果產生影響,因此我們引入基于Fusion Transformer的融合方法,對通過輸入各個模態的表征進行充分的融合交互,進一步提升效果。視頻多模態融合Ploy-Like半交互 業界普遍采用雙塔交互的方式計算多模態匹配特征,然而由于交互階段比較晚期,效果較單塔的方
10、式有較大的差距。Poly encoder提出一種基于半交互的方式,通過引入query信息指導doc側最后一層的加權融合,實現較雙塔匹配更好的效果。視頻多模態融合Ploy-Like半交互 在Poly encoder的基礎上,我們還嘗試了多種對多模態融合向量的選取方案,包括:方案1:基于query emb選取余弦相似度最大的fusion emb;方案2:基于query emb選取余弦相似度最小的fusion emb;方案3:多個fusion emb取平均;在推理階段,我們采用平均加權融合方式,出于兩方面考慮:效果層面,相比訓練過程采用的融合向量選取方式,平均加權的融合方式在測試集PNR指標下降極低(-0.15%)。性能層面:保留雙塔的性能優勢,同時將特征存儲成本下降至原來的1/5。視頻多模搜索后續展望1.探索多模態LLM模型在搜索業務的應用。如視頻標題/封面生成、模態關鍵信息抽取、query-視頻模態相關性輔助標注等。2.探索單流匹配模型的落地應用。通過引入前沿的圖片tokenize和量化技術,在排序階段上線單流圖文匹配模型,實現相比傳統雙流圖文模型+點乘淺層交互更好的匹配效果。3.探索知識增強的多模態匹配技術的落地應用。搜索業務場景query普遍偏短&信息量不足,通過引入外部知識實現信息更明確豐富&細粒度的多模態內容匹配,提升搜索結果效果。謝謝 謝謝 觀觀 看看THANKS