1-2 多模態預訓練技術及在電商領域的應用.pdf

編號:102272 PDF 40頁 62.87MB 下載積分:VIP專享
下載報告請您先登錄!

1-2 多模態預訓練技術及在電商領域的應用.pdf

1、多模態預訓練技術及在電商領域的應用嚴明阿里巴巴 達摩院 高級算法專家2022.07.30|01多模態技術研究背景03多模態電商場景應用02AliceMind多模態預訓練技術04總結與展望目錄|01多模態技術研究背景多模態技術背景?文本生成圖像?DALLE 2ImagenVQA圖文視覺問答?VQA數據集常見問題?視頻問答Video QA?|02AliceMind多模態預訓練技術多模態預訓練取得顯著進展2019202020212022多模態算法挑戰多模態語言模型:打造圖文任務核心底座,廣泛應用于圖文理解、生成等任務,大幅減少圖文多模態場景的開發成本挑戰:如何進行高效準確地視覺語義特征表示Regio

2、n/Grid/Patch如何設計有效的多模態信息深度融合機制/結構(文本:high-level語義,圖片:low-level語義)多模態預訓練(統一多模態理解和生成)時效性(端到端)融合機制(自適應)如何更好地建模圖片文檔的二維坐標信息以及區域box-level結構化信息(富文本圖片結構化理解)AliceMind-MMU整體技術框架多模態結構化知識融入?StructuralLM?有效地跨模態特征融合?Learning toAttend?多樣性特征表示和建模?StructBERT?region?grid?patch?端到端視覺語義增強的多模態預訓練 E2E-VLP?E2E-VLP:End-to-

3、End Vision-Language Pre-training Enhanced by Visual Learning,ACL 2021 Oral基于跨層融合的高效多模態預訓練 mPLUG?mPLUG:Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections,Arxiv?VQA Challenge 2021?Achieving Human Parity on Visual Question Answering,https:/arxiv.org/pdf/2111.08896.pdf.VQA

4、Case Study AliceMind-MMU v.s.HumanRelational ReasoningAliceMind理解位置關系、對比關系、排除關系Common Sense KnowledgeAliceMind熟悉日常生活知識(天氣、顏色、食物、地理等)Visual RecognitionAliceMind熟練記憶和識別,比如動物種類、花紋風格等VQA Case Study AliceMind-MMU v.s.HumanObject CountingAliceMind可以簡單計數,大于10的時候效果比較差Textual RecognitionAliceMind還不能很好的理解和推理O

5、CR文本|03多模態電商場景應用多模態電商場景應用總圖?智能客服多源異構多模態問答?知識庫文本/文檔圖文/視頻問題分類/匹配(最開始)機器閱讀(MRC)(2017 2018)多模態問答(VQA)(2019 2022)智能客服商品詳情頁VQA?智能客服商品詳情頁VQAVQA?智能客服商品詳情頁VQA?Q:拉鏈長什么樣子?Q:有商品背面的圖嗎?Q:什么面料?(沒有文字描述)(第一張圖圖文并茂,信息量更大)(沒有文字描述)技術挑戰 圖片切分?技術方案 多模態預訓練底座統一支持?OCR?Query?OCR?Bounding Box?StructBERT?用戶問題圖片1文本圖片2文本圖片1圖像圖片2圖像

6、Transformer是否合并圖片圖片分類標簽問題-圖片匹配度多模態預訓練下游統一任務形式智能客服視頻問答?主圖視頻Q:這套化妝品咋用?智能客服視頻問答?=?=?=?Video-Text Matching(多粒度對比學習)X-CLIP:End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval,ACM MM 2022多模態商品理解結構化?多模態商品理解結構化 商品類目預測?技術方案 商品類目預測 預訓練 Visual Encoder(ResNet50)預訓練 Transformer Encoder(MLM、ITM

7、、CLS)分類任務(CLS)Gird-based預訓練Visual Encoder:CLIP Encoder+圖片分類任務進行單模態預訓練Transformer Encoder:使用更多圖文對相關數據(2億)訓練跨模態對齊效果展示 商品類目預測多模態商品理解結構化 商品同款檢索?技術方案 商品同款檢索?效果展示 商品同款檢索多模態商品理解結構化 商品主體選擇?商品類目:T恤商品標題:2021夏季新款復古可愛小熊短袖T恤寬松學術上衣圖搜錯誤示例多模態商品理解結構化 商品主體選擇?Shifting More Attention to Visual Backbone:Query-modulated

8、Refinement Networks forEnd-to-End Visual Grounding,CVPR 2022效果展示 商品主體選擇|04總結與展望Takeaways總結優秀多模態技術方案視覺語義特征的學習,往往是瓶頸利用更大量的多模態對齊數據,甚至更多類型的數據:比如單模態、有監督數據等深度跨模態特征融合機制,大規模多模態預訓練端到端的一階段預訓練更加靈活實用,在研究和應用中開發和應用更方便展望多模態統一大模型趨勢NLP、CV、多模態統一大模型(單模態&多模態)問答對話統一多模態模型:形式、任務、模態大模型輕量化大模型逐漸進入參數量攀比的冷靜期,如何做到小而實用的輕量化多模態模型層次化模塊化大模型業務應用中一個大模型往往無法解決所有任務,層次化大模型遞進范式值得深入實踐跨模態數字內容生成(可控高清圖片、視頻生成)非常感謝您的觀看|

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(1-2 多模態預訓練技術及在電商領域的應用.pdf)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站