《3-4 多模態預訓練模型的輕量適配技術探索.pdf》由會員分享,可在線閱讀,更多相關《3-4 多模態預訓練模型的輕量適配技術探索.pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、多模態預訓練大模型的適配技術探索冷海濤 達摩院 高級算法工程師|01多模態大模型現狀與應用挑戰02多模態大模型的語言適配03多模態大模型的領域適配04多模態大模型的優化目標適配目錄CONTENT|01多模態大模型現狀與應用挑戰|多模態大模型現狀與應用挑戰|大模型由單模態到多模態的發展:文本多模態多模態大模型現狀與應用挑戰|前沿開源大模型在工業應用中的三個挑戰:開源大模型與應用任務的語言不匹配,無法直接應用開源大模型與應用任務領域契合度低,難以帶來明顯效果開源大模型的優化目標與應用任務有差異,需要較多標注數據中文理解電商理解 how關于火星表面的火星探測器的新聞報道百變妝容多模態大模型現狀與應用
2、挑戰|核心探索命題:開源多模態大模型的適配技術大模型的語言適配技術,解決大模型與應用場景語言不一致問題大模型的領域適配技術,解決大模型與應用場景領域契合度低的問題大模型的優化目標適配技術,解決大模型的優化目標與應用任務有差異的問題適配技術中文理解電商理解 02多模態大模型的語言適配|02多模態大模型的語言適配|多模態大模型的語言適配|當前多模態大模型在非英文場景的解決方案:多語言多模態大模型基于目標語言的多模態數據進行大模型訓練多語言多模態大模型M3PWukong:A 100 Million Large-scale Chinese Cross-modal Pre-training Benchm
3、arkM3P:Learning Universal Representations via Multitask Multilingual Multimodal Pre-training基于大規模中文語料Wukong的多模態大模型局限性:訓練成本高,難以持續follow學界大模型進展多模態大模型的領域適配|基于適配機制的中文多模態大模型獲取方案大規模訓練策略輕量適配策略英文大模型盯著食物的小貓Kitten staring at food+文本翻譯對多模態大模型的語言適配|基于adapter機制的語言適配:只需面向文本端適配,避免視覺側的額外訓練通過adapter機制避免少量數據下的訓練不充分同時
4、提高訓練效率Parameter-Efficient Transfer Learning for NLP精度損失驗證實驗coco-cn text2img zero-shot實驗03多模態大模型的領域適配|多模態大模型的領域適配|FashionBERT:Text and Image Matching with Adaptive Loss for Cross-modal Retrieval當前多模態大模型在特定領域的解決方案 基于特定領域大規模數據訓練大模型FashionBERTKaleido-BERTKaleido-BERT:Vision-Language Pre-training on Fash
5、ion Domain局限性:數據收集成本高,訓練成本高多模態大模型的領域適配|基于適配機制的領域多模態大模型獲取方案大規模訓練策略輕量適配策略Middle aged and elderly womens clothing+通用大模型少量領域數據pair多模態大模型的領域適配|基于hard sampling的adapter的領域適配:采用adapter機制避免災難遺忘使用instance weight增加對領域hard sampling的關注,保證領域知識學習的充分性04多模態大模型的優化目標適配|多模態大模型的優化目標適配|Prompt在NLP領域的應用:通過下游任務與大模型的適配,在NLP小
6、樣本任務上效果顯著離散模版prompt連續可學習promptMaking Pre-trained Language Models Better Few-shot LearnersPrefix-Tuning:Optimizing Continuous Prompts for Generation多模態大模型的優化目標適配|當前多模態大模型在特定領域的方案文本側模版prompt文本側連續可學習prompt局限性:僅面向通用信息以及類別信息進行了大模型激活,沒有對instance信息進行激活CLIP中的模版promptCoOp中的learnable promptLearning Transferab
7、le Visual Models From Natural Language SupervisionLearning to Prompt for Vision-Language Models多模態大模型的優化目標適配|多模態大模型下的結構化prompt:結構化prompt,分別對general、domain、instance信息進行建模提出visual-guided attention學習instance的learnable prompt一張關于在花上的蝴蝶的圖片藍色代表general 紫色代表domain 橙色代表instance多模態大模型的優化目標適配|多模態大模型下的結構化prompt:公開few-shot數據集業務數據集非常感謝您的觀看|