《中國科學院自動化研究所:2024多模態大模型的最新進展與趨勢報告(25頁).pdf》由會員分享,可在線閱讀,更多相關《中國科學院自動化研究所:2024多模態大模型的最新進展與趨勢報告(25頁).pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、多模態大模型的最新進展與趨勢郭龍騰中國科學院自動化研究所紫東太初大模型研究中心YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20242n 多模態大模型的研究背景n 多模態大模型的關鍵進展n 多模態大模型的發展趨勢n 多模態大模型的未來展望大綱|CONTENTYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20243多模態大模型是利用全網多模態大數據來實現類人多模態感認知的重要途徑,有望推動語音、語言、視覺等多領域協同發展世界是多模態的,多模態協同更符合人類感知與
2、表達方式OPENAI 里程碑事件2022/11/30:文本對話大模型 ChatGPT2023/03/15:圖文對話大模型 GPT-42023/10/05:多模態大模型 GPT-4V2023/11/08:多模態大模型 GPT-4-Turbo2024/02/16:文生視頻大模型 Sora2024/05/14:多模態大模型 GPT-4o當前大模型公司均持續關注并大力投入研發多模態大模型YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20244AudioYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024Y
3、SSNLP2024YSSNLP20245海量多模態配對數據(圖-文、音-文、圖-文-音等)海量單模態數據(文本、圖像、視頻、音頻等)多模態對話跨模態生成人機交互具身智能多模態應用多模態生成式解碼網絡單模態編碼網絡多模態融合網絡海量多模態關聯數據多模態大模型架構多模態學習優化自監督預訓練多任務指令微調知識遷移通用知識學習YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20246n 多模態大模型的研究背景n 多模態大模型的關鍵進展n 多模態大模型的發展趨勢n 多模態大模型的未來展望大綱|CONTENTYSSNLP2024YSSNLP
4、2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP20247CVPR22:108篇多模態論文CVPR23:140篇多模態論文CVPR24:240篇多模態論文多模態論文數量跨越式增長Transformer Pretraining Large ModelYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024從多模態預訓練向多模態大模型.任務1任務N預訓練模型任務1數據模型微調任務1微調后模型.任務1任務N任務1示例In-context learning.任務1任務N多任務指令數據多模態指令微調對接大
5、語言模型 多模態指令微調n 具備多任務、開放域能力的多模態大模型取代預訓練-微調范式成為研究熱點YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024從多模態預訓練向多模態大模型9GPT4定制化小模型預訓練中模型預訓練大模型Zero-shotp 過去幾年,多模態預訓練經歷了從定制化小模型,到預訓練中模型,再到預訓練大模型的發展路線,VQA性能抬升了20+個點p 而GPT4多模態大模型在零樣本測試下超越了大部分微調模型p 指明在大模型范式下實現多專多能的通用多模態模型具有巨大前景視覺問答任務VQA2.0YSSNLP2024YSS
6、NLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024能力更全面:More TasksnVisionLLMVisionLLM v2v2:支持使用文本、視覺和上下文指令來完成數百種視覺-語言任務,包括多模態對話、目標檢測、實例分割、交互式分割、姿態估計、圖像生成和編輯等。n以LLM為接口將任務上下文傳輸給不同的解碼器VisionLLM v2:An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks,arxiv 2406.08
7、394YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024能力更全面:More ModalitiesnMixLLMMixLLM多模態專家組合:將多模態學習解耦成單模態專家學習與多模態專家組合兩個過程,實現高效的訓練和推理。能夠高效、可插拔地實現模態的增減在圖像、文本、音頻、視頻相關的大模型評測榜單上達到了領先的性能階段一:獨立訓練單模態專家模型階段二:組合多模態專家(training free)MixLLM:Efficient Composition of Modal Experts for Versatile Multim
8、odal Large Language Models YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP202412n 多模態大模型的研究背景n 多模態大模型的關鍵進展n 多模態大模型的發展趨勢n 多模態大模型的未來展望大綱|CONTENTYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024CLIP圖文對比學習DALL-E文生圖ChatGPT 語言模型Whisper語音識別GPT-4 語言模型GPT-4V 視覺語言模型DALL-E 3文生圖Sora文生視頻ALI
9、GN 圖文對比學習Flamingo視覺語言模型CoCa視覺語言模型PaLM-2語言模型PALI-X視覺語言模型RT2視覺-語言-行動Gemini-1.5原生多模態圖文音理解與生成長序列細粒度理解2021年2022年2023年2024年OpenAIGoogleGPT-3 語言模型GPT4o原生多模態圖文音理解與生成Genimi原生多模態圖文音理解與生成VideoPoet視頻生成YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024CLIP圖文對比學習DALL-E文生圖ChatGPT 語言模型Whisper語音識別GPT-4 語言
10、模型GPT-4V 視覺語言模型DALL-E 3文生圖Sora文生視頻ALIGN 圖文對比學習Flamingo視覺語言模型CoCa視覺語言模型PaLM-2語言模型PALI-X視覺語言模型RT2視覺-語言-行動Gemini-1.5原生多模態圖文音理解與生成長序列細粒度理解2021年2022年2023年2024年OpenAIGoogleGPT-3 語言模型GPT4o原生多模態圖文音理解與生成Genimi原生多模態圖文音理解與生成VideoPoet視頻生成多種模態集成細粒度理解理解與生成一體原生多模態多模態具身智能YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSS
11、NLP2024YSSNLP2024發展趨勢1:跨模態泛化ImageBind MetaAI CV通過圖片作為橋梁橋聯多模態語義,間接連接6種模態Meta Transformer CUHK/Shanghai AI Lab用同一共享backbone參數處理 12 種模態信息15p 利用在一個或多個特定模態上學習到的知識,來提升系統在新模態上的性能Cross-Modal Generalization:Learning in Low Resource Modalities via Meta-Alignment,ACMMM21Imagebind:One embedding space to bind th
12、em all,CVPR 2023Meta-transformer:A unified framework for multimodal learning,arXiv arXiv:2307.10802YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024發展趨勢1:跨模態泛化nMiCoMiCo:啟發自人類多模態認知過程,將數據分為“知識模態”(如圖像、音頻)和“接口模態”(語言),將不同模態映射到一個聯合嵌入空間,并在它們之間建立上下文關系。實現了跨模態泛化的表征與表達能力,在7種模態上進行有效驗證在7個單模態任務與20個多模態
13、任務中達到了最先進性能雙通道多模態認知理論模態可泛化模型架構知識模態接口模態共享表征模型Explore the Limits of Omni-modal Pretraining at Scale,arxiv 2012.02813YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024發展趨勢2:細粒度理解17從45分鐘長的視頻中精確定位某幀的文字和事件的起始時間Gemini 1.5的長視頻理解能力當前的開源多模態大模型尚不能完成3分鐘級別的VideoNIAH視頻“大海撈針”任務VideoNIAH:A Scalable Synth
14、etic Framework for Benchmarking Video MLLMs,arxiv 2406.09367 YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024發展趨勢3:理解與生成一體18p 理解與生成可以互促:需要以統一的輸入輸出形式整合不同理解和生成類任務p Unified-IO2:采用統一的seq2seq架構支持跨圖文音與行動的理解與生成任務,在 120多個數據集上聯合訓練Unified-IO 2:Scaling Autoregressive Multimodal Models with Vision
15、Language Audio and Action,CVPR 2024YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP202419p VideoPoet:能夠以各種條件信號生成視頻與音頻。文本、視覺、音頻等模態都被離散化為token,采用大語言模型自回歸地進行預測。p 訓練目標包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻修復/擴展、視頻風格化和視頻到音頻等。Videopoet:A large language model for zero-shot video generation,arXiv:2312.14125,
16、2023.YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP202420p 原生多模態意味著模型在設計與預訓練時就原生支持多模態,與之相對的是那些原本設計為單個模態模型,但后來被修改或擴展以處理其他模態的模型。p 原生多模態模型的特點是可以共享和遷移不同模態的知識與特征,跨模態交互更加自然、強大。Gemini 谷歌能夠同時理解文本、音頻、圖像、視頻,并能生成文本與圖像。Chameleon Meta能夠理解與生成任意交錯的圖像與文本。在文本生成、圖像生成、圖像理解多個任務上都取得了優秀的性能。340億參數模型采用10萬億多模態tok
17、en訓練。Chameleon:Mixed-Modal Early-Fusion Foundation Models,arXiv:2405.09818.YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP202421p 將多模態大模型類比于人的大腦,則其與行動系統的結合則相當于為大腦加上了人的軀干語言大模型多模態大模型具身智能大模型語言視覺-語言視覺-語言-動作ChatGPT,LLaMAGPT4V,LLaVART-2模態數據類型應用場景擴大模態數據類型應用場景擴大發展趨勢5:多模態具身智能YSSNLP2024YSSNLP2024YSS
18、NLP2024 YSSNLP2024YSSNLP2024YSSNLP202422n 多模態大模型的研究背景n 多模態大模型的關鍵進展n 多模態大模型的發展趨勢n 多模態大模型的未來展望大綱|CONTENTYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP202423海量多模態配對數據(圖-文、音-文、圖-文-音等)海量單模態數據(文本、圖像、視頻、音頻等)多模態對話跨模態生成人機交互具身智能多模態應用多模態生成式解碼網絡單模態編碼網絡多模態融合網絡海量多模態關聯數據多模態大模型架構多模態學習優化自監督預訓練多任務指令微調知識遷移通
19、用知識學習YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024未來展望 大規模、多模態、高質量的預訓練數據 如何利用互聯網尺度的多模態網頁數據、視頻數據 構建可信、多樣的多模態指令微調數據與人類反饋數據 通用統一、易擴展的大模型網絡結構 兼容多種模態、理解與生成任務的多模態原生模型架構 適應細粒度、長序列理解需求的高效網絡結構 高效的自監督學習機制 更加適應多模態數據的統一、細粒度的建模目標 結合強化學習的感知決策一體的建模方式 豐富、自適應的下游應用與遷移能力 如何拓展更多創新多模態下游應用 如何快速、低/零成本地適應廣泛下游任務24YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLPYSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024