《中移智庫:2024多模態大模型(MLLMs)輕量化方法研究現狀和展望報告(14頁).pdf》由會員分享,可在線閱讀,更多相關《中移智庫:2024多模態大模型(MLLMs)輕量化方法研究現狀和展望報告(14頁).pdf(14頁珍藏版)》請在三個皮匠報告上搜索。
1、 多模態大語言模型(MLLMs)輕量化方法研究現狀和展望中國移動研究院 業務研究所2024 年 12 月中移智庫 摘要摘要多模態大語言模型(MLLMs)在視覺問答、視覺理解與推理等任務中展現出卓越的性能,但多模態大語言模型龐大的模型規模和高昂的訓練、推理成本限制了其在學術界和工業界的廣泛應用。因此,研究高效且輕量化的多模態大語言模型,特別是在邊緣計算場景中,潛力巨大。本文將全面介紹當前多模態大語言模型輕量化的方法及研究現狀,并探討其局限性及未來潛在的發展方向。一、一、多模態大語言模型概述多模態大語言模型概述(一)什么是多模態大語言模型?(一)什么是多模態大語言模型?多模態大語言模型是一種創新性
2、的人工智能模型,巧妙地融合了大語言模型與多模態處理能力。它能夠理解和生成涵蓋多種模態的數據,如文本、圖像、視頻、音頻等,并通過多模態信息的融合實現更廣泛、更復雜的任務。多模態大語言模型不僅具有強大的語言處理能力,還能通過對圖像、視頻或其他模態的理解,進行跨模態任務處理,比如視覺問答、視覺推理、多模態內容生成等。2/14中移智庫(二)為什么要輕量化?(二)為什么要輕量化?多模態大語言模型的成功主要得益于縮放定律(scalinglaw),即資源投入越多,性能越高。然而,高資源需求限制了其開發和部署。例如,MiniGPT-v2 模型16的訓練耗時超 800GPU 小時,LLaVA-1.5-Vicun
3、a-13B3模型推理需 18.2T FLOPS 和41.6G 內存,資源消耗巨大。目前,主流多模態大語言模型多由少數企業掌控,云端運行模式引發普及化和隱私保護擔憂,同時,高算力需求也限制了邊緣設備的應用,對公平訪問和隱私保護構成挑戰。鑒于此,輕量化多模態大語言模型的研究日益受到重視,旨在降低資源消耗、提高適用性,同時盡量減少性能損失。二、二、多模態大語言模型輕量化方法研究現狀多模態大語言模型輕量化方法研究現狀多模態大語言模型主要由三個核心模塊組成:視覺編碼器、預訓練大語言模型、以及視覺-語言投影器,如圖 1 所示。輕量化多模態大語言模型的優化措施主要集中在對上述三個模塊的改進,并引入了視覺 t
4、oken 壓縮技術和高效的結構設計。3/14中移智庫 圖1 多模態大語言模型的輕量化架構出自論文Efficient Multimodal Large Language Models:A Survey(一)三個核心模塊優化(一)三個核心模塊優化視覺編碼器:視覺編碼器:負責接收和處理視覺輸入。輕量化的多模態大語言模型通常選擇使用預訓練的視覺編碼器模型(如CLIP4),以便更好地對齊視覺與文本輸入的特征空間。由于視覺編碼器在多模態大語言模型總參數中的占比較小,其輕量化優化的效果不如語言模型顯著,因此大部分輕量化多模態大語言模型通常仍沿用大規模多模態大語言模型中廣泛采用的視覺編碼器。預訓練大語言模型:
5、預訓練大語言模型:大語言模型是多模態大語言模型的核心組件,用于管理多模態信號并執行推理。多模態大語言模型中獲取小的大語言模型的方案一般分為兩種:一是直接使用小一是直接使用小的輕量化模型的輕量化模型。輕量化的多模態大語言模型通常使用參數少于30 億的小型語言模型,如微軟的 phi2-2.7B 模型17和谷歌的 4/14中移智庫 Gemma-2B 模型2。Phi-2 模型在特殊數據集上訓練后,其性能可以匹配使用常規數據集訓練的 25 倍大模型。Phi-3-mini 模型2可以輕松地在現代手機上本地部署,且其質量與 Mixtral8x7B18模型和 GPT-3.5 等模型相當。二是使用模型壓縮技術對
6、二是使用模型壓縮技術對大語言模型進行輕量化處理。大語言模型進行輕量化處理。一般常用的模型壓縮方法包括:量化,剪枝,知識蒸餾,緊湊的架構設計,動態網絡等,這些方法在傳統的深度學習網絡(如 CNN 和 RNN)中已有廣泛應用,而在大語言模型的優化中也有了更深入的探索。每種方法的具體實施方案和效果因任務需求和硬件約束而異,在此不再逐一詳細介紹。視覺視覺-語言投影器:語言投影器:是連接視覺與文本橋梁,其核心功能是將視覺特征塊映射至文本特征空間。針對此模塊的輕量化,包括四種:一是基于注意力。一是基于注意力。如 BLIP27引入了 Q-Former,一個輕量級的 Transformer,使用一組可學習的查
7、詢向量從凍結的視覺模型中提取視覺特征。二是基于二是基于 CNNCNN。如 MobileVLMv28提出的LDPv2,通過使用逐點卷積層、平均池化和帶有跳躍連接的 PEG模塊,LDPv2 減少了 99.8%的參數,在效率上取得了更好的表現。三是基于三是基于 MambaMamba。如 VL-Mamba9在其視覺-語言投影器中實現了 2D 視覺選擇性掃描(VSS)技術,促進了多種學習方法的融合。四是混合結構。四是混合結構。如卷積抽象器通過使用卷積結構高效地建模局部上下文,有助于將視覺特征抽象為任意平方數的視覺token。5/14中移智庫(二)視覺(二)視覺tokentoken壓縮壓縮視覺 token
8、 壓縮旨在減少由大量 token 引起的計算量,當前已經成為多模態大語言模型輕量化的關鍵。通過以下幾種關鍵技術來實現:多視圖輸入多視圖輸入:為了利用低分辨率視覺編碼器處理高分辨率圖像,一種常見的方法是輸入高分辨率圖像的低分辨率全局視圖,和通過分割高分辨率圖像獲得局部視圖。例如,LLaVA-UHD5提出了一種圖像模塊化策略,將原始分辨率圖像劃分為更小的可變大小切片,以實現高效且可擴展的編碼。tokentoken 處理:處理:長視覺 token 序列的處理技術對于高效的多模態大語言模型至關重要,其解決了保持細粒度細節和減少計算復雜度的雙重挑戰。例如 LLaVA-PruMerge10和 MADTP1
9、9提出了一種適應性視覺 token 減少方法,在保持相似模型性能的同時顯著減少了視覺token的數量。多尺度信息融合:多尺度信息融合:利用多尺度圖像信息對視覺特征提取至關重要。這種方法使模型能夠捕捉較小尺度中的細粒度細節和較大尺度中的廣闊背景。例如 Mini-Gemini 模型11包括兩個編碼器,一個用于高分辨率圖像,另一個用于低分辨率視覺嵌入。它提出了塊信息挖掘,通過低分辨率視覺嵌入作為查詢,通過跨注意力從高分辨率候選中檢索相關的視覺線索。視頻特定方法:視頻特定方法:視頻理解還需要處理大量幀,這可能會突破大語言模型的上下文窗口處理能力,帶來巨大計算負擔。例 6/14中移智庫 如 VideoL
10、LaVA15基于 LanguageBind20構建,將視覺表示統一到語言特征空間中,推動基礎大語言模型向統一的語言-視覺大模型發展,同時避免了巨大的計算負擔。(三)高效的結構(三)高效的結構高效的結構是通過優化模型結構或算法設計,以更少的資源實現相近甚至更高的性能,是多模態大語言模型輕量化的關鍵 探 索 方 向。主 要 包 括 三 個 方 向:專 家 混 合 模 型(MoE)、Mamba 和推理加速。專家混合模型專家混合模型:專家混合模型通過調節模型參數的總數來增強模型容量,同時保持激活參數不變,從而不會顯著影響推理速度。MoE-LLaVA12提出了一種基于專家混合模型的稀疏 M 多模態大語言
11、模型框架,能夠有效增加參數數量,而不影響計算效率。MambaMamba:Mamba21是一種新型的高效序列建模方法,專為高效處理信息密集型數據(如語言建模)而設計。Cobra13將Mamba語言模型融入視覺模態,并探索多模態融合方案,開發了一種高效多模態Mamba。實驗顯示,其性能與先進方法相當且速度更快,能克服視覺錯覺和空間關系判斷難題,在預測基準中性能媲美LLaVA,但參數僅用 43%。推理加速:推理加速:在模型推理階段,根據不同的任務特性,調整模型架構,加快推理速度。SPD14提出了通過僅使用語言模型進 7/14中移智庫 行的推測解碼,以提高推理效率,通過將語言模型作為推測性解碼模型,跳
12、過了圖像token 及其相關處理組件的需求。三、展望三、展望多模態大語言模型的輕量化發展仍處于初期階段,仍有很大的改進空間。(一)突破多模態信息處理的局限是關鍵。(一)突破多模態信息處理的局限是關鍵。輕量化的多模態大語言模型在處理多模態信息時面臨挑戰,通常僅能接受單一圖像,這限制了能夠處理更多元模態標記的復雜模型的進一步拓展。而這類復雜模型對于對于理解長視頻和分析包含圖像與文本混合的長篇文檔等應用場景有著極為關鍵的價值,可以創造出更為多功能和強大的系統。(二)輸入輸出模態擴展是未來發展的重點。(二)輸入輸出模態擴展是未來發展的重點。當前主要的輕量化多模態大語言模型支持的是雙輸入模態-圖像和文本
13、,以及單一輸出模態-文本,但現實世界中的模態遠不止于此。未來,通過擴大高效多模態大語言模型的輸入模態范圍,以適應更多樣化的輸入類型,并增強其生成能力,將顯著增強其多功能性,并拓寬其應用領域。(三)可在邊緣部署的輕量化多模態大語言模型將推動機(三)可在邊緣部署的輕量化多模態大語言模型將推動機器人等智能設備發展。器人等智能設備發展。輕量化的多模態大語言模型將賦予終端設備更高效、更智能且多模態的處理能力,使智能設備得以與現實世界無縫互動。特別在機器人領域,輕量化多模態大語言 8/14中移智庫 模型將極大提升機器人對環境理解的準確性,增強任務執行的效率,并促進人機之間更加自然流暢的交流與協作。參考文獻
14、參考文獻 1Xiangxiang Chu,Limeng Qiao,Xinyang Lin,Shuang Xu,YangYang,Yiming Hu,Fei Wei,Xinyu Zhang,Bo Zhang,XiaolinWei,et al.Mobilevlm:A fast,reproducible and strongvision language assistant for mobile devices.arXiv preprintarXiv:2312.16886,2023.2Yizhang Jin,Jian Li,Yexin Liu,Tianjun Gu4,Kai Wu,Zhengkai
15、Jiang,Muyang He,Bo Zhao,Xin Tan,Zhenye Gan,Yabiao Wang,Chengjie Wang and Lizhuang Ma.EfficientMultimodal Large Language Models:A Survey.arXiv preprintarXiv:2405.10739,20243Haotian Liu,Chunyuan Li,Qingyang Wu,and Yong Jae Lee.Visual instruction tuning.In NeurIPS,2023.9/14中移智庫 4Alec Radford,Jong Wook
16、Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry,Amanda Askell,Pamela Mishkin,Jack Clark,et al.Learning transferablevisual models from natural language supervision.InInternational conference on machine learning,pages 87488763.PMLR,2021.5Ruyi Xu,Yuan Yao,Zonghao Guo,Junbo Cu
17、i,Zanlin Ni,Chunjiang Ge,Tat-Seng Chua,Zhiyuan Liu,Maosong Sun,andGao Huang.Llava-uhd:an lmm perceiving any aspect ratio andhigh-resolution images,2024.6Mukul Gagrani,Raghavv Goel,Wonseok Jeon,Junyoung Park,Mingu Lee,and Christopher Lott.On speculative decoding formultimodal large language models,20
18、24.7Junnan Li,Dongxu Li,Silvio Savarese,and Steven Hoi.Blip-2:Bootstrapping language-image pretraining with frozen 10/14中移智庫 image encoders and large language models.In Internationalconference on machine learning,pages 1973019742.PMLR,2023.8Xiangxiang Chu,Limeng Qiao,Xinyu Zhang,Shuang Xu,FeiWei,Yan
19、g Yang,Xiaofei Sun,Yiming Hu,Xinyang Lin,BoZhang,et al.Mobilevlm v2:Faster and stronger baseline forvision language model.arXiv preprint arXiv:2402.03766,2024.9Yanyuan Qiao,Zheng Yu,Longteng Guo,Sihan Chen,ZijiaZhao,Mingzhen Sun,Qi Wu,and Jing Liu.Vl-mamba:Exploringstate space models for multimodal
20、learning.arXiv preprintarXiv:2403.13600 2024.10Yuzhang Shang,Mu Cai,Bingxin Xu,Yong Jae Lee,and YanYan.Llava-prumerge:Adaptive token reduction for efficientlarge multimodal models,2024.11/14中移智庫 11Yanwei Li,Yuechen Zhang,Chengyao Wang,Zhisheng Zhong,Yixin Chen,Ruihang Chu,Shaoteng Liu,and Jiaya Jia.
21、Mini-gemini:Mining the potential of multi-modality visionlanguage models.arXiv preprint arXiv:2403.18814,2024.12Bin Lin,Zhenyu Tang,Yang Ye,Jiaxi Cui,Bin Zhu,PengJin,Junwu Zhang,Munan Ning,and Li Yuan.Moe-llava:Mixture of experts for large vision-language models.arXivpreprint arXiv:2401.15947,2024.1
22、3Han Zhao,Min Zhang,Wei Zhao,Pengxiang Ding,SitengHuang,and DonglinWang.Cobra:Extending mamba to multi-modal large language model for efficient inference.arXivpreprint arXiv:2403.14520,2024.14Mukul Gagrani,Raghavv Goel,Wonseok Jeon,Junyoung Park,Mingu Lee,and Christopher Lott.On speculative decoding
23、 formultimodal large language models,2024.12/14中移智庫 15Bin Lin,Bin Zhu,Yang Ye,Munan Ning,Peng Jin,and LiYuan.Video-llava:Learning united visual representation byalignment before projection.arXiv preprintarXiv:2311.10122,2023.16Jun Chen,Deyao Zhu,Xiaoqian Shen,Xiang Li,Zechun Liu,Pengchuan Zhang and
24、Mohamed Elhoseiny.Minigpt-v2:largelanguage model as a unified interface for vision-languagemulti-task learning.arXiv preprint arXiv:2310.09478,2023.17Mojan Javaheripi,Sebastien Bubeck,Marah Abdin,JyotiAneja,Sebastien Bubeck.Phi-2:The surprising power ofsmall language models.Microsoft Research Blog,2
25、023.18Albert Q.Jiang,Alexandre Sablayrolles,Antoine Roux,Arthur Mensch and Blanche Savary.Mixtral of experts,2024.19Jianjian Cao,Peng Ye,Shengze Li,Chong Yu,YansongTang,Jiwen Lu,and Tao Chen.Madtp:Multimodal alignment-13/14中移智庫 guided dynamic token pruning for accelerating vision-language transforme
26、r,2024.20Bin Zhu,Bin Lin,Munan Ning,Yang Yan,Jiaxi Cui,HongFaWang,Yatian Pang,Wenhao Jiang,Junwu Zhang,Zongwei Li,etal.Languagebind:Extending video-language pretraining to n-modality by language-based semantic alignment.arXivpreprint arXiv:2310.01852,2023.21Albert Gu and Tri Dao.Mamba:Linear-time sequencemodeling with selective state spaces.arXiv preprintarXiv:2312.00752,2023.審稿:柴鑫剛|業務研究所 本文作者:李星立|業務研究所 14/14中移智庫