當前位置：首頁 > 報告詳情

殷述康-多模態大語言模型領域進展分享.pdf

上傳人：張** 編號：177538 2024-10-01 PDF PDF 42頁 4.28MB

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/42

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《殷述康-多模態大語言模型領域進展分享.pdf》由會員分享，可在線閱讀，更多相關《殷述康-多模態大語言模型領域進展分享.pdf（42頁珍藏版）》請在三個皮匠報告上搜索。

1、DataFunSummitDataFunSummit#20242024多模態大語言模型領多模態大語言模型領域進展分享域進展分享殷述康/博士在讀背景介紹多模態大語言模型介紹多模態大語言模型演進團隊相關工作介紹未來展望01背景介紹背景-LLM正走向多模態大語言模型(LLM)是近幾年來最火熱的方向之一可以解決各種傳統NLP任務，如文本分類、命名實體識別等可以做更高級的任務作為聊天機器人，按照要求扮演某個角色(強大的指令遵循能力)做高階的推理任務，如寫代碼、解數學問題等(強大的推理能力,CoT進一步增強)然而LLM存在固有的限制無法處理多模態的輸入，導致有些任務無法做或者很難做，如根據網站截

2、圖給出源代碼、理解一張表情包的含義無法獲取更多的多模態的世界知識，如名畫、名人等背景-LLM正走向多模態多模態大語言模型(MLLM)的興起就在近兩年，工業和學術界都在積極轉向多模態模型，比如OpenAI的GPT-4V、GPT-4o谷歌的Gemini-ProYin,Shukang,et al.A survey on multimodal large language models.arXiv:2306.13549在短短的兩年間，已有上百個模型涌現，包括大企業的閉源模型和學術社區的開源模型探索。背景-MLLM能做些什么能做傳統視覺/多模態任務Cited from arXiv:2309.17

3、421Caption任務計數任務定位任務背景-MLLM能做些什么能做更復雜的復合型任務,比如基于視覺的感知和理解任務;Cited from arXiv:2309.17421圖表推理根據圖表寫代碼多模態大語言模型介紹02介紹-MLLM的基本方面由于大企業的模型是閉源的，學術界正積極研究探索開源的模型。模型架構數據與訓練方法模型評估介紹-MLLM的架構常用的架構一般包含三個部分:編碼器連接器大語言模型Yin,Shukang,et al.A survey on multimodal large language models.arXiv:2306.13549介紹-MLLM的架構視覺編碼器

4、常用的是基于CLIP預訓練的ViT 對于常見的224x224分辨率圖片，patch大小為14，最后共得到14x14=256個tokensCited from arXiv:2211.01335介紹-MLLM的架構連接器 MLP結構不改變視覺token的數量，使用線性層或者多層感知機做投影。Q-Former 壓縮圖片token至固定的數量，提高運算效率 Q指query，使用一組可學習的query向量從視覺token中抽取更緊湊的表征信息Cited from arXiv:2305.06500Cited from arXiv:2304.08485介紹-MLLM的數據和訓練方法第一階段：模態對齊

5、訓練將視覺的語義空間與文本空間對齊一種做法是凍結LLM，訓練視覺編碼器和連接器通常使用大量的圖文配對數據訓練，如caption數據。輸入圖片，預測圖片的文本描述介紹-MLLM的數據和訓練方法第二階段：指令微調訓練提升模型的指令遵循能力，學習泛化到各種任務通常使用各種任務的數據，如VQA數據、檢測數據等，并改造為指令格式（多輪對話形式）輸入圖片和指令，預測回答介紹-MLLM的評測常規任務Benchmark 一般聚焦某個具體的特定任務，關注特定指標 VQA任務：要求模型基于圖片內容進行回答，常關注淺層元素如物體類別、屬性，有時涉及淺層推理，回答一般比較簡單。一般使用準確率作為評估指標

6、介紹-MLLM的評測專門Benchmark 除了基本的感知能力，還關注推理等能力，任務一般更為復雜、困難多模態大語言模型演進03演進-更高的分辨率更高的分辨率能看見更多的信息，更準確地回答問題演進-更高的分辨率如何提高視覺編碼器的分辨率？思路一：使用更大的分辨率進行微調(Qwen-VL:224-448,arXiv:2308.12966)演進-更高的分辨率如何提高視覺編碼器的分辨率？思路二：將大分辨率的圖片切成多塊，每塊依然是原來的分辨率一般保留一張低分辨率的完整圖片作為全局特征Cited from arXiv:2311.07575演進-更豐富的輸入形式從只支持單圖輸入到支持多圖、視

7、頻輸入Cited from arXiv:2406.12742演進-更豐富的輸入形式從只支持單圖輸入到支持多圖、視頻輸入Cited from arXiv:2407.03320演進-更豐富的I/O模態支持輸出更多的模態？如圖片、音頻、視頻輸出圖文交錯的內容，給文字配上圖，使內容更生動Cited from arXiv:2401.16420演進-更豐富的I/O模態支持輸出更多的模態？如圖片、音頻、視頻基于基礎的MLLM框架，后接各種生成模型如擴散模型，生成除文本外其他模態的信息。Cited from arXiv:2309.05519演進-更豐富的I/O模態支持輸出更多的模態？統一的多模態模

8、型擴充語言模型的詞表，將連續信號離散化加入Tokenizer，訓練時將圖片轉化為離散token進行預測推理時統一預測多模態token，圖片token經過De-tokenizer轉化為圖片輸出天然支持圖文交錯的訓練數據Cited from arXiv:2405.0981804團隊相關工作介紹相關工作-幻覺緩解背景：在開源模型探索的早期，幻覺問題還比較嚴重幻覺:大模型在描述對象屬性、對象數量等方面不準確的現象。樣例如下圖所示。減少模型輸出的幻覺，提升準確性和用戶體驗:WoodpeckerWoodpeckerYin,Shukang,et al.Woodpecker:Hallucinatio

9、n correction for multimodal large language models.arXiv:2310.16045相關工作-幻覺緩解能否集成專家模型緩解幻覺？利用外部反饋獲取更準確的認知，從而增強模型，減少幻覺基礎的感知能力：object類別與數量、object的屬性信息(顏色、位置等)相關工作-幻覺緩解實現:使用傳統視覺模型提升感知能力視覺基礎模型具有強大的感知能力。因此，我們利用預訓練的視覺基礎模型從圖片中提取可靠的視覺信息。這些視覺信息為幻覺修正提供了參考。使用目標檢測模型從圖片中提取目標的數量信息，使用VQA(視覺問答)模型提取目標的屬性信息。相關工作-幻覺緩

10、解實現:利用視覺信息輔助大語言模型做幻覺修正大語言模型具有強大的推理能力與豐富的語言學知識。因此，大語言模型能夠基于已知信息進行推理,對幻覺做修正,同時保持語義連貫性、完整性使用設計好的Prompt(提示)模板將原描述、視覺知識組織起來，送入大語言模型中。大語言模型基于視覺知識、文本語義進行推理，將描述中帶有幻覺的部分進行修正。相關工作-幻覺緩解實現:利用視覺信息輔助大語言模型做幻覺修正大語言模型具有強大的推理能力與豐富的語言學知識。因此，大語言模型能夠基于已知信息進行推理,對幻覺做修正,同時保持語義連貫性、完整性使用設計好的Prompt(提示)模板將原描述、視覺知識組織起來，送入

11、大語言模型中。大語言模型基于視覺知識、文本語義進行推理，將描述中帶有幻覺的部分進行修正。相關工作-幻覺緩解實驗結果:利用糾正框架可以顯著減少幻覺受益于基礎視覺模型的知識提取，幾個典型的多模態大模型在感知能力上均有提升為了構建更強大的系統，使用外置專家模塊作為信息補充仍然是有效的手段上表為開源多模態大模型在MME的存在、計數、位置和顏色子集上的測評結果，w/Ours表示是否加入我們提出的修正框架相關工作-長視頻理解測評背景:現存測試集無法充分評估多模態大模型在理解長視頻全局性內容的能力【長視頻理解】絕大多數現存評測基準平均時長不超過1分鐘【通用模態理解】現存評測所提供的模態信息（如文本、

12、音頻）均不豐富【全局信息利用】現存評測只利用局部信息即可得到答案，難以評估上下文理解、整合能力Fu,Chaoyou,et al.Video-MME:The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis.arXiv:2405.21075平均時長較短多模態信息不夠豐富相關工作-長視頻理解測評人工采集三種長度的視頻各300條，每條人工標注3個問答對，提供字幕以及音頻問題設計均考慮視覺相關性，并且具有足夠高的有效時長（38%）需要更充分地利用前后視頻信息，對視頻建立更深入的全局

13、理解視頻中，那個戴著繃帶、拿著信封的男人是如何受傷的？A.他在放煙花時，一只手被煙花擊中了。B.他在試圖撲滅一棟著火的房子時，手臂受傷了。C.他在追趕Wayne的摩托車時，從地上摔下來，手受傷了。D.他在侮辱Wayne的父親時，被Wayne用食物引誘的狗拖下了一只胳膊。被狗拖下選項D戴著繃帶的男人拿著一個信封追趕Wayne的摩托車選項C一棟著火的房子選項B被煙花擊中選項A選項在視頻中均出現模型做出正確選擇需對問題和視頻有全局理解相關工作-長視頻理解測評視頻類別、視頻時長、問題類型的多樣性視頻涵蓋各個領域視頻時長覆蓋廣中、長視頻分布均勻問題類別多短、中視頻注重感知長視頻注重推理相關工作-長視頻

14、理解測評對現存的開源與商業大模型進行了綜合評測字幕對多模態大模型的視頻理解具有正向作用開源模型最優結果閉源模型最差結果開源模型仍具有較大提升空間上表中為多模態大模型在Video-MME中短、中、長三種視頻上的表現其中w/subs代表使用字幕信息，w/o subs代表不使用字幕信息圖片大模型：QwenVL系列、InternVL-Chat-V1.5視頻大模型：Video-LLaVA、Video-Chat2等，GPT4V/4o以及Gemini 1.5Pro模型在12種任務類型上的表現雷達圖動作識別物體識別屬性感知空間感知時間感知信息概要物體推理動作推理空間推理時間推理計數問題光學字符識別實體感知問

15、題仍是現存多模態大模型的共同瓶頸相關工作-多模態交互體驗提升背景:GPT-4o的發布展現了多模態實時對話交互體驗的新可能可以隨時打斷模型的輸出，而不需要等待輸出完再進行下一輪交互/提問實時響應速度，模型及時回復，而不需要等待幾秒鐘的延遲模型能夠捕捉人類情緒(如說話人是失落/興奮的)，也能夠以不同的情緒(比如激昂、戲劇化的)、風格(模仿機器人、歌唱式的)回答相關工作-多模態交互體驗提升背景:探索提升對話交互體驗的開源方案:VITA 不需要專門的喚醒機制來激活語音助手，如喚醒詞“Hi！Siri”支持打斷語音輸出，插入新用戶請求，而不需要等候輸出完成再輸入新的用戶請求屏蔽環境噪聲，提升模

16、型對話感知的準確性Fu,Chaoyou,et al.VITA:Towards Open-Source Interactive Omni Multimodal LLM.arXiv 2408.05211相關工作-多模態交互體驗提升實現:兩大核心設計屏蔽背景聲中的噪音：LLM詞表中加入特殊的狀態狀態tokentoken，讓模型判別輸入的音頻是有效query還是背景噪音，實時監聽的同時又不會受噪音干擾。打斷輸出后快速響應新query：雙工機制雙工機制。同時運行兩個模型生成和監聽模型，分別用于輸出回答和音頻監聽。當生成模型被新音頻query打斷時切換另一個模型響應新請求，兩個模型身份互換。05未來展望未來展望未來需要什么？支持更長的context/有效的壓縮視覺token 輸入的視覺token越來越多，多圖、高分辨率、長視頻理解.長上下文理解能力，如電影級別的視頻理解多模態Agent 如智能手機助手，自動完成某項操作，如將手機亮度調整至夜間模式輕量化的部署統一多模態生成和理解統一的訓練范式，統一的推理流程直接生成任意圖文交錯的內容DataFunSummitDataFunSummit#20242024THANKS

相關圖表

本文主要探討了多模態大語言模型的發展及其在各個領域的應用。多模態大語言模型(MLLM)能夠處理包含多種模態（如文本、圖像、視頻等）的信息，較傳統模型有更廣泛的應用前景。文章介紹了MLLM的基本架構、數據與訓練方法、評估指標，并指出其能處理傳統模型難以解決的復合型任務，如基于視覺的感知和理解任務。同時，文章也提到了MLLM在實際應用中存在的問題，如幻覺現象，并介紹了團隊在緩解幻覺問題上的相關工作。最后，文章對MLLM的未來發展進行了展望，提出了統一多模態生成和理解、輕量化部署等方向。

"多模態大語言模型進展如何？" "如何解決多模態大語言模型的幻覺問題？" "多模態大語言模型在長視頻理解上有何突破？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站