《殷述康-多模態大語言模型領 域進展分享.pdf》由會員分享,可在線閱讀,更多相關《殷述康-多模態大語言模型領 域進展分享.pdf(42頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummitDataFunSummit#20242024多模態大語言模型領多模態大語言模型領域進展分享域進展分享殷述康/博士在讀背景介紹多模態大語言模型介紹多模態大語言模型演進團隊相關工作介紹未來展望01背景介紹背景-LLM正走向多模態 大語言模型(LLM)是近幾年來最火熱的方向之一 可以解決各種傳統NLP任務,如文本分類、命名實體識別等 可以做更高級的任務 作為聊天機器人,按照要求扮演某個角色(強大的指令遵循能力)做高階的推理任務,如寫代碼、解數學問題等(強大的推理能力,CoT進一步增強)然而LLM存在固有的限制 無法處理多模態的輸入,導致有些任務無法做或者很難做,如根據網站截
2、圖給出源代碼、理解一張表情包的含義 無法獲取更多的多模態的世界知識,如名畫、名人等背景-LLM正走向多模態 多模態大語言模型(MLLM)的興起 就在近兩年,工業和學術界都在積極轉向多模態模型,比如OpenAI的GPT-4V、GPT-4o谷歌的Gemini-ProYin,Shukang,et al.A survey on multimodal large language models.arXiv:2306.13549在短短的兩年間,已有上百個模型涌現,包括大企業的閉源模型和學術社區的開源模型探索。背景-MLLM能做些什么 能做傳統視覺/多模態任務Cited from arXiv:2309.17
3、421Caption任務計數任務定位任務背景-MLLM能做些什么 能做更復雜的復合型任務,比如基于視覺的感知和理解任務;Cited from arXiv:2309.17421圖表推理根據圖表寫代碼多模態大語言模型介紹02介紹-MLLM的基本方面 由于大企業的模型是閉源的,學術界正積極研究探索開源的模型。模型架構數據與訓練方法模型評估介紹-MLLM的架構 常用的架構一般包含三個部分:編碼器 連接器 大語言模型Yin,Shukang,et al.A survey on multimodal large language models.arXiv:2306.13549介紹-MLLM的架構 視覺編碼器
4、 常用的是基于CLIP預訓練的ViT 對于常見的224x224分辨率圖片,patch大小為14,最后共得到14x14=256個tokensCited from arXiv:2211.01335介紹-MLLM的架構 連接器 MLP結構 不改變視覺token的數量,使用線性層或者多層感知機做投影。Q-Former 壓縮圖片token至固定的數量,提高運算效率 Q指query,使用一組可學習的query向量從視覺token中抽取更緊湊的表征信息Cited from arXiv:2305.06500Cited from arXiv:2304.08485介紹-MLLM的數據和訓練方法 第一階段:模態對齊
5、訓練 將視覺的語義空間與文本空間對齊 一種做法是凍結LLM,訓練視覺編碼器和連接器 通常使用大量的圖文配對數據訓練,如caption數據。輸入圖片,預測圖片的文本描述介紹-MLLM的數據和訓練方法 第二階段:指令微調訓練 提升模型的指令遵循能力,學習泛化到各種任務 通常使用各種任務的數據,如VQA數據、檢測數據等,并改造為指令格式(多輪對話形式)輸入圖片和指令,預測回答介紹-MLLM的評測 常規任務Benchmark 一般聚焦某個具體的特定任務,關注特定指標 VQA任務:要求模型基于圖片內容進行回答,常關注淺層元素如物體類別、屬性,有時涉及淺層推理,回答一般比較簡單。一般使用準確率作為評估指標
6、介紹-MLLM的評測 專門Benchmark 除了基本的感知能力,還關注推理等能力,任務一般更為復雜、困難多模態大語言模型演進03演進-更高的分辨率 更高的分辨率能看見更多的信息,更準確地回答問題演進-更高的分辨率 如何提高視覺編碼器的分辨率?思路一:使用更大的分辨率進行微調(Qwen-VL:224-448,arXiv:2308.12966)演進-更高的分辨率 如何提高視覺編碼器的分辨率?思路二:將大分辨率的圖片切成多塊,每塊依然是原來的分辨率 一般保留一張低分辨率的完整圖片作為全局特征Cited from arXiv:2311.07575演進-更豐富的輸入形式 從只支持單圖輸入到支持多圖、視
7、頻輸入Cited from arXiv:2406.12742演進-更豐富的輸入形式 從只支持單圖輸入到支持多圖、視頻輸入Cited from arXiv:2407.03320演進-更豐富的I/O模態支持 輸出更多的模態?如圖片、音頻、視頻 輸出圖文交錯的內容,給文字配上圖,使內容更生動Cited from arXiv:2401.16420演進-更豐富的I/O模態支持 輸出更多的模態?如圖片、音頻、視頻 基于基礎的MLLM框架,后接各種生成模型如擴散模型,生成除文本外其他模態的信息。Cited from arXiv:2309.05519演進-更豐富的I/O模態支持 輸出更多的模態?統一的多模態模
8、型擴充語言模型的詞表,將連續信號離散化 加入Tokenizer,訓練時將圖片轉化為離散token進行預測 推理時統一預測多模態token,圖片token經過De-tokenizer轉化為圖片輸出 天然支持圖文交錯的訓練數據Cited from arXiv:2405.0981804團隊相關工作介紹相關工作-幻覺緩解 背景:在開源模型探索的早期,幻覺問題還比較嚴重 幻覺:大模型在描述對象屬性、對象數量等方面不準確的現象。樣例如下圖所示。減少模型輸出的幻覺,提升準確性和用戶體驗:WoodpeckerWoodpeckerYin,Shukang,et al.Woodpecker:Hallucinatio
9、n correction for multimodal large language models.arXiv:2310.16045相關工作-幻覺緩解 能否集成專家模型緩解幻覺?利用外部反饋獲取更準確的認知,從而增強模型,減少幻覺 基礎的感知能力:object類別與數量、object的屬性信息(顏色、位置等)相關工作-幻覺緩解 實現:使用傳統視覺模型提升感知能力 視覺基礎模型具有強大的感知能力。因此,我們利用預訓練的視覺基礎模型從圖片中提取可靠的視覺信息。這些視覺信息為幻覺修正提供了參考。使用目標檢測模型從圖片中提取目標的數量信息,使用VQA(視覺問答)模型提取目標的屬性信息。相關工作-幻覺緩
10、解 實現:利用視覺信息輔助大語言模型做幻覺修正 大語言模型具有強大的推理能力與豐富的語言學知識。因此,大語言模型能夠基于已知信息進行推理,對幻覺做修正,同時保持語義連貫性、完整性 使用設計好的Prompt(提示)模板將原描述、視覺知識組織起來,送入大語言模型中。大語言模型基于視覺知識、文本語義進行推理,將描述中帶有幻覺的部分進行修正。相關工作-幻覺緩解 實現:利用視覺信息輔助大語言模型做幻覺修正 大語言模型具有強大的推理能力與豐富的語言學知識。因此,大語言模型能夠基于已知信息進行推理,對幻覺做修正,同時保持語義連貫性、完整性 使用設計好的Prompt(提示)模板將原描述、視覺知識組織起來,送入
11、大語言模型中。大語言模型基于視覺知識、文本語義進行推理,將描述中帶有幻覺的部分進行修正。相關工作-幻覺緩解 實驗結果:利用糾正框架可以顯著減少幻覺 受益于基礎視覺模型的知識提取,幾個典型的多模態大模型在感知能力上均有提升 為了構建更強大的系統,使用外置專家模塊作為信息補充仍然是有效的手段上表為開源多模態大模型在MME的存在、計數、位置和顏色子集上的測評結果,w/Ours表示是否加入我們提出的修正框架相關工作-長視頻理解測評 背景:現存測試集無法充分評估多模態大模型在理解長視頻全局性內容的能力【長視頻理解】絕大多數現存評測基準平均時長不超過1分鐘【通用模態理解】現存評測所提供的模態信息(如文本、
12、音頻)均不豐富【全局信息利用】現存評測只利用局部信息即可得到答案,難以評估上下文理解、整合能力Fu,Chaoyou,et al.Video-MME:The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis.arXiv:2405.21075平均時長較短多模態信息不夠豐富相關工作-長視頻理解測評 人工采集三種長度的視頻各300條,每條人工標注3個問答對,提供字幕以及音頻 問題設計均考慮視覺相關性,并且具有足夠高的有效時長(38%)需要更充分地利用前后視頻信息,對視頻建立更深入的全局
13、理解視頻中,那個戴著繃帶、拿著信封的男人是如何受傷的?A.他在放煙花時,一只手被煙花擊中了。B.他在試圖撲滅一棟著火的房子時,手臂受傷了。C.他在追趕Wayne的摩托車時,從地上摔下來,手受傷了。D.他在侮辱Wayne的父親時,被Wayne用食物引誘的狗拖下了一只胳膊。被狗拖下選項D戴著繃帶的男人拿著一個信封追趕Wayne的摩托車選項C一棟著火的房子選項B被煙花擊中選項A選項在視頻中均出現模型做出正確選擇需對問題和視頻有全局理解相關工作-長視頻理解測評 視頻類別、視頻時長、問題類型的多樣性視頻涵蓋各個領域視頻時長覆蓋廣中、長視頻分布均勻問題類別多短、中視頻注重感知長視頻注重推理相關工作-長視頻
14、理解測評 對現存的開源與商業大模型進行了綜合評測字幕對多模態大模型的視頻理解具有正向作用開源模型最優結果閉源模型最差結果開源模型仍具有較大提升空間上表中為多模態大模型在Video-MME中短、中、長三種視頻上的表現其中w/subs代表使用字幕信息,w/o subs代表不使用字幕信息圖片大模型:QwenVL系列、InternVL-Chat-V1.5視頻大模型:Video-LLaVA、Video-Chat2等,GPT4V/4o以及Gemini 1.5Pro模型在12種任務類型上的表現雷達圖動作識別物體識別屬性感知空間感知時間感知信息概要物體推理動作推理空間推理時間推理計數問題光學字符識別實體感知問
15、題仍是現存多模態大模型的共同瓶頸相關工作-多模態交互體驗提升 背景:GPT-4o的發布展現了多模態實時對話交互體驗的新可能 可以隨時打斷模型的輸出,而不需要等待輸出完再進行下一輪交互/提問 實時響應速度,模型及時回復,而不需要等待幾秒鐘的延遲 模型能夠捕捉人類情緒(如說話人是失落/興奮的),也能夠以不同的情緒(比如激昂、戲劇化的)、風格(模仿機器人、歌唱式的)回答相關工作-多模態交互體驗提升 背景:探索提升對話交互體驗的開源方案:VITA 不需要專門的喚醒機制來激活語音助手,如喚醒詞“Hi!Siri”支持打斷語音輸出,插入新用戶請求,而不需要等候輸出完成再輸入新的用戶請求 屏蔽環境噪聲,提升模
16、型對話感知的準確性Fu,Chaoyou,et al.VITA:Towards Open-Source Interactive Omni Multimodal LLM.arXiv 2408.05211相關工作-多模態交互體驗提升 實現:兩大核心設計 屏蔽背景聲中的噪音:LLM詞表中加入特殊的狀態狀態tokentoken,讓模型判別輸入的音頻是有效query還是背景噪音,實時監聽的同時又不會受噪音干擾。打斷輸出后快速響應新query:雙工機制雙工機制。同時運行兩個模型生成和監聽模型,分別用于輸出回答和音頻監聽。當生成模型被新音頻query打斷時切換另一個模型響應新請求,兩個模型身份互換。05未來展望未來展望 未來需要什么?支持更長的context/有效的壓縮視覺token 輸入的視覺token越來越多,多圖、高分辨率、長視頻理解.長上下文理解能力,如電影級別的視頻理解 多模態Agent 如智能手機助手,自動完成某項操作,如將手機亮度調整至夜間模式 輕量化的部署 統一多模態生成和理解 統一的訓練范式,統一的推理流程 直接生成任意圖文交錯的內容DataFunSummitDataFunSummit#20242024THANKS