《謝春宇_多模態大模型:開放世界理解.pdf》由會員分享,可在線閱讀,更多相關《謝春宇_多模態大模型:開放世界理解.pdf(49頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummitDataFunSummit#20242024多模態大模型:開放世界理解謝春宇/360多模態團隊負責人 背景 圖文多模態大模型 360多模態大模型探索 業務落地實踐1234什么是大模型大參數大算力大數據什么是大模型大數據大參數大算力背景q人工智能AGI,我們需要什么?ChatGPT的發布標志著自然語言處理技術邁入了一個全新的階段。自2022年底亮相以來,它憑借其驚人的語言生成能力,迅速成為AI領域的焦點。ChatGPT能夠進行連貫、深度的對話,甚至創作詩歌、撰寫文章,展現出了前所未有的創造力和理解力。這一突破不僅激發了公眾對于AI技術的興趣,還加速了科技界對通用人工智能
2、(AGI)的研究步伐。在教育、寫作、娛樂等多個領域,ChatGPT的應用潛力正在被不斷挖掘。教育工作者利用它輔助教學,作家借助它激發靈感,企業則將其融入客戶服務,提高了效率與體驗。同時,ChatGPT也引發了關于AI倫理、隱私保護及就業市場變革的廣泛討論,促使社會各界思考如何在享受AI紅利的同時,建立相應的監管框架,確保技術的健康發展??傊?,ChatGPT的出現不僅是技術上的革新,更是對人類社會未來發展路徑的一次深刻啟示。背景q人工智能AGI,我們需要什么?GPT4做為新一代的GPT模型增加了對視覺模態輸入的支持,這意味著它能夠理解圖像并進行相應的自然語言生成增加了多模態能力的GPT4也帶來了
3、應用層面的更多可能GPT-4V增強的視覺能力分析和理解圖像內容,提供描述、識別對象,甚至解釋場景根據圖像生成創意文本格式翻譯圖像中的文本,強大的OCR能力GPT-4O具備原生多模態能力支持文本、音頻、圖像任意組合性能提升,更快的響應速度背景q視覺能力是通用人工智能AGI需必備的基礎能力人類智能本身高度依賴于視覺感知理解世界情境感知交互能力學習能力識別物體預測運動視覺-語言跨模態學習 Vision-language cross modal learning,亦稱為VLP(Vision-Language Pretrain)、VLM(Vision-Language Model),代表性的工作是20年
4、OpenAI的CLIP,開啟和引領了CV多模態研究的大模型時代Li,Yingming,Ming Yang,and Zhongfei Zhang.Multi-view representation learning:A survey from shallow methods to deep methods.arXiv preprint arXiv:1610.012061(2016).視覺-語言跨模態學習Radford,Alec,Jong Wook Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry
5、et al.Learning transferable visual models from natural language supervision.InInternational conference on machine learning,pp.8748-8763.PMLR,2021.0.4B1.8B5B5BCLIP20ALIGN21BASIC22DFN23Data Size視覺-語言跨模態學習中文圖文跨模態模型 R2D2圖文跨模態學習帶來的基于內容的圖文互檢能力對于互聯網搜索來說具有非常重要的落地價值,來自于360搜索的實際業務需求非常強烈。360搜索:使用跨模態模型之前的搜索結果36
6、0搜索:使用跨模態模型之后的搜索結果視覺-語言跨模態學習中文圖文跨模態模型 R2D22300萬訓練數據,在中文圖文檢索任務上達到SOTA雙塔base+單塔head的混合模式專門針對數據噪聲設計的momentum-updated encoder和masked input+soft label雙蒸餾1 Xie Chunyu,et al.CCMB:A Large-scale Chinese Cross-modal BenchmarkC/Proceedings of the 31st ACM International Conference on Multimedia.2023:4219-4227.視
7、覺-語言跨模態學習中文圖文跨模態模型 R2D2伴隨著算法和模型,我們一同開源了對應的圖文跨模態數據集Zero,包含2.5億中文圖文對數據基于用戶點擊CTR篩選,數據質量更高https:/2300萬3000萬1億2.5億Zero V1WenLan21WuKong22Zero V2Data Size 背景 圖文多模態大模型 360多模態大模型探索 業務落地實踐1234圖文多模態大模型LMM的研發回顧 LMM=Large Multimodal Model,之前亦稱為MLLM(Multimodal Large Language Model),目前也有小部分工作為了強調視覺能力將其稱為LVM(Large
8、 Vision Model)。LMM是在單文本模態的語言模型LLM基礎上發展起來的研究方向,旨在解決純文本語言模型LLM只能理解文本輸入的先天缺陷,賦予大模型對多模態信息混合輸入的理解和處理能力,在此基礎上可以再進一步實現多模態信息的混合輸出能力 相關的研究路線主要分為兩條:一條是原生多模態路線,模型設計從一開始就專門針對多模態數據進行適配設計,代表性的工作有MSRA的KOSMOS、Google的Gemeni、OpenAI的GPT-4O;另一條是單模態專家模型縫合路線,通過橋接層將預訓練的視覺專家模型與預訓練的語言模型鏈接起來,代表性的工作有23年1月Saleforce的BLIP-2,以及近期
9、的Idefics2和InternVL2等工作Gemini12-6-2023閉源GPT-4O5-14-2024閉源Qwen-VL8-15-2023開源LLaVA4-17-2023開源Idefics24-15-2024開源InternVL26-25-2024開源圖文多模態大模型路線選擇 原生多模態路線的理論上限更高,但對應的是訓練成本遠高于縫合路線;縫合路線因為可以復用各個單模態領域的已有成果,因此具有很經濟的訓練成本優勢。少數的巨頭機構采用的是原生多模態路線,其它絕大多數企業和學界研究機構采用的是縫合路線卡*月290580137406478130519845SimVLMCoCaCogVLMPAL
10、IIDEFICSFlamingoPALM-E2905801374064781305198450500010000150002000025000SimVLMCoCaCogVLMPALIIDEFICSFlamingoPALM-E圖文多模態大模型第一代LMM 多模態LMM的研發從22年底到現在,從整個業界的角度來觀察,有著非常明顯的代際更替 第一代LMM(22年1123年6月)的代表性工作主要包括BLIP-2,LLaVA,miniGPT4以及國內智譜的VisualGLM、阿里的mPLUG-owl、自動化所的X-LLM、IDEA的Ziya-Visual等。360人工智能研究院在23年5月開源的SEEC
11、hat(360VL的前身)也屬于第一代LMM。這一代LMM的能力主要為針對圖像內容的對話和問答,支持的圖像分辨率非常低(224224),研發的重心主要聚焦在模態對齊的原型驗證上圖文多模態大模型第二代LMM 第二代LMM的研發,時間上大致為23年611月。從第二代LMM的研發開始,整個業界開始呈現出研發投入逐漸增強,研發競爭急劇擴大的情況。第二代LMM從研發的角度主要是要為LMM增加目標定位的能力,相比粗粒度的圖像內容問答,增加目標定位能力是多模態LMM能夠在Agent、機器人、自動駕駛、安防巡檢等場景中落地實用的必要前提圖文多模態大模型第三代LMM 從23年11月至今,業界已經轉入第三代LMM
12、的研發。第二代LMM的研發中暴露出以下幾個關鍵問題,需要在第三代LMM的研發中進一步解決I.高分辨率輸入的支持2代LMM的分辨率基本都處在336448之間II.圖文模態間的競爭幾乎所有的工作都回避了語言模型能力下降的問題III.多模態的Scaling Law縫合路線的天花板是否已經出現圖文多模態大模型高分辨率輸入的支持第一代LMM所能處理的圖像分辨率固定為224(對應圖像token數32256),第二代LMM的典型分辨率是336448。主要制約因素是訓練的成本和語言模型的窗口大?。阂环矫鎴D像分辨率越高,圖像編碼后的image token數越多,對應的訓練成本越高;另一方面23年語言模型的輸入窗
13、口大小普遍在1K左右,過長的圖像編碼token長度會壓縮文本輸入的空間,導致問答能力的下降。圖像分辨率支持不夠高帶來的問題,一方面是LMM在圖像對話/問答中對細節的理解能力受限,另一方面更為重要的是作為通用模型的LMM很難在下游任務上實現對傳統專業模型的超越,這也是目前LMM在實際落地應用中的最顯著障礙目前第三代LMM模型通過將輸入圖像切塊的方式已基本解決了高分辨率圖像支持的技術障礙,同期語言模型的輸入窗口也普遍從1K提升到4K、8K甚至幾十萬字,24年2月后開始陸續有第三代LMM的工作實現了高分辨率以及混合分辨率的支持,代表性的工作有LLaVA1.6,阿里的QwenVL-plus/max,金
14、山的Monkey,曠視的Vary等工作。圖文多模態大模型圖文模態間的競爭 多任務訓練一直以來存在任務間競爭的問題 在多模態LMM的研發上,多任務的競爭問題更為顯著,特別是視覺模態vs文本模態的競爭Option I:保持LLM原有能力,模型融合設計和訓練的難度更高。代表性的工作是做為LMM先驅的Flamingo。模型結構上專門設計了多模態融合的縫合層,內嵌的LLM訓練時固定不受影響。360 SEEChat和智譜的CogVLM采取了類似方案。優點是嚴格能力超集,缺點是訓練難度更高。Option II:當前大多數工作的選擇則是在LMM上放棄文本模態的能力,只強調視覺模態的能力。為了盡可能提升LMM在
15、視覺任務上的表現,將LLM打開參與視覺任務訓練。這么做的優點是可以降低LMM在模型設計和訓練上的難度,容易刷高LMM在視覺任務上的指標,但LLM會發生顯著的遺忘效應。融合路線:在多模態訓練時加入文本數據,來緩解LLM的遺忘問題圖文多模態大模型多模態Scaling Law 縫合路線目前最大的障礙:不具有很好的data-performance scaling up能力 當前縫合路線的模型結構基本已經收斂為image encoder+projector+LLM的結構,其中image encoder負責圖像編碼,LLM負責對話邏輯,projector作為縫合層將視覺編碼器和語言模型進行橋接縫合 但是當
16、前以LLAVA為代表的淺層縫合模型,通常在百萬訓練量級后就已經飽和,將訓練量提高到千萬甚至幾億的量級并不能帶來LMM模型能力的明顯提升 背后的根本原因,要追溯到縫合路線下LMM中內嵌的語言模型能力是否需要保持上 兩種解決方案:方案一:在image encoder+projector上做文章,將海量數據的信息在預訓練階段訓練到視覺編碼器和縫合層中,語言模型參數僅在最后的指令微調階段參與訓練。代表性的工作包括國內零一萬物的Yi-VL,書生浦語InternLM-XComposer-VL,韓國KaKao Brain的Honeybee等方案二:在多模態訓練過程中也同步加入相當比例的純文本訓練數據同時進行
17、訓練,代表性的工作包括Apple的MM1和國內幻方的Deepseek-VL等工作圖文多模態大模型Gemini12-6-2023GoogleGPT-4O5-14-2024OpenAIIdefics24-15-2024Hugging FaceDeepSeek-VL3-18-2024幻方360VL5-16-2024360研究院InternVL26-25-2024上海AI LAB第一代LMM第二代LMM第三代LMM圖文多模態大模型MiniGPT4模型結構:采用 BLIP2 的 ViT 和 Q-Former 作為視覺編碼器,采用 Vicuna 作為文本解碼器,通過一個線性映射層將視覺特征映射到文本表示空
18、間模型訓練:凍結視覺編碼器和文本解碼器,只訓練線性映射層Pre-traing:5M圖文數據對齊SFT:3.5K人工矯正數據圖文多模態大模型LLaVA模型結構:采用 CLIP VIT-L/14作為視覺編碼器,采用 Vicuna 作為文本解碼器,通過一層MLP做線性映射模型訓練:Pre-traing:從 CC3M 中通過限制 caption 中名詞詞組的最小頻率過濾出595k圖文數據,凍住視覺編碼器和文本解碼器,只訓練線性映射層SFT:映射矩陣與語言模型均更新圖文多模態大模型LLaVA-1.5數據增加更多微調數據VQARegion-level VQA中英雙語ShareGPT對特定問題設計promp
19、t模型增加VL connector容量提升模型分辨率更大杯LLM圖文多模態大模型LLaVA-Next混合分辨率支持自適應選擇最佳縮放尺寸1x1,1x2,1x3,1x4,1x5,1x6,2x2,2x3等模型性能更好的LLM(Mistral-7B、Nous-Hermes-2-Yi-34B數據高質量GPT-4V數據(LAION-GPT-V 和 ShareGPT-4V)用戶反饋真實數據增強OCR能力(DocVQA、SynDog-EN等)加強圖表理解能力(ChartQA,DVQA,和 AI2D)圖文多模態大模型DeekSeek-VL視覺編碼器384分辨率SigLIP與1024分辨率SAM的結合,全局+細
20、節語言能力退化?聯合視覺語言預訓練中加入大量純文本數據圖文多模態大模型Idefics2模型SigLIP+Perceiver Resampler+Mistral-7BResampler降低圖像token,提升效率保持aspect ratio,4 crops and original 數據interleaved數據圖文對(高質量的人工標注PMD+高噪聲的laion)PDF文件(OCR-IDL,PDFA,Rendered Text)Cauldron微調數據圖文多模態大模型InternVL2大容量ViT:InternViT-6B性能更強的LLM:InternLM2/Llama3動態高分辨率策略視頻等更
21、多數據的引入 背景 圖文多模態大模型 360多模態大模型探索 業務落地實踐1234360多模態大模型探索基于單模態專家縫合方案的多模態模型SEEChat SEEChat項目(https:/ Experts Efficient integration)主打能力:q 嚴格超集:SEEChat MLLM的視覺能力做為內嵌語言模型的嚴格超集存在,強調不影響語言模型原有的能力q OVD:在對圖像內容的整體理解之外,能夠同步給出涉及目標在圖像中出現的位置360多模態大模型探索qSEEChat模型BLIP-2 ViT+Qformer+projection layer+chatGLM6B+LoRAStage
22、IImage-Text Alignment訓練數據23M中文圖文對1+BLIP-CapFilt方法重新生成caption,只訓練projection layerStage IIHuman-Text AlignmentV1.0 通用領域模型:Instruction-following data(LLAVA 158k+miniGPT4 3.5k)finetune projection layer+chatGLM+LoRAStage IIIDomain AlignmentV1.1 領域適配模型:Instruction-following data,按照LLAVA方式半自動化標注一批領域數據 淺層融合
23、模型,主打Dialogue+Captioning+OVD能力1 Xie C,Cai H,Li J,et al.CCMB:A Large-scale Chinese Cross-modal BenchmarkC/Proceedings of the 31st ACM International Conference on Multimedia.2023:4219-4227.360多模態大模型探索qStage II初版多輪對話效果 5-18-2023360多模態大模型探索qStage II初版多輪對話效果 5-18-2023User詳細描述這張圖片。SEEChat這張照片顯示了一名男子站在一輛出租
24、車前,出租車停在路邊,窗外是一棟高樓和街道。背景是一棟高樓和街道,樹木和路燈照亮了城市。圖像中的人穿著黑色襯衫和白色褲子,戴著黑色帽子。圖像中的樹木和路燈照亮了城市,背景中的高樓和街道。User這是白天還是晚上?SEEChat這張照片是在夜晚拍攝的,所以背景中的高樓和街道被樹木和路燈照亮,出租車停在路邊。這是一張城市夜景的照片,可以讓人感受到城市的喧囂和繁忙。User出租車是什么顏色的?SEEChat出租車是黃色的。User站在前面的是男人還是女人?SEEChat站在前面的是男人。User圖片里路燈是什么顏色的?SEEChat圖像中的路燈是黃色的。360多模態大模型探索qStage II初版多
25、輪對話效果 5-18-2023User詳細描述這張圖片。SEEChat這張圖片展示了一個街頭市場,人們站在一個貨架前,手里拿著各種商品。貨架上堆滿了各種商品,包括蠟燭、糖果、咖啡和茶。背景是一棟建筑,屋頂上有一個遮陽傘。圖片中的人穿著衣服,看起來很高興,手里拿著商品。User天氣怎么樣?SEEChat這張圖片的日期和時間未知。從圖片的背景來看,可能是一個陽光明媚的天氣,遮陽傘的陰影覆蓋在建筑上。User有幾個人?SEEChat根據圖片中人的數量,很難確定一共有幾個人。User房子是什么顏色的?SEEChat房子的顏色是白色的,可能是奶油色或淺黃色。User什么季節?SEEChat這張圖片很難準
26、確地推斷是哪個季節。User根據人們穿的衣服推測是哪個季節。SEEChat可以看出人們穿著夏季服裝,比如短袖襯衫和短褲。在這種情況下,可能正處于夏季或炎熱季節。User有人在看報紙嗎?SEEChat圖片中的人似乎正在看報紙,但我沒有注意到他們是否在閱讀。360多模態大模型探索 實驗探索模型LLMsQWen2Llama3Vicuna1.5ChatglmVision encoderSiglipCLIP-VitDFN高分辨率策略滑動窗口高分辨率vision encoderConnectorMLPPerceiver resamplerCNN數據開源數據Laion,Zero等中英文原生數據Recaption數據General VQA,OCR,Counting,Detection等內部數據360多模態大模型探索https:/ truthprediction by 360VLground truthprediction by 360VL 背景 圖文多模態大模型 360多模態大模型探索 業務落地實踐1234360VL業務落地實踐 360智能硬件搭載多個AI feature兒童手表拍照學英文,小朋友隨身的英文老師公測評分9.1360VL業務落地實踐 圖像標簽化基于360VL多模態模