《北京大學:2025生成未必理解:基于擴散模型能否實現視覺世界模型?(30頁).pdf》由會員分享,可在線閱讀,更多相關《北京大學:2025生成未必理解:基于擴散模型能否實現視覺世界模型?(30頁).pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、袁粒袁粒 Li YuanSchool of ECE,Peking University Shenzhen Graduate School生成未必理解:基于擴散模型能否實現視覺世界模型?“What I cannot create,I do not understand”Richard Feynman“What I can generate,I do understand”“What I can understand,I do generate”?基于擴散的生成真的理解了嗎?Prompt:Step-printing scene of a personrunning,cinematic film s
2、hot in 35mm.Prompt:Fivegraywolfpupsfrolicking and chasing each otheraround a remote gravel road跑步機上的人反著跑步,不符合邏輯杯子水先撒出來,后破碎,不符合事實小狼的數量時而五只,時而三只或四只Prompt:Glass shattering with red liquid and ice cubesDiffusions Beat GANsV.S.V.S.Dhariwal,Prafulla,and Alexander Nichol.Diffusion Models beat Gans on Image
3、 Synthesis.NeurIPS 34(2021):8780-8794.4基于Diffusion的視覺生成發展DDPM was proposed in JuneProposed DDIMLatent Diffusion Model(LDM)was processed2020202120222023LoRA for Diffusion was proposed,quickly adopted for various applicationsGoogle proposed V1 of the Video Diffusion ModelVideo generation apps Pika V1,
4、Runway Gen1 and Gen2,and Stable Video Diffusion emergedAcademic ProgressApplication ProgressOpenAI proposed DALL-E,based on Transformer not DiffusionTHU proposedCogView,a text-to-image model based on Transformer,following DALL-EBased on Stable Diffusion,hit applications like MidJourney V1-V4 emerged
5、Stability AI open-sourcedStable Diffusion V1 and V2OpenAIreleasedSora,aT2V model,but no API access yet2024T2I-Adapter(PKU)andControlNet(Stanford)were proposed for precise T2I controlOpenAI proposedDALL-E 2,based on DiffusionCLIP:Aligning text and image spaces,later widely used for T2IKeling Model by
6、 Kuaishou&Vidu by Shengshu&Open Sora plan by PKUMeta proposedDiffusion Transformer,replacing U-Net with TransformerHuawei proposed the T2I model PixArt-based on DiTShanghai AI Lab proposedLatte,a T2V model based on DiT5視覺生成和視覺理解兩條路線完全割裂6生成未必理解、理解不能生成未必理解、理解不能(視覺)生成;(視覺)生成;建模方式不一樣:視覺生成依靠擴散模型,視覺理解依靠建模
7、方式不一樣:視覺生成依靠擴散模型,視覺理解依靠LLM(自回歸生成);(自回歸生成);模型參數規模不一樣:視覺理解可以千億規模,生成模型大部分數十億到百億;模型參數規模不一樣:視覺理解可以千億規模,生成模型大部分數十億到百億;視覺理解模型:LLaVA系列視覺生成模型:Diffusion 系列世界模型的可能路徑 統一是必然Refer to Zhongyuan Wang,BAAI多模態理解統一多模態大模型(理解+生成)AI4S(應用)世界模型(探索中)多模態生成統一多模態代表性工作:多模態Scaling Law驗證:LanguageBind(ICLR 2024),持續驗證中MoH、MoE+:混合注意
8、力專家和混合專家作為統一架構基礎設施Flow-World:基于流模型的統一多模態架構(訓練中)AR-World:基于自回歸的統一多模態大模型(訓練中)理解代表性工作:多模態視覺理解Baseline:Video-LLaVA,EMNLP24,3.0k Star多模態細粒度理解:Chat-UniVi,CVPR24多模態理解思維鏈:LLaVA-CoT,1.6k star生成代表性工作:視頻生成基模型:Open-Sora Plan,11.7k star物理知識注入的質變生成:MagicTime(1.3k star),ChronoMagic,NeurIPS24動態生成:Progressive123(ICL
9、R24),Repaint123(ECCV24),ViewCrafter多模態可控生成:ConsisID,生成人物ID一致性代表性應用:ChatExcel、ChatLaw多模態應用于Science:NCS、NC兩篇子刊論文上述工作均開源:https:/ 統一是必然亮點趨勢為了實現高分辨率長時長的視頻內容生成,團隊先后提出了256倍壓縮的3D因果VAE、任意分辨率及時長訓練、稀疏注意力計算加速、任意幀控制的圖生視頻模型等技術。項目發布一周內獲得14萬余次訪問,獲得國內外上萬名程序員點贊,登上GitHub Trending全球榜單第一,累計更新模型和代碼數百次,融合開源社區的貢獻上百次,代碼被克隆上
10、千次。Open-Sora Plan 視頻生成開源計劃總覽GitHub Trending第一發起視頻生成開源計劃Open-Sora Plan項目持續更新近半年,累計新增代碼8萬余行,近期單周訪問近3萬次,收到社區和業界的持續關注,有多項后繼的視頻生成開源項目和閉源模型部分借鑒了我們的實現方式。持續的項目活躍度前沿的技術創新2月OpenAI發布了全新的文生視頻模型Sora,率先開啟了AI視頻生成的ChatGPT時刻。AI視頻生成催生了以多種創意需求,受到社會廣泛關注。當前AI視頻生成領域主要靠業界巨頭的閉源模型推動,開源項目少。模型結構支持10s級高清視頻生成兼容文生圖和文生視頻支持任意分辨率和任
11、意時長支持任意幀控制注入的圖生視頻及視頻續寫借助昇騰基礎軟件與調優工具,充分釋放硬件性能高質量數據集處理及模型評測管線昇騰異構計算架構算子開發體系,圖優化引擎MindStudio Insight昇騰Profiling工具套件MindSpeed昇騰分布式訓練加速庫MSProbe昇騰精度工具分析套件TorchNPU標準化接口,兼容開源生態源碼遷移僅需兩行代碼多流內存復用優化內存多級流水優化調度性能計算/通信/內存調優分析工具Advisor自動化給出優化建議實時監控訓練進程,識別異常昇騰基礎算子DVPP/BLAS/NN/HCCL昇騰高性能融合算子Flash Attention支持多種內存排布去除冗余
12、TransposeAscendC算子自定義開發原生開發RoPE3D高性能融合算子基于Ascend C Debug能力快速調優支持在線監控梯度異??焖俣ㄎ痪犬惓4a段支持異構算力精度一致性對比兼容Megatron原生框架內存Swap降低FA重計算開銷并行/內存/通信/計算全方位定制優化借助昇騰基礎軟件與調優工具:充分釋放硬件性能,快速支撐原生訓練圖3.Open-Sora Plan模型各算子耗時占比分析圖1.Open-Sora Plan模型精度絕對值對比圖2.Open-Sora Plan模型精度相對誤差對比 The open source community has high participa
13、tion,integrating more than 30 pull requests fromopen source creators within a week,and updating models and codes more than 200 times within aweek;The open source community is highly active,with more than 140k visits in a single week左側是Open Sora Plan最新一周的訪問量:一周有3萬多的人次的技術人員訪問和使用Open Sora Plan的代碼Open-S
14、ora Plan 視頻生成開源計劃總覽物理先驗知識作為模型輸入,以相機位姿作為物理先驗建模,輸入視頻生成模型中進行訓練,構建不同視角下的4D世界(已開源)相機位姿發相機位姿發生變化后視生變化后視角變化的角變化的4D生成生成相機先驗輸入視頻生成模型相機先驗輸入視頻生成模型Yu,W.,Xing,J.,Yuan,L.,Hu,W.,Li,X.,Huang,Z.,.&Tian,Y*.(2024).Viewcrafter:Taming video diffusion models for high-fidelity novel view synthesis.arXiv preprint arXiv:240
15、9.02048.視覺世界模型探索1:相機位姿先驗4D生成全景二維信息作為先驗知識進行建模,輸入視頻生成模型中進行訓練,構建不同視角下的3D全景世界,可用于游戲世界模擬和探索Zhou,H.,Cheng,X.,Yu,W.,Tian,Y*.(2024).Holodreamer:Holistic 3d panoramic world generation from text descriptions.arXiv preprint arXiv:2407.15187.視覺世界模型探索2:全景3D生成Autoregression model by next-resolution(next-scale)pre
16、diction15視覺生成架構是否已經收斂到Diffusion?Tian,K.,Jiang,Y.,Yuan,Z.,Peng,B.,&Wang,L.(2024).Visual autoregressive modeling:Scalable image generation via next-scale prediction.arXiv preprint arXiv:2404.02905.16Sun,P.,Jiang,Y.,Chen,S.,Zhang,S.,Peng,B.,Luo,P.,&Yuan,Z.(2024).Autoregressive Model Beats Diffusion:Lla
17、ma for Scalable Image Generation.arXiv preprint arXiv:2406.06525.視覺生成架構是否已經收斂到Diffusion?17Kondratyuk,D.,Yu,L.,Gu,X.,Lezama,J.,Huang,J.,Hornung,R.,.&Jiang,L.(2023).Videopoet:A large language model for zero-shot video generation.arXiv preprint arXiv:2312.14125.視覺生成架構是否已經收斂到Diffusion?Autoregressive Tra
18、nsformer:VQA Experts視覺理解部分視覺理解部分視覺生成部分視覺生成部分促進增強What I can create,I do understand!如何實現生成和理解統一的原生框架?Generation Experts:T2I or T2Vor Text PromptsVision Generation EncoderDecoder19Team,C.(2024).Chameleon:Mixed-modal early-fusion foundation models.arXiv preprint arXiv:2405.09818.如何實現生成和理解統一的原生框架?20Chen,
19、X.,Wu,Z.,Liu,X.,Pan,Z.,Liu,W.,Xie,Z.,.&Ruan,C.(2025).Janus-pro:Unified multimodal understanding and generation with data and model scaling.arXiv preprint arXiv:2501.17811.如何實現生成和理解統一的原生框架?1.視覺理解和生成的視覺理解和生成的Encoder是否需要統一?是否需要統一?短期不統一,長期統一該如何將壓縮和對齊做到同一個短期不統一,長期統一該如何將壓縮和對齊做到同一個Encoder中中2.離散還是連續?離散還是連續?
20、離散的話離散的話Vocabulary Size多大合適?多大合適?2.單純增加單純增加Vocabulary Size可能比較低效,離散的基礎上設計不同層次的字典作為殘差補充,將可能比較低效,離散的基礎上設計不同層次的字典作為殘差補充,將Quantization Loss補回來?補回來?3.理解和生成的理解和生成的Task Conflict、視覺和語言模態的、視覺和語言模態的Gradients Conflict怎么辦?怎么辦?4.視覺視覺CoT如何加到統一架構,讓視覺生成和理解都更加精準?如何加到統一架構,讓視覺生成和理解都更加精準?LLaVA-o15.Visual Decoder是否可以是是否
21、可以是Diffusion,或者基于,或者基于Diffusion后處理做后處理做Enhancer?如何實現生成和理解統一的原生框架?自回歸自回歸Transfomrer統一架構:理解專家部分統一架構:理解專家部分生成專家部分生成專家部分視覺生成編碼器視覺解碼器文本指令或文本提示詞視覺理解編碼器理解輸出:文本視覺生成輸出生成專家部分生成專家部分視覺生成編碼器視覺解碼器基于混合注意力專家和混合專家的自回歸基于混合注意力專家和混合專家的自回歸Transformer統一架構統一架構MoE+MoH多模態理解任務多模態理解任務多模態生成任務多模態生成任務理解輸出:文本視覺生成輸出理解和生成在同一主干網絡中端到
22、端訓練網絡,實現同一個模型能理解和生成(國產訓練中)如何實現生成和理解統一的原生框架?23如何實現生成和理解統一的原生框架?Compression as Intelligence(壓縮即智能)(壓縮即智能)Chen,Liuhan,Zongjian Li,Bin Lin,Bin Zhu,Qian Wang,Shenghai Yuan,Xing Zhou,Xinhua Cheng,and Li Yuan*.Od-vae:An omni-dimensional video compressor for improving latent video diffusion model.arXiv prep
23、rint arXiv:2409.01199(2024).Deepspeed60s,1080P Video30s,720P VideoBatch SizeGPU MemoryStep/secBatch SizeNPU MemoryStep/secZero21730.043600.05Zero31710.043590.05單 GPU/NPU 實現長視頻壓縮OriginReconstruction25如何實現生成和理解統一的原生框架?MoE、MoH架構對于原生統一也至關重要架構對于原生統一也至關重要Jin,Peng,Bo Zhu,Li Yuan*,and Shuicheng Yan*.Moe+:Ac
24、celerating mixture-of-experts methods with zero-computation experts.arXiv preprint arXiv:2410.07348(2024).Jin,Peng,Bo Zhu,Li Yuan,and Shuicheng Yan.MoH:Multi-Head Attention as Mixture-of-Head Attention.arXiv preprint arXiv:2410.11842(2024).26如何實現生成和理解統一的原生框架?高效注意力機制永遠都很重要高效注意力機制永遠都很重要27多模態CoT增強原生統一框
25、架?LLaVA-CoT/o1模型開源,首個視覺多模態慢思考模型模型開源,首個視覺多模態慢思考模型28如何實現生成和理解統一的原生框架?爭議點:統一爭議點:統一Loss還是統一建模方式?還是統一建模方式?Zhou,C.,Yu,L.,Babu,A.,Tirumala,K.,Yasunaga,M.,Shamis,L.,.&Levy,O.(2024).Transfusion:Predict the Next Token and Diffuse Images with One Multi-Modal Model.arXivpreprint arXiv:2408.11039.29總結 生成未必理解、理解無法視覺生成 理解基本收斂于自回歸、而生成架構仍未收斂到Diffusion 自回歸Autoregressive Transformer也許是大一統的關鍵 類Sora架構對于生成理解統一模型的實現仍然意義重大 路線之爭:1.究竟完全押注于自回歸,還是在Loss層面統一?2.視覺模態到底選擇連續還是離散?Thank you!