當前位置:首頁 > 報告詳情

北京大學:2025生成未必理解:基于擴散模型能否實現視覺世界模型?(30頁).pdf

上傳人: L**** 編號:618984 2025-03-24 30頁 7.53MB

下載:
word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

本文主要探討了視覺生成和視覺理解兩條路線的關系,以及如何實現生成和理解的統一。文章指出,當前的視覺生成模型主要基于擴散模型,而視覺理解模型則主要基于自回歸生成。雖然兩者都取得了顯著的進展,但它們的架構和參數規模仍有很大差異。文章提出,實現生成和理解統一的關鍵可能在于自回歸Autoregressive Transformer架構,以及如何將壓縮和對齊融入到同一個Encoder中。同時,離散還是連續的建模方式,以及如何處理理解和生成的Task Conflict和Gradients Conflict也是需要解決的問題。文章還提到了一些具體的技術創新,如Open-Sora Plan視頻生成開源項目,以及MoE、MoH架構對于原生統一的重要性。最后,文章提出了統一Loss還是統一建模方式的爭議點,并呼吁進一步探討和實驗。
如何統一?" 視覺生成與理解的未來?" 原生統一框架的突破口在哪里?"

相關報告

客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站