《基于世界模型世界的通用人工智能探索 -劉志毅.pdf》由會員分享,可在線閱讀,更多相關《基于世界模型世界的通用人工智能探索 -劉志毅.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunCon#2024基于世界模型的通用人工智能探索人工智能進入大模型時代1950s-1990s符號學習1990s-2000s統計學習2010-2017深度學習2018-至今大規模預訓練模型超大規模預訓練模型 GPT-3 可以通過學習少量 樣例完成十余種文本生成 任務,入選2021年 MIT 科技評論10大突破性技術包括美國三院院士 Li Fei-Fei、美國文理學院院士 Christopher Manning 和 Dan Jurafsky 在內的斯坦福大學100多位學者聯名發表長達160頁的觀點文章,提出超大規模預訓練模型將是實現通用人工智能的“基礎模型”基礎模型通過“預訓練-微調”
2、來支持下游任務智能問答模型 ChatGPT通用控制模型 Gato圖片生成模型 DALLE代碼生成模型 CoPilot 語言塑造了人類復雜思維模式和知識體系,成為了跨領域知識交流的紐帶;不同知識背景的專家通過語言交流,精確地理解信息、傳遞知識和達成共識,從而推動了有效解決方案的形成;在團隊合作的過程中,不同專業間的知識壁壘以及成員的非全時參與性是普遍存在且難以避免的問題。智能的定義Wangs Definition智能是信息系統在知識與資源不足時適應環境的能力。(P.Wang,2018)信息系統 其外延包含所有的計算機系統和機器人設備,以及許多動物,但不包含比如巖石和河流。由任務或問題驅動,通過行
3、動(actions)完成或解決 任務、行動之間的關系是系統的知識或信念 信息處理活動是選擇合適的行動完成已有任務會消耗計算資源(時間和空間資源)知識與資源不足 指定了系統的工作條件 知識充足意味著系統知道合適的算法解決問題 資源充足意味著系統有足夠的時間和空間資源將算法應用于解決問題 知識與資源不足有三個約束條件有限性:系統的信息處理能力是常數開放性:任務只要能被系統識別就能被處理實時性:新的任務隨時可能出現而非等到系統空閑時適應環境 適應性是系統總結過去的經驗,據此預測未來的情況,并用有限的資源應對無限需要的機制。這里的適應性是智能的高級形式,與遺傳算法不同,這里的適應性需要根據過去的經驗。
4、這里的適應過程是終身的(life-long)、累積的(cumulative)、開放端的(open-ended)、多目標的(multi-objective),而且不一定是收斂的。這里的適應性不僅意味著系統改變自己以滿足環境的約束,也意味著系統改變環境以滿足系統的需要。這里的適應性是系統的嘗試和努力而非結果。只有當未來與過去經驗一致時系統的表現得更好。一些推論1.由于系統的適應性,問題求解過程不是精確可重復的。2.系統的設計應當關注解決問題的單元步驟,以及將其組織起來的機制。3.由于知識與資源不足,推理不再是由真(公理)到真(定理)的推理。調研(D.Monett,et al,2018):“受訪者來
5、自48個國家和131個不同的機構(學術界77%,產業界21.3%)。受訪者主要是研究人員(75.3%)、教育工作者(36%)、開發人員或工程師(16.8%),來自計算機科學(58%)、心理學或認知科學(9.3%)和工程學(8.5%)?!保?7個中)“最被接受的機器智能的定義是Wang的:224(56%)受訪者表示同意或強烈同意?!? Wang,P.(2018).On Defining Artificial Intelligence.Journal of Artificial General Intelligence,10(2),137.2 Monett,D.,&Lewis,C.W.P.(201
6、8).Getting Clarity by Defining Artificial IntelligenceA Survey.In V.C.Mller(Ed.),Philosophy and Theory of Artificial Intelligence 2017(pp.212214).Springer International Publishing.定義通用人工智能人類智能動物智能人造生物的智能生物計算機的智能經典計算機的智能量子計算機的智能生物智能人工智能自然的人工的 智能是 從一個角度來看,智能是信息系統利用有限資源適應環境的能力。從另一個角度來看,智能是一種表征相互作用的原理。當
7、我們說一個系統擁有“智能”或說是“智能的”,往往是說它從外在表現出這樣的能力、內在的運行符合這樣的原理。人工智能是用計算機實現的智能。規定了智能的實現手段,并 規定了所具有的外在表現和所滿足的內在原理。計算機包含了傳統架構的計算機、異構的經典計算機、量子計算機、生物計算機等。人造生物涌現出的智能并不在人工智能的外延內。通用人工智能系統是 通過可能形式的計算機實現的、利用有限的資源適應開放環境的、滿足一定原理的信息系統。利用有限的資源適應開放的環境,直接的推論就是知識與資源不足。界定AGI工作的標準:1.實現手段為(可能形式的)計算機。2.系統對開放環境的適應性。注重系統誕生后的持續性而非開發者
8、針對問題臨時改變方法,針對的是廣泛的潛在的問題而非特殊的明確的問題,系統根據環境調整自己而非固定不變。3.在原理層面上的而非具體問題上的努力。例如:語言的習得機制而非特定語言的規律總結,感知的一般原理而非特定類型圖像的規律分析,真理的習得與推理而非由真到真的推理,完整的AGI的工作包含:智能的理論(哲學解)、形式化描述(數學解)、計算機實現(工程解)發展現狀:多模態發展已成共識,視覺生成熱潮逐步興起文本端趨勢基石理論核心模型2017年6月Transformer架構提出2018年10 月Bert初代模型推出,2020年6月GPT-3奠定基石閉源模型22年底23H1Killer App-ChatG
9、PT出現代表應用2022年11月ChatGPT推 出,成為殺手級應用文生圖像2020年6月DDPM提出2021 年1 月DALL-E 為初代模型,22年8月Stable Diffusion基石開源模型2023年3月 Midjourney-V5推出,成為代表應用文生視頻2022年4月 Diffusion base model kickoff2022年9月出現Make-A-Video、ImagenVideo等;2024年2月Sora模型2023年11 月 29 日 Pika-1.0推出,拉 開視 頻 生成應用的帷幕文生3D2020年3月NeRF論文發表;2023年8月提出3D Gaussian S
10、platting/2023年12月Tripo的推出和2024 年1 月Genie-1.0 文生3D應用嶄露頭角23Q2至今眾多圖像生成應用涌現24H225H1視頻生成或迎來ChatGPT時刻2025年及以后3D生成領域加速發展從理論到應用的歷時逐步縮短,多模態時代加速到來大模型多模態發展情況從模態發展情況來看:AI大模型的生成和理解能力從單模態向多模態發展已成社會共識。當前,大語言模型在文本端的應用趨于成熟,圖像和視頻生成技術快速發展,AI視覺浪潮正加速到來。從市場催化節奏來看:受文本端殺手級應用ChatGPT(于22年11月推出)和圖像生成代表應用 Midjourney V5(于23年3月推
11、出)的影響,文本端和圖像生成應用已于2023年迎來市場催化。2024年2月16日,OpenAI發布Sora文生視頻,引發市場對視頻生成領域的高度關注。未來,隨著模型的持續迭代和相關應用的涌現,視頻生成領域有望在24年迎來熱潮。發展現狀:文本端技術路徑收斂于LLM,視覺生成領域仍在探索 從技術路徑收斂情況來看:1)文本生成方面,在OpenAI GPT系列模型的引領下,大語言模型(LLMlarge language model)已成為當前文本端的確定性路徑。2)多模態方面,圖像和視頻生成的技術路徑均未收斂。圖像和視頻生成主要包括兩大路徑:擴散模型(Diffusion Model)和自回歸模型(Au
12、toregressive Model),其中,擴散模型是當前主流,而基于transformer架構的自回歸模型具備較大潛力,擴散模型也逐步呈現結合Transformer的發展趨勢。多模態大模型技術路徑情況當前技術路徑已收斂于LLM技術路徑當前主流潛在路徑是否收斂LLMTransformerDecoder only擴散模型 Stability AIStable Diffusion OpenAIGLIDE,DALL-E 2 GoogleImagen&Imagen 2基于transformer的自回歸模型:GoogleParti OpenAIDALL-E 1擴散模型+transformer架構:Op
13、enAIDALL-E 3擴散模型:Stability AI-Stable video Diffusion GoogleImagen Video基于transformer自回歸模型:GoogleVideoPoet擴散模型+transformer架構:GoogleW.A.L.T OpenAISora2D向3D升維:先由擴散模型實現text-to-2D,再由NeRF實現2D-to-3D OpenAIPoint-E GoogleDreamFusio NvidiaMagic3D3D原生:OpenAIShape-E NvidiaGet3D文本生成圖像生成視頻生成3D生成技術路徑尚未收斂技術路徑尚未收斂技術
14、路徑尚未收斂路徑對比:擴散模型占據主流,自回歸模型潛力可期 擴散模型:成為文生圖和文生視頻領域主流技術路徑的核心原因 Available:基于擴散的Stable Diffusion模型選擇開源,使廣大開發者能夠在此基礎上運用和優化擴散模型,其公開可用的特性使之成為圖像和視頻生成領域的主流基礎模型。自回歸模型:在視覺生成領域具備較大發展潛力的主要原因 Scalable:基于transformer的自回歸模型相較于擴散模型更適合、更容易做規模擴展(scale up)。目前,擴散模型的參數規模通常 在billion(十億)級別,而自回歸模型得益于transformer架構,參數具備更大的擴展潛力,圖
15、像和視頻領域的自回歸模型有望借鑒transformer在文本領域LLM的經驗,通過對不同模態進行跨模態、規?;慕?,實現“大力出奇跡”。擴散模型 VS 自回歸模型擴散模型自回歸模型原理擴散過程是指對數據逐漸增加高斯噪音直至數據變成隨機 噪音的過程,擴散模型包含前向擴散過程和反向生成過程。通過編碼器將文本轉化成token或序列,應用自回歸預測,經過訓練好的模型解碼輸出圖像。優點需要更少的計算資源,計算效率更高,成本更低;更好的縮放,在處理數據時(壓縮/放大)能獲得高質量圖像在規模持續增長的情況下能夠呈現更好的生成效果;視頻的時間序列結構適合轉化為預測下一幀的任務形態。缺點蘊含多個(原始模型可能
16、要上千個)前向傳播過程,采樣程序效率低下;似然估計欠佳,數據泛化能力差。自回歸模型參數量大,對訓練數據的質量和體量要求高,整體訓練成本高。模型圖像:Stability AIStable Diffusion;OpenAIGLIDE,DALL-E2;GoogleImagen&Imagen 2視頻:Stability AIStable video Diffusion;Google Imagen Video;圖像:GoogleParti;OpenAIImageGPT,DALL-E視頻:Google VideoPoet應用圖像:Midjourney;視頻:Runway;Pika 1.0/擴散模型:發展歷
17、程資料來源:擴散模型從原理到實踐 擴散模型持續迭代,助力應用崛起。2020年,DDPM的提出標志著基礎擴散模型的出現;21年5月 OpenAI發表論文Diffusion Models Beat GANs on Image Synthesis,標志擴散模型打敗 GAN;2023年,以Midjourney、Adobe Firefly等應用涌現,圖像生成領域熱度高漲。擴散模型在圖像生成領域中的發展歷程1)模型提出 核心事件:DDPM模型于2020年6月推出,是圖像生成領域最早出現的擴散模型。DDPM 首次將去噪擴散概率模型應用到圖像生成任務中,奠定了擴散模型在圖像生成領域應用的基礎。論文:Denoi
18、sing Diffusion Probabilistic Models2)模型優化 核心事件:圖像生成的速度和質量由擴散模型中 的采樣器控制和決定。目前,Euler、SDE、DPM-Solver+和Karras等加速 采樣方法的出現 有助于大力提升模型在保證生成質量的前提下的快速采樣能力。論文:Score-Based Generative Modeling through Stochastic Differential Equations3)超越GAN 核心事件:2021 年5月OpenAI 提出在擴散過程中 使用顯式分類器 進行引導,展示擴散模型的強大潛力,打敗圖像生成領域統治多年的 GAN
19、模型,擴散模型逐步成為圖像生成領域的主流。論文:Diffusion ModelsBeat GANs on ImageSynthesis4)爆發 核心事件:21年1月CLIP預訓練模型發布,該技術而后與擴散模 型持續結合,推動擴散模型21-22年在文生圖領域爆發。如 OpenAIGLIDE、DALL-E,GoogleImagen,Stable Diffusion.論文:Learning Transferable Visual Models From Natural Language Supervision5)模型再優化 核心事件:自 22H2以來,DreamBooth(22.08)、LoRA(2
20、3.01)和ControlNet(23.02)等擴散模型的再學習方法持續推出,針對不同任務對擴散模型進行優化。論文:DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation6)應用崛起 核心事件:眾多圖像生成應用應運而生。Midjourney V5;StabilityAl公司開發的Dream Studio圖像生成 工具箱;AdobeFirefly;百度推出文心一格 AI 創作平臺;阿里巴巴達摩院推出通義文生圖大模型等。僅20 步采樣 Big GAN-deep模型結果 OpenAI擴散模
21、型結果時間進程:AGI技術積淀已久,視覺生成領域加速推進OpenAI在各模態領域的模型布局資料來源:OpenAI官網2018.062019.022020.052021.012022.042022.112022.122023.032023.052023.092023.102023.112024.02ChatGPT:約1750億參數,強大的理 解能力GPT-4:萬億級參數;數據源擴充;增加訓練后處理和行為預測GPT-4V:開始具備視覺能力,可輸入圖像并結合文本 進行輸出GPT-4 Turbo:多模態能力提升;支持更長的上下文窗口、更低的價格、更高的性能DALL E第1代:120億參 數;基于 自回
22、歸模 型DALL E 第3代:基于Tranformer 架構的圖像生成模型,能更準確地反映提示內容和理解細微差別DALL E第2代:35億參數;基于擴散模型Sora:文生視頻模型;視頻理解能力和生成能力突出;擴散模型與大語言模型相結合Point-E:可根據復雜提示生成3D點云的模型;采用2D向3D升維的技術路徑Shape-E:一個用于3D資產的條件生成模型;采用原生3D數據進行訓練文本領域圖像領域3D領域視頻領域GPT-1:1.17億參數;有一定的泛化能力GPT-2:15億參數;生成能力提升GPT-3:1750億參數;可完成大多NLP任務前期工作積累深厚,研發進程加速推進。Sora模型的誕生離
23、不開GPT和DALL E系列模型的積淀,GPT語言模型從2018年開始迭代,第一代DALL E文生圖模型于2021年1月正式發布論文,優質基座模型和文本-圖像配對的優質數據集奠定前期基礎,Sora模型最終于2024年2月16日對外宣布。強大的理解能力:領會并細化提示詞,學習及模擬物理世界資料來源:Improving Image Generation with Better Captions爭議:為什么Sora可以較好地理解Prompt提示詞?優秀的基座模型:DALL E幫助文本-視頻進行高質量配對+GPT用于Prompt的細化處理。GPT、DALL E模型迭代至今,已呈現對語言、視覺數據和世界
24、較強的理解能力。DALL E幫助文本和視頻的高質量配對:OpenAI技術報告指出,研發團隊將DALL E3的文字描述技術應用到視頻訓練上,訓練出一個較強的文字描述模型,并在訓練Sora時通過使用大量的與視頻相對應的高準確度描述性文字,提高文生視頻的質量。GPT用于改寫和細化Prompt:團隊利用GPT系列模型將簡短的Prompt轉換成詳細的文字描述,將 Prompt詳細化、細節化,用于模型訓練中,使Sora能夠更好地遵循用戶提示并準確地生成視頻。訓練的文生圖模型的CLIP分數越高在“更詳細的文本和圖像配對”上訓練的文生圖模型的CLIP分數更高GPT可幫助補充缺失的細節、消除復雜關系的歧義,圖像
25、質量提升詳細的描述性合成caption比例越高,詳細的文字描述有助于高質量圖像生成GPT模型將Prompt提示詞詳細化強大的理解能力:領會并細化提示詞,學習及模擬物理世界資料來源:OpenAI社交媒體賬號Sora模型生成視頻展示1Sora模型生成視頻展示2兩艘海盜船在咖啡的波浪中起伏,咖啡的流動、船只周圍的泡沫十分自然一只貓叫醒熟睡的主人要求吃早餐,貓咪出現貓捏/踩奶的動作爭議:Sora是否能夠理解事物在物理世界中的存在方式?Sora在一定程度上展示出其可能具備理解物理現象和物理規律的能力。根據OpenAI官網的展示視頻,兩艘海盜船在咖啡的波浪中起伏,咖啡的流動、船只周圍的泡沫都十分自然,可以
26、看出,盡管該場景實際上不存在于現實世界,但Sora依然可以根據流體力學等物理規則實現Prompt的要求。Nvidia高級研究科學家Jim Fan觀點:Sora很可能是一個基于數據驅動的物理引擎,是對許多世界的真實或幻想的模擬,并且模擬渲染直觀的物理、推理和基礎。Sora必須學習一些隱式形式的文本到3D的轉換、光線追蹤渲染和物理規則,以便盡可能準確地對視頻像素進行建模。Transformer架構下的Scaling law對理解物理現象和規則有望持續有效。當模型變大、數據量更多、視覺場景的分辨率越來越高,Sora所理解的規則的顆粒度將會越來越細,對物理現象和規律的把控越來越精準,并支持更長上下文的
27、學習,使視頻在更長的時間維度下做到一致與合理。強大的理解能力:領會并細化提示詞,學習及模擬物理世界資料來源:OpenAI社交媒體賬號,OpenAI官網Sora模型生成視頻展示3Sora模型生成視頻展示4玻璃杯倒下后并沒有破碎,而是部分杯體變成液體狀態一位奶奶吹生日蛋糕上的蠟燭后,蠟燭并沒有被熄滅爭議:Sora是否能夠理解事物在物理世界中的存在方式?Sora在理解物理世界方面仍存在缺陷。OpenAI Sora技術報告指出,Sora當前仍存在一些局限,如,不能準確地模擬許多基本交互的物理現象,尚不能對所有情況進行完全準確的建模。Transformer架構和擴散模型在學習和模擬物理世界的過程中存在一
28、些技術限制:1)相關性vs因果律:transformer可以建立tokens間的強相關性,但相關性不等于因果關系,Sora模型生成的視 頻可以在幀與幀之間做到較好的連貫性,但不意味著符合因果邏輯,所以在“奶奶吹蠟燭”的展示視頻中,畫面十分連貫,卻在吹完蠟燭后火苗并沒有熄滅。2)穩恒態vs臨界態:Sora所用的擴散模型適合學習和生成穩定狀態下的物體,但是較難理解和識別物體發生顯著變化時的臨界狀態,所 以在“玻璃杯摔倒”的展示視頻中,杯子摔倒沒有出現驟然破碎的狀態。強大的理解能力:領會并細化提示詞,學習及模擬物理世界資料來源:Revisiting Feature Prediction for Le
29、arning Visual Representations from Video爭議:Sora是否能夠理解事物在物理世界中的存在方式?Meta V-JEPA 模型:2024年2月14日,Meta 發表論文Revisiting Feature Prediction for Learning Visual Representations from Video并推出V-JEPA模型(Video Joint Embedding Predictive Architectures)。不同于視頻生成模型Sora,V-JEPA模型通過學習圖像和視頻的表示,主要用于預測視頻缺失的部分或者被遮住的部分,目標是希望
30、從內在學習并理解物理世界的概念。Yann LeCun觀點:大多數根據提示生成的逼真的視頻并不表明模型能夠理解物理世界。生成模型與世界模型的因果預測非常不同。對于生成模型來說,可信視頻(plausible videos)的空間非常大,因此只需生成一個樣本即可算作成功;而一個真實視頻的合理延續(plausible continuations of a real video)的空間要小得多,生成一個有代表性的塊是一個更難的任務,特別是有條件限制時。Meta V-JEPA模型設計架構第一行:被遮擋的視頻用作V-JEPA模型的輸入第二行至第四行:藍色框線內包含來自覆蓋在原始視頻上的解 碼器decoder
31、出來的 各種樣本。模型生成的樣本與輸入不一定完全匹配。V-JEPA 不僅預測空間上的信 息,同時能夠捕捉隨時間變化的一致運動Input樣本1樣本2樣本3優秀的生成能力:視頻長度優勢明顯,連貫性及可控性提升當前主要文生視頻產品對比產品公司技術路徑時長畫質發展階段SoraOpenAI基于Transfomer的擴散模型8s60s視頻分辨率可達1920 x1080p;圖片分辨率可達2048x2048p2024年2月16日發布,目前處于測試階段,僅面向“紅隊”成員和少數創作者開放。Pika 1.0Pika labs擴散模型3s/7s最高可達2K畫質2023年11月29日發布,12月開放測試資格,兌現了
32、文生圖、文生視頻、圖生視頻、視頻擴展、區域修 改等能力。24 年1月,上線 付費計劃,分為標準和專業兩個檔次,分別是10美元和60美元。Runway Gen-2Runway擴散模型4s18s由靜態圖像生成的Gen-2 視頻的分辨率可達28161536p2023年3月發布,對Gen-1進行改進,允許用戶輸入 文本提示,生成4s時長的視頻,或上傳圖片讓為其 添加動作。23年8月,視頻時長可延長至18s。23年9 月,增加 導演模式 新功能,允許用戶在生成的視 頻中選擇 攝像機運動的方向和強度/速度。Stable video diffusionStability.AI擴散模型提供14或25幀,可在3
33、幀/s30幀/s之間調整幀率576x1024p2023年11月22日發布,最新版本為SVD、SVD-XT,目前僅限于研究,不用于實際商用;目前產品在 GitHub中開源,Discord社區擁有約32W位成員,暫 未開放收賽渠道,Stable Video網頁端已啟動內測。長度:Sora可以生成長達約60s的視頻。Sora:根據OpenAI官網展示的Sora模型生成的視頻,假設展示視頻可以代表Sora的一般性表現,最短的視頻為8s,最長的視頻為59s,多數視頻的長度集中在20s左右的水平。Pika 1.0:2023年11月29日發布,生成的視頻一般為3s,多的為7s。Runway Gen-2:生成
34、的視頻長度在4s18s之間不等。Gen-2最初于2023年3月發布,可生成4s 時長的視頻;23年8月,公司在Gen-2中增加新選項,可視頻延長至18s?!巴ㄓ萌斯ぶ悄堋钡挠蓙碣Y料來源:OpenAI官網,An image is worth 16x16 words:Transformers for image recognition at scale為什么Sora能夠生成的長達60s的視頻?Patch的表達方式(前提)+transformer時空信息的處理能力(帶來時序概念)+transformer 的scaling擴展能力(能力)。Sora將視覺數據統一轉化為patch的表示方法,在trans
35、former架構下,patch和patch之間的相關性既包含空間上的相關性,也包含時間上的相關性,而transformer 可以更好地處理視頻中各個關鍵幀像素信息的相關性。因此,在更多的patch下,Sora模型可以把一個更長的視頻完整地表達出來,而transformer的scale up的能力也更加make sense。Sora模型將視覺數據轉化為Patch的表達方式視覺編碼器將視覺數據的長度、寬度、深度進行序列化,變成一長串patch的序列帶噪的patch去噪的patch通過擴散模型(diffusion model)的去噪過程視頻中的關鍵幀什么是Patch?將圖片分割后的小塊。為方便理解,
36、下圖展示的是顯式的patch,與之對應的是隱式(latent)的patch,Sora其實也正是 用的latent patches。Patches的思想最開始是源于Google深度學習團隊的ViT-Vision transformer算法。優秀的生成能力:視頻長度優勢明顯,連貫性及可控性提升資料來源:Transformer-based models and hardware accelerationanalysis in autonomous driving:A surveyTransformer對時空信息的處理能力:Transformer在自然語言處理領域和計算機視覺感知領域均能發揮作用。Tr
37、ansformer在處理大規模數據量場景上具備優勢,可以更好地在海量圖像數據中識別數據間的關聯關系,更有利于構建向量空間。Transformer架構引入時間和空間注意力機制,關注重要信息而非全部信息,在時間性方面具有更高的并行計算效率,在空間性能方面具有更強的泛化能力。自動駕駛領域中BEVformer的時序概念空間交叉注意力機制時間交叉注意力機制以自動駕駛中的BE Vformer編碼器為例,Transformer具備時空注意機制。相較于純擴散模型而言,Transformer架構在時空信息編碼和解碼的能力上十分突出,在文生視頻領域應用Transformer架構,可以更好地處理視頻中各個關鍵幀像素
38、信息的相關性,例如畫面中空間語義的相關性、序列中時間語義的相關性。強大的時空信息相關性的處理能力有助于模型可以生成更長時間維度的視頻。優秀的生成能力:視頻長度優勢明顯,連貫性及可控性提升資料來源:OpenAI官網以Sora技術報告中“帶著藍色帽子的小狗”為例Base compute如何理解 4x compute?例如,在base compute的基礎 上,將模型參數量擴大2倍、訓練 數據集擴大2倍可以看出,在計算擴展(scaling)的情況下,視頻效果顯著提升如何理解 32x compute?例如,在4x compute的基礎 上,再將模型參數量擴大4倍、訓練數據集擴大2倍Sora將Scali
39、ng transformers運用至視頻生成中的效果Transformer的scaling擴展能力:Scalable/Scale up能力:即“大力出奇跡”,模型越大、訓練數據越多,效果越強,出現智能涌 現的確定性越高。從模型參數量級來看,截至目前,擴散模型的參數規模普遍在billion(十億)級別,而自回歸模型的參數通常是擴散模型參數量的10倍以上。市場大多認為擴散模型是圖像和視頻生成領域的技術主流,卻容易忽視語言模型中transformer架 構scale up的能力。OpenAI技術報告指出,Sora是基于擴散模型,但更強調,Sora是一個基于 Transformer架構的擴散模型,其優
40、秀的生成能力離不開Transformer架構優秀的scaling特性。優秀的生成能力:視頻長度優勢明顯,連貫性及可控性提升 復雜度:能夠生成包含多個角色、多種主題、多類運動形態的復雜場景。逼真度:能夠呈現更多的視覺細節,具備更高清的畫質,為用戶提供更好的視覺體驗。生成的視頻 的畫質分辨率可以達到1920 x1080p。生成的圖片的畫質分辨率可以達到2048x2048p。連貫性&一致性:在角度移動和切換情況下,人物和場景等元素在3D空間中的位置關系能夠保持一致的運動;可以生成同一角色的多個鏡頭,保持其在整個視頻中的外觀,當物體短暫地被遮擋或離 開框架后仍然能夠恢復與先前一致的物體特征??煽匦裕涸?/p>
41、某一Prompt基礎上只改動一個關鍵詞仍能生成優質的視頻,具備較好的可控性。資料來源:OpenAI官網小狗原先的特征小狗即將被遮擋小狗再現后特征仍保持一致小狗被遮擋在Prompt中只改動少量關鍵詞,仍可快速生成優質視頻Sora模型連貫性&一致性示例Sora模型可控性示例優秀的生成能力:視頻長度優勢明顯,連貫性及可控性提升 Sora可以采樣寬屏1920 x1080p、垂直1080 x1920p的視頻,以及介于兩者之間的視頻。左圖:在標準尺寸上訓練的模型有時會出現物體只有一部分呈現在視頻中的問題。右圖:Sora基于視頻的原始尺寸進行訓練,生成的視頻較左圖有明顯改進。Sora模型在視頻采樣的尺寸方面
42、具備靈活性Sora模型在畫面構圖方面更合理資料來源:OpenAI官網為什么Sora能夠在視頻生成的逼真度/連貫性/一致性方面能夠取得較大進展?建立優質的視覺數據集和文本-視頻配對集:得益于前期DALL E3的相關工作,Sora擁有具備高關 聯性、高質量的文本-圖像-視頻配對集,使不同視頻幀之間能夠保持較高的一致性。對視覺訓練數據的處理能力:通過降維的方法保留原始視覺數據格式。OpenAI通過降維的方法,保留原始圖像的縱橫比和分辨率,使畫面完整度更高,這一改進有助于模型更準確地捕捉視覺數據 的真實本質,使Sora能夠在不用調整大小或填充畫面的情況下,高效地處理各種視覺數據。此前的視頻生成模型的工
43、作(如GAN、Autoregressive Transformers、Diffusion Models)通常局限于視覺數據的尺寸大小比如裁剪成標準尺寸、時長為4秒、分辨率為256x256,而Sora可以直接使用數據的原始尺寸進行訓練,因此Sora生成的視頻可以跨越不同持續時間、高寬比和分辨率,畫面構圖更加合理,內容邏輯性和連貫性也更好,視頻輸出質量更高。其他能力:圖生視頻,視頻擴展/編輯/拼接/模擬等資料來源:OpenAI官網無人機和蝴蝶實現無縫銜接背景環境從秋季樹木枯黃換成夏季綠樹成蔭靜態圖片變成動態視頻圖生視頻的能力視頻編輯的能力 銜接視頻的能力 圖生視頻:可以將圖片轉化為動圖和視頻。視頻
44、擴展:能在時間上向前或向后擴展視頻。例如在時間上向后延伸,視頻開頭不同,但結局相同。視頻編輯:擴散模型已有眾多根據文本提示編輯圖像和視頻的方法,可改變物體樣式和畫中環境等。銜接視頻:使用Sora在兩個輸入視頻之間逐步插值,實現不同的主題和場景視頻的無縫過渡。模擬數字世界:Sora能夠模擬人工過程,例如電子游戲等。算力端:參數擴展提升訓練算力消耗,應用落地拉動推理算力增長資料來源:Make Pixels Dance:High-Dynamic Video Generation文生視頻模型參數情況文生視頻模型推理算力的影響因素文生視頻模型通常在1B20B之間推理算力影響因素視頻的Sequence L
45、ength較文本模態更長,且視頻越長,消耗的算力越大視頻的清晰度越高,算力要求越大物理規則更好的理解要求更多的推理Diffusion Model的大量去噪步驟,帶來的算力消耗顯著高于大語言模型長視頻對連貫性和一致性的要求更高 訓練端:模型參數仍有擴展空間,訓練算力消耗有望提升。從目前市場上的文生視頻模型來看,參數大小一般處于1B20B之間,相較于千億甚至萬億參數級別的大語言模型而言,模型仍有擴展空 間,隨著模型持續scaling,訓練算力消耗有望持續提升。推理端:未來應用落地可期,推理算力需求持續增長。擴散模型包括大量的去噪步驟,擴散步驟帶來的算力消耗相較于大語言所需的推理算力需求更高。此外,
46、在視頻生成的過程中,視頻需要轉換 成幀,再轉換成patch,因此,隨著應用的落地,推理側所產生的視頻幀和patches量將持續增長,從而帶動算力需求,且視頻越長、清晰度越高、對物理世界的理解越好,算力消耗越大。應用端:文生視頻模型拓寬應用廣度,前期有望以助手角色落地文生視頻模型對應用領域的影響細分領域文生視頻潛在賦能方向短視頻視頻生成模型在視頻生成時長上較短劇和影視作品來看更能滿足實際需求,文生視頻模型有望降低短視頻創作門檻,提升創作效率,同時為長尾視頻內容的生產提供更多的可能性。廣告主流的廣告素材更多地傾向于視頻模態,文生視頻技術的進步有望提升視頻廣告生產效率。IP&社交幫助創建虛擬人,創作
47、IP將變得更加簡單,成本低優勢。游戲高性能帶寬的提升對游戲的提升效率會更高;可以幫助創建游戲Demo,提升團隊討論效率等。電影有望改變電影制作的傳統流程,例如減少對物理拍攝、場景搭建、特效制作等資源的依賴,降低電影制作成本,同時使個人創作者和小型團隊也有可能制作出具有專業水準的影視作品;AI 主要是介入內容生產和編輯的方式,對內容創作流程的改變。AR/VR有助于打造虛擬生態,為用戶帶來沉浸式的體驗;但AR/VR場景還需用到空間計算,用戶的設備定位對精度要求高。自動駕駛自動駕駛的進步仍需視覺系統的進一步發展,視覺系統還需識別地圖等三維深度信息,需要更精準地理解和識別世界。工業未來有望賦能3D和物
48、理仿真等環節。大模型向多模態方向持續發展,AI應用的廣度進一步拓寬。目前,OpenAI已向部分視覺藝術家、設計師和電影制作人提供訪問權限,以獲取專業的反饋。根據OpenAI內測方向也代表了文生視頻模型應用的重點領域,我們認為以Sora為代表的視頻生成模型有望給廣告業、設計業、電影業、短 視頻行業、游戲行業帶來變化。視頻生成模型前期將扮演創作工具的角色,對文娛行業等進行賦能。當前,以Sora為代表的視頻生 成模型距離精確控制尚有一定差距,受制于精確控制的能力,Sora未來的落地形式更可能偏向于 ChatGPT等文本端工具,以助手的角色賦能文娛等領域,從中短期來看,視頻生成模型將更多的作為創作工具
49、對相關行業進行賦能。其他:云服務將成算力重要補充,多媒體傳輸帶動光通信需求資料來源:英偉達官網英偉達數據中心GPU路線圖英偉達數據中心GPU路線圖AI工作負載需要高有效 帶寬的低延遲網絡1.6T光模塊需求有望增長 云服務:模型廠商除購買大量算力以支撐AI服務,同時還需使用云服務作為補充。在推理側,AI模型的運行大多需要依賴云服務進行生成。未來,隨著Sora等更多的文生視頻模型開放對外服務,將 進一步提高市場對云服務的需求。光通信:隨著視頻生成模型的發展以及未來應用的落地,數據中心之間將進行更多的視頻等多媒體信息的傳輸,對傳輸帶寬的要求和穩定性的要求更高,光通信需求有望大幅提升。為應對未來大模型的升級迭代和大規模應用,需要更高性能的網絡帶寬和更低的延遲,以支持更復雜的網絡需求。目前,交換機的網絡容量在數萬張卡的級別,為進一步擴大網絡容量,支撐更大體量的芯片集群,市場對交換機、光模塊、光芯片等基礎設施的需求也將持續增長。感謝觀看