《人工智能行業AI模型系列報告:從世界模型看算力需求變化-240321(20頁).pdf》由會員分享,可在線閱讀,更多相關《人工智能行業AI模型系列報告:從世界模型看算力需求變化-240321(20頁).pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、敬請參閱最后一頁特別聲明 1 核心觀點 SoraSora 是第一個表現出是第一個表現出 涌現涌現 能力的視頻生成模型能力的視頻生成模型:隨著模型規模增大而出現“理解世界”的能力:隨著模型規模增大而出現“理解世界”的能力。雖然許多 LLM,如 ChatGPT 和 GPT-4,表現出涌現能力,但在 Sora 出現之前,展示類似能力的視覺模型一直很少。根據 Sora 的技術報告,它是第一個表現出確認的涌現能力的視覺模型,標志著計算機視覺領域的一個重要里程碑。SoraSora 的成功源于的成功源于 Diffusion TransformerDiffusion Transformer 架構的引入,和過去
2、多年高質量數據的積累。架構的引入,和過去多年高質量數據的積累。從架構上看,從架構上看,視頻生成模型的技術路線開始收斂,視頻生成模型的技術路線開始收斂,SoraSora 的的 Diffusion TransformerDiffusion Transformer 架構證實了有效架構證實了有效 scalescale-upup 也即是也即是增加算力能夠對提升視頻生成的精細度和效果,是視頻生成領域的增加算力能夠對提升視頻生成的精細度和效果,是視頻生成領域的GPTGPT-3 3 時刻時刻。類似于 GPT-3 證明了更大的訓練量、模型參數量、Token 數量,訓練效果越好。引入了 Transformer 的
3、 Sora 也表現出了同樣的趨勢,OpenAI 進行了 32x訓練量和 1x、4x 訓練量的對比,從結果上看,32x 訓練量的生成效果遠遠強于 1x 和 4x 的生成效果。在 Sora 發布后Google、Snap 也發布了采用類似技術的視頻生成模型,確定了 Diffusion Transformer 的視頻生成路線,并且算力的需求會大大提升。從數據上看,從數據上看,高質量的數據對視頻生成模型的訓練至關重要,高質量的數據對視頻生成模型的訓練至關重要,SoraSora 利用自有工具增強訓練數據集與提示工程。利用自有工具增強訓練數據集與提示工程。OpenAI訓練了專用的視頻字幕模型來為視頻生成詳細
4、描述,生成高質量的視頻-字幕對,用于微調 Sora 以提高其指令跟隨能力。同時為了確保用戶提示與訓練數據中這些描述性標題的格式保持一致,Sora 執行了一個額外的提示擴展步驟,即調用 GPT-4V 模型將用戶輸入擴展到詳細的描述性提示。我們認為,隨著我們認為,隨著 Diffusion TransformerDiffusion Transformer 類模型大量應用于圖像及視頻生成類模型大量應用于圖像及視頻生成,推理需求推理需求將大幅增加,將大幅增加,與與 LLMLLM 推理推理更需更需要內存帶寬要內存帶寬的資源需求的資源需求不同,視覺模型推理將對芯片本身算力和內存容量提出更高要求不同,視覺模型
5、推理將對芯片本身算力和內存容量提出更高要求。Sora 的 DiT 和大語言模型在推理時的邏輯不同,Diffusion 需要約 20 Steps 優化過程,每次均是計算的完整的 patch,訪存需求也會大大下降,從 LLM 推理的訪存密集型場景轉變成算力密集型場景。SoraSora 高質量的視頻生成對影視和游戲行業的影響是最直接而深遠的,降低制作門檻并且很有可能重塑影視和游戲制高質量的視頻生成對影視和游戲行業的影響是最直接而深遠的,降低制作門檻并且很有可能重塑影視和游戲制作的流程與格局。作的流程與格局。高質量的視頻生成對于影視行業的工作流會有深遠的影響,前期可以替代掉分鏡以及概念片制作,后期可以
6、取代部分特效制作。對于游戲行業,游戲開發人員可能會使用它來生成自定義的視覺效果,甚至是從玩家敘述中生成角色動作。風險提示 模型架構的大幅改變影響算力需求分布 算力速度發展不及預期 中美科技領域政策惡化 行業深度研究 敬請參閱最后一頁特別聲明 2 內容目錄內容目錄 一、Sora 模型的特點.4 1.1 Sora 在生成視頻的質量、靈活性和時長上與之前的模型有代際差距.4 二、視頻生成模型的歷史與現狀.5 2.1 文生視頻是個年輕的方向,最早能追溯到 15 年的基于 GAN 生成模型.5 2.2 GAN 和 VAE 時代.6 2.3 Transformer Based.6 2.4 Diffusio
7、n Based.6 2.5 視頻生成模型的前沿:把卷積網絡卷出了 Diffusion Model.7 2.6 國內的絕大多數文生視頻模型還處于 Diffusion 階段,研發機構也在快速跟進.8 三、Sora 模型逆向工程.9 3.1 Video Encoding:將視頻信息有效的轉化為機器理解的方法是至關重要的.9 3.2 模型的核心部分:Diffusion Transformer.11 3.3 大語言模型訓練和推理對計算資源的需求分布不同.12 3.4 對算力需求的影響:Patch/Token 數量的大幅提高對內存容量需求有積極影響.14 3.5 對算力需求的影響:推理時算力需求的增長大于
8、內存速率需求的增長.15 四、世界模型之爭:三種 AI 路線的爭論.16 五、高質量視覺模型的出現的應用和對行業的影響.17 5.1 影視制作.18 5.2 游戲.18 六、風險提示.19 圖表目錄圖表目錄 圖表 1:Sora 在鏡頭和人物變化下的連貫性和一致性被認為是 Scaling Law 下涌現出的能力錯誤錯誤!未定義書簽。未定義書簽。圖表 2:Sora 適配任務場景非常豐富,覆蓋了圖像生成/編輯領域大多數任務.5 圖表 3:視頻生成模型發展歷史.6 圖表 4:最初的 GAN 文生視頻模型在分辨率、上下文和長度方面極為有限.6 圖表 5:DiT 證明了 Scaling Law 在圖像領域
9、的生效.7 圖表 6:Genie 在生成視頻中對主體動作的識別更為優秀.8 圖表 7:國產視頻生成模型比較.8 圖表 8:Sora 模型概覽.9 GUgVNAaXiYaZ7ZiWbWlWbR8Q7NsQrRmOrNiNmMmPeRoMqO8OqRrRvPrNwPwMmPwP行業深度研究 敬請參閱最后一頁特別聲明 3 圖表 9:Sora 技術報告中的 Encoding 模式.9 圖表 10:視頻生成模型 Patch 方法對比.10 圖表 11:Sora 生成不同比例的視頻內容保存度更好.10 圖表 12:Navit 的數據處理方法.11 圖表 13:DiT 的核心架構.11 圖表 14:不同算力
10、下 Sora 生成視頻的對比.11 圖表 15:大語言模型最新發展追蹤.12 圖表 16:大語言模型訓練和推理過程的計算需求分布.12 圖表 17:大語言模型訓練過程.13 圖表 18:大語言模型推理過程.13 圖表 19:視頻生成模型與大語言模型對計算資源的不同需求.14 圖表 20:Diffusion 模型推理生成圖片的過程.15 圖表 21:目前用于訓練和推理計算卡的算力/內存對比.15 圖表 22:LeCun 提出的世界模型.16 圖表 23:V-JEPA 實現的視頻預測.16 圖表 24:通往 AGI 的不同流派.16 圖表 25:視頻生成模型的應用行業.17 圖表 26:代表 AI
11、 應用訪問量熱度變化.17 圖表 27:AI 輔助制作的千秋詩頌.18 圖表 28:AI 全流程制作的中國神話-補天片花.18 圖表 29:根據 Sora 生成的視頻制作的 3D 模型.19 圖表 30:Genie 實現操作輸入圖片中的主體.19 行業深度研究 敬請參閱最后一頁特別聲明 4 一、Sora 模型的特點 1.11.1 SoraSora 在生成視頻的質量、靈活性和時長上與之前的模型有代際差距在生成視頻的質量、靈活性和時長上與之前的模型有代際差距 較長的視頻生成時長:Sora 可以生成長達 60 秒的高保真度視頻。對比之前的視頻生成模型,Pika1.0 可以生成 3s-7s 的視頻,R
12、unway 的 Gen-2 可以生成 4s-18s 的視頻。靈活的分辨率:得益于其訓練數據的靈活性,Sora 可以生成 1080P 的任何比例視頻,而不是像之前的模型在生成非原生訓練比例時會出現畫幅的消失。高保真渲染:在模擬數字世界時,如 Minecraft 游戲,Sora 能夠實現高保真的渲染效果,使得生成的視頻內容看起來就像真實游戲畫面一樣。存在 Scaling Law:更高的算力、更大的模型規模、patch 數量的增加能對生成視頻的效果有明顯的正向提升。三維空間連貫性:Sora 模型能夠生成具有正確空間關系和動態相機運動的視頻內容,確保視頻中的物體在三維空間中保持連貫的運動。圖表圖表1
13、1:SoraSora 在鏡頭和人物變化下的連貫性和一致性是在鏡頭和人物變化下的連貫性和一致性是ScalingScaling LawLaw 下涌現出的能力下涌現出的能力 來源:Sora:Technical Report、國金證券研究所 動態相機運動:模型能夠模擬包含動態相機運動的視頻,使得視頻中的人物和場景元素能夠隨著相機的移動或旋轉而相應地改變位置??臻g一致性:Sora 確保視頻中的物體在空間上保持一致性,即使在復雜的場景變換中也能保持正確的相對位置和運動軌跡。長期連續性和物體持久性:Sora 能夠在視頻中保持角色和物體的長期一致性,即使在視頻中出現遮擋或離開畫面的情況,也能保持其存在和外觀。
14、同時,它能夠生成具有連貫故事線的視頻,確保視頻中的事件和動作在時間上是連續的。任務場景豐富:除了視頻生成以外,Sora 還可以用于其他任務,如圖生視頻、文生圖片、文+圖生視頻、視頻拓展、視頻編輯、連接兩個不同視頻等。行業深度研究 敬請參閱最后一頁特別聲明 5 圖表圖表2 2:SoraSora 適配適配任務場景任務場景非常豐富,覆蓋了圖像生成非常豐富,覆蓋了圖像生成/編輯領域大多數任務編輯領域大多數任務 來源:Sora:Technical Report、數字未來實驗室、國金證券研究所 二、視頻生成模型的歷史與現狀 2.12.1 文生視頻是個年輕的方向,最早能追溯到文生視頻是個年輕的方向,最早能追
15、溯到 1515 年的基于年的基于 GANGAN 生成模型生成模型 文生視頻是個年輕的方向,面臨著多方面的獨特挑戰。主要有 1)計算成本高昂:確保幀間空間和時間一致性需要大量的計算資源,導致訓練成本高昂;視頻信息的復雜性進一步加劇了計算成本,需要更強大的計算能力來處理海量數據。2)視頻信息復雜:視頻數據形式多樣,分辨率和比例各異,包含空間、時間、內容等多維信息;如何找到一種統一的表示形式,以有效地進行大規模訓練,是文生視頻技術需要解決的關鍵問題。3)缺乏高質量數據集:現有的文生視頻多模態數據集數量有限,且標注程度不夠,難以滿足模型訓練的需求。4)視頻描述的模糊性:如何用文本準確描述視頻內容,是文
16、生視頻技術面臨的另一個難題,簡短的文本提示難以完整描述視頻,而復雜的描述又會增加模型的訓練難度。行業深度研究 敬請參閱最后一頁特別聲明 6 圖表圖表3 3:視頻生成模型發展歷史視頻生成模型發展歷史 來源:Sora:A Review on Background、國金證券研究所 2.22.2 GANGAN 和和 VAEVAE 時代時代 文生視頻模型最早能追溯到 2015 年。早期研究主要使用基于 GAN(生成對抗網絡)和 VAE(變分自編碼器)的方法在給定文本描述的情況下自回歸地生成視頻幀(如 Text2Filter 及 TGANs-C)。雖然這些工作為文生視頻這一新計算機視覺任務奠定了基礎,但它
17、們的應用范圍有限,僅限于低分辨率、短距以及視頻中目標的運動比較單一、孤立的情況。圖表圖表4 4:最初的最初的 GANGAN 文生視頻模型在分辨率、上下文和長度方面極為有限文生視頻模型在分辨率、上下文和長度方面極為有限 來源:Text-to-Video:The Task,Challenges and the Current State、國金證券研究所 2.32.3 TransformerTransformer BasedBased 受文本(GPT-3)和圖像(DALL-E)中大規模預訓練 Transformer 模型的成功啟發,文生視頻研究的第二波浪潮采用了 Transformer 架構。Phe
18、naki、Make-A-Vide、NUWA、VideoGPT 和 CogVideo 都提出了基于 Transformer 的框架,而 TATS 提出了一種混合方法,從而將用于生成圖像的 VQGAN 和用于順序地生成幀的時間敏感 Transformer 模塊結合起來。在第二波浪潮的諸多框架中,Phenaki 尤其有意思,它能夠根據一系列提示(即一個故 事 情 節)生 成 任 意 長 視 頻。同 樣,NUWA-Infinity 提 出 了 一 種 雙 重 自 回歸(autoregressive over autoregressive)生成機制,可以基于文本輸入合成無限長度的圖像和視頻,從而使得生成
19、高清的長視頻成為可能。2.42.4 Diffusion BasedDiffusion Based 第三波文生視頻模型浪潮主要以基于擴散的架構為特征。擴散模型在生成多樣化、超現實和上下文豐富的圖像方面取得了顯著成功,這引起了人們對將擴散模型推廣到其他領域 行業深度研究 敬請參閱最后一頁特別聲明 7 (如音頻、3D,最近又拓展到了視頻)的興趣。這一波模型是由 Video Diffusion Models(VDM)開創的,它首次將擴散模型推廣至視頻領域。然后是 MagicVideo 提出了一個在低維隱空間中生成視頻剪輯的框架,據其報告,新框架與 VDM 相比在效率上有巨大的提升。另一個值得一提的是
20、Tune-a-Video,它使用 單文本-視頻對微調預訓練的文生圖模型,并允許在保留運動的同時改變視頻內容。隨后涌現出了越來越多的文生視頻擴散模型,包括 Video LDM、Text2Video-Zero、Runway Gen1、Runway Gen2、Stable Video Diffusion 以及 NUWA-XL。2 2.5.5 視頻生成模型的前沿:把卷積視頻生成模型的前沿:把卷積網絡網絡卷出了卷出了 Diffusion ModelDiffusion Model 這些模型缺點比較明顯,比如支持視覺數據的類別少、視頻時間短、視頻尺寸固定等。當時還在 Meta 實習、現任 Sora 項目的負
21、責人之一的 William Peebles 于 23 年 3 月發表的Scalable Diffusion Models with Transformers 中的 Diffusion Transformers(DiTs)對新的視頻生成路線起到了關鍵的作用。DiT 的主要工作是替換了 Stable Diffusion 中的 UNet 為 Transformer,證明了在圖像生成領域的 Scaling Law,也即是減少 patch size增加參數量對生成圖像有較大的積極影響。圖表圖表5 5:DiTDiT 證明了證明了 ScalingScaling LawLaw 在圖像領域的生效在圖像領域的生效
22、 來源:Scalable Diffusion Models with Transformers、國金證券研究所 Sora 在 DiT 圖像生成的基礎上拓展到了視頻生成,能夠生成多樣化的視頻和圖像,解決了先前方法在視頻長度、尺寸和固定大小方面的限制,能夠生成任意比例的 1 分鐘 1080P的高質量視頻。Sora 沒有公布詳細的模型架構,后文中我們會對其架構進行逆向工程分析。Sora 發布大約一周后,Google 也公布了其采用了類似模型架構的 Genie 視頻生成模型,論文中明確指出是采用了 Spatiotemporal(ST)Transformers 代替了 Stable Diffusion中
23、的 UNet。Genie 使用戶能夠逐幀地在生成的環境中操作,而且是在無監督(數據沒有標注)的情況下進行訓練,更接近去世界模型的定義。雖然 Genie 目前只能生成 160X90大小的視頻,但是隨著數據質量提升、模型規模的擴大,視頻生成的尺寸和質量也會有所提升。行業深度研究 敬請參閱最后一頁特別聲明 8 圖表圖表6 6:GenieGenie 在生成視頻中對主體動作的識別更為優秀在生成視頻中對主體動作的識別更為優秀 來源:Genie:Generative Interactive Environments、國金證券研究所 在差不多的時間,Snap 也發布了其使用了 Spatiotemporal(S
24、T)Transformers 的視頻生成模型,主要區別是其采用了 FIT(Far-reaching Interleaved Transformers)技術,該技術能降低在 Token/Patch 擴大的情況下的計算復雜度。一般來說,n 倍長度的Token/Patch 在經過 Multi-head Self-Attention 時會有 n2 倍的計算復雜度,經過 FIT優化后可以實現 n4/3 的計算復雜度,降低了生成長視頻或者高分辨率視頻的算力需求。2.2.6 6 國內的絕大多數文生視頻模型還處于國內的絕大多數文生視頻模型還處于 DiffusionDiffusion 階段,研發機構也在快速跟進
25、階段,研發機構也在快速跟進 國內已有超 15 家企業推出了視頻生成工具,既包括字節、百度、阿里、騰訊等 6 家巨頭,也包括愛詩科技、生數科技、智象未來等 9 家創企。智東西觀察發現,文生視頻領域大廠與創企各有領頭羊,字節和 Morph Studio 在穩定性和成像質量方面表現出色。然而,大部分產品仍處于測試階段,存在臨時下線、排隊時間長、無獨立站點等問題。此外,生成視頻效率低,2-4 秒視頻的等待時間通常需要 3-5 分鐘甚至更久。同時,現階段文生視頻的運動程度普遍較低,多為平移式運動或鏡頭運動,且對于人手、動物等非現實場景,大模型仍難以理解和生成。圖表圖表7 7:國產視頻生成模型比較國產視頻
26、生成模型比較 產品產品/模型模型 語義理解語義理解 運動程度運動程度 成像質量成像質量 總分總分 CapCut 4 4.4 3.5 16.1 Morph Studio 4 4 3.5 15.6 NeverEnds 3.8 3.8 2.9 14.4 藝映 AI 3.4 3 3.7 13.1 VideoCrafter 2 2.3 4 3.7 13 PixVerse 3.1 3 3.3 12.5 Vega AI 2.6 3 2.8 11.8 Pixeling 3.3 2.9 2.3 11.3 來源:智東西、國金證券研究所 目前已公開的國內視頻生成模型還多數處于 Video Diffusion Mod
27、els 階段,還沒有使用Diffusion Transformer 架構的。國內公司和機構也在快速跟進,北大的 OpenSora 項目已經立項,計劃復現 Sora 的模型架構與生成效果;字節在 3 月也將對自研的視頻生成工具開啟內測,鑒于字節已經擁有上萬張計算卡的集群,并且原抖音 CEO 轉向剪映業務,字節的新的視頻生成模型也值得期待。行業深度研究 敬請參閱最后一頁特別聲明 9 三、Sora 模型逆向工程 圖表圖表8 8:SoraSora 模型概覽模型概覽 來源:Sora:A Review on Background、國金證券研究所 從本質上講,Sora 是一個 Diffusion Trans
28、former,具有靈活的采樣尺寸,如圖所示。它分為三個部分:1)Time-space compressor(時空壓縮器)首先將原始視頻映射到潛在空間中。2)然后,ViT 處理標記化的潛在表示并輸出去噪的潛在表示。3)類似 CLIP 的調節機制接收 LLM 增強的用戶指令(使用 GPT-4 增強)和潛在的視覺提示,以指導擴散模型生成樣式或主題的視頻。經過多次降噪,得到生成的視頻的潛在表示,然后用相應的解碼器映射回像素空間。3 3.1.1 Video EncodingVideo Encoding:將視頻信息有效的轉化為機器理解的方法是至關重要的:將視頻信息有效的轉化為機器理解的方法是至關重要的 視
29、頻生成模型的核心問題之一是視頻數據的形式多種多樣,包括分辨率、寬高比等。同時,視頻包含的信息緯度是高于文本和圖片的,其中包含著空間位置、時間、內容信息。因此Sora 的重要工作之一就是找到一種方式,可以將多種類型的多維視覺數據轉化為統一的表示方法,方便進行大規模的訓練。圖表圖表9 9:SoraSora 技術報告中的技術報告中的 EncodingEncoding 模式模式 來源:Sora:Technical Report、國金證券研究所 其中第一步是將視頻原始內容提煉成一個潛空間特征(Latent representation),這一步與大語言模型的 tokenization 類似,將人類可以理
30、解的內容轉化成機器可以理解的內容,區別是視頻內容需要保留時間、2D 空間位置和內容信息,而文字模型只需要保留內容和1D 位置信息。由于視頻單幀的像素量過大,所以這一步也承擔了壓縮的功能,當前模型會把單幀壓縮成 16x 16 或者 32x32 的數量。行業深度研究 敬請參閱最后一頁特別聲明 10 圖表圖表1010:視頻生成模型視頻生成模型 P Patchatch 方法對比方法對比 來源:Sora:A Review on Background、國金證券研究所 由于 Transformer 無法直接接受高維的數據進行訓練,下一步是將視頻特征拆分成時空圖像塊(Spacetime Patches),根據
31、 Sora 技術報告中引用的文獻,目前主要有兩種方法,其一(左圖)是將每一幀分成 H*W 個 patch,然后根據時間線性排列成一維,patch 總量為 HxWxT。其二(右圖)是從一段視頻片段中提取一系列 patch,也就是所謂的 tube patch。這種方式是將 VIT 的 embedding 擴展到 3D 形式。一個 patch 的大小是 t*H*W,即時間窗口乘以圖片分塊的寬和高,這種方法 patch 總量在相同 patch size 下與第一種方法相同,也是 HxWxT,對單幀圖像來說 H 和 W 均除以 t,能夠提供更精細的圖像信息。但是這種方法 patch 內部包含了時間信息,
32、導致 patch 的大小變大,且增加了生成 patch的計算量。Sora 技術報告沒有披露具體的生成 patch 方法,鑒于其 patch 名稱為 spacetime patch,并且生成的視頻有更好的時空連續性,我們傾向于其使用第二種 patch 方法。圖表圖表1111:SoraSora 生成不同比例的視頻內容保存度更好生成不同比例的視頻內容保存度更好 來源:Sora:Technical Report、國金證券研究所 Sora 另一個不同于以往的視頻生成模型的特點是可以生成自由寬高比的視頻,并且視頻的關鍵元素能很好的保留下來。主要原因是,過去的模型比如使用的 ViT(Vision Trans
33、former)的每個圖像塊(patch)都必須是同一個固定尺寸,且原圖必須是正方形。根據參考文獻,Sora 大概率參考了 Navit 的實現方式,在組成時空塊的時候,通過一種稱為“Patch n Pack”的技術,允許在訓練過程中處理不同分辨率和寬高比的輸入。在這種技術下,不同寬高比和分辨率的內容都可以拆成圖像塊。但拆圖像塊的邏輯可以靈活調整,可大可小,從而適應不同分辨率。而來自于不同圖像的圖像塊內容,可以被打包在同一序列里。這樣的話,不同分辨率、寬高比的內容都可以靈活組合成圖像塊。并且這篇行業深度研究 敬請參閱最后一頁特別聲明 11 論文中還有一個技術可以根據圖像相似度,丟掉雷同的圖像塊,實
34、現更快的訓練。3 3.2.2 模型的核心部分:模型的核心部分:Diffusion TransformerDiffusion Transformer Sora 是一個基于 Transformer 的 Diffusion Model。模型結構最初由 Scalable Diffusion Models with Transformers 這篇論文提出,也就是 DiTs。圖表圖表1212:NavitNavit 的數據處理方法的數據處理方法 圖表圖表1313:DiTDiT 的核心架構的核心架構 來源:Sora:A Review on Background、國金證券研究所 來源:Sora:A Review
35、 on Background、國金證券研究所 Stable Diffusion 由三個主要模塊組成,每個模塊都由獨立的神經網絡實現:1)文本編碼器(Text Encoder):采用 Transformer 模型,將文本中的每個詞/Token 編碼為向量特征。2)圖像信息生成器(Image Information Creator):Stable Diffusion的核心部分,負責將文本編碼后的向量特征與初始化噪聲結合,生成包含圖像信息的數組。3)圖像解碼器(Image Decoder):將圖像信息數組還原為清晰的圖像。DiTs 主要工作也就是 Sora 主要應用的部分,就是將第二部分,由 U-N
36、et 替換成了Transformer。換成 Transformer 的原因是,使用 Transformers 可以很好地保持原有的優秀特性,比如可伸縮性、魯棒性、高效性等,并且使用新的標準化架構可能在跨領域研究上展現出更多的可能。Sora 的技術報告并未披露其 Transformer 的架構,緊跟著 Sora 推出的 Google 的 Genie 和 Snap 的 Snap Videos 均采用了 ST-Transformer(Spatio-temporal Transformer),在模型的架構層也針對視頻的時空性進行了優化。Sora 證明了視頻生成模型的 Scaling Law 正是因為采
37、用了 Transformer,類似于 GPT3.0發布的時候證明了大模型的能力可以隨著算力的提升、模型規模的擴大而提升生成效果。OpenAI 進行了 1x、4x、32x 算力情況下的生成效果對比,32x 算力生成的視頻明顯好于更低算力的結果。圖表圖表1414:不同算力下不同算力下 S Soraora 生成視頻的對比生成視頻的對比 來源:Sora:Technical Report、國金證券研究所 行業深度研究 敬請參閱最后一頁特別聲明 12 3 3.3.3 大語言模型訓練和推理對計算資源的需求大語言模型訓練和推理對計算資源的需求分布分布不同不同 圖表圖表1515:大語言模型最新發展追蹤大語言模型
38、最新發展追蹤 來源:A Survey of Large Language Models、數字未來實驗室、國金證券研究所 截止到 2024 年 3 月初,我們跟蹤了國內外推出的大模型,可以發現模型機構和公司的競爭在加劇,推出新的大模型的速度在加快。我們總結出以下幾點趨勢:1)長上下文(Long-Context):最新的模型如 Gemini1.5 和 Kimi 支持到百萬級別的Token,對訓練和推理時的內存容量和算力提出更高要求。2)多模態(Multi-Modal):理解圖片、視頻、音頻信息是大模型的確定趨勢,這些信息同樣有這更大的 Token 數量,也會增大內存容量的需求。3)MOE(Mixt
39、ure-of-Experts):越來越多模型包括 Mixtral、Gemini1.5 和 Grok 在內的模型在應用 GPT 的 MOE 提升效果。除了直接擴大參數規模,MOE 的多個子模型能夠處理不同問題,雖然也會增加參數數量,但是在推理時只調用部分子模型,增加計算效率。圖表圖表1616:大語言模型訓練和推理過程的計算需求大語言模型訓練和推理過程的計算需求分布分布 來源:Opening AI Infrastructure by Meta、數字未來實驗室、國金證券研究所 對于大模型,其訓練和推理過程中對計算資源的需求也大相徑庭,其中訓練時算力和網絡帶寬的資源比較緊缺,推理分為兩個過程,pref
40、ill 對算力和內存容量的需求比較緊缺,decode 過程更需要內存帶寬、內存容量和較低的網絡延遲。大語言模型訓練時一次性對一整個句子每個 Token 進行下一個 Token 的預測,并計算所有位置 Token 的 Loss 并逐步優化,可以并行計算,需要大規模的算力和集群,所以訓練對機器之間的網絡帶寬要求較高。算力內存帶寬內存容量網絡帶寬網絡延遲敏感大語言模型訓練大語言模型推理Prefill大語言模型推理Decode行業深度研究 敬請參閱最后一頁特別聲明 13 圖表圖表1717:大語言模型訓練過程大語言模型訓練過程 圖表圖表1818:大語言模型推理過程大語言模型推理過程 來源:Sequent
41、ial Modeling for Reinforcement Learning、國金證券研究所 來源:Nvidia 開發者文檔、國金證券研究所 在大語言模型的推理過程中,首先進入的是 Prefill Phase,也就是預處理階段。在這個階段,模型會進行一次計算密集型的操作,即計算并緩存每一層的 key 和 value。這個過程對于每一個請求的 prompt 來說都是必要的,但它只需要進行一次。因為模型內部主要是矩陣乘法運算,所以這個計算過程是并行執行的,而生成的緩存被稱為 KV Cache,是大語言模型的核心。在生成回答時推理會進入 Decoding Phase,這是一個串行的過程,主要任務是
42、生成新的Token。這一階段采用了自回歸的方式,即利用上一步生成的 Token 以及之前的所有 Token作為輸入,來預測并生成下一個 Token。這個過程包含兩個關鍵步驟:首先,使用前一階段創建的 KV Cache 來計算并輸出下一個 Token 的 embedding;其次,在計算過程中,會得到當前 Token 在每一層的 key 和 value,這些信息會被緩存起來,并更新到 Prefill Phase 階段的 KV Cache 中。通過這樣的方式,模型能夠持續優化其預測,確保生成的序列既連貫又符合邏輯。行業深度研究 敬請參閱最后一頁特別聲明 14 3 3.4 4 對對算力需求算力需求的
43、影響的影響:P Patchatch/T Tokenoken 數量的大幅提高對內存數量的大幅提高對內存容量容量需求有積極影響需求有積極影響 圖表圖表1919:視頻生成模型與大語言模型對計算資源的不同需求視頻生成模型與大語言模型對計算資源的不同需求 來源:Opening AI Infrastructure by Meta、數字未來實驗室、國金證券研究所 視頻生成模型和大語言模型在對算力的要求上最大的區別 Patch/Token 的數量區別,視頻的 Patch 與視頻的時長(T)、寬度(W)、高度(H)、Patch 密度(單幀 patch 的數量 Ps)都有關系。由于在 Transformer 模型
44、中,每個 Patch 都會經過 Multi-head Self-Attention層,該層的計算復雜度與 Token 數量的平方成正比,并且在訓練過程中,模型需要存儲Self-Attention 層的中間結果,這些中間結果的存儲空間與 Patch/Token 數量的平方也成正比。最后與視頻信息的復雜度關系可以總結為:1)視頻時長:O(n2)2)寬度或者高度(以正方形視頻為例):O(n4)3)Patch 密度:O(n2)以 Sora 目前能夠生成的最長、分辨率最高的視頻為例(1080P、30 幀/s、60 秒),在 Patch密度為 32x32 的情況下,Patch 數量超過了 180 萬,目前
45、支持最長 Token 的大語言模型Gemini 1.5 Pro 也只支持到了 100 萬??紤]到 Sora 的參數規模據估計在 20-50B,與 GPT-4 相比也有一個數量級的減少,但是平均 Patch 數量至少增加了兩個數量級,因此推理過程中所需內存的大小也會有數量級的提升。所以說在同一模型下,更大的算力和內存可以生成分辨率更高、時長更長的模型。同樣的,對于同一提示詞,模型參數量更大,生成的視頻效果也更好,對算力和內存的要求也更高。算力內存帶寬內存容量網絡帶寬網絡延遲敏感大語言模型訓練大語言模型推理Prefill大語言模型推理Decode視頻模型訓練視頻模型推理推薦模型訓練推薦模型推理行業
46、深度研究 敬請參閱最后一頁特別聲明 15 3 3.5 5 對算力需求的影響:推理對算力需求的影響:推理時時算力需求的增長大于算力需求的增長大于內存速率需求內存速率需求的增長的增長 圖表圖表2020:DiffusionDiffusion 模型推理生成圖片的過程模型推理生成圖片的過程 來源:How does Stable Diffusion work?、國金證券研究所 Sora 和 GPT 的核心雖然都屬于 Transformer,但是 Sora 的 DiT 和大語言模型在推理時的邏輯不同,Diffusion 需要基于一個隨機的 noise latent 矩陣按照多個時間步迭代生成,每一步都在迭代
47、細化 latent(圖像/視頻),使其更接近輸入的提示詞,這個步數在優化之后能減少到約 20 Steps 即可產生算力與效果均衡的結果。包括 GPT 在內的大語言模型是 Decoder-Only Transformer 架構,通過 Auto Regression 的方式預測下一個 Token,是一個完全的訪存密集型場景,推理時性能瓶頸在內存帶寬。而 Sora 的 DiT 是一個 Encoder-Only Transformer 架構,推理的每一個 Step 時會輸出全部長度的 Patch,一次性生成全部長度的 Patch,對計算卡內存的訪存次數要遠小于 GPT,是一個計算密集型場景。圖表圖表2
48、121:目前用于訓練和推理計算卡的算力目前用于訓練和推理計算卡的算力/內存對比內存對比 計算卡計算卡 算力算力(FP16)(FP16)內存大小內存大小 內存帶寬內存帶寬 A100 624 TFLOPS 40/80GB HBM2e 2 TB/s H100 1979 TFLOPS 96GB HBM3 3.35 TB/s L40S 733 TFLOPS 48GB GDDR6 0.8 TB/s H20 148 TFLOPS 96GB HBM3 4 TB/s L20 119.5 TFLOPS 48GB GDDR6 0.8 TB/s TPU v5p 459 TFLOPS 95GB HBM3 2.76 TB
49、/s 昇騰 910B 376 TFLOPS 64GB HBM2e Groq 188 TFLOPS 230MB SRAM 80 TB/s 來源:SemiAnalysis、Google TPU 產品網站、Arthurchiao、數字未來實驗室、國金證券研究所 以國內特供的 H20 為例,由于美國商務部的禁令,算力做了較大的閹割,內存帶寬相比H100 反而有提升,所以在 LLM 的推理過程中反而能實現對 H100 有 10%的領先,但是對于視頻生成模型來說,H20 相比 H100 會有較大的劣勢。此外,Groq 的基于 SRAM 的芯片,內存帶寬達到了 80TB/s,推理 Token 生成速度相比
50、GPT 和 Gemini 有超過十倍的提升,這種低算力、高帶寬的芯片在視頻生成模型推理中也是毫無優勢。所以,我們認為高質量視頻生成模型的普及和推理次數的增加會增加算力需求和內存大小而不是內存帶寬,高算力、大顯存的芯片是更適合視頻生成模型的推理的,顯存帶寬相比 LLM 推理重要性降低,GDDR亦可滿足。行業深度研究 敬請參閱最后一頁特別聲明 16 四、世界模型之爭:三種 AI 路線的爭論 圖表圖表2222:LeCunLeCun 提出的世界模型提出的世界模型 圖表圖表2323:V V-JEPAJEPA 實現的視頻預測實現的視頻預測 來源:A Path Towards Autonomous Mach
51、ine Intelligence、國金證券研究所 來源:V-JEPA、國金證券研究所 OpenAI 稱 Sora 表現出來的涌現能力使其像是一個世界模擬器(World Simulator),但是世界模型(World Model)的提出者也就是 Meta 的首席科學家 Yann LeCun 并不同意,Meta同日發表論文Revisiting Feature Prediction for Learning Visual Representations from Video并推出 V-JEPA 模型,通過學習圖像和視頻的表示,主要用于預測視頻缺失的部分或者被遮住的部分,目標是希望從內在學習并理解物理
52、世界的概念。他認為,大多數根據提示生成的逼真視頻并不意味著模型能夠理解物理世界,生成模型與基于世界模型的因果預測是兩種截然不同的任務。生成模型的目標是生成看起來真實的視頻,而世界模型的目標是理解物理世界并預測其未來狀態。對于生成模型來說,可信視頻的數量空間非常龐大,因此只需生成一個符合邏輯的樣本即可算作成功。而對于世界模型來說,真實視頻的合理延續數量空間要小得多,生成一個有代表性的片段是一個更難的任務,特別是在需要滿足特定條件的情況下。圖表圖表2424:通通往往 AGIAGI 的不同流派的不同流派 來源:Meta、OpenAI、騰訊科技采訪、數字未來實驗室、國金證券研究所 生成派則相信 Sca
53、ling Law 會一直存在,隨著算力、訓練數據、參數規模不斷擴大,會有更多接近于 AGI 的能力出現,同時與特征理解派想要提取圖像或者視頻的特征不同,生成派認為通過語言來描述圖片視頻甚至人類推理事物的過程,然后學習與語言的相似程度也可以理解這些內容。語言中軸派的王小川表示 AGI 需要以語言作為中軸、并且認為 Sora 需要加入語言才能成為通往 AGI 的引擎,并且他認為 AGI 中沒有單一通用的模型的存在,需要模型大樓,包括虛擬世界模型、生命模型和真實世界模型??傮w來看,科學家們更支持重點在 Encoder 的特征理解派,而工程師和用戶則更傾向于生行業深度研究 敬請參閱最后一頁特別聲明 1
54、7 成派,Yann LeCun 成今年會發布的 Llama3 會更多的使用特征理解,與同樣今年會發布的GPT-5 對比后,通往 AGI 的路線會更清晰。五、高質量視覺模型的出現的應用和對行業的影響 圖表圖表2525:視頻生成模型的應用行業視頻生成模型的應用行業 來源:Sora:A Review on Background、國金證券研究所 視頻模型的應用仍處于高速發展階段,發布時間比較晚的應用,比如 CapCut 和 Krea 的訪問熱度仍處在快速增長,較為成熟的應用比如 Runway 的熱度也較為穩定。我們認為隨著以 Sora 為代表的視頻擴散模型成為一項前沿技術,視頻生成的質量會不斷提升,它
55、們在不同研究領域和行業的應用也會繼續加速,為從自動化內容生成到復雜決策過程等任務提供了變革性的潛力。圖表圖表2626:代表代表 AIAI 應用訪問量熱度變化應用訪問量熱度變化 來源:SimilarWeb、國金證券研究所 行業深度研究 敬請參閱最后一頁特別聲明 18 5 5.1.1 影視制作影視制作 Sora 輕松生成吸引人電影內容的能力,預示著電影制作大眾化的新時代。這展現了一個未來景象,任何人都有機會成為電影制作人,極大降低了進入電影界的門檻,并引入了一種新的電影制作維度,將傳統敘述與 AI 驅動的創意完美融合。這些技術不僅簡化了電影制作過程,還有望徹底改變電影制作領域的面貌,使其更加開放、
56、多樣化,更好地適應觀眾不斷變化的偏好和分發渠道的發展。24 年 2 月 23 日央視頻聯合上海 AI 實驗室等在 AI的輔助下創作了千秋詩頌。導演表示,AI 使得團隊創作從一個月 1 集加速到一個月 3集,速度提升兩倍。并在 29 日發布了聯合清華大學元宇宙文化實驗室制作的國內首部 AI全流程微短劇 中國神話-補天 的片花,美術、分鏡、視頻、配音、配樂全部由 AI 完成。目前運用的模型還處于上一代 Stable Diffusion 技術路線,Sora 這種高質量的視頻生成對于影視行業的工作流會有深遠的影響,前期可以替代掉分鏡以及概念片制作,后期可以取代部分特效制作。圖表圖表2727:AIAI
57、輔助制作的千秋詩頌輔助制作的千秋詩頌 圖表圖表2828:AIAI 全流程制作的中國神話全流程制作的中國神話-補天片花補天片花 來源:CCTV 央視網、國金證券研究所 來源:央視頻、國金證券研究所 5 5.2.2 游戲游戲 高質量的視頻生成模型對游戲行業的影響是深遠且革命性的,特別是在提升真實感和沉浸體驗方面。這一技術的發展和應用,為游戲設計與開發打開了全新的視野,以下是幾個關鍵方面:1)動態環境與實時反饋:利用高質量的視頻生成模型,游戲開發者可以創造出隨玩家行為和游戲事件自然變化的環境。這不僅限于天氣和景觀的變化,更包括城市的發展、植被的生長或是季節的更替等。這種技術能夠讓游戲世界實時響應玩家
58、的決策和行為,提供更加豐富和多樣的游戲體驗。2)增強的故事敘述能力:通過高質量視頻生成模型,游戲中的故事敘述能力將大大增強。開發者可以根據游戲的進展和玩家的選擇實時生成對應的場景和劇情,使得每個玩家的體驗都是獨一無二的。這種個性化的故事敘述方式,能夠極大提升玩家的沉浸感和情感投入。3)更高效的資源利用:傳統游戲開發中,創建高質量環境和角色模型需要大量的時間和資源。而利用視頻生成模型,開發者可以快速生成高質量的游戲內容,減少了對專業藝術家和模型師的依賴。這不僅能夠加速游戲的開發周期,也能夠降低開發成本。比如使用Sora 生成的高質量的場景視頻,利用其涌現的 3D 一致性獲取不同視角下場景的照片,
59、通過 3D 重建工具可以生成對場景的建模,后期優化 prompt 實現理想化的運鏡之后可以完成效果更佳的建模。行業深度研究 敬請參閱最后一頁特別聲明 19 圖表圖表2929:根據根據 SoraSora 生成的視頻制作的生成的視頻制作的 3D3D 模型模型 圖表圖表3030:GenieGenie 實現操作輸入圖片中的主體實現操作輸入圖片中的主體 來源:Sora:Technical Report、數字未來實驗室、國金證券研究所 來源:Genie:Generative Interactive Environments、國金證券研究所 4)創新的游戲機制:高質量視頻生成模型的應用,也促使開發者探索新的
60、游戲機制。例如,利用這項技術模擬真實世界的物理反應和聲音效果,可以創造出更為真實的戰斗和交互體驗。此外,運用類似 Google 的 Genie 這種動作模型,游戲中的角色和敵人也可以根據玩家的行為和游戲的進程進行實時的適應和變化,提供更具挑戰性和可玩性的游戲內容。六、風險提示 1.模型架構的大幅改變影響算力需求分布:目前的大語言模型和最新的視頻生成模型均基于 Transformer 架構,其訓練過程對算力要求高,推理過程對內存芯片帶寬要求較高,未來模型架構可能會發生變化,對算力需求的分布亦會有影響。2.算力速度發展不及預期:目前算力主要受限于芯片制程和互聯技術的發展,隨著摩爾定律的逐漸失效,未
61、來算力速度的發展可能會放緩,可能影響模型的訓練和推理。3.中美科技領域政策惡化:中美在 AI 領域競爭激烈,美國限制先進芯片和半導體對中國的出口,隨著競爭的加劇,未來可能會推出更嚴格的限制政策,限制國內 AI 模型的發展。行業深度研究 敬請參閱最后一頁特別聲明 20 特別聲明:特別聲明:國金證券股份有限公司經中國證券監督管理委員會批準,已具備證券投資咨詢業務資格。本報告版權歸“國金證券股份有限公司”(以下簡稱“國金證券”)所有,未經事先書面授權,任何機構和個人均不得以任何方式對本報告的任何部分制作任何形式的復制、轉發、轉載、引用、修改、仿制、刊發,或以任何侵犯本公司版權的其他方式使用。經過書面
62、授權的引用、刊發,需注明出處為“國金證券股份有限公司”,且不得對本報告進行任何有悖原意的刪節和修改。本報告的產生基于國金證券及其研究人員認為可信的公開資料或實地調研資料,但國金證券及其研究人員對這些信息的準確性和完整性不作任何保證。本報告反映撰寫研究人員的不同設想、見解及分析方法,故本報告所載觀點可能與其他類似研究報告的觀點及市場實際情況不一致,國金證券不對使用本報告所包含的材料產生的任何直接或間接損失或與此有關的其他任何損失承擔任何責任。且本報告中的資料、意見、預測均反映報告初次公開發布時的判斷,在不作事先通知的情況下,可能會隨時調整,亦可因使用不同假設和標準、采用不同觀點和分析方法而與國金
63、證券其它業務部門、單位或附屬機構在制作類似的其他材料時所給出的意見不同或者相反。本報告僅為參考之用,在任何地區均不應被視為買賣任何證券、金融工具的要約或要約邀請。本報告提及的任何證券或金融工具均可能含有重大的風險,可能不易變賣以及不適合所有投資者。本報告所提及的證券或金融工具的價格、價值及收益可能會受匯率影響而波動。過往的業績并不能代表未來的表現??蛻魬斂紤]到國金證券存在可能影響本報告客觀性的利益沖突,而不應視本報告為作出投資決策的唯一因素。證券研究報告是用于服務具備專業知識的投資者和投資顧問的專業產品,使用時必須經專業人士進行解讀。國金證券建議獲取報告人員應考慮本報告的任何意見或建議是否符
64、合其特定狀況,以及(若有必要)咨詢獨立投資顧問。報告本身、報告中的信息或所表達意見也不構成投資、法律、會計或稅務的最終操作建議,國金證券不就報告中的內容對最終操作建議做出任何擔保,在任何時候均不構成對任何人的個人推薦。在法律允許的情況下,國金證券的關聯機構可能會持有報告中涉及的公司所發行的證券并進行交易,并可能為這些公司正在提供或爭取提供多種金融服務。本報告并非意圖發送、發布給在當地法律或監管規則下不允許向其發送、發布該研究報告的人員。國金證券并不因收件人收到本報告而視其為國金證券的客戶。本報告對于收件人而言屬高度機密,只有符合條件的收件人才能使用。根據證券期貨投資者適當性管理辦法,本報告僅供
65、國金證券股份有限公司客戶中風險評級高于 C3 級(含 C3 級)的投資者使用;本報告所包含的觀點及建議并未考慮個別客戶的特殊狀況、目標或需要,不應被視為對特定客戶關于特定證券或金融工具的建議或策略。對于本報告中提及的任何證券或金融工具,本報告的收件人須保持自身的獨立判斷。使用國金證券研究報告進行投資,遭受任何損失,國金證券不承擔相關法律責任。若國金證券以外的任何機構或個人發送本報告,則由該機構或個人為此發送行為承擔全部責任。本報告不構成國金證券向發送本報告機構或個人的收件人提供投資建議,國金證券不為此承擔任何責任。此報告僅限于中國境內使用。國金證券版權所有,保留一切權利。上海上海 北京北京 深圳深圳 電話:021-80234211 郵箱: 郵編:201204 地址:上海浦東新區芳甸路 1088 號 紫竹國際大廈 5 樓 電話:010-85950438 郵箱: 郵編:100005 地址:北京市東城區建內大街 26 號 新聞大廈 8 層南側 電話:0755-86695353 郵箱: 郵編:518000 地址:深圳市福田區金田路 2028 號皇崗商務中心 18 樓 1806