《計算機行業專題:視頻大模型奇點時刻加速到來-240820(26頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業專題:視頻大模型奇點時刻加速到來-240820(26頁).pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、0視頻大模型奇點時刻加速到來證券研究報告|行業專題計算機行業投資評級|優于大市(維持)2024年8月20日證券分析師姓名:陳涵泊資格編號:S0120524040004郵箱:研究助理姓名:王思郵箱:1請務必閱讀正文之后的信息披露及法律聲明。視頻大模型迎來視頻大模型迎來SoraSora時刻,生產力工具蓄勢待發。時刻,生產力工具蓄勢待發。自自SoraSora發布以來,國內外已有十多家公司發布或更新視頻生成模型。發布以來,國內外已有十多家公司發布或更新視頻生成模型??陀^對比:與Sora差距縮小,搶占用戶或為未來主線。國內外之間的差距正在逐步縮小,視頻時長、分辨率等基礎功能具有復制性,未來競爭或向搶占用
2、戶、提升粘性等方向遷移,從而需要保障生成質量更高的可用視頻,使得視頻一致性更高、文本指令遵循更準確、物理真實模擬能力更強。主觀對比:視頻質量提升顯著,離物理世界模擬器仍有距離。文生視頻領域,視頻畫面普遍清晰,而在動作幅度與物理還原度方面差異較大,我國Vidu、清影或已處于視頻生成大模型第一梯隊,生成時間相對其他模型倍數減少,且在動作幅度、物理還原度等復雜任務完成性較好;圖生視頻領域,整體效果優于文生視頻,國內與國外差距進一步縮小。視頻大模型具備商用潛力,下游應用正在儲能。未來隨著用戶習慣的培育以及算力基礎設施的完善,視頻大模型的或者辦公、廣告、電影、游戲等多領域具有廣闊的前景。算法、算力、數據
3、三要素,視頻大模型通往算法、算力、數據三要素,視頻大模型通往AGIAGI的必經之路。的必經之路。算法:視頻生成模型算法主要由基于SD逐幀生成和基于時空Patches兩種范式構成,是效率與效益的比拼。前者模型更容易訓練,而視頻內容一致性要差一些,長視頻訓練存在困難;后者訓練成本更高,但是生成視頻的長度與一致性更容易得到保障。算力:以Sora為例,一定條件下測算,Sora訓練算力需求是GPT-4的4.5倍,而推理算力需求接近GPT-4的400倍。數據:高質量數據是模型能力的保障,而用戶數量或為開啟模型迭代“數據飛輪”的關鍵。投資建議:投資建議:建議關注(1)視頻大模型廠商:科大訊飛、商湯、云從科技
4、、格靈深瞳、拓爾思、昆侖萬維等。(2)算力:海光信息、寒武紀、景嘉微、中科曙光、浪潮信息、工業富聯、神州數碼、拓維信息、四川長虹等。(3)接入大模型的應用標的:金山辦公、萬興科技、福昕軟件、虹軟科技、彩訊股份、焦點科技、潤達醫療、金證股份、泛微網絡、金蝶國際等。風險提示:風險提示:商業化落地不及預期;國內大模型在缺乏算力支持的情況下迭代速度放緩;國內大模型技術路線產生分歧。核心邏輯8X9WaYaYeZ9WeUcW6MbP6MsQqQpNsOkPmMxPeRoMmN6MoOvMMYqRmNwMpOoO2請務必閱讀正文之后的信息披露及法律聲明。01020304視頻的大模型迎來Sora時刻,生產力工
5、具蓄勢待發算法、算力、數據三要素,視頻大模型通往AGI的必經之路投資建議風險提示目 錄CONTENTS3請務必閱讀正文之后的信息披露及法律聲明。01視頻大模型迎來Sora時刻,生產力工具蓄勢待發1.1 國內外視頻生成模型紛至沓來1.2 客觀對比:與Sora差距縮小,搶占用戶或為未來主線1.3 主觀對比:視頻質量提升顯著,離物理世界模擬器仍有距離1.4 視頻大模型具備商用潛力,下游應用正在儲能4請務必閱讀正文之后的信息披露及法律聲明。資料來源:智象未來官網,愛詩科技Alsphere微信公眾號,智譜清言官網等,德邦研究所1.1 國內外視頻生成模型紛至沓來 根據APPSO微信公眾號,自Sora發布以
6、來,國內外已有不少于十家公司不少于十家公司發布或更新視頻生成模型。以7月為例:7月31日,Runway宣布GenGen-3 3可支持圖生視頻。用戶可以使用任何圖片作為視頻生成的首幀,上傳的圖片既可以單獨使用,也可以使用文本提示進行額外指導。7月26日,智譜智譜AIAI版版SoraSora清影清影發布發布,人人可用、半分鐘快速創作視頻的時代已來。清影理論上僅需30秒即可完成6秒1440960清晰度高精度視頻的生成,展現出亮眼的推理速度,不僅具備高效的指令遵循能力,還具有內容的連貫性和調度靈活性。7月24日,愛詩科技將視頻生成模型更新至愛詩科技將視頻生成模型更新至PixVersePixVerse
7、V2V2,支持一鍵生成至多5段連續的視頻內容,且片段之間會自動保持主體形象、畫面風格和場景元素的一致性,視頻效果再次提升。7月17日,英國AI創企Haiper AI宣布HaiperHaiper升級至升級至v1.5v1.5,時長延長到8秒,且提供視頻延長、畫質增強等功能。7月6日,智象未來在智象未來在WAICWAIC上發布了上發布了智象大模型智象大模型2.02.0,提供5、10、15秒三種視頻生成時長,并增加文字嵌入生成、劇本多鏡頭視頻生成、IP連貫一致性等能力。此外,智象支持視頻增強至4K畫質。圖表:清影圖表:清影AIAI視頻效果展示視頻效果展示圖表:圖表:PixVersePixVerse V
8、2V2一次性生成多個一致性視頻一次性生成多個一致性視頻圖表:智象大模型圖表:智象大模型2.02.0可增強生成可增強生成4K4K畫質視頻畫質視頻5請務必閱讀正文之后的信息披露及法律聲明。資料來源:各公司官網,上??萍嘉⑿殴娞?,智東西微信公眾號,APPSO微信公眾號等,德邦研究所1.2 客觀對比:與Sora差距縮小,搶占用戶或為未來主線 目前,國內外大模型在視頻時長、分辨率、畫面比例切換等功能或性能指標均與Sora縮小差距,在部分功能已有趕超。生成類型:生成類型:主流大模型大多具有文生視頻、圖生視頻功能。國外Sora、Haiper v1.5同時具備視頻生視頻功能,而我國清影視頻生視頻功能僅在de
9、mo中展示,尚未向用戶開放。視頻時長:視頻時長:在Sora鯰魚帶動下,主流大模型視頻時長大都達到5-10s級別,我國部分大模型在時長上處于第一梯隊。例如,Vidu、Pixverse V2、可靈、Vimi等模型可通過視頻延展等方式達到30-120s,進一步縮小與Sora差距,甚至實現趕超。分辨率:分辨率:之前的產品分辨率大多在1024*576左右,目前主流大模型以標清720p和高清1080p為主,我國Etna與智象大模型2.0可通過畫質增強達到4K級別,趕超Sora的1080p。幀率:幀率:部分廠商未公布幀率數據,目前以24或30fps為主,而我國的Etna的60fps處于領先地位,此前的產品幀
10、率多為8-12fps。其他功能:其他功能:大部分模型已具備鏡頭運動、風格切換、畫面比例切換等功能,提升視頻生成質量與靈活性,國內Vidu和清影還可支持為視頻配樂,生成視頻更具想象力。商業模式:商業模式:目前大部分廠商采取免費方式吸引客戶,而利用訂閱模式開放更多功能等方式增強用戶粘性。綜合來看,我們認為國內外視頻生成大模型之間的差距正在逐步縮小,視頻時長、分辨率等基礎功能具有復制性,未我們認為國內外視頻生成大模型之間的差距正在逐步縮小,視頻時長、分辨率等基礎功能具有復制性,未來競爭或向搶占用戶、提升粘性等方向遷移,從而需要保障生成質量更高的可用視頻,使得視頻一致性更高、文本指來競爭或向搶占用戶、
11、提升粘性等方向遷移,從而需要保障生成質量更高的可用視頻,使得視頻一致性更高、文本指令遵循更準確、物理真實模擬能力更強。令遵循更準確、物理真實模擬能力更強。6請務必閱讀正文之后的信息披露及法律聲明。資料來源:各公司官網,上??萍嘉⑿殴娞?,智東西微信公眾號,APPSO微信公眾號等,德邦研究所圖表:國內外主流視頻生成大模型性能對比圖表:國內外主流視頻生成大模型性能對比公司公司產品產品/模型模型推出時間推出時間生成類型生成類型生成時長生成時長分辨率分辨率幀率幀率其他功能其他功能價格價格是否可用是否可用國外Open AISora2月16日文生視頻圖生視頻視頻生視頻60s1920*1080-比例切換,時
12、長可延展、鏡頭運動、真實世界模擬、世界交互等-否Stability AIStable Video2月21日文生視頻圖生視頻4s1024*57624fps比例切換、風格選擇、鏡頭移動免費可用,積分付費:500積分/10美元、3000積分/50美元是Luma AIDream Machine6月13日文生視頻圖生視頻5s(可延長至10s)1360*75224fps視頻延長免費可用,月付費版:23.99/51.99/79.99/399.99美元是RunwayGen 36月17日文生視頻圖生視頻5/10s1280*720-鏡頭運動、比例切換、風格選擇、導演模式15美元/月、144美元/月是Haiper
13、AIHaiper v1.57月17日文生視頻圖生視頻視頻生視頻2/4/8s1280*720(可增強至1080p)24fps比例切換、視頻延長、畫質增強免費可用,月付費版:10/30,年付費8折是國內七火山科技Etna3月7日文生視頻8-15s最高3840*2160 60fps-否生數科技Vidu4月27日文生視頻圖生視頻4/8s(理論32s)1920*1080-風格切換,支持配樂免費可用,月付費版:9.99/29.99/99.99元,年付費8折是字節即夢5月9日文生視頻圖生視頻3/6/9/12s1280*7208fps鏡頭移動、比例切換、視頻延長、補幀、對口型、畫質增強、運動速度免費可用,年付
14、費版:659/1899/5199元是快手可靈6月6日文生視頻圖生視頻5/10s(理論120 s)1280*72030fps比例切換免費可用,月付費版:66/266/666元是商湯Vimi7月4日圖生視頻60s-可控人物、多種方式控制、風格切換-是智象未來智象大模型2.07月6日文生視頻圖生視頻5/10/15s(商業化分鐘級)1024*576(可增強至4K)24fps比例切換、反向提示詞、鏡頭運動、4K增強月付費版:9.9/39.9/129.9/389.9元是愛詩科技Pixverse V27月24日文生視頻圖生視頻5/8s(可延展5倍)1920*1080-視頻延長(一鍵生成至多5段連續的視頻內容
15、)、鏡頭運動免費可用,月付費版:4/24/48美元是智譜AI清影7月26日文生視頻圖生視頻視頻生視頻未開放6s1440*960-鏡頭移動、風格選擇、支持配樂、情感氛圍選擇免費可用,付費版:5元/天,199/年是1.2 客觀對比:與Sora差距縮小,搶占用戶或為未來主線7請務必閱讀正文之后的信息披露及法律聲明。資料來源:SuperCLUE,CLUE中文語言理解測評基準微信公眾號,德邦研究所圖表:圖表:SuperCLUESuperCLUE中文專用的多層次文生視頻基準測評中文專用的多層次文生視頻基準測評AIGVBenchAIGVBench-T2VT2V測評結果測評結果 2024年7月31日,中文專用
16、的多層次文生視頻基準測評AIGVBench-T2V發布更新。GenGen-3 3在綜合得分和多項指標中表現最佳,智譜清影和快手可靈緊隨其后,位于視頻生成大模型第一梯隊。在綜合得分和多項指標中表現最佳,智譜清影和快手可靈緊隨其后,位于視頻生成大模型第一梯隊。國內模型在高難度任務中表現強勁。國內模型在高難度任務中表現強勁。國內模型如智譜華章的智譜清影(75.24)、愛詩科技的PixVerse V2(75.29)、字節跳動的 Dreamina即夢(75.80)在高難度任務中表現優異,分別位列國內第三、第二和第一。此外,快手的可靈網頁版(73.13)和可靈(70.98)也表現不俗,進入國內前五。這顯示
17、了國內模型在高難度任務處理上的強勁實力和競爭力。模型名稱模型名稱所屬機構所屬機構綜合得分綜合得分視頻感官質量視頻感官質量文本指令遵循能力文本指令遵循能力物理真實模擬能力物理真實模擬能力高難度任務分數高難度任務分數測評時間測評時間Gen-3Runway79.279.0387.0871.580.928月1日智譜清影智譜華章75.0871.1992.7961.7675.248月1日可靈網頁版快手75.0273.0489.7562.2873.138月1日PixVerse V2愛詩科技73.3274.3686.0659.5575.298月1日即夢字節跳動72.9980.3178.8160.2175.87
18、月2日可靈快手71.8977.7771.6366.2570.987月2日LumaLuma AI70.8975.1668.7569.4569.977月2日PixVerse愛詩科技70.1882.5569.8758.170.647月2日WHEE美圖66.9282.764.3253.9466.047月2日Pixeling智象未來66.0471.2270.5256.3468.197月2日Pika ArtPika63.9571.7563.1656.3363.957月2日星火繪鏡科大訊飛61.5572.0757.856.7361.557月2日Gen-2Runway5865.3356.2851.56587月
19、2日Vega AI右腦科技57.2268.5749.3853.0757.227月2日1.2 客觀對比:與Sora差距縮小,搶占用戶或為未來主線8請務必閱讀正文之后的信息披露及法律聲明。資料來源:各公司官網,德邦研究所整理(注:除Sora外,以上測試結果均為我們在各公司官網的測評,選用第一次結果,未進行抽卡;國內模型采用中文prompt,國外模型采用英文prompt,其中PixVerse V2由于主要面對海外客戶,也采用英文)1.3.1 文生視頻:畫面普遍清晰,動作幅度物理還原差異大圖表:圖表:SoraSora視頻結果(視頻結果(20s20s)我們對主流視頻生成大模型在相同prompt下進行測試
20、。注:注:中文prompt:“鏡頭跟隨一輛帶有黑色車頂行李架的白色老式SUV,它在陡峭的山坡上一條被松樹環繞的陡峭土路上加速行駛,輪胎揚起灰塵,陽光照射在SUV上行駛土路,給整個場景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠方,看不到其他汽車或車輛。道路兩旁都是紅杉樹,零星散落著一片片綠意。從后面看,這輛車輕松地沿著曲線行駛,看起來就像是在崎嶇的地形上行駛。土路周圍是陡峭的丘陵和山脈,上面是清澈的藍天和縷縷云彩?!庇⑽膒rompt:“The camera follows behind a white vintage SUV with a black roof rack as it speeds
21、up a steep dirt road surrounded by pine trees on a steep mountain slope,dust kicks up from its tires,the sunlight shines on the SUV as it speeds along the dirt road,casting a warm glow over the scene.The dirt road curves gently into the distance,with no other cars or vehicles in sight.The trees on e
22、ither side of the road are redwoods,with patches of greenery scattered throughout.The car is seen from the rear following the curve with ease,making it seem as if it is on a rugged drive through the rugged terrain.The dirt road itself is surrounded by steep hills and mountains,with a clear blue sky
23、above with wispy clouds.”圖表:圖表:ViduVidu視頻結果(視頻結果(4s4s)圖表:圖表:GenGen-3 3視頻結果(視頻結果(10s10s)圖表:圖表:PixversePixverse V2V2視頻結果(視頻結果(9s9s)圖表:圖表:Dream MachineDream Machine視頻結果(視頻結果(5s5s)圖表:清影視頻結果(圖表:清影視頻結果(6s6s)圖表:圖表:HaiperHaiper v1.5v1.5視頻結果(視頻結果(4s4s)圖表:可靈視頻結果(圖表:可靈視頻結果(5s5s)9請務必閱讀正文之后的信息披露及法律聲明。資料來源:各公司官網,
24、德邦研究所整理(注:在不同時間點調用模型用戶擁擠度存在差異,以上生成時間與測評效果僅作參考;低中高效果遞進變好;以上結果為研究員根據實際使用體驗得到的評價;生成時間是研究員的個人計時)圖表:主流視頻大模型文生視頻評價圖表:主流視頻大模型文生視頻評價 縱向來看,Sora發布之后幾個月,國內外視頻大模型生成效果提升顯著,表現為:1)得益于分辨率的提升,視頻畫面清晰度普遍提升清晰度普遍提升;2)模型語義理解和一致性表現較好語義理解和一致性表現較好,視頻能較好地理解prompt內容,并能記住畫面中出現的內容,前后保持連貫與一致。然而,生成視頻依然存在不足:1)實測時間差異較大,存在排隊行為從而導致等待
25、時間較長存在排隊行為從而導致等待時間較長,Dream Machine生成時間接近半小時,影響用戶體驗;2)動作幅度依然存在提升空間,生成的視頻的策略偏向于小幅度運動,復雜動作較少,從而導致視頻的穩定性和流暢度可能存在問題;3)生成視頻部分未能很好還原實際物理世界,運動狀態、光影灰塵等效果表現不佳。橫向來看,我國ViduVidu、清影或已處于視頻生成大模型第一梯隊、清影或已處于視頻生成大模型第一梯隊,生成時間相對其他模型倍數減少,且在動作幅度、物理還原度等復雜任務完成性上與Sora的差距進一步縮小。1.3.1 文生視頻:畫面普遍清晰,動作幅度物理還原差異大說明說明SoraGen-3Dream M
26、achineHaiper v1.5Vidu可靈可靈Pixverse V2清影清影生成時間輸入提示后得到結果的時間-1m54s26m3m37s30s5m14s6m1m25s分辨率清晰與否高高中高高高中高可控性運鏡幅度高低低高低低高低低高高動作幅度視頻畫面前后變化大小、動作幅度大小高低低高低低高低低高中語意理解提示詞是否能被完整準確地理解和表達高中高中高中中高一致性視頻內容的前后連貫性和一致性,場景轉換是否平滑,各元素之間是否協調統一高中中低低高中中高穩定性是否會出現畫面變形、撕裂或其他異?,F象高中低低低低高中低低高流暢度動作是否自然連貫,整體觀感是否順暢高低低高低低高低低低低高物理還原度光影效果
27、、液體流動是否自然,交互行為是否符合物理規律高中低低低低高中低低中綜合評價-整體對語義及物理現實還原度高,視頻在較大幅度變化依然可以保持畫面一致性與流暢性。生成速度較快、畫質較高,然而整體動作幅度和流暢度較低。整體動作幅度較大、流暢度較高,然而生成時間較長,并且存在畫面變形、非物理現實現象出現。整體動作幅度較小、流暢度穩定性較低,存在變形與非物理畫面。生成速度最快,在較短的視頻長度下依然可以達到Sora級別的動作幅度與流暢度,語義理解和物理還原度均較高。優點是畫面質量較高;缺點是生成時間較長、動作幅度較小、流暢度欠缺等。優點是動作幅度大,視頻前后畫面差異大,但在一致性物理還原度等方面存在不足。
28、整體語言理解較強,畫面一致性和穩定性高,然而動作幅度適中,存在一些非物理現象。注:以上是根據前文prompt生成結果的對比,不同prompt結果或有差異。10請務必閱讀正文之后的信息披露及法律聲明。資料來源:各公司官網,德邦研究所整理(注:除Sora外,以上測試結果均為我們在個公司官網的測評,選用第一次結果,未進行抽卡;國內模型采用中文prompt,國外模型采用英文prompt,其中PixVerse V2由于主要面對海外客戶,也采用英文)1.3.2 圖生視頻:整體效果優于文生視頻,國內向國外看齊圖表:圖表:SoraSora視頻結果(視頻結果(8s8s)我們對主流視頻生成大模型在相同圖片與pro
29、mpt下進行測試。圖表:圖表:ViduVidu視頻結果(視頻結果(4s4s)圖表:圖表:GenGen-3 3視頻結果(視頻結果(10s10s)圖表:圖表:PixversePixverse V2V2視頻結果(視頻結果(9s9s)圖表:圖表:Dream MachineDream Machine視頻結果(視頻結果(5s5s)圖表:清影視頻結果(圖表:清影視頻結果(6s6s)圖表:圖表:HaiperHaiper v1.5v1.5視頻結果(視頻結果(4s4s)圖表:可靈視頻結果(圖表:可靈視頻結果(5s5s)注:注:中文prompt:“平面設計風格的怪物插圖,描繪了一個多樣化的怪物家族。這個群體包括一只
30、毛茸茸的棕色怪物、一只長著觸角的黑色光滑的怪物、一只斑點的綠色怪物和一只小小的有波爾卡圓點的怪物,它們都在一個有趣的環境中互動?!庇⑽膒rompt:“Monster Illustration in flat design style of a diverse family of monsters.The group includes a furry brown monster,a sleek black monster with antennas,a spotted green monster,and a tiny polka-dotted monster,all interacting in
31、 a playful environment.”11請務必閱讀正文之后的信息披露及法律聲明。整體而言,圖生視頻效果優于文生視頻,而在動作幅度、物理還原度提升空間依舊較大。國內視頻生成效果向國外龍頭模型看齊,Vidu、清影和Sora、Gen-3差距或在縮小。資料來源:各公司官網,德邦研究所整理(注:在不同時間點調用模型用戶擁擠度存在差異,以上生成時間與測評效果僅作參考;低中高效果遞進變好;清影文生視頻與圖生視頻生成時間差異大主要系研究員測試時圖生視頻排隊時間較長,剔除排隊影響,二者時間類似)說明說明SoraGen-3Dream MachineHaiper v1.5Vidu可靈可靈Pixverse
32、 V2清影清影生成時間輸入提示后得到結果的時間-1m54s1h+3m28s30s4m17s5m40s12m53s分辨率清晰與否高高高高高高高高動作幅度視頻畫面前后變化大小、動作幅度大小高中低低低低高低低中高語義/圖意理解提示詞是否能被完整準確地理解和表達中高高中高中高高一致性視頻內容的前后連貫性和一致性,場景轉換是否平滑,各元素之間是否協調統一高高低低低低高中高高穩定性是否會出現畫面變形、撕裂或其他異?,F象高高中低低高中高高流暢度動作是否自然連貫,整體觀感是否順暢高高低低中高中中高物理還原度光影效果、液體流動是否自然,交互行為是否符合物理規律高高低低低高中中中綜合評價-未能很好呈現“交流”語義
33、理解,其他方面整體較好。部分形象動作幅度較小,其他方面整體較好。整體不夠連貫,流暢性不足。整體動作幅度較小、存在變形等異?,F象。整體效果較好,且存在一些創新性畫面。動作幅度較小、流暢度和一致性欠缺。動作幅度、流暢度等方面存在提升空間。動作幅度雖然大,但是內容較為單調。圖表:主流視頻大模型圖生視頻評價圖表:主流視頻大模型圖生視頻評價1.3.2 圖生視頻:整體效果優于文生視頻,國內向國外看齊注:以上是根據前文prompt+單一圖片生成結果的對比,不同prompt與圖片的組合結果或有差異;以上結果為研究員根據實際使用體驗得到的評價;生成時間是研究員的個人計時。12請務必閱讀正文之后的信息披露及法律聲
34、明。資料來源:Adobe官網,智東西微信公眾號,德邦研究所1.4 視頻大模型具備商用潛力,下游應用正在儲能圖表:圖表:AdobeAdobe的的PRPR實現在視頻中添加物體、消除物體以實現在視頻中添加物體、消除物體以及生成視頻片段及生成視頻片段 由前文推斷,我們認為,由前文推斷,我們認為,主流視頻大模型已經實現了不錯的時長和穩定一致性,“翻車”現象大幅減少,生成的視頻不再是簡單的動圖和主流視頻大模型已經實現了不錯的時長和穩定一致性,“翻車”現象大幅減少,生成的視頻不再是簡單的動圖和“PPTPPT式”變化,下一步迭代的重點方向是動作幅度和物理模擬能力式”變化,下一步迭代的重點方向是動作幅度和物理模
35、擬能力。視頻大模型的成熟奠定了視頻大模型的成熟奠定了AIGCAIGC應用普及的基礎,在垂直領域具有廣闊的應用場景和市場價值,向用戶開放正在初步驗證商用潛力。應用普及的基礎,在垂直領域具有廣闊的應用場景和市場價值,向用戶開放正在初步驗證商用潛力。未來隨著用戶習慣的培育以及算力基礎設施的完善,視頻大模型或在辦公、廣告、電影、游戲等多領域具有廣闊的前景。4月15日,全球多媒體巨頭Adobe在官網宣布,將Sora、Pika、Runway等集成在視頻剪輯軟件Premiere Pro中。在發布短片中,PR展現出在視頻中添加物體、消除物體以及生成視頻片段等能力。通過AI驅動的音頻功能已普遍可用,可使音頻的編
36、輯更快、更輕松、更直觀。視頻大模型在短劇市場潛力已被驗證。據智東西微信公眾號,截至7月底至少有8部AI短劇可以成為產業發展的關鍵節點。當月,國內首部AIGC奇觀劇山海奇鏡之劈波斬浪短劇播出,十余人的創作團隊取代傳統百人規模,制作周期從通常的3-6個月縮短到了2個月,成本達到傳統制作流程的1/4以下,大大縮短制作周期和成本,驗證視頻大模型在短劇的商用潛力。劇名劇名題材題材主推出方主推出方首播時間首播時間狀態狀態中國神話玄幻央視3月22日已完結英雄歷史央視6月28日已完結愛永無終止倫理央視6月28日已完結奇幻專賣店科幻央視6月28日已完結三星堆:未來啟示錄科幻抖音7月8日已完結覺醒科幻悟空AI7月
37、9日更新中山海奇鏡之劈波斬浪玄幻快手7月13日已完結因AI求真公益上海廣電7月23日更新中圖表:圖表:20242024年引起關注的已播或待播年引起關注的已播或待播AIAI短劇情況短劇情況13請務必閱讀正文之后的信息披露及法律聲明。02算法、算力、數據三要素,視頻大模型通過AGI的必經之路1.1 算法:Transform與U-net,效益與效率的比拼1.2 算力:視頻生成訓推算力需求指數級增長1.3 數據:質量決定模型能力,用戶激發模型迭代的潛能14請務必閱讀正文之后的信息披露及法律聲明。資料來源:Bytedance Inc.MagicVideo-V2:Multi-Stage High-Aest
38、hetic Video Generation,智源社區微信公眾號,魔搭ModelScope社區微信公眾號等,德邦研究所1.1 算法:Transform與U-net,效益與效率的比拼 目前,視頻生成模型算法主要由基于目前,視頻生成模型算法主要由基于SDSD逐幀生成和基于時空逐幀生成和基于時空PatchesPatches兩種范兩種范式構成。式構成。前者是以SD模型作為初始條件,將其轉化為視頻生成模型,模型架構以U-Net為主,模型代表為Stable Video Diffusion;后者則是從頭開始視頻訓練,將視頻壓縮為時空Patches,后通過transfomer機制生成視頻,模型架構以DiT或U
39、-ViT為主,模型代表為Sora、Vidu等。兩種架構是效率與效益的比拼兩種架構是效率與效益的比拼?;赟D逐幀生成的模型,模型更容易訓練,然而生成的視頻內容一致性要差一些,長視頻生成存在困難;基于時空Patches生成的架構,訓練成本更高,但是生成視頻的長度與一致性更容易得到保障。圖表:主流視頻生成模型架構優劣勢對比圖表:主流視頻生成模型架構優劣勢對比視頻生成范式視頻生成范式基于基于SD逐幀生成逐幀生成基于時空基于時空Patches生成生成模型架構U-NetDiTU-ViT模型名稱Pika、Gen-2、Stable Video Diffusion、MagicVideo-V2等Sora、清影、
40、Pixverse V2、可靈Vidu模型優點以SD作為初始化,模型更容易訓練,訓練成本可控視頻內容的一致性有保證,可以生成長視頻模型缺點視頻內容的一致性要差一些,長視頻生成有困難整個模型需要從頭訓練,訓練成本很高圖表:圖表:MagicVideoMagicVideo-V2 SDV2 SD模型范式:采用插幀的模型范式:采用插幀的方式利用方式利用U U-NetNet架構架構圖表:圖表:SoraSora模型范式猜想:基于時空模型范式猜想:基于時空PatchesPatches,利用利用TransformerTransformer架構架構15請務必閱讀正文之后的信息披露及法律聲明。資料來源:OpenAI官
41、網,RunwayStructure and Content-Guided Video Synthesis with Diffusion Models,GoogleANIMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE等,德邦研究所測算1.2 算力:視頻生成訓推算力需求指數級增長 相比于文字等單模態,圖片、視頻等多模態所包含的信息更多,計算復雜度顯著提高,訓練該類大模型所需算力需求更高。以Sora為例,一定條件下測算,SoraSora訓練算力需求是訓練算力需求是GPTGPT-4 4的的4.54.5倍,而推理
42、算力需求達到了倍,而推理算力需求達到了GPTGPT-4 4的的390.5390.5多倍多倍。Sora此類大模型可一次性生成1分鐘視頻,并具備較高的穩定性、文字理解能力等,已成為實用生產力工具,有望掀起新一輪的內容創作革命,對后續的推理算力要求更高。訓練側:訓練側:Sora算力規?;蜻_到9.8萬ZFLOPS,為GPT-4的4.5倍,大致需要9096張H100卡訓練180天,系訓練90天GPT-4的2倍多。GPTGPT-4 4:根據semianalysis的測算,GPT-4總共包含了1.8萬億參數,采用了13萬億token的訓練數據集。SoraSora:大約具有30億參數規模,訓練數據或達到百萬億
43、級patches。在訓練過程中,Sora通過將視頻壓縮到低維潛在空間,并借鑒了LLM中將文本信息轉化為token的思路,針對視頻訓練視覺patch。DiT論文為Sora基礎之一,根據其第一作者謝賽寧推算,Sora參數量約30億。就訓練數據而言,為方便計算,我們假設Sora采用了Runway發布的文生視頻模型Gen-2數據集的十倍,即24億張圖片和6400萬視頻片段(假設單片段長度為1分鐘)。圖片和視頻分辨率假設為高清圖像(1920*1080),借鑒谷歌論文,假設壓縮到16*16(像素)潛在空間;視頻長度假設為1分鐘,幀率為30FPS;同時視頻幀率被壓縮到潛在空間中,借鑒DiT論文,假設壓縮系數
44、為8。經過測算,Sora的訓練數據規?;蜻_到136.08萬億patches。圖表:圖表:SoraSora將視頻數據轉化為將視頻數據轉化為patchpatch的過程的過程變量變量單張圖片單張圖片1秒視頻秒視頻分辨率1920*10801920*1080壓縮空間16*1616*16幀率(FPS)30幀率壓縮系數8單位patch(token)810030375Sora訓練數據集圖片規模(億張)視頻規模(萬視頻片段)246400patch數量(T token)19.44116.64Sora訓練訓練patch總數量(總數量(T token)136.08圖表:圖表:SoraSora訓練數據規模測算訓練數據規
45、模測算注:假設一個視頻片段為60s;Sora訓練數據集規模與視頻片段時長為研究員自行假設,此處僅為示意性測算,可能與實際情況存在一定程度的差異,具體數據以各公司公布的數據為準)16請務必閱讀正文之后的信息披露及法律聲明。資料來源:semianalysis官網,騰訊技術工程微信公眾號,英偉達官網,OpenAIScaling Laws for Neural Language Models等,德邦研究所測算 訓練側:訓練側:Sora算力規?;蜻_到9.8萬ZFLOPS,為GPT-4的4.5倍,大致需要9096張H100卡訓練180天,系訓練90天GPT-4的2倍多。迭代次數假設:由于擴散模型在去噪降噪
46、過程中需要多次迭代,參考Stable Diffusion 3050次的步數,我們假設Sora迭代了40次;算力利用率假設:根據semianalysis,由于大量的故障導致訓練需要重新啟動的原因,GPT-4的算力利用率大概為32%36%,我們假設Sora和GPT-4算力利用率均為35%;訓練時間假設:根據semianalysis,GPT-4訓練了90100天,由于多模態模型計算更為復雜,我們假設GPT-4和Sora分別訓練了90/180天。經過測算,我們發現Sora訓練算力或達到9.8萬ZFLOPS,系GPT-4的4.5倍;Sora需要9096張H100加速卡訓練180天,系訓練90天的GPT-
47、4所需卡數的2.2倍。圖表:圖表:SoraSora和和GPTGPT-4 4訓練算力需求對比訓練算力需求對比變量變量SoraGPT-4參數規模(N,B)31800激活參數規模(N,B)3280訓練數據量(D,T token)136.113.0單次訓練計算量(ZFLOPS)2449.421840.0迭代次數401訓練總計算(訓練總計算(ZFLOPS)97977.6 21840.0 算力利用率35%35%算力需求對比(以算力需求對比(以GPT-4為基準)為基準)4.5 1訓練時間假設(Days)18090H100單卡FP16算力(TFLOPS)19791979所需所需H100數量(張)數量(張)90
48、96 4055 加速卡需求對比(以加速卡需求對比(以GPT-4為基準)為基準)2.211.2 算力:視頻生成訓推算力需求指數級增長注:假設Sora和GPT-4訓練時間分別是180、90天;該假設為研究員自行假設,此處僅為示意性測算,可能與實際情況存在一定程度的差異,具體數據以各公司公布的數據為準)17請務必閱讀正文之后的信息披露及法律聲明。資料來源:semianalysis官網,騰訊技術工程微信公眾號,英偉達官網,OpenAIScaling Laws for Neural Language Models等,德邦研究所測算 推理側:推理側:Sora生成1分鐘視頻算力規模達到437.4PFLOPS
49、,系生成2k token GPT-4的390.5倍;Sora在60秒響應時間需要10.5張H100,系響應時間為10秒GPT-4的65.1倍。輸出token假設:假設Sora和GPT-4分別生成1分鐘視頻/2k token,1分鐘視頻大致為182萬token;算力利用率假設:我們假設Sora和GPT-4算力利用率均為35%;推理響應時間假設:我們假設Sora生成一分鐘視頻需要響應60s,而GPT-4生成2k token需要響應10s。經過測算,我們發現Sora生成1分鐘視頻算力達到437.4PFLOPS,系生成2k token GPT-4的390.5倍;在此基礎上,Sora需要10.5張H10
50、0加速卡響應60s,系響應10s的GPT-4所需卡數的65.1倍。圖表:圖表:SoraSora和和GPTGPT-4 4推理算力需求對比推理算力需求對比變量變量SoraGPT-4參數規模(N,B)31800激活參數規模(N,B)3280輸出token數(D,K)1822.52單次推理計算量(TFLOPS)10935.01120.0迭代次數401推理總計算(推理總計算(PFLOPS)437.4 1.1 算力利用率35%35%算力需求對比(以算力需求對比(以GPT-4為基準)為基準)390.5 1推理響應時間假設(S)6010H100單卡FP16算力(TFLOPS)19791979所需所需H100數
51、量(張)數量(張)10.5 0.2 加速卡需求對比(以加速卡需求對比(以GPT-4為基準)為基準)65.111.2 算力:視頻生成訓推算力需求指數級增長注:假設一次推理Sora輸入1分鐘視頻,而GPT-4一次對話是輸出1500-2000個字,假設是2000tokens;假設Sora生成一分鐘視頻需要響應60s,而GPT-4生成2k token需要響應10s;該假設為研究員自行假設,此處僅為示意性測算,可能與實際情況存在一定程度的差異,具體數據以各公司公布的數據為準)18請務必閱讀正文之后的信息披露及法律聲明。資料來源:量子位微信公眾號,OpenAI官網,自象限微信公眾號,德邦研究所1.3 數據
52、:質量決定模型能力,用戶激發模型迭代的潛能 訓練數據的規模和質量是視頻生成模型的重要考慮因素。訓練數據的規模和質量是視頻生成模型的重要考慮因素。一方面,互聯網數據是訓練數據的重要來源,然而互聯網視頻質量普遍偏低,難于滿足訓練需求,數據的篩選能力成為大模型廠商的重要競爭標準數據的篩選能力成為大模型廠商的重要競爭標準。例如,快手大模型團隊構建了較為完備的標簽體系,可以精細化的篩選訓練數據,或對訓練數據的分布進行調整。另一方面,提高訓練視頻的文本描述性,能夠顯著提升視頻生成模型的文本指令響應能力。提高訓練視頻的文本描述性,能夠顯著提升視頻生成模型的文本指令響應能力。例如,Sora建立在過去DALLE
53、3和GPT模型的研究基礎之上,構建視頻re-captioning,為視覺訓練數據生成高度描述性的字幕,使得模型具有強大的語言理解能力。此外,對于模型的升級改良,用戶的涌入有望提升模型迭代速度的斜率用戶的涌入有望提升模型迭代速度的斜率。我們認為,用戶生成的數據與反饋能夠更有效地轉化為高質量數據,用來調整模型的升級方向,訓練出更符合用戶需求的模型,再通過吸引更多的用戶開啟模型迭代的“數據飛輪”。以Midjourney為例,Midjourney V5版本是文生圖歷史上的一個關鍵臨界點,正式從“玩具”蛻變成了生產力工具,而這一次產品能力的突破,帶來的是用戶大規模涌入,數據飛輪開始轉動,效果日新月異。圖
54、表:圖表:MidjourneyMidjourney迭代提升生成效果迭代提升生成效果圖表:圖表:SoraSora根據文本說明生成高質量視頻根據文本說明生成高質量視頻19請務必閱讀正文之后的信息披露及法律聲明。03投資建議20請務必閱讀正文之后的信息披露及法律聲明。建議關注(1)視頻大模型廠商:科大訊飛、商湯、云從科技、格靈深瞳、拓爾思、昆侖萬維等。(2)算力:海光信息、寒武紀、景嘉微、中科曙光、浪潮信息、工業富聯、神州數碼、拓維信息、四川長虹等。(3)接入大模型的應用標的:金山辦公、萬興科技、福昕軟件、虹軟科技、彩訊股份、焦點科技、潤達醫療、金證股份、泛微網絡、金蝶國際等。3.投資建議21請務必
55、閱讀正文之后的信息披露及法律聲明。04風險提示22請務必閱讀正文之后的信息披露及法律聲明。4.風險提示 商業化落地不及預期:海內外視頻大模型發展仍未成熟,商業模式還在探索期,未來仍存在不確定性;國內大模型在缺乏算力支持的情況下迭代速度放緩:美國對國內AI算力硬件采取嚴格封鎖措施,國內在缺乏先進GPU的情況下,大模型迭代速度可能放緩;國內大模型技術路線產生分歧:國內視頻大模型廠商數量眾多,他們或都采取差異化的技術路線維持自身競爭力,但不利于集中力量攻克大模型發展難題。23請務必閱讀正文之后的信息披露及法律聲明。信息披露分析師與研究助理簡介陳涵泊:德邦證券計算機行業首席分析師,上海交通大學信息安全
56、本科,電子與通信工程碩士,曾任職于中信證券研究部、天風證券研究所,多年計算機行業研究經驗,具備成熟的計算機研究框架、自上而下產業前瞻視野,云計算領域深入研究。2022-2023年新財富最佳分析師入圍(團隊),2023年新浪金麒麟最佳分析師第五名(團隊)。王思:德邦證券計算機行業研究助理,湖南大學金融學學士、武漢大學金融學碩士,主要覆蓋AI大模型、工業軟件、網安等方向。投資評級說明1.投資評級的比較和評級標準:以報告發布后的6個月內的市場表現為比較標準,報告發布日后6個月內的公司股價(或行業指數)的漲跌幅相對同期市場基準指數的漲跌幅;類 別評 級說 明股票投資評級買入相對強于市場表現20%以上;
57、增持相對強于市場表現5%20%;中性相對市場表現在-5%+5%之間波動;減持相對弱于市場表現5%以下。2.市場基準指數的比較標準:A股市場以上證綜指或深證成指為基準;香港市場以恒生指數為基準;美國市場以標普500或納斯達克綜合指數為基準。行業投資評級優于大市預期行業整體回報高于基準指數整體水平10%以上;中性預期行業整體回報介于基準指數整體水平-10%與10%之間;弱于大市預期行業整體回報低于基準指數整體水平10%以下。24請務必閱讀正文之后的信息披露及法律聲明。免責聲明分析師聲明:本人具有中國證券業協會授予的證券投資咨詢執業資格,以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立
58、、客觀地出具本報告,本報告所采用的數據和信息均來自市場公開信息,本人對這些信息的準確性或完整性不做任何保證,也不保證所包含的信息和建議不會發生任何變更。報告中的信息和意見僅供參考。本人過去不曾與、現在不與、未來也將不會因本報告中的具體推薦意見或觀點而直接或間接收任何形式的補償,分析結論不受任何第三方的授意或影響,特此聲明。法律聲明:。本公司不會因接收人收到本報告而視其為客戶。在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告
59、所指的證券或投資標的的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。市場有風險,投資需謹慎。本報告所載的信息、材料及結論只提供特定客戶作參考,不構成投資建議,也沒有考慮到個別客戶特殊的投資目標、財務狀況或需要??蛻魬紤]本報告中的任何意見或建議是否符合其特定狀況。在法律許可的情況下,德邦證券及其所屬關聯機構可能會持有報告中提到的公司所發行的證券并進行交易,還可能為這些公司提供投資銀行服務或其他服務。本報告僅向特定客戶傳送,未經德邦證券研究所書面授權,本研究報告的任何部分均不得以任何方式制作任何形式的拷貝、復印件或復制品,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記。如欲引用或轉載本文內容,務必聯絡德邦證券研究所并獲得許可,并需注明出處為德邦證券研究所,且不得對本文進行有悖原意的引用和刪改。根據中國證監會核發的經營證券業務許可,德邦證券股份有限公司的經營范圍包括證券投資咨詢業務。25德邦證券股份有限公司地 址:上海市中山東二路600號外灘金融中心N1幢9層電 話:+86 21 68761616 傳 真:+86 21 68767880400-8888-128