《2024生成式AI+視頻行業發展現狀、國內外龍頭及未來發展方向分析報告(49頁).pdf》由會員分享,可在線閱讀,更多相關《2024生成式AI+視頻行業發展現狀、國內外龍頭及未來發展方向分析報告(49頁).pdf(49頁珍藏版)》請在三個皮匠報告上搜索。
1、 2024 年深度行業分析研究報告 目目 錄錄 一、生成式 AI 發展進程,文生視頻正成為當前 AI 行業關鍵發展節點.6 二、目前市場主流的海外生成式視頻參與者.15 三、目前市場主流的國內生成式視頻參與者.28 四、從 AI 生成到 AI 剪輯,一站式 AI 視頻生成+編輯有望成為另一核心方向.34 五、AI+視頻發展方向展望.37 表表 目目 錄錄 表 1:Transformer、Diffusion、DiT 模型的產品梳理.12 表 2:Runway 歷年融資輪次、融資金額及對應估值.18 表 3:Luma AI、Pika、Runway Gen-3 Alpha、Sora 相同提示詞生成視
2、頻的效果多維度比較.27 表 4:海內外視頻生成產品單視頻所需成本比較(1 美元=7.28 人民幣).28 表 5:Adobe 數字媒體業務和數字體驗業務預估市占率.42 表 6:快影和剪映產品相關數據.46 表 7:相關公司提供視頻數據用于訓練多模態大模型.48 表 8:IP 類公司可基于 AI+視頻開發更多 IP 衍生品.49 表 9:部分公司對 AI 短劇/AI 短片方向上的探索.49 表 10:相關上市公司估值表(截至 2024.07.24).50 圖圖 目目 錄錄 圖 1:生成式 AI 發展進程.6 圖 2:AI 應用地圖梳理.6 圖 3:主流文生視頻技術的演進路徑.7 圖 4:AI
3、GC 視頻生成的技術演進路徑.8 圖 5:GAN 生成對抗網絡運作原理.8 圖 6:Diffusion 擴散模型運作原理.10 圖 7:WALT 視頻生成模型搭建原理示意圖.11 圖 8:Sora 基于 DiT 模型生成圖像視頻.12 圖 9:2023 年生成式 AI+視頻時間表.15 圖 10:Luma AI Dream Machine 官網宣傳文生視頻功能.16 圖 11:Luma AI Dream Machine 官網宣傳前后幀輸入圖片生成連貫視頻功能.17 圖 12:Luma AI Dream Machine 實測演示中會遇到不符合物理規律、物體對象缺失等問題.17 圖 13:Runw
4、ay 產品定價模式.18 圖 14:Runway Gen-1 視頻生視頻.19 圖 15:Runway Gen-1 視頻生視頻演示.20 圖 16:Runway Gen-2 文生視頻效果表現較好.20 圖 17:Runway Gen-2 圖生視頻效果及筆刷功能表現較好.21 圖 18:Runway Gen-3 Alpha 通過運動畫筆、高級相機控制、導演模式可以更精細控制運動 21 圖 19:Runway Gen-3 Alpha 兩端提示詞測試,效果較強.22 圖 20:Adobe 產品中引入第三方視頻模型 Pika 優化用戶體驗.23 圖 21:Pika 文生視頻界面及視頻編輯核心功能.23
5、 圖 22:Sora 合成的 60 秒視頻.24 圖 23:OpenAI 擴散模型過程.24 圖 24:Sora 可進行多個視頻的組合.25 圖 25:Luma AI Dream Machine 生成效果(電影質感,略微不符合物理規律.25 圖 26:Pika 生成效果(提示詞理解、畫面質感等方面有差距).26 圖 27:Runway Gen-2 生成效果(主角沒有跟隨鏡頭移動).26 圖 28:Runway Gen-3 Alpha 生成效果(各方面表現均優秀).27 圖 29:快手大模型產品矩陣及可靈 AI 產品功能升級.30 圖 39:后續 Firefly 關于多模態音頻、視頻方向上的功能
6、展望.36 圖 40:Adobe Firefly 集成第三方大模型如 Runway、OpenAI Sora 用于視頻剪輯.36 圖 41:Captions AI Shorts 功能.37 圖 42:Captions AI AD Creator 功能.37 圖 43:阿里達摩院“尋光”一站式視頻創作平臺視頻編輯功能.38 圖 44:阿里達摩院“尋光”視頻素材創作功能.38 圖 45:美圖 MOKI AI 短片產品.39 圖 46:商湯 Vimi 人物視頻生成.40 圖 47:智象大模型升級 2.0 版本.40 圖 48:智向未來即將上線一站式分鏡頭故事創作視頻生成功能.41 圖 49:Adobe
7、 Creative Cloud TAM 市場規模預測.42 圖 50:Adobe Express 在 24 年 4 月迭代 AI 功能后,日活數驟然抬升并穩定提高.43 圖 51:Adobe Premiere Pro 引入第三方模型如 Pika、OpenAI、Runway 生成視頻.43 圖 52:美圖公司底層、生態層、應用層架構.44 圖 53:Vimi 在人物一致性功能支持下打造的數字分身打造 AI 視頻功能、AI 表情包功能.45 AI+AI 2023 年紅杉資本在關于生成式 AI 發展進程的預測報告中表明,在歷經文生文、文生圖的升級迭代后,我們目前正處在 AI+生產力辦公&設計、AI+
8、視頻和 AI+3d 滲透的歷史節點上。在底層大模型技術迭代逐漸加速的今天,AI 文本對話、AI 文生圖、AI 陪伴等方向已經逐漸成為競爭激烈的主要方向,展望未來我們需要對更多 AI+做深入的研究,而視頻方向一直是業內關注的重點方向之一。視頻雜糅了文本、語音、圖像等多維度內容,其訓練的難點也往往在于視頻數據對數量和質量的不足、算法架構需要優化、物理規律性較差等等,但我們相信,隨著 AI+視頻的技術和產品升級迭代,眾多行業有望受益,諸如電影、廣告、視頻剪輯、視頻流媒體平臺、UGC 創作平臺、短視頻綜合平臺等,而目前正處在 AI+視頻發展的關鍵性時刻,正從 AI+視頻創意生成逐漸過渡到一站式視頻生成
9、+剪輯+UGC 的后續階段。圖圖 1:生成式:生成式 AI 發展進程發展進程 資料來源:紅杉資本官網,信達證券研發中心 在紅杉資本 2024 年關于 AI 應用的地圖梳理中反映了市場中的兩個重要趨勢:生成式人工智能從技術趨勢演變為實際應用和價值,以及生成式人工智能應用日益呈現多模態的特性??梢钥吹?,AI 視頻生成及編輯的版圖占比較多,重要性和產品推進速度目前較快。圖圖 2:AI 應用地圖梳理應用地圖梳理 資料來源:紅杉資本官網,信達證券研發中心 文文/圖生視頻面臨著眾多方面的挑戰,例如圖生視頻面臨著眾多方面的挑戰,例如:1)計算成本計算成本:確保幀間空間和時間一致性會產生長期依賴性,從而帶來高
10、計算成本;2)缺乏高質量的數據集缺乏高質量的數據集:用于文生視頻的多模態數據集很少,而且通常數據集的標注很少,這使得學習復雜的運動語義很困難。文生視頻模型需要依賴于大量數據來掌握如何將文本描述轉化為具有寫實感的連續幀,并捕捉時間上的動態變化;3)視頻生成質量視頻生成質量:時空一致性難以保持,在不同鏡頭、場景或時間段內較難確保角色、物體和背景的一致性??煽匦院痛_定性還未充分實現,確保所描述的運動、表現和場景元素能夠精確控制和編輯。視頻時長的限制,長視頻制作仍面臨時間一致性和完整性的挑戰,這直接影響到實際應用的可行性;4)語義對齊語義對齊:由于自然語言具有復雜性和多義性,文本語義理解、文本與視頻元
11、素的映射關系仍是挑戰;5)產品易用性產品易用性:對于文生視頻,產品的易用性和體驗仍需改進。個人用戶希望制作流程易上手、符合習慣,并支持快速素材搜索、多樣模板、多端同步和一鍵分享;小 B 端用戶關注成本可控下的快速營銷視頻制作和品牌傳播效果;行業用戶則需要內容與交互性的融合,包括商用素材適配性、快速審核和批量制作分發能力;6)合規應用合規應用:文生視頻的應用面臨素材版權、隱私安全和倫理道德等風險。二、市場主流 AI 視頻生成技術的迭代路徑 圖圖 3:主流文生視頻技術的演進路徑主流文生視頻技術的演進路徑 資料來源:Carl Vondrick等Generating Videos with Scene
12、 Dynamics;Sergey Tulyakov等MoCoGAN:Decomposing Motion and Content for Video Generation;Eiichi Matsumoto等Temporal Generative Adversarial Nets with Singular Value Clipping;Aidan Clark等ADVERSARIAL VIDEO GENERATION ON COMPLEX DATASETS;Chenfei Wu等NUWA:Visual Synthesis Pre-training for Neural visUal World
13、creAtion.;Chenfei Wu等GODIVA:Generating Open-DomaIn Videos from nAtural Descriptions;Wilson Yan等VideoGPT:Video Generation using VQ-VAE and Transformers;Daquan Zhou等 MagicVideo:Efficient Video Generation With Latent Diffusion Models;Jonathan Ho等IMAGEN VIDEO:HIGH DEFINITION VIDEO GENERATION WITH DIFFUS
14、ION MODELS;Ruben Villegas等PHENAKI:VARIABLE LENGTH VIDEO GENERATION FROM OPEN DOMAIN TEXTUAL DESCRIPTIONS;Uriel Singer等MAKE-A-VIDEO:TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA;Chenfei Wu等NUWA-Infinity:Autoregressive over Autoregressive Generation for Infinite Visual Synthesis;Wenyi Hong等CogVideo
15、:Large-scale Pretraining for Text-to-Video Generation via Transformers;Sihyun Yu等GENERATING VIDEOS WITH DYNAMICS-AWARE IMPLICIT GENERATIVE ADVERSARIAL NETWORKS;Dan Kondratyuk等VideoPoet:A Large Language Model for Zero-Shot Video Generation;Agrim Guptau等Photorealistic Video Generation with Diffusion M
16、odels;Songwei Ge等Preserve Your Own Correlation:A Noise Prior for Video Diffusion Models;Andreas Blattmann等Align your Latents:High-Resolution Video Synthesis with Latent Diffusion Models;Shengming Yin等NUWA-XL:Diffusion over Diffusion for eXtremely Long Video Generation;Weimin Wang等MagicVideo-V2:Multi
17、-Stage High-Aesthetic Video Generation、Runway公司官網,信達證券研發中心 圖圖 4:AIGC 視頻生成的技術演進路徑視頻生成的技術演進路徑 資料來源:信達證券研發中心(注:該圖通過圖3所引用論文總結而來)1)GAN+VAE 生成對抗網絡(Generative Adversarial Networks)核心思想是訓練兩個網絡,生成器(G)和判別器(D)。生成器通過獲取輸入數據樣本并盡可能對其進行修改來生成新數據,試圖生成逼真的視頻;而判別器嘗試預測生成的數據輸出是否屬于原始數據集,嘗試區分真實視頻和生成的視頻。兩個網絡通過對抗訓練,生成器試圖最大化欺騙
18、判別器,而判別器則試圖最大化識別生成視頻的錯誤,直到預測網絡不再能夠區分假數據值和原始數據值。GAN 用于視頻生成在 2016 年至 2021 年較為火熱,代表模型如 Temporal Generative Adversarial Nets(TGAN)和 MoCoGAN,它們通過不同的網絡架構和訓練方法來改進 GAN 在視頻生成上的性能。此外,Dual Video Discriminator GAN(DVD-GAN)通過使用空間和時間判別器的分解來提高視頻生成的復雜性和保真度。圖圖 5:GAN 生成對抗網絡運作原理生成對抗網絡運作原理 資料來源:AWS Marketplace,信達證券研發中心
19、 GAN 技術特點如下技術特點如下:1)無需標注數據,可以從未標注的圖像中學習生成新的圖像或視頻;2)多領域應用,可以應用于圖像生成、風格遷移、數據增強、超分辨率等多種任務;3)模型靈活,通過改變網絡結構,可以適應不同的數據分布和生成任務;4)模型參數小,較為輕便,擅長對單個或多個對象類進行建模。GAN 作為早期文作為早期文生視頻模型,存在如下缺點生視頻模型,存在如下缺點:1)訓練過程不穩定,容易出現模式崩潰(mode collapse),即生成器開始生成非 常相似或重復的樣本;2)計算資源:訓練 GAN 通常需要大量的計算資源和時間;3)對超參數選擇敏感,不同的設置可能導致訓練結果差異很大。
20、VAE(Variational Autoencoder 變分自編碼器)變分自編碼器):對于傳統的基本自編碼器來說,只能夠對原始數據進行壓縮,不具備生成能力,基本自編碼器給定一張圖片生成原始圖片,從輸入到輸出都是確定的,沒有任何隨機的成分。生成器的初衷實際上是為了生成更多“全新”的數據,而不是為了生成與輸入數據“更像”的數據。而變分自用編碼器的 Encoder 與 Decoder 在數據流上并不是相連的,不會直接將 Encoder 編碼后的結果傳遞給 Decoder,而是要使得隱式表示滿足既定分布。因此,VAE 引入了隱變量推斷引入了隱變量推斷,訓練過程穩定訓練過程穩定,但是但是其其生成生成的圖
21、片的圖片缺少細節缺少細節,輪廓模糊輪廓模糊;GAN 生成的圖像真實清晰生成的圖像真實清晰,但是訓練過程易出現模式崩潰問題但是訓練過程易出現模式崩潰問題。因此,。因此,VAE+GAN 的串聯融合可以實的串聯融合可以實現數據的自動生成現數據的自動生成+高質量圖像生成的結果。高質量圖像生成的結果。2)Transformer 模型模型 Transformer 是一種先進的神經網絡算法,它完全基于注意力機制,不依賴于傳統的循環神經網絡(RNN)或卷積神經網絡(CNN)。Transformer 保留了編碼器-解碼器的基本結構。編碼器將輸入序列映射到連續的表示空間,而解碼器則基于這些表示生成輸出序列。Tra
22、nsformer 模型的自注意力機制,允許序列中的每個元素都與序列中的其他元素進行交互,從而捕捉全局依賴關系;模型還采用多頭注意力并行處理,可獲取不同空間的信息。Transformer 模型技術特點如下:1)并行處理序列中的所有元素,這與傳統循環神經網絡(RNN)相比,大大提高了計算效率;2)可擴展性,能夠通過堆疊多個注意力層來增加模型的復雜度和容量;3)泛化能力,除了語言任務,還可以泛化到其他類型的序列建模任務,如圖像處理、視頻分析等;4)預訓練和微調,Transformer 模型通常先在大量數據上進行預訓練,再針對特定任務進行微調,使得模型能夠快速適應新任務;5)適應長序列數據,在處理諸如
23、語音信號、長時間序列數據等任務具有優勢,避免傳統模型存在的梯度消失或梯度爆炸問題。Transformer 存在如下缺點:1)參數效率相對較低,參數數量隨輸入序列長度的增加而增加,增加了訓練時間和成本;2)對輸入數據的敏感性較高,模型依賴于輸入數據的全局信息進行建模,在處理復雜任務時(如機器翻譯、語音識別等),對輸入數據的細微變化可能會對模型的輸出結果產生較大影響;3)難以處理時空動態變化,模型時基于自注意力機制的靜態模型,無法捕捉到時空動態變化的信息,因此在處理視頻、時空數據等具有動態變化特性的任務時,需要結合其他技術來提高模型的性能。Transformer 模型在視頻生成領域的應用的產品包括
24、VideoGPT、NUWA、CogVideo、Phenaki 等。這些模型通過結合視覺和語言信息,生成新的視頻內容或對現有視頻進行操作。它們利用了 Transformer 模型的自注意力機制來處理高維數據,并通過預訓練和微調策略來提高性能。此外,這些模型還探索了如何通過多模態學習來提高視頻生成的質量和多樣性。3)擴散模型擴散模型 擴散模型是一種生成模型,通過逐步添加噪聲來破壞訓練數據,然后通過逆向過程去噪來生成與訓練數據相似的新數據。擴散模型分為三大類型:去噪擴散概率模型(DDPM)、基于噪聲條件評分的生成模型(SGM)、隨機微分方程(SDE),但三種數學框架背后邏輯統一,均為添加噪聲后將其去
25、除以生成新樣本。圖圖 6:Diffusion 擴散模型運作原理擴散模型運作原理 資料來源:數據派THU公眾號,信達證券研發中心 盡管盡管 Transformer 在在 Autoregressive Model 中得到廣泛應用,但是這種架構在生成式模型中較少采用。比中得到廣泛應用,但是這種架構在生成式模型中較少采用。比如,作為圖像領域生成模型的經典方法,如,作為圖像領域生成模型的經典方法,Diffusion Models 卻一直使用基于卷積的卻一直使用基于卷積的 U-Net 架構作為骨干網絡。架構作為骨干網絡。隨著隨著 Sora、WALT 等基于(等基于(Diffusion+Transforme
26、r)的探索,國內創業公司如智向)的探索,國內創業公司如智向未來也在嘗試延續這個最未來也在嘗試延續這個最新的技術路線,用新的技術路線,用 Transformer 架構替換掉原來的卷積架構替換掉原來的卷積 U-Net 架構后,生成視頻的時長可變、尺寸可變,可以架構后,生成視頻的時長可變、尺寸可變,可以在不同的空間進行建模,同時也可以讓視頻和圖片配對來實現多模態對齊與編碼。在不同的空間進行建模,同時也可以讓視頻和圖片配對來實現多模態對齊與編碼。4)DiT(Transformer+Diffusion)Diffusion Transformer(DiT)模型是從(Scalable Diffusion M
27、odels with Transformers,ICCV 2023)中引入?;旧?,Diffusion Transformer(DiT)是一個帶有變換器(而非 U-Net)的擴散模型,核心思想是利用 Transformer處理潛在空間中的圖像數據塊,模擬數據的擴散過程以生成高質量的圖像。W.A.L.T(Window Attention Latent Transformer)2023 年底,世界知名 AI 科學家李飛飛團隊與谷歌合作,推出了視頻生成模型 W.A.L.T(Window Attention Latent Transformer)一個在共享潛在空間中訓練圖像和視頻生成的、基于 Tran
28、sformer 架構的 Diffusion 擴散模型。技術迭代主要有兩個方向:技術迭代主要有兩個方向:1)使用因果編碼器在統一的潛在空間內聯合壓縮圖像和視頻,從而實現跨模態的訓)使用因果編碼器在統一的潛在空間內聯合壓縮圖像和視頻,從而實現跨模態的訓練和生成。練和生成。2)為了提高內存和訓練效率,團隊使用了為聯合空間和時空生成建模量身定制的窗口注意架構)為了提高內存和訓練效率,團隊使用了為聯合空間和時空生成建模量身定制的窗口注意架構。所以,無需使用無分類器指導,就能在成熟的視頻(UCF-101 和 Kinetics-600)和圖像(ImageNet)生成基準上實現最先進的性能。最后,團隊還為文本
29、到視頻生成任務訓練了三個模型的級聯,包括一個基本的潛在視頻擴散模型和兩個視頻超分辨率擴散模型,以每秒 8 幀的速度生成 512 x 896 分辨率的視頻。userid:93117,docid:169915,date:2024-07-30, 圖圖 7:WALT 視頻生成模型搭建原理示意圖視頻生成模型搭建原理示意圖 資料來源:Kihyuk Sohn等Photorealistic Video Generation with Diffusion Models、WALT視頻模型官網,信達證券研發中心 WALT 將圖像和視頻編碼到共享潛在空間中。Transformer 主干使用具有兩層窗口限制注意力的塊來
30、處理這些潛在空間:空間層捕獲圖像和視頻中的空間關系,而時空層通過身份注意力掩碼模擬視頻中的時間動態并傳遞圖空間層捕獲圖像和視頻中的空間關系,而時空層通過身份注意力掩碼模擬視頻中的時間動態并傳遞圖像像。文本調節是通過空間交叉注意力完成的。DiT 模型技術特點如下模型技術特點如下:1)運用潛在擴散模型,在潛在空間而非像素空間中訓練擴散模型,提高了計算效率;2)Patchify 操作,將空間輸入轉換為一系列 token,每個 token 代表圖像中的一個小塊;3)條件輸入處理,DiT設計了不同的 Transformer 塊變體來處理條件輸入(如噪聲時間步長、類別標簽等);4)自適應層歸一化(adaL
31、N),使用 adaLN 來改善模型性能和計算效率;5)可擴展性:DiT 展示了隨著模型大小和輸入 token 數量的增加,模型性能(以 FID 衡量)得到提升;6)簡化的架構選擇,DiT 證明了在擴散模型中,傳統的 U-Net 架構并不是必需的,可以被 Transformer 替代。DiT 模型仍存在以下缺點模型仍存在以下缺點:1)實現復雜性,雖然 DiT 在理論上簡化了架構選擇,但 Transformer 的實現可能比U-Net 更復雜;2)訓練穩定性:盡管 DiT 訓練穩定,但 Transformer 架構可能需要特定的訓練技巧來保持穩定;3)對硬件要求高,雖然 DiT 在計算上更有效率,
32、但 Transformer 模型通常需要大量的內存和計算資源,這可能限制了它們在資源受限的環境中的應用;4)模型泛化能力,DiT 主要在 ImageNet 數據集上進行了評估,其在其他類型的數據和任務上的泛化能力尚未得到驗證。DiT 作為一種新型的擴散模型,通過在潛在空間中使用 Transformer 架構,實現了對圖像生成任務的高效和高性能處理。DiT 在 Sora 上表現優秀,Sora 是 OpenAI 發布的爆款視頻生成模型,它融合了擴散模型的生成能力和Transformer 架構的處理能力。受到大規模訓練的大型語言模型的啟發,Sora 通過在互聯網規模的數據上訓練,獲得了通用化的能力。
33、它采用基于擴散模型的生成框架,逐步改進噪聲樣本以產生高保真度的視頻輸出,并應用采用基于擴散模型的生成框架,逐步改進噪聲樣本以產生高保真度的視頻輸出,并應用Transformer 架構來處理視頻和圖像的時空信息,保持物體在三維空間中的連貫性。這種結合生成和變換器優架構來處理視頻和圖像的時空信息,保持物體在三維空間中的連貫性。這種結合生成和變換器優勢的方法,使得勢的方法,使得 Sora 在視頻生成和編輯任務中表現出色,能夠創造出多樣化、高質量的視覺內容。在視頻生成和編輯任務中表現出色,能夠創造出多樣化、高質量的視覺內容。圖圖 8:Sora 基于基于 DiT 模型生成圖像視頻模型生成圖像視頻 資料來
34、源:Sora,信達證券研發中心 表表 1:Transformer、Diffusion、DiT 模型的產品梳理模型的產品梳理 模型類型模型類型 模型名稱模型名稱 發布方發布方 發布時間發布時間 技術特點及主要功能技術特點及主要功能 Transformer VideoGPT Wilson Yan et al.2021.4 使用 VQ-VAE,并通過 3D 卷積和軸向自注意力機制實現。使用類似 GPT 的架構自回歸地對離散潛在表示進行建模。生成架構簡單,能生成高保真度視頻,尤其是適應動作條件視頻。NUWA 女媧 微軟亞洲研究院 2021.11 采用 3D 變換器編碼器-解碼器框架,提出 3D近鄰注意
35、力機制簡化計算,支持多模態預訓練,使用 VQ-GAN 視覺標記 3D tokens,具有零樣本能力。在生成圖像、視頻以及視頻預測方面表現優秀。CogVideo 清華大學 2022.5 采用多幀率層次化訓練策略、雙通道注意力機制,靈活文本條件模擬不同幀率視頻,順序生成和遞歸插值框架使視頻生成連貫。對復雜語義的運動理解加強,生成高分辨率、高幀率、高一致性的視頻。NUWA-Infinity 微軟亞洲研究院 2022.7 采用雙重自回歸生成機制來處理可變尺寸的生成任務,引入 NCP 緩存已生成的相關patch 來減少計算成本,采用任意方向控制器賦能圖像擴展,能生成任意大小高分辨率圖像、長時視頻、圖像動
36、畫。Phenaki Google 2022.10 使用因果注意力機制生成可變長度視頻,使用預訓練的 T5X 來生成文本嵌入,通過雙向遮蔽 Transformer 根據文本嵌入生成視頻 token,采用 C-ViViT 編碼-解碼架構減少token 數量并在時空一致性表現更好。Videopoet Google 2023.12 僅采用解碼器架構能處理多模態輸入,支持零樣本視頻生成;使用雙向變換器在標記空間內提高空間分辨率;通過自回歸擴展內容來合成長達 10 秒的連貫視頻;執行文本、圖像、視頻編輯到視頻的多任務視頻生成。WALT Google 2023.12 使用因果編碼器聯合壓縮圖像和視頻,實現跨
37、模態生成;采用窗口注意力架構,聯合空間和時空生成建模;不依賴分類器自由引導可生成視頻;通過潛在視頻擴散模型和視頻超分辨率擴散模型的級聯,生成 512896 分辨率、每秒 8 幀的視頻;能根據類別標簽、自然語言、過去幀、低分辨率視頻生成可控視頻。Imagen Video Google 2022.1 采用基礎視頻擴散模型和用于空間與時間超分辨率擴散模型,采用 v-prediction 參數化避免色彩偏移,應用漸進式蒸餾技術,快速高效采樣;使用噪聲條件增強來減少級聯模型中的域差距,提高樣本質量;能生成各種藝術風格和 3D 對象理解的視頻,具可控性和對世界知識的理解。VideoDiffusionMod
38、el Google 2022.4 從圖像和視頻數據聯合訓練減小批量梯度方差;引入條件采樣技術,提高空間和時間視頻擴展性能;使用特定類型的 3D U-Net 作為擴散模型架構,使時間空間分解;采用因子化的空間-時間注意力機制,能遮蔽模型以在獨立圖像上運行;使用多種擴散模型采樣器;能處理多尺度和多幀視頻數據,生成長序列視頻。Make-A-Video Meta 2022.9 不需要成對的文本-視頻數據進行訓練;通過無監督的視頻素材學習世界的運動方式;構建在 T2I 模型之上,包括分解全時域 U-Net和注意力張量,并在空間和時間上近似它們;設計空間-時間管道,通過視頻解碼器、插值模型、超分辨率模型生
39、成高分辨率、高幀率視頻。MagicVideo 字節跳動 2022.11 使用 3D U-Net 解碼器簡化計算;引入幀間輕量適配器,減少對獨立 2D 卷積塊的需求;采用有向自注意力機制,僅基于所有先前幀計算未來幀的特征;提出 VideoVAE 自編碼器,改善像素抖動問題;訓練基于擴散的超 Diffusion 分 辨 率 模 型,從 256256 上 采 樣 到10241024 的高分辨率。Tune-A-Video 新加坡國立大學,騰訊 2022.12 基于預訓練的 T2I 擴散模型,使用開放域知識;引入空間時間注意力機制來學習連續運動;使用 DDIM 反演,使生成視頻時序一致;只更新注意力塊中
40、的投影矩陣而非所有參數,避免對新概念視頻生成的阻礙。Gen-1 Runway 2023.2 將潛在擴散模型擴展到視頻生成,通過將時間層引入到預訓練的圖像模型中并對圖像和視頻進行聯合訓練,無需額外訓練和預處理。Gen-2 Runway 2023.2 允許使用任意起始幀,通過 I2V 方式生成視頻;通過訓練模型預測視頻下一幀,對視覺世界深入理解;從單個幀的高保真度生成開始,逐步解決視頻敘事中的挑戰,包括場景、角色和環境的一致性。Dreamix Google 2023.2 采用混合微調方法,結合全時序注意力和時序注意力掩蔽的微調;引入輕量級的幀間適配器,用于調整 I2V 分布;采用有向自注意力機制,
41、捕捉幀間的時序依賴性;提出圖像動畫框架,轉圖像為粗糙視頻進行編輯。NUWA-XL 微軟亞洲研究院 2023.3 能夠直接在長視頻上進行訓練,并通過增加深度 m 來輕松擴展到更長的視頻;“粗到細”階段生成,先通過全局擴散模型生成關鍵幀,再用局部擴散模型遞歸填充鄰近幀之間的內容;支持并行推理,提高長視頻生成速度。Text2Video-Zero Picsart AI Research,UT Austin,U of Oregon,UIUC 2023.3 實現零樣本學習;在生成幀代碼注入運動動力學,能保持全局場景和背景的時間一致性;使用新的跨幀注意力機制保留前景對象的上下文、外觀和身份。VideoLDM
42、 NVIDIA 2023.4 在潛在空間擴散模型中引入時間維度,將圖像生成器轉換為視頻生成器,實現視頻數據的時間對齊;在圖像上預訓練 LDM,然后在編碼的視頻上微調生成視頻;能夠實現高達12802048 分辨率的視頻生成。PYoCo NVIDIA 2023.5 提出視頻擴散噪聲先驗,更好地捕捉視頻幀之間的內在聯系;采用一個由基礎模型和三個上采樣堆疊組成的級聯網絡架構;使用了DEIS 及其隨機變體進行樣本合成的先進采樣技術;小規模模型實現優異性能,從文本嵌入生成高分辨率的視頻。DiT Sora、可靈等 OpenAI、快手等 2024.2 使用文本條件擴散模型,處理視頻和圖像的空間時間塊;訓練了一
43、個網絡來降低視覺數據的維度,輸入原始視頻并輸出壓縮的潛在表示;能夠生成一分鐘的高保真視頻,能實現視頻擴展、視頻過渡,輸入視頻的風格和環境的零樣本轉換。資料來源:Carl Vondrick等Generating Videos with Scene Dynamics;Sergey Tulyakov等MoCoGAN:Decomposing Motion and Content for Video Generation;Eiichi Matsumoto等 Temporal Generative Adversarial Nets with Singular Value Clipping;Aidan Cl
44、ark等 ADVERSARIAL VIDEO GENERATION ON COMPLEX DATASETS;Chenfei Wu等NUWA:Visual Synthesis Pre-training for Neural visUal World creAtion.;Chenfei Wu等GODIVA:Generating Open-DomaIn Videos from nAtural Descriptions;Wilson Yan等VideoGPT:Video Generation using VQ-VAE and Transformers;Daquan Zhou等 MagicVideo:E
45、fficient Video Generation With Latent Diffusion Models;Jonathan Ho等 IMAGEN VIDEO:HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS;Ruben Villegas等PHENAKI:VARIABLE LENGTH VIDEO GENERATION FROM OPEN DOMAIN TEXTUAL DESCRIPTIONS;Uriel Singer等MAKE-A-VIDEO:TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO
46、DATA;Chenfei Wu等 NUWA-Infinity:Autoregressive over Autoregressive Generation for Infinite Visual Synthesis;Wenyi Hong等CogVideo:Large-scale Pretraining for Text-to-Video Generation via Transformers;Sihyun Yu等GENERATING VIDEOS WITH DYNAMICS-AWARE IMPLICIT GENERATIVE ADVERSARIAL NETWORKS;Dan Kondratyuk
47、等VideoPoet:A Large Language Model for Zero-Shot Video Generation;Agrim Guptau等Photorealistic Video Generation with Diffusion Models;Songwei Ge等Preserve Your Own Correlation:A Noise Prior for Video Diffusion Models;Andreas Blattmann等Align your Latents:High-Resolution Video Synthesis with Latent Diffu
48、sion Models;Shengming Yin等NUWA-XL:Diffusion over Diffusion for eXtremely Long Video Generation;Weimin Wang等MagicVideo-V2:Multi-Stage High-Aesthetic Video Generation、OpenAI Sora官網、Runway公司官網,信達證券研發中心 二、目前海外市場主流的生成式 AI+視頻參與者 AI+視頻發展以來,技術路徑和迭代產品冗雜繁多、功能不一、效果差異,我們選取目前海內外市場主要的生成式視頻的參與者:Luma AI(Dream Machi
49、ne)、Runway(Gen 1-2&Gen-3 Alpha)、Pika、Sora,集中梳理了其融資歷程、產品迭代、核心功能、實測效果比較等多方面,經個別提示詞生成視頻效果測試,在 Sora 未公開實測情況下,我們認為 Runway Gen-3 Alpha 的視頻生成效果,如質量分辨率、生成速度、物體符合物理規律、提示詞理解、視頻時長等諸多維度上表現均較為優秀。圖圖 9:2023 年生成式年生成式 AI+視頻時間表視頻時間表 資料來源:Venture Twins、a16z,信達證券研發中心 (一)(一)Luma AIDream Machine Luma AI 成立于 2021 年,2024 年
50、以其推出的文生視頻模型 Dream Machine 而得到全球投資視野的關注,但早期公司僅聚焦在 3D 內容生成,23 年 11 月,Luma AI 在 Discord 服務器上推出了文生 3D 模型 Genie,降低了開發人員的 3D 建模和重建功能的成本,每個場景或者物體的生成只需一美元,創建時間也大幅縮短。公司推出的應用程序 Flythroughs 可以使用戶僅使用 AI 和 iPhone 就可創建專業的飛行場景視頻,可用于房產中介應用的3D 環境視頻的錄制等。融資歷程:公司 A 輪融資由 Amplify Partners、Nventures(Nvidia 投資部門)和 General
51、Catalyst 領投,共籌集 2000 萬美元;B 輪融資則由硅谷頂級風投公司 Andreessen Horowitz、英偉達領投,籌集 4300 萬美元,B 輪估值在 2 億到 3 億美元之間。官網顯示目前核心團隊共 34 人,其中華人 5 位。Luma AI Dream Machine 是一款由是一款由 Luma AI 開發的開發的 AI 視頻生成模型,它能夠將文本和圖像快速轉換為高質視頻生成模型,它能夠將文本和圖像快速轉換為高質量、逼真的視頻量、逼真的視頻,且具備前后幀輸入圖片生成連貫視頻的功能,且具備前后幀輸入圖片生成連貫視頻的功能。在官網的介紹中,該模型具備快速視頻生成能力,能夠在
52、 120 秒內生成 120 幀視頻,可生成具有逼真流暢動作、電影攝影和戲劇效果 5s 鏡頭,確保視頻角色的一致性和物理準確性,適用于創意視頻制作、故事講述、市場營銷及教育培訓等多種場景。Dream Machine 可以快速將文本和圖像制作成高質量視頻、是一種高度可擴展且高效的轉換器模型,能夠生成物理上準確、一致且多變的鏡頭。后續迭代的方向主要包括:更長時間、更多角度、飛行連貫性更強、視頻內物體編輯、后續迭代的方向主要包括:更長時間、更多角度、飛行連貫性更強、視頻內物體編輯、AI 動漫生成等。官網上動漫生成等。官網上同時也披露了目前的視頻生成面臨的難點,諸如:同時也披露了目前的視頻生成面臨的難點
53、,諸如:1)視頻內物體變形;)視頻內物體變形;2)移動僵硬;)移動僵硬;3)文本錯誤;)文本錯誤;4)不符合)不符合物理規律物理規律;Luma AI 公司致力于繼續優化 Dream Machine 的性能,為用戶提供更加優質的視頻生成服務,并計劃將 Dream Machine 技術應用于更多領域,拓展其市場影響力。目前受制于算力和用戶高需求,免費用戶每天有 20 個視頻生成的限額,付費用戶在排隊中靠前并且每天沒有生成數量的上限。圖圖 10:Luma AI Dream Machine 官網宣傳文生視頻功能官網宣傳文生視頻功能 資料來源:Luma AI Blog,信達證券研發中心 圖圖 11:Lu
54、ma AI Dream Machine 官網宣傳前后幀輸入圖片生成連貫視頻功能官網宣傳前后幀輸入圖片生成連貫視頻功能 資料來源:Luma AI官網,信達證券研發中心 我們在實測中發現,如官網所描述的,在生成視頻的過程中會遇到例如對象缺失、行動軌跡僵硬、不符合實際物理規律等問題。圖圖 12:Luma AI Dream Machine 實測演示中會遇到不符合物理規律、物體對象缺失等問題實測演示中會遇到不符合物理規律、物體對象缺失等問題 資料來源:Luma AI官網,信達證券研發中心 (二)(二)Runway Gen 1-2&Gen-3 Alpha Runway 成立 2018 年,總部位于紐約,由
55、 Cristbal Valenzuela、Alejandro Matamala 和 Anastasis Germanidis共同創立。公司專注于將藝術與人工智能融合,提供圖像和視頻編輯工具。自成立以來,Runway 經歷了多輪融資,估值迅速增長。其產品包括多種 AI 驅動的創作工具,如 2023 年推出的 Gen-1 和 Gen-2,Runway 仍在不 斷創新,2024 年推出新一代視頻生成模型 Gen-3 Alpha。據外媒 TechCrunch 報道,近期公司正籌劃新一輪融資4.5 億美元,估值有望達到 40 億美元。表表 2:Runway 歷年融資歷年融資輪次輪次、融資金額及對應估值、
56、融資金額及對應估值 時間時間 融資輪次融資輪次 融資金額融資金額 投資方投資方 估值估值 2020.12 A 輪 850 萬美元 Amplify Partners 領投,Lux Capital 和 Compound Ventures 參投/2021.12 B 輪 3500 萬美元 Coatue 領投,所有現有投資者均參與其中:Amplify Partners、Lux Ventures 和 Compound/2022.12 C 輪 5000 萬美元 Felicis 領投,所有現有投資者均參與其中:Amplify Partners、Lux Capital、Coatue 和 Compound/202
57、3.06 C+輪 1.41 億美元 C 輪融資增加 1.41 億美元,參與的投資者包括谷歌、NVIDIA、Salesforce Ventures 以及現有投資者等 15 億美元 2024.07 D 輪(據TechCrunch 報道)4.5 億美元 投資機構包括 General Atlantic 等 40 億美元 資料來源:Runway官網、The Information、TechCrunch官網,信達證券研發中心 Runway 不同的定價模式:不同的定價模式:主要分為永久免費基礎版、標準版、高級版、無限制版本和企業級版本服務。永久免費版:用戶擁有一次性 125 個 credits 積分,gen
58、-1(視頻到視頻)上傳最長為 4s,gen-2(文生視頻和圖生視頻)通過延長視頻功能最長至 16s 等;標準版、高級版和無限制版本的差別在于每月積分的數額、gen-3 的使用、水印的消除、資產庫數量、視頻質量等方面。圖圖 13:Runway 產品定價模式產品定價模式 資料來源:Runway官網、信達證券研發中心 Runway Gen-1(Video to Video)Gen-1 為視頻到視頻的模型,即使用文字和圖像從現有的視頻中生成新的視頻,可以實現例如將某個視頻轉換為完全風格化的動畫渲染以及更換現有視頻的背景等。首先,選擇要用作輸入的視頻。此視頻將決定最終輸出的整體構圖和動作;其次,選擇風格
59、參考,有三種方法可以轉換輸入視頻:選擇現有圖像、編寫文本提示或從 Runway 的樣式預設中選擇一個;最后,使用結構一致性和提示權重等高級設置來調整樣式參考對輸入視頻的影響程度。在生成之前,可以預覽 4 個靜態幀以幫助調整設置。Gen-1 最多可以生成 15 秒的視頻。在使用 Gen-1 生成視頻之前,可以利用上傳的視頻同時結合自己設置的風格和參數生成免費預覽的分鏡頭腳本,減少多余算力的消耗。在 Gen-1 官方指導論文Structure and Content-Guided Video Synthesis with Diffusion Models中可以知道,在當時的方法中利用視頻擴散模型去
60、生成和編輯視頻需要在保留現有結構的同時編輯現有素材內容,需要對每個輸入進行較為昂貴的重新訓練,或者需要跨幀圖像編輯。而 Gen-1 提出了一個結構和內容感知模型,該模型可以根據示例圖像或文本引導修改視頻。編輯完全在推理時執行,無需額外的每個視頻的訓練或預處理。Gen-1 模型在大規模未配對視頻和配對的文本-圖像數據集上進行訓練。同時,產品展示了通過訓練不同細節級別的單目深度估計來控制結構和內容保真度。模型同時在圖像和視頻上進行訓練,這也通過一種新穎的引導方法明確控制了時間一致性。圖圖 14:Runway Gen-1 視頻生視頻視頻生視頻 資料來源:Patrick Esser等Structure
61、 and Content-Guided Video Synthesis with Diffusion Models,信達證券研發中心 用戶通過調節不同的視頻風格、風格的變化程度、以及通過圖片和文字 prompt 來修改視頻。視頻的一致性保持較好,但由于是早期的 gen-1 版本,視頻分辨率較低。圖圖 15:Runway Gen-1 視頻生視頻演示視頻生視頻演示(左上為原始視頻,右上為預覽分鏡頭腳本,下圖為素描風格的視頻轉換生成)(左上為原始視頻,右上為預覽分鏡頭腳本,下圖為素描風格的視頻轉換生成)資料來源:Runway官網,信達證券研發中心 Runway Gen-2(文生視頻和圖生視頻文生視頻
62、和圖生視頻)Gen-1 升級為文生視頻以及圖生視頻功能。首先輸入文本提示或上傳圖片;其次可以調整參數設置,可以使用固定種子數、升級和幀插值等高級設置來提高生成的一致性和分辨率;最后設置完成后,點擊“生成”即可創建 4 秒的視頻。此時,可以選擇將鏡頭延長至總共 16 秒。除了生成視頻之外,除了生成視頻之外,Gen-2 為用戶提供了更多的視頻編為用戶提供了更多的視頻編輯功能,如運動畫筆輯功能,如運動畫筆(為特定區域和主體帶來動作和意圖的生成為特定區域和主體帶來動作和意圖的生成)、相機控制(、相機控制(選擇相機移動的方向和強度,如縮選擇相機移動的方向和強度,如縮放、傾斜和平移放、傾斜和平移)、通用運
63、動(、通用運動(控制場景中的一般運動,包括相機和拍攝對象的運動控制場景中的一般運動,包括相機和拍攝對象的運動)、延長視頻(延長至、延長視頻(延長至 16s)、)、唇形同步(唇形同步(通過添加人物語言,通過添加人物語言,讓人物表情富有生命感讓人物表情富有生命感)。經實際體驗,Gen-2 在文生視頻和圖生視頻的物體物理規律性、視頻一致性、分辨率等要素保持相對較好。圖圖 16:Runway Gen-2 文生視頻效果表現較好文生視頻效果表現較好 資料來源:Runway官網,信達證券研發中心 圖圖 17:Runway Gen-2 圖生視頻效果及筆刷功能表現較好圖生視頻效果及筆刷功能表現較好 資料來源:R
64、unway官網,信達證券研發中心 Runway Gen-3 Alpha 2024 年 6 月 17 日,Runway 推出了第三代視頻生成模型 Gen-3 Alpha,與 Gen-2 相比,它在保真度、一致性和運動方面有了重大改進。Gen-3 Alpha 經過視頻和圖像聯合訓練,將為 Runway 的文本轉視頻、圖像轉視頻和文本轉圖像工具、現有控制模式(如運動畫筆、高級相機控制、導演模式)以及即將推出的工具提供支持,以更精細地控制結構、風格和運動。Gen-3 Alpha 將發布一套新的保護措施,包括全新改進的內部視覺審核系統和C2PA 出處標準。1)細粒度的時間控制:Gen-3 Alpha 已
65、接受過高度描述性、時間密集的字幕的訓練,能夠實現富有想象力的過渡和場景中元素的精確關鍵幀;2)逼真的人類角色創造:Gen-3 Alpha 擅長創造具有多種動作、手勢和情感的富有表現力的人類角色,從而開啟新的故事講述機會;3)可詮釋各種風格和電影術語;4)支持行業定制。Runway Gen-3 Alpha 暫時沒有免費版本使用,目前收費標準為 144 美金/年,用戶可以選擇 5s/10s的視頻生成時長。綜合體驗后,我們發現,綜合體驗后,我們發現,Gen-3 Alpha 對提示詞的理解、視頻生成的質量(對提示詞的理解、視頻生成的質量(720p)、生成所)、生成所需時長、視角等方面均表需時長、視角等
66、方面均表現較為出色,已然達到了行業頭部水準現較為出色,已然達到了行業頭部水準。圖圖 18:Runway Gen-3 Alpha 通過運動畫筆、高級相機控制、導演模式可以更精細控制結構、風格和運動通過運動畫筆、高級相機控制、導演模式可以更精細控制結構、風格和運動 資料來源:Runway官網,信達證券研發中心 圖圖 19:Runway Gen-3 Alpha 兩端提示詞測試,效果兩端提示詞測試,效果較較強強 資料來源:Runway官網,信達證券研發中心 (三)(三)Pika Pika 是一家利用人工智能重新設計整個視頻制作和編輯體驗的公司。雖然其他平臺專注于為專業人士和企業提供支持,但 Pika
67、讓所有創作者都能創作出高質量的視頻,在不到 6 個月的測試期內,Pika 已經幫助超過 50 萬人實現了創意構想。Pika 由斯坦福大學 AI Lab 的博士生郭文景和孟辰霖于 2023 年 4 月創立。2023 年 7 月,Pika 開始內測,推出文本生成視頻功能;2023 年 9 月,推出/animate 功能,進一步鞏固領先地位。Lightspeed領投 Pika 的 3500 萬美元 A 輪融資。在前期三輪融資中籌集了 5500 萬美元。2024 年 6 月,Pika 進行了 8000萬美元的 B 輪融資,使公司的總融資額達到 1.35 億美元。在 Discord 上進行了秘密發布,發
68、布了 1.0 版模型和 Web 應用,推出了多個首次面市的功能,公司團隊也從 3 人增加到了 13 人。在訂閱模式中,公司同樣采用了四種計劃:基礎版、標準版、無限值版、高級版。其中基礎版免費使用,有 credits 限制;標準版本(每年 96美金)、無限制版(每年 336 美金)的 credits 數量增加,延長 4s 視頻時長、無水印等;高級版(每年 696 美金)對于 credits、視頻生成時長及其他 AI 功能的使用基本無任何限制。2023 年 11 月,發布首款 AI 視頻生成產品 Pika 1.0,引起業界轟動。Pika 1.0 使任何人都可以:只需輸入即可憑空生成高質量視頻;將視
69、頻延長至任意長度(每次添加 4 秒,無限次添加到任何剪輯);通過修復即時修改任何視頻的某個方面;通過外畫功能將視頻擴展至任意內容或寬高比;甚至調整攝像機的移動。海外 AI 設計巨頭公司 Adobe 在 Document Cloud 和 Digital Experience 產品中與第三方 AI 模型合作,現在正在探索在 Creative Cloud 中添加非 Adobe AI 模型。此前 Adobe 展示了一些早期的“預覽”,展示了專業視頻編輯未來如何利用 Premiere Pro 中集成的 Runway 或 Open AI Sora 視頻生成模型來生成 B-roll 以編輯到項目中,或者如何
70、使用Firefly 或第三方模型(如 Pika)和 Generative Extend 工具在鏡頭末尾添加幾秒鐘。圖圖 20:Adobe 產品中引入第三方視頻模型產品中引入第三方視頻模型 Pika 優化用戶體驗優化用戶體驗 資料來源:Adobe Blog,信達證券研發中心 Pika 目前在文生視頻的基礎上能實現的功能包括:通過提示詞修改指定區域框、更改視頻風格、更改視頻尺寸、目前在文生視頻的基礎上能實現的功能包括:通過提示詞修改指定區域框、更改視頻風格、更改視頻尺寸、豐富人物面部表情以及通過文字生成音樂給增添音效豐富人物面部表情以及通過文字生成音樂給增添音效。實測下來,在保證基本效果的前提下,
71、產品更加符合用戶的使用習慣,細節打磨的更多。圖圖 21:Pika 文生視頻界面及視頻編輯核心功能文生視頻界面及視頻編輯核心功能 資料來源:Pika官網,信達證券研發中心 (四)(四)OpenAI Sora 2024 年 2 月 16 日,OpenAI 在官網發布了創新性文生視頻模型Sora。從官網展示的 Sora 生成視頻來看,在生成視頻質量、分辨率、文本語義還原、視頻動作一致性、可控性、細節、色彩等方面表現良好,并且最長可以生成 1 分鐘的視頻。至此,ChatGPT 已經具備了文本、圖像、視頻、音頻 4 大多模態功能。繼 Runway、Pika、谷歌和 Meta 之后,OpenAI 正式加入
72、到這場 AI 視頻生成領域“戰爭”當中。圖圖 22:Sora 合成的合成的 60 秒視頻秒視頻 資料來源:OpenAI官網,信達證券研發中心 Sora(Transormer+Diffusion,DiT 架構)是一種擴散模型,主要通過靜態噪音的視頻開始視頻生成,然后通過多個步驟去除噪音,最后轉換為視頻。同時,Sora 采用與 GPT 模型類似的 Transformer 架構,使用了 DALL-E 3 中的重述技術,能夠精準還原用戶的文本提示語義。Sora 的功能除了文本生成視頻之外,還包括根據圖像生成視頻、對圖像進行動畫處理、提取視頻中的元素、擴展或填充缺失的幀。圖圖 23:OpenAI 擴散模
73、型過程擴散模型過程 資料來源:OpenAI官網,信達證券研發中心 圖圖 24:Sora 可進行多個視頻的組合可進行多個視頻的組合 資料來源:OpenAI官網,信達證券研發中心 Sora 可以對寬屏 1920 x1080p 視頻、垂直 1080 x1920 視頻以及介于兩者之間的所有視頻進行采樣。這樣,Sora 就可以直接以原始縱橫比為不同設備創建內容。還讓用戶能夠快速制作較小尺寸的內容原型,然后再以全分辨率生成內容。Sora 還可以通過其他輸入進行提示,例如預先存在的圖像或視頻。此功能使 Sora 能夠執行各種圖像和視頻編輯任務-創建完美循環的視頻、為靜態圖像制作動畫、向前或向后延長視頻時間等
74、。此外,Sora 還能保持較長視頻的連貫性和對象持久性,Sora 有時還能模擬以簡單的方式影響世界狀態的行為,例如,畫家可以在畫布上留下新的筆觸,或者一個人吃漢堡時留下的咬痕。Sora 還能夠模擬人工過程,比如視頻游戲。過往很多生成式視頻技術都是通過各種技術對視頻數據進行生成模型建模,比如循環網絡、生成對抗網絡、自回歸 Transformer 和擴散模型等方法。它們往往只關注于特定類型的視覺數據、較短的視頻或者固定尺寸的視頻。而 Sora 是一種通用的視覺數據模型,能夠生成各種持續時間、寬高比和分辨率的視頻和圖片,甚至長達一分鐘是一種通用的視覺數據模型,能夠生成各種持續時間、寬高比和分辨率的視
75、頻和圖片,甚至長達一分鐘的高清視頻,對影視的宣傳片、短視頻切片、動畫電影的降本增效具備里程碑意義的高清視頻,對影視的宣傳片、短視頻切片、動畫電影的降本增效具備里程碑意義。我們利用 Sora 官網一段知名的 AI 生成視頻的提示詞來進行橫向同類比較,包括 Luma AI、Runway Gen-3 Alpha、Pika 和 Sora 關于生成效果各方面的對比。相同的 Prompt 提示詞:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage.She wea
76、rs a black leather jacket,a long red dress,and black boots,and carries a black purse.She wears sunglasses and red lipstick.She walks confidently and casually.The street is damp and reflective,creating a mirror effect of the colorful lights.Many pedestrians walk about.”圖圖 25:Luma AI Dream Machine 生成效
77、果(電影質感,略微不符合物理規律生成效果(電影質感,略微不符合物理規律)資料來源:Luma AI官網,信達證券研發中心 圖圖 26:Pika 生成效果(提示詞理解、畫面質感等方面有差距)生成效果(提示詞理解、畫面質感等方面有差距)資料來源:Pika官網,信達證券研發中心 圖圖 27:Runway Gen-2 生成效果(主角沒有跟隨鏡頭移動)生成效果(主角沒有跟隨鏡頭移動)資料來源:Runway官網,信達證券研發中心 圖圖 28:Runway Gen-3 Alpha 生成效果(各方面表現均優秀)生成效果(各方面表現均優秀)資料來源:Runway官網,信達證券研發中心 表表 3:Luma AI、P
78、ika、Runway Gen-3 Alpha、Sora(暫未實測)關于以上相同提示詞生成視頻的效果多維度比較(暫未實測)關于以上相同提示詞生成視頻的效果多維度比較 Luma AI Pika Runway Gen-3 Alpha Sora 上線時間上線時間 2024.06 2023.11 2024.06/實測綜合效果實測綜合效果 中 低 高 暫未對外開放測試 分辨率分辨率 中 低 720p 高/生成時長生成時長/單單次延長時間次延長時間 5s/5s 3s/4s 可選 5s/10s 最長 60s 物理規律物理規律 中 低 高/提示詞理解提示詞理解 高 低 高 生成速度生成速度 中 高 高 其他主要
79、能力其他主要能力 提示詞加強、延長時間、首尾幀圖片生成等 提示詞修改局部區域、改編視頻畫幅、人物添加表情視頻、添加音效等 提示詞長度無限制、給人物添加表情視頻等 產品定價產品定價 免費用戶每月可生成 30 條視頻;標準版$23.99/月 Pro 高級版$79.99/月 Premier 最高級版$399.99$/月 免費用戶初始 250 積分,10積分可生成 3s 視頻;標準版$8/月 Unlimited 無限值版$28/月 Pro 高級版$58/月 免費用戶初始 125 積分 標準版$12/月 Pro 高級版$28/月 Unlimited 無限制版$76/月 企業級定制詳詢 最新融資金額最新融
80、資金額 4300 萬美元 8000 萬美元 據外媒 The Information報道為 4.5 億美元 估值情況估值情況 2-3 億美元 4.7 億美元 40 億美元 24.06 全渠道全渠道應用下載量應用下載量 367,908/65,388 24.04-06 網網站擁擠度加總站擁擠度加總 21.28M 5.844M 16.01M 24.06 平均平均月月活用戶數活用戶數 549,871 半年達到 500,000 用戶 322,691 ARR/2500 萬美元 估值指數估值指數=估估值值/ARR 假設 55 萬月活,付費率10%,平均 arpu30 美金/月,則月收入為 165 萬美元,假設
81、年收入為 500 萬美元,則 2.5 億美元/500 萬美元=50 x/40 億美元/2500 萬美元=160 x 單活躍用戶估單活躍用戶估值指數值指數 2.5 億美元/55 萬=454.5 4.7 億美元/50 萬=940 40 億美元/32 萬=12500 資料來源:Sensortower、Similarweb、各公司官網,信達證券研發中心(僅代表以上提示詞生成視頻橫向比較,僅代表信達證券預測)表表 4:海內外視頻生成產品單視頻所需:海內外視頻生成產品單視頻所需價格價格比較(比較(1 美元美元=7.28 人民幣)人民幣)Luma AILuma AI PikaPika Runway GenR
82、unway Gen-3 3 AlphaAlpha 快手可靈快手可靈 剪映即夢剪映即夢 愛詩科技愛詩科技Pixverse V2Pixverse V2 虛擬道具虛擬道具 /credits 積分 credits 積分 靈感值;1 元人民幣=10靈感值 積分;10.87 人民幣=100 積分 credits 積分 免費用戶免費用戶 10 個視頻生成 250 初始積分,每日 30 積分 無免費版 66 個(24h 過期)60 積分(24h過期)100 初始積分,每天 50 積分 生成生成耗時耗時 5 分鐘 15 分鐘+60s 生成 5s 的720p 視頻 2-5 分鐘 1 分鐘 2-5 分鐘 單次單次視
83、頻時長視頻時長 5s 3s 5s/10s 5s 3/6/9/12s 5s 單單個視頻生成個視頻生成消耗單位虛擬消耗單位虛擬道具數量道具數量 付費會員沒有生成視頻數量限制 10 credits 625 積分=125s gen2 視頻 10 個靈感值 3 積分 15/30 積分 年基礎會員費年基礎會員費用用 287.9 美元/年 96 美元/年,每月獲得 700 積分+每天 30 積分,共 1600 積分 144 美元/年,每月獲得 625 積分 限時基礎黃金會員 396 元/年,每月獲得660 靈感值 659 元/年,每月獲得 2020 積分,每天贈送60 積分,共3820 積分 48 美元/年
84、,每月獲得 1000 積分,每天獲得50 積分,共2500 積分 會員會員每月每月可生可生成視頻數量成視頻數量 150 個 1600/10=160 個 125/5=25 個gen-2 視頻 660/10=66 個 3820/3=1273 個 2500/15=167 個 單條視頻生成單條視頻生成所需所需價格價格 0.160.16 美元美元(1.171.17人民幣)人民幣)0.050.05 美元美元(0.3640.364 人民人民幣)幣)0.480.48 美元美元(gen2gen2,3.493.49 人人民幣民幣)0.50.5 元元人民幣人民幣 0.040.04 元人民幣元人民幣 0.020.02
85、 美元美元(0.1740.174 人民人民幣)幣)資料來源:Runway、Luma AI、Pika、可靈、即夢、Pixverse AI官網,信達證券研發中心 三、目前國內市場主流的生成式 AI+視頻參與者 快手快手可靈可靈 AI(Diffusion Transformer 架構)架構)快手的大模型能力涵蓋了包括大語言模型、文生圖大模型、視頻生成大模型、音頻大模型、多模態大模型等核心技術方向,并基于快手豐富的業務場景,將生成式 AI 與多模態內容理解、短視頻/直播創作、社交互動、商業化 AIGC、創新應用等業務形態深度結合??伸`大模型的更新迭代速度較快,當視頻生成效果接近圖形渲染和視頻拍攝時,有
86、望對游戲、動畫、泛視頻行業帶來新的機遇,有望促進視頻平臺生態繁榮。1)自研“快意大模型”(自研“快意大模型”(KuaiYii)。13B、66B、175B 三種參數規模,將大模型應用于短視頻場景下。2)可圖大模型(可圖大模型(KOLORS)。由快手大模型團隊自研打造的文生圖大模型,具備強大的圖像生成能力,能夠基于開放式文本生成風格多樣、畫質精美、創意十足的繪畫作品?!翱蓤D”主打三大核心特性:深入的中文特色理解、長文本復雜語義理解及對齊人類審美的精美畫質,讓用戶低門檻創造高質量圖像。3)可靈視頻生成大模型可靈視頻生成大模型。2024 年 6 月 6 日,快手大模型團隊自研打造了視頻生成大模型可靈,
87、具備強大的視頻生成能力,讓用戶可以輕松高效地完成藝術視頻創作,包含文生視頻能力、圖生視頻能力及視頻續寫能力,包含文生視頻能力、圖生視頻能力及視頻續寫能力,后續有望上線視頻編輯功能??伸`視頻模型的重點方向在于:大幅度的合理運動符合物理規律、長達后續有望上線視頻編輯功能??伸`視頻模型的重點方向在于:大幅度的合理運動符合物理規律、長達 2 分鐘的分鐘的視頻生成能力幀率且達到視頻生成能力幀率且達到 30fps、模擬物理世界特性、強大的概念組合能力、電影級別的畫面、支持自由的輸出、模擬物理世界特性、強大的概念組合能力、電影級別的畫面、支持自由的輸出視頻高寬比視頻高寬比。在在 2024 年世界人工智能大會
88、上,快手可靈年世界人工智能大會上,快手可靈 AI 產品宣布全新升級:高清畫質、首尾幀控制、單次產品宣布全新升級:高清畫質、首尾幀控制、單次生成生成 10s、Web 端上線、鏡頭控制端上線、鏡頭控制。圖圖 29:快手大模型產品矩陣及可靈:快手大模型產品矩陣及可靈 AI 產品功能產品功能升級升級 資料來源:世界人工智能大會公眾號、可圖大模型公眾號,信達證券研發中心 可靈 AI 經過我們長時間測試跟蹤,APP 端的視頻生成效果十分出色,無論是在提示詞理解、物理規律控制、畫質分辨率、生成速度時長、產品使用容易度和產品迭代升級速度上均表現較為亮眼,是國內視頻生成大模型產品的頭部參與者。在在 APP 端,
89、用戶可以選擇參數設置:視頻時長端,用戶可以選擇參數設置:視頻時長 5s/10s、高性能(生成速度更快,生成等待時長、高性能(生成速度更快,生成等待時長4 分鐘)或者高表現(畫面質量更佳,生成等待時長分鐘)或者高表現(畫面質量更佳,生成等待時長 10 分鐘,目前每天有分鐘,目前每天有 3 次機會)、視頻比例(次機會)、視頻比例(16:9、9:16、1:1)。舉例來看,下圖左上的提示詞:“木頭上長出了兩朵奇特的透明塑料花,花瓣閃閃發光,花瓣是淡紫色的,花瓣被風吹動 旁邊有一棵草在搖曳,氛圍光照”。左下圖的提示詞:“氛圍光照,抽象背景,黑貓警長在光怪陸離的路上行走”。右上圖提示詞:“高清畫質,四只帶
90、著墨鏡的大熊貓在圍著一個用竹子編織的桌子周圍打撲克牌,同時悠閑的吃著竹子,喝著汽水?!眻D圖 30:快手可靈文生視頻:快手可靈文生視頻 資料來源:可靈APP,信達證券研發中心 2024724AI66,24h期,1 元人民幣=10 靈感值。在為期 7 天的會員充值活動中,會員全線五折,其中包括非會員(登錄每日贈送靈感值)、黃金會員(396 元/年,每月獲得 660 靈感值,約生成 3300 張圖片或 66 個高性能視頻,包含去水印、高質量視頻生成、視頻延長、運鏡升級功能)、鉑金會員(1596 元/年,每月獲得 3000 靈感值,約生成 15000張圖片或 300 個高性能視頻,包含去水印、高質量視
91、頻生成、視頻延長、運鏡升級功能、新功能優先體驗)、鉆石會員(3996 元/年,每月獲得 8000 靈感值,同樣包含上述增值功能)??伸`圖生視頻功能:可靈圖生視頻模型以卓越的圖像理解能力為基礎,將靜態圖像轉化為生動的 5 秒精彩視頻。配上創作者不同的文本輸入,即生成多種多樣的運動效果。圖圖 31:快手可靈圖生視頻:快手可靈圖生視頻 資料來源:可靈大模型官網,信達證券研發中心 圖圖 32:視頻續寫功能:視頻續寫功能 資料來源:可靈大模型官網,信達證券研發中心 美圖美圖 MiracleVision4.0 AI 視頻視頻 2023 年 12 月,美圖公司發布自研 AI 視覺大模型 MiracleVis
92、ion 4.0 版本,主打 AI 設計與 AI 視頻。新增了文生 MiracleVisionAI尤其是電商和廣告行業。MiracleVision4.0 于 2024 年 1 月陸續上線至美圖旗下產品。目前生成一次視頻需要消耗 10 美豆,實際測驗下來看,其對提示詞的理解、物體的像素質量、物理規律、動作的自然效果,尤其是對人物和物體的細節處理上較為優秀,例如動物的毛發幀數。圖生視頻功能:讓圖片也動起來。從景深變化到細節動作捕捉,MiracleVision 可以輕松生成。非常的自然流暢。圖生視頻的基礎上,MiracleVision 支持視頻運鏡。提供了推、拉、搖、移等八種電影級運鏡模式,讓用戶能夠
93、輕松模擬專業的鏡頭運動。后續有望更新視頻生視頻功能,導入一段視頻,再加上不同的提示詞,就能獲得卡通、科幻、像素風,羊毛氈等不同的藝術風格。圖圖 33:美圖:美圖 Whee AI 生視頻功能生視頻功能 資料來源:Whee官網,信達證券研發中心 PixVerse 愛詩科技愛詩科技 愛詩科技 Alsphere 成立于 2023 年 4 月,海外版產品 PixVerse 于 2024 年 1 月正式上線,目前已是全球用戶量較大的國產 AI 視頻生成產品,上線 88 天,PixVerse 視頻生成量已達一千萬次。公司早期完成數千萬人民幣天使輪融資,2024 年 3 月公司完成億級人民幣 A1 輪融資,國
94、內一線投資機構達晨財智領投。創始人王長虎博士深耕計算機視覺與人工智能領域 20 年,帶領字節跳動視覺技術團隊在巨量規模的用戶數據下,解決了多個視覺領域的世界級難題,并從 0 到 1 參與抖音與 Tik Tok 等國民級視覺產品的建設和發展,公司團隊成員來自清華、北大、中科院等頂級學府,曾任職于字節、微軟亞洲研究院、快手、騰訊的核心技術團隊?;凇皵祿?、算法和工程”三大要素,解決“準確性”和“一致性”,用更少資源取得更優效果。公司致力于通過“融合內容理解與生成;融合文字、圖片、視頻等多模態”的雙融合技術路徑,搭建世界一流的 AIGC 視覺多模態大模型。2024 年 1 月,正式發布文生視頻產品
95、PixVerse 網頁版,PixVerse 產品頁面月訪問量超百萬。2024 年 2 月 18 日,根據互聯網信息服務深度合成管理規定,國家互聯網信息辦公室公開發布第四批境內深度合成服務算法備案信息公告,愛詩科技視頻生成算法成功通過備案。2024年5月17日,智源研究院舉辦大模型評測發布會,文生視頻模型評測結果顯示,愛詩科技旗下產品 PixVerse 位列全球 TOP3,在國內同類型產品中表現最佳。2024531 日,PixVerse Magic Brush和繪制軌跡,精確控制視頻元素運動方式移動,甚至豐富多樣的整體動效。2024 年 6 月 5 日,國內首張 AI 音樂專輯 GxTxPx(偉
96、大科技的造物)正式發布,部分單曲已在網易云平臺上線,視頻大部分由愛詩科技旗下產品 PixVerse 制作完成。2024 年 7 月 24 日,愛詩科技正式發布視頻生成產品 PixVerse V2,全球同步開放。采用 Diffusion+Transformer(DiT)基礎架構,在保證一致性的前提下,一次生成多個視頻片段,可實現單片段 8 秒,和多片段 40 秒的視頻生成。在人物一致性上布局較深,支持一鍵生成 1-5 段連續的視頻內容,且片段之間會保持主體形象、畫面風格和場景元素的一致。PixVerse V2 還支持對生成結果進行二次編輯,通過智能識別內容和自動聯想功能,用戶可以靈活替換調整視頻
97、主體、動作、風格和運鏡,進一步豐富創作的可能性。我們使用了其海外版產品 Pixverse V2 進行測試,V2 版本較 V1 效果優化較好。Pixverse V2 目前可根據多場景生成人物一致性較強的多個鏡頭視頻,同時還可對生成的視頻進行風格、人物編輯。圖圖 34:Pixverse 文生視頻(左圖為文生視頻(左圖為 V1,右圖為,右圖為 V2)資料來源:Pixverse官網,信達證券研發中心 即夢即夢 Dreamina(字節剪映)(字節剪映)2024 年 5 月,字節剪映旗下針對 AI 創作產品 Dreamina 正式更名為中文“即夢”,AI 作圖和 AI 視頻生成功能已經上線,用戶可輸入文案
98、或者圖片,即可得到視頻動態效果連貫性強、流暢自然的視頻片段。創新打造首幀照片和尾幀照片輸入方式,增強視頻生成的可控性,支持中文提示詞創作,把握語義。2024 年 6 月 17 日,上海國際電影節期間,由抖音、博納影業 AIGMS 制作中心聯合出品的 AIGC 科幻短劇集三星堆:未來啟示錄亮相“博納 25 周年向新而生發布會”。即夢 AI 作為三星堆:未來啟示錄首席 AI 技術支持方,借助包括 AIGC 劇本創作、概念及分鏡設計、圖像到視頻轉換、視頻編輯和媒體內容增強等十種 AIGC 技術,重新為古老 IP 注入新故事、開發新內容。在產品使用界面,即夢添加了更多用戶可控的細節功能,例如運鏡控制的
99、種類中,可自行在產品使用界面,即夢添加了更多用戶可控的細節功能,例如運鏡控制的種類中,可自行選擇移動方向、搖鏡方向、旋轉角度、變焦程度、幅度大小等,省去用戶提示詞中復雜的表述;用戶還可自行選選擇移動方向、搖鏡方向、旋轉角度、變焦程度、幅度大小等,省去用戶提示詞中復雜的表述;用戶還可自行選擇運動速度、標準擇運動速度、標準/流暢模式、生成時長和視頻比例等,流暢模式、生成時長和視頻比例等,UI 界面更容易被用戶接受,簡單易行界面更容易被用戶接受,簡單易行。資料來源:即夢官網,信達證券研發中心 圖圖 36:即夢首尾幀土圖生視頻:即夢首尾幀土圖生視頻 資料來源:即夢官網,信達證券研發中心 清華清華 Vi
100、du 2024 年 4 月 27 日,在中關村論壇未來人工智能先鋒論壇上,生數科技聯合清華大學發布了具有“長時長、高一致性、高動態性”性能標簽的視頻大模型 Vidu,可根據文本描述直接生成長達 16 秒、分辨率達 1080P 的高清視頻內容?!案咭恢滦浴笔菆F隊強調的重點方向。當前國內視頻大模型的生成視頻時長大多為 4 秒左右,Vidu 則可實現一次性生成 16 秒的視頻時長。同時,視頻畫面能保持連貫流暢,隨著鏡頭移動,人物和場景在時間、空間中能保持高一致性。在動態性方面,Vidu 的動態鏡頭在推、拉、移之外,開始涉及一段畫面中遠景、近景、中景、特寫等鏡頭的切換,以及直接生成長鏡頭、追焦和轉場效
101、果。技術路線上,Vidu 采用的是自研 U-ViT 架構,與 Sora 一樣是 Diffusion 和 Transformer 的融合架構。這種架構不采用插幀的多步驟處理方式來生成視頻,而是 ”圖圖 37:Vidu 官方宣傳生成視頻(左圖提示詞:畫室里的一艘船駛向鏡頭)官方宣傳生成視頻(左圖提示詞:畫室里的一艘船駛向鏡頭)資料來源:機器之心公眾號,信達證券研發中心 七火山科技七火山科技 Etna 2024 年 1 月 16 日,超訊通信與七火山 Seven Volcanoes 簽署投資合作協議。自 2023 年成立以來,Seven Volcanoes 一直致力于機器學習算法和深度神經網絡技術的
102、研究。2024 年 3 月 7 日,七火山 Etna 模型正式發布,Etna 模型采用最新的神經網絡架構,融合了 Transformer 模型的強大語義理解能力,以及 Diffusion 模型的高效內容生成策略,旨在通過高度精確的文本到視頻轉換,目前暫未對外開放功能測試。圖圖 38:Etna 宣傳用的文生視頻效果宣傳用的文生視頻效果 資料來源:七火山官網,信達證券研發中心 四、從 AI 生成到 AI 工作流,一站式視頻生成+剪輯+故事創作有望成核心方向 一站式一站式 AI 視頻生成視頻生成&剪輯剪輯&UGC 創作有望解決市場一直在質疑的“創作有望解決市場一直在質疑的“AI+視頻沒有實質作用問題
103、”。視頻沒有實質作用問題”。隨著生成式 AI 自身大模型技術的迭代、算法的優化、視頻數據質量和數量的提升,生成式 AI+視頻的發展、競爭正逐漸激烈化。我們認為,在 AI 視頻生成領域,底層技術迭代是行業持續發展的前提,但在迭代技術的同時,但在迭代技術的同時,我們需要深入思考下,后續技術應用的方向、衍生出哪些商業模式、什么類型的公司會最終受益于生成式我們需要深入思考下,后續技術應用的方向、衍生出哪些商業模式、什么類型的公司會最終受益于生成式 AI+視視頻的技術紅利。目前,頻的技術紅利。目前,AI+視頻大概率用于創意設計、創意生成,直接用于視頻大概率用于創意設計、創意生成,直接用于 ToB 商業化
104、較少。追溯原因,我們發商業化較少。追溯原因,我們發 AI提示詞生成、修改視頻片段、添加字幕、腳本生成、轉場銜接、背景音樂添加等眾多細節功能暫未集成,因此現提示詞生成、修改視頻片段、添加字幕、腳本生成、轉場銜接、背景音樂添加等眾多細節功能暫未集成,因此現今階段還需要多種不同的視頻創作工具串聯使用才能達到直接輸出可商業化視頻的效果,環節繁瑣、多工具之今階段還需要多種不同的視頻創作工具串聯使用才能達到直接輸出可商業化視頻的效果,環節繁瑣、多工具之間的格式也可能存在不兼容的可能性,給用戶帶來使用上的不便。因此我們認為,后續需要持續關注能夠一站式間的格式也可能存在不兼容的可能性,給用戶帶來使用上的不便。
105、因此我們認為,后續需要持續關注能夠一站式提供視頻生成提供視頻生成+編輯等功能的企業,了解用戶痛點,打磨產品細節,才能真正將技術用于生產工作、娛樂等眾多編輯等功能的企業,了解用戶痛點,打磨產品細節,才能真正將技術用于生產工作、娛樂等眾多環節,帶來商業化變現的潛在空間。環節,帶來商業化變現的潛在空間。目前我們可以看到,除了主流公司例如 Sora、Luma AI、Pika、Runway 在積極迭代視頻生成能力之外,有一些企業如 Adobe、Heygen、Capitions.AI、OpusClip、快手可靈、字節剪映等諸多工具已經在嘗試在 AI 視頻剪輯方向發力。Adobe Firefly&Adobe
106、 Express 2023 年 4 月,Adobe 發布了一篇關于音頻、視頻、動畫和動態圖形設計的功能展示的官方 blog。主要可實現的功能包括:視頻編輯、添加背景音樂和效果、腳本字幕文字的自動生成匹配、根據文字分鏡頭展示、從草圖生成動畫等和音視頻相關的 AI 功能等。圖圖 39:后續:后續 Firefly 關于多模態音頻、視頻方向上的功能展望關于多模態音頻、視頻方向上的功能展望 資料來源:Adobe公司官網,信達證券研發中心 圖圖 40:Adobe Firefly 集成第三方大模型如集成第三方大模型如 Runway、OpenAI Sora 用于視頻剪輯用于視頻剪輯 資料來源:Adobe公司官
107、網,信達證券研發中心 Capitions.AI(AI 字幕、字幕、AI 長短視頻剪輯)長短視頻剪輯)公司主要產品為 AI 視頻編輯器,它將 AI 的能力幾乎應用到了整個視頻編輯的每個環節。公司產品的全球創作者數量達到 1000 多萬,推出了一系列全球首創的生成功能,用戶每月制作超過 300 萬個視頻。2024 年 7 月 9 日,Captions 已籌集 6000 萬美元的 C 輪融資,由 Index Ventures 領投,現有投資者 Kleiner Perkins、Sequoia Capital 和 Andreessen Horowitz 也參與其中。新投資者包括 Adobe Ventur
108、es、HubSpot Ventures 和 Jared Leto。此次融資使公司籌集的總資本超過 1 億美元,公司估值為 5 億美元。AI 會分析素材,并在最合適的時間插入自定義圖形、縮放、音樂、音效、過渡和動態背景,所有這些都根據內容進行個性化設置。使用 AI Edit,用戶無需從空白畫布開始。從三種視頻編輯風格中選擇一種 Impact、Cinematic 和 Paper,更多風格即將推出。AI 剪輯生成器剪輯生成器:可以使用戶利用 AI 將一部長視頻變成十部短視頻,挑選更多適合在 Reels、TikTok 上播放的短片,達到省時的同時使得傳播效果最廣。圖圖 41:Captions AI S
109、horts 功能功能 資料來源:Captions公司官網,信達證券研發中心 AI 廣告生成器:廣告生成器:通過 AI Creators Ads 只需要輸入產品鏈接或者描述,幾秒鐘即可創建數十個視頻廣告。輸入產品鏈接或腳本,實現 UGC 廣告的效果。下圖為導入一個亞馬遜鏈接,選擇廣告數字人以及對應字幕,即可生成用戶想要的廣告,一站式分發到各個平臺。圖圖 42:Captions AI AD Creator 功能功能 資料來源:Captions公司官網,信達證券研發中心 阿里達摩院“尋光”視頻創作平臺阿里達摩院“尋光”視頻創作平臺 2024 年 7 月,在世界人工智能大會上阿里巴巴達摩院最新發布了
110、AIGC 產品 尋光視頻創作平臺,旨在提升視頻制作效率,解決視頻后期編輯問題,通過簡易的分鏡頭組織形式和豐富的視頻編輯能力,讓用戶實現對視頻內容的精準控制,并保持多個視頻中角色和場景的一致性?!皩す狻敝荚跒橛脩籼峁┮徽臼降囊曨l創作工具,讓用戶回歸到關注視頻內容本身是尋光致力于做的事情。目前主要功能包括:分鏡故事板一鍵創建、定制自己的故事角色、生成具備一致性的角色和場景畫面,再利用運鏡控制、運動編輯,創作 AI 視頻作品。同時,可以使用各類視頻編輯功能進行修改,更有圖層拆解和融合功能,定制化視頻內容,方便用戶利用 AI 創作高質量、高一致性的故事視頻片段,而非幾十秒的創意 AI 視頻。圖圖 43
111、:阿里達摩院“尋光”一站式視頻創作平臺視頻編輯功能:阿里達摩院“尋光”一站式視頻創作平臺視頻編輯功能 資料來源:尋光官網,信達證券研發中心 圖圖 44:阿里達摩院“尋光”視頻素材創作功能:阿里達摩院“尋光”視頻素材創作功能 資料來源:尋光官網,信達證券研發中心 美圖美圖 MOKI-AI 創作短片創作短片 2024 年 6 月 12 日,美圖公司舉辦以“聊聊 AI 工作流”為主題的第三屆美圖影像節,現場發布 6 款產品,其中包含了 MOKI-用 AI 做短片。MOKI 不做常規的文生視頻,而是聚焦在了 AI 短片創作,其中涉及到動畫短片、網文短劇、故事繪本和 MV。目前在視頻大模型故事成片的難點
112、包括:視覺風格、場景、角色不一致;無法用分鏡進行整體把控;角色無法開口說話。針對此的解決方案,美圖試圖打造 AI 短片工作流提升可控性:1)先做腳本、視覺風格、角色等前期設定;2)用 AI 生成分鏡圖,分鏡圖轉視頻;3)用臺詞驅動角色開口說話。圖圖 45:美圖:美圖 MOKI AI 短片產品短片產品 資料來源:美圖公眾號,信達證券研發中心 商湯商湯 Vimi人物視頻生成大模型人物視頻生成大模型 2024 年 7 月,商湯科技在世界人工智能大會上發布了公司打造的首個可控人物視頻生成大模型Vimi,Vimi基于商湯日日新大模型的強大能力,僅通過一張任意風格的照片就能生成和目標動作一致的人物類視頻,
113、不僅能實現精準的人物表情控制,還可實現在半身區域內控制照片中人物的自然肢體變化。Vimi 具備較強的穩定性,尤其在長視頻的情景下,能夠穩定保持人物的臉部可控,可生成長達 1 分鐘以上的單鏡頭人物類視頻。Vimi 在人物視頻場景生成中,可以做到整個的環境都跟著肢體的控制去變化,包括生成合理的頭發的抖動。Vimi 相機是Vimi 可控人物視頻大模型體系的第一款 C 端產品,能夠滿足廣大女性用戶的娛樂創作需求。圖圖 46:商湯:商湯 Vimi 人物視頻生成人物視頻生成 資料來源:Vimi公眾號,信達證券研發中心 智向未來(智向未來(HiDream.ai)基于自研的基于自研的 DiT 架構的智象大模型
114、架構的智象大模型 2.0 智象未來(HiDream.ai),成立于 2023 年 3 月,其自主研發的視覺多模態基礎模型實現了不同模態之間的生成轉換,支持文生圖、文生視頻、圖生視頻和文生 3D,并推出了一站式 AI 圖像和視頻生成平臺Pixeling 千象。智象大模型 2.0 的整體升級,相較于 1.0 版本在底層架構、訓練數據和訓練策略上均有質的變化。2023 年 12 月,智象大模型的文生視頻打破了 4 秒時長限制,做到了支持 15 秒鐘以上的生成時長,同時還支持 4K 畫質。相較于相較于 U-Net,DiT 架構靈活度更高,且能增強圖像、視頻的生成質量。架構靈活度更高,且能增強圖像、視頻
115、的生成質量。Sora 的出現更直觀地驗證了這一點,的出現更直觀地驗證了這一點,采用此類架構的擴散模型表現出了天然生成高質量圖像和視頻的傾向,并在可定制化、生成內容可控性方面具采用此類架構的擴散模型表現出了天然生成高質量圖像和視頻的傾向,并在可定制化、生成內容可控性方面具有相對優勢。后續上線有相對優勢。后續上線 AI 分鏡頭故事創作視頻功能:首先輸入提示詞分鏡頭故事創作視頻功能:首先輸入提示詞分鏡頭腳本生成分鏡頭腳本生成關鍵幀圖片生成關鍵幀圖片生成AI故事視頻生成。故事視頻生成。圖圖 47:智象大模型升級:智象大模型升級 2.0 版本版本 資料來源:機器之心公眾號,信達證券研發中心 圖圖 48:
116、智向未來即將上線一站式分鏡頭故事創作視頻生成功能:智向未來即將上線一站式分鏡頭故事創作視頻生成功能 資料來源:機器之心公眾號,信達證券研發中心 五、AI+視頻時代來臨,思考哪類公司存在商業化變現的可能性?(一)(一)一站式一站式平臺型公司平臺型公司:代表性公司:代表性公司Adobe、美圖等、美圖等 目前在目前在 AI+視頻的使用上,大多數嘗試的用戶仍停留在一段較短時長的視頻創意生成階段,真正用于實際工作效視頻的使用上,大多數嘗試的用戶仍停留在一段較短時長的視頻創意生成階段,真正用于實際工作效率提升、工作流程替代的較少。原因仍是在于缺少一站式的率提升、工作流程替代的較少。原因仍是在于缺少一站式的
117、 AI+視頻生成視頻生成+剪輯產品提供商,目前用戶在生成創剪輯產品提供商,目前用戶在生成創意視頻后,需要自己去多個其他軟件產品上調配背景音樂添加、鏡頭轉場、字幕添加、多余鏡頭刪減等,文件格意視頻后,需要自己去多個其他軟件產品上調配背景音樂添加、鏡頭轉場、字幕添加、多余鏡頭刪減等,文件格式的適配性也可能存在問題,因此后續隨著技術的迭代發展,能夠給用戶提供一站式工作流的式的適配性也可能存在問題,因此后續隨著技術的迭代發展,能夠給用戶提供一站式工作流的 AI+視頻生成、剪視頻生成、剪輯的平臺性公司有望深度受益輯的平臺性公司有望深度受益。如全球繪畫、設計領域龍頭公司 Adobe,Firefly 集成應
118、用包括以下五個產品:Lightroom、Photoshop、Adobe Express、Illustrator、InDesign,同時 Adobe 產品底層已經集成 Pika 以及后續待正式發布的 OpenAI 視頻大模型 Sora,可以使得用戶在感受 AI 視頻的創意生成的同時,可以直接在 Adobe 的剪輯軟件內對視頻進行其他環節的修改,達到一站式產出的效果。因此我們認為,一站式 AI 視頻生成+剪輯平臺型公司后續有望深度受益。創意設計市場規模預測創意設計市場規模預測:根據Adobe公司披露數據,2024年預計Document Cloud+Creative Cloud+Experience
119、 Cloud 三朵云 TAM 總計可達 2050 億美元,其中 Experience Cloud 市場空間為 1100 億美元,Creative Cloud 市場空間為 630 億美元,Document Cloud 市場空間為 320 億美元。相較其 FY24Q2 創意云收入 31.26 億美元,主打創意軟件設計的 Creative Cloud 的市場空間較大,其 AI 功能的附加值的增長空間也較大。Creative Cloud包含了其 AI 產品 Firefly、Express,Adobe Firefly 推出 Firefly Image 2 模型,改進了圖像生成功能;Adobe Expre
120、ss 同樣集成了大量的 AI 功能給創意工作設計、圖像領域用戶使用。因此,我們假設在創意設計領域 2024年的市場空間為 630 億美元,后續有望演變成千億美元規模以上的市場。圖圖 49:Adobe Creative Cloud TAM 市場規模預測市場規模預測 資料來源:Adobe官網,信達證券研發中心 國內視頻剪輯軟件行業市場規模預測:國內視頻剪輯軟件行業市場規模預測:根據智研瞻產業研究院整理,2020 年中國視頻剪輯軟件行業市場規模達到了 15.8 億元人民幣,同比增長率為 18.61%。預計未來幾年,隨著短視頻和直播行業的持續火熱,視頻剪輯軟件市場規模將繼續保持高速增長,到 2025
121、年市場規模將達到 34.8 億元人民幣,年復合增長率為 17.8%。因此,疊加廣告營銷市場空間、疊加廣告營銷市場空間、IP 類公司市場空間等,類公司市場空間等,AI+視頻市場空間至少為萬億人民幣規模,相較目前部分視頻市場空間至少為萬億人民幣規模,相較目前部分 AI+視視頻產品的頻產品的 ARR 僅為百萬、千萬美元來看,僅為百萬、千萬美元來看,AI+視頻成長空間較大,核心還是在于如何把底層技術迭代升級完善視頻成長空間較大,核心還是在于如何把底層技術迭代升級完善的同時,做到一站式的同時,做到一站式 AI+視頻生成、剪輯、宣發等環節的強大產品力吸引全球用戶來實現商業化,視頻生成、剪輯、宣發等環節的強
122、大產品力吸引全球用戶來實現商業化,AI+視頻的星視頻的星辰大海遠不止于創意視頻的生成。辰大海遠不止于創意視頻的生成。Adobe 相關創意設計業務收入市占率仍較低,提升空間較大相關創意設計業務收入市占率仍較低,提升空間較大。根據 Adobe 自身業績指引:Adobe2024 財年目標總收入在 214 億美元到 215 億美元之間(上個季度指引:213 億-215 億美元)。預計年度新增數字媒體 ARR約為 19.5 億美元,數字媒體部門收入在 158 億美元到 158.5 億美元之間。數字體驗部門收入預計在 53.25 億美元到 53.75 億美元之間,數字體驗訂閱收入在 47.75 億美元到
123、48.25 億美元之間。因此,2024 年預估 Adobe 數字媒體業務營收市占率在 16.6%-16.7%之間,數字體驗業務營收市占率在 4.86%,兩個主要業務方向的長期營收成長空間廣闊,Adobe 在產品 AI 商業化道路才剛剛開始。表表 5:Adobe 數字媒體業務和數字體驗業務預估市占率數字媒體業務和數字體驗業務預估市占率 2024E 2024 年年 Adobe 預估創意云預估創意云+文檔云預計市場規模(十億美元)文檔云預計市場規模(十億美元)95 2024 財年財年 Adobe 數字媒體部門(創意云數字媒體部門(創意云+文檔云)預計收入(十億美文檔云)預計收入(十億美元)元)15.
124、8-15.85 Adobe 數字媒體業務營收市占率數字媒體業務營收市占率 16.6%-16.7%2024 年數字體驗業務預計市場規模(十億美元)年數字體驗業務預計市場規模(十億美元)110 2024 財年財年 Adobe 數字體驗業務預計收入(十億美元)數字體驗業務預計收入(十億美元)5.35 Adobe 數字體驗業務營收市占率數字體驗業務營收市占率 4.86%資料來源:Adobe官網,信達證券研發中心 AI 新功能迭代提升新功能迭代提升 Adobe 產品日活數量,側面驗證用戶需求客觀存在,只不過市場缺少滿足痛點需求產品日活數量,側面驗證用戶需求客觀存在,只不過市場缺少滿足痛點需求 AI 產品
125、。產品。2024 年 4 月 Adobe Express 活躍用戶陡然爆發增長,根據第三方 Sensortower 數據,應用日活從 12 萬上下提升至 70 萬上下并呈現持續提升的趨勢,主要原因在于 Adobe 推出全新的 Adobe Express 移動應用程序,具有Firefly 生成 AI 和 Adobe 創意工具的強大功能,現已在 web 和移動設備上普遍可用。為了滿足 TikTok、Instagram和其他社交內容的爆炸式需求,Adobe Express 可以輕松地在網絡和移動設備上創建和協作,釋放創造力和生產力,其主要功能包括文本生成圖像、生成填充、文本效果、文本到模板、為 In
126、stagram Reels、TikTok 等制作視頻等相關生成式 AI 功能,用戶數的增長側面驗證了 Adobe 產品在 AI 功能上的迭代準確把握了用戶的痛點需求,有望給 Adobe Express 長期收入增長墊定良好基礎。Adobe 視頻編輯軟件 Premiere Pro 定價為$22.99/月,Adobe Express 定價為$9.99/月。在 NAB show 2024 上,Adobe 公司宣布在 24 年內 Premiere Pro 會推出一站式 AI 視頻生成剪輯功能,這一變化有望帶來 ARR 收入上的增長。圖圖 50:Adobe Express 在在 24 年年 4 月迭代月
127、迭代 AI 功能后,日活數驟然抬升并穩定提高功能后,日活數驟然抬升并穩定提高 資料來源:Sensortower,信達證券研發中心 圖圖 51:Adobe Premiere Pro 引入第三方模型如引入第三方模型如 Pika、OpenAI、Runway 生成視頻片段滿足用戶一站式視頻剪輯需求生成視頻片段滿足用戶一站式視頻剪輯需求 資料來源:Adobe Blog,信達證券研發中心 美圖美圖 2024 年 6 月 12 日,美圖第三屆影像節上公布一組數據:“在 AI 驅動下,美圖全球 VIP 會員數突破千萬”,從2023 年 6 月 19 日的 719 萬提升至 2024 年 6 月 12 日的 1
128、063 萬,同比增長幅度+47.8%。美圖公司聚焦“生產力和全球化”戰略,以 2023 年 6 月推出的美圖視覺大模型 MiracleVision(奇想智能)為基石,形成由底層、生態層和應用層構建的 AI 產品生態。2023 年美圖實現總收入 27 億元,同比增長+29.3%。經調整后歸母凈利潤 3.7億元,同比增長+233.2%??偸杖肱c凈利潤增長主要得益于 AI 推動主營業務收入增長,美圖用戶每天處理數億份圖片和視頻,約 83%都用到了泛 AI 功能。2023 年,美圖以付費訂閱為主的影像與設計產品業務收入 13.3 億元,同比增長 52.8%;廣告業務收入 7.6 億元,同比增長 20.
129、5%;美業解決方案業務收入 5.7 億元,同比增長29.1%。在產品全球化推進中,美圖同樣步伐加速。AI 正幫助美圖公司加速進入全球市場,目前,美圖已在全球195 個國家和地區布局影像產品,美圖秀秀、美顏相機、Wink 先后取得多個國家和地區的應用榜單冠軍。在data.ai2024 年 1 月的中國非游戲廠商出海收入排行榜中,美圖公司排在第 3 位。據據 QuestMobile 數據,美圖秀秀連續數據,美圖秀秀連續 8 年奪得中國圖片美化賽道用戶規模第一名、美顏相機連續年奪得中國圖片美化賽道用戶規模第一名、美顏相機連續 8 年奪得中國年奪得中國拍照攝影賽道用戶規模第一名。影像產品組合的付費訂閱
130、用戶滲透率持續快速上升,進而推動付費訂閱收入大拍照攝影賽道用戶規模第一名。影像產品組合的付費訂閱用戶滲透率持續快速上升,進而推動付費訂閱收入大幅增長。截至幅增長。截至 2023 年年 12 月月 31 日,美圖公司月活躍用戶數達日,美圖公司月活躍用戶數達 2.5 億,同比增長億,同比增長 2.6。美圖付費訂閱用戶數超。美圖付費訂閱用戶數超911 萬,創歷史新高,同比增長萬,創歷史新高,同比增長 62.3,付費率僅為,付費率僅為 3.64%,ARPU 提升空間較大提升空間較大。圖圖 52:美圖公司底層、生態層、應用層架構:美圖公司底層、生態層、應用層架構 資料來源:美圖秀秀桌面版公眾號,信達證券
131、研發中心 同海外圖像、視頻編輯領域龍頭公司同海外圖像、視頻編輯領域龍頭公司 Adobe 類似,美圖在國內的圖像、視頻編輯行業的用戶較多、認可度較強,類似,美圖在國內的圖像、視頻編輯行業的用戶較多、認可度較強,在在 AI+圖像圖像/視頻的技術產品迭代上持續發力,同樣有望成為一站式圖像視頻的技術產品迭代上持續發力,同樣有望成為一站式圖像&視頻視頻 AI 加持下的龍頭公司,在底層加持下的龍頭公司,在底層 AI技術的不斷打磨迭代下,逐步應用于旗下所有的產品,有望提升每款產品的用戶數和技術的不斷打磨迭代下,逐步應用于旗下所有的產品,有望提升每款產品的用戶數和 ARPU 來實現增值創收來實現增值創收。1)
132、Wink 視頻剪輯。Wink 在自身擁有大量視頻剪輯功能例如畫質修復、視頻拼接、音頻降噪、自動字幕、皮膚細節、畫面裁剪等之外,產品希望做到讓用戶像修圖一樣來實現修視頻的功能,上線了諸如 AI 修復、AI 動漫(可以一鍵將視頻生成動漫風格)、AI 美容、視頻美容、AI 一鍵成片等 AI 功能來滿足用戶需求。2)開拍。開拍 APP 主打功能為用 AI 制作口播視頻,自動生成 AI 腳本后通過口播剪輯批量化生成口播視頻。3)WHEE。目前已經上線文生視頻和圖生視頻功能,在圖生視頻的基礎上,MiracleVision 支持視頻運鏡。提供了推、拉、搖、移等八種電影級運鏡模式,讓用戶能夠輕松模擬專業的鏡頭
133、運動。后續有望更新視頻生視頻功能,導入一段視頻,再加上不同的提示詞,就能獲得卡通、科幻、像素風,羊毛氈等不同的藝術風格。(二)(二)AI+視頻技術頭部服務商轉型視頻技術頭部服務商轉型 ToB+ToC 產品類公司:代表性公司產品類公司:代表性公司Runway、商湯科技、商湯科技 商湯科技生成式人工智能相關業務在 2023 年的收入獲得 200%增長,收入突破 11.8 億元人民幣。公司在國內的生成式人工智能的算力儲備、人才儲備等維度上均屬于第一梯隊,公司目前以為 B 端客戶提供算力、大模型 API調用為主,在 AI 技術上迭代發展較快。2024 年 7 月在世界人工智能大會上,商湯科技打造的首個
134、可控人物視頻生成大模型Vimi,以 Vimi 為例來探索商湯在垂直領域細分市場上的 C 端 AI 產品擴張。我們認為,AI 視頻生成領域的難點在于創作人物形象的一致性和是否符合世界物理規律上。因暫未拿到實測資格,在 Vimi 微信公眾號的介紹中我們看到,Vimi 基于商湯日日新大模型的強大能力,僅通過一張任意風格的照片就能生成和目標動作一致的人物類視頻,不僅能實現精準的人物表情控制,還可實現在半身區域內控制照片中人物自然肢體變化,通過已有人物視頻、動畫、聲音、文字等多種元素進行驅動。Vimi 模型主打在長視頻情景下能夠穩定保持人物臉部可控,這有望適用于多領域創作模型主打在長視頻情景下能夠穩定保
135、持人物臉部可控,這有望適用于多領域創作。例如能夠滿足廣大女性例如能夠滿足廣大女性用戶的娛樂創作需求。用戶只需上傳不同角度的高清人物圖片,即可自動生成數字分身和不同風格的寫真視頻;用戶的娛樂創作需求。用戶只需上傳不同角度的高清人物圖片,即可自動生成數字分身和不同風格的寫真視頻;對于熱衷表情包的用戶來說,對于熱衷表情包的用戶來說,Vimi 通過單張圖片即可驅動生成各種趣味的人物表情包,同時還可支持聊天、唱通過單張圖片即可驅動生成各種趣味的人物表情包,同時還可支持聊天、唱歌、舞動等多種娛樂互動情景,在女性娛樂應用市場中,用領先的歌、舞動等多種娛樂互動情景,在女性娛樂應用市場中,用領先的 AI 技術打
136、造垂直領域產品,有望打開公司的技術打造垂直領域產品,有望打開公司的ToC 端市場,同時也有望通過大量的用戶數據進而反哺端市場,同時也有望通過大量的用戶數據進而反哺 B 端市場客戶的使用效果端市場客戶的使用效果。圖圖 53:Vimi 在人物一致性功能支持下打造的數字分身打造在人物一致性功能支持下打造的數字分身打造 AI 視頻功能、視頻功能、AI 表情包功能表情包功能 資料來源:Vimi公眾號,信達證券研發中心(三)視頻剪輯類公司:(三)視頻剪輯類公司:代表性公司代表性公司快手和抖音快手和抖音 作為國內短視頻內容頭部公司,均對應推出了其視頻剪輯類軟件快手快影和抖音剪映,目前快影已經集成了快手可靈視
137、頻大模型的文生視頻和圖生視頻功能,后續有望迭代至 AI 視頻剪輯功能;剪映也推出了 AI 創作產品Dreamina(即夢),同時剪映內部目前也已經上線了諸多 AI 功能,例如一鍵成片、AI 廣告營銷等??梢钥吹?,若在視頻剪輯領域做到極強產品力,同樣有望提升用戶付費率,帶來商業化變現程度的提升??焓挚伸`快手可靈 快手可靈視頻大模型的效果得到廣泛的市場認可,可靈經發布后近三個月,申請體驗的用戶數量已突破可靈經發布后近三個月,申請體驗的用戶數量已突破 70 萬大萬大關,相比快影的月活數據近關,相比快影的月活數據近 200 萬來看,已經有了較高的占比,累計生成的視頻作品高達萬來看,已經有了較高的占比,
138、累計生成的視頻作品高達 700 萬份萬份??焓挚伸`在集團內部的支持下,不管是算力儲備、團隊人員配置、底層數據都加速了可靈的高質量發布??焓衷诙桃曨l領域深耕多年,多年的視頻數據標簽化儲備讓在可靈在訓練階段的數據端、尤其是視頻數據端的優勢較為顯著。我們認為,快手可靈作為集團內部較高戰略級別的一款產品,未來一定不只是一款面向我們認為,快手可靈作為集團內部較高戰略級別的一款產品,未來一定不只是一款面向 C 端的視頻生成端的視頻生成+剪輯工剪輯工具,可靈有望賦能快手所有的視頻創作者,為現有的快手內容生態提供補充。根據快手大數據研究院數據,具,可靈有望賦能快手所有的視頻創作者,為現有的快手內容生態提供補充
139、。根據快手大數據研究院數據,2023年有超過年有超過 1.38 億用戶首次在快手平臺發布短視頻、億用戶首次在快手平臺發布短視頻、2023 年堅持年堅持 365 天在快手每天發視頻的創作者人數高達天在快手每天發視頻的創作者人數高達61%、2023 年有超過年有超過 2200 萬創作者在快手平臺獲得收入、萬創作者在快手平臺獲得收入、2023 年第三季度快手搜索平均月活躍用戶數達到年第三季度快手搜索平均月活躍用戶數達到4.7 億,從以上數據我們可以看到,快手作為一個超大億,從以上數據我們可以看到,快手作為一個超大 DAU 的短視頻產品,有著高度活躍的創作者生態氛圍,的短視頻產品,有著高度活躍的創作者
140、生態氛圍,可靈視頻大模型的更新迭代有望賦能快手創作者用戶,從而給快手平臺帶來留存率的提升和更多商業化空間的可靈視頻大模型的更新迭代有望賦能快手創作者用戶,從而給快手平臺帶來留存率的提升和更多商業化空間的探索探索。表表 6:快影和剪映產品相關數據:快影和剪映產品相關數據 產品產品 月活用戶數月活用戶數 應用近一年凈收入應用近一年凈收入 產品定價年訂閱費產品定價年訂閱費 快影(內嵌可靈)快影(內嵌可靈)194.6 萬 280 萬美元 88 元/年 剪映(包含海外剪映(包含海外CapCut 和國內剪映,和國內剪映,全渠道)全渠道)3.2 億 1.92 億美元 499 元/年 資料來源:SensorT
141、ower,信達證券研發中心 (四)(四)廣告營銷類公司廣告營銷類公司:易點天下、藍色光標、因賽集團、利歐股份等:易點天下、藍色光標、因賽集團、利歐股份等 OpenAI 的視頻模型 Sora 一經問世便引起了社會廣泛的關注,全球都在探索 AI+視頻對各行各業的改變程度,尤其是在廣告營銷領域。傳統廣告需要耗費昂貴的拍攝設備、較多的人力支持、后期剪輯的時間成本等等,尤其遇到拍攝難度較高、拍攝場景環境較難情況下,拍攝的成本會極大上升。因此,視頻生成模型的迭代有望使得廣告制作領域優先受益,目前視頻大模型的一次性生成時長較多集中在 20s 以內,同時可進行后續的視頻的延長生成,但首先需要解決的便是視頻人物
142、一致性和防畸變的問題,已經在逐步改善。另一個重點問題:目前視頻生成目前視頻生成所需的時長大多在幾分鐘,如果更為復雜的提示詞在較少的算力支持下,甚至要等幾十分鐘的時長從而才能得所需的時長大多在幾分鐘,如果更為復雜的提示詞在較少的算力支持下,甚至要等幾十分鐘的時長從而才能得到到 20s 以內的以內的 AI 視頻,而對于廣告營銷行業來說,批量化、短時間的視頻生成分發是比較重要的環節。我們認視頻,而對于廣告營銷行業來說,批量化、短時間的視頻生成分發是比較重要的環節。我們認為,如果廣告視頻的生成時長可以控制在為,如果廣告視頻的生成時長可以控制在 1 分鐘、甚至分鐘、甚至 30s 內,則該節點有望成為內,
143、則該節點有望成為 AI 應用在廣告領域分水嶺應用在廣告領域分水嶺。AI+短視頻營銷領域短視頻營銷領域。海外創業公司 Captions.AI 中的 AI 廣告生成器功能,僅需要輸入商品鏈接、選擇數字人畫像,即可自動生成 5 端不同角度的數字人介紹產品的廣告短視頻切片,一鍵外發到多個社交媒體平臺上,極大提升廣告營銷類服務商的工作效率。同時,隨著 AI+視頻的生成時長和畫面分辨率的提升,更逼真的長時長廣告也有望代替傳統的廣告服務商,節省拍攝成本。近年來,國內抖音、快手、微信視頻號,海外 Facebook、Tiktok、YouTube 等短視頻平臺崛起,據 Statista 相關數據顯示,2030 年
144、全球移動營銷市場規模達預計將達到 578.5 億美元,其中,短視頻營銷作為數字創意的核心載體,有望成為未來內容生態的主要環節。傳統短視頻營銷內容生成,不僅成本高昂,在制作過程中更會面臨定選題、找素材、寫腳本、現場拍攝、后期剪輯以及運營發布等多個繁瑣的流程環節。易點天下易點天下:2023 年旗下 AIGC 數字營銷創作平臺 KreadoAI 就開始了 AI+營銷的探索和應用,KreadoAI 包含了多模態模型的融合,包括文本生成、圖生圖、文本生成視頻、語音生成等,提供文字到廣告創意圖片、多語種語音、視頻的生成能力。KreadoAI“會說話的照片數字人”功能則應用了圖生視頻能力,用戶只需上傳心儀照
145、片或使 用 KreadoAI 提供的文字關鍵詞生成專屬的 AI 人物形象,輸入一段文字,即可快速生成專業的產品講解視頻、AI人物口播視頻,應用于廣告、知識培訓等各種創意場景。在短視頻營銷領域,易點天下旗下在短視頻營銷領域,易點天下旗下 AIGC 數字營銷創作數字營銷創作平臺平臺 KreadoAI 可為企業提供可為企業提供AI+的多場景短視頻營銷解決方案,目前已覆蓋全球的多場景短視頻營銷解決方案,目前已覆蓋全球 67 個國家、注冊用戶數個國家、注冊用戶數100w+、單月用戶訪問量超過百萬,得到來自巴西、中國、印度、歐美等地區的用戶認可、單月用戶訪問量超過百萬,得到來自巴西、中國、印度、歐美等地區
146、的用戶認可。KreadoAI 的功能覆蓋相對全面,能夠適用于文案、商品圖、視頻等常見營銷應用領域。在短視頻制作方式上,KreadoAI 支持一站式的包攬制作,操作難度低;在降本和增效表現上,KreadoAI 可以將視頻制作效率從 12 小時/個縮短至 5 分鐘/個,而成本只有真人的 1/100。產品以多語種多人種風格的數字人形象滿足跨國營銷素材生產需求,并結合投放數據反饋,持續優化視頻質量。藍色光標藍色光標:2024 年內 7 月 4 日,藍色光標與昆侖萬維正式宣布達成戰略合作,攜手打造 AI 營銷創新生態。藍色光標從 2023 年初就確立 All in AI 戰略、快速開啟一系列 AI 營銷
147、落地實踐和探索動作。在短短一年多的時間里,創造300多個AI營銷案例、由AI驅動的收入達到 1.08億元,取得顯著成果;并推出營銷行業垂直模型“BlueAI”,大量應用于多家知名品牌的營銷活動中,大幅提升了廣告投放的精準度和效果,收獲客戶認可。截至 2024 年 5月,昆侖萬維天工 AI 每日活躍用戶(DAU)已超過 100 萬,位列國內人工智能企業第一梯隊。昆侖萬維將在合作中開放大模型底層能力與 APP 平臺分發資源,基于天工 AI 大模型、AI 搜索、AI 音樂、AI 視頻、AI 社交等強大的 AI 技術能力為生成式廣告發展提供技術基礎。藍色光標的長期 AI 戰略方向:1)越來越多的 AI
148、 收入,從 8-10 億到追求 30-50 億,甚至未來的 100 個億;2)更多 AI Native,持續提高 AI 的占比、濃度和含金量,將人工調優的比例進一步下降;3)過去因行業內卷造成的人才密度下降,有望在 AI 時代得到巨大的改善。公司需要更多的 AI 人才,不僅要放下身段吸引人才加入,也需要培養 AI 的種子型人才;4)持續提高 AI 產品的易用性、與業務的結合度,高度聚焦行業的底層邏輯,結合業務場景不斷迭代;5)視頻多模態方面,要尋求更大的突破。因賽集團因賽集團:公司旗下 AIGC 營銷產品InsightGPT 繼 3 月初推出圖生視頻產品后,再度聚焦 AI 視頻創作領域,正在上
149、線文生視頻營銷應用產品AI 營銷視頻,為 AIGC 營銷領域帶來新的數智化解決方案。目前官網宣傳上線了例如AI整合營銷、AI營銷創意、AI電商營銷、AI短視頻營銷和AI營銷工具功能。因暫未實測,根據InsightGPT官網,用戶可以通過輸入提示詞得到生成的腳本,結合音樂生成、視頻生成、人聲生成等,整合 AIGC 多模態營銷能力,最終得到高質量的 AI 生成視頻進而應用到營銷領域,提升內容創作效率。利歐股份利歐股份:2023 年 9 月,利歐數字率先發布營銷領域大模型利歐歸一,在通用 L0 級語言模型基礎之上,結合利歐數字長期積累的大量營銷行業知識、投放經驗以及對客戶需求的深入理解,訓練出適配各
150、媒體平臺投放工作流的 SEMGPT 專屬模型。以 LEO Copy、LEO Diffusion 為例,前者聚焦文案創作功能、后者聚焦圖片生成功能,是 LEO AIAD 多模態內容精準控制,最佳優化營銷生產力的兩項代表性功能。LEO Copy 產品可以讓內容創作者只需輸入自己的 idea,即可在數秒內一鍵生成適用于小紅書種草、抖音短視頻、大眾點評測評、信息流標題等特定營銷場景、平臺、投放渠道所需要的營銷創意內容。在 LEO Diffusion 中,AI 會自動幫助設計師完成復雜的 Prompt 編寫、基礎模型選擇、風格模型選擇、模型參數設置等工作,設計師出圖的速度從原先的平均 6 小時/圖提升至
151、 1 分鐘/圖。(五)(五)UGC 社區社區類公司:類公司:代表性公司代表性公司Bilibili 傳統電影級別的鏡頭的制作成本、制作時長、團隊配置、設備配置等均需要耗費大量的人力、物力才能完成,AI+視頻的迭代使得大量的 UGC 創作者用戶可以按照自己的創意想法,不斷生成、修改想要的視頻效果,部分生成的效果已經堪比電影級別鏡頭。當某個 UGC 創作者平臺積淀了大量類似的 AI+視頻創作者用戶后,一個 AI+視 頻的開源社區就會形成,帶來商業化可能性。作為國內內容創作者生態知名平臺,作為國內內容創作者生態知名平臺,2023 年第四季度,年第四季度,B 站日均站日均活躍用戶超過活躍用戶超過 1 億
152、。億。2023 全年超全年超 300 萬萬 UP 主在主在 B 站獲得收入,同比增長超站獲得收入,同比增長超 30%。2024 年第一季度,年第一季度,B 站日站日均活躍用戶數達均活躍用戶數達 1.02 億,同比增長億,同比增長 9%。月均活躍用戶數創歷史新高,達到了。月均活躍用戶數創歷史新高,達到了 3.41 億用戶日均使用時長億用戶日均使用時長 105 分分鐘,創歷史新高,帶動超鐘,創歷史新高,帶動超 150 萬萬 UP 主在主在 B 站獲得收入。通過考試“正式會員”數達到了站獲得收入。通過考試“正式會員”數達到了 2.36 億,正式會員第億,正式會員第12 個月留存率近個月留存率近 80
153、%。大會員付費用戶數據為。大會員付費用戶數據為 2190 萬,其中超過萬,其中超過 80%為年度訂閱或自動續訂用戶為年度訂閱或自動續訂用戶。海量的創作者用戶、優良的社區氛圍有望帶動創新作品的發展。目前,B 站大會員基礎連續包年訂閱費為 128 元/年,假設 B 站后續能成立較深厚的 AI 視頻創作社交社區模塊,帶來 10%大會員付費數量的提升,僅對大會員付費角度來看,有望帶來億元級別收入上的提升。而長期給 B 站帶來持續性貢獻的是 B 站新用戶的加入和老用戶留存率的提升,有望帶來廣告及其他形式商業化變現的提升。(六)(六)視頻數據類公司:代表性公司視頻數據類公司:代表性公司華策影視、捷成股份、
154、視覺中國、中廣天擇等華策影視、捷成股份、視覺中國、中廣天擇等 表表 7:相關公司提供視頻數據用于訓練多模態大模型:相關公司提供視頻數據用于訓練多模態大模型 資料來源:捷成股份公眾號、視覺中國公眾號、華策影視公告、中廣天擇公告,信達證券研發中心 公司公司 AI 視頻數據相關視頻數據相關 捷成股份捷成股份 國內外流媒體平臺、電影視頻制作公司均積累了海量視頻素材,在前期的生成式 AI+視頻的技術迭代發展中,優質的視頻數據對于模型質量的訓練優化顯得至關重要。捷成股份與華為云簽署協議共同建設視頻大模型。捷成股份憑借十多年來積累的 20 萬小時影視視聽節目素材和通過數據清洗來為華為云投入高質量數據集,授權
155、華為用于視頻大模型訓練。華為方面投入基礎模型、算力、模型優化與專業服務等。24 年 3 月,捷成自主研發的 AI 智能創作引擎 ChatPV 正式發布,并接入華為云盤古大模型的通用語言解析能力,服務于 AI 視頻創作應用。視覺中國視覺中國 2023 年 10 月,視覺中國與華為云正式簽署關于視覺大模型的合作協議。雙方將以華為云盤古大模型為基礎打造視覺大模型,共同實現視覺領域高度智能化發展,推進更深層次的內容產業智能轉型。視覺中國專注“AI+內容+場景”戰略,依托海量優質合規的專有數據、全球創作者生態、數字版權交易場景等核心競爭力,聚焦“以客戶為中心”的 AIGC 技術創新,能夠在視覺領域為多模
156、態大模型訓練提供所需的海量、高質量數據集,助力多模態大模型生態建設。華策影視華策影視 公司現有超 5 萬小時正版影視版權庫和 150 萬分鐘(估算約 2 萬 TB)高清/超高清的原始拍攝素材,可通過清洗、標注、加工等技術處理后形成版權數據集。上線“AI 視頻分析檢索功能”,可以對視頻中的人、物等特定元素進行自動標簽,快速鎖定相關素材等。中廣天擇中廣天擇 打造 AI 算料綜合服務交易平臺:在人工智能快速發展的背景下,公司利用自身優勢創新業務發展,首先是公司擁有大量優質自有版權的音視頻版權數據,其次是公司具備強大的渠道能力,利用現有 500+城市廣電合作客戶資源開展行業版權數據資源整合,在行業主管
157、部門的支持下,打造中國廣電行業優質版權的垂類數據集,在此基礎上,積極建設 AI 模型訓練的算料綜合服務和交易平臺。(七)(七)IP 類公司:代表性公司類公司:代表性公司上海電影、湯姆貓、中文在線等上海電影、湯姆貓、中文在線等 隨著視頻生成技術的迭代發展,傳統 IP 方可以有效利用新技術來改造 IP 的使用,可以將 IP 衍生出更多的流媒體內容,來實現影視、短視頻、IP 周邊變現。表表 8:IP 類公司可基于類公司可基于 AI+視頻開發更多視頻開發更多 IP 衍生品衍生品 資料來源:中國基金報、上觀新聞、湯姆貓公告、銀柿財經、中文在線公告,信達證券研發中心 (八)(八)AI 短劇短劇/AI 短片
158、等方向探索類公司短片等方向探索類公司 表表 9:部分公司對:部分公司對 AI 短劇短劇/AI 短片方向上的探索短片方向上的探索 公司公司 IP 變現相關變現相關 上海電影上海電影 公司擁有 60 個經典動畫+影視 IP。2024 年 2 月 29 日,上海電影在上海影城 SHO 發布 iNEW 新戰略,以“iPAi 星球計劃”為抓手,結合 AI 主攻 IP 內容煥新和 IP 商業化,打造 AI+IP 在影視行業的全新重點戰略布局。三大先導行動:探索中國動畫學派AI 模型、發起全球創造者計劃聚焦 AI 在短劇和影視垂直領域的應用開發、IP+AI 賦能商業開發計劃來加速 AI 對海量 IP 儲備的
159、商業化放量。同時,舉辦了“全球 AI 電影馬拉松大賽”,10 萬美金獎金池助力 IP 二創,在全球范圍內發掘和尋找優質 AI 影視創投項目,招募全球 AI+影視方向人才,建立 AI 合作生態。湯姆貓湯姆貓 圍繞湯姆貓家族 IP 為核心,線上與線下協同發展的全棲 IP 生態運營商。截至 2023 年底,湯姆貓家族 IP 系列應用在全球范圍內的累計下載量已超過 230 億人次,全球 MAU最高達 4.7 億人次。公司湯姆貓家族 IP 系列動畫作品已被翻譯成 32 種語言,全球累計播放量已超過 1,100 億次。同時,公司國內研發團隊與西湖心辰合作的湯姆貓 AI 講故事等產品,已初步完成主要功能的測
160、試。公司 AI 硬件團隊正研發一款基于生成式人工智能技術的 AI 語音交互陪伴機器人。公司 IP 屬性強,深耕 AI 情感陪伴賽道。中文在線中文在線 截至 2023 年底,公司以自有原創內容平臺、知名作家、版權機構為正版數字內容來源,累積數字內容資源超 560 萬種,網絡原創駐站作者 450 余萬名;與 600 余家版權機構合作,簽約知名作家、暢銷書作者 2,000 余位。公司 IP 衍生業務以文學 IP 為核心,向下游延伸進行 IP 衍生開發,著力打造“網文連載+IP 衍生同步開發”的創作模式。截至 2023 年底,公司可用于 AI 大模型訓練的數據集已超過 60TB,主要由小說和出版物組成
161、,為公司在有聲書、漫畫、動漫、視頻等多模態領域商業化打下基礎。公司公司 AI 短劇短劇/AI 短片探索相關短片探索相關 美圖公司美圖公司 發布 AI 短片工作流工具MOKI。在腳本、視覺風格、角色等前期設定完成后,AI 自動生成分鏡圖并轉為視頻素材,通過智能剪輯、AI 配樂、AI 音效、自動字幕等功能串聯素材并實現成片。因賽集團因賽集團 探索 AIGC 技術賦能短劇創作及制作提質增效,未來將適當參與優質 AI 短劇的出品以及 AI 短劇相關技術和應用產品的布局。公司參與出品了由北京華塢科技制作的國內首部 AI 商業微短劇西西里的美麗傳說。資料來源:美圖公司公眾號、因賽集團官網、影視制作公眾號、
162、檸萌影視公眾號、超訊通信官網、博納影業公眾號,信達證券研發中心 表表 10:相關上市公司估值表(截至:相關上市公司估值表(截至 2024.07.24)分類分類 證券簡稱證券簡稱 總市值總市值(億元億元)歸母凈利潤(百萬元)歸母凈利潤(百萬元)市盈率市盈率 23A23A 24E24E 25E25E 26E26E 24E24E 25E25E 26E26E 一站式平臺型一站式平臺型 AdobeAdobe 17,061 53483.0 59276.0 65823.0 74153.0 28.8 25.9 23.0 美圖公司美圖公司 101.9 368.3 548.5 787.9 1046.0 18.6
163、12.9 9.7 技術服務類技術服務類 商湯商湯 375.2-6440.0-3645.0-2522.0-1742.0-UGCUGC 社區類社區類 BilibiliBilibili 434.2-4822.32-1734.0-143.8 990.0-302.1 43.9 視頻剪輯類視頻剪輯類 快手快手 1,746.4 6396.0 15734.6 21711.7 27026.2 11.1 8.0 6.5 IPIP 類公司類公司 閱文集團閱文集團 237.1 804.9 1249.2 1400.7 1543.0 19.0 16.9 15.4 上海電影上海電影 81.3 127.0 234.6 336
164、.6 426.7 34.7 24.2 19.1 湯姆貓湯姆貓 116.4-864.6 200.0 300.0 400.0 58.2 38.8 29.1 中文在線中文在線 142.6 89.4 134.3 172.7 215.1 106.2 82.6 66.3 廣告營銷類廣告營銷類 易點天下易點天下 62.2 217.0 287.5 357.7 433.5 21.6 17.4 14.4 藍色光標藍色光標 122.4 116.6 371.6 527.1 639.6 32.9 23.2 19.1 因賽集團因賽集團 49.5 41.6/利歐股份利歐股份 97.5 1966.0/視頻數據訓練視頻數據訓練
165、類類 華策影視華策影視 117.3 382.2 457.1 519.0 564.7 25.7 22.6 20.8 視覺中國視覺中國 75.4 145.6 169.1 197.8 224.1 44.6 38.1 33.6 捷成股份捷成股份 93.2 450.0 593.0 650.3 728.3 15.7 14.3 12.8 中廣天擇中廣天擇 25.2-8.7/AIAI 短劇短劇/短片短片探索類探索類 博納影業博納影業 58.3-552.6 314.1 499.0 578.3 18.6 11.7 10.1 超訊通信超訊通信 42.1 18.8 111.1 164.8 243.4 37.9 25.
166、5 17.3 檸萌影視檸萌影視 0.0 213.6 258.1 322.7 372.3 0.0 0.0 0.0 其他其他 光線傳媒光線傳媒 212.4 417.8 1068.1 1212.0 1373.9 19.9 17.5 15.5 快手快手 快手平臺每天約有 2.7 億用戶在觀看短劇,播放量過億短劇有 300 多部,有超 10 萬創作者進行短劇相關的內容創作。推出“星芒短劇+可靈大模型”創作者孵化計劃。2024年 7 月 12 日,快手首部 AIGC 原創奇幻微短劇山海奇鏡之劈波斬浪線下看片會正式舉行,AI 技術的加持使中國傳統神話題材的場景布置和 CG 特效變得更加高效。檸萌影視檸萌影視
167、 較早布局短劇賽道,旗下打造的精品短劇二十九總播放量超 8.3 億,集均播放量超4100 萬,豆瓣評分 8.1 分,成為了 2023 現象級爆款短劇。超訊通信超訊通信 攜手 Seven Volcanoes,領航 AI 短劇出海。超訊通信子公司超訊人工智能科技有限公司(以下簡稱“超訊人工智能”)與 AI 多模態應用公司 Hong Kong Inequation Limited 簽署了相關投資協議。通過本次投資,恰好彌補了超訊人工智能在短視頻方面的短板,更豐富完善了超訊通信 AI 產品線及服務生態,有效提升了公司競爭力。博納影業博納影業 由博納影業 AIGMS 制作中心,聯合抖音、即夢 AI 生成
168、式人工智能創作平臺,出品并制作的 AI 生成式連續性敘事科幻短劇三星堆:未來啟示錄第一季,揭開一段跨越時空的古文明探險旅程,開啟了影視產業和人工智能技術深度融合的全新篇章,探索從AIGC 生成式短劇集到“AI+實拍長劇集”,到“AI+工業化電影”的三步走模式,形成了影視 IP 開發的“N+2”模式。萬達電影萬達電影 227.7 912.2 1342.1 1669.2 1939.4 17.0 13.6 11.7 芒果超媒芒果超媒 355.4 3555.7 2037.7 2270.7 2520.7 17.4 15.7 14.1 資料來源:iFind,信達證券研發中心(來源于iFind一致預期,Adobe來源于Bloomberg一致預期,取用經調整后凈利潤指標)