《2024大模型Sora解析及Sora加持下全球文生圖&視頻投資機會分析報告(19頁).pdf》由會員分享,可在線閱讀,更多相關《2024大模型Sora解析及Sora加持下全球文生圖&視頻投資機會分析報告(19頁).pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、2023 年深度行業分析研究報告 內容目錄內容目錄 1OpenAI 視頻大模型 Sora:不止于視頻,劍指世界模型,初步理解物理規律.4 1.1 Sora 問世:OpenAI 發布視頻生成大模型,劍指物理世界通用模擬工具.4 1.2 技術路徑:基于 Patches 視覺特征標記的 Diffusion Transformer 模型.4 1.3 算法實現:Patches 實現更靈活的采樣+更優化的構圖.5 1.4 功能解讀:文生視頻+視頻編輯,確?!拔锢硎澜绯WR”始終在場的通用模擬工具.7 2.文生圖/視頻海外標桿:AI 應用端焦點,技術及產品迭代迅速.8 2.1 文生圖/視頻為當下 AI 應用焦
2、點:相關產品流量排序名列前茅.8 2.2 文生圖-T2I(Text to Image):Diffusion 模型奠定文生圖商業化基石,新老玩家廣泛入局.9 2.2.1 Adobe:老牌創意軟件巨頭向 AIG 出征,發布下一代 Firefly 支持多種文生圖功能.10 2.2.2 Midjourney:文生圖模型新銳,提升創意設計工作效率,廣泛實現商業化落地.11 2.3 文生視頻-T2V(Text to Video):創意產業工作流變革前夜,MGC 時代大幕下的先行者.11 2.3.1 Pika:AI 初創公司發布 1.0 工具,支持一鍵生成 3 秒共計 72 幀視頻.13 2.3.2 Run
3、way:擁有最早商業化的 T2V 模型之一-Runway Gen-2.14 3.文生圖/視頻國內映射:萬興、美圖頭部標桿,相繼發布視覺大模型,訂閱收入占比勢能向上.14 3.1 萬興科技:發布“天幕”大模型整合 T2V/I 能力,AI 賦能訂閱及續約率雙增.14 3.2 美圖公司:自研視覺大模型 MiracleVision 4.0,訂閱業務收入占比逐年增長.18 QV0X1XFVTUEYTV7NdN8OnPqQtRsOkPnNmOiNqRwPbRnMrQwMsQoOuOtPrM 圖表目錄圖表目錄 圖表 1:OpenAI 發布文生視頻大模型 Sora.4 圖表 2:Sora 技術路徑:基于 Pa
4、tches 視覺特征標記的 Diffusion Transformer 模型.5 圖表 3:Why Patches?更靈活的采樣+更優化的構圖.6 圖表 4:基于 DALL E 3 DCS 的描述性標題重述與基于 GPT 的標題擴寫.7 圖表 5:Sora 功能一覽:文生視頻+視頻編輯,確?!拔锢硎澜绯WR”始終在場.8 圖表 6:Midjourney 高居 AI 產品流量榜首.9 圖表 7:AI 圖片生成約占前十 AI 產品流量的 74%.9 圖表 8:T2I 模型近年來加速迭代演進.9 圖表 9:Diffusion 模型的前向階段噪聲化和逆向階段去噪過程.10 圖表 10:Adobe Fir
5、efly 目前能夠支持的部分 AI 功能.10 圖表 11:Midjourney 文生圖創意作品已廣泛商業化落地.11 圖表 12:Latent Video Diffusion 模型基于文字描述與初始圖像編輯視頻.12 圖表 13:以 Sora 為代表的 T2V 大模型有望深刻改變影視產業工作流.13 圖表 14:Pika 1.0 工具主要功能.14 圖表 15:Runway Gen-2 主要功能.14 圖表 16:萬興大模型“天幕”宣傳片中透露七大 AI 功能,涉及視頻、圖片、音頻等多模態領域.15 圖表 17:2023 年以來萬興 T2V/I 產品相繼更新/發布.16 圖表 18:萬興旗下
6、 T2V/I 多款拳頭產品已進行 AI 功能更新,價格/月活/收入數據相對積極.17 圖表 19:AI 賦能萬興訂閱收入占比及訂閱續約率雙雙逐年增長.17 圖表 20:美圖發布 MiracleVision 4.0 賦能多行業生產力工作流,開放 API 支持 T2I/I2I 功能.18 圖表 21:2020 年以來美圖訂閱業務收入占比逐年增長.19 圖表 22:推薦關注創意軟件廠商萬興科技、美圖公司;AI 技術龍頭虹軟科技、科大訊飛.19 1.1 Sora 問世問世:OpenAI 發布發布視頻生成大模型視頻生成大模型,劍指,劍指物理物理世界通用模擬世界通用模擬工具工具 2 月 15 日,Open
7、AI 發布視頻生成大模型 Sora。OpenAI 基于 Transformer 架構的 Sora大模型能夠生成長達一分鐘的高清視頻,同時可以指定視頻時間長度、分辨率與寬高比。OpenAI 研究團隊認為,Sora 的問世一定程度上意味著擴展視頻生成模型是構建物理世界通用模擬器的重要潛在途徑。圖表圖表1:OpenAI發布文生視頻大模型發布文生視頻大模型Sora 來源:OpenAI 官網,國金證券研究所 1.2 技術技術路徑路徑:基于基于 Patches 視覺特征標記視覺特征標記的的 Diffusion Transformer 模型模型 Sora 取法 Tokens 文本特征標記,是基于 Patch
8、es 視覺特征標記的 Diffusion Transformer模型。OpenAI 研究團隊從 LLM 中汲取靈感,認為 LLM 范式的成功在一定程度上得益于Tokens 的使用,Tokens 統一了代碼、數學和各種自然語言的文本模式。類似于 LLM 范式下的 Tokens 文本標記,Sora 創新性地使用了 Patches(a part of something marked out from the rest by a particular characteristic;視覺特征標記)。鑒于 Patches 之前已被證明是視覺數據模型的有效表示,OpenAI 研究團隊進一步研發發現 Pat
9、ches 是一種高度可擴展且有效的表示,可以被用于在不同類型的視頻和圖像上訓練生成模型:Step1 將視覺數據轉化為 Patches(Turning visual data into patches):將視頻、圖像等視覺數據壓縮至低維的潛在空間中,并將其分解為帶有時空(Spacetime)特征的 Patches(若為圖像,則對空間特征進行分解),從而將視覺數據轉換為 Patches。Step2 構建視頻壓縮網絡(Video compression network):OpenAI 訓練的視頻壓縮網絡將原始視頻作為輸入,并輸出在時間和空間上都經過壓縮的潛在特征。Sora 在這個壓縮的潛在空間中接受
10、訓練并生成視頻。OpenAI 還訓練了一個相應的解碼器模型,該模型將生成的潛在對象映射回像素空間。Step3 提取視覺數據的時空潛在特征(Spacetime Latent Patches):給定一個壓縮的輸入視頻,提取一系列時空特征 Patches(此方案也適用于圖像,因為圖像只是單幀視頻)?;?Patches 的表示使 Sora 能夠利用不同分辨率、視頻時間和寬高比的視頻和圖像進行訓練。在推理時,可以通過在適當大小的網格中排列隨機初始化的Patches 來控制生成的視頻的大小。Step4 推廣 Transformer 模型到視頻生成領域(Scaling transformers for v
11、ideo generation):Sora 是一個 Diffusion Transformer 模型,給定輸入的嘈雜(noisy)Patches(以及文本提示等條件信息),它被訓練來預測原始的干凈(clean)Patches,繼而生成高清視頻。隨著訓練計算量的提高,樣本質量也明顯提高。圖表圖表2:Sora技術路徑技術路徑:基于基于Patches視覺特征標記的視覺特征標記的Diffusion Transformer模型模型 來源:OpenAI 官網,Auto-Encoding Variational Bayes(Diederik P.Kingma&Max Welling,2022),High-R
12、esolution Image Synthesis with Latent Diffusion Models(Robin Rombach et al,2022),國金證券研究所 1.3 算法實現算法實現:Patches 實現實現更靈活的采樣更靈活的采樣+更優化的構圖更優化的構圖 Why Patches?更靈活的采樣+更優化的構圖。從訓練角度而言,基于 Patches 視覺特征標記對原生視頻進行采樣擴大了可用樣本的規模且省去了標準化樣本的步驟。對于不同分辨率、視頻長度和寬高比的視頻,以往常見的做法是將視頻剪輯、調整大小或修剪到標準格式(例如:分辨率為 256x256的 4 秒視頻),而 Sora
13、 則基于 Patches 視覺特征標記對原生視頻進行采樣(Sora 可對寬屏 1920 x1080p 視頻、垂直 1080 x1920p 視頻以及介于兩者之間的所有視頻進行采樣)。從推理角度而言,基于原生視頻訓練的模型在生成新視頻方面改善了構圖和取景。如 下圖所示,左下角為采樣標準化樣本生成的視頻構圖,敘事主體潛水員被較為生硬地分割開,右下角為采樣原生樣本生成的視頻構圖,敘事主體潛水員較為完整地出現在視頻的中間位置。圖表圖表3:Why Patches?更靈活的采樣更靈活的采樣+更優化的構圖更優化的構圖 來源:OpenAI 官網,國金證券研究所 Sora 基于 DALLE 3 DCS(Descr
14、iptive synthetic captions;描述性合成標題)的描述性標題重述與 GPT 的標題擴寫強化其語言理解能力。訓練文本到視頻生成系統需要大量帶有相應文本標題的視頻,OpenAI 應用 DALLE 3,基于高度描述性的字幕器模型為訓練集中的所有視頻生成文本字幕,同時,OpenAI 還利用 GPT 將簡短的用戶提示轉換為更長的詳細字幕,以最終獲得更優的視頻輸出結果。圖表圖表4:基于基于DALLE 3 DCS的描述性標題重述與基于的描述性標題重述與基于GPT的標題擴寫的標題擴寫 來源:Improving Image Generation with Better Captions(Ja
15、mes Betker et al,2023),ChatGPT,國金證券研究所 1.4 功能解讀功能解讀:文生視頻文生視頻+視頻編輯,確?!拔锢硎澜绯WR”始終在場的通用模擬工具視頻編輯,確?!拔锢硎澜绯WR”始終在場的通用模擬工具 確?!拔锢硎澜绯WR”始終在場的通用模擬工具。OpenAI 目前發布的 Sora 視頻大模型主要具備文生視頻、視頻編輯、文生圖三類功能,其中前二項為最核心的 AI 功能:文生視頻:基礎生成:Prompt 提示詞DALLE 生成圖像Sora 生成視頻。用戶通過輸入一段 Prompt 提示詞經由 DALLE 重述文本繼而生成圖像,Sora 基于初始圖像與重述后的描述性文本生成
16、視頻。目前支持 1 分鐘時長以內、多種分辨率與寬高比的視頻生成,風格涵蓋真實世界與虛擬世界的各類題材。3D 一致性(3D consistency):確保景別切換時運鏡的連貫性。在“一鏡到底”的樣片當中,畫面中場景中的天空、樹木、街邊的裝潢與敘事主題人物的空間關系始終符合物理世界邏輯,Sora 的 3D 一致性能夠確保視頻在景別切換的過程中運鏡的連貫性。遠距離相干性和物體持久性:確保透視關系下被遮擋物始終存在。如下圖,在前景中的人物陸續走過后景中斑點小狗的過程中,在畫面的透視關系與景深連貫穩定的情況下,被遮擋的斑點小狗并未在后續畫面中憑空消失。與世界的互動性:確保真實世界的常識始終在場。如下圖,
17、在繪畫視頻中,筆觸在畫布上留下的痕跡在后續畫面中始終存在;中年男人咬下漢堡之后后續畫面出現咬痕。表明在敘事主體與世界發生交互之后,真實世界的物理規律等“常識”始終在場,并未出現違背常識的畫面。模擬數字世界:數字世界渲染引擎。除了對于真實物理世界連續且穩定的視頻呈現,Sora 同時也可以生成例如 Minecraft 這類虛擬世界視頻場景。真實世界與數字世界的雙重生成能力一定程度上促使 Sora 有望成為一部“通用世界模擬工具”。視頻編輯:1、基于時空雙維度的視頻擴展-時間線與空間關系前后對照;2、更換視頻所處場景及風格-一鍵置景一鍵風格化渲染;3、不同主題場景視頻的無縫連接-鏡頭語言創新與 IP
18、 重組。(Sora 通過逐漸插入技術,可以創建兩個完全不同主題和場景構圖視頻之間的無縫過渡。在下面視頻編輯的示例中,中心的視頻是左右對應的視頻之間的插值。)圖表圖表5:Sora功能一覽:文生視頻功能一覽:文生視頻+視頻編輯視頻編輯,確?!拔锢硎澜绯WR”始終在場確?!拔锢硎澜绯WR”始終在場 來源:OpenAI 官網,國金證券研究所 2.1 文生圖文生圖/視頻視頻為當下為當下 AI 應用焦點應用焦點:相關產品流量排序名列前茅相關產品流量排序名列前茅 T2V/I 產品為時下流量焦點。按邀請頁面流量排序的十大 AI 應用程序,Midjourney 位列第一,Pika 排在第二。在排名前十的應用程序中,
19、有 5 個是圖片生成應用程序,2 個是音頻生成應用程序,2 個是視頻生成應用程序。按流量計算,圖片占了前 10 名流量的 74%,其次是視頻 8%,語音/音樂(音頻)6%。圖表圖表6:Midjourney高居高居AI產品流量榜首產品流量榜首 圖表圖表7:AI圖片生成約占前十圖片生成約占前十AI產品流量的產品流量的74%來源:新智元微信公眾平臺轉引自 Discord,國金證券研究所 來源:新智元微信公眾平臺轉引自 Discord,國金證券研究所 2.2 文生圖文生圖-T2I(Text to Image):):Diffusion 模型模型奠定文生圖商業化基石,新老玩家廣奠定文生圖商業化基石,新老玩
20、家廣泛入局泛入局 T2I 模型迭代加速演進。2016 年以來,T2I 模型算法加速演進,包括 GAN、CLIP、Diffusion在內的多種算法模型相繼涌現,DALL-E、Stable Diffusion 與 Midjourney 等知名產品或平臺相繼問世。2021 到 2022 年,T2I 應用出現了突破性的進展,生成的圖像質量得到了迅速提高。2022年前,文生圖的模型以生成性對抗網絡(GANs)為主,但因為在實踐中存在明顯不足,因而無法廣泛商業化。2022 年開始,Diffusion 模型由于其生成圖像的高逼真度與細節豐富度開始走入主流 T2I 應用賽道且進展迅速:2022 年初,T2I
21、工具 Disco Diffusion(一個可直接運行在谷歌云端電腦 Google Colab 的程序,于 2022 年 2 月引發關注)僅可以生成一些很有氛圍感的草圖;2 個月后,DALL-E 2(OpenAI 于 2022 年 4 月發布的 T2I 模型)相比 DALL-E 分辨率提高了 400%,已經可以刻畫細節,生成準確的五官;如今,T2I模型產品 Stable Diffusion(由慕尼黑大學研究團隊 CompVis 與紐約 Runway 團隊共同研發而成,由出資方 Stability AI 于 2022 年 8 月發布開源版本)和 Midjourney(獨立研究室Midjourney
22、 于 2022 年 7 月發布同名 T2I 產品)創作的圖像更加精致且具有藝術感,并且將作畫速度縮短到 30s。圖表圖表8:T2I模型近年來加速迭代演進模型近年來加速迭代演進 來源:Multimodal Foundation Models:From Specialists to General-Purpose Assistants(Chunyuan Li et al,2023),國金證券研究所 目前 T2I 的核心方法是 Diffusion 模型。OpenAI 于 2020 年發布的基于對抗學習的圖像分類模型 CLIP(Contrastive Language-Image Pre-Traini
23、ng)能夠將文本與圖像快速匹配,幫助 Diffusion 模型變得更為實用。Diffusion 模型通過在前向階段對圖像逐步添加隨機噪聲,直至圖像被破壞變成完全的高斯噪聲,然后再逆向該過程以生成高質量圖像。其獨特之處在于其生成過程的逐步性和漸進性,使得生成的圖像具有高度的逼真度和細節豐富度。Stable Diffusion 與 Midjourney 模型均基于 Diffusion 模型開發而來。Diffusion 模型交互簡單、生成速度快,極大地降低了使用門檻。Image,74%Video,8%Voice/Music,6%Various,1%圖表圖表9:Diffusion模型的前向階段噪聲化和
24、逆向階段去噪過程模型的前向階段噪聲化和逆向階段去噪過程 來源:Diffusion Models:A Comprehensive Survey of Methods and Applications(Ling Yang et al,2023),國金證券研究所 2.2.1 Adobe:老牌創意軟件巨頭向老牌創意軟件巨頭向 AIG 出征出征,發布下一代發布下一代 Firefly 支持多種文生圖功能支持多種文生圖功能 Adobe Firefly 支持多種 T2I 功能。2023 年 10 月,Adobe 在 Adobe MAX 2023 大會上發布了下一代 Firefly 模型集,包含 3 個新的生成
25、式 AI 模型:Firefly Image2 Model(改善圖像渲染質量)、Firefly Vector Model(世界首個生成高質量矢量圖的 AI 模型)和 Firefly Design Model(文生設計模板的 AI 模型)。與第一代 Adobe Firefly 類似,下一代 Firefly模型也將嵌入Adobe的創意工作流中,賦予設計人士更強大的生產力。目前,下一代Firefly模型已嵌入至 Adobe Photoshop,Adobe Illustrator 和 Adobe Express 等產品中。Adobe Firefly 目前支持多種 AI 功能,包括提示詞圖像生成、提示詞圖
26、像生成+環境嵌入、提示詞圖片色彩填充、提示詞字體效果填充、圖片智能擴展等。Adobe Firefly 目前披露的 AI 功能較為細分,一定程度上是軟件原有功能智能化延伸,Adobe 作為老牌創意軟件巨頭具有客群基數規模大、緊貼市場需求、擁有多年沉淀積累的合規的創意數據集等優勢。圖表圖表10:Adobe Firefly目前能夠支持的部分目前能夠支持的部分AI功能功能 來源:Adobe 公司官網,國金證券研究所 userid:93117,docid:154186,date:2024-02-22, 2.2.2 Midjourney:文生圖模型新銳,文生圖模型新銳,提升創意設計工作效率,廣泛實現商業化
27、落地提升創意設計工作效率,廣泛實現商業化落地 Midjourney 是自籌資金的獨立研究室,目前開發了同名文生圖模型及應用,產品搭載在 Discord 中,采用 SaaS 模式收費,用戶通過與 Midjourney Bot 進行對話式交互,提交 Prompt(文本提示詞)以獲取 T2I 生成的圖像。Midjourney 生成的圖片可以顯著地提高創意設計的工作效率。目前 Discord 的用戶中專業設計師占比達 30%-40%,包括 Nike、Adidas、NewBalance 等公司的設計師。Midjourney主要被應用于設計工作早期,幫助設計師激發靈感,快速測試想法,并迭代圖片。Midjo
28、urney 的風格包括很多科幻元素,擅長創造環境圖,同時針對人像做了優化,風格較為細膩,非常適合游戲、電影、音樂和出版等創意行業。圖表圖表11:Midjourney文生圖文生圖創意創意作品已廣泛商業化落地作品已廣泛商業化落地 來源:海外獨角獸微信公眾平臺,國金證券研究所 2.3 文生視頻文生視頻-T2V(Text to Video):):創意創意產業工作流變革前夜,產業工作流變革前夜,MGC 時代大幕下的先時代大幕下的先行者行者 Latent Video Diffusion 模型的問世奠定 T2V 領域的基石。2023 年,Runway 發布 Latent Video Diffusion(潛在
29、視頻擴散)模型,能夠基于初始圖像與文本描述來編輯并生成新的視頻。Latent Video Diffusion 被應用于 Runway Gen-1 產品當中,在 2023 年初一度被業界認為啟動了文生視頻的“iPhone 時刻”。2023 年 3 月,Runway 開放 Gen-2 內測版本,產品功能已支持完全的文生視頻,而不僅僅是對于已有視頻的編輯功能。2023 年 11 月16 日,Meta 基于 Latent Video Diffusion 模型發布 T2V 模型 Emu Video。2023 年 11 月18 日,字節跳動同樣基于 Latent Video Diffusion 模型發布
30、T2V 模型 PixelDance。后續,Stability AI 與 Pika 也相繼發布了旗下 T2V 模型產品。而 OpenAI 近期發布的 Sora 則是一個基于 Diffusion Model(擴散模型)的 Transformer。擴散模型的工作原理是通過連續添加高斯噪聲來破壞訓練數據,然后通過逆轉這個加噪過程來學習恢復數據,Transformer 則是一套編碼器和解碼器的架構,將文本編碼成數字向量,然后通過解碼將數字向量還原出文本。Sora 融合了兩者,通過編碼器-解碼器架構處理含噪點的輸入圖像,并在每一步預測出更清晰的圖像版本,被用于從高維的時空碎片張成的空間中,觀察并提取豐富的
31、時空碎片之間的關聯與演化的動態過程。圖表圖表12:Latent Video Diffusion模型基于文字描述與初始圖像模型基于文字描述與初始圖像編輯編輯視頻視頻 來源:Structure and Content-Guided Video Synthesis with Diffusion Models(P Esser et al,2023),國金證券研究所 我們認為,基于 Latent Video Diffusion 文生視頻大模型的 AI 產品或將深刻變革視頻內容行業,在影視創作、廣告創意、短視頻創作等領域均有廣闊的應用前景。下述段落以影視產業為例詳細剖析 T2V 大模型對于視頻內容產業工作
32、流帶來的深刻變革。AI深入賦能影視產業內容生產環節。影視產業鏈是指以作品版權為核心的貫穿開發創作、拍攝制作、宣傳發行(內容推送)、影院放映(在線播映)以及衍生品開發整個過程的影視生產鏈條。AI 現已逐步滲透影視產業鏈的各個環節,與影視內容創作、分發息息相關。以影視產業內容生產的核心環節開發創作與拍攝制作為例,以往 AI 已經落地了一系列智能化的變革:開發創作環節:智能選角:優酷通過全網輿情提煉出演員的個人標簽,又從其歷史扮演的角色中提煉出角色標簽,建立模型,將演員和角色進行匹配度計算,為長安十二時辰選定由雷佳音扮演張小敬這一角色,并最終收獲市場驗證。劇本生成:ScriptBook 的劇本生成器
33、能通過特定的詞和短語識別出風格和主題,生成指定的故事設定和類型,并依據上下文正確地描繪出劇本結構。迪士尼的Spellcheck 能分析劇本中角色的性別、種族、殘疾等指標的百分比,以識別和糾正劇本的潛在的偏見,生成更中立的內容。票房預測:ScriptBook 能對先前的案例數據進行建模,從角色的行為、對話中識別角色性格特征,對電影分級、目標觀眾構成和最受觀眾歡迎的角色以及票房收入做出預測,輔助項目開發決策。拍攝制作環節:動作捕捉:如復仇者聯盟 3中使用機器學習算法對真人演員面部表情的捕捉和跟蹤,制作出“滅霸”角色更逼真的表情;Weta 公司使用深度學習的方法推算“阿麗塔”角色的運動數據,繪制出更
34、精致的肌膚細節。智能剪輯:特效軟件 Massive 實現了 AI 模擬功能,AI 替身幫助節省了生成 CG角色的時間,也減少對演員崗位的需求;中國新說唱的智能剪輯用 AI 進行自動化的音視頻對位工作,極大地減輕了剪輯師的基礎工作。風格遷移:AI 在后期制作的運用試圖讓視覺效果不斷向高層次豐富,如用選取基準圖片和提取視頻關鍵幀的方式,把圖片的風格遷移至視頻中,實現用戶對風格的定制。以 Sora 為代表的 T2V 大模型有望深刻改變影視產業工作流。此前 AI 賦能影視產業的邏輯主要以 AI 算法進入既有的影視內容生產、分發環節,以降本增效地方式為影視產業節約成本、提高效率為主。伴隨以 Sora 為
35、代表的 T2V 大模型的問世,我們認為,機器生產內容(MGC 模式,Machine-Generated Content)的時代或在不遠的將來成為現實。當影視內容的劇本創作不再需要編劇,當拍攝制作不再需要真人演員、場地置景、專業的拍攝與后期團隊,當以 TikTok 為代表的“推薦你喜歡”模式轉向“生成你喜歡”模式繼而重新定義“生成即渠道”,影視產業,無論是傳統的 PGC 電影、電劇集還是新興的 UGC短視頻、短劇,抑或是飽受期待的 3D 視頻內容,也許都將面臨 T2V 大模型對于影視產品工作流的巨大沖擊與深刻變革。未來,不斷迭代演進的 T2V 大模型有可能以更少交互的 Agent 形態存在,從而
36、更便捷地響應市場海量的視頻內容需求。圖表圖表13:以以Sora為代表的為代表的T2V大模型有望深刻改變影視大模型有望深刻改變影視產業產業工作流工作流 來源:OpenAI 官網,看得見的智能人工智能在影視產業鏈中的應用和反思(張銳和覃劍虹,2022),國金證券研究所 2.3.1 Pika:AI 初創公司初創公司發布發布 1.0 工具工具,支持一鍵生成支持一鍵生成 3 秒共計秒共計 72 幀視頻幀視頻 2023 年 12 月,AI 初創公司 Pika 推出視頻生成工具 Pika 1.0,卡位文生視頻(T2V)、圖生視頻(I2V)。Pika 支持 3D 動畫、動漫或電影生成,具備畫布延展、局部修改、
37、視頻時長拓展等編輯功能。目前 Pika 一鍵最多生成長度為 3 秒的共計 72 幀視頻。目前,Pika已獲得三輪合計 5,500 萬美元的融資,公司估值約為 2-3 億美元。目前,Pika 1.0 的主要功能包括:T2V/I2V:輸入幾行文本或上傳圖像,可以通過 AI 創建簡短、高質量的視頻。風格切換:將現有視頻轉換為不同的風格,包括不同的角色和對象,同時保持視頻的結構。局部替換:使用 AI 編輯視頻內容,比如更換衣服、添加另一個角色、更改環境或添加道具。擴展畫布:擴展視頻的畫布或寬高比。將視頻從 TikTok 9:16 格式更改為寬屏 16:9格式,AI 模型將預測超出原始視頻邊界的內容。擴
38、展長度:使用 AI 擴展現有視頻剪輯的長度。圖表圖表14:Pika 1.0工具主要功能工具主要功能 來源:Pika 官網,新智元微信公眾平臺,國金證券研究所 2.3.2 Runway:擁有擁有最早商業化的最早商業化的 T2V 模型模型之一之一-Runway Gen-2 Runway 早期是一家以 AI 研究為中心的公司,在研究的過程中團隊發現了市場機會,并將早期研究的技術成果應用在了視頻后期這個應用場景當中。受到 Google 投資的Runway 在開發 AI 圖像生成器 Stable Diffusion 方面發揮了重要作用。2023 年 6 月,Runway基于Gen1發布Gen-2,是市面
39、上最早商業化的T2V模型之一。同年8月,Runway將 Gen-2 生成視頻的最大長度從 4 秒提升到了18 秒。近日,Gen-2 新增功能“運動筆刷”,最多支持獨立控制多達 5 個選定的區域,可通過筆刷選定區域實現自動靈活的 I2V。圖表圖表15:Runway Gen-2主要功能主要功能 來源:Runway 官網,AI 奇點網微信公眾平臺,量子位微信公眾平臺,國金證券研究所 3.1 萬興科技:萬興科技:發布“天幕”大模型整合發布“天幕”大模型整合 T2V/I 能力,能力,AI 賦能訂閱及續約率雙增賦能訂閱及續約率雙增 萬興“天幕”大模型支持視頻、圖片、音頻等多模態 AI 功能。萬興于 202
40、3 年 9 月世界計算大會上宣布即將發布國內首個專注于以視頻創意應用為核心的百億級參數多媒體大模型“天幕”,“天幕”將依托基礎大模型及高性能全球網絡平臺、計算集群算力平臺、海量數據平臺,由視頻大模型、音頻大模型、圖片大模型、文本大模型組成,涵蓋當前市面上語言、音頻、圖像的大模型能力,包括視覺、音頻、語言多模態 AI 生成及優化,具備 一鍵成片、AI 美術設計、文生音樂、音頻增強、音效分析、多語言對話等核心能力。圖表圖表16:萬興大模型“天幕”宣傳片中透露七大萬興大模型“天幕”宣傳片中透露七大AI功能,涉及視頻、圖片、音頻等多模態領域功能,涉及視頻、圖片、音頻等多模態領域 來源:萬興科技微信公眾
41、平臺,國金證券研究所 2023 年以來萬興 AI 產品相繼更新/發布:2023 年 8 月,萬興對 PDF 進行更新,AI 助手 Lumi 可直接在內喚醒。2023 年 9 月,萬興對億圖腦圖進行更新,將“思維導圖”定義為一種嶄新的文件范式,創新性地提供思維導圖生成 PPT/音頻/視頻等功能;萬興在原有“視頻版”基礎上發布萬興播爆“直播版”,支持數字人直播、直播推流、實時互動、AI 智能腳本、AI 翻譯、智能回復等功能;萬興發布萬興智演,定位為名師講演神器,具備人景融合、文稿編排等功能。2023 年 10 月,萬興對旗下視頻創意核心產品 Filmora 進行大版本更新,實現智能文字快剪、智能人
42、聲分離、AI 遮罩、AI 智能補幀、穩定影片、膚色保護六大功能升級。圖表圖表17:2023年以來萬興年以來萬興T2V/I產品相繼更新產品相繼更新/發布發布 來源:萬興科技微信公眾平臺,萬興科技公司官網,國金證券研究所 萬興于 2022 年底至 2023 全年對旗下 T2V/I 多款拳頭產品進行 AI 功能更新,發布全新AI-Native 產品 Kwicut/萬興播爆/萬興智演等,且至少已有 3 款產品明確接入 OpenAI GPT系列模型。加入 AI 功能之后,多款產品月活/付費率/收入數據有所增長。萬興的價格策略調整幅度較小,后續或考慮 AI Tokens 增值模式。圖表圖表18:萬興旗下萬
43、興旗下T2V/I多款拳頭產品已進行多款拳頭產品已進行AI功能更新,價格功能更新,價格/月活月活/收入數據相對積極收入數據相對積極 產品類別 產品名稱 歷次版本更新 功能升級 接入模型 價格/月活/收入數據變化 視頻創意視頻創意 萬興喵影/Filmora 2022/12 發布V12,2023/12 發布V13 V12:AI 智能摳像、AI 音頻重組、手繪遮罩、云端備份審閱、海量模板、喵影學社六大功能升級;V13:智能文字快剪、智能人聲分離、AI遮罩、AI 智能補幀、穩定影片、膚色保護六大功能升級。Open AI Dall-E 2 V12:三端打通版本由$49.9 上調至$69.9;V13:未調價
44、,后續考慮 AI Token 增值模式 Kwicut 2023/9 單獨發布(另集成在Filmora)識別文稿內容,文稿與視頻同比編輯,刪除氣口等/萬興播爆/Virbo 2023/3 發布視頻版 2023/9 發布直播版 視頻版:面向跨境電商提供低成本“文生營銷視頻”;直播版:破局直播場景“尋找主播難”“搭建直播間貴”“直播時間短”難題 萬興自有模型 視頻版:2023/9 月活 10w+,收入百萬量級 直播版:2023/9 亮相華為全連接大會,暫無數據 萬興智演/DemoCreator 2023/9 發布 面向教師線上教學錄播制作場景量身打造/繪圖創意繪圖創意 億圖腦圖/EdrawMind 2
45、023/9 發布V10.9 2023/11 發布V11:V10.9:思維導圖生成 PPT/音頻/視頻等功能;V11:業內率先實現腦圖文件桌面端協同編輯,實現多端協同一體化;優化首頁布局;豐富主題樣式 百度“文心一言”V10.9:未調價 V11:未調價 墨刀/Mockitt 2023/4 加入 AI助手 AI 助手對話獲取設計靈感等 GPT 加入 AI 助手:未調價 萬興愛畫 2023/7 新增 AI創作模式 文字繪畫/以圖繪圖/簡筆畫三種 AI 創作模式 萬興自有模型/來源:萬興科技公司官網,萬興科技微信公眾平臺,萬興科技調研紀要,國金證券研究所 AI 賦能萬興訂閱收入占比及訂閱續約率雙雙逐年
46、增長。萬興于 2018 年便開始逐步實現從傳統 License 模式向 SaaS 模式轉型,從跨端(桌面端、移動端)服務模式向多端(桌面端、移動端、云端)整合服務模式升級。2023H1 年公司訂閱收入占比已達 72%,訂閱續約率提升至 65%。圖表圖表19:AI賦能賦能萬興訂閱收入占比及訂閱續約率雙雙逐年增長萬興訂閱收入占比及訂閱續約率雙雙逐年增長 來源:萬興科技公司官網,萬興科技公司財報,國金證券研究所 46%60%64%72%48%60%65%40%45%50%55%60%65%70%75%2020202120222023H1訂閱收入占比訂閱續約率 3.2 美圖公司:美圖公司:自研視覺大模
47、型自研視覺大模型 MiracleVision 4.0,訂閱業務收入占比訂閱業務收入占比逐年增長逐年增長 自研視覺大模型,MiracleVision 4.0 煥新升級。2023 年 6 月,美圖正式發布自研 AI 視覺大模型 MiracleVision(奇想智能),全面應用于美圖旗下影像與設計產品,為美圖旗下 AI圖片、AI 視頻、AI 設計、AI 數字人等提供服務。2023 年 12 月 5 日,美圖創造力大會上,MiracleVision 升級至 4.0,具備文生視頻、圖生視頻、視頻生視頻等多模態能力。美圖收購站酷強化創意軟件業內協同效應。2023 年 2 月,美圖宣布以總價 3,964.0
48、5 萬美元(約 2.85 億元)收購站酷,交易結構中,1,778.4 萬美元將以配發及發行 5,299.2 萬股代價股份支付,余額 2,185.6 萬美元將以現金支付。站酷成立于 2006 年,聚集了來自全球 300 多個城市的設計師、攝影師、插畫師等視覺創意從業者,擁有近 1,700 萬注冊用戶。美圖 CEO 吳欣鴻表示,站酷的加入將進一步提升美圖影像與設計產品業務,為美圖自研的 AI 視覺大模型 MiracleVision(奇想智能)生態帶來優質協同效應。圖表圖表20:美圖發布美圖發布MiracleVision 4.0賦能多行業生產力工作流,開放賦能多行業生產力工作流,開放API支持支持T
49、2I/I2I功能功能 來源:Miracle Vision 官網,國金證券研究所 2020年以來美圖訂閱業務收入占比逐年增長。2022年,美圖VIP訂閱業務收入占比最高,占比 37.5%,實現收入 7.8 億元,同比增長 57.4%;SaaS 及相關服務收入增長強勁,占比 22.2%,系公司收購一家專注于向化妝品門店提供 ERP 及供應鏈管理 SaaS 方案的企業;在線廣告及達人內容營銷解決方案(IMS)收入受疫情沖擊影響較大,收入占比呈下降趨勢。2020 年以來,美圖訂閱業務收入占比呈現逐年增長態勢。圖表圖表21:2020年以來年以來美圖美圖訂閱業務收入占比訂閱業務收入占比逐年增長逐年增長 來
50、源:Wind,國金證券研究所 文生圖/文生視頻大模型或將深刻變革內容生產工作流。推薦關注數字創意軟件廠商萬興科技、美圖公司;AI 技術龍頭虹軟科技、科大訊飛。圖表圖表22:推薦關注創意軟件廠商萬興科技、美圖公司;推薦關注創意軟件廠商萬興科技、美圖公司;AI技術龍頭虹軟科技、技術龍頭虹軟科技、科大訊飛科大訊飛 公司名稱 股票代碼 推薦理由 萬興科技 300624.SZ 萬興科技系國內 AIGC 工具軟件領航者。公司主要面向 C 端及 B 端客戶提供涉及視頻創意、繪圖創意、文檔創意、數據管理等 PC 及移動端軟件產品。預測公司 23、24、25 年歸母凈利分別為 0.88、1.40、2.29億元,
51、對應 121X、76X、47X PE。美圖公司 1357.HK 美圖公司是一家以“美”為內核、以人工智能為驅動的科技公司。公司致力于 C 端用戶的拍攝、修圖、修視頻及社交分享,AI 時代,公司依托 C 端多年圖片處理經驗借 AI 賦能拓展 B 端生產力工具市場。Wind一致預測 23、24、25 攤薄 EPS 分別為 0.08、0.11、0.18元,對應 29X、21X、13X PE。虹軟科技 688088.SH 虹軟科技系計算機視覺行業領先算法服務商。公司為各領域提供一站式視覺解決方案,為全球各類知名的設備制造商提供個性化具有市場競爭力優勢的行業解決方案與產品。預測公司 23、24、25 年
52、攤薄 EPS分別為 0.27、0.39、0.46 元,對應 101X、69X、59X PE??拼笥嶏w 002230.SZ 科大訊飛是人工智能和智能語音龍頭企業。公司從事智能語音、自然語言理解、計算機視覺等核心技術研究,積極推動人工智能產品和行業應用落地,以訊飛開放平臺為核心,積極拓展智慧教育、智慧醫療、智慧城市、智慧司法等行業賽道。預測公司 23、24、25 年營業收入分別為201.0、230.8、271.0 億元,對應 EPS 分別為 0.34、0.46、0.62 元。采用市銷率法對公司進行估值,給予公司 2023 年8.3 倍 P/S 估值,目標價 71.73 元/股。來源:Wind,國金
53、證券研究所 注:萬興科技、虹軟科技與科大訊飛的盈利預測及估值來自團隊以往發布的報告,美圖公司的盈利預測及估值來自 Wind 一致預期(更新至 2024 年 2 月 17 日收盤價)。76.9%57.0%46.0%28.6%4.7%3.8%5.7%4.6%29.8%37.5%2.3%22.2%16.2%7.1%8.8%17.3%9.7%21.9%16.7%33.9%83.3%66.1%0%10%20%30%40%50%60%70%80%90%100%201720182019202020212022在線廣告互聯網增值服務VIP訂閱業務SaaS及相關業務IMS及其它高級訂閱及應用內購買其他互聯網業務智能硬件