《人工智能行業深度報告:從Sora看多模態大模型發展-240227(43頁).pdf》由會員分享,可在線閱讀,更多相關《人工智能行業深度報告:從Sora看多模態大模型發展-240227(43頁).pdf(43頁珍藏版)》請在三個皮匠報告上搜索。
1、2024年2月人工智能行業深度報告姓名劉雯蜀郵箱證書編號s1230523020002證券研究報告從Sora看多模態大模型發展行業評級:看好添加標題95%摘要21、OpenAI發布視頻生成模型Sora,視頻生成能力實現大幅提升:2024年2月16日,OpenAI發布視頻生成模型Sora,能生成各種持續時間(甚至長達1分鐘)、寬高比和分辨率的視頻和圖片。Sora 模型基于Diffusion Transformer技術,采用視頻壓縮網絡(Video compression network)、潛空間patch(Spacetime latent patches)、直接在原始大小訓練(Training o
2、n data at its native size)以及重新標注技術(Re-captioning technique)技術,可以圖像和視頻作為輸入,實現制作無縫循環視頻、給靜態圖片添加動畫、擴展視頻時間線、視頻到視頻編輯、視頻拼接等功能;2、國內外廠商相繼發力布局多模態大模型領域,2024年文生視頻有望進入商業化探索階段:目前除OpenAI之外,谷歌、字節跳動等廠商均已推出具備文生視頻能力的多模態模型?;趯table Video Diffusion、谷歌W.A.L.T以及其它文生視頻模型的分析,我們認為高質量數據以及底層通用大模型是文生視頻能力的重要決定因素,隨著Transformer架構
3、的引入,以及3D建模領域模型的迭代,2024年文生視頻有望在時間長度、畫面清晰度、內容逼真程度等方面實現顯著迭代,打開商業化應用空間。3、海外已有部分文生視頻商業化案例,未來有望覆蓋全球千億級視頻內容生成市場:Prescient&Strategic Intelligence數據顯示,2025年全球數字視頻內容市場規模有望達到3271.9億美元,20212025年CAGR約為13.7%。目前海外已有Synthesia、Runway等廠商在文生視頻領域形成成熟商業方案,應用于企業產品介紹、操作指南、客戶服務等場景。我們認為以Sora為代表的多模態模型有望顯著降低視頻等數字內容的創作成本,市場空間廣
4、闊。4、建議關注標的:(1)大模型廠商:科大訊飛、云從科技、微軟、谷歌;(2)多模態應用廠商:萬興科技、虹軟科技、焦點科技、Adobe;風險提示1、AI 技術迭代不及預期的風險;2、AI 商業化產品發布不及預期;3、政策不確定性帶來的風險;4、下游市場不確定性帶來的風險;多模態AI綜述01Partone3AI模型:必將從單模態走向多模態,實現復雜場景下的智能決策014單模態多模態跨模態多模態神經搜索Jina AI光譜AI實現模態融合多模態AI數據:將多模態數據融合處理模型:更多融合人類腦神經機制,提升性能功能:實現智能決策、跨模態任務、運動控制、智能預測反饋來源:AWS,IBM Researc
5、h,浙商證券研究所2024年,有望出現多模態領域類ChatGPT的爆款應用015來源:Multimodal Foundation Models:FromSpecialists to General-Purpose Assistants,浙商證券研究所1Task-Specific模型2預訓練模型3Unified Models withEmerging Capabilities4General Purpose Assistants語言文本領域視覺&多模態領域機器翻譯文字填充情緒識別BERTGPTGPT-2GPT-3LLaMA分類檢索風格轉換MoCoCLIPDALLEFlamingoPaLM-ECh
6、atGPTGPT-4子類細分方向代表模型視覺理解(visualUnderstanding)監督學習、基于語言-文本對的訓練、僅有圖像的自監督學習、多種方法的融合、多模態融合、區塊和像素級別的預訓練BiT、ViTCLIP、ALIGNMoCo、DINO、MAESLIP、UniCLUNITER、CoCaGLIP、SAM視覺生成(Visual Generation)文本-圖像生成基礎模型、Spatial Controllable生成、基于文本的編輯模型、文本Prompt、Concept CustomizationStable DiffusionControlNetInstructPix2PixDDPO
7、DreamBooth子類細分方向代表模型聯合視覺模型(Unified Vision Models)From Closed-set to Open-set Models、From Task-Specific to Generic Models、From Static to Promptable ModelsGLIP、Openseg、OpenSeeD、Unified-IO、X-Decoder、SAM、SEEM、SegGPT基于LLM訓練的多模態大模型(Visual Generation)圖像到文字的生成模型、Instruction Tuning in LLM、Instruction Tuning
8、in LMMFlamingo、ChatGPT、VicunaMultimodal GPT-4、LLaVA、MiniGPT-4多模態助手:基于LLM的工具鏈(Multimodal Agents:Chaining Tools with LLM)多模態助理(Multimodal Agent)VISPROG、Visual ChatGPT、MM-REACT特定目的的預訓練模型通用多模態助手演變大模型行業規模持續增長,市場前景廣闊016來源:2023年中美AI大模型應用比較研究報告,第一財經,浙商證券研究所預計2028年全球大模型市場規模將超過1000億美元。根據大模型之家、鈦媒體數據,預計2023年全球大
9、模型市場規模達到210億美元,同比增長94.4%。預計到2028年全球大模型市場規模將達到1095億美元,20222028年復合增長率約為47.12%,根據IDC預測,全球生成式AI計算市場規模將從2022年的8.2億美元增長至2026年的109.9億美元,CAGR約為91.34%。預計至2028年我國大模型市場規模接近1200億人民幣。根據大模型之家、鈦媒體數據,預計2023年中國大模型市場規模達到147億人民幣,同比增長110.0%。預計到2028年中國大模型市場規模將達到1179億人民幣,20222028年復合增長率約為60.11%,市場規??焖俪砷L。多模態大模型帶來AI全新應用場景,多
10、模態內容市場規模有望快速成長。第一財經數據顯示,預計至2025年,中國多模態內容市場規模將達到832.7億美元,2018-2025年復合增長率達65.02%。多模態大模型內容將主要應用于商業定制、醫療、游戲、教育和影視領域。2020-2028年全球大模型市場規模2020-2028年中國大模型市場規模2018-2025年中國多模態內容市場規模多模態AI以融合為核心,基于5大技術環節實現復雜問題解決017淘寶多模態特征融合方案表征(Representation)翻譯(Translation)對齊(Alignment)融合(Fusion)聯合學習(Co-learning)目標實現模態互補剔除模態冗余
11、模態映射模態子成分關聯分析信息整合模態知識填充技術路線聯合表示Example-based無監督方法早期/晚期融合Parrallel learning協同表示Decoder-Encoder監督方法多核學習Zero Shot圖像模型方法圖像模型Hybrid神經網絡方法神經網絡多模態AI的5大核心技術環節基于多模態融合的AI疾病診斷來源:阿里云,AIDD Pro,Multimodal Machine Learning:A Survey and Taxonomy,浙商證券研究所OpenAI 發布Sora模型,將視覺數據轉化為patch018過去的視頻模型(循環網絡、生成對抗網絡、自回歸Transfor
12、mer和擴散模型等):只關注特定類型的視覺數據、較短或者固定尺寸的視頻;Sora:通用的視覺數據模型,能生成各種持續時間(甚至長達1分鐘)、寬高比和分辨率的視頻和圖片。借鑒了LLM的思想。視頻壓縮網絡(Video compression network):減少視覺數據維度。輸入原始視頻,輸出一個在時間和空間上都壓縮了的潛在空間。Sora在這個壓縮后的潛在空間中進行訓練。(同時訓練了一個解碼器將生成的潛在表征轉回原像素空間)潛空間patch(Spacetime latent patches):類比Transformer tokens,推理時通過在合適大小的網格中隨機初始化patch控制生成視頻的
13、大小。來源:OpenAI官網,浙商證券研究所LLM(大語言模型)tokensSorapatches多種形態的文本代碼、數學公式等視覺數據首先將視頻壓縮到低維空間中,再分解為時空patch9Sora模型核心要點梳理來源:硅基智能官方微信號,浙商證券研究所Sora技術路線0210Sora2024.2Diffusion Transformer2023.2Stable Diffusion2022.4CLIP2021.2(OpenAI)ViT2020.10(Google)DDPM(Diffusion改進模型 2020.6)GAN2014.6基礎模型基礎模型文字圖像聯合編碼模型圖像生成模型基于Transf
14、ormer的圖象編碼模型起源于本領域開山之作來源:OpenAI,ArXiv,浙商證券研究所Sora模型技術分析02Partone112.1 Sora模型底座:Diffusion Transformer0212Sora 是 Diffusion TransformerSora是一個Diffusion(擴散)模型:輸入有噪聲的patch,預測原來“干凈”的patch。同時,Sora是diffusion transformer。Transformer在語言、視覺和圖像生成等多個領域都表現出良好的拓展能力。如今,視頻領域同樣表現優異。Base compute4x compute32x compute隨訓
15、練計算資源的增加,視頻質量顯著提升來源:OpenAI官網,浙商證券研究所2.1 Sora模型底座:Diffusion Transformer0213Sora是一個Diffusion(擴散)模型:輸入有噪聲的patch,預測原來“干凈”的patch。同時,Sora是diffusion transformer。Transformer在語言、視覺和圖像生成等多個領域都表現出良好的拓展能力。如今,視頻領域同樣表現優異。Sora模型 VS 基礎模型:基于Transformer的Sora與基于U-Net的基礎模型相比,有提升了一個量級的視頻時長(2秒到1分),更強的清晰度(4K到1080P),支持數字世界
16、模擬,在一致性等方面均表現更優。來源:互動創作,Scalable Diffusion Models with Transformers,浙商證券研究所指標Sora模型基礎模型視頻時長60秒24秒世界理解能力強弱數字世界模擬支持不支持物體一致性強弱物體連續性強弱架構TransformerU-Net文本理解能力強一般清晰度1080P最高4K擴展視頻生成前/后后驅動方式數據驅動圖片驅動視頻到視頻剪輯強弱世界互動能力強弱原生縱橫比強弱無縫連接能力強弱3D運動連貫性強弱2.1 Sora模型靈感:谷歌使用Patchify技術壓縮時空變量02142023年12月,斯坦福團隊同谷歌合作,推出了用于生成逼真視頻
17、的擴散模型W.A.L.T。該方法成功地將 Transformer 架構整合到了隱視頻擴散模型中。隱擴散模型(LDM)可在源自自動編碼器的更低維隱空間中運行,從而降低計算需求。第一階段,用一個自動編碼器將視頻和圖像映射到一個統一的低維隱空間,可以在圖像和視頻數據集上聯合訓練單個生成模型,并顯著降低生成高分辨率視頻的計算成本。第二階段,該團隊設計了用于隱視頻擴散模型的新 Transformer 塊,其由自注意力層構成,這些自注意力層在非重疊、窗口限制的空間和時空注意力之間交替。首先,使用局部窗口注意力能顯著降低計算需求。其次,它有助于聯合訓練,其中空間層可以獨立地處理圖像和視頻幀,而時空層則用于建
18、模視頻中的時間關系。Patchify(圖塊化)。按照原始 ViT 的設計,該團隊對每個隱含幀分別進行圖塊化,做法是將其轉換成一個不重疊圖塊的序列。窗口注意力。完全由全局自注意力模塊組成的 Transformer 模型的計算和內存成本很高,尤其是對于視頻任務。為了效率以及聯合處理圖像和視頻,該團隊是以窗口方式計算自注意力,這基于兩種類型的非重疊配置:空間(S)和時空(ST),來源:機器之心,浙商證券研究所該團隊在文本-圖像和文本-視頻對上聯合訓練了 W.A.L.T 的文本到視頻生成能力。他們使用了一個來自公共互聯網和內部資源的數據集,其中包含約 970M 對文本-圖像和約 89M 對文本-視頻。
19、0215過去:往往將視頻或者圖片壓縮到固定大?。ū热?秒鐘、分辨率256*256)。Sora:直接在原始素材規格上訓練。優勢一:靈活的視頻制作尺寸范圍:寬屏的1920X1080到豎屏的1080X1920。Tips:以較低分辨率快速制作視頻原型,再用生成全分辨率內容。來源:OpenAI官網,浙商證券研究所2.1 Sora模型亮點一:直接在原始圖片的大小上訓練優勢二:更優的構圖框架左圖:傳統模型。將訓練視頻裁剪成正方形,僅顯示部分主題視頻。右圖:Sora。在原始視頻的長寬比上訓練,有改進的幀生成。2.1 Sora模型亮點二:為視頻訓練素材生成詳細字幕0216方法:Re-captioning tec
20、hnique字幕自動生成。首先訓練一個能生成詳細描述的標注模型,然后用它為訓練集中的視頻生成文本說明。技術來源:DALL E3中已經使用過,使用GPT將簡短prompt轉化為詳細說明,這些說明會被輸入到視頻模型中。優點:增強文本理解能力,可以提高文本的保真度和視頻的整體質量,使得Sora能夠生產準確遵循用戶提升的高質量視頻。來源:OpenAI官網,浙商證券研究所2.2 Sora應用一:圖片生成視頻0217Sora除了可以支持文字生成視頻,還可以支持圖片或視頻作為輸入,生成視頻。Animating DALLE images 動態化DALL*E圖片一只戴貝雷帽和黑高領衫的柴犬一家五口怪物的插畫,風
21、格簡潔明快。其中包括一只毛茸茸的棕色怪物,一只光滑的黑色怪物長著天線,還有一只綠色的帶斑點怪物和一只小巧的帶波點怪物,在一個歡快的場景玩耍。來源:OpenAI官網,浙商證券研究所生成無縫銜接視頻。從一個片段出發,向時間的倒退方向延伸。盡管開頭各不相同,但最后匯聚于同一結局。2.2 Sora應用二&三:視頻編輯、視頻拼接0218Extending generated videos 擴展視頻時間線改變零拍攝輸入視頻的風格和環境。Video-to-video editing(SDEdit)視頻到視頻編輯來源:OpenAI官網,浙商證券研究所在兩個輸入視頻之間平滑插值,使得主題完全不同的視頻無縫轉換中
22、心視頻將左右兩個視頻進行插值Connecting videos 拼接視頻2.2 Sora應用四:圖片生成,更高像素0219一位女士在秋季的特寫照片,細節豐富,背景模糊一個生機勃勃的珊瑚礁,居住著五顏六色的魚類和海洋生物數字繪畫,一只幼年老虎在蘋果樹下,啞光畫風一個被雪覆蓋的山村,溫馨的小屋和壯麗的北極光,畫面細膩逼真,50mm f/1.2鏡頭拍攝來源:OpenAI官網,浙商證券研究所工具圖片分辨率視頻分辨率DALL E21024*1024DALL E3默認:1024*1024;寬屏:1792*1024;豎屏:1024*1792Sora任意大小,最高2048*2048介于1920*1080、10
23、80*1920之間任意尺寸的視頻,最高1080P2.3 Sora核心能力一&二:3D一致性&物體持久性0220視頻生成模型最大的挑戰:長視頻序列保持時間一致性。源于規模效應,Sora生成的人物和場景在三維空間的移動十分自然。有效模擬短期和長期依賴關系:物體被遮擋或暫離畫面,也可以準確表示它們。長時間序列外觀一致性:能夠在單個視頻中生成同一角色的多個場景,保持外觀一致性。來源:OpenAI官網,浙商證券研究所涌現:3D consistency 3D一致性一對情侶在冬日東京漫步山水風景和徒步涌現:Long-range coherence and object permanence 視頻一致性和物體
24、持久性小狗被擋住后,原樣出現在畫面中2.3 Sora核心能力三&四:世界交互&模擬數字世界0221來源:OpenAI官網,浙商證券研究所涌現:Interacting with the world 與世界交互漢堡留下了咬痕,符合物理規則世界交互:模擬簡單行為方式影響世界狀態,如吃漢堡后留下咬痕。模擬數字世界:如視頻游戲。以“Minecraft”為例,Sora能控制玩家角色,以高度逼真方式模擬游戲世界變化。涌現:Simulating digital worlds 模擬數字世界僅需輸入“Minecraft”Sora就可以展現該能力2.4 Sora模型的局限性0222但是,Sora還存在不少局限:雖然
25、能模擬一些基礎物理互動,比如玻璃的碎裂,但還不夠精確;其他相互作用,比如吃食物,并不總是能產生物體狀態的正確變化;長視頻中存在邏輯不連貫,或者物體會無緣無故出現的現象。來源:OpenAI官網,浙商證券研究所Sora當前展現出的能力突顯了持續擴展視頻模型的潛力。這種做法為發展出能夠精細模擬物理世界和數字世界的復雜性,包括其中的各類物體、動物和人類的“世界模型”,提供了一條充滿希望的途徑。模擬玻璃碎裂還不夠精確視頻生成模型對比03Partone233.1 國內外廠商已相繼推出AI視頻生成算法及工具0324來源:各模型技術文檔,浙商證券研究所算法/工具名稱公司/團隊發布時間底層模型/架構核心功能及亮
26、點SoraOpenAI2024年2月Transformer架構+LDM方法通用的視覺數據模型(general purpose simulators),能生成各種持續時間(甚至長達1分鐘)、寬高比和分辨率的視頻和圖片。Phenaki谷歌2022年10月C-ViViT Encoder+MaskGiT架構根據不同的文字描述組合,生成連貫且多樣化的視頻;即使訓練集的數據只有1.4秒,生成視頻也可以長達幾分鐘。Imagen Video谷歌2022年10月TSR+SSR 級聯模型SSR增加空間分辨率,TSR增加時間分辨率,通過級聯方式,最后能夠生成每秒24幀且分辨率為 1280768 的高清視頻。Make
27、-A-VideoMeta2022年10月T2I模型+超分辨率模型加快了T2V模型的訓練(不需要從頭開始學習視覺和多模態表示),生成的視頻在審美、幻想描述等方面表現優異。CoDeF螞蟻技術研究院2023年8月CoDeF(內容變形場)CoDeF是一項真實時、強細節、高保真的視頻處理技術,用于完成視頻風格遷移任務。Runway Gen 2Runway2023年3月Diffusion ModelGen-2在上增添了文成視頻、圖生視頻、及文字+圖片生成視頻的新功能,實現了從頭直接生成視頻的技術突破。PikaPika2023年11月Diffusion ModelPika 在單幀畫面擬真程度、美學質量以及視
28、頻的動作感上表現出色,社區活躍度位列業內前茅。Stable VideoDiffusion(SVD)Stability.ai2023年11月基于Stable DiffusionV2.1SVD作為一種高分辨率的視頻潛在擴散模型,達到了文本到視頻或圖像到視頻的SOTA 水平。SVD以兩種圖像到視頻模型的形式發布,能夠以每秒3到30幀之間的可定制幀速率生成14和25幀的視頻。EMU Edit&VideoMeta2023年11月Diffusion ModelEmu Edit模型僅用文字指令就可以準確編輯圖像,而通過分解文字轉視頻(Text-to-Video)的生成過程,Emu Video方法可以改善最終
29、生成視頻的品質和多樣性。W.A.L.T谷歌2023年12月Transformer架構+LVDM方法使用因果編碼器在統一的潛在空間內聯合壓縮圖像和視頻,實現跨模態的訓練和生成,生成基準測試上實現了SOTA,無需使用無分類器指導。MagicVideo V2字節跳動2024年1月3D Morphable+Diffusion Model模型可以根據用戶輸入的任意文本描述,生成具有出色保真度和平滑度的高分辨率視頻,支持 4K、8K 超高清畫質,以及多種繪圖風格。03253.2 Stable Video Diffusion:依靠大量高質量數據進行訓練StabilityAI使用了一個包含5.8億個視頻剪輯的
30、巨大數據集,來訓練SVD模型。為了篩選高質量數據,研究人員首先檢測每個視頻中的不同鏡頭和轉場,并且評估每個鏡頭中的運動信息,然后為每個鏡頭自動生成描述文字和每個鏡頭的美學效果等。SVD的數據篩選具體方法如下:級聯切換檢測:采用級聯的切換檢測方法識別視頻中的場景轉場。運動信息提?。夯诔砻芄饬鞴烙嬅總€視頻片段的運動信息。文本描述生成:為每個視頻片段自動生成三種形式的文字描述。質量評估:使用CLIP等方法評估每個片段的視覺質量、文本匹配度等。過濾去噪:根據上述評估指標過濾掉質量較差的視頻片段。經過層層篩選,最后保留了一個約1.5億視頻片段的超高質量數據集,為后續的SVD模型訓練奠定重要基礎。所以S
31、VD模型能生成高質量視頻、并且視頻中運動連貫,能夠高精準還原文本的描述,與其龐大且高質量的訓練集有非常大的關系。來源:Datalearner,機器之心Pro,浙商證券研究所03263.3 字節跳動:MagicVideo-V2視頻生成模型字節跳動提出了MagicVideo-V2視頻生成模型,官方技術文檔指出,該模型將文生圖模型、視頻運動生成器、參考圖像embedding模塊和幀插值模塊集成到端到端視頻生成管道中,MagicVideo-V2能夠生成逼真度與流暢度都較高的高分辨率視頻,并顯著優于Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffus
32、ion model等領先的文生視頻模型。根據字節跳動官方技術文檔,MagicVideo-V2模型的T2I模塊創建一個10241024的圖像,用于封裝所描述的場景。隨后,I2V模塊對該靜止圖像進行動畫處理,生成60060032幀的序列圖片。V2V模塊將這些幀增強到10481048的分辨率,同時細化視頻內容。最后,插值模塊將序列擴展到94幀,得到10481048分辨率的視頻,該視頻具有高的分辨率與視頻幀數。確保了視頻的高質量與動作的運動絲滑性。人類評估下MagicVideo-V2模型生成質量優于其它模型MagicVideo-V2模型生成視頻效果來源:機器感知,字節跳動官方技術文檔MagicVide
33、o-V2:Multi-Stage High-Aesthetic Video Generation,浙商證券研究所03273.4 通過3D建模、微調量化等方法提高文生視頻質量3D Morphable模型:研究人員提出將3D morphable模型集成到多視圖一致擴散方法中,提高了生成可控性和人形虛擬角色的質量。這種方法能準確地將面部表情和身體姿態控制納入生成過程,是首個從單個未見過的人像中創建出完全3D一致、可動畫且逼真的人形虛擬角色的擴散模型。擴散模型的微調量化:研究人員在微調量化的擴散模型領域,通過定制三個模型(PEQA用于微調量化參數,Q-Diffusion用于后訓練量化,DreamBoo
34、th用于個性化),建立了強大的基線模型。分析顯示,基線模型在主體和提示保真度之間存在顯著的權衡,實現了視頻個性化的增強,而且保持了提示保真度和圖像質量,在質量和數量上都顯著優于基線。SonicVisionLM:研究人員通過利用視覺語言模型來生成各種聲音效果。該方法首先使用視覺語言模型識別視頻中的事件,然后根據視頻內容推薦可能的聲音。這種方法將圖像和音頻的匹配任務轉化為更易研究的圖像到文本和文本到音頻的匹配任務。該方法在將視頻轉換為音頻方面超越了當前SOTA方法,提高了視頻與音頻的同步性,并改善了音頻和視頻元素之間的對齊。3D morphable模型提高生成可控性和人形虛擬角色的質量SonicV
35、isionLM框架來源:機器感知,浙商證券研究所3.5 未來:多模態大模型視頻生成有望與3D建模模型相結合0328來源:OFWeek維科網,浙商證券研究所2023年3D-AIGC開源模型梳理除視頻生成之外,OpenAI在2023年5月曾推出Shap-E 3D建模模型。Shap-E 是一種在 3D 隱式函數空間上的潛擴散模型,能夠直接生成隱式函數的參數提取紋理網格模型。訓練 Shap-E 分為兩個階段:首先訓練編碼器,該編碼器將 3D 資產確定性地映射到隱式函數的參數中;其次在編碼器的輸出上訓練條件擴散模型。該類模型的優勢在于生成速度快,且生成效果較為穩定。當在配對的3D 和文本數據大型數據集上
36、進行訓練后,Shap-E 能夠在幾秒鐘內生成復雜而多樣的 3D 資產。我們認為目前Sora模型當中存在的一些物體邏輯性問題在未來有望通過AIGC 3D建模的方法引入得到解決。AIGC在視頻領域的商業化現狀與展望04Partone294.1 Synthesia:0430來源:Synthesia官網,Linkloud,浙商證券研究所Synthesia 創立于 2017 年,關注數字人技術研究和產品落地。公司早期以API方式為用戶提供技術支持,2020 年Synthesia 推出了自己的SaaS產品Synthesia STUDIO,旨在讓用戶可以像制作 PPT 一樣制作視頻。目前這款工具主要面向的企
37、業客戶,滿足產品演示、使用說明、公司理念、內部培訓等場景需求。Synthesia STUDIO 的使用非常簡單,用戶只需要在 Synthesia 提供的模板中選擇適合視頻主題的模板和數字人形象(AI Avatar)、輸入每一個畫面對應的文案后,就可以一鍵生成一段視頻由數字人作為 speaker 的視頻,視頻生成后,用戶還可以在平臺上對視頻進行深度編輯,例如修改畫面中的文字和對應格式、插入產品展示圖片或視頻動畫等、增加視覺效果等。Synthesia 預設了超過 60 種模版,涵蓋培訓、銷售、學術、商業、HR、創意內容等場景,同時,Synthesia 也提供上傳并使用專門logo、匹配品牌色系等個
38、性化設置。Synthesia 目前可以提供超過150 種數字形象(AI Avatar),用戶還可以設定揚眉、點頭等微表情和手勢,數字人形象可以和超過 120 種語言進行匹配。Synthesia 還支持用戶基于創建自己的數字形象(AI Avatar)并采用自己的聲音。Synthesia:可基于文本內容生成專業視頻4.1 Synthesia0431來源:Synthesia官網,Linkloud,浙商證券研究所Synthesia:可基于文本內容生成專業視頻Synthesia 目前分為個人、創作者和企業三個版本的產品。年費方案下個人用戶的收費為22美元/月(合每年264美元),個人方案每月只支持 10
39、 分鐘的視頻制作。創作者用戶的收費為67美元/月(合每年804美元),創作者方案每月支持 30分鐘的視頻制作。針對企業用戶,Synthesia 則根據公司需求設定定制化的收費方案,費用主要與使用者數量相關。Synthesia 對客戶的價值在于大幅降低視頻內容生產成本,使其能夠充分利用視頻提高內容傳播效果。從生產成本角度看,Synthesia 平臺操作簡便,無需專業視頻編輯技能,可以在原視頻上修改、實時更新內容,減少重復工作,從 PPT 到創建微視頻只需要約 34 個核心創造者,一周左右的時間就可以完成,比傳統視頻制作流程節省 50%60%的成本。從傳播效果角度看,Synthesia 生成的視頻
40、相比僅提供文本或 PPT 更吸引受眾,AI 數字人本身也具有吸睛效應。平臺模板豐富多樣,支持多語言版本,可以針對不同受眾群體定制視頻。4.2 Runway:Gen-2可基于文本、圖片等多種輸入生成高質量視頻0432來源:Runway官網,網易新聞,浙商證券研究所Gen-2由Runway在2023年3月發布,可以通過文本、圖片、文本+圖片直接生成視頻,同時支持風格化和渲染添加好萊塢式大片特效,僅需要幾分鐘即可完成所有操作,該平臺于2023年6月正式公測。據Runway介紹,Gen-2采用的是擴散模型,生成的過程從完全由噪聲構成的起始圖像中逐漸消除噪聲,以接近用戶的文本提示。Gen-2的訓練數據包
41、括2.4億張圖片、640萬個視頻剪輯片段以及數億個學習示例。Gen-2在Gen-1的基礎上添加了新功能,包括文生視頻、圖文生成視頻等,此外在分辨率、內容和圖型渲染等方面表現更佳。Gen-2以8種工作模式全面助力多模態:模式1&2&3:文字轉視頻、文字+圖片轉視頻、圖片轉視頻。模式4、風格:將任何圖像或提示的樣式傳輸到視頻的每一幀。模式5、故事板:將模型轉換為完全風格化的動畫渲染。模式6、面具:隔離視頻中的物體,使用文本提示對其進行修改。模式7、渲染:輸入圖像或提示,將無紋理渲染轉換為逼真的輸出。模式8、自定義:通過自定義模型來釋放 Gen-2 的全部功能,以獲得更高保真度的結果。Runway
42、Gen 2:可基于文本內容生成專業視頻4.2 Runway:Gen-2可基于文本、圖片等多種輸入生成高質量視頻0433來源:Runway官網,浙商證券研究所Runway 目前提供基礎版、標準版、專業版、無限版、企業版五個版本的產品。希望探索Runway的個人用戶可免費試用基礎版,可以生成3個視頻項目,Gen-1生成的視頻長達4秒,Gen-2長達16秒,清晰度720P,提供3個視頻編輯器。最主流的訂閱方式是標準版,年費方案下12美金/月(按月訂購15美金/月),可以去除水印,Gen-1生成的視頻長達15秒,Gen-2長達16秒,提供無限次的視頻編輯項目和5個視頻編輯器,清晰度為4K,并且可以訓練
43、自定義AI生成器。年費方案下專業版28美金/月,無限版76美金/月。企業版的訂購需要聯系Runway。從內容生成單價看,Gen-1模型下每秒視頻的生成價格為0.14美元(合$8.4/min),而Gen-2模型的價格為每秒0.05美元(合$3/min),而文本轉語音的價格為每50詞0.01美元。根據用戶調研,Runway的結果優于現有的圖像到圖像和視頻到視頻的轉換方法。比起Stable Diffusion 1.5 有73.5%用戶更喜歡Runway,優于Text2Live 生成器88.2%。Runway:可基于文本內容生成專業視頻Runway生成不同內容價目表4.3 其它AI視頻生成公司商業化進
44、展0434來源:D-ID、Heygen、Elai、Hour one官網,金融界、sownai、網絡探索者,浙商證券研究所目前海外創業公司布局AI+視頻賽道多集中在企業宣傳、營銷場景,定價差異不大。除Synthesia、Runway外,目前海外布局AIGC視頻生成的廠商還有D-ID、Heygen、Elai等,這些廠商基于積累的虛擬人素材庫和視頻模板庫,可根據客戶的需求快速生成視頻內容,應用場景主要集中在產品營銷宣傳、客戶服務、內部培訓等場景,視頻生成價格大多約為每分鐘2美元。公司收費模式核心產品介紹D-ID免費試用:5minLite:$5.9/month(10min)Pro:$29/month(
45、15min)Advanced:$196/month(100min)D-ID公司專注于自然用戶界面(NUI)技術,結合面部合成和深度學習專業知識,提供多種語言的交互式AI體驗,D-ID平臺無縫將圖像、文本、視頻、音頻和語音轉化為的數字人物,提供獨特的沉浸式體驗。公司技術為專門從事客戶體驗、營銷和銷售的企業以及全球內容創作者提供解決方案。Heygen免費試用:1minCreator:$29/month(15min)Business:$89/month(30min)HeyGen 產品采用Diffusion技術,并且公司已經自研視頻 AI 模型,整合OpenAI 和Anthropic 的大模型用于文本
46、處理,以及 Eleven Labs 提供的音頻技術。近期Heygen推出一項新功能即時 AI 頭像生成器,使用手機攝像頭,5 分鐘就可以創建自己的AI 頭像。Elai免費試用:1minCreator:$29/month(15min)Business:$125/month(50min)Elai.io 提供以文本生成 AI 視頻的平臺,包括人物頭像、文本轉視頻、語言和模板等功能,用戶可以在幾分鐘內創建定制化視頻,而無需相機、工作室或綠屏。網站適用于解釋視頻、HR 入職、電子學習、電子商務、企業溝通和房地產等領域。Hour one免費試用:3minCreator:$30/month(10min)Bu
47、siness:$112/month(20min)Hour one是一個AI數字虛擬人視頻生成平臺,可以將任何文本、幻燈片或提示轉換成專業的主持人風格的視頻。Hour one的應用場景包含教育培訓、人力資源、新聞報道、營銷推廣、社交媒體等。海外其它AI文生視頻平臺梳理4.3 商業應用:AIGC在企業視頻生成中具備應用前景0435來源:Vidyard,浙商證券研究所Sora具備1min高質量視頻生成能力,AIGC在企業視頻場景下有望快速打開應用空間。海外企業視頻營銷公司Vidyard調研結果顯示,基于2023年177.8萬條企業視頻,可以發現金融服務和高科技行業平均單企業生成視頻數量位居前兩位,分
48、別達到934條和917條,有五個行業的企業用戶年度生成視頻數量超過500條,AI生成企業視頻需求量非??捎^。從企業視頻應用場景看,相當比例的企業將視頻營銷應用于產品Demo(47%)、名詞解釋(35%)、活動回放(33%)、操作方法介紹(31%)等場景,參考Synthesia、Runway等廠商現有的商業化方案,我們認為Sora以其更長時間和更高質量的視頻生成能力,有望快速地切入這一市場。調研顯示接近60%的企業視頻時長不足2分鐘,AIGC技術已接近滿足要求。Vidyard數據顯示,2023年34%的企業視頻市場在1分鐘以內,25%的視頻時長在1-2分鐘,目前Sora可以生成1min的高質量視
49、頻,2024年隨著技術迭代有望滿足企業營銷視頻市場超過50%的需求。2023年企業平均發布視頻數量-按行業分(單位:條)2023年企業視頻應用場景情況(單位:%)2023年企業視頻時長分布情況4.3 千億級數字視頻生成市場有望被AIGC覆蓋0436來源:PR Newswire,Market.us,浙商證券研究所2025年全球數字視頻內容市場規模有望超3000億美元,未來有望受益視頻營銷場景拓展而實現市場持續增長。根據PR Newswire數據預測,2025年全球數字視頻市場內容規模有望達到3271.9億美元,2021-2025年CAGR超過14%,保持持續增長態勢。全球AIGC 文生視頻市場有
50、望保持快速增長。Market.us數據顯示,2022年AIGC文生視頻市場規模僅有2.57億美元,預計到2032年AI文生視頻內容市場可達到24.80億美元,2022-2032年CAGR約為26.2%。我們認為AI大模型將推動優質視頻生成成本大幅下降,進而刺激下游企業用戶需求的顯著增長,市場規模有望加速發展。全球數字視頻內容市場規模預測全球AI文生視頻市場規模預測(單位:百萬美元)建議關注標的05Partone37A股AI+視頻相關標的梳理38來源:浙商證券研究所公司名稱代碼AI+視頻相關業務/產品科大訊飛002230.SZ國產大模型龍頭,多模態領域技術積累深厚??低?02415.SZ研發視
51、覺多模態大模型大華股份002236.SZ自研大華星漢大模型云從科技-UW688327.SH國內CV領域龍頭廠商之一焦點科技002315.SZAI外貿虛擬人視頻助手虹軟科技688088.SH視覺AI開放平臺萬興科技300624.SZAI視頻領域龍頭,“天幕”大模型國投智能300188.SZAI視頻圖像鑒真工作站當虹科技688039.SHAI智能視頻解決方案網達軟件603189.SH積極推動“大視頻+AI”在垂直領域的布局絲路視覺300556.SZ子公司是視頻渲染技術龍頭商湯-W0020.HK“日日新SenseNova”大模型拓爾思300229.SZ并面向媒體、金融、政務領域、拓天大模型漢王科技0
52、02362.SZ筆智能交互、NLP技術、大數據處理、智能人機交互、垂直領域大模型建議關注標的39來源:Runway官網,浙商證券研究所我們在 2023 年 11 月 15 日發布的大地回春,百花齊放計算機行業 2024 年 度策略中提出,2024 年國內外廠商有望發布更加復雜的多模態大模型,實現文 本、語音、圖像以及音視頻等多模態數據的復雜處理和交互。我們認為 OpenAI發布 Sora 模型,有望開啟多模態大模型的新一輪浪潮。建議關注標的:(1)大模型廠商:科大訊飛、云從科技、微軟、谷歌;;(2)多模態應用廠商:萬興科技、虹軟科技、焦點科技、Adobe;風險提示40來源:浙商證券研究所1、A
53、I 技術迭代不及預期的風險:目前多模態AI大模型仍處于快速迭代和優化階段,若AI技術迭代進度不及預期,可能導致AI商業化產品競爭力不及預期,影響下游客戶購買和使用意愿,進而對相關公司經營情況造成影響;2、AI 商業化產品發布不及預期:目前多模態AI大模型應用仍處于試驗階段,市場上已發布的商業化產品較少,相關廠商仍處于產品研發和投入階段,未來若AI商業化產品發布不及預期,可能導致公司經營壓力增大的風險;3、政策不確定性帶來的風險:目前生成式AI輸出內容在內容質量、版權歸屬等方面尚沒有完善的政策和治理機制,未來若政策性監管加強,可能導致下游用戶使用意愿降低,進而導致相關廠商的商業化進程不及預期;4
54、、下游市場不確定性帶來的風險:目前市場對于多模態AI應用處于認知和嘗鮮階段,未來商業產品競爭力以及對客戶效用的實際提升將顯著影響市場需求,若未來下游客戶對AI商業化產品的需求不及預期,可能導致相關廠商經營遭遇壓力;點擊此處添加標題添加標題點擊此處添加標題點擊此處添加標題點擊此處添加標題點擊此處添加標題點擊此處添加標題添加標題點擊此處添加標題點擊此處添加標題添加標題點擊此處添加標題添加標題95%行業評級與免責聲明41行業的投資評級以報告日后的6個月內,行業指數相對于滬深300指數的漲跌幅為標準,定義如下:1、看好:行業指數相對于滬深300指數表現10%以上;2、中性:行業指數相對于滬深300指數
55、表現10%10%以上;3、看淡:行業指數相對于滬深300指數表現10%以下。我們在此提醒您,不同證券研究機構采用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重。建議:投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者不應僅僅依靠投資評級來推斷結論行業評級與免責聲明42法律聲明及風險提示本報告由浙商證券股份有限公司(已具備中國證監會批復的證券投資咨詢業務資格,經營許可證編號為:Z39833000)制作。本報告中的信息均來源于我們認為可靠的已公開資料,但浙商證券股份有限公司及其關聯機構(以下統稱“本公司”)對這些信息的真實性、
56、準確性及完整性不作任何保證,也不保證所包含的信息和建議不發生任何變更。本公司沒有將變更的信息和建議向報告所有接收者進行更新的義務。本報告僅供本公司的客戶作參考之用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告僅反映報告作者的出具日的觀點和判斷,在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議,投資者應當對本報告中的信息和意見進行獨立評估,并應同時考量各自的投資目的、財務狀況和特定需求。對依據或者使用本報告所造成的一切后果,本公司及/或其關聯人員均不承擔任何法律責任。本公司的交易人員以及其他專業人士可能會依據不同假設和標準、采用不同的分析方法而口頭或書面發表與
57、本報告意見及建議不一致的市場評論和/或交易觀點。本公司沒有將此意見及建議向報告所有接收者進行更新的義務。本公司的資產管理公司、自營部門以及其他投資業務部門可能獨立做出與本報告中的意見或建議不一致的投資決策。本報告版權均歸本公司所有,未經本公司事先書面授權,任何機構或個人不得以任何形式復制、發布、傳播本報告的全部或部分內容。經授權刊載、轉發本報告或者摘要的,應當注明本報告發布人和發布日期,并提示使用本報告的風險。未經授權或未按要求刊載、轉發本報告的,應當承擔相應的法律責任。本公司將保留向其追究法律責任的權利。聯系方式43浙商證券研究所上??偛康刂罚簵罡吣下?29號陸家嘴世紀金融廣場1號樓25層北京地址:北京市東城區朝陽門北大街8號富華大廈E座4層深圳地址:廣東省深圳市福田區廣電金融中心33層郵政編碼:200127 電話:(8621)80108518 傳真:(8621)80106010