1、浙商證券8證券研究報告一行業深度一互聯網互聯網電商報告日期:2022年11月18日AIGC之AI繪畫:技術與應用雙突破,生產力變革在即投資要點行業評級:看好(維持)AI繪畫是AIGC重要的應用分支,近兩年包含擴散模型在內的關鍵技術取得突分析師:謝晨破,技術可用性顯著提高,技術轉化為生產力的契機產生,隨著Stablc執業證書號:S1230521070004Diffusion等應用破圖,用戶接受度和參與度持續提高,適用行業不斷拓展,未來B端、AI繪畫+3D的商業化潛力值得期待。研究助理:姚逸云口發展進入快車道,迎來轉變為生產力的拐點2022年被稱為AIGC元年。8月,憑借AI繪畫作品太空歌劇院,參
2、賽者沒有相關報告繪畫基礎卻獲得美國科羅拉多州新興數字藝術家競賽一等獎,引發熱議。Stable1外部環境致總體消費表現平Diffusion、Midjoumey等AI繪畫應用推動技術進入民用領域,幾月內產出效果緩,直播電商仍有超額增長便有直觀改善,被設計師、游戲工作室等廣泛用于輔助生產,生產力變革來臨。雙11點評2022.11.13關鍵技術取得突破,圖像生成效果效率均顯著提升2直播電商高歌猛進,頭部雙AI繪畫是基于深度學習技術的。生成式對抗網絡GAN配合可對比語言-圖像預星持續閃耀直播電商專題報訓練算法CLIP,解決了跨模態問題,支持文本生成圖像;而AI繪畫的實操可分告2022.10.31為四個環
3、節:加噪點、去噪點、復原圖片和作畫,隨著圖像拖碼建模MIM、特3瑞辛生酪拿鐵首周659萬杯征處理器Transformer、擴散模型DifusionModel和神經輻射場NeRF出現,在再創紀錄,爆品策略再次驗證一上述四個環節中發揮作用,AI“畫技”顯著提升。未來,我們預計深度學習領一行業點評報告2022.10.27域將有兩大主要前進趨勢:大模型和人工通用智能。商業化前景廣闊,B端和三維化或為突破口AI繪畫產品不斷豐富,體驗持續提升,已具備較好的用戶基礎。但AI繪畫產品目前少有營收或實現盈利,目前相關產品變現方式較為單一。對于普通C端用戶,缺乏性價比加高的商業應用場景,付費意愿不強。已有的賦能收
4、費項目集中在付費提速或者增加清晰度方面,變相彌補現有使用局限。我們認為:B端變現路徑更為多元、成熟,如廣告和營銷行業均有可想見的應用情景能挖據出較為可行的商業模型,付費的可能性和水平相對更高:此外,人們對于未來元宇宙的期待是三維化、AI化及開放式的,AIGC+3D是必由之路。AIGC+3D是豐富游戲、影視、VR等數字內容,降低其制作成本的有力工具,目前已有部分2D產品縣備3D遷移能力。產業鏈初具規模,上下游現藍海產業鏈層面,AI繪畫涉及到硬件、NLP、算法算力、應用、數據提供與處理等多環節,當前產業布局于算法和應用開發環節較為集中和領先,而在產業鏈上下游還有諸多可開發的藍海領域。具體到投資標的
5、:首先是擁有相關應用產品和場景的公司。圖文類推薦關注視覺中國(素材庫+數字藏品)、中文在線(AI繪畫+AI文字+小說平臺)、萬興科技(“萬興AI繪畫”軟件)、三人行(AI平面設計+營銷場景);AIGC+3D作為動態數字內容輔助創作工具,或可顯著降低游戲、影視、VR/AR行業制作成本,利好相關廠商,推薦關注騰訊控股、網易、完美世界;其他AIGC模態推薦關注昆侖萬維(StarX音樂平臺+AI作曲)、藍色光標(虛擬人+營銷場景);123#page#浙商證券行業深度AIGC和AI繪畫依賴自然語言處理、計算機視覺和人工智能技術,我們推薦關注百度集團(文心大模型+文心一格)、拓爾思(語義智能技術)、商湯(
6、人工智能+計算機視覺)、科大訊飛(語音識別+人工智能龍頭)等??陲L險提示1)AI繪畫相關技術發展不及預期風險;2)商業化拓展進度和效果低于預期風險;3)AI繪畫涉及的作品侵權、名人肖像侵權等風險。之后的就黃條款部分#page#浙商證券行業深度正文目錄1發展進入快車道,迎來轉變為生產力的拐點。1.1AI繪畫是AIGC重要的應用分支1.2今年起AIGC發展接下加進鍵.1.3技術轉化為生產力的契機產生.2關鍵技術取得突破,圖像生成效果效率均顯著提升.2.1GAN+CLIP解決玲模態問題.2.1.1生成式對抗網絡GAN圖像到圖像的生成.82.1.2可對比語言-圖像預訓練算法CLIP文字到圖像生成102
7、.2深度學習助力AI畫技進步.2.2.1圖像搶碼建模MIM高效簡潔的預訓練方法.102.2.2特征處理器Transformer-優化的自然語言處理模型.112.2.3擴散模型DiffusionModel新一代圖像生成主流模型.142.2.4神經輻射場NeRF一順應3D內容消費趨勢.2.3大模型和人工通用智能指引發展方向2.3.1大模型催生基石模型公司起.162.3.2人工通用智能不僅僅是想象.163商業化前景廣闊,B端和三維化或為突破口.16163.1應用迅速豐富,用戶接受度較高3.2變現仍處于嘗試階段,B端或為切入點3.3三維化打開游戲、影視、VR等應用空間.193.4產業鏈初見規模,部分空
8、缺現藍海.214基建待完善,發展中風險與希望并存.225建議關注.236風險提示.3/2之后的就黃條款部分#page#浙商證券行業深度圖表目錄圖1:內容生產階段圖2:AIGC按模態分類.圖3:AI畫作大空歌劇院.6圖4:AIGC歷史沿革.7圖5:“AI繪畫”百度搜索指數.圖6:百家號的智能圖文轉視頻功能,8圖7:GAN工作方式示意圖.8圖8:GAN根據語義圖像或素描生成現實圖片99圖9:PGGAN工作原理示意圖圖10:StyleGAN表征控制示意圖9圖11:CLIP工作原理圖示.10.11圖13:MAE的非對稱編碼器-解碼器結構.11圖14:MAE的高比例遮蔽.圖15:12VIT工作原理圖示.
9、13圖16:擴散模型工作原理圖示.圖17:Imagen架構圖(純語言模型T5-XXL+Difusion)14圖18:GANverse3D圖例.圖19:人物NeRF模型和場景NeRF模型結合新場景.15圖20:按參數數量和發布日期劃分的深度學習模型.16.17圖21:AI作畫操作流程示意圖.圖22:AI繪畫社區元素法典.18圖23:中國用戶為AI產品或服務付費比例.19中國用戶對AI繪畫的認知評價.19圖24:20圖25:DreamFusion樣例.圖26:StableDifusion樣例.圖27:Gct3d平臺上的石富模型.21圖28:2020-2025年AI數字商業規模測算(億元)21圖29
10、:AIGC產業鏈.2211表1:RNN、CNN和Transformer對比13表2:擴散模型在多領域應用實例表3:AI繪畫應用一覽.皖17表4:AI繪畫應用行業示例,19表5:AI繪畫概念股一覽.#page#浙商證券行業深度1發展進入快車道,迎來轉變為生產力的拐點1.1AI繪畫是AIGC重要的應用分支AIGC既是一種內容分類方式,又是一種內容生產方式,還是用于內容自動化生成的一類技術集合:AIGC全稱為Al-GeneratedContent,指基于生成對抗網絡GAN、大型預訓練模型等人工智能技術,通過已有數據尋找規律,并通過適當的泛化能力生成相關內容的生產方式。作為全新的內容生產方式,AIGC
11、潛力無限,而我們當前處于向AIGC進發的過渡階段,根據al6z,內容生態的發展則可分為四個階段:專家生成內容(Professionally-GeneratedContent,PGC)、用戶生成內容(User-GeneratedContent,UGC)、AI輔助生產內容(Al-assistedGeneratedContent)及AI生成內容(ALGeneratedContent,AIGC)目前我們仍處于一二階段為主,第三階段為輔的境況。圖1:內容生產階段資料未源:al6z、浙商證券研究所按照模態對AIGC進行劃分最為常見。AIGC可分為音頻生成、文本生成、圖像生成、視頻生成及圖像、視頻、文本間的
12、跨模態生成,其中跨模態生成需要重點關注。事實上,人工通用智能(ArificialGeneralInteligence,AGI)概念的出現反映出許多人工智能業界人士認為,在未來,基礎的人工智能模型將是跨模態的,這意味著相同的模型將被用于生成不同體裁的內容,包括但不限于文本、圖像、視頻等等。圖2:AIGC接模態分類資料來源:量于位,浙商證券研究所523#page#page#浙商證券行業深度的人工智能系統通過對公路旅行中的一切所見所聞進行記錄和感知,操寫出世界第一部完全由人工智能創作的小說。2012年,微軟公開展示了一個全自動同聲傳譯系統,基于深層種經網絡(DeepNeuralNetwork,DNN
13、)可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音??焖侔l展時期:眾多關鍵模型就位規?;A已具備。2017年,AI圖像生成3.自動生成唇形視頻、圖像高清化、圖像編輯、圖像風格遷移、wavnet語音合成等技術快速發展。2018年,預訓練語言模型出現,降低了標注需求和成本。2019年,隨著以生成式對抗網絡(GeneraiveAdversarialNetwok,GAN)逐漸成熱,AIGC技術研究迎來關鍵揚點,DeepMind發布了DVD-GAN模型用以生成連續視頻,在草地、廣場等明確場景下表現突出。2020年,自監督學習成為業界主流,模型體量和復雜度不斷提升,其中Ope
14、nAI發布的CPT3極具代表性。2021年,MAE的出現使得視覺可以用NLP自然語言同樣的架構訓練預訓練模型,疊加多模態多任務領域發展,文本圖像對齊的研究爆發。起飛破圖時期:AIGC概念伴隨AI繪畫應用出圖。2022年,技術上,擴散生成模型得到廣泛研究與應用,文本生成圖像模型可準確把握文本信息進行創作。商業化基礎已初步具備,國內外互聯網巨頭和獨角獸紛紛下場。OpenAI更新了DALL-E-2,可創作出相應極高質量的卡通、寫實,抽象等風格的繪畫作品。把AIGC創作最終推向平民化的是Stability.ai推出的StableDifusion,個人電腦即可驅動,且幾個月內產出效果具有直觀的改善。AI
15、繪畫迅速在微博、小紅書等多平臺上,內容創作者、技術研究者、投資人等各圖層里形成了聲勢。AIGC歷史沿單圖4:糧4-5月6-7月1950年2017年2018年2020年2021年2022年8月資料來源:,GoogleScholar,浙商證券研究所圖5:“AI繪畫”百度搜索指數地資料來源:百度指致、浙商證券研究所725#page#page#浙商證券行業深度圖8:GAN根據語義圖像或素描生成現實圖片資料來源:英偉達,加州大學伯克利分校,浙商證券研究所GAN有三個不足;GAN對輸出結果的控制力較弱,客易產生隨機圖像。對此,CGAN通過把無監督的GAN變成半監督或者有監督的模型,為訓練加上目標,而DCG
16、AN通過縮小CNN在監督學習與無監督學習之間的差距使得訓練過程更加穩定和可控。GAN生成的圖像分料率較低,對此,PGGAN逐漸的向生成器和判別器網絡中添2.加層,以此增加生成圖片的空間分斜率,StyleGAN則能夠生成極其通真的圖像數據并且做到了高層特征可控:由于GAN需要用判別器來判斷生產的圖像是否與其他圖像屬于同一類別,這就3.導致生成的圖像是對現有作品的模仿和微調,不能通過文字提示生成新圖像,因此CLIP被引入。圖9:PGGAN工作原理示意圖圖10:StyleGAN表征控制示意圖樓資料來源:GoogleScholar,CSDN,浙商證券研究所資料未源:GoogleScholar,CSDN
17、,浙商證券研究所2.1.2可對比語言-圖像預訓練算法CLIP文字到圖像生成CLIP(ContrastiveLanguagelmagePre-training)是OpenAI在2021年提出的多模態預訓練的算法,建于NLP(NaturalLanguageProcessing,自然語言理解)和CV(ComputerVision,計算機視覺)相結合的基礎上,算法使用已經標注好的“文字-圖像”數一邊對圖像進行模型訓練,不斷調整參數,使得輸出的文字特征集和圖像特征集相匹配。925#page#浙商證券行業深度圖11:CLIP工作原理圖示館知子,浙商證券研究所極智視界,CLIP方法具有結構簡單,訓練速度快,
18、效果好等語多優良特性。CLIP具有非常好的遷移學習能力,預訓練好的模型可以在任意一個視覺分類數據集上取得不錯的效果。而且算法是Zcro-Shoot的,即不需要再去新數據集上做訓練,就能得到不錯的結果?,F被廣泛應用的StyleCLIP融合了StylcGAN和CLIP雙方的特性。之前的StyleGAN的語義控制發現方法會涉及手動檢查、大量帶注釋的數據、或者需要預訓練的分類器,且只能按照預設的語義方向操作圖像,嚴重限制了用戶的創造力和想象力,若需要添加一個未映射的方向,需要大量的手工工作或大量的注釋數據。StyleCLIP支持普通用戶基于文本的直觀語義圖像操作,也不限于預設的操作方向。圖12:Sty
19、leGAN效果示意圖資料來源:GoogleScholar,CSDN,浙商證券研究所2.2深度學習助力AI畫技進步AI繪畫的實際操作大體可以分為四個步驟:加噪點、去噪點、復原圖片和作畫。其中,加噪點即添加高新噪聲或者關鍵詞,通過國定公式來實現,這方面,快速更新送代的MIM方法表現出彩。去噪點即仿生物視覺神經網絡在去噪過程中開展學習(透視、顏色等),目前Transformer正取代CNN卷積神經網絡成為主流方法。而在復原圖片和作畫方面,AI的“畫技”主要由擴散模型DifiusionModel和神經輻射場模型NCRF決定。2.2.1圖像搶碼建模MIM高效簡潔的預訓練方法MIM(MaskedImage
20、Modeling,圖像艷碼建模)是一種自監督表征學習算法,它的主要思路是,對輸入圖像進行分塊和隨機搶碼操作,然后對搶碼區域做一些預測,進而猜測全圖。拖碼信號建模在多個模型中應用發展,例如OpenAI的iGPT模型(通過馬賽克進行信號的遮蔽和轉換)、ViT模型等。10/25后的免責條款部分#page#浙商證券行業深度基于MIMI的模型在不同類型和復雜程度的廣泛視覺任務上實現了非常高的微調精度,使得AI作畫從生成不完整圖像進步到可成完整圖像的跨越。MIM在語義較弱的幾何/運動任務或細粒度分類任務中的表現明顯優于有監督模型;對于有監督模型擅長的任務(語義覆蓋較好的語義理解任務),MIM模型仍然可以取
21、得極具競爭力的遷移性能。目前較受認可的MAE模型產自何愷明對MIM的優化。MIM在預訓練圖像編碼器的時侯,太關注細節損失了高維抽象能力。MAE的非對稱編碼器-解碼器結構,使模型分工明確,編碼器負責抽取高維表示,解碼器則負責細粒度還原;MAE同時對輸入圖像進行高比例遮薇。將以上兩種設計結合,結果用來訓練大模型:訓練速度提升三倍以上,同時保持高準確率,具備很好的泛化能力。MAE廣泛應用于人臉識別等多個領域,例如,FaccMAE作為隱私保護人臉識別范式,同時考慮了人臉隱私和識別性能,可以適配任何人臉數據集,以降低隱私泄露風險圖13:MAE的非對稱編碼器-解碼器結構圖14:MAE的高比例遮藏資料未源:
22、GoogleScholar資料表源:GoogleScholar,CSDN,浙商證券研究所CSDN,浙商證券研究所由北京大學、香港大學研究者在2022年5月提出的CAE模型、微軟亞研院提出的SimMIM是對MAE方法的改進。CAE可以更多地挖據編碼器的潛力;而SimMIM對MAE進行了化簡。它們學到的表征可以區分不同類別的物體,舉例未說,看到一只貓的頭部可以預測出它的身體部分,看到一小片天空可以預測出它的周國大概率也是一片天空。2.2.2特征處理器Transformer-優化的自然語言處理模型Transformer是當前綜合表現最優的特征提取器。模型首創于2017年的Gjoogle論文Atten
23、tionisAlIYouNeed。它的性能優于傳統的RNN和CNN特征提取器表?。篟NN、CNN和Transformer對比特征處理器應用范圍當勢優勢RNN期記憶更多被用于具備分析位置的能力rrent Neural Network不能并行計算來加速NLP處理不定長度的序列循環神經網絡只能識別物體的某一個特征CNN有效地保留位置信息對遠距離的特征插獲能力相Convolutional Neural更多被用于MNetworks對較碼并行計算能力強,效率高解決了短期記憶的問題計算量大,參數量大在分類、檢測、分制任務上早期更多被用成本增加巨大精度超過CNN帶來的進步程度不夠高于NLP,日前與CNN形成互
24、補,學習對Transformer實際項目中,模型轉化,量正向CV領域圖像的全局理解延伸化,SDK集成等落地鏈條不通用且更強的建模能力完善大模型和大數據可擴展性強視覺與語言更好的連接資料未源:GoogleScholar125#page#浙商證券行業深度Transformer為視覺領域帶來了革新性的變化,它讓視覺領域中目標檢測、視頻分類、圖像分類和圖像生成等多個領域實現了長足的進步。2020年10月,谷歌提出了VisionTransformer(VT),它是Transformer用于CV領域的杰出例子,它在大型數據集上表現處于領先地位。2021年1月,OpenAI用的DALLE和CLIP兩個模型都
25、利用TTansformer達到了較好效果,前者可以基于本文直接生成圖像,后者則能完成圖像與文本類別的匹配。圖15:VIT工作原理圖示Input館0808aoaoaoaoaoaoaoa8和保療商院Transformer的研究才剛剛起步,因此仍有很大研究和發展空間。在研究領域,CNN研究已趨向于成熟,考慮到模型成熟度和性價比,CNN在短期內仍不會被淘汰。1.現有的VisualTransformer參數量和計算量過大,內存占用量超過可承受范國,效率方面還需要提升,函需開發高效TransformerforCV2.現有的VisualTransfomer都還是將NLP中Transformer的結構套到視覺
26、任務做了一些初步探索,未來針對CV的特性設計更適配視覺特性的Transformer將會帶來更好的性能提升。3.現有的VisualTransformer一般是一個模型做單個任務,近來有一些模型可以單模型做多任務,比如IPT,我們期待未來出現世界模型,處理全局任務。2.2.3擴散模型DiffiusionModel新一代圖像生成主流模型DifusionModel代指擴散模型,擁有比GAN更優的能力并快速起。相關研究最早年,借助AI繪畫應用,擴散模型在圖像生成領線展現卓越實力。擴散模型的工作原理,是通過連續添加高斯噪聲來破壞訓練數據,然后通過反轉這個噪聲過程,來學習恢復數據。一幅畫當中,衣服的紋樣、樹
27、葉、云彩等帶有很多細節紋理的地方,其實細節越多,越接近一個隨機的噪點。對于這些地方,也許只需要幾次高斯噪點的參入(可理解為高斯模糊),就能破壞原來的紋樣,接近正態分布。訓練后,可以使用擴散模型將隨機采樣的噪聲傳入模型中,通過學習去噪過程來生成數據。都是給定聲xr生成圖片Xo,相比GAN,Diffusion所需數據更少,生成效果更優。1225#page#浙商證券行業深度圖16:擴散模型工作原理圖示po(x-1x)9(x+|x-1)(x=-1(X:)我后電國機資料未源:GoogleScholar,浙商證券研究所擴散模型在計算機視覺、自然語言處理、波形信號處理、多模態學習、分子圖生成、時間序列以及對
28、抗學習等七大應用方向中都有應用表2:擴散模型在多領線應用實例在計算機視覺中可以用擴散模型進行圖像補全修復(RePaint)在多模態任務中可以用護散模型進行文本到圖像的生成(GLIDE)在分子圖生成中用擴散模型進行藥物分子和蛋白質分子的生成(GeoDi)(Cc)資料表源:百家號機器之心PRO,浙商證券研究所在AI繪畫領域,除DiscoDiffusion,最先進的文本生成圖像系統OpenAI的DALLE2和Google的lmagen,都是基于擴散模型來完成的。1323#page#浙商證券行業深度圖17:Imagen架構圖(純語言模型T5-XXL+Diffusion),CSDN,浙商證券研究所擴散模
29、型還在發展中,改進研究在采樣速度提升、最大似然增強和數據泛化增強等領域持續進步。2.2.4神經輻射場NcRF一順應3D內容消費趨勢NeRF(neuralimplicitrepresentation,神經隱式表示)利用深度學習完成了計算機圖形學中的3D滾染任務。這一技術從2019年開始興起,在2020年NeRF獲得ECCVbestpaper之后受到了廣大關注。NerF在很大程度上克服了樣本特征受限的問題。此前,2D到3D生成的領城也包含GAN方面的嘗試,比如英偉達20-21年推出的GANverse3D能夠自定義對象和交換背錄。但由于GAN在對抗訓練中會受限于樣本特征,該模型當時僅適用于汽車、馬匹
30、和烏類。圖18:GANverse3D圖例資料未源:GANverse3D,浙商證券研究所NeRF模型的基本原理是:將場景的體積表示優化為向量融數,該函數由位置和視圖方向組成的連續5D坐標定義,具體而言,是沿相機射線采樣5D坐標來合成圖像,將場景表示參數化為一個完全連接深度網絡(MLP),該網絡將通過5D坐標信息,輸出對應的顏色和體積密度值。NeRF對于虛擬人創建、3D訓練環境構建、增強現實、線上游戲及電影特效等都具有重要意義。自NeRF在ECCV2020提出后,NeRF模型也持續在生成范圍、生成效果、乃至于所需基礎數據上進行改進。例如陸續支持光影變化效果、動態NeRF,類實時生成,全場景NeRF
31、、單張生成模型、3D兒何數據生成。14/25請務必閱讀正文之后的免責條款部分#page#page#浙商證券行業深度2.3大模型和人工通用智能指引發展方向我們觀察到,深度學習領域有兩大前進趨勢:大模型和人工通用智能。2.3.1大模型催生基石模型公司起深度學習領域,模型越大越好。在過去三年里,人工智能模型的規模已經增長了萬倍以上。圖20:按參數數量和發布日期劃分的深度學習模型資料未源:GoogleScholar,浙商證券研究所讓每家公司都進入大模型建設并不現實,我們認為市場將由少數具有先發和成本優勢的供應商主導,OpenAI作為行業領先者,開發了GPT語言模型和DALL-E圖像生成模型,并不斷提升
32、其模型復雜性和規模,OpenAI亦是大模型供應商的有力選手,而其他公司可以付費購買其更底層的API等服務。同時,大模型趨勢也將給云計算公司如Googe、亞馬遜,和GPU廠商如英偉達帶來機會。2.3.2人工通用智能不僅僅是想象AI技術被區分為弱人工智能、通用人工智能、超級人工智能三種模式。弱人工智能也被稱為秩義人工智能,是專攻某一領域的人工智能,例如在國棋上大放異彩的AlphaGo都屬于弱人工智能。通用人工智能(ArtificialGeneralInteligence,AGI)也叫強人工智能,或人類級人工智能,通用人工智能指的是一臺像人類一樣擁有全面智能的計算機,人類能解決的智力問題他都能解決。
33、落到AIGC領城,人工智能模型將是多模態的,這意味著相同的模型將被用于文本、圖像、視頻等等。超級人工智能被定義為“在兒平所有領域,包括科學創造力、一般智慧和社交技能,都比最優秀的人類大腦聰明得多的智力。通用人工智能處理復雜情況的能力無比誘人,但實現難度極高,AIGC或為曙光。受因于技術、資源、應用方向等因素的局限,通用人工智能的發展在短期內較難突破。AIGC的興起,一方面可以給到一個相對特定的、具象范圍的AGI應用空間,降低難度,再舉一反三;另一方面,AIGC提供了AI廣泛施為的機會,無論是數據的大量生產,還是眾多專業力量和資本的投入,都有利于推動技術向前演進。3商業化前景廣闊,B端和三維化或
34、為突破口3.1應用迅速豐富,用戶接受度較高1625#page#浙商證券行業深度AI繪畫產品不斷豐富,體驗持續提升。近兩年,海外流行借助DiscoDiffusion、MidJourney等AI繪畫軟件來進行藝術創作,StableDifiusion各渠道累計日活用戶超過1000萬,面向消費者的DreamStudio則已獲得了超過150萬用戶。在國內,2022年是AI繪畫產品井噴之年,諸如文心一格、TIAMAT等產品均于今年上線,他們接受中文描述語輸入、更能理解中國文化審美和用戶需求,并主動利用小紅書、微博等平臺拓展影響力。表3:AI繪畫應用一覽DALLE2文心,一格Pari名稱Stable Dif
35、usionNovelAMakeASceneDisco DifussionMidjourney2022/82022/42022/72022/82022720227發布時間2021/102022/8籠國初創公司美國初創公司藝術家somnai美國初創公司美國AI公司百度開發團隊GoogleFacebookNoval+Google ColabStabilityAIMidjoumey LabOpenA出圖快出國速度全快操作簡單支持200億畫作通真草圖+文字播效果多元特點推長二次元調參更多上手容易可理解中文參數,細節可報圖述生成輸出細節豐富場景包客度高無設備要求通真無法處理否生成速度較慢精細度上欠塊缺少東
36、方素材需要內測資格定描述可控性較差,出圖效果不夠圖像分辨率低局限上手難度較高定申請門檻穩定物體縮放比到裝感較重圖像分辯率低國像分辨率低出圖速度快圖像分攤率高有GPU使用限制例不穩定資料未源:各項目主頁,浙商證券研究所圖21:AI作畫操作流程示意圖浙商證券研究所AI作畫操作進過多次簡化,已經大大降低了使用門檻,可支持文字成圖、圖像轉化。使用文字修飾圖像等。上圖以StableDiffiusion為例,展示了較為通用的AI作畫流程1)注冊discord賬號后登陸進Midjoumey主頁。2)點擊進入隨意一個newbies新手社區。3)向機器人輸入“/image”命令,在prompt后輸入文字指令,完
37、成后按cnter4)等待一分鐘即可得到AI作畫成品。1725#page#浙商證券行業深度用戶認知層面,已經有相當一部分用戶認可AI繪畫對人類工作的助益,根據6pcn的調研,有50%以上的用戶認為AI繪畫能替代一部分,甚至完全額覆目前的工作方式。隨著更多人接受并參與進來,AI繪畫愛好者甚至已經開始形成自有生態,反哺AI繪畫的發展。他們組建了相關社群交流技術,將作畫過程戲稱為“魔法吟唱”。用戶在社群中分享輸入參數和輸出結果。圖22:AI繪畫社區元素法典元素法典The Code ofQuintess資料來源:元素法典,浙商證券研究所3.2變現仍處于嘗試階段,B端或為切入點AI繪畫產品目前少有營收或實
38、現盈利。根據南方財經,視覺中國官方拔露,公司擁有AIGC技術儲備和素材資源,曾在元視覺藝術網發行過相關作品,相關作品確能產生營收,但占比極低,2022年上半年,元視覺藝術網一共創收約1500萬元,而StableDifiusjion和Midjoumey這兩家公司都還未實現盈利。完其原因,或有以下因素AI繪畫商業化方面仍處于模索階段,變現方式較為單一。用戶多為生成數量或者使用時間付費,常見付費方式為訂閱制或按次付費,以幾大主流AI作畫軟件的商業模式為例:StableDiffusion目前尚未形成明確的盈利模式,目前的收費方式是首次注冊DreamStudiobeta將獲得價值2英銹的積分,大約相當于
39、200次單張圖免費生成的額度。試用后,可以按10英鈉的增量購買額外的積分。但StabilityAI的CEO稱其未來商業模式類似紅帽和MongoDB,開源版本免費,通過商業版本盈利Midjourey采用了訂閱制,新用戶可免費生成25張,之后對于個人用戶或公司年收入少于100萬美元的企業員工用戶,有兩個檔位的訂閱套餐,分別是:1)基本計劃每月花費10美元,200分鐘GPU時間(每次生成大約5美分):2)標準計劃每月花費30美元,15小時GPU時間(每次生成大約3美分)。而對于大公司客戶,單人一年收費約為600美元,生成的作品可以商用。對于普通C端用戶,應用場景商業化性價比較低,付費意愿有待提升。根
40、據6pen的調研,60%的用戶從未在AI繪畫產品上有過付費行為,剩下40%的用戶中,付費超過100元占比僅10%。我們認為主要原因是商業應用場景缺失:普通大眾使用AI繪畫進行創作后,若自用(如用做頭像)1.或者分享在社交媒體,免費軟件足夠嘗鮮。而若用于約稿等用途,產出的作品受到素材和技術的限制,為滿足客戶需求,仍需大量加工以得到成品,性價比較低。太空歌劇院這副作品在AI生成之后,設計師還進行了上千次的修改,花費了近80個小時才完成。雖有人在抖音上做壁紙號,在閑魚上賣描述語,或將作品賣給包裝廠,但這些還未達到產業的高度,傳導鏈條也較長。18/25#page#浙商證券行業深度當前AI繪畫平臺大多為
41、輕量級的工具應用,能夠操作的玩法和賦能服務都比較有限。已有的賦能收費項目集中在付費提速或者增加清晰度方面,或類似PromptBase公司創立了一個DALL-E2、GPT-3提示詞在線交易平臺,允許用戶以1.99美元的價格買賣提示詞,此幾種主要在變相彌補現有產品在成像速度、質量和精確性上的局限。圖23:中國用戶為AI產品或服務什責比例圖24:中國用戶對AI繪畫的認知評價浙商證券研究所資料來源:6pen,浙商證券研究所基于上述分析,我們認為,B端變現路徑更為多元、成熟,如若B端能挖掘出較為可行的商業模型,付費的可能性和水平相對更高。B端可能會在以下方向產生收入表4:AI繪畫應用行業示例行業實例應用
42、方式廣告行業借助AI制作宣傳素材時尚芭莎36周年紀念Al海報設計行業AI輔助包裝設計、服裝設計出圖阿里助力屏牛智造推出AI設計平臺營銷定制行業借助AI生成營銷素材百家號自動生成視頻功能漫畫/動沒行業配文自動生成漫畫、插畫、視頻A繪制漠河舞廳MV游戲行業AI輔助角色、道具、場景設計日本游戲開發者使用Midjoumey生成素材開發橫版射擊游戲資料表源:鐵媒體,百家號,時尚芭莎,新智元,騰訊網,浙商證券研究所3.3三維化打開游戲、影視、VR等應用空間三維化是AIGC視覺發展的必然趨勢。從長遠趨勢來看,人們對于未來元宇宙的期待是三維化、AI化及開放式的,AIGC+3D內容是可見途徑。中短期維度上,AI
43、GC+3D是豐富游戲、影視、VR等數字內容,降低其制作成本的有力工具3D內容生產借助AI繪畫產品快速普及。我們看到,AIGC進入3D內容領域,有效降低了參與門檻,讓全民參與到3D內容創作和消費當中,在3D領城升起UGC的浪湖我們認為這將大為豐富3D內容創作的有生力量,正如視頻拍攝和剪輯工具平民化推動視頻內容行業的繁榮,3D內容創作行業也將因此迎來全新發展契機。AI繪畫產品三維化方例,覆蓋多種應用場景的可能性:DreamFusion是Google的大型AI圖像模型Imagen與NeRF的3D功能相結合DreamFusion訓練后的模型可以在任意角度、任意光照條件、任意三維環境中基于給定的文本提示
44、生成模型,整個過程既不需要3D訓練數據,也無需修改圖像擴散模型,完全依賴預訓練擴散模型作為先驗。但使用該項目的GitHub頁面只允許從一系列預設文本提示中進行選擇生成3D模型,暫不不允許用戶輸入自己的文本描述,數字資產本身的分辨率也較低。19/25#page#浙商證券行業深度DreamFusion的在線畫廊展示了一系列glb格式的模型,適合在AR項目中使用,或者作為可以手動細化以用于更高細節工作的基礎網格。圖25:DreamFusion樣例Searchasset.Hovermousetopauserotationofa3dmodesearch茶ai資料來源:GitHub,浙商證券研究所Stab
45、leDifiusion原本是2D美術生成工具,通過和TouchDesigner可視化編程工具結合可創建VR場景,并且用機器學習算法為這些場景生成了文本查詢對象。目前,已經成功地在虛擬現實中創建了成熟的場景,這些場景以60fs的違度實時液染。已有諸多廠商在研究將AI創作的3D場景用于游戲生產,如依賴程序生成的Roguelike游戲,開發者未來或許可利用AI制作的場景直接作為游戲關卡,大量節省游戲制作成本。圖26:StableDifiusion樣例Block Structures資料來源:ommer-lab,浙商證券研究所GET3D是英偉達推出的模型,通過2D圖像訓練后,該模型可生成具有高保真紋理
46、和復雜幾何細節的3D形狀。它生成的是顯式紋理3D網格,也就是說,它創建的形狀是三角形網格的形式,就像紙模型一樣,上面覆蓋著紋理材質。因此GET3D不僅可以生成多種多樣、高質量的模型,還可以將生成模型導入到游戲引李、3D建模器和電影渣染器中,對它們進行編輯,并且將GET3D生成的模型導出到圖形應用程序后可以在模型所在的場景中移動或旋轉時應用通真的照明效果。20/25#page#浙商證券行業深度基于GET3D已建成一個用照片自動生成三維模型的平臺。在實際應用過程中,文物研究人員借助攝影測量的方法實現文物三維數字化,工作人員只需用相機或手機,按照建模拍照的教程采集照片,再登錄網站上傳照片,云服務能夠
47、自動計算生成高精度三維模型?,F產品被用于石屈寺調查,平臺上已有不少石密寺模型。圖27:Get3d平臺上的石富模型資料來源:getBd,浙商證券研究所3.4產業鏈初見規模,部分空缺現藍海中關村大數據產業聯盟發布的中國AI數字商業展望2021-2025報告披露,至2025年,中國AI數字商業核心支柱產業鏈規模將達到1853億元,未來五年復合增長率約57.7%。其中,AI數字商業內容產業規模將達到495億元,AIGC和AI繪畫當屬此類。2000180016001400120010008006004002002020年2021年2022年日2023年E2024年日2025年日Al數字供應鏈A數字商業內
48、容A數字運營A數字服務資料來源:前暗產業研究院,中關村大數據產業聯盟,浙商證券研究所就AIGC和繪畫而言,其產業鏈涉及到硬件、NLP、算法算力、應用、數據提供與處理等多環節,當前產業布局于算法和應用開發環節較為集中和領先,而在產業鏈上下游還有諾多可開發的藍海領城2125#page#浙商證券行業深度圖29:AIGC產業鏈數據分析及標注數據供給方創作者生態游相關算法/模型研究機構相關開源算法聯入/結合能力的業務平臺內容設計通用增路周邊售賣中游數據梳理個性化市場營銷消費品廠商下內容分發平臺第三方分發渠道內容終端生產廠商游AIGC內容安全質量檢測線下場景提供商第三方內容服務機構資料未源:量子位,浙商證
49、券研究所和國外類似,參與主力分為了兩類:1)相關行業內已有一定規模的公司,多為龍頭;2)初創公司。前者代表為百度,8月發布了AI藝術和創意輔助平臺文心一格,它使用了百度自主研發的產業級知識增強大模型一文心大模型。另一AI繪畫大熱產品TIAMAT背后則為初創團隊,其成立于2021年,一年內就積累了可觀的社區用戶和商業客戶,已獲得DCM數百萬美元天使輪融資。參見互聯網發展的歷史,未來規模較大的公司很可能通過自研或者收購融合多種技術,提供更優的體驗,打通不同場景,連接創作者、消費者、供應商等各方。我們認為,產業集中度將不斷提升,AIGC也將集成進入元宇宙的復雜系統。4基建待完善,發展中風險與希望并存
50、我國AIGC行業仍處于起步階段,面臨來自版權、倫理等各方面的因擾因素。一方面,AI繪畫的能力之強引起了行業從業者的擔憂乃至于恐憂。AI通過龐大的數據量,無休止的深度學習飛連進步,短期內就掌握了許多新人畫手要練數年的人體、透視與光影技術,已經有能力咸脅到了底層畫師的生存問題另一方面,批判者認為AI創作沒有任何情緒和靈魂,難以和人類的藝術創作相提并論。且AI作畫仍需學習人類創作的素材,且創作者反復修改文本內容和調整成圖才能得出相對滿意的結果,這意味著AI作畫仍然依賴人類的智慧和勞動,創作的主動性仍掌握在人類手上,即AI作畫實際是個偽命題此外,AI繪畫涉及的作品侵權、名人肖像侵權等都是巨大的行業風險
51、點。日本繪畫領城就曾撤起爭論,不少畫師公開表示禁止AI學習自己的作品。根據6pcn對原創藝術家的問卷調研,超過90%的原創藝術家持相對保留態度,約37%的原創藝術家呼呼向版權付費或有所標注。這也阻礙了AI繪畫創收。AI模型訓練所使用的大量素材,可能包含了未經授權的,有明確版權方的圖片數據,版權歸屬是否應該由模型指定也未有定論。因此使用此類作品并以此盈利很有可能為使用者帶來法律上的糾紛。但AI繪畫也同樣帶來了全新的希望。通過采用最新的AI技術來分析已故漫畫大師手嫁治蟲生前的沒畫作品,AI在2020年執筆畫出了“手域治蟲新作漫畫”我們相信,隨著相關法律法規約束的健全,AIGC行業必能在內容創作領域
52、找到自己合適、合規的發展之路。2225#page#浙商證券行業深度5建議關注表5:AI繪畫概念股一覽市值公司代碼公司簡稱AIGC000681視覺中國109.85億元下游高質量圖像數據集,發售數輪AI生成數字藏品002624完美世界273.34億元已在游戲研發過程中使用AI繪圖萬興科技30062447.59億元AI繪圖軟件“萬興AI繪畫”開啟公測300364中文在線77.55億元AI繪畫和AI文字輔助創作功能(向17K文學平臺作者開放)00700騰訊控股2.76萬億港幣開發“畫說夢想”AI繪畫公益小程序,寫稿機器人“夢幻寫手”網易S099993523.72億港幣開發一站式AI音樂創作平臺“網易天
53、音”301052果麥文化20.47億元果麥AI創作機器人通過采集互聯網文章轉化為自己的內容300792壹網壹創71.74億元AI設計智能化應用,AI營銷場景002354天娛數科72.97億元推出了SaaS平臺可用于元宇宙中的數字身份塑造等需求300058藍色光標142.49億元“創意畫廊”平臺支持用戶生成抽象畫作并用于虛擬人創作605168三人行88.92億元AIGC輔助營銷素材設計和相關應用場景300418昆侖萬維178.43億元成立StarXMusicXLab,目前已經正式銷售AI作曲新國都30013070.60億元AI深度內容生成、視頻處理技術、交互式虛擬人Sw09888百度集團2591
54、.63億港幣文心大模型+文心一格拓爾思30022996.71億元A股語義識別龍頭,開展“大數據看世界杯”的虛擬數字人服務W00020商湯673.36億港幣國內領先的人工智能龍頭,深耕CV領城科大訊飛810億元002230國內語音識別和人工智能龍頭中科金財63.16億元002657數字人內容制作引學、元宇宙場景開發工具2971.06億美元MVRSMetaNLP技術領先,AIGC應用MetaAI谷歌GOOG1.27萬億美元深度學習模型Transformer,AIGC應用應用Imagen微軟MSFT1.80萬億美元NLP技術領先,投資OpenAILL6000浪湖信息343.83億元公司發布了業內首款
55、元宇宙服務器MetaEngine英偉達NVDA3836.84億美元視覺單元GPU市占絕對領先,生成對抗網絡技術領先688008湖起科技779.73億元云計算和人工智能芯片供應商中68008天孚通信108.36億元光模塊及數通廠商光學器件供應商中際旭創光電子領軍企業300308239.57億元300502新易盛光收發器件解決方案供應商139.30億元奧飛數據上游30073866.20億元IDC服務提供商資料來源:Wind,浙商證券研究所23/25#page#浙商證券行業深度6風險提示1)AI繪畫相關技術發展不及預期風險;2)商業化拓展進度和效果低于預期風險;3)AI繪畫涉及的作品侵權、名人肖像侵
56、權等風險24/23之后的就黃條款部分#page#浙商證券行業深度股票投資評級說明以報告日后的6個月內,證券相對于滬深300指數的漲跌福為標準,定義如下:1.買入:相對于滬深300指數表現+20%以上;2.增持:相對于滬深300指數表現+10%+20%;3.中性:相對于滬深300指數表現-10%+10%之間波動;4減持:相對于滬深300指數表現-10%以下。行業的投資評級:以報告日后的6個月內,行業指數相對于滬深300指數的漲跌福為標準,定義如下:1.看好:行業指數相對于滬深300指數表現+10%以上:2.中性:行業指數相對于滬深300指數表現-10%+10%以上;3.看淡:行業指數相對于滬深3
57、00指數表現-10%以下。我們在此提醒您,不同證券研究機構采用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重。建議:投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者不應僅僅依靠投資評級來推斷結論。法律聲明及風險提示本報告由浙商證券股份有限公司(已具備中國證監會批復的證券投資咨詢業務資格,經營許可證編號為:Z39833000)制作。本報告中的信息均來源于我們認為可靠的已公開資料,但浙商證券股份有限公司及其關聯機構(以下統稱“本公司”)對這些信息的真實性、準確性及完整性不作任何保證,也不保證所包含的信息和建議不發生任何變更。
58、本公司沒有將變更的信息和建議向報告所有接收者進行更新的義務。本報告僅供本公司的客戶作參考之用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告僅反映報告作者的出具日的觀點和判斷,在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議,投資者應當對本報告中的信息和意見進行獨立評估,并應同時考量各自的投資目的、財務狀況和特定需求。對依據或者使用本報告所造成的一切后果,本公司及/或其關聯人員均不承擔任何法律責任。本公司的交易人員以及其他專業人士可能會依據不同假設和標準、采用不同的分析方法而口頭或書面發表與本報告意見及建議不一致的市場評論和/或交易觀點。本公司沒有將此意見及建
59、議向報告所有接收者進行更新的義務。本公司的資產管理公司、自營部門以及其他投資業務部門可能獨立做出與本報告中的意見或建議不一致的投資決策本報告版權均歸本公司所有,未經本公司事先書面授權,任何機構或個人不得以任何形式復制、發布、傳播本報告的全部或部分內容。經授權刊載、轉發本報告或者摘要的,應當注明本報告發布人和發布日期,并提示使用本報告的風險。未經授權或未按要求刊載、轉發本報告的,應當承擔相應的法律責任。本公司將保留向其追究法律責任的權利。浙商證券研究所上??偛康刂罚簵罡吣下?29號陸家嘴世紀金融廣場1號樓25層北京地址:北京市東城區朝陽門北大街8號富華大廈E座4層深圳地址:廣東省深圳市福田區廣電金融中心33層上??偛苦]政編碼:200127上??偛侩娫挘海?621)80108518上??偛總髡妫海?621)80106010浙商證券研究所:https:/25/25之后的就黃條款部分#page#