《AIIA&ZAI:2020年虛擬數字人發展白皮書(37頁).pdf》由會員分享,可在線閱讀,更多相關《AIIA&ZAI:2020年虛擬數字人發展白皮書(37頁).pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、2020 年虛擬數字人發展 白皮書 中國人工智能產業發展聯盟總體組中國人工智能產業發展聯盟總體組 中關村數智人工智能產業聯盟數字人工作委員會中關村數智人工智能產業聯盟數字人工作委員會 2020 年年 12 月月 前言 在人工智能、虛擬現實等新技術浪潮的帶動下,虛擬數字人制作 過程得到有效簡化、各方面性能獲得飛躍式提升,開始從外觀的數字 化逐漸深入到行為的交互化、思想的智能化。以虛擬主播、虛擬員工 等為代表的數字人成功進入大眾視野, 并以多元的姿態在影視、 游戲、 傳媒、文旅、金融等眾多領域大放異彩。 為加快推動虛擬數字人技術和產業創新發展, 中國人工智能產業 發展聯盟(以下簡稱“A
2、IIA 聯盟”)總體組協同中關村數智人工智能 產業聯盟(以下簡稱“ZAI 聯盟”)數字人工作委員會于 2020 年發起 虛擬數字人推進計劃,致力于開展虛擬數字人技術研究、標準制定、 評估測試、合作交流、成果發布及生態建設工作。本白皮書是 AIIA 聯盟總體組和 ZAI 聯盟數字人工作委員會首次發布。 白皮書回顧了虛 擬數字人發展歷程,重點分析了虛擬數字人關鍵技術和產業發展現 狀,對虛擬數字人的未來發展趨勢進行了展望,剖析了數字人發展中 的制約因素,提出產業發展建議。 II 目錄 前言.I 一、 虛擬數字人概述. 1 (一) 虛擬數字人研究范疇. 1 (二) 虛擬數字人發展歷程. 1
3、 (三) 當前虛擬數字人通用系統框架及運作流程. 4 二、 虛擬數字人關鍵技術趨勢. 7 (一) 虛擬數字人技術架構. 7 (二) 建模:靜態掃描建模仍為主流,包含人行為動作且具有高視覺保真度的動 態光場三維重建初見端倪. 8 (三) 驅動:智能合成、動作捕捉遷移成為數字人目前主流的動作生產方式. 9 (四) 渲染:隨著硬件能力的提升和算法的突破,真實性和實時性均大幅提升 11 三、 虛擬數字人產業應用現狀. 14 (一) 虛擬數字人產業視圖. 14 (二) 虛擬數字人重點領域應用環境及典型應用案例分析. 16 四、 虛擬數字人發展趨勢、制約因素及建議. 23 (一) 虛擬數字人未來發展趨勢.
4、 23 (二) 虛擬數字人發展制約因素. 23 (三) 虛擬數字人產業發展建議. 25 附件:虛擬數字人典型企業介紹. 28 2020 年虛擬數字人發展白皮書 1 一、虛擬數字人概述 (一)(一)虛擬數字人研究范疇虛擬數字人研究范疇 “虛擬數字人”一詞最早源于 1989 年美國國立醫學圖書 館發起的“可視人計劃”(Visible Human Project, YHP)。2001 年, 國內以“中國數字化虛擬人體的科技問題”為主題的香山 科學會議第 174 次學術討論會提出了“數字化虛擬人體”的概 念。這些“虛擬數字人”主要是指人體結構的可視化,以三 維形式顯示人體解剖結構的大小、形
5、狀、位置及器官間的相 互空間關系, 即利用人體信息, 實現人體解剖結構的數字化。 主要應用于醫療領域的人體解剖教學、臨床診療等。 與上述醫療領域的數字化人體不同,本篇中所分析的虛 擬數字人(以下簡稱“數字人”)是指具有數字化外形的虛擬 人物。與具備實體的機器人不同,虛擬數字人依賴顯示設備 存在。虛擬數字人宜具備以下三方面特征:一是擁有人的外 觀,具有特定的相貌、性別和性格等人物特征;二是擁有人 的行為,具有用語言、面部表情和肢體動作表達的能力;三 是擁有人的思想,具有識別外界環境、并能與人交流互動的 能力。 (二)(二)虛擬數字人發展歷程虛擬數字人發展歷程 虛擬數字人的發展與其制作技術的進步密
6、不可分,從最 早的手工繪制到現在的 CG (Computer Graphics, 電腦繪圖) 、 人工智能合成,虛擬數字人大致經歷了萌芽、探索、初級和 成長四個階段,詳見圖 1。 2020 年虛擬數字人發展白皮書 2 圖 1 虛擬數字人發展歷程 20 世紀 80 年代,人們開始嘗試將虛擬人物引入到現實 世界中,虛擬數字人步入萌芽階段。該時期虛擬數字人的制 作技術以手工繪制為主,應用極為有限。1982 年,日本動畫 超時空要塞播出后,制作方將女主角林明美包裝成演唱 動畫插曲的歌手,并制作了音樂專輯,該專輯成功打入當時 日本知名的音樂排行榜 Oricon,林明美也成為了世界上第一 位虛
7、擬歌姬。1984 年,英國人 George Stone 創作出一個名為 Max Headroom 的虛擬人物,MAX 擁有人類的樣貌和表情動 作,身穿西裝,佩戴墨鏡,曾參演了一部電影,拍攝了數支 廣告, 一度成為英國家喻戶曉的虛擬演員。 由于技術的限制, 其虛擬形象是由真人演員通過特效化妝和手繪實現。 21 世紀初,傳統手繪逐漸被 CG、動作捕捉等技術取代, 虛擬數字人步入探索階段。該階段的虛擬數字人開始達到實 用水平,但造價不菲,主要出現在影視娛樂行業,如數字替 身、虛擬偶像等。電影制作中的數字替身一般利用動作捕捉 2020 年虛擬數字人發展白皮書 3 技術,真人演員穿著動作捕捉
8、服裝,臉上點上表情捕捉點, 通過攝像機、動作捕捉設備將真人演員的動作、表情采集處 理,經計算機處理后賦予給虛擬角色。2001 年,指環王 中的角色咕嚕就是由 CG 技術和動作捕捉技術產生,這些技 術后續還在加勒比海盜、猩球崛起等電影制作中使 用。 2007 年, 日本制作了第一個被廣泛認可的虛擬數字人“初 音未來”, 初音未來是二次元風格的少女偶像, 早期的人物形 象 主 要 利 用 CG 技 術 合 成 , 人 物 聲 音 采 用 雅 馬 哈 的 VOCALOID1系列語音合成,呈現形式還相對粗糙。 近五年,得益于深度學習算法的突破,數字人的制作過 程得到有效簡化, 虛擬數字人開始步入正軌,
9、 進入初級階段。 該時期人工智能成為虛擬數字人不可分割的工具,智能驅動 的數字人開始嶄露頭角。2018 年,新華社與搜狗聯合發布的 “AI合成主播”,可在用戶輸入新聞文本后,在屏幕展現虛擬 數字人形象并進行新聞播報,且唇形動作能與播報聲音實時 同步。 2019 年, 浦發銀行和百度共同發布的數字員工“小浦”, 也是利用自然語言處理、語音識別、計算機視覺等人工智能 技術制作的虛擬數字人,可通過移動設備為用戶提供“面對 面”的銀行業務服務。 當前,虛擬數字人正朝著智能化、便捷化、精細化、多 樣化發展,步入成長期。2019 年,美國影視特效公司數字王 1 VOCALOID(日語:)是日本樂器制造商雅
10、馬哈公司開發的電子音樂制作語音合成軟件。在 軟件中輸入音調和歌詞,就可以合成出原為人類聲音的歌聲。 2020 年虛擬數字人發展白皮書 4 國軟件研發部負責人 Doug Roble 在 TED 演講時展示了自己 的虛擬數字人“DigiDoug”,可在照片寫實級逼真程度的前 提下,進行實時的表情動作捕捉及展現。今年,三星旗下的 STAR Labs在CES國際消費電子展上展出了其虛擬數字人項 目 NEON,NEON 是一種由人工智能所驅動的虛擬人物,擁 有近似真人的形象及逼真的表情動作,具備表達情感和溝通 交流的能力。 (三)(三)當前當前虛擬數字人通用系統框架及運作流程虛擬數字人通用系
11、統框架及運作流程 當前虛擬數字人作為新一代人機交互平臺,仍處于發展 期,還未有統一的通用系統框架。本白皮書根據虛擬數字人 的制作技術以及目前市場上提供的數字人服務和產品結構, 總結出虛擬數字人通用系統框架,如圖 2 所示。虛擬數字人 系統一般情況下由人物形象、語音生成、動畫生成、音視頻 合成顯示、交互等 5 個模塊構成。人物形象人物形象根據人物圖形資 源的維度, 可分為 2D 和 3D 兩大類, 從外形上又可分為卡通、 擬人、寫實、超寫實等風格;語音生成模塊語音生成模塊和動畫生成模塊動畫生成模塊 可分別基于文本生成對應的人物語音以及與之相匹配的人 物動畫;音視頻合成顯示模塊音視頻合成顯示模塊將
12、語音和動畫合成視頻,再顯 示給用戶。交互模塊交互模塊使數字人具備交互功能,即通過語音語 義識別等智能技術識別用戶的意圖,并根據用戶當前意圖決 定數字人后續的語音和動作,驅動人物開啟下一輪交互。 2020 年虛擬數字人發展白皮書 5 圖 2 虛擬數字人通用系統框架 交互模塊為擴展項, 根據其有無, 可將數字人分為交互 型數字人和非交互型數字人。 非交互型數字人體統的運作流 程如圖 3 所示。 系統依據目標文本生成對應的人物語音及動 畫,并合成音視頻呈現給用戶。 圖 3 非交互類虛擬數字人系統運作流程 交互型數字人根據驅動方式的不同可分為智能驅動型 和真人驅動型。智能驅動型數字人智能驅
13、動型數字人可通過智能系統自動讀取 并解析識別外界輸入信息,根據解析結果決策數字人后續的 輸出文本,然后驅動人物模型生成相應的語音與動作來使數 字人跟用戶互動。該人物模型是預先通過AI技術訓練得到 2020 年虛擬數字人發展白皮書 6 的,可通過文本驅動生成語音和對應動畫,業內將此模型稱 為TTSA(Text To Speech & Animation)人物模型。真人驅動真人驅動 型數字人型數字人則是通過真人來驅動數字人,主要原理是真人根據 視頻監控系統傳來的用戶視頻,與用戶實時語音,同時通過 動作捕捉采集系統將真人的表情、動作呈現在虛擬數字人形 象上,從而與用戶進行交互。
14、圖 4智能驅動型虛擬數字人運作流程 圖 5真人驅動型虛擬數字人運作流程 2020 年虛擬數字人發展白皮書 7 二、虛擬數字人關鍵技術趨勢 (一)虛擬數字人技術架構 當前,虛擬數字人的制作涉及眾多技術領域,且制作方 式尚未完全定型,通過對現有虛擬數字人制作中涉及的常用 技術進行調研,本白皮書在虛擬數字人通用系統框架的基礎 上提煉出五橫兩縱的技術架構, 如圖 6 所示。 “五橫”是指用 于數字人制作、交互的五大技術模塊,即人物生成、人物表 達、合成顯示、識別感知、分析決策等模塊。 其中,人物 表達包括語音生成和動畫生成。動畫生成則包含驅動(動作 生成)和渲染兩大部分?!皟煽v”是指 2D
15、、3D 數字人,3D 數 字人需要額外使用三維建模技術生成數字形象,信息維度增 加,所需的計算量更大。 圖 6 虛擬數字人技術架構 本白皮書重點關注虛擬數字人制作過程涉及的建模、驅 動、渲染三大關鍵技術。 2020 年虛擬數字人發展白皮書 8 (二)建模建模:靜態掃描建模仍為主流靜態掃描建模仍為主流,包含人行為動作包含人行為動作 且具有高視覺保真度的動態光場三維重建初見端倪且具有高視覺保真度的動態光場三維重建初見端倪 相機陣列掃描重建替代結構光掃描重建成為人物建模 主流方式。早期的靜態建模技術以結構光掃描重建為主。結 構光掃描重建可以實現 0.1 毫米級的掃描重建精度,但其掃 描時
16、間長,一般在 1 秒以上,甚至達到分鐘級,對于人體這 類運動目標在友好度和適應性方面都差強人意,因此被更多 的應用于工業生產、檢測領域。近年來,拍照式相機陣列掃 描重建得到飛速發展,目前可實現毫秒級高速拍照掃描(高 性能的相機陣列精度可達到亞毫米級),滿足數字人掃描重 建需求,成為當前人物建模主流方式。國際上 IR、Ten24 等 公司已經將靜態重建技術完全商業化,服務于好萊塢大型影 視數字人制作,國內凌云光等公司制作的拍照式人體掃描系 統也已經在電影、游戲、虛擬主播項目中成功應用。 相比靜態重建技術,動態光場重建不僅可以重建人物的 幾何模型,還可一次性獲取動態的人物模型數據,并高品質 重現不
17、同視角下觀看人體的光影效果,成為數字人建模重點 發展方向。動態光場重建是目前世界上最新的深度掃描技 術,此技術可忽略材質,直接采集三維世界的光線,然后實 時渲染出真實的動態表演者模型,它主要包含人體動態三維 重建和光場成像兩部分。人體動態三維重建一直是計算機視 覺、計算機圖形學等領域研究的重點,主要采用攝像機陣列 2020 年虛擬數字人發展白皮書 9 采集動態數據,可重建高低頻幾何、紋理、材質、三維運動 信息。光場成像是計算攝像學領域一項新興技術,它不同于 現有僅展示物體表面光照情況的 2D 光線地圖,光場可以存 儲空間中所有光線的方向和角度,從而產出場景中所有表面 的反射和陰影,
18、這為人體三維重建提供了更加豐富的圖像信 息。近年來 Mirosoft、Google、Intel、Facebook 等公司都在 積極展開相關研究,其中 Microsoft 的 108 攝像機 MRstudio 已經在全球各大洲均有建設; Google 的 Relightable 系統將結 構光、動態建模、重光照技術集成到一起,在一套系統中包 含模型重建、動作重建、光照重建的全部功能;國內清華大 學、商湯科技、華為等也展開了相關研究,并取得國際水平 的同步進展。 (三)(三)驅動驅動:智能合成智能合成、動作捕捉遷移成為數字人目前動作捕捉遷移成為數字人目前 主流的動作生產方式主流的動作生產方式 2D
19、、3D 數字人均已實現嘴型動作的智能合成,其他身 體部位的動作目前還只支持錄播。2D、3D 數字人嘴型動作 智能合成的底層邏輯是類似的, 都是建立輸入文本到輸出音 頻與輸出視覺信息的關聯映射, 主要是對已采集到的文本到 語音和嘴型視頻(2D)/嘴型動畫(3D)的數據進行模型訓 練, 得到一個輸入任意文本都可以驅動嘴型的模型, 再通過 模型智能合成。然而,2D 視頻和 3D 嘴型動畫底層的數學 表達不一樣,2D 視頻是像素表達;3D 嘴型動畫是 3D 模型 2020 年虛擬數字人發展白皮書 10 對應的 BlendShape 的向量表達。除了嘴型之外的動作,包 含眨眼、 微點頭、 挑
20、眉等動畫目前都是通過采用一種隨機策 略或某個腳本策略將預錄好的視頻/3D 動作進行循環播放 來實現。 例如 3D 肢體動作目前就是通過在某個位置觸發這 個預錄好的肢體動作數據得到。 觸發策略是通過人手動配置 得到的,未來希望通過智能分析文本,學習人類的表達,實 現自動配置。 截至目前, 國內外科技企業在數字人動作智能 合成方面都有一定進展, 國際上如 Reallusion 公司研究的利 用語音生成面部表情的 Craytalk 技術已在動畫制作中被成 功商用, 國內搜狗、 相芯科技等公司也有部分項目落地應用。 通過將捕捉采集的動作遷移至數字人是目前3D數字人 動作生成的主要方式, 核心技術是動作
21、捕捉。 動作捕捉技術 按照實現方式的不同,可分為光學式、慣性式、電磁式及基 于計算機視覺的動作捕捉等。 現階段, 光學式和慣性式動作 捕捉占據主導地位, 基于計算機視覺的動作捕捉成為聚焦熱 點。光學動作捕捉光學動作捕捉通過對目標上特定光點的監視和跟蹤來 完成運動捕捉的任務。最常用的是基于 Marker(馬克點) 的光學動作捕捉, 即在演員身上粘貼能夠反射紅外光的馬克 點, 通過攝像頭對反光馬克點的追蹤, 來對演員的動作進行 捕捉。這種方式對動作的捕捉精度高,但對環境要求也高, 并且造價高昂。光學式解決方案比較出名的企業有英國的 Vicon,美國的 OptiTrack 和魔神(MotionAna
22、lysis),國內 2020 年虛擬數字人發展白皮書 11 的 Nokov、uSens、青瞳視覺等。慣性動作捕捉慣性動作捕捉主要是基于 慣性測量單元(Inertial Measurement Unit,IMU)來完成對 人體動作的捕捉, 即把集成了加速度計、 陀螺儀和磁力計的 IMU 綁在人體的特定骨骼節點上,通過算法對測量數值進 行計算, 從而完成動作捕捉。 這種慣性動作捕捉方案價格相 對低廉, 但精度較低, 會隨著連續使用時間的增加產生累積 誤差, 發生位置漂移。 慣性式動捕方案的代表性企業有荷蘭 的 Xsens,以及國內的諾亦騰(Noitom)、幻境、國承萬通 等?;谟嬎銠C
23、視覺的動作捕捉基于計算機視覺的動作捕捉主要是通過采集及計算深 度信息來完成對動作的捕捉, 是近些年才興起的技術。 這種 視覺動捕方式因其簡單、易用、低價,已成為目前使用的頻 率較高的動作捕捉方案,代表性產品有 Leap Motion、微軟 Kinect 等。以上動捕方案的性能對比如表 1 所示。 表 1 主流動作捕捉方案性能對比 方案方案精度精度抗遮擋抗遮擋對環境要求對環境要求硬件成本硬件成本算法開發難度算法開發難度應用公司應用公司 光學捕捉光學捕捉高低高高中 Vicon、 OptiTrack 慣性捕捉慣性捕捉低高低中低 Xsens、 Noitom 視覺捕捉視覺捕捉低低低低高 Leap Mot
24、ion、 微 軟 Kinect (四)(四)渲染渲染:隨著硬件能力的提升和算法的突破隨著硬件能力的提升和算法的突破,真實真實 性和實時性均大幅提升性和實時性均大幅提升 PBR (Physically Based Rendering, 基于物理的渲染技術) 2020 年虛擬數字人發展白皮書 12 渲染技術的進步以及重光照等新型渲染技術的出現使數字 人皮膚紋理變得真實,突破了恐怖谷效應??植拦刃扇?本機器人專家森政弘提出,認為人們對機器人的親和度隨著 其仿真程度增加而增高,但當達到一個較高的臨界點時,親 和度會突然跌入谷底,產生排斥、恐懼和困惑等負面心理。 數字人恐怖谷效應主要由數
25、字人外表、表情動作上與真人的 差異帶來,其中外表真實感的關鍵就是皮膚材質的真實感, 無論是塑料感還是蠟像感都會給人類帶來不適。 在 PBR 技術 出現之前,限于相關軟硬件的發展程度,所有的 3D 渲染引 擎,更多的著重在于實現 3D 效果,在真實感體現方面差強 人意。PBR 是基于真實物理世界的成像規律模擬的一類渲染 技術的集合,它的關鍵在于微表面模型和能量守恒計算,通 過更真實的反映模型表面反射光線和折射光線的強弱,使得 渲染效果突破了塑料感。目前常見的幾款 3D 引擎,如 UnrealEngine 4, CryEngine 3, Unity 3D 5,均有了各自的 PBR 實現。重光照技術
26、重光照技術通過采集模擬多種光照條件的圖像數據, 測算數字人表面光照反射特性,并合成出數字人模型在新的 光照下的渲染結果,使計算機中的虛擬數字人在任意虛擬環 境下都可以呈現近乎真實的效果,它徹底改變了傳統渲染方 式通過模擬皮膚復雜的透射反射來計算渲染總會帶來誤差 的局面。該技術在 2000 年初由南加州大學實驗室創建 LightStage 平臺時提出, 并開始了相關研究, 目前已經經過 7 代的迭代發展,已被成功應用到阿凡達、 復仇者聯盟 等眾多經典影片的角色制作中。國內清華大學、浙江大學也 2020 年虛擬數字人發展白皮書 13 都建設了重光照系統,可以實現高精度人體光照采集與重
27、建。 實時渲染技術的突破助力寫實類數字人實現實時交互, 應用范圍快速擴大。實時渲染指圖形數據的實時計算與輸 出, 其每一幀都是針對當時實際的環境光源、 相機位置和材 質參數計算出來的圖像。 與離線渲染相比, 實時渲染面臨較 大挑戰。 一是渲染時長短, 實時渲染每秒至少要渲染 30 幀, 即在 33 毫秒內完成一幀畫面渲染,離線渲染則可以花費數 小時甚至更長時間渲染一幀畫面; 二是計算資源有限, 實時 渲染受限于時效要求, 計算資源一般是不能及時調整, 而離 線渲染受時效限制較低, 可臨時調配更多的計算資源。 早期 的實時渲染只能選擇高度抽象和簡化過的渲染算法, 犧牲了 畫面質量。隨著硬件能力的
28、提升和算法的突破,渲染速度、 渲染效果的真實度、 渲染畫面的分辨率均大幅提升, 在虛擬 人物實時渲染方面,已經能做到以假亂真。2016 年,Epic Games 聯合 3Lateral、Cubic Motion、Ninja Theory 等公司聯 合開發的可實時驅動的虛擬人物在當年的 Siggraph (Special Interest Group for Computer GRAPHICS,計算機圖形圖像特 別興趣小組, 致力于推廣和發展計算機繪圖和動畫制作的軟 硬件技術) 會議中做了演示, 成功在消費級的硬件環境下實 時渲染了高質量的虛擬角色。2018 年 5 月,騰訊發布虛擬 人 Sir
29、en,也一個支持實時渲染的虛擬人物。 2020 年虛擬數字人發展白皮書 14 表 2 離線渲染與實時渲染對比 渲染方式渲染方式渲染時間渲染時間計算資源計算資源渲染質量渲染質量 離線渲染離線渲染長多高 實時渲染實時渲染短少欠佳 三、虛擬數字人產業應用現狀 (一)(一)虛擬數字人產業視圖虛擬數字人產業視圖 當前虛擬數字人理論和技術日益成熟,應用范圍不斷擴 大,產業正在逐步形成、不斷豐富 ,相應的商業模式也在 持續演進和多元化。虛擬數字人的產業鏈從上到下可以分為 基礎層、平臺層和應用層,如圖 7 所示。 圖 7 虛擬數字人產業視圖 (1)基礎層 基礎層為虛擬數字人提供基礎軟硬件支撐, 硬
30、件包括顯 示設備、光學器件、傳感器、芯片等,基礎軟件包括建模軟 件、渲染引擎。顯示設備顯示設備是數字人的載體,既包括手機、 2020 年虛擬數字人發展白皮書 15 電視、投影、LED 顯示等 2D 顯示設備,也包括裸眼立體、 AR、VR 等 3D 顯示設備。光學器件光學器件用于視覺傳感器、用戶 顯示器的制作。 傳感器傳感器用于數字人原始數據及用戶數據的采 集。芯片芯片用于傳感器數據預處理和數字人模型渲染、AI 計 算。建模軟件建模軟件能夠對虛擬數字人的人體、衣物進行三維建 模。渲染引擎渲染引擎能夠對燈光、毛發、衣物等進行渲染,主流 引擎包括 UnityTechnologies 公司
31、的 Unity 3D、 Epic Games 公司的 Unreal Engine 等??傮w來看,處于基礎層的廠商已 經深耕行業多年,已經形成了較為深厚的技術壁壘。 (2)平臺層 平臺層包括軟硬件系統、生產技術服務平臺、AI 能力平 臺,為虛擬數字人的制作及開發提供技術能力。建模系統和 動作捕捉系統通過產業鏈上游的傳感器、光學器件等硬件獲 取真人/實物的各類信息,利用軟件算法實現對人物的建模、 動作的重現;渲染平臺用于模型的云端渲染。解決方案平臺 基于自身技術能力為廣大客戶提供數字人解決方案。 AI 能力 平臺提供計算機視覺、智能語音、自然語言處理技術能力。 平臺層匯聚的企業較多,騰訊、百度、搜
32、狗、魔琺科技、相 芯科技均有提供相應數字人技術服務平臺。 (3)應用層 應用層是指虛擬數字人技術結合實際應用場景領域,切 入各類,形成行業應用解決方案,賦能行業領域。按照應用 2020 年虛擬數字人發展白皮書 16 場景或行業的不同, 已經出現了娛樂型數字人 (如虛擬主播、 虛擬偶像)、教育型數字人(如虛擬教師)、助手型數字人 (如虛擬客服、虛擬導游、智能助手)、影視數字人(如替 身演員或虛擬演員)等。不同外形、不同功能的虛擬數字人 賦能影視、傳媒、游戲、金融、文旅等領域,根據需求為用 戶提供定制化服務。 (二)(二)虛擬數字人重點領域應用環境及典型應用案例虛擬數字人重點領域應用環
33、境及典型應用案例 分析分析 虛擬數字人應用給傳統領域帶來變革。通過虛擬數字人 產品與生產生活相融合,其規?;?、可定制化、可復制化的 能力能夠推動改善傳統環節流程、提升效能、降低成本等, 大幅提升業務體驗, 給傳統領域帶來變革。 典型的應用領域、 場景及充當的角色如表 3 所示。 表 3 虛擬數字人應用領域、場景及角色 領域場景角色 泛娛樂影視數字替身特效可以幫助導演實現現實拍攝中 無法表現的內容和效果, 已成為特效商業大片 拍攝中的重要技術手段和賣點。 數字替身 傳媒定制化虛擬主持人/主播/偶像,支持從音頻/文 本內容一鍵生成視頻,實現節目內容快速、自 動化生產,打造品牌特有 IP 形象,實現
34、觀眾 互動,優化觀看體驗。 虛擬主持人 虛擬主播 虛擬偶像 游戲越來越真實的數字人游戲角色使游戲者有了 更強的代入感,可玩性變得更強。 數字角色 金融通過智能理財顧問、智能客服等角色,實現以 客戶為中心的、智能高效的人性化服務。 智能客服 智能理財顧問 文旅博物館、科技館、主題樂園、名人故居等虛擬 小劇場、虛擬導游、虛擬講解員。 虛擬導游 虛擬講解員 教育基于 VR/AR 的場景式教育,虛擬導師幫助構虛擬導師 2020 年虛擬數字人發展白皮書 17 建自適應/個性化學習環境。 醫療以數字人實現家庭陪護/家庭醫生/心理咨詢, 實時關注家庭成員身心健康, 并及時提供應對 建議。 心理醫
35、生 家庭醫生 零售從大屏到機器人到全息空間,從數據分析、個 性營銷、智能貨架、無人商店四大應用場景切 入構建線下零售服務新流程。 電商直播在虛擬 數字人與真人主播和觀眾互動,介紹商品。 顧客服務數字 人 商家管理數字 人 虛擬主播 (1)虛擬數字人+影視 特效電影廣受市場認可,扶持政策的密集出臺,以數字 替身為代表的虛擬數字人+影視類的產品應用正在展現廣闊 的市場前景。影視是對視覺效果的要求最高且最大程度影響 社會對數字人形象認知、品牌的一個領域。近年來中國影視 數字人特效取得快速發展,部分特效大片獲得市場認可。 2019 年中國影視票房收入超過 640 億級別,連續多年增長 8%左右, 其中
36、特效電影約占 10%。 國家對于影視特效的發展 十分重視,先后出臺了一系列相關扶持政策。2019 年,科技 部、文化部聯合六部委發布關于促進文化和科技深度融合 的指導意見,提出加強激光放映、虛擬現實、光學捕捉、 影視攝錄、高清制播、圖像編輯等高端文化裝備自主研發及 產業化。2020 年,國家電影局關于促進科幻電影發展的若 干意見,提出以科幻電影特效技術發展引領帶動電影特效 水平整體提升,并要落實財稅支持政策,同時對入駐影視文 化基地的科技企業進行租金減免。于 2019 年 2 月 22 日在中 國內地上映的阿麗塔:戰斗天使是虛擬數字人技術與影 2020 年虛擬數字人發展白皮書 18
37、 視相結合的典型應用案例之一。劇中的女主角阿麗塔是一位 完全采用數字人技術制作的角色。該電影通過采用特殊的面 部捕捉儀器對真人演員人臉細節進行精準捕捉,然后將其作 為電腦中虛擬角色的運動依據,使虛擬角色的動作和表情能 像真人一樣自然逼真。 數據來源:國家電影局 圖 8 2013-2019 中國電影票房收入增長趨勢 數據來源:國家電影事業發展專項資金管理委員會辦公室 圖 9 中國內地電影票房總收入 TOP10 (2)虛擬數字人+傳媒 2020 年虛擬數字人發展白皮書 19 以虛擬主播為代表傳媒行業應用很好的滿足了媒體傳 播領域對內容生成方面的業務需求,成為了融媒體時代的傳 媒利器。據
38、前瞻產業研究院統計,2019 年中國視頻直播行業 收入達到 1082 億人民幣,全國有 3.9 億人在關注虛擬偶像, 其中最大的二次元活動社區B站月活用戶達 1140 萬,虛擬主 播占直播營收 40%。同期,B站、虎牙等大型直播平臺也都 開啟了線上、線下虛擬主播活動。如Bilibili Macro Link系列 活動VR直播觀看如數達到 660 萬,10 萬級的“up主”(指在 視頻網站、論壇、FTP站點上傳視頻音頻文件的人)就可以 達到 100 萬級真人主播的應收。此外,在傳統媒體領域,以 虛擬主持人為代表的數字人應用也開始進入公眾視野。在 2019 年央視網絡春晚舞臺上, 以撒貝寧為原型制
39、作的AI虛擬 主持人“小小撒”首次上崗與原型同臺秀技。這也是國內第一 次人類主持人和自己的虛擬孿生數字人共同主持大規模的 國家級文化活動,引起了業界及網民的強烈關注。 (3)虛擬數字人+游戲 游戲市場日趨激烈,對于精品的需求日益增長,或是虛 擬數字人技術在該領域落地的福音。 2019 年游戲市場規模達 到 2300 億, 其中與數字人相關度較大的RPG類游戲約占 30% 的份額。我國國內游戲監管環境和游戲版號審批政策仍舊趨 嚴,游戲用戶數相比 2018 年僅增加 0.1 億,市場競爭日趨激 烈,對于精品的需求越來越高。虛擬數字人技術則能夠有效 2020 年虛擬數字人發展白皮書 20
40、 簡化和加快游戲動畫制作過程,可以在有限成本的情況下讓 游戲中更多的虛擬角色都具備豐富的肢體動作和精細的面 部表情,給玩家帶來更沉浸的游戲體驗。例如網易伏羲實驗 室成功將虛擬數字人技術應用到逆水寒等多個游戲劇情 動畫場景制作中,在無手工參與下,快速生成動畫,這使得 大量的虛擬角色都能富有視覺的表達能力。 數據來源:中國音像與數字出版協會游戲出版工作委員會 圖 10 2015-2019 中國游戲市場實際銷售收入 (4)虛擬數字人+金融 虛擬數字人能夠有效助力金融機構實現“降本增效”,各 大金融巨頭爭相布局“數字員工”。運用金融科技實現“降本 增效”應對市場競爭成為金融行業發展共識,以科技為核心
41、的競爭導向,帶來了金融機構信息科技投入的逐年增加。據 輕金融統計,2019 年,16 家全國性銀行科技總投入超千億, 總計1034.1億元。 其中工農中建四大行投入均超過100億元, 建行投入最高,達到 176.33 億元。虛擬數字人擁有擬人的表 情動作,可進行智能對話,能夠與服務類場景較多的金融行 業天然結合。多家金融機構正利用虛擬數字人技術打造“數 2020 年虛擬數字人發展白皮書 21 字員工”,成為了科技創新、降本增效的重要方向。以中國 工商銀行為例,其推出的數字人銀行員工,在移動終端和大 屏等媒介上展現數字擬態形象,能夠在產品營銷講解、金融 業務辦理、資訊播報、咨詢問答等
42、多個業務場景,實現與用 戶的可視化交互,為用戶帶來個性化服務,有效解除用戶顧 慮,提升用戶體驗和駐留時間,真正讓數字化服務“聽得見” 的同時也“看得見”。 圖 11 部分國際領先金融機構信息技術投入金額與增速 數據來源:輕金融 圖 12 全國性科技總投入與占營收比重 2020 年虛擬數字人發展白皮書 22 (5)虛擬數字人+文旅 數字文旅產業表現突出,以虛擬講解員為代表的虛擬數 字人應用或為其貢獻蓬勃力量。據中國旅游研究院統計, 2019 年前三季度,文旅營業收入 62187 億元,比上年同期增 長 7.6%,特別是數字文旅產業表現突出,成為文旅產業轉型 升級的重要引擎。數字文化內
43、容與互聯網旅游、智慧旅游、 虛擬旅游等新模式聯動發展,特別是疫情期間得到不斷增 長。目前,虛擬數字人在文旅領域暫時還沒有落地產品,但 相關概念產品已經開始映入公眾眼簾。 例如商湯科技在 2020 世界人工智能大會(WAIC)上展示的AI數字人“小糖”?!靶?糖”可依托于展臺前的滑動屏幕, 為觀眾介紹和講述預先設定 好的講解內容。虛擬數字人帶來的全新展示方式和講解模 式,在幫助文旅場館解決人力不足問題的同時,更憑借其智 能化、電子化和展示效果多樣化的特性,為文旅行業的未來 帶來更多可能性。 數據來源:中國旅游研究院 圖 13 2012-2019 全國國內旅游人數 2020 年虛擬數字
44、人發展白皮書 23 四、虛擬數字人發展趨勢、制約因素及建議 (一)(一)虛擬數字人未來發展趨勢虛擬數字人未來發展趨勢 虛擬數字人的采集、制作流程逐步簡單化、一體化,迭 代式提升真實感。未來數字人的制作技術將會變得更加簡 單,會有更加一體化、自動化的設備同步獲取模型、身體、 表情、手指運動、聲音等所有數據,無需穿戴專業傳感設備。 在特定的環境下人們甚至無法分辨數字人的真假,可以更加 自然與數字人交流互動。 虛擬數字人的交互方式衍變,智能化程度不斷加深。全 雙工技術將推進數字人的交互方式衍變,讓數字人擁有一次 喚醒、多次交互的能力,具備實時智能響應、智能打斷、智 能糾錯、多輪對話等功能。另外,隨著
45、計算機視覺、語音和 自然語言處理等人工智能技術的不斷進步,虛擬數字人將逐 漸具備“看”、“聽”、“說”、“懂”的能力。 虛擬數字人逐漸實現在多場景、多領域的融合、應用、 落地。盡管目前數字人的發展環境、整體情況還處于尚未成 熟的起步階段,但隨著虛擬數字人技術的精進、市場價值的 釋放,其將更全面、更深入地融入影視、金融、文旅等各個 領域,充分發揮應用價值,迸發巨大的潛力。 (二)(二)虛擬數字人發展制約因素虛擬數字人發展制約因素 目前,制約虛擬數字人產業發展的因素主要有以下幾個 方面。 2020 年虛擬數字人發展白皮書 24 政策環境層面,行業依然處于培育期,缺乏政策與資本 扶持。 一是缺少上下游協作交流平臺, 制約整體產業化發展。 虛擬數字人產業鏈長,參與主體多,既有大型平臺企業、也 有中小單位和初創公司,行業溝通成本高。二是行業投資回 報周期較長,為數字人產業投資豎立了“無形壁壘”。數字人 產業還不完全成熟,投資回報周期較傳統技術應用更長,缺 乏長期耐心資本來扶持企業成長。由于缺乏資本力量的推 動,各產業規模擴張與資源整合的進程相對滯后。 技術應用層面,制作方式自動化程度低、生產門檻高, 關鍵技術還不夠完全成熟。目前 3D 數字人建模依然需要大 量的人工制作參與,整體制作效率相對較低,與部分應用場 景快速、批量制作的需求并不匹