《5-1 數字人系統基礎能力評測觀察.pdf》由會員分享,可在線閱讀,更多相關《5-1 數字人系統基礎能力評測觀察.pdf(16頁珍藏版)》請在三個皮匠報告上搜索。
1、2022數字人系統基礎能力評測觀察顏媚 中國信息通信研究院 云計算與大數據研究所 內容科技部|2n 2021年以來,在元宇宙概念的刺激下,數字人技術應用呈現蓬勃發展態勢。然而在實際工程落地中,卻面臨著諸多問題。安全方面需要提前預判數字人可能出現的安全倫理問題,提升治理能力技術方面需要滿足包括從2D到3D,從展示到交互等更多需求應用方面如何滿足用戶需求,做到由“能用”到“好用”再到“用好”數字人相關產品不斷涌現評測背景|3序號標準組織標準類型標準名稱1ITU國際標準ITU-T F.748.15Framework and metrics for digital human application
2、system2ITU國際標準ITU-T F.748.14Requirements and evaluation methods of non-interactive 2D real-person digital human application system3CCSA行業標準虛擬數字人指標要求和評估方法 第1部分 參考框架4CCSA行業標準虛擬數字人指標要求和評估方法 第2部分 2D真人形象類合成技術評測背景n 前期,中國信通院云大所聯合多家企事業單位開展數字人技術標準研究,旨在凝聚產業共識,整合優質資源,推動數字人產業健康發展。截至目前,中國信通院云大所已牽頭在ITU和CCSA完成多項全球
3、范圍內首創的數字人國際標準及行業標準的研制,旨在明確數字人的概念和邏輯框架。|n 為進一步推動產業界對數字人概念達成共識,提升數字人工程化落地能力,解決供需雙方的信任問題,中國信通院依托CCSA TC602及內容科技產業推進方陣開展數字人系統基礎能力要求及評估方法規范文件的制定工作。2022年1月該規范正式定稿,并依據其啟動首批數字人系統基礎能力評測。數字人系統基礎能力要求及評估方法評測背景規范編制過程共吸引了30余家單位參與|評測內容介紹數字人系統基礎能力評測模型n 評測分別從基礎技術能力、基礎工程化能力、基礎安全保障能力三大維度評估數字人系統是否能滿足用戶普遍的使用需求、支持業務規?;瘧?/p>
4、落地和現有的合規要求??偣?48項 測試用例(27必選+21項可選)基礎技術能力從形象版權保障、內容追溯能力、內容風險控制等方面,考察數字人系統是否能夠滿足現有合規要求?;A安全保障能力包括形象技術能力、語音技術能力、驅動技術能力、交互技術能力、內容供給能力、人設定制能力等方面,考察數字人系統的基礎功能是否能夠滿足用戶普遍的使用需求。從標準資源配置、可移植性、易用性、可擴展性、兼容性、時效性、可靠性等方面,考察數字人系統的非功能性能力是否能夠支撐業務規?;瘧寐涞??;A工程化能力|評測模型介紹|形象類型形象精細度形象生成方式形象裝扮更換位移支持情況形象技術能力語音合成能力語音編輯能力語音轉換能
5、力語音定制能力語音技術能力驅動方式驅動范圍驅動技術能力交互方式語音識別能力交互自主性情感化表現富媒體展示交互技術能力喚醒能力內容構建方式內容供給能力人設定制能力風格一致性人設定制能力基礎技術能力肖像權著作權形象版權保障基礎安全保障能力客戶端環境服務端配置標準網絡環境標準資源配置易操作性界面舒適性易學性易用性成熟性易恢復性可靠性渲染方案多渠道接入云端渲染SDK終端渲染SDK與AI能力集成兼容性業務系統集成適應性可移植性生產周期實時響應速度時效性基礎工程化能力適配軟硬件人工接管支持功能擴展性能擴展個性化擴展可擴展性交互質檢功能數字水印支持內容回溯能力風險控制機制內容風險控制顯著標識支持顯著標識評測
6、概況n 2022年4月,中國信通院組成評測組通過進入企業應用現場或線上接入的方式,采取人員訪談、系統操作演示和材料審查相結合的評測方法,陸續對騰訊等10家企業開展測試工作。騰訊火山引擎百度科大訊飛蔚領京東阿里華為|評測結果總覽序號企業參評產品評測結果1騰訊云計算(北京)有限責任公司云小微數智人平臺V1.6.3通過2北京火山引擎科技有限公司火山引擎虛擬數字人平臺V1.2.15通過3北京百度網訊科技有限公司百度智能云-曦靈數字人平臺v1.0通過4科大訊飛股份有限公司訊飛AI虛擬人交互系統V1.0通過5北京蔚領時代科技有限公司蔚領無界數字人平臺V1.0.0通過6京東科技信息技術有限公司京東科技多模態
7、數字人V2.0通過7阿里云計算有限公司達摩院AI數字人產品V1.0.0通過8華為云計算技術有限公司MetaStudio V1.0通過n 2022年5月30日召開專家評審會,形成最終檢驗結果。數字人系統基礎能力評測共10家企業參評,通過9家,具體評測結果如下(其中兩家選擇不公布結果),排名不分先后。|評測結果分析-各測試項通過情況總覽0123456789語音合成能力語音編輯能力語音定制能力支持的交互方式語音識別能力支持的交互能力類型情感化表現富媒體展示能力云端渲染SDK支持情況與已有AI能力集成能力與已有業務系統集成能力人工接管支持情況語音轉換能力交互自主性喚醒能力個性化擴展交互質檢功能終端渲染
8、SDK支持情況肖像權、著作權等數字水印支持情況內容風險控制機制可選項通過企業數量n 所有參測產品測試項目平均通過率為96.61%,可選項平均通過率為92.26%。終端渲染SDK支持情況、肖像權及著作權等、數字水印支持情況、內容風險控制機制等可選指標項通過率相對較低。|觀察1:精細化視頻錄制生成和CG生成分別是2D、3D數字人形象生成的主流方法,基于少量照片生成數字人仍處于探索階段0123456789基于單張照片生成3D卡通數字人連續調節面部參數生成3D寫實數字人模塊化捏臉生成3D卡通數字人基于微量視頻生成2D真人形象數字人基于單張照片生成2D真人形象數字人視頻錄制生成2D真人形象數字人CG生成
9、3D數字人數字人形象生成方式統計n 100%的參評企業支持CG生成3D數字人;75%的參評企業支持精細化視頻錄制生成2D數字人。37.5%的參評企業支持基于單張照片生成2D真人形象數字人;12.5%的參評企業支持基于單張照片生成3D卡通數字人。|觀察2:語音交互成為數字人主流的交互方式,視覺交互和多模態交互初見端倪視覺交互類型支持率手語識別12.5(內測階段)肢體(手指、頭部、四肢)動作識別12.5人臉檢測識別50%面部動作識別(表情、口唇動作)0視線追蹤00123456789多模態交互視覺交互點觸交互語音交互交互方式統計n 語音交互、點觸交互(比較基礎)、視覺交互、多模態交互的支持率分別為1
10、00%、62.5%、62.5%、25%。視覺交互主要集中于人臉檢測識別;多模態交互則主要通過對輸入的多維信息設置響應策略實現。視覺交互主要集中于人臉檢測識別p 企業2支持在和人交互的過程中同時采集視頻和音頻,并對嘴型和聲波不匹配的情況進行提示p 企業3支持對多信息同時輸入,響應優先級策略部分企業已支持多模態交互策略|基礎技術能力基礎工程化能力基礎安全保障能力首批評測總體結果企業1企業2企業3企業4企業5企業6企業7企業8測試模塊測試指項數量測試通過率基礎技術能力2198.214%基礎工程化能力2397.826%基礎安全保障能力481.250%n 基礎技術能力、基礎工程化能力通過率分別為98.2
11、14%、97.826%;基礎安全保障能力通過率為81.25%,相對較低,相應能力仍需完善。觀察3:相比于基礎技術能力及基礎工程化能力,基礎安全保障能力亟待加強|觀察4:各家對于各測試項完成度各異,整體均有較大提升空間n 根據對參評企業測試數據的不完全統計及調研發現,由于技術實力、入局時間早晚、業務方向各有側重等原因,各家對于各測試項的支持程度各不相同。觸發策略和視頻驅動是目前實現情感化表達的主要方式,與智能合成的情感化表達尚有距離p 87.5%的參評企業支持語音的情感化表達p 37.5%的參評企業支持真人通過視頻驅動的情感化表達 p 25%的參評企業支持通過觸發策略實現3D寫實形象表情的情感化
12、表達p 12.5%的參評企業支持通過觸發策略實現3D卡通形象表情的情感化表達p 12.5%的參評企業支持通過觸發策略實現3D卡通形象的音色、表情、肢體動作的情感化表達大部分企業具備數字水印能力,但還未將其集成進系統0123456789手指面部表情 肢體背景內容 口型 驅動范圍統計目前還有部分企業未實現對背景、肢體、面部表情、手指的驅動75%的參評企業支持數字水印能力,支持從技術上提供不影響數字內容效果的不直接可見的安全水印,實現數字內容輸出的可回溯性、版權安全保護要求,但目前都未集成進數字人系統。部分企業均表示一項能力是否集成入系統取決于這項能力對于目標場景是否有價值。|觀察5:數字人商業價值
13、不斷被挖掘和釋放部分參評系統已實現在多個領域落地,涉及金融、商業、傳媒、電信、娛樂、移動互聯網、能源等領域,其中金融和商業是變現較多的領域。數據來源:對數字人系統基礎能力首批評測數據的不完全統計數字人應用領域不斷擴圍n 根據對參評企業測試數據的不完全統計及調研發現,數字人應用范圍不斷拓寬,商業化進程不斷加快,表現為應用領域不斷擴圍、應用場景不斷拓展、接入渠道不斷豐富。所有參評系統均已實現在多個場景的應用,涉及客服、助手、主播、員工、偶像、主持人、引導員、講解員、記者等場景,其中客服、助手、主播是數字人應用較多的場景。數字人應用場景不斷拓展所有參評系統均已實現多渠道接入,涉及Web/H5、APP
14、、大屏、小程序、VoLTE、VTM、VR、AR等,其中Web、APP、大屏設備是接入較多的渠道。數字人接入渠道不斷豐富|下一步重點工作產業研究標準研制評估測試在現有基礎上繼續完善和研制數字人、沉浸式視覺內容等相關標準規范,依托CCSA、ITU等標準組織平臺,向上推行業標準和國際標準打造全國領先的數字內容生成檢驗檢測能力,支撐相關前沿技術驗證和評估測試,并完成第二輪數字人系統基礎能力和性能分級評測圍繞數字人、沉浸式視覺內容等方向,持續探索數字內容生成相關政策、技術、應用及產業研究,編撰并發布相關產業報告n 依托內容科技產業推進方陣和CCSA TC602等平臺,進一步聚焦數字內容生成相關產、學、研、用資源,開展產業研究、標準研制、評估測試等工作。歡迎共同探討、共同完善、共建生態!歡迎共同探討、共同完善、共建生態!|非常感謝您的觀看|個人微信