《3-6 火山引擎虛擬數字人技術與應用.pdf》由會員分享,可在線閱讀,更多相關《3-6 火山引擎虛擬數字人技術與應用.pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、火山引擎虛擬數字人技術與應用|樊博 字節跳動AI-Lab智能語音 算法研究員|提綱火山引擎虛擬數字人簡介2D數字人技術體系3D數字人技術體系火山引擎虛擬數字人應用火山引擎虛擬數字人展望|提綱火山引擎虛擬數字人簡介2D數字人技術體系3D數字人技術體系火山引擎虛擬數字人應用火山引擎虛擬數字人展望|火山引擎虛擬數字人火山引擎虛擬數字人是以虛擬數字人形式代替真人員工和客戶溝通,提供可視化、智能化的交互服務,為企業提供高度擬人化的服務型數字員工。聆聽表達交互感知 語音增強 語音識別 聲紋識別 語種識別 語音合成 跨語言合成 多方言合成 語音變聲 自然語音理解 機器翻譯 問答系統 活體檢測 人臉識別 情感
2、識別 虛擬數字人數字化外表,多模態技術通過不同媒介存在于虛擬世界行為、技能高度擬人化|火山引擎虛擬數字人數字人AI驅動中之人驅動播報交互感知2D數字人3D數字人|火山引擎虛擬數字人2D真人3D卡通&超寫實|提綱火山引擎虛擬數字人簡介2D數字人技術體系3D數字人技術體系火山引擎虛擬數字人應用火山引擎虛擬數字人展望|2D數字人技術體系文本/語音驅動唇形身份/表情/姿態擬合虛擬人臉換臉人臉編輯人臉美化人臉恢復五官改變關鍵點檢測換頭動作生成動作預測虛擬試穿人體姿態估計面部生成頭部口型修正人臉分割人臉轉正可控頭動驅動算法定制化肢體動作切換驅動算法應用系統摳圖圖像和諧化頭身拼接圖像超分圖像著色圖像修復去反
3、光工具功能成熟迭代探索|文本/語音驅動數字人整體流程文本/語音特征提取語義特征提取NN文本特征提取時長模型TTS面部生成肢體生成訓練階段NN訓練集音頻訓練集視頻驅動階段視頻流|語義特征提取訓練集視頻身份/表情/姿態擬合人臉歸一化特征點檢測人臉特征點身份表情姿態語義特征|多語種數字人單語種多語種主播僅需錄制單一語種音視頻,即可實現數字人多語種表達!|多語種數字人技術方案目標語種參考音色信息無監督特征提取語義特征提取NN文本特征提取時長預測跨語言合成面部生成肢體生成訓練階段NN訓練集音頻訓練集視頻驅動階段解碼器無監督特征視頻流目標音色信息無監督特征不包含音色信息|多語種數字人效果、感染急速拡大。Y
4、our torso ninety degrees angle.Nanti kalau kamu tidur,percayalah aku sedangmengucapkan selamat tidur dari jauh.Kamunggak akan denger,kata Dilan saat melaluisambungan telpon.Com uma rea de 130 km2,o Parque Nacional de Aparados da Serra uma tima pedida para quem gosta de ter um contato com a natureza.
5、英語日語巴葡印尼語|多方言數字人效果小汽車朝他發出了嘀嘀的聲音,那人心想,你們在那嘀咕什么呢?我們樓腳開了家新的便利店。這個巨好喝的連咖啡現在嘎嘎合適,打開蓋子直接放入90度的水,你看看這咖啡的油脂都出來了,倒在冰水里就是冰美式,倒在奶里就是拿鐵。加啲放肆,加啲創意,一身充滿少壯傲氣,想痛快抉擇搏一次,不過我確實冇膽試重慶話東北話粵語廣西普通話|數字人交互播報交互整合多模態AI技術,實現數字人從播報到交互的升級!|數字人交互系統語音識別問答系統語義理解是否打斷狀態機表達聆聽休閑打斷動作插入播報對話內容動作標簽狀態類型理解決策信號|數字人定制化1N對頭部進行定制化,規避版權的同時完成成熟能力的復
6、制!|數字人定制化-換臉虛擬人臉生成目標人臉ID提取編碼ID注入解碼人種、年齡、類型等描述|2D數字人核心優勢高并發功能全面低成本效果優良 T4單卡20核CPU下1080p/25fps視頻流支持10路并發 支持公有云接口調用及私有化部署 支持打斷以及通過SSML的形式插入動作 支持任意背景更換 支持音色切換,多語種,多方言 整體自然度MOS評測可達3.9 唇形準確率高達98.6%5min數據即可完成基本定制 自動化平臺支持自動化訓練及上線|提綱火山引擎虛擬數字人簡介2D數字人技術體系3D數字人技術體系火山引擎虛擬數字人應用火山引擎虛擬數字人展望|3D數字人技術體系文本/語音驅動唇形表情系統人臉
7、重建面部捕捉唇形運動遷移動作生成動作預測單目動捕頭部驅動算法相關算法肢體高級動作系統驅動算法相關算法引擎功能數據修正多目動捕動作重定向離屏渲染換裝/配飾攝像機系統背景更換背景音樂運動匹配場景特效動畫采樣轉場動畫圖片輪播成熟迭代探索|3D數字人制作流程原圖設計灰模制作材質制作渲染測試面捕動捕數據精修數據采集驅動模型訓練引擎能力集成上線|文本/語音驅動數字人整體流程文本/語音特征提取面部驅動參數提取NN文本特征提取時長模型TTS面部驅動肢體驅動訓練階段NN訓練集音頻面捕視頻驅動階段渲染面部驅動參數精修高級動作系統|3D數字人唇形運動遷移文本/語音特征提取時長模型TTS面部驅動肢體驅動NN渲染高級動
8、作系統BA小數據量精修數據5min上下文相關參數統計原子發音單元非線性后處理|提綱火山引擎虛擬數字人簡介2D數字人技術體系3D數字人技術體系火山引擎虛擬數字人應用火山引擎虛擬數字人展望|數字人應用平臺內容生產實時交互|數字人應用平臺 實時交互|數字人應用平臺 實時交互|數字人應用平臺 內容生產|數字人應用平臺 內容生產|數字人應用場景3D金融面審電商直播|提綱火山引擎虛擬數字人簡介2D數字人技術體系3D數字人技術體系火山引擎虛擬數字人應用火山引擎虛擬數字人展望|火山引擎虛擬數字人展望提升表現力增強感知能力加強定制化能力降低數據成本2D數字人支持大姿態面部合成提升面部合成情感表現力提升肢體動作表現力2D數字人引入更多人臉相關能力3D數字人完善引擎能力建設3D數字人探索角色定制引入多模態感知能力提升數字人可控度積累大模型數據,探索小數據量邊界完善遷移方案,小成本完成成熟能力復制