《4-1 數字人技術革命:動捕、重建、生成與智能.pdf》由會員分享,可在線閱讀,更多相關《4-1 數字人技術革命:動捕、重建、生成與智能.pdf(46頁珍藏版)》請在三個皮匠報告上搜索。
1、劉燁斌清華大學自動化系2022年8月13日3D數字人:動捕、重建、生成與智能-2-研究背景全息交互/AR/VR/元宇宙以人為目標的三維感知、重建與生成是新一代信息科技不可或缺的核心技術-3-數字人制作技術邁向智能時代真人驅動型智能算法生成型手工設計型借助AI,算法生成型數字人制作方案極大降低人工和時間成本需要專業設備和經驗,耗時幾周甚至幾個月無需經驗,耗時不到一天智能技術研究背景數字人技術變革-4-生成重建動捕人的行為人的思想人的外觀 人的外觀重建實現沉浸性(Immersion)人的行為感知實現交互性(Interaction)賦予人的思想實現創作性(Imagination)研究背景動捕、重建、
2、生成與智能-5-數字人革命 解構現實世界 將現實映射到虛擬 創造虛擬內容動捕人的行為交互性重建人的外觀沉浸性生成人的思想創作性研究背景動捕、重建、生成與智能對人的動捕、重建、生成是邁向智能數字人的三部曲-6-主要工作一、無標記運動捕捉多視點無標記動捕:交互方式的變革,賦能虛擬現實等行業影視動畫人機交互單視角姿態估計密集視點光場重建稠密視點系統運算繁重,場景受限單視點方法無法分辨深度歧義性實時性能輕量部署高精重建緊密交互視點數量矛盾核心問題:如何充分挖掘各視點信息,優化匹配策略,減少視角冗余-7-主要工作一、無標記運動捕捉難點:時間(1D)-空間(2D)-角度(1D)4維時空對象特征解耦難題單視
3、角分配多視角匹配時域跟蹤序貫式的策略導致誤差累積,誤分配在優化過程中持續傳遞,使得問題逐步病態單視角劃分錯誤導致重建質量差-8-主要工作一、無標記運動捕捉提出了4D多視時空聚類解耦模型單視角分配多視角匹配時域跟蹤協同優化提升性能多維度關聯圖序貫式:孤立逐維進行匹配搜索協同式:閉環聯合優化各維信息 =+,+單視角劃分錯誤導致重建質量差Zhang et al.4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras,CVPR Oral 2020提出4D多視時空聚類解耦模型,克
4、服了2D圖像人體特征解耦的模糊不確定性-9-主要工作一、無標記運動捕捉提出了4D多視時空聚類解耦模型(稀疏RGB相機)Zhang et al.4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras,CVPR Oral 2020,首個實時的多人體骨架捕捉系統-10-主要工作一、無標記運動捕捉提出了4D多視時空聚類解耦模型(稀疏RGB相機)Light-weight Multi-person Total Capture Using Sparse Multi-view Came
5、ras,IEEE ICCV 2021.首個實時的多人體全身動捕系統(包括人手、人臉)-11-Li et al.Interacting Attention Graph for Single Image Two-Hand Reconstruction,CVPR Oral 2022,首個單RGB相機的緊密交互人手實時運動捕捉主要工作一、無標記運動捕捉提出了4D多視時空聚類解耦模型(單RGB相機)-12-主要工作二、便捷實時高精動態三維重建電報語音電話視頻會議全息通訊郵件公元前15001830年1860年2000年當前到未來實時動態三維重建用于未來全息交互,是媒體通信技術的革新 研究背景-13-研究背
6、景:基于深度相機的動態融合重建核心問題:不完整融合表面之間的實時、精準非線性映射問題映射精度幀間映射融合更新幀間映射融合更新第幀第(+1)幀33毫秒矛盾輸入序列重建管線非線性幀間映射為主要瓶頸和難點表面形變復雜非線性映射策略復雜度映射效率已有方法(DynamicFusion)CVPR2015最佳論文融合更新崩潰幀間映射融合更新主要工作二、便捷實時高精動態三維重建-14-提出了雙表面三維重建方法,引入雖低精度但完整的內層模板表面,支撐實時精準幀間非線性映射(+)時刻觀測KinectFusion(2011,引用量3873)Fusion4D(2016,微軟)3DPortraint(CVPR 2020
7、 Oral)已有國際前沿:單表面重建本人突破:雙表面重建DynamicFusion(2015,CVPR最佳論文)Motion2Fusion(2016,谷歌)PoseFusion(CVPR 2021 Oral)Function4D(CVPR 2021 Oral)HybridFusion(ECCV 2018)DoubleFusion(CVPR 2018 Oral)BodyFusion(ICCV 2017)時刻外層表面:高精度,不完整時刻內層表面:低精度,完整時刻外層表面:高精度,不完整錯誤幀間映射 提出了雙表面三維重建方法(+)時刻觀測主要工作二、便捷實時高精動態三維重建-15-Yu et al.
8、DoubleFusion:Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor,IEEE TPAMI,2020利用內層表面完整性和語義性,建立基于雙表面的幀間實時非線性映射,同時實現雙表面的高精度動態三維重建實際表面模型參數化模板雙層表面運動描述方式內層外層耦合內層骨架運動外層非剛性運動內層表面外層表面輔助優化 提出了雙表面三維重建方法主要工作二、便捷實時高精動態三維重建-16-Yu et al.DoubleFusion:Real-time Capture of Hum
9、an Performances with Inner Body Shapes from a Single Depth Sensor,CVPR Oral,2018Yu et al.DoubleFusion:Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor,TPAMI 2021單深度相機的實時人體動態三維重建方法,被國內外多家知名媒體報道,可提供全息AR遠程教學、人體體型測量等應用 提出了雙表面三維重建方法主要工作二、便捷實時高精動態三維重建-17-主要工作一、深度相機
10、動態三維重建Yu et al.Function4D:Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors,CVPR Oral,2021構建高精度三維人體開源數據庫,含500個高精度模型,建立雙表面深度學習模型,支持寬松服飾、人-物交互等場景動態三維重建三維卷積網絡參數化內表面語義分割人體重建人物交互重建深度輸入128相機系統實現高精度人體模型采集基于雙表面的深度學習三維重建算法流程 提出了雙表面的深度學習三維重建方法-18-Yu et al.Function4D:Real-time Human Vol
11、umetric Capture from Very Sparse Consumer RGBD Sensors,CVPR Oral,2021實現高質量實時動態三維重建,系統成本從100萬降低到5萬元以內8微軟Holopotation 20168組共24個相機,成本逾百萬 提出了雙表面的深度學習三維重建方法主要工作二、便捷實時高精動態三維重建-19-Yu et al.Function4D:Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors,CVPR Oral,2021實時動態三維重建支撐消費級增強現實和
12、互動內容生成 提出了雙表面的深度學習三維重建方法主要工作二、便捷實時高精動態三維重建-20-主要工作二、便捷實時高精動態三維重建Zheng et al.DeepMultiCap:Performance Capture of Multiple Characters Using Sparse Multiview Cameras.ICCV 2021,復雜場景的稀疏RGB視點動態三維重建 多RGB重建:提出了基于注意力機制的多視點融合方法-21-僅需5個RGB相機,對任意服飾人體動態場景的高質量實時重建和渲染DoubleField:Bridging the Neural Surface and Rad
13、iance Fields for High-fidelity Human Reconstruction and Rendering,CVPR 2022 主要工作二、便捷實時高精動態三維重建 隱式距離場和神經輻射場融合表征:高質量三維重建-22-進一步提出擴散生成的方法提高三維表面重建精度Shao et al.DiffuStereo:High Quality Human Reconstruction via Diffusion-based Stereo Using Sparse Cameras,ECCV 2022(Oral)僅使用8個相機,達到甚至突破以往上百個相機的重建精度主要工作二、便捷實時
14、高精動態三維重建-23-提出表面流模型實時生成新視點Shao et al.FloRen:Real-time High-quality Human Performance Rendering viaAppearance Flow Using Sparse RGB Cameras,Conditionally accepted by SIGGRAPH Asia 2022僅使用6個相機,實現高質量自由視點繪制主要工作二、便捷實時高精動態三維重建-24-基于深度神經網絡的三維表征是實現單一圖像三維重建的關鍵 單一圖像三維重建:信息極為欠定密集光場相機,1998稀疏相機陣列,2008單一圖像,2018主要
15、工作二、便捷實時高精動態三維重建-25-提出了模板驅動的單一圖像隱表面三維重建方法Zheng et al.DeepHuman:3D Human Reconstruction from a Single Image,ICCV Oral 2019Zheng et al.PaMIR:Parametric Model-Conditioned for Image-based Human Reconstruction,IEEE TPAMI 2021,提出了模板驅動的隱表面單圖像人體三維重建,兼具精準和魯棒性主要工作二、便捷實時高精動態三維重建語義表征無細節幾何表征無語義表征自由度矛盾-26-提出了模板驅動
16、的單一圖像隱表面三維重建方法Zheng et al.DeepHuman:3D Human Reconstruction from a Single Image,ICCV Oral 2019;Zheng et al.PaMIR:Parametric Model-Conditioned Implicit Representation for Image-based Human Reconstruction,IEEE TPAMI 2021提出單圖像模板驅動的隱表面重建算法,實現互聯網人體圖像高質量三維重建主要工作二、便捷實時高精動態三維重建-27-神經表示的隱表面 =sdf:3 提出了隱模板從隱表面
17、中自動建立模板的自監督學習方法模板隱表面端到端約束自監督學習預定義三維模板復雜的手工設計表征和泛化能力弱同類物體的不同對象嵌入得到統一的結構表示模板模板與實例之間的相互映射Zheng et al.Deep Implicit Templates for 3D Shape Representation,CVPR Oral 2021直接從隱表面中學習類別物體模板,自動獲得三維語義和和細節表征能力主要工作二、便捷實時高精動態三維重建-28-單一圖像汽車場景三維重建Zheng et al.Deep Implicit Templates for 3D Shape Representation,CVPR O
18、ral 2021三維幾何和語義的聯合表征與自動提取,應用于單一圖像三維重建 提出了隱模板從隱表面中自動建立模板的自監督學習方法主要工作二、便捷實時高精動態三維重建-29-十萬數據級別三維人臉表征百萬級別三維人臉數據(覆蓋中國各地域、年齡層)同拓撲三維配準與單圖像擬合(支持大量實際應用場景)同拓撲三維人臉表征語義化三維建模,強泛化能力Wang et al.FaceVerse:a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset,CVPR 2022,與螞蟻金服合作,實現了十萬數據級別
19、的中國人臉三維表征主要工作二、便捷實時高精動態三維重建-30-30輸入圖片疊加展示高精度三維重建結果在現有人臉模板工作中取得了最高的擬合精度基于單圖像的高精度重建在模板類工作中取得了最高的擬合精度主要工作二、便捷實時高精動態三維重建在基于模板的單圖像重建方案中取得了國際領先的效果Wang et al.FaceVerse:a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset,CVPR 2022,與螞蟻金服合作,實現了十萬數據級別的中國人臉三維表征-31-單RGB相機面部姿態+形狀+
20、表情動捕Wang et al.FaceVerse:a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset,CVPR 2022,實時單RGB相機下的人臉表情捕捉與重建主要工作二、便捷實時高精動態三維重建-32-銀翼殺手2049合成人類無法分辨真偽的數字人語言、動作、手勢、服裝、表情、聲音、情感的生成主要工作三、高真實感化身生成 研究背景:數字人體化身生成-33-基于多視點數據庫驅動的人體化身生成首個基于多視點視頻數據庫的人體Avatar生成,F.Xu,et al.,Video-bas
21、ed Characters-Creating New Human Performances from a Multi-view Video Database,SIGGRAPH 2011主要工作三、高真實感化身生成新動作多視點生成新動作映射多人體基本動作庫-34-提出了局部結構化神經輻射場的人體化身生成實現寬松服飾下的高真實感人體Avatar生成,Zheng,et al.,Structured Local Radiance Fields for Human Avatar Modeling,CVPR 2022主要工作三、高真實感化身生成控制節點采樣衣物局部非剛性變形建模骨架驅動結構化神經輻射場 (
22、,)節點殘差偏移人體姿態神經體渲染渲染結果動態表觀細節編碼衣物形變的層次化、自監督學習-35-提出了局部結構化神經輻射場的人體化身生成主要工作三、高真實感化身生成實現寬松服飾下的高真實感人體Avatar生成,Zheng,et al.,Structured Local Radiance Fields for Human Avatar Modeling,CVPR 2022-36-主要工作三、高真實感化身生成實現寬松服飾下的高真實感人體Avatar生成,Zheng,et al.,Structured Local Radiance Fields for Human Avatar Modeling,CV
23、PR 2022-37-主要工作三、高真實感化身生成 可編輯的頭部3D圖像生成結合2D對抗圖像生成及3D神經輻射場,生成實時可編輯高真實3D人臉圖像Sun et al.IDE-3D:Interactive Disentangled Editing for High-Resolution 3D-aware Portrait Synthesis,Conditionally accepted by SIGGRAPH Asia 2022-38-主要工作三、高真實感化身生成 提出了基于StyleGan的高真實頭部化身生成基于視頻驅動的頭部化身生成,Wang et al.StyleAvatar:Real-t
24、ime Photo-realistic Neural Portrait Avatar from a Single Video,Submitted to TPAMI 202223分鐘的輸入視頻PoseExpressionLightingTextureShapeParametersDiscriminatorT/FRealFakeDifferentiableRendererPoseExpressionPoseLightingTextureShapeExpressionLightingTextureShapeParametric Model Tracking訓練階段三維人臉模板渲染圖DecoderNo
25、ise能夠生成高清圖像的網絡結構StyleUnetEncoder網絡生成的輸出圖片DecoderLatent Mapping NetworkNoise訓練完畢的StyleUnetEncoder應用階段DifferentiableRenderer用于驅動的輸入視頻將表情與姿態映射到被驅動者模板上被驅動者模板渲染圖網絡生成的輸出視頻Latent Mapping Network-39-主要工作三、高真實感化身生成 提出了基于StyleGan的高真實頭部化身生成:數據采集利用手機拍攝23分鐘的面部視頻,視頻中包含盡可能多的頭部姿態和面部表情基于視頻驅動的頭部化身生成,Wang et al.StyleA
26、vatar:Real-time Photo-realistic Neural Portrait Avatar from a Single Video,Submitted to TPAMI 2022-40-主要工作三、高真實感化身生成 提出了基于StyleGan的高真實頭部化身生成:驅動生成基于視頻驅動的頭部化身生成,Wang et al.StyleAvatar:Real-time Photo-realistic Neural Portrait Avatar from a Single Video,Submitted to TPAMI 2022-41-驅動視頻生成視頻主要工作三、高真實感化身生成
27、 提出了基于StyleGan的高真實頭部化身生成基于視頻驅動的頭部化身生成,Wang et al.StyleAvatar:Real-time Photo-realistic Neural Portrait Avatar from a Single Video,Submitted to TPAMI 2022-42-驅動視頻主要工作三、高真實感化身生成 基于神經輻射場的高真實頭部3D化身生成-43-驅動視頻主要工作三、高真實感化身生成 基于神經輻射場的高真實頭部3D化身生成-44-位姿手勢表情聲音+文字個人助理輸入:人類大規模行為數據輸出:AI數字人多模態AI動作未來研究工作:多模態AI數字人運動
28、捕捉輸出運動、表情、情感等化身生成三維重建情感陪伴元宇宙智能體 AI數字人:技術路線 便捷的運動捕捉技術用于捕獲大規模人體交互行為與表情 逼真的化身生成技術用于最終輸出形象 高精三維重建技術用于獲得高質量三維信息輔助化身繪制1 12 23 34 4-45-未來研究工作AI數字人的戰略意義數字經濟新戰場AI數字人將成為人類與數字世界連接的入口,是未來虛實融合世界的基本要素科學研究新范式數字化人類與世界將開啟智能體仿真新時代,促進人工智能多模態協同發展與應用數字生命新形態個性化AI數字人融合數基生命系統,表觀-器官-基因-細胞的多尺度數字生命建模人類文明新世界AI數字人應用于情感與心理陪護,針對老年化或精神疾病問題,構筑美好精神世界-46-謝謝 謝!謝!2022/8/17