《世界超高清視頻產業聯盟:2024三維沉浸視頻技術白皮書(74頁).pdf》由會員分享,可在線閱讀,更多相關《世界超高清視頻產業聯盟:2024三維沉浸視頻技術白皮書(74頁).pdf(74頁珍藏版)》請在三個皮匠報告上搜索。
1、三維沉浸視頻技術白皮書(三維沉浸視頻技術白皮書(20242024)Three-DimensionalThree-Dimensional ImmersiveImmersive VideoVideoTechnologyTechnology WhiteWhite PaperPaper(20242024)UHD World Association世 界 超 高 清 視 頻 產 業 聯 盟三維沉浸視頻技術白皮書前 言本文件由 UWA 聯盟 xxx 組織制訂,并負責解釋。本文件發布日期:2024 年 11 月 13 日。本文件由世界超高清視頻產業聯盟提出并歸口。本文件歸屬世界超高清視頻產業聯盟。任何單位與
2、個人未經聯盟書面允許,不得以任何形式轉售、復制、修改、抄襲、傳播全部或部分內容。本文件主要起草單位:中國移動通信集團有限公司、咪咕文化科技有限公司、北京大學深圳研究生院、上海交通大學、中國電子技術標準化研究院、中國信息通信研究院、中央廣播電視總臺、國家廣播電視總局廣播電視規劃院、華為技術有限公司、北京七維視覺科技有限公司、北京元客方舟科技有限公司、深圳市洲明科技股份有限公司、利亞德光電股份有限公司、寰宇信任(北京)技術有限公司、新國脈數字文化股份有限公司、上海數字電視國家工程研究中心有限公司、杭州當虹科技股份有限公司、深圳市沉浸視覺科技有限公司、珠海南方數字娛樂公共服務中心、北京市博匯科技股份
3、有限公司、北京虛擬動點科技有限公司、北京華錄新媒信息技術有限公司、深圳市奧拓電子股份有限公司、北京聲響節拍科技有限公司本文件主要起草人:李琳、貝悅、王榮剛、徐嵩、王琦、鄭彬戈、周效軍、單華琦、杜江、趙璐、畢蕾、丁凌、李康敬、金晶、程志鵬、宋利、李婧欣、陳曦、翟云、楊春暉、彭瑞、熊凱強、魯國、閔雄闊、賈子恒、朱博成、邱溥業、李巖、王子建、郟濤、孫琳、王志剛、朱家悅、郭宇潔、張鴻宇、邱逸文、許煒、殷元江、劉耀、劉博文、張林華、譚勝淋、白建軍、劉莉、趙鵬、馮振華、宮蘇輝、王堯、殷惠清、陳家興、謝亞光、王振宇、韓冰杰、杜義堂、程利軍、郭忠武、張家斌、崔超、王吉、張現豐、嚴振航、寧黎、周凱旋三維沉浸視頻
4、技術白皮書免責說明:1,本文件免費使用,僅供參考,不對使用本文件的產品負責。2,本文件刷新后上傳聯盟官網,不另行通知。三維沉浸視頻技術白皮書目錄1.三維沉浸視頻概述.11.1 三維沉浸視頻概念.11.2 背景和意義.21.3 三維沉浸視頻的技術演進路線.32.三維沉浸視頻技術體系.42.1 三維沉浸視頻內容采集.52.2 三維沉浸視頻內容重建.102.3 三維沉浸視頻內容編碼.202.4 三維沉浸視頻內容傳輸.272.5 三維沉浸視頻渲染交互.292.6 三維沉浸視頻終端顯示.342.7 三維沉浸視頻質量評價.383.三維沉浸視頻發展趨勢.463.1 當前存在的問題.463.2 前沿技術概述.
5、473.3 3D 全真視頻.504.標準化建議.524.1 三維沉浸視頻標準.524.2 標準化建議.545.附錄.565.1 三維沉浸視頻應用.565.2 縮略語.655.3 參考文獻.67三維沉浸視頻技術白皮書11.三維沉浸視頻概述1.1 三維沉浸視頻概念三維沉浸視頻通過采集真實世界的數據,并結合計算機視覺、視頻編解碼、深度學習等技術,旨在模擬并重現現實場景的完整視覺信息,使觀眾能夠獲得立體、真實、沉浸式的視頻體驗。相對于傳統的二維平面視頻,三維沉浸視頻具有以下特點:從平面感知到立體感知:三維沉浸視頻通過立體影像技術使觀眾能夠感受到真實場景的三維結構。與傳統的平面二維視頻不同,三維沉浸視頻
6、通過立體顯示設備,如虛擬現實頭顯、裸眼 3D 屏幕等,能夠讓觀眾感知到物體的空間位置關系及深度信息。從單一視角到自由視角:傳統視頻限制了觀眾只能從固定的視角觀看內容。三維沉浸視頻致力于提供自由視角,觀眾通過觸摸屏幕、轉動頭部、手勢等交互方式,使觀眾視角能夠在場景中自由移動,仿佛置身于真實世界。從有限時空分辨率到任意時空分辨率:傳統視頻受時空分辨率的限制,三維沉浸視頻力求提供更高的時間分辨率和空間分辨率,以更完整、精細地呈現場景。復刻現實場景完整視覺信息:三維沉浸視頻試圖模擬并重現現實場景的所有視覺信息,包括顏色、光照、深度、運動等方面,通過照片級真實的渲染技術,創造更為真實沉浸的視覺感官體驗。
7、總體而言,三維沉浸視頻是一種持續發展創新的視覺技術,經歷了一系列的發展階段,最終目標是通過整合先進的技術和設計理念,使觀眾能夠在虛擬環境中獲得真實、身臨其境的感受。圖 1 三維沉浸視頻的特征三維沉浸視頻技術白皮書21.2 背景和意義能夠完整復刻真實場景全部視覺信息的三維沉浸視頻一直存在于人們美好的想象中。相對于傳統的 2D視頻,三維沉浸視頻可以給予觀眾全新的體驗。一方面,觀眾能夠沉浸在近乎全真的虛擬環境中,獲得深度的觀看體驗,為教育、文化、醫療和娛樂等諸多領域帶來視覺上的變革。另一方面,三維沉浸視頻使觀眾能與內容直接互動,觀眾從被動觀看變成積極參與,拉近了數字世界與現實生活的距離,為個體提供更
8、為個性化的體驗。但是,硬件設備、軟件算法、人機交互、內容創造等多方面的瓶頸都制約了三維沉浸視頻的發展。近年來,隨著數字技術的高速發展,元宇宙的概念逐漸深入人心,相關研究和產品呈現爆炸性增長,為三維沉浸視頻的最終實現創造了條件。一方面,圖形處理單元的運算性能不斷提高,能夠實時渲染高質量的圖像和視頻;高分辨率的平面顯示器、頭戴顯示設備、裸眼 3D 設備則能顯示更加清晰、逼真和立體的圖像;各種傳感器設備如陀螺儀、加速度計、觸摸傳感器等,使得設備能夠更準確地捕捉用戶的動作和交互。這為三維沉浸視頻的發展提供了硬件基礎。另一方面,人工智能技術(AI)的浪潮,打破了傳統算法所能達到效果的上限,降低了傳統方法
9、的硬件成本。例如,使用 AI 算法在改進圖像的清晰度、顏色飽和度和幀率方面都超過了傳統方法的效果,能夠提供更真實和引人入勝的觀看體驗。AI 還可以用于新視點合成、三維重建等,實現了更好的實時性和更高的渲染質量,為沉浸視頻的發展提供了軟件算法的基礎。作為一項面向未來的技術,三維沉浸視頻技術將對中國科技創新和產業升級產生巨大的推動作用,有利于強化國家戰略科技力量、增強技術自主可控能力。因此,沉浸式視頻的技術研究和產業應用已經寫入國務院、工信部、科技部、廣電總局和多個地方政府的政策性文件,國家十四個五年規劃和 2035 年遠景目標綱要提出要推進沉浸式視頻應用?!笆奈濉睌底纸洕l展規劃則提出要發展互
10、動視頻、沉浸式視頻、云游戲等新業態。2023 年 12 月 17 日,工信部等七部門聯合印發關于加快推進視聽電子產業高質量發展的指導意見,再次提出要加快 4K/8K 超高清、高動態范圍、沉浸音視頻、裸眼 3D 等技術應用。根據2024 中國沉浸產業發展白皮書,到 2023 年,中國沉浸產業消費市場規模達到 927 億元,總產值 1933.4 億元,預計 2024 年能突破 2400 億元。但作為一個新興產業,三維沉浸視頻的技術尚未成熟,產業正處于探索和發展階段,大眾對于三維沉浸視頻的認知尚不足,親身體驗者更是寥寥。由于三維沉浸視頻的技術復雜性,行業內缺乏完善的標準,硬件方面存在兼容性和互操作性
11、問題,龐大的數據面臨壓縮和傳輸的挑戰,制作和渲染未形成統一的解決方案。為此,本白皮書將梳理三維沉浸視頻技術的演進路線和技術體系,展示典型的應用場景和產業需求,為三維沉浸視頻技術提出標準化建議。三維沉浸視頻技術白皮書31.3 三維沉浸視頻的技術演進路線三維沉浸視頻的技術發展不是一蹴而就的,需要經歷多個階段,不斷引入新的技術和方法,以提供更為逼真、沉浸和交互的體驗。如圖 2 所示,三維沉浸視頻的技術演進經歷了以下幾個階段。圖 2 三維沉浸視頻的技術演進雙目立體技術:雙目立體是三維沉浸視頻早期的實現方式。通過兩臺攝像機模擬人眼的雙目視覺,使觀眾能夠感知到深度,其缺點主要是需要佩戴特殊的眼鏡或者頭戴式
12、顯示設備,并且在視點數量和視覺舒適性方面存在局限性。多視裸眼 3D 技術:裸眼 3D 技術突破了傳統雙目立體設備的限制。通過特殊的顯示屏技術,觀眾在不使用額外輔助設備的情況下仍然能夠感受到深度。但單視點的裸眼 3D 顯示只能在屏幕前某個固定的位置上感受到 3D 圖像,視點有局限性。為此,使用水平方向上多臺攝像機圍繞拍攝,同時生成并顯示多個視點的圖像,就能在屏幕前的多個位置或是一個較大的范圍觀看到 3D 圖像。全景 3D 技術:全景 3D 視頻結合了全景視頻和立體影像技術,觀眾可以像身臨其境一樣感受到環繞式的觀看體驗,并且可以在不同的方向上自由轉動視角。這種技術通常需要特殊的攝像設備來采集全景視
13、頻,并使用立體影像技術來處理和呈現立體效果。自由視點技術:自由視點技術是一種允許觀眾從外部場景觀看視頻時自由選擇視點的技術。它通過從多個視點采集視頻或者利用計算機合成虛擬視點來實現。在觀看視頻時,觀眾可以通過交互式界面或者設備自由選擇不同視角,從而獲得更加個性化和沉浸式的觀影體驗。三維沉浸視頻技術白皮書4體積視頻技術:體積視頻是一種采集和呈現三維空間中動態場景的技術。體積視頻通常由一系列包含深度信息的幀組成,常見的表示形式包括點云、3D 網格等。這些三維模型在時間上連續排列,從而形成一個可以從不同視角觀看的完整視頻。當前,體積視頻雖然能夠提供六自由度(DoF,Degrees of Freedo
14、m)的觀看體驗,但拍攝難度大,僅適用于室內小場景,渲染質量不夠高,也沒有形成廣泛接受的標準。2.三維沉浸視頻技術體系三維沉浸視頻的技術體系包含了內容采集、內容重建、內容編碼、內容傳輸、渲染交互、終端顯示、質量評價等七個核心組成部分。內容采集階段通過各類相機獲取場景的視覺信息。然后利用雙目立體視覺、多視立體視覺等技術將這些數據轉化為具有立體感和幾何結構的場景。接著,對數據進行壓縮和編碼,以便在傳輸和存儲中減少數據量。渲染交互階段將編碼后的數據解碼,并通過視點合成等技術渲染成沉浸式的視覺體驗。最后,終端顯示為用戶提供了沉浸視頻的觀看方式。這六個部分協同作用,創造出立體、沉浸式的視覺體驗。此外,質量
15、評價可以幫助確定三維沉浸視頻的整體質量。本章將對相關技術進行詳細介紹。圖 3 三維沉浸視頻技術體系三維沉浸視頻技術白皮書5圖 4 技術體系與技術演進關系圖2.1三維沉浸視頻內容采集內容采集是三維沉浸視頻制作的第一步,旨在捕捉場景的視覺和幾何信息,為后續的三維重建和渲染提供基礎數據。不同的采集方式適用于不同的場景和需求,能夠提供不同范圍的場景信息,從而影響對視頻的處理方式以及最終呈現效果的真實性和沉浸感。三維沉浸視頻內容采集包括圖像的采集和深度信息的采集,圖像采集可以通過多視點的方式,使用雙目相機、陣列相機或全景相機完成。而深度信息的采集既可以通過被動式采集即多目相機通過后期計算獲得,也可以通過
16、深度相機、激光掃描儀等通過物理的方式直接獲得。圖 5 內容采集方式三維沉浸視頻技術白皮書61.雙目相機采集單目相機通?;卺樋啄P蛠砻枋鱿鄼C的成像過程。它假設相機具有一個光學中心和成像平面,光線從物體通過光學中心投影到成像平面上形成圖像。焦距表示光學中心到成像平面的距離,而透視投影描述了物體在圖像中的投影位置。相機參數包括焦距、成像平面尺寸、畸變參數等,用于校準相機并計算像素與物理空間之間的關系。單目相機的針孔模型是理解和分析相機成像的基礎,它與多目相機系統共同構成了計算機視覺和攝影學中的重要工具。圖 6 針孔相機模型雙目相機內容采集是一種利用兩個單目相機同時拍攝同一場景的方法,以獲取更加豐富
17、和準確的視覺信息。在雙目相機系統中,左右兩個相機分別模擬人類的兩只眼睛,兩個鏡頭通常被安裝在一個固定的平臺上,以保證它們的空間位置和朝向一致。在內容采集過程中,雙目相機需要同時獲取兩個攝像機的圖像數據,并確保它們的時間同步和空間校準,以保證后續處理的準確性。另外,為了實現對場景深度的感知,需要通過分析兩個攝像機圖像之間的視差信息來計算物體到相機的距離。因此,雙目相機內容采集不僅可以提供立體感覺,還能夠實現對場景深度的測量和感知。下圖為理想的雙目深度相機成像模型,只需要獲得一個空間點在左右相機中的視差,就可以計算出該點的深度信息。三維沉浸視頻技術白皮書7圖 7 理想雙目相機模型2.陣列相機采集陣
18、列相機是一種使用多個攝像機排列在一起的成像系統,旨在獲取更廣闊的視野和更豐富的場景信息。如下圖所示為陣列相機的幾種典型幾何排列方式,包括水平或垂直的線性排列、環繞排列、2 維平面式排列、3D 陣列等。陣列相機的工作原理類似于雙目相機,但通過更多的攝像機增加了視點個數,便于獲得整個場景的三維結構。在內容采集過程中,陣列相機需要確保所有攝像機拍攝的圖像在時間上保持同步,并通過精確的空間校準來將它們的視野對齊。通常,這需要使用高精度的硬件同步和精確的攝像機標定技術。通過對多個攝像機圖像進行融合和處理,陣列相機還能夠合成密集的虛擬視點,或者通過多視點視圖實現對真實場景的三維重建。圖 8 相機陣列幾何排
19、布方式三維沉浸視頻技術白皮書8圖 9 3D 陣列3.全景相機采集全景相機采集系統通常由多個攝像頭組成,可以同時拍攝多個方向的視頻,并通過軟件或硬件的方式將這些視頻拼接成全景視頻。全景相機的鏡頭可以采用普通鏡頭,也可以使用魚眼鏡頭,鏡頭的排列可以按環形、球形或其他幾何形狀的方式布局,以確保它們的視野可以實現全方位覆蓋。攝像頭的布局方式取決于相機系統的設計和應用需求,如使用兩個 180 度魚眼鏡頭組合或者使用 8 個普通鏡頭排成環形組合,也可以使用魚眼鏡頭和普通鏡頭組合的方式。為了確保拍攝到的圖像在時間上是同步的,多攝像頭全景相機通常采用同步拍攝的方法。這可以通過硬件同步或軟件同步來實現,以保證多
20、個攝像頭采集到的圖像在后續拼接過程中能夠對齊。通過多個攝像頭同時工作,系統可以捕捉到更多的細節,并且在圖像拼接后提供更高分辨率和高質量的全景圖像。但它們也面臨復雜的圖像處理和同步控制挑戰。因此,在使用這種相機系統時需要充分考慮其技術要求和應用場景。全景視頻為了呈現立體效果,需要為左右兩個視點分別生成全景圖,這可以通過全方向立體投影(ODS,Omni-directional Stereo)模型來描述。ODS 給出了一種 3D 全景的緊湊表示方法,將空間中與一個半徑為人眼瞳距的觀察圓(Viewing Circle)相切的光線映射為兩組(左眼光線和右眼光線)光線,對于同一個方向空間光線,它們在觀察圓
21、上的投影中心恰好落在觀察圓的一條直徑上??梢韵胂髮⑷搜劾@著中軸旋轉360,并把每一個時刻記錄下來的圖片中與觀察圓相切的一條光線拼接成一個完整的圖像。如下圖所示,ODS對空間中所有與觀察圓相切的光線進行采樣,圖中藍色的光線對應于右眼觀測到的光線,紅色對應左眼觀測到的光線。三維沉浸視頻技術白皮書9圖 10 左:全景相機共光心環形排布、右:ODS 模型4.深度信息采集RGB-D 相機是一種同時提供彩色圖像和深度信息的相機。它結合了傳統 RGB 攝像頭和深度傳感器的功能,可以在多個像素位置上提供距離信息,從而使得獲取的圖像不僅具有顏色信息,還具有場景中物體距離相機的深度信息。這種深度信息通常以距離值或
22、者點云的形式表示,能夠幫助計算機視覺系統更準確地理解場景的幾何結構。RGB-D 相機的使用極大地推動了許多領域的發展,使得以往依賴于復雜傳感器和設備的任務變得更加簡單和實用。RGB-D 相機獲取深度信息的方法包括被動式方法如雙目立體視覺,以及主動式方法如結構光相機、TOF(Time of Flight)相機等。結構光 RGB-D 相機通常采用特定波長的不可見的紅外激光作為光源,發射出來的光投射在物體表面。使用相機拍攝被測物體的結構光圖像,通過一定的算法獲得物體的位置和深度信息。這種方式在靜態場景和非透明物體具有較好的性能,適用于室內環境,但在較遠距離和透明物體上的性能較差,深度測量精度可能下降
23、。圖 11 結構光 RGB-D 系統組成三維沉浸視頻技術白皮書10TOF 相機是一種利用飛行時間原理獲取深度信息的 RGB-D 相機。它的工作原理是通過發射連續光脈沖到場景上,然后測量光線從相機發射到物體表面再返回相機的時間,從而計算出物體到相機的距離。其優點是速度快,可以實時采集深度信息,適用于動態場景。但分辨率相對較低,深度圖像的精度和準確性可能較差,尤其是在長距離和低反射率表面上的性能較差。此外,還可以通過激光掃描的方法獲取物體或者場景的三維結構信息。該技術利用激光掃描設備向目標物體發射激光,并記錄激光束反射回來的時間差確定距離,從而生成大量離散的點云數據。通過對這些點云數據進行處理和分
24、析,可以實現對物體的三維重建,包括幾何形狀和表面細節。激光掃描法生成模型精度相對較高,被廣泛應用于工程設計、文物保護、建筑測量等領域。激光掃描法的缺點是受環境影響較大、無法掃描特殊表面、時間長、成本高、應用范圍有限等。2.2三維沉浸視頻內容重建三維沉浸視頻的內容重建是通過從單個或者多個視角采集的視頻或幾何信息,利用計算機視覺和圖像處理技術,對場景進行三維結構的重建。獲取場景三維結構的方法可以分為主動式和被動式兩個大類,基于主動視覺的三維重建方法需要人工設置特別的照明光源,光源信號投射到場景后,圖像傳感器獲取返回的信號,通過比較發射前后信號的差異來計算物體的深度信息生成三維結構。這類方法適用范圍
25、比較受限,超出一定距離后誤差很大,在深度圖質量、圖像分辨率和時間分辨率等參數上也存在一些劣勢?;诒粍右曈X的三維重建技術不需要進行人為增加光源,相機在自然光下采集圖像,包括雙目立體視覺技術、運動恢復結構(SFM,Structure From Motion)技術、多視立體視覺技術(MVS,Multiple View Stere)等。對于單目視頻,可以通過明暗度恢復形狀法(SFS,Shape From Shading)、紋理法(SFT,Shape From Texture)、輪廓法(SFS/SFC,Shape From Silhouettes/Contours)、調焦法(SFF,Shape Fro
26、m Focus)等通過圖像中的特征信息進行三維重建,也可以通過深度學習的 2D 轉 3D 技術實現立體效果。對于全景 3D 視頻,還需要使用到全景圖的拼接和合成技術。1 三維沉浸視頻表示如下圖所示,3D 圖像的表示方式決定了相機設置,數據安排,發送端,接收端處理數據的方式等。另一方面,3D 圖像表達方式也決定了內容合成、編碼和傳輸方式。3D 圖像表示和渲染的方法有基于幾何模型表示如點云(Point Cloud)、體素(Voxel)、網格(Mesh),有基于圖像的表示方式如光場合成,還有混合表示如多視點加深度圖、分層深度圖等,此外還有隱式表示的方式。常見的表示方式如下:三維沉浸視頻技術白皮書11
27、圖 12 3D 圖像的表示方式點云是由三維空間中的一組點組成的集合,每個點都有其在空間中的坐標。點云通常用于表示和模擬三維對象或場景,是計算機圖形學、計算機視覺、機器人學和虛擬現實等領域中的常見數據表示形式。通過激光掃描、結構光掃描、立體視覺等方式可以獲取原始點云數據,然后通過對原始點云數據進行預處理、特征提取、配準、濾波、擬合等實現對物體的建模、分析和處理。體素是三維空間中的體積像素。與二維像素類似,體素是三維圖像或三維場景的最小可分辨單元。體素通常由立方體表示,具有三維坐標以及可能的屬性信息,如顏色、密度等。體素在三維重建中扮演著重要的角色,它們是一種對三維空間進行離散化表示的方式,有助于
28、建立物體或場景的模型。網格是由一系列連接的頂點、邊和面組成的三維結構,在三維重建中扮演著重要的角色。一些三維重建算法的輸出就是一個網格,以表示被重建物體的外表面。通過從點云數據、體素等形式轉換為網格,可以更容易地對重建后的對象進行可視化、分析和編輯。以上三類表示較為精確,便于渲染和顯示任意視點,但建模和匹配相對復雜,耗時大?;趫D像的表示不需要幾何信息和匹配信息。這類方法包括光場合成(Light Field Rendering),光圖(Lumigraph),共光心拼接(Concentric Mosaics Representation)等。通過多角度的圖像采集,使用基于像素或者塊的圖像處理方式
29、來產生虛擬的中間視點。該方法的主要優點是無需 3D 場景重建即可完成高質量的虛擬視點合成(Virtual View Synthesis)。然而該優點也必須付出一些昂貴的代價:一方面,必須通過大量的相機對場景進行稠密的過采樣,另一方面,為了合成高質量的虛擬視點,大量的圖像被處理和傳輸。如三維沉浸視頻技術白皮書12果對場景采樣過小,那么閉塞區域(Disocculusions)的插值偽影(Interpolation Artifacts)會相當明顯,極有可能影響合成質量。兩者混合的表示兼顧了基于幾何和基于圖像表示方法的優勢,主要的表示方式有多視點加對應的深度圖、視差圖等,這種方式一般只需要很少的幾個視
30、點加對應的深度信息,通過基于深度圖繪制的視點合成方法可以生成一定范圍內的虛擬視點。由于這種表示方式合成效果較好,且相對容易獲得,因此成為三維視頻重要的描述方式。但這種方式在合成視圖中依然面臨偽影和空洞修復的問題。隱式表示是一種基于函數的方法,通過隱式函數來描述三維空間中的物體或場景。在隱式表示中,物體的表面不是顯式地表示為點、面或體素,而是通過滿足某種隱式函數的點集來定義,隱式函數通常不直接提供關于三維空間的幾何信息,而是輸出三維空間中所有幾何特征滿足的關系。常見的隱式表示有符號距離函數(SDF,Signed Distance Funciton),占用場(Occupancy Field),神經
31、輻射場(NeRF,NeuralRadiance Field)等。隱式表示方法可以直接從觀測到的二維圖像數據中學習對象的三維結構和屬性,而無需顯式地提供三維信息作為監督信號。同時,隱式表示方法還能夠產生高質量、高分辨率的圖像,使其在圖像生成、渲染和視覺重建等任務中具有廣泛的應用前景。2.2D 轉 3D 技術隨著 Apple Vision Pro 的發布以及各類頭顯、裸眼 3D 設備的廣泛使用,3D 視頻的需求大幅增加。但依靠專業 3D 設備拍攝的視頻資源量仍然較小。因此將已有的 2D 視頻直接轉換為 3D 立體視頻具有重要的意義。2D 視頻轉 3D 視頻可以理解為由一只眼睛看到的場景生成另一只眼
32、睛看到的畫面,這與圖像的深度估計密不可分,可以采用傳統圖像處理方法或深度學習方法。傳統方法如單目深度估計、光流分析等依賴于經典的圖像處理技術。單目深度估計通過分析圖像中的紋理、光照變化或邊緣信息來推測深度。然而,這種方法的準確性受限于圖像的質量和紋理特征,在紋理信息不足、邊緣模糊等情況下表現不佳。光流分析法是一種通過計算視頻中連續幀之間的像素移動來估算場景深度的方法。它利用物體在幀間的運動來推測距離,生成深度信息。這種方法適用于動態場景,但在精度、計算復雜度和圖像噪聲干擾方面面臨挑戰。深度學習方法的興起促進了單目深度估計技術的快速發展,例如,可以采用卷積神經網絡、生成對抗網絡、Transfor
33、mer 網絡等。卷積神經網絡通過對大量標注有深度的訓練數據進行學習,能夠生成每個像素的深度信息。這種方法的優點是無需額外的視角或深度傳感器,適用于多種場景。生成對抗網絡通過生成器和判三維沉浸視頻技術白皮書13別器的對抗訓練,能夠生成高質量的深度圖。Transformer 網絡通過捕捉圖像中的全局上下文信息,能夠顯著提升深度估計的精度和魯棒性??偟膩碚f,深度學習技術的進步,使得 2D 到 3D 的轉換變得更加高效和準確。3.雙目立體視覺技術雙目立體視覺是一種基于雙目相機的深度感知技術,它模擬了人類雙眼的視覺系統。通過安裝兩個攝像頭并調整它們的間距,雙目立體視覺系統可以同時采集同一場景的兩個不同視
34、角的圖像。這兩個圖像之間存在一定的視差,利用這個視差信息,可以計算出場景中物體的深度信息。在雙目立體視覺中,使用傳統方法獲得場景的三維結構,通常使用如下圖所示的幾個步驟:圖 13 雙目立體視覺流程相機標定:相機的內外參數是描述相機成像過程中的重要參數,包括內部參數和外部參數。內部參數主要描述了相機的內部幾何特性,如焦距、主點、畸變系數等,這些參數通常在相機制造時就固定下來,并且通常由相機制造商提供。外部參數則描述了相機與世界坐標系之間的幾何關系,包括相機的位置、朝向、旋轉角度等,這些參數需要通過相機標定或者視覺定位算法來獲取。內外參數的準確性對于計算機視覺任務至關重要,它們在三維重建、攝像機運
35、動估計、立體視覺等方面起著關鍵作用,能夠影響到最終結果的精度和穩定性。對于相機內參(如焦距、主點位置、鏡頭畸變),通??梢允褂闷灞P格標定法估計,讓相機拍攝多角度的印有棋盤格的物體,通過角點檢測找到棋盤格上的角點,再通過平面約束求解相機內參。對于相機外參(如相機位置、朝向),可以使用稀疏光束平差(SBA,Sparse Bundle Adjustment)對多相機系統進行標定,該方法假定給定多個視角下二維點對應三維坐標初始估計,以及每個相機的內參估計,利用這些信息完成一個優化問題,包括所有相機的內外參數以及三維點坐標,使得重投影誤差最小。圖像矯正:在相機相對位置一致的情形下,場景點在兩個相機上的投
36、影滿足極線約束(EpipolarConstrain),即一幅圖像中的特征點在另一幅圖像上的所有可能的對應點的軌跡構成一條二維直線,這條二維三維沉浸視頻技術白皮書14直線稱為極線(Epipolar Line),通過極線約束可以極大縮小立體匹配的范圍,提高立體匹配的魯棒性和穩定性,減少計算復雜度。圖 14 對極幾何約束(P 是場景點,O 和O分別是兩個相機的光心,p 和p分別是 P 在兩個相機上的投影)理想情況下若兩相機成像面平行且對齊,參數相同,那么像素的極線就在水平方向上。但實際拍攝中,由于相機的安裝誤差、成像面不平行等原因,通常不滿足理想條件。因此,需要通過旋轉和平移相機的成像面使得它們與兩
37、個相機的基線(Baseline)平行,以實現極線矯正。圖 15 旋轉相機成像面使其與基線平行立體匹配:對于一組經過矯正的圖像對,通過立體匹配來獲取圖像對上像素點的對應關系。立體匹配的算法有全局算法、局部算法、深度學習的方法等。全局(半全局)立體匹配算法采用全局優化理論,通過最小化全局能量函數(包含一個數據項和平滑項)得到最優視差值。常用算法有動態規劃(DynamicProgramming)、圖割法(Graph Cuts)、置信度傳播方法(Belief Propagation)等。局部立體匹配的方法通過對參考圖像中的每個像素周圍定義一個窗口,并利用該窗口內的像素信息與目標圖像中對應窗口進行匹配,
38、進而計算像素間的視差。這種算法僅利用局部區域的約束數據進行匹配,不考慮全局一致性,具有計算復雜度低的優點,但在低紋理、重復紋理、視差不連續和遮擋等情況下,匹配效果可能較差。近年來,隨著深度學習技術的發展,基于神經網絡的立體匹配方法逐漸流行。這類方法利用卷積神經網絡學習左右圖像之間的特征表示和匹配關系,例如神經網絡的特征匹配、立體神經網絡(Stereo NeuralNetworks)等。三維沉浸視頻技術白皮書15三維重建:根據匹配的結果計算圖像中每個像素的視差值,然后利用視差值和相機參數進行三角測量,計算出場景中每個像素點的深度信息,從而可以得到稠密的三維空間點云。最后,對獲取的三維空間點云進行
39、預處理、表面重建、模型優化、后處理等步驟就可以得到更為光滑和精細的三維模型。4.多視立體視覺技術多視立體(MVS,Multiple View Stereo)視覺是雙目立體視覺的推廣,它通過多個攝像頭或者攝像頭組從不同的角度觀察同一場景,以獲取場景的多個視角圖像。視角之間的差異性提供了豐富的深度信息,使得系統能夠更準確地理解場景的三維結構和物體的位置。多視立體視覺的方法包含體素重建法、點云擴散法、深度圖融合法等:體素重建法對計算機內存設備的要求較高,如果想要表示較大的重建場景,則體素的數量只能增多,也即用硬件換取重建場景的范圍,而如果想要更精細的細節,則需要更小但分辨率更高的體素,同時這也意味著
40、更高的硬件要求。在有限的硬件資源下,如果想要表示大場景,只能降低體素的分辨率。點云擴散法將稀疏重建中得到的稀疏點云投影到各個視角的圖像,并向投影點周圍區域擴散。對于某個視角,在擴散的過程中,如果深度值與其他視角不一致或一致性較低,則視角間選出一致性最高的點作為新的深度值,這樣就能逐漸重建完整的點云模型。點云擴散法優勢是重建得到的點云精度較高,且在模型上的分布均勻,但是劣勢是其在對弱紋理區域的處理能力較弱,容易造成空洞?;谏疃葓D融合的方法:對于每張紋理圖估計對應的深度圖,然后依次融合成點云。由于深度圖的計算可用 GPU 進行加速,其在視角數量眾多的場景下具有其他方法不可比的優勢。此外,深度圖融
41、合的方法相比其他方法,點云密度高,這也將有助于網格生成等下游任務。目前,大部分的開源 MVS 軟件以及商用 MVS軟件均采用此方法。三維沉浸視頻技術白皮書16來源:https:/ 16 MVS 重建效果基于深度圖融合的多視立體視覺通常經過稀疏重建和稠密重建兩個階段。稀疏重建階段可以使用運動恢復結構(SFM,Structure From Motion)技術,在未知相機姿態的情況下恢復場景的稀疏三維結構。稠密重建的主要任務是從已估計的相機姿態和稀疏三維點云出發,進一步細化和豐富場景的三維結構,構建場景的稠密三維模型。此外,隨著深度學習的發展,通過深度學習方法實現多視立體視覺也成為一種有效的手段。1
42、)運動恢復結構從圖像中恢復出場景的三維結構是計算機視覺的基本目標。其中一種特別有效的三維重建方法使用靜止場景的眾多圖像來進行場景重建,也就是基于運動恢復結構的三維重建。SFM 主要分為增量式和全局式。增量式 SFM 采用逐步的方式處理圖像序列,一次處理一對或一小組圖像,然后逐步積累姿態信息來重建整個場景。全局式 SFM 會同時考慮所有的圖像,并在整個圖像集上進行優化,以最大程度地提高重建結果的準確性和穩健性。典型的增量式 SFM 算法通常包括以下幾個步驟:圖 17 典型的 SFM 算法流程特征點提取與匹配:特征點提取的目的是在圖像中識別具有顯著信息的點,這些點在視角變化、尺度變化和光照變化等情
43、況下能保持穩定性。常用的特征點如角點、邊緣尺度不變特征變換(SIFT,Scale InvariantFeature Transform)、ORB(Oriented Fast And Rotated Brief)等局部特征點。特征點匹配的目標是找到不同圖像中對應的特征點,即代表相同物理點的特征點。匹配過程中,首先計算特征點的描述子,然后使用距離度量(如歐氏距離、漢明距離等)來衡量它們的相似性,最后通過最近鄰搜索、暴力匹配等策略找到匹配的特征點。幾何驗證:特征匹配僅是基于特征點的外觀描述,因此無法保證對應的特征點實際上映射到相同的場景點。為此需要利用圖像間的幾何關系,來驗證這些特征匹配的正確性。常
44、見的方法有隨機采樣一致性方法三維沉浸視頻技術白皮書17(RANSAC,Random Sample Consensus)、8 點法、5 點法等。這些方法能夠有效估算圖像之間的基礎矩陣和本質矩陣,丟棄錯誤的匹配點并準確計算相機之間的相對運動。初始化:選擇一對合適的圖像來初始化模型是非常關鍵的,因為很有可能無法從錯誤的初始化結果中重建三維模型。此外,選擇密集、信息豐富的初始圖像對能夠提升重建的精度和魯棒性,而選擇稀疏的初始化位置可以減少計算復雜性,但重建質量可能下降。圖像配準:增量式 SFM 重建需要在初始模型的基礎上逐步加入新圖像,并通過圖像配準和三角測量的方式更新模型。圖像配準過程從一個度量重建
45、(Metric Reconstruction)的模型開始,通過解決 PnP(Perspective-n-Point)問題,估計新圖像的相機位姿(位置和朝向)并將新圖像配準到當前模型中。PnP過程利用特征點的對應關系,將新圖像中的特征點與已引入模型的圖像的三角測量點(2D-3D 對應關系)進行匹配,得到新圖像的相機位姿以及未標定相機的內參。三角測量:如下圖所示,三角測量是通過從不同視角的圖像中對同一場景點進行觀測,來確定該點的三維空間位置。通過這個過程,可以在三維空間中定位新點,并將其添加到現有模型中。三角測量是 SFM 的關鍵步驟,因為它不僅可以擴展場景模型,而且提供了多視角的冗余信息,從而增
46、強了模型的穩定性。圖 18 三角測量獲得三維點的深度光束法平差(Bundle Adjustment):光束法平差是一種用于優化相機位姿和三維點位置的技術。它通過最小化圖像中觀察到的特征點,與根據當前估計的相機位姿和三維點位置計算出的重投影位置之間的誤差來改善重建結果的準確性。在這個過程中,相機的位姿和三維點的位置被視為優化變量,目標是使重投影誤差盡可能小。光束法平差通常使用迭代優化算法來解決這個非線性優化問題,并且通過反復迭代,不斷更新相機位姿和三維點的位置,直到達到收斂條件為止。最終的優化結果可以提高三維重建的精度和穩健性。2)稠密重建三維沉浸視頻技術白皮書18SFM 主要關注從圖像中提取相
47、機參數和生成稀疏點云,而稠密重建則在此基礎上,通過深度估計等技術進一步細化和完善三維模型,以實現更精確和全面的場景重建,其主要技術包括:深度估計:利用空間幾何一致性約束,即空間中一個點、塊在不同視角是顏色、形狀一致的,計算獲取得到每一張圖片每一個像素的估計深度。MVS 的深度估計可以分為 Plane Sweep 與 PatchMatch 兩類。Plane Sweep 算法可以比較容易地實現,并且在一些場景中具有較好的性能。它可以并行化地處理每條掃描線,從而提高匹配的速度。PatchMatch 算法通常需要更復雜的實現,并且在處理大規模圖像時可能會變得較慢。但它通常能夠產生更準確的匹配結果,并且
48、具有更好的魯棒性。點云融合(Fusion):根據上步驟獲取的深度圖,將二維像素點反投影到三維重建中,并進行重復點云的融合,獲得一個統一的稠密點云表示。網格化(Meshing)和紋理貼圖(Texturing):根據稠密點云,通過三角化等方法將點云結構轉換成網格結構,并將紋理映射到網格模型上,最終獲得一個完整的場景/物體模型。圖 19 基于深度圖融合的多視立體匹配流程3)基于深度學習的多視立體視覺自 2018 年起,多視立體視覺與深度學習結合的方法開始涌現。MVSNet 借鑒了傳統方法中 PlaneSweep 的方法來構建匹配代價體(Matching Cost Volume),然后對匹配代價體使用
49、 3D 卷積正則化代價體(可以類比于傳統方法里代價聚合),得到初始深度圖,最后通過 2D 卷積精細化深度圖細節或者去除噪聲。此后,許多方法在 MVSNet 的基礎上進行了優化,如 CasMVSNet 在 MVSNet 的基礎上構建了金字塔結構,從粗略到精細逐漸優化深度圖;R-MVSNet 使用循環網絡代替 3D 卷積優化代價體,減少深度網絡的顯存需求,使得深度網絡也可以處理高分辨率圖像;DeepPruner 拋棄 Plane Sweep 的代價構建方式,使用可微分的三維沉浸視頻技術白皮書19PatchMatch 方式獲取深度圖,在推理速度上進一步提升;MVS2、MVS3 等提出無監督的多視立體
50、視覺模型,解決了深度網絡依賴于物理設備采集真實深度數據的難題?;谏疃葘W習的多視立體視覺,無論是有監督模型還是無監督模型,與其他領域的深度學習模型一樣,同樣面臨著場景變換情況下泛化性的問題,相比之下,傳統方法則不需要訓練集,這是其最大的優勢。無監督的深度學習模型解決了真實標簽難以獲取的難題,但其效果仍然與 SOTA 有監督模型存在一定差距。此外,關于深度圖生成速度問題,有監督與無監督模型訓練耗時極大,而訓練完成后模型的推理速度較高。相對而言,傳統方法生成深度圖的速度仍然很慢。5.全景立體視頻技術全景視頻展示的是某個觀察點周圍 360 度的全部景象,因此需要存儲的信息由經過這個觀察點的所有光線組
51、成。由于經過一個點的光線有無窮多條,全景視頻會對這些光線進行離散化采樣,并將其中的一部分保存,再映射到某個 2 維平面進行存儲。用戶的有效視野在水平方向上通常約為 150 度,而戴上 VR 頭顯后,實際可見范圍會變得更小,通常在 110 度以下。因此,全景視頻數據中有一部分內容無法在用戶有效視野內顯示。當用戶使用頭顯或其他觀看工具時,全景圖像會被反映射成 3D 光線,根據用戶觀看的角度重新成像,以適應頭盔的限制,并在用戶的眼睛中呈現出一種沉浸感。全景立體視頻技術結合了全景視頻和立體視覺,可以為觀眾提供 360 度環繞和立體的視頻感受。構建立體全景視頻會比平面全景視頻更加復雜,涉及到全景視頻的拼
52、接技術以及全景立體視頻合成技術。1)全景視頻的拼接技術該技術是用來將多個成像設備在不同位置拍攝到的視頻內容對齊并拼接為全景圖像的方法。常用的拼接方法包括:傳統的基于單映射的全景拼接技術、基于雙單應矩陣的拼接算法、基于動態直接線性變換法的拼接技術等?;趩螒仃嚨钠唇臃椒ǎ簡螒仃囃ǔC枋鎏幱诠餐矫嫔系囊恍c在兩張圖像之間的變換關系。若所有相機采集到的視圖共面或近似共面,或者視角變化不大時,則可以通過單應來進行相機位姿估計。這種方式適用于相機之間僅有旋轉,沒有平移的情況。然而在實際拍攝過程中,多個相機的成像中心并不重合,對應不同景深的圖像區域帶有不同的視差(Parallax),無法正確地通過單
53、應矩陣對齊,可能會出現拼縫或者失真等情況?;陔p單應矩陣的拼接算法:該技術使用兩個單應矩陣分別擬合近景平面和遠景平面,并且對這兩個單應矩陣進行融合,從而更好地對齊圖像。三維沉浸視頻技術白皮書20基于動態直接線性變換法的拼接技術:當場景為平面的或者相機位姿為純旋轉,單應矩陣的拼接模型是合理的,然而實際情況中該前提很難滿足,因而會產生偽影(Ghosting Artifact)?;趧討B直接線性變化法的拼接技術(APAP,As-ProjectiveAs-Possible With Moving DLT)不再采用全局投影,而是允許局部存在相對于全局投影的偏差。APAP 基于動態直接線性變換法(Movi
54、ng Direct Linear Transformation,Moving DLT)可以無縫地橋接與投影模型不一致的圖像區域。該算法產生了高度準確的圖像拼接結果,顯著少了偽影現象,大大降低了算法對后處理階段去偽影的依賴性。2)全景立體視頻合成技術上述方式拼接出來的全景視頻只能給雙眼提供相同的內容,缺乏 3D 深度感。為了提供六自由度的內容,需要從有限的真實視圖合成虛擬視圖。這可以使用稠密的光流算法實現,待合成的連續虛擬視點不是某個空間視點位置對應的完整圖像,而是分別針對左右眼視點且滿足 ODS 模型的像素列,這里模擬了用戶雙眼觀看現實世界的過程。圖 21 全景立體視頻內容合成典型的全景立體視
55、頻合成算法,首先從相鄰相機鏡頭之間提取重疊區域。然后逐像素計算左右重疊區域之間的雙向稠密光流信息,這里可以使用傳統方法如 Lucas-Kanada 方法、LK 金字塔光流算法等,也可以使用深度學習的方法獲得光流如 RAFT、GMA 等。最后,根據光流信息及 ODS 模型合成左右眼的虛擬像素列。2.3三維沉浸視頻內容編碼三維沉浸視頻內容編碼涉及將三維場景的內容編碼成數字數據,以便在沉浸式視頻系統中傳輸、存儲和呈現。三維視頻和二維視頻很大的不同在于其表示格式、編碼技術和三維顯示技術之間是相互關聯的,不同的三維顯示需要使用不同編碼方案,如傳統的平面視頻編碼、雙目立體視頻編碼、多視點編碼、全景立體視頻
56、編碼、體積視頻編碼等。1.傳統平面視頻編碼技術三維沉浸視頻技術白皮書21視頻編碼是指用于將數字視頻壓縮以便于存儲和傳輸的一系列規范和算法。視頻編碼標準只規定了碼流的語法語義和解碼器,只要碼流符合相應的標準語法,解碼器就可以正常解碼。如下圖所示,從 1980 年代至今,視頻編碼標準的發展已經超過了 40 年。目前,由國際電信聯盟(ITU-T)和國際標準化組織(ISO)/國際電工委員會(IEC)制定的 H.26x 標準,由開放媒體聯盟 AOM 制定的 AVx 標準以及由我國數字音視頻編解碼技術標準工作組(AVS 工作組)制定的 AVS 系列標準是國際上三個主流的視頻編解碼標準。隨著技術的不斷發展和
57、應用需求的不斷變化,視頻編碼標準將繼續發展和演進,以滿足視頻壓縮效率、視覺質量和實時性等方面的不斷提升的需求。圖 22 主要編解碼標準發展歷史主流視頻編碼標準通常采用基于塊的混合編碼框架,以實現高效的視頻壓縮。如下圖所示為 AVS3 標準的編碼框架,可以看到,對于輸入視頻需要經過幀內幀間預測、變換、量化、反變換反量化、熵編碼、環路濾波等步驟,最終輸出編碼后的碼流。當前,支持多視點立體視頻編解碼標準的設備及應用仍然較少,傳統的平面視頻編碼標準在三維沉浸視頻中依然發揮著重要的作用。三維沉浸視頻技術白皮書22圖 23 AVS3 編碼框架2.雙目立體視頻編碼技術雙目立體視頻通常以兩種方式進行表示。一種
58、方式是將左右兩個視點分別作為兩個視頻序列進行編碼和傳輸,兩路視頻可以選擇任意平面視頻的編碼標準如 AVC、HEVC、AVS3 等。這種方式可以使用兩個相機進行簡單校準后拍攝,每個相機采集到的畫面代表了左右眼的視點。由于左右兩路視頻序列獨立存在,因此可以很容易的兼容現有的 2D 顯示器,只需丟棄其中一路視點即可實現 2D 顯示。另一種方式如下圖所示,將左右兩個視點拼接成一個視頻序列進行存儲或傳輸,雙目圖像可以按照左右或者上下的格式進行排列。使用這種方式的立體視頻可以通過專門的立體攝像機采集,也可以在兩個攝像機分別采集后再進行拼接處理。其優點是可以直接使用現有的信道進行傳輸,也可以使用通用的平面視
59、頻解碼器進行解碼?,F有的立體視頻服務多采用上述兩種方式對雙目立體視頻進行編碼和解碼。三維沉浸視頻技術白皮書23圖 24 左右視點拼接事實上,立體視頻的兩幅圖像通常具有比較強的視點相關性,存在著大量的空間冗余。對這種立體視頻格式進行編碼時,可以采取視點間預測方式。一種簡單的實現方式是使用普通的平面視頻編碼器對基準視點的圖像進行壓縮,然后利用已經編碼的基準視點圖像來預測和編碼另一視點的圖像。這種預測編碼的過程類似于利用運動矢量和殘差圖像進行運動補償預測,從而實現對另一視點圖像的高效壓縮,減少存儲空間和傳輸帶寬的需求,同時保持較好的視頻質量。3.多視點視頻編碼技術隨著裸眼 3D 立體顯示器、自由視角
60、電視等設備不斷進步,并進入家庭消費場景,多視點編碼成為研究熱點。與普通立體顯示設備不同,多視點顯示設備需要同時傳輸多個視點的畫面來提供多角度、立體的觀看體驗,因而傳統的平面視頻編碼方式所需要的編碼碼率與視圖的數量近乎等比例增長。一種比較好的替代方案是以多視點加深度圖的方式來傳輸 3D 視頻。在這個格式中,只需對少數幾個視圖進行編碼,但每個視圖都有對應的深度圖,通過這些深度數據可以還原出所采集場景的基本幾何結構?;趥鬏數囊曨l圖像和深度圖,可以使用基于深度圖像的虛擬視點合成(DIBR,Depth Image Based Rendering)技術在接收端生成任意視角的 3D 視圖。為滿足上述需求并
61、充分利用現有的平面視頻編碼標準提供最先進的壓縮能力,動態圖像專家組(MPEG)成立了一些專門的小組(如 JCT-3V)并開發了一系列現有編碼標準的多視點擴展如 MVC+D、MV-HEVC、3D-HEVC、MIV 等,以下做簡單介紹。MVC+D 和 MV-HEVC 的設計原則是繼續使用基礎平面視頻編碼標準 AVC 和 HEVC。因此只需要更改現有標準的切片頭(Slice)或者更高級的語法元素就可以實現。MV-HEVC 還采用了層(Layer)間處理的方式,其高級語法允許各層之間通過參考圖像列表進行關聯,允許預測層的圖像使用參考層的圖像進行預測編碼。此外,通過輔助圖片層(Auxiliary Pic
62、ture Layers)機制來支持深度視圖,而有關深度輔助層的更詳細屬性,可以通過 SEI 消息提供。3D-HEVC 通過引入新的塊級編碼工具進一步降低了碼率,這些工具有效地利用了視頻紋理與深度之間的統計依賴,并專門適應了深度圖的特性。由于深度圖通常包含由銳利邊緣分隔的均勻區域,因此采用了新的幀內預測和殘差編碼方法,來處理這些特殊的信號特征。此外,還指定了新的深度圖編碼工具,允許進行視點間運動預測,或從紋理層預測運動和分塊信息。新引入的預測技術通過使用子塊分區來提升預測精度。在某些三維沉浸視頻技術白皮書24情況下,這些子塊分區可以將一個預測塊細分為具有非矩形形狀的兩個部分,從而進一步優化編碼效
63、果。在需要視頻紋理與深度的應用場景中,3D-HEVC 提供了更大的優勢。MIV(MPEG Immersive Video)是為了支持沉浸式視頻內容的壓縮而開發的,該標準使得沉浸式視頻內容可以通過現有或未來的網絡進行存儲和分發,并支持 6DoF 視點播放。MIV 是一個靈活的標準,支持帶有深度圖的多視點視頻(MVD,Multiview Video With Depth)和多平面視頻,并利用強大的硬件支持來對體積視頻進行編碼。所有配置文件都有符合性比特流,MIV 主配置文件用于 MVD,MIV 擴展配置文件支持MPI,此外還有適用于云端和解碼器端深度估計的 MIV Geometry Absent
64、Profile 文件。除了符合性測試外,MIV 的驗證測試也已完成。下圖展示了 MIV 的編碼和解碼過程。在編碼器階段,包含紋理及深度組件的多個源視圖以及相機參數列表輸入 MIV 參考軟件TMIV 編碼器。編碼器將輸入視圖標記為基本視圖和附加視圖,后者根據視圖間的冗余進行修剪。然后,所有視圖以補?。≒atch)的形式按光柵順序打包到視圖集中,并使用 HEVC 編碼器對視圖集進行編碼,子碼流與包含 patch 信息的元數據一起復用形成 V3C 格式的碼流。在解碼器端,碼流被解復用和解碼,獲取視圖集和元數據,并傳遞給播放終端,從而根據客戶需求渲染出場景的任意視點。當前的 MIV標準使用高效視頻編碼
65、(HEVC,High Efficiency Video Coding)技術,由于 V3C 格式與視頻編碼標準無關,實際上可以使用任意編碼格式如通用視頻編碼標準(VVC,Versatile Video Coding)、AVS3 等。MIV 碼流還包括高級語法,用于對齊視圖集和相機,從而對視角相關的流進行解碼和渲染。圖 25 MIV 編碼流程4.全景立體視頻編碼由于全景視頻是包含了 360 度視頻內容的球面視頻,而現有的視頻編碼和存儲技術并不支持對球面視頻直接進行處理,全景視頻在編碼或存儲前需要通過全景視頻投影技術將其投影為二維的平面視頻,然后在二維平面視頻上進行編碼。因此,全景立體視頻編碼技術涉
66、及全景視頻的投影技術和全景立體視頻編碼技術。1)全景視頻投影技術三維沉浸視頻技術白皮書25常見的全景視頻投影方式包括等距矩形投影、多面體投影、非均勻投影等。等距矩形投影(ERP,Equirectangular Projection):是一種簡單的地圖投影方法,在這種投影方法中,將球面上的經線和緯線圈分別投影為二維矩形平面上等間隔的垂直直線和水平直線。ERP 投影使用緯度和經度組成的方形網格來表示,具有矩形且直觀的優點,使用現有的視頻編輯工具相對易于操作。但是在用于視頻傳輸時,它有一些嚴重的問題。首先,極點得到了大量的像素,而赤道得到相對較少。因為球面視頻的重要內容通常分布在赤道地區周圍,也就是
67、觀看者的水平視野上。它還具有高失真,這對現有的視頻壓縮技術造成了一些困難。圖 26 等距圓柱投影多面體投影:多面體投影使用球心透視方位投影的方法將球面投影到外切的多面體上,然后再將多面體展開成二維平面。多面體投影包括正四面體投影、立方體投影、正八面體投影、正十二面體投影和正二十面體投影等,下圖給出了上述投影的 3D 模型和展開后的二維平面的示意圖。在全景視頻投影中,立方體投影、正八面體投影和正二十面體投影均有研究和使用。相較于等距離圓柱投影,多面體投影在采樣密度上有明顯的改善,但其對球面的采樣密度仍舊不是完全均勻的。為此可以使用等角投影的方式,確保多面體面上采樣長度相等,從而創建均勻分配的像素
68、。三維沉浸視頻技術白皮書26圖 27 多面體投影方式非均勻投影方式:全景視頻均勻投影技術適用于各種場景的全景視頻應用中,但是其編碼效率較低。為了取得更高的編碼效率,可以采用非均勻投影技術。非均勻投影技術將球面分為主視點區域和非主視點區域,投影時對主視點區域使用較高的采樣密度以保證主觀質量,而對非主視點區域采用較低的采樣密度以節省碼率。非均勻投影主要適用于一對多的基于全景視頻流切換的應用中。在基于全景視頻流切換的應用中,服務器端編碼多路不同主視點的非均勻投影的視頻,服務器和客戶端之間根據用戶頭部視點實時選擇最近的一路流進行傳輸。2)全景立體視頻編碼技術全景立體視頻編碼技術是針對全景立體視頻的特殊
69、需求而設計的一種編碼方案。與普通全景視頻相比,全景立體視頻需要在左右眼分別渲染有視差的全景圖像。與雙目立體視頻類似,全景立體視頻也涉及左右眼的視差處理,但是全景立體視頻的視圖是以球面形式呈現的,因此需要先將球面圖像分別投影成兩個平面視圖,然后再進行編碼。全景立體視頻的左右眼圖像可以使用傳統的平面視頻編碼方式分別編碼,也可以采用上文提到的雙目立體視頻編碼方式或者多視點編碼的方式。傳統的平面視頻編碼方式將左右眼圖像分別處理,然后采用常規的視頻編碼算法(如 HEVC、VVC 等)對其進行編碼和壓縮,最終生成左右眼各自的視頻流。而雙目立體視頻編碼方式則將左右眼圖像作為一對立體圖像進行處理,通過特定的立
70、體視頻編碼算法對其進行聯合編碼,以充分三維沉浸視頻技術白皮書27利用左右眼之間的相關性和視差信息,從而實現更高效的壓縮和傳輸。此外,將左右眼視頻按照左右或者上下排布直接拼接在一起,然后使用平面視頻編碼標準進行編碼,也是一種目前廣泛支持的編碼方式。選擇哪種編碼方式取決于具體的應用場景、編碼效率、解碼和渲染終端等因素。5.體積視頻編碼體積視頻通常由一系列包含深度信息的幀組成,常見的表示形式包括點云、三維網格等。點云:是三維沉浸視頻領域廣泛使用的數據格式之一,但其原始數據通常過于龐大,難以高效存儲和傳輸。此外,更高分辨率的點云采集技術對點云數據量的大小提出了更高的要求。為了使點云數據可用,壓縮是必要
71、。為此,MPEG-I 發布了基于幾何的點云壓縮 G-PCC(Geometry-based Point Cloud Compression)標準和基于視頻的點云壓縮 V-PCC(Video-based Point Cloud Compression)標準,可以顯著減少點云的數據量,推動點云格式在各個領域的廣泛應用。V-PCC 的基本思想是將三維(3D)點云投影到二維(2D)圖像上,如占位圖像、幾何圖像、屬性圖像。然后使用傳統的 2D 視頻編解碼器(如 AVS、HEVC 等)編碼這些2D 圖像,以減少數據量。隨著深度學習技術在圖像視頻壓縮等方面的應用進展,基于深度學習的點云壓縮迎來一系列發展?;?/p>
72、八叉樹的點云編碼方法迭代地把包含點云的最小立方體劃分為八個子正方體,然后用一個字節編碼八個子正方體是否包含“點”這一信息,最后使用基于上下文的算術編碼進一步去除相關性?;诖?,一些方案利用神經網絡來估計八叉樹節點的熵模型,并且運用到動態場景中。還有一些方案結合八叉樹架構與體素結構的各自優勢,提出利用相鄰節點的體素化的信息來增強對時空信息的利用,進一步提升點云的壓縮效率。也有一些方案利用基于深度神經網絡的變分自編碼器來高效地壓縮點云幾何信息。動態網格:相較于保持固定連接性的跟蹤網格序列,具有時變連接性的動態網格雖然能夠提供更好的生成質量和更簡化的生成過程,但也代表了龐大的數據量和復雜的壓縮需求。
73、為此,MPEG 發布了新的動態網格標準,稱為基于視頻的動態網格編碼(V-DMC,Video-based Dynamic Mesh Coding)。這一技術使用低分辨率網格序列(稱為基網格)及其附加信息,如位移信息和紋理圖,以重建高分辨率的輸入網格序列?;W格可以使用任意網格編碼器進行編碼,而根據體積視頻編碼(V3C)格式的標準,可以使用任意視頻編碼器對附加信息進行編碼。2.4 三維沉浸視頻內容傳輸1.多視點視頻三維沉浸視頻技術白皮書28雙視點、多視點雙目立體視頻,利用左右眼視差帶來視覺上的立體感??梢允莾蓚€或多個帶有視差的多路視頻,也可包含深度信息。由于每個視點都有自己的視頻流,多視點視頻數據
74、總量非常龐大,這對網絡帶寬、存儲和處理能力都提出了高要求。為此可以根據用戶當前的視點和潛在的移動方向,只傳輸相關視點的視頻流,減少不必要的數據傳輸。經測試,Iphone 15 Pro 使用主攝和廣角攝像頭拍攝的 1080p30fps 雙視點雙目立體視頻典型碼率約 15Mbps。2.FOV視頻4K 全景視頻在 VR 眼鏡上看起來也就只相當于 540P,所以 8K 分辨率視頻的分發也僅僅是超高清畫質體驗的“入門級需求”。另外,一些游戲、體育賽事等內容的視頻對幀率也有很高的要求,達到 120fps 才會有較好的體驗;8K120fps 全景視頻碼率在 150Mbps 以上,對網絡要求過高,全解碼方案也
75、超出了芯片性能。視場角(FOV,Field Of View)視頻技術將根據視角對 VR 的 360視頻進行分段。用戶無需從全視角下載和解碼 360視頻??梢愿鶕斍耙暯菍崟r獲取對應的視頻段,并進行相應的解碼,同時編碼一個 2K 的全景圖,它可以在接收端做“兜底”,以降低傳輸帶寬和解碼能力。為了確保 XR 用戶體驗良好,并避免出現眩暈等不良癥狀,整個系統需要將視角切換時延 P95 控制在 150ms 以內,即時延的 95 分位滿足 150ms。圖 28 全景視頻流切換3.體積視頻體積視頻本質是三維模型序列,可以由三維模型的 Mesh 序列和紋理貼圖序列兩部分組成。根據 2022年 9 月對全球最
76、大的 3D 資源分享社區 Sketchfab 超過 11 萬的樣本量統計,給出了體驗分檔下的典型模型參數。三維沉浸視頻技術白皮書29表 1 體積視頻典型參數體驗分檔幀率紋理分辨率紋理幀序列碼率Mesh 面數Mesh 幀序列碼率入門30FPS2048Px2048P10Mbps(H.265)10 萬面70Mbps良好30FPS4096Px4096P25Mbps(H.265)50 萬面125Mbps優秀60FPS8192Px8292P60Mbps(H.265)100 萬面260Mbps來源:Wireless X Labs4.三維沉浸視頻傳輸網絡要求經測試驗證,當網絡帶寬達到視頻碼率的 1.5 倍時能
77、夠滿足流暢播放需求,達到 5 倍時可滿足“秒開”體驗需求。視角切換時延需求是 100ms95%,其中服務器時延 30ms,網絡時延 100ms,客戶端時延20ms。表 2 三維沉浸視頻網絡傳輸要求視頻類型分辨率典型碼率流暢播放網絡要求“秒開”網絡要求雙目立體視頻(雙視點)1080p15Mbps23Mbps75Mbps2K20Mbps30Mbps100Mbps4K80Mbps120Mbps400MbpsFOV 視頻4K15Mbps23Mbps幀時延 P95 100ms75Mbps幀時延 P95 100ms8K30Mbps45Mbps幀時延 P95 100ms150Mbps幀時延 P95 100m
78、s體積視頻2K80Mbps120Mbps400Mbps4K150Mbps250Mbps750Mbps來源:Wireless X Labs2.5三維沉浸視頻渲染交互多視裸眼 3D、自由視點技術可以提供多個視點,因而觀看者可以在任意允許的視點范圍內觀看,但視點越多,所需同時傳輸的數據量就越大,這對于帶寬和存儲都帶來了巨大的壓力。此外,視點越多,拍攝成本相應就越高,因此需要使用虛擬視點合成術。如下圖所示,虛擬視點合成技術是一種利用已有視角的圖像或視頻信息,通過計算機圖形學方法,在場景中生成新的視角的技術。該技術通常通過分析場景的幾何和光學屬性,結合視角之間的關系,使用插值、合成和空洞填補等算法,生成
79、具有逼真效果的新視角,使用戶能夠以不同的三維沉浸視頻技術白皮書30角度和位置觀察場景,從而提升觀看體驗和增強沉浸感。按合成原理,渲染虛擬視點的方法可以分為基于模型的方法,即 MBR(Model Based Rendering)方法,以及基于圖像的渲染,即 IBR(Image BasedRendering)方法。三維沉浸視頻的交互是指在渲染三維沉浸視頻時,用戶可以與視頻內容進行互動的過程。這種交互可以包括改變觀看角度、調整視角位置、縮放或移動場景等操作。通過交互,用戶能夠更加自由地探索視頻內容,增強沉浸感和參與感。這需要使用先進的渲染技術和交互設計,以確保用戶體驗流暢、直觀和令人滿意。圖 29
80、虛擬視點合成1.基于模型的渲染技術基于模型的渲染是通過使用三維場景模型(包括幾何形狀、材質屬性、紋理等)來生成圖像的過程。它涉及將三維場景投影到二維視圖平面上,計算每個像素的顏色值,并考慮光照、陰影、反射等視覺效果,以創建符合真實或虛擬環境的圖像?;谀P偷匿秩疽蕾囉陬A先創建的三維模型,這些模型可以通過不同的方式獲取,如高精度掃描儀、多視立體幾何等。雖然 MBR 方法在生成虛擬視點時提供了較高的自由度,但建模過程較為困難,渲染效果高度依賴于三維模型的精度和質量,難以達到照片級真實的視覺效果。且基于模型的渲染適用于靜態或預定義的場景,對于動態變化或實時生成的內容,其適應性較差。在需要實時互動和響
81、應的應用中,基于模型的渲染可能難以迅速調整和更新圖像,影響用戶體驗。因此,純建模的 MBR 方法雖然在計算機圖形學、電子游戲等領域應用廣泛,但不太適用于三維沉浸視頻的交互和應用。2.基于深度圖像的渲染三維沉浸視頻技術白皮書31IBR 技術通常無需建模,通過二維圖像及相應的幾何信息即可渲染虛擬視點。通常來說,場景的圖像信息容易獲取且合成速度較快,但由于圖像只包含二維信息,缺乏空間幾何信息,導致合成的虛擬視點質量不理想。而使用基于深度圖的合成技術(DIBR,Depth Image Based Rendering)則可以平衡合成質量與速度。DIBR 技術利用輸入數據中提供的深度信息,結合參考視點和虛
82、擬視點不同的相機位姿,生成虛擬視點所能看到的圖像。相較于傳統的 IBR 方法,DIBR 技術不需要精確的幾何建模過程,只需要在前期為參考視點圖像生成對應的深度圖,即可完成虛擬視點圖像的繪制。因此,DIBR 技術可以更高效地處理大規模場景。此外,DIBR 技術的輸入數據都是二維圖像信息,這使得它非常方便進行后續的壓縮和編碼傳輸,使其在實際應用中更為可行和有效?;谏疃葓D的虛擬視點合成首先將原圖中的點反投影至真實世界中的 3D 坐標,接著,將 3D 點重投影到用戶指定視角的成像平面上。在 DIBR 系統中,所有三維點的坐標、相機內外參數都需要作為元數據傳遞到接收端。多視點采集系統與虛擬視點合成系統
83、都在相同的三維世界坐標系下,以便采集系統的真實攝像機和虛擬攝像機之間的相對關系能很好地定義?;谝陨蠋缀侮P系,合成步驟如下圖所示:圖 30 DIBR 合成虛擬視圖的流程深度圖在獲取時常常會出現噪聲以及深度與紋理不對齊等問題的影響,導致合成的虛擬視點出現前后景紋理錯誤等情況。為了減輕這些問題帶來的影響,在進行圖像變換之前通常需要對深度圖進行預處理,例如使用中值濾波或高斯濾波等方法,以平滑深度圖像的過渡,避免產生突兀的效果。接著,通過三維圖形變換三維沉浸視頻技術白皮書32(3D Warp)的過程,利用圖像紋理、深度信息以及相機內外參數,建立起參考視點和虛擬視點像素之間的聯系,從而合成虛擬視點。在此
84、過程中,需要確保虛擬視點能夠準確地反映場景中的幾何和紋理信息,以實現真實的合成效果。得到多張虛擬視點圖像后,通常需要進行圖像融合的步驟,以生成最終的虛擬視點圖像。這一過程可以通過將同一位置的像素點根據其距離進行加權融合來實現。最后,由于虛擬視點的部分區域可能無法從任意視點獲得,因此需要對虛擬視點圖像進行空洞填補,以完善合成的虛擬視點。在經典的 DIBR 框架中,一種簡單且快速的空洞填充方法是使用均值濾波,這種方式在速度上比較有優勢。雖然 DIBR 技術具有傳輸簡便、節省帶寬和合成速度快的優點,但合成虛擬視點的圖像質量仍然是一個挑戰,常見的問題包括空洞、偽影、邊緣模糊和時域不穩定等現象。3.基于
85、圖像域形變的虛擬視點合成基于圖像域形變的虛擬視點合成是另一重要的視點合成方法。對比依賴稠密深度圖或者視差圖的 DIBR技術,圖像域形變(IDW,Image-Domain Warping)通過稀疏的視差關系即可合成新的視點。人眼并不能精確地估計絕對深度,對于看似合理的圖像,人眼對圖像失真并不十分敏感,因此可以將圖像失真隱藏在非顯著區域。受到這一點的啟發,IDW 可以自動地估算圖像對之間的稀疏視差以及角點對,根據這些匹配關系,可以計算參考圖到最終合成的虛擬視點圖中的形變(Warping),并且將失真隱藏在非顯著的區域中。一類典型的 IDW 算法如下圖,可以由兩個視點合成多個虛擬視點。圖 31 雙視
86、點合成多視點步驟首先進行數據提取,獲取輸入圖像的稀疏視差特征以及圖像顯著性特征。稀疏視差就是同一極線上匹配的像素點的橫坐標之差,常用的方法有特征點匹配、光流追蹤等,顯著性特征則可以在后續步驟中減少合成誤差。完成數據提取后,如下圖所示,可以將輸入圖像形式化為一個個規則的網格,然后定義一個非線性能量函數對網格進行畸變后得到新的圖像,從而獲取計算中間視點所必須的 Warping。接著進行形變插值,一般選取兩個最近的相機作為參考,并將其 Warping 到中央相機,而其他位置的虛擬視圖則可以通過左右真實相機以及中央的虛擬視圖插值而得到,這樣做主要是為了減少計算量。最后進行圖像域形變,虛擬視點由較近的輸
87、三維沉浸視頻技術白皮書33入圖像合成。由于 Warping 是連續的,因此虛擬視圖中不會出現空洞現象,或者說通過對非顯著性區域進行拉伸隱性地對閉塞區域進行了紋理修復。然而,僅僅使用一張圖合成虛擬視點會造成邊緣區域空洞,因此該區域再使用另一張圖作為參考以補償邊緣空洞。這種方法依賴于稀疏視差和圖像顯著性信息,約束合成的虛擬視圖強行滿足目標的視差估計,在沒有深度圖的情況下依然具有相對高質量的合成結果。圖 32 Wraping 示例圖4.三維沉浸視頻交互三維沉浸視頻交互是指用戶通過直觀的交互方式,沉浸在三維虛擬環境中并與其中的內容進行互動。用戶由被動觀看變為主動欣賞,可以在三維空間中自由探索,從而獲得
88、身臨其境的互動體驗。典型的交互方式包括:頭部追蹤及人眼追蹤:在頭戴式顯示器或增強現實眼鏡中,用戶可以通過轉動頭部自由改變視角,從而更自然地觀察和探索三維場景。此外,在裸眼 3D 顯示技術中,通過人眼追蹤技術,系統可以實時檢測用戶的視線方向,從而動態調整顯示內容,為用戶提供更寬廣的 3D 可視角度和更穩定的立體效果。觸摸屏操作:用戶通過觸摸屏幕或觸摸板等設備直接與系統進行交互。例如,在裸眼 3D 設備上,用戶可以通過滑動屏幕來切換視角,或者通過多指操作來放大、縮小、旋轉、進入或退出場景。觸摸交互的直觀性和便捷性使其成為三維沉浸視頻中常見的交互方式。體感和手勢交互:體感設備可以捕捉用戶的身體動作,
89、實現與沉浸視頻內容的交互,如微軟的 kinect可以通過深度攝像頭和紅外傳感器捕捉用戶的全身動作。手勢識別技術的進步使得手勢操作更加豐富和精確,如 Apple Vision Pro 定義了互點手指、捏合并拖移、輕觸等多種手勢,使得交互過程更加自然和直觀??刂破鹘换ィ菏翘摂M現實體驗中常見交互方式。虛擬現實控制器,如 SKYWORTH Pancake 1C 6DoF手柄和 HTC Vive Controllers 等,通過內置傳感器和觸控面板實現精確的運動跟蹤和便利的操作。這些控制器不僅提供高精度的空間定位,還可以支持振動反饋和力反饋,使得 VR 體驗更加豐富和身臨其境。三維沉浸視頻技術白皮書34
90、語音交互:隨著大語言模型如 ChatGPT、文心一言等的廣泛應用,以及語音識別技術的發展,語音交互技術賦予了虛擬環境更高的智能化和便利性。例如,用戶可以通過語音命令輕松實現視角切換、播放控制、場景變換等操作。這種交互方式在無需手動操作的情況下提供了極大的便利,尤其是在需要專注于其他任務或復雜操作的場景中,語音交互成為一種高效的交互手段。2.6三維沉浸視頻終端顯示三維沉浸視頻的終端設備包括支持高分辨率和高幀率的顯示設備、3D 眼鏡與 VR 頭戴顯示器、裸眼3D 設備等。立體顯示設備的種類繁多,基本原理都是相似的,通過為兩只眼睛呈現不同的圖像,以實現三維立體的效果,下面依次介紹幾類三維沉浸終端顯示
91、設備。1.平面視頻顯示器平面視頻顯示器是一種用于顯示 2D 視頻內容的設備,通常采用陰極射線管(CRT,Cathode RayTube)、液晶顯示(LCD,Liquid-Crystal Display)、發光二極管(LED,Light-Emitting Diode)、有機發光二極管(OLED,Organic Light-Emitting Diode)或其他類似技術。這些顯示器廣泛用于各種場景,包括電視、電腦顯示器、移動設備、商場大屏等。平面視頻顯示器具有一些顯著的優勢,例如高分辨率、良好的色彩表現。它們能夠以高質量和高清晰度顯示視頻內容,使用戶能夠享受到更加逼真和清晰的視覺體驗。此外,平面視頻
92、顯示器通常具有較低的功耗,使其在節能環保方面具有優勢,同時也更加輕薄便攜,適用于各種場所和應用場景。近年來,平面顯示器的發展體現出以下趨勢:更高的分辨率和更高的像素密度:隨著技術的進步,平面顯示器的分辨率和像素密度不斷提高,從1080p 到 4K 再到 8K 甚至 12K,以實現更清晰、更逼真的圖像顯示。高分辨率和高像素密度的顯示器可以呈現更多的細節和更精細的圖像,提升用戶的視覺體驗。10bit 色深、高動態范圍、寬色域:隨著顯示技術的發展,平面顯示器對色彩的還原能力也在不斷提升。10bit 色深意味著顯示器可以呈現更細膩的色彩漸變和更真實的色彩表現。高動態范圍意味著顯示器可以展示更廣泛的亮度
93、范圍和更高的對比度。寬色域意味著顯示器能夠覆蓋更廣的色彩空間,顯示出更多的顏色。更薄更輕的設計:隨著人們對便攜性和美觀性的需求不斷增加,平面顯示器的設計趨向更薄更輕。柔性屏和折疊屏的廣泛使用使得屏幕變大的同時,體積和重量減少,便于收納和攜帶。三維沉浸視頻技術白皮書35更高的刷新率和更快的響應時間:對于游戲和多媒體應用來說,高刷新率和快速的響應時間是至關重要的。目前顯示器支持的刷新頻率從 60Hz 到 120Hz,一些高端的顯示器還支持 144Hz 甚至 240Hz,以滿足用戶對于流暢游戲和視頻播放的需求。然而,與其他類型的顯示技術相比,平面視頻顯示器也存在一些局限性,例如有限的觀看角度,缺乏立
94、體感等。2.眼鏡式 3D 顯示眼鏡式 3D 顯示的主要實現方法有三種,色分式、偏光式和時分式。色分式 3D 眼鏡又稱為紅藍眼鏡,左右眼分別看到的圖像使用不同的顏色濾光片進行過濾,通常一個眼鏡片是紅色,另一個是藍色。在觀看時,一只眼睛只會接收到紅色光,另一只眼睛只會接收到藍色光,從而實現立體效果。然而,這種技術會導致顏色失真,并且觀看時可能出現視覺疲勞,因而適用范圍較小。偏光式 3D 眼鏡是一種廣泛應用于電影院、電視和其他娛樂場所的 3D 眼鏡。這種眼鏡利用偏振光的特性,使觀眾的左右眼分別接收到對應偏振方向的光,從而實現立體效果。在觀看 3D 影像時,屏幕上顯示的圖像采用線性偏振或圓偏振方式。每
95、只眼睛的眼鏡片僅允許與其偏振方向一致的光線通過,過濾掉其他方向的光線。這樣,左右眼看到的圖像經過大腦的融合,產生了真實的立體效果。時分式 3D 顯示技術會在不同的時間段內切換顯示不同的圖像或圖像信號。例如,在某一時刻,屏幕會顯示左眼所需的圖像,同時眼鏡的濾光器會使左眼接收到這部分圖像的光信號,而右眼則會被屏蔽或接收到不完整的圖像光信號。然后,在接下來的時刻,屏幕會顯示右眼所需的圖像,并相應地調整眼鏡的濾光器,使右眼接收到這部分圖像的光信號,而左眼則被屏蔽或接收到不完整的圖像光信號。這種方式為了保證能看到連續不閃爍的 3D 圖像效果,一般會要求顯示器的刷新率達到 120Hz,這樣左右眼分別可以達
96、到 60Hz 的刷新率。3.頭戴顯示器頭戴顯示設備(Head Mount Display,HMD)是一種可以佩戴在頭部的裝置,通過將顯示屏置于用戶的眼睛前方,實現沉浸式的觀看體驗。由于頭戴式顯示設備天然的在用戶左右眼分別播放畫面,所以可以方便的支持 3D 立體顯示。這些設備通常包括顯示屏、透鏡、傳感器和計算處理單元等組件,可以提供沉浸式的視聽體驗和交互功能。頭戴顯示設備可以分為虛擬現實(VR,Virtual Reality)頭顯、增強現實(AR,Augmented Reality)頭顯和混合現實(MR,Mixed Reality)頭顯三種類型:三維沉浸視頻技術白皮書36虛擬現實頭顯:虛擬現實頭
97、顯通過完全封閉用戶的視野,并提供全景的虛擬環境,使用戶完全沉浸在虛擬世界中。這些設備通常配備高分辨率的顯示屏和透鏡,可以呈現出逼真的虛擬場景,并通過頭部追蹤技術實現用戶的視角變換,從而營造出身臨其境的體驗。增強現實頭顯:增強現實頭顯通過透明的顯示屏將虛擬內容疊加在現實世界中,使用戶可以同時看到虛擬圖像和真實環境。這些設備通常配備攝像頭和傳感器,可以實時捕捉用戶的周圍環境,并將虛擬圖像與現實場景進行融合,為用戶提供豐富的增強現實體驗?;旌犀F實頭顯:混合現實頭顯結合了虛擬現實和增強現實的特點,既可以呈現出完全虛擬的環境,又可以將虛擬圖像與現實環境進行交互和融合。這些設備通常具有更高級的傳感器和計算
98、處理能力,可以實現更復雜的虛實融合效果,為用戶提供更加逼真的混合現實體驗。頭戴顯示設備可以應用于游戲娛樂、教育培訓、醫療保健、工業設計等領域,為用戶提供沉浸式的體驗和全新的交互方式。隨著技術的不斷進步和成本的降低,頭戴顯示設備有望成為未來人機交互和娛樂體驗的重要載體。4.裸眼 3D 顯示裸眼 3D 顯示設備可以分為三個大類,全息 3D 顯示器(Holographic 3D Displays)、體積 3D 顯示器(Volumetric 3D Displays)和多視角立體 3D 顯示器(Autostereoscopic 3D Displays)。全息 3D 顯示是一種能夠記錄并再現實物的振幅和相
99、位信息的先進顯示技術。它通過記錄激光光束經過物體時的相位和振幅等信息,然后再用這些信息通過特定介質(例如光折射聚合物)來進行再現的技術。此外,利用空間光調制器進行光波的調制,可以通過數值模擬實現計算機生成的全息系統。體積 3D 顯示利用一些特殊的介質,如被困的顆?;驘晒馄聊?,來產生空間中的光點(也稱為體素)。這些光點通過在介質中激發光源,形成發光的圖像點。通過控制光源的位置和強度,可以在空間中形成各種形狀和圖案,從而實現立體顯示效果。體積 3D 顯示器還可以通過高速旋轉的 2D 屏幕形成可供顯示的 3 維空間,然后利用高速投影儀將 3 維內容各個角度的切片圖像投影到 2D 屏幕上,這需要切片圖
100、像和 2D 旋轉屏保持合適的頻率。全息 3D 顯示和體積 3D 顯示所需要的數據內容極其龐大,因而面臨著數據處理和傳輸的挑戰。多視角立體 3D 顯示與上述技術相比,通過將 3D 物體的連續光場分解成多個視圖,大大降低了計算成本。典型的多視角立體 3D 顯示僅需兩個主要組件:光學元件和可刷新顯示面板(如液晶顯示、有機發光二極管顯示、發光二極管顯示)。這種設計緊湊、易于與平板顯示設備集成、易于調制且成本較低,非常適用于便三維沉浸視頻技術白皮書37攜式電子設備。多視角立體 3D 顯示中光學元件的作用是調制視圖與視圖之間的角度間隔,依照調制方式的不同可以分為以下 3 個類別:1)基于視差壁障的 3D
101、顯示:這種技術使用一層被稱為視差障礙或者視差柵欄的遮光層,該層位于顯示屏和觀眾之間。視差障礙層包含一系列微小的條紋或凹槽,通過這些結構來限制觀看者左右眼看到的圖像,從而在腦海中形成立體的圖像。這種方式的缺點是隨視角增加,分辨率和亮度均會降低。圖 33 基于視差壁障的 3D 顯示2)基于柱狀透鏡的 3D 顯示:這種技術使用柱狀透鏡,透鏡表面有一系列縱向排列的微型柱狀凸起。這些柱狀透鏡通過調整左右眼所看到的像素,使得左眼和右眼分別感知到不同的圖像,從而產生立體效果。為實現多視角的顯示,可以使用每個微透鏡記錄多個視角的子圖像,每個微透鏡的子圖像都包含了若干個像素,此時各像素所記錄的光線強度就來自于一
102、個微透鏡和一個鏡頭的子孔徑區域之間所限制的細光束。這種技術同樣會導致分辨率的損失。為了拓展可視角度,還可以添加眼球追蹤系統獲取人眼所在的位置,通過這種方式實時調整顯示屏顯示圖像的位置,從而擴大可視范圍。三維沉浸視頻技術白皮書38圖 34 基于柱狀透鏡的 3D 顯示3)指向光源的裸眼 3D 顯示:該技術搭配兩組不同角度的 LED,配合快速反應的液晶面板和驅動方法,控制兩組屏幕分別向左右眼投射視圖,讓 3D 內容以序列(Sequential)的方式先后進入觀看者的左右眼產生視差,進而讓人感受到 3 維立體的顯示效果,這種方式在分辨率和透光率方面能得到保證,不會影響現有的設計架構,但技術尚未成熟。4
103、)動態視點的祼眼 3D 透視顯示,該技術使用多塊不同角度的屏幕(至少是兩個不同顯示面,常見為LED 屏幕)使用三維縫合拼接技術進行立體內容顯示。真實 LED 屏幕的空間姿態和箱體參數與實時渲染三維虛擬空間進行了重建與匹配計算,使兩個空間中屏幕參數精準匹配,顯示內容基于最佳視點進行實時計算渲染,顯示內容會根據最佳視點移動而變化,始終保持最佳視點看到的立體視頻內容 3D 透視關系是正確的。來源:七維視覺科技圖 35 動態裸眼 3D 顯示2.7 三維沉浸視頻質量評價三維沉浸視頻技術白皮書39針對普通的二維視頻,其質量評價主要可以分為兩大類:主觀質量評價、客觀質量評價。主觀質量評價是由測試者按照規定的
104、實驗流程觀看一組存在失真的視頻,并對視頻質量進行主觀打分評價的方法。而客觀質量評價通過設計數學模型來模擬人眼對圖像質量的感知,以盡可能實現和主觀評價一致的評價結果。與傳統的二維視頻不同,三維沉浸視頻可以提供空間維度、沉浸感和臨場感等觀影體驗。因其沉浸式的視覺體驗,觀眾往往會有較強的臨場感和包圍感,這對視頻質量的評價產生重大影響。受觀影設備的影響,三維沉浸視頻觀影設備(如 VR 頭顯)的性能對視頻體驗影響巨大,分辨率、刷新率、FOV 和設備的舒適度都可能直接影響到質量評價。因此,除了二維視頻的評估指標外,三維沉浸視頻質量評價還需要考慮深度感知、視場角(FOV)、延遲、運動跟蹤精度、渲染質量和實時
105、性等影響。其主觀評價也會包括更多心理層面的評價,如舒適度、可交互性、沉浸感等。1.三維沉浸視頻主觀質量評價方法8,9三維沉浸視頻主觀質量評價實驗包括針對各種終端顯示設備,如使用眼鏡式 3D 顯示(由于用途限制,使用較少),頭戴式顯示器(HMD,Head-Mounted Display),以及裸眼 3D 顯示設備等觀看的 360視頻。ITU-T P.919標準較為詳細介紹了時長為 10s-30s 之間的較短三維沉浸視頻的主觀實驗方法。1)視頻源選擇:實驗使用的 360視頻源應根據學術研究的具體目標進行選擇,并記錄在數字存儲系統中。應保證原始視頻的質量盡可能高,盡可能使用最大空間分辨率和幀率,并使
106、用原始的、未壓縮的視頻。視頻源應當具有足夠充分的空間信息和時間信息,同時應當保證在測試中,源視頻可以引起受試者各種不同類型的探索行為。2)主觀實驗環境:應控制實驗環境盡量保持安靜,且環境場景中沒有可能引起受試者注意力分散的因素。同時保證受試者可以合理地利用實驗設備進行實驗。為了保證沉浸視頻的特點,并保證對全景視頻質量的準確感知,應該保證使用的沉浸式視頻終端顯示設備符合商用設備的使用規范和要求,且需要保證顯示設備有足夠的分辨率和刷新率來顯示要測試的內容。為了觀看完整的 360 度視頻,如果使用 HMD 顯示設備,受試者應該坐在轉椅上以便能夠自由旋轉身體,同時應保證受試者的頭部和眼球可以自由活動,
107、如果使用裸眼 3D 顯示設備或是其他設備,應該保證受試者所處的位置其視場范圍能夠完全覆蓋顯示設備的顯示范圍。為了防止受試者突發不適并控制實驗的正常進行,實驗組織人應當在不影響正常測試的情況下與受試者同處一室或在隔壁房間全程監控實驗的進行。實驗環境的具體配置應當以文件形式記錄。3)主觀實驗方法:主要方法包括絕對類別評級法(ACR,Absolute Category Rating)和損傷類別評級法(DCR,Degradation Category Rating)。ACR 方法是單刺激主觀評價法,每次只呈現一個失真視頻,三維沉浸視頻技術白皮書40并在類別范圍內獨立評分。ACR 使用五級評分標準:5
108、優秀;4 良好;3 一般;2 較差;1 極差。DCR 方法屬于雙刺激損傷方法。使用此種方法時,參考視頻和對應的損傷視頻應先后成對出現,且應保證參考視頻第一個出現。受試者被要求參考原始視頻對失真視頻進行評級。DCR 使用五級評分標準:5 難以分辨視頻對之間的損傷差異;4 有可分辨的差異,但是不會引起觀看體驗下降;3 損傷差異會引起輕度的體驗下降;2 損傷差異會引起中度的體驗下降;1 損傷差異非常明顯,并且極度影響體驗。實驗過程中,每輪觀看時間不可超過 25 分鐘,每輪觀看之后應當要求受試者至少休息 15 分鐘。4)主觀評分記錄方法:若受試者使用裸眼 3D 顯示設備等可以隨時切換注視方向結束觀看的
109、終端顯示設備,則可以在受試者面前擺放一臺電腦,在觀看完每段視頻后讓其使用合理的評分界面進行評分。若受試者觀看視頻時頭戴 HMD 設備,無法在任意時間結束觀看,因此不能用傳統的紙筆或者電腦屏幕的滑塊記錄評分。合理的替代方法包括,使用 VR 程序在每段視頻觀看結束后,在 HMD 設備上顯示一個評分欄,并且以受試者凝視交互或者使用手持式控制設備進行打分;受試者也可以在觀看完視頻后口頭描述評分情況,由實驗組織人員實時記錄。每段視頻至少應該記錄 28 名受試者的主觀評分。另外,主觀實驗應當實時記錄受試者的頭動情況和頭部位置,記錄應由 HMD 內部的應用程序完成。5)實驗數據處理方法:對于主觀測試實驗的結
110、果,應使用統計方法篩選符合規范的主觀測試數據,剔除離群值。最終應給出每段視頻的評估等級統計分布的均值,即平均意見分數(Mean Opinion Score,MOS)和標準差。這些統計值的計算方法見ITU-R BT.500-14,ITU-T P.800.2提供的有關信息。2.三維沉浸視頻客觀質量評價方法全景沉浸視頻質量客觀評價旨在設計合理的算法,準確預測沉浸視頻的用戶觀看質量,使之達到與主觀質量評價結果相近的結果。優良的客觀評價算法或模型能夠快速有效地預測各種場景下的失真沉浸視頻質量,其研究成果能夠用 于指導沉浸視頻相關技術的設計和優化,進而提高沉浸視頻應用的用戶視覺體驗質量。目前絕大多數現存的
111、關于全景沉浸式視頻的質量評價方法集中于二維沉浸視頻的質量評價方面。二維沉浸視頻的質量評價主要關注投影變形對圖像質量的影響,特別是在極地區域的失真(如 ERP 投影)。此外,由于用戶可以自由選擇視角,全景 2D 視頻的質量評估需要綜合考慮用戶在不同視角下的感知體驗。由于二維沉浸視頻通常是通過特定的投影方式將 360 度視角壓縮到一個 2D 平面上,因此可以通過對投影結果的 2D 視頻質量進行分別評估,再回歸合成對二維全景沉浸視頻的質量的整體預測。對于三維全景沉浸視頻的客觀評價算法,由于三維全景沉浸視頻不僅需要考慮視角范圍和投影變形,還必須處理雙目視覺帶來的額外復雜性,處理雙眼之間的協調性和舒適度
112、。全景 3D 圖像包含兩個視角(左視三維沉浸視頻技術白皮書41圖和右視圖),在用戶佩戴頭戴顯示設備時,這些圖像會被分別呈現在用戶的左右眼中,形成立體視覺效果。因此,在三維全景沉浸視頻中,除了傳統的 2D 圖像變形問題外,還需要處理雙目視覺中的深度感知、雙眼融合、競爭或抑制等問題。這些額外的挑戰與難點使得現存的 2D 與 3D 視頻質量評價方法難以被有效遷移至三維全景視頻客觀質量評價方法中,這使得目前有效的三維全景沉浸視頻的客觀質量評價方法數量較為有限。下面將分別簡單介紹現存的二維和三維全景沉浸視頻的客觀質量評價方法。1)二維沉浸視頻全參考客觀質量評價方法:早期的二維沉浸視頻(圖像)的全參考質量
113、評價方法主要基于對 2D 視頻(圖像)的經典全參考評價方法,整體屬于基于經驗和手工提取特征的方法。一些學者直接對參考和失真全景二維視頻(圖像)ERP 投影格式的 2D 形式計算峰值信噪比(PSNR,Peak Signal-to-NoiseRatio)和結構相似度(SSIM,Structural Similarity),從而得出簡單的全參考質量估計。然而,ERP 投影在極點附近存在嚴重的拉伸失真,這些方法沒有考慮到 ERP 投影引起的此類明顯的視覺失真。針對這類問題,更多學者進一步提出了對傳統 PSNR 等方法的增強版本,以適應用于 360全景內容的評價。球形加權峰值信噪比(WS-PSNR10)
114、通過引入反映像素投影失真的權重調整原始 PSNR 的計算??死固貟佄锞€投影峰值信噪比(CPP-PSNR11)計算克拉斯特拋物線投影的 PSNR,由于這種投影方式可以最大限度地減少極點扭曲,因此比原始方法有更優良的性能。此外,球面峰值信噪比(S-PSNR12)使用均勻分布在球面上的 655362 個采樣點來評估峰值信噪比。在此之后,出現了一些基于數據驅動的機器學習方法,一些模型采用特征提取質量評價模型訓練的思路,首先設計了兩組特征來描述拼接失真(模糊、重影和幾何失真等)在二維沉浸視頻中引起的結構和空間一致性的變化,并分別從失真視頻和原始無失真視頻中進行提取。然后,計算失真和無失真圖像之間的特征
115、差值,并將它們作為支持向量回歸器的輸入訓練質量評價模型。近年,一些基于深度神經網絡的深度學習全參考質量評價方法已被提出。一種較新的全參考質量評價方法綜合考慮了三維沉浸視頻觀看過程中視窗的選取和視窗投影圖像的顯著性檢測。視窗(實際觀看空間)指用戶觀看視頻過程中某個時刻視野內呈現的內容范圍,是一幅 2D 圖像。視窗的大小與用戶觀看時設備的視場角(FOV)密切相關。這種方法將失真視頻 t 時刻的 360幀圖像與之前t 時刻的 360幀圖像取時間差值,之后將該差值與該時刻的 360幀圖像合并輸入基于球面卷積神經網絡(CNN,Convolutional Neural Network)的視窗選取網絡,輸出
116、待選擇的視窗和該視窗的重要性權重。之后使用軟非極大值抑制(Softer Non-maximum Suppression)算法合并重合度較高的視窗,并剔除不重要的視窗。最后選取得到用于全參考評價的視窗。之后將 t 時刻的每個選取視窗與參考二維沉浸視頻對應的視窗計算誤差圖,并與該視窗本身合并輸入三維沉浸視頻技術白皮書42到質量評價網絡中,使用 CNN 與計算顯著性圖結合的方式預測出該視窗的全參考質量預測分數,之后將 t 時刻所有視窗的質量分數加權平均得到 t 時刻 360失真圖像幀的預測質量分數,最后取所有幀的平均作為整段視頻的全參考質量預測分數。這種方案綜合考慮了用戶觀看二維沉浸視頻時對不同時刻
117、不同視窗內容的敏感差異以及對于單個視窗內容關注的顯著性差異,是一種較全面的二維沉浸視頻全參考質量評價方法。圖 36 全景沉浸式視頻單幀投影到右視窗示意圖(FOV 為 90)2 二維沉浸視頻無參考客觀質量評價方法:主要包含基于 ERP 投影空間的方法以及基于視窗的方法?;?ERP 投影空間的方法的主要思想是直接通過對 ERP 投影形式圖像進行特征提取和特征融合得到質量分數。由于 ERP 投影圖像為二維平面形式,所以該類方法也較為簡單和易于理解。然而,ERP 投影空間中的圖像存在明顯的拉伸形變,尤其是越靠近圖像的兩極區域,拉伸形變越明顯,這種拉伸效應造成圖像在投影空間和實際觀看空間中的差異,因而
118、造成客觀評價結果與主觀評價結果的不一致,這降低了該類方法的評價準確性?;谝暣埃▽嶋H觀看空間)的方法主要是通過模擬人類在現實中觀看二維沉浸式內容時的真實過程或特性,以獲得與人類主觀評價更接近的客觀質量評價結果。這類方法中視窗的投影和選取非常重要。一種基于多通道 CNN 的無參考質量評價方法13引入了六面視窗投影預處理,得到二維沉浸式視頻前、后、左、右、上、下六個視窗的視窗投影序列。之后使用改進的 ResNet34 結構對輸入的六面投影視頻幀序列進行特征提取??紤]到 ResNet 網絡各個階段的輸出特征表示由底層到高層的視覺信息,為了充分利用視覺信息的等級性,在之前 ResNet34 結構的基礎
119、上,使用 HyperResNet 結構,融合網絡中間層特征。最后通過全局平均池化和全局標準差池化得到每幀視窗圖像的特征向量,使用全連接層輸出每幀圖像的質量分數,之后進行平均得到整段視三維沉浸視頻技術白皮書43頻的預測質量分數。一種面向視窗的圖卷積網絡模型,建立了一個全景圖像中視口之間的相互依賴關系模型。圖形節點首先由被可視概率較高的選定視窗定義,然后通過空間關系將這些節點連接起來,捕獲它們之間的交互。最后通過圖卷積網絡對獲得的圖像進行推理。一種基于多視窗特征融合的無參考質量評價方法,在前面所述基于多通道 CNN 的無參考質量評價方法的基礎上,引入了 SlowFast 運動特征提取預訓練網絡和時
120、序回歸池化部分,有效建模了觀看視頻過程中的時序長期依賴和人記憶功能的時序滯后效應,從而得到針對二維沉浸視頻更準確的質量預測分數。3)三維沉浸視頻無參考客觀質量評價方法:由于三維沉浸視頻的質量評價需要考慮輸入圖像的深度信息以及雙目差異,一種較為直接的方法14是將左眼視圖和右眼視圖圖像之間的差異幀作為輸入,這些差異幀可以反映失真和深度信息。之后使用 3D 卷積神經網絡來無參考預測 3D 全景視頻的質量。這種方法概念簡單易于理解,然而,上述模型是在 ERP 格式的 2D 圖像塊上訓練的,這與實際的觀看體驗相沖突。另一種較為復雜的且在生物學上合理的三維沉浸視頻無參考客觀質量評價方法基于預測編碼理論15
121、。具體而言,雙目競爭被模擬為高層次圖案之間的競爭,而非低層次信號之間的競爭,因為人類視覺系統(HVS)的處理原則是將自下而上的視覺刺激與自上而下的預測進行匹配。在基于預測編碼的雙目競爭模塊(PC-BRM,Predictive Coding-Based Binocular Rivalry Module)中,左視圖和右視圖的假設將根據競爭優勢進行競爭。該模塊由預測編碼過程中的先驗和似然組成。因此這種方法還開發了一個多視圖融合模塊(MVFM,Multi-View Fusion Module),通過位置權重和內容權重方案來整合視窗圖像的質量分數。雙目競爭模塊和多視圖融合模塊可以分別應用于 3D 圖像和
122、 2D 全景圖像。雙目競爭模塊基于人類視覺系統(HVS,Human Visual System)的預測編碼理論。傳統的雙目競爭模型通常認為競爭發生在早期視覺皮層的低層次信號之間,而預測編碼理論則強調高層次圖案之間的競爭。PC-BRM 模擬左視圖和右視圖的假設之間的競爭,根據競爭優勢來生成視口圖像的質量評分。在此模塊中,預測編碼模型用于計算每個視窗圖像塊的相似性和競爭優勢。通過對視窗圖像的左(眼)視圖和右(眼)視圖分別進行預測編碼,作者得到了代表輸入圖像的編碼系數和基向量。這些信息被用于計算視口圖像的相似性和雙目競爭優勢,從而生成視窗圖像的質量評分。多視圖融合模塊用于整合視口圖像的質量評分,并計
123、算出整個立體全景圖像的最終質量評分。多視圖融合模塊引入了內容權重和位置權重,以反映用戶對場景內容和觀看方向的偏好。具體而言,視窗圖像的內容權重由其空間信息(SI,Spatial Information)反映,高 SI 值表示視口圖像中包含更多細節,因此應分配更大三維沉浸視頻技術白皮書44的權重。位置權重則基于視口中心點的緯度,使用 Laplace 分布模型計算其觀看概率,從而反映用戶更傾向于觀看赤道區域的習慣。最終,這兩個模塊組成了三維全景圖像/視頻質量評估器,該評估器能夠準確預測三維全景圖像/視頻的視覺質量。同時,該模型是一個不需要回歸學習的參數模型,且模型中的每個參數都對應著明確的物理意義
124、。因此在計算復雜度方面具有明顯的優勢。圖 37 二維全景視頻幀和其對應的視窗的圖像(右圖從上至下從左至右分別為下、后、上、左、前、右、視圖)圖 38 基于多視點特征融合的全景二維視頻無參考質量評價模型3.三維沉浸視頻客觀評價算法性能衡量根據視頻質量專家組(VQEG)的建議,使用以下指標進行全景沉浸視頻(包括二維和三維沉浸視頻)的客觀評價算法性能評價。1)斯皮爾曼秩相關系數(SRCC,Spearman Rank-Order Correlation Coefficient):三維沉浸視頻技術白皮書45SRCC=1 6i=1ndi2?n n2 1其中,di為一段視頻的主觀質量評分與客觀質量評分的排序
125、之差,n 是視頻總數。SRCC 衡量預測值與真實值之間的單調性。SRCC 值越接近 1,說明客觀模型的預測分數與主觀質量評分之間有更好的單調性。2)皮爾遜線性相關系數(PLCC,Pearson Linear Correlation Coefficient):PLCC=i=1nqi qsi s?i=1nqi q2?i=1nsi s2?其中,qi和si分別為第 i 段視頻的客觀分數和對應的主觀評分,q和s分別是qi和si的均值。PLCC 衡量預測值與真實值之間的線性相關性。PLCC 越接近 1,說明客觀模型的預測分數與主觀質量評分之間有更好的線性相關性。3)均方根誤差(RMSE,Root Mean
126、 Squared Error):RMSE=i=1nsi qi2?nRMSE 衡量預測值的預測準確度。顯然,RMSE 越接近 0,預測準確度越高。需要說明的是,在計算 PLCC 和 RMSE 兩個指標之前,需要完成五參數的非線性邏輯映射,目的是將所有的客觀質量評價方法的質量評價分數統一到同一范圍內:q=11211+e2Q3+4Q+5其中,i|i=1,2,5 是擬合參數,q,Q 分別為映射后和映射前的分數。最終的擬合參數實質上是能夠使映射后的客觀分數和主觀分數之間的誤差平方和最小的參數組合。4.三維沉浸視頻質量評價數據集IVC(Images and Video Communications)16數
127、據庫是由法國南特大學創建的一個廣泛應用于圖像和視頻處理領域的數據庫。該數據庫包括多種圖像和視頻質量評估數據集,常用于研究圖像壓縮、視頻編碼、圖像和視頻質量評價等方面。WaterlooIVC 3D Image Quality Assessment Database17是專門用于評估3D 立體圖像質量的數據庫,Waterloo IVC 3D Video Quality Database18提供了用于評估立體視頻質量的數據集。IVQAD(Immersive Video Quality Assessment Database)19是由上海交通大學創建的一個專門用于評估 VR 和 360 度視頻質量的數
128、據庫,它包含了多個 360 度視頻和 VR 場景,以及通過主觀實驗收集的用戶評分,涵蓋了用戶對不同視覺失真的主觀感知。LIVE 3D Image Quality Database20這是由美國奧斯汀大學三維沉浸視頻技術白皮書46德州分校的 LIVE 實驗室創建,分為階段一和階段二數據庫,該數據庫同時提供了對稱和非對稱失真的 3 維圖像。MCL-3D21數據集是一個專門用于評估 3D 視頻質量的公開數據集。該數據集由美國南加州大學的 MingC.Lin 實驗室開發,旨在支持立體 3D 視頻的主觀和客觀質量評價研究。360 Dataset22該數據集包含了一組室內場景的 360 度立體圖像和深度圖
129、,用于研究三維重建、立體視覺和沉浸式環境下的計算機視覺任務。Facebook360 Dataset 由 Facebook 發布的一個 360 度視頻數據集,包含了全景視頻的多種場景,用于研究視頻編碼、質量評估和用戶體驗優化,其相關工具和地址參考23;SUN360 Dataset24360 度全景圖像數據集,涵蓋了各種室內和室外場景,適用于沉浸式場景的研究。3.三維沉浸視頻發展趨勢3.1 當前存在的問題內容和形式豐富多樣是三維沉浸視頻的一個顯著特點。隨著各方面技術的進步,三維沉浸視頻從早期的雙目立體發展到如今包含多視裸眼 3D、全景 3D、自由視點、體積視頻等多樣的形式。無論是終端顯示方式還是技
130、術路徑,內容表達形式還是交互方法,均差異顯著,成為創新和創意表達的新前沿,帶來了更加豐富和沉浸式的觀看體驗。然而,三維沉浸視頻也面臨著以下一些挑戰:現有的三維沉浸視頻技術難以在用戶體驗中兼顧高交互自由度與照片級真實的渲染效果?;谀P头椒ǖ娜S沉浸視頻,提供了很高的交互自由度。用戶能夠個性化他們的體驗,例如隨意切換視角、改變觀看角度,甚至動態調整場景元素,以更好地符合個人需求和偏好。這種基于模型的方法雖然在交互性方面表現出色,但在渲染真實感方面卻不盡如人意。這是因為其渲染效果高度依賴于三維模型的精度和質量,如果模型不夠精細,渲染結果可能會顯得不真實或有明顯的幾何誤差?;谀P偷匿秩具m用于靜態或
131、預定義的場景,對于動態變化或實時生成的內容,其適應性較差,模型的質量和計算資源的限制會影響動態場景的真實感和沉浸感。相比之下,基于圖像的方法通常用于高質量的視覺效果制作,如電影和電視廣告中的三維場景。通過使用高分辨率的相機和先進的圖像處理技術,可以采集到非常細致的紋理和光影效果,從而生成高度逼真的場景。但是,基于圖像的方法在交互自由度上受到限制。一旦場景被拍攝和渲染,觀眾的視角和互動(交互自由度受限)就受到了固定鏡頭和視角的限制,缺乏個性化和動態探索的可能性。三維沉浸視頻的應用形態多樣且碎片化,沒有形成規?;瘧?。例如,不同廠商在拍攝多路自由視點視頻時會使用自己的私有格式標記視頻流,編碼和壓縮
132、時會采用不同的格式,播放時必須使用專用的設備或者三維沉浸視頻技術白皮書47APP 才能達到預定的觀看效果。這種格式和技術上的差異不僅限制了內容的普及和分享,也增加了內容創作者和開發者的負擔。他們需要為不同的平臺和設備開發特定的解決方案,這無疑增加了工作量和復雜性。對于消費者而言,這意味著他們可能需要購買多種設備或訂閱不同的服務來體驗不同類型的三維沉浸視頻內容,這不僅增加了經濟負擔,也可能導致用戶體驗的碎片化。內容匱乏也是制約三維沉浸視頻發展的一個重要問題。盡管技術不斷進步,但高質量的三維沉浸視頻內容仍然不足。這主要是因為創建高質量的沉浸式內容需要大量的時間和資源。例如,創建一個復雜的虛擬現實環
133、境不僅需要高分辨率的相機多角度采集,還需要經過復雜的三維重建以及龐大的數據存儲和處理,這對開發者和內容創建者來說是一個巨大的挑戰。內容的缺乏限制了技術的普及和應用的擴展,影響了用戶對三維沉浸視頻的接受度和需求??傮w來說,三維沉浸視頻技術在用戶體驗、高度碎片化的應用形態以及內容匱乏等方面面臨挑戰。3.2 前沿技術概述由于現有的三維沉浸視頻技術上面臨的挑戰。行業急需尋找一種新的 3D 視頻表示方法,既能提供高自由度的交互,又能保持照片級真實的渲染效果,這種需求推動了對新技術的探索和發展。近年來,人工智能(AI)飛速發展,為三維沉浸視頻技術的演進和快速發展提供了新的機遇。神經輻射場(NeRF)和 3
134、D 高斯濺射(3D Gaussian Splatting)是兩個重要的技術創新,它們在三維沉浸視頻的交互和渲染方面展示了強大的潛力。NeRF 能夠生成高質量的視角合成圖像,提升了三維場景的真實感;而 3D高斯濺射則通過高效的點云表示和簡化計算,降低了數據處理成本。這些技術不僅可以實現照片級真實的渲染效果,提供高交互自由度,也使得三維場景的渲染變得更加實時,適應了不同的應用需求。1.神經輻射場 NeRFNeRF 是一種基于神經網絡的渲染技術,旨在實現高度逼真的三維場景渲染。相比傳統的基于幾何和紋理的渲染方法,NeRF 不需要事先建立場景的幾何模型或紋理映射,而是通過訓練神經網絡來學習場景的體密度
135、和顏色信息,最終合成新的視角下的圖像。NeRF 的核心思想是將場景表示為一個神經輻射場,它是一個可學習的函數,接受三維空間中點的坐標和視線觀察方向作為輸入,并輸出觀察到的顏色和體密度。為了訓練這個模型,需要收集場景的多個角度的觀察圖像,通過優化神經網絡的參數,使其能夠準確地從任意點生成對應的顏色和體密度。在渲染階段,當給定相機的位置和方向時,NeRF 就可以生成照片級逼真的新視圖,從而實現多視角的沉浸體驗。三維沉浸視頻技術白皮書48NeRF 將靜態場景表示為一個連續的 5D 函數,該函數在空間中任意一點(x,y,z)的每個方向(,)上產生輻射,并且任意一點都有一個密度,該密度可以控制通過該點的
136、射線的累積輻射。這種方法通過優化一個不包含任何卷積層的深度全連接神經網絡,通常稱為多層感知機(MLP,Multi-Layer Perceptron),來表示這個函數,從而將一個 5D 坐標映射為一個體密度以及與視角相關的 RGB 顏色值的函數。渲染某個特定視角的 NeRF 需要經過以下幾步:1)通過場景中的相機射線,生成一組 3D 點的采樣集合。2)使用這些點及其對應的二維視點方向作為輸入,產生顏色和體密度的輸出集合。3)使用經典的體渲染技術將這些顏色和密度累積到一張二維圖像中。由于以上過程是可微的,因此可以通過最小化渲染圖像與真實圖像之間的距離,使用梯度下降的方式優化網絡模型。通過在多個視圖
137、上最小化這個距離,使得網絡將高體密度以及準確的顏色信息分配到隱含真實場景內容的位置,預測出連續的場景模型。如下圖所示:來源:文獻26圖 39 NeRF 表示與可微渲染過程的描述NeRF 的優點在于其高質量的任意視角圖像生成。然而,NeRF 也存在很多問題,如速度慢,泛化性差,訓練需要過多視角、渲染高分辨率圖像很耗時等。因此,關于 NeRF 的優化和相關研究仍然有很高的熱度。2.3D Gaussian Splatting3D Gaussian Splatting,其相關論文3D Gaussian Splatting for Real-Time Radiance FieldRendering獲得了
138、 2023 年 SIGGRAPH 大會的最佳論文獎。這項技術在短短數月內便在三維視覺和 SLAM(同步定位與地圖構建)等領域掀起新的研究熱潮。以其高質量的實時渲染能力,迅速成為學術界和工業界的熱點話題。三維沉浸視頻技術白皮書493D Gaussian Splatting 的核心思想是:基于稀疏點云初始化一組三維高斯分布,由高斯球位置(三維高斯分布均值)、大小和朝向(三維高斯協方差)、球諧系數以及不透明度來定義。輻射場的不同方向的觀測顏色通過球諧系數(SH,Spherical Harmonic)表示。優化過程中,將這組三維高斯分布通過點云拋濺算法渲染到各個視角上來計算渲染損失,并通過反向傳播優化
139、三維高斯參數。3D Gaussian 高效的關鍵在于 Tile-Based 的光柵化器,它基于深度對高斯球快速排序,基于不透明度混合算法得到二維平面像素點顏色。該光柵化器通過累積不透明度值跟蹤,支持快速反向傳播。此外,三維高斯優化過程中支持根據梯度狀態、透明度屬性、高斯球大小做自適應高斯克隆和裁剪。3D 高斯的輸入為一組圖像和使用 SFM 對該組圖像估計的點云數據。將每個點初始化為一個 3D 高斯,借助 SFM 估計每個 3D 高斯的初始位置和顏色。更高質量的表征需要基于輸入的多視角圖像對 3D 高斯進行訓練優化,以推理出更精細的位置、協方差、球諧系數和不透明度。訓練步驟如下:1)用當前所有可
140、微高斯函數渲染出圖像。2)根據渲染圖像和真實圖像之間的差異計算損失。3)根據損失調整每個高斯分布的參數。4)對當前高斯分布進行自適應密度控制。渲染步驟如下:1)針對給定相機視角,把每個 3D 高斯投影到 2D。2)按深度對高斯進行排序。3)對每個像素,從前到后計算每個高斯在該像素點的值,并將所有值混合以得到最終像素值。由于以上過程是可微的,因此可以通過最小化渲染圖像與真實圖像之間的距離,使用梯度下降的方式優化網絡模型。通過在多個視圖上最小化這個距離,使得網絡將高體密度以及準確的顏色信息分配到隱含真實場景內容的位置,預測出連續的場景模型。如下圖所示:來源:文獻27三維沉浸視頻技術白皮書50圖 4
141、0 3D Gaussian 的優化與渲染流程3D 高斯的優點為:支持高質量、逼真的場景;快速實時的渲染和更快的訓練速度。但是 3D 高斯也存在以下缺點:模型優化中的破碎的高斯分布(點太大、太長、冗余等);更高的顯存使用率;更大的磁盤占用;與現有渲染管線不兼容等。3.3 3D全真視頻考慮到傳統三維沉浸視頻技術面臨顯著的體驗瓶頸,即無法同時滿足照片級真實感渲染和 6DoF 交互的要求?,F有的解決方案,不論是依賴基于模型的方法還是基于圖像的渲染方法,在實現過程中往往會在三維場景的真實感和互動性之間做出妥協,導致用戶體驗不足。除此之外,沉浸視頻的體驗往往受到硬件的限制,對設備的依賴程度高,需要依賴復雜
142、的觀影設備,如 VR、AR 設備等。而當前的 VR/AR 設備往往較為笨重,佩戴時間過長可能會導致疲勞或不適。為此,需要發展三維沉浸視頻的一些新形態。三維全真視頻(即 3D 全真視頻)旨在采用多視點拍攝,采集真實動態場景的數據,重建真實場景的動態三維對象,以高效的數據表達和壓縮,結合先進的渲染技術,使得觀眾可享受在任意終端實現自由穿梭的互動體驗。3D 全真視頻作為一種面向未來視頻的代表形態之一,不僅追求照片級真實、超高分辨率的高質量三維視覺效果,還力求在跨平臺、交互性、實時性等方面達到新的高度。隨著技術的不斷進步,尤其是人工智能的飛速發展,相信 3D 全真視頻終將實現,并展示出廣闊的應用前景。
143、1.3D 全真視頻的特點相對于傳統的三維沉浸視頻,3D 全真視頻具有以下特點:照片級真實動態渲染:3D 全真視頻通過高精度攝像機采集真實動態數據,結合先進的渲染技術實現照片級真實渲染。視頻中的每個細節都被真實地呈現,使觀眾仿佛親臨其境,以獲得極致觀看體驗。6DoF 交互:3D 全真視頻支持 6DoF 交互,允許觀眾視角在三維空間內自由移動和旋轉,從而全方位探索視頻內容,定制化觀看體驗。6DoF 交互大大增強了沉浸感,使觀眾能夠以更加自然和靈活的方式與虛擬環境進行互動,提升了觀看體驗的沉浸度和互動性,也為教育、培訓、游戲等領域的應用提供了更多可能性。高效壓縮與實時處理:為了應對高分辨率、高幀率和
144、高細節的要求,應當考慮為 3D 全真視頻制定更先進的壓縮標準。這些技術可以在保證圖像質量的同時,降低數據傳輸和存儲的負擔,并能夠實現實時處理和播放。高效的壓縮算法和優化的實時渲染技術確保了流暢的用戶體驗,同時保持了高水平的視覺效果。三維沉浸視頻技術白皮書51易于編輯:提供便捷的編輯功能,在創建和調整三維沉浸視頻內容時,用戶能夠高效靈活的進行修改,滿足不同的創作和定制化需求??缙脚_和互操作性:可以實現更多的跨平臺整合,使用戶能夠在不同設備上無縫享受沉浸的觀影體驗無論是 PC、游戲主機、移動終端還是 VR 頭顯。由此,行業需要制定更多的標準和規范,以促進不同設備之間的互操作性和兼容性,從而為用戶提
145、供更加統一和一致的體驗。2.3D 全真視頻應用效果3D 全真視頻展現出廣闊的應用前景。在娛樂與媒體領域,它可以為用戶提供沉浸式的觀影體驗,例如虛擬現實電影和互動游戲。在教育與培訓領域,它可以通過逼真的 3D 場景提升學習效果,特別適合醫學和工程等專業培訓。在旅游與文化遺產領域,它能夠讓觀眾足不出戶探索名勝古跡和歷史場景,增強文化體驗等。下圖展示了 3D 全真視頻在賽事直播中初步應用的實例。在該應用中,觀眾可以通過觸摸滑動或者手勢識別操作,360 度觀看體育賽事,并且可以自主選擇任意位置任意視角,享受全方位的沉浸觀賽體驗。圖 41 3D 全真視頻不同視點下觀看同一場景該應用具備如下特征:畫面真實
146、生動流暢:在 3D 全真視頻中,畫面不僅具有高度的真實感,還保持了生動和流暢的視覺效果。通過高精度攝像機采集和 AI 渲染技術,每一個細節都被真實呈現,提供身臨其境的視覺體驗。自由選擇視點:在 3D 全真視頻中,觀眾可以享受 6DoF 的沉浸觀賽體驗。用戶可以隨意切換視角,無論是環繞視角還是特定角度,以獲得更加個性化和沉浸的觀看體驗。這種多視角的互動性使得觀眾能夠全方位感受視頻內容。三維沉浸視頻技術白皮書52熱點區域智能導播:在 3D 全真視頻中,系統能夠根據觀眾的關注點和熱點區域進行智能導播。當某一區域的關注度較高時,視頻會自動調整視角和焦點,使得觀眾無需手動操作即可觀看到最有趣或最重要的部
147、分。這種智能導播功能提升了觀看的便捷性和體驗感。由此,3D 全真視頻不僅提供了更高質量的視覺享受,還可以通過交互性和智能化的功能提升用戶體驗,使其在各類場景中都具有廣泛的應用潛力。未來,隨著技術的成熟和普及,3D 全真視頻有望在教育、娛樂、醫療、建筑等領域得到更廣泛的應用,為人們帶來更加豐富和身臨其境的體驗。隨著技術的不斷發展,未來的沉浸視頻不僅復刻現實場景完整視覺信息,模擬并重現現實場景的所有視覺信息,包括顏色、光照、深度等方面,還將朝著更高維度體驗的方向發展,即多感官沉浸體驗,集成多項實體建模和數字技術,營造多感官沉浸的空間臨場感。4.標準化建議4.1 三維沉浸視頻標準1.國內標準為發揮標
148、準在產業發展中的推動作用,國內標準化技術組織機構在三維沉浸視頻的相關領域和方向不斷推動標準的制定與發布。采集重建方面,國內主要有全國信息技術標委會的 SC24(計算機圖形圖像和環境數據表示分委會),編碼渲染等相關標準則主要通過 SC29(多媒體編碼分委會),終端顯示和質量評價主要通過 SAC TC242(音頻、視頻及多媒體系統與設備標委會)。AVS(數字音視頻編解碼技術標準工作組)、UWA(世界超高清視頻產業聯盟)、虛擬現實產業聯盟、虛擬現實產業推進會等組織也在大力推進標準制定。自由視角方面:2024 年 5 月 28 日,國家市場監督管理總局(國家標準化管理委員會)批準了 AVS 虛擬現實國
149、家標準信息技術 虛擬現實內容表達 第 2 部分:視頻。標準規定了虛擬現實全景視頻和自由視角視頻的編碼表示與重建方法,包括壓縮域的語法、語義以及重建過程,以及與平面視頻編碼標準的接口。適用于虛擬現實視頻內容制作、播出、傳輸等應用。體積視頻編碼方面:2019 年 3 月起,AVS 工作組提出了點云壓縮的技術需求,并完成了 AVS-PCC 參考軟件平臺 PCRM 的開發以及標準符合性和驗證性測試。在基于深度學習的 AVS 點云編碼方面,也取得了一些進展。對于三維網格編碼,AVS 在第 87 次工作組會議后發布了三維網格編碼技術需求(征求意見稿),對不同應用場景中的三維網格表示和壓縮需求進行了進一步細
150、化,并獲得了一些現階段代表性成果證據。三維沉浸視頻技術白皮書53其余相關標準如下:序號標準號標準名稱技術組織1GB/T 38665.1-2020信息技術 手勢交互系統 第 1 部分:通用技術要求SAC/TC28/SC242GB/T 38665.2-2020信息技術 手勢交互系統 第 2 部分:系統外部接口3GB/T 38247-2019信息技術 增強現實術語4GB/T 38258-2019信息技術 虛擬現實應用軟件基本要求和測試方法5GB/T 36341.1-2018信息技術 形狀建模信息表示 第 1 部分:框架和基本組件6GB/T 36341.2-2018信息技術 形狀建模信息表示 第 2
151、部分:特征約束7GB/T 36341.3-2018信息技術 形狀建模信息表示 第 3 部分:流式傳輸8GB/T 36341.4-2018信息技術 形狀建模信息表示 第 4 部分:存儲格式9GB/T 28170.1-2011信息技術 計算機圖形和圖像處理 可擴展三維組件(X3D)第 1 部分:體系結構和基礎組件10GB/T 28170.2-2021信息技術 計算機圖形和圖像處理 可擴展三維圖形(X3D)第 2 部分:場景訪問接口11GB/T 44247-2024信息技術 增強現實 軟件構件接口12GB/T 38259-2019信息技術 虛擬現實頭戴式顯示設備通用規范13GB/T 44020-20
152、24信息技術 計算機圖形圖像處理和環境數據表示 混合與增強現實中實時人物肖像和實體的表示1420190776-T-469信息技術 虛擬現實內容表示編碼 第 1 部分:系統SAC/TC28/SC2915GB/T 44115.2-2024信息技術 虛擬現實內容表達 第 2 部分:視頻1620214282-T-469信息技術 虛擬現實內容表達 第 3 部分:音頻17SJ/T11841.3.12023顯示系統視覺舒適度 第 3-1 部分:頭戴式顯示 藍光測量方法SAC/TC24218GB/T 44465-2024虛擬/增強現實內容制作流程規范19SJ/T 119102023虛擬現實音頻主觀評價方法20
153、2019-1104T-SJ超高清虛擬現實顯示設備通用規范21GB/T 44220-2024虛擬現實設備接口 定位設備22GYT395-2023沉浸式終端通用技術要求SAC/TC2392.國外標準1)2012 年 7 月,ISO/IEC MPEG 和視頻編碼專家組(Video Coding Experts Group,VCEG)成立了一個新的小組 JCT-3V,負責開發下一代 3D 編碼標準。JCT-3V 開發了兩個 HEVC 的擴展,一個是 MV-HEVC,它被納入到 HEVC 的第二個版本,該版本在 2014 年 10 月完成。為了提升多視點編碼的性能并支持更先進的 3D 顯示設備,JCT-
154、3V 推出了 3D-HEVC。3D-HEVC 被納入 HEVC 標準的第三個版本,該版本于三維沉浸視頻技術白皮書542015 年 2 月最終確定。MV-HEVC 標準僅包含高層級語法(HLS)添加,因此可以使用現有的 HEVC 的解碼器進行實現。而 3D-HEVC 通過引入新的壓縮工具,能夠更有效地對視頻加深度信息的格式進行壓縮。2)在第 142 屆 MPEG 會議上,MPEG 工作組(WG 04)將其 MPEG 沉浸式視頻(MIV)符合性測試和參考軟件標準(ISO/IEC 23090-23)推進至最終草案國際標準(FDIS)階段,這是標準批準過程的最終階段。該文檔規定了如何進行符合性測試,并
155、提供了針對 ISO/IEC 23090-12 MPEG 沉浸式視頻的參考編碼器和解碼器軟件。草案中包含了 23 個經過驗證的符合性比特流,以及基于 MPEG 沉浸式視頻測試模型(TMIV)15.1.1 版本的編碼和解碼參考軟件。3)點云編碼:隨著點云使用場景的增加,MPEG 3D 圖形編碼組(3DG)在 2017 年發布了征集提案(CFP),旨在向學術界和工業界尋求高效的點云壓縮解決方案。根據對該 CFP 的回應,選擇了兩種不同的壓縮技術用于點云壓縮(PCC)標準化工作:基于視頻的點云壓縮(V-PCC)和基于幾何的點云壓縮(G-PCC)。前者主要針對動態物體點云的壓縮,適用于密集點云,后者針對
156、靜態場景點云的壓縮,適用于稀疏點云。這些標準和平臺的研發將為點云數據的壓縮和傳輸提供標準化和高效的解決方案,推動三維點云技術在各領域的應用和發展。4)網格編碼:MPEG 的 3D 圖形和觸覺(3DGH)編碼小組于 2021 年 10 月發布了一項關于新的動態網格編碼標準的提案征集。動態網格是網絡連接性頻繁變化的網格序列,因而如何減少其龐大的數據量仍是一個極大的挑戰。蘋果、Interdigital、諾基亞、騰訊和索尼等對這一提案做出了響應,而蘋果的解決方案被采納為 V-DMC 標準的基礎版本。2023 年,基于該提案已經發布了基于視頻的動態網格壓縮測試模型(TMM)。TMM 的解決方案與編碼器無
157、關,但目前采用了 HEVC 標準的 HM 編碼器用于視頻編碼,采用 Edgebreaker的實現用于幾何編碼。4.2 標準化建議上述標準主要是面向傳統的三維沉浸視頻形態構建的,在用戶體驗、壓縮效率和編解碼復雜度等方面仍然不夠理想,且對于 3D 全真視頻并不適用。為了突破傳統三維沉浸視頻無法兼顧交互自由度和渲染真實性的瓶頸問題,需要探索面向新興 3D 全真視頻的緊湊表示和編解碼標準。近年來以 NeRF 和 3DGS 為代表的隱式可微表示受到廣泛關注,特別是在表征三維數據和場景重建方面,具有表示緊湊、交互自由度高、視點渲染真實性高等優勢?;陔[式可微表示的各類研究成果不斷涌現,例如高效靜態場景三維
158、重建、動態場景三維重建、3D AIGC、三維場景編輯與理解等等。這些成果為制定下一代新型三維沉浸視頻編解碼標準提供了新的思路和研究基礎。三維沉浸視頻技術白皮書55圖 42 下一代三維沉浸視頻編碼標準需求建議我國盡早在下一代三維沉浸視頻編解碼標準方面開展布局,新的標準應該具有以下六大特性:1)支持六自由度用戶交互。2)支持照片級真實的虛擬視點渲染。3)支持在各類移動終端上實現實時渲染和自由切換。4)編碼效率明顯高于現有三維視頻編碼標準。5)面向直播和實時通信場景,支持低延時實時編解碼。6)視頻內容易于編輯和處理。在這方面,我國 AVS 工作組 VRU 專題組于 2023 年 3 月開始了三維體視
159、頻智能編碼的標準化需求探討和技術證據征集工作,目前已經取得階段性成果。此外,有必要為三維沉浸視頻從內容采集到終端顯示整體路線制定對應標準,來為產業提供標準參考依據,一方面,幫助上下游企業打通鏈路,提高產業水平及發展速度;另一方面幫助跨平臺企業達成一致,統一各項參數,提高三維沉浸視頻在不同平臺和設備之間的兼容性和互操作性。在各個階段制定合適的質量評價標準也有利于提升三維沉浸視頻內容整體質量,避免出現少數劣品破壞整個產業聲譽的情況。隨著硬件技術不斷突破,人工智能技術(AI)的不斷發展,為三維沉浸視頻的誕生與發展提供了良好的技術基礎,并且作為元宇宙等未來高新技術產業的支柱技術,三維沉浸視頻技術的發展
160、重要性毋庸置疑,我國在多個政策性文件中也強調了要大力發展沉浸視頻的決心。下一階段需要統籌推進三維沉浸視頻的標準化工三維沉浸視頻技術白皮書56作,各標準技術組織從內容采集、視頻編碼、終端顯示以及質量評價的整體路線上共同推進三維沉浸視頻相關標準的制定,并在關鍵技術節點加強標準化布局。5.附錄5.1 三維沉浸視頻應用三維沉浸視頻可以在虛擬環境下復刻真實場景的視覺信息,目前已初步應用在賽事直播、展示陳列、文旅場景、醫療場景、教育場景、工業場景等多個領域。隨著技術的不斷進步,三維沉浸視頻將會獲得更廣泛和更深入的應用。1.賽事直播傳統賽事直播使用的畫面都是單一視角的,是對平面視覺效果的表達,不能還原真實世
161、界的立體性和多維性,且視角選擇由導播決定,觀眾無法實時自由選擇自己想要觀看的視角。新一代人工智能技術的發展和云計算的普及,為視頻處理技術的革新創造了條件?;谏疃戎悄苋S重建的自由視角視頻系統,滿足了多維度視覺體驗,能夠接近真實地再現時空影像,完全突破了傳統視頻單一視角的局限性,賦予了視頻任意視角、自由交互等特點,取得了視覺效果的革命性進步。例如,咪咕在中國籃球協會(CBA,Chinese BasketballAssociation)聯賽直播中推出的原畫級自由視角直播應用,用戶可以通過觸屏滑動,更自由地選取自己想要的觀賽視角,并能夠基于屏幕焦點實現 360 度的觀賽體驗。此外,通過對采用自由視
162、角拍攝方式的視頻進行特定的加工處理,如暫停、旋轉切換視角、慢動作、放大等生成的特效回放視頻。子彈時間特效視頻可以為精彩動作提供更加細致、生動、多視角的觀看效果,突出體現了拍攝目標的驚、奇、特等震撼效果,極大提高了視頻的觀賞性。目前,子彈時間特效已經應用到北京冬奧會、巴黎奧運會等多個大型體育賽事中。三維沉浸視頻技術白皮書57來源:咪咕文化科技有限公司解決方案圖 43 賽事直播自由視角技術2.家庭場景盡管傳統的 3D 電影已經進入千家萬戶,但需要佩戴特殊眼鏡觀看仍然是一些觀眾的負擔。在家庭觀影中,有限的 3D 片源和單一的觀看視角也限制了 3D 視頻的體驗。隨著計算機視覺和人工智能技術的不斷發展,
163、2D 轉 3D 視頻技術迅速成熟。借助傳統方法或者 AI 模型,我們能夠快速、大規模地將 2D 視頻轉換為 3D,從一定程度上解決了 3D 視頻片源不足的問題。而 VR 頭顯的更新換代和裸眼 3D 設備小型化則為家庭場景下觀看三維沉浸視頻提供了終端設備,典型的產品如蘋果的Vision Pro 以及中興的 nubia Pad 3D 平板。2024 年 2 月 2 日,蘋果正式發布了 Apple Vision Pro 這一創新性的產品,受到了市場的熱烈歡迎,引起了全球的廣泛關注。這是蘋果在空間計算領域的一次重大嘗試,將數字內容與現實世界融合,為用戶帶來全新的沉浸式體驗。Vision Pro 的無邊
164、際畫布突破了傳統顯示屏的限制,利用眼睛、手勢和語音等交互方式實現了 3D 交互,使用戶能夠身臨其境地體驗數字內容。隨著元宇宙概念的興起和虛擬現實技術的不斷發展,市場對這類設備的需求日益增加,Vision Pro 有望滿足人們對沉浸式數字體驗的追求。這一產品的成功推出也預示著蘋果在空間計算領域的未來發展潛力,并為行業帶來新的探索方向。2023 年 6 月 27 日,中興通訊的全球首款 AI 裸眼 3D 平板電腦 nubia Pad 3D 在國內預售。這款平板采用獨特的 3D 光場技術帶來沉浸式的裸眼 3D 體驗。通過 AI 人眼追蹤技術實現 86 度超寬可視角度,通過高三維沉浸視頻技術白皮書58
165、精度納米薄膜提供 8 視場角方案,觀看距離靈活,3D 分辨率更高。通過咪咕視頻 3D 內容,實現了電影、電視劇、綜藝、電臺、體育、游戲直播等全方面內容的 3D 播放。為用戶帶來全新的、超越想象的沉浸式視頻體驗。來源:中興官網圖 44 裸眼 3D 平板3.展示陳列三維沉浸視頻在展示陳列場館的應用主要涵蓋藝術館、展覽館、博物館、企業展廳等場所,通過不同的應用方式為參觀者提供更加沉浸式和生動的展示體驗。全息透明方柜/柱柜是一款互動透明展示的高科技展柜。這款透明展示柜采用結合實物共同展示的互動形式,透明屏帶有觸摸互動功能,通過屏上的畫面配合后方的實物,兩者相結合,以圖文及視頻方式展示,極大的豐富了現場
166、產品的展示內容和展覽效果。來源:洲明科技公眾號/洲明科技解決方案https:/ 45 全息透明柜產品展示全息透明方柜/柱柜提供了一系列標準尺寸選項,滿足不同場合的需求??蛻艨梢愿鶕壕恋臉藴食叽?,從多種尺寸規格中選擇滿足自己需求的產品。展示柜擁有高度的定制性,無論帶觸摸功能的互動型,還是偏好簡潔的非觸摸類型,都有對應的產品選型。三維沉浸視頻技術白皮書59在柜體結構設計上,全息透明方柜/柱柜擁有了前開門和后開門兩種方式,適應不同的安裝和使用環境。一部分全息柜供應商額外提供附加定制服務,包括用戶界面設計、主框架結構搭建、動畫特效制作、素材修改美化及素材錄入封裝測試等,確保產品完全符合客戶的個性化
167、需求。來源:洲明科技解決方案圖 46 全息柜三維沉浸視頻應用透明互動展示柜不需要外部投影的協助即可實現直接獨立顯像,省電環保,其耗電量大約只有普通液晶顯示屏的十分之一,能夠在柜體內展示實物,同時在屏幕上發布顯示物品的相關信息,如工藝結構、藝術價值和功能特性等,使得參照物品的信息更為清晰,為用戶提供了一個直觀、互動的展示平臺。使得該產品很好的適配展廳展陳以及商超展示等場景。來源:洲明科技解決方案圖 47 某全息柜硬件結構組成4.文旅場景LED CAVE 沉浸式 5D 影院顛覆了傳統的觀影方式,它是一種結合了三維立體電影和多維環境效果的先進影院形式,讓觀眾從觀影者變成影片中的角色參與者。它擁有強烈
168、的沉浸感,超現實的視覺效果與逼真特效完美同步,使觀眾全身心融入劇情;配備精確的動感技術和高精度模擬控制,動感平臺動作細膩柔和,與影片三維沉浸視頻技術白皮書60無縫融合;設備兼容性強,支持主流放映設備和影片格式;同時具備嚴格的安全措施,如座椅占用和安全帶識別功能,確保安全;此外,其系統結構和設備選型保證了系統的穩定性和可靠性。來源:洲明科技解決方案圖 48 5D 影院系統拓撲圖在 CAVE 沉浸式 5D 影院的環境下,藝術的展示已經遠遠超越了傳統畫廊空間的限制。借此可以探索藝術作品如何藉由全方位的視聽體驗,在沉浸式環境中與觀眾建立更深層的情感連接。通過將藝術作品的多維感官元素與高度沉浸的空間設計
169、相結合,觀眾被引導進入一個多感官的藝術世界,其中包括但不限于:繪畫中豐富的色彩層次、雕塑的立體質感,以及攝影作品中那些精致而永恒的瞬間。來源:洲明科技公眾號https:/ 49 CAVE 沉浸式 5D 影院案例裸眼 3D 戶外大屏多應用于商圈和文旅場景。近年來,國家出臺相關政策拉動內需消費,促進夜間經濟發展,文旅夜游是行業內熱度很高的關注點。夜游項目作為文旅系統中的一個板塊,也賦予了文旅項目的屬性三維沉浸視頻技術白皮書61特點,就是需要考慮商業運營和投資回報。裸眼 3D 作為文旅夜游系統解決方案中的局部板塊,其投資回報性也在逐漸增強。傳統 3D 戶外屏因需佩戴專業 3D 眼鏡,常引起視覺疲勞和
170、不適,并增加硬件和人工成本,難以吸引觀眾。裸眼 3D 顯示屏無需眼鏡觀看,提供更自然的視覺體驗,具備多重商業價值:如降低廣告位空置率、打造地標品牌案例、推動品牌傳播,同時吸引人氣、帶動線下消費,并響應政策推動地方經濟發展。目前市面上裸眼 3D 顯示屏主要有 2 類:1)弧形方案:屏體拐角處采用弧形過渡,顯示效果整體性強,3D 感更真實,過渡自然。來源:洲明科技公眾號九江新旅潯陽里 1723 項目https:/ 50 模組弧形過渡2)直角方案:屏體拐角處采用箱體切角,直角拼接,一般會有直觀的拼縫。來源:洲明科技解決方案來源:利亞德集團解決方案圖 51 常規箱體切角全息影院,是超現實全息影像、投影
171、、特效相結合的最尖端的立體影像及加以互動性活動的未來型劇場,融合 3D Mapping、全息成像技術、增強現實技術為一體,將藝人內容結合文化技術沉浸式展現,現場觀眾可與沉浸式視頻內容進行交互。三維沉浸視頻技術白皮書62圖 52 全息影院現場圖5.醫療場景在醫療教育與培訓方面,三維沉浸視頻技術為醫學生和醫生們提供了一種全新的學習方式。相比于傳統的平面視頻,觀看三維沉浸視頻可以多角度、更全面、更深入的了解人體解剖結構、疾病發展過程等重要醫學知識,提高對醫學知識的理解和記憶。如下圖,使用創維 MR 頭顯,沉浸式學習生物醫學知識。圖 53 VR 醫學知識教學在遠程診斷方面,傳統的遠程醫療借助平面視頻對
172、患者進行觀察和會診,存在視角和信息傳遞有限的問題。三維沉浸視頻可以采集和傳遞更豐富的視覺信息,醫生通過多角度觀察患者的身體部位和癥狀,更清晰的查看皮膚病變、肢體運動等細節,醫患溝通更加自然,可以給予患者更好的治療建議。對于醫學手術,醫生可以利用三維沉浸視頻進行手術規劃、風險評估和實時指導,從而提高手術的準確性和安全性。這種虛擬手術技術為醫生提供了一個先進的工具,使他們能夠在真實手術之前進行充分準備。在遠程手術過程中,通過觀察手術過程的多角度立體圖像,經驗豐富的醫生可以給予手術團隊實時指導和建議,確保手術的安全和成功。三維沉浸視頻技術白皮書63目前,全國已有多所醫院建立了遠程醫療中心,有力的滿足
173、了偏遠地區對優質醫療資源的需求,以及基層患者和醫療機構對于上級醫院醫療支援的需求,三維沉浸視頻在醫療領域的運用具有巨大的空間和前景。6.教育場景當前,全國多地已有 3D 沉浸式安全教育體驗館落地,例如消防安全體驗館、消防安全教育基地、交通安全體驗館等。通過真實的 3D 模擬環境,觀看者可以身臨其境地體驗各種安全情境,從而提高對安全知識的理解和記憶,大大增強警示作用。例如在 2024 年 1 月,深圳西鄉街道已有首個 VR 交通安全警示教育站落地,運用 VR 等技術,直觀的讓參觀者體驗交通事故場景,深刻感受交通安全的重要性。來源:深圳寶安區西鄉街道辦事處工作動態圖 54 交通安全體驗站此外,三維
174、沉浸視頻在教育培訓領域還有許多潛在的應用,例如:通過三維沉浸視頻,學生可以無需真實的實驗設備,直觀的觀察和學習復雜的實驗過程。這可以提供更安全、更經濟的實驗環境。教師可以利用三維沉浸視頻拍攝的各種場景,如歷史場景、地理環境、自然生態系統等,讓學生身臨其境地體驗地理特征或自然現象,從而提升學習的效果和吸引力。在職業培訓中,三維沉浸視頻可以用于展示各種實際場景,例如醫療手術、飛行駕駛、工程施工等。相較于平面視頻,學員不僅可以自由選擇觀看視角,還可以觀察到立體效果,創造出和真實環境相近的學習體驗。教師使用三維沉浸視頻進行遠程教育,學生利用三維沉浸視頻進行團隊合作和溝通,通過不同角度觀察聊天對象,能夠
175、產生一種面對面溝通的效果,使得互動方式更加真實自然。7.工業場景工業設備的裝配和維修過程需要操作人員具備一定的技能和經驗。通過三維沉浸視頻技術,可以制作裝配培訓和維修指導視頻,多角度立體的展示設備的組裝過程、零件結構以及常見故障的識別和排除方法,幫三維沉浸視頻技術白皮書64助操作人員快速掌握操作技巧并提高工作效率。如下圖,使用創維 MR 頭顯進行工業機械的拆解安裝教學。通過三維沉浸視頻,專業人員不僅可以進行遠程指導,也可以通過機械臂遠程操作,直接進行設備裝配和維修。工業生產中的設備監控和維護是確保生產線正常運行的關鍵環節。通過三維沉浸視頻技術,可以實現設備的遠程監控和遠程維護,工程師可以通過虛
176、擬現實技術遠程查看設備狀態、診斷故障并進行維修操作,減少現場維護的人力成本和時間成本。圖 55 VR 工業機械拆解安裝教學8.影視場景因為三維沉浸視頻多視點高自由度的特性,在影視制作中有許多創新應用,讓影視虛擬制作得以快速高效進行內容生產,創造出更為震撼的視覺效果。三維沉浸視頻作為影視拍攝的虛擬背景,不僅畫面效果真實、調整靈活,還能讓演員自己置身于虛擬場景之中,提供一種身臨其境的表演環境和即見即所得的拍攝方式。三維沉浸式視頻在虛擬制作中應用場景有電影、電視、短劇、新聞報道、音樂劇、情景劇、紀錄片拍攝等。三維沉浸視頻在影視制作應用中降低了成本,減少外景拍攝,減少實體場景搭建、道具制作和運輸等方面
177、的費用。實時的視覺反饋讓拍攝團隊能夠及時發現和解決問題,保證畫面質量,減少后期制作時間。虛擬環境不受物理限制,創作者可以自由地構建任何想象中的場景。對于涉及危險動作或難以實現的場景,可以安全地在虛擬環境完成拍攝,減少危險拍攝,減少人群聚集風險。圖 56 XR 虛擬制作三維沉浸視頻技術白皮書65來源:利亞德馬欄山虛擬制作系統圖 57 XR 虛擬制作5.2 縮略語下列術語和定義適用于本文件:尺度不變特征變換(SIFT,Scale Invariant Feature Transform)等距圓柱投影(ERP,Equirectangular Projection)動態圖像專家組(MPEG,Moving
178、 Pictures Experts Group)動態直接線性變換法(Moving DLT,Moving Direct Linear Transformation)多層感知機(MLP,Multi-Layer Perceptron)多視立體(MVS,Multiple View Stereo)多視圖融合模塊(MVFM,Multi-View Fusion Module)發光二極管(LED,Light-emitting Diode)飛行時間(TOF,Time-of-Flight)峰值信噪比(PSNR,Peak Signal-to-noise Ratio)符號距離函數(SDF,Signed Distanc
179、e Funciton)高性能視頻編碼(HEVC,High Efficiency Video Coding)國際標準化組織(ISO,International Organization for Standardization)國際電工委員會(IEC,International Electrotechnical Commission)國際電信聯盟(ITU,International Telecommunication Union)混合現實(MR,Mixed Reality)結構相似度(SSIM,Structural Similarity)三維沉浸視頻技術白皮書66基于動態直接線性變化法的拼接技術(
180、APAP,As-ProjectiveAs-Possible With Moving DLT)基于模型的渲染(MBR,Model Based Rendering)基于深度圖的渲染(DIBR,Depth Image Based Rendering)基于視頻的動態網格編碼(V-DMC,Video-based Dynamic Mesh Coding)基于圖像的渲染(IBR,Image Based Rendering)卷積神經網絡(CNN,Convolutional Neural Network)開放媒體聯盟(AOM,Alliance for Open Media)空間信息(SI,Spatial Inf
181、ormation)明暗度恢復形狀法(SFS,Shape From Shading)目前最優(SOTA,State-of-the-Art)球諧系數(SH,Spherical Harmonic)全方向立體(ODS,Omni-directional Stereo)人工智能(AI,Artificial Intelligence)人類視覺系統(HVS,Human Visual System)三維(3D,3 Dimensions)神經輻射場(NeRF,Neural Radiance Field)視場角(FOV,Field Of View)視頻編碼專家組(VCEG,Video Coding Experts
182、Group)數字內容生成(DCC,Digital Content Creation)數字音視頻編解碼技術標準工作組(AVS,Audio Video coding Standard Workgroup of China)隨機采樣一致性方法(RANSAC,Randam Sample Consensus)調焦法(SFF,Shape From Focus)通用視頻編碼標準(VVC,Versatile Video Coding)頭戴式顯示器(HMD,Head-Mounted Display)圖像域形變(IDW,Image-Domain Warping)紋理法(SFT,Shape From Texture
183、)稀疏光束平差(SBA,Sparse Bundle Adjustment)三維沉浸視頻技術白皮書67虛擬現實(VR,Virtual Reality)液晶顯示器(LCD,Liquid-Crystal Display)陰極射線管(CRT,Cathode Ray Tube)有機發光二極管(OLED,Organic Light-Emitting Diode)運動恢復結構(SFM,Structure From Motion)增強現實(AR,Augmented Reality)自由度(DoF,Degrees of Freedom)中國籃球協會(CBA,Chinese Basketball Associat
184、ion)MPEG 沉浸視頻標準(MIV,The MPEG Immersive Video Standard)5.3 參考文獻1 Xie J,Girshick R,Farhadi A.Deep3d:Fully automatic 2d-to-3d video conversion with deepconvolutional neural networksC/Computer VisionECCV 2016:14th European Conference,Amsterdam,The Netherlands,October 1114,2016,Proceedings,Part IV 14.Spr
185、inger InternationalPublishing,2016:842-857.2 Shih M L,Su S Y,Kopf J,et al.3d photography using context-aware layered depthinpaintingC/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:8028-8038.3 Schonberger J L,Frahm J M.Structure-from-motion revisitedC/Proceedi
186、ngs of the IEEEconference on computer vision and pattern recognition.2016:4104-4113.4 Furukawa Y,Hernndez C.Multi-view stereo:A tutorialJ.Foundations and Trends in ComputerGraphics and Vision,2015,9(1-2):1-148.5 Yao Y,Luo Z,Li S,et al.Mvsnet:Depth inference for unstructured multi-viewstereoC/Proceed
187、ings of the European conference on computer vision(ECCV).2018:767-783.6 Kamali M,Banno A,Bazin J C,et al.Stabilizing omnidirectional videos using 3D structure andspherical image warpingJ.2013.三維沉浸視頻技術白皮書687 Zhou,F.,Qiao,W.,&Chen,L.(2022).Fabrication technology for light field reconstruction inglasse
188、s-free 3D display.Journal of Information Display,24(1),1329.https:/doi.org/10.1080/15980316.2022.2118182.8 Gutierrez J,Perez P,Orduna M,et al.Subjective Evaluation of Visual Quality and SimulatorSickness of Short 360 Videos:ITU-T Rec.P.919J.IEEE transactions on multimedia,2021,24:3087-3100.9 Xu J,Li
189、n C,Zhou W,et al.Subjective quality assessment of stereoscopic omnidirectionalimageC/Advances in Multimedia Information ProcessingPCM 2018:19th Pacific-Rim Conferenceon Multimedia,Hefei,China,September 21-22,2018,Proceedings,Part I 19.Springer InternationalPublishing,2018:589-599.10 Sun Y,Lu A,Yu L.
190、Weighted-to-spherically-uniform quality evaluation for omnidirectionalvideoJ.IEEE signal processing letters,2017,24(9):1408-1412.11 Zakharchenko V,Choi K P,Park J H.Quality metric for spherical panoramic videoC/Optics andPhotonics for Information Processing X.SPIE,2016,9970:57-65.12 Yu M,Lakshman H,
191、Girod B.A framework to evaluate omnidirectional video codingschemesC/2015 IEEE international symposium on mixed and augmented reality.IEEE,2015:31-36.13 Sun W,Min X,Zhai G,et al.MC360IQA:A multi-channel CNN for blind 360-degree image qualityassessmentJ.IEEE Journal of Selected Topics in Signal Proce
192、ssing,2019,14(1):64-77.14 Yang J,Liu T,Jiang B,et al.3D panoramic virtual reality video quality assessment based on 3Dconvolutional neural networksJ.IEEE Access,2018,6:38669-38682.15 Chen Z,Xu J,Lin C,et al.Stereoscopic omnidirectional image quality assessment based onpredictive coding theoryJ.IEEE
193、Journal of Selected Topics in Signal Processing,2020,14(1):103-117.16 Qualinet.IRCCyN/IVC Image QualityDatabase.https:/qualinet.github.io/databases/image/irccynivc_image_quality_database/.17 University of Waterloo.Waterloo IVC 3D Image Quality Database.https:/ivc.uwaterloo.ca/database/3DIQA.html.三維沉
194、浸視頻技術白皮書6918Wang,Jiheng.Waterloo IVC 3D Video Quality Database.https:/ Duan,Huiyu,et al.IVQAD 2017:An immersive video quality assessment database.2017International Conference on Systems,Signals and Image Processing(IWSSIP).IEEE,2017.20 University of Texas.LIVE 3D Image Quality Database.http:/live.ec
195、e.utexas.edu/research/quality/live_3dimage.html.21 University of Southern California.MCL 3D Database.https:/mcl.usc.edu/mcl-3d-database/.22 VCL.3D60:A Dataset for 360 Images in 3D.https:/vcl3d.github.io/3D60/.23 Facebook.Facebook 360 Depth Estimation.https:/ Princeton University.SUN360:A High-Qualit
196、y 360 Database.https:/3dvision.princeton.edu/projects/2012/SUN360/.25 Schonberger J L,Frahm J M.Structure-from-motion revisitedC/Proceedings of the IEEEconference on computer vision and pattern recognition.2016:4104-4113.26 Mildenhall B,Srinivasan P P,Tancik M,et al.Nerf:Representing scenes as neural radiance fieldsfor view synthesisJ.Communications of the ACM,2021,65(1):99-106.27 Kerbl,Bernhard,et al.3D Gaussian Splatting for Real-Time Radiance Field Rendering.ACMTrans.Graph.42.4(2023):139-1.70