未來移動通信論壇:2025年6G沉浸式通信場景需求與關鍵技術研究白皮書(75頁).pdf

編號:624397 PDF  DOCX 75頁 4.48MB 下載積分:VIP專享
下載報告請您先登錄!

未來移動通信論壇:2025年6G沉浸式通信場景需求與關鍵技術研究白皮書(75頁).pdf

1、2/75目目 錄錄1 引言.32 應用場景和需求.42.1 應用場景.42.2 需求.83 相關標準化和產業化進展.133.1 國際標準化進展.133.2 國內標準化進展.233.3 國內政策.253.4 國外政策.273.5 產業化進展和發展趨勢.284 關鍵技術.354.1 沉浸式終端相關技術.354.2 媒體處理技術.424.3 編解碼技術.504.4 業務保障和網絡傳輸技術.595 總結和展望.67參考文獻.69縮略語.71白皮書貢獻人員.753/751 引言引言沉浸式通信作為 6G 的重要應用場景之一,正逐漸成為科技和產業革命的發展機遇。它集成了擴展現實(XR)、全息技術和感官互聯技

2、術,將徹底改變人們的工作、娛樂和交流方式。隨著 5G-A 技術的成熟,通信業務正向著高沉浸、強交互、多維多模態的方向演進,進一步實現人與人、人與物的三維動態感知與交互。沉浸式包括沉浸式 XR、全息通信、感官互聯三大應用場景,具有強交互、高沉浸、智能化的特點。VR/AR 已經通過 5G 網絡應用于行業應用(ToB)和個人消費應用(ToC)的諸多領域,包括工業制造、影視、直播、游戲、社交等。例如在杭州亞運會期間,中國移動打造了 VR 電競、VR 賽事直播、裸眼 3D 看亞運等新業務,實現了多用戶多業務并發場景下20ms 業務幀級無線傳輸時延以及 125Mbit/s 幀級保障速率??梢钥吹?5G 沉

3、浸式多媒體業務已經可以滿足一部分應用場景需求。隨著 RedCap、無源物聯、通感一體、AI、邊緣計算、云計算等技術的發展和完善,無線傳感、視頻監控、可穿戴設備的高速規?;瘧?,沉浸式多媒體業務基于未來 6G 網絡的更高性能,將得到更好的發展,滿足用戶對于更加自然、直觀和沉浸式交互體驗的需求。6G 沉浸式通信將支持多維多模態協同控制、QoS 智能感知、高效編解碼技術、渲染呈現技術以及多種類型終端等,同時也將滿足端到端毫秒級時延、Tbps 級帶寬、超高可靠性等需求。白皮書從沉浸式應用場景及需求、標準化情況、產業發展現狀以及關鍵技術對 6G 沉浸式業務進行分析研究,希望能夠為業界開展 6G 沉浸式業

4、務研究提供參考。4/752 應用場景和需求應用場景和需求2.1 應用場景應用場景沉浸式通信是指利用人的感官和認知,通過技術手段為用戶營造身臨其境的感受,從而提供一系列高逼真度體驗的業務。高逼真度體驗可基于各類多媒體技術的結合實現,如感知信息獲取、媒體處理、媒體傳輸、媒體同步和媒體呈現。面向 2030 及未來,社會發展將會逐步進入到數字智能化時代,6G 沉浸式通信將在 5GeMBB 場景基礎上不斷的拓展深化,具體表現在真實場景的體驗感、更清晰流暢的內容顯示、多通道交互等,通過真實與虛擬三維建模影像相互交融,給人帶來不一樣的視覺和感官體驗。6G 沉浸式通信圍繞以人為中心的發展理念,高效能的融合通信

5、、感知、計算等能力支持各類的智能化服務,滿足以人為中心、以場景為單位,為用戶提供更及時、更精確的持續性體驗服務。沉浸式通信場景具備虛實相應、時空跨越、情景重現、實時傳遞、多重維度、智能體驗、體感交互等特征。6G 沉浸式通信主要包括沉浸式 XR、全息通信、遠程多感官互聯、智能移動機器人和社交互聯網等典型應用場景。在沉浸式場景中信息以高實時和多維度進行傳播,6G 沉浸式通信應用場景需要超大的帶寬、超高的數據速率和超高的可靠性來保證用戶在虛擬現實環境中的交互和溝通。為此,6G 技術將在速率、容量、交互、算力、感知、安全和時延等方面進行全面優化,為沉浸式體驗提供更加穩定、低時延、高效的通信環境。2.1

6、.1 沉浸式沉浸式 XRVR(虛擬現實)、AR(增強現實)、MR(混合現實)等技術的集合統稱為擴展現實 XR。沉浸式擴展現實 XR 通過數字化手段來增強用戶感官體驗和實現人機交互,可通過有限的傳感器連接實現從現實世界到完全沉浸式的虛擬世界,利用多種交互技術的集成和融合,為用戶提供沉浸式體驗和真實感受。在虛擬環境中,用戶可以利用 XR 設備構建虛擬人物形象。因此,XR 技術是連接元宇宙最好的橋梁,也是實現元宇宙的主要技術之一,可以把它理解為是人類進入元宇宙的入口。業界已經開始沉浸式擴展現實(XR)交互方式的探索,相關技術已被應用到各個垂直應用領域中,沉浸式 XR 技術向著裸眼 3D、寬帶實時交互

7、、沉浸式體驗、超高清視頻等方5/75向發展,業務場景逐步擴展到智能工廠、智慧城市、醫療健康、數據中心等領域。沉浸式擴展現實(XR)有可能改善人們溝通、互動和獲取信息的方式,使用戶能夠享受更加身臨其境和個性化的用戶體驗,實現遠程控制、實時虛擬現實等新應用,改變人們溝通協作的方式。例如,沉浸式擴展現實(XR)可以實現影視、廣播、直播娛樂制作,使虛擬演播和虛擬制作成為行業主流;實現虛擬會議、互動營銷、遠程協作、虛擬報告會和產品發布會等模式,為用戶提供真實的環境和大規模的多人互動與沉浸式感官體驗。以下是幾個沉浸式 XR 技術的典型用例:1、鋼鐵在 AR 設備檢維修方面,鋼鐵行業的檢維修需要工程師對各生

8、產設備的結構和功能非常熟悉?;?AR 技術可輔助鋼鐵行業檢維修工程師更高效地進行點檢、維護和維修工作。在需要專家遠程接入時,6G 網絡可為專家提供低時延高可靠的沉浸式體驗,指導現場工程師高效解決問題。在 VR 模擬教學實訓方面,鋼鐵冶煉操作處于高溫高壓危險環境,VR 模擬教學實訓借助 6G 網絡,脫離實際場域,深入三維仿真冶金現場,還原冶煉全程,輔助學員掌握操作與安全規程,降低設備故障磨損,延長使用年限。2、汽車在 VR 設計生產方面,為應對消費者個性化需求增長以及產品生命周期縮短的挑戰,汽車制造企業將 6G 與虛擬現實技術應用于工業設計和生產。設計者用虛擬現實頭盔展示汽車細節,減少失誤和資

9、源浪費。3D 投影與手勢控制應用于虛擬裝配線校檢,提高裝配準確性,優化生產流程,提升效率。在 AR 輔助裝配方面,6G 與 AR 技術實現實時輔助裝配、防錯防漏及新員工指導。操作人員佩戴 AR 眼鏡采集數據,接收專家指導,提升裝配準確性與效率,智能化防錯系統避免錯誤,同時為新員工提供規范、標準化的操作指導。3、娛樂XR 游戲能夠為玩家提供一個高度逼真的虛擬世界,讓他們在其中進行冒險、競技和社交。這種沉浸式的游戲體驗,依托 6G 高速率、大帶寬及低時延的網絡性能,不僅讓玩家感到身臨其境,還極大地豐富了他們的娛樂生活。此外,XR 技術還可以應用于虛擬演唱會、體育賽事等娛樂活動中,為觀眾帶來前所未有

10、的觀看體驗。4、教育6/75在教育領域,沉浸式 XR 結合 6G 網絡,為學生提供了一個全新的學習途徑。通過創建虛擬的學習環境,學生可以在其中進行探索、實驗和互動,從而更深入地理解復雜的概念和歷史事件。例如,在歷史課上,學生可以通過 XR 技術“穿越”到古代,親身體驗歷史事件,感受不同文化的魅力。這種教學方式不僅提高了學生的學習興趣,還增強了他們的記憶和理解能力。沉浸式擴展現實(XR)對于網絡帶寬、容量、高數據速率、精確定位、流量密度、算力和感知的空間映射、端到端低延遲和邊緣云的處理提出了更高的要求。當前,5G 網絡仍是按照傳統網絡建設,不具備為智能體之間的信息傳遞和交互,無法為網絡環境提供超

11、大容量、超高數據速率、超低時延的數據與反饋信息的可靠傳輸。6G 將提供更快的數據傳輸速率、更低的延遲和更高的可靠性,為高速的數據傳輸和實時數據采集提供更加快速的數據響應和更高質量的虛擬現實體驗。6G 系統將通過異構網絡融合技術,內生支持實時業務及通信的技術將不同類型、不同頻段、不同覆蓋范圍的網絡資源組合起來,擴大網絡覆蓋能力,提高系統容量。未來,沉浸式擴展現實(XR)為了減輕 UE 視頻壓縮與解壓,與媒體渲染的算力需求,將借助 6G 高速穩定的承載網絡,實現云,邊,端的三方協作,利用算力進行合理的分配,實現云化 XR 業務的內容上云、渲染上云,實現用戶與環境的多重業務交互,開啟云應用、寬管道、

12、智終端的全新模式,將原有的物理硬件遷移至云端/邊緣端,實現輕量級客戶端轉型。沉浸式擴展現實(XR)將實現大帶寬,XR 遠程全息會議與協作,要求體驗速率達到Gbps 量級;強交互,交互時延短,云化 XR 網絡傳輸時延為 10ms 以下。隨著 6G 技術的成熟,沉浸式擴展現實(XR)實現輕便化、智能化、低碳化的商業化新模式。2.1.2 全息通信全息通信隨著無線網絡通信性能、終端顯示設備不斷發展,全息通信通過采集來自人、物和環境的數據信息,使得用戶可以通過全息方式,實時深度參與人、物和環境交互的三維空間場景,最終讓用戶獲得完全沉浸式的體驗,構建出人_機_物_境協同發展的新通信方式。全息場景的實現依賴

13、全息技術與通信技術的緊密結合,結合多維度信息影像投射技術,呈現出真實影像復現的視覺盛宴。全息通信作為新興的通信業務,主要用于實現人與人、人與物、物與物之間的遠程交互和溝通,具有高度的交互性、感知性、安全性和時延性等特點。這種業務的應用前景非常廣泛,包括教育、醫療、工業、文化娛樂等各個領域。例如:在文化娛樂方面,可以實現全息7/75影院、全息劇院等場景下的數字全息交互技術,從而給用戶帶來極致的沉浸感體驗。在醫療、工業、教育等方面,具有快速計算的全息通信服務能力,在遠程手術、工業遠程管控和遠程教學等方面,可以使用全息影像對工作情況進行精確的復制,進而實現遠程操縱和精準交互。全息通信高精度現實還原和

14、實時交互場景的特性,對帶寬、時延、速率、算力、安全、可靠、定位精度等提出了很高的要求,僅依靠 5G 現有的網絡和技術是難以滿足這些要求的,現有的 5G 網絡中業務應用層無法精準、實時掌握網絡性能,導致業務體驗感差,網絡無法進行分析數據并自適應調整。隨著 6G 技術的發展,全息通信正在逐步走向可能。6G 將以超高帶寬、超高的數據速率、超高頻譜效率、超高可靠性和超低時延,支持基于傳感的物聯網應用架構,支持各類終端設備的數據采集和利用,支持多模態聯合傳輸來提升全息通信服務體驗。全息通信將通過移動算力網絡、云計算、智能感知、超高帶寬頻譜、優化網絡和傳輸協議等技術,在交互、算力、感知、安全和時延等方面進

15、行全面優化,以實現更加真實、生動、自然的遠程交互和溝通。未來,隨著對 6G 技術的探索,在太赫茲通信和可見光通信等更高工作頻段,全息通信將實現用戶體驗速率有望達到 100Gbit/s,移動性可實現 1000 公里/小時的突破,滿足全息通信高沉浸式、高交互性、高還原度和強參與度的需求。2.1.3 感官互聯感官互聯遠程多感官互聯通過使用多感官交互技術,包括聲音、圖像、觸覺、味覺、嗅覺等,可以讓遠程交互更加真實、生動、自然。遠程多感官互聯的誕生,讓數實之間從“連接”升級為雙向交互,利用人的多感官即眼、鼻、口、手、腦進行輸入,實現交互。在遠程多器官互聯時,用戶可以利用 6G 網絡環境充分調動視覺、味覺

16、、聽覺、觸覺等重要的感官信息,實現感覺互通的體驗型傳輸神經網絡,從而實現體感信息智能交互。目前,遠程多感官互聯的應用前景非常廣泛,這種技術依托 6G 網絡環境,涉及領域主要包括教育、健康醫療、工業制造、文化娛樂等各個領域。無論在哪里,遠程多感官互聯都可以在休閑娛樂、遠程協作、健康醫療、智能駕駛等方面,獲得真實環境的沉浸式體驗。例如,可以感受到真實、不消耗實物的美食、護膚、旅游、美妝試用體驗;可以獲得精準操控平臺硬件設施的云端協同辦公體驗;智能感知設備可以實時獲取用戶的動作、姿態、心率、體溫等信息,從而更加準確地響應用戶的需求;在智能駕駛領域,自動駕駛汽車采用無數傳感器來生成數據,通過雷達、激光

17、雷達、攝像頭和其他駕駛員輔助設備等傳感器,來實現多維“感覺”互通與情感交流。遠程多感官互聯最大的特點是交互性強,智能化操控對時延有著較高的要求,對于目標8/75物體之間實現頻繁交互,需要觸覺反饋交互并同步反饋多重感官信息,這種多重感官交互行為需要大量的計算資源。目前,對于觸覺的研究與標準化屬于起步階段,觸覺作為強交互的重要輸入部分,對其傳輸時延要求非常短。5G 具有低延遲特點,但不足以支持實時控制。遠程多感官互聯需要高度的安全保障,以保護用戶的隱私和數據安全。6G 將提供更高的帶寬、更低的時延、更強的可靠性,為遠程多感官互聯應用提供了更加平滑、可靠、高效的連接,來實現沉浸式的遠程交互和溝通。遠

18、程多感官互聯將通過支持端邊協同、智能感知技術、移動算力網絡、加密技術、訪問控制和云計算等技術,以保障良好的用戶體驗。利用 6G 使能技術充分滿足多種感官(如聽覺、視覺與觸覺)之間的協同性,實現低延遲、高可靠性、高安全性、高清晰度和高幀率的傳輸和處理,以便為用戶提供更加個性化、實時化、真實化的交互體驗。2.2 需求需求從沉浸式通信應用場景中可以看出,沉浸式通信需要 6G 網絡提供高速率、低時延、高可靠、高安全等性能以及多模態協同傳輸,以實現更加豐富和真實的用戶體驗。同時沉浸式業務具有業務模式隨著場景和應用變化的特點,需要支持可變 QoS 和 QoE。沉浸式設備需要減少發熱,延長電池續航時間,對網

19、絡和終端節能都有需求。2.2.1 超高帶寬超高帶寬/極高數據速率及低時延高可靠極高數據速率及低時延高可靠沉浸式通信作為 6G 網絡的關鍵應用場景之一,對網絡性能提出了更高的要求,主要體現在超高帶寬、極高數據速率以及低時延高可靠三個方面。1.極高數據速率極高數據速率:沉浸式通信需要極高的數據傳輸速率來支持高清、3D 甚至 6D 視頻內容的實時傳輸,以及高交互 XR 業務。ITU-R M.21604 對用戶體驗速率的舉例為 300Mbps到 500Mbps。ITU-R M.25163 中指出室內場景峰值數據速率可能達到 Tbps。3GPP TS22.2611 中針對 VR 8K 視頻的用戶數據速率

20、要求為 1Gbit/s,通過頭顯觀看視頻的 VR 業務數據速率可以高達 10Gbit/s。3GPP TS 22.2632 中即使一些壓縮的視頻數據速率也能達到 3Gbit/s,醫療的數據速率甚至達到 50Gbit/s。2.低時延低時延:為了保證用戶沉浸感體驗,沉浸式通信要求網絡具有極低的時延。3GPP TS22.2611 中 VR 的 MTP(Motion-To-Photon)要求為 7 15ms,云/邊緣/分割渲染用例的MTP 為 5ms。3GPP TS 22.2632 中對音頻的端到端時延指標為 750 s 和 4ms,對視頻的端9/75到端時延指標為 3ms,6ms,40ms,400ms

21、 和 1s,對醫療的端到端時延指標為 1ms,10ms,20ms 和 100ms。ITU-R M.21604 中對用戶面時延的研究目標是 0.1 1ms。3.高可靠高可靠:可靠性指標有誤包率(Packet Error Ratio,PER),誤塊率(Frame Error Rate,FER)和誤碼率(Bit Error Rate,BER)三種表述形式。誤包率=錯誤數據包數/總數據包數,誤塊率=錯誤數據塊數/總數據塊數,誤碼率=錯誤比特數/總比特數。對沉浸式業務應用,可靠性往往指的是誤包率或傳包率(1-誤包率)。3GPP TS 22.2611 中對 VR/AR 業務的可靠性(傳包率)要求為 99.

22、99%,對多模態業務的可靠性要求在 99.9%到 99.999%。3GPP TS22.2632 中音頻的 PER 指標為 105和10-6,視頻的 PER 指標為 107到 1010,醫療的 PER指標為低于104到107,ITU-R M.21604 中對可靠性(傳包率)的研究范圍為1-105到1-107。2.2.2 多維多模態多維多模態沉浸式業務的生成和傳輸包含了多個維度的信息,這些信息來源于視頻、音頻、觸覺、嗅覺、味覺等。只有當各個維度的信息保持嚴格同步(包括時間,空間,運動方向等的同步和一致性),才能給用戶身臨其境的感覺。因此,在傳輸過程中,來自不同傳感器、不同角度的物體生成的各個并發媒

23、體流之間需要保持相當嚴格的同步。沉浸式業務的多維多模態需求體現在時間,空間,運動方向等多個維度,其中空間,運動方向等維度主要是通過構建包含完備的通信信息與多模態感知信息的數據集來實現。多模態需求中與通信直接相關的需求體現在多維多模態時間同步上。3GPP TS 22.2611中以圖形方式對多模態交互系統的顯示圖見圖 1。圖1多模態交互系統1對于沉浸式多媒體多維多模態業務的同步傳輸,引入了同步閾值的概念,同步閾值可定義為兩個多媒體流的最大可容忍時間間隔。其中一個多媒體流為一種感官的數據,另一個10/75多媒體流為另一種感官的數據,滿足同步閾值的感官就會被認為是同步的。對于音視頻同步,目前在音視頻同

24、步方面影響最大的國際標準是 ITU-R BT.1359-1(RELATIVE TIMINGOF SOUND AND VISION FOR BROADCASTING)5,該標準由國際電信聯盟在 1998 年提出,針對電視廣播的音視頻同步標準,該標準至今依然被使用。該標準根據人體評測結果,將音視頻同步劃分為 5 個等級。表1音視頻同步等級體驗感無法感知能夠感知可以忍受不可接受延遲范圍(-100ms,+25ms)(-125ms,+45ms)(-185ms,+90ms)(-,-185ms)(+90ms,+)其中延遲范圍是視頻延遲與音頻延遲的差值,負數表示音頻延遲更大,正數表示視頻延遲更大?,F實中光速快

25、于音速,人體習慣于畫面快于聲音,對聲音滯后有更大的耐受度,而音頻提前于視頻則會導致不適。因此音視頻同步閾值是非對稱的?;谝陨弦粢曨l同步等級,可以簡化為音頻與視頻的延遲 100ms 都是不可忍受的,音視頻的同步閾值可以定義為(-200ms,+100ms)。在 3GPP TS 22.2611 中進一步縮小了 VR 的音視頻的同步閾值,規定為音頻延遲范圍為125 ms,5 ms,視頻延遲范圍為45 ms,5 ms。沉浸式多模態除了音視頻外,還包括觸覺、嗅覺、味覺等,目前對觸覺研究較多,3GPPTR 22.8479 中對觸覺與音頻和視頻的同步閾值規定見表 2。表2觸覺與音頻,視頻的同步閾值多媒體流同

26、步閾值(note 1)音頻-觸覺音頻延遲:50 ms觸覺延遲:25 ms視頻-觸覺視頻延遲:15 ms觸覺延遲:50 msNOTE 1:對于每個媒體流,“延遲”指的是該媒體流與其他媒體流相比延遲的情況。多維多模態是沉浸式通信的特點,如何更好的支持多模態是沉浸式通信的研究重點。2.2.3 業務特征動態變化及協作控制業務特征動態變化及協作控制以 XR 為代表的沉浸式通信可以為用戶創造一個沉浸式的交互環境,使用戶能夠享受到身臨其境的極致體驗。在這個過程中,受到用戶行為和需求變化、網絡狀態起伏和設備性能11/75等影響,虛擬環境也需要動態變化和適配,以免影響用戶體驗。因此,XR 業務的一大特點是其業務

27、模式(Traffic Pattern)會隨著場景和應用變化,從而具有動態變化的業務數據特性,例如可變的數據比特速率、可變的數據幀/數據包大小12。文獻13 對沉浸式通信業務特征的動態變化和影響有進一步描述。例如,用戶拖拽業務進程會影響媒體幀大小,引起應用層業務特征的變化,為此,應用層可預先為網絡提供多組 QoS 需求,并在業務進行中提供實時特征指示,網絡需要識別和適配業務特征的變化。對于實時性較強的沉浸式業務,應用層采用了 FEC(Forward Error Correction,前向糾錯)編碼增加冗余,提高包傳輸的可靠性,減少重傳降低時延。其中,編碼開銷在 10-50%之間,可能隨傳輸狀況動

28、態調整,從而影響業務數據速率,也需要網絡按需滿足。此外,沉浸式多媒體業務可能由多個不同媒體流組成,在傳輸時,這些媒體流可以復用在一個傳輸通道中,也可以使用不同的通道傳輸。而且,每個媒體流有不同的 QoS 需求,業務特征也可能發生變化。因此,6G 網絡不光需要識別并支持多路復用、共享傳輸下的差異化 QoS,還需要在部分數據流特征發生變化時,支持同一業務下不同流 QoS 滿足的協同控制,特別是涉及多基站下多個終端承載的多流協同,以便多個數據流 QoS 實時需求同時得到滿足,保障用戶的沉浸式業務體驗。綜上所述,為了實現沉浸式通信場景下對業務特征的實時滿足,以及多流之間的協同控制,6G 網絡需要增強對

29、業務需求動態變化的感知和適配能力,通過基站之間、基站與終端之間的實時信息交互,提高網絡對沉浸式業務的服務能力。2.2.4 安全性安全性沉浸式業務在網絡中會傳輸更多前所未有的數據形式,傳輸的信息可能涉及用戶人臉、聲音等生物特征以及行為數據等其他敏感信息和個人隱私。因此,需要確保這些數據在傳輸和處理過程中不被未經授權的人獲取和篡改,避免隱私泄露風險。因此,安全性是沉浸式通信的重要需求。6G 的安全機制應該為差異化的應用場景與新的網絡架構提供全面且可靠的安全防護。其中涉及多個安全域,如終端設備安全、網絡接入安全、網絡域安全等。2.2.5 綠色低碳綠色低碳沉浸式終端,如 VR 和 AR 設備,通常需要

30、較高的計算負荷和能耗,這導致設備發熱和電池消耗快,影響用戶體驗。大帶寬傳輸和多收/發天線數目會增加終端的射頻前端和收發12/75鏈路的能耗。通過節能技術,可以減少設備發熱,延長電池續航時間,提升用戶佩戴舒適度。另一方面,通過節能技術,使得設備變得更輕便,更易于商業化和用戶日常使用。6G 網絡需要綠色可持續發展,因此對 6G 網絡提出了更嚴苛的性能指標??梢酝ㄟ^架構智簡、協議智簡、組網智簡構建綠色低碳的網絡體系,以及采用動態關斷技術來降低能耗。13/753 相關標準化和產業化進展相關標準化和產業化進展沉浸式通信作為未來通信六大應用場景之一,國內和國際多個標準組織均對沉浸式通信進行了研究,發布了多

31、項研究報告和標準。同時,各國和各大公司正在積極布局沉浸式產業,以期在未來的廣闊市場中占據先機。3.1 國際標準化進展國際標準化進展3.1.1 3GPP3GPP 是制訂無線通信標準的國際標準化組織。從 Release 15 開始,3GPP SA4 工作組就開始對虛擬現實開展研究工作,在 Rel-17 對 XR 的典型業務特征、編解碼特征和協議特征進行了研究。RAN1 工作組則對 XR 業務模型和評估方法進行了研究。3GPP 在 Rel-18 全面啟動端到端 XR 業務的系統架構和網絡機制的研究,涉及 RAN1、RAN2、RAN3、SA1、SA2、SA4 等多個工作組。5G XR 的網絡增強被廣泛

32、地認為是 3GPP Rel-18 的重要標準工作。SA1 在 3GPP TS 22.104,3GPP TS 22.261,3GPP TS 22.263 標準中針對沉浸式業務給出了具體 KPI 參數集。SA2 進一步進行 5G 網絡架構增強,以更好地支持移動媒體服務、云 AR/VR、云游戲、基于視頻的機器或無人機遠程控制等 5G XR 業務。包括多模態傳輸、5GS 信息公開、基于PDU set 的 QoS 處理、上下行傳輸協調、包時延變化監測和報告以及節能增強。SA4 對虛擬現實 VR 音頻和視頻內容制作,格式,質量評估,應用場景和質量衡量標準進行了研究和標準化工作,給出了 VR 流媒體的 pr

33、ofile,定義了沉浸式語音和音頻服務的EVS 編解碼,定義上行鏈路直播流媒體(例如 360 視頻,VR,UHD,多聲道音頻)的框架,給出了 VR 的 QoE 指標。RAN 工作組針對 XR 業務特征,進一步在上下行帶寬、時延、抖動、丟包率、網絡擁塞、節電方面進行了增強。Rel-18 XR 在 RAN 側的增強集中在三個方面:XR 業務感知、節能、容量提升。當前 3GPP 正在進行 Rel-19 的標準化工作,包括 SA1,SA6 和 SA3 參與的 Rel-19 本地化移動元宇宙業務研究,SA1 的 XR 業務 UE 移動性支持,SA2 和 SA6 參與的 XRM 第二階段項目,以及 RAN

34、 的 XR 第三階段項目。XR 涉及很多 3GPP 標準,大部分協議中都會針對增強點做相應的標準修改,例如14/75BSR,DSR 的增強主要體現在 TS 38.321 中,這里僅列出一些沉浸式通信強關聯的協議和標準。表33GPP沉浸式相關標準序序號號標準號標準號標準名稱標準名稱標準內容標準內容1TS 22.104Service requirements for cyber-physicalcontrol applications in vertical domains垂直領域中的網絡物理控制應用的服務要求2TS 22.156Mobile Metaverse Services;Stage 1移

35、動元宇宙業務3TS 22.261Service requirements for the 5G system5G系統業務需求4TS 22.263Service requirements for Video,Imagingand Audio for Professional Applications專業應用的視頻、圖像和音頻業務需求5TR 22.847Studyonsupportingtactileandmulti-modality communication services關于支持觸覺和多模態通信業務研究6TR 22.856Feasibility Study on Localized Mob

36、ileMetaverse Services本地化移動元宇宙業務可行性研究7TR23.700-60Study on XR(Extended Reality)and mediaservicesXR和媒體業務研究8TR23.700-70Study on architecture enhancement forExtendedRealityandMediaservice(XRM)擴展現實和媒體業務架構增強研究9TS 26.1183GPP Virtual reality profiles for streamingapplications流媒體應用的虛擬現實配置文件10TS 26.119Device M

37、edia Capabilities for AugmentedReality Services增強現實服務的設備媒體功能11TS 26.238Uplink Streaming上行鏈路流12TR 26.818Virtual Reality(VR)streaming audio;Characterization test results虛擬現實(VR)音頻流;特性測試結果13TR 26.918Virtual Reality(VR)media services over3GPP3GPP虛擬現實媒體業務14TR 26.926Traffic Models and Quality EvaluationMe

38、thods for Media and XR Services in 5GSystems5G系統媒體和XR業務的業務模型和質量評估方法15TR 26.928Extended Reality(XR)in 5G5G擴展現實15/7516TR 26.929QoE parameters and metrics relevant to theVirtual Reality(VR)user experience與虛擬現實(VR)用戶體驗相關的 QoE參數和指標17TR 26.997Codec for Immersive Voice and AudioServices(IVAS);Performance C

39、haracterization沉浸式語音和音頻服務(IVAS)編解碼器;性能鑒定18TR 26.999VirtualReality(VR)StreamingInteroperability and Characterization虛擬現實(VR)流媒體互操作性和特性分析19TR 38.835Study on XR enhancements for NRNR XR增強研究20TR 38.838StudyonXR(ExtendedReality)Evaluations for NRNR XR評估研究3.1.2 ITUITU 的國際電聯電信發展部門(ITU-D)、國際電聯無線電通信部門(ITU-R)

40、和國際電聯電信標準化部門(ITU-T)都在進行 VR/AR 相關的研究工作。早在 2018 年,ITU-D 研究組進行了新廣播技術和新興服務在 VR/AR 上的趨勢以及電信業務對應的政策和方法的研究。ITU-T 下的研究組 SG9(broadband cable and TV)、SG12(Performance,QoS and QoE)、SG16(Multimedia)、SG20(IoT,smartcity&communities)、SG21(Multimedia,contentdelivery&cable TV)都有 VR/AR 標準研究項目,其中云 XR 研究成果較為突出。ITU-T SG

41、16完成了 H.430 系列標準的制定,為交互型沉浸式業務提供了標準化的框架,推動了 VR、AR等技術的發展和國際標準化進程。ITU SG16 與 ISO/IEC JTC1/SC29 合作成立的聯合視頻專家組(Joint Video Experts Group,JVET)已制定 VR/AR 相關的 H.266(VVC)通用視頻編碼標準。H.266 支持 8K 超高清、屏幕、高動態和 360 度全景視頻等新的視頻類型以及自適應帶寬和分辨率的流媒體和實時通信等應用。相對于 H.265/HEVC,H.266 在同等畫質下可以節省近 50%的傳輸流量,對于高清晰度視頻,碼率節省甚至更多。另外,ITU-

42、R 下的 SG6(broadcasting service)研究組開展了 VR/AR 視頻相關的技術研究,已經發布了 BT.2123-0 和 BT.2420-0 兩項研究成果。ITU Network2030 提出全球性網絡發展愿景,旨在定義 2030 年及以后網絡和相應通信服務的能力。Network 2030 將支持更豐富的應用,如全息通信、多感官通信、緊急通信和協作機器人(或稱 Cobots)。在其系列報告中,將多感官協同業務、全息業務作為代表性新興業務,開展了詳細的技術 gap 和性能目標分析。16/752022 年 12 月,ITU-T 成立元宇宙焦點組(FG-MV),致力于為元宇宙制定

43、國際技術標準,并發布了2024-FSTP-ACC-MV-SUST-Accessibility in a sustainable metaverse。2023 年 11 月國際電聯發布了IMT 面向 2030 及未來發展的框架和總體目標建議書ITU-R M.21604,定義了六大場景,其中“沉浸式通信”場景作為 5G eMBB 場景的增強,主要包括沉浸式 XR 通信、遠程多感官呈現、全息通信等典型用例。表4ITU沉浸式相關標準序序號號標準號標準號標準名稱標準名稱標準內容標準內容1H.266Versatile video coding多用途視頻編碼標準2H.266.1Conformance spe

44、cification for ITU-T H.266versatile video codingITU-T H.266 多用途視頻編碼的一致性規范3H.266.2Reference software for ITU-T H.266 versatilevideo codingITU-T H.266 多用途視頻編碼參考軟件4H.430.1Requirements for immersive live experience(ILE)services沉浸式現場體驗(ILE)業務需求5H.430.2Architectural framework for immersive liveexperience(

45、ILE)services沉浸式現場體驗(ILE)業務架構框架6H.430.3Service scenario for immersive live experience(ILE)沉浸式現場體驗(ILE)業務場景7H.430.4Serviceconfiguration,mediatransportprotocols,signalling information of MPEGmedia transport for immersive live experience(ILE)systems沉浸式現場體驗(ILE)系統MPEG媒體傳輸業務配置,媒體傳輸協議,信令信息8H.430.5Reference

46、modelsforimmersiveliveexperience(ILE)presentation environments沉浸式現場體驗(ILE)演示環境的參考模型9H.430.6Media transport protocols,signallinginformation of haptic transmission forimmersive live experience(ILE)systems媒體傳輸協議,沉浸式現場體驗(ILE)系統的觸覺傳輸信令信息10H.430.7Requirements of interactive immersive services互動沉浸式業務需求11H.

47、430.8Functional architecture of interactive immersiveservices(IIS)systems互動沉浸式業務系統功能架構17/7512H.431.1Functional architecture for cloud virtual realitysystems云VR系統功能架構13BT.2123-0Videoparametervaluesforadvancedimmersive audio-visual systems for productionandinternationalprogrammeexchangeinbroadcasting規

48、定了用于制作和國際交換的高級沉浸式視聽(AIAV)系統的視頻參數14BT.2420-0Collectionofusagescenariosandcurrentstatuses of advanced immersive audio-visual(AIAV)systems規定了用于制作和國際節目交換的高級沉浸式視聽(AIAV)系統的視頻參數15ITU-RM.2160-0Framework and overall objectives of the futuredevelopment of IMT for 2030 and beyond面向2030及未來發展的框架和總體目標建議16ITU-RM.2

49、516-0Future technology trends of terrestrialIMT systems towards 2030 and beyond面向2030及未來的地面系統技術趨勢172024-FSTP-ACC-MV-SUST-Accessibility ina sustainable metaverse可持續元宇宙中的無障礙環境18ITU-TFGNET-2030Sub-G2New Services and Capabilities for Network2030:Description,Technical Gap and PerformanceTarget Analysis20

50、30網絡的新服務和功能:描述、技術差距和性能目標分析3.1.3 ISO/IEC MPEG國際標準化組織ISO和國際電工委員會IEC下屬的運動圖像專家組MPEG于 2016 啟動針對服務于虛擬現實 VR、增強現實 AR 和混合現實 MR 等場景的沉浸式媒體的標準化工作,發布了 ISO/IEC 23090 MPEG-I 標準,該標準包含沉浸式媒體的總體框架和系統、全向媒體格式、視頻編碼、MPEG 沉浸式視頻 MIV、MIV 的一致性測試、觸覺編碼、場景描述等多個技術領域。目前,3DoF 視頻的標準化工作已完成,針對 6DoF 視頻的工作還在推進中。18/75表5ISO/IEC 23090 MPEG

51、-I系列標準序序號號標準號標準號標準名稱標準名稱標準內容標準內容1ISO/IEC23090-1Coded representation of immersive media Part 1:General framework and timeline沉浸式媒體的總體框架和系統2ISO/IEC23090-2Coded representation of immersive media-Part 2:Omnidirectional media format定 義 了 全 向 媒 體 格 式(OmnidirectionalMedia Format)3ISO/IEC23090-5Coded repres

52、entation of immersive media-Part 5:Video-based point cloud compression定義了基于視頻的體積視頻編碼(VisualVolumetric Video-based Coding,V3C)和基于視頻的點云壓縮(Video-based Point CloudCompression,V-PCC)。4ISO/IEC23090-12Codedrepresentationofimmersivemedia-Part 12:MPEG immersive video詳細描述了MPEG沉浸式視頻(MPEGImmersive Video,MIV),它支

53、持壓縮沉浸式視頻內容,使得真實或虛擬的3D場景可以通過多個真實或虛擬相機捕獲,并支持6自由度(6DoF)的視角位置和方向進行播放。5ISO/IEC23090-14Coded representation of immersive media Part 14:Scene description場景描述,為沉浸式媒體提供場景的數字化表示。6ISO/IEC23090-23Coded representation of immersive media Part 23:Conformance and reference softwarefor MPEG immersive video規定了如何進行MIV

54、的一致性測試,并提供了參考編碼器和解碼器軟件。7ISO/IEC23090-33Coded representation of immersive media Part 33:Conformance and reference softwarefor haptics coding涉及觸覺編碼的一致性和參考軟件,定義了與觸覺相關的術語和格式。ISO/IEC 23005 系列標準為多媒體內容的交互和控制提供了一套全面的規范,支持虛擬世界和真實世界之間的數據流動和交互,旨在規范物理世界與虛擬世界以及虛擬世界之間的接口,以實現互操作性、同步反應和無縫信息交換。ISO/IEC 23005 適用于廣泛的元宇

55、宙商業服務。19/75表6ISO/IEC 23005系列標準序序號號標準號標準號標準名稱標準名稱標準內容標準內容1ISO/IEC23005-1MediacontextandcontrolPart1:Architecture沉浸式媒體的總體框架和系統。MPEG-V(媒體上下文和控制)的架構以及與之相關的三種用例類型:從虛擬世界到真實世界的信息適應、從真實世界到虛擬世界的信息適應、虛擬世界之間的信息交換。2ISO/IEC23005-2Media context and control-Part 2:Controlinformation媒體上下文描述3ISO/IEC23005-3Media cont

56、ext and control Part 3:Sensoryinformation媒體控制描述4ISO/IEC23005-4Media context and control Part 4:Virtualworld object characteristics媒體控制接口5ISO/IEC23005-5Media context and control Part 5:Dataformats for interaction devices交互設備的數據格式,包括用于識別設備的標識符、環境信息、控制指令、設備狀態和執行結果等內容。它為交互設備的通信提供了標準化的格式和協議,確保數據的準確性和一致性。

57、6ISO/IEC23005-6Media context and control Part 6:Commontypes and tools媒體控制協議3.1.4IEEEIEEE 消費技術協會下的虛擬現實和增強現實標準委員會設立了兩個標準工作組,包括13 個 VR/AR 的標準項目,覆蓋設備分類、沉浸式視頻、沉浸式音頻、用戶界面、身份認證、環境安全、虛擬對象映射、虛擬對象與現實世界之間的互操作性、內容的評級等多個技術領域。針對全景視頻投影技術,IEEE 發布了面向沉浸式視覺內容編碼的標準 IEEE 1857.9,該標準定義了一套有效編碼沉浸式視覺內容的工具,以及相應的解碼和重建程序。沉浸式視覺內

58、容包括但不限于全景視頻、自由視圖視頻、光場、三維(3D)模型和其他類型的合成視覺內容。通過計算沉浸式視覺內容的目標視覺質量下的數據速率來衡量編碼效率。20/75表7IEEE沉浸式系列標準序序號號標準號標準號標準名稱標準名稱標準概述標準概述1IEEEP2048.1Standard for Virtual Reality and AugmentedReality:Device Taxonomy and Definitions規定了VR和AR設備的分類和定義2IEEEP2048.2Standard for Virtual Reality and AugmentedReality:Immersive

59、Video Taxonomy andQuality Metrics規定了沉浸式視頻的分類和質量指標3IEEEP2048.3Standard for Virtual Reality and AugmentedReality:Immersive Video File and StreamFormats規定了沉浸式視頻文件和流媒體格式以及這些格式的功能和交互性4IEEEP2048.4Standard for Virtual Reality and AugmentedReality:Person Identity規定了在VR中個人身份認證的條件和方式5IEEEP2048.5Standard for V

60、irtual Reality and AugmentedReality:Environment Safety詳列了為工作站和內容消耗的環境提出的參考意見,包括VR、AR、MR及所有數字覆蓋的相關設備。這些設備可能與現實世界交互,潛在地影響用戶感知。此外,該標準重點制定了產品質量保證和測試標準,用以檢測上述環境中的合格品,從而保證多數用于消費和商業用途的產品在投入生產和消費過程前達到符合安全標準的水平6IEEEP2048.6Standard for Virtual Reality and AugmentedReality:Immersive User Interface規定了在VR應用中使用沉浸

61、式用戶界面的條件和方式,以及沉浸式用戶界面的功能和交互性7IEEEP2048.7Standard for Virtual Reality and AugmentedReality:Map for Virtual Objects in the RealWorld規定了AR/MR應用的使用條件、系統、使用方式、檢測和認證方式,以創建并使用其在真實世界中的虛擬對象映射21/758IEEEP2048.8Standard for Virtual Reality and AugmentedReality:InteroperabilitybetweenVirtualObjects and the Real

62、World規定了虛擬對象與現實世界之間的互操作性的使用條件、系統、使用方式、檢測和認證方式9IEEEP2048.9Standard for Virtual Reality and AugmentedReality:Immersive Audio Taxonomy andQuality Metrics規定了沉浸式音頻的分類和質量指標10IEEEP2048.10Standard for Virtual Reality and AugmentedReality:Immersive Audio File and StreamFormats規定了沉浸式音頻文件和流媒體格式11IEEEP2048.11St

63、andard for Virtual Reality and AugmentedReality:In-Vehicle Augmented Reality規定了車輛內AR的應用12IEEEP2048.12Standard for Virtual Reality and AugmentedReality:Content Ratings and Descriptors規定了VR和AR內容的評級和描述符13IEEEP2048.101Standard for Augmented Reality on MobileDevices:General Requirements for SoftwareFrame

64、work,Components,and Integration定義了移動設備上增強現實系統的一般技術框架、組件、集成和主要業務流程,并規定了其技術要求,包括功能要求、性能要求和相應的測試方法14IEEE3333.1.1IEEE Standard for Quality of Experience(QoE)and Visual-Comfort Assessments ofThree-Dimensional(3D)Contents Based onPsychophysical Studies基于心理物理研究的三維內容體驗質量(QoE)和視覺舒適性評估標準15IEEE1857.9IEEE Stand

65、ard for Immersive Visual ContentCoding面向沉浸式視覺內容編碼IEEE 針對元宇宙發布了多個標準,分別規定了元宇宙的術語、類別和級別、物理世界和虛擬世界的接口,元宇宙的道德和倫理可行性方法。22/75表8IEEE元宇宙相關標準序序號號標準號標準號標準名稱標準名稱標準內容標準內容1IEEEP2048Standard for Virtual Reality and AugmentedReality:Device Taxonomy and Definitions定義元宇宙的術語、類別和級別,以促進元宇宙相關活動的可持續發展,并推動元宇宙市場的健康成長2IEEEP2

66、888IEEE Standard for Actuator Interface for Cyberand Physical Worlds定義了物理世界和虛擬世界同步的標準接口,并定義了控制執行器和獲取感官信息的信息格式和應用程序接口(API),允許虛擬世界和現實世界之間的交互。3IEEEP2888.1IEEE Standard for Specification of SensorInterface for Cyber and Physical Worlds定義了從傳感器獲取信息的詞匯、數據格式和應用程序接口(APIs),以實現虛擬世界與物理世界之間的通信。4IEEEP2888.2IEEE S

67、tandard for Actuator Interface for Cyberand Physical Worlds定義了詞匯、要求、度量、數據格式和應用程序接口(APIs),用于描述、設置參數和指揮使能定義虛擬世界和物理世界之間接口的執行器。5IEEEP2888.3IEEE DraftStandardon OrchestrationofDigital Synchronization between Cyber andPhysical Worlds定義一系列詞匯、要求、度量、數據格式和應用程序接口(APIs),以便為數字對象設置參數并與物理對象進行同步和交互。6IEEEP2888.4IEEE

68、 Standard for Architecture for VirtualReality Disaster Response Training Systemwith Six Degrees of Freedom(6 DoF)定義了實施虛擬現實系統所需的架構。7IEEEP2888.5IEEE Approved Draft Standard for VirtualTraining System Evaluation Methods定義了虛擬訓練系統的評估方法。該標準包括主觀和客觀評估方法,以及用于評估虛擬訓練系統的有效性、效率和滿意度的評估標準、問卷和評估指標。8IEEEP2888.6Stand

69、ard for Holographic Visualization forInterfacing Cyber and Physical Worlds定義全息內容的表示方式,以提供虛擬世界與物理世界之間的接口。23/759IEEEP2888.7Standard for Architecture of a Digital TwinSystem for Carbon Emission Management為碳排放管理提供一個數字孿生系統的架構框架,以支持對碳排放的監控、分析、預測和管理。10IEEEP1589IEEEStandardforAugmentedRealityLearning Experi

70、ence Model針對增強現實學習體驗的標準,描述了如何在標準化的交換格式中表示活動、學習背景、特定環境以及可能的其他AR增強學習活動的元素,以及數據規范11IEEEP7016IEEE Standard for Ethically Aligned Designand Operation of Metaverse Systems提供元宇宙系統的社會技術方面的高層次概述,并指定在其設計和操作中使用的倫理評估方法3.2 國內標準化進展國內標準化進展3.2.1 國家廣播電視總局國家廣播電視總局在沉浸式視頻技術方面,國家廣播電視總局科技司于 2020 年 8 月 26 日發布了5G 高新視頻沉浸式視頻

71、技術白皮書(2020),該白皮書旨在引導和規范沉浸式視頻行業應用。國家廣播電視總局批準并發布了三項與沉浸式通信相關的行業標準,分別是 沉浸式終端通用技術要求、云游戲總體技術要求 和 自由視角視頻系統技術要求,這些標準均從 2023年 12 月 1 日起實施。這些標準的發布旨在推動廣播電視和網絡視聽行業的高質量創新性發展,特別是在 5G 高新視頻領域。3.2.2 CCSA中國通信標準化協會(CCSA)的移動互聯網應用和終端技術工作委員會第 1 工作組(TC11/WG1)成立了第 5 子工作組(SWG5),旨在開展基于移動互聯網應用和終端的 VR/AR研究和標準化工作。目前,TC11/WG1/SW

72、G5 工作組開展了分體式 VR 設備、云化虛擬現實/增強現實、MR操控接口、設備測試等 VR/AR 國標和行標的制定。當前 TC11/WG1/SWG5 工作組關于擴展現實有 2 個項目已經結項,分別是基于 5G 技術的擴展現實(XR)總體研究,以及擴展現實測試方法 第 1 部分:增強現實設備光學顯示性能(基于移動互聯網的分體式增強現實設備光學測試方法),發布了基于 5G 技術的擴展現實(XR)總體研究和擴展現實測試方法第 1 部分:增強現實設備光學顯示性能。當前 TC11/WG1/SWG5 工作組仍有 8 個 XR 項目24/75正在進行中,包括:面向擴展現實(XR)業務的 5G 網絡承載性能

73、指標及測試方法,擴展現實測試方法 第 2 部分:虛擬現實設備光學顯示性能,擴展現實測試方法 第 3 部分:擴展現實設備定位性能,擴展現實測試方法 第 4 部分:擴展現實設備視頻透視性能,面向擴展現實觸覺交互的信息采集指標要求,基于移動互聯網的擴展現實(XR)設備通用接口技術要求,基于多相機成像的擴展現實手勢交互技術要求,基于移動互聯網的擴展現實(XR)設備通用接口技術要求。TC5 WG9 的“面向擴展現實和云游戲的 5G 無線網增強技術研究”項目已結項,發布了面向擴展現實和云游戲的 5G 無線網增強技術研究報告。TC5 WG9 仍有“面向擴展現實及多模態業務的 5G 無線網增強技術研究”項目正

74、在進行中。TC5 WG12 的“面向 XR 及多媒體增強的核心網絡技術研究”項目已結項,發布了面向XR 及多媒體增強的核心網絡技術研究報告。TC5 WG6 則著眼未來,成立了“面向 6G 沉浸式通信場景的技術需求與關鍵技術研究”項目。TC11/WG3 正在進行關于“擴展現實(XR)設備安全能力技術要求”的研究工作。3.2.3 AVS 工作組工作組數字音視頻編碼技術標準工作組(The Audio Video Coding Standard,AVS)由國家原信息產業部科學技術司于 2002 年 6 月批準成立,旨在面向我國的信息產業需求,聯合國內企業和科研機構,制(修)定數字音視頻的壓縮、解壓縮、

75、處理和表示等共性技術標準,為數字音視頻設備與系統提供高效經濟的編解碼技術,服務于高分辨率數字廣播、高密度激光數字存儲媒體、無線寬帶多媒體通訊、互聯網寬帶流媒體等重大信息產業應用。先進高效視頻編碼(AVS3)是 AVS 工作組制定的第三代音視頻編解碼技術標準,也是全球首個已推出的面向 8K 及 5G 產業應用的視頻編碼標準。AVS3 規定了適應多種比特率、分辨率和質量要求的高效視頻壓縮方法編碼位流的結構、語法、語義和解析、解碼過程。AVS3 編碼效率比 AVS2 提高了近 1 倍,與視頻編碼國際標準 H.266/VVC 相當。目前AVS3 已經應用于冬奧、世界杯直播轉播,中國移動咪咕公司首發 A

76、VS3 移動端規?;虡I版本咪咕視頻 6.0.7.00,展現了極具潛力的應用前景。AVS6DoF 標準全稱“(AVS3+6DoF)over 5G”,是在 AVS3 的基礎上,增加了對六自由度沉浸視頻的支持,從而提高了視頻的沉浸度和交互性。AVS 6DoF 標準詳細描述了虛擬現實全景視頻和自由視角視頻的編碼表示與重建方法,包括壓縮域的語法、語義以及重建過程。25/75該標準適用于虛擬現實視頻內容制作、播出和傳輸等應用場景。3.3 國內政策國內政策2022 年 11 月 1 日,工業和信息化部、教育部、文化和旅游部、國家廣播電視總局、國家體育總局聯合印發虛擬現實與行業應用融合發展行動計劃(2022

77、2026 年)。該行動計劃提出了 2026 年我國虛擬現實產業總體規模(含相關硬件、軟件、應用等)超過 3500億元,虛擬現實終端銷量超過 2500 萬臺的目標,同時提出要加速多行業多場景應用落地。2023年8月,工業和信息化部辦公廳、財政部發布 關于印發電子信息制造業20232024年穩增長行動方案的通知,提出要落實上述行動計劃,緊抓戰略窗口期,提升虛擬現實虛擬現實產業核心技術創新能力,推動虛擬現實虛擬現實智能終端產品不斷豐富。2023 年 8 月,文化和旅游部辦公廳、工業和信息化部辦公廳發布關于組織開展“5G+智慧旅游”應用試點項目申報工作的通知,其中提到:促進 5G+4K/8K 超高清視

78、頻、5G 智慧導覽、5G+VR/AR 沉浸式體驗沉浸式體驗等應用場景規模發展,滿足游客在旅游全過程智慧體驗?;?5G 的 AI 攝像頭、VR/AR 終端終端、可穿戴設備等數字化產品與文化和旅游企事業機構等深度融合,促進 5G+智慧旅游產品的規?;茝V。2023 年 10 月,文化和旅游部辦公廳、國家發展改革委辦公廳、工業和信息化部辦公廳發布關于組織開展智慧旅游沉浸式體驗新空間培育試點項目推薦遴選工作的通知。智慧旅游沉浸式體驗新空間是指依托旅游景區、度假區、休閑街區、工業遺產、文博場館、劇院劇場等文化和旅游場所或相關空間,運用增強現實增強現實、虛擬現實虛擬現實、人工智能等數字科技并有機融合文化

79、創意等元素,通過文旅融合、虛實結合等方式,對展示內容進行創造性轉化、創新性發展,讓游客深度介入與互動體驗而形成的一種旅游新產品、消費新場景。2024 年 1 月,國務院辦公廳發布關于發展銀發經濟增進老年人福祉的意見,其中提到:鼓勵利用虛擬現實虛擬現實等技術,開展老年用品和服務展示體驗。2024 年 1 月,工業和信息化部等十一部門發布 關于開展“信號升格”專項行動的通知,其中提到:支持景區開展 4K/8K 視頻、智慧導覽、VR/AR 沉浸式旅游沉浸式旅游等應用。2024 年 1 月,工業和信息化部、教育部、科學技術部、交通運輸部、文化和旅游部、國務院國有資產監督管理委員會、中國科學院七部門發布

80、 關于推動未來產業創新發展的實施意見。其中,在“突破下一代智能終端”中提到,發展量大面廣、智能便捷、沉浸體驗沉浸體驗的消費級終端;突破高級別智能網聯汽車、元宇宙元宇宙入口等具有爆發潛能的超級終端。在“開拓新型工業化場景”中提到,加快工業元宇宙元宇宙、生物制造等新興場景推廣,以場景創新帶動制26/75造業轉型升級。2024 年 4 月,國家文物局辦公室、教育部辦公廳發布關于開展 2024 年度以革命文物為主題的“大思政課”優質資源建設推廣工作的通知,其中主要推廣類型包括:AI 交互、ARVR 互動體驗互動體驗、人工智能、虛擬仿真課堂虛擬仿真課堂等新技術應用案例。2024 年 6 月,國家發展改革

81、委、農業農村部、商務部、文化和旅游部、市場監管總局發布關于打造消費新場景培育消費新增長點的措施,其中,在“拓展文娛體育消費空間”部分,提到要“促進虛擬現實虛擬現實(VR)體驗體驗等文娛業態場景創新”;在“利用新技術拓展購物消費體驗”部分,提到要“探索利用人工智能大模型、虛擬現實(虛擬現實(VR)全景和數字人)全景和數字人等技術,拓展電商直播場景。發展線上“虛擬家居布置虛擬家居布置”“虛擬試衣虛擬試衣”等產品展示業務,促進沉浸式沉浸式體驗消費?!?024 年 11 月,工業和信息化部等十二部門印發了5G 規?;瘧谩皳P帆”行動升級方案,旨在到 2027 年底構建形成“能力普適、應用普及、賦能普惠

82、”的發展格局,全面實現5G 規?;瘧?。其中多次提到沉浸式、XR 相關內容,包括:要推進 5G 與人工智能、虛虛擬現實擬現實等技術的融合,探索新型內容生產、傳播和體驗方式;加快演藝、娛樂、文化會展、文博等行業的數字化轉型,打造沉浸式沉浸式文旅體驗新場景;完善 XR、虛擬交互、虛擬交互、智能文化裝備等產業鏈,提升文化裝備智能化水平和產業化能力。從上面的政策可以看出,我國政府對沉浸式相關產業和發展高度重視,近 2 年密集出臺了多項與沉浸式相關的政策,未來必定還將出臺更多相關的技術,可見沉浸式應用已經成為了我國重點發展方向之一。另外從上面的政策還可以看出,沉浸式相關政策主要集中在下面幾個領域:1、文

83、旅文旅一直是沉浸式技術的重要應用場景之一,這些技術為旅游體驗帶來了全新的維度和深度。在此領域,國家出臺了關于組織開展智慧旅游沉浸式體驗新空間培育試點項目推薦遴選工作的通知 關于組織開展“5G+智慧旅游”應用試點項目申報工作的通知等政策,強調用 VR/AR 等沉浸式技術將旅游深度融合。2、消費在 2024 年 12 月中央經濟工作會議中提到要大力提振消費、全方位擴大國內需求??梢娙绾未龠M消費在國內越來越重要。在國家出臺關于打造消費新場景培育消費新增長點的措施 中強調了用虛擬現實(VR)全景和數字人等技術,拓展電商直播場景;用線上“虛27/75擬家居布置”“虛擬試衣”等產品展示業務,促進沉浸式體驗

84、消費。3、銀發經濟銀發經濟作為國內越來越重要的領域,國務院辦公廳發布 關于發展銀發經濟增進老年人福祉的意見,鼓勵利用虛擬現實虛擬現實等技術,開展老年用品和服務展示體驗。通過沉浸式技術來為老人提供高質量的服務。4、教育在 關于開展 2024 年度以革命文物為主題的“大思政課”優質資源建設推廣工作的通知中提到的“虛擬仿真課堂”是沉浸式技術在教育領域應用的一個重要體現。由此可見,沉浸式技術對多領域的發展起到促進和輔助作用。通過與傳統領域的融合發展,沉浸式技術將釋放傳統行業的創新活力。在政策的推動下,未來沉浸式技術將有更多的應用場景落地。3.4 國外政策國外政策美國:2022 年 8 月,美國總統簽署

85、2022 年芯片與科學法案,其中,沉浸式技術被納入了法案中關鍵技術重點領域的名單。該法案對 XR 技術的發展提供了重要的資金支持。2023 年 5 月美國兩黨議員共同提出美國勞動力沉浸技術法案,旨在勞工部設立一項為期5 年的撥款計劃,支持社區學院和職業技術教育中心利用包括增強現實和虛擬現實在內的沉浸技術開發勞動力發展教育和培訓項目。歐盟:2022 年 11 月,數字市場法正式生效,歐盟通過該法案,維護歐盟市場的競爭與活力。2022 年 11 月,數字服務法案生效,歐盟通過該法案,強化數字領域的監管力度,防范國際巨頭市場壟斷。2024 年 5 月,歐洲理事會正式通過了歐盟人工智能法案,歐盟通過該

86、法案,對元宇宙采取保守和嚴苛的立場,包括增加透明度、尊重用戶選擇權、嚴格保護隱私等。韓國:2022 年韓國政府公布元宇宙新產業領先戰略-培育數字新政 2.0 引領新產業發展以“數字新大陸,邁向元字宙的韓國”為愿景口號,提出到 2026 年,元宇宙產業規模全球前五,并計劃投資 5560 億韓元用于完善官方制度,培養 40000 名元宇宙領域專家,220家銷售額超過 50 億韓元的供應商企業,發掘 50 個模范案例。首爾市政府于 2023 年 1 月推出了元宇宙首爾平臺,耗資超過 21 億韓元,使首爾成為全球首個提供 VR 公共行政服務的城市。2023 年 9 月,韓國公布數字權利法案,是韓國政府

87、為了建立數字時代的新秩序而提出的一份重要文件。2024 年 6 月韓國科學與信息通信技術部提出了“新數字秩28/75序建立計劃”,該行動計劃旨在將韓國之前提出的“數字權利法案”落實到具體政策中,以建立數字時代的新秩序,解決與深化數字化相關的問題。日本:2022 年 4 月,日本成立了面向應用推進研究和規則完善的“元宇宙推進協議會”。該組織由 ANA 控股和三菱商事等 20 家以上企業參與,力爭未來在生活和商務中普及元宇宙的應用。2022 年 10 月,日本首相岸田文雄表示日本將投資數字轉型服務,包括了 NFT和元宇宙;2023 年 6 月,日本參議院通過了不正當競爭修正法,旨在通過對元宇宙知識

88、產權的保護,為初創企業等中小企業提供良好的發展環境。3.5 產業化進展和發展趨勢產業化進展和發展趨勢3.5.1 XR 產業現狀產業現狀XR 產業鏈是一個生態系統,涉及多個環節,包括硬件、軟件、內容、應用、傳輸網絡等。XR 硬件是指將現實與虛擬結合起來進行人機互動的設備。XR 硬件依靠穿戴式設備或有定位設備的特殊環境(裸眼式 XR)實現,目前市場上以穿戴式設備為主。XR 硬件從完整度上區分,主要包括 XR 整機,XR 模組,關鍵元器件三個部分。對應的產業鏈從上到下包括 XR 終端廠商,XR 模組廠商,元器件廠商。XR 整機指的是集成了 XR 技術,能夠提供虛擬現實(VR)、增強現實(AR)和混合

89、現實(MR)體驗的設備。這些設備可以是頭戴式顯示器(HMD)、智能眼鏡或其他可穿戴設備,它們通過計算機技術和傳感器為用戶提供沉浸式體驗。XR 模組通常是指構成 XR 整機的一些關鍵部件或子系統,比如光學器件、顯示器件、傳感器、芯片等。這些模組共同工作,實現 XR 設備的特定功能,如環境感知、圖像渲染、用戶交互等。XR 關鍵元器件包括處理器芯片、內存、通信芯片、傳感器(IMU,光感)、光學器件、顯示設備、攝像頭、電池、揚聲器等,供應給 XR 模組廠商和 XR 終端廠商。XR 元器件除了光學和顯示器件外,基本上可以復用手機元器件,如處理器芯片使用手機處理器平臺。對于 XR 光學器件除了對比度、清晰

90、度、細膩度等要求外,還需要考慮體積,重量等影響用戶使用體驗感的因素。近幾年 Pancake 光學器件因其更輕薄、更舒適、更高性能成為 VR 頭顯設備的重要解決方案。Meta、蘋果、微軟、三星、高通等企業持續布局 XR 產業,紛紛發布 XR 產品。以下是一些公司推出的 XR 產品。29/75表9科技公司推出的XR產品公司XR 產品MetaQuest 3,Orion AR 眼鏡,Ray-Ban Stories 智能眼鏡蘋果Apple Vision Pro索尼PlayStation VR2微軟HoloLens 2三星Galaxy GlassPICOPICO 4 Ultra高通驍龍 XR1,驍龍 XR

91、2 Gen2 芯片XR 軟件平臺是用于創建、管理和渲染擴展現實體驗的關鍵工具和環境。XR 軟件平臺可分為系統平臺和開發平臺兩類。系統平臺主要指操作系統(Operating Systerm,OS)以及對應的用戶界面(User interface,UI),目前開發 XR 操作系統的主要公司有微軟、谷歌、Meta、蘋果、華為和 Magic Leap 等;開發平臺提供了從創建、渲染到分發的全套工具,使得開發者能夠構建和部署跨平臺的沉浸式體驗。開發平臺主要包括 3D 建模平臺、內容開發引擎、AR SDK、渲染處理等。以下是一些主流的 XR 開發平臺:表10XR開發平臺XR 開發平臺平臺特點Unreal

92、Engine(虛幻引擎)虛幻引擎是一個功能強大且經過驗證的平臺,專為 3A 級游戲、電影制作和照片級可視化等要求苛刻的應用而設計。它提供對 OpenXR 和各家硬件供應商 API 的廣泛支持,能夠將 XR 體驗部署到任何平臺,包括 Hololens、ARCore 和 Oculus 等。虛幻引擎還允許開發者使用藍圖可視化腳本或 C+代碼來創作定制的 XR 應用程序。UnityUnity 是一個廣泛使用的 XR 開發平臺,提供了跨平臺的工具,如 XRInteraction Toolkit 和 XR Hands,幫助開發者添加物體檢測、遮擋、運動、手勢、物體交互等關鍵功能。Unity 支持開發者構建

93、可觸及 Meta Quest、Apple iOS 和 visionOS、PlayStationVR2 等領先設備的 XR 應用程序。OpenXROpenXR 是由 Khronos Group 制定的開放標準,旨在標準化各種 VR/AR 平30/75臺上的設備和應用程序之間的規范。它允許應用程序開發人員編寫一次代碼,就能在任何支持 OpenXR 的系統上運行,簡化了 XR 開發。高通驍龍 XR 平臺高通驍龍 XR 平臺結合了智能增強現實(AR)、虛擬現實(VR)和人工智能(AI)功能,滿足擴展現實(XR)生態系統不斷增長的需求。該平臺提供沉浸式音頻、視覺效果,以及娛樂、游戲、教育、工業應用等之間

94、的互動。LarkXR 云 XR 平臺LarkXR 是實時云渲染產品,基于 GPU 云化、圖形容器、實時編解碼、網絡傳輸優化等核心技術。它支持多終端訪問/交互,包括瀏覽器直接訪問和Android、iOS 等客戶端 APP,以及 VR/AR 眼鏡、手機/Pad、PC、全息等終端交互。阿里云 XR 平臺阿里云與平行云聯合發布的云 XR 平臺,提供算力調度、3D 實時渲染、音視頻編碼與推流、應用發布與用戶管理等服務。該平臺支持多種流行實時3D 引擎和多種 AR/VR/MR 終端,兼容不同系統。中興通訊 Cloud XR 平臺解決方案中興通訊推出自有品牌的 Cloud XR 平臺解決方案:uSmartI

95、N XRExplore,其架構包括應用層、平臺層和基礎視頻能力層。該平臺支持 Cloud XR 教育培訓、旅游、金融、工業、房地產等業務共性能力,提供能力開放,第三方應用開發者可利用平臺提供的 VR/AR 云渲染、推流等 SDK 開發自己的業務應用,豐富 XR 平臺的生態圈。PICO 開發者平臺PICO 4 Ultra 開發者專題頁提供了全新 OS、新功能特色、SDK 3.0 及示例,以及業界創新能力。PICO 4 Ultra 提供完善的虛擬現實(VR)體驗和全新的混合現實(MR)體驗,具備 6 自由度(6DoF)頭部和手部追蹤能力。Snapdragon Spaces XR 平臺Snapdra

96、gon Spaces XR 平臺是一個集成的平臺和生態系統,用于基于 XR的設備制造商,可以加速上市時間并降低創建企業級設備復雜性。該平臺包括處理器、軟件和感知技術、參考設計和開發者工具,幫助創造企業新的未來潛力。LayaAirLayaAir 是 Layabox 旗下的輕量化全平臺圖形引擎,具有開放式的可編程的渲染管線,次世代 PBR 渲染流,ClusterLighting 多光源技術,Forward+渲染管線,高性能并行渲染器 API 的接入(WebGPU)等核心技術。支持開發者 2D 和 3D 內容創作。31/75Cocos CreatorXRCocos CreatorXR 是基于 Coc

97、os Creator 和 Cocos Engine 打造的 XR 內容創作工具。它支持 OpenXR 標準協議,提供一站式開發并發布到不同的 XR設備中。Cocos CreatorXR 1.2.0 版本新增了對 WebXR 的支持,正式支持發布到 WebXR 的圖形化編輯器,并開啟 MR 之路。中科創達 XR 平臺中科創達提供的 XR 平臺包括 SoC Qualcomm XR2、8GB LPDDR5、128GBUFS3.1 存儲、Pancake 光學、2 x 2280 x 2280 分辨率、90 fps 刷新率、6DoF頭部和手部追蹤、視頻透視、無線渲染等功能。創通聯達 XR 解決方案創通聯達

98、提供端到端的 AR/VR HMD/智能眼鏡的開發服務,擁有操作系統優化、功耗及性能優化、相機、顯示及音頻優化等功能。XR 應用和內容是吸引用戶的關鍵,不斷豐富和優化 XR 應用和 XR 內容生態,提供豐富的內容為用戶帶來更加沉浸式的體驗選擇是 XR 產業發展的核心推動力。XR 應用非常廣泛,基于應用對象,可以分為行業內容應用(ToB)和個人消費市場應用(ToC)。XR 在行業應用領域方面較廣泛,包括軍事安防、辦公協作、工程培訓、安裝檢修、物流倉儲、產品營銷、自動駕駛、太空探索、商業應用、工業應用等方面。XR 在個人消費市場上主要凸顯在商業營銷、教育、游戲、旅游、醫療和社交方面。當前優秀的內容和

99、應用主要集中在游戲領域,XR 內容數量整體偏少,缺少現象級重磅內容,優質內容匱乏,用戶粘性受制于內容數量與質量。XR 要打破游戲機定位,亟需更多領域的優秀內容的開發,例如 XR 健身,XR 短視頻及直播,XR 影視,XR 社交,XR 旅游,XR 醫療等。目前,XR 產業鏈的諸多環節發展仍不成熟,未來發展趨勢有以下幾方面:1)XR+AI:通過智能感知/動作識別、自然語言處理等技術提升 XR 設備的智能化水平,實現更自然的交互和更智能的服務。AI 可以使 XR 內容的生成變得更低成本、更高效率,為XR 的沉浸式體驗提供更多內容可能性的同時增加XR內容的互動性。2)細分場景和應用,豐富 XR 內容:

100、游戲仍是當前 XR 市場主流,針對消費市場的應用的細分及內容的開發,可能是促進 XR 產業快速增長的主要驅動力。針對行業應用需要了解行業特點和需求,抓住痛點進行精準布局。3)改善 XR 體驗,移動性能力和交互方式能力提升:主流 XR 設備需要劃定區域內運動,可實現的場景受限,如果能支持更大范圍的移動性,將擴展 XR 的應用場景;另外,大部分 XR 設備以手柄作為交互形式,輸入信息有限,交付不夠自然,如果32/75能擴大 XR 設的交互方式,將大幅改善 XR 體驗。4)軟硬協同促進產業鏈良性循環:硬件性能得到提高,賦予用戶高度沉浸式體驗感,吸引更多 XR 用戶,促進更多軟件和內容廠商的開發。隨著

101、 XR 內容和應用的增長,增強用戶粘性,增加市場對 XR 產品需求,促進硬件廠商出貨量增加,形成產業鏈良性循環。3.5.2 全息全息產業現狀產業現狀全息投影技術突破了傳統聲、光、電局限,將美輪美奐的畫面帶到觀眾面前,給人一種虛擬與現實并存的雙重世界感覺。數據顯示,2023 年中國全息投影行業市場規模約為 13.5億元,市場規模持續增長,展現出廣闊的應用前景和商機。全息投影產業鏈上游為基礎層,包括電子元器件、集成電路、光學材料等,下游為全息投影應用,主要應用于旅游、建筑、教育、醫療、零售物流、游戲等領域。全息投影產業鏈基礎層的組成部分為全息投影行業提供必要的硬件支持和技術基礎,是全息產業鏈穩定發

102、展的重要保障。表11全息投影產業鏈基礎層組成部分基礎層組成部分功能全息材料研發與制造商負責研發和生產全息投影所需的特殊材料,如全息膜、反射鏡等。這些材料的質量和性能直接影響全息投影的效果和穩定性全息設備零件商提供投影機的核心零部件,包括芯片、鏡頭、光源和光學元組件等。這些零部件的質量和性能對全息投影的效果和穩定性起到關鍵作用全息技術服務器商提供全息投影所需的技術支持和數據存儲服務。隨著云計算和大數據技術的發展,全息投影的數據處理能力得到了極大的提升全息芯片商專注于研發和生產用于全息投影的高性能芯片。隨著5G、AI等技術的融合應用,全息投影芯片的性能也在不斷提升云計算、云服務器和服務器硬件設備提

103、供整個產業中的算力支持,包括圖像的采集、處理、傳輸編碼等芯片或微型集成電路作為所有設備的核心處理與控制邏輯單元電路元器件與光學器件完成全息業務的支撐信號處理設備用于銜接不同部分,在整套業務邏輯中的各環節之間進行信號傳遞33/75專業儀器決定全息圖像的采集清晰度和呈現效果,例如鏡頭、投影紗幕等基礎層公司是產業鏈的源頭,目前在基礎材料、核心技術上已經可以提供必要的保障,尤其在頭戴式顯示領域,已經擁有了高精度的傳感器,芯片和產品,例如微軟推出的配備了Windows 全息操作系統的 HoloLens 2。在裸眼 3D 和空氣成像領域,技術和材料研究近幾年也有顯著進展,但離成熟還存在一定距離。目前裸眼

104、3D 技術主要應用于廣告傳媒、影視娛樂、教育培訓、醫療影像、展覽展示等領域。華為在 2024 年 3 月 11 日于北京舉行的新技術發布會上推出了名為“空中成像”的技術,將光線投射到空中,形成三維圖像,無需依賴屏幕或其他物理介質,為用戶帶來全新的視覺體驗。全息成像方式主要包括光學全息、數字全息、計算全息、360 度全息顯示、360 度幻影成像和透射式全息顯示幾類。表12全息成像方式全息成像方式原理光學全息傳統的光學全息技術,通過激光作為照明光源,將光源發出的光分為兩束,一束直接射向感光片,另一束經被攝物的反射后再射向感光片。兩束光在感光片上疊加產生干涉,記錄下物體光波的振幅與相位信息數字全息數

105、字全息技術利用電荷耦合器件(CCD)等電子設備取代傳統光學全息中的記錄介質來記錄全息圖,重建過程在計算機中完成。這種方法繼承了傳統全息的特點,并具有實時圖像獲取和處理、數值重建獲取相位信息等優點計算全息利用計算機模擬光的傳播,通過計算機形成全息圖,打印全息圖后微縮形成母板。這種方法可以在空間重疊,十分緊湊、輕巧,適合于宇宙飛行使用360度全息顯示通過將圖像投影在一種高速旋轉的鏡子上實現三維圖像,允許從 360的任何角度觀看影像的不同側面360度幻影成像將三維畫面懸浮在實景的半空中成像,營造了亦幻亦真的氛圍,效果奇特,具有強烈的縱深感。形成空中幻象中間可結合實物,實現影像與實物的結合透射式全息顯

106、示利用相干光照射物體,物體表面的反射光和散射光到達記錄干板后形成物光波;同時引入另一束參考光波照射記錄干板。再現時,利用與參考光波相同的光波照射記錄干板,人眼在透射光中觀看全息板,便可在板后原物處觀看到與原物完全相同的再現影像34/75全息技術應用非常廣泛,在教育、醫療、文旅、商業、娛樂、展覽、軍事、餐飲等領域都有廣闊的空間。例如德國馬戲團 Roncalli 使用全息影像代替活體動物,實現無動物馬戲表演。目前,全息產業鏈的諸多環節發展仍不成熟,未來發展趨勢有以下幾方面:1)技術融合:未來全息投影技術將與人工智能、虛擬現實等技術融合,形成更為完整的生態系統。2)應用領域和場景拓展:全息技術的應用

107、領域將從娛樂、教育、醫療、軍事擴展到更多行業,如工業、商業等。應用進一步細分,內容數量和質量都進一步提升。3)市場規模增長:預計未來幾年全息投影市場規模將繼續保持高速增長態勢。4)成本降低:隨著技術的發展和規?;a,全息投影技術的成本將逐漸降低,吸引更多人使用和享受到全息技術帶來的便利。35/754 關鍵技術關鍵技術沉浸式業務對端到端產業提出了挑戰,包括終端設備、媒體處理技術、編解碼技術、業務保障和網絡傳輸等方面。4.1 沉浸式終端相關技術沉浸式終端相關技術6G 時代基于泛在連接進一步融合通信、感知、計算等多種能力,描繪出一種物理世界與虛擬世界萬物智聯的愿景。虛實融合體驗通過沉浸式終端實現,

108、包括穿戴式近眼顯示設備、裸眼 3D 顯示設備以及洞穴式虛擬現實系統 CAVE(Cave Automatic Virtual Environment)等。本章將分別介紹不同終端的光學技術、顯示技術及交互技術。4.1.1 光學技術光學技術光學器件通過光學透鏡的折射原理,改變光線傳導的方向,從而達到在近眼聚焦以及擴大視場的效果。作為連接顯示屏和人眼的重要橋梁,光學器件是近眼顯示設備最為關鍵的組件之一,直接影響到最終的顯示效果。光學器件生產主要包括:光學設計、透鏡加工、透鏡貼膜、組裝、檢驗和封裝六個流程。評估光學器件的性能參數包括:視場角、出瞳距離、眼動范圍、光學效率、透鏡厚度、成像質量、角像素密度和

109、成本等。如前文所述,近眼顯示設備包括:虛擬現實(VR)、增強現實(AR)、及介于兩者之間的混合現實(MR)。VR 頭顯利用數字技術為用戶提供視覺、聽覺和觸覺的感官模擬,構建一個與外界隔絕的沉浸式虛擬三維世界,其光學器件利用光學折射原理,將靠近人眼的微顯示器屏幕上所顯示的圖像聚焦、放大,而后投射到人眼中形成更大視角的畫面。兩組光學器件和微顯示屏通過模擬雙目視差,使佩戴者獲得三維立體沉浸式的視覺體驗。佩戴頭盔時所看到的圖像完全由微顯示器提供,現實場景中自然反射的光線無法進入人眼。然而利用透視技術(See-Through),通過頭盔上的采集與顯示設備,佩戴者可透過頭盔看到真實世界,進而實現混合現實(

110、MR)。VR 光學技術的發展經歷了三個主要階段:非球面透鏡階段,菲涅爾透鏡階段和 Pancake階段(見圖 2)。前兩個階段采用垂直光路方案,通常使用單個透鏡,基于光線折射的原理,常見于早期的 VR 頭顯設備?,F在則主要采用以 Pancake 為代表的折疊光路技術,由多個透鏡的組合,通過光線的折射、反射和偏振來實現光路的多次轉折,有效縮短了光學總長。該方案大幅度降低了 VR 頭顯的厚度和重量,是目前消費級 VR 頭顯的首選光學方案,以 Meta、36/75蘋果、PICO 為代表的頭部企業推出的主流產品均是采用折疊光路 Pancake 方案。另外當前較為前沿的 VR 光學技術還包括異構微透鏡方案

111、以及液晶偏振全息方案、超透鏡方案等。圖2 VR光學技術AR 眼鏡與 VR 頭顯不同,佩戴者可透過半透明的顯示鏡片直接觀察真實世界,并在真實場景的基礎上疊加圖像、聲音、視頻等數字信息,實現虛實融合。AR 眼鏡主要的光學方案包括棱鏡方案、自由曲面方案、Birdbath 方案和光波導方案(見圖 3)。棱鏡方案技術原理23:自由曲面棱鏡方案原理24:Birdbath 光學方案技術原理24:光 波 導 光 學 方 案 技 術 原 理 24:圖3 AR光學方案自由曲面方案和 Birdbath 量產較為成熟,成像質量、光效、色彩飽和度相比于棱鏡方案37/75更高,但是存在模組較厚、透光率低、入眼亮度低、出瞳

112、距離小等缺點?;谶@種方案的AR 眼鏡主要用于觀影、游戲或辦公等靜態場景。另一方面,近年來光波導方案發展迅速,因其在體積、透光率、清晰度等方面都有明顯優勢,有望成為下一代主流 AR 光學方案?;诠獠▽У?AR 眼鏡主要由三大核心組件構成:顯示模組、波導片以及耦合器。顯示單元產生的光信號首先經由耦入器件進入波導片,然后在波導內部通過全反射的方式沿特定路徑傳輸,最終通過耦出器件離開波導片,直射入用戶的眼睛,在視網膜上形成圖像。根據耦合器件不同,光波導可分為衍射光波導和幾何光波導,其中衍射光波導又分為表面浮雕光柵和體全息兩種方案;幾何光波導包括鋸齒光波導和陣列光波導,鋸齒光波導在應用中存在雜散光、

113、工藝難度大以及能量利用率低等問題,所以目前幾何光波導以陣列光波導為主。表面浮雕光柵光波導雖然存在光損嚴重、彩虹效應等問題,但是相比其他光波導方案,生產工藝可控、良率更優,是目前光波導 AR 眼鏡的首選光學方案。陣列光波導和體全息光波導具備輕薄、色彩均勻等特點,主要問題是生產工藝復雜、良率低,進而導致量產成本高。具體參見表 13。表13光波導方案對比24 25 26光波導類型光波導類型幾何光波導幾何光波導(陣列光波導)(陣列光波導)衍射光波導衍射光波導表面浮雕光柵表面浮雕光柵體全息光柵體全息光柵光 學 元 件 設光 學 元 件 設計計半透半反鏡面陣列(多層鍍膜玻璃/塑料鏡片)表面浮雕光柵(SRD

114、)高折射率復合材料全體息光柵(VHG)或全息光學元件(液晶、光聚合物等)擴瞳技術擴瞳技術一維擴瞳/二維擴瞳二維擴瞳二維擴瞳光學效率光學效率一維擴瞳:10%-15%二維擴瞳:5%1%1%-3%優點優點設計原理簡單,大部分工藝為成熟的冷加工工藝顯示性能極佳無色散、光效高制備工藝簡單、良率高可實現二維擴瞳可量產性較高透明度高、結構輕薄可實現二維擴瞳透明度高、結構輕薄成本較低缺點缺點制作工藝繁瑣單片價格較高顯示效果較差光學效率較低隱私泄露問題顯示效果一般視場角小、光損耗大材料、制造工藝要求高量產程度量產程度小規模量產小規模量產尚未量產另外最新的碳化硅衍射光波導方案憑借高折射率和低損耗的高效光學顯示、小

115、型和輕量38/75化以及高溫穩定性和抗氧化性等一系列優勢,可實現單片全彩無彩虹紋顯示,代表著光波導技術的未來趨勢,但同樣存在生產工藝復雜、成本高的問題。值得一提的是,2024 年 Meta公司發布的 Orion 眼鏡采用的就是碳化硅衍射光波導方案,原型樣機在顯示質量、鏡片重量等指標上存在明顯優勢。裸眼3D顯示指不需要穿戴輔助設備的情況下,通過裸眼即可獲得立體視覺效果的系統。裸眼 3D 顯示存在不同的技術方案:一種方案是利用雙目視差原理,人眼同時或分時接收不同的圖像信息,經過大腦處理將圖像信息融合,從而創建出具有三維立體效果的影像。這種方案易產生輻輳沖突,引發觀看者眩暈與不適感。另一種方案基于光

116、場 3D 顯示技術,在空間中重新構建出三維物體的光場分布,實現與自然世界無限接近的立體顯示效果。北京郵電大學研究團隊提出了空間光場積分原理,通過反向光線追跡的方法積分獲得高階離軸非球面反射模組的光學表面分布,并在此基礎上綜合考慮光學重構過程中像差的分布特性,利用可以補償波面變形的光學模組對光波陣面進行調制,完成攜帶 3D 信息的光場在自由空間中的自然重構和顯示,實現了寬視角、大尺寸、無介質裸眼真 3D 動態顯示。4.1.2 顯示技術顯示技術VR 頭顯顯示屏的分辨率、響應速度、刷新率、亮度、對比度等指標直接影響用戶體驗。目前,主要的顯示技術有 LCD、OLED、Mini-LED、Micro-LE

117、D、Micro-OLED 等。表 14.列舉了不同顯示技術的優缺點。表14顯示技術優缺點對比顯示技術顯示技術優點優點缺點缺點LCD技術成熟、成本低、生產效率高、無燒屏問題需要背光源,能耗高,響應速度較慢,對比度較低OLED對比度高,響應速度快,自發光成本高,有機材料易老化,存在燒屏問題Mini-LED畫質較好、分區調光、對比度高、高亮度、不易燒屏,壽命長、色彩更細膩散熱要求高、成本高于 LCD、體積厚度較大Micro-LED亮度高、對比度高、分辨率高、響應速度快、功耗低、壽命長生產技術復雜,良品率低,成本高,量產困難,且可能存在像素化問題Micro-OLED輕薄、低功耗、發光效率高,響應速度快

118、,亮度和像素密度高技術成熟度相對較低,成本較高LCD 技術成熟,成本較低,但需要背光源,能耗高,且響應時間相對較慢,對比度相39/75對較差;OLED 能夠自發光,其響應速度快,對比度高,但壽命較短,成本較高;Mini-LED和 Micro-LED 最直觀的差異就是 LED 晶體的顆粒大小,以 100m 為界,Mini-LED 被視為LED 與 Micro-LED 之間的過渡技術。Micro-LED 具有響應速度快,亮度高,對比度高,壽命長等優點,但其生產技術復雜,良品率低,成本高,且可能存在像素化問題;Micro-OLED又稱硅基 OLED,采用單晶硅晶圓作為背板,更輕薄短小、耗電量更低、發

119、光效率高,亮度和像素密度表現都很好,但生產成本高,目前主要用于VR中的高端產品,如Apple Vison Pro。目前主流 VR 頭顯多采用的 LCD 方案,針對其存在響應速度慢的問題,業內提出改良版的 Fast-LCD 方案,能夠有效提升刷新率至 7590Hz,且具有較高的量產穩定性及良率,目前應用的設備有 PICO 4、奇遇 Dream Pro、大朋 VR E4 以及今年發布的 PICO 4 ultra 等。另外,為了解決背光層的漏光問題,將 Mini-LED 作為 Fast-LCD 的背光,提升了 Fast-LCD 在對比度、刷新率以及亮度等方面的性能,Meta Quest Pro 采用

120、了該套方案。但對于 VR 來說,Micro-OLED 具有高像素密度、高亮度、高分辨率、高填充系數、更高的效率和更長的壽命,未來可能成為顯示技術的趨勢。AR 眼鏡的光學顯示系統由光學元件和顯示面板組成,其中顯示面板有多種方案,以適配不同光損和結構的光學方案。常見的顯示面板主要包括 LCD、LCoS、Micro-OLED 和Micro-LED,其中前兩個需要外部光源,后兩者是無機自發光。LCD 與 LCoS 技術相對成熟,但存在對比度低、能耗高等問題26。Micro-0LED 具有較好的技術成熟度與顯示效果,是目前 AR 領域應用最為廣泛的顯示技術。Micro-LED 具有高亮度、高可靠性、以及

121、超低功耗、超緊湊外形的明顯優勢,原理上是最佳的顯示技術方案,但由于在芯片、巨量轉移、全彩化等方面仍存在技術挑戰,距離實現規模量產仍有多項技術難度亟待解決。在搭配方案上,Micro-OLED+Birdbath 是當前較為成熟的技術組合,但仍存在低透光率和圖像畸變等問題;Micro-LED+衍射光波導可有效解決視場角和體積的矛盾,但目前受限于技術問題,無法實現規?;慨a。隨著技術和良率的不斷提升,Micro-LED+光波導方案將持續滲透。CAVE 是一種基于完全沉浸式的洞穴式可視協同環境,融合了虛擬現實顯示系統、人機跟蹤交互系統、多通道視景同步技術、三維空間整形校正算法和立體顯示技術等。通過多通道

122、投影系統在封閉的沉浸式空間內創造出逼真的三維立體影像,實現高度逼真的虛擬環境,可以同時為多人提供沉浸式三維交互體驗。CAVE 技術的核心在于高分辨率投影系統、多通道投影以及精確的投影映射。其中,高分辨率投影儀能夠在沉浸式空間內展示出清晰、細膩的影像;多通道投影將影像投射到多個墻面,形成包圍觀眾的立體畫面,帶來沉浸式的體驗;40/75投影映射技術確保畫面在不同墻面之間的銜接自然、連貫,同時與實際空間的比例和透視關系相符合,營造出逼真的虛擬環境。除此之外,美國拉斯維加斯耗資 23 億美元打造的地標性建筑 MSG Sphere 是當今世界上最大的球形沉浸式體驗中心。MSG Sphere 外立面覆蓋

123、54,000 平方米可編程 LED 屏,也是目前世界上最大的 LED 屏幕。這些屏幕由 120 萬個燈珠組成,每個燈珠能顯示多達 2.56億種顏色,可播放任何編程的 3D 影像。內部裝有 15,793 平方米的環繞式 LED 屏幕,有超過 268 塊顯示屏,形成一個巨大的內球面屏幕,顯示面積是 IMAX 的 40 多倍,分辨率為 16K,是目前全球最高分辨率的 LED 屏幕。并且,通過采用多臺 8K 攝像機來捕獲 360 度全景視頻,從而達到在場館內無需佩戴眼鏡,就可以享受 VR 體驗的效果。另外,MSG Sphere 還從聽覺、觸覺、嗅覺等多個方面為觀眾提供多模態的沉浸式虛擬現實體驗。4.1

124、.3 交互技術交互技術PC 時代主要通過鍵盤、鼠標完成計算機輸入;移動互聯網時代交互模式被觸摸屏重新定義。隨著技術的進一步發展,下一代互聯網智能化、3D 化的發展趨勢越發明確,人機交互的方式會突破 2D 平面的限制轉向空間計算,語音交互、手勢識別、眼動追蹤、以及腦機接口的多模態交互將發揮重要作用。手勢識別手勢識別可以通過非接觸式傳感器或接觸式傳感器實現。非接觸式的手勢識別首先通過攝像頭進行圖像采集,捕捉手部信息,之后可將手部動作映射為操作指令,通過特定手勢動作調用相關指令與虛擬環境交互,以微軟 HoloLens 為代表的 AR 眼鏡采用這種手勢識別式的交互方式。但映射的指令集不能滿足如操作目標

125、對象等復雜交互需求,此時就需要對捕捉到的圖像信息進一步處理??梢岳脠D形學技術將手部進行三維重建,提取如指尖位置、手型、運動軌跡等關鍵手部特征,進而通過模式識別實現復雜手勢交互,蘋果、Meta、PICO推出的具有手勢識別功能的 VR 頭盔主要采用這種操作式的手勢交互技術。另外現代手勢識別技術常使用機器學習算法來提高識別的準確率和效率,北京理工大學團隊在手部重建與手勢識別上也有深入的研究。接觸式的手勢識別需要用戶佩戴指環、腕帶或數據手套。技術方案上,主要有視覺追蹤、慣性追蹤、彎曲傳感器追蹤、磁性追蹤等。數據手套可采用多種傳感技術,還可集成觸覺反饋、溫度模擬等功能,具有較高的追蹤精度,但舒適性較低

126、且成本較高;腕帶、指環等輕小的可穿戴設備集成度高,但精度相對較低。此類設備一般配置按鍵、觸摸屏等裝置實現更多交互功能。41/75眼動追蹤眼動追蹤通過捕捉和分析眼球運動數據來研究個體的視覺注意、認知過程和行為,具有實現注視點渲染、瞳距自調節、虹膜解鎖等功能,廣泛應用于人機交互、心理學、用戶體驗設計和認知科學。目前主流眼動跟蹤技術方案有四種:直接圖像處理方案、瞳孔角膜反射法(PCCR)、事件相機方法(DVS)、微電機系統(MEMS)。其中直接圖像處理方案結構簡單、成本低,但設備滑動影響眼動精度;DVS 方法具有高時間分辨率、高動態范圍、低功耗的優勢,但噪聲大,尚未有成熟的商業落地;MEMS 方法具

127、有刷新率高、體積小、功耗低的優點,但同樣存在設備滑動影響眼動精度的問題;PCCR 是目前的主流方案,具有精度高、非接觸、無創等優點,廣泛用于現代的眼動追蹤設備中。北京航空航天大學研究團隊在眼動追蹤方面有著多年的研究積累。語音交互語音交互以聲音信號作為輸入和輸出媒介,實現人與計算機之間的交互,從而完成信息的傳遞和任務的執行,是智能時代人機交互的關鍵入口。其核心技術包括語音識別、自然語言處理以及語音合成等。語音識別將人類的語言中的詞匯內容轉換為計算機可讀的輸入,該過程中首先需要建立聲學模型和語言模型,通過對聲學信號的編碼和解碼實現實時語音識別;自然語言處理是語音交互的核心,涉及的技術包括文本預處理

128、、詞法分析、句法分析、語義理解、分詞、文本分類、文本相似度處理、情感傾向分析、文本生成等等;語音合成是把文本轉化成語音的過程,涉及的技術包括文本正則、文本結構分析、文本轉音素以及韻律預測等。腦機接口腦機接口。作為變革性的人機交互技術,腦機接口技術可以使大腦與外部設備建立全新的通信與控制通道,并捕捉大腦信號并將其轉換為電信號,實現信息的傳輸和控制,在醫療、教育、沉浸式娛樂領域展現了巨大的應用潛力。根據腦電信號獲取的方式,腦機接口主要可分為侵入式、非侵入式和半侵入式三種形式。侵入式腦機接口將芯片直接貼在大腦皮層上,接收的信號精度高,目前主要用于醫學臨床使用;非侵入式腦機接口的電極在可穿戴的帽子上,

129、風險小,操作相對簡便,但信號強度弱,精度低,多用于改善心理疾病、睡眠或監測疲勞駕駛等。半侵入式腦機接口將電極置于顱骨內、硬腦膜外,距離神經元更近,但不直接接觸神經元細胞。其優勢在于沒有神經細胞損傷的風險,且可獲得較高信號強度和分辨率。腦機接口產業目前的發展仍在初期階段,一是數以億計的神經元信號采集存在精度和廣度問題,二是神經系統的運作機制極為復雜,腦電信號的解析難度巨大。但腦機接口作為促進國防、醫療、教育等諸多領域未來產業發展的關鍵核心技術,將成為未來全球競逐的產業新賽道。42/754.2 媒體處理技術媒體處理技術內容是沉浸式通信的核心,內容的采集,處理和呈現貫穿沉浸式通信產業鏈。沉浸式內容通

130、過創造一種全新的敘事空間,使用戶在視覺、聽覺、嗅覺、味覺或觸覺上達到與周邊環境心理上的“隔絕”,從而提供一種全新的感受。這種體驗可以降低理解成本,通過技術手段還原感官“在場”,將抽象概念和靜態圖表以直觀、動態的數字內容完整模擬再現,使得用戶能夠通過“親身體驗”更好地理解科學原理和現象。本節重點介紹沉浸式內容采集,視頻投影和渲染技術。4.2.1 內容采集內容采集內容采集是構建豐富 XR 體驗的基礎,XR 內容采集主要包括全景視頻、3D 全息視頻、三維音頻、動作姿勢的捕捉、感官信息等的采集和處理。1)全景拍攝:全景(Panoramic)是一種使用相機環繞四周進行 360 度拍攝,將拍攝到的照片拼接

131、成一個全方位、全角度的圖像。這些圖像可以在計算機或互聯網上進行瀏覽或展示。三維全景(Three dimensional panorama)是使用全景圖像表現三維虛擬環境的虛擬現實技術,也稱虛擬現實全景。全景拍攝技術通過特殊的拍攝方法和設備,將一個場景的整體視覺信息捕捉到一張圖片或視頻中。全景拍攝技術的原理是將多張圖片或視頻拼接在一起,形成一幅具有更大視角和更多細節的全景圖像或視頻。全景拍攝可以通過全景拼接方法實現,即在拍攝過程中將多張圖片或視頻拼接在一起;或通過全景攝影方法,即使用特殊的全景相機或設備進行拍攝。專業的全景相機設備能夠捕捉水平 360 度和垂直 360 度的圖像,用于創建全景視頻

132、或照片。2)三維掃描:三維掃描技術用于捕捉現實世界中的物體或場景,并將其轉換為數字三維模型。這涉及到使用三維掃描儀和相關的掃描流程。三維掃描技術主要應用于逆向工程、實物掃描建立CAD 數據、不能使用三維 CAD 數據的部件數據建立、競爭對手產品與自己產品的確認與比較、使用由 RP 創建的真實模型建立和完善產品設計、檢測 CAT/CAE、生產線質量控制和產品元件的形狀檢測、文物的錄入和電子展示、牙齒及畸齒矯正、整容及上頜面43/75手術等。三維掃描技術包括拍照式、關節臂式、三坐標(固定式)和激光跟蹤式等類型,每種類型都有其特定的掃描范圍和精度。拍照式三維掃描儀是一種高速高精度的三維掃描測量設備,

133、采用結構光非接觸照相測量原理。通過投影特定編碼的結構光到待測物體上,并利用兩個攝像頭同步采集圖像,然后對圖像進行解碼和相位計算,解算出像素點的三維坐標。這種掃描儀的優點包括掃描范圍大、速度快,精細度高,掃描的點云雜點少,系統內置標志點自動拼接并自動刪除重復數據,操作簡單,價格較低。關節臂式三維掃描儀的掃描范圍可達 4 米,精度最高可達 0.016mm。它的優點是精度較高,測量范圍理論上可達到無限。關節臂式掃描儀符合人體工程學設計,輕便且易于操作,可以直接放在機床邊進行高精度測量,大幅降低使用成本。三坐標(固定式)三維掃描儀的掃描范圍為指定型號的工作臺面,掃描精度最高可達 0.9um。它的優點是

134、精度較高,適合測量大尺寸物體,如整車框架。缺點是掃描速度慢,需要花費較長時間。激光跟蹤式三維掃描儀的掃描范圍可達 70 米,掃描精度可達 0.003mm。它的優點是精度較高,測量范圍大,可對如建筑物這類的大型物體進行測量,價格較高。3)動作姿勢捕捉:動作姿勢捕捉技術用于捕捉、分析和模擬人或物體運動。它通過使用傳感器、計算機視覺算法和運動模型,可以準確地捕捉人或物體各部位的運動和姿態,并將其轉化為數字化的三維數據。動作姿勢捕捉技術捕捉人或物體的實時動作,并將這些動作數據應用到虛擬角色或對象上,以實現更加自然和真實的動畫效果。這包括動作捕捉外設和相關的動作捕捉流程。動作信息(力、扭矩、位置、方向)

135、的獲取與再現目前主要是利用力反饋設備。力反饋設備包括傳感器和由直流電動機控制的執行器。身體姿勢追蹤技術可以分為基于傳感器的姿勢追蹤技術和基于計算機視覺的姿勢追蹤技術?;趥鞲衅鞯淖藙葑粉櫦夹g利用慣性測量單元(IMU)、深度攝像頭、心率傳感器等傳感器來采集用戶的身體動作數據。通過數據處理和姿勢解算實現姿勢追蹤?;谟嬎銠C視覺的姿勢追蹤技術依賴于圖像處理技術和深度學習算法,通過對圖像或視頻數據進行特征提取、姿勢估計和運動跟蹤等處理步驟,來實現對用戶身體姿勢的追蹤。44/75圖4動作姿勢捕捉身體姿勢追蹤技術在電影制作、游戲開發、運動分析、人機交互等領域有廣泛的應用。4)三維聲場麥克風:三維聲場麥克風

136、用于捕捉空間音頻,為用戶提供更加沉浸式的聽覺體驗,增強 XR 內容的真實感。三維聲場麥克風技術,特別是 Ambisonics 技術,是一種用于錄制、混合和播放三維 360 度音頻的方法 Ambisonics 能提供沉浸式的聲音體驗,廣泛應用于 VR 和 360視頻。在音頻編解碼(4.3.2 節)中對三維聲場麥克風技術進行了描述。內容采集是沉浸式體驗的基礎,高效高精度內容采集使得 XR 內容的創作和呈現變得更加豐富和真實。4.2.2 視頻投影視頻投影視覺信息在感官信息中的占比約為 80%,作為感官信息中占比最大的部分,是沉浸感的主要來源。3DoF 視頻和 6DoF 視頻是電氣電子工程師學會(In

137、stitute of Electrical andElectronics Engineers,IEEE)制定的沉浸式視覺內容標準,分別為支持用戶 3 維度自由運動(Degrees of Freedom,DoF)和 6 維度自由運動。3DoF 視頻也稱為全景視頻(panoramic video)、360視頻或全向視頻(omnidirectional video),是以一個球心為觀察點,記錄 3 維空間在各個方向上投影所得到的 3 維球面視頻,見圖 3(a)所示,3DoF 視頻支持用戶獲得 3 個空間旋轉自由度,即偏航(yaw)、翻滾(roll)和俯仰(pitch)。相比僅支持用戶頭部轉動的 3D

138、oF 視頻,6DoF 視頻在旋轉自由度的基礎上增加了平移自由度,用戶不僅可以旋轉視角,還可以在空間中前后、左右、上下移動,實現更真實的沉浸體驗,因此,6DoF 沉浸式視頻也可稱45/75為自由視點視頻(Free-View Video,FVV),見圖 3(b)所示。(a)3DoF(b)6DoF圖5 3DoF和6DoF示意圖103DoF 投影模型投影是三維球面像素到二維平面像素的映射,從球面到平面的投影會帶來冗余像素、形狀失真和不連續邊界等問題,進而造成編碼效率的下降,因此,選擇合適的投影模型十分重要。文獻6對當前的主流 3DoF 投影模型進行了總結,將投影模型分為基于地圖的投影、基于圖塊分割的投

139、影、基于多面體的投影方式。1)基于地圖的投影(EquiRectangular Projection,ERP)基于地圖的投影是一種將球面均勻映射到平面上的投影方法。它將球面上的經線映射為等間距的垂直線,緯線映射為等間距的水平線,是一種基于地圖的線性投影變換,如圖 6 所示。圖6 ERP格式投影示意圖6基于地圖的投影將球面像素點的經緯度坐標系映射到二維平面的直角坐標系。其中球面上的像素點位置用球面經緯度坐標系(,)表示,二維視頻像素位置用平面直角坐標系(u,v)表示?;诘貓D的投影投影過程簡單,易于生成,幀內畫面的連續性好,且赤道區域的畫面沒有畸變或畸變程度很小,便于直接播放和編輯,是虛擬現實視頻

140、映射中最常用的方法之一。但由于平面內的均勻采樣會使球面采樣密度沿著經線向兩極逐漸增大,使畫面沿緯線在46/75平面被水平拉伸,并且隨著緯度增加這種問題越來越嚴重,在極點附近區域出現嚴重的幾何拉伸畸變。一種改善拉伸畸變的方式是進行非線性映射,如柱狀等面積投影(Equal-Areacylindrical Projection,EAP)通過加入拉伸因子使平面上緯線非等間距分布,這樣相同緯度差的區域在球面上覆蓋相等面積,改善了 ERP 在極點附近采樣密度過大的問題。調整后的柱狀等面積投影(Adjusted Equalarea Projection,AEP)則進一步改進了 EAP,加入采樣率修正參數使極

141、點區域的收縮程度變小,改善了極點采樣率為 0 的問題?;诘貓D的投影映射過程簡單,畫面連續性好。2)基于圖塊(tile)分割的投影基于圖塊分割的投影方法涉及將球體分割成不同的區域,不同的區域采用不同的投影參數或模型將投影平面依據緯度劃分為不同的圖塊,并調整每塊圖塊的球面采樣率,緯度越高的圖塊對應的采樣率越低,以改善 ERP 格式極點區域畫面畸變問題。這種方法可以提高壓縮感知算法的效率,尤其是在圖像采樣和重構方面。通過在空間域對每個分割塊使用平滑濾波器進行平滑投影,并在稀疏域進行稀疏變換和閾值處理,可以改善塊效應。此外,這種方法通過自適應采樣克服了子塊內稀疏性能受限于相同采樣率的問題?;趫D塊分

142、割的方式,相比 ERP 格式減少了 34%的像素浪費,有助于提高編碼效率?;趫D塊分割的投影方案不僅可以緩解過采樣帶來的像素浪費問題,而且有利于在視頻流傳輸場景中實施針對不同區域和內容的圖塊差別化編碼,從而在有限的傳輸帶寬條件下提升用戶的視覺質量。3)基于多面體的投影基于多面體的投影方法將球面上的特定部分映射到平面上。立方體映射投影(CubeMap Projection,CMP)將球面投影到球外接立方體上,再將立方體展開成 6 個表面并重新排列成緊湊形式得到投影平面。這種方法是全景成像的基本投影策略,可以用于提高圖像識別的準確性。多面體投影方法可以減少全景圖像中物體識別的困難,因為它們提供了更

143、接近自然視角的投影結果。相比基于地圖的投影,CMP 適用于局部視角的渲染,因此常應用于 VR 游戲中。CMP中每個面內的畫面畸變小,有利于進行面內運動估計和補償。CMP 模型的主要缺點是壓縮性能低,相比原始球面,CMP 的過采樣率高達 190%,相比 ERP 提升了 33%,這源于面內采樣率不均勻,面內采樣率從面中心到頂角逐漸增大。為了改善 CMP 模型的過采樣問題,考慮采用更多面的外接多面體來逼近理想采樣率。47/75例如 6 面體,8 面體,20 面體和截斷的金字塔等投影模式,如圖 7 所示。投影面的增加雖然降低了采樣率,但也導致人工接縫的增加,降低了畫面連續性,影響跨投影面的運動估計和運

144、動補償,導致編碼效率下降。圖7基于多面體的投影15針對多面投影問題的主要解決方案是引入非線性映射來調整采樣率。投影模型的改進目標一方面是降低過采樣率,減少比特開銷,提高編碼效率;另一方面是減輕畫面幾何畸變對傳統預測模型性能的影響。主要的增強方式包括對現有的投影方案的優化,以減少計算負擔,提高處理速度,同時保持或提高視頻質量。以及對新的投影方法的探索,以改善全景視頻的投影效果。4.2.3 渲染渲染渲染(Rendering)是計算機圖形學中的一個過程,它涉及將三維模型、場景或動畫轉換成二維圖像或視頻序列,以便在屏幕上顯示或進行后期處理。這個過程包括計算視角、光照、陰影、紋理和其他視覺特效,以生成逼

145、真的圖像。渲染可分為基于模型的渲染(Model-Based Rendering,MBR)、基于圖像的渲染(Image-Based Rendering,IBR)和基于神經網絡的渲染(Neural-Based Rendering,NBR)。1)基于模型的渲染基于模型的渲染是計算機圖形學中最經典的渲染方法。先對場景進行三維建模,并賦予三維模型正確物理材質屬性(包括幾何形狀、紋理、光照和材質等屬性的定義),再通過渲染器渲染生成目標視點,渲染的圖像質量主要取決于模型的物理正確性。其中,三維建模(3D Modeling)是一種利用計算機軟件進行三維模型創建的技術。它涉及將現實世界中的物體或場景通過計算機軟

146、件建立成三維模型的過程。三維建模將三維場48/75景表述為某種數據結構的集合,常見的數據結構包括網格(mesh)、體素(voxel)和點云等。網格,是由頂點(vertices)、邊(edges)和面(faces)組成的幾何結構,通常用于表示多邊形表面,能夠精確地表示復雜的幾何形狀和曲面,網格模型可以包含紋理、法線和顏色等附加信息,以增強視覺效果,最常用的是三角形網格。體素,是體積像素(volume pixel)的簡稱,體素模型由體素數組組成,每個體素代表一個小的立方體,是三維的網格單元,用于構建體積數據。體素模型能夠表示實體物體的內部結構和體積信息,與平面像素類似,體素表示規則間隔的三維網格上

147、的樣本點。點云是由一組在三維空間中的點組成的集合,每個點包含位置信息,可能還包括顏色和法線信息。點云能夠捕捉物體的表面特征,適用于從現實世界中掃描和重建三維模型。點云數據靈活,易于獲取和處理,但不如網格和體素那樣結構化。點云是一種非結構化的離散數據,本身不包含幾何和拓撲信息,在三維建模時通常被轉換為網格或體素等結構化組織形式。場景建模后,渲染器將攝像機內外參數、場景的光照情況和模型材料表面的物理屬性等場景參數轉換為目標虛擬攝像機視點,常用的渲染方法有光柵化(rasterization)和光線追蹤法(ray tracing)。光柵化渲染是目前大多數游戲和可視化工具使用的渲染方法。它的核心在于將三

148、維物體或場景轉換成二維圖像的過程,通過投影將三維物體顯示在屏幕上的一個個發光點上。光柵化的關鍵在于投影,它涉及將三維幾何數據轉換為二維像素數據。這種方法以對象為中心,首先迭代場景中的所有三角形,然后確定哪些像素被這些三角形覆蓋。光線追蹤是一種基于物理的渲染技術,它通過追蹤從眼睛發出的光線路徑來創建圖像,從而生成逼真的陰影、反射和折射效果。光線追蹤方法以圖像為中心,首先迭代圖像中的所有像素,然后追蹤穿過每個像素的光線,并確定這些光線是否與場景中的任何幾何體相交。光柵化渲染速度更快,適合實時渲染,因為它將場景劃分為 2D 圖像,然后由 GPU進行處理。光柵化渲染只能處理直接光照,不能很好地去表示軟

149、陰影(Soft Shadow)、光澤反射(Glossy Reflection)和間接照明(Indirect Illumination)等全局光照效果。而光線追蹤能較好地處理全局光照,提高渲染質量,但目前還不能完全替代光柵化技術。因為光線追蹤技術的計算非常慢,自誕生以來更多被用來做離線渲染,比如三維動畫、電影特效等等。直到近幾年隨著 NVIDIA 的 RTX 系列顯卡的不斷迭代,硬件光線追蹤技術和游戲引擎功能的進步,現在的 3A 級游戲才慢慢支持了實時光線追蹤技術(Real-TimeRay-Tracing)。49/75基于模型的渲染方法復雜度較高,但是能夠獲得更好的細節信息,尤其是在復雜場景中,

150、MBR 可以提供更豐富的細節表現,實現任意精度的高質量渲染,常用于計算機生成內容(Computer-Generated content,CG)、電影特效等領域。2)基于圖像的渲染基于圖像的渲染是一種不依賴于傳統幾何模型的渲染技術。它通過使用多個視角拍攝的 2D 圖像數據來重建或合成三維場景或物體的渲染效果。IBR 的優勢在于減少對復雜幾何建模的依賴,提供高效的實時渲染,并生成逼真的視覺效果。IBR 技術的核心在于使用真實拍攝的圖像來進行渲染,使得生成的效果比完全依賴于 3D 模型渲染的圖像更加逼真?;趫D像的渲染技術根據對幾何信息的需求程度可以分成 3 類:無幾何渲染,隱式幾何渲染和顯式幾何渲

151、染。無幾何渲染是指不依賴于明確的幾何形狀信息進行的渲染。這種技術通常依賴于圖像或數據驅動的方法,如基于深度學習的渲染技術,它們可以從大量的圖像數據中學習場景的表示,而無需顯式的幾何模型。無幾何渲染的核心工作是如何從離散樣本中構造光場函數,以及對光場函數進行采樣以得到目標視點。隱式幾何渲染是一種通過數學函數或方程來描述幾何形狀的渲染方法。在隱式幾何中,空間中的每一點都有一個值,表示該點到最近表面的距離,這個距離可以是正的(如果點在形狀的外部),也可以是負的(如果點在形狀的內部)。隱式幾何渲染的優勢在于高效的幾何操作、復雜形狀的表示以及支持動態變化。隱式幾何特別適合描述復雜或有機形狀,如流體、云霧

152、和生物組織,并且可以支持實時更新和變形。顯式幾何渲染是傳統的三維建模和渲染方法,它依賴于明確的幾何形狀信息,如點、線、面和體素等。顯式幾何通過直接定義物體的幾何結構來進行渲染,這包括多邊形網格、NURBS 曲面、細分曲面等。顯式幾何的優點在于直觀和精確,但可能需要復雜的建模過程和較高的計算成本。顯式幾何渲染方法需要精確的場景幾何信息,如三維坐標、深度信息等?;趫D像的渲染無需場景的預設信息,渲染復雜度較低,但是渲染質量往往受限,常用于沉浸式視頻等領域。3)基于神經網絡的渲染基于神經網絡的渲染是一種新興技術,它結合了深度學習與傳統計算機圖形學渲染50/75方法,以生成高質量的圖像或視頻。神經渲染

153、利用神經網絡學習復雜的幾何形狀、材質屬性和光照信息,從而生成高質量的圖像或視頻。與傳統基于物理的渲染方法相比,神經渲染能夠更好地處理復雜的光照效果、材質和幾何形狀,同時具有更高的渲染效率。早期基于神經網絡渲染方法主要用基于學習生成的神經網絡代替人工設計的啟發式算法。例如深度渲染通過神經網絡來預測投影源圖像的混合權重,代替傳統 IBR 方法中人工設計的權重混合算法,相比經典 IBR 方法減少了偽影,提高了渲染質量。近期,基于神經網絡的渲染主要集中在神經輻射場(NeRF),隱式神經表示和神經紋理這三種方法的研究。神經輻射場是一種完全基于神經元進行場景建模和渲染的方式。神經輻射場使用多層感知器(ML

154、P)來學習三維空間中場景密度和輻射強度分布,基于光線投射和體積積分的渲染方式實現了任意角度的高精度渲染。通過優化 MLP 的參數,神經輻射場可以學習到復雜場景的幾何和外觀信息,實現高質量的新視角合成,以相對簡單的方法提供高質量渲染效果,是神經渲染領域最具影響力的方法之一。隱式神經表示方法使用神經網絡來表示連續的 3D 形狀或場景,而不是傳統的離散表示(如網格或體素)。隱式神經表示具有無限分辨率、內存效率高等優點,特別適合表示復雜的幾何形狀和紋理。神經紋理是一種將深度學習與傳統紋理映射相結合的方法。它使用神經網絡來學習和存儲物體表面的外觀信息,實現高質量的紋理渲染和編輯?;谏窠浘W絡的渲染技術正

155、在改變計算機圖形學和計算機視覺的多個領域,包括新視圖合成、新光照條件下的重光照、臉部或身體動畫、新姿態合成等。隨著技術的進一部發展,有望在渲染復雜度和畫面質量等方面達到綜合增益,能夠在增強現實、虛擬游戲、電影動畫等各類圖形渲染實踐中得到廣泛應用。4.3 編解碼技術編解碼技術超高清音視頻技術為用戶提供了平面方向的視聽體驗,但為了提升用戶的沉浸感,需要將視聽內容擴展至立體空間,并在互動過程中盡可能提供多維度的感知體驗,如觸覺、嗅覺等。沉浸式多媒體編解碼技術是實現這一目標的核心技術之一,尤其在沉浸式多媒體傳輸過程中,通過高效的編碼方案可以顯著降低數據對存儲空間和帶寬的需求,將沉浸式內容轉化為適合網絡

156、傳輸的格式。本章節將重點討論在三維立體空間中的沉浸式音視頻編解碼技術,并探討與觸覺相關的編碼技術。51/754.3.1 視頻編解碼視頻編解碼在沉浸式視頻系統中,三維視頻內容的編碼是將復雜的三維場景信息轉化為適合傳輸和存儲的數字格式的關鍵過程。為了應對三維視頻內容捕獲、終端呈現和業務需求的特性,編解碼技術也需要相應的技術改進。與傳統二維視頻編碼不同,三維視頻不僅涉及空間維度的擴展,還需要考慮如何處理視角、深度信息和三維顯示設備的兼容性。不同的三維視頻需要相應的編解碼方案來實現最大化壓縮效率并優化數據傳輸,如圖 8 所示,針對傳統的平面視頻,有 MPEG 標準組織制定的系列標準,ITU-T 與 M

157、PEG 標準組織聯合制定的 H.26x 系列標準,谷歌制定的 VPx 系列標準,以及國內標準組織制定的 AVS 系列標準,這些標準組織也針對多視點視頻、全景立體視頻、體積視頻等制定了相應的編解碼標準。隨著沉浸式視頻應用的多樣化,編解碼技術的持續創新將為提供更加流暢、真實的沉浸體驗打下堅實的基礎。圖8主流視頻編解碼標準組織與標準方案1)傳統平面視頻編碼技術二維平面視頻編解碼技術經過多年的發展,已經相對成熟。從 1980 年代國際標準組織ITU 發布 H.261 標準開始,編解碼技術經歷了多次更新和迭代,現已能夠滿足 8K 視頻編解碼的需求。傳統的視頻編解碼技術大多采用混合編碼框架,如圖 9 所示

158、,主要包括預測、變換量化、濾波和熵編碼等幾個核心模塊。通過這些技術,能夠有效消除視頻序列在時間和空間上的冗余,從而實現視頻數據的高效壓縮。編碼過程將視頻數據轉化為二進制碼流,便于在網絡中進行傳輸和存儲。在編碼過程中,首先通過預測階段,利用視頻幀間的相似性來減少冗余信息,這一階段通常包括幀間預測和幀內預測。接著,變換量化技術將視頻數據轉化為頻域表示,并通過量化過程進一步降低數據精度,以減少數據量。然后,濾波階段對視頻信號進行去噪處理,改善視覺效果,尤其是在高壓縮比下保持圖像質量。最后,熵編碼對經過上述處理后的數據進行編碼,通過哈夫曼編碼、算術編碼等技術實現數據的高效存儲和傳輸。52/75隨著視頻

159、分辨率的不斷提升,尤其是進入 4K 和 8K 時代,傳統的視頻編解碼技術仍然能夠有效支持高質量的視頻傳輸,但隨著對實時性和帶寬需求的增加,新的編解碼技術(如HEVC、AV1 等)逐漸取而代之,提供更高的壓縮效率和更低的延遲,以適應大流量視頻內容的需求。圖9通用混合編碼框架2)多視點視頻編碼技術多視點視頻由多個相機視角組成,通常包括多個相近或分布式的視角,為用戶提供更廣泛的深度感和視野,從而提升用戶沉浸式體驗。其中,每個視角都是獨立的圖像,并且這些圖像可以被用于 3D 重建或不同視角的實時顯示。多視點視頻對存儲空間和帶寬的需求隨視點的增加而增加,相較于傳統二維視頻,多視點視頻除了空間序列和時間序

160、列上的冗余,緩存在視點圖像之間的空間冗余,因此編碼技術上也存在差異。為了高效編解碼多視點視頻,2012 年 7 月 ISO/IEC MPEG 與 ITU-T 視頻編碼專家組VCEG 成立了 3 維視頻編碼擴展開發聯合協作小組(Joint Collaborative Team on 3D Videocoding extension development,JCT-3V),基于 H.264/AVC 與 H.265/HEVC 開發 3D 視頻編碼標準,擴展并制定了 MVC(Multi-view Video Coding)、3D-AVC、MV-HEVC(Multiview HEVC)和 3D-HEVC

161、 標準16。3D-HEVC 將同一視點(view)下的紋理圖或深度圖劃分為不同的層(layer),并將相同時間點的圖像劃分為一個訪問單元(Access Unit,AU)。每個 AU 中的第一個圖像層作為基礎層,后續的圖像層作為增強層?;A層在編碼時使用標準的 HEVC 編碼器進行獨立編碼,而增強層(非基礎層)需要參考已編碼的基礎層信息進行編碼。因此,編碼順序遵循從第 0層到第 n 層的順序,并且每個 AU 內的編碼順序是統一的。3D-HEVC 主要依賴于圖像內預53/75測、層間預測和 AU 間預測來消除視頻數據的冗余。與普通二維視頻的幀內預測和幀間預測相比,3D-HEVC 的預測方式更加多樣

162、和復雜,因此它引入了許多新的編碼技術來提升編碼效率。例如,為了減少相鄰視點之間紋理信息的冗余,3D-HEVC 引入了相鄰塊視差矢量(Neighboring Block Disparity Vector,NBDV)。此外,它還將運動估計從傳統的幀間擴展到視點間的視點間運動估計;通過基于深度圖塊分割技術(Depth-Based Block Partitioning,DBBP)來優化深度圖的編碼性能;并針對深度圖的特性提出了深度建模模式(DepthModeling Modes,DMM)等創新技術,進一步提升了編碼效率。MPEG 標準組織提出新的編碼標準 MIV(mpeg immersive vide

163、o)主要以多視點加深度圖(mvd)作為信號源,通過基于視點渲染的方式壓縮多視點間的冗余,得到多視點數據的緊湊表示形式圖集(atlas),圖集再通過傳統視頻編解碼壓縮時空冗余得到二進制碼流。3)全景立體視頻編解碼全景視頻的呈現方式是 360 度的球面視頻,全景視頻的捕獲與編碼流程如圖 10 所示,由于現有的編碼和存儲技術不支持對球面視頻直接處理,因此,全景視頻內容需要通過投影技術映射到二維平面,然后利用二維平面視頻編碼器進行編碼。全景立體視頻編碼技術中關鍵技術是投影模型。圖10全景立體視頻傳輸等距柱狀投影(ERP)是一種將球面全景圖像映射到二維平面的投影方法,它通過經緯度坐標系統來實現。在 ER

164、P 中,球面上的每一點根據其經度()和緯度()被映射到二維平面上的點。具體來說,經度表示從正北方向開始順時針測量的角度,范圍通常是 0至360;緯度表示從赤道開始的垂直角度,范圍是-90至 90。ERP 保持了水平方向的比例,即在東西方向上,圖像的寬度與視場角成正比,但在垂直方向上,由于球面的幾何特性,圖像的高度會被拉伸,導致靠近兩極的圖像區域出現畸變。這種投影方式在制作和展示全景圖像時非常流行,因為它簡單直觀,易于實現,但缺點是圖像的頂部和底部區域會因為拉伸而失真,且隨著視角的移動,用戶可能會看到不均勻的像素密度,影響視覺體驗。54/75MPEG 標準組織制定了沉浸式媒體的相關技術標準,包括

165、全向媒體格式(OmnidirectionalMedia Format,OMAF)標準;ITU-T 與 ISO/IEC 聯合成立的聯合視頻專家組(Joint VideoExperts Team,JVET)開發了 360Lib 軟件平臺,支持 ERP、EAP、CMP、ISP 等 14 種投影格式,并支持不同格式之間的相互轉換功能?;谌耙曨l通常包含大范圍的視角和大量的空間信息特性,在傳統編解碼技術的擴展基礎上,也有進一步優化的研究,如視點自適應編碼(Viewport-adaptive Coding)根據用戶的觀看視角來動態調整視頻的編碼方式,對于用戶視線外的區域,采用較低的碼率和分辨率編碼;基于

166、區域的編碼(Region-based Coding,ROI)技術根據不同區域的內容重要性來分配不同的比特率,以減少編碼復雜度。4)體積視頻編解碼相較于全景立體視頻,體積視頻支持用戶 360 度觀看立體內容,并支持用戶進行水平方向前后、左右、上下的平移,以及垂直方向的旋轉。體積視頻通常由一系列含有深度信息的幀組成,常用的表現形式為點云、光場、網格等。點云點云是當前體積視頻使用廣泛的數據格式之一,是一系列高維無序點的集合,集合中的點包含坐標、顏色、深度等信息,點云數據通常包含幾十萬至數千萬空間域的點,在不經壓縮的情況下,1080P 分辨率 30 幀/秒的點云視頻 1 秒需要的帶寬為 11Gbps,

167、給存儲空間容量和網絡傳輸帶來了挑戰,因此需要開發針對點云數據的編解碼技術。MPEG 發布了針對沉浸式視頻的系列標準,其中包括基于幾何的點云壓縮 G-PCC(Geometry-based PointCloud Compression)標準和基于視頻的點云壓縮 V-PCC(Video-basedPoint Cloud Compression)標準。G-PCC 利用對點云幾何特征(如坐標和法向量)的編碼,采用幾何預測和空間劃分等方法進行多級壓縮,主要用于數字化城市建模、三維物體掃描及其他需要高精度幾何數據的應用場景。這些技術的引入,不僅提高了編碼效率,而且在點云數據的傳輸和重建中降低了延遲。V-PC

168、C 的主要思想是將三維點云投影到二維圖像或視頻,然后利用現有的視頻編解碼技術進行壓縮,編碼流程可以描述為:將原始 3D 點云數據通過補丁生成和打包模塊轉換為2D 視頻幀中的補丁序列,接著生成幾何圖像和屬性圖像,這些圖像隨后通過 2D 視頻編碼器進行編碼,得到占用比特流、幾何比特流和屬性比特流,最后通過多路復用器將這些比特流以及輔助信息和參數集打包成最終的 V-PCC 比特流,供傳輸或存儲使用。V-PCC 廣泛應用于需要傳輸大規模三維數據的虛擬現實應用中,例如,實時的虛擬環境渲染和交互場景的55/75傳輸。G-PCC 和 V-PCC 都是基于傳統思想框架,主要通過預測編碼,變換量化和熵編碼模塊來

169、完成壓縮和數字表達的轉換,這種編碼方式并沒有充分考慮到點云數據的結構,可能存在重復的局部結構、形狀特征明顯的物體類別等冗余,依舊有一定的壓縮空間。隨著深度學習技術在視頻壓縮方面的應用進展,基于深度學習的編碼技術可以成為點云編解碼的潛力工具。如 JPEG 標準組織發布的基于卷積神經網絡(convolutional neural networks,CNN)已廣泛用于特征提取、目標檢測、圖像編碼等,文獻17 提出 CNN 與自動編碼器結合的壓縮方法,能有效利用相鄰點之間的冗余,并表示出對數據編碼的適應性。為了提高隱含向量編碼的壓縮比,文獻17 提出基于變分編碼器(variational auto-e

170、ncoder,VAE)的點云壓縮方法,通過學習隱含向量的超先驗,使得熵模型的編碼概率與隱含向量的邊緣概率更加吻合,從而減少算術編碼的內存消耗。文獻18 提出了基于深度學習網絡的點云屬性方法,首先,將點云屬性映射到一個折疊的二維流形空間;然后,利用傳統的熵編碼算法進行壓縮;最后,利用神經網絡解碼器恢復三維點云。JPEG 組織自 2015 年開啟 Pleno 項目19,旨在為 plenoptic(全光場)成像方式設計一個標準框架,用于表示和交換全光場成像方式的數據。全光場成像方式包括光場、點云(PC)和網格等,它們嘗試近似于 plenoptic 函數,以提供 3D 視覺表示。JPEG Pleno

171、PCC 標準處理點云的幾何和顏色屬性,通過兩個依賴的管道順序編碼:首先獨立編碼幾何數據,然后根據已解碼的幾何數據編碼顏色數據,其中幾何數據處理直接在其原始的 3D 形式中進行,使用 3D 卷積神經網絡和稀疏卷積。這種設計允許組件可擴展性,即只解碼幾何數據或同時解碼幾何和顏色數據。4.3.2 音頻編解碼音頻編解碼為了獲得更好的沉浸感,不僅是視覺上允許用戶全角度觀看三維立體目標,在聽覺上,也滿足用戶至少接收前、后、左、右、上五個方向的音頻,感受到聲場的水平縱深和垂直高度。沉浸式聲音主要通過三維聲技術實現,分為三大類:基于聲道的音頻(Channel-BasedAudio,CBA)、基于對象的音頻(O

172、bject-Based Audio,OBA)和基于場景的音頻(Scene-BasedAudio,SBA)。(1)基于聲道的音頻技術 CBA基于聲道的音頻技術(CBA)通過增加聲道數量的方式來補充空間中的聲音信息,提升沉浸效果,常見的是 5.1 和 7.1,如圖 11 所示,5.1 音頻由固定的聲道位置,左前(Front-L,56/75FL)、右前(Front-R,FR)、左后(Surround-L,SL)、右后(Surround-R,SR),以及一個中置聲道(C)構成,7.1 則是在 5.1 的基礎上再增加兩個背后的聲道位置,即圖中的 SBL和 SBR。CBA 是通過增加聲道數量來增強聲音的空

173、間感,需要在特定的位置才能聽到最佳的聲音效果,在靈活性和適應性方面存在局限性,但是在特定應用場景下仍然是一種有效的沉浸式音頻解決方案。圖11聲道(7.1)音箱布置示意圖(2)基于對象的音頻技術 OBA基于對象的音頻技術是一種先進的聲音處理和呈現方式,通過將獨立的音頻元素(即音頻對象)與其位置、運動軌跡、音量變化等動態元數據相結合,創建高度個性化和沉浸式的聽覺體驗。在技術實現上,基于對象的音頻通常依賴于音頻對象元數據(如位置坐標、動態變化和渲染優先級)的實時解碼和渲染。此過程結合了空間音頻處理技術,如頭相關傳遞函數(HRTF)和房間聲學建模,以模擬聲音的自然傳播。由于每個音頻對象都是獨立的,用戶

174、可以根據實際硬件配置(例如耳機、多揚聲器陣列)或個人偏好動態調整聲音的屬性,從而實現硬件無關性和個性化體驗。其典型應用是杜比全景聲(Dolby Atmos)。盡管具有顯著優勢,基于對象的音頻技術也面臨一些挑戰。例如,多音頻對象的實時處理和渲染需要強大的計算能力,同時還需優化元數據的傳輸效率,以降低延遲并節約帶寬。此外,如何實現與頭部追蹤和動態場景的精準同步,也是該技術進一步發展的重要方向??傮w而言,基于對象的音頻技術為沉浸式音頻體驗設定了新標準,正在推動通信、娛樂和交互技術的創新發展。57/75(3)基于場景的音頻技術 SBA基于場景的音頻技術是一種通過完整捕獲或合成聲場信息來重現真實空間音效

175、的聲音處理方法,其核心的底層技術是 Ambisonics。Ambisonics 是一種基于數學模型的聲場表示方法,通過捕獲或生成不同階數的球諧分量,實現聲音方向、距離及環境反射的精確描述,如通過麥克風陣列來完成內容捕獲。與傳統通道音頻技術不同,Ambisonics 具有設備無關性,能夠靈活適配于多種回放配置,從耳機到多揚聲器陣列,圖 12 為麥克風陣列產品,可以捕獲空間音頻。此外,該技術還可以結合其他先進算法,如基于波場合成(Wave Field Synthesis)的擴展技術或多通道信號處理方案,以優化高階聲場的渲染精度,提升復雜場景中的音頻表現?;趫鼍暗囊纛l技術已廣泛應用于虛擬現實、全景

176、視頻、沉浸式游戲和廣播制作領域,尤其在沉浸式環境中展現出高效的空間定位能力,但同時也對計算性能、數據傳輸和實時交互提出了嚴苛的技術挑戰。圖12麥克風陣列產品音頻數據同樣需要編碼來降低數據量,以及規范的格式便于網絡傳輸,當前沉浸式音頻主流的編解碼方案包括 MPEG-H 3D 音頻、杜比 AC-4 和 IVAS 等。國內有 AVS3-P3 標準信息技術 智能媒體編碼 第 3 部分:沉浸式音頻,由中關村視聽產業技術創新聯盟頒布為團體標準,該標準涉及沉浸式音頻技術,包括 VR 音頻表達方式、VR 音頻編解碼器和 VR 音頻渲染器。MPEG-H 3D21 音頻是 ISO/IEC 23008 標準文件中的

177、一部分,規定了一種可以支持多揚聲器的 3D 音頻壓縮標準,包括支持將音頻編碼為聲道、音頻對象或高階高保真度立體聲響復制,并為響度歸一化和動態范圍控制提供解決方案。每種內容類型可單獨使用或彼此間組合使用。該標準支持交互式和沉浸式聲音,尤其是電視廣播系統和娛樂流媒體服務以及與58/75虛擬現實有關的內容和服務。杜比 AC-4 是由杜比實驗室開發的一種音頻編碼技術,支持 CBA 和 OBA 技術生成的音頻編解碼,可支持的最大聲道數為 24,支持的碼率范圍為 24-153kbps。在電影、電視和音樂制作中應用廣泛,可以在電影院可以震撼的沉浸式體驗,也可以在家庭影院系統中提供出色的聲音效果。IVAS(I

178、mmersive Voice andAudio Services)編解碼器22是一個支持低時延語音和音頻編解碼及渲染的系統,能在 5G 網絡下實現立體聲或實時沉浸式語音及音頻通信。IVAS包括編碼器、解碼器、渲染器,以及支持立體聲和沉浸式音頻格式相關的幾個輔助功能。IVAS支持 SBA、OBA、CBA 和 MASA(Metadata Assisted Spatial Audio,MASA)等沉浸式音頻格式的編碼和解碼,IVAS 編解碼器幀長是 20ms,渲染粒度可以選擇 5/10/20ms,支持的碼率為 13.2、16.4、24.4、32、48、64、80、128、160、192、256、38

179、4 和 512kbps。IAMF(Immersive Audio Model and Formats)是由 AOMedia 發布的旗下首個沉浸式音頻規范,IAMF 是開源并免版稅的,且不依賴于特定的編解碼器,可以與免費的編解碼器一起使用,具有垂直聲道、基于人工智能的場景分析以及根據聆聽偏好靈活定制內容音頻等功能,格式可用于流媒體、游戲、虛擬現實和音樂電臺。4.3.3 觸覺編解碼觸覺編解碼沉浸式通信包括遠程多感官交互場景,通過對觸覺信息進行捕獲、壓縮、傳輸和再現,可以使用戶獲得更加沉浸的體驗。觸覺信息包括震動、靜態壓力、摩擦、表面紋理、皮膚拉伸、熱覺、痛覺等皮膚觸覺信息,以及包括力、扭矩、位置、

180、速度、角速度等位于關節和韌帶內的動覺感知信息,這兩類觸覺信息對記錄的刺激數據不同,適用的設備存在差異,編解碼方式也不相同。在動覺模態中,編解碼方法通常依賴于力反饋和振動信號的實時壓縮,采用運動矢量預測、稀疏表示等技術來減少數據冗余并保證高精度重建。而在觸覺模態中,重點在于對溫度和壓力等靜態信號的精準編碼,常利用感知優化算法(如基于韋伯定律的感知加權編碼)和深度學習方法進行特征提取與壓縮。波形編碼作為一種精確傳輸觸覺信號的方法,能夠通過直接編碼觸覺信號的波形變化,確保高保真度的信號重建。通過應用脈沖編碼調制(PCM)和變形波形編碼等技術,觸覺信號的頻率、幅度和形態變化得以精準傳輸。此外,基于韋伯

181、定律的優化策略在觸覺編解碼中提供了感知敏感度的加權壓縮,使得在傳輸中對不同強度的信號采用不同的編碼精度,從而提升傳輸效率并減少不必要的數據消耗。59/75觸覺編解碼技術還需要解決低時延、高可靠性的傳輸需求,尤其是在網絡環境不穩定時,依賴時間同步技術和誤差容忍機制來保證信號的準確性和實時性。4.4 業務保障和網絡傳輸技術業務保障和網絡傳輸技術沉浸式業務要求網絡提供高沉浸感、強交互性和多維多模態的體驗。這需要網絡能夠針對沉浸式業務具體用例的特點,提供高數據傳輸速率,低時延高可靠的數據傳輸性能,對多模態沉浸式業務支持多模態協同傳輸,以及支持靈活可變的 QoS 自適應傳輸,以實現人與人、人與物之間的三

182、維動態感知與交互。4.4.1 多模態協同傳輸多模態協同傳輸在沉浸式通信很多場景中,除了傳統的視頻和音頻傳輸外,還需要對更多模態信息(如味覺、嗅覺、觸覺等信息)進行傳輸。多模態業務是指包含不同模態數據流的業務,其中不同模態數據流的流向和 QoS 特征不同。當多模態信息不同步時,用戶會感到信息混亂,無法形成連貫的感知體驗,導致用戶的沉浸感會顯著下降。多個模態的數據流可聚合成一個業務,通過多模態數據流間的互補特性提供的冗余信息提升更有效的信息傳遞。通過來自多個源的多模態數據流輸入和去往多目的的多模態數據流輸出,對業務的理解更準確、更快速,使得通信業務更平滑和自然。多模態業務廣泛應用于AR/VR、遠程

183、機器人控制、自動駕駛、危險區域的遠程觸覺反饋、現場賽事的遠程沉浸式顯示等場景。典型的多模態業務包含的數據流可包含:視頻/音頻媒體;傳感器收集的環境信息(亮度、溫度、濕度等);觸覺數據,包含表面觸覺數據(壓力、震動、溫度),動覺感知(重力、拉力、位置感知)9。為滿足不同應用場景的多模態業務的通信協同傳輸需求,多模態業務的協同傳輸需考慮QoS 協同、傳輸同步和系統容量提升等。1)多模態 OoS 協同傳輸:在多模態業務的實際部署場景中,多模態業務的不同數據流可能來同一 UE 或不同 UE,或來自鏈接于同一 UE 的同一/不同設備。由 AF(Application Function)提供 Multi-

184、modal Service ID、業務需求、QoS 監控需求信息到 PCF(Policy Control Function)。PCF 為每一 QoS flow 配置合適的 QoS 規則和 QoS 監控策略。60/75對于多模態業務分布在同一個 UE 的場景(單 UE 多流),PCF 將屬于同一 Multi-modalService 的多個 QoS flow 映射到同一 PDU session 中。對于多模態業務分布在多個 UE 的場景(多 UE 多流),PCF 為每一 UE 的 QoS flow 獨立配置 QoS 規則,同時考慮其歸屬的多模態業務的相關信息。核心網可將 Multi-modal

185、Service ID 和 QoS flow id 信息通知到 RAN。RAN 在多模態業務的初始接入控制時,可考慮進行多模態業務級別的接入控制,例如,對同一多模態業務的多個 QoS flow 的接入控制采用統一策略,即進行統一的準入或拒絕。核心網也可指示 RAN側是否對該多模態業務實行統一的接入控制。相應的,在切換過程中,目標基站收到源基站的切換請求后,對其中的多模態業務的多個 QoS flow 采用統一的切換準入策略,目標基站將最終的所述多模態業務的接納結果通知到源基站。如果核心網指示 RAN 側不需要對多模態業務實行統一的接入控制,例如,需要指示那些 QoS flow 是關鍵性的,即如果接

186、納該多模態業務,那么關鍵性的 QoS flow 必須接納成功,否則該業務接納失敗。例如,對一個多模態業務,其中包含音頻 QoS flow 和視頻 QoS flow,核心網指示音頻 QoS flow 為關鍵性的,那么在 RAN 的接納控制中,如果接納所述多模態業務,則必須接納其中的音頻 QoS flow。相應的,在切換過程中,目標基站收到源基站的切換請求后,切換準入策略中會考慮多模態業務中的不同 QoS flow 的關鍵性。目標基站將最終的多模態業務的不同 QoS flow 的接納結果通知到源基站。此外,在 RAN 的 QoS flow 和 DRB 的映射關系的配置中,RAN 考慮多模態業務的特

187、性,例如,考慮同步傳輸需求,基站可將同一多模態業務的多個 QoS flow 映射到同一 DRB,從而更容易的實現同步傳輸。2)多模態業務的同步傳輸多模態通信業務可以針對一個 UE 或多個 UE,表現為單終端多流和多終端多流。單終端多流相對較簡單,當前 3GPP REL-19 XR 項目正在進行基于 MMSID 的單終端多流標準化工作。多終端多流較為復雜,為了保證多個終端的聚合和同步,需要對多終端多模態傳輸進行聯合設計?,F有的多模態數據間同步問題的解決方案主要有以下幾種:-時間戳標記:應用層實現,在數據采集階段為每個數據點添加精確的時間戳,以便在后續處理中進行同步。例如應用層采用 RTP tim

188、estamps,jitter buffering 等同步技術,在客戶端可實現幀級的同步傳輸。-緩沖區技術:使用緩沖區暫存數據,并在數據到達時進行實時同步處理。61/75-多路復用同步技術:將多個媒體流的數據多路復用到一條連接或一個報文中,從而于傳輸中保持媒體間的相互關系以達到媒體間的同步功能。-同步信道同步技術:將不同的媒體在分離的信道中傳輸,同步信息并不包含在媒體流中而是通過附加同步信道單獨傳輸。-基于多模態業務 ID 的同步技術:終端/基站基于數據包的 MMSID 和同步閾值組織多模態數據包傳輸。核心網將多模態業務的 Multi-modal Service ID 和synchronizat

189、ion threshold 信息發送到 RAN 側。對于下行業務,基站在調度時綜合考慮不同數據包的同步需求,接收側的終端的 PDCP 層實體向上投遞數據時,也考慮同步傳輸需求。對于上行業務,UE 在數據包緩存狀態的上報時,指示存在同步需求的數據包。UE 在 LCP 時也考慮到同步傳輸的需求,例如根據時延期限最小的包和同步傳輸的需求,重新確定出其余同步包的剩余傳輸時間,從而加快其余同步包的發送速度。以實現在空口的同步傳輸,即滿足 synchronization threshold。3)系統容量提升在多模態業務的不同模態的 QoS flow 中存在關聯特性,例如一個 QoS flow1 中的 PD

190、Uset1 和另一 QoS flow2 中的 PDU set2 關聯,則若 PDU set1 滿足丟棄條件時,則可以將相關的 PDU set2 也丟棄,以提升系統的空口容量。具體的,在發送端的 PDCP 實體中,為 PDCPPDU 設置 discard timer 時,可為關聯的 PDU set 設置同一 discard timer,例如取兩個 PDU set的 timer 的最小值。那么當所述 discard timer 超時后,將 PDU set1 和 PDU set2 都丟棄。從而提升系統容量。4.4.2 QoS 自適應自適應6G 將服務于一個更加多樣和復雜的網絡環境,包括沉浸式 XR,

191、全息影像等業務的廣泛應用。如此豐富的應用場景和業務類型對 6G 網絡的 QoS 管理也提出了更高的要求,網絡需要支持更加靈活、精細和個性的 QoS 管理,以便滿足多樣化的 QoS 需求,適應業務特征的動態變化。3GPP 在 Rel-18 就引入了比 QoS flow 更細粒度的 PDU set,并引入了 PDU SetQoS 參數,包括 PSER、PSDB 和 PSIHI 等,后續也會基于 XR 業務的特征進行持續增強。面向 6G,潛在的 QoS 管理增強包括業務 QoS 監控,精細傳輸保障,QoS 屬性增強等方向:業務 QoS 監控:可以將 AQP(Alternative QoS profi

192、le)機制引入到 XR 業務并適當增強。對于下行沉浸式業務,基于 AQP 的通知和反饋機制可以配置基站側根據 QoS 監控情況,在因為接入網負荷、基站和終端的信道環境等因素導致 QoS 需求不能得到滿足時,及時上報62/75進行調整。對于上行,可以配置終端進行 QoS 需求變化上報,使得基站及時掌握上行業務QoS 變化,以便完成業務配置和調度傳輸調整,快速滿足終端的上行業務傳輸 QoS 需求。精細傳輸保障:針對 XR 業務流多路復用且 QoS 需求不同的業務特性,網絡可以通過更加靈活的 QoS 流映射機制,實現更細粒度的傳輸保障。例如,識別 QoS 需求不同的 XR業務流并映射為多個 QoS

193、流或 QoS 子流;對于存在多路復用的 QoS 流,可以將一個 QoS流按需映射到多個 DRB 進行傳輸,或者支持一個 DRB 配置多套 QoS 參數,進一步,可以考慮映射到不同 RLC 實體。對于包含多用戶多流的復雜業務場景,可以進一步考慮多個網絡側節點下的高效 QoS 協商機制。QoS 屬性增強:隨著對沉浸式業務研究的逐步深入,應用層對沉浸式業務的管理,特別是對網絡傳輸層面的支持也相應加強。網絡側需要與應用層密切配合,利用后者提供的信息,如業務變化指示、FEC 信息、關聯業務信息等,更好地識別沉浸式業務特征,完善網絡側QoS 需求和相應控制。綜上所述,6G 網絡通過更加高效、靈活的 QoS

194、 管理機制,可以自適應的滿足由于各種因素導致的業務需求變化,實現更有效地網絡資源分配,確保沉浸式通信等各類業務所需資源和體驗的按需滿足,并且提高整體網絡效率。4.4.3 高速率低時延高可靠性傳輸高速率低時延高可靠性傳輸沉浸式通信的應用場景中,很多用例都對通信指標有更高的要求,例如全息通信,需要極高的數據傳輸速率的同時,要求傳輸滿足低時延高可靠要求。傳輸速率需求達到 1Gbit/s至 1Tbit/s 量級,端到端時延小于 10ms,有的甚至小于 1ms,分組錯誤率需要達到 10-7量級。6G 網絡需要增強滿足這些需求。1)通信速率增強-毫米波和太赫茲技術:提升傳輸速率的技術手段主要是提供大帶寬頻

195、率資源,因此毫米波,太赫茲頻段具有非常豐富的頻率資源,可以提供極高的數據傳輸速率,滿足 6G 沉浸式通信高速數據傳輸的需求。毫米波頻段帶寬高達 273.5GHz,超過從直流到微波的 10 倍。太赫茲可利用的工作帶寬可能高達十幾甚至幾十 GHz,支持超高的通信速率,目前工作頻段在 300 GHz 以下太赫茲通信支持的最高速率可達 100Gbps。毫米波和太赫茲頻段的天線尺寸小,易于在較小的空間內集成大規模天線陣列,便于部署超大規模 MIMO。-分布式大規模 MIMO:分布式大規模 MIMO 是近年來無線通信網絡研究的熱點,63/75超大規模 MIMO 可以實現空間分集和空間復用,有效地對抗多徑衰

196、落,提升頻譜效率,也是提升傳輸速率的重要手段。分布式大規模 MIMO 不僅可以更大幅度地擴展等效天線陣列的規模,并且會增加信號的角度擴展,降低等效 MIMO 信道的相關性,從而獲得更高的空間自由度和更高的信道容量。利用先進的信號協作處理方案,地理位置分散的多個節點可以形成具有更好空間聚攏效果的信號形態,準確地在用戶所在之處形成高質量的網絡覆蓋,從而顯著地提升頻譜效率11。-新型載波聚合技術:通過載波組合可以直接提升傳輸速率,因此在 5G 多載波技術(包括載波聚合、多連接、靈活上下行資源配置、多載波干擾抑制、跨載波調度、多載波聯合調度)的基礎上,進一步對載波聚合技術進行增強,也是提升傳輸速率的重

197、要研究方向??赡艿脑鰪姺较虬巛d波 HARQ 傳輸、非連續載波、虛擬大載波/BWP 等。2)超低時延高可靠-URLLC 增強:HRLLC 是 5G URLLC 場景的增強,對時延和可靠性指標提出更高要求。沉浸式通信應用場景非常豐富,其中一些應用場景(例如)對時延和可靠性的要求與 5G URLLC 場景持平,一些場景(例如遠程手術)對時延和可靠性的要求更高。因此可以考慮對 5G URLLC 技術進行進一步增強,例如采用更大子載波間隔,更小的 slot,更快的反饋,配置間隔更短的多個 CG 資源等技術來滿足低時延需求,采用編解碼技術,多層的重復發送,多層/多站基于反饋或不基于反饋的數據重傳等技術

198、來滿足高可靠需求。-極簡協議棧:簡化協議棧處理復雜度是實現低時延和高數據速率的有效策略。潛在的研究方向包括:去除/合并協議層的冗余功能,PDCP 級聯,L2 協議重構/協商,支持部分完整性保護等等。-毫米波和太赫茲技術:毫米波和太赫茲使用的頻率更高,支持更大的帶寬,可以采用更大的子載波間隔,符號的持續時間更小,所以信號傳輸速度更快,從而實現了超低時延傳輸。結合大規模 MIMO 技術能夠有效提高傳輸鏈路的可靠性。-分布式核心網:針對核心網的時延問題,可以支持本地業務卸載,比如 Local UPF,引入有效的 MEC 框架等。4.4.4 FoV 傳輸技術傳輸技術沉浸式視頻通過視頻、音頻及特效系統,

199、構建具備大視角、高畫質、三維聲特性,具備64/75畫面包圍感和沉浸式聲音主觀感受特征的視聽環境,使觀眾能夠在所處位置同時獲得周圍多方位的視聽信息,讓觀眾體驗到單一平面視頻無法實現的高度沉浸感,讓觀眾真正有身臨其境的感覺。視場角 FoV(Field of View)是沉浸式視頻的核心要素。視場角分為水平視場角 HFoV(Horizontal Field of View),垂直視場角 VFoV(Vertical Field of View),和對角視場角 DFoV(Diagonal Field of View),根據人眼視覺特性,當影像能更多地覆蓋人的視野,形成畫面在人眼中的水平視場角大于 120

200、,垂直視場角大于 70,就可以使人感受到一種身臨其境的沉浸式效果。因此從用戶觀看角度,并不需要將全景視頻都傳輸給用戶,只需要傳輸其 FoV范圍的視頻就可以提供沉浸式體驗?;谝陨显?,基于 FoV 的傳輸技術在 XR 視頻傳輸中被廣泛采用。根據用戶的姿態生成與用戶的終端顯示范圍匹配的 FoV 內容,然后將 FoV 內容傳輸給用戶的終端進行顯示。由于只是傳輸用戶的終端顯示范圍匹配的 FoV 內容,大大節省了傳輸帶寬,降低了傳輸時延,提升了用戶體驗。當前主流的 FoV(Field of View)傳輸方案主要包括以下幾種:1.多層 FoV 傳輸:將 360全景視野劃分為若干個視角,每個視角生成一個

201、視頻文件,只包含視角內高分辨率和周圍部分低分辨率視覺信息。終端根據用戶當前視角姿態位置,向服務器請求對應的視角文件。當頭部轉動視角發生變化時,終端向服務器請求新視角對應的視角文件。2.基于分塊編碼傳輸方法:將沉浸式視頻分塊,每個視頻塊被編碼為多個質量的視頻層,根據視點對應的 FoV,動態決策傳輸的視頻塊和每個視頻塊傳輸的視頻層。3.基于金字塔投影的 FoV 傳輸:針對每個視角準備一個全視角的質量不均勻的碼流。將用戶在虛擬環境中的視覺信息對應的全部球面數據放入金字塔投影。用戶視點正前方的平面為 FoV 平面,使用高分辨率編碼,其余四個平面為非 FoV 平面,分辨率從與 FoV 平面相交的邊到視角

202、反方向的頂點逐漸降低。傳輸網絡根據終端返回的用戶視角信息,向終端提供 FoV 范圍內的高質量畫面和非FoV 范圍內的低質量畫面。由于存在時延,傳輸到用戶的 FoV 視頻與用戶實際 FoV 可能不一致,造成用戶觀看的內容與其實際視角不完全匹配導致的不連續甚至卡頓,造成用戶眩暈。解決該問題主要有以65/75下幾種方法:1.降低網絡傳輸時延,以保證回傳的 FoV 與用戶的實際 FoV 接近;2.擴大傳輸的 FoV 區域,最終根據用戶的實際 FoV 進行顯示;3.提高 FoV 預測的準確性。FoV 的傳輸技術能夠有效節省傳輸帶寬,提升用戶體驗,并適應不同網絡環境和用戶視點的變化,是當前 XR 視頻傳輸

203、的普遍選擇。目前的 FoV 傳輸主要是從應用層考慮的,無線通信網絡的深度介入可以對 FoV 時延縮減和 FoV 預測起到積極作用,是后續值得考慮的方向。4.4.5 節能技術節能技術由于 XR 設備屬于穿戴式,且視頻顯示需要耗費大量電能,所以,XR 設備需要考慮節電方案。1)DRX 增強:多模態中不同的 QoS flow 具備不同的業務特性,例如,不同 QoS flow 的數據包在時域上的分布特征不同,從而導致單一 DRX 機制難以取得比較好的節電效果,因此,基站可配置多套 DRX,來適配于不同的 QoS flow,從而獲得更大的節能增益。2)XR-awareness:為實現更好的終端節能,RA

204、N 需要獲知更多的業務層面的信息。UE 和核心網可通知RAN 側業務特性信息,所述業務特性信息可提供更精準的數據包在時域或數據量上的分布或變化信息。從而基站可以配置合適的 DRX 參數,輔助 UE 的節能。3)UL 和 DL 協作:XR 業務數據量很大,尤其以下行視頻數據為主,視頻數據傳輸需求存在周期性,即數據包呈現 burst 方式。在 XR burst 傳輸期間,有大量下行數據需要傳輸,而在 burst 傳輸間隙,沒有下行數據需要傳輸。另一方面,XR 業務對應的上行數據,主要是一些用戶的動作指示,沒有周期性,隨時可能有上行數據包需要傳輸??紤]到 XR 業務下行數據的周期性屬性,現有技術中使

205、用 DRX 方式節電,即通過基站配置,讓 UE 周期性打開數據接收模塊,接收下行數據,其它時間則關閉接收模塊。由于UE 的發送模塊和接收模塊有一部分功能是聯動的,所以將上行數據的傳輸也安排在下行數據接收空口內,達到節電的目的。即通過上行和下行業務在時域上的協作,例如在同時間段內進行傳輸或在數據傳輸時域上盡量交疊。66/75在圖 13 所示的上行方式一中,UE 在存在上行數據需要發送時,在業務的時延允許的情況下,可選擇在下行的 DRX 激活時間段內發送上行 SR 或發起 RACH 過程請求上行PUSCH 資源。在上行方式二中,UE 可在 DRX 激活時間之前的 offset 期間內發送上行 SR

206、或發起 RACH 過程,從而盡量使得基站分配的 PUSCH 可在下行的 DRX 激活時間段內。通過上行和下行業務在時域上的協作,可提升 UE 的節能效果。圖13上行和下行協作進行數據傳輸沉浸式通信場景中,網絡和終端的互操作更加密切,可以引入網絡與終端的聯合節能,包括但不限于以下幾個方面:1)基于網絡和終端雙端發現機制降低公共信令開銷,對網絡側,實現動態網絡節點狀態控制、公共信息發送優化;對終端側,實現智能動態睡眠模式管理。解決基站和終端時域節能割裂,節能以降低傳輸性能為代價的問題,達到網絡與終端聯合時域節能的效果。網絡和終端的雙端發現機制可以通過沉浸式通信的多維感知節點和功能實現,也可以通過沉

207、浸式通信相關的低功率發現信號或通知信號實現。2)終端輔助機制實現聯合節能,基于不同的終端輔助形式,著重實現基站頻域、功率域和空域的節能方案和終端頻域、功率域的節能方案。解決基站終端各自采用半靜態、粗顆粒度的節能方案的問題,達到雙端精細化頻域/空域管理、動態功率管理的效果。3)通感智算一體化端到端節能,利用沉浸式通信場景下感知、智能融合發展的特性,充分應用感知、智能等新興技術,實現網絡和終端的按需功能開啟、精細化的資源利用、最優節能觸發方式選擇和最優節能模式選擇。67/755 總結和展望總結和展望白皮書深入分析了 6G 沉浸式通信的三大主要場景沉浸式 XR、全息通信和多維感知,從而總結出沉浸式通

208、信的特定需求。同時,白皮書梳理了當前國際國內沉浸式通信的標準化進展,深入剖析了沉浸式產業的發展現狀與未來趨勢。此外,白皮書還針對沉浸式通信所涉及的四大關鍵技術領域:終端技術、媒體處理技術、編解碼技術以及業務保障和網絡傳輸技術進行詳細的研究與分析。5G 網絡下,VR/AR 已經應用于多個領域,滿足了一些應用場景的需求,隨著 6G 網絡相關研究的開展,沉浸式多媒體業務作為未來 6G 網絡一項重要的基礎應用,6G 沉浸式業務將結合多種感官體驗給用戶帶來更加身臨其境的感受。當前沉浸式通信仍然存在以下幾方面挑戰:-數據量大、網絡傳輸要求高。沉浸式通信業務如 XR 具有高沉浸、強交互、多維多模態等特征,其

209、對網絡傳輸的高要求是多方面的;-業務內容局限,當前 XR 內容生態聚焦于視頻、游戲、社交場景,其他領域內容涉及較少。且 XR 內容制作難度大、成本高、周期長,缺乏高質量的 XR 內容難以激發消費者購買欲望;-裸眼 3D 裸眼設備成本偏高,且存在圖像分辨率、刷新率等方面的問題;-對多模態的支持仍存在很大難度,6G 沉浸式多媒體業務還需融合更多信號流的同步,尤其是對多 UE 多流的支持,難度更大。近些年來,雖然沉浸式通信和 6G 都得到高度重視,形成了一定的理論基礎和技術拓展,但都處于較為初級的階段。沉浸式通信的技術和產業基礎遠遠不能支撐虛實融合、全域智聯、助力千行百業的目標,而 6G 標準化工作

210、剛剛啟動,具有非常廣大的發展空間。6G 與沉浸式通信的融合將為社會經濟、技術帶來更大的可持續發展空間,改變多領域發展模式,進一步激活社會的活力。至少體現在以下幾個方面:1)經濟效益增長a)創造新的業務和商業模式:6G 與沉浸式通信的結合將催生出許多新的業務領域和商業模式,如醫療行業的遠程診斷,遠程手術使偏遠地區患者獲得頂級醫療資源,降低醫療誤診率,提升治愈率。教育行業中將全息投影與 AI 技術結合,打造三維立體教學場景,使抽象知識具象化。新的工作模式催生出新業務將為相關產業帶來新的收入增長點。68/75b)生產效率的大幅提升:沉浸式通信對工業發展的影響在當前已有體現。6G 的快速數據傳輸和低延

211、遲能夠使多方團隊實時協作,提高設計和生產效率,縮短產品開發周期。工程師可以在數字孿生工廠中直接操作設備參數,提升效率的同時降低了操作風險。沉浸式通信改變生產模式,進一步促進工業進步,為企業帶來更大的經濟效益2)社會數字化轉型加速a)推動各行業的數字化升級:數字化轉型是當今社會發展的大趨勢,6G 與沉浸式通信的結合將為各行業的數字化轉型提供強大動力。b)促進數字包容性:6G 網絡的廣泛覆蓋和沉浸式通信的易用性將有助于縮小數字鴻溝,讓更多人能夠享受到數字化帶來的便利和機遇。特別是對于偏遠地區、老年人等特殊群體,沉浸式通信可以提供更加直觀、易懂的信息獲取和交互方式,促進社會的數字化包容性。3)科技創

212、新與產業競爭力提升a)帶動相關技術的發展:6G 與沉浸式通信的結合將促進一系列相關技術的創新和發展,如人工智能、計算機圖形學、傳感器技術等。這些技術的相互融合和協同創新將推動整個信息通信技術領域的進步。b)增強產業競爭力:對于企業來說,積極探索 6G 與沉浸式通信的應用和創新,將有助于提升自身在市場中的競爭力。能夠率先提供高質量、創新性的沉浸式通信服務的企業,將在未來的市場競爭中占據優勢,吸引更多的用戶和合作伙伴,推動產業的快速發展。69/75參考文獻參考文獻13GPPTS 22.261.Service requirements for the 5G system23GPPTS 22.263.

213、Service requirements for video,imaging and audio for professional applications(VIAPA)3ITU-R M.2516-0 Future technology trends of terrestrial IMT systems towards 2030 and beyondITU2022.114Recommendation ITU-R M.2160-0 Framework and overall objectives of the future development of IMT for2030 and beyon

214、d,ITU,2023.115ITU-R BT.1359-1 RELATIVE TIMING OF SOUNDAND VISION FOR BROADCASTING6曾煥強,孔慶瑋,陳婧,朱建清,施一帆,侯軍輝,沉浸式視頻編碼技術綜述 電子與信息學報 202476G 沉浸式多媒體業務需求及關鍵技術研究報告,IMT-2030(6G)推進組,20228XR 行業:驅動因素 行業變革 產業鏈及相關企業深度梳理,慧博智能投研93GPPTR 22.847 Study on supporting tactile and multi-modality communication services103GPPT

215、S 38.835 Study on XR enhancements for NR11超維度天線技術白皮書,中信科移動通信技術股份有限公司123GPPTR 38.838.Study on XR(Extended Reality)Evaluations for NR133GPPTR 23.700-70.Study on architecture enhancement for Extended Reality and Media service(XRM)14華創證券研究報告.(2024)AR 行業深度研究報告:光學及顯示方案逐步迭代,軟硬件協同發展驅動消費級 AR 眼鏡滲透15Sun,Yule,A

216、.Lu,and L.Yu.Weighted-to-Spherically-Uniform Quality Evaluation for OmnidirectionalVideo.IEEE Signal Processing Letters(2017):1408-141216TECH G,CHEN Ying,MLLER K,et al.Overview of the multiview and 3D extensions of high efficiencyvideo codingJ.IEEE Transactions on Circuits and Systems for Video Tech

217、nology,2016,26(1):3549.doi:10.1109/TCSVT.2015.2477935.17Guarda A F R,Rodrigues N M M,Pereira F.Point CloudCoding:AdoptingaDeepLearning-BasedApproachC/Picture Coding Symposium,Ningbo,China,201918Quach M,Valenzise G,Dufaux F.Folding-Based Compression of Point CloudAttributesC/IEEEInternational Confere

218、nce on Image Processing,Abu Dhabi,UnitedArab Emirates,2020.19Astola P,da Silva Cruz L A,Da Silva E A B,et al.JPEG Pleno:Standardizing a coding framework and70/75tools for plenoptic imaging modalitiesJ.ITU Journal:ICT Discoveries,2020.20S.R.Quackenbush and J.Herre,MPEG Standards for Compressed Repres

219、entation of Immersive Audio,inProceedingsoftheIEEE,vol.109,no.9,pp.1578-1589,Sept.2021,doi:10.1109/JPROC.2021.3075390.21Herre J,Quackenbush S R.MPEG-H 3D audio:Immersive audio codingJ.Acoustical Science andTechnology,2022,43(2):143-148.22Multrus M,Bruhn S,Torres J,et al.Immersive Voice and Audio Ser

220、vices(IVAS)codec-The new 3GPPstandard for immersive communicationC/157thAES Convention.2024.23易觀分析(2023)中國消費級 AR 分析 2023:消費級 AR 市場正啟航,國產品牌格局初定24艾瑞咨詢(2023)中國增強現實(AR)行業研究報告25億歐智庫(2024)2024 年中國 AR 產業發展洞察研究26華創證券研究報告。(2024)AR 行業深度研究報告:光學及顯示方案逐步迭代,軟硬件協同發展驅動消費級 AR 眼鏡滲透27ITU-T.ITU-T Rec.H.266 and ISO/IEC 2

221、3090-3 versatile video codingS.71/75縮略語縮略語英文縮寫英文全稱中文全稱3DoFThree Degrees of Freedom3 自由度3GPP3rd Generation Partnership Project第三代合作伙伴計劃6DoFSix Degrees of freedom6 自由度AEPAdjusted Equalarea Projection調整后的柱狀等面積投AFApplication Function應用功能AQPAlternative QoS profile備選 QoS 配置文件ARAugmented Reality增強現實AUAcces

222、s Unit訪問單元AV1AO Media Video 1開放媒體視頻聯盟視頻BERBit Error Rate誤碼率BWPBandwidth Part帶寬子集CADComputer Aided Design計算機輔助設計CAEComputer Aided Engineering計算機輔助工程CATComputer-Aided Testing計算機輔助測試CAVECave Automatic Virtual Environment洞穴式自動虛擬環境CBAChannel-Based Audio基于聲道的音頻CCDCharge-coupled Device電荷耦合器件CDNContent Deli

223、very Network內容分發網絡CDRXConnected-Mode DRX連接模式不連續接收CGComputer-Generated content計算機生成內容CMPCube Map Projection立方體映射投影CNNConvolutional Neural Networks卷積神經網絡DBBPDepth-Based Block Partitioning基于深度圖塊分割技術DFoVDiagonal Field of View對角視場角DMMDepth Modeling Modes深度建模模式DRBData Radio Bearer數據無線承載DRXDiscontinuous Re

224、ception非連續接收DVSDynamic vision sensor視覺傳感器(也稱eMBBEnhanced Mobile Broadband增強移動寬帶EAPEqual-Area cylindrical Projection柱狀等面積投影ERPEquiRectangular Projection基于地圖的投影72/75EVSEnhance Voice Services增強語音業務FECForward Error Correction前向糾錯FERFrame Error Rate誤塊率FLFront-Left左前FoVField of view視場角FRFront-Right右前FVVFr

225、ee-View Video自由視點視頻G-PCCGeometry-based PointCloud Compression基于幾何的點云壓縮HARQHybrid Automatic Repeat reQuest混合自動重傳請求HEVCHigh Efficiency Video Coding高效率視頻編碼HFoVHorizontal Field of View水平視場角HMDHead-mounted displays頭戴式顯示器HRLLCHyper Reliable and Low Latency Communications極高可靠極低時延通信HRTFHead Related Transfer

226、 Function頭部相關傳輸函數IAMFImmersive Audio Model and Formats沉浸式音頻模型和格式IBRImage-Based Rendering基于圖像的渲染IECInternational Electrotechnical Commission國際電工委員會IEEEInstitute of Electrical and Electronics Engineers電氣和電子工程師協會IMAXImage Maximum巨幕電影IMUInertial Measurement Unit慣性測量單元ISOInternational Standards Organizat

227、ion國際標準化組織ITUInternational Telecommunication Union國際電信聯盟IVASImmersive Voice and Audio Services沉浸式語音和音頻服務JCT-3VJoint Collaborative Team on 3D Video coding3 維視頻編碼擴展開發JVETJoint Video Experts Team聯合視頻專家組LCDLiquid Crystal Display液晶顯示屏LCoSLiquid Crystal on Silicon硅基液晶LEDLight Emitting Diode發光二極管MASAMetada

228、ta Assisted Spatial Audio元數據輔助空間音頻MBRModel-Based Rendering基于模型的渲染MECMobile edge computing移動邊緣計算MEMSMicro-Electro-Mechanical System微機電系統MIMOMultiple-Input Multiple-Output多進多出MIVMPEG Immersive VideoMPEG 沉浸式視頻MLPMultilayer Perceptron多層感知器73/75MMSIDMulti-modal Service ID多模態業務標識MPEGMoving Pictures Expert

229、s Group動態圖像專家組MRMixed Reality混合現實NBDVNeighboring Block Disparity Vector相鄰塊視差矢量NBRNeural-Based Rendering基于神經網絡的渲染NeRFNeural Radiance Fields神經輻射場NURBSNon-Uniform Rational B-Spline非均勻有理樣條OBAObject-Based Audio基于對象的音頻OLEDOrganic Light-Emitting Diode有機發光二極管OMAFOmnidirectional Media Format全向媒體格式OSOperating

230、 Systerm操作系統PCFPolicy Control Function策略控制功能PCMPulse Code Modulation脈沖編碼調制PDBPacket Delay Budget包時延預算PDCPPacket Data Convergence Protocol分組數據匯聚協議PDUPacket Data Unit/Protocol Data Unit包數據單元/協議數據單PERPacket Error Rate包錯誤率PSDBPDU-Set Delay BudgetPDU-Set 時延預算PSERPDU-Set Error RatePDU-Set 錯誤率PSIPDU-Set Im

231、portancePDU-Set 重要性PSIHIPDU-Set Integrated Handling IndicationPDU-Set 聚合處理指示PUSCHPhysical Uplink Shared Channel物理上行共享信道QCIQoS Class Identifier業務質量等級指示QFIQoS Flow ID業務質量流 IDQoEQuality of Experience體驗質量QoSQuality of Service業務質量RACHRandom Access Channel隨機接入信道RLCRadio Link Control無線鏈路控制SAOSample Adaptiv

232、e Offset樣點自適應補償SBAScene-Based Audio基于場景的音頻SBLSurround Back Left環繞聲后左聲道SBRSurround Back Right環繞聲后右聲道SDKSoftware Development Kit軟件開發工具包SLSurround-Left左后SRSurround-Right右后74/75UHDUltra High Definition超高清UIUser interface用戶界面UPFUser Plane Function用戶面功能URLLCUltra-Reliable and Low Latency Communications超高可靠性和低時延通VAEVariational Auto-Encoder變分編碼器VFoVVertical Field of View垂直視場角V-PCCVideo-based Point Cloud Compression基于視頻的點云壓縮VRVirtual Reality虛擬現實XRExtended reality擴展現實75/75白皮書貢獻人員白皮書貢獻人員中信科移動通信技術股份有限公司張惠英、諶麗、劉海濤、王鋒中國聯合網絡通信集團有限公司張忠皓、周偉、馬靜艷北京首都科技項目經理人管理有限公司余飛、段迎娟、周明宇鵬城實驗室薛雅利、鄒龍昊紫光展銳(上海)科技股份有限公司韓立鋒

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(未來移動通信論壇:2025年6G沉浸式通信場景需求與關鍵技術研究白皮書(75頁).pdf)為本站 (明日何其多) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站