《5G高新視頻-VR視頻技術白皮書(2020)(60頁).pdf》由會員分享,可在線閱讀,更多相關《5G高新視頻-VR視頻技術白皮書(2020)(60頁).pdf(60頁珍藏版)》請在三個皮匠報告上搜索。
1、附件 35G5G 高新視頻高新視頻VRVR 視頻技術白皮書(視頻技術白皮書(20202020)國家廣播電視總局科技司2020 年 8 月1 I前前 言言當前,移動信息技術飛速發展,5G 技術已經成為國際通信科技巨頭競爭的新焦點,世界各國紛紛將 5G 建設視為重要目標。5G 技術具有“大帶寬、低時延、廣連接”等特點,在 5G 眾多應用場景中,視頻被公認為是 5G 時代最重要和最早開展的業務,越來越受到社會各界的廣泛關注。在 5G、超高清、虛擬現實等新興技術催生下,廣電行業視聽內容的生產和傳播即將發生新變革。國家廣播電視總局順應技術革命浪潮, 搶抓 5G 發展機遇, 深入推進 5G 條件下廣播電視
2、供給側結構性改革,推動構建 5G 視頻新業態,提出了“5G 高新視頻”的概念。5G 高新視頻是指 5G 環境下具有“更高技術格式、更新應用場景、更美視聽體驗”的視頻。其中, “高”是指視頻融合 4K/8K、3D、VR/AR/MR、高幀率(HFR) 、高動態范圍(HDR) 、廣色域(WCG)等高技術格式; “新”是指具有新奇的影像語言和視覺體驗的創新應用場景,能夠吸引觀眾興趣并促使其產生消費。在 5G 環境下,廣電行業將發揮在視音頻內容創意、 生產、 制作和傳播方面的豐富資源和天然優勢,以文化創意為牽引,以科技創新為支撐,培育孵化 5G 高新視頻的新技術、新應用、新產品、新模式、新業態和新消費,
3、為觀眾帶來更美的視聽體驗,更好地滿足人民群眾日益增長的精神文化新需求和新期待。VR 視頻作為高新視頻業態的重要組成部分,是指全景視頻,如水平 360垂直 360全景視頻、水平 180垂直 180全景視頻等,用戶可借助 VR 眼鏡等虛擬現實設備觀看全景視頻,并獲得身臨其境的視覺感受。為更好地推進 VR 視頻發展,指導相關行業與機構開展 VR 視頻業務,提高 VR視頻質量,促進 VR 視頻業態良性發展,國家廣播電視總局科技司組織廣播電視科學研究院及行業相關機構、企業等,開展了 VR 視頻研究工作,編制了5G 高新視頻VR 視頻技術白皮書(2020 版) (以下簡稱白皮書) 。本白皮書分析了 VR
4、視頻的基本概念,深入探討了 VR 視頻關鍵技術,梳理了VR 視頻國內外技術標準現狀,總結了 VR 視頻在廣播電視及新媒體領域中的應用案例,提出了 VR 視頻端到端解決方案,最后分析了目前 VR 視頻應用中遇到的問題和未來發展前景。希望本白皮書能為推動 VR 視頻的應用提供參考,為推動廣播電視行業轉型升級注入新動能、激發新活力,促進廣播電視和網絡視聽行業高質量創新性發展。II本白皮書指導單位:國家廣播電視總局科技司本白皮書主要起草單位:國家廣播電視總局廣播電視科學研究院、中央廣播電視總臺、中廣電廣播電影電視設計研究院、北京未來媒體科技股份有限公司、華為技術有限公司、深圳市天威視訊股份有限公司、大
5、連天途有線電視網絡股份有限公司、北京大學深圳研究生院、中興通訊股份有限公司、四川傳媒學院、杭州當虹科技股份有限公司、 深圳市騰訊計算機系統有限公司、 飛利浦 (中國) 投資有限公司、北京視博云科技有限公司、北京小鳥看看科技有限公司、深圳市圓周率軟件科技有限責任公司、上海海思技術有限公司、深圳創維新世界科技有限公司。1 1目目 錄錄縮略語.31. 5G 高新視頻VR 視頻概述.61.1 基本概念.61.2 3DoF VR 和 6DoF VR. 61.3 觀看 VR 視頻的典型流程.72. VR 視頻關鍵技術.92.1 VR 視頻端到端系統框圖.92.2 VR 視頻節目制作與交換用視頻參數.92.
6、3 VR 視頻拍攝制作與拼接.102.3.1 拍攝制作方法.102.3.2 視頻拼接算法.112.4 VR 視頻映射及壓縮編碼.122.4.1 映射.132.4.2 壓縮編碼.162.5 VR 視頻傳輸.172.5.1 傳輸所需帶寬.172.5.2 傳輸方案.172.6 VR 視頻終端渲染顯示.182.6.1 基本流程.182.6.2 渲染.192.6.3 顯示.202.7 VR 視頻感知交互.212.8 6DoF.212.8.1 拍攝制作方法.212.8.2 編解碼.242.8.3 終端渲染顯示.253. VR 視頻國內外技術標準.273.1 VR 視頻國外技術標準.273.1.1 ITU.
7、273.1.2 MPEG.273.1.3 DVB.283.1.4 SMPTE.293.1.5 3GPP.293.1.6 JPEG.293.1.7 IEEE.303.2 VR 視頻國內技術標準.304. VR 視頻在廣播電視及新媒體領域中的應用.334.1 國外 VR 應用試驗.334.1.1 日本.334.1.2 韓國.344.1.3 美國.3424.1.4 歐洲.354.1.5 國際互聯網企業.354.2 國內 VR 應用試驗.364.2.1 電視臺.364.2.2 有線電視網絡/IPTV.404.2.3 國內互聯網企業.425. VR 視頻端到端解決方案.445.1 VR 視頻端到端解決方
8、案系統架構.445.2 VR 視頻拍攝制作域解決方案.465.2.1 VR 視頻拍攝制作工藝流程.465.2.2 VR 視頻拍攝方式.475.3 VR 視頻業務平臺方案.495.3.1 VR 視頻直播/點播平臺.495.3.2 VR 視頻直播/點播平臺技術指標.505.3.3 VR 視頻直播/點播平臺部署.515.4 VR 視頻網絡傳輸方案.515.4.1 基于有線電視網絡/IPTV 的 VR 視頻傳輸方案.525.4.2 基于 5G 網絡的 VR 視頻傳輸方案.525.5 VR 視頻終端.536.VR 視頻應用的挑戰與前景.556.1 VR 視頻節目制作域.556.1.1 拍攝指導.556.
9、1.2 映射.556.1.3 制作流程和創作工具.556.2 VR 視頻傳輸分發域.566.2.1 高傳輸碼率.566.2.2 VR 分發格式.566.3 VR 視頻終端消費域.566.4 發展前景展望.57參考文獻.581 3縮略語縮略語縮略語縮略語英文全稱英文全稱中文全稱中文全稱3DoFThree Degrees of Freedom三自由度3GPP3rd Generation Partnership Project第三代合作伙伴計劃5G5th Generation Mobile Networks第五代移動通信網絡6DoFSix Degrees of Freedom六自由度AIArtifi
10、cial Intelligence人工智能APPApplication應用程序ARAugmented Reality增強現實AVSAudio Video Coding Standard音視頻編碼標準CDNContent Delivery Network內容分發網絡CGComputer Graphics計算機圖形學CMPCube Map Projection正六面體映射CPUCentral Processing Unit中央處理器DASHDynamic Adaptive Streaming over HTTP基于 HTTP 的動態自適應流DIBRDepth Image Based Renderi
11、ng基于深度的圖像渲染DNSDomain Name System域名系統DVBDigital Video Broadcasting數字視頻廣播EACEqui-Angular Cubemaps等角方塊ERPEqui-Rectangular Projection等距圓柱映射FOVField of View視角GPUGraphics Processing Unit圖形處理器HTMLHyper Text Markup Language超文本標記語言HDRHigh Dynamic Range高動態范圍HFRHigh Frame Rate高幀率HLSHTTP Live Streaming基于 HTTP 的
12、流媒體網絡傳輸協議HMDHead Mounted Display頭戴式顯示器HTTPHyper Text Transfer Protocol超文本傳輸協議4縮略語縮略語英文全稱英文全稱中文全稱中文全稱HTTPSHyper Text Transfer Protocol over Secure SocketLayer安全套接層超文本傳輸協議IEEEInstituteofElectricalandElectronicsEngineers電氣和電子工程師協會ILEImmersive Live Experience沉浸式現場體驗IPInternet Protocol網際互連協議ISPIcosahedro
13、n Projection正二十面體映射ITUInternational Telecommunication Union國際電信聯盟JPEGJoint Photographic Experts Group聯合圖像專家組MMTMulti-Media Terminal多媒體終端MPEGMoving Picture Experts Group運動圖像專家組MRMixed Reality混合現實NDINetwork Device Interface網絡設備接口NPUNeural Network Processing Unit嵌入式神經網絡處理器OHPOctahedron Projection正八面體映射
14、OLEDOrganic Light Emitting Diode有機發光二極管OMAFOmnidirectional Media Application Format全景媒體應用格式PGCProfessional Generated Content專業生產內容PPDPixel Per Degree像素/度QoEQuality of Experience體驗質量QoSQuality of Service服務質量RANRadio Access Network無線接入網ROIRegion of Interest感興趣區域RTMPReal Time Messaging Protocol實時消息傳輸協議
15、SDKSoftware Development Kit軟件開發工具包SDRStandard Dynamic Range標準動態范圍SLAService Level Agreement服務級別協議SMPTESociety of Motion Picture andTelevision Engineers電影和電視工程師協會SSPSegmented Sphere Projection分區域球體映射5縮略語縮略語英文全稱英文全稱中文全稱中文全稱TSPTruncated Square Pyramid截體金字塔UDPUser Datagram Protocol用戶數據報協議UGCUser Generat
16、ed Content用戶生產內容VBRVariable Bit Rate可變比特率VRVirtual Reality虛擬現實WCGWide Color Gamut廣色域6 61.1. 5G5G 高新視頻高新視頻VRVR 視頻概述視頻概述1.11.1 基本概念基本概念VR 通過動態環境建模、實時三維圖形生成、立體顯示觀看、實時交互等技術,生成仿真現實的三維模擬環境,能夠構造視覺、聽覺等方面高度主觀真實的人體感官感受。用戶借助交互設備與虛擬場景中的對象相互作用、相互影響、沉浸其中,獲得等同親臨客觀真實環境的感受和體驗。AR 是在 VR 的基礎上,運用多媒體、三維建模、實時跟蹤、智能交互、傳感等多種
17、技術手段,將計算機生成的文字、圖像、三維模型、音樂、視頻等虛擬信息模擬仿真后, 應用到真實世界中, 兩種信息互為補充, 從而實現對真實世界的 “增強” 。MR 是 VR 技術的進一步發展,該技術通過在現實場景呈現虛擬場景信息,在現實世界、虛擬世界和用戶之間搭起一個交互反饋的信息回路,以增強用戶體驗的真實感。VR 視頻是指全景視頻,如水平 360垂直 360全景視頻、水平 180垂直 180全景視頻等,用戶可借助 VR 眼鏡等虛擬現實設備觀看全景視頻,并獲得身臨其境的視覺感受??紤]到技術成熟度,本白皮書涉及的內容主要討論 3DoF VR視頻, 6DoF VR 視頻是未來發展方向,本白皮書在 2.
18、8 節給出一定的技術說明,3DoF VR 和 6DoF VR 的概念見 1.2 節。此外,VR 視頻系統還包含配套的音頻內容,本白皮書暫不涉及。1.21.2 3DoF3DoF VRVR 和和 6DoF6DoF VRVR(1 1)3DoF3DoF3DoF 是指用戶可以在任何方向(偏轉、俯仰和滾動)自由地觀看節目素材。典型的應用場景是坐在椅子上的用戶通過 HMD 觀看 VR 視頻內容,如圖 1 所示。(2 2)3DoF+3DoF+3DoF+是指用戶可以在任何方向(偏轉、俯仰和滾動)自由地觀看節目素材,同時用戶頭部可以進行一定的平移運動。 典型的應用場景是坐在椅子上的用戶通過HMD 觀看 VR 視頻
19、內容,并且用戶頭部可以進行小幅度的上下、左右、前后移動,如圖 1 所示。7(3 3)6DoF6DoF6DoF 是指用戶可以在物理空間內任何位置、任何方向自由地觀看節目素材。用戶移動可以被傳感器或輸入控制器捕獲到, 同時支持用戶空間位移和頭部姿態變化。典型的應用場景是用戶自由走動并同時通過 HMD 觀看 VR 視頻內容,如圖 1 所示。Report .2420-02BT3DoF3DoF+6DoFUpUpRightRightForwardForwardBackwardLeftLeftBackwardRollPitchYawRollPitchYawRollPitchYawDownDown圖 1 各類
20、 DoF 示意圖1.31.3 觀看觀看 VRVR 視頻的典型流程視頻的典型流程觀看 VR 視頻時,用戶需佩戴 VR 眼鏡(配合手機使用)或 HMD,運行在用戶手機或機頂盒等設備上的VR視頻應用軟件啟動并初始化VR眼鏡或HMD中的陀螺儀等傳感器裝置,用戶通過遙控器、手柄等輸入設備與 VR 視頻應用軟件進行實時交互。當用戶頭部發生運動時,VR 眼鏡或 HMD 中的陀螺儀等傳感器裝置實時檢測頭部的運動狀態,并將其參數傳遞給 VR 視頻應用軟件的處理模塊。處理模塊獲取到用戶頭部的運動狀態參數后,VR 視頻應用軟件立即計算用戶的觀看視角并重新渲染新的一幀圖像傳遞至 VR 眼鏡或 HMD 上,用戶可以進行
21、實時觀看。觀看 VR 視頻的典型系統流程如圖 2 所示。8開始軟件啟動初始化傳感器在VR眼鏡或HMD上顯示每一幀圖像逐幀圖像渲染實時交互VR視頻應用軟件圖 2 觀看 VR 視頻的典型系統流程92.2. VRVR 視頻關鍵技術視頻關鍵技術2.12.1 VRVR 視頻端到端系統框圖視頻端到端系統框圖典型的 VR 視頻端到端系統框圖如圖 3 所示,包括 VR 視頻源、VR 視頻編碼、VR 視頻傳輸和 VR 視頻終端接收和顯示 4 個部分。 圖中通路是實時直播應用場景,通路為非實時點播應用場景。 實時直播應用場景與非實時點播應用場景的區別在于:實時直播采用實時拍攝、拼接的 VR 視頻源信號,而非實時點
22、播則采用已經制作完成的 VR 視頻源文件。 兩種信號進入 VR 視頻編碼環節及其之后環節的技術流程一致。?VR視頻圖像拍攝VR視頻編輯制作VR視頻源文件VR視頻映射VR視頻編碼VR視頻傳輸終端接收、渲染、顯示VR視頻源VR視頻編碼VR視頻傳輸VR視頻終端接收和顯示?圖 3 VR 視頻端到端系統框圖VR 視頻端到端系統流程首先是使用全景攝像機拍攝,隨后將多路視頻拼接融合為完整的全景視頻進行后期編輯制作,經過高效的視頻壓縮并傳輸,最后分發到用戶端。用戶端通過 HMD 或 VR 眼鏡觀看 VR 視頻內容,通過頭部姿態調整,觀看不同視角的 VR 視頻內容。VR 視頻采集拍攝、拼接編輯制作、編碼傳輸、終
23、端渲染顯示等各個環節都會影響用戶的觀看體驗,包括視頻質量、流暢性、沉浸感等方面。2.22.2 VRVR 視頻節目制作與交換用視頻參數視頻節目制作與交換用視頻參數用于 VR 視頻節目制作與交換中的視頻參數值見表 1。表 1 主要參考了 ITU-R10BT.2123 標準,映射后圖像的有效像素數為 30K15K,該值基于人眼的空間視覺特性,使得觀看者在觀看 VR 視頻的一部分時感知不到顯示屏幕的像素結構。VR 視頻要求 30K15K 的像素數,其他像素數可在實際系統設計時使用,建議目前最低使用 76803840 像素數。表 1 VR 視頻節目制作與交換用視頻參數值序號參數數值1球面360圖像到矩形
24、二維圖像的映射方法默認ERP模型,其他模式應該在系統中標識2映射后圖像的有效像素數(水平垂直)30720 15360(30K 15K)、7680 3840(8K 4K)3像素寬高比1:1(方形)4幀率(Hz)120,100,505掃描模式逐行光譜色坐標(CIE,1931)xy6基色基色紅(R)單色630 nm0.7080.2927基色綠(G)單色532 nm0.1700.7978基色藍(B)單色467 nm0.1310.0469基準白D65,符合ISO 11664-2:20070.31270.329010顏色匹配函數CIE 193111信號格式RGB、YCBCR(非恒定亮度)、ICTCP12R
25、GB、YCBCR和ICTCP(僅限HDR)的導出SDR:見GY/T 307HDR:見GY/T 31513量化電平(bit)10、1214色度亞取樣見GY/T 31515數字10比特和12比特整數表示見 GY/T 315(SDR:窄范圍,HDR:窄范圍或全范圍)2.32.3 VRVR 視頻拍攝制作與拼接視頻拍攝制作與拼接2.3.12.3.1 拍攝制作方法拍攝制作方法(1 1)VRVR 視頻拍攝視頻拍攝VR 視頻拍攝以采集點為觀察點拍攝包含場景所有方向的視覺畫面, 如 36011360VR 視頻、180180VR 視頻。拍攝 VR 視頻的采集裝置通常由多個攝像機呈環形或球面排列組成,VR 視頻由每
26、個攝像機采集的視頻拼接而成。VR 視頻提供第一人稱視角的視覺體驗,用戶固定觀看位置,支持頭部轉動,以頭部為中心轉動選擇視角方向,觀看相應方向的畫面。目前由多攝像機多鏡頭組成的 VR 視頻采集裝置雖沒有達到廣播級拍攝能力,但已經可以輸出高質量的全景視頻。配合現有高端手機具備的 8K 解碼能力,以及HMD 和手機具備的靈活交互能力,VR 視頻已較好地應用于直播等場景。(2 2)計算機圖形學制作)計算機圖形學制作CG 制作是通過計算機實時計算、渲染出虛擬的場景和實體。CG 制作計算量大,對 CPU 和 GPU 的性能要求較高,目前主要用于 VR 動畫等。(3 3)實拍摳像結合)實拍摳像結合 CGCG
27、 制作制作實拍摳像是在藍、綠色摳像影棚拍攝主體影像,包括人物、道具等,后期加入CG 制作的背景和環境,或者 CG 制作的其它元素,與實拍影像進行高度融合,達到真實的效果。2.3.22.3.2 視頻拼接算法視頻拼接算法常用的視頻拼接算法可分為基于變換的圖像拼接算法和基于拼接線的圖像拼接算法?;谧儞Q的圖像拼接算法的核心思想是通過對單應性矩陣進行調整, 通過網格化的扭曲使重合區域拼接的縫隙盡可能減小,該算法適合小視角變換的情況。代表性算法有 AutoStitch、APAP、ANAP、GSP 等?;谄唇泳€的圖像拼接算法核心思想是通過對圖像拼接線部分的重新調整, 確保拼接的自然性,該算法適合大視角變
28、換的情況。代表性算法有:Seam-Driven、Parallax-Tolerance 等。(1 1)AutoStitchAutoStitchAutoStitch (Automatic Panoramic Image Stitching) 算法是 2007 年 M. Brown和 D. Lowe 提出的,該算法主要是通過單應性變換重建視場,進而完成圖像拼接。AutoStitch 算法的特點是:使用概率模型進行特征點篩選、使用光束平差進行位置優化、使用多波段方法進行圖像融合。(2 2)APAPAPAP12APAP(As-Projective-As-Possible Image Stitching
29、with Moving DLT)算法是 2013 年 Zaragoza. J.,Chin. T. J.和 Brown. M. S.提出的,是一種基于變換的圖像拼接算法。APAP 算法改進了 AutoStitch 算法中默認光心不動的缺陷,從而優化了拼接后的重影/鬼影問題。APAP 算法的特點是:引入了網格化,針對圖像的不同區域進行加權計算,優化了重合處的效果。(3 3)ANAPANAPANAP(Adaptive As-Natural-As-Possible Image Stitching)算法是 2015年 Lin. C. C.,Pankanti. S. U.和 Ramamurthy. K.
30、N.提出的,該算法主要是通過對單應性矩陣進行線性過渡,考慮旋轉角度,盡可能地恢復圖像的自然性。ANAP 算法的特點是:對重疊區域和非重疊區域進行不同處理、采用全局相似變換提高圖像自然性、對變換矩陣采用線性過渡。(4 4)GSPGSPGSP(Natural Image Stitching with the Global Similarity Prior)算法是 2016 年 Chen. Y. S.和 Chuang. Y. Y.提出的,該算法主要是提高全景圖自然性的同時,提高拼接的準確性。GSP 算法的特點是:使用 APAP 增加優化的匹配點數,使用不同優化項進行優化,使用直線檢測,設置旋轉閾值,
31、進行二維和三維優化。(5 5)Seam-DrivenSeam-DrivenSeam-Driven(Seam-Driven Image Stitching)算法是 2013 年 Gao. J., Li.Y.和 Chin. T. J.提出的,該算法主要是找到兩幅圖片的拼接線,通過拼接線對圖像進行融合。Seam-Driven 算法的特點是:使用拼接線對兩幅圖片進行拼接,求解多個單應性模型并進行評估,選擇最優結果。(6 6)Parallax-ToleranceParallax-ToleranceParallax-Tolerance(Parallax-Tolerant Image Stitching)算
32、法是 2014年 Zhang. F.和 Liu. F.提出的,該算法主要是提高大視差場景下的效果。Parallax-Tolerance 算法的特點是使用了視頻去抖動方法的優化項。2.42.4 VRVR 視頻映射及壓縮編碼視頻映射及壓縮編碼13VR 視頻映射是 VR 視頻編碼的預處理環節,目前專門針對 VR 視頻的編碼標準仍在研究中,通常將 360的二維球面視頻圖像映射成為二維平面矩形視頻圖像,再送入編碼器進行編碼傳輸。VR 視頻有多種映射表示方式,從壓縮編碼的角度看,不同的映射方式其壓縮效率也不同。2.4.12.4.1 映射映射VR 視頻映射是指將球面全景視頻表示為適于壓縮編碼的平面視頻,即將
33、球面全景圖像轉化映射成為二維平面圖像。球面全景圖像映射成為二維平面圖像的映射模型有多種, 為了進一步提高編碼效率以及達到盡可能好的映射效果,映射模型還在不斷地研究和豐富中。MPEG 等標準中提出了多種映射模型,最常用的是等距圓柱映射和正六面體映射模型。典型映射模型介紹如下:(1 1)等距圓柱映射()等距圓柱映射(ERPERP)ERP 映射模型是在 VR 視頻中使用最廣泛的映射模型,如圖 4 所示即是 ERP 映射模式的二維圖像平面。經緯圖模型只有一個投影面。YouTube、Samsung Gear、優酷、愛奇藝等均采用此種投影格式生產 VR 媒體文件。 = 90 = -90 = 0= -180
34、 = 0 = 180 uvmn圖 4 ERP 映射模式(2 2)正六面體映射()正六面體映射(CMPCMP)CMP 映射模型有 6 個映射面,分別將 360球體視頻圖像映射到 6 個面上,如圖 5 所示。14OXZY PsPYuvNXNZuvPZuvPXuvNYuvuvuvuv圖 5 CMP 映射模式(3 3)等角方塊映射()等角方塊映射(EACEAC)EAC 等角方塊映射投影法的目標是不論取樣樣點在映射面的什么位置,都能保證觀看者在各處獲得統一的像素觀看密度感。EAC 映射模型在 6 個映射面上,各角度內的像素密度是保持恒定不變的。 EAC 與 CMP 映射模型的對比示意圖如圖 6 所示。圖
35、 6 EAC 與 CMP 映射模型對比示意圖(4 4)正八面體映射()正八面體映射(OHPOHP)OHP 映射模型有 8 個三角形的映射面和 6 個頂點,OHP 模型不同于 CMP 模型的特殊之處在于它包含三角形的映射面。 三角形映射面需要仔細處理以保證面與面交界處的視覺連續性以及編碼效率提升,如圖 7 所示。15圖 7 OHP 映射模式(5 5)正二十面體映射()正二十面體映射(ISPISP)ISP 模型有 20 個三角形的映射面和 12 個頂點。非緊湊型和緊湊型 ISP 的示意圖如圖 8 所示。468021357915171311191012141618V0V1V2V3V4V5V6V7V8
36、V9V10V11XZY圖 8 非緊湊型(左)和緊湊型(右)ISP 映射模式(6 6)分區域球體映射()分區域球體映射(SSPSSP)SSP 映射法將球體分為北極區圓、南極區圓和中間赤道部分等三個區域進行映射,如圖 9 所示。01652347V0V1V2V3V4V5YXZ16圖 9 SSP 映射模式(7 7)截體金字塔()截體金字塔(TSPTSP)TSP 映射模型使用頂端截斷的金字塔形的立方體幾何模型,并將該立方體的六個面整合形成一個緊湊的矩形幀。觀看正面是一個整形的正方形,觀看側面和背面則逐漸縮小,如圖 10 所示。圖 10 TSP 映射模式(8 8)非均勻映射方法)非均勻映射方法除上述多種映
37、射模型外,還可以采用非均勻映射的方法。在主視點區域使用較高的采樣密度進行采樣,在非主視點區域使用逐漸降低的采樣密度進行采樣。使用非均勻映射方法的好處是可以大幅降低服務器端的接收碼率和解碼復雜度, 可用于流切換等場景。常用的非均勻映射方式包括非均勻經緯圖、非均勻球體和非均勻正六面體等。2.4.22.4.2 壓縮編碼壓縮編碼映射后的 VR 視頻可采用普通視頻的編碼技術進行壓縮。目前應用較多的視頻17編碼技術是 H.264、H.265、AVS2 等,在保證同等畫質的前提下,H.265 和 AVS2 的壓縮效率大約比 H.264 提升 50%左右。下一代編碼技術 H.266 與 AVS3 的目標壓縮效
38、率比 H.265 與 AVS2 提升一倍。碼率是影響 VR 視頻在終端接收觀看清晰度的重要指標。8K/50P 的視頻,采用H.265 或 AVS2 編碼,碼率需 80100Mbps。2.52.5 VRVR 視頻傳輸視頻傳輸2.5.12.5.1 傳輸傳輸碼率碼率VR 視頻業務的發展是畫質、交互感不斷提升,沉浸感不斷增強的過程。傳輸碼率很大程度上決定了 VR 視頻業務的質量?,F階段 8K VR 視頻需要 80100Mbps碼率,強交互模式下運動感知時延應小于 10ms,弱交互模式下運動感知時延應小于 20ms;未來 30K VR 視頻預計需要 8001000Mbps 碼率,強交互模式下運動感知時延
39、應小于 5ms,弱交互模式下運動感知時延應小于 10ms。本白皮書 2.7 節詳細描述了 VR 視頻的感知交互模式,VR 視頻對傳輸碼率的具體需求見表 2。表 2 VR 視頻對傳輸碼率的需求參數參數8K8K30K30KVR 視頻分辨率7680 384030720 15360典型單眼分辨率1920 19207680 7680量化電平(bit)1012編碼標準H.265、AVS2 等H.266、AVS3幀率(Hz)50100典型碼率(Mbps)8010080010002.5.22.5.2 傳輸方案傳輸方案VR 視頻傳輸主要有兩種技術路線:全視角傳輸方案和基于 FOV 的傳輸方案。(1 1)全視角傳
40、輸方案)全視角傳輸方案全視角傳輸方案就是將 360環繞畫面都傳輸給終端,當用戶頭部轉動需要切換畫面時,所有的處理都在終端本地完成。VR 視頻在相同單眼可視分辨率情況下,由于幀率、量化電平、360環繞等原因,碼率要比普通平面視頻大很多,前者一般是后者的 510 倍,這對于傳輸來說是個極大的挑戰,成本也大大增加。18(2 2)FOVFOV 傳輸方案傳輸方案雖然整個 VR 視頻是 360的,但是觀看者在觀看時,實際只能看到當前視野部分,看到的內容只是占了部分帶寬,采用全視角傳輸方案對帶寬資源造成了比較大的浪費。針對這種情況,業界提出了基于 FOV 的傳輸方案。FOV 傳輸方案主要傳輸當前視角中的可見
41、畫面。一般都是將 360全景視野劃分為若干個視角,每個視角生成一個視頻文件,只包含視角內高分辨率和周圍部分低分辨率視覺信息,終端根據用戶當前視角姿態位置,向服務器請求對應的視角文件。當頭部轉動視角發生變化時,終端向服務器請求新視角對應的視角文件。以基于金字塔投影的 FOV 傳輸方案為例,如圖 11 所示,將用戶在虛擬環境中的視覺信息對應的全部球面數據放入金字塔投影。用戶視點正前方的平面為 FOV平面,使用高分辨率編碼,其余四個平面為非 FOV 平面,分辨率從與 FOV 平面相交的邊到視角反方向的頂點逐漸降低。傳輸網絡根據終端返回的用戶視角信息,向終端提供 FOV 范圍內的高質量畫面和非 FOV
42、 范圍內的低質量畫面。圖 11 FOV 視角傳輸示意圖2.62.6 VRVR 視頻終端渲染顯示視頻終端渲染顯示2.6.12.6.1 基本流程基本流程VR 視頻以流媒體形式經網絡傳輸到達用戶終端側,或者 VR 視頻以文件形式存儲在終端側,終端對 VR 視頻進行解碼、渲染和顯示。目前,終端有兩種形態,一種是 HMD 形式, HMD 主要是顯示設備, 解碼渲染等處理能力在 PC、 機頂盒等終端上,HMD 要與終端連接;另一種是 VR 眼鏡,可以是具備處理能力的一體式 VR 眼鏡,也19可以是連接手機使用的 VR 眼鏡。運行在終端上的 VR 視頻應用軟件,實時追蹤用戶頭部的 3DoF 姿態,即頭部的偏
43、轉、俯仰和滾動參數,并根據這些參數實時渲染出用戶當前姿態下應看到的每一幀 VR 視頻畫面,追蹤、渲染、顯示實時完成。2.6.22.6.2 渲染渲染在 VR 視頻應用中,渲染主要是指根據用戶頭部姿態從全景視頻中截取出用戶當前應看到的畫面,并根據 HMD 和 VR 眼鏡的透鏡特性,對畫面進行的變形處理。HMD 和 VR 眼鏡的顯示屏幕配合距離人眼只有 45cm 距離的凸透鏡,達到增大視角范圍的效果。VR 視頻應用軟件預先對圖像進行“桶形失真”變形處理,圖像經透鏡折射后, “桶形失真”與透鏡折射引入的“枕形畸變”相互抵消,最終用戶在 HMD 和 VR 眼鏡里可看到正常的畫面。 “桶形失真”和“枕形畸
44、變”示意圖分別如圖 12、圖 13 所示。圖 12 VR 視頻圖像“桶形失真”示意圖20圖 13 VR 鏡頭“枕形畸變”示意圖2.6.32.6.3 顯示顯示(1 1)VRVR 視頻像素密度視頻像素密度人肉眼視網膜中心凹(視網膜中心凹是視覺敏銳度最高的區域)的分辨率極限是 60 PPD(因人而異,平均為 60 PPD) ,即如果一幅 6060 像素的圖像落入視網膜中心凹 11的區域, 則人眼無法將其與一幅 8080 像素且落入 11視網膜中心凹區域的圖像區分開。根據人眼 60PPD 的分辨能力,可以計算得到,為達到良好視覺效果,VR 視頻水平方向 360應具有至少 21600 像素。目前,VR
45、視頻分辨率通常是 4K,與理想分辨率還有較大差距。未來拍攝 30K15K 的超高分辨率 VR 視頻,達到人眼觀看時 60PPD 的視網膜感受,才能帶來畫面質量質的飛躍。(2 2)顯示屏分辨率)顯示屏分辨率HMD 和 VR 眼鏡的顯示屏在顯示 VR 視頻時會分為左右相等的兩個顯示區域,分別顯示左右眼觀看的畫面。目前,終端顯示屏的最高分辨率可達到 4K,按照人眼視域 124和 60PPD 計算,終端顯示屏要達到 16K 才能實現理想的顯示效果,因此終端屏幕分辨率還需要進一步提升。HMD 和 VR 眼鏡內置了凸透鏡,用于放大顯示屏幕的圖像,放大倍數一般為 57 倍。 因此, 用戶通過 HMD 和 V
46、R 眼鏡觀看 VR 視頻時, 相當于近距離用一個放大 57 倍的放大鏡觀看顯示屏,顯示屏的物理結構被放大顯現出來,這就是業內常說的紗窗效應,類似于隔著紗窗看窗外的世界,如圖 14 所示。因此,HMD 和 VR 眼鏡的顯示屏分辨率需要進一步提升,降低紗窗效應。21圖 14 顯示屏“紗窗效應”示意圖2.72.7 VRVR 視頻感知交互視頻感知交互用戶佩戴 HDM 或 VR 眼鏡觀看 VR 視頻時,用戶頭部姿態的變化,如偏轉、俯仰和滾動,可以被 HDM 和 VR 眼鏡中的陀螺儀等裝置捕獲到,VR 視頻系統根據這些捕獲的姿態參數,渲染顯示用戶當前應看到的畫面。在 VR 視頻應用中,用戶與 VR 視頻系
47、統的交互屬于弱交互。弱交互是指用戶與虛擬環境中的實體不發生實際的互動,用戶可以在一定程度上選擇視點和位置。在弱交互環境中,用戶體驗是相對被動的,體驗內容也是預先規劃好的。VR 視頻、VR 旅游等業務屬于典型的弱交互范疇。相對于弱交互,強交互是指用戶可通過交互設備與虛擬環境進行互動,通過虛擬環境中的物體對交互行為做出實時響應,使用戶能夠感受到虛擬環境的變化。在強交互中,虛擬環境中實體的變化與用戶輸入有關,這與 VR 視頻預先規劃的內容體驗是不一樣的。VR 游戲等業務屬于強交互范疇。2.82.8 6DoF6DoF2.8.12.8.1 拍攝制作方法拍攝制作方法(1 1)攝像機拍攝)攝像機拍攝6DoF
48、 中,用戶可以在場景中移動。在拍攝 6DoF 的 VR 視頻時,必須通過“真實”攝像機在整個視區中記錄足夠的視圖,以允許最終在用戶的渲染設備中進行高質量的視圖合成。在實際拍攝中,相機的數量、位置、角度等取決于所需內容的質量,而質量又取決于許多因素,例如:視區的大小、與相關物體的距離、物體的類型、用戶的預期運動等。如果有一些物體離用戶很近,則相對較小的用戶動作將顯著改變物體的22視線(即大視差) ,并且會迅速遮擋物體的某些部分,相反,如果物體離得較遠則看不見。為了捕獲此信息,與拍攝遠處的物體相比,將需要更多的攝像機。因此,6DoF 攝像機有多種設置,如圖 15、圖 16 所示。相機往往基于固定的
49、角度間隔擺放, 角度間隔越小, 視角切換的平滑度會越高,但同時相機的數量和系統成本也會隨之增加, 所以如何利用盡可能少的相機拍攝出平滑度高的 6DoF VR 視頻是前端采集的關鍵任務。除此之外,采集系統的同步性和標定精度也是影響拍攝質量的兩個主要指標, 為了拍攝出接近靜止的多角度精彩瞬間,要求相機支持毫秒級別的同步觸發拍攝。直播圖像要圍繞一個焦點旋轉,支持焦點的數量和可選范圍的大小也是衡量一個拍攝系統的關鍵所在。圖 15 較小的攝影機裝備,可在較小的觀看區域內捕捉 6DoF VR圖 16 具有許多攝像頭的 6DoF VR 設置的 Intel Studio(2 2)CGCG 仿真制作仿真制作6D
50、oF 內容也可以由 CG 仿真制作,可以從 CG 模型中渲染出所需的“真實”視圖,而無需物理攝像機。例如,對于圖 17 中的場景,圖 18 顯示了 CG 所生成的虛擬攝像機視圖集。從這 15 個視圖集合中,實際上可以在視圖合成中生成任何其他視圖。23圖 17 VR 視頻全景視圖和相應的深度圖圖 18 15 個虛擬 VR 全景攝像機的位置通常,在拍攝 6DoF VR 場景時,有兩種方法:由外而內和由內而外。圖 19 展示了由外而內拍攝時的攝像機布置,可捕捉球場上的動作。這種方式也適用于用戶與正在進行的事件相對較遠的其他場景。圖 19 由外而內 VR 拍攝體育比賽(點代表攝像機,箭頭代表鏡頭對稱軸