《阿里云:超越感官沉浸賽場-大型體育賽事云上實戰精選(116頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:超越感官沉浸賽場-大型體育賽事云上實戰精選(116頁).pdf(116頁珍藏版)》請在三個皮匠報告上搜索。
1、封面頁(此頁面將由下圖全覆蓋,此為編輯稿中的示意,將在終稿 PDF 版中做更新)卷首語 從古至今,競技體育一直令人著迷。競技超越之力,書寫人類歷史的傳奇。剛剛過去的 2022,更是“體育超級年”,冬奧會、NBA、世界杯等各類大型體育賽事貫穿全年,跨越時空之限,撥動億萬心弦。由于疫情管控和物理空間限制,賽事直播愈加關鍵,而觀賽體驗也在不斷升級,越來越多的觀眾渴望獲得如臨現場,乃至超越現場的暢爽體驗,低延遲、超高清、超沉浸、強互動,成為體育賽事直播的極致追求。視頻云技術與邊緣云基礎設施的發展,使極致體驗成為可能。通過電視、電腦、手機、平板等各種終端設備,全球億萬觀眾足不出戶,就能第一時間、自由視角
2、觀賽,身臨其境感受賽場氛圍。本書精選阿里云視頻云與邊緣云在世界杯、NBA 總決賽、2022 北京冬奧會、2020 東京奧運會、英雄聯盟 S10 以及 CUBA 賽事的技術實踐,分享超低延時直播RTS、窄帶高清、虛擬演播廳等視頻云技術如何賦能大型體育賽事,實現幀級同步、超清還原、虛實融合的感官震撼,打造新一代超現實沉浸式極致體驗標桿。IMMENSE 目錄 第一章 世界杯:超低延時直播 RTS 的極限突破.4 直擊卡塔爾世界杯,超級流量池的速度與激情.5 解讀 RTS,看超低延時的世界杯直播,如何實現?.9 回顧俄羅斯世界杯,揭秘球星智能集錦技術.14 第二章 NBA 總決賽:窄帶高清的視覺渲染力
3、.21 如臨現場的視覺感染力,NBA 決賽還能這樣看?.22 NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀.28 第三章 2022 北京冬奧會:百年奧運的黑科技.47 視頻云的百年奧運 云上故事.48 百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”.55 百年奧運的沉浸其境:冰雪之外,與你同在“互動虛擬演播”.63 百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME.70 第四章 2020 東京奧運會:數智與虛擬之境.78 50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量.79 導播上云,把“虛擬演播廳”搬到奧運村.93 快捷、實時、穩定,隨時隨地打造虛擬沉浸
4、直播間.97 第五章 英雄聯盟 S10:全球首個實時字幕技術.106 全球首個游戲直播實時字幕技術 熱力支持英雄聯盟 S10 賽事.107 第六章 CUBA:“自由視角”的暢快賽事.111 5G+邊緣計算+自由視角,讓體育賽事更暢快.112 第一章 世界杯:超低延時直播 RTS 的極限突破(此頁面將由下圖全覆蓋,此為編輯稿中的示意,將在終稿 PDF 版中做更新)直擊卡塔爾世界杯,超級流量池的速度與激情 5 直擊卡塔爾世界杯,超級流量池的速度與激情 2022 卡塔爾世界杯呼嘯而來。11 月 20 日開幕,28 天賽期、64 場比賽,吸引全球 50 億觀眾,2022 卡塔爾世界杯是當之無愧的超級流
5、量場。世界杯是無界的狂歡,全世界的球迷無疑會守住直播現場,云觀賽、云互動。云上技術離不開阿里云的強力支撐,此次,阿里云對 2022 世界杯直播全程保駕護航,更以亞秒級的超低延時和超沉浸的視覺觀感,帶來直擊現場般的速度與激情。這已不是阿里云第一次支撐世界杯,在 2018 年的俄羅斯世界杯,阿里云便承載了全網 70%的流量,支撐優酷單場 2400 萬用戶同時涌入觀看,并為各大直播平臺提供技術產品服務。四年之后,2022 迎來直播流量的翻番增長,此次世界杯僅揭幕戰承載的直播流量,已超過 2018 屆世界杯決賽流量,峰值達到了 4 個 2022 年春晚的規模。決賽當日,抖音世界杯決賽直播間更是迎來超
6、3700 萬人同時在線的歷史峰值。阿里云作為抖音世界杯直播服務商之一,通過視頻云及網絡分發加速技術,為抖音平臺全程穩定、流暢的賽事直播提供堅實保障。直擊卡塔爾世界杯,超級流量池的速度與激情 6 同時,為配合主辦國卡塔爾的特殊氣候,本屆世界杯在冬季舉行,一些比賽場次的時間與國內用戶晚上習慣于消費音視頻的高峰時段重疊。因此,平臺規模和大規模賽事的技術保障能力至關重要。以阿根廷對戰沙特阿拉伯的比賽為例,單場直播峰值帶寬接近 40Tbps,相當于一秒內傳輸一萬部高清電影。超大流量洪峰的護航不僅在國內,此次卡塔爾世界杯,阿里云在支持抖音、咪咕、央視網等平臺的同時,還支撐眾多海外視頻直播平臺,助力全球共享
7、這一燃情賽事。盡管直播流量規模不斷攀升,阿里云對穩定、流暢的直播體驗和對視頻直播技術的極致追求一以貫之。1.采用更低的延時技術,帶來賽事“零時差”的更強互動。過去,大型體育賽事直播延時通常在 15s 以上,觀眾往往面臨著現場已在進球歡呼,直播仍是傳球的畫面,與賽場激情瞬間錯失“同頻”之機。針對過往賽事直播的延時痛點,2022 世界杯使用了阿里云 RTS 超低延時直播技術,這也是世界杯史上第一次將端到端直播延時縮短至 1s 左右,即使面對世界杯足球賽事這樣畫面切換快、運動性強的高碼率場景,仍能實現超低延時的絲滑觀賽體驗。2.面對大型賽事直播,“穩定性和高可靠”是一切體驗的“基石”。對于世界杯這樣
8、的世界頂級賽事,還面臨著用戶地域分布廣、用戶數量多、網絡復雜多樣的情況,也會帶來熱點賽程、黃金時段用戶量陡增等眾多挑戰。對此,阿里云利用全球加速(GA)建立直播信源到北上廣等地演播室的高品質網絡容災鏈路,為了應對“千萬級高并發”、“超低延時”等技術挑戰,阿里云從 9 月開始籌備卡塔爾世界杯直播護航工作,抽調經歷雙 11、奧運的技術骨干,依托飛天技術服務平臺(Apsara ServiceStack)構建“秒級監控、1 分鐘級響應、5 分鐘處置”的保障體系,并在賽前與抖音平臺共同完成多輪直播壓測與技術演練,為本屆世界杯共計 64 場比賽提供全面的技術護航服務。直擊卡塔爾世界杯,超級流量池的速度與激
9、情 7 同時,阿里云通過“秒級全鏈路監控機制”,實時捕獲抖動、卡頓、黑屏、音頻異常等問題,并精準定位原因,采用端到端的全鏈路主備雙重機制,從源流設備到實時加速主鏈路,保證這中間出現任何抖動卡頓或故障問題時,其備用環節瞬時啟動用戶無感的自動切換。配合這些技術手段,進行大型直播全程護航的阿里云工程師,也第一時間解決問題,確保用戶的全程流暢觀感。3.穩定性之上,是賽事直播的“場景多能力”釋放。作為眾多平臺的核心技術服務方,阿里云為 2022 世界杯直播提供了廣電級大型賽事直播解決方案,該方案可以基于視頻邊緣推流、窄帶高清轉碼、云上導播、AI 智能生產、全域邊緣節點分發等綜合技術能力,在超大流量并發下
10、,帶來更實時、更穩定、更高清、更豐富的直播觀賽體驗。阿里云基于全球實時流媒體傳輸網絡(GRTN),可保障千萬級用戶高并發下的高品質觀看體驗;全鏈路災備與應急預案,以及多年直播最佳實踐經驗,可以確保大型賽事直播落地的高可靠性;云上導播與互動虛擬演播技術,帶來制播一體的云端效能和實時沉浸互動的直播新體驗;同時,在“窄帶高清”轉碼技術之上,加之超高清 4K/8K、杜比音效、50 幀等音視頻能力,整體帶來極致視聽。直擊卡塔爾世界杯,超級流量池的速度與激情 8 多年來,阿里云的廣電級大型賽事直播解決方案已經過無數次歷練與創新。2018 世界杯賽事,保障了數千萬并發穩定流暢觀看;2020 迪拜世博會中國館
11、開幕式,做到 0 丟幀、0 卡頓的網絡直播;2022 年北京冬奧會,助力百年奧運首次啟用互動虛擬演播,打造實時沉浸報道;同時,阿里云也為多年央視春晚、每年的天貓雙 11 晚會,提供端到端的直播解決方案,在超高規格場景下持續保障直播穩定性和體驗性,沉淀了極深的技術厚度和豐沛的實戰經驗。2020 迪拜世博會中國館“阿里云日”一切因技術而改變,直擊第一次在北半球冬季舉行的世界杯,在冬日里的速度和激情之上,期待它的更多不同。發布時間:2022 年 11 月 22 日 作者:IMMENSE 解讀 RTS,看超低延時的世界杯直播,如何實現?9 解讀 RTS,看超低延時的世界杯直播,如何實現?2022 世界
12、杯,隨著阿根廷致勝點球破門而入,屏幕之外,球迷即可在下一秒同步分享球隊奪冠的喜悅。這就是說,在一秒之內,世界杯直播就把射門之況從遙遠的卡塔爾傳到億萬粉絲的手中之幕。是的,這一屆世界杯,阿里云 RTS 將直播端到端延時縮短至 1 秒。我們知道,過去受傳輸協議等因素限制,傳統直播技術存在明顯延遲,觀看比賽的時不能及時跟主播和廣大球迷互動分享。而今年世界杯,阿里云利用全球加速(GA)建立直播信源到北上廣等地演播室的高品質網絡容災鏈路,并運用 RTS 技術支持直播分發,將直播端到端延時縮短至 1 秒。然而,世界杯直播是如何實現這一秒極限的?剖析互聯網直播全鏈路,直播延時分布在采集、編碼、發送、分發、接
13、收、解碼、渲染這七個步驟,其中采集、編碼和解碼、渲染的總體延時較為固定,在 100 毫秒左右,而分發和接收環節的延時變動較大,從數十毫秒到數秒不等,要想將端到端的延時壓縮到 1 秒,主要需提高 CDN 的分發和傳輸效率,將直播內容實時傳送到用戶屏幕中。這其中核心發揮能量的,莫屬全球實時傳輸網絡 GRTN 和超低延時直播技術 RTS。解讀 RTS,看超低延時的世界杯直播,如何實現?10 阿里云全球實時傳輸網絡 GRTN 基于廣覆蓋和分布式異構的計算資源,支持自動切換就近節點,輕松調度資源,實現毫秒級延時、千萬級并發的傳輸能力,為用戶提供距離更近、時延更低的精彩賽事畫面。更重要的是,為了保障超低延
14、遲的直播服務,阿里云在 2022 世界杯直播中,啟用了超低延時直播技術 RTS(Real-time Streaming)。阿里云 RTS 是在全球實時傳輸網絡基礎之上,提供超低延時、易接入、高清流暢的視頻直播服務。RTS 對視頻直播進行全鏈路延時監控、CDN 傳輸協議改造和 UDP 等底層技術優化,通過集成 SDK,支持在千萬級并發場景下毫秒級延時直播的能力,彌補了傳統直播存在 36 秒延時的問題,保障低延時、低卡頓的極致直播觀看體驗。在直播過程中,傳統的 RTMP 推流存在 TCP 鏈接耗時過長、擁塞控制完全依賴 TCP傳輸層、無法提供實時帶寬數據來動態調整視頻編碼碼率等問題,導致推流延遲和
15、卡頓。超低延時直播技術 RTS 在下行 UDP 改造的基礎上,進行上行 UDP 底層 WebRTC 技術優化,通過發布移動端、PC 端推流 RTS SDK 插件來提升直播推流質量,提供秒開流暢、安全可靠的直播觀看體驗。解讀 RTS,看超低延時的世界杯直播,如何實現?11 同時,客戶端接入也十分簡單,無需改變原有的推流端采集架構,只需要嵌入 RTS SDK 即可新增一個推流協議,實現超低延時的直播效果。通過下圖 RTS 和 RTMP 直播協議的對比視頻,我們可以發現,在有一定丟包率的情況下,RTS 在體驗、流暢度和色彩上都相對 RTMP 有明顯的優勢。點擊這里查看視頻:RTS 與 RTMP 延遲
16、對比 基于這樣的技術能力,阿里云超低延時直播技術 RTS 具備以下六大核心優勢:秒級延時抗弱網:相比于傳統 RTMP 和 FLV 拉流的 5-10s 延時,RTS 的延時縮短至 1s,并且能夠基于線上的大數據進行自我學習和持續迭代。解讀 RTS,看超低延時的世界杯直播,如何實現?12 廣覆蓋高并發:基于阿里云廣泛的邊緣節點,RTS 服務支持百萬級推流,千萬級并發拉流播放。無縫遷移:RTS 服務支持在不改變原有架構的基礎上,僅需更新播放端,即可延續直播 RTMP 推流。開放標準:RTS 采用完全開放透明的 WebRTC 信令協議,方便采用自研播放器的客戶自行升級網絡模塊,接入阿里云的 RTS 服
17、務。簡單易用:RTS 可在原有直播使用方式上,與點播進行聯動,并支持轉碼、截圖、錄制、安全審核等多種場景功能。成熟穩定:歷經淘寶直播電商業務的大規模線上檢驗,RTS 目前已在淘寶直播全量上線,真正落地并幫助提高業務價值。RTS 的亞秒級延時和卓越的抗弱網能力,大幅提升了傳輸效率,在相同卡頓率下,延時可以降低 80%,將世界杯直播端到端延時縮短至 1 秒。同時,由于 RTS 能夠復用阿里云直播 CDN 的節點和網絡資源,從而有效平衡了直播對接入成本、節點覆蓋與承載能力的需求??傊?,這一屆世界杯因為有了 RTS,讓卡塔爾球場發生的每一個精彩瞬間,在一秒之內同頻到各地球迷的直播屏幕上。這一秒的背后,
18、不僅是體育競技的高光,更是直播技術千錘百煉的成果。發布時間:2022 年 12 月 22 日 作者:IMMENSE 解讀 RTS,看超低延時的世界杯直播,如何實現?13 點擊這里或抖音掃描如下二維碼 點擊這里或抖音掃描如下二維碼 查看視頻:超低延時的世界杯直播,是如何實現的?查看視頻:超低延時的世界杯直播,是如何實現的?回顧俄羅斯世界杯,揭秘球星智能集錦技術 14 回顧俄羅斯世界杯,揭秘球星智能集錦技術 2018 年俄羅斯世界杯與歷屆不同,不僅呈現了精彩絕倫的比賽,也是球星們展示個人能力、俘獲俱樂部和粉絲青睞的重要舞臺。阿里云視頻云利用視頻 AI+云剪輯+媒資管理的技術,賽后為球星們生成集錦視
19、頻,不僅可為生產方快速提供素材,還可滿足球迷們的“追星”需求。阿里云智能集錦技術與傳統的人工制作方式相比,可在比賽結束后分鐘級生成集錦視頻,速度提升 10 倍以上。目前世界杯球星集錦功能已在阿里云視頻點播產品上線,后續會對用戶開放足球賽事明星集錦的功能,用戶只需開通相關 AI 服務就可以零門檻使用該功能。接下來,本文就將揭秘世界杯球星智能集錦的技術實現過程。球星集錦的整體實現流程如下圖所示:左側使用了視頻云的基礎能力:直播媒體處理點播,得到用于進行集錦處理的原始素材,本文則重點介紹右側視頻 AI云剪輯媒資庫的部分?;仡櫠砹_斯世界杯,揭秘球星智能集錦技術 15 1.球星注冊 雖然視頻云的明星識別
20、服務已經內置了 5000+的明星,但為了提升球星識別的準確率,我們采用了自定義人物庫+人物注冊的方式,為世界杯的球星建立獨立的人物庫,并選取合適的球星照片進行注冊。一方面降低了識別過程受到相似明星干擾的幾率,另一方面人物庫的規模精簡,也將提升人物識別的速度。2.多模態融合的視頻 AI 技術 球星集錦的第一步:人物識別。視頻云提供的人物識別服務可以識別視頻中已注冊的球星并進行人物 Target 追蹤,同時在工程層做了一定程度的容錯處理和補償優化,會對人物在視頻中出現的時間線、幅面坐標及置信度進行綜合的動態分析,以減少算法在某些幀識別率低(比如畫面變化劇烈、人物轉頭角度過大等情況)而導致人物時間線
21、中斷的問題。最終我們可以得到球星們的人物區間組,這也是球星集錦的基礎區間組,如下所示,以某個球星的人物區間組為例:R1=f1s,f1e,f2s,f2e,fms,fme 但僅靠人物識別是遠遠不夠的,因為人物識別對視頻中人物出現的像素,角度以及清晰度都有一定的要求,對于在世界杯比賽占很大比例的全景鏡頭中出現的球星們,人物識別顯得無能為力。甩出兩行照片做對比更為直觀:回顧俄羅斯世界杯,揭秘球星智能集錦技術 16 第一行的兩幀畫面,C 羅無疑可以通過人物識別技術被識別出來;然而第二行的兩幀畫面,紅框里穿紅色球衣的也是 C 羅.但根本找不到人在哪兒。因此只靠人物識別做出來的不是球星集錦,而是.球星正臉大
22、頭集錦。所幸,我們還有 ASR、OCR 和 MAM。就與解說在足球比賽中的發揮著至關重要的作用一樣,語音識別 ASR 也是球星集錦不可或缺的又一利器。而比賽的解說詞包含了非常豐富的信息,在球星集錦的實現過程中,我們使用了世界杯場景的語音識別模型,該模型對球員名稱、足球術語、解說員的語速/語氣/語調等進行了額外的訓練和優化,尤其是在聲學模型上針對足球場景下的球場噪聲及觀眾噪聲進行了適應性訓練,使得其最終對世界杯解說詞的識別準確率提升了超過 10 個百分點,高達 90%以上。我們通過 ASR 可以拿到將比賽按語音斷句結構化分析的結果,如下所示:R2=a1s,a1e,a2s,a2e,ans,ane
23、至此,我們已經獲取了兩組時間線數據,分別是人物時間線和解說詞時間線。后面將真正開始進行工程層面的多模態融合,這個過程也將對足球場景進行深入理解和分析。在世界杯比賽中,鏡頭切到球員特寫畫面時,一般情況下,標志著某個事件進展了一半。為什么會這么說呢?世界杯比賽的轉播一般有幾十個機位,大致包括全景、中近景、特寫及用于慢放的高速攝像機等機位,正常情況下導播會切到全景機位進行轉播,只有當某些事件發生后,才會切到中近景及特寫機位,如下圖:回顧俄羅斯世界杯,揭秘球星智能集錦技術 17 切到近景/特寫之前,往往是事件的前序和鋪墊;切到近景/特寫之后,將會是事件的高潮與慢鏡回放:而使用往屆世界杯比賽視頻進行訓練
24、的結果也驗證了這一點。因此我們使用球星的每組人物區間為基礎,將其區間的入點和出點向兩側延伸一段距離,形成新的區間組:R3=f1s-i1s,f1e+i1e,f2s-i2s,f2e+i2e,fms-ims,fme+ime 回顧俄羅斯世界杯,揭秘球星智能集錦技術 18 如果新的區間組內包含了與球星相關的關鍵事件,則使用該區間組;如果沒有則使用原區間組??此坪唵蔚囊巹t,實際還需要解決幾個關鍵問題:如何識別關鍵事件 在本次球星集錦的實現方案中,主要靠語音關鍵詞完成。具體包括球員名稱/別名,以及足球比賽的關鍵事件詞,而這些關鍵事件詞則以進球與射門相關詞條為主。因此將解說詞時間線的區間組與 R3 進行交叉匹
25、配,如果命中了關鍵事件,則保留解說詞中的該區間組,并與 R3 中時間區間的入出點取并集,如下,R3 的某些時間區間將進一步修正:R4=f1s-i1s,i1e+i1e,aks,ake,fms-ims,fme+ime 如何判斷關鍵事件與當前球星有關 需要進一步結合文本識別 OCR 與比賽實時場記 Live Blog 的獲取與生成。通過 OCR我們可以監測比分的變化及比賽其他重要實時信息(可能包括關鍵球員名稱及事件等)?;仡櫠砹_斯世界杯,揭秘球星智能集錦技術 19 如果沒能通過 OCR 獲取需要的數據,則可以進一步借助 Live Blog,從互聯網(比如 FiFa 官網的 Match Live Bl
26、og)爬取相關信息,并結合媒資庫中的球星庫,快速生成基于人物的場記信息。這里也是當前做的不太好的地方,當無法驗證關鍵事件與球員相關性的情況下,該球星的集錦可能會出現無關畫面。如何決定新的區間組應該往兩側延伸多少時長 與媒資庫/往屆世界杯視頻的訓練數據有密切關系。媒資庫-球星庫中的球星,包括名字、國家隊、位置、編號等信息。不同位置的球員在關鍵事件中停留的時長也不同,而這個參考值則來源于對往屆世界杯視頻訓練的結果。如何保證片段的完整性及片段間的平滑切換 在本項目沒有用到鏡頭檢測的前提下,仍然依賴語音識別結果來予以保證。結合語音識別的斷句及句子的連續性校驗,當某個區間組的 In 或 Out 落在某句
27、解說詞中間,則修正 In/Out,與語音識別文本條目的 In/Out 一致,如下:R5=f1s-i1s,aje,aks,ake,fms-ims,fme+ime 3.云剪輯 云剪輯是生成球星集錦的最后一步。云剪輯服務接收視頻 AI 輸出的最終時間線,對原始素材進行剪切合并??筛鶕枰_啟并行剪輯模式,分片剪輯后合并。這種模式下,原始素材片段越多,剪輯倍速越高??山邮崭呒壖糨媴?,如在不同剪輯片段之間增加轉場,在球星首次特寫幀增加貼紙,使用背景音樂,增加片頭片尾等,豐富集錦效果?;仡櫠砹_斯世界杯,揭秘球星智能集錦技術 20 4.后續優化 第一個需要優化的點是集錦產出的時效性:由半場比賽結束才開始
28、AI 處理,改為取一定時長的分片(比如 5 分鐘)依次處理,最后再將處理結果進行合并,可使集錦的生產速度提升到賽后分鐘級。其次,在整個 AI 處理中增加鏡頭檢測、關鍵動作識別、人物跟蹤的功能,可以為每位球星獲取更為精準的時間線。最后,在云剪輯服務中增加剪輯 Effect 模版的功能,將剪輯的高級功能封裝到模版中,降低視頻 AI 與剪輯結合的使用成本。5.擴展性 在當前的技術條件下,不談場景講 AI 是不客觀的?;趯ψ闱虮荣惖霓D播、打法、規則、套路、球星們的了解,最終在一周內完成球星集錦的初版開發。而針對世界杯場景的球星集錦也相對比較容易擴展,在對球員數據、比賽視頻進行補充訓練的基礎上,可考慮
29、應用于足球比賽的人物集錦。另外,基于工程層面的多模態融合,經過總結抽象,也可在其他 AI 場景中嘗試應用?;谥悄芗\技術,阿里云為世界杯球迷提供賽后分鐘級生成的精彩集錦畫面,與此同時,大大縮短了企業內容生產的制作效率,為云端智創提供新的商業價值。發布時間:2018 年 7 月 9 日 作者:鷺青 第二章 NBA 總決賽:窄帶高清的視覺渲染力(此頁面將由下圖全覆蓋,此為編輯稿中的示意,將在終稿 PDF 版中做更新)如臨現場的視覺感染力,NBA 決賽還能這樣看?22 如臨現場的視覺感染力,NBA 決賽還能這樣看?作為籃球界的頂級賽事,2022 NBA 總決賽吸引了眾多關注,互聯網各大平臺的賽事直
30、播氣氛也異常熱烈。平臺如何既能展現專業的賽事解說,又能與球迷觀眾深入互動?百視 TV 在 NBA 總決賽期間,作為全網唯一采用“主播陪你看 NBA”模式的直播平臺,吸引了大量流量。與傳統的賽事直播解說相比,百視 TV 的主播們用“嘮嗑”的方式讓球迷能參與進來,為球迷朋友們帶來“零時差、超沉浸”的互動觀賽體驗。采取“陪看型”賽事解說是百視 TV 在面對內容差異化競爭的重要舉措,為了帶來更優質的觀看體驗,百視 TV 聯手阿里云視頻云在賽事直播畫面質量上打造更進一步的體驗提升。1.窄帶高清 2.0:打破賽事直播畫質痛點 賽事直播是面臨痛點的。如臨現場的視覺感染力,NBA 決賽還能這樣看?23 籃球賽
31、事直播相比泛娛樂和電商場景,由于畫面切換快、運動性很強,往往需要高碼率流。然而,高碼率的直播在跨國傳輸中可能會受網絡質量波動,造成音視頻卡頓及延遲。為了保證直播的穩定性和基于播放端的絲滑觀賽體驗,百視 TV 選擇了較小碼率的源流。然而,相比于高碼率流的畫面畫質,低碼率流會有較明顯的壓縮失真、細節模糊和弱紋理丟失。對于籃球賽事場景來說,就會造成如球星球衣上的文字模糊、籃網模糊、邊界線及地面上文字邊緣毛刺多等諸多畫質現象,導致觀看體驗不佳。為了更好地平衡直播流暢性、穩定性和高清畫質體驗,百視 TV 在 2022 NBA 決賽轉播過程中先選擇相對較低的碼率實現穩定的跨國傳輸,將源流拉到國內后再做修復
32、,在此過程中,百視 TV 便使用了阿里云視頻云的“窄帶高清 2.0”技術。如下圖,通過“窄帶高清 2.0”技術的自適應亮度、對比度和色彩增強算法,智能化增強賽場畫面中較柔和及灰暗顏色的強度,為低碼率的源視頻增強整體畫面色彩表現力,提升觀賽體感。如臨現場的視覺感染力,NBA 決賽還能這樣看?24 上為源流效果,下為修復后效果 阿里云視頻云的“窄帶高清 2.0”引入 AI 進行細節、色彩自適應修復和增強,從人眼視覺模型出發,將編碼器的優化目標從經典的“保真度最高”調整為“主觀體驗最好”。降碼 由于人眼感知的視頻空間域的亮度、對比度以及時域失真是不連續的,通過自適應編碼技術丟棄視覺冗余信息,在主觀質
33、量不發生明顯降低的情況下能大幅節省碼率,即,使用“窄帶高清”轉碼相比普通轉碼,可節省至少 20%-40%左右的碼率。如臨現場的視覺感染力,NBA 決賽還能這樣看?25 高清 同時,通過視頻壓縮失真程度自動檢測算法,以及對編碼器的主觀體驗優化,強化人眼關注的細節、聚焦區域、規則紋理,通過自適應亮度、對比度和色彩增強算法,來使整個畫面更加生動自然。據百視 TV 相關技術人員描述,使用窄帶高清技術后,雙屏顯示器上的“源流視頻”與“修復后視頻”的對比效果非常明顯。點擊這里查看視頻:左為源流效果,右為修復后效果 專為籃賽場景定制模板 此外,阿里云視頻云的算法團隊針對籃球賽事場景,專為百視 TV 定制了直
34、播賽事的轉碼模版和 AI 修復模型,并針對 NBA 比賽場景做了特別優化,加強了籃球場地板紋理、球員近景特寫、球場邊界線、地面廣告字母、球衣上數字、籃球網等等籃球體育賽事特有元素的修復生成。如下圖,即使在鏡頭高速運動及畫面切換下,并且將畫面細節高度放大,“窄帶高清”技術也依然可以將球場邊界線、地面廣告字母的細節做到完美的修復,大大提升畫面清晰度和整體視覺表現。如臨現場的視覺感染力,NBA 決賽還能這樣看?26 左為源流效果,右為修復后效果 2.廣電級文體直播的能力演進 阿里云視頻云的“窄帶高清”概念最早在 2015 年提出,在多年反復實踐于眾多互聯網與傳媒行業中,該技術在持續不斷地研發演進,以
35、契合不同場景對于低碼率和高清晰的體驗調和。如臨現場的視覺感染力,NBA 決賽還能這樣看?27 尤其是如今的窄帶高清 2.0,作為阿里云文體直播解決方案的一項重要技術,突破當代視頻編碼器的能力上限,對技術進行升級與迭代,深度優化視頻播放的流暢度與高清度,實現在同等畫質下更省流、在同等帶寬下更高清的商業價值和觀看體感,雙重滿足企業與觀眾。同時,窄帶高清 2.0 更有面向不同行業、場景的轉碼方案,如體育賽事、演唱會、文化演出等場景,也支持結合杜比音效提供影院級視聽享受,為大型文化活動與體育賽事直播帶來極致流暢、視覺飽滿、深度沉浸的觀看體驗。在核心能力之上,阿里云系統化的文體直播解決方案能力更加全面有
36、力。其中,基于全球實時流媒體傳輸網絡(GRTN),可以保障千萬級用戶高并發下的高品質觀看體驗;全鏈路災備與應急預案,以及多年直播最佳實踐經驗,可以確保大型直播落地的高可靠性;云上導播與互動虛擬演播技術,帶來制播一體的云端效能和實時沉浸互動的直播新體驗;同時,在“窄帶高清”轉碼技術之上,加之超高清4K/8K、杜比音效、50 幀等音視頻能力,整體帶來極致視聽。一切都是極致的、智能的、高品質和高體驗的?;谶@樣的能力,阿里云的文體直播解決方案已實現大量的頂級賽事和重大活動的直播驗證,在無數次歷練與創新中積累了深厚的技術基礎與實戰經驗,也讓全球觀眾第一時間享受高品質的第一現場。一切因技術而不同,期待更
37、多精彩賽事下的技術更迭與體驗升級。發布時間:2022 年 6 月 24 日 作者:IMMENSE NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 28 NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 在 2022 年 6 月的 NBA 總決賽中,百視 TV 作為全網唯一采用“主播陪你看 NBA”模式的直播平臺,以“陪看型”賽事解說來面對內容差異化競爭。與此同時,百視TV 還運用了“窄帶高清 2.0”直播轉碼技術,為觀眾在賽事畫面質量上打造更進一步的體驗提升。簡單來說,“窄帶高清”是一套以“主觀體驗最好”為優化目標的視頻編碼技術,讓我們看一張對比圖,感受一下畫質提升效果:上圖
38、為主播推流原畫,下圖為修復后畫面 NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 29 上圖上半部分是主播推流的原畫,下半部分是使用窄帶高清 2.0 技術轉碼后的畫面??梢钥吹?,經過窄帶高清 2.0 技術轉碼,球衣上的數字、地板上的英文字母、籃網、邊界線等變得更加清晰。此外,畫面整體清晰度都有明顯的提升,甚至地板紋理和場外觀眾輪廓都會肉眼可見變得更加清晰。下文將深度解讀為 NBA 直播賽事帶來超清畫質背后的“窄帶高清”技術原理。1.窄帶高清技術 阿里云早在 2015 年就已經提出了“窄帶高清”的概念,在 2016 年正式推出窄帶高清技術品牌并進行產品化。窄帶高清代表的是一種成本與體驗
39、相調和的視頻服務理念,是以人眼主觀感受最優為基準的視頻編碼技術?!罢瓗Ц咔濉笔疽鈭D 窄帶高清本質上是一個質量提升和壓縮的問題,主要目標是追求質量、碼率和成本的最優均衡。在這個方向有兩個版本,即窄帶高清 1.0 和窄帶高清 2.0(以下簡稱“窄高”)。窄高 1.0 是均衡版,主要作用是如何用最少的成本去實現自適應的內容處理和編碼,達到節省碼率的同時實現畫質的提升。所以,在窄高 1.0 充分利用編碼器里的信息幫助視頻處理,即用成本很小的前處理方法實現低成本的自適應內容處理和編碼。同時,在編碼器里,主要是基于主觀的碼控。NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 30 窄高 2.0 和
40、窄高 1.0 相比會有更多的、更充分的和復雜度更高的技術來保證自適應能力,包括 JND 自適應內容編碼、ROI 編碼、SDR+、更自然的細節增強等。同時,在窄高 2.0 里增加了更適用于高熱內容的修復能力,在質量提升的同時,碼率節省也更多。2.賽事直播的挑戰 當前,窄帶高清技術在長視頻、短視頻、泛娛樂、在線教育、電商直播等場景有著廣泛應用。相較于長視頻和電商直播等場景,NBA 籃球賽事直播由于畫面切換快、運動性很強,往往需要高碼率流。然而,高碼率的直播尤其是 NBA 比賽直播在跨國傳輸中可能會受網絡質量波動,造成音視頻卡頓及延遲。為了保證直播的穩定性和基于播放端的絲滑觀賽體驗,百視 TV 選擇
41、了較小碼率的源流。于是,面臨真實場景下的多個挑戰:挑戰 1:低碼流導致賽場畫面模糊失真 相比于高碼率流的畫面畫質,低碼率流會有較明顯的壓縮失真、細節模糊和弱紋理丟失。對于籃球賽事場景來說,就會造成如球星球衣上的文字模糊、籃網模糊、邊界線及地面上文字邊緣毛刺多等諸多畫質現象,導致觀看體驗不佳。挑戰 2:劇烈運動畫面的“去交錯處理”殘留 除了低碼率流帶來的壓縮失真細節模糊外,體育比賽場景還有一個特有的問題,即原始信號一般是隔行掃描采集的,在互聯網傳輸時首先需要做“去交錯處理”,但是對于劇烈運動畫面,很難保證有完美的去交錯處理,通常會有一些“交錯”沒有去除干凈,形成一些殘留噪聲。NBA 賽事超清畫質
42、的背后:窄帶高清 2.0技術深度解讀 31 挑戰 3:數次轉碼后的畫面損失 此外,基于企業客戶當前業務邏輯,直播視頻從拍攝到終端用戶,經歷了數次轉碼,每一次轉碼,都會帶來一定的壓縮失真和畫質損失。為了更好地平衡直播流暢性、穩定性和高清畫質體驗,百視 TV 在此次 NBA 決賽轉播過程中先選擇相對較低的碼率實現穩定的跨國傳輸,將源流拉到國內后再做修復,在此過程中,百視 TV 便使用了阿里云視頻云的“窄帶高清 2.0”技術。3.針對體育賽事的解決方案 針對體育賽事視頻,如果簡單地使用阿里云線上常規窄帶高清轉碼,存在兩大弊端:難以修復體育賽事視頻中的特有噪聲,同時還有可能把一些噪聲放大,從而影響觀看
43、體驗。常規窄帶高清無法對籃球場景的特有元素比如球衣上數字、籃網、邊界線等實現完美修復。為此,窄帶高清 2.0 針對體育賽事場景,對已有的原子算法能力進行了優化組合,同時部分算法針對籃球賽場景進行了定向調優。最終采用的轉碼流程如下圖所示:直播轉碼算法流程 NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 32 4.關鍵技術解析 1)視頻理解 極致修復生成 前面已提到我們輸入源本身畫質不高,同時還經過了多次轉碼,因此第一個處理步驟為修復生成,其主要目的是修復視頻中的多種瑕疵,比如壓縮塊效應、壓縮偽影、邊緣毛刺、去交錯后殘留噪聲、模糊等,同時生成一些因壓縮丟失的細節紋理。學術界有不少利用深度
44、學習去專門做去壓縮失真、專門做去模糊的研究工作。比如早期做圖片去壓縮的 ARCNN1,做視頻去壓縮的 MFQE2,早期端到端去模糊算法DeepDeblur3。比較新的方法有:自帶壓縮程度估計的圖片去壓縮算法 FBCNN4,基于可形變卷積的視頻去壓縮算法 STDF5,無需非線性激活的 NAFNet6等等。這些算法大部分都是針對單一任務構造數據集和設計網絡結構進行模型訓練,得到的模型只能處理單一退化類型,但是在這次百視 TV NBA 比賽直播轉碼中,我們要處理的視頻同時包含多種“退化降質”,除了典型的視頻壓縮,還有相機失焦模糊/運動模糊,去交錯后殘留噪聲等。圖片去壓縮算法 ARCNN 的網絡結構
45、NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 33 視頻去壓縮算法 MFQE 的網絡結構 端到端去模糊算法 DeepDeblur 的網絡結構 為了解決上述諸多“退化”,一種方式是針對每一種退化訓練一個模型,然后依次運行這些模型。這種方式的優點是每個模型的任務變得比較簡單,方便構造數據集和訓練,但在實際使用時效果并不好,因為其他退化會帶來很大的干擾,導致算法性能急劇下降。于是,我們采用了第二種方式,即用一個模型來處理多種退化。第二種方式的好處是可以取得相對更好的處理效果,難點在于訓練數據的構造比較復雜,對網絡容量的要求較高,需要同時兼顧多種退化方式,這其中還可以有多種排列組合。NBA
46、 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 34 在訓練數據構造方面,我們借鑒了圖像超分領域的 BSRGAN7/Real-ESRGAN8和視頻超分領域的 RealBasicVSR9中的數據退化方式,同時添加了一些體育賽事直播場景特有的退化模式來模擬場地邊界線處的鋸齒、白邊等瑕疵。在網絡結構方面,為了減少計算量,我們采用了單張圖片處理方式,可以采用經典的 ESRGAN10模型或常見的 UNet12結構,亦或 ResSR13提到的 VGG-Style 結構。在損失函數方面,考慮到需要修復因各種退化丟失的細節,除了使用常見的 L1/L2 loss 外,還使用了 percectual loss
47、 和 GAN loss。BSRGAN 提出的多種圖像退化方式 基于 GAN 的生成網絡的一個主要問題是魯棒性和時域連續性不夠好。魯棒性問題是指能否穩定地生成比較自然的紋理,比如有些 GAN 模型有時生成出來的細節紋理比較奇怪不自然,尤其是當在人物區域生成一些奇怪紋理時會比較恐怖。時域連續性問題是指相鄰幀生成出來的紋理是否保持一致,如果不一致則會產生閃爍現象,降低觀看體驗。為了解決魯棒性問題,尤其是人物區域魯棒性,我們借鑒了 LDL14中通過檢測 fine-scale details 區域并加以額外懲罰來提升 fine-scale details 生成效果的思想,通過人物區域分割得到人物區域,對
48、人物區域生成效果施加額外的懲罰來提升人物區域細節生成的魯棒性。NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 35 人物區域分割 針對時域連續性問題,我們采用了 TCRnet 網絡來作為額外監督信號來提升。TCRnet網絡原本用于超分任務,通過簡單改造可用于修復任務,該網絡用 IRRO 偏移迭代修正模塊結合可變形卷積,來提高運動補償的精度,同時利用 ConvLSTM 進行時序信息的補償防止造成信息誤差,從而提升時域連續性。TRCNet 網絡結構 NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 36 下面兩張圖對比了源流和修復后效果。從第一張對比圖可以看出,修復后地板上的字母
49、 GARDEN 的邊緣變得非常清晰銳利,邊界線、球員輪廓及球衣上數字 22 也變得更清晰,此外地板紋理也得到修復。第二張對比圖也能看到場外觀眾輪廓和衣服上線條變得更清晰,此外原本扭曲成鋸齒狀的地板邊界線也變直了。NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 37 模型加速 為了獲得極致修復生成效果,基于深度學習的 AI 算法通常是首選算法。但深度學習算法的一個問題是計算量大,而對于視頻修復生成這種 low level 視覺任務來說,計算量比普通 high level 視覺任務還要大很多。一方面,視頻修復生成模型的輸入通常是視頻原分辨率,而像檢測分類這種 high level 處理模
50、型的輸入分辨率,可以比原分辨率小很多,且基本不影響檢測分類性能。而同樣的網絡結構,輸入分辨率越大計算量越大,所以視頻修復模型的計算量要大很多。另一方面,視頻修復生成模型的輸出是和輸入視頻同分辨率的視頻幀,這勢必使得模型后半部分的計算量也會很大,因為后半部分也需要在比較高的分辨率特征圖上做計算,不像檢測分類 high level 任務只輸出目標框或類別這種語義信息,模型后半部分雖然通道數多但因為特征圖分辨率小所以總體計算量小很多。此外,對于體育賽事直播,視頻幀率通常都是 50fps,藍光檔位的分辨率通常是1080p,也就是深度學習模型在 1080p 輸入下需要至少跑到 50fps,這對深度學習算
51、法是非常大的挑戰。針對這一情況,我們從多個維度進行模型推理加速。首先,對深度學習模型做壓縮,比如通過神經架構搜索(Neural Architecture Search,NAS)或剪枝降低模型大小,為了彌補模型變小之后的性能損失,需要對壓縮后的模型,進行知識蒸餾訓練提升小模型的性能,此外還可以通過 8bit 整型量化或者FP16 半精度來進一步降低計算量。其次,可以通過選擇合適的硬件和推理框架來獲得極致的速度提升,比如使用高性能 GPU 卡和配套的推理框架實現最優配置。為了進一步提升推理速度,還可以使用多 GPU 卡并行計算。通過上述多種方式加速,在 1080p 分辨率輸入下,處理速度從 8fp
52、s 提升到 67fps,完全滿足 50fps 直播轉碼需求。NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 38 深度學習算法加速分類 清晰度增強 為了提升觀看體驗,在上述極致修復生成基礎上,進一步做了清晰度增強處理。最簡單的清晰度增強算法就是做銳化處理,比如 ffmpeg 自帶的 unsharp 和 cas 就是兩種簡單的銳化算法。unsharp和cas這兩種方法都是基于USM(UnSharp Mask)框架設計的,USM 框架可以用如下公式15來描述:其中,original 待銳化的圖像,blurred 是 original 的模糊版本,比如高斯模糊后的版本,這也是 unshar
53、p 名字的由來。(original-blurred)表征的是原始圖像的細節部分,乘以 amount 之后疊加到原圖,即可獲得細節更銳利看起來更清晰的圖sharpened。NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 39 除了銳化,還可以通過調節對比度、亮度、色彩等方法來提升清晰度。在百視 TV 籃球賽直播中,我們使用自研的銳化、亮度、對比度和色彩增強算法來實現清晰度的進一步提升。其中,相比開源銳化算法如 unsharp,阿里云視頻云自研銳化算法具有如下特點:更精細的圖像紋理細節提取方式:能提取不同尺寸,不同特征的圖像紋理結構,增強效果更優;通過對圖像內容紋理結構分析,根據區域紋理
54、復雜度實現局部區域自適應增強;與編碼結合,根據編碼器的編碼信息反饋,來自適應調整增強策略。細節增強(銳化)算法流程 2)碼率分配 JND 通過前面的極致修復生成和清晰度增強,細節信息得到極大增加,同時我們希望經過壓縮編碼后能盡量保留這些信息。我們知道,傳統的視頻編碼是基于信息論的,所以它在一直做時域冗余、空域冗余、統計冗余等等冗余的去除,但是對視覺冗余的挖掘是遠遠不夠的。下圖取自于王海強博士的一篇 paper,它的思路是傳統做 RDO,是一個連續的凸曲線,但在人眼中它是個階梯形的,那我們只要找到這個階梯就可以省下碼率,同時不影響主觀質量。JND(Just Noticeable Differen
55、ce)正是基于這個思路對視覺冗余進行挖掘。NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 40 比特率與感知失真關系 阿里云視頻云自研的 JND 算法從空域和時域兩個維度,對視覺冗余進行充分挖掘,實現在通用場景下,同等主觀質量碼率節省 30%以上。有了該自研 JND 算法,使得通過極致修復生成和清晰度增強獲得的細節信息經過較低碼率編碼后,仍然得以保留。JND 算法流程 NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 41 ROI 前面所述的 JND 算法通過對視覺冗余的挖掘能節省 30%以上的碼率,但這種碼率節省是完全基于 low level 統計信息來獲得的,并沒有考慮
56、high level 語義信息。針對體育賽事場景中觀眾們很關注的人物近景特寫鏡頭,我們希望能夠讓人物特寫更清晰地呈現在觀眾面前。除了通過極致修復生成獲得清晰人物特寫外,還要通過某種方法使得編碼后仍然保持清晰。在此,需要用到我們自研的 ROI 編碼技術。ROI(Region Of Interest)編碼是一項基于感興趣區域的視頻編碼技術,簡單來說就是給圖像中感興趣區域分配更多碼率已提升畫質,對其他不感興趣區域分配較少碼率,可實現總體碼率基本不變的情況下提升視頻整體觀看體驗。ROI 編碼的主要難點在于:要有成本足夠低速度足夠快的 ROI 算法,以滿足高分辨率高幀率體育賽事直播要求。如何基于 ROI
57、 進行碼控決策,使得 ROI 區域主觀質量提升,非 ROI 區域主觀不下降,同時保持時域連續不閃爍。在低成本 ROI 計算方面,我們自研了自適應決策的人物檢測跟蹤算法,即大部分時間只需要做計算量極小的人物跟蹤,只有少部分時間需要做人物檢測,從而實現超低成本和快速 ROI 獲取,同時保持很高的精度。在碼控決策上,一方面與編碼器結合,在主觀和客觀之間取得均衡,保持時域一致;另一方面與 JND 結合,在 ROI 和非 ROI 之間取得主觀均衡,從而實現場景、質量自適應的碼率分配。NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 42 ROI 算法流程 3)編碼內核 針對體育賽事直播場景,在視
58、頻編碼內核方面,我們做了主觀快劃分優化和塊效應優化,以提升壓縮后視頻的主觀清晰度,降低塊效應,從而提升整體觀看體驗。主觀塊劃分 編碼器的塊劃分模式決策是根據最佳率失真模型 RDO(Rate Distortion Optimization,率失真優化)來決策:其中 D 表示失真,R 表示編碼當前模式所需的 bit 數。在塊劃分決策時,有時會出現最終決策為大塊,但從主觀上看劃分為小塊的結果更好的情況。這是因為大塊模式雖然失真 D 更大,但 R 更小,導致編碼器最終決策為大塊劃分。針對這種情況,我們修改了不同塊劃分模式的失真表達式,針對不同大小的塊增加不同的權重系數,使得最終劃分的結果與主觀更一致。
59、NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 43 優化前 優化后 優化前塊劃分 優化后塊劃分 塊效應優化 視頻編碼的率失真理論與人眼感受比較貼切,按照率失真理論構建的編碼器也是對人眼主觀質量的優化,唯一的問題在塊效應,因為人眼會放大直線,對塊效應很敏感。NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 44 我們觀察到,在基于客觀的 RDO(Rate Distortion Optimization,率失真優化),編碼部分模式會放大塊效應,而 265 協議中的 deblock 在該場景失效。同時我們發現在平坦區域場景,模糊加噪聲的效果要優于清晰塊效應?;谝陨嫌^察,我們采用
60、了如下塊效應優化策略以盡量減少塊效應,提升觀看體驗。塊效應優化算法流程 下圖是我們做塊效應優化前后的對比圖??梢钥闯?,右邊做了優化的結果中塊效應明顯降低。優化前 優化后 NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 45 4)視頻效果展示 通過前述視頻處理、碼率分配優化和編碼內核優化,最終實現畫質極致修復和1080p下 50fps 直播轉碼,為觀眾提供流暢、穩定和高清的觀看體驗。點擊這里查看視頻:左為源流效果,右為修復后效果 由此可見,通過與百視 TV 的 NBA 賽事合作,充分體現了“窄帶高清 2.0”技術在籃球賽事直播中對視覺體驗提升的重要價值,其帶來同等畫質下更省流、同等帶寬
61、下更高清的商業意義與觀看體感平衡。未來,窄帶高清技術也將持續升級,通過算法能力進一步提升修復生成效果、降低碼率和優化成本。與此同時,該項技術也將應用于更多的頂級賽事活動,在成本優化調和之上,實現視效體驗的全新升級。發布時間:2022 年 6 月 29 日 作者:明爍、孟婆 NBA 賽事超清畫質的背后:窄帶高清 2.0技術深度解讀 46 參考文獻:1 ARCNN:Chao Dong,et al.,Compression Artifacts Reduction by a Deep Convolutional Network,ICCV2015 2 MFQE:Ren Yang,et al.,Multi
62、-Frame Quality Enhancement for Compressed Video,CVPR2018 3 DeepDeblur:Seungjun Nah,et al.,Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring,CVPR2017 4 FBCNN:Towards Flexible Blind JPEG Artifacts Removal,ICCV2021 5 STDF:Jianing Deng,et al.,Spatio-Temporal Deformable Convoluti
63、on for Compressed Video Quality Enhancement,AAAI2020 6 NAFNet:Liangyu Chen,et al.,Simple Baselines for Image Restoration,https:/arxiv.org/abs/2204.04676 7 BSRGAN:Kai Zhang,et al.,Designing a Practical Degradation Model for Deep Blind Image Super-Resolution,CVPR2021 8 Real-ESRGAN:Xintao Wang,et al.,R
64、eal-ESRGAN:Training Real-World Blind Super-Resolution with Pure Synthetic Data,ICCVW2021 9 RealBasicVSR:Kelvin C.K.Chan,et al.,Investigating Tradeoffs in Real-World Video Super-Resolution,CVPR2022 10 ESRGAN:Xintao Wang,et al.,ESRGAN:Enhanced Super-Resolution Generative Adversarial Networks,ECCVW2018
65、 11 ESRGAN:Xintao Wang,et al.,ESRGAN:Enhanced Super-Resolution Generative Adversarial Networks,ECCVW2018 12 UNet:Olaf Ronneberger,et al.,U-Net:Convolutional Networks for Biomedical Image Segmentation,MICCAI2015 13 RepSR:Xintao Wang,et al.,RepSR:Training Efficient VGG-style Super-Resolution Networks
66、with Structural Re-Parameterization and Batch Normalization,https:/arxiv.org/abs/2205.05671 14 LDL:Jie Liang,et al.,Details or Artifacts:A Locally Discriminative Learning Approach to Realistic Image Super-Resolution,CVPR2022 15 USM:https:/en.wikipedia.org/wiki/Unsharp_masking 第三章 2022 北京冬奧會:百年奧運的黑科技
67、(此頁面將由下圖全覆蓋,此為編輯稿中的示意,將在終稿 PDF 版中做更新)視頻云的百年奧運 云上故事 48 視頻云的百年奧運 云上故事 2022 北京冬奧會是一屆非凡的存在?!皧W運 120 多年歷史,是人類更高更快更強的拼搏史,也是科技應用的演變史。從時間維度看,奧運是一個傳統產業,但基于數字化,奧運正煥發著新光彩。北京冬奧會以前所未有的數字化水平,讓更多人感受奧運文化與精彩?!眹H奧委會主席托馬斯巴赫說。無疑,科技和綠色,是北京冬奧的內核特質,若再加疊一個撲面而來的印象,也許是美學冬奧。無論為冬奧的科技、冬奧的綠色、抑或冬奧的唯美,在阿里云支撐冬奧全面上云的大背景下,阿里云視頻云也在全面助力
68、“上云”和全新創造云上的一切,如云上實時交互,云上內容沉浸、云上智能生產等等,以視頻云技術創造百年奧運史的一場新內容與新交互之旅,在云上,為百年奧運留下濃墨般的眾多“第一次”。1.云上實時交互 第一次在奧運會實現異地全息會面,打破時空之距。視頻云的百年奧運 云上故事 49 2022 北京冬奧,無畏爾疆我界,你我盡可咫尺。冬奧會在面臨 Covid-19 限制和物理隔閡之下,即使千里之外,人與人的會面也可以透過綠色科技之光而以全息形態實現?;?AliRTC(阿里云音視頻通信)技術,阿里云視頻云推出全新的云上創新解決方案阿里云聚“Alibaba Cloud ME”,第一次在百年奧運史上跨越物理空間
69、,打造多人異地遠程全息會面,創造了人與人之間的“云聚”時刻。該方案通過阿里云的 RTC 網絡,結合視頻超高清技術,最終以人物的發絲級全尺寸全息復刻、眨眼般的 200 毫秒超低延時,和穩若磐石的網絡傳輸,實現多人之間身臨其境的沉浸實時交互,讓更多奇跡由此發生。視頻云的百年奧運 云上故事 50 奧運內外,現在未來,無論多想見的人、多遙遠的客戶、多難相聚的團隊,都能透過阿里云視頻云的 Cloud ME,以云聚之力,咫尺相見。2.云上內容沉浸 第一次在奧運會啟用互動虛擬演播,打造沉浸報道。2022 北京冬奧,即便冰雪之外,亦可沉浸其中。作為全新的云導播互動虛擬演播技術,這是百年奧運以來的首次啟用,為
70、CGTN 在北京冬奧的記者連線報道中充分應用,打造了此次奧運賽事報道的沉浸式體驗。視頻云的百年奧運 云上故事 51 阿里云視頻云的“虛擬演播廳”,在東京奧運會就曾進入奧運村,而此次技術方案全面升級,達到廣電級導播效果,接入門檻也極大降低,大大拓展了該技術的應用場景。同時,在鏈路上打通了 GRTN 和 RTC 網絡,將多機位、多視角實時同步的技術能力、與 RTC 的實時連麥、異地開播能力結合,實現主播、嘉賓的多層虛擬背景等能力疊加,提升沉浸式直播體驗,在互動效果上全面提升到新的境界?;犹摂M演播廳在業界打破技術瓶頸,是國內首個純云端實景摳像合流技術,也是國內首家“端云無縫銜接”的導播平臺,同時達
71、到廣電級的節目制作水準,在此次冬奧全程助力媒體實現全鏈路的制播上云,對傳統新聞節目制作創造了全新場景。3.云上智能生產 第一次以“AI 云智剪”登陸奧運會,創造美學生產。視頻云的百年奧運 云上故事 52 2022 北京冬奧,每一場凌空之美,皆是 AI 的人文美學?;仡檴W運賽期,每天都在上演冰雪傳奇,而捕捉發生瞬間,凝結最精彩、最動人的體育人文畫面,讓“冰之舞”、“雪之舞”、“速度之美”、“凌空之美”如盛宴綻放,讓“金牌時刻”與“國將風采”瞬即永恒。實現這一切的,源自阿里云視頻云 AI 編輯部提供的云上智能生產能力“AI 云智剪”?!癆I云智剪”作為主題集錦的智能生產工具,在制作賽事短視頻時,可
72、以兼顧實效、精彩、人文、美學,實時完成多賽事的智能內容理解,智能化自動生成大量精彩視頻素材,覆蓋賽場動作、賽事內容、各類鏡頭等多個描述維度,生成豐富的美學主題的集錦素材。依靠阿里云視頻云強大的流媒體處理能力和 AI 綜合能力,“AI 云智剪”在每場比賽結束的第一時間即對視頻內容進行多維解析,并基于跨視頻集錦生產能力,在 2-3 分鐘內誕生大量主題集錦視頻并可實時傳播,冬奧期間共生產 39878 段素材,覆蓋超 200 場比賽。4.奧運全面上云 2022 北京冬奧的核心信息系統實現了 100%上云,奧運最核心的賽事成績、賽事轉播、信息發布等信息系統遷移至阿里云上,這是首個全面上云的冬奧會。冬奧全
73、面上云的一個重要的變化是,奧運轉播不再僅僅依賴衛星傳輸,而通過“奧運轉播云”帶給全球數十億觀眾。東京奧運會時,阿里巴巴幫助奧組委實現了奧運史上首次采用云計算支撐全球直播,被譽為 1964 年東京奧運會首次通過衛星轉播后的再一次技術革命。北京奧運會,阿里巴巴與奧林匹克廣播服務公司聯手打造出奧林匹克轉播云 OBS Cloud,為轉播方提供云上解決方案,實現了高清電視直播和網絡渠道直播同時在云上轉播。視頻云的百年奧運 云上故事 53 這帶來兩個明顯變化:播放速度的提升,能夠做到在全球各地以及各網絡平臺,進行超過 6000 個小時幾乎 0 延遲、0 卡頓的轉播內容。在畫質上,云上轉播突破了傳統的 2k
74、,全程以 4k 超高清格式轉播,部分重要賽事以 8k 格式轉播,讓觀眾“身臨其境“。5.云上全程護航 奧運全程護航,絲滑演繹開閉幕式的中國浪漫。2022 北京冬奧,黃河之水天上來,折柳寄情化詩畫,絲滑間盡是視頻云保障的中國浪漫。視頻云的百年奧運 云上故事 54 反觀這場冬奧會的頂流瞬間,大概即是人文傳奇般的開閉幕式。2 月 4 日,冰立方雕刻出奧運五環,一滴冰藍墨化出黃河之水;2 月 20 日,柳枝送別,演化中國送迎八方來客的詩意。云上重現這場絕美盛宴,重保護航不可或缺。奧運內容在眾多媒體平臺上大量涌現,而基于云上的媒體處理是重要一環。冬奧期間,阿里云視頻云全程支持奧運會主轉播商的媒體處理服務
75、,進行奧運視頻的云上轉碼,以便視頻內容能夠高效穩定的輸出,并進行多終端的極速分發和流暢的播放演繹。在冬奧會的籌備前期,阿里云視頻云團隊就聚焦冬奧視頻鏈路的各個環節,進行了大量的測試、驗證和應急預案制定,以最大程度保障奧運服務的穩定性。在整個冬奧期間,視頻云技術在云上全力支撐,實現媒體處理服務零異常,運行極度平穩。同時,阿里云視頻云還保障了眾多重要媒體平臺在冬奧期間的直播活動,尤其針對開閉幕式多個平臺直播的高畫質、高流量需求,提供了多直播平臺的轉碼、錄制、切片、時移、播放,以及廣目監播系統等全鏈路服務,保障直播運行極致平穩,幀率無抖動發生,讓冬奧會活動的每一幀都極度流暢,絲般順滑,完美呈現。20
76、22 北京冬奧,是云化的冬奧,上云后的全面數字化,貫穿了從內部管理到外部觀影,使得奧運賽場內外有了全新的體感、體驗。對奧運來說,這是全新的起點。對視頻云來說,這是全新的云上故事,且,故事未完待續。發布時間:2022 年 2 月 23 日 作者:IMMENSE 百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”55 百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”冬奧期間,每天都在上演冰雪奇跡,而捕捉發生瞬間,凝結最精彩、最動人的體育人文畫面,讓“冰之舞”、“雪之舞”、“速度之美”、“凌空之美”如盛宴般綻放,讓“金牌時刻”與“國將風采”變成永恒回蕩時空。而實現這一切的,源自
77、阿里云視頻云 AI 編輯部提供的云上智能生產能力AI 云智剪。1.“AI 云智剪”首次登場冬奧,展凌空之美 如果說,2022 冬奧開幕式是一場中國對世界講述的故事,展開的是中國式的浪漫,那冬奧會的瞬間之美,更像是記載歷史的青川木牘,展開的是人物和故事的不凡之巔。北京冬奧各項賽事全面而展,冰雪奇跡每日上演。本次冬奧賽事,中國代表團首次實現 7 個大項 15 個分項“全項目參賽”,其中 35 項是首次站上冬奧舞臺,如此之多的賽事內容也為奧運的視頻生產提供了豐富素材。為了在冬奧賽事短視頻內容時兼顧實效、精彩、人文、美學,央視體育新媒體和總臺技術團隊聯合阿里云視頻云、阿里巴巴達摩院,引入 AI 編輯部
78、的智能生產工具“AI 云智剪”,可以實時完成多賽事的智能內容理解,在極短時間內智能化自動生成大量精彩視頻素材,覆蓋賽場動作、賽事內容、各類鏡頭等多個描述維度,生成美學主題的集錦素材。自由式滑雪女子大跳臺,單板滑雪男子大跳臺、花樣滑冰中,中國選手蘇翊鳴、谷愛凌、金博洋、隋文靜/韓聰等均表現出色,無論是金牌,還是對自我的突破,其傳遞的冬奧精神在這個冬日里如烈火般鼓舞人心。百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”56 點擊這里查看視頻:國將風采!賽程過半那些讓你心潮澎湃的瞬間 AI 云智剪在比賽完成的第一時間就對視頻內容進行了多維度解析,完成了精彩素材生成,同時基于跨視頻集錦生產
79、能力,第一時間為觀眾生產主題集錦視頻,截至目前已經自動化處理 200+場比賽,生產素材片段達 3 萬段以上,生成的大量主題式視頻在央視體育新媒體上即時呈現,迅速傳播。點擊這里查看視頻:金牌時刻!蘇翊鳴翱翔天際傲視群雄 百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”57 在體育賽事內容傳播上,AI 云智剪可以高效、快速、全面地為冬奧賽事播報提供強大的生產力,快速搶占發布先機,也為全球賽事觀眾帶來及時而優質的賽事體感,同時也為媒體行業深度開發體育媒體版權內容價值,創造了更多可能性。針對奧運賽事內容,AI 云智剪設定了豐富的美學主題智能模板,如針對冰球、花滑、速滑、短道速滑等,設置主題
80、“冰之舞”,針對單板滑雪和自由滑雪,打造主題“雪之舞”,同時,從速度型賽事的特殊視角,如花滑的旋轉、冰球的進球等,呈現“速度之美”,而對于跳躍性動作豐富的滑雪賽事,塑造“凌空之美”,可謂通過智能化視頻云技術,全面捕捉賽事瞬即間的美學光影。點擊這里查看視頻:御風飛翔!一同領略冬奧會上的凌空之美 2.科技冬奧的新內容生產力 AI 與機器學習在體育媒體視頻生產領域的應用是產業的大勢所趨,隨著數字化媒體的高速演進以及受眾媒體內容消費習慣的持續更迭,碎片化的短視頻內容已經成為各內容消費領域的主流,體育媒體內容領域也不例外。此次冬奧會更是以科技冬奧為主旨,AI 在其中的作用至關重要,基于 AI 編輯部,其
81、云上智能生產能力“AI 云智剪”在賽事內容生產中發揮了巨大價值,已儼然成為科技冬奧新內容的生產力。百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”58 以比賽本身為核心,AI 云智剪通過對賽事內容的精彩信息進行定義、提取,從比賽視頻、解說詞音頻、人物場記等各個維度進行識別與分析,并利用多模態融合技術,從實現復雜場景下的特色集錦效果。AI 云智剪可以對體育賽事視頻進行高效的 AI 內容分析,可以實時生成多種類型的集錦內容,除了精彩動作鏡頭、運動員集錦等單賽事中的重要片段以外,還支持國將風采、凌空之美、小將出征等多種復雜主題類型的集錦視頻生產,實現視頻內容解析、多類型視頻素材生產、跨視
82、頻的復雜主題視頻生成的多層級短視頻生產能力覆蓋。AI云智剪依靠阿里云視頻云強大的流媒體處理能力,可以保證每場比賽的精彩集錦,在 3-5 分鐘內生成,再由平臺快速發布出去,極大提升了媒體搶占先機的能力和大眾盡享冬奧賽事的體感。AI 云智剪流程圖 如上圖所示,AI 云智剪的智能生產過程,主要包含兩個步驟:AI 模型要對賽事視頻進行理解,基于在 AI 領域的長期積累,AI 云智剪可以對多種體育賽事進行細粒度行為、賽場事件、人文事件、鏡頭類型的深度理解,同時對視頻片段進行美學評價、動作精彩度評價、多樣性評價,這等同于整個系統的眼睛和大腦,只有看得多、看得細、想得全、想得快,才可以在激烈的冬奧賽場上,為
83、觀眾們盡快呈現精美絕倫的內容?;?AI 模型輸出的各類型片段和多指標評價,素材生產模塊會基于符合權重進行素材選取,生產大量精選素材,同時也輸出多種主題集錦素材。百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”59 同時,為了響應綠色冬奧的主題,AI 云智剪首次采用了單視頻理解模型,對多賽事、多來源、多種類的視頻進行內容解析、多類型視頻素材生產、跨視頻的復雜主題視頻生成的多層級短視頻生產。該視頻理解模型有三點突出的內容價值:可以對橫跨自由式滑雪、花樣滑冰、單板滑雪、冰球、速度滑冰、短道速滑等多個賽事中的眾多細粒度動作進行識別,捕捉精彩瞬間??梢詫愂乱曨l中的非競技動作進行識別,感知
84、觀眾的歡呼、選手的情緒、頒獎奪金等關鍵時刻??梢詫︾R頭類型進行區分,進行多類型素材的智能化組合。將完成如此多重復雜的任務重擔放在一個模型里,這也對 AI 云智剪的 AI 模型泛化能力帶來巨大的挑戰。點擊這里查看視頻:永不放棄!冬奧健將們跌倒后爬起的堅韌 百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”60 點擊這里查看視頻:人均“小陀螺”花滑女將踏刃旋轉 3.冬奧云上新內容背后的新算法 通過 AI 云智剪呈現新內容,冬奧的云上智能生產運用了全新的智能算法技術。從本質邏輯上,AI 云智剪是基于智能算法模型,對視頻賽事進行解構、解析、評分,最終再基于多樣性策略,以及 AI 模型輸出的多
85、樣性評分進行智能化的視頻素材生成。正是依托前沿技術,AI 模型可以在較少的計算資源需求下,實現多賽事、多來源、多種類的視頻進行內容解析、集錦素材生產。協同阿里云視頻云的技術輸出,阿里巴巴達摩院的算法工程師采用了阿里巴巴最新研發的預訓練模型技術 LOOK(該技術已經被人工智能領域頂級會議 ICLR 2022 錄用)。相比于常見的訓練方式要求所有的同類別樣本特征接近于一個中心特征,LOOK可以在模型訓練過程中僅要求接近的同類樣本更加接近,保留更多的特征自由度??梢哉J為,這是從一個“求同去異”到“求同存異”的過程改進,正因為在訓練過程保留了更多的有效信息,也使得模型特征的表示能力更加通用,最終基于這
86、一個通用表征的基礎模型,構建了多個輕量級的多分枝任務模型,去完成多項任務。百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”61 因為共享了同一個基礎表示模型,在計算消耗上多個任務分枝比單個任務分支增加的額外計算負擔幾乎可以忽略不計,但卻可以和直接使用多個模型達到同樣的 AI 能力。正是基于這一技術,AI 云智剪更快更高更強地支撐起冬奧會的短視頻生產任務。預訓練模型技術 LOOK 示意圖 在使用預訓練模型技術以外,由于此次冬奧會視頻數據是模型“從未見過”的數據,為了保證模型的魯棒性和計算結果的穩定性,阿里巴巴最新研發的開集識別技術NGC(錄取為 ICCV 2021 Oral)也被引入
87、其中。AI 模型會同時利用模型預測的置信度和特征的幾何結構,來共同決定最終結果,這也使得 AI 云智剪雖然是第一次在冬奧會上登場,但也是相當的“穩”。開集識別算法 NGC 示意圖 此外,阿里巴巴達摩院在視頻理解領域積累了大量技術,包括基礎模型表征,時序特征建模、自監督表示等,通過阿里云視頻云 AI 云智剪的能力輸出,均在這次冬奧 百年奧運的瞬即美學:凌空之美,分秒凝結AI 編輯部“云智剪”62 會中展露頭腳,也被開源在 EssentialMC2 技術框架中,以此致力于推動視頻內容理解領域社區的技術發展。4.多次創造頂級賽事新視聽 早在 2018 年世界杯期間,阿里云視頻云 AI 編輯部就聚焦于
88、利用“視頻 AI+云剪輯+媒資管理”的技術,實時生產精彩集錦和球星集錦,滿足球迷們的重溫賽事和追星的需求。在 2018 年世界杯上,CCTV5 采用了阿里云視頻云 AI 編輯部的視頻 AI 技術,實現對第一腳傳球檢測、回放檢測、危險射門檢測、犯規檢測、運動軌跡分析及進攻節奏分析等,用 AI 技術替代了龐大復雜的高清現場制作設備,高效實時地產出賽事集錦,讓精彩不容錯過。經過四年的技術錘煉和產品打磨,AI 編輯部已陸續支持足球、籃球、冰壺、花樣滑冰、短道速滑、滑雪等多種賽事的特色集錦和主題生產,幫助用戶有效提高視頻的生產效率,讓內容更快速、更精彩,也更有優美之感。冬奧賽事接近尾聲,AI 編輯部的視
89、頻 AI 技術在本次奧運會中成功落地,這是賽事應用的又一里程碑,也是視頻 AI 應用于體育行業及更多其他行業的廣闊開端。AI 技術也將滲透到各個行業中,幫助行業客戶高效提升新內容的生產效率,讓每場賽事都擁有全然不同的新視聽體驗,也讓賽事的人文美感由此綻放 發布時間:2022 年 2 月 17 日 作者:IMMENSE 百年奧運的沉浸其境:冰雪之外,與你同在“互動虛擬演播”63 百年奧運的沉浸其境:冰雪之外,與你同在“互動虛擬演播”2022 冬奧季,即便在冰雪之外,也能透過播報感受同在。這就是互動虛擬演播技術帶來的非凡魅力?!疤摂M演播廳”在東京奧運會就曾進入奧運村,而在 2022 冬奧期,其技術
90、方案全面升級,達到廣電級導播效果的同時,接入門檻極大降低,大大拓展了該技術的應用場景。同時在鏈路上打通 RTC 和 GRTN 網絡,將多機位、多視角實時同步技術能力,與 RTC 實時連麥、異地開播能力結合,可實現主播、嘉賓的多層虛擬背景等能力疊加,提升沉浸式直播體驗,在互動效果上全面提升到新境界,助力打造北京冬奧賽事的沉浸式報道。1.百年奧運首次啟用互動虛擬演播打造沉浸式報道 2022 北京冬奧雖于冰雪之際,但觀眾高燃的熱情像一場冰與火之歌。對于賽場上的矚目之星,觀眾都很期待聽到、看到、感受到他們在賽后真實的聲音、風采和談吐之相。于是,早在冬奧會前期,CGTN(China Global Tel
91、evision Network)就在策劃制作全球冬奧運動員、冰雪明星的系列采訪報道,期望實時而精彩地呈現運動員的賽事采訪,而互動虛擬演播技術的全新突破,正是 CGTN 此次落實冬奧采訪項目的最佳選擇。通常而言,媒體異地采訪需要連線 App,且運動員的受訪環境很不可控,于是,想展現好的人物采訪畫面效果,需要實景摳像再合成于虛擬直播間,同時還要達到賽事結束后采訪的實時傳播效果,這對技術提出很大的挑戰。于是,阿里云視頻云全新升級的“互動虛擬演播”技術在 2022 冬奧會就此登場,解決了這一難題。作為全新的云導播實時互動虛擬演播技術,這是奧運會第一次啟用,為 CGTN 在北京冬奧會的記者連線報道場景中
92、充分應用,打造了此次奧運賽事報道的沉浸式體驗。百年奧運的沉浸其境:冰雪之外,與你同在“互動虛擬演播”64 該項技術在冬奧會期間全程助力 CGTN 進行了賽事異地采訪、實景摳像合成的虛擬直播,打造了異地互動的新形態播報,實現全鏈路制播上云,對傳統新聞節目制作打造了全新場景。同時,通過在音視頻互動 APP 上實時連線,實現了導播人員和記者異地實時通訊,第一時間將新聞報道傳遞給觀眾。通過云導播與 RTC(音視頻通信)的全面打通,可自動獲取連線直播間流,實現新聞采訪與直播觀看同步進行。此外,通過云端實景摳像算法技術能力,達到了極致精細的摳像合成效果。這是百年奧運首次使用“互動虛擬演播廳”進行沉浸式賽事
93、報道,改變了傳統電視臺記者的采訪形式,再也無需記者攜攝像團隊,載著沉重設備到處奔波,更無需以往一定要將記者與受訪者設置于同一現場的固封模式。只要通過阿里云視頻云互動虛擬演播產品,采訪任務僅需“兩部手機+一臺電腦”,即可隨時隨地展開采訪直播與轉播,從而革新了媒體生產與傳播的技術鏈路,實現全鏈路制播上云的同時,也讓賽事觀眾體驗到更沉浸的播報視感?!盎犹摂M演播廳”示意圖 2.三項國內首個突破性超級能力業界尖端技術 能夠在此次冬奧會實現創新方案落地,打造實時互動的沉浸式賽事報道,源于阿里云視頻云在虛擬演播廳產品上的深度打磨和三點戰略性的技術突破:百年奧運的沉浸其境:冰雪之外,與你同在“互動虛擬演播”
94、65 國內首個純云端實景摳像合流技術 此次的互動虛擬演播方案,是針對冬奧會打磨的新實景摳像算法與引擎能力,它第一次采用實景預設背景摳像,第一次采用多機位切換摳像,第一次采用 4 路摳像源(綠幕+實景)同時實時摳像處理。眾多“第一次”帶來的價值是,滿足了冬奧會級別的世界頂級賽事直播要求,將實景摳像效果達到業內天花板水平。對標廣電級別的節目要求,阿里云視頻云正是利用算法打破技術壁壘,通過嘗試多種算法和工程模型,一次次突破自我,提升實景摳像的效果和性能。在各種采訪環境不可控的雜亂背景下,技術均可處理得非常完美,讓冬奧的賽外內容播報體驗極大提升。國內首家“端云無縫銜接”的導播平臺 在此次冬奧會中,互動
95、虛擬演播廳首次打通了 RTC 和 GRTN 網絡,將多機位、多視角實時同步技術能力,與 RTC 實時連麥、異地開播能力進行結合。一般情況下,導播臺是一直缺乏端側能力的,于是無法實現實時互動場景,雖然也可以嘗試和內外部各種 App 應用聯合,但因為種種原因很難真正落地。此次阿里云視頻云RTC技術結合了導播臺,進行虛擬演播廳產品的深度改造和聯動,并且對 App 端的界面效果和性能完成全面優化,為普通用戶提供了簡單、穩定的連線功能,真正實現了“互動虛擬”演播能力。業界廣電級導播能力 全新的互動虛擬演播廳,全面滿足超低延時、超穩定、超高并發的特性,達到廣電級導播能力。從連麥 APP 端到導播合流輸出全
96、鏈路超低延時,實現連麥端實時通訊、導播臺“摳像+合成渲染輸出”,最快 2-3S 內即可完成所有流程。在多人、多地同時開播、長 百年奧運的沉浸其境:冰雪之外,與你同在“互動虛擬演播”66 時間連線開播情況下,對多背景摳圖的處理場景可以達到穩定處理零斷流的效果。整個方案落地,可經受住大規模的分發、觀看的考驗,對超高并發依舊穩定出色?!盎犹摂M演播廳”制作全鏈路 在東京冬奧會,阿里云視頻云的虛擬演播廳就曾進入奧運村。當時,身處日本東京和中國北京兩地的企業代表,通過云導播臺的虛擬演播廳、實時字幕等能力,順暢完成沉浸式直播連線。百年奧運的沉浸其境:冰雪之外,與你同在“互動虛擬演播”67 2022 北京冬
97、奧,為了結合 CGTN 的記者采訪和報道場景,同時滿足央視記者深度沉浸式報道的觀感,阿里云視頻云重點對互動虛擬演播方案,進行幾個方面的深度升級:第一,重點對實景摳像打造了新的算法引擎和極致效果,解決了實景摳像邊緣粗糙,抖動等問題,摳像效果精細到人物發絲,真實細膩的效果促進了產品的可應用性,打破行業實景摳像壁壘。第二,豐富了云導播在場景端側的接入能力,實現“實時互動+導播”的完整方案,打造了“實時互動”場景,并且,通過 App 端簡單便捷的開播,讓使用門檻非常之低,從而高度滿足了電視臺記者群體的使用訴求。虛擬演播廳強化增補了前鏈路的推流互動環節,更進一步實現了沉浸、實時的直播體驗。第三,全面升級
98、導播穩定性、超長時間連麥穩定性、摳像穩定性、音視頻互動 App性能等,從而全方位滿足異地、多人、多場景、超長時間的連麥和直播需求,對于復雜的多場景(單人/雙人、遠景/近景、直播中插墊片)實現無縫切換,真正達到廣電級別的節目制作水準。全面的技術升級,將“虛擬演播廳”升級為具有實時互動沉浸效果的“互動虛擬演播廳”產品方案,從而為 2022 冬奧會帶來賽事報道的全新體驗。3.互動虛擬演播的更多空間更多場景價值 北京冬奧會謝幕之后,互動虛擬演播還會支持殘奧會的實時沉浸連線播報。奧運會這樣的超級賽事打磨了技術方案,讓其不僅服務于此。作為全新的云導播實時互動虛擬演播技術,互動虛擬演播廳可以通過低門檻地使用
99、音視頻互動 App,以發起直播與實時連線互動,同時,基于云端摳像與虛擬背景合成的能力,提供“端到云到端”的虛擬演播解決方案,從而打造沉浸式直播體驗。百年奧運的沉浸其境:冰雪之外,與你同在“互動虛擬演播”68 它是專門為遠程互動打造,實現虛擬直播間的沉浸體驗。此外,也為遠程制作、異地互動直播的場景提供解決方案,如身處在滑雪場的運動員可以和新聞中心的主持人進行異地的虛擬合屏,并可進行實時互動采訪。從實際的應用場域,不僅支撐體育競技、國內外賽事類的現場轉播、遠程解說、多主持人模式等場景,互動虛擬演播廳還可落地于更多行業場景,如電商與活動的直播支持、會議的多模式轉播,以及各種類型的異地連線與虛擬訪談,
100、場景廣泛,能力豐富,均可實現??傃灾?,基于 2022 北京冬奧會的實踐與沉淀,阿里云視頻云會將互動虛擬演播解決方案進一步深化為更強的產品力輸出,面向涉及直播場景的各行業提供遠程開播、虛擬直播間的解決方案。從后繼發展來看,在技術升級和產品優化上,“互動虛擬演播”會圍繞三個方向繼續演進突破:首先,在實現了低門檻接入之后,更強調實現持續降本,提升整個產品性價比和競爭力。再者,加強完善端側布局,豐富導播互動能力(如觀眾端播放畫面的返送等),從而提供更完善的互動虛擬演播方案。百年奧運的沉浸其境:冰雪之外,與你同在“互動虛擬演播”69 在此之外,在物理與虛擬世界穿梭構建的大趨勢之下,將深度結合“虛擬演播廳
101、”的概念,探索虛擬人、3D 背景等能力的結合與落地,打造虛擬直播間的更多可能。未來的互動虛擬演播,技術更前瞻,門檻更低簡,場景更豐富,互動更多元,效果更沉浸。借冬奧之光,技術普惠就在眼前。發布時間:2022 年 2 月 20 日 作者:IMMENSE 百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 70 百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 2022 北京冬奧會本是一屆非凡的存在,這是有史以來第一次將奧運會所需的全部核心系統全面上云,以數字化技術創造奧運的新紀元。但綠色奧運不止如此,在面臨 Covid-19 限制和物理隔閡之下,千里之外,人與人的會面可以透過綠色科技之
102、光而以全息形態實現,這便是阿里云視頻云基于 AliRTC(音視頻通信技術)推出的云上創新解決方案阿里云聚“Alibaba Cloud ME”,第一次在百年奧運史上跨越物理空間,創造了人與人之間的“云聚”時刻。(以下簡稱 Cloud ME)1.云聚現場的汩汩之溫Cloud ME 創造傳奇會面 “Cloud ME”本意出發,為物理空間限制下渴望探索真實會面感的人們,提供沉浸交互體驗,使他們能夠以真人 3D 形態見面,并享受彼此的實時對話與交互。遠隔 1300 公里的巴赫與張勇先生,以全息形態現身北京新聞中心,同臺云拜年。百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 71 冬奧會剛剛開幕之
103、時,身處北京閉環內的國際奧委會主席巴赫通過 Cloud ME“現身”2022 北京新聞中心云聚展區,與遠在上海的阿里巴巴集團董事會主席兼 CEO張勇,隔空“云聚”,以全息形態同臺送出奧運寄語,又在“現場”隔空傳遞冬奧火炬,于眾多媒體記者的見證下,Cloud ME 讓一切交談和交互猶如真人臨于現場,氣氛真實而有流動感,驚嘆元宇宙的提前到來,又深感科技涌出的汩汩之溫。在奧運世紀見面之外,更有溫度的,是透過 Cloud ME,讓因疫情分離別北京、上海兩地的醫護人員家庭得以在“云上全家團聚”,孩子看到父母如臨眼前的歡喜之相,和一張穿越空間的全家福,濃濃暖意,足以瞬間融化這背后所有技術的艱辛演進。而這一
104、刻,技術也揮著人文的熠熠之光。點擊這里查看視頻:通過 Cloud ME,一場特別的見面 整個會面過程通過 Cloud ME,將會面者們的全身圖像投射到遠程全息艙中,以展示他們的 3D 形象,從而促成多人異地的遠程會面交互。Cloud ME 全息艙裝置簡單,除典型的演播室設備(如攝像機和計算機來捕捉鏡頭)之外,基于強大的云計算能力,不需要任何額外的現場 IT 基礎設施或優化的互聯網帶寬來助力錄制和傳輸。正是 Cloud ME 易于落地的特性,讓虛擬現實會面可以在更無限的場域向更廣泛的受眾開放,創造更多樣、更有溫度的云聚可能。百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 72 一張特殊而
105、濃濃暖意的“全家?!本痛?,無論多想見的人、多遙遠的客戶、多難相聚的團隊,都能透過阿里云視頻云的 Cloud ME,以云聚之力,咫尺相見。2.Cloud ME 的魔法顯現發絲級全息復刻&眨眼般超低延時 基于阿里巴巴在數字化和智能技術的支撐,Cloud ME 制作的音視頻將在阿里云上進行壓縮、傳輸、處理和渲染,在這過程中,經久打磨的 RTC 技術起到最為關鍵的作用,而阿里云先進的計算能力和廣泛的全球網絡覆蓋也為 RTC 提供了堅實基礎。實現多人異地全息會面,Cloud ME 的操作落地簡單,但技術非同尋常。百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 73 點擊這里查看視頻:冬奧黑科技
106、Cloud ME 的技術實現 傳奇過程,如下所現:首先,在影像采集環節,攝影機采集的畫面是無法直接在播放端進行全息成像的,所有畫面需要通過先進的編碼器進行深度壓縮,并在實時傳輸協議和 QoS(Quality of Service)抗丟包策略的保障下發送到阿里云的音視頻通信(RTC)網絡,畫面最終上傳的格式和尺寸與普通 4K 電影無異。隨之,當畫面到達云端之后,需要借助云上強大的處理能力完成包括轉碼、渲染、場景重建、光影處理在內的復雜流程,完成從“平面”到“全息”的蛻變,以真人1:1 等比虛擬化復刻,生成 3D 全息人物,以高清方式重建所有互動細節,包括人物的微面部表情和服裝紋理,達到“發絲級”
107、全息全尺寸復刻,塑造全真實交互的沉浸感,一切猶如身臨其境。天下武功,唯快不破。在如此復雜和大跨度的技術鏈路上,為了實現順暢的會面效果,技術實現的關鍵也在于“速度”,而保障“速度”的關鍵則是阿里云覆蓋全球的音視頻傳輸網絡 GRTN(Global Realtime Transport Network),及其在視頻編解碼、網絡傳輸、超大規模音視頻處理和調度等方面的核心技術。百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 74 基于這些技術,影像畫面傳輸和處理的全過程,包括 SDK 編碼、實時傳輸,云上處理和渲染,端側解碼和成像,僅需在眨眼間的 200 毫秒內即可完成,體感上與我們日常交流互動
108、的綜合體感相同,毫無延時頓感,極度真實。由此,Cloud ME 發絲級的全息全尺寸復刻、眨眼般的超低延時,和穩若磐石的網絡傳輸力,讓更多交互奇跡由而發生。3.AliRTC 極致技術的普惠之光“零處理”時代順勢而來 Cloud ME 的技術實現,核心依托于阿里云視頻云曾提出的 AliRTC“零處理”解決方案,即通過“云處理+端渲染”技術,讓硬件端只進行簡單的采集,傳輸,播放,同時,所有的復雜工作全部集中在云上完成,讓終端實現“零處理”。這是百年奧運史上,第一次利用云上全息 RTC 技術,實現跨場景遠程會面的技術應用,在疫情期徹底打破了物理空間隔閡。通過 Cloud ME,可將運動員、賽事工作人員
109、、志愿者和媒體朋友們“瞬移”到指定地點,實時交互溝通。湖南衛視新聞大求真欄目主持人在體驗 Cloud ME 的過程中,就將北京冬奧會現場的志愿者“瞬移”到“節目現場”,進行“面對面”的超級采訪,實現了時空同步。來自清華大學的志愿者許雯鈞說道:“這感覺就像我們面對面交流一樣!”。百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 75 點擊這里查看視頻:湖南衛視新聞大求真欄目 對 Cloud ME 進行現場體驗與節目采訪 阿里云視頻云的“Cloud ME”既可以應用在奧運會場景下,也可以在奧運會之外,向更多參與者和球迷廣泛開放,讓他們在虛擬現實中體驗真實、沉浸、趣味的全息交互,真正開啟百年奧
110、運的新內容與新交互。不僅如此,基于阿里云 RTC 的全球部署,還可實現“一地上線,多地同步互動呈現”的場景景象,擁有“分身不再乏術”的現象級能量。事實證明,RTC 音視頻通信是一項有助于世界有效連接的關鍵技術。借助阿里云的全球網絡和視頻云的智能算法,阿里云視頻云旨在將音視頻通信能力帶入更廣泛的應用場景中,不僅在互動娛樂、智慧教育、視頻會議,還有更多更具價值的企業服務和更具想象力的沉浸交互場域。從圖文到音視頻,社會的第一次交互變革發生于 2014 年,而 RTC 技術在 2017 年驅動了互動視頻技術和在線互動商業的顛覆性發展。隨著 5G 技術的發展還會帶來新一輪的交互演進,如 VR 遠程協作、
111、虛擬現實互動等。百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 76 在云廠商中,阿里云視頻云曾率先提出“云處理+端渲染”技術,通過實時通信與云上處理的技術結合,前瞻性地解決了新交互體驗因端側算力受限而無法實現的虛擬交互場景難題,推動終端“零處理”時代順勢而來,而 Cloud ME 即是阿里云視頻云在這一領域的創新實踐。未來,AliRTC 會充分利用云端一體的混合計算能力,助力更多創新場景的商業化落地,例如全息演唱會、虛擬演唱會、創新云展會,全息交互娛樂等等,讓場景向更低延時、更沉浸交互的極致化體驗演進。百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 77 RTC 是技術,科技
112、是工具,而其所有的終點,是人文涵蘊的溫暖,那是打破爾疆我界的無形之力,是人與人、人與物、人與世界彼此存在的咫尺之間。期待 Cloud ME,期待 AliRTC,期待未來。發布時間:2022 年 2 月 18 日 作者:IMMENSE 百年奧運的相覷之溫:爾疆我界,咫尺相見Cloud ME 78 第四章 2020 東京奧運會:數智與虛擬之境(此頁面將由下圖全覆蓋,此為編輯稿中的示意,將在終稿 PDF 版中做更新)50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 79 50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 2020 東京奧運會之際,由于疫情限制,東京地區賽事以無觀眾的空場形式舉
113、行,在無法親臨現場的情況下,全球觀眾首次以“云上”方式觀看奧運?!霸粕蠆W運”該如何保證賽事的生動性和現場感,縮短觀眾與賽場之間的距離,隨時隨地捕捉精彩賽事瞬間?作為 2020 東京奧運會最高等級的全球合作伙伴,阿里云支撐奧運會實現首次全球云上轉播,供各大轉播商使用,同時,支持國內頂級媒體實現云上“采編發”整體流程的驗證,為媒體跨地域協同報道提供了寶貴的實戰經驗。新華社作為中國國家通訊社和世界性通訊社,是全球僅有的具有資格在主新聞中心展示奧運精彩瞬間的 6 家世界級媒體之一。東京奧運會也是新華社第一次作為國際通訊社報道奧運,新華社派出 133 人的奧運會報道團隊對奧運現場進行全方位的報道,通過云
114、技術,前方記者和后方團隊可以進行密切配合,使得報道內容能夠更高效完成。針對阿里云對新華社“云上制播”的技術助力,具體到跨地域“采編發”協同制播流程的實現、探索、驗證,分為以下幾步:50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 80 1.異地協同,網絡先行 媒體素材內容能否高效地傳輸回來,網絡保障是關鍵所在。早在 2021 年年初,新華社考慮到信號和視頻內容傳輸的各類需求,申請了 100Mbps 的寬帶鏈路。而當 7月份記者抵達東京進行現場帶寬測速時,結果十分不理想。百兆網絡訪問國內的服務,帶寬只到了 KB/s 級別,如同回歸了撥號上網時代?,F場帶寬測速 如何解決跨區域網絡傳輸的問題?前
115、方記者拿出了事先準備好的“神器”:阿里云一站式快速上云 SDWAN 接入產品(Smart Access Gateway,簡稱 SAG)。由于已在國內進行過配置和測試,因此,在報道現場,記者直接將預留的以太網插到 SAG 產品 WAN 端口,再把需要連接的設備接入到 SAG 的 LAN 端口,便可自動獲取 IP 地址,東京報道現場的設備就和國內云端提前配置好的計算、存儲等資源構成了一個加密安全的內網環境。當然,還可以通過 PC 和手機等終端安裝的 APP 形態,滿足各類移動終端的 point-to-site 快速接入。50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 81 2021 年年初,
116、新華社聯合阿里云、優酷進行多場測試驗證,通過 SAG 網關可以最大化的優化網絡傳輸質量,降低系統訪問時延,滿足遠程制作、云上生產等各類應用場景。50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 82 5 路 NDI 流接收情況下相關測試截圖 Full NDI 情況推流上云延時效果 智能接入網關 SAG 是阿里云混合云 SD-WAN 解決方案的 CPE 終端設備,可同時基于互聯網寬帶/4G/5G/專線等多種類型鏈路,幫助企業安全高速接入阿里云。充分發揮阿里云網絡資源優勢,就近加密接入 POP 點,優化網絡質量,一站式完成跨地域、彈性、高效的分支機構及線下 IDC 互聯及業務上云。50 億觀眾
117、的“云上奧運”,頂級媒體背后的數智化力量 83 伴隨 5G 技術發展,諸多企業已探索基于 5G 訪問互聯網或云上資源,在上半年國內測試中,SAG 的 5G 帶寬值最高可以達到 80Mbps(上行)、200Mbps(下行)。在流媒體視頻傳輸協議中,常用的流媒體協議主要有 RTSP 協議、RTMP 協議、UDP協議、HLS 協議、SRT 協議、NDI 協議等。對于 UDP、NDI 等僅支持私網的傳輸協議,SAG 也把跨洋傳輸的不可能變成了可能,可以實現低延時的跨境傳輸,應用于遠程制作、遠程介紹等各類場景。除了網絡手段,還可以通過其他方式來進行速度的優化。實際測試中,雖然東京現場內容回傳很慢,但東京
118、現場訪問東京資源的速度良好。因此,在云上東京區域開放存儲空間,便可滿足內容快速上傳的需求,再將東京區域存儲內容通過跨區域復制方式復制到國內存儲區,實現在東京和國內不同 OSS 地域之間自動、異步復制文件,將源存儲空間中文件的改動(新建、覆蓋、刪除操作)同步到目標存儲空間中。既滿足了數據復制的需求,也可以作為異地容災的應對方法。當然,由于存在一些臨時存儲內容,并不是所有文件都需要進行同步,對此,可以根據指定文件名前綴進行有選擇的同步,以滿足各類報道需求。50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 84 2.云上制播,如影隨形 傳統節目生產,需要按需配置支持 4K 或是高清的、帶顯卡的工
119、作站進行編輯制作,并通過網絡化存儲訪問達到協同效。但跨境報道,大規模網絡化系統部署攜帶不便,且僅能滿足當地訪問的需求,因此,在這次移動報道中,通過云桌面方式實現了多地域更靈活的訪問體驗。50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 85 業務系統部署在云端,對位于各類互聯網環境的客戶而言,安全、高質量的訪問,實現和線下業務系統類似的效果是關鍵。云桌面是一種易用、安全、高效的云上桌面服務,可以快速構建、高效管理桌面辦公環境,提供安全、靈活的訪問體系,使用云桌面的用戶,可通過客戶端方式連接云桌面,運維管理人員也可以遠程進行統一的云桌面管理,包括管理工作區、桌面、策略、鏡像、網絡、存儲等的管
120、理。因為云端可提供豐富的計算資源選擇,在無影云桌面中,可以選擇 CPU、GPU 多種規格,即用即買,按需計費,靈活彈性,管理員可以實現定義好應用和資源鏡像,如高清非編、4K 非編等,快速復制啟動新的機器。云桌面可以根據需求設定多種安全策略,既能開放上傳下載功能提升便捷程度,又可以根據安全需求關閉上傳下載,U 盤,剪切板,網絡等通路,防止數據和 IP 外泄。50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 86 對于終端的話,可以按需靈活選擇軟件或是軟硬一體形式,硬件終端提供統一輕空間,搭載個人云盤做到數據隨身攜帶,根據權限使用云端資源。無影云桌面軟件終端形態 云桌面可以以低帶寬、高分辨率、
121、高顯示質量顯示云端站點編輯效果,支持國內國外多種非編軟件,最高支持 9 層 500Mbps XAVC 視頻編輯。根據實測結果,通過家庭寬帶、辦公網絡、酒店 wifi 等各類 Wifi 連接方式均能實現較低的訪問時延(RTT(Round-Trip Time,總體延時)小于 50ms),占用帶寬在10Mbps 以下(高清/4K 分辨率進行編輯操作訪問情況下),可以流暢的進行編輯、審核、調色等各類操作,同時,還可以通過外部設備重定向功能,接入調色臺等外設設備,滿足更好的用戶操作體驗。整體云端制播網絡架構如下:50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 87 為了保證北京、東京兩地的同時訪問
122、,阿里云在北京和東京之間的上海區域開通了云桌面服務,兩地網絡測試情況下,對應 RTT 數值均在百毫秒以下,可以很好的滿足業務需求。為了滿足不同人員對不同非編軟件的使用需求,云上部署統一的CS資源管理系統,以具備與 Adobe Premiere、Final cut Pro、Edius、大洋、索貝、剪映等非編軟件的協同制作能力,用戶可以通過拖拽的方式,直接將素材或打點片段拖入非編中進行編輯。用戶的整個剪輯操作流程就是在素材管理系統和剪輯軟件中進行流轉的,避免了用戶在多軟件中頻繁切換的操作。在素材管理系統中,素材的存放管理被定義劃分為個人庫和部門庫兩種方式,其中個人庫所屬于登錄的個人賬戶,僅用戶本人
123、有權看到并管理其內容;部門庫所屬整個部門,所有部門內的工作人員均可共享其中素材,用戶可以在個人庫中將素材共享至部門庫來實現部門庫資源擴充。同時,還可以通過左側收錄素材目錄下看到收錄得到的素材,收錄素材展示視頻元數據信息并且可以進行預覽。視頻預覽框中可以實現視頻打點并拖拽至非編軟件進行編輯功能,正在收錄的內容可以和非編配合實現邊采邊編操作。50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 88 資源管理器對應不同非編軟件拖拽上板 資源庫還可以提供結合 AI 智能能力的 BS 管理端,實現智能封面提取、語音識別、人物識別、智能拆條、智能編目,做后臺內容的快速管理,減輕素材管理人員的壓力,也使得
124、內容的搜索更加的靈活便捷。不僅內容生產可以通過云端進行,信號的云端導播切換更可以在維持傳統操作方式(切換面板、監看習慣等)情況下通過云端實現調度、AI 處理及導播切換,如下圖所示:50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 89 3.智能加持,一站式服務 在云上,通過編輯軟件提供商和公共云基礎能力的結合,可以實現更多的業務場景,將異構業務生產環節流程化、智能化串接起來。而通過和 BS 編輯應用的結合,可以一站式滿足業務的增值應用,實現更好的業務提效。此次,針對奧運報道的需求,結合阿里云視頻云的 AI 能力,進行了進一步的貼身定做:賽前創建奧運體育健兒人物庫,在前方報道入庫后第一時間進
125、行視頻分析、內容展現,可以更好更快的為業務系統提供服務。素材人物識別 同時,在“策采編發追評”的整套傳媒業務流程中,可以通過 AI 能力的加持,實現移動端+PC 端編輯的協同生產,完成大小屏內容的統一準備和分發,既能實現業務閉環,也能快速切入發布環節,以統一的 BS 界面,實現各業務流程以及智能化工具的一站式服務。50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 90 為了本次奧運比賽,賽前提前制作了各類體育報道的模板,可以快速和拍攝視頻結合,實現內容的快速生產分發。體育類新媒體海報 阿里云視頻云針對媒體行業打造的 AI 編輯部,致力于將阿里云的各項 AI 能力在媒體行業的不同場景中進行落
126、地,提升內容生產與制作的生產效率,降低人工成本。在云上制播的時代,AI 編輯部已經面向市場基于分布式媒體處理引擎的超高清內容倍速處理能力,此外還有多模搜索、人物翻庫、視頻指紋、數字水印各類全新能力,為云上內容生產的時代中的各類生產場景提供能力支撐,為行業的不斷發展提供更多的產品與解決方案。4.云上制播的未來 全球的云上奧運,帶來了全新“云上制播”概念,其本質就是媒體“策、采、編、發、追、評”完整業務流程的全面云化,核心在于云化環境對業務的支持和通過無影云桌面實現和推云入端。通過云上制播,阿里云實現了媒體核心業務的全面上云,完成了傳統專業設備的云化替代,解決了從業人員內容采集、生產、審核、發布的
127、空間限制和設備依賴。針對媒體行業,在實際生產過程中,因為大多數歷史資料內容存儲在線下系統,需要頻繁涉及到原有素材的導入上傳,利用互聯網絡耗時較大,影響實際體驗。目前 50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 91 采、編、發、存等業務,分布在云上云下,將會是一個比較長的過渡階段,因此對原有內容的導入和融合、專線鏈路的建設,是非常迫切且重要的問題。隨著云技術和網絡基礎設施的發展,云上生產將會得到更廣泛的應用發展,在阿里云和優酷的聯合測試中,還實現了以下場景的驗證:低延時遠程監看 云端內容增強制播 通過將阿里云視頻增強系統在優酷制作網部署,對高標清素材進行 4K 增強與色彩優化,可用作
128、直播信號處理,更可應用于視頻文件處理,實現低成本 4K 內容生產,緩解行業內原生 4K 內容制作成本高,原創內容少的問題,填補了高清制作與原生4K 制作之間的空白市場空間。還可以用來對來源質量不高的內容實時優化處理。智能化云化轉播方案 5G+4K+AI+云的云化轉播車方案,該方案旨在通過云制作技術賦予現有電視轉播車云上生產的能力,提升內容制作效率,降低制作成本,孵化新內容形態。50 億觀眾的“云上奧運”,頂級媒體背后的數智化力量 92 通過智能接入網關打通本地設備和云上資源,實現本地多路攝像機信號上云、云上導播、字幕包裝、編碼推流、多路分發、云端收錄、AI 分析、智能剪輯的全鏈路云上解決方案,
129、并在現有優酷自制節目中落地完善細節。適合網絡媒體、OGC、廣電融媒等新媒體高清 HD 直播場景,相較于傳統的 EFP 制作流程,具有便捷、穩定、低成本的特點,更可以通過智能化的手段完成智能摳像、動漫化、多主體分割等亮點應用。通過這次云上奧運報道的實踐與驗證,可以感受到云上生產可以極大滿足現有生產業務訴求。同時,在運維、彈性、跨地域協同、智能化協助等方面具備更大的優勢、深度重構了“采編發”業務流程,并創生出新的應用模式。視頻內容云上生產,能夠在全媒體傳播,傳統媒體機構進軍互聯網主戰場的征程中發揮更大的價值。在云上制播時代,讓我們共同期待更優質的體驗和全新的云上圖景。發布時間:2021 年 8 月
130、 5 日 作者:IMMENSE 導播上云,把“虛擬演播廳”搬到奧運村 93 導播上云,把“虛擬演播廳”搬到奧運村 第 32 屆奧運會在東京落下帷幕。正如國際奧委會主席托馬斯巴赫所言:“這是數字化水平最高的一屆奧運會”,東京奧運會不僅是首次實現云上轉播的奧運會,在其他技術上也有眾多創新。1.虛擬演播廳,打造沉浸式直播體驗 云導播正是依托了阿里云強大的視頻直播和媒體處理服務,進行導播效果創新,對傳統視頻生產工具進行云端再造,一體化制作打造沉浸式直播體驗。虛擬演播廳作為云導播的重點能力,運用了深度算法的實時自動摳像技術,支持多種設備、多機位,即便雙方身處異地,也能讓他們看起來處在同一空間,呈現沉浸式
131、的直播體驗。虛擬演播廳基于先進的實時摳像渲染技術,能夠對實時直播流進行摳像處理,并結合具體的背景圖和多媒體展位,合成統一直播流輸出。它支持多種設備、多機位、異地開播,并能夠實現雙屏幕、分屏、畫中畫等開播場景,此外,直播背景可根據具體場景進行變換,最大程度貼近直播需求,幫助客戶打造場景化沉浸式直播體驗。導播上云,把“虛擬演播廳”搬到奧運村 94 點擊這里查看視頻:東京奧運會虛擬演播廳 此次云簽約還運用到了實時字幕能力,該能力結合語音識別技術,支持中文、英文、西語、俄語四國語言,實時滾動展示雙語字幕,滿足多國家、地區用戶同時觀看直播的需求,讓直播更簡單、專業、國際化。2.融合多重能力,實現云上制作
132、一體化 除虛擬演播廳和實時字幕能力外,云導播還支持多機位直播,可針對活動現場多個機位進行多路流的融合、切換播放。不同機位流通過視頻幀級別同步播放,可使用戶擁有多個觀看視角,不錯過任何精彩。云導播還可快速搭建輪播臺,聚合多個直播、視頻節目,創建輪播臺類型直播間,豐富直播場景和內容形態,靈活調用,輕松配置,高效協同業務場景落地。同時,云導播的在線生產與實時包裝能力,還支持對直播素材、點播素材、圖片、文字、動態 H5 組件素材、AI 能力進行融合,如:支持直播畫面和主播、解說畫面入鏡直播,邊解說邊賽事直播;支持 H5 頁面動態組件與直播業務數據打通,搭建比分系統、裝備系統、賽事周邊數據系統等。該能力
133、重構視頻內容生產鏈路,以多維度數據信息,增強用內容豐富度、拓展流量曝光和廣告變現價值。導播上云,把“虛擬演播廳”搬到奧運村 95 此外,視頻 AI 能力對導播上云的賦能也是必不可少的,并在眾多活動上得到良好的實踐和驗證。阿里云視頻云的云導播與視頻智能生產打通融合,可對直播實時拆條、剪輯、導播合流并根據直播內容自動生成人物合集,也可通過 AI 能力,識別演講嘉賓,動態展示人物信息。如:云棲運動會的云沖浪體驗項目中,通過導播流的實時切片將直播流快速收錄成小文件切片,結合視頻 AI 對沖浪畫面中的精彩鏡頭生成精彩合集,再與直播流混流播出。導播上云,把“虛擬演播廳”搬到奧運村 96 3.低成本接入,廣
134、泛運用于新場景 通過對傳統視頻生產工具進行云端再造,云導播極大地節省了硬件采購成本。在過去,傳統的導播場景通常需要昂貴的導播車來實現,而現在,依靠云導播,導播運營人員僅需一臺電腦,即可遠程同時完成數場專業直播。云導播提供控制臺、API、Web SDK 三類服務,用戶可按需接入,便于二次開發或直接使用。同時支持直播、點播視頻源,及圖片、文檔、頁面等多種內容源,最大6 路視頻源實時混編。對于云端服務能力,節省軟硬件采購成本,按需使用、按量付費,助力企業打造一體化云上導播。憑借豐富的節目制作形式、更低的成本,云導播能夠廣泛應用到廣電新媒體、賽事直播、活動直播、商業直播等場景中,幫助客戶打破業務瓶頸,
135、更快更好的開展業務。在疫情的大環境下,云導播更凸顯其優勢,跨越空間的障礙,輕松實現異地節目的轉播,并助力各類賽事由線下轉為線上,多體驗、多形態豐富開展。阿里云視頻云基于世界杯、雙十一狂歡夜、CCTV 春晚、英雄聯盟 S10 等各類頂級賽事和重大活動的直播業務驗證,沉淀了深厚的活動賽事直播重保經驗,以靈活易用的專業云制播能力、低成本高效率的價值,和穩定可靠的深度保障,不斷創新行業應用場景,為客戶創造新的價值空間。發布時間:2021 年 8 月 13 日 作者:IMMENSE 快捷、實時、穩定,隨時隨地打造虛擬沉浸直播 97 快捷、實時、穩定,隨時隨地打造虛擬沉浸直播間 2022 是“體育超級大年
136、”,冬奧會、亞運會、大運會、世界杯等各類大型體育賽事貫穿全年。由于受到疫情管控和物理空間的限制,賽事直播至關重要,觀眾體驗需求也在不斷升級。于此,企業對直播服務要求越來越高,視頻直播技術創新顯得格外關鍵。隨之而來,如何利用直播技術降低線下部署導播臺的成本、如何提供靈活及場景化的能力、如何確保線上內容傳輸安全穩定,成為許多直播類企業客戶的關注點。為了帶來更好的直播體驗,阿里云對視頻直播產品進行重磅升級,打造一站式沉浸體驗的云上虛擬直播間服務?;谶吘壨屏?、窄帶高清轉碼、云上導播、全域邊緣節點分發等技術能力,通過全鏈路災備與應急預案等保障手段,提供高可靠、高品質、低延時的直播服務,為大型賽事與活動
137、提供保駕護航的能力。并在此基礎上,聚焦打造云端一體化的虛擬演播廳能力,為觀眾端塑造沉浸式直播體驗。1.1 臺電腦+2 部手機:開啟虛擬直播間 阿里云視頻云的云端互動虛擬演播廳,提供了行業首創全鏈路云端實景摳像與虛擬背景合成能力,實現實時互動+導播的完整方案,通過手機 APP,即可簡單開播,讓使用門檻大幅降低,為遠程采訪、異地互動、虛擬實時制作等場景,打造富有沉浸感的、達到廣電級的演播體驗??旖?、實時、穩定,隨時隨地打造虛擬沉浸直播間 98 全新算法引擎,隨時隨地異地互動開播 目前,演播廳常用的摳圖技術大多與綠幕摳圖相關。但綠幕摳圖存在幾個弊端:首先要專門搭建綠幕演播廳或者是綠幕設備,應用場景受
138、限;同時,為了保證綠幕摳圖的最佳效果,還需要加裝燈光設備進行調試,甚至需要有拍攝經驗的操作者進行提前的布景。阿里云視頻云利用 AI 技術創新對虛擬演播廳的技術方案進行了全面的升級,首次采用了實景預設背景摳像、多機位切換+實時摳像、最高 6 路摳像源+摳像合成處理等技術方案。從而,通過云端的多路實時實景摳像、虛擬背景生成與實時動態渲染技術,有效解決了主播與嘉賓不在同一空間,以及現場環境受限無法進行專業演播的痛點,將身處在不同地方的人合成到任意演播廳,即便身處千里之外,也能透過虛擬演播技術,體驗沉浸于同一空間的互動感??旖?、實時、穩定,隨時隨地打造虛擬沉浸直播 99 廣電級水準的精細、穩定、專業
139、為了對標廣電級別的節目規格,阿里云視頻云技術團隊嘗試了多種算法以及工程模型,解決了實景扣像邊緣粗糙、抖動等問題,摳像效果精細到人物真實細膩的效果,大大提升實景摳像的效果,也促進了產品的可應用性,打破了行業實景摳像的壁壘。同時,也提升了超長時間直播的穩定性能,包括超長時間連麥的穩定性、摳像的穩定性、音視頻互動、APP 性能、全方位的滿足異地多人多場景以及超長時間的連麥和直播需求。在各種采訪環境不可控的雜亂背景下,阿里云虛擬演播廳技術均可以處理實現最佳的成像效果,摳像效果精細到發絲。不僅如此,對于復雜的多場景,比如單人切換、雙人遠景切換、近景直播中插入電片廣告等,實現了無線無縫的切換,真正的達到了
140、廣電級級別的節目制作水準及行業領先的水平??旖?、實時、穩定,隨時隨地打造虛擬沉浸直播間 100 打通 RTC 與 GRTN,真正實現實時互動演播 除此之外,阿里云還打通了音視頻通信 RTC 以及全球音視頻實時傳輸網絡 GRTN,將多機位、多視角同步直播的技術能力與RTC實時連麥、異地開播等能力進行結合,為用戶提供了簡單穩定的連線功能,真正地實現了互動虛擬演播的能力。目前,阿里云導播臺支持最多 12 路的輸入源,同時六路的摳像合成,支持自定義的背景圖,支持對于摳像對象的位置和大小直接進行拖拽設置,支持只保留音頻的監聽模式,支持布局圖層順序調整,只需要通過簡單的兩三步配置即可完成快速開播。首家“端
141、云無縫銜接”的導播平臺 虛擬演播廳也提供了多種產品使用方案。在阿里云登錄直播控制臺,即可以開箱即用可視化的配置和開播,可以實時的制作播出監看,調整直播內容。本地與線上一鍵同步,無需開發介入,適合各種運營和業務團隊的使用。此外,還可以基于完善的 API 服務,按需調用封裝自己的直播業務系統。云導播還提供了帶有控制臺前端頁面的完整 WebSDK,可以直接嵌套集成,節省開發成本,幫助提供整套直播解決方案??旖?、實時、穩定,隨時隨地打造虛擬沉浸直播 101 通過互動虛擬演播廳采訪任務,僅需要兩部手機加一臺電腦,即可以隨時隨地的展開直播與轉播,同時也讓觀眾們可以在第一時間體驗到了更具有沉浸感的播報視感。
142、2.專業直播重保:讓直播服務更穩 隨著直播用戶增長,各平臺都開始精細化運營,而保證百萬量級以上并發直播活動的高可靠、高品質是各直播平臺急需解決的問題。阿里云擁有遍布全球的 IT 基礎設施,支持海外業務無縫布局,通過阿里云搭建的全球實時音視頻通信網(GRTN),全世界各地的直播流可實現就近接入,通過高速通道快速傳輸至指定直播中心進行內容分發。阿里云直播重保方案包含全鏈路穩定方案、全鏈路防盜鏈方案、千萬級并發調度方案、全鏈路監控方案、全量鏈路監控方案。對于一個重要的直播活動,為了保證推流或源站的高可用穩定,推薦使用兩個推流端,分兩路推到直播中心并做一次合成,合成之后再進行處理轉碼及分發,避免推流端
143、的單點風險以及推流網絡單點風險??旖?、實時、穩定,隨時隨地打造虛擬沉浸直播間 102 視頻直播支持訪問控制,如 Refer UA 黑白名單、IP 黑白名單等,雖可做到基礎防護,但是偽造也比較容易,而該加密方法擁有獨立加密密鑰,避免單一密鑰泄密引起大范圍的安全問題,支持加密轉碼+解密播放,動態密鑰管理更安全地保護視頻資源,可有效防止視頻泄露和盜鏈問題,實現大型賽事直播版權視頻內容搬運侵權的取證、溯源和追責。對于千萬級并發的直播帶寬抖動是非常大的。以往年世界杯直播為例,上下半場之間有中場休息時間,畫面比較簡單,通過阿里云的窄帶高清技術在進行傳輸時帶寬 快捷、實時、穩定,隨時隨地打造虛擬沉浸直播 1
144、03 只有峰值的三分之一或四分之一,當下半場開始時,大量用戶快速涌入直播間,帶寬瞬間回到峰值。短短一分鐘內,帶寬增長幾個 T 或十幾個 T。這樣場景下的調度風險是非常大的。如何來規避這個風險呢?調度方式有三種:DNS調度、302 調度,HTTPDNS 調度。綜合起來最好的是 HTTPDNS 調度,它反應速度非???,而且也不存在那個首屏的影響,需要客戶端這些做一些接入。同時,阿里云還會提前智能預測需要帶寬趨勢,提前分配好資源,做好大型活動賽事優先級保障,能夠非常有效的防止 T 級帶寬突發帶來的風險。在直播護航過程中,專人在后臺提供全程服務保障以及全鏈路服務監控,從推流開始到最終播放的整個鏈路的情
145、況,包括幀率、碼率以及全網帶寬壓力情況。針對特別重大活動,阿里云還會定制類似右側的大屏,對于每一路直播流,都會用紅綠燈的方式顯示通斷情況,便于迅速發現哪一路流出現了問題,也可以具體觀看幀率、碼率以及在線的用戶數??旖?、實時、穩定,隨時隨地打造虛擬沉浸直播間 104 為了看到視頻直播數據信息,阿里云提供了廣目系統,該把客戶直播的幾路直播,無論是原始流,還是轉碼流,合并成一路監控流進行監控。整個監控可以分成四屏、八屏或十二屏來實現一個盯屏畫面。如果幀率抖動,碼率異常,以及音視頻的同步異常,或卡頓這種情況出現的時候,會進行實時報警。阿里云直播重保方案,提供全鏈路的安全穩定保障,提供高質量的直播服務,
146、讓直播更流暢、賽事更精彩、活動更安全。3.直播服務再升級:大型賽事實力驗證 阿里云視頻直播服務,依托遍布全球的商用帶寬能力,低延遲、高并發,保證賽事畫面從源頭穩定分發到終端;基于自研的窄帶高清轉碼技術,降低傳輸碼率,節省帶寬,實現直播更高清、更流暢;同時,端到端、場景化的優勢,可滿足不同場景下的需求,極大降低企業開發門檻,助力業務快速上線。近期的產品升級發布會,展示了阿里云視頻直播所重磅升級的兩大能力:虛擬直播間服務與直播重保服務,不僅提供了行業首創全鏈路云端實景摳像與虛擬背景合成能力,也通過全鏈路災備與應急預案等保障手段,為重要活動、體育賽事、演唱會等大型在線直播場景提供高可靠、高品質、低延
147、時的直播服務??旖?、實時、穩定,隨時隨地打造虛擬沉浸直播 105 阿里云的互動虛擬演播廳方案已被廣泛應用到國內各類賽事活動直播中,在東京奧運會奧運村現場,身處東京的阿里云國際體育事業部代表便曾通過阿里云視頻云的虛擬演播廳、實時字幕等能力,與身處馬來西亞、美國、中國等多地的合作伙伴完成了直播連線及云簽約儀式。而在 2022 年的北京冬奧會上,“虛擬演播廳”在 CGTN 在北京冬奧會的記者連線報道中充分應用,全程助力媒體實現全鏈路的制播上云,為傳統新聞節目制作創造了全新場景,打造了奧運賽事報道的沉浸式體驗。能力升級后的一站式虛擬直播,技術更具前瞻性,效果更為精細化,互動更享沉浸感,場景更具豐富性。
148、阿里云基于各類頂級賽事和重大活動的直播業務驗證,沉淀了深厚的活動賽事直播重保經驗,以靈活易用的虛擬直播間和穩定可靠的深度保障,不斷創新行業應用場景,為客戶創造新的價值空間。發布時間:2022 年 4 月 24 日 作者:IMMENSE 快捷、實時、穩定,隨時隨地打造虛擬沉浸直播間 106 第五章 英雄聯盟 S10:全球首個實時字幕技術(此頁面將由下圖全覆蓋,此為編輯稿中的示意,將在終稿 PDF 版中做更新)全球首個游戲直播實時字幕技術 熱力支持英雄聯盟 S10 賽事 107 全球首個游戲直播實時字幕技術 熱力支持英雄聯盟S10 賽事 英雄聯盟S10 全球總決賽作為電競頂流,在賽事期間聚集了無數
149、觀眾在游戲直播平臺。線上持續觀戰之時,很多觀者有一項特殊發現,即游戲直播中竟出現了實時語音字幕,這讓電競主流之外的吃瓜之眾也能迅速融入到大賽氛圍中,感受 S10的鼎沸熱潮。2020 英雄聯盟 S10 全球總決賽 準確而言,這是由阿里云視頻云技術團隊與達摩院語音識別和 NLP 團隊共同研發完成,以實時語音字幕的形式展現在S10賽事中,并應用于國內某知名游戲直播平臺。更確切的說,針對這項游戲直播場景的實時字幕技術,阿里云視頻云是第一個成功推出的先行者,據了解,即使在世界范圍內,也是實時字幕技術于游戲場景成功嘗試的首例。故,這也是首次應用在英雄聯盟 S10 頂級賽事,開創了游戲直播體驗的先河。在 S
150、10 直播中,該實時字幕技術的場景重要性在于兩點:全球首個游戲直播實時字幕技術 熱力支持英雄聯盟 S10 賽事 108 第一,對一直存在的直播體驗問題進行徹底改善,延伸了場景的可能性,例如針對不能直接聽賽事的、或吵鬧環境導致聽不清楚的、或解說人的語言不標準造成理解困難、以及聽力有點困難的這幾類人群,他們可以通過實時字幕來輔助理解,解決歧義,從而拓展了在線觀看的人群。第二,實時字幕可以讓視頻分發更專業,提升直播平臺對場景生產能力的專業性,特別是針對一些電競的專有術語,可以讓入門級的用戶能理解其字,由字生義,由義明字,從而提升游戲直播的體驗感,引導更多的泛電競受眾。帶有實時語音字幕的某平臺 S10
151、 直播 在游戲直播領域,該技術的輸出核心在于,針對特定游戲場景進行特定的語音識別,并實時展示在直播流中,讓分發端的觀眾可以借助字、音、畫多維度信息理解視頻內容。對于未來的游戲直播行業,它開創了游戲賽事直播的新玩法嘗試,讓直播實時語音識別的技術幫助大型賽事游戲更好的分發,對整個行業具有更多維的延展性價值。在該項目的技術方案實踐中,最核心的研發環節與攻克難點在于兩方面:語音識別的準確率。全球首個游戲直播實時字幕技術 熱力支持英雄聯盟 S10 賽事 109 字、音、畫三者實時且同步,然后合成展示。在這兩方面,視頻云與達摩院整體協同并分別攻克。達摩院主要解決語音識別的準確率,通過特定游戲場景來訓練模型
152、,提高準確率;阿里云視頻云提供全鏈路解決方案,進行客戶直播流的接入、直播流的語音分離、調用達摩院的語音識別獲取字幕、然后字音畫同步、合成展示,最后分發。對于實時字幕技術,起初,視頻云實現的是實時插入字幕的功能,后來才逐步實現語音實時字幕,其與實時插入字幕有一個本質區別,即,實時語音字幕是一個字幕流,同時有一定的時效性,需要實時、字音畫同步,且展示的時長機制不一樣。早在游戲直播場景的研發之前,阿里云視頻云就曾成功研發全球速賣通(AliExpress)海外電商直播實時字幕項目,AliExpress 作為“國際版淘寶”的跨境電商平臺,其使用的是導播臺做實時語音字幕和實時翻譯,進行多國多語種字幕展示,
153、也是視頻云與達摩院共同打造的世界上第一個多語言電商直播實時翻譯系統。在該 AliExpress 項目上,視頻云團隊已經積累了對導播臺實時語音字幕的各種功能與穩定性的把控力?!八赃@次 S10 賽事支持,我們僅需要后端更新游戲場景的語音識別模型即可,不需要額外投入開發。僅和平臺用戶對接,讓用戶的流接入我們導播臺,開通實時語音字幕即可,然后輸出給用戶?!卑⒗镌埔曨l云該項目的技術負責人表示。全球首個游戲直播實時字幕技術 熱力支持英雄聯盟 S10 賽事 110 精確地說,當前,S10 賽事的實時字幕技術,運用了阿里云視頻云導播臺成熟的實時語音字幕方案來提供該功能,S10 支持結束后,后續更多的游戲直播
154、場景均可以更廣泛地復用這套語音字幕的直播方案,包括優酷、B 站、抖音、快手這樣的視頻平臺。未來在大型電競賽事直播上,實時字幕技術、實時語音技術領域,還有新的技術空間思考:需要進一步提升語音識別的準確率;在應用情景上還可做實時翻譯,確保多國分發;實現更低的延時,目前是 RTMP 延遲 3-5s,實際上可以做到更優質的 RTS 延遲1-2s,從而極大提升在線體驗。相較游戲直播、電商直播、或其他直播場景的實時語音字幕,在技術邏輯的本質上是一致的,均是字幕的同步、合成和展示,但是,不同場景,語音識別的模型完全不同,比如電商有電商的專業術語,游戲有游戲的專業術語,同時還有一些領域俚語,所以,需要進行特定
155、的語音識別模型訓練以完成。未來,對實時字幕(支持實時語音字幕的直播)技術的研發,進一步的技術升級規劃方向是:一方面,讓用戶的接入更靈活,字幕模型配置以及字幕的樣式展示更方便。另一方面,支持更多的特定場景,提高特定場景的語音識別率,以此復用到更多具化場景的玩法嘗試中。也許,通過實時字幕技術,更多的圈外人能輕松 get 英雄聯盟賽事解說人準確無誤的描述,從而一起融入熱血的電競文化。而對更多場景、更多維度的技術探索,才能夠真正推動新內容與新交互的未來。發布時間:2020 年 10 月 23 日 作者:IMMENSE 第六章 CUBA:“自由視角”的暢快賽事(此頁面將由下圖全覆蓋,此為編輯稿中的示意,
156、將在終稿 PDF 版中做更新)5G+邊緣計算+自由視角,讓體育賽事更暢快 112 5G+邊緣計算+自由視角,讓體育賽事更暢快 世界本是多維的。進入 5G 時代,觀眾對多維度視覺體驗的需求日益增長,5G MEC 網絡與邊緣計算的結合,具備大帶寬、低延遲特性,使視頻多維視覺呈現成為現實。在第二十三屆 CUBA 中國大學生籃球聯賽期間,中國電信(江蘇公司、云公司)、阿里云與優酷強強聯合,通過 5G+邊緣計算+“自由視角”這項黑科技,充分發揮多角度、多細節、自由觀看的特點,幫助觀眾更立體地追蹤球賽的精彩瞬間。視頻類業務發展至今,已不僅僅是單純的視頻內容的播放呈現,觀眾更多的將其當作一個全新的交流媒介。
157、為了讓直播體驗發揮到極致,優酷與中國電信(江蘇公司、云公司)、阿里云三方聯合,將 5G MEC 網絡與邊緣計算技術相結合,使得自由視角直播在低延時、本地彈性化算力等方面取得巨大成功,這也是中國電信 MEC 和阿里云邊緣計算在消費互聯網場景下的首次實踐落地,對后續 5G+MEC 在高新互動視頻領域的應用具有重大意義。5G+邊緣計算+自由視角,讓體育賽事更暢快 113 所謂“自由視角”,是通過在體育場館內環繞部署多臺攝像機,將現場采集的多路視頻內容編排整合后回傳至中心云或邊緣節點,通過中心云或邊緣節點部署的算力,將視頻流做 3D 渲染重建,再將渲染后的視頻流實時傳送給觀眾,讓觀眾可以在 150度的
158、范圍內隨心滑動觀看比賽,真正實現“你的視頻你做主,你就是這場球賽的導播”。提及視頻直播,讓人愛恨交疊。視頻直播帶給觀眾的視覺體驗和互動體驗是傳統靜態文字傳播媒介無法企及的,但直播中必然伴有不佳體驗,例如延時久、卡頓、掉線、黑屏等等,在此困局之上,如何造就自由視角的暢爽體驗?在此次 CUBA 中國大學生籃球聯賽直播過程中,優酷借助現場 40 臺攝像機同步進行視頻拍攝,將多路視頻通過現場編碼器拼合后通過 RTMP 上傳給云端計算集群,通過 3D 重建算法實現 6dof 視頻的生產,然后將視頻經由 RTMP 上行到直播中心。當用戶終端選擇進入 6dof 視頻播放,邊緣云通過調度服務找到距離最近的 M
159、EC 邊緣計算節點,用戶將直播或點播 ID 和用戶觀看視角上行到 MEC 邊緣節點,MEC 邊5G+邊緣計算+自由視角,讓體育賽事更暢快 114 緣節點拉取對應的 6dof 直播 HLS 流,實現下載,下載解碼后,根據用戶傳入角度通過算法差值計算出對應角度的視頻流,并通過 5G 網絡發送給終端用戶。在整個鏈路之中,視頻的 3D 渲染重建依托于中國電信(江蘇公司、云公司)邊緣云計算 MEC 與阿里云邊緣計算操作系統的技術整合。以邊緣計算形式實現視頻數據就近云化處理,提高數據運算能力,降低對用戶終端設備本身的性能依賴,進一步優化用戶訪問的網絡時延,更從容應對大流量、高并發的同時也能降低中心壓力,更
160、好滿足如賽事直播、綜藝直播、在線教育等互聯網場景下大帶寬、低時延的業務需求。中國電信(江蘇公司、云公司)將 5G 網絡與邊緣計算 MEC 產品緊密結合,依托 5G網絡低時延、廣覆蓋的特性,以及中國電信遍布區縣、更靠近用戶的機房,將視頻數據在本地完成處理,極大降低觀眾觀看直播的時延,更好的滿足大帶寬、低時延業務的需求,為觀眾打造了低時延、高清、極速的觀看體驗。為了更加有效地實現對電信 MEC 邊緣云資源的部署、分發和調度,中國電信 MEC邊緣云也完成了與阿里云邊緣計算操作系統的技術對接。阿里云邊緣計算操作系統的引入,使得中國電信廣覆蓋、全程安全、能力開放的邊緣云 MEC 計算能力得到更優的編排與
161、管控,進一步優化了用戶訪問的網絡時延,更從容應對大流量、高并發的同時,也能降低中心節點壓力,更好滿足如賽事直播、綜藝直播、在線教育等互聯網場景下大帶寬、低時延的業務需求。5G+邊緣計算+自由視角,讓體育賽事更暢快 115 實際上,阿里云邊緣計算操作系統,是基于阿里云的虛擬化以及網絡、計算、存儲、安全等方面的技術沉淀,形成的一個大規模、分布式的、位置無感的、屏蔽底層資源差異、規模差異和使用差異的邊緣計算平臺。通過能力的開放以及運維聯動,為上層視頻應用提供豐富的邊緣中間件能力。以上兩者的技術打通,使得計算無處不在,充分發揮近終端、低延時、彈性算力的價值,賦能視頻行業突破原有業務邊界。5G 已經到來,邊緣計算是 5G 產業大規模應用的助推器。本次中國電信(江蘇公司、云公司)、阿里云與優酷的三方合作,可以說打通了 5G 面向互聯網商用之路的一道門。未來,邊緣計算必將進一進激發視頻產業創新變革,為觀眾帶來更加沉浸式、更震撼新穎的視頻娛樂體驗;同時邊緣計算將隨著 5G 應用的推動在智能制造、云視頻直播等一系列 ToB、ToC 領域場景獲得更廣泛的部署。發布時間:2021 年 4 月 13 日 作者:Edge Cloud 掃碼關注 視頻云技術公眾號 阿里云開發者“藏經閣”海量電子手冊免費下載 內容編輯 籍云 盈君 愜來