《阿里文娛:全景揭秘阿里文娛智能算法(187頁).pdf》由會員分享,可在線閱讀,更多相關《阿里文娛:全景揭秘阿里文娛智能算法(187頁).pdf(185頁珍藏版)》請在三個皮匠報告上搜索。
1、 文娛智能算法 185 目 錄 1 計算機視覺計算機視覺5 分區域處理的圖像和視頻清晰化技術6 基于人類視覺感知的視頻體驗評價體系17 端側智能算法在優酷場景的應用26 大千 XR-Video 技術概述35 大千 XR-Video 技術在互動劇上的應用49 優酷視頻換臉技術實踐52 基于多模態內容理解的視頻智能裁剪57 阿里文娛視頻智能裁剪技術實踐61 技術實踐-精準的視頻物體分割算法以及應用65 2 媒體智能引擎媒體智能引擎 SmartAI72 媒體智能平臺之推理服務73 海量視頻解構數據全生命周期流轉80 3 內容智能內容智能87 內容全生命周期里的文娛大腦88 長安十二時辰背后的文娛大腦
2、:如何提升爆款的確定性? 101 4 搜索搜索112 智能多輪對話式搜索技術實踐113 優酷語義模態匹配模型設計與實現118 優酷多模態搜索設計與實現125 5 推薦推薦131 基于 Bi-LSTM 深度學習模型的 Term Weight 算法132 多模態視頻多標簽分類在優酷推薦算法中的實踐137 6 增長與營銷算法增長與營銷算法146 本節摘要147 因果推斷在用戶增長中的應用149 基于 Uplift Model 的營銷增益模型154 外投 DSP 自動報價算法實踐161 7 搜推統一分發系統搜推統一分發系統167 本節摘要168 基于圖執行引擎的算法服務框架169 面向多級多模態場景的
3、召回引擎174 基于內容圖譜體系的特征與索引更新平臺179 文娛智能算法 3 序 阿里是一家堅信數據力量的公司,而文娛涉及的相關產業非常廣泛,從線上到線下、從影 劇綜漫到現場娛樂以及文學小說等,其組成、形式、展現、分發的復雜性交織在一起為業務數 據化帶來了巨大的挑戰。 近三年來,阿里文娛摩酷實驗室始終以助力業務發展和增長為核心驅動,形成如下四個的 技術方向: 內容理解是文娛相關算法技術的基石,IP、小說、劇本、視頻、音樂等不同形態的內容對 構建起領域知識圖譜帶來了很多困難,在這其中計算機視覺、自然語言處理、圖譜&推理、圖 神經網絡、多模態內容分析等技術被廣泛應用于內容解構。以視頻為例,影劇綜視
4、頻的時長很 難用一些低層級的標簽來抽象表達其內容,基于多模態的分析技術在這類內容上也會碰壁,因 此融合內容專家及機器學習系統的半自動化微標簽體系成為一種可行的出路。與短視頻快速的 線上反饋閉環不同,即使制作周期最短的綜藝節目也需要 3 個月以上,期間還面臨內容監察審 核的不確定,這就導致影劇綜內容制作高度的不確定性,如何基于復雜的數據分析線索以及歷 史的成敗規律來選擇評估內容是各個綜合視頻平臺所面臨的核心挑戰之一,而阿里文娛北斗星 系統就是用來解決這一問題的。 搜索和推薦作為兩種解決信息爆炸的重要手段被廣泛應用于各個 APP 中, 而影劇綜內容的 復雜性導致用戶想精確描述一個內容非常困難,僅通
5、過節目名、演員名去檢索給用戶也造成了 很大的困擾。在文娛內容的分發體系中對搜索模式、推薦模式的融合成為新的用戶需求,如何 更為準確的通過類強化學習的用戶意圖理解過程來協助他們盡快找到喜愛的內容,成為文娛搜 標簽化理解 元素化解構 內容 解構 引導TS提升 統一價值流 量分發 內容 宣分發 智能云剪輯 視頻體驗增 強 內容 生產 關鍵生產要素 數據化評估 核心生產資料 控貨輔助支撐 內容 評估 智慧文娛阿里巴巴文娛技術探索之路 4 推體系下一階段的首要任務。 文娛作為產業互聯網發展的重要行業,人工智能技術在這個領域中的應用空間廣大,而我 們也僅僅是邁出了一小步,期待工程師們能夠創造出更大的奇跡,
6、加速文娛產業數字工業化時 代的到來。 阿里文娛摩酷實驗室負責人 王曉博 2020.02.01 文娛智能算法 5 1 計算機視覺 智慧文娛阿里巴巴文娛技術探索之路 6 分區域處理的圖像和視頻清晰化技術 作者| 阿里文娛高級算法專家 出林、阿里文娛高級算法工程師 文淵 蒼華 一、UPGC 視頻和圖像質量面臨的挑戰 在優酷這種綜合性的視頻平臺,用戶的觀看體驗永遠是第一位的,而畫質是影響觀看體驗 的重要因素。對于影視劇來說,畫質和拍攝年代有較強相關性,也就是說隨著拍攝設備和技術 的提升,畫質也在提升。用戶一旦習慣了更高清的內容,就“回不去了” ,進而對視頻畫質甚至 顯示設備提出更高要求。而對于目前大量
7、增加的 UPGC 視頻,畫質情況卻不容樂觀,UPGC 視 頻來源主要包括兩種:一種是由正片切條產生的短小視頻經用戶上傳的,這種情況下,由于用 戶使用的片源清晰度無法保證,又經過多次的轉碼、壓縮、縮放,會導致畫質下降,導致壓縮 噪聲、塊效應等問題;另一種是用戶拍攝上傳的,雖然目前手機相機成像質量越來越好,分辨 率越來越高,甚至出現了 1 億像素、30 倍變焦等黑科技,但在不受控的拍攝環境中,普通用戶 終究無法控制拍攝質量,從而導致噪聲、模糊、光線等問題。 視頻的封面圖也是由原始視頻截幀得到的,好的封面圖會提升用戶的觀看欲望。如果原視 頻畫質差,即使封面圖經過人工和算法的精挑細選,也是“矬子里面拔
8、將軍” ,提升空間不大。 更壞的情況是,截幀之后選中的圖片還要進行圖片壓縮,進一步降低了畫質。 在所有畫質問題中, “偽高清”問題最為突出,也就是說雖然表面上看視頻分辨率很高,達 到了 720p 甚至 1080p,但實際畫質觀感很差,甚至不如 540p。因為“偽高清”視頻不能通過分 辨率簡單判別,所以想要解決“偽高清”問題,就要先識別它,然后再做針對性畫質增強。 通過影視劇切條得到的 UPGC 視頻,即前面提到的第一種來源,有非常顯著的特點。這種 視頻有很強的背景虛化,原片中人臉等重點區域細節豐富,經常出現字幕或 logo。針對這些特 點設計增強方案,會有事半功倍的效果。 文娛智能算法 7 二
9、、圖像和視頻清晰化解決方案 基于對業務場景的深入理解和分析,我們設計出完整的視頻和圖像清晰化解決方案,該系 統有幾個明顯的特點:畫質評估和清晰化形成閉環,分區域清晰化后再進行融合。 圖:圖像清晰化方案 1. 區域檢測 我們將區域劃分為 logo 區域、 人臉區域、 前景區域、 文字區域、 背景區域等幾個典型區域, 分別利用文字和 logo 檢測、人臉檢測、saliency 區域檢測等算法得到。后續的區域處理和融合 模塊對區域精度要求不高,所以出 saliency 區域有較精細的區域分割外,其余均使用檢測框。 2. 分區域處理策略 劃分前背景分別處理,是由于我們觀察到超分辨率(super res
10、olution)模型的一些特性,現 有的 SR 模型會對“疑似”邊緣做強烈的恢復。模型應用于背景虛化區域,某些輪廓會被增強 成強邊緣,而其他區域仍保持虛化的效果,這樣就造成了“突?!钡男Ч?,和人的主觀認知不 同。所以我們的模型對前景區域進行紋理恢復,背景區域只做簡單的亮度對比度調整。 對于 logo 和文字區域,由于這類圖像本身就是數字化內容,模式較單一,較容易通過簡單 智慧文娛阿里巴巴文娛技術探索之路 8 模型達到好的效果。 順便提一下, 對于動畫片的處理也是類似原理, 相比復雜的真實場景圖片, 動畫片總是更容易處理。 對于影視劇和短小視頻,人臉是用戶關心的重點,所以我們設計了人臉清晰化模型
11、對人臉 和頭發等區域單獨處理,通過大量高清人臉圖片訓練 SR 模型,并適當加入 GAN loss,可以恢 復出人臉五官、毛發細節和皮膚紋理,達到分毫畢現的效果。 總結一下,我們多個模型對不同區域進行處理,分為 logo 和文字模型,人臉清晰化模型, 和一般前景清晰化模型。其余還有一些通用的亮度對比度調整算法,對圖像全局進行調整。 3. 質量評估模塊 優酷摩酷實驗室構建了大規模的 UPGC 圖片質量數據集,并提出了 multi-level 特征融合的 無參考質量評價框架(見我們的另一篇文章:基于人類視覺感知的視頻體驗評價體系) ,該方法 不僅輸出總體質量分,還可以輸出失真類型。 得益于實驗室良好
12、的技術沉淀,我們的線上數據都可以打上質量分和失真類型,進而和清 晰化模型結合形成評估+增強的業務閉環。 我們依據質量總分將數據劃分為好、 中、 差三檔, 對于本來畫質已經很好的圖片不做處理, 對于中和差的數據依據失真類型篩選出清晰化模型能處理的部分,并根據失真程度賦予清晰化 模型不同的恢復參數。 4. 疊加融合模塊 由于分區域處理模塊只負責紋理和邊緣的恢復,亮度和對比度后置到全局調整模塊,我們 的框架對分割和融合精度的要求較低,只需要簡單的 alpha blending 就可以達到好的效果。 5. 視頻清晰化 以上是面向圖像的清晰化方案,對于視頻場景我們做了適應性改進。為了保證前后幀效果 的一
13、致性,我們對增強參數做了時間平滑。將圖像場景的 SISR(單幀超分辨率)模型替換為 VSR(視頻超分辨率)模型,增強了對視頻壓縮問題的處理能力。同時,我們構建了 UPGC 視 頻質量評價數據集,并在此基礎上訓練了視頻適量評價模型,將視頻按質量分檔,并針對失真 類型進行處理。 文娛智能算法 9 三、重點算法原理介紹 1. 快速的融合模型 提升圖像和視頻清晰化的方法有超分辨率、銳化、以及將超分辨率和銳化結合的形式等。 對于超分辨率,在學術界早年通常采用 bicubic 降采樣的方式構造圖像或視頻數據對,這種 方式構建的數據對的輸入數據分布通常跟真實低分辨率圖像或視頻的分布相差很大,導致應用 在真實
14、低分辨率數據上,會出現各種各樣的問題。比如在 bicubic 降采樣方式構建的數據訓練的 模型應用在真實的低分辨率圖像上后,會出現網格狀的 artifacts。近幾年,在構造數據和模型框 架上, 學術界做了一些新的嘗試。 比如阿里巴巴達摩院的研究人員在構造數據集時采用了 realSR 的方式,通過搜集同一場景下不同分辨率相機的圖像,然后通過圖像匹配的方式構建訓練數據 對,這種方式雖然一定程度上能夠讓獲得的低分辨率圖像更加接近真實的低分辨率圖像,但也 存在著對齊的問題。比如由于存在非嚴格對齊問題,造成光暈的現象。另外在模型框架下,近 幾年也涌現了一些采用非監督方式訓練超分辨率。但非監督方式跟監督
15、方式相比,在效果方面 還有一定的差異,需要研究人員進一步提升模型的效果。 對于銳化而言,通常是采用傳統算法,但傳統算法也存在著一定的問題。比如傳統的經典 銳化算法 DOG,會存在噪聲的放大和銳化過渡導致光暈的問題。另外一些銳化算法,采用經典 的保邊濾波算法,提取圖像的低頻,進而獲得圖像的高頻信號,但這一類算法由于采用了較復 雜的保邊濾波算法,通常速度比較慢,很難達到工業界對于速度的要求。 另外一類銳化算法借鑒近幾年大熱的深度學習算法,將保邊濾波提取低頻這一步驟采用深 度學習來做,一定程度上緩解了速度的瓶頸,但對噪聲放大問題并沒有得到很好的解決。另外 一種是采用超分辨率和銳化相結合的方式,常見的
16、做法是采用深度學習進行超分辨率,然后結 合傳統的 DOG 算法進行銳化。 通常而言采用深度學習對低分辨率圖像處理后的圖像距離 GT 圖 像還有一定的距離,因此需要采用銳化進一步提升清晰度。但由于采用了先進行超分辨率,然 后銳化的方式,而超分辨率采用深度學習算法,通常是在 GPU 上運行,而銳化通常是采用傳統 算法,是在 CPU 上運行,中間涉及到 GPU 和 CPU 的相互切換等,因此對于視頻而言速度并不 快,也很難達到實時處理的要求。為了解決這個問題,我們采用快速融合模型的方式,即采用 單個深度學習網絡,同時學習超分辨率和銳化,可以在基本不損失效果的基礎上,速度得到很 大程度的提升。 智慧文
17、娛阿里巴巴文娛技術探索之路 10 2. 人臉清晰化 線上的大量素材和長短視頻大部分以人像為主體,人像的清晰程度是影響用戶視覺體驗的 主要因素。針對人臉清晰化我們設計了如下算法流程: 流程: 1)原始圖像通過人臉檢測器,檢測平均人臉大?。簽榱颂嵘煌叨认氯四樤鰪姷男Ч?, 我們對比了單模型和多個尺度模型效果,多個尺度模型的還原效果優于單模型結果; 2)通過模糊檢測預測降尺度系數,縮放圖像以降低模糊程度:實際素材存在不同類型和程 度的模糊退化問題,模糊程度較高時還原結果會存在較多失真紋理,因此單獨訓練了一個模糊 檢測器預測降尺度系數,通過圖像降尺度,減小模糊因素產生的失真問題; 3)判斷原圖平均人
18、臉尺度,縮放圖像至三種尺度中心; 4)選取相應尺度增強模型,通過人臉增強模塊,得到高清人臉。 我們的主要工作是針對人臉增強模塊,設計了基于 gan-loss 的超分網絡,結構如下: 文娛智能算法 11 LR 為低清圖像, SR 為超分圖像, HR 為高清圖像。 人臉增強模塊的訓練由生成器 (Generator) 和判別器(Discriminator)兩部分組成,生成網絡使用了稠密連接的 Residual-in-Residual Dense Block(RRDB)結構,有利于提取層級較深的圖像特征,判別器參考 RaGAN 判別 SR 和當前 批次 HR 圖像特征差距來判別 SR 的真實度是否超過
19、批次 HR。判別器為: 其中為低清圖像特征,為當前 mini-batch 高清圖像特征的期望 訓練過程的損失函數包含三部分: 其中,為感知損失函數,判別器損失函數如下: 針對素材圖場景, 為了提升人臉細節清晰度, 我們使用 Pixel shuffle 作為上采樣方式, SSIM 指標提升。在線上測試過程中,發現增強結果中有 5%左右的樣例存在失真現象,后通過實驗對 比,發現 gan-loss 權重過大、原圖模糊程度較高是導致失真現象的主要因素,通過降低 gan-loss 權重,且僅在中間訓練階段采用 gan-loss,引入模糊檢測模塊對原圖降尺度,最終有效減少了失 真紋理的產生。為了解決大尺度
20、人臉清晰度還原不足問題,使用特征金字塔結構融合多尺度信 息以提升增強穩定性。針對短視頻場景,使用輕量化模型提升模塊速度,達到 50ms/幀,并對 人臉區域邊緣作平滑以減弱過渡紋理不自然的現象。 3. VSR 模型 深度學習視頻超分辨率技術通常分為兩種,一種是單幀超分辨率,另外一種是多幀超分辨 率技術。 單幀超分辨率速度通常較快,但很難解決前后幀連續性的問題,從而導致畫面的閃爍,導 致人的主觀感受較差。多幀超分辨率算法,一方面可以很好的解決前后幀連續性的問題,另外 一方面由于利用了多幀的信息進行處理,在主觀效果上要明顯好于單幀算法。多幀超分辨率技 術的主要問題是速度相對比較慢。目前 state
21、of art 的算法是商湯的 EDVR,借鑒傳統視頻處理 算法,包括幀對齊模塊、幀間融合模塊等。 優酷視頻場景下, 一方面面臨著分辨率不足的問題, 另外一方面面臨著壓縮、 噪聲等問題。 智慧文娛阿里巴巴文娛技術探索之路 12 因此對于優酷場景,需要在對視頻進行分辨率提升的同時,能夠有效的解決壓縮、噪聲等視頻 畫質退化問題。 為此, 我們進行了大量的嘗試和方案驗證, 從而找到了貼合優酷視頻場景的相關解決方案。 在數據處理方面,一方面,我們采用 GAN 網絡等設計了視頻降質工具包,可以一定程度上模 擬優酷場景下的視頻降質過程。另外一方面我們從優酷有版權視頻庫中獲取同一視頻的不同分 辨率視頻,并對視
22、頻進行匹配和清洗,從而構建貼合優酷業務場景的訓練數據集。在模型結構 設計上,為了解決分辨率不足的問題,我們借鑒了主流 VSR 模型的 PixelShuffle 模塊,與此同 時為了解決尺度連續性問題, 我們采用了多尺度金字塔融合的方式。 為了解決幀間連續性問題, 我們借鑒傳統視頻多幀算法,引入了多幀對齊模塊,并在此基礎上融合了 attention 模塊,對視 頻進行了分區域處理。為了解決噪聲問題,我們借鑒傳統的頻譜分解方式,在網絡結構中加入 了小波分解和重建模塊。為了解決去壓縮問題,我們引入了 ResBlock 模塊。最終融合了上述模 塊的網絡結構,在優酷業務數據集上訓練后,對優酷場景下視頻面
23、臨的噪聲、壓縮、低分辨率 等問題得到了很好的解決。 四、處理效果和業務收益 1. 去除壓縮導致的噪聲問題(建議放大觀看) 左圖為原圖 右圖為處理后圖 文娛智能算法 13 原圖 處理后 為便于觀察,局部做了提亮處理,可見處理后更細膩,條帶/階梯效應大幅減少。 2. 算法采用分區處理,重點優化文字、人臉等區域, 提升畫面清晰度 原圖 處理后 智慧文娛阿里巴巴文娛技術探索之路 14 原圖 處理后 原圖 處理后 原圖 處理后 人臉部分可見明顯提升,五官細節得到恢復。 文娛智能算法 15 原圖 處理后 Logo 和文字部分清晰度明顯提升。 3. 用于素材海報圖的清晰度提升 原圖. 處理后 人臉部分截圖
24、處理后圖 智慧文娛阿里巴巴文娛技術探索之路 16 五、總結 以上詳細描述了優酷 UPGC 場景視頻和圖像清晰化解決方案,并介紹了關鍵算法的原理和 改進思路。采取分區域處理的策略,對不同的區域分別處理,對文字、logo、人臉等區域效果 尤其明顯,人臉達到了分毫畢現,毛發和紋理細節得到了恢復。我們提出了自己的質量評價模 型,結合視頻和圖像清晰化模型,構建了完整的質量評價+增強解決方案。 算法的進步是永無止境的,當前各種算法技術也是層出不窮,如何把算法融會貫通并加以 改進,應用于我們的業務場景,讓算法發揮最大價值,是我們長期研究的問題。 文娛智能算法 17 基于人類視覺感知的視頻體驗評價體系 作者|
25、 阿里文娛資深算法專家 鏡一 一、背景 視頻質量評價技術是指基于視覺生理學心理學特性, 例如人眼的多通道、 多方向分解特性, 視覺對比敏感度函數(Contrast Sensitive Function, CSF)和恰可失真門限(Just Noticeable Difference, JND) ,視覺注意(Visual Attention, VA)機制等對用戶觀看體驗進行定量分析,包括 主觀評測以及客觀建模。視頻體驗的終極受體是人眼,因此視頻質量的評價可以與 4K/8K 極高 清,HDR,AR/VR 等視頻處理技術形成閉環,指導其優化最終達到增強用戶觀看體驗的目的。 起初在大家還只是把電視/電腦
26、顯示器作為觀看視頻的主要手段的時候,由于人眼是視頻的 最終受體,視覺質量也因此稱為 visual perceptual quality,即,只是視覺上的畫面質量感受。隨 著多媒體和硬件技術的發展,3D 立體電視電影(需佩戴 3D 眼鏡觀看,裸眼 3D 技術尚不成熟 效果極差這里不做討論)的興起導致行業內必須重新對視覺質量進行定義。在立體視頻中,除 了畫面本身的質量這個維度外,又多了兩個維度:深度(depth)和視覺疲勞(visual discomfort/ fatigue) 。在 2012 年,歐盟 Qualinet(European Network on Quality of Experie
27、nce in Multimedia Systems and Services)發布了關于視頻體驗質量的白皮書,里面建議把這種多維度的感知體驗 用 Quality of Experience (QoE) 來表示。 其具體定義為 “Quality of Experience is the degree of delight or annoyance of the user of an application or service. It results from the fulfillment of his or her expectations with respect to the utili
28、ty and /or enjoyment of the application or service in the light of the users personality and current state”. 也就是說,感知質量與具體應用和服務相關,基于用戶 對于設備或者服務在可用行上或享用性上是否達到期望的滿足程度。 期望因人而不同 (受職業, 性別,年齡,教育背景,個性等的影響) ,即便針對于特定的某個人,他/她的期望也會因他/她 本人當前的狀態(例如,情緒,生理狀態)而有所改變。 智慧文娛阿里巴巴文娛技術探索之路 18 隨著4K電視, HDR技術, multi-view, fre
29、e-viewpoint video, 360視頻, 虛擬現實Virtual Reality, 增強現實 Augmented Reality 以及混合現實 Mixed Reality 的發展, Qualinet 定義的 QoE 的概念可 以無差別的直接應用于這些多媒體載體上,所以在業界被廣泛采用并認定其為標準定義。 為什么要做質量評價?因為用戶的觀看體驗永遠是第一位。而在整個視頻從獲取,處理, 壓縮,傳輸到最后解碼,增強,播放的 pipeline 中,每一個階段視頻質量的評估可以指導和優 化相對應的算法實現,進而實現每一個階段算法效果的提升,最終導致用戶觀看體驗的提升。 這是我們的終極目標。 圖
30、:摩酷實驗室視頻質量評價體系圖 二、摩酷實驗室主觀測試平臺 顯而易見,QoE 是一個主觀的感受。要去評價/測量(evaluate or measure)這個主觀上的感 受,需要讓人去給視頻打分。與 Computer vision 領域的數據標注不同,一段視頻的質量不同的 人給出的分不一樣,在不同環境下看給的分不一樣,放到電視上去看或者放到手機、平板上看 質量不一樣。甚至,離遠了近了去看質量也不一樣。為了解決這個多影響因素的問題,視頻質 量專家小組(VQEG)與國際電信聯盟 ITU 聯合致力于視頻質量的標準化。在 ITU-R BT.500 等 一系列的標準中,規定了測試視頻質量的標準實驗流程,包
31、括人員篩選,實驗環境,實驗方法 等(詳情請參考 ITU-R BT500 文獻) 。摩酷實驗室依據 ITU 國際標準,也搭建了自己的主觀測 試平臺。 文娛智能算法 19 圖:摩酷實驗室主觀測試流程 1. 標準測試環境 摩酷實驗室搭建了符合 ITU-R BT.500 所規定的標準測試環境,如下所示: 測試環境亮度 低 背景色度 Chromaticity D65 亮度峰值 70-250 cd/m2 顯示器對比度 0.76。 FEELVOS5、 siamMask7等算法理論上有很好,實用中卻存在多種問題。交互式視頻物體分割更是沒有開源 代碼。 所以, 優酷認知實驗室從2019年3月底開始從事半監督和交
32、互式視頻物體分割算法的研究。 2019 年 5 月,我們完成一版基礎的半監督視頻物體分割算法和交互式視頻物體分割解決方 案,并以此參加了 DAVIS Challenge on Video Object Segmentation 2019,在交互式視頻物體分割 賽道獲得第四名。 我們提出的 VOS with robust tracking 策略8,可以較大幅度的提高基礎算法的魯棒性。在 智慧文娛阿里巴巴文娛技術探索之路 70 Davis 2017 驗證集上, 我們交互式視頻物體分割算法 J&F60s 準確率從 3 月底的 0.353 提高到 5 月初的 0.761?,F在,我們的半監督視頻物體分割
33、算法也達到了 J&F=0.763??梢哉f,在這個 集合上我們的結果已經接近業界一流水準。一些分割結果示例如下: 視頻 2. 我們的交互式視頻物體分割結果示例 五、優酷認知實驗室的后續計劃 目前,我們在繼續探索復雜場景下的算法應用,這些復雜場景包括小物體、前景背景高度 相似、 物體運動速度很快或表觀變化很快、 物體遮擋嚴重等。 后續, 我們計劃在 online learning、 space-time network、region proposal and verification 等策略上發力,以提高視頻物體分割算法在 復雜場景下的分割精度。 另外,圖像物體分割算法、多目標物體跟蹤算法也是視頻
34、物體分割算法的重要基礎,我們 也將在這些方面持續提升精度。 Reference 1 The 2019 DAVIS Challenge on VOS: Unsupervised Multi-Object Segmentation. S. Caelles, J. Pont-Tuset, F. Perazzi, A. Montes, K.-K. Maninis, and L. Van Gool .arXiv:1905.00737, 2019 2 A. Khoreva, R. Benenson, E. Ilg, T. Brox, and B. Schiele. Lucid data dreaming
35、for object tracking. In arXiv preprint arXiv: 1703.09554, 2017. 2 3 S. Caelles, K.-K. Maninis, J. Pont-Tuset, L. Leal-Taixe,D. Cremers, and L. Van Gool. One-shot video object segmentation. CVPR, 2017 文娛智能算法 71 4 J. Luiten, P. Voigtlaender, and B. Leibe. PReMVOS: Proposal-generation, refinement and m
36、erging for video object segmentation. arXiv preprint arXiv:1807.09190, 2018. 5 Paul Voigtlaender, Yuning Chai, Florian Schroff, Hartwig Adam, Bastian Leibe, Liang-Chieh Chen. FEELVOS: Fast End-to-End Embedding Learning for Video Object Segmentation. CVPR 2019 6 Seoung Wug Oh, Joon-Young Lee, Ning Xu
37、, Seon Joo Kim.Fast User-Guided Video Object Segmentation by Interaction-and-Propagation Networks. CVPR2019 7 Wang, Qiang,Zhang, Li,Luca Bertinetto, Weiming Hu, Philip H.S. Torr.Fast Online Object Tracking and Segmentation: A Unifying Approach. CVPR2019 8 H. Ren, Y. Yang, X. Liu. Robust Multiple Obj
38、ect Mask Propagation with Efficient Object Tracking. The 2019 DAVIS Challenge on Video Object Segmentation - CVPR Workshops, 2019 智慧文娛阿里巴巴文娛技術探索之路 72 2 媒體智能引擎 SmartAI 文娛智能算法 73 媒體智能平臺之推理服務 作者| 阿里文娛開發專家 歡朋 一、背景 隨著人工智能算法領域的快速發展, 機器學習在智能內容生產、 安全審核、 體育直播分析、 視頻內容結構化等領域的應用需求越來越多。算法開發工程師們面臨以下挑戰: 算法迭代頻繁業務發展
39、快速,業務需求多變且變更頻繁; 需要快速交付業務驅動,需要快速給出結果; 系統環境復雜依賴不同的計算底層,例如 GPU 或 CPU 等,同時也要保證算法服務 的整體穩定性。 二、行業對比 目前業界有很多視頻推理平臺, 如國外的 Deep Video Analytics (), 實 現了從視頻標注到推理服務的鏈路;阿里云的視頻云平臺提供了具有很多能力的推理服務;優 酷 smart 平臺基于業務需求,整合了鏈路上的所有節點,串聯了從標注到模型,再到推理,最 后沉淀數據反哺標注的完整系統, 實現了對模型迭代提升的一個正向循環; 優酷業務復雜多變, 算法開發模型也隨著業務不斷迭代,新需求新算法不斷部署
40、,smart 的產生就是為了解決這些問 題,提供一個穩定又能促進算法提升的目的而生。參考了國內外平臺,在此基礎上,smart 實現 了以下特性: 完整系統:實現從標注-數據-模型-推理-標注的循環; 智能標注:實現了以算法能力為基礎的智能標注; 存儲:實現了靈活高擴展的海量數據存儲; 調度:根據算法能力自適應調度, 多維負載均衡; DAG:算法能力實現圖形化串聯。 智慧文娛阿里巴巴文娛技術探索之路 74 三、架構設計 1. smart 致力打造一個正向循環的數據算法服務平臺 一站式的算法開發服務平臺,集成了 Tron 算法開發平臺、Smart 算法在線服務平臺、標注 系統、數據集等多個子系統來
41、解決實際算法開發、生產發布與在線服務的各種痛點。 通過 smart 平臺,能夠賦能算法開發與業務應用,算法能夠快速響應業務變化,驅動業務 創新應用。 2. smart 邏輯架構 文娛智能算法 75 smart 整體由上到下分為 5 個部分: 1)API 網關層:實現統一外部接口,包括 qps 限流、請求參數簽名驗證、防止重放驗證。 并統計算法執行情況:每個業務方的算法調用量、當日總調用量等; 2)任務系統:監控報表、任務報表、qps 報表、任務執行統計; 3)算法調度層:算法的藍綠部署與流量分配、算法的負責均衡、算法機器的健康管理、算 法機器發布管理、以及第三方算法的接入與適配; 4)算法計算
42、層:包括彈內的 CPU,GPU 計算容器;以及彈外的 EAS 算法容器; 5) 管理及監控: 算法的配置、 算法模板的配置、 業務調用方的配置、 限流配置、 業務大盤、 監控報警等內容。 四、技術細節 1. 任務調度策略 Smart 任務調度使用 MySQL 數據庫作為任務數據的存儲。Smart 任務調度引擎可以隨時調 整處于隊列中的任務優先級,來靈活干預隊列的執行,調度計算資源的分配。 1)smart 的任務調度支持優先級調度,可以根據不同的業務來源方設置不同的優先級。優 先級 priority 的值越高代表任務的優先級越高; 2)開始執行的任務先進先出:進入到執行中的任務也會優先完成,避免
43、被后續優先級高的 智慧文娛阿里巴巴文娛技術探索之路 76 任務占領導致已觸發的任務一直無法完成; 3)qps_limit 的任務優先重試:由于算法執行引擎繁忙導致 qps_limit 失敗的任務,也會優 先進行重試,保證已經開始執行的任務盡快完成; 4)通過數據庫樂觀鎖確保每個任務同一時刻只被某個 task-consumer 處理,但處于運行狀 態的任務經過指定時間沒有返回成功,會被放置回任務隊列進行重試; 5)不同算法間調度的負載均衡:任務調度系統會根據不同算法在隊列中等待個數以及相應 算法執行引擎的飽和情況,來動態調整算法的權重,進行不同算法間的負載均衡。 2. 算法能力編排 算法模板是在
44、單個算法能力的基礎上,根據業務需求把一系列算法組裝成一個完整的業務 處理流程。 通過算法模板,能夠將靈活的進行算法能力編排定制,快速響應業務需求,而不需要手工 重新編碼開發。 算法編排能力在滿足特定業務需求的同時,也沉淀了優酷素材內容的各種解決方案。 圖像質量分的算法模板 文娛智能算法 77 圖像質量模板對應的 json 配置 算法模板的內容包括: 1)算法節點的任務處理內容:包括算法的名稱、算法節點 id; 2)算法節點的依賴關系:一個算法節點可能依賴多個上一層級的算法節點的任務完成,并 把上一層級的算法節點的輸出結果作為下一層級算法的輸入參數; 3)整個模板的最終輸出節點:通過配置算法輸出
45、節點,來靈活定義整個處理流程的返回結 果,可以定義為多個算法節點的返回結果; 4)算法節點的預置元數據:通過預置元素材實現調用算法時的參數干預; 5)算法節點的結果保存方式:是否復用 smart 系統中已有算法處理結果。 3. 靈活拓展的海量數據存儲 為了滿足不斷日益增長的算法分析需求、與視頻內容結構化算法結果復用,需要針對視頻 圖像的每一秒一幀的圖像算法分析結果進行存儲。存儲的數據量級達到了 70 億+。 基于上述需求,選用了阿里云的表格存儲(Table Store)作為 smart 的算法結果存儲。 表格存儲(Table Store)是阿里云自研的 NoSQL 多模型數據庫,提供海量結構化
46、數據存儲 智慧文娛阿里巴巴文娛技術探索之路 78 以及快速的查詢和分析服務。表格存儲的分布式存儲和強大的索引引擎能夠提供 PB 級存儲、 千萬 TPS 以及毫秒級延遲的服務能力。 4. 通過列拓展滿足動態算法存儲需求 如上圖所示,這是某個視頻圖片的算法結果存儲行。 Table Store 支持多列拓展,一行中除主鍵列外,其余都是屬性列。屬性列會對應多個值, 不同值對應不同的版本,一行可存儲不限個數個屬性列。通過靈活的拓展屬性列,來保存不同 算法的算法結果。 在每個列的值可以對應不同的版本,版本的值是一個時間戳,可以用來保存算法不同版本 的處理結果。 5. ots 主鍵的生成規則 主鍵使用 a.
47、b.c.d 的規則 a 位,b 位的 hash 前 5 位,用于隨機分布 b 位,最常用的查詢條件。比如 site_videoId,taskId 等 c 位,任務類型 d 位,范圍,比如 startTime_endTime,或者隨機 uuid 的前 5 位 hash 例如:md5(key)#videoId#site#task_type#begin#end 以 md5(key)的前 5 位作為主鍵的第一部分,可以把數據散列,讓數據存儲整體負載均衡, 避免熱點問題。 6. 算法的行級結果復用能力 假設一個視頻以每秒 1 張的頻率截圖,總共有 1000 張圖片,在算法執行分析的過程中有 999 張都
48、分析成功了,剩下 1 張由于意外原因導致分析失敗。在下一次進行任務失敗重跑的時 候,還可以復用已有的 999 張,只需要再增量去跑失敗的那 1 張圖片,減少了不必須的重復計 算損耗。 如上圖所示,隨著同步算法 qps 的提升,系統會優先分配更多的資源給同步算法請求,同 文娛智能算法 79 時也會給異步算法保留一臺機器。當同步請求減少時,異步機器可以獲取更多的計算資源。統 一同異步計算資源,有效地提升了系統的資源利用率,也優先了保障了在線算法服務請求的響 應時間。 7. 動態自適應的算法隊列處理策略 挑戰:由于機器學習算法很多都需要獨占 GPU 進行運算,在每個 GPU 上同時只能處理一 個任務。如何保證 GPU 算法能夠達到最大的吞吐量,并且每個算法的執行 RT 也不能太久。不 同算法模型的處理耗時也不相同,無法設置統一的隊列長度或等待時間。 針對每個算法運行時的 RT 來動態計算 1 秒內所能處理的請求 qps( 1 秒/ 最近 100 次平均 的算法耗時) ,初始的隊列長度為 1,根據算法的 RT 耗時進行自動拓展,超