《4. AI Codec研究進展與展望(王晶).pdf》由會員分享,可在線閱讀,更多相關《4. AI Codec研究進展與展望(王晶).pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、AI Codec研究進展與展望王晶華為 媒體編解碼技術實驗室主任作經歷:2018-今 華為媒體編解碼技術實驗室2013-2018 國家計算機絡安全管理中教育經歷:2008-2013 清華學 電程系 博2004-2008 南京學 電信息科學與技術 學研究領域:視頻編解碼、圖像編解碼、圖像處理個人簡介王晶1JPEG AI標準介紹JPEG AI 標準簡介PartTitleWDCDDISFDISIS1JPEG AI:Core Coding System23/0123/0723/10-24/042JPEG AI:Profiling23/1024/0124/04-24/103JPEG AI:Referen
2、ce Software24/0124/04-24/104JPEG AI:Conformance24/0424/07-25/01wg1n90049,White Paper on JPEG AI Scope and Framework v1.0,2021.wg1n100603-100-CPM-Request for subdivision of ISO-IEC 6048(JPEG AI).VERSION 1(v1)Version 1 聚焦于效的圖像編解碼.壓縮效率 跨平臺致性 低復雜編解碼VERSION 2(v2):Version 2 處于需求征集階段 向機器視覺任務編碼 向圖像處理任務編碼 漸進
3、式編碼 JPEG AI 編解碼框架解碼器編碼器 YUV域編解碼去除分量間相關性,降低絡整體算 編碼特征殘差圖解耦概率分布參數與特征圖預測值估計 向不同應場景,設定兩個operation point兩個OP區別點 High OP 中編解碼絡增加注意機制 High OP 中預測絡利上下信息解碼算 Base OP:20 kMAC/pixel High OP:200 kMAC/pixelJPEG AI 性能評價指標:7個指標的綜合收益 msssim,vif,fsim,nlpd,iw-ssim,vmaf,psnrHVS當前壓縮效果與解碼端計算量Reference:VVC4 points BD-rate(
4、0.06,0.12,0.25,0.5)10%BD rate vs VVCMonotonicityMaxBitDiffDplexityTestAVGmsssim Torchviffsimnlpdiw-ssimvmafpsnrHVSMAX kMAC/pxlAVG kMAC/pxlTime GPU,xTime CPU,xModelModelSv4.1-tools-off-GPU-26.3%-39.4%-18.9%-29.1%-25.0%-36.8%-23.8%-10.8%TRUE366%2122070.35#9.97E+06 3.99E+07v4.1-tools-off-GPU-11.4%-29.0
5、%-3.5%-15.3%-10.3%-25.5%-1.5%5.6%TRUE315%22220.082.93E+06 1.17E+07HOPBOP實測性能1024x1024圖像,BOP的絡結構在Huawei Mate 50 Pro(Qualcomm Snapdragon 8+Gen 1 4G SoC)上實測耗時ModuleCPU(fp16)DSP(A8W8)Arithmetic coding8ms(*)-Hyper Decoder(Y)10ms(*)2ms(*)HSD2ms(*)2ms(*)Synthesis(Y)82ms(*)4ms(*)*wg1m100132-CPM-JPEG AI INF
6、Smartphone demo of JPEG AI codec,Timofey Solovyev,Alexander Karabutov,Dequan Yu,Tiansheng Guo*wg1m100031-CPM-JPEG AI CE Report on CE4.8-Lightweight Model Simplification(Hyper Part),Dequan Yu,Yin Zhao,Elena Alshina*wg1m100032-CPM-JPEG AI CE Report on CE4.8-Lightweight Model Simplification(Synthesis T
7、ransform Decoder Part)Xiang Pan,Ding Ding,Liqiang Wang,Xiaozhong Xu,and Shan Liu,Dequan Yu,Yin Zhao,and Elena AlshinaJPEG AI與與VVC主觀質量對主觀質量對wg1m99141-REQ-JPEG AI status overview,Joo Ascenso,Elena AlshinaJPEG AI VM4.1BOP_0.75 bppVVC_0.75 bppVVC_1.5 bppJPEG AI 工具功能工具碼率控制單模型多碼率ROI編碼降低復雜度Skip技術提升壓縮效率適應量化
8、隱變量縮放技術隱變量在線更新后處理增強濾波器JPEG AI Skip技術 Skip算法(*)當于0.2時,符號概率為0,跳過熵編解碼過程 有益效果:平均跳過60%的特征點,減少熵編解碼個數,降低復雜度 融訓練過程,類似RDOQ效果,提編碼效率 潛在險:當斯分布參數估計錯誤時,跳過對應特征值的編碼傳輸,引artifact 向skip技術的塊級控制技術(*)編碼端以8x8xC為單元進決策,判斷skip引的特征值誤差,并在碼流中傳輸skip enable flag基本原則:x為0的概率區間-0.5,+0.5 落在2.5范圍內時,x為0的概率超過99%。*wg1m98018-ICQ-JPEG AI C
9、E2.9 ElementCE2.9 Element-based skip in residual codingbased skip in residual coding,Jue Mao,Yin Zhao,Elena Alshina*wg1m99047-CPM-JPEG AI Non-CE Latent-cube-based control for the skip mode,Jue Mao,Yin Zhao,Solovyev Timofey,Elena AlshinaJPEG AI 碼率控制 基于通道增益向量的單模型多碼率架構(*)增益向量對特征圖進通道級縮放,實現變碼率編碼 適配JPEG A
10、I對特征殘差圖熵編碼架構,通過對特征殘差值及概率分布參數量化同步量化,實現碼率調節 基于塊級質量控制因的ROI編碼(*)塊級質量等級圖與特征圖寬相同,即圖像域16x16單元的控制度 塊級質量等級圖編碼法 質量等級值預測:_,=,1+1,/2 質量等級增量值:_,=,_,對質量等級增量值采基于斯分布的me-ANS編碼變量x的概率密度函數為斯分布:=!#$%!#$%$,則在#,!概率,即對x進量化操作后&=/,&在#,!的概率為!=$)&)()=$&()=$&!#$%!(#$%$()=$&!#$/)%!#/($%/($*wg1m98040-ICQ-JPEG AI Applying Gain Uni
11、t in entropy estimation subnetwork,Timofey Solovyev,Jue Mao,Panqi Jia,Elena Alshina,*wg1m100077-CPM-JPEG AI Non-CE 3D Gain Unit for Block3D Gain Unit for Block-level Quality Controllevel Quality Control,Jue Mao,Yin Zhao,Panqi,Timofey Solovyev,Elena Alshina小結JPEG AI標準愿景:利用AI技術,面向AI應用同架構,兩個OP,向多樣化應場景持
12、基于特征域的機器視覺和圖像增強任務JPEG AI技術特點基于效的AI絡結構,提升壓縮效率,同碼率下主觀質量優于VVC疊加編碼器可控制的AI編碼具,提升應適配靈活性、壓縮效率、解碼速度等利CPU+通AI加速器,實現實時軟件編解碼2AI視頻編碼當前AI視頻編碼概述整體結構預測編碼與殘差編碼兩部分 預測編碼:計算、編碼運動信息,并根據解碼后的運動信息將參考幀對到當前幀得到預測結果。殘差編碼:編碼殘差信息,并根據殘差信息重建得到重建幀。殘差編碼法主要包含直接殘差編碼與條件殘差編碼直接殘差編碼的先驗更強、更加依賴于預測的準確性。條件殘差編碼絡的由度更,對運動帶來的錯誤紋理更加魯棒。P幀編碼框架殘差編碼方
13、法AlphaVC視頻編碼方案示意圖I幀為經典基于VAE的圖像壓縮框架;P幀包含以下個部分:-特征提取模塊-運動模塊:包含運動估計、運動編碼解碼(Motion Encoder/Decoder)、運動信息的熵估計。負責估計、壓縮參考特征和重建特征的運動信息。-預測模塊:利傳輸的運動信息將參考特征對到當前特征。-殘差、置信度編碼重構模塊:包含殘差編碼解碼(Residual Encoder/Decoder)、殘差信息的熵估計、特征重建。負責編碼當前特征與預測特征的差,并得到當前幀的重建特征。AVS提案:M7882圖像與特征域轉換特征提取模塊將圖像域轉到特征域,于后續對、壓縮和重建。圖像模塊于根據重建后
14、的特征得到重建圖像。運動模塊運動模塊包括運動量估計模塊與運動量編碼模塊。運動量估計模塊包含運動估計、運動轉換、運動對與運動更新四部分。運動估計模塊:采預訓練的LiteFlowNet 2,在圖像域為每個像素成個運動量!#$%&;運動轉換模塊:利圖像域光流和特征域光流的相關性,圖像域光流直接成圖征光流!#!;運動對模塊:DCN對得到當前幀特征估計#!;運動更新模塊:當前幀特征!當前幀特征估計#!學習個特征域光流殘差,來修正特征域光流示。運動矢量編碼模塊運動量編碼類似于個AI圖像編碼框架,由Auto-Encoder和個熵估計模型組成。熵估計模型采了適應量化步的Skip熵估計。適應量化步的Skip熵估
15、計絡自適應量化步長利超先驗和運動的時域(前幀運動信息)、空域(參考特征信息)的先驗信息,估計出待編碼隱特征的均值,差,量化步。最終 0,的斯分布將,=()*+編碼流。Skip為了進步降低熵編碼時間,提升編碼效果,對于較(=27。測試環境為NVIDIA A100??陀^指標vs主觀感受PSNR:21.6364MS-SSIM:0.9167PSNR:21.2848MS-SSIM:0.9444PSNR:22.5892MS-SSIM:0.9467主觀優化loss向主觀優化的重建損失采了混合loss,包含:L1損失,LPIPS 損失6,對抗損失7以及PC損失5:!=&,!,6!+-!,6!+./012!
16、,6!+34(!,6!)為了對抗棋盤格效應,引了PC Loss(Periodic compensation loss)5:PC Loss根據棋盤格的周期將原始圖像和重建圖像劃分為塊計算所有塊相同位置的均值,得到聚合的特征塊計算原圖和重建圖特征塊的誤差5 Meng Li,Yibo Shi,et.Al.High Visual-Fidelity Learned Video Compression.2023 ACMMM.6 Zhang R,Isola P,Efros A A,et al.The unreasonable effectiveness of deep features as apercep
17、tual metricC/Proceedings of the IEEE conference on computer vision and patternrecognition.2018:586-595.7 Meng Li,Shangyin Gao,Yihui Feng,Yibo Shi,and Jing Wang.2022.Contentorientedlearned image compression.In Computer VisionECCV 2022:17thEuropean Conference,TelAviv,Israel,October 2327,2022,Proceedin
18、gs,Part XIX.Springer,632647.HPM13.0HPM13.0AlphaVCAlphaVC-p p原圖3展望AI Codec應用思考 如何評價PSNR不能很好的體現主觀質量,AI Codec在PSNR上優勢不明顯JPEG AI使msssim,vif,fsim,nlpd,iw-ssim,vmaf,psnrHVS 7個傳統指標綜合評價,更符合主觀感受當前基于GAN優化的AI Codec主觀收益更明顯,需要推動業界研究、采納更合理的評價指標,如LPIPS、FID等 應用難點絡輕量化:當前JPEG AI BOP壓縮率較HEIF提升約40%,但功耗達到HEIF10倍AI視頻編碼對功耗、時延有更要求絡輕量化是當前應的最挑戰 應用拓展僅從壓縮率提升難以促成應,需要利AI Codec的優勢,增加更多能對CV、圖像處理任務的持增強編碼:在圖像信息的基礎上增加深度信息,拓展圖像功能AIGC、CG成數據編碼感謝參與THANKS