《A3--涂勇軍--端側AI算法評測之實踐.pdf》由會員分享,可在線閱讀,更多相關《A3--涂勇軍--端側AI算法評測之實踐.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、端側AI算法評測之實踐OPPO涂勇軍從事軟件測試及管理工作十余年,先后從事數據通信、云計算、大數據、AI算法等相關領域測試,現任職OPPO,負責視覺理解方向算法測試。高級軟件測試工程師嘉賓照片目錄CONTENTS端側算法測試特點01 測試實踐與探索02 回顧與展望03 01端側算法測試特點1.1端側算法特點應用多算法多用戶感知度高場景開放1.2端側算法測試痛點人工智能白皮書(中國通信研究院)The-AI-Act人工智能法案(歐洲)Blueprint For An AI Bill Of Rights人工智能權力法案藍圖(美國)正義公平非歧視性多元包容透明可信可復現性可解釋性DataBlack-B
2、ox AIAI productWhy YES?Why NOT?When YES?When NOT?How to correct an error?How to verify?Good/Bad?User偏見成因數據偏差設計偏差使用偏差數據缺失、數據不均衡關鍵特征忽視、設計傾斜使用環境、社會文化偏差1.3端側算法測試能做什么?AI算法測試算法測試傳統測試傳統測試需求聚焦于場景聚焦于功能實現測試對象算法模型軟件邏輯用戶用戶感知,關注場景效果用戶使用,關注功能實現標準學術化指標居多、不貼近用戶系統對用戶需求和預期功能的滿足度算法模型選型算法選型樣本數據構建場景分布、場景特征技術探索工具/評價方法、可釋
3、可信等工具/評價方法數據數據驅動的AI模型答案AI規則新數據答案數據經典程序設計規則答案02測試實踐與探索2.1測試實踐需求 需求分析、場景定義舉例:需求調研+多模型比較 +標簽價值評估 建立標簽體系2.2測試實踐標準主觀客觀用戶感受用戶行為算法表現+系統表現智能化感受、情感價值提升、滿意度、凈推薦值功能完整度、易用性、使用頻次、停留時長、效率、三方應用兼容性 算法主客觀指標、推理速度、一致性、功耗、穩定性、隱私安全AI算法指標優劣算法指標優劣刻畫模型認知能力邊界一級能力二級能力三級能力刻畫不同任務的某個能力狀態一級指標二級指標三級指標待評價的對象及子項任務項任務子項1任務子項n生成任務檢測任
4、務分類任務分割任務評價任務感知能力知識獲取能力推理能力描述能力創造性任務指標能力模型B模型A2.2測試實踐標準(舉例)算法層面應用層面用戶層面Micro-Acc/Macro-AccMicro-Precision/Macro-PrecisionMicro-Recall/Macro-RecallMicro-F1/Macro-F1基于標簽評價Subnet-AccHamming LossAccexamPrecisionexam/Recallexam/F1exam基于樣本評價場景多樣化分類精準度檢索有效性Badcase(敏感性、數量)基于用戶評價TOPn標簽指標高優、高敏、高頻指標正/中/負向、黑名單過
5、濾指標競品對比基于場景評價O粉眾測 面臨問題和挑戰1、數據規模:規模足夠大,多樣性豐富,覆蓋用戶需求和開放場景,減輕長尾、偏見問題難點:開放場景中長尾問題不可避免,不同視角會有不同維度的數據長尾出現。難點:特征漂移大部分由數據源導致,線上/線下數據特征差異分析。2、數據質量:多源數據的融合,存在數據特征分布漂移、標簽缺失、概念變遷等問題3、迭代效率:如何在開放場景下高效的測試,快速進行問題溯源及問題響應等2.3測試實踐數據2.3測試實踐數據 數據集迭代沉淀數據新增數據多項目數據源整合人臉、標簽、行為、文字等開放場景數據補充人臉、標簽、行為、文字等特征分析場景知識提煉算法輔助多模型、大模型、數據
6、閉環數據探索用戶場景挖掘算法輔助監督/無監督、數據閉環表征學習聚類分析場景建模多模態(V-L)領域專家模型新類發現主動學習知識/概念庫圖-文/圖-圖檢索半監督方法工具多源數據周期更新原子能力子集真實/模擬 用戶相冊子集多個復合能力子集持續擴充的難例集用戶場景分布下的規?;瘻y試數據池功能滿足傳播價值覆蓋度大規模特征分布合理開放場景真實數據技術前沿算法研發角度產品功能、用戶需求角度大模型圖-文多模態可解釋性用戶場景情感滿足情感化個性化結構化 數據構建視角綠色:訓練/測試數據分布 藍色:用戶數據分布2.4測試實踐工具數據平臺前端入口數據集制作選擇被測算法測試集GT集算法服務客觀評測主觀評測客觀數據匯
7、集主觀數據匯集DBTable1性能測試真機壓測云端端算法競品算法終端+算法SDK其他算法數據分析配置模板數據收集數據管理原始數據原子能力集屬性讀取基本屬性特征向量粗篩數據集分層邏輯標注上傳多版本/競品對比主客觀一致性評估算法指標評估性能報告壓測報告歷史數據沉淀badcase分析數據/報表下載智能分析結果可視化2.4測試實踐工具(標注)預標注+人工標注2.4測試實踐工具(評測)客觀、主觀評測工具2.4測試實踐工具(badcase分析)badcase審核+單張/批量特征聚類2.5測試實踐探索(數據增廣)增廣方法:縮放、旋轉、對比度、色度、亮度、銳度、高斯濾波、中值濾波、均值濾波、天氣濾鏡尋找合適變
8、換參數 亮度變換舉例:使用LPIPS和SSIM來約束參數選擇閾值方案原圖亮度50,170,SSIM閾值0.9 LPIPS閾值0.25原圖亮度50且參數1,SSIM閾值0.55,LPIPS閾值0.25原圖亮度50且參數1,SSIM閾值0.9,LPIPS閾值0.25原圖亮度170且參數1,SSIM閾值0.4,LPIPS閾值0.25原圖亮度170且參數1,SSIM閾值0.9,LPIPS閾值0.25將圖片變暗時,參數0.8較為合適將圖片變亮時,參數1.3較為合適2.5測試實踐探索(充分性)通過無標注方式提高標簽/標簽組合覆蓋率,并找到測試停止條件自信率:正確率:魯棒性:ASE2023:Automate
9、d Black-Box Testing of Multi-Label Image Classification Systems兩個理論基礎:組合測試理論+蛻變測試理論三個指標設置:自信率、正確率、魯棒性2.5測試實踐探索(充分性)ASE2023:Automated Black-Box Testing of Multi-Label Image Classification Systems從第200張圖開始:圖片隨機輸入:CIRCORRROBU隨數據集增大,樣本多樣性增大數據集足夠大,測試樣本多樣性基本覆蓋全面數據集足夠大,測試樣本多樣性趨于穩定基于圖庫進行測試,假設圖庫圖片多樣性足夠豐富統計貓輸
10、入輸出人工比對人工圖片庫2.5測試實踐探索(弱監督)ICCV2023:Contrastive Automated Model Evaluation通過少量標注來監督大量無標注數據測試03回顧與展望3回顧與展望端側算法:算法多樣、場景開放、用戶感知度高、不確定性高數據構建:貼近用戶、覆蓋全面、減少長尾和數據偏見評價指標:分層分級、關注用戶智能化感受和情感價值提升評測工具:關注數據構建效率、評測效率,增強執行規范性方法探索:數據增廣、測試充分性、算法魯棒性等數據成熟度:什么樣的數據是足夠的、合理的?主客觀一致性:客觀指標怎么和用戶體驗一致?生成式AI:AIGC算法怎么測?怎么評價?AI倫理問題:透明可信、公平正義、合法依規等感謝聆聽關注QECon公眾號