《5-端側AI算法評測之實踐V1.0_QEcon-端側AI算法評測之實踐.pdf》由會員分享,可在線閱讀,更多相關《5-端側AI算法評測之實踐V1.0_QEcon-端側AI算法評測之實踐.pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、端側AI算法評測之實踐OPPO2023 深圳站涂勇軍從事軟件測試及管理工作十余年,先后從事數據通信、云計算、大數據、AI算法等相關領域測試,現任職OPPO,負責視覺理解方向算法測試。高級軟件測試工程師2023 深圳站目錄CONTENTS端側算法測試特點01 測試實踐與探索02 回顧與展望03 2023 深圳站01端側算法測試特點2023 深圳站1.1端側算法特點應用多算法多用戶感知度高場景開放2023 深圳站1.2端側算法測試痛點人工智能白皮書(中國通信研究院)The-AI-Act人工智能法案(歐洲)Blueprint For An AI Bill Of Rights人工智能權力法案藍圖(美國
2、)正義公平非歧視性多元包容透明可信可復現性可解釋性DataBlack-Box AIAI productWhy YES?Why NOT?When YES?When NOT?How to correct an error?How to verify?Good/Bad?User偏見成因數據偏差設計偏差使用偏差數據缺失、數據不均衡關鍵特征忽視、設計傾斜使用環境、社會文化偏差2023 深圳站1.3端側算法測試能做什么?AI算法測試算法測試傳統測試傳統測試需求聚焦于場景聚焦于功能實現測試對象算法模型軟件邏輯用戶用戶感知,關注場景效果用戶使用,關注功能實現標準學術化指標居多、不貼近用戶系統對用戶需求和預期功
3、能的滿足度算法模型選型算法選型樣本數據構建場景分布、場景特征技術探索工具/評價方法、可釋可信等工具/評價方法數據數據驅動的AI模型答案AI規則新數據答案數據經典程序設計規則答案2023 深圳站02測試實踐與探索2023 深圳站2.1測試實踐需求 需求分析、場景定義舉例:需求調研+多模型比較+標簽價值評估 建立標簽體系2023 深圳站2.2測試實踐標準主觀客觀用戶感受用戶行為算法表現+系統表現智能化感受、情感價值提升、滿意度、凈推薦值功能完整度、易用性、使用頻次、停留時長、效率、三方應用兼容性算法主客觀指標、推理速度、一致性、功耗、穩定性、隱私安全AI算法指標優劣算法指標優劣2023 深圳站2.
4、2測試實踐標準(舉例)算法層面應用層面用戶層面Micro-Acc/Macro-AccMicro-Precision/Macro-PrecisionMicro-Recall/Macro-RecallMicro-F1/Macro-F1基于標簽評價Subnet-AccHamming LossAccexamPrecisionexam/Recallexam/F1exam基于樣本評價場景多樣化分類精準度檢索有效性Badcase(敏感性、數量)基于用戶評價TOPn標簽指標高優、高敏、高頻指標正/中/負向、黑名單過濾指標競品對比基于場景評價O粉眾測2023 深圳站2.3測試實踐數據 面臨問題和挑戰1、數據規模
5、:規模足夠大,多樣性豐富,覆蓋用戶需求和開放場景,減輕長尾、偏見問題難點:開放場景中長尾問題不可避免,不同視角會有不同維度的數據長尾出現。難點:特征漂移大部分由數據源導致,線上/線下數據特征差異分析。2、數據質量:多源數據的融合,存在數據特征分布漂移、標簽缺失、概念變遷等問題3、迭代效率:如何在開放場景下高效的測試,快速進行問題溯源及問題響應等2023 深圳站2.3測試實踐數據 數據集迭代沉淀數據新增數據多項目數據源整合人臉、標簽、行為、文字等開放場景數據補充人臉、標簽、行為、文字等特征分析場景知識提煉算法輔助多模型、大模型、數據閉環數據探索用戶場景挖掘算法輔助監督/無監督、數據閉環表征學習聚
6、類分析場景建模多模態(V-L)領域專家模型新類發現主動學習知識/概念庫圖-文/圖-圖檢索半監督方法工具多源數據周期更新原子能力子集真實/模擬 用戶相冊子集多個復合能力子集持續擴充的難例集用戶場景分布下的規?;瘻y試數據池功能滿足傳播價值覆蓋度大規模特征分布合理開放場景真實數據技術前沿算法研發角度產品功能、用戶需求角度大模型圖-文多模態可解釋性用戶場景情感滿足情感化個性化結構化 數據構建視角綠色:訓練/測試數據分布藍色:用戶數據分布2023 深圳站2.4測試實踐工具數據平臺前端入口數據集制作選擇被測算法測試集GT集算法服務客觀評測主觀評測客觀數據匯集主觀數據匯集DBTable1性能測試真機壓測云端
7、端算法競品算法終端+算法SDK其他算法數據分析配置模板數據收集數據管理原始數據原子能力集屬性讀取基本屬性特征向量粗篩數據集分層邏輯標注上傳多版本/競品對比主客觀一致性評估算法指標評估性能報告壓測報告歷史數據沉淀badcase分析數據/報表下載智能分析結果可視化2023 深圳站2.4測試實踐工具(標注)預標注+人工標注2023 深圳站2.4測試實踐工具(評測)客觀、主觀評測工具2023 深圳站2.4測試實踐工具(badcase分析)badcase審核+單張/批量特征聚類2023 深圳站2.5測試實踐探索(數據增廣)增廣方法:縮放、旋轉、對比度、色度、亮度、銳度、高斯濾波、中值濾波、均值濾波、天氣
8、濾鏡尋找合適變換參數亮度變換舉例:使用LPIPS和SSIM來約束參數選擇閾值方案原圖亮度50,170,SSIM閾值0.9 LPIPS閾值0.25原圖亮度50且參數1,SSIM閾值0.55,LPIPS閾值0.25原圖亮度50且參數1,SSIM閾值0.9,LPIPS閾值0.25原圖亮度170且參數1,SSIM閾值0.4,LPIPS閾值0.25原圖亮度170且參數1,SSIM閾值0.9,LPIPS閾值0.25將圖片變暗時,參數0.8較為合適將圖片變亮時,參數1.3較為合適2023 深圳站2.5測試實踐探索(充分性)通過無標注方式提高標簽/標簽組合覆蓋率,并找到測試停止條件自信率:正確率:魯棒性:IC
9、SE2023:Automated Black-Box Testing of Multi-Label Image Classification Systems兩個理論基礎:組合測試理論+蛻變測試理論三個指標設置:自信率、正確率、魯棒性2023 深圳站2.5測試實踐探索(充分性)ICSE2023:Automated Black-Box Testing of Multi-Label Image Classification Systems從第200張圖開始:圖片隨機輸入:CIRCORRROBU隨數據集增大,樣本多樣性增大數據集足夠大,測試樣本多樣性基本覆蓋全面數據集足夠大,測試樣本多樣性趨于穩定基于
10、圖庫進行測試,假設圖庫圖片多樣性足夠豐富統計貓輸入輸出人工比對人工圖片庫2023 深圳站2.5測試實踐探索(弱監督)ICCV2023:Contrastive Automated Model Evaluation通過少量標注來監督大量無標注數據測試2023 深圳站03回顧與展望2023 深圳站3回顧與展望端側算法:算法多樣、場景開放、用戶感知度高、輸出不確定數據構建:貼近用戶、覆蓋全面、減少長尾和數據偏見評價指標:分層分級、關注用戶智能化感受和情感價值提升評測工具:關注數據構建效率、評測效率,增強執行規范性方法探索:數據增廣、測試充分性、算法魯棒性等數據成熟度:什么樣的數據是足夠的、合理的?主客
11、觀一致性:客觀指標怎么和用戶體驗一致?生成式AI:AIGC算法怎么測?怎么評價?AI倫理問題:透明可信、公平正義、隱私尊嚴等感謝聆聽CSDN全球最大的中文開發者社區平臺CSDN全球最大的中文開發者社區平臺CSDN創立于1999年全球編程類網站排名第7(來源:Similarweb 2023.04)注冊用戶超過4300萬,覆蓋90%的中文開發者新媒體矩陣粉絲數量超過3100萬超過1000家企業客戶和合作伙伴目前公司員工近800名,分布在北京、長沙、上海、深圳、杭州、成都等城市,并在美國硅谷常設辦事處旗下品牌旗下品牌專業中文IT技術社區:CSDN.NET多媒體專業出版:新程序員開發者專屬移動APP:CSDN APP代碼托管協作平臺:GitCode代碼工具協同平臺:InsCodeIT人力資源服務:科銳??怂关俗W絡高校IT技術學習成長平臺:高校俱樂部