《阿里云:2022視覺AI能力的開放現狀及ModelScope實戰白皮書(18頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:2022視覺AI能力的開放現狀及ModelScope實戰白皮書(18頁).pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、視覺AI能力的開放現狀及ModelScope實戰星瞳資深算法專家達摩院-開放視覺智能人工智能最廣泛應用技術:視覺領域感知端邊計算云計算交互端商業和技術評估產品物物05傳統的網站衡量指標,基于商業和技術評估產品,應用于跟蹤產品的整體表現物視覺技術:從理解到生產人人人能力開放的不同形態視覺智能開放平臺:API形態的能力開放人的理解文字識別商品理解內容安全圖像識別圖像生產分割摳圖目標檢測視頻生產視頻理解視覺搜索分析處理3D視覺行業視覺能力視覺SDK200+API能力億級日均調用7萬開通用戶能力大類ModelScope:模型形態的能力開放目標檢測系列圖像分類系列圖像分割系列全身關鍵點系列跟蹤與Reid
2、系列卡證檢測系列3D感知系列人臉識別系列行為理解系列車輛識別系列圖像翻譯系列視頻摘要系列視頻檢索系列人像卡通化系列人像增強系列人像美型美膚系列人像生成系列風格遷移系列圖像超分系列兼容國際主流開源框架,學術研究與產業應用雙輪驅動數據合規開放,算力資源支撐,頂級學者互動,開發工具配套,品牌聯動攜手商業和技術評估產品。視覺理解開放能力https:/arxiv.org/abs/2107.08430https:/arxiv.org/abs/2107.08430https:/arxiv.org/abs/2004.04955(CVPR2020)https:/arxiv.org/abs/2207.13259主
3、要包含三個模塊:人臉檢測,人臉關鍵點和人臉識別模型。目前可體驗MogFace 人臉檢測,Mtcnn人臉檢測關鍵點模型,1M人臉檢測模型ULFD,RetinaFace人臉檢測關鍵點模型,CurricularFace人臉識別模型和人臉表情識別模型FER人臉檢測關鍵點二合一模型;單階段&e2e,使用MobileNet Backbone可以在端上實時inferencemodelscope鏈接:https:/ 精度下模型大小為 1.1MB,推理框架 int8 量化后大小為 300KB 左右;無特殊算子,支持 onnx 導出,便于移植推理Fer為人臉表情識別領域的明星項目,網絡結構比較簡單,backbon
4、e是VGG19,后面接一個fc層,在性能和速度實現了較好的trade-off 色彩增強超分辨率噪聲抑制人像增強細節生成智能調色智能上色色帶修復二級調色智能倍幀無級插幀視頻去抖噪聲程度模糊程度畫質損傷人像增強圖像超分辨率圖像上色圖像顏色增強圖像降噪對圖像中的人體皮膚進行處理,實現勻膚(處理痘印、膚色不均等)、去瑕疵(脂肪粒、斑點、痣等)以及美白等功能端到端全圖卡通化轉換,生成二次元虛擬形象CVPR 2019SIGGRAPH 2022CVPR 2022視覺編輯開放能力More style option:damo/cv_unet_person-image-cartoon-style_compound-modelsstyle:3d,handdrawn,sketch,artstyle肺部CT平掃帶躁目標檢測長尾小目標精細實例分割精準高效角點檢測高效精細語義分割異常檢測數據增廣商業和技術評估產品視覺模型,持續開放 國際視覺頂會前沿SOTA 經典學術Paper代碼復現與提升 源自廣泛業務場景的高性能產業應用實踐THANKS