《羅義云-阿里云人工智能平臺PAI的MaaS實踐.pdf》由會員分享,可在線閱讀,更多相關《羅義云-阿里云人工智能平臺PAI的MaaS實踐.pdf(37頁珍藏版)》請在三個皮匠報告上搜索。
1、阿里云人工智能平臺PAI的MaaS實踐羅義云(一耘)阿里云資深技術專家、PAI平臺工程技術負責人演講嘉賓羅義云阿里云資深技術專家畢業于北京大學,曾任微軟高級研發經理、曠視科技AI平臺高級技術總監,現任阿里云資深技術專家、AI平臺工程技術負責人。在機器學習、人工智能、大數據等方向有著深厚的技術積累和豐富的行業經驗。目 錄CONTENTS1.MaaS的起源和定義2.PAI的MaaS實踐3.未來展望MaaS的起源和定義PART 01人工智能進入AIGC時代活躍用戶200萬萬+模型2300+模型累計下載1億億+頂尖人工智能合作機構20+開源模型社區什么是MaaS?什么是MaaS?Foundation
2、models訓練計算業務產品存儲網絡部署算法工程優化解決方案資產管理優化能力平臺工程優化(MLOps)最佳實踐開發集群管控IaaSPaaSMaaSMaaS=基礎模型+算法工程優化+平臺工程優化MaaS的組成要件AzureMLModel catalog火山引擎SageMakerFoundation modelsJumpstart方舟大模型平臺主流云廠商是怎么做的?SageMakerAzureML火山引擎PAI的MaaS實踐PART 02場景化解決方案高速 RDMA 網絡(RoCE)異構計算磐久服務器(CPU、GPU)分布式存儲 CPFS/NAS/OSS靈駿智算服務&機器學習框架(PaaS)低PU
3、E液冷/風冷,模塊化IDC設施AI應用:自動駕駛/科研智算/金融風控/智能推薦/智能設計/智慧城市/智能制造/智慧醫療/智慧法務/第三方第三方MaaSMaaS平臺平臺模型服務(MaaS)ModelScope 魔搭社區計算資源&基礎設施(IaaS)容器服務 ACK彈性計算 ECS 機器學習框架(PAI-TensorFlow/PAI-PyTorch/Alink/Spark,EasyRec/EasyPhoto/EasyTransfer/Megatron/DeepSpeed/RLHF)PAI-靈駿計算資源云原生通用計算資源大數據計算資源(MaxCompute/EMR/Flink)工作空間AI資產管理(
4、數據集/模型/鏡像/代碼/自定義組件/權限管理MLOps云產品依賴 優化與加速(DatasetAcc 數據集加速/TorchAcc 訓練加速/EPL 并行訓練框架/Blade推理加速/AI Master 自動容錯訓練/EasyCkpt 秒級異步訓練快照)PAI-DashScope 模型服務靈積模型在線服務PAI-EAS分布式訓練PAI-DLC標注服務PAI-iTAG交互式建模PAI-DSW可視化建模PAI-Designer 快速開始:PAI-QuickStart/PAI-智碼實驗室/PAI-DSW Gallery開發者工具CLI/PaiFlow/OpenAPI特征平臺PAI-Feature S
5、torePAI產品架構PAI 提供一站式AI研發生命周期管理數據集管理鏡像管理模型管理代碼配置管理任務管理數據準備模型訓練模型開發模型部署AIAI工作空間工作空間智能標注iTAG可視化建模Designer交互式建模DSW云原生AI基礎平臺DLC在線預測服務EASAI資產管理工作流工具鏈MLOps配置管理PAI-iTAG 智能標注阿里云智能標注,提供全場景、高質量、智能化的標注平臺服務和人力標注服務標注能力標注能力數據安全數據安全預標工預標工具具圖像、文本、視頻、語音、PDF、多模態、自定義等全方位的標注能力和場景預置OCR、ASR等預標工具,大幅提升標注員的效率和準確率阿里云最新的數字安全傳輸
6、技術,保護標注數據不泄露人力標注服務:專業、全托管的數據服務人力標注服務:專業、全托管的數據服務公益模式標注基地,專業培訓上崗,全托管的項目管理,極大降低標注人力成本任務分發與驗收任務分發與驗收標注+質檢+驗收的任務分發機制,保證標注數據的高質量交付人員與權限管理人員與權限管理管理員+標注組長+標注員的人員與權限管理,保證各角色的權限隔離和數據安全智能標智能標注注打通PAI-EAS部署的模型,讓模型服務進行主動預標注PAI-DSW云原生交互式建模實例權限控制實例環境持久化靈活的環境支持多數據集支持實例生命周期管理支持保存環境為鏡像支持預置鏡像和自定義鏡像支持同時掛載多個數據集開放被集成支持定時
7、停止支持同一工作空間內成員間分隔開放OpenAPIPAI-DLC實例權限控制云原生AI基礎訓練平臺多資源組支持靈活的環境支持多數據集支持任務生命周期管理支持公共資源與專有資源支持預置鏡像和自定義鏡像支持同時掛載多個數據集開放被集成任務全流程把控同一工作空間內成員間分隔開放OpenAPIPAI-EAS基于異構硬件(CPU/GPU/NPU/FPGA)提供機器學習深度學習模型快速部署的微服務平臺支持多種框架模型自定義多語言processor高性能開放被集成開放OpenAPI提供通用機器學習模型(PMML,TensorFlow,Pytorch等)一鍵部署成在線服務。提供三種主流語言(C+/Python
8、/Java)開發用戶自定義的預測邏輯,將模型包裝成端對端的產品服務。支持阿里集團數十個BU的模型預測服務及大量外部客戶,單服務QPS峰值30w,大量QPS過萬的圖像類服務Model Centric一站式白盒化PAI的MaaS理念快速開始(ModelHub)PAI SDKPAI ModelScopePAI的MaaS實踐快速開始-ModelHubModelScope(魔搭)HuggingFacePAI一方模型PAI-DLCPAI-EASPAI-DSW開發調試一鍵訓練一鍵部署同步 豐富的模型支持 一站式模型訓練-部署的全鏈路體驗 內置算法工程優化,提升迭代效率 結合平臺優化能力,提供極致的性能和性價
9、比快速開始(ModelHub)PAI SDK對開源模型的支持PAI ModelScopeCase study:PAI AI設計師專區video:視頻大小不要超過橙框區域Demo:通過快速開始完成qwen的訓練和部署未來展望PART 03CRM MaaS平臺工程優化算法工程優化基礎模型緊跟開源社區,拓展模型覆蓋度算法定義配置標準化錯誤信息規范化提升模型開發效率集成平臺優化能力未來展望實驗次數1000關注loss的時間間隔10min7B模型全參數微調訓練時間2天天Qwen訓練的一些細節MLOps:Efficiency is All You Need模型評測訓練監控安全合規可解釋性實驗管理數據質量模型監控模型血緣自動容錯MLOps模型評測訓練監控安全合規可解釋性實驗管理數據質量模型監控模型血緣提示工程自動容錯MLOps-LLMOps數據集加速器DatasetAccelerator分布式訓練加速TorchAcc推理加速PAI-ACC AI加速服務:提供AI工作流完整的加速能力Blade BladeLLM深度結合平臺優化能力1.73.8倍倍服務吞吐提升8.713.8倍倍首包延遲降低BladeLLM:LLM高性能推理引擎THANKS