《阿里云-趙慶杰-Serverless 技術加速 AI 應用構建.pdf》由會員分享,可在線閱讀,更多相關《阿里云-趙慶杰-Serverless 技術加速 AI 應用構建.pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、ServerlessServerless 技術加速技術加速 AI AI 應用構建應用構建趙慶杰(盧令)Serverless 基礎架構團隊負責人2023年12月15日趙慶杰阿里云 Serverless 產品基礎架構團隊負責人“目前就職于阿里云云原生 Serverless 團隊,專注于 Serverless、PaaS,分布式系統架構等方向,致力于打造新一代的 Serverless 技術平臺,把平臺技術做到更加普惠。曾就職于百度,負責內部最大的 PaaS 平臺,承接了 80%的在線業務,在 PaaS 方向,后端分布式系統架構等領域有豐富的經驗”講師簡介目錄0101AI 應用的發展趨勢以及面臨挑戰 0
2、202Serverless 技術加速 AI 應用的構建0303Serverless AI 成果展示AI應用穩步增長百花齊鳴的AI 應用市場競爭下,“迭代速度”成為關鍵因素之一異構計算異構計算GPUCPUNPUFPGA資源調度資源調度資源虛擬化分布式調度基礎設施:數據存儲與高性能網絡模型訓練模型訓練AIAI 計算開發者領域計算開發者領域AI 工具算法框架AI Studio算法庫AIAI 在線應用(推理)在線應用(推理)AI應用PaaS 平臺網關鑒權快速部署服務依賴AI 應用面臨的挑戰AI 應用的構建復雜,且需要多環境部署支持,需要與非 AI 應用集成隨著 AI 應用功能逐漸豐富,調用鏈路長極大影
3、響問題的快速發現 AI 應用組件無法復用,持續重復造輪子,浪費資源成本,如綠網能力,隊列等網關通用能力,安全鑒權,限流保護,多協議支持,防護攻擊等AI 計算力面臨的挑戰GPU 資源緊缺且成本高,需要持續保有購買卡型不統一導致算力不統一,進而影響應用層架構隨著計算規模的提升,容錯能力也越來越重要大數據的讀取,以及模型的快速加載,對于底層的技術要求越來越高AI 技術概覽GPU 太貴,型號那么多,換代快,怎么架集群找不到 GPU機器用機器利用率太低了!那么多機器都閑著聽說GPU很快,但是我們工程師用起來反而比 CPU 慢硬件硬件復雜度復雜度資源管理資源管理復雜度復雜度全系統全系統優化復雜度優化復雜度
4、調度效率調度效率復雜度復雜度經常聽到的問題?Serverless Serverless 解決方案解決方案如何高效率低成本落地如何方便快捷部署使用工程相關工程相關算法相關算法相關接口相關接口相關 工程能力比較強,更希望有一個平臺可以提升整體的研發效能,降低運維成本;往往和實驗室/公司內的設備有強關聯,需要有安全保障等;負責負責 AIAI 應用平臺建設和管理應用平臺建設和管理負責負責 AIAI 模型開發調試模型開發調試通過通過 APIAPI 等對接口進行工程化封裝等對接口進行工程化封裝 算法能力比較強,希望有一個好用的 AI 模型管理平臺;希望可以在本進行開發調試、線上進行測試的時候,有一個便捷的
5、環境等;工程能力比較強,更希望有一些項目案例等,可以幫助業務快速的發布和上線;有完整的應用開發、調試、發布流程等;AI 開發者模型相關工程相關算法相關接口相關不同角色,在 AI 場景下的訴求函數計算提供構建現代化高可用 AI 應用的簡化路徑,是 AI 應用的最佳實踐Serverless 開發平臺 AI 場景三步上手最佳實踐,一鍵模型托管,上手門檻降低 80%;快速彈性 CPU+GPU 實例賦能 AI 應用降本提效;上手簡單,降本提效上手簡單,降本提效Model Scope,Hugging Face 開源生態聯動;LangChain 等 AI 開源框架與阿里云產品高集成;最佳實踐,心智強化最佳實
6、踐,心智強化擁抱開源,開放生態擁抱開源,開放生態10+應用場景,50+應用案例,一鍵部署,快速體驗;覆蓋 2W+AI 應用開發者,打造阿里云函數計算 AI 第一心智;電商軟件開發教育醫療創作函數計算NASAPI GWRDSGreenWebMQARMSModelScopeHugging Face通義千問 App Store其它模型 Plugin旅游行業Serverless Serverless 開發中心開發中心模型模型/應用生態應用生態函數計算函數計算 AIAI 場景特定能力場景特定能力AI AI 場景場景/行業行業場景化案例庫應用全生命周期管理Composer應用多環境管理BaaSBaaSFa
7、aSFaaS函數計算 MaaS應用流水線場景化 AI 應用數據來源于阿里云業務數據Serverless GPU 按請求計量Serverless GPUServerless GPU虛擬化技術虛擬化技術算力強隔離,顯存強隔離故障強隔離GPU兼容原生應用業務流量業務流量Serverless GPUServerless GPU兩級資源池兩級資源池熱資源池:避免 Node 級別 ScaleOut 引起的分鐘級別冷啟動。資源供給:FC GPU/IaaS GPU兩級資源池共同保證 GPU 資源供給。使用成本:FC GPU資源池平臺持有,用戶只為真實使用付費。熱資源池,實時彈性,平臺持有,用戶低成本如何消除冷
8、啟動-容器啟動加速PodENIEEAgentTabTabPodPodPod神龍物理機FuncCAgentCodeLog DirFuncFuncFuncFuncFunceth0TabLogtailVolume:獨立云盤mount日志收集KubeletCRI-PluginContainerdSocketGC ContainersCNI-NetManagerDaprGCK8S MasterCSE-PoolPod Manager ContainerManagerAPI-Server觸發提升整體資源利用率統一界面統一界面:屏蔽 IaaS 運維復雜度,以 K8s 為云操作界面數據流數據流自研K8S高頻高頻
9、:滿足每分鐘創建 20000 實例的高頻創建/刪除高密高密:滿足 FaaS 的高密部署需求,單機 3000+實例邊界:邊界:ServerlessServerless 與 K8S 邊界清晰,以 SLO 目標滿足 FaaS 需求挑戰GB 級鏡像實例秒級啟動挑挑 戰戰典型負載模式:一次性提交大量任務,啟動數百-數千實例處理共享存儲帶寬有限,大規模實例啟動打滿帶寬共享存儲延時 10-20 ms,比塊存儲慢 10X 以上思思 路路鏡像中存在大量冗余數據,按需加載遠端數據結合多種存儲服務構建層次化的緩存體系通過負載感知的方式最大化緩存效果結結 果果塊存儲的性能,共享存儲的成本GB 級鏡像啟動開銷 3 秒S
10、D 78GB 模型啟動 20 秒最大鏡像支持 15 GB實例節點共享存儲(對象存儲 oss)L2 緩存,跨機器傳輸,延時 90%IO 實時公平流控數據來源于阿里云業務數據多可用區容災應用實例應用實例應用實例應用實例應用實例應用實例生產環境生產環境命名空間命名空間一鍵開啟所有應用測試環境測試環境命名空間命名空間一鍵開啟所有應用應用實例應用實例應用實例應用實例應用實例應用實例應用實例應用實例應用實例應用實例應用實例應用實例一鍵開啟所有應用測試環境測試環境命名空間命名空間一鍵停止所有應用所有應用的實例均縮容到 0,不產生計費,需要時一鍵秒級拉起。白天夜晚生產環境生產環境命名空間命名空間一鍵啟停開發測
11、試環境可用區容災、環境啟停、網絡規劃、網關路由SAE 底層的 K8S 集群自身已經做了多可用區部署,只用在控制臺,勾選多可用區的 vSwitch,就能實現跨可用區的容災。復用 SLB+域名+端口,根據Path 路由不同應用 APP ASAE實例VPCSAE實例APP BSAE實例SAE實例APP CSAE實例SAE實例SLB:80/443端口端口 通信以上數據來源于 阿里云內部業務數據運維、彈性、灰度、流水線構建業務精準彈性,提升資源利用率白屏化灰度發布,業務不停機基于 Jenkins 對接 CI/CD,分鐘級發布極簡運維,省心省力變更過程中,如果出現部署包不可用、健康檢查失敗等異常情況,SA
12、E 會自動進行回退Git PushWebhookDeploySAESAE基于 Jenkins 構建流水線,發布速度縮短到分鐘級 定時+監控指標(CPU、Mem等)+業務監控指標(QPS、RT等)以上數據來源于 阿里云內部業務數據GitlabJenkinsM微服務無損下線無損下線、全鏈路灰度注冊中心提供者A 消費者A 提供者B 消費者B1 正常調用2 服務下線(prestop)3 通知消費者5 應用重啟4 調用其他提供者Agent主動通知Agent客戶端主動刷新AgentAgent微服務全鏈路灰度4.讀取灰度規則配置中心1.配置灰度規則 http-header:user-id%100=20 提供
13、者1 消費者version=gray3.注冊環境標簽user-id=121 提供者22.version=normal2.version=gray治理中心AgentAgentAgent注冊中心user-id=120version=normal 微服務網關Agent以上數據來源于 阿里云內部業務數據控制臺界面函數計算 AI 開發模式啥都沒有,思路探索啥都沒有,思路探索AI 場景將會提供 Stable Diffusion,LangChain,OCR 等多種形式的 AI 應用案例,用戶可以一鍵選擇,快速部署,直接使用HuggingFaceHuggingFace/ModelScopeModelScope
14、用戶只需提供 HuggingFace、Modelscope的模型地址/創空間地址,即可快速構建 AI 應用,并天然具備 API 調用能力或 UI 使用能力熱門場景熱門場景/熱門模型熱門模型針對行業內熱門應用、場景、模型,提供定制化 UI,進一步提升使用體驗,例如 Stable Diffusion 應用提供包括模型管理在內的應用管理頁面有模型,有代碼,隨時可用有模型,有代碼,隨時可用只有模型、只有代碼、或有模型又有代碼的用戶,可以使用通用的 Serverless 應用管理能力/Web 應用管理能力,幫助用戶更好,更方便的使用函數計算開發者函數計算消息中間件綠網硬盤掛載數據庫對象存儲私有網絡 用戶
15、API 調用UI 使用應用案例上傳模型上傳代碼代碼倉庫Serverless 開發平臺AI 應用場景應用管理可觀測應用流水線云上開發 模型管理域名管理安全管理開發流程多環境Serverless AI Serverless AI 成果展示成果展示Serverless 函數計算 GPU 應用場景選型指南(針對推理)您的工作負載是在線還是離線在線還是離線任務?您的工作負載對延遲是否敏感對延遲是否敏感?您的工作負載對 GPUGPU集群的利用率集群的利用率高嗎?您的 GPU 工作負載是否有成本高、彈性慢、成本高、彈性慢、運維復雜運維復雜的困擾?選擇自建 GPU 集群選擇【函數計算+GPU】異步調用模式(支
16、持異步任務狀態管理)選擇【函數計算+GPU】同步調用+準實時推理(自動彈性伸縮,有秒級冷啟)YesYesNoNo在線在線離線離線NoNoYesYesNoNo秒級延遲秒級延遲毫秒級延遲毫秒級延遲選擇【函數計算+GPU】同步調用+實時推理(GPU 預留+自動彈性伸縮)60%60%60%我很有錢我很有錢降本提效降本提效Serverless Serverless 應用中心一鍵部署應用中心一鍵部署 SD SD 應用應用Serverless Serverless 應用中心一鍵部署知識庫應用應用中心一鍵部署知識庫應用StableStable DiffusionDiffusion WEB UIWEB UISt
17、ableStable DiffusionDiffusion 后臺后臺專屬 Stable Diffusion 環境 ServerlessServerless函數計算平臺函數計算平臺大語言模型知識庫應用ServerlessServerless函數計算平臺函數計算平臺AIGC 應用場景秒級彈性秒級彈性大規模大規模 GPUGPU 集群集群按量付費按量付費降本提效降本提效應用中心一鍵部署應用中心一鍵部署GPUGPU 資源免維護資源免維護如何快速體驗、快速上手如何方便快捷的部署使用如何高效率、低成本落地如何高可用、高性能運行人人都可以擁有自己人人都可以擁有自己“專屬專屬”的的 AIGCAIGC 環境環境優
18、秀的開發者體驗優秀的開發者體驗提效降本的現代應用心智提效降本的現代應用心智快速彈性的快速彈性的 CPU+GPU CPU+GPU 實例實例完備的開發者套件完備的開發者套件AI 應用一鍵部署,快速上手;AI 應用一鍵多環境劃分,標準 GitOPS 流程;ModelScope 一鍵托管;AI Plugin 一鍵發布到通義千問;阿里云函數計算阿里云函數計算與應用中心,具備與生態連通,與開源與應用中心,具備與生態連通,與開源結合,快速上手、一鍵部署的完整通路,結合,快速上手、一鍵部署的完整通路,優秀的開發者體驗。優秀的開發者體驗。高效能低成本進行 AI 應用的開發與部署是無數 AI 開發者/企業的重要關
19、注點,ServerlessServerless 架構憑借高資源利用架構憑借高資源利用率與按量付費模式,以及服務端免運維率與按量付費模式,以及服務端免運維的開發者心智,成為一眾的開發者心智,成為一眾 AIAI 開發者開發者/企業的首選;企業的首選;完備的開發者套件,是開發者將 AI 應用部署到云原生架構必不可少的一環,在這一部分,阿里云 Serverless 架構擁有 ServerlessServerless DevsDevs,應用中心應用中心等完備的開發者套件,可以幫助開發者從從 0 0 到到 1 1 再再到到 N N,將業務 Serverless 化,并提供全全生命周期管理能力生命周期管理能
20、力。GPU 實例是 AI 領域不可或缺的計算資源,在高昂的成本下,可彈性,且可快速可彈性,且可快速彈性的彈性的 GPUGPU 實力成為實力成為 AIAI 應用不可獲取應用不可獲取的部分的部分。阿里云函數計算擁有快速彈性的快速彈性的 GPUGPU 實例實例,以及大規格的函數計算性能實例,這部分是承載 AI 應用穩定、高性能推理的重要環節。Stable Diffusion 與平臺集成實踐方案企業級內部設計平臺使用中心化批量出圖模式AIAI創作設計解決方案合作創作設計解決方案合作SD WebUI Serverless GPU函數與用戶映射阿里云SD WEBUI服務秒級創建和銷毀支持1人多卡調度,按量
21、使用,即開即用模型/圖片統一管理專屬性能加速定制插件AK 校驗企業自主設計平臺portal內部賬號體系與阿里云大賬戶打通團隊成員的賬單可以結算到人SD API 處理Serverless GPUFC 異步隊列提供WEBUI api/diffuser api 兩種api調用方式API異步隊列調用秒級資源動態彈性伸縮動態切換lora、controlnet模型親和調用API接口對接個性化 C 端APP/web 調用Serverless WebUI-方案優勢解析優勢項優勢項社區社區webuiwebui自建自建webuiwebuiServerlessServerless WebUIWebUI部署方式臺式P
22、C安裝,需要3090/4090等桌面級顯卡支持,用戶自行安裝部署webui購買GPU服務器搭建webui服務,用戶自行安裝部署webui 一鍵拉起,預置好標準鏡像,即開即用模型、插件管理開源安裝后,git下載到本機,需要用戶diy,概率性存在因網速、環境等原因下載插件時卡死開源安裝后,git下載到本機,需要用戶diy,概率性存在因網速、環境等原因下載插件時卡死預置中英雙語版本、controlnet、pix2pix等常用插件,模型、插件、輸出圖片等目錄支持掛載為oss共享存儲目錄,可統一管理和維護,webui服務重啟不受影響性能優化webui原生提供lowvram、xformer等加速方式ecs
23、提供AIACC加速器默認支持模型以及鏡像加速能力企業級特性單機版,不具備企業級特性需要自建調度系統,處理用戶與GPU實例之間的對應關系,將用戶調度到指定webui服務,但是無法實現在一個webui服務上實現多卡調度1.多人團隊可通過獨享 SD 函數,使用互不干擾2.支持單服務多卡集群按使用量彈性伸縮,保證集群使用率3.提供賬號體系,支持用戶鑒權,按用戶身份區分可看到的模型、圖片成果4.按請求收費,按使用量收費,毫秒計費特殊輔助插件跟社區一致跟社區一致1.模型及對應的高質量提示詞自動關聯提示2.基于模型的提示詞擴展3.訓練/finetune插件,隔離訓練/出圖使用資源服飾穿搭實踐LoRALoRA
24、訓練訓練TagTag 生成生成|編輯編輯訓練訓練ControlNet成果展示1成果展示2圖片有 AI 生成GB 級鏡像實例秒級啟動智能客戶聊天智能客戶聊天社區自動問答社區自動問答醫療領域問答醫療領域問答電商平臺搜索問答電商平臺搜索問答 IT/HR IT/HR 系統智能問答系統智能問答智能教育輔導智能教育輔導如企業客服,通過與呼叫中心/聊天機器人服務結合,可自動基于企業知識庫就客戶提出的問題進行聊天回復;如RocketMQ開源知識社區,專門針對RocketMQ領域的知識問答及代碼示例;如游戲社區使用游戲的信息(例如游戲介紹,游戲攻略等)構建社區知識庫,自動回復社區成員提供的問題;如罕見病專業知識
25、回復,有限醫療資源情況下進行自助服務;如中醫知識問答,針對海量的中醫知識進行歸納匯總,解答病患問題;兒童保健及護理,兒童常見病咨詢,營養咨詢等如使用商品信息搜索,使用商品信息構建商品數據庫,消費者可通過檢索+問答的方式快速了解商品的詳細信息;如特定商品檢索,如節日禮物,周年慶,親情禮品等,根據特定信息進行定制檢索,快速觸達用戶如使用企業內部 IT/HR 使用手冊構建企業知識庫,企業內部員工可通過該知識庫快速解決在 IT/HR 上遇到的問題。如使用教材和題庫構建不同教育階段的知識庫,模擬和輔助老師/家長對孩子進行教學。大語言模型知識庫的基本原理私域數據向量化私域數據向量化將非結構化內容進行向量處
26、理01輸入提示詞預埋輸入提示詞預埋將用戶的輸入問題,跟系統問答的預埋提示詞整合作為大模型輸入02大模型結果輸出解構化大模型結果輸出解構化對大模型輸入的內容進行結構化輸出03基本流程基本流程技術細節技術細節架構圖架構圖 1.LLM 2.embedding 3.controlled text generation知識庫問答知識庫問答UnstructuredLoader本地文檔內部數據TextTextSplitterTextChunksEmbeddingVectorStoreVectorSimilarityQueryVectorTop KRelatedChunksEmbeddingPromptTem
27、platePromptLLMResponseQ用戶身邊 0 成本的“高級技術專家”,致力于提升云原生產品使用體驗、降低云原生應用生產門檻函數計算產品 基于云原生大模型智能問答實踐知識問答利用大模型技術實現云原生資源配置的交互式創建、修改與應用等,提升資源維管效率集成云原生已有的系統診斷能力,面向業務應用構建具備全棧技術能力的輔助診斷助手面向云原生中間件產品,實現云原生動態腳手架應用快速構建,降低業務應用構建門檻資源生成應用構建故障診斷云原生大模型踐行可擴展架構設計,便于更多的云原生產品因大模型技術而受益整體系統架構知識庫知識庫清洗/分塊特征提取知識多路召回GatewayGatewayPilot
28、Pilot ServerServer場景識別KubernetesKubernetesPOPPOP 服務接口服務接口 PrometheusPrometheus大語言模型大語言模型知識圖譜知識圖譜審計日志場景服務接口場景服務接口輸出渲染通義千問模型(微調)ARMS 應用監控接口應用腳手架構建服務知識召回模型生成插件調用知識大腦接入服務中樞系統(評估中)認證授權對話接口公開數據內部數據已接入/實現模塊支持擴展模塊阿里云產品模塊Widget開發IDE云服務圖例LLMLLM ProxyProxyPluginPlugin ServerServer統一知識大腦訪問接口內置插件擴展插件利用大模型快速理解用戶訴
29、求,匹配合適的觸發器設置、生成滿足業務訴求的腳手架代碼函數創建代碼自動生成創建一個函數,當發現ARMS應用下線時發送一個消息到消息隊列云原生大模型云原生大模型請輸入您的問題觸發器配置:觸發器類型:應用實時監控服務事件類型:arms:Agent:OffLine調用方式:異步調用函數代碼:def handler(environ,start_response):logger=logging.getLogger()logger.info(Publish To Test Topic)status=200 OK觸發器自動配置創建函數通過云原生大模型對話式喚起現有Serverless監控面板,面向應用整合常見Ops操作監控運維ServerlessServerless 函數監控大盤函數監控大盤ServerlessServerless 函數操作終端函數操作終端對話式監控對話式監控&Ops&Ops方式方式現有監控方式現有操作方式ChatOpsServerless監控圖表云原生大模型輔助診斷云原生大模型執行操作微 信 官 方 公 眾 號:壹 佰 案 例微 信 官 方 公 眾 號:壹 佰 案 例關 注 查 看 更 多 年 度 實 踐 案 例關 注 查 看 更 多 年 度 實 踐 案 例