《阿里云:釋放算力潛能加速應用構建Serverless 為 AI 創新提速(2023)(27頁).pdf》由會員分享,可在線閱讀,更多相關《阿里云:釋放算力潛能加速應用構建Serverless 為 AI 創新提速(2023)(27頁).pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、釋放算力潛能加速應用構建Serverless 為 AI 創新提速趙慶杰 阿里云Serverless 基礎架構團隊負責人2023年12月1日目錄01AI 應用的發展趨勢以及面臨挑戰02Serverless 技術加速 AI 應用的構建03Serverless AI 應用案例AI 應用場景極速增長百花齊鳴的AI 應用市場競爭下,“迭代速度”成為關鍵因素之一異構計算GPUCPUNPUFPGA資源調度資源虛擬化分布式調度基礎設施:數據存儲與高性能網絡模型訓練AI 計算開發者領域AI 工具算法框架AI Studio算法庫AI 在線應用(推理)AI應用PaaS 平臺網關鑒權快速部署服務依賴AI 應用面臨的挑
2、戰AI 應用的構建復雜,且需要多環境部署支持,需要與非 AI 應用集成隨著 AI 應用功能逐漸豐富,調用鏈路長極大影響問題的快速發現AI 應用組件無法復用,持續重復造輪子,浪費資源成本,如綠網能力,隊列等網關通用能力,安全鑒權,限流保護,多協議支持,防護攻擊等AI 計算力面臨的挑戰GPU 資源緊缺且成本高,需要持續保有購買卡型不統一導致算力不統一,進而影響應用層架構隨著計算規模的提升,容錯能力也越來越重要大數據的讀取,以及模型的快速加載,對于底層的技術要求越來越高AI 技術概覽GPU 太貴,型號那么多,換代快,怎么架集群找不到 GPU機器用機器利用率太低了!那么多機器都閑著聽說GPU很快,但是
3、我們工程師用起來反而比 CPU 慢硬件復雜度資源管理復雜度全系統優化復雜度調度效率復雜度經常聽到的問題?Serverless AI 應用解決方案如何高效率低成本落地如何方便快捷部署使用工程相關算法相關接口相關 工程能力比較強,更希望有一個平臺可以提升整體的研發效能,降低運維成本;往往和實驗室/公司內的設備有強關聯,需要有安全保障等;負責 AI 應用平臺建設和管理負責 AI 模型開發調試通過 API 等對接口進行工程化封裝 算法能力比較強,希望有一個好用的 AI 模型管理平臺;希望可以在本進行開發調試、線上進行測試的時候,有一個便捷的環境等;工程能力比較強,更希望有一些項目案例等,可以幫助業務快
4、速的發布和上線;有完整的應用開發、調試、發布流程等;AI 開發者模型相關工程相關算法相關接口相關不同角色,在 AI 場景下的訴求函數計算提供構建現代化高可用 AI 應用的簡化路徑,是 AI 應用的最佳實踐Serverless 開發平臺 AI 場景三步上手最佳實踐,一鍵模型托管,上手門檻降低 80%;快速彈性 CPU+GPU 實例賦能 AI 應用降本提效;上手簡單,降本提效Model Scope,Hugging Face 開源生態聯動;LangChain 等 AI 開源框架與阿里云產品高集成;最佳實踐,心智強化擁抱開源,開放生態10+應用場景,50+應用案例,一鍵部署,快速體驗;覆蓋 2W+AI
5、 應用開發者,打造阿里云函數計算 AI 第一心智;電商軟件開發教育醫療創作函數計算NASAPI GWRDSGreenWebMQARMSModelScopeHugging Face通義千問App Store其它模型 Plugin旅游行業Serverless 開發中心模型/應用生態函數計算 AI 場景特定能力AI 場景/行業場景化案例庫應用全生命周期管理Composer應用多環境管理BaaSFaaS函數計算 MaaS應用流水線場景化 AI 應用數據來源于阿里云業務數據Serverless GPU 按請求付費Serverless GPU虛擬化技術算力強隔離,顯存強隔離故障強隔離GPU兼容原生應用業務
6、流量Serverless GPU兩級資源池熱資源池:避免 Node 級別 ScaleOut 引起的分鐘級別冷啟動。資源供給:FC GPU/IaaS GPU兩級資源池共同保證 GPU 資源供給。使用成本:FC GPU資源池平臺持有,用戶只為真實使用付費。熱資源池,實時彈性,平臺持有,用戶低成本Serverless GPU 按請求付費免費額度:函數計算為首次開通服務的用戶提供免費試用額度:GPU試用額度:前100萬GB*秒GPU資源使用免費。注意:免費額度不包含公網出流量。領取后 3 個月有效期。計費項單價函數調用次數0.002元/萬次GPU 使用量0.00005元/GB*秒GB 級鏡像實例秒級啟
7、動挑 戰典型負載模式:一次性提交大量任務,啟動數百-數千實例處理共享存儲帶寬有限,大規模實例啟動打滿帶寬共享存儲延時 10-20 ms,比塊存儲慢 10X 以上思 路鏡像中存在大量冗余數據,按需加載遠端數據結合多種存儲服務構建層次化的緩存體系通過負載感知的方式最大化緩存效果結 果塊存儲的性能,共享存儲的成本GB 級鏡像啟動開銷 3 秒SD 78GB 模型啟動 20 秒最大鏡像支持 15 GB實例節點共享存儲(對象存儲 oss)L2 緩存,跨機器傳輸,延時 90%IO 實時公平流控數據來源于阿里云業務數據AI 應用的集成:一鍵部署 AI 應用函數計算NASPAIGreenWebOSSAI 應用場
8、景/行業基于開源模型和通義千問進行圖片生成,旅游攻略等內容生成內容電商數據歸因分析、內容生產、話術整理等直播預料問答教育/客服Serverless 開發平臺基礎能力應用管理多環境流水線/CICD可觀測能力WebIDEAI 場景特定能力場景化模板案例排隊模型內容安全默認 API/UI基礎模型管理致力于構建現代化高可用 AI 應用最短路徑ModelScopeHuggingFaceCivitai通義千問其它大模型Custom(自定義)Custom(自己項目)云市場通義千問應用市場其它大模型Plugin 函數計算 AI 開發模式啥都沒有,思路探索AI 場景將會提供 Stable Diffusion,L
9、angChain,OCR 等多種形式的 AI 應用案例,用戶可以一鍵選擇,快速部署,直接使用HuggingFace/ModelScope用戶只需提供 HuggingFace、Modelscope的模型地址/創空間地址,即可快速構建 AI 應用,并天然具備 API 調用能力或 UI 使用能力熱門場景/熱門模型針對行業內熱門應用、場景、模型,提供定制化 UI,進一步提升使用體驗,例如 Stable Diffusion 應用提供包括模型管理在內的應用管理頁面有模型,有代碼,隨時可用只有模型、只有代碼、或有模型又有代碼的用戶,可以使用通用的 Serverless 應用管理能力/Web 應用管理能力,幫
10、助用戶更好,更方便的使用函數計算開發者函數計算消息中間件綠網硬盤掛載數據庫對象存儲私有網絡 用戶API 調用UI 使用應用案例上傳模型上傳代碼代碼倉庫Serverless 開發平臺AI 應用場景應用管理可觀測應用流水線云上開發模型管理域名管理安全管理開發流程多環境Serverless AI 應用案例Serverless 函數計算 GPU 應用場景選型指南(針對推理)您的工作負載是在線還是離線任務?您的工作負載對延遲是否敏感?您的工作負載對 GPU集群的利用率高嗎?您的 GPU 工作負載是否有成本高、彈性慢、運維復雜的困擾?選擇自建 GPU 集群選擇【函數計算+GPU】異步調用模式(支持異步任務
11、狀態管理)選擇【函數計算+GPU】同步調用+準實時推理(自動彈性伸縮,有秒級冷啟)YesNo在線離線NoYesNo秒級延遲毫秒級延遲選擇【函數計算+GPU】同步調用+實時推理(GPU 預留+自動彈性伸縮)60%我很有錢降本提效Serverless 應用中心一鍵部署 SD 應用Serverless 應用中心一鍵部署知識庫應用Stable Diffusion WEB UIStable Diffusion 后臺專屬 Stable Diffusion 環境Serverless函數計算平臺大語言模型知識庫應用Serverless函數計算平臺AIGC 應用場景秒級彈性大規模 GPU 集群按量付費降本提效應
12、用中心一鍵部署GPU 資源免維護如何快速體驗、快速上手如何方便快捷的部署使用如何高效率、低成本落地如何高可用、高性能運行人人都可以擁有自己“專屬”的 AIGC 環境優秀的開發者體驗提效降本的現代應用心智快速彈性的 CPU+GPU 實例完備的開發者套件AI 應用一鍵部署,快速上手;AI 應用一鍵多環境劃分,標準 GitOPS 流程;ModelScope 一鍵托管;AI Plugin一鍵發布到通義千問;阿里云函數計算與應用中心,具備與生態連通,與開源結合,快速上手、一鍵部署的完整通路,優秀的開發者體驗。高效能低成本進行 AI 應用的開發與部署是無數 AI 開發者/企業的重要關注點,Serverle
13、ss 架構憑借高資源利用率與按量付費模式,以及服務端免運維的開發者心智,成為一眾 AI 開發者/企業的首選;完備的開發者套件,是開發者將 AI 應用部署到云原生架構必不可少的一環,在這一部分,阿里云 Serverless 架構擁有Serverless Devs,應用中心等完備的開發者套件,可以幫助開發者從 0 到 1 再到 N,將業務 Serverless 化,并提供全生命周期管理能力。GPU 實例是 AI 領域不可或缺的計算資源,在高昂的成本下,可彈性,且可快速彈性的 GPU 實力成為 AI 應用不可獲取的部分。阿里云函數計算擁有快速彈性的GPU 實例,以及大規格的函數計算性能實例,這部分是
14、承載 AI 應用穩定、高性能推理的重要環節。Stable Diffusion 與平臺集成實踐方案企業級內部設計平臺使用中心化批量出圖模式AI創作設計解決方案合作SD WebUIServerless GPU函數與用戶映射阿里云SD WEBUI服務秒級創建和銷毀支持1人多卡調度,按量使用,即開即用模型/圖片統一管理專屬性能加速定制插件AK 校驗企業自主設計平臺portal內部賬號體系與阿里云大賬戶打通團隊成員的賬單可以結算到人SD API 處理Serverless GPUFC 異步隊列提供WEBUI api/diffuser api 兩種api調用方式API異步隊列調用秒級資源動態彈性伸縮動態切換
15、lora、controlnet模型親和調用API接口對接個性化 C 端APP/web 調用Serverless WebUI-方案優勢解析優勢項社區webui自建webuiServerless WebUI部署方式臺式PC安裝,需要3090/4090等桌面級顯卡支持,用戶自行安裝部署webui購買GPU服務器搭建webui服務,用戶自行安裝部署webui一鍵拉起,預置好標準鏡像,即開即用模型、插件管理開源安裝后,git下載到本機,需要用戶diy,概率性存在因網速、環境等原因下載插件時卡死開源安裝后,git下載到本機,需要用戶diy,概率性存在因網速、環境等原因下載插件時卡死預置中英雙語版本、con
16、trolnet、pix2pix等常用插件,模型、插件、輸出圖片等目錄支持掛載為oss共享存儲目錄,可統一管理和維護,webui服務重啟不受影響性能優化webui原生提供lowvram、xformer等加速方式ecs提供AIACC加速器默認支持模型以及鏡像加速能力企業級特性單機版,不具備企業級特性需要自建調度系統,處理用戶與GPU實例之間的對應關系,將用戶調度到指定webui服務,但是無法實現在一個webui服務上實現多卡調度1.多人團隊可通過獨享 SD 函數,使用互不干擾2.支持單服務多卡集群按使用量彈性伸縮,保證集群使用率3.提供賬號體系,支持用戶鑒權,按用戶身份區分可看到的模型、圖片成果4
17、.按請求收費,按使用量收費,毫秒計費特殊輔助插件跟社區一致跟社區一致1.模型及對應的高質量提示詞自動關聯提示2.基于模型的提示詞擴展3.訓練/finetune插件,隔離訓練/出圖使用資源服飾穿搭實踐LoRA訓練Tag 生成|編輯訓練ControlNet成果展示1成果展示2圖片有 AI 生成大語言模型知識庫應用場景智能客戶聊天社區自動問答醫療領域問答電商平臺搜索問答IT/HR 系統智能問答智能教育輔導如企業客服,通過與呼叫中心/聊天機器人服務結合,可自動基于企業知識庫就客戶提出的問題進行聊天回復;如RocketMQ開源知識社區,專門針對RocketMQ領域的知識問答及代碼示例;如游戲社區使用游戲
18、的信息(例如游戲介紹,游戲攻略等)構建社區知識庫,自動回復社區成員提供的問題;如罕見病專業知識回復,有限醫療資源情況下進行自助服務;如中醫知識問答,針對海量的中醫知識進行歸納匯總,解答病患問題;兒童保健及護理,兒童常見病咨詢,營養咨詢等如使用商品信息搜索,使用商品信息構建商品數據庫,消費者可通過檢索+問答的方式快速了解商品的詳細信息;如特定商品檢索,如節日禮物,周年慶,親情禮品等,根據特定信息進行定制檢索,快速觸達用戶如使用企業內部 IT/HR 使用手冊構建企業知識庫,企業內部員工可通過該知識庫快速解決在 IT/HR 上遇到的問題。如使用教材和題庫構建不同教育階段的知識庫,模擬和輔助老師/家長
19、對孩子進行教學。大語言模型知識庫的基本原理私域數據向量化將非結構化內容進行向量處理01輸入提示詞預埋將用戶的輸入問題,跟系統問答的預埋提示詞整合作為大模型輸入02大模型結果輸出解構化對大模型輸入的內容進行結構化輸出03基本流程技術細節架構圖l 1.LLMl 2.embeddingl 3.controlled text generation知識庫問答UnstructuredLoader本地文檔內部數據TextTextSplitterTextChunksEmbeddingVectorStoreVectorSimilarityQueryVectorTop KRelatedChunksEmbeddin
20、gPromptTemplatePromptLLMResponseQuery用戶身邊 0 成本的“高級技術專家”,致力于提升云原生產品使用體驗、降低云原生應用生產門檻函數計算產品 基于云原生大模型智能問答實踐知識問答領域知識專家利用大模型技術實現云原生資源配置的交互式創建、修改與應用等,提升資源維管效率集成云原生已有的系統診斷能力,面向業務應用構建具備全棧技術能力的輔助診斷助手面向云原生中間件產品,實現云原生動態腳手架應用快速構建,降低業務應用構建門檻面向云原生打造云原生知識大腦資源生成面向容器,生成云原生資源配置應用構建面向中間件,構建云原生業務應用故障診斷面向應用,整合全棧故障診斷能力云原生
21、大模型踐行可擴展架構設計,便于更多的云原生產品因大模型技術而受益整體系統架構知識庫清洗/分塊特征提取知識多路召回GatewayPilot Server場景識別KubernetesPOP 服務接口Prometheus大語言模型知識圖譜審計日志場景服務接口輸出渲染通義千問模型(微調)ARMS 應用監控接口應用腳手架構建服務知識召回模型生成插件調用知識大腦接入服務中樞系統(評估中)認證授權對話接口公開數據內部數據已接入/實現模塊支持擴展模塊阿里云產品模塊Widget開發IDE云服務圖例LLM ProxyPlugin Server統一知識大腦訪問接口內置插件擴展插件利用大模型快速理解用戶訴求,匹配合適
22、的觸發器設置、生成滿足業務訴求的腳手架代碼函數創建代碼自動生成創建一個函數,當發現ARMS應用下線時發送一個消息到消息隊列云原生大模型請輸入您的問題觸發器配置:觸發器類型:應用實時監控服務事件類型:arms:Agent:OffLine調用方式:異步調用函數代碼:def handler(environ,start_response):logger=logging.getLogger()logger.info(Publish To TestTopic)status=200 OK觸發器自動配置創建函數通過云原生大模型對話式喚起現有Serverless監控面板,面向應用整合常見Ops操作監控運維ServerlessServerless 函數監控大盤函數監控大盤ServerlessServerless 函數操作終端函數操作終端對話式監控對話式監控&Ops&Ops方式方式現有監控方式現有操作方式ChatOpsServerless監控圖表云原生大模型輔助診斷云原生大模型執行操作