《04-從開源到商業化:云原生架構下大模型的規模推理產品化實踐 - 葉挺.pdf》由會員分享,可在線閱讀,更多相關《04-從開源到商業化:云原生架構下大模型的規模推理產品化實踐 - 葉挺.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、從開源到商業化云原生架構下大模型的大規模推理產品化YeTing-DaoCloud目錄業務背景和挑戰01開源技術的力量03云原生化的 SaaS 平臺介紹02Content未來規劃04業務背景和挑戰Part 01產品銷售形態MaaS 服務Pay for Tokens模型部署Pay for Instances模型訓練/微調開發機大模型推理的“三高”問題-MaaS算力成本問題推理性能問題高并發需求MaaS 服務大模型推理的“三高”問題-MaaS擴容算力資源限流KV Cacheruntime 的選擇vllmsglang 短時間無法解決可以按照GPU運行成本動態進行定價010203高并發需求推理性能問題成
2、本問題算力資源接入方式自持算力三方接入統一算力管控平臺 借助云原生提供的技術底座,我們實現統一的算力管控平臺,支持大量接入算力資源 主要接入的算力資源主要以兩種為主 自持算力 合作企業提供算力租賃算力接入方式-統一管控平臺自研產品 DCE 云原生操作系統的的基座能力;天然具備了多集群納管的能力;使得納管算力集群的操作成本非常低。通過 kubeconfig 即可快速接入算力集群 支持表單化的集群創建能力 可自定義安裝 Addon,GPU驅動、管理模塊的 Agent 全自動安裝 提供完整的多集群中心化可觀測組件能力算力接入方式-三方接入的難題?卡不同(異構)統一的算力資源池化(DCE 適配 主流
3、GPU,可自適應管理)地域不同(調度復雜性)Kueue 的調度 穩定性(當三方算力集群出現波動時,如果保證已有用的資源穩定)可靠的算力供應合作選擇(嚴選機制)產品在設計時就考慮不穩定的備份策略 監控運維 KCover故障自恢復(掉卡續訓)接入成本高 標準化的產品接入方式統一初始化為算力集群(Kubernetes),使用標準的集群方式納管GPU 算力集群的特殊性算力網絡架構驅動和插件依賴特殊調度策略相較于傳統集群的架構,組建一個大規模的GPU算力集群,需要從底層設計考慮整個集群的架構設計。Why Kubernetes 是最適合的算力集群基座?GPU憑借其并行計算能力和專用架構,在AI訓練和推理中
4、發揮關鍵作用,顯著提升性能和效率,推動AI技術快速發展,成為現代AI基礎設施的核心組件。并行處理專用架構軟件生態性能發展快Kubernetes作為領先的開源容器編排平臺,在容器化部署和自動化調度優化能力,可以高效管理 GPU 等昂貴的計算資源。動態調度監控和日志多集群管理高可用高成本問題 算力資源納管成本,底座環境經常變化,如果避免對用戶的應用 運維成本 算力成本 GPU 動態拆分+統一調度(HAMi)/(Kueue)一鍵接入算力集群(todo 80%)高復雜性(模型/框架異構)算力資源需要考慮異構問題 模型種類范圍廣 多模態支持 推理框架繁多 提供統一的模型范式定義 runtime hugg
5、ingface/modelscopeModelHubdeployments:-runtime:vllmversionRequired:=0.7.1#semver match for runtime.resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8 memory:32 customRuntimeArgs:#define runtime parameters that are optimized for this scenario.-runtime:sglangversionRequired:=0.4.
6、3resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8memory:32customRuntimeArgs:云原生化的 SaaS 平臺介紹Part 02DaoCloud-D.run SaaS 平臺介紹模型廣場,國內外主流開源模型,一鍵體驗,一鍵部署支持國內主流開源模型支持模型快速部署無需自行估算算力資源支持 API 調用,通用 API 支持模型部署按實例計費公共模型調用按 Token 計費統一的模型廣場模型部署極簡模型創建過程支持實時擴縮容部署區域任意選擇模型體驗快捷進行模型體驗模型廣場,國內外主流開源
7、模型,一鍵體驗,一鍵部署支持國內主流開源模型支持模型快速部署無需自行估算算力資源支持 API 調用,通用 API 支持模型部署按實例計費公共模型調用按 Token 計費OpenAPI 調用(監控 OpenAI 接口風格)curl https:/sh-02.d.run/v1/chat/completions-H Content-Type:application/json-H Authorization:Bearer sk-x1VDTAFB7Ra1hldATbncOa_dddVttDvRHQibTA-Oi7ucU-d model:u-8105f7322477/test,messages:role:
8、user,content:Hello,model!,temperature:0.7開源技術的力量(AI/LLM)Part 03使用開源 參與開源 貢獻開源HAMiHAMi(Heterogeneous AI Computing Virtualization Middleware)異構 AI 芯片虛擬化組件,旨在解決 AI 芯片使用率瓶頸與異構 AI 統一管理兩大挑戰。HAMi 支持 以插拔式、輕量級、無侵入部署在任意 云環境,使用成本低、對 AI 應用無侵入性。核心競爭力:GPU 細粒度、按需虛擬化(支持任意操作系統、任意架構)算力資源搶占,優先保障高優先級任務異構 AI 芯片 統一管理、調度、
9、監控,提高管理效率,降低復雜性算力、顯存超配豐富而靈活的調度策略應對更多的 AI 應用互聯場景企業租戶 配額 管理,好鋼用在刀刃上插拔式輕量級應用無侵入標準化vllm&sglang 大模型推理目前支持,支持 vllm 與 SGLang 主動參與貢獻未來規劃Part 04項目開源計劃baizeai/KCoverbaizeai/modelhubbaizeai/knowaydcgmiLog analyzerEventsSyscallsContainerStatusLogsK8s APIServerRecovery ManagerEventanalyze eventrestartjob通過對采集到 N
10、ode、Pod 以及訓練任務等的指標信息。KCover 提供了一套全自動的斷卡異常檢測,幫助 GPU 服務自動恢復的能力。https:/ helm repo add baizeai https:/baizeai.github.io/charts helm repo update baizeai helm install kcover baizeai/kcover-namespace kcover-system-create-namespacebaizeai/KCoverbaizeai/ModelHub ModelHub 是一個基于 Kubernetes 的AI模型管理工具,專注于大型語言模型(
11、LLM)和多模態模型的部署、管理和運行。旨在提供了一套標準化的方式來定義、部署和管理各種AI模型,支持從不同來源(如Hugging Face、ModelScope)獲取模型權重,并通過不同的運行時(如vLLM、SGLang)進行高效部署。deployments:-runtime:vllmversionRequired:=0.7.1#semver match for runtime.resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8 memory:32 customRuntimeArgs:#define
12、 runtime parameters that are optimized for this scenario.-runtime:sglangversionRequired:=0.4.3resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8memory:32customRuntimeArgs:輕量級且易于使用的專用網關,具有各種針對LLM的特定優化和功能。你可以把它想象成Nginx,但專門為LLM和即將支持的模型(如Stable Diffusion等)設計。AI 網關Knoway 無服務器引導加載器:能夠按需引導服務的上游Pod,使LLM服務更具成本效益。容錯:llm的容錯能力,在與外部提供商打交道時具有重試,斷路等能力。速率限制:基于令牌、提示等的速率限制,以保護服務于服務的llm不被濫用。語義緩存:基于提示和令牌的語義進行緩存,LLMs的CDN。語義路由:根據提示的困難、語義等進行路由,以使LLMs服務更高效,模型正確。OpenTelemetry:OpenTelemetry支持,能夠跟蹤對LLMs的調用以及網關本身。Thanks.