當前位置：首頁 > 報告詳情

04-從開源到商業化：云原生架構下大模型的規模推理產品化實踐 - 葉挺.pdf

上傳人：張** 編號：621003 2025-03-31 PDF PDF 27頁 1.68MB

該報告所屬合集： KubernetesCommunityDay（KCDBeijing2025）北京站嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/27

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《04-從開源到商業化：云原生架構下大模型的規模推理產品化實踐 - 葉挺.pdf》由會員分享，可在線閱讀，更多相關《04-從開源到商業化：云原生架構下大模型的規模推理產品化實踐 - 葉挺.pdf（27頁珍藏版）》請在三個皮匠報告上搜索。

1、從開源到商業化云原生架構下大模型的大規模推理產品化YeTing-DaoCloud目錄業務背景和挑戰01開源技術的力量03云原生化的 SaaS 平臺介紹02Content未來規劃04業務背景和挑戰Part 01產品銷售形態MaaS 服務Pay for Tokens模型部署Pay for Instances模型訓練/微調開發機大模型推理的“三高”問題-MaaS算力成本問題推理性能問題高并發需求MaaS 服務大模型推理的“三高”問題-MaaS擴容算力資源限流KV Cacheruntime 的選擇vllmsglang 短時間無法解決可以按照GPU運行成本動態進行定價010203高并發需求推理性能問題成

2、本問題算力資源接入方式自持算力三方接入統一算力管控平臺借助云原生提供的技術底座，我們實現統一的算力管控平臺，支持大量接入算力資源主要接入的算力資源主要以兩種為主自持算力合作企業提供算力租賃算力接入方式-統一管控平臺自研產品 DCE 云原生操作系統的的基座能力；天然具備了多集群納管的能力；使得納管算力集群的操作成本非常低。通過 kubeconfig 即可快速接入算力集群支持表單化的集群創建能力可自定義安裝 Addon，GPU驅動、管理模塊的 Agent 全自動安裝提供完整的多集群中心化可觀測組件能力算力接入方式-三方接入的難題？卡不同（異構）統一的算力資源池化（DCE 適配主流

3、GPU，可自適應管理）地域不同（調度復雜性）Kueue 的調度穩定性（當三方算力集群出現波動時，如果保證已有用的資源穩定）可靠的算力供應合作選擇（嚴選機制）產品在設計時就考慮不穩定的備份策略監控運維 KCover故障自恢復（掉卡續訓）接入成本高標準化的產品接入方式統一初始化為算力集群（Kubernetes），使用標準的集群方式納管GPU 算力集群的特殊性算力網絡架構驅動和插件依賴特殊調度策略相較于傳統集群的架構，組建一個大規模的GPU算力集群，需要從底層設計考慮整個集群的架構設計。Why Kubernetes 是最適合的算力集群基座？GPU憑借其并行計算能力和專用架構,在AI訓練和推理中

4、發揮關鍵作用,顯著提升性能和效率,推動AI技術快速發展,成為現代AI基礎設施的核心組件。并行處理專用架構軟件生態性能發展快Kubernetes作為領先的開源容器編排平臺，在容器化部署和自動化調度優化能力，可以高效管理 GPU 等昂貴的計算資源。動態調度監控和日志多集群管理高可用高成本問題算力資源納管成本，底座環境經常變化，如果避免對用戶的應用運維成本算力成本 GPU 動態拆分+統一調度（HAMi）/（Kueue）一鍵接入算力集群（todo 80%）高復雜性（模型/框架異構）算力資源需要考慮異構問題模型種類范圍廣多模態支持推理框架繁多提供統一的模型范式定義 runtime hugg

5、ingface/modelscopeModelHubdeployments:-runtime:vllmversionRequired:=0.7.1#semver match for runtime.resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8 memory:32 customRuntimeArgs:#define runtime parameters that are optimized for this scenario.-runtime:sglangversionRequired:=0.4.

6、3resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8memory:32customRuntimeArgs:云原生化的 SaaS 平臺介紹Part 02DaoCloud-D.run SaaS 平臺介紹模型廣場，國內外主流開源模型，一鍵體驗，一鍵部署支持國內主流開源模型支持模型快速部署無需自行估算算力資源支持 API 調用，通用 API 支持模型部署按實例計費公共模型調用按 Token 計費統一的模型廣場模型部署極簡模型創建過程支持實時擴縮容部署區域任意選擇模型體驗快捷進行模型體驗模型廣場，國內外主流開源

7、模型，一鍵體驗，一鍵部署支持國內主流開源模型支持模型快速部署無需自行估算算力資源支持 API 調用，通用 API 支持模型部署按實例計費公共模型調用按 Token 計費OpenAPI 調用（監控 OpenAI 接口風格）curl https:/sh-02.d.run/v1/chat/completions-H Content-Type:application/json-H Authorization:Bearer sk-x1VDTAFB7Ra1hldATbncOa_dddVttDvRHQibTA-Oi7ucU-d model:u-8105f7322477/test,messages:role:

8、user,content:Hello,model!,temperature:0.7開源技術的力量（AI/LLM）Part 03使用開源參與開源貢獻開源HAMiHAMi(Heterogeneous AI Computing Virtualization Middleware)異構 AI 芯片虛擬化組件，旨在解決 AI 芯片使用率瓶頸與異構 AI 統一管理兩大挑戰。HAMi 支持以插拔式、輕量級、無侵入部署在任意云環境，使用成本低、對 AI 應用無侵入性。核心競爭力：GPU 細粒度、按需虛擬化(支持任意操作系統、任意架構)算力資源搶占，優先保障高優先級任務異構 AI 芯片統一管理、調度、

9、監控，提高管理效率，降低復雜性算力、顯存超配豐富而靈活的調度策略應對更多的 AI 應用互聯場景企業租戶配額管理，好鋼用在刀刃上插拔式輕量級應用無侵入標準化vllm&sglang 大模型推理目前支持，支持 vllm 與 SGLang 主動參與貢獻未來規劃Part 04項目開源計劃baizeai/KCoverbaizeai/modelhubbaizeai/knowaydcgmiLog analyzerEventsSyscallsContainerStatusLogsK8s APIServerRecovery ManagerEventanalyze eventrestartjob通過對采集到 N

10、ode、Pod 以及訓練任務等的指標信息。KCover 提供了一套全自動的斷卡異常檢測，幫助 GPU 服務自動恢復的能力。https:/ helm repo add baizeai https:/baizeai.github.io/charts helm repo update baizeai helm install kcover baizeai/kcover-namespace kcover-system-create-namespacebaizeai/KCoverbaizeai/ModelHub ModelHub 是一個基于 Kubernetes 的AI模型管理工具，專注于大型語言模型（

11、LLM）和多模態模型的部署、管理和運行。旨在提供了一套標準化的方式來定義、部署和管理各種AI模型，支持從不同來源（如Hugging Face、ModelScope）獲取模型權重，并通過不同的運行時（如vLLM、SGLang）進行高效部署。deployments:-runtime:vllmversionRequired:=0.7.1#semver match for runtime.resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8 memory:32 customRuntimeArgs:#define

12、 runtime parameters that are optimized for this scenario.-runtime:sglangversionRequired:=0.4.3resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8memory:32customRuntimeArgs:輕量級且易于使用的專用網關，具有各種針對LLM的特定優化和功能。你可以把它想象成Nginx，但專門為LLM和即將支持的模型（如Stable Diffusion等）設計。AI 網關Knoway 無服務器引導加載器:能夠按需引導服務的上游Pod，使LLM服務更具成本效益。容錯:llm的容錯能力，在與外部提供商打交道時具有重試，斷路等能力。速率限制:基于令牌、提示等的速率限制，以保護服務于服務的llm不被濫用。語義緩存:基于提示和令牌的語義進行緩存，LLMs的CDN。語義路由:根據提示的困難、語義等進行路由，以使LLMs服務更高效，模型正確。OpenTelemetry:OpenTelemetry支持，能夠跟蹤對LLMs的調用以及網關本身。Thanks.

相關圖表

本文主要介紹了從開源到商業化云原生架構下大模型的大規模推理產品化的過程。文中提到，借助云原生技術，實現了統一的算力管控平臺，支持大量接入算力資源，主要接入的算力資源以自持算力和合作企業提供算力租賃為主。同時，解決了大模型推理的“三高”問題，即擴容算力資源、限流、KV Cache、runtime的選擇等。此外，還提供了統一的模型廣場，支持國內外主流開源模型的一鍵體驗和部署。在開源技術方面，文中提到了HAMi（異構 AI 芯片虛擬化組件）和KCover等項目的規劃和開源計劃?？偟膩碚f，文中主要闡述了如何將開源技術商業化，并在云原生架構下實現大模型的大規模推理產品化。

"如何解決AI芯片使用率瓶頸問題？" "如何實現AI模型的快速部署與統一管理？" "如何利用開源技術推動AI模型的創新應用？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站