1、Is sharing GPU to multiple containers feasible?李孟軒目錄Background01Scheduling attempts03Device Layer attempts02ContentSummary04Background:Part 01Device cant be fully utilizedA typical GPU utilization in。
2、Keeping it Small:Agentic Workflows with SLMs on K8SFrank Fan-Senior Container Solution Architect,AWSAddress challenges of Agentic workload010302Key takeaways04Multi-agent workflowsImplementation on k。
3、Fine-tuning LLM with ArgoWorkflows:A Kubernetes-nativeApproachShuangkun TianArgo Maintainer、Alibaba Cloud Software EngineerThe Challenge of Fine-tuning01Building a TCM Assistant on DeepSeek03Why Argo。
4、釋放 CEL 在高級多集群調度中的潛力Unlocking the Power of CEL for Advanced Multi-Cluster SchedulingQing Hao(郝青)Senior Software Engineer Red Hat|Maintainer Open Cluster Management CNCF Ambassador目錄多集群調度遇到的挑戰01CEL在多集群。
5、構建基于企業數據的高精度生成式人工智能應用鄭予彬開發者布道師亞馬遜云科技目錄生成式AI在企業中的轉化潛力01如何優化云上Gen AI 工作負載03RAG架構-連接企業數據與大語言模型02Content生成式AI在企業中的轉化潛力Part 01Data流數據處理大數據分析數據庫數據可視化數據湖倉多數據源融合數據治理Generative AI 應用GenAI 應用植根于數據平臺數據驅動型公司可實現每。
6、多集群環境中AI驅動的故障診斷AI-Driven Troubleshooting in Multi-Cluster Environments閆猛(Meng yan)Software Engineer Red Hat目錄多集群管理OCM概述01多集群中Agent設計03Agent介紹02Content樣例展示04多集群管理-OCM概述Part 01Open Cluster Management多集。
7、KubeEdge云邊協同實踐:大語言模型云邊協同推理benchmark套件胡時京 復旦大學 KubeEdge范彧 北京航空航天大學 KubeEdge目錄大模型云邊協同背景01基于KubeEdge-Ianvs的大模云邊協同實踐03KubeEdge大模型云邊協同推理新范式02Content開源成果分享04大模型云邊協同背景Part 01為什么我們需要大模型云邊協同?每年LLM API開銷超過100億。
8、高效AI基礎設施:業務靈活彈性+云端GPU即時供應莫源/阿里云&姜偉/CloudPilot AI目錄業界挑戰01架構&實現03解決方案02Content總結04Q&A05業界挑戰Part 01業界挑戰成本高資源確定性差業務/節點彈性不足啟動速度受限云上GPU費用較高,如,AWS us-east-1 T4的花費高達$383.98/月。傳統集群伸縮關鍵時刻可能無法彈性足夠的計。
9、如何開發云原生 AI 應用基于 Eino 框架的探索如何開發云原生 AI 應用?Part 01基于 Eino 框架的探索AI 應用:圍繞大模型的信息流 大模型:無中生有 有向圖,流式信息生成,可枚舉的“信息處理”組件 輸入=輸出對“可枚舉”組件的編排 RunnableI,O Python:LangChain,Go:Eino云原生 AI 應用:Function as a Service?云原生 A。
10、DRA異構資源精細化管理的生產實踐吉元昊(shink),華為,Apache InLong PMC目錄Kubernetes for LLMs01Device Plugin 2.0:Dynamic Resource Allocation03Device Plugin 1.002ContentKubernetes for LLMsDL訓練/推理、HPC 等場景下,K8s 的異構架構迎來挑戰:計算 高性。
11、云原生圖數據庫 NebulaGraph驅動的 GenAI 技術演進演講人:尚卓燃(PsiACE)目錄背景趨勢01應用案例03技術路線02Content背景趨勢Part 01當圖數據庫遇上 GenAI傳統 RAG 方法的痛點傳統RAG方式面臨的挑戰:細粒度知識檢索能力不足全局上下文關聯缺失向量相似性與相關性錯配全局性問題及推理型問題回答能力不足GraphRAG 的優勢基于圖技術的 RAG技術的優勢。
12、從開源到商業化云原生架構下大模型的大規模推理產品化YeTing-DaoCloud目錄業務背景和挑戰01開源技術的力量03云原生化的 SaaS 平臺介紹02Content未來規劃04業務背景和挑戰Part 01產品銷售形態MaaS 服務Pay for Tokens模型部署Pay for Instances模型訓練/微調開發機大模型推理的“三高”問題-MaaS算力成本問題推理性能問題高并發需求Maa。
13、面向GenAI時代的LOKAI基礎設施挑戰與實踐鄭振宇 OpenAtom openEulerGenAI 時代云基礎設施的機遇與挑戰2024全年云基礎設施花費達到$330 Billion,較2023年上漲22%,較2022年上漲44.7%ChatGPT于2022年底發布,與基礎設施業務爆發式增長節奏相匹配調查表明,超過半數基礎設施增長源于GenAI業務Source:Synergy data and。
14、基于控制面單元化的 Kubernetes 集群聯邦任靜思 字節跳動資深研發工程師目錄背景01關鍵技術細節03基于控制面單元化的 Kubernetes 集群聯邦02Content背景Part 01大規模集群聯邦帶來的性能與穩定性挑戰大規模生產環境集群聯邦 在字節跳動,我們采用 Kubernetes 集群聯邦作為全局資源的統一入口1.資源體量1.聯邦總節點數:21 W+2.在線微服務數:10 W+3。
15、從一個安全漏洞聊起深入探究Kubernetes的網絡和應用安全張晉濤 Kong Inc個人介紹 張晉濤 Kong Inc.CNCF Ambassador,KCD Organizer Kubernetes ingress-nginx maintainer LFAPAC Open Source Evangelist 公眾號:MoeLove GitHub:tao12345666333目錄探究 CVE-。
16、Karpor開啟 AI 時代下可靠、安全、智能的多集群洞察之旅余凡Karpor Maintainer螞蟻集團KusionStack:平臺工程技術棧Kusion:平臺編排器Kuperator:Kubernetes Controller擴展 套件Karpor:多集群管理與數據可視化工具多集群管理與資源洞察所面臨的困境多云場景下,集群管理困難,亟需高效的多云管理工具ChatGPT,Deepseek 等。
17、面向LLM的高效計算:基于昇騰硬件和Volcano的軟硬協同優化Shuqiao Li(Huawei,Senior Engineer)Zicong Chen(Huawei Cloud,Member of Volcano,R&D Engineer)目錄節點內拓撲感知調度01昇騰NPU生態支持03跨節點網絡拓撲感知調度02Content生產環境中管理算力負載0400背景介紹小結05背景介紹Pa。
18、AI powered Rust programming and LLM AgentsMiley Fu-WasmEdgeCNCF AmbassadorKubeCon+Open Source Summit+AI_Dev China 24 Co-Chairhttps:/ on LlamaEdge03Multimodel agents to localize Rust Learning content0。
19、Topology-Aware Scheduling for Large-Scale AI Workloads in Diverse Networks Clusters Using VolcanoXiaodong Ye,Moore ThreadsYu Zhou,Moore ThreadsBackground01Demo03Technical Details02ContentFuture Work0。
20、機密計算在無服務器(Serverless)架構中的應用:機遇和挑戰中國移動云能力中心 容器服務團隊李磊劉艷松目錄Serverless和機密計算01性能評估03Knative+Confidential Containers02Content結論和挑戰04Serverless和機密計算Part 01Serverless架構 Serverless強調的是一種架構理念和服務模型,所謂的“無服務器”是對用。
21、Rokid:在 AI+AR 場景下 Serverless 容器化技術探索與實踐李鵬(阿里云)朱煒棟(Rokid)目錄Knative 介紹01基于 Knative 部署 DeepSeek-R103Rokid 基于 Knative 最佳實踐02ContentKnative 介紹Part 01Kubernetes 正成為數字化、智能化應用的云原生基礎設施Public CloudEdge Computi。
22、Flame:A distributed system for intelligent workloadKlaus Ma(k82cn,Nvidia)目錄Why Flame?01Architecture03Use Cases02ContentRoadmap04Why Flame?Currently,more and more frameworks are introduced for specifi。
23、HP云的模型服務自動化實踐惠普DevOps架構師 鄭風ContentHP云介紹01基于 KServe/Istio/Envoy 的架構實現03模型推理平臺的需求與設計0204問答環節-模型部署-模型訪問權限控制-HPA 動態擴展-可觀測性-LLM Token 限流和統計-金絲雀發布目錄HP云介紹Part 01HP云介紹 惠普云主要架在Amazon上,提供惠普內部項目所有服務的部署、監控、運維及管理。
24、基于Kubernetes的電力行業虛擬化平臺大規模應用與實踐目錄背景&需求01未來&展望03技術&實踐02Content背景&需求Part 01數據中心基礎設施建設的新要求為加速“三商”轉型與數字電網建設,為新型電力系統建設提供強大算力支撐,同時積極推動電力行業算力與電力深度融合,助力數字經濟與低碳經濟發展,南方電網制定了“3+1+X”數據中心規劃。其中“X”主要。
25、Exploring the Next Generation of Secure Containers:gVisor and Kata FusionXuewei Niu Software Engineer,Ant GroupHang Su Software Engineer,Ant GroupTiwei Bie*Staff Engineer,Ant GroupSecure Containers O。
26、KubeVrit 網絡深度探索靈雀云 劉夢馨目錄KubeVirt 網絡概述01Network Binding Plugin機制03Bridge 和 Masquade 原理02ContentKube-OVN 和 Network Binding04KubeVirt 網絡概述 KubeVirt 采用 Pod 運行 VM,復用 CNI 網絡 網絡分為兩部分:Pod 網絡(CNI 提供)與 VM 網絡(D。
27、使用 eBPF 實現LLM 推理服務的全??捎^測性向陽 云杉網絡目錄自建 LLM 推理服務的挑戰01基于 eBPF 的全??捎^測性03如何建設推理服務的可觀測性02ContentDeepFlow 用戶的實踐04自建 LLM 推理服務的挑戰Part 01DeepSeek讓 LLM 推理服務私有化建設加速如何保障自建 LLM 推理服務的用戶體驗?硬件“水很深”?依靠“搬運工”?如何打開性能黑盒,選型。
28、GenAl時代的開源:多樣性算力的機遇與挑戰姜逸坤(Yikun),Huawei,Principal EngineerYikunHuawei,Principal Engineer-Leads an“upstream first”R&D team-vllm-project/vllm-ascend maintainer-PyTorch TAC Member-Apache Spark Commi。
29、JuiceFS 在 Kubernetes 環境中數千節點數據集的應用實踐蘇銳-Juicedata 合伙人分享大綱-JuiceFS 是什么-JuiceFS 在 Kubernetes 上的幾種使用姿勢-數據 在 AI+Kubernetes 中遇到的挑戰-提升 JuiceFS 在大型 Kubernetes 集群中的體驗蘇銳-2017 年作為聯創開始 JuiceFS 的創業之旅-18 年 IT 工作,做。