《騰訊云異構計算:構建AI時代新范式.pdf》由會員分享,可在線閱讀,更多相關《騰訊云異構計算:構建AI時代新范式.pdf(14頁珍藏版)》請在三個皮匠報告上搜索。
1、異構計算構建AI時代新范式宋丹丹 騰訊云異構計算產品總監主講人:面臨AI新時代,傳統基礎設施面臨巨大挑戰數億模型參數20%結構化檢索個別企業單一領域單機完成訓練十億萬億模型參數100%結構化+非結構化萬千企業各行各業千卡集群調度AI 2.0AI 1.0騰訊云 AI 超級底座:軟硬自研領先,實現ModelOps全鏈路,高性能易上手訓練推理GooseFSCFS Turbo機型矩陣多元算力高性能網絡紫霄主流芯片自研芯片滄海星脈銀杉GPU自研服務器星星海利用率提升qGPU 共享技術推理加速TACO-Infer訓練加速TACO-Train高性能計算集群 HCC高性能應用服務 HAI訓推一體關鍵節點高效檢
2、索極致性能靈活取用海量算力向量數據庫Hyper Computing Cluster 2.0:為萬億參數大模型,打造Hyper AI算力300%相比上代訓練效率提升萬億大模型訓練效率,再次提速業界傳統算力集群方案上一代騰訊云HCC集群新一代騰訊云HCC集群50天11天4天先進算力硬件基于星星海自研服務器,搭載最新GPU輕松接入,業務代碼無侵入“零”改造適配軟硬協同,針對騰訊云硬件定制適配加速框架層框架獨家優化支持主流AI框架、訓練作業模板訓練一鍵部署推理混布調度基于SDHN實現硬件故障隔離網絡故障無感知國內最強高性能計算集群HCC 2.0全面搭載騰訊自研星脈網絡基礎設施層3.2 Tbps RDM
3、A網絡充分利用閑置訓練集群資源算力編排層軟件定義層5%超細粒度切分支持qGPU對單卡進行算力隔離星脈網絡:為大模型而生,騰訊云自研,性能提升10倍SDHN控制器星脈網絡架構TCCL/NCCL擁塞控制租戶隔離故障規避流量哈希用戶無感用戶OS拓撲感知GPUServerGPUServer探測決策用戶模型應用40%網絡擁塞減少全局hash路由,實現可預期的網絡性能80%跨LA組流量減少拓撲感知親和性調度:最小化流量繞行QP級 鏈路擁塞感知通過精細流量探測,實時感知集群瓶頸毫秒級 故障規避快速路徑切換,網絡故障“零”影響星脈網絡 SDHN動態流量調度,提升網絡有效載荷高性能存儲:多級加速數據快速讀取,高
4、性能應用輕松上云高性價比云原生混合存儲方案CPUGPUGPU MEML1 分布式緩存MEMGPU NodeL2 分布式緩存NVMeSSDMEMCPUGPUGPU MEMMEMGPU NodeNVMeSSDMEM對象存儲COS文件存儲Turbo CFS訓練數據集Checkpoint文件讀寫POXIS語義讀寫POXIS語義讀寫支持全量訓練數據持久化在對象存儲上,通過GooseFS提供多級分布式緩存方案。提供海量低成本分布式存儲。百萬級IOPS、100GB/s吞吐,百us延時高性能低成本通過高性能并行文件存儲TurboCFS,支持Checkpoint數據及重要模型/樣本數據可靠存儲可靠存儲訓推一體:
5、基于云原生網絡架構,尋求低時延、大吞吐、低成本的業務無縫互聯用戶請求返回用戶請求輸入編譯優化計算圖優化算子生成AI 推理加速數據導入前向計算后向計算AllReduce權重更新AI 訓練預處理前向計算后處理AI 推理訓練數據集模型倉庫(模型文件、配置文件等)模型文件導出AI推理加速訓練集群推理集群推理加速服務推理服務部署AI 推理:前向傳播的用戶請求計算過程AI 訓練:迭代計算尋找極值點的過程HCC高性能計算集群 輕量資源管理,一站式軟硬件加速服務HARP通信算法網絡框架層AngelPTM 萬億大模型訓練框架LightCC模型層TCCL自適應FP16/XLA混合加速超大Batchsize收斂TT
6、ensorflow自研框架編譯優化硬件加速算子生成計算圖優化算子融合高性能子圖分階段量化TIDY 騰訊推理動態編譯工具TVMZenDNNOneDNNTensorRTcuDNNAI 訓練加速框架AI 推理加速框架軟件加速框架輕量資源管理算力編排服務異構加速實例PTX1(騰訊自研紫霄 V1)GN7(T4)PNV4(A10)PNV5(L40S)GC49 NVIDIA 系列 GPUHCCPNV4(A100/A800)HCCPNV5(H800)AMD MI388Habana Gaudi2NPU系列GPU 容器共享技術 qGPUGPU 虛擬化技術 vGPU智能選型、一鍵部署、可視化界面高靈活性、強隔離性、
7、在離線混部、兼容性強、性能0損耗一站式服務:TACO Train和TACO infer提供全流程加速服務輕量部署:無感接入,輕量部署極致性能:助力業務完成數倍到數十倍的加速優化全場景支持:CPU/CPU,各版本訓練框架高性能:HCC實例搭配A800/H800卡型,支持最高3.2T RDMA網絡豐富選型:支持豐富的實例選型自研支持:自研硬件支持,更高性能和性價比表現云原生容器服務高性能應用服務 HAI重磅推出:高性能應用服務 HAI(Hyper Application Inventor)智能選型根據應用匹配推選合適GPU算力資源,實現最高性價比一鍵部署分鐘級自動構建LLM、AI作畫、數據科學等應
8、用環境可視化界面提供開發者友好的圖形界面,AI研究調試超低門檻計算、存儲、網絡驅動與軟件依賴智能匹配平臺應用連接TerminalNotebookModel WebUIAPIAi應用,即插即用;HiAI中小企業開發者數據科學家設計師學生自研加速套件 TACO Kit模型部署應用唾手可得,動手實踐,從入門到精通這里是AI的開始限量邀請體驗向量數據庫:大模型長期記憶的“海馬體”,AI數據高效檢索10億級單索引規模支持10倍相比單機插件式檢索規模提升企業級分布式向量數據庫一站式向量檢索方案數據接入AI效率提升Embedding+檢索集成方案10倍日處理千億請求次集團大規模運營積累99.99%現網運營可用性指標專屬定制騰訊云向量數據庫(Tencent Cloud VectorDB)文本切割向量檢索Embedding我們正與客戶一起加速構建AI時代新范式99.9%實測符合預期,可用性達騰訊云超強穩定算力,收獲高用戶口碑星脈網絡參數規模增長、海量數據涌入騰訊云CFS TurboCOS+GooseFS高性能存儲高性能計算集群 HCC蓄勢待發,行則將至,未來已來THANKS謝謝觀看