《未知:使用虛擬化技術提升大模型推理性能實踐分析報告(24頁).pdf》由會員分享,可在線閱讀,更多相關《未知:使用虛擬化技術提升大模型推理性能實踐分析報告(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、使用虛擬化技術提升大模型推理性能實踐Copyright 2020 4Paradigm All Rights Reserved.背景1 異構分布式AI算力資源池成為必然選擇3Copyright 2023 4Paradigm All Rights Reserved.專用芯片/加速卡,能夠帶來更高效率 供應鏈安全,需要多來源/供應商采購策略 信創政策,應對復雜的國家形勢變化1.1x/年GPUNPUNPUFPGACPU摩爾定律摩爾定律1.5x/年 爆發式增長的數據、更大的模型規模、更快的模型更新速度,都對算力帶來新的挑戰 CPU的性能從每年提升超過1.5倍降到1.1倍,摩爾定律逐漸失效 異構計算架構的
2、創新將打破現有通用計算的瓶頸,推動摩爾定律持續演進 單機不再滿足AI算力需求異構分布式AI算力資源池異構分布式AI算力資源池支持多種異構算力支持模型數據并行 分布式 可擴展分布式集群提升AI性能提高訓練資源利用率 GPU池化動態調度感知異構資源自動調整調度策略 提高AI推理資源利用率 GPU自動劃分顯存顯存超售 提高任務成功率 智能資源配置任務自動配置顯存/內存資源精準控制Copyright 2020 4Paradigm All Rights Reserved.背景2 國產異構算力發展迅猛4Copyright 2023 4Paradigm All Rights Reserved.近幾年國內不少
3、企業在算力設備方面取得進展,包括海光信息、壁仞科技、燧原科技、摩爾線程等。近幾年國內不少企業在算力設備方面取得進展,包括海光信息、壁仞科技、燧原科技、摩爾線程等。海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64運算精度,支持4個HBM2內存通道,最高內存帶寬為1TB/s、最大內存容量為32GB。海光DCU協處理器全面兼容ROCm GPU計算生態,由于ROCm和CUDA在生態、編程環境等方面具有高度的相似性,CUDA用戶可以以較低代價快速遷移至ROCm平臺??梢钥吹?,海光DCU是國內唯一支持FP64雙精度浮點運算的產品,英偉達的A100、H
4、100都支持FP64,從這一點來看,海光DCU在這方面是比較領先的。天數智芯的BI芯片,集成240億晶體管,采用7納米先進制程,支持FP32、FP16、BF16、INT8等多精度數據混合訓練,單芯算力每秒147TFP16。寒武紀2021年11月發布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加強了FP16、BF16以及FP32的浮點算力,在全新MLUarch03架構和7nm先進工藝加持下,8位定點算力最高為256TOPS。Copyright 2020 4Paradigm All Rights Reserved.Copyright 2023 4Paradigm All Rig
5、hts Reserved.從業人員割裂從業人員割裂國內生態建設不足國內生態建設不足國產算力設備難以重復使用國產算力設備閑置狀態嚴重模型迭代效率低設備層面國產的生態環境相對封閉從業人員存在嚴重的割裂國產算力難以重復利用國產算力閑置狀況嚴重平臺層面 模型推理缺乏統一的標準模型迭代效率低算子的開發和交付效率低,缺乏統一的標準,各個模塊對接成本高行業痛點5Project-HAMi:基于k8s的算力復用平臺 大模型經常需要配備一些embedding或者validating功能的小模型,若只能整卡部署,則會造成極大的資源浪費 通過虛擬化技術將小模型和大模型復用在一張GPU,從而提升TCO 指標易購算力虛擬
6、化中間件(Heterogeneous AI Computing Virtualization Middleware,簡稱HAMi,中文名哈密瓜),是一個基于云原聲的開源一站式解決不同易購算力復用功能的k8s中間件Project-HAMi:架構圖Project-HAMi:架構圖$cat EOF|kubectl apply-f-apiVersion:v1kind:Podmetadata:name:gpu-pod12spec:containers:-name:ubuntu-container image:ubuntu:18.04 command:bash,-c,sleep 86400 resourc
7、es:limits: 1 vGPUs 1 vGPUs Node GPU 0 32G idleGPU 1 32G idleGPU NodeGPU 0 22G idle0GPU 122G idle10G Used10G Used10G Used使用案例英偉達使用案例英偉達使用案例寒武紀使用案例寒武紀$cat EOF|kubectl apply-f-spec:containers:-resources:limits: 1 vGPUs 20%device memory 10%of compute the number of visible MLUs in the the memory size to
8、use for each MLU.If not set,the default is to use all available MLU the percentage used for each MLU.hostcontainer使用案例天數智芯使用案例天數智芯$cat EOF|kubectl apply-f-spec:containers:-resources:limits:iluvatar.ai/gpu:1 iluvatar.ai/vcuda-core:50 iluvatar.ai/vcuda-memory:64#each unit represents 256M device memory
9、iluvatar.ai/gpu:Specifies the number of visible iluvatar GPUs in the container.iluvatar.ai/vcuda-memory:Specifies the memory size to use for each iluvatar GPU.If not set,the default is to use all available device memory.iluvatar.ai/vcuda-core:Specify the percentage used for each Iluvatar GPU.hostcon
10、tainer使用案例華為升騰910B使用案例華為升騰910B$cat 1 即可激活虛擬顯存,例如在部署時指定deviceMemoryScaling=3就會把每張卡的顯存大小擴大到3倍Project-HAMi 顯存超售可以通過指定 kind:Podspec:containers:-resources:limits: 1#requesting 1 1 vGPUs 100%compute cores 100%compute coreskind:Podspec:containers:-resources:limits: 1#requesting 1 1 vGPUs 60%compute cores 6
11、0%compute coresProject-HAMi 算力隔離Copyright 2020 4Paradigm All Rights Reserved.17Copyright 2021 4Paradigm All Rights Reserved.訓練推理Test Environment:GPU Type:Tesla V100GPU Num:1Kubernetes Version:v1.12.9Docker Version:v18.09.1Test Instance:nvidia-device-plugin:基于Nvidia源生device plugin在1塊GPU上運行1個任務/服務vGPU
12、-device-plugin:基于第四范式vGPU device plugin在1塊vGPU上運行1個任務/服務vGPU-device-plugin(virtual device memory):基于第四范式vGPU device plugin在2塊vGPU上運行2個任務/服務nvidia-device-pluginProject-HAMi 性能Copyright 2020 4Paradigm All Rights Reserved.vGPU NodesvGPU monitoring systemVolumeProject-HAMi 監控接口Copyright 2020 4Paradigm A
13、ll Rights Reserved.實踐案例:第四范式推理加速框架SLX LLM第四范式發布了大模型推理框架SLXLLM以及推理加速卡SLX,在二者聯合優化下,在文本生成類場景中,大模型推理性能提升10倍。例如在使用4張80G GPU對72B大模型進行推理測試中,相較于使用vLLM,第四范式使用SLXLLM+SLX的方案??赏瑫r運行任務數量從4 4增至4040??杉嫒軹GI、FastLLM、vLLM等主流大模型推理框架 大模型推理性能提升約1-81-8倍。Copyright 2020 4Paradigm All Rights Reserved.實踐案例:第四范式推理加速框架SLX LLM通常
14、來說,一個完整的大模型商業產品并不僅僅包含一個生成器,而是由一個生成器和若干的小模型組成,以第四范式的模型產品【式說】為例,其中包含了3部分,一個負責前處理的embedding模型,一個生成器generator,一個負責輸出的validator??紤]到原生k8s不支持設備復用的問題,最終的部署方案如圖所示embeddinggeneratorvalidatorCPUGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7Copyright 2020 4Paradigm All Rights Reserved.GPU0實踐案例:第四范式推理加速框架SLX LLM使用哈密瓜可以將這3個組件部
15、署在一張GPU上,因為其中只有一個大模型生成器,embedding和validator均為小模型,以如此部署并不會降低性能,不僅如此,這種部署方式可以在只使用一張GPU的場合部署成功embeddinggeneratorvalidatorGPU1embeddinggeneratorvalidatorGPU2embeddinggeneratorvalidatorGPU3embeddinggeneratorvalidator RoadmapRoadmap2025.06Support Support intel/AMD GPU devicedeviceSupport NPU2024.52025.1*i
16、ntegrated gpu-operator*Rich observability support*DRA Support2024.6Support Flexible scheduling policies*binpack*spread*numa affinity/antiaffinityHAMi CommunityHAMi Community2022.04 Open Source2024.04 CNCF Landscape projectFast growing community10K+Downloads40+AdoptersAleady Support Nvidia,Cambricon,
17、Hygon,Huawei ASCENDHAMi AdoptersHAMi AdoptersAI for everyone.第四范式(北京)技術有限公司感謝.北京總部北京市海淀區清河中街66號第四范式大廈上??偛可虾J衅謻|新區浦東南路1111號新世紀辦公中心15層深圳總部深圳市南山區自貿西街151號招商前海經貿中心一期B座18層1802商務咨詢TEL400-179-1188新加坡總部Fourth Paradigm Southeast Asia PTE LTD 1 Fusionopolis Place,#03-20 Galaxis(West Lobby),Singapore,138522Copyright 2023 4Paradigm All Rights Reserved.項目地址:https:/