當前位置：首頁 > 報告詳情

未知：使用虛擬化技術提升大模型推理性能實踐分析報告（24頁）.pdf

上傳人： AG 編號：608651 2024-01-01 PDF PDF 24頁 3.85MB

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/24

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《未知：使用虛擬化技術提升大模型推理性能實踐分析報告（24頁）.pdf》由會員分享，可在線閱讀，更多相關《未知：使用虛擬化技術提升大模型推理性能實踐分析報告（24頁）.pdf（24頁珍藏版）》請在三個皮匠報告上搜索。

1、使用虛擬化技術提升大模型推理性能實踐Copyright 2020 4Paradigm All Rights Reserved.背景1 異構分布式AI算力資源池成為必然選擇3Copyright 2023 4Paradigm All Rights Reserved.專用芯片/加速卡，能夠帶來更高效率供應鏈安全，需要多來源/供應商采購策略信創政策，應對復雜的國家形勢變化1.1x/年GPUNPUNPUFPGACPU摩爾定律摩爾定律1.5x/年爆發式增長的數據、更大的模型規模、更快的模型更新速度，都對算力帶來新的挑戰 CPU的性能從每年提升超過1.5倍降到1.1倍，摩爾定律逐漸失效異構計算架構的

2、創新將打破現有通用計算的瓶頸，推動摩爾定律持續演進單機不再滿足AI算力需求異構分布式AI算力資源池異構分布式AI算力資源池支持多種異構算力支持模型數據并行分布式可擴展分布式集群提升AI性能提高訓練資源利用率 GPU池化動態調度感知異構資源自動調整調度策略提高AI推理資源利用率 GPU自動劃分顯存顯存超售提高任務成功率智能資源配置任務自動配置顯存/內存資源精準控制Copyright 2020 4Paradigm All Rights Reserved.背景2 國產異構算力發展迅猛4Copyright 2023 4Paradigm All Rights Reserved.近幾年國內不少

3、企業在算力設備方面取得進展，包括海光信息、壁仞科技、燧原科技、摩爾線程等。近幾年國內不少企業在算力設備方面取得進展，包括海光信息、壁仞科技、燧原科技、摩爾線程等。海光DCU 8000系列，典型功耗260-350W，支持INT4、INT8、FP16、FP32、FP64運算精度，支持4個HBM2內存通道，最高內存帶寬為1TB/s、最大內存容量為32GB。海光DCU協處理器全面兼容ROCm GPU計算生態，由于ROCm和CUDA在生態、編程環境等方面具有高度的相似性，CUDA用戶可以以較低代價快速遷移至ROCm平臺?？梢钥吹?，海光DCU是國內唯一支持FP64雙精度浮點運算的產品，英偉達的A100、H

4、100都支持FP64，從這一點來看，海光DCU在這方面是比較領先的。天數智芯的BI芯片，集成240億晶體管，采用7納米先進制程，支持FP32、FP16、BF16、INT8等多精度數據混合訓練，單芯算力每秒147TFP16。寒武紀2021年11月發布的第三代云端AI芯片思元370，相比于上一代芯片，思元370全面加強了FP16、BF16以及FP32的浮點算力，在全新MLUarch03架構和7nm先進工藝加持下，8位定點算力最高為256TOPS。Copyright 2020 4Paradigm All Rights Reserved.Copyright 2023 4Paradigm All Rig

5、hts Reserved.從業人員割裂從業人員割裂國內生態建設不足國內生態建設不足國產算力設備難以重復使用國產算力設備閑置狀態嚴重模型迭代效率低設備層面國產的生態環境相對封閉從業人員存在嚴重的割裂國產算力難以重復利用國產算力閑置狀況嚴重平臺層面模型推理缺乏統一的標準模型迭代效率低算子的開發和交付效率低,缺乏統一的標準,各個模塊對接成本高行業痛點5Project-HAMi：基于k8s的算力復用平臺大模型經常需要配備一些embedding或者validating功能的小模型，若只能整卡部署，則會造成極大的資源浪費通過虛擬化技術將小模型和大模型復用在一張GPU，從而提升TCO 指標易購算力虛擬

6、化中間件（Heterogeneous AI Computing Virtualization Middleware，簡稱HAMi，中文名哈密瓜),是一個基于云原聲的開源一站式解決不同易購算力復用功能的k8s中間件Project-HAMi：架構圖Project-HAMi：架構圖$cat EOF|kubectl apply-f-apiVersion:v1kind:Podmetadata:name:gpu-pod12spec:containers:-name:ubuntu-container image:ubuntu:18.04 command:bash,-c,sleep 86400 resourc

7、es:limits: 1 vGPUs 1 vGPUs Node GPU 0 32G idleGPU 1 32G idleGPU NodeGPU 0 22G idle0GPU 122G idle10G Used10G Used10G Used使用案例英偉達使用案例英偉達使用案例寒武紀使用案例寒武紀$cat EOF|kubectl apply-f-spec:containers:-resources:limits: 1 vGPUs 20%device memory 10%of compute the number of visible MLUs in the the memory size to

8、use for each MLU.If not set,the default is to use all available MLU the percentage used for each MLU.hostcontainer使用案例天數智芯使用案例天數智芯$cat EOF|kubectl apply-f-spec:containers:-resources:limits:iluvatar.ai/gpu:1 iluvatar.ai/vcuda-core:50 iluvatar.ai/vcuda-memory:64#each unit represents 256M device memory

9、iluvatar.ai/gpu:Specifies the number of visible iluvatar GPUs in the container.iluvatar.ai/vcuda-memory:Specifies the memory size to use for each iluvatar GPU.If not set,the default is to use all available device memory.iluvatar.ai/vcuda-core:Specify the percentage used for each Iluvatar GPU.hostcon

10、tainer使用案例華為升騰910B使用案例華為升騰910B$cat 1 即可激活虛擬顯存，例如在部署時指定deviceMemoryScaling=3就會把每張卡的顯存大小擴大到3倍Project-HAMi 顯存超售可以通過指定 kind:Podspec:containers:-resources:limits: 1#requesting 1 1 vGPUs 100%compute cores 100%compute coreskind:Podspec:containers:-resources:limits: 1#requesting 1 1 vGPUs 60%compute cores 6

11、0%compute coresProject-HAMi 算力隔離Copyright 2020 4Paradigm All Rights Reserved.17Copyright 2021 4Paradigm All Rights Reserved.訓練推理Test Environment：GPU Type：Tesla V100GPU Num：1Kubernetes Version：v1.12.9Docker Version：v18.09.1Test Instance：nvidia-device-plugin：基于Nvidia源生device plugin在1塊GPU上運行1個任務/服務vGPU

12、-device-plugin：基于第四范式vGPU device plugin在1塊vGPU上運行1個任務/服務vGPU-device-plugin(virtual device memory)：基于第四范式vGPU device plugin在2塊vGPU上運行2個任務/服務nvidia-device-pluginProject-HAMi 性能Copyright 2020 4Paradigm All Rights Reserved.vGPU NodesvGPU monitoring systemVolumeProject-HAMi 監控接口Copyright 2020 4Paradigm A

13、ll Rights Reserved.實踐案例：第四范式推理加速框架SLX LLM第四范式發布了大模型推理框架SLXLLM以及推理加速卡SLX，在二者聯合優化下，在文本生成類場景中，大模型推理性能提升10倍。例如在使用4張80G GPU對72B大模型進行推理測試中，相較于使用vLLM，第四范式使用SLXLLM+SLX的方案?？赏瑫r運行任務數量從4 4增至4040?？杉嫒軹GI、FastLLM、vLLM等主流大模型推理框架大模型推理性能提升約1-81-8倍。Copyright 2020 4Paradigm All Rights Reserved.實踐案例：第四范式推理加速框架SLX LLM通常

14、來說，一個完整的大模型商業產品并不僅僅包含一個生成器，而是由一個生成器和若干的小模型組成，以第四范式的模型產品【式說】為例，其中包含了3部分，一個負責前處理的embedding模型，一個生成器generator，一個負責輸出的validator?？紤]到原生k8s不支持設備復用的問題，最終的部署方案如圖所示embeddinggeneratorvalidatorCPUGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7Copyright 2020 4Paradigm All Rights Reserved.GPU0實踐案例：第四范式推理加速框架SLX LLM使用哈密瓜可以將這3個組件部

15、署在一張GPU上，因為其中只有一個大模型生成器，embedding和validator均為小模型，以如此部署并不會降低性能，不僅如此，這種部署方式可以在只使用一張GPU的場合部署成功embeddinggeneratorvalidatorGPU1embeddinggeneratorvalidatorGPU2embeddinggeneratorvalidatorGPU3embeddinggeneratorvalidator RoadmapRoadmap2025.06Support Support intel/AMD GPU devicedeviceSupport NPU2024.52025.1*i

16、ntegrated gpu-operator*Rich observability support*DRA Support2024.6Support Flexible scheduling policies*binpack*spread*numa affinity/antiaffinityHAMi CommunityHAMi Community2022.04 Open Source2024.04 CNCF Landscape projectFast growing community10K+Downloads40+AdoptersAleady Support Nvidia,Cambricon,

17、Hygon,Huawei ASCENDHAMi AdoptersHAMi AdoptersAI for everyone.第四范式（北京）技術有限公司感謝.北京總部北京市海淀區清河中街66號第四范式大廈上?？偛可虾Ｊ衅謻|新區浦東南路1111號新世紀辦公中心15層深圳總部深圳市南山區自貿西街151號招商前海經貿中心一期B座18層1802商務咨詢TEL400-179-1188新加坡總部Fourth Paradigm Southeast Asia PTE LTD 1 Fusionopolis Place,#03-20 Galaxis(West Lobby),Singapore,138522Copyright 2023 4Paradigm All Rights Reserved.項目地址：https:/

相關圖表

本文主要探討了使用虛擬化技術提升大模型推理性能的實踐。背景部分指出，隨著數據爆發式增長、模型規模擴大和更新速度加快，對算力提出了新的挑戰。異構計算架構的創新成為打破現有通用計算瓶頸、推動摩爾定律持續演進的關鍵。國內企業在算力設備方面取得進展，如海光信息、壁仞科技、燧原科技、摩爾線程等。關鍵點包括：1) 虛擬化技術如GPU池化、動態調度感知異構資源、自動調整調度策略等，能提高AI推理資源利用率；2) 國產異構算力發展迅猛，例如海光DCU、天數智芯的BI芯片、寒武紀的思元370等；3) 從業人員和國產算力設備存在割裂，國產算力難以重復利用和閑置狀況嚴重；4) 平臺層面，模型推理缺乏統一標準，算子開發和交付效率低；5) 實踐案例中，第四范式推理加速框架SLX LLM和推理加速卡SLX，能使大模型推理性能提升10倍，兼容主流大模型推理框架。文章還提到了Project-HAMi，這是一個基于k8s的算力復用平臺，通過虛擬化技術將小模型和大模型復用在一張GPU上，提升TCO指標。最后，感謝第四范式（北京）技術有限公司對本文的支持，并提供了他們的聯系方式和地址。

"如何通過虛擬化技術提升AI模型推理性能？" "國產異構算力發展現狀與未來趨勢分析" "第四范式推理加速框架SLX LLM的實際應用案例分享"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站