《肖松-大模型場景下智算平臺的設計與優化實踐.pdf》由會員分享,可在線閱讀,更多相關《肖松-大模型場景下智算平臺的設計與優化實踐.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型場景下智算平臺的設計與優化實踐肖松2024.06.14不同時期對智算平臺的需求2引言客戶客戶B B我的模型跑起來耗時長,能加速嗎?我的模型跑起來耗時長,能加速嗎?客戶客戶A A我資源比較少,幾十卡的規模,如何提升卡的利用率?我資源比較少,幾十卡的規模,如何提升卡的利用率?客戶客戶C C我想跑大模型,需要多少資源?網絡如何構建?多長時間能跑完?我想跑大模型,需要多少資源?網絡如何構建?多長時間能跑完?客戶客戶D D國產卡怎么用?能否與國產卡怎么用?能否與 NVNV 卡一起使用?卡一起使用?20182024目錄0101大模型時代,智算平臺新特點4 40202智算平臺需解決的問題6 60303
2、大模型場景技術實踐8 80404對于智算平臺發展的未來思考252501 大模型時代,智算平臺新特點小模型 vs.大模型小模型 vs.大模型5大模型時代,智算平臺新特點ResNet50(小模型)訓練時長訓練成本工程問題增強:參數爆炸突破顯存墻,多機多卡成為常態增強:卡間和機間高性能通信愈發重要增強:耗時長凸顯大模型訓推加速需求新增:成本高帶來穩定性需求,減少資源閑置維持:GPU切分在小模型和推理場景依然存在新增:新卡適配和芯片利舊,多芯混合調度新增:數據集處理加速新增:數據湖存儲和高性能存儲參數算力128 塊 V100數據167G(ImageNet)158秒$1525M(0.025B)GPT-4
3、(大模型)訓練時長訓練成本參數算力8192 塊 H100數據13T55天$2150萬1800Bvs.vs.新要求*數據來源:非官方數據,為業界推測基礎設施、調度、應用、運維02 智算平臺需解決的問題基礎設施、調度、應用、運維7智算平臺需解決的問題基礎設施基礎設施調度調度應用應用算力算力存儲存儲網絡網絡適配多種異構芯片固件、OS內核、驅動兼容混合多芯混合多芯優化存儲讀寫性能優化存儲讀寫性能鏡像加速、鏡像預鋪搭建和調試高性能網絡搭建和調試高性能網絡資源管理資源管理任務管理任務管理大規模異構算力高效調度和分配算力虛擬化算力虛擬化多種AI框架和并行策略支持AI AI 任務調度任務調度和任務流管理云原生
4、容器化數據數據訓練訓練推理推理數據集下載和轉儲加速轉儲加速數據集的清洗和加工處理訓練任務的性能優化訓練任務的性能優化任務的監控和容錯容錯FlashFlash CheckpointCheckpoint推理任務的性能優化推理任務的性能優化在線服務的監控告警運維運維03 大模型場景技術實踐基礎設施層國產卡能否與 NV 卡一起使用?9基礎設施混合多芯擬合性能系數統一并行策略AI 效能矩陣圖譜通信整合10基礎設施高性能存儲托管 BCC/BBC 集群M E MD I S KM E MD I S KM E MD I S KM E MD I S KTCP/InfiniBand/RoCETCP并行文件存儲并行文
5、件存儲 PFSPFS分布式緩存加速存儲分布式緩存加速存儲 RapidFSRapidFS對象存儲對象存儲 BOSBOS標準存儲標準存儲低頻存儲低頻存儲冷存儲冷存儲歸檔存儲歸檔存儲鏡像加速鏡像加速超大鏡像預加載P2P鏡像分發流式鏡像拉取訓練數據加速訓練數據加速高性能并行文件系統全SSD閃存RDMA鏈路加速模型加速模型加速大吞吐數據湖存儲分布式緩存加速鏡像服務鏡像服務流式讀取P2P加速如何實現數據集加速?如何 I/O 加速?11基礎設施高性能網絡TorTor拓撲感知調度拓撲感知調度NCCLNCCL通信拓撲感知通信拓撲感知3 3層無收斂層無收斂RDMARDMA網絡網絡UpUp toto 512512U
6、pUp toto 512512UpUp toto 1616K+K+如何實現通信庫加速?03 大模型場景技術實踐調度層如何提高單卡資源利用率?13調度GPU虛擬化CUDA driver API,提供顯存限制,算力時分復用用戶態方案CUDA runtime API,提供遠程調用,顯存限制,算力時分復用內核模塊修改,提供顯存限制,算力時分復用內核態方案Full/para-虛擬化,內核模塊修改,MMIO攔截,顯存劃分,算力時分復用NV官方,硬件劃分,提供顯存劃分、算力劃分、編解碼劃分(1/7)硬件方案SR-IOV,硬件劃分,提供顯存劃分、算力劃分(1/3、1/2)Nvidia MIG昆侖2 SR-IO
7、V雙引擎 GPU 虛擬化14調度GPU虛擬化優勢:性能好,長尾延遲低缺點:故障隔離差優勢:故障隔離好缺點:有一定性能損耗用戶態內核態如何調度資源?15調度資源管理和調度邏輯PodPodPodPodGroup入 隊資源分配資源回收資源搶占回填調度會話插件集合Gang調度Gang搶占Binpack/Spread調度親和性調度GPU拓撲Tor架構感知混部調度多租戶資源管理選擇最優調度集群資源視圖CPU/MEM異構芯片(獨占/共享)RDMA自定義資源配額管理資源調度03 大模型場景技術實踐應用層17應用AIAK 訓推加速大模型訓練加速鏡像大模型訓練加速鏡像算子優化算子優化顯存優化顯存優化并行優化并行優
8、化大模型推理加速鏡像大模型推理加速鏡像算子優化算子優化算子融合算子融合圖精簡圖精簡兼容兼容Llama2Llama2、ChatGLM2ChatGLM2等等2020余種開源模型,一鍵部署,透明加速余種開源模型,一鍵部署,透明加速算子融合注意力機制優化調度優化模板化優化顯存重算顯存卸載細粒度顯存切分數據并行優化張量并行優化流水線并行優化訪存密集型算子融合GEMM/Conv 長尾運算融合背靠背 GEMM 融合數學等價代換/死代碼移除量化/剪枝/蒸餾訓練性能提升訓練性能提升30%+30%+推理性能提升推理性能提升60%+60%+如何優化訓練和推理性能?訪存優化如何提升訓練穩定性?18應用訓練容錯基礎設施
9、穩定性硬件故障快速感知硬件端到端上線預檢測節點熱維修/秒級冷遷移恢復調度容錯效率任務異??焖俑兄卣{度容錯鏡像/數據緩存加速框架容錯代價Ckpt 存儲加速異步Ckpt加速任務無效訓練時間=故障故障中斷次數中斷次數 (任務故障恢復時長任務故障恢復時長 +任務故障重算時長任務故障重算時長)+任務常態任務常態寫寫CkptCkpt總時長總時長降低節點故障率提升故障感知召回率提升調度效率降低節點MTTR降低Ckpt時長,縮短Ckpt間隔周期分布式Ckpt加速主流框架主流框架/分布式庫分布式庫,打開開關即可容錯打開開關即可容錯PytorchPaddlePaddleDeepspeedMegatron如何降低
10、 Checkpoint 時間?19應用Flash CheckpointFlashCKPTFlashCKPT 并行內存寫入,快速完成checkpoint操作,提升整體有效訓練時長。業務可制定更細粒度的檢查點策略,從而降低故障恢復時間1秒千億大模型CKPT寫入3小時每日節省有效訓練時長訓練框架訓練框架同步寫MemoryMemoryMemoryNVME SSDNVME SSD同步close流式分塊上傳遠端遠端對象對象存儲存儲等待last part加速層加速層小時級小時級CKPTCKPT,容錯恢復時間長,容錯恢復時間長秒級秒級CKPTCKPT,更細粒度的打點恢復,更細粒度的打點恢復訓練框架訓練框架同步
11、寫MemoryMemoryMemory異步 close并行文件存儲并行文件存儲PFSPFS加速層加速層分布式,異步寫分布式,異步寫有效訓練時間有效訓練時間Checkpoint 等待Checkpoint 等待Checkpoint Checkpoint 容錯機制帶來了計算時間片浪費容錯機制帶來了計算時間片浪費傳統方案FlashCKPT03 大模型場景技術實踐運維21運維目標運維目標故障處理容量管理&優化任務性能調優集群資源視圖集群資源視圖(集群資源概覽,利用率、分配率變化&趨勢,任務資源概覽)節點資源視圖節點資源視圖(節點資源詳情、GPU分配/利用分析)任務資源視圖任務資源視圖(任務資源詳情、GP
12、U使用分析、Pod分配情況)任務性能大盤任務性能大盤(訓推吞吐指標,任務并行策略、性能關聯參數)任務收斂監控任務收斂監控&告警告警(監控任務loss收斂情況,異常報警)分階段指標分階段指標(診斷訓練分階段耗時,助力訓練性能調優)任務告警任務告警(變更告警、故障告警、閾值告警)任務穩定性大盤任務穩定性大盤(任務關聯的節點、組件,配套服務健康情況)發現發現快速快速定位定位根因排查根因排查(集群、任務事件,任務運行日志)根因根因排查排查智能排障建議智能排障建議(基于大模型的智能故障分析)輔助輔助止損止損故障定位時間小時級故障定位時間小時級-分鐘級分鐘級發現資源瓶頸提升分配發現資源瓶頸提升分配/利用率
13、利用率發現任務性能瓶頸,避免空跑發現任務性能瓶頸,避免空跑可觀測能力03 大模型場景技術實踐百度百舸架構和演進23智算平臺架構百度百舸大模型任大模型任務增強務增強百舸資源百舸資源池池CCE K8S集群 A800/H800/昆侖/升騰異構算力高性能分布式存儲PFS 萬卡RDMA網絡百舸組件百舸組件98.8%98.8%有效訓練時有效訓練時長長30%30%訓練吞吐提升訓練吞吐提升60%60%推理吞吐提升推理吞吐提升95%95%帶寬有效性帶寬有效性大模型大模型IOIO加速方案加速方案大規模鏡像P2P加速大鏡像預加載Flash Checkpoint大模型訓推任務加速鏡像大模型訓推任務加速鏡像高效并行策略開源大模型定制優化高性能算子高效顯存利用高性能訓推框架AIAI基礎組件基礎組件異構資源調度高性能存儲插件高性能網絡插件AIAI編排調度編排調度深度學習框架AI 任務編排任務工作流管理穩定性穩定性&容錯容錯多維