《2024龍蜥大會生態案例分論壇:Anolis OS基于國產硬件平臺AI大模型部署實踐-紀笑旭.pdf》由會員分享,可在線閱讀,更多相關《2024龍蜥大會生態案例分論壇:Anolis OS基于國產硬件平臺AI大模型部署實踐-紀笑旭.pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、Anolis OS基于國產硬件平臺AI大模型部署實踐中科曙光系統工程師紀笑旭大模型概述大模型應用模式大模型應用場景大模型帶來的挑戰0101國產硬件平臺解決方案國產加速卡一覽某國產硬件平臺AI生態全場景解決方案0202應用實踐案例大模型研發集群訓練調優國產化替代0303大模型概述來自DataLearner:https:/ TextOutput TextDecoder+DecoderInput TextFeaturesEncoderInput TextOutput Text僅保留Decoder解碼器僅保留Encoder編碼器EncoderDecoder全部保留大模型應用模式模型開發Pretrain
2、預訓練場景適配Finetune微調應用部署Inference推理大規模分布式訓練網絡和存儲優化云上資源為主專用數據低參數調優專有資源為主離線/在線部署推理調優專有資源為主專用大模型領域大模型通用大模型大型通用數據集小型專業數據集數據集參數量算力需求垂直方向通用方向AI大模型部分應用場景Suno文生音樂大模型智能搜索大模型CPM-Bee智能問答證券助理大模型SD文生圖大模型DriveGPT標注大模型Sora文生視頻大模型門診病歷生成大模型大模型帶來的挑戰01 算力02 高效訓練03 穩定性04 生態支持 在保證充足算力的基礎上,大模型訓練收斂周期長,為了縮短訓練周期,快速迭代,減少開發成本,必須
3、要提升算力利用率。影響算力利用率的因素,包括通信,存儲,并行實現,模型優化,算子優化等 隨著大模型向更加通用發展,模型參數量越來越大 研究表明模型和訓練數據的大小是決定模型能力的關鍵因素 數據量越大,參數數量越大,算力需求越高 在大規模訓練中,集群龐大,準確性要求高,冗余成本高昂,對穩定性的要求高 大規模訓練中要求相應的計算卡、存儲硬件、通信組件、軟件框架以及操作系統等具有極高的穩定性 大模型在不斷變得更?;蚋ㄓ脮r,對服務能力和應用生態要求在不斷變高。大規模訓練中,需要高效便捷的數據處理,調試調優,應用生態和服務支撐能力國產硬件平臺解決方案國產加速卡廠家一覽國外GPGPU國產GPGPU國產N
4、PU某國產硬件平臺AI生態安防領域智能交通智慧零售智慧醫療智慧工業智慧國土精準營銷金融風控樣例程序:提供多個領域的訓練及推理例程;圖像分類目標檢測圖像分割自然語言處理推薦算法語音算法容器編排:提供異構加速卡K8S plugin及多個鏡像;深度學習框架:兼容多個國內外深度學習框架;MIGraphX組件庫:兼容多個國內外第三方組件庫;DeepSpeedApexMMCVFastMoeTorchVisionHorovodDetectron2CenterNet基礎數學庫:針對異構加速卡深度優化的基礎數學庫;BLASDNNFFTRANDSPARSE基礎通信庫:分布式通信;RCCL UCX三方庫:常用數學庫
5、;Eigen MagamaTHRUST SOLVER CUB PRIM TRACER操作系統:AnolisOS/CentOSUbuntu麒麟統信方德等容器/虛擬化:支持虛擬直通及Docker容器化運行時系統:異構加速卡程序運行的高效運行時系統,兼容CUDA、HIP生態;編譯系統:提供基于異構加速卡高級語言(類CUDA)的編譯及優化;Source?Code?(.cpp)Device?Source?CodeKernel?ISA?ObjectHost?.cppKernel?ISA?BinaryHost?.odevice compilerFat BinaryDCU CodeCPU Codedevice
6、 linkerHost?a.outhost compilerhost linkerDCU ObjectCPU ObjectFat Relocatable監控分析系統:提供異構加速卡的監控及分析,協助瓶頸定位及優化分析;異常分析及調試系統:支持異構加速卡程序的日志分析及調試;國產芯片:X86/ARM等國產加速卡:異構加速卡國產整機廠商:浪潮/H3C等曙光高端計算與人工智能全場景覆蓋解決方案高端計算系統高速網絡計算/存儲網絡國產異構加速卡節點國產異構加速卡節點國產異構加速卡集群作業需求統計、提交根據不同的大模型加載并分發所需的容器鏡像及數據集根據作業卡的需求、作業優先級分配資源作業過程統計GPU節
7、點GPU節點GPU集群登錄節點(CPU)高速網絡GPU集群獨立網絡SoThisAI人工智能管理平臺應用服務算法模型框架集成鏡像管理數據集數據標注數據集數據集結果數據結果數據云、容器管理K8S資源調度SLURM數據集數據集結果數據結果數據GridView高端計算管理平臺資源管理作業分配集群監控3D可視化賬單統計調度策略作業需求統計、提交資源調度SLURMAC統一運維管理平臺AI管理高端計算管理用戶登錄高端計算獨立網絡應用實踐案例 國產化自主研發,快速提供全球范圍天氣預報服務 針對地球特征的算法優化,提升混沌大氣特征融合學習的能力 分鐘級的預報效率,助力災害性天氣應急響應速度 天氣預報效果達到國際
8、領先水平 國產化自主研發,集合訂正優化數值預報產品 融合NWP+AI預測優勢助力中長期預測潛力 自主研發技術解決邊界和高分辨率預測難度問題中長期預報中長期預報應用賦能應用賦能transformerUNet3DPost-processPre-process模型模型驅動驅動基于國產芯片的統一異構計算架構芯片驅動場景賦能場景賦能煙草煙葉長勢研判景區天氣預測能源風能發電預測農業作物長勢研判國產異構加國產異構加速集群速集群基于國產異構加速卡研發的氣象預報大模型訂正預報訂正預報某國產大模型國產異構加速卡高擴展性支撐“大模型”訓練調優基于國產異構加速卡的訓練調優基于國產異構加速卡的訓練調優代碼遷移訓練模型并
9、行調優提供數千個節點、近萬塊加速卡,按需滿足用戶訓練要求。協助用戶完成在國產異構加速生態的代碼遷移、訓練并行效率調優某國產大模型,總共2000億參數,涉及模型并行/流水線并行/數據并行等多種并行化策略模型在多任務設定下使用字符級、句子級和文檔級的預訓練目標結合以進行訓練數據集為客戶自定義數據集最高實現6000(24000卡)節點擴展Loss值下降曲線正常節點擴展能力接近線性模型情況實現效果01234567501500200030004000加速比節點數量理論與實際加速比曲線圖理論擴展實際擴展國產異構加速卡與阿里云某部門基礎合作以某智算項目建設為契機,國產異構加速卡整機產品完成與客戶業務的適配,
10、阿里專有云重資產引入國產異構加速卡機型嘗試商業化輸出需求特性需求特性國產化替代A100異構加速卡能力異構加速卡能力某客戶部門某客戶部門客戶部門業務產品客戶部門業務產品穩定供貨的穩定供貨的A100A100國產化加速卡替代國產化加速卡替代國產異構加速卡整機國產異構加速卡整機雙精度算力、全場景覆蓋雙精度算力、全場景覆蓋生態完善,遷移成本低生態完善,遷移成本低技術適配:技術適配:OS/K8S/PAIOS/K8S/PAI某國產大模型龍蜥Anolis8.4 4.19.91-23.4.an8.x86_64操作系統操作系統調度組件調度組件K8S plugin網絡、集群網絡、集群客戶已適配組件:客戶已適配組件:下一步計劃項目合作產品合作+阿里某部門主要的業務是為用戶提供高性能AI訓練推理所需的異構算力服務,可以為用戶提供穩定供貨的A100由于由于特殊原因特殊原因,尋求可用易用的國產,尋求可用易用的國產異構異構加速卡替代加速卡替代。曙光很近理想不遠