《科大訊飛:萬卡級超大規模智算集群網絡運維挑戰及實踐(23頁).pdf》由會員分享,可在線閱讀,更多相關《科大訊飛:萬卡級超大規模智算集群網絡運維挑戰及實踐(23頁).pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、萬卡級超大規模智算集群網絡運維挑戰及實踐鮑中帥科大訊飛基礎架構網絡總監 12年從業經驗,擅長大規模網絡架構設計及運維 業內第一個超大規模國產萬卡智算集群網絡架構師 亞太地區領先的人工智能企業數據中心網絡部門負責人鮑中帥公司職位基礎架構網絡總監GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站目錄大模型發展及國產化集群介紹萬卡智算集群運維關鍵痛點萬卡智算集群運維創新實踐GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站大模型發展及國產化集群介紹01GOP S全 球 運 維 大 會 暨 X Ops
2、技 術 創 新 峰 會 2 0 2 4 北 京 站GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站2022年11月30日ChatGPT正式發布上線2個月活躍用戶過億2023年3月15日發布GPT-411月7日發布GPT-4 Turbo當前用戶量突破17億認知大模型的“智能涌現”推動了通用人工智能的技術階躍2023年10月Gartner發布2024年十大戰略技術趨勢,到2026年將有超過80%企業使用通用人工智能2023年12月11-12日中央經濟工作會議強調:要大力推進新型工業化,發展數字經濟,加快推動人工智能發展2023年4月28日中共中央
3、政治局會議提出要重視通用人工智能發展2024年3月政府工作報告:深化大數據、人工智能等研發應用,開展“人工智能+”行動,打造具有國際競爭力的數字產業集群GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站國際大模型產業競爭目前呈現“激烈迅猛”之勢Meta重磅發布LIMA 65B并于7月19日發布免費商用開源模型LIama 22023.052023.112024.2.152023.122023.0314日OpenAI發布多模態大模型GPT-4,綜合能力遠超ChatGPTOpenAIOpenAI7日凌晨發布GPT-4 Turbo,六大升級,支持128
4、k上下文輸入,同時推出OpenAI應用商店GPT StoreGoogle首次發布Gemini 1.0,多模態能力效果驚艷,MMLU測試中首次超過人類專家Google發布了新一代多模態大模型Gemini 1.5 Pro,最高支持1000萬上下文長度,GSM8K評測全球第一2024.2.16OpenAI16日發布的文生視頻模型,其效果顯著超越了業界現有同類產品的水平2024.3.53月5日發布Claude 3支持200k上下文,更強的推理、數學、編碼能力AnthropicGOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站建成5個國產化云服務集群20
5、億次/日服務請求47%全網請求占比99.99%云端實時成功率5款+國產GPU芯片適配200個+底層算子優化50個+模型國產化移植模型試測缺失算子補充低效算子優化深度學習框架適配算法工具包聯調優化科大訊飛自2019年10月被美國納入實體清單以來,與華為等國產優秀AI芯片合作伙伴深度協同攻關加速國產AI芯片軟件生態建設,AI國產化取得重要進展,為突破美國大模型算力卡脖子奠定基礎語音輸入等不定長算子加速面向異構NPU的推理加速基礎算子庫和工具鏈異構國產算力調度和框架適配科大訊飛堅定投入和深度參與國產AI芯片軟件生態建設GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0
6、2 4 北 京 站復雜版面的高精度解析覆蓋更多領域的專業符號識別融合篇章語義的文字識別覆蓋31個場景、18類關鍵要素面向教育、醫療等專業領域深度優化基于篇章上下文端到端建模89%84%83%83%FUNSD星火圖文識別大模型訊飛基線微軟Google典型應用場景圖文識別效果英文公開測試集圖文識別效果94%95%91%91%92%88%91%93%90%88%91%85%科研金融產品文檔星火圖文識別大模型訊飛基線GPT-4V國內最優測試結果來源:根據英文公開測試集FUNSD測試結果來源:根據圖文識別實際應用場景構建測試集STDOCR-EVAL-V1.0國際領先的星火圖文識別大模型GOP S全 球
7、運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站集群算力資源利用率5分鐘完成千卡診斷業務價值算力資源利用率95.7%教育醫療辦公1個通用認知智能大模型汽車賦能“1+N”認知智能大模型業務產出業務情況萬卡智算集群運維關鍵痛點02GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站10000+張計算加速卡500+臺交換機設備30+臺存儲設備30000+根光纖萬卡算力集群,系統復雜、規模大、層次多萬卡算力集群組網拓撲萬卡
8、算力集群設備概況GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站不同于通算,大模型訓練任務對于網絡要求苛刻34%的訓練中斷是由網絡引起22.1126.5570.59%68.67%57.19%10.00%4.79%0.00%60.00%50.00%40.00%30.00%20.00%316.7670.00%80.00%0.0050.00200.00150.00100.00250.00300.00350.0021.511.00E-050.01%0.10%1%RDMA的丟包重傳機制將導致帶寬利用率快速降低,當丟包率達到千分之1時,訓練效率降低明顯
9、動態時延提升將導致GPU利用率明顯下降,AI訓練應用的優化、網絡拓撲配置以及擁塞控制機制是關鍵因素 在超大規模集群中,34%的故障是由網絡引起,其中光模塊問題最為突出丟包率對于訓練效率的影響21.4421.7322.9724.5333.8670.79%69.88%66.09%61.90%58.28%26.082574.943%60.00%50.00%44.84%40.00%30.00%20.00%10.00%0.00%70.00%80.00%4035302520151050101005001000150020004000不同動態時延對訓練效率的影響訓練時間(天)GPU利用率超大規模集群故障原因
10、分布訓練時間(天)GPU利用率GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站情境場景信息:(1)兩側設備人為動作感知,如接口上下電|新插入模塊(2)接口syslog,如OpticalRemoveActivate等故障模式識別光模塊數據特征工程異常特征挖掘針對時間維度的故障時序特征進行檢測與識別光模塊指標信息到空域、譜域等特征空間提取滯后性光模塊指標日志信息2 時序異常特征檢測閾值法亞健康監控(小時級)微觀通道差異特征全量過濾初篩方案流程光功率恒定-40未達閾值恒定-3dbm左右存在差異算法識別到分布差異、但暫未判定為故障識別到功率到-40、
11、不符合閾值故障模式特征宏觀時序動態特征識別結果10.254.11.193|400GE1/0/2410.254.11.194|400GE4/0/281、千卡集群運維情況穩定,算法未上報光功率異常伴隨的模塊故障模式2、光功率閾值法共初篩出兩種類型時序異常特征:其一:恒定-40dbm的光模塊持續down狀態,不符合臟污松動特征:其二:不同通道光功率存在明顯差異,屬于現網穩定態下需要關注的時序特征1 初篩3 故障模式識別聯合創新光模塊故障預測及分析方法,任務影響環比下降約70%萬卡集群運維創新實踐03GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站G
12、OP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站算力集群穩定運行,持續提升有效訓練時長痛點 光鏈路閃斷問題檢測 算力集群訓前健康檢查 深度巡檢需求風險預防能力要求故障處理變更動網長穩訓練 跨層跨域快速定界定位 故障快速恢復 NPU、光模塊快速更換 訓練集群性能抖動定位 升級效率提升 斷點續訓持續增強 黃金指標光鏈路閃斷NPU更換復雜HBM ECC問題升級部件多、時間長無故障預測能力自動化、工具化診斷能力弱GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站通過明確的指標和評價方法,從多個維度和角度
13、來觀察和分析算力領域的各個因素,全面了解和評估算力領域的運維狀況。通過建立一套算力度量指標體系標準,綜合考慮訓練平臺、軟件、算力集群、基礎設施等因素,為算力規劃和發展提供科學依據??蚣荏w系體系標準圍繞訓練作業流,通過對各個節點進行量化,構建指標樹和度量模型,為制定相應的措施提供依據。指標定義通過業界的洞察,明確影響訓練中斷的故障因子,為持續提升訓練任務時長做準確輸入故障因子算力集群由“建好”到“用好”,結合指標定義,實現持續“提升可訓練時長”智算運維評價指標體系GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站單機多卡萬卡集群,系統級可靠性“斷
14、崖式”降低單機多卡.%#=.%假設單卡可靠性99.99%,10K+的集群,近10W+光模塊,上千萬算子,上百套軟件適配,硬件/軟件/算子/通信,持續不斷的集群穩定性問題 通信異常導致任務中斷,網卡故障,訓練過程中網絡超時報錯 npu異常告警,任務運行19小時后,節點故障,中斷報錯 npu故障導致作業無法下發 光模塊端口故障,任務運行中斷 超算局點沒有更新,發包更新后問題修復.算力集群可用率評估:高效長穩,千卡訓練,?天訓練不“中斷”千卡集群集群全系統可靠性理論系統可靠性指標定義集群可靠性,形成服務可承諾指標系統建??茖W建立網絡-協議-調度-訓練的系統關系,指導定位分析穩定業務?;罨谀繕?,建立
15、快速恢復?;顧C制,業務影響為“0”重新定義,科學建立AI集群可靠性模型模型訓練中斷 =經濟損失算力集群業務?;頕ullmesh 全鏈路探測,問題診斷與發現通信故障,快速路徑選擇與調整,避免二次擁塞等設備故障,最小冗余下業務?;頒heckpoint斷點重訓“故障注入”,軟硬件故障注入,模擬測試網絡內部各類訓練任務的穩定性算力集群隱患預估網絡拓撲、路由策略、流的調度等穩定網絡結構設計,應對網絡癱瘓、死鎖、擁塞等問題消息聚合/網絡流量優化,減少跨機箱傳輸,高效的帶寬利用基于全系統可靠性理論,制定智算集群可靠性保障指標體系GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0
16、 2 4 北 京 站運維體系建設舉措大規模計算/存儲/網絡設備,集群組網,跨產品難以定位;海量光纖/模塊問題難排查跨層跨產品問題難定位運維技能和人力問題算力集群運維難度大,人員技能要求高,人力不足AI訓練要求故障快速恢復算力集群故障,會導致模型重訓或斷點續訓,需要快速恢復故障當前運維痛點運維體系對智算的適配面向AI業務的服務SLA/KPI考核組織定位與分工協同運維流程適配工具平臺重構故障定界定位問題管理變更管理巡檢與主動維護能力導入/技術培訓具有技能的人力補充工具平臺能力補齊運維基線構建事前、事中、事后運維能力建設指標體系和工具面臨重構責任分工界面、指標體系需重新梳理,支撐全新AI訓練需求和挑
17、戰智算集群運維痛點多樣化,組織、流程和工具均須突破 GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站流程增強點聯合二線運維:與原廠駐場保障團隊協同,包括故障、問題、變更、重客保障、技能傳遞,保障斷點續訓等業務問題快速解決12原廠三線直達接入:專屬技術團隊VIP 受理&處理問題,并提供重點問題分析報告備件管理服務:AI精準預測與補庫,小時級派送=4H,7*24響應,專業人員進行現場備件更換,保障備件快速響應原廠三線直達&VIP TAC增強客戶運維團隊/駐場工程師技術服務請求發起專屬專家VIP受理(優先接入,專屬團隊)現場支撐故障通告及提問題單制
18、定方案支持實施備件管理及更換技術服務請求關閉問題分析報告(高頻、共性問題分析)跟蹤或加速CSMVIP TACR&D資源協調War Room協助支撐確認解決增強點增強點增強點3運維流程融合、問題工單直達原廠組織流程變革,構建符合智算特點的融合型團隊 GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站方案培訓實施方案培訓運維流程培訓問題處理、變更流程管理系統培訓CCAE使用、故障診斷等計算產品培訓Atlas800日常維護網絡產品培訓CE交換機日常維護存儲產品培訓OceanStor日常維護整體網絡詳細設計文檔計算萬卡集群驗收測試報告-計算、資產信息表
19、-計算、巡檢報告-計算、計算產品文檔網絡數通產品驗收報告、萬卡集群網絡運行資產表、數通巡檢報告、數通產品文檔存儲存儲測試報告、存儲資產運行表、存儲實施巡檢報告、存儲產品文檔跨領域、全人員多輪次培訓賦能80+人次;46個深化設計文檔、驗收測試報告、維護指導、產品技術文檔等;培訓賦能建設運維知識庫內存故障硬盤故障電源故障NPU故障光模塊故障性能降低分布式訓練故障丟包故障PFC死鎖故障主控板故障接口板故障交換網板故障端口流量異常光模塊故障主存硬盤故常故障BBU模塊故障風扇模塊故障接口卡/光模塊故障節點故障故障處理知識沉淀涉及計算、網絡和存儲三個產品,共計398個故障場景指導賦能、建設及沉淀,提升團隊
20、面對智算領域的運維能力GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站總體方案:構建AI訓練平臺/計算/存儲/網絡統一運維數據池,訓練任務ID及通訊關系,結合網絡可視化還原實際傳輸路徑并關聯時間、對應鏈路、設備的數據。利用AI算法做跨域數據關系耦合及故障根因定位。集群環境檢查創建AI訓練任務AI業務子系統智訓平臺K8S調度器智管平臺集群健康度API一鍵健康檢查存儲設備檢查項昇騰節點NOS訓練容器運維Agent昇騰節點NOS訓練容器運維Agent訓練節點NOS訓練容器運維Agent作業運行前后觸發管理員運行前調用作業運行前檢查整體流程啟動業務健
21、康檢查覆蓋的具體檢查項:檢查項類型故障模式檢查類別NPU健康檢測芯片、驅動健康狀態,軟件硬件兼容性,RoCE網卡狀態,殘留進程等例行檢查網絡質量檢測mac地址沖突檢測,網絡閃斷檢測,網絡典型故障檢查檢查例行檢查環境一致性檢測軟硬件版本、RoCE配置參數、本地和共享存儲容器檢查、網絡配置致性檢查例行檢查關聯設備告警檢查(覆蓋200+硬件告警)關聯交換機、計算、存儲節點等告警檢查例行檢查性能檢測NPU算力測試、帶寬測試、HBM測試、功耗測試、HCCL帶寬測試、leaf交換機內帶寬測試、RoCE網絡連通性檢測深度檢查網絡存儲計算網絡設備檢查項計算設備檢查項異構廠商華為算存網一體、任務級智算運維平臺;
22、任務劣化感知、故障定位效率縮短至分鐘級應用場景:集群例行檢查:作業啟動前觸發調用,1分鐘內完成檢查;集群深度檢查:整集群維護場景下,針對集群環境全量檢查,覆蓋關鍵資源的性能測試,3分鐘完成基礎性能測試,10分鐘完成深度性能測試AI廠商GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站當前挑戰1器件多、庫存配比管理困難2重量大拆裝運輸難3維修環境人員要求高大模型對于訓練的連續性要求高,備件快速響應的訴求強單節點風險高:單平面(服務器NPU卡無冗余備份)、單鏈路(Leaf交換機和服務器之間鏈路無冗余)故障會造成整個訓練中斷設備結構復雜,部件種類及數
23、量多,對庫存管理、派送、維修環境要求更高結構復雜:部件種類、數量,約為X86、鯤鵬通算設備的2倍子類昇騰X86鯤鵬昇騰 vs X86昇騰 vs 鯤鵬單臺部件種類(標配)241317+85%+41%單臺部件pcs數(標配)844047+110%+79%重量大:拆裝對人員工具要求高,有人身安全事故風險整機 75公斤,拆裝安全等級高;NPU更換,容易引起碳化風險,人員要求高;備件先行接收到服務請求后即啟動好件派送,壞件延后提取SLA能力小時級派送98%)平衡安全與成本投入備件倉儲借助廠家庫房體系,精準補庫服務內容協同廠家備件管理服務機制可視化集成IT系統小時級派送7*24h 單一接口集成的華為備件管
24、理IT系統(iCare-SPM)全球視角移動APPWeb-界面實時監控自動預警端到端可視備件需求KPI指標控制服務績效管理信息及投訴運營商7*24H 響應Web-basediCareSPMS 運作中心備件返修服務交付管理及問題升級管理訂單受理報告備件提供庫存與倉儲備件計劃派送和提取介質保留SPMS 本地交付(本地倉庫+E棧提供最快2小時的派送能力)E棧本地倉庫國家備件物流中心全球/區域備件物流中心供應中心維修中心一線維護算力中心A-N構建3級備件響應體系,匹配智算容災管理需求GOP S全 球 運 維 大 會 暨 X Ops 技 術 創 新 峰 會 2 0 2 4 北 京 站Thanks高效運維社區DevOps 時代榮譽出品