《馬旭華-大規模節點故障預測技術實踐-v2.pdf》由會員分享,可在線閱讀,更多相關《馬旭華-大規模節點故障預測技術實踐-v2.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、大規模云計算下節點故障預測AIops技術實踐馬旭華 阿里云演講嘉賓馬旭華阿里云高級技術專家負責彈性計算產品的異常智能預測體系團隊,負責AI算法在彈性計算產品穩定性體系的算法工程體系研發,聚焦于故障預測技術,受損感知,異常檢測等領域的AIops系統研發目 錄CONTENTS1.大規模節點故障預測的背景&問題定義2.大規模節點故障預測的問題(數據/算法/工程)3.大規模節點故障預測實踐4.總結與展望大規模節點故障預測的背景&問題定義PART 01背景 彈性計算產品介紹又名云服務器ECS(Elastic Compute Service)云計算最核心基礎IaaS服務之一 讓大家像使用水、電、天然氣等公
2、共資源一樣便 捷、高效地使用服務器,實現計算資源的即開即用和彈性伸縮 ECS穩定性目標:用x86的硬件,提供小型機級別的穩定性 現實目標體感可用率體感可用率小型機X86服務器10X小型機X86服務器ECSX86ECS平臺VMVMVM熱遷移識別問題 宕機,夯機,抖動現象:ECS資源100%不可用,多數因基礎設施、服務器硬件或底層軟件 原因導致。影響:所有未持久化的數據和配置都將丟失,該ECS實例上的業務將完 全中斷?,F象:ECS資源服務時斷時續,甚至某些核心功能不可用或無法連接和 操作。如:OS 夯,IO hang等。影響:未持久化數據尚未丟失,但整個ECS幾乎無法使用,有時甚至無法恢復、沒有備
3、份的機會?,F象:ECS資源核心服務可以正常使用,但在極端情況下會出現網絡或 性能抖動。影響:著重影響抖動敏感用戶,性能抖動可能導致用戶壓測等容量規劃 付之東流,甚至可能因抖動引發用戶應用系統雪崩效應,導致整體業務中斷。宕機夯機抖動定義算法問題 Fault/Error/Failure predictionFault predictionFailure prediction標簽簡單標簽難度大靜態runtime狀態變化突發性實時性需求低實時性要求高硬件傳感器數據依賴full stack數據Failure Prediction:節點Failure預測(宕機,夯機,性能受損)Error Predicti
4、on:UE(內存、PCIe、CPU)Prediction Fault prediction:硬件失效預測(內存,Disk Fault Prediction)大規模節點故障預測問題(數據/算法/工程)PART 02AIops工業落地需要解決的問題提升問題可解上限(數據質量,數據覆蓋率)提升業務場景覆蓋面(算法架構,算法工程系統)業務場景數據算法&特征算法工程業務問題算法問題面積=業務價值數據建設的問題與挑戰:數據質量和復雜度質量:算法“可用”的數據復雜度:橫縱向技術棧機器覆蓋率(采集一致性,發布效率)特征數據覆蓋率(平臺差異,特征精細度)數據準確率(標簽,數據清洗)現狀:業界無開源數據集,技術棧
5、復雜,需要大規模環境下下長期積累算法面臨的問題與挑戰:適配故障預測問題的算法框架缺失現狀與問題:改造問題與數據來適配算法框架特征工程復雜度高/可復用性低樣本極度不均衡算法可解釋性節點故障預測圖像處理NLP同質數據:單詞數據維度:一維序列特性:局部相關性/遠程相關性,位置敏感同質數據:像素數據維度:2/3維特性:局部相關性/平移/縮放不變性多模態泛時間序列預測問題異質數據:單詞/數值序列/異常特征數據維度:多維(遠3維)特性:局部相關性/遠程相關性多模態/時間敏感設計算法框架適配故障預測問題算法工程系統的問題與挑戰:實時性,數據污染,風險控制大規模下預測實時性要求高(延時需求,計算復雜性,規模)
6、算法迭代(模型退化),上線的準確性評價(誤預測結果污染標簽導致性能衰退)“黑盒”模型,大規模運維風險控制 Reference from“Hidden Technical Debt in Machine Learning Systems”大規模節點故障預測實踐PART 03數據采集系統-full stack數據&高準確率標簽CPU內存主板電源/風扇OS日志Kernel日志coredump資源隔離虛擬化組件云網絡組建管控運維組建CIPU組件塊存儲組件.硬件故障資源爭搶服務器掉電.網絡設備異常IDC環境異?;A設施工單.實例crash心跳異常實例hang.資源爭搶IO Hang網絡延時高.硬件OS內
7、核IDC物理網絡服務器層基礎設施層.功耗溫度供電暖通網絡丟包網絡延時交換機帶寬狀態.飛天核心組件層服務器維度基礎設施維度實例維度飛天核心組件維度異常特征提取根因診斷&標注專家知識異常規則多維度特征關聯分析特征關聯聚合故障根因專家庫ECS Fault DB異常特征ECS 業務受損IDC服務器內核網絡OS壓測診斷RAMOS診斷壓測復現廠商FA工單工單分類工單清洗值班診斷實時數據&特征高準確率標簽故障預測數據集診斷/客戶服務Full stack原始監控數據采集異常數據監控診斷&根因定位數據服務2高準確率標簽1Full stack數據&專家特征數據采集系統標準輸出到軟硬件協同數據定制硬件BIOS/BM
8、C虛擬化/內核VMCPU芯片定制(CE/MCA/ECC.etc)DDR4/DDR5(on-die ECCetc)CIPU定制FPGA/主板 etc流式數據上報Kernel first(CMCI,threshold.etc)資源利用率實例crash實例異常實例抖動Error addr全棧性能監控數據錯誤處理路徑埋點(CE/UE)發布/變更軟硬協同數據上報技術體系提升數據特征表達能力 軟硬結合的數據定義&標準 更精細,更準,更快異常數據上報 Full stack異常數據內存錯誤數據精細化示例CE事件粒度CE cell 粒度CE ECC bit 粒度節點故障預測算法實踐-自研算法架構宿主機發生CE風
9、暴硬件異常告警管控請求NC超時CPU負載陡增嚴重hang機超時Ping mesh超時 Model Transformer etc.Model CNN etc.故障預測通用框架-TAATor模型框架模型輸入數據輸出原始數據多模態時序預測TAAT-MoETAAT-XLTAAT-group embeddingTAAT-預訓練節點故障預測算法實踐-模型框架Hardware Fault PredictionNode Failure Prediction宕機預測模型(覆蓋cpu,內存,主板,內核,虛擬化等引入宕機的預測)夯機預測性能受損預測可穩定服務預測異常Ranking模型硬盤故障預測內存UE預測模型內
10、存故障預測CPU故障預測主板故障預測硬盤壽命預測GPU故障預測 TAAT TAAT+Ranking規則挖掘算法專家經驗+規則Xgboost(多分辨率時空間特征),Transformer等算法框架預測模型場景策略高提前量:提前通知+無感風險消除高準確率:實時規避宕機高召回率:無感風險消除實時故障預測實踐-實時數據-特征工程鏈路在線離線融合SLSBlink離線數據歷史數據靜態數據冷數據靜態數據編碼歷史數據預計算熱數據數據融合實時數據清洗NC數據采集NC數據采集日志性能傳感器數據加工預測觸發器觸發事件定義觸發策略實時特征計算實時特征數據庫冷熱特征融合Dry run系統多模型實時旁路預測性能評價性能退
11、化預警特征計算監控告警特征計算特征算子特征編碼實時預測運維系統實時故障預測彈性擴縮容負載均衡數據樣本數據集特征數據故障標簽3實時dry run系統,提升算法迭代效率1觸發式+冷熱特征融合,降低計算延時2特征一次計算多次復用數據集大規模節點故障預測系統實踐完整-自閉環故障預測體系ECS采集系統業務內核硬件實時故障預測特征數據故障標簽模型訓練宕機事實驗證異常調度系統自然宕機模擬負載部件壓測廠商FA深層輪轉主動運維熱遷移異常隔離實時受損感知故障標簽反饋數據底座模型生命周期管理數據鏈路(實時/離線)評價體系模型runtime預測算法模型ECS領域大模型自研故障預測框架(TAAT)運維決策最佳運維窗口決策實時受損預測流控dryrun硬件故障預測HDD/SSD/內存/主板/CPU.etc宕機預測宕機預測實時特征計算特征算子特征編碼樣本生產預測觸發器事件/定時UE預測性能受損預測10年百萬服務器精準打標實時故障預測(完善的運維策略,完備的上線保護)精確無感規避(實時受損預測與檢測)自閉環(持續迭代的基礎)PART 04總結與展望總結與展望完整、自閉環的大規模云計算節點故障預測技術體系AIops算法體系優化多模態泛時序預測算法-開放數據集基于大模型的故障預測技術實時故障預測算法效率的持續優化軟硬協同的故障預測技術軟硬協同的異常上報標準基于軟硬協同數據的故障預測技術展望THANKS