《2019年阿里巴巴海量服務器下的基礎運維智能化實踐.pdf》由會員分享,可在線閱讀,更多相關《2019年阿里巴巴海量服務器下的基礎運維智能化實踐.pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、GOPS 全球運維大會2019上海站GOPS 全球運維大會2019上海站阿里巴巴海量服務器下的基礎運維和智能化實踐GOPS 全球運維大會2019上海站目錄業務介紹1整體架構2安全運維3智能化之路4GOPS 全球運維大會2019上海站我們是誰?一套自動化數據中心管理系統,管理數據中心中的軟硬件生命周期,各類靜態資源編排,基礎軟件的版本和發布GOPS 全球運維大會2019上海站解決什么問題GOPS 全球運維大會2019上海站設計理念設計理念l 終態系統:當前態向終態逼近,假設失敗會在任何地發l 吞吐和可靠:熱備,快速服務切換能力l 穩定性和魯棒性:即使天基系統癱瘓也不能影響管理的服務l 版本維護,
2、天基運維天基:部署,從到有部署天基的能飛天智能運維平臺系統最核心的設計,業務聯動的監管控一體化安全運維以及恢復機制和變更機制的統一l 聲明式(Declarative)變更。無論是配置變更,還是軟件升級、硬件變更,都是通過一個格式化的說明文件來提交。這個對于避免人工失誤是非常有效的。l 變更、恢復和修復機制的統一:面向終態的設計使得這三類操作采用同樣的機制。l 集成的監控機制:自動發現故障運維系統要解決的問題:l能夠最大化的無人干預,信息化-自動化-智能化l穩定安全,能夠盡量避免人工失誤,并且在失誤或故障發生的情況下,能快速進行恢復GOPS 全球運維大會2019上海站目錄業務介紹1整體架構2安全
3、運維3智能化之路4GOPS 全球運維大會2019上海站Region化GOPS 全球運維大會2019上海站不做100%可用的假設,不能因為中心服務不可用,而影響別的服務版本兼容和自管理相鄰三個版本之間必須保證向下兼容版本和升級自維護,自己運維自己減少單點故障master存狀態,其他模塊無狀態,可重入每個模塊功能設計盡量簡單確定信號觸發確定行為輕量快速的服務狀態檢查Monitor狀態機反饋,監管空一體化自包含:Package Model,減少對環境的依賴,易于清理分布式設計?TianjiAdaptorECS Yaochi?TjMaster On Paxos GOPS 全球運維大會2019上海站變更
4、變更定義:通過平臺進行的軟件部署、版本升級、配置變更、擴容、縮容等操普通模式:所有的機器同等對待,審批之后開始升級。金絲雀模式:先選兩臺機器,試著升級,成功了再升級剩下的。grayunit模式:灰度升級,用戶可以自定義灰度策略?;瑒哟翱谀J剑鹤远x機器升級并發數,保證任意一個時刻,升級機器不超過并發數非安全模式:不考慮服務可用性,所有的機器直接升級Adaptor業務灰度模式:天基 品 用戶 提交發布 查詢批次 返回機器 GOPS 全球運維大會2019上海站灰度模式普通 金絲雀 grayunit 滑動窗口 Adaptor業務灰度GOPS 全球運維大會2019上海站灰度模式普通 金絲雀 grayu
5、nit 滑動窗口 Adaptor業務灰度GOPS 全球運維大會2019上海站灰度模式普通 金絲雀 grayunit 滑動窗口 Adaptor業務灰度GOPS 全球運維大會2019上海站灰度模式普通 金絲雀 grayunit 滑動窗口 Adaptor業務灰度GOPS 全球運維大會2019上海站灰度模式普通 金絲雀 grayunit 滑動窗口 Adaptor業務灰度GOPS 全球運維大會2019上海站自愈系統應用系統機器整機替換離線修復故障注入在線修復機器機器系統機器HealingServiceRepairServiceReplaceServiceChaosManager自愈領域自愈范圍負責服務G
6、OPS 全球運維大會2019上海站自愈實現方式發現問題決策修復動作MonitorState1.基礎硬件monitor2.應用上報1.按照規則觸發修復action2.quotamanager3.action manager4.action translatorServiceDecider1.對action進行審批2.simple decider3.custom decider1.x_labor2.xx_labor3.xxx_laborLaborGOPS 全球運維大會2019上海站目錄業務介紹1整體架構2安全運維3智能化之路4GOPS 全球運維大會2019上海站Infrastructure as
7、Code 通過配置文件定義一切 一切變更都是基于code review的configuration change 通過服務模版方式管理版本和配置 服務在不同集群之間版本配置盡量保持一致 終態 不管當前狀態,向終態前進 安全運維三駕馬車:Monitor+狀態機+Decider 踐行devopsGOPS 全球運維大會2019上海站 角色實例 Monitor 產品根據自身CheckHealth結果匯報的信息 角色實例 KeyMonitor 用于處理check_health_app本身異常,無法匯報信息的情況 機器 Monitor 對服務器進行監控產生的監控信息MonitorGOPS 全球運維大會20
8、19上海站狀態機GOPS 全球運維大會2019上海站 Simple Decider 應用通過定義百分比的方式實現Decider邏輯,天基根據百分比自動審批 Custom Decider 應用自己實現邏輯,通過天基API與天基交互 Adaptor Decider 應用按要求提供openApi,天基負責調用DeciderGOPS 全球運維大會2019上海站目錄業務介紹1整體架構2安全運維3智能化之路4GOPS 全球運維大會2019上海站?所有操作線上化規范,效率,數據積累過程結果數字化透明,可衡量,智能化的基礎分析決策智能化準確,高效,全局優化?自自動化動化數字化數字化智能化智能化GOPS 全球運
9、維大會2019上海站?GOPS 全球運維大會2019上海站?集群和服務器智能化運維集群和服務器智能化運維大規模計算系統大規模計算系統供應鏈智能化供應鏈智能化數據中心智能化運維數據中心智能化運維供應鏈智能化整體方案:針對供應鏈特點,打造需求、運營、分析、決策智能化方案 實現數據驅動、基于算法的需求預測、庫存優化、TCO分析和優化自動閉環環境:打通自動化工具和系統平臺與智能化算法的閉環系統 為未來進行先進AI算法和系統探索、部署奠定基礎 針對數據中心電熱性能進行優化包括:冷量預測控制、Power預測控制、IDC電熱感知、PUE優化等 對現場運維進行智能化改造包括:多媒體信息處理巡檢、安防視頻識別、
10、工單智能派發等集群智能化方案:提升集群和服務器的穩定性和可靠性包括:服務器和部件故障預測,跨域關聯,根因分析,規則生成 提升集群資源利用率和流轉率包括:集群資源異常檢測,關聯分析智能決策GOPS 全球運維大會2019上海站集群資源智能探查 集群利用率異常檢測 低水位和閑置智能判斷和預警服務器&部件故障預測智能管理&修復 集群自動管控 故障智能化在線修復決策集群和服務器智能化布局 硬盤故障預測 內存宕機故障預測 根因分析實現從專家規則-智能分析的演進實現問題和故障的處理方式,從被動響應-主動發現-提前預測?GOPS 全球運維大會2019上海站集群資源智能探查 集群利用率異常檢測 低水位和閑置智能判斷和預警服務器&部件故障預測智能管理&修復 集群自動管控 故障智能化在線修復決策集群和服務器智能化布局 硬盤故障預測 內存宕機故障預測 根因分析實現從專家規則-智能分析的演進實現問題和故障的處理方式,從被動響應-主動發現-提前預測?