《數字化安全生產平臺DPS重磅發布助力傳統運維向SRE轉型 - 周洋.pdf》由會員分享,可在線閱讀,更多相關《數字化安全生產平臺DPS重磅發布助力傳統運維向SRE轉型 - 周洋.pdf(16頁珍藏版)》請在三個皮匠報告上搜索。
1、數字化安全生產平臺DPS重磅發布周洋阿里云智能資深技術專家,高可用架構負責人助力傳統運維向SRE轉型Contents目錄01安全生產的理念和價值02數字化安全生產平臺(DPS)發布場景一:分布式系統面臨穩定性保障新挑戰分布式技術蓬勃發展知名互聯網故障流量防護應用多活混沌工程可觀測ACOS近年來,雖然穩定性關注度日益提高,新技術蓬勃發展,重大故障依然頻發且影響巨大。技術的不恰當使用、人為操作失誤、硬件故障、自然災害、安全攻擊依然給生產穩定性保障帶來極大風險 2022.10,韓國數據中心發生火災,導致多家網絡平臺癱瘓 2021.10,某證券IDC故障2小時,導致客戶無法交易,產生資損 2021.1
2、0,某社交平臺,因配置變更故障中斷6小時,影響數億用戶,市值減少數百億美元 2021.7,某視頻網站,服務器故障3小時造成服務器無法訪問,引發影響用戶體驗 2020.3,美國某云服務商,因冷卻系統故障導致斷電停機,影響計算、存儲、網絡以及其他服務,時長6小時 2020.6,因第三方網絡提供商錯誤路由,影響某IT公司多個地域及其他80多個數據中心,時長4小時 2020.7,某云服務平臺,因全球骨干網網絡配置錯誤,網絡流量下降50%,時長27分鐘 2020.11,美國某云服務商,核心服務擴容引起雪崩效應,影響多個關聯云服務,時長十數小時 2020.12,某互聯網服務全球大面積癱瘓,由于存儲配額系統
3、的身份驗證服務故障,影響多個基礎服務,時長47分鐘全鏈路壓測分布式應用服務云原生DevOps持續交付容器微服務場景二:政策引導IT系統穩定性建設平穩推進隨著數字化轉型政策的推進,越來越多“國民級應用”誕生?!皣窦墤谩钡耐怀鎏攸c是用戶群體范圍廣、數量多、使用時間長,同時也有業務迭代周期短、故障影響面大的隱含特點?!皣窦墤谩毙枰疃虝r間完成穩定性積累,少走彎路。數字政府網上辦事大廳、數字防疫醫療健康智慧醫療、全國聯保新零售智慧門店、全域營銷金融互聯網銀行、智能風控交通物流智慧收費、出行服務能源水利精準預測、智慧水利生產制造生產調度、工業檢測游戲云游戲、AR/VR場景三:傳統運維手段已無法滿
4、足要求SRE的核心理念是通過軟件來管理系統,解決問題和自動化完成操作工作。Platform Ops(平臺運維)是一種創新運維理念,將基礎設施、運維、云管理納入一個發展方向規劃,成為推動企業 IT 架構持續演進和管理的核心力量。資料來源:Gartner Infrastructure,Operations and Cloud Management Primer for 2022資料來源:Google Site Reliability Engineering“安全生產”的核心理念和方法論為預防生產過程中發生人身、設備事故,形成良好勞動環境和工作秩序而采取的一系列措施和活動。辭海中,“安全生產”的解釋
5、:為提升生產系統業務連續性、災難恢復能力,建設高可用架構系統和SRE型運維團隊而采取的一系列措施和活動。在阿里巴巴的多年技術演進中,賦予了“安全生產”在IT軟件領域的新解釋:可用性:99.99X%災難恢復:RTO30s,RPO0組織效能:1-5-10牽引指標可用性改進可靠發布效能提升故障管理應急處理演練驗收SRE型組織容錯架構容災架構快恢自愈可觀測性容量規劃可防護性高可用架構災難常態核心方法論數字化安全生產平臺是什么?平臺定位濃縮阿里巴巴十年運維經驗,以PlatformOps為理念,以保障業務連續性為目標的一站式管控SRE運維平臺行業方案質效醫保數字化防疫金融核心系統上云新零售大促保障業務場景
6、場景一:“1-5-10”故障快恢場景二:“變更三板斧”故障預防重啟回滾擴容切流限流降級灰度發布應用監控應用回滾事前準備風險挖掘故障等級定義監控配置1分鐘發現5分鐘處10分鐘恢復故障通告故障響應故障快恢事中應急業務目標方案能力服務支撐產品能力變更接入變更規則設定回滾預案可觀測可灰度可回滾變更灰度變更觀測變更回滾全鏈路監控服務故障應急服務演練評測服務變更準備變更執行業務目標變更管控服務告警域監控域故障域預案域快恢域變更域演練域工單域數字化安全生產平臺的亮點場景化產品理念數字化管理流程云原生平臺架構發布場景一:“1-5-10”故障快恢目標:提升故障1分鐘發現,5分鐘響應&定位,10分鐘恢復能力,縮短
7、故障恢復時長,降低故障影響面風險業務組織我的工作臺故障單管理業務監控大盤安全生產運營大盤全鏈路監控結果業務場景梳理故障結構化定義智能告警故障通告快恢能力建設業務風險應用風險系統風險歷史故障業務特征業務架構業務場景系統架構研發運維測試產品業務負責人故障發現故障響應&定位故障恢復應急協同CHATOPS業務初因定位應用根因定位快恢系統集成快恢預案編排快恢預案推薦1-5-1 門戶數據報表故障報表事件報表團隊報表人員評價重大故障收斂無重大故障時長(MTBF,MTTR)業務可用性指標(SLO,SLI.)故障1分鐘發現業務場景產品線染色全鏈路監控終端體驗管理業務監控應用監控容器監控云平臺監控基礎設施監控故障
8、場景結構化全息鏈路治理全量監控數據業務全鏈路業務場景業務場景業務場景業務鏈路業務鏈路業務鏈路應用鏈路應用鏈路應用鏈路故障場景故障場景故障場景P1-P4(業務受損程度)D1-D4(數據影響)E1-E4(輿情影響)數據智能告警故障通告故障定級壓縮上報事件降噪事件過濾事件釘釘短信電話故障5分鐘響應&定位信息反饋故障更新故障查詢值班人員產研技術支持決策領導層信息事件故障異常告警異常告警工單故障通告故障動態智能定位全鏈路診斷事件關聯問題根因鏈路指標關聯下鉆根因判定根因報告InsightCHATOPS人員處置安全生產服務組故障簽到故障定位人員協同故障快恢故障10分鐘恢復1.切流秒級。應對單元維度,機房維度
9、,機器維度切流2.降級秒級。若是鏈路弱依賴,先降級再排查3.限流秒級。保護絕大部分流量4.擴容秒級或分鐘級。流量暴增時擴容前先集群限流或單機限流,防止雪崩5.回滾分鐘級?;貪L前先機房隔離或切容災,防止回滾時間較長升級故障6.重啟分鐘級。應對內存溢出,fullgc連接數滿,環境機器不確定性原因等面向不同時效和場景的六大快恢能力抽象基于“標準”實現,支持常見實現基于“發現、定位”的輔助推薦基于“恢復時效”的優化建議發布場景二:“變更三板斧”故障預防目標:業務全方位變更管控,可灰度、可回滾、可觀測,避免因變更導致的重大故障變更系統監控中心快恢中心應用發布應用回滾配置變更數據庫操作實例操作網絡變更資源
10、監控應用監控業務監控告警事件故障根因定位智能分析切流降級限流擴容回滾重啟自定義預案我的工作臺故障單管理業務監控大盤運維日歷變更門戶API 模式SDK 模式系統識別/接入時間線規則產品線規則變更準入門檻應用規則規則編排/規則組規則校驗變更阻斷變更執行檢測變更觀測配置變更智能風控觀測穩態度量引擎灰度分批強管控變更影響面感知及預案關聯可疑變更推薦自定義審批流一鍵審批變更審批自動化免批審批策略定義審批流可審計變更統一管控白屏化集中管控變更統一管控可灰度可回滾可觀測Check APIQuery APICreate APIUpdate API接入網關Recheck API數字化管理流程故障概況:縱觀業務全
11、局,業務域的健康度以及出現問題的子業務1-5-10應急度量1-5-10實際度量與目標度量故障發現故障發現達標率,以及直接影響因素達標率故障響應故障響應達標率,以及故障簽到率,當前故障響應人員,定位實時播報故障恢復故障快恢達標率,了解故障快恢建設情況,從覆蓋率以及有效率故障概況查看整體歷史故障趨勢應急值班直觀了解當前應急值班人員繁忙度,從而進行人員調度實時監測監控預警實時播報,發現潛在風險實時變更當天變更實時播報,了解變更整體概況云原生平臺架構開發者DPS PODCustom ResourceRecoveryProductAlertProductMonitorProductChangeProductOperatorProduct PodMSHA PODEDAS PODECS POD自定義 POD修改DPS Cluster ControllerGatewayConsoleAlertMonitorMSHAAPI管理阿里云Product ControllerInstance ControllerJob Controller異構云自建IDCEDAS三方系統ACOSTHANKS