1、數字化安全生產平臺的思考以及落地樓海斌(銀桑)阿里云云原生高可用技術專家行業背景十四五規劃下加速各行業全面加速數字化升級“加速數字化發展:發展數字經濟,推動數字產業化和產業數字化,推動數字經濟和實體經濟深度融合,打造具有國際競爭力的數字產業集群。加強數字社會、數字政府建設,提升公共服務、社會治理等數字化智能化水平”數字政府網上辦事大廳、數字防疫金融互聯網銀行、智能風控醫療健康智慧醫療、全國聯保新零售智慧門店、全域營銷交通物流智慧收費、出行服務能源水利精準預測、智慧水利生產制造生產調度、工業檢測游戲云游戲、AR/VR數字化轉型中業務連續性保障的挑戰工具分散告警難收斂人員邊界模糊架構復雜性缺乏安全
2、意識無應急體系監控報警太多,如何過濾對業務有價值的報警事件,如何有效收斂?1監控工具分散,如何數據共享和統一,實現全景展示、全業務覆蓋?2業務架構愈發復雜,敏感程度也變高,如何保障業務穩定性?3復雜業務場景下保障穩定性和連續性的職責邊界不清,如何協同?4線上線下故障如何規范化預防和應對,應急流程如何保障順暢?5故障定級規則不統一,如何追溯與改進?6傳統運維手段不足運維手段和工具割裂,無法形成有效的組合拳工具割裂上云/云原生浪潮下,多數運維手段任然停留在基礎設施層面而非業務層面面向基礎設施,非業務面對越來約復雜的業務架構和越來越快的業務迭代,只能被動運維,難事前有效預防,事中從容應對被動運維缺乏
3、體系化、規范化、可擴展的穩定性保障體系缺乏規范體系阿里巴巴組織-技術-文化三位一體的安全生產體系值班長演練驗收容 災 演 練故 障 演 練預 案 演 練全 鏈 路 壓 測演 練全 鏈 路 功 能仿 真 演 練組織機制文化全局架構容災能力發布&變更風險控制異 地 多 活同 城 容 災灰 度 藍 綠安 全 生 產 環境運行態穩定性防護限 流降 級流 量調 度彈 性伸 縮開 關預 案運行態穩定性度量壓 測故 障注 入變 更 管 控攻 防 演 練依 賴治 理故 障 發 現故 障 應 急根 因 定 位故 障 恢 復故 障 復 盤故 障 數 據 挖 掘工 單 系 統活 動 平 臺輿 情 中 心大 促 中
4、控 臺數據中心系統數據垂 直 安 全 生 產考 試 認 證伏 波 講 堂熔 斷 機 制變 更 規 范運 維 紅 線紅 黑 榜 獎 懲安全生產日月集 團 安 全 生 產 門 戶應用數據流量數據流程支撐體系穩定性專項故障平臺穩定性能力體系業 務 對 賬變更數據業務數據故障數據AIOPS智 能決 策專 家系 統A I 算 法數據運營穩 定 性 故 障 分穩 定 性 運 營 報 告運行態狀態監控鏈 路監 控系 統監 控業 務監 控S L A監 控全局風險治理監控覆蓋度全 面 灰 度數字化安全生產平臺介紹數字化安全生產平臺(Digital Production Stability,簡稱DPS)是一站式的
5、業務連續性保障平臺,解決安全生產過程中的組織協同難,應急效率低,業務故障頻發,SRE理論落地實施難等問題,提升業務連續性.DPS Scene(業務場景層)DPS Domain(能力領域層)DPS Flow(能力編排層)DPS Solution(行業方案層)DPS SDK(能力擴展層)DPS Product(產品層)故障預防三板斧故障快恢1-5-10故障演練紅藍攻防容量管理大促一體化容錯管理韌性評測容災管理多云多活質效醫保數字防疫金融系統上云.業務流程編排用戶租戶組織業務監控域容災域快恢域故障域變更域演練域協同域CRD Spec阿里商業阿里開源三方開源業務大屏自定義配置核心特點場景化業務保障流程
6、產品化安全生產解決方案標準化安全生產能力管理數字化安全生產度量1-5-10介紹5分鐘故障處置監控發現告警通知人工上報故障確認故障通告故障響應故障定位故障快恢恢復驗證1分鐘故障發現10分鐘故障快恢1分鐘故障發現體系建設落地面臨問題解決思路核心業務監控大盤監控能力指標風險覆蓋率1分鐘發現有效率發現漏報率監控系統多樣導致數據分散自研監控商業監控開源監控監控指標復雜導致重點缺失網絡傳輸監控(丟包,延遲)服務器系統狀態(CPU,load)虛擬機,容器監控應用運行狀態(成功率,qps)業務運行狀態(訂單創建量)用戶體驗(白屏,內容錯誤.)人員視角不同導致問題遺漏業務人員關注業務,應用運行運維人員只關注機房
7、監控全局監控大盤核心業務監控-故障關聯核心業務監控中心化管控系統監控去中心化監控非核心業務監控-風險預警關聯統一收斂查詢統一監控系統自研監控商業監控開源監控核心業務監控用戶體驗業務運行狀態指標影響面下跌幅度持續時長錯誤總量業務故障場景非核心監控業務運行狀態指標影響面下跌幅度持續時長錯誤總量業務風險預警業務故障場景系統監控指標容器虛擬機監控服務器系統狀態應用運行狀態影響面系統資源水位容量飽和度配置方式系統告警升級配置方式配置方式5分鐘故障處置體系建設應急鏈路角色多缺乏流程驅動研發人員運維人員測試人員怎么組織?誰來響應?誰來處理?誰來監督?業務鏈路長初因定位難流量問題?網絡問題?依賴服務問題?基礎
8、設施問題?編碼問題?配置變更問題定位能力應急協同能力全局變更診斷IaaS定位SaaS定位PaaS定位發布變更配置變更數據庫變更網絡宿主機DNS業務日志Trace鏈路進程信息DB慢SQL緩存熱點/未命中中間件多用于初因定位多用于根因定位指標應急5分鐘響應率初因5分鐘定位率規范應急流程明確角色分工引入技術支持角色(組織,監督)從業務,變更快速初因定位從應用,系統進行根因定位統一定位系統定位結果聚合,快速查詢面臨問題解決思路落地10分鐘故障恢復體系建設面臨問題解決思路流量問題?網絡問題?依賴服務問題?基礎設施問題?編碼問題?如何合理使用快恢能力流量問題網絡問題依賴服務問題基礎設施問題編碼問題配置變更
9、問題如何建設快恢能力建設快恢通用能力杜絕快恢一刀切明確快恢執行條件快恢能力的分類快恢能力的時效快恢能力的有效性評估快恢常態化運營落地10分鐘快恢達標率快恢能力標準化接入基于故障的快恢能力推薦流量類成功率RT類系統資源類編碼/依賴流量/網絡中間件容器/資源類型根因切流回滾重啟擴容限流隔離回滾擴容隔離擴容降級擴容故障快恢覆蓋率快恢能力有效率目標模型定義(部署形態,資源分層)容器化非容器化產品對接云底座ECSKubernetesEDASANSIBLE主機應用服務進程DeploymentPodContainer回滾切流限流降級擴容重啟發布隔離能力能力分類分類能力能力實現實現重啟舉例快恢快恢目標目標數字
10、化安全生產1-5-10落地目標:1分鐘發現、5分鐘響應、10分鐘恢復基礎能力業務應用提取關鍵業務場景故障定級告警指標&規則設計告警規則配置應急場景配置建立全鏈路監控能力建立全鏈路問題快速發現能力業務/系統調用鏈路梳理提取核心應用提取核心接口提取應用部署資源業務層-應用層-數據庫層-基礎設施層的端到端監控建立故障管理體系梳理技術團隊組織架構建立故障應急機制建立各角色SLA建立故障復盤標準度量建立故障快恢能力業務/技術調用鏈路&快恢能力梳理快恢能力補齊現有快恢能力對接快恢預案統一管理日志采集儀表盤接口黃金指標鏈路追蹤慢SQL/調用異常/錯誤分析cpu內存磁盤網絡JVM日志解析產品線數據采集服務組值
11、班ChatOps業務應用集群宿主機EDAS容器MQ既有監控系統ZabixPrometheus云監控其他重啟回滾切流限流擴縮容降級應急場景應急事件故障通告故障定級監控域監控域協同域故障域快恢域監控域數字化安全生產未來展望規劃豐富業務場景標準能力合作建設智能化低代碼容災場景三板斧場景不同行業場景.監控能力標準化告警能力標準化變更能力標準化業務流程編排,模塊&插件化數倉.THANKS!會議主辦方介紹及聯系方式“2022 數字化轉型發展高峰論壇”由中國信息通信研究院(以下簡稱“中國信通院”)、中國通信標準化協會聯合主辦。中國信通院多年來通過政府支撐、標準研究、評估評測等工作持續在數字化轉型領域深耕。中國信通院云計算與大數據研究所政企數字化轉型部作為高峰論壇的具體組織部門,持續在IOMM企業數字化轉型成熟度、數字化可信服務、數字政府等領域開展標準研究和評估推廣工作,攜手產業各方共同為我國政企數字化轉型發展貢獻力量!關于2022 數字化轉型發展高峰論壇的后續進展請關注左側公眾號,其他事宜可聯系:中國信通院 云計算與大數據研究所 政企數字化轉型部董恩然:18601280900