1、安全生產治理核心要素:管理、運營實踐案例解讀楊德華 數列科技 聯合創始人、解決方案負責人數列科技這家公司是干啥的?和大家有啥關系?快遞物流運營商相關其他行業Takin開源社區用戶2021年6月30日開源https:/ 數字化時代特點:快 市場劇烈變化 7x24小時的服務 更短的產品生命周期 更多的定制化服務 產品發布周期(TTM)更短 VUCA新產品、新業務玩法的創新速度成為企業增長的動力而云原生、微服務架構的引入,有助于提升企業創新速度201520193C數碼每年上新1次每年上新2次以上美妝每半年-1年上新每月上一款旗艦新品個護18-24個月9個月家用電器2-3年發布一款新品每年兩次新品迭代
2、服裝服飾每季度或每半年每周-每個月都有新款天貓新品發布頻率上新周期上新周期品牌品牌周期上新總數周期上新總數每日上新每季上新每周上新2次SHEIN周49196件Zaful周431件H&M秋季 1687件Zara年 12000件1.2 分布式、云原生架構的優缺點Pizza team研發測試產品運營設計優點缺點敏捷型產品團隊:方便加人、分工碎片化發版,快速響應需求系統復雜鏈路長,一個按鈕橫跨了一個按鈕橫跨了50個團隊個團隊故障排查,涉及角色多,上下游協同效率不高1.3 系統一分鐘不可用,對企業的影響估算Gartner:Downtime can cost small businesses$423 pe
3、r minute,whereas large organizations can lose over$9,000 per minute.企業企業損失損失影響影響天貓2012年雙十一超賣數十億元研發、測試、運維團隊數百人排查問題;對商家的影響;某物流上市公司 2017年雙十一,OMS崩潰2小時數億元訂單進不來,造成人員閑置,資源浪費目錄:今天要分享什么內容?1.背景數字化時代特點、微服務架構優劣點、系統不可用對企業的影響2.安全生產兩個實踐案例的效果對比3.安全生產治理概念和要素理解4.安全生產總體治理框架、參考框架、落地步驟2.1 案例一:順豐+Takin 2021雙十一生產環境全鏈路壓測效果
4、穩定性演練方式雙十一前提前發現問題價值總結優化分類優化分類統計統計程序優化180配置優化110資源擴縮84問題總計374問題分類統計Java應用171MySQL26Redis16ES10Flink10TiDB6生產環境,同時發起40萬QPS(流量引擎 4c6g的700+個pod)業務連續性保障雙十一0故障374個具體問題驅動,高效組織、溝通、執行、反饋機制容量可信,平穩支撐2.5倍攬收件量,2.2倍派件量生產環境核心系統_330_個服務、6400個agent 運行8、9、10月持續3個月壓測,大規模壓測次數達20次2.2順豐快遞+Takin:生產環境全鏈路壓測10Step 1:全鏈路全流量線上
5、壓測Step 2:根據壓力表現進行調優Step 3:分流與限流Step 4:容災降級完善監控四步保障2.3順豐、B企業 生產環境全鏈路壓測效果對比050100150200250300350400對比情況AB對比項順豐B差距組織管理運營方式自上而下,高層負責性能部門推動IT人員數量35001500同時壓測系統56318.6倍同時被壓服務數330566倍線上Agent個數(千)6.40.321.3倍同時發起的壓測流量(萬)400.2200倍雙十一前發現的問題數374574.8倍大規模壓測次數30310倍同樣的生產環境全鏈路壓測產品(Takin)同樣的實施團隊-數列科技2.4 順豐、B企業的管理、組
6、織方式對比案例之順豐,技術高管負責案例之B企業,性能部門負責目錄:今天要分享什么內容?1.背景數字化時代特點、微服務架構優劣點、系統不可用對企業的影響2.安全生產兩個實踐案例的效果對比3.安全生產治理概念和要素理解4.安全生產總體治理框架、參考框架、落地步驟3.1數字化業務安全生產治理概念內涵理解狹義:單個組織內部在組織安全生產戰略的指導下,為確保系統處于穩定性運行的狀態,多個部門協作實施的一系列活動集合。建立組織安全生產治理團隊制定相關制度規范標準構建安全生產技術體系建設安全生產人才梯隊培養相關人員安全生產能力廣義:全社會完善相關政策法規推動政策法規落地建設與實施標準體系研發并應用關鍵技術培
7、養專業人才發展數字經濟,必須把數字化業務安全生產、保障業務連續性放在突出位置。需著力解決安全生產領域的突出問題,有效提升安全生產治理能力在組織安全生產戰略的指導下,為確保系統處于穩定性運行的狀態,多個部門協作實施的一系列活動集合。安全生產治理是國家有關部門、行業組織、科研機構、企業、個人共同參與和實施的一系列活動集合。3.2 云原生、微服務架構數字化系統的安全生產難題用戶視角85%的故障靠用戶反饋或者投訴運維部門視角1.業務服務于用戶和客戶,但是保障體系服務于應用和組件2.接受的告警數量很多,準確率很低3.告警配置的覆蓋率很低4.發布頻次提升,告警配置的維護成本很高5.APM產品采用率不高,對
8、應用性能影響10%以上,數據存儲成本高研發視角1.做一次發布,很容易出問題,運維給了很多檢查項,要看很多監控。2.排查問題的數據分散、缺失,獲取數據驗證的成本高客服、業務部門視角異常定位的效率特別低,協同的人員多,時間長技術高管視角1.如何高效保障數字化系統平穩運行?3.4 復雜數字化系統各階段面臨的實際異常階段階段問題案例問題案例設計階段單點故障;負載不均;事后監控;不可回滾;不可降級;缺乏隔離;濫用日志策略;缺乏自我保護;緩存設計不當;容量評估不準;耦合過重;濫用同步;非冪等;對失敗考慮不充分;數據庫索引不合理;數據庫表結構設計不合理;誤用數據庫limit查詢;小表隨意執行truncate
9、 table;一次性批量delete數據編碼階段集合排序異常;程序流程控制異常;高并發下的單例對象異常;高并發下的ThreadLocal異常;異常捕獲處理出錯;高并發下的HashMap異常;參數檢查不嚴謹;不合理的參數配置;版本依賴問題;字符防亂碼;不限制集合的大小;測試階段測試鏈路不完全;測試引發性能問題;測試引發數據污染;未進行測試基線;發布階段無灰度流程;錯誤灰度方案;未經測試上線;無回滾方案;回滾方案未驗證;未評估影響范圍;變更域變更沒有記錄;變更不可管控;變更數據沒有格式化;版本不一致;業務高峰期進行數據庫變更;監控報警域監控誤報;指標采集不標準;基礎設施產品未關注業務可用性;監控失
10、效;監控配置不合理;關鍵報警無人處理;缺乏分維度大盤;變更不關注業務監控;應急階段故障發現時間過長;故障相關人員協同時間過長;故障定位慢;恢復久。重大活動傳統的容量評估方式難以評估線上復雜微服務的真實容量。容量評估不準、仿真壓測不真實、限流不起作用、預案未經有效檢驗。設計編碼測試發布變更監控應急重保左移右移單點故障;負載不均;事后監控;不可回滾;不可降級;缺乏隔離;濫用日志策略;缺乏自我保護;緩存設計不當;容量評估不準;耦合過重;濫用同步;非冪等;對失敗考慮不充分;數據庫索引不合理;數據庫表結構設計不合理;誤用數據庫limit查詢;小表隨意執行truncate table;一次性批量delet
11、e數據3.4.1 研發全生命周期視角3.4.1 研發全生命周期視角左移右移集合排序異常;程序流程控制異常;高并發下的單例對象異常;高并發下的ThreadLocal異常;異常捕獲處理出錯;高并發下的HashMap異常;參數檢查不嚴謹;不合理的參數配置;版本依賴問題;字符防亂碼;不限制集合的大小;設計編碼測試發布變更監控應急重保3.4.1 研發全生命周期視角左移右移測試鏈路不完全;測試引發性能問題;測試引發數據污染;未進行測試基線;設計編碼測試發布變更監控應急重保設計編碼測試發布變更監控應急重保3.4.1 研發全生命周期視角左移右移無灰度流程;錯誤灰度方案;未經測試上線;無回滾方案;回滾方案未驗證
12、;未評估影響范圍;設計編碼測試發布變更監控應急重保3.4.1 研發全生命周期視角左移右移變更沒有記錄;變更不可管控;變更數據沒有格式化;版本不一致;業務高峰期進行數據庫變更;設計編碼測試發布變更監控應急重保3.4.1 研發全生命周期視角左移右移監控誤報;指標采集不標準;基礎設施產品未關注業務可用性;監控失效;監控配置不合理;關鍵報警無人處理;缺乏分維度大盤;變更不關注業務監控;故障發現-通告時長:超過5分鐘完成。從接收到異常信息,經過降噪-收斂-判斷-通告發送-故障處理子流程等步驟,若這部分工作全部由監控人員人肉完成,以監控報警來源的異常為例,P1P2故障,從監控報警-降噪-收斂-判斷-通告發
13、送,至少要在5分鐘內完成;設計編碼測試發布變更監控應急重保3.4.1 研發全生命周期視角左移右移分類分類總結總結描述描述故障相關人員上線時長超過5分鐘完成當業務出現故障,從故障通告到相關人員上線處理的時間消耗。微服務架構下,依賴關系復雜,有可能是下游一個操作,影響了上上游的正常請求。大部分企業的人員上線,依賴臨時拉群。主要靠人肉。拉通相關人員進群,至少需要5分鐘。故障定位時長超過30分鐘涉及人員多。從故障發出通告,相關的人進來,弄清楚故障上下文,排查引發問題的原因等都需要消耗時間。主要靠人肉故障處理時長超過40分鐘定位到故障原因后,主要靠人肉。設計編碼測試發布變更監控應急重保3.4.1 研發全
14、生命周期視角左移右移傳統的容量評估方式難以評估線上復雜微服務的真實容量。接口調優慢接口慢SQL內存泄漏GC問題DB線程數三方插件問題最大連接數限制線性擴容問題配置優化環境問題安全瓶頸網絡配置優化系統及混合云間延遲系統間依賴影響BGP接入網絡帶寬負載均衡問題CDN層面問題DNS問題應用防火墻問題基礎設置瓶頸容量預估問題中間件瓶頸業務性能配比測試環境預發(仿真)環境生產環境開發&測調開發&部署網絡&運維能力目錄:今天要分享什么內容?1.背景數字化時代特點、微服務架構優劣點、系統不可用對企業的影響2.安全生產兩個實踐案例的效果對比3.安全生產治理概念和要素理解4.安全生產總體治理框架、參考框架、落地
15、步驟3.5 安全生產應該怎樣有效抓起來?3.6 安全生產應該怎樣有效抓起來?4.1 安全生產(穩定性保障和提升)總體視圖數字化系統安全生產治理目標(如 0-N-1-5-10)降低重大故障數量提前發現風險快速發現故障快速定位故障快速解決故障安全生產治理步驟1.規劃現狀分析現狀風險分析行業實踐對比方案規劃組織架構制度流程技術工具人員能力方案論證可行性安全性可持續性2.建設組織架構體系建設制度流程體系建設技術工具體系建設安全運營體系建設3.驗收風險防范風險防范策略制定風險評估風險整改應急處理應急處理應急處置復盤整改宣貫宣導4.評估內部評估評估自查應急演練對抗模擬第三方評估安全生產管理保障能力評估風險
16、預防風險預防演練驗收性能壓測流量防護預案保鮮多活建設滿足業務發展風險管理成本與效率并重安全生產能力建設參考框架安全生產戰略軟件研發全生命周期安全生產風險治理安全生產基礎4.2 安全生產能力建設參考框架業務需求,先進實踐系統研發生命周期安全生產風險治理需求設計編碼測試發布監控應急重保安全生產新型基礎能力用戶旅程分級分類快速感知實時監測超前預警技術工具分類分級風險洞察風險預防快速發現快速定位快速恢復運營體系制度規范運營集訓營安全生產評分風險持續治理人員培訓人員考核宣傳制度流程方針總綱管理制度流程規范計劃報告管理辦法組織建設決策層(高管、首席技術官)管理層(安全生產管理團隊)執行層(運營、技術團隊)
17、監督層(審計)記錄日志指南模板人員能力管理能力運營能力合規能力快速應急處置快速復盤優化技術能力4.3 數字化系統安全生產戰略從組織的頂層規劃方面提出要求,為穩定性保障治理體系的建設定目標、建團隊。安全生產(穩定性保障)治理規劃關注組織在安全生產治理方面的發展規劃情況目標及任務團隊分工及考核組織管理關注組織安全生產治理的團隊建設、以及相關崗位的安全生產管理規范團隊及人員構成人員生產安全管理4.4系統研發全生命周期穩定性保障治理以系統需求、設計、編碼、測試、發布、變更、監控、應急、重保各個環節為切入點,設置相應的安全生產風險管控點和管理運營流程,對系統需求全流轉過程進行規范和約束。業務需求階段考慮
18、安全生產風險,主要是做兩個方面:一 是 業務 需 求過濾(價值判斷),二 是 需求 模 型簡化確定編程語言,數據庫,系統拆分,以及系統之間的關聯作用,最終提供完整的業務能力制定規范來保障細節的可控與標準化,來確保系統微觀層面的穩定性側重自動化程度的提升,同時場景上對于性能和可靠性重點關注結合大量實踐案例,不少故障是因為發布直接或間接引起。提升發布的質量,減少錯誤的發生,是有效減少線上故障的一個關鍵環節。無數實踐總結出來的經驗,需要堅守變更風控的三大原則:可觀測可灰度可回滾優秀的監控解決方案,需要同時關注質量、成本、效率,以期在實踐過起到符合預期的效果。明確故障等級定義(即結構化的應急場景)、并
19、且基于應急場景實現:快 速 發現(如1分 鐘 內)快 速 定位(如5分鐘)快 速 恢復(如10 分 鐘)根據活動目標、風險等情況,在籌備與進行過程中提供保障方案,管理技術相關問題與風險,以助力技術達成目標、規避或最小化故障影響,保障業務與系統穩定運行需求設計編碼測試發布變更監控應急重保4.5穩定性保障和提升 行業最佳實踐能力以系統需求、設計、編碼、測試、發布、變更、監控、應急、重保各個環節為切入點,設置相應的安全生產風險管控點和管理運營流程,對系統需求全流轉過程進行規范和約束。需求設計編碼測試發布變更監控應急演練重保封網值班應急生 產 環 境 全鏈 路 壓 測 驗收故障演練異常問題:1分鐘內發
20、現5分鐘內定位10分鐘內恢復監控質量監控成本監控效率用戶旅程業務指標健康接口巡檢規范可觀測可灰度可回滾隔離錄制回放灰度分批發布規范逐步右移線下故障演練精細化灰度性能基線編碼規范演練驗收CR評審面向失敗設計設計規范約定SLA、SLO4.6安全生產治理實踐步驟:1.治理規劃在組織啟動穩定性保障治理工作前,必須制定相應的規劃,明確治理目標和具體任務,匹配對應的資源,使得治理工作能夠有條不紊的展開?,F狀分析 現狀風險分析:結合業務發展需求,梳理風險清單,提煉安全生產建設要點 行業最佳實踐對比:現狀梳理,明確差距、找到問題。方案規劃方案論證 可行性分析:投入 vs 產出 可靠性分析:方案本身的可靠性 可
21、持續性分析:發展兼容組織機構建設制度流程建設技術工具建設人員能力建設達成第三年穩定性目標0重大故障1分鐘發現問題5分鐘定位10分鐘恢復圍繞核心業務鏈路CUJ注冊登錄綁號查賬繳費等組織能力技術能力運營能力達成第一年穩定性目標_重大故障_分鐘發現問題_分鐘定位_分鐘恢復達成第二年穩定性目標_重大故障_分鐘發現問題_分鐘定位_分鐘恢復結合企業實際情況構建、提升三大安全生產核心能力4.6-2 圍繞目標,結合核心業務鏈路,打造三大能力4.7安全生產治理實踐步驟:2.治理建設-組織架構體系明晰的組織體系是保障安全生產工作順利開展的首要條件。決策層管理層執行層監督層反饋審計配合決策、授權匯報指導、監督匯報審
22、計配合安全生產領導小組:“一號位負責制”高層管理者業務部門領導技術部門領導等安全生產管理團隊:由領導小組指派高層領導者安全生產執行團隊各業務研發部門與產品人員運維、測試等人員安全生產監督團隊GOC、技術支持、安全生產運營團隊人員4.8安全生產治理實踐步驟:3.治理建設-制度流程體系制度流程作為安全生產生產治理要求、管理策略、操作規程等的集合一級:方針政策二級:管理規定三級:操作手冊四級:各類表單制度層級層級作用制度示例面向組織層面,規定安全生產治理的方針和總則安全生產機制規范管理制度將一級制度的總體規劃、落實為相應的安全生產管理制度和辦法,用以指導各階段安全生產建設故障及應急管理規定變更管理規
23、定安全生產度量管理規定風險管理規定演練管理規定公告管理規定將二級制度的各項管理辦法,以操作流程或執行指南等細則方式展現,保障執行的一致性生產環境全鏈路壓測&演練標準突襲演練標準規范變更系統接入標準規范按照三級制度執行過程中,產生的各類報表、記錄、報告等文件P1P2核心用戶旅程清單業務系統打日志模板變更申請表4.9安全生產治理實踐步驟:4.治理建設-技術工具體系規劃(目標)管理人員管理/考核安全生產戰略系統研發全生命周期安全生產治理需求需求過濾模型簡化設計面向失敗設計關注細節編碼編碼規范規范落實與標準測試自動化關注性能關注可靠性發布金絲雀滾動發布藍綠發布變更可灰度可觀測可回滾應急1分鐘發現5分鐘
24、定位10分鐘恢復重保壓測驗收封網值班盯盤基礎能力用戶旅程分級分類快速感知實時監測超前預警快速應急處置快速復盤優化4.10面向目標和風險的安全生產保障:風險測量、分析、改進的實現設計階段設計階段編碼階段編碼階段測試階段測試階段發布、變更階段發布、變更階段線上運維階段線上運維階段重大活動階段重大活動階段設計風險模型編碼風險模型測試風險模型發布、變更風險模型運維風險模型活動保障風險模型數據采集模型匹配評分機制風險趨勢紅黑榜風險整改逾期通報最佳實踐知識庫運營機制流程標準(控制)風險消除跟進發布流程管控基線回歸改造新一輪迭代改進排期4.11風險提醒、推動改進、峰值流量驗證4.12安全生產治理實踐步驟:5
25、.治理建設-人員能力體系安全生產治理離不開相應人員的具體執行,加強對安全生產人才的培養是安全生產治理的重要支撐。問題觸發式培訓培訓不深入課題體系不成熟講師水平參差不齊考核不規范安全生產意識培養結合實際場景,定期推送知識要點,培養全員安全生產意識宣傳視頻宣傳海報宣傳手冊安全生產能力培訓利用線上平臺+線下授課的方式,定期進行培訓專題學習線上直播線下講壇通過安全生產攻防對抗等實戰演練,進行動態培訓攻防演練紅藍對抗安全生產能力考核建設考核平臺,用于考察員工的安全意識和安全能力入職/晉升考核日常測驗專項考試4.13 安全生產治理實踐步驟:6.治理運營安全生產治理的持續運營,能夠打通各環節的建設內容,促進
26、整個體系的良性發展。風險防范安全生產策略制定通用場景+個性場景安全生產基線掃描基線梳理及落實定期掃描安全生產風險評估監控預警通過監控審計平臺,及時告警并初步阻斷態勢監控針對核心用戶旅程、應急場景、應急預案保鮮等進行日常巡檢并審計日常審計以核心用戶旅程為審計對象,定期開展專項安全生產審計工作專項審計應急處理安全生產事件應急處理安全生產事件復盤整改事件分析應急總結預案完善安全生產事件應急預案宣貫宣導4.17安全生產治理實踐步驟:7.治理成效評估安全生產治理是一個持續性過程,成效評估是考核組織安全生產治理能力的重要環節,其結果也是新一輪安全生產治理的改進依據。內部評估應由組織管理層牽頭,執行層和監督
27、層配合執行。應將評估結果與組織的績效考核掛鉤,避免評估流于形式內部評估評估自查應急演練對抗模擬第三方評估信通院等專業機構開展安全生產相關評估工作對比標準、現狀,找出差距安全生產(穩定性保障和提升)總體視圖數字化系統安全生產治理目標(如 0-N-1-5-10)降低重大故障數量提前發現風險快速發現故障快速定位故障快速解決故障安全生產治理步驟1.規劃現狀分析現狀風險分析行業實踐對比方案規劃組織架構制度流程技術工具人員能力方案論證可行性安全性可持續性2.建設組織架構體系建設制度流程體系建設技術工具體系建設安全運營體系建設3.驗收風險防范風險防范策略制定風險評估風險整改應急處理應急處理應急處置復盤整改宣貫宣導4.評估內部評估評估自查應急演練對抗模擬第三方評估安全生產管理保障能力評估風險預防風險預防演練驗收性能壓測流量防護預案保鮮多活建設滿足業務發展風險管理成本與效率并重安全生產能力建設參考框架安全生產戰略軟件研發全生命周期安全生產風險治理安全生產基礎