張觀石-SRE體系-快速修復一個故障的套路.pdf

編號:122107 PDF 35頁 3.22MB 下載積分:VIP專享
下載報告請您先登錄!

張觀石-SRE體系-快速修復一個故障的套路.pdf

1、1SRE體系:快速修復故障的套路張觀石 SRE原理與實踐作者 資深運維專家和架構師,擁有20年經驗;熟悉基于微服務架構的直播業務、音視頻業務、海外直播業務的穩定的保障體系。熟悉混合多云架構、可觀測性、預案、變更管控、AIOps等領域;信通院分布式系統穩定性實驗室高級技術專家,參與編寫了信通院信息系統穩定性保障能力建設指南。21.讀過的都說好“可用于做SRE面試指南”“用于指導實際項目開展”,讀了3遍 送朋友、送客戶、送同事2.內容特點 SRE工程體系完整 先進實戰案例豐富3案例:3個慘案現場快速修復故障的基本套路套路有多深:掌握故障規律怎么看套路成效45故障案例1 背景:數據庫M-S架構,正常

2、主從是同步的。故障描述:某天發現主從不同步了。處理方法1:在修復同步問題時無意中刪除了一個文件,DBA用了另外一個備份文件去替代??雌饋硎且粯拥奈募?,然后重啟數據庫。結果:結果數據庫系統啟動不起來。62023年1月12日 美國FAA NOTAM系統故障,全美12000個航班被延誤或取消故障案例2 背景:機房冷機4主+4備的架構,主機故障可以手工切備機。故障描述:冷卻系統缺水,導致4臺主冷機服務異常。處理預案1:冷機切到備機系統,發現缺水形成了氣阻,備用冷機啟動失敗。處理方法2:嘗試一臺臺啟動,阻力更小 結果:啟動不起來,發現冷機設計為4臺綁定一起重啟,目的是為了批量操作方便。緊急處理:只能遠程

3、與現場合作臨時改代碼邏輯、發布,解除群控邏輯。7某公有云AZ制冷故障,持續13小時故障案例3 背景:業務產品和管控系統都在A、B。兩機房容災部署 故障:機房A掛了,大量遷移到機房B,用戶集中遷移業務導致管控系統的并發增加,被限流;預案:給管控系統擴容資源 問題:增加容量的管控系統的一個中間件被部署在故障機房A,擴容操作失敗8某公有云AZ制冷故障,持續13小時簡單故障場景49服務器磁盤被寫滿了,處理需要幾步,需要多長時間復雜故障場景5 直播平臺大活動期間卡頓率上升1%101.怎么排查是哪部分、2.怎么定位是什么原因,什么維度3.怎么修復故障修復的難點在哪?11系統復雜性系統復雜、故障場景多、脆弱

4、性因素多,防不勝防;案例涉及人員眾多涉及到眾多人員、沒有組織協同則混亂出錯;有時10幾個團隊人一起參與問題處理,指揮混亂、信息混亂一個故障影響機房數百個產品和上千個系統修復過程難所用到的各方面能力,任何一環不能掉鏈子,以為有預案,關鍵時刻不工作。發現難、定位難、修復難案例:快速修復故障的基本套路設計、預案、應急12針對故障因素/場景設計修復方案專門的修復工具,并打通依賴工具有效的修復方案和工具有接收故障,并執行處理的高效流程,預備資源,人的應急協同有力保障能力:資源、人與流程系統可被修系統做了可被修復的設計可感知、無狀態、可切換/調度/容錯/降級13可被修復的架構設計 設計便于修復的軟硬件架構

5、 系統是可修復的(針對特定的故障場景已經有相應的修復設計)能自愈的盡量容災自愈,不能自愈必須暴露接口 可修復的架構原則,架構風險治理 標準化、無狀態的軟件架構 多副本冗余的設計 被隔離遷移、調度切換的能力14故障場景、故障影響、預案是什么、故障預計修復時長問研發:能不能把調度功能開放給運維?各系統可被修復的架構設計&暴露API15節點屏蔽/刪除服務組擴縮容變更系統回滾業務降級 微服務后臺接入服務切換路由切換接入中臺自定義腳本任務腳本運維通道節點屏蔽/刪除服務組擴容/縮容名字服務直播間下行流屏蔽切換線路切換檔位主播切換上行線路音視頻自定義api接入基于事件消費的預案任務執行機制監控內嵌查詢基于指

6、標的判斷功能文檔功能IM人功能統一告警通知功能通用功能架構與預案結合16運維類操作、業務服務類操作預案及預案系統17 有修復的工具及其依賴的工具 有修復的人、及時協作,快速修復高效執行,有力保障:預案不一定很復雜1、問題本質原因:問題/故障解決依賴人的知識經驗2、核心要解決的:如何將處理經驗通過技術手段固化成一個個可以被直接可執行的預案場景18 01人員保障協作排查、修復、指揮協同、發言 02運維資源保障緊急擴容資源支撐工具 03流程與制度保障定期演練19一鍵到達:根因推薦與預案關聯20預案來源21123通過技術分析、風險識別發現的潛在故障場景演練發現的故障場景企業內部/業界曾經發生的故障場景

7、預案功能設計:1.預案管理(增加錄入、修改、刪除、執行記錄)2.基本任務(原子操作)管理:1.可增加、刪除、修改原子操作,2.對接管控系統API、運維通道、軟件集群,平臺腳本編輯等3.預案編排:增加刪除步驟、調整順序,每一步對接基本任務或一些自行動作,參數傳遞4.預案執行:告警導入、頁面引導、一鍵/逐步執行、每步結果顯示、執行前通知、執行后通知,記錄執行過程5.預案回退:部分支持灰度執行,也可回退,部分提供恢復現場功能6.預案統計分析:執行次數、時長、效果等7.其他功能:權限控制、執行歷史、文檔編輯、嵌入通知、嵌入監控、自動拉群等22套路有多深深入故障規律,理解故障命脈23研究規律、有效應對按

8、故障原因進行分類針對原因設計對應預案故障修復是工程不僅靠運維從架構設計、經驗 沉淀管控能力編程,決策執行故障修復靠綜合能力不僅靠經驗、靠預案更需要系統協同有力保障24應對之道25應對方法及案例:災難型:部署架構高可用,混合云兩地三中心直播間上行和下行線路變更型故障:變更紅線、變更管控系統容量與負載故障型:1、擴容2、降級、熔斷應對案例:混合云彈性,預先彈性、一鍵擴容;一鍵降級;123災難型:容災高可用l高可用設計l容災切換,內部與外部切變更型:l變更管控l人機可靠性容量型:l提供更多的資源(擴容)、l把服務消耗的資源減少(優化、降級)故障規律 故障分類及原因分類 災難型、容量負載型、變更型 災

9、難型:服務器、機房、交換機、網絡等單點不可用 負載型:流量超出預期、性能下降造成資源不足 變更型:應用發版、運維變更、軟件基礎設施變更、應急基礎設施變更、配置變更26某年故障原因分類變更型故障的細分原因故障修復是工程27故障快速修復不是單個部門的事情,是研發、SRE、架構部門共同目標預案平臺是把系統各層技術能力加以集成,共同修復產研及架構師l 改變軟件系統架構l 服務可配置開關能力l 暴露可修復的功能基礎架構/中間件l 實現基礎設施、系統運維、組件的架構l 提供可修復的功能SREl 改變架構l 編排能力開發預案一線/NOC預案最頻繁的使用者故障生命周期:從苗頭到修復的全過程28故障通知故障響應

10、定界定位故障快恢/快恢/止損應急修復故障復盤通知誰,通知渠道通知內容確認響應準備工作影響分析定界分析初因分析預案分工升級流程對內對外應急修復故障的要點29響應階段考驗人員規劃、日常訓練、人員責任心、組織安排,以及辦公基礎設施的完備性、響應相關系統的易用和便捷程度,準備步驟是否順暢等。通知環節最重要的是盡快通知能處理故障的人,提供簡要關鍵信息,通知方式要便于轉通知其他后續參與的人。應急修復故障原因排查順序30 大膽假設 小心求證 迅速排除3132故障MTTRl 單個故障的度量:l 修復過程時長l 故障分級分類l 修復能力級別l 周期性度量:l 故障平均時長l 逐步提升、分析變化過程能力l 發現時

11、長l 響應時長l 定界定位時長l 修復時長l 預案覆蓋率l 預案有效率修復能力分級3301在線層層排查02按文檔排查修復03多個步驟修復04一鍵修復05自愈20%自愈越多越好30%預案平臺一鍵修復30%多個步驟修復10%在線層層排查10%按文檔排查修復總結 強調故障修復的工程化設計,故障修復也是個工程工作 核心點:預案平臺不是單個部門的事情,是研發、架構部門共同的目標。運維研發必須共同建設。支撐保障能力、管控系統的能力不能被忽視 研究故障規律,針對性設計故障修復預案 災難型、容量型、變更型 要持續度量,看到進步,更重要是看到短板和改進方向34以快速修復為目標,整合系統相關的技術棧各層能力,整合從運維、產研、值班、客服等團隊協同,盡快速度修復故障。Thanks開放運維聯盟高效運維社區DevOps 時代榮譽出品35

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(張觀石-SRE體系-快速修復一個故障的套路.pdf)為本站 (2200) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站