郭旻欣-江蘇電信 IT 運維轉型之 SRE 體系建設實踐.pdf

編號:122109 PDF 33頁 5.28MB 下載積分:VIP專享
下載報告請您先登錄!

郭旻欣-江蘇電信 IT 運維轉型之 SRE 體系建設實踐.pdf

1、江蘇電信IT運維轉型之SRE體系建設實踐郭旻欣 SRE負責人中國電信集團云化架構師、內訓師、云眼產品經理江蘇電信IBOC SRE 團隊負責人江蘇電信云運維一級專家江蘇電信“勞動模范”獲得者困難與挑戰穩定運營保障體系運營專項行動困難與挑戰系統的變革煙囪式動蕩平穩架構演進2020年7月,中國電信啟動“IT上云三年計劃”,2022年中國電信全面上云后,運維面臨巨大挑戰上云系統PaaS層統一采用研發中心自研組件,IaaS層上天翼混合云,原屬地化維護變為多單位維護2分布式架構帶來系統節點、微服務數量呈幾何級數增加,監控工作量急劇上升3監控對象間關系極其復雜,人工維護無法勝任4數據分片、異地存儲,傳統維護

2、模式難以為繼面臨的困難與挑戰 運維團隊分散,各自為戰CRM團隊計費團隊OSS團隊PAAS團隊 缺乏集約化運維工具云眼AIOPSITSM 運維流程管理混亂風險隱患流程故障管控流程應急預案流程風險操作流程 運維監督檢查不到位隱患整改運維操作架構部署應急演練監控覆蓋故障閉環 IT運維規范不完善風險操作監控部署隱患排查應急演練系統優化尋求IT運維轉型構建穩定運營保障體系(如何做)+開展運營專項行動(高效做)穩定運營保障體系SRE穩定運營保障體系圍繞“故障次數、時長雙壓降”一個目標,依托四大運營驅動力,聚焦“做細事前故障預防、敏捷響應事中故障處理、抓實事后故障改進”三個階段,形成“規范、動作、能力”三統

3、一運營體系,建強穩定運營能力,減少故障發生,提升客戶感知一個目標三個階段四大運營驅動力三個統一運營專項行動圍繞四大運營驅動力,做實五大舉措舉措一 組建SRE運營團隊鐵三角:運營管理團隊:值班長AB角值班機制一線運維團隊:7*24小時值班機制二線運維專家:專家團隊負責運營專項攻堅舉措二 用好數字化工具三工具:云眼平臺:集約化監控平臺鳳凰平臺:全鏈路監控與可觀測工具ITSM系統:運維流程數字化工具舉措三 加強運維流程管控四流程:隱患排查流程應急預案流程風險操作流程故障管控流程舉措四 做實檢查獎罰并舉三手段:健康評估 積分驅動 檢查考試舉措五 健全IT運維規范十規范:統一規范制定:固化沉淀、精簡實用

4、、與時俱進強化規范執行:系統管控、智能提醒、狠抓落實一、團隊組建(1/4):組建SRE運營團隊運營管理團隊(牽頭)二線專家團隊(協同)一線值班臺(協同)人員:IT監控中心運維團隊職責:承擔中心運營事件的預處理工作,包括集團云眼、鳳凰等平臺告警響應與告警調度工作等;落實7*24小時值班機制,承擔全部門的夜間值班工作人員:組建二線專家團隊,按需抽調專家人員,根據工時計算積分職責:負責故障定責、故障復盤、規范制定、流程優化、工具打造、運營檢查等工作;牽頭本部門穩定運營工作人員:運營管理團隊職責:負責IT穩定運營、故障壓降;落實每日值班長AB角值班機制,承擔服務響應、事件處理、集中監控、調度處理、客感

5、分析等“五歸口職責”運維檢查評估:參與中心組織的系統告警完備度、風險隱患、風險操作、應急預案、故障整改等專項檢查,參與系統四級運營能力評估風險操作審批:負責對重大風險操作實施方案、系統應急預案、回退方案等進行審批故障應急處置:輸出專家經驗,出現故障是快速加入聯合作戰室,協同業務團隊處理生產系統故障故障復盤分析:參與每起故障復盤分析,舉一反三、由點帶面,從中心層面發現深層次的問題,并驗收故障整改情況參與故障定責:負責對跨專業故障進行分析,定責故障責任專業沉淀運維規范:參與中心IT運維規范制定,包括風險操作、監控部署、應急預案、PaaS使用等內容,將開展的故障診斷、故障處理、故障復盤等經驗總結輸出

6、,并完善IT運維規范二線專家團隊“6項”職責SRE運營團隊“3個”小組一、團隊組建(2/4):營造運維文化-運維吐槽大會 目標營造“運維文化”氛圍,提升運維人員存在感、歸屬感 搭建舞臺激發運維人員活力,總結沉淀IT運維經驗 舉措一:運維吐槽大會主咖:IAAS/PAAS維護團隊、運維工具開發團隊等主題:“技術玩真的,吐槽來狠的”期望:聆聽運維人員心聲,收集IT運維工作的建議;切實推動解決IT運維痛點難點,為運維人員減負運維吐槽大會一、團隊組建(3/4):營造運維文化-小羲說運維 舉措二:小羲說運維搭建運維人員展現自我舞臺,沉淀運維經驗,對外賦能欄目內容包括“故障大剖析”、“規范小貼士”、“運維藏

7、經閣”、“上新了,小羲”四大板塊欄目欄目內容欄目形式故障大剖析典型故障案例分析,包括故障基本情況、故障經驗教訓等微信群圖文/微信公眾號推文規范小貼士解讀IT運營規范,把繁冗的規范精簡提煉成容易記憶的要點微信群圖文/微信公眾號推文運維藏經閣以文章的形式分享前沿IT運維知識微信公眾號推文上新了,小羲介紹新上的IT運維工具微信群圖文/微信公眾號推文一、團隊組建(4/4):營造運維文化-故障目標認領&零故障體系構建故障目標認領體系根據2022年故障情況,制定2023年故障壓降R0、R1、R2目標根據故障壓降認領目標達成情況,獲得相應積分獎勵部門年度故障壓降目標(R0)積分獎勵(萬分)年度故障壓降目標(

8、R1)積分獎勵(萬分)年度故障壓降目標(R2)積分獎勵(萬分)JS135127119Billing453729CRM554739OSS453729EDA655749MSS453729GH352719合計393225故障次數壓降可認領目標故障平均時長壓降可認領目標部門年度故障時長壓降目標(R0)積分獎勵(萬分)年度故障時長壓降目標(R1)積分獎勵(萬分)年度故障時長壓降目標(R2)積分獎勵(萬分)JS750.5651552Billing450.5401302CRM350.5301252OSS450.5401302EDA500.5401302MSS450.5401302GH450.5401302合

9、計544840序號故障情況獎勵基數獎勵積分上限(分)11個月零故障400 164002連續2個月零故障840344403連續3個月零故障1280524804連續4個月零故障1720705205連續5個月零故障2160885606連續6個月零故障26001066007連續7個月零故障30401246408連續8個月零故障34801426809連續9個月零故障392016072010連續10個月零故障436017876011連續11個月零故障480019680012連續12個月零故障5240214840零故障激勵體系構建零故障激勵體系根據系統運營情況,對連續未發生故障系統進行分檔獎勵獎勵積分=獎勵

10、基數*系統等級系數A類大系統、A/B類小系統、C類小系統等級分別對應2.5、1、0.5(A、B、C代表系統重要性;大小代表系統規模)二、摸清家底:CMDB資產全面梳理CMDB資產應用場景建立CMDB精準納管三層資源數據以場景為導向,完成資產項模型設計IaaS 13個、PaaS 32個、SaaS 3個打破數據孤島,完成資產項之間的關系設計57個模型滿足關聯查詢、故障輔助定位、虛擬結算等后續場景需要推動納管系統CMDB資產信息100%準確納管系統全量梳理,開展資產認領、數據梳理錄入建立全生命周期的IT資源管理體系,實現從靜態資源管理向動態資源流程的轉變提供系統維度全量資產查詢頁面,確保應用及時核對

11、資產數據準確性三、集中調度(1/2):監控調度 全層級監控覆蓋網絡、IAAS、PAAS、SAAS(服務探測、日志監控)、業務指標等維度,實現自上而下全層級監控 告警標準化告警系統、告警層級、告警場景、告警時間、告警等級、系統負責人、監控視圖等信息告警系統:CRM系統告警層級:SaaS層告警場景:服務探測告警時間:2023-03-16 22:39:00告警等級:致命告警系統負責人:張*、李*監控視圖:CRM系統監控視圖地址告警運營監控大屏 告警集中調度與閉環管控致命級別告警推送至1類群,嚴重級別及以下告警推送至2類群1類群致命告警由IT服務臺實現7*24小時監控調度服務臺通過告警運營監控大屏進行

12、告警確認和原因記錄,實現閉環管控2類群告警調度1類群告警調度三、集中調度(2/2):值班巡檢值班簽到提醒值班簽到巡檢值班簽到頁面 值班要求系統負責人通過云眼、鳳凰等平臺,于每日7點前完成系統晨檢工作每月28日前排定系統值班表;每日組織值班抽查,需在15分鐘內完成值班簽到需落實每日AB角值班制,嚴格執行錯峰上下班、用餐,保證電話7*24暢通四、集約流程管控(1/4)-風險操作流程管控 風險操作流程從發起流程至竣工,包括6個環節提前24小時申請時間限制,預留充足時間評估風險操作方案 風險操作快速通道共4個環節,快速流轉工單故障隱患修復類緊急快速通道,可“當天發起,當天操作”成效流程管控:嚴格“事前

13、、事中、事后”風險操作執行,提升風險操作規范性,關注操作步驟、業務驗證、回退預案等重點事項彈窗提醒:發起流程的彈窗提醒,包括具體操作、特定內容注意事項提醒微信自動化提醒:每日15:00、18:00推送當日風險操作信息至“信息共享微信群”,流程審批完成后方可執行領導審批竣工操作實施驗證發起流程技術審批領導審批竣工操作實施操作驗證發起流程風險操作彈窗提醒風險操作信息共享四、集約流程管控(2/4)-風險隱患&應急預案流程 風險隱患管控流程 成效 動態梳理:應急演練、故障隱患、巡檢(日常巡檢、專項巡檢)、定期自主排查 流控管控:全面排查風險隱患并錄入風險隱患流程閉環管理 待辦提醒:按月發送OA待辦通知

14、,每月更新隱患整改進展 關聯預案庫:風險隱患清單,可直接關聯應急預案庫竣工發起流程 應急預案管控流程 成效 建立集中應急預案庫:系統清單級管理,涵蓋隱患內容,每半年更新確認 關聯應急演練流程:應急演練內容按照事先錄入的應急預案開展,集中組織、管控效果、通報進展四、集約流程管控(3/4)-故障管理流程 故障管理流程故障登記IT服務臺通過故障管理流程錄入故障信息故障復盤故障報告提交后,故障復盤owner組織SER專家團隊進行故障復盤,共同細化故障整改方案圍繞“心態開放、理性務實、鼓勵改進、反對推諉”原則,還原故障過程,挖掘故障根因故障反饋根據復盤結果,完善故障報告,覆蓋故障原因、故障處理過程和故障

15、整改措施通過流程制定應急演練、風險隱患、整改措施計劃,系統自動生成待辦工單至整改負責人崗上故障驗收專家團隊針對故障整改舉措、風險隱患和應急演練完成情況進行驗收故障閉環管理流程四、集約流程管控(4/4)-強化故障復盤管控 二個準備:1、故障分析報告初稿;2、確定復盤owner 六個環節:1、故障背景概述;2、對齊故障影響范圍;3、故障時間線回放;4、故障根因剖析;5、改進項匯總;6、定級定責 三項原則黃金四問:根因是什么?如何避免發生(降低MTBF)?如何快速恢復(縮短MTTR)?我們還可以做些什么(舉一反三,從流程、規范、制度、工具等方面)?改進項遵循SMART原則:S-具體的(Specifi

16、c),M-可衡量的(Measurable),A-可達到的(Attainable),R-與其他目標具有一定的相關性(Relevant),T-有明確的截止期限(Time-bound)定責處罰:定責的原則是對事不對人,這件事情一定要有人承擔責任,這里承擔責任的意思是說負責后續改進措施的執行與落地,最終的目的是鼓勵做事,而不是處罰失敗 復盤后續故障復盤結果通告:保證信息透明,同時引以為戒故障改進項閉環:持續跟蹤,閉環管控復盤owner職責提前梳理、洞察細節:復盤會議前根據故障處理報告初稿推動所有故障干系方完成時間線的梳理、核實影響的數據法官判定、中立權威:復盤會議中引導參會人員推動復盤進度,避免出現一

17、些無意義的指責、與故障無關的發散討論等復盤總結,結果通告:復盤會議后形成復盤報告并對復盤結果進行通告故障復盤流程五、智能運維工具(1/5):構建三屏聯動可觀測平臺業務可視化監控大屏基礎設施可視化監控大屏系統可視化監控大屏業務大屏SLO:地圖關聯核心應用服務水平,直觀展現業務健康態勢SLI:一屏展現全域關鍵業務監控指標,包括在線人數、訂單受理量、竣工率、受理時長、話單量、停復機量等歷史聯動:同比環比展現業務變化趨勢,更大時空維度聯動設施大屏面:展現核心機房網絡質量、全域軟硬件資產分布及使用點:直觀顯示各系統健康狀態、告警情況,監控中屏一鍵跳轉系統大屏全鏈路:基于系統架構部署圖,展示網絡、IAAS

18、、PAAS、SAAS、業務指標、主機操作日志等全鏈路監控視圖典型案例告警聯動:Ngnix集群單服務器故障,中屏拓撲觀測區Ngnix模塊立即變紅、閃爍提示異常,橫屏關鍵指標主機存活數減少1臺;故障1分鐘內中屏右側主動推送故障主機失聯(IAAS)、Ngnix失聯告警(PaaS),聯動推送主機人為誤操作關機行為日志(日志)圖文并茂:故障發生時中屏拓撲觀測區Ngnix模塊立即變紅、閃爍提示異常,橫屏關鍵指標主機存活數減少1臺五、智能運維工具(2/5):基于RPA技術打造數字哨兵覆蓋多場景巡檢業務營業受理訂購附屬(6個環節)營業受理寬帶新裝(9個環節)賬務前臺充值沖正(7個環節)多維度、全環節監控場景巡

19、檢異常監控:環節巡檢異常告警巡檢耗時監控:場景全流程耗時超閾值、單環節耗時超閾值告警RPA異常監控:場景無數據上報監控監控調度6:00-24:00,5分鐘周期全時探測巡檢巡檢結果推送至“RPA全時探測群”,一線運維團隊負責調度二線運維人員RPA全時探測巡檢系統登錄選擇開通渠道耗時1s輸入手機號選擇客戶耗時3s客戶身份鑒權耗時30s附屬銷售品查詢和訂購耗時4s購物車結算進入收銀臺耗時4s清空購物車關閉瀏覽器耗時10sRPA全時探測巡檢業務流程五、智能運維工具(3/5):打造移動端半自動化故障自愈工具監控視圖:監控視圖URL應急工具:處置工具URL 移動端半自動化故障自愈工具,壓降故障時長 移動端

20、串聯起告警、監控視圖、故障處置環節,實現半自動化故障自愈 通過微信推送告警的同時,直接推送監控視圖和移動端處置工具鏈接告警信息可觀測視圖一鍵切換工具五、智能運維工具(4/5):AI場景應用 單指標異常檢測 針對CPU、內存、數據庫連接數、業務量等指標,學習數據歷史規律,生成動態閾值基線,進行異常檢測并推送告警業務量突降AI場景應用五、智能運維工具(5/5):智能告警關聯分析 目標基于IAAS、PAAS、SAAS告警,實現告警數據的實時運營分析,形成多維度的告警畫像,輔助IAAS、PAAS、SaaS 3類運維人員快速確認故障影響范圍 成效三層告警視圖:結合CMDB信息將IAAS、PAAS、SAA

21、S 3層告警聚合到系統維度,形成面向IAAS、PAAS、SAAS 3類運維人員的綜合告警視圖告警關聯分析:經驗沉淀,基于規則實現多告警關聯智能分析和預判提示。案例:多虛機故障告警時,結合CMDB智能判斷是否屬于統一物理機、統一存儲等共性,并提供故障智能預警智能告警運營分析IAAS層告警PAAS層告警SAAS層告警IP系統ID系統IDCMDB關聯告警中心告警運營分析大屏 查看系統維度關聯告警 及時發現故障影響范圍 三層告警(系統維度聚合)關聯告警自動推送 各層告警自動關聯推送,輔助定位故障原因告警關聯分析六、構建系統“四級應急體系”應急體系一:分布式緩存全阻(應用高可用)用于存放系統配置、支付訂

22、單等數據,全阻時可穿透緩存至數據庫停緩存全部Access進程 應急體系二:第三方支付通道故障(業務高可用)“掃碼支付”當前通道異常時,將根據優先級自動切換至第二通道,二維碼可正常展示,用戶正常支付專線網絡故障 應急體系三:K8S 集群故障(集群級切換)當單集群(Billing-1或Billing-2)故障時,可人工修改NG轉發策略配置將流量路由至另一個集群集群billIng-1/billing-2故障 應急體系四:生產機房故障(跨機房容災)支付中心雙機房容災部署架構。一套生產(吉山),一套災備(鼓樓)吉山機房故障“四級應急體系”(以支付中心為例)極端場景30分鐘業務恢復目標,構建“應用級、業務

23、級、集群級、跨機房級”四級應急體系七、構建SRE系統運營能力評估體系(1/2)SRE系統運營能力評估體系評估標準覆蓋基礎信息、故障預防、故障發現、故障定位、故障恢復、故障改進6大能力域,共26個能力子項事前做細,夯實基礎、事中敏捷,快速應對、事后抓實,全方位改進,構建系統運營全生命周期的穩定性評估體系一級(初始級)、二級(基礎級)、三級(全面級)、四級(優秀級)評估預期收益從第三方視角挖掘疑難雜癥,查漏補缺,明確系統未來持續優化的方向,指導系統提升運營運維能力推動系統之間相互借鑒優先案例,培養與提升運維人員專業能力SRE系統運營能力評估體系系統運營能力評估畫像七、構建SRE系統運營能力評估體系

24、(2/2)分數驅動,定級獎懲總分100分:一級(得分70)、二級(70=得分80)、三級(80=得分=90)每半年作為一個評估周期,周期結束后進行分數匯總和定級,形成半年度的系統運營能力畫像,并根據定級結果對系統進行激勵 評估細則,動態調整為保證系統運營能力評估合理性及有效性,系統運營能力指標項及權重根據生產運營情況動態變化 評估分值,實時更新每評估完一項指標分數實時更新,通過系統運營能力畫像看板實時查看當前分值 工具支持,有效管控打造系統運營能力評估工具,提升評估效率和自動化程度構建系統運營能力畫像視圖,促進系統主動改進,形成“問題閉環”與“你追我趕”的改進氛圍評估方式人員訪談材料審查模擬演

25、示自動取數八、加強IT運維規范沉淀和執行 目標IT運維規范整體包括三大部分十個章節,以“統一規范、統一動作、統一能力”為基本要求,打造IT運維工作的指導書、工具書 成效確立一心兩翼一抓手:通過CMDB建模構建IT資產管理核心,通過監控部署管理、服務輿情管理完善內外感知通道,通過日常值班管理發揮IT監控中心的統一調度和管控作用夯實五個基礎:通過主機、網絡、數據庫、PAAS組件、大數據平臺的運營規范要求,進一步夯實IT基礎設施平臺穩定運營的基礎性作用固化四項流程:通過應急演練管理、風險隱患管理、風險操作管理、系統故障管理,在系統中固化四項流程,形成四項清單,構建電子化、流程化、清單化的統一管理要求,實現故障次數和時長雙壓降規范宣貫:組織宣貫、小貼士、每季度開展IT運維規范考試,加強運維人員的規范意識迭代沉淀:在運維實踐中迭代更新規范內容,形成經驗總結和案例沉淀IT運營規范總體視圖IT運維規范考試形成SRE運維體系“系統納管五步十流程”第一步:摸清系統家底第二步:系統集中調度第三步:系統集約管控第四步:系統運營能力提升第五步:系統運營手段管控Thanks開放運維聯盟高效運維社區DevOps 時代榮譽出品

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(郭旻欣-江蘇電信 IT 運維轉型之 SRE 體系建設實踐.pdf)為本站 (2200) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站