《賈濤-運營商體系下業務的云原生數智化轉型實踐.pdf》由會員分享,可在線閱讀,更多相關《賈濤-運營商體系下業務的云原生數智化轉型實踐.pdf(22頁珍藏版)》請在三個皮匠報告上搜索。
1、2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站運營商業務數字化轉型實踐賈濤 技術主管中國移動通信集團遼寧有限公司 運維專家SRE技術專家負責運營管理、智慧運維、應急保障等平臺的建設工作01轉型挑戰數字化轉型面臨的挑戰02業務治理運營商業務治理理念03落地實踐數字化轉型中的實踐經驗04演進思考運維可觀測的演進方向目目錄錄Content01轉型挑戰數字化轉型面臨的挑戰2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站數字化轉型過程中衍生出越來越復雜的運行環境云原生時代業務應用愈發復雜多變,環境、場景和技術越來越多樣化,系統迭代更加敏捷,而運維工具
2、繁多、功能參差不齊,產生的數據相互割裂,形成的分析結果關聯性不強,無法實現全局運維掌控的要求。3rd parties移動用戶Web用戶壓力測試主動撥測WEB組件計算、存儲數據庫應用組件微服務視角不同模型不一數據缺失告警泛濫難以關聯2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站業務轉型過程中傳統運維視角帶來的局限為了更好的適配云原生的多層架構,不僅要實時監測基礎設施各項指標、業務日志、服務鏈路等,還需要建設多種垂直監測工具及平臺,統一了數據管控平臺,通過點對點的觀測解決一部分問題??此品椒矫婷娑急O控到了,但缺少了數據的關聯性和分析排查的連貫性,遇到問題,只能通過大規模
3、排查分析,問題發現和定位的效率低。垂直觀測工具零散觀測點多種垂直監控平臺日志指標服務鏈看板監控運維能力現狀傳統的工具是垂直向的,引入一個新的組件的同時也引入一個對應的觀測點,為保障數據全面性,搭建了很多監控管理工具。監控工具眾多數據相互獨立通常我們會基于自己想要的數據去構建分析視角,而監控點各自獨立,沒有關聯成面,數據缺乏關聯性。通過零散的監控工具看見局部的觀測點很難預料業務出問題時有哪些點可以去監控?掌握問題的線索時要不斷切換工具去定位收集到的監控規則不能完全有效復現問題?2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站可觀測性成為云原生架構下業務監控的良藥監控可觀
4、測告警Alerting排錯:診斷故障出現的原因Debugging概況Overview剖析:進行性能分析Profilling依賴分析:厘清關系Dependency虛擬資源監控分析容器資源監控分析基礎設施資源監控應用性能分析業務性能可分析客戶端用戶體驗分析基礎軟件監控分析可觀測視圖擴展高效排障體系運營運行運營團隊SRE團隊可靠性業務運維團隊PaaS層PaaS運維團隊IaaS層IaaS運維團隊找到異常的原因全方位的可觀測性,能夠實時地、清晰地挖掘場景化問題,利用靈活調配、協作等打破數據孤島。02業務治理運營商業務治理理念2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站基于可
5、觀測理念重定義業務監控運維體系,契合新時代趨勢應急保障人員業務運營人員指揮調度人員平臺運維人員本地云容器云IT云提升服務質量指標鏈路日志故障分類處置提升可見性AutoOPS通知服務變更管理AIOPSCI/CD業務流程再造高可用治理可觀測埋點治理業務系統服務治理業務鏈標準服務鏈標準資源鏈標準數據標準一體化可觀測平臺平臺高可用專項治理可觀測埋點非功能測試制度保障端到端全局觀測業務健康分析觀測面向運維:故障快恢面向一線:技改優化資源級故障自主分析處置業務服務頁面觀測程序級故障全過程追蹤業務規則異常優化過程追蹤數據基座指標體系業務模型基礎能力觀測能力2023 DevOps 國際峰會 暨 BizDevO
6、ps 企業峰會 北京站基于可觀測理念重定義業務監控運維體系,契合新時代趨勢運維人員告警/故障通知運維專家專家運維知識混合IT環境IT云網絡云移動云APMUEMRUMLog4X 業務故障預警 態勢感知大盤故障根因定位輔助運維決策專家運維知識數據采集一體化可觀測平臺預警告警/故障運維數據人工故障定位可觀測數據底座 全棧式 故障追蹤指標鏈路日志業務健康度告警/故障03落地實踐數字化轉型中的實踐經驗2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站圍繞業務系統開展服務治理,提供全鏈路的運營管控策略業務高可用治理業務流程再造治理可觀測埋點治理套餐變更業務過程業務辦理步驟2步驟3步
7、驟5步驟3步驟6DBRedisRedis消息隊列消息隊列基礎設施PaaS平臺應用服務業務流程流量控制服務降級服務熔斷并發超時網絡抖動機房切換通用能力中心帶標識的業務代碼業務能力中心改造的陣痛業務的強健2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站規范可觀測數據接入,實現分層級布控納管業務數據接入標準不包含:設計階段-業務鏈節點 接入階段-指標閾值 接入階段-節點與首服不包含:黃金指標權重(接入配置)應用數據接入標準組件數據接入標準基礎設施數據接入標準業務鏈路 標準服務鏈路資源鏈路WEB數據預處理調用鏈概要數據統計數據調用鏈全鏈路數據ESHbaseRDBMS健康度計算
8、黃金指標配置APPAPM應用服務業務服務DBK8S組件基礎設施包含:業務數據接口標準 業務鏈串聯標準 標準黃金指標(4)健康度計算模型標準包含:數據接口標準 標準指標-生死線+黃金+普通 健康度計算模型標準標準2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站全局可觀測:層層深入,一屏展示全局平面業務平面業務辦理量辦理耗時及步驟分析交易成功率分析業務異常列表業務辦理步驟用戶體驗平面page總耗時分析大于5秒page分析白屏耗時分析應用平面服務調用失敗TOP服務平均時長TOP關聯Deployment分析CPU、內存平臺平面主機性能數據庫連接數表空間PaaS健康IaaS健康
9、業務健康服務健康全局觀測業務異常列表業務辦理步驟服務分析數據庫分析層層深入2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站可觀測雙引擎:面線運維重快恢,面線一線強體驗從業務健康度出發,緊密結合運維服務場景,創新服務質量測評手段,實時精準獲取客戶的感知,有效指導生產運營。123132優化操作:擬現用戶操作軌跡,完成小組間、地市間、全省的橫向比對,精準推送知識要點,提升服務技能優化頁面:針對WEB頁面上的頁面及菜單調整優化,提升頁面的使用體驗堵點分析:對于業務健康度下降后,自動觸發堵點分析,摸排定位故障節點、報錯信息程序級故障溯源:程序級故障在臨時修復同時,自動啟動故障溯
10、源,通過專題治理,推動解決優化系統級故障修復:資源級故障進入故障自愈場景,實現故障分級自愈關注故障分級處置關注服務優化優化規則:業務規則異?;趫箦e表象及規則關聯并持續跟蹤,推動業務系統技改優化面向一線面向運維2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站面向運維:業務故障自動處置,助力提升運維質量 系統S1系統S2系統S3系統S4A1A2A3A1A2A3能力中心C1能力中心C2HDFS集群NNodeDNodeHBASE集群MasterHRServerZK集群主機1主機2主機3主機4主機51234接收回復短信識別并操作短信通知結果321自動重啟自動擴縮容自動清理DB
11、調優堵塞原因JS后臺報錯SQL性能規則校驗互斥程序級問題系統級問題數據庫宕集群節點宕機外部調用失敗服務超時運維人員規則校驗前置用戶體驗優化應用負載瓶頸開發人員前端性能優化優化方案需求編碼BUG編碼擴容改造需求平臺定位異常系統定位異常服務定位異常組件找出故障節點發現業務異常1234故障自動定位故障自主修復(a)(b)溯源管理業務瓶頸快速發現業務堵塞智能定界程序問題溯源優化全局觀測跟進分析全局運維發現異常異常跟進分析服務維度業務維度系統故障自動處置2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站面向一線:操作行為自動分析,快速補齊業務短板操作環節定制核心指標抽取操作橫向比
12、對知識精準推薦成效自動記錄u用戶關鍵操作定制u關鍵指標定制u統計窗口定制u個人與全省平均水平比對u營業廳間橫向比對u操作步驟u操作耗時u操作成功率u業務操作手冊u新業務規則宣傳視頻u學習時間記錄u學習前后操作比對個人操作軌跡提取,薄弱環節一目了然營業廳間橫向對比,區域能力精準提升2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站面向一線:操作界面智能優化,提升一線工作效率頁面卡頓分析治理菜單智能排序清理多維指標綜合評分,直觀反應用戶體驗菜單使用熱度菜單優化建議無用菜單評估排序下線隱藏常用菜單一點可達,無用菜單及時清理2023 DevOps 國際峰會 暨 BizDevOp
13、s 企業峰會 北京站面向一線:規則異常實時跟蹤,支撐業務技改優化問題溯源管理前端UI優化SQL調優校驗邏輯優化優化方案需求管理平臺業務級問題套餐規則產商品規則業務規則異常檔案庫檔案查詢異常處理方案更新未找到異常檔案溯源查找問題根因業務規則優化規則異常標記業務規則失敗率激增業務健康度系統失敗率規則失敗率業 務 量異常檔案策略為優化,需要進行技改優化新優化需求BUG修復找到問題根因,需要進行技改優化忽略優化異常檔案策略為忽略,優化健康度算法,重新計算規則異常統一捕獲處置策略精準執行優化流程閉環管理業務時長04演進思考運維可觀測的演進方向2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站可觀測未來發展思考數據展示+人工關聯比對+人工判斷信息關聯展示+人工判斷信息判斷 x 人工判斷信息判斷+行動支撐能力潛在難題當前2023 DevOps 國際峰會 暨 BizDevOps 企業峰會 北京站ThanksD De ev vOOp ps s 時時代代社社區區榮譽出品