《02 金蝶云穩定性運維及平臺建設實踐分享V2.1.pdf》由會員分享,可在線閱讀,更多相關《02 金蝶云穩定性運維及平臺建設實踐分享V2.1.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、金蝶云穩定性運維及平臺建設實踐分享金蝶軟件(中國)有限公司鄒俊金蝶云穩定性運維及平臺建設實踐分享鄒俊金蝶軟件(中國)有限公司研發工程與運維部/副總經理資深運維專家資深架構專家金蝶軟件23年,20多年ERP產品領域軟件研發、技術服務、運維運營實踐工作經驗02金蝶云運維發展與挑戰穩定性運維及平臺建設的思考011-1.金蝶云業務與運維|1-2.問題與挑戰2-1.金蝶云運維工程體系建設|2-2.運維平臺建設033-1.運維工程實踐|3-2.混沌工程探索金蝶云運維工程實踐金蝶云運維發展與挑戰01金蝶云業務與運維1萬+中大型客戶數30萬+小微客戶數1200+數據量(TB)2013團隊建立金蝶云星空金蝶云蒼
2、穹金蝶云星瀚金蝶云星辰精斗云KIS云問題與挑戰客戶需求:變化快、響應及時系統環境:運行穩定、性能高效業務特色:系統復雜、計算量大 人財物、系統集成、二次開發 月末結賬、成本核算、MRP運算業務視角運維視角安全:內外部安全合規產品:多產品、多版本、更新迭代運維:運維規范、運維平臺建設 運維規范不統一 業務監控能力弱 系統穩定性與性能要求高 運維效率與質量要求高穩定性運維及平臺建設的思考02穩定性運維的思考面向客戶,提供可視化運維管理,讓客戶參與運維、看到運維云上資源實時監控,異地多活災備多產品運維服務統一入口,易用穩定基于場景、角色提供不同維度數據分析天梯1.0天梯2.0天梯3.0V1.0:基礎
3、運維從被動支撐到主動驅動,提供安全、穩定、可靠的運維自動化服務V2.0:高效能運維提高自動化效率與穩定性,全面監測、異常告警,為客戶提供高質量的自動化服務V3.0:高價值運營貫穿運維全生命周期,面向運行質量與體驗數字化精細管理與運營,助力產品做到極致自助運維多產品安全高可用數字化運營運維的演進穩定安全可靠體驗質量效率價值運營經營DevOps工程能力中心金蝶云運維工程體系建設:端到端產品全生命周期穩定性能力建設穩定性運維能力中心穩定性平臺門戶客戶需求管理能力原始需求池有效性評估優先級評估研發過程管理能力發布申請版本迭代用戶故事特性管理任務管理缺陷管理測試管理評審管理補丁管理技術測試平臺單元測試接
4、口測試UI測試性能測試撥測平臺版本庫構建打包制品庫自動化代碼掃描安全掃描運維及監控質量門禁事件管理運維監控業務監控異常監控自助運維預警中心態勢感知產品運營分析能力中心產品使用優化效果評估優化任務管理產品使用分析結果反饋質量效能看板產品使用看板運維看板服務響應看板運維門戶研發門戶CI配置管理生產部署發布申請預發布變更監控灰度發布CMDB作業平臺CI服務管理發布管理運維監控平臺產品研發運維監控產品運營產品價值傳遞活動管理安全運營中心安全管理看板安全運營冒煙安全研發管理fortify源碼掃描DC依賴掃描開源及第三方軟件漏洞庫管理金蝶PSIRT門戶Pipeline需求反饋待辦清單項目集/項目管理產品價
5、值傳遞分析大數據分析能力中心數據應用數據服務數據治理數據建模實時數倉離線數倉數據采集運維平臺能力建設:金蝶云天梯監控告警平臺自動化運維平臺多云多產品監控平臺容器業務主機網絡中間件蒼穹&星瀚星空企業版星空旗艦版星辰運維看板全網看板客戶看板告警大屏資源管理標準運維變更管理網絡管理備份管理作業平臺Agent管理作業編排腳本管理系統管理平臺配置多云適配多產品管理基礎設施容量管理租戶管理權限管理配置管理開放服務運維命令WebAPI安全運維告警平臺告警處理告警生成數據存儲數據接入事件管理事件工單流程跟蹤SLA預案管理精斗云KIS云數據智能服務數據服務AIOps平臺AIOps場景標簽管理運維門戶運營分析業務
6、運維管理移動運維IaaS成本管理運維效能&質量消息中心運維巡檢微服務接口客戶自助運維金蝶云運維工程實踐03穩定性監控:全網看板(客戶規模、用戶規模、運維任務、運維環境、系統監控、ELB、撥測、數據庫異常、業務分析)系統監控服務撥測監控ELB監控運維任務監控數據庫監控:數據庫巡檢報告與慢SQL報告(數據庫分布、RDS巡檢、數據備份、數據規模、臨時表、慢SQL、性能與耗時)數據庫監控慢SQL監控數據庫巡檢報告客戶自服務:客戶運維看板(系統信息、健康度檢查、應用服務、數據庫服務、網絡、系統運維、訪問量、性能、SQL)系統健康度檢查數據庫服務器監控數據庫健康度監控網絡監控運營分析:運維效能與質量分析(
7、運維任務規模、自動化率、作業效能、運維效率、運維時長、客戶運維行為分析、SLA)運維質量與效能分析運維效能月報常態化運維:變更管理(變更流程、變更策略、變更作業、變更日報)變更日報版本發布管理作業平臺定時作業運維命令按區域分配執行目標池超時告警執行異常腳本編排執行歷史制品庫公有云補丁倉庫CMDB租戶環境管理數據中心管理集群管理MC管理變更管理支撐場景預發布沙箱、POC生產第一階段生產第二階段生產第三階段變更策略標準補丁多語言補丁行業補丁ISV補丁變更流程灰度緊急補丁正式緊急補丁紅藍灰敏穩雙態補丁合并升級補丁依賴多區域升級變更配置補丁安裝申請單補丁變更可視化消息中心云之家短信郵件產品彈窗客戶運維
8、大批量客戶環境手工打補丁研發解決問題慢,進度不可知歷史補丁發布情況無回溯通道運維安全:安全月報(WAF、防火墻、安全設備、攻防數據趨勢)安全態勢感知看板攻擊類型分布統計告警平臺:業務監控、數據庫監控、告警策略、告警處理、告警閉環、告警度量告警閉環告警通知故障自愈事件工單告警值班監控場景業務監控數據庫監控主機監控組件監控數據接入指標Metrics日志Logs調用鏈TracesEvents數據可視化運維看板告警大盤服務撥測即時查詢數據采集動態采集自定義上報告警生成告警策略告警收斂告警模板告警分級告警防抖數據存儲&異常檢測關鍵詞檢測無數據檢測實時檢測時序數據庫日志數據庫告警處理告警屏蔽告警升級告警自
9、愈移動告警知識庫日志監控指標監控監控平臺調用鏈監控統一告警平臺緊急事件處理:按燈機制、應急響應、事件管理技術支持/業務運維紅燈標記應急響應負責人:產品總監、產品總經理問題響應處理應急響應負責人:研發總經理、分管VP通報領導小組應急響應負責人:產品總監、產品總經理紅燈解除關閉工單解決同步云之家結束徹底解決工單流轉技術支持/業務運維問題識別用戶問題反饋質量運營部復盤、改進、落實工單流轉故障持續時長X小時匯報通報處理結果匯報事件管理系統對混沌工程的理解Chaos Engineering is the discipline of experimenting on a system in order t
10、o build confidence in the systems capability to withstand turbulent conditions in production.混沌工程是一門在系統上進行實驗的學科,目的是建立對系統在生產中承受動蕩條件的能力的信心。注意控制爆炸半徑要注意控制影響范圍盡量選擇可回退的故障注入方法回退時間可控核心思想:通過主動在生產環境或準生產環境引入故障因子,驗證系統應對故障的能力故障場景分析比故障注入更重要深入理解業務功能深入理解客戶體驗深入理解技術架構深入理解障場景混沌工程實踐注意事項:2021年2022年2023年研究跟進混沌工程技術和騰訊云、華為
11、云、阿里云交流混沌工程技術;在H1高可用演練中使用混沌工程工程技術;在H2容災演練中使用混沌工程技術。繼續深化使用混沌工程技術在高可用、容災演練中采用混沌工程模擬常見故障場景,提升運維人員的對日常故障處理的應急響應能力。金蝶云混沌工程應用情況編號部分演練場景工具1負載均衡服務故障或負載均衡地址被DDOS攻擊需切換到新的負載均衡服務騰訊云混沌演練平臺2數據庫CPU過載自建腳本3數據庫磁盤空間滿自建腳本4Redis 內存過載自建腳本騰訊云混沌演練平臺1、CLB故障或CLB地址被DDOS攻擊需切換至新的CLB2、使用騰訊云tccli命令來克隆原有CLB#命令參考tccli clb CloneLoadBalancer-cli-unfold-argument-region ap-guangzhou-LoadBalancerId lb-ntbqsxuq-LoadBalancerName 測試克隆CLB3、將域名手動指向到新的CLB,測試是否正常4、測試正常后,需將DNS指向新的CLB地址(此步驟在此次演練中無法進行,生產環境切換需進行此步驟)演練場景:騰訊云CLB故障或CLB地址被DDOS攻擊需切換新的CLB1、簡單易用:騰訊云混沌工程平臺開箱即用,不需要太多相關經驗以及技術背景就可以使用2、場景豐富:使用很少的配置操作就可以模擬多種故障,快速構建可靠性測試場景THANKS謝 謝