《4-4 周甲黎-vivo業務高可用建設實踐.pdf》由會員分享,可在線閱讀,更多相關《4-4 周甲黎-vivo業務高可用建設實踐.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、vivo業務高可用建設實踐周甲黎|vivo互聯網 業務運維總監一、問題與挑戰二、可用性能力建設三、可用性階段建設四、可用性結果與展望1、問題與挑戰|規模不斷增長 機器的規模不斷增長 服務數量不斷增長201720182019202020212022物理機總數物理機總數201720182019202020212022在線服務數量服務個數2、問題與挑戰|應付需求,穩定性風險大1、業務變更中存在手工變更場景2、單次發布時間較長3、存在業務遷移的場景1、機房級故障風險2、業務快速增長對容量需求大幅增加業務穩定性能力建設變更挑戰故障挑戰一、問題與挑戰二、可用性能力建設三、可用性階段建設四、可用性結果與展望
2、1、可用性能力建設|基于故障的全生命周期開展故障時間故障避免+最快解決故障發生故障發現故障響應故障恢復故障復盤故障發生MTTRMTTFMTBF關鍵點故障預防故障發現故障治愈故障復盤2、可用性建設方向|故障發生分析-服務視角服務輸入輸出硬件方面:主機硬件、機房、網絡等服務方面:軟件bug等容量方面:請求突增從單服務的穩定性來看:硬件的不穩定、軟件變更引入bug、業務的請求突發都會引發服務的異常3、可用性建設方向|故障發生分析-全鏈路視角服務A輸入上下游依賴:關鍵服務異常服務層:配置異常等容量層:請求突增服務B從全鏈路的穩定性來看:上下游依賴、容量不足和服務配置異常等都是影響穩定性的重要因素4、可
3、用性建設方向|故障預防建設基礎設施異常變更異常全鏈路異常高可用架構,去除單點風險,做好冗余容災做好變更管理:有流程、有平臺上下游強弱依賴,關鍵服務分析5、可用性建設方向|故障預防 單元化實現服務在本機房內調用 多入口建設了IDC和公有云的多入口 過載保護接入層建設了過載保護能力,突發流量主動拒絕 熔斷降級對依賴的服務做熔斷降級,屏蔽異常服務帶來的影響消除單點風險,建設了全鏈路的高可用能力接入層業務邏輯層中間件層存儲層基礎設施層6、可用性建設方向|故障發現建設完成了基于全鏈路的故障發現能力|主動發現率90%客戶端監控服務端監控基礎監控自建了撥測系統,通過旁路的模擬用戶訪問的方式,監控各服務的可用
4、性情況包括域名監控、日志監控和服務之間的調用監控,按照監控的實現方式主要是metrics/logs/trace監控主機的硬件資源使用情況,主要是metrics方式7、可用性建設方向|故障處理故障分析故障處理和監控系統聯動,支持基礎服務故障分析、域名可用性分析等故障預案建設,包括預案的制訂、演練等等8、可用性建設方向|故障復盤基于業務SLA分級,有的放矢;做相應的故障記錄、改進和驗證能力建設,不斷改進業務分級故障記錄故障改進分級保障,將有限運維資源分類重點保障口碑營收日活提高復盤的效率,并且提供線上故障跟蹤和分析的能力基于混沌工程做后向的驗證9、可用性建設方向|容量管理 建設了資源的全生命周期的
5、管理機制,保障資源的供應及使用效率最大化 建設了基于混合云的資源保障能力,極大提升了資源彈性能力物理機虛擬機云主機容器IDC自建機房公有云自建機房為主,公有云為輔,具備彈性上云的能力預算管理需求管理采購管理存量運營管理一、問題與挑戰二、可用性能力建設三、可用性階段建設四、可用性結果與展望1、可用性階段建設|標準化建設 標準化:基于全鏈路的標準化建設,包括機房、網絡、應用等等 降低業務的運維復雜度,進而降低運維的成本機房標準化網絡標準化-公網-主動上網-內網專線OS標準化主機環境標準化服務目錄標準化Agent標準化接入nginx集群標準化服務能力標準化(中間件服務)硬件軟件2、可用性階段建設|流
6、程化與規范化建設 流程化與規范化:將運維過程中的好的實踐與方法沉淀成流程、機制和規范業務穩定性保障過程盡量有序、可控運維軍規故障響應機制規范公共事項規范大型活動保障規范3、可用性階段建設|平臺與系統建設 平臺與系統化:將好的流程/機制/規范更進一步的做成平臺化,實現自動化 以cmdb為底座,建設了包括變更平臺、監控平臺、服務工具平臺等等,支撐業務穩定性持續交付CICD平臺作業平臺監控服務日志監控域名加農主機監控變更管理Nginx變更流量調度CDN變更工具服務DNS管理平臺CMDB一、問題與挑戰二、可用性能力建設三、可用性階段建設四、可用性結果與展望1、可用性結果業務穩定、運維有序高效可用性結果
7、:99.9%提升至99.99%8139222420100099.95%99.95%99.99%99.99%99.99%99.00%99.20%99.40%99.60%99.80%100.00%100.20%05101520253020182019202020212022業務可用性達標趨勢達標不達標SLA2、可用性保障總結在業務快速增長的情況下,如何更好的保障業務穩定性,支持業務發展標準化流程/規范化平臺/自動化故障預防故障發現故障治愈故障復盤可用性能力階段高可用能力建設客戶端監控服務端監控基礎監控預案建設業務分級復盤改進硬件標準化網絡部標準化主機標準化服務標準化運維變更運維告警處理CMDB平臺CICD平臺監控平臺3、可用性保障展望-1可用性保障:異地多活、容器/云原生機房A機房B接入層業務層存儲層接入層業務層存儲層異地多活能力物理機虛擬機公有云容器/云原生構建不同基礎架構的高可用能力3、可用性保障展望-2不僅僅是可用性,還包括業務質量、業務運營成本可用性保障故障預防故障發現故障治愈成本管理預算管理需求管理存量資源運營精細化運營保障THANK YOU!