《張偉偉-貨拉拉基于混合云的大數據SRE體系建設實踐.pdf》由會員分享,可在線閱讀,更多相關《張偉偉-貨拉拉基于混合云的大數據SRE體系建設實踐.pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、貨拉拉基于混合云的大數據SRE體系建設實踐張偉偉 大數據SRE負責人深圳依時貨拉拉科技有限公司大數據SRE負責人,負責大規模大數據集群和相關生態系統的穩定性保障,以及參與大數據安全體系建設、成本控制等方向的工作,有多年的跨云架構體系經驗大數據SRE體系建設-成熟期背景和挑戰大數據SRE體系建設-成長期后續規劃背景和挑戰貨拉拉介紹8+業務線360國內城市68萬月活司機3+IDC20K+日均任務數1000+機器數10PB+存儲量950萬月活用戶*注:2022年12月份公開數據貨拉拉大數據大數據使命:驅動業務數智化,助力公司業務持續增長貨拉拉大數據大數據跨云架構在線/實時離線大數據SRE體系建設-成
2、長期大數據SRE體系建設2021202220232024 腳本化改造 基礎設施環境一致性成長期成熟期領先期業務高速增長l基礎設施維護l穩定性 運維規范 監控告警體系 自動化運維體系 成本控制 大數據鏈路穩定性(實時/離線)基礎設施安全治理 智能運維體系 大數據全場景穩定性業務高質量增長背景和挑戰-無監控告警01核心組件掛了無感知,上游出問題才發現02監控指標不全,核心指標缺失03多套DC沒有統一的監控能力背景和挑戰-運維方式原始DC/集群/節點數量多手動操作多01集群節點數量增長三倍,并且新增了多個DC業務增長快02大部分操作流程為手動,集群搭建耗時1天,擴容半天手動操作多03背景和挑戰-易出
3、故障01開源組件15+,維護復雜度高02多個DC以及環境的核心指標參數未統一03無發布變更規范,無運維SOP,發布故障率近100%大數據SRE體系建設做監控標準化定規范一致性建設大數據側監控告警體系,基礎設施問題100%通過監控告警系統發現并預警根據不同組件、場景,梳理定義SOP,嚴格按照SOP發布制定大數據基礎架構變更規范,變更有法可依線上不同組件機型、參數、配置一致性保障建設歷程監控告警體系建設核心業務接入率提升至100%,線上問題接近100%由監控告警提前發現擴展性可以滿足未來2年的業務增長需求腳本化建設高頻操作腳本化改造,告別手敲命令腳本化ansible-playbook編排運維腳本流
4、程編排SOP化梳理定義50+基礎運維SOP,覆蓋線上基礎設施發布變更場景基礎設施環境一致性機器OS參數統一內核參數統一機器鏡像內容統一yum源核心組件參數隊列配置、超賣比例等資源參數container size等計算引擎參數機型標準化分場景定義對應標準云主機機型,1:4、1:8等不同機型對應配置標準化穩定性保障-運維規范1.業務低峰期,非節假日前1天2.離線14-18點,在線/實時20-24點發布窗口1.非標準附加詳細命令2.通知對應業務方和值班人員發布內容和用戶通知1.穩定性驗收2.功能和性能驗收3.可回滾、發布后oncall發布驗收1.日常審核,變更數量限制2.節假日封版,緊急變更流程3.
5、審核規范執行情況發布審核 70%故障來源于發布和變更:沒有變更就沒有“傷害”發布變更窗口大數據SRE體系建設-小結01大數據監控告警體系建設完成,覆蓋全量核心場景03運維導致的頻繁故障風險解除,變更可控,標準化、規范化02大數據基礎設施一致性能力建設完成“從無到有”大數據SRE體系建設-成熟期大數據SRE體系建設2021202220232024 腳本化改造 基礎設施環境一致性成長期成熟期領先期業務高速增長l基礎設施維護l穩定性 運維規范 監控告警體系 自動化運維體系 成本控制 大數據鏈路穩定性(實時/離線)基礎設施安全治理 智能運維體系 大數據全場景穩定性業務高質量增長背景和挑戰01大數據領域
6、下場景的多樣性(在線/實時/離線)02大數據領域下穩定性保障的特殊性03業務高速增長與運維效率低下之間的矛盾背景和挑戰-場景多樣性大數據實時+離線數據鏈路背景和挑戰-特殊性穩定性保障 保障目標場景價值穩定性矛盾保障目標數據采集和存儲數據存儲可靠性是大數據的生命線數據丟失數據可靠性100%離線核心數據鏈路和報表高管/運營團隊日常決策首要依據數據延遲核心數據鏈路產出時間早于6點數據準確性業務支持和數據賦能的基礎離線、實時報表數據錯誤核心數據準確性100%大數據核心產品數據研發、數據應用等大數據能力輸出穩定性、出現過大面積長時間不可用故障可用性=99.9%單次不可用時間=99.95%單次不可用時間=
7、10min穩定性保障 故障管理規范穩定性保障目標核心指標故障等級嚴重程度數據可靠性表數據丟失率表數據丟失比例數據是否可以找回數據準確性數據鏈路重要等級是否業務方先發現最佳實踐培訓離線核心數據鏈路和報表報表延遲時間報表產出與預期差距核心服務可用性資損/服務停機時間資損大小停機時間是否高峰期服務停機時間長短是否核心鏈路核心產品可用性服務停機時間功能損失比例服務停機時間長短停機時間是否高峰期穩定性保障 故障管理規范目標:故障復盤率100%,事項整改完成率100%輸出故障定期(周/月/年)報告,優化流程制度從發生、發現、引入、定位、恢復等視角全局回顧故障,系統解決方案穩定性保障能力保障基礎組件穩定性保
8、障1.開源組件穩定性保障2.云基礎設施穩定性保障核心場景穩定性保障1.離線計算場景穩定性保障2.實時計算場景穩定性保障 能力保障離線場景穩定性監控告警能力薄弱,組件接入率低跨云依賴多,極不穩定基礎組件bug多,故障頻繁無穩定性規范體系資源無保障、隊列規劃不合理,核心任務產出不準時作業參數無治理,資源浪費+異常報錯離線場景穩定性01監控告警體系1.告警服務代碼重構2.監控告警項模版化3.告警信息分類分級4.推動線上核心組件全量接入5.建立值班oncall機制02資源治理1.容量規劃+容量預警2.建立公司級核心鏈路和部門級資源保障能力3.支持隊列投遞權限管控能力4.隊列100%租戶化03平臺/引擎
9、治理1.高風險bugfix2.不合理+不安全參數治理3.平臺能力增強04保障規范1.研發和發布規范2.故障管理規范3.故障跟進小組實時場景穩定性核心鏈路問題(主動發現/應急)通知時間=5min快通知P0核心實時鏈路恢復時間=5min;P1級(埋點相關指標,容忍度相對高)實時鏈路恢復時間=99%(故障=4次/年)保障目標實時場景穩定性實時場景穩定性核心數據產品用戶快速通知觸達能力數據產品1.任務臟數據跳過自愈能力2.任務失敗自動快速恢復能力(重啟快速、調整加內存/并行度)3.任務告警敏感度,任務告警嚴重分級4.實時鏈路壓測能力實時研發平臺1.核心任務Flink版本升級:提升恢復速度等2.核心任務
10、發布規范3.核心指標監控告警配置增強實時數倉1.核心任務資源隔離保障2.狀態存儲容量預警和IO限流能力3.Doris/Druid穩定性保障能力基礎保障 保障措施實時場景穩定性 大數據實時全鏈路壓測完成基礎能力的0-1建設 為實時鏈路容量提供了較為科學精確的計算方法和數據 后續實時鏈路穩定性保障有了評估依據及可復用的手段 實時鏈路壓測實時場景穩定性階段問題解決方案事前缺乏統一的變更流程OLAP接入方案Doris業務變更規范不合理使用最佳實踐培訓業務無隔離租戶隔離方案性能優化核心資源參數優化查詢保障能力弱異常查詢攔截功能事中故障發現時間長組件監控告警能力增強,重點業務核心表級監控告警:覆蓋quer
11、y rt、導數失敗率等核心指標故障恢復時間長對嚴重高頻問題沉淀恢復預案事后問題重復發生故障/事件100%復盤,整改措施全落地 Doris穩定性保障自動化建設運維SOP多大部分步驟為腳本或者手動操作,自動化改造成本大,70%以上的時間投入在事務性的運維工作上集群、組件、節點多不同組件的發布、維護流程不一致,不可直接遷移復用發布、回滾流程復雜涉及全球化、多地域、多集群、多服務(包括第三方組件),需要分環境、分批次手動發布 問題和挑戰自動化建設 大數據CMDB:大數據基礎設施元數據 自動化發布模塊:組件版本管理以及包的CI/CD功能 工作流編排模塊:運維工作流編排功能 配置管理:集群配置管理中心 監
12、控告警模塊:大數據監控告警模塊 組件管理模塊:服務安裝、下線,進程啟動、停止、維護、隔離自動化建設 所有在 Conductor 上定義的 task 需要在 Worker 上注冊具體的執行邏輯 Worker 定時請求 Conductor 獲取待執行任務并執行 Worker 向 Conductor 更新 task 狀態 Worker 可水平擴展 工作流編排自動化建設建設成果效率提升基礎運維效率提升100%,預計每月可以節省超過0.51人月的運維人力投入,折合成每年可減少約為612人月的運維人力投入穩定性增強與機器交互的操作交由系統來進行,降低手動操作帶來的隱患(基礎架構組當前平均發布頻率:150次/月)演進規劃2023 全球自動化運維能力建設完成,大幅提升人效以及幸福度 運維數倉落地,維護關鍵指標自動化2024 數據化運維階段,滿足精細化技術建設需求 大部分場景落地智能化運維,人效進一步提升智能化腳本化2022 腳本化改造 大量運維場景仍是SOP+手動操作后續規劃貨拉拉大數據SRE體系思考與總結l 大數據SRE Team職責的邊界l 全面上云時代,“50%運維+50%開發”的定義是否仍然適用于大數據SRE?NEXTl大數據智能化運維體系l大數據全場景穩定性(在線/實時/離線)Thanks開放運維聯盟高效運維社區DevOps 時代榮譽出品