《基于云的貨拉拉技術穩定性保障實踐-云上運維最佳實踐論壇(23頁).pdf》由會員分享,可在線閱讀,更多相關《基于云的貨拉拉技術穩定性保障實踐-云上運維最佳實踐論壇(23頁).pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、基于云的貨拉拉技術穩定性保障實踐陳永庭貨拉拉核心基礎設施部負責人業務體量快速增長百萬級訂單技術棧0-1建設0-1技術團隊規模增長45倍穩定性場景介紹Contents目錄1貨拉拉業務形態2基礎架構治理3技術保障能力的建設4跨云的思考與實施貨拉拉介紹About Huolala01供需不平衡、配對時效性同城貨運、國際貨運2013201720182019非計劃單導致運力緊缺ToB定制化、千客千面企業版物流供需不平衡、運力不足跨城貨運多種運力分布不均,整合難度大、運力不平衡搬家、零擔業務例:這里是標題標題標題New Future on Cloud貨拉拉業務發展業務形態技術規模帶來的挑戰需求交付與技術債治
2、理的平衡需要100%做到不影響業務發展短時期無法采取大規模的技術重構進行治理無法做到一刀切,需要逐步替換研發效率與技術保障的平衡研發技術需求的排期壓力大技術棧未標準化導致技術方案不靈活技術標準、規范的缺失和跟不上規模要求用最快時間推出框架與規范,約束新應用的標準化優先解決穩定性兜底的中間件優先打造監控、告警、故障平臺基礎架構治理02簡單、快速開發和交付業務應用采用PHP技術??焖匍_發與交付,支撐業務早期的高速發展服務間采用HTTP協議通訊,基于域名+SLB、web構成了早期的技術架構業務服務鏈路不可靠關鍵服務與非關鍵服務不清晰,相互依賴、耦合部分core服務臃腫,一個服務幾百個接口發布成功率、
3、發布驗收?關于服務治理?排障效率低,應急恢復慢排障手段比較單一,基本上靠日志(kibana)來定位分析問題服務自愈能力弱,無法應對臨時突增的峰值流量,服務容易陷入癱瘓貨拉拉技術 v1.0SLBSLBSLBSLBSLBhttphttphttphttphttp服務化治理方案-泛服務化(v1.1)為什么要引入泛服務化架構?業務服務技術改造工作量小,無須要求全部業務改造可以快速覆蓋全網、全鏈路服務如何向后架構兼容?引入最終態的服務化架構組件:注冊服務、配置服務打通傳統HTTP協議、數據與標準RPC之間的交互統一的服務化治理技術方案RPC服務WEBRPCWEBSLBRPChttphttphttphttp
4、/RPC服務化治理方案-跨技術棧(Java&PHP)服務化治理方案-跨技術棧(PHP proxy)流量調度架構-全鏈路灰度單IDC架構+單鏈路高可用基礎架構演進方向單IDC架構+多鏈路多IDC架構+多鏈路貨拉拉安全生產體系從0搭建:監控、容量、預案、演練與應急響應技術保障能力建設03貨拉拉技術保障體系概貌海外業務NOCPMO產線運維DB客滿產品運營前置建設故障發現故障響應故障止血故障復盤制度規范監控告警覆蓋人員協同告警發現人肉盯盤自主上報現象同步拉群拉會響應上線起因定位情況同步快恢預案問題排查進度同步影響消除信息記錄會議組織復盤主持改進跟蹤信息補充根因分析改進輸出話術安撫已有可優化應急響應中心
5、定位分析平臺預案平臺時光機.工具能力大監控平臺(AI-Monitor)監控平臺 Monitor短信風險預測電話飛書根因分析自動降噪自動升級自動分析HTTPTraceMetricLogSOADatabaseQueue應用指標中間件指標機器指標網絡指標應用日志Nginx 日志K8s 日志云監控指標報警平臺 渾天儀AI OPS觸達定時巡檢監控-穩定性風險預測歷史均值周環比日環比業務趨勢大促活動業務推廣應用發布運維維護機器指標接口響應接口成功率應用異常網絡數據云中間件數據云監控數據飛書電話報警觸達短信初步結論擴容建議自動預案應急系統集成應急響應應用指標云平臺變更信息業務特征歷史趨勢分析處理報警與應急巡檢系統監控-根因自動分析業務異常應用異常云平臺報警下鉆到應用下鉆到應用進一步分析下鉆到上、下游應用進一步分析網絡底層故障分類應用Exception上升SOA相關指標異常機器相關指標異常機器自身故障網絡底層故障分析結論根因應用故障分類故障原因鏈路治理應用標準化監控完善專家經驗技術改造選型數據、流量模型容量治理、演練全鏈路容量壓測數據平臺的技術保障多云場景下的效率、成本與穩定性設計跨云思考與實施04磨平多云的差異化云“抖動”的防范IT成本的治理措施貨拉拉“云調度平臺”的建設(進行中)THANKS!