《3-支付寶業務監控布防-螞蟻集團-蔣源(畢橋).pdf》由會員分享,可在線閱讀,更多相關《3-支付寶業務監控布防-螞蟻集團-蔣源(畢橋).pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、支付寶業務監控布防講 師:螞蟻集團 蔣源(畢橋)目錄背景問題分析問題拆解架構設計監控布防充分度監控布防精細化監控布防中心化監控有效觸達背景因此,客戶投訴和用戶上報依然是支付寶發現問題的主要手段之一1、支付寶有著健全的用戶反饋生態(熱線、客服、截圖等),所以“客訴+上報”得到良好的收集。2、側面反映了支付寶的問題提前發現能力仍然存在不足,導致體驗問題暴露并被投訴。提前發現手段:監控+告警一、支付寶的技術故障,部分來自 客戶投訴。二、支付寶的線上問題,部分來自 用戶上報。三、支付寶的日常應急,部分來自 用戶反饋。背景業務發展創建監控投遞告警應急止血噪音客訴、用戶上報支付寶監控體系(舊):人工梳理業
2、務配置告警閾值有效發現誤告無監控、監控未發現人工梳理監控高保監控:增長約23倍監控總數:百萬級(個)告警投遞應急群+值班高保告警量:全年 萬級(次)告警總數量:全年 十萬級(次)支付寶布防策略(舊):現象:監控被大量創建,告警被大量投遞。結果:故障的提前發現率卻沒有顯著提升。怪圈/瓶頸問題分析部分故障反饋:監控未發現部分故障反饋:監控不精準部分故障反饋:告警未觸達在歷史故障中找規律:完全依賴人工梳理,無法回答監控布防充分性問題。憑借專家經驗和歷史踩坑“亡羊補牢”。充分性保鮮性業務高速發展,無法解決監控的保鮮性問題,依賴人工運維??偭勘O控波動小,無法發現問題,需要充足的精細化監控分拆。精細化中心
3、化需要從端、網關、系統進行中心化布控兜底。告警量龐大,消息刷屏、應急未響應、未持續跟進。有效性智能化人工閾值告警噪音大,問題發現有遺漏。問題拆解監控布控不充分監控布控不充分監控布控不精準監控布控不精準監控治理監控治理業務關口流量業務監控流量布防充分度充分度可度量業務數字化推動精準布控純人工梳理=數據智能+人工補缺端、網關、http、系統等中心化監控精細化業務多維、多階段監控布防面向監控全生命周期治理=部門度量敏感小流量度量商家、賬單、消費券、充值數字化建模多切面監控多維多階段端到端自動布控端中心化指標網關/http核心指標系統核心指標創建監控告警投遞告警配置應急響應監控重要性分級治理前置降噪后
4、置降噪壓制投遞量提高告警有效率智能告警降低告警規則維護成本提升自動關單率可度量降低應急成本,保證監控有效觸達靜默監控演練保鮮提升監控精準發現能力業務監控充分度可度量小流量智能預警與降噪專題目標:目錄背景問題分析問題拆解架構設計監控布防充分度監控布防精細化監控布防中心化監控有效觸達監控布防架構設計監控充分度量運營業務數字化智能監控預警業務診斷降噪告警有效率告警量業務監控充分度降噪關單率靜默監控演練精準布控覆蓋度監控指標中心化管理應急群運營治理通曬紅黑榜端-網關-內部服務 全鏈路關聯業務多維、多階段 自動挖掘與建模監控自動創建指標參數解析智能預警模板小流量稀疏預警沖高回落網關流量業務監控流量業務監
5、控布控充分度單網關部門內部服務充分度視角多維多階段端到端精細化布控專家輔助確認數據智能推薦端監控網關/http布控系統監控中心化布防監控重要性分級靜默監控保鮮預警有效性治理智能告警告警量預警有效率告警降噪智能預警模板精準發現有效觸達有監督修正來源下跌單維度曲線擬合日志快查業務規則目錄背景問題分析問題拆解架構設計監控布防充分度監控布防精細化監控布防中心化監控有效觸達監控布防充分度完全依賴人工梳理,無法回答監控布防充分性,憑借專家經驗和歷史踩坑“亡羊補牢”。充分性問題數據智能解決方案可視化度量監控充分性,針對性查缺補漏。網關1網關2http服務3關口n組織部門數據關聯!#$%&)*!#$%&部門布
6、防充分度=單網關用戶點擊業務監控1系統+日志+篩選口徑業務監控n配置監控監控監控覆蓋的流量網關分母的流量布防充分度=+單個關口的充分度部門下-加權充分度布防充分度 計算策略pv:網關流量尋找監控缺失的位置度量+運營=牽引充分度提高網關參數組合及分布網關鏈路拓撲(應用、Facade、method)網關流量經過的日志未被監控覆蓋的trace及特征其他手段待拓展幫助梳理新GOC業務點指明監控缺失方向度量監控覆蓋水位線治理無效監控提高充分度系統1系統2系統n全路徑 traceId 透傳機制類比說明網關:水龍頭域內業務:水管監控布防精細化業務日志離線訓練集NLP切分、模式識別2023-04-25 hh:
7、mm:ss 業務,渠道,動作,ABC,123,SUCCESS,支付成功,xxx,xxx,xxx基本維度狀態維度業務維度系統、日志多維切分維度1維度2維度3維度n多維精細化布防監控自動創建+=配置維度資產維度切分與識別總量監控(原)多維監控(城市維度)地鐵總量 3%上海地鐵 80%精細化監控發現示例:1、專家經驗輸入(分隔符+維度特征)代替人工配置告警的不準確性和窮舉性多維代替機械性、重復性的多維度監控配置3、局部“熵增”最大日志切割策略2、基于自動機的日志分詞器4、識別日志變量和常量(常量具備聚合性、相似性:最大公共子序)5、公共前/后綴計算(左起右至從哪個位置切出來)維度切分技術要點落地難點
8、及方案 節選1、切出來的維度很多,怎么挑?某個維度是否值得監控?2、維度異常如何發現?成功量下跌成功量持續下跌成功量持續跌零維度枚舉有限性常量識別敏感詞匯:trade、cashier、card監控布防精細化支付創建網關支付渲染網關支付付款網關支付創建監控支付渲染監控支付付款監控用戶點擊行為軌跡(大數據聚合)網關多階段(關系推導)服務端多階段監控(數據算法挖掘)端頁面背后的網關網關背后的服務端多階段智能預警投產應急群精細化監控發現業務監控上游業務監控網關監控下跌觸發告警1來源下跌2示例:數據算法充分發掘多階段曲線擬合關聯多階段告警123多階段監控布防中心化!支付寶App端淘寶(阿里系)商家平臺
9、PC端開放平臺 服務商平臺 點擊行為轉化異常參數解析布控網關/HTTP調用鏈路端監控行為異常監控網關/HTTP監控服務端監控端到端-全系列布控80%0%接口業務類型機構商戶壓測標成功失敗標業務錯誤碼限流參數解析日志挖掘網關/http 維度監控布防多網關+多維度 組合爆炸?-分級保障日訪問量影響用戶量資損訪問量小但是客戶敏感?重要性分級歷史輿情文本到賬賬單扣款梳理盤點圈定業務歷史輿情高頻詞匯專家經驗高頻聚合問題如何有效觸達?告警及降噪規則告警智能告警告警噪音MaaS壓制網關診斷定位網關事件 IRIS 降噪問題發現中心化異常監控國家/機構/商家相關白屏服務端布控端、網關 中心化監控:在統一關口去發
10、現異常端、網關機構、商家小程序#$%#$%調用入參method:POSTstatus:200url: 中心化監控:在業務鏈路里的系統去發現異常支付示例:統一下單中心交易核心支付收銀臺支付渠道決策支付限權支付核心結算中心業務量監控對標系統系統指標ERRORService耗時服務SAL數據庫DAL緩存CALCE ThreadSQL 耗時下單交易收銀臺渲染選擇支付渠道安全付款結算系統 ERROR 監控前置系統 ERROR 監控后置系統 ERROR 監控error系統智能預警(托管)失敗量上漲模板失敗量持續上漲模板失敗量求和持續上漲模板errorerrorerror系統預警降噪指標的歷史周期+水位線
11、學習壓測、演練、容災 曲線擬合業務規則壓制有監督學習-反饋機制系統監控有效觸達曲線擬合報錯聚集固定閾值降噪失敗量 N持續時間 N分鐘漲幅/跌幅 N%時間段值匹配降噪錯誤碼/商戶/機構=XXX下跌上漲波動沖高周期上游自身持續跌0多曲線比對:(例如:成功率預警時,看成功量變化差值)增大觀察期主動注入演練沖高回落降噪來源下跌:螞蟻森林收能量總量下跌 擬合 訪問螞蟻森林好友首頁下跌(沒有訪問好友森林頁,自然無法偷能量)單維度:聚集在某個頭部商戶,例如商戶機器突發故障。業務擬合:監控失敗量曲線 擬合 壓測演練注入量錯誤碼:聚集在某個錯誤碼,語義指示了錯誤可降噪.降噪1、判斷監控曲線的特征曲線異常識別基本
12、盤前置降噪2、基本閾值降噪(未達到準入線,則降噪)小流量業務(分鐘級20)3、小流量特殊處理4、輔助監控曲線和告警曲線的擬合周期性降噪抖動降噪5、錯誤的特征聚合6、個性化降噪規則,不列舉告警降噪結尾總結愿景:實現支付寶監控體系的充分性、精準性和有效性。突破瓶頸,降本提效,在復雜多變的業務情形下借助數據&智能建立可持續的布防機制。場景落地情況:1、原則上ppt展示的內容均已落地投產,現階段處于運營和優化的過程。2、23年16月的發現率 相較于21年和22年有顯著提升。3、隨著推廣面的擴大,遇到大量長尾業務的“個性化問題”仍待 case by case 的解決。充分有效成本可持續監控充分:監控水位線可視化,針對性查缺補漏。監控有效:監控持續?;?,問題及時發現。降本提效:監控創建、運維、預警、降噪的“零干預”,讓應急人員“懶”一點。