1、G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站阿里超大規模Flink集群運維揭秘G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站目錄阿里Flink集群運維挑戰1Flink運維管控平臺2Flink運維解決方案3阿里Flink運維碰到的挑戰、思考、解決G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站阿里Flink集群發展背景和現狀介紹阿里流計算引擎發展歷史Galaxy(自研)JStorm(Storm)Blink(Flink)技術統一業務發展超大規模Flink集群流計算、批計算、機器學習.集群規模大 幾萬個計算節點 幾百個集群系統復雜 幾十個上
2、下游 底座多樣化用戶規模大 幾千個用戶 幾萬個作業出口多元化 專有云/公共云.幾十個地域Flink服務每秒處理幾十億條消息!低延時、高吞吐、一致性G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站幾個同學如何運維“奔跑著的大象”?運維挑戰運維挑戰:運維人力少,業務規模大,發展迅速穩定 如何減少服務故障 如何保障大促穩定 大量運維操作如何保持一致性成本 如何管理硬件資源 如何管理用戶資源 如何降低運維人力成本效率 值班答疑 問題排查 如何減少人肉運維G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站以技術為基礎的Flink運維技術解決方案效率標準化穩定性成本自動化
3、數據化Flink運維技術解決方案以技術為基礎:Flink運維管控思考G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站目錄阿里Flink集群運維挑戰1Flink運維管控平臺2Flink運維解決方案3G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站Flink運維管控介紹Flink運維管控架構及運維解決方案介紹定位:著力于穩定、成本、效率,提供一站式、超大規模Flink集群運維技術解決方案提供服務/集群/機器維度場景化運維管理,包括一鍵發布、啟停服務等提供實時監控圖表,運維實體健康度監控,定制化配置監控大盤提供資源生命周期管理,包括硬件自動化上下線,用戶資源管理閉
4、環提供權限管理及審計功能,您能設置訪問控制及管理操作日志提供數據化運維/運營增值功能,如智能診斷,故障自愈,ChatOpsFlink運維管控產品定位、用戶、功能介紹G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站Flink運維管控架構Flink運維管控架構及運維解決方案介紹運維管控架構:數據層:運維元倉建設、實時/準確 服務層:運維服務提供、穩定/安全 功能層:用戶功能場景、簡單/高效運維解決方案:穩定:軟件生命周期 成本:資源生命周期 效率:日常運維效率G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站一站式運維超大規模Flink集群!Flink運維管控功能
5、Flink運維管控功能介紹G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站目錄阿里Flink集群運維挑戰1Flink運維管控平臺2Flink運維解決方案3運維管控上承載的技術解決方案介紹G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站穩定性:發布變更發布場景自動化,發布流程工單化實現穩定、高效大規模發布背景:集群多、發布場景復雜、流程復雜挑戰:大規模集群如何穩定、高效地發布變更分鐘級別提單,全服務集群自動化發布G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站穩定性:發布變更Flink作業透明升級方案上萬個Flink作業如何升級?流計算作業是
6、長任務、不同版本State兼容性 作業升級流程復雜、數量規模大Flink運維管控作業升級方案G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站穩定性:服務故障故障是有生命周期的,通過技術手段來減少故障。異常隱患故障生命周期監控告警故障發生故障恢復1.故障隱患階段目標:主動發現、自愈2.故障發生階段目標:快速發現、恢復服務正常目標:減少故障傳統對于故障的認識:來臨前:不期而至,沒法避免,被動 來臨時:各種問題,手忙腳亂,救火 結束后:加報警,改過程,靠人肉重新認識故障:故障是有生命周期的 技術手段,系統地減少故障,低成本維護G O P S 全 球 運 維 大 會 2 0 1 9
7、上 海 站穩定性:服務故障服務故障隱患主動發現、自愈1.故障隱患主動發現、自愈緊急程度異常項治理規則高zk連接數過高強制停止中state寫入過快降低優先級低持續FailOver通知整改.“潛伏期”自愈場景“已暴露”自愈場景報警批量機器Load高異常事件感知機器列表決策執行通知找到異常作業停止作業通知用戶G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站穩定性:服務故障服務故障隱患自愈的效果電話告警:幾十個/周-個位數/周短信告警:幾K/周-幾十/周監控告警自愈技術手段解決,低成本維持!1.服務故障隱患自愈效果G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站故障
8、定位服務診斷 故障影響面量化 根因定位穩定性:服務故障服務故障發生快速發現、恢復2.故障發生快速發現、恢復故障發現異常檢測 不同集群規模 多指標關聯故障定義黃金指標 衡量服務質量 金字塔原則作業狀態:調度/運行/異常故障恢復故障自愈 自動化恢復 人肉恢復故障自愈方案計算集群容災切換ZK服務主備容災切換服務異常事件自愈G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站穩定性:服務故障服務故障根因診斷問題:現在Flink集群服務正常嗎?挑戰:系統復雜,異常根因定位難度大 排查過程效率低,故障影響面擴大1.模塊診斷2.集群診斷3.服務診斷分鐘級別定位故障根因、以及恢復建議G O P
9、S 全 球 運 維 大 會 2 0 1 9 上 海 站穩定性:大促保障-壓測挑戰一:用戶作業壓測流程復雜、人肉效率低Flink運維管控壓測功能挑戰二:服務水位壓測如何精準控制大規模壓力壓力:幾十億/SFlink大促壓測解決方案安全水位實際水位2倍壓力4倍壓力8倍壓力生產Source灌數據Flink作業影子SourceG O P S 全 球 運 維 大 會 2 0 1 9 上 海 站穩定性:大促保障大促重點業務如何保障雙11GMV鏈路全天平穩延時秒級!穩定性效果G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站成本:用戶資源大規模用戶復雜資源需求如何管理挑戰:集群資源如何合理、高
10、效分配給用戶背景:用戶規模大、資源管理場景復雜用戶資源生命周期預算服務資源運維服務計量計費服務.管控服務方案:用戶資源生命周期管理技術方案G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站成本:硬件資源通過機器資源生命周期管理自動化,提升機器利用率,降低成本物理機容器ECS.機器形態機器申請業務場景擴容上線硬件維修資源騰挪縮容下線過保釋放挑戰:萬分之一概率-幾臺機器故障/天 機器資源業務管理場景復雜機器資源生命周期管理自動化方案:機器資源生命周期管理自動化機器利用率提升,降低成本G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站效率:作業診斷Flink作業診斷給
11、出根因、建議,提升排查效率問題:我的Flink作業是否正常?挑戰:分布式系統原理復雜 Flink狀態復雜、上下游鏈路冗長 上百次/每天的作業問題定位Flink作業一鍵診斷方案機器集群變更事件YARNHDFS管控日志JMTMRM接口延時流量內存指標數據服務提交調度運行狀態運行異常日志聚類異常日志標注反饋性能數據運行指標代碼血緣診斷服務用戶用戶開發運維入口管控IDE機器人作業結果診斷診斷規則現象原因建議方案:Flink作業一鍵診斷反饋G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站效率:作業診斷Flink作業診斷服務實現和效果提交日志 調度日志作業運行生命周期海量異常日志AM/T
12、MFO日志調度日志日志聚類實體提取自然語言處理專家標注解決方案2.異常日志聚類3.運行指標診斷1.作業運行狀態延時流量反壓上下游GC.排查經驗異動檢查實時指標指標診斷異常日志原因建議Flink作業診斷服務實現診斷經驗規則庫G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站效率:運維實體診斷通過運維實體診斷技術方案實現賦能排查能力經驗數據原理.實體診斷作業診斷集群診斷機器診斷.診斷技術實現提升效率問題定位根因分析恢復建議意見反饋賦能用戶G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站效率:智能運維機器人運維智能答疑機器人運維智能機器人機器人服務業務場景問題答疑運維搜索監控通知操作引導知識圖譜文檔檢索日志查詢實體查詢運維服務診斷服務工單服務變更操作運維流程工單審批故障響應.我的作業怎么了?某個SQL怎么寫?集群有變更嗎?今天值班是誰?.用戶協同工具ChatOps文檔操作流程.G O P S 全 球 運 維 大 會 2 0 1 9 上 海 站WeNeedU!加入阿里大數據SRE!