王華-阿里超大規模Flink集群運維體系介紹(FFA).pdf

編號:101808 PDF 26頁 5.42MB 下載積分:VIP專享
下載報告請您先登錄!

王華-阿里超大規模Flink集群運維體系介紹(FFA).pdf

1、王華阿里云實時計算高級運維專家阿里超大規模 Flink 集群運維體系介紹自我介紹 花名 尚付,阿里云-計算平臺-大數據實時計算運維負責人 自2015年起,一直專注于開源大數據實時計算運維,完整經歷了阿里巴巴實時計算發展全過程。負責超大規模實時計算集群架構演進、運維體系建設以及運維產品打造演進歷史和演進歷史和運維挑戰運維挑戰#1集群運維集群運維FlinkFlink ClusterCluster#2應用運維應用運維FlinkFlink JobJob#3阿里實時計算運維#1#1演進歷史和運維挑戰演進歷史和運維挑戰阿里實時計算平臺演進歷史1.0 時代2013-2017三大實時計算引擎并存時代(Gala

2、xy/Jstorm/Blink)2.0 時代2017-2021Blink為唯一實時計算引擎大一統時代(ALL On Blink)3.0 時代2021-Flink開源新引擎搭載云原生的新時代(VVP新平臺)百萬核 算力萬級 物理機萬級 用戶萬級 作業超大規模實時計算平臺平臺架構正從云下架構(Hadoop+Blink)全面往云原生架構(K8S+Flink)大規模演進中阿里實時計算平臺規模和技術架構經歷了近十年的快速發展實時計算運維挑戰運維經歷的三大挑戰平臺運維解決SRE超大規模體量的平臺(Flink Cluster)運維難題幫助實時計算用戶,解決復雜的應用(Flink Job)運維難題云原生&AI

3、智能化大浪潮下,運維演進和能力提升應用運維云原生&智能運維演進#2 2集群運維集群運維 FlinkFlink ClusterCluster超大規模Flink集群的穩定性難題業務重要且敏感,平臺規模大架構復雜,穩定性雙重疊加挑戰Flink承載了阿里內部全部實時數據業務,包括雙11 GMV媒體大屏、阿里媽媽廣告計量計費報警、搜索推薦機器學習平臺等電商核心業務場景業務場景既重要且實時敏感平臺規模大,局部異常是常態幾萬臺獨享機器、多地域&多集群布局,規模體量飛增天然帶來的平臺部署形態復雜,局部異常是常態。Flink Cluster SLASLA可用率精細度量Flink Cluster穩定性Flink

4、Cluster SLIFlink Cluster SLOJM和TM啟動中調度JM和TM都正常運行運行JM或TM FailOver異常Flink Job復雜狀態抽象成三種簡單狀態代表SLISLA異常次數SLA異常時長/次ClusterSLA 做好預防,減少SLA異常次數 做好快恢,縮短SLA異常時長Cluster SLA(99.99x%)分鐘級可用率來精細化度量集群穩定性集群巡檢治理,減少SLA異常次數穩定性預防沉淀了幾十種業務側最高頻的異常規則及治理方案全自動化識別、消滅之前“看不見”隱患Flink Cluster 異常自愈服務作業作業.異常作業問題版本用戶治理平臺升級分析決策隱患(預測+異常

5、)解決(修復+建議)e.g.批量機器Load高/磁盤打滿,導致集群大量作業心跳丟失異常e.g.存儲集群容量/請求隊列打滿,導致集群大量作業CPT超時異常e.g.某個版本存在性能/穩定性重大Bug,影響了集群近百個作業導致集群異常的“棘手”場景行為數據集群切流容災,縮短SLA異常時長2.資源有限,切誰?業務精細化優先級體系,降低優保高優P0P1/P2P3/P4/P5業務優先級3.怎么透明切?存儲復用計算透明遷移,業務無感存儲State故障集群正常集群P0P1P0P1P0P1P0P1同城雙機房部署集群,兩兩容災布局RegionAClusterClusterRegionBClusterCluster

6、RegionCClusterClusterRegionDClusterCluster1.往哪里切流?建設Flink Job快速切流的平臺容災能力,讓故障恢復“更確定”挑戰:集群級重大故障均表現定位難,耗時久,穩定性極其被動SourceSink存儲State計算中間結果計算集群作業作業作業.作業是長生命周期,每個要獨立遷移故障切流恢復State,續跑計算集群作業作業作業.計算故障故障恢復作業大規模切流的技術方案生產到影子鏈路一鍵克隆,超大規模精準造壓&控壓&穩壓能力壓測平臺壓測降級熱點限流計算限流業務降級熱點均衡Flink 雙11大促專項保障低優先級作業快速降級/恢復能力,水位提前預測,精準控制

7、集群水位作業pod級cpu資源隔離和限制實現作業粒度計算精準限流基于大促壓測歷史數據對作業畫像,實現資源合理配置,集群熱點機器均衡VS集群所有機器資源分配水位分布集群所有機器物理水位分布集群“賣出”資源和用戶“使用”資源存在差異,導致集群層面機器水位不均衡熱點機器CPU網絡DISK內存而局部熱點機器不僅會影響集群穩定性,還會成為整集群水位提升瓶頸,成本浪費集群水位不斷提升機器某一維度資源達到性能瓶頸(e.g cpu 95%)熱點機器既影響穩定性,又影響成本Flink Cluster AutoPilotFlink Cluster AutoPilot熱點機器分析&解決的復雜流程1.發現熱點機器2.

8、分析熱點機器cpu/mem/disk/load熱點機器實時監控(熱點機器定義來自SRE線上經驗)機器診斷工具定位具體進程(Linux系統原理深入分析)3.決策業務策略從進程關聯業務數據決策(全鏈路數據關聯以及業務策略)4.解決熱點機器(限流/均衡/降級)Flink Cluster AutoPilot熱點機器背后的技術難題熱點機器背后是涉及 業務&調度&內核&專家經驗 全鏈路分析定界的復雜技術難題系統內核經驗&策略調度原理業務理解優先級調度&重調度熱點閾值LoadCPUDISK內存分析Cgroup分配原理降級作業畫像限流降級熱點均衡作業超用Flink Cluster AutoPilot定義感知分

9、析決策執行可觀測熱點機器自愈沉淀SRE經驗和能力K8S OperatorFlinkClusterAutoPilot基于K8S云原生的Flink ClusterAutoPilot實現熱點機器自愈平臺運維能力全面往云原生化演進,運維體系不斷升級基于云原生的Flink Cluster AutoPilot,將運維能力更標準化,更智能化穩定業務治理監控報警故障定位容災切流成本熱點機器業務治理資源優化硬件自愈效率部署發布異常自愈作業管理作業升級#3 3應用運維應用運維FlinkFlink JobJob實時計算用戶面臨的運維難題報錯FO啟動問題延遲反壓資源調優隨著實時計算大趨勢,Flink用戶和作業數飛速增

10、長且體量龐大,而Flink Job運維是一大復雜難題海量數據+算法運維豐富的知識+經驗+能力將運維豐富經驗沉淀為產品Flink Job Advisor+Operator 定位和解決作業運維難題Flink Job AdvisorFlink Job Operator運維產品功能診斷異常異常修復Flink Job AdvisorCase1:作業資源不足無法啟動Case2:平臺機器下線導致FailOverCase3:作業內存配置不合理導致OOM阿里內部用戶每周上千次使用Advisor,自助一鍵診斷作業疑難雜癥效果展示Flink Job AdvisorAdvisor決策樹風險體檢 指標異動/事件預測異常

11、異常診斷 啟動/停止報錯或者慢 運行態性能不足/報錯/數據問題歷史回溯 歷史問題診斷快照回溯針對Flink Job穩定性問題,提供事前風險體檢、事中異常診斷、事后歷史回溯全過程一鍵診斷能力背后的大腦:決策樹幾十種復雜異常診斷能力,構成龐大的決策樹Flink Job Advisor提交日志調度日志作業運行生命周期海量異常日志AM/TMFO日志調度日志日志聚類實體提取自然語言處理專家標注解決方案3.異常日志診斷2.運行指標診斷1.作業狀態診斷延時流量反壓上下游GC.異常檢測經驗閾值實時指標指標診斷異常日志原因建議作業版本透明升級,配置熱快速更新,解決穩定性隱患和異常升級優化遷移作業性能配置調優、資源配置優化,解決性能和成本問題作業跨集群透明遷移,幫助用戶高效管理多集群大規模體量作業Advisor診斷出的風險和異常一鍵修復自愈修復作業問題Flink Job Operator修復實時計算運維管控實時計算運維體系全貌SRE+產研+技術支持實時計算終端用戶集群+應用穩定效率成本技術內核往智能化&云原生化演進以智能+云原生為技術內核,建設實時計算運維管控產品,解決超大規模Flink平臺運維&應用運維穩定性、成本、效率三大難題20222022-0101-0808THANKS

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(王華-阿里超大規模Flink集群運維體系介紹(FFA).pdf)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站