2019年阿里超大規模Flink集群運維揭秘.pdf

報告預覽

2019年阿里超大規模Flink集群運維揭秘.pdf

編號：97801

PDF 26頁 7.15MB 下載積分：VIP專享

下載報告請您先登錄！

2019年阿里超大規模Flink集群運維揭秘.pdf

1、G O P S 全球運維大會 2 0 1 9 上海站阿里超大規模Flink集群運維揭秘G O P S 全球運維大會 2 0 1 9 上海站目錄阿里Flink集群運維挑戰1Flink運維管控平臺2Flink運維解決方案3阿里Flink運維碰到的挑戰、思考、解決G O P S 全球運維大會 2 0 1 9 上海站阿里Flink集群發展背景和現狀介紹阿里流計算引擎發展歷史Galaxy(自研)JStorm(Storm)Blink(Flink)技術統一業務發展超大規模Flink集群流計算、批計算、機器學習.集群規模大幾萬個計算節點幾百個集群系統復雜幾十個上

2、下游底座多樣化用戶規模大幾千個用戶幾萬個作業出口多元化專有云/公共云.幾十個地域Flink服務每秒處理幾十億條消息！低延時、高吞吐、一致性G O P S 全球運維大會 2 0 1 9 上海站幾個同學如何運維“奔跑著的大象”？運維挑戰運維挑戰：運維人力少，業務規模大，發展迅速穩定如何減少服務故障如何保障大促穩定大量運維操作如何保持一致性成本如何管理硬件資源如何管理用戶資源如何降低運維人力成本效率值班答疑問題排查如何減少人肉運維G O P S 全球運維大會 2 0 1 9 上海站以技術為基礎的Flink運維技術解決方案效率標準化穩定性成本自動化

3、數據化Flink運維技術解決方案以技術為基礎：Flink運維管控思考G O P S 全球運維大會 2 0 1 9 上海站目錄阿里Flink集群運維挑戰1Flink運維管控平臺2Flink運維解決方案3G O P S 全球運維大會 2 0 1 9 上海站Flink運維管控介紹Flink運維管控架構及運維解決方案介紹定位：著力于穩定、成本、效率，提供一站式、超大規模Flink集群運維技術解決方案提供服務/集群/機器維度場景化運維管理，包括一鍵發布、啟停服務等提供實時監控圖表，運維實體健康度監控，定制化配置監控大盤提供資源生命周期管理，包括硬件自動化上下線，用戶資源管理閉

4、環提供權限管理及審計功能，您能設置訪問控制及管理操作日志提供數據化運維/運營增值功能，如智能診斷，故障自愈，ChatOpsFlink運維管控產品定位、用戶、功能介紹G O P S 全球運維大會 2 0 1 9 上海站Flink運維管控架構Flink運維管控架構及運維解決方案介紹運維管控架構：數據層：運維元倉建設、實時/準確服務層：運維服務提供、穩定/安全功能層：用戶功能場景、簡單/高效運維解決方案：穩定：軟件生命周期成本：資源生命周期效率：日常運維效率G O P S 全球運維大會 2 0 1 9 上海站一站式運維超大規模Flink集群！Flink運維管控功能

5、Flink運維管控功能介紹G O P S 全球運維大會 2 0 1 9 上海站目錄阿里Flink集群運維挑戰1Flink運維管控平臺2Flink運維解決方案3運維管控上承載的技術解決方案介紹G O P S 全球運維大會 2 0 1 9 上海站穩定性：發布變更發布場景自動化，發布流程工單化實現穩定、高效大規模發布背景：集群多、發布場景復雜、流程復雜挑戰：大規模集群如何穩定、高效地發布變更分鐘級別提單，全服務集群自動化發布G O P S 全球運維大會 2 0 1 9 上海站穩定性：發布變更Flink作業透明升級方案上萬個Flink作業如何升級？流計算作業是

6、長任務、不同版本State兼容性作業升級流程復雜、數量規模大Flink運維管控作業升級方案G O P S 全球運維大會 2 0 1 9 上海站穩定性：服務故障故障是有生命周期的，通過技術手段來減少故障。異常隱患故障生命周期監控告警故障發生故障恢復1.故障隱患階段目標：主動發現、自愈2.故障發生階段目標：快速發現、恢復服務正常目標：減少故障傳統對于故障的認識：來臨前：不期而至，沒法避免，被動來臨時：各種問題，手忙腳亂，救火結束后：加報警，改過程，靠人肉重新認識故障：故障是有生命周期的技術手段，系統地減少故障，低成本維護G O P S 全球運維大會 2 0 1 9

7、上海站穩定性：服務故障服務故障隱患主動發現、自愈1.故障隱患主動發現、自愈緊急程度異常項治理規則高zk連接數過高強制停止中state寫入過快降低優先級低持續FailOver通知整改.“潛伏期”自愈場景“已暴露”自愈場景報警批量機器Load高異常事件感知機器列表決策執行通知找到異常作業停止作業通知用戶G O P S 全球運維大會 2 0 1 9 上海站穩定性：服務故障服務故障隱患自愈的效果電話告警：幾十個/周-個位數/周短信告警：幾K/周-幾十/周監控告警自愈技術手段解決，低成本維持！1.服務故障隱患自愈效果G O P S 全球運維大會 2 0 1 9 上海站故障

8、定位服務診斷故障影響面量化根因定位穩定性：服務故障服務故障發生快速發現、恢復2.故障發生快速發現、恢復故障發現異常檢測不同集群規模多指標關聯故障定義黃金指標衡量服務質量金字塔原則作業狀態：調度/運行/異常故障恢復故障自愈自動化恢復人肉恢復故障自愈方案計算集群容災切換ZK服務主備容災切換服務異常事件自愈G O P S 全球運維大會 2 0 1 9 上海站穩定性：服務故障服務故障根因診斷問題：現在Flink集群服務正常嗎？挑戰：系統復雜，異常根因定位難度大排查過程效率低，故障影響面擴大1.模塊診斷2.集群診斷3.服務診斷分鐘級別定位故障根因、以及恢復建議G O P

9、S 全球運維大會 2 0 1 9 上海站穩定性：大促保障-壓測挑戰一：用戶作業壓測流程復雜、人肉效率低Flink運維管控壓測功能挑戰二：服務水位壓測如何精準控制大規模壓力壓力：幾十億/SFlink大促壓測解決方案安全水位實際水位2倍壓力4倍壓力8倍壓力生產Source灌數據Flink作業影子SourceG O P S 全球運維大會 2 0 1 9 上海站穩定性：大促保障大促重點業務如何保障雙11GMV鏈路全天平穩延時秒級！穩定性效果G O P S 全球運維大會 2 0 1 9 上海站成本：用戶資源大規模用戶復雜資源需求如何管理挑戰：集群資源如何合理、高

10、效分配給用戶背景：用戶規模大、資源管理場景復雜用戶資源生命周期預算服務資源運維服務計量計費服務.管控服務方案：用戶資源生命周期管理技術方案G O P S 全球運維大會 2 0 1 9 上海站成本：硬件資源通過機器資源生命周期管理自動化，提升機器利用率，降低成本物理機容器ECS.機器形態機器申請業務場景擴容上線硬件維修資源騰挪縮容下線過保釋放挑戰：萬分之一概率-幾臺機器故障/天機器資源業務管理場景復雜機器資源生命周期管理自動化方案：機器資源生命周期管理自動化機器利用率提升，降低成本G O P S 全球運維大會 2 0 1 9 上海站效率：作業診斷Flink作業診斷給

11、出根因、建議，提升排查效率問題：我的Flink作業是否正常？挑戰：分布式系統原理復雜 Flink狀態復雜、上下游鏈路冗長上百次/每天的作業問題定位Flink作業一鍵診斷方案機器集群變更事件YARNHDFS管控日志JMTMRM接口延時流量內存指標數據服務提交調度運行狀態運行異常日志聚類異常日志標注反饋性能數據運行指標代碼血緣診斷服務用戶用戶開發運維入口管控IDE機器人作業結果診斷診斷規則現象原因建議方案：Flink作業一鍵診斷反饋G O P S 全球運維大會 2 0 1 9 上海站效率：作業診斷Flink作業診斷服務實現和效果提交日志調度日志作業運行生命周期海量異常日志AM/T

12、MFO日志調度日志日志聚類實體提取自然語言處理專家標注解決方案2.異常日志聚類3.運行指標診斷1.作業運行狀態延時流量反壓上下游GC.排查經驗異動檢查實時指標指標診斷異常日志原因建議Flink作業診斷服務實現診斷經驗規則庫G O P S 全球運維大會 2 0 1 9 上海站效率：運維實體診斷通過運維實體診斷技術方案實現賦能排查能力經驗數據原理.實體診斷作業診斷集群診斷機器診斷.診斷技術實現提升效率問題定位根因分析恢復建議意見反饋賦能用戶G O P S 全球運維大會 2 0 1 9 上海站效率：智能運維機器人運維智能答疑機器人運維智能機器人機器人服務業務場景問題答疑運維搜索監控通知操作引導知識圖譜文檔檢索日志查詢實體查詢運維服務診斷服務工單服務變更操作運維流程工單審批故障響應.我的作業怎么了？某個SQL怎么寫？集群有變更嗎？今天值班是誰？.用戶協同工具ChatOps文檔操作流程.G O P S 全球運維大會 2 0 1 9 上海站WeNeedU！加入阿里大數據SRE！

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后，可能會被瀏覽器默認打開，此種情況可以點擊瀏覽器菜單，保存網頁到桌面，就可以正常下載了。
3、本站不支持迅雷下載，請使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮，下載后原文更清晰。

本文（2019年阿里超大規模Flink集群運維揭秘.pdf）為本站（云閑）主動上傳，三個皮匠報告文庫僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對上載內容本身不做任何修改或編輯。若此文所含內容侵犯了您的版權或隱私，請立即通知三個皮匠報告文庫（點擊聯系客服），我們立即給予刪除！

溫馨提示：如果因為網速或其他原因下載失敗請重新下載，重復下載不扣分。

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站