《京東-白冰-白澤--京東BDP的全域監控管控系統.pdf》由會員分享,可在線閱讀,更多相關《京東-白冰-白澤--京東BDP的全域監控管控系統.pdf(32頁珍藏版)》請在三個皮匠報告上搜索。
1、主辦方: 白澤 京東BDP的全域監控管控系統 白冰 京東 資深研發工程師 主辦方主辦方: 白冰 資深研發工程師 “ 2015年入職京東,擔任數據中臺計 算引擎研發工程師。在大數據平臺領域有 豐富的經驗,曾主導了分布式計算引擎 (JDHive, JDSpark, JDPresto)、統一 元數據服務(JDMetaService)的架構設計 與研發。 目前任白澤系統架構師,提出了BDP 全域監控+管控的理念與目標: 打通各組件 的監控壁壘,讓監控系統也能千人前面。 此外,白澤致力于讓系統的數據反哺 到系統,讓平臺的能力回饋至平臺。給超 大規模數據平臺裝上眼睛的同時,也給其 配上大腦。 ” 個人與議
2、題簡介 白澤 上古神獸 寓意逢兇化吉 主辦方主辦方: 案例背景案例背景 主辦方主辦方: 大數據平臺面臨的挑戰 京東大數據平臺在數據量、計算量、集群規模、應用場景等方面連年快速增長,系統中原本微小的不穩 定因素如: 硬件突發問題,用戶不規范操作,軟件特定場景下的隱藏bug等都會時刻影響整個平臺的可靠 性。 與此同時,大數據平臺發生問題產生的結果往往是連鎖式的,如何構建關系鏈,快速且精準定位問題根 源? 是否能夠預測將要發生問題,防患于未然? 如何給數據平臺加上大腦,讓超大規模集群變的靈活、智能起來? 主辦方主辦方: 業界的解決辦法是?業界的解決辦法是? 服務自帶管理頁面分布式監控系統 TICK
3、主辦方主辦方: 超大規模超大規模數據平臺需要的更多數據平臺需要的更多 作業管理!作業管理! 集群管控!集群管控! 預測自愈!預測自愈! 全域融合 實時分析 多維關聯 自動升級 關系鏈 聚類降噪 規則動態修改 調度賦能 計算賦能 自愈 熔斷 全(半)自動管控 事前能防!事前能防! 事中能控!事中能控! 事后能補!事后能補! 主辦方主辦方: 白澤系統在BDP中的定 位 主辦方主辦方: 白澤系統在BDP中的定位 System/Mem/Disk/NetWork HDFS/Kafka/HbaseYarn/Kubernetes 元數據 服務 IDE/Buffalo/EasyBI/Xingtu/Aurora 權限 管理 JRCMapReduceOLAP 。 Clickhous e Flink StormPig Hive Kylin Tensorflo w Spark Presto 服務治理 作業管控 隊