《2020年終大會-大數據應用:9-1.pdf》由會員分享,可在線閱讀,更多相關《2020年終大會-大數據應用:9-1.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、基于大數據技術構建 愛奇藝全鏈路監控平臺 郭磊濤iQIYI 運維的噩夢 晚高峰 頁面加載 失敗 視頻無法 播放 多人群聊 XX開發 XX接口有問題 看報警(短 信、郵件、 IM) 看監控 (Prometheus 、Zabbix) 看日志 (登錄多臺服 務器 grep) APP 域名 四層LB 七層LB 網關 微服務 1、2、3. 多人并行排查 Leader實時匯報 發現是下游業務 接口錯誤 多人并行排查 Leader實時匯報 如何高效定位故障并快速恢復? APP 域名 四層LB 七層LB 網關 微服務 1、2、3. 鏈路采集 原始日志采集 監控指標采集 上下文關系 深度分析 用戶故障定位 服務
2、鏈路拓撲 調用鏈分析 機房流量拓撲 基礎監控分析 容量伸縮預估 基于Google Dapper思想 異常檢測分析 . 愛奇藝全鏈路平臺:一站式監控平臺 指標監控 黃金指標(QPS/延時/錯誤) 業務自定義指標 JVM指標 運行環境基礎指標(CPU/內存) 日志監控 跨系統日志聚合 用戶行為分析 鏈路監控 拓撲分析 調用關系指標 平臺整體架構 基 礎 資 源Prometheus 日志采集 日志監控 業務日志匯總 用戶行為分析 用戶反饋關聯 HBase Druid Elasticsearch HiGraph 監控告警 ETL 數據匯集 Kafka 實時計算引擎 Flink 基礎平臺 存儲資源 指標
3、監控 監控大盤 告警策略 鏈路監控 業務拓撲 調用檢索 容量預估異常檢測 出入口流量分析 程序異常分析 無侵入式埋點框架 便捷 即插即用,無基 礎設施維護成本 全面 核心指標、鏈路追蹤, 日志監控全覆蓋 高性能 計算/存儲可橫向擴展, 日均日志處理量200億+ 鏈路監控 指標監控 日志聚合 系統運行規模 應用接入數 2000+ 業務日志處理峰值QPS 30w+/s 日均調用鏈日志處理量 200億+ 30+ 接入業務線 如何實現鏈路監控? 什么是調用鏈? 調用鏈(Trace):由不同應用產生的一系列調用(Span) 組成的有向無環圖(DAG) TraceID:給每個調用 鏈分配一個全局唯一 的 ID (稱為 TraceID), 并在調用鏈上的每次 調用都帶上這個 ID, 從而將所有子調用關 聯在一起 SpanID:給每個調用分配一個ID (稱 為 SpanID),并且把這個 ID 傳遞給子