《2019年千億級全球監控體系構建和智能監控探索.pdf》由會員分享,可在線閱讀,更多相關《2019年千億級全球監控體系構建和智能監控探索.pdf(41頁珍藏版)》請在三個皮匠報告上搜索。
1、GOP S 全 球 運 維 大 會 2019上 海 站GOP S 全 球 運 維 大 會 2019上 海 站千億級游戲監控體系和智能監控GOP S 全 球 運 維 大 會 2019上 海 站目錄來自全球布局的游戲的監控挑戰1海量時間序列數據處理2數據可視化和報警3智能監控實踐4GOP S 全 球 運 維 大 會 2019上 海 站傳統游戲架構對監控的要求1.單體架構2.基礎設施單一3.深耕國內市場4.監控層次簡單GOP S 全 球 運 維 大 會 2019上 海 站新時代的挑戰1.游戲架構多樣化2.混合基礎設施3.拓展海外市場4.從傳統監控到可觀察性GOP S 全 球 運 維 大 會 2019
2、上 海 站游戲架構多樣化1.單體架構2.分布式架構3.微服務GOP S 全 球 運 維 大 會 2019上 海 站混合基礎設施物理機私有云公有云容器云云原生混合云GOP S 全 球 運 維 大 會 2019上 海 站拓展海外市場1.業務覆蓋全球數十個國家2.二十多個region3.多個云服務商GOP S 全 球 運 維 大 會 2019上 海 站從傳統監控到可觀察性報警可視化面板DebuggingProfiling依賴分析傳統監控可觀察性GOP S 全 球 運 維 大 會 2019上 海 站從傳統監控到可觀察性GOP S 全 球 運 維 大 會 2019上 海 站網易游戲監控架構GOP S 全
3、 球 運 維 大 會 2019上 海 站目錄來自全球布局的游戲的監控挑戰1海量時間序列數據處理2數據可視化和報警3智能監控實踐4GOP S 全 球 運 維 大 會 2019上 海 站海量時間序列數據的采集和存儲方案監控對象抽象 適應任意業務架構 靈活的數據描述全球就近接入 低延遲 高準確性 高可用性最小化管理成本 CMDB集成-變更事件驅動數據采集中心 多種采集方式 混合云適配統一數據總線 多采集入口 統一輸出 數據對齊 實時聚合海量時間序列存儲 索引分離 冷熱數據 水平擴展能力GOP S 全 球 運 維 大 會 2019上 海 站監控對象抽象機器 物理機 虛擬機 容器硬件 CPU 網卡 GP
4、U業務 Redis Cluster Kafka Topic 游戲場景 戰斗 NPCGOP S 全 球 運 維 大 會 2019上 海 站監控對象抽象100+EntityTypes500萬 Entities 4億 TimeseriesGOP S 全 球 運 維 大 會 2019上 海 站全球就近接入-基礎架構GOP S 全 球 運 維 大 會 2019上 海 站全球就近接入-高可用ArbiterRegionNodeAgentAgentNodeAgentRegionNodeAgentAgentArbiters Active-StandbyNode心跳保持Region內多Nodes一致性哈希分配Ag
5、entsRegion間互備集群配置管理和數據流分離GOP S 全 球 運 維 大 會 2019上 海 站全球就近接入-Region管理GOP S 全 球 運 維 大 會 2019上 海 站最小管理成本-與CMDB集成GOP S 全 球 運 維 大 會 2019上 海 站數據采集中心GOP S 全 球 運 維 大 會 2019上 海 站數據采集中心-混合云兼容物理機Agent插件Pusher虛擬機Agent插件Pusher容器Agent插件-從宿主采集Pusher日志指標云原生KubernetesCadvisorPrometheusExporter日志指標GOP S 全 球 運 維 大 會 20
6、19上 海 站數據采集中心-插件化Agent核心調度消息插件系統插件自定義插件Agent800+個Python插件按機器服務自動分發版本更新自動分發插件熱更新插件倉庫ArbiterCMDBGOP S 全 球 運 維 大 會 2019上 海 站統一數據總線?GOP S 全 球 運 維 大 會 2019上 海 站海量時間序列存儲水平擴展能力線上百萬QPS,4億Series秒級寫延遲平均讀延遲148ms讀接口時間粒度自動稀釋GOP S 全 球 運 維 大 會 2019上 海 站目錄來自全球布局的游戲的監控挑戰1海量時間序列數據處理2數據可視化和報警3智能監控實踐4GOP S 全 球 運 維 大 會
7、2019上 海 站數據可視化-視圖組裝EntityType=serviceEntityType=groupEntityType=projectProject1Group1Service1Service2Group2Service3TagsEntitiesEntityTypes100+EntityTypes500萬 Entities 200+自定義視圖GOP S 全 球 運 維 大 會 2019上 海 站數據可視化-機器視圖項目-群組-機器GOP S 全 球 運 維 大 會 2019上 海 站數據可視化-容器視圖K8S-Pod-ContainerGOP S 全 球 運 維 大 會 2019上 海
8、 站數據可視化-業務視圖Arbiter-Region-NodeGOP S 全 球 運 維 大 會 2019上 海 站數據報警-所見即所得GOP S 全 球 運 維 大 會 2019上 海 站數據報警-策略指標閾值指標變化率異常消息異常檢測組合報警策略模版分享&訂閱GOP S 全 球 運 維 大 會 2019上 海 站數據報警-報警收斂規則引擎問題合并模塊通知GOP S 全 球 運 維 大 會 2019上 海 站數據報警-問題生命周期GOP S 全 球 運 維 大 會 2019上 海 站目錄來自全球布局的游戲的監控挑戰1海量時間序列數據處理2數據可視化和報警3智能監控實踐4GOP S 全 球 運
9、 維 大 會 2019上 海 站智能監控實踐-異常檢測GOP S 全 球 運 維 大 會 2019上 海 站智能監控實踐-異常檢測GOP S 全 球 運 維 大 會 2019上 海 站智能監控實踐-異常檢測模型統計學/距離/密度/聚類模型 使用簡單、無監督 效果隨緣IsolationForest 無監督、Baseline不錯 效果上限一般有監督集成模型效果上限好標注成本高分類泛化模型曲線/異常分類預訓練模型適配同類曲線樣本、特征篩選難度大GOP S 全 球 運 維 大 會 2019上 海 站智能監控實踐-異常檢測模型Precision 0.85 recall 0.75f1 score 0.8on 100,000+seriesGOP S 全 球 運 維 大 會 2019上 海 站智能監控實踐-關聯分析從幾百條曲線中定位故障根因?確定故障影響范圍?下鉆影響整體的局部指標?GOP S 全 球 運 維 大 會 2019上 海 站智能監控實踐-關聯流程觸發報警確定搜索范圍計算相關性隨報警推送按反饋優化模型GOP S 全 球 運 維 大 會 2019上 海 站智能監控實踐-關聯分析模型