《科來 冀佳鵬:金融云數據中心立體化觀測實踐.pdf》由會員分享,可在線閱讀,更多相關《科來 冀佳鵬:金融云數據中心立體化觀測實踐.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、金融云數據中心立體化觀測實踐冀佳鵬科來關于科來科來榮獲 Red Herring Global Top 100全球百強稱號,該評選遴選自網絡、軟件、服務、芯片制造以及新能源、生物制藥等全球數千家高科技企業,科來憑借技術創新與質量管理脫穎而出。Red Herring Global Top 100全球百強稱號 科來網絡技術股份有限公司,成立于2003年,已服務超過10000家商業客戶,140家世界五百強企業選擇科來。在金融領域,科來具備豐富的服務能力:科來同時服務于工、農、中、建、交、郵儲六大國有銀行,11家股份制銀行,及全國超過500家金融客戶??苼硌邪l的產品廣泛應用于用戶的云環境可觀測、智能運維
2、以及安全分析等關鍵領域??苼砘诙嗄陿I務分析、網絡分析技術沉淀,根據當前業務運行環境及架構特點,開發了一款云數據中心立體化可觀測性工具,旨在解決云數據中心環境中,涉及業務、應用、網絡、基礎設施等多維度的可觀測性問題。2018-2019年蟬聯 Gartner NPMD 魔力象限“遠見者”稱號;2020、2021年Gartner NPMD市場指南唯一被詳細介紹的中國企業。蟬聯Gartner NPMD魔力象限“遠見者”稱號IDC發布China Semiannual IT Unified OperationSoftware Tracker報告,報告顯示,2018-2023年科來連續六年位居中國網絡性能
3、分析管理(NPM)領域榜首。蟬聯中國NPM領域市場占有率第一以產品和技術評測著稱的全球著名科技雜志PC Magazine科來產品被評為“全球最佳科技產品獎”全球最佳科技產品獎云數據中心可觀測性挑戰構建全鏈、全棧、立體、智能的云數據中心觀測體系業務目標驅動的智能化監控分析010203云數據中心可觀測性挑戰 云計算的發展給業務保障和運維帶來了新的挑戰 云時代的到來也加速了可觀測性的發展云環境的高度復雜性帶來的挑戰云上虛擬網絡:vSwitch/NAT/GW/SLB/vFW/Ingress/Nginx等云下物理網絡:SDN網絡,交換機、防火墻、負載均衡器,VxLAN隧道、GRE隧道等。云上網絡+云下網
4、絡分析的難題,讓云服務商和他們的客戶一樣頭疼。微服務架構:提供強大生產力的同時,應用變得越來越復雜,服務間的互相依賴、交互越來越多,沒有人能梳理它。CI/CD:依靠CI/CD快速迭代上線的業務,也在為它的敏捷承受反面效果,越來越多的問題無法解決時,最好的辦法就變成更加頻繁的發布。云數據中心全棧、全鏈分析難題SVC-ASVC-B高延遲高延遲SVC-ASVC-B虛擬網元SVC-CSVC-ARDS?Time outHostNodeSVC-A-PodBusiness codeSyscallRDSLBLB應用時延應用時延Session drift應用進程應用進程POD網卡網卡SidecarNode網卡網
5、卡宿主機網卡宿主機網卡物理網絡設備物理網絡設備虛擬網元虛擬網元云中間件云中間件云數據庫云數據庫應用代碼應用代碼構建全鏈、全棧、立體、智能的云數據中心觀測體系 首次實現Infra、NPM、APM、業務監控等多維度數據關聯分析、挖掘追蹤 以業務為中心的基于運維大數據的智能化監控分析模型云數據中心端到端觀測WANFirewallRouterSpine Leaf網關SWWEB 網關服務器集群NAT GWL4 LBEIPVPCGWNFV區域L7 LBPASS服務計算資源DBRedis中間件消息隊列SLB智能DNS生產云資源池-AZ鏡像流量數據分支機構災備數據中心 Agent Agent AgentAge
6、ntAgent AgentAgentAgent AgentAgentMobile 科來云魔方分布式集群邊緣云公有云 Agent Agent全網流量數據采集架構業界首創的“可編排式”探針技術eBPFTrafficMetricTraceLogSmart AgentCross-domain Cross-domain visibilityvisibility云網絡云網絡Metrics物理物理網絡網絡Metrics應用應用Metrics業務交易業務交易Metrics基礎設施基礎設施Metrics應用應用Trace數據數據交易交易Trace數據數據應用日志應用日志網絡網絡Trace數據數據交易日志交易日志
7、數據包數據包Profile數據數據Event數據數據EventTagCMDBAgent的特性說明:可以無差別部署于云主機、宿主機、容器Node內的Smart Agent;以流量數據包采集、分析和eBPF內核監控數據作為主要數據源;通過云平臺API獲取各類云資源標簽、Events數據;支持對接OpenTelemetry、Prometheus等第三方數據源。MetricTraceLog核心技術介紹全流量技術1、全流量數據包采集:重點業務覆蓋,輸出全流量數據包,用于精細化網絡性能分析。2、全流量回溯:真的重點網絡節點、重要業務進行全流量溯源取證分析。3、超高性能:采用軟硬件一體化高性能的流量回溯分析
8、設備,在大規模流量前久經考驗。網絡Metrics應用Metrics網絡Trace全流量數據包將Metrics、Profiles、Traces、Logs、Event、Packets 等元數據整合到統一的監控對象中,通過Trace/Request/Operation ID 進行串聯真正實現全棧全鏈性能追蹤前置分析技術1、探針本地計算模式:全范圍覆蓋,捕獲到業務數據包后進行本地計算,輸出性能指標。2、應用協議解析:支持在探針進行應用協議解析,并提取應用字段信息和指標。3、環境兼容:需要兼容各類資源池環境,兼容不同的系統架構及版本,實現全行無差別部署。eBPF內核技術業務交易解碼交易Metrics交易
9、Trace交易日志網絡Metrics應用Metrics網絡Trace應用Trace應用日志Profiling1、集成進探針中:eBPF集成進探針中,部署在主機及容器內,捕獲內核性能數據。2、獲取性能數據:基于eBPF及其他內核技術獲取指標、追蹤,Profile,日志數據等。3、動態采集:通過集成eBPF診斷工具或其他方案,研究按需動態采集更多性能及狀態指標。網絡Trace1、全流量數據包的有效利用:針對重點獲取的流量數據包二次消費,進行業務交易解碼分析。2、交易數據關聯:提取重點交易特征,進行交易相關指標的輸出,并能關聯至網絡會話、應用調用與基礎設施等網絡Metrics應用Metrics基礎設
10、施Metrics網絡Trace應用日志數據包Events全棧、全鏈、立體化觀測圖譜12全棧全鏈觀測場景功能層平臺層智能引擎AI分析引擎智能基線開放性數據倉儲故障知識庫算法模型業務監控交易指標業務異常網絡分析全棧追蹤應用分析進程分析性能剖析監控能力告警能力分析能力關聯能力云資產監控應用監控集群性能評分業務指標分析業務交易監控鏈路監控動態基線告警業務特征學習靜態閾值告警告警閉環流程告警實時聚合告警交叉驗證業務云資產網絡系統應用接口&函數業務交易接口及函數云及容器資產云上云下網絡系統調用應用進程識別業務交易特征、業務返回碼等,對業務指標進行清晰的展示,實時掌握業務和交易運行情況。對云及容器資產進行性
11、能指標的實時監控分析,包括基礎設施、網絡、應用等不同維度。展示云上云下包括云上各類網關、宿主機、虛擬機、容器節點、POD等全棧網絡性能。分析應用請求的系統調用,通過系統調用的分析關聯網絡會話和應用調用。分析應用相關的系統指標、網絡指標、和應用指標;以及相關的應用協議解析的性能分析。通過無侵入的方式獲取到應用進程內部,相關的接口及函數級別的性能分析情況。業務監控業務觀測服務拓撲資產網絡指標網絡觀測全景自動拓撲應用觀測用戶旅程多維分析返回碼分析交易指標全棧路徑追蹤云上云下視圖流量回溯分析數據包下載與解碼網絡指標分析數據包分析應用指標分析接口函數分析全棧路徑關聯業務交易關聯NAT會話關聯應用調用關聯
12、系統調用關聯網絡調用關聯應用拓撲應用日志分析關鍵字段性能指標分析進程分析分布式鏈路追蹤Profile性能剖析網絡觀測-自動繪制云網全景拓撲全自動任意技術棧的云網全景拓撲任意網絡路徑的全棧路徑追蹤任意云上資產或業務的全景網絡拓撲 便捷的拓撲操作,可分析下鉆到展示 可追蹤任意資產或服務間的節點 支持詳細的網絡指標分析,追蹤 性能分析最后一公里(支持任意對象的)數據包下載和在線解碼任意云資產及網絡路徑的回溯分析網絡觀測-云上云下全棧追蹤分析全路徑追蹤拓撲自動刻畫在任意網絡路徑上進行“全棧路徑追蹤”或者在排障時直接在全路徑追蹤頁面中輸入源目資產或地址,即可呈現單條會話全路徑視圖,實現的詳細分析。全自動
13、的云上云下拓撲自動拓撲視圖中支持選擇任意物理網絡設備進行網絡拓撲的繪制,展示整個網絡設備的性能情況,能夠支持,并標識在不同網絡設備上采集到的相關資產流量的網絡性能指標。業務觀測-零插碼、零改造的用戶旅程分析賬戶登錄賬戶查詢登錄前廣告查看轉賬匯款查看營銷活動個人信息查看 只需要輸入手機號、用戶ID等信息,就可以關注這個用戶在哪一步操作異常、哪一步操作時延高。通過識別返回碼判斷業務上的成功或者失敗,比如轉賬成功或失敗等。更關鍵的是,這個功能還實現了業務成果與網絡、應用性能指標的關聯,快速判斷技術方面的性能問題。讓運維部門面對業務的投訴不再手足無措!展示單筆交易用戶旅程故障節點關聯網絡、應用性能指標
14、分析點擊單個旅程,進入鏈路追蹤,判斷流經網絡和應用的問題應用觀測-無插碼的應用性能分析簡單便捷的應用分析能力支持,進行協議解析:HTTP、DNS、MySQL、Redis、Kafka、Dubbo、gRPC等,可快速兼容識別更多協議。針對自動識別應用的詳細分析展示按照應用維度聚合的各個維度分析,包括:。支持在選擇的指定指標,例如請求量、響應時延、異常比例、慢SQL等指標,進行日同比、周同比的上升或下降比例的呈現,快速了解應用的異常狀態。分布式鏈路追蹤即可進行端到端分布式鏈路追蹤,自動匹配應用Span與系統調用、網絡調用的關聯關系。應用觀測-跨越全棧的單次請求調用鏈路追蹤追蹤服務之間的追蹤服務之間的
15、調用調用追蹤服務內部的追蹤服務內部的調用調用關聯網絡調用關聯網絡調用關聯磁盤讀寫關聯磁盤讀寫展示網絡與基礎展示網絡與基礎設施的鏈路追蹤設施的鏈路追蹤火焰圖火焰圖通過通過eBPF獲取進獲取進程、線程前后調程、線程前后調用關系用關系應用觀測-完全無侵入的Profile代碼性能剖析實現零侵入的Profile代碼性能剖析:可以從技術方案選型層面:實現完成無侵入的沒有任何依賴的Profile數據采集能力 極低的性能消耗:1%CPU、250M內存開銷上限 零侵入:無需將代理或庫加載到正在分析的進程中 支持大部分的開發語言(Java、Python、Ruby、PHP、Node.JS、C/C+、Rust、Zig
16、、Go等)融合AI能力,打造自動化、無人化的預測型可觀測性 基于AI的告警和根因分析業務目標驅動的智能化監控分析基于全量可觀測數據采集,通過實時計算引擎生成分鐘級統計數據。平臺基于動態基線學習能力,結合動態基線替換規則、智能算法,實現“”的智能告警。告警自動聚合,告警根因判斷告警根因判斷面向網絡鏈路、應用、資產對象自動學習基線行為,同時結合,實現高精度告警。圖上根因推導,幫助我們在復雜的網絡及應用,定位根因節點通過根因節點和關聯影響節點的不同告警級別的呈現,判斷業務故障中的。多維指標融合的多維指標融合的智能基線告警智能基線告警告警聚合告警聚合經過打磨的故障經過打磨的故障知識庫知識庫智能基線告警
17、與AIOps面向業務的可觀測分析流程科來智能化綜合運維平臺面向“業務健康度”的監控感知面向“故障與問題排查”的全棧分析工具業務部門業務域業務交易業務指標個人金融企業金融零售手機銀行網銀理財積分定期存款匯款轉賬交易響應率交易成功率交易響應時間返回碼指標分析追蹤分析調用分析根因定位網絡問題應用問題基礎設施應用鏈路追蹤全棧網絡追蹤進程分析業務旅程系統調用網絡調用應用調用數據庫性能剖析耗時分布函數調用接口分析業務告警指標告警交叉驗證,告警輸出智能分析引擎交易成功率交易返回碼交易時延業務交易請求量網絡性能指標網絡鏈路追蹤流量會話明細其他 網絡容器資產事件信息基礎監控指標PaaS服務資產應用協議應用性能指
18、標分布式鏈路追蹤進程、代碼應用業務告警判斷業務告警的云資產范圍判斷相關網絡性能問題判斷相關資產上的應用判斷應用性能問題判斷基礎設施問題判斷云服務(網元)問題展示問題根因滑 動 時 間 窗 口動態基線告警靜態閾值告警自定義告警其他告警告警聚合拓撲關聯事件關聯網絡策略圖形推導配置排查故障根因統 一 數 據 接 入、監控配置告警觸發 自動計算 流程引導全自動分析流程引導能力“讓每個人都會用的產品”業務驅動、場景化、向導式引導的故障分析AI將成為可觀測性的重要組成部分預測型AI確定性AI多維數據關聯融合實時業務/網絡智能評估洞察基于多維數據因果關系進行根因分析多維度對比、基線分析在問題發生之前進行故障預測逐步建立故障預測、自動修復的流程極大降低專業工具的使用門檻自然語言便捷交互、數據解讀故障分析歸納、疑似問題推理云魔方智能觀測平臺(CMC)網絡回溯分析系統(RAS)可擴展式AI分析引擎(CSAIE)=混天綾智能監控引擎(CAS)智能化全網觀測解決方案模型化+可視化+場景化自動化+智能化便捷化+服務化生成式AI