《沈巍-可觀測性OpsCenter在移動云平臺落地實踐.pdf》由會員分享,可在線閱讀,更多相關《沈巍-可觀測性OpsCenter在移動云平臺落地實踐.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、可觀測可觀測性性OpsCenter在移動云平臺落地實踐在移動云平臺落地實踐沈?。ㄖ袊苿釉颇芰χ行?容器產品架構師)移動云現狀移動云現狀移動云發展現狀移動云發展現狀移動云目前已經演化為移動云目前已經演化為“分布式云分布式云”,通過,通過中心中心+邊緣邊緣協同發展,實現協同發展,實現“云無處不在,網無所不及云無處不在,網無所不及”的業務體系,滿足客戶的業務體系,滿足客戶全全場景云業務需求場景云業務需求,提供四大區精品、大規模低成本、區域就近入云、云網個性化定制等多形態云服務,提供四大區精品、大規模低成本、區域就近入云、云網個性化定制等多形態云服務中心區中心區域域邊緣區邊緣區域域省級區省級區域域固
2、網固網5G5G4G4G可信可信網關網關 廣域邊緣云廣域邊緣云泛廣域邊緣云泛廣域邊緣云省云省云省云省云中心云中心云京津冀京津冀陜川渝陜川渝長三角長三角3AZ3AZ3AZ3AZ3AZ3AZ3AZ3AZ大灣區大灣區局域邊緣云局域邊緣云局域邊緣云局域邊緣云海馬等三方云海馬等三方云省自建邊緣云省自建邊緣云網絡邊緣云網絡邊緣云基于基于“五個一五個一”構建中國移動布式云構建中國移動布式云 構建構建N+31+XN+31+X一朵分布式云一朵分布式云,中心資源池省省有,高品質精品云池立足熱點,中心資源池省省有,高品質精品云池立足熱點區域輻射全國,加大力度打造邊緣異構池云能力實現領先區域輻射全國,加大力度打造邊緣異
3、構池云能力實現領先 打造全網一鍵發布的打造全網一鍵發布的統一分布式云操作系統統一分布式云操作系統,實現云邊技術棧統一,打造中,實現云邊技術棧統一,打造中心心+邊緣的一致用戶體驗邊緣的一致用戶體驗 建設建設一套多云異構納管運營平臺一套多云異構納管運營平臺,向下實現資源統一管理、調度,向上支撐,向下實現資源統一管理、調度,向上支撐云上應用靈活搭建、適配云上應用靈活搭建、適配 推進上云用數賦智重安推進上云用數賦智重安一體化業務運營管理能力一體化業務運營管理能力,加快業務,加快業務/能力上云進度能力上云進度(加快云網安全等產品能力),快速布局協同的營銷推廣體系,推動市場上(加快云網安全等產品能力),快
4、速布局協同的營銷推廣體系,推動市場上規模規模 實現實現邊緣云統一運維邊緣云統一運維,有效保障故障處理時效,保證客戶業務感知,有效保障故障處理時效,保證客戶業務感知總體規劃:總體規劃:中心中心+邊緣協同發展,打造邊緣協同發展,打造“五統一五統一”的分布式云的分布式云云原生可觀測性云原生可觀測性監控監控 VS 可觀測性可觀測性監控監控可觀測性可觀測性 例如:某應用程序Crash,某Host宕機 例如:某應用程序Crash,某Host宕機 程序多實例部署(并非根因)實際則是程序內存泄漏的問題指標指向問題本身指標指向問題本身指標指標無法無法指向問題本身指向問題本身現象即是問題本身依賴“運維老手”的經驗
5、判斷適合檢測已知問題監控監控-現象往往不是問題本身溯源根因依賴工具聯動開放式的探索,適合排查未知問題可觀測性可觀測性-對比對比AvailabilityPerformanceCapacityMetricsDisctributed TracingLogsException Tracking監控監控 VS 可觀測性可觀測性服務對象服務對象人員能力要求人員能力要求部署架構部署架構關聯分析能力關聯分析能力告警能力告警能力數據管理方式數據管理方式運維運維運維、開發、運維、開發、運營、運營、安全安全需要多套監控工具,對人員技術要求需要多套監控工具,對人員技術要求高高統一的可觀測性平臺,降低了人員能力的要求統
6、一的可觀測性平臺,降低了人員能力的要求不同工具間部署架構存在差不同工具間部署架構存在差異異需要運維人員基于經驗進行手動分析,需要運維人員基于經驗進行手動分析,關聯分析難度較大關聯分析難度較大基于閾值的告警,容易產生告警風暴基于閾值的告警,容易產生告警風暴機器數據孤島、數據復用難、利用率低機器數據孤島、數據復用難、利用率低統一部署維護,云原生架構,彈性擴展,能更統一部署維護,云原生架構,彈性擴展,能更好的適應業務快速變化和發展的需求好的適應業務快速變化和發展的需求全量整合多類機器數據,打通跨設備,系統的全量整合多類機器數據,打通跨設備,系統的事件分析壁壘事件分析壁壘告警降噪,告警自愈告警降噪,告
7、警自愈統一的數據管理,提升了數據利用率,降統一的數據管理,提升了數據利用率,降低了數據使用和維護的復雜度低了數據使用和維護的復雜度傳統監控傳統監控可觀測性可觀測性可觀測性數據結構可觀測性數據結構 主要用于監控告警監控告警(Monitoring&Alert)場景,通常存儲在時序數據庫。是對 Logging 事件的聚合,泛指各種指標監控和大盤,通過多維度聚合、分析和可視化展示,幫助工程師快速理解系統的運行狀態。主要用于業務依賴調研鏈的鏈路追蹤鏈路追蹤(Tracing)場景,通常存儲在日志數據庫。全鏈路追蹤,面向的是請求,通過對請求打標、透傳、串聯,最終可以還原出一次完整的請求,可幫助工程師分析出請
8、求中的各種異常點。主要用于日志審計日志審計(Logging)場景,通常存儲在日志數據庫。不能單純的理解就是日志,泛指的是應用運行而產生的可以詳細解釋系統運行狀態的各種事件,日志記錄是其中最常用一種手段。當前,主流的可觀測性系統主要基于當前,主流的可觀測性系統主要基于 MetricsMetrics(指標)、(指標)、TracingTracing(鏈路)、(鏈路)、LoggingLogging(日志)三大數據類型構建,基本涵蓋了一個(日志)三大數據類型構建,基本涵蓋了一個 Application Application 所能產生的大部分可觀測性數據,足以讓開發運維人員洞察所能產生的大部分可觀測性數
9、據,足以讓開發運維人員洞察 Application Application 的運行狀態。的運行狀態??捎^測性系統組件可觀測性系統組件在在 CNCF Landscape CNCF Landscape 中,可觀測性的相關產品被分為中,可觀測性的相關產品被分為 MonitoringMonitoring(監控告警)、(監控告警)、LoggingLogging(日志審計)、(日志審計)、TracingTracing(鏈路追(鏈路追蹤)、蹤)、Chaos EngineeringChaos Engineering(混沌工程)、(混沌工程)、Continuous OptimizationContinuous
10、Optimization(持續優化)(持續優化)五大類。五大類。MonitoringMonitoring:PrometheusPrometheus、CortexCortex、ZabbixZabbix、GrafanaGrafana、Sysdig Sysdig 等。等。LoggingLogging:LokiLoki、ELKELK、FluentdFluentd、Splunk Splunk 等。等。TracingTracing:JaegerJaeger、zipkinzipkin、SkyWalkingSkyWalking、OpenTracingOpenTracing、OpenCensus OpenCen
11、sus 等。等。Chaos Engineering:Chaos Engineering:Continuous Optimization:Continuous Optimization:可觀測性最佳實踐可觀測性最佳實踐??捎^測性體系可觀測性體系開始構建我們的可觀測性體系開始構建我們的可觀測性體系OpsCentorOpsCentor設計與實現設計與實現OpsCentorOpsCentor軟件架構軟件架構移動云建設移動云建設規模大規模大,承載業務,承載業務種類繁多種類繁多,兼具電信級別和金融級別的兼具電信級別和金融級別的“穩穩”和互聯網的和互聯網的“快快”,支撐又快又穩的業務發展需要完,支撐又快又穩
12、的業務發展需要完善的穩定性可觀測保障體系。善的穩定性可觀測保障體系。這個體系的基石就是這個體系的基石就是移動云可觀測性平臺移動云可觀測性平臺-OpsCentor-OpsCentor,OpsCentorOpsCentor將會逐步實將會逐步實現監控全息化,系統數據化,運維智能化現監控全息化,系統數據化,運維智能化三大目三大目標。標。解決問題解決問題分析分析聯動聯動多集群管理多集群管理Serverless Serverless 運行時運行時微服務微服務Dev CodeDev CodeTraceTrace:全鏈路追蹤平臺:全鏈路追蹤平臺APMAPM分析平臺分析平臺自愈風險自愈風險風險預警風險預警攻防演
13、練攻防演練根因定位根因定位電信業務電信業務變更攔截變更攔截業務場景業務場景應用監控應用監控移動端監控移動端監控業務監控業務監控網絡監控網絡監控中間件監控中間件監控系統監控系統監控領域領域研發拓展能力研發拓展能力可視化引擎可視化引擎性能管理性能管理基礎設施監控基礎設施監控日志引擎日志引擎告警與預警告警與預警核心能力核心能力異構系統接入異構系統接入洞察運營洞察運營數據管理數據管理計算存儲計算存儲數據接入數據接入時序數據平臺時序數據平臺日志標簽日志標簽日志存儲日志存儲日志分析日志分析日志平臺日志平臺混沌工程混沌工程持續優化工持續優化工程程AIOpsAIOps智能運維平臺智能運維平臺Adds-onAd
14、ds-on分析分析數據湖數據湖2023年年2021年年OpsCentorOpsCentor技術架構技術架構 告警處理 日志和事件處理中心 全鏈路追蹤 集群性能智能監控引擎(CPAE)集群物理基礎設施管理引擎(CPIE)WatchMan可值守OPS中心 Grafana顯示中心 各種種類的Exporter CloudSentinel-Agent 日志和事件Generater Trace-Agent等OpsCentorOpsCentor之之PingMeshExporterPingMeshExporter 大型數據中心通常包含數百或數千臺服務器、存儲設備和網絡設備,這些設備會產生大量數據和復雜的網絡流
15、量。數據中心中的設備通常來自不同的供應商,并且可能運行不同的操作系統和應用程序。這使得管理和維護這些設備變得更加困難。數據中心中的設備之間存在復雜的關系和依賴,例如服務器和存儲設備之間的關系、虛擬機和物理服務器之間的關系等。數據中心需要不斷保持高水平的安全性,以防止黑客攻擊和數據泄露等問題。由于數據中心中的設備數量眾多,故障處理變得更加復雜。必須能夠快速診斷和解決問題,以避免影響業務。PingMeshExporter-PingMeshExporter-實現機制實現機制1.通過IP Controller自動獲取到整個集群的podIP 和 nodeIp list2.通過Pinglist Contr
16、oller 下發 Agent Setting配置3.通過Custom Define Pinglist 在 pinglist.yaml 文件中補充 外部地址。支持dns地址、外部http地址、domain地址、ntp地址、Kubenetes apiserver地址等等1.如果pinglist中 數據很多,在一個周期(比如10s)處理不完,會保證本次處理完成后,在執行下一次,優先一個輪回完成2.配置可以設置 agent 并發線程數,確保 pingmesh agent 對整個集群影響小于千分之一3.Metrics中是通過Promethrus Gauge,在每個周期中單獨計算4.為了確保 ping的請
17、求在一個時間窗口interval中平均發出,對請求job 做了內存態計算,在并發協程上做了ratelimit#HELP pingmesh_fail ping fail#TYPE pingmesh_fail gaugepingmesh_failtarget=8.8.8.8,tor=ping-public-demo 1#HELP pingmesh_duration_milliseconds duration of ping rtt#TYPE pingmesh_duration_milliseconds gaugepingmesh_duration_millisecondstarget=docker
18、.io,tor=ping-public-demo 245PingMeshExporter-PingMeshExporter-圖表顯示圖表顯示1.請求超過了timeout時間,將請求標記為 ping_fail2.請求超過了delay 但沒有超過timeout時間,將請求標記為 ping_duration_milliseconds3.請求沒有超過delay,在metrics接口中不記錄OpsCentorOpsCentor之之CPACPAE ECPAECPAE全稱為全稱為Cloud Performance Analyse EngineCloud Performance Analyse Engine,
19、其集安全嗅探,性能分析,其集安全嗅探,性能分析,IOIO監測,網絡性能監測等為一體監測,網絡性能監測等為一體的的NodeNode性能智能監控引擎性能智能監控引擎 Sentinel-Officer 對外提供了Restful-API的標準接口,接收外部傳送的命令,并將監測結果按照一定的格式進行返回。Sentinel-Officer 接收外部的命令之后,可通過gRPC的方式下發至cloudSentinelAgent由其來執行具體的操作。Sentinel-Officer 對外可對接了WatchMan和Kube-ApiServer,WatchMan為一組定義的命令集,用戶可以利用其快速獲取集群或Node
20、節點的性能,告警等參數,方便運維人員快速定位問題。SecurityOSReportTcpDumpReportgRPC-ClientnmapsysdigtcpdumpgRPC-ServerWatchManKube-Apiserver CloudSentinel-Officer CloudSentinelAgent網絡分析操作系統分析系統安全分析OSPerformanceReportCPIE-Resrtful-ApICPACPAE-E-實現機制實現機制是一個具備是一個具備redfishredfish、ipmiipmi、tcpdumptcpdump、nmapnmap和和sysdigsysdig等工具
21、的等工具的agentagent,可以廣泛,可以廣泛應用于云原生環境中,提供全面的可觀測性支持,幫助應用于云原生環境中,提供全面的可觀測性支持,幫助管理員及時發現和解決各類問題,保證系統的穩定性和管理員及時發現和解決各類問題,保證系統的穩定性和安全性。安全性。nmapsysdigtcpdumpgRPC-Server網絡分析操作系統分析系統安全分析CPAE-CPAE-圖表顯示圖表顯示結合結合nmapnmap和和nmap-nmap-formatterformatter-plus-plus制作的工具在云原生可觀測性體系中具有快速制作的工具在云原生可觀測性體系中具有快速定位安全威脅、精準的掃描結果、高度
22、定制化、與其他工具集定位安全威脅、精準的掃描結果、高度定制化、與其他工具集成和自動化掃描等優勢,可以幫助團隊及時發現、分析和處理成和自動化掃描等優勢,可以幫助團隊及時發現、分析和處理安全威脅,提高云原生系統的安全性和可靠性。安全威脅,提高云原生系統的安全性和可靠性。OpsCentorOpsCentor之之CPIECPIE 資產盤點耗時費力 廠家眾多,管理管理軟件不統一 異構 Arm/Amd 種類繁多 固件升級困難 僵尸服務器 異常高耗能設備 統一規范的接口 支持多種硬件平臺 物理設備全方位監控 高效的指標收集 可視化網絡拓撲圖CPIECPIE全稱為全稱為Cloud Physical Infra
23、structure EngineCloud Physical Infrastructure Engine,定位為數據中心物理硬件基礎設施管理引擎,其具備,定位為數據中心物理硬件基礎設施管理引擎,其具備異構異構硬件資源管理,硬件資源管理,故障監測,能耗管理等功能。故障監測,能耗管理等功能。AgentAgent目標資源目標資源1 1目標資源目標資源2 2AgentAgent目標資源目標資源1 1目標資源目標資源2 2AgentAgent目標資源目標資源1 1目標資源目標資源2 2數據匯聚數據匯聚RulesDriverRulesDriver數據融合數據融合CPIE-OperatorCPIE-Oper
24、ator控制層控制層服務層服務層采集層采集層DBDBCPIE-ControllerCPIE-ControllerCPIE-GWCPIE-GWCPIE-WebGuiCPIE-WebGui任務下發任務下發數據上報數據上報CPIE-CPIE-物理基礎設備監控物理基礎設備監控實現了全自動的資產端到端管理,從設備上線、位置識別、配置核查、資產位置變更、部件變更、實現了全自動的資產端到端管理,從設備上線、位置識別、配置核查、資產位置變更、部件變更、機柜空間管理。機柜空間管理。CPIE-CPIE-物理基礎設備監控物理基礎設備監控 主動巡檢:被動觸發巡檢:帶內巡檢:全天候主動巡檢全天候主動巡檢+被動接收。實時
25、發現告警。被動接收。實時發現告警。帶內帶內+帶外部件狀態、性能指標、維保、網絡狀帶外部件狀態、性能指標、維保、網絡狀態等全方位監控。態等全方位監控。產品典型故障、典型案例歷史故障解決方案案例案例客服,測試,研發等技術專家的解決方案專家經驗專家經驗Raid、BMC日志分析模型黑盒日志分析模型故障現象對照模型批量設別故障分析故障診斷模型故障診斷模型解決方案故障分析報告巡檢計劃操作系統操作系統OSOS物理防火墻物理防火墻網絡設備網絡設備物理服務器物理服務器IPMI/SNMP/Redfish/Https設備保修設備保修巡檢規則巡檢規則屏蔽規則屏蔽規則告警規則告警規則主動巡檢被動巡檢用戶用戶7 7*24
26、24主被動監主被動監控控設備指標狀態設備指標狀態及性能監控及性能監控微信、云空間微信、云空間遠程通知遠程通知帶內外數據監帶內外數據監測測CPIECPIEOpsCentor-OpsCentor-顯示顯示OpsCentorOpsCentor的可視化組件選用的可視化組件選用GrafanaGrafana,該組件是一個流行的開源數據可視化和監控工具,能夠完成對各種數據源進行,該組件是一個流行的開源數據可視化和監控工具,能夠完成對各種數據源進行抽象完成可視化工作,如圖表,儀表盤,告警等。抽象完成可視化工作,如圖表,儀表盤,告警等。GrafanaGrafana功能增強功能增強OpsCentor-OpsCentor-告警平臺工作流告警平臺工作流挑戰與未來挑戰與未來OpsCentor-OpsCentor-挑戰與未來挑戰與未來1.推動內部服務可觀測性改造升級2.大云:超大規模單集群適配關注我們獲取更多云原生資訊Thank you