《1.阿里基于eBPF的應用可觀測技術實踐.pptx》由會員分享,可在線閱讀,更多相關《1.阿里基于eBPF的應用可觀測技術實踐.pptx(21頁珍藏版)》請在三個皮匠報告上搜索。
1、首屆中國首屆中國eBPFeBPF研討會研討會首屆中國首屆中國eBPFeBPF研討會研討會基于eBPF的應用可觀測方案阿里云-張城(元乙)自我介紹元乙(張城)元乙(張城)負責阿里巴巴集團、螞蟻金服、阿里云等可觀測基礎設施,服務數萬內外部客戶,EB級規模、日流量近百PB 多次在QCon、KubeCon、云棲大會等做過相關議題分享,云原生操作系統Kubernetes作者之一 目前主要關注AIOps、內核技術、云原生、大規模存儲/分析引擎等方向阿里云-高級技術專家首屆中國首屆中國eBPFeBPF研討會研討會告警監控可觀測性A system is said to be observable if,for
2、 any possible evolution of state and control vectors,the current state can be estimated using only the information from outputs.監控 vs 可觀測性聚焦在故障發現可觀測性 目標白盒化,多種觀測手段 確保找到根因,防患于未然 注重Recall+Precision 貫穿Dev/Tester/Ops等環節Failed聚焦在故障發現監控 聚焦在發現 確保系統穩定性 PrecisionRecall Ops為主首屆中國首屆中國eBPFeBPF研討會研討會云原生應用可觀測首屆中國首
3、屆中國eBPFeBPF研討會研討會應用可觀測技術如何還原應用的各類行為、特性首屆中國首屆中國eBPFeBPF研討會研討會常見的應用觀測技術 手動 每個接口、調用處埋點半自動 只需修改部分框架代碼全自動 自動注入,無需修改代碼NetworkHTTP FrameworkProcessorAProcessorBInterceptor.beforeInterceptor.afterProcessor X半自動全自動首屆中國首屆中國eBPFeBPF研討會研討會eBPF&應用可觀測無侵入高性能 無需修改代碼 適應所有語言 只需部署一個Agent 內核態處理/過濾 Zero Copy 采樣機制一些優秀的eB
4、PF可觀測項目Pixie:https:/ 問題問題:日志、監控統一收集,減輕運維監控負擔 特點:特點:日志/監控實時采集、采集配置Web管理、運行狀態監控、異常自動上報 狀態:狀態:日10TB+數據,3W+部署2017阿里集團階段阿里集團階段 問題問題:多部門、百萬規模自動化運維/部署、穩定性保證 特點:特點:日志采集可靠性保證、自動化部署/升級/異?;叶?運維、采集管控、多租戶管理 狀態:狀態:日1PB+數據,百萬部署云原生階段云原生階段 問題問題:云上管理、容器化/K8s、對接開源標準協議、碎片化需求 特點:特點:統一版本、容器數據采集、K8s Operator、插件化擴展機制、多種開源數
5、據接入 狀態:狀態:日10PB+數據,千萬部署開源共建階段開源共建階段 期望期望 可觀測數據采集“共同富?!敝С指迂S富的上下游生態 挖掘更多的應用場景與潛力 性能、穩定性持續提升https:/ sendfile64readreadvrecvrecvmsgcloseHookPreFilterPreProcessSendToUserSpaceAPP1網絡交互Kprobe HookRecvFromKernelCopyToBufferProcessConnectionManagementLocal MetaManagementParseProtocolPostFilterhttpgrpcmysqlk
6、afkaredisCorrelate MetaGarbage CollectionAggregateSendKProbe。DataPanelControlPanelPreParseProtocolNetStatCounterTraceRulePreTracehttpgrpcmysqlkafkaredis。ConfigManagementECS K8s APP1APP1APP1APP1APP2無侵入無侵入輕量級輕量級高穩定高穩定無需應用做任何代碼級修改,無需重啟或重新部署應用基于eBPF技術,內核態數據包預過濾,支持采樣精細化采集資源控制,崩潰隔離,不影響業務應用Kernel SpaceUser
7、 Space內核態數據攝入(1/3)對網絡相關調用進行攔截針對UDP、TCP 特性獲取連接元信息數據預處理推斷協議推斷C/S過濾采樣首屆中國首屆中國eBPFeBPF研討會研討會協議判斷有效性?數據完整性?數據處理(2/3)內核態與用戶態交互的數據橋梁,Perf MapL4 數據特征固定,統一聚合,降低數據膨脹L7 數據特征提取與處理數據包亂序下的Req/Resp 推斷匹配數據跨多個包的邊界問題首屆中國首屆中國eBPFeBPF研討會研討會L7 數據按提取特征聚合,明確L7調用REDL4&L7 用戶態關聯元數據,如容器信息亂序優化跨包Merge數據控制與優化(3/3)用戶態補齊內核態長連接下的數據
8、缺失用戶態補齊內核態無法判斷的C/S如何多維過濾觀測對象首屆中國首屆中國eBPFeBPF研討會研討會合理GC降低觀測系統內存資源的消耗Uprobe 下的反向控制多個維度匹配采集源用戶態數據補齊數據控制下的GC策略優化首屆中國首屆中國eBPFeBPF研討會研討會分級控制重用對象池無鎖化延遲GCeBPF的數據如何關聯MetaPID&FDPID/proc/$PIDcmdlinecgroupContainer MetasK8s MetasProcess MetasCmd¶msContainerImageNamespcaePodWorkload/proc/$PID/$FDINodeNetLink
9、Remote AddressAcceptConnectParse Params池化管理?Pod/ECS/MySQL監控在連接建立后優先級首屆中國首屆中國eBPFeBPF研討會研討會eBPF的數據如何關聯MetaPID&FDPID/proc/$PIDcmdlinecgroupContainer MetasK8s MetasProcess MetasCmd¶msContainerImageNamespcaePodWorkload/proc/$PID/$FDINodeNetLinkRemote AddressAcceptConnectParse Params池化管理?Pod/ECS/MySQ
10、L監控在連接建立后優先級首屆中國首屆中國eBPFeBPF研討會研討會編譯、部署與自身可觀測ECS容器K8s其他云線下IDCeBPF基于lcc編譯框架實現ECS 自動安裝K8s Yaml/Helm手動下載安裝方式http:/ 自動選擇最優匹配版本失敗上報Refine機制CPU、內存等資源占用指標重啟、Overflow、錯誤率過高等事件處理、解析、過濾、GC等qps、latency指標首屆中國首屆中國eBPFeBPF研討會研討會首屆中國首屆中國eBPFeBPF研討會研討會全局數據流程Meta InjectionServiceDaemonSetDeploymentMeta(K8s、主機、進程)原始數
11、據No IndexMetasN流Join-1大多小預聚合指標服務拓撲Scheduled SQL實時拓撲云資源自定義MetaEvents富化數據黃金指標巡檢服務可觀測方案整體架構LogsTracesMetrics配置變更文件監控用戶點擊OpenTelemetry移動端物聯網容器數據源訪問日志智能聚類智能預測根因分析異常關聯基礎算法算法GrafanaDataVTableauOpenAPI集成實時SQL存儲算力查詢分析數據ETL存儲與管道流計算離線計算SQL分析ScheduledSQL編排自定義報表Terraform數據可視化交互式分析告警通知Webhook輔助決策首屆中國首屆中國eBPFeBPF研討會研討會基于eBPF應用可觀測的異常定位Logs聚類分析Pattern ComparePattern MiningMetrics異常判斷ARMA、KSigmaTime2Graph等APP1APP2eBPF Based DependencyCMDBPod虛擬機交換機機房DAG中間件入口黃金指標的異常判斷開始進入分析下游應用的遞歸流程下游調用是否出現異常依賴的中間件調用黃金指標中間件自身的監控指標應用Pod、虛擬機、機房等指標應用自身日志的聚類分析關聯變更信息異常事件時間軸eBPF應用可觀測價值首屆中國首屆中國eBPFeBPF研討會研討會首屆中國首屆中國eBPFeBPF研討會研討會Q&A謝謝