《國泰君安:2024基于大模型驅動的云網全景可觀測系統建設實踐報告(18頁).pdf》由會員分享,可在線閱讀,更多相關《國泰君安:2024基于大模型驅動的云網全景可觀測系統建設實踐報告(18頁).pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、基于大模型驅動的云網全景可觀測系統建設實踐高坤國泰君安證券股份有限公司IOE技術體系(集中式架構)集中式平臺快速軟、硬故障定界定位(一般問題閉環 30min)(java/C+)業務系統平滑遷移、應用多活、高性能、超大規模KXCP/KCBP/REDIS/Ngnix強一致性(交易+批量計算)SQL server/Oracle分鐘級備切換,最低99.99%可靠性OS、x86硬件平臺云化技術體系(云原生、分布式架構)云化、分布式架構中間件(消息、事務、緩存、調用鏈等)IaaS云底座證券新核心業務微服務框架云原生容器融合分析大數據平臺分布式交易數據庫DC1DC2DCn3類云化,6大技術點云原生技術體系I
2、aaS云底座分布式交易數據庫云原生容器基礎設施融合分析大數據平臺微服務框架中間件(消息、事務、緩存、調用鏈等)業務應用重構業務系統云原生化傳統數據庫分布化基礎設施全面云化業務系統中間件分布式云原生架構基礎設施全面云化傳統數據庫分布化業務系統云原生化承載各類業務系統生產、同城及異地災備環境基于CloudStack上線開發測試云,實現計算和分布式存儲統一管控金融云發展時間軸完成國家云平臺課題驗收,發布CMP1.0,實現IAAS資源自服務基于Openstack上線開發測試云2.0,發布CMP2.0,實現對異構資源的統一納管上線生產云、開發測試容器云平臺上線開發測試信創云,并發布基礎資源服務平臺1.0
3、上線生產信創云,托管云,發布基礎資源服務平臺2.0,實現一云多芯管理建設開發測試云、生產云、集團協作云、開放生態云四朵云努力打造全行業領先的自主開發、自主掌控的國泰君安金融全棧云云總體布局2013年2014年2015年2017年2019年2020年規劃路線加速云原生建設,完成“一云多芯”信創、非信創多元算力,資源統一管理,實現云邊協同,資源敏捷交付 2023年 加速云原生基礎設施建設夯實數字基礎設施升級,擴大云資源規模,推進高效敏捷開發向以應用為中心的架構演進,實現應用敏捷開發,提升應用迭代速度2024年 云原生應用敏捷開發實現兩地多中心全棧云原生服務能力全覆蓋,完成存量系統整體遷移到全棧云。
4、2025年 全棧能力全覆蓋承載各類業務系統開發測試環境承載資產管理、期貨、創投等各子公司的業務系統承載量化私募、PB等外部客戶的業務系統生產云開發測試云集團協作云開放生態云聚焦云原生底座資源部署,加速云原生體系與平臺建設,完善和提升云原生服務能力,以科技服務云平臺為載體,面向集團提供全面、易用、自主可控的云原生服務,提升資源交付質效,高效支撐業務敏捷創新。云平臺通過標準的接入規范和部署規劃,最大程度的減少其他云應用開發周期和難度,能夠實現快速SaaS應用的上線交付。依托于此,國泰君安云計算團隊,自研開發了云監控系統、云網流量分析、彈性文件系統、對象文件系統、文檔中心、鏡像站等云應用,為用戶提供
5、了更加便捷的云資源交付與服務。結合公司基礎架構特點,為每個云服務設立獨立的業務資源模型,通過該抽象模型,能夠實現多區域、異構資源池的統一納管,從而滿足鯤鵬、飛騰、海光等國產信創芯片的云資源,實現了“一云多芯”的統一管理。正是借助此架構的優越性,使用戶在無感知的情況下自助申請、創建云資源。作為云平臺核心的組件,該應用集權限管理、配額管理、計費和事務管理于一體,通過權限校驗與配額分配,確保云資源的合理分配,實現了整個云平臺內部統一、協調運轉。智慧中臺一云多芯、多云部署自研云應用,提升云服務質量隨著越來越多的核心業務系統遷移上云,云上業務的穩定直接影響著用戶體驗與服務質量,從應用服務可視化、應用調用
6、追蹤、故障診斷、業務保障、安全、審計、運營分析、調度等維度,針對云資源池業務分析及消費的需求越發突出。缺少云資源池上的應用服務可視化能力核 心 設 備 南 北 向 的 流 量 鏡 像 采 集 點 無 法 覆 蓋 資源 池 內 流 量 采 集,缺 乏 資 源 池 內 應 用 服 務 流 量數 據 包 的 全 量 采 集 手 段,使 得 業 務 運 行 處 在 黑盒 狀 態,缺 少 資 源 池 內 的 應 用 服 務 可 視 化 能 力0101現有監控手段不能滿足復雜環境中的業務運維排障要求0202缺乏零侵擾的全鏈路分布式追蹤針 對 關 鍵 業 務 嵌 入 S D K 或 者 插 碼 打 樁 的
7、方 式,對 業 務 開 發 語 言、框 架 有 著 嚴 格 的 要 求,需 要消 耗 大 量 時 間 維 護 嵌 入 式 S D K 代 碼,對 于 邊 緣組 件 疲 于 應 對,使 得 精 準 的 業 務 保 障 成 為 難 題。0303缺乏歷史故障問題回溯分析能力關 鍵 業 務 系 統 訪 問 出 現 某 一 時 刻 或 單 次 請 求 故障 時,因 無 法 記 錄 單 次 請 求 或 瞬 時 的 網 絡 及 應用 請 求 狀 態 及 性 能 指 標,所 以 不 能 對 故 障 問 題提 供 責 任 舉 證,使 得 業 務 網 絡 依 舊 帶 病 運 行,存 在 隱 患0404資 源 池
8、內 業 務 動 態 性 高,覆 蓋 范 圍 廣,業 務 覆蓋 的 資 源 范 圍 可 能 實 時 動 態 伸 縮,目 前 監 控 手段 無 法 動 態 獲 知 復 雜 的 業 務 訪 問 調 用 關 系,無法 自 動 呈 現 業 務 的 端 到 端 全 鏈 路 流 量 拓 撲 圖解決云網絡的“黑盒在一云多芯環境建立云網絡內的流量全景視圖和運維、運營、安全管理機制,具備網絡性能分析、網絡回溯、資源回收、統計報表、網絡全景拓撲全鏈路分析能力降低可觀測運維復雜度在云原生環境中建設面向云內所有系統的高度自動化的可觀測性平臺,為云內應用提供量身打造的全棧、全鏈路、高性能數據完善公司金融云的管理為云上應用
9、提供更優質的服務,提供面向業務系統在云內的自助分析能力,保障業務穩定運行,加速故障分析效率,快速定界,提升系統穩定性和運營效率在復雜的云基礎設施及云原生環境下保障應用系統可靠穩定運行、減少故障修復時間,實現全鏈路數據監控、性能分析及故障快速定位,提升系統穩定性與運營效率覆蓋數據中心云基礎資源層虛擬化環境虛擬化環境云原生環境云原生環境云原生應用云原生應用各 資 源 類 型 宿 主 機、虛擬 機 環 境容 器 環 境,包 括 信 創、非 信 創 環 境云 原 生 中 間 件、云 原 生數 據 庫 等 云 內 應 用按功能區部署數據分析層云原生數據分析節點云原生數據分析節點云網觀測系統觀測應用觀測.
10、分析監控數據分析監控數據流量數據流量數據虛擬化數據云原生數據eBPF數據云環境數據.運維場景云網絡故障診斷云網絡歷史回溯云網絡流量拓撲云網絡調用鏈跟蹤.云網絡數據服務覆蓋虛擬化、云原生、云中間件、云數據庫等云內應用,實現對云網絡的可觀測能力覆蓋;結合CMDB等多源數據,實現對海量數據深入挖掘和分析;依托AI中心和多平臺聯動,提供不同運維場景的數據服務;可以多維度、數據化、可視化展現網絡中的不同指標,實現了對異常網絡事件的量化功能;同時,結合歷史數據,分析不同層次的運行情況從流量引取、流量采集、數據存儲等多個細分環節,實現由用戶自主掌控的能力,并可以對云網內不同類型的流量進行精細化的采集和管理可
11、作為云網環境大數據平臺,經過全網流量的采集,通過標準數據API,企業可以自行對底層數據進行查詢、業務邏輯處理、封裝,自主開發數據應用針對企業內部的個性化需求,如一體化監控等,可以實現靈活的對接,按需將流量分發給不同的數據需求部門以及對應的分析工具,實現云網的統一監控滿足云數據中心流量規模日益增長的需求,分析器、采集器軟件可靈活橫向擴展,支撐云網全景流量數據服務系統穩定運行針對精細化采集的數據流量,支持用戶對其可以進行離線數據的回溯,對常見網絡流量和應用特征類型進行提取,并可以進行直觀的展示,完成從物理網絡到虛擬網絡的端到端全棧調用鏈追蹤和診斷與公司一云多芯的異構云平臺可以進行對接聯動,調用不同
12、異構云平臺的數據接口,自動感知各環境內租戶內的業務,實現以租戶為核心的網絡流量分析。以租戶、業務為核心精細化數據采集和控制運維排障分析統一對外接口數據可量化數據PAAS平臺組件靈活擴展客戶端服務端宿主機服務端客戶端宿主機下鉆 基于云網的流量采集數據,自動生成多中心多資源池的可視化拓撲 針對某個業務,進行數據下鉆,分析業務的調用拓撲關系,并根據業務網絡情況,進行具體的性能分析業務指標分析多中心云資源池全局視圖端到端路徑追蹤詳情 基于端到端的數據鏈路情況,結合采集的性能指標,分析鏈路每一個路徑的網絡性能情況云資源自動學習和無侵入采集節點資源維度工作負載資源維度POD資源維度 實現多云資源池流量無侵
13、入、零干擾地全量采集 針對不同的云資源,自動標記端到端數據標簽資源精細化管理云網分析標準化回收周期內流量數據較小的列表結合資源的使用情況,建立開發測試環境資源回收的機制,采用留指標數據,判斷云主機的使用情況,并結合云網流量分析服務和云備份服務,實現資源回收的流程01 健全云網指標體系02 標準化排查流程容量指標系統流量吞吐、數據傳輸包數、活躍連接數可用性指標T C P 重 傳、HTTP異常、DNS異常時延指標建連時延、系統時延、應用時延n 通過建立不同問題的排障樹,標準化分析和排查流程,加速問題排查過程n 建立云網的自動化巡檢流程,系統性識別網絡中潛在風險,從而對環境進行優化配置,減少故障風險
14、可以快速了解業務系統的網絡狀況,通過定制化的視圖,結合RED指標,發現訪問管理中需要加強關注的部分,降低問題定界的時間通過對網絡流量的細致分析,可視化監控有助于優化網絡結構和配置,提升網絡性能,保證云服務的高效穩定運行云上應用關聯性分析基于云門戶的云監控分析服務支持對系統內某個業務組件的指標查看支持對性能指標的關聯性分析。通過關聯基礎資源的指標,加速問題排查效率云監控服務提供了一套基于租戶的網絡流量可視化方案建設背景eBPF技術eBPF可實現無侵入式訂閱網絡流量等各種內核事件建設情況告警應用本身下游上游已完成制定應用故障排查手冊,為解決應用故障提供參考和指導。1.針對生產集群現有應用,積極推廣
15、鏈路排查方案,協助業務系統進行改造。2.針對測試環境,加快測試環境eBPF系統建設,未來將完善應用上線準則。1.積極采納業務系統使用過程中的修改建議,提高系統易用性。2.加快云監控工具的統一入口建設,從而簡化監控流程,提高管理效率。后續應用接入規劃無法確定特定服務的上下游依賴服務流量是否正常無法回答應用的 DNS 請求解析是否正常;無法回答應用之間的連通性是否正確;業務應用具備微服務眾多、多語言開發、多通信協議特點,觀測工具繁多1234急需一種立足于容器底座,關聯應用性能觀測,打通端到端可觀測性的解決方案。黃金指標可視化展示,直觀表達系統是否正常對外服務。全局視角的應用拓補,實現系統架構感知、
16、服務依賴分析等能力。支持多種協議Trace方便根因定位。開箱即用的告警功能,支持用戶多種配置方式。豐富的上下文關聯元信息。使用計算能力去復制方法和知識,更高效的完成對可觀測數據的處理、加工、分析?,F狀專家經驗問題排查依賴經驗的積累,無法快速復制,對初級工程師仍需長時間學習專業知識廣全??捎^測性涉及到從應用調用到底層基礎設施的各個環節,包括應用性能指標、分布式追蹤、網絡性能指標、資源變更事件、函數性能剖析等。這些數據量龐大且復雜,需要綜合多個維度進行分析和關聯題排查依賴經驗的積累解決思路利用先進的大模型技術,對云網環境中的海量數據進行高效的處理和分析。通過引入數據特征提取等預處理機制,提升數據處
17、理的效率,從而實現更加實時的可觀測性基于大模型的數據處理與分析多源異構數據的整合與融合高效的數據整合與融合框架,能夠關聯來自不同來源的觀測數據,使得智能體可以基于大模型進行統一的分析。通過異構數據的關聯算法,提升數據的分析價值零侵擾的大模型應用持續剖析能力利用 eBPF 等新興技術,在不修改大模型應用代碼、不重啟大模型應用進程的情況下,實現零侵擾的大模型訓練和推理過程的持續剖析能力可擴展的系統架構設計適應云網環境的不斷變化。通過引入微服務架構和容器化技術,提升系統的可擴展性和靈活性,確保系統能夠隨著需求的變化進行平滑擴展和調整云網分析智能體LLM剖析診斷智能分析關聯場景數據,包括全棧指標、調用
18、日志、指標數據等,將數據匯總給大模型進行分析和下鉆,簡化云網層故障異常排查的難度Otel標準化統一云網數據格式統一云網數據格式,采用opentelemetry的標準定義,對不同數據源進行合并匯總,提供統一的云網分析智能體細粒度跟蹤深入剖析、診斷LLM的預訓練過程,是提高大模型訓練高效性和可靠性的有效手段。實時性能監控低開銷高安全大模型LLM應用快速發展,但是缺乏統一的監控標準,從CUDA、開發語言(Python)等維度進行細粒度跟蹤深入剖析和診斷整個模型訓練過程,識別和解決訓練過程中的性能瓶頸和資源爭用問題,提高訓練效率內核空間執行,更低的開銷,降低對LLM訓練的影響,更安全、更穩定的運行,避
19、免對系統造成影響實 時 拓實 時 拓撲分析撲分析自動檢索云環境日常常見問題文檔,基于自動檢索云環境日常常見問題文檔,基于NLPNLP對平臺用戶進行自動解答對平臺用戶進行自動解答提供標準化的云原生運營指南、加速業務系統上云效率提供標準化的云原生運營指南、加速業務系統上云效率基于大模型的AI云助手基于開源LLM開發框架和RAG引擎,解決了傳統生成模型在信息準確性、上下文相關性等局限,實現對云環境運維流程的重新編排指引初級工程師了解并使用不同云基礎資源,減少重復運維壓力指引初級工程師了解并使用不同云基礎資源,減少重復運維壓力基于開源LLM框架的功能定制開發n定制tools工具滿足運維場景 根據實際運
20、維場景,定制化開發tool工具,結合大模型的能力,執行運營過程中更復雜、交互的操作n與科技服務云門戶的無縫集成通過在科技服務云門戶的集成,提供云環境用戶實時、高效、準確的AI智能客服當前,云環境的全鏈路檢測已經逐步從NPM向全棧主動檢測,當前,還存在部分的應用使用的系統不支持eBPF能力,但是隨著應用的更新換代,后續支持eBPF能力的覆蓋率也會逐步上升,提供新的運維觀測能力NPMNPM到全棧監控到全棧監控除了云網監控、系統層監控、云數據庫等監控,還需要加強和業務監控的聯動,將數據進行標準格式的處理后,提供給業務系統,和APM等其他工具,進行全鏈路的綜合分析,實現業務系統的全景觀測和可觀測性分析能力的輸出多維數據融合多維數據融合大模型在未來會有更多的落地場景,前期通過和云網運維結合,在智能故障分析定位上可以加速定位提的定界。后續也會從運維、運營的場景出發,通過AI的能力來提高取代傳統人工事務性的工作,提升運營效率結合結合AIAI能力的落地能力的落地多個智能體的人機協同是一個趨勢,單個領域的智能體需要更深入的實現智能體的能力,并在上層協同系統下,和其他智能體共同提供業務支撐,加快運維人員處理運維、運營任務的效率,解決更復雜的實際業務場景。多智能體協同多智能體協同