《螞蟻TuGraph計算引擎技術架構與應用.pdf》由會員分享,可在線閱讀,更多相關《螞蟻TuGraph計算引擎技術架構與應用.pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、螞蟻螞蟻TuGraphTuGraph計算引擎技術架構與應用計算引擎技術架構與應用范志東 螞蟻圖計算開源負責人螞蟻圖計算發展歷程螞蟻圖計算發展歷程流圖引擎架構與原理流圖引擎架構與原理螞蟻核心圖業務場景螞蟻核心圖業務場景未來與展望未來與展望目錄目錄 CONTENTCONTENT螞蟻圖計算發展歷程螞蟻圖計算發展歷程0101圖數據圖數據&圖計算圖計算BiologySocial NetworkFinanceTraffic復雜分析實時性大規模傳統大數據引擎圖引擎關聯分析:表J Join 圖T Traversal如何實現關聯分析?每一次遍歷,數據膨脹VertexVertexJoin1Join1EdgeEdg
2、eJoin2Join2Join3Join3表模型Table Join傳統傳統大數據大數據引擎引擎螞蟻圖計算引擎發展史螞蟻圖計算引擎發展史2015GraphXGraphX20202020自研圖存儲GeaFlowGeaFlow2019圖表融合DSL(SQL+Gremlin)20162016基于JStorm的流圖引擎JellyJelly2021功能完善性能優化業務推廣20222022接入ISO/GQLConsole平臺項目開源TuGraphTuGraph AnalyticsAnalyticsAPI(Graph/Table)State(Graph/KV)RuntimeDSL(SQL/GQL/Greml
3、in)ConsoleCloud(K8S)20182018基于Ray的動態圖引擎RayaGRayaG螞蟻流圖計算引擎螞蟻流圖計算引擎 TuGraphTuGraph AnalyticsAnalyticsGitHub倉庫:https:/ AnalyticsAnalytics 是螞蟻自研的開源分布式實時圖計算引擎,支持萬億級圖數據分析能力,實現了圖表模型的一體化處理和流、批、圖多模態計算,并提供 Exactly Once 語義、高可用以及一站式云原生研發部署能力,目前廣泛應用于數倉加速、金融風控、知識圖譜以及社交網絡等場景。分布式實時圖計算引擎分布式實時圖計算引擎 TuGraphTuGraph Ana
4、lyticsAnalytics 功能特點核心能力流圖引擎架構與原理流圖引擎架構與原理0202TuGraph Analytics 產品功能概覽VertexVertex歷史數據VertexVertexEdgeEdge構圖構圖Traversal/Traversal/迭代計算迭代計算結果表結果表輸出輸出GeaFlowGeaFlow StateState04VertexVertex全量圖全量圖G G實時數據源實時數據源G G +G+G計算計算 G讀窗口數據更新G結果表結果表輸出分鐘級延遲05圖研發平臺01圖表融合05時序圖計算04圖仿真計算02圖構建能力03圖查詢服務VertexVertex數據源數據源
5、GeaFlowGeaFlow StateState圖構建圖構建OLAPOLAPServerServer圖圖查詢查詢圖存儲圖存儲圖定義圖定義G6VPG6VP0103TuGraphTuGraph 全域全域產品架構產品架構源于螞蟻業務實踐、性能世界領先的企業級圖數據管理平臺業務應用消費金融關系網絡安全風控智能營銷數據血緣(300+)知識圖譜TuGraph圖數據管理平臺操作管理分析洞察引擎內核數據源MySQLOracle關系型數據庫CSV文件JSON消息隊列SLSKafka大數據存儲ODPSHiveRestful/RPC、命令行、J ava/PythonSDK等多種形式接口在線 圖數據庫 引擎TuGr
6、aph DB分布式架構多地容災集群管理毫秒級響應元數據一站式圖平臺TuGraph Platform圖運維集群管理監控大盤日志管理系統功能數據集成工具TuGraphLink國際標準圖查詢語言 ISO-GQL批量增量實時多數據源在線離線導入導出實時監控DSL運維工具部署環境操作系統CentOS麒麟 CPU/GPUx86ARM 部署形態容器物理機一體機圖構建模型設計數據映射數據導入數據管理圖查詢語句查詢模板管理副本設置插入數據圖分析實時圖查詢可視化圖分析配置管理發布集成近/離線 流式圖計算 引擎TuGraph Analytics時序圖計算流圖計算流圖匹配圖仿真圖學習 框架TuGraph LearnG
7、NN訓練圖樣本生成全圖推理圖策略推薦TuGraphTuGraph AnalyticsAnalytics 技術架構技術架構圖表混合處理(SQL+GQL)圖建模表建模圖構建圖查詢GQLGremlin圖計算統一流批圖調度(Pipeline&Cycle)外層DAG:鏈接表算子+圖迭代算子 內層DAG:圖計算邏輯的具體展開基于Cycle的調度模型統一執行PipelinesourceprojectIteratorOperatorfiltersink12344567startoutoutinwhereinunionendIteration統一流批圖調度(流程&狀態機)sourceaggsinkSCHEDUL
8、ERnnsourceaggsinkSCHEDULER111111sourcevcsinkSCHEDULERnn1111一次初始構建,數據pipeline流式數據處理批量數據處理stage by stage 依次調度執行靜態圖計算stage by stage,迭代多次執行動態圖計算多次執行圖計算流程sourcevcsinkSCHEDULERnn1111nnSTARTINITLOAD_GRAPH&IINIT_ITERATION&FIRST_ITERATION EXECUTION_COMPUTEFINISH_ITERATIONCLEANEND圖迭代繼續迭代持續迭代圖迭代結束圖迭代結束非圖迭代結束非圖
9、迭代計算Graph Native 存儲狀態管理WorkerWorkerIndex CacheIndex CacheLocal DiskData CacheCloud Disk(HDFS/OSS/S3)WorkerWorkerIndex CacheIndex CacheLocal DiskData CacheWrite Buffer CircularvertexedgeValue SeparationBlock BufferRemote Value Logvaluekey/postingDynamic CSR IndexcheckpointRemote Index Filecompactionf
10、lushasyncVID01234posting listcheckpointbinary encoding存儲系統設計多級存儲管理研發|運維|管理一鍵安裝圖模型圖任務圖作業平臺功能概覽螞蟻核心圖業務場景螞蟻核心圖業務場景0303螞蟻圖應用場景(300+)安全風控全圖風控、安全風控、會員關系螞蟻森林、新春紅包、關系網絡、營銷推薦、數據血緣、異常檢測、基礎分析、基礎設施推薦圖譜、基金圖譜、產品圖譜、金融圖譜服務圖譜、決策圖譜、商家服務搜索圖譜、垂直應用圖譜、場景應用會員關系會員關系圖譜應用場景 利用圖算法深度挖掘用戶關系,構建全域、實時的會員關系網絡,實現洞察、推薦、評分、風控、營銷等能力。螞蟻
11、森林超過5億用戶的好友互動、新春五福的關系推薦,都采用了螞蟻圖數據庫技術,實現毫秒級的拉新、推薦和同步。針對兩端人群(老年人、未成年人),基于圖計算關系網絡算法,對家人授權、身份更新等使用場景提供依據,降低產品使用障礙。流量歸因ABCDEFGH123456789實時歸因算法用戶行為圖譜應用場景 流量轉化分析:計算流量轉化率,分析用戶興趣和需求,改進產品設計或算法策略 渠道歸因分析:追蹤用戶入口,有針對性地改進不同渠道的營銷策略 日志訪問路徑分析:了解用戶在產品中的交互路徑,識別體驗問題,改進操作流程經過裁剪的最終轉化鏈路:A(1)-B(6)-F(7)-G(8)-H(9)信貸風控知識圖譜實時構圖
12、KGDSL規則推理消息通道MCT 聚合引擎特征平臺在線策略調用MCT 聚合引擎商戶交易事件觸發新事件MCT業務決策引擎30 minites安 安 全 全 風 風 險 險 圖 圖 譜 譜增量更新Load賭賭博博風風險險非非法法投投融融資資商商戶戶同同人人數據血緣 追蹤記錄數據變換和輪轉 保障數據變更不影響業務 保護用戶數據隱私數據計算層數據應用層數據存儲層(數據庫)數據信息層(表)數據字段層(字段)表(tab)列(col)col-to-colcol-to-tabtab-to-tabtab-to-col數倉加速圖模型SQL語句關系代數優化器圖執行計劃Rule1Rule2Rule3v1v2v3e1e
13、2e3圖模型SQL自動轉圖查詢 大表JOIN性能優化:JOIN物化。寬表方案:存儲冗余、修改困難、實時不足。未來與展望未來與展望0404技術規劃查詢語言計算框架存儲系統平臺工具OLAP圖數據庫易用性:降低圖的使用門檻QL完備性:SQL+GQL有機融合查詢優化:RBO、CBO等LLM:自然語言分析、Agent高性能:提升圖的計算效率高并發:協程調度、ASP計算穩定性:組件級FO、資源池化智能化:自主診斷、智能調優低成本:提升圖的存儲效率大規模:多級索引、Native化多模態:行列混存、HTAP一致性:事務控制、數據校驗聯系TuGraph公眾號其他400-903-0809400-903-0809社區群謝謝觀看謝謝觀看