《沈游人-RustCC-AtlasGraph.pptx》由會員分享,可在線閱讀,更多相關《沈游人-RustCC-AtlasGraph.pptx(38頁珍藏版)》請在三個皮匠報告上搜索。
1、新一代分布式高性能圖數據庫的構建北京海致星圖科技有限公司 2023-06-18沈游人數據庫與大數據專場海致簡介企業級知識圖譜開創者專業頂尖技術團隊支撐專業頂尖技術團隊支撐超700人團隊,其中 80%為技術人員,創始團隊在完成全球第一個中文知識圖譜網站研發后,探索知識圖譜技術在企業領域的應用。2021年,海致院士專家工作站成立,站內清華大學計算機博士生占比達90%以上。企業級數據解決方案專家企業級數據解決方案專家為建行、工行、交行、招行、上交所、深交所、中國人壽等70+銀行證券保險企業、公安部、上海市公安局、武漢市公安局等100+公安機構,國家電網、國信通產業集團等電力能源行業提供數據智能產品解
2、決方案及長期服務。海致專注為政府、金融、能源等客戶提供大數據處理、分析、挖掘服務,在互聯網技術基礎上,打造專業、易用的企業級大數據實戰應用產品及解決方案。北京中關村總部武漢運維中心深圳研發中心上海應用中心專注于數據智能技術賦能中國數字經濟發展專注于數據智能技術賦能中國數字經濟發展海致高性能圖計算院士專家工作站鄭緯民鄭緯民-海致科技首席科學家海致科技首席科學家中國工程院院士、清華大學計算機科學與技術系教授、中國計算機學會前理事長,中國計算機系統結構的學科帶頭人,我國高性能計算和存儲系統等方面的泰斗和先行者。2021年3月25日,海致科技與清華大學計算機科學與技術系共同建設高性能圖計算院士專家工作
3、站。高性能圖計算是高性能計算、圖計算兩項技術融合產生的新的技術方向,滿足人們對更大規模、更復雜數據的實時處理和存儲需求,是計算機領域競爭新戰略制高點。產學結合、協同創新,打造全球領先的國產自研圖數據庫AtlasGraph,培育世界級的圖計算軟硬件生態體系,保持對全球科技競爭的戰略均衡。海致高性能圖計算院士專家工作站海致高性能圖計算院士專家工作站海致獲得“2021年CCF科學技術獎科技進步卓越獎”CCF科學技術獎被認為是計算機科學與技術領域最具影響力的專業獎項之一,其中科技進步卓越獎是CCF科技進步獎評選中的最高級別獎項,旨在嘉獎在計算機科學、技術或工程領域具有重要發現、發明、原始創新,在相關領
4、域有一定國際影響的優秀成果,AtlasGraph的獲獎證明了其技術領先性、創新性、重要性,在自主可控浪潮下,實現了對國外產品的有效替代,防止高新技術領域“卡脖子”現象的發生。海致科技集團、海致星圖聯合清華大學研發的“AtlasGraph大規模圖數據分析平臺”榮獲中國計算機學會(CCF:China Computer Federation)“2021年CCF科學技術獎科技進步卓越獎”。伴隨市場對于知識圖譜應用的不斷深入,圖數據規模和應用性能之間的矛盾愈加凸顯,海致針對以上背景展開了系統性的技術攻關,解決了圖數據的高效存儲、索引及復制難題,提出了基于圖縮減的高效分析方法,并孵化出了一個大規模圖數據分
5、析平臺AtlasGraph。5獲得獲得20222022年中國電子學會科學技術獎科技進步一等獎年中國電子學會科學技術獎科技進步一等獎中國電子學會發布的2022中國電子學會科學技術獎公告,海致星圖與北京郵電大學、螞蟻科技集團有限公司、中移動信息技術有限公司聯合研發的“大規模復雜異質圖數據智能分析技術與規?;瘧谩表椖?,斬獲“科學技術獎科技進步一等獎”,這也是國內電子信息領域的最高獎項。該獎項由數十名院士評審,歷經三輪,從三百余個申報項目中遴選而出。由院士等組成的科技成果鑒定委員會認為:“該成果技術復雜度高,研制難度大,創新性強,項目成果整體達到國際先進水平,其中異質圖建模與表示學習技術和超大規模圖
6、學習系統處于國際領先水平?!币越K為始,以行為知,這一項目從圖計算所面臨的挑戰出發,解決了大規模圖數據所產生的建模能力不足、結構知識難用、巨量數據難算等技術挑戰,實現了大規模復雜異質圖數據的表示學習模型、語義推薦和風險管理關鍵技術,構建了完整的兼具理論指導與應用檢驗的大規模圖數據智能分析系統與平臺,滿足了大數據時代從復雜異質圖數據中進行知識發現的重要需求。最終獲得國內外授權發明專利 43 項,CCF-A 類論文 51 篇,獲得 2 次國際競賽冠軍,參與了2項圖計算相關標準制定。AtlasGraph架構及實現圖技術簡介Takeway“世界是復雜關系的總和”一張典型的知識圖譜電話/同通訊錄/綁定同賬
7、戶/.Mac地址/IP地址/wifi.親屬/同事/一致行動人/擔保同地址/同設備登陸/.已簽署/過期簽署/意向簽署/.已簽署/過期簽署/意向簽署/.董監高/就職/實際控制人擁有/抵押/質押股權/資管計劃/資金往來/擔保/借貸/集團/控股/上下游.父子/組合/繼承轉賬/大額轉賬/頻繁轉賬/.擁有擁有持有登錄/連接已購買/意向購買/潛在購買/.個人客戶賬戶機構客戶資產合約員工手機號設備商品商品查詢/操作生活中無處不在的圖圖分析技術分類圖查詢 使用圖數據庫的查詢語言進行點邊搜索圖算法 中心性算法 社區算法 路徑算法 圖深度學習 圖嵌入 圖卷積 圖注意力網絡 圖自編碼器圖查詢及其應用場景圖查詢使用圖數
8、據庫的查詢語言進行點邊的關聯查詢,可以快速完成傳統數據庫難以完成的 多度點邊關聯當前圖的典型應用場景路徑識別群體挖掘節點識別相似節點鏈接預測連接強度一致行動人同事關系實際控制人可能認識的人上下游同愛好的人親屬關系人與人、企業與企業、企業與人之間的復雜、潛在關系推導和挖掘為已有的分析模型增加“關系特征”維度客戶貢獻度客戶信用分客戶忠誠度客戶欺詐分客戶風險度違約概率客戶資質集團關系社群關系欺詐團伙擔保關系資金圈/鏈設別出帶有某種共同特征的企業或個人群體輿情傳導營銷傳導風險傳導計算某個事件在關聯的企業、個人之間的傳遞過程和傳遞概率圖深度學習及其應用場景圖嵌入將高維的圖信息映射到低維向量中通過圖嵌入將
9、客戶關系表示為低維向量,可以結合其他客戶行為特征進行機器學習訓練圖卷積神經網絡對圖結構數據進行卷積計算通過已有的企業數據,通過GCN進行半監督學習和分類,預測企業的違約概率傳統的關系型數據庫的存儲方式丟失了事物之間的關系信息Relational TableRelational TableReal WorldReal WorldMulti-Context is Preserved with Graph AnalyticsSource:KDnuggets圖技術全景圖Graph Technology Landscape 2020圖數據庫圖數據建模圖計算引擎圖數據集成可視化分析知識圖譜解決方案圖查詢語
10、言欺詐檢測網絡安全分析社交網絡分析BI工具圖分析工具集圖咨詢服務Source:Graph Aware圖數據庫發展趨勢AtlasGraph研發背景 業務對大圖分析的訴求(千億點、萬億邊)實時風控對圖庫的性能挑戰(OLTP毫秒級響應)海致圖平臺產品服務于金融、政府行業有大量業務經驗積累(接近客戶需求)現有開源產品無法滿足要求(受限于基礎架構設計,優化性能有限)新一代分布式圖數據庫需具備的特性特性信雅達高可用一致性(事務)高性能低資源消耗易用功能豐富AtlasGraph關鍵特性云原生云原生Cloud-Native Graph Database支持彈性伸縮,有效利用硬件資源,高可用,高可靠,故障自愈,
11、低成本運維HTAPHTAPHybrid Transactional/Analytical Processing,高性能圖計算引擎,預置20余種圖計算算法,可擴展的分析引擎支持更復雜的數據挖掘和機器學習場景MPPMPPMassively Parallel Processing架構,大規模集群分布式存儲及并行計算,Shared Nothing模式支持存儲計算分離高性能高性能基于Rust開發的分布式存儲引擎及圖計算引擎,精細的內存管理設計,內置索引系統,支持毫秒級的并發查詢響應速度易用易用AQL(Atlas Graph Query Language),類SQL的圖查詢語言,內置上百種分析函數,面向分
12、析師友好,擁抱標準,基于openCypher向ISO GQL邁進實時大圖實時大圖支持萬億節點存儲及流式計算引擎的結合,最新數據實時入庫構圖,為在線業務決策分析提供有力支撐AtlasGraph架構及實現新一代圖技術應用特征簡介TakeawayAtlasGraph架構概覽存儲層 副本管理CRAQ圖原生存儲索引LSM-Tree容災保障(BR)元數據層 事務管理MVOCC計算層 CypherAST優化器圖計算內存加速引擎服務接口HTTP/RPCSpark連接器Python UDF執行器索引管理一致性存儲 RAFT分片管理元數據集群管理用戶權限GNN應用層 Atlas圖平臺AtlasStudioAtla
13、sClient基礎設施Docker/K8S/VM X86/ARM-基于RUST語言保證性能優勢-分布式架構性能可線性擴展-針對大規模圖優化的存算引擎-配合Atlas圖平臺,實現無代碼圖分析-Query性能分析模塊,啟發式提示優化-內置多種分析函數,面向分析師友好-MVOCC保證事務一致性-多副本管理保證數據服務高可用-在線備份提供容災保障高速易用可靠Why Rust?Performance Blazingly fast and memory-efficient No runtime or garbage collectorReliability Guaranteed memory safety
14、“Fearless Concurrency”Productivity Modern development tools Lots of amazing librariesRust編譯通過了bug比cpp少上百倍!圖模型Labeled Property Graph ModelArbitrary(key,value)pairs where key identifies a property and value is the corresponding value of this propertyPropertiesTypes(or classes)of vertices and edgesLabe
15、ls查詢語言:基于Cypher貼合ISO GQL Standard Incorporate by reference specifications from SQL/Framework and SQL/Foundation Capabilities needed by both SQL/PGQ(Property Graph Queries in SQL)and the GQL standard GQL Specific Capabilities2019-09 39075 Database Language GQL project approved-this is the start2021-1
16、1 CD Ballot started2022-02 CD Ballot ended and comment resolution started2023-06 DIS(Draft International Standard)Ballot starts2023-11 DIS ballot ends2024-04 International Standard類SQL語言,簡單易用,面向分析師友好查詢引擎:計算請求執行流程Cypher ASTUnresolvedLogical PlanLogical PlanOptimizedLogical PlanPhysical PlanProgramAPI
17、Analysis rulesOptimization rules:MATCH-pushdownPlanning StrategiesGraph ExecutionCode GenJITCost modelStorage backend(Property Graph KV store)Pushdown filterCypher(a)-:LIKES-(b)計算下推:面向圖應用特征設計分布式存儲FindVertexWalkVertexScanCartesianProductProjectionFilterStageStage物理執行計劃物理執行計劃010203將不同的執行階段推送到對應的存儲引擎,減
18、少網絡傳輸和內存壓力實際執行時,執行器等待流數據,處理后將數據推送到下一個執行器切分執行計劃,將執行計劃劃分成不同的執行階段內存緩存結構:加速圖數據查詢 由于圖數據的查詢通常是 IO 密集型,且訪問的數據隨機又分散,擁有內存緩存能起到很好的加速效果 要想讓內存緩存發揮最大的作用,就要能在有限的內存中存下盡量多的圖數據 例如,對于屬性的存儲,可以通過自行序列化/反序列化大幅節省內存 而自定義存儲格式往往需要內存的精細操作,由于 Rust 允許在 unsafe 下訪問裸指針,可以實現零開銷讀取 將Unsafe包裹,對外提供足夠的接口i32i64u32u32stringstring定長變長高可用技術
19、方案基于Chain Replication(CRAQ)算法實現,進行數據副本處理,頭結點寫,多結點讀,支持讀寫分離,提供更好的并發查詢能力數據高可用實現Chain Replication 數據高可用方案服務高可用實現系統中Meta,TS服務采用主備架構,基于Raft算法實現租約,進行服務多活,保證圖庫不會出現單點故障。Raft 服務高可用方案偏向分析型的分布式事務【MVOCC事務提交】基于多版本樂觀并發控制技術的分布式事務實現,在保障一致性的前提下,提供優秀的分析性能分布式事務技術方案MVOCC 處理流程全面的算法支持 覆蓋全部常用算法路徑計算、社區檢測、相似度計算等 豐富的自研圖算法環路識別
20、、鏈路識別、節點間全路徑、發散子圖識別、匯聚子圖識別、金字塔子圖識別與圖數據庫的深度結合 使用cypher語句直接調用 支持在用戶篩選出的子圖上計算 靈活的參數設定自研圖計算系統架構、極致的性能優化 深度適應客戶的系統環境和算法需求機器數量有限,通常小于10網絡帶寬不高(千兆、萬兆以太網)需要支持各種不同類型的圖計算算法 雙重執行模式單機和分布式兩套計算系統,在不同的使用環境中都能達到最佳性能 針對常用算法逐個設計優化方案對于常用算法,跳過固定的編程模型,分別設計最佳的計算方案例如我們自研的node2vec采樣算法比現有技術快了1個數量級海致圖計算平臺特點AtlasML極致的性能支持CPU/G
21、PU等異構設備訓練特殊設計的高性能圖算子庫豐富的算法庫內置多種20+個GNN算法支持同構圖/異構圖/屬性圖客戶的信任上線某銀行反欺詐場景業務效果提升10%+靈活易用的開發平臺AtlasML Python Library集成Jupyter Notebook超參數自動優化支持超參數自動調優,解放算法科學家生產力,避免繁雜的手動調參海致圖神經網絡平臺特點Rust 語言特性助力構建高性能圖數據庫01利用Rust Stream 進行數據流式處理0203協程和嚴格的內存安全性,編譯時捕獲數據競爭和并發問題異步物理算子實現,異步IO數據獲取01可靜態分發的Trait在不帶來性能損失的同時也提高代碼組織性02
22、03強大的跨平臺能力,在不同架構下可以準確的控制代碼行為編譯期間對生命周期檢查確保內存安全,無GC和運行時損耗01完善的測試類型支持,包括單元測試、集成測試、基準測試等0203和文檔系統以及CI/CD工具的良好集成完整的斷言系統異步協程零成本抽象強大的測試框架REPL命令行客戶端WebUI面向分析師,提供圖模型定義、數據管理、圖查詢分析、服務狀態監控、用戶管理能力免代碼,可視化定義實體、邊,設計圖模型?!玖咙c】支持模型導入導出 拖拽式關系構建 豐富的樣式配置 實時圖結構預覽 用戶授權管理 中文及顯示別名支持圖模型設計WebUI可視化圖探索分析【亮點】K步鄰居查詢、屬性過濾 最短路徑、全路徑分析
23、 按實體、邊類型匹配查詢 子圖識別、環路識別等在線圖挖掘分析 實體、邊可視化統計分析 樹、層次、分組等多種布局方式 基于D3自研的萬級別實體展現可視化圖探索分析AtlasGraph架構及實現圖技術簡介TakewayAtlasGraph圖數據庫關鍵特性-基于RUST語言保證性能優勢-分布式架構性能可線性擴展-針對大規模圖的優化的存算引擎-配合Atlas圖平臺,實現無代碼圖分析-Query性能分析模塊,啟發式提示優化-內置多種分析函數,面向分析師友好-MVOCC保證事務一致性-多副本管理保證數據服務高可用-在線備份提供容災保障高速易用可靠Photo/image/chartYoung、Passion、TechieAbout teamAbout meAbout USJoin USThank you!