《基于圖數據庫的知識圖譜存儲技術及實踐.pdf》由會員分享,可在線閱讀,更多相關《基于圖數據庫的知識圖譜存儲技術及實踐.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、基于圖數據庫的知識圖譜存儲技術及實踐周研 創鄰科技CTO|01RDF 和屬性圖02圖數據庫存儲的03圖數據庫存儲的04Galaxybase圖數據庫目錄目錄 CONTENTCONTENT|核心目標主流方案應用實踐RDF 和屬性圖01|關聯是不可逆的趨勢|信息聯通:Internet設備聯通:IoT關系聯通:微信、微博、抖音、快手商業日益縱深整合關聯分析的場景|社交網絡:精準營銷、好友推薦、輿情追蹤。金融:信用卡反欺詐、資金流向識別。電信:電信防騷擾、電信防詐騙。制造:供應鏈管理、物流優化、產品溯源。零售:用戶360、商品實時推薦、反薅羊毛。政企:道路規劃、智能交通、疫情精準防控。電力:電網調度仿真
2、、故障分析、電碳因子計算。網絡安全:攻擊溯源、調用鏈分析。RDF與屬性圖|RDF Graph點表示唯一標識的資源,或者字面量的值邊表示謂詞,構成SPO三元組Property Graph點表示實體邊表示關系屬性是點或邊上的鍵值對RDF與屬性圖的對比|RDF的優勢支持多值屬性可使用四元組實現動態圖存在統一的標準屬性圖的優勢兩點之間同類型的多條邊邊上的屬性值支持復雜類型的屬性,如List、Set、Map圖數據庫存儲的核心目標02|圖查詢的核心語義|圖的核心操作:鄰居的迭代遍歷關系型數據庫:依賴外鍵、建立索引圖數據庫:直接存儲邊數據 Index Free Adjacency寫入時:保證一個點和它直接相
3、連的邊總是存儲在一起查詢時:迭代遍歷一個點的所有鄰居可以直接進行,而不需要依賴其他數據結構深鏈查詢性能對比|關聯跳數關系型數據庫查詢時間 (單位:秒,不加索引)關系型數據庫查詢時間 (單位:秒,加索引)Galaxybase圖數據庫查詢時間 (單位:秒)20.6930.3470.00832.7542.0670.0264138.72137.610.0695超過1小時超過1小時0.109數據規模:7.5萬點,50萬邊,who-trust-whom數據集http:/snap.stanford.edu/data/soc-Epinions1.html1000倍圖數據庫的分類|圖數據庫存儲 的主流方案03|
4、使用數組存儲|點ID(A)META點屬性a1點屬性a2點屬性a3點屬性a4點文件 邊文件 每條邊起始點ID(A)邊A1邊A2邊A3邊A4邊A5起始點ID(N)邊N1邊N2邊N3邊N4邊N5終止點ID(B)META邊屬性nb1邊屬性nb2點ID(N)META點屬性n1點屬性n2點屬性n3點屬性n4使用數組存儲:處理變長|點ID(A)META點屬性a2點屬性a3點屬性a5點文件 邊文件 每條邊起始點ID(A)邊A1邊A2邊A3邊A4邊A5起始點ID(N)邊N1邊N2邊N3邊N4終止點ID(B)META邊屬性nb1邊屬性nb2邊屬性nb3點ID(N)META點屬性n1點屬性n2點屬性n3點屬性n4使
5、用鏈表存儲|點文件邊文件邊META起始點ID終止點ID起始點下一條邊ID終止點下一條邊ID點AMETA首個邊ID首個點屬性ID點NMETA首個邊ID首個點屬性ID邊 META起始點ID終止點ID起始點下一條邊ID終止點下一條邊ID使用鏈表存儲:迭代邊|點文件邊文件邊META起始點A終止點B起始點下一條邊終止點下一條邊ID點AMETA首個邊首個點屬性ID邊 META起始點C終止點A起始點下一條邊ID終止點下一條邊邊META起始點A終止點DNULL終止點下一條邊ID使用LSM樹存儲|LSM樹的特性KV存儲順序寫盤多層結構寫請求內存.MemTableImmutable MemTable磁盤 .SST
6、ableSSTableLevel 0SSTableSSTableLevel 1SSTableSSTableLevel NSSTable讀請求使用LSM樹存儲:設計Key|關鍵點:合理地設計邊的Key,使一個點的所有邊在排序后是相鄰的難點:1.讀性能2.Compaction的影響3.依賴第三方存儲起始點IDMETA編號終止點IDTYPE起始點ID例1例2優化之路|數組鏈表LSM樹優勢讀取速度快靈活性高寫入速度快分區分片事務反向邊索引數據過期 副本WALGalaxybase圖數據庫應用實踐04|國產高性能分布式圖平臺|圖存儲實時計算:內置豐富分布式圖算法、無ETL實現實時圖分析。知識中臺 :可視化交互、業務易理解、易操作,數據價值變現快。速度快:原生分布式并行圖存儲,數千萬鄰居秒級返回。高擴展:完全分布式架構,動態在線擴容,高效支持萬億級超級大圖。圖計算圖分析安全自主可控:存儲內核100%自研、全面兼容國產底層軟硬件。Galaxybase架構圖|Galaxybase性能優勢:打破圖數據處理規模世界紀錄|5萬億規模大圖分布式存儲、實時在線查詢 涵蓋出入度最大超過1000萬的超級節點 六跳深鏈查詢平均耗時僅6.7秒 僅使用50臺機器集群優異的交互式復雜查詢性能|豐富的圖算法支持|圖智能(GI)中臺|安全自主可控|標桿用戶與合作伙伴|非常感謝您的觀看|公眾號企微號