《前沿監管科技:2024高性能圖數據庫金融應用白皮書(48頁).pdf》由會員分享,可在線閱讀,更多相關《前沿監管科技:2024高性能圖數據庫金融應用白皮書(48頁).pdf(48頁珍藏版)》請在三個皮匠報告上搜索。
1、.page 08.page 08.page 08.page 10.page 104.1 圖數據庫 Benchmark 介紹4.2 圖數據庫 Benchmark 的特性4.3 LDBC FinBench 標準4.4 FinBench 測試基準應用圖數據庫國際標準3.1 金融風險管理3.2 金融欺詐檢測3.3 知識圖譜構建3.4 市場營銷分析.page 12.page 12.page 13.page 14.page 15目 錄C O N T E N T引 言圖數據庫技術概述圖數據庫金融應用2.1 圖數據庫定義2.2 圖數據庫的發展歷程2.3 圖數據庫特點2.4 圖數據庫的技術優勢2.5 圖數據庫的
2、未來挑戰2.1.1 市場定義2.1.2 概念解析2.3.1 直接體現實體間的關聯關系2.3.2 高效靈活的擴展數據規模2.3.3 可對關聯數據進行快速查詢2.3.4 提供了針對圖檢索的查詢語言2.5.1 大數據的挑戰2.5.2 新硬件的挑戰2.5.3 接口語言的挑戰2.5.4 數據建模的挑戰4.3.1 FinBench 背景介紹4.3.2 FinBench 場景與設計4.3.3 FinBenchv0.1.0 版本.page 01.page 02.page 02.page 04.page 04.page 06.page 07圖數據庫優秀案例分析5.1 螞蟻集團基于 TuGraph 的金融風控實踐
3、5.2 海致星途基于 AtlasGraph 的信用卡智能應用5.3 嬴圖 LRM 流動性風險管理圖中臺5.4 創鄰科技Galaxybase 國產高性能圖數據庫在某全國股份制銀行的建設與應用5.5 TigerGraph國內某 top5 銀行利用 TigerGraph 打造圖存儲+圖計算+圖可視化的一體化的反洗錢反欺詐解決方案5.1.1 案例概述5.1.2 案例說明5.1.3 整體成效5.1.4 經驗與啟示5.1.5 企業介紹5.2.1 案例概述5.2.2 案例說明5.2.3 整體成效5.2.4 社會價值5.2.5 經驗與啟示5.2.6 企業介紹5.3.1 案例概述5.3.2 案例說明5.3.3
4、整體成效5.3.4 經驗與啟示5.3.5 企業介紹5.4.1 案例概述5.4.2 案例說明5.4.3 整體成效5.4.4 經驗與啟示5.4.5 企業介紹5.5.1 案例概述5.5.2 案例說明5.5.3 整體成效5.5.4 經驗與啟示5.5.5 企業介紹.page 16.page 16.page 22.page 27.page 37.page 421隨著通信技術和大數據快速發展,金融行業數字化程度不斷加深,金融行業具有的數據資產體量劇增,數據間的關聯關系變得愈發復雜交錯。傳統的對少量、單維度、靜態化數據的分析已經難以滿足金融業數字化轉型需求,多樣的風險形式對風控能力提出了更高要求,越來越多的場
5、景需要借助智能化技術。圖數據庫作為深入挖掘數據信息的有力工具,開始受到全行業的關注,它以其獨特的數據模型和高效的查詢能力,為金融行業提供了一種全新的數據管理和分析解決方案,并在金融業開展廣泛應用。為了更有效的評估金融場景下的圖數據庫,國際關聯數據基準委員會(LDBC)正式發布全球首個金融圖數據庫測試基準的首個版本 FinBench,填補了金融圖數據庫領域測試基準的空白,為金融行業提供了一個全球范圍內專業、客觀的共享工具,以評估和比較不同圖數據庫的性能。其參與成員包括螞蟻集團及 Intel、KATANA GRAPH、NebulaGraph、Pometry、TigerGraph、嬴圖等全世界范圍內
6、多家專注于圖數據庫領域的科技公司。為推進圖數據庫國際標準 FinBench 在金融行業的創新應用試點,總結圖數據庫技術與產業融合創新的優秀經驗做法,促進圖數據庫技術和經濟社會發展的深度融合,北京前沿金融監管科技研究院(以下簡稱前沿研究院)開展金融圖數據庫場景應用案例征集工作,并在 2023 金融街論壇年會“全球金融科技中心網絡年會”上發布重要成果“圖數據庫金融應用場景優秀案例”。本次“圖數據庫金融應用場景案例”征集工作,以圖數據庫權威基準測試組織“關聯數據基準委員會(LDBC)”發布的金融圖數據庫基準“LDBC-FinBench”為評選維度,考察了評選案例在金融場景的產品力、應用實效場景、風控
7、效果等方面的表現。螞蟻集團、海致星圖、創鄰科技、嬴圖等 5 家企業的圖數據庫應用案例首批入選。盡管圖計算已經在各種不同場景展現了技術的卓越優越性,但未來應用的廣度和深度仍然有著巨大的拓展空間。為幫助金融機構和相關從業者更深入地理解圖數據庫技術,前沿研究院編寫了高性能圖數據庫金融應用白皮書,介紹了圖數據庫技術特點、在金融行業的應用、技術標準等內容,并展示了螞蟻集團等獲獎案例企業是如何借助圖數據庫技術助力金融機構實現數據價值的最大化,提升業務效率,降低風險,并推動創新。未來,圖計算這項技術服務千行百業,還需要行業共建更多基準、標準指引,攜手探索技術應用的更多可能性面,推動行業發展和技術創新。引 言
8、2圖數據庫是指以圖表示、存儲和查詢數據的一類數據庫。此處的圖不是指圖片,而是以圖論為理論基礎,使用圖模型,將關聯數據的實體作為頂點(vertex)存儲,關系作為邊(edge)存儲,解決了數據復雜關系帶來的嚴重隨機訪問問題。在分類上,圖數據庫可歸類為 NoSQL 數據庫。隨著企業數字化轉型的深入,社交、物聯網、金融、電商等領域快速發展,因此產生和收集的數據量呈現指數級的增長,傳統的關系型數據庫在處理復雜關系的數據方面遇到瓶頸,其對數據的管理和使用不能完全滿足市場需求。企業對于數據庫的需求已經從一般的數據管理演變為從復雜的數據關系中最大化提取數據價值。在圖數據庫中,數據間的關系和數據本身同樣重要,
9、它們被作為數據的一部分存儲起來。這樣的架構使圖數據庫能夠快速響應復雜關聯查詢,因為實體間的關系已經提前存儲到了數據庫中。圖數據庫可以直觀地可視化關系,是存儲、查詢、分析高度互聯數據的最優辦法。在基于圖的數據模型中,最常見的兩種方法是標簽屬性圖(LPG)和資源描述框架(RDF)圖兩種。標簽屬性圖模型數據對象被表示成節點(擁有一個或多個標簽)、關系和屬性,由頂點、邊及其屬性構成。圖數據庫通常是指基于標準屬性圖模型的圖數據庫。頂點和邊都可以帶有屬性,節點可以通過“標簽(Label)”進行分組。表示關系的邊總是從一個開始點指向一個結束點,而且邊是一定是有方向的,這使得圖成為了有向圖。關系上的屬性可以為
10、節點的關系提供額外的元數據和語義。需要指出的是,最早采用標簽屬性圖模式來設計實現圖數據庫的是 圖數據庫技術概述2.1.1市場定義2.1.2概念解析 2.1 圖數據庫定義圖模型3存儲模式原生圖、非原生圖Neo4j,但是標簽這種模式并不是數據庫領域的國際標準。標簽可以看做是一種特殊的數據庫索引,但是它的通用性和標準化相比于數據庫領域標準化的 schema(模式)會弱很多。這個問題又涉及到 NoSQL vs.SQL 中的無模式(schema-free)與 模式化(schematic)之間的差異。Neo4j 是典型的無模式圖數據庫。在即將面世的圖查詢語言(GQL)國際標準中,采用的是支持模式的方式其優
11、點在于對于圖數據的管理更加清晰。因篇幅所限,此議題不再展開論述。標簽屬性圖可以看做是屬性圖模型的一類特例。屬性圖模型的優點在于它具有優秀的查詢性能和靈活性,可以通過局部和全局索引快速檢索信息。此外,它還支持多種查詢語言和圖形算法,使用戶可以更輕松地進行復雜的分析和查詢。RDF 主要針對文本語義的場景,用三元組來表達,因此基于 RDF 圖模型的圖數據庫又稱三元組數據庫。RDF 模型在頂點和邊上沒有屬性,只有一個資源描述符,使用 Web 標識符(URI)來標識事物,并通過屬性和屬性值來描述資源,這是 RDF 與屬性圖模型間最根本的區別。在 RDF 中每增加一條信息都要用一個單獨的節點表示。比如,在
12、圖中給表示人的節點添加姓名。在屬性圖中只需要在節點添加屬性即可,而在 RDF 中必須添加一個名字的單獨加節點,并用 hasName 與原始節點相連。RDF 模型的優點在于它具有靈活性和可擴展性,可以方便地添加新實體和關系,但是,RDF 模型在處理大規模數據時可能會出現性能問題,因為它需要進行復雜的圖形遍歷來檢索信息。圖數據庫以節點和邊對現實世界進行數據建模。不同圖數據庫的底層存儲機制可能存在很大不同。根據存儲和處理模型的不同,圖數據庫之間也會做一些區分。對于實際的底層物理存儲技術,目前主流有兩大類方法:原生圖數據庫,即使用原生圖存儲,按照節點、邊和屬性組織數據存儲,這類存儲是經過優化的,專門為
13、了存儲和管理圖數據而設計的。典型代表有Neo4j、AltasGraph、TigerGraph、嬴圖等。非原生圖數據庫,即底層存儲使用非圖模式進行存儲,如依賴關系引擎將圖數據存儲在關系型數據庫的表中,通過在數據實際所在的底層存儲系統之上增加個具備圖語義的抽象層來進行數據交互。也有部分圖數據庫是使用鍵值型存儲方式或文檔型存儲方式作為底層存儲。例如基于列式存儲的DataStax、基于鍵值對的 OrientDB 以及基于文檔的 MongoDB。部分關系4 2.3 圖數據庫特點圖數據庫的起源可以追溯到 20 世紀 60 年代,引導式數據庫(Navigational Database,比如 IBM 的 I
14、MS)采用樹狀的結構來表示數據之間的分層關系,對圖結構的支持可以通過虛擬頂點來完成。到 80 年代,支持屬性圖模型的圖數據開始出現,包括 Logical Data Model 等。21 世紀初,商用圖數據庫開始嶄露頭角,比如 Neo4j 和 Oracle Spatial and Graph 等,并支持事務性 ACID。其中隔離性包括多個不同的隔離級別,從低到高分為未提交讀(Read Uncommitted)、提交讀(Read Committed)、可重復讀(Repeatable Read)、序列化讀(Serializable)。對事務的支持是數據庫的標準配置,只有支持事務才能保證數據同時讀寫不
15、會出現不可預知的錯誤。自圖數據庫支持事務后,其市場和應用有了爆發式的增長。2010 年后,圖數據庫朝著多個不同的方向發展,包括支持大規模分布式圖處理、支持多模態、圖查詢語言的設計、專用硬件的適配等。在近幾年圖數據庫技術的介紹和宣傳中,經常會提到一個詞叫“原生圖”(Native Graph),一般指的是跳過索引的鄰居訪問(Index-free Adjacency),需要對底層存儲做不同于傳統數據庫的設計,是性能優化的一種方式。系統整體的設計和硬件特性、讀寫負載等均有關系,通常是個權衡的過程,無法在所有方面做到面面俱到,因此需要在具體的場景或評測程序中衡量。型數據庫也在關系存儲之上提供類似圖的操作
16、。有的圖計算平臺底層支持各類存儲技術,包括圖存儲,稱作“多模式”,例如百度 HugeGraph 原生的圖存儲由于針對圖數據和圖操作的特點進行了優化,并且從物理存儲到內存中的圖處理,都采用一致的模型而無需進行“模式轉換”,在大數據量深度復雜查詢以及高并發情況下,性能普遍優于非原生的圖存儲。使用圖的方式來表達現實世界的關系很直接、自然,易于建模。對于現實世界中的復雜實體關系,圖模型的存儲和展示方式能夠更加直接地進行表達,這有利于使用者對數據有更直觀的了解。2.3.1高效靈活的擴展數據規模 2.2 圖數據庫的發展歷程5圖數據庫可以很高效的插入大量數據。圖數據庫面向的應用領域數據量可能都比較大,比如知
17、識圖譜、社交關系、風控關系等,總數據量級別一般在億或十億以上,有的甚至達到百億邊。圖數據庫提供了靈活的數據模式,通常不需要先定義嚴格的數據模式,以及強制的字段類型,這使其在處理結構化和半結構化的數據時均有效,可以根據業務變化和場景需求,對數據模型進行更改。圖數據庫使用者無需在設計之初就把所有內容填充完畢,在后續的使用中能夠對數據模型進行擴展,免去了冗余的標準化時間成本。2.3.2直接體現實體間的關聯關系傳統關系型數據庫不擅長做關聯查詢,特別是多層關聯(比如查我的好友的好友有哪些人),因為一般來說都需要做表連接,表連接是一個很昂貴的操作,涉及到大量的 I0 操作及內存消耗。圖數據庫對關聯查詢一般
18、都進行針對性的優化,比如存儲模型上、數據結構、查詢算法等,防止局部數據的查詢引發全部數據的讀取。在處理深度關聯數據時,通過“點邊點”的連接方式能夠做到實時數據響應。圖數據庫提供了針對圖檢索的查詢語言,比如 Gremlin、Cypher 等圖數據庫語言。圖查詢語言大大方便了關聯分析業務的持續開發,傳統方案在需求變更時往往要修改數據存儲模型、修改復雜的查詢腳本,而圖數據庫由于其獨特的存儲語言,已經把業務表達抽象化,因此可以持續開發關聯分析業務。圖數據庫的標準化查詢語言國際標準 GQL 即將面世(2024 年中前)。這也標志這在過去 40 年中,終于出現了 SQL(1983 年發布)之外的第二個數據
19、庫全球標準。很多有識之士也認為這代表著更多的關系型與非關系型數據庫負載將會逐步向圖數據庫遷移。2.3.3可對關聯數據進行快速查詢2.3.4提供了針對圖檢索的查詢語言6在處理關聯數據時,圖數據庫有三個非常突出的技術優勢:高性能、靈活、敏捷。分類圖數據庫關系型數據庫數據模型圖表存儲對象半結構化數據結構化數據2-3 度關聯查詢高效低效6-10 度關聯查詢高效低效/不支持事務性支持支持表 1 圖數據庫與關系型數據庫對比圖數據庫相較于關系型數據庫和其它非關系型數據庫,在處理深度關聯數據時,具有絕對的性能提升。(1)高性能圖數據庫提供了極其靈活的數據模型,可以根據業務變化實時對數據模型進行修改,數據庫的設
20、計者無需計劃數據庫未來用例的詳細信息。(2)靈活圖數據庫的數據建模非常直觀,而且支持測試驅動開發模式,每次構建時可進行功能測試和性能測試,符合當今最流行的敏捷開發需求,極大地提高了生產和交付效率。(3)敏捷大數據時代帶來了新的業務場景和技術挑戰,關系型數據庫無法解決所有問題,因此留給了包括圖數據庫在內的 NoSQL 數據庫廣大的生存和發展空間。關系型數據庫的優點在于實現了快速的逐行訪問和保持數據一致性(ACID 事務),為此,關系型數據庫對數據模式和數據規范化有著嚴格的要求,這種要求對數據關系的查詢產生了束縛。當數據規模變大,且數據間關系隨之變得復雜時,使用關系模型檢索時需要多個表的屬性執行連
21、接操作,數據寫入時也需考慮外鍵約束,從而導致較大的額外開銷,產生嚴重的性能問題,因此傳統關系型數據庫更適合實體聯系為一對一或一對多的應用場景。而圖數據庫則在處理復雜關系上有著天然優勢,在海量數據的多對多的復雜實體聯系場景中有著異常突出的性能表現,具體見表 1。2.4 圖數據庫的技術優勢7大數據的到來,使得圖數據庫脫穎而出,在關聯關系上的處理性能遠超其他類型數據庫,同時對圖數據庫的方方面面提出了更高的要求,既有底層的系統設計,也有上層的語言表達。舉例如下:在全民上網的時代,中國人口 14 億,世界人口 80 億,無論是社交分析還是資金轉賬,數據量都在十億到千億級別,而物聯網的實體數更有兩到三個數
22、量級的增加。與其同時,這些數據在不斷變化,不僅表現在數據量的持續增加,在數據豐富性上也不斷在提升。2.5.1大數據的挑戰 2.5 圖數據庫的未來挑戰各式各樣的新硬件層出不窮,包括 NVM、RDMA、FPGA、GPU 等,合理利用能大幅提升圖數據庫的功能和性能,從而對底層系統設計提出了更高的要求。2.5.2新硬件的挑戰圖數據庫的發展還遠沒有關系型數據庫成熟,因此各個學術機構及廠商都在各種探索的階段。在接口語言方面,GQL 作為正在實施的圖查詢語言項目,尚需三到四年才能完善,那么需要學術機構及廠商在各自對圖數據庫定位和理解有更深的認識,才能做出有益的嘗試。2.5.3接口語言的挑戰圖模型作為面向關聯
23、關系的強兼容性模型,同樣需要大量的領域知識在現實場景到理論搭建橋梁,比如應該如何選擇合適的數據,以及將哪些實體抽象成頂點,哪些作為屬性。另外項目通常不是一蹴而就,后期需要對模型進行擴展,對數據進行填充,這在模型建立之初應當予以考慮。2.5.4數據建模的挑戰8互聯網金融的興起下,金融業務拓寬服務能力顯著提升,但與此同時產生了大量的非結構化數據,數據量的劇增和關系的復雜多變性給金融風控帶來了新的挑戰。傳統關系型數據庫在海量非結構化數據存儲和復雜關系挖掘方面具有天然的缺陷。相比之下,圖數據庫能夠融合來自金融機構銷售、審批、風控、電銷、交易、催收等系統的多源數據以及第三方數據,打破數據孤島,構建全方位
24、用戶關聯網絡。圖數據庫通過利用多維交叉關聯信息深度刻畫申請和交易行為,可以有效識別多種復雜的、規?;?、隱蔽性的欺詐網絡和洗錢網絡;結合機器學習、聚類分析、連通圖挖掘、風險傳播等相關算法,可以實時計算用戶的風險評分,在風險行為發生前預先識別,有效幫助金融機構提升效率、節省人工時間、控制成本、降低風險。應用圖數據庫的金融風控應用場景例如個人信貸業務,失聯客戶管理,金融反欺詐,洗錢路徑追蹤,企業圖譜,個人/企業征信等。洗錢手段是復雜多樣的,且洗錢及相關上游犯罪呈上升趨勢,在金融機構合規管理之中,它是一項非常重要的內容,屬于典型的監管科技應用。為了逃避偵查,洗錢分子在進行交易時,往往會制造出錯綜復雜的
25、關系,使資金網路內節點眾多交錯,所以圖技術在反洗錢(AML)方面有廣泛的應在現代金融體系中,每時每刻都運行產生大量的金融數據,容量龐大、時刻變化和來源多樣的金融數據,為其價值挖掘帶來極大挑戰。傳統關系型數據庫對數據模式和數據規范化有著嚴格的要求,但對數據關系的查詢產生了極大束縛,難以滿足海量數據查詢及關系挖掘的業務應用場景。圖數據庫技術在海量數據多對多復雜實體關系場景中有著天然優勢。圖數據庫技術可以從多源異構數據中分析出實體和關系,通過使用知識關聯、知識檢索和知識推理等方法,從中挖掘出有價值的知識信息,支持金融業務決策。圖數據庫技術與金融場景主要在如下幾個方面進行深度融合。圖數據庫金融應用 3
26、.1 金融風險管理 3.2 金融欺詐檢測9用,通過天然的圖的復雜網絡分析能力和超強算力能力,能夠更準確、更高效地識別洗錢交易。以下是一些圖數據庫在反洗錢領域中的應用方面:(1)實體關系分析圖數據庫可以用于建立和維護不同實體(如個人、組織、賬戶等)之間的復雜關系網絡。通過這些關系網絡,可以檢測到洗錢行為中隱藏的模式和連接,如通過虛假賬戶進行資金轉移、多個賬戶之間的交易模式等。(2)風險評估圖數據庫可以整合和分析來自多個數據源的信息,如交易記錄、客戶資料、開數據等,以繪制客戶和賬戶的全面畫像。通過分析這些數據的關系和屬性,可以進行風險評估并識別潛在的洗錢風險。(3)異常檢測圖數據庫可以監測和分析大
27、規模的交易數據,以便及時識別異常模式和行為。例如,如果一個賬戶與大量與洗錢有關的實體有關聯,或者賬戶的交易模式與同類賬戶明顯不同,就可能存在洗錢風險。圖數據庫可以幫助發現這些異常模式,并提供警報和推薦的行動。(4)實時分析圖數據庫的優勢之一是能夠處理實時數據,并快速更新和查詢圖結構。這對于反洗錢來說非常重要,因為洗錢行為可能是動態變化的。圖數據庫可以通過實時分析來及時發現和應對新出現的洗錢模式和策略。(5)可視化分析圖數據庫可以通過可視化工具將復雜的關系網絡呈現給分析人員,幫助他們更好地理解和發現洗錢行為??梢暬治隹梢越沂倦[藏的模式、群組和其他結構,從而幫助分析人員做出更準確的決策。10推薦
28、系統本質是客戶和商品之間的橋梁,基本任務是幫助客戶解決信息過載的問題,從海量商品中準確并快速找到客戶最喜愛、最有可能購買的產品。在互聯網領域,線上推薦系統常見的應用場景大致可分兩類:一個是基于用戶維度的推薦,即根據用戶的歷史行為和興趣偏好進行推薦,比如網易云首頁的推薦歌單、小紅書首頁的發現等;另一個是產品維度的推薦,也就是根據用戶當前瀏覽的商品進行推薦,比如淘寶特定商品的“找相似”功能。不管是基于用戶維度的推薦還是基于產品維度的推薦,推薦過程本質是信息過濾的過程:推薦系統通過分析用戶的歷史購買和當前行為模式,在用戶退出頁面前過濾掉不太可能引起用戶興趣的產品,再根據優先等級返回最相關Top-N
29、產品列表。3.4 市場營銷分析知識圖譜本質上是一個圖結構的語義網絡,頂點是實體或概念,邊是這些概念間的語義關系。它獲取信息并將其集中到一個本體(Ontology)中,本體可以是人、概念、組織等,并應用推理器來推導新知識。它也可以被看成一個數據庫,可以提高搜索引擎基于語義的數據的查詢結果。知識圖譜作為圖數據庫的底層應用,已服務于多種行業,包括:智能問答、搜索、個性化推薦等。以智能問答為例,產品主要分為聊天機器人、行業智能問答系統兩種,2023年廣受關注的ChatGPT就屬于知識圖譜的應用。開放領域的知識圖譜能為聊天機器人提供廣泛知識,機器不僅能和使用者聊天還能提供日常知識。行業智能問答系統則使用
30、行業知識圖譜,能夠為用戶有針對性的提供專業領域知識,在法律、醫療行業已得到運用。在知識圖譜的應用落地上,主要有兩點因素影響著知識圖譜的質量和實現NLP 自然語言處理引擎、算法庫。NLP 自然語言處理引擎決定了NLP 爬蟲平臺獲取數據的質量和數量,而這些原始數據作為知識圖譜的知識原料又決定了知識圖譜的水平。算法庫中的圖算法決定了圖構建、圖存儲和圖操作的能力,知識原料豐富而圖算法落后,依然不能構建出強大的知識圖譜。金融機構可以利用圖數據庫技術構建知識圖譜,將客戶、賬戶、交易、風險、合規等相關信息進行整合形成一個圖譜。這樣可以更好地實現對客戶360 度全景視圖,更快地識別客戶需求、風險和潛在機會。需
31、要注意的是,盡管很多廠家都可以構造圖譜,但是,缺乏圖數據庫的算力支撐的圖譜,效率是非常低下的。3.3 知識圖譜構建11“準而快”是推薦效果中的制勝關鍵。隨著線下新零售和場景營銷時代的到來,推薦系統需要考慮的維度日益增多:時間、地點、天氣、突發事件等都會成為影響客戶購物體驗的重要因素。不論線上還是線下,購物者注意力持續時間越來越短,若不能按客戶當下行為進行多維度實時推薦而錯過適宜時機,潛在客戶極有可能流失。對零售商來說,如今產品目錄變更周期短,變更速度快;潛在客戶服務要求高,等待耐心低;場景營銷背景下推薦維度復雜,事物關聯程度高。推薦引擎需要快速理解客戶畫像,多維度考慮關聯數據,將場景化流動性的
32、客戶興趣與不斷迭代的產品信息實時關聯起來形成定制化推薦成為巨大挑戰。從數據存儲到召回,再到更深一步的排序環節,系統篩選出來的商品集越集中,精度越高,推薦效果越好,但難度也隨之增大。提高召回速度,幫助系統從海量商品中實時找出和客戶當下興趣以及消費場景相關的產品,便是圖數據庫的優勢所在。不同于關系型數據庫,圖數據庫的 schema(數據庫模式)靈活性強,可根據場景和業務需求添加不同種類的新關系、新節點、新標簽形成新的子圖,從而動態調整新的推薦策略,而不用擔心破壞已有的查詢或應用程序的功能。通過實時收集并分析客戶、購買行為、產品、好友關系、位置、營銷事件等信息,全面刻畫客戶消費場景,針對客戶的行為偏
33、好、社交群落及消費場景,以數據、社交模型和 AI 算法為驅動,配合反饋迭代式算法策略,深度認知客戶需求,實現“人-貨-場”的聯動,進行“千人千面”的具有可解釋性的實時推薦,幫助企業快速、有效地發現海量數據中隱含的價值信息,賦能業務增長。圖數據庫的模型靈活性免去了項目之初窮思竭慮將每一個細節囊括在內的煩惱,讓用戶根據公司業務發展和客戶所在場景變化靈活改變數據模型,實現客戶、產品和場景三者的高效動態關聯,極大降低系統迭代的成本和開發周期。12圖數據庫是知識圖譜系統的核心。在典型的知識圖譜系統中,數據會在知識抽取、整理和推理之后,被存放到圖數據庫中,然后圖數據庫會支撐知識圖譜的查詢、更新、推斷等任務
34、。因此圖數據的選型決定了圖譜系統的規模、性能、穩定性,對整個圖譜系統應用非常重要。目前行業內圖數據庫類型非常多,常見的有 Neo4j、JanusGraph,以及螞蟻集團研發的圖數據庫TuGraph 等,整體數量在幾十種左右。但他們之間的差異非常大,比如查詢語言上 Neo4j 用的是 Cypher,JanusGraph 用的是 Gremlin,嬴圖用的是 UQL。圖數據庫的圖模型也有很大差異。圖數據庫目前大部分以屬性圖為主,也有另外一類是 RDF 圖,這兩種圖數據庫從數據抽象上不一樣,其它很多特性,比如有沒有用戶權限,有沒有多圖、有沒有超圖,這些特征也都非常不一樣。使用圖數據主要的問題在于,它不
35、像關系型數據庫是一個標準的關系代數的抽象,上面有標準的 SQL 語言。目前圖數據庫沒有完全標準化下來,所以對于很多用戶造成了很大的困擾,在選圖數據庫的時候,不知道應該怎么選。另外一個主要的問題是,圖數據庫現在很多應用場景其實是偏探索類的,在具體場景當中,會用到哪些算法,需要哪些特性,用戶事先并不知道,因此更難選擇圖數據庫的類型。因此,圖數據庫系統的選型非常重要。圖數據庫系統的選型,一個非常重要的工具就是基準測試程序,英文叫 Benchmark,它會模擬真實的場景對系統進行測試,是比較標準的測試程序。一個完備的基準測試應包含圖數據的所有操作類型,在圖數據中可以分為四類,包括本地查詢(Local
36、Queries)、鄰居查詢(Neighborhood Queries)、局部遍歷(Traversal)、全局分析(Global Analytics)。本地查詢是指查詢只涉及單個頂點或單個邊。舉例來說,給定頂點 ID,通過索引查這個頂點對應的屬性值,并進行對應操作。這是最簡單的查詢方式,和其他數據庫的查詢無異。鄰居查詢是從某個頂點出發,沿著這個頂點的出邊或入邊,查詢鄰居頂點。該查詢過程中,可以通過邊和頂點的標簽及其屬性值進行過濾,篩選符合條件的結果。該查詢方式也稱為一度鄰居查詢。局部圖數據庫國際標準 4.1 圖數據庫 Benchmark 介紹13合格的 Benchmark 需要具備以下特性:遍歷
37、是一個或多個頂點的多度鄰居查詢。通常在遍歷的過程中,頂點和邊上會有指定的限制條件,因此整個遍歷過程中涉及的頂點數和邊數不會太多,但遍歷的條件可能會很復雜。全局分析其實就是圖分析引擎的工作,需要對全圖的所有數據做多次的迭代,最終得出想要的結果。以 TPC-C 為例,這是個很標準的對關系型數據庫進行測試的基準測試程序,它模擬的是連鎖商店對數據庫的使用,會在數據庫建訂單管理系統、庫存管理系統、物流管理。這個程序本身會規定事務性應該支持到什么地步,應該有多并發,每一個查詢的延遲應該有什么樣的要求。如果一個關系數據庫能夠正確地通過 TPC-C 這個測試,并且得到一個值,那么對用戶來說,就可以大致估計在正
38、常的真實的情況下,它的功能,性能大致如何,進一步估計在真實場景下的功能性、穩定性等。所以 Benchmark 可以指導我們對數據庫系統的設計,同時它對加速整個行業的發展是很重要的。4.2 圖數據庫 Benchmark 的特性第一要貼合實際,它選擇的場景必須是比較符合實際情況的。第二,性能特征上,要滿足一定的延遲要求。第三,它必須具備可擴展性。比如說 TPC-C 要模擬一個商店的管理系統,那么這個數據特征、操作特征就必須跟商店差不多,以做庫存管理、訂單管理為例,這些查詢有多少讀、有多少寫,它們之間的混合比例,都需要符合實際。讀寫比例并發有一定的要求,比如同時會有多少用戶在這上面用,它的延遲要求是
39、多少,必須要求查詢應該是在幾十毫秒,都是有一定的要求。查詢跑出來的時間如果太長,肯定不符合正常的需求。實際測試中,商店大小是有差異的,如果說一個 Benchmark 只規定了一種數據大小,那就很難讓用戶感覺到在自己的場景下面會是什么情況。比如說用戶要開一個商店,希望選一個數據庫,但 Benchmark 的測試數據可能只限制了 1GB 數據,而實際用戶的數據有 1TB,那這個 Benchmark 就沒有參考價值,所以大部分好的 Benchmark 都具備可擴展性,想測 1GB、100GB、1TB 甚至 10TB 都有辦法去實現。14LDBC(The Linked Data Benchmark C
40、ouncil)是全球知名的非盈利性技術協會,目前有三個 Benchmark,一個是基于語義網絡的 RDF 圖,一個是圖分析,另外就是社交網絡的圖 SNB。目前國際上做得比較標準的圖數據庫測試程序是 LDBC 的 SNB 的測試。SNB 測試是模擬社交網站對于圖數據庫的應用場景,按照社交網站的數據特性生成數據,它允許生成各種各樣大小的數據,同時操作上有讀寫混合,讀也有各種豐富的語義,有一個非常標準的文檔,也有第三方審計。在與螞蟻集團內部的金融場景進行總結對比之后,LDBC 認為金融場景和 SNB 的社交場景有一定的差別,所以與多家廠商一塊共同建設 Financial Benchmark,能夠模擬
41、金融場景的測試。FinBench 的設計場景主要包括風控場景和商業分析場景。風控場景是金融領域重要的應用場景,包括反欺詐、反洗錢、反盜刷、反侵入等;商業分析場景是另一個重要場景,包括股權分析、用戶畫像等。其數據模型的實際思路是用點代表金融實體,邊代表金融活動、行為,覆蓋風控場景和商業分析場景。FinBench 中設計了四類查詢,包括 14 個復雜讀查詢、8 個簡單讀查詢、14 個寫查詢和 5 個讀-寫查詢。其中,讀-寫查詢是金融場景較為獨特的查詢方式,用于簡化風控鏈路。讀查詢包括賬戶屬性查詢、三度轉賬環計策等,寫查詢包括寫入轉賬邊、賬戶標黑等。由讀查詢和寫查詢復合在一起的讀-寫查詢是更加復雜的
42、場景,例如先讀查詢判斷賬戶是否被標黑,如果賬戶未被標黑則寫查詢加一筆轉賬交易,然后讀查詢進行轉賬環檢測,如果檢測到環,則說明交易可能存在洗錢行為,拒絕該筆交易,如果未檢測到,說明是4.3.1FinBench 背景介紹4.3.2FinBench 場景與設計 4.3 LDBC FinBench 標準第四,標準必須要嚴謹,這是非常重要的。圖數據測試,不能用 TPC-C 的數據來隨意完成,比如只測讀不測寫,測試的時候把其中所有的寫操作都去掉,跑出來一個結果看似很高,實際上卻沒有意義,因為并不符合實際的測試標準。所以這個標準本身必須要很嚴謹,它必須有審計規則,要有對數據的驗證。152022年5月,LDB
43、C全票通過了全球首個金融圖數據庫測試基準“LDBC Financial Benchmark”(以下簡稱“FinBench”)的立項。FinBench 由螞蟻集團主導發起,Intel、海致星圖、嬴圖等國內外科技公司共同參與編寫,用于評估金融場景下圖數據庫的功能和性能表現,例如風控場景、商業分析場景等,完成后將填補全球金融圖數據庫測試基準的空白。2023 年 6 月 29 日,LDBC 宣布全球首個金融圖數據庫測試基準的首個版本(v0.1.0)正式發布,命名為 FinBench。合法交易,則執行寫查詢阻塞相關賬戶。一個復雜行為就是一個交易,對圖數據庫提出能力要求。圖數據庫在金融行業具有巨大的應用潛
44、力,可以用于風險管理、反欺詐等領域。在此之前,一直缺乏標準化的基準測試工具為用戶的采購和研發提供參考,FinBench 致力于填補這一空白。和聚焦社交網絡場景的 LDBC-SNB 測試基準不同,FinBench 模擬了金融場景下真實的數據分布和數據查詢,幫助了解被測系統在金融場景下的綜合表現,為金融行業用戶選擇和采購圖計算產品提供了專業、客觀的標準和工具。4.3.3FinBench v0.1.0 版本 4.4 FinBench 測試基準應用16螞蟻集團案例是基于TuGraph高性能圖數據管理平臺的金融風控應用。該方案顯著提高了反欺詐和反洗錢的審理效率,實現支付過程的毫秒級極速風控,支撐“雙十一
45、”高頻交易,同時確保高精準度,保障了支付寶資損率低于億分之一。圖數據庫優秀案例分析 5.1 螞蟻集團基于 TuGraph 的金融風控實踐(1)關系復雜隱蔽信號弱:風控業務中涉及到的賬戶、介質、環境等因素存在著普遍的聯系,且聯系的種類各異,業務邏輯紛繁復雜。同時,部分黑產所關聯的因素較為隱蔽,其表現出的信號往往不易被直接觀察,需要通過一些間接的方式來感知和理解。風控系統需要具備對此類問題的處理和分析能力。螞蟻集團基于 TuGraph 的金融風控實踐,是螞蟻集團基于 TuGraph 圖數據管理平臺的圖計算體系,進行金融風控中的交易網絡分析、團伙識別、路徑追蹤等處理,并在這些場景中解決交易反欺詐、反
46、作弊、反洗錢、賭博偵測,以及終端異常行為偵測、信用風控、合規審計等問題。通過多維交叉關聯信息深度刻畫申請和交易行為,識別多種復雜、規?;?、隱蔽性的欺詐網絡和風險交易網絡;結合聚類分析、風險傳播等算法,實時計算用戶的風險評分,在風險行為發生前預先識別,幫助金融機構提升效率、降低風險。應用這一方案的螞蟻全圖風控體系,已覆蓋支付寶全業務,保障了 2021 年支付寶資損率低于億分之 0.98;增加反欺詐稽核金額 6%,反洗錢風險審理分析效率提升 90%。隨著金融行業數字化、線上化程度的不斷加深,以及對風控能力要求的不斷提升,越來越多的場景需要借助智能化技術來應對形式多樣的風險,從而衍生了對金融風控業務
47、的發展需求,可以總結為以下三個特點:5.1.1案例概述5.1.2案例說明17(2)黑產手法變化速率快:(3)識別的精準度需求高:(1)完整、高性能圖技術棧:黑產不斷地嘗試變換手法以規避監管和繞過系統,導致風險形態不斷變化,新的風險類型層出不窮,風控系統所認知的數據、標簽、風險識別和防御機制需要持續更新迭代。這對風控系統的實時應變能力提出了挑戰。風控系統需要兼顧對黑產的識別覆蓋與對正??蛻舻拇驍_比例,故而對識別的精準度有較高要求。風控系統必須具備高精準度的識別能力,以能夠準確地辨別黑產活動,同時最大限度地減少對正??蛻舻挠绊懞透蓴_,以確保良好的用戶體驗。TuGraph 提供完整、高性能的圖技術棧
48、,實現了完整的在線、近線、離線三線一體的圖計算,滿足從毫秒級到小時級不同時效性要求的場景需求。構建了包含構建、查詢、分析計算、服務、運維全棧的圖技術體系,提供從圖數據構建、分析到服務集成、上線運維的圖全生命周期數據管理服務,幫助用戶高效完成圖應用開發、大規模圖計算、交互式圖探索等工作,充分挖掘數據價值?;谏鲜鎏攸c,螞蟻集團提出了基于圖(Graph)的金融風控解決方案。利用圖數據的關聯性特點,可以融合風控場景數據資產,包括不限于風險事件、交易屬性、關系圖譜、專家特征等數據,提升了數據的關聯性。特別是圖的可解釋特點可以促進智能風控 體系進一步迭代升級。這些技術能夠對整個風控網絡進行高效的點邊分類
49、、聚類、識別和預測,從而實現更加準確、高效和全面的風險防控,為公司和用戶提供更強大可靠的風險管理和安全防護的能力。TuGraph 歷經螞蟻集團萬億級業務錘煉,目前已應用于螞蟻內部 300多個場景,包括全圖風控、反洗錢、反欺詐、保險知識圖譜、花唄圖譜、會員服務、螞蟻森林、新春五福等業務場景。在近十年的實踐中,形成了如下的技術優勢:18(2)金融級高可用:TuGraph 提供金融級、高可用、高擴展能力,支持服務器級別、機房級別、城市級別的高可用,自動故障切換,不停服務、不丟數據。(3)零代碼、易用性:TuGraph 提供完善的一站式圖平臺,豐富的可視化能力,零代碼分析,所見即所得。TuGraph
50、采用標準的圖查詢語言 ISO-GQL,提供豐富的 API 接口及客戶端能力,快速發布業務應用,便于業務集成。(4)高水平擴展能力:TuGraph 是金融級、分布式圖數據庫,數據被分片到很多個數據分區。多個獨立對等的數據庫進程、及其服務的部分數據,構成了完整的副本,在計算和存儲上都不存在單點瓶頸,因此具備很強的水平擴展能力,可支持單數據分區的動態擴縮容、多數據副本擴縮容等能力,支持實時、增量、批量更新數據??梢园凑諏嶋H業務需求在線進行集群資源彈性伸縮,存儲計算能力可近線性擴展。整個伸縮過程對業務透明,業務服務不會受到任何影響。(5)高性能查詢與計算:TuGraph 支持超大圖(萬億條邊)的存儲和
51、實時查詢響應。采用“計算尋找數據”的思路異步執行計算和數據讀取,盡量減少數據的傳輸,降低中間結果的存儲和網絡開銷,對典型查詢的平均響應時間在毫秒級別;在圖分析方面,提供基于經典圖算法的全圖迭代分析能力,采用塊式劃分、雙模式計算等技術,性能比業界通用圖計算框架快一到兩個數量級,內存低一個數量級。(6)備份恢復能力:提供完整備份恢復能力,支持全量備份、增量備份、定時備份等,支持備份到 NFS、OSS 等。(7)全棧信創:TuGraph 完全自主研發,螞蟻集團擁有完全的自主權和控制力,并實現與信創產業上下游進行適配,符合國產信創要求。19螞蟻集團自 2015 年開始探索圖技術,截止目前 TuGrap
52、h 已應用于螞蟻內部數百個場景,包括全圖風控、知識圖譜、螞蟻森林等業務場景;擁有超過 40 萬核規模的在線圖數據庫集群,單集群規模超過萬億邊,成為螞蟻集團金融風控能力的重要基礎設施?;?TuGraph 圖數據庫進行多年的探索應用,我們發現隨著業務的不斷變化,也有諸多挑戰:復雜性性能可擴展性金融業務的數據關系、支付網絡復雜。需要對業務有深入的理解,才能建立恰當的實體關系圖。以天貓“雙十一”、支付寶“集五?!钡然顒訛槔?,不但有大流量的技術考驗,而且有產品活動不同玩法的新型營銷類業務需求。在這些業務中,除了涉及客戶、賬戶、交易,也涉及產品、設備等多種實體、屬性及關系。需要抽象出關鍵實體、屬性及關系
53、,建立合適的圖模型,有助于高效的查詢分析。當采用恰當的業務應用和產品架構設計,可以實現如下應用:合并支付、多銀行/平臺的提現和轉賬、在多維異構數據上的全局交易行為洞察等,提高風控效率,實現反洗錢、反欺詐,提升審理效率。金融交易數據量巨大、交易頻繁,對圖數據庫的查詢性能提出了很高的要求。需要對圖結構進行優化,特別是對點、邊的高效查詢與更新,以及事務性的支持,保證高并發下的正常運作。例如“雙十一”期間的高頻交易,圖數據庫需要支持毫秒級查詢。通過優化索引、分區、緩存,提升訪問速度和查詢性能。支付過程的毫秒級極速風控是現代應用產品,特別是互聯網、移動支付場景下的關鍵能力需求。采用良好性能的圖數據庫,可
54、以在保證業務要求的同時提升用戶體驗;通過優化架構和算法,還可以降低運行成本,有效支撐日益增長的數據規模。圖結構需要能夠隨業務擴展而擴展,通常通過圖分片和分布式部署來實現擴展。除了數據規模要求的擴展性,還需要具備異構數據(不同類別的點、邊)的可擴展性。這有助于利用多維度數據進行全圖、全局分析。20基于TuGraph企業級圖數據管理平臺,支付寶增加反欺詐稽核金額6%,反洗錢風險審理分析效率提升 90%。每天計算近 10 億用戶大約 200 億左右邊關系,對疑似團伙類犯罪風險識別能力、提高近 10 倍。此外,為某銀行提供的信貸圖平臺提升了 13%的風控模型區分度;為某銀行完成的信用卡申請團伙欺詐分析
55、方案,運算時間縮短至原有的 1/60;為某銀行搭建的企業風險圖平臺,在對小微企業評級放貸問題中,擔保圈識別準確率達到90%以上。本方案對底層基礎設施的要求較高。主要涉及數據的存儲、查詢、分析計算以及可視化展現。這要求基礎設施系統具備在線(實時)圖數據讀寫能力、大規模離線圖算法分析能力,具備融合大規模圖計算和圖學習、大數據計算的多源異構數據導入導出和處理能力,并具備豐富的可視化、交互功能。這些能力需要通過分布式計算、大數據處理、高性能計算等技術來實現,還需要進行包括索引、緩存、數據結構、并發、分布式存儲、查詢等多方面的設計和優化。解決方案的核心數據處理采用 HTAP 方式,將 OLTP(事務處理
56、)與OLAP(分析處理)相結合,以混合的工作負載形式同時支持 ACID 事務處理和查詢分析。這一處理方式能夠快速處理數據,支持實時的查詢和分析,而且在查詢和分析方式上具備靈活性,可以根據業務需求進行定制。此外,系統在支持分布式存儲和計算能力后,可以處理大規模的數據和高并發訪問,具有很好的擴展性。企業級圖數據管理平臺TuGraph構建了包含查詢、探索、分析計算、服務、運維全棧的圖技術體系,在業界創新地提出并實現了圖計算“三線計算”(在例如,構建全域、實時的會員關系網絡,可以支撐各類營銷能力,包括:洞察、推薦、評分、風控等能力。例如:螞蟻森林超過 5 億用戶的好友互動、新春五福的關系推薦,都采用了
57、基于圖的解決方案,實現毫秒級的拉新、推薦和同步。針對兩端人群(老年人、未成年人),基于圖計算關系網絡算法,對家人授權、身份更新等使用場景提供依據,降低產品使用障礙。還可以對用戶的分享傳播關系進行建模,助力業務快速冷啟動、為傳播價值進行實時打分,構建最優的分享傳播網絡。5.1.3整體成效5.1.4經驗與啟示21螞蟻集團是移動支付平臺支付寶的母公司,也是全球領先的金融科技開放平臺,致力于以科技推動包括金融服務業在內的全球現代服務業的數字化升級,攜手合作伙伴為消費者和小微企業提供普惠、綠色、可持續的服務,為世界帶來微小而美好的改變。螞蟻集團作為一家以科技為核心驅動力的企業,其業務涵蓋了支付、數字金融
58、、科技、創新等領域,擁有強大的科技實力和豐富的業務經驗。目前,螞蟻集團研發了隱私計算、區塊鏈、圖計算、分布式數據庫、綠色計算以及人工智能等核心技術,推出了“隱語”、“螞蟻鏈”、“TuGraph 圖計算系統”、“OceanBase 分布式數據庫”等多個科技產品,廣泛應用于支付寶、螞蟻財富、花唄等產品,服務了數億用戶,并對外服務于金融、政務、能源、電信等行業。線、近線、離線)的能力,滿足從毫秒級到天級不同時效性要求的場景需求。TuGraph 性能卓越,保證數據強一致性、持續可用,滿足國標災難恢復能力最高級要求。TuGraph 提供完善的可視化、零代碼、一站式圖平臺,所見即所得。采用國際標準的圖查詢
59、語言 ISO-GQL,提供豐富的 API 接口及客戶端能力,快速發布業務應用,便于集成。以圖數據庫為代表的新型數據庫的存儲數據結構、應用場景、數據分布均有較大變化。受行業認知、市場普及程度影響,新型數據庫的性能基準評價尚未取得廣泛共識。以金融場景為例,由于缺乏相應標準和評價工具,金融機構在進行圖數據庫選型測試時,只能基于自身的某個場景、內部數據進行測試,受限于業務理解,缺乏標準性、代表性,對業務長期發展可能不利;或使用一些非金融場景的基準測試(如基于社交網絡的 LDBC-SNB 等),未必符合金融場景數據分布特點。為了解決這一困難,國際關聯數據基準委員會(LDBC)設計了針對金融場景的圖數據庫
60、基準評價體系,命名為 LDBC-FinBench(下文簡稱FinBench)。FinBench 項目組由螞蟻集團牽頭,聯合了國內外十余家圖計算或圖數據庫領域的科技企業、行業專家參與。該評價體系模擬了金融場景下真實的數據分布和數據查詢,幫助了解被測系統在金融場景下的綜合表現,為客戶選 擇和采購圖數據庫產品提供了專業、客觀的標準和工具。FinBench 同時也是一個行業基準測試。對于金融行業用戶在圖數據庫的應用設計和產品創新等方面,也將激發更多技術應用的發展。5.1.5企業介紹22海致星圖將圖數據庫技術賦能于信用卡積分套利團伙挖掘,體現出了前瞻性、先進性、實用性、突出性四點特性。5.2 海致星途基
61、于 AtlasGraph 的信用卡智能應用 一、技術方面主要聚焦于圖數據規模和應用性能之間的矛盾,AtlasGraph 圖數據庫通過存算協同設計,從彈性原生圖存儲、混合事務圖處理、實時高并發圖計算以及應用生態建設等多個層面展開了系統性的技術攻關,設計實現了首個通用圖隨機游走引擎,能夠為用戶提供高性能的圖存儲、計算、查詢、可視分析和展示服務??傮w思路如下:隨著數據智能時代的到來,金融行業機構進行了眾多大數據及人工智能方面的探索,隨著數據的不斷積累與使用,暴露出了數據的孤立性、分析的模式化等問題,對數據的關聯化、知識化、智能化做的相對不足。而知識圖譜得益于其頂點和邊的數據結構,具有了優秀的表達能力
62、,提供了從“關系”的角度去分析問題,發現問題的能力,能夠更好地描摹世界真實存在的形態。同時,華夏銀行信用卡中心在實際業務分析中的關系挖掘訴求也愈加明顯,例如在信用卡積分管理方面,行內近幾年的積分成本快速增長,根據積分商城交易訂單及手機號等信息分析,存在積分套利客戶及積分虛假交易情況。然而,積分套利多呈現團伙行為,行內現存分析工具無法實現關系網絡的深度分析與應用,無法發現隱藏的團伙關系,在積分套利的發現上具有一定的局限。因此引入 AtlasGraph 圖數據庫為關系網絡挖掘方面提供能力支撐。本案例主要包括技術、產品、業務三方面重點內容,以下分別對相關內容進行介紹。5.2.1案例概述5.2.2案例
63、說明23二、產品方面三、業務方面為降低用戶開發、分析、應用圖技術的成本與門檻,需對知識圖譜的通用能力進行封裝。在本案例中,我們基于 AtlasGraph 建設了集圖構建、圖挖掘、圖查詢、圖分析、圖服務于一體的通用知識圖譜平臺。知識圖譜平臺各模塊功能設計,實現了和業務無關的靈活配置,解決了特定業務場景下進行知識圖譜分析,需要定制化開發,耗時長成本高的痛點。面向業務的場景化設計,可以將圖本體、圖挖掘模型、圖分析業務應用等封裝為場景,針對特定的分析場景,無需用戶重新設計構建圖分析,極大降低了用戶的使用門檻。信用卡積分商城本是銀行為信用卡用戶提供的增值服務,信用卡用戶可以通過刷卡積累的積分兌換禮物,但
64、是卻被“羊毛黨”鉆了空子,通過虛假交易進行套利欺詐的“薅羊毛”行為防不慎防,并已形成規?;诋a,不僅增加了信用卡業務的經營成本,也加大了壞賬、逾期的潛在風險。1)原生存儲,直接以圖的方式存儲、處理、查詢和展現數據,通過重構數據存儲架構、優化數據存儲組織和傳輸過程,提供接近硬件極限的數據吞吐;2)混合事務分析,通過自研算子體系、查詢和計算引擎以及算子下推等近數據計算措施,提供遠超傳統圖數據庫的極致查詢和計算性能;3)研用結合,通過平臺和技術的全力推廣應用,形成應用-反饋-完善-再應用的良性循環,實現技術的迭代創新和產品的持續發展。本案例中我們針對積分套利團伙在積分積累端、使用端、關聯共性等維度的
65、異常情況,結合規則+機器學習+圖計算等手段,基于業務關系的深度挖掘,識別背后的團伙欺詐行為,從關系網絡的視角分析客戶的積分套利風險,突破截面風險識別視角,實現客戶/商戶群體的最優化分團,并進一步利用社區屬性與網絡特征建模,由關系網絡模型輸出的團伙積分套利的概率24三、產業價值高性能圖計算涉及計算機整個產業鏈,是未來信息技術計算形態和產業變遷的關鍵推動力,是全球科技競爭新的戰略制高點,也是中國有可能被“卡脖子”的領域,國家十四五規劃明確將科技自立作為驅動國家創新發展的核心戰略。構建國產自主可控的高性能圖技術產品體系和應用生態環境,實現從技術到產業的全面突破性發展是必然趨勢,有廣闊的市場亟待開拓。
66、二、技術價值本方案已適配國產化硬件及操作系統環境。圍繞該方案,已申請自主知識產權一百余項,獲得授權發明專利 13 項;登記計算機軟件著作權 40 項,技術成果被 ACM 收錄、發布。針對大規模圖數據存儲與計算中的核心技術進行了創新性研究,包括圖數據的三維劃分與計算方法、高性能通用圖隨機游走引擎、基于圖抽象的外存圖計算方法等,通過以上技術創新,實現了計算性能提升 7 倍、索引性能提升 8 倍、數據傳輸吞吐提升了 4 倍、數據訪問性能提升40%、元數據訪問性能提升 168%。一、業務價值針對行內積分套利團伙挖掘業務場景,識別出了 20 萬名疑似積分套利客戶與 39 萬戶疑似套利商戶,其中,套利客戶
67、數據與行內歷史積分套利黑名單數據進行比對,覆蓋率高達 72%。同時,通過圖計算挖掘疑似積分套利團伙,挖掘出 3.1 萬個占黑率高于 80%的社群,實現了從點及面的積分套利風險分析模式。5.2.3整體成效值,評價團伙套利的風險程度。并且基于所構建的圖譜,對客戶/商戶的關聯網絡信息進行可視化展示,提供深度挖掘以及其他圖譜周邊功能,為風險策略人員和審核人員賦能提效。25AtlasGraph 帶動相關云計算配置需求超過 100 億元,取得了顯著的經濟效益。未來,本方案將繼續賦能于金融、電網、智慧城市等國家關鍵產業,優先推廣至 70 余家總部級國有、民營金融機構,以及 14 個行業 3000 余家企業客
68、戶,進一步提升行業效能和決策的智能性。1)打造高性能圖計算生態體系,保持對全球科技競爭的戰略均衡本項目將打造從計算加速硬件,到數據存儲和數據計算軟件,再到行業應用服務的一整套高性能圖計算的生態體系和產業集群,構建中國高性能圖計算的核心產業基地,促進中國圖相關技術和產業的快速發展。2)提升金融行業科技服務水平,保障國家金融安全AtlasGraph 是對真實世界的完整描摹,以圖的方式進行建模,能更好地表達萬事萬物之間的關系。在金融行業中,客戶和客戶之間的關系,基于關系的反洗錢、反欺詐團體的發現,風險的傳導建模,供應鏈上下游的營銷推廣等場景下,圖數據庫計算速度比關系型數據庫有指數級提升。3)培養了前
69、沿人才,推動了行業總體進步通過本案例核心技術和產品的研發,培養了一大批技術和業務“雙精通”的高水平博士和碩士畢業生,并通過深度的合作交流,進一步提升了公司研發人員的技術水平。4)提升了自主可控程度,形成了國產替代效應AtlasGraph 是一款自主可控、遵循行業標準的高性能圖存儲與計算產品,可實現國外同類產品的有效代替,防止高新技術領域“卡脖子”現象的發生,在一定程度上保障了國家信息和應用安全。5.2.4社會價值263)業務方面圖數據庫項目的價值落地是依托于業務場景建設的,因此需充分理解行內知識的基礎上,進行業務場景方案設計,通過行業化的業務模型進行知識圖譜能力的落地。2)數據方面圖數據庫項目
70、往往涉及的數據源較多,例如銀行業的大數據平臺、數據倉庫、核心系統、信貸管理系統、風險預警系統等行內數據,以及來源于外部數據平臺和外部數據接口服務等行外數據,在項目落地過程中,需實現多源數據的充分融合與對齊,在部分關鍵信息缺失的前提下將存在一定問題,需采用相關技術手段予以解決,綜合提升圖數據質量。5.2.6企業介紹北京海致星圖科技有限公司成立于 2015 年,致力于通過自主可控的大數據、圖計算、知識圖譜等核心技術,為用戶提供圖數據庫、大數據平臺建設咨詢、知識圖譜平臺、分布式數據采集等產品及數據治理、云計算、大數據、數據智能等業務的咨詢、開發、實施、維保服務,服務于金融、能源、制造等政府機構與企業
71、級用戶的數字化轉型,幫助用戶構建數據驅動的智能管理運營體系,為用戶的各項決策提供頂層視角。2021 年 3 月,海致星圖與中國工程院院士鄭緯民及其研究團隊共同啟動了“海致高性能圖計算院士專家工作站”,合作研發高性能圖計算這一新的尖端前沿的新技術,深耕基礎技術領域,探索存儲、計算、操作系統乃至芯片級的升級與創新,旨在成為具有認知智能硬核技術的高科技公司。1)技術方面圖數據庫項目落地過程中除了知識圖譜相關技術,還會涉及大數據、機器學習、自然語言等多種技術與組件,平臺層面需實現眾多技術的融合與組件的有效協同。5.2.5經驗與啟示圖數據庫作為一項比較前沿的技術領域,在行業化落地過程中會存在較多潛在挑戰
72、,主要表現在以下幾方面:275.3.1案例概述5.3.2案例說明在金融發展的歷史上,因各種風險造成銀行倒閉的例子不勝枚舉。其中,流動性風險是不得不關注的一大領域。尤其是近年來,隨著國內、國際經濟金融形勢的變化,特別是面對巴塞爾協議的變化,以及我國推進利率市場化進程的逐步加快,重視流動性風險管理已成為業界和監管的共識。目前,無論國際還是國內,對流動性風險管理的理論趨于成熟,但在技術賦能層面并未有重大突破,傳統 SQL 類型的數據庫與大數據、數倉數湖框架并不能在面向全行、全量數據的情況下,實現流動性風險管理的實時性、量化可解釋性、可追溯性、可歸因以及場景模擬等核心業務訴求,尤其無法計量和控制多種類
73、型風險之間的相關性。嬴圖 LRM 系統在“數據+規則+算法+算力”方面著力,旨在“算的更快”,“算的更準”,“算的更強”,賦能金融行業數字化轉型。嬴圖 LRM 流動性風險管理圖中臺系統(以下簡稱嬴圖 LRM)是全球范圍內利用圖技術對流動性監管指標 LCR(流動性覆蓋率)進行探索和管理的首個案例,具有高效實時計算與高可視化呈現、精準計量與多維度歸因分析、底層科技驅動三大創新突破。5.3 嬴圖 LRM 流動性風險管理圖中臺 (1)業務場景中的具體表現,包括但不局限以下情況:充分滿足監管要求,白盒化、可審計、可校驗、可歸因;實時指標計算,秒級(毫秒級)時效性;6 大維度歸因分析,明細級交易追溯,精準
74、穿透每個賬戶;百萬組合壓測場景;運維成本下降 75%,硬件規模降低 90%。28(2)實踐成果案例材料:銀行數字化轉型方法與實踐收錄了嬴圖運用圖技術在金融風險(流動性風險、交叉性風險、全面風險等)進行探索和管理的突破性案例嬴圖:圖計算金融風險管理創新之“芯”。IBM 智能研究院首次將流動性風險管理技術列入商業銀行數字化轉型行動方略白皮書,這是全球范圍內利用圖技術對流動性風險進行探索和管理的首個案例?!霸撓到y實現了對流動性風險多維度變化歸因分析、正向模擬和反向追溯,可以通過一個賬戶或一個客戶計算出 LCR 的傳導路徑,同時支持流動性風險壓力測試及情景模擬操作”。5.3.3整體成效一、業務價值20
75、08 年的國際金融危機中,許多銀行與金融機構盡管表面上看資本充足,但卻因缺乏流動性而陷入困境,金融市場也出現了從流動性過剩到緊缺的迅速逆轉。危機后,國際社會對流動性風險管理和監管予以前所未有的重視。巴塞爾委員會在 2008 年和 2010 年相繼出臺了穩健的流動性風險管理與監管原則和第三版巴塞爾協議:流動性風險計量、標準和監測的國際框架,構建了銀行流動性風險管理和監管的全面框架,在進一步完善流動性風險管理定性要求的同時,首次提出了全球統一的流動性風險定量監管標準。2013 年 1 月,巴塞爾委員會公布第三版巴塞爾協議:流動性覆蓋率和流動性風險監測標準,對 2010 年公布的流動性覆蓋率標準進行
76、了修訂完善。LCR(Liquidity Coverage Ratio),中文翻譯為流動性覆蓋率,是 Basel III 條約中規定的一個重要的監測指標。它的設計目標是在強化資本需求的同時增加銀行的流動性。本案例是在嬴圖數據庫基礎之上構建的一套端到端的解決方案嬴圖 LRM 通過釋放嬴圖實時圖數據庫的算力及知識圖譜的可視化、可解釋性能力,賦能商業銀行,掌控其資產、負債數據,以應對外部監管與內部增效的雙重壓力。通過 T+0、白盒化、高可視化、實時可追溯可模擬、量化傳導路徑計算的圖中臺系統替換了原有的黑盒化、T+1 方式工29作、不可回溯或傳導的基于傳統關系型數據庫(Oracle Cash Flow
77、Engine)構建的 LCR 系統。嬴圖 LRM 系統是全球范圍內首創以實時圖計算方式對巴塞爾條約 III 中的核心指標進行高效、便捷管理的工具。LCR 對于銀行業務的指導意義巨大它不但是監管紅線,更屬于銀行投融資的儀表盤。區別于過去,銀行只能將 LCR 作為一個全行總體指標,無法細顆粒度諸如衡量單筆交易或單個客戶的貢獻程度等,而該系統則可以準確衡量出每筆業務對 LCR 指標的影響,并且可以保證當天所有業務的影響度相加剛好等于全行 LCR 的變化程度??傮w來說,該系統能對海量、復雜數據進行實時計算并精準計量其變化原因,助力業務方第一時間預知風險變化,完成監管要求,實時調整行業業務決策,幫助制訂
78、業務規則,最終實現銀行在安全性、盈利性和流動性“三性”之間的平衡,做到運籌帷幄之中,決勝千里之外。2021 年,該系統助力某商業銀行斬獲亞洲銀行家頒發的唯一全球流動性風險管理大獎。二、技術價值嬴圖將實時圖計算引擎與高可視化圖譜系統相結合,構建了銀行流動性風險管理系統嬴圖 LRM。該系統作為全球首創以圖計算方式計量巴塞爾協議 III 中的核心監管指標工具,具有 3D 可視化、實時計算、精準計量到每個賬戶,每筆交易、每一分錢等特點,真正實現了巴塞爾協議 III 核心監管指標的穿透式精準計量。在流動性壓力測試情景方面,巴塞爾委員會和銀保監會規定了15 種情景,嬴圖 LRM 則進一步按照 LCR 指標
79、的 144 子項分類,對應地提供了組合超過百萬種的壓力測試情景,完全覆蓋并滿足監管要求。此外,系統還提供策略回檢,LCR貢獻度變化實時分析等功能。算力是檢驗底層硬核科技性能的標準之一。在長達數個月的對比測試中發現,基于 Oracle 傳統數據庫架構計算 LCR 需要 T+1,用嬴圖實時圖數據庫則是實時(2 秒),在性能上存在千倍以上的差異。值得一提的是,如果作為一個大型商業銀行,流動性指標計量是基于全行數據的計算,其中包括存貸款、零售、對公、同業等全量的、數以億級的海量數據進行計算,且數據量還是覆蓋 30 天以上,那么它的數據計量已達到百億甚至千億級,這是非??简灥讓酉到y性能的承壓能力的。30
80、相比傳統架構搭建的 LCR 解決方案而言,采用圖數據庫可以清晰、高效的揭示復雜的關系模式,可以實時處理海量數據,并對結果進行實時可視化、傳導路徑可視化。這些正是 LCR 的外監管、內增效的核心訴求。實時可視化全景呈現。以實時交互可視化的方式,把原來只能通過數小時計算出來的 LCR 數值,變成了一個高可視化且白盒可解釋的系統,可以全景呈現并實時分析流動性的構成、流動性變化的原因、流動性的監控預測等,能幫助金融機構大幅提升經營管理效率,提升服務質量,提供決策依據。嬴圖LRM具有以下特點(見圖 1所示):圖 1 Oracle 現金流引擎 vs.嬴圖 LRM通過高性能、操作簡易的 3D 可視化來實現白
81、盒化可解釋是嬴圖LRM 系統的重要特點之一。實時可回溯讓銀行具備了通過圖模型實時定位、追溯 LCR 變化的主要因素及傳導路徑。實時模擬能力的具備讓銀行可以對核心資債產品及業務進行基于場景模擬的量化分析能力。嬴圖 LRM 系統的核心就是實現通過對接全行業務數據,完成數據開發以及圖計算框架搭建來實現對 LCR 指標的快速計算以及實時可視化。流動性覆蓋率(LCR)=(全行優質流動性資產/未來 30 日的資金凈流出量)*100%嬴圖 LRM 流動性風險管理圖中臺架構示意,具體見圖 2 所示。31圖 2 嬴圖 LRM 產品架構嬴圖 LRM 流動性風險管理系統主要功能展示,即 LCR 全局可視化與傳導路徑
82、(具體見圖 3)和實時反向追溯(具體見圖 4)。圖 3 LCR 全局可視化與路徑傳導示意圖圖 4 LCR 實時反向追溯32嬴圖 LRM 可以進行多緯度的變化歸因分析,正向模擬和反向追溯,也就是可以通過一個賬戶或一個客戶,不僅把經過行業、分行、資產類型等維度對于在 LCR 的傳導路徑計算出來,還可以實時可視化地呈現給業務人員。同時,業務人員可以在圖中臺系統上進行歸因分析和壓力測試及情景模擬操作。嬴圖 LRM 系統不僅滿足了監管需求,還實現了內部經營管理的數據支撐和業務驅動工具平臺??臻g可視化搜索結果具體見圖 5,按照分行、行業聚類等高級功能的流動性風險管理系統全局視角具體見圖 6。在 2008
83、年金融危機后,重視流動性風險管理逐漸成為業界和監管的共識,業界專家們在研究中發現風險具有關聯性、相互轉化、傳遞和耦合的特點,且風險傳播渠道更為復雜,跨市場、跨領域的情況日益突出。就對技術的要求上來說,關系型傳統數據庫,目前雖然依舊保有市場量,但在處理海量、動態變化、多維度關聯的數據需求方面圖 6 流動性風險管理系統全局視角圖 5 LCR 可視化搜索結果33明顯力有不逮,且在成本、易用性、靈活性上短板日顯。作為后起之秀的圖計算與圖數據庫技術通過底層的實時圖算力、高可視化、白盒實時回溯等性能,實現了逐筆金融風險的科學計量、深度下鉆與穿透。對于圖數據庫來說,數據量越大、越復雜的關聯查詢,優勢比關系型
84、數據庫越明顯。對比結果在圖 7 中可見,隨著查詢深度線性增加(1(5),SQL 類數據庫的時耗指數級增加,而相對而言,圖數據的查詢時間幾乎持平(數據層面呈現一種亞線性增長的趨勢)。在查詢下鉆深度為 1 層時,兩種數據庫性能差異并不明顯;深度為2時(即轉賬1層),存在約10倍以上的性能差異;隨著深度的增加,性能差異呈指數級上升。很明顯,在 3 層查詢的時候,關系型數據庫的響應時間開始超過 30 秒,已經變得不可接受了;深度到 4 時,關系數據庫需要近半個小時才能返回結果,使其無法應用于在線系統;深度到 5 時,關系型數據庫已經無法完成查詢。而對于圖數據庫,深度從3到5,其響應時間均在實時的范疇以
85、內。值得注意的是,圖集數據的聯通度如果很高,在 4-5 層深度的查詢時,即便是從局部出發,也相當于在遍歷全圖,而這種操作對于 SQL 類數據庫來說是耗時極大的,因耗時過長或資源耗盡而無法完成查詢。集群規模更小,銀行總擁有成本大幅度降低。金融機構在數字化轉型的過程中,系統要滿足業務發展的需要,實現快速部署、方便擴展、快速迭代,這是嬴圖 LRM 的另一大突破,不管是從開發部署,還是從運維的角度看,嬴圖 LRM 都可以比原有系統做到約 75%的成本降低。圖 7 兩種數據庫的性能差異345.3.4經驗與啟示(1)現有流動性風險管理模式的痛點LCR 對于很多商業銀行而言是個復雜、難以掌控的“新物種”,即
86、便是對于已經部署了LCR系統的銀行,基于傳統關系型數據庫(如Oracle)的解決方案存在如下問題:已有的LCR指標計算的系統均采用黑盒化(不可解釋)方式實現,系統的整個運行過程不透明,也沒有細化、量化的指標可以追蹤例如變化率、傳導路徑等要素。這個限制讓銀行對于流動性覆蓋率的理解僅限于一個%數值,而無法深度理解業務變化對于流動性覆蓋率的影響度。黑盒化:過往的流動性覆蓋率指標因缺乏圖計算支撐,無法實現反向追溯,既從LCR指標無法反推、追溯到影響該指標的貢獻度最大的業務、賬戶或其它因素。無法追溯意味著銀行只能拿著一個 LCR 指標來應付監管,但是無法深入理解自己的核心業務表現,并因地制宜地調整業務發
87、展指標。無反向回溯(無歸因分析):與反向回溯相對的能力是正向模擬,既從某個分行、某個行業、某個地區、某類賬戶、某筆交易出發按照“腦圖”網絡中沿路徑傳導的方式來模擬某些指標的變化對于 LCR 的影響。這種能力的缺失讓銀行無法智能化地預測、評估和設計自己的產品、調整業務方向。無正向模擬:圖譜可視化、實時可視化路徑傳導都是讓 LCR 指標計算透明、可解釋的重要手段。缺乏這些手段支撐的流動性覆蓋率就只是一個單純的指標,對于通過全面分析資產與債務來實現內部增效毫無助益。無可視化傳導路徑:35值得一提的是,流動性風險管理指標是金融機構需要報送的重要監管指標,而大型商業銀行、股份制銀行,甚至頭部城商行,數據
88、量非常大。區別于此前 Oracle 系統每天花費幾個小時才能計算出LCR 指標,嬴圖 LRM 系統只用 1 秒鐘即可實現計算結果。同時,傳統的 Oracle-LCR 指標是黑盒化的,這對于業務人員來說,很難分析出該指標是由什么構成的,計算結果是否正確,計算過程是否精準,也不能反映出銀行業務的哪些狀況和預警,嬴圖 LRM 通過超級節點穿透、高密度并發、動態剪枝、多級存儲計算加速等創新性的專利技術,實現了對動態、海量數據的實時計量、白盒化和可解釋以及LCR 相關的業務數據的加載與計算耗時持久,無法以 T+0 或實時的方式計算,更不能做到實時模擬、回溯、量化計算等操作。(2)嬴圖 LRM 的實踐應用
89、:以大型商業銀行場景為例,系統闡述定制一套端到端的流動性風險管理系統的解決方案至少需要實現以下功能:非實時化:1.監測流動性狀況,每日計算各個設定時間段的現金流入、流出及缺口;2.計算流動性風險監管和監測指標,并在必要時提高監測頻率;3.支持流動性風險限額的監測和控制;4.支持對大額資金流動的監控;5.支持對優質流動性資產及其他無變現障礙資產種類、數量、幣種、所處地域和機構、托管賬戶等信息的監測;6.支持對融資抵(質)押品種類、數量、幣種、所處地域和機構、托管賬戶等信息的監測;7.支持在不同假設情景下實時壓力測試。365.3.5企業介紹深度下鉆、科學計量、多維度歸因分析等性能,以更好地賦能金融
90、行業面臨的監管挑戰,并已在金融行業取得深度應用。北京同心尚科技有限公司(以下簡稱同心尚科技)致力于構建新一代圖增強 XAI 與實時圖數據庫系統,以圖增強智能的方式賦能企業數字化轉型。全部產品100%自研并擁有核心知識產權(核心組件不依賴任何開源代碼),是國家高新技術企業。創始團隊來自于硅谷和全球財富 100 強企業的技術與業務專家。服務的核心客戶來自于全球頭部金融機構與跨國公司。同心尚科技的核心產品嬴圖數據庫及系列工具取得了顛覆性技術應用創新,對現有的 AI/ML 及大模型架構有模型增效、加速、大幅提高預測準確率及可解釋性的特點。在計算時效性上領先美國硅谷同類產品 10-100 倍以上,在銀行
91、業風險管理等指標計量時運行速度達到甲骨文(Oracle)數據庫 5000 倍以上,并在構建智慧經營的流動性風險管理圖中臺、資產負債管理圖中臺過程中成功破解了Oracle現金流引擎與規則引擎兩大“黑盒子”,是全球范圍內首次以圖數據庫技術(圖計算)方式顛覆性賦能金融行業核心場景的標桿案例。375.4.1案例概述5.4.2案例說明該銀行自 2019 年開始,從解決信貸申請領域的團伙欺詐問題出發,開始引入 Galaxybase 國產高性能原生分布式圖數據庫以構建大規模數據集下的圖存儲和圖計算能力。通過市場調研,并參考了信通院圖數據庫白皮書圖數據庫基準能力測試等標準,圍繞圖數據庫的基本操作能力、圖模型管
92、理能力、分布式能力、權限管理能力方面進行考察,最終完成了創鄰科技Galaxybase 自主可控分布式圖數據庫集群的引入投產。項目以分布式圖數據庫與圖計算框架為核心,構建了支持知識工程全流程處理的一站式知識圖譜平臺;實現了面向分析和面向交易兩類圖譜能力,分別用于關聯挖掘與實時組網決策;融合行內外數據,構建了“N+”金融領域圖譜,以超結構化數據驅動風險、營銷、審計等數十個場景的業務創新。創鄰 Galaxybase 國產高性能圖數據庫,打造關聯數據挖掘基礎設施,實現海量多維關聯數據融合,助力增益數據資產價值。5.4 創鄰科技Galaxybase 國產高性能圖數據庫在某全國股份制銀行的建設與應用一、構
93、建企業圖譜,賦能數字化風控與營銷場景。由于企業跨地域、集團化經營業態的發展,使得客戶風險表現形式更加多元化,信息不對稱進一步加劇,風險管理難度持續加大。該銀行為了應對復雜的經濟形勢,需要持續加強數字化風控能力,擴大觀察視角,從客戶整體關系網絡角度評判風險。同時在營銷場景中,傳統的營銷方式已無法滿足快速變化的市場要求,數字化營銷是營銷轉型的策略之一。該銀行利用圖數據庫首先實現行內客戶信息、風險相關數據和行外工商數據的拉通,然后提取法人、自然人、集團三類實體,和擔保、抵質押、股權、法定代表人、額度使用等幾十種基礎關系,38并通過圖算法深度挖掘擔保圈、擔保鏈、互保、集中性擔保、間接持股等隱形關聯關系
94、,進而了構建企業全息圖譜,共計近百億數據;并對復雜的關系圖譜網絡進行可視化建設,根據不同關系類型提供不同可視化方案,做到企業客戶“一眼清”,為風險管理全流程中各類業務人員、管理人員以及各類風險管理系統提供關聯分析支持。同時企業圖譜也應用于營銷獲客場景中,實現基于客戶關系網絡的營銷線索挖掘,篩選出與本行存量客戶有關聯關系且關聯關系符合一定特征的潛力客戶,下發經營機構組織開展精準營銷及客戶關系維護,經統計此類潛力客戶的營銷成功率是無關系客戶的 6 倍以上。二、構建交易圖譜,全方位保障資金交易安全合規。將資金交易抽象為網絡,將一次交易作為網絡中的邊,交易雙方為網絡中的點,每一條交易邊從資金轉出的一方
95、起始,指向資金轉入的一方。但是交易網絡的構建與計算技術難度較大,首先是網絡中的點、邊數量都非常多,且隨時間推移只增不減,這與相對穩定的企業集團關系是不同的。其次屬性信息量也很多:點屬性涉及客戶的身份信息、賬戶信息;邊屬性涉及交易時間、金額、附言、渠道等。再次,圖譜中會存在明顯的超點,即單位時間內交易次數明顯高于其他賬戶的賬戶實體。超點往往會極大影響圖計算的性能。該銀行以圖數據庫為基礎設施,構建交易圖譜,應用在異常資金流向監測、交易環路挖掘等場景。票據貼現資金流向監控是典型應用案例之一:央行的 126 號文等監管文件對于票據貼現業務給出了明確的監管要求,嚴禁票據貼現資金回流前手,嚴禁以貸款、貼現
96、資金作保證金辦理銀行承兌匯票,虛增存款。以往人工跟蹤貼現資金流向效率較低且監控范圍有限,亟需進行更高效、更全面的流向預警手段。在圖數據庫高性能的圖存儲和計算能力基礎上,結合圖算法解決了上述技術難題,也為資金流向監控提供了新方案。該銀行以交易流水、票據信息、背書歷史、客戶信息作為原數據,抽取出票據、公司、賬戶六類實體,和出票、收款、背書、貼現、轉賬、所屬六種關系,進而構建形成票據的交易網絡圖譜;運用圖算法進行社團39三、構建信貸申請圖譜,實現全流程實時組網風控。近年來欺詐風險呈現多產業鏈、多團伙等特點,團體欺詐風險識別難度愈加遞增,傳統的反欺詐體系已無法滿足當前復雜欺詐模式的識別。同時信貸領域愈
97、加強調掌握用戶間的關聯關系以及信貸申請行為的聚集性特征,而用圖數據庫構建關聯圖譜在識別用戶關系和聚集性特征方面就有著不可替代的優勢。該行為更好地保護客戶資產安全,增強自身欺詐識別能力,利用圖數據庫建設了信貸全流程的實時組網風控體系,如圖 10 所示。通過知識圖譜平臺將信貸申請信息、設備信息、聯系方式、工作單位、地址、受托支付、交易等行內關系數據和外部工商數據加工成信貸申請圖譜,同時應用圖實時計算技術,打造從關系視角進行風險分析的實時組網風控體系,支持在貸前、貸中、貸后全流程識別關聯風險。并將實時組網風控結果進行可視化展示,提供交互式分析功能,配合相關的特征指標,幫助業務核查風險。目前已為小微和
98、消貸的 50+信貸產品申請提供實時組網與風險計算服務,響應時間達到毫秒級別。圖數據庫應用場景具體見圖 11。劃分與流向傳播,識別交易網絡中環路、匯聚、群組等復雜交易形態;運用流水中交易對手、資金用途、交易附言進行預警規則研判;運用機器學習算法預測貼現資金違規概率;最終形成了覆蓋同名劃轉行外、流入保證金、流入房市、流入理財、流入股市、回流前手、流入存單七類違規場景的預警信息,并提供違規案例的可解釋性圖譜,便捷輔助業務決策。圖 10 信貸申請實時組網風控流程圖40圖 11 圖數據庫應用場景匯總5.4.3整體成效中國人民銀行金融科技發展規劃(2022-2025 年)指出,金融科技作為技術驅動的金融創
99、新,是深化金融供給側結構性改革、增強金融服務實體經濟能力的重要引擎。圖數據庫是實現對海量多樣化多維度數據資源進行價值挖掘和關聯分析的核心技術基礎設施,在銀行業的數字化轉型中發揮著越來越重要的作用。從 2019 年建設至今,該銀行實現了知識圖譜體系完成了從無到有的跨越,支持多集群批量分析、實時計算圖數據;沉淀了企業圖譜、信貸風險圖譜、集團圖譜、資金交易等多個圖譜;觸達風險防控、營銷獲客、信貸申請、票據貼現、審計、反洗錢等20+業務領域;通過降本增效、智能風控、關聯拓客、創新營銷持續為銀行創造價值。從產業與社會層面看,圖數據庫提供的關聯數據整合、分析、挖掘、展示能力,為金融機構高效實現數字化風控、
100、提升業務規模、識別信貸欺詐、降低不良率等方面提供了有力支撐。為全面推動金融業高質量發展、持續提升金融服務實體經濟能力、強化預警監測、打擊非法金融活動提供了有力保障。41圖 12 平臺應用架構圖5.4.4經驗與啟示5.4.5企業介紹本案例以圖數據庫為底層基礎設施,完成包含“1+2+N”模式的知識圖譜體系建設,為多個業務場景提供服務。在存儲方面,以國產原生分布式高性能圖數據庫 Galaxybase 為核心,實現了生產多模態集群,分別服務于分析場景和交易場景。在圖譜工程層,提供了界面化的工程能力,能夠通過“拖拉拽”的挖掘流程構建復雜圖譜,針對圖譜研發的全流程提供了各類組件,從而推進圖譜數據和應用場景
101、的規?;涞?。在圖譜服務層,為同時滿足面向分析和面向交易的服務模式,構建了圖譜分析模塊和圖譜服務引擎模塊。最終,將各項數據、服務和能力封裝后,形成獨立的數據應用產品,構建零售客戶、法人客戶和集團客戶的全景視圖,賦能業務發展。平臺應用架構具體見圖 12。浙江創鄰科技有限公司是圖數據庫領域準獨角獸企業,具備一支由國家領軍人才、浙江省千人計劃專家及國內外名校博碩組成的高精尖研發團隊。創鄰科技全自主研發的 Galaxybase 原生分布式高性能圖平臺,高效實現了海量數據的實時深鏈查詢、在線分析、智能挖掘,性能打破多項世界紀錄,已在金融、互聯網、能源、公安等行業深耕,在線服務了五大行、頭部股份制銀行、城
102、商行、農商行、國家電網、南方電網、騰訊等頭部客戶,總計提供超過萬億規模的智慧圖譜服務。后續項目將持續優化基于圖數據庫的基礎設施建設和便捷使用、提升圖譜數量和質量、促進應用的智能化等方面持續發力,推動數據和算法在業務端的縱深賦能。425.5.1案例概述該銀行是一家中國領先的大型商業銀行,2022 年末市值約為 1,585.41億美元,居全球上市銀行第4位。按一級資本排序,在全球銀行中位列第二。該銀行為客戶提供公司金融業務、個人金融業務、資金資管業務等全面的金融服務,設有 14,356 個分支機構,擁有 352,588 位員工,服務 7.39億個人客戶和 935 萬公司客戶。在基金、租賃、信托、保
103、險、期貨、養老金、投行等多個行業擁有子公司。境外機構覆蓋 31 個國家和地區,擁有各級境外機構近 200 家。作為中國排名前五的國有銀行,該銀行決策層認為圖分析將是大數據分析的下一個創新,也對 TigerGraph 的 NPL(原生并行圖)概念印象深刻。從其大數據創新中心開始引入圖技術。該客戶曾經試用過 Neo4J,但它不支持 TB 級別的數據。此外,還嘗試了一些基于開源的國內解決方案,例如JanusGraph,騰訊的圖解決方案,但由于缺乏企業級功能支持,這些解決方案都不適合。TigerGraph 配合客戶對典型圖分析的場景,從技術平臺搭建到業務方案的落地,雙方的團隊積極配合,互相交流,成功完
104、成了技術驗證,并在反洗錢、欺詐識別、風險預測、管理決策等多個業務場景中證實了對于現有業務的價值提升。TigerGraph在應用案例中展現出其卓越能力,通過構建一個集圖存儲、圖計算和圖可視化于一體的解決方案,識別欺詐團伙、洗錢行為以及潛在的臥底賬戶。這一系統沒有性能瓶頸,支持處理 TB 級別的海量數據,且通過將圖技術與機器學習相結合,顯著提升風控能力,提高風險控制的效率和準確性。5.5 TigerGraph國內某 top5 銀行利用 TigerGraph 打造圖存儲+圖 計算+圖可視化的一體化的反洗錢反欺詐解決方案435.5.2案例說明以反套現體系為例,目前反套現監測是基于 SAS 的結果進行分
105、析,由于性能瓶頸,存在計算周期過長(3-4 天),系統無法完全實現業務人員設計的審計場景,以致無法發現某些反套現行為,比如:銀行信用卡風控場景,分為貸前、貸中、貸后,信用卡套現其實是一種資金回流,圖數據庫會比關系型數據庫更好地探查這種資金回流,更好地表現數據之間的關系。經過對場景實現和性能的考察,加入了典型的欺詐環場景作為既有規則的補充,并將這些場景在 TigerGraph 中實現。在反套現與機器學習的結合上,同樣利用 TigerGraph 的性能優勢,在原有特征的基礎上,基于圖關系提取和業務更緊密相關的一系列圖特征,從而提升套現識別能力。海量流水銀行信用卡用戶億級,每月交易筆數億級,轉賬交易
106、流水至少十億級;黑樣本稀缺經過有效審核的套現黑卡數量極少或沒有,由規則標注的疑似樣例可靠性不足;完美賬單套現黑灰產提供完美賬單服務,無法從明細數據看出異常交易行為;數據孤島銀行之間的交易數據沒有共享,跨行交易阻斷了完整資金鏈路的閉環,導致套現難以偵測。445.5.3整體成效TigerGraph 集群為該銀行云圖數據庫的基礎,提供了一整套圖存儲+圖計算+圖可視化的反洗錢反欺詐解決方案。業務價值方面比如,利用團伙挖掘技術挖掘信用卡申請欺詐團伙,上線初期就識別出大量高度疑似的申請欺詐團伙組織;利用 TigerGraph 圖數據庫構建賬戶間資金交易關系圖,應用于反洗錢分析場景,用于發現新的可疑洗錢賬戶
107、,經過上線半年的監測,發現近千個可疑賬戶轉換;同樣利用 TigerGraph 圖數據庫構建賬戶間關系網絡,用于發現潛伏行內的欺詐賬戶(臥底賬戶),上線初期就發現中高風險賬戶上千個。技術價值方面比如在一個 TigerGraph 實例中構建近 10 張子圖,近 200 個類型的頂點,超一千種關系邊,3500 多個屬性,近 400 個查詢,作為全行平臺,服務分行近 20 家、近 10 個部門、50 多個應用需求。高速數據加載和建圖每臺計算機每小時可加載高達 50-150GB 的數據;高速并行圖算法執行每臺計算機每秒鐘可以遍歷數以億計的點或邊;能夠將實時數據分析與海量離線數據處理相結合;支持云化特性,
108、提供完善的云化特性,包括彈性、可用性、多租戶、自運維等;具備高可用架構,任意單個服務節點故障不會影響組件對外服務能力,保證業務連續性,具備可拓展性,根據業務的增長需求可進行服務節點橫向和縱向擴展;數據訪問安全性,支持基于用戶角色和多圖分配數據查看權限;數據遍歷性能,以24核128g內存機器為例,每秒遍歷800萬點,1500萬邊;455.5.4經驗與啟示5.5.5企業介紹在金融行業中,基于圖數據庫進行相關分析是一個重要的創新手段,尤其是大規模復雜關系網絡分析,更是需要使用多種圖算法分析技術。該案例中的銀行從其大數據創新中心開始引入圖技術,并逐步擴展至全行平臺,說明大型商業銀行在采用圖技術時,最佳
109、的實施策略是采取漸進方式,然后逐步深入和擴大。在實際業務中,由于缺少與結果高度相關的特征,同時訓練的數據集又不夠豐富,往往導致機器學習的準確性比較差,甚至失敗。將圖技術與機器學習相結合,在原有特征的基礎上,基于圖關系提取和業務更緊密相關的一系列圖特征,可以有效提升機器學習的準確性。目前,TigerGraph 已實現 50 多類圖算法技術,希望在未來能提供更多樣的場景類圖算法,實現多場景下高效的實時計算查詢。同時,希望能與客戶、合作伙伴進行更多的溝通學習,提供更多基于場景案例的培訓,從而提升建模分析人員的圖分析能力與實際場景應用能力。企業級可擴展圖數據庫 TigerGraph,其成熟技術連接了數
110、據孤島,可進行更大規模、更深入的運營分析。全球十大銀行中有七家正在使用TigerGraph 進行實時欺詐檢測。在美國有超過 5000 萬患者接受了護理路徑建議,以幫助他們進行康復之旅。3 億消費者通過 TigerGraph 支持的推薦引擎獲得個性化推薦。TigerGraph 對 10 億人口的能源基礎設施進行了優化,以減少電力中斷。TigerGraph 的成熟技術支持欺詐檢測、客戶 360、主數據管理(MDM)、物聯網(IoT)、AI 和機器學習等應用程序。TigerGraph 總部位于加利福尼亞州紅木城,中國總部位于上海,隸屬于維加星信息科技(上海)有限公司?;?TigerGraph 圖技術的智能應用,該銀行大幅提升了內部的風控能力,將各類可能會對個人客戶或企業客戶產生負面影響的風險進行有效地防控,既保護了客戶的利益,也維護了社會的穩定。