1、螞蟻知識圖譜平臺-大規模大規模語義知識管理實踐語義知識管理實踐易鵬(螞蟻集團)2023.3個人簡介 11年:碩士畢業于西安交通大學 1118年:百度資深研發工程師,負責索引和用戶行為數據架構規?;蛯崟r化相關項目 1823年:螞蟻集團高級技術專家,負責知識圖譜構建引擎團隊,從0到1建設螞蟻萬億級金融知識圖譜數據管理平臺提綱 螞蟻知識圖譜平臺介紹 語義知識表示模型 語義知識管理關鍵技術及應用 展望知識圖譜的發展2021年,知識圖譜核心市場規模預計達到107億元,而到2026年,相應規模將超過296億元,2021-2026年CAGR=22.5%。金融與公安兩大行業的占比較高且增長速度較快。來源:艾
2、瑞咨詢:2022年中國知識圖譜行業研究報告.pdf2012年谷歌提出了知識圖譜的概念并將其應用在了搜索引擎領域,隨后10年,facebook、微軟、亞馬遜等等國際、國內科技企業爭先布局2022.5,知識圖譜領域中國共申請專利36572件1980至2020,KG相關文章在Google Scholar發布量學術&產業界趨勢螞蟻知識圖譜平臺目標平臺挑戰:大量復雜的跨業務域多元關系多個不同職能的用戶群體分析/決策實時化要求專家規則的復雜性解決方案:建設面向金融領域的一站式知識研發及管理平臺提供業務知識建模,知識構建,知識可視化分析,專家經驗決策和圖譜算法推理等全場景知識生命周期解決方案螞蟻金融知識圖譜
3、建設現狀u2020年-安全風險圖譜:風控域覆蓋商戶規模最大的千億級動態知識圖譜,入選螞蟻技術大事記螞蟻技術大事記u2021年-智能資金圖譜:解決任意深度資金意圖跟蹤問題,廣泛應用與反洗錢、貸后管控等場景,榮獲資金事業部總裁特別獎資金事業部總裁特別獎u2021年-CESI測評認證:首批通過電子四院知識圖譜構建與推理能力測評u先后三次和業務一起提名SupermaSuperma,并和大安全一起獲得了2021 T T-starstar數據科學獎數據科學獎u獲得了5個軟件著作權,以及提保51個專利,圖譜算法頂會論文10篇u2020-20201技術能力先后被被ForesterForester、IDCIDC
4、點贊點贊,IEEEIEEE 金融知識圖譜國際標準(金融知識圖譜國際標準(IEEEIEEE P2807.2P2807.2)主要發起和參與方業務和數據規模高速增長實體/概念/關系類型超5000知識規模超萬億,近一年增長160%知識應用調用量超400億/天,近一年增長超6000%提綱 螞蟻金融知識圖譜平臺介紹 語義知識表示模型 語義知識管理關鍵技術及應用 展望語義化的作用 源于Semantic Network,使用語義和語義關系表示知識的網絡結構 數據表示標準化,可復用性 不同領域數據可交互,促進Data Fabric 實體:業務相關性比較強的客觀實例,如用戶、企業、商戶等 概念:抽象表述一類實體集
5、合。有較強復用性,如人群標簽等 事件:加入時間、空間等約束的實體類型,如通過NLP、CV等抽取出來的企業事件、診療事件等知識分類和定義語義知識表示-SemanticPG優勢:LPG&RDF混合模型,更適合業務數據到知識標準化的演化過程 提供業務易理解的表達,更利于知識復用,可規?;涞豐emanticPG語義約束范式:1、邏輯推演:symmetric(spouse),transitive(located_in)2、完整性約束:mutexOf 3、屬性類型約束:int/string等基礎類型,標準類型(概念掛載)4、實體衍生/鏈指:subClassOf,equivalent,fuse;sameA
6、s 提綱 螞蟻金融知識圖譜平臺介紹 語義知識表示模型 語義知識管理關鍵技術及應用 展望語義知識管理核心能力!#$!#$%&(%&(!#$!#$)*+,-)*+,-./0,1./0,1T+1實體T+m T+sSPO+v關系屬性(算子)CUDv1v2 v3v4 v5基于DFS的知識管理架構Data/Meta/Dictionary CacheSchemaManagerKG Builder/Query/Scanner API倉儲SDKNamespaceManagerPGFilePGFileMetaFileMetaFileIndFileTransformVersionsMarkdelMetricsLPG
7、LPGRDF知識倉儲storage(DFS)MetaFileRGMetaDictionarySPOIndFileID Encoder/DecoderFusion/MetricsUDFgraphgraph-parallel computationparallel computation(geaflowgeaflow/graphxgraphx)g graphraph databasedatabase(geabasegeabase)知識服務(HA)parallel computationparallel computation(flinkflink/spark/spark/hadoophadoop)
8、知識構建知識推理/分析(DSL)應用層(多引擎對接)基于基于DFSDFS的萬億的萬億級知識管理及演化級知識管理及演化,serverless架構,更好擴展性&伸縮性,低成本語義增強的屬性圖模型,語義增強的屬性圖模型,RDF&LPGRDF&LPG hybridhybridlayoutlayout,如概念掛載、實體繼承等零零拷貝知識拷貝知識復用復用,namespace跨域租戶管理多引擎多引擎對接對接,支持知識構建、分析和推理等應用,預構圖加速推理;LSMTreeLSMTree-likedliked,支持流批知識增量更新架構優勢及特點語義知識生產及算子演化核心能力:基于搜索(向量/文本/LBS索引等)
9、的大規模知識鏈指及融合能力 python/java sdk,支持算子演化 blink/spark等多引擎runner,流批一體鏈路,可視化DAG&job manager案例:事理圖譜構建Id0ea4e7c5name山東省濰坊市青州市發生地震province山東city濰坊市district青州市eventTime2022年5月2日Id0ea4e7c5typename山東省濰坊市青州市發生地震Stringprovince山東省AdministrativeArea:L1city濰坊市AdministrativeArea:L2district青州市AdministrativeArea:L3event
10、Time2022-05-02String事件抽取(CV/NLP模型)屬性標化(python算子)eventname:山東省濰坊市青州市發生地震eventtime:2022-05-02中國行政區山東省濰坊市青州市鏈指/掛載provincecitydistictHybrid LayoutindblockLPGFile:ordered by vertexid,分離屬性與圖結構,壓縮鄰居矩陣RDFFile:spo permutation index(ref.)語義解釋器:基于schema語義模型,轉換為LPG/RDF File讀寫IOblockIndexRDFFilerootergraphblockg
11、raphblockblockIndexLPGFilerooterpropertyblockkgmetaSemModelPlanbucket.iindblockKgreader/kgwriterschemaservice概念模型:分層編碼及屬性ID化g.V(UserID).out().hasLabel(Intent).in().hasLabel(UserA).properties(name,)概念樹分層編碼,概念改名/子樹變更等,只更新概念詞典 屬性ID化,連接唯一概念實例,構建SPO索引屬性可傳播,減少物理邊成本S:UserP:O:Intentencode事件模型:多要素索引及時間分片TTL
12、Event具有時序特性,需支持timewindow查詢表達,以及TTL版本控制 Event表達的是多元關系,通過多要素索引來支持事件與實體要素的傳播計算g.V(StoreID).out().hasLabel(TradeEvent).timewindow(s,e).out().hasLabel(User).基于事件模型構建資金圖譜:公安反詐能力1:融合媒介、LBS等知識,基于交易事件構建千億級資金圖譜,分析洗錢賬戶/黑產涉詐資金偵查,痛點:1、分析效率低:=7個步驟,68小時2、資金溯源難:人工、線下,成本高,準確性不穩定3、查控操作繁能力2:資金交易事件的深度追蹤,實時洞察每筆資金的流向WiF
13、ITradeEventUserBUserAPOIfromtoeventtime:t1t2t3效果:1、資金追金可視化分析,一鍵處理,效率提升至x秒2、20+資金事件專家規則沉淀,準確性穩定性高3、開通xxx家公安分局/中隊,分析xxx個案件,折還資金xxx萬分布式推理構圖 Graph Partition:edge-cut,IO Balance 無shuffle構圖提升推理效率doing:無序列化推理構圖 局部性友好的知識編碼,提升圖迭代效率全量知識倉儲SPO索引Join 語義圈人semantic graph match實現語義圈人,轉換為SPO索引Join,語義圖熱點問題,比如運動品牌關聯數萬
14、用戶和商家方案:subject分區優化,提升計算locality,減少message傳遞 選擇合適的join算法(BinaryJoin/WCOJ),優化dense/sparse下的搜索空間?商家品牌偏好:運動City:北京用戶?職業:教師收入等級:xxxSalaryLevelCareerCityIBrandvisited知識復用-實體繼承(subClassOf)vertexIDlabelproperties007Company名字:xxx工商注冊號:xxxvertexIDlabelproperties007ListedCompany市值:xxxg.V(007).hasLabel(ListedC
15、ompany)id:007名字:xxx工商注冊號:xxxx市值:xxxsubClassofid:007名字:xxx工商注冊號:xxxCompanyid:007市值:xxxListedCompanyListedCompany場景:應用于POI/AOI、User等億級實體復用,解決子/父類屬性冗余和一致性問題方案:子/父類實體ID相同,各自更新自己的屬性 通過語義解釋器,生成readPlan,實現子/父類實體的屬性IO合并知識復用-圖譜融合(fuseOf)問題:圖的聯通性,涉及數據范圍廣,需解決數據冗余問題 不影響各領域圖譜構建效率 支持融合規則/算法的迭代方案:選擇錨點實體,鏈指算法,建立關聯
16、FusedType節點僅存儲idmap及局部子圖,鏈指關系增量更新 KGReader歸一完成圖譜融合鏈指歸一KgBuilderKgReader螞蟻圖譜融合案例:消費金融用戶消費+商家知識互聯,效果:1、商戶平均度數從1.xx提升至2.xx,x億商戶表征的覆蓋率提升至xx%。對商戶行業標識別的覆蓋率超過xx%且準確率達到xx%,借唄支用率的預估準確率+x%通過平臺級KG fusion,減少數據拷貝,業務迭代效率高用戶消費側知識圖譜100億 知識規模商家供給側知識圖譜500億 知識規模痛點:1、數據信息缺失,活躍商戶占比較少,商戶信息缺失嚴重,不能有效洞察商家行業信息2、數據關系復雜,商戶多地多店
17、經營,多人同店消費背景:1、市場和監管環境變化,洞察用戶、商家的資金和消費需求,提升產品體驗,面臨新挑戰2、商戶做為消金產業鏈重要的一環,串聯起了用戶和消費場景提綱 螞蟻金融知識圖譜平臺介紹 語義知識表示模型 語義知識管理關鍵技術及應用 展望Data Lakes TextMedia(semi/un)-structured dataRDBKG倉儲SemanticPG Model(Business Ontology)StudioEKG CoreRESTSPARQLEnterprise ApplicationsERPcloudservicewebappsEKG OpenAPIsGQLSecurityProvenanceQualityGovernance面向DataFabric的企業級知識管理平臺 EKG位于Data Lakes等之上,可集成并管理結構化、非結構化等多源數據 SemanticPG Model實現了數據到知識的約束和統一表示,EKG API支持各種企業信息系統和應用程序 EKG遵守企業數據管理的合規政策和標準,需實現血緣追蹤、數據安全和質量保證等機制跨領域知識共享與應用 知識語義化/標準化,兼顧工業界落地和業務理解成本 隱私安全下的跨機構知識共享和互聯,以及行業解決方案沉淀 知識管理與大模型結合,ChatGPT增強領域專家的知識深度ThanksThanks