《螞蟻集團&OpenKG:2023語義增強可編程知識圖譜SPG白皮書 v1.0(98頁).pdf》由會員分享,可在線閱讀,更多相關《螞蟻集團&OpenKG:2023語義增強可編程知識圖譜SPG白皮書 v1.0(98頁).pdf(98頁珍藏版)》請在三個皮匠報告上搜索。
1、 語義增強可編程知識圖譜語義增強可編程知識圖譜SPG(Semantic-enhanced Programmable Graph)白皮書(白皮書(v1.0)新一代工業級知識語義框架及引擎新一代工業級知識語義框架及引擎 離散實體要素深度語義網絡化,稀疏關系自動補全顯性稠密化 加速企業海量數據知識化集成,無縫銜接 AI 技術框架應用落地 螞蟻集團螞蟻集團 OpenKG 聯合出品聯合出品 2023年年8月月 版權聲明版權聲明 本白皮書版權屬于螞蟻集團 OpenKG,并受法律保護。轉載、摘編或利用其他方式使用本白皮書文字或觀點的,應注明“來源:螞蟻集團 OpenKG”。違反上述聲明者,螞蟻集團和 Ope
2、nKG 將追究其相關法律責任。編寫說明編寫說明 牽頭編寫單位:牽頭編寫單位:螞蟻科技集團股份有限公司 參與編寫單位:參與編寫單位:同濟大學、天津大學、恒生電子股份有限公司、浙江創鄰科技有限公司、達觀數據有限公司、海乂知信息科技(南京)有限公司、浙江大學、之江實驗室、中國科學院計算技術研究所 編寫編寫組組成員成員 螞蟻科技集團股份有限公司:梁磊、張志強、彭晉、趙培龍、郭智慧、何雨瀟、袁琳 同濟大學:王昊奮 天津大學:王鑫、王翔 恒生電子股份有限公司:白碩、陳佼 浙江創鄰科技有限公司:周研、張晨 達觀數據有限公司:王文廣、賀夢潔 海乂知信息科技(南京)有限公司:胡芳槐、丁軍 浙江大學:陳華鈞、張文
3、 之江實驗室:章衡 中國科學院計算技術研究所:白龍 語義增強可編程知識圖譜 SPG白皮書 推推 薦薦 語語 知識圖譜是早期專家系統和語義網技術的延續,自 2012 年 Google 將其應用于搜索推薦領域以來,知識圖譜技術在各領域得到了廣泛應用。然而,長期以來知識圖譜語義表示和技術框架并未有顯著進步,這大大提高了各領域圖譜的構建成本和業務落地的復雜度。我很高興地了解到,螞蟻集團和 OpenKG 合作,結合螞蟻集團多年的知識圖譜工業實踐提出了兼容大數據體系和 AI 技術體系的知識語義框架SPG。SPG具有可編程性和框架化特性,具備較強的跨場景遷移能力,可以加速知識圖譜的產業化落地,是知識圖譜技術
4、框架的突破性技術。自 2022 年底以來,ChatGPT、GPT4 等大模型掀起了人工智能的新浪潮,但當前大模型仍然存在知識幻覺性、復雜推理謬誤和計算成本高等問題。符號化知識圖譜的技術體系作為大模型的補充,可以實現可控的內容理解和內容生成,為大模型產業落地提供正確的領域知識和復雜推理能力的支持。期待 SPG 成為知識圖譜領域的重要技術,結合螞蟻集團多元化場景的持續打磨以及與 OpenKG社區力量的共建,推動產業在知識圖譜領域的發展,促進不同領域之間的知識互通互聯,促進大模型和知識圖譜技術可控低成本產業落地。清清華大學人工智能研究院知識智能研究中心主華大學人工智能研究院知識智能研究中心主任任、教
5、授、教授 李李涓涓子子 知識圖譜作為符號化的知識表示體系,具備高階語義、結構嚴謹、復雜推理等能力。在大語言模型(LLM)飛速發展的時代,知識圖譜與 LLM 之間有豐富的互動關系,一方面 LLM 為低成本構建大規模知識圖譜提供了有力工具,能否借助 LLM 構建超出現有知識圖譜規模 1-2 個數量級的世界知識圖譜成為一個有趣的研究問題;另一方面知識圖譜的高質量、可解釋的知識表示和推理能力,也為解決 LLM的空想問題提供了一種可能的探索方向。傳統知識語義框架,如 RDF/OWL 及 LPG 等在知識管理方面有顯著不足,很難支撐 LLM 時代的知識圖譜構建與應用。SPG 是螞蟻知識圖譜團隊多年業務實踐
6、的總結,它有效克服了 RDF/OWL及 LPG 的在知識管理上的不足,是一種新一代知識語義框架,借助 SPG 語義規范及可編程范式構建引擎架構,可以支持各領域圖譜的高效構建和跨領域的知識語義對齊。知識圖譜的未來發展,離不開活躍的社區,未來螞蟻將在 SPG 以及世界知識圖譜構建與演化等方面持續與 OpenKG社區合作,加速其技術成熟和產業落地。我們也歡迎產學各界同仁積極參與共建,共同促進知識圖譜技術的成熟進步,促進不同領域之間的知識互通和流通,構建知識圖譜+LLM雙驅動可控落地的新一代 AI技術體系。螞蟻集團技術研究院院長螞蟻集團技術研究院院長、副總裁、副總裁 陳文光陳文光 語義增強可編程知識圖
7、譜 SPG白皮書 螞蟻集團擁有多元化的業務場景和海量的領域數據。SPG框架是基于螞蟻多年的知識圖譜實踐經驗而打磨而成的。由于螞蟻業務數據具有多源異構、時序動態和關聯復雜等特點,這為大規模知識圖譜構建提供了良好的孵化環境。SPG框架通過對多業務、多場景問題的抽象總結,定義了新一代企業級知識管理范式,具備較強的企業級應用適應性。它通過數據的知識化,將海量數據轉化為知識,并通過復雜模式計算和圖學習推理等方法解決高維業務問題。SPG框架為高效的領域圖譜構建和跨領域圖譜語義對齊提供了更多創新的可能性。此外,在大型模型時代,通過基于 SPG構建的圖譜框架和領域圖譜,可以實現大型模型在安全風控、小微信貸、數
8、字金融等業務領域的可控落地。通過與 OpenKG 的合作,我們希望通過社區和產業的力量加速推進 SPG 框架的完善,促進知識圖譜技術的成熟,并推動產業的發展。在這個過程中,我們歡迎各位同仁積極參與共建,共同推動知識圖譜技術的發展和創新,真正實現大模型與知識圖譜雙向驅動的可控 AIGC,從而加速產業的落地。螞蟻集團機器智能部負責人、研究員螞蟻集團機器智能部負責人、研究員 周俊周俊 語義增強可編程知識圖譜 SPG白皮書 序序 言言 知識圖譜作為一種建模和管理數據的方法,已經在企業數字化過程中發揮了重要作用。然而,隨著企業對知識圖譜的需求不斷增加,傳統的知識圖譜技術面臨著一些挑戰?;趯Ξ斍爸R圖譜
9、技術的深入研究和實踐經驗的總結,螞蟻集團發現,傳統的知識圖譜技術在應對復雜的業務場景和大規模數據時存在一些局限性。例如,知識圖譜的構建需要統一的工業級知識建??蚣?,以便適應不同領域的需求;知識圖譜的推理能力需要更加高效和可解釋;知識圖譜的構建和推理過程需要更好的可編程性和跨場景遷移性。作為螞蟻集團知識引擎的負責人,梁磊帶領團隊研制了一個工業級知識圖譜語義框架SPG(Semantic-enhanced Programmable Graph)。當他第一次向我介紹螞蟻的思考和 SPG 時,我驚喜地發現大家不約而同地在解決類似的問題,原來約定的 1 小時會議也慢慢演變成了一個上午的深度交流。之后我愈發
10、感覺我們整合力量去擴展 SPG 來應對大模型時代新的機遇和需求,并向整個社區開源這個一站式全新的知識圖譜平臺工具。當我將這個想法告訴了梁磊,他和螞蟻集團非常支持,我們也積極推進 OpenKG的各個研發力量和螞蟻知識圖譜團隊的合作,最終形成了一個虛擬團隊開展了后續的雙周交流,設計規劃和研發工作。SPG 框架以屬性圖為基礎,融合了 RDF/OWL 的語義性和 LPG 的結構性,兼具語義簡潔和大數據兼容的優勢。通過 SPG 框架,我們可以實現知識的動態到靜態自動分層、領域內知識的唯一性和知識之間的依賴關系定義。同時,SPG框架還提供了可編程的范式,支持快速構建新的領域圖譜和跨場景遷移。其在解決典型問
11、題和場景方面具有廣泛的應用價值。在黑產圖譜和產業鏈事理圖譜中,SPG框架可以幫助企業更好地識別和應對黑灰產對抗,提高風險防控能力;在知識推理和智能問答中,SPG框架可以提供更加準確和可解釋的推理結果,提升用戶體驗和決策效果。在本白皮書中,我們將詳細介紹 SPG 框架的設計原理、技術模塊和應用案例。我們希望通過這份白皮書,能夠為讀者提供一個全面了解 SPG 框架的機會,并激發更多的討論和合作。我們相信,SPG框架將為企業數字化提供更加強大和靈活的知識圖譜技術支持,推動知識圖譜技術的發展和應用。最后,我們要感謝您對本白皮書的關注和支持。如果您對 SPG 框架或知識圖譜技術有任何問題或建議,歡迎隨時
12、與我們聯系。讓我們一起開創新一代工業級知識圖譜的未來!謝謝!王昊奮、梁磊和王昊奮、梁磊和SPG團隊團隊 語義增強可編程知識圖譜 SPG白皮書 目目 錄錄 第 1章 從數據化到知識化:企業深化競爭優勢,圖譜技術與時俱進.1 1.1 知識圖譜作為新一代企業級知識管理范式的期待.1 1.2 從二元靜態到多元動態:知識管理模式的躍遷.2 1.3 與領域知識結合為 AI可控、可靠落地提供了新思路.4 1.4 知識圖譜技術體系的發展需與時俱進.5 1.5 基于 SPG的工業級知識圖譜引擎.6 第 2章 基于屬性圖的知識管理存在的問題.8 2.1 典型案例 1:黑產知識圖譜.8 2.2 屬性圖應用于黑產圖譜
13、所存在的問題.11 2.3 典型案例 2:金融事理圖譜.11 2.4 屬性圖應用于事理圖譜所存在的問題.15 2.5 知識建模中結構定義與語義表示的耦合導致的復雜性及異構性.16 2.6 對領域知識多元異構性表達能力不足.18 2.7 知識間邏輯依賴帶來的一致性及傳導推理問題.20 2.8 面向非完備數據集的圖譜構建與演化問題.22 2.9 無語義不可編程的屬性圖所存在的問題總結.24 第 3章 語義增強可編程框架 SPG.25 3.1 SPG語義框架模型.25 3.2 SPG分層架構.27 3.3 SPG的目標能力.27 第 4章 SPG-Schema層.29 4.1 SPG-Schema總
14、體架構.29 4.2 節點和邊的語義增強.34 4.3 謂詞及約束的語義增強.38 4.4 規則定義的語義增強.44 4.5 SPG-Schema與 PG-Schemas的關系.46 4.6 SPG-Schema總結.47 第 5章 SPG-Engine層.48 5.1 SPG-Engine架構.48 語義增強可編程知識圖譜 SPG白皮書 5.2 SPG2LPG Translator.49 5.3 SPG2LPG Builder.51 5.4 SPG2LPG Executor.52 第 6章 SPG-Controller層.60 6.1 SPG-Controller架構與工作流.60 6.2
15、解析編譯與任務規劃.61 6.3任務分發與調用.61 第 7章 SPG-Programming層.64 7.1 SPG語義可編程架構.64 7.2 數據到知識的生產轉換.65 7.3 邏輯規則編程.66 7.4 圖譜表示學習.67 第 8章 SPG-LLM層.69 8.1 SPG-LLM自然語言交互架構.69 8.2 自動抽取和圖譜自動化構建.69 8.3 基于大模型的領域知識補全.71 8.4 自然語言知識查詢與智能問答.72 第 9章 SPG驅動的新一代認知應用案例.73 9.1 SPG驅動的金融事理圖譜.73 9.2 金融事理圖譜 SPG與 LPG的對比.78 9.3 SPG驅動的黑產知
16、識圖譜.78 9.4 黑產知識圖譜 SPG 與 LPG 的對比.84 第 10章 緊跟新時代認知智能的 SPG.85 第 11章 展望 SPG的未來.87 參考文獻.90 語義增強可編程知識圖譜 SPG白皮書 1 第第1章章 從數據化到知識化從數據化到知識化:企業深化競爭優勢,圖譜技術與時俱進企業深化競爭優勢,圖譜技術與時俱進 在企業的數字化過程中,積累了海量的數據,既包括文本、圖像、視頻、音頻等非/半結構化數據,又包括用戶行為、商品訂單、產品服務、商戶畫像等結構化數據,還包括為支撐業務發展采買的專業知識庫、外部渠道獲取的行業數據等。面對海量數據,企業需要不斷地為用戶創造價值,同時實現高效的經
17、營管理和風險控制。這對企業的數字化基建提出了很高的要求,也為知識圖譜(Knowledge Graph,KG)、大語言模型(Large Language Model,LLM)等 AI技術提供了多樣化的落地場景,也帶來了新的機遇和挑戰,AI 技術可以幫助企業從海量數據中快速發現規律、分析趨勢、預測未來,從而更加精準地了解客戶需求、優化產品設計、提升生產效率,還可以幫助企業進行智能風險管理、反欺詐識別等。而企業內因業務發展、部門差異等又廣泛存在數據孤島、數據一致性沖突、數據重復等問題,為提升數據利用效率,需要加強數據管理和應用,提高數據的利用率和價值。面對海量數據,企業需建立應用友好的管理范式,按業
18、務模型定義數據結構,明確語義、消除歧義、發現錯誤等;面對數據孤島,企業也期望建立數據孤島的連接機制,實現跨系統、跨部門的數據共享和協同利用;面對口徑差異,企業需建立標準化的數據和服務協議,以實現高效的數據協同、專家經驗協同、人機協同等。通過更高效的數據管理機制,標準化數據建模、消除歧義提升一致性、連接數據孤島,是企業數字化升級面臨的關鍵問題,更高效的組織管理企業數據,利用 AI技術充分挖掘數據價值,已成為企業未來增長的核心內驅力。1.1 知識圖譜作為新一代企業級知識管理范式的期待知識圖譜作為新一代企業級知識管理范式的期待 作為 AI 技術重要分支的知識圖譜因可以幫助企業更好地組織和管理知識數據
19、,通過對數據進行語義化建模,構建知識圖譜,企業可以更加直觀地了解數據之間的關系,從而更好地發現隱藏在數據中的價值,也受到了越來越多的青睞。Gartner 2021 年預測以知識圖譜技術為基礎的 Data Fabric 是下一代數據架構,Neo4j,Cambridge Semantic 也分別發布白皮書介紹基于知識圖譜的新一代知識管理范式,Neo4j 認為知識圖譜是語義增強的圖,通過一定范式對圖進行語義增強以幫助企業從多維度深度關聯中發現更多隱式線索。Cambridge Semantic認為知識圖譜是 Data Fabric的殺手級應用,知識圖譜對真實世界的實體、事實、概念以及它們之間的關系建模
20、,提供面向不同角色一致的建模能力,能更精確的表示組織數據,它通過強 Schema 驅動可有效連接數據源和圖存儲及下游 AI/BI 任務,連接數據孤島,按需集成、按需加載、無縫銜接。自 2018 年以來,企業數字化垂直領域的圖譜應用越來越廣泛,如金融、醫療、公安和能源等領域1,2,3。一份報告4顯示,到2026年,中國圖譜市場空間將達到290億元,其中金融和公安是主要的拉動力量。企業數字化中的知識圖譜應用,以商家圖譜商戶風險防控為例,因對中小商戶、新用戶、沉睡戶等薄數據客群的語義增強可編程知識圖譜 SPG白皮書 2 畫像覆蓋和風險洞察1的需要而對知識的深度上下文(即 Deep Context)有
21、更多感知要求,企業級知識管理正在實現從二元靜態向多元動態的模式躍遷。1.2 從二元靜態到多元動態:知識管理模式的躍遷從二元靜態到多元動態:知識管理模式的躍遷 知識圖譜是一種建模和管理數據的方法,它利用圖結構、知識語義和邏輯依賴,提供存儲、推理和查詢事實知識的能力。早期的應用主要是從公開語料中提取百科類三元組來構建靜態知識圖譜,以提高搜索推薦的效率和體驗。隨著知識圖譜應用從搜索推薦的C應用轉向風險防控/經營管理的企業級 B/C 聯動的領域應用,因前文所述長尾稀薄客群畫像覆蓋和風險洞察的需求,領域圖譜需要具備全面性、正確性和可解釋性等特點,圖譜數據的來源也從文本語料轉向了企業多源異構數據。這些數據
22、包括非/半結構化的 UGC/PGC內容、業務經營沉淀的結構化基礎畫像、交易事務、日志記錄等,以及各領域特有的業務專家經驗。圍繞增長經營和風險防控,構建完整的客戶、物料、渠道等的立體畫像,以商家為例,圖 1展示了構建過程的示意圖。圖 1 商家實體構建的過程 當前,商家已經突破了靜態門店的限制,收款碼使得任何人都可以成為商家,但是這也增加了風險防控的難度。僅僅通過文本概念標簽來進行風險防控是沒有意義的,添加交易、社交等實際事實關系也遠遠不夠。如圖 2 所示,需要實體多要素的深度信息協同才能發現更多有效的關聯。圖譜構建的要求也從靜態常識轉向 Deep Context 動態時空。這既需要基于介質(如
23、WIFI、電話、Email等)來實現關系傳導,又需要對地理連續空間(Spatial)實現邊界化的聚集關聯5,6,還需要跟蹤中/宏/微觀事件的多元傳導脈絡,實現實體間稀疏關系語義可解釋的稠密化。語義增強可編程知識圖譜 SPG白皮書 3 圖 2 Deep Context語義擴展的基礎事實圖譜 在業務應用方面,知識圖譜可以用于構建知識推理任務,例如:1)商品推薦:通過類目、意圖、時空等語義連接人-商品、人-商戶、商品-渠道等,實現語義聯想的商品召回和表征遷移;2)eKYB(Electronic Know Your Business):通過介質關聯、行為事件和時空聚集,識別商戶同人、同店等,實現有效的
24、畫像補全和風險洞察。此外,基于知識圖譜還可以實現結構感知的可控文本生成7,例如:1)反洗錢智能審理識別定性和報文生成:結合 Deep Context 預測風險行為、挖掘團伙,通過資金鏈、時空聚集、設備關聯等還原團伙/異常結構,并通過知識圖譜到文本的轉換輸出可解釋報文;2)AI 電話喚醒受害者:將識別到的可疑設備、釣魚域名/AppID、團伙等事實關聯傳導到交易用戶,生成溝通話術提醒用戶并攔截風險。這些應用旨在實現更加智能化和精準化的風險控制和業務推理,提高商業運營的效率和價值。圖 3 知識表示從二元到多元的演進 在商戶經營與風險防控的案例中,知識管理需要具備較強的上下文感知能力。常見的常識知識圖
25、譜由于卸掉了可感知上下文的信息和時空關聯,在實際應用中,若論元要素出現了多元化或相互交織,由于無法感知個體差異,僅使用概念層歸納,推理應用的效果會大打折扣8。類似的問題也出現在公安反詐、保險理賠、醫療問診、企業授信等領域中。因此,企業垂直領域對知識語義增強可編程知識圖譜 SPG白皮書 4 圖譜的期望發生了較大變化。知識表示也從圖 3 所示的二元靜態結構發展到時空多元動態關聯,以更好地適應實際應用的要求。1.3 與領域知識結合為與領域知識結合為AI可控、可靠落地提供了新思路可控、可靠落地提供了新思路 中國工程院院士潘云鶴認為,在AI走向2.0的過程中,數據和知識是兩個最重要的關鍵元素。處理大數據
26、和多重知識,形成了 AI 發展的兩類核心技術,知識可以有效助力人工智能認知、決策和學習。在數字化轉型的過程中,通過對海量數據的抽提或業務經驗的積累,沉淀大量領域知識,比如事實知識、專家經驗、操作流程等,這些知識存在于各個行業,也難以公開獲取,蘊含著巨大的價值,將行業專家知識與AI有效結合可解決AI應用過程中可控、安全、可解釋等問題。2022年底,ChatGPT 火爆全球,隨后國內也掀起百“?!贝髴?。然而,由于 LLM 是一種黑箱概率模型9,難以捕獲和獲取事實知識,因此存在較多幻覺和邏輯錯誤10。與此同時,知識圖譜的事實性、時效性和邏輯嚴謹性成為了 LLM 的絕佳能力補充。通過將知識圖譜作為約束
27、和復雜推理能力的來源,LLM+KG的應用范式引起了廣泛關注,并催生了許多應用探索和研究9,10,11。表 1 LLM和 KG在企業數字化不同場景下的應用 在各種應用場景中,以商戶經營與風控為例,算法任務可以分為以下五個方面:1)交互應用:包括消費端(C)產品上的商品/服務透出和供應端(B)產品上的服務/商家入駐等;2)經營管理:企業經營、商戶經營所必須的經營分析、物料管理等;3)風險防控:黑灰產對抗是企業經營永恒的話題,企業必須增強對薄數據客群的認知覆蓋和對新風險模式的快速識別;4)知識構建:將外部非/半結構化、結構化數據轉換成領域知識;5)知識挖掘:企業促增長和控風險,不斷提升主體要素、跨主
28、體關系的長尾覆蓋。表格 1 中列舉了不同分類下 LLM、KG 及 LLM 與 KG 相互增強可能的落地應用。這些應用可以幫助企業在商戶經營和風控領域中獲得更好的效果和成果。語義增強可編程知識圖譜 SPG白皮書 5 圖 4 大模型與知識圖譜的相互驅動 總體而言,以商戶經營與風控應用場景為例,LLM和KG應用的算法任務主要可以分為三類:1)LLM only:由于領域專業性和事實性的要求,LLM 在商戶經營與風控領域尚未有明確可落地的場景;2)LLM+KG雙驅動:主要體現在知識問答、報告生成等用戶交互類場景中,比如前文提到的 AI 電話喚醒受害者和反洗錢智能審理報文生成等。此外,還有知識要素抽取、實
29、體鏈指等知識構建類場景。文獻10中詳細描述了LLM與KG的雙驅動,包括KG增強的LLM、LLM增強的KG以及 LLM+KG框架協同三個方面,如圖 4所示;3)KG only:在推理決策、分析查詢、知識挖掘類等不需要復雜語言交互和意圖理解的決策/挖掘場景中,基于圖譜結構化知識直接做圖表征學習、規則推理、知識查詢等。通過框架的協同實現 LLM 與 KG 雙驅動,支持跨模態知識對齊、邏輯引導知識推理、自然語言知識查詢等。這對 KG 知識語義的統一表示和引擎框架的跨場景遷移提出了更高的要求。1.4 知識圖譜技術體系的發展需與時俱進知識圖譜技術體系的發展需與時俱進 知識圖譜自身技術框架的發展和對其在新知
30、識數據管理范式、大模型的雙輪驅動的期待并不完全匹配,圖譜技術的發展也需要與時俱進。具體而言,存在以下問題:首先,缺乏工業級統一的知識建??蚣?。盡管資源描述框架(Resource Description Framework,RDF)/Web 本體語言(Web Ontology Language,OWL)這種強語義、弱結構的技術框架已經發展多年,但并未出現成功的企業級/商業化應用。相反,強結構、弱語義的屬性圖(Labeled Property Graph,LPG)成為了企業級應用的首選。其次,缺乏統一的技術框架2,導致跨領域遷移性較差,由于工具繁多、鏈路復雜,每個領域的圖譜構建都需要從零開始。除了
31、以上兩點,其他方面也存在較大的技術挑戰,例如表 2 所列。語義增強可編程知識圖譜 SPG白皮書 6 表 2 新范式下圖譜面臨的技術挑戰 知識圖譜的目標是構建一個機器可理解、可推理的數字世界,實現知識語義的統一表示和框架化能力分層,以支持不同領域圖譜的快速構建和跨場景遷移。這是圖譜產業化加速過程中必須解決的基本核心問題。1.5 基于基于SPG的工業級知識圖譜引擎的工業級知識圖譜引擎 螞蟻知識圖譜平臺經過多年金融領域業務的支撐,沉淀了基于屬性圖的語義框架語義增強可編程框架(Semantic-enhanced Programmable Graph,SPG)。它創造性地融合了LPG結構性與RDF語義性
32、,既克服了 RDF/OWL 語義復雜無法工業落地的問題,又充分繼承了 LPG 結構簡單與大數據體系兼容的優勢。首先,SPG明確定義了數字世界知識的概念。知識是人類對物質世界和精神世界探索結果的總和,數字世界的機器對知識的認知該如何定義?SPG通過形式化描述和客觀事實兩個視角,明確了數字世界知識的定義,結合圖 5的說明,從三個維度對形式化表示進行了定義,分別是:1)領域類型領域類型結構結構約束約束。在客觀世界中,任何事物(Thing)都屬于至少有一個類型(Class),數字世界也是如此?;?SPG的領域結構類型約束(SPG Domain Model Constrained,SPG DC),可幫
33、業務實現知識的主體分類和由動態時空到靜態常識的自動分層。2)領域內領域內實例實例唯一性唯一性。在客觀世界中,不存在完全相同的兩個事物,數字世界也當如此。然而,由于數字世界存在多源異構和數據拷貝等問題,導致大量數據存在冗余和重復。SPG Evolving利用 SPG Programming 知識生產 SDK 框架提供的實體鏈指、概念標化和實體歸一等算子能力,結合自然語言處理(Natural Language Processing,NLP)和深度學習算法,提高單個類型(Class)中不同實例(Instance)的唯一性水平,支持領域圖譜的持續迭代演化。3)知識間知識間邏輯邏輯依賴性依賴性。在客觀世
34、界中,任何事物都存在著和其他事物由此及彼的關聯,不存在不與其他事物關聯的事物,數字世界也不例外。SPG Reasoning 利用謂詞語義和邏輯規則來定義知識之間的依賴和傳遞,并提供可編程的符號化表示,以方便機器理解。語義增強可編程知識圖譜 SPG白皮書 7 圖 5 SPG知識語義框架 然后,SPG充分融合了 LPG的優勢,并通過 SPG Compatible兼容大數據體系?;?SPG構建的知識引擎在圖譜構建階段與大數據架構兼容銜接,提供了知識構建算子框架,實現從數據到知識的轉換。在存儲階段,可適配屬性圖以充分利用其存儲和計算能力。在推理應用階段,形式化成了 KGDSL(Knowledge G
35、raph Domain Specific Language),機器可理解的符號表示支持下游規則推理、神經/符號融合學習、KG2Prompt聯動LLM知識抽取/知識推理等。同時,通過架構的分層,新的領域圖譜構建只需定義 Schema、準備數據、開發生產/推理 Operator即可。知識圖譜技術依然處于快速發展時期,也處于關鍵的技術拐點期,統一的技術框架能大幅降應用門檻促進生態的繁榮。為此,本白皮書也重點從企業級知識管理這個最根本的問題出發,推導知識管理、圖譜構建與推理應用的全生命周期,以期實現工業級可遷移的知識表示與引擎框架。如前文所述,LPG 屬性圖因其兼容大數據架構的獨特優勢成為絕大多數企業
36、知識建模的首選,本白皮書也是從屬性圖知識管理的實際業務問題出發,推導企業級知識管理所必須的語義能力。語義增強可編程知識圖譜 SPG白皮書 8 第第2章章 基于屬性圖的知識管理存在的問題基于屬性圖的知識管理存在的問題 在企業級知識圖譜應用中,如第 1 章所述,屬性圖因其高效和對大數據體系的兼容性,使其成為領域圖譜建模的首選,以實現快速落地業務價值。雖然基于屬性圖的圖譜構建前期成本較低,但隨著業務快速發展和知識體量的大幅增加,因其知識語義及管理能力的缺失,屬性圖的種種弊端會逐步顯露。首先,知識模型的變更演化變得越來越困難,Schema 變得越來越復雜。其次,由于點/邊模型的靈活性,帶來了大量冗余的
37、類型創建和重復的數據準備,導致不同關系/屬性之間邏輯的一致性和合理性也越來越難以維持。第三,樸素的屬性/關系模型難以刻畫事物(Thing)的內在語義和事物之間的語義依賴。這給圖譜業務項目的持續迭代升級帶來了較大的障礙。當規模膨脹到難以為繼時,不得不新創建項目重新構建 Schema 和圖譜數據;業務應用階段也不得不添加大量硬編碼,實現業務語義的解析和對齊。本章節將結合黑產風控和企業事理圖譜兩個業務案例,介紹業務應用的背景和主要痛點問題,并對相關問題進行歸類總結。接下來,我們將在第 3/4/5/6/7章嘗試提出解決方案,最終在第 9 章中提供兩個案例基于 SPG 的完整方案,以期在應用屬性圖的優勢
38、的同時,規避其弊端,為企業級圖譜應用提供高效的語義建模和知識管理工具。2.1 典型案例典型案例1:黑產知識圖譜黑產知識圖譜 為了實現黑產圖譜的主要業務目標,通過構建用戶相關的風險畫像及設備、介質、交易等相關的關聯網絡,并根據顯式或隱式關聯挖掘出黑產涉案人員并進行風險管控措施。以 App 網絡風險防控為例,某 App 被發現涉嫌風險應用(賭博、色情、欺詐等),期望可以通過該風險 App 的關聯網絡實現以下兩個目標:1)挖掘背后的風險人員,根據挖掘線索進行對應的風控策略。2)挖掘其他未被發現風險的 App,阻斷風險的蔓延擴大。然而,在實踐中,黑產涉案人員通常會偽裝或隱匿其行為,例如使用大量虛擬設備
39、、虛擬 IP、虛擬身份等,這些行為會被掩藏在正常用戶中。因此,本章節將以表3、表4、表5、表6列舉的部分數據舉例說明,提煉當前屬性圖知識管理所遇到的問題。其中*娛樂為被舉報的賭博應用,王武應當被判定為賭博應用開發者;李四應當為賭博公司 B的老板;張三為李四的同人用戶。表 3 黑產圖譜用戶實體基本信息 語義增強可編程知識圖譜 SPG白皮書 9 表 4 黑產圖譜持股關系基本信息 表 5 黑產圖譜應用實體基本信息 表 6 黑產圖譜轉賬關系 數據層面的直接表達和業務期望之間存在較大的差距,具體表現為:不同主體之間的深層次關聯難以體現:無法從數據的構造中直接得到應用和用戶、應用的關聯關系。同一主體不同刻
40、畫維度的對齊:自然人和用戶不能直接等價,例如本例中張三和被標記為賭博老板兩個用戶屬于一人。在業務實踐中,雖然應用和用戶、應用和應用之間不存在直接的關聯關系,但往往可以通過一些設備、證書之類中間介質間接關聯;同樣用戶和用戶之間也可通過同手機、同設備等方法發掘同人。業務人員為了應對如上復雜的網絡關系,圖譜一般會如下演進:第一步:將表數據轉換成為屬性圖表示。圖 6 基于數據表直接轉換成屬性圖構建圖譜 語義增強可編程知識圖譜 SPG白皮書 10 圖 6 將表數據映射到圖譜數據結構,此時已經能夠根據多跳關系得到風險應用和風險人員的關系,但仍需要業務專家進行分析研判,無法直接得到業務目標,業務目標應當如圖
41、 7所示。圖 6/圖7中實體實例的文字結構為:類型/實例屬性名=屬性值。圖 7 業務期望通過隱式推導得到的圖譜結構 業務所需的圖譜數據結構通常與原始圖數據不同。原始圖數據是客觀的基礎數據,而業務所需的數據是基于客觀數據挖掘出的關聯關系,也需要重新融合到原始數據中。為了挖掘這些隱式關聯,業務專家制定了一系列規則,例如同用戶的判定規則、用戶對應用的擁有規則和應用開發者關系規則等,如果兩個用戶使用了相同的手機號或設備,則認為他們之間存在同手機或同設備關系;如果一個用戶對一個法人存在控股關系,則該法人發布的 App 實際擁有者為該用戶;如果一個用戶持有多個設備均安裝了同一個App,那么該用戶為該App
42、的開發者。通過這些規則,基于外掛大數據系統完成規則計算,新增類型、新增關系得到業務所需的圖譜數據結構,同時保留原始基礎信息的定義,以支持業務更好的決策和風險控制。圖 8 黑產圖譜中融合業務規則后 Schema差異 語義增強可編程知識圖譜 SPG白皮書 11 如上示例展示了業務決策過程中冗余創建的一部分。在知識圖譜管理中,從基礎事實中挖掘復雜的隱式關聯是基本需求。然而,我們需要解決如何避免由于業務目標細化而導致 Schema 持續膨脹的問題,并確保規則計算與基礎事實的邏輯一致性。這些都是知識管理必須解決的基本問題。2.2 屬性圖應用于黑產圖譜所存在的問題屬性圖應用于黑產圖譜所存在的問題 點邊獨立
43、數據準備造成點邊獨立數據準備造成圖譜圖譜構造構造成本的大幅增加。成本的大幅增加。為構造黑產圖譜所需實體、關系,因點、邊數據獨立準備的要求,需提供遠遠大于原始 4張表的數據。不同圖譜間難以直接復用造成的重復數據準備。不同圖譜間難以直接復用造成的重復數據準備。在本業務中,需要構造資金轉賬和股權結構的圖譜數據。通常情況下,這些數據已經作為基礎數據存在于其他圖譜中。實體實體及要素及要素之間存在邏輯依賴帶來之間存在邏輯依賴帶來的的不一致不一致問題。問題。在業務建模的圖中,圖 7 和圖 8 的新增類型、關系均是從圖 6 的已有數據衍生產出。當基礎數據發生變更時,此類衍生的數據必須同步變更,否則必然會出現圖
44、譜數據不一致問題。業務目標的遷移變化導致業務目標的遷移變化導致圖譜結構的圖譜結構的持續膨脹。持續膨脹。在本案例中,通過介質隱式關聯的方式挖掘應用背后的涉黑用戶。但是黑產對抗更新快,必然會頻繁更新、創建不同的實體、關系類型。圖譜 Schema及實例的規模會持續的膨脹擴展,最終變得難以管理。因此,在構建圖譜時,我們需要考慮這些問題并采取相應的措施加以解決,優化數據轉換過程、提高圖譜數據的復用性,在設計 Schema 時支持知識之間的邏輯關聯表達提升業務語義遷移的表達效率。幫助我們構建更加高效、可靠和易維護的圖譜系統。2.3 典型案例典型案例2:金融事理圖譜金融事理圖譜 事理圖譜的知識管理過程更注重
45、對事件之間順承關系、因果關系、條件關系和上下位等事理邏輯的刻畫,因此事理圖譜的基礎是事件,實踐應用中一般是從事件與圖譜的應用逐步發展到事理圖譜:捕獲企業相關的生產、經營事件,提取事件的關鍵要素,實現事件要素與內部企業/產業鏈圖譜之間的聯動,構建風險事件與企業/產業鏈圖譜之間聯動的事理邏輯鏈,捕獲到外部風險事件后能快速聯動內部預警或風險處置。當一個金融領域的事件發生后,我們需要基于基礎事實對事件進行推理,來嘗試得到以下問題的答案:事件自身性質及影響程度 涉事主體有哪些?對其周邊關聯實體產生何種影響 關聯主體是否會進一步衍生其他影響,如何影響 語義增強可編程知識圖譜 SPG白皮書 12 圖 9 事
46、件影響傳導示意圖 例如,某生物科技有限公司被曝出生產的化肥重金屬嚴重超標的事件,其本身的利害程度需要進行進一步的影響分析。針對具體事件進行分析時,分析師需要基于對事件的理解,在基礎事實知識上反復查詢洞察,并結合常識性知識得出事件影響結論。然而,各種推理邏輯及數據往往呈碎片化分散在各處,需要有效整合連接。因此,事理圖譜的應用中存在諸多待解決的問題。對于該事件,需要分析其對企業關系網中哪些周邊實體產生影響,影響路徑及程度如何,以及對其他實體的影響是否會衍生新的事件,從而進一步擴大影響范圍。問題問題1:事件:事件分類分類紛繁復雜,僅靠先驗知識進行預先定義事件分類體系無法充分覆蓋實際應用紛繁復雜,僅靠
47、先驗知識進行預先定義事件分類體系無法充分覆蓋實際應用場景場景 傳統的做法是通過業務專家定義多層次的事件類型,構建事件類型樹,基于業務專家對權益市場、固收市場、宏觀經濟變化的理解進行事件定義、說明、分類,劃分不同事件的邊界。同時,事件可以定義為金融市場的“變化”,因此不同的事件類型背后往往也關聯著一系列的金融指標。通過業務專家預定義一系列標簽的形式組成一系列的“事件樹”,再基于“事件樹”和歷史數據構建不同的金融事件傳導網絡。但這樣的做法往往難以滿足實際金融市場的需求,主要是由于下列幾個原因:1、事件類型的理解不同。不同業務專家背景不同,沉淀出來的“事件樹”往往存在無法統一的情況,甚至對于同一個事
48、件的理解可能會有差異,不同類型的事件和事件之間的邊界不清。2、靜態的事件樹難以滿足金融市場的動態發展,無法應對新的金融事件類型的出現。特別是在 08 年金融危機后,全球經濟進入新常態,國內經濟也在近些年來不斷體現出新的特征。例如,新冠疫情對全球經濟和各個行業造成了重大沖擊,但是以往的“事件樹”中一般歸類于“重大衛生安全”等類型,大量的業務分析視角也是將 2019 年的新冠疫情與 2003 年的 SARS 對比說明,借此分析未來的影響。然而,雖然兩者都是“重大衛生安全”事件,但是無論從影響時間、影響范圍等不同角度,它們的差異都非常大。語義增強可編程知識圖譜 SPG白皮書 13 綜上所述,由于金融
49、事件的復雜性,僅僅依靠一組業務專家進行事件的預先定義,無法覆蓋實際應用場景。我們需要一套體系動態生成衍生的金融事件體系。問題問題2:事件相互之間存在因果、順承等多中關聯關系,這種關聯關系往往還需要通過實體網:事件相互之間存在因果、順承等多中關聯關系,這種關聯關系往往還需要通過實體網絡動態連接,需要更強大的描述能力絡動態連接,需要更強大的描述能力 由于金融事件網絡的復雜性,在相同的事件發生后,對于其它事件的影響方向可能也會不同,這往往取決于不同事件背后的實體與關系的差異,決定該事件的影響方向不同。舉例來說 A 公司股價上漲,由于其擴大產能,資本市場對其未來發展看好。那作為其競爭對手的B公司,其股
50、價到底是上漲還是下跌,往往會取決于多種因素,包括市場需求、產能擴大的規模、以及公司和競爭對手的相對市場份額等。假設公司 A 是一家半導體制造商,它決定擴大其生產能力。對于其競爭對手B來說,這可能是一個利好的消息。如果全球半導體市場需求強勁且供應緊張,那么 A 的產能擴大可能會有助于緩解這種供需失衡,從而穩定整個市場。在這種情況下,由于市場環境得到了改善,競爭對手B也可能因此獲益。這種情況下的邏輯是:如果整個行業的需求超過了供應,那么任何增加供應的行動都可能對整個行業產生積極的影響,因為這有助于維持市場穩定并防止價格暴漲或其他可能導致市場不穩定的因素。另一方面,如果公司 A 是一家汽車制造商,并
51、決定擴大其生產能力,這可能對其競爭對手B產生負面影響。在這種情況下,如果市場需求沒有增長,A 的產能擴大可能會導致市場供過于求,進而引發價格競爭。因此,對于競爭對手B 來說,這可能會降低其銷售量和利潤,因此可以視為是一個利空的消息。這種情況下的邏輯是:如果一個行業的供應增長超過需求,那么這將導致供應過剩,可能引發價格競爭,進而影響所有廠商的利潤水平。綜上所述,由于金融事件網絡的復雜性,在描述不同事件和事件之間傳導關系的同時,需要借助其相關的實體網絡進行動態鏈接,并基于此構建強有力的描述能力。問題問題3:如何更好地對事件的影響傳播進行描述和分析:如何更好地對事件的影響傳播進行描述和分析 由于金融
52、事件推理的復雜性,因此需要從事件在實體網絡傳播和事件網絡傳播兩個角度出發。以“公司 A 宣布破產/債券違約”為例,我們可以從這個事件的實體關系網絡傳播效應和事理網絡的傳播兩個角度進行分析:1、實體關系網絡傳播效應:公司 A 的破產會直接影響其股東,尤其是大股東,他們的財務狀況可能因此受損,從而進一步影響他們在其他公司的投資。此外,公司 A 的競爭對手可能會因其破產而受益,市場份額可能會有所提升。同樣,公司 A 的供應商和債權人可能會因為公司 A 的破產而遭受經濟損失。這些影響將在實體網絡中傳播,影響相關的其他實體。2、事理網絡的傳播:公司 A 的破產可能會被其他公司作為一個警示的例子,以防止類
53、似的事情發生。比如,可能會引發相關行業或市場的風險防范意識增強,那些在財務管理、風險控制等語義增強可編程知識圖譜 SPG白皮書 14 方面存在問題的公司可能會從中吸取教訓,進行必要的改進。這個事件的影響會在事理網絡中傳播,形成新的事件并影響到其他的實體。這兩個傳播過程并不是孤立的,而是相互交織的。例如,公司 A 的破產可能會引起其競爭對手的注意,并影響它們的決策,從而在實體網絡中引發新的事件。同時,這個新的事件也可能成為事理網絡中的新節點,進一步影響其他公司的行為。問題問題4:金融事理推理的過程僅靠關系網:金融事理推理的過程僅靠關系網絡數據并不足以支撐,往往需要用到大量的外部數據絡數據并不足以
54、支撐,往往需要用到大量的外部數據輔助分析輔助分析 在 2019 年發生了一件巴西淡水河谷的潰壩事件,這個事件造成了鐵礦石價格上漲,從而又導致煉鋼成本上漲。在整個事件影響鏈中,部分屬于行業競爭關系的企業受益,利潤有所上升。但對產業鏈的下游造成了負面影響,成本上升導致利潤下降。圖 10 淡水河谷潰壩事件影響鏈傳導圖 整個鐵礦石產業鏈最上游是鐵礦石開采,淡水河谷礦業公司(Vale S.A.)是全球礦業業界的重要參與者,其經營活動對全球的鐵礦石供應和價格有重大影響。正是因為該公司在全球鐵礦石產業鏈的重要性,導致了其潰壩事件導致了全球鐵礦石價格上漲。中國作為基建大國同樣也是全球最大的鐵礦石消費國,對全球
55、鐵礦石市場的需求嚴重依賴,因此一家巴西的公司發生重大事件后,才會導致鐵礦石產業鏈發生【原材料上漲】,并將該事件成功傳導到了國內資本市場。另外一方面,鐵礦石進口后,會在高爐中經過冶煉生成生鐵,然后生鐵在轉爐中經過再煉生成粗鋼,在這個過程中需要經過熔煉、轉爐煉鋼、脫氣、連鑄等過程。粗鋼生產出來后,粗鋼是鋼鐵產品的基礎,可以根據需求進一步加工成各種不同的鋼材,比如長產品包括鋼筋、線材等,又如扁平產品如熱軋卷、冷軋卷等,這些產品往往會用于汽車、家電、造船等行業,另外還包括管材(無縫鋼管、焊接鋼管等),除此之外還包括特鋼、高強度鋼等不同語義增強可編程知識圖譜 SPG白皮書 15 產品。而在這些產業鏈上下
56、游存在各種各樣的中國上市公司,如寶鋼、包鋼、方大特鋼等。具體的傳導邏輯和影響,需要再結合論元的細節進行分析,分析內容包括:1、該企業本身是否有在衍生品市場進行對沖,如果有的話,對沖的貨值有多少。2、該企業產品的市占率和細分產業的競爭格局如何,一般認為特鋼的競爭格局相對普通鋼鐵會更好。3、該企業是否有能力將上游生產壓力,轉移到下游等等。國內是否有上游替代品可以替代。只有將上述論元進行細顆粒度拆分后,并引入相應的外部數據,才能構建完整的傳導網絡。2.4 屬性圖應用于事理圖譜所存在的問屬性圖應用于事理圖譜所存在的問題題 通常情況下,對事件的影響分析,都是分析師基于對事件的理解,在基礎事實知識上反復查
57、詢洞察,再結合常識性知識得出事件影響結論。由此可見,整個事件的推理過程都在圖譜之外,因為基礎事實知識里并不具備常識和推理邏輯,純粹的事件圖譜也無法表達事件的脈絡。在實際應用中為了完成事件推理,各種邏輯不得不分散在圖譜之外的各種地方,再通過各種圖譜外掛的方式運行推理。這樣的應用方式,必然給事理圖譜帶來了很多應用上的問題:預定義預定義Schema靜態性和事件的動態性矛盾。靜態性和事件的動態性矛盾。事件紛繁復雜,若是采用強 Schema結構約束的屬性圖,一般無法實現完成事件的預定義,只能針對限定場景;若采用 Schema free 屬性圖,則過度寬松模式會造成數據管理和使用成本越來越高。無法表達整個
58、事件傳遞的事件脈絡。無法表達整個事件傳遞的事件脈絡。由于圖譜中只有基礎事實,沒有事件的定義,更沒有事件的傳遞關系,事件分析的專家規則更是無從談起,自然也就沒有辦法表示出事件傳導影響的整個脈絡。要表達出事件脈絡,不僅需要能將事件隨時間的演化過程表達出來,更需要結合抽象實體將事件在事件域內通過抽象層級之間的關聯性表達出來。圖譜和推理邏輯分離難以評估推理邏輯正確性,更不利于推理邏輯的復用。圖譜和推理邏輯分離難以評估推理邏輯正確性,更不利于推理邏輯的復用。由于Schema和推理邏輯分離,在維護基礎事實數據時,就無法評估對外部推理邏輯執行正確性的影響。比如數據變更了屬性名稱,刪除了關系等,有可能會造成存
59、在圖譜之外的推理邏輯運行失敗。這樣的問題在傳統的事件圖譜上是無法避免的。另外,推理邏輯可能是查詢語句+腳本的組合,這些內容可能都管理在分析師各自的本地存儲上,不利于將一些通用性強的推理邏輯形成復用。事件傳導推理結論的可解釋性差。事件傳導推理結論的可解釋性差。由于外掛推理邏輯可能是多條查詢語句+腳本的組合方式,最終事件影響的實體計算出來的時候,是無法通過結果直觀看到事件起因到結果的演繹過程,這時可解釋性就成了黑盒,只有對查詢語句和腳本進行理解才能明白推理邏輯。語義增強可編程知識圖譜 SPG白皮書 16 2.5 知識建模中結構定義與語義表示的耦合導致的復雜性及異構性知識建模中結構定義與語義表示的耦
60、合導致的復雜性及異構性 RDF/OWL 是語法層面的表示框架定義,導致較高的建模學習成本;在傳統知識工程的本體建模中,要通過描述邏輯語法定義分類體系;屬性圖 LPG 語法元素簡單,但僅是數據結構的聲明;上述方法都沒解決設計模式本身問題。在實際業務落地過程中,由于建模過程中數據結構定義和知識語義本體設計的耦合,導致建模時的決策困難。領域圖譜的 Schema 設計是比較主觀的,同一類主體因命名、粒度不同而定義為不同類型,普遍存在因 Schema 定義不同而帶來異構性問題,阻礙了知識的傳播和復用,也會進一步加劇知識的不一致性。2.5.1 因業務目標不同因業務目標不同帶來帶來實體類型顆粒度實體類型顆粒
61、度差異差異導致導致的的重復構建問題重復構建問題 在黑產圖譜的應用中,業務需要對 Person 實體進行分類,分別判定其是否是黑產人員,黑產人員又可劃分成為賭博人員、莊家、洗錢等等,如圖 11所示。圖 11 黑產圖譜建模過程中實體顆粒度擴散 同一圖譜項目也會根據內部不同訴求再次新建實體類型,同實體多類型的訴求也通常會通過冗余新類型來解決,導致圖譜項目及 Schema 越來越復雜,業務演進到某一階段被迫刪庫重新設計,以黑產圖譜為例:對不同對不同App分析的訴求:分析的訴求:黑產團伙像應用工廠一樣,批量換殼生產大量 App,需要對 App進行分類細化類型,以便應對不同風控策略 對實體類型按需細化的訴
62、求:對實體類型按需細化的訴求:團伙挖掘任務會把部分人是否是莊家、詐騙關聯起來,單獨衍生了 GamblingPerson、FraudPerson等類型,隨著業務的發展實體的分類會繼續細化。這部分問題通常和業務場景強相關,隨業務變化而變化,隨場景不同而不同。而從數據管理的角度看,這些 App 或 Person 使用了相同/相似的數據結構;但從業務邏輯視角又需要在語義層面語義增強可編程知識圖譜 SPG白皮書 17 的類型細分。不同視角的 Schema/本體建?;煸谝黄饘е掠脩衾斫夂途S護成本持續升高。實體類型的冗余構建也增大了數據表的準備和維護成本。2.5.2 不同圖譜對同一類實體定義不同不同圖譜對同
63、一類實體定義不同 以資金流轉為例(跨圖譜),如圖 12所示。圖 12 跨圖譜融合示意圖 在黑產圖譜中,我們重點關注用戶與用戶、公司之間的交易關系,以便確認幕后黑手。而在資金圖譜中,我們的重點是對資金流向進行分析,因此會對涉及到的資金產品部署追蹤及管控策略,并將更細粒度的資金產品作為實體類型。在這兩個場景中,我們都涉及交易關系的處理以滿足各自的業務需求。但這里存在如下兩個問題:不同業務對相同數據做類似處理,對于共性的需求無法沉淀,也無法將業務累積的經驗共享,每個新接入的業務均需要重頭開始準備數據,增加了業務使用門檻??鐖D譜的知識共享,例如資金圖譜中存在 BankCard 實體,因反洗錢、反詐等業
64、務需求需要 BankCard實體時,無法隱私安全的使用資金圖譜中的 BankCard。2.5.3 因構建成本帶來的定義為屬性、關系的抉擇困難因構建成本帶來的定義為屬性、關系的抉擇困難 在屬性圖模型下,每類實體、關系都需要獨立的數據準備,M種實體、N種關系,因屬性量的差異,需要準備 M+N 種消息結構或數據表以完成圖譜構建,而原始數據往往分布在Wifi 關系類型。2)為如上實體、關系單獨數據準備,并需要為 Wifi生成獨立的實體 ID。圖 13 黑產圖譜屬性轉關系需求 大量增加數據準備的復雜度,需要為每一類實體、關系單獨準備數據,極端情況下若每個類型一張數據表,從 2張表變為 6張表,洗數據的工
65、作量變大。假定有 m張實體表,平均每張實體表中有 n個屬性列需要變為關系,那么我們需要從 m張表中,洗出總共 m*(2*n+1)張表,用戶使用門檻變得很高。圖 14 因點/邊數據準備帶來的成本膨脹 2.6 對領域知識多元異構性表達能力不足對領域知識多元異構性表達能力不足 在金融領域圖譜落地過程中,存在用戶行為、行業事件、宏觀事件等時空多元的異構表達需求,如事理圖譜既要表達單個事件的時空多元關聯,又要建模事理層的因果、順承、共現、結構等簡單或復雜邏輯關聯,基于 RDF/OWL 很難實現無損表達,超圖(HyperGraph)12的引入能進一步緩解此類問題,但也沒很好的和 RDF/OWL體系融合,加
66、劇了用戶應用和理解成本。語義增強可編程知識圖譜 SPG白皮書 19 2.6.1 事件時空多元結構的表示問題事件時空多元結構的表示問題 事件多要素結構表示也是一類超圖(HyperGrpah)無損表示的問題,它表達的是時空多元要素的時空關聯性,事件是各要素因某種行為而產生的臨時關聯,一旦行為結束,這種關聯也隨即消失,如圖 15所示。圖 15 超圖結構表示13 RDF-Star14的表示方法擴展了 RDF 對此類建模方式的表達,2022 年 W3C 也成立了 RDF-Star工作組,為 RDF 進一步打補丁。以事理圖譜的應用為例,企業的一次安全生產事件,它的簡單結構表示如圖 16所示:圖 16 基于
67、 RDF-Star三元組的多元關聯擴展 在三元組的表示形式下,第一步需結合時間要素擴展為才能進一步體現時間維度的約束,表示為。但事件關聯往往是復雜的多要素組合,將描述事件的各個方面拆解成獨立的元素,如圖 16所示進一步對關系要素的拓展。企業中基于屬性圖構建領域圖譜已發展多年,RDF-Star 如何在屬性圖中落地并沒有解決方案,我們需要基于屬性圖構建時空事件超圖的表示能力,才能構建事理圖譜所需要的事件表達和推理能力。語義增強可編程知識圖譜 SPG白皮書 20 2.6.2 事理順承、組合、結構、邏輯依賴問題事理順承、組合、結構、邏輯依賴問題 事理圖譜有本體層,這意味著事件之間、事件和實體之間不僅有
68、橫向的由此及彼的關聯,還有縱向的由特殊到一般/由一般到特殊的關聯。橫向關聯是漫游、是聯想、是類比,縱向關聯是歸納、是演繹、是演化。所以,相應的架構,要在綜合考慮到這些情況的基礎上,慎重做出決定。具體到定義與實例化層面,又分為抽象實體、具體實體、抽象事件、具體事件這四塊內容,物理上是聯通的,是一張圖,邏輯上則可以左右劃分為實體域和事件域,上下可以劃分為本體域和實例域,形成所謂“四象限”架構15。如圖 17所示:圖 17 事理圖譜四象限 這里面臨的主要問題是,事件模型與事理模型共存表示的問題,常見的事件圖譜僅僅表示了卸掉了論元的裸事件的關聯關系,但在企業級的應用中,事件實例中蘊含更加豐富的信息,如
69、企業風險事件中包括了涉事主體、涉事行業、是否停產等信息,他們可以作為裸事件更詳細的補充,兩者互為增益。我們需要事件模型與事理模型的共存,而事件模型是一個時空多元的超圖結構表達,事理層又存在因果、順承、邏輯等可推理的組合關系,如 土地價格上漲導致財政收入增加,“A 省土地價格上漲”又是行政單位與抽象事件之間的二元組合,也應當可推導出“A 省財政收入增加”,財政收入增加又會級聯到影響鏈的傳播。類似的,還有論元之間的上下位之間的表達,如“加息”,“日元加息”等。最后可形成“事件抽象實體(上位)抽象實體(下位)/具體實體事件”的具體化路徑。2.7 知識間邏輯依賴帶來的一致性及傳導推理問題知識間邏輯依賴
70、帶來的一致性及傳導推理問題 領域圖譜不同屬性、關系之間也會存在隱式邏輯依賴關系,金融風控類的應用場景也需要通過建立屬性要素之間的邏輯依賴來構建風險的自動傳導能力,屬性圖模型下要求所有的關系、屬性都必須提前清洗準備好。但往往會存在因計算時效性、邏輯正確性等帶來的不一致問題,對多要素之間的邏輯關聯依賴,這種問題也會更加明顯,同時也增加了前置計算/構建的復雜度。2.7.1 因數據邏輯依賴帶來的不一致和冗余構建問題因數據邏輯依賴帶來的不一致和冗余構建問題 圖 18簡單示例了黑產圖譜中因跨實體隱式邏輯聯動導致屬性錯誤問題。語義增強可編程知識圖譜 SPG白皮書 21 圖 18 隱式邏輯關聯 從黑產發現的視
71、角,業務定義了這樣一條規則“當 A 公司發布的 App 被標記為黑產后,A 也需要被標記為黑產,如圖 18b,公司和 App 都帶有 mark 屬性,當應用 A 被業務舉報被判定為 black時,此時王武依然標記為 white,此時數據已經出現不一致,需要等待外部系統計算完成后一步更新,如圖 18c,或人工干預手動介入處理,錯誤的數據或更新延遲會導致業務誤判得出錯誤的結論,在更正期間圖譜屬于不可用狀態。2.7.2 因邏輯依賴傳遞導致風險傳導因邏輯依賴傳遞導致風險傳導/透傳受阻問題透傳受阻問題 在2.3節的2019淡水河谷潰壩事件中潰壩事故導致原材料價格上漲,繼而引發下游企業生產成本上升,最終導
72、致下游企業利潤下降的傳導鏈條。從事理層的角度看,這個事件是從企業生產事故,傳導到了產業鏈,再引發下游企業金融風險。在傳導過程中,并不是簡單的關系擴散,而是含有邏輯依賴的因果傳遞,并且在傳導鏈條的每個事件節點上都還保有起因事件的關鍵要素,這些都是在基于基礎事實的事件圖譜中難以實現的,一旦出現邏輯依賴就會導致事件傳導受阻。要構建事件風險的傳導,需要有事件的觸發機制、事件影響傳遞和傳遞規則。圖 19 事件在實例間的影響傳遞 事件觸發機制。事件觸發機制?;谕獠肯嚓P資訊抽取或對關鍵數據變動的監聽得到結構化事件要素,得到事件實例?;诰唧w的事件實例,觸發相應的事件傳導規則。事件影響傳遞。事件影響傳遞。事
73、件影響傳遞沿關系直接傳播。如事理圖譜中的企業安全生產事故的影響,通過事件實例的發生主體的產業特征,傳遞到其所屬產業。事件的關系傳遞可以表達符合語義增強可編程知識圖譜 SPG白皮書 22 什么條件的事件可以傳遞到另一個目標事件,條件中可以使用傳遞路徑中關聯子圖查詢得到的實體、關系的各種屬性,如判斷發生主體是否上市公司、公司的產業和下游產業等。傳遞過程中,判斷邏輯中可以對當前判斷條件所處位置的所有前序節點/關系的相關屬性進行引用。如圖 20 所示,在“價格上漲”中需要引用“淡水河谷潰壩事件”的主體的所屬產業屬性;在“成本上升”中需要引用“價格上漲”的產業的下游產業屬性;在“利潤下降”中需要引用“成
74、本上升”的產業屬性。圖 20 基于規則的事件概念歸納及影響傳遞 2.8 面向非完備數據集的圖譜構建與演化問題面向非完備數據集的圖譜構建與演化問題 企業級知識圖譜的構建往往是基于非完備數據集的,來源和構建策略都會不斷變化,需要通過不斷的迭代來持續提升覆蓋率、準確率,減少沖突和錯誤。這種不完備性往往包括兩個方面,數據來源的多源異構性及跨圖譜的多元異構性,數據來源的多元異構性表現為同一個實體類型的不同實例、不同屬性存在=1 個數據源,既要解決不同數據源的消歧、對齊、融合,又要根據不同的置信度策略做評估和選擇實現數據源的可回溯、可量化??鐖D譜的異構性表現為不同領域圖譜中存在對同一類實體的重復定義,但因
75、業務領域需求和數據的差異性又有不同,需要實現跨圖譜的融合與鏈接。2.8.1 多源異構數據構建圖譜的可靠融合、可信回溯問題多源異構數據構建圖譜的可靠融合、可信回溯問題 在企業圖譜應用中,同一個實體類型的不同屬性、關系可能來源于不同的數據源,基于多源異構數據構建實體通常的做法為實體鏈指 和 實體歸一,實體鏈指為每一次數據更新找到一個準確的唯一實體 ID,實體歸一則是將檔次更新的屬性和歸一后實體實現屬性、關系的合并。結合事理圖譜的案例如圖 21 所示,事理圖譜涉及的企業實體構建過程中,涉及到多種數據源的合并,如企業公告抽取、工商基本信息、法院公告等。語義增強可編程知識圖譜 SPG白皮書 23 圖 2
76、1 基于多元異構數據源的企業實體更新 企業實體定義一般為的狀態,實際應用中出現屬性值沖突時,需要根據來源(sourceType)、算法預測得分(score)等維度來決定如何保留或更新。比如 工商基礎信息的置信度是最高的,需要實現無條件覆蓋,但工商信息和企業公告的更新時效不一定一致,可能出現企業公告已抓取但工商信息還沒同步的情況,需要在屬性要素上保留二級的描述信息,可形式化表示為:as p,為 p添加 p.sourceType,p.score以及在 Schema上記錄 p的覆蓋規則,比如:p.fuseRule=sourceType=工商信息;score p.score。2.8.2 跨圖譜融合的實
77、體對齊、實時更新及融合跨圖譜融合的實體對齊、實時更新及融合/溯源問題溯源問題 跨圖譜融合的問題和 2.5.2 類似,當實現黑產圖譜和資金圖譜中的用戶實體合并時,需要確定在新的 FuseEntityType中如何保留屬性和關系。圖 22 跨圖譜穩定融合及可溯更新問題 為了保證 Person、UserAccount 體屬性/關系更新時,能及時觸發對 FusedUser 的更新,且正向保證結果的穩定性,反向支持結果的可解釋、可跟蹤,我們需要對屬性和關系進行擴展,記錄融合和更新策略的附屬屬性,并在實體更新階段觸發執行。面向非完備數據集的圖譜迭代演化,知識建??蚣苄枰鉀Q的問題有:屬性/關系可攜帶附屬屬
78、性。這些附屬屬性用于描述屬性/關系的來源、置信度、相關度、作者等相關資產信息。語義增強可編程知識圖譜 SPG白皮書 24 屬性/關系可定義更新策略。需要支持可執行的規則表達式,用以定義屬性/關系的選擇和優先級策略。這樣可以在不同數據源隨機到來的情況下保證結果的穩定性。實體類型可綁定鏈指算子。在工業級應用中,許多數據無法獲取標準化 ID。因此,我們需要使用文本匹配、時空聚類等鏈指策略來找到目標實體 ID。需要支持為目標實體類型綁定鏈指算子,以確保不同來源數據更新時可執行相同的鏈指算子從而保證結果的穩定性。2.9 無語義不可編程的屬性圖所存在的問題總結無語義不可編程的屬性圖所存在的問題總結 首先,
79、知識管理是伴生業務全生命周期的,這要求其具備迭代演化的能力,支持業務持續迭代又有效避免組合爆炸和重復構建。然后,知識管理面對的是非完備數據集、多源異構數據源、多業務專家視角下的復雜知識建模問題,這也要求其具備可編程范式實現差異化視角、多源異構數據的輕量級對齊,降低系統復雜度。最后,知識管理需建立必要的知識分層、分類體系,實現各層級之間有效的聯動、歸納、演繹等,實現靜態常識的自動剝離支持跨業務的高效復用,實現核心資產的有效沉淀。在后面的第 3/4章將詳細介紹屬性圖上的語義增強可編程范式。語義增強可編程知識圖譜 SPG白皮書 25 第第3章章 語義增強可編程框架語義增強可編程框架SPG 為解決第
80、2 章提出的問題,我們結合企業級業務場景的應用特點,抽象出了基于屬性圖的語義表示框架 SPG。該框架從三個方面來定義和表示知識語義。首先,SPG 明確定義了知識的形式化表示和可編程框架,使其可定義、可編程,機器可理解和處理。其次,SPG實現了知識層級間的兼容遞進,支持工業級場景下非完備數據狀態的圖譜構建和持續迭代演化。最后,SPG有效銜接大數據與 AI 技術體系,支持對海量數據進行高效的知識化轉換,幫助提高數據價值和應用價值。通過SPG框架,我們可以更加高效地構建和管理圖譜數據,同時可以更好地支持業務需求和應用場景。由于 SPG 框架具有良好的可擴展性和靈活性,新的業務場景可以通過擴展領域知識
81、模型及開發新算子,快速構建其領域模型和解決方案。3.1 SPG語義框架模型語義框架模型 SPG 的總體語義框架模型如第 1 章圖 5 所示,并在第 1 章中也做了簡要概述。首先,SPG 從三個維度對知識做形式化定義:1)領域類型領域類型結構結構約束約束,客觀世界中不存在無領域類型的事物,但數字世界存在大量文本/數字無領域類型表示。SPG DC要求每個事物(Thing)都必須有一個明確的領域類型(Class),并且該領域類型必須有自己內在的結構表示,包括屬性、關系等,通過關系與其他事物發生關聯。同時,SPG DC 還按照領域知識的由動態到靜態、由特殊到一般、由實例到概念的原則,將領域類型分為事件
82、超圖(Event HyperGraph)、實體(Entity)、概念(Concept)三類。這樣可以方便業務高效的知識分類和復用,并且實現知識的動態到靜態自動分層,詳見 4.1.1和 4.2章節的描述。2)領域內領域內實例實例唯一性,唯一性,客觀世界不存在完全相同的兩個事物,但數字世界因數據拷貝、不同描述視角、多源異構等存在大量同一事物的不同實例,為在數字世界構建和客觀世界一致的表示,SPG 要求每個領域類型下的實例(instance)必須是唯一的,以保證知識的準確性和一致性。為此,SPG Evolving通過 SPG-Programming提供可編程的實體鏈指、屬性標化、實體歸一等算子能力,
83、可以使用內置或自己開發算法 Operator 實現鏈指、歸一算子,不斷提升實例的唯一性,在第 7.2 章SPG-Programming中有相關描述,更詳細的介紹預計在 SPG 白皮書 2.0中發布 3)知識間知識間邏輯邏輯依賴性,依賴性,客觀世界不存在不和其他事物關聯的事物,我們往往通過事物之間的聯系來認識事物,這種聯系即表達為事物的內在特性,也表達為和其他事物之間的邏輯/物理關聯,既有歸納意義的公理共通性,又有實例層面的私有特殊性。SPG通過 SPG Reasoning謂詞/邏輯體系定義知識之間依賴,包括屬性、關系、類型等之間的邏輯依賴與傳導。同時,SPG還通過謂詞體系定義基礎的謂詞原語,以
84、支持知識的推理和推斷。這樣可以更好地處理知識之間的關聯和依賴關系,并且支持對復雜的業務場景進行建模和分析。在 4.3及 4.4章節有詳細描述。語義增強可編程知識圖譜 SPG白皮書 26 然后,SPG框架實現了知識層級間的兼容遞進,以適應工業級的知識圖譜應用。在實際應用中,業務往往面對非完備數據集、非完備專家經驗、非完備圖譜理解的客觀現實。因此,一方面業務希望借助圖譜快速實現業務價值,另一方面業務數據覆蓋和圖譜經驗也是非完備的,需要通過不斷的業務迭代來逐步加深圖譜的理解和應用。與此同時,RDF/OWL 要求完備知識體系下做知識交換,這與實際應用場景的客觀現實是不一致的。為了解決這一問題,SPG在
85、定義知識表示時,要求從左到右必須是兼容遞進的。用戶可以選擇最簡單的 SPG Compatible 模式直接從大數據體系構建屬性圖的表示,也可以增加 SPG DC 領域模型約束提升主體模型的語義明確性。此外,通過 SPG Evolving 添加鏈指、歸一算子來不斷提升主體的唯一性和主體間的語義關聯。最后,通過復雜的謂詞與邏輯體系構建知識的符號化表達。通過 SPG 的分層兼容遞進,可以極大降低圖譜業務的落地成本。在圖譜應用的過程中,用戶可以根據自身需求和數據情況選擇不同的模式和算子來逐步完善和優化領域知識圖譜。最后,SPG框架通過分層遞進,可以有效銜接大數據架構,實現數據體系到知識體系的自動構建。
86、具體而言,基于大數據表構建 ER 模型轉換到 SPG(ER2SPG)的方式,我們可以將大數據體系中的數據轉化為 SPG 知識圖譜表示,從而實現數據和知識的無縫銜接。同時,通過 SPG-Reasoning構建機器可理解的符號體系,可以方便地通過知識約束、邏輯符號等實現與深度學習模型的聯動,為知識圖譜應用提供更多的可能性。除此之外,SPG 框架還期望通過 SPG-Reasoning 實現與大模型的符號化聯動。具體而言,通過將大模型的輸出結果映射為符號化表示,將知識圖譜符號化表示輸入給大模型,可以更好地將其與知識圖譜進行融合和協同,從而實現知識和模型的高效交互和共同進化。這一點對于實現更加智能化的應
87、用場景具有重要意義。綜上,SPG框架通過銜接大數據架構和構建機器可理解的符號體系,實現了從數據到知識的自動轉換和應用。在未來,SPG框架還將繼續發揮其優勢,探索更多的應用場景,并且與大模型進行更加緊密的聯動,為知識圖譜應用帶來更多的可能性。語義增強可編程知識圖譜 SPG白皮書 27 3.2 SPG分層架構分層架構 圖 23 基于 SPG的知識引擎總體架構 SPG 的核心目標是構建基于 SPG 的標準化知識引擎架構,給領域圖譜構建提供明確的語義表示、邏輯規則定義、算子框架(構建、推理)等,支持各廠商可插拔的適配基礎引擎、算法服務,構建解決方案等。本章節簡要概述總體框架。SPG-LLM:負責 LL
88、M 大模型交互子系統,如自然語言 NL、用戶指令、查詢等。詳見第 8章描述。SPG-Schema:負責屬性圖語義增強的 Schema 框架設計,如主體模型、演化模型、謂詞模型等。詳見第 4章描述。SPG-Controller:負責控制中心子系統設計,如控制框架、命令分發、plugin 集成等。詳見第 6章描述。SPG-Programming:可編程框架子系統,負責 SDK 框架及編譯子模塊的設計,如知識生產、知識演化、專家經驗投影沉淀、圖譜推理等。詳見第 7章描述。SPG-Engine:知識圖譜引擎子系統設計,負責多引擎的 integration/adaptation layer 的設計,如推
89、理引擎、查詢引擎等。詳見第 5章描述。3.3 SPG的目標能力的目標能力 我們期望構建的是基于 SPG 的新一代認知引擎基礎架構,總體能力范圍圖 24 所示,圖中圖例也表示了本白皮書的覆蓋范圍。語義增強可編程知識圖譜 SPG白皮書 28 圖 24 SPG和 LLM雙向驅動的目標架構(初稿)本白皮書為語義增強可編程知識圖譜 SPG1.0 首次發布,結合第 2 章介紹的兩個案例,介紹知識圖譜發展當下存在的痛點問題和可能的解決思路,同時也介紹 SPG 的解決思路、核心能力和總體框架。未來,SPG將持續完善白皮書內容,包括領域模型擴展、可編程框架、知識生產引擎、知識推理引擎、LLM 與 KG 的雙輪驅
90、動等。同時,SPG 也將加速語義及基礎引擎框架的開源,促進知識圖譜的產業化落地。本次發布的 1.0版白皮書將重點介紹如下內容:SPG 語義基礎框架,介紹 SPG 產生的背景及解決的核心問題,并通過兩個業務案例介紹SPG的語義框架和 Schema模型。SPG 邏輯規則框架,介紹 SPG 的邏輯規則體系,如何基于 SPG 實現邏輯規則與事實知識的有機融合。SPG 多引擎適配層,結合 SPG2LPG 和 LPG2SPG 的適配抽象,詳細介紹適配層的能力模型,以方便各廠商圖存儲、圖計算引擎的高效接入。我們將持續更新白皮書內容,包括 2.0 和 3.0 版本。本次發布中,部分內容如可編程框架、知識推理等
91、只做了概要式介紹,未來我們將會單獨重點論述,還有 SPG 與 LLM 的雙驅動我們也將保持持續的探索與突破,本白皮書第 11章也給出了 SPG未來的發布計劃。語義增強可編程知識圖譜 SPG白皮書 29 第第4章章 SPG-Schema層層 4.1 SPG-Schema總體架構總體架構 SPG的核心目標是充分利用屬性圖兼容大數據架構的優勢,并以此為基礎,從工業實踐的實際問題出發,實現語義增強,構建完備的語法體系。本章節主要結合 SPG DC 主體分類模型擴展與SPG Reasoning邏輯謂詞語義擴展兩個方面詳細介紹。首先,在大數據表 Schema定義或大數據表字段定義基礎上擴展主體模型是最直接
92、、最靈活的,將大數據表模型的列字段定義或字段定義映射到 SPG 主體模型的類型、屬性、關系表達,通過映射將多源異構的數據表映射到非完備狀態的主體結構。然后,再基于非完備狀態的主體結構持續迭代演化并實現邏輯謂詞語義的擴展。在這個過程中,SPG 充分借鑒了 df 最小可用集及 OWL 邏輯謂詞能力,定義 SPG 主體模型最小語義單元并擴展 SPG在謂詞語義、邏輯規則等方面的表達。4.1.1 主體分類模型擴展主體分類模型擴展 為了更好的增強 LPG 中對于節點類型的語義表達,SPG 在 LPG 的節點類型和邊類型之上擴展并引入更多主體分類模型對節點類型進行擴充以兼容更加多元的知識表示,擴展的主體類型
93、分為標準類型、概念類型、實體類型、事件類型等,領域分類模型如圖 25所示。圖 25 SPG領域分類模型 SPG主體分類模型的簡要解釋如下:實體:實體:業務相關性比較強的客觀對象,通多屬性、多關系刻畫的多元復合結構類型,如用戶、企業、商戶等。概念:概念:實體從具體到一般的抽象,表述的是一組實體實例或事件實例的集合,是一種分類體系。相對靜態,也是常識知識,具有較強復用性,如人群標簽、事件分類、行政區劃分類等。為簡化企業應用,標準類型也放到了常識概念中。語義增強可編程知識圖譜 SPG白皮書 30 事件:事件:加入時間、空間等約束的時空多元類型,如通過NLP、CV等抽取出來的行業事件、企業事件、診療事
94、件或因購買、核銷、注冊等行為產生的用戶行為事件。屬性:屬性:屬性是實體、事件、概念等的組成要素,用以表述一個復雜結構的各個獨立要素,每個屬性要素又會關聯為一個具體的簡單或復雜結構,如基礎類型、標準類型、概念類型等。關系:關系:關系的定義和屬性基本一致,表達同一個復雜對象與其他對象之間的關聯,關系和屬性的區別是,若關聯對象為實體類型則為關系。1.實體類型實體類型 實體類型是 SPG 的基礎類型單元,它是有多個屬性和關系定義組成的復合數據類型,它是在LPG的 Node類型上直接擴展得到的。在第 2章中,我們深入分析了目前 LPG知識管理方面存在的困難。為解決實體類型數據準備成本高、屬性類型語義能力
95、缺失等問題,SPG-Schema在 LPG Node類型上擴展了屬性取值類型的表達,取值類型可為標準類型、概念類型、實體類型等。為實現實體類型的繼承和復用,我們借鑒并擴展了 subClassOf主體謂詞語義,實現子類對父類的屬性和關系繼承。針對實體類型異構性導致相同實體類型命名不一致的問題,我們支持擴展融合實體類型,并通過實體鏈指和實體歸一算子來邏輯對齊不同圖譜中的實體類型,未來,我們將在 SPG 白皮書2.0中重點發布算子綁定部分。2.概念和事件概念和事件 針對領域圖譜 Schema 存在的設計主觀性問題,由于不同的業務領域中內部訴求的不同,會導致不同業務對同一類實體的命名和粒度需求不同而產
96、生多種相似類型,而這些相似類型的數據均來自同一份源數據,這嚴重影響和阻礙了知識的傳播也造成知識和數據的不一致。為了避免這種不一致性,SPG-Schema 引入概念類型來對相似類型進行分類,通過概念和基本實體類型進行聯動以化解知識異構問題。另外,事理圖譜中的事件模型存在時空多元關聯,并且在建模事理層時也需要同時對因果、順承、共現、結構等簡單或復雜邏輯進行關聯關聯,為了解決 LPG 無法完美表達這類需求的問題,SPG-Schema 引入事件概念來對分類模型進行擴充來更好的表達事件之間、事件和實體之間以及事件和概念之間橫向、縱向的關聯。概念事件四象限圖按照領域知識的由動態到靜態、由特殊到一般、由實例
97、到概念的原則描述了實體類型、概念和事件之間的關聯,如圖 26 所示。概念事件四象限圖具體到定義與實例化層面可以被分為抽象實體、具體實體、抽象事件、具體事件這四塊內容,物理上是聯通的,是一張圖。語義增強可編程知識圖譜 SPG白皮書 31 圖 26 概念事件四象限圖 具體來說四象限左右劃分為實體域和事件域,上下可以劃分為抽象域和具象域,上下也可以稱之為概念域和實例域。其中抽象實體類型表達的是對具象實體類型的抽象概念,具象實體是實體類型的具體實例化;而抽象事件表示為抽象事件概念以表達事件之間的因果和順承,具象事件則是對應事件類型的具體實例化。3.標準屬性標準屬性 在 RDF/OWL 模型中,每類實體
98、、關系、屬性都需要獨立建模,而屬性圖語法元素雖然相較于RDF 來說簡單,但僅是數據結構的聲明,無法有效利用屬性知識進行知識傳播。在實際的業務落地過程中,卻往往需要利用實體屬性進行知識傳播和分析,針對 LPG 中沒有明確領域類型約束的屬性只是單純字面上的文本或者數字,既無法保障屬性內容的完整性和正確性,又難以基于結構實現有效的查詢及關聯傳導。正是這種需求導致了我們需要為屬性進行額外的建模,并由于屬性量的差異帶來的較大的數據準備成本,會隨著圖譜關聯分析的需求越來越高而產生的更高的成本。為了更好的平衡 RDF圖和 LPG之間對于屬性的取舍,并有效減少數據準備成本,SPG-Schema引入標準屬性類型
99、簡化數據依賴關系。標準屬性的應用,可以自動顯式的將屬性圖中的文本屬性物化成關系,這增加了知識的可傳播能力和隱式關聯;由于使用標準屬性替代關系建模,此處無需顯式定義關系,通過標準屬性的語義傳播實現實體類型之間的關系傳導。4.1.2 語義及規則推理能力擴充語義及規則推理能力擴充 LPG在通用的建模過程中僅包含節點(Node)和關系(Edge)兩種元素,而這兩種元素中的屬性卻常見于文本/字符串形式,而正是這種過為寬松的約束導致在實際業務場景中反而存在很多問題。為了進一步在經過拓展過后的 5 類主題分類模型之上實現更多的語法語義以實現更高效的知識傳播和推導,SPG-Schema添加一系列語義謂詞對 L
100、PG進行約束,具體的語義語法分層圖可見圖 27。語義增強可編程知識圖譜 SPG白皮書 32 圖 27 SPG-Schema語法語義分層圖 語法層(Syntax Layer):在該層定義了 SPG-Schema中的語法內容。主要將 SPG-Schema用于語義推理的相關語法一共可以劃分為最小約束集合(df)、單二元關系約束(Binary Constraints,BC)、多二元關系約束(Multiple Constraints,MC)、關系分組約束以及動態類型共 5 類,適當的根據使用情景采用關鍵字(Keywords)形式和標準命名空間 std 中的內置謂詞(Predicate)形式作用于 SPG
101、-Schema之上。語義層(Semantic Layer):在該層定義了 SPG-Schema定義相關語法推理能力的具體定義域(domain,簡寫為 dom)和作用于(range,簡寫為 ran),提現內置推理規則謂詞與細化后實體分類模型之間的關聯。4.1.3 SPG-Schema四層架構四層架構 對于 SPG-Schema 的整體框架來說,從四個基本內容出發,逐步擴展分解需求,從語義完備性和實際工業需求中逐漸確定 SPG-Schema Core所包含內容。盡可能采用輕量級語法,避免高復雜度,使 SPG-Schema的復雜度不超過 PTIME,保障在工業級落地中的效率,平衡好語義復雜度和業務應
102、用成本。MOF體系結構是分層的原數據體系結構,根據該結構我們可以將SPG-Schema整體建模層次同樣劃分為四層,如圖 28所示:語義增強可編程知識圖譜 SPG白皮書 33 圖 28 SPG-Schema四層結構圖 基于上述總結的 SPG-Schema 四層結構圖,結合黑產圖譜案例和事理圖譜案例作為基本場景支撐,SPG-Schema總體四層架構圖如圖 29所示:圖 29 SPG-Schema四層架構示意圖 四層架構的解釋為:Meta Model:該層是對 SPG Meta Model層范式的總體定義,定義了在通過 SPG-Schema建模時所需要的元素,這層對一般用戶透明。語義增強可編程知識圖
103、譜 SPG白皮書 34 SPG Meta Model:該層是對于 Meta Model層的實例化,是對 Model層范式的總體定義,通過額外對類型和謂詞的定義進行更加細致的分類,定義相關的建模語言的結構和語法,以對 Model層建模加以更多語義。Model:該層定義了一個具體的系統模型,用戶可通過語法對于實例 Instance 層能感知的類、屬性、關系結構及其語義進行定義。Model 層中存儲的是 Instance 層的數據,是對Instance層面的建模,而 Instance層的數據是 Model層中模型的實例。Instance:SPG-Schema 采用的是 Instance-Class
104、分離范式,每個 Instance 都必須嚴格符合Model層 Schema定義的約束。該層是數量最大、最為具像化的一層,Instance層的內容是具體的實例。4.2 節點和邊的語義增強節點和邊的語義增強 SPG-Schema的擴展方案的主體語法設計通過在PG-TYPES16方案基礎上引入額外的關鍵字來實現,因此 SPG-Schema主體語義同樣分成 NodeType,EdgeType,GraphType三大類,分別對應于屬性圖 LPG 中對于節點(Node),關系(Edge)和視圖的定義。主體語義的基本定義位于四層架構圖中 SPG Meta Model層,通過對 LPG節點類型進行更加細致的分
105、類來為 Meta Model層添加更多相關語義。4.2.1 NodeType節點語法語義節點語法語義 基于 4.1.1 節定義,我們將常用的知識圖譜中的節點類型劃分為了實體類型、標準類型、概念類型以及事件類型。接下來給出這四類節點類型的基本語法語義。1.實體類型實體類型 通過 CREATE ENTITY TYPE 的語法來定義節點類型 Class 以及在該節點類型中可以出現的標簽和屬性類型,可以通過如下語法創建 User類。/定義 User類型 CREATE ENTITY TYPE(User phoneNum std.PhoneNum,OPTIONAL taxonomy RiskPerson,
106、OPEN);在上述例子中定義了擁有兩個屬性 phoneNum 和 taxonomy 的 User 類型,其中 phoneNum 的類型為 std.PhoneNum,taxonomy 的類型為 RiskPerson。OPTIONAL 關鍵字表示 taxonomy 這一屬性可選;OPEN關鍵字則表示在定義該 Model向下填充實例數據時,可以添加額外屬性字段。語義增強可編程知識圖譜 SPG白皮書 35 在某些情況下,也可能需要將類型聲明為抽象類型,即抽象類型不能直接實例化。如上述例子中 User類型可以通過 ABSTRACT關鍵字被標注為抽象實體類型,于是在填充實例數據的時候不能夠直接在該類別下進
107、行填充,而是填充到繼承了該抽象父類的子類型當中。就其本身而言,這種類型可能不是很有用,但是對于多個子類的共用屬性的復用會有幫助。除上述三個關鍵字外,借鑒 PG-Keys17中關鍵字約束給節點定義添加更多的語義信息和約束。通過EXCLUSIVE、MANDATORY、SINGLETON三個關鍵字來分別代表唯一、至少、至多三種約束,進一步補充 SPG-Schema 對于實體屬性中約束進行屬性的語義增強。下列例子我們重新修改User類型為抽象類型,且通過三個屬性約束關鍵字加以約束。/擴充定義 User類型為抽象類型 CREATE ENTITY TYPE ABSTRACT(User EXCLUSIVE
108、idcard STRING,/每個實例的身份證號碼應當各不相同 MANDATORY name STRING,/每個實例至少應當有一個姓名 SINGLETON birthday DATE,/每個實例最多只有一個生日 OPTIONAL phoneNum std.PhoneNum,/可選是否添加具有標準屬性的 email字段 OPTIONAL SINGLETON taxonomy RiskPerson,/可選擇是否需要概念分類屬性 OPEN);當三個關鍵詞與 OPTIONAL 關鍵字同時作用于類型約束中時,前者用于約束該類型在實例層中填充數據時的約束,而后者則對應于約束實例是否可以使用該屬性。這二者
109、互相不沖突,例如OPTIONAL SINGLETON type RiskPerson 則可以用來表示數據可以不包括概念分類屬性 taxonomy,但一旦添加該屬性,那么該實例最多只能擁有一個分類屬性。2.標準類型標準類型 為了更好的區分開標準類型和用戶自定類型,引入命名空間概念,以 std 命名空間體現標準類型。其中標準類型均定義在 std 命名空間之下,通過正則表達式創建。由于標準類型更多與屬性標準化搭配使用,由屬性轉化而來,因此通常標準類型只存在一個屬性。通過 CREATE NOMALIZED TYPE 語法定義一個標準屬性后的標準屬性,可以直接使用,也可以通過 SET PROP語句和 N
110、ORMALIZED 來將某一類型下的屬性進行標化。需要注意的是,標準屬性需搭配 REGEX關鍵字引導的正則表達式進行使用,對該屬性的值的模式/格式進行約束。/定義標準類型 Email CREATE NOMALIZED TYPE(std.Email value STRING REGEX a-zA-Z0-9_-.+a-zA-Z0-9_-.+.a-zA-Z2,3 );/定義標準類型 phoneNum CREATE NOMALIZED TYPE(std.PhoneNum value STRING REGEX/(130-9|1401456879|150-35-9|162567|170-8|180-9|1
111、90-35-9)d8$/);/修改 User類中 phoneNum屬性為標準屬性 SET PROP(User.phoneNum)NORMALIZED std.PhoneNum;語義增強可編程知識圖譜 SPG白皮書 36 標準類型也是 SPG-Schema 中用于屬性標化的最重要的內容之一,與普通 LPG 屬性不同,當SPG中某一屬性的類型為標準類型的時候,若該標準類型語義上是可傳播的,將會默認將該屬性轉換成關系處理,而該屬性的值也將作為標準類型下的一個實例,因而會產生更多有意義的信息用于語義推理。在該例中,我們將 User 類型下的 phoneNum 屬性修改成為事先定義好的標準屬性std.P
112、honeNum,除此之外,用戶還可以直接在創建節點類型的時候將屬性指定為標準類型。3.概念類型概念類型 創建概念類型時,通過使用 OPTIONAL 關鍵字進行標注對可選屬性進行要求,其余字段默認為必選字段。通過該類型語義,可以將節點、屬性等關聯到相關業務概念域中,從而通過概念域進行更多業務推理。/定義公司分類概念 CREATE CONCEPT TYPE(CompanyTaxonomy isA std.Hypernym,OPTIONAL beginTime TIMESTAMP,OPEN);在上例中,創建了公司分類概念 CompanyTaxonomy 作為一個概念域,后續在填充概念實例時,都將歸屬
113、于該概念類型之下。其中 std.Hypernym類型的屬性 isA為該概念域中的一個必選屬性,表示該概念域中概念實例之間使用的上下位詞為 isA,而 begintime 字段為可選屬性。關于std.Hypernym類型的更多細節,我們將在 4.3.5節進行更加細致的討論。4.事件類型事件類型 創建事件類型時,需要內置對時間、主體、客體的必選要求和可選要求。其中使用關鍵字REQUIRED 來表示對于字段必選要求,其余字段為可選要求。需要注意的是,事件類型默認必須擁有時間戳屬性以及指定的主體類型。因此我們采用如下的語法定義事件。/定義公司運營事件 CREATE EVENT TYPE(Company
114、Event REQUIRED occurrenceTime TIMESTAMP,OPEN REQUIRED SUBJECT(Company|Person),OBJECT(Company|Person);在上述定義中定義公司運營事件,其中包括一個必選的 occurrenceTime 的時間戳屬性,以及一個必選的主體類型為 Company 類型或是 Person 類型。而一個事件本身我們應當視為一個圖結構,例如上述例子中定義的公司運營事件 CompanyEvent,其中定義了一個 Event 類型節點,而該節點通過 SUBJECT 關鍵字自動使用內置謂詞 std.subject 指向 Compan
115、y 和 Person 類型表示該事件的主體應該是公司或者人,這將是一個必選字段,而客體可以為空。語義增強可編程知識圖譜 SPG白皮書 37 4.2.2 EdgeType關系語法語義關系語法語義 EdgeType 語義指定了邊類型中可以出現的標簽和屬性以及屬性值的類型,并且指定了允許的源節點類型和目標節點類型。使用關系創建語句 CREATE EDGE TYPE時,要求源節點類型和目標節點類型均已定義,否則將出現懸空掛載的情況,導致關系錯誤,這種情況將不予創建。/定義持股關系 CREATE EDGE TYPE(Person)-holdShares percent DOUBLE-(LegalPers
116、on);很多情況下使用者不希望在使用整條關系時采用三元組的表示方式,因此我們可以設置關系別名來直接指代一條三元組關系。別名的設置主要有兩種方式:直接定義,后期修改。對于剛剛定義的持股關系 holdShares 來說,前者通過 AS 的語句來直接在定義時指定別名,而后者通過ALTER關鍵字為忘記設置別名的關系補充別名。/定義時指定別名 holdSharesType CREATE EDGE TYPE (Person)-holdShares percent DOUBLE-(LegalPerson)AS;/使用 ALTER對于上述持股關系設置別名 ALTER EDGE TYPE(Person)-hol
117、dShares percent DOUBLE-(LegalPerson)AS;在邊的定義中第一次出現用于表示邊的別名。在 SPG-Schema中,我們使用來快速指代一個圖,對于關系來說,實質則是點邊點的關系構成的一個圖類型。除了基本的定義之外,與上述提到的屬性約束類似,EXCLUSIVE 關鍵字將同樣可以作用于關系約束中,我們稱為跨類型約束。由于關系定義默認每條關系實例都有且唯一的源節點和目標節點,因此不將 MANDATORY、SINGLETON關鍵字用以約束關系。/作用于源節點=一個實體不能同時擁有多個相同關系的出邊 CREATE EDGE TYPE(EXCLUSIVE Class1)-Ty
118、pe propClause-(Class2);/作用于目標節點=一個實體不能同時擁有多個相同的關系 CREATE EDGE TYPE(Class1)-Type propClause-(EXCLUSIVE Class2);通過對邊的源節點和目標節點加以約束,我們變能輕松實現關系數據庫中的關系約束:語義增強可編程知識圖譜 SPG白皮書 38/一對一 CREATE EDGE TYPE(EXCLUSIVE Class1)-Type propClause-(EXCLUSIVE Class2);/一對多 CREATE EDGE TYPE(EXCLUSIVE Class1)-Type propClause-
119、(Class2);/多對多 CREATE EDGE TYPE(Class1)-Type propClause-(Class2);除此之外,我們還額外為關系添加了一類指定的約束,稱之為 Binary Constraints(BC),這類約束限定了某一個具體關系的全部實例個體擁有的特性,我們將在 4.3.2章中著重介紹這類約束。4.3 謂詞及約束的語義增強謂詞及約束的語義增強 為了在SPG-Schema中更好的管理最小謂詞和和拓展更多內置謂詞,與RDF一樣采用了命名空間機制。在使用標準類型的時候就已經使用過該機制,通過引入 std 命名空間,可以將一些內置謂詞進行歸類,使得現有的基礎謂詞保證為最小
120、的謂詞集合,后續面向不同領域知識圖譜的 Schema構建的時候,可以有針對性的添加不同領域的命名空間。除此之外,通過定義不同層面的命名空間,能夠從不同層面豐富和完善 Schama Core 的語義和能力,對于不同產業環境下的落地應用,將產生更大的靈活性和可用空間。Model層定義用戶可感知的類、屬性、關系結構及其語義,由于 SPG Meta Model層作為 Model層的抽象,需要通過一系列約束來約定模式結構,因此為了更好的表達實體的語義,我們從最小約束集合 df 出發,繼 4.2 節中介紹 SPG-Schema 的主體語義后在本節著重介紹我們在 SPG Meta Model層為Meta M
121、odel層面補充的內置謂詞和約束語義,將 Model層面會出現的約束分為單二元關系約束、多二元關系約束、分組規則和動態類型。目前我們討論的謂詞和約束均存放于標準空間std之下。4.3.1 最小約束集合最小約束集合df df18的概念來源于 RDF 中最小的謂詞集合,為了更好的適應 SPG 的需要,特地做出調整保留 subClassOf、domain和 range作為 SPG-Schema的最小約束集合。1.實體類型層次實體類型層次 subClassOf subClassOf 謂詞通過定義節點類型之間的層級關系來補充類型繼承的語義,在定義節點類型Class時,在后面跟上 SUBCLASSOF關鍵
122、字引導的類型名稱即可實現繼承。/定義定義User類的兩個子類類的兩個子類 CREATE ENTITY TYPE(Person age INT,OPTIONAL father Person)SUBCLASSOF(User);CREATE ENTITY TYPE(LegalPerson amount INT,legalId STRING)SUBCLASSOF(User);語義增強可編程知識圖譜 SPG白皮書 39 通過繼承自抽象節點類型 User 類,除了這兩個子類均會自動包含 User 類中定義的屬性和約束外,Person 類型將額外包括年齡屬性 age 以及一個可選的 Person 類型的父親
123、屬性 father,而LegalPerson類型額外添加持股數量 amount屬性以及法人編號 legalId屬性。需要注意的是,在使用 subClassOf關鍵字時,需要保證子類節點不包含與父類節點重名的屬性,否則將面臨重寫和覆蓋的問題。這同時涵蓋兩種情況:名稱和類型均相同;名稱相同但類型不同。我們將這兩種情況視為錯誤情況不予處理。2.關系定義域和值域關系定義域和值域 domain&range 在構建關系時,由于需同時指定關系的源節點類型和目標節點類型,為了減少實體轉換等帶來的冗余計算成本,對于 DOMAIN 和 RANGE 的修改應待采取“只增不改”的原則。例如在先前例子中構建了包括一個持
124、股百分比(percent)屬性的持股關系(holdShares),但由于初始定義不當,發現存在(LegalPerson)-holdShares-(LegalPerson)這類額外的需求,需要通過相應的修改令該關系值域添加 LegalPerson。/上述定義持股關系(Person)-holdShares percent DOUBLE-(LegalPerson)/為其添加定義域 LegalPerson ALTER DOMAIN(LegalPerson);/操作過后的關系實際應為(Person|LegalPerson)-holdShares percent DOUBLE-(LegalPerson)4
125、.3.2 單二元關系約束單二元關系約束(Binary Constraints,BC)在 PG-Schemas中,對于 BC特性有如下定義:Binary constraints(BC),i.e.,defined to be(ir)reflexive,(in)transitive,(a)cyclic,(a/anti)symmetric,etc.該類約束更加注重的是某個二元關系其本身的性質,通常在定義關系時一起定義,因此我們將這類約束作為關鍵字進行定義。在 Model 層為關系定義了 BC 類約束之后,該關系對應的全部Instance 層實體數據都應當遵循該約束。根據上述定義,SPG-Schema
126、中 BC 約束應當具備最基本的自反性,對稱性和傳遞性?,F假設已經實現定義好的幾個節點類型 Class1 和 Class2。我們通過 REFLEXIVE、SYMMETRIC 和 TRANSITIVE 三個關鍵字分別創建自反關系、對稱關系和傳遞關系,并且給出了該定義下的語義推導。語義增強可編程知識圖譜 SPG白皮書 40/定義自反關系定義自反關系edgeA CREATE EDGE TYPE REFLEXIVE(Class1)-edgeA prop STRING-(Class1);/意味著(a:Class1)-p:edgeA-(a:Class1)-/定義對稱關系定義對稱關系edgeB CREATE
127、EDGE TYPE SYMMETRIC(Class1)-edgeB prop STRING-(Class2);/意味著(a:Class1)-p:edgeB-(b:Class2),-(b:Class2)-p:edgeB-(a:Class1)/定義傳遞關系定義傳遞關系edgeC CREATE EDGE TYPE TRANSITIVE(Class1)-edgeC prop STRING-(Class1);/意味著(a:Class1)-p1:edgeC-(b:Class1),(b:Class1)-p2:edgeC-(c:Class1)-(a:Class1)-p3:edgeC-(c:Class1)除了上
128、述三個基本的約束(自反、對稱、傳遞性)以外,為了更好的實現語義完備性,額外根 據OWL 語 法 添 加 函 數 式 的 關 系 和 非 函 數 式 的 關 系,通 過FUNCTIONAL 和INVERSE_FUNCTIONAL關鍵字引導,其定義如下:/定義函數式關系定義函數式關系edgeD CREATE EDGE TYPE FUNCTIONAL(Class1)-edgeD prop STRING-(Class2);/意味著(a:Class1)-p:edgeD-(b:Class2),(a:Class1)-p:edgeD-(c:Class2)-(b:Class2)=(c:Class2)/定義反函數
129、式關系定義反函數式關系edgeE CREATE EDGE TYPE INVERSE_FUNCTIONAL(Class1)-edgeE prop STRING-(Class2);/意味著 (b:Class2)-p:edgeE-(a:Class1),(c:Class2)-p:edgeE-(a:Class1)-(b:Class2)=(c:Class2)4.3.3 多二元關系約束多二元關系約束 (Multiple Constraints,MC)為了使 SPG-Schema 增加額外的語義推導功能,額外添加 MC 謂詞支持。該類謂詞更多面向于的是兩個二元關系之間的關系推導,使用 SET REL 的方式進
130、行設置,謂詞部分整體采用內置命名空間 std下的內置謂詞作為該類謂詞?,F假設已經存在了已定義的兩個關系,別名分別為和。我們通過 std.inverseOf、std.mutexOf這兩個內置謂詞分別定義關系互反和關系互斥,并且給出了該定義下的語義推導。語義增強可編程知識圖譜 SPG白皮書 41/兩個關系為互反關系 SET REL-std.inverseOf-;inverseOf 定義的為互反關系,如果定義兩個關系為互反關系,那么實質上將默認產生的為一對等價的逆關系。例如“上司”關系可以和“下屬”關系互為一對逆關系,在進行推理時,可利用“上司”關系自動反向推理“下屬”從而解決復雜語義推理時帶來的工
131、業問題。在上述例子中,(Class1)-Pred1-(Class2)和(Class2)-Pred2-(Class1)為一對互反的關系。/兩個關系為互斥關系 SET REL-std.mutexOf-;mutexOf 定義的互斥關系代表一個實例關系,只能從定義的兩個關系類型中進行選擇,即在上述語法中提到的例子,對于同一個關系實例 s,不能同時擁有 Pred1關系和 Pred2關系,即(Class1)-Pred1-(Class2)和(Class1)-Pred2-(Class3)只能進行二選一。在 MC 類謂詞中,第一次出現用尖括號的表示形式-,這種方式會更加符合原本Cypher 用戶的使用習慣,在此
132、處是在定義關系時定義的別名,例如實質上可視為三元組關系(Class1)-Pred1-(Class2),這樣就可以大大簡化在書寫多個二元關系之間關系的復雜度,讓整體語法更加簡潔和易懂。4.3.4 關系分組關系分組 由于在真實案例場景中,往往需要通過一個抽象化的關系來查詢一類相似的關系,因此需要引入關系分組謂詞來幫助用戶構建分組,以節約查詢成本。整體的可以將分組視為關系分組和屬性分組兩個部分,由于屬性在一定程度上可以視為一種關系,因此統一采用 SET REL 語法進行定義關系分組。1.關系分組關系分組 分類的第一個應用場景為關系分組,主要采用內置謂詞 std.subRelOf 進行定義。在構建分組
133、時,首先應當確保存在一個頂層關系,該頂層關系在使用 CREATE EDGE TYPE 語句創建時必須使用ABSTRACT 關鍵字進行標注以表明該抽象分組關系下將不可擁有實例,任何裝載的實體關系都應當從屬于該分組下的具體關系中來。關系分組實質上同樣可以視為兩個二元關系之間的關系,但又與上述 MC謂詞不同關系分組謂詞跟關系類型定義在語法上有所區分。MC 關系謂詞定義的兩個二元關系之間為等價關系,但關系分組中兩個關系會存在明顯的上下位關系,因此定義的語法為有箭頭的三元組形式-。語義增強可編程知識圖譜 SPG白皮書 42/創建親屬關系分組,使用 ABSTRAT關鍵字進行標注 CREATE EDGE T
134、YPE ABSTRACT(Person)-kinship-(Person)AS;/定義父親、母親、夫妻三個親屬關系 CREATE EDGE TYPE(Person)-isFatherOf-(Person)AS;CREATE EDGE TYPE(Person)-isMatherOf-(Person)AS;CREATE EDGE TYPE(Person)-conjugality-(Person)AS;/定義關系分組 SET REL-std.subRelOf-;SET REL-std.subRelOf-;SET REL-std.subRelOf-;通過以上定義,我們將父子關系、母子關系和夫妻關系均視
135、為家庭關系的某一種具體關系,可以通過 kinship 關系直接獲取到該分組關系下的這三個關系。而在裝載實例時,將不會存在任意一個三元組屬于家庭關系,而是應當從屬于父子關系、母子關系和夫妻關系三種關系中的具體一種。2.屬性分組屬性分組 屬性在進行屬性標化之后,也可以將屬性視為一種具體的關系可以使用 subRelOf 進行分組。但是這樣的需求顯然不符合一個完整的完備的語義定義,若是對于非標化屬性來說,依舊會存在屬性分組的需求。因此屬性分組的語法定義類似于subRelOf,屬于對屬性的分組,但是二者的區別在于頂層分組的屬性可能會存在自身的實例數據,并且屬性都是裝載到實體當中。因此無需提前通過ABST
136、RACT定義抽象的頂層屬性,并且采用(類型.屬性)的模式來代替所表示的關系,從而獲取指定類型下的指定屬性。/Person類型中對交易聚合值分組 SET REL(Person.1_day_complaint_rate)-std.subPropOf-(Person.day_complaint_rate);SET REL(Person.7_day_complaint_rate)-std.subPropOf-(Person.day_complaint_rate)4.3.5 動態類型動態類型 1.事件概念上下位謂詞事件概念上下位謂詞 Hypernym 由于概念領域存在多樣性,不同的概念域中會采用不同的上
137、下位詞,因此我們支持在定義事件的同時通過Hypernym 來表達一類上下位謂詞,從而支持在不同概念域上對事件的概念層級進行劃分。該類謂詞通過在定義概念類型時候同時定義,例如在風險人員分類概念中,我們將上位詞設置為 isA,而可以在城市分類概念 CityTaxonomy中可以設置上位詞為 locateAt。語義增強可編程知識圖譜 SPG白皮書 43/定義風險人員分類概念 CREATE CONCEPT TYPE(RiskPerson isA std.Hypernym,OPEN);/定義城市分類概念 CREATE CONCEPT TYPE(CityTaxonomy locateAt std.Hype
138、rnym);通過這樣定義,風險人員分類概念中可以存在概念實例:“賭徒”isA“風險人員”,而城市分類概念中,可以存在:“成都”locateAt“四川”,“四川”locateAt“中國”。除此之外,事件類型是 Schema 中比較特殊的一類節點類型,其本質是一個圖并且大多會關聯事件分類概念,因此有必要對于事件類型概念使用特殊的謂詞來達到對事件類型的約束。std.subEventOf則是Hypernym謂詞中專用于事件概念分層的上下位謂詞,在定義事件概念類型時必須采用 std.subEventOf 作為上下謂詞。/定義公司運營事件概念 CREATE CONCEPT TYPE(CompanyOper
139、ationTaxonomy std.subEventOf std.Hypernym,OPTIONAL beginTime TIMESTAMP,OPEN );/實例層有:高管出逃概念從屬于公司運營概念-std.subEventOf-;/實例層有:股價下跌事件從屬于公司運營事件概念-std.subEventOf-;該謂詞作用于 Instance 層實例化的事件概念上。并且通過事件概念分層之后,子事件的主客體必須為父事件主客體類型的子類,并且可以擁有父親事件之外的其他屬性。例如上述例子中指定“高管出逃概念 EscacapeEvent”和“股價下跌事件 FallInStock”都從屬于“公司運營事件概
140、念CompanyEvent”。2.動態類型謂詞動態類型謂詞 belongTo 動態類型是指當實體實例或者事件實例和具體概念實例關聯時,可以將概念實例的名字作為該實例的類型。我們主要通過 SET REL 語法和 belongTo 關鍵字來指定具體的實體實例(包括實體類型實例和事件類型實例)及其從屬的具體概念實例。/基本實體類型實例會從屬于風險人員分類概念 SET REL(User)-std.belongTo-;語義增強可編程知識圖譜 SPG白皮書 44 首先可以讓實體類型與概念相關聯。在前文中我們定義了風險人員分類概念RiskPerson和User實體類型,通過 std.belongTo關鍵字可
141、以將 User類型關聯到風險人員分類概念域中。/公司運營事件定義 CREATE EVENT TYPE(CompanyEvent REQUIRED begintime TIMESTAMP SUBJECT(Company|Person),OBJECT(Company|Person);/公司運營事件實例會從屬于公司運行事件概念 SET REL-std.belongTo-;根據前文定義的公司運營事件概念分類 CompanyOperationTaxonomy,將新定義的公司運營事件類型 CompanyEvent 通過 std.belongTo 關鍵字進行關聯,從而定義公司運營事件中實例可以歸屬于公司運營
142、事件分類概念下的具體公司運營事件概念實例。3.概念推導謂詞概念推導謂詞 leadTo leadTo 與 belongTo 不同,從事件概念域上提現因果關系,利用該規則會更多的添加自動推理事件類型中的相關關系。但二者同樣采用相同的語法,我們通過重新定義高管出逃事件類型和股價下跌事件類型來進一步描述 SPG-Schema通過 leadTo來進行語義推導。/定義某一公司運營事件會導致另一公司運營事件 SET REL-std.leadTo-;/若 A公司高管出逃事件實例 a從屬于高管出逃事件概念/且有高管出逃事件概念實例導致股價下跌事件實例-std.belongTo-;-std.leadTo-/自動產
143、生 FallInStock事件實例 b,關聯至 A公司股價下跌事件-std.belongTo-;通過std.leadTo定義的關系僅表示建模層面的關聯,但作用于Instance層實例化的事件概念上。例如上述例子中出現的實例:高管出逃事件 會導致 股價下跌,是屬于事理上的定義,當發生了一個事件 A 公司高管出逃,該事件被 belongTo 了到概念域中高管出逃事件,那么可直接產生一個新的事件實例,A公司股價下跌。4.4 規則定義的語義增強規則定義的語義增強 為了更好的形成完備的語義體系,除了基本的謂詞和約束之外,還應當引入規則定義部分進行補充。但規則定義大多不是靠語法定義,實現需要放于 Prog
144、ramming 中實現,因此在本節僅介紹規則定義的語法并提供相關例子以作參考。語義增強可編程知識圖譜 SPG白皮書 45 4.4.1 自定義關系屬性規則自定義關系屬性規則 自定義關系屬性規則是業務中常見的一類需求,當滿足一定條件之后才會產生某一個具體的關系。因此我們通過 RULE 關鍵字進一步擴充 EdgeType 語法來為規則定義部分留出空間。由于在規則定義時通常會作用于某一個具體的實例中,因此在表達關系三元組的時候,可以通過(instance:Class)的形式來指代,但在創建關系的時候,如果沒有 RULE 引導的規則塊,并不會產生額外的影響。/定義單鏈路上的控股比例(遞歸定義)CREAT
145、E EDGE TYPE(s:Person)-p:hold_share_rate-(o:LegalPerson)RULE STRUCTURE (s)-p1:hold_share_rate-(c:LegalPerson),(c)-p2:hold_share_rate-(o),CONSTRAINT real_rate(相乘得到實際持股比例)=p1.real_hold_share_rate*p2.real_hold_share_rate p.real_hold_share_rate=real_rate ;常見的規則可以分為結構規則和約束條件規則,這兩部分規則將在規則塊中分別使用 Structure和
146、Constraint 引導的子規則塊進行區分,前者是由三元組關系構成的實例圖結構,后者是規則代碼。4.4.2 條件互反規則條件互反規則/定義關系證書被法人有效持有 CREATE EDGE TYPE(Cert)-effect_owned_by-(LegalPerson)AS;/實例當證書有效時才存在互反關系法人擁有證書 CREATE EDGE TYPE(o:LegalPerson)-p2:has-(s:Cert)CONDINVERSEROF RULE STRUCTURE ,CONSTRAINT s.is_effect=true AS;條件逆關系整體采用 CONDINVERSEOF 結合 RULE
147、 關鍵字進行引導,通過花括號引導若干條件規則語句,只有在滿足條件規則的情況下可以正確將兩個關系視為逆關系,當條件規則置空時,將默認與條件互反是等價的。在上述例子中,首先定義了基本的一條關系,通過關系互反,定義只有當滿足證書還在有效期的時候,才會產生另一條法人擁有證書的關系,并使用別名標注。語義增強可編程知識圖譜 SPG白皮書 46 4.5 SPG-Schema與與PG-Schemas的關系的關系 PG-Schemas16的目的是彌補屬性圖數據庫管理的不足和現有系統對模式支持能力的缺失,增強類型定義和提高數據完整性約束,以提供更靈活的類型管理,支持一定程度的類型繼承和復用。通過 PG-Keys1
148、7的形式化定義,實體、關系和屬性可以在屬性圖上進行形式化表達,通過建立一個靈活而強大的定義關鍵約束的框架增強了 Schema 不同要素之間的邏輯關聯和一致性,但圖構建和使用的復雜度并沒有降低,用戶仍需準備大量數據工作。并且,用 PG-Schemas 直接表示 SPG 還存在以下問題:類別缺失業務語義。PG-Schemas 中允許用戶根據意圖通過操作符&(和)和|(或)動態組合節點類型,這提供更加豐富的類型表達能力,但無法有效體現類型的業務語義,包括類型內部語義結構及類型間語義表示,并且類標簽之間的層次關系模糊也導致在實際業務落地中結構控制困難。缺乏邏輯依賴支持。PG-Keys 定義了一個定義關
149、鍵約束的框架作為全局約束來加強屬性圖數據完整性,而對于特定查詢語言的驗證和維護的復雜性,蘊涵和推理問題卻仍需進一步探索。SPG 知識管理希望實現邏輯規則與事實知識的有機融合,刻畫知識之間的邏輯依賴,構建知識的分層衍生機制,減少無效重復構建,保障邏輯一致性。支持特性部分缺失。PG-Schemas 文章中提到,在現階段的版本中,尚未完全支持二元約束(Binary Constraints,BC)以及 introspection(IS)特性,并且通過作者對比實驗發現,RDFS、SHACL、ShEx等工作中同樣缺乏 BC特性??傮w而言,PG-Schemas 的本質還是數據庫管理,增強類型定義、強化 Ke
150、y 約束等,如第 1/2/3章所述,SPG 面向知識的邏輯依賴、知識分層、知識構建、可編程等方面構建知識管理能力,和PG-Schemas 面向數據庫做能力增強是兩個不同的視角,可以做較好的互通和增強,SPG 的目標是降低用戶使用圖譜門檻,減少用戶對圖譜知識生產的介入,PG-Schemas 可以提供全局一致性的校驗,該特點可以應用到 SPG 生產出的知識圖譜上。結合 PG-Schemas 的官方描述,SPG 和 PG-Schemas的關系如圖 30所示:圖 30 SPG與 PG-Schemas的關系 語義增強可編程知識圖譜 SPG白皮書 47 4.6 SPG-Schema總結總結 本章對 SPG
151、-Schema 的整體架構及語法語義設計展開描述,并詳細說明主體模型基于一般屬性圖做出的拓展細節。當前版本重點描述 SPG DC針對業務需求而衍生出的概念、事件及標準類型三類主體分類模型,并針對擴充后的分類模型設計和形成了用于 SPG Reasoning 語義增強可推理的邏輯語法和相關謂詞。在后續的版本中會對當前語法的語義完備性進一步嚴格證明,以形成一套易用的完備語法語義體系,更詳細的謂詞邏輯語義及語法介紹,會陸續以連載文章形式發布在 SPG技術社區和公眾號。語義增強可編程知識圖譜 SPG白皮書 48 第第5章章 SPG-Engine層層 本章主要聚焦在 SPG 語法實際執行過程的實現,我們稱
152、之為 SPG-Engine 層。SPG-Engine 層是將 SPG 的推理和計算轉換到實際的 LPG 系統中執行的模塊。SPG 底層依賴通常包括圖存儲、圖查詢、圖計算等基礎能力,這樣的底層能力通常是由 LPG 的圖服務廠商提供的。本章描述了 SPG-Engine 層的整體架構,按照 SPG 語義下的圖模型定義、圖數據導入、圖查詢和計算等功能模塊進行劃分,分別給出了如何對接到底層 LPG處理系統的方式。5.1 SPG-Engine架構架構 SPG-Engine 層是將 SPG 的推理和計算轉換到實際的 LPG 系統中執行的模塊。SPG 底層依賴通常包括圖存儲、圖查詢、圖計算等基礎能力,由 LP
153、G 的圖服務廠商提供。為了滿足基于 SPG 的知識圖譜推理和服務能力的要求,我們將對引擎能力的要求分為基礎能力和進階能力。GQL19是屬性圖查詢語言的ISO國際標準,將于2024年發布。它定義了基于屬性圖的查詢語言規范,并兼容了弱類型的 Label和強類型的 Type方式。SPG方案不對底層的圖服務使用 Label還是 Type 進行限制,只要能實現 SPG-Engine LPG Adapter 的接口即可接入 SPG 引擎。SPG-Engine LPG Adapter 提供了第三方屬性圖系統接入 SPG 系統的方式,可以使用 GQL 語言或自定義函數/過程進行實現,也可以使用 HTAP20圖
154、數據庫系統單一實現或 OLTP 的圖數據庫系統結合 OLAP 的圖計算系統組合實現。結合圖 24所示架構圖,SPG Engine各模塊詳細功能如圖 31所示:圖 31 SPG-Engine的整體架構 語義增強可編程知識圖譜 SPG白皮書 49 SPG-Engine Core 層是實現 SPG 和 LPG 相互轉換的功能模塊,以依賴包形式運行在 SPG-Controller 進程內。第三方屬性圖系統作為獨立的服務進程,承載實際的 SPG 數據存儲、查詢和計算任務,通過DDL接口、DML接口、查詢和計算接口與SPG-Controller中的SPG2LPG Translator、SPG2LPG Bu
155、ilder、SPG2LPG Executor進行對接。第三方屬性圖系統需要滿足 SPG-Engine規范中的基本要求,并實現 SPG-Engine LPG Adapter的對接接口。對于進階要求,應以配置文件方式描述,未能實現的應提供空的接口實現。作為支持核心功能的模塊,SPG-Engine 的性能和彈性部署能力至關重要。性能優異的第三方屬性圖系統不僅可以處理大量數據,還可以確保系統穩定性和響應速度。彈性部署能力使系統更加靈活適應各種應用場景和需求變化,提高用戶滿意度和業務適應性。我們可以采取壓力測試、基準測試和實際業務場景模擬等方法評估性能和彈性部署能力。在當前 SPG 1.0 版本中,我們
156、更關注功能對接和實現,確保核心功能得到完整體現。在未來版本中,我們將完善和強化性能和彈性部署能力描述和實現,并進行更嚴格的評估以滿足用戶期望。5.2 SPG2LPG Translator SPG-Schema 章節描述了 SPG-Schema 和 LPG-Schema 關系,如第 4 章圖 29 所示。SPG 在 LPG基礎上增加語義謂詞、類型擴展、邏輯規則等,本章節需將 Semantic Layer 所表示 Schema 轉換對應到 LPG 引擎 Schema。SPG Meta Model 可以和 Meta Model 進行互相轉換,參考 Schema 模型分層。SPG2LPG Transl
157、ator 主要負責將 SPG 的 Schema 轉換為 LPG 的 Schema 格式。SPG Schema 與LPG Schema最大的差異之一在于屬性類型,轉換框架需要將 SPG的語義化屬性類型轉換為 LPG文本/數字數據類型,并生成對應的關系。同時,語義約束也需要進行翻譯,如繼承、動態類型、子屬性等。此外,SPG Schema 內置的標準屬性類型也需要轉換成單獨的實體類型并添加約束,并生成對應的關系。SPG2LPG Translator根據 SPG Meta Model到 Meta Model的映射關系,主要分為三層:Property2Relation層,將屬性轉換為屬性圖中的邊,包括標
158、準屬性、概念和事件等。StandardType Modeling層,將標準屬性、概念和事件轉換成對應的點模型。DDL接口層,將 1、2層的轉換內容映射到 DDL接口上,需要底層屬性圖支持該能力。表 7展示了為完成 SPG Meta Model到 LPG Meta Model的翻譯轉換所需的類型/關系映射。語義增強可編程知識圖譜 SPG白皮書 50 表 7 SPG Meta Model到 LPG Meta Model的翻譯轉換 SPG Schema 中定義實體類型/概念類型支持繼承,定義關系支持反向邊,這些定義都需要進行翻譯。以圖 33,圖 34舉例說明。1.實體類型的語義轉換實體類型的語義轉換
159、 對于通過 subClassOf(繼承)謂詞定義的實體類型,需要先讀取父類的屬性,再合并上子類的屬性,以此作為子類的屬性集合。需要注意的是,父類屬性和子類屬性的名稱不能重復,這是對subClassOf 的約束。此外,所有實體類型的頂層父類都從根類型 Thing 繼承而來。Thing 類型包含三個基本屬性:主鍵 ID、實體名稱和描述。圖 32 subClassOf語義示意圖 2.屬性類型為實體類型屬性類型為實體類型/概念類型的轉換概念類型的轉換 當 SPG Schema的屬性為實體類型或概念類型時,需要進行以下轉換行為:將屬性的類型翻譯為文本類型。語義增強可編程知識圖譜 SPG白皮書 51 新增
160、一個名為 rawOf+propertyName的文本類型屬性,用于保存屬性的原始值。添加一個從當前實體類型指向目標實體類型或概念類型的關系,關系名稱與屬性名稱保持一致。如果屬性上還有子屬性,需要將子屬性同步創建到關系上,作為關系的屬性存在。圖 33 SPG語義化屬性到 LPG的無損冗余適配過程 5.3 SPG2LPG Builder 本模塊主要解決將 SPG 格式的數據轉換為 LPG 格式的數據時,針對實體數據變更可能產生的一條或多條實體/關系的新增/刪除操作進行處理。數據變更包括導入實體、刪除實體、導入關系、刪除關系、導入概念和刪除概念等。SPG Meta Model 轉換成 LPG Mod
161、el 的 Node 和 Edge,整體子模塊如圖 34所示,它包括三部分:Semantic Checker,該層為語義檢查模塊,檢查輸入內容是否滿足 SPG定義的約束規范 LPG Transformer,該層將 SPG 數據具體轉換映射為實際屬性圖存儲模式,下面會針對這功能詳細轉換詳細介紹 ReadModifyWriter Processor,該層為讀寫同步層,保證寫入一致性。從 SPG 到 LPG 的轉換適配過程,有實體轉換、關系轉換、概念轉換等。其中,實體轉換對DML的要求有:新增或者更新節點(UpsertNode/UpsertVertex)、刪除節點(DeleteNode/DeleteV
162、ertex)、新增關系(AddEdge)、刪除關系(DeleteEdge)、查詢關系(GetEdge)等。首先,判斷實體屬性值是否符合相應的類型定義,查詢當前實體的屬性名對應的關系,再刪除查詢出來的關系:當屬性類型為實體類型時,將原始值寫入raw屬性,如果策略是ID相等,直接從生成一條從當前實體到屬性值所示 ID 的實體的邊,如果策略是算子,則運行算子邏輯后再生成一條從當前實體到鏈指結果 ID的實體的邊。當屬性類型為概念類型時,原始值寫入 raw 屬性,生成一條從當前實體到屬性指定的概念類型的 ID為屬性值的邊。語義增強可編程知識圖譜 SPG白皮書 52 當屬性類型為標準類型時,原始值寫入ra
163、w屬性,新增一個ID為屬性值的標準類型實體,生成一條從當前實體到指向上一步生成的實體的邊。圖 34 SPG實體實例變更時 LPG子圖事務更新過程 關系轉換對 LPG DML 的要求有:新增/更新節點(UpsertNode/UpsertVertex)、新增關系(AddEdge)、刪除關系(DeleteEdge)、查詢節點(GetNode)、查詢關系(GetEdge)等,轉換邏輯如圖 37所示,檢查關系的變更是否符合語義約束,新增/刪除關系后,需同步將關系等價的屬性上的值進行更新。圖 35 實體實例更新時 SPG語義約束檢查 5.4 SPG2LPG Executor SPG2LPG Executo
164、r 主要執行由 SPG-Reasoner下發的基于 RDG算子(Resilient Distributed Graph,RDG)組成的執行計劃,RDG 模型設計思路來源于 Spark 中 RDD21。如同 RDD 思路,RDD 通過抽象出 Map、Filter、ReduceByKey 等算子操作,簡化了原始 MapReduce 數據操作表達復雜性的問題。數據操作問題同樣在圖上存在,故抽象出 RDG 模型,將需要的對圖操作轉換為算子操作,以表達復雜計算過程表達,執行計劃組織方式同為樹狀結構,按照后序遍歷方式一次執行樹上算子。為實現如上目標,整個 SPG2LPG Executor分為三個部分,每個
165、部分作用如下 RDG Operator Impl,RDG模型算子實現層,依據底層的 LPG引擎分別實現各個算子定義的功能,例如 Pattern Match、Filter等 語義增強可編程知識圖譜 SPG白皮書 53 RDG Compiler,RDG編譯器,將 SPGReasoner 下發的執行計劃轉換成底層 LPG可執行的二進制文件 Task Driver,將 RDG Compiler轉換成的二進制文件提交到 LPG Engine執行,該模塊需要和具體引擎接口對接 1.執行計劃生成執行計劃生成 執行計劃表達的為數據處理過程,以判斷用戶是否為一個多設備用戶為例,KGDSL 規則表達如下。Defi
166、ne(s:Person)-p:belongTo-(o:UserClass/ManyDeviceUser)Structure (s)-t:has-(u:Device)Constraint has_device_num(持有設備數目)=group(s).count(u.id)R1(持有設備超過 100個):has_device_num 100 R2(年齡大于 18歲):s.age 18 經過 SPG-Reasoner轉換后,形成如下算子樹。DDL(ddlOp=Set(AddPredicate(PredicateElement(belongTo,p,(s:Person),EntityElement(
167、ManyDeviceUser,UserClass)Filter(rule=LogicRule(R2,年齡大于 18歲,BinaryOpExpr(name=BGreaterThan)Filter(rule=LogicRule(R1,持有設備超過 100個,BinaryOpExpr(name=BGreaterThan)GroupByAndAgg(group=Set(NodeVar(s,null)PatternMatch(pattern=PartialGraphPattern(s,Map(s-(s:Person),u-(u:Device),Map(s-Set(s)-t:has-算子樹以 Patter
168、nMatch節點開始執行,到 DDL節點結束,樹中每一個節點為一個 RDG算子。2.RDG算子算子 在 1)執行計劃執行中講解了 KGDSL執行算子編排順序,本節主要介紹 RDG中對算子定義,下表為算子列表。語義增強可編程知識圖譜 SPG白皮書 54 表 8 RDG Operator列表一覽 3.生成可執行代碼生成可執行代碼 RDG 算子表達的是對一個 RDG 的原子操作,將 RDG 算子樹轉換成底層引擎可執行代碼,還需要配合執行計劃樹經過 Execution Plan Generator生成。如圖 36所示。圖 36 可執行 code流程示意圖 Compiler將 Physical Plan
169、及 RDG Operator生成可執行代碼,Operator節點偽碼示意如下。abstract class PhysicalOperatorT:RDGT:TypeTag extends AbstractTreeNodePhysicalOperatorT /*The context during physical planner executing *return */implicit def context:PhysicalPlannerContextT=children.head.context /*The output of the current operator *return */d
170、ef RDG:T=children.head.RDG /*The meta of the output of the current output 語義增強可編程知識圖譜 SPG白皮書 55 *return */def meta:ListVar 以 RDG算子為節點形成樹狀結構,按照后序遍歷執行,例如 PatternMatch算子。final case class PatternMatchT(m)/概念屬性創建時,Trigger 觸發執行語句轉換為多跳邊 match(m1:國家 名稱:中國)-(m2:省 名稱:四川)(m3)支持知識分層,基于自定義邏輯規則,通過 Trigger 進行自動的插入
171、和更新。表 11 SPG類型分類能力 /定義實體類型即添加類型約束,創建 Person 類型時,檢測是否符合約束條件,符合則創建 belongTo 邊/創建 Person 點 create(n:Person id:2088*0001)/觸發服務端約束檢測,符合約束則創建相應邊 match(n:Person id:2088*0001)-:has-(D:Device)-:has_wifi-(W:WIFI)-:has_wifi-(D2:Device)(o:Fraudster)create(n:Person id:2088*0001)-p:belongTo-(o:Fraudster)/定義關系類型即添
172、加類型約束,創建設備點時,檢測是否符合約束條件,符合則創建 same_wifi 邊 create(n:Device id:devid*001)/觸發服務端約束檢測,符合約束則創建相應邊 match(n:Device id:devid*001)-:has_wifi-(W:WIFI)(o)/定義屬性類型即添加屬性約束,App 點屬性修改時,符合約束規則的點的屬性相應修改 match(n:App id:appid*0012)set n.mark=black/觸發服務端約束檢測,符合約束則修改相應點屬性 match(n:App id:appid*0012)(m:口味)-:愛好|isA*3-(m2:人)
173、return m as 口味,collect(m2)as 人群/最終實控人挖掘 match(n:公司 id:4201151234*ABC)(B)return B/通過 B 查找其全資子公司 match(B:公司 id:4201151234*ABC)EvalResultstr traces,errors=,result=try:result=adminNorm(property)except Exception as e:errors.append(fproperty:property,error_msg:e._repr_()return EvalResult(result,traces,err
174、ors)為降低用戶使用成本,SPG支持屬性、關系在查詢階段的自適應,在用戶的GQL/KGDSL表達中需要傳播時會自動展開,若不需要傳播,默認提取標化之后的屬性值。未來在 KGDSL 詳細語法文章中會詳細介紹。7.3 邏輯規則編程邏輯規則編程 謂詞語義是實現 SPG 邏輯規則編程的關鍵基礎,通過謂詞語義可以將 SPG 翻譯成機器可理解的形態,構建機器自動推理能力。在能力定義上包括如下幾層:1)系統內置謂詞系統內置謂詞,以確定的語義定義基礎謂詞能力,它不具備業務語義,但可被上層規則引用。2)邏輯規則知識邏輯規則知識,以屬性/關系存在的邏輯規則,并基于邏輯規則實現實體的動態分類。3)推理決策規則,推
175、理決策規則,以子圖、結構、路徑等形態獲取,支持規則決策、知識注入等。圖 42 說明了整體的分層結構,同時為了平衡規則管理成本和計算復雜度,也明確了內置謂詞只能用于定義邏輯規則知識,知識推理層的應用則只依賴基礎事實知識和邏輯規則知識。圖 42 推理決策依賴關系 語義增強可編程知識圖譜 SPG白皮書 67 通過謂詞與邏輯規則定義知識之間的依賴第 4 章已經有詳細的介紹,本章不在贅述。邏輯規則編程主要包括兩部分,通過邏輯規則定義知識依賴,生成邏輯衍生屬性/關系和通過 DSL/GQL 定義復雜的端到端規則決策,如下為 KGDSL決策代碼示例。Structure (s:User)(e1:TradeEve
176、nt)-ps1:std.subject-(su1:User)(e1:TradeEvent)-pp1:std.object-(sp1:PID)(e2:TradeEvent)-ps2:std.subject-(su2:User)(e2:TradeEvent)-pp2:std.object-(sp2:PID)(su1)-has-(sp2)(su2)-has-(sp1)(e2)-pb:belongTo-(o:/TaxoOfTradeEvent/單筆交易金額高)Constraint s.id=su1.id e1.ts e2.ts and hour(current_time()-hour(e1.ts)10
177、 Action createEdgeInstance(src=s,dst=o:TaxoOfUser/交易風險/返款交易多,type=belongTo,value=time=now()7.4 圖譜表示學習圖譜表示學習 圖譜表示學習框架解決的核心問題是圖譜特征、子圖提取問題,并適配到主流的深度學習框架如 Tensorflow/Pytorch上,并進一步轉換成對應圖學習算法需要的 Tensor結構。圖 43 圖表示學習框架 語義增強可編程知識圖譜 SPG白皮書 68 圖譜表示學習通過采樣算子模塊實現圖學習與圖譜數據的聯動與解耦,目前主要的圖采樣算子包括:1)子圖采樣子圖采樣,主要應用于 GCN 類的
178、多跳子圖采樣,包括正/負樣本生成,在 SPG 大規模動態異構范式下支持帶權采樣、時間過濾等。2)結構提取結構提取,應用于符號規則引導的圖學習、規則挖掘等結構感知型推理任務。3)特征計算特征計算,主要包括通過復雜圖譜結構可提取的 Page Rank,度中心性等子圖特征。如下偽碼為 GCN類算法多跳子圖采樣的示意,通過 Python 采樣算子實現算法對圖譜數據高效讀取。#-*-coding:utf-8-*-import libkg_client from kgrl.conf import KgrlConstants#noqa from kgrl.data import KGExpression#n
179、oqa from kgrl.data.sampler import KGStateCacheBaseSampler in_degree=KGExpression.SourceNodeInDegreeKey()out_degree=KGExpression.SourceNodeOutDegreeKey()node_version=KGExpression.SourceNodeVersionKey()edge_version=KGExpression.EdgeVersionKey()v_begin=30 v_end =40 def get_filters(v_begin,v_end):return
180、 KgrlConstants.NEIGHBORHOOD_SAMPLING_FILTER_NAME:fedge_versionv_end,KgrlConstants.NODE_SAMPLING_FILTER_NAME:fnode_version=0,KgrlConstants.EDGE_SAMPLING_FILTER_NAME:fedge_versionv_end,def get_weights(v_begin,v_end):return KgrlConstants.NEIGHBORHOOD_SAMPLING_WEIGHT_NAME:fabs(edge_version-v_begin)*log2
181、(edge_version+v_end),KgrlConstants.NODE_SAMPLING_WEIGHT_NAME:f(out_degree+in_degree),KgrlConstants.EDGE_SAMPLING_WEIGHT_NAME:fabs(edge_version-v_begin)*log2(edge_version+v_end),sampler_conf=client_conf:.,gen_data_conf:random:True,fanouts:50,20,buffer_size:2,filters:get_filters(10,20),weights:get_wei
182、ghts(10,20),sampler=NodeSubGraphSampler.from_params(sampler_conf)7.5 本章總結本章總結 本章節概要式介紹 SDK 可編程框架的分層抽象,預計在 SPG 語義增強可編程知識圖譜框架白皮書 2.0中重點發布完整的可編程框架。語義增強可編程知識圖譜 SPG白皮書 69 第第8章章 SPG-LLM層層 2023 年伊始,大模型展現出其強大的能力,在語言理解、對話生成方面表現的尤其亮眼。而知識圖譜則擅長大模型所無法解決的事實性“幻覺”和復雜推理問題。有效結合知識圖譜和大語言模型各自的優勢,充分發揮各自的特長,可以提供更優質的人工智能服務
183、和產品。在 SPG的基礎上,借力 LLM結構、語義、邏輯理解能力,形成 SPG+LLM 的雙輪驅動?;赟PG 強 Schema、邏輯約束、符號化的表達能力,進一步為提升領域知識構建與推理效率,加速知識圖譜的產業落地,結合用戶自然語言表達的意圖理解/意圖擴散、任務構造、可控生成等實現自然語言交互式的圖譜查詢和推理,是我們持續探索的方向。本章節簡要介紹 LLM 與 SPG 自然語言交互架構,并結合達觀科技的實踐介紹基于 LLM的知識抽取。8.1 SPG-LLM自然語言交互架構自然語言交互架構 結合圖 24 的總體架構定義,大語言模型交互主要分為四部分:大模型適配接口(LLM Adapter In
184、terface)、知識圖譜的自動抽取&構建(SPG Constructor)、基于大模型實現 SPG 的自然語言查詢(SPG NL Query)和推理(SPG NL Reasoner)。8.2 自動抽取和圖譜自動化構建自動抽取和圖譜自動化構建 引入 LLM 之后,知識圖譜的構建過程如圖 44所示:圖 44 知識圖譜構建鏈 業務理解和業務理解和 Schema 設計:設計:知識圖譜的 Schema 的設計和實現需要對領域內的知識有深入的理解和抽象,同時也需要考慮數據源的質量和可獲取性,以及應用場景的需求和限制。這個過程通常由多方合作完成,在珠峰書中梳理了一系列實踐經驗,并總結為“六韜法”(如圖 4
185、4 所示)。在 Schema 設計過程中,需要充分應用 SPG-Schema 的內容,并在其基礎上,進一步擴展 SPG-Schema 的內容,引入標準化自然語言注釋。SPG-Schema 的自然語言注釋有關的內容會在后續版本的白皮書中引入。這里面可以參考的內容是 Ontology(本體)中的一些定義,它可以定義概念、屬性、關系、約束和規則等元素,并支持推理和驗證。如 schema.org,FIBO,GO 等知名本體庫可以參考或者復用,來優化 Schema 的設計。其目標是保證所設計的 Schema的規范性、一致性和通用性。語義增強可編程知識圖譜 SPG白皮書 70 圖 45 珠峰書知識圖譜:認
186、知智能理論與實戰第二章6 人工梳理樣例和自動人工梳理樣例和自動/人工編寫人工編寫 Prompt:基于所設計的 Schema 進行提示工程的工作,來實現實體、關系和屬性的自動抽取,進而構建出知識圖譜。自動化生成 Prompt 的引擎,也可以參考本體中的推理引擎來實現。這里自動生成 prompt 會依賴于 Schema 中的自然語言注釋,以及人工梳理的樣例。在實踐中,通過人工梳理樣例或使用 LLM 自動生成抽取樣例,有助于使用少樣本學習,來提升 LLM抽取的準確性。圖 46 大模型抽取示例 LLM抽取和可選的人工審核:抽取和可選的人工審核:利用 LLM來構建知識圖譜,同時,在必要的情況下,提供人工
187、審核來確保所構建知識圖譜的準確性。語義增強可編程知識圖譜 SPG白皮書 71 圖 47 大模型抽取審核示例 圖譜構建:圖譜構建:將LLM抽取的結果融合進已有的知識圖譜中?;贚LM進行實體抽取、關系提取等方式,從大量文本中構建出知識圖譜的核心在于知識圖譜 Schema 中定義了知識圖譜中的實體類型、關系類型和屬性類型等元素的規范,特別是相關的自然語言注釋。這與 SPG-Schema 的規范強相關在 Schema中提供自然語言注釋,有助于將其轉化為大模型抽取和交互的 Prompt。這里面應當有三個層次的內容:實體類型、關系類型和屬性類型本身的自然語言注釋 概念層次結構、語義關聯和邏輯規則等層面的
188、自然語言注釋 對上述兩類注釋的標準化,這有助于實現公共的自動化生成 prompt 的庫(引擎)Schema 的自然語言注釋,一方面能夠實現 Prompt 的自動生成,另一方面在利用大模型進行知識圖譜構建時,可以利用大模型來自動生成少樣本學習的樣本。在實踐中,在關系抽取中,少樣本學習是非常重要的,零樣本要實現好的關系抽取非常難,而少樣本學習能夠大幅提升關系抽取的效果。8.3 基于大模型的領域知識補全基于大模型的領域知識補全 使用大模型進行知識補全可以幫助中小機構獲取更豐富的專業知識。相較于僅僅依賴企業內部積累的知識,大模型使用數量巨大的語料來獲取完善的常識和領域知識。通過特殊方法從大模型中萃取知
189、識并保存到知識圖譜,可以為企業提供更高效的知識積累和使用。與傳統將已存在圖譜中的隱性知識顯性化過程的知識挖掘,大模型的知識補全更側重于萃取 LLM 中的專業知識并融入到知識圖譜中,提供不存在于知識圖譜中的知識。本次白皮書僅提出大模型“知識補全”的概念,更多的實現方法、例子、意義等敬請期待后續版本。語義增強可編程知識圖譜 SPG白皮書 72 8.4 自然語言知識查詢與智能問答自然語言知識查詢與智能問答 傳統知識圖譜對自然語言理解能力較弱,大語言模型正好可以彌補這一缺陷,它經過數百億參數的訓練,擁有接近人類的語言理解和生成能力。將兩者有機結合,可以讓知識圖譜理解用戶的自然語言查詢,并利用其內在知識
190、提供準確答案。大語言模型負責語義分析,知識圖譜提供結構化知識來檢索答案,兩者互為補充。這種結合既發揮了知識圖譜的結構化知識優勢,也利用了大語言模型對自然語言的理解力,從而提供更人性化的問答服務。大語言模型分析查詢語句的真正意圖,知識圖譜則提供豐富的背景知識,幫助挖掘更準確、更相關的搜索結果。在對話系統中,知識圖譜也為會話提供了豐富的常識性知識來源,使對話更加智能化和接近人類交流。大語言模型負責自然的語言交互,知識圖譜則補充相關知識,使機器人擁有更強的上下文感知能力。結合大語言模和向量檢索的強大能力,將自然語言交互和知識圖譜結合,形成可控、可信、可靠的問答,解決大模型自身所無法解決的“幻覺”問題
191、,為產業應用解決“最后一公里”實現落地,如圖 48所示。圖 48 大模型+知識圖譜實現可控可信可靠問答的架構(初稿)NL2GQL/NL2KGDSL 通過人工標注的萬條級別的自然語言-GQL/KGDSL 對即可對 LLM 進行 SFT,進而實現自然語言知識查詢與智能問答。本次白皮書發布內容主要集中在原理性的探討。在后續版本中,會在 GQL 或 KGDSL 更為成熟之后,發布相關的數據集,以及基于開源大模型的 SFT規范、代碼倉庫以及模型等,敬請期待后續更新。8.5 本章總本章總結結 本章節概要式介紹 SPG-LLM 層的基本原理、框架型內容,也提出“知識補全”的概念,預計在 SPG語義增強可編程
192、知識圖譜框架白皮書未來發布中重點完整介紹的 SPG-LLM層的內容。語義增強可編程知識圖譜 SPG白皮書 73 第第9章章 SPG驅動的新一代認知應用案例驅動的新一代認知應用案例 在第 2 章中總結和分析了金融事理、黑產風控基于屬性圖的圖譜構建和應用上存在的問題,本章節結合第 2章中提出的問題,闡述基于 SPG是如何解決的,并給出整體的解決方案。9.1 SPG驅動的金融事理圖譜驅動的金融事理圖譜 本章節以2.3章節中提到的2019年發生的巴西淡水河谷的潰壩事件為例。這個事件造成了鐵礦石價格上漲,從而導致下游企業煉鋼成本上漲。在整個事件影響鏈中,與淡水河谷同屬于一個產業下的企業(即競爭關系企業)
193、受益,利潤有所上升。但對產業鏈的下游造成了負面影響,原材料成本上漲導致企業利潤下降。針對 2.3 章節提出的事理圖譜在屬性圖上應用的問題,我們提出SPG的解決方案。1.通過可派生的概念應對事件動態分類的要求通過可派生的概念應對事件動態分類的要求 事理圖譜涉及事件在概念層面的演化推理,因此首先需要將事件實例映射到相應的事件概念,通過 belongTo 謂詞將事件實例指向相應概念。由于事件類型眾多,難以全部預先定義,因此 SPG支持使用概念通過特定組合規則派生出新的概念,從而實現對事件實例的動態分類。一個具體的案例如圖 49所示。圖 49 組合概念 本例中涉及“鋼鐵凈利潤下跌”和“鐵礦石價格上漲”
194、兩個事件實例。其中,前者屬于產業鏈事件分類,通過“指標:凈利潤”和“趨勢:下跌”的組合可以派生出“凈利潤下跌”的概念。同理,后者也屬于產業鏈事件分類,通過“產業鏈:鐵礦石”、“指標:價格”和“趨勢:上漲”的組合,可以派生出語義增強可編程知識圖譜 SPG白皮書 74“鐵礦石價格上漲”的概念。值得注意的是,SPG 不會立即將所有可能的概念組合全部派生,而是針對實際發生的事件實例,派生相應的事件概念,從而避免無意義或違反事實邏輯的概念體系。2.通過概念事理層建模解決無法表達整個事件脈絡通過概念事理層建模解決無法表達整個事件脈絡 在解決了 1.的問題基礎上,SPG則可在概念分類體系上建立事理因果關系,
195、用于表達事件脈絡,如圖 50所示,其中紅色虛線表示事理知識層 leadTo被激活后在事件實例層自動產生的事件傳導。圖 50 事理演繹 圖 50 中,從下至上分為事件實例和事理知識兩層。事件實例層表示的就是具體的事件實例,例如“淡水河谷潰壩事件”,可根據 1)中的方法映射到事理知識層,事理知識層具有事理上的因果關系表達能力。在本例中,在事理知識層中已經定義:企業的“重大生產事故”會導致企業所屬產業鏈出現“鐵礦石價格上漲”或者“鋼鐵凈利潤下跌”等。當發生淡水河谷潰壩事件且該事件被歸類到“重大生產事故”概念時,事件推理就從事件實例層轉移到了事理知識層繼續進行。根據已定義的事理知識,事件傳導機制會在事
196、件實例層生成一個新的產業鏈事件實例,并且新產生的事件實例又會被歸類到“鐵礦石價格上漲”概念,從而讓新產生的事件實例成為“鐵礦石價格上漲事件”。事理知識可從對事件進行歸納或者從事理模式泛化而來,用于指導具體事件實例分類和傳導。例如“重大生產事故”會導致“產業鏈事件”發生,“產業鏈事件”屬于“鐵礦石價格上漲”概念或者“鋼鐵凈利潤下跌”概念,則規則模板為:語義增強可編程知識圖譜 SPG白皮書 75 RULE1:重大生產事故-leadTo-產業鏈事件 RULE2:產業鏈事件-belongTo-鐵礦石價格上漲 RULE3:產業鏈事件-belongTo-鋼鐵凈利潤下跌 此時可將事件歸類到派生概念,讓滿足規
197、則的派生概念形成事理因果關系,最終形成事理知識層的事理因果關系。這種表達方式從上至下指導事件實例層的分類和傳導約束,實現了在事理知識層和事件實例層對整個事件脈絡的表達。在上例中,事理知識層表達了事故導致涉事主體所屬行業的下游企業利潤下跌,具化到事件實例層就是“淡水河谷潰壩事件”導致了若干鋼鐵公司利潤下跌。值得注意的是,SPG 提供的是一種事理描述框架,事理間因果關系還是需要根據業務特點由使用者進行創建,概念歸納方法更詳細的案例會在未來 SPG系列文章中針對性發布相關實踐。3.邏輯表達內置解決數據不受邏輯表達內置解決數據不受推理邏輯約束問題推理邏輯約束問題 SPG 將概念分類邏輯使用邏輯約束進行
198、表達,以潰壩事件為例,需要對該事件分類,可定義如下規則。Define(s:FinancialEvent)-p:belongTo-(o:FinancialEventTaxonomy/重大生產事故)Structure (s)-:std.subject-(company:Company)/關聯公司實例 Constraint R1(主體發生生產事故):s.behavior=生產事故 R2(主體公司市場占有率超過 x%,具有重大影響):company.marketShare x%上述規則含義為:當發生一個安全事故時,且該公司市場占有率超過 x%,那么該事件被歸納到對應行業的生產重大生產事故。同樣,事理之
199、間的 leadTo 關系也可進行邏輯表達,當發生了一個 e1 事件后,會產生并激活另一個 e2事件。Define(s:FinancialEventTaxonomy/重大生產事故)-p:leadTo-(o:IndustryChainEventTaxonomy/價格上漲)Structure (s)-:std.subject-(company:Company)-:industry-I:Industry)/獲得行業 Constraint Action createNode(type=IndustryChainEvent value=subject=I.name index=價格 trend=上漲 語義
200、增強可編程知識圖譜 SPG白皮書 76 )事件傳導產生一個新的事件實例后,新的事件實例可再次觸發對該事件的分類,事件的分類可以使用組合概念進行分類。以下舉例使用“產業鏈(IndustryChain)”、“指標(Index)”、“趨勢(Trend)”三個概念類型作為組合概念對上述的產業鏈事件進行分類的定義。Define(s:IndustryChainEvent)-p:belongTo-(o:IndustryChainEventTaxonomy/IndustryChain+Index+Trend)Structure Constraint o=s.subject+s.index+s.trend 4.
201、邏輯屬性、關系解決外部輔助數據依賴的問題邏輯屬性、關系解決外部輔助數據依賴的問題 在上述例子中,Company 存在一個屬性 marketShare(市場占有率),在實踐中該數據可能來自其他系統,不存在于圖譜系統中,此時可以使用邏輯規則定義該數據來源,如下示例。Define(s:Compnay)-p:marketShare-(o:Float)Structure (s)Constraint o=callForMarketShares(s.id,marketShare)第 6 行代碼 callForMarketShares 為一個 udf 算子,可向其他系統獲取市場占有率信息。和之前所有數據均需要
202、導入圖譜方式相比,這里不需要額外拷貝其他系統數據,可以保證邏輯上數據一致,解決金融事理圖譜場景下依賴外部數據決策情況。5.SPG解決推理結論可解釋性不足的問題解決推理結論可解釋性不足的問題 本例中,SPG 通過事件概念定義解耦了事理層面和實例層面的傳導性問題,且保證了邏輯規則和數據的一致性,按照四象限思路,保證以下四個方面的可解釋 事件概念體本體的泛化與派生邏輯的可解釋事件概念體本體的泛化與派生邏輯的可解釋 在事理模式層,定義各類事件及實體類型的結構化表示 Scheme 模式;同時自頂向下的定義實體概念本體(如產品分類)和事件本體的概念上下位體系。每一個更細粒度的事件概念,是基于事件槽位值填充
203、,對上一層級事件概念的具象化(例如,圖 50 中的“產品價格變化事件”相對于“產業鏈事件”,是對“指標”這個槽位,填充為特定值“價格”;而“凈利潤上漲”是對“凈利潤變化”在“趨語義增強可編程知識圖譜 SPG白皮書 77 勢”這個槽位值的進一步約束)。使用槽位定義-自頂向下槽位值具象化的方式,通過槽位值的屬性組合,實現概念語義的可解釋。上下位概念之間,擁有明確的泛化與派生邏輯。事理常識邏輯關系的可解釋事理常識邏輯關系的可解釋 通過定義 RULE 模式,實現概念事件間的因果、順承、時空關系的邏輯定義?!爱a品價格上漲”不一定導致“產品利潤下降”,通過對領域專家知識總結或對大量實際案例的分析,由于產業
204、鏈上下游的供需關系影響,能夠得到“上游原料產品的價格上漲,導致下游產品凈利潤下跌”的規則。進而基于已知的產業鏈上下游關系,能夠批量的推導和生產具體產品間價格上漲-凈利潤下跌的事理邏輯。如“鐵礦石價格上漲-鋼鐵凈利潤下跌”、“鋼鐵價格上漲-汽車凈利潤下跌”。對多個事理常識生成規則的定義和組合應用,能夠生成針對特定產業、場景的可解釋的事理常識體系。事件實例之間的事實因果、時空順承關系的可追溯事件實例之間的事實因果、時空順承關系的可追溯 組成事實鏈條的各子事件的事件主體、事件發生的時間、地點,及其這些要素間的事實關聯、語義關聯、時空共現或順承關聯,為事件實例間關系的成立和歸因溯源提供依據。如圖 51
205、 中,2019 年 1 月 25 日淡水河谷潰壩事件、當年 7 月鐵礦石價格上漲至高位,寶鋼股份、寶鋼股份、方大特鋼的凈利潤下跌是有新聞報道、財報披露的事實。通過每個實例事件-概念事件的 belongTo 關系,事理知識層概念事件的 leadTo 關系,鐵礦石-鋼鐵-汽車間的產業鏈關系,可以清晰的解釋,這幾個事件不是獨立的,而是可被產業鏈事理關系解釋的事實鏈條。事實關系事實關系-事理常識間歸納演繹的邏輯可解釋事理常識間歸納演繹的邏輯可解釋 事理層面,定義了從抽象到具體的本體概念、概念間的事理邏輯關系,常識關系;在事實實例,定義了實例知識的結構化和語義標準化表示,及事件間的事實關聯。事實關系-事
206、理常識的表示方式結耦的同時,用 SPG的 belongTo、isA、isInstanceOf等標準謂詞,對概念事件到具體事實的演繹,具體事實關系到事理邏輯的歸納提供了統一的表示方法。這種在抽象概念和具體事實間的關聯和邏輯解釋,能夠幫助在具體場景,使用已有事實關系樣本對事理關系做正確性驗證,及用事理邏輯,輔助對隱藏的事件間因果、順承關系的挖掘。例如:利用事理模式生成的“鋼鐵價格上漲-汽車凈利潤下跌”及融合企業圖譜中已知的汽車企業及汽車企業的股權穿透關系,挖掘出有利潤下跌風險的汽車企業。語義增強可編程知識圖譜 SPG白皮書 78 9.2 金融事理圖譜金融事理圖譜SPG與與LPG的對比的對比 表 1
207、3 事理圖譜場景下 SPG與 LPG能力對比 從上面中,SPG 提供了一種事理表達框架,和 LPG 對比,可有效的將事件傳導鏈路表達清晰,為金融事件影響快速分析響應提供一種新的實踐。9.3 SPG驅動的黑產知識圖譜驅動的黑產知識圖譜 第 2 章中提到黑產風險圖譜應用的問題,核心在于數據的維護和管理以及理解成本過高,可將第 2 章中提到的點邊按照數據生成方式分為兩類:1)基礎數據,即來源于原始表數據。如 Person、Phone、Cert、Device、App 等實體,Person-has-Phone、Person-has-Cert 等關系可直接從原始表中轉 換 得 出 的。2)派 生 數 據,
208、由 基 礎 數 據 或 者 派 生 數 據 生 產 得 出 的 數 據。如 Person-samePhone-Person、Person-developed-App 等由邏輯派生而來。下面分別從問題出發詳細論述 SPG解決方案在黑產圖譜上應用。1.解決原始數據轉換成圖譜數據后數據膨脹和成本增加的問題解決原始數據轉換成圖譜數據后數據膨脹和成本增加的問題?;A數據和原始表數據相比相差較大。例如,原始表只提供了用戶表和應用表,并無設備、證書、電話表,該信息均為用戶表和應用表的字段存在,基于 LPG 的構建一般需要用戶進行額外數據轉換工作,或提供映射操作。SPG提供標準屬性能力可簡化用戶數據建模,減少
209、數據清洗成本。如下將手機、設備和證書做成標準屬性:CREATE TYPE(std.Phone value STRING REGEX 1(38d|50-35-9|73678)d8$);CREATE TYPE(std.Cert value STRING REGEX a-f0-932$);CREATE TYPE(std.Device value STRING REGEX(0-9A-Fa-f2:-)5(0-9A-Fa-f2)$);其余點定義:語義增強可編程知識圖譜 SPG白皮書 79 CREATE NODE(User id STRING,/用戶主鍵 name STRING,/用戶名 type STRI
210、NG,/用戶類型,自然人 or 法人 hasPhoneNum std.Phone,/此處使用標準屬性 hasCert std.Cert,/此處使用標準屬性 hasDevice std.Device /此處使用標準屬性);CREATE NODE(App id STRING,riskType STRING,/風險標記 hasCert std.Cert,/此處使用標準屬性 installDevice std.Device /此處使用標準屬性);由于全部使用標準屬性替代關系建模,此處無關系顯式定義,只需要導入用戶表信息以及應用信息表即可??梢园l現,使用 SPG 的建模能力,簡化設備、證書等實體的建模成
211、本,也減少用戶數據清洗成本。2.解決解決因業務特點不同導致重復數據準備的問題,支持跨業務的圖譜復用因業務特點不同導致重復數據準備的問題,支持跨業務的圖譜復用。黑產圖譜需要使用到轉賬數據和股權數據,SPG提供圖譜融合能力,可將其他場景圖譜實體關系引用到本圖譜中,通過自定義歸一算子,以滿足本圖譜場景使用。這部分可以來自于已有的資金圖譜和股權圖譜,例如圖 51所示將資金圖譜和黑產圖譜融合,其中實例中文字結構為:類型/實例屬性名=屬性值。圖 51 跨圖譜知識融合 FusedPerson由資金圖譜中的UserAccount和黑產圖譜中的Person鏈指、歸一合并而來,要想完成這樣的同一關系,需要定義實體
212、鏈指、實體歸一兩個階段。值得說明的是,FusedPerson 只是類型的聲明和算子的關聯,不生成實際的融合實例,能大大節約計算和存儲成本。語義增強可編程知識圖譜 SPG白皮書 80 1)實體鏈指)實體鏈指。主要定義以什么樣的鏈指算子將 UserAccount 實例和 Person 實例進行對應,可以是一一對應,也可以是多對一,本例中為多對一,只需要基于規則的鏈指就可以實現跨圖譜的實體鏈接,算子接口定義偽碼如下:BaseOp.register(FusedPersonLinkOp,bind_to=FusedPerson,is_api_iface=True)class FusedPersonLink
213、Op(EntityLinkingOp):def eval(self,record:Vertex)-EvalResultListVertex:pass 2)實體實體歸一歸一。本例中基于圖譜歸一算子實現,基于歸一條件表達式規則,對成功映射的UserAccount、Person實例實現屬性、關系篩選及操作處理,算子接口定義偽碼如下:BaseOp.register(PersonFuseOp,bind_to=FusedPerson,is_api_iface=True)class FusedPersonFuseOp(EntityFuseOp):def eval(self,source_vertex:Ver
214、tex,target_vertexes:ListVertex )-EvalResultListVertex:pass 3.解決解決關系數據之間因存在邏輯依賴帶來關系數據之間因存在邏輯依賴帶來的不一致的不一致問題。問題。SPG提供派生關系、派生數據能力,如下,以同手機號、同人為例。Define(s:Person)-p:samePhone-(o:Person)Structure (s)-:hasPhoneNum-(w:std.Phone(o:Person)Structure (s)-:hasPhoneNum-(o),(s)-:hasDevice-(o)Constraint 針對于復雜的實際控股關系
215、也可通過 transitive 定義,如圖 52 中圖譜實例,其中圖中文字結構為實例的類型/屬性名=屬性值。語義增強可編程知識圖譜 SPG白皮書 81 圖 52 股權關系實例圖/先定義控股比例,transitive必須要求 GraphStructure中類型一樣 Define transitive(s:Company)-p:holdShares-(o:Company)Structure /圖結構中必須是下面結構,表達傳遞性 (s)-p1:holdShares-(c:Company),(c)-p2:holdShares-(o)Constraint /以 s,o點進行分組聚合,得到所有實際股權 r
216、eal_rate(相乘得到實際持股比例)=group(s,o).sum(p1.shares*p2.shares)p.shares=real_rate /賦值,以控股公司 A對公司 E為例,實際份額為 1*0.3+1*0.3=0.6 Define(s:Person)-p:indirectHolding-(o:Company)Structure (s)-p1:holdShares-(c:Company)-p2:holdShares-(o)/通過公司 c,對 o公司進行間接控股 Constraint R1(直接控股股權比例必須大于 50%):p1.shares 0.5 R2(“間接控股比例必須大于
217、50%”):p2.shares 0.5 依次類推,可基于專家規則將所有關系補全。4.克服業務迭代演化導致克服業務迭代演化導致schema及數據持續膨脹最終不可維護的問題及數據持續膨脹最終不可維護的問題 在以往的LPG圖中,數據和schema強綁定,若業務發生變化,則需要schema配合改變,這樣的改動成本較高,SPG 基于概念提供了動態分類能力,可在概念層進行業務上的擴展,如圖 53 所示。語義增強可編程知識圖譜 SPG白皮書 82 圖 53 黑產圖譜基于概念的實體動態分類 新增推理謂詞 belongTo,將符合規則要求的實體和概念鏈接起來,比如,當一個 App 確認為欺詐 App,則其開發者
218、為欺詐可疑人員。以 Fraudster為例,實現動態分類的規則如下:Define(s:Person)-p:belongTo-(o:TaxonomyOfRiskUser/Fraudster)Structure /開發欺詐應用的人為欺詐者 (A:App)-:developer-(s)Constraint R1(App為欺詐應用):A.type=欺詐 可通過專家規則來描述概念和實體的關聯,解決業務和實際數據耦合過于緊密的問題。避免業務發生變動從而更改底層數據,也可盡量避免業務應用層對底層數據發生變化的直接感知。我們使用概念和業務進行強綁定,對于業務人員,可以將概念當成類型進行應用,以上面例子舉例,將
219、 Fraudster當做類型,例如下方式。MATCH (u:TaxonomyOfRiskUser/Fraudster)RETURN u 其他場景下基于其他場景下基于SPG圖譜的黑產業務應用圖譜的黑產業務應用 1.直接查詢使用直接查詢使用 當出現某個App被標記成為賭博應用(可能來自用戶投訴,也可能來自其他安全事件觸發),此時我們要找出該 App背后團伙,可通過如下查詢語句 MATCH (a:App)-:developer|boss-(u:Person)WHERE a.id=賭博應用 1 RETURN u 語義增強可編程知識圖譜 SPG白皮書 83 2.神經符號的融合學習神經符號的融合學習 將深
220、度學習與規則結合一直是學術研究的熱點,也是難點。深度學習可以解決很多表征學習問題,比如圖像分類任務;而規則(符號邏輯)能夠處理很多顯式的推理問題?,F有的神經符號結合的推理主要有兩類應用大方向。1)規則和神經融合方式規則和神經融合方式 從規則先驗的角度對這些方法進行分類,可以分為兩類:第一類:用規則約束模型結構,比較典型的方法有 DeepProbLog23方法、neuro-symbolic forward reasoning(NSFS)24、Logical Neural Networks(LNN)25以及 LogicMP26等 第二類:用規則約束目標,這里把規則作為一個先驗知識,先驗加在目標函數
221、上,作為一個懲罰項,比較典型的方法有 SemanticLoss27、NCLF28等方法 不管是第一類還是第二類,均需要一階謂詞方式作為規則輸入形式,本文中提的各類規則可和一階謂詞互相轉換,例如 Define(s:Person)-p:belongTo-(o:Fraudster)Structure (A:App)-:developer-(s)Constraint R1(App為欺詐應用):A.type=欺詐 轉換一階謂詞如下:forall s:exits a:developer(a,s)&type(a)=欺詐-belongTo(s)=Fraudster 此外,由于業務專家經驗屬于 hard rul
222、e,很容易導致出現召回率低的問題,LogicMP 中可將具體規則內容進行軟化,反向提高規則覆蓋率。2)將符號間的關系表示成圖結構,通過圖算法進行推理)將符號間的關系表示成圖結構,通過圖算法進行推理 本例中,可以把用戶通過邏輯規則的定義生成的圖形式,輸入到圖算法中進行訓練,該方法可以通過圖的形式解耦神經和符號兩種不同的方法,保證可擴展性和靈活性 語義增強可編程知識圖譜 SPG白皮書 84 圖 54 SPG+GCN類圖算法結合 9.4 黑產知識圖譜黑產知識圖譜SPG 與與 LPG 的對比的對比 從知識生產、知識應用、知識演化三個角度分別對 SPG和 LPG的存在的優劣勢對比。表 14 黑產圖譜 S
223、PG與 LPG能力對比 SPG在黑產風控類上著重解決了圖譜使用者的使用成本問題,分別在知識生產、知識應用、知識演化各個階段均能有效提示用戶使用效率、降低使用成本。9.5 本章總結本章總結 本章主要講述 SPG 在金融事理圖譜和黑產風險圖譜的應用。在金融事理圖譜中,SPG 提供一種事件表達框架,可有效的描述事件的影響傳導關系,最終得到及時有效的結論,補充了 LPG 在事理圖譜中應用的不足;在黑產風控圖譜中,SPG 主要從用戶使用成本和效率出發,解決了 LPG圖在實踐中的數據一致性難以保證、圖譜演化成本高、圖譜理解成本高等問題。語義增強可編程知識圖譜 SPG白皮書 85 第第10章章 緊跟新時代認
224、知智能的緊跟新時代認知智能的SPG 企業數字化、智能化升級的未來趨勢是基于企業大數據體系積累的海量業務數據構建知識,促進數據知識化。通過業務數據與 AI 體系的有機融合,實現業務智能化。屬性圖具有與大數據體系兼容的優勢,SPG 基于屬性圖構建核心能力,旨在加速數據知識化、知識與 AI 體系的有機融合。本章節結合前幾章介紹的核心能力及兩個案例,總結分析 SPG的優勢、不足、機遇和挑戰。10.1 SPG 相比于屬性圖的相比于屬性圖的SWOT 綜合上文描述,我們從 S(Strengths)、W(Weaknesses)、O(Opportunities)、T(Threats)四象限分析下 SPG得優勢、
225、弱點、機遇與挑戰。SPG的優勢分析。的優勢分析。1)SPG 低成本兼容大數據架構,在企業級應用中可以基于業務積累的結構化數據快速構建領域圖譜。2)SPG 分級語義模型支持非完備圖譜的持續演化,滿足工業應用中業務快速落地、數據持續積累完善、技術應用由淺入深的要求。3)SPG 克服了 LPG 語義能力缺失的短板,兼容 LPG 點/邊結構有效銜接大數據,SPG 語義增強更好的銜接 AI技術體系。SPG的弱點分析。的弱點分析。SPG 還處于成長階段,能力設計上存在部分妥協也有一定弱點,后期是我們需要持續克服的。1)動態分類如何實現繼承擴展,目前動態分類模型有效解決了類型顆粒度問題,但對應用有一定限制,
226、難以在新的子類下擴展屬性。2)需要持續完善主體內置語義結構,目前主體模型內置語義還不夠豐富,只有事件主體/客體/時間、概念分層/上下位等定義和約束,如何基于可控生成及可解釋推理的訴求,清晰的表達主體內置語義結構,需要結合下游應用持續的完善。3)實例-概念的聯動推理模型,目前 SPG 具備了一定的實例到概念的歸納推理能力,但概念與實例的協同傳導,概念到實例的演繹推理的能力還有很大提升空間,還需要結合更多類事理圖譜的應用持續的優化打磨。SPG的機遇分析。的機遇分析。1)填補知識圖譜企業應用語義框架缺失的空白,RDF/OWL因其復雜性未有效在企業落地,建設企業級應用的事實標準,方便跨主體的知識語義對
227、齊,更方便促進知識的流通、互通、交換、共享。2)驅動構建知識圖譜通用引擎架構,推動圖譜技術的平民化、普惠化。每個技術領域的大規模應用都離不開標準化、框架化。像搜索引擎、深度學習、云計算等。3)大模型時代實現圖譜與大模型的雙向驅動、銜接互補。各企業基于 Transformer或開源 LLM可快速孵化/fine-tuning新的預訓練基座,通過 SPG標準符號有助于在預訓練、SFT/RLHF 及推理階段實現高效的知識注入、提示聯想、知識查詢等,并形成穩定的范式實現圖譜與大模型的聯動。同時,通過數據知識化,構建與 LLM 神經網絡化知識體系互補對等的符號化世界領域知識體系。語義增強可編程知識圖譜 S
228、PG白皮書 86 SPG的挑戰分析。的挑戰分析。1)規?;瘧玫男阅芴魬?,尤其是在構建階段,因抽取模型、實體鏈指較大的性能開銷,嚴重影響大規模圖譜構建效率。2)系統能力還需要更多應用打磨,SPG 系統能力還需要結合更多業務和場景持續優化,3)語義化的用戶心智培養,一方面需要持續提升用戶對語義的理解,另一方面需要持續降低用戶對語義的感知。圖 55 SPG的 SWOT分析 10.2 第第2章章問題解決情況和遺留問題問題解決情況和遺留問題 表 15 基于 LPG的圖譜知識管理存在的基礎問題和 SPG的解決狀態 特別說明,表 15 主要列舉基于屬性圖知識管理存在的基礎問題和 SPG 的解決狀態,主要體
229、現為主體語義及邏輯謂詞語義部分,可編程框架和復雜知識推理時構建在良性循環的知識管理框架之上的,不屬于知識管理基本能力范疇,未在此表格中列出,但會在第 11 章未來發布計劃中進一步描述。語義增強可編程知識圖譜 SPG白皮書 87 第第11章章 展望展望SPG的未來的未來 本白皮書從企業級知識管理面臨的問題出發,介紹了企業級圖譜應用因需求范式的變更對知識語義表示與引擎框架都提出了更高的要求。本文第 1 章總結了在知識圖譜技術的發展過程中,仍存在著的一些主要問題:缺少統一語義表示。目前,強語義的知識圖譜并未實現 RDF/OWL 的工業落地,而弱語義的 LPG屬性圖在工業級圖譜中卻應用廣泛。工具多但不
230、統一。為每種數據集定制開發的抽取算法/鏈指算法、依托圖數據庫的圖譜存儲、表示學習工具、模糊檢索工具、知識問答工具等,使得知識圖譜技術的應用存在著較大的分散性和不便利性。立足當下,任何復雜技術的大規模產業化應用,都需要統一的技術框架,屏蔽復雜的技術細節以支持新業務的快速部署;都需要可插拔的分層架構,實現領域模型與主體引擎的分層解耦以實現新領域的快速遷移。知識圖譜亦是如此,知識圖譜的技術發展需要與時俱進,SPG為強語義的知識圖譜定義了工業級易用的知識語義框架,幫助企業進行海量數據知識化的加速構建,通過SPG知識引擎統一的技術框架和引擎架構,真正實現知識圖譜技術的框架化、平民化、普惠化。面向未來,知
231、識圖譜有著廣闊的應用空間。一方面,知識圖譜作為結構化數據的最佳建模實踐,可以實現機器、算法、工程、業務、運營等不同視角數據建模的統一,可以構建符合 data fabric 思想的下一代數據架構,加速企業級海量數據的知識化,連接數據孤島,發現更多隱式關聯,充分激活數據價值,降低找/用數據的成本,為業務帶來更大的增長空間。另一方面,知識圖譜強事實、弱泛化、可解釋性強、計算成本低、構建成本高的特點,與大模型弱事實、強泛化、可解釋性差、計算成本高、語義理解強形成完美互補。未來,期望通過統一的知識符號表示和引擎架構和大模型形成高效的聯動和互補,通過大模型技術進一步降低圖譜構建成本加速數據知識化,也為大模
232、型的可控生成提供更多領域知識的補充。通過海量常識級領域知識庫的建設,加速推進通用人工智能進程。知識圖譜與大模型聯動互補的實現強烈依賴于完整的知識圖譜和大模型技術棧,目前大模型技術已趨于成熟,基于 SPG 所定義的強語義知識圖譜框架,有望形成可與大模型無縫配合的知識圖譜應用框架,并在未來實現工業級可用的基于知識圖譜和大模型的易泛化、高魯棒、可解釋的綜合人工智能技術。語義增強可編程知識圖譜 SPG白皮書 88 圖 56 未來 SPG與 LLM雙驅技術范式 符號邏輯與神經網絡的融合一直是業界的研究熱點。其中,一種常見的方法是使用神經網絡來學習符號邏輯中的規則和關系,使其能夠更好地處理復雜的邏輯問題;
233、另一種方法則是使用符號邏輯來指導神經網絡的學習過程,以提高其學習準確性和可解釋性。知識圖譜作為符號邏輯的典型代表,在結構表示、語義刻畫、知識關聯等方面有獨特的優勢。通過 SPG 為其構建的統一語義框架可以為其提供更強的生命力。目前,神經網絡與符號邏輯的融合主要發生在知識推理階段。隨著大模型的出現,為符號邏輯與神經網絡的融合提供了新的思路。一方面,知識圖譜作為符號邏輯的語義表示與知識數據管理的底層支撐,可以借助大模型強大的語義理解能力和知識圖譜的強結構、強語義的自動 prompts 和樣本構建,幫助知識圖譜形成統一的知識抽取框架,加速數據的知識化。另一方面,在內容生成階段,施加強語義約束的領域知
234、識數據可以有效避免大模型幻覺和胡說八道的問題。這些問題都有望在 SPG+LLM 范式下加速解決。我們還將結合產業實踐不斷提升 SPG 表達能力,并通過 SPG 增強 LLM 實現客觀事實的對齊,有效避免/減少大模型幻覺。同時,LLM也將增強SPG,以提升數據知識化的轉化效率。我們致力于構建SPG與LLM相互驅動、相互增強的下一代人工智能引擎。語義增強可編程知識圖譜 SPG白皮書 89 表 16 SPG未來發布計劃 未來,我們也將持續升級 SPG,表 16 是我們未來計劃發布的內容,發布的時間計劃會更新在SPG公眾號:語義增強可編程圖譜框架上,歡迎關注、交流,一起探索工業級知識圖譜架構范式。語義
235、增強可編程知識圖譜 SPG白皮書 90 參考文獻參考文獻 1 Martin,S.,Szekely,B.,Allemang,D.(2021).The Rise of the Knowledge Graph.OReilly.2 王昊奮,丁軍,胡芳槐,&王鑫.(2020).大規模企業級知識圖譜實踐綜述.計算機工程,46(7),13.3 王昊奮,漆桂林,陳華鈞(2019).知識圖譜:方法、實踐與應用.電子工業出版社 4 中國知識圖譜行業研究報告 OL.艾瑞咨詢,2022.5 陸鋒,諸云強,張雪英.時空知識圖譜研究進展與展望J.地球信息科學學報,2023,25(6):1091-1105.Lu F,Zhu
236、 Y Q,Zhang X Y.Spatiotemporal knowledge graph:Advances and perspectivesJ.Journal of Geo-information Science,2023,25(6):1091-1105.DOI:10.12082/dqxxkx.2023.230154 6 王文廣.(2022).知識圖譜:認知智能理論與實戰.電子工業出版社.7 Colas,Anthony,M.Alvandipour,and D.Z.Wang.GAP:A Graph-aware Language Model Framework for Knowledge Gra
237、ph-to-Text Generation.(2022).8 王昊奮,王萌.“神經+符號”:從知識圖譜角度看認知推理的發展J.中國計算機學會通訊,2020,16(8),52.9 Yang,L.,Chen,H.,Li,Z.,Ding,X.,&Wu,X.(2023).ChatGPT is not Enough:Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling.arXiv preprint arXiv:2306.11489.10 Pan,S.,Luo,L.,Wang,Y.,Ch
238、en,C.,Wang,J.,&Wu,X.(2023).Unifying Large Language Models and Knowledge Graphs:A Roadmap.arXiv preprint arXiv:2306.08302.11 王文廣,王昊奮.融合大模型的多模態知識圖譜及在金融業的應用j.人工智能,2023(02).12 Bretto A.Hypergraph theoryJ.An introduction.Mathematical Engineering.Cham:Springer,2013,1.13 Ferraz de Arruda G,Tizzani M,Moreno
239、 Y.Phase transitions and stability of dynamical processes on hypergraphsJ.Communications Physics,2021,4(1):24.14 RDF-star Working Group Charter.https:/www.w3.org/2022/08/rdf-star-wg-charter/15 白碩.事理圖譜六問六答 OL.理深科技時評,2019.16 RenzoAngles,Angela Bonifati,Stefania Dumbrava,George Fletcher,Bei Li,Jan Hidd
240、ers,Alastair Green,Leonid Libkin,Victor Marsault,Wim Martens,Filip Murlak,Stefan Plantikow,Ognjen Savkovi,Michael Schmidt,Juan Sequeda,Sawek Staworko,Dominik Tomaszuk,Hannes Voigt,Domagoj Vrgo,Mingxi Wu,and Duan ivkovi.2023.PG-Schemas:Schemas for Property Graphs.In Proceedings of the 2023 Internatio
241、nal Conference on Management of Data(SIGMOD 23),June 1823,2023,Seattle,USA.ACM,New York,NY,USA,18 pages.https:/doi.org/10.1145/3589778 17 Renzo Angles,Angela Bonifati,Stefania Dumbrava,George Fletcher,Keith W.Hare,Jan Hidders,Victor E.Lee,Bei Li,Leonid Libkin,Wim Martens,Filip Murlak,Josh Perryman,O
242、gnjen Savkovi,Michael Schmidt,Juan Sequeda,Sawek Staworko,and Dominik Tomaszuk.2021.PG-Keys:Keys for Property Graphs.In Proceedings of the 2021 International Conference on Management of Data(SIGMOD 21),June 2025,2021,Virtual Event,China.ACM,2423-2436.18 Munoz-Venegas S,Perez J,Gutirrez,Claudio.Simpl
243、e and Efficient Minimal RdfsJ.Social Science Electronic Publishing2023-08-12.DOI:10.2139/ssrn.3199430.19 The GQL Standards Website,https:/www.gqlstandards.org/語義增強可編程知識圖譜 SPG白皮書 91 20 Jana Giceva and Mohammad Sadoghi.2019.Hybrid OLTP and OLAP.In Encyclopedia of Big Data Technologies.Springer.https:/
244、doi.org/10.1007/978-3-319-63962-8_179-1 21 Zaharia M,Chowdhury M,Das T,et al.Resilient distributed datasets:A Fault-Tolerant abstraction for In-Memory cluster computingC/9th USENIX Symposium on Networked Systems Design and Implementation(NSDI 12).2012:15-28.22 Francis N,Green A,Guagliardo P,et al.Cy
245、pher:An evolving query language for property graphsC/Proceedingsof the 2018 international conference on management of data.2018:1433-1445.23 Manhaeve R,Dumani S,Kimmig A,et al.Neural probabilistic logic programming in DeepProbLogJ.ArtificialIntelligence,2021:103504.DOI:10.1016/j.artint.2021.103504.2
246、4 Shindo H,Dhami D S,Kersting K.Neuro-Symbolic Forward ReasoningJ.2021.DOI:10.48550/arXiv.2110.09383.25 Riegel R,Gray A,Luus F,et al.Logical Neural NetworksJ.2020.DOI:10.48550/arXiv.2006.13155.26 Weidi Xu,Jianshan He,Jingwei Wang,Hongting Zhou,Xiaopei Wan,Taifeng Wang,Ruopeng Li,Wei Chu,AnEfficient
247、Mean-field Approach to High-Order Markov Logic.https:/ 27 Xu J,Zhang Z,Friedman T,et al.A Semantic Loss Function for Deep Learning with Symbolic KnowledgeJ.2017.DOI:10.48550/arXiv.1711.11157.28 Zhang Y,Chen X,Yang Y,et al.Efficient Probabilistic Logic Reasoning with Graph Neural NetworksJ.arXivpreprint arXiv:2001.11850,2020.