《螞蟻集團&之江實驗室:2024Graph+AI:大模型浪潮下的圖計算白皮書(155頁).pdf》由會員分享,可在線閱讀,更多相關《螞蟻集團&之江實驗室:2024Graph+AI:大模型浪潮下的圖計算白皮書(155頁).pdf(155頁珍藏版)》請在三個皮匠報告上搜索。
1、 版權聲明版權聲明 本白皮書由全國智能計算標準化工作組圖計算研究組編著,由全國智能計算標準化工作組發布,旨在為圖計算領域提供前沿動態和趨勢洞察。本白皮書的著作權受法律保護,轉載、摘編、翻譯或利用其他方式使用本白皮書文字或觀點的,應注明來源。編制說明編制說明 感謝以下專家和學者對本白皮書編制工作的鼎力支持(注:排名不分先后)。專家顧問專家顧問 林學民林學民 歐洲科學院院士、IEEE Fellow、上海交通大學講席教授 金耀初金耀初 歐洲科學院院士、IEEE Fellow、西湖大學講席教授 金海金海 SAC/SWG32 圖計算研究組召集人、華中科技大學教授 陳文光陳文光 SAC/SWG32 圖計算
2、研究組聯合召集人、螞蟻集團技術研究院院長/副總裁 石川石川 北京郵電大學特聘教授、Gamma Lab 實驗室創始人 陳華鈞陳華鈞 浙江大學教授、OpenKG 牽頭發起人 鄒磊鄒磊 北京大學教授、圖數據庫 gStore 項目負責人 張巖峰張巖峰 東北大學教授、計算機學院副院長 葉小萌葉小萌 杭州歐若數網科技有限公司創始人 張晨張晨 浙江創鄰科技有限公司創始人 梁磊梁磊 螞蟻集團知識圖譜技術總監 編制組組長編制組組長 洪春濤洪春濤 螞蟻集團圖計算負責人 陳紅陽陳紅陽 SAC/SWG32 圖計算研究組聯合召集人、之江實驗室數據樞紐與安全研究中心副主任 編制組成員編制組成員 螞蟻科技集團股份有限公司螞
3、蟻科技集團股份有限公司 之江實驗室之江實驗室 范志東、林恒、桂正科、郭智慧、孫夢姝、陳發強、劉永超、鄭達、彭晉、崔安頎、趙培龍、李少衡、呂松霖、何雨瀟、歷鵬飛、陳梓康 余婷、余磊、楊林瑤、黃丹丹、蒙貴云 北京郵電大學北京郵電大學 浙江大學浙江大學 楊成、黃海 張文、張強、王鑫達 西湖大學西湖大學 東北大學東北大學 吳泰霖 陳朝億、付振波、曹春榆、鞏樹鳳 杭州悅數科技有限公司杭州悅數科技有限公司 浙江創鄰科技有限公司浙江創鄰科技有限公司 古思為、鮑翰林、方揚 周研、童冰 北京大學北京大學 北京交通大學北京交通大學 吳偉 劉鈺 復旦大學復旦大學 北京海致星圖科技有限公司北京海致星圖科技有限公司 鄭
4、衛國、張志杰 沈游人、楊帆、王錚 深圳市騰訊計算機系統深圳市騰訊計算機系統有限公司有限公司 信雅達科技股份有限公司信雅達科技股份有限公司 姚亮、何峰、謝思發、程序 林路、嵇津湘、李云波 北京楓清科技有限公司北京楓清科技有限公司 吳敏 Graph+AI:大模型浪潮下的圖計算 推推 薦薦 語語 圖計算技術與人工智能,特別是大模型的融合,正在為信息處理和知識表示開辟新的前沿。圖結構能夠有效表達數據的深層關系,圖與大模型的結合顯著提升了大模型的邏輯推理能力,在解決大模型幻覺等問題上展現出強大潛力。本白皮書梳理了這一領域的最新進展,并對其未來的可能性進行了分析討論,為讀者提供了一個前瞻性的理解視角。林學
5、民,歐洲科學院院士、林學民,歐洲科學院院士、IEEE Fellow、上海交通大學講席教授、上海交通大學講席教授 大模型時代,將圖計算與 AI 深度融合有著廣闊的前景和重要的影響。這一白皮書對圖計算與AI 融合的關鍵技術、解決方案和應用案例進行了詳盡的梳理,尤其在與大模型的融合、可信圖計算、科學研究和產業落地等前沿研究和應用方面,做了精彩的闡述。金耀初金耀初,歐洲科學院院士、歐洲科學院院士、IEEE Fellow、西湖大學講席教授西湖大學講席教授 在信息科技迅猛發展的背景下,圖數據和圖應用逐步滲透到各行各業,圖技術與 AI 的結合正在開創全新的可能性。本白皮書系統回顧了圖智能的發展歷程,深入討論
6、了圖的核心技術與應用場景,展現了圖技術在大模型浪潮中的關鍵作用。本白皮書旨在幫助讀者深入理解圖技術的最新進展與未來趨勢,期望為讀者帶來深刻的行業洞察,進一步推動圖智能技術的廣泛應用與落地。金海,金海,SAC/SWG32 圖計算研究組召集人、華中科技大學教授圖計算研究組召集人、華中科技大學教授 在當前科技飛速發展的時代,圖計算與人工智能的結合展現出巨大的潛力與前景。圖計算以其天然適應復雜關系網絡的優勢,為 AI 模型提供了豐富的結構化信息,使得模型不僅能夠理解數據的表層特征,更能洞察其內在關聯。隨著大模型技術的出現,圖+AI 的協同效應必將進一步放大,推動智能系統向更高層次發展。陳文光陳文光,S
7、AC/SWG32 圖計算研究組圖計算研究組聯合召集人、螞蟻集團技術研究院院長聯合召集人、螞蟻集團技術研究院院長/副總裁副總裁 大模型浪潮下的 AI 技術快速發展,對圖計算也產生了深刻的影響。該白皮書從數據、算法、應用三個層面對 Graph+AI 的結合方式進行詳盡的分析,并針對大模型帶來的全新學習范式,提出了圖計算面臨的新問題與挑戰。通過總結以往問題的多種解決方案,并在產業落地與科學研究方面提供大量應用案例,該白皮書將為相關研究者如何發展大模型浪潮下的圖計算提供有效參考。石川石川,北京郵電大學特聘教授、北京郵電大學特聘教授、Gamma Lab 實驗室創始人實驗室創始人 Graph+AI:大模型
8、浪潮下的圖計算 本白皮書以大模型技術為背景,全面介紹了圖技術在數據、模型和應用等方面的發展趨勢。內容涵蓋圖模型的方法論、詳細的技術解決方案以及豐富的實際應用案例,為讀者提供了全景式的圖技術與人工智能融合的深度解析。陳華鈞陳華鈞,浙江大學計算機科學與技術學院教授、浙江大學計算機科學與技術學院教授、OpenKG 牽頭發起人牽頭發起人 圖計算作為刻畫和挖掘萬物復雜關聯關系的核心技術,已經廣泛應用于諸多應用場景。近來大模型的強大的學習和泛化能力為人工智能的發展帶來革命性地影響,如何融合圖計算和最新的AI 技術,已經成為業內共識。本白皮書全面、詳實地介紹了“Graph+AI”的研究進展和未來展望,值得大
9、家研讀與思考。鄒磊鄒磊,北京大學王選計算機研究所教授、圖數據庫北京大學王選計算機研究所教授、圖數據庫 gStore 項目負責人項目負責人 本白皮書深入探討了圖數據與 AI 結合的關鍵技術及其在多領域的應用潛力。內容涵蓋了圖技術在數據挖掘、模型優化和決策增強等方面中的廣泛應用場景,以及豐富的案例與詳盡的解決方案,為研究者和從業人員提供了系統性指導,揭示了圖技術在大模型時代的關鍵價值。張巖峰,張巖峰,東北大學教授、計算機學院副院長東北大學教授、計算機學院副院長 從事圖技術領域多年,我們見證了圖技術從學術研究到實際應用的飛速發展,本白皮書正是這一領域最新進展的全面展示和深入探討。本白皮書緊密結合當前
10、 AI 大模型的浪潮,詳細闡述了圖技術與數據、算力、模型等多個關鍵技術的結合,無疑是所有對圖技術感興趣的讀者的一本寶貴指南。葉小萌葉小萌,杭州杭州歐若數網科技有限公司歐若數網科技有限公司創始人創始人 人工智能浪潮勢不可擋,圖技術和 AI 的結合將帶來新的機遇。本白皮書詳細分享了圖模型的建設方案和應用案例,是對 AI 大模型時代圖技術發展路徑的一次全面綜述。期待本白皮書為每一位讀者帶來具有前瞻性和全局觀的產業洞察分析,加速推動圖智能的行業應用落地。張晨張晨,浙江創鄰科技有限公司創始人浙江創鄰科技有限公司創始人 Graph+AI:大模型浪潮下的圖計算 序序 言言 在數字化時代的浪潮中,圖計算與人工
11、智能這兩項前沿技術在各自的發展與演變中逐漸交織,形成了一幅生動的科技藍圖。圖計算作為處理復雜關系網絡的一種高效工具和計算模式,其起源可以追溯到 18 世紀數學家歐拉提出的“七橋問題”。在 20 世紀 60 年代計算機科學發展的早期階段,圖計算就被應用于網絡流優化、最短路徑尋找等經典問題,為后續的數據挖掘、知識表示等領域提供了基礎。隨著大數據和互聯網的迅猛發展,圖計算在社交網絡分析、金融風險控制、推薦系統、生物信息學等多個領域展現出了強大的潛力和應用價值。同時,人工智能的發展也在不斷演變。從 70 年代的專家系統、80 年代的機器學習,到近十年來深度學習的崛起,人工智能技術已經滲透至社會生活的方
12、方面面。尤其是在自然語言處理、計算機視覺等領域,深度學習模型所取得的突破性進展,極大加速了人工智能技術的普及與商業化進程。盡管如此,傳統的人工智能方法在處理非結構化或高度互聯的數據時仍顯不足。正是在這種背景下,圖計算與人工智能的融合成為了必然趨勢。在圖神經網絡出現之前,研究者們已經探索了多種將圖計算與人工智能相結合的方法,包括圖嵌入技術、概率圖模型、圖核方法等。圖神經網絡的出現,標志著圖計算與人工智能開始深度結合。圖神經網絡通過在圖結構上進行信息傳播和聚合,實現了對圖數據的高效建模和特征提取。這種結合不僅提升了人工智能模型在處理圖數據時的表現,也解鎖了圖計算技術在智能化應用中的巨大潛能。近年來
13、,大規模預訓練模型的興起再次引領了人工智能技術的革命。這些模型憑借其卓越的理解和生成能力,展示了向通用人工智能邁進的可能性與“曙光”。同樣的,大模型的出現也為圖計算與人工智能的結合帶來了新的機遇和挑戰,比如,大模型的訓練通常需要數量龐大且多樣化的數據,圖計算在捕捉數據深層次關系方面的能力為這一問題提供了潛在解決方案。而如何構建圖基礎模型以獲得類似大語言模型的涌現能力和強泛化能力則是新的挑戰。在大模型的浪潮之下,如何巧妙地整合圖計算和人工智能的優勢,進一步深化二者的融合,并開拓更廣闊的應用前景,已經成為當前學術界和產業界共同關注的焦點。本白皮書旨在全面解析圖計算與人工智能(尤其是大模型技術)的交
14、互現狀,探討其背后的原理、面臨的問題與挑戰、關鍵技術以及成功實踐。希望通過本白皮書的系統梳理和案例闡述,激發更多關于圖與人工智能融合創新的思考與探索,為相關領域的研究和應用提供有益的參考和啟示,共同迎接一個充滿無限可能的圖智能未來。Graph+AI:大模型浪潮下的圖計算 目目 錄錄 第第 1 章章 背景背景.1 第第 2 章章 問題與挑戰問題與挑戰.3 第第 3 章章 關鍵技術關鍵技術.6 3.1 圖數據處理.6 3.2 圖神經網絡.8 3.3 圖基礎模型.18 3.4 知識圖譜工程.21 3.5 圖應用.38 第第 4 章章 解決方案解決方案.75 4.1 基于圖數據庫+AI的申請反欺詐解決
15、方案.75 4.2 基于關聯分析的企業決策智能化解決方案.77 4.3 基于圖算法分析的安全風控解決方案.78 4.4 圖異常檢測智能化解決方案.80 4.5 Graph驅動的檢索增強生成技術解決方案.81 4.6 面向專業領域的知識增強生成(KAG)解決方案.84 4.7 中英雙語大模型知識抽取框架 OneKE.94 第第 5 章章 應用案例應用案例.99 5.1 產業落地.99 5.2 科學研究.115 第第 6 章章 總結與展望總結與展望.135 參考文獻參考文獻.137 Graph+AI:大模型浪潮下的圖計算 1 第第 1 章章 背景背景 自 20 世紀中葉人工智能(Artificia
16、l Intelligence,AI)概念提出以來,該領域的發展幾經跌宕起伏。隨著大數據領域的技術持續突破以及硬件算力的不斷提升,以神經網絡理論為基礎的深度學習技術也逐步從“寒冬”走向各行各業。尤其是隨著大模型(Large Language Model,LLM)技術的興起,AI技術正帶著人類社會邁入下一個紀元。圖(Graph)計算領域也擁有著悠久的歷史,最早可以追溯到 18 世紀數學家歐拉提出的“七橋問題”。伴隨著大數據時代數據規模的急劇擴張以及數據關聯分析復雜度的提升,圖計算技術也迎來了飛速發展,并廣泛地應用到社交網絡、推薦系統、金融風控、生物信息等領域。圖數據模型在描述復雜數據關聯關系以及計
17、算可解釋性上有著天然優勢,將圖計算技術與 AI技術相結合,并從中發掘出新的技術方向和應用場景,是非常有價值的研究課題。數據層面,傳統的機器學習方法對歐幾里得數據有著較好的處理,但在非歐幾里得數據上性能不佳,在模態與模型的適配上存在問題。因而我們需要針對性的設計合理的數據形式及處理模型?;趫D論的圖計算建模方法處理非歐幾何數據是合理且自然的,其以節點表示實體,將實體與其特征一一對應,以邊表示關系,將實體間的關系顯式表示出來。知識圖譜(Knowledge Graph)則進一步在圖數據上層構建了語義網絡,將復雜關系建模為有標簽的有向圖,以表示事物之間的復雜關系。算法層面,隨著深度神經網絡的迅猛發展,
18、以圖神經網絡(Graph Neural Network,GNN)、圖表示學習為代表的方法為機器學習領域帶來了新的進展。眾多學者嘗試將深度神經網絡進行合理的改造以適應圖的特殊結構,借助其強大的模型性能挖掘更深層次的信息,減少參數量并提高泛化能力。受到大語言模型的啟發,圖基礎模型通過預訓練和適應性方法提升模型在各種任務中的表達能力和泛化能力。通過在廣泛的圖數據上進行預訓練,圖基礎模型能夠適應多種下游圖任務并具備兩種核心能力:涌現和同質泛化。涌現能力意味著當模型參數足夠多時,會出現新的功能。同質泛化能力表明模型具有通用性,能夠適應多種圖任務和不同領域的應用。與語言基礎模型相比,圖基礎模型在數據和任務
19、上存在顯著差異。圖數據的通用性和多樣性使得開發一個“通用圖模型”具有挑戰。應用層面,以 LLM 為核心,結合圖計算的技術方案和應用場景也在如火如荼的發展,包括但不 限 于知 識圖 譜、自然 語 言轉 圖查 詢(Text2GQL)、圖 系統 優化、圖 檢索 增強 生成(GraphRAG),以及結合圖技術的智能體(Agent)系統等。知識圖譜的概念最早源自語義網的研究,目的是讓計算機理解互聯網中信息的語義,經過多年的發展,知識圖譜已經廣泛應用于醫療、金融、電商等領域。在實際應用中,知識圖譜常用于存儲領域知識,包括領域應用中的重要概念以及概念之間的上下位關系。Graph+AI:大模型浪潮下的圖計算
20、2 構建好的領域知識圖譜可以服務于各種任務,幫助算法更好地挖掘數據中的隱形關系,實現更智能的推理和決策。Text2GQL 是一種將自然語言查詢轉換為圖查詢語言(GQL)的技術,旨在幫助開發者和非技術用戶更便捷地從圖數據庫中獲取所需數據。通過理解用戶的自然語言輸入,Text2GQL能夠自動生成相應的GQL查詢語句,可以簡化數據檢索的過程,提高效率和準確性。圖系統優化是構建工業級的圖計算系統過程中需要持續解決的問題,結合 LLM 的優勢,可以實現更高效的數據處理和分析、更深入的語義理解、更高效的信息檢索和個性化交互等,為各種應用場景提供更有價值的洞察和決策支持。GraphRAG 在 RAG 的基礎
21、上進行了改進,引入了圖結構來構建知識庫,并利用圖中節點和邊的關系來改進信息檢索和生成,從而能夠捕捉和處理復雜的關系和事務關聯,提供更準確、更全面的問答結果。KAG 充分融合知識圖譜的符號決策和 RAG 的向量檢索的優勢,通過知識對齊進一步克服GraphRAG信息抽取引入的噪聲問題,參考 DIKW知識分層架構構建了知識與 Chunk互索引結構,在推理問答階段使用符號邏輯引導的推理和檢索有效平衡了復雜決策和信息檢索。Agent 將 LLM 與現實世界打通,讓 LLM 具備類人的自主工作能力,通過圖計算技術可以進一步改進智能體的記憶、思考、規劃以及行動能力,同時利用多智能體技術,可以進一步改進圖應用
22、場景的解決方案生成,為圖計算業務帶來更多的價值和可能??偟膩砜?,圖計算技術與 AI 技術的結合是一個相互增強的過程。圖計算的關聯分析性能優勢和計算可解釋性可以促進 AI 領域的數據質量提升、訓練推理加速,以及降低模型幻覺。AI 技術,尤其是大模型技術,可以輔助圖計算系統持續的性能改進,降低圖計算產品的使用門檻。Graph+AI:大模型浪潮下的圖計算 3 第第 2 章章 問題與挑戰問題與挑戰 AI 技術使得我們能夠更好地處理復雜的圖數據,推動了社交網絡分析、推薦系統和生物信息學等領域的發展。盡管圖計算技術和 AI 技術結合已經取得了顯著的進展,但依然面臨著諸多的挑戰。隨著大規模技術的崛起,圖技術
23、與大模型的結合有望成為解決這些挑戰的重要途徑。大模型為圖數據的處理和分析提供了新的方法和視角,推動了知識圖譜、圖神經網絡等領域的創新,但同時也帶來了新的問題和挑戰。圖數據圖數據 圖數據的收集、存儲和使用面臨顯著挑戰。首先,圖數據在收集過程中容易受到噪音的影響,這些噪音會沿著邊傳播,導致更大的危害。動態圖和異質圖增加了時間維度和節點、邊的種類,使得存儲和計算要求更高。圖數據不僅需要存儲節點的特征和標簽,還需要存儲邊及其標簽,這使得圖的存儲更占空間。此外,圖數據的標注成本高,標注數據相對較少,進一步增加了處理難度。單一節點特征的信息密度高,處理難度較大,而多模態數據的統一處理也面臨巨大挑戰。圖數據
24、的復雜網絡結構和多樣性導致任務需求不同,模型需要關注的信息粒度也不同。傳統的數據增強方法不適用于圖數據,需要針對圖數據的特征、結構、標簽進行分別增強。圖數據的長尾效應導致度數較高的樞紐節點容易被蓄意破壞,造成較大危害。全圖的存儲和計算不可行,需要平衡采樣大小與計算成本,針對不同特性及任務需求采取不同的采樣方法才能高效計算。針對這些問題,研究者們提出了多種解決方案。例如,針對動態圖的構建需要有效捕捉節點和邊的時間變化的問題,研究者們提出了包括基于增量式構建的圖流算法的多種動態圖數據集構建方法。圖數據增強面臨的挑戰促使研究人員開發專門針對圖數據的增強技術,圖結構學習就是其中一種重要的方法。為了避免
25、在全圖上進行計算,研究者們發明了多種采樣技術,包括隨機游走采樣、鄰域采樣、聚合采樣等等。圖神經網絡圖神經網絡 圖神經網絡為圖分析提供了一個有效的解決方案,然而,它們在實際應用中仍面臨一些關鍵的挑戰。例如,大規模圖計算在性能方面存在顯著不足,采樣方法尚未統一,處理大規模圖數據需要更高效的算法。圖數據種類繁多,包括同質圖、異質圖模型存在本質區別,動態圖和文本圖帶來了額外的信息處理需求,這使得模型之間的遷移和泛化能力面臨嚴峻挑戰。節點分類的不平衡問題難以解決,采用欠采樣和過采樣的方法獲得的樣本在連邊上不夠真實,嚴重影響了模型的性能。圖神經網絡的可解釋性較差,繼承了神經網絡的非線性特性,加之其自身復雜
26、的結構信息,使得預測結果更加難以解釋。此外,圖神經網絡中的節點信息會進行傳遞和迭代,導致梯度比其他神經網絡更容易爆炸。這些挑戰表明,圖神經網絡在處理復雜結構化數據時仍需進一步優化和提升。為了提高大規模圖數據的訓練和推理,通常需要分布式或/和 CPU-GPU異構架構下的訓練推Graph+AI:大模型浪潮下的圖計算 4 理方法。為了提升圖神經網絡的可信性,研究者們對圖神經網絡的魯棒性、公平性以及分布外泛性等多個方面進行了深入的研究。圖基礎模型圖基礎模型 圖基礎模型的發展也面臨諸多問題和挑戰。首先,大規模圖數據不易獲取,圖數據集的規模和多樣性不足以支持大圖模型的訓練。其次,圖任務類型多樣化,節點級、
27、邊級和圖級任務的差異性增加了模型設計的復雜性。安全與隱私問題也是一個重要挑戰,圖基礎模型可能面臨與大語言模型類似的安全問題,如生成幻覺和隱私風險。提高模型的可信度和透明度,保護隱私是亟待解決的問題。目前,圖基礎模型缺乏統一的范式,尚未展現出涌現能力和強泛化能力。鑒于大語言模型在自然語言處理中的成功應用,探討圖基礎模型如何獲取大語言模型的涌現和強泛化能力成為一個重要的研究方向。知識圖譜知識圖譜 以大語言模型為代表的大模型展現了很好的自然語言理解泛化能力,并且被公認掌握了一定的世界知識,這些知識以參數化的形式存儲于模型的參數中,并在推理過程中得到應用。大模型給知識圖譜技術的發展帶來了機遇,也帶來了
28、新的問題和挑戰。首先,從知識圖譜構建的角度來看,大語言模型的語言理解能力是否能夠降低知識圖譜的構建成本,并提升其規模和質量,使得知識圖譜的發展進入一個新的階段,這是一個值得深入研究的問題。其次,大模型是一種參數化的知識表示和推理技術方案,而知識圖譜是一種符號化的知識表示和推理技術方案。在大模型出現之后,如何從知識表示和推理的角度進行協作?哪些知識應該存儲于大模型中,哪些知識應該存儲于知識圖譜中,這些都是需要解決的重要問題。大模型具有很強的任務泛化能力,可以完成許多任務,在大模型時代背景下,如何提升知識圖譜技術的泛化性,以便更好地與大模型配合并保留其強大的任務泛化能力,也是一個關鍵挑戰??偟膩碚f
29、,大模型的出現為知識圖譜的構建、推理和服務帶來了新的視角,有望促使知識圖譜技術在未來實現重大突破,與大模型結合,完成大模型時代之前難以實現的任務和目標。圖應用圖應用 首先,自然語言轉圖查詢(Text2GQL)面臨著諸多挑戰。相比于相對成熟的 SQL 語法標準,圖查詢語言標準(ISO/GQL)尚未全面普及,目前存在多種查詢語法并存的狀態(如 GQL、PGQ、Cypher、Gremlin、GSQL 等),導致圖數據庫的使用門檻較高。Text2GQL 研究方向發展較晚,面臨幾個主要困難:缺乏海量數據集,鮮有公開的 Text2GQL數據集;缺乏如 Spider 數據集那樣的評測標準和對應的評測數據;由
30、于數據集和評測標準的欠缺,各種大模型微調方法的效果難以在Text2GQL 領域得到驗證??上驳氖?,在科研工作者不斷的探索之下,Text2GQL 已取得到了不錯的進展,在數據集方面提出了通過語法制導的生成語料方法,并構建了對應的評測數據,在大模型微調方面,也發展出了多種技術。Graph+AI:大模型浪潮下的圖計算 5 圖系統優化方面,盡管圖計算系統在關聯性數據分析性能上有天然優勢,但在系統的成熟度、計算存儲性能、運維自動化、產品安全性和使用門檻上,仍有巨大改進空間。已有大量的研究將圖系統與 AI、LLM 相結合,這樣可以充分發揮三者的優勢,實現更高效的數據處理和分析,為各種應用場景提供更有價值的
31、洞察和決策支持。近年來,大規模語言模型在自然語言處理領域取得了顯著進展,提升了許多應用場景的智能水平。然而,它們在處理涉及專業領域時仍面臨巨大挑戰,如生成幻覺、缺乏專業領域知識、信息時效性不足、計算成本高、缺乏可解釋性等問題。業界通過檢索增強生成(RAG)技術對此做了一定優化,但是通用的 RAG 方法在處理文本分割與索引時無法滿足商業場景下的復雜需求,如數據分塊(Chunking)的粗粒度方式天然會導致分散的知識丟失,信息間跨相鄰分布的關系上下文因為分割而消失,基于字面語義、通識的嵌入(Embedding)易造成誤解等,因此,需要一種更精煉、準確、高效、靈活的知識獲取方式,如 GraphRAG
32、。在智能體方面,盡管大語言模型已經具備了一定的思考與決策能力,但要實現與現實世界的交互,具備類人的自主工作能力,還需要大量工作,包括角色設定、記憶、思考規劃以及行動等。通過工作流編排單智能體的行為是當前主流的實踐手段,但依賴于人工進行的工作流編排,對用戶的專家經驗有較高的要求。另外,單智能體在處理復雜任務時效果不盡如人意,而采用多個智能體協同工作的策略雖能提高效率,卻也帶來了系統復雜性和控制難度的增加。目前,設計高效的多智能體系統尚缺乏堅實的理論基礎和成熟的應用實例,不過圖計算技術可能為這一挑戰提供解決方案。圖技術與 AI 技術,尤其是大模型的結合,為信息處理和知識管理開辟了新的路徑。盡管面臨
33、多重挑戰,圖技術在大模型時代背景下有望實現重大突破。通過不斷優化和創新,圖技術和 AI 技術的協同發展將推動更多復雜任務的實現,為各領域帶來深遠影響。在未來,圖技術與 AI 技術的深度融合將進一步提升圖數據處理的效率和效果,推動各行業的智能化和數據驅動發展。Graph+AI:大模型浪潮下的圖計算 6 第第 3 章章 關鍵技術關鍵技術 3.1 圖數據處理圖數據處理 3.1.1 圖數據構建圖數據構建 在現實世界中,圖數據可以用來描述不同領域的關系結構,包括社會科學、化學、生物學等。圖數據構建是圖計算的關鍵步驟,其任務是將復雜的現實世界關系建模為計算機可處理的數據結構,這一過程涉及對節點、邊以及其屬
34、性的合理抽象和表示15。節點通常表示圖中所描述的對象或實體,邊則表示這些對象之間的關系或交互,以社交圖為例,節點表示人,邊表示社交關系。節點和邊通常附帶有特定的屬性信息,例如在社交圖中,人作為節點,其屬性可能包括年齡、職業等;而在分子圖中,邊可能表示化學鍵,并包含單鍵、雙鍵等屬性信息。節點和邊的屬性為圖模型提供了上下文信息,使算法在計算節點或邊的表示時能結合更多維度的數據,通過對這些屬性信息的充分利用,圖計算可以更好地刻畫出節點及其關系的本質特征,從而提升模型在節點分類、鏈路預測等任務中的性能16。圖 3.1 不同領域圖數據的構建53,54,55 圖數據構建主要包含數據采集與預處理、節點與邊的
35、信息抽取、數據存儲與轉換這幾個關鍵步驟。1)首先,需要從現實世界中收集合適的數據,這些數據可以來源于數據庫、傳感器等多種途徑。由于收集到的數據包含噪聲、不完整或冗余的信息,因此通常需要清洗和過濾,從而保證數據的質量。2)在節點與邊的信息抽取階段,需要將數據中的實體和關系映射為節點和邊,并提取保存節點和邊的屬性信息,必要時還需要對邊進行加權處理,以反映關系的重要性或強度。3)構建好圖數據后,通常會將其存儲為標準的圖數據格式,例如鄰接矩陣或邊列表。在實際應用中的交互系統非常復雜,因此圖數據的構建面臨著多重挑戰。例如,即使經過預處理,圖數據中仍可能包含難以識別和處理的噪聲。為了解決這一問題,研究者提
36、出了基于統計特性的噪聲檢測和清洗方法,如圖數據去噪中的圖平滑技術和魯棒圖建模算法47,這些方法可以Graph+AI:大模型浪潮下的圖計算 7 通過檢測異常的節點和邊來移除噪聲,從而提高圖數據的質量。此外,許多應用中的數據往往是動態變化的,因此動態圖的構建需要有效捕捉節點和邊的時間變化。針對這一問題,研究者們提出了多種動態圖數據集構建方法,如基于增量式構建的圖流算法(Graph Stream Algorithms),它能夠在數據更新時動態地調整圖結構48。同時,時間維度的建模方法(如基于時序的圖數據生成技術)49,能夠將時間信息整合到圖數據集中,以捕捉節點和邊隨時間變化的特性。在復雜系統中,圖數
37、據往往由多種類型的節點和邊構成,形成異質圖。異質圖的構建與存儲挑戰更大,因為需要合理地抽象和建模不同類型的關系。為應對這一挑戰,當前提出了異質圖數據集構建框架,如 HIN-Mine50,它通過對不同類型節點和邊的特征提取和語義關系建模,有效構建和存儲異質圖數據集。通過這些解決方案,圖數據集構建能夠更加準確地處理現實世界的復雜數據,確保生成的圖數據能夠有效支持后續的圖計算任務。此外,現實世界的數據常具有多模態特性,例如網頁數據可能同時包含文本、圖像、視頻和音頻等。為了綜合考慮不同模態中的豐富信息,可以通過圖建模的方式進行有效地整合,從而幫助挖掘多模態數據間的復雜關聯信息。在多模態圖學習中60,首
38、先需要對多模態數據進行異質圖建模,將各模態的數據視為不同類型的節點,并根據數據點之間的關聯關系構建節點間的邊。例如,對于一個包含文本、圖像、視頻和音頻的網頁數據,可以為每種模態構建對應類型的節點:文本節點、圖像節點、視頻節點和音頻節點;不同模態數據間的關聯通過邊來表示,例如一段文本對應一張圖片時,在文本節點和圖像節點之間添加一條邊;如果兩段文本存在關聯,也可在相應的文本節點之間添加邊。與傳統多模態學習方法多聚焦于兩種模態的關系不同,圖建模能夠靈活地處理多種模態數據,能有效避免訓練中對某一模態的過度關注或忽視??紤]到多模態數據的復雜特性,如時序動態性等,如何對這些特性進行有效建模,在確保模態信息
39、完整和關聯關系精準捕捉的前提下,使其在各種變化中具有更好的魯棒性和持續學習能力,也是未來多模態圖數據構建的重要研究課題。3.1.2 圖數據增強圖數據增強 圖數據增強是一種通過生成、修改數據來擴展現有訓練數據的技術,旨在提升圖計算的性能17,61。與圖像或文本數據的增強不同,圖數據的結構是非歐幾里得的,因此傳統的數據增強操作,如裁剪或翻轉,不能直接應用于圖數據。這使得圖數據增強面臨更多挑戰,并促使研究人員開發專門針對圖數據的增強技術。根據增強對象的不同,圖數據增強可分為結構增強、特征增強和標簽增強。結構增強通過添加、刪除圖中的節點或邊來改變圖結構,從而生成新的圖數據。例如,DropEdge 通過
40、隨機移除部分邊來增強現有數據集,從而緩解圖神經網絡的過平滑問題19。特征增強則通過隨機掩碼或添加擾動等方式修改節點特征。標簽增強在訓練數據的基礎上生成新標簽,如混合不同類的圖數據并為新生成的數據分配新的標簽。根據增強方法是否需要學習,又可分為基于規則的增強方法和可Graph+AI:大模型浪潮下的圖計算 8 學習的增強方法?;谝巹t的數據增強通過預定義規則來修改圖數據,無需學習任何參數,其優點在于實現簡單且效率高;可學習的數據增強通過學習優化圖結構或特征來生成增強數據,其通常通過模型訓練迭代優化圖數據結構,并在增強過程中不斷改進20。圖數據增強技術可以應用于有監督學習和自監督學習場景。在監督學習
41、中,數據增強主要用于緩解模型的過擬合現象,提升模型的泛化能力;在自監督學習的對比學習等框架中,圖數據增強可以用于生成正負樣本,通過拉近與正樣本的距離、最大化與負樣本的差距來訓練模型??偟膩碚f,圖數據增強技術在不增加額外標注成本的前提下,生成更多訓練數據或提升圖數據質量,從而有效提高了圖計算的性能和魯棒性。3.1.3 圖采樣圖采樣 由于圖通常包含大量節點和邊,直接在全圖上進行計算可能會帶來巨大的時間和空間開銷,因此采樣技術成為了圖計算中的關鍵技術。圖采樣通過選擇部分節點或子圖,構造能夠代表原始圖全局或局部特征的子集,確保在減少計算成本的同時,依然能夠得到有效的學習效果。常見的圖采樣方法有隨機游走
42、采樣、鄰域采樣和聚合采樣等。隨機游走從一個節點出發,隨機選擇相鄰節點進行訪問,從而有效保留圖的局部結構信息,能夠靈活捕捉圖的不同模式21;鄰域采樣從節點鄰居中隨機采樣一部分節點,然后對這些節點的特征進行聚合計算18,能夠減輕全圖計算的壓力,并且通過采樣保持了圖的局部結構信息;層次聚合采樣是對圖的多個層次結構進行抽象和采樣,使得每個層次都保留原圖的關鍵信息,能夠在保持全局圖結構的同時有效減少冗余計算,從而在大規模圖上表現出良好的性能。這些方法通過不同的策略提取圖的局部結構信息,從而有效捕捉圖的全局特征。圖采樣需要考慮如何平衡樣本大小和計算開銷之間的關系。此外,在實際應用中,圖的不同特性和任務需求
43、可能需要不同的采樣策略,選擇適當的采樣策略,才能在實現高效的同時保證圖計算的性能。3.2 圖神經網絡圖神經網絡 3.2.1 圖神經網絡圖神經網絡 圖作為一種非歐幾里得數據結構,具有強大的表達能力。隨著圖在各個領域的應用越來越廣泛,對利用機器學習分析圖的需求也日益增長。傳統的機器學習方法在處理圖數據時往往依賴于手工設計的特征,這不僅增加了數據處理成本,也限制了模型的靈活性。GNN 的出現為圖分析提供了一個有效的解決方案,通過深度學習的方法自動學習圖的結構特征,從而提高了模型的性能和泛化能力。Graph+AI:大模型浪潮下的圖計算 9 圖表示學習方法的興起,特別是 DeepWalk、Node2Ve
44、c 和 LINE 等,為 GNN 的發展提供了基礎62 63 64。這些方法通過學習低維向量表示,捕捉了圖中的結構信息。但是其更多地依賴于隨機游走或預定義的采樣策略,這可能無法充分利用圖的局部和全局結構信息。CNN 在圖像領域內取得了不錯的成就,但它們的通用性受到限制。圖像數據等歐式數據可以認為是圖數據的一個特例,如何將圖像領域的成果遷移到更復雜的圖網絡也越來越受到了人們的關注,但是將深度神經模型擴展到非歐數據上很難定義局部卷積過濾器和池化算子,這阻礙了從歐幾里得域到非歐幾里得域的 CNNs 的轉化65。本節依次介紹圖神經網絡類幾種經典的卷積、池化算子并簡要概述圖神經網絡的前沿相關的開放問題,
45、展望未來圖神經網絡的發展。3.2.1.1 卷積算子卷積算子 圖神經網絡的卷積算子根據操作域和圖結構類型可分為頻域(或稱為譜域)和空間域卷積,以及同質和異質卷積。頻域卷積利用圖拉普拉斯矩陣的特征分解在譜域上定義濾波器,以捕捉圖的全局結構信息,而空間域卷積直接在圖的結構空間中進行局部鄰域的信息聚合65。在同質圖中,所有節點類型相同,卷積算子簡單一致,而在異質圖中,節點類型多樣,卷積算子需要處理不同類型節點間的復雜關系。如下依次介紹幾個比較經典的卷積算子。1、GCNConv GCN(Graph Convolutional Network)是一種經典的譜域的圖卷積算子66,其是基于圖信號處理理論的一種
46、方法。譜域卷積網絡是通過在圖的譜域上進行操作來實現卷積的,類似于傳統卷積網絡中的頻率卷積。在圖上,節點和邊的關系可以用“頻率”來描述,類似于我們用頻率分析聲音或圖片。我們通過圖的拉普拉斯矩陣來計算這些頻率。在頻率空間上卷積,可以理解為用某種“濾鏡”處理圖上的數據,提取出有用的信息。圖的卷積操作就是將圖的信號(節點特征)在頻率空間上進行濾波。但是直接做頻率計算很慢,因此 GCN 使用近似方法來加速。這個近似通過數學方法把復雜的操作簡化為圖上節點和鄰居之間的“信息傳遞”。GCN 的操作可以看作是每一層,節點和它的鄰居交換信息,通過權重矩陣和非線性激活函數來更新節點的特征。2、SAGEConv Gr
47、aphSAGE(Graph Sample And Aggregation)是一種基于 MPNN(Message Passing Neural Networks)架構改進的圖卷積方法,特別適合處理大規模圖67。它的關鍵特點是通過采樣和聚合節點的鄰居來進行特征更新,在大圖中,每個節點可能有成百上千的鄰居,直接使用所有鄰居更新特征代價太大。GraphSAGE 通過隨機采樣每個節點的一部分鄰居,減少計算負擔。每個節點通過它采樣到的鄰居節點進行特征聚合。聚合方式可以有多種,比如求平均(mean)、求和(sum)、最大值(max)等。聚合鄰居特征后,節點會結合自己的特征來更新,類似于將“鄰居的影響”和“自
48、身的信息”一起考慮。GraphSAGE 的設計讓它非常適合在超大圖上使用,因為它只采樣部分鄰居,所以計算量不會隨著圖的大小成比例增加。Graph+AI:大模型浪潮下的圖計算 10 3、GATConv GAT(Graph Attention),圖注意力網絡是通過注意力機制在圖結構數據中進行節點特征更新的68。與其他圖卷積網絡不同,GATConv 通過自適應地為每個鄰居分配權重,重點關注對節點最重要的鄰居,GATConv 引入了注意力機制,允許每個節點賦予不同鄰居不同的重要性。在傳統的 GCN和 GraphSAGE中,節點與所有鄰居的影響通常是均等或固定的(例如通過平均聚合),但在 GAT 中,每
49、個鄰居會被分配一個自適應的權重,反映它們對當前節點的重要程度。節點的特征聚合不再是簡單的平均或求和,而是通過加權求和。每個鄰居的特征都會乘以一個注意力權重,這個權重是通過節點之間的特征相似性計算得到的,每對節點的注意力分數是通過一個可學習的注意力函數計算的,計算出它們的相似度,并用這個相似度作為注意力權重。4、RGCNConv RGCN(Relational Graph Convolution)是圖卷積網絡的一個擴展,專門用來處理異構圖,即圖中的邊有不同的類型或關系69。在 RGCN 中,節點之間的連接不僅僅表示簡單的鄰居關系,還表示不同類型的關系。RGCNConv 通過引入關系類型的概念,幫
50、助網絡處理更加復雜的圖結構數據,特別適合像知識圖譜這樣的場景。在普通的圖卷積網絡中,所有節點的連接邊都是相同的,沒有區分不同的關系類型。而在 RGCN 中,每條邊都表示一種特定的關系類型,例如在知識圖譜中,“人”可以通過“朋友關系”連接到其他“人”,也可以通過“工作關系”連接到一個“公司”。RGCN 通過對不同關系類型分別處理,使得模型能在復雜的異構圖中工作。對于每一種關系類型,RGCN 會為其單獨計算一個卷積操作。這意味著在 RGCN 中,每個節點的特征更新要考慮到所有不同關系類型的影響。與標準的 GCN 類似,RGCN 也是通過鄰居節點的信息來更新每個節點的特征。不同之處在于每個鄰居節點的
51、特征聚合過程要根據關系類型來區分。3.2.1.2 池化算子池化算子 在計算機視覺領域,卷積層通常跟隨一個池化層以獲得更通用的特征。復雜和大規模的圖通常具有重要的分層結構,對于節點級和圖級分類任務非常重要。池化算子主要用于對圖進行下采樣和特征聚合,幫助模型從復雜的圖結構中提取更具全局性的表示。在圖神經網絡中,池化層通過減少節點或邊的數量,對圖進行下采樣。這種降維操作幫助簡化圖結構,降低圖的復雜度,保留重要的子結構,從而使模型能夠在更低維的空間中進行學習,池化層可以通過在圖的不同區域進行聚合,幫助模型從局部信息轉向全局信息。對于大型圖,逐層池化可以使模型獲得更加抽象和全局的圖表示,進而捕捉圖的宏觀
52、結構,提升模型在圖分類等任務中的性能。1、SimplePool SimplePool 通過不同的節點選擇策略直接學習圖級別的表示。在一些變體中,這些模塊也被稱為讀出函數。一些模型使用簡單節點池化方法。在這些模型中,對節點特征進行節點最大值/平均值/求和/注意力等操作,以獲得全局圖表示。Graph+AI:大模型浪潮下的圖計算 11 2、DiffPool DiffPool(Differentiable Pool)是圖神經網絡中的一種經典的分層池化方法,它通過可微分的方式學習圖的層次化結構,從而實現圖的多層級抽象和下采樣70。相比于簡單的池化方法(如最大池化或平均池化),DiffPool 不僅僅是簡
53、單地聚合鄰居節點的特征,而是動態地學習如何將節點聚類到某些超節點上,形成圖的更緊湊表示。DiffPool 的關鍵在于通過神經網絡直接學習圖的層次結構,并且這個結構可以在模型的訓練過程中動態調整。它通過學習一個軟分配矩陣,將圖中的節點映射到若干聚類,然后在每個聚類中進行特征的聚合。DiffPool 能夠自動學習圖中節點之間的聚合關系,從而動態生成更小的圖。它能夠處理具有復雜拓撲結構的圖,而無需事先指定圖的層次信息。通過逐層池化和聚合,DiffPool 可以捕捉到圖的全局結構。每一層都對圖進行下采樣,使得最終的輸出是圖的緊湊、高層次表示,有助于提升圖分類、聚類等任務的性能。對于節點數不固定或結構多
54、樣的圖,DiffPool 提供了靈活的處理方式,通過學習層次結構來適應不同的圖結構,尤其適用于圖分類任務。3、gPool gPool(Graph Pool)是圖神經網絡中的一種經典的分層池化方法,它通過學習節點的重要性得分來選擇節點,并動態地對圖進行下采樣71。gPool 的核心是通過一個可訓練的得分函數來計算每個節點的重要性分數。這個分數用于選擇節點,從而將圖的結構和節點特征壓縮為更簡潔的形式。它不僅可以減小圖的規模,還能保留重要的結構信息,增強圖神經網絡的全局表示能力。gPool 使用一個可訓練的投影向量來計算每個節點的得分。得分通過節點特征與投影向量的內積來計算,用來衡量它的重要性。gP
55、ool 按得分從高到低排序,并選擇得分最高的前 k 個節點。這個 k通常為總節點數的一個固定比例。通過這種方式,gPool 保留得分最高的節點,并丟棄得分較低的節點。4、SAGPool SAGPool(Self-Attention Graph Pool)是一種基于自注意力機制的圖神經網絡池化方法。它通過學習節點的重要性得分來對圖進行下采樣,并保留圖中的關鍵結構。SAGPool的主要貢獻在于,它將圖卷積與自注意力機制相結合,動態選擇圖中的重要節點,從而在降低圖的復雜度的同時,保留圖的全局和局部信息72。SAGPool 利用圖卷積層(GCN)來計算每個節點的重要性得分。通過圖卷積操作,每個節點不僅
56、考慮了自身特征,還聚合了其鄰居節點的信息,從而形成一個全局性的節點表示。SAGPool使用自注意力機制為每個節點分配得分,根據得分的大小對節點進行排序,并選擇得分最高的前 k 節點。k 通常是節點總數的一個比例。這一過程可以通過閾值控制或動態比例來實現,被選擇的節點會形成一個新的子圖,保留的節點的特征和結構將繼續用于后續的網絡層處理。特征矩陣和鄰接矩陣會根據選中的節點進行更新,以僅包含這些關鍵節點及其對應的邊。SAGPool的自注意力機制允許每個節點通過鄰居的特征計算其重要性,這種機制能在池化過程中保Graph+AI:大模型浪潮下的圖計算 12 留全局上下文信息。因此,SAGPool不僅通過圖
57、卷積捕獲局部信息,還通過自注意力機制為每個節點分配權重,增強池化操作的表達能力。5、EdgePool EdgePool 是一種圖神經網絡中基于邊坍縮的經典分層池化方法,它主要通過對邊進行池化來減少圖的復雜性。這種方法在圖的降維過程中不同于傳統的節點池化方法,而是通過學習重要的邊來優化圖結構,從而得到一個精簡但具有重要結構信息的子圖73。EdgePool 的核心在于通過對圖的邊進行池化來實現圖的下采樣。它通過學習每條邊的重要性來選擇保留的邊,從而得到一個更加緊湊的圖表示。相較于節點池化方法,EdgePool 專注于保留圖的關鍵邊,保持圖的結構完整性。EdgePool 使用一個學習到的邊權重來評估
58、每條邊的重要性。這些邊權重可以通過神經網絡計算得到。根據邊的重要性得分,EdgePool按得分從高到低排序,并選擇得分最高的前 k個邊。邊的選擇過程可以通過設置閾值或按比例選擇來實現,在選擇了重要的邊之后,EdgePool 會更新圖的鄰接矩陣,保留這些關鍵邊。更新后的鄰接矩陣僅包含保留的邊的信息。節點的特征矩陣 X 也會保持不變,但圖的結構被簡化為僅包含重要的邊。在更新圖的結構后,EdgePool 會根據保留的邊來重新聚合節點特征。節點的特征通過鄰接矩陣中的邊信息來重新計算。3.2.1.3 展望展望 盡管圖神經網絡(GNN)在各個領域取得了顯著成功,但它們在實際應用中仍面臨一些關鍵挑戰和開放問
59、題。魯棒性:魯棒性:GNN 易受到對抗攻擊,這些攻擊不僅針對節點特征,還涉及圖結構信息。盡管已有一些防御方法被提出,但仍需進一步增強模型的魯棒性,以應對復雜的對抗攻擊??山忉屝裕嚎山忉屝裕篏NN 通常被視為“黑匣子”,缺乏明確的解釋能力。雖然已有少數方法嘗試為GNN 模型提供示例級別的解釋,但在現實應用中,提升 GNN 的可解釋性仍然至關重要。圖預訓練:圖預訓練:類似于計算機視覺和自然語言處理中的預訓練方法,圖數據的自監督學習和預訓練也顯示出潛力。然而,目前在圖預訓練領域仍面臨許多挑戰,如設計有效的預訓練任務和評估現有模型的學習能力。3.2.2 訓練和推理訓練和推理 3.2.2.1 圖神經網絡
60、執行模式圖神經網絡執行模式 圖神經網絡是一種用于處理圖結構數據的深度學習模型,旨在同時捕捉拓撲信息和特征信息。圖神經網絡通過堆疊多個圖廣播層為圖中的每個節點生成一個包含聚合鄰居信息和特征信息的嵌入表示。具體來說,每一層的計算模式可以被抽象成四個計算步驟81 82 83:ScatterToEdge,Graph+AI:大模型浪潮下的圖計算 13 EdgeForward,Gather&Aggregate,Vertex Forward。下圖是一個單層計算模式的示例(以節點 2 為例)。圖 3.2 圖神經網絡計算過程 ScatterToEdge 是一個邊消息生成操作,用于將源節點和目的節點的表示向量(屬
61、性向量)發送到邊上用于參數化的神經網絡計算;EdgeForward 是一個定義在邊上的神經網絡計算,通過合并源節點和目的節點的表示來計算邊上輸出消息;Gather&Aggregate 是一個聚合計算,用以接收邊上的信息并進行聚合(如求和、平均等)以更新自身表示 VertexForward 是一個定義在節點上的神經網絡計算,通過神經網絡來更新聚合的信息節點表示。新的節點表示再進入下一層執行計算。通過堆疊多個圖廣播層可以構建一個深層的圖神經網絡任務以擴大節點聚合信息的范圍。最終,經過多層計算得到的節點嵌入可以用于下游計算任務,例如節點分類,圖分類等。根據運行環境和應用場景,GNN的訓練和推理可以分
62、為單機 GNN 和分布式 GNN。單機 GNN 的訓練和推理是指在單個計算節點上完成 GNN 模型的訓練和推理,適用于數據規模相對較小或計算資源較為有限的場景。它具有實現簡單、易于調試的優點,但在處理大規模圖數據時會面臨計算瓶頸和內存限制的問題。分布式 GNN 的訓練和推理則通過將計算任務劃分到多個計算節點上進行并行處理,以應對大規模圖數據和復雜的模型訓練。分布式 GNN 能夠顯著提升計算效率和模型性能,但其實現相對復雜,需考慮計算節點之間的數據傳輸和同步問題??傮w而言,選擇使用單機或分布式 GNN 取決于具體的應用需求和計算資源的可用性。3.2.2.2 CPU-GPU 異構架構下的訓練推理異
63、構架構下的訓練推理 在 CPU-GPU 異構框架下的訓練和推理中,全圖訓練與微批量訓練有著不同的挑戰。全圖訓練指的是使用數據集中全部節點的全部鄰居執行 GNN 訓練;而微批量訓練只針對部分有訓練標簽的節點,對它們執行采樣算法,即只使用部分鄰居進行 GNN訓練。全圖訓練中,內存資源是首要限制。有限的 GPU 內存可能無法一次性加載整個大圖。NeutronStar84使用分塊的技術,將大圖分為多個子圖,在訓練過程中逐塊加載到 GPU進行訓練。然而,全圖訓練使用全鄰居聚合范式以及全局梯度下降算法,子圖之間的共同鄰居需要被頻繁傳輸,并且子圖訓練產生的中間結果需要持續累積,直到反向傳播階段才能釋放。因此
64、,ROC85提Graph+AI:大模型浪潮下的圖計算 14 出將中間數據從 GPU 傳回 CPU,但這嚴重增加了傳輸量。HongTu86使用了重計算技術通過重新計算代替存儲(傳輸),并且通過緩存鄰居減少了頻繁的信息傳輸。微批量訓練中,采樣-聚合-訓練的范式已經成為廣泛應用的策略。該范式將訓練過程分解為三個獨立的步驟:圖采樣、特征提取和訓練,并將這些步驟部署在不同的計算設備上,以實現高效的計算性能。異構環境下的 GNN訓練包括以下方法:第一,CPU 采樣、特征提取,GPU訓練。這種方法引入了顯著的內存訪問開銷。第二,將采樣、提取放置在 GPU 執行,CPU 僅負責存儲全圖的特征。這種方法仍然存在
65、頻繁的數據傳輸。此外,為了提高大規模圖數據的訓練效率,CPU-GPU 之間的數據傳輸,緩存以及流水線并行等策略被頻繁應用。數據傳輸是指數據在 CPU和 GPU之間的交換,主要通過 PCIe或 NVLink等高速總線完成。通常,圖數據和節點特征存儲在 CPU 的內存中,訓練時,CPU 將需要的數據傳輸到 GPU。這包括采樣后的子圖結構和相應的節點特征。在這個過程中,通信的效率直接影響系統的整體性能。因此,一些優化傳輸的策略如下:第一,將頻繁使用的節點特征緩存到 GPU 內存中,避免重復傳輸數據。第二,將較簡單的任務(如采樣)放在 CPU 執行,而將計算量大的任務放在 GPU 執行,以此均衡兩者的
66、負載,減少資源爭用問題。緩存技術指的是將頻繁訪問的節點特征、鄰接關系或嵌入預先存儲在 GPU 內存中,以減少頻繁的 CPU-GPU 數據傳輸,有效減少了 CPU-GPU 之間的通信負擔,從而提升性能。例如,NeutronOrch87通過熱度感知的嵌入重用技術可以識別訓練中頻繁訪問的“熱節點”,并將這些頂點的嵌入數據預先存儲在 GPU 中,從而提高訓練效率。DUCATI29不僅緩存節點特征,還緩存一部分常用的圖拓撲進一步提高采樣、訓練的效率。流水線技術是指異構設備并行處理不同的任務。在分批次訓練時,數據通常是逐批加載的,緩存部分子圖或節點特征到 GPU 有助于加快每批次的處理速度。為了進一步優化
67、,NeutronOrch1通過超批次流水線技術將多個批次組合在一起,讓 GPU 和 CPU 任務并行執行,以減少空閑等待時間。3.2.2.3 分布式訓練推理分布式訓練推理 在分布式圖神經網絡系統訓練和推理中,為了提高大規模圖數據的訓練效率,通常需要結合多種策略來優化計算和通信性能。這些策略主要包括并行加速、圖劃分、通信優化和迭代加速等方法,它們從不同的角度解決分布式環境下的計算負載、通信開銷和模型收斂性問題。并行加速策略主要包括流水線并行88、數據并行89和張量并行90。流水線并行將模型按層劃分,不同設備同時處理不同批次不同層的數據并更新各自的參數;數據并行則將數據劃分給多個設備,每個設備擁有
68、完整的模型副本,獨立進行前向和反向傳播后匯總梯度更新模型;張量Graph+AI:大模型浪潮下的圖計算 15 并行通過將節點特征或嵌入按維度切分到多個設備,每個設備處理一部分張量并同步必要信息,最終匯總梯度完成模型更新。圖劃分策略則包括哈希、Metis91、Metis-extend 和流式劃分四種方法。哈希劃分通過隨機映射頂點以平衡負載,但未考慮圖神經網絡的 L 跳鄰居關系,通信負載較重;Metis 通過最小化割邊將圖劃分為大小相等的子圖,并盡可能減少子圖之間連邊,從而減少通信;Metis-extend 進一步優化了 Metis 算法,使用聚類算法和額外約束,確保子圖中的鄰居集中同時也平衡不同子
69、圖的節點和邊的數量;流式劃分則采用動態策略,雖然其優先考慮減少子圖間連邊從而減少通信開銷,但未能充分考慮圖的密度和 L跳鄰居的分布,可能導致計算和通信負載不平衡。通信優化算法旨在通過提升通信效率來改善訓練性能,分為無損和有損兩類。無損通信優化通過優先級緩存92和部分緩存93等技術對節點特征數據進行緩存,顯著提高了數據緩存利用率和傳輸效率,并確保模型的準確性不受影響。有損通信優化則通過邊界節點的隨機采樣、選擇性丟棄部分節點數據94以及對通信數據進行量化95,減少了傳輸數據量,不過也降低了數據的精度。盡管有損策略引入了精度損失,但適度的削減在保證模型性能的同時,有效縮短了訓練時間,顯著加速了整個訓
70、練過程。迭代加速策略通過同步異步混合模式優化訓練效率與模型準確性之間的平衡。該模式結合了同步和異步機制,適應不同的網絡和計算需求,提升訓練性能。陳舊的同步并行(SSP,Stale Synchronous Parallel)中的有界陳舊性允許異步訓練96,并在固定迭代次數后進行同步更新。這樣既能利用異步訓練的高效率,又能通過定期同步保證模型的收斂性和穩定性。SSP 的這種靈活性使得它能夠更好地適應不同的硬件和網絡環境,在多節點分布式訓練中有效平衡性能與準確性。3.2.3 可信圖機器學習可信圖機器學習 隨著圖神經網絡的迅速發展,它們在處理圖結構數據方面顯示出了卓越的能力,被廣泛應用于金融分析、交通
71、預測、藥物發現等高風險場景。然而,盡管圖神經網絡在真實世界中具有巨大的潛力,最近的研究顯示它們可能泄露私人信息、易受對抗性攻擊、可能從訓練數據中繼承并放大社會偏見,并且難以泛化到分布外數據,這些風險可能無意中對用戶和社會造成傷害。例如,已有研究表明,攻擊者可以通過在訓練圖上進行微小的擾動來欺騙圖神經網絡,使其產生他們期望的結果;在社交網絡上訓練的圖神經網絡可能將歧視嵌入其決策過程中,加強了不希望看到的社會偏見。因此,從多個方面提升圖神經網絡的可信性,如圖神經網絡在魯棒性、公平性、以及分布外泛化等方面,以防止這些潛在的傷害,并增加用戶對圖神經網絡的信任變得尤為重要。3.2.3.1 圖神經網絡的魯
72、棒性圖神經網絡的魯棒性 深度學習模型通常缺乏對抗魯棒性,即模型很容易誤分類對抗樣本。對抗樣本是經過精心設計或修改的輸入樣本,目標是誤導模型產生錯誤的預測結果或降低模型的性能。只有模型對對抗Graph+AI:大模型浪潮下的圖計算 16 攻擊能夠保持穩定的性能,模型才是對抗魯棒的。對于圖像分類任務,攻擊者可利用梯度信息構造微小擾動,添加到原始圖片以生成對抗樣本,使人眼難以發現對抗樣本與原始樣本的區別,但深度學習模型會以很高的概率將對抗樣本錯分為其他類別。這表示深度學習模型的假設或設計存在漏洞,依賴于一些非本質的特征,例如模型通過復雜深度模型建模的數據間的統計特征。這將阻礙深度學習模型在法律、金融、
73、醫藥、軍事、人臉識別、自動駕駛等安全敏感領域的應用。為此,對抗攻擊作為一個強大的安全分析工具,常被用于探測深度學習模型的漏洞、發現安全隱患,構建可信的人工智能系統。隨著對抗攻擊的發展,揭示出了模型的脆弱性,而相應的多種防御技術也相繼被提出。這個領域在攻防競賽過程中進一步深入探索了深度學習魯棒性3。作為深度學習在圖上的擴展,圖神經網絡也可能存在著對抗風險,考慮到圖神經網絡已在各個領域被廣泛應用,研究其對抗魯棒性具有重大實際意義。然而,圖神經網絡有著不同于深度學習的對抗魯棒性:一方面,不同于圖像具有連續的像素特征空間,圖神經網絡應用的圖數據包含著特征、拓撲以及標簽等多類型數據,且拓撲結構信息是離散
74、的,這給擾動的生成以及不可見擾動的定義帶來巨大挑戰;另一方面,圖數據中不同實例(節點)之間并非完全獨立,實例之間存在著關聯關系(邊),即操縱一個實例可能通過消息傳遞影響到其他實例。因此一些研究者開始深入探索圖神經網絡的魯棒性,如圖所示,在原始圖上生成微量的拓撲擾動和特征擾動,使得圖神經網絡錯誤預測目標節點的標簽。具體而言,研究者嘗試向拓撲攻擊模型中引入更精確的梯度近似方式以生成高效離散拓撲擾動,并重新定義了拓撲結構下的隱蔽性,例如通過限制擾動邊總個數來達到隱蔽擾動。隨著人們對于圖神經網絡安全性的關注,圖對抗攻防研究不斷取得新的進展。主要研究方法有:對抗訓練:對抗訓練:對抗訓練是一種流行且有效的
75、方法,廣泛應用于計算機視覺中防御逃避攻擊。這種方法同時生成可以欺騙分類器的對抗樣本,并讓分類器對原始樣本及其擾動版本給出相似的預測,從而提高分類器的魯棒性。同時,對抗訓練這一方法也被用于防御圖對抗攻擊。認證魯棒:認證魯棒:雖然多種方法如圖對抗訓練可以提高對對抗樣本的魯棒性,但總有可能會開發出新的攻擊方法使得防御措施失效,導致一場無休止的攻防賽。為了解決這個問題,最近的工作開始分析圖神經網絡的認證魯棒性,以了解最壞情況下的攻擊將如何影響模型。認證魯棒性旨在為潛在擾動下仍然魯棒的節點提供證書。這些證書通過解優化問題獲得。此外,還可以通過隨機平滑技術注入噪聲到測試樣本中以減輕對抗性擾動的負面效應,并
76、提供認證保證。這種方法證明了在特定條件下圖神經網絡的預測是穩定的。3.2.3.2 圖神經網絡的公平性圖神經網絡的公平性 公平性是可信圖神經網絡中最重要的方面之一。隨著圖神經網絡的迅速發展,圖神經網絡已被應用于多種場景。然而,近期的研究表明,類似于傳統機器學習模型處理獨立同分布數據時所Graph+AI:大模型浪潮下的圖計算 17 表現出的問題,圖神經網絡也可能因數據中存在的社會偏見而給出不公平的預測結果。例如,在圖神經網絡的書籍推薦系統中,因為男性作者較多,圖神經網絡可能偏向于推薦男性作者的書籍,表明圖神經網絡可能對少數群體存在歧視,從而導致社會問題。此外,這種歧視可能嚴重限制圖神經網絡在其他領
77、域的廣泛應用,如職位申請者排名和貸款欺詐檢測,并可能引起法律問題132。圖 3.3 圖神經網絡增大偏見132 訓練數據中的偏見甚至可能通過圖神經網絡的圖拓撲結構和消息傳遞機制被放大,如圖所示,不同顏色的節點代表具有不同敏感屬性的節點,(a)中不同敏感屬性的節點在圖上均勻分布,是無偏圖,(b)中屬于同一敏感屬性的節點更容易聚集在一起,是有偏圖。在有偏圖上經過消息傳遞后,特征輸出空間中屬于同一敏感群體的節點的特征聚在一起,不同敏感群體的節點的特征更加區分開,所以模型可以根據某個節點的特征判斷該節點屬于哪一個敏感群體,從而利用這一信息做出歧視性的預測。因此,確保圖神經網絡不對用戶表現出歧視至關重要。
78、為此,最近涌現了許多研究,旨在開發公平的圖神經網絡,以實現不同任務上的各種公平性。主要研究方法如下:對抗去偏對抗去偏:對抗學習最初被用于處理獨立同分布數據的公平機器學習模型中,目的是消除偏見。這種方法已被擴展到圖結構數據。在對抗性去偏的過程中,使用一個對抗模型來預測編碼器生成的表示中的敏感屬性。編碼器的目標是生成能夠欺騙對抗模型并且能夠準確預測任務結果的表示。通過這種方式,最終的表征將不包含任何敏感信息,從而確保預測結果與敏感屬性無關。添加公平性約束:添加公平性約束:除了對抗性去偏之外,直接在機器學習模型的目標函數中添加公平性約束也是一個常用的方法。這些約束通?;诠叫远x。這些公平性約束作
79、為正則化項存在,目的是在保持預測性能的同時,平衡模型的公平性。這樣的目標函數結構有助于在不犧牲模型實用性的前提下,實現預測的公平性標準。Graph+AI:大模型浪潮下的圖計算 18 3.2.3.3 圖神經網絡的分布外泛化圖神經網絡的分布外泛化 盡管圖神經網絡取得了顯著的成功,現有文獻普遍假設測試和訓練圖數據來自相同分布,即分布內假設。然而,在現實世界中,這種假設很難得到滿足,測試與訓練圖之間的分布偏移不可避免,這些經典的圖神經網絡缺乏分布外泛化能力,在分布偏移下性能顯著下降。因此,開發能夠在圖上進行分布外泛化的方法顯得尤為重要,特別是對于高風險的圖應用,例如分子預測、金融分析、刑事司法、自動駕
80、駛、粒子物理學、疫情的流行預測、醫療檢測,以及藥物重定位等。分布外泛化算法旨在未知分布偏移下實現令人滿意的泛化性能。由于越來越多的處理實際場景中未見過的數據的需求,圖上的分布外泛化自然成為一個有前景的研究方向,以促進圖機器學習模型在現實世界場景中的部署。圖分布外泛化的主要研究方法如下:圖數據增強技術:圖數據增強技術:圖數據增強技術依賴于訓練數據的多樣性和質量,以提高圖模型的泛化性能。通過適當的圖增強技術,可以簡單地獲得更多的圖實例進行訓練。圖數據增強的方法通常歸納為三種策略:結構增強、特征增強以及混合類型增強。結構增強涉及修改圖的拓撲結構,例如添加或刪除節點和邊;特征增強則是修改節點或邊的特征
81、;混合類型增強同時結合結構和特征的修改。這些增強方法旨在通過增加訓練數據的代表性和豐富性,提高模型在未見過的數據分布上的表現。特定圖模型設計:特定圖模型設計:除了通過增強輸入圖數據以實現良好的分布外泛化外,還有一些研究專門設計新的圖模型,引入一些先驗知識到模型設計中,使得圖模型具有改善分布外泛化的圖表征的能力。在這一類方法中,兩種流行的技術是基于解耦的圖模型和基于因果關系的圖模型?;诮怦畹膱D模型通過分離表征中的相關因素來提高泛化能力;而基于因果關系的圖模型則利用因果推斷原理來設計圖結構,從而使模型能夠更好地理解和適應數據分布的變化。這些技術通過在模型設計階段引入結構化的知識,助力模型在面對實
82、際應用中數據分布變化時,依然能保持較好的預測性能。3.3 圖基礎模型圖基礎模型 近年來,圖神經網絡和大型語言模型的融合引起了廣泛的關注。圖大模型旨在處理大規模的圖數據,為復雜的圖推理任務提供強大的工具。然而,由于圖數據的復雜性和非結構化特點,構建高效、可擴展的圖大模型面臨諸多挑戰。首先,大規模圖的存儲和計算需求巨大。在模型訓練和推理過程中,計算復雜度高,容易導致內存和時間成本過高。這對硬件資源和算法效率提出了更高的要求。其次,在處理不同類型的圖數據時,模型需要具備良好的泛化能力,能夠適應不同規模和結構的圖,同時保持高效的性能。這對于模型的架構設計和訓練方法都是一大挑戰。此外,相較于自然語言處理
83、領域,圖數據集的規模和多樣性較為有限,缺乏統一的評估基準。這使得模型性能的客觀評估和比較變得困難,阻礙了領域的進一步發展。Graph+AI:大模型浪潮下的圖計算 19 3.3.1 圖基礎模型概念圖基礎模型概念 圖基礎模型的具體定義是指在廣泛的圖數據上進行預訓練并能夠適應多種下游圖任務的模型97。圖基礎模型應具有以下四方面的核心能力57:1、縮放法則縮放法則:模型性能隨著參數規模、數據集規模和訓練計算量的增長而持續改進,預期大圖模型也應展現出小規?;蛑械纫幠D學習模型所不具備的新能力。2、同質泛化能力:同質泛化能力:具備同質泛化能力的預訓練的大型圖模型,能統一處理不同領域的圖數據和任務。模型需理
84、解圖的內在結構,擁有圖的常識知識。圖基礎模型應理解圖上下文(節點、邊、子圖和全圖),無需過多修改。此能力與少樣本/零樣本學習、多任務學習和分布外泛化相關,使模型利用預訓練知識快速適應新數據。3、多任務適應性:多任務適應性:圖數據中的任務類型多樣化,主要可以分為三大類:節點級任務、邊級任務和圖級任務,每一類任務都涉及廣泛的應用領域。每類任務在數據結構、目標函數以及優化方式上都有顯著差異。能夠有效處理并統一不同任務是圖基礎模型真正同質泛化和普適化能力的關鍵。4、圖推理能力:圖推理能力:圖基礎模型需理解圖拓撲結構,如大小、度數、節點連通性,并進行多跳推理以利用高階信息。這能力增強決策可解釋性,類似思
85、維鏈,還需處理全局結構與復雜模式,如中心度和動態圖演變。3.3.2 圖基礎模型研究路徑圖基礎模型研究路徑 雖然圖基礎模型有許多值得期待的能力,但目前尚未出現如 ChatGPT 一樣成功的圖基礎模型?,F有工作主要從以下幾個方面來推進圖基礎模型的發展。1、圖數據資源:圖數據資源:構建大規模、多樣化的圖數據集對于訓練穩健模型至關重要。圖基礎模型的構建必須考慮圖數據的獨特特性。首先,根據不同的數學建模方法,圖數據可以分為同質圖和異質圖。對于圖基礎模型來說,處理異質圖的難度更大,這需要對主干網絡進行特定的設計和優化。其次,現實世界中的圖數據集規??赡芊浅}嫶?,處理如此大規模的圖數據一直是圖學習領域的挑戰
86、。對于圖基礎模型來說,海量且高度互聯的圖數據對模型的能力提出了更高要求。此外,圖數據所涵蓋的領域多樣性也是一個顯著特征。圖基礎模型需要能夠處理跨領域的數據,并理解不同領域中圖的底層語義信息。2、圖表示基礎:圖表示基礎:研究如何有效地表示圖結構,平衡表達能力和計算效率是圖基礎模型深入理解圖結構本質及規律的前置基礎。圖嵌入、圖卷積網絡、圖注意網絡、圖同構網絡等技術能實現圖結構的基礎表示能力。社區檢測、子圖匹配等分層和局部表示技術能通過識別和利用圖中的重復模式和結構,能夠在保留關鍵特征的同時降低計算復雜度。稀疏化、節點抽樣和圖近似等圖降維與壓縮,確保在減少數據規模的同時盡可能保留重要信息。Graph
87、+AI:大模型浪潮下的圖計算 20 3、圖基礎模型的開發:圖基礎模型的開發:探索大規模圖數據的架構、預訓練和后處理技術,增強LLM的圖理解和推理能力。指令微調和提示策略有望彌合文本模型與圖推理任務間的差距,通過指令微調將圖領域知識融入 LLM,提升圖任務表現,為結合 LLM 和圖推理提供新途徑58。代表性的圖基礎模型開發技術包括提示學習(prompting)、高效參數微調(parameter-efficient fine-tuning)、模型對齊(alignment)和模型壓縮(model compression)等。下面簡要總結用于圖模型的適配技術57。4、基準和標準:基準和標準:NLGra
88、ph 是一個用于評估語言模型在純自然語言描述下解決基于圖的問題的基準。該基準包含 29,370 個問題,涵蓋了八個不同復雜度的圖推理任務,例如最短路徑尋找、連通性檢查和圖同構58。像 NLGraph 這樣的基準的引入對于評估進展和確定改進領域至關重要。標準化的數據集和評估指標使社區能夠在不同模型和方法之間進行有意義的比較。3.3.3 圖基礎模型發展方向圖基礎模型發展方向 3.5.3.1 技術發展方向技術發展方向 未來圖大模型的研究可在以下幾個方面展開:1、跨學科融合:跨學科融合:結合自然語言處理、圖論和機器學習等領域的優勢,開發更全面的模型,促進知識的交叉融合,構建具有強大圖推理能力的模型,創
89、建能夠理解復雜圖結構和語言指令的模型。2、豐富圖數據集:豐富圖數據集:構建大規模、多樣化的圖數據集,涵蓋不同領域和應用場景,為模型訓練提供堅實的數據基礎。同時,建立標準化的評估基準,促進模型性能的客觀比較。3、模型架構創新:模型架構創新:設計適合處理非歐幾里得結構的高效神經網絡架構,使模型適用于不同類型和結構的圖數據,同時充分利用 LLM 的上下文理解能力。創新的模型架構將提高模型的性能和可擴展性,開發能夠處理大型圖的高效算法和架構。4、優化計算效率:優化計算效率:開發新的算法和技術,降低大規模圖模型的計算和存儲成本,提高模型的實際應用價值。這包括分布式計算和高效的數據處理方法。5、應用拓展:
90、應用拓展:將圖大模型應用于社交網絡分析、生物信息學、知識圖譜等復雜領域,驗證模型的實用性和有效性。真實世界的應用將推動模型的進一步改進。6、模型可解釋性與安全性:模型可解釋性與安全性:加強對圖大模型的可解釋性研究,確保模型決策的透明度。同時,關注數據隱私和模型安全問題,確保模型的可靠性和可信度。3.5.3.2 未來應用方向未來應用方向 與語言基礎模型在文本翻譯、生成等任務中取得的顯著成就相比,圖基礎模型在圖任務中的影響尚不確定。然而,在圖神經網絡已經展現出有效性的領域,如電子商務和金融,將圖基礎模Graph+AI:大模型浪潮下的圖計算 21 型與大語言模型相結合,可能在開放性任務中進一步提升性
91、能。特別是在新興領域,如藥物研發方面,圖基礎模型展現出了巨大的潛力。在藥物開發這一復雜且昂貴的過程中,語言模型已經在諸如靶點識別、副作用預測等任務中提供了重要的幫助。然而,由于蛋白質等生物分子具有復雜的三維結構,基于文本的數據并不足以充分表達其特性。圖基礎模型通過對圖結構信息進行建模,可以更好地捕捉蛋白質分子的結構和相互作用,有望對藥物發現過程帶來革命性變化,極大加速新藥研發進程。此外,在城市計算領域,傳統的交通預測往往關注孤立的任務,而忽略了整個交通系統的綜合性。通過將交通系統視為時空圖,圖基礎模型能夠為交通系統中各參與者的行為提供更全面的理解。借助圖基礎模型,研究者能夠在分析不同交通節點、
92、路線、參與者行為的基礎上,提出統一的解決方案,以應對各種城市計算中的挑戰。例如,在復雜的交通網絡中,不同的路段、信號燈、交通工具等都可以被視為節點和邊,通過圖基礎模型的分析,可以優化整個系統的運作,從而提升交通管理的效率和預測準確性44??偟膩碚f,雖然圖基礎模型在許多任務上的潛力尚需進一步驗證,但在一些特定領域,尤其是結合語言模型時,圖基礎模型有望帶來顯著的性能提升,特別是在那些需要對結構化信息進行深入理解的任務中,例如藥物開發和城市計算。3.4 知識圖譜工程知識圖譜工程 知識圖譜利用三元組描述事物之間的復雜關系。從圖的技術角度來看,大量三元組構成的知識圖譜可以看作是一個有標簽的有向圖,圖技術
93、如圖神經網絡、圖表示學習等在知識圖譜中有大量的應用。從人工智能的角度來看,知識圖譜中包含圖結構數據、文本數據、邏輯規則等,涉及多樣的人工智能技術應用,是典型的圖與人工智能融合的研究領域。本小節將從知識表示、知識抽取、知識補全、和知識服務四個方面對知識圖譜工程展開介紹。3.4.1 知識表示知識表示 知識圖譜作為符號化的知識表示體系,具備高階語義、結構嚴謹、復雜推理等能力。在大語言模型(LLM)飛速發展的時代,知識圖譜與 LLM 之間有豐富的互動關系,一方面 LLM 為低成本構建大規模知識圖譜提供了有力工具;另一方面知識圖譜的高質量、可解釋的知識表示和推理能力,也為解決 LLM 的幻覺問題提供了新
94、的方向。傳統知識語義框架,如 RDF、OWL 及 LPG 等在知識管理方面有顯著不足,很難支撐 LLM 時代的知識圖譜構建與應用。大模型時代的知識圖譜,可以從 DIKW 層次范式出發,提供從數據(Data)、信息(Information)、知識(Knowledge)的完整表示能力,以實現信息完備性、知識精準性、邏輯嚴謹性的有機統一。Graph+AI:大模型浪潮下的圖計算 22 3.4.1.1 知識分層知識分層 圖 3.4 DIKW 知識分層 在 DIKW 知識分層中,從低到高依次是數據(Data)、信息(Information)、知識(Knowledge)、智慧(Wisdom)。數據(Data
95、)表示原始未處理過的數據,比如新聞、文章、事件、日志、數據等。信息(Informatioin)表示良好組織的結構化數據,比如關系數據庫、表格、圖表等。知識(Knowledge)是指從信息中總結出的規律、模式、關系,聚焦在知識在精準性與邏輯嚴密性。智慧(Wisdom)源自基于知識的推理決策,以及由此觸發的行動規劃。在 DIKW 金字塔結構中,越往下,上下文信息越完整,但是知識的精準性與邏輯性越差;對應的,越往上,知識的精準性與邏輯性越強,但上下文信息缺失越嚴重。3.4.1.2 知識分類知識分類 按主體類別粒度,知識可以劃分為概念類型、實體類型、事件類型、標準類型、關系類型等。主體分類模型的簡要解
96、釋如下:實體實體:業務相關性比較強的客觀對象,多屬性、多關系刻畫的多元復合結構類型,如用戶、企業、商戶等??紤]到對于 DIKW Data 層原始數據存儲的訴求,Data 中的文件、文件中的段落應劃分到實體類型的范疇。概念概念:實體從具體到一般的抽象,表述的是一組實體實例或事件實例的集合,是一種分類體系。相對靜態,也是常識知識,具有較強復用性,如人群標簽、事件分類、行政區劃分類等。為簡化企業應用,標準類型可劃分到常識概念中。Graph+AI:大模型浪潮下的圖計算 23 事件事件:加入時間、空間等約束的時空多元類型,如通過 NLP、CV 等抽取出來的行業事件、企業事件、診療事件或因購買、核銷、注冊
97、等行為產生的用戶行為事件。屬性屬性:屬性是實體、事件、概念等的組成要素,用以表述一個復雜結構的各個獨立要素,每個屬性要素又會關聯為一個具體的簡單或復雜結構,如基礎類型、標準類型、概念類型等。關系關系:關系的定義和屬性基本一致,表達同一個復雜對象與其他對象之間的關聯,關系和屬性的區別是,若關聯對象為實體類型則為關系。3.4.1.3 邏輯規則邏輯規則 除實體、概念、事件、屬性、關系外,業務專家基于特定業務場景總結的各種規則、模式、觸發條件(如保險理賠規則、疾病診斷規則等),也屬于知識的一種,邏輯規則可以采用三段式語法表示,例如其語法結構可以定義為:定義新的邏輯規則的語法結構,如下:邏輯規則語法結構
98、中,包含 Structure、Constraint、Action、Define 等模塊。Structure 路徑的基本單元是邊,多種邊組合起來的連通圖成為路徑,Structure 中可以描述多個路徑,方便在不同場景下使用。路徑描述按照 ISO GQL方式進行描述:Graph+AI:大模型浪潮下的圖計算 24 Constraint Constraint 中支持單規則語法、規則組語法、聚合語法。單規則語法中,Constraint 中每一行作為一個規則,包括邏輯規則、計算規則、賦值規則等。規則組可以將邏輯規則進行組合,主要目的是將邏輯計算層次化,例如:聚合語法指的是對 groupby、sum、avg
99、 等聚合算子的支持。Action 通常 Action中支持多種操作:createNodeInstance/createEdgeInstance:用于因果的邏輯結果的語義表達 get:輸出匹配的結果,包括實體、關系以及屬性等內容。Graph+AI:大模型浪潮下的圖計算 25 3.4.1.4 互索引結構互索引結構 圖 3.5 文本和圖結構互索引的知識表示150 圖譜索引是一種基于圖譜的文檔脈絡索引,包含Chunk段落、具體業務實體、通用概念知識三部分內容。這樣一種圖和文本混合的互索引結構,使得既可以在圖上進行遍歷,也可以檢索文本塊,并進行有效的分析。如上圖左側所示,通過圖結構可以更有效地組織文檔間
100、的關聯。根據文檔的篇章結構,段落間內在的邏輯關聯,實現Chunk段落的語義分塊。語義分塊的結果兼具長度限制和語義約束,以適配大模型對窗口長度的限制,并實現同一分塊內的內容高度內聚的要求。文檔語義切分產出的分塊,包含 id、摘要、正文等信息;id 由文檔 id、篇章結構和順序編碼組成,文檔中相鄰的內容其 id 也是連續的。同時,文檔與切分出的語義分塊之間,也是互相關聯的。業務實體、實體間關系抽取自 Chunk 段落,通過實體消歧、實體歸一、實體融合、概念圖掛載、語義構圖等圖譜技術棧,實現從歧義化、模糊化、碎片化的信息到明確化、標準化、網絡化的知識的轉變。實體中包含 knowledge、infor
101、mation 兩部分信息。knowledge 指由業務專家預定義的,高頻、常見的知識,對應的特征為強 schema 約束、結構化數據、屬性和關系標準化;information 指由大模型開放抽取得到的動態知識,特征為弱 schema 約束、非結構化數據(文本和向量等)。實體類型包括預定義類型 EntityType 和 semanticType;EntityType 屬于高層級的分類,包括Person、Organization、GeoLocaltion、Date、Creature、Works、Keyword 等;semanticType 屬于低層級的分類,比如 Person 類別下的 bioch
102、emist,musician等。高層級的分類,目的是知識存儲的便利化;低層級的分類,目的是業務應用的精準性。概念圖作為領域專家知識內嵌到圖譜系統中,基于實體的 semanticType、desc,通過概念掛載實現實例圖與概念圖的融合。Graph+AI:大模型浪潮下的圖計算 26 3.4.2 知識抽取知識抽取 知識抽取是從非結構化或半結構化數據中識別、提取和組織有價值的信息和知識的過程。其目標是將各種形式的原始數據(如文本、圖像、音頻、視頻)轉化為結構化的數據,以便于計算機系統理解、分析和利用。知識抽取的方法經歷了多個發展階段:從早期依賴規則和模板的方法,到后來基于統計機器學習的技術,再到深度學
103、習方法的應用,最終發展到如今使用預訓練模型的方法。3.4.2.1 知識抽取任務知識抽取任務 知識圖譜的構建和維護涉及多個知識抽取任務,其中實體抽取、關系抽取和事件抽取是最核心和直接相關的任務。3.4.2.1.1 實體抽取實體抽取 實體抽取,也稱為命名實體識別,用于識別數據源中的命名實體(包括人名、地名、組織名等),這些實體通常作為知識圖譜中的節點,是知識圖譜中最基本的元素。例如,“2010 年 9 月24 日,馬青驊代表北京現代車隊參加中國房車錦標賽,獲得鄂爾多斯站冠軍”中的信息可以通過其包含的時間實體“2010 年 9 月 24 日”,人員實體“馬青驊”,參賽隊伍實體“北京現代車隊”,賽事類
104、型實體“中國房車錦標賽”,地點實體“鄂爾多斯”和榮譽類型實體“冠軍”來直接表達。知識圖譜的質量與實體抽取的完整性、準確率和召回率息息相關。早期的實體抽取方法包括依賴規則和模板的方法以及利用統計機器學習的方法?;谝巹t和模板的方法依賴于預定義的規則和模板,當所選用的規則能夠很好地反映文本信息時,通常效果不錯。例如,定義規則人名是兩個連續的首字母大寫的單詞,然后將符合規則的文本字符抽取為實體;基于統計機器學習的方法的核心想法是從標注好的數據來中學習和推斷規律,以進行實體抽取。近年來,隨著深度學習方法在自然語言處理、計算機視覺等領域取得顯著的突破,深度學習方法成為了實體抽取的主流方法。用于實體抽取任
105、務的深度學習模型涵蓋了多種架構,包括卷積神經網絡(Convolutional Neural Network,CNN)、循環神經網絡(Recurrent Neural Network,RNN)、長短期記憶網絡(Long Short-Term Memory,LSTM)、基于 Transformer 的預訓練模型和圖神經網絡(Graph Neural Network,GNN)。CNN 通過一系列卷積和池化操作,能夠有效地提取文本中的局部特征,隨后通過全連接層進行實體識別和分類;RNN 逐個處理文本中的每個詞,利用其循環結構保留并處理詞與詞之間的時間依賴信息,從而實現命名實體識別;GRU 利用門控機制
106、調節信息流動,能夠捕獲文本中長距離依賴關系,逐詞處理文本以實現命名實體識別;基于 Transformer 的方法采用多頭自注意力機制,可以并行處理序列中的所有詞,并直接在編碼器中獲取上下文信息;GNN 將文本轉化為圖,通過迭代更新節點向量來聚合上下文信息2。Graph+AI:大模型浪潮下的圖計算 27 3.4.2.1.2 關系抽取關系抽取 通過實體抽取獲取的實體之間是離散且無關聯的。關系抽取用于識別實體之間的關系并建立起實體之間的語義鏈接。這些關系通常作為知識圖譜中的邊。例如,在句子“ChatGPT 是由OpenAI 開發的一種大語言模型”中,關系抽取任務會識別出(OpenAI,開發,Chat
107、GPT),(ChatGPT,是,大語言模型)這樣形式的三元組關系,從而構建知識圖譜。早期關系抽取的方法包括基于傳統規則和模板的方法和基于傳統機器學習的方法?;趥鹘y規則和模板的方法依賴于手寫規則和模板,通過使用觸發詞和依存關系來匹配文本?;趥鹘y機器學習的方法通過特征工程從文本中提取語法、詞法等信息,構造特征向量,然后使用分類器來識別實體對之間的語義關系。近年來,深度學習方法成為了關系抽取的主流方法。關系抽取可以通過各種流行的神經網絡架構來實現。CNN和RNN是較早用于關系抽取的深度學習方法,總體而言,CNN擅長捕捉句子中的局部特征,RNN 設計用于處理序列數據,使其比 CNN 更適合捕捉文本
108、中的長距離依賴關系?;谧⒁饬C制的神經網絡增強了關系表示與文本表示之間的相關性,突出了關系抽取的重要信息。注意力機制允許模型在預測關系時關注文本的相關部分,有效地克服了 CNN和 RNN在處理長距離依賴關系方面的局限性。它們可以捕捉復雜的句子結構和實體之間的關系,無論它們在文本中的位置如何。GNN 通過構建語義圖來嘗試捕捉輸入序列的非線性結構,使關系抽取模型具有圖上的關系推理能力。GNN 可以捕捉實體和關系的相互關聯性,這對于純粹的序列模型來說是困難的。預訓練語言模型通過在大規模未標注文本數據上進行訓練,學習到文本中所包含的語法和語義知識。隨后,通過對預訓練模型進行微調,可以直接用來進行關系
109、抽取等下游子任務138。3.4.2.1.3 事件抽取事件抽取 事件抽取旨在識別和抽取樣本源中的事件及其相關信息,事件可以看作是知識圖譜中的特定子圖。事件抽取不僅涉及識別事件本身,還包括確定事件的觸發詞、分類事件類型、識別事件的論元以及確定論元在事件中的角色。在例句“特朗普于 2017 年 1 月 20 日在美國國會大廈宣誓就職”中,事件抽取任務具體為檢測觸發詞“就職”,判斷事件類型為“任職”,確定“特朗普”“2017 年 1 月 20 日”和“美國國會大廈”為事件論元,并確定它們對應的角色分別為“人物”“時間”和“地點”。事件抽取技術經歷了從基于模式匹配方法到現代深度學習方法的演變。早期的方法
110、依賴于專家知識和預定義的模板,通過模式匹配來識別事件。隨著數據和計算能力的提升,機器學習得到了發展。這些方法基于特征來構建分類器,從而進行事件類型和論元的分類。然而,這些傳統方法在捕捉深層語義特征方面存在局限。深度學習的興起顯著提升了事件抽取的效果。RNN 用于建模序列信息以提取事件中的論元。JRNN135提出了一種基于雙向 RNN 的聯合事件抽取模型。該模型包括使用 RNN 總結上下文信息的編碼階段以及利用編碼信息預測觸發詞和論元角色的預測階段。JMEE136采用層次注意力機制來實現信息的全局聚合,JMEE 主要由四個模塊組成,分別是詞表示模塊、句法圖卷積網絡模塊、自注意力觸發詞分類模塊和論
111、元分類模塊,該模型利用基于注意力的圖卷積網絡進行聯合建模圖信息,以提取多個事件觸發詞和論元。GAIL137是一Graph+AI:大模型浪潮下的圖計算 28 種使用生成對抗網絡(Generative Adversarial Network,GAN)幫助模型關注難以檢測的事件的模型。預訓練語言模型的出現,為事件抽取帶來了新的突破。在 BERT 模型出現之前,主流方法是從文本中識別出觸發詞,然后根據這些觸發詞來判斷事件類型。隨著 BERT 被引入到事件抽取模型中,基于全文識別事件類型的方法逐漸成為主流。這是因為 BERT 在上下文表示能力上表現出色,在文本分類任務中表現良好,尤其是在數據量較少的情況
112、下134。3.4.2.1.4 其他抽取任務其他抽取任務 屬性抽取用于識別實體或者關系的屬性及其值,這些屬性豐富了知識圖譜中實體和關系的描述。屬性可以看作屬性值和實體或者關系之間的一種關系,因而可以通過關系抽取的思路來解決。三元組抽取可以視為一種綜合性的知識抽取任務,它包含了實體抽取、關系抽取和屬性抽取的內容。具體來說,三元組抽取的目標是從源樣本中抽取形如(subject,predicate,object)三元組,這些三元組可以同時包含實體、關系和屬性信息,這些三元組可以直接用于構建知識圖譜。另外,知識抽取還包括觀點抽取、關鍵詞抽取、主題抽取和情感抽取等,這些雖然不是直接用于構建知識圖譜的核心元
113、素,但它們可以豐富和增強知識圖譜的內容和功能。通過結合這些抽取任務,可以構建一個更加全面和智能的知識圖譜。3.4.2.2 知識抽取流程知識抽取流程 3.4.2.2.1 本體建模本體建模 無論是開放域的知識圖譜還是包括專業領域的各行業的知識圖譜,都需要收集大量的數據,這些數據的收集是有選擇性的,這個選擇的依據就是本體模型,也稱 Schema 設計或本體設計。本體建模解決知識圖譜如何組織數據的問題,是數據的底層架構,是一個知識體系框架,能夠涵蓋住知識圖譜所有的數據,決定了數據收集的范圍。本體模型作為知識表達模型,定義了實體類型、實體對應的屬性、以及實體和實體之間的關系,通常應根據實際應用需求和數據
114、情況以及業務知識來綜合設計。下圖為一個裝備維保知識圖譜的本體模型示例。Graph+AI:大模型浪潮下的圖計算 29 圖 3.6 裝備維保知識圖譜的本體模型示例 3.4.2.2.2 知識抽取知識抽取 知識抽取是針對結構化數據、非結構化數據,利用大數據、深度學習、機器學習、自然語言處理等技術,將數據轉化為 RDF 三元組數據,并統一存儲的過程?;玖鞒倘缦聢D所示。圖 3.7 三元組抽取流程 1 1)結構化數據抽?。┙Y構化數據抽取 用于構建知識圖譜的原始數據可能是結構化數據或者非結構化數據。結構化數據通常存儲于關系型數據庫或 excel 二維表中,有明確的字段定義,數據格式非常規范,通過字段與知識圖
115、譜實體、屬性、關系的映射,即可自動進行三元組的抽取。Graph+AI:大模型浪潮下的圖計算 30 原始數據大多存儲在像 MySQL 這樣的關系數據庫中,并以不同的表格形式區分,而用于構建知識圖譜的數據通常以三元組格式存儲,因此需要進行這種轉換。D2RQ1是一個用于將關系數據庫內容轉換為 RDF 三元組的工具。D2RQ 主要包括 D2R Server、D2RQ Engine 和 D2RQ Mapping 語言。圖 3.8 基于 D2RQ的結構化數據知識抽取框架134 2 2)非結構化數據抽?。┓墙Y構化數據抽取 非結構化數據多為篇章級的 PDF、Word 數據,不同種類文檔的結構具有一定的規律,根
116、據行文方式規范程度,采用相關抽取工具,通過“規則+機器學習”相結合的方式進行知識抽取,主要分為下面幾個步驟:1.1.數據獲取數據獲?。和ㄟ^知識圖譜自動化構建平臺,與存儲的文檔的數據庫進行連接,從而獲取文檔,同時也可在平臺上上傳當前的 PDF 和 Word 文檔。2.2.智能分段智能分段:首先將篇章級的文檔進行分段,可根據分段標識來進行分段處理。3.3.智能分句智能分句:主要是對分段后的文檔進行分句,采用中文依存句法分析工具,分析句子中詞與詞之間的依存關系(如主謂關系指主語與謂語間的關系),并根據依存關系以及標點符號進行自動切分。切分后,還要再判斷句子中是否存在并列關系或連謂結構,這樣的句子一般
117、是在同一事項當中,所以再對相應句子進行合并。1 http:/d2rq.org Graph+AI:大模型浪潮下的圖計算 31 4.4.中文分詞中文分詞:應用中文分詞工具進行分詞,一方面可以實現中文分詞(包括停用詞),另一方面可以對詞進行詞性和語義標注。在實踐中有時會將句子中的詞分的十分細碎,可以再進行詞與詞之間的結合,如緊鄰的名詞,名詞間存在代詞的情況。這樣可以更準確的提取主語。5.5.知識抽取知識抽?。鹤詈笾R圖譜三元組構建,可以采用相關構建工具進行知識抽取。例如應用北京大學 gBuilder2工具,首先通過整體抽取流程的流水線構建,然后再進行實體抽取、關系抽取和三元組構建,從而將數據轉化為知
118、識。gBuilder 中內置了眾多非結構化抽取算法和模型,可通過構建非結構化數據抽取流水線來進行數據的抽取,將數據轉化為知識。圖 3.9 gBuilder非結構化數據知識抽取流水線設計 在上述過程中,最重要的也是最難的是實體和關系的抽取。在非結構化數據抽取過程中,傳統的方法如 Bert 等模型,需要較多的語料標注,才能夠達到可接受的抽取效果。大語言模型(Large Language Model,LLM)興起之后,因其強大的一般知識、文本理解、泛化能力,可實現小樣本的非結構化文本數據的知識抽取,通常標注少量的數據,就可以在實體、關系、屬性抽取的準確率方面得到顯著提升。3.4.3 知識補全知識補全
119、 知識圖譜(Knowledge Graph,KG)作為一種重要的數據組織形式,以圖形化的方式展示實體及其關系,廣泛應用于搜索引擎優化、推薦系統、智能問答等領域。它在這些應用中發揮了關鍵作 2 https:/.Graph+AI:大模型浪潮下的圖計算 32 用,但實際應用中的知識圖譜常常存在信息不完整的問題。這些缺失的信息可能影響系統的智能化水平和用戶體驗。知識圖譜補全(Knowledge Graph Completion,KGC)技術旨在通過推測和填補這些缺失的知識,從而提升知識圖譜的全面性和準確性。這項技術不僅增強了知識圖譜的實用性,還提升了信息檢索和智能決策的能力,使其能夠更好地服務于實際應
120、用。KGC 技術通過技術手段預測和填補知識圖譜中缺失的信息,包括未記錄的實體、關系和屬性,提高其整體質量和應用效果。3.4.3.1 主要任務主要任務 在知識圖譜補全中,三元組預測、鏈接預測和關系預測是三大核心任務,每一個任務都在知識圖譜的構建與優化中起著至關重要的作用。隨著技術的不斷進步,尤其是人工智能技術的發展,這些任務在處理大規模數據和復雜關系時表現出顯著的優勢。3.4.3.1.1 三元組預測三元組預測 三元組預測的核心任務是識別并填補知識圖譜中缺失的“實體-關系-實體”三元組。一個典型的三元組由頭實體、關系和尾實體構成。例如,在缺少“蘋果公司-總部位于-庫比蒂諾”的場景下,三元組預測技術
121、通過分析現有數據,推測并補全該缺失三元組,從而完善知識圖譜。早期的三元組預測依賴邏輯規則和路徑搜索技術,通過規則推理和沿已知關系進行路徑擴展,推測出缺失的三元組信息。然而,隨著知識圖譜規模擴大,關系復雜性增加,傳統方法在泛化能力和靈活性方面逐漸暴露出局限性,難以應對復雜的知識場景。為應對這些挑戰,基于嵌入(embedding)的模型應運而生,并逐漸成為主流方法。TransE、DistMult 等嵌入模型通過將實體與關系映射到低維向量空間,捕捉它們之間的潛在聯系,從而高效地進行三元組預測。這種向量化處理方式有效簡化了知識圖譜的復雜結構。近年來,圖神經網絡(Graph Neural Network
122、s,GNN)的發展推動了三元組預測技術的突破。GNN 通過迭代聚合節點及其鄰居的信息,能夠更精細地捕捉知識圖譜的復雜結構。與傳統嵌入方法相比,GNN 在處理異構數據和上下文信息時具有明顯優勢。代表性模型如 R-GCN(Relational Graph Convolutional Network)和 CompGCN(Composition-based Graph Convolutional Network)已經在大規模知識圖譜補全任務中展現了卓越的性能。3.4.3.1.2 鏈接預測鏈接預測 鏈接預測的任務是預測兩個已知實體之間可能存在的關系,著重于發現實體間的潛在聯系,而非具體的三元組。例如,針
123、對知識圖譜中“喬布斯”與“蘋果公司”之間的缺失關系,鏈接預測技術將嘗試推測兩者間可能的聯系,如“創始人”。Graph+AI:大模型浪潮下的圖計算 33 最初,鏈接預測主要依賴共現統計和矩陣分解方法,通過計算實體間的相似度或利用結構屬性,推測潛在的關系。然而,隨著知識圖譜復雜性的增加,傳統方法在應對遠距離關系和復雜結構時顯得力不從心。隨著技術的進步,基于圖嵌入的技術,如 LINE、DeepWalk 等方法,逐漸成為鏈接預測的核心工具。這些方法通過將實體映射為低維向量,捕捉圖結構中的潛在關系。然而,面對日益復雜的圖結構,嵌入方法的表達能力仍有局限。深度學習技術的發展為鏈接預測任務提供了新的動力。圖
124、卷積網絡(Graph Convolutional Networks,GCN)等神經網絡模型能夠直接在圖結構上操作,利用自適應特征學習,顯著提升了關系預測的準確性。此外,對比學習(Contrastive Learning)等方法也逐漸在鏈接預測中嶄露頭角,通過引入負樣本生成機制,進一步增強模型在復雜知識圖譜中的泛化和區分能力。這類方法在處理大規模圖譜時表現出極高的魯棒性和精度。3.4.3.1.3 關系預測關系預測 關系預測任務旨在明確兩個實體之間的具體關系類型,而不僅僅是預測它們之間是否存在關系。例如,對于“比爾蓋茨”和“微軟”兩個實體,關系預測的目標是判斷兩者之間的具體關系,如“創始人”或“首
125、席執行官”。這一任務要求不僅能識別實體間的聯系,還要對關系的性質進行準確分類。關系預測任務的早期方法主要依賴手工定義的規則和基于路徑的推理技術。這類方法通過分析實體間的路徑信息或共現模式,推測它們之間的潛在關系類型。然而,隨著知識圖譜規模的擴展和關系多樣性增加,規則驅動的方法在處理復雜關系類型及未見數據時逐漸顯現出其局限性。近年來,深度學習技術,尤其是基于注意力機制(Attention Mechanism)的模型,在關系預測任務中表現出強大的潛力。Attention 機制能夠根據上下文信息對不同鄰居節點和關系賦予不同的權重,從而實現更精確的關系分類。同時,隨著語言模型的發展,BERT 等預訓練
126、語言模型被引入到關系預測任務中,進一步提升了模型在文本和結構化數據之間的推理能力。通過將關系預測任務轉化為序列預測問題,這些 AI 模型能夠從大規模文本數據和知識圖譜中提取更多隱含關系,實現更為精準的關系識別與分類。3.4.3.2 關鍵技術與流程關鍵技術與流程 在知識圖譜補全的過程中,涉及多個關鍵技術和步驟。以下內容將分為四個主要部分:數據預處理、模型學習、候選處理和事實識別。3.4.3.2.1 數據預處理數據預處理 數據預處理是知識圖譜補全的基礎。此階段主要包括以下兩個關鍵任務:Graph+AI:大模型浪潮下的圖計算 34 實體對齊與融合實體對齊與融合:在處理不同數據源時,必須將相同的實體統
127、一表示,避免信息重復。不同數據源可能使用不同的表示方式,如不同的命名或標識符。通過實體對齊與融合技術,可以確保這些不同的表示都指向同一個實體,從而避免冗余和沖突。例如,對于“Facebook”這個實體,不同的數據源可能使用“FB”或“Meta”來表示,通過對齊與融合,將這些不同名稱統一為一個實體。知識去重與合并知識去重與合并:此步驟的目的是清除重復記錄并整合相似的信息,以形成一個更為完整的知識記錄。不同數據源可能包含關于同一實體的多條記錄,通過去重和合并,可以將這些信息整合為一個完整、準確的知識條目。例如,將多個來源中關于“Google”的信息整合,去除重復條目,從而生成一個全面的知識記錄。3
128、.4.3.2.2 模型學習模型學習 模型學習階段在知識圖譜補全過程中至關重要,主要包括以下幾個步驟:數據準備數據準備:數據準備是模型訓練的基礎,涉及收集和整理用于訓練和驗證的數據集。這些數據集包括已知的實體、關系和三元組,同時也包括負樣本(即不存在的三元組)。數據的質量直接影響到模型的訓練效果和最終性能,因此確保數據的準確性和全面性是關鍵。通過系統化的數據整理,可以確保模型訓練和驗證過程中的數據代表性和多樣性,進而提升模型的泛化能力。模型訓練模型訓練:在模型訓練階段,選擇合適的模型是核心任務。常見的模型包括圖神經網絡(GNN)、邏輯回歸等。這些模型通過處理訓練數據,旨在預測知識圖譜中缺失的三元
129、組。訓練過程中,需要不斷優化模型參數,以提高其預測的準確性和可靠性。通過反復訓練和調整,可以使模型逐漸學會識別潛在的缺失知識,并在面對新數據時做出準確的預測。模型評估模型評估:模型評估是確保模型性能的關鍵步驟。在這一階段,通過使用驗證數據集對模型進行評估,主要的評估指標包括準確率、召回率和 F1 分數等。這些指標能夠全面衡量模型在預測缺失三元組時的表現。根據評估結果,對模型參數進行調整,以優化模型的預測能力。有效的評估和調優過程能夠顯著提高模型的預測準確性,從而提升知識圖譜的整體質量。3.4.3.2.3 候選處理候選處理 候選處理階段主要包括以下步驟,以提升預測準確性和效率:候選集生成:候選集
130、生成:這一階段的任務是生成可能的三元組候選集。這涉及創建所有可能的三元組,其中一些可能是正確的,但尚未在知識圖譜中記錄。這些候選集為后續的篩選和驗證提供了基礎,并且可以通過算法生成潛在的三元組組合,為知識圖譜補全提供廣泛的可能性。候選過濾:候選過濾:在候選集生成之后,需要通過設置過濾規則和應用算法來篩選出最有可能的候選三元組。這一步驟的目的是提高模型預測的準確性。通過規則和算法,可以排除那些不太可能的Graph+AI:大模型浪潮下的圖計算 35 候選三元組,從而確保最終選擇的三元組具有較高的準確性和有效性。有效的候選過濾可以減少不必要的計算量,并提升知識圖譜的補全效率。3.4.3.2.3 事實
131、識別事實識別 事實識別階段是知識圖譜補全的最后步驟,涉及將訓練好的模型應用于候選集,識別和確認缺失的三元組。在這一階段,被確認的三元組將被添加到知識圖譜中,從而提升知識圖譜的完整性和準確性。事實識別的目標是通過準確的模型應用,補全潛在的缺失信息,使知識圖譜更加全面和可信。這一過程不僅增強了知識圖譜的實用性,還為下游應用提供了可靠的數據支持。3.4.4 知識服務知識服務 知識圖譜構建完畢后,存儲了當前應用中重要的概念、實體、屬性、和關系等,這些存儲了豐富信息的知識圖譜可以服務于很多應用,例如在電商應用中構建了商品知識圖譜后,商品知識圖譜服務于電商應用中的很多任務,包括貨場選品、商品分類、同款商品
132、對齊、商品推薦、以及序列推薦等。知識服務的任務包括知識查詢問答、復雜邏輯查詢、檢索增強問答等,知識服務方式涉及數據的存儲與查詢、知識圖譜模糊查詢檢索、知識圖譜預訓練等。本小節將從知識服務任務和知識服務方式兩個角度,對融合了主流圖學習和人工智能方法的知識圖譜服務展開介紹,將首先介紹知識服務涉及的一些典型任務和方法,然后介紹典型的知識服務流程。3.4.4.1 知識服務任務知識服務任務 3.4.4.1.1 知識查詢問答知識查詢問答 知識圖譜查詢問答是指基于自然語言問答的方式完成知識圖譜中的知識查詢。例如針對一個電商知識圖譜問詢“在平臺上售賣的去年下半年上市的國產手機型號有哪些?”,為了回答這個問題,
133、需要根據問題的語義,在知識圖譜中找出對應的數據。根據查詢問答問題的復雜程度,可以將查詢問答分為簡單查詢問答和復雜查詢問答。知識圖譜查詢方法包括基于語義匹配的方法和基于檢索的方法?;谡Z義匹配的方法首先將查詢問答問題,經過語義匹配轉化為邏輯表達式,如 S-表達式,SPARQL 查詢語句等。語義匹配的方法又可分為逐步生成方法和序列到序列的方法,逐步生成法將自然語言到邏輯表達式的翻譯過程定義為一系列的步驟,例如首先找到問題的核心實體,然后找到以核心實體為起點,以問題答案為終點的路徑,再在路徑的節點上添加屬性約束等。序列到序列的方法將自然語言到邏輯查詢語句的映射過程看作一個語言翻譯的過程,并根據標注數
134、據訓練一個翻譯模型例如基于 T5 的模型,實現以自然語言問句為輸入,直接生成問句對應的邏輯表達式。邏輯表達式可以被翻譯為可進行知識圖譜查詢的 SPARQL 查詢語言,并基于 SPARQL 查詢語句得到問題對應的查詢結果。Graph+AI:大模型浪潮下的圖計算 36 基于檢索的方法首先基于問題在知識圖譜中檢索相關的子圖,然后根據子圖中包含的信息進行問題回答。因此基于檢索的方法通常包含一個檢索器和一個推理器,檢索器實現的功能是根據當前的問題從知識圖譜中檢索和當前問題相關的包含答案的子圖,推理器實現的功能是根據檢索的子圖信息推理出問題對應的答案,例如可以采用問題感知的(類)圖神經網絡模型對子圖進行編
135、碼,并根據實體的表示計算當前實體作為問題答案的概率。3.4.4.1.2 復雜邏輯查詢復雜邏輯查詢 知識圖譜復雜邏輯查詢是指對知識圖譜進行包含復雜邏輯組合的查詢,這個任務的復雜性體現在兩個方面,一方面是復雜邏輯查詢任務通常包括邏輯或、且、非組合以及其他邏輯約束例如存在量詞、全稱量詞等。例如針對一個人物知識圖譜,查詢有小于 1 個小孩或者有多余 3 個小孩且有一個是女孩的人居住的城市有哪些。另一方面是復雜邏輯查詢任務中通常會包含一些無法查詢到正確結果的查詢步驟,這個是受到知識圖譜本身不全的影響。復雜邏輯查詢問答可以分類兩類方法,一類是查詢嵌入方法,這類方法采用各種表示學習方法,將邏輯查詢語句編碼到
136、既定的向量空間中,最后計算查詢嵌入表示和答案表示的匹配度得到查詢的結果,查詢嵌入方法可以通過向量計算推理出缺失的事實的概率,并將高概率的事實考慮進查詢過程中。另一類方法是,基于大語言模型的方法,這類方法通過利用大語言模型中的參數化知識彌補知識圖譜不全的問題,利用大語言模型通用的邏輯推理能力對查詢進行拆解,以應對復雜邏輯查詢的復雜性。3.4.4.1.3 檢索增強問答檢索增強問答 檢索增強問答是指利用知識圖譜作為外部知識源,輔助基于自然語言的問答。例如利用WikiData、OneGraph3的數據輔助進行一些知識問答、常識問答等。以知識圖譜為外部知識源的檢索方法通常依賴一個檢索器,這個檢索器的功能
137、是根據當前的問從知識圖譜中檢索有助于回答當前問題的知識。檢索器的方法有幾種,一種是將知識圖譜中的三元組進行序列化,通過檢索器的文本編碼器將每個三元組序列編碼為一個向量,同時用檢索器的文本編碼器將問句編碼為一個向量,通過向量計算得到和當前問題最相似的三元組作為外部檢索的知識,將這些三元組經過線性化之后和問題拼接起來輸入語言模型中生成答案。另一種方法是從問題中識別出命名實體,將命名實體和知識圖譜中的實體進行對齊,以對齊的實體為起點,從知識圖譜中檢索這些實體的 k 跳子圖,將 k 跳子圖序列化之后和問題一起輸入語言模型中生成答案。3 http:/ 37 除了以上的單步檢索方法,還可以使用多步檢索的方
138、法對檢索結果進行優化,使回答問題的過程和外部知識圖譜反復迭代地進行交互,充分利用知識圖譜中的信息輔助問答。3.4.4.2 知識服務方式知識服務方式 3.4.4.2.1 數據存儲與查詢數據存儲與查詢 構建好的知識圖譜,尤其是大規模的知識圖譜,通常會被存儲于圖數據庫中,典型的圖數據庫有 Neo4j、TuGraph、gStore 等,這些圖數據庫通常支持包含億級的節點和關系的知識圖譜的存儲,并提供對應的可視化查詢界面和命令行查詢工具,且均開源了社區版本,以便相關人員使用。這些圖數據庫通常采用圖查詢語言進行數據查詢,典型的圖查詢語言有 Cypher、Gremlin、SPARQL、GQL 等,其中 Cy
139、pher 是一種申明式查詢語言,語法類似 SQL,主要用于 Neo4j 圖數據庫;Gremlin 適用于 Apache TinkerPop 框架的圖數據庫,是一種基于遍歷的圖查詢語言,其查詢語句可以被看作是圖上的遍歷過程;SPARQL 是一種查詢 RDF 格式的圖數據的查詢語言,可應用于Apache Jena 以及 Virtuoso 等;GQL 是 ISO(國際標準化組織)最新發布的圖數據庫查詢語言,旨在為圖數據的存儲、管理和查詢提供一個統一的標準,GQL 的設計不僅考慮了現有圖數據庫系統的特性,還借鑒了 SQL 等成熟查詢語言的優點,以支持復雜的圖模式匹配和路徑查找等功能。這些圖數據庫為檢索
140、知識圖譜中的信息提供了豐富的功能,可以完成實體 k 跳子圖檢索、實體的在特定關系下連接的實體的檢索、滿足特定屬性的實體檢索、以及蘊含了或、且、非等操作的復雜邏輯組合檢索等,為直接的知識圖譜的數據使用提供了便利的方式。3.4.4.2.2 知識圖譜模糊檢索知識圖譜模糊檢索 基于圖數據庫的知識查詢方式適用于知道圖數據庫中存儲的實體或關系的 id 或名稱的情況下的查詢,但在部分應用中,例如基于自然語言的問答中,需要將問題中的實體或關系名稱映射到知識圖譜中的實體或關系上,這個過程可以被稱為基于文本的模糊檢索,該問題可以抽象為給定一個實體(關系)名稱,從知識圖譜中找到與其語義最匹配的實體(關系)。模糊檢索
141、方法可以分為兩種,一種是基于詞袋的模糊檢索方法,一種是基于向量的模糊檢索方法?;谠~袋的模糊檢索方法,通過計算兩個文本段之間的相似度。典型的方法有 BM25,這是一個廣泛應用于信息檢索和文檔排名的詞袋模型算法。BM25 在計算文本相似度的過程中充分考慮了詞頻、逆文檔頻率、文本長度、文本平均長度等因素?;谙蛄康哪:龣z索方法,將要計算相似度的兩段文本進行向量化,通過計算向量相似度模擬文本的相似度。典型的文本向量編碼檢索方法有 SentenceBERT、DPR、ColBERT、SimCSE 等。模糊檢索方法為應用數據映射致知識圖譜數據提供了可行的兜底的方法,使得任意的應用任務都可以充分利用知識圖譜
142、中的數據。Graph+AI:大模型浪潮下的圖計算 38 3.4.4.2.3 知識圖譜預訓練知識圖譜預訓練 基于圖數據庫的知識圖譜存儲與查詢方法,為使用者提供了忠實于原始數據的知識圖譜數據獲取方式,但眾所周知,知識圖譜的數據往往存在不完整的特性,有一部分被蘊含但未被顯式表示和存儲的數據,這部分缺失的數據可能會導致知識圖譜數據服務提供的數據不全面不準確。因此在數據存儲和查詢服務基礎上,知識圖譜預訓練服務被提出。知識圖譜預訓練即對大規模的知識圖譜進行預訓練,通過設計表示學習模型將知識圖譜映射致特定的向量空間中,這樣知識圖譜中的每個實體和關系將獲得向量空間的表示,并可以通過這些向量之間的計算獲得三元組
143、的真值,包括缺失的三元組的真值。除了提供三元組真值計算方法,知識圖譜預訓練方法還可以為下游任務提供向量服務,例如提供實體的向量表示,提供某個實體在某個關系下的尾實體的向量表示,提供實體是否具有某種關系的表示等,這些表示向量可以直接當作特征向量輸入下游任務的模型中,以向量服務而非數據服務的方式將知識圖譜中的知識被下游任務模型所利用,提升下游任務的效果,典型的知識圖譜預訓練方式有 PKGM139等。知識圖譜預訓練使得知識圖譜可以為下游任務提供超越于被存儲的知識的服務,將知識圖譜推理能力也提供給下游任務,使得下游任務可以受益于關系推理、類別推理、規則挖掘等知識推理能力。3.4.5 總結與展望總結與展
144、望 圖技術和人工智能技術的發展,尤其是大語言模型在語言理解方面的突破,為知識圖譜的表示、抽取、補全和服務帶來的技術的變革。首先,知識表示向著能表示更深度的語義和更廣泛的語義發展;其次,知識抽取的泛化性得到進一步提升,知識抽取成本可以進一步降低,使得低成本快速構建大規模知識圖譜成為可能;再者,知識補全從依賴圖結構的補全向著混合依賴圖結構和文本的方向發展,可以更加充分地利用知識圖譜中圖結構和語義信息;最后,知識圖譜服務的方式多樣性逐漸增加,除了檢索查詢這類傳統服務方式,還發展出了輔助大模型思維鏈等方式??偟膩碚f,以大模型為核心的人工智能技術發展,為知識圖譜的構建、維護和應用帶來了新的技術范式和應用
145、場景,會進一步促進知識圖譜技術的應用和發展。3.5 圖應用圖應用 3.5.1 自然語言轉圖查詢自然語言轉圖查詢 現代關系型數據庫使用 SQL(Structured Query Language)作為查詢語言,由于 SQL 語言本身復雜的特性,只有少數研發工程師和數據分析師能夠熟練使用數據庫。于是開發者嘗試借助大模型微調(Fine Tuning)等技術將自然語言自動翻譯為 SQL 語句,即 Text2SQL,來降低數據庫的使用門檻。Text2SQL 這一研究領域在科研工作者不斷的探索之下,已然發展十分成熟,擁有數量、Graph+AI:大模型浪潮下的圖計算 39 種類均十分豐富的語料數據集,以及對
146、應的評測數據,在大模型微調這一方面,也發展出了多種技術,例如 DAIL-SQL+GPT-4+Self-Consistency方案已經在 Spider 測試集上達到了 86.6%的準確率。同樣的,在圖數據庫領域也存在相似的使用門檻過高的問題,甚至更為嚴峻。相比于 SQL 相對成熟的語法標準(SQL2023),圖查詢語言標準(ISO/GQL)尚未全面普及,目前是多種查詢語法并存的狀態(GQL、PGQ、Cypher、Gremlin、GSQL 等),因此更需要借助大語言模型的自然語言理解能力,降低圖數據庫查詢語言的使用門檻,即 Text2GQL。然而,Text2GQL 這一研究方向由于發展較晚,目前仍
147、面臨著幾方面的困難。首先,Text2GQL 領域并沒有如同 Text2SQL 領域那樣的海量數據集可供使用,甚至鮮有公開的 Text2GQL 數據集。其次,Text2GQL 領域并沒有一個如同Spider數據集的評測標準一樣工人的評測標準以及對應的評測數據。最后,由于以上數據集和評測標準的欠缺,各種大模型微調方法的效果也很難在 Text2GQL領域得到驗證。為了提升用戶通過自然語言與圖數據庫交互的體驗,無需掌握復雜的 GQL 語法,需優化自然語言到 GQL 的轉換準確性和效率。首先,利用詞法分析和語義理解等語義分析技術,提取關鍵信息并構建語義模型。其次,結合用戶的歷史查詢和會話背景進行上下文理
148、解,以消除歧義。接著,應用機器學習算法訓練自然語言與 GQL的映射關系,不斷優化模型參數。在生成 GQL語句時,依據圖數據庫的特點實施查詢優化。此外,通過收集用戶反饋,評估并改進轉換結果,從而持續提升用戶滿意度。3.5.1.1 語料生成語料生成 眾所周知,要實現模型微調,構建語料是第一步,也是最關鍵的一步,語料的質量和豐富度會直接決定微調模型的預測效果。但是前面提到,由于圖查詢語言標準的不夠成熟,想要獲取現有的 GQL 語料是一件很困難的事情,并且實際業務語料的豐富度更低。SQL+GQL 語法作為一項創新技術,有了“語法制導的語料生成策略”。圖 3.10 語法制導的語料生成策略 Graph+A
149、I:大模型浪潮下的圖計算 40 該策略的具體思想如下:GQL 抽象語法樹(AST)展開后的基本形式就是表達式(Expr),常量(Literal)也是一種特殊的表達式。通過設計表達式實例生成器,批量生成并組合出大量的 AST實例,得到 GQL語句樣本。特定的 AST 可以通過通用生成器產生對應的提示詞模板,提示詞模板隨著 AST 實例化形成提示詞文本。特殊的不適合通過生成器生成的提示詞模板可以通過人工構造。初步生成的提示詞文本可以借助 LLM 進一步泛化和翻譯,生成多樣的自然語言提示詞文本。通過該方案,能夠將初始語料進行數量級的擴充,以滿足后續訓練的需要。具體執行流程如下:圖 3.11 GQL語
150、料生成核心流程 3.5.1.2 模型微調模型微調 大模型中常用的微調方法同樣適用于 Text2GQL 任務,如 LoRA 與 QLoRA。3.5.1.2.1 LoRA 方法方法 Transformer 的 attention 網絡結構中的參數通常是冗余的,它們可以精簡到一個低維中完成各種 NLP 任務。低秩分解便是一種將高維稠密參數向量降維分解為稀疏的低維向量的方法。Graph+AI:大模型浪潮下的圖計算 41 LoRA52的基本原理是在凍結原模型參數的情況下,通過向模型中加入額外的網絡層,并只訓練這些新增的網絡層參數。由于這些新增參數數量較少,這樣不僅微調的成本顯著下降,還能獲得和全模型微調
151、類似的效果,如下圖所示:Pretrained Weights 部分為預訓練好的模型參數,LoRA 在預訓練好的模型結構旁邊加入了A和 B 兩個結構,這兩個結構的參數分別初始化為高斯分布和 0。A的輸入維度和 B的輸出維度分別與原始模型的輸入輸出維度相同,而 A的輸出維度和 B的輸入維度是一個遠小于原始模型輸入輸出維度的值,這就是 low-rank的體現,可以極大地減少待訓練的參數。在訓練時只更新 A、B 的參數,預訓練好的模型參數是固定不變的。在推斷時利用重參數思想,將AB與W合并,這樣在推斷時不會引入額外的計算。而且對于不同的下游任務,只需要在預訓練模型基礎上重新訓練 AB,這樣也能加快大模
152、型的訓練節奏。圖 3.12 LoRA 算法 LoRA 的優勢很明顯:預訓練模型參數可以共享并保持凍結,因此模型不容易發生災難性遺忘。秩分解矩陣的參數明顯少于原始模型,根據不同的任務可以構建不同的小型 LoRA 模塊,移植性很強。我們可以通過替換矩陣 A 和 B 來凍結共享模型并有效地切換任務,從而顯著降低存儲需求和任務切換開銷。當使用 adapter時,因為我們不需要計算梯度或維護大多數參數的優化器狀態,LoRA使顯存開銷下降。Graph+AI:大模型浪潮下的圖計算 42 LoRA 簡單的線性設計允許我們在輸出時將可訓練矩陣與凍結權重合并即可,通過構造與完全微調的模型相比,LoRA 不會引入推
153、理延遲。LoRA 與許多先前的方法正交,并且可以與其中的許多方法組合,例如 p-tuning。LoRA 的也有一些缺點:LORA 進行低秩分解時候可能會損失一些模型的表達能力和泛化能力。LORA 微調方法可能會受到初始化和超參數的影響較大,需要進行適當的調整。3.5.1.2.2 QLoRA 方法方法 QLoRA 方法53使用一種低精度的存儲數據類型(NF4)來壓縮預訓練的語言模型。通過凍結 LM 參數,將相對少量的可訓練參數以 Low-Rank Adapters 的形式添加到模型中,LoRA 層是在訓練期間更新的唯一參數,使得模型體量大幅壓縮同時推理效果幾乎沒有受到影響。從 QLoRA 的名字
154、可以看出,QLoRA 實際上是 Quantize+LoRA 技術。圖 3.13 QLoRA 算法53 QLoRA 的 量 化 核 心 技 術 有 三 個:4-bit NormalFloat(NF4)量 化、二 次 量 化(Double Quantization)和 Paged Optimizers。NF4 量化:這種數據類型基于分位數量化技術,并在信息理論上是最優的。由于預訓練的神經網絡權值通常具有標準差為 0 的正態分布性質,因此我們可以通過縮放系數將所有的權值轉換為固定期望值,從而使該分布完全適合我們的數據類型范圍。一旦數據類型范圍和權重范圍匹配,我們就可以像往常一樣進行量化。分位數量化技
155、術的主要思想便是將數值盡量落到均值為 0,標準差為-1,1的正態分布的固定期望值上。前面我們知道離群值對于模型量化的影響極其重要,而由于分位數估計算法的近似性質,精度量化對于離群值又有很大的誤差。分位數量化技術使得每個量化分區中具有相等的期望值,相等的期望值可以避免昂貴的分位數估計和近似誤差,使得精確的分位數估計在計算上可行。Graph+AI:大模型浪潮下的圖計算 43 二次量化:是將額外的量化常數進行二次量化以減小內存開銷的過程。例如每 64 個參數塊共享一個 32bit 的量化常數,這樣的話相當于每一個參數的量化額外開銷為 0.5 bit。這個總體來說也是比較大的一個開銷,所以為了進一步優
156、化這個量化開銷,我們對其進行二次量化,即把第一次 32bit 量化的輸出作為第二次量化的輸入,我們采用 256 的塊大小對量化常數進行 FP8 量化,這樣的話,我們可以把每個參數的量化開銷每個參數減少了0.373bit。Paged Optimizers:使用 NVIDIA 統一內存功能,該功能在 CPU和 GPU之間進行自動 page對 page 傳輸,以便在 GPU 偶爾 OOM的情況仍然下進行模型訓練和微調??梢岳斫獬娠@存偶發 OOM 時,QLoRA 會將優化器狀態自動的驅逐到 CPU RAM,當在優化器更新步驟中需要內存時,它們會被分頁回 GPU內存,從而保證訓練正常訓練下去。3.5.1
157、.3 效果驗證效果驗證 Text2SQL 領域目前比較公認的評價模型預測準確率的方式是執行結果正確性評測,即預測的SQL 語句只要執行返回結果與標準答案一致,即使預測的 SQL 語句與標準答案的 SQL 語句不完全一致,也認為是正確的。在 Text2SQL 領域,SQL 已經成為了一個通用的標準,測試所使用的數據庫和數據可以通過 SQLite 以一種低成本的方式集成在測試系統中。然而在 Text2GQL 領域,由于不同的圖數據庫使用著不同的圖查詢語言,數據導入格式也不同,執行結果正確性評測需要針對每一種數據庫啟動數據庫的服務并導入對應的測試數據,開發成本較高。因此針對不同程度的開發成本設計了如
158、下四個級別的評測方式:文本相似度評測(零開發成本):使用 Jaro-Winkler Distance 等文本相似度算法計算預測的 GQL語句與標準 GQL語句的差異,不需要啟動數據庫服務 語法正確性評測(需要語法解析器):使用.g4 語法文件生成的語法解析器,或者將JAVA 項目中的語法解析器打包調用,判斷預測 GQL 語句的語法正確性,可以與文本相似度評測配合使用 執行計劃正確性評測(需要數據庫服務,無需實際數據):在不生成實際測試數據的情況下,將數據庫解析 GQL 語句后得到的執行計劃與標準答案的執行計劃進行對比,借此預測執行結果是否一致 執行結果正確性評測(需要數據庫服務與數據導入):需
159、要啟動數據庫并導入與 GQL 語句對應的測試數據,直接對比執行結果,這一方法得到的準確率最具有參考意義,但是開發成本最高。TuGraph 團隊提供的 GQL(tugraph-analytics)語料以及 Cypher(tugraph-db)語料在CodeLlama-7b-instruct 模型上微調后,文本相似度及語法正確性準確率達到 92%以上。Graph+AI:大模型浪潮下的圖計算 44 表 3.1 Text2GQL微調模型性能 3.5.2 圖系統優化圖系統優化 在當今數字化時代,數據量呈現爆炸式增長,數據之間的關聯變得日益復雜。圖系統作為一種能夠有效處理和分析圖數據的工具,正逐漸在各個領
160、域發揮重要作用。與此同時,人工智能技術的飛速發展,特別是機器學習和深度學習算法的進步,以及大語言模型在自然語言處理領域的顯著進展,為圖系統帶來了新的機遇和可能性。將圖系統與人工智能、大語言模型相結合,可以充分發揮三者的優勢,實現更高效的數據處理和分析,為各種應用場景提供更有價值的洞察和決策支持,從而推動各個領域的創新和發展,將三者相結合,可以實現更深入的語義理解、更精準的決策支持、高效的信息檢索和個性化交互等??偟膩砜?,圖系統優化的主要目標有:1、查詢性能優化:查詢性能優化:通過優化圖數據庫和圖處理引擎,減少查詢響應時間,提高圖數據的訪問效率。2、運維自動化:運維自動化:能夠適應動態的數據規模
161、和業務需求,實現系統的擴展伸縮、診斷調優。3、存儲效率優化:存儲效率優化:合理利用存儲空間,降低存儲成本,同時確保數據的完整性和一致性。4、系統安全增強:系統安全增強:建立完善的安全機制,防止數據泄露、誤操作等安全問題。5、產品體驗優化:產品體驗優化:提供友好的用戶界面和便捷的操作方式,使圖系統易于使用和管理。3.5.2.1 查詢性能優化查詢性能優化 3.5.2.1.1 任務優化任務優化 一)一)優化執行計劃優化執行計劃 1)查詢理解與重寫 自然語言查詢的復雜性使得數據庫查詢的準確理解變得困難。LLM 可以通過對自然語言查詢的分析,理解用戶的查詢意圖,并將其轉化為準確的數據庫查詢語言表達形式。
162、Graph+AI:大模型浪潮下的圖計算 45 LLM 還可以對復雜的查詢進行重寫,以提高查詢的效率。例如,將嵌套查詢重寫為連接查詢或子查詢組合,減少查詢的復雜性和執行時間。通過對查詢的理解和重寫,LLM 可以幫助數據庫管理員和開發人員更快速地構建準確高效的查詢。2)索引推薦 索引是提高數據庫查詢性能的重要手段。然而,選擇合適的索引并非易事,需要對數據庫模式和查詢需求有深入的了解。LLM 可以通過分析數據庫模式和歷史查詢記錄,推薦可能提高查詢性能的索引。例如,如果歷史查詢中經常根據某個列進行條件篩選,LLM 可以建議創建該列的索引。對于多表連接查詢,LLM 可以推薦創建復合索引,以加快連接操作的
163、速度。同時,LLM 還可以解釋創建每個推薦索引的理由,幫助數據庫管理員做出決策。3)查詢計劃評估與選擇 數據庫引擎通常會為一個查詢生成多個不同的執行計劃,選擇最優的執行計劃對于提高查詢性能至關重要。LLM 可以分析不同的基于規則的優化器(RBO)、基于成本的優化器(CBO)和基于人工智能的優化器(AIBO)等不同策略下的查詢計劃,并評估它們的潛在性能。從 RBO 到 CBO 再到 AIBO 的演進體現了查詢優化策略的不斷進步。RBO 主要依據固定的規則來選擇執行計劃,其優點是簡單快速,但缺乏靈活性,無法適應復雜多變的查詢環境。CBO 則是基于成本估算來選擇執行計劃,考慮了更多的因素如數據分布、
164、索引使用等,比 RBO 更加靈活和準確。AIBO 則是利用人工智能技術,如 LLM,對查詢進行更深入的分析和理解,能夠更好地適應各種復雜的查詢場景。LLM 可以通過考慮查詢的特點、數據庫的統計信息和硬件資源等因素,預測每個計劃的執行時間、資源消耗等性能指標。根據評估結果,LLM 可以為數據庫引擎提供建議,選擇最優的查詢計劃。例如,當多個計劃在性能上接近時,LLM 可以根據特定的應用場景或性能指標偏好,推薦最合適的計劃。同時,在查詢執行過程中,并行計算和異構資源的調度也對查詢性能有重要影響。并行計算可以通過同時處理多個任務來提高查詢效率,例如將一個大型查詢分解為多個子查詢并行執行。而異構資源的調
165、度則可以合理利用不同類型的硬件資源,如 CPU、GPU 等。對于一些計算密集型的操作,可以將其分配到 GPU 上進行處理,以提高計算速度。LLM 可以分析查詢的性質和硬件資源的情況,為并行計算和異構資源的調度提供建議,使得查詢能夠在更短的時間內完成。同時,在多節點的分布式數據庫環境中,并行計算和異構資源調度還涉及到節點間的通信和協作,LLM 也可以對此提供分析和優化建議,以確保整個查詢過程的高效執行。二)二)提升運行性能提升運行性能 1)實時監控與調整 Graph+AI:大模型浪潮下的圖計算 46 在查詢執行過程中,實時監控數據庫的性能指標對于及時發現和解決性能問題至關重要。LLM可以通過與數
166、據庫的監控系統集成,實時監控數據庫的性能指標,如 CPU 使用率、內存占用、磁盤I/O 等。如果發現性能問題,如某個查詢導致資源過度消耗或響應時間過長,LLM 可以提出調整建議。例如,建議調整數據庫參數、臨時增加資源分配(如內存或 CPU 核心),或者重新優化特定的查詢。通過實時監控和調整,LLM 可以幫助數據庫保持良好的運行時性能。2)異常檢測與處理 查詢執行過程中可能會出現各種異常情況,如死鎖、長時間等待資源、查詢超時等。這些異常情況會嚴重影響數據庫的性能和可用性。LLM 可以通過對數據庫日志和性能指標的分析,檢測查詢執行過程中的異常情況。一旦發現異常,LLM 可以提供診斷和解決方案。例如
167、,對于死鎖情況,LLM 可以分析死鎖的原因,并建議采取適當的解鎖措施,如回滾某個事務或調整事務的隔離級別。對于超時查詢,LLM 可以建議優化查詢語句、增加資源或調整查詢計劃。通過異常檢測和處理,LLM 可以提高數據庫的穩定性和可靠性。3)性能預測與資源規劃 隨著業務的發展和數據量的增長,數據庫的性能需求也會不斷變化。提前進行性能預測和資源規劃可以幫助企業更好地應對未來的挑戰。LLM 可以根據歷史查詢執行數據和當前的數據庫負載情況,預測未來的查詢性能和資源需求。例如,預測在特定時間段內的查詢流量峰值,并建議提前增加服務器資源或調整數據庫配置以應對。同時,LLM 還可以根據預測結果制定長期的性能優
168、化策略,如定期進行數據庫維護、優化索引或調整存儲布局。通過性能預測和資源規劃,LLM 可以幫助企業更好地管理數據庫資源,提高數據庫的性能和可用性。3.5.2.1.2 算法優化算法優化 為了解決多項式不可解的復雜圖問題,結合大語言模型(LLMs)與傳統圖算法的策略正在逐步顯現出優勢。首先,可以利用 LLMs 生成更具泛化性的啟發式函數,從而提升傳統圖算法(如圖編輯距離、子圖匹配)的求解效率。其次,LLMs 的語義推理能力可以與圖算法結合,減少搜索空間,使得在復雜任務中的求解過程更加高效。通過這兩種方式的結合,傳統圖算法不僅能夠保留其處理結構化數據的優勢,還能在語義推理與全局優化方面取得顯著提升,
169、從而有效應對復雜圖問題。一)一)語義優化語義優化 Graph+AI:大模型浪潮下的圖計算 47 圖算法在推理復雜語義關系時往往難以有效處理特別是當圖中的節點和邊涉及大量文本信息時。比如在知識圖譜中,節點可能代表特定實體,邊則代表實體間的關系。若這些節點和關系包含豐富的語義信息,傳統圖算法往往無法完全捕捉其復雜的上下文和語義含義。以子圖查詢為例,嚴格的執行子圖匹配可能會導致遺漏很多雖然結構上與查詢圖不同構,但是在語義上很接近、有意義的匹配。大語言模型 LLM 可以通過提供強大的語義理解和上下文推理能力,幫助圖算法對復雜文本信息進行更深層次的理解。具體優化方式包括:語義嵌入增強:LLMs 通過將節
170、點和邊的文本信息轉化為高維的語義嵌入,使得圖算法能夠利用語義信息進行更加精準的圖結構分析。這種方式不僅能夠捕捉節點之間的基本關系,還能識別復雜的語義關聯,如同義詞、上下位關系等,有效提升圖神經網絡 GNNs 的表示能力。上下文感知推理:在知識圖譜補全任務中,LLM 能夠根據已有的圖結構和上下文信息推斷出潛在的關系或新節點。例如,面對缺失或不明確的邊關系,LLMs 可以利用文本信息補充推理,極大增強了圖算法的推理深度與廣度。多模態數據的聯合處理:LLMs 能將不同模態的數據,例如文本、圖像、圖結構等,映射到統一的表示空間,使得圖算法可以同時考慮結構化與非結構化信息。這種方式尤其適用于需要綜合分析
171、多種數據來源的任務,如推薦系統、情感分析等 特征豐富化與降維:通過 LLMs 生成的特征嵌入,可以豐富圖節點的特征維度,從而幫助圖算法在高維空間中更好地進行聚類或分類,同時使用圖算法降維手段優化特征,減輕模型的計算負擔。二)二)效率優化效率優化 在 LLM 出現之前,已有許多基于學習的(learning-based)方法被提出,以加速復雜的圖算法。通過結合人工智能技術與傳統圖算法,這些方法在處理復雜圖問題時展現出了顯著的效率提升。例如,在子圖匹配問題中,研究者使用強化學習技術來優化匹配順序,通過學習選擇更高效的匹配路徑,減少計算開銷。另一個典型方法是基于圖神經網絡,通過對路徑的向量表示進行檢查
172、,可以有效識別圖中的重要候選節點,從而在圖匹配過程中實現剪枝操作,顯著減少不必要的計算。這些 AI 驅動的技術為圖算法加速奠定了基礎,使得處理復雜圖結構問題時能夠更加高效。在 LLM 問世之后,大語言模型的靈活性和通用性為圖算法的加速帶來了新的機遇。例如,FunSearch 框架利用了 LLM 的生成能力,為圖算法設計和優化提供了創新方案。首先,該框架將特定問題進行抽象并編寫具體的算法模板,保留需要大語言模型優化的部分作為提示詞輸入 LLM。接下來,通過多次采樣大語言模型生成的不同算法,并將它們送入評估函數進行評分,保留得分較高的算法并存入算法倉庫。之后,從算法倉庫中隨機選擇一個已有的算法作為
173、新一輪提示,繼續Graph+AI:大模型浪潮下的圖計算 48 輸入大語言模型進行迭代生成。通過反復迭代和評估,最終可以得到經過大語言模型優化的全新算法。盡管 FunSearch 框架展現出強大的生成和優化能力,但由于問題模板需要手動設計,尤其是對于復雜的圖問題,如何合理設計提示模板對優化效果至關重要。此外,這種方法依賴大量的大模型推理調用,雖然在算法設計方面已顯著提升了效率,但在成本控制上仍有改進空間,特別是在大規模圖問題中的應用探索。3.5.2.2 運維自動化運維自動化 3.5.2.2.1 系統擴展優化系統擴展優化 隨著大語言模型(LLM)技術的不斷發展,其在圖數據庫及相關領域的潛在應用前景
174、廣闊。首先,LLM 可以極大地增強工作負載預測的準確性,通過分析用戶查詢模式和歷史數據,實時生成精確的預測模型,幫助系統管理員提前識別高負載情景,從而優化資源配置。其次,LLM 能夠在資源分配優化中發揮關鍵作用,自動學習和適應不同的查詢需求,動態調整計算和存儲資源,以確保系統在高峰期的高效運行。此外,LLM 在自動擴展方面的應用前景同樣顯著。通過實時監測系統狀態和負載變化,LLM 可以智能化地推薦擴展策略,使得系統能夠快速響應突發流量,保持穩定性能。結合這些優勢,LLM 的應用將推動圖數據庫管理的智能化轉型,提升系統的整體擴展性和靈活性,為未來的數據庫架構提供新的可能性。一)一)工作負載預測工
175、作負載預測 工作負載預測(Workload Forecast)在圖數據庫系統中扮演著至關重要的角色,因為圖數據庫的獨特結構和數據關系使得工作負載的變化往往具有復雜性。在現實應用中,某些操作(如圖更新、圖查詢)可能在特定時間段內顯著增加,尤其是在社交網絡分析、推薦系統或實時數據處理等場景中。例如,在大型社交平臺上,當用戶活動增加時,系統需要快速響應頻繁的查詢和更新請求。同時,由于圖數據的特點,熱點操作往往集中在圖的特定局部區域,例如,由于熱點事件往往與地區和社群高度關聯,熱點操作往往某一社群的節點中。當某個節點因為用戶互動而頻繁更新時,傳統方法可能未能識別出這一熱點區域,導致該部分的性能瓶頸,而
176、其他節點卻處于閑置狀態。傳統的工作負載預測預測方法利用歷史數據和專家經驗對工作負載進行預測。隨著工作負載的動態變化,歷史數據可能無法有效預測未來的工作負載波動,導致資源配置滯后,系統在高峰期無法及時響應用戶需求,造成性能瓶頸。此外,傳統方法通常需要大量的人工干預與調整,這不僅增加了管理成本,還可能導致人為錯誤,進一步降低系統的可靠性和效率。在這種情況下,大模型(如圖神經網絡)展現出了顯著的優勢和機遇。一方面,它們能夠通過學習節點及其關系的復雜模式,實時捕捉局部負載變化。這種能力使得管理員可以及時調整資Graph+AI:大模型浪潮下的圖計算 49 源配置,確保系統在高負載時仍能保持良好的性能,避
177、免服務中斷或性能下降;另一方面,由于大模型具有強大的語義解析能力,可以閱讀和理解圖數據庫中出現的語義信息,例如社交網絡上的推文和評論。這種能力使得模型能夠識別出潛在的熱點話題或用戶行為模式,從而為預測未來的負載變化提供更深入的洞察。二)二)資源分配優化資源分配優化 在圖數據庫中,資源分配優化(Resource Allocation)不僅關乎計算資源的有效利用,還涉及存儲和網絡帶寬的合理分配。由于圖數據庫的查詢通常需要對大量節點和邊進行操作,且這類操作往往發生在整體數據的熱點區域。例如,在執行復雜的圖算法(如可達性或子圖匹配)時,特別是在需要同時服務多個用戶和多個算法的情況下,資源的即時調配顯得
178、尤為重要,這直接影響了查詢的響應時間和系統的整體性能。在這種情境下,首先需要衡量每個任務的緊急程度。某些查詢可能需要實時響應,例如社交網絡中的即時消息或動態推薦,而圖特征分析等任務耗時較長,對系統時延的要求相對較低。通過識別任務的緊急性,系統可以優先分配資源給高優先級的查詢,確保關鍵操作的及時完成。其次,考慮多任務之間的公共計算也是資源優化的重要方面。許多圖算法在處理數據時可能會共享相同的計算資源或數據集。通過智能調度,系統能夠識別這些公共計算部分,從而減少冗余計算,提高整體效率。例如,在執行多個最短路徑計算時,可以共享中間結果,避免重復處理相同的節點和邊。大模型的引入使得資源分配不再僅依賴于
179、靜態的歷史數據,而是基于實時的工作負載特征進行動態調整。隨著系統檢測到某一特定查詢模式增多時,模型可以自動增加相應的計算資源,優化查詢的響應時間。此外,大模型能夠持續學習系統的使用模式,這種自適應能力使其能夠識別潛在的負載變化,從而提供智能化的資源配置建議。三)三)自動化伸縮自動化伸縮 自動化伸縮(Auto-Scaling)是圖數據庫系統應對動態工作負載的關鍵機制,尤其在面對突發流量時更為重要。傳統的自動擴展方法往往依賴于預設的閾值和靜態策略,這在面對圖數據庫復雜的查詢模式時,可能導致資源配置不當。例如,在數據分析高峰期,用戶可能會同時發起多個復雜查詢,而傳統方法可能無法及時擴展資源,最終導致
180、查詢延遲或失敗,影響用戶體驗。通過引入大模型,系統能夠實時監測負載變化,自動調整資源配置。通過在圖數據庫中部署資源監控 Agent。當資源監控 Agent 檢測到用戶活動激增時,基于 Agent 的自動擴展機制可以可Graph+AI:大模型浪潮下的圖計算 50 以激增活動的特點,對對應的計算資源進行分配,增加計算節點,確保系統能夠處理突發的查詢請求。這種基于實時數據的動態響應能力,顯著提高了系統的靈活性和適應性。此外,利用大模型的自適應學習能力,使用拓展的歷史數據對大模型進行微調,可以使其能夠不斷優化擴展策略。通過分析歷史數據和實時負載,模型可以識別出不同場景下的最佳擴展時機和資源需求,逐步提
181、高系統在各類情況下的響應能力和資源使用效率。例如,在某些情況下,系統可能會發現特定查詢模式在高峰期出現的頻率,從而預先調整資源,避免潛在的性能瓶頸。這種智能化的自動擴展方法,不僅提升了圖數據庫的穩定性和可用性,還確保了資源的高效利用。3.5.2.2.2 自動化任務診斷自動化任務診斷 在圖數據庫系統的運行過程中,海量的日志和監控數據源源不斷地生成,這些數據包含了系統性能、資源使用、查詢響應等關鍵信息。大語言模型(LLM)在智能診斷方面的應用,能夠顯著提升故障檢測的效率和準確性。一)一)實時分析海量日志實時分析海量日志 LLM 具備強大的自然語言處理能力,能夠自動解析和理解圖數據庫生成的各類日志文
182、件。通過訓練,LLM 可以識別不同類型的日志信息,如錯誤日志、警告日志和信息日志,并根據上下文關系快速定位異常模式。例如,當系統出現查詢延遲增加的情況時,LLM 可以掃描相關日志,識別出與延遲相關的具體錯誤信息或警告信號,及時發出預警。二)二)監控數據的動態解讀監控數據的動態解讀 除了靜態的日志分析,LLM 還能夠處理和解讀實時監控數據。通過集成圖數據庫的監控系統,LLM 可以持續跟蹤 CPU 使用率、內存消耗、磁盤 I/O 等關鍵指標,并通過時間序列分析識別出潛在的性能瓶頸或資源短缺。例如,在高并發訪問場景下,LLM 可以實時監測到系統資源的異常消耗,并迅速分析其與當前查詢請求之間的關聯,從
183、而輔助系統管理員做出快速反應。三)三)根因分析與報告生成根因分析與報告生成 LLM 通過學習系統的正常運行模式和大量的歷史故障案例,具備了識別和分析復雜故障原因的能力。當系統出現問題時,LLM 能夠綜合考慮多個因素,如資源瓶頸、配置錯誤、數據不一致等,進行多維度的原因分析。例如,若某節點頻繁超載,LLM 不僅會指出資源使用的異常,還會進一步分析是否由于特定查詢模式導致的負載集中,或者是由于網絡延遲引發的數據傳輸瓶頸。在此基礎上,基于對系統狀態和歷史數據的全面理解,LLM 能夠自動生成詳細的根因分析報告。這些報告不僅指出問題的表面現象,還深入挖掘問題背后的本質原因,并提供清晰的邏輯鏈條。例如,在
184、發現某個查詢導致系統性能下降時,LLM 可能會通過分析查詢執行計劃、數據訪問路徑和資源使用情況,確定具體是由于某個索引缺失或數據分布不均衡引發的性能問題。通過這種深層Graph+AI:大模型浪潮下的圖計算 51 次的原因分析與詳盡的報告生成,LLM 能夠幫助運維人員迅速定位并解決復雜的系統故障,提升圖數據庫系統的穩定性和可靠性。四)四)智能化排障建議智能化排障建議 在明確問題根源后,LLM 能夠根據系統的具體情況和最佳實踐,生成具體的排障建議。針對配置錯誤,LLM 分析當前系統配置與最佳實踐的差異,建議調整緩存大小、連接池設置或查詢優化參數以優化系統性能;對于數據不一致或損壞的問題,LLM 提
185、供數據校驗、修復或重新同步的步驟,確保數據的完整性和一致性;針對導致系統故障的查詢,LLM 建議重構查詢語句、添加必要的索引或優化數據訪問路徑,以提高查詢效率。此外,LLM 能夠根據具體問題推薦或生成自動化腳本和工具,例如日志分析腳本或監控配置,幫助運維人員快速實施解決方案。最后,LLM 還提出預防性措施,如定期系統審查、優化配置策略、加強權限控制和完善監控報警機制,以減少類似問題的再次發生。通過這些具體的排障建議,LLM 有效地支持運維人員解決圖數據庫系統中的各種問題,提升系統的可靠性和可維護性。3.5.2.2.3 智能化調優智能化調優 在圖數據庫系統的運行過程中,優化配置參數對于提升系統性
186、能和穩定性至關重要。LLM 通過分析圖數據庫的運行數據和性能指標,能夠自動識別需要優化的系統參數,并提供相應的調整建議。首先,LLM 能夠對比當前系統配置與行業最佳實踐,識別出潛在的配置瓶頸。例如,通過分析查詢響應時間、內存使用率和磁盤 I/O 等關鍵指標,LLM 可以確定哪些參數(如緩存大小、并發連接數或索引策略)需要調整以提升系統性能。其次,LLM 具備實時學習和適應能力,能夠基于持續收集的性能數據,動態調整參數設置,確保系統始終處于最佳運行狀態。此外,LLM 還能夠分析不同參數調整對系統性能的影響,幫助運維人員在實施變更前評估其潛在效果,降低調優風險。通過自動化的參數調優,LLM 不僅簡
187、化了運維流程,還顯著提升了圖數據庫的響應速度和資源利用效率,確保系統能夠高效處理復雜查詢和大規模數據操作,增強整體系統的可靠性和可維護性。Graph+AI:大模型浪潮下的圖計算 52 3.5.2.3 存儲效率優化存儲效率優化 3.5.2.3.1 數據預取與緩存數據預取與緩存 傳統數據庫通常采用幾種數據預取與緩存策略來優化 I/O 效率,包括基于 LRU(最近最少使用)算法的緩存管理、預取策略如順序預取和基于訪問模式的預取。這些策略依賴固定的規則和啟發式算法,通常根據用戶的歷史訪問記錄來決定哪些數據應被緩存。然而,這些方法往往無法靈活適應用戶行為的變化,且對復雜的訪問模式識別能力較弱。相比之下,
188、LLM 在數據預取與緩存策略方面展現出顯著優勢。首先,LLM 通過深度學習和自然語言處理,可以更深入地理解用戶的查詢意圖和上下文,能夠識別出更復雜的訪問模式。這使得LLM 能夠預測用戶未來的需求,從而更準確地決定哪些數據應該被預取并加載到緩存中。其次,LLM 的自適應能力使其能夠實時調整策略,快速響應用戶行為的變化,而傳統數據庫往往需要手動調節或重新配置。最后,LLM 能夠綜合考慮多種因素(如時間、用戶行為和數據特性)來優化緩存策略,提升數據訪問的效率和準確性。3.5.2.3.2 存儲索引設計存儲索引設計 一)一)存儲結構存儲結構 傳統圖數據庫采用多種存儲結構來高效管理節點和邊的數據,例如壓縮
189、稀疏列(CSC)、壓縮稀疏行(CSR)、鏈表(Linked List)和鍵值對(KV Pair)等。這些存儲結構在不同的應用場景下各具優勢。例如,CSC 和 CSR 適用于高效的矩陣運算和快速的鄰接訪問,鏈表結構便于動態插入和刪除操作,而 KV Pair 則在處理稀疏數據和靈活的模式匹配方面表現出色。然而,這些傳統方法通常依賴于固定的存儲策略,難以根據實時數據和查詢模式的變化進行動態優化。引入大語言模型(LLM)后,系統可以通過深度學習和數據分析,自動識別最適合當前數據特性和訪問模式的存儲結構。LLM 能夠根據節點和邊的屬性、查詢頻次以及數據分布情況,智能選擇或組合不同的存儲結構,從而提升數據
190、訪問效率和存儲利用率。二)二)索引設計索引設計 索引設計是提升圖數據庫查詢性能的關鍵因素,傳統方法通常依賴預定義的索引策略,如基于節點屬性、關系類型或路徑模式的索引。這些方法在處理靜態的查詢模式時效果顯著,但在面對動態和復雜的查詢需求時,往往難以保持高效性。大語言模型(LLM)的引入為索引設計帶來了智能化的提升。LLM 通過分析海量的查詢日志和數據模式,能夠深入理解復雜的查詢意圖和數據關系,自動識別最具價值的索引結構?;趯崟r的查詢頻次、數據訪問路徑和節點關系,LLM 可以生成最優的索引方案,如多維索引、組合索引或分層索引,顯著提升查詢響應速度。此外,LLM 具備自適應學習能力,能夠持續監測系
191、統的查詢負載和數據變化,動態調整索引策略,確保索引結構始終與實際需求高度匹配。Graph+AI:大模型浪潮下的圖計算 53 3.5.2.4 系統安全增強系統安全增強 隨著圖系統在各個領域的廣泛應用,如金融、醫療、社交網絡等,其存儲和處理的數據變得越來越敏感和重要。此外,頻繁發生的黑客攻擊和數據泄露等事件給企業和用戶造成了巨大的損失。因此,加強圖系統的安全防護,提高其安全性能,成為了當務之急。3.5.2.4.1 數據加密數據加密 在圖數據庫中,數據的敏感性各異,因此自動加密策略顯得尤為重要。大語言模型(LLM)能夠分析數據的敏感度,自動生成相應的加密規則,以保護關鍵數據不被未授權訪問。這種自動化
192、的加密策略不僅提高了數據安全性,還減少了人為錯誤的風險。密鑰管理是安全防護的核心。借助 LLM 的語義理解能力,系統可以提高密鑰分配和管理的智能化水平,確保密鑰的安全性與有效性。通過深入分析密鑰使用情況和訪問模式,LLM 能夠優化密鑰生命周期管理,確保密鑰的及時更新和安全存儲。當人工設置的防護級別滯后或不匹配時,LLM 可以自動調整加密策略或向人類專家發出提示。這種動態調整機制確保系統始終處于最佳防護狀態,及時響應變化的安全需求。通過結合 LLM 的自動化能力與人類專家的判斷,數據加密和密鑰管理的整體安全性得以提升,確保敏感數據在圖數據庫環境中的安全性和完整性。3.5.2.4.2 漏洞管理漏洞
193、管理 編譯階段,LLM 對圖數據庫的源代碼進行靜態分析,檢查代碼中的潛在漏洞和不符合安全規范的部分。通過高級的自然語言處理技術,LLM 能夠識別代碼中的安全缺陷,如未處理的輸入驗證、權限管理漏洞等,確保在代碼進入測試階段前,盡可能地減少已知的安全問題。測試階段,LLM 輔助自動化生成和執行測試用例,包括常規測試和極端情況(Edge Case)測試。通過模擬各種可能的攻擊場景和異常行為,LLM 能夠有效地驗證代碼的安全性和穩定性。自動化的測試流程不僅提高了測試的覆蓋率,還確保了在面對復雜和罕見的情況時,系統能夠保持穩健,減少潛在漏洞被利用的風險。部署階段,LLM 負責實時監控圖數據庫的運行狀態,
194、通過分析日志和網絡流量,及時發現異常模式和潛在的安全威脅。LLM 能夠主動識別并評估新出現的風險,提供實時的風險預警和響應建議。此外,LLM 還可以根據監控數據動態調整安全策略,確保圖數據庫在實際運行環境中的持續安全與穩定,預防數據泄露或損壞。通過“編譯-測試-部署”三個節點的全面覆蓋流程,充分發揮了 LLM 在漏洞管理各個環節中的優勢,從源代碼的靜態檢查,到測試階段的全面驗證,再到部署后的實時監控,全面提升了圖數據庫的安全性和可靠性。Graph+AI:大模型浪潮下的圖計算 54 3.5.2.4.3 安全監控安全監控 實時安全監控是保障圖數據庫安全的重要環節。LLM 能夠學習正常的行為模式,并
195、實時檢測異?;顒?,從而及時發現潛在的安全威脅。通過分析用戶行為、訪問模式和數據流量,LLM 能夠識別出與正常行為偏離的活動。在安全事件發生時,LLM 結合強大的理解和分析能力,可以快速響應,提高事件處理的效率,減輕安全團隊的負擔。其自動化的響應機制能夠在第一時間采取防護措施,阻止進一步的損害。3.5.2.4.4 智能決策智能決策 在圖數據庫安全防護中,大語言模型(LLM)通過自動化安全流程與智能化決策的緊密結合,顯著提升了整體的安全性和響應效率。首先,LLM 在自動化安全流程中發揮了關鍵作用,它能夠自動解析和分析海量的安全日志,識別異常行為和潛在威脅,從而大幅減少人工審查的工作量。同時,LLM
196、 能夠自動掃描系統漏洞,生成修復腳本和建議,加快漏洞修復的進程。通過持續監控用戶活動,LLM 還能及時識別不合規操作并發出警報,有效防范內部威脅。這樣的自動化流程不僅釋放了人力資源,還使安全團隊能夠專注于處理更復雜的問題,提升了整體的安全防護能力。在自動化流程的基礎上,LLM 進一步通過其卓越的文本分析和推理能力,整合了來自多個來源的安全知識和最佳實踐,形成了龐大的知識庫。這使得安全專家能夠隨時進行即時查詢和分析,快速獲取所需信息,從而大幅提高工作效率。此外,LLM 還能夠模擬不同的安全場景,幫助專家評估各種策略的效果,優化應急預案,增強決策的針對性和科學性。這一過程不僅提升了安全團隊的響應速
197、度,也確保了決策的準確性和有效性。隨著 LLM 對大量數據的深度語義理解和模式識別能力的發揮,它能夠識別出潛在的安全模式和趨勢,理解事件之間的關聯性。通過結合歷史數據和實時信息,LLM 構建了動態的風險評估模型,能夠預測潛在威脅并量化其影響。這使得 LLM 能夠主動識別風險,發現異常模式,為安全團隊提供全面的風險視角,并提前預警潛在的安全事件,確保圖數據庫系統的持續安全。在 LLM 整合安全知識庫,并對潛在的風險進行識別后,LLM 能夠為安全專家提供自動化的只能決策?;趧討B風險評估模型,LLM 預測不同威脅的可能性及其影響,幫助專家制定修復策略的優先級,確保關鍵漏洞得到迅速解決,降低潛在損失
198、。同時,LLM 還可以根據實時監控數據動態調整安全策略,優化整體防護措施,確保決策的及時性和有效性。Graph+AI:大模型浪潮下的圖計算 55 3.5.2.5 產品體驗優化產品體驗優化 3.5.2.5.1 自然語言交互自然語言交互 大語言模型(LLM)的核心優勢在于其對自然語言的高度理解和生成能力,它能夠模擬人類的語言交流,提供更智能的互動體驗。在圖數據庫系統中,智能化的交互可以通過 LLM 快速回應用戶的問題,減少對人工客服的依賴。例如,當用戶在查詢數據時遇到問題,LLM 能夠快速理解請求,并提供有效的解決方案,減少等待時間。此外,LLM 還可以與語音識別技術結合,實現語音交互,使得用戶可
199、以通過語音完成復雜的數據查詢和操作。這種自然語言交互適應不同用戶需求,大大提升了服務的便捷性和用戶體驗的流暢度。3.5.2.5.2 用戶體驗定制用戶體驗定制 個性化是現代用戶體驗的重要組成部分,LLM 能夠根據用戶的行為數據、歷史偏好以及當前上下文生成個性化的推薦和內容。在圖數據庫系統中,LLM 可以分析用戶的查詢歷史,推薦相關的數據集或信息,提升用戶的使用體驗。同時,LLM 還能夠為用戶生成個性化的對話,例如智能助手可以根據用戶的日常習慣提供定制化的查詢建議。這種個性化體驗不僅增加了用戶的參與度,還能使用戶感受到系統的智能與貼心。3.5.2.5.3 查詢意圖識別查詢意圖識別 查詢意圖識別是
200、LLMs 在優化用戶體驗中的一個關鍵功能,尤其適用于處理模糊或不完整的用戶問題。當用戶提出的問題有多個可能的匹配時,LLMs 能夠通過智能反問,快速引導用戶澄清需求,并縮小范圍。特別低,是在圖數據庫系統中,一個模糊的問題可能有非常多的匹配,需要 LLMs 對用戶的查詢意圖進行反問和識別。例如,用戶在電影查詢中提出“我想找一個愛情電影,他的導演同時也是演員”這樣一個模糊的問題時,圖數據庫中可能存在大量滿足條件的結果,如果講所有結果同時返回,用戶不得不逐個檢查,造成用戶體驗不佳。此時,LLMs 可以進一步詢問:“這部電影是哪個國家的”“這部電影是何時上映的”通過這樣的問題澄清,引導用戶澄清需求,并
201、縮小范圍,減少用戶的困惑和等待時間。這種高效的查詢意圖識別提升了問題解決的準確性,優化了用戶體驗。3.5.2.5.4 多語言與全球化多語言與全球化 在全球化的市場中,提供多語言支持對于吸引和留住國際用戶至關重要。LLM 具備強大的多語言處理能力,可以理解并生成多種語言的內容,從而實現跨語言的無縫溝通。例如,圖數據庫系統在為不同地區的用戶提供服務時,LLM 能夠自動翻譯用戶的請求,并生成相應語言的回應,減少因語言差異帶來的溝通障礙。這不僅能夠提高用戶滿意度,還能增強系統在全球市場中的競爭力。Graph+AI:大模型浪潮下的圖計算 56 3.5.2.5.5 用戶反饋優化用戶反饋優化 LLM 還可以
202、幫助圖數據庫系統更好地分析和處理用戶反饋,推動產品和服務的持續改進。借助LLM,系統能夠快速處理海量的用戶評論和反饋數據,并從中提取有價值的建議。例如,LLM 可以根據用戶的評價數據,發現系統中的常見問題,并生成改進方案的建議。這種自動化分析不僅節省了時間和人力,還提高了反饋處理的效率,幫助系統快速迭代,精準滿足用戶需求。3.5.2.5.6 數據隱私保護數據隱私保護 在優化用戶體驗的過程中,數據安全和隱私保護是不可忽視的重要因素。LLM 能夠幫助圖數據庫系統實現更好的數據管理和隱私保護。例如,LLM 可以通過自動化的數據脫敏技術,在用戶數據的傳輸和分析過程中去除敏感信息,確保用戶隱私得到保護。
203、此外,LLM 還能夠通過分析用戶的語言模式和行為,識別潛在的安全威脅,如網絡欺詐和數據泄露。在金融或醫療領域,LLM 可以實時監控用戶的查詢記錄,識別異常行為,提供反欺詐預警。這種對安全性的提升,不僅增加用戶對系統的信任,也能有效降低風險。通過智能化的語言交互、個性化推薦、情感分析、多語言支持、反饋優化與數據安全保障,大語言模型在優化圖數據庫系統用戶體驗上展現了廣泛的應用前景。系統通過合理應用 LLM,能夠大幅提升服務的智能化和個性化水平,從而在競爭激烈的市場中脫穎而出。未來,隨著 LLM 技術的不斷發展,它在優化用戶體驗方面的作用將會更加顯著,圖數據庫系統應積極探索并整合這一技術,打造更為出
204、色的用戶體驗。3.5.3 GraphRAG 3.5.3.1 背景背景 3.5.3.1.1 LLM 發展及其挑戰發展及其挑戰 近年來,大規模語言模型(LLM)在自然語言處理領域取得了顯著進展。模型如 GPT-3 和 GPT-4,通過學習大量的文本數據,能夠生成自然流暢的文本,進行自動翻譯,并且處理對話和文本總結等任務。這些技術突破使得計算機能夠更好地理解和生成語言,從而提升了許多應用場景的智能水平。盡管 LLM 在很多任務中表現出色,它們仍面臨一些挑戰。首先,在處理長文本時,LLM 有時會丟失上下文信息,導致生成的內容前后不一致。其次,由于這些模型基于靜態的訓練數據,對于新信息的適應能力較弱,可
205、能會生成過時或不準確的內容,特別是在涉及專業領域時。具體而言,LLM 存在以下幾個主要問題:1 1、生成幻覺(生成幻覺(HallucinationHallucination):LLM 有時會生成不真實或虛假的信息,這種現象被稱為“生成幻覺”。例如,當遇到特定或冷門的問題時,模型可能會創建出看似合理但實際上并不存在的Graph+AI:大模型浪潮下的圖計算 57 答案。這是因為模型在生成內容時,主要依賴于從訓練數據中學習到的模式,而不是準確區分真實和虛假的信息。2 2、專業知識不足(專業知識不足(Domain Knowledge DeficiencyDomain Knowledge Deficie
206、ncy):雖然 LLM 在處理通用話題時表現良好,但在特定專業領域(如醫學、法律等)的知識深度和準確性可能不足。這些模型的訓練數據通常涵蓋的是通用內容,導致在這些領域的生成結果可能缺乏足夠的專業性和可靠性。3 3、信息時效性低(信息時效性低(Low Temporal RelevanceLow Temporal Relevance):LLM 的訓練數據是靜態的,這意味著模型在訓練完成后不會自動更新。因此,模型在面對最新信息或近期事件時,可能無法提供最新的回答。例如,對于最近的科技進展或新聞事件,模型可能無法及時反映,從而生成過時的信息。4 4、計算成本高(計算成本高(High Computati
207、onal CostHigh Computational Cost):訓練和運行 LLM 需要大量的計算資源,這使得其成本相對較高。大規模的計算和存儲需求不僅增加了經濟成本,也對環境造成了負擔。許多組織可能難以承擔這些高昂的費用。5 5、黑箱特性(黑箱特性(Black Box NatureBlack Box Nature):LLM的內部決策過程復雜且不透明,這種特性被稱為“黑箱”問題。模型的工作機制對用戶來說是不可見的,這使得在模型出現問題時,難以追蹤具體原因并進行改進。這種缺乏可解釋性的問題限制了對模型的優化和調整,影響了其長期的可靠性和改進能力。3.5.3.1.2 檢索增強生成檢索增強生成
208、RAG 及其局限性及其局限性 檢索增強生成 RAG(Retrieval Augmented Generation,RAG)是一種將檢索和生成相結合的技術框架。在生成答案時,RAG 不僅依賴于預訓練模型的內部知識,還通過從外部知識庫中檢索相關信息來增強生成過程。具體而言,RAG 包含以下兩個主要階段:檢索階段(檢索階段(RetrieveRetrieve):從知識庫中檢索與用戶查詢相關的文檔或信息。生成階段(生成階段(GenGenerateerate):利用檢索到的外部信息和用戶輸入,通過生成模型生成答案。這種方法能夠彌補生成模型的知識盲點,提供更加準確和可靠的回答。RAG 的目標是通過知識庫增強
209、內容生成的質量,通常做法是將檢索出來的文檔作為提示詞的上下文,一并提供給大模型讓其生成更可靠的答案。更進一步地,RAG 的整體鏈路還可以與提示詞工程(Prompt Engineering)、模型微調(Fine Tuning)、知識圖譜(Knowledge Graph)等技術結合,構成更廣義的 RAG 問答鏈路。Graph+AI:大模型浪潮下的圖計算 58 圖 3.14 廣義的 RAG 問答鏈路 除了增強內容生成,RAG 的理念還可以進一步泛化到鏈路的其他階段:增強訓練增強訓練:引入知識檢索器增強大模型預訓練,以改進大模型的問答質量和可解釋性。增強微調增強微調:實現對大模型和檢索器的雙指令微調,
210、RAFT 通過微調讓大模型可以識別干擾文檔。增強語料增強語料:支持多模態數據的檢索,提升了大模型在文本/圖像混合檢索場景下的推理質量。增強知識增強知識:使用圖社區摘要解決總結性查詢任務的問題,將知識圖譜技術應用到 RAG。增強檢索增強檢索:通過對檢索到的文檔置信度進行評估,提升問答上下文的質量。增強推理增強推理:在推理階段將 RAG 與 CoT 相結合,以改進長期推理和生成任務的效果。知識庫作為 RAG 鏈路的核心組件,直接影響了知識的存儲與召回。支持融合索引(Converged Index)的知識庫,可以更好地應對多樣化的應用場景,因此設計通用的 RAG 架構應該兼容多種知識索引格式,包括
211、GraphRAG。RAG 也有一些局限性。例如,RAG 在處理事務關聯時的能力有限。想象一下,如果你需要回答一個關于公司內部部門之間合作關系的問題,RAG 可能無法有效整合涉及不同部門的復雜關系。比如,問到“研發部門如何與市場部門協作以推出新產品?”,RAG 可能會從知識庫中提取關于研發和市場的一般信息,但難以綜合它們之間的具體關系和交互細節,從而提供一個準確的答案。3.5.3.1.3 基于圖的新型檢索增強生成技術基于圖的新型檢索增強生成技術 GraphRAG GraphRAG 在 RAG 模型的基礎上進行了改進,引入了圖結構來處理信息。與傳統的 RAG 模型不同,GraphRAG 將知識表示
212、為圖,并利用圖中節點和邊的關系來改進信息檢索和生成。這種圖結構能夠捕捉和處理復雜的關系和事務關聯,從而提供更準確、更全面的結果。Graph+AI:大模型浪潮下的圖計算 59 例如,在處理公司部門協作的問題時,GraphRAG 可以通過圖結構明確表示研發部門和市場部門之間的關系、溝通渠道和合作歷史,從而生成一個更為詳細和精準的回答。這使得 GraphRAG 特別適合那些涉及復雜數據和多層次關系的領域,如知識圖譜、電子商務和醫療等。GraphRAG 通過有效利用圖結構中的信息,提升了檢索和生成的質量,使得生成模型不僅能夠處理傳統的文本數據,還能更好地整合和利用復雜的關系數據,從而提供更智能、更高效
213、的解決方案。相比于傳統 RAG,GraphRAG 從增強知識確定性角度做了進一步的改進,也就是知識內容增強的思路。圖 3.15 一般的 GraphRAG 鏈路 3.5.3.2 GraphRAG 概述概述 本節將探討 GraphRAG 的技術原理,闡述其核心概念以及在檢索增強生成(Retrieval Augmented Generation,RAG)中的應用方式。通過理解 RAG 和 GraphRAG 的定義,以及圖索引和檢索策略,讀者將更好地掌握如何利用圖結構和算法提升知識索引和召回的效率和效果。3.5.3.2.1 基本概念基本概念 GraphRAG 是在 RAG 框架中引入圖結構、圖查詢和圖
214、算法的一系列方法的總稱。它通過在知識索引和召回階段利用圖形數據結構,增強了知識的表示和檢索能力。GraphRAG 的核心思想包括:知知識表示識表示:將原始知識抽取并組織成圖狀結構,如知識三元組、屬性圖等。圖索引圖索引:利用圖索引技術高效地存儲和檢索圖形化的知識數據。圖檢索圖檢索:在檢索階段,使用圖查詢和圖算法,從圖結構中獲取相關的知識。在 GraphRAG 中,圖結構的作用尤為重要。傳統的 RAG 模型主要依賴于線性的檢索方式,這意味著模型從知識庫中逐條檢索信息。而圖結構則通過節點和邊的關系,提供了更為豐富的上下文信息。在信息檢索中,圖結構能幫助模型識別和利用信息之間的復雜聯系。例如,處理涉及
215、多個實體和其相互關系的問題時,圖結構能夠清晰地展示這些實體和關系,從而提高檢索的準確性和相關性。Graph+AI:大模型浪潮下的圖計算 60 在生成文本的過程中,圖結構通過提供多層次的關系信息,幫助模型生成更連貫和上下文一致的內容。圖中的節點代表具體的知識點,邊則表示這些知識點之間的關系。這種結構化的表示方式幫助生成模塊更好地理解和整合信息,從而避免了信息遺漏或前后不一致的問題。GraphRAG 還引入了多模態信息融合的概念。這意味著模型不僅依賴于文本信息,還能夠整合來自圖結構的多種信息源。具體來說,GraphRAG 結合了圖中的結構信息和文本信息來生成內容。這種融合方式可以顯著提升生成任務的
216、質量,使得模型能夠提供更豐富、更深入的回答。例如,在處理醫學領域的問題時,GraphRAG 能夠結合醫學知識圖譜中的疾病、癥狀、治療方法等信息與生成模型的文本生成能力,從而提供更全面和準確的醫學建議。通過多模態信息融合,GraphRAG 能夠更好地利用圖結構中的關系和上下文信息,從而生成具有更高深度和廣度的內容。3.5.3.2.2 主要組件主要組件 GraphRAG 模型由三個核心組件構成:圖索引組件、圖檢索組件和增強生成組件。這些組件協同工作,提高信息檢索和生成的效果。一)一)圖索引組件圖索引組件 圖索引組件負責通過自然語言處理或大型語言模型將外部知識庫中的信息抽取并組合成圖狀結構。具體包括
217、:知識三元組(知識三元組(SubjectSubject-PredicatePredicate-ObjectObject):從文本中抽取實體(如人名、地點)及其關系(如“屬于”),形成基本的知識單元。屬性圖(屬性圖(Property GraphProperty Graph):在節點和邊上附加屬性信息,豐富圖的語義。圖譜狀知識與原文片段關聯圖譜狀知識與原文片段關聯:將圖結構與原始文本片段關聯,保留上下文信息。關聯原始知識生成的問答對和摘要關聯原始知識生成的問答對和摘要:通過關聯原始知識,生成相關的問答對和摘要,豐富圖的內容。此外,GraphRAG 還支持利用現有的圖狀數據或知識圖譜作為知識來源。這
218、些現有的數據可能包括:公共知識圖譜公共知識圖譜:如維基百科、DBpedia 等公共資源,包含大量實體和關系。企業內部知識圖譜企業內部知識圖譜:由企業構建的專有領域知識圖譜,涵蓋特定行業或業務領域的信息。多表多表 ETLETL 導入的圖數據導入的圖數據:從多個數據表經過 ETL(抽取、轉換、加載)流程導入的圖形數據。通過直接利用這些現有的圖狀數據,GraphRAG 可以避免從頭開始構建圖結構,充分發揮已有知識資源的價值。Graph+AI:大模型浪潮下的圖計算 61 通過圖索引組件,GraphRAG 將知識以結構化方式組織,并定期更新圖,保持其準確性和時效性,準備好供后續檢索和生成使用。二)二)圖
219、檢索組件圖檢索組件 圖檢索組件從圖結構中提取與用戶問題相關的信息,在 RAG 的檢索階段,利用圖結構和特性,可以采用多種召回策略,以充分發揮圖形化知識的優勢。1 1、關鍵實體的提取與圖檢索關鍵實體的提取與圖檢索 在查詢時,從用戶的問題中提取關鍵實體,然后在圖中進行檢索:實體匹配實體匹配:找到與關鍵實體對應的節點。關系擴展關系擴展:沿著圖中的邊,探索與關鍵實體相關的節點和關系。子圖提取子圖提?。禾崛∨c查詢相關的子圖,作為知識檢索的結果。這種方法利用了圖結構中實體和關系的顯式表示,能夠高效地獲取相關知識,并通過大型語言模型的上下文學習合成答案。2 2、圖算法的應用圖算法的應用 利用圖算法,可以進一
220、步優化檢索結果和答案生成過程:節點重要性評估節點重要性評估:使用節點中心性等算法,評估節點的重要性,優先檢索關鍵節點的信息。聚類分析聚類分析:通過社區發現等方法,將圖中的節點分組,獲取宏觀的知識結構。路徑搜索路徑搜索:尋找兩個實體之間的最短路徑,揭示它們之間的關系鏈條。這些算法有助于處理知識的權重和宏觀總結信息,提高答案的準確性和相關性。3 3、利用現有的圖狀數據和知識圖譜利用現有的圖狀數據和知識圖譜 在存在現有圖狀數據或知識圖譜的場景下,GraphRAG 可以直接利用這些數據作為知識來源,增強檢索和生成能力。對于數值型的圖數據(如社交網絡、物流網絡等),系統可以:文本到查詢轉換(文本到查詢轉
221、換(TextText-toto-QueryQuery):利用大型語言模型,將用戶的自然語言需求轉換為圖查詢(如路徑計算、最短路徑搜索)。代理工具調用(代理工具調用(Agentic ToolsAgentic Tools):通過代理式工具,執行相應的圖計算和數據檢索。結果解釋與呈現結果解釋與呈現:將計算結果以易于理解的形式返回給用戶。對于知識型的圖數據(如公共知識圖譜、企業內部知識圖譜):Graph+AI:大模型浪潮下的圖計算 62 本地搜索召回本地搜索召回:直接從知識圖譜中檢索相關的實體和關系。知識擴展知識擴展:利用圖譜的連接性,發現與查詢相關的更多信息。答案生成答案生成:結合檢索結果,生成準確
222、且豐富的回答。通過利用現有的圖狀數據,GraphRAG 可以充分發揮這些資源的價值,提高系統的效率和效果。4 4、全局與局部問題的處理全局與局部問題的處理 全局性宏觀問題全局性宏觀問題:如“哪些文章的觀點比較獨特”,系統會從圖上的所有知識聚類的總結中獲取信息,作為 RAG 上下文,用于回答全局性問題。局部性問題局部性問題:從圖上的關鍵知識點出發,找到相關的知識鏈條與原始知識塊,回答具體的問題。三)三)增強生成組件增強生成組件 增強生成組件利用圖檢索模塊提供的信息生成最終的回答或文本,功能包括:上下文融合上下文融合:將檢索到的信息與用戶的問題結合,形成完整上下文。文本生成文本生成:使用生成模型生
223、成自然流暢的回答。質量評估質量評估:檢查生成的文本,確保其準確性和一致性。增強生成組件通過結合圖信息,生成更精確和豐富的回答。3.5.3.3 GraphRAG 的優勢的優勢 GraphRAG 在檢索增強生成(RAG)框架中引入圖結構和算法,具有以下顯著優勢:1 1、細粒度知識點的提取細粒度知識點的提?。和ㄟ^構建圖狀結構,GraphRAG 能夠從原始知識中提取細粒度的知識點,如實體、屬性和關系。這使得系統在回答具體問題時,能夠提供更加精準和詳細的答案。2 2、深層次關聯的挖掘深層次關聯的挖掘:利用圖結構固有的連接性,GraphRAG 可以深入挖掘知識中的深層次關聯,發現隱藏的關系鏈條。這有助于提
224、供更全面的知識視角,支持復雜問題的解答和推理。3 3、最佳利用現有圖狀知識最佳利用現有圖狀知識:對于已有的圖狀數據或知識圖譜,GraphRAG 提供了最優的利用方式。無需重新構建,直接將現有的圖數據納入系統,實現資源的高效利用和價值最大化。4 4、全局性宏觀問題的領先解決方案全局性宏觀問題的領先解決方案:在回答全局性宏觀問題時,GraphRAG 通過對圖結構的全局分析和聚類,總結出整體性的知識概覽。相比傳統方法,GraphRAG 提供了當前最先進(state-of-the-art)的解決方案。Graph+AI:大模型浪潮下的圖計算 63 5 5、對傳統對傳統 RAG RAG 的有效補充的有效補
225、充:傳統 RAG 通常采用分塊方式處理知識,而 GraphRAG 作為一種自然且有效的補充方法,利用圖結構豐富的關聯信息,彌補了分塊處理的局限性,提升了知識檢索和答案生成的質量。GraphRAG 提供了一種強大的知識索引和檢索方法。通過利用圖形化的知識表示和檢索策略,GraphRAG 能夠更好地捕獲知識之間的復雜關系,提升檢索效率和答案質量。在存在現有圖狀數據或知識圖譜的場景下,GraphRAG 能夠充分利用這些資源,為構建智能化、可擴展的知識應用平臺奠定了堅實的基礎。3.5.3.4 GraphRAG 的改進策略的改進策略 最簡單的 GraphRAG 方案存在知識抽取困難、知識表示不全、知識召
226、回不準等問題,因此需要綜合多種手段改進 GraphRAG 鏈路,如引入文檔結構、圖社區摘要、混合索引等。圖 3.16 一種改進的 GraphRAG 鏈路 總的來看,可以從以下幾個方面對 GraphRAG 鏈路進行改進:1 1、增強索引增強索引:擴充信息來源、增強知識抽取能力,從數量和質量上提升文檔索引效果。2 2、增強存儲增強存儲:優化知識圖譜結構,提升知識庫的存儲質量和效率。3 3、增強檢索增強檢索:支持多樣化的知識庫信息檢索與召回,應對多樣化的問答場景。3.5.3.4.1 增強索引增強索引 一)一)引入文檔結構信息引入文檔結構信息 一般的 GraphRAG 鏈路在處理語料時,首先將文檔拆分
227、為文本塊,并抽取每塊文本的實體和關系信息。然而這種處理方式會導致實體與文檔結構之間的關聯信息丟失。文檔結構本身蘊含了重Graph+AI:大模型浪潮下的圖計算 64 要的層級關系,可以為知識圖譜檢索提供重要的上下文信息。另外,保留文檔結構有助于數據的溯源,為問題答案提供更為可靠的依據。圖 3.17 帶文檔結構信息的知識圖譜 二)二)上下文關聯能力上下文關聯能力 使用大模型進行知識抽取時,完整的上下文對結果有顯著影響。在抽取過程中,存儲已處理的文本塊信息,在調用大模型時將關聯度較高的歷史文本塊作為上下文,連同要抽取的文本塊一起提供給大模型。盡管這種方法可能導致一些 token 的浪費,但保留完整的
228、上下文有助于提升了抽取結果的質量。三)三)優化知識抽取提示詞優化知識抽取提示詞 當下通用大模型對圖數據結構的理解能力還有很大的改進空間,借助大模型工程技術改進大模型對圖的理解能力,可以有效地提升知識抽取結果的質量。通過優化提示詞,增強大模型對知識的理解力。從提示詞的基本結構出發,可以從以下方面提升知識抽取效果。角色:給大模型設定“知識圖譜工程專家”的角色,可以收獲意想不到的效果,讓輸出更加專業、穩定。指令:指示大模型需要完成的任務,如三元組抽取、元素總結等。上下文:向大模型提供任務相關的背景、技能列表等,也可以通過思維鏈引導大模型做出更細致的處理,比如如何抽取實體、關系,如何使用跨文檔關聯信息
229、。約束:對大模型的行為設定限制條件,避免不恰當的處理和幻覺,保證穩定性輸出。輸入:大模型要執行任務的輸入,即知識抽取的原始信息,包括待抽取文本和關聯性段落。Graph+AI:大模型浪潮下的圖計算 65 輸出格式:指定大模型輸出的特定格式,方便后續的解析處理。樣本:提供案例樣本供大模型參考,提高輸出的準確度。四)四)知識抽取微調模型知識抽取微調模型 借助于專有的知識抽取微調模型,讓特定領域的知識抽取更加高效。比如由螞蟻和浙大聯合研發的大模型知識抽取框架 OneKE 在零樣本泛化性能上全面超過了現有模型。圖 3.18 知識抽取模型示例 圖 3.19 知識抽取智能體49 Graph+AI:大模型浪潮
230、下的圖計算 66 五)知識抽取智能體五)知識抽取智能體 借助于智能體引入記憶和反思機制,可以進一步提升知識抽取的準確性。如 AgentRE 框架可以解決在復雜場景中關系抽取面臨的關系類型多樣、實體間關系模糊等問題。3.5.3.4.2 增強存儲增強存儲 一)一)引入高維圖特征引入高維圖特征 受限于大模型本身對圖譜的理解能力,直接基于抽取后知識圖譜做問答并不一定能獲得可靠的答案。為了讓知識圖譜的數據可以更好地被大模型所理解,借助于圖計算領域的技術,為知識圖譜賦予更多樣化的高維圖特征,協助大模型理解圖譜數據,進一步改善問答質量。具體的手段包括但不僅限于:二跳圖特征:最直接的圖特征計算方式,提供節點的
231、鄰居信息,如節點公共鄰居、鄰居聚合指標等。路徑特征:借助于圖上路徑算法,描述節點間的連通特征,如最短路徑、DFS/BFS、隨機游走等。社區特征:聚合相似節點集合,描述節點間的同質特征,進一步提供社區摘要,如 LPA、Luvain、Leiden 等。重要性特征:描述節點的重要程度,輔助提取關鍵信息,如 PageRank、節點聚集系數等。二)二)關聯原始文檔關聯原始文檔 前邊提到的文檔結構信息標記了實體的文檔來源,但不能具體甄別關系的具體來源。如果需要進一步細化知識圖譜中的數據來源粒度,需要在關系上保留具體的來源文檔 ID 和文本塊 ID。檢索階段時,可以將知識圖譜子圖中關系邊涉及到的文檔和文本塊
232、詳情一并提供給大模型上下文,避免知識抽取過程導致的文檔細節內容丟失的問題。三)三)支持融合索引支持融合索引 隨著大模型技術的興起,融合索引(Converged Index)能力支持,已逐步成為數據庫和大數據產品的重要技術發展路線,當然作為知識圖譜的底座,圖數據庫也不例外。本質上,融合索引可以有效地打通大數據和大模型場景,基于一套數據存儲,提供多樣化的查詢分析支持。主流的索引格式包括但不限于:表索引:提供傳統的關系型數據查詢與分析能力,實現基于表數據的過濾、分析、聚合等能力。圖索引:提供關聯數據分析能力以及圖迭代算法,實現基于圖數據的高維分析與洞察。Graph+AI:大模型浪潮下的圖計算 67
233、向量索引:提供向量化存儲與相似性查詢能力,擴展數據檢索的多樣性。全文索引:提供基于關鍵詞的文檔查詢能力,擴展數據檢索的多樣性。其他:例如多模態數據的索引,如圖片、音頻、視頻等。四)四)存儲格式增強存儲格式增強 在圖數據庫層面支持更多樣化的存儲格式,可以為知識圖譜提供更友好的交互界面和更高的查詢存儲性能。首先是“弱 Schema”能力,即無需事先聲明圖譜結構,允許上層應用隨意的修改圖譜數據。這樣的交互方式,尤其是對事前不能確定圖譜結構的知識圖譜構建任務來說非常重要,用戶可以根據自己的需要抽取三元組中的實體和關系數據,無需做特定的格式轉換便能寫入圖數據庫。另外,很多圖算法的結果圖特征一般需要通過臨
234、時字段寫回原圖,以便對圖譜進行信息增強,尤其是對實現無法確定使用哪一類圖算法的應用場景,弱 Schema 能力可以提供未聲明的字段的及時更新。然后是“多模態”能力,隨著大模型技術的不斷演進,多模態大模型、多模態 RAG、多模態知識圖譜的場景也相繼出現?,F有的圖數據庫大多數還是使用二進制類型存儲圖片、音頻、視頻等數據,對查詢性能有極大的影響,因此對多模態數據索引格式的支持,也是圖數據存儲格式亟待改進的方向。3.5.3.4.3 增強檢索增強檢索 一)一)支持混合檢索支持混合檢索 樸素意義的混合檢索可以理解為對多種存儲系統的并行多路召回,例如同時根據用戶的查詢進行向量數據庫的相似性召回、知識圖譜的檢
235、索。這樣做雖然實現方案比較簡單,但是存在多路召回的數據結果不相干,甚至矛盾的情況。這是因為原始數據是通過不同的格式多寫到異構的存儲系統,天然存在不一致性。而借助于融合索引的混合檢索則不會出現類似問題,用戶可以基于向量相似度或者關鍵詞直接召回知識圖譜中的子圖結構,從而保證的數據語義的一致性。除了并行多路召回,多種存儲系統也可以彼此輔助,構建更復雜的檢索方案。例如待社區摘要的知識圖譜,可以通過圖數據庫實現知識圖譜明細子圖的召回,同時通過向量數據庫提供社區摘要的相似性召回,為問答提供更完備的上下文信息。二)二)自然語言查詢自然語言查詢 基于自然語言查詢中關鍵詞的知識圖譜召回,只能做粗粒度的檢索,無法
236、精確地利用查詢文本中的條件、聚合維度等信息做精確檢索,也無法回答不包含具體關鍵詞的泛化查詢問題,因此正確地理解用戶問題意圖,并生成準確的圖查詢語句就十分有必要(參考章節 3.8 的內容)。而對Graph+AI:大模型浪潮下的圖計算 68 用戶問題的意圖識別和圖查詢生成,最終都離不開智能體解決方案。大多數情況下,我們需要結合對話的環境和上下文信息,甚至需要調用外部工具,執行多步推理,以輔助決策生成最理想的圖查詢語句。三)三)多跳推理能力多跳推理能力 多跳推理能夠更好地應對指導手冊類的文檔問答需求。Graph盡管相較于 Embedding Vector能夠更好地提取和存儲文檔中的思維鏈(CoT)和
237、行動鏈(CoA),但是目前還沒有完全適配檢索思維鏈和行動鏈的算法。為了解決這個問題,可以借助多跳推理及相關的算法滿足我們的需求。1、起始點選擇:分析查詢,找出相關的知識圖譜節點(可能多個)作為起點。2、路徑探索:從起點開始,在圖中進行有限深度的搜索(通常為 N 跳)。3、記錄探索過程中發現的路徑。4、路徑評分:對每條路徑進行評分,考慮因素包括:與查詢的相關性 路徑長度 節點的重要性 5、最佳路徑選擇:選擇評分較高的少數幾條路徑。6、上下文生成:將選中的路徑轉換為自然語言描述。7、與語言模型集成:將生成的描述作為上下文提供給大語言模型。引導模型使用這些信息來回答原始查詢??傊@個算法解釋了,如何
238、利用圖結構來增強大語言模型的理解和推理能力,特別是在處理需要多步思考的復雜問題時。Graph+AI:大模型浪潮下的圖計算 69 圖 3.20 多跳推理檢索 四)四)性能測試性能測試 傳統的 RAG 有一些比較成熟的性能測試方案,如 RAGAS、ARES、RECALL、RGB、CRUD-RAG等。截至目前為止,GraphRAG仍缺乏合理有效地性能測試方案。為了讓GraphRAG的優化方案更有的放矢,構建完備的 GraphRAG Benchmark 測試是當下亟待解決的問題。3.5.3.5 未來展望未來展望 3.5.3.5.1 技術挑戰技術挑戰 1、當前當前 GraphRAG 面臨的技術瓶頸面臨的
239、技術瓶頸 隨著現代社會中信息的爆炸式增長,各類新興實體、關系與事件不斷涌現,現有知識可能面臨著過時的問題。在這種背景下,知識圖譜的準確性與及時性受到了挑戰,亟需更加健壯的知識圖譜動態管理與維護策略。當知識圖譜的規模逐漸擴大時,從圖譜中檢索不同粒度信息(如實體、路徑等)的難度也隨之增加,針對大規模圖數據的高效檢索算法仍有待研究與開發。圖數據的質量和一致性也是一個持續的挑戰。圖中可能存在錯誤數據或不一致的關系,這會直接影響模型生成內容的準確性和可靠性。Graph+AI:大模型浪潮下的圖計算 70 此外,在工業生產中,知識源的表現形式往往并非單一,其通常涉及文檔、三元組、表格乃至音頻、視頻等不同模態
240、的數據。無法有效地整合與利用異質的知識類型可能成為制約 GraphRAG性能上限的一大瓶頸。2、潛在的解決方案與研究方向潛在的解決方案與研究方向 為了更有效地管理動態的知識,可以從知識圖譜的架構入手。例如,時序知識圖譜為每個事實三元組標記了生效的時間范圍,能反映事件隨時間的演化性,這一特性使其適合作為 GraphRAG的底層模式。而對于涌現的大量知識,可以嘗試知識過濾、去重等方式減小新增知識圖的規模,更新過時的知識。為緩解知識數量增長引起的檢索困難,需要設計分塊、并行、混合的檢索策略,以穩定整體性能。進一步地,對檢索得到的不同格式、模態信息,可以針對下游目標為模型設計合適的指令微調任務,以此縮
241、小不同知識源之間的語義鴻溝。3.5.3.5.2 發展方向發展方向 1、GraphRAG 在更廣泛領域的應用前景在更廣泛領域的應用前景 GraphRAG 已在通用領域中的多個任務(如開放域問答、推薦系統等)上證明了自身的潛力。近期的工作在醫療、金融等場景上取得了值得關注的進展。構建領域相關知識庫,使算法賦能各類細分領域將成為未來的研究與落地熱點。2、圖數據和生成模型的進一步融合圖數據和生成模型的進一步融合 結構化的圖數據與輸入生成模型的非結構化文本在語義空間中存在一定的偏差。為緩解這一困難,一些工作側重于將圖數據轉化為非結構化形式,如三元組、描述文本、代碼等,使之與生成模型兼容。另一些工作則利用
242、圖神經網絡對圖數據進行編碼,通過注意力、前綴調優等方式融合文本特征與圖特征。針對圖數據與生成模型探索更優的融合策略是提升GraphRAG整體性能的重要方向。3、下一代圖增強生成系統的展望下一代圖增強生成系統的展望 下一代圖增強生成系統應具有安全、透明、可解釋的特點。以問答場景為例,對檢索結果中可能存在的知識沖突或無關內容,系統需要正確地識別檢索返回的有用信息,并在知識匱乏時要求重新檢索或拒絕回答。當系統做出回答時,應當能同時給出相應的推理路徑與思考過程,以此提升回答的可信度。Graph+AI:大模型浪潮下的圖計算 71 3.5.4 智能體智能體 在大模型出現之前,智能體的研究主要用作策略函數,
243、解決一些具體場景中的問題,一般都是針對某個具體的任務在隔離環境中進行。直到大語言模型發布,智能體具備自主思考與決策的能力,智能體的研究與發展出現井噴式爆發發展。尤其是 AutoGPT、MetaGPT、AutoGen、ChatDev等項目與框架的出現,智能體的研究與應用浪潮被推到一個嶄新的高度。盡管大語言模型已經具備了一定的思考與決策的能力,但將其與現實世界打通,具備與跟實際環境交互的能力,初步具備類人的自主工作的能力,還需要很多工作要做,包括角色、記憶、思考規劃以及行動等。為了彌補 LLM 和自主智能體之間的差距,需要圍繞模型構建一套自主智能的架構,而這里關鍵的步驟智能體的架構的設計?;谝陨?/p>
244、的背景,我們在 DB-GPT 框架當中,設計了一套結合TuGraph 的數據驅動的多智能體協作框架,可以更好的結合多種數據進行智能體的構建與協作,主要包含一下核心特性:豐富的記憶支持:包括感知記憶、短期記憶、長期記憶、混合記憶等。支持多種協作模式:支持固定編排、動態規劃、預編排等。易集成:兼容主流的開源智能體協議,可以快速被其他智能體框架集成 數據驅動:智能體的思考、規劃、行動等環境都受到 DataFrame 上下文的驅動與約束。圖 3.21 多智能體協作框架 3.5.4.1 Profile 一個完整的智能體至少包含以下四個核心模塊:1.Profile、2.Memory 3.Plan 4.Ac
245、tion。Profile模塊在智能體中主要用來做角色認定,通常通過 Prompt 方式來進行指定,通過角色認定可以影響大語言模型的行為,智能體的 Profile 通常會說明其年齡、職業、心理、社會關系等。角色認定是一種重要的社會和組織機制,通過明確個體在特定系統或環境中的地位和職責,有助于維護秩序、Graph+AI:大模型浪潮下的圖計算 72 提升效率和促進合作。在實際應用中,描述智能體信息取決于業務場景。一個完整的 Profile 設定需要具備以下方面的信息:a)命名:即每個智能體的名稱代號,如 dbgpt b)角色:設定智能體的角色定義,如 Reporter c)目標:設定智能體的目標 d
246、)性格、社會關系等約束條件設定,如“你只負責收集和整理歷史消息中已經存在的分析GQL,不自行生成任何分析 GQL”3.5.4.2 Memory Memory 即智能體記憶模塊,主要用來存儲、獲取、檢索信息。在記憶存儲格式上,不僅支持自然語言、Embedding、關系存儲這樣簡單的格式,還支持復雜的圖存儲?;谪S富的存儲格式,進一步支持了多種記憶結構,如感知記憶、短期記憶、長期記憶、混合記憶等?;谟洃浤K,智能體可以具備長久的記憶,在降低幻覺的同時,可以進一步完成自我進化,完成更復雜的任務。同時基于圖的記憶,在復雜關系識別,反思等方面相比簡單記憶有更好的表現。圖 3.22 智能體記憶 3.5.
247、4.3 Plan 人類在面臨復雜任務時,人類傾向于將其構造為簡單的子任務并且獨立進行解決。Plan 模塊的目的是通過類人的能力,讓智能體的行為更具邏輯性、更強大、更可信。除了 CoT、ToT 之外,我們進一步發現基于圖的計劃更符合復雜任務的拆分邏輯,且更容易表達清楚任務之間的協作關系。3.5.4.4 Action Action 模塊負責將智能體的決策轉化為具體的結果。此模塊一般直接與環境進行交互,同時受Profile、Memory和 Plan 模塊的影響。Graph+AI:大模型浪潮下的圖計算 73 3.5.4.5 智能體工作流智能體工作流 我們基于 DAG(有向無環圖)設計了一套智能體工作流
248、表達式語言 AWEL(Agentic Workflow Expression Language)?;贒AG的智能體工作流可以確保智能體之間依賴關系與協作的正確性,同時基于 DAG 高效、強拓展、容錯等能力,讓智能體的編排更靈活。圖 3.23 智能體工作流架構 圖 3.24 智能體工作流樣例 3.5.4.6 多智能體協同多智能體協同 多智能體協同目前主要有以下幾種方案 1.基于 SOP 編排的協同 2.基于 ReACT 動態規劃協同 3.基于大語言模型 Auto-Plan 的預編排的協同。針對不同的場景可以選擇適合的協同方案,如在確Graph+AI:大模型浪潮下的圖計算 74 定性的嚴謹場景下
249、,基于 SOP 的協同可以獲得更準確、更嚴謹的結果。在開放性場景下,Auto-Plan與 ReACT 可以充分發揮模型的思考能力,在解決泛化能力上也更具優勢。我們結合 AWEL、Auto-Plan、圖實現的多智能體協同,可以滿足各類場景的訴求。在滿足更復雜的協同關系的同時,智能體之間的系統效率也有出色的表現。3.5.4.7 圖方案生成圖方案生成 圖數據庫作為近年來崛起的新型技術,盡管在處理關聯關系查詢時展現出卓越的性能,但由于缺乏豐富的案例和方案,使用門檻較高,導致其無法像關系型數據庫那樣廣泛普及。這一挑戰使得許多用戶在上手圖數據庫時面臨困難。隨著大模型的出現,我們可以借助其強大的智能能力來降
250、低圖數據庫的使用門檻。在不熟悉的領域,它能為我們提供構圖建議;在進行圖數據分析時,它可以協助編寫查詢語句;同時,在實際使用中,幫助快速查找具體操作方法。這些功能有效地降低了用戶對圖數據庫的上手難度。然而,目前大模型仍存在一定的隨機性,其在處理多步驟任務時的理解與執行,常常存在不確定性。為了解決這個問題,我們需要將任務分解得更加精確,以幫助大模型更好地理解我們的意圖。這也是單智能體概念的提出初衷:我們為單個智能體設定獨立且明確的任務,從而提高其執行效率。例如,我們可以構建一個智能建圖模型的智能體,其輸入為用戶需求,輸出為標準的圖模型構建建議。但是,完整的使用流程通常包括多個子任務,因此需要多個智
251、能體的協調配合才能完成。在這一過程中,多智能體的協作成為關鍵。通過不同智能體間的協作,例如構圖智能體、數據模擬智能體、數據分析智能體、方案總結智能體和文檔解答智能體的串聯,我們能夠快速針對圖數據庫的上手難題提供有效解決方案。圖 3.25 圖數據庫智能體設計 通過這樣的多智能體應用,我們不僅能提升圖數據庫的使用效率,更能在實際操作中沉淀出針對性的解決方案,幫助用戶在圖數據庫的應用中取得更好的成果。Graph+AI:大模型浪潮下的圖計算 75 第第 4 章章 解決方案解決方案 4.1 基于基于圖數據庫圖數據庫+AI 的的申請反欺詐解決方案申請反欺詐解決方案 對于零售信貸的反欺詐來說,傳統方式有兩種
252、:一種是常用的反欺詐規則,通過歷史案件總結下來的專家知識,對異常欺詐行為建立規則模型,用規則模型進行欺詐行為的特征描述,幫助業務將欺詐行為和正常借貸行為區別開來。另一種方式則是通過歷史的欺詐申請進件和正常的申請進件數據進行機器學習模型建模,利用數據挖掘的手段從高維空間中篩選出異常欺詐申請進件。無論是專家規則還是機器學習建模,都是基于個體特征的分析,隨著欺詐黑產技術的演變,有組織的團伙欺詐行為越來越多,通過對風險的分散,傳統方式難以識別,存在以下問題:欺詐手段呈現多樣化、專業化、團體化等特征,傳統的專家規則和機器學習模型對于通過多層關系進行掩飾的復雜欺詐手段或者團伙欺詐難以識別。統計模型或者機器
253、學習模型更多的是針對獨立個體的分析挖掘,忽略了在欺詐行為中復雜的關聯關系導致難以發現行為相對稀疏的個體。信息割裂,沒有統一的框架和視圖描述客戶的全生命周期。各個業務環節的數據之間缺少必要的邏輯視圖和交叉校驗?;趫D數據庫+AI,可以從以下幾個方面提升申請反欺詐效果,從事后分析提升到事中分析,從個體分析到復雜關聯分析:基于一張圖的多源數據融合:通過統一數據語義視圖,打破信息割裂,為風控進行更多維度的背景信息真實性核驗?;谏缛旱娘L控策略:通過各類圖算法,加強對可疑黑產中介團伙的分析與識別。補充關系特征維度:通過圖特征彌補傳統機器學習模型只能學習個體統計特征的短板,加入實體之間的關聯關系,提高模型
254、的泛化能力,增加復雜欺詐案件的識別??梢暬鰪娊换ナ教剿鳎宏P系網絡可視化探索功能和圖智能分析算法相結合加強對復雜案件下的風險主體篩查能力,幫助反欺詐人員深入分析主體之間復雜的深度關系?;谝陨戏桨副尘?,提出以下圖數據庫+AI的技術架構解決方案:Graph+AI:大模型浪潮下的圖計算 76 圖 4.1 基于圖數據庫+AI的解決方案 該架構可將實時/準實時/離線多種技術場景融合,支撐在申請反欺詐場景中的各類業務需求:在線集群:處理高并發寫入,高并發查詢業務。離線&分析集群:處理異步圖計算等復雜計算業務;支撐全圖計算和圖學習;支持分布式圖計算,針對全圖的計算可以在閑時按需拉起。兩套引擎,一套存儲,同
255、時支持實時業務和離線分析業務。通過集群同步功能將數據從在線集群實時同步到離線&分析集群。業務流程如下:當一筆進件產生時,通過消息隊列將數據實時更新到悅數圖數據庫在線集群中。決策引擎調用原有模型平臺,機器學習模型可離線訓練,同時調用模型特征、圖特征、velocity特征。特征平臺發起實時圖特征查詢,調用悅數圖數據庫在線集群,毫秒級時延返回結果。悅數圖數據庫在線集群將數據實時同步至悅數圖數據庫離線&分析集群。悅數圖數據庫離線&分析集群可發起多個子圖/全圖圖計算任務,運行圖算法,秒級/分鐘級時延返回結果,后續作為實時圖特征返回。DGL離線訓練按需調取悅數圖數據庫離線&分析集群數據。業務人員按需使用悅
256、數圖探索進行案件審理/事件分析等 ad hoc 分析。Graph+AI:大模型浪潮下的圖計算 77 4.2 基于關聯分析的企業決策智能化解決方案基于關聯分析的企業決策智能化解決方案 基于關聯分析的企業決策智能化解決方案旨在為企業提供智能化的數據關聯分析決策支持,通過先進的圖數據處理方法和持續的模型管理能力,幫助企業在復雜的商業環境中迅速作出明智決策。通過標準化的技術路徑和框架化的模型構建,確保數據驅動的決策過程高效、準確且具備可操控性。目前,許多企業在進行數據分析時面臨多重挑戰:1、模型的維護難度較大:傳統模型難以進行持續監控和管理,可能導致性能下降,無法靈活應對業務變化。2、結果難以解釋:模
257、型的輸出缺乏充分的可解釋性,使得決策者在理解和應用結果時遇到障礙。3、數據源的多樣性:在復雜多樣的數據源環境中,統籌管理和運行現有模型的技術難題顯著增加。針對這些挑戰,本方案提出如下的關鍵特性與功能:基礎模型服務能力:通過統一的范式和框架,支撐不同場景下的圖模型應用。全流程梳理:基于 TuGraph 系統,涵蓋樣本數據的管理、圖數據處理、IDE 實現建模流程的標準化;Graph AI框架:利用圖結構進行建模,適用范圍廣泛,包括:屬性傳導:應用于高凈值客戶識別、反洗錢和反欺詐等場景。向量化匹配:有效進行產品及信息推薦。因果推理:幫助定位業務系統告警的根因及進行輿情預警。時序圖分析:用于債基風險預
258、警以及客戶社交網絡的分析。標準建模流程:流程包括梳理業務問題、進行數據清洗、構建圖結構及搭建圖模型,旨在降低成本并提高可預測性。模型持續管理能力:應對傳統模型在持續管理方面的缺陷,解決模型衰減、難以解釋以及技術環境多樣化等問題,借助 TuGraph的數據模型,統一運行環境、整合數據源。預測數據源的有效管理:確保數據源的質量和可靠性,通過定期審核和更新來優化數據收集和處理流程,以提高模型預測的準確性。圖模型的持續監控:實時監測圖模型的表現和趨勢,通過指標跟蹤及時發現問題,確保模型的有效運行和及時調整。Graph+AI:大模型浪潮下的圖計算 78 完備的圖模型預測服務:構建全面的預測系統,集成多個
259、圖模型,并提供一致的輸出接口,便于用戶進行多維度的決策支持。預測結果的可解釋性:采用可視化和說明性工具,使用戶能夠理解模型的決策過程,提升透明度,增加用戶對模型結果的信任。模型的干預及權限管理:建立權限控制機制,確保只有授權者可以進行模型調整和干預,保護模型的安全性和穩定性。優化模型資源的配置:通過資源監測和分析,動態調整計算和存儲資源分配,提高模型運行的效率和效果?;ヂ摶ネ芰Γ航鉀Q方案的核心能力與其他業務系統或平臺無縫對接,確保智能化應用(如業務系統和數據)和基礎數據服務之間的流暢互通,促進數據資產高效流通和利用。通過上述的技術框架和管理能力,本方案可以為企業提供可靠的分析決策支持,包括:
260、提升決策效率:通過智能化的數據關聯分析,幫助企業快速獲取、解讀和運用數據信息,做出更準確的決策。降低運營風險:通過有效的模型管理與監控機制,提高模型的可持續性,降低因模型老化帶來的潛在風險。增強業務洞察力:基于圖數據的多維關聯分析,幫助企業挖掘潛在客戶及市場機會,為企業戰略決策提供有力支持。4.3 基于圖算法分析的安全風控解決方案基于圖算法分析的安全風控解決方案 為解決安全風控中常見的圖數據處理、模型訓練評估和風險分析算法應用等問題,螞蟻集團建設了基于圖算法分析的安全風控解決方案,該方案通過關系視角來描述風險,并利用全面的風險數據構建風險關系網絡,從而形成風控知識圖譜,實現了風控全鏈路的圖數據
261、應用。依托螞蟻集團的TuGraph圖數據管理平臺,集成了圖特征、圖算法和圖組件,打造出一體化的圖運營平臺。通過圖數據來描繪復雜的風險模式,利用圖計算進行實時的風險防控,并通過圖應用實現大規模的風險管理。Graph+AI:大模型浪潮下的圖計算 79 圖 4.2 全圖風控產品整體架構 其中,圖算法部分已沉淀成為一套算法框架 GeaSec(Graph extended analysis for Alipay Security),可以快速、有效、準確地使用圖算法解決業務問題。GeaSec 由大規模圖上的異常檢測工具 GAD tools(Graph Abnormal Detection tools)和圖
262、風控神經網絡算法庫 GREAT(GNN based Risk Exploration Algorithms using Torch)組成。大規模圖上的異常檢測工具 GAD tools:幫助用戶更好地發現潛在的風險節點,提高風險控制的準確性和效率。該工具包含節點異常、鏈路異常和群組異常等類型的異常檢測方法,可以幫助用戶快速準確地發現潛在的風險節點、識別資金銷贓交易并發現潛在的風險鏈路、更好地發現和控制潛在的風險團伙和社區。作為一種針對大規模圖的異常檢測算法工具,具有非常強大的功能和應用價值。它能夠幫助用戶快速準確地發現潛在的風險節點、鏈路和群組,提高風險控制的準確性和效率,在金融、社交等領域的風
263、險控制業務中有著廣闊的應用前景。圖風控神經網絡算法庫 GREAT:是一個基于 Torch 的風險圖算法庫,它提供了一整套流程,包括數據準備、特征預處理、環境配置、模型訓練評估和線上部署,使得圖算法的使用門檻降低,自研算法的開發效率提高。為了滿足安全風控場景的需求,GREAT 打造了一系列具有風控特征的圖算法,包括對比學習、流式動態圖、子網絡發現、圖拓撲結構表征、預訓練、少樣本的圖異常檢測、圖預計算等方案。這些算法可以解決風險交易方向的重要性問題、資金流轉與上下文交易關系發現、圖模型預測可解釋要求與可信 AI建設;GREAT 還提出了圖對比學習方法、圖預訓練方法以及圖上異常檢測等解決方案,解決高
264、分團伙提純與低濃度灰團伙召回需求、消息傳播機制對圖拓撲結構特征提取能力較弱的問題、圖近線部署推理成本較高以及子圖點邊冗余等。它可以幫助用戶更好地發現和控制潛在的風險,提高風險控制的準確性和效率。同時,GREAT 還支持快速復用,可以幫助用戶快速開發自己的圖算法解決方案。Graph+AI:大模型浪潮下的圖計算 80 4.4 圖異常檢測智能化解決方案圖異常檢測智能化解決方案 本節介紹一種基于創鄰科技Galaxybase圖數據庫的圖異常檢測智能化解決方案。在現代數據驅動的商業環境中,隨著數據量的快速增長和關系復雜性的提升,異常行為往往隱藏在復雜的關聯網絡中。這在金融反欺詐、網絡安全和供應鏈管理等關鍵
265、領域尤為明顯。當異常行為發生時,可能帶來以下問題:經濟損失:在金融領域,異常交易可能導致大規模資金損失,直接影響企業盈利能力。數據泄露:網絡安全中的異?;顒涌赡軐е旅舾行畔⒈桓`取,進而危害用戶隱私和企業機密。運營中斷:在供應鏈管理中,異常行為可能引發物流延誤,導致生產停滯和客戶訂單無法及時交付。針對這些問題,創鄰科技基于Galaxybase分布式圖數據庫強大的HTAP能力,設計了一套異常檢測解決方案。通過對數據中的節點、邊及其關系進行深度分析,該方案能夠識別復雜的異常模式。以下是該方案的具體步驟:多維關聯數據融合:通過圖計算引擎,將多源數據整合為全局圖譜,構建完整關聯網絡。全局視圖不僅包含節點
266、特征,還反映節點間復雜連接,系統能在更大范圍識別異常。圖算法驅動的異常檢測:利用圖算法識別網絡中的異常節點和連接。例如,PageRank 算法衡量節點重要性,識別異常高或低連接節點;標簽傳播算法通過已知異常樣本傳播風險標簽,識別潛在異常節點;社群檢測算法識別不符合常規行為的孤立社群,適用于團伙欺詐檢測。時序圖分析與動態監控:時序圖分析應對動態數據,捕捉節點關系隨時間變化趨勢,實時檢測異常行為。結合動態更新機制,系統可持續監控并動態調整模型參數,提高適應能力。結合 Graph AI 模型異常檢測:系統通過整合圖模型的分析結果與異常檢測模型,充分利用圖數據中的關系和結構信息。通過擴展輸入數據的特征
267、維度,系統能夠更全面地捕捉復雜模式和潛在異常,從而提高檢測的準確性和穩定性??梢暬c交互式分析:提供圖譜可視化功能,通過交互式圖展示異常節點、社群及其關系,幫助決策者直觀理解異常來源和影響,提高檢測可解釋性,助力業務人員深入分析潛在風險。該解決方案可適用于多種場景:金融反欺詐:分析資金流動、設備共享等復雜關聯,檢測團伙欺詐。Graph+AI:大模型浪潮下的圖計算 81 網絡安全:基于設備通信網絡、用戶行為圖分析,識別網絡攻擊和惡意節點。供應鏈管理:在多方關系網絡中,檢測異常物流路徑和可疑供應商行為,降低風險。4.5 Graph 驅動的檢索增強生成驅動的檢索增強生成技術技術解決方案解決方案 本節
268、介紹一種基于悅數 Graph 驅動的檢索增強生成(Retrieval Augmented Generation,RAG)系統的技術方案。該方案旨在構建一個代理式(agentic)的 RAG 知識庫管理與知識推理應用平臺,利用悅數 Graph 的分布式、云原生特性,以及其對千億點、萬億邊規模圖數據的支持,實現高性能、多租戶和多索引能力。系統支持用戶根據不同用途和特征來管理知識,并針對不同類型的知識文檔采用不同的索引方式,提升了系統的通用性和可擴展性。4.5.1 系統概述系統概述 傳統的 RAG 系統主要依賴于文本檢索和向量檢索技術,而本方案通過引入悅數 Graph,利用其強大的圖數據庫能力,支持
269、更復雜的知識表示和推理。悅數 Graph 是一款高性能的分布式云原生圖數據庫,支持千億點、萬億邊的存儲和查詢,具備多模型支持和高度可擴展性。通過整合 BM25、向量索引和悅數 Graph 的圖索引等多種索引方式,系統能夠有效地組織和檢索多類型的知識文檔,為多樣化的應用場景提供支持。4.5.2 知識管理與索引策略知識管理與索引策略 4.5.2.1 按用途和特征管理知識按用途和特征管理知識 系統允許用戶根據知識的不同用途(如故障排除、產品推薦、知識問答、研發輔助)和特征(如結構化、非結構化、半結構化)來分類和管理知識。得益于悅數 Graph 的多租戶支持,不同的用戶和應用可以在同一平臺上獨立管理各
270、自的知識庫,確保數據的隔離和安全。這種靈活的管理方式有助于提高知識的組織效率和檢索準確性。4.5.2.2 多類型索引方式多類型索引方式 針對不同類型的知識文檔,系統采用以下索引方式:BM25 索引索引:適用于傳統的文本檢索,主要針對結構化和半結構化的數據。悅數 Graph 支持 BM25 索引,提供高效的關鍵詞匹配檢索。向量索引向量索引:將文本轉換為向量形式,適用于語義檢索,能夠捕獲文本的深層語義關系。悅數 Graph 支持向量索引,能夠高效地進行相似度計算和近似最近鄰搜索。Graph+AI:大模型浪潮下的圖計算 82 圖索引圖索引:利用悅數 Graph 的分布式存儲和查詢能力,構建大規模的知
271、識圖譜,實現超大規模圖數據的高效索引和檢索。同時,悅數 Graph 基于 ISO-GQL 擴展的算法支持,使得各種 Graph RAG 的索引和召回非常高效、靈活。4.5.3 知識索引的調用與處理知識索引的調用與處理 當代理(agent)調用知識索引時,會根據需求訪問不同的知識及其對應的索引方式。對于同一知識的多個索引,系統采取多路并行召回的策略,最終通過合并或重新排序(rerank)對答案或上下文進行后處理。具體而言:多路并行召回多路并行召回:同時從 BM25 索引、向量索引和悅數 Graph 圖索引中獲取相關結果。悅數 Graph 的高性能查詢和高并發支持,確保了檢索過程的效率。結果合并與
272、重新排序結果合并與重新排序:利用特定的算法或策略,將多種索引方式的結果進行融合,提升答案的準確性和相關性。這種方法充分利用了不同索引方式的優勢,確保了檢索結果的全面性和精確性。4.5.4 圖狀知識的召回策略圖狀知識的召回策略 針對圖狀知識的召回,系統根據不同的召回策略和用戶意圖進行區分,主要分為全局性問題(Global Question)和局部性問題(Local Question)。此外,系統還支持利用現有的圖狀數據作為 RAG 的知識來源。4.5.4.1 全局性問題全局性問題 對于全局性問題(Global Question),如“哪些文章的觀點比較獨特”,系統會:知識聚合知識聚合:利用悅數
273、Graph 的圖聚類(Graph Cluster)功能,從知識圖譜中的所有知識聚類提取總結信息。上下文構建上下文構建:將這些總結作為 RAG 的上下文,提供宏觀層面的答案。全局分析全局分析:利用大型語言模型對匯總的內容進行分析,生成綜合性的回答。4.5.4.2 局部性問題局部性問題 對于局部性問題(Local Question),系統會:關鍵節點定位關鍵節點定位:從用戶的問題出發,利用悅數 Graph 的高效查詢,定位知識圖譜中的關鍵知識點。知識鏈條構建知識鏈條構建:沿著圖譜關系,利用悅數 Graph 基于 ISO-GQL 擴展的算法,找到相關的知識鏈條和原始知識塊。Graph+AI:大模型浪
274、潮下的圖計算 83 深入回答深入回答:提供針對特定主題的詳細答案,滿足用戶的細粒度需求。4.5.4.3 利用現有圖狀數據利用現有圖狀數據 數值型圖數據數值型圖數據 對于數值型的圖數據(如社交網絡、物流網絡等),系統可以:文本到查詢轉換文本到查詢轉換:利用大型語言模型,將用戶的自然語言需求轉換為悅數 Graph 的查詢語言(nGQL)語句。代理工具調用代理工具調用:通過代理式工具(agentic tools),在悅數 Graph 中執行相應的圖計算和數據檢索。結果解釋與呈現結果解釋與呈現:將計算結果以易于理解的形式返回給用戶,得益于悅數 Graph 的高性能和高并發支持,確保了實時性。知識型圖數
275、據知識型圖數據 對于知識型的圖數據(如公共知識圖譜):本地搜索召回本地搜索召回:直接在悅數 Graph 中檢索相關的實體和關系,利用其高效的索引和查詢能力。知識擴展知識擴展:利用圖譜的連接性,發現與查詢相關的更多信息。答案生成答案生成:結合檢索結果,生成準確且豐富的回答。4.5.5 知識應用與工具集成知識應用與工具集成 被索引的知識作為代理式知識應用的查詢來源,支持在用戶描述的應用場景下進行工具調用和組合。具體表現為:故障排除故障排除:結合悅數 Graph 的圖計算能力和多索引召回,快速定位問題根源,提供精確的解決方案。產品推薦產品推薦:利用用戶偏好和行為數據,結合悅數 Graph 的關聯分析
276、功能和向量索引,推薦最適合的產品或服務。知識知識問答問答:通過多索引的并行召回和上下文合并,借助悅數 Graph 的高并發支持,提供準確且全面的答案。研發輔助研發輔助:為研發人員提供相關技術資料,利用悅數 Graph 的大規模數據處理能力,支持創新和問題解決。Graph+AI:大模型浪潮下的圖計算 84 4.5.6 悅數悅數 Graph RAG 的優勢的優勢 通過引入悅數 Graph,系統具備以下獨特優勢:1、超大規模數據處理超大規模數據處理:悅數 Graph 支持千億點、萬億邊的存儲與查詢,滿足超大規模圖數據的需求,適用于處理海量的知識數據。2、高性能與高并發高性能與高并發:得益于高度優化的
277、存儲和索引機制,以及分布式架構,悅數 Graph 能夠在毫秒級響應復雜的查詢,支持高并發的訪問,提升系統的整體性能。3、企業級多租戶支持企業級多租戶支持:悅數 Graph 作為分布式云原生圖數據庫,天然適合企業級多租戶 RAG 系統。不同用戶和應用可以在同一平臺上獨立運行,確保數據的安全性和隔離性,同時方便資源的統一管理。4、多索引支持多索引支持:悅數 Graph 支持 BM25 和向量索引,滿足不同類型知識的存儲和檢索需求。多種索引方式的整合,使得系統在知識檢索時更加靈活和高效。5、ISO-GQL 擴展的算法支持擴展的算法支持:悅數 Graph 基于 ISO-GQL 擴展了多種圖算法支持,使
278、得各種 Graph RAG 的索引和召回非常高效、靈活。在索引和檢索階段,可以靈活地應用各種圖算法,如節點重要性評估、聚類分析等,提升知識檢索的準確性和深度。6、靈活的擴展性靈活的擴展性:悅數 Graph 的水平擴展能力使得系統可以根據業務需求靈活調整資源配置,保持高可用性和穩定性。4.5.7 結論結論 本方案通過引入悅數 Graph,充分利用其分布式、云原生、多模和高性能的優勢,構建了一個功能強大且可擴展的 RAG 系統。多類型的索引方式和多路并行召回策略,滿足了不同知識文檔的檢索需求,提升了檢索的準確性和效率。針對不同用戶意圖的召回策略,以及對現有圖狀數據的有效利用,使系統能夠靈活地適應全
279、局性和局部性的問題。悅數 Graph RAG 的優勢體現在對超大規模數據的處理、高并發性能、多租戶支持,以及對現有圖狀數據的最佳利用,為各類應用場景下的知識管理和利用奠定了堅實的基礎。4.6 面向專業領域的知識增強生成面向專業領域的知識增強生成(KAG)解決方案解決方案 4.6.1 大模型垂直領域應用的關鍵問題大模型垂直領域應用的關鍵問題 經過近兩年的研究與實踐,業界已普遍認識到大語言模型的優勢與局限性,以及其在特定行業應用中的挑戰。雖然大語言模型展現了強大的理解與生成能力,但在專業領域中仍存在缺乏領域知識、難以進行復雜決策及可靠性不足等問題。Graph+AI:大模型浪潮下的圖計算 85 4.
280、6.1.1 LLM 不具備嚴謹的思考能力不具備嚴謹的思考能力 首先,大語言模型無法提供嚴謹的推理能力。例如,對于“1989 一念間和極品絕配共同的主演是誰?”這個問題,國內幾款大型語言模型結果顯示回復的準確性和一致性都較低。即便某些模型能給出答案,也存在邏輯錯誤或問題拆解不當的情況。隨著條件變的復雜,如變換條件為“男主演”“女主演”或添加時間約束,準確率和穩定性會不斷下降。為解決這些問題,行業內進行了諸多探索。比如,通過構建 Chain-of-Thought(COT)模型,定義 Multiple/Tree/Graph 思維鏈模版,引導 LLM 合理拆解問題。今年以來,越來越多的研究聚焦于將 R
281、AG 技術融入到大語言模型中,以彌補其在事實信息上的不足。進一步的發展則涉及 GraphRAG,即采用圖結構來優化檢索機制。目前,引入外部知識庫的方法被廣泛應用,但即使是在引入了如 RAG 這樣的技術,將特定領域的知識庫或事實文檔提供給大型語言模型進行重新生成時,仍不能完全保證生成答案的準確性。4.6.1.2 事實、邏輯、精準性錯誤事實、邏輯、精準性錯誤 下圖左側展示的是用大模型,對政府報告某個指標的解讀示例,盡管業務人員已經提前做了標注,大模型仍然會加入自己的理解,導致信息失真或缺乏依據的錯誤。圖 4.3 大模型存在事實、邏輯、精準性錯誤 即使提供了外部知識庫,召回過程中的不準確問題依然存在
282、。右側示例說明了基于向量計算的 RAG 方法存在的缺陷。例如,在查詢如何查找養老金時,直接利用向量計算召回的文檔,與業務專家定義的知識并不相關。在垂直領域內,許多知識雖然在表面上看似不相似,但實際上緊密相關。例如,“養老金”屬于“五險一金”的范疇,與國家政策密切相關,大模型不能對此類信息進行隨意生成。因此,需要預定義的領域知識結構來約束模型的行為,并提供有效的知識輸入。Graph+AI:大模型浪潮下的圖計算 86 4.6.1.3 通用通用 RAG 也難以解決也難以解決 LLM 幻覺問題幻覺問題 通常人們認為,引入 RAG 和外部知識庫后,就能有效避免大模型的幻覺問題。其實不然,這種方式產生的幻
283、覺問題甚至更為隱蔽。圖 4.4 通用 RAG也難以解決 LLM 幻覺問題 近期螞蟻集團發布了一項關于 RAG 引發幻覺現象的測評報告,根據評估結果顯示,即便加入了 RAG 技術,大型語言模型仍然存在 30%-40%的幻覺率,這是一個相當高的比例。因此,在垂直領域應用大型語言模型時,除了文本的檢索增強,還需要更加知識化的表達,降低幻覺。4.6.1.4 專業知識服務的挑戰和要求專業知識服務的挑戰和要求 在真實的業務決策場景中,無論是生成研究報告還是處理車險理賠,解決復雜問題時都需要經過嚴格的步驟,包括問題規劃、數據收集、執行決策以及生成和反饋等流程。在將大語言模型應用到專業領域時,也必須有一個嚴格
284、且可控的決策過程。所以,在基于大模型提供專業知識服務時,為了更好地服務于社會和特定領域,必須滿足以下幾個條件:首先,必須確保知識的準確性,包括知識邊界的完整性、知識結構和語義的清晰性;其次,需要具備邏輯嚴謹性、時間敏感性和數字敏感性;最后,還需要完備的上下文信息,以方便在知識決策時獲取完備的支持信息。以上也是當前多數大模型所欠缺的能力。4.6.2 KAG:面向專業領域的知識增強生成技術框架:面向專業領域的知識增強生成技術框架 針對以上大模型垂直領域應用的關鍵問題,螞蟻集團經過了大量探索,構建了面向專業領域的知識增強生成技術框架 KAG(Knowledge-Enhanced Generation
285、),并于 2024 年 9 月在外灘大會進行了發布。Graph+AI:大模型浪潮下的圖計算 87 圖 4.5 知識增強生成技術框架 上圖展示了知識增強生成框架 KAG 的整體原理,該框架是在 OpenSPG 開源項目(螞蟻集團23 年開源的語義增強可編程知識圖譜項目)基礎上的升級。KAG 針對當前大語言模型與知識圖譜結合的四個方面進行了增強:首先,在知識表示上進行了增強。原有知識圖譜受到強 Schema 約束,導致應用門檻較高且數據較為稀疏,使得在回答垂直領域問題時經常無解。為此,KAG 對知識表示進行了面向大語言模型的優化升級,使知識圖譜能夠更好地支持大型語言模型的應用。其次,圖作為一個優秀
286、的集成工具,可以更好地連接各類知識,無論是嚴謹的學術知識還是文本中的信息。因此,KAG 創建了互索引結構,將原來的 term-based 倒排索引,升級成 graph-based 倒排索引。這樣不僅能夠有效地索引文檔,還能保持文檔間的語義關聯性和實體間的連貫性。第三,在推理過程中,KAG 采用了符號化拆解方式,以確保邏輯嚴謹性。語言模型生成的語言很難保證邏輯一致性,因此 KAG 引入了 LogicForm 驅動的 Solver 和 Reasoning,來進行基于符號的拆解。第四,為了彌合知識圖譜構建成本與實際應用效率之間的差距,KAG 借鑒了開放信息抽?。╫pen information ex
287、traction)的方法來構建知識圖譜,這種方法大大降低了構建成本,但也引入了更多噪聲。因此,KAG 同時引入了知識對齊(knowledge alignment)機制,利用概念知識完成開放信息與領域知識之間的對齊,旨在平衡開放信息抽取與語義對齊的需求。4.6.2.1 LLMs 友好的知識表示友好的知識表示 首先,KAG 對語義表示進行了升級。這是繼 23 年 OpenSPG 項目開源后的進一步發展。OpenSPG 項目的初衷之一,就是將知識圖譜從二元靜態結構升級為多元動態結構。24 年,基于在深度上下文感知方面取得的進展,KAG 增強了對文本上下文的理解,可以提供更豐富的上下文信息,更好地服務
288、于語言模型。Graph+AI:大模型浪潮下的圖計算 88 圖 4.6 LLMs友好的知識表示 其次,KAG 對圖結構進行了升級。當前的圖結構主要分為兩大流派:LPG(Labeled Property Graph)和 RDF(Resource Description Framework)。LPG 能更好地兼容數據庫,因為它具有 Schema 模式,而 RDF 則相對開放。為了更好地支持大型語言模型,并實現從數據(data)到信息(information)再到知識(knowledge)的轉變,KAG 參考了 DIKW 層次范式來實現統一的融合,使得在同一實體空間中,既能進行 Schema 約束的建
289、模也能進行無模式(schema-free)的建模。4.6.2.2 互索引:結構化知識與文本數據互索引結構互索引:結構化知識與文本數據互索引結構 關鍵升級二,是從原有的 term-based 倒排索引升級到了 graph-based 倒排索引。通過基于實體和關系對文檔進行倒排索引,這樣既可以在同一空間內完成圖計算中的圖遍歷,也可以關聯到相應的文檔片段(chunk),進行相關性的召回。目前大火的 GraphRAG 范式的兩種主要做法:一種是微軟的 GraphRAG,實際上微軟的 GraphRAG 并不算是嚴格意義上的 GraphRAG,它只是用知識圖譜的方式組織了文檔結構,做了分層摘要,并且最終用
290、摘要來回答用戶問題。這種方式反而會引入更多幻覺,這種做法在評估生成答案時,只考慮了流暢性、問題支持度和全面性,而沒有從事實性角度進行評價。我們的測評顯示,微軟 GraphRAG 在事實回答準確率方面表現并不佳。另一種以 HippoRAG 為代表,它采用圖的方式構建倒排索引,并用圖的方式召回文檔來回答問題。在多跳信息問答上,相比傳統的 Naive RAG 方法,HippoRAG表現出了顯著提升。當獲取到原始文檔后,首先進行開放信息抽取。關于結構化構建的部分就不展開講了,傳統知識圖譜中及開源的 OpenSPG 中都已經有了較為成熟的解決方案。KAG 會逐步抽取文檔中的關鍵元素及描述性信息,并對文本
291、塊(chunk)進行有效的語義切分,最終形成的圖結構將包含三部分:具體業務實體、通用概念知識以及文本塊。這樣一來,既可以在同一空間內完成圖計算中的圖遍Graph+AI:大模型浪潮下的圖計算 89 歷,也可以關聯到相應的文檔片段(chunk),進行相關性的召回。如下圖所示,通過圖結構可以更有效地組織文檔間的關聯。圖 4.7 結構化知識與文本數據互索引結構 以上開放知識抽取可基于 OneKE進行,OneKE是螞蟻集團與浙江大學合作于 24年 5月發布的大模型知識抽取框架,主要支持結構化信息抽取,使得在較小參數量的大模型上也能取得與更大參數量大模型相媲美的效果。它在實體識別、關系抽取和事件抽取等方面
292、表現出色。最近,OneKE又做了進一步升級,使其能夠同時支持開放信息抽取。4.6.2.3 混合推理:符號決策、向量檢索與大模型混合推理混合推理:符號決策、向量檢索與大模型混合推理 第三個升級是構建一個混合推理引擎。就像人類在回答問題前,要經過思考和規劃一樣,KAG 開發了一套技術范式,基于知識圖譜來支撐嚴謹決策的問題。采用混合互索引的方式,既支持時間、數值、邏輯敏感的復雜決策執行,又能通過信息檢索補充知識圖譜的稀疏性和知識不足之處。我們希望能夠在垂直領域實現更準確的事實性回答,同時盡量不破壞知識的分層結構。這意味著在同一領域內,既有專業且嚴謹的 Schema 約束知識,也有通過文檔提取出的圖結
293、構信息或知識,以及原始文檔。如果能夠實現這些不同層級知識的融合,就可以構建一個從嚴格到相對寬松的決策范式。近期 OpenAI 發布的 o1 模型也是在長鏈條邏輯推理上有了重大進步,但出于競爭優勢的考慮,不向用戶展示原始思維鏈。Graph+AI:大模型浪潮下的圖計算 90 圖 4.8 符號決策、向量檢索與大模型混合推理 在 KAG 框架中,采用符號驅動的問題求解方法,能夠生成邏輯上可執行的 Logic form 表達式,即 Logic Query 作為中間態的邏輯執行計劃。獲得 Logic Query 后,由于所有數據均基于圖結構構建,就可以在圖空間中進行操作。圖空間內部存在分層結構,首先是邏輯
294、嚴謹的知識,其次是開放的信息知識。這使得 KAG 可以分層決策,首先在邏輯嚴謹的知識層進行決策,如果沒有找到答案,則在開放信息層繼續決策,如果仍未找到答案,則在 chunk 空間進行關聯檢索,從而顯著提高召回率和回答的準確性。最后的生成階段,目前沿用了業界一些主流方法,例如 query-focused summary,這種方法能根據 Query 結構來提取答案。傳統知識圖譜或索引的一個主要問題是索引構建與用戶查詢相分離,容易導致知識粒度不匹配,而通過 query-focused 總結方式可以更好地彌補這一差距。下圖展示了 KAG 的整體混合推理架構圖及具體示例。例如,當詢問“美國內戰后,主張對
295、南方各州實行嚴厲懲罰的政黨在 2010 年控制了哪個機構?”時,系統會將其拆解成邏輯符號表達形式。這種表達方式可以直接轉化為 KGDSL,但考慮到自然語言生成的函數表達的準確率和簡潔性,KAG 選擇采用自然語言生成的函數表達來表示邏輯執行計劃。Graph+AI:大模型浪潮下的圖計算 91 圖 4.9 符號決策與大模型混合推理 目前,KAG 采取了三階段推理,在生成之前,首先在圖譜存儲空間中進行 exact match,接著進行 SPO 的 Retrieval,然后是 chunk 的 Retrieval,實現分層檢索與推理。在生成階段,通過引入圖譜知識來緩解或抑制大語言模型生成時產生的幻覺。在前
296、面文本中抽取知識圖譜時,文本與知識圖譜之間形成了良好的結構化數據與文本映射關系。首先,從文本到結構化,可以提取出關鍵要素信息;其次,結構化的圖譜使大語言模型熟悉基于此類圖結構生成文本的任務形式。因此,螞蟻設計了文本到 SPO 及 SPO 到文本之間的雙向映射任務,前者用于知識抽取,后者用于生成過程。通過這種方式合成語料,無論是用于 SFT 階段還是強化對齊階段,都能較好減少大型語言模型的幻覺。通過原始文本可以抽取多個三元組,通過微調和強化對齊,將這些信息注入語言模型中,在生成時更好地遵循結構范式。螞蟻將這一能力應用到內部業務中,例如區域風險報告生成場景。相較于原有的歸檔模型生成,幻覺率有了明顯
297、下降。4.6.2.4 語義對齊:平衡信息檢索與專業決策語義對齊:平衡信息檢索與專業決策 第四個關鍵升級在于平衡專業決策與信息檢索。信息檢索本質上是對搜索引擎的升級,允許一定程度的錯誤率,但專業決策,錯誤的容忍度是很低。在統一的知識服務框架下,同時進行信息檢索和專業決策是一項挑戰。因此,KAG 對這一能力進行了升級,在頂層通過開放信息抽取獲得結構化要素,在底層通過 Schema 約束構建更為嚴謹的知識。Graph+AI:大模型浪潮下的圖計算 92 圖 4.10 平衡專業決策與信息檢索 最終,通過基于概念的語義對齊,構建一個基于 SPG 的領域知識圖譜,能更好地兼容信息檢索所需的開放抽取能力,和專
298、業決策所需的 Schema 約束構建能力。下圖是一個簡單的示例,展示了 KAG 如何基于開放信息抽取構建一個語義對齊后的圖譜。從左側的原始文本開始,對其進行語義切分,再進一步信息抽取,即可建立實體之間的關聯,此時圖譜仍包含大量噪聲。當前業界主流的 GraphRAG 解決方案僅達到 information extraction 階段,即生成三元組圖后直接寫入圖數據庫。然而,語義對齊才是知識圖譜構建最困難的部分。為此,KAG 進行了大量探索,比如在提取的信息中運用圖譜的傳統方法,如實體鏈接、實體融合、概念與事實分層等,最終整個圖結構的密度和語義完備性得到了顯著改善。圖 4.11 開放信息抽取語義自
299、動對齊 除了開放域外,KAG 在垂直領域也進行了應用。垂直領域包含大量術語庫、詞匯庫和概念庫,例如醫療術語、法律術語和經濟術語,這些術語對于大型語言模型來說可能難以完全掌握。因此,Graph+AI:大模型浪潮下的圖計算 93 KGA 通過在開放抽取過程中嘗試實現領域詞匯和概念的注入,以提高抽取效率和與領域知識對齊的準確性。圖 4.12 KAG 在通用數據集上的效果 經過優化,不僅驗證了 KAG 在垂直領域的適應性,在通用數據集多跳問答中與現有 RAG 方法進行比較,發現它明顯優于 SOTA 方法,在 2wiki 上 F1 相對提升 33.5%,在 hotpotQA 上相對提高 19.6%。4.
300、6.3 KAG 在垂直領域的應用效果在垂直領域的應用效果 今年以來,KAG在螞蟻 AI生活管家“支小寶”、AI健康管家等多個業務中進行了應用。在政務問答場景中,相較于傳統的 Naive RAG 方法,準確率從 66%提升到了 91%。在醫療問答方面,目前的準確率超過 80%,在更垂直的指標解讀任務上,已達到 90%以上的準確率。這些場景證明了這套方法不僅適用于通用領域的信息檢索,也適用于垂直領域的專業決策。Graph+AI:大模型浪潮下的圖計算 94 圖 4.13 KAG 在垂直領域中的應用 4.7 中英雙語大模型知識抽取框架中英雙語大模型知識抽取框架 OneKE 4.7.1 概述概述 大語言
301、模型目前已顯著提升了人工智能系統處理世界知識的能力,然而,以大語言模型為代表的生成式人工智能依然存在推理能力不足、事實知識匱乏、生成結果不穩定等問題,這些都極大的阻礙了大語言模型的產業化落地?;诜墙Y構化文檔的知識構建一直是知識圖譜大規模落地的關鍵難題之一,因為真實世界的信息高度碎片化、非結構化,大語言模型在處理信息抽取任務時仍因抽取內容與自然語言表述之間的巨大差異導致效果不佳,自然語言文本信息表達中因隱式、長距離上下文關聯存在較多的歧義、多義、隱喻等,給知識抽取任務帶來較大的挑戰。針對上述問題,螞蟻集團與浙江大學依托多年積累的知識圖譜與自然語言處理技術,聯合構建和升級螞蟻百靈大模型在知識抽取
302、領域的能力,并發布中英雙語大模型知識抽取框架 OneKE,同時開源基于 Chinese-Alpaca-2-13B 全參數微調的版本。測評指標顯示,OneKE 在多個全監督及零樣本實體/關系/事件抽取任務上取得了相對較好的效果。4.7.2 OneKE 簡介簡介 OneKE 主要聚焦基于 Schema 的可泛化信息抽取,采用了基于 Schema 的輪詢指令構造技術,專門針對提升大模型在結構化信息抽取的泛化能力進行了優化,旨在通過提供中英雙語、可泛化的大模型知識抽取,OneKE 在一定程度上具備統一、通用、可泛化的知識抽取能力。同時,配套開源 OpenSPG 及 DeepKE 開源框架的支持,支持開
303、箱即用。幫助研究人員和開發者更好地處理信息抽取、數據結構化、知識圖譜構建等問題。OneKE 的典型特點:Graph+AI:大模型浪潮下的圖計算 95 1、多領域多任務泛化性。支持金融、常識、醫療等領域實體多屬性、事件多論元的抽取,不限制屬性數量;2、中英文雙語支持。支持中文和英文兩種語言文本的知識抽取任務;3、完善的工具鏈支持。OneKE 依托 OpenSPG 及 DeepKE 開源庫提供了完善的 SFT 及抽取工具支持,開箱即用。4.7.3 OneKE 訓練方法訓練方法 4.7.3.1 整體方案整體方案 在 OneKE 的構建過程中,采用了 3 類任務 15 個領域 33 個數據集,通過對數
304、據進行歸一化和清洗提升數據質量,并在質量微調階段采用了“基于 Schema 的輪詢指令構造”技術,有效提升了模型的泛化能力。OneKE的整體構建框架如圖 4.14所示。圖 4.14 OneKE 整體構建框架 4.7.3.2 數據處理數據處理 數據的形式和質量是提升大模型能力的關鍵。針對不同領域、任務、語言的數據格式不統一問題,OneKE 在訓練前進行了數據的歸一化與清洗。首先計算每個數據集的訓練集、驗證集和測試集內的文本重疊情況。如果發現一個文本實例在同一個文件中多次出現,并且伴隨著不一致的標簽,則移除該實例。其次,設計啟發式規則以過濾低質量和無意義的數據:1)非字母字符占文本總量超過 80%
305、;2)文本長度不足五個字符且沒有任何標簽;3)高頻出現的停用詞,如the、to、of等,超過 80%。Graph+AI:大模型浪潮下的圖計算 96 圖 4.15 OneKE 中不同任務、領域及數據源分布情況 4.7.3.3 指令微調指令微調 根據前人工作以及錯誤案例分析發現,抽取模型誤判的主要原因可能在于 Schema 語義相似導致的混淆。因此,OneKE 在指令微調訓練過程中采用了“基于 Schema 的輪詢指令構造”技術。圖 4.16 OneKE 指令微調算法 Graph+AI:大模型浪潮下的圖計算 97 具體如圖 4.14右側所示,先構建一個困難負樣本字典,其鍵值對應的是 Schema
306、及其語義上相近的 Schema 集。難負樣本的構建旨在促進語義近似的 Schema 更頻繁地出現在指令中,同時也能在不犧牲性能的情況下減少訓練樣本量。然后,采取一種批次化指令生成方法,動態限制每條指令中詢問的模式數量為 N(其范圍在 4 到 6 之間)。即使在評估階段詢問的 Schema 數目與訓練時不同,通過輪詢機制可以將詢問數量平均分散至 N 個,從而緩解泛化性能下降的問題。具體算法如下圖所示,詳細技術細節可參閱論文“IEPile:Unearthing Large-Scale Schema-Based Information Extraction Corpus”。通過“基于 Schema
307、的輪詢指令構造”技術,并融合開源及螞蟻業務相關 NER、RE、EE 等近 50 個數據集可得到約 0.4B tokens 的大規模高質量抽取指令微調數據,其中部分數據已通過 IEPile 開源。OneKE 模型是通過在 LLaMA 上進行全參數微調得到的,這一過程利用了以上大規模高質量的抽取指令數據。4.7.4 OneKE 效效果果 如下圖所示,OneKE 具備相對較好的中英雙語可泛化的知識抽取能力,其中在中文 NER 命名實體識別類任務、RE 關系抽取類任務、EE 事件抽取類任務上取得了相對較好的效果。圖 4.17 OneKE 在零樣本泛化性上與其他大模型的對比結果 4.7.5 OneKE
308、使用方法與案例使用方法與案例 OneKE 中指令的格式采用了類 JSON 字符串的結構,本質上是一種字典類型的字符串。它由以下三個字段構成:(1)instruction,即任務描述,以自然語言指定模型扮演的角色以及需要完成的任務;(2)schema,這是一份需提取的標簽列表,明確指出了待抽取信息的關鍵字段,反應Graph+AI:大模型浪潮下的圖計算 98 用戶的需求,這是動態可變的;(3)input,指的是用于信息抽取的源文本。目前可通過 DeepKE-LLM 或 OpenSPG 來直接使用 OneKE,高級用戶可自行轉換和構造指令使用 OneKE。1)基于 DeepKE-LLM 使用 One
309、KE 用戶可以按照 DeepKE-LLM 項目指引完成環境配置、模型權重獲取、數據轉換后直接使用 OneKE,DeepKE-LLM 也支持對 OneKE 進行量化(如 4bit 量化)以實現在低功耗設備上運行 OneKE。DeepKE-LLM 項目:https:/ 2)基于 OpenSPG 使用 OneKE 用戶可以按照 OpenSPG 項目指引完成環境配置、模型權重獲取、Schema 定義、數據轉換后直接使用 OneKE。OpenSPG 項目:https:/ 基于 OpenSPG kNext 編程框架,用戶可以按照 SPG Schema 的定義,提交端到端的圖譜構建任務,實現文本到知識的自動
310、轉換,同時實現屬性標化、實體鏈指,更新并寫入到圖譜存儲,同時還可以使用 SPG KGDSL 查詢構建好的結果。用戶也可以添加領域指令數據后提交本地的 SFT 任務。4.7.6 局限與不足局限與不足 OneKE 在全監督及多領域泛化性上有比較出色的表現,統一的指令結構也能讓業務通過增加更多領域標注數據以獲取更好的模型能力。通過 OneKE 框架,證明了基于大模型統一知識構建框架的可行性。然而,在實際的工業應用中,業務對知識要素的覆蓋率、準確率要求非常高,統一 Schema 指令結構難以覆蓋所有的知識表示形式,因此 OneKE 依然存在抽不全、抽不準以及難以處理較長文本的問題。由于模型的規模有限,
311、模型輸出極大地依賴于輸入的提示詞(Prompt)。因此,不同的嘗試可能會產生不一致的結果,且可能存在幻覺輸出。螞蟻與浙江大學也在并行探索開放知識抽取,聯動圖譜自動構建系統,持續優化和提升 OneKE 新領域及新類型上的適應性。Graph+AI:大模型浪潮下的圖計算 99 第第 5 章章 應用案例應用案例 5.1 產業落地產業落地 5.1.1 能源電力能源電力 在某電力調度控制中心,悅數圖數據庫的應用極大地提升了調度控制的效率和準確性。通過構造融合調度、配網、暫態和市場等多類業務的統一時空立體圖模型,該中心實現了設備間關聯關系從全量秒級計算到增量毫秒級讀取的根本性改變。這一模型不僅揭示了新型電力
312、系統的特征,還為電力調度提供了更全面和準確的數據支持,使得調度決策更加科學和高效。在圖存算方面,悅數圖數據庫構建了超高速圖存算引擎,成功解決了電力系統分析計算平臺的可擴展性不足、計算結構與邏輯復雜、計算效率低下等難題。該引擎的引入顯著提升了系統的運行穩定性和效率,使得大規模電力調度和控制任務能夠在短時間內高效完成,確保了電力系統的平穩運行。通過圖應用,悅數圖數據庫進一步提高了電力調度控制中心的風險控制水平。結合靜態圖中心度、動態負荷波動性和短路電流要求,該中心能夠有效發現新能源控制斷面,提高風險預控水平。層層篩選減小計算規模,使得 SCUC 計算效率平均提升近 3 倍,從而能夠應對大規模市場出
313、清需求。通過這些應用,電力調度控制中心不僅提高了風險預判能力,降低了停電風險,還能自動識別風險預警斷面超過 5000 次。圖 5.1 電網圖模型 Graph+AI:大模型浪潮下的圖計算 100 在經濟效益方面,悅數圖數據庫實現了自動化系統的高效分析計算,節約了超過 600 萬元的服務器投入成本。同時,實現了輕量化運維,節約了系統運維人力資源成本超過 700 萬元。更為重要的是,激發了市場主體的活力,間接產生了發電側現貨市場結算電費收益超過百億元。在社會效益方面,悅數圖數據庫的應用顯著提高了電力行業圖模構建效率與交互規范性,增強了系統風險預判能力,降低了停電風險?,F貨市場優化計算效率的提升,支持
314、了現貨市場出清超過 5 萬次,為電力市場的穩定運行提供了強有力的技術支持。通過以上多方面的實踐應用,某電力調度控制中心充分展示了悅數圖數據庫在新能源行業中的巨大潛力和廣泛應用前景。該解決方案不僅提升了電力系統的運行效率和安全性,還為整個行業帶來了顯著的社會和經濟效益。5.1.2 金融金融 5.1.2.1 信用卡反欺詐信用卡反欺詐 在當前金融業務迅速擴展的背景下,信用卡中心正面臨越來越復雜的風控挑戰,特別是在應對新型信用卡欺詐團伙時,傳統風控手段已顯得力不從心。欺詐行為通常具備規?;?、隱蔽性、團伙作案、少樣本和動態演進等特征,使得傳統的專家規則和機器學習模型難以應對這些復雜的風險。為了解決這一問
315、題,某銀行信用卡中心使用創鄰科技的 Galaxybase 圖數據庫提供的 HTAP 能力,構建了實時圖數據讀寫與圖計算技術相結合的解決方案。這個系統整合了來自銀行內部和外部的多種數據,建立了一個覆蓋數十億條記錄的信用卡申請網絡圖譜。這張圖譜揭示了申請人之間的復雜關聯,比如共享電話號碼和設備號等信息,從而幫助識別看似獨立的申請背后的潛在聯系,特別是在團伙欺詐的場景下。在這一方案中,圖計算技術的核心在于應用了一系列基于關聯關系進行模式檢測的算法。首先,標簽傳播算法被用于在圖譜中標記風險。系統通過對少量已知欺詐樣本進行標記,能夠將這些風險標簽在整個網絡中傳播,從而有效識別潛在的欺詐節點。這種方法能夠
316、發現與已知欺詐樣本相關的其他節點,提升了檢測的全面性。PageRank 算法則用于評估節點在網絡中的重要性,通過分析節點的連接情況,識別出對欺詐網絡至關重要的節點,幫助集中資源處理高風險區域,從而提高了風控的效率。此外,系統基于圖計算結果構建了欺詐檢測模型,考慮了節點的多層次關系,深入理解了圖譜中的復雜結構,從而提高了對潛在欺詐模式的識別能力。為了應對欺詐行為的快速變化,系統自動根據實時圖計算結果調整欺詐檢測模型,保持對新風險的高度敏感。Galaxybase 圖數據庫的高效分布式并行處理能力和 HTAP 特性,使得系統能夠在每個申請生成時實時進行關聯分析,并在毫秒級別完成風險評估。這種實時處理
317、能力幫助信用卡中心迅速反應,有效降低客戶群體性風險。Graph+AI:大模型浪潮下的圖計算 101 通過上述實踐,Galaxybase 的圖計算技術在風險檢測方面展現了顯著的優勢,相比傳統方法,它不僅提升了檢測的精準度和效率,還大幅減少了人工審核的工作量,實現了風控流程的自動化。系統成功識別了多個重大欺詐案件,揭示了涉及金額超過億元的欺詐團伙,從而顯著增強了信用卡中心的風控能力。該系統的應用有效降低了資金損失,帶來了顯著的社會和經濟效益。5.1.2.2 存款流失預警存款流失預警 對于商業銀行,客戶的存款流失問題一直備受關注。尤其是高價值客戶的存款如果不斷減少,銀行的資金流動性將造成較大壓力。存
318、款流失預警系統有助于精準識別高風險客戶并采取有效措施。經過分析,銀行發現高價值客戶的存款變動情況與其流失風險高度相關。如果客戶的活期存款急劇減少,且不再進行頻繁交易,銀行便迫切需要識別出來,為其提供個性化服務以降低流失風險。然而,傳統的數據分析方法無法提供及時且準確的預警,造成了潛在流失客戶的巨大損失?;?TuGraph圖系統建設的分析系統,可以通過賬戶的交易和聯系,挖掘更多特征,用于學習預警模型。除個體維度的特征(如個人年齡、性別、賬戶規模、變動頻率等)外,增加賬戶交易的特征,例如一段時間內的交易、交易渠道等,捕捉賬戶間聯系,自動學習拓撲模式,建立更加精準的分類模型。最終構建的流失客戶預測
319、模型,在對客戶進行風險評估時,其流失概率排名前 2000 的客戶,命中率近 80%;前 10000名客戶的流失金額占總流失金額的比例約為 72%。在預測模型的基礎上進行預警系統和機制的建設,銀行可以降低高價值客戶的流失率,恢復了客戶的存款信心。流失金額顯著減少,整體客戶滿意度提升,促進了客戶與銀行之間的堅實關系,最終推動了銀行業務的持續增長。5.1.2.3 交易風控交易風控 1、團伙挖掘與反欺詐場景團伙挖掘與反欺詐場景 在洗錢操作中,多個賬戶通常會通過多個中間賬戶進行轉賬,以規避單一賬戶的可疑交易監測。傳統的基于單一賬戶或簡單規則的檢測方法只能捕捉個別異常交易,團伙成員可能通過復雜的關系網絡掩
320、蓋其非法行為,單點處置難以識別隱藏在多層網絡中的整個團伙。而通過基于圖計算思想的子圖模式匹配算法(Subgraph Pattern Matching),可以將多個節點(賬戶、交易、聯系信息)和邊(交易流、聯系鏈)構成的關系圖作為一個整體進行分析,識別出與典型洗錢網絡類似的子圖,從而挖掘出整個洗錢的模式與結構,幫助銀行快速定位團伙。相較于其他方案,基于圖思想的子圖模式匹配能夠更好的識別團伙之間的復雜關聯,優勢主要體現在以下幾個方面:捕捉復雜、多層次的網絡結構捕捉復雜、多層次的網絡結構:傳統方案多依賴單點異常識別,無法發現多個賬戶間的潛在關系。子圖模式匹配通過分析多節點間的復雜關系,可以捕捉到洗錢
321、團伙分布式作案的模式,提升識別效率;Graph+AI:大模型浪潮下的圖計算 102 高效模式識別高效模式識別:一旦銀行識別出一個洗錢團伙的操作模式,子圖匹配技術可以將其作為模板,應用于后續的交易網絡分析中。這種模式化檢測提高了系統的復用性和識別速度,可以有效地發現相似的洗錢行為,并提前預警;抵抗動態變化的風險抵抗動態變化的風險:子圖模式匹配不僅能識別靜態模式,還能通過模糊匹配識別洗錢團伙的變種手法。當團伙改變交易路徑或增加偽裝賬戶時,傳統規則可能難以應對,但子圖匹配算法可以容忍部分變化,從而提升算法魯棒性和識別穩定性。在面向大規模實時數據場景時,對圖數據的計算和查詢時效性提出了挑戰,信雅達構建
322、了一套基于圖原生數據庫的圖計算平臺,部署高性能圖數據庫配合圖索引,通過優化面向圖的計算度加速子圖匹配效率。2、基于知識圖譜的風險傳導分析與用戶風險評分應用基于知識圖譜的風險傳導分析與用戶風險評分應用 在甄別涉賭涉詐風險賬戶的場景中,利用知識圖譜技術可以深入挖掘復雜交易網絡中的風險傳導路徑。首先,通過司法凍結記錄、懲戒與風險警告信息等手段,識別出初始的“黑標客戶種子”作為風險挖掘的起點。這些賬戶作為高風險節點,通過基于圖的迭代算法(如 GAS 算法)逐步擴展其與其他賬戶的交易關聯關系。通過此擴展路徑的分析,可以有效識別與這些黑標客戶有直接或間接聯系的潛在疑似風險賬戶,揭示隱藏在復雜交易網絡中的關
323、聯風險。圖 5.2 風險傳導示意圖 在識別出潛在風險賬戶后,通過構建風險評分模型來評估每個疑似賬戶的風險程度。以使用時序圖神經網絡(TGNN)模型為例,首先構建以賬戶為節點、資金流動為邊的動態圖網絡,捕捉賬戶之間的交易行為及其時序特征。該模型同時將交易頻率、交易時間等關鍵信息嵌入圖結構中,Graph+AI:大模型浪潮下的圖計算 103 學習賬戶之間的資金流動模式和時間維度上的異常交易特征。通過這些分析,精確計算每個賬戶的風險分值,幫助金融機構優先處理高風險賬戶。此基于知識圖譜的風險傳導分析與評分體系能夠有效應對復雜的涉賭涉詐交易網絡,顯著提升銀行對潛在風險的識別和管控能力。5.1.3 電商電商
324、 5.1.3.1 租賃反欺詐租賃反欺詐 芝麻免押租賃是一種基于信用評價體系的租賃服務,主要依托于支付寶的芝麻信用分。用戶在租賃物品時,如果芝麻信用分達到一定標準,可以選擇免押金租賃。這種方式可以降低租賃門檻(用戶不需要支付押金)、簡化流程增加便捷性,并且鼓勵用戶維護良好的信用記錄。然而,有大量的中介人員,通過教唆或幫助用戶,利用各種不良手段,騙取租賃物品從而獲得利潤。這種類型的風險占到整體欺詐風險的30%以上。這類人員的典型特點是:以中介為核心,與中介相關的人員可能受到其教唆,形成一個“團伙”?;?TuGraph圖智能模型,構建基于半監督中介拓展的團伙識別框架,不再僅僅關注一層的風險,而是通
325、過資金、媒介等關系,提取租賃用戶的歷史交互子圖。通過這種深入的分析,可以推斷出高可能性的中介,并通過這些中介定位到高風險的欺詐用戶。然而,租賃場景中的中介標簽嚴重不足,無法依賴傳統的監督學習方法完成識別。因此系統采用半監督學習的方法,通過拓展疑似中介,從而減少對中介標簽的依賴。此外,基于圖智能框架,設計了一個基于圖神經網絡的欺詐風險評估模塊,引入用戶與中介的交互時間、頻率、金額等信息,以提升對高風險團伙欺詐的推斷精度。通過這一系列的創新,構建的系統能夠有效識別和打擊中介相關欺詐,不僅提高了芝麻免押租賃場景的風險識別能力,也大大降低了因中介欺詐行為帶來的損失。模型上線以后,團伙風險發生率環比下降
326、 17%。5.1.3.2 跨境電商跨境電商 在國際電商場景中,用戶主要使用卡交易,其主要風險為盜卡風險。當黑產在電商平臺使用盜來的卡交易時,如果電商不攔截該交易,那么卡的原持有者發現自己的卡被盜刷后,會向卡行發起拒付申請,電商平臺需要承擔賠付責任。由于國際電商準入門檻低,僅憑郵箱即可完成校驗,因而吸引大量黑產。同時,管控方式相對單一、無線下打擊,導致黑產猖獗持續作案??缇畴娚虉鼍暗娘L控存在以下挑戰:案件報回慢:由于國際電商場景的盜卡風險報回鏈路慢長,平均一個月報回60%,三個月報回90%,導致該場景下風險感知慢,難以做到及時防控,當用戶報回風險時,往往一批團伙作案已經完成了。Graph+AI:
327、大模型浪潮下的圖計算 104 信息匱乏:在國際電商交易中,風控主體無法獲取到個人、社交、關聯和設備等相關信息,能夠獲取的主要是交易本身的信息。針對國際案件報回慢的特點,如果等到案件報回后再去防控相應風險就已經錯過了防控窗口期。因此,運營同學需要在事后對事件定性分析,以盡早捕捉風險,及時防控。在該場景下,利用圖風控技術充分挖掘案件定性相關的交易信息,實現更快更準的風險定性。在國際電商場景中,盜卡風險分為無關聯性的單點風險和呈現批量性的團伙風險。據統計,團伙一次批量性的盜卡行為 90%交易在首次交易后 3 天內完成。因此,風險定性窗口主要分為事中、事后 3 天內和事后 3 天后三個場景。圖 5.3
328、 國際電商場景團伙風險定性流程 在事中定性場景中,風險定性模式主要為單點風險定性為主。利用高效的圖數據庫引擎,實現了海量數據下圖上特征的毫秒級計算。將該類圖統計特征加入到交易盜卡風險實時定性模型中,可以實時地有效防控在圖上已經呈現關聯性的交易風險。在事后 3 天內定性場景中,風險定性分為單點風險定性和團伙風險定性兩種模式。針對于單點風險定性,相比于事中風險定性,此時有了更多可利用的交易事后信息?;趫D風控平臺,使用時序圖表征建模以充分挖掘交易事前事后信息,在交易發生后T+1時效感知有風險交易,及時更新防控策略,進行止損。針對于團伙風險定性,利用圖風控平臺深度挖掘不同用戶在交易強、弱介質上的關聯
329、性,并通過連通圖、Louvian 等算法分析盡可能讓黑白用戶在圖上呈現聚類性,實現 T+1 時效的團伙風險防控。同時,基于近線團伙防控平臺,通過長短周期構圖和社區搜索的方式大幅縮減團伙風險定性耗時,實現部分圖上聚集性風險的秒級定性和防控。Graph+AI:大模型浪潮下的圖計算 105 在事后 3 天后定性場景中,同一批風險已基本定性。但是在該場景下,依然需要充分挖掘所有隱性案件,例如拒絕交易案件和未報回案件,為策略和模型的開發提供準確的評估標簽,以防控之后再有類似手法的風險。在該場景下,基于圖風控平臺,使用標簽傳播算法充分挖掘與案件在設備、賬號等交易介質上存在關聯的隱性案件。5.1.3.3 芝
330、麻職業圖譜芝麻職業圖譜 芝麻信用提供了職業認證服務。用戶可以通過芝麻信用進行職業認證,這有助于提升芝麻信用分,同時也可能為用戶提供更多的信用服務。此外,芝麻信用還會根據用戶的職業信息,提供一些與職業相關的信用服務,如職業培訓、職業指導等。傳統上,對于用戶求職、參與培訓、證書認證等環節,對于崗位、場景、技能、證書內容等大量信息的精確度不夠。因此,基于TuGraph建設的職業圖譜,統一各場景數據,還能完善用戶畫像,有助于帶來場景增益、提升用戶人崗匹配的效果。這里利用了用戶填寫的職業檔案,并結合圖學習技術,將用戶行為子圖和用戶檔案子圖的信息表示為通用知識表征,提升職業推薦精度。圖 5.4 職業圖譜統
331、一場景數據 在圖學習知識表征中,通過采用無監督多任務學習,獲得獨立于下游的通用圖表征向量,輕量引入多個場景。主要步驟包括:1、特征組合:將節點包含的點邊類型編碼特征、點邊特征、文本編碼特征等進行組合,豐富鄰居節點特征表達;2、子圖采樣和匯聚:從全圖中采樣得到子圖,然后對鄰居進行匯聚傳播,得到中心節點的嵌入向量表征;3、無監督多任務學習:構造鏈接預測任務,結合無監督學習任務,強化嵌入向量表達能力 從而在下游場景應用中,將圖向量引入點擊率模型,提升崗位推薦的有效性。有圖嵌入特征的模型,點擊率提升近 3%,帶來業務價值。Graph+AI:大模型浪潮下的圖計算 106 5.1.4 游戲游戲 5.1.4
332、.1 背景背景 騰訊游戲作為全球領先的游戲廠商,擁有海量用戶和眾多游戲產品。為了更好地運營和推薦游戲,騰訊游戲構建了游戲知識圖譜,并將其與 AI 技術相結合,形成了獨特的 Graph+AI 體系。本文將介紹騰訊游戲在游戲知識圖譜構建和應用方面的探索與實踐。5.1.4.2 游戲知識圖譜游戲知識圖譜-游譜游譜 早期對游戲的刻畫主要依賴游戲描述文本,通過分詞技術提取關鍵字進行簡單描述。然而,游戲作為一種融合了美術、音樂等多種藝術形式的“第九藝術”,其復雜性和多樣性遠非簡單關鍵字所能涵蓋。為了更全面地刻畫游戲,我們構建了名為“游譜”的游戲垂直領域知識圖譜,這是一個多模態的知識圖譜,匯聚了全球約 200
333、 萬款游戲實體,涵蓋主機、PC 和手游三大類游戲。游譜融合了文本、圖像、音效等多種信息,并通過 NLP、CV、音頻等技術進行處理和分析,從而更全面地刻畫游戲的各個方面,例如:文本信息文本信息:游戲名稱、類型、描述、關鍵詞等。圖像信息圖像信息:游戲截圖、圖標、角色形象等。音效信息音效信息:游戲音樂、音效等。交互信息交互信息:游戲玩法、機制、操作方式等。通過多模態知識圖譜的構建,我們能夠更深入地理解游戲,并為游戲推薦、評估、運營等場景提供更精準的數據支持。圖 5.5 游戲知識圖譜示意圖 Graph+AI:大模型浪潮下的圖計算 107 5.1.4.2.1 第一版第一版 游譜的第一個版本,也就是游戲知識庫,于 2015 年啟動構建。當時,為了支持新游戲的拉新工作,需要提取游戲的特征信息。然而,游戲作為一種超媒體,包含了文本、圖像、音效以及與玩家的交互等多種難以量化的特性,對其進行全面刻畫面臨著巨大