《徐鋮晉-“智能不夠知識來湊”——知識驅動的金融智能體.pdf》由會員分享,可在線閱讀,更多相關《徐鋮晉-“智能不夠知識來湊”——知識驅動的金融智能體.pdf(40頁珍藏版)》請在三個皮匠報告上搜索。
1、演講人:徐鋮晉 粵港澳大灣區數字經濟研究院 AI研究科學家數創弧光(深圳)科技有限公司 CTO“智能不夠,知識來湊”知識驅動的金融智能體背景與挑戰Work Summary And Review01解決思路Work Completion02金融場景應用Problem Solving Progress03未來方向Work Plan For Next Quarter04目 錄CONTENTS背景與挑戰W o r k S u m m a r y A n d R e v i e w金融場景要求深度全面的檢索和推理,傳統的RAG不足以支撐知識圖譜支持多跳推理,但構建成本高,與大模型交互不夠友好大模型在金融
2、場景的核心矛盾全球金融 AI 市場規模在2024年已經達到數百億美元,顯示出巨大的增長潛力。然而,這一增長背后隱藏著高風險決策與黑箱模型之間的矛盾,尤其是在信用評分和風險管理等關鍵領域。大模型目前在金融場景的落地更多見于智能客服、智能營銷、智能投顧等非決策類場景;在金融風控、欺詐檢測、審計及投研等嚴肅場景的應用仍未成熟金融 AI 模型在事實性錯誤和推理不可追溯方面存在顯著瓶頸,尤其是在處理復雜金融數據時,模型的決策過程往往難以追蹤和驗證。數據:全球金融 AI 市場規模(2024 年)場景:非決策業務 vs 決策業務痛點:高風險決策 vs 黑箱模型(歐盟 AI 法案要求)技術瓶頸:事實性錯誤、推
3、理不可追溯歐盟 AI 法案對高風險決策的透明性和可解釋性提出了嚴格要求,金融機構必須確保其 AI 模型能夠提供清晰的決策依據,以避免潛在的法律和聲譽風險。中國生成式AI服務管理暫行辦法強調內容真實性,加劇事實性錯誤合規風險。傳統RAG技術在金融場景的局限性傳統 RAG 依賴于關鍵字匹配和向量相似性,這通常會導致不完整或膚淺的搜索結果。例如:例如客戶詢問近期政策對科技股的影響,傳統RAG可能混雜宏觀經濟政策與行業監管文件缺乏語境理解傳統RAG僅檢索孤立片段,缺乏全局關聯,難以處理金融數據的復雜關系。例如:在企業信用評估時,僅能檢索財務報表片段,忽視關聯企業擔保關系推理深度不足1.準確理解用戶查詢
4、意圖2.支持復雜關系的深度檢索3.精確識別領域專業術語金融場景中的檢索需求傳統RAG依賴通用檢索模型,可能缺乏金融領域的特定知識。例如,金融術語如“凈資產收益率”和“總資產收益率”在檢索過程中可能被混淆。領域知識不足金融知識圖譜企業關系支持基于企業關系鏈路的深度分析,用于金融風控、行業分析等各種場景02企業畫像從多源信息中提煉企業實時特征,構建精準的企業畫像01知識圖譜在金融場景中的應用優勢知識圖譜大語言模型+RAG結構化與精確性高,減少錯誤風險,提供精確數據一般,依賴檢索準確性,可能產生幻覺復雜關系處理強,支持多跳推理,揭示動態關聯弱,RAG依賴文本相似性,難以多跳推理數據整合與一致性強,整
5、合多源數據,提供統一視圖一般,不同的文本統一的標簽生成和向量化處理可解釋性高,推理過程透明,易可視化一般,僅能顯示參考文獻來源可擴展性高,數據不斷擴展情況下檢索精確度仍有保障一般,隨著數據不斷擴展,檢索效率和精確度不斷下降解決思路W o r k S u m m a r y A n d R e v i e w將圖譜作為大語言模型的外部知識源之一,與RAG相結合知識圖譜與大語言模型的結合大語言模型通用性:模型具有指令遵循能力,能處理多種任務,并支持多語言、多模態、多領域的應用??缮尚裕耗P湍苌筛鞣N形式和風格的文本,也能生成多模態的內容,如圖像、音頻等。創作能力:能生成新穎、連貫和通順的文本,也
6、能生成多模態作品,如圖片、歌曲等。常識能力:基于海量通用訓練數據中的知識,具有常識理解能力。語義理解能力:能根據文本、多模態數據中出現的內容,理解其含義和關系。知識圖譜可解釋性:知識圖譜可基于基于明確的語義結構進行查詢和分析,具有較好的可解釋性。、可信賴性:知識圖譜通常是由專家創建和維護,因此其可信賴性較高??伤菰葱裕褐R圖譜中的每個實體和關系都可以追溯到其來源??尚r炐裕褐R圖譜中的信息可以通過專家進行校驗??稍u價性:知識圖譜的質量可通過查詢的準確性和完整性來評價。領域能力:具有較強的領域知識支持,支撐了其領域服務能力。推理能力:可根據圖譜中的精確知識內容和關聯結構,進行高可信度的推理Enh
7、ance KG ReasoningImprove LLM Reasoning知識圖譜與大語言模型的結合使用LLM生成準確的KG查詢語句您公司的LOGO使用LLM將問題轉化為SPARQL查詢語句01利用語義相似度根據KG中的實體和關系對查詢語句中的實體關系進行修改02執行修改后的SPARQL語句03LLM與KG不同的結合方式Li et al.,2023Baek et al.,2023Touvron et al.,2023Wang et al.2023Sun et al.,2024Jiang et al.,2023思維圖譜Think-on-Graph1 Sun J,Xu C,Tang L,et.a
8、l.“Think-on-Graph:Deep and Responsible Reasoning of Large Language Model on Knowledge Graph.”ICLR 2024.關鍵技術指標 7個通用推理數據集取得SOTA 較GPT4最高提升23.5%13研究工作被包括亞馬遜、UIUC、清華、谷歌等高校與機構廣泛引用,并被人民日報等權威媒體報道Think-on-Graph回答Question:恒大恒大暴雷對于中國影視市場哪些公司會產生影響?恒大集團萬達集團萬達娛樂影視基地影視公司恒大影視城儒意影視恒大影視基地萬達文旅LLMPath 1Path 2Path 3思維推理
9、鏈思維推理鏈萬達影視恒騰網絡推理深度推理深度Depth 1Depth 2Depth 3Depth 4Depth 5Depth 6光線傳媒博納影業回答:回答:恒大暴雷直接影響到自身旗下的儒意傳媒儒意傳媒。地產行業的預期影響了同為地產行業的萬達集團旗下影視公司:萬達影視萬達影視。同時,恒大影視城的停工或荒廢會影響到博納影業博納影業和光線傳媒光線傳媒等影視公司。這些公司都可能因為拍攝基地的變化、資金鏈的斷裂以及市場信心的下滑而受到不同程度的負面影響。挑戰:用戶指令意圖模糊,且需要深度分析,無法簡單翻譯為知識圖譜查詢語句。解決方案:知識圖譜(KG)可以精確實時地反映金融實體間關系,支持深度的金融分析。
10、思維圖譜技術1讓大模型(LLM)與知識譜圖的緊耦合交互,進行深度、可解釋、可追溯的知識鏈路探索和知識推理。思維圖譜2.0Think-on-Graph 2.0 挑戰:知識圖譜的知識覆蓋面不足;本地文檔缺少管理,難應對復雜、跨文檔推理。解決方案:利用知識圖譜擅長深度推理的優勢,以知識鏈為骨架形成“思維導圖”,再通過文檔檢索補充相關的零散知識,強化大模型完成復雜分析任務的能力恒大集團暴雷早期有哪些端倪,以及同期哪些公司存在類似問題?問題關鍵技術指標 在6個通用推理數據集取得SOTA 比思維圖譜1.0提升10%45%比GraphRAG最高提升28%14住建部碧桂園萬科綠地控股恒大集團三條紅線公告知識圖
11、譜本地文檔庫召回文檔:提取基于知識關系鏈:恒大集團-債務危機-政策文件-住建部-“三條紅線”公告恒大集團-評級下調-穆迪公司-發布 -“中國地產業展望”LLMLLM思維圖譜知識增強的文檔檢索 恒大集團暴雷事件的發生與一系列政策文件的出臺密切相關,包括住建部發布的“三條紅線”政策和恒大的重大資產重組報告。住建部的“三條紅線”政策規定,其中限制措施在2021年初開始實施,旨在遏制高負債房企的無序擴張和潛在的金融風險。同一時期,這些政策文件影響了其他房地產公司,包括萬科、碧桂園、融創中國、綠地控股和恒大地產。這些公司受到了市場波動和政策調整的影響。另外,恒大集團在暴雷之前被評級機構穆迪公司下調了評級
12、,穆迪公司2020年4月公布的“中國房地產業展望”顯示同期被下調評級的中國地產公司還包括.知識提示回答穆迪評級中國房地產業展望知識檢索知識圖譜驅動的大模型推理1 Ma J,Xu C et.al.“Think-on-Graph:Deep and Responsible Reasoning of Large Language Model on Knowledge Graph.”ICLR 2025知識圖譜對RAG增強的體現Chunk-based RAGKG-guided RAG檢索方法依賴向量搜索,基于對知識庫文本塊和問題的向量相似度計算利用知識圖譜來連接實體和實體相關文本,以全面搜集信息。使用圖推
13、理和圖檢索通過實體關系找到相關上下文深度檢索對于需要多跳推理和理解復雜關聯的查詢效果不佳知識圖譜有助于聯接分散的知識。采用基于圖的檢索,從關鍵實體開始,通過多個跳躍遍歷實體和實體上下文上下文完整性在知識庫比較龐大的時候,存在遺漏關鍵文本塊的風險通過鏈接相關實體,確保更完整的知識檢索通過結合向量檢索和圖檢索方法,提升檢索的寬度和廣度相關性評估依賴語義相似度,傾向于找到“相似”的上下文,即使與問題不相關缺乏領域知識之間相關性的理解從細粒度的實體抽取開始,通過實體相關性來判斷上下文相關性在多跳檢索過程中,通過問題改寫,提升檢索的準確性知識圖譜構建難題知識圖譜驅動的大模型推理挑戰:研發基于大模型的自動
14、化實體識別和關系抽取技術及自動化知識圖譜構建系統,可支持至多10億實體級知識圖譜建設,和每日10萬+知識更新解決方案:利用大模型的內在知識、語義理解能力以及小樣本學習能力,靈活精確地進行知識抽取和融合,解決傳統方法人工建圖慢,機器建圖亂的問題1 Ping Y,et al.“UniEX:An Effective and Efficient Framework for Unified Information Extraction via a Span-extractive Perspective.”ACL20232 Jiang X,et al.“Unlocking the Power of Lar
15、ge Language Models for Entity Alignment.”ACL2024關鍵技術指標從新聞中識別實體準確率90%,關系識別70%1 自研ChatEA知識融合準確率99%,比LLM效率提升5x218高精度自動化知識抽?。簩崿F數據到知識的轉化高精度實體對齊與自動化知識檢測:保證知識的全面性與可靠性多源異質大規模金融行為知識圖譜基于大模型的知識抽取、融合與質控,確保建圖全,知識準兩階段知識融合線索收集whether and are align?whether results are satisfactory?推理Name,Structure,Description,Tempo
16、ral實體嵌入式表示自動化知識補全與質量控制反思 ChatEA2知識抽取知識融合與質控實體識別關系抽取事件抽取風控相關實體風控相關關系風控相關事件知識抽取多任務統一框架處理(UniEX)任務:實體識別關系抽取事件抽取文本語言模型編碼知識抽取結果統一輸入格式基于樣例的prompt構建打分矩陣解碼知識圖譜金融數據GraphRAG技術使用LLM進行實體識別和關系抽取使用LLM對實體上下文進行總結社區劃分后,使用LLM對社區內容進行總結聯接實體和社區間的關聯,構建圖結構構建向量數據庫GraphRAG技術問題:知識圖譜的構建效率低、成本高、質量難以保障文本更新后,圖譜要重新構建使用LLM進行實體識別和關
17、系抽取使用LLM對實體上下文進行總結社區劃分后,使用LLM對社區內容進行總結聯接實體和社區間的關聯,構建圖結構構建向量數據庫語境圖譜技術向量數據庫和圖數據庫的混合結構01圖譜是書架、文本塊是書,易擴展性02語境圖譜技術下調評級恒大集團住建部惠譽上交所山東高速港交所綠地控股下調評級合作股東合作上市上市涉及涉及涉及發布上市”山東高速分兩次向深圳國資轉讓恒大地產股山東高速分兩次向深圳國資轉讓恒大地產股權,回收權,回收250250億元億元”澎湃新聞2020年10月“恒大這次引進的戰投中既有蘇寧、正威恒大這次引進的戰投中既有蘇寧、正威等世界等世界500500強企業新面孔,也有山東高速、強企業新面孔,也有
18、山東高速、嘉寓等老伙伴嘉寓等老伙伴”新華網2017年11月中國鐵建融創中國“三條紅線”政策“$中國恒大(03333)$6月19日,恒大許昌悅龍臺欠薪,農民工討要。恒大“悅龍臺”是恒大和中鐵建設集團有限公司的合作項目。中鐵建說恒大欠兩千萬沒給,所以沒錢,河南電視臺已經介入,期待后續?!毖┣颉?021年7月26日晚,標普宣布下調中國恒大及附屬公司評級,中國恒大、恒大地產和天基控股評級從B+下調至B-,展望為負面。恒大方面回應稱:對評級機構下調中國恒大評級,公司深表遺憾和不理解?!鄙鲜姓Z境圖譜技術 實體抽取實體抽取DocumentsSentence1Sentence2Sentence1Paragra
19、ph1Paragraph2Entity1:Entity type:aPosition ID:(Paragraph 1,Sentence1),(Paragraph 2,Sentence1)Entity2Entity type:bPosition ID:(Paragraph 1,Sentence2)共線紀錄共線紀錄Entity3Entity type:aPosition ID:(Paragraph 2,Sentence1)實體圖譜構建實體圖譜構建Entity1Sentence neighbor:Entity3Paragraph neighbor:Entity2Entity2Paragraph ne
20、ighbor:Entity1Article neighbor:Entity3Entity3Sentence neighbor:Entity1Article neighbor:Entity3Relation weight(Entity1,Entity3)=10Relation weight(Entity1,Entity2)=5Relation weight(Entity2,Entity3)=1 向量數據庫構建向量數據庫構建Vector Database 完整語境圖譜構建完整語境圖譜構建Entity1Entity2Entity31051(Paragraph 1,Sentence1)Paragrap
21、h 1 Sentence 1:Paragraph 1 Sentence 2:Paragraph 2 Sentence 1:(Paragraph 1,Sentence2)(Paragraph 2,Sentence1)Entity1Entity2Entity31051語境圖譜技術問題1:在國內市場中,XX公司和XX公司在XX領域的市場競爭情況如何?不同產品的銷售量和市場反饋如何?問題2:為XX公司推薦XX崗位人才?(需要深入分析崗位所需要的經驗以及人才的專業技能、項目經歷、過往任職企業、職位)文檔句子/段落圖片實體Graph-Guided檢索自動建圖語境圖譜保留原文和其他相關信息,去掉關系單個GP
22、U,10分鐘處理3000份研報(GraphRAG需要35小時+)語境圖譜技術對話交互圖譜信息語境信息優勢:1.高效:建圖效率相較于GraphRAG等最新方法提升218倍,資源(Tokens)消耗僅為GraphRAG的0.5%2.精準:在公開知識問答數據集和真實業務場景中相較最新基線方法,準確率顯著提升語境圖譜技術應用案例(PoC項目:知識問答系統 to 某頭部數字人公司)方案方案0 01 12 2良品率良品率優品率優品率出現了錯出現了錯誤事實誤事實答案引用答案引用不完整不完整答案引用答案引用不完整不完整,杜杜撰無關緊撰無關緊要要杜撰無關杜撰無關緊要緊要杜撰無關杜撰無關緊要緊要,內容內容銜接不自
23、銜接不自然(內容然(內容明顯重復明顯重復冗余)冗余)回復內容回復內容與正確答與正確答案不相關案不相關內容銜接內容銜接不自然不自然(內容明(內容明顯重復冗顯重復冗余)余),答案答案引用不完引用不完整整內容銜接內容銜接不自然不自然(內容明(內容明顯重復冗顯重復冗余)余),回復回復內容與正內容與正確答案不確答案不相關相關內容銜接內容銜接不自然不自然(內容明(內容明顯重復冗顯重復冗余)余)答案引用答案引用不完整不完整,回回復內容與復內容與正確答案正確答案不相關不相關杜撰無關杜撰無關緊要緊要,回復回復內容與正內容與正確答案不確答案不相關相關0baichuan-turbo57628171.50%40.50
24、%424655137111qwen-max42847479.00%37.50%1155922112doubao-pro594010170.50%50.50%225233142133doubao52618774.00%43.50%328552132114step391016080.50%30.00%15710125115step242837579.00%37.50%113687251116idea-v4(ours)137111693.50%58.00%12223321使用自研的語境圖譜技術,在PoC驗證中性能超越現有大廠的知識問答API,回答良品率(人工檢驗)提升15%+在公開多跳檢索問答數據集
25、上,相較于已有的最先進方法檢索準確率提升10%+語境圖譜 v.s.GraphRAGGraphRAG語境圖譜圖譜構建預先構建完整圖譜按需構建,查詢時動態擴展關系定義詳細關系(如并購、影響),預定義簡單關系(如共現),動態推導資源需求高,需大量計算資源和內存存儲低,索引成本低,更新機制耗時,需更新整個圖譜靈活,查詢時使用最新數據查詢方式直接遍歷預建圖譜動態遍歷,自適應使用深度優先和廣度優先搜索數據模態文本數據未來可擴展到多模態數據應用案例W o r k S u m m a r y A n d R e v i e w經濟超腦經濟分析、研報理解的小秘書AlphaGPT全球第一個用于量化投資因子挖掘的大
26、模型框架Alpha-GPT自動化因子挖掘系統Alpha-GPT自動化因子挖掘系統2024年WorldQuant世界量化金融建模大賽中國區第一名,全球賽進行中,共34145只參賽隊WorldQuant全球量化投資建模賽未來展望W o r k S u m m a r y A n d R e v i e w數據層面:多模態數據融合、分析、生成模型層面:Agentic金融分析系統應用層面:從服務場景到決策場景多模態擴展將上下文數據類型,從純文本擴展到表格數據、音頻數據和視頻數據等不同模態數據。不同模態數據都可以以向量數據庫的方式進行存儲。多模態分析在檢索和推理過程中,考慮跨多模態的檢索和推理。比如基于
27、用戶查詢,檢索相關的統計圖表,并使用多模態大模型對文本和圖表進行綜合分析多模態生成通過多模態生成模型或者工具調用,生成多模態內容,比如自動化生成統計圖表、研究報告等。多模態對齊從多模態數據中識別關鍵金融實體。以金融實體為圖譜核心要素,關聯不同模態的上下文數據。01020304多模態金融知識融合、推理和生成系統通過任務規劃分解目標,動態調用數據/工具生成策略,基于預設指標評估結果,并通過強化學習自動修正偏差,形成 規劃-執行-反饋 的持續進化循環,顯著提升策略迭代效率。閉環架構01構建 多模態大模型+強化學習+動態圖譜 架構:使用多模態大模型作為Agent,強化學習作為訓練方法,將市場上有效真實
28、數據組織到多模態動態圖譜中充當multi-agent系統的環境,實現端到端的復雜任務建模。技術方案02采用因果鏈分析與注意力可視化技術,為每個決策生成可追溯的邏輯路徑,標注關鍵證據并展示數據維度貢獻度,集成審計日志模塊,滿足監管合規要求,降低黑箱決策風險??山忉屝?3支持Human-in-loop,支持分層干預。常規任務自動化執行,關鍵節點請求確認,用戶可隨時介入并接收決策依據摘要,既保留 AI 效率,又確保人類在系統性風險事件中的最終決策權。人機交互04Agentic金融系統金融產品設計協同 LLM 與領域知識圖譜實現全生命周期管理:分析用戶需求生成功能畫像,基于監管規則校驗合規性并生成收益
29、模型,通過強化學習模擬市場環境動態優化費率與資產配置。風險管理整合監管文件、財務數據與交易流水,構建動態風險圖譜。通過 LLM 生成信用評分,結合供應鏈關聯預測違約風險;實時監測多資產波動率異常,自動觸發對沖策略,并模擬壓力情景輸出風險分布及應對建議。企業財務運營深度融合財務數據與行業知識,優化資本結構與運營效率。分析融資數據與利率趨勢推薦融資比例;結合合同文本預測回款周期,動態調整短期資金拆借策略。投資決策智能體實時解析市場新聞、研報及企業關系網絡,生成跨資產投資策略。結合強化學習動態調整組合權重,實現毫秒級交易信號生成,并提供決策路徑追溯(如專利增長驅動行業配置),輔助驗證邏輯。決策型應用
30、場景多模態知識整合與智能處理的深度進化構建跨文本、表格、音視頻的統一向量空間,通過實體關聯實現多模態數據融合。系統可自動識別跨模態隱藏關聯(如政策文本與商品價格),并生成可視化報告,顯著提升復雜金融場景的認知效率。自動化金融智能體系統基于 大模型+強化學習+動態圖譜 架構,實現決策閉環自動化:策略生成動態優化風險可控。通過因果鏈分析提供決策可追溯性,支持 Human-in-loop 分層干預,確保重大決策的人類最終控制權。金融決策場景的智能化全覆蓋技術應用場景應從金融服務型場景轉向金融決策型場景。推動金融決策從經驗驅動轉向數據與智能雙輪驅動,降低黑箱風險。未來展望謝謝觀看演講人:徐鋮晉 粵港澳大灣區數字經濟研究院 AI研究科學家數創弧光(深圳)科技有限公司 CTO