《杜振東-GraphRAG在企業知識服務中的應用落地.pdf》由會員分享,可在線閱讀,更多相關《杜振東-GraphRAG在企業知識服務中的應用落地.pdf(14頁珍藏版)》請在三個皮匠報告上搜索。
1、演講人:杜振東 職位:NLP研究院負責人GraphRAG在企業知識服務中的應用落地當前場景痛點問題目前智能業務咨詢場景是基于維護好的FAQ庫進行向量檢索匹配、答案召回,并且部分問答流程需要通過系統名稱和功能模塊做FAQ知識篩選再進行返回,同時向量檢索的精準度仍然有待提高,檢索結果之間存在較大的差異,整體向量檢索閾值也偏高。知識體系缺失知識以FAQ及文檔形式進行沉淀,但缺少分類清晰的、可視化的知識體系,難以實現快速知識定位。知識內容缺失因未形成知識體系,咨詢的問題范疇局限于QA對,知識內容存在缺失,且需定期開展知識運營,維護FAQ庫。問答準確率需提升當前用戶問題咨詢描述寬泛,語義理解無法精準定位
2、FAQ問題或相關文檔,問答準確率需進一步提升。大模型幻覺問題大模型幻覺問題會導致回答內容與用戶咨詢內容不匹配,或生成無關內容,缺少輸入限制對模型生成內容進行約束。知識圖譜引入:什么是知識圖譜?知識圖譜是一種揭示實體之間關系的語義網絡,描述真實世界中存在的各種對象及其關系,用節點表示對象,邊則由屬性或關系構成。知識圖譜以本體為核心,以三元組模式為基礎框架,全面體現實體、屬性、關系等多顆粒度多層次的語義關系。統一的結構化的表現形式,機器可讀,對人類友好。結構化結構化含有豐富的語義信息,方便定義概念、屬性、實體之間關系。語義關系語義關系構建之后可以作為背景知識直接供下游應用使用。多方調用多方調用豐富
3、關聯信息,天然具有圖的各種特征,可以進行圖的相關操作。圖操作圖操作知識圖譜與傳統知識庫相比具有的三大特征可呈現為有向圖結構化的形式圖結構形式可將概念、實體及其關系結構化組織起來,具有高效檢索能力高效的檢索能力可從已有知識中挖掘和推理多維的隱含知識智能化推理能力對應解決問題通過圖結構關系,構建可視化知識體系,呈現知識關聯關系可視化知識體系根據知識圖譜的結構化知識存儲形式,可實現知識精準檢索定位知識精準定位基于圖譜結構進行知識補齊,實現相關知識智能關聯推送知識智能關聯知識圖譜引入:知識圖譜融合大模型的可行性利用知識圖譜中的知識構建測試集,可對大模型的生成能力進行各方面的評估,降低事實性錯 誤的發生
4、概率。知識圖譜能夠為通用大模型的工業化應用提供行業領域的知識支撐,彌補通用大模型語料里專業領域知識的不足。大模型可以利用其語義理解和指令遵循等能力輔助知識圖譜的半自動化構建設計、增加知識的全面性和覆蓋度,協助更好的完成知識融合和更新大模型可以利用語義理解和生成等能力抽取知識,提高知識抽取的準確性和覆蓋度,也可以抽取出隱含的、復雜的、多模態的知識,降低圖譜構建成本。大模型可以輔助提升知識圖譜的輸出效果,生成更加合理、連貫、有創新性的內容,例如文 本、圖像、音頻等。利用知識圖譜在大模型中引入指定約束,適度控制內容生成,提高大模型在行業應用場景中的適應能力?;パa大模型知識圖譜融合方向互補關系大模型擅
5、長處理自然語言和模糊知識,而知識圖譜擅長表示結構化知識并進行推理。通過圖譜結構化的特點規范輸入數據,大模型的輸出數據也更加準確。大模型可以用于非結構化文本的知識提取,提取圖譜構建的要素。知識圖譜可以為大模型提供結構化知識進行語義補充和生成引導?;釉鰪娭R圖譜和大模型融合可以相互增強各自的能力。知識圖譜可以提高大模型的語義理解和準確性,而大模型可以為知識圖譜提供更豐富的知識和生成能力。知識圖譜智能問答技術路線數據處理多源 異構業務系統文本數據業務FAQ數據國客系統音頻數據圖譜構建schema設計本體設計關系定義語音轉文本數據清洗屬性定義實體定義知識抽取文檔解析實體識別實體鏈接關系抽取知識融合向
6、量表征實體對齊沖突檢測知識建模圖譜查詢語義分析意圖理解鏈條推理答案召回智能問答問題解析圖譜檢索圖譜推理答案關聯生成知識圖譜構建及智能問答大語言模型訓練模型預訓練模型微調優化大語言模型智能問答Prompt填充構建語義內容表征輸出問題答案智能生成結構化知識圖譜語料增強大模型輸入大模型能力增強知識圖譜構建大模型智能問答流程向量檢索GraphRAG檢索融合知識圖譜增強鏈式關系鏈式推理知識關系圖譜增強推理溯源線索追溯知識圖譜推理驗證智能問答應用圖譜知識增強大模型答案生成用戶問句答案輸出大模型輸出反饋知識圖譜擴充數據改良抽取優化表征增強建模數據處理企業自有系統音頻數據客服音頻數據語音識別文字l 對錄音對象
7、打標記,區分客服和咨詢人l 結合ASR能力實現語音數據轉文本l 控制語音轉文本錯誤率,提高準確度,語義消歧l 輸出為文檔形式的一問一答對話記錄音頻轉寫數據數據清洗處理l 數據源去噪缺失處理文本去重l 剔除無效字段、寒暄字段等非業務相關內容l 標注對話中出現的關鍵字、專業相關的詞匯等內容,構建對話文本各類系統操作文庫數據業務資源FAQ數據非結構化文本數據知識梳理l知識分類l知識來源l知識格式l知識量l知識梳理成果結構化FAQ數據結合FAQ數據初步構建信通客服知識圖譜schema,要素可能包括業務系統、功能模塊、問題分類、解決方法基于知識圖譜的智能問答技術,需基于企業現有的業務資源FAQ數據、各類
8、系統操作文庫數據以及客服系統的音頻數據,進行數據處理,包括面向音頻數據的文本轉寫、數據清洗,面向文本數據的知識梳理等步驟,數據處理成果將作為后續圖譜信息抽取、知識圖譜構建的數據輸入來源。圖譜構建圖譜schema設計l 本體本體將存放于各個組織內部零散的知識進行匯聚,以本體作為節點進行知識圖譜網絡搭建。知識抽取l 實體抽取與合并實體抽取與合并以實體為主體目標,實現對多源數據進行映射與合并。知識融合l 實體實體基于定義好的通用本體實體關系,在不同的本體下進行實體構建。l 關系關系用于描述不同實體之間的聯系。l 屬性屬性描述知識體系中實體關系的性質。l 屬性映射與歸并屬性映射與歸并利用屬性來表示不同
9、數據源中針對實體的描述,形成對實體的全方位描述。l 關系抽取關系抽取利用關系來描述各類抽象建模成實體的數據之間的關聯關系,從而支持關聯分析。l 實體鏈接實體鏈接通過實體鏈接技術,實現圍繞實體的多種類型數據的關聯存儲。l 動態事件描述動態事件描述使用事件機制描述客觀世界中動態發展,體現事件與實體間的關聯;并利用時序描述事件的發展狀況。已標注實體:ZP04搶修工單待對齊實體:ZP09搶修工單詞向量轉換神經網絡a:T01167接地刀閘b:T01421接地刀閘相似度計算cos(A,B)ZP09搶修工單為圖譜實體l 向量表征l 實體對齊l 關系檢測l 知識建模圖譜構建首先通過設計圖譜Schema定義實體
10、、關系和屬性的結構,然后利用知識抽取技術從初步處理后的數據成果中抽取出結構化的實體和關系等要素信息,接著通過知識融合將不同來源知識中抽取出的實體、關系等信息進行對齊融合,確保一致性,最后基于融合數據進行知識建模生成圖譜并存儲于圖數據庫中,實現高效查詢和推理。l 樣例樣例系統本體,ERP物資系統實體,協同、所屬實體關系,系統狀態屬性。圖譜查詢語義分析與意圖理解語義分析與意圖理解物資發票如何退回?用戶問題輸入用戶問題輸入基于實體關系、實體、屬性和操作符等進行分詞分別提取分詞結果中的實體關系、實體、屬性和操作符,以及日期、數值實體+屬性屬性+對象值屬性值+實體關系屬性+數值操作符+屬性+值實體關系+
11、屬性+值發票管理(ERP系統中的發票管理模塊)實體解析:圖譜推理召回結果:查詢轉換執行查詢圖譜推理答案召回發票狀態、退回操作屬性解析:操作指導意圖解析:先在居配物資發票登記界面查詢出具體的發票狀態:菜單路徑:物資管理-居配項目物資地市自采業務-結算管理-居配物資發票登記情況1:已復核則可退回后刪除;情況2:已生效的需要提交物資ERP物資QC處理;情況3:已校驗的需要聯系財務部門沖銷發票校驗后提交物資ERP物資QC處理。推理鏈條:居配物資發票推理鏈條:居配物資發票實體屬性實體屬性物資管理物資管理實體節點實體節點查詢相關屬性值查詢相關屬性值節點信息返回節點信息返回圖譜查詢通過對用戶輸入的問題進行語
12、義解析與意圖理解,將問題拆解為關鍵的實體、屬性、關系和操作符等基本單元,并基于圖譜中預定義的實體關系網絡和屬性結構,進行語義匹配與邏輯推理。不僅能夠處理簡單的實體查詢,還能支持復雜的多屬性、多關系的問題解析,為用戶提供高效、精準的問答體驗。大模型賦能知識圖譜技術路線大模型技術本地文檔用戶查詢知識外掛技術文檔解析Text段落拆解知識點索引創建ES庫&向量庫檢索語句&向量化Query解析知識點排序最終答案Prompt工程最相關知識點提示信息LLM知識加工知識表示type1:文檔拆解type2:文檔生成知識點、圖 譜三元組type3:標簽/摘要生成type1:向量化表示type2:優化索引表示typ
13、e3:圖譜構建表示知識生成type1:問答聚合類場景type2:問答分析類場景基于大模型技術賦能傳統圖譜構建及問答應用,從知識加工、知識表示、知識生成的全周期進行能力支撐,知識加工環節賦能知識拆解與知識處理,知識表示環節應用向量表征技術實現深度語義匹配,知識生成環節應用文本生成能力最終綜合生成最佳答案內容知識圖譜schema設計系統-概念本體事件-任務本體用戶-角色本體用于描述與客服系統相關的事件或任務的基本信息,本體屬性主要來自工單字段事件編號事件類型事件時間事件狀態負責人.用于描述系統及其相關屬性和管理信息,本體屬性來自客戶專家梳理用于描述信通客服的服務對象(用戶)及其角色,本體屬性來自客
14、戶專家梳理檢修物料操作點檢部件劣化缺乏手段點檢不周系統故障原因其他所屬區域用戶信息用戶角色基于本項目的知識服務訴求,圖譜本體定義階段可選擇性構建3類本體:1類事件本體:事件任務本體2類概念本體:系統概念本體+用戶角色本體隨著項目的深入拓展,本體范圍可不斷擴大,如新增企業組織機構概念本體等,實現知識挖掘力度的不斷細化故障原因直接原因根本原因主要原因基于知識圖譜平臺的知識圖譜構建流程 構建圖譜 新增本體 形成本體結構樹 本體屬性 本體關系 新增實體 實體屬性值 異步構建 實體關系 實體屬性 實體間關系 實體入庫 圖譜可視化新增/編輯新增/編輯繼承繼承定義構建模板編輯批量導入形成知識圖譜構建流程圖說
15、明結合大模型的知識加工平臺智能知識圖譜文檔上傳doc、docx、pdf可視化人工標注搜索推薦問答文本解析圖片解析表格解析技術標準:標準號、術語定義、技術條款電價政策:生效時間、適用行業、電價調整方式工作報告:現場現象、外觀圖片、操作步驟專業名詞、原子化知識點、QA生成、三元組少量小樣本學習meta shot標注審核逐步增加CPUGPUNLP小模型LLM大語言模型人工審核標準審核語料,不但迭代模型,實現知識加工“越用越好用”知識加工流程模型無感知迭代根據文本數據內容細分為不同的知識加工場景,不同的場景下可以支持不同類型的知識加工抽取,大模型及nlp小模型在后臺完成學習與迭代,做到用戶無感知升級。
16、關鍵痛點問題及解決路徑數據處理階段l 痛點問題痛點問題多源異構數據整合困難多源異構數據整合困難:來自FAQ、文檔、音頻等不同數據格式的數據難以統一處理。數據質量不高數據質量不高:音頻轉文本過程中可能產生識別錯誤,文本數據中可能存在冗余、噪聲和缺失值。l 應對措施應對措施 結合分詞、停用詞過濾、語義分析等NLP技術對文本數據進行標準化處理;針對音頻數據,優化ASR模型,提升識別精度。建立數據清洗和去噪標準流程,制定規則剔除無效信息,確保數據輸入高質量。知識抽取階段l 痛點問題痛點問題實體和關系抽取不準確實體和關系抽取不準確:尤其是客服業務及行業專屬術語和復雜句式中的關系難以精準識別。動態事件難以
17、建模動態事件難以建模:需要準確捕捉事件隨時間發展的狀態和影響。l 應對措施應對措施 基于領域知識,訓練定制化的實體識別和關系抽取模型,結合規則和機器學習雙重手段提升抽取效果。在圖譜中引入時間戳機制,并結合動態事件模型描述時序關系,支持事件發展的狀態推理。知識融合階段l 痛點問題痛點問題實體沖突與冗余問題實體沖突與冗余問題:不同來源數據可能存在實體重復或屬性沖突,影響圖譜一致性。知識融合標準不統一知識融合標準不統一:多源數據的融合缺乏統一的規則和約束。l 應對措施應對措施 引入向量化表征技術,計算實體的相似度,實現實體對齊與沖突解決。協同用戶制定融合規則,優先采用權威數據源,并建立沖突檢測和審查機制。圖譜問答階段l 痛點問題痛點問題復雜查詢推理性能不足復雜查詢推理性能不足:多跳查詢或長鏈推理可能導致響應速度變慢。問題語義理解偏差問題語義理解偏差:部分問題可能由于歧義導致解析錯誤,無法返回正確答案。l 應對措施應對措施 優化圖數據庫索引結構,引入并行計算和緩存機制提升查詢效率;針對復雜推理,引入分步推理和鏈式驗證機制。針對常見問題庫(FAQ)進行主動擴充,并結合用戶問題語料進行大模型微調,通過GraphRAG技術路線優化問答效果。感謝大家用心觀看演講人:姓名 職位您的內容打在這里,或者通過復制您的文本后,在此框中選擇粘貼,您的內容打在這里您的內容打在這里謝謝觀看