《王昊奮-知識增強大模型:垂域落地的最后一公里.pdf》由會員分享,可在線閱讀,更多相關《王昊奮-知識增強大模型:垂域落地的最后一公里.pdf(32頁珍藏版)》請在三個皮匠報告上搜索。
1、知識增強大模型:垂域落地的最后一公里演講人 王昊奮 同濟大學演講嘉賓王昊奮同濟大學特聘研究員同濟大學特聘研究員/OpenKG發起人之一發起人之一中國計算機學會(CCF)技術前沿委員會知識圖譜SIG主席、自然語言處理專委會秘書長;中國中文信息學會(CIPS)理事、語言與知識計算專業委員會副秘書長;上海市計算機學會青年工作委員會副主任。研究方向:知識圖譜、自然語言處理、智能內容生成業。騰訊云最具價值專家TVP,中國中文信息學會理事,暢銷書知識圖譜方法、實踐與應用的作者,曾作為2家AI獨角獸企業的CTO;具有超過16年的知識圖譜研發和技術管理經驗。目 錄CONTENTS1.知識檢索增強的基本概述2.
2、知識檢索增強技術的主要范式與發展歷程3.知識檢索增強的關鍵技術與效果評估4.知識檢索增強技術棧與行業實踐淺析5.總結與展望知識檢索增強的基本概述PART 01知識檢索增強技術提出的背景幻覺信息過時參數化知識效率低缺乏專業領域的深度知識推理能力弱LLM的缺陷實際應用的需求領域精準問答數據頻繁更新生成內容可解釋可溯源成本可控數據隱私保護由OpenAI DALL E 3生成檢索增強生成(Retrieval-Augmented Generation,RAG)LLM 在回答問題或生成文本時,先會從大量文檔中檢索出相關的信息,然后基于這些信息來生成回答。RAG 方法使得不必為每一個特定的任務重新訓練整個大
3、模型,只需要外掛知識庫。RAG模型尤其適合知識密集型的任務。RAG的主要流程外掛知識庫 vs 知識參數化大模型優化的方式提示工程Prompt Engineering檢索增強Retrieval-Augmented Generation(指令)微調Instruct/Fine-tuningRAG vs Fine-tuningRAGFine-tuning知識更新直接更新檢索知識庫,適合動態數據環境重新微調訓練,保持更新需要大量資源訓練數據的要求對數據加工和處理的要求低微調依賴高質量數據集,有限的數據集可能不會產生顯著性能改善可解釋性(可溯源性)通??梢宰匪莸教囟〝祿吹拇鸢?,從而提供更高等級的可解釋性
4、和可溯源性微調就像黑匣子,并不總是清楚模型為何會做出這樣的反應,相對較低的可解釋性可擴展性高,可以動態銜接不同的數據源低,擴展新知識需要重新微調訓練耗時由于(多次)數據檢索可能會有更高延遲經過微調的 LLM 無需檢索即可響應外部知識利用擅長利用外部資源,適合文檔或其他結構化/非結構化數據庫需要構造監督數據集以內化外部知識,不適用頻繁更改的數據源知識檢索增強的使用場景RAG適用的情況:數據長尾分布知識更新頻繁回答需要驗證追溯領域專業化知識數據隱私保護問答RETRO(Borgeaud et al2021)REALM(Gu et al,2020)ATLAS(lzacard et al,2023)事實
5、驗證RAG(Lewis et al,2020)ATLAS(lzacard et al,2022)Evi.Generator(Asai et al,2022a)情感分析kNN-Prompt(Shietal.,2022)NPM(Min et al.,2023)機器翻譯kNN-MT(Khandelwal et al.,2020)TRIME-MT(Zhong etal.,2022)常識推理Raco(Yu et al,2022)代碼生成DocPrompting(Zhou et al.,2023Natural ProverWelleck et al.,2022)對話BlenderBot3(Shustere
6、tal.2022)Internet-augmentedgeneration(Komeili et a.,2022)總結FLARE(Jiang et al,2023)自然語言推理kNN-Prompt(Shi et al.,2022)NPM(Min et al.,2023)知識檢索增強技術的主要范式與發展歷程PART 02RAG的典型范式(Naive RAG)步驟1:構建數據索引:1.將文檔分割成均勻的塊。每個塊是一段原始文本。2.利用編碼模型為每個文本塊生成Embedding3.將每個塊的Embedding存儲到向量數據庫中。步驟2:檢索通過向量相似度檢索和問題最相關的K個文檔。步驟3:生成原始
7、Query與檢索得到的文本組合起來輸入打語言模型,得到最終的回答。樸素RAGNaive RAGRAG進階Advanced RAG模塊化RAGModularized RAGRAG的典型范式(Dynamic/Advanced RAG)索引優化:滑動窗口、細粒度分割、元數據前檢索模塊:檢索路由、摘要、重寫、置信度判斷后檢索模塊:重排序、檢索內容過濾樸素RAGNaive RAGRAG進階Advanced RAG模塊化RAGModularized RAG索引優化-前檢索-檢索-后檢索-生成模塊化RAG(Modularized RAG)ReadRetrieveFilter Generate RerankR
8、AGAggregationRewritePredictDemonstrate典型PatternNaive RAGReflect常見模塊ReadSearchDemonstrateSearchPredictRetrieveGenerate Generate RewriteRetrieveReadDSP(2022)Rewrite-Retrieve-Read(2023)RetrieveReadRetrieve-then-read(2023)Generate。樸素RAGNaive RAGRAG進階Advanced RAG模塊化RAGModularized RAGRAG的三大靈魂拷問檢索什么?什么時候檢索
9、?怎么使用檢索的結果?詞元詞組句子段落實體知識圖譜單次檢索每個Token每 N個Token(Phrase)自適應檢索輸入/數據層模型/中間層輸出/預測層在什么階段增強?預訓練(指令)微調推理其他問題檢索器選擇?BERTRobertaBGE.生成器選擇?GPTLlamaT5.模型協同規模選擇RAG的關鍵問題檢索什么?EntityEasE 2022Knowledge Graph 2023ChunkIn-Context RAG 2023檢索粒度粗細結構化程度高低PhraseNPM 2023TokenKNN-LMM 2019檢索粒度粗,召回信息量大,精確度低,覆蓋率高,冗余信息多在長尾問題、跨領域問題
10、上更有優勢,計算效率高,存儲消耗大提供更豐富語義和結構化信息,檢索效率更低,受限于KG質量RAG的關鍵問題如何使用檢索內容在推理過程中,集成檢索到的信息到生成模型的不同層級中輸入/數據層模型/中間層輸出/預測層集成檢索位置使用簡單,但無法支持檢索更多的知識塊,且優化空間有限支持輸入更多的知識塊檢索,但引入額外的復雜度,且必須訓練保證輸出結果與檢索內容高度相關但效率低RAG的關鍵問題什么時候檢索檢索頻率低高OnceReplug 2023 AdaptiveFlare 2023Every N TokensAtlas 2023在推理中僅進行一次檢索每生成N個Tokens去檢索一次自適應地進行檢索效率高
11、,檢索到的文檔相關度低平衡效率和信息的矛盾可能非最優解檢索到的信息量大,但效率低,冗余信息多RAG發展歷程總覽知識檢索增強的關鍵技術與效果評估PART 03Techniques for Better RAG 檢索內容優化Small-2-Big在句子級別嵌入文本,然后在LLM生成過程中擴大窗口索引優化滑動窗口滑動Chunk覆蓋全文,避免語義割裂摘要通過摘要嵌入更大的文檔。通過摘要檢索文檔,再從文檔中檢索文本塊添加元數據示例頁碼文檔標題偽元數據生成通過為傳入的查詢生成一個假設性的文檔來增強檢索,并生成該文本塊可以回答的問題元數據篩選/擴充元數據過濾器對文檔進行分離和標記。查詢期間,除了語義查詢之外
12、,并推斷元數據過濾器Small-2-Big時間類型摘要元數據過濾偽元數據Techniques for Better RAG 結構化語料 摘要 文檔 用摘要檢索代替文檔檢索,不僅檢索直接最相關的節點,還會探索節點相關聯的額外節點分層組織檢索語料庫 文檔 嵌入對象文檔中嵌入了對象(如表、圖),先檢索實體引用對象,再查詢底層對象,例如文檔塊、數據庫、子節點Techniques for Better RAG Embedding優化選擇更合適的Embedding供應商微調Embedding模型根據領域檢索庫和下游任務微調BAAI-General-Embedding(BGE)LLM-Embedder(BG
13、E2)微調Adapter模塊,對齊Embedding模型和檢索庫Techniques for Better RAG 流程優化Step-BackPromptingITERAdaptiveIterativeFLARESelf-RAG迭代的檢索語料庫,不斷獲取更細更深入的知識由LLM動態的判斷檢索的時機和范圍如何評估RAG的效果噪聲魯棒性否定拒絕信息整合反事實魯棒性LLM對問題的回答如何生成答案的事實準確性如何檢索語境的信噪比生成的答案與問題的相關性如何能否檢索到問題所需的所有相關信息檢索內容與問題的相關程度檢索獨立評估端到端評估評價體系評估方式檢索評估(Retriever Evaluator)評估
14、查詢檢索到的文本塊的質量。輸出:與查詢相關的“真實”文檔(MRR,Precision,NDCG)生成評估(Generation Evaluator)分塊外部知識庫,使用LLM從每個(或一組)文本塊生成問題。形成(問題,文本塊)評估對無標簽評估指標(相關性,無害性)有標簽評估(準確性,EM)人工/GPT評估RAGAS生成檢索準確率檢索召回率答案相關性正確率RGB知識檢索增強技術棧與行業實踐淺析PART 04RAG 現有技術棧選擇名稱優點缺點LangChain 模塊化,功能全面行為不一致并且隱藏細節API復雜,靈活度低LlamaIndex專注知識檢索需組合使用,定制化程度低FlowiseAI上手簡
15、單,流程可視化功能單一,不支持復雜場景AutoGen適配多智能體的場景效率低,需要多輪對話LlamaIndexLangChainFlowiseAIAutoGenRAG 行業應用實踐網易有數-ChatBIBMW-CarExpertCohere-CoralAmazon-KendraRAG傳統行業的智能化升級AI工具鏈提升總結和展望PART 05總結檢索什么什么時候檢索怎么用檢索的內容RAG的關鍵問題RAG的優化技巧結構化語料Embedding優化流程優化樸素RAG RAG范式演變模塊化RAGRAG進階LangchainRAG 技術棧LlamaIndexFlowiseAIAutoGenRAG的評測忠實性答案相關性上下文召回率上下文精確性噪聲魯棒性否定拒絕信息整合反事實魯棒性檢索內容優化展望RAG模型的Scaling Law規律如何提升檢索大規模數據的效率長上下文場景下的遺忘緩解多模態的檢索增強工具鏈技術棧初步形成一站式平臺仍需打磨企業級應用井噴RAG范式生態技術模塊化將成為主流模塊組織待凝練模式評測體系需與時俱進完善THANKSOpenKG公眾號知識圖譜與大模型技術算法、實戰文章、行業案例分享