《張穎峰-2025的RAGFlow——推理、記憶、多模態.pdf》由會員分享,可在線閱讀,更多相關《張穎峰-2025的RAGFlow——推理、記憶、多模態.pdf(42頁珍藏版)》請在三個皮匠報告上搜索。
1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit張張穎穎峰峰 英英飛飛流流聯聯合合創創始始人人兼兼 C CE EO O英飛流聯合創始人,連續創業者,先后負責多年Infrastructure研發,涵蓋搜索引擎,數據庫內核,云計算基礎架構和大數據架構等,從事多年人工智能核心算法研發,包括廣告和推薦引擎和計算機視覺。先后主導并參與多家大型企業數字化轉型,支撐過日活千萬,日均兩億搜索動態請求的互聯網
2、業務。演演講講主主題題:2 20 02 25 5的的R RA AG GF Fl lo oww推推理理、記記憶憶、多多模模態態ML-SummitML-Summit2025 全球機器學習技術大會2025?年的 RAGFlow推理、記憶、多模態張穎峰InfiniFlowML-SummitML-SummitRAG回顧與展望20262024202420232025摘要能力RAGLLMAI普世化長上下文翻譯能力開源LLM語義可控性增強幻覺降低多模態外掛記憶體重排序混合搜索數據清洗模型知識圖譜開源模型能力追上OpenAI多模態成本內卷AgenticReasoningReasoningMASML-Summit
3、ML-Summit錄錄推理篇記憶篇多模態RAG總結ML-SummitML-Summit推理篇01ML-SummitML-SummitNave?RAG?+?RLM?=?Reasoning?SearchQuestionReadReasoningAnswer需要根據內部數據成推理鏈ML-SummitML-SummitAgentic?ReasoningReasoningQuestionSub?questionSearchAnswerReason?in?DocumentsSub?questionSub?questionSearchSearchIterationML-SummitML-Summit系列Ag
4、entic?Reasoning Search o1 津 Agentic Reasoning 微軟 PIKE-RAG LevelRAG 系列 Deep ResearchML-SummitML-SummitAgentic?ReasoningRAGFlowReasoningQuestionSub?questionWeb?SearchAnswerSub?questionSub?questionRAGGraphRAGIterationML-SummitML-SummitAgentic?ReasoningDemoML-SummitML-SummitAgentic?ReasoningDemoML-Summi
5、tML-Summit改進MCTSQuestion?ReasoningSub?QuestionReasoningAnswerSub?QuestionReasoningAnswerRetrievalAnswerRetrievalSummaryRetrievalSummarySummaryML-SummitML-Summit核與挑戰 推理的核迭代式反思 只靠 LLM 好么LLM 做 Plan 很多缺點 如何終迭代?Agent實現的2種構型 依靠 LLM 評估推理鏈質量 依靠 RL微調,通過獎勵函數學習到跟環境交互的正確姿勢 多觀察,多動,少思考Agentic 的價值ML-SummitML-Summi
6、tRAG?+?RL Search R1 R1 Searcher ReSearch DeepResearcherQRetrievalPolicy?LLMo1o2o3Reward?ModelReference?LLMr1r2r3Group?ComputationA1A2A3KL成搜索查詢和推理步驟Rollouts成答案和真實答案致成答案符合推理格式ML-SummitML-Summit記憶篇02ML-SummitML-SummitMemory?與 Agent檢索提問Reasoner回答內容Memory搜索思考輸出ML-SummitML-SummitMemory?和 RAG?的區別與聯系 動態記憶管理
7、記憶的衰減與淘汰 Agent 配套MemoryRetrievalPlanReflectActAgent?Memory 檢索差別時間/權重/相關度共享與隔離任務狀態跟蹤上下文保持任務依賴管理ML-SummitML-SummitMemory?的本質LLM限上下Reasoning過濾混合搜索重排序查詢重寫輔助推理GraphRAGRAPTORContextual?Retrieval本質是種注意實現ML-SummitML-SummitContextual?Memory?和?Long-term?Memory外部知識交互信息記憶來源記憶格式本參數記憶訪問實時搜索與過濾Attention 增強互動:保持上下,
8、提供更相關和個性化的響應 改進推理:訪問以前得出的結論,使模型執復雜推理需重新處理輸數據 促進學習:適應個性化偏好ML-SummitML-SummitMemory?的多種實現段TextMemory?APIFull?Text?IndexVector?IndexGraph?IndexReal?Time?Index?DatabaseEmbedding?Service作記憶(KV?Cache)LLMTransformerTextIndex顯式記憶(KV Cache)工作記憶(KV Cache)LLMTransformerAttention?Engine?ML-SummitML-SummitAttent
9、ion?Engine?IITokenTokenTokenTokenAttention?Score?LM?HeadGenerationEntropyLogits(Prediction?scores)+RetrievalML-SummitML-SummitContextual?MemoryMCP?ServerRemote?ResourceInternetMCP?ServerLocal?ResourceLocal?MachineMCP?ServerLocal?ResourceClientClientClientLLMContextual?Memory?LayerAgentML-SummitML-Su
10、mmitMAS?舉例LLMToolsLLMReporter?AgentRAG?Retrieve?Agent診斷計劃PlanRAG?臨床報告診斷報告案例ML-SummitML-Summit多模態 RAG03ML-SummitML-Summit多模態 RAGML-SummitML-SummitVision?Language?ModelML-SummitML-SummitViDoRe?BenchmarkQwen2 VL 7B=ColQwen2PaliGemma=ColPaliML-SummitML-Summit從?Vector?到 TensorVLM 把PDF看作 32*32=1024 patche
11、s每個Patch 表為128維向量ML-SummitML-Summit多模態RAGPDF1PDF2page1page2page1page2ColPali每采個Tensor來表個PDF切分成多TensorAnswer:?1228Whats Chinas IDC businessmarket size in 2018?VLMML-SummitML-SummitTensor?和延遲交互模型QueryDocument PassageTransformerTransformerEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingE
12、mbeddingEmbeddingEmbeddingPoolingPoolingEmbeddingEmbeddingSimilarity向量的生成與查詢QueryDocument PassageTransformerMLPScoreCross EncoderLate Interaction EncoderTransformerTransformerEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingEmbeddingMaxSimMaxSimMaxSimOffline IndexingScoreQuery
13、Document PassageML-SummitML-Summit訓練專服務檢索的 Col-xx?Embedding模型Text?Query正相關Page?Image負相關Page?Image訓練數據VLM(eg:?PaliGemma)ColAdaptor訓練Adaptor權重,學習如何在同向量空間中表本和Patch投影contrastive?loss延遲交互訓練數據獲得:可以VLM成查詢,根據提詞成三類覆蓋檔主要主題具體細節查詢視覺元素查詢ML-SummitML-Summit視頻 VideoColBERTTemporal?EncoderVisual?Expansion?Tokens?Ima
14、ge?TokensQuery?TokenssML-SummitML-SummitScalingMulti?Vector?IndexFull?Text?SearchTensor?RerankerTop?1000?resultsTop?resultsQuestion多模態RAG在等待配套的Infra成熟Tensor?Reranker值量化Multi-Vector?向量索引全索引DB側模型側MRLConstBERTML-SummitML-SummitInfinityIndexing?Database多路召回結構化數據查詢融合排序TensorSparse?VectorDense?VectorFull?
15、Text?SearchColumnar?StoreSecondary?IndexNumeric/StringDense?VectorTextVector?IndexFull?text?IndexSparse?VectorTensorSparse?Vector?IndexTensor?IndexML-SummitML-Summit多模態 RAG?的路徑Object?DetectionDoc?LayoutText?ImageOCRGeneral?ImageVLMTextCol-xxxTensorCol-xxxTensorTextVLMTextML-SummitML-Summit總結04ML-SummitML-Summit總結 RAG作為單獨層的重要性更加凸顯 RAG跟Agent交互更加頻繁,2者合作和競爭均同時存在 RAG 的內涵會更加擴ML-SummitML-SummitML-SummitML-Summit