當前位置：首頁 > 報告詳情

Long-Context vs RAG：誰將主導未來？-唐飛虎.pdf

上傳人：張** 編號：164017 2024-05-31 PDF PDF 61頁 7.22MB

該報告所屬合集： 2024AICon全球人工智能開發與應用大會嘉賓演講PPT合集-北京站

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/61

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《Long-Context vs RAG：誰將主導未來？-唐飛虎.pdf》由會員分享，可在線閱讀，更多相關《Long-Context vs RAG：誰將主導未來？-唐飛虎.pdf（61頁珍藏版）》請在三個皮匠報告上搜索。

1、Long-Context vs RAG誰將主導未來？唐飛虎MoonshotAI大綱 RAG什么是 RAG？RAG 相關的技術與框架 Long-ContextLong-Context 的發展歷程Long-Context 摩爾定律？Long-Context 的評測：長文本和長文本亦有差距能力邊界與優勢區間更多案例突破限制：如何提升 RAG 和 Long-Context 的邊界RAG什么是 RAG？RAG 全稱 Retrieval-Augmented Generation，即檢索增強生成，它結合了檢索和生成的能力，為文本序列生成任務引入外部知識。目前，大部分公司傾向于使用 RAG 方法進行信息

2、檢索，因為相比長文本的使用成本，使用向量數據庫的成本更低。而在 RAG 應用過程中，一些公司會使用微調的 Embedding Model，以增強 RAG 的檢索能力；另一些些公司會選擇使用知識圖譜或者 ES 等非向量數據庫的 RAG 方法。大多數第三方個人和企業開發者會使用集成好的 RAG 框架（例如 llamaindex、langchain、etcs）或者直接使用 LLMOps 里內建的 RAG 工具。例子什么是什么是 RAG(Retrieval Augmented Generation)?Long-ContextLong-Context 的評測上下文長度可能存在摩爾定律，目前尚未觸碰真正

3、的瓶頸。目前從硬件、架構、算法等多種角度優化模型上下文長度的技術方案。很多廠商生稱其模型支持百萬、甚至五百萬上下文長度。但長文本和長文本之間在質量和效果上亦有差距，要同時優化長度和無損壓縮水平兩個指標，才是有意義的規?；?。核心技術全球領先：已支持核心技術全球領先：已支持200萬字無損長窗口萬字無損長窗口從20萬字到200萬字無損長窗口，只用了不到 6 個月2024年3月中旬月之暗面月之暗面200 萬字萬字 Kimi正正正正正正正正正正正正正正正正正正正正約 200 萬字2024年2月中旬Google 1M Gemini 1.5 約 80 萬字正正正正正正正正正正正正正正正正正正正正2023年1

4、1月下旬Anthropic 200K Claude 2.1約 16 萬字正正正正正正正正正正正正正正正正正正正正OpenAI128K GPT-42023年11月上旬約 10 萬字正正正正正正正正正正正正正正正正正正正正2023年10月上旬月之暗面月之暗面20 萬漢字萬漢字 Kimi約 20 萬字正正正正正正正正正正正正正正正正正正正正長窗口無損壓縮能力強，不錯過每個細節長窗口無損壓縮能力強，不錯過每個細節“數星星”測試是大海撈針的升級版，由騰訊MLPD實驗室自主進行，結果發表在 ArXiv 上來源：https:/arxiv.org/abs/2403.11802GPT-4 Kimi96.598.

5、8GPT-4 Kimi96.886.4GPT-4 Kimi89.793.116(24)32(25)64(26)100%準確率計數次數能力邊界與優勢區間RAGPros.無需額外訓練速度快成本低工程方案成熟可設計多級檢索方案Cros.Embedding 召回效果直接影響模型回答效果無法處理復雜邏輯對多模態支持不足Long-ContextPros.無需額外訓練上下文兼顧更全面可處理復雜邏輯和依賴Cros.貴且慢長度有限更多案例結論 Long-Context：修煉模型基本功 RAG：擴展模型能力邊界 Long-Context+RAG 互補：給予開發者無限可能結論 Software Engineerin

6、g is about trade-offs:make sure you have options!何時使用 RAG，何時依賴模型 Long-context 能力？考驗架構師和產品經理對模型邊界和現有 SOTA 框架的運用與理解。突破限制RAGPros.無需額外訓練速度快成本低工程方案成熟可設計多級檢索方案Cros.Embedding 召回效果直接影響模型回答效果無法處理復雜邏輯對多模態支持不足RAGPros.無需額外訓練速度快成本低工程方案成熟可設計多級檢索方案Cros.Embedding 召回效果直接影響模型回答效果無法處理復雜邏輯對多模態支持不足Long-ContextPros.無需額外訓

7、練上下文兼顧更全面可處理復雜邏輯和依賴Cros.貴且慢長度有限Long-ContextPros.無需額外訓練上下文兼顧更全面可處理復雜邏輯和依賴Cros.貴且慢長度有限Long-Context 性能瓶頸并發性能隨著上下文長度的增加而反比下降。預填充延遲隨上下文長度的增長而呈平方級別的增長。解碼延遲和上下文切換開銷隨上下文長度的增加而線性增加。Long-Context 性能瓶頸并發性能隨著上下文長度的增加而反比下降。預填充延遲隨上下文長度的增長而呈平方級別的增長。解碼延遲和上下文切換開銷隨上下文長度的增加而線性增加。Long-Context 推理優化硬件升級A100 Memory Hierarc

8、hy機器學習工程FlashAttentionvLLM模型架構MoESpeculative DecodingLong-Context 推理優化LayerConfident Adaptive Language Modeling,2022CoLT5:Faster Long-Range Transformers with Conditional Computation,2023LayerSkip:Enabling Early Exit Inference and Self-Speculative Decoding,2024You Only Cache Once:Decoder-Decoder Arch

9、itectures for Language Models,2024HeadGQA:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints,2023Long-Context 推理優化HeadRetrieval Head Mechanistically Explains Long-Context Factuality,2024DeepSeek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language Model,2024H

10、idenKIVI:A Tuning-Free Asymmetric 2bit Quantization for KV Cache,2024WKVQuant:Quantizing Weight and Key/Value Cache for Large Language Models Gains More,2024Long-Context 推理優化TokenH2O:Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models,2023Model Tells You What to Discard:A

11、daptive KV Cache Compression for LLMs,2023Dynamic Memory Compression:Retrofitting LLMs for Accelerated Inference,2024SnapKV:LLM Knows What You are Looking for Before Generation,2024TriForce:Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding,2024參考資料ACL 2023 Tuto

12、rial:Retrieval-based Language Models and ApplicationsRetrieval-Augmented Generation for Large Language Models:A SurveyRetrieval-Augmented Generation for AI-Generated Content:A SurveyLarge Language Model Based Long Context Modeling Papers and BlogsFull Stack Transformer Inference Optimization Season 2:Deploying Long-Context Models想要了解更多？想要了解更多？歡迎加入歡迎加入我們的開發者社群。我們的開發者社群。讓 Kimi 告訴你更多

相關圖表

本文對比了Long-Context和RAG兩種技術，討論了它們的優勢和局限性，并探索了如何突破這些限制。Long-Context是一種能夠處理長文本和復雜邏輯的模型，但成本高且處理速度慢。RAG是一種結合了檢索和生成能力的模型，可以引入外部知識，成本低且工程方案成熟，但無法處理復雜邏輯且對多模態支持不足。目前，大多數公司傾向于使用RAG進行信息檢索。文章還提到了一些關鍵的數據，如不同模型在「數星星」測試中的表現，以及Long-Context的性能瓶頸和解碼延遲問題。最后，文章提出了一些可能的解決方案，如硬件升級、機器學習工程和模型架構的創新，以優化Long-Context的推理性能。

"RAG與Long-Context誰將主導未來？" "如何突破Long-Context的性能瓶頸？" 哪個更適合復雜邏輯處理？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站