《Long-Context vs RAG:誰將主導未來?-唐飛虎.pdf》由會員分享,可在線閱讀,更多相關《Long-Context vs RAG:誰將主導未來?-唐飛虎.pdf(61頁珍藏版)》請在三個皮匠報告上搜索。
1、Long-Context vs RAG誰將主導未來?唐飛虎MoonshotAI大綱 RAG什么是 RAG?RAG 相關的技術與框架 Long-ContextLong-Context 的發展歷程Long-Context 摩爾定律?Long-Context 的評測:長文本和長文本亦有差距 能力邊界與優勢區間 更多案例 突破限制:如何提升 RAG 和 Long-Context 的邊界RAG什么是 RAG?RAG 全稱 Retrieval-Augmented Generation,即檢索增強生成,它結合了檢索和生成的能力,為文本序列生成任務引入外部知識。目前,大部分公司傾向于使用 RAG 方法進行信息
2、檢索,因為相比長文本的使用成本,使用向量數據庫的成本更低。而在 RAG 應用過程中,一些公司會使用微調的 Embedding Model,以增強 RAG 的檢索能力;另一些些公司會選擇使用知識圖譜或者 ES 等非向量數據庫的 RAG 方法。大多數第三方個人和企業開發者會使用集成好的 RAG 框架(例如 llamaindex、langchain、etcs)或者直接使用 LLMOps 里內建的 RAG 工具。例子什么是什么是 RAG(Retrieval Augmented Generation)?Long-ContextLong-Context 的評測 上下文長度可能存在摩爾定律,目前尚未觸碰真正
3、的瓶頸。目前從硬件、架構、算法等多種角度優化模型上下文長度的技術方案。很多廠商生稱其模型支持百萬、甚至五百萬上下文長度。但長文本和長文本之間在質量和效果上亦有差距,要同時優化長度和無損壓縮水平兩個指標,才是有意義的規?;?。核心技術全球領先:已支持核心技術全球領先:已支持200萬字無損長窗口萬字無損長窗口從20萬字到200萬字無損長窗口,只用了不到 6 個月2024年3月中旬月之暗面月之暗面200 萬字萬字 Kimi正正正正正正正正正正正正正正正正正正正正約 200 萬字2024年2月中旬Google 1M Gemini 1.5 約 80 萬字正正正正正正正正正正正正正正正正正正正正2023年1
4、1月下旬Anthropic 200K Claude 2.1約 16 萬字正正正正正正正正正正正正正正正正正正正正OpenAI128K GPT-42023年11月上旬約 10 萬字正正正正正正正正正正正正正正正正正正正正2023年10月上旬月之暗面月之暗面20 萬漢字萬漢字 Kimi約 20 萬字正正正正正正正正正正正正正正正正正正正正長窗口無損壓縮能力強,不錯過每個細節長窗口無損壓縮能力強,不錯過每個細節“數星星”測試是大海撈針的升級版,由騰訊MLPD實驗室自主進行,結果發表在 ArXiv 上來源:https:/arxiv.org/abs/2403.11802GPT-4 Kimi96.598.
5、8GPT-4 Kimi96.886.4GPT-4 Kimi89.793.116(24)32(25)64(26)100%準確率計數次數能力邊界與優勢區間RAGPros.無需額外訓練速度快成本低工程方案成熟可設計多級檢索方案Cros.Embedding 召回效果直接影響模型回答效果無法處理復雜邏輯對多模態支持不足Long-ContextPros.無需額外訓練上下文兼顧更全面可處理復雜邏輯和依賴Cros.貴且慢長度有限更多案例結論 Long-Context:修煉模型基本功 RAG:擴展模型能力邊界 Long-Context+RAG 互補:給予開發者無限可能結論 Software Engineerin
6、g is about trade-offs:make sure you have options!何時使用 RAG,何時依賴模型 Long-context 能力?考驗架構師和產品經理對模型邊界和現有 SOTA 框架的運用與理解。突破限制RAGPros.無需額外訓練速度快成本低工程方案成熟可設計多級檢索方案Cros.Embedding 召回效果直接影響模型回答效果無法處理復雜邏輯對多模態支持不足RAGPros.無需額外訓練速度快成本低工程方案成熟可設計多級檢索方案Cros.Embedding 召回效果直接影響模型回答效果無法處理復雜邏輯對多模態支持不足Long-ContextPros.無需額外訓
7、練上下文兼顧更全面可處理復雜邏輯和依賴Cros.貴且慢長度有限Long-ContextPros.無需額外訓練上下文兼顧更全面可處理復雜邏輯和依賴Cros.貴且慢長度有限Long-Context 性能瓶頸并發性能隨著上下文長度的增加而反比下降。預填充延遲隨上下文長度的增長而呈平方級別的增長。解碼延遲和上下文切換開銷隨上下文長度的增加而線性增加。Long-Context 性能瓶頸并發性能隨著上下文長度的增加而反比下降。預填充延遲隨上下文長度的增長而呈平方級別的增長。解碼延遲和上下文切換開銷隨上下文長度的增加而線性增加。Long-Context 推理優化硬件升級A100 Memory Hierarc
8、hy機器學習工程FlashAttentionvLLM模型架構MoESpeculative DecodingLong-Context 推理優化LayerConfident Adaptive Language Modeling,2022CoLT5:Faster Long-Range Transformers with Conditional Computation,2023LayerSkip:Enabling Early Exit Inference and Self-Speculative Decoding,2024You Only Cache Once:Decoder-Decoder Arch
9、itectures for Language Models,2024HeadGQA:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints,2023Long-Context 推理優化HeadRetrieval Head Mechanistically Explains Long-Context Factuality,2024DeepSeek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language Model,2024H
10、idenKIVI:A Tuning-Free Asymmetric 2bit Quantization for KV Cache,2024WKVQuant:Quantizing Weight and Key/Value Cache for Large Language Models Gains More,2024Long-Context 推理優化TokenH2O:Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models,2023Model Tells You What to Discard:A
11、daptive KV Cache Compression for LLMs,2023Dynamic Memory Compression:Retrofitting LLMs for Accelerated Inference,2024SnapKV:LLM Knows What You are Looking for Before Generation,2024TriForce:Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding,2024參考資料ACL 2023 Tuto
12、rial:Retrieval-based Language Models and ApplicationsRetrieval-Augmented Generation for Large Language Models:A SurveyRetrieval-Augmented Generation for AI-Generated Content:A SurveyLarge Language Model Based Long Context Modeling Papers and BlogsFull Stack Transformer Inference Optimization Season 2:Deploying Long-Context Models想要了解更多?想要了解更多?歡迎加入歡迎加入我們的開發者社群。我們的開發者社群。讓 Kimi 告訴你更多