《推理服務行業發展趨勢.pdf》由會員分享,可在線閱讀,更多相關《推理服務行業發展趨勢.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、推理服務行業發展趨勢目錄01行業發展趨勢推理服務發展現狀和趨勢分析02技術方向差異化定位和技術優勢03場景化解決方案典型客戶場景和落地案例中國開源大模型能力大幅度提高縮小差距:2024年末,中國頂尖人工智能實驗室推出了許多高性能模型。這使得中國人工智能實驗室與美國人工智能實驗室在模型智能水平上的差距逐漸縮小。多款中國模型現在已經能夠與美國頂尖實驗室的模型相媲美推理模型迅速普及:推理模型(在回答之前“思考”的模型)最初由OpenAI于2024年第三季度推出。在短短幾個月內,以DeepSeek為首的中國競爭者已在很大程度上復制了o1的智能水平。目前,中國的多家人工智能實驗室已經擁有前沿級別的推理模
2、型。開源模型逼近前沿實驗室:以DeepSeek和阿里巴巴為代表的開源權重模型已接近o1級別的智能水平。Agent 和 MCP 結合成為流行范式模型提示詞返回模型提示詞返回ToolsRAG RAGAgentAgentAgentMCP協議數據庫瀏覽器渲染虛擬機聯機搜索Model Context Protocol(MCP)是一個開放協議,標準化了應用程序如何為 LLM 提供上下文模型模型模型Agent 需要推理性能進一步提高 一個典型任務通常需要6-8 次LLM 調用 總耗時:6.5-16秒(如果每次調用都需要等待)優化推理速度對提升用戶體驗至關重要什么是推理大模型推理是指人工智能大模型基于已學習的
3、知識,通過復雜的計算過程,對輸入的問題進行分析、推導并得出結論的能力推理是企業大模型落地的主要方式預訓練模型門檻極高,絕大部分企業都沒有足夠的資金投入在推理的時候增加了“思考時間”,推理計算量增加,效果變的更好不同場景,對推理性能的要求是不一樣的復雜推理研究類場景客服語音交互場景文生圖場景內容寬泛長上下文高延遲內容聚焦低延遲語音 TTS頻繁多次修改多層計算數量較大推理平臺的特點是多租和動態的在多個跨機實例上處理不同類型和動態變化的請求多用戶共用延遲要求不同不同優先級上下文越來越長多機異構計算資源頻繁的進程切換未知的計算時間膨脹的 KV Cache預填充和解碼分離將 LLM 推理劃分為預填充(P
4、rompt 處理和初始 Key/Value 計算)和解碼(逐個生成后續 token)兩個階段。通過分離,提升整體推理效率和靈活性01通算異步調度優化通過并行處理獨立計算任務,減少資源等待,提升整體推理速度和資源利用率。尤其針對 MOE 專家并行,效果明顯02KV Cache 優化有效管理歷史token的Key和Value向量緩存,降低內存占用,加速后續token生成,支持更長上下文03Nvidia、MoonCake、vLLM 和 SGLang 都在積極推動推理技術發展DeepSeek 連續一周發布的內容中有三項和推理優化有關推理優化的技術發展趨勢目錄01行業發展趨勢02差異化定位和技術優勢03
5、場景化解決方案典型客戶場景和落地案例技術方向推理服務發展現狀和趨勢分析終極速度推理平臺角色用戶多個請求應用應用應用應用終極速度推理平臺多引擎后端批處理(靜態/持續/實時)提示詞調度隊列模型管理返回隊列消息返回http/SSE提示詞提交http/SSE指標監控(吞吐、延遲、GPU 使用率)計算硬件(GPU、NPU、CPU)不同后端的推理引擎(vLLM、Pytorch、SGLang等)結構化輸出終極速度推理平臺架構算力調度和模型管理健康監測架構分布式計算框架抽象低級通信細節采用批量方法提升效率可實現自動恢復采用靈活的Actor模型支持各類高級調度策略Xoscar基于Xavier的 Cache 共享
6、通過Cache共享減少重復計算通過Cache共享提升響應速度通過Cache共享優化資源利用重疊KV cache獲取減少從慢速介質上訪問KV Cache的開銷多層KV cache系統解決 KV Cache 大容量存儲問題層級KV cache排布優化了不同存儲層次中KV Cache的放置緩存注意力解耦KV cache截斷解決由于LLM上下文窗口溢出而導致緩存的KV Cache失效問題異構 PD 分離方案分離式部署是解決以上資源和SLO需求的最優解決方案。通過將Prefill和Decode任務分配到不同的GPU上,可以避免兩個階段之間的干擾,并且每個階段可以根據其特定的計算需求進行資源優化,此外本方
7、案適配deepseek-ai開源的高性能通信庫DeepEP加速KVCache傳輸以及在海光DCU上的FlashMLA/DeepGEMM算子加速通用計算速度,從而最大化GPU的利用率采用低延遲Decode同步策略以最小化注意力執行器和本地引擎之間的同步開銷通過高效Prefill協同提升Prefill中的顯存利用率代理采用基于負載的自適應調度確定最優卸載率高級PD分離目錄0102差異化定位和技術優勢03場景化解決方案典型客戶場景和落地案例行業發展趨勢技術方向推理服務發展現狀和趨勢分析H800 6 臺 48 張70B 以上大模型A30 3 臺 24 張10B 以下小模型V100 6 臺 36 張Em
8、bedding、Reranker華為昇騰 3 臺 24 張30B 以下模型語言大模型音頻大模型EmbeddingRerank多模態客服知識庫招聘合同審批采購數據分析 BI異構 GPU、多模型場景H20 滿血 Deepseek 場景節點一:NvidiavllmGPUGPUdeepseek 671BGPUGPUGPUGPUGPUGPU節點二:NvidiavllmGPUGPUdeepseek 671BGPUGPUGPUGPUGPUGPUDeepSeek 671B 滿血版請求Supervisor多臺節點都包含部分 DeepSeek 671B 的模型權重請求到來時,會按照權重分布按照不同并行方式進行分片分機計算,計算完成合并返回節點三:NvidiavllmGPUGPUdeepseek 671BGPUGPUGPUGPUGPUGPU節點四:NvidiavllmGPUGPUdeepseek 671BGPUGPUGPUGPUGPUGPU長上下文調度場景發現影響高優先級 worker 的長上下文請求,調度到低優先級 worker 節點上SD Comfy UI 分離方案