北京大學:2025年DeepSeek私有化部署和一體機報告(121頁).pdf

編號:616492 PDF  PPTX 121頁 29.46MB 下載積分:VIP專享
下載報告請您先登錄!

北京大學:2025年DeepSeek私有化部署和一體機報告(121頁).pdf

1、1DeepSeek內部研討系列-DeepSeek 私有化部署和一體機AI肖睿團隊(韓露、王春輝、顧躍、李娜、謝安明、陳鐘)20250224北京 北大青鳥人工智能研究院 北大計算機學院元宇宙技術研究所2摘要1.本次講座為DeepSeek原理和應用系列研討的講座之一,讓大家可以決策是否需要自己部署DeepSeek系列模型,并了解自己本地化部署DeepSeek的基本方法,同時了解更專業的企業級部署方法,有助于選擇DeepSeek一體機型號,并能理解DeepSeek云服務的工作機制和原理,用好DeepSeek云服務的API調用方法。2.本講座的內容分為四個主要部分:首先,除了DeepSeek滿血版之外

2、,還有各種各樣的蒸餾版和量化版,以及DeepSeek的不同專業模型。我們將介紹人工智能大模型的基本概念,以及DeepSeek各個模型的特點與適用場景,對比不同規模模型的性能表現,幫助大家選擇最適合自己需求的版本。其次,對于普通用戶在自己的電腦上部署和體驗DeepSeek(蒸餾版)的情況,我們會評估和建議硬件要求,演示如何通過Ollama命令行高效部署DeepSeek模型,解決下載過程中可能遇到的常見問題。為了提升在自己的電腦上安裝DeepSeek模型后,大家與DeepSeek模型的交互體驗,我們還將介紹Open WebUI和Chatbox等前端展示工具的配置與使用方法。然后,對于專業級的企業部

3、署DeepSeek,或把DeepSeek(蒸餾版和滿血版)部署在專業的昂貴的推理機上,本講座將探討基于Transformers快速驗證和vLLM的高性能部署方案,并提供真實企業基于vLLM的部署DeepSeek-70b的相關數據和經驗。最后,作為補充內容,針對計算資源受限的場景,我們專門設計了低成本部署環節,詳細講解Unsloth R1動態量化部署的三種實現路徑:基于llama.cpp、KTransformers以及Ollama框架動態量化部署。3.在技術學習的道路上,優質學習資源至關重要。推薦大家參考人工智能通識教程(微課版)這本系統全面的入門教材,結合B站“思睿觀通”欄目的配套視頻進行學習

4、。此外,歡迎加入社區,以及“AI肖睿團隊”的視頻號和微信號,與志同道合的AI愛好者交流經驗、分享心得。3301人工智能與DeepSeek目 錄03企業部署DeepSeek02個人部署DeepSeek04DeepSeek一體機4人工智能與DeepSeekPART 015大模型相關術語多模態文本、圖片、音頻、視頻AI工具(國內)DeepSeek、豆包、Kimi、騰訊元寶、智譜清言、通義千問、秘塔搜索、微信搜索.通用模型大語言模型(LLM,Large Language Model)生成模型推理模型視覺模型(圖片、視頻)音頻模型多模態模型行業模型(垂直模型、垂類模型)教育、醫療、金融、辦公、安全等6大

5、模型的前世今生人工智能人工智能:讓機器具備動物智能,人類智能,非人類智能(超人類智能)運算推理:規則核心;自動化知識工程:知識核心;知識庫+推理機機器學習機器學習:學習核心;數據智能(統計學習方法,數據建模)常規機器學習方法:邏輯回歸,決策森林,支持向量機,馬爾科夫鏈,.人工神經網絡人工神經網絡:與人腦最大的共同點是名字,機制和架構并不一樣傳統神經網絡:霍普菲爾德網絡,玻爾茲曼機,.深度神經網絡:深度學習深度學習傳統網絡架構:DBN,CNN,RNN,ResNet,Inception,RWKV,TransformerTransformer架構架構:可以并行矩陣計算(GPU),核心是注意力機制(A

6、ttention)編碼器(BERT):多數embedding模型,Ernie早期版本,.混合網絡:T5、GLM解碼器(GPTGPT):大語言模型(大語言模型(LLMLLM),也是傳統的多模態模型的核心生成式人工智能生成式人工智能(GenAIGenAI):):AIGCAIGCDeepSeekDeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、火山、OpenAI GPTOpenAI GPT(ChatGPTChatGPT)、Claude、Llama、Grok、DiffusionDiffusion架構架構:主要用于視覺模型(比如Stable Diffusion、DA

7、LL.E),現在也開始嘗試用于語言模型Diffusion+Transformer架構:例如SoraSora的DiT(加入Diffusion的視覺模型),部分新的多模態模型架構7大模型的發展階段生成模型ref:中文大模型基準測評2024年度報告(2025.01.08)推理模型8生成模型與推理大模型的對比比較項OpenAI GPT-4o(生成模型)OpenAI o1(推理模型)模型定位專注于通用自然語言處理和多模態能力,適合日常對話、內容生成、翻譯以及圖文、音頻、視頻等信息處理、生成、對話等。側重于復雜推理與邏輯能力,擅長數學、編程和自然語言推理任務,適合高難度問題求解和專業領域應用。一般是在生成

8、模型的基礎上通過RL方法強化CoT能力而來推理能力在日常語言任務中表現均衡,但在復雜邏輯推理(如數學題求解)上準確率較低。在復雜推理任務表現卓越,尤其擅長數學和代碼等推理任務。多模態支持支持文本、圖像、音頻乃至視頻輸入,可處理多種模態信息。當前主要支持文本輸入,不具備圖像處理等多模態能力。應用場景適合廣泛通用任務,如對話、內容生成、多模態信息處理以及多種語言相互翻譯和交流;面向大眾市場和商業應用。適合需要高精度推理和邏輯分析的專業任務,如數學競賽、編程問題和科學研究;在思路清晰度要求高的場景具有明顯優勢,比如采訪大綱、方案梳理。用戶交互體驗提供流暢的實時對話體驗,支持多種輸入模態;用戶界面友好

9、,適合大眾使用??勺灾麈準剿伎?,不需要太多的過程指令,整體交互節奏較慢。普通大模型是玩知識和文字的,推理大模型是玩邏輯的,至于計算問題,還是找計算器吧推理模型也不是萬能的,其幻覺通常比生成模型大,很多不需要強推里的場合還是傳統的生成模型比較適合99自 2024 年起,AI肖睿團隊便接入DeepSeek V2,持續應用 DeepSeek 技術體系,歷經 V2(MoE 架構)、V3(MTP)探索,現已在生產項目中接入DeepSeek R1(滿血版)。其中,V2和V3都是生成模型,R1為推理模型。下面,基于我們團隊對DeepSeek的技術研究和實戰經驗,為大家系統梳理這三大模型技術特性,剖析知識蒸餾

10、在各版本提升效率的邏輯,并結合邊緣計算、數學編程、中文等場景實例,對比DeepSeek R1各版本模型的計算效率與推理精度的演進,同時說明標準化 API/SDK 對技術落地的適配機制。10DeepSeek快速出圈11DeepSeek-“服務器繁忙”2024年12月26日,DeepSeek因推出對標GPT 4o的語言模型DeepSeek V3,首先在美國的人工智能行業內部一起轟動。2025年1月20日,DeepSeek繼續發布對標OpenAI o1的語言模型DeepSeek R1。由于“深度思考”模式生成的答案的過程可視化,完全開源模型參數和技術方案,采用極致的模型架構優化和系統優化手段降低了模

11、型的訓練和推理成本,加之完全由中國本土團隊制造,讓DeepSeek公司和DeepSeek R1模型在蛇年春節前后徹底出圈。春節之后,隨著大量用戶的快速涌入,DeepSeek 官方提供的模型服務就一直在經歷擁堵,它的聯網搜索功能間歇性癱瘓,深度思考模式則高頻率提示“服務器繁忙”,此類現象讓大量用戶倍感困擾。這也揭示了AI時代和互聯網時代的底層邏輯的不同:在互聯網時代,用戶使用一個系統的成本很低,邊際成本接近于零,但在AI時代,用戶使用一個系統的成本比較高,后天會有大量的算力需求和token消耗,邊際成本下降并不明顯。12公司簡介DeepSeek于2023年7月成立,是幻方量化孵化出的一家大模型研

12、究機構,團隊分布在中國杭州和北京,是中國大模型七小虎之一。除了DeepSeek之外,其它六家也被投資界稱為中國大模型企業六小龍(智譜AI、百川智能、月之暗面、零一萬物、階躍星辰、MiniMax)。模型系列公司與模型介紹0113模型的演進歷史和特點14三個主要的DeepSeek模型的區別對比維度DeepSeek V2DeepSeek V3DeepSeek R1核心架構DeepSeekMoE(混合專家架構改進版)總參數量 2360 億單次激活 210 億參數升級版 DeepSeekMoE 架構總參數量 6710 億單次激活 370 億參數與V3模型相同訓練方法傳統預訓練+監督微調(SFT)+強化學

13、習(RL)數據量 8.1 萬億 tokens預訓練+SFT+MTP+RL引入 GRPO 算法提升RL效率和效果數據量14.8萬億tokens跳過 SFT,直接通過RL激發推理能力采用兩階段 RL 和冷啟動技術部分關鍵特性首次引入 MoE 架構,并進行了改進你 無輔助損失的負載均衡 代碼任務生成速度提升至 60 TPS RL驅動推理優化 模型蒸餾實驗(可遷移至小模型)Zero版驗證了自我進化能力性能表現舉例生成速度20TPS,適合通用生成任務綜合 NLP 任務接近 GPT-4oMMLU 知識理解 88.5%API 成本大幅降低數學推理(MATH-500 97.3%)代碼生成(Codeforces

14、)與openAI-o1-1217相當15模型簡介DeepSeek-V2模型簡介DeepSeek-V2模型與DeepSeek LLM 67B相比,DeepSeek-V2實現了更強的性能,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,并將最大生成吞吐量提升至5.76倍。設計初衷DeepSeek-V2旨在解決現有大語言模型訓練成本高、推理效率低的問題。通過引入MoE架構,它在保持高性能的同時,大幅降低訓練成本和推理時間,為廣泛的應用場景提供支持。核心原理DeepSeek-V2基于混合專家(Mixture-of-Experts,MoE)架構,將任務分配給多個專家模型,每個專家專注于特定子

15、任務,從而提升性能和效率。模型總參數量為236B,其中21B參數在每個token上被激活,使其在處理復雜任務時更靈活高效。16模型簡介DeepSeek-V3模型簡介DeepSeek V3模型采用的模型架構與V2模型差不多,都采用MLA和MoE。V3在V2的基礎上主要是增加了多令牌預測(Multi-Token Prediction,MTP)的訓練目標。我們都知道大模型是自回歸模型,在回答問題時,本質上是一個字一個字的預測出來的,而MTP實現了類似同時預測多個字的效果。準確地講,這里不是“字”,是“token”。這里用“字”,主要是便于理解。17模型簡介DeepSeek-R1與以往的研究不同,R1

16、模型通過強化學習而非監督學習的方式顯著提升了大模型的在數學和邏輯推理任務中的表現,驗證了強化學習在提升模型推理能力上的作用。通過強化學習自動學習復雜的推理行為(自我驗證與反思),然后隨著訓練的深入,模型逐步提升了對復雜任務的解答能力,并顯著提高了模型推理能力。在數學和編程基準測試集上,與open AI-o1模型的表現相當并大幅超越其它現有大模型。18DeepSeek模型優勢19DeepSeek模型優勢20DeepSeek模型優勢2121第21頁DeepSeek R1達到了跟o1相當、或者至少接近的推理能力,且將推理過程可視化它做到這個水平只用到少得多的資源,所以價格十分便宜它是完全開源的并且還

17、發布論文,詳細介紹了訓練中所有的步驟和竅門DeepSeek深度求索公司是一家純粹的中國公司混合專家MOE多頭潛在注意力MLA強化學習GRPODeepseekDeepseek官網地址:http:/http:/https:/https:/DeepSeekDeepSeek-R1 R1 訓練技術全部公開,論文鏈接:https:/ 訓練及框架:FP8混合精度訓練:在關鍵計算步驟使用高精度,其他模型層使用FP8低精度進一步降低訓練成本。這一點,是DeepSeek團隊在Infra工程上的非常有價值的突破。長鏈推理技術(TTC):模型支持數萬字的長鏈推理,可逐步分解復雜問題并進行多步驟邏輯推理。并行訓練策略(

18、HAI):16 路流水線并行(Pipeline Parallelism,PP)、跨 8 個節點的 64 路專家并行(Expert Parallelism,EP),以及數據并行(Data Parallelism,DP),大幅提升模型訓練速度。通訊優化DualPipe:高效的跨節點通信內核,利用 IB 和 NVLink 帶寬,減少通信開銷,提高模型推理性能?;旌蠙C器編程(PTX):部分代碼直接進行使用PTX編程提高執行效率,并優化了一部分算子庫。低成本訓練:DeepSeek-V3的訓練成本為557.6萬美元,僅為OpenAI的GPT-4o等領先閉源模型的3%-5%。24DeepSeek模型特點總結

19、社會價值:開源生態:DeepSeek采用開源策略,使用最為開放的MIT開源協議,吸引了大量開發者和研究人員,推動了AI技術的發展。模型蒸餾支持:DeepSeek-R1同時發布了多個模型蒸餾。雖然這些蒸餾模型的生產初衷是為了驗證蒸餾效果,但在實質上幫助用戶可以訓練更小型的模型以滿足不同應用場景需求,也給用戶提供更多的抑制了DeepSeek R1滿血版模型的能力的小模型選擇(雖然也給市場和用戶造成了很多困擾)。AI產品和技術的普及教育:對于社會,認識到AI是一個趨勢,不是曇花一現;對于市場,用戶開始主動引入AI,不用教育了;對于大模型企業,越發開始重視infra工程的價值了。25DeepSeek-

20、R1全家桶ModelBase ModelModel DownloadDeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5BHuggingFaceModelScope蒸餾模型,能力稍弱實際上是增加了推理能力的Qwen模型和Llama模型,嚴格來講不能稱為DeepSeek模型(市場上有誤解,廠商有誤導,Ollama工具的模型選項中也有誤導)DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7BHuggingFaceModelScopeDeepSeek-R1-Distill-Llama-8BLlama-3.1-8BHuggingFa

21、ceModelScopeDeepSeek-R1-Distill-Qwen-14BQwen2.5-14BHuggingFaceModelScopeDeepSeek-R1-Distill-Qwen-32BQwen2.5-32BHuggingFaceModelScopeDeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-InstructHuggingFaceModelScopeDeepSeek-R1-671BDeepSeek-V3-BaseHuggingFaceModelScope滿血版,能力最強26蒸餾模型-概念模型蒸餾的定義 通俗解釋:模型蒸餾就像是讓一個“老師

22、”(大模型)把知識傳授給一個“學生”(小模型),讓“學生”變成“學霸”。正式定義:模型蒸餾是一種將大型復雜模型(教師模型)的知識遷移到小型高效模型(學生模型)的技術。模型蒸餾的原理 教師模型的訓練:先訓練一個性能強大但計算成本高的教師模型。生成軟標簽:教師模型對數據進行預測,得到每個樣本的概率分布,這些就是軟標簽。訓練學生模型:用軟標簽和硬標簽共同訓練學生模型。優化與調整:通過調整超參數,優化學生模型的性能。蒸餾技術的優勢 模型壓縮:學生模型參數少,計算成本低,更適合在資源受限的環境中部署。性能提升:學生模型通過學習教師模型的輸出概率分布,能夠更好地理解數據的模式和特征。效率提高:學生模型訓練

23、所需的樣本數量可能更少,訓練成本降低。27DeepSeek-R1蒸餾模型-能力對比DeepSeek蒸餾版的選擇經驗千萬別用1.5B和8B做正經業務,會翻車!做自然語言對話7B就很好用了預算有限又想搞事情就選14B要做知識問答選32B,對代碼支持也不錯70B性價比最低,與32B性能類似,成本翻倍,沒有什么理由存在28邊緣計算場景的低延遲部署復雜數學與編程任務中文場景的深度優化DeepSeek模型應用場景DeepSeek結合天翼云智能邊緣云ECX,能夠在靠近用戶的邊緣節點部署模型,顯著降低數據傳輸延遲,適用于對實時性要求極高的場景DeepSeek-R1在數學推理和代碼生成領域展現了超越同類模型的獨

24、特能力理解文化背景和習慣用語(如生成春節習俗對比文章),優于GPT-4的中文處理能力29使用方式 訪問官網( 或 https:/ 第三方服務:秘塔AI、微信搜索、Molly R1、問小白等。API調用:DeepSeek、硅基流動、火山引擎等。獲取API密鑰調用,適合開發者集成,同樣存在服務不穩定問題。使用第三方服務與API調用 個人部署:個人在本地設備運行應用,依賴自身計算資源,靈活便捷。企業部署:企業內網搭建私有化系統,支持多用戶協作,數據可控。一體機:直接購買配置了DeepSeek模型的具備一定算力的一體機。本地部署30個人部署DeepSeekP e r s o n a ld e p l

25、o y m e n tPART 0230/413131對于個人玩家如何在自己的電腦上部署和體驗DeepSeek(一般是蒸餾版),我們會詳細分享具體的模型評估數據和軟硬件要求,通過實操環節來詳細講解Ollama命令行高效部署全流程,并構建多形態用戶接入方案,包括瀏覽器插件PageAssist、桌面端Chatbox和團隊協作型OpenWebUI,實現從個人到企業的全場景覆蓋。其中分享過程中常見問題和經驗,幫助大家可完整體驗、并成功實現本地化部署DeepSeek。32010203模型部署環境準備明確模型部署的軟硬件要求,分析參數量對推理效果和硬件配置的影響。提供最低與推薦配置清單,詳解Ollama框

26、架優勢及環境變量配置,建立標準化部署環境。前端展示331.模型能力:通常來說,參數量越大,模型就有更強的理解和生成能力,但是需要更多計算資源。2.硬件需求:參數越多,對內存(RAM)和顯存(VRAM)的需求就越高。3.運行速度:參數量大的模型,推理速度更慢,尤其是資源不足的時候。參數量影響模型能力1.本地部署DeepSeek時,需根據硬件配置選擇合適模型版本。如1.5B模型適合資源受限設備,671B模型需服務器集群支持。2.合理匹配參數量與硬件,可優化模型性能,提升運行效率,避免資源浪費或性能瓶頸。參數量與硬件配置匹配模型參數量意義34硬件配置-推薦模型參數CPU要求內存要求顯存要求(GPU)

27、硬盤空間適用場景1.5B6核(現代多核)16GB4GB(如:GTX 1650)5GB+實時聊天機器人、物聯網設備7B8核(現代多核)32GB8GB(如:RTX 3070)10GB+文本摘要、多輪對話系統8B10核(多線程)32GB10GB12GB+高精度輕量級任務14B12核64GB16GB(如:RTX 4090)20GB+合同分析、論文輔助寫作32B16核(如i9/Ryzen 9)128GB24GB(如:RTX 4090)30GB+法律/醫療咨詢、多模態預處理70B32核(服務器級)256GB40GB(如:雙A100)100GB+金融預測、大規模數據分析671B64核(服務器集群)512GB

28、160GB(8x A100)500GB+國家級AI研究、氣候建模Ollama中提供的deepseek-r1模型均為4位量化模型,所需資源較正常少一些,如果要運行非量化模型,則需要更大的顯存(比如7B需要至少16G顯存)35硬件配置-最低模型參數CPU要求內存要求顯存要求(GPU)硬盤空間適用場景1.5B4核(Intel/AMD)8GB無(純CPU)或2GB(GPU加速)3GB+樹莓派、舊款筆記本、簡單文本生成7B4核(多線程支持)16GB4GB8GB+本地開發測試、輕量級NLP任務8B6核(多線程)16GB6GB8GB+代碼生成、邏輯推理14B8核32GB8GB15GB+企業級文本分析、長文本

29、生成32B12核48GB16GB19GB+復雜場景對話、深度思考任務70B16核(服務器級)64GB24GB(多卡)70GB+創意寫作、算法設計671B32核(服務器集群)128GB80GB(多卡)300GB+科研級任務、AGI探索上頁推薦配置中,是較為流暢的運行模型,而最低配置是指可以運行模型,但流暢度會稍差一些36若僅需簡單任務,如實時聊天或輕量級文本生成,可選擇1.5B或7B模型,搭配較低配置硬件,如普通筆記本或臺式機。對于復雜任務,如合同分析、論文寫作或大規模數據分析,需選擇14B及以上模型,并配備高性能硬件,如高端顯卡和大容量內存。根據需求選擇01在預算有限的情況下,可優先選擇較低參

30、數量的模型,以滿足基本需求,同時降低硬件成本。如1.5B模型可在資源受限設備上運行,適合預算緊張的用戶。若預算充足且對性能要求較高,可選擇高參數量模型,如32B或70B,搭配高端硬件,以獲得更強的處理能力和更高的運行效率??紤]預算與性能平衡02隨著任務需求的增加和預算的提升,可逐步升級硬件配置,如增加內存、更換高性能顯卡或升級CPU。對于企業用戶或科研機構,可根據實際需求構建服務器集群,以支持大規模模型的運行和復雜任務的處理。硬件升級與擴展03硬件選擇建議37Ollama功能特點 Ollama是一個開源的大型語言模型服務工具,旨在幫助用戶快速在本地運行大模型。通過簡單的安裝指令,用戶可以在消費

31、級PC上體驗LLM的強大功能。Ollama會自動監測本地計算資源,優先使用GPU資源以提升推理速度,若無GPU則直接使用CPU資源。Ollama官方鏈接:https:/ 開源免費 簡單易用 模型豐富 支持多平臺 支持工具調用 資源占用低 功能齊全 隱私保護 社區活躍38 Windows/Mac系統:訪問Ollama官網或GitHub頁面,下載安裝包并運行安裝程序。Linux系統:一鍵安裝命令curl-fsSL https:/ pull ollama/ollama,運行鏡像時可使用dockerrun-d-v ollama:/root/.ollama-p 11434:11434-name olla

32、ma ollama/ollama命令。安裝Ollama客戶端 Windows/Mac系統:訪問Docker官網,下載Docker Desktop安裝程序,運行安裝并啟動DockerDesktop。Linux系統:訪問Docker官網,根據Linux發行版選擇安裝方式,如基于Debian系統使用sudo apt-getinstall docker-ce docker-ce-cli containerd.io命令安裝,安裝后啟動Docker服務。安裝Docker(可選)軟件安裝步驟39環境變量配置參數標識與配置OLLAMA_MODELS表示模型文件的存放目錄,默認目錄為當前用戶目錄即 C:User

33、s%username%.ollamamodels Windows 系統 建議不要放在C盤,可放在其他盤(如 E:ollamamodels)OLLAMA_HOST表示ollama 服務監聽的網絡地址,默認為127.0.0.1 如果想要允許其他電腦訪問 Ollama(如局域網中的其他電腦),建議設置成 0.0.0.0OLLAMA_PORT表示ollama 服務監聽的默認端口,默認為11434 如果端口有沖突,可以修改設置成其他端口(如8080等)OLLAMA_ORIGINS表示HTTP 客戶端的請求來源,使用半角逗號分隔列表 如果本地使用不受限制,可以設置成星號*OLLAMA_KEEP_ALIVE

34、表示大模型加載到內存中后的存活時間,默認為5m即 5 分鐘(如純數字300 代表 300 秒,0 代表處理請求響應后立即卸載模型,任何負數則表示一直存活)建議設置成 24h,即模型在內存中保持 24 小時,提高訪問速度OLLAMA_NUM_PARALLEL表示請求處理的并發數量,默認為1(即單并發串行處理請求)建議按照實際需求進行調整OLLAMA_MAX_QUEUE表示請求隊列長度,默認值為512 建議按照實際需求進行調整,超過隊列長度的請求會被拋棄OLLAMA_DEBUG表示輸出 Debug 日志,應用研發階段可以設置成1(即輸出詳細日志信息,便于排查問題)OLLAMA_MAX_LOADED

35、_MODELS表示最多同時加載到內存中模型的數量,默認為1(即只能有 1 個模型在內存中)建議修改:將模型路徑遷移至非系統盤(如OLLAMA_MODELS=E:models),按需提高OLLAMA_KEEP_ALIVE 和OLLAMA_NUM_PARALLEL 優化性能,生產環境限制請求來源并關閉調試日志。40 啟動Ollama服務后,通過瀏覽器訪問http:/localhost:11434可看到:”ollama is running“若無法訪問,需檢查Ollama服務是否啟動,是否有防火墻或安全軟件阻止端口訪問,以及是否更改了默認端口。訪問Ollama服務 本地部署:前端界面運行在本地計算機

36、上,可通過http:/localhost:11434與Ollama服務通信。遠程部署:需確保前端界面所在計算機可訪問Ollama服務所在計算機的IP地址和端口??稍贠llama服務所在計算機上運行ollama serve-host 0.0.0.0命令允許遠程訪問或者修改環境變量,最后通過IP地址訪問Ollama服務。前端界面網絡訪問 端口沖突:確保11434端口未被占用,若被占用,可通過:ollama serve-port 命令或者通過修改環境變量指定其他端口。代理設置:在代理網絡環境中,需確保代理設置允許訪問本地服務。防火墻設置:確保防火墻規則允許對11434端口的訪問,可添加防火墻規則允許

37、該端口流量。網絡配置注意事項網絡配置410301環境準備前端展示模型部署演示Ollama完整部署流程:從DeepSeek 7B模型選擇到加載,詳細講解命令行指令集,重點說明模型加載與啟動命令的正確使用方法。0242Ollama常用命令命令描述ollama serve啟動 Ollamaollama create從 Modelfile 創建模型ollama show顯示模型信息ollama run運行模型ollama pull從注冊表中拉取模型ollama push將模型推送到注冊表ollama list列出所有模型ollama ps列出正在運行的模型ollama cp復制模型ollama rm刪

38、除模型ollama help顯示任意命令的幫助信息這兩個命令是個人部署最主要的兩個命令,主要用來下載和啟動模型43使用ollama pull命令下載模型,格式為ollamapull。案例:某用戶在終端輸入ollama pull deepseek-r1:7b,從Ollama模型庫中成功下載7B模型,耗時約10分鐘。下載命令格式下載過程中,終端會顯示下載進度條,實時顯示下載速度和剩余時間??赏ㄟ^ollama list命令查看已下載的模型列表,確認模型是否下載完成。案例:某用戶在下載14B模型時,通過ollama list命令發現下載進度為50%,預計還需20分鐘完成。下載過程監控若下載失敗,可能是

39、網絡問題或模型庫地址錯誤??蓢L試重新運行下載命令,或檢查網絡連接和模型庫地址。案例:某用戶下載7B模型時因網絡中斷失敗,重新運行下載命令后成功完成下載。下載失敗處理使用Ollama命令下載模型44使用ollama run命令運行模型,格式為ollama run。案例:某用戶在終端輸入ollama run deepseek-r1:7b,模型成功啟動并進入運行狀態。運行命令格式模型運行后,可通過ollama ps命令查看正在運行的模型列表,確認模型是否正常運行。若模型未正常運行,可檢查硬件資源是否充足,或是否有其他模型占用資源。案例:某用戶運行14B模型后,響應速度較慢,經檢查發現內存占用過高。運

40、行狀態檢查使用ollama stop命令停止運行的模型,格式為ollama stop。案例:某用戶在測試完成后,通過ollama stop deepseek-r1:7b命令停止了7B模型的運行,釋放了系統資源。停止運行模型使用Ollama命令運行模型45模型運行效果46Ollama常見問題 問題描述 默認配置下Ollama服務暴露在公網,易被自動化腳本掃描攻擊,導致算力盜用或模型文件刪除。解決方案 強制身份認證:通過反向代理(如Nginx)添加Basic Auth認證,或在Ollama啟動時綁定內網IP(OLLAMA_HOST=192.168.x.x)。網絡層隔離:使用Docker的-netw

41、ork host模式部署,配合iptables限制訪問來源IP段。日志監控:啟用Ollama的-verbose日志模式,結合Prometheus監控API調用頻率,識別異常流量。安全漏洞與未經授權訪問風險47Ollama常見問題 問題描述 Ollama版本升級后模型僅運行在CPU,或量化精度丟失導致回答質量下降。解決方案 鎖定依賴版本:通過Docker鏡像固定Ollama版本(如ollama/ollama:0.5.1-cuda),避免自動升級引入兼容性問題。顯存分配驗證:使用nvidia-smi監控GPU利用率,若發現異?;赝酥罜PU,檢查CUDA驅動版本與Ollama編譯環境的兼容性。模型升

42、級后性能退化問題48前端展示構建多形態接入方案:PageAssist實現網頁即時問答,Chatbox支持Markdown渲染,Open WebUI 提供企業權限管理。0201環境準備模型部署0349”特點:實時對話交互,多模型切換,聊天歷史管理,網頁內容交互,支持多種文檔格式。優點:功能實用,隱私保護,所有交互在本地完成。缺點:功能較為基礎,可能無法滿足復雜需求。適用場景:適合需要與網頁內容交互、管理聊天歷史的用戶。特點:瀏覽器插件,支持PDF對話、網絡搜索集成,與對象存儲、Cloud Studio無縫集成。優點:輕量級,安裝方便,與網頁內容緊密結合。缺點:功能相對基礎,對于不常使用網頁交互的

43、用戶優勢不明顯。適用場景:適合需要與網頁內容緊密結合、進行針對性AI交互的用戶。特點:多功能聊天系統,支持Gmail集成、谷歌搜索增強、上下文網站交互。優點:功能豐富,AI交互體驗全面,適用于多種場景。缺點:部分功能(如實時搜索)可能處于維護狀態,對不熟悉Gmail和谷歌搜索的用戶實用性降低。適用場景:適合需要郵件處理、搜索增強功能的用戶。Orian(Ollama WebUI)Page Assistollama-ui瀏覽器插件50Enchanted LLM特點:MacOS原生應用,支持多種私人托管模型,界面簡潔直觀。適用場景:適合MacOS用戶,需要本地運行多種模型。Chatbox特點:跨平臺

44、開源客戶端應用,支持Windows、MacOS、Linux、iOS和Android,支持多種大語言模型。適用場景:適合跨平臺使用,需要多種模型支持的用戶。LLocal.in特點:跨平臺完全開源的客戶端,用于利用本地運行的大型語言模型,Electron桌面客戶端,易于使用。適用場景:適合需要本地運行模型、跨平臺使用的用戶。Ollama App特點:現代且易于使用的多平臺客戶端,支持Ollama。適用場景:適合需要簡潔界面、多平臺支持的用戶。桌面應用51特點:基于Web的界面,方便用戶與Ollama模型進行交互。適用場景:適合需要通過Web界面與模型交互的用戶。項目地址:https:/ WebUI

45、特點:專為Ollama設計的極簡主義用戶界面,界面美觀。適用場景:適合追求簡約風格的用戶。項目地址:https:/ Ollama LLM UI特點:使用HyperDiv反應式UI的Ollama基本聊天界面。適用場景:適合需要簡單聊天界面的用戶。Ollama Basic ChatWeb服務52終端工具 特點:Ollama提供了多種終端工具,如oterm、ollama.nvim等,方便開發者在終端中使用Ollama。適用場景:適合開發者,需要在終端中快速使用Ollama。云服務 特點:Ollama支持在Google Cloud、Fly.io、Koyeb等云平臺上部署。適用場景:適合需要在云端部署模

46、型的用戶。0102其他53 設置API代理:在設置菜單中,配置API代理,連接到不同的AI模型和服務提供者。管理和調試Prompt:使用Chatbox提供的工具設計和調整Prompt,以獲得最佳的AI交互體驗。保存聊天記錄:所有聊天記錄和Prompt會自動保存在本地。多平臺同步:通過登錄賬號,可在不同設備上同步數據。適用場景:適合需要多平臺使用、管理聊天記錄的用戶。其他設置Chatbox-安裝 訪問Chatbox AI官網,根據設備選擇版本下載并安裝,安裝完成后啟動應用。適用場景:適合跨平臺使用,需要多種模型支持的用戶。下載與安裝 使用本地模型:打開Chatbox軟件,點擊左下角齒輪圖標進入設

47、置,選擇模型提供方為Ollama,API域名自動填充為http:/localhost:11434,選擇對應模型,點擊保存。使用在線API:以接入硅基流動的DeepSeek-R1為例,選擇SiliconFlow API,粘貼API密鑰,選擇DeepSeek-R1模型。適用場景:適合需要快速切換本地和在線模型的用戶。配置模型 與文檔和圖片聊天,代碼生成與預覽,實時聯網搜索與查詢,AI生成的圖表可視化,AI驅動的圖像生成,LaTeX和Markdown渲染使用功能54Chatbox-界面溫度設置建議:代碼生成/數學解題-0.0數據抽取/分析-1.0通用對話-1.3翻譯-1.3創意類寫作/詩歌創作-1.

48、555 打開側邊欄:安裝完成后,通過右鍵菜單或快捷鍵(默認為Ctrl+Shift+P)打開側邊欄。在側邊欄中,可以與本地AI模型進行對話,獲取網頁內容的相關信息。使用Web UI:點擊擴展圖標,會在新標簽頁中打開Web UI。在Web UI中,可以像使用ChatGPT一樣與AI模型進行對話。配置本地AI模型:首次使用時,需要配置本地AI模型,目前支持Ollama和Chrome AI(Gemini Nano)等本地AI提供商。選擇指定的模型后,即可開始與模型進行交互。其他功能:網頁內容對話、文檔解析、聯網搜索、語言設置。適用場景:適合需要與網頁內容緊密結合、進行針對性AI交互的用戶。使用方法02

49、打開Chrome Web Store搜索“Page Assist”點擊“添加到Chrome”按鈕安裝方法01Open WebUIPage Assist-安裝56Open WebUIPage Assist-界面57使用方法運行Open WebUI,使用以下命令:無GPU加速:dockerrun-d-p3000:8080-add-host=host.docker.internal:host-gateway-vopen-webui:/app/backend/data-name open-webui-restart always ghcr.io/open-webui/open-webui:main使

50、用 GPU 加 速:docker run-d-p3000:8080-gpusall-add-host=host.docker.internal:host-gateway-vopen-webui:/app/backend/data-name open-webui-restart always ghcr.io/open-webui/open-webui:cuda安裝方法OpenWebui-安裝訪問Open WebUI:安裝完成后,打開瀏覽器訪問http:/localhost:3000。配置AI模型:選擇支持的LLM運行器(如Ollama或OpenAI API),可以配置自定義OpenAI API

51、URL,連接到其他兼容的API服務。58OpenWebui-界面OpenWebUI 支持多模態交互、本地模型與云端 API 混合部署,并深度集成RAG 知識庫和外部工具,相較于 Page Assist 等單一功能插件,其開源可定制、支持企業級多用戶管理及全棧 AI 工作流擴展的特性,更適合開發者構建私有化復雜應用。59Open WebUI三款界面總結 PageAssist以瀏覽器插件形態實現本地AI與瀏覽場景的無縫融合,強調隱私優先和輕量交互,通過側邊欄對話、文檔解析等能力將模型能力嵌入用戶日常操作,適合注重數據安全的高頻輕需求場景。Chatbox定位靈活的中臺調度工具,以模塊化設計兼容多模型

52、API和插件擴展,平衡開發者的自定義需求與普通用戶的易用性,適用于需要多模型協同或快速驗證AI能力的場景。Open WebUI聚焦企業級AI服務全生命周期管理,從模型部署、權限控制到知識庫集成提供閉環方案,通過負載均衡、協作聊天等特性滿足規?;瘓F隊的技術管控需求。60企 業 部 署 D e e p S e e kE n t e r p r i s ed e p l o y m e n tPART 0361611.Ollma框架適合個人用戶私有化本地部署,但在多用戶并發場景下性能衰減明顯。這一部分我們將盡可能簡單地介紹企業級私有化部署的方案和探索實踐,普通用戶可以了解即可。2.企業級生產環境推薦

53、使用Transformers來快速驗證模型能力,使用vLLM框架借助PagedAttention技術實現24倍于Transformers的吞吐量實現大模型的高效推理,針對不同企業場景,則提供不同的企業級部署方案,我們也會分享服務器配置、性能數據及報價參考等實戰經驗,且深度分析業務場景的適配性,給予參考幫助。3.同時,針對近期出現的KTransformers、Unsloth等多套低成本動態量化模型的DeepSeek部署解決方案。雖然不夠成熟也無法投入實際生產使用,但我們也會用一定的篇幅分享我們的研究實踐和經驗。62Transformers簡介 Transformers 提供了可以輕松地下載并且訓

54、練先進的預訓練模型的 API 和工具。使用預訓練模型可以減少計算消耗和碳排放,并且節省從頭訓練所需要的時間和資源。這些模型支持不同模態中的常見任務,比如:自然語言處理:文本分類、命名實體識別、問答、語言建模、摘要、翻譯、多項選擇和文本生成。機器視覺:圖像分類、目標檢測和語義分割。音頻:自動語音識別和音頻分類。多模態:表格問答、光學字符識別、從掃描文檔提取信息、視頻分類和視覺問答。Transformers 支持在 PyTorch、TensorFlow 和 JAX 上的互操作性。這給在模型的每個階段使用不同的框架帶來了靈活性;在一個框架中使用幾行代碼訓練一個模型,然后在另一個框架中加載它并進行推理

55、。模型也可以被導出為 ONNX 和 TorchScript 格式,用于在生產環境中部署。63Transformers部署模型 3-1 步驟一:安裝相關依賴包 步驟二:加載模型pip install torchpip install transformers accelerate bitsandbytesfrom transformers import AutoModelForCausalLM,AutoTokenizermodel_path=deepseek-ai/deepseek-r1-distill-qwen-7btokenizer=AutoTokenizer.from_pretrained

56、(model_path)model=AutoModelForCausalLM.from_pretrained(model_path,device_map=auto,torch_dtype=auto)load_in_8bit=True,#可以添加參數來啟用8bit量化64Transformers部署模型 3-264/41 步驟三:運行模型prompt=你是一個人工智能助手解釋量子計算inputs=tokenizer(prompt,return_tensors=pt).to(model.device)outputs=model.generate(*inputs,max_new_tokens=256

57、,do_sample=True,temperature=0.7,repetition_penalty=1.05)print(tokenizer.decode(outputs0)65Transformers部署模型 3-3 步驟四:其他框架調用#pip install gradioimport gradio as grdef generate(text):inputs=tokenizer(text,return_tensors=pt).to(model.device)outputs=model.generate(*inputs,max_new_tokens=256)return tokenize

58、r.decode(outputs0,skip_special_tokens=True)gr.Interface(fn=generate,inputs=gr.Textbox(lines=5,label=輸入),outputs=gr.Textbox(label=輸出).launch(server_name=0.0.0.0,server_port=6006)這里選擇了gradio框架,可以快速啟動一個前端界面,實戰中可以選擇配合業務邏輯進行調用66生成時常用參數 2-1參數名稱含義注意事項inputs輸入的文本或編碼后的 input_ids,用于生成文本的起始部分如果傳入 inputs_embeds

59、,則不能同時傳入 inputsinput_ids與 inputs 類似,但通常用于直接傳入編碼后的輸入如果傳入 inputs_embeds,則不能同時傳入 input_idsinputs_embeds輸入的嵌入向量,通常用于 encoder-decoder 模型不能同時傳入 input_ids 或 inputsmax_length生成文本的最大長度(包括輸入部分)如果同時設置 max_new_tokens,max_new_tokens 優先max_new_tokens生成的新 token 數量(不包括輸入部分)如果同時設置 max_length,max_new_tokens 優先min_len

60、gth生成文本的最小長度(包括輸入部分)如果同時設置 min_new_tokens,min_new_tokens 優先min_new_tokens生成的新 token 的最小數量(不包括輸入部分)如果同時設置 min_length,min_new_tokens 優先num_beamsBeam search 中的 beam 數量,用于控制生成的多樣性值越大,生成結果越多樣,但計算成本越高do_sample是否啟用隨機采樣生成文本如果為 True,則生成結果會更隨機;如果為 False,則使用貪婪解碼或 beam searchtemperature控制生成文本的隨機性值越高,生成結果越隨機;值越低

61、,生成結果越確定top_k在隨機采樣中,只從概率最高的 k 個 token 中采樣值越大,生成結果越多樣,但可能引入噪聲top_p在隨機采樣中,只從累積概率大于 p 的 token 中采樣值越小,生成結果越集中于高概率 token67生成時常用參數 2-2參數名稱含義注意事項early_stopping是否在達到 max_length 或 max_new_tokens 之前提前停止生成如果為 True,則可能生成較短的文本eos_token_id結束生成的 token ID如果生成到該 token,生成過程會停止pad_token_id填充 token 的 ID用于處理輸入和輸出的填充部分bo

62、s_token_id開始生成的 token ID如果未指定輸入,會用此 token 開始生成use_cache是否使用緩存機制(如 kv-cache)加速生成如果為 True,可以顯著提高生成速度,但需要更多的內存output_scores是否輸出生成 token 的概率分數如果為 True,會返回每個生成 token 的概率分數return_dict_in_generate是否以字典形式返回生成結果如果為 True,返回值會包含更多詳細信息,如生成的token IDs 和概率分數68vLLM簡介 vLLM 是由加州大學伯克利分校 LMSYS 組織開源的大語言模型(LLM)高速推理框架。它旨在

63、顯著提升實時場景下語言模型服務的吞吐量和內存使用效率。vLLM 的主要特點包括:1.PagedAttention 技術:vLLM 引入了 PagedAttention 算法,通過分頁管理注意力機制中的鍵(keys)和值(values),有效解決了傳統方法中顯存碎片化和過度預留的問題。2.顯著的性能提升:與 Hugging Face 的 Transformers 相比,vLLM 的吞吐量最高可達 24 倍。3.與 Hugging Face 的無縫集成:vLLM 可以與 Hugging Face 的 Transformers 庫無縫對接,用戶可以輕松地在現有模型基礎上進行推理加速。4.支持多種推理

64、場景:vLLM 支持離線推理、在線 API 服務,以及與 OpenAI API 兼容的接口。vLLM 的這些特性使其成為大語言模型推理加速的重要工具,尤其適用于需要高效資源利用和快速響應的場景。vLLM部署簡單,更適合中小型企業做大模型推理部署,對于大型企業,可以使用配置較為復雜的Tensor RT框架69vLLM部署模型 2-1 步驟一:安裝相關依賴包 步驟二:加載并啟動模型pip install vllmpython-m vllm.entrypoints.openai.api_server-model/root/autodl-tmp/models/deepseek-ai/DeepSeek-

65、R1-Distill-Qwen-7B-served-model-name deepseek-r1-7b-host 0.0.0.0-port 6006-tensor-parallel-size 1-gpu-memory-utilization 0.9-dtype=half70vLLM部署模型 2-2這個參數的作用控制是模型在 GPU 上的顯存占用量。如果你的顯存不足,可以通過降低-gpu-memory-utilization 的值來減少顯存占用,從而避免出現 CUDA out of memory 的錯誤vLLM啟動后,提供了一個API調用URL,可以通過訪問h ttp:/0.0.0.0:6006

66、/docs 來查看 API 文檔,進而通過API來調用內部的大模型71vLLM參數說明 2-1參數名稱含義常見值/范圍注意事項-model指定模型的路徑或名稱模型文件路徑或預訓練模型名稱確保路徑正確且模型文件完整-served-model-name指定服務中暴露的模型名稱自定義名稱用于客戶端請求時指定模型-host服務綁定的主機地址0.0.0.0 或 127.0.0.1 等0.0.0.0 表示監聽所有網絡接口,127.0.0.1 僅監聽本地接口-port服務監聽的端口號1024-65535 之間的整數確保端口未被占用-tensor-parallel-size模型的張量并行大小正整數(通常為 G

67、PU 數量)用于分布式推理,需確保 GPU 資源充足-gpu-memory-utilizationGPU 內存利用率。0 到 1 之間的小數(如 0.9 表示 90%)調整顯存占用比例以避免顯存不足錯誤-dtype模型數據類型auto、half、float16、bfloat16、float32 等half 或 float16 可減少顯存占用,但可能影響精度-max-model-len模型支持的最大輸入長度正整數(如 2048)根據模型能力和硬件資源調整-swap-space用于交換空間的顯存大?。▎挝唬篏B)正整數用于緩解顯存不足,但可能降低推理速度-cpu-offload-gbCPU 卸載的

68、顯存大?。▎挝唬篏B)正整數將部分模型數據卸載到 CPU 內存,需確保CPU 內存充足72vLLM參數說明 2-2參數名稱含義常見值/范圍注意事項-max-num-batched-tokens每批次最大 token 數量正整數調整以優化推理速度和資源利用率-max-num-seqs每批次最大序列數量正整數調整以優化推理速度和資源利用率-quantization模型量化方法None、fp8、bfloat16、gptq 等量化可減少顯存占用,但可能影響精度-tokenizer指定分詞器分詞器路徑或名稱確保與模型兼容-tokenizer-mode分詞器模式auto、slow、mistral、cust

69、om 等根據需求選擇分詞器模式-load-format模型加載格式auto、pt、safetensors、gguf 等根據模型文件格式選擇加載方式-revision模型版本版本號或分支名稱僅在使用 Hugging Face 模型時適用-trust-remote-code是否信任遠程代碼True 或 False啟用時需注意安全性-enable-lora是否啟用 LoRA(Low-Rank Adaptation)True 或 False用于模型微調,需指定 LoRA 模塊-enable-prompt-adapter是否啟用提示適配器True 或 False用于自定義提示詞,需指定適配器配置73vL

70、LM實際并發性能測試設備模型上下文并發循環次數速率(tokens/s)顯存(GB)請求超時個數V100(32GB)*1DeepSeek-R1-Distill-Qwen-7B2048162482.330.40V100(32GB)*1DeepSeek-R1-Distill-Qwen-7B4096162435.730.41V100(32GB)*1DeepSeek-R1-Distill-Qwen-7B8192162402.130.412V100(32GB)*1DeepSeek-R1-Distill-Qwen-7B81921142.530.40設備模型上下文并發循環次數速率(tokens/s)顯存(GB

71、)請求超時個數V100(32GB)*2DeepSeek-R1-Distill-Qwen-14B2048162462.360.10V100(32GB)*2DeepSeek-R1-Distill-Qwen-14B4096162372.460.112V100(32GB)*2DeepSeek-R1-Distill-Qwen-14B8192162293.260.123V100(32GB)*2DeepSeek-R1-Distill-Qwen-14B81921137.560.107B并發測試14B并發測試74vLLM常見問題及解決方案注意力機制與PagedAttention兼容性問題 問題場景:模型使用相對

72、位置編碼(如RoPE)或稀疏注意力模式時,vLLM的PagedAttention出現位置偏移錯誤 長序列推理時緩存命中率低于預期 優化策略:自定義Attention Kernel:緩存策略調優:from vllm._C import opsops.paged_attention_v2(query,key,value,position_offsets,#注入自定義位置編碼block_tables,context_len,rotary_dim=64)#啟動參數調整-block_size 32#根據序列長度分布調整塊大小-gpu_memory_utilization 0.9575企業級70B模型部署

73、案例分享-1vllm serve/ai/models/DeepSeek-R1-Distill-Llama-70B-max-model-len 8192-port 5000-tensor-parallel-size 8-dtype auto-gpu-memory-utilization 0.8-served-model-name DeepSeek-R1-Distill-Llama-70BvLLM啟動命令企業場景企業(向量智能)內部應用案例,為各個部門提供Ai能力,為各部門建立知識庫和應用集成,提高企業內部的工作效率等。CPU:雙路64核心,共128線程)RAM:512G內存DISK:2T【RAI

74、D5磁盤陣列】GPU:8卡4090【192G顯存】Network:萬兆雙網卡(公司內部為千兆帶寬)服務器配置Python Env:Anaconda3Python Version:3.11.11Torch Version:pytorch2.6.0推理框架:vLLM生產環境采用vLLM的高性能部署方案采用半精度的方式運行DeepSeek-R1-Distill-Llama-70B部署方案76企業級70B模型部署案例分享-2初始化算力(8卡4090)的GPU狀態經驗分享8卡4090 不足以支持float32精度運行可支持float16和bfloat16精度10并發下4090功率達到300左右10并發G

75、PU顯存使用量穩定在21-22G10并發下每秒15-40 Tokens總結此配置的服務器支持百人團隊的日常使用7777隨著 DeepSeek 的爆火,低成本實現更好模型性能的部署方式受到廣泛關注,目前出現了KTransformers、Unsloth等多套解決方案。我們通過實踐發現,現有的低成本部署方案尚不足以滿足企業級應用需求,仍處于研究階段,更適合個人或小團隊用于研究參考,其重點在于探索在成本效益下實現部署,最大優勢是顯著節約成本。下面我們將對于這些解決方案分別進行數據和經驗分享。注意:后面這一部分低成本部署DeepSeek的內容(約30頁),也是在快速嚴謹和變化的技術內容,目標是讓大家簡單

76、了解這種低成本部署方案,不是了解DeepSeek本地化部署必須掌握的內容。78部署方案簡介DeepSeek R1模型就成了很多應用場景下的當務之急。受限于DeepSeekR1 671B(6710億參數)的模型規模,通常情況下部署Deepseek R1滿血版模型需要1200G左右顯存(考慮百人內并發情況),需要雙節點8卡H100服務器才能運行(總成本約在260萬-320萬左右),即便是INT4半精度下,也至少需要490G顯存,需要單節點8卡H100服務器才能運行。為了實現低成本DeepSeek R1模型的高性能部署,目前大多數方案都采用了犧牲模型推理速度的策略。使用CPU+GPU混合推理的方式,

77、將一部分推理計算轉移到CPU上,降低GPU的負載。由于CPU并不適合深度學習計算,導致模型整體推理速度較慢。R1滿血版模型部署方案79部署方案簡介借助llama.cpp,可以使用純CPU模式來運行DeepSeek R1模型,但需要大量的內存來加載模型權重,并且運行速度非常慢,即使是志強4代這種較強性能的CPU,DeepSeek R1 Q4_K_M模型推理速度也只有4tokens/s左右。而且并發性能較差,一個400字的小作文,就得寫個2、3分鐘。方案特點2023年3月,即Llama第一代模型開源不久,GeorgiGerganov在GitHub上發起了一個名為llama.cpp的項目,該項目用C

78、語言編寫深度學習底層張量計算庫,極大程度降低了大模型等深度學習算法的計算門檻,并最終使得大模型可以在消費級CPU上運行。目前該項目已成為大模型量化的標準解決方案,DeepSeek R1模型的Q2、Q4、Q8等模型量化都是借助llama.cpp完成。項目地址:https:/ Transformers)項目是清華大學發起的,可以借助R1模型的MoE架構特性,將專家模型的權重加載到內存上,并分配CPU完成相關計算工作,同時將MLA/KVCache加載到GPU上,進而實現CPU+GPU混合推理,這樣就達到了最大化降低顯存占用的目的。項目地址:https:/ DDR5內存14Llama.cpp純CPU推

79、理480G內存+4卡4090服務器僅CPU推理3.23Llama.cppCPU+GPU推理(單卡4090)單卡4090占用顯存約23G3.65Llama.cppCPU+GPU推理(4卡4090)4卡4090占用顯存約92G5.78Llama.cpp純GPU推理(4卡H800)4卡H800,320G總顯存占用顯存約140G20.93Ollama純GPU推理(單卡4090)單卡40905.97Ollama純GPU推理(雙卡A100)雙卡A1002083部署方案總結針對之前提到的三種DeepSeek滿血版低成本部署方案,北大AI肖睿團隊評價結論是:這些方案主要聚焦于探索如何在保持成本效益的同時實現模

80、型部署。它們的最大亮點在于顯著的成本節約。然而,從剛剛的方案性能測評總結中可以看出,就當前的技術水平而言,這三種方案在考慮并發處理能力、推理速度以及推理準確性等方面,尚不足以滿足企業級應用的要求。因此,它們更適合用于個人或小團隊對低成本部署策略的研究與參考。此外,量化模型的推理效果與DeepSeek官方發布的模型相比仍存在一定差距。在實際的企業級部署中,建議選用如vLLM、Tensor RT等更為成熟的推理框架。特別是對于方案二中提到的KTransformers框架,實際部署時對環境要求極為嚴格。從該項目的更新日志來看,項目仍處于初始階段,相較于vLLM等成熟的推理框架,其發展速度較慢,更像是

81、一個年久失修的項目。盡管如此,我們對低成本部署大模型的未來發展持樂觀態度,相信在不久的將來,這一領域將取得顯著進展,達到企業實際應用的要求標準。方案總結84方案實現硬件環境配置 深度學習環境:PyTorch 2.5.0、Python 3.12(ubuntu22.04)、Cuda 12.4 硬件環境:GPU:RTX4090(24GB)*4(實際只使用一張GPU)CPU:64 vCPU Intel(R)Xeon(R)Gold 6430 內存:480G(至少需要382G)硬盤:550G(實際使用需要380G左右)本部分所介紹的所有方案均在AutoDL服務器上實現和運行 由于AutoDL為虛擬化環境,

82、性能方面會受影響。AutoDL地址:https:/ R1模型的多個版本,除了Unsloth提供的4 個動態量化版本,還包含了Q2、Q4、Q8等多個版本的量化模型文件,大家可以根據需要自行加載。Unsloth團隊DeepSeek R1模型的ModelScope地址:https:/ install modelscope安裝modelscope的SDKfrom modelscope import snapshot_downloadsnapshot_download(repo_id=unsloth/DeepSeek-R1-GGUF,local_dir=DeepSeek-R1-GGUF,allow_pa

83、tterns=*UD-IQ1_S*#Select quant type UD-IQ1_S for 1.58bit)運行python代碼ModelScope提供了多種下載方式這里演示SDK下載。首先,需要在本地環境中安裝ModelScope的SDK包,之后運行下列的python代碼。如需下載不同版本的R1模型,修改allow_patterns參數即可。下載過程較為緩慢,需要耐心等待。87方案一、llama.cpp由于llama.cpp是個C語言項目,實際調用過程需要先構建項目,再設置參數進行編譯,然后創建可執行文件(類似于腳本),再運行本地大模型。借助llama.cpp和Unsloth的模型權重

84、,可以實現純CPU推理、純GPU推理和CPU+GPU混合推理。這里我們嘗試純CPU運行模式。項目主頁:https:/ updateapt-get install build-essential cmake curl libcur14-openss1-dev-y#注:C語言項目在運行前需要對項目進行代碼編譯,這里安裝的了項目創建和代碼編譯的相關依賴。其中,cmake為跨平臺構建工具,用于管理項目的編譯過程。安裝步驟#步驟二:llama.cpp源碼下載git clone https:/ https:/ llama.cpp/build/bin/llama-*llama.cpp安裝步驟#步驟三:項目構

85、建與編譯cmake llama.cpp-B llama.cpp/build-DBUILD SHARED LIBS=OFF-DGGML_CUDA=ON-DLLAMA_CURL=ONcmake-build llama.cpp/build-config Release-j-clean-first-target llama-quantize llama-cli llama-gguf-split方案一、llama.cpp步驟三核心參數說明:cmake:運行 CMake 工具,用于配置和生成構建文件。llama.cpp:指定項目的源代碼所在的目錄。在這個例子中,llama.cpp 是項目的根目錄。-B l

86、lama.cpp/build:指定生成構建文件的目錄。-B 參數表示構建目錄,這是 CMake 將生成的文件存放的地方(例如Makefile 或 Ninja 構建文件)。-config:指定構建的配置為 Release 配置,目的是啟用優化配置,加快構建后程序的運行速度。-clean-first:表示在構建之前先清理掉之前的構建結果。這可以確保每次構建時都是從一個干凈的狀態開始,避免由于緩存或中間文件引起的編譯錯誤。-target:指定構建的目標(target)。通常,一個項目會定義多個目標(比如庫、可執行文件等),通過這個參數可以告訴CMake 只編譯特定的目標。這里將可執行文件復制到根目錄

87、是為了更方便地在根目錄下執行90cd llama.cpp./llama-cli-model/root/autodl-tmp/Deepseek-R1-GGUF/Deepseek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-0f-00003.gguf-cache-type-k q4_0-threads 64-prio 2-temp 0.6-ctx-size 512-seed 3407-n-gpu-layers 0-no-cnv-prompt 你好,好久不見,請介紹下你自己。推理步驟核心參數說明:-cache-type-k:K緩存量化為4bit-threads:CP

88、U核心數-temp:模型溫度參數,控制生成隨機性-ctx-size:輸出上下文長度-seed:隨機數種子-n-gpu-layers:控制GPU中的模型層數,為0時則代表完全用CPU推理-no-cnv:不進行多輪對話方案一、llama.cpp9191為了嘗試CPU+GPU混合推理,只需要合理的設置-n-gpu-layers 參數,參數大小可以根據下圖的公式確定,即可靈活的將模型的部分層加載到GPU上進行運行。并且無需手動設置,llama.cpp會自動識別當前GPU數量以及可以分配的顯存,自動將模型權重加載到各個不同的GPU上。詳細參數可以參考下表。-n-gpu-layers參數設置方案一、lla

89、ma.cppQuant文件大小24GB GPU80GBGPU2x80GB GPU1.58bit131733611.73bit158526572.22bit183422492.51bit2122193292方案一、llama.cpp三種推理方式測試結果1.純CPU推理測試:在這種模式下,系統完全依賴內存和CPU進行計算,不使用GPU加速。本次測試使用的服務器配置為480GB內存和4卡4090顯卡,但GPU不參與計算。在高并發場景下,內存占用最高可達到約180GB。在這種配置下,生成token的速度為每秒3.23個token。2.CPU+GPU混合推理:只需要合理設置-n-gpu-layers 參

90、數,就可以靈活地將模型的部分層加載到GPU上運行。這個過程不需要手動配置,因為 llama.cpp 會自動識別當前GPU的數量以及可用的顯存,并將模型權重自動分配到不同的GPU上。在單卡4090設備上運行時,GPU能夠容納大約7層的模型權重,生成速度為每秒3.65個token,總共占用顯存23GB。3.將更多的模型權重加載到GPU進行推理:以4卡4090服務器為例,總顯存為96GB。根據計算公式,這時每個GPU可以容納大約39層的模型權重。與單卡24GB顯存相比,生成token的速度提高到了每秒5.78個token,同時占用的顯存約為92GB。93方案二、KTransformers配置文件下載

91、在開始部署KTransformer之前,需要注意的是,Unsloth團隊提供的只有模型權重,進行模型推理還需要下載DeepSeek官方提供的分詞器等模型配置文件。配置文件地址:https:/ download-model deepseek-ai/DeepSeek-R1 README.md.gitattributes config.json configuration_deepseek.py generation_config.json LICENSE model.safetensors.index.json modeling_deepseek.py tokenizer.json tokeniz

92、er_config.json -local_dir/root/autodl-tmp/DeepSeek-R1-GGUF/R1_config核心參數說明:-model:指定modelscope的下載文件路徑下及下載內容,這里我們下載了deepseek-ai/DeepSeek-R1路徑下除模型權重外的模型配置文件-local_dir:設置下載文件的存放位置94準備好模型權重和DeepSeek R1模型配置文件之后,即可開始部署KTransformer,本次部署DeepSeek R1 Q4_K_M模型。該項目部署流程非常復雜,請務必每一步都順利完成后,再執行下一步。項目主頁:https:/ CPU。但

93、版本間實際部署流程和調用指令沒有區別,本方案以適配性較好的V2.0版本進行演示。方案二、KTransformers 95。安裝步驟一:安裝依賴一、安裝gcc、cmake等基礎庫包:apt-get updateapt-get install gcc g+cmake ninja-build二、安裝PyTorch、flash-attn等庫包pip install torch=2.5.0 packaging ninja cpufeaturenumpypip install flash-attn三、安裝libstdc:sudo add-apt-repository ppa:ubuntu-toolchai

94、n-r/testsudo apt-get updatesudo apt-get install-only-upgrade libstdc+6conda install-c conda-forge libstdcxx-ng核心安裝步驟說明:apt-get update:更新軟件包列表,確保獲取最新的軟件包信息。apt-get install gcc g+cmake ninja-build:安裝編譯器(gcc和g+),CMake構建系統,以及Ninja構建工具。這些都是開發過程中常用的工具。sudo apt-get install-only-upgrade libstdc+6:僅升級libstdc

95、+6庫,它是GNU標準C+庫的一部分,提供了C+程序運行時支持。方案二、KTransformers 96。安裝步驟二:拉取代碼及編譯四、拉取KTransformers項目代碼:git clone https:/ ktransformersgit submodule initgit submodule update五、根據CPU類型,如果是64核雙槽版本,則需要運行命令,且該命令只需要在編譯時運行一次即可:export USE_NUMA=1例如,CPU:64 vCPU Interl(R)Xeon(R)Gold 6430 代表的就是64核雙槽CPU。六、開始編譯:sh./install.sh 或者

96、 bash install.sh七、查看安裝情況:pip show ktransformers方案二、KTransformers 此處編譯過程耗費時間較長,需要耐心等待。如果因為網絡問題拉取緩慢,可以直接打開鏈接將項目下載下來,再上傳服務器。如果CPU類型是雙槽版本而未執行,后續代碼步驟可能會報錯,此時再次執行該命令即可運行后續命令。97安裝步驟三:運行模型八、運行模型:python./ktransformers/local_chat.py-model_path/root/autodl-tmp/DeepSeek-R1-GGUF/R1_config-gguf_path/root/autodl-t

97、mp/DeepSeek-R1-GGUF -cpu_infer 65-max_new_tokens 1000-force_think true方案二、KTransformers 核心參數說明:./ktransformers/local_chat.py:調用官方提供的最簡單的對話腳本。-model_path:設置為前文下載好的配置文件路徑,也可以是來自Hugging Face 的在線路徑(如 deepseek-ai/DeepSeek-V3)。-gguf_path:模型路徑地址,建議下載并量化模型以滿足需求(注意,這是目錄路徑)。-max_new_tokens:1000 是最大輸出token長度。如

98、果發現答案被截斷,可以增加該值以獲得更長的答案,但設置過大會導致爆顯存(OOM)問題,并且可能減慢生成速度。-force_think true:輸出R1模型的推理思維鏈。-cpu_infer 65:若是單槽版本CPU,則不用輸入參數。啟動過程需要加載61層模型權重參數,耐心等待。官方提供的對話腳本默認輸出響應速度。9898單并發實測效果方案二、KTransformers 在配置:64 vCPU Interl(R)Xeon(R)Gold 6430;4x4090(24G)下,生成token速度為8.15tokens/s,推理時占用顯存11G99單并發實測效果在配置:64 vCPU Interl(R

99、)Xeon(R)Gold 6430;4x4090(24G)下,生成token速度為8.73tokens/s,推理時占用顯存11G方案二、KTransformers 100KT部署需要注意的問題 深度學習環境嚴格要求:該項目對環境要求苛刻,例如,torch版本不一致的話可能會導致后續依賴庫安裝出現問題,我們的環境版本為:Pytorch 2.5.0、Python 3.12、CUDA12.4。硬件要求:該實測是在RTX 4090(24GB)*4(實際只用1張),64 vCPU Intel(R)Xeon(R)Gold 6430下進行的,在使用Q4量化版本的R1時,最少需要保證有20G以上的顯存和382

100、G的CPU內存。Ktransformer目前有多個版本:V2.0,V2.1,V3.0。本實驗采用的是V2.1版本,不同版本差異較大,請注意辨別。在安裝依賴的過程中要注意安裝依賴庫的先后的順序,否則會導致其他依賴庫無法安裝的問題,例如flash-attn在安裝過程中遇到的(“Building wheel for flash-attn(setup.py).error error:subprocess-exited-with-error”)在git初始化的時候:git submodule init 若出現初始化失敗報錯的情況,嘗試git clone KT官網的鏈接。在運行sh./install.sh

101、 安裝運行腳本時,可能會需要等待較長時間(Building wheels for collected packages:ktransformers Building wheel for ktransformers(pyproject.toml).|)方案二、KTransformers 101方案三、Unsloth動態量化+Ollama本部分內容詳細介紹如何通過llama.cpp工具合并Unsloth動態量化模型的權重文件,并借助Ollama工具進行模型注冊與調用。通過合并權重文件,解決了Ollama對單文件支持的限制;通過Ollama的高效管理與推理接口,實現了模型的快速部署與性能驗證。這一流

102、程為Unsloth動態量化模型的本地部署提供了完整的解決方案。在實際應用中,用戶可以根據硬件配置和需求,靈活調整模型參數,以優化推理速度和資源利用率。102方案三、Unsloth動態量化+Ollama在部署Unsloth動態量化模型時,模型權重通常以分片形式存儲,例如,DeepSeek-R1-UD-IQ1_S模型的權重可能分為多個文件,每個文件包含模型的部分權重。然而,Ollama僅支持單個GGUF格式的模型權重文件,而Unsloth動態量化模型的權重通常以分片形式存儲。為了使Ollama能夠加載和管理這些模型,必須將分片的權重文件合并為一個完整的GGUF文件。這一過程不僅確保了模型的完整性,

103、還為后續的推理任務提供了基礎支持。這一過程通過llama.cpp工具完成,確保模型能夠高效地被Ollama管理并用于推理任務。合并步驟包括準備權重文件、執行合并命令以及驗證合并結果。ollama的下載與llama.cpp的下載可以參考前文。權重文件合并103方案三、Unsloth動態量化+Ollama 使用llama.cpp提供的llama-gguf-split工具執行權重合并操作。該工具能夠將分片的權重文件合并為一個完整的GGUF文件。具體命令如下:該命令將指定路徑下的分片權重文件合并為merged_file.gguf,并保存至當前目錄。在執行命令時,需要注意以下幾點:1.確保路徑正確無誤,

104、避免因路徑錯誤導致文件無法找到。2.如果在合并過程中遇到權限問題,可以嘗試使用sudo命令提升權限。3.合并過程可能需要一定時間,具體取決于文件大小和系統性能。mkdir DeepSeek-R1-UD-IQ1_S-mergecd./llama.cpp./llama-gguf-split-merge/root/autodl-tmp/DeepSeek-R1-GGUF/DeepSeek-R1-UD_x0002_IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf merged_file.gguf權重文件合并104方案三、Unsloth動態量化+Ollama在完

105、成模型權重合并后,下一步是將合并后的模型注冊到Ollama中,并通過Ollama進行調用。Ollama提供了便捷的模型管理與推理接口,能夠高效地加載和運行動態量化模型。Ollama支持多種模型格式,并提供了豐富的配置選項,用于優化模型性能。通過Ollama,用戶可以輕松地管理多個模型,并在本地環境中進行高效的推理任務。借助Ollama調用動態量化模型105方案三、Unsloth動態量化+Ollama 為了將合并后的模型注冊到Ollama中,需要創建一個模型配置文件(如DeepSeekQ1_Modelfile)。該文件包含模型的基本參數和運行配置,用于指導Ollama如何加載和運行模型。配置文件

106、的格式如下:其中:FROM:指定合并后的模型文件路徑。PARAMETER num_gpu:指定加載到GPU的層數。該參數根據硬件配置調整,例如單卡4090 GPU可以設置為7層。PARAMETER num_ctx:指定生成的最大token數。該參數決定了模型推理時的最大上下文長度。PARAMETER temperature:指定模型溫度參數,用于控制生成結果的隨機性。TEMPLATE:指定模型提示詞模板,用于定義用戶輸入和模型輸出的格式。FROM./merged_file.ggufPARAMETER num_gpu 7PARAMETER num_ctx 2048PARAMETER temper

107、ature 0.6TEMPLATE .System .Prompt 創建Ollama模型配置文件106方案三、Unsloth動態量化+Ollama 使用以下命令將合并后的模型注冊到Ollama中:該命令將模型DeepSeek-R1-UD-IQ1_M注冊到Ollama,并加載配置文件DeepSeekQ1_Modelfile。注冊完成后,可以通過以下命令查看模型是否成功注冊:如果模型注冊成功,Ollama將顯示模型名稱、路徑和相關參數。注冊過程中需要注意以下幾點:1.確保配置文件路徑正確無誤。如果路徑錯誤,Ollama將無法加載模型。2.如果模型已存在,可以使用-overwrite選項覆蓋舊模型:

108、確認無誤后即可運行模型ollama create DeepSeek-R1-UD-IQ1_M-f DeepSeekQ1_Modelfileollama listollama create DeepSeek-R1-UD-IQ1_M-f DeepSeekQ1_Modelfile-overwriteollama run DeepSeek-R1-UD-IQ1_M-verbose注冊模型到Ollama107方案三、Unsloth動態量化+Ollama模型注冊完成后,即可通過Ollama運行模型并驗證其性能。運行命令如下:在運行過程中,可以觀察模型的推理速度、吞吐量以及資源占用情況。例如,在單卡4090 G

109、PU上,推理速度可達6 tokens/s,而在雙卡A100服務器上,純GPU推理速度可達20 tokens/s。性能驗證不僅包括速度指標,還應關注模型的準確性和穩定性??梢酝ㄟ^以下方式驗證模型性能:推理速度測試:通過輸入簡單的提示詞,測試模型的響應時間。吞吐量測試:在多并發場景下,測試模型的吞吐量和資源占用情況。準確性測試:通過預定義的測試集,驗證模型生成結果的準確性。如果性能未達到預期,可以調整模型配置文件中的參數,例如增加GPU層數或調整溫度參數。ollama run DeepSeek-R1-UD-IQ1_M-verbose運行模型并驗證性能108D e e p S e e k 一 體 機

110、E n t e r p r i s ed e p l o y m e n tPART 04109109DeepSeek 一體機是融合“算力+大模型+應用”的創新產品。它的硬件配置強勁,配置高性能CPU和GPU、海量高速內存與固態硬盤,可高效處理復雜計算與大規模數據,進行大模型的推理甚至微調和訓練。對一般企業而言,它提供一站式服務,“軟硬協同、本地化部署”,降低智能化轉型門檻,保障數據安全。對個人用戶,其低成本讓大模型使用更親民,有效地降低了AI技術的使用門檻。推動 AI 技術普及,助力各行業利用 AI 提升效率。這部分將以北大青鳥用于高校AI通識課教育的AI實驗室中的DeepSeek一體機為例

111、,展示DeepSeek一體機的配置、性能數據及報價參考等,且深度分析業務場景的適配性,給予參考幫助。110國產DeepSeek一體機廠商一覽表截止至2025年2月(不包含北大青鳥DeepSeek一體機,后續會詳細介紹)盡管一體機普遍宣傳支持“滿血版”DeepSeek,但實際效果受算力卡性能限制,V3/R1 模型推薦 FP8 和 BF16 推理精度。第三方運營方為降低成本普遍采用:BF16 權重轉換(占比約 65%)和INT8 量化方案(占比約 30%),導致用戶實測效果比DeepSeek官方原版低 15-25%。選購建議:要求提供官方 FP8 兼容性認證,實測復雜場景下的響應速度與準確率三種精

112、度方案對比1.最佳方案:原生支持 FP8 精度的 GPU,實現 100%滿血推理效果2.次優方案:BF16 精度需自行轉換模型權重,精度接近無損但系統開銷增加,推理效率降低約 20-30%3.較差方案(殘血版):量化為 INT8/INT4 模型,推理效率提升 3-5 倍,模型精度損失達 40-60%111DeepSeek國產一體機671B推薦配置基礎模型精度:FP8配置1配置2配置3平臺:昇騰910B 800I A2 整機*2平臺:H20整機*1平臺:海光K100-A1整機*2NPU:64G顯存NPU模組GPU:NVIDIA 141GB H20-8GPU模組GPU:海光DCU K100-A1(

113、64GB)基礎模型精度:FP16配置1配置2配置3平臺:昇騰910B 800I A2 整機*4平臺:H20整機*2平臺:AMD-MI300X整機*1NPU:64G顯存NPU模組GPU:NVIDIA 141GB H20-8GPU模組GPU:AMD MI300X GPU模組(192GB)112 8卡4090(24G顯存)DeepSeek R1 70B-4K,支持10并發,100名用戶常規訪問 DeepSeek R1 70B-8K,支持5并發,50名用戶常規訪問 8卡5090(32G顯存)DeepSeek R1 70B-4K,支持12并發,120名用戶常規訪問 DeepSeek R1 70B-8K,

114、支持6并發,60名用戶常規訪問 8卡L40S(48G顯存)DeepSeek R1 70B-4K,支持20并發,200名用戶常規訪問 DeepSeek R1 70B-8K,支持10并發,100名用戶常規訪問70B8卡4090(24G顯存)DeepSeek R1 32B-4K,支持24并發,240名用戶常規訪問DeepSeek R1 32B-8K,支持12并發,120名用戶常規訪問8卡5090(32G顯存)DeepSeek R1 32B-4K,支持32并發,320名用戶常規訪問DeepSeek R1 32B-8K,支持16并發,160名用戶常規訪問8卡L40S(48G顯存)DeepSeek R1

115、32B-4K,支持48并發,480名用戶常規訪問DeepSeek R1 32B-8K,支持24并發,240名用戶常規訪問32BOpen WebUIDeepSeek一體機數據分享1個并發按照10個用戶計算(假設訪問的時候只有十分之一的時間在使用模型生成)DeepSeek 32B與70B-性能看板113北大青鳥AI實驗室案例分享當前院校在大力推動人工智能專業建設和相關科研課題,但是在具體實施操作,會面臨著很多問題,如教學資源不足,科研效率低,學生學習體驗不佳,沒有AI實訓平臺以及基礎算力設施作為支撐等等,北大青鳥為院校提供AI實驗室建設方案(DeepSeek一體機),以支撐各專業方向的教學和科研方

116、面的創新工作。企業場景114北大青鳥AI實驗室建設方案在實際應用中,傳統部署方案(如vllm、Tensor RT等工具)常面臨硬件適配復雜、資源利用率低等問題。為此,AI實驗室提供開箱即用的DeepSeek一體機全棧解決方案:深度調優,集成預訓練模型與動態調度引擎,兼容多場景推理與訓練任務,以更低部署成本、更高響應效率及數據本地化安全保障,助力企業快速實現DeepSeek大模型規?;瘧?。操作系統:Centos/Ubuntu 分布式/并行文件系統系統層動態拓展、鏡像存儲、隔離策略、高可用、單機多卡、多機多卡容器層管理功能:任務、資源、鏡像、存儲、數據、用戶、運維業務層動態監控 資源監控 集群監

117、控 全景大屏狀態信息 資源使用 任務運行監控層模型訓推 自然語言 圖像處理 語言識別文字識別 深度學習應用層計算節點硬件層管理節點存儲節點網絡節點內置主流模型管理工具,實現快速部署模型采用容器化,自動化腳本,使模型部署高效可重復一鍵運行DeepSeek-R1大模型,提供多版本模型(1.5B-671B)一鍵部署01快速發布服務,調用API實現應用對話支持用戶基于DeepSeek大模型構建本地數據庫優化算法結構,高效處理數;滿足不同用戶場景Deepseek02模型訓練推理場景集中式一體化任務管理,系統資源,監控運維的可視化多種資源結構集中管理,GPU調度切分一 體機03115北大青鳥AI實驗室(D

118、eepSeek一體機)DeepSeek基礎版 7B基礎模型精度:FP16類別規格描述部件數平臺1、4U4卡機架式服務器2、支持2顆Intel第4代CPU3、16根DDR5內存,最高4800MHz,最大4TB4、8塊3.5/2.5,不支持NVME,支持2塊NVME協議M.2x1CPU INTEL 5418Y Sapphire Rapids/24C/48T/2.0GHz/45MB/185W/4400MHzx2內存32GB/RECC/DDR5/4800MHzx4系統盤960G/2.5寸/SATA/1DWPDx2數據盤1.92T/2.5寸/U.2 NVME/1DWPDx1GPURTX4090 24GB

119、/GDDR6X/PCIE/450W/雙寬/16PIN/主動x2116北大青鳥AI實驗室(DeepSeek一體機)DeepSeek標準版 32B基礎模型精度:FP16類別規格描述部件數平臺1、4U4卡機架式服務器2、支持2顆Intel第4代CPU3、16根DDR5內存,最高4800MHz,最大4TB4、8塊3.5/2.5,不支持NVME,支持2塊NVME協議M.2x1CPU INTEL 5418Y Sapphire Rapids/24C/48T/2.0GHz/45MB/185W/4400MHzx2內存32GB/RECC/DDR5/4800MHzx8系統盤960G/2.5寸/SATA/1DWPDx

120、2數據盤3.84T/2.5寸/U.2 NVME/1DWPDx1GPURTX4090 24GB/GDDR6X/PCIE/450W/雙寬/16PIN/主動x4117北大青鳥AI實驗室(DeepSeek一體機)DeepSeek旗艦版 671B基礎模型精度:FP16類別規格描述部件數平臺NF5688M71.LSI 9560-8i(4G)Raid卡不帶電容*12.Mellanox CX7400G單光口HCA卡(不帶模塊)*83.自研X710 10G雙光口網卡(帶模塊)*14.3200W鉑金電源*25.2700w鉑金電源*6/導軌/國標16A電源線/3年NBDx1CPU Intel 8480+(56C,2

121、.0GHz)*2x2內存64G 4800MHz DDR5x24系統盤960GB SATA SSDx2數據盤3.84T/2.5寸/U.2 NVME/1DWPDx4GPUGPU Nvidia HGX-H20-8GPU x1整機臺數x2118北大青鳥AI實驗室(DeepSeek一體機)類別適用場景性能報價DeepSeek基礎版(7B)文本摘要、多輪對話系統(智能客服)、高精度輕量級任務并發約15-30;吞吐約10-20請求/秒8.8萬DeepSeek標準版(32B)科研與學術的研究支持,專業領域問答和復雜邏輯推理,軟件工程與高質量代碼生成,企業戰略分析與決策等并發約15-30;吞吐約10-15請求/

122、秒16.8萬DeepSeek旗艦版(671B)(滿血版)國家級大型AI項目研究、氣候建模等;院校算力中心建設并發約90-190;吞吐約30-60請求/秒199萬建議報價,有一定的時效性119本次研討,系統梳理了DeepSeek模型私有化部署的全場景解決方案,從模型選型到落地實踐,覆蓋個人用戶與企業級需求的核心要點。通過對比不同版本模型的性能特點,結合Ollama、vLLM等部署框架的實操演示,幫助大家根據自身算力資源、業務場景和技術能力選擇最優部署路徑。無論是個人開發者通過輕量化工具快速體驗模型能力,還是企業基于高性能推理引擎構建專業服務,抑或在有限資源下實現動態量化部署,或者個人、企業、學校、政府機關選購DeepSeek一體機的參考建議,本次分享均提供了可落地的技術方案和已驗證的經驗數據,為DeepSeek模型從能用到用好的跨越提供了完整方法論支持??偨Y120120參考文檔1.https:/

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(北京大學:2025年DeepSeek私有化部署和一體機報告(121頁).pdf)為本站 (蒸蒸日上) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站