《51CTO:2025年DeepSeek入門寶典-技術解析篇(22頁).pdf》由會員分享,可在線閱讀,更多相關《51CTO:2025年DeepSeek入門寶典-技術解析篇(22頁).pdf(22頁珍藏版)》請在三個皮匠報告上搜索。
1、DeepSeek是什么?DeepSeek 是什么?DeepSeek R1的三大特點 使用DeepSeek的五種方式對比DeepSeek 是什么?DeepSeek是幻方量化于2023年創立的大模型子公司,創始人為梁文鋒2024年1月5日,其發布第一個同名AI大模型 DeepSeek LLM2025年1月20日,DeepSeek R1正式發布,為對標對標 OpenAI o1 OpenAI o1正式版的高性能推理模型;R1上線后火速出圈,其應用創造了全球 APP APP 歷史上增長最快歷史上增長最快的記錄 圖片來源:AI產品榜圖片來源:DeepSeek官網推理表現媲美OpenAI o1正式版R1開源
2、,并公開訓練技術,允許開發者訪問和學習R1開發成本僅為OpenAI o1的2%左右圖注:DeepSeek與OpenAI各版本的準確率對比(圖片來源:DeepSeek官網)DeepSeek R1的三大特點高性能高性能開源開源低成本低成本使用DeepSeek的五種方式對比普通用戶普通用戶作為生產力工具及技術嘗鮮https:/ 和 MNN等工具硅基流動、騰訊云、阿里云等https:/ R1核心技術揭秘 R1的基座模型V3 R1的三種變體 R1訓練的技術路徑 R1的核心技術解析 R1的關鍵技術貢獻R1的基座模型:V3V3V3模型的特征模型的特征V3是去年12月發布的自研 MoE 模型參數與GPT-4大
3、致在同一數量級:V3 有671B 參數,每個Token的計算激活約37B在 14.8T token 上進行了預訓練R1R1在在DeepSeekDeepSeek V3 V3基礎上進行了開發基礎上進行了開發圖注:DeepSeek V3與發布時其他主流大模型的準確率對比(圖片來源:DeepSeek官網)V3V3:對標GPT-4o,通過指令微調和偏好微調提升性能R1R1:專注于推理能力R1的三種變體DeepSeek V3DeepSeek V3R1-ZeroR1-ZeroR1DeepSeek-R1-Distill基座模型變體 1變體2變體3直接強化學習訓練多階段漸進訓練模型蒸餾R1訓練的技術路徑原圖作者
4、:Sebastian RaschkaR1的核心技術解析:強化學習圖片來源:基于場景動力學和強化學習的自動駕駛邊緣測試場景生成方法R1采用了多種獎勵的強化學習,相當于模型的“綜合評分系統”,模型在完成任務時根據多個標準獲得不同的獎勵信號。R1的核心技術解析:冷啟動數據R1 策略性地將少量高質量數據作為冷啟動。這相當于訓練開始前的“入門教程”,幫助模型更快地學會如何進行清晰、有邏輯的推理。R1-Zero生成的 長 思 維 鏈(CoT)數據挑選示例R1的冷啟動數據R1的核心技術解析:監督微調圖片來源:PORT:Preference Optimization on Reasoning TracesR1
5、訓練包括兩個監督微調(SFT)階段。模型通過學習標注數據來調整模型,以在特定任務上表現得更精準。R1的核心技術解析:蒸餾圖片來源:https:/devopedia.org/knowledge-distillationR1-Distill采用蒸餾技術。大模型(老師)把自己的知識和推理能力教給小模型(學生),通過高質量的數據和訓練方法,讓小模型學會大模型的推理技巧。關鍵貢獻1:“純RL”技術路線的可行性首個公開研究,驗證了LLMs的推理能力可以僅通過強化學習激勵,而無需監督微調。圖注:隨著RL訓練逐步推進,R1-Zero的性能穩定且持續提升(圖片來源:DeepSeek官方論文)關鍵貢獻2:R1的“
6、啊哈時刻”圖注:在處理復雜的數學問題時,模型突然停下來說“等等、等等、這是個值得標記的啊哈時刻”(圖片來源:DeepSeek官方論文)DeepSeek R1在推理時使用諸如“啊哈時刻”的高度擬人化語言,在解題找到突破口時產生了頓悟,被視為走向AGI的重要一步。圖注:DeepSeek R1 的推理過程關鍵貢獻3:蒸餾小模型超越 OpenAI o1-mini圖注:通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區(圖片來源:DeepSeek官方論文)蒸餾小模型的高性能,證明了該策略的經濟和有效,但想要突破當前智能的邊界,或仍需要更大規模的基礎模型與強化學習。DeepSeek技術貢
7、獻及未來進化 R1與OpenAI o1的三大區別 R1的四大進化方向 附錄:DeepSeek產品家族全梳理DeepSeek R1 與 OpenAI o1 的三大區別 架構不同架構不同訓練方式不同訓練方式不同生態不同生態不同R1:基于已有模型DeepSeek V3R1:證明可以僅通過強化學習激勵,無需監督微調R1:開源,免費使用o1:不同于GPT-4o的新模型o1:監督微調和強化學習結合o1:閉源,ChatGPT Plus會員才可訪問o1及o1 miniR1的四大進化方向通用能力通用能力R1在一些復雜任務上的表現不如V3,未來可以通過長鏈推理來提升語言混合語言混合優化R1處理中英文以外語言的能力
8、,避免現在的語言混合問題提示工程提示工程R1對提示很敏感,少量示例提示會降低性能軟件工程任務軟件工程任務從軟件工程數據、強化學習的異步評估入手,縮短評估時長,保障強化學習過程的效率附:DeepSeek產品家族全梳理圖表來源:國海證券更多DeepSeek及AI學習資源 DeepSeek官網訪問官網,可深入了解最新研究成果,獲取源代碼及官方提示詞樣例庫等資源。https:/51CTO官網AI.x專區,獲取DeepSeek及AI最新資訊、實戰文章、實用資源及AI實戰派大咖直播分享。https:/超過200門、超過1000小時AI(含DeepSeek)主題視頻課程可供個人和企業學習。https:/圖注:51CTO企業學堂推出的企業DeepSeek體系化學習方案51CTO官網AI專區51CTO在線課程DeepSeek專區