當前位置:首頁 > 報告詳情

DeepSeek LLM技術報告(英文版)(48頁).pdf

上傳人: 淘*** 編號:650879 2025-04-07 48頁 7.13MB

下載:
word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

本文主要介紹了DeepSeek LLM項目,該項目旨在通過研究語言模型的擴展規律,推動開源語言模型的長期發展。主要內容包括: 1. 研究了語言模型的擴展規律,包括超參數、模型和數據規模的擴展規律。發現隨著計算能力的增加,應更多地將預算分配給模型擴展而不是數據擴展。 2. 構建了DeepSeek LLM模型,包括7B和67B兩個版本。在預訓練階段,使用了2萬億個標記的數據集,并采用了多步學習率調度器。 3. 在公開基準測試中,DeepSeek LLM 67B在代碼、數學和推理等任務上優于LLaMA-2 70B。在對話模型上,DeepSeek LLM 67B Chat在中文和英文的開放式評估中均優于GPT-3.5。 4. 在安全性評估中,DeepSeek LLM 67B Chat能夠提供安全的響應。 5. 本文的研究為未來開源語言模型的擴展提供了指導,有助于推動人工通用智能的發展。
"如何優化語言模型的擴展性?" "如何提高語言模型的安全性?" "如何訓練大規模語言模型?"
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站