《哈工大計算學部:2025大模型原理、技術與應用:從GPT到DeepSeek(66頁).pdf》由會員分享,可在線閱讀,更多相關《哈工大計算學部:2025大模型原理、技術與應用:從GPT到DeepSeek(66頁).pdf(66頁珍藏版)》請在三個皮匠報告上搜索。
1、車萬翔哈工大計算學部人工智能學院社會計算與交互機器人研究中心(HIT-SCIR)2025年2月28日大模型原理、技術與應用從GPT 到 DeepSeek從GPT 到 DeepSeek為什么是語言?大模型 又稱 大語言模型(Large Language Models)語言 是人類交流思想、表達情感最自然、最深刻、最方便的工具“語言是繼真核細胞之后最偉大的進化成就”社會生物學之父愛德華威爾遜“語言本身就是人類有史以來最大的技術發明”詹姆斯格雷克信息簡史人類歷史上大部分知識是以語言文字形式記載和流傳的運算智能能存儲會計算感知智能能聽會說能看會認認知智能能理解會思考什么是自然語言處理?自然語言 指的是
2、人類語言,特指 文本符號,而非語音信號 自然語言處理(Natural Language Processing,NLP)屬于 認知智能 是人類和動物的主要區別之一用計算機來 理解 和 生成 自然語言的各種理論和方法需要更強的 抽象 和 推理 能力“自然語言處理是人工智能皇冠上的明珠”自然語言處理成為制約人工智能取得更大突破和更廣泛應用的瓶頸“如果給我10億美金,我會建造一個NASA級別的自然語言處理研究項目”美國雙院院士、世界知名機器學習專家Michael I.Jordan“下一個十年,懂語言者得天下”美國工程院士、微軟前全球執行副總裁沈向洋“深度學習的下一個大的進展應該是讓神經網絡真正理解文檔
3、的內容”諾貝爾獎得主、圖靈獎得主、深度學習之父Geoffrey Hinton“深度學習的下一個前沿課題是自然語言理解”圖靈獎得主、Meta AI負責人Yann LeCun自然語言處理的發展歷史自然語言處理技術已經經歷了 五次范式變遷小規模專家知識19501990淺層機器學習算法19902010深度學習2010201720232024大模型預訓練語言模型20182023GPT 采用 語言模型 預訓練任務 語言模型計算一個句子在語言中出現的概率或給定上文,預測下一個詞出現的概率Generative Pre-trained Transformer,OpenAI 2018 哈工大位于_ 知識 我在水果
4、店看到了蘋果、香蕉、_ 語義 小明打了小紅,然后她_ 推理、指代 我一定推薦給朋友看,這部電影真是_ 情感 語言模型學到了什么?預訓練階段GPT 使用建模能力更強的 Transformer 模型 在目標任務上精調整個 預訓練 模型 接入的下游任務模型可以非常 簡單三大創新開啟了自然語言處理 預訓練模型 時代精調階段未標注文本語料庫模型訓練數據標注模型預訓練模型精調Fine-tune預訓練Pre-trainGPT-3:大模型早已有之 Language Models are Few-Shot Learners,OpenAI&Microsoft 2020 1750億參數,模型太大 無法精調 為不同的
5、任務設計相應的“提示語”GPT-3 代碼生成示例下面文本的情感是:這本書寫得很好的情感是?任務描述問題 無需訓練,便可完成“文本”生成 任務 如:問答、文章續寫、網頁生成、自動編曲等示例(In-context)我喜歡這部電影的情感是褒義GPT-3的不足GPT-3測試樣例Question:Which is heavier,a toaster or pencil?(烤箱和鉛筆哪個更重?)GPT-3:A pencil is heavier than a toaster.(鉛筆比烤箱重。)Question:How many eye does my foot have?(我的腳有幾只眼睛?)GPT-3:
6、Your foot has two eyes.(你的腳有兩只眼睛。)GPT-3原文指出,在故事結尾選擇任務上比哈工大丁效等所提出的具有知識推理能力的模型低4.1%!預訓練語言模型并不能真正克服深度學習模型魯棒性差、可解釋性弱、推理能力缺失的瓶頸,故在深層次語義理解上與人類認知水平還相去較遠!缺乏知識推理與可解釋性解決方案:ChatGPT(OpenAI,2022.11)https:/ 在代碼數據上繼續預訓練ChatGPT 的關鍵核心技術(1/3):無監督學習大規模預訓練語言模型,涌現出推理能力 模型 ChatGPT 的關鍵核心技術(2/3):有監督學習 將各種任務形式進行統一(指令+輸入輸出)在
7、眾多(成千上萬)任務的標注數據上精調語言模型 模型能夠處理未見任務(Zero-shot)使大模型更好遵循人類指令:指令精調(Instruction Tuning)https:/arxiv.org/pdf/2210.11416.pdf ChatGPT 的關鍵核心技術(3/3):強化學習 降低人工標注難度 生成的結果更多樣 能利用負面的標注結果將大模型進一步向人類期望對齊:人類反饋強化學習(RLHF)https:/huggingface.co/blog/rlhf 引爆“百模大戰”Open ResourceModel SourceClose ResourceEncoder-onlyEncoder-D
8、ecoderDecoder-only20202021202220232024GPT3InstructGPTChatGPTGPT42025O1CriticGPT20192018BERTErnieRoBERTaALBERTDistillBERTElectraDeBERTaSpanBERTDeBERTav3BGEE5Ada-002text-embedding-3T5BARTmT5Ernie3.0umT5GLMmT0CPM-2T0SwitchChatGLMTkFLanUL2UL2FlanT5ST-MoEGPTGPT-2TransformerXLNetDeepSeek-v3Step-Reason-min
9、iSkywork-o1GLM-ZeroFlanPaLMOPTBLOOMWeLMSkyworkJurassic-1GopherChinchillaBaichuanXGLMLLaMABLOOMzDeepSeek-LLMVicunaVicuna-v1.5AlpacaQwen2.5Baichuan2InternLMJurassic-2QwenHuoziMossPaLM2Yi-1.5YiMixtralInternLM2.5Gemini-1.5SparrowDeepSeek-v2Step-1InternLM2OLMoLLaMA3Mistral LargeStep-2Mistral Large 2Qwen2
10、OLMo2DeepSeek-v2.5LLaMA2GeminiQwen1.5MistralGPTNeoXPaLMMPTGemini-ThinkingGemini-2InternLM3DeepSeek-R1QwQSimCSEModel TypeCNNMLPRNNDeepSeek-R1 的橫空出世Nature News 報道:“中國的廉價且開源的大型語言模型震撼了科學界!”由中國研發的DeepSeek-R1大模型是一種既具備 高性價比 又完全 開源 的“推理”模型,其性能可與OpenAI的 o1模型媲美。通過模仿人類推理過程,這些模型能夠逐步生成響應,在解決科學問題時表現得比早期大模型更為出色,可能
11、對科研工作產生深遠的影響從DeepSeek-V1到R1發布時間:2024.1核心技術:類LLaMA架構+SFT+RLHF訓練數據量:2T訓練穩定程度:不穩定最大參數量:67B發布時間:2024.12核心技術:基于bias 負載均衡+MTP(多詞元預測)訓練數據量:14T訓練穩定程度:穩定最大參數量:671B(激活37B)訓練成本:2788KGPU小時/$5.58M發布時間:2024.5核心技術:MoE(更多共享專家)+MLA(多頭潛在注意力)訓練數據量:8T訓練穩定程度:較穩定最大參數量:236B(激活21B)訓練成本:172.8K GPU小時發布時間:2025.1核心技術:只使用RL學會推理
12、能力+將RL引入基模型架構訓練穩定程度:很穩定最大參數量:671B(激活37B)發布時間:2025.1核心技術:SFT學習推理格式+RL學習推理能力訓練穩定程度:很穩定最大參數量:671B(激活37B)V1V2V3R1-ZeroR1 GRPO(DeepSeekMath,2024.2)-無須價值網絡-提高學習穩定性-降低學習開銷DeepSeek的核心貢獻只使用強化學習(RL),模型自主學習到推理能力,性能接近o1模型訓練、推理速度更快,遠超o1類模型,極大節約硬件成本DeepSeek堅持開源精神,開放了 R1模型及其蒸餾出的子模型只用RL習得推理能力自然語言處理的發展歷史小規模專家知識19501
13、990淺層機器學習算法19902010深度學習2010201720232024大模型預訓練語言模型201820232025?推理DeepSeek-R1 引發自然語言處理的 第六次范式變遷推理(Reasoning)是指根據已知的信息、事實、規則或前提,通過一定的思維過程和方法,推導出新的結論、判斷或知識的認知活動。它是人類思維和智能的核心組成部分,也是人工智能、科學研究和日常決策中的關鍵能力。推理采用的核心技術思維鏈(Chain-of-Thought,COT)一系列中間推理步驟,相當于在求解問題過程中將解題步驟也寫出來 早期的思維鏈能力是模型自發“涌現”的(a)少樣例推理(b)少樣例思維鏈推理(
14、Wei et al.,2022)(c)零樣例推理(d)零樣例思維鏈推理(Kojima et al.,2022)問:小明有5個乒乓球,他又買了2筒乒乓球,每桶有3個。小明現在有多少乒乓球?答:11個。問:現在一共有16個球,其中的一半是小華的,小華的球中有一半是藍色的。小華的球中有多少藍色?答:(輸出)8個。問:小明有5個乒乓球,他又買了2筒乒乓球,每桶有3個。小明現在有多少乒乓球?答:小明一開始有5個乒乓球,在買了2筒后增加了2乘3等于6個,加起來一共11個。問:現在一共有16個球,其中的一半是小華的,小華的球中有一半是藍色的。小華的球中有多少藍色?答:(輸出)16的一半是8個,8個的一半是4
15、個。問:現在一共有16個球,其中的一半是小華的,小華的球中有一半是藍色的。小華的球中有多少是藍色的?答:(輸出)8個。問:現在一共有16個球,其中的一半是小華的,小華的球中有一半是藍色的。小華的球中有多少是藍色的?答:讓我們一步一步地思考。(輸出)16的一半是8個,8個的一半是4個。只用RL習得推理能力DeepSeek-R1-ZeroR1-Zero核心技術全新的技術棧:基于結果的極簡版強化學習(只將規則獲得的準確率作為獎勵)強化學習框架:使用 GRPO(Group Relative Policy Optimization)作為強化學習框架 獎勵模型:結果/規則獎勵,獎勵分為準確率獎勵(accu
16、racy rewards)和格式獎勵(format rewards),確保模型輸出正確的答案格式和推理過程全新的技術棧https:/ Relative Policy Optimization)利用當前策略模型進行多次采樣,并使用平均獎勵值近似價值函數,從而避免了對價值函數的顯式訓練,這樣做既減少了計算開銷,又避免了價值函數訓練的困 難,提高 了模 型學 習的 穩定性【DeepSeekMath,2024.2】https:/arxiv.org/abs/2402.03300R1-Zero實驗結果性能提升:AIME 2024 的 pass1 分數:39.2%71.0%,接近 OpenAI-o1-pre
17、view性能提升RL不需要復雜的算法,簡單的GRPO就夠用RL需要大量的數據:R1-Zero訓了8000個步驟,如果每個步驟 采樣的數據量為1024,那也到了8M級別RL訓練不需要過程獎勵,結果獎勵足夠https:/arxiv.org/abs/2501.12948性能提升:AIME 2024 的 pass1 分數:39.2%71.0%,接近 OpenAI-o1-previewR1-Zero實驗結果性能提升 強化學習的可擴展性:隨著強化學習步驟數增加,模型的性能逐步增強https:/arxiv.org/abs/2501.12948性能提升:AIME 2024 的 pass1 分數:39.2%71
18、.0%,接近 OpenAI-o1-previewR1-Zero實驗結果 強化學習的可擴展性:隨著強化學習步驟數增加,模型的性能逐步增強 強化學習的Aha時刻:隨著強化學習步驟數增加,會在某一步突然涌現出反思/自我評估機制性能提升https:/arxiv.org/abs/2501.12948R1-Zero實驗結果強化學習的長思維鏈自動拓展 隨著強化學習的步驟數增加,可以實現思維鏈長度自然增長https:/arxiv.org/abs/2501.12948DeepSeek-R1提升推理的規范性和泛化性R1總路線冷啟動(Cold Start):為了解決 DeepSeek-R1-Zero 的可讀性差(如
19、推理格式性差、語言混雜等)和訓練不穩定的問題,DeepSeek-R1引入了少量冷啟動數據進行預訓練,這些數據包含長CoT樣本。冷啟動(Cold Start)使用長 CoT 示例進行少樣本提示 直接提示DeepSeek-R1-Zero 模型生成帶反思和驗證的詳細答案 收集 DeepSeek-R1-Zero 的可讀格式輸出并經人工標注者后處理收集方法包括https:/huggingface.co/blog/open-r1R1總路線包括兩個強化學習階段和兩個監督微調階段。多階段訓練 第一階段通過冷啟動數據進行監督微調(SFT)第二階段進行推理導向的強化學習(RL)第三階段通過拒絕采樣(rejecti
20、on sampling)生成新的監督微調數據(SFT)第四階段再次進行強化學習以優化模型在所有場景下的表現(RL)基礎模型Deepseek-R1-ZeroSFTSFT推理 據RLRL推理 據Deepseek-R1-MiddleSFTSFT推理及通用 據RL多場景RL 據Deepseek-R1R1總路線 AIME 2024 的 pass1 分數:71.0 79.8%,接近 OpenAI-o1 Long CoT Warmup 能帶來更好的可讀性。DeepSeek-R1-Zero的思考空間很混沌,通過SFT初始化,能夠讓思維空間更加像人類的思維增加穩定性性能提升https:/arxiv.org/ab
21、s/2501.12948極致的模型架構優化主要模型架構優化技術 DeepSeekMoE(Mixture of Experts)多頭隱含注意力(Multi-head Latent Attention,MLA)多詞元預測(Multi-Token Prediction,MTP)算法優化 FP8混合精度訓練 DualPipe 跨節點All-All通信Infra優化https:/arxiv.org/pdf/2412.19437 算法優化DeepSeekMoE 增加模型容量 節約計算資源MoE每生成一個詞元激活不同的參數 更多專家(256個)每次選擇更專家(8個)共享專家(1個)DeepSeekMoE的特
22、點https:/arxiv.org/pdf/2412.19437 算法優化多頭隱含注意力(MLA)將Key-Query-Value(KQV)矩陣映射到低維隱空間KQV降維 提高推理速度 支持更長上下文以及更大的batch減少KV-cache的存儲空間https:/arxiv.org/pdf/2412.19437 算法優化多詞元預測(MTP)提高推理速度 提高訓練數據的利用率 提高模型預測能力一次預測多個詞元https:/arxiv.org/pdf/2412.19437 Infra優化FP8混合精度訓練ComponentDeepSeek-V2(BF16)DeepSeek-V3(FP8)Query
23、/Key Compressiondc=4dhdc=3dhKV Cache StorageBF16FP8RoPE ApplicationFull PrecisionDecoupled,FP8Attention ComputationBF16FP8+FP32 Accumulationhttps:/aman.ai/primers/ai/deepseek-R1/https:/arxiv.org/pdf/2412.19437Infra優化DualPipe如何更好地進行多機并行,減少并行氣泡?將每個塊劃分為4個組件:注意力、all-all調度、MLP、all-all組合更均勻+細粒度的劃分(計算與通訊幾乎
24、可以完全并行)可同時從流水線兩端提供微批次,并且大部分通信可以完全重疊雙向流水線調度樣本1樣本20https:/arxiv.org/pdf/2412.19437Infra優化跨節點All-All通信方法:跨節點 GPU 通過 IB 通信,節點內通過 NVLink 通信,每個詞元最多調度到 4 個節點,從而減少 IB 通信量。同時使用warp技術做調度和組合的優化方法結果:每個詞元能在不產生 NVLink 額外開銷的情況下,在每個節點上平均選擇 3.2 個專家。即每個token擴展到最多 13 個專家(4 個節點 3.2 個專家),而通信成本不變結果NVLink相連的GPU節點NVLink相連的
25、GPU節點InfiniBandall-all調度1NVLink相連的GPU節點NVLink相連的GPU節點InfiniBandall-all組合12323WarpWarpWarphttps:/cs.stanford.edu/sjt/pubs/ppopp14.pdf如何更好地進行all-all調度,all-all組合?DeepSeek模型優化效果DeepSeek-V3的訓練成本約為Llama-3.1(規模甚至更?。┑?/10模型名稱參數量/個訓練設備訓練卡時/106小時訓練成本/106美元Llama65BA100-80GB,2048塊1.01.4Llama70BA100-80GB,約2000塊1
26、.72.4Llama70BH100-80GB,未知6.412.8Llama405BH100-80GB,約16000塊30.861.6Llama70BH100-80GB,未知7.014.0DeepSeek-V3671BH800-80GB,2048塊2.85.6大模型的應用OpenAI 給出的 6 條 Prompt 設計原則1.Write clear instructions撰寫清晰的指令2.Provide reference text提供參考文本3.Split complex tasks into simpler subtasks將復雜的任務拆分為更簡單的子任務4.Give the model
27、time to think”給模型時間“思考”5.Use external tools使用外部工具6.Test changes systematically系統地測試變更Prompt 工程https:/ 一、撰寫清晰的指令:在查詢中包含詳細信息,以獲得更相關的答案參數模糊,模型無法給出明確具體的方案無輸出格式與風格要求,禮貌程度有限上下文缺失,未說明身份/對象,無法適配溝通場景Tips:明確角色定位(Who)具體任務目標(What)必要背景信息(Why)格式/語氣要求(How)關鍵 據指標(When/Where)一、撰寫清晰的指令:使用分隔符標識輸入的不同部分Tips:加入明確的分隔符區分輸入
28、中的不同部分,如“原文”、“待插入段”等可以使用標簽作為分隔符包裹字段,如公司承諾統一指令與輸入內容中對分隔符的描述,如:將X插入Y中:X:abcY:def缺少明確的分隔符標識不同字段一、撰寫清晰的指令:提供示例Tips:對于內容與格式要求相對抽象化、難以直接描述的問題,可以通過示例表達需求提供盡可能多的示例,示例過少會限制回復的多樣性,陷入給定示例的特定模式二、提供參考資料Tips可提供的資料包括:技術類任務:提供核心概念、原理說明行業分析類任務:提供市場 據、公司案例學術類任務:提供研究論文、實驗 據趨勢預測類任務:提供歷史 據、專家觀點對于知識類問答模型可能存在幻覺三、分解復雜問題Tip
29、s任務分解從宏觀到微觀,先從宏觀上拆分出骨干子問題,再從微觀上針對每個子問題繼續拆分或解決中間步驟(如生成的標題結構)如不符合預期,可以人工干預加以修正結構松散,缺乏邏輯和層次化關系重要板塊缺失,缺少未來工作與總結四、使用外部工具Tips可以借助代碼輔助完成 值計算等推理類問題DeepSeek工具調用背后的機制不是很明確,建議本地化運行加以確認結構松散,缺乏邏輯和層次化關系精度不夠導致最終計算結果錯誤相同程序,模型輸出的錯誤結果五、給模型時間思考TipsChatGPT建議的反思式提示未必對DeepSeek有效,提示策略也在隨著模型的改變而改變模型可能對于自身結果存在較大的傾向性,泛化的反饋難以
30、發現問題明確的反饋又需要用戶親自驗證,限制了該策略的有效性領域應用:RAG vs.SFT領域應用Prompt工程判斷和目標的差距RAG檢索增強生成SFT有指導微調知識不足風格不對RAG 檢索增強生成檢索器https:/www.ml6.eu/blogpost/leveraging-llms-on-your-domain-specific-knowledge-base 相關文檔查詢特定數據庫問題提問檢索器問題+生成大模型作為生成器答案智能體(Agents)工具學習向量數據庫人工智能驅動的科學研究具身智能單體智能Autonomous Agents組織協作與對抗社會模擬群體智能Agents自然語言處理
31、正在由 面向自然語言的處理 轉變為 基于自然語言的智能小型化個性化角色化定制化隱私性安全性推廣大模型應用HIT-SCIR 大模型方向規劃應用領域功能增強模型訓練能力增強金融醫療教育航天智能體具身智能決策機情感個性化輕量化價值觀對齊推理可解釋性多模態魯棒性攻擊防御數據歸因數據合成模型架構設計增量預訓練“活字”對話大模型自主研發的開源可商用大規模預訓練語言模型https:/ 更好的指令遵循能力,支持生成和理解代碼以及表格 安全性指標達到84.4%,甚至超越了ChatGPT(81.9%)活字2.0:基于活字1.0,通過人類反饋的強化學習(RLHF)訓練 回答更豐富,更符合人類偏好 開源了首個中文RL
32、HF數據集活字3.0:基于Mixtral-8x7B進行中文擴詞表和指令微調 高達32K上下文長度,支持讀取更長的文本 具有豐富的中英文知識和強大的數學推理、代碼生成能力珠算代碼大模型大模型 1 比特量化,通過知識蒸餾,模型參數壓縮90%以上,能力保留83%發表于機器學習領域頂會NeuraIPS(CCF A)提出基于去噪模型的投機解碼方法,生成速度提升至2倍以上發表于NLP領域頂會EMNLP(Tsinghua-A,CCF B)優化預訓練微調數據構建與篩選策略,Code與NL能力均達到同級最優提出多語言程序思維鏈策略,數值計算等推理能力相比ChatGPT提升4.6%發表于NLP領域頂會EMNLP(
33、Tsinghua-A,CCF B)PythonRC+JavaJSMultiPoT更輕更快更強更有用珠算代碼大模型演示基于大模型的精神健康計算系統巧板 面向K12中小學生群體和家長、教師群體的日常共情對話陪伴 四大功能:共情陪伴、情緒疏導、角色化陪伴和中國優秀文化熏陶巧環 面向輕度心理疾病的青少年和心理咨詢師初期訓練的心理咨詢系統 基于心理學引導策略進行心理疾病溯因分析“本草”醫學大模型技術成果發表5篇論文、論文累計他引超200次、申請7項專利、申請1項軟著 中國首個醫學大模型 首次提出知識微調(Knowledge-tuning)方法,被訊飛、華為、騰訊等行業大模型廣泛采用 在GitHub獲得超
34、過4.6K+星標 入選中國大模型TOP70榜單第27名,僅有的3個高校大模型之一 德本咨詢(DBC)、中國社會科學院信息化研究中心(CIS)、互聯網周刊(CIW)等組織嚴格評選并發布了“2023中國大模型TOP70”榜單人機融合醫療會診平臺理論創新:辯論式復雜問題決策機理論技術創新:面向診療的專病大模型 面向診療復雜問題決策的多智能體協同技術 面向可解釋性增強的多智能體自組織系統人機融合會診人類醫生會診國家重點研發計劃項目,在臨床診斷測試中實現人機融合組超過全人類醫生組,30多家醫院試用軟硬一體機器腦系統基于自研的具身規劃模型、具身執行模型,構建了模塊化、高擴展、可通用的機器腦軟件系統同時設計
35、了配備關鍵傳感器和計算單元的硬件頭部系統,可安裝于機械臂、人形機器人、輪式機器人等各類機器人上具身感知具身規劃具身執行實現機器腦在各場景、各類機器人上的無縫遷移機器腦系統效果展示展廳機器人機器腦亮相哈爾濱亞冬會機器腦自主完成長序列復雜任務乘電梯下樓取咖啡人工智能未來發展方向自然語言處理的發展歷史小規模專家知識19501990淺層機器學習算法19902010深度學習2010201720232024大模型預訓練語言模型201820232025?推理?通往AGI之路以大語言模型為基礎,拓展語言之外的認知能力Bisk等人(2020)將語言處理劃分為5級“世界范圍”(World Scope,WS)WS5
36、社會:自組織WS4具身:與物理世界互動WS3多模態:聽覺、視覺WS2網絡文本數據WS1小規模語料庫現在未來早期非交互式交互式Level 5OrganizationsLevel 4InnovatorsLevel 3AgentsLevel 2ReasonersLevel 1ChatbotsOpenAI認為實現AGI的5個階段https:/ 已成為人工智能的基石DeepSeek-R1模型 的核心貢獻 只用RL習得推理能力:如何獲得數學和編程以外的推理能力?極致的模型架構優化:Transformer是最優的模型架構么?開源模型及蒸餾模型:訓練代碼以及數據是否開源?自然語言處理正在由 面向自然語言的處理 轉變為 基于自然語言的智能未來方向:模型是否以及如何具有 創新 能力?哈工大計算學部人工智能學院(https:/