《浙江大學:2025年DeepSeek技術溯源及前沿探索報告(50頁).pdf》由會員分享,可在線閱讀,更多相關《浙江大學:2025年DeepSeek技術溯源及前沿探索報告(50頁).pdf(50頁珍藏版)》請在三個皮匠報告上搜索。
1、1浙江大學DS系列專題主講人:朱強主講人:朱強浙江大學計算機科學與技術學院人工智能省部共建協同創新中心(浙江大學)https:/ 2一、語言模型一、語言模型三、ChatGPTOutline四、DeepSeek五、新一代智能體二、Transformer3Language ModelingLanguage Modeling對于任意的詞序列詞序列,計算出這個序列是一句話的概率概率我們每天都和語言模型打交道:I saw a catI saw a cat on the chairI saw a cat running after a dogI saw a cat in my dreamI saw a c
2、acar語言模型:終極目標4Sheismymom1000010000100001One-hot EncodingOne-hot Encoding只有一個1,其余均為0One-hot Encoding有什么缺點嗎?編碼:編碼:讓計算機理解人類語言語言模型:基本任務50.990.990.050.10.990.050.930.090.020.010.990.980.980.020.940.3鯨魚海豚鸚鵡企鵝游泳飛翔Word EmbeddingWord Embedding用一個低維低維的詞向量表示一個詞能使距離相近的向量相近的向量對應的物體有相近的含義相近的含義20維的向量用one-hot和word
3、embedding的方法分別可以表示多少單詞?編碼編碼:讓計算機理解人類語言6Word EmbeddingWord Embedding結合句子語境我們可以猜測:tezgino是一種由玉米制作的酒精類飲料 A bottle of tezgino is on the table.Everyone likes tezgino.Tezgino makes you drunk.We make tezgino out of corn.(1)A bottle of _ is on the table.(2)Everyone likes _.(3)_ makes you drunk.(4)We make _
4、out of corn.(1)(2)(3)(4)1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 0 1 1 1 1 11 1 1 0 tezginomotor oiltortillaswine兩行內容十分相近兩個單詞含義相近編碼編碼:讓計算機理解人類語言7基于統計的N-gram(1970 after)基于統計的N-gram(1970 after)語言模型:技術演化Before:P(小)P(貓|小)P(抓|小貓)P(老|小貓抓)P(鼠|小貓抓老)3-gram:P(小)P(貓|小)P(抓|小貓)P(老|貓抓)P(鼠|抓老)2-gram:P(小)P(貓|小)P(抓|貓)P(老|抓)P
5、(鼠|老)Transformer(2017 after)Transformer(2017 after)基于神經網絡的LSTM/GRU(2000 after)基于神經網絡的LSTM/GRU(2000 after)8常見的深度學習模型框架,可用于解決 Seq2Seq 問題可以根據任務選擇不同的編碼器和解碼器(LSTM/GRU/TransformerLSTM/GRU/Transformer)EncoderDecoder我 很 聰 明!I am pretty smart!隱空間RepresentationRepresentationEncoder-Decoder9 9一、語言模型三、ChatGPTOu
6、tline四、DeepSeek五、新一代智能體二、Transformer二、Transformer10Transformer:Transformer:理論架構創新理論架構創新自注意力機制:自注意力機制:支持并行計算/全局上下文的理解能力多頭注意力:多頭注意力:從多個角度捕捉復雜的語義關系前饋網絡前饋網絡/位置編碼位置編碼/層歸一化:層歸一化:解決了傳統模型的諸多局限性大型語言模型簡史2017JUN2017JUN1958TransformerTransformer2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22
7、019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1Deep
8、Seek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1https:/ 2017,引用量15萬+15萬+引入全新注意力機制注意力機制,改變了深度學習模型的處理方式EncoderDecoderEncoderDecoderTransformer:大模型的技術基座Attention Is All You Need12Transformer:(自)注意力機制在理解在理解語言任務語言任務時,Attention 機制本質上是時,Attention 機制本質上是捕捉單詞間的關系捕捉單詞間的關系The animal didnt cross the street because i
9、t it was too tired/widetired/wideShe is eating a green apple.中國 南北南北 飲食文化 存在差異存在差異,豆花有 南甜北咸南甜北咸 之分。南方人南方人 一般 喜歡 吃 甜豆花甜豆花12313Transformer:(自)注意力機制ImageSketchGradient在理解在理解圖像任務圖像任務時,Attention機制本質上是時,Attention機制本質上是一種圖像特征抽取一種圖像特征抽取14Transformer:訓練機制場景:場景:你在圖書館想找一本關于“機器學習基礎”的書你在圖書館想找一本關于“機器學習基礎”的書Query:
10、描述要找的書(精準的需求描述)Key:書的索引編號(高效的書籍定位)Value:內容的抽?。ㄓ赡繕巳蝿镇寗樱﹉ttps:/newsletter.theaiedge.io/p/the-multi-head-attention-mechanism15大型語言模型簡史預訓練時代:預訓練時代:大力出奇跡(“暴力美學”)大力出奇跡(“暴力美學”)BERTBERT:B Bidirectional E Encoder R Representations T TransformersGPTGPT:G Generative P Pertained T Transformer自監督算法自監督算法:MLM/NTP/
11、MAE解決海量數據標注問題2017JUN2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARG
12、PT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o316RepresentationGenerationBERT Oct 2018GPT Jun 2018The LLM Era Paradigm Shift in Machine Learning17BERT 2018DistilBER
13、T 2019RoBERTa 2019ALBERT 2019ELECTRA 2020DeBERTa 2020GPT 2018GPT-2 2019GPT-3 2020GPT-Neo 2021GPT-3.5(ChatGPT)2022LLaMA 2023GPT-4 2023RepresentationGenerationT5 2019BART 2019mT5 2021The LLM Era Paradigm Shift in Machine Learning18自監督學習(語言)原話:原話:一輛 列車 緩慢 行駛 在 崎嶇 的 山路上預測填空:預測填空:一輛 列車 緩慢 行駛 在 崎嶇 的 山路上移除
14、單詞:移除單詞:一輛 列車 行駛 在 崎嶇 的 山路上Masked Langauge Modeling(MLM)Masked Langauge Modeling(MLM)模型會不斷地在句子中挖去一個單詞,根據剩下單詞的上下文來填空,即預測最合適的填空詞出現的概率,這一過程為自監督學習自監督學習19自監督學習(圖像)Masked AutoEncoders(MAE)Masked AutoEncoders(MAE)通過隨機遮蓋部分輸入數據(如圖像)并重建缺失內容,讓模型從上下文中學到圖像的深層特征,常用于計算機視覺任務。遮蓋圖像重建圖像https:/arxiv.org/pdf/2111.063772
15、0數據是數據是燃料燃料、模型是、模型是引擎引擎、算力是、算力是加速器加速器數據數據:訓練中使用了45TB數據、近 1 萬億個單詞(約1351萬本牛津詞典所包含單詞數量)以及數十億行源代碼。模型模型:包含了1750億參數,將這些參數全部打印在A4紙張上,一張一張疊加后,疊加高度將超過上海中心大廈632米高度。算力算力:ChatGPT的訓練門檻是1萬張英偉達V100芯片、約10億人民幣。大數據、大模型、大算力下以“共生則關聯”原則實現了統計關聯關系的挖掘。大數據、大模型、大算力下以“共生則關聯”原則實現了統計關聯關系的挖掘。MCP神經元PerceptronDNN神經網絡早期前向神經網絡seq2se
16、q序列學習循環神經網絡RNNLSTMWord2vec詞向量單詞之間關聯關系TransformerSelf-supervisedPromptFine-tune語言大模型LLM人類反饋強化學習(InstructGPT)CodeX(CoT,120億參數)引入Self-attentionChatGPTChatGPT訓練 transformer 的通用之力21大模型Large Model大語言模型(LLM)Large Language ModelBERT系列GPT系列3.5/4GPT-4oDeepseek-v3Deepseek-v3科學計算模型Science Model多模態大模型(LMM)Large
17、Multimodal ModelDDPMSAM交互式DemoSoraDALLE3 in ChatGPTAlpha系列AlphaStar魔獸爭霸 氣象大模型藥物分子預測PanguLMMidjourneyGoogle Bard 文心一言AlphaGo圍棋 機理技術產品AlphaFold蛋白質預測GPT-o1/o3Deepseek-R1Deepseek-R1大模型脈絡22群雄(中美)爭霸 OpenAI最新15頁報告:DeepSeek縮小中美AI差距 OpenAI最新15頁報告:DeepSeek縮小中美AI差距 A Survey on Large Language Models with some I
18、nsights on their Capabilities and Limitations23閉源 vs 開源國際企業微軟國際企業微軟投資OpenAI的GPT-4.0系列投資OpenAI的GPT-4.0系列閉源自研開源小模型Phi-3 Mini開源亞馬遜亞馬遜自研Titan系列閉源投資Anthropic的Claude 3.5系列閉源谷歌谷歌Gemini系列閉源Gemma系列開源METAMETALlama3系列Llama3系列開源Mistral AIMistral AIMistral-Large閉源Mistral-Medium開源中國企業阿里中國企業阿里通義千問2.5系列基礎模型、行業模型開源Q
19、wen 0.5b-110b系列開源模型開源華為華為盤古系列閉源騰訊騰訊混元基礎模型、行業模型閉源混元開源模型開源百度百度文心一言4.0模型閉源DeepSeek以一己之力改變了開源和閉源的力量對比:從612個月的代差縮短到13個月DeepSeek以一己之力改變了開源和閉源的力量對比:從612個月的代差縮短到13個月2412層,每層12個注意頭GPT-2做了以下改進:1.增 加 到 4 8 層,使 用1600維向量進行詞嵌入;2.將層歸一化移動到每個子塊的輸入,并在最終的自注意塊后增加一層歸一化;3.修改初始化的殘差 層權重,縮放為原來的1/,其中,是殘差層的數量;4.特征向量維數從768擴展到1
20、600,詞表擴大到50257。GPT-3做了以下優化:1.增加到96層,每層有96個注意頭;2.單詞嵌入大小從1600增加到12888;3.上 下 文 窗 口 大 小 從 GPT-2 的1024增加到2048,并采用交替密度和局部帶狀稀疏注意模式。ChatGPT基于GPT-3.5:1.ChatGPT使用來自人類反饋的強化學習進行訓練;2.通過近端策略優化算法進行微調,為信任域策略優化算法帶來成本效益。模型發布時間參數量預訓練數據量模型發布時間參數量預訓練數據量GPT-12018年6月1.17億約5GBGPT-22019年2月15億40GGPT-32020年5月1750億45TBChatGPT2
21、022年11月千億級?百T級?摩爾定律(大模型時代)DeepSeek通過大幅提升模型訓練、推理效率,緩解DeepSeek通過大幅提升模型訓練、推理效率,緩解(?)了算力需求?(?)了算力需求?2525一、語言模型三、ChatGPT三、ChatGPTOutline四、DeepSeek五、新一代智能體二、Transformer26大型語言模型簡史GPT-3:GPT-3:語言模型的轉折點語言模型的轉折點大語言模型:大語言模型:1750億參數涌現涌現能力:能力:隨著模型規模增大而出現的新能力生成/創造:生成/創造:ArtArtificial Intelligence(人工人工=藝術藝術)2017JUN
22、2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024
23、MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o327大型語言模型簡史ChatGPT:ChatGPT:人工智能的IPHONE時刻人工智能的IPHONE時刻2017JUN2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2
24、019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1
25、DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o328OpenAI技術白皮書GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruction tuningRLHFRLHFInstruction tuningCode-davinc
26、i-001Code-cushman-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davinci-002Text-davinci-003ChatGPTDavinci29GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruction tuningRLHFRLHFInstr
27、uction tuningCode-davinci-001Code-cushman-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davinci-002Text-davinci-003ChatGPTDavinciGPT-3 InitialGPT-3 Initial初代 GPT-3 展示了三個重要能力(來自于大規模的預訓練)初代 GPT-3 展示了三個重要能力(來自于大規模的預訓練)語言生成語言生成:來自語言建模的訓練目標(說人話說人話)世界知識世界知識:來自 3000 億單詞的訓練語料庫(百曉生百曉生)上下文學習上下文
28、學習:上下文學習可以泛化,仍然難以溯源(觸類旁通觸類旁通)初代 GPT-3 表面看起來很弱,但有非常強的潛力,展示出極為強大的“涌現”能力GPT3 Initial30GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruction tuningRLHFRLHFInstruction tuningCode-davinci-001Code-cushm
29、an-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davinci-002Text-davinci-003ChatGPTDavinciCodex InitialCodex InitialInstructGPT InitialInstructGPT Initial2020-2021 年,OpenAI 投入了大量的精力通過代碼訓練代碼訓練和指令微調指令微調來增強 GPT-3。使用思維鏈思維鏈進行復雜推理的能力很可能是代碼訓練的一個神奇副產物使用指令微調指令微調將 GPT-3.5 的分化到不同的技能樹(數學家/程序員/)Co
30、dex+Instruct31GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruction tuningRLHFRLHFInstruction tuningCode-davinci-001Code-cushman-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davin
31、ci-002Text-davinci-003ChatGPTDavinciCode-davinci-002Code-davinci-0021)指令微調不會為模型注入新的能力不會為模型注入新的能力(解鎖能力)2)指令微調犧牲性能換取與人類對齊犧牲性能換取與人類對齊(“對齊稅”)GPT3.532GPT-3 SeriesGPT-3.5 SeriesTraining on codeLarge-scale language model pretrainingCodex InitialGPT-3 InitialInstructGPT InitialLM+code training then instruct
32、ion tuningRLHFRLHFInstruction tuningCode-davinci-001Code-cushman-001Instruct-davinci-betaText-davinci-001Code-davinci-002Text-davinci-002Text-davinci-003ChatGPTDavinci2022.112022.11RLHFRLHFRLHFRLHFRLHF(基于人類反饋的強化學習的指令微調)觸發的能力:RLHF(基于人類反饋的強化學習的指令微調)觸發的能力:翔實的回應公正的回應拒絕不當問題拒絕其知識范圍之外的問題ChatGPT(技術到產品)33大型語
33、言模型簡史多模態模型:多模態模型:連接文本、圖像及其他連接文本、圖像及其他開源:開源:Meta的LLaMA系列(普惠學術領域)GPT-4v:GPT-4v:視覺遇見語言(跨模態)GPT-4o:GPT-4o:全模態前沿(交互能力)2017JUN2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020MAY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARG
34、PT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JANDeepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o334 GPT-4可提供多模態能力
35、zero-shot及few-shot的能力 GPT-4邏輯推理能力的飛躍 GPT-4的安全性已經大幅提升 更強的專屬能力(如編程)處理其它語言的能力 處理更長序列的能力GPT-4v(聽、說 看)2023.062023.0635 多模態輸入輸出(交互能力)響應速度(接近人類響應)數學推理、編程等能力提升 非英文文本性能大幅提升 視覺和音頻理解能力 成本優勢GPT-4o(文科博士生)2024.062024.0636 推理能力大幅提升:數學和編程能力爆表 更像人類一樣思考:全新安全訓練方法&更強的“越獄”抵抗力GPT-o1(理科博士生)2024.092024.093737一、語言模型三、ChatGP
36、TOutline四、DeepSeek四、DeepSeek五、新一代智能體二、Transformer38大型語言模型簡史推理模型:推理模型:從生成到推理的重心轉變從生成到推理的重心轉變OpenAI-o1/o3OpenAI-o1/o3:推理能力的一大飛躍DeepSeek-V3/R1DeepSeek-V3/R1:專家模型、強化學習,開源,效率2017JUN2017JUN1958TransformersTransformers2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22019OCT2019OCTT5T52020M
37、AY2020MAYGPT-3GPT-32021SEP2021SEPFLANFLAN2022MAR2022MARGPT-3.5InstrutGPTGPT-3.5InstrutGPT2022NOV2022NOVChatGPTChatGPT2023FEB2023FEBLLaMALLaMA2023MAR2023MARGPT-4GPT-42024MAR2024MARGPT-4oGPT-4o2024APR2024APRLLaMA-3.1405BLLaMA-3.1405B2024DEC2024DECOpenAI-o1DeepSeek-V3OpenAI-o1DeepSeek-V32025JAN2025JAND
38、eepSeek-R1DeepSeek-R1OpenAI-o3OpenAI-o339DeepSeek-V3 Base(671B/37B激活)階段階段1:有監督微調SFT強化學習 GRPO(規則獎勵)+語言一致性獎勵階段2的模型生成推理SFT數據推理數據(60w樣本)冷啟動階段(DeepSeek-R1-Zero生成少量推理數據)DeepSeek-V3SFT數據DeepSeek-V3 Base(671B/37B激活)COT Prompting非推理數據(20w樣本)數據合并(80w樣本)DeepSeek-R1-ZeroSFT(2 epochs)Qwen2.5-14BQwen2.5-32BLlama3
39、.3-70B-InstructLlama3.1-8BDeepSeek-R1-Distill階段階段3:SFT(2 epcohs)階段階段4:全場景強化學習DeepSeek-R1基于規則獎勵的大規模強化學習階段階段2:基于規則獎勵的強化學習模型蒸餾(Distillation)DeepSeek模型并非是顛覆性基礎理論創新(Transformer-based),其對算法、模型和系統等進行的系統級協同工程創新系統級協同工程創新,打破了大語言模型以大算力為核心的預期天花板,為受限資源下探索通用人工智能受限資源下探索通用人工智能開辟了新的道路。DeepSeek 技術全景圖DeepSeek Step 1:D
40、eepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基礎生成模型推理模型初試推理橫型大成R1蒸餾小模型40DS-V3對標GPT-4o(文科博士生):DS-V3對標GPT-4o(文科博士生):混合專家模型:混合專家模型:V3基座模型總共有6710億參數,但是每次token僅激活8個專家、370億參數(5.5%5.5%)。極致的工程優化:多頭潛在注意力機制(極致的工程優化:多頭潛在注意力機制(MLAMLA),使用FP8混合精度,DualPipe算法提升訓練效率,將訓練效率優化到極致
41、,顯存占用為其他模型的5%-13%5%-13%。DeepSeek 技術揭秘動態路由機制和專家共享機制動態路由機制和專家共享機制DeepSeek Step 1:DeepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基礎生成模型推理模型初試推理橫型大成R1蒸餾小模型41DeepSeek 技術揭秘賦予DeepSeek-V3最基礎的推理能力:賦予DeepSeek-V3最基礎的推理能力:R1-Zero使用DeepSeek-V3-Base作為基礎模型,直接使 用 GRPO 進 行 強 化
42、學 習 來 提 升 模 型 的 推 理性能:準確度獎勵(Accuracy rewards)格式獎勵(Format rewards)人工標注獎勵模型獎勵規則SFTRLHFGRPO0 或 1引入人類偏好數據將知識抽象為獎勵規則通過標注將知識顯示化引入人類偏好數據將知識抽象為獎勵規則通過標注將知識顯示化數據驅動數據驅動+知識引導知識引導DeepSeek Step 1:DeepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基礎生成模型推理模型初試推理橫型大成R1蒸餾小模型42DeepS
43、eek 技術揭秘DeepSeek-V3 Base(671B/37B激活)階段階段1:有監督微調SFT強化學習 GRPO(規則獎勵)+語言一致性獎勵階段階段2:模型生成推理SFT數據推理數據(60w樣本)冷啟動階段(DeepSeek-R1-Zero生成少量推理數據)DeepSeek-V3SFT數據DeepSeek-V3 Base(671B/37B激活)COT Prompting非推理數據(20w樣本)數據合并(80w樣本)DeepSeek-R1-ZeroSFT(2 epochs)Qwen2.5-14BQwen2.5-32BLlama3.3-70B-InstructLlama3.1-8BDeepS
44、eek-R1-Distill階段階段3:SFT(2 epcohs)階段階段4:全場景強化學習DeepSeek-R1基于規則獎勵的大規模強化學習階段階段2:基于規則獎勵的強化學習模型蒸餾(Distillation)DS-R1對標OpenAI-o1(理科博士生):DS-R1對標OpenAI-o1(理科博士生):階段階段1:DeepSeek-R1-Zero生成少量推理數據少量推理數據+SFT=為V3植入初步推理能力(冷啟動冷啟動)階段階段2:根據規則獎勵直接進行強化學習(GRPO)訓練=提升推理能力(多輪迭代,獲取大量推理數據大量推理數據)階段階段3:迭代生成推理/非推理樣本微調=增強全場景能力全場
45、景能力階段階段4:全場景強化學習=人類偏好對齊(RLHF)DeepSeek Step 1:DeepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基礎生成模型推理模型初試推理橫型大成R1蒸餾小模型43DeepSeek 技術揭秘DeepSeek-R1-Distill模型:DeepSeek-R1-Distill模型:(1)基于各個低參數量通用模型(千問、Llama等)(2)使用DeepSeek-R1同款數據微調(3)大幅提升低參數量模型性能知識蒸餾:知識蒸餾:老師教學生老師教學生:“
46、解題思路”,不僅給答案(硬標簽),還教“為什么”(軟標簽)模型瘦身模型瘦身:大幅壓縮參數(如671億7億參數),手機也能跑AIDeepSeek Step 1:DeepSeek-V3 Base Step 2:DeepSeek-R1-Zero Step 3:DeepSeek-R1 Step 4:DeepSeek-R1-Distill基礎生成模型推理模型初試推理橫型大成R1蒸餾小模型44大模型應用層大模型應用層垂直應用垂直應用教育醫療法律制造客服服務(智能客服)OA類(WIKI等)數據經營分析運營工具(產品、渠道)GPT Agent(基于Prompt的應用,AutoGPT,AgentGPT等)大模型
47、應用開發框架(Langchain)大模型精調訓練數據管理與生成精調pipeline基礎架構及模型部署GPT4(公有云)LLMA(開源)Stable Diffusion基礎模型應用支持微調插件嵌入大模型中間層基礎模型層大模型中間層基礎模型層通用類通用類DeepSeek 帶來的全棧影響4545一、語言模型三、ChatGPTOutline四、DeepSeek五、新一代智能體五、新一代智能體二、Transformer46技術架構技術架構Transformer(2017)Bert/GPT(2018)01020304050607通用LLM通用LLMChatGPT(2022)LLaMA(2023)Vicun
48、a(2023)大模型開發工具大模型開發工具LangChain(2022)LlamaIndex(2023)垂類LLM垂類LLMCode Llama(2023)MathGLM(2023)LawBench(2023)垂類應用垂類應用LLM VSCode(2023)DB GPT-Hub(2023)基于LLM的Agent基于LLM的AgentHuggingGPT(2023)AutoGPT(2023)JARVIS(2024)Agent開發平臺Agent開發平臺GPTs(2023)Coze(2024)Agent Builder(2024)Agent OS(2024)Kore.ai(2023)Uchat(20
49、24)Deepseek從 LLM 到 Agent47系統1(快速、直覺快速、直覺)和系統2(緩慢、分析緩慢、分析)GPT-4v/4oDeepSeek-V3GPT-o1/o3DeepSeek-R生成大模型系統1系統1到推理大模型系統2系統2SAVING TAX DOLLARS;SAVING LIVES:USING NUDGE THEORY TO ELIMINATE OUTDATED EMERGENCY LOCATOR TRANSMITTERS(ELT)48LLM是Agent的大腦,其核心能力是LLM是Agent的大腦,其核心能力是“邏輯推理”“邏輯推理”系統2系統2Lilian Yung,Dir
50、ector of Applied Research at OpenAIPlanning Skills:對問題進行拆解得到解決路徑,既進行任務規劃Tool Use:評估自己所需的工具,進行工具選擇,并生成調用工具請求Memory:短期記憶包括工具返回值,已完成推理路徑;長期記憶包括可訪問的外部長期存儲等新一代智能體=Agent+LLMLLMsPlanningToolsCodeInterpreter()Calculator()Calendar()Search().moreSubgoal decompositionChain of thoughtsSelf-criticsReflectionActi
51、onLong-term memoryShort-term memoryMemory49時空智能的自主化服務(國自然基金重大課題)時空型GPT記憶規劃工具執行空間規劃土地利用規劃功能區規劃.算法模型淹沒分析流域分析.基礎地理信息知識黃河干流和主要支流最大行洪范圍感知模型多傳感器對地觀測認知模型土地利用分類表達模型耕地保護方案由“由“時空型GPT時空型GPT”作為決策大腦驅動,構成一個閉環多智能體協同系統實現流程”作為決策大腦驅動,構成一個閉環多智能體協同系統實現流程自自組織、任務組織、任務自自執行、內容執行、內容自自生成,即時空智能的生成,即時空智能的自主化構建自主化構建THANKS感 謝 觀 看勤 學 /修 德 /明 辨 /篤 實