《湖南大學:2025我們該如何看待DeepSeek——what, how, why, and next(82頁).pdf》由會員分享,可在線閱讀,更多相關《湖南大學:2025我們該如何看待DeepSeek——what, how, why, and next(82頁).pdf(82頁珍藏版)》請在三個皮匠報告上搜索。
1、我們該如何看待DeepSeekwhat,how,why,and next?陳果湖南大學信息科學與工程學院教授國家超級計算長沙中心常務副主任聲明:1.僅代表個人觀點,不代表任何機構立場;2.面向不具備AI專業知識背景的群體,為保持易懂性簡化了很多技術細節,且不求涵蓋所有方面;3.主要以R1模型視角講解,其他模型在第三大塊有簡要介紹;4.受個人研究領域及認知水平所限,難免有疏漏或偏頗之處,歡迎批評指正。提綱What is it:DeepSeek是什么從ChatGPT到DeepSeek-R1,TA到底厲害在哪里?DeepSeek基本概念(用戶角度)How to use it:我能用DeepSeek干
2、什么以小見大,掌握思維方法正確理解,打開廣闊天地Why it works:DeepSeek背后的原理Transformer大模型基礎DeepSeek模型的發展歷程Next:下一步要關注什么生態的爆發就在眼前,整個鏈條上哪些方面值得關注2提綱What is it:DeepSeek是什么從ChatGPT到DeepSeek-R1,TA到底厲害在哪里?DeepSeek基本概念(用戶角度)How to use it:我能用DeepSeek干什么以小見大,掌握思維方法正確理解,打開廣闊天地Why it works:DeepSeek背后的原理Transformer大模型基礎DeepSeek模型的發展歷程Ne
3、xt:下一步要關注什么生態的爆發就在眼前,整個鏈條上哪些方面值得關注3從ChatGPT開始4故事從ChatGPT說起5ChatGPT的誕生在全球范圍內引爆人工智能(AI)相當數量的人(圈內人、技術潮人為主)開始切身感受到AI帶來的巨大沖擊https:/ GPT用于聊天、對話Generative生成式,模型的輸出方式Pre-trained預訓練,模型的制造方法Transformer模型結構生成式人工智能(AIGC)支撐實現大語言模型(LLM)技術原理ChatGPT真正做的事:文字接龍7https:/speech.ee.ntu.edu.tw/hylee/index.phpChatGPT真正做的事:
4、文字接龍8https:/speech.ee.ntu.edu.tw/hylee/index.php輸出又送回輸入,不斷迭代接龍輸出又送回輸入,不斷迭代接龍ChatGPT真正做的事:文字接龍9https:/speech.ee.ntu.edu.tw/hylee/index.phpChatGPT真正做的事:文字接龍10https:/speech.ee.ntu.edu.tw/hylee/index.php這就是為啥LLM經常出現“幻覺”LLM怎么學習文字接龍?11https:/speech.ee.ntu.edu.tw/hylee/index.php人們開始相信AI會真正變革我們的生活12ChatGPT可
5、以自然對話、精準問答,生成代碼、郵件、論文、小說。寫一篇信創產業的研究報告 用魯迅口吻寫篇“長沙春天”的散文 用C+寫一段爬蟲代碼 翻譯 心理咨詢建議 代碼閱讀理解和DEBUG從ChatGPT到OpenAI O系列13推理大模型開始走入視野:OpenAI o12024年9月12日,OpenAI官方宣布了OpenAI o1推理大模型。OpenAI宣稱OpenAI o1大模型推理(Reasoning)能力相比較當前的大語言模型(GPT-4o)有了大幅提升。由于OpenAI o1模型的訓練使用了一種新的AI訓練方法,強調了“思維鏈”過程和強化學習的重要性,最終導致它在數學邏輯和推理方面有了大幅提升,
6、大家開始稱這里有思考過程的大模型為推理大模型。14什么是推理模型15普通模型和推理模型的對比https:/ R1厲害在哪里此處僅介紹一部分,DeepSeek帶來的更多的意義和啟示在最后一章20DeepSeek R1的意義1.首個展示思維鏈過程的推理模型21DeepSeek R1的意義2.價格“屠夫”網頁聊天免費曾經:o1模型的API價格為每百萬輸入tokens 約為15美元(約合人民幣55元),每百萬輸出tokens 60美元(約合人民幣438元)網頁聊天也需要240美金/年的會員才能用22DeepSeek R1的意義3.首個開源的推理模型!下載模型,可以本地安裝,本地使用!https:/ R
7、1的意義4.純國產!技術創新!訓練和推理高效5.性能領先!24DeepSeek R1的最大意義25DeepSeek R1讓最前沿的大模型技術走入尋常百姓家,所有人(尤其是所有中國人)都能直接體驗。7天用戶破億!這還不包括海量本地部署的用戶量變帶來質變!以前AI是“菁英游戲”,現在AI可以是“人民戰爭”!我國是這個量變(和即將到來的質變)的驅動源、主導者和聚集地!DeepSeek基本概念(用戶角度)更詳細的原理在第三部分介紹26在哪里能用到DeepSeek?27各種網上的服務!官方的、其他企業的還有很多,不一一列舉。本地自己搭一套!https:/ is it:DeepSeek是什么從ChatGP
8、T到DeepSeek-R1,TA到底厲害在哪里?DeepSeek基本概念(用戶角度)How to use it:我能用DeepSeek干什么以小見大,掌握思維方法正確理解,打開廣闊天地Why it works:DeepSeek背后的原理Transformer大模型基礎DeepSeek模型的發展歷程Next:下一步要關注什么生態的爆發就在眼前,整個鏈條上哪些方面值得關注31DeepSeek功能領域一覽 32DeepSeek:從入門到精通,清華大學新聞與傳播學院新媒體研究中心元宇宙文化實驗室以小見大,掌握思維方法從一些案例出發,能干的遠遠比這多。思維方法!思維方法!思維方法!33寫書34案例:給我
9、的編譯原理書稿提供一個案例片段信息梳理35普通搜索,想半天關鍵詞,自己整理各種素材DS-R1+聯網搜索,自動梳理信息,并提供引用可檢查考證案例:整理deepseek出來之前gpt o1的收費情況做對比數據分析36案例:分析某地公務員錄用人員情況如,學歷情況如何?多少是計算機相關專業的?咨詢分析37案例:分析某專家研究特長,給出研究方向建議咨詢寫程序38案例:寫一個抽簽小程序做教輔案例:設計一個針對幼兒園小朋友的科普講稿39正確理解,打開廣闊天地正確理解DeepSeek的不能40DeepSeek(R1或V3)的不能還不是AGI,不能“一步到位”!需要用戶自己具備一定的問題拆解能力、信息整合能力、
10、迭代調優能力41DeepSeek(R1或V3)的不能有很強的能力,但也經常出錯;預載很多知識,但不知道所有的知識!利用其能力,判斷其結果,改進其知識!42“盡信書不如無書”!要有判斷篩選能力,擅用聯網搜索和知識庫!DeepSeek(R1或V3)的不能R1/V3都是語言模型,不能直接處理多模態數據(圖片、視頻等)!學會利用其它工具,一起來完成任務(智能體的思想源于此)4343DeepSeek(R1或V3)的不能模型都有上下文長度限制,不能塞太多東西給他!學會拆分任務,總結規律你一個對話框里的聊天記錄都會塞進模型里去,一次聊天不能聊天多(一般128K tokens是目前通常的最高水平)44日新月異
11、,進展很快(重要新技術以周為單位出現)DeepSeek(R1或V3)的不能不是唯一的大模型,效果也難說一騎絕塵,其本身也不是一成不變!客觀辯證地看待,積極開放地擁抱模型很多,各有所長(長上下文、多模態、邏輯推理、多語言,不同模型賣點不同)452024全球AIGC產業全景圖譜及報告重磅發布-至頂網Deepseek發展歷程概要-知乎對待DeepSeek等最新大模型的正確態度普通軟件工具幫助掌握領域知識和技能的人,擺脫重復低級的腦力勞動幫助掌握領域知識和技能的人,擺脫一部分中級腦力勞動上一代大模型新一代大模型希望達到的目標:幫助大部分的普通人,擺脫一部分中級甚至是高級腦力勞動46對待DeepSeek
12、等最新大模型的正確態度47大模型就像一個小朋友,具備了初級“智能”:懂一點,但不全懂;知識有一點,但也不全有;有時能對,但也經常犯錯發揮你的智慧,利用各種現有工具,引導他、幫助他干活!用的好,可以幫你減輕很大工作量,小朋友的能力能超乎你想象;用的不好,那就是熊孩子以小見大,掌握思維方法;正確理解,打開廣闊天地48重點是掌握使用TA的思維方法案例很多,無法一一列舉知道TA有哪些能力邏輯推理能力、文字生成能力、搜索總結能力、代碼生成能力。更重要的是知道TA有哪些不能!不能“一步到位”、可能經常出錯、不能直接生成文件、上下文不能無限長。充分認識TA的能與不能組合多種工具一起使用!取其所能,博采眾長!
13、會不會用,即將成為現代社會生產效率的分水嶺!會用的人或組織,會遠遠甩開那些不會用的!發揮你的創造力和能動性,趕緊用起來吧!提綱What is it:DeepSeek是什么從ChatGPT到DeepSeek-R1,TA到底厲害在哪里?DeepSeek基本概念(用戶角度)How to use it:我能用DeepSeek干什么以小見大,掌握思維方法正確理解,打開廣闊天地Why it works:DeepSeek背后的原理Transformer大模型基礎DeepSeek模型的發展歷程Next:下一步要關注什么生態的爆發就在眼前,整個鏈條上哪些方面值得關注49Transformer大模型基礎50回憶一
14、下我們在第一部分講的大模型原理51這個框框里是啥?為啥能根據不同的輸入上下文選擇對的輸出token?幾個必須澄清的概念52人工智能(目標)機器學習(手段)神經網絡(更厲害的手段)深度學習(很深的神經網絡)大模型(LLM)ChatGPTDeepSeekTransformer大模型常用的一種神經網絡Transformer是什么53https:/ transformer,是現在主流大模型的基礎輸入:text(可能伴隨一些圖像或聲音等),輸出:預測下一個tokenTransformer整體流程速覽54https:/ wild picreature,foraging in its native _lan
15、d輸入token編碼計算token之間的關系理解每個token自己的含義編碼還原成token并輸出Embedding55https:/ date,the cleverest thinker of all time was.把輸入的token編碼成向量以特定權重矩陣對各token的原始向量相乘,編碼成特定向量To|date|,|the|cle|ve|rest|thinker|of|all|time|was.分詞器embeddingAttention56https:/ Attention,MHA)多個注意力矩陣,各自側重不同方面,一起把上下文含義嵌入token向量MLP(Multilayer Pe
16、rceptron)60https:/ R1/V3671B大到一定規模,開始“涌現”!65https:/speech.ee.ntu.edu.tw/hylee/index.php訓練完發現針對特定領域不得勁怎么辦?66https:/ 公司成立致力于AGI2023年11月:開源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型初期處于跟隨LLaMA的狀態(一點微創新)初露崢嶸:開放基因,嚴謹思維上來就開源嚴謹地研究scaling law,敢于質疑成名結論DeepSeek大模型之路702024年5月:開源 DeepSeek-V2 系列模型重要創新,效果明顯,吸引圈內注意!對T
17、ransformer結構大膽改造勇于嘗試大規模MoE,首創MLA效果提升明顯較前面版本訓練成本減少42%,推理所需緩存空間減少93%DeepSeek大模型之路712024年12月26日:開源 DeepSeek-V3 系列模型基座模型SOTA!保持大膽創新MTP,FP8訓練,繼續增大MoE專家數量。進入TOP梯隊各項指標達到世界第一DeepSeek大模型之路722025年1月20日:開源推理模型 DeepSeek-R1繼續創新,勇于探索OpenAI說不行的路https:/ R1的模型結構74開源了很多蒸餾版本Qwen2.5-Math-1.5B,Qwen2.5-Math-7B,Qwen2.5-14
18、B,Qwen2.5-32B,Llama-3.1-8B,and Llama-3.3-70B-InstructR1/V3 模型結構1個Emedding,3個普通Transformer,59個MoE Transformer671B(6710億參數),每次激活37B提綱What is it:DeepSeek是什么從ChatGPT到DeepSeek-R1,TA到底厲害在哪里?DeepSeek基本概念(用戶角度)How to use it:我能用DeepSeek干什么以小見大,掌握思維方法正確理解,打開廣闊天地Why it works:DeepSeek背后的原理Transformer大模型基礎DeepSe
19、ek模型的發展歷程Next:下一步要關注什么生態的爆發就在眼前,整個鏈條上哪些方面值得關注75為什么我認為生態馬上會有真正的爆發?76梅特卡夫定律系統的價值是系統中節點數量的平方關系DeepSeek使AI飛入尋常百姓家量變引起質變,很可能馬上(甚至已經)出現https:/ R1/V3、Kimi 1.5、Step-Video。模型云服務、API接口匯聚服務、知識庫服務。IT、教育、醫療、交通、城市治理。個人淺見,僅供參考78算力底座模型算法系統軟件行業應用公共平臺國產AI芯片(或稱為GPU)DeepSeek讓不少國產AI芯片公司煥發新生開源:我們都能安裝;高效:我們能力弱一點也能上市場火爆:甲方
20、嘎嘎需要,我們供不應求但是不足還很明顯,值得重點關注的至少有大規模訓練是短板,還是無法撼動NV,非常痛!訓練是創新算法和模型(至少現在還是)的源頭推理效率還比較低,比較痛FP8、顯存等等,現在有一點點殺雞用牛刀的意思高性能互連多機多卡互連協同訓練必須要;大模型推理也得要(比如R1 671B)目前NV一家獨大,國內不知何時能有挑戰者,非常痛!主要是機間RDMA網絡、機內GPU網絡等國內技術研究進入前沿(如我組就做這個),產品還任重道遠個人淺見,僅供參考79算力底座模型算法系統軟件行業應用公共平臺國內狀態還比較樂觀普遍有開源軟件PyTorch、vLLM、K8S。國內實力還不錯,人才梯隊也有很多企業
21、都有參與開源或自己研制訓練框架、推理引擎等技術更新非???!對中小企業等本地部署的玩家提出高要求目前主流推理引擎的更新發版速度以天記不求研發進去,至少要能看得懂、跟得上、用得會要大力培養這方面的人才DeepSeek的成功很大程度得益于這部分人我省現有這方面的高端人才,想辦法聚合 如HNU DeepSeek服務技術支撐小組個人淺見,僅供參考80算力底座模型算法系統軟件行業應用公共平臺現狀比較樂觀DeepSeek等已經證明,我們已處于第一梯隊憂患未曾遠離NV的禁令,短期對模型算法的創新還是影響較大福禍相依:DeepSeek為了規避硬件限制,降本增效,逼出了各種創新MLA、NSA、MoE。下一步注重啥
22、開放很重要!模型開放、算法開放、訓練數據開放、推理部署開放用陽謀對抗陰謀,用全中國全世界的智慧一起創新個人淺見,僅供參考81算力底座模型算法系統軟件行業應用公共平臺目前處于比較混戰的階段技術含量相對下面三層較底,也沒有絕對統一的標準、規范、形式極大量的需求,都需要通過這一層接入下一步這里可能成為創業的集中賽道我看好知識庫服務平臺(點到為止,多的不能再說了)行業需求千變萬化,歸總形式主要是這個這塊有一定的技術門檻和資源門檻對用戶體驗影響極大個人淺見,僅供參考82算力底座模型算法系統軟件行業應用公共平臺目前形勢一片大好,但扎實落地是要務具備專業技能的人,目前已感受到LLM的巨大幫助如何能讓更多普通人也感受到?功能邊界、用戶體驗、智能體、具身智能。實現我們下面的目標,得靠這一塊!謝謝!陳果 郵箱:個人主頁:https:/