《賽迪研究院:2025年deepseek大模型生態報告(150頁).pdf》由會員分享,可在線閱讀,更多相關《賽迪研究院:2025年deepseek大模型生態報告(150頁).pdf(150頁珍藏版)》請在三個皮匠報告上搜索。
1、 I deepseek 大模型生態報告 賽迪研究院電子信息研究所賽迪研究院電子信息研究所 2025 年年 2 月月 I 目 錄 一、DeepSeek 大模型背景.1(一)深度求索公司情況.1(二)模型迭代歷程.2(三)研發團隊情況.3 1.北京大學羅福莉.4 2.北京大學高華佐.4 3.北京郵電大學曾旺丁.5 4.北京大學朱琪豪.5 5.北京大學代達勱.6 6.北京大學王炳宣.6 7.浙江大學梁文鋒.7 二、DeepSeek 大模型應用現狀.8(一)國內情況.8(二)全球情況.10 三、DeepSeek 大模型技術特點.11(一)技術創新.11 1.壓縮:從結構到量化.11(1)多層注意力 M
2、LA.12(2)FP8 混合精度訓練框架.13 2.并行:對硬件的極限使用.16(1)DualPipe 跨節點通信.16(2)無輔助損失的負載均衡策略.18(3)底層通信優化.20 3.總結.20(二)訓練成本.21 四、DeepSeek 大模型產業生態.22(一)企業.22 II 1.DeepSeek 系列新模型正式上線昇騰社區,華為小藝已接入 DeepSeek.22 2.三大運營商全面接入 DeepSeek.23 3.多家公司宣布接入 DeepSeek.23 4.微軟、英偉達、亞馬遜全部接入 DeepSeek!.25 5.燧原科技實現全國各地智算中心 DeepSeek的全量推理服務部署.2
3、6 6.多家券商也積極“擁抱”DeepSeek.26(二)生態.27 1.Deepseek 應用 27 日登頂蘋果中國地區和美國地區應用商店免費 APP 下載排行榜.27 2.DeepSeek 在開源社區 GitHub 上的 Star 數首次超越 OpenAI.28 3.國家超算互聯網正式上線 DeepSeek.29 4.傳 DeepSeek 正準備適配中國國產 GPU.29 5.DeepSeek 的風,火速吹遍了終端企業.30(三)應用.32 1.文學.32 2.編程.32(四)基礎設施.35 五、DeepSeek 大模型產業影響.35(一)對人工智能技術的影響.35 1.吳恩達談 Deep
4、Seek:中國 AI 迎頭趕上,擴大算力并不是 AI 進步的唯一途徑.35 2.蒸餾技術將成為行業突破口.36(二)對產業生態的影響.37 1.DeepSeek 開源對于企業戰略價值.37 2.DeepSeek 是否真的繞開了 CUDA?.39 3.DeepSeek 會導致對智算中心的需求大幅減少嗎?.39 III(三)對國際競爭的影響.46 1.DeepSeek 的崛起,沖擊了全球科技供應鏈的核心玩家.46 2.AI 低成本化,最大輸家可能不是 Nvidia,而是依賴大模型收費的 AI 公司.46 3.AI 進入創業黃金時代.47 4.DeepSeek 的崛起引發了全球資本市場的劇烈震蕩.4
5、7 六、國內相關表態.48(一)國家層面.48 1.中國常駐聯合國代表傅聰回答記者提問.48 2.外交部發言人郭嘉昆主持例行記者會.49(二)地方層面.49 1.廣東.49 2.鄭州.49 3.北京經濟技術開發區.49 七、各國相關表態.50(一)美國.50 1.龍頭企業單位.50(1)英偉達.50(2)OpenAI.51(3)谷歌.52(4)蘋果.52(5)微軟.52 2.美國聯邦政府.52(1)美議員推動立法促中美 AI 全面脫鉤.53(2)美國海軍禁止官兵使用 DeepSeek 大模型.53 3.美國地方政府.54(1)得克薩斯州宣布禁止政府設備使用DeepSeek.54 IV(二)英國
6、及歐洲.54 1.龍頭企業單位.54(1)英國阿蘭圖靈研究所.54(2)德國墨卡托中國研究中心.54(3)英國利茲大學.55(4)荷蘭阿斯麥.55 2.政府及公共機構.55(1)意大利.55(2)愛爾蘭.55(3)法國.55(三)韓國.56 1.龍頭企業單位.56(1)韓國.56(2)LG.56(3)三星.56 2.政府及公共機構.56(1)韓國代理總統崔相穆將 DeepSeek 稱之為“新的沖擊”.57(2)韓國祥明大學.57(四)其他國家.57 1.政府及公共機構.57(1)澳大利亞.58(2)日本.58(3)印度.58 八、DeepSeek 大模型的經驗啟示.58(一)技術.58 1.中
7、科院為何難現 DeepSeek 式突破.58(1)制度基因的先天性分野.58(2)創新效率的量子級差距.60(3)體制突圍的艱難探索.62(4)破局之道:構建科技創新共同體.63(5)超越二元對立的創新哲學.64 V 2.王凡、劉少山:中國如何引領全球具身智能?DeepSeek 的戰略啟示AI 觀察.64(1)DeepSeek 的突破對具身智能的啟示.65(2)DeepSeek:推動中國 AGI 領域自主創新.66(3)具身智能:人工智能從虛擬世界走向物理世界.67(4)上下文強化學習:具身智能的發展方向.68(5)具身智能的應用前景與行業變革.70(6)政策建議:開源發展、標準化和產業化落地
8、.71(7)結論:把握技術機遇,領導未來的全球 AI 競爭.72(8)本文作者.72 3.專家觀點|魯傳穎:人工智能重塑國家安全的范式和邏輯.72(1)人工智能賦能國家安全.73(2)人工智能技術安全對國家安全的深層次影響.77(3)人工智能時代的國家安全治理體系.82 4.巴黎 AI 峰會,李飛飛教授開幕演講:當前才是“首個真正的 AI 時代”.86(1)人工智能的歷史與起源.87(2)現代 AI 三大關鍵要素.88(3)2012 年之后的 AI 突破.91(4)大模型與近期 AI 進展.92(5)空間與具身智能的興起.94(6)以人為本的 AI 與三大核心價值.94(7)AI 治理:理性、
9、務實與多方協作 96 VI 5.人工智能驅動信息技術體系重構與再造兼評中國至 2050 年信息科技發展路線圖.98(1)路線圖和三元融合的重要預判與近 15 年發展的比較.99(2)未來 10 年信息技術體系重構與再造的創新機遇與挑戰.106(3)發展對策.121(二)企業.123 1.DeepSeek 的創新三重門.123(1)小天才們的勝利.123(2)華為式的軍團平推.125(3)原創(哲學性)思想.129(4)DeepSeek 跨越第三重門了嗎?.130 2.DeepSeek 顛覆了什么?大模型“國產之光”破局的啟示.131(1)擊穿三大定式.132(2)實現三大躍升.134(3)超越
10、技術的啟示.136(三)地方.138 1.為什么 DeepSeek 沒有出現在浦東張江.138 1 一、DeepSeek 大模型背景(一)(一)深度求索公司情況深度求索公司情況 DeepSeek,全稱“杭州深度求索人工智能基礎技術研究有限公司”,簡稱“深度求索”,于 2023 年 7 月 17 日由幻方量化創立,位于杭州市拱墅區,是一家創新型科技公司,專注于開發先進的大語言模型(LLM)和相關技術,法定代表人、執行董事兼總經理為裴湉。2024 年 1 月 5 日,該公司發布第一個大模型 DeepSeek LLM。之后,相繼發布 DeepSeek-Coder、DeepSeek-VL、DeepSe
11、ek V2、DeepSeek V3 等模型。其中,DeepSeek V2 模型因在中文綜合能力評測中的出色表現,且以極低的推理成本引發行業關注,被稱為“AI 界的拼多多”。2025 年 1 月 20日,該公司正式發布 DeepSeek-R1 模型,并同步開源模型權重。DeepSeek-R1 性能逼近 OpenAI o1 正式版,推理成本卻僅為 OpenAI o1 的幾十分之一。1 月 27 日,DeepSeek 應用登頂蘋果美國地區應用商店免費 App 下載排行榜,在美區下載榜上超越了 ChatGPT。同日,蘋果中國區應用商店免費榜顯示,DeepSeek 成為中國區第一。1 月 28 日,De
12、epSeek 發布開源多模態模型 Janus-Pro,其中 70 億參數版本的 Janus-Pro-7B 模型在使用文本提示的圖像生成排行榜中優于OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion。2 2025 年 2 月 8 日,QuestMobile 數據顯示,DeepSeek 在1 月 28 日的日活躍用戶數首次超越豆包,隨后在 2 月 1 日突破 3000 萬大關,成為截至 2025 年 2 月史上最快達成這一里程碑的應用。(二)(二)模型迭代模型迭代歷程歷程 中國初創企業深度求索(DeepSeek)研發大語言模型時據報繞過了美國人工
13、智能巨頭英偉達的 CUDA 框架,為DeepSeek 在未來適配中國國產晶片做好準備。DeepSeek 通過優化算法架構,顯著提升了算力利用效率,打破了算力至上的傳統認知。DeepSeek-R1 的驚艷之處是通過重新設計訓練流程、以少量 SFT 數據+多輪強化學習的辦法,在提高了模型準確性的同時,也顯著降低了內存占用和計算開銷。DeepSeek-R1 的效果示意:更少的 GPU(或其他AI 芯片)帶來同樣的效果高 DeepSeek-R1 提供了一種低成本訓練的方法,而不是說只能通過低成本來進行訓練。DeepSeek-R1 反而通過優化,DeepSeek-R1 可能實現了算力與性能的近似線性關系
14、。每增加一張 GPU,模型推理能力可 穩定提升,無需依賴復雜的外部監督機制。這一特性直接驗證了“算力即性能”的 Scaling Law,為 AI 芯片市場及 AI Infra市場提供了明確的增量需求邏輯。DS 不僅在推理模型上實現了突破,在多模態方面也保持了進步,并于近日開源發布了 Janus-Pro 多模態模型?;?3 算法工程方面的優化,DS 能夠實現性價比更高的模型推理能力(價格低、效率高、性能強、可部署在端側平臺),并有望以強大的推理能力和多模態感知能力,重塑機器人交互與決策,同時通過低成本、高效率的解決方案,加速具身智能的普及與應用。(三)研發團隊情況(三)研發團隊情況 DeepS
15、eek 團隊最大的特點之一就是年輕。團隊成員中,應屆生和在讀生占據了相當大的比例,他們活躍在公司的各個項目和研究領域中。這些年輕人思維敏捷、充滿活力,對新技術和新方法有著敏銳的洞察力和強烈的探索欲望,為DeepSeek 的發展注入了源源不斷的動力和創新活力。在DeepSeek 團隊中,來自清華大學和北京大學的應屆生尤為突出。他們不僅在學術上有著扎實的功底和豐富的研究成果,而且在實際工作中也展現出了卓越的能力和潛力。許多關鍵的技術創新和項目成果,都離不開這些清北應屆生的貢獻。他們將所學知識與實際問題相結合,不斷突破技術瓶頸,推動 DeepSeek 在 AI 領域的持續進步。有些團隊成員從Deep
16、SeekLLMv1 開始就加入了公司,并一直參與到了DeepSeek-v3 的開發和研究中。他們見證了 DeepSeek 大模型從無到有、從弱到強的全過程,積累了豐富的經驗和深刻的理解。這些全程參與的成員,對 DeepSeek 的技術發展和產品 4 迭代起到了至關重要的作用,他們的經驗和見解為公司未來的發展提供了寶貴的參考和指導。1.北京大學羅福莉北京大學羅福莉 羅福莉,女,95 后,出生于四川,本科就讀于北京師范大學計算機專業,碩士畢業于北京大學計算語言學研究所計算語言學專業。羅福莉 2019 年曾在國際頂級會議 ACL 上發表 8 篇論文,其中 2 篇為第一作者。羅福莉的職業生涯始于阿里巴
17、巴達摩院,羅福莉主導開發了多語言預訓練模型VECO,并推動了 AliceMind 的開源工作。2022 年,羅福莉轉戰 DeepSeek,參與了 MoE 大模型 DeepSeek-V2 的研發。2024 年 12 月,網傳羅福莉被小米創始人雷軍以千萬年薪招募,擔任小米 AI 實驗室的大模型團隊負責人。12 月 31 日,羅福莉的高中班主任告訴紅星新聞記者,羅福莉還沒決定去小米,還在考慮。2.北京大學高華佐北京大學高華佐 高華佐是 MLA 架構的關鍵創新者之一,他非常低調,目前只知道是北大物理系畢業。在 DeepSeek 團隊中,高華佐憑借其扎實的物理基礎和對 AI 技術的深刻理解,為 MLA
18、架構的提出和發展做出了重要貢獻。他的創新思維和嚴謹態度,為 DeepSeek 的技術進步提供了有力的支持。另外,在“大模型創業六小強”之一階躍星辰的專利信息中也可以看到高華 5 佐的名字,雖然暫不確定是否是同一人,但這也從一個側面反映出他在 AI 領域的影響力和活躍度。3.北京郵電大學曾旺丁北京郵電大學曾旺丁 曾旺丁來自北郵,研究生導師是北郵人工智能與網絡搜索教研中心主任張洪剛。在 DeepSeek 團隊中,曾旺丁主導了GRPO 算法的研究和開發工作。他深入分析了強化學習中的關鍵問題和難點,提出了 GRPO 這一創新的算法,為DeepSeek-Math 項目和整個強化學習領域的發展做出了突出貢
19、獻。曾旺丁的研究成果不僅在學術界得到了認可,也在實際應用中展現出了強大的潛力和價值。4.清華大學邵智宏 邵智宏是清華交互式人工智能(CoAI)課題組的博士生,師從黃民烈教授。他的研究領域包括自然語言處理、深度學習等,特別對如何構建一個穩健且可擴展的 AI 系統感興趣。在 DeepSeek 團隊中,邵智宏參與了 DeepSeekMath、DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1 等多個項目,為公司在自然語言處理和 AI 系統構建方面的發展做出了重要貢獻。他之前還曾在微軟研究院工作過,積累了豐富的研究和實踐經驗。4.北京大學朱琪豪北京大學朱琪豪 在
20、北京大學攻讀博士期間,朱琪豪校友師從熊英飛副教授和張路教授,研究方向為深度代碼學習技術,致力于探索 6 程序語言定義與深度學習技術的深度融合。他的科研成果在ICSE、IJCAI、AAAI、ESEC/FSE、ASE 等國際頂級會議上頻頻亮相,共發表 CCF-A 類論文 16 篇。憑借基于語法制導的程序修復技術,他榮獲 ESEC/FSE 2021 杰出論文提名獎,并多次斬獲 ACM SIGSOFT 杰出論文獎。在博士階段,朱琪豪校友不僅在學術上收獲頗豐,還將研究成果成功應用于產業。他主導開發了國產開源代碼大模型 DeepSeek-Coder-V1,達到國際領先水平,相關技術廣泛應用于反編譯、代碼分
21、析、代碼修復等領域,受到全球學者和企業的高度關注。由此開發的修復工具 Recoder 在深度學習修復研究中首次超越傳統方法,推動整個行業邁向深度學習的新時代。朱琪豪校友以其卓越表現,連續獲得字節跳動獎學金、北京大學校長獎學金、國家獎學金及北京大學三好學生標兵等重量級榮譽。他的博士論文語言定義感知的深度代碼學習技術及應用更是入選 2024 年 CCF 軟件工程專業委員會博士學位論文激勵計劃,成為該領域具有里程碑意義的研究成果。5.北京大學代達勱北京大學代達勱 除了 DeepSeek-V2 MLA 和 DeepSeekMath GRPO 這兩項關鍵成果,值得一提的是,還有一些成員從 v1 就加入其
22、中,一直到 v3。代表人物之一是代達勱,2024 年博士畢業于北京大學計算機學院計算語言所,導師是穗志方教授。6.北京大學王炳宣北京大學王炳宣 7 北大元培學院的王炳宣,來自山東煙臺,2017 年進入北大。碩士畢業后加入 DeepSeek,參與了從 DeepSeek LLM v1開始的一系列重要工作。7.浙江大學梁文鋒浙江大學梁文鋒 梁文鋒,1985 年出生于廣東湛江吳川,父母都是小學語文老師,這也使得他從小就成績優異?!罢拷l布”提及他一段成長往事:梁文鋒性格很文靜,但不是書呆子,在學習上很有自己的“一套方法”,初中時就學完了高中數學,甚至開始學大學數學。2002 年,梁文鋒以吳川一中“高考
23、狀元”的成績考上浙江大學,本科就讀電子信息工程專業,之后又繼續攻讀浙江大學信息與通信工程專業研究生。大學期間,梁文鋒就與同學一起開始積累市場行情數據和探索全自動量化交易。2015年,梁文鋒碩士畢業后和幾位浙大同學共同創立了量化對沖基金公司幻方量化,并于當年拿到第一張私募牌照,幾年時間管理規模迅速超百億。有意思的是,2016 年幻方量化便首次上線 AI 策略,并在之后實現投資策略全面 AI 化,同時也是國內唯一公開宣稱擁有萬張英偉達 A100 顯卡的企業。大學時期梁文鋒便堅信“AI 一定會改變世界”,這些都為后來投身 AI 埋下伏筆。轉折點是 2023 年,全球 AI 大模型風起云涌,國內大佬紛
24、紛宣布 AI 創業,梁文鋒也是其中一員。那年 4 月,梁文鋒宣布正式進軍通用人工智能領域,“追尋一直 8 以來的技術理想,超越投資去直面更大的課題”。很快,DeepSeek 在杭州應運而生同年 11 月,DeepSeek 發布了開源的代碼大模型。二、DeepSeek 大模型應用現狀(一)國內情況(一)國內情況 隨著 DeepSeek 的爆火,國產大模型云服務平臺SiliconCloud(硅基流動)開始被大家關注。2 月 1 日,硅基流動和華為云宣布聯合發并上線基于華為云昇騰云服務的 DeepSeekR1/V3 推理服務?;谧匝型评砑铀僖婕映?,硅基流動和華為云昇騰云服務支持部署的DeepSe
25、ek 模型可獲得持平全球端 GPU 部署模型的效果。DeepSeek 對中國最大的啟示,還是“開放”二字。無論是心態上還是方法上,都要毫不動搖地堅持開放,繼續開放。DeepSeek 的勝利,就是開源打敗閉源。OpenAI 以前是開源的,后來變成閉源的,這次 DeepSeek 爆火之后,OpenAI 的奧特曼也出來說話,承認閉源是一種戰略錯誤。開源不僅可以用我們舉國的力量,還可以用全世界的力量。世界的科學共同體要聯合起來,遏制資本、遏制某些政客的力量,促進人類的技術進步。中國過去很多技術成果和產業成功都是在開放條件下取得的,今后也必須如此。長三角、珠三角還有很多有潛力成為獨角獸的企業,很多人沒有
26、資源,但是有技術,需要來自國家的資源。所以,科技要取 9 得長足進步,金融改革也要跟上。我們不要虛擬金融、泡沫金融,要遏制投機性的,但對新技術的投資,對真正創新的風投,我們一定要做好。在吳恩達看來,本周圍繞 DeepSeek 的熱議,讓許多人清晰地看到了幾個一直存在的重要趨勢:美國在 GenAI 領域的領先地位正在被中國迎頭趕上,AI 供應鏈格局將被重塑;開放權重模型正在推動基礎模型層商品化,為應用開發者帶來新機遇;擴大規模并非通往 AI 進步的唯一途徑。盡管算力備受追捧,但算法創新正在快速降低訓練成本。成立至今,DeepSeek 并未開放過外部融資,因此也并未引起創投圈的過多關注。直至 20
27、24 年 5 月,DeepSeek 發布DeepSeek-V2 開源 MoE 模型,因極度降低推理成本,意外掀起一場大模型“價格戰”,開始出圈。隱秘低調,卻聚集了一群 AI 天才。據悉,DeepSeek 包括創始人梁文鋒在內,僅有130 多名工程師和研究人員。不同于其他明星創業公司,DeepSeek 鮮有海歸,團隊成員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖高校,不少還是在讀博士。去年底,雷軍開出千萬年薪挖角 DeepSeek 研究員羅福莉。這一次,DeepSeek 正式浮出水面。上個月,梁文鋒和團隊開發的大模型 DeepSeek-V3 正式發布。起初在 AI 發燒友圈內
28、流傳,由于表現出色,一時轟動硅谷。2025 年 1 月 20日,DeepSeek 正式發布 DeepSeek R1,開始席卷全球。10(二)全球情況(二)全球情況 到今年 1 月 27 日,其最新發布的 R1 模型就已登頂蘋果美國地區應用商店免費 APP 下載排行榜,超越了美國同類產品 ChatGPT。DeepSeek 的成就至少讓美國三種人感到尷尬。一是硅谷的技術精英們,他們耗費巨資拿出的產品,其性能和中國公司用“小米加步槍”的裝備做出來的差不多,甚至創新性上還棋差一招。另一類人則是華爾街的金融大佬們,近些年他們通過炒作人工智能概念,把資產泡沫吹得五彩斑斕,但就在DeepSeek 下載量超越
29、 ChatGPT 之時,美國科技股遭受重創,英偉達股價一度重挫 17%。當然,最“憤怒”的還是美國的政客們,他們搞技術圍堵已經好幾年了,但中國的高科技產品一項接一項推出。圍堵不但沒能壓制中國智造,反而加速了中國科技的突破,這昭示所謂的圍堵其實已經破產。當 DeepSeek 登頂下載排行榜第二天,就遭遇了來自美國 IP 地址的持續網絡攻擊,并且在隨后幾天,攻擊量暴增百倍。而一些西方政客以各種理由將 DeepSeek 列入“實體清單”,或要求封鎖該軟件。同時他們還利用輿論,聲稱 DeepSeek“蒸餾”了美國技術。DeepSeek 以更低的算力要求和更低的成本,達到了與美國頂級 AI 大模型相當的
30、效果,展現出了強大的技術競爭力。11 它的出現,不僅打破了原有的市場格局,更是被認為對美國對美國在在 AI 領域的領導地位構成了實實在在的威脅。領域的領導地位構成了實實在在的威脅?!癉eepSeek 可能會開辟一個全新的由中國引領的技術生態系統,這會讓全球的開發者因 DeepSeek 開發的低成本、更高效的人工智能產品而受益?!币晃?TMT 領域投資人如是說,“這種競爭從某種程度來說也將打破美國科技巨頭的市場主導地位?!比?、DeepSeek 大模型技術特點(一)技術創新(一)技術創新 大模型訓練降低成本主要靠兩招:壓縮、并行和提升硬件使用效率。DeepSeek-V3 這次所用的方法基本上就是猛
31、揮這三板斧。1.壓縮:從結構到量化壓縮:從結構到量化 壓縮很容易理解,就是把大的東西壓縮成小的。對于模型訓練來講,壓縮之后,運算單元(GPU 和 CPU)需要進行的運算數據量就會減少,運算速率必然會提升。另一個重要影響是,內存占用和緩存會減少,這樣訓練同樣大小的模型所需要的硬件規模也可以大幅減少。而在訓練模型的過程中,內存占比最高的就是向量數據。DeepSeek-V3 這次一次用了兩種方法去壓縮向量數據,一是 MLA 多層注意力架構,另一個就是 FP8 混合精度訓練。12(1)多層注意力 MLA 多層注意力(Multi-Layer Attention,MLA)架構設計的核心在于在 Transf
32、ormer 架構中引入動態層聚合機制。傳統Transformer 中每一層都需要完整的計算和存儲,其中的 Key和 Value 矩陣往往占用大量內存空間。而 MLA 通過動態合并相鄰層的特征來減少計算量。MLA 通過壓縮和復用前序層的 K、V 來減少內存占用和計算量。具體來說,將連續幾層的 K、V 進行合并壓縮成一組共享表示。打個比方,如果把注意力機制比作圖書檢索系統,傳統方法相當于為每本書都建立完整的索引卡片(Key)13 和內容摘要(Value),而 DeepSeek 的方法則像是建立了一個智能的分類系統,不記具體信息,而是記一個簡單的標簽(壓縮的 Key/Value),需要時再從標簽還原
33、出詳細信息。就像把計算機技術,三樓右側第二排簡化成C2-3這樣的編碼。在這個過程中,DeepSeek 使用了低秩壓縮技術(可以理解為將高維矩陣壓縮為若干個低維矩陣的乘積),將 KV 壓縮到512 維度,遠小于原始維度。通過 Key/Value 的低秩壓縮使得的訓練內存占用減少了 20-30%。在 Query 端的優化對訓練效率也非常有意義。Query 可以理解為用戶的檢索請求,傳統方法會為每個請求都分配大量計算資源。DeepSeek 通過對Query 的低秩壓縮,減少了計算過程中的激活內存占用。雖然這種優化對推理階段的影響相對較小,但在訓練過程中發揮了重要作用,顯著提升了訓練效率。這就像是優化
34、了圖書檢索系統的查詢處理機制,使得系統能夠更快速地處理大量并發的檢索請求。而 DeepSeek-V3 巧妙的找到了一些平衡,讓這些壓縮技術幾乎沒有影響模型的性能。(2)FP8 混合精度訓練框架 MLA 方法是從 DeepSeekV2 開始就采用的方法,本次只是進行了優化調整。而在 DeepSeek-V3 里引入了一種 FP8 混合精度訓練框架,并首次在超大規模模型上驗證了其有效性。FP8 就是用 8 個二進制位來表示數字的格式,相比傳統的 32位(FP32)和 16 位(FP16)格式,精度低了很多,但是占用 14 空間小,計算快。就像用約 350 人代替準確的 358 人,犧牲一些精度來換取
35、效率。雖然不夠精確,但在很多場景下已經夠用了,而且能大大提升運算速度和節省內存。DeepSeek 在采用 FP8 格式時,采用了混合精度的方案。在訓練時,它的大部分核心計算內核均采用 FP8 精度實現。包括前向傳播、激活反向傳播和權重反向傳播都用了 FP8 作為輸入,并輸出 BF16 或 FP32 格式的結果。這一設計理論上使計算速度相較于原始的 BF16 方法提升了一倍。此外,DeepSeek 中的向量激活值以 FP8 格式存儲,供反向傳播使用,從而顯著降低了內存消耗。針對某些對低精度計算敏感算子和一些低成本算子,比如嵌入模塊、輸出頭、MoE 門控模塊、歸一化算子以及注意力算子保留了 FP1
36、6 乃至 FP32 的精度。這樣能保證數據的精確性。同時為了保證數值穩定性,DeepSeek 還將主權重、權重梯度和優化器狀態以更高精度存儲。就像一個精打細算的 15 主廚:日常備菜用普通的廚具就夠了,但到了關鍵的烹飪步驟,就會換上最好的刀具。在模型訓練中,大部分的前向運算都使用 FP8 來處理,這樣可以大大節省顯存和計算資源,讓整個訓練過程跑得更快。但他們也很清楚哪些地方不能?。罕热缱詈蟮恼{味、擺盤(對應嵌入模塊、輸出頭等),就一定要用精密的工具(FP16或 FP32 精度)。過去使用 FP8 模式的時候,最大的困難出現誤差累計。就像普通計算器(Tensor Cores 的 FP8)只能顯示
37、到小數點后兩位,而科學計算器(CUDA 核心的 FP32)能顯示到小數點后六位。當你需要加很多個小數時,用普通計算器會逐漸累積誤差,最后結果可能差異很大。DeepSeek 發現了一個巧妙的解決方案:不等到最后再算總和,而是每加 128 個數就把當前結果轉移到科學計算器上繼續計算。為了讓這個過程不影響速度,他們利用了 16 H800GPU 的特點:就像有兩個收銀員,當一個在結算購物籃的時候,另一個可以繼續掃描新商品。這樣在提高精度的同時,基本不影響處理速度。這一策略使得模型訓練速度大幅提升,畢竟核心計算能提升 100%的速度,而顯存使用減少也非常明顯。并且模型最終的效果精度損失能做到小于 0.2
38、5%,幾乎無損。2.并行:對硬件的極限使用并行:對硬件的極限使用 要實現更快的訓練速度,最有效的方法就是增加并行計算的規模,讓更多的計算單元同時處理不同的數據或任務。而在并行中,需要解決的問題就是盡可能的有效利用計算資源,讓它們都高負載的工作。在系統架構層面,DeepSeek 就使用了專家并行訓練技術,通過將不同的專家模塊分配到不同的計算設備上同時進行訓練,提升了訓練過程中的計算效率。但這種簡單的并行還遠不夠。DeepSeek 這次對算力做的是極限壓榨:如果把訓練過程當成一個工廠的話,他們主要做的就是不讓流水線上沒有閑人,再加上盡可能優化工序,讓工件(數據)進入流水線時直接就可以被操作(計算)
39、。(1)DualPipe 跨節點通信 優化流水線流程的主要模式是 DeepSeek 創新的DualPipe 方法。在計算和通信重疊方面,DualPipe 采用了類似于多任務并行處理的思路。17 就像現代計算機能夠在下載文件的同時處理文檔一樣,DualPipe 讓模型在進行計算的同時,后臺已經開始準備下一步需要的數據傳輸。這種設計確保了通信開銷被很大程度地隱藏在計算過程中,極大提升了整體效率。傳統的訓練信息流水線并行就像一條產品裝配線,每個工位按順序處理任務。當數據包從一個階段傳遞到下一個階段時,往往會產生等待時間,這就是所謂的流水線氣泡。這些氣泡會導致計算資源的浪費,就像流水線上的工人不得不等
40、待上游工序完成才能開始工作。此外,不同節點之間的數據傳輸時間也會成為性能瓶頸,就像工位之間傳遞零件的時間過長會影響整體生產效率。而 DualPipe 引入了雙重流水線的概念,就像在同一條生產線上同時處理兩批產品。當一個計算階段在等待數據傳輸時,可以立即切換到處理另一批數據,這樣就能充分利用原本的空閑時間。這是讓流水線上沒有“閑人”。除此之外,還要盡量壓縮取件到操作的過程。因為 DeepSeek 對流水線的特殊設計,使得通信和計算的過程可以重疊。當一個節點在進行當前批次 18 數據的計算時,系統已經開始準備下一批次需要的專家參數傳輸。當前向計算完成時,下一步需要的數據已經就位,幾乎不會產生等待時
41、間。大部分數據傳輸時間被隱藏在了計算過程中,就像在無縫銜接的裝配線上,零件的運送時間對整體生產效率幾乎沒有影響。DualPipe 正是通過精確控制這種重疊過程,實現了在大規模分布式訓練中接近零通信開銷的理想狀態。根據 DeepSeek 的技術報告,DualPipe 算法減少了 50%的計算氣泡,有效隱藏了通信開銷??绻濣c通信優化則提升了帶寬利用率,減少了 20%的通信開銷。這就基本相對傳統方式提高了一倍的算力使用效能。(2)無輔助損失的負載均衡策略 無輔助損失的負載均衡策略是 DeepSeekV3 一個讓訓練過程中工人各展所能的調整。負載均衡策略在 V2 時代已經被引入,但在這一代更進一步。在
42、專家混合系統(MoE)中,負載均衡一直是個關鍵挑戰。因為 MoE 有很多專家模型,怎么能讓該上的專家不閑著,沒人無事可做對訓練和模型效率都很關鍵。19 傳統方法通常需要引入額外的輔助損失項來平衡專家的使用,就像在工廠中人為設置配額來確保各條生產線的負載均衡。這種方法不僅增加了訓練的復雜性,還可能影響模型的本地優化目標。DeepSeek 的創新在于實現了無輔助損失的自然均衡。系統會根據專家的歷史利用率動態調整其接收容量。當某個專家持續過載時,系統會自動降低其接收新任務的概率;反之,對于利用率低的專家,系統會提高其接收任務的機會。既考慮專業匹配度,也考慮當前的工作負荷。這種自適應機制確保了長期來看
43、的負載平衡。這更像是市場經濟,而非計劃經濟。這個改進讓訓練過程更穩定,大家都有機會訓練,也提高了訓練效率。20(3)底層通信優化 對于模型訓練來講,底層通訊也是個大問題,很多時候硬件間通訊不暢就會使得訓練產線出現局部停工,無活兒可干的事兒。DeepSeek 在這方面也做了相當的優化,專門開發了高效的跨節點全對全通信內核。這就像是在高速公路系統中建立了更智能的紅綠燈調度系統,能夠充分利用 InfiniBand 和NVLink 這些高速通道的帶寬。這些優化確保了數據在不同計算節點之間的傳輸始終保持在最高效率。3.總結總結 以上這些還不是 DeepSeek 在訓練上采用的所有提效手段,只是相對大膽創
44、新的部分。目前其他訓練在架構中常用的移除 LayerNorm 中的 bias 項、在 FFN 后引入 scale 因子、采用 RoPE 相對位置編碼等方式,DeepSeek-V3 也都有所采用。而在訓練策略上,DeepSeek 還采用了 ALiBi 位置編碼預訓練、Flash Attention 2 實現、序列長度動態擴展等已有先進技術。DeepSeek-V3 這回真的可以說是在訓練工程上無所不用其極??偨Y下來,最重要的包括以下這么幾個方面。21 不管是 MLA、FP8 和 Daulpipe 算法,都是非常大膽的使用當下降低訓練成本的前沿技術。這些基礎技術方向都已經是主流認知的可能性,但 De
45、epSeek 做到了經過精心調教優化設計,使其可用,且發揮最大的能力。既然 GPU 少,那就卷工程,DeepSeek 這回確實是用東亞魔法打破西方壟斷。(二)(二)訓練訓練成本成本 DeepSeek-V3 的橫空出世,用一組的數據完美詮釋了沒有 GPU Poor,只有卷得不夠多。當 o1、Claude、Gemini 和Llama 3 等模型還在為數億美元的訓練成本苦惱時,DeepSeek-V3 用 557.6 萬美元的預算,在 2048 個 H800 GPU 22 集群上僅花費 3.7 天/萬億 tokens 的訓練時間,就達到了足以與它們比肩的性能。這意味著每萬億 tokens 僅需 180
46、K 個H800 GPU小時,總計278萬 GPU 小時的訓練成本。而Llama 3.1 的訓練使用了 16,384 塊 Nvidia H100 GPU,總計 2100 多萬 GPU 小時,翻了十倍。通過 671B 的總參數量,在每個token 激活 37B 參數的精準控制下,DeepSeek-V3 用 14.8 萬億高質量多樣化 token,構建出了一個能夠超越所有開源模型,直逼 GPT-4 和 Claude-3.5 的 AI 巨人。四、DeepSeek 大模型產業生態(一)(一)企業企業 1.DeepSeek 系列新模型正式上線系列新模型正式上線昇騰社區騰社區,華為小藝,華為小藝已接入已接入
47、 DeepSeek 2025年2月4日,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro 正式上線昇騰社區,支持一鍵獲取 DeepSeek系列模型,支持昇騰硬件平臺上開箱即用,推理快速部署,帶來更快、更高效、更便捷的 AI 開發和應用體驗,歡迎廣大開發者體驗使用。華為小藝已接入 DeepSeek。2 月 5 日,華為宣布,基于原生鴻蒙操作系統的小藝助手 App 已經接入 DeepSeek。目前,純血鴻蒙小藝智能體已經支持 DeepSeek-R1,已升級至原生鴻蒙的華為用戶可以通過“小藝助手 App-發現智能體廣場”與 DeepSeek 進行對話,實現更
48、加無縫的 AI 體驗。為 23 了體驗這一全新功能,用戶需要將小藝助手升級到11.2.10.310 版本及以上。升級完成后,用戶只需在底部導航欄中點擊“發現”選項,即可輕松進入智能體廣場,探索DeepSeek-R1 Beta 版帶來的豐富功能與全新體驗。2.三大運營商全面接入三大運營商全面接入 DeepSeek 2 月 8 日,工業和信息化部運行監測協調局發布 2025 年春節通信業務相關情況。2025 年春節期間,基礎電信企業積極利用 AI 開展創新服務。其中,中國移動、中國電信、中國聯通三家基礎電信企業均全面接入 DeepSeek 開源大模型,實現在多場景、多產品中應用,針對熱門的 Dee
49、pSeek-R1 模型提供專屬算力方案和配套環境,助力國產大模型性能釋放。3.多家公司宣布接入多家公司宣布接入 DeepSeek 隨著 DeepSeek 熱度飆升,其“朋友圈”也在快速擴容。2 月 5 日,京東云宣布正式上線 DeepSeek-R1 和 DeepSeek-V3 模型,支持公有云在線部署、?;焖接谢瘜嵗渴饍煞N模式。前段時間,阿里云、百度智能云、華為云、騰訊云、火山引擎、天翼云已接入了 DeepSeek 模型。海外的亞馬遜 AWS、微軟 Azure 等云巨頭同樣官宣支持。有 IDC 從業者認為,DeepSeek 的火爆有望改善目前智算中心的經營模式,提高國產算力的利用率。隨著三大
50、運營商接入 DeepSeek,有助于加速大模型技術與產業場景的融合,推動 AI 技術普惠應用。4.多家車企宣布與 DeepSeek 模型深度融合 24 近日,多家車企宣布完成與 DeepSeek 模型的深度融合,DeepSeek 正加速 AI 大模型上車。吉利是最早官宣的車企。2 月 6 日,吉利汽車宣布,其自研的星睿大模型與 DeepSeek-R1 深度融合。吉利汽車將利用 DeepSeek-R1 模型對星睿車控 FunctionCall 大模型、汽車主動交互端側大模型等進行蒸餾訓練。2 月 7 日,極氪也官宣旗下自研 Kr AI 大模型與DeepSeek R1 大模型完成了深度融合,并且智
51、能座艙助手 AI Eva 也已集成并即將上線。同日,嵐圖汽車也稱其智能座艙已經與 DeepSeek 完成深度融合,并計劃在 2 月 14 日開啟DeepSeek 全民知識蒸餾訓練,嵐圖知音和夢想家將率先搭載。嵐圖知音將成為汽車行業首個融合 DeepSeek 的量產車型。2 月 8 日,又有 5 家車企宣布接入 DeepSeek。寶駿汽車宣布,其靈語智艙與 DeepSeek 大模型已完成深度融合,寶駿享境完成實車裝載。未來,寶駿云海、寶駿悅也 Plus 等車型也將陸續通過 OTA 實現應用。同屬上汽集團旗下的智己汽車宣布,其智能座艙也已深度引入 DeepSeek 大模型,并與豆包、通義等大模型合
52、作,通過深度聯合訓練,構建多場景插拔式 AI 矩陣平臺。東風汽車宣布,公司旗下自主品牌已完成 DeepSeek 全系列大語言模型接入工作,并將于近期陸續搭載應用在東風嵐圖、東風猛士、東風奕派、東風風神、東風納米等公司旗下自主品牌車型。零跑汽車宣布,部署DeepSeek-R1 的零跑全新座艙即將上線。目前,小零 GPT 大 25 模型已接入 DeepSeek-R1。同時,DeepSeek-R1 大模型已在零跑內部 IT 團隊運營部署,輔助工作提效。長城汽車 CTO吳會肖 2 月 8 日在微博上發文宣布,DeepSeek 的 demo 在長城汽車上已經跑通,Coffee Agent 已完成融合適配
53、。業內普遍認為,2025 年將是高階智能駕駛技術全面 AI化的元年,智能化是新能源汽車產業發展的下半場,而 AI 智駕將成為行業的發展方向。小鵬汽車董事長何小鵬日前在行穩致遠,2025 向藍海進發的開工信中表示,下一個十年,AI 會驅動汽車產生巨大變革,也會驅動全球范圍內的硬件與軟件產生巨變。他也提到了 DeepSeek,稱 DeepSeek 大模型給全球科技圈帶來震撼它既實現了媲美 OpenAI 的體驗,又將成本壓縮到極低。蔚來董事長李斌也在 2 月 8 日晚間的抖音直播間提到,1 月體驗 DeepSeek 實在是太魔幻現實主義了。4.微軟、英偉達、亞馬遜全部接入微軟、英偉達、亞馬遜全部接入
54、 DeepSeek!一開始便對 DeepSeek 贊賞有加的英偉達,剛剛宣布:DeepSeek-R1 正式登陸 NVIDIA NIM。據介紹,在單個NVIDIA HGX H200 系統上,完整版 DeepSeek-R1 671B 的處理速度可達 3,872 Token/秒。同在今天,亞馬遜也在 Amazon Bedrock 和 SageMaker AI 中,上線了 DeepSeek-R1 模型。曾經沖出來和 OpenAI 一起高調質疑 DeepSeek偷竊數據的 26 微軟,甚至在前一天就把 DeepSeek-R1 搶先部署在了自家的云服務 Azure 上。除了科技大廠,AI 初創們也沒有放過
55、如此上好的機會。Windsurf 編輯器同時集成了 DeepSeek-R1 和 V3 模型,并且第一次在編程智能體中,實現了 R1 的工具調用。Cerebras 不僅實現了比 GPU 快 57 倍的推理速度,而且還報告稱,自己部署的 70B 模型在準確率上要比 GPT-4o 和 o1-mini 更高。5.燧原科技實現全國各地智算中心燧原科技實現全國各地智算中心 DeepSeek 的全量推的全量推理服務部署理服務部署 作為國產算力領軍企業,燧原科技完成了對 DeepSeek 全量模型的高效適配,包括 DeepSeek-R1/V3 671B 原生模型、DeepSeek-R1-Distill-Qwe
56、n-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B 等蒸餾模型。整個適配進程中,燧原 AI加速卡的計算能力得到充分利用,能夠快速處理海量數據,同時其穩定性為模型的持續優化和大規模部署提供了堅實的基礎。6.多家券商也積極“擁抱”多家券商也積極“擁抱”DeepSeek 截至發稿,至少有 16 家券商宣布已完成 DeepSeek-R1 模型的本地化部署,包括國泰君安、國金證券、中泰證券、興業證券、國元證券、華福證券、光大證券、華安證券、廣發證券、國盛證券、中金財富證券、華西證券、國信證券、中信建投、東興證券、西南證券等。27 多家券商稱,已將 Dee
57、pSeek 融入公司多個核心業務領域,將賦能信息檢索、文檔處理、行業研究、市場研判、輔助軟件研發、輔助制定營銷方案、合規問答、業務辦理指引等多個業務場景。例如,2 月 8 日,中金財富宣布完成與 DeepSeek-R1 大模型深度融合。據介紹,此次技術應用不僅實現智能投顧助手 IC-Copilot 的升級迭代,更開創性地構建公司投顧服務領域“熱點發現資訊處理策略生成”三位一體的服務生態。光大證券介紹,近日光大證券 AI(人工智能)中臺新增DeepSeek 大模型本地化部署和多場景應用測試,并基于華為NPU 算力平臺實現國產化適配。據悉,光大證券此次部署以“自主可控+創新應用”為核心,依托國產化
58、算力基礎設施,自主研發知識庫構建引擎和多模態數據處理框架,大幅降低大模型應用成本。華安證券也在近日完成 DeepSeek 的本地化部署及場景適配。華安證券認為,DeepSeek-R1 大模型“性能倍增、成本遞減”的雙重優勢將加速人工智能在垂直領域的規?;瘧?,目前公司已初步打造 AI 中臺,以大模型作為中樞,整合、調配各類 AI 能力,實現 AI 資源的高效利用與協同運作,為后續業務的智能化升級和創新發展提供有力支撐。(二)(二)生態生態 1.Deepseek 應用應用 27 日登頂蘋果中國地區和美國地區應日登頂蘋果中國地區和美國地區應 28 用商店免費用商店免費 APP 下載排行榜下載排行榜
59、 由國產大模型公司杭州深度求索開發的 Deepseek 應用27 日登頂蘋果中國地區和美國地區應用商店免費 APP 下載排行榜,在美區下載榜上超越了 ChatGPT,在中國、美國的科技圈受到廣泛關注。環球時報 27 日稱,Deepseek 被認為是大模型行業的最大“黑馬”,在外網被不少人稱為“神秘的東方力量”。2.DeepSeek 在開源社區在開源社區 GitHub 上的上的 Star 數首次超越數首次超越OpenAI DeepSeek 項目在 GitHub 平臺上的 Star 數,已經超越了OpenAI。熱度最高的 DeepSeek-V3,Star 數如今已達 7.7 萬。29 而DeepS
60、eek-R1,更是僅用了3周時間,就超越了 openai-cookbook。前有 App Store 登頂,今有 GitHub 超越,網友們高呼:永遠不要低估開源社區的力量。3.國家超算互聯網正式上線國家超算互聯網正式上線 DeepSeek 國家超算互聯網平臺已正式上線 DeepSeek-R1 模型的1.5B、7B、8B、14B 版本,并將于近期陸續更新 32B、70B等版本。DeepSeek-R1 小版本模型提供一鍵推理服務,無需下載本地;還可根據私有化需求,引入專有數據,對模型進行定制化訓練和開發。除 R1 模型外,國家超算互聯網平臺還上線了 DeepSeek-V3、DeepSeek-v2
61、.5 系列、DeepSeek-coder 系列、DeepSeek-math 系列(7b)和 DeepSeek-v2 系列(Lite)等模型。4.傳傳 DeepSeek 正準備適配中國國產正準備適配中國國產 GPU 然而,據美國科技網站 Toms Hardware 報道,韓國未來資產證券在對 DeepSeek 技術論文進行分析時發現,該模型的硬件效率之所以能比 Meta 等高出 10 倍,因為“他們從頭 30 開始重建了一切”。分析指出,DeepSeek 在使用英偉達的H800 晶片進行訓練時,使用了英偉達的底層硬件指令 PTX(Parallel Thread Execution)語言,而不是高
62、級編程語言CUDA。由于 CUDA 是通用型編程框架,會導致訓練模型時損失一些靈活性。中國網媒“快科技”分析,DeepSeek 的做法相當于繞過了硬件對訓練速度的限制,意味著其他模型需要訓練 10 天,而 DeepSeek 只需要五天。然而,這種編程非常復雜且難以維護,行業通用的做法是使用 CUDA 這類高級編程語言??炜萍己万v訊網引述的消息人士指出,DeepSeek內部擁有一些擅長寫PTX語言的內部開發者,假如DeepSeek未來有意改適配中國國產的 GPU,在硬體適配方面將會更得心應手。5.DeepSeek 的風,火速吹遍了終端企業的風,火速吹遍了終端企業 近期,消費電子類、顯示類終端企業
63、“緊跟熱點”,紛紛高調宣布接入 DeepSeek,DeepSeek 的風,終于吹到了終端領域(其他領域接入 DeepSeek 情況,請參考本報早前發表文章 關于 DeepSeek,多家算力芯片公司宣布DeepSeek為何“多云”?)。如此快速的“結盟”究竟是基于業務發展的技術升級,還是蹭流量的營銷動作?華為:2 月 5 日,華為宣布,基于原生鴻蒙操作系統的小藝助手 App 已經接入 DeepSeek。目前,純血鴻蒙小藝智能體已經支持 DeepSeek-R1,已升級至原生鴻蒙的華為用戶可 31 以通過“小藝助手 App-發現智能體廣場”與 DeepSeek 進行對話,實現更加無縫的 AI 體驗。
64、榮耀:2 月 8 日,榮耀 YOYO 智能體商店上線 DeepSeek-R1 嘗鮮版,成為第二家與 DeepSeek 達成合作的手機廠商。榮耀 PC 產品線總經理朱臣才發文稱,2 月的新品 MagicBook Pro 14 將率先全面接入 DeepSeek。OPPO:2 月 8 日,OPPO 宣布 OPPO 系手機將正式接入DeepSeek-R1 人工智能推理模型。視源股份:2 月 8 日,主營顯示、交互控制的解決方案提供商視源股份宣布,公司學習機全系列產品目前已接入DeepSeek,希沃電腦助手、希沃白板、希沃課堂智能反饋系統等產品也將逐步全面接入 DeepSeek。魅族:2 月 8 日,魅
65、族 FlymeAIOS 團隊宣布:確認已完成 DeepSeek-R1 大模型接入,魅族 21 系列、Lucky08 率先上線嘗鮮,星紀魅族 StarVAR 眼鏡等 AI 生態產品將陸續接入。洲明科技:2 月 10 日,領先的 LED 應用廠商洲明科技宣布 Agent 平臺已接入 DeepSeek 的 V3 及 R1 模型,通過結合 DeepSeek 在自然語言處理和多模態推理上的優勢,優化教育場景的多 Agent 交互體驗。利亞德:2 月 10 日,另一家 LED 應用領頭羊企業利亞德在互動平臺表示,旗下虛擬動點動作大模型 LYDIA 已正式接入 DeepSeek。通過這一整合,LYDIA 在
66、空間動作數據的 32 認知、感知、理解和生成能力上得到了進一步升級,尤其在動作精準度及動作效果層面得到了進一步提升。海信視像:2 月 11 日,海信電視宣布正式接入 DeepSeek。海信電視正在進行用戶終端的升級發布,預計 35 天內,所有搭載智能體的海信電視將全面支持 DeepSeek。接下來,即將上市的海信電視 2025 年新品也將全面支持 DeepSeek 服務(三)(三)應用應用 1.文學文學 根據揚子晚報消息,2 月 5 日,接連兩家企業宣布接入Deepseek 以輔助網文創作。國內網文頭部企業閱文集團宣布,旗下作家輔助創作產品“作家助手”應用已集成獨立部署的 DeepSeek-R
67、1 大模型,這是 deepseek 首次在網文領域應用。2.編程編程 DeepSeek 的編程能力優秀。DeepSeek 團隊在編程方面進行了較長時間的積累和研發,兩年前就曾推出過DeepSeek-Coder 編程模型,而近期廣受關注的 DeepSeek V3和 R1 模型在編程方面的性能得到了大幅的提升,這里可以參考權威的 Aider LLM Leaderboards 榜單(部分結果):33 在這個專門針對編程場景設計的評測榜單中,DeepSeek R1 取得了 56.9%的成功率,格式正確率達到了 96.9%,而完整測試集的費用僅為$5.42,遠低于其他競爭對手,如 Claude 3.5(
68、$14.41)和 OpenAI o1($186.5)。這 意 味 著 DeepSeek 在提供高質量代碼生成的同時,也能保持極高的性價比。DeepSeek Chat V3 雖然在成功率上低于 R1,僅為48.4%,但格式正確率仍達到了 98.7%,并且其調用成本僅為$0.34,是榜單中最便宜的模型之一,適合對價格敏感的開發者使用。從成功率來看,DeepSeek R1+Claude 3.5 組合達到了 64.0%,這里是使用 DeepSeek R1 推理進行高層次設計,用 Sonnet 完成基層的代碼編寫,在高準確率的同時,進一步提高了代碼生成的可靠性。這表明 DeepSeek R1 具備較強的
69、抽象推理能力,并且在與其他強大模型配合使用時可以取得更好的效果。值得注意的是,GPT-4o 和 Qwen Max 2025 在成功率上明顯落后于 DeepSeek,尤其是 GPT-4o 的成功率 34 僅有 23.1%,而 Qwen Max 甚至只有 21.8%,這說明 DeepSeek 的模型在代碼相關任務上的優化更為到位。此外,DeepSeek Chat V2.5 的成功率僅為 17.8%,表明在更新到 V3 版本后,DeepSeek 取得了顯著的提升??傮w來看,DeepSeek R1 和 V3 在代碼生成領域的表現相當優秀,特別是在性價比和格式正確率方面占據明顯優勢。這使得 DeepSe
70、ek 成為開發者在 AI 編程助手領域中的一個有力選擇,特別是在需要大規模調用 API 或者希望控制成本的場景下,其價值更加突出。除了正確率高、價格低廉之外,DeepSeek 模型用于編程還有其它一些優勢:多語言支持豐富。DeepSeek 在多種編程語言和開發場景中表現出色,支持 C/C+、Java、Python、JavaScript/TypeScript、MATLAB、R 等 70 余種語言,適用于前端、后端、數據分析及系統腳本編寫。相比于其他 AI 編程助手,DeepSeek 經過深度優化,能夠理解復雜語法和編程庫,并提供精準的代碼補全、優化和重構建議。夠用的長上下文。得益于其 64K t
71、okens 的長上下文窗口,DeepSeek 能夠有效分析大規模代碼庫,支持跨文件代碼分析與優化,使其在實際開發中的應用更加廣泛。此外,DeepSeek 在中文編程環境下表現尤為突出,能夠理解中文注釋和代碼需求,降低語言障礙,提高團隊協作效率。支持項目級的編程輔助。從應用趨勢來看,AI 編程助手正在深度融入開發流程,開發 35 者需要的不僅僅是代碼補全,更希望 AI 能夠理解項目、協助調試、優化性能,并提供代碼審查建議。DeepSeek 具備這些能力,配合上 Cursor、Aider 這些新一代的編程助手,能夠在整個軟件開發生命周期中充當智能助手,極大提升開發效率。(四)(四)基礎設施基礎設施
72、 加拿大網絡安 全公司 Feroot Security 對 Web 版 DeepSeek 代碼的分析顯示,該公司使用了中移動的基礎設施。中移動是最大的移動通訊服務商,同時也是最大的網絡服務商之一,DeepSeek 使用中移動的基礎設施并不出人意料。問題在于中移動受到了美國的有限制裁,美國人被限制投資中移動。這項分析沒有涉及移動版的 APP,DeepSeek 的 AI 助手是蘋果和 Google 應用商店下載量最高的 APP 之一。五、DeepSeek 大模型產業影響(一)(一)對對人工智能人工智能技術技術的的影響影響 1.吳恩達談吳恩達談 DeepSeek:中國:中國 AI 迎頭趕上,擴大算力
73、并迎頭趕上,擴大算力并不是不是 AI 進步的唯一途徑進步的唯一途徑 近年來,圍繞“擴大模型規模能夠推動 AI 進步”的觀點備受追捧。事實上,我曾是這一理念的早期支持者。一些公司利用這一敘事成功融資數十億美元,聲稱只要有足夠資本,就能通過(i)擴大規模和(ii)預測性改進來持續提升 AI 性 36 能。因此,行業對擴大算力的關注遠超對其他創新路徑的探討。然而,美國對中國的 AI 芯片出口限制促使 DeepSeek 團隊進行大量優化,使其能夠在H800 GPU(算力遠不如H100)上高效運行,從而在不計研發成本的情況下,僅用不到 600萬美元的計算成本完成模型訓練。DeepSeek 的成功經驗是否
74、意味著降低對算力的需求仍有待觀察。有時,當某項技術變得更便宜時,反而會促使整體投入增加。我認為,從長期來看,人類對智能和算力的需求幾乎沒有上限,因此我仍然看好 AI 計算需求的持續增長。我在社交媒體上看到人們對DeepSeek 進展的解讀各不相同,仿佛是一場 Rorschach test,每個人都在其上投射自己的理解。我認為 DeepSeek-R1 在地緣政治上的影響尚有待厘清,同時它也為 AI 應用開發者帶來了巨大機遇。我的團隊已經開始頭腦風暴,探索因開源高階推理模型的可及性而催生的新應用方向?,F在依然是一個絕佳的 AI 創新時代!2.蒸餾技術將成為行業突破口蒸餾技術將成為行業突破口 Dee
75、pSeek 的蒸餾技術更是這一領域的佼佼者,它不僅攻克了傳統蒸餾的瓶頸,還在多模態數據處理等前沿領域取得了突破性進展。DeepSeek 的蒸餾技術將數據蒸餾與模型蒸餾相結合,實現了從大型復雜模型到小型高效模型的知識遷移。這種結合方式不僅提升了模型的性能,還顯著降低了計算成本。DeepSeek 在知識遷移策略上進行了多項創新,以實現高 37 效的知識傳遞和模型優化。DeepSeek 的蒸餾模型架構設計充分考慮了效率與性能的平衡,通過精心設計的模型結構,實現了從大型復雜模型到小型高效模型的知識遷移。DeepSeek的蒸餾模型訓練過程包括多個關鍵步驟,通過精心設計的訓練策略和優化方法,確保了模型的高
76、效訓練和性能提升。DeepSeek 的蒸餾模型在推理效率方面表現出顯著的提升,這主要得益于模型結構的優化和蒸餾技術的應用。通過將知識從大型復雜模型(教師模型)遷移到小型高效模型(學生模型),DeepSeek 的蒸餾模型在計算資源、內存使用和推理速度方面都實現了顯著的優化。盡管 DeepSeek 的蒸餾技術在提升模型性能和降低計算成本方面取得了顯著成效,但蒸餾技術仍面臨“隱性天花板”的挑戰。這一挑戰主要體現在學生模型的性能難以超越教師模型的固有能力,限制了模型在新領域或復雜任務中的擴展性。(二)(二)對對產業產業生態的生態的影響影響 1.DeepSeek 開源對于企業戰略價值開源對于企業戰略價值
77、 以 DeepSeek 為代表的開源人工智能模型的成功,充分展示了開源模式在企業戰略中的巨大潛力。企業通過積極參與開源生態,不僅可以降低研發成本,加速技術迭代,還能借助全球開發者的智慧,提升產品質量和市場競爭力。DeepSeek 基于開源戰略打造人工智能開放協作生態圈。當人工智能模型成為數字時代的核心基礎設施,開放源代碼 38 實質是在定義行業標準的話語權爭奪。DeepSeek 通過開放模型權重和代碼,推動去中心化的技術創新,使開發者、研究機構和企業能夠在共享框架上快速迭代,進一步使企業從技術競賽的參與者轉變為游戲規則的制定者。同時,DeepSeek的開源對閉源大模型形成強烈沖擊,打破了封閉式
78、平臺的技術壁壘,使企業無需依賴昂貴的 API 付費模式即可獲取高質量模型。相比閉源模式依賴的封閉商業生態,開源帶來的全球協作效應使技術優化更快,挑戰了閉源大模型企業在市場上的主導地位。DeepSeek 開源模式為企業帶來創新速度非線性躍升。傳統封閉式研發受限于企業內部資源,而開源社區則形成了一種“分布式創新網絡”,使技術迭代呈指數級增長。深度求索的開源實踐顯示,其模型在開源后 6 個月內獲得的優化建議,相當于原團隊 3 年的技術積累。通過開源,企業不僅能加速技術演進,還能在市場競爭中占據更主動的戰略位置。DeepSeek 開源助力企業社會責任的結構化轉型。通過開源,DeepSeek 在打造更透
79、明的人工智能生態的同時,也推動了倫理治理模式的創新借助社區共治機制,降低算法偏見、提升人工智能透明度。企業不再只是社會問題的解決者,而是通過技術民主化,讓社會各界共同參與治理,塑造更具包容性的人工智能倫理體系。例如,DeepSeek 在開源后,允 39 許不同文化、不同價值觀的社群基于自身需求部署專屬人工智能模型,從而擺脫單一價值體系的壟斷。2.DeepSeek 是否真的繞開了是否真的繞開了 CUDA?DeepSeek 沒有直接使用 CUDA 的 API,而是直接使用 PTX,PTX(Parallel Thread Execution)語言是英偉達(NVIDIA)開發的,專門為其 GPU 設計
80、的中間指令集架構,位于高級 GPU 編程語言(如 CUDA C/C+或其他語言前端)和低級機器代碼(流處理匯編或 SASS)之間。PTX 是一種接近底層的指令集架構,將 GPU 呈現為數據并行計算設備,因此能夠實現寄存器分配、線程/線程束級別調整等細粒度優化,這些是 CUDA C/C+等語言無法實現的。直接使用 PTX 的優勢是可以對計算過程進行更細粒度的控制。因為 PTX 作為中間語言,能夠更接近底層硬件的執行邏輯。DeepSeek 可以根據模型的特點和需求,對 PTX 代碼進行針對性的優化,從而更好地發揮英偉達 GPU 的性能。比如,針對 DeepSeek 模型中某些特定的矩陣運算或者算法
81、邏輯,通過直接編寫和優化 PTX 代碼,可以減少不必要的計算開銷,提高計算效率。但是使用 PTX 也有缺點,就是這種編程非常復雜且難以維護,要求技術人員對 GPU 工作機制非常熟悉。從上述內容可以看出,DeepSeek 還是基于CUDA 的能力,并沒有完全拋開 CUDA。3.DeepSeek 會導致對智算中心的需求大幅減少嗎?會導致對智算中心的需求大幅減少嗎?40 近日,關于 DeepSeek 技術是否會引發智算中心停建的話題在業界引起了廣泛關注。DeepSeek 作為一種前沿的人工智能算法,其在數據處理和分析方面展現出強大實力。然而,有人擔憂其發展將導致相關智算中心建設停滯。對此,CDCC邀
82、請多位業內專家發表了自己的看法,從不同角度分析了DeepSeek 技術對智算中心的影響,以期為我國人工智能產業發展提供有益參考。(1)韓玉,CDCC 算力中心規劃設計研究員,“2018 數據中心科技成果獎青年科技人才獎”獲得者。當阿里去 IOE 代為 PC 服務云計算做數據架構+算力+存儲的時代,阿里的基礎設施規模從一年幾個單體數據中心交付改為兩位數的交付,并且快速成為云計算服務行業和服務器規模體量國內第一。杰文斯悖論(Jevons Paradox)揭示了技術進步反而最終造成能源消耗總量增加,因為技術進步帶來的效率提升和成本降低可以讓公眾服務需求成為更快普及。DeepSeek 的火爆是一種開源
83、模式和閉源模式的競爭分水嶺,也是一種效率和成本解決某種方案更優解,但是DeepSeek 也是站在巨人肩上(比如使用了 GPT 的部分標注數據和一些其他網上數據-應該是非侵權的),這只是 AI 發展階段的一個階段里程碑,即從算力資源的占有和搶時間領先改變為算力性能效率和成本優化整體架構成本優化競爭領 41 先的階段,最終誰走到最后領先行業風騷尚早,但是反而成為百花齊鳴的開始。算力的競爭門檻被大幅降低,智算中心的春天反而會快速擴展,超大資源規模智算中心是否必須建設其實是業務發展的階段,即使 10 萬卡的數據中心也僅僅是 100-200MW 的規模,只是頭部客戶需求的幾分之一,但是數十 MW 的智算
84、中心會更多發展,更多智算企業可以入局;至于邊緣計算,從來不是智算中心的范圍,僅僅就是邊緣配套也就是運營商接入和布局的范疇,中大型的智算中心的春天開始并不遠,相信 AI 的前景就相信中大型智算中心的明天。(2)唐虎,CDCC 專家技術組委員、“2023 數據中心科技成果獎青年科技人才獎”獲得者。DeepSeek 讓多地智算中心停建文章大方向沒問題,但多少有點兒“震驚體”的感覺。還是要回歸現實,智算的緩建是沒有看明白,之前的“瘋狂建”也是沒有看明白,是“一窩蜂”特質多一些,看明白的都是按部就班的。DeepSeek 的意義就猶如其創始人所講的“自信”。宏觀上,其復現了證明了 OpenAI 的工作。微
85、觀上,它就是看清楚,按部就班提質增效的典范。更重要的影響來自于,它的完全開源的胸襟。關于 DeepSeek 的成熟制程,本人也多次給國產 GPU 伙伴提及過,但這個系統變革的自信是缺乏的。DeepSeek 給大 42 家帶來了自信,并且讓需求更加釋放了,AI 才剛開始。對于數據中心行業,也要學習 DeepSeek,按部就班的自信。在半導體產業的后摩爾時代,數據中心向算力中心演進的時代,需要數據中心、服務器及半導體的國人從業者,拿出自己的按部就班的自信的路徑。(3)宮偉達,CDCC 專家技術組委員、世紀互聯 DC 運維產品負責人?!氨疄橹谒?,在西方國家算力限制的情況下,DeepSeek
86、 通過“開源+算法優化+端側革命”,對半導體、AI 等行業影響深遠。打破 CUDA 生態限制,為中國芯片設計帶來機遇;動搖“制程決定論”,推動算力需求結構遷移;觸發端側硬件生態鏈式反應,重塑全球半導體價值鏈,對于國內數據中心建設將帶來巨大的變化:建設規劃方面,規模規劃調整:大規模智算中心建設需求需要觀望,需要重新思考和規劃建設規模與方式。布局傾向分布式:推理算力需求會快速井噴式上升,分布式機房內部署 1-10 臺 GPU 服務器的小規模集群需求爆發,數據中心布局會更傾向于分布式,以滿足就近訪問需求。技術架構方面,ARM 架構滲透:“低成本 AI 算力新范式”,會推動以卓越能效比和性價比著稱的
87、ARM 架構加速滲透至數據中心,數據中心為降本增效,可能更多采用 ARM 架構服務器。算力優化升級:為支持 DeepSeek 等高效 AI 模型,43 數據中心會加快硬件升級,采用更先進的芯片、存儲和網絡設備,提高整體算力和性能。能源與散熱方面,降低電力需求壓力:DeepSeek 以較低能耗就能實現較高性能,有助于降低數據中心過度供應的風險,減少數據中心的能源消耗,降低電力需求壓力,數據中心電力申請需求,將需要重新考量。散熱技術仍受挑戰:盡管整體能耗可能降低,但在滿足算力需求時,仍可能因高密度計算設備的使用,使得數據中心的散熱需求上升,需采用液冷等綠色化散熱技術。市場競爭方面,加劇芯片市場競爭
88、:DeepSeek 的低成本對 AMD 等芯片制造商的數據中心業務產生影響,將推動數據中心硬件市場的競爭更加激烈,促使相關企業不斷創新和優化產品,國產芯片(產能優勢)即將登上世界歷史舞臺。數據中心競爭格局生變:能快速適應 DeepSeek 等新技術,提供更高效、低成本算力服務的數據中心企業,將在市場競爭中占據更有利地位。(4)車凱,聯通數字科技有限公司安全管理、高級工程師?!?021 數據中心科技成果獎青年科技人才獎”獲得者。DeepSeek 等大模型在資源占用和能效方面的優化,確實可能對智算中心等建設產生一定影響,存在波動,但從整體和長期看,依然會推動基礎設施的持續發展。44 1)通用領域成
89、熟,垂直領域仍在高速發展。大模型已經在文字、圖片、視頻等形式方面,以及聊天、檢索、生成等通用領域取得了較高的應用和較大的成功,相對比較成熟,因此這些領域已經從高速發展向著高質量發展轉型,能效顯得非常重要。而醫療、制造業等垂直行業相關領域正處于發展階段,訓練和推理需求正在呈指數級增長,資源需求必將增加。2)技術效率提升,將向著更高質量發展。效率提升引發成本的降低,通常情況下,輸出質量越高,消耗的資源就越多。節省的資源可能被重新投入,以提升輸出的質量。我們現在覺得 DeepSeek 效率已經很高,但是離真正高質量還相差甚遠。3)技術效率提升,將刺激需求的增加。大模型能效提高可能降低單任務成本,但也
90、進一步刺激了應用的普及,用戶群體和應用場景的增加。以 DeepSeek 自身為例,隨著用戶數量的激增,我們經常會遇到“服務器繁忙,請稍后再試”的情況,效率再高,也擋不住這種 DDoS 攻擊,因此持續建設是必然。資源節約型 AI 應該是算力基礎設施可持續發展的推動條件,而非抑制其增長的因素。數據中心行業在關注DeepSeek 等效率提升的同時,還是應該更多關注自身的高效能轉換和綠色化發展,避免單純的規模性擴張。45(5)俞佳煬,華信咨詢設計研究院有限公司(中通服數字基建產業研究院)副主任工程師,中通服金牌內訓師,天翼云高級解決方案架構師。DeepSeek-R1 的出現,對于算法的優化是否會產生算
91、力過剩?個人認為可能恰恰相反,DeepSeek-R1 的突破降低了大模型的邊際成本,這促使過去因成本過高而被抑制的需求得以釋放,催生更多應用場景,應用的繁榮一定是牽引出更多算力需求,就如同內燃機、發電機效率的優化,不會導致原料降價,只會催生出更多需求。不管怎么樣 DeepSeek 并沒有打破 scaling law,通往 AGI的路程還是很漫長,關于基礎大模型的角逐會因為鯰魚效應繼續保持火熱。DeepSeek 的開源做出了很大貢獻,其中之一是把大家注意力拉回到國產大模型+國產卡+算法優化的正途上。這種先行者的成功是很振奮人心的,從數據看,截止2 月 6 日,已經有華為、沐曦、天數、摩爾、海光等
92、 10 大國產芯片支持了 DeepSeek,各大云商也紛紛跟進,一定會掀起“模型/算法定義芯片”的熱潮,對于國產算力是利好。對于效率至上的云商和模型服務提供商而言,DeepSeek在 MoE 架構、低精度訓練、通信效率等方面做出了優化,這些對于 Infra 的影響都決定著智算中心從芯片選取到整體架構設計的各個環節,例如:如何平衡算力和顯存的取舍、低 46 精度算力芯片的發展趨勢、專家并行方式對于網絡架構的影響,這些問題都值得重新審視一番,給出自己的回答。(三)對國際競爭的影響(三)對國際競爭的影響 1.DeepSeek 的崛起,沖擊了全球科技供應鏈的核心玩的崛起,沖擊了全球科技供應鏈的核心玩家
93、家 Nvidia:AI 訓練不再需要超大規模 GPU,市場開始質疑Nvidia 高端 AI 芯片的需求是否會放緩。AI 訓練成本下降AI 計算需求減少,只會讓計算變得更分散、更普及。未來 AI可能更傾向于“終端推理+云端微調”模式,而不是完全依賴數據中心訓練。臺積電、ASML:如果 AI 計算需求下降,先進制程芯片的增長預期可能被重新評估。微軟:投資數百億美元押注 OpenAI,但 DeepSeek 的低成本路線可能會影響OpenAI 的商業化策略。2.AI 低成本化,最大輸家可能不是低成本化,最大輸家可能不是 Nvidia,而是依賴大,而是依賴大模型收費的模型收費的 AI 公司公司 Open
94、AI、Anthropic、Google DeepMind 等公司的盈利模式依賴于高昂的訓練成本,只有少數公司能做,AI 被作為 稀缺資源 高價出售。DeepSeek R1 把 AI 價格壓到 OpenAI o1 的 3%,這可能會徹底 顛覆大模型 API 的商業模式。由于影響實在太大,我們已經可以看到美國(及其他國家)的各種反制,未來各種制裁可能進一步升級:Anthropic CEO 發萬字檄文,希望白宮進一步加碼對華芯片出口管制 OpenAI 47 稱 DeepSeek 通過“蒸餾”(distillation)技術侵權使用 openAI的模型意大利下架 Deepseek(以數據隱私為由)。3
95、.AI 進入創業黃金時代進入創業黃金時代 大模型創業已成為顯學,無論是 SaaS、教育、醫療,還是內容創作、游戲,都在快速 AI 化。過去 AI 創業受限于高昂的訓練成本,現在成本下降,創業門檻極大降低。AIAPI 價格下降 95%,獨立開發者也能負擔得起 AI 訓練。2025 年:AI 爆款應用將提前 1-2 年到來 AI 完全自動化的內容創作(文章、視頻、音樂、游戲)將進入 C 端市場。AI 智能助手將更貼近人類思維,從工具變成真正的“數字勞工”。AI 將進入工業、醫療、教育等核心行業,提高效率,重塑職業分工。如果說 2023 年是“大模型元年”,那么 2024-2025 年就是“AI商業
96、化元年”。這場革命,不是遙遠的未來,而是正在發生。4.DeepSeek 的崛起引發了全球資本市場的劇烈震蕩的崛起引發了全球資本市場的劇烈震蕩 1 月 27 日,美國納斯達克綜合指數顯著下跌,市值排名前十的科技公司開盤總計蒸發近 1 萬億美元。其中,美國芯片巨頭英偉達股價單日最大跌幅達 17%,超威半導體、微軟等巨頭股價同步下跌 2%6%。這場沖擊波迅速蔓延至全球資本市場,臺積電、三星電子等亞洲半導體企業股價同步走低,與美股科技股形成強烈共振。受 DeepSeek 影響,英偉達在 1 月 24 日至 2 月 3 日期間,股價累計跌幅超 20%。對此,英偉達曾緊急對外發表聲 48 明,試圖以“De
97、epSeek 證明未來需要更多芯片”的論調穩定投資者信心。但市場仍普遍擔憂,DeepSeek 以更低的成本開發出與 OpenAI 等行業巨頭相媲美的產品,將顛覆傳統 AI 依賴“高資本、高算力”“大力出奇跡”的燒錢模式。而算法進步將大幅降低算力需求,動搖英偉達等硬件廠商的業績增長。與此同時,中國 A 股市場卻呈現出另一番景象:A 股DeepSeek 指數在春節后三個交易日累計漲幅達 27.48%。2 月5 日,有 11 只 DeepSeek 相關概念股開盤即漲停。其中,并行科技創下“30cm”漲停紀錄。安凱微、優刻得、安恒信息、青云科技等“DeepSeek 概念股”一度連續“20cm”漲停。在
98、港股市場,“DeepSeek 概念股”也表現活躍,部分股票漲幅驚人。六、國內相關表態(一)(一)國家層面國家層面 1.中國常駐中國常駐聯合國代表傅聰聯合國代表傅聰回答記者提問回答記者提問 當地時間 2 月 3 日,在美國紐約聯合國總部,中國常駐聯合國代表傅聰舉行記者會。當被問到中國人工智能企業深度求索(DeepSeek)發布的模型及中美人工智能合作問題時,傅聰表示:“從華為到 TikTok,再到 DeepSeek,美國還想禁多少?”“永遠不要低估中國科研人員的聰明才智。DeepSeek引發全球轟動和一些人的焦慮恐慌,說明技術遏制和技術限制無法奏效,這是全世界、特別是美國需要學習的一課?!?9
99、2.外交部發言人郭嘉昆主持例行記者外交部發言人郭嘉昆主持例行記者會會 在中國外交部 2 月 6 日舉行的記者會上,有記者提到,韓國一些政府部門已屏蔽對 DeepSeek 的訪問,之前意大利、澳大利亞、印度、美國、日本等國也傳出禁止或限制使用DeepSeek 的消息,一些企業也出現屏蔽 DeepSeek 訪問的情況。對此,中國外交部發言人郭嘉昆表示,我想強調的是,中國政府高度重視并依法保護數據隱私和安全,從來沒有也不會要求企業或個人以違法形式采集或存儲數據。中方一貫反對泛化國家安全概念、將經貿科技問題政治化的做法。同時,中方也將堅定維護中國企業的合法權益。(二)地方(二)地方層面層面 1.廣東廣
100、東 根據廣東省人民政府官網,2 月 5 日,廣東省委書記黃坤明同志在廣東省高質量發展大會上強調,“深度求索(DeepSeek)以不怕虎的勇氣銳氣撼動美國人工智能巨頭、產生連鎖效應”。2.鄭州鄭州 2025 年 2 月 5 日,鄭州市委書記安偉在優化營商環境大會上指出,要加快引入 DeepSeek 等大模型。3.北京經濟技術開發區北京經濟技術開發區 50 北京經濟技術開發區表示:“支持區域科技企業與DeepSeek 多元合作,推動我國大模型產業從單點突破轉向體系化創新?!逼?、各國相關表態(一一)美國美國 1.龍頭企業龍頭企業單位單位(1)英偉達 2025年1月27日,Deepseek引發了美國納
101、斯達克震動,尤其受沖擊最大的英偉達股價下跌 16.97%,上一個交易日下跌 3.12%。據路透社報道,在中國人工智能(AI)初創公司DeepSeek 崛起沖擊美股之際,美國芯片巨頭英偉達當地時間27 日股價暴跌約 17%,隨后該公司發布聲明,稱 DeepSeek的進步表明了其芯片在中國市場的有效性,未來將需要更多的英偉達芯片來滿足對 DeepSeek 的服務需求。路透社稱,英偉達發表上述聲明前,該公司股價暴跌約17%,至 118.58 美元每股,原因是投資者擔心 DeepSeek 使用的英偉達芯片遠少于美國公司,但同時也能與美國開放人工智能研究中心(OpenAI)等競爭對手不相上下。此外,英偉
102、達的競爭對手超威半導體公司(AMD)的股價同日也下跌超 6%,至 115.01 美元每股。51 報道稱,英偉達在 27 日的聲明中表示,“DeepSeek 的表現說明了如何利用技術創建新模型,(也就是如何)利用廣泛可用的模型和完全符合出口管制的計算(創建新模型)?!眻蟮婪Q,英偉達認為,DeepSeek 取得的進步表明市場對其芯片仍有需求,“推理需要大量的英偉達 GPU 和高性能網絡?!保?)OpenAI 2 月 4 日,據參考消息援引德國之聲電臺網站 2 月 3 日報道,美國開放人工智能研究中心(OpenAI)首席執行官奧特曼 2 月 3 日表示,該公司沒有計劃起訴中國 AI 初創公司杭州深度
103、求索人工智能基礎技術研究有限公司(DeepSeek),“我們打算繼續打造出色的產品,并在模型能力方面引領世界,我認為這樣會很好?!眾W特曼稱:“DeepSeek 是一個令人印象深刻的模型,但我們相信我們會繼續開拓前沿并推出出色的產品,所以很高興能有另一個競爭對手。他表示:“我們之前有過很多競爭對手,我認為繼續推進并保持引領地位符合每個人的利益?!贝饲?,OpenAI 在 1 月 29 日表示,有證據表明 DeepSeek 使用OpenAI 專有模型來訓練自己的模型,并暗示這可能違反了OpenAI 服務條款,但沒有進一步提出證據。52(3)谷歌 谷歌首席執行官 Sundar Pichai 也認為,D
104、eepSeek 是一個了不起的團隊,“回顧過去三年來的發展,會發現用于 AI 推理的支出比例相比 AI 訓練一直在增加。這是件好事,因為推理顯然可以支持企業獲得良好的投資回報率(即加速推動應用落地)?!彼赋?,推理使用成本將不斷下降,使更多用例變得可行,“機會空間要多大就有多大(as big as it comes),這就是為什么我們在持續投資以期迎接這一時刻?!保?)蘋果 在蘋果財報會議中,庫克特別提到了中國 AI 公司DeepSeek,稱其推出的 AI 模型表現出了出色的效率提升和創新能力。盡管分析師詢問是否 DeepSeek 會對蘋果的利潤率構成威脅,庫克則表示,任何能夠推動效率提升的創
105、新,蘋果都會表示肯定。對于蘋果來說,DeepSeek 展現出的技術能力顯然符合蘋果對創新和高效的追求。(5)微軟 微軟 CEO 薩提亞納德拉對 DeepSeek 給予了高度評價,認為其展示出的創新能力和技術突破標志著人工智能領域的一個重要進展,還認為隨著人工智能技術成本的逐步下降,像 DeepSeek 這樣的企業將極大地推動整個行業的發展。2.美國聯邦美國聯邦政府政府 53(1)美議員推動立法促中美 AI 全面脫鉤 日前,美國國會參議員喬什霍利(Josh Hawley)提出 2025 年美國人工智能能力與中國脫鉤法案(Decoupling Americas Artificial Intelli
106、gence Capabilities from China Act of 2025)。這是美國國會議員首次提出旨在推動中美人工智能領域“全面脫鉤”的法案。該法案提議通過立法手段限制美國與中國的 AI 技術交流,以防止先進技術流入中國?;衾麉⒆h員稱,流入中國人工智能的每一美元和每一千兆的數據,最終都將被用來對付美國。美國不能以犧牲自身實力為代價來增強我們最大的對手的力量。確保美國的經濟優勢意味著切斷中國與美國創新的聯系,并停止對中國創新的補貼。法案指出:禁止將在中國開發或生產的 AI 或生成式 AI技術或知識產權進口到美國。禁止向中國出口、再出口或在中國境內轉移 AI 或生成式 AI 技術或知識
107、產權。美國個人不得故意在中國境內或為受關注實體進行 AI 或生成式 AI 的研究或開發。美國個人不得故意將 AI 或生成式 AI 研究信息轉移到中國境內或受關注實體。違反研發禁令的實體可能面臨高達 1 億美元的罰款。(2)美國海軍禁止官兵使用 DeepSeek 大模型 從美國國會、五角大樓、NASA 到海軍,都考慮或已開始禁止使用 DeepSeek,德克薩斯州則成為美國第一個禁止在政府設備上使用 DeepSeek 的州。近日,美國國會更是變本加 54 厲,提出新法案規定下載 DeepSeek 將構成犯罪,最高可判處 20 年監禁。3.美國地方政府美國地方政府(1)得克薩斯州宣布禁止政府設備使用
108、 DeepSeek 德克薩斯州則成為美國第一個禁止在政府設備上使用DeepSeek 的州。(二二)英國及英國及歐洲歐洲 1.龍頭企業龍頭企業單位單位(1)英國阿蘭圖靈研究所 英國阿蘭圖靈研究所高級 AI 研究員尼爾勞倫斯(Neil Lawrence)指出,英國在 AI 技術的開發和部署方面落后于美國和中國。按照他的說法,雖然德國、法國、芬蘭和瑞士有一些“令人鼓舞的跡象”,但“大多數歐洲國家的情況類似”。(2)德國墨卡托中國研究中心 德國墨卡托中國研究中心(MERICS)科技與創新項目負責人杰倫格魯內韋根-勞(Jeroen Groenewegen-Lau)也認為,歐洲若想要與中美主要 AI 企業
109、競爭將非常困難。他分析,歐洲在通用人工智能(AGI)的競爭也許已經“不現實”,“但歐洲仍然可以通過在 AI 技術的實施和特定領域上深耕,找到自身的價值”。55(3)英國利茲大學 英國利茲大學自動推理教授安東尼科恩(Anthony Cohn)則提到,從 OpenAI 下一個大型 AI 模型 GPT-5 的發布似乎被推遲來看,當前有跡象表明,基礎 AI 模型的技術進步正在放緩,這也意味著其他國家和公司將有機會趕上。(4)荷蘭阿斯麥 阿斯麥總裁兼首席執行官富凱在財報發布會上表示,DeepSeek 推出高效 AI 模型有助于降低 AI 應用成本,為阿斯麥帶來更多商機,因為更低成本意味著 AI 應用場景
110、增加,會帶動芯片需求增長。2.政府政府及公共機構及公共機構(1)意大利 意大利數據保護機構 Garante 下令屏蔽 DeepSeek;1 月29 日,DeepSeek 應用在意大利的谷歌應用商店(Google Play)和蘋果應用商店(App Store)已無法下載。(2)愛爾蘭 愛爾蘭數據保護委員會(DPC)要求 DeepSeek 提供更多信息。(3)法國 法國監管機構國家信息與自由委員會 30 日表示,將對杭州深度求索人工智能基礎技術研究有限公司(DeepSeek)56 進行問詢,以便了解這家中國初創企業的人工智能系統是如何運行的,以及可能存在的隱私風險。(三)韓國(三)韓國 1.龍頭企
111、業龍頭企業單位單位(1)韓國 韓國個人信息保護委員會 1 月 31 日表示,個人信息委將向 DeepSeek 總部發送質詢函,內容包括了解人工智能利用個人信息的學習過程等,以確認其個人信息收集項目和流程,以及處理和保存方法。個人信息委相關人士表示,DeepSeek 在韓國的用戶劇增,引發各種憂慮,因此采取上述措施。委員會將根據回信內容等進行綜合考量。(2)LG LG AI 研究院等機構已啟動對 DeepSeek AI 模型的測試和分析。(3)三星 1 月 31 日,三星電子存儲事業部副社長金宰?。ㄒ簦┰跇I績說明會上表示:“我們正在密切關注業界動向,并針對不同情況制定多種應對方案?!彼M一步指出
112、,目前可獲得的信息有限,因此尚難以準確評估 DeepSeek 的影響,但預計市場上既存在長期機遇,也存在短期風險。2.政府政府及公共機構及公共機構 57(1)韓國代理總統崔相穆將 DeepSeek 稱之為“新的沖擊”韓聯社 2 月 5 日報道稱,多家韓國公共機構和民營企業以擔憂中國產人工智能(AI)大模型“DeepSeek”(深度求索)引發所謂“過度采集用戶信息”為由,發布 DeepSeek 禁令。其中,韓國 IT 巨頭 Kakao 內部公告稱,禁止員工在工作中使用 DeepSeek;韓移動運營商 LG U+當天也禁止在內聯網使用 DeepSeek,還建議員工盡量避免在個人電腦上使用DeepS
113、eek,并提醒利用該工具時勿輸入“敏感或重要的個人信息”;此外,韓國兩大能源國企宣布禁止使用 DeepSeek,韓國代理總統崔相穆將 DeepSeek 稱之為“新的沖擊”,并直接端出 34 萬億韓元(約合人民幣 1710 億元)的新基金用于支持 AI 和半導體技術發展。他提出韓國的目標是成為世界三大 AI 領先國家之一。(2)韓國祥明大學 韓國祥明大學半導體系統工程學科教授李鐘煥(音)表示,“DeepSeek 提出的并非全新的概念,但它與未來 AI 半導體的發展方向是密切相關的。隨著內存與非內存半導體需求的增加,國內企業也應迅速完成商業化進程,搶占市場先機”。(四)其他國家(四)其他國家 1.
114、政府政府及公共機構及公共機構 58(1)澳大利亞 2 月 4 日,澳大利亞宣布禁止中國人工智能 DeepSeek 在政府系統和設備上使用,聲稱其構成所謂“國家安全”風險。(2)日本 日本數字大臣平將明稱,希望通過內閣網絡安全中心提醒各省廳注意,從保護數據的角度說,在不能消除擔憂之前,希望各省廳公務員謹慎使用中國初創企業 DeepSeek 開發的人工智能模型。他在沖繩縣名護市發表演講時表示,“個人信息能否得到切實保護是問題所在。從保護用戶個人信息的角度看,如有必要,個人信息保護委員會應采取相應措施”。(3)印度 印度電子和信息技術部長阿什維尼瓦伊什瑙表示,印度計劃在未來 10 個月內開發本土大語
115、言模型,并將 DeepSeek部署在印度的服務器上。八、DeepSeek 大模型的經驗啟示(一)技術(一)技術 1.中科院為何中科院為何難現難現 DeepSeek 式突破式突破(1)制度基因的先天性分野 1、目標函數錯位:國家使命與市場生存的本質差異 中科院自 1949 年成立之初就被賦予國家戰略科技力量的定位,其核心 KPI 始終圍繞重大基礎研究、關鍵核心技術 59 攻關展開。在 2016-2020 年承擔的 173 項國家重大專項中,92%屬于追趕型技術,僅有 8%涉及前沿探索。這種“補短板”導向,使其創新路徑天然傾向于漸進式改良。反觀 DeepSeek 這類民營企業,其生存法則要求必須找
116、到市場空白點實現突破。當 OpenAI 在 2020 年發布 GPT-3時,中科院團隊尚在論證“中文大模型必要性”的立項報告,而 DeepSeek 已用抵押房產獲得的 2000 萬啟動資金開始架構設計。市場機制的靈敏嗅覺與決策速度,在此形成鮮明對比。2、資源分配機制的代際落差 中科院的“課題制”科研模式,至今仍保留著明顯的計劃經濟特征。以某重點實驗室為例,其年度預算中 72%用于設備維護與人員工資,真正投入前沿探索的經費不足 15%。更關鍵的是,科研經費使用需嚴格遵循三公經費管理規定,購買一張 GPU 顯卡需要經歷 6 層審批流程。民營企業則展現出完全不同的資源配置效率。DeepSeek在模型
117、訓練階段,曾創下 72 小時內調用 3000 塊 A100 芯片的紀錄。這種資源調度的敏捷性,源于其構建的云算力交易所創新模式通過區塊鏈技術將分散的算力資源證券化,實現算力資產的實時交易與組合優化。3、人才激勵的范式沖突 中科院實行的“職稱-項目-獎勵”三位一體評價體系,導致科研人員深陷“四唯”(唯論文、唯職稱、唯學歷、唯獎項)60 困局。某人工智能團隊負責人透露,其團隊每年需完成 12 篇SCI 論文的硬性指標,直接擠壓了 30%的工程化時間。這種機制下,科研人員更傾向于選擇風險小、易出成果的改良型課題。而 DeepSeek 等企業構建的“技術期權池”制度,讓核心研發人員可分享產品商業化收益
118、的 15%-25%。其首席科學家年僅 32 歲,卻掌握著數億元研發資金的自主支配權。這種高風險高回報的激勵機制,吸引了大批頂尖人才從體制內出走2022 年清華計算機系博士畢業生中,選擇加入科技創業公司的比例首次突破 60%。(2)創新效率的量子級差距 1、技術迭代速度的維度差異 在深度學習領域,中科院某團隊 2018 年啟動的智源大模型項目,歷時三年完成千億參數模型訓練。而 DeepSeek 在2021-2023 年間,實現了從百億參數到萬億參數的六級跳。這種速度差源自兩者完全不同的技術進化路徑:前者遵循立項-論證-采購-開發的線性流程,后者采用開發-測試-迭代的敏捷模式。更值得關注的是技術路
119、線的選擇機制。中科院團隊在模型架構設計階段,需組織三次專家評審會,耗時近五個月完成技術方案論證。而 DeepSeek 通過 A/B 測試平臺,可在 24 61 小時內完成 20 種架構方案的并行驗證,利用實時數據反饋快速決策。2、工程化能力的代際鴻溝 中科院某自然語言處理實驗室的成果轉化率長期徘徊在 8%左右,其開發的語義分析系統在真實場景中的錯誤率是商業產品的 3-5 倍。究其原因,在于缺乏工程化思維研究人員更關注算法在標準數據集上的表現,而非實際應用中的魯棒性。DeepSeek 則構建了獨特的場景反哺機制。在開發醫療對話系統時,其工程師團隊直接入駐三甲醫院急診科,通過2000 小時的真實醫
120、患對話記錄優化模型。這種浸泡式開發使其產品在特定場景的準確率達到 97.3%,遠超學術界的benchmark 水平。3、生態系統的降維打擊 中科院的創新生態仍停留在實驗室-期刊-評獎的閉合循環,其技術成果轉化主要依賴技術轉讓辦公室(TTO)。統計顯示,中科院近五年專利轉化平均周期為 4.7 年,且 76%的轉化發生在關聯企業。這種封閉性導致創新要素難以流動。而 DeepSeek 搭建的開源社區已吸引全球 23 萬開發者參與,形成了技術突破-開源共享-商業變現的飛輪效應。其開發的 MoE(混合專家)架構通過開源快速迭代,在 GitHub 上 62 獲得 8.4 萬星標,衍生出 300 多個行業解
121、決方案。這種開放創新模式帶來的網絡效應,是傳統科研機構難以企及的。(3)體制突圍的艱難探索 1、中科院的自我革新實驗 面對困局,中科院并非毫無作為。其 2018 年啟動的“率先行動”計劃,試圖在管理體制上突破:成立深圳先進院等新型研發機構,實行“預算包干制”;在合肥建設“科學島”,探索“沿途下蛋”式成果轉化。但這些改革仍受制于事業單位體制某新型研究院在嘗試員工持股時,因觸及國有資產管理規定被迫中止。2、新型研發機構的第三條道路 蘇州生物醫學工程研究所的事業單位+市場化運營雙軌制試驗頗具啟示。該所通過設立產業基金控股產業化公司,科研人員可保留編制參與創業。這種模式下誕生的心擎醫療,僅用三年就研發
122、出國產首個體外人工心臟。但這種模式推廣面臨制度障礙:涉及編制、社保、國資監管等多重政策壁壘。3、國家實驗室的體制嫁接嘗試 合肥量子信息科學國家實驗室引入民營資本參與建設,形成“國家所有、混合運營”模式。實驗室將基礎研究設施向國盾量子等企業開放,企業則反饋工程化經驗。這種協同創新使中國量子通信技術保持領先,但知識產權歸屬等深層矛盾仍未完全破解。63(4)破局之道:構建科技創新共同體 1、制度層面的“破壁工程”-推行創新特區政策,在特定領域允許科研機構試行企業化運營-建立“技術移民”通道,打破事業單位編制對人才流動的束縛-改革科研經費管理制度,引入“負面清單”和“里程碑撥款”機制 2、評價體系的范
123、式重構-建立“三維評價”體系:學術價值(30%)、產業影響(40%)、社會效益(30%)-試點“終身追認制”,對基礎研究成果實行長期價值評估-將技術轉移成效納入機構考核核心指標 3、創新要素的量子糾纏-構建“國家實驗室-民營企業-風險投資”創新聯合體-建立科研設施共享平臺,將 1500 億元存量設備資產證券化-發展技術經理行業,培育專業化的科技成果轉化服務商 64(5)超越二元對立的創新哲學 中科院與 DeepSeek 的對比,本質上是兩種創新范式的時代對話。前者代表著重型化、組織化的“大科學”傳統,后者彰顯著敏捷化、網絡化的“新科學”特征。在 AI 制藥領域出現的“中科院基礎研究+Biote
124、ch 公司臨床開發”新模式,預示著未來科技創新既非單純的體制內突破,也不是完全的市場化奇跡,而是需要構建更具彈性的創新生態系統。當中國科技創新進入“無人區”,或許真正的破局點在于:如何讓中科院的戰略定力與 DeepSeek 的市場銳度發生化學反應,孕育出兼具國家使命擔當與市場生存能力的“新物種”。這場靜悄悄的科技體制改革,或將決定中國能否在下一個創新周期掌握定義未來的權力。2.王凡、劉少山:中國如何引領全球具身智能?王凡、劉少山:中國如何引領全球具身智能?DeepSeek 的戰略啟示的戰略啟示AI 觀察觀察 在人工智能領域的迅猛發展浪潮中,一個名為 DeepSeek的新興 AI 大模型應用異軍
125、突起,以超乎想象的速度躍居全球科技舞臺的中心。在極短的時間內,其每日活躍用戶數量便超越了先前的熱門平臺 ChatGPT,并在此后的日子里持續激增,成功觸及 2000 萬日活躍用戶的里程碑,彰顯了驚人的成長動能。這一非凡成就不僅令 OpenAI 與 NVIDIA 等業界巨頭深感驚訝,同時也激起了國內 AI 企業的熱烈反響。阿里云、騰 65 訊云等國內科技領軍企業迅速表態,宣布對 DeepSeek 提供支持,此舉標志著中國 AI 企業在全球范圍內的競爭力邁上了一個嶄新的臺階。本文通過借鑒 DeepSeek 的發展經驗,探討中國如何構建自主創新、開源、可落地的具身智能技術路線,并引領全球發展。Dee
126、pSeek 通過自主創新和開源,不僅提升了中國在AI 領域的技術獨立性,也推動了產業升級,增強了中國在國際 AI 競爭中的發展信心。沿著這一思路,未來我國具身智能的發展需要具備幾個關鍵特征:開源、可落地、適應多個應用場景,并能夠成為國際標準的基礎模型。最近發布的具身智能開源項目 OmniRL 突破了上下文強化學習的上限,展示了上下文強化學習這一技術路線的可行性。作為開源項目,OmniRL 展現了可賦能多個產業的巨大潛力。與 DeepSeek 類似,OmniRL 為中國在全球具身智能標準的制定中提供了技術支持,幫助中國在國際 AI 競爭中占據有利位置。(1)DeepSeek 的突破對具身智能的啟
127、示 最近,DeepSeek 的橫空出世讓人們看到了中國在通用人工智能(AGI)領域突破技術壁壘、擺脫國際依賴、構建本土生態的巨大潛力。作為一家專注于 AGI 研發的公司,DeepSeek 在自然語言的復雜推理訓練上取得關鍵性突破,打破了長期以來西方科技巨頭在大模型領域的壟斷格局。DeepSeek 的成功不僅推動了中國 AI 產業的自主創新,還在 66 國家安全、國際競爭、數據主權等方面提供了戰略支撐,使中國在全球 AI 競賽中占據了重要地位。然而,DeepSeek 的變革局限于語言智能領域,人工智能的終極目標不僅僅是處理文本、生成語言,而是具備理解、推理、決策和執行的能力,能夠在復雜的物理世界
128、中自主學習并適應變化。真正的通用智能需要超越語言模型,邁向具身智能(Embodied AI)。具身智能不僅需要理解世界,還要能夠在物理世界中感知、決策并行動,具備自適應能力,在不斷變化的環境中自主學習。如何構建具備通用學習能力的具身智能,將成為下一代人工智能發展的關鍵。(2)DeepSeek:推動中國 AGI 領域自主創新 DeepSeek 的崛起代表了中國在大語言模型領域的一次重要突破。它不僅在技術層面挑戰了國際科技巨頭,也在戰略層面打破了中國對西方技術的依賴。DeepSeek 推出的大模型(如 DeepSeek-R1)在自然語言的復雜推理中展現了卓越的性能,特別是在中文語境下,部分表現甚至
129、優于國際競品。這一技術突破標志著中國在 AGI 領域的崛起,打破了過去在關鍵技術領域的依賴局面。DeepSeek 在產業升級方面也作出了重要貢獻。通過自主研發底層框架和訓練方法,DeepSeek 不僅降低了中國在人工智能技術上的外部依賴,還推動了中國 AI 產業的全面升級?,F在 DeepSeek 的技術已經深度滲透到金融、醫療、教育、制 67 造等多個行業,賦能這些行業的數字化轉型并提升效率。以金融領域為例,DeepSeek 的模型在金融風控中提供了更精準的數據分析,幫助企業更好地預測風險并做出決策。在國際競爭中,DeepSeek 增強了中國在全球 AI 話語權爭奪中的籌碼。隨著中國在人工智能
130、領域的崛起,DeepSeek讓中國能夠與美歐等科技大國平起平坐。通過技術輸出、開源模型等方式,DeepSeek 為中國爭取到了在 AI 倫理、安全等領域的更多話語權,逐步扭轉了國際 AI 標準長期由西方主導的局面。(3)具身智能:人工智能從虛擬世界走向物理世界 盡管 DeepSeek 在語言智能領域取得了突破,但人工智能的終極目標遠不止于此。具身智能是下一階段發展的關鍵,它的目標是讓人工智能不僅局限于基于共性知識的信息處理和語言推理,還能夠像人類一樣感知和適應陌生環境,理解新任務,并做出自主決策。具身智能的挑戰在于如何讓 AI具備理解、感知、推理、決策和執行的能力,同時能夠在復雜、多變和非共性
131、的物理環境中自主學習并適應新的任務。例如,工業機器人不僅需要理解不斷調整的生產任務,還需要在變化環境中持續改進技能;自動駕駛系統不僅要處理一些常識范圍內的問題,還需要處理長尾的,超越共性知識的復雜突發問題,這也正是目前自動駕駛落地最大瓶頸之一。因此,具身智能要求 AI 系統具備比語言模型更高的復 68 雜度,包括本體異構、長時記憶、實時決策和實時自主學習。當前的強化學習方法雖然在多個領域取得了成功,但在具身智能的實現過程中仍然面臨許多挑戰。傳統強化學習方法依賴大量的訓練數據,并且通常只能在固定任務環境下進行學習,缺乏對未知任務的泛化能力。同時,傳統模型往往依賴梯度優化,導致它們在任務切換時容易
132、發生“災難性遺忘”,無法像人類一樣進行終身學習。要突破具身智能的瓶頸,必須構建出既能適應當前任務又能在新環境中進行自我進化的智能體。(4)上下文強化學習:具身智能的發展方向 隨著具身智能的不斷發展,上下文強化學習(In-Context Reinforcement Learning,ICRL)為這一領域提供了新的研究方向。傳統的強化學習方法通常依賴于特定環境中訓練好的策略,這些策略對于任務和環境變化的適應能力較差,限制了智能體的泛化能力。在面對新任務或變化環境時,傳統強化學習方法往往需要重新進行大量訓練,而不能像人類一樣快速適應。上下文強化學習正是為了解決這一問題。ICRL 通過結合上下文信息(
133、如環境的動態變化或外部輸入)來調整學習策略,使得智能體能夠更加靈活地應對任務變化和環境的不確定性。這種方法不僅可以在已知環境中優化策略,還能在新的、未知的環境中迅速調整和學習,而無需從頭開始訓練。69 在具身智能的背景下,上下文強化學習能夠幫助智能體在多樣的物理環境中做出適應性決策,增強了智能體的靈活性和自主學習能力。OmniRL 進一步突破了上下文強化學習效果和泛化能力的上限。OmniRL 基于馬爾可夫決策鏈假設生成產生了百萬級別的環境和任務,以及百億時間步的強化學習過程數據。利用大規模元訓練(Meta-training)方法,OmniRL 使智能體不再只針對特定任務或一類任務,而是學會在廣
134、泛任務中“如何學習”的能力,突破了傳統強化學習方法的限制。這使得 OmniRL 能夠以很好的表現適應完全沒有訓練過的強化學習任務。OmniRL 另外一個核心貢獻是證明了任務多樣性而不是數據量對于智能體學習能力的重要性。OmniRL 證明隨著任務數量增加,模型能夠從掌握任務本身,轉變為掌握更“如何學習”的能力,這種能力對比前者泛化性更強。同時還證明了,這種自主學習能力,對于上下文長度會提出更高要求,從根源上證明了長序列推理的重要性。為了區分以掌握任務本身為目標的“預訓練”方法,OmniRL 凸顯了以“如何學習”為目標而不以掌握具體任務為目標的“元訓練”的潛力。OmniRL 采用的大規模高效線性注
135、意力機制,提升了模型在長序列任務中的表現和長期記憶能力,使得智能體能夠 70 像人類一樣在長期交互過程中進行學習,并具備更強的環境適應性。盡管 OmniRL 在研究領域中展現出較高的潛力,但它仍處于探索階段,尚未實現大規模應用。我們應當保持謹慎態度,認識到具身智能的成熟仍需要克服諸多技術挑戰,特別是在復雜高維系統、本體異構、實時決策等方面。(5)具身智能的應用前景與行業變革 具身智能的廣泛應用將帶來深刻的行業變革,特別是在智能制造、自動駕駛、智能醫療等領域。具身智能能夠使工業機器人在生產線自主適應不同任務,提升生產線的柔性化程度,減少對人工干預的依賴。例如,在自動駕駛領域,OmniRL 的自主
136、學習能力將有助于系統適應全新的交通規則,陌生的室外和停車場環境,以及完全不同的硬件條件。在智能醫療領域,具身智能可以輔助醫生針對個體病患提供長期跟蹤的,精準的個性化健康管理服務。此外,具身智能將在教育、物流、農業等多個行業帶來革命性的變革。它不僅提升了生產力和效率,還能夠改變傳統行業的運作模式,推動產業升級和新經濟模式的形成。通過具身智能的應用,企業能夠實現更加智能的自動化生產,提供更加高效的個性化醫療方案,以及更靈活的城市交通管理。71(6)政策建議:開源發展、標準化和產業化落地 隨著全球對具身智能技術的日益關注,中國在這一領域的加速發展需要政策層面的強力支持。為確保中國在全球 AI競爭中的
137、領先地位,政策可以從以下三個方面著手,推動具身智能的技術突破、產業化應用和社會融合。一是支持開源發展,促進技術創新和全球合作:開源是加速具身智能技術創新的關鍵。政府應鼓勵科研機構和企業積極參與具身智能的開源項目,推動核心技術、算法和平臺的共享與合作。通過資助開源平臺建設和資源共享,政府能促進技術創新、降低研發成本,并增強中國在全球 AI 開源社區的影響力。二是制定具身智能標準,確保技術可控性和安全性:具身智能的快速發展離不開標準化的引導。政府應主導制定符合中國需求的具身智能技術標準,以涵蓋數據安全、倫理規范和行業應用等方面。這不僅能保證技術的可控性、可靠性和安全性,還能增強中國在國際標準化工作
138、中的話語權,推動全球技術競爭中占據主動地位。三是推動具身智能的產業化應用:政府應通過專項資金支持和稅收優惠政策,推動具身智能技術在智能制造、醫療健康、自動駕駛等行業的應用落地。通過設立示范基地和產業園區,加速技術從實驗室到市場的轉化。同時,應鼓勵跨 72 行業合作,推動實際應用的試點和商業化,幫助企業降低技術應用的風險和成本。(7)結論:把握技術機遇,領導未來的全球 AI 競爭 推動各行業發展的核心驅動力。政策制定者應當高度關注具身智能的發展趨勢,抓住這一戰略機遇,加速技術的進一步突破和產業化應用,確保中國在全球人工智能競賽中的長期領先地位。未來,具身智能的廣泛應用不僅將改變人類的工作和生活方
139、式,還會成為全球科技競爭中的新方向,推動人工智能技術發展進入一個全新的時代。(8)本文作者 王凡:現任深圳市人工智能與機器人研究院(AIRS)具身智能中心研究員,在人工智能產業和研究方向上有超過 15年經驗,曾獲得吳文俊人工智能科技進步獎特等獎。劉少山:現任深圳市人工智能與機器人研究院(AIRS)具身智能中心主任,ACM 科技政策委員會成員、IEEE 國際設備和系統路線圖(IRDS)機器人計算方向主席。研究方向為具身智能、計算系統、科技政策。3.專家觀點專家觀點|魯傳穎:人工智能重塑國家安全的范式魯傳穎:人工智能重塑國家安全的范式和邏輯和邏輯 文|同濟大學政治與國際關系學院教授,網絡空間國際治
140、理研究基地常務副主任 魯傳穎 73 人工智能(AI)作為一項具有戰略性、通用性和軍民兩用性特點的技術,其與國家安全之間的復雜關聯愈發引人關注。歷史經驗表明,戰略性技術如核武器、太空技術和互聯網,往往與國家安全密不可分,它們不僅推動了技術的進步,也在軍事、情報和政治領域發揮了巨大作用。烏克蘭危機中,人工智能技術在認知戰、情報戰、無人機、無人作戰車輛、巡飛彈、衛星圖像識別、決策輔助和網絡對抗等領域的廣泛應用,凸顯了其在國家安全中的重要地位。同時,人工智能的通用性特征使其成為類似電力般的革命性技術,能夠在醫療、金融、制造、教育、交通等多個領域帶來創新和優化。這種廣泛的應用潛力使得人工智能不僅在民用領
141、域大有作為,而且對軍事應用也產生了深遠影響。與此同時,人工智能的軍民兩用性也導致其在國家安全中出現泛安全化問題。隨著人工智能技術的不斷發展,國家安全進入了數字化和智能化時代,技術安全風險也在深刻塑造和改變國家安全的性質與特點。因此,我們需要深入思考人工智能將如何塑造未來的國家安全,并探討國家安全治理體系的變革趨向。(1)人工智能賦能國家安全 人工智能作為一項革命性的通用技術,正以前所未有的速度和廣度滲透到國家安全的各個領域,對傳統的國家安全邏輯和政策版圖帶來了全面而深刻的影響。人工智能不僅通過其強大的技術賦能,改變了國家安全的內容和政策實踐,74 使得傳統的安全觀念與治理策略面臨前所未有的挑戰
142、;同時,它還通過重塑戰爭形態,顛覆了人們對國家安全認知的傳統框架,使國家安全的內涵和外延發生了重大變化。隨著私營部門在人工智能技術領域的崛起,越來越多的尖端科研成果出自企業之手,而非傳統的國家實驗室。這一變化不僅為國家安全帶來了新的機遇和活力,也造成了諸多復雜而棘手的問題。因此,深入探討人工智能對國家安全的影響,不僅有助于我們更好地理解這一技術革命帶來的挑戰和機遇,更有助于我們為國家安全戰略和政策制定提供科學依據和有力支撐。1)人工智能重塑公民國家安全認知:戰爭形態與信息戰 隨著人工智能技術的飛速進步,未來的戰爭模式正醞釀著一場根本性的變革。傳統的人力密集型軍事任務,如前線偵察、物資運輸及直接
143、火力支援等,正逐步被高度智能化的機器人與無人機系統取代。這一轉變不僅顯著降低了軍事行動中的人員傷亡風險,還極大地提升了作戰的效率與精確打擊能力,使得戰爭形態向更高效、更精準的方向發展。掌握先進人工智能技術的國家在信息戰中占據顯著的優勢地位。人工智能技術憑借其強大的數據處理與分析能力,能夠迅速識別敵方的戰略弱點與作戰意圖,為決策層提供精確、及時的情報支持,從而在戰爭中贏得先機。此外,人工智能技術還通過模擬與預測戰爭進程,為軍事戰略與戰術的制定提供 75 科學依據。通過構建復雜的戰爭模型,人工智能可以模擬不同戰略選擇下的戰爭發展態勢,幫助指揮員作出更為明智的決策。這種基于數據的戰爭規劃方式,無疑將
144、極大地提升戰爭的勝算。2022 年烏克蘭危機作為近年來全球范圍內爆發的重大沖突之一,被普遍認為是首次大規模應用人工智能技術參與作戰的現代戰爭。在這場沖突中,雙方不僅利用社交媒體平臺傳播虛假信息,以干擾對方的士氣與決策,還借助先進的衛星圖像分析軟件,實時追蹤敵軍動向,為精確打擊提供有力支持。這些實例充分展示了人工智能技術對未來戰爭形態的深刻影響,預示著在未來的戰爭中,人工智能技術將發揮越來越重要的作用,成為決定戰爭勝負的關鍵因素之一。因此,應高度重視人工智能技術在軍事領域的應用與發展,加強相關研究與投入力度,以確保國家安全。2)人工智能全面賦能國家安全能力:情報分析能力躍升 在國家安全這一關鍵領
145、域內,人工智能技術的應用正逐步深化,其影響力從最初的簡單分類任務擴展至復雜的決策支持過程。在情報分析的前沿陣地,人工智能技術以其卓越的數據處理能力,對源自社交媒體、新聞報道、衛星圖像等多維度的海量數據進行深度掃描與智能分析,能夠精準捕捉異?;顒盂E象,及時預警潛在的安全威脅。這一能力的躍升,不僅極大提高了情報分析的精確度與時效性,更為決策層提供了全面、準確的信息。隨著生成式人工智能的突破,通過 76 高效整合文本、圖像、音頻等多模態信息,實現了內容信息生產方式的變革,為國家安全戰略的實施提供了更為靈活多變、全面深入的支持框架。3)人工智能打破國家安全資源壟斷:私營部門的角色與國際合作 在全球范圍
146、,人工智能不僅引發了軍事和情報領域的革命,更打破了政府對于國家安全的壟斷。長期以來,政府作為國家安全事務的主導者乃至唯一合法參與者,掌握著安全領域的先進技術、威脅情報、高端人才等資源。然而,隨著人工智能技術的迅猛發展,這一傳統格局正經歷著前所未有的變革??萍计髽I在人工智能技術領域展現出強大的研發實力與創新能力,成為推動人工智能技術進步不可或缺的力量。大型國際科技企業的崛起,無疑對國家安全格局產生了深遠且復雜的影響。從積極層面看,科技企業的參與為國家安全注入了新鮮血液,帶來了更多的技術創新與支持,有助于提升國家安全的整體效能。然而,私營企業的利益訴求與價值取向往往與國家安全目標存在潛在的沖突與矛
147、盾,如何在保障國家安全的同時兼顧私營企業的合理利益,已成為亟待解決的重要議題。面對這一挑戰,國際社會開始積極探索建立更為開放、包容的合作框架,以期在人工智能技術與國家安全之間找到平衡點。與此同時,各國政府也在積極尋求與私營企業的深度合作,通過政策引導、資金扶持等多種手段,77 鼓勵私營企業積極參與國家安全領域的研發與應用。這種政府與企業攜手并進的合作模式,不僅加速了人工智能技術的迭代升級,還提升了國家安全的整體水平與應對能力,為構建更加穩固的國家安全體系奠定了基礎。(2)人工智能技術安全對國家安全的深層次影響 賦能國家安全僅為人工智能的影響之一,其更為深刻且廣泛的效應在于人工智能自身所蘊含的技
148、術安全性對國家安全本質與特性的重塑。隨著人工智能與國家安全的全面深度融合,人工智能技術中潛藏的安全風險亦隨之滲透至國家安全的各個維度與環節,形成了一種復雜的映射關系。若缺乏對人工智能技術安全性的深刻理解,便難以準確把握國家安全所面臨的新態勢與新特征。人工智能技術安全(AI Safety),其核心在于確保人工智能系統自身的安全性與可信賴性?;谀P退惴ǖ娜斯ぶ悄芟到y,面臨著諸如“黑箱操作”、算法偏見、惡意誘導、認知幻覺、系統操縱等多重風險,直接關乎人工智能是“向善”還是“向惡”,是穩定運行還是走向失控。從技術治理的視角出發,增強算法模型的可解釋性、透明度及魯棒性,是構建人工智能安全可信框架的關鍵
149、路徑。然而,技術治理并非“萬能鑰匙”,無法全然消解人工智能系統面臨的所有風險,原因在于人工智能技術與風險之間存在著一種共生共存的復雜關系。78 更深層次地,人工智能在全面、顛覆性、革命性地賦能國家安全的同時,也驅動了國家安全范式的深刻轉型從追求確定性因果機制的傳統模式,轉向應對不確定性相關性機制的新范式。在這一范式轉換的過程中,國家安全正面臨著風險來源多樣化、系統安全脆弱性加劇、治理邊界模糊化、威脅認知不確定性增加等一系列挑戰。這些挑戰要求我們在享受人工智能帶來的安全與效率提升的同時,必須深刻洞察并妥善應對由人工智能技術發展所引發的國家安全新變局。一是風險來源多樣化。在傳統國家安全領域,能夠威
150、脅到國家安全的風險來源相對明確。這使得國家只需要將有限的資源投入相對重要的領域就可以在最大程度上維護國家安全。人工智能技術廣泛應用所帶來的影響之一便是加速了國家安全風險來源的多樣化。在傳統國家安全框架中,軍事威脅占據主導地位,而隨著人工智能技術的滲透與融合,網絡攻擊、信息戰、經濟間諜活動等新型威脅日益凸顯,構成了對國家安全的復雜挑戰。人工智能技術為網絡攻擊提供了更為強大的工具與手段。相較于傳統的人工操作,人工智能技術能夠實現自動化、智能化的網絡攻擊,極大地提高了攻擊的效率與規模。此外,人工智能技術在信息戰中的應用,使得虛假信息的制造與傳播變得更加容易與逼真。深度偽造技術(deepfake)便是
151、其中的典型代表。通過先進的機器學習算法,深度偽造技術能夠 79 生成高度逼真的虛假視頻與音頻,從而誤導公眾,破壞社會穩定。不僅如此,人工智能技術還可能被用于經濟間諜活動,竊取國家重要經濟數據與商業機密。攻擊者可以利用人工智能算法對海量數據進行深度挖掘與分析,從中獲取有價值的信息與情報,進而對國家經濟利益造成損害。二是威脅認知不確定性。人工智能系統的“黑箱”特性增加了威脅認知的難度。許多先進的人工智能模型,尤其是深度學習模型,其內部決策機制復雜且難以解釋,導致國家安全機構在理解人工智能系統行為、預測其潛在風險時面臨巨大挑戰。這種不透明性不僅限制了國家安全機構對人工智能系統安全性的全面評估,還可能
152、為惡意攻擊者提供隱蔽的操作空間,進一步加劇威脅的不確定性。對于關鍵的國家安全設施如核控制系統,在與人工智能系統相結合后不透明性增加,使得核控制系統在關鍵時刻的決策過程難以預測和解釋,這可能導致在緊急情況下引發對系統決策的質疑,進而影響整體的國家安全。面對人工智能技術帶來的威脅認知不確定性,國家安全策略的制定與實施需進行相應調整與優化。一方面,國家安全機構應加強對人工智能技術的深入研究與持續監控,建立快速響應機制,確保能夠及時識別并應對新出現的威脅。這包括投資研發先進的檢測工具、建立跨部門協作機制以及提升人員的技術能力等。另一方面,國家安全策略應更加注重 80 靈活性與適應性,以應對人工智能技術
153、帶來的不確定性。這意味著需保持對人工智能技術發展趨勢的敏銳洞察,不斷調整策略方向與重點,確保國家安全體系能夠有效應對不斷變化的威脅環境。三是系統安全脆弱性。人工智能系統的復雜性與高度互聯性如同一把“雙刃劍”,在賦予系統強大處理能力的同時,也無形中擴大了安全漏洞的暴露面,為潛在的安全威脅提供了可乘之機。人工智能系統的復雜性、快速迭代性、對數據的高度依賴以及決策過程的不透明性,共同構成了其安全脆弱性的核心要素。面對這一挑戰,需加強人工智能系統安全標準的制定與執行,推動安全技術創新,提升系統的魯棒性與自恢復能力,同時加強數據保護與治理,確保人工智能技術的健康發展,為維護國家安全與社會穩定奠定堅實基礎
154、。人工智能系統的“機器幻覺”進一步增加了安全的脆弱性。人工智能系統往往由多層算法、模型及海量數據交織而成,不僅容易出現穩定性差的問題,還經常會出現“幻覺”,包括一些情況下“一本正經的胡說八道”。對此,探索“機器幻覺”出現的原因以及如何對其矯正需要耗費大量的時間,并且難以保證其不會再次出現類似情況。在系統自身易出現幻覺的情況下,如何預防人工智能應用過程中出現的風險成為了高難度的挑戰。81 人工智能系統對數據的高度依賴性,構成了其安全脆弱性的另一重要維度。數據作為人工智能系統的“血液”,其質量與完整性直接關系到系統決策的準確性與可靠性。然而,數據在收集、存儲、處理及傳輸過程中,面臨著被篡改、污染或
155、竊取的風險。一旦訓練數據遭到惡意操縱,人工智能系統便可能基于錯誤的信息作出決策,從而引發嚴重的安全問題。例如,在自動駕駛汽車領域,若訓練數據被故意篡改,車輛可能無法正確識別道路標志、行人或其他車輛,進而在實際行駛過程中發生碰撞事故,不僅危及乘客生命安全,還可能對公共交通安全構成重大威脅。四是治理邊界模糊性。隨著人工智能技術的迅猛發展,其跨領域、跨行業的廣泛應用正逐步重塑著國家安全的治理框架,其中最為顯著的影響之一便是治理邊界的模糊性。這一模糊性不僅體現在國家安全治理的傳統領域與新興領域的交織上,還深刻影響著國際法與國內法應對人工智能相關安全挑戰的適用與協調。在傳統意義上,國家安全治理主要聚焦于
156、軍事防御與情報收集,這些領域有著明確的組織架構、法律基礎及操作流程。然而,人工智能技術的廣泛應用打破了這一界限,使得國家安全議題不再局限于傳統的硬實力范疇,而是滲透到經濟、社會、科技等多個維度。例如,在金融領域,人工智能算法被用于風險評估、市場預測等,其決策過程與結果直接 82 影響到國家經濟的穩定與安全;在醫療領域,人工智能輔助診斷、藥物研發等雖提高了醫療服務效率,但也帶來了患者隱私泄露、醫療數據安全等新的公共衛生安全問題。這些跨領域的應用使得國家安全治理的邊界變得模糊,傳統建立在科層制基礎之上的治理機制,由于不同部門負責專門事務,難以有效覆蓋所有潛在風險,甚至出現治理失靈。(3)人工智能時
157、代的國家安全治理體系 各國政府普遍對人工智能所帶來的廣泛機遇與復雜挑戰給予了高度重視,并據此制定了一系列相關的國家戰略、政策舉措,同時設立了專門的治理機構以應對這一新興領域的獨特需求。在國際安全層面,無論是聯合國等多邊國際組織,還是諸如北大西洋公約組織、上海合作組織等區域性組織,均建立了相應的治理機制,旨在規范和引導人工智能的健康發展。然而,現有的治理機制主要基于國際社會在核軍控、大規模殺傷性武器軍控等傳統安全領域的知識和經驗,在應對人工智能所帶來的風險來源多樣化、系統安全脆弱性、治理邊界模糊性、威脅認知不確定性等新型挑戰時,顯現出較強的不適應性。這種不適應性若未及時關注和有效解決,極易導致泛
158、安全化和過度安全化等負面現象的出現,不僅會大幅增加社會的整體成本,還可能對人工智能技術的創新與發展產生抑制作用。83 因此,國際社會亟需從理念層面、機制構建、方法創新以及議程設置等多個維度出發,重新構建一套適用于人工智能技術風險的國家安全治理體系。這一體系應充分考慮到人工智能技術的獨特性與復雜性,以及其對國家安全、社會穩定和全球經濟發展的深遠影響,從而確保在保障國家安全的同時,也能促進人工智能技術的健康、可持續發展。首先,在治理理念層面,應構建一個基于人工智能安全風險的全面認知框架。人工智能為國家和社會帶來的安全風險具有長期性、持續性特征,且不存在一勞永逸的解決方案。這些風險主要源自三個維度:
159、技術本身的缺陷與不完善性、技術的濫用及不負責任的使用,以及社會應對機制的缺失。針對前兩者,技術治理與監管機制的逐步建立已成為趨勢;然而,關于社會如何有效應對人工智能時代風險的探討仍顯不足。從風險韌性社會的視角出發,盡管人類無法根除自然災害,但可通過多種措施減輕其影響。同理,技術缺陷、技術濫用與韌性社會之間應建立一種良性互動關系。過度聚焦于前兩者可能導致追求絕對安全與過度治理的困境。因此,構建人工智能風險韌性社會需從提升公眾與組織的技術素養、建立風險共擔的社會保障體系等方面著手,以實現技術進步與社會發展的和諧共生。其次,在治理機制層面,應著重強調技術標準、法規政策與戰略舉措之間的協同與整合。人工
160、智能作為一項前沿技 84 術,其治理體系必須具備一定的前瞻性與適應性,以確保在技術生命周期的各個階段都能實施有效的監管和引導。技術標準作為治理的基礎,應確保其具有科學性、合理性和可操作性,為人工智能技術的研發和應用提供明確的指導和規范。同時,法規政策應與技術標準緊密銜接,通過立法手段明確人工智能技術的合法邊界,保護個人隱私和數據安全,防止技術濫用和惡意攻擊。戰略舉措則是實現技術標準與法規政策協同的關鍵。政府應制定長遠的人工智能發展戰略,明確技術發展的方向和目標,為技術標準和政策法規的制定提供宏觀指導。此外,戰略舉措還應包括建立跨部門、跨領域的協作機制,加強政府、企業、科研機構和社會組織之間的溝
161、通與合作,共同推動人工智能技術的健康發展。在此過程中,敏捷治理成為一種重要的方式。面對人工智能技術的快速迭代和廣泛應用,治理機制應具備靈活性和快速響應能力,能夠及時調整和優化治理策略,以適應技術發展的新趨勢和新挑戰。通過敏捷治理,可以確保治理機制與技術發展的同步性,提高治理效能,促進人工智能技術的可持續創新與發展。再次,在治理方法維度,應構建政府、產業界及研發機構高效協同機制。人工智能的迅猛發展已促使國家安全領域從傳統安全及非傳統安全范疇,逐步邁向數字安全。在此背景下,企業與技術社群在國家安全體系中的地位日益凸顯,85 亟需建立更為高效、靈活的溝通協調機制。傳統的自上而下、等級化及中心化的國家
162、安全技術、知識與信息傳遞模式已難以適應當前形勢,如何更有效地與大型科技企業及技術社群加強聯系,促進政府與企業間人員的流動與交流,成為政府重塑人工智能安全領域權威性的關鍵所在。以美國為例,其人工智能安全治理主要依托人工智能安全研究所進行。與傳統政府機構不同,該研究所人員精簡,主要工作通過與企業合作完成,其核心職能在于搭建政府與企業、企業與企業之間的溝通橋梁。這種定位使研究所更注重成為人工智能安全治理的核心節點,雖不具備傳統政府機構的命令發布權,卻能占據信息與知識的中心位置,進而提升政府在該領域的權威性與影響力。最后,在議程設置層面,需深入關注人工智能時代國家安全所蘊含的豐富內涵,這包括但不限于生
163、存性風險、算法模型風險、應用型風險以及廣義上的國家安全風險。作為人工智能時代最為嚴峻的挑戰之一,生存性風險涉及技術失控、系統崩潰等極端情況,可能對人類社會造成不可逆轉的損害。因此,議程設置應優先考慮如何建立有效的風險預警與應對機制,確保人工智能技術的健康發展。算法模型風險則源于算法設計的不完善、數據偏差以及訓練過程中的不確定性,這些因素可能導致算法決策出現偏差,甚至引發歧視、不公平等問題。在議程設置中,應加強對算法模型的監管與評估,86 確保其公正性、透明度和可解釋性。應用型風險主要關注人工智能技術在具體應用領域可能帶來的安全隱患,如自動駕駛、醫療診斷等。議程設置需針對這些領域的特點,制定具有
164、針對性的安全標準和規范,確保技術的安全應用。此外,廣義上的國家安全風險也是議程設置不可忽視的一部分。人工智能技術的快速發展可能對國家主權、安全和發展利益產生深遠影響。因此,議程設置應充分考慮如何平衡技術發展與國家安全的關系,確保國家在人工智能時代的戰略利益。4.巴黎巴黎 AI 峰會,李飛飛教授開幕演講:當前才是峰會,李飛飛教授開幕演講:當前才是“首“首個真正的個真正的 AI 時代”時代”在全球矚目的巴黎 AI 峰會開幕式上,斯坦福大學李飛飛教授發表生動的演講。作為 ImageNet 創始人,她的每一次公開發聲都格外引人注目。這一次,她帶來了一個跨越五億年的宏大敘事:從生命最初獲得感知能力的進化
165、史,講到如今 AI 的突飛猛進?!昂翢o疑問,歷史學家今后一定會把這段時間稱作真正的第一個 AI 時代?!崩铒w飛在演講中如此斷言。在她看來,從任何維度來看無論是計算機專業中人工智能方向的學生人數、投資金額、新創企業數量,還是技術突破AI 都正在掀起一場深度和廣度空前的革命。以下是演講原文:87 各位早上好,我非常榮幸且激動能夠在本周與大家共聚一堂,并帶來此次開幕演講。我也非常期待接下來最充滿活力的討論,甚至可能做出一些重要決定。(1)人工智能的歷史與起源 對我們許多人而言,人工智能往往被視為一個關于技術、關于現代世界的故事,也毋庸置疑是一個關于未來的故事這正是我們大家今天齊聚于此的原因。然而對我
166、而言,它還是一個可以追溯到所有生命起源之初的故事,早在五億年前就已經開始。那是一個極其久遠的時代,當時連“視覺”這一概念都尚未出現,實際上連眼睛都尚未進化,沒有任何生物曾看過這個世界,所有生命都被置于你現在在屏幕上所看到的那片黑暗當中。當然,要在十分鐘左右的時間里講完五億年的歷史確實有點勉為其難,所以我給大家帶來一個簡要版:當進化賦予了你們在屏幕上所見的這些簡單生物以感知周圍世界并對這些感知(即便十分微弱)做出反應的能力時,一場進化軍備競賽由此展開。最初只是一種被動的體驗讓光線進入體內,但不久之后就變得更加豐富并富有主動性。神經系統開始進化,“看見”開始轉變為“洞察”,看見進而變為理解,而理解
167、則推動了行動,所有這些都孕育了“智能”,從而永久地重塑了地球上生命的本質。時至今日,五億年之后,人類的智能已經讓我們的物種可以想象并塑造工作和生活的方方面面。而我們也不再滿足于僅僅擁有自然 88 賦予的這份智慧。我們懷著的好奇心如今驅使我們想要創造出與我們同樣聰明、甚至更勝一籌的機器。這也是為什么我們本周要討論的這項重要技術,其起源可以追溯到 20 世紀中葉。英國的偉大數學家艾倫圖靈(Alan Turing)極具前瞻性,早在計算機尚未真正出現之前,他就已經開始思考如何讓它們擁有可與人類比肩的認知能力。對我而言,他的著作一直在向人類發出挑戰:要大膽設想能夠思考的機器,就像他自己所想象的那樣。這股
168、好奇心與雄心同樣也感染了美國的早期計算機科學家們,他們不僅舉辦了首個研究項目來探索“會思考的機器”的可能性,還在 1956 年那個炎熱的夏天正式提出了“人工智能”這一術語比這個概念進入公眾視野要早幾十年。這張圖片正是當時他們為那次研討會撰寫的研究論文截圖。說實話,令人覺得有趣的是,他們當時以為只需要兩個月就能解決這一重大課題的很大一部分,甚至能破解智能的奧秘。也許他們太過樂觀,但不得不佩服他們的膽識。如今,我們已經在那個“兩個月項目”里走過了820 個月,但確實也取得了不少實質性進展。(2)現代 AI 三大關鍵要素 另一個對 AI 的誤解在于,認為它只是計算機和工程領域的事情,然而事實上,它一
169、直以來都是一門高度跨學科、富有活力的追求。我們當今所處的現代 AI 時代,正是三項極其重要又各自獨立的技術與科學進步匯聚而成的成果。第 89 一項是對感知算法的研究即生物(包括動物乃至人類)如何理解周圍世界,并最終創造出讓機器也能具備類似能力的數學模型。在達特茅斯 AI 夏季研討會上延續了圖靈的大膽假設之后,神經生理學家 David Hubel 和 Torsten Wiesel 率先揭示了哺乳動物視覺皮層中神經處理的層次結構,為他們贏得了諾貝爾獎,也徹底改變了我們對視覺處理的認知。大約在同一時期,心理學家 Frank Rosenblatt 搭建了最早的神經網絡原型之一感知器(Perceptro
170、n)。這項工作啟發了數十年后無數計算機科學家,尤其是早期先驅者,如 Kunihiko Fukushima、Jeff Hinton、Yann LeCun、Yoshua Bengio 等,去設計愈發先進的模型,最終形成了我們今天所熟知的深度學習神經網絡算法,讓機器擁有了自身近乎神奇的感知和分析能力。與此同時,第二條研究脈絡也開始出現認知科學家轉而研究人類自身的大腦,揭示我們對周圍環境進行感知時所擁有的驚人深度和復雜性。他們的研究明確指出,無法將我們的腦與其所處的進化環境分割開來。大腦不過是一個被禁錮在顱骨黑暗之中的機器,卻又從生命最初時刻開始,就急切地向外部學習,通過每一次光線的照射、每一次觸覺刺
171、激、每一聲細語來獲取信息。對我個人而言,作為在 21 世紀初成長起來的科學家,當時感知算法幾乎是我所在領域的唯一關注點,而認知科學帶給我的啟示在于“規?!?。演化與發育能如此有效地塑造人類智慧,是因為它們能利用大量數 90 據來驅動我們的學習。我和我的合作者、學生們推測,同樣的規律也適用于機器,只不過這一次,數據來自現代數字設備和互聯網,而不再是依靠生物感官。由此激發了我所在實驗室發起的 ImageNet 項目它是第一個針對人工智能的大規?;ヂ摼W訓練與評測數據集。我們提出了一個關鍵假設:數據是讓神經網絡等高容量算法真正“活起來”的關鍵。這個理念讓神經網絡煥發新生,開啟了利用海量數據來推動 AI進
172、步的全球趨勢,也成為如今所說的 AI“規模定律”(scaling law)的一部分。最后,如果沒有極其強大的運算能力來支撐,以上所有成就都不會發生,或者根本連起點都無法跨越。最初的里程碑包括馮諾依曼(von Neumann)在上世紀 40 年代提出的計算機體系結構理論,它一直沿用至今,并在 70 年代初催生了第一批微處理器??捎腥さ氖?,真正讓硅芯片原始運算速度獲得飛躍的,竟是電子游戲。為追求更逼真的游戲畫面,90 年代初誕生了一個小型產業,但在短短二十年內迅速膨脹為全球巨頭以英偉達(NVIDIA)等公司為代表,開發出了越來越強大的圖形處理器(GPU)。結果證明,這恰恰是讓神經網絡算法得以利用互
173、聯網規模大數據進行學習的最后一塊拼圖。所以,如果現場有游戲玩家,那我們要感謝你們。91(3)2012 年之后的 AI 突破 當然,后面的故事不僅僅是“歷史”,更是建構未來的“配方”。2012 年,在 ImageNet 挑戰賽上,我的實驗室率先將算法、數據和計算這三大要素首次大規模結合在一起,幾乎在一夜之間就改變了我們整個領域。那是機器首次能夠理解并準確地描述海量圖像成百上千萬張之多。如今我們對此已經習以為常,但在當時,這是一項前所未有的壯舉,甚至有些像科幻小說里的場景。它就像推倒了第一塊多米諾骨牌,隨后的一系列突破接連不斷,并且來得越來越快。如今,十多年過去了,我們依然在探索這一切的意義。當初
174、只是學術界的一個好奇心驅動的研究,如今卻年復一年地吸引著商界領袖、創業者、行業分析師,甚至政治家們的熱切關注。如今,十多年過去了,我們依然看不到盡頭。毫無疑問,歷史學家今后一定會把這段時間稱作“真正的第一個 AI 時代”。從任何一個你能想到的指標來看無論是計算機專業中人工智能方向的學生人數、投資金額、新創企業數量,還是其他方面AI 都是一場在深度和廣度上不斷擴大的革命。我想在座的各位都不需要我來重復,過去幾年里,人工智能又迎來了更驚人的躍進也就是大型語言模型的出現。這些大型語言模型把現代 AI 所依賴的三大要素算法、數據和計算力都推向了更極致的規模。它們采用了一種名為“Transformer”
175、的新型模型架構,訓練數據幾乎覆蓋了整 92 個互聯網,并在數量驚人的最新、最強大芯片上運行。正如我們所見,其結果是在機器能力上比過去十年來的任何一次突破都更為迅猛?,F在我們幾乎將“AI 可以用自然語言流暢地跟我們對話”視為理所當然,AI 能回答我們提出的幾乎任何領域的問題,甚至能夠生成各種復雜形式的內容從圖像、聲音、音樂到視頻,無所不包。ChatGPT 所取得的驚人成就就是這項創新如何影響我們日常生活的最佳例證,因其創造了用戶采用速度的歷史新紀錄。而且,這些能力并不只是表面上看著“會說話”而已。若你看看這張圖表,會發現AI 模型在各種基準測試(從手寫識別到博士水平的科學問答)上的表現近幾年都在
176、飛速攀升;其中一些難度極高、對人類來說具有挑戰性的任務,AI 的成績簡直像坐火箭一樣往上躥,幾乎呈垂直上升的趨勢。(4)大模型與近期 AI 進展 不僅如此,從能夠流暢使用語言開始,大型語言模型還在朝更具“主動性”的方向發展它們學會了將復雜任務分解成若干步驟,并逐步規劃如何實現目標。人們目前將這種趨勢稱作“具備代理能力(agentic)的 AI”。而在 2025 年,這似乎正成為這場深遠技術演進的新篇章。對許多用戶和企業而言,這些能力已經非常實用,而它們還遠不止于此,后續的發展潛力更是不可估量。我們目前所討論的還大多停留在“語言智能”層面,但人類之所以為人,是因為我們擁有 93 更全面、更完整的
177、智能。從“被動感知”到“主動行動”的新階段正在到來。在我自己的研究領域涉及攝像頭和機器人時,我看到 AI 正逐漸具備“創造、理解、推理和交互”這些維度,進而在數字或物理的三維空間里與人和環境相互作用。我們稱之為“空間智能(spatial intelligence)”和“具身智能(embodied intelligence)”。舉個例子:假設你看到這樣一張圖片,視覺智能很容易讓我們識別出里面的所有物品:那只貓、那盆植物、那張桌子,以及那杯牛奶。但是,這就代表我們感知系統的全部功能了嗎?我敢打賭,其中不少人不僅僅“看懂了”那張圖,還會產生“哎呀,快伸手把那杯牛奶抓住,別讓它掉到地上打碎了!”的沖動
178、。這只是個小例子,但它清楚展示了“從觀察到行動”之間多么巨大的差別,也說明了我認為我們如今所處的拐點:AI 正從觀察者變成與我們并肩行動的“執行者”。實際上,就連我一直崇拜的圖靈先生,他對于未來的預見在這一點上也可能有些“過于狹隘”或“向內看”了。因為進化本身已經一再告訴我們:智能的真正強大之處,不僅僅在于“思考”,而在于讓思考能驅動行動。想想看,人類的空間智能讓我們得以建立燦爛的文明:從古老的金字塔到工業革命,從科學發現到藝術創作。如今,當 AI 逐漸拓展我們的空間和具身智能,這將如何進一步改變我們與周遭世界的關系?它又能幫助我們創造和發現些什么?可以預見,我們已經在打造某種面向未來的新形態
179、了。94(5)空間與具身智能的興起 接下來,我想給各位展示一些“空間智能”技術迅猛發展的例子。這四個案例來自我在斯坦福的學生和與 World Labs 同事所做的工作:左上角是對復雜日常視頻的語義標注,右上角是藝術風格遷移,左下角是通過文本提示生成視頻的算法,右下角則是讓任何圖像都能變成一個 3D 世界。沒錯,你現在看到的就是梵高畫作中那家法國咖啡館,被我們用生成式 AI 模型帶進了一個想象中的三維世界。同樣令人激動的還有機器人技術,也就是“具身 AI”。這兩項出自我實驗室的研究成果,將大型語言模型與視覺模型整合到機器人的學習中,使得機器人能在更開放、更貼近現實的環境下執行人類日常任務,而不僅
180、僅是過去那種在高度編程和設定好動作序列的場景里活動。這些進展都蘊藏著巨大潛能。不過,如果 AI 真的不再只是“會思考的機器”,而是同時成為“會行動的機器”,那么我們整個社會在引導這項技術發展方向時,就承擔著更加緊迫而重大的責任。我認為毫不夸張地說,這一切正將我們帶到一個對整個人類文明至關重要的歷史關頭。我們要如何應對?我想,這也正是我們這周聚在這里的主要原因。(6)以人為本的 AI 與三大核心價值 這個問題其實一直在指引我的研究工作。雖然我肯定,想要找到簡單答案幾乎不可能,但有一個主線在我多年的探 95 索中始終貫穿,那就是我所說的“以人為本的 AI(Human-Centered AI)”,并
181、且它包含三個核心價值:尊嚴(dignity)、能動性(agency)和社區(community)。首先是尊嚴。當面對越來越強大的技術時,我們人類常常會反思:到底是什么在定義“我們是誰”?如果把我們能做的所有事情都一一剝離,剩下的、那份能夠自主決策并親自行動的尊嚴感,依然是我們作為人的本質之一。如果 AI 這項技術能幫助我們守護并且“找回”這份尊嚴,尤其是能幫助到最脆弱的人群,那將是讓我最激動的事情。在這一點上,我想給各位看一個例子:如何讓機器人和 AI 技術幫助那些嚴重癱瘓患者重新獲得自主行動的可能。在這項斯坦福大學的研究中,我的學生利用完全“非侵入式”腦電波(EEG)記錄獲取使用者的思維信號
182、,通過 AI 算法對這些信號進行解碼并發送指令給機械手臂。最終,機械手臂在患者“意念”的控制下做出包括烹制日式壽喜燒在內的一整套烹飪動作。這便是 AI 幫助人們重新贏得自主與尊嚴的一個示例。其次是能動性(agency)。我所在實驗室多年來的核心理念,就是探索如何讓 AI“增強(augment)”人類的能力,而不是取代人類。毫無疑問,每一次重大的技術變革都會對勞動力市場產生沖擊,AI 也不例外。然而,我相信 AI 可以幫助我們從創造力到醫療保健、從科研到制造業,在方方面面獲得新的能力。因為在許多方面,AI 的技能與人類的技能其實是互補關系。我們 96 完全可以利用這個“數字或物理上的合作者”來強
183、化自身能力。過去十年里,我的實驗室一直在研究 AI 如何改進醫療服務,這讓我見識到許多能讓 AI 幫助提高醫療質量、同時減輕醫護人員負擔的機會。這里給大家展示三個例子:利用搭載 AI 的智能攝像頭來協助醫院監督醫護人員的洗手規范,輔助記錄病人復健時的移動訓練情況,以及跟蹤手術器械的使用狀況。最后是社區(community)。過去十年里,科技也常常被詬病“把人們越拉越遠”,催生了各種“信息繭房”和“狂熱話題誘餌”等。如今,AI 又一次走到了十字路口:一條路是讓 AI 主導很多社交體驗,甚至為每個人極度定制并強化他們原本的偏見;另一條路則可能幫助我們構建更健康、更強大并具有包容性的社區,比如借助
184、AI 教育助手,讓更多人(包括孩子和成人)獲得學習的機會。這里我舉兩個簡單案例:左圖是利用 AI 和虛擬現實技術,為有閱讀障礙的大學生提供個性化輔助工具;右圖是美國水牛城大學開發的一個 AI 專家系統,用來緩解語言治療師(speech-language pathologist)短缺的問題,幫助對 3 至 10 歲兒童進行早期語言干預。(7)AI 治理:理性、務實與多方協作 以上這些例子引出了我今天想和大家分享的最后一個想法:在這樣一個關乎人類文明走向的關鍵時刻,我們如何通力合作,以一種理性、務實且負責任的方式去治理 AI,從 97 而讓它繼續釋放驚人的潛力?最起碼,我們需要從以下幾個方面開始:
185、首先,務必要基于科學而不是科幻來進行治理。無論是大街小巷還是華爾街,關于 AI 的話題中都充斥著夸張炒作和聳人聽聞的描述,往往導致對 AI 的治理政策被各種誤導。相反,我們應該用更科學的方法來評估和測量 AI 的實際能力與局限,從而制定更加精準、可落實的政策,并且基于現實而非幻想。其次,我們需要采取務實而非意識形態化的態度來看待 AI 治理。AI 有望成為一種強大技術,如果使用得當,它確實能讓我們更好地工作和生活。因此,我們不應該只顧在上游阻礙這項仍然非常年輕的技術進一步探索與研究;相反,我們應該更多關注它的具體應用場景,確保它能被善加利用,并對可能產生的不良后果加以防范。最后,我們必須投入更
186、多資源,構建更健康、更蓬勃的 AI 生態系統,讓學術界、創業者、開源社群以及公共部門都能與大企業一道參與進來、發揮關鍵作用。如果 AI 真的要改變世界,我們就需要各行各業、社會各個群體都能在這個變革過程中發揮作用、共同塑造未來。我在演講開頭提到過,現代AI 之所以興起,主要歸功于算法、數據和計算力這三大要素的結合。但若這三種關鍵資源僅僅掌握在少數幾家公司手中,AI 生態系統就會面臨好奇心驅動的研究乏力、頂尖教育人才受限、開源項目缺少資源、多學科交叉探索不足等諸多問題。75 年前,艾倫圖靈對未來一瞥,發出了“人類是否有膽量 98 去構造能夠思考的機器”的挑戰。今天,我們已經把這個挑戰推進到一個恐
187、怕是他當年難以想象的高度。AI 時代的技術飛躍令人嘆為觀止,我相信,如今是時候提出一種新的挑戰了:與其再問“我們能否創造 AI”,不如問“我們能否創造一股向善的 AI 力量”。簡而言之,今天我想向各位發出邀請:讓我們共同努力,去構建“以人為本”的 AI。謝謝大家。5.人工智能驅動信息技術體系重構與再造人工智能驅動信息技術體系重構與再造兼評 中兼評 中國至國至 2050 年信息科技發展路線圖年信息科技發展路線圖 洪學海 中國科學院計算技術研究所 中國至 2050 年信息科技發展路線圖 和 信息科技:加速人機物三元融合,對我國信息科技領域的長期發展進行了預判。文章回顧了近 15 年來信息科技領域的
188、發展變化,并與當初的預判進行了比較,指出了當初的一些重要判斷符合預期。近年來,全球信息技術重大創新的整體節奏在放緩,而新一代人工智能快速演進,將為未來 10 年信息技術體系重構和再造帶來新機遇,并將加速信息技術體系創新進程。文章對計算技術、數據空間、網絡空間和智能空間的技術體系重構與再造進行了系統分析,指出了挑戰性問題,并提出了發展對策。2009 年,以李國杰院士為組長的中國科學院信息科技路線圖專家組,出版了 中國至 2050 年信息科技發展路線圖 99(以下簡稱路線圖),并于 2013 年出版的科技發展新態勢與面向 2020 的戰略選擇中發表信息科技:加速人機物三元融合(以下簡稱三元融合)。
189、路線圖和三元融合前瞻性、戰略性分析了我國信息科技未來幾十年發展的大趨勢和戰略重點,為當時我國信息科技發展方向和戰略重點圈定了相關重點領域,對我國信息科技領域的重大科研活動起到了一定的指引作用。近 15 年來,全球信息科技發展已經發生了一系列重大的變化,尤其是近幾年來,以大模型為代表的新一代人工智能技術極速發展,為信息技術體系重構與再造創新帶來了重大的機遇,將加速驅動信息技術體系創新進程。因此,評估十幾年前出版的路線圖和三元融合中對信息科技相關戰略預判的一些結論與影響,并在新形勢下,進一步前瞻未來 10 年信息科技變化趨勢,為搶占信息領域科技制高點,到 2035 年實現科技強國等戰略目標,具有重
190、要的現實意義。(1)路線圖和三元融合的重要預判與近 15 年發展的比較 回顧近 15 年來,信息科技發展變化與路線圖和三元融合給出的預判,現在看來,很多當初的預判至今依然適用。1)關于信息科學理論發展的長期預判符合預期 100 路線圖認為:信息技術不會變成以增量改進為主的傳統產業技術,而是面臨一次新的信息科學革命。信息技術的基礎理論大部分是在 20 世紀 60 年代以前完成的,近 40 年信息科學沒有取得重大突破。上一次基本創新(即基于科學突破的重大發明)的高峰期是在 20 世紀 40 年代,現在已有大量的知識積累,按照經濟與技術發展長波規律的推測,21世紀 2030 年代可能出現基本創新的高
191、峰。2020 年以后什么技術將成為新的主流技術就會逐步明朗;20202035 年將是信息技術改天換地的大變革期。預計 21 世紀上半葉將興起一場以高性能計算和仿真、網絡科學、智能科學、計算思維為特征的信息科學革命。在網絡科學和智能科學取得重大突破以后,21 世紀下半葉,基于信息科學的新的信息技術將取得比 20 世紀下半葉更大的發展。近幾年,人工智能(AI)突飛猛進,驗證了路線圖的基本預判。AI 現有重大技術發明,如 Transformer 深度學習框架,是基于 Geoffrey Hinton 等科學家長期對神經網絡模型的基礎理論研究成果。深度學習的黑盒模型為 AI 科學研究提出了急需解決的科學
192、問題,需求的牽引必將引發科學的突破。當前 AI 技術的大發展,預示人類已經處在進入智能時代的前夜,目前的技術離實現真正的通用人工智能(AGI)還有一定的距離,再經過 1020 年的努力,大概率有基于重 101 大科學突破的基礎發明,如同 20 世紀 4060 年代一樣,發明計算機和集成電路以后,人類就進入了信息時代。2)關于信息技術發展的長期預判基本符合預期 人機物“三元融合”預判正在成為現實,路線圖和三元融合指出,人機物三元融合強調的是物理空間、信息空間和社會空間的有機融合,物理空間分別與信息空間、社會空間源源不斷地進行信息交互,而信息空間與社會空間則進行著認知屬性和計算屬性的智能融合。近
193、15 年來,人機物三元融合正在加速??焖侔l展的移動互聯網、物聯網、4G/5G 高速接入網及邊緣智能等,為實現人機物三元融合準備好了物質條件,數據智能化為智能融合提供了紐帶,計算機系統的基本模式正在從人機共生向人機物三元融合世界發展。移動互聯網實現了人與人的互聯、融合,物聯網(傳感網)實現了人與環境的互聯與融合,工業互聯網實現通過網絡連接各種工業設備和系統,實現工業數據的實時傳輸、共享與智能化處理,并通過新一代智能模型,改善、提升工業生產效率和質量,以及成本控制等。人機物三元融合最顯著的是腦機融合,腦機神經連接是重要的科技突破。埃隆 馬斯克的“神經連接”公司,繼首例人腦設備植入手術順利完成后,2
194、024 年 7 月迎來第 2名人類植入者。通過在人腦皮層植入 Neurolink 相關芯片并采用大約 10 bits/s 的通信速率,使得癱瘓病人能夠通過思考 102 來控制他們的手機或電腦。這真正實現了人機物三元融合。Neurolink 成為現實,也預示著路線圖指出的,“今后幾十年內模擬計算可能又會成為受人重視的研究方向。我們在重視數字技術的同時,還要探索模擬量處理的新途徑以及數?;旌咸幚淼男路椒ā?,這一預判得到一定程度的驗證。2)計算與服務平臺的總體結構依然呈現出“集中與分散交替為主”的發展規律 路線圖指出,計算與服務平臺的總體結構幾乎是每隔 20 年左右有一個重大的變革,呈現出計算資源集
195、中與分散交替為主的“三國定律”。目前,在“AI 大模型+Agent”“AI 大模型+RAG”等模式的加持下,未來這種集中與分散交替為主的發展規律將繼續延續。裝載有輕量化 AI 模型+Agent 或+RAG 或+Copilot 的 AI PC,將進一步改變人們使用計算機和互聯網的模式。一方面,計算與服務模式分散化的 AI PC 將進一步解耦人們對集中化的計算資源的需求,以及緊耦合的服務模式;另一方面,集成式的多云系統、聯邦云系統、超算互聯網等,將進一步提升計算資源的最大化利用(圖 1)。因此,路線圖所指出的計算與服務平臺的集中分散交替的“三國定律”,在未來還會繼續演進。這種周期性的變化,使得信息
196、技術領域始終保持著創新的活力。103 圖 1 計算與服務平臺總體結構“集中與分散”簡略圖 2)集成電路領域延續創新變革發展態勢 路線圖指出,集成電路領域將延續摩爾定律(more Mooer)、擴展摩爾定律(more than More)和超越 CMOS(beyond CMOS)3 個路徑發展。在延續摩爾定律方面,晶圓級的大芯片已經成為芯片結構橫向擴展發展的重要成果。2012 年后登拉德縮放比定律受限,摩爾定律發展速度雖然放緩,但圍繞縮小 COMS 工藝特征尺寸、提高集成度,以及通過新材料的應用和器件結構的創新來改善電路性能的努力仍然在繼續,FinFET 結構和工藝技術在半導體制程發展到 225
197、 nm 過程中,發揮了重要的作用。2020 年,在同行都在將晶圓分割成數百顆獨立芯片之時,美國 Cerebras Systems 公司則是選擇將整個晶圓做成一顆芯片,其發布的 WSE-2 二代晶圓級芯片,采用 CMOS 7 nm工藝制程,集成了 1.2 萬億個晶體管、40 萬個核心。這也是FinFET 結構和工藝發展的重要成果之一。近年來,我國由于 104 在集成電路領域受到“卡脖子”,與 FinFET 同時代發明的 FD-SOI 技術也被重新撿起來,成為破解之道之一。在擴展摩爾定律方面,近些年來,基于先進封裝技術的Chiplet 發展起來。Chiplet 技術允許將整個芯片拆分成多個較小的、
198、可以用不同工藝制造的不同模塊,然后通過高速互連方式集成到一個封裝中,實現全功能的芯片系統,從而優化性能、功耗和成本。因此,Chiplet 技術被視為一種可以拓展摩爾定律的方式,延續了集成電路行業提高性能和降低成本的趨勢。咨詢機構 Markets.us 研究報告稱,在 2023 年,CPU Chiplet 占據了主導市場地位,CPU Chiplet 市場份額超過 41%。雖然 GPU Chiplet 市場份額低于 CPU Chiplet,但在專業應用領域發揮了關鍵作用。此外,通過傳統微電子工藝,實現光電子器件和微電子器件的單片集成的硅基光電子集成技術,有效解決了集成電路芯片目前金屬互聯的帶寬、功
199、耗和延時等問題,也實現了擴展摩爾定律。在超越 CMOS 方面,碳納米管晶體管已經展現出超越商用硅基晶體管的性能和功耗潛力,碳基集成電路技術成為重要發展對象。2019 年 8 月,美國麻省理工學院的 Gage Hills等在 Nature 發表論文,報告了碳納米管芯片制造領域的一項重大進展:一個利用 14702 個碳納米管晶體管構成的 16 位RISC-V 指令集微處理器 RV16X-NANO,該處理器采用兼容CMOS 工藝制造,證明可以完全由 CNFET 打造超越硅的微 105 處理器,為先進微電子裝置中的硅帶來一種高效能的替代品。2024 年 7 月,北京大學基于碳納米管晶體管新型器件技術,
200、結合高效的脈動陣列架構設計,成功制備了世界首個碳納米管基的張量處理器芯片,可實現高能效的卷積神經網絡運算。此外,近 15 年來,集成電路芯片發展的“牧本周期”還在延續,能夠實現更好性價比的領域專用架構(DSA)處理器,如 NPU、TPU、DPU 等各種“XPU”,應運而生。國內研發的深度學習系列處理器寒武紀、類腦天機芯、天眸芯和市場上自動駕駛芯片等屬于DSA范疇。同時,核心數增多的通用架構的多核和眾核處理器仍然在發展,如 X86 系列 CPU處理器和 NVIDIA 的系列 GPU 處理器。3)軟件工程的摩爾定律日益顯現 路線圖指出,軟件工程的發展走勢將類似于摩爾定律,今后幾十年內如果能夠使得軟
201、件業和服務業也產生摩爾定律現象,無疑將會引發一場革命。目前,基于 LLM 大模型的 AI 編碼生成助手,為軟件工程的摩爾定律提供了依據。如谷歌首席執行官曾透露,該公司通過在代碼自增長工具中集成大模型,生成了這家科技公司超過 1/4 的新代碼,包括自動導入包、自動生成構造函數等。目前 AI 輔助編碼方面,出現了兩大發展方向:106 1.AI 編碼助手或者 AI 代碼生成器大量涌現,如美國GitHub 與 Open AI 合作推出的 GitHub Copilot、亞馬遜的CodeWhispere 等;2.傳統的低代碼/無代碼工具,大量引入 AI 輔助功能,如低代碼開發旗艦公司 OutSystems
202、 通過 Mentor 新型生成式AI 驅動的“數字工作者”改變了整個軟件開發生命 統計顯示,目前軟件工程師基于大模型開發應用軟件,時間上可以節約 20%30%。隨著面向軟件開發的專用大模型能力日益增強,在軟件工程領域的摩爾定律也將有望成為現實。(2)未來 10 年信息技術體系重構與再造的創新機遇與挑戰 路線圖預測,20202035 年將是信息技術改天換地的大變革期,將可能出現基本創新的高峰。自 2019 年以來,AI 大模型的大發展表明,信息科技已經進入到基本創新突破期的前夜。在全球信息技術創新進入緩慢期的背景下,AI 將加速信息技術體系的創新進程。因此,未來 10 年將是信息技術體系重構與再
203、造的創新機遇期。一方面,對于原理還不太清楚的 AI 科學,一定還會有大的突破;另一方面,信息領域的科學與技術融合發展將成為大趨勢,并且信息技術將成為信息科學發展的主要推動力。更重要的是,新一代 AI 將加 107 速驅動計算技術體系、數據空間技術體系、網絡空間技術體系和智能空間技術體系的重構與再造。1)信息技術體系重構與再造創新的歷史演進 人類對信息技術體系重構與再造創新一直沒有停滯。在處理器方面,從 4 位微處理器到 64 位處理器,從復雜指令集(CISC)到精簡指令集(RISC),從一級緩存到二級、三級,執行從順序指令執行到亂序指令執行,從單一核心架構到多核心架構、眾核心架構,從通用功能架
204、構到功能專用架構并存,從單個芯片到異構集成封裝多核心、多功能的芯片等。目前,在 AI 等領域對算力提出更大需求的牽引下,晶圓級大芯片也被開發出來。在計算機體系結構方面,20 世紀 5060 年代,為實現資源的最大化利用,通過分時操作系統提高指令執行效率的批處理計算機得到快速發展。此后,為提高指令并行性進一步提高計算機運行速度,指令流水線技術取得重大突破;為了進一步突破計算性能瓶頸,超標量與超長指令字兩種計算機體系結構應運而生。再后來,多任務、多個處理器并行執行的并行計算體系在一系列超級計算機中得以廣泛應用。近年來,面向大數據、云計算和 AI 等發展需求,按照數據流動規律進行組織和管理的數據流體
205、系結構重新得到重視,成為計算機體系結構發展的“老樹新芽”技術。108 在信息技術產品生產方面,從早期的由一家廠商包攬了一個計算機的軟件、硬件設計與制造的垂直體系,向多廠商分散、配合生產各自優勢產品的扁平化體系方向發展。例如,早期的美國 IBM 公司生產的大型計算機,其操作系統、CPU、存儲器等都是由 IBM 自己設計、生產和制造。隨著微軟Windows 操作系統、Intel CPU 等的成熟商用,計算機生產商不再做垂直化產品研發的工作,而是將其他廠商的產品進行扁平化分工、整合,由此形成了“Windows+Intel”(Wintel)計算產品體系,并形成了牢固的產品迭代節奏,至今形成了“Wint
206、el”、“ARM+Andrio”和“ARM+iOS”體系。目前,由于 GPU 和 Transformer 架構在 AI 大模型領域的成功,“NVIDIA+Transformer”體系已經基本形成。2)計算技術體系重構與再造 近年來,全球信息技術重大創新的整體節奏在放緩。未來 10 年,在人工智能發展驅動下,計算技術體系創新將快速推進。一方面,進入后摩爾時代,為追求算力增長和功能豐富,計算處理器芯片將繼續向低成本、高良率的 Chiplet 堆疊集成芯片和 3D 芯片方向發展,異構集成創新成為產業技術主要發展方向,晶圓級大芯片將成為重點發展方向之一;同時,功能豐富的低世代工藝智能芯片、新型硅光電子
207、芯片、碳基芯片,以及非馮諾依曼體系結構量子計算芯片,也將快速向前發展(圖 2);另一方面,算力空間將向算力聚合與 109 服務能力提升方向前進,將由超級計算、云計算,向云聯邦、超算智算融合、算網融合等方向發展(圖 3)。圖 2 算力芯片重構與再造演進路線圖簡圖 圖 3 算力空間重構與再造演進路線圖簡圖 3)處理器技術體系重構與再造 110 在處理器設計環節,芯片設計的復雜性日益呈指數級增長,導致設計周期長、成本高,傳統的設計方法難以應對這種復雜性。未來 10 年,AI 技術將成為優化處理器芯片設計過程的關鍵工具,提高設計效率和質量,并生產出性能更高的芯片。2024 年 3 月,美國白宮科技政策
208、辦公室發布國家微電子研究戰略,明確提出加強將 AI 和機器學習及基于物理的方法集成到 EDA 工具中。在 2024 年全球芯片領域頂會Hotchips 年會上,多個報告展示了 AI 輔助芯片設計的重要成 果。其 中,美 國 Synopsys 公 司 報 告 了 強 化 學 習(reinforcement learning)在 芯 片 設 計 中 的 應 用,其Synopsys.ai 套件,在大語言模型支持下,在整個 EDA 堆棧中充分利用生成式人工智能(AIGC),用于 RTL(register-transfer level)設計、驗證及其他輔助資料創建的生成功能等。在處理器制造環節,比利時微
209、電子研究中心(IMEC)發布的工藝路線圖指出,FinFET 晶體管結構將在 3 nm 走到盡頭,然后過渡到新的 GAA(gate all around)結構,集成電路工藝尺度將進入埃米階段。此路線圖提出的 CMOS 2.0 范式愿景指出,CMOS 2.0 是通往真正 3D 芯片的道路。但這種方法面臨的挑戰在于將嚴重依賴后端供電網絡(BPDN),會將所有供電改到晶體管的背面,并需通過系統技術協同優化(STCO),重新思考設計過程,改變設計方法。相對于硅基集成電路計算芯片,碳基芯片具有良好的低功耗、與硅基工 111 藝兼容良好等特點。如前文所述,目前碳基芯片已經取得積極進展,將成為未來與硅基芯片并
210、行發展的主要方向之一。從更長期來看,處理器芯片重構與再造創新發展趨勢體現在如下 5 個方面:1.電路理論方面,從電子電荷向分子、極化、強電子相關態、自旋方向等方向發展;2.材料方面,從硅基向碳基、宏觀分子材料、納米結構、復合金屬氧化物等方向發展;3.器件結構方面,從 CMOS 器件向分子器件、自旋器件、鐵磁性器件、量子器件等方向發展;4.數據載體方面,從模擬量、數字量向量子位等方向發展;5.系統結構方面,由馮諾依曼架構、多核眾核架構,向可重構、量子、神經形態學計算架構等方向發展。目前,量子計算還處在探索階段,主流方案包含超導、離子阱、光量子、超冷原子、硅基量子點和拓撲等多條技術路線,基本都沿著
211、量子計算優越性由專用量子計算向通用量子計算的路線圖發展。對我國而言,在 FinFET 時代,集成電路制造正在面臨美國聯合其盟友的打壓、封鎖,向更先進制程工藝芯片制造發展受阻,同時 X86、ARM 指令架構也存在需要授權的制約。隨著集成電路制造工藝向 3D 方向發展,前道工藝光刻 112 機的作用將會減弱,刻蝕機、薄膜機和電子束檢測設備等作用將會增加,我國發展集成電路技術與產業有了新機遇。因此,我國一方面要積極發展集成電路先進制程制造工藝技術,研發先進制程的前道工藝極紫外光刻(EUV)設備;另一方面,要積極推動發展刻蝕機、薄膜機、電子束檢測設備等,向滿足 3D 芯片制造工藝方向發展。此外,基于先
212、進封裝的Chiplet 技術,以及與 FinFET 同時代產生的 FD-SOI 技術,也可能為我國計算芯片發展提供新的選擇。FD-SOI 是不同于FinFET 的技術與工藝路線,是一種平面工藝技術,具有減少硅幾何尺寸同時簡化制造工藝的優點,在 22/12/10 納米 FD-SOI 技術性能與 14/7/5 納米 FinFET 技術相當;并且,FD-SOI相比 FinFET,具有 PPA 平衡性好等特點。但目前主要集成電路制造設備與工藝是圍繞 FinFET 生態的;FD-SOI 面臨的挑戰是還沒有建立完整的產業鏈生態,擴大市場難。4)算力空間技術體系重構與再造 為適應人工智能等領域對更大算力和多
213、種資源協同服務的需求,未來 10 年,面向應用的計算將與智能計算深度融合,表現為臨近互聯、封裝集成、大規模向量化等,并期待RISC-V+AI Core 指令接口的標準化。在 AI 發展驅動下,算力空間重構與再造的一個重要方向是優化馮諾依曼架構,即在一個計算機系統內部區域做工作,想辦法通過減少內存和處理單元之間的路徑,實現高內存帶寬及較低的訪問開銷,113 打破馮諾依曼架構“存儲墻”和“功耗墻”等問題,實現更高效能的計算。在 AI 計算方面,由于不同模型對算力和帶寬的需求不同,如基于 Transformer 的 LLM 計算中,性能瓶頸常常是在帶寬而非計算,即帶寬跑滿、算力閑置。為此,存算一體、
214、存內計算(PIM/PNM)技術路線被提出,利用片內的高帶寬,處理常見的矩陣運算和部分向量運算。具體是通過TensorCore(張量計算核心)的乘累加單元陣列提供算力,通過 HBM 的高帶寬使數據能源源不斷到達 TensorCore。在 AI計算中,雖然 PIM/PNM 可以減少數據從內存讀取的時間,提高計算效率,從而加速模型的訓練和推理過程,但其面臨眾多技術挑戰,包括將計算單元集成到內存芯片中的復雜性、功耗和散熱問題,以及數據一致性和可靠性問題等。在片上和集群的算力互聯方面,使用片上光網絡(ONoC)連接多個同構的處理單元,如互聯 CPU、AI Core 等,這是將光集成電路(PIC)作為 N
215、oC 與 AI Core 的硅片集成,封裝成一個 AI 芯片,直接在芯片上做光電轉換輸出到光纜,實現了芯片之間的互聯?;诠饩W絡的互聯方案與動態調度方面,如 Google TPU4 AI 訓練集群的光互聯方案,是將 64顆 TPUv4 以 444 的方式構成一個三維立體結構 Cube,并且這個 AI 訓練集群的拓撲互聯方案的重構,可根據需求實時對 AI 計算資源縮容和擴容。114 面向人機物三元融合的廣泛應用場景,AI 等算力與服務需求以及高性能計算機(超算)從 E 級向 Z 級發展面臨諸多難題,未來將跨網域、多異構的算力與服務聚合是一條重要的發展途徑。將超算、智算和量子計算等多種異構算力資源
216、融合,并結合算力網實現算網融合是一個大膽的創意,但多種異構算力資源的融合是一個難題。例如,AI 算力主要由基于 GPU、NPU 等芯片,但 AI 的應用通常會同時用到CPU、GPU、TPU 等,怎么解決 CPU 運算與 GPU、TPU 等運算銜接是個難題。因此,需要解決多種算力資源虛擬化、接口標準統一、高效協同計算、應用任務分布與調度、編程模型等難題。同時,異構算力如何與算力網進行融合也是個難題,需要突破原有的并行計算、云計算等思想,進行顛覆性的創新。為此,需要進行原理性創新和技術實驗的重大科技基礎設施來支撐。自 2023 年以來,美國 IBM、微軟、英偉達、谷歌等公司分別合作,在構建量子超算
217、異構融合算力平臺方面取得進展,如 IBM 利用 127 比特量子云平臺與“富岳”超算的結合,實現了包含 28 個原子的 FeS 團簇分子計算。這為多種算力融合技術發展路徑提供了很好的借鑒。5)數據空間技術體系重構與再造 數據已經成為 AI 大模型發展的三大核心要素之一。中國工程院發布的數據空間發展戰略藍皮書(2024)(以下簡稱藍皮書)定義的未來數據空間是:人機物互聯,115 產生大量數據,通過社會再生產,數據又作用于人機物,這一實踐活動最終形成了人類活動的新空間。即:在 AI 發展驅動下,數據空間將由單一計算機系統的數據空間、基于互聯網的數據中心空間,發展到人機物融合的人類智能活動空間。因此
218、,未來 10 年,構建面向人類智能活動的數據空間技術體系,是一項重要任務。在 AI 發展需求驅動下,構建面向人機物三元融合的人類智能活動的數據空間,還面臨眾多挑戰,主要包括:1.理論范式問題?;谑裁蠢碚搧碇螖祿臻g構建,是基于自組織理論還是他組織理論?基于自組織理論要研究數據空間構建是怎樣從混沌無序的狀態向穩定有序的終態的演化,以及系統內部各要素之間的協同機制?;谒M織理論,要研究數據空間構建需要設計怎樣的制度、政策及機制等外部力量,推動數據空間的建立。此外,對于數據空間建立的復雜度,是基于機械論還是耗散結構理論(即是強調將數據空間系統是由數據孤島構成,通過系統組織形成“整裝數據”結構)
219、,還是強調引入負熵來形成有序數據空間結構?等等。2.技術問題。數據空間的架構是什么?各個數據孤島是通過什么方式進行連接?聯接協議是什么?接口是什么?有什么標準?如何保護各個數據源的數據隱私與安全?數據空間中的數據如何進行統一標識?如何封裝?數據空間 116 如何與算力空間進行耦合?數據空間的各類數據如何統一標識和表示,以便于進行綜合挖掘和智能應用?等等。目前,藍皮書為此提供了一些參考,包括把數據空間看作一個數據要素場、構建數聯網根服務體系,以數聯網、數據標識、數據向量化、深度神經網絡學習及 AI 大模型等作為技術應用體系等。6)網絡空間技術體系重構與再造 幾十年來互聯網體系結構保持相對穩定,但
220、依然存在兩大問題:魯棒性差,脆弱,不安全;適應性弱。為此,國內外對互聯網體系結構的創新努力一直在持續,基本上采取漸進式和變革性兩條技術路線,即:采用“自下而上”打補丁的方法,升級更新具體技術適應新業務和新終端;采用“自上而下”完善體系結構,從根本性解決問題和克服挑戰。變革性的技術路線是采用“推倒重來”的思路設計全新網絡,國內外先后開展了 New Arch、Clean Slate、GENI、FIND、FIA、FIRE、新一代互聯網體系結構理論、面向服務的未來互聯網體系結構與機制等研究計劃或項目,先后提出了 Open Flow、SDN、NDN、CCN 等互聯網體系結構的新設想和新技術。未來 10
221、年,AI 將驅動網絡空間技術體系從硬件鏈路到網絡協議,乃至網絡應用的全體系的創新。除了在新型網絡架構、尋址路由、內生安全等領域繼續突破創新外,互聯網 117 體系結構還將向智能化、敏捷化、網存算一體化不斷發展,從而支撐超大規模、人機物融合、跨時空壁壘的智能連接與服務。隨著 AI 技術的發展,互聯網將圍繞 4 個方面進行創新:1.網絡設備方面,將 AI 能力下沉到網絡設備。通過感知業務質量,感知信道性能等,讓網絡設備具有更強的感知能力,以便更好地優化網絡,提升網絡為特定業務的服務能力。2.路由協議方面,通過增強數據面網絡層的能力,簡化控制面和管理面,滿足應用需求的多樣性,并提升邊緣能力來降低對中
222、間節點的要求。通過協議的簡化和優化,使得網絡可感知、可溯源、可定位,實現更好的性能及內生安全要求。3.網絡管理方面,首先是網絡本身的智能化,隨著 AI 大模型在網絡管理中的應用,提升網絡智能化水平,讓網絡能夠具有自動駕駛、自動發現、自動配置、自動維護的能力;其次,網絡需要能夠適應更多業務發展,具有更好的開放性和安全性,為云網融合、算網融合實現資源一體化調度。4.安全方面,改變過去網絡安全被動式響應和防御的方式,未來要從網絡設備的內生安全,到端到端的云、網、邊、端協同防護體系的構建,持續提升網絡安全防護能力。7)智能空間技術體系重構與再造 118 人類大腦是一個既能處理專用任務又能處理通用任務,
223、并具有“自覺意識”的低能耗智能空間。信息領域的智能空間是人工智能融合的空間,是能處理各種模態信息的智能體的集合,其愿景是構建像人類大腦的智能體,使得處理各種專用任務的智能與處理通用任務的智能進行深度融合,解決智能碎片化的問題。2024 年諾貝爾物理學獎和化學獎都頒發給機器學習領域的科學家,表明以機器深度學習為代表的 AI,成為未來 10年最有前景的技術。近年來,以大模型為代表的新一代人工智能的研究和應用取得突破性進展,催生 AI 新的理論和應用范式,推動 AI 理論和應用進入新的發展階段。美國 Open AI 公司的 ChatGPT 成為新一代人工智能發展的分水嶺。AI大語言模型技術不斷成熟,
224、率先在文本 AIGC 產生大規模應用,并催生圖像生成模型蓬勃發展,如 DALL-E2、Stable Diffusion 等。大模型從“一專多能”向“多專多能”前進,帶動新一輪應用范式創新。AI 大模型技術也使信息領域的科技創新和產業生態發生巨變,促進了從底層芯片到應用的穿透式的技術與產業生態重構,并將逐漸重構數據空間、算力空間、開發框架、算子庫,乃至基礎芯片、系統及開源和應用服務模式等。AI for science正在重構科學研究范式(AI4R),加速驅動科學研究進程,產生顛覆式突破。當前,AI for science 已經在生物領域取得顯著成效。例如,2024 年 5 月,119 美國 Go
225、ogle 旗下 DeepMind 公司發布的新一代 AI 模型AlphaFold3,能夠預測蛋白質、DNA、RNA、小分子等的幾乎所有生物分子結構和相互作用;AI for Scinence 已經在內嵌物理模型的神經網絡(PINNs)、約束條件下組合優化問題求解、偏微分方程求解等領域取得初步成效,證明其具備解決科學研究與計算問題的強大潛力。未來,AI for science 將繼續驅動生命科學、醫藥研發、物理裝置控制、數學發現、材料發現與合成等領域創新發展,并將在跨界交叉領域進一步驅動產業創新和更廣泛的落地應用。同時,多模態大模型開啟了通用人工智能(AGI)發展道路,使 AGI 進展到“臨界點”
226、。未來 10 年,智能空間技術體系重構與再造面臨諸多挑戰。1.目前的智能感知可適應性差、認知機理不明、泛化能力弱等問題已經開始制約 AI 的更廣泛應用,亟待深入探索類人多模態感知、人機混合智能理論與方法,以及突破多源信息復雜場景和自主無人系統等決策、行為智能等。2.當前 AI 研究已經從深度學習時代走向“自監督+深度學習+強化學習”的大模型時代,以深度學習為基礎的人工智能理論已經遇到天花板,急需探索 AI 新的理論。Minyoung Huh 等最近發表的“柏拉圖表征假說”,證明了神經網絡訓練,正趨向于在它的表征空間中收斂成一個共享的現實“世界統 120 計模型”。Max Tegmark 團隊發
227、表的一項頗具顛覆性的研究,揭示了 LLM 中竟存在類似于人類大腦的腦葉分區結構,顯示出模型內部的幾何結構與人類大腦的功能分區有著驚人的相似性。這一發現表明,AI 在某種程度上模仿了人類大腦的信息處理方式。這類研究不僅提供了理解 LLM 內部運作的新視角,也對 AI 的潛力有了更為深刻的認識,為未來 AI的發展提供了新的理論支持。隨著研究的深入,未來或許能在大模型的基礎上,開發出更智能、更類人的 AI。3.當前的多模態大模型面臨數據資源耗盡、能耗極大、成本極高和商業模式等問題。更重要的是,GPT-5 研發受阻,文本域里規模定律(Scaling Law)可能已遇到天花板,而探索新型 Scaling
228、 Law 的預訓練多模態大模型、空間智能是不是就是通用人工智能(AGI)的發展技術路徑,還有待進一步的驗證。未來智能空間重構一個可能的途徑是在大模型、空間智能的基礎上,構建更多各種功能的智能體 Agent,與大模型等進行深度融合與功能拓展,整合各種人工智能為一個集成的智能環境,如發展具身智能。但正如李國杰院士指出的,具身智能還有許多認知問題需要解決,這預示著未來通過具身智能發展 AGI 還面臨眾多挑戰。另外一個可能的途徑是Open AI 發現的擴展測試時計算技術,即:在大模型推理階段,擴展思考和計算,進行反向多步推理,讓大模型能夠自 121 主學習策略、拆解任務、識別并糾正錯誤。得益于思維鏈(
229、CoT)推理的引入,Open AI o1 模型是測試時計算的突破,證明了模型可以進行更深入的推理和解決更復雜的問題,為解決規模定律天花板問題和發展 AGI 提供了全新的思路。當然,還有其他可能的技術路徑,這些努力將加速 AGI 的到來。(3)發展對策 1)聚焦 AI 驅動的信息領域重大科技問題、突破關鍵理論與技術 我國信息科技領域既面臨短期破解局部“卡脖子”和建立自主技術體系與生態的長期需求,又要面臨后摩爾時代顛覆性技術創新突破、搶占科技制高點的歷史使命。因此,要持續加強信息科技領域的中長期戰略研究,聚焦新一代 AI 的理論、技術與新模型產品,聚焦發展 AI 之根基的各類高性能 XPU 算力芯
230、片的設計與制造、高質量數據集和新型網絡的構建,以及高效能計算基礎設施建設等,將技術創新與工程實現和技術產品與市場生態建設等統一起來,組織科研院所與市場龍頭企業進行協同創新。一方面,聚焦“卡脖子”真問題,除芯片制造前道工藝 EUV 光刻機外,未來集成電路向 3D 芯片發展,前道工藝光刻機作用在減弱,高精度、高可靠與高性能的刻蝕機、薄膜機及電子束檢測設備等成為芯片制造關鍵設備,急需布局研制;同時自主架構高性能及開源 RISC-V 指令集的各種 XPU 芯片也需加強研發,并用相當 122 長的時間打造我國信息技術與產業自主生態。另一方面,要抓住 AI 驅動全球信息技術領域正在進入重構與再造的創新機遇
231、,系統研究計算技術、數據空間、算力空間、數據空間、網絡空間和智能空間的技術體系重構與再造面臨的挑戰性問題,協同市場龍頭企業,組織技術創新研發與工程實現隊伍,推進我國信息科技領域的整體創新。2)布局信息領域重大科技基礎設施 沒有大的工程牽引、重大科技基礎設施支撐,信息科學不會有大的發展。信息科技發展歷史上,重大科技基礎設施為信息技術創新奠定了物質基礎,產生了一系列重大技術發明。例如,在互聯網領域,美國早期支持 ARPANET 的基礎設施,為人類創造了互聯網。圍繞未來網絡,美國組織了“從零開始”(“Clean Slate”)的革命性未來網絡研究,先后支持下一代互聯網研究基礎試驗設施(GENI)和從
232、零開始設計新的互聯網架構(FIND)等項目。在云計算領域,美國也支持了全球信息網格(GIG)和云計算測試床(CloudLab)等項目。重大科技基礎設施的建設為美國等在信息科技領域領先,創造了極大的優勢。為抓住全球信息技術發展進入到緩慢期以及計算技術、算力空間、數據空間、網絡空間和智能空間等技術體系重構與再造的機遇期,我國應加快布局信息領域的重大基礎設施,搶占信息科技制高點。3)一體化布局信息科技領域“裝置群”123 在自然科學領域,往往圍繞一個或兩三個重大科學問題,構建一個大型的基礎設施,進行重大科學探索與發現的實驗研究。信息領域與之不同,信息領域的重大科技問題特征是:基礎原理、基礎共性技術和
233、領域應用 3 類問題并存,許多重大科技問題分散在信息技術體系框架的各個部分;并且,信息科技的基本原理、共性技術等局部問題一旦突破,將能夠影響整個領域和其他領域的發展。我們不能指望通過一個集中化、實驗型的基礎設施來解決信息領域各個環節面臨的問題。因此,信息領域的重大科技基礎設施應該是一個“裝置群”,以應對各個子領域的科技問題。同時,信息領域的重大科技基礎設施應該是一個柔性可組合的離散、分布式“大裝置”,要進行一體化的布局。(二)企業(二)企業 1.DeepSeek 的創新三重門的創新三重門 小天才的規?;?華為式的軍團平推+原創(哲學式)思想。(1)小天才們的勝利 大模型訓練是一個相當復雜的軟硬
234、一體的工程,而 DeepSeek 幾乎重新設計了絕大部分關鍵組件:MLA,GRPO,DeepSeekMoE,DualPipe,FP8 混合精度,R1-Zero,MTP 等等。范圍之廣,密度之大,非常震撼。124 團隊中其中有許多都擁有國際競賽背景(吳作凡,任之洲,周雨楊,羅煜翔等),好多甚至是實習或者剛開始讀博(DS-Math 的作者邵智宏/Peiyi Wang,Zihan Wang 等)。小天才式的創新,更有名的例子來自于美國:GPT 的最早提出者 Alec Radford,思維鏈 CoT 的提出者 Jason Wei,Sora 的主力貢獻者 Bill Peebles,都是初入職場,甚至沒有
235、博士訓練的年輕人。我們把這些人稱之為“小天才們”,因為他們不僅有天才般的 learn 的能力,更重要的是,他們沒有他們沒有 unlearn 的負擔的負擔。如果給小天才式的創新一個定義,那就是:給定約束,尋找最優解的能力。我們來舉例 DeepSeek 的三個核心算法模塊:MLA:傳統 Attention 內存占用太大,怎么辦?改造 Attention 模塊,通過低秩壓縮,讓 KV Cache 的效率達到最優。DeepSeekMoE:傳統 MoE 專家不夠精細,激活參數大,怎么辦?改造 MoE,通過增加共享專家和細粒度專家,大幅提升了 MoE 中的專家學習的效果。GRPO:傳統 PPO 需要訓練兩
236、個模型,效率低,怎么辦?通過去掉 Value Model,引入 Group-Relative 作為 baseline,大大提升了訓練效率。拋開專業術語,用人話來理解背后的模式是:一個非常優秀的工程師,遇到問題會嘗試不同的技術選型,選一個最好的方案。而小天才會說:在座的都不夠好,為什么不重寫一個?然后寫出了行業最佳方案。這樣的例子,在 DeepSeek 125 的文章里非常多,而每一個背后,都站著一個小天才。梁文峰自己說過,這樣的小天才式的創新,在硅谷每天都在發生。但這不能抹殺 DeepSeek 出現的意義,因為他不僅證明了中國能孕育硅谷型的創新文化,甚至還可以進一步規?;@種模式。畢竟,我們有
237、著全世界最多的小天才們。想象一下,這樣的文化,擴散到更多的創新型公司,成為主流,會是怎樣的一種盛況?這是創新的第一重門。(2)華為式的軍團平推 如果說,DeepSeek 只是復制了硅谷的小天才模式,為什么會讓那些發明這個模式的 OpenAI 們,如此緊張?這就要提到第二個關鍵要素。當你深度閱讀完 DeepSeek 的論文,尤其是 V3,一種新的感受會慢慢浮現:這是一個從底層硬件到上層算法的復雜大系統,以優雅的頂層設計環環相扣,以大破大立的方式平推完成。這就是創新的第二重門:軍團式的協同創新。而這,恰恰就是中國擅長的模式,也是我借用華為之名的原因。硅谷教父 Peter Thiel,對這種創新有過
238、一個深刻的表述。他認為一個真正的壟斷式創新,需要構建 Complex,Vertically Integrated System,許多不同層面的創新必須同時發生,并以一種高度協同的方式組合在一起。他認為 Elon Musk 成功的 126 根本,就來自于對這種協同復雜系統的追求。而 Elon Musk,也被認為某些方面是最接近中國企業的。在第一重門,我們拿著放大鏡,看 DeepSeek 在三個算法上的極致優化。但這些單點優化,也容易引入超越算法范疇的問題。所以讓我們切換視角,從更全局的視角,來重新理解 DeepSeek 的創新結構,第一條線是模型的迭代節奏(這里忽略了很多支線):2023 年 6
239、 月,DeepSeek 成立;2024 年 2月,發表 DeepSeek-Math,提出 GRPO;2024 年 5 月,推出 V2,提出 MLA 和 DeepSeek-MoE;2024年11月,推出 V3,提出了 MTP 和一整套軟硬一體優化方案等;2025 年 1 月,推出 R1,提出 R1-Zero。從 DeepSeek-Math 的第一次推出,到最后走到 R1,不到 12 個月。但速度甚至都不是討論的重點。而是另一條縱向的主線:他幾乎從基礎設施搭建,到底層硬件優化,到模型算法創新,一整個自己重做了一套。更關鍵的是,他們是高度協同優化,逢山開路,遇水搭橋,充滿了整體的邏輯性。(0)首先構
240、建自己的集群(螢火),為了更高效的并行訓練,那就自研 HAI LLM 訓練框架。(1)發現傳統 Attention 的 KV Cache 開銷太大,那就用 low-rank 來重新設計 MLA,緩存量下降 90%以上。(2)發現傳統 MoE 缺乏共享專家和細粒度專家,涌現能力不夠,那就設計自己的 127 DeepSeekMoE 解決專家精細度和共享知識問題。(3)發現引入的細粒度專家在訓練中負載均衡有挑戰,那就自研專家偏好的路由算法,保證每個專家都訓練充分。(4)發現 MoE 在管線并行(大模型不同層次分卡訓練)中很多通信帶寬和計算帶寬無法對齊,造成浪費,那自己設計 DualPipe 算法解決
241、。(5)為了確保上面的帶寬完全對齊,直接寫 PTX 這種底層語言來繞過 CUDA 限制,來精準控制 GPU SM 的數量和 Warp 數量做通信處理。(6)發現 NVLink 和 IB 的帶寬有三倍差距,那就確保 MoE 算法設計中只路由四個節點的專家,每個節點內平均訪問三個專家來對齊帶寬。(7)發現 Tensor Parallelism 通信開銷大,通過在 MLA 上重計算等方法釋放顯存來直接跳過 TP 步驟。(8)為了進一步提升訓練效率,開發了精細化的 FP8 混合精度(細粒度量化),在保證訓練效果的情況下大幅減少計算和通信。(9)為了更進一步提升訓練表現,在訓練過程中引入 MTP 讓每次
242、訓練密度更高。(10)為了提高 V3 的推理能力,那就拿 R1 來 distill V3 的推理。(11)為了在強化學習中少訓練一個 Value Model,開發出 GRPO。(12)為了解決小推理模型 Selfplay 推理學習的不足,就把大模型學出來的推理通過 Distill 注入到小模型里。(13).more 128 在介紹完方案的最后,V3 專門開辟章節,提出了一系列對硬件廠商設計下一代芯片的方案,包含大量的對通信,量化算子的設想。在 DeepSeek 的腦海中,是把創造 AGI 這件事情,看成一個大藍圖的,而這個藍圖是沒有邊界的。算法?通信?數據?硬件?都在需要解決的范疇內,而且高度
243、協同的平推下去。如果給他們足夠的精力和錢,他們會做自己的硬件,造自己的電網。這是真正創新者的樣子,就像喬布斯說過:真正在乎軟件的人,應該去制造屬于自己的硬件。背后的中國元素:和小天才模式不同,這種模式恰恰是硅谷文化中相對忽視的,馬斯克除外。2019 年我回國,發現字節和快手的推薦能力比 Meta 強,當時很意外。然后我開始了解到華為,到今天,以華為為代表的中國式組織,在國際競爭中釋放了巨大的能量,電動車、內容分發、智能硬件甚至電商。只不過,今天是 AGI 這個會改變文明走向的領域,DeepSeek 以如此迅猛的姿態登場,再一次刷新了全世界的認知。這就是創新的第二重門??梢钥吹皆?DeepSee
244、k,當我們把創新的第一重門(小天才式)和第二重門(體系協同式)融合在一起,威力相當大。129(3)原創(哲學性)思想 那是否還可以繼續往下挖掘?是否存在一種更底層的創新元素?一個類似 o1 或者 R1 這樣的顛覆式創新系統,構建于什么基礎之上?答案是一個原創的、全新的系統結構。那這個原創的結構,又從何而來?回答這個,可以引用一段很喜歡的 Ilya 的話(視頻前 2 分鐘):我喜歡思考非?;镜膯栴}.幾乎可以將這些問題視為哲學問題。例如,什么是學習?什么是經驗?什么是思考?.我認為技術就像是一種自然力量,但看起來我們可以通過設計算法,來做有用的事情,同時解答這些(哲學問題)。這就像是一種 應用哲
245、學。沒錯,第三重門的答案,是一種近乎哲學式的,原創的思想。如果我們把視角拉遠,看一下過去十年 AI 的創新源頭。分別是:Google 2017 年的 Transformer,DeepMind 2017 年的 AlphaZero,以及 OpenAI 2018 年的自回歸模型 GPT。但是這不僅僅是三個模型啊,內核是三個哲學性思想,關于“學習”的本質:(1)用什么結構來理解世界萬物,和他們的內在關系(Transformer)。(2)如何通過不斷的預測,把世界萬物的復雜性壓縮到直覺中(GPT)。(3)怎么基于直覺構建深度思考,完成對世界的進一步抽象(Zero)。我們今天看到的 OpenAI o1,或
246、者 DeepSeek R1,都是這三個哲學性思想,組合后的產物。從思想出發,先搭建了 130 一個基礎的系統結構,然后通過第一重門和第二重門的創新,把這個結構極致的打磨和再組合,顯化成今天改變世界的產品。哲學性思想的創造為何如此美妙?因為他們并不是為了找到一個優秀的解法,而是為了問出更本質的問題。(4)DeepSeek 跨越第三重門了嗎?梁文鋒可能也會說,今天的 DeepSeek,還沒有展現出這種原創(哲學性)的創新。但我卻在讀他們的文字中,瞥見了藏在背后的希望。第一個例子,是關于 MLA 的產生,來源于一個研究者“總結了 Attention 架構的演進規律”:第二個例子,是 DeepSeek
247、-Math 文章中很大篇幅,分享了對所有后訓練過程的統一框架的認識。盡管有類似的思想存在過,但你似乎可以感受到那些背后無邊界的熱烈討論。第三個例子,則是他們在 R1 中展開的 R1-Zero 的探索,這個大膽的嘗試,希望跳過所有的后訓練步驟,讓大模型在直覺模型的基礎上,完全不依賴標注數據,自我演進成一個有思維能力的模型。R1-Zero 沒有用到最終的 R1 產品 131 中,但論文中卻濃墨重彩的探討他的啟發意義。對,以及那個 Aha Moment,原文是這樣寫的:“這不僅僅是模型的 Aha,也是觀察模型的研究者的 Aha!”所以,你感受到了嗎?在克制的技術語言背后,藏著一種無法掩蓋的興奮和熱愛
248、。這是無邊界的好奇心的味道,這是迫不及待想和世界分享的味道。是原創的、哲學式的思想,呼之欲出的味道。(5)最后一塊拼圖 我不知道梁文鋒是不是中國的 Ilya Sutskever,但我堅信一個跨過創新三重門的組織,需要一個思想性的領袖。說到這里,今天 OpenAI 最缺的,不就是這個嗎?(寫第一篇時的心情重現)誰都無法預測未來。但也許哪一天,在 DeepSeek 的新論文中,會出現 Transformer 和 AlphaZero 級別的全新思想。更大膽一點,如果我們在 DeepSeek 的啟發下,產生了許多全新時代的創新型組織,在各自的領域跨過創新的第一重門和第二重門,并進一步產生了一批顛覆式的
249、思考者,和原創的、哲學性的思想。再大膽一點,如果這些思想和創新成果,以透明和開放的方式分享給全世界。這樣的世界,你會更愿意參與嗎?這是 DeepSeek,會真正讓歷史記住的東西。2.DeepSeek 顛覆了什么?顛覆了什么?大模型“國產之光”破局大模型“國產之光”破局的啟示的啟示 132 一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣“海嘯”。短短 30 天,中國初創企業深度求索(DeepSeek)先后發布兩款性能比肩 GPT-4o 的大模型,“1/18的訓練成本、1/10 的團隊規模、不分伯仲的模型性能”令硅谷大受震撼。最新一期經濟學人封面文章第一時間讓位給這一土生土長的國產大
250、模型:低成本中國模型的成功動搖美國科技優勢。很快,華爾街也同樣感受到了這種被動搖的震感。事實上,這匹黑馬的貢獻絕非“低成本”這一個標簽所能概括。它不僅重新定義了大模型的生產函數,還將重新定義計算。不論開源與閉源未來的優勢如何,這股沖擊波都將迫使全球科技界重新思考:當“規模定律”與“生態壁壘”不再絕對,什么才是下一賽季 AI 競爭的核心?或許我們能從中獲得新的啟示。(1)擊穿三大定式 1 月下旬,DeepSeek 在中區、美區蘋果 App Store 下載榜單中登頂,超越 ChatGPT、谷歌 Gemini 等全球頂尖科技巨頭研發的模型產品。具體而言,它顛覆了什么?打破“越強越貴”的成本詛咒 價
251、格感人是讓 DeepSeek 快速出圈的第一個標簽。DeepSeek-R1 的 API 服務定價為每百萬輸入 tokens 1 元(緩存命中)/4 元(緩存未命中),每百萬輸出 tokens 16 元,而o1 模型上述三項服務的定價分別是 55 元、110 元、438 元。133 凡是使用過幾款大模型的用戶很快就能形成這樣一個共識:就推理能力而言,DeepSeek 直逼 OpenAI 的 o1、Meta 的Llama-3 等一流模型,甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機構Menlo Ventures負責人Deedy對比谷歌 Gemini 和 DeepSeek-R1 后表
252、示,DeepSeek-R1 更便宜、上下文更長、推理性能更佳。低成本比肩 o1 模型,令硅谷的“燒錢模式”一時間遭到猛烈質疑。然而在過去,大模型服務是標準的“一分錢一分貨”,想要用上更優性能的產品必須支付更高昂的費用,以覆蓋整個模型訓練過程中更高算力成本的支出。超越“性能-成本-速度”的不可能三角 當硅谷仍在為 GPU 萬卡集群豪擲千億資金時,一群土生土長的中國年輕人用 557.6 萬美元證明:AI 大模型的比拼或許并不只靠規模,更重要的是看實際效果。有句話形象地概括出 DeepSeek 的優勢:“不是 GPT 用不起,而是 DeepSeek更具性價比?!眰鹘y模型訓練,需要在性能、成本、速度之
253、間權衡,其高性能的獲得,需要極高的成本投入、更漫長的計算時間。而 DeepSeek 重構了大模型的“成本-性能”曲線,同時壓縮了計算周期。根據 DeepSeek 技術報告,DeepSeek-V3 模型的訓練成本為 557.6 萬美元,訓練使用的是算力受限的英偉達H800 GPU集群。相比之下,同樣是開源模型的Meta旗下 Llama-3.1 模型的訓練成本超過 6000 萬美元,而 OpenAI 134 的 GPT-4o 模型的訓練成本為 1 億美元,且使用的是性能更加優異的英偉達 H100 GPU 集群。而使用過程中,DeepSeek給出反饋的時長也大部分控制在 5 秒至 35 秒之間,通過
254、算法輕量化、計算效率最大化、資源利用率優化,成功壓縮了計算時間,降低了延遲。走出“參數膨脹”陷阱 ChatGPT 橫空出世后 700 多天里,全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學”路線,參數越“煉”越大,給算力、數據、能耗帶來了極大壓力。很長一段時間,參數幾乎成為大模型廠商比拼的最大焦點。而另辟蹊徑的 DeepSeek 恰巧處于對角線的另一端:并不盲目追求參數之大,而是選擇了一條通過探索更高效訓練方法以實現性能提升的“小而精”路線,打破了“參數膨脹”的慣性。例如 DeepSeek-R1(4B 參數)在數學推理、代碼生成等任務上具有比肩 70B 參數模型(如 Llama-
255、2)的能力,通過算法優化、數據質量提升,小參數模型一樣能實現高性能,甚至能夠“四兩撥千斤”。(2)實現三大躍升“DeepSeek 出圈,很好地證明了我們的競爭優勢:通過有限資源的極致高效利用,實現以少勝多。中國與美國在 AI領域的差距正在縮小?!泵姹谥悄苁紫茖W家劉知遠說。算力 135 封鎖下的有力破局,得益于 DeepSeek 技術架構、數據策略、工程實踐三方面的關鍵突破。技術架構:重新定義參數效率大模型的千億參數不應是冰冷的數字堆砌,而應是巧奪天工般地重組整合。傳統大模型 Transformer 架構好比一條承載車輛的高速公路,當車輛(數據)數量足夠多的時候,每輛車必須和前后所有車溝通完成
256、才能繼續行駛(計算),導致堵車(計算慢、能耗高)。而 DeepSeek 創新的架構則把一條串行的高速路,變成了一個輻射狀的快遞分揀中心,先把貨物(數據)按類型分類打包,再分不同路線同時出發開往不同目的地,每輛貨車(計算)只需選擇最短路徑。因此既能提高速度又能節約能耗。數據策略:質量驅動的成本控制 DeepSeek 研發團隊相信,用“煉數據”取代“堆數據”,能使訓練更具效率。傳統的數據策略好比去農場隨便采撿,常有價值不高的爛菜葉(低質量數據)。而 DeepSeek 創新的數據蒸餾技術,有針對性地篩選掉質量不高的爛菜葉:一方面自動識別高價值數據片段(如代碼邏輯推理鏈),相比隨機采樣訓練效率提升 3
257、.2 倍,另一方面通過對抗訓練生成合成數據,將高質量代碼數據獲取成本從每 100 個 tokens 的 0.8元降低至 0.12 元。工程實踐:架起“超級工廠”流水線 136 大模型傳統的訓練方式好比手工造車,一次只能裝配一臺,效率低下。而 DeepSeek 的 3D 并行相當于一方面通過流水線并行把造車流程拆分為 10 個步驟,同時組裝 10 輛車(數據分塊處理),另一方面通過張量并行,把發動機拆成零件,分給 10 個工廠同時生產(模型分片計算)。至于推理過程,傳統模型好比現點現做的餐廳,客戶等菜時間長,推理過程慢。而 DeepSeek 采用的 INT4 量化,能把復雜菜品提前做成預制菜,加
258、熱(計算)時間減半,口味損失不到 5%,實現了大模型的低成本工業化。(3)超越技術的啟示 拆解 DeepSeek 的成功公式不難發現,通過底層架構創新降低 AGI 成本,同時以開源策略構建生態護城河,提供了中小型機構突破算力限制的可行路徑。此外,我們還能從中得到一些超越技術的啟示。一直以來,驅動 DeepSeek 的目標并非利潤而是使命?!疤剿魑粗林场钡脑妇耙仓赶蛞环N與之匹配的極簡且清爽的組織架構。一名人工智能科學家表示,在人工智能大模型領域,大廠、高校、傳統科研機構、初創公司在資源稟賦上其實各有優勢,但結構性的局限很難扭轉。DeepSeek 這種類型的初創公司能很好地彌補其中的一個缺位具有
259、大工程能力、不受制于短視商業邏輯的創新定力、創業團隊扁平化組織機制帶來的絲滑流暢的協作度。137 據不具名人士透露,其 V3 模型的關鍵訓練架構 MLA 就源于一位年輕研究員的個人興趣,經過研判后 DeepSeek 組建了專項團隊開展大規模驗證與攻關。而 R1 模型果斷調整強化學習路線,領先于其他機構實現了近似 o1 的推理能力,核心原因之一也歸功于其青年團隊對前沿技術的敏銳嗅覺與大膽嘗試?!拔覀儎撔氯鄙俚牟皇琴Y本,而是信心,以及組織高密度人才的能力,調動他們高效地進行創造力與好奇心驅動的創新?!盌eepSeek 創始人梁文鋒說。在 DeepSeek 身上,我們看到了皮克斯動畫工作室的影子。這
260、個年輕的中國初創企業與那個創作 27 部長片有 19 部獲得奧斯卡最佳動畫、同樣以創新為鮮明標簽的組織,有著不謀而合的組織機制與范式選擇,以及由此帶來的高企的創新成功率與人才留存率。不同于先發者略顯封鎖的護城堡壘,DeepSeek 贏得贊譽的還有它的開源路線。將代碼、模型權重和訓練日志全部公開,不僅需要格局,更需要勇氣與實力?!霸陬嵏残约夹g面前,閉源形成的護城河是短暫的。即使 OpenAI 閉源,也無法阻止被別人趕超?!绷何匿h這樣解釋選擇開源的原因,“開源、發論文,其實并不會失去什么。對于技術人員來說,被 follow(追隨模仿)是很有成就感的事?!睆募夹g到愿景,DeepSeek 堅定選擇的始
261、終是一條難且正確的路。這也是為什么,即便別國在人工智能領域已坐享先發優勢,后發者依然有機會憑借技術創新、成本革命打破大模型 138 競爭的傳統邏輯,打破人工智能行業競爭格局,打破“他國更擅長從 0 到 1 的原始創新,而中國更擅長從 1 到 10 的應用創新”的成見,重塑競爭優勢的奧秘。北京時間 2 月 1 日凌晨,在 OpenAI 發布其推理系列最新模型 o3-mini 時,我們從中看到了一個熟悉的字眼:“Deep research”。這是否是國產之光“被 follow”的開端盡管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,另一條具有自主創新基因的制勝之道。正如梁文鋒此前接受采
262、訪時所說,“中國要逐步成為貢獻者,而不是一直搭便車?!保ㄈ┑胤剑ㄈ┑胤?1.為什么為什么 DeepSeek 沒有出現在浦東張江沒有出現在浦東張江 張江的資源向“國家隊”傾斜:張江科學城的土地、資金優先支持中科院上海分院、復旦張江校區等“嫡系部隊”,民營企業需排隊等“殘羹剩飯”。張江是“精英內卷”:名校博士擠破頭進中芯國際當“高級操作工”,而真正敢撕掉 SCI 論文、all in 顛覆性技術的人鳳毛麟角。想在張江創業,如同硬科技的“學歷軍備競賽”:先亮出MIT 博士學歷、頂會論文或英特爾/ASML 工作經歷。某芯片初創公司創始人直言:“在張江,沒三篇 ISSCC 都不好意思要融資?!?39
263、而杭州是“幸存者偏差”:無數草根創業者淪為直播帶貨炮灰、跨境電商“刷單難民”,但一個李佳琦的成功就能讓年輕人前赴后繼。浙江在政府考核中設立“創新免責條款”,官員在支持新興技術時決策失誤可減免追責,浦東張江則缺乏類似機制,導致官員“不敢為”。兩地的差異本質是市場原教旨主義 vs 國家資本主義的縮影杭州把政策當“橡皮泥”;張江把政策當“鐵柵欄”,確保創新不越雷池半步。張江是頂層設計主導,從土地規劃到產業目錄均由政府強力主導,創業者更像“系統內的創新者”,缺乏杭州式的民間野性。張江的官方服務仍困在工業化時代的治理邏輯重硬件、重流程、重短期可見成果,而杭州已進化到數字經濟時代的“企業合伙人”模式敢放權
264、、敢試錯、敢用資源換產業話語權。以上論斷可能與現實有偏差,但這是 DeepSeek 給出的答案;如有雷同,也純屬大模型巧合。張江高科技園區作為中國科技創新的重要高地,在集成電路、生物醫藥、人工智能等領域成就斐然,但為何未能孕育出類似深度求索(DeepSeek)這類聚焦大模型與生成式 AI的企業?140 從產業生態、資源稟賦、政策導向等多維度解析,押司將 DeepSeek 給出的答案盡量避開敏感詞,并擇要整理如下。其中提到張江存在的一些問題,有則改之,無則加勉。杭州與張江(代表上海浦東)在歷史基因、政策邏輯和創業文化上存在結構性差異,這種差異不僅塑造了兩地的產業格局,也深刻影響著年輕人的創業選擇
265、。若張江不打破“蓋章經濟”的路徑依賴,其在 AI 時代的競爭力可能進一步被杭州、深圳等“猛獸派”城市甩開。這不是單純的政策力度問題,而是治理體系代際差距的體現。張江追求“零風險”的保守心態:官員對 AI 倫理、數據安全等問題高度敏感,常因“怕出事”而限制創新,例如要求企業所有數據本地化存儲,導致跨國研發合作受阻。杭州將 AI 視為“換道超車”的機會,愿意承擔試錯風險,例如對無人駕駛事故的責任認定,杭州率先出臺地方法規明確企業免責條款,而上海仍在“研究”。張江是技術官僚的“合規優先”邏輯:政策設計圍繞*硬件制造與成熟產業(芯片、醫藥),注重技術安全性和流程合規性,例如芯片流片需層層審批,政策資源
266、傾向于“看得見摸得著”的實體成果。張江對 AI 等軟性創新的支持停留在口號層面,例如大模型企業需要的開放數據接口、跨境數據流動試點等實質性政策難以突破行政壁壘。141 典型案例是:某 AI 創業公司申請醫療數據訓練權限,因張江“數據安全顧慮”被拒,最終轉投杭州余杭區,依托浙江“政務數據開放試驗區”獲得授權。相比之下,杭州是野蠻生長的“綠燈思維”:政府以互聯網思維運作,主動為 AI 企業“開綠燈”,例如允許企業在監管沙盒中試錯(如自動駕駛路測、AI 診療),甚至協調阿里云等巨頭開放算力資源。杭州的政策工具更靈活:通過“一事一議”定制補貼(如按模型參數量補貼研發費用),而張江的補貼標準仍固守“專利
267、數量、固定資產投資額”等傳統指標。張江尚存在科層制的“公章馬拉松”:企業從注冊到落地需對接多個部門(科委、經信委、市場監管局),流程復雜耗時,某 AI 初創企業反映“為申請算力補貼,跑了 3 個月才蓋章”。張江的窗口服務僵化:工作人員常以“不符合既有政策”為由拒絕創新訴求,缺乏變通能力,例如對“大模型訓練用電”這類新需求,仍按工業用電標準審批,導致成本高企。而杭州是數字化政府的“極限壓縮”:依托“最多跑一次”改革,企業注冊、政策申報全流程在線化,杭州某生成式 AI公司從簽約到獲得首筆補貼僅用 15 天。142 杭州采取主動上門服務:經信部門設立“AI 專班”,針對頭部企業直接派駐聯絡員,協調解
268、決算力采購、人才落戶等痛點,甚至為企業對接浙大實驗室資源。張江的產業鏈“孤島化”:政府更擅長服務中芯國際、華虹等巨頭,但對中小 AI 企業的生態整合能力薄弱。例如,張江 AI 企業難以對接上海超算中心的算力資源(優先服務科研機構),而杭州政府可直接協調之江實驗室、阿里云與創業公司“搭橋”。張江的資本對接滯后:張江的國有資本(如浦東科創集團)偏好中后期項目,而杭州的民資本(如湖畔山南、元璟資本)敢押注早期 AI 項目,政府甚至參與組建“大模型專項基金”。另外,張江的辦公場地、人才成本較高,初創企業或對成本敏感的公司可能傾向選擇成本更低的區域(如杭州、蘇州等周邊城市),或在政策扶持力度更大的園區落
269、戶。1992 年張江高科成立,是國家布局集成電路、生物醫藥等“卡脖子”產業的戰略基地,央企、外企研發中心扎堆(如中芯國際、羅氏制藥)。張江的優惠政策長期向集成電路、生物醫藥等“硬科技”傾斜,例如芯片流片補貼、醫藥審批綠色通道等。張江的產業布局以硬件驅動型科技為核心,形成了獨特的生態特征:硬件與制造的強基因:張江的集成電路產業全 143 球領先,生物醫藥依賴實體研發和生產,人工智能領域更偏向芯片設計(如寒武紀、地平線)和終端應用(如機器人、自動駕駛)。杭州早期以旅游和輕工業立市,1990 年代借力民營經濟(如娃哈哈、萬向集團)完成原始積累。杭州有互聯網時代的“造富神話”:馬云在湖畔花園居民樓創立阿里的故事,讓年輕人相信“PPT+膽量=估值過億”。阿里巴巴的崛起(1999 年)徹底改寫城市基因,互聯網草根創業文化深入骨髓。企業倒逼了改革:阿里巴巴等巨頭崛起后,政府被迫調整規則(如全國首個跨境電商綜試區、數據知識產權質押試點),政策本質是為既有企業“開后門”。杭州對灰色創新(如早期互聯網金融 P2P、直播打賞)睜一只眼閉一只眼,等企業做大后再補監管(典型“先污染后治理”)。杭州從從西湖時代來到了錢塘江時代:依托電商、直播、MCN 等產業鏈,草根創業者靠一部手機就能開網店、做網紅(如義烏小商品賣家、抖音腰部主播),失敗成本低,階級躍遷幻覺強。殘酷現實是:張江與杭州是兩個平行宇宙的樣板。