《InfoQ:2025年DeepSeek:AI 賽道的超級引擎|AI前線特刊(159頁).pdf》由會員分享,可在線閱讀,更多相關《InfoQ:2025年DeepSeek:AI 賽道的超級引擎|AI前線特刊(159頁).pdf(159頁珍藏版)》請在三個皮匠報告上搜索。
1、 目錄目錄 開篇詞.1 DeepSeek崛起:大模型之戰與應用未來.5 純強化學習的革命:DeepSeek技術路線揭秘.24 DeepSeek的組織文化:創新與商業化的平衡.35 AI開源新趨勢:DeepSeek的決策與影響.44 AI時代的百萬年薪:DeepSeek與全球人才爭奪戰.58 RAG技術前沿:DeepSeek模型的應用與突破.70 DeepSeek如何重塑AI商業化格局?.93 從提示詞到變現:DeepSeek如何賦能用戶.105 全球AI新格局:DeepSeek帶來的生態機會.114 AI的能力邊界:DeepSeek能否重新分配生產力?.128 AI領域的下一個里程碑:Deep
2、Seek的預測與機遇.139 讓天下沒有難做的AI交付,DeepSeek服務交付聯盟是個什么組織?.149 AIAI前線前線|特刊特刊 開篇詞開篇詞 各位開發者朋友:當你們翻開這本電子書時,我們正站在人工智能革命的臨界點。過去十年,AI技術從實驗室走向產業應用;未來十年,這場革命將以前所未有的深度重塑人類社會的每個角落。作為這場變革的見證者和參與者,InfoQ極客傳媒聯合極客時間、TGO鯤鵬會等兄弟單位,聯袂多名專家第一時間對DeepSeek這一革命性技術進行深度解讀,獲得眾多開發者朋友和企業的廣泛認可。今天我們懷著敬畏與期待,將DeepSeek探索人工智能邊界的故事凝結成冊,希望通過這些沉淀
3、繼續影響更多的朋友一起見證歷史。這本電子書不是簡單的技術匯編,而是一個創新組織在AI浪潮中劈波斬浪的完整敘事。從大模型底層架構的革命性突破,到開源生態的戰略抉擇;從純強化學習的技術攻堅,到百萬年薪人才爭奪戰中展現的組織智慧我們試圖通過九個維度的深度剖析,向大家展示:在算法紅利與商業化壓力的雙重作用下,一家在算法紅利與商業化壓力的雙重作用下,一家AI企業如何保持技術創新定力,企業如何保持技術創新定力,同時構建可持續發展的商業閉環。同時構建可持續發展的商業閉環。這本電子書記錄的不僅是DeepSeek成功背后的故事,更是一部關于“如何成為時代引擎”的方法論。超超級引擎的轟鳴:技術突破即行業加速器級引
4、擎的轟鳴:技術突破即行業加速器 如果說算力是AI時代的石油,那么DeepSeek正在重新定義內燃機的構造當行業還在監督學習的線性軌道上勻速前行時,DeepSeek通過自主進化系統讓模型實現指數級成長。這種技術路徑的顛覆性,正如從蒸汽機到火箭引擎的跨越:它不追求單一任務的極致優化,而是構建可自適應環境、持續突破性能極限的“智能推進器”。每一個技術突破的爆震聲,都在為行業校準新的速度閾值。DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 動動力系統的秘密:組織文化的聚變反應力系統的秘密:組織文化的聚變反應 超級引擎的持久運轉,依賴內部精密的能量轉化機制。DeepSeek獨特的
5、組織哲學保持了研發團隊與商業化團隊之間的創造性張力,既不讓短期盈利目標束縛技術想象力,也避免陷入技術烏托邦的陷阱。這種戴著鐐銬跳舞的智慧,體現在工程師與產品經理每周的認知碰撞會中,也體現在允許20%資源投入高風險探索項目的制度設計里。正如硅谷教父杰弗里摩爾所言:跨越技術采納鴻溝的關鍵,在于建立創新與市場的對話機制。傳傳動軸的革新:開源生態重構動軸的革新:開源生態重構AI產業產業 真正的超級引擎從不獨行,它需要重新定義傳動的規則。在有關AI開源新趨勢的交流中,我們討論了DeepSeek開源決策背后的戰略考量。不同于某些企業將開源視為市場防御手段,DeepSeek的開源實踐始終秉持生態共建的初心。
6、通過開放模型中間層接口,既降低了開發者的準入門檻,又在產業上下游催生出200余個創新應用案例。這種利他即利己的生態思維,正在改寫AI時代的價值分配規則。核核心部件的進化:人才飛輪突破性能極限心部件的進化:人才飛輪突破性能極限 當行業用薪酬數字粗暴比拼“馬力”時,DeepSeek更關注人才的“推重比”。當“百萬年薪”成為行業熱議話題,我們更應注意人才爭奪背后的深層邏輯。在DeepSeek的實踐中,頂尖人才的價值不僅體現在代碼能力,更在于其構建認知飛輪的能力那些能同時理解技術本質與商業規律,在模型優化與用戶體驗之間找到平衡點的人才,才是驅動AI落地的關鍵齒輪。為此,其建立起獨特的雙軌道培養體系,讓
7、技術天才與產品極客能在碰撞中實現認知升級。輸輸出功率的質變:商業化重塑價值坐標系出功率的質變:商業化重塑價值坐標系 超級引擎的真正價值,體現在它如何重新定義“速度”。AI商業化絕非簡單的技術變現。當電商企業將提示詞響應速度從3秒降至0.5秒時,帶來的不僅是效率提升,更是用戶決策模式的根本改變。這種價值重構要求企業具備技術穿透力既能洞察算法瓶頸,又能感知用戶體驗的細微痛點。DeepSeek在金融、教育、醫療等領域的成功實踐證明:AI商業化的天花板,取決于技術團隊對產業Know-How的理解深度。AIAI前線前線|特刊特刊 站在2025年的技術拐點上,我們清晰地看到:大模型正在從技術奇觀走向產業基
8、礎設施,AI競爭進入應用深水區。在這個過程中,DeepSeek始終秉持三個核心信念:其一,真其一,真正的智能革命必須帶來可衡量的商業價值;其二,開放協作的生態比封閉系統更具生命正的智能革命必須帶來可衡量的商業價值;其二,開放協作的生態比封閉系統更具生命力;其三,人機協同進化的終極目標是解放而非替代人類創造力。力;其三,人機協同進化的終極目標是解放而非替代人類創造力。謹以此書,獻給所有不甘于勻速前進的行業顛覆者。真正的超級動力,永遠源自那些敢于重新定義速度的人。今年極客邦科技的年度主題也是“AI應用落地”,我們期待和所有心懷夢想,勇于挑戰的朋友一起創造歷史,見證歷史!霍太穩 極客邦科技創始人 2
9、025年3月10日于北京 4 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 DeepSeek AI賽道的超級引擎賽道的超級引擎 5 AIAI前線前線|特刊特刊 DeepSeekDeepSeek崛起:大模型之戰與應用未來崛起:大模型之戰與應用未來 分享嘉賓:彭靖田 策劃:極客時間 亮點內容亮點內容:DeepSeek持續爆火,背后到底是什么原因;DeepSeek基礎模型核心架構DeepSeekMoE DeepSeek R1推理模型關鍵技術突破與原理解析 DeepSeek有什么應用場景和案例。中美大模型未來競爭格局分析 大家晚上好,我叫彭靖田,是Google出海創業加速器的
10、導師,也是Google AI開發者專家。今天我想重點分享幾個問題。首先是DeepSeek和其他大模型相比,到底處于什么水平?它為什么突然火了起來?它的落地應用前景和挑戰又是什么?最后,我想和大家探討一下中美在大模型領域的競爭,這其實是一個長期的話題。在正式開始之前,我想先問大 6 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 家一個問題:你們是什么時候聽說DeepSeek的?1月20日,也就是春節前一周左右,國務院總理李強主持了一場座談會,深度求索的創始人梁文峰參與了此次座談,并就政府工作報告的征求意見稿提出了建議。這一事件從頂層設計層面體現了中國對DeepSeek技
11、術突破的高度重視。那么,DeepSeek為何受到如此重視?它僅僅是中國人關注的對象,還是全球矚目的焦點?數據或許能給出答案。通過Google搜索引擎的Google Trends來看,過去30天內,在美國IP屬地的搜索數據中,我選取了三個關鍵詞:DeepSeek、ChatGPT和LLaMA。1月11日時,LLaMA的搜索熱度高于DeepSeek,但自1月20日起,DeepSeek的熱度迅速攀升,僅用1到2天就超過了運營兩年多、月活用戶近10億的ChatGPT。再看美國各地區對DeepSeek的關注情況。加州作為美國創新高地,對DeepSeek的關注度很高,但最初超過ChatGPT的那幾天,華盛頓
12、特區的搜索熱度更高。美國政府官員對DeepSeek表現出緊張情緒,甚至有官員宣稱要禁止DeepSeek,還有人主張限制芯片出口中國。從過去30天的整體數據來看,不僅是加州、華盛頓特區,馬薩諸塞州(美國高校聚集地,如哈佛大學所在地)和紐約(華爾街所在地)等地,整個美國都在密切關注DeepSeek的發展,DeepSeek并非僅僅是墻內開花的故事。7 AIAI前線前線|特刊特刊 從另一個角度也能看出DeepSeek的影響首當其沖的是ChatGPT。從流量和搜索相關問題來看,與DeepSeek相關的問題增長了50倍,而“DeepSeek是否優于ChatGPT”的問題增長了41倍。這表明,很多美國人開始
13、質疑DeepSeek是否比ChatGPT更強大。事實上,DeepSeek確實很厲害,美國一線專家如山姆奧特曼、楊立昆等都對其贊不絕口。再看全球范圍內的趨勢,不僅僅是美國,亞洲、歐洲等全世界范圍內都呈現出類似的趨勢。DeepSeek自1月底開始熱度迅速上升,目前仍高于LLaMA。這令人深思,因為Meta在LLaMA上投入了大量資金。我們稱DeepSeek為AI界的“拼多多”,其成本僅為LLaMA的1/10。通過這些數據可以看出,DeepSeek早已出圈,它不僅在中國受到關注,還在全 8 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 球范圍內,無論是學術圈還是大眾領域,都
14、受到了廣泛關注。DeepSeek vs其他大模型其他大模型 DeepSeek與其他大模型相比,到底有什么獨特之處。其實,大家現在談論的DeepSeek更多的是指R1模型,也就是在2025年1月熱度超過ChatGPT的那個版本。原因很簡單,R1是一個與OpenAI的o1同等級別的模型,但o1非常昂貴且沒有開源,而DeepSeek R1完全開源,大家可以免費享受到與o1同等水平的智能體驗。在講R1之前,我想先提一下DeepSeek V2版本。這個版本可以說是橫空出世,它在2024年發布了多篇重要論文,包括V1、V2、V3、R1以及DeepSeek MOE等。其中,V2論文提出了多頭潛在注意力機制(
15、MLA),這是對傳統Transformer模型中多頭注意力機制的重要改進。它能夠顯著降低算力和顯存開銷。此外,V2還提出了稀疏大模型架構DeepSeek MOE,這種架構在降低成本的同時,還能保持較高的性能。9 AIAI前線前線|特刊特刊 從效果來看,DeepSeek V2在2024年5月的開放測試中,與其他大模型相比,表現非常出色。在二維坐標系中,左上角代表性能最好,而V2的性能接近甚至超過了當時的一些頂尖模型,如Mixtral 822B。這表明,DeepSeek V2不僅成本低,性能也非常強大。通過MLA機制,DeepSeek V2的KV緩存需求僅為原來的6.7%,大大降低了算力需求,同時
16、提高了吞吐量。在推理任務和不同語言任務上,V2的表現也非常接近GPT-4的早期版本。10 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 緊接著,在2024年12月發布的DeepSeek V3更是讓人震驚。V3不僅在性能上有了大幅提升,還能夠與千問2.5 72B、LLaMA3.1 405B等大型模型相媲美,甚至在某些方面超過了GPT-4o。V3采用了混合專家模型(MOE)架構,這種架構的最大優勢在于降低了訓練和推理成本。V3的模型體量為6711億參數,但在推理時只需激活370億參數,大大降低了成本。與V2相比,V3將專家數量提升了一倍,參數總量提升了三倍,但激活值僅增加
17、了1.5倍。相比之下,千問和LLaMA等模型采用的是稠密架構,訓練成本更高。到了2025年1月,DeepSeek R1的發布更是讓整個行業為之震動。R1不僅趕超了OpenAI的o1模型,還通過強化學習實現了復雜的推理能力。R1的開源,為整個行業提供了新的方向。它證明了在不依賴昂貴標注數據的情況下,也能實現與o1相當甚至更好的效果。這無疑對OpenAI構成了巨大挑戰,也讓整個行業看到了DeepSeek的技術實力和創新潛力。11 AIAI前線前線|特刊特刊 DeepSeek為什么突然火了?為什么突然火了?在深入了解了DeepSeek從V2到R1的演進過程和其價值之后,我們再來看看DeepSeek到
18、底有哪些技術細節值得我們學習和了解。在探討這些技術之前,我們不得不回到一個核心問題:DeepSeek為什么會火?從理性分析來看,任何技術的火爆必有其原因。一開始,DeepSeek在圈內人中傳播,大家開始討論它有多厲害。隨后,國內的總理座談會和自媒體的分享推動了其在國內的傳播,而在國外,主要是技術領域的KOL在分享。那么,DeepSeek到底有多火呢?這需要量化來看。AI產品榜一直在記錄這些數據。兩年前,大家都認為互聯網已經進入后半場,很難再出現像抖音、微信這樣的平臺級產品。然而,ChatGPT的出現打破了這一認知,它以最快的速度突破了百萬用戶和億級用戶。而DeepSeek的表現更為驚人,它僅用
19、了18天就達到了1500萬的日活用戶,這是ChatGPT的13倍增速。大家想象一下,一個APP每天有1500萬用戶在使用,服務器出現繁忙提示也就不足為奇了。因為DeepSeek沒有那么多算力支持,它幾乎是免費提供服務,用戶量呈指數級增長,服務器壓力自然巨大。更令人震驚的是,DeepSeek僅用了7天就達到了1億用戶,而ChatGPT用了兩個月。兩個月是60多天,相比之下,DeepSeek的增長速度簡直令人難以置信。這兩個數據足以說明DeepSeek的火爆程度。ChatGPT已經讓華爾街和全球技術界為之瘋狂,而DeepSeek則以13倍于ChatGPT的速度增長,僅用7天就達到1億 12 Dee
20、pSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 用戶,這無疑是AI界的一大奇跡。除了用戶增長速度,DeepSeek被稱為AI界的“拼多多”也值得關注。這是因為DeepSeek V3的訓練成本僅為LLaMA 3.1的十分之一。LLaMA 3.1有不同尺寸的模型,如8B、70B和405B。DeepSeek V3雖然有6710億參數,但激活時只有30多億參數,遠低于LLaMA 3.1的推理成本。從訓練成本來看,LLaMA 3.1需要3084萬GPU小時,而DeepSeek V3只需要270萬GPU小時。即使不考慮GPU的購買成本和租賃成本,僅從訓練所需的GPU小時數來看,DeepS
21、eek V3的成本僅為LLaMA 3.1的十分之一。這一成本優勢是無可辯駁的。盡管有些媒體質疑DeepSeek的算法,但只要仔細閱讀相關論文,就會發現DeepSeek的訓練成本計算方法是標準且合理的。每家公司運營成本不同,我們只能公平地比較從零到一完成訓練所需的GPU小時數。因此,DeepSeek V3的低訓練成本是完全合理且令人信服的。DeepSeek如何做到便宜又好用如何做到便宜又好用?DeepSeek公司在過去一年中進行了多次模型迭代,取得了顯著的技術創新和突破。V1模型主要驗證了LLaMA的工作,并提出了超參數的冪律關系公式。這一公式涉及學習率的衰減問題,尤其是在微調訓練中,如何根據模
22、型規模和數據規模靈活調整學習率。傳統的余弦衰減方法雖然被廣泛采用,但存在一定的局限性,而DeepSeek在V1階段就開始探索更適合的衰減策略。V2模型則提出了多頭潛在注意力機制(MLA)和DeepSeek MoE架 13 AIAI前線前線|特刊特刊 構。V3模型在網絡架構上沿用了V2的設計,并引入了無輔助損失負載均衡策略與多Token預測(MTP)。這些改進進一步提升了模型的性能和效率。而R1模型則是全球首個基于強化學習訓練的大模型,它不僅追平了OpenAI的o1模型,還實現了更復雜的推理能力,成為DeepSeek技術突破的標志性成果。重重點講講點講講MoEs技術技術 我們重點探討兩個技術點:
23、一是DeepSeek的MoE架構是如何發展而來的;二是R1模型如何通過強化學習實現推理能力的突破。V2模型的兩個重要技術創新是MLA和DeepSeek MoE。MLA改變了標準Transformer中的注意力機制,而MoE架構則對全連接層進行了改造。MoE技術的核心在于將模型的不同部分分配給不同的“專家”來處理,從而實現并行化和高效訓練。MoE技術的發展可以追溯到1991年,當時Hinton提出了自適應局部專家混合的概念。這一概念的核心是將不同的網絡能力分配給不同的專家,并通過門控網絡來決定輸入數據應該由哪個專家處理。2013年,Ilya等人將深度學習與MoE思想相結合,提出了深度MoE(DM
24、oE)的概念,允許在深度神經網絡的不同層中應用MoE。2017年,Hinton和Jeff Dean進一步探索了大規模MoE模型的可能性,引入了稀疏性概念,14 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 使得模型能夠在不增加計算量的情況下擴大規模。MoEs與與 大模型結合后的技術發展大模型結合后的技術發展 MoE技術是一種將多個專家網絡組合在一起的方法,每個專家負責處理輸入數據的不同部分,從而實現更高效和更靈活的模型訓練。這種技術在深度學習領域已經得到了廣泛的應用,尤其是在大模型中。早在2017年,Google的Hinton和Jeff Dean團隊就進行了一項重要的
25、研究,探索了在LSTM網絡上應用MoE技術的可能性。當時,他們構建了一個擁有1370億參數的MoE模型,這在當時是一個巨大的突破。然而,由于Transformer架構在2017年才剛剛被提出,因此他們的研究并沒有在Transformer上進行實驗。但到了2020年,Google的GShard項目進一步推動了MoE技術的發展,他們開始探索如何將MoE技術與Transformer架構相結合,以實現更高效的模型訓練。GShard項目的一個重要目標是解決多語言翻譯問題。在沒有GPT-4之前,多語言翻譯是一個非常復雜的任務。假設全球有100種常用語言,要實現這些語言之間的任意翻譯,就需要大量的模型。具體
26、來說,如果每種語言對都需要一個單獨的模型,那么就需要9900個模型來完成100種語言之間的任意翻譯。這是一個非常龐大的數字。因此,Google提出了一個大膽的想法:是否可以用一個模型來完成所有這些翻譯任務?這個想法最終在 15 AIAI前線前線|特刊特刊 GShard的后續論文中得到了驗證。他們發現,只要模型足夠大,即使訓練數據很少,模型也能夠學會進行多語言翻譯。這一發現為DeepSeek的發展提供了重要的啟示。除了理論上的探索,GShard在工程技術方面也進行了許多有意義的實驗。他們發現,MoE技術非常適合用于分布式訓練。在分布式訓練中,模型的不同部分可以在不同的GPU卡上進行訓練,從而提高
27、訓練效率。GShard提出了一種“top-two gating”的方案,即在每次訓練中只與兩個最相關的專家進行通信。這種方法大大降低了通信成本,提高了訓練效率。這一技術后來被許多其他研究團隊所采用。然而,盡管MoE技術在理論和工程上都取得了顯著的進展,但在實際應用中仍然存在一些挑戰。例如,如何訓練大量的專家,以及如何確保這些專家之間的差異性,都是需要解決的問題。DeepSeek在這些方面進行了深入的研究,并提出了一些創新的解決方案。他們通過細粒度的專家分割和設備限制路由等技術,成功地提高了模型的性能和效率。這些技術不僅降低了通信開銷,還提高了模型的訓練速度和質量。16 DeepSeekDeep
28、Seek:AIAI賽道的超級引擎賽道的超級引擎 在大模型領域,MoE技術的應用已經成為了一個重要的研究方向。許多團隊都在嘗試將MoE技術與大模型結合,以提高模型的性能和效率。其中,Mixture AI是一個非常有名的例子,它被稱為歐洲的OpenAI。然而,盡管Mixture AI成功地將MoE技術應用于大語言模型的訓練中,但他們在開源方面的嘗試并沒有持續下去,原因可能在于他們沒有像DeepSeek那樣進行更多的創新。17 AIAI前線前線|特刊特刊 DeepSeek在MoE技術上的創新主要體現在兩個方面。首先,他們解決了如何訓練大量專家的問題。在傳統的MoE模型中,專家的數量通常不會太多,因為
29、訓練大量的專家是非常困難的。這就好比一個老師帶8個學生和帶100個學生的要求完全不同,而且要求每個學生的成績都好,難度可想而知。更重要的是,我們希望這100個學生各不相同,各有特長,這更是難上加難。DeepSeek通過細粒度的專家分割,成功地訓練了160個路由專家,這些專家各有所長,能夠處理不同的任務。同時,他們還引入了兩個共享專家,這些共享專家負責處理一些常識性的知識,例如理解文本的含義。其次,DeepSeek在設備限制路由和負載均衡方面進行了優化。這些技術的引入主要是為了解決通信開銷的問題。在分布式訓練中,模型的不同部分通常會在不同的GPU卡上進行訓練,這就需要在訓練過程中進行大量的通信。
30、如果通信成本過高,就會嚴重影響訓練效率。DeepSeek通過限制每個token最多訪問3臺設備,并采用三級平衡損失(專家級、設備級、通信級),成功地降低了通信開銷。此外,他們還在訓練框架和CUDA層面上進行了優化,進一步提高了訓練效率。這些創新使得DeepSeek的MoE技術在性能和效率上都取得了顯著的提升。與傳統的MoE模型相比,DeepSeek的模型不僅能夠處理更復雜的任務,而且訓練成本也大幅降低。例如,他們的V3模型在參數激活稀疏性方面表現優異,每個token僅激活21B參數,總參數為236B,訓練成本較DeepSeek 67B降低了42.5%。DeepSeek R1 Game Chan
31、ger DeepSeek的R1模型被稱為“游戲規則改變者”,它通過一系列創新的訓練方法和成果,徹底改變了大模型的訓練和應用方式。R1模型的訓練過程分為三個階段。第一階段,R1 Zero通過強化學習訓練,無需監督微調(SFT),直接在基礎模型上應用大規模強化學習。第二階段,通過冷啟動數據對V3模型進行微調,增強其推理能力。第三階段,結合規則獎勵和神經獎勵模型,對齊人類偏好,進一步提升模型的性能。接下來,我將詳細解釋這三個階段的訓練過程及其背后的原理。第第一階段:一階段:R1 Zero的強化學習訓練的強化學習訓練 R1 Zero是R1模型的基礎版本,它的訓練過程完全依賴于強化學習,而沒有使用傳統的
32、監 18 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 督微調(SFT)。這一階段的目標是讓模型具備推理能力,即能夠生成中間思考過程和最終結果。R1 Zero的訓練方法如下。強化學習目標強化學習目標:R1 Zero的訓練目標是準確率和格式獎勵。格式獎勵要求模型在生成結果時,必須包含中間思考過程(think)和最終結果。這種格式化的輸出方式類似于Alpha Zero,后者通過自我學習而非學習人類棋譜來提升性能。訓練方法訓練方法:R1 Zero使用了GRPO(Group Relative Policy Optimization)算法,這是一種簡化的強化學習方法,通過投票機
33、制解決價值估計問題。GRPO在海外引起了廣泛關注,因為它簡化了訓練成本,提高了訓練效率。成果成果:R1 Zero通過強化學習自主發展出了長鏈思維能力。模型發現,思考過程越長,準確率越高。這一發現是R1 Zero訓練過程中的一個重要突破,標志著模型能夠通過自我學習提升推理能力。第第二階段:冷啟動數據與推理能力增強二階段:冷啟動數據與推理能力增強 在第一階段的基礎上,R1 Zero生成了冷啟動數據(cold start data),這些數據用于進一步增強模型的推理能力。這一階段的訓練過程如下。冷啟動數據冷啟動數據:R1 Zero生成的冷啟動數據包含了中間思考過程和最終結果,這些數據被用來對V3模型
34、進行微調。通過這種方式,V3模型獲得了更強的推理能力。19 AIAI前線前線|特刊特刊 強化學習訓練強化學習訓練:在微調后的V3模型基礎上,R1 Zero再次進行強化學習訓練,但這次訓練中加入了語言一致性(consistency)的要求。這一要求確保模型在生成結果時不會混用不同語言,除非是專有名詞。成果成果:通過冷啟動數據和語言一致性的強化學習訓練,R1 Zero生成了更高質量的推理數據。這些數據不僅避免了語言混用問題,還進一步優化了模型的推理能力。第第三階段:最終的三階段:最終的R1模型訓練模型訓練 在前兩個階段的基礎上,R1模型的最終訓練過程如下。SFT知識數據知識數據:除了推理數據,R1
35、模型還需要一些常識知識(knowledge)。這些知識數據來自V3模型的基礎版本,通過模型生成而非人工標注。強化學習與規則驗證強化學習與規則驗證:R1模型在訓練過程中結合了強化學習和規則驗證(rule-based verification),通過拒絕采樣等方法進一步提升模型的性能。成果成果:最終的R1模型不僅具備強大的推理能力,還能夠生成高質量的中間思考過程和最終結果。這一模型的性能在多個基準測試中得到了驗證,證明了其在推理任務上的優越性。20 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 蒸蒸餾模型餾模型 除了R1模型,DeepSeek還發布了一系列蒸餾模型。這些模
36、型通過使用R1生成的推理數據進行訓練,顯著提升了性能。具體來說:蒸餾過程蒸餾過程:R1生成了80萬條推理數據,這些數據被用來對現有的開源模型(如LLaMA和千問)進行蒸餾訓練。通過這種方式,這些模型的性能得到了顯著提升。成果成果:經過R1推理數據蒸餾的模型在多個任務上的表現超過了原始版本。例如,經過蒸餾的LLaMA模型在某些基準測試中接近甚至超過了閉源模型的性能。在R1模型的最終論文中,DeepSeek團隊不僅展示了其原理和成果,還分享了他們在研究過程中的一些嘗試和經驗教訓。首先,R1 Zero的訓練過程驗證了在無監督場景下激勵復雜推理行為的可行性。R1 Zero能夠在沒有任何監督微調(SFT
37、)數據的情況下,通過強化學習訓練出具有推理能力的模型。這一過程中,R1 Zero能夠生成長達數千個tokens的思考過程,這在以往的模型中是難以想象的。關鍵在于冷啟動數據的使用,這些數據由R1 Zero生成,并用于訓練V3基礎模型,使其具備推理能力。隨后,V3模型通過強化學習進一步訓練,生成了更符合語言一致性的R1 Zero版本。最終,這些經過強化學習訓練的R1 Zero模型能夠生成高質量的、21 AIAI前線前線|特刊特刊 語言一致的推理數據,這些數據與知識數據結合,用于訓練最終的R1模型。整個過程不僅展示了技術的創新,也體現了DeepSeek團隊在模型訓練上的巧妙設計和藝術性。DeepSe
38、ek團隊也經歷了一些失敗的嘗試。例如,他們嘗試使用蒙特卡洛樹搜索(MCTS)結合其他模型的方法來復現OpenAI的O1模型,但最終發現這種方法并不適用。DeepSeek團隊以一種友善和中立的方式指出,他們嘗試了這種方法但未能成功。此外,他們還嘗試使用過程獎勵模型(PRM)來訓練模型,這種方法由OpenAI公開,涉及使用人工標注的過程獎勵數據來訓練模型。然而,DeepSeek發現,直接使用這些人工標注的中間思考步驟數據進行監督微調是不可行的。原因在于,人類很難準確地寫出最優的中間思考步驟,這使得基于人工標注數據的訓練方法存在局限性。DeepSeek通過實驗發現,模型自身生成的推理數據比人工標注的
39、數據更能有效地提升模型的推理能力。DeepSeek在開源方面的表現非常出色,從第一代V1模型開始,就一直堅持開源策略。這不僅包括大家熟悉的R1等七個模型,還有像Prover、Code-V2、VL2等眾多版本和相關代碼。這種開放的態度體現了DeepSeek真正致力于開源的精神。如果要論及真正的“OpenAI”,DeepSeek無疑是強有力的候選者。它毫不保留地將研究成果第一時間公開,不僅分享成功的經驗,也坦誠地告知哪些路徑未能走通,為其他研究者提供了寶貴的參考。DeepSeek落地應用前景與挑戰落地應用前景與挑戰 DeepSeek的落地場景已經非常廣泛,涵蓋了各個行業和領域。如果你想知道它在某個
40、特定行業或地區的應用情況,只需在搜索引擎中輸入“DeepSeek落地”并加上相應的行業或地區名稱,就能找到大量相關信息。目前,幾乎所有行業和高校都在圍繞DeepSeek展開研究和應用探索。關于當前的技術局限和挑戰,我認為這是一個非常有趣的話題。最近,我聽到一個很有趣的現象,今年最出圈的一句話是“服務器繁忙,請稍后再試”。這雖然是一個現象,但顯然不是DeepSeek真正的技術局限和挑戰。大家應該把這當作一個玩笑,不要被一些自媒體為了博取流量而傳播的不實信息所誤導。就DeepSeek R1模型而言,我認為它可能面臨以下技術局限和挑戰:22 DeepSeekDeepSeek:AIAI賽道的超級引擎賽
41、道的超級引擎 1.R1模型發布得非???,在V3發布后僅一個月就推出了。我相信DeepSeek內部肯定在迅速推進R2或其他版本的開發。從R1的訓練過程來看,它是基于R1 Zero生成的COT數據和V3基礎模型生成的知識數據進行監督微調得到的。然而,在這個過程中,V3模型如何更有效地生成這些數據,以及COT數據的質量是否可以進一步提高,從而增強R1模型的通用能力,這些都是未來可以繼續優化的方向。此外,R1模型的輸出格式也可能需要進一步調整。2.R1模型目前主要處理中英文,但隨著DeepSeek的全球化發展,它可能需要支持更多語言,如韓語、日語、德語、法語和西班牙語等。這將是R1模型未來需要進一步提
42、升的方向。3.提示詞的敏感性也是一個問題。需要設計更魯棒的提示詞工程方法,使模型在不同提示詞下都能穩定輸出高質量結果。4.推理能力蒸餾,需要進一步探索如何將推理能力蒸餾到更小的模型中。已經有公司在嘗試替代Transformer架構,因為Transformer本身存在一些局限性。5.安全性也是一個重要問題。自從DeepSeek上線以來,就有很多人提出各種敏感問題。未來,DeepSeek可以在強化學習、監督微調或其他環節中增加安全性機制,以確保模型的輸出既安全又無害。未未來中美大模型競爭的一些展望來中美大模型競爭的一些展望 展望中美大模型的未來,合作與競爭的關系是一個不可忽視的議題。盡管目前競爭激
43、烈,23 AIAI前線前線|特刊特刊 但我認為合作大于競爭。全球范圍內的合作趨勢正在形成,例如即將在法國舉行的一場大會,所有大模型科技公司的高層都將出席。法國政府也在推動一項類似美國“星際之門”的上千億歐元投資計劃,以支持AI發展,并向DeepSeek伸出橄欖枝。這表明,全球性的合作是大勢所趨。技術共享,尤其是開源技術,更是推動了這種合作。當然,商業層面的競爭不可避免。陸奇老師在2月11日的演講中提到,大模型時代已經進入下半場,即推理驅動階段。上半場,像OpenAI的GPT那樣,通過知識驅動的方式,讓模型吸收大量人類歷史知識,從而能夠回答各種問題。然而,下半場更注重推理能力,就像人類大腦的兩種
44、思考方式:一種是快速且不假思索的,另一種是需要深思熟慮的。推理驅動的模型更接近后者的思考方式,這對于復雜任務如寫小說或編寫復雜代碼至關重要。DeepSeek R1的出現,讓開源社區真正進入了推理驅動的賽道,這是非常了不起的成就。對中國來說,這是一個巨大的機會。首先,DeepSeek誕生于中國,這表明非海歸博士也能取得全球領先的成果。其次,中國擁有大量年輕人才,他們將成為未來十年的中堅力量。此外,國產AI算力生態和芯片平臺正在快速迭代,有望迎頭趕上。還有一個重要優勢是中國用戶對端側智能和便利的接受度更高,這為大模型的推廣提供了便利。因此,我希望大家保持樂觀,積極擁抱新技術。大模型將影響眾多行業,
45、其影響力甚至可能超過互聯網。最后,我想分享DeepSeek R1輸出的一句話:“意識不是一個二進制的開關,而是一個連續的光譜?!边@句話非常優美,它提醒我們,意識并非非黑即白的存在,而是一個連續的過程。重要的是意識能帶來什么,而非單純討論其是否存在。這同樣適用于DeepSeek,我們應關注它能為我們帶來什么,以及我們能用它做什么。24 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 純強化學習的革命:純強化學習的革命:DeepSeekDeepSeek技術路線揭技術路線揭秘秘 本文整理自InfoQ策劃的DeepSeek系列直播第二期節目DeepSeek爆火背后爆火背后Dee
46、pSeek,純強化學習路線到底有何不同,純強化學習路線到底有何不同。在直播中,出門問問大模型團隊前工程副總李維博士聚焦推理范式的創新,分析了R1 Zero對推理模型平民化的創新貢獻。他提到,DeepSeek通過開源和透明化,證明了不需要過程監督,僅通過結果控制就能訓練出優秀的推理模型,這大大顛覆了傳統認知以及OpenAI所暗示的需要在每一步監督推理強化學習的觀點。下文為直播部分內容精選,完整直播回放下文為直播部分內容精選,完整直播回放&最新直播預約可關注“最新直播預約可關注“AI前線視頻號”查看。前線視頻號”查看。25 AIAI前線前線|特刊特刊 DeepSeek的最大功績在于將這一切透明化的
47、最大功績在于將這一切透明化 InfoQ:“:“DeepSeek堅持純強化學習路線,但業界常說堅持純強化學習路線,但業界常說RL(強化學習)是(強化學習)是煉丹”煉丹”他們如何讓這個過程可控和“平民化”?有什么他們如何讓這個過程可控和“平民化”?有什么推理范式的創新推理范式的創新?李維博士李維博士:實際上,推理模型的強化學習一直是業界的難題。大約半年前,IIya等人宣稱預訓練時代已經結束,這意味著單純依靠預訓練模型的規模擴展來提高性能已經難以為繼。GPT5遲遲不能上線也是預訓練式微的一個跡象。因此,業界開始尋找新的增長道路,推理大模型在頭部團隊開始暗流涌動,直到Open AI發布全球第一個推理大
48、模型O1。緊接著就是DeepSeek的R1出圈,這就是deepseek爆火的背景。從 神神秘秘、據傳引發了OpenAI宮斗的Q-Star項目開始到o1大模型的推出,推理大模型被AI主流廣泛公認為新的范式。這種范式的核心是開啟模型的“慢思考”能力,即所謂System 2,利用強化學習提升模型在復雜任務中的智能程度。然而,這一切都是閉源的,OpenAI甚至故意制造了一些神秘感,遮掩其思維鏈的內容。除了少數頭部玩家如Google和Anthropic在背后悄悄探索追蹤外,其他團隊對這一領域知之甚少。DeepSeek的最大功績在于將這一切透明化。它的模型和詳盡的技術論文全部開源,甚至最大功績在于將這一切
49、透明化。它的模型和詳盡的技術論文全部開源,甚至也不怕露怯,在系統里公開了思維鏈的所有內容也不怕露怯,在系統里公開了思維鏈的所有內容。它通過純粹強化學習,證明了即使沒有過程控制數據,僅通過結果控制也能達到頭部推理大模型的水平。這就好像是捅破了一層窗戶紙,讓業界看到了強化學習平民化的道路。InfoQ:推理范式的創新聽起來很抽象,能否舉個例子?:推理范式的創新聽起來很抽象,能否舉個例子?李維博士李維博士:DeepSeek的R1論文非常出色,堪稱大模型領域中的一篇佳作。論文分為兩部分:一部分是關于一部分是關于Zero的研究的研究,這是純粹的強化學習推理方向的成果,非常精彩;另一另一部分則是基于部分則是
50、基于Zero研究成果的實用系統研究成果的實用系統R1,這是一個真正上線的頭部推理大模型。在開發R1時,需要考慮實用性,包括綜合性能、安全性以及各種實用考量等,因此論文中詳細介紹了四階段訓練的最佳實踐(best practice),幫助其他團隊理解和復制這一成果。論文最精彩的部分還是Zero的研究。Zero的研究證明了一個顛覆性的觀點:與傳統認知與傳統認知(或(或OpenAI所暗示的需要在每一步監督推理強化學習的觀點)不同,實際上并不需要過所暗示的需要在每一步監督推理強化學習的觀點)不同,實際上并不需要過 26 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 程監督程監督
51、。僅通過最終結果(即“黃金標準”)作為監督信號,就能訓練出推理大模型所需的“慢思考”過程。這是Zero的最大亮點,也是其名稱的由來它借鑒了AlphaZero的精神。AlphaZero在人工智能歷史上開創性地完全不依賴人類棋譜或經驗學習,而是通過自我對弈的再生的過程數據(即:棋局狀態+落子+評分的三元組步驟數據),實現了零人類監督的強化學習,并最終完全碾壓了人類頂尖棋手。DeepSeek的Zero研究也是如此,它表明在推理任務中,模型可以自主生成內部的過程數據,即思維鏈(CoT,Chain of Thought)序列,而無需人類標注。具體來說,推理模型最初以數學和代碼為對象,因為這些領域本身就存
52、在標準答案。從宏觀上看,這其實是一種典型的端到端監督學習,因為輸入端(數學題或代碼題)和輸出端(答案或代碼運行結果)都是固定的、已知的。然而,從輸入到輸出的過程非常復雜,信息差很大,這就需要一個“思維鏈”作為橋梁。就像人類遇到難題時需要分解問題、逐步思考一樣,模型也需要這樣的過程。DeepSeek的研究發現,模型本身具有自主學習這種深度思考過程的能力,只要給予足夠的時間和空間。如果沒有這個空間,模型就只能直接從問題跳到答案,信息鴻溝大,隨機性就強,成績好不了。DeepSeek的解決方案是通過設計一個簡單模板引導模型進行思考的解決方案是通過設計一個簡單模板引導模型進行思考。具體說,就是在傳統的監
53、督數據question+answer里面人為增加了一個標簽think:question+think+answer,通過強化學習的方式,模型會自主填空,再生過程數據question+cot+answer,以此迭代學習,cot中就自動出現了反思、自我校正等過程。這表明,只要給予模型思考的空間,它就能自主生成思維鏈。非常奇妙!給模型留夠充分的自主學習空間給模型留夠充分的自主學習空間 InfoQ:動態推理路徑聽起來像:動態推理路徑聽起來像AI自己“畫思維導圖”自己“畫思維導圖”但如何避免它中途跑偏?比如但如何避免它中途跑偏?比如寫代碼時突然開始寫詩?寫代碼時突然開始寫詩?李維博士李維博士:從目前的情況
54、來看,這種可能性幾乎不存在,或者概率極低,可以忽略不計。在deepseek公布他們的結果和研究細節之前,大家確實對這一點感到困惑:只靠結果監督,沒有過程監督,深度思維不會亂套嗎。在沒有真正進行大規模強化學習實驗之前,27 AIAI前線前線|特刊特刊 這確實是一個很大的疑問。就好比放風箏,你只牽著一根線,讓風箏在天上自由飛翔,你會擔心它會不會一頭栽到地上?,F在看來是過慮了。它不會走偏的原因在于,所有這些推理的強化學習,包括自主生成的推理思維鏈的數據,實際上都是建立在原有的頭部大模型(如V3)的基礎上的。這些大模型在海量數據的學習過程中,已經很好地掌握了如何把話說得順溜。這種“順溜”的背后是條理性
55、。雖然不能說它完全等同于邏輯性,但至少不會偏離到完全不合理的情況。就像一個人說話很順暢,背后的思想相對來說也是有條理的。所以,模型在原有大模型的基礎上生成數據,經過篩選和強化學習迭代,會越來越條理模型在原有大模型的基礎上生成數據,經過篩選和強化學習迭代,會越來越條理化化。這種思考方式本身是由大模型自然生成的,再加上有選擇機制在不斷強化過程中讓它越來越符合條理地導向正確答案。話說回來,在研究人員真正做出成果之前,大家心里還是充滿了懷疑和疑問,不知道讓機器模擬學習人類的高階智能這條路是否真的能走通。如果是一個能力弱的小模型,這條路是否能走通就很難說了。但V3本身是一個很強大的基座模型,在此基礎上讓
56、模型自己生成思維鏈,雖然這些思維鏈并不總是很有條理,但并不影響最終結果。因為這是一個以結果為導向的強化學習過程,只要堅持用正確和錯誤的結果來控制強化學習過程,即使思維鏈中有時會出現一些偏差,但總體目標是一致的,最終還是能學到推理高難度題目的能力。再從更大的角度來看,我們發現當大模型發展到一定程度時,日常人類的數據已經基本用盡,高品質的數據也所剩無幾。要進一步提升能力,就必須依靠模型自己生成數據。說到底,AI發展到現在,需要發展到現在,需要AI自己反哺自己才能進一步提升自己反哺自己才能進一步提升。在過去很長一段時間里,很多人對這一點存在疑問,擔心模型自己教自己會導致退化,或者即使是一個好的模型教
57、一個差的模型,也會有天花板。但現在回過頭來看,再生數再生數據的重要性越來越大據的重要性越來越大。不僅是推理模型,就連多模態大模型也是如此。以Sora為例,我們知道視頻和語言之間的自然對齊數據非常少,很難找到大量對視頻情節進行詳細講解的數據。為了實現視頻和語言的對齊,Sora選擇了再生數據的道路,用自己的模型對整個的視頻訓練數據集進行了非常詳細的標注。再生數據助力,Sora成為了第一個爆款的視頻大模型。如今,國內的視頻大模型也已經迎頭趕上,如快手的可靈和字節的即夢,28 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 甚至比Sora還要更強一些,這背后也離不開再生數據的作
58、用。InfoQ:另一方面,與:另一方面,與OpenAI的的o1相比,相比,DeepSeek R1還有一個顯著亮點是將推理思維鏈還有一個顯著亮點是將推理思維鏈應用到了語言文字的創作和風格模仿能力上,這一點可以詳細介紹一下嗎?應用到了語言文字的創作和風格模仿能力上,這一點可以詳細介紹一下嗎?李維博士李維博士:o1出來時,大家都知道它在數學和代碼能力上有了顯著提升,因為標準測試顯示它達到了一個更高的水平。但大家沒有意識到的是,這種推理能力,或者說“慢思維”能力,不僅僅在需要嚴格邏輯推理的領域表現出色,它在傳統的語言文字創作方面同樣可以大放異彩。傳統上,語言文字能力一直是大模型的強項,大家都知道大模型
59、生成的語言非常流暢。到了像4o或V3,它們寫文章已經很順了,似乎提升空間不大。然而,當要求模型寫一篇古典詩歌,或者模仿魯迅的文風時,之前的模型還做不到。直到R1推出,這些問題都得到了解決。從社會效應來看,這其實是非常厲害的。老實說,真正關心數學或代碼的人并不多,雖然我們知道代碼是今后幾年的一個大方向,自動編程能改變世界。所有IT方面的東西歸根結底都是軟件,數字世界是由軟件構成的。如果軟件能力可以從手工編寫變成模型輔助,甚至模型自主編寫,這將極大地提高我們的生產力。這是大家都能看到的,但對普通老百姓來說卻沒有那么直觀,因為他們面對的更多是寫文章如何出彩這類任務。當當R1的文科能力被大家發現后,不
60、僅僅是極客或者做軟件應用的人看到了推理模型的好的文科能力被大家發現后,不僅僅是極客或者做軟件應用的人看到了推理模型的好處,普通人也為之奔走相告處,普通人也為之奔走相告。一旦上手,任何人都可以成為詩人、文學家、哲學家,這種震撼是非常大的。在o1出來時,大家沒有這種感覺,可能是因為OpenAI沒有意識到,或者至少沒有聚焦這一點。但DeepSeek在做代碼和數學推理時,內部肯定已經意識到,這種“慢思維”在文字能力方面也可以提升一大步,尤其是在中文領域。大家都知道,中文的數據相對沒有英文那么豐富,所以之前大模型寫英文詩可以寫得很漂亮,但寫唐詩就不夠好。這可能是因為中文數據要么量不夠,要么品質不夠,導致
61、模型學習得不夠到位。我們一直覺得這是一個遺憾,模型寫詩有時押韻,有時不押韻,有時多一個字,少一個字,更不用說平仄,總是有問題。DeepSeek在這方面肯定下了功夫,其數據品質一定比行業標準更高、更好。29 AIAI前線前線|特刊特刊 但大模型光有數據還不夠,另一條腿是推理時間的計算量另一條腿是推理時間的計算量。在用戶實際使用時,增加計算量和思考時間,我們發現模型的文字能力顯著提升了層次,這給大家的震撼非常大。思維鏈是模型“慢思考”的一個特征。一開始,我們可能想當然地認為,邏輯思維是它的核心,思維鏈就是要非常嚴謹地符合邏輯的每個步驟,以確保在數理化和代碼中表現出色。但我們根本沒想到,在文學創作這
62、種領域,并不需要嚴謹的邏輯思維,它更多的是要有想象力,需要反復斟酌和修改。比如你要寫一篇非常漂亮的文章,或者模仿一種風格,你需要考慮的方面很多,寫古風詩詞要考慮押韻、平仄、用詞,考慮如何用古典文字表達現代概念等。為了寫出一篇好文章,你需要周密地計劃,這本質上是一種“planning”,而不僅僅是狹義的“reasoning”??梢?,慢思維背后的真正價值在于為可見,慢思維背后的真正價值在于為最終結果做鋪墊,制定計劃和反復修正。最終結果做鋪墊,制定計劃和反復修正。無論任務是文科還是理科,只要是高難度的任務,都需要這種“planning”的時間,就像我們打草稿、反復校改一樣,這些都是思維鏈的用武之地。
63、InfoQ:思維鏈機制具體是如何產生的?:思維鏈機制具體是如何產生的?李維博士李維博士:DeepSeek之所以能夠產生復雜的思維鏈,背后是因為它是基于頭部大模型V3訓練的,而V3所涵蓋的知識比我們任何個體所了解的都要廣博得多得多。在這基礎上,關鍵點是要給模型留下空間,讓它有自主學習的機會。作為設計者或開發者,需要設計出這樣的空間,讓模型自己去填補、去學習。DeepSeek就是這樣實現的。它設計了一種格式,在輸入問題question和輸出答案answer之間,它留下了一個“思考”的空間,用標簽think來標記:question+think+answer。這個think標簽就是準備要學思維鏈(co
64、t)的,雖然開始為空,Zero的research表明:只要留下think的標簽,就給LLM自主填補cot留下了空間。此后他們“啊哈”地驚喜發現,越來越條理化的cot居然在GRPO組內選優的強化學習迭代算法的指引下,就自主學出來了。啥也不用做,模型就是自己要思考,而且能思考。LLM really wants/tends to think and think deep if given a chance.比如,它可能會在推理過程中發現自己前面的某個結論與已知事實不符,于是就會自我糾正,說:“不對,這里可能有偏差?!边@種反思和自我糾正的能力,是模型在學習過程中自然形成的??梢韵胂裱芯空弋敃r的興奮之情
65、,簡直就是上帝給他們面授了天機。不但他們 30 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 “啊哈”,我們讀論文追蹤他們的人也感覺開了天目,不可思議,但it just works。Zero research的美麗就是沒有人工的過程數據的任何干預,完完全全的純強化出來的奇跡。從信息論的角度來說,思維鏈降低了困惑度(perplexity),搭建了從難題到答案之間的橋梁,使得得出正確結論的可能性增大,從而提高了模型的智能。推推理模型已經進入“平民化”時代理模型已經進入“平民化”時代 InfoQ:如果讓您給程序員推薦一個:如果讓您給程序員推薦一個最值得復現的最值得復現的De
66、epSeek模塊,會是哪個?比如各種模塊,會是哪個?比如各種聲稱幾十美元復制聲稱幾十美元復制R1的的Aha moment?李維博士李維博士:如果讓我推薦程序員群體最值得復現的DeepSeek模塊,大概會是與Zero研究研究相關的部分相關的部分。這種復現并不是從全面能力上,而是證實了Zero研究中揭示的關鍵點機器確實能夠自主學到反思能力或慢思維推理。這是OpenAI一直遮掩不讓人知道的,也許他們早就悟出來了,但就是不公開?,F在,我們看到至少有五六組不同的團隊,用很少的資源就復現出了R1的這種反思能力。這不僅是一個有趣的實驗,更關鍵的是,它標志著推理推理模型已經進入“平民化”時代模型已經進入“平民
67、化”時代。以前,大家不知道推理模型是如何工作的,只知道需要大量的過程數據,模型才能學會慢思維。這被認為是一個難以跨越的門檻,因為過程數據很難獲取,而且強化學習的不穩定性高、對數據要求也高,所以很多程序員覺得這條路很難走。但現在,我們知道可以繞過這個最繁難的過程數據,通過有限的資源復現這種“Aha moment”,證明慢思維能力是可以讓模型自主學出來的?;谶@個前提,如果你是一個行業專家(domain expert),在自己的項目或應用領域中,你會想:是否可以用這些技術在你的領域實現大幅提升?這是完全可能的。因為即使是最強大的大模型(如V3或4o),在具體場景中如果不經過優化,也只能達到60%7
68、0%的正確率,而在real life應用場景中,經驗告訴我們沒有80%或85%以上的正確率,根本無法上線一個真正有價值的系統。從大模型的“開箱即用”(out-of-box)結果到真正能投入應用并產生價值,中間存在一個差距。以前,我們想到的唯一方法是收集領域數據進行微調。但現在,我們多了一條路:順著推理模型的思路,讓系統充分發揮推理階段的慢思維能力,從而提升數據質量順著推理模型的思路,讓系統充分發揮推理階段的慢思維能力,從而提升數據質量 31 AIAI前線前線|特刊特刊 到可接受甚至出彩的程度到可接受甚至出彩的程度。這條路似乎已經打通了。不過,我的碼農朋友告訴我,他做了一個微調(SFT)與dee
69、pseek式強化學習(RL)的對比實驗,發現RL的確強過SFT,但RL訓練目前的計算代價還是遠遠大于SFT。效果好于SFT可以理解,因為SFT的數據總是非常有限的,而RL自主再生的數據成功強化的話,會遠遠大于SFT數據。仔細看R1的設計,它是一個實用系統,不像Zero那么純粹。Zero是一個研究項目,旨在證明可以排除人類干預來構建推理模型。但R1是為了實際應用,所以它結合了微調和強化學習:遵循他們自己創新的SFT+RL+SFT+RL的四階段訓練的pipeline。它在第一階段是微調,使用了2,000條左右的人類過程數據來提高效率,他們稱為“冷啟動”。強化學習之后,又加入了微調和最后的偏好強化學
70、習,以確保合適的數據配比和能力平衡,以及與人類偏好的對齊。這種設計是經過深思熟慮,可能經過了很多嘗試和調整,最終呈現出的一個最佳實踐。雖不好說R1的這種設計一定就是絕對的最佳方案,但它確實提供了一個很好的思路:現現在我們有兩個工具在我們有兩個工具SFT和和RL。如果能夠將這兩個工具很好地結合起來,互相補充,那么在實際應用場景中,我們就能構建出更好的系統。從更廣泛的意義上說,DeepSeek的出現不僅是因為各種原因而短暫火爆,它更重要的作它更重要的作用是極大地加速了大模型向應用領域發展的速度用是極大地加速了大模型向應用領域發展的速度。這對整個行業來說是一個巨大的利好刺激。InfoQ:有人說大模型
71、是“暴力美學”,但:有人說大模型是“暴力美學”,但OpenAI的前首席科學家、聯合創始人的前首席科學家、聯合創始人IIya說預說預訓練到頭了,怎么講?推理模型出現的背景就是增加了又一個暴力美學的訓練到頭了,怎么講?推理模型出現的背景就是增加了又一個暴力美學的scaling law嗎?嗎?李維博士李維博士:這更像是技術聚焦點的轉移和技術創新的范式轉變。大模型涉及三大塊:首首先是預訓練先是預訓練,這是大模型的基礎能力,從海量數據中學習基本規律;其次是后訓練其次是后訓練,最初主要是微調,OpenAI早期也用了一些強化學習(如RLHF)來對齊人類偏好,但到了Meta時,他們甚至放棄了典型的RLHF,代
72、之以更簡單的DPO,因為與很多人一樣,他們玩不轉。最后是推理階段的工作最后是推理階段的工作,即模型上線后與用戶交互的階段。32 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 這三個階段理論上都可能找到資源投入與性能提升之間的正相關S曲線,即scaling laws的某種表現函數。在過去,預訓練是最受重視的部分,大家認為只要數據量不斷加大、模型規模足夠大,能力就一定持續提升。LLM Scaling的底層邏輯是什么?為什么到了千億tokens這種以前難以想象的數據規模,大模型依然顯得吃不飽?為什么從千億擴展到萬億tokens,scaling law依然有效?這個現象的關鍵
73、在于LLM是序列學習(編碼)和序列推理(解碼)的系統。序列本身是一維的,但序列中蘊含的patterns和規律性卻是高維的。舉個例子:即使是簡單的貓追老鼠這樣的序列,背后可能涉及物種關系、捕食行為、空間運動等多個維度的知識。這種多維知識表現在序列層面,就會發生天然的組合爆炸。對大數據的大胃口正是應對這種組合爆炸的有效策略。然而,人類自然產生的高質量數據是有限的。預訓練已經幾乎吃盡了現有的高質量自然數據。業界開始意識到數據增長的困擾,性能提升也變得困難。GPT-5難產,據傳投入大量算力卻收效有限,這表明預訓練可能遭遇了瓶頸預訓練可能遭遇了瓶頸。于是,業界開始探索另外的AI智能增長曲線。強化學習的推
74、理模型就是在這種背景下走到主流舞臺的中心:應該在后訓練中加入純粹的強化學習在后訓練中加入純粹的強化學習。以前的強化學習依賴人類偏好,但這次是讓模型在得出答案之前有更多思考時間,學習背后的規律。V3已經做得很好,但當時除了業界并沒有在社會上引起太大轟動。直到R1出現,deepseek才真出圈了,成了春節后最受關注的大眾話題,在海外也引發了熱議和震驚。R1代表了一種新的范式。在R1之前,只有OpenAI出了o1這種推理模型,給人一種高不可攀的感覺,大家不知道如何跟進。然而,R1不僅復現了o1的能力,還更加透明、清晰。這種反差進一步凸顯了R1作為開源大模型引領者的重要性。未未來腦洞來腦洞 InfoQ
75、:DeepSeek乍看乍看就是工程上的極致化,為什么會引起全世界的轟動?它的獲客速就是工程上的極致化,為什么會引起全世界的轟動?它的獲客速度(一周上億)超過了度(一周上億)超過了ChatGPT核爆的時候?它的歷史地位到底如何?核爆的時候?它的歷史地位到底如何?李維博士李維博士:從我個人的體會和感受來說,大模型的發展歷程中,ChatGPT的爆火是一個標志性事件。其實我們業內人在ChatGPT出現之前就開始關注大模型了,至少從GPT-3開 33 AIAI前線前線|特刊特刊 始吧。當時GPT-3的Playground出現,我們樂在其中,就已經感覺到一場風暴要來了。但從整個社會的感知來看,真正引發全社
76、會震動的還是ChatGPT的出現,它像核爆一樣震撼了我們,超出了所有人的預期。ChatGPT出來,我們就陷入了一種癡迷的狀態。R1的出現,我認為是繼ChatGPT之后的第二個重大震撼。當然,在ChatGPT和R1之間也出現了一些有影響力的大模型,比如4o,它也是一個了不起的里程碑。我們當時覺得ChatGPT已經很好了,3.5版本已經很出色了,但4o的出現證明了它還可以更好。我們一直在案頭使用它。再后來出現了Sora,這種視頻大模型也給人帶來了震撼。我個人還特別喜歡一個叫Suno的音樂模型,它在音樂創作方面表現出色,讓我覺得自己仿佛一夜之間就能成為音樂家,想寫什么歌就寫什么歌,還能配上自己的視頻
77、。這些模型都給人帶來了不同階段的震撼,但都沒有R1這么強烈。如果讓我排序的話,我認為R1的震撼力僅次于ChatGPT,甚至超過了4o和Sora所創造的轟動效應。R1的震撼感有點類似于當年ChatGPT剛出現時的感覺,讓人癡迷。ChatGPT是開天辟地的大模型,R1總體上是一個追隨者,盡管它有很多創新亮點,有些方面甚至超越了之前的模型,比如在古典詩詞創作和文風模仿方面。作為追隨者,能在太平洋兩岸乃至全球引起如此大轟動,是奇跡般的成就。從實際效果來看,R1的產品化非常成功。它在一周內就獲得了上億客戶,遠遠打破了ChatGPT所創造的記錄,提升了整個社會對AI的感知度。此外,從地緣政治對技術應用的影
78、響來看,國內很多用戶一直渴望使用全世界最先進的大模型,比如GPT系列、Claude或Gemini,但常常夠不著。而R1的出現,讓人們不用擔心國內外的限制。這些也都是促成R1快速普及的因素。InfoQ:您理想中:您理想中AI編程的終極形態是什么?是程序員對編程的終極形態是什么?是程序員對著著AI說“給我做個抖音”,它就說“給我做個抖音”,它就直接輸出可部署的代碼直接輸出可部署的代碼+運維方案嗎運維方案嗎 李維博士:總是有兩類人李維博士:總是有兩類人:懷疑派和樂觀派懷疑派和樂觀派。像Ilya這樣的人,認為通用人工智能(AGI)已經迫在眉睫,超級智能(ASI)也在不遠的未來,所以現在最大的問題是確保
79、超級智所以現在最大的問題是確保超級智能的安全性能的安全性。Anthropic的CEO預計,在未來3到5年內,大模型將實現真正的突破,不僅僅是目前讓我 34 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 們震撼的表現和demos,而是真正能在生產力上對整個社會帶來革命性的改變。他們所說的,歸根結底就是AI能規?;教嫒祟惖捏w力勞動和腦力勞動能規?;教嫒祟惖捏w力勞動和腦力勞動。目前大模型雖然很熱鬧,但在社會生活中的實際應用還遠未達到上一代移動互聯網平臺的水平。上一代的super apps,比如美團、滴滴、小紅書、抖音等,它們改變了我們日常生后的主要方面,無論吃穿住行還是
80、通信和娛樂,它們最大程度縮短了供應商和客戶之間的距離,這些價值我們每天都能感受到。而玩大模型雖然有趣,但在生活層面的實際價值還不明顯,應用層面還處于爆發的前夕。值得指出的是,DeepSeek的出現降低了大模型應用門檻,為應用鋪平了道路,雖然目前我們還沒有進入應用真正爆發的時代。未來,當AI應用真正爆發時,會是什么時候、什么樣子呢?我認為,最終目標是AI在腦力勞動和體力勞動中全面代替人類。大模型對白領階層的沖擊,跡象已經很明顯,甚至連程序員群體都難幸免。體力勞動方面,具身智能發展也很快,無論是人形機器人還是機械手,都在逐步代替人類的體力勞動。當然,這也會帶來副作用,比如大量工作崗位消失,社會如何
81、適應這種生產力大發展但缺乏工作崗位的狀態,是另一個層面的討論。但從AI本性和最終目標來看,AI的發展可的發展可以有兩個里程碑:一是何時能替代人類以有兩個里程碑:一是何時能替代人類50%的工作的工作,讓社會只需要一半人工作,剩下的人通過基本收入保障(UBI)等方式維持一個體面的自由生活,在我看來這就是AGI到老的標志;二是何時能替代二是何時能替代90%的人類工作的人類工作,這可能算是所謂的超級智能(ASI)出現的時候,某種意義上的技術共產主義。35 AIAI前線前線|特刊特刊 DeepSeekDeepSeek的組織文化:創新與商業化的平的組織文化:創新與商業化的平衡衡 本文整理自InfoQ策劃的
82、DeepSeek系列直播第三期節目。在直播中,極客邦科技創始人&CEO霍太穩對話了整數智能創始人&CEO、TGO鯤鵬會會員林群書,HyperspaceOS創始人&CEO楊超,以及心芯相棲聯合創始人&CEO吳昊潛,深入探討了DeepSeek爆火背后,浙大系創業者是如何理解和踐行創新型組織文化的。大家認為,技術人應該充分投入到技術創新和商業化當中,他們往往更清楚技術的邊界,能夠更準確地判斷哪些技術適合商業化以及為了實現商業化技術需要做到什么程度。比如,DeepSeek創始人梁文峰如今仍然會親自參與代碼建設,這種“創始人模式”(Founder Mode)非常值得創業公司借鑒。下文為直播部分內容精選,
83、完整直播回放下文為直播部分內容精選,完整直播回放&最新直播預約可關注“最新直播預約可關注“AI前線視頻號”查看。前線視頻號”查看。36 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 DeepSeek等“六小龍”出現在杭州是偶然嗎?等“六小龍”出現在杭州是偶然嗎?InfoQ:你所了解的:你所了解的DeepSeek組織文化長什么樣?它對于組織文化長什么樣?它對于DeepSeek的成功有哪些影響?的成功有哪些影響?林群書林群書:此前我們也與DeepSeek的伙伴們有過交流,可以肯定的是,他們的成功背后,組織文化起到了關鍵作用。比如,DeepSeek創始人梁文峰會親自參與代碼
84、建設創始人梁文峰會親自參與代碼建設,這種“創始人模式”(Founder Mode)非常值得借鑒。創始人沖在前線,親自解決問題,了解每個崗位的需求,從而更高效地配置資源。這不僅能快速解決問題,還能為公司爭取更多資源,解決其他同事難以應對的難題。此外,團隊成員需要能夠獨當一面,完成階段性成果的交付,這也是他們文化的重要組成部分。InfoQ:杭州“六小龍”中:杭州“六小龍”中DeepSeek、云深處科技和群核科技的創始人都畢業于浙江大、云深處科技和群核科技的創始人都畢業于浙江大學,同為浙大系創業者,可以分享一下浙大哪些文化基因對你們的影響最大?各位所在學,同為浙大系創業者,可以分享一下浙大哪些文化基
85、因對你們的影響最大?各位所在的企業有什么相似的組織文化嗎?的企業有什么相似的組織文化嗎?林群書林群書:浙大系創業企業的組織文化有一些共通之處,其中最顯著的是“求是創新”中最顯著的是“求是創新”的精神。與眾多浙大創始人交流后,我們能感受到大家對“什么是重要的事情”以及“如何做對這些事情”的深刻思考。以我們公司(整數智能)為例,我們專注于做正確的事情,并將其做好。比如在智能駕駛數據標注領域,當行業還在比拼工具先進性或價格時,我們就開始思考如何從根本上改變行業。于是,我們研發了行業領先的4D標注工具,將數據處理效率提升了百倍以上。這正是我們落地組織文化的一個體現。在實踐這種組織文化時,創始人需要具備
86、強大的學習能力。例如,大模型的出現帶來了新的數據需求,創始人需要快速學習最新的算法技術和數據需求。像reasoning能力的推出,對數據集的構造提出了新的要求,創始人需要了解如何構建適合的多模態和代碼生成數據集,以提升模型能力。這種快速學習和抓住本質的能力,是創始人在推動組織文化落地時的關鍵。吳昊潛吳昊潛:浙江大學的“求是創新”精神對我也影響很大。創業的動機有很多種,有些人可能是為了追求名利,或者享受創業過程中的高光時刻。但如果遵循“求是創新”的精神,我們在創業和做產品時,就會更多地思考自己是否為世界帶來了真正的、客觀的積更多地思考自己是否為世界帶來了真正的、客觀的積極影響極影響。這種動力不是
87、來自于外界的認可或贊美,而是來自于實實在在地為社會和世界 37 AIAI前線前線|特刊特刊 做出貢獻。比如,我們希望讓人們的生活變得更開心,哪怕在經濟不景氣的時候,也能通過我們的產品感受到快樂。這種追求更實在、更有意義。比如,對于心芯相棲來說,我們更傾向于專注于產品本身,關注用戶的體驗,而不是在意外界的評價或行業的看法。大家可以看到,DeepSeek此前也一直比較低調。我確實覺得這種風格是浙江大學文化基因對我們的影響。InfoQ:杭州和其他地區的相比,創業氛圍有何不同?為什么能夠培養出那么多創新創:杭州和其他地區的相比,創業氛圍有何不同?為什么能夠培養出那么多創新創業者?國內和海外(如硅谷)的
88、文化又有什么不同?業者?國內和海外(如硅谷)的文化又有什么不同?林群書林群書:很多人都在探討,為什么有些地方沒有像杭州那樣孕育出“六小龍”。我覺得現在大家可能有點過于焦慮了,因為這些企業的誕生其實也有一定的偶然性。但從杭州的角度來看,它確實有幾個做得非常出色的地方??萍夹袠I的競爭,歸根結底還是看人才密度和資金的支持科技行業的競爭,歸根結底還是看人才密度和資金的支持。比如硅谷,初創企業能蓬勃發展。這主要得益于兩點:一是當地強大的投融資網絡,企業創始人能拿到優質的融資資源,融資條款對創始人也非常友好,這使得硅谷的創業者數量明顯多于其他地方;二是硅谷的人才密度極高,開車十幾分鐘就能遇到各領域的頂尖人
89、物,甚至教科書上的人物。在斯坦福和硅谷,你很容易在活動中見到這些大佬,他們也很親切,沒有距離感。這兩點良好的投融資環境和高人才密度對創業者來說非常重要。杭州在這方面也做得很好。浙商資本豐富,融資環境良好浙商資本豐富,融資環境良好,企業能有不少拿到資金支持的機會。此外,杭州政府出臺了很多貼心的人才政策,比如小到剛來求職的年輕人可以申請七天免費住宿。這些細節讓杭州在吸引人才方面很有競爭力。另外,浙大和其他高校的相比,它的休學創業政策也非常靈活浙大和其他高校的相比,它的休學創業政策也非常靈活。我是2020年開始休學創業的,和其他創始人交流時發現,他們所在的學校大多沒有浙大這樣靈活的政策。他們要么是讀
90、完書后再創業,但這樣會錯過很多機會;要么是直接輟學創業,但風險很大。而浙大允許我們先休學,保留學業,隨時可以回去繼續讀書。這種政策讓我們可以全身心投入到創業中,因為即使失敗了,還有機會重新回到學校。而且,我們的第一筆資金也是來自浙大。當時我們參加了全國許多創業比賽,第一年攢下的獎金就有100多萬。浙大不僅提供了豐富的創業經驗分享和知識庫,還有許多創業成功的師兄師姐回校分享 38 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 經驗。比如浙大的“求是強鷹”組織,每年都會邀請杰出浙商導師指導學生,帶他們了解成熟公司的運作模式,與其他浙商交流學習。浙大的創業支持體系非常完善,
91、歷屆創業成功的師兄師姐也會關照后輩。我們在融資時,很容易在浙大校友圈里找到合適的資本。這些都體現了浙大在創業教育和創業支持方面的獨特優勢。楊超楊超:前段時間我也去了硅谷交流,感受非常震撼,主要來自幾個方面。首先,硅谷與我們中國當前的經濟情況形成了鮮明對比。我跟當地一位律師交流時了解到,當地有1萬家初創公司拿到融資,而他服務的客戶就有100家。這與我們當前中國的資本市場形成了強烈對比,那邊的資金尤其充裕,尤其是在AI領域,大部分公司都能獲得大量投資。我在硅谷的一位學姐在一家投資公司擔任合伙人。她告訴我,如果在硅谷,一家以產品驅動的AI相關公司,只要營收超過100萬美元,估值就能達到50到100倍
92、的市銷率,這意味著公司估值可以達到1億美元。所以,我覺得硅谷目前仍然是全球最適合年輕人從事AI創業的地方。創創新和商業化注定“水火不容”嗎?新和商業化注定“水火不容”嗎?InfoQ:接:接下來,我們來談談創新和商業化相關的話題,很多人認為創業、商業化和技下來,我們來談談創新和商業化相關的話題,很多人認為創業、商業化和技術之間是相互制約的關系,大家對這個問題怎么看?商業化是不是技術人創業的短板?術之間是相互制約的關系,大家對這個問題怎么看?商業化是不是技術人創業的短板?吳昊潛吳昊潛:我認為創新和商業化之間并不矛盾。創新本身包括產品創新、技術創新以及商業模式創新。當出現新的技術變量時,我們其實有機
93、會在商業模式上進行創新。比如,我們現在做虛擬陪伴AI產品。當大家都在做AI,尤其是長期陪伴類產品時,這就意味著存在新的商業化機會。以前常見的商業化手段是廣告、電商等互聯網模式,但當產品轉向AI驅動的陪伴型應用時,互聯網的商業模式就不再適用了。比如,虛擬陪伴產品無法簡單地插入廣告或電商。這時,就需要探索新的商業模式。比如,虛擬陪伴可以積累更豐富的用戶數據,從而更懂用戶,這種“懂你”的能力本身就具有商業價值。但如何將這種價值轉化為商業收益,就需要進一步探索和設計。所以,創新能力體現在產品創新、技術創新和商業模式創新三個方面,它們并不矛盾。不過,技術人員是否具備商業能力確實是個問題。如果純從技術背景
94、出發,可能在商業 39 AIAI前線前線|特刊特刊 理解上會存在短板。要真正理解商業,可能需要接觸更多商業案例,甚至在投資機構工作過一段時間。比如,理解商業壁壘這類問題,從技術和產品角度出發可能缺乏足夠的視角和能力,這些短板可以在后續通過學習和實踐來彌補。林群書林群書:現在我遇到很多大區的CEO,他們本身也是技術出身。其實,做技術的人往往做技術的人往往更清楚技術的邊界,能夠更準確地判斷哪些技術適合商業化,以及為了實現商業化,技更清楚技術的邊界,能夠更準確地判斷哪些技術適合商業化,以及為了實現商業化,技術需要達到何種程度術需要達到何種程度。因為如果持續投入技術研究,而忽略其他方面,可能會導致投入
95、產出比并不理想。所以,技術背景的人需要把握一個合適的時間節點或投入節點,比如將第一版產品推向市場,獲得正面反饋和現金流后,再將收益投入到第二期研發中。以我們自己做數據工程平臺為例,在判斷哪些工具或功能需要開發,以及哪些是下一階段的核心競爭力時,技術背景會讓我們更容易做出準確判斷。此外,只有當我們開發出獨一無二的產品時,才能避免低質量的價格競爭。因為客戶只能從我們這里獲得這些獨特的工具,所以在價格上他們也不會過于苛求?!百愸R機制”在賽馬機制”在AI時代失效了嗎?時代失效了嗎?InfoQ:AI領域人才非常關鍵,領域人才非常關鍵,DeepSeek同樣聚焦了大量頂尖人才,那么,目前大家究同樣聚焦了大量
96、頂尖人才,那么,目前大家究竟需要什么樣的人才,又是如何吸引和培養所需的人才的?竟需要什么樣的人才,又是如何吸引和培養所需的人才的?林群書林群書:頂尖人才對技術創新至關重要。目前,既懂人工智能又懂行業屬性的復合型人才稀缺。我們傾向于招聘有行業背景的人才,并通過深度培訓,將其培養成兼具行業屬性和人工智能技術能力的人才。創業者需要思考如何吸引和培養頂尖人才。比如,DeepSeek以AGI為目標,吸引了追求解決世界級難題的人才。我們也在內部鼓勵員工參與世界級項目,這對有技術追求的人才極具吸引力。楊超楊超:我認為在AI時代最重要的品質是持續學習的精神和對學術的鉆研追求。我們之前招聘過很多人,包括不少名校
97、畢業的實習生。我發現,面試中雖然可以通過做題來考察能力,但這并不能完全體現一個人的潛力。有些人在面試中表現出色,但入職后成長緩慢;而另一些人則能快速進步。那些善于自我學習、對AI充滿熱情的人,進步尤其快。所以,我們更傾向于招聘對AI真正感興趣、具備鉆研和學習能力的人。比如,我們曾招過一個特別喜歡數學的人,他的微信號大概是“沉醉于數學”之類的,每天都在自我提 40 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 升,進步非???,所以很快從實習生逐漸成長為某個領域的專家。我們非常希望找到這樣的人。InfoQ:過去,互聯網大廠基本非常信奉“賽馬機制”,因為他們擁有大量的人才冗
98、余,:過去,互聯網大廠基本非常信奉“賽馬機制”,因為他們擁有大量的人才冗余,可以通過“賽馬機制”來篩選和激勵人才。但對于創業公司來說,“賽馬機制”可能并可以通過“賽馬機制”來篩選和激勵人才。但對于創業公司來說,“賽馬機制”可能并不適用,比如,像不適用,比如,像DeepSeek這樣的團隊就更注重團隊的協作和凝聚力。那么,站在不同這樣的團隊就更注重團隊的協作和凝聚力。那么,站在不同的公司規模和發展階段,管理上應該分別注重什么樣的事情?的公司規模和發展階段,管理上應該分別注重什么樣的事情?楊超楊超:我認為這可能與不同公司的創始人、發展階段和商業模式都有關系。在我看來,如果創始人本身很懂技術,且公司是
99、技術驅動的,比如像DeepSeek團隊或ChatGPT早期團隊,他們的成功主要依賴于硬核科技,而非單純的產品設計,那么這種情況下就不需要“賽馬機制”。因為創始人能夠很好地判斷哪些人才是最適合的,并圍繞這些人才構建公司、團隊和文化。只要方向正確,人才到位,就可以朝著明確的目標前進。對于很多商業模式來說,競爭可能并不完全依賴于硬核科技,而是更多地體現在產品創新上,比如用戶更喜歡短視頻向上滑還是向左滑,這種主觀的用戶體驗很難用單一指標評判。在這種情況下,公司老板可能很難僅憑直覺判斷哪個團隊的想法更好,因此可能公司老板可能很難僅憑直覺判斷哪個團隊的想法更好,因此可能會引入“賽馬機制”會引入“賽馬機制”
100、。但如果老板懂技術,能夠明確判斷方向,那么與其分散資源,不如集中資源全力支持一個團隊,這樣效率會更高。吳昊潛吳昊潛:我們肯定不會采用“賽馬機制”即使公司發展到很大規模也不會。我認為,只只要創始人還愿意參與業務,“賽馬機制”就不是最佳選擇要創始人還愿意參與業務,“賽馬機制”就不是最佳選擇。首先,賽馬會導致公司資源分散,至少要把資源分成幾份。其次,賽馬團隊可能缺乏足夠的勇氣去冒險。在我看來,其次,賽馬團隊可能缺乏足夠的勇氣去冒險。在我看來,一家公司可能只有創始人愿意承擔這種風險和責任一家公司可能只有創始人愿意承擔這種風險和責任。如果采用賽馬機制,其他人很難有動力和勇氣去承擔巨大風險,去做真正有創意
101、的事情。在產品設計方面,一些細節可以通過A/B測試來優化,比如交互方式或按鈕位置。但在做更重要的、根本性的產品設計或業務方向判斷時,就需要依靠創始人的直覺,并通過科學方法去驗證這種直覺。但誰來負責、誰來組織?我認為這肯定要由創始人來主導,否則其他人既沒有足夠的動力,也沒有相應的責任和能力范圍去推動這件事。我很難想象一個創始人什么都不做。在我的理解中,一家正常的創業公司就應該由創始 41 AIAI前線前線|特刊特刊 人親自把握方向,甚至參與其中。除非他把自己當作老板,而不是創始人,僅僅提供資源,讓其他人去做決策和執行。但如果他真的把公司當作一家創業公司,想做一件偉大且創新的事情,那就不可能采用那
102、種模式,而是要親自參與和引領方向。如如何在何在AI時代不被淘汰?時代不被淘汰?InfoQ:對于普通人來說,如何快速適應人工智能時代?:對于普通人來說,如何快速適應人工智能時代?楊超楊超:對于普通人來說,最簡單的方法就是先從使用最簡單的方法就是先從使用DeepSeek這類工具開始這類工具開始。因為在使用過程中,你會自然地發現它能為你帶來許多以前難以想象的便利。比如,我經常用它來寫文章,這只是一個很簡單的應用。更重要的是,我還會用它輔助思考問題我可以把一個問題拋給它,現在的Deepseek、ChatGPT等工具已經具備了相當高的智能,有點像我的朋友或助手。它可以和我對話,幫助我進行頭腦風暴,這也是
103、一個很好的方式。當然,市面上還有很多其他工具,比如幫你做PPT、處理各種事務的工具。如果你使用的AI工具比同齡人、競爭對手或職位上其他人更多,那么你就已經在被AI賦能了。你可以被視為一個“升級版”的自己。這會讓你的工作效率大幅提升,并且在這個持續進步的過程中,你還會學到新的技能。就像運動一樣,如果你經常打球,你的技術自然會變好。同樣,如果你多使用這些工具,就會形成一種條件反射,讓你在未來的生活、學習和工作中,更自然地考慮用這種方式來提高效率、提升生活質量,同時節省時間,把更多精力投入到更有意義的事情上。InfoQ:有人說,打敗你的不是:有人說,打敗你的不是AI,而是那些善,而是那些善于使用于使
104、用AI的同事。如果你還在猶豫,你的的同事。如果你還在猶豫,你的同事可能已經借助同事可能已經借助AI超越了你。那你們在日常工作中用到了哪些與超越了你。那你們在日常工作中用到了哪些與AI相關的工具?有沒相關的工具?有沒有什么使用小技巧可以跟大家分享?有什么使用小技巧可以跟大家分享?吳昊潛吳昊潛:我的工作狀態可以從幾個方面反映出來。首先,在編程時我會用到在編程時我會用到AI工具工具。比如我會先將需求告訴ChatGPT,它會幫我搭建一個框架。而在實際編碼時,我會使用cursor,因為它是一個交互性更好的AI代碼編輯器。我們公司會給所有員工開通cursor賬號,大家都用它來寫代碼。42 DeepSeek
105、DeepSeek:AIAI賽道的超級引擎賽道的超級引擎 其次,在產品設計階段,我也會讓ChatGPT參與進來。有時候我們在思考問題時比較粗略,需要具體的案例和細節,這時我會讓ChatGPT幫忙完善這些內容,甚至在搭建AI工作流的Prompt時,也會用另一個模型來協助我。另外,在公司戰略思考時,一個人的效率可能較低,我會通過對話式的方式借助AI工具來幫助自己梳理思路?,F在,Deepseek用得會更多一些。林群書林群書:我們最近在拓展營銷方面的工作,拓展營銷方面的工作,SEO優化時需要大量行業內干貨和博客內容優化時需要大量行業內干貨和博客內容。以前這些內容都靠人工撰寫,速度較慢,而且遇到不熟悉的領
106、域還得自己去研究?,F在有了DeepSeek這樣的大模型,內容不僅寫得快,而且更有深度,有時甚至比我們自己研究半天寫出來的效果更好。所以現在我們在做SEO優化博客文章時,基本都會直接借助大模型的能力,這是我們目前用得比較多的場景。另外,在編程方面,大模型也幫助我們節省了不少時間。為了讓大家更好地利用AI提升效率,我們在團隊內部搭建了一個方便使用的環境,讓大家都能直接使用這些AI能力。后來我們發現,不同部門可能需要不同的最佳實踐方法,所以我們開始組織分享會。每個部門會派一個人分享他們在崗位上如何利用大模型提升工作產出或成果。通過這樣的分享,大家能自然而然地找到適合自己部門的最佳實踐方法。InfoQ
107、:對于廣大技術從業者,在:對于廣大技術從業者,在AI時代又如何保持較高的競爭力?時代又如何保持較高的競爭力?吳昊潛吳昊潛:我認為在公司內卷中獲勝的根本性策略是離開內卷環境,去創業公司。我建議大家多使用一些AI工具。AI工具確實能大幅提升生產力。過去大家可能還在做AI基礎設施的鋪墊,但今年已經有很多非常好用的AI工具,比如用于編程和多模態視覺圖像生成的工具。舉個例子,我們現在在游戲開發中,很多視覺美術設計和生圖都是通過AI生成的,我鼓勵大家廣泛使用這些工具。林群書林群書:我很認同昊潛剛才的觀點,加入加入AI創業公司是最好的選擇創業公司是最好的選擇。因為在這樣的環境中,你置身于一個復雜多變的場景,
108、每天都要面對各種不同的挑戰。這種環境會促使你主動去挑選最適合的AI工具,并將其與自己的工作流程相結合,想盡辦法利用AI的能力提升工作效率。只有在不斷的實踐中,通過挑選和熟悉各種AI工具,將它們融入到你的 43 AIAI前線前線|特刊特刊 工作工具箱中,你的競爭力才會在日常積累中自然提升。楊超楊超:上次我去拜訪DeepSeek團隊時,他們告訴我,梁文峰現在還親自寫代碼。我聽了之后很受觸動,他們的公司已經做得這么大了,創始人依然親自寫代碼。這讓我有點汗顏,我覺得我們這些技術從業者也應該多寫代碼,而且要聰明地寫代碼技術從業者也應該多寫代碼,而且要聰明地寫代碼?,F在有很多好用的代碼工具,都可以嘗試。比
109、如我這次去硅谷,用了一個初創公司的代碼輔助工具,過年期間我用它寫了幾天代碼,感覺非常爽。它不僅能讀取一頁代碼幫你優化,還能讀取整個項目,優化效率大幅提升。以前寫代碼很痛苦,現在卻變成了一種享受。我覺得大家還是要多寫代碼,多學習新知識。比如可以多看看極客時間上這些優質的學習材料,不斷進步。44 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 AIAI開源新趨勢:開源新趨勢:DeepSeekDeepSeek的決策與影響的決策與影響 作者:王聞宇 此前,Meta首席人工智能科學家楊立昆(Yann LeCun)表示,DeepSeek的成功帶來的最大啟示是保持AI模型開源的重要性
110、,這樣每個人都能從中受益。他表示,這并不是中國的人工智能“超越美國”,而是“開源模型戰勝了專有模型”。那么,事實確實如此嗎?本文整理自InfoQ策劃的DeepSeek系列直播第四期節目。在直播中,極客邦科技創始人&CEO霍太穩對話PPIO派歐云聯合創始人&CTO、TGO鯤鵬會學員王聞宇,深入探討了DeepSeek爆火背后,開源策略對AI企業商業模式的影響,以及開源與閉源路線帶來的思考。在王聞宇看來,除了在模型訓練算法和工程層面的突破外,DeepSeek在AI基礎設施方面的重要創新,使得許多AI基礎設施公司能夠探索降低成本和提升性能的方法。而推 45 AIAI前線前線|特刊特刊 理成本的降低將使
111、得AI大規模應用的門檻變低。當AI推理成本實現十倍、百倍甚至千倍的降低時,AI應用將迎來爆發式增長。下文為直播部分內容精選,完整直播回放下文為直播部分內容精選,完整直播回放&最新直播預約可關注“最新直播預約可關注“AI前線視頻號”查看。前線視頻號”查看。以下為王聞宇的分享實錄部分(經編輯):以下為王聞宇的分享實錄部分(經編輯):我們先來回顧一下DeepSeek爆火的原因。在過去兩個月,DeepSeek發布了V3和R1兩個模型。V3模型對標了OpenAI最強的多模態模型4o,而R1則對標了OpenAI的深度思考模型o1。DeepSeek的這兩個模型不僅在性能上與OpenAI相媲美,甚至在某些場景
112、下表現更優,比如在經典問題“3.11和3.9哪個更大”上,DeepSeek能答對,而OpenAI的模型卻會答錯??偨YDeepSeek成功的原因,主要有三點:1.DeepSeek的模型在評測數據集上的表現非常出色,V3和R1的評分都超過了OpenAI的對應模型。這證明了其技術實力與OpenAI相當。2.DeepSeek的成本極低。從訓練角度看,其論文顯示總訓練成本約為500萬美元,相當于Meta一位高管的年薪。相比之下,OpenAI的模型成本要高得多。在推理成本上,DeepSeek的R1模型僅為OpenAI的1/30,V3模型為4o的1/10。即使OpenAI在DeepSeek發布后緊急推出了O
113、3 mini模型,但成本依然高于DeepSeek。3.最后,DeepSeek的開源策略是其備受關注的真正原因。它不僅對標了OpenAI的王牌模型,還通過開源“解密”了OpenAI的核心技術。DeepSeek在開源中展現了諸多創新,例如混合質量模型Moe、多頭潛在注意力機制MLA,以及強化學習中的GRPO算法,這些都優于OpenAI所使用的PPO算法。此外,DeepSeek還開發了MTP多token預測機制,進一步優化了性能。這些技術不僅揭示了OpenAI的技術思路,還在此基礎上進行了核心優化。我認為,DeepSeek成功的最大原因并非單純的效果媲美OpenAI或成本更低,而是它通過開源將這些技
114、術公之于眾。如果DeepSeek沒有開源,它可能不會引起全球如此廣泛的關注。開源不僅讓技術更加透明,還推動了整個行業的技術進步。46 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 開開源與閉源的思考源與閉源的思考 有些公司專注于開源,而有些公司則選擇閉源。在我看來,大語言模型的開源與傳統開源項目有很大不同。傳統開源本質上是一種工程師之間的協作方式,但大語言模型的開源則不然。首先,大語言模型開源的核心是模型權重。其次,開源內容還包括技術論文、訓練細節以及部分工程代碼,這些可以讓開發者復現模型。在模型開發過程中,大語言模型往往由單一公司主導,不存在協作機制。只有在開源后,
115、社區才會參與推理、再訓練和微調(fine-tuning)。因此,大語言模型的開源性質與傳統開源存在顯著差異,這種差異也決定了它們的發展方向。從2023年LLaMA發布開始,開源模型一直在追趕閉源模型。隨著時間推移,開源模型的表現逐漸逼近閉源模型。截至2024年7月,開源模型的表現已經與閉源模型非常接近,差距正在縮小,未來這種差距會更小。47 AIAI前線前線|特刊特刊 DeepSeek的出現讓其它巨頭陷入焦慮。OpenAI緊急發布了O3 mini,并公布了GPT 4.5和GPT 5的路線圖,承諾在2025年發布GPT 5。Meta也從猶豫是否開源LLaMA 4轉變為確定在2025年上半年開源,
116、并成立了四個“作戰工作室”,專門應對中國模型的挑戰。百度也宣布下一代模型將開源。2月18日,埃隆馬斯克將發布Grok 3。如今,各大公司都在加速發展,意識到開源帶來的競爭壓力。開開源帶來的價值源帶來的價值 開源對于整個社會和開發者來說,帶來了諸多好處:第一,開源能夠快速降低推理成本第一,開源能夠快速降低推理成本。一旦模型向社會開放,眾多公司就會參與研究如何部署和優化,從而降低人工成本、提升模型性能,進而迅速拉低處理成本。第二,開源賦予了開發者更大的靈活性第二,開源賦予了開發者更大的靈活性。開發者可以選擇在公有云、專有服務器或內網環境中部署模型,不用擔心性能限制或數據安全問題,能夠更加放心地使用
117、。第三,開源還具備很強的可玩性第三,開源還具備很強的可玩性。開發者可以使用自己的特色數據進行微調(fine-tuning)或再訓練,從而創建出個性化的模型。第四,社區的貢獻也不容忽視第四,社區的貢獻也不容忽視。開源項目發布后,會迅速吸引大量開發者參與,他們利 48 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 用各種數據集進行微調或模型蒸餾(distillation),創造出適用于不同場景的模型供他人選擇。開源的最大價值在于,它將原本只有頭部企業(如OpenAI)才能參與的技術平民化,讓更多人能夠參與到其中。開源大模型推動了技術平權。隨著更多人參與、更多需求被滿足以及
118、不斷的迭代優化,開源項目逐漸形成了一個正向循環,其影響力也越來越大。開源項目的核心優勢不在于技術壁壘,而在于生態的開放性和包容性。這種開放性吸引了大量參與者,構建了強大的生態壁壘。因此,我預測在2025年,會有更多更好的開源模型出現。開源項目的成功依賴于其開放性和生態建設,最終能夠勝出的開源大模型一定是極度開最終能夠勝出的開源大模型一定是極度開放和包容的,并且能夠構建起強大的生態壁壘放和包容的,并且能夠構建起強大的生態壁壘。最終,開源大模型可能只會剩下少數幾個,甚至只有1-2個,就像服務器操作系統的Linux、移動操作系統的Android一樣,因為生態的壁壘,不可能容納很多家。對對AI Inf
119、ra的影響的影響 DeepSeek的爆火對AI基礎設施(AI Infra)的影響非常顯著。在1月17日,英偉達的股價出現了單日17%的最大跌幅。當時有消息顯示,從DeepSeek公開的資料看、訓練所用顯卡數量極少,成本也極低。這使得投資者意識到,原來訓練大模型并不需要堆積大量的顯卡,這一認知瞬間改變了市場對英偉達未來預期的判斷。49 AIAI前線前線|特刊特刊 除了在模型訓練算法和工程層面的突破外,DeepSeek在AI基礎設施方面也有重要創新。例如,DeepSeek在某些算子中直接用PTX(Parallel Thread Execution,可以簡單理解為GPU的匯編語言)進行編程來提高性能
120、。之前網上有文章稱DeepSeek繞開了CUDA,其實這種說法并不準確,因為PTX也是Cuda生態的一部份。這充分說明了DeepSeek把性能做到了極致。此外,DeepSeek在訓練過程中大量使用了FP8精度浮點數,這大大加快了訓練速度,減少了GPU數量的需求。這種高效的訓練方式為AI基礎設施領域帶來了新的思路。50 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 開源模型的出現,使得許多AI基礎設施公司能夠探索降低成本和提升性能的方法。比如我們公司,PPIO派歐云,就可以通過研究開源的模型權重,代碼,論文,可以嘗試各種推理優化方案,做各種各樣的優化實驗,最終幾乎都能找
121、到無損且效果良好的解決方案。但如果是閉源項目,就只有模型公司自己來優化性能。這種模式下,不同公司會根據自身需求選擇不同的部署方案:有些追求高性能,用貴的卡,跑較少的Batch Size,價格可能較高;反之,有些則追求低成本,用廉價的卡,跑較高的Batch Size,性能相對較低。這種多樣化的選擇為開發者提供了靈活性,也促使各公司相互競爭,進一步降低推理成本。相比之下,閉源公司在這方面可能缺乏動力,這也是開源生態帶來的優勢之一。以我們PPIO派歐云公司為例,我們上線了DeepSeek滿血版的API,采用全參數,未進行INT8量化,以確保性能無損。此外,我們還推出了專屬的DeepSeek容器服務,
122、用戶只需一鍵操作,即可快速啟動GPU,并部署專屬模式,給出專屬于開發者的API接口。另外對于普通用戶,低代碼開發者,我們已經接入了多個應用(如Dify,FastGPT,Chatbox,Cher-ryStudio等),用戶可以在設置模型參數時選擇PPIO派歐云的API服務。近期,我們還推出了邀請碼活動,新用戶將獲得5000萬token(用我的邀請碼MWMLW8),5000w的token足夠開發者能享受我們的API服務較長時間了。應應用和新趨勢用和新趨勢 最近,DeepSeek的應用趨勢正在發生變化。微信正在內灰度測試接入DeepSeek,百度地圖也上線了基于地理位置的深度思考搜索。這些應用主動接
123、入DeepSeek的背后,核心原因之一在于其推理成本的大幅下降。51 AIAI前線前線|特刊特刊 我之前提過AI推理第一性原理:AI單位需求的推理成本,當實現了10倍/100倍/1000倍優化后,帶來AI推理應用的爆發。推理成本的降低必然解鎖更多AI應用個場景,而無需擔心成本問題。從經濟學角度看,永恒的規律,“Affordability is all you need”(便宜就是你所要的),就像移動互聯網時代,大部分APP都是免費的,這吸引了大量用戶,而開發這些App的企業則通過廣告模式盈利。隨著AI推理成本的下降,未來會有更多AI應用采用免費模式,而非訂閱模式。這種模式將因為用戶的大規??磸V
124、告的方來,獲得收入來實現盈利,這才是互聯網應有的形態。我認為,免費的免費的AI時代即將到來時代即將到來。隨著用戶數量的激增和應用場景的不斷拓展,推理的用量將很快超過訓練。據TIRISARearch預測,到2026或2027年,推理市場的規??赡軙_到訓練市場的20倍。開源技術的結合和私有部署的普及,將為應用市場帶來巨大的進步??偪偨Y結 總而言之,回顧一下我的所有觀點:DeepSeek的成功源于效果、成本和開源三者的結合。52 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 開源與閉源之間的差距正在縮小,未來可能會進一步減小。開源不僅加速了AI基礎設施技術的發展,還推動了
125、性能提升和成本降低。當推理成本降至足夠低時,AI應用將進入免費時代。推理算力的用量也將遠超訓練算力的開銷。以下為對話實錄部分(經編輯):以下為對話實錄部分(經編輯):InfoQ:當前主流開源模型的推理性能表現如何,尤其是在延遲、吞吐量和準確性這些:當前主流開源模型的推理性能表現如何,尤其是在延遲、吞吐量和準確性這些關鍵指標上,與閉源模型相比,差異是否顯著?關鍵指標上,與閉源模型相比,差異是否顯著?王聞宇王聞宇:模型性能的差異并不完全取決于開源或閉源,而更多決定于,選擇的GPU,并發參數,還有推理優化技術所共同決定。這里說得并發參數,例如Batch Size。在部署推理的時候,往往需要在Batc
126、h Size和性能指標(延遲,吞掉)之間尋找平衡。如果Batch Size過高,總Token數吐得更多,Token單價便宜,但是單用戶體驗會變差,推理速度也會變慢。相反,如果Batch Size過高,雖然用戶體驗會更好,但總Token數吐得慢,導致Token單價上升。閉源模型也存在類似平衡問題,所以這點不是決定開源和閉源的區別。這里,真正的區別在于,部署方式和推理優化技術的方案選擇上,首先,推理優化技術首先,推理優化技術對模型性能的影響非常關鍵對模型性能的影響非常關鍵,特別是開源模型,任何人都可以去研究,無論是之前LLaMa還是最近DeepSeek,如果未經優化,性能都不會達到最優。通過采用無
127、損優化技術、PD分離、投機采樣、并行方案如EP,DP,PP管道并行等方法,模型性能可以大幅提升,甚至有10倍的優化空間。以DeepSeek為例,其性能優化的關鍵在于幾個技術點:首先是其性能優化的關鍵在于幾個技術點:首先是PD分離分離,具體來說,如果不做PD分離,模型的Profile階段和Decode階段耗時不是一樣的,大量的Profile操作完成后,需要排隊等待Decode,從而導致推理效率低下。根據官方的建議,這種情況下Profile和Decode的配置在H800下建議在1:10。換句話說,如果使用一張GPU卡進行Profile,那么搭配10張GPU來進行Decode,是比較推薦。這是H80
128、0下的建議,如果GPU不是H800,53 AIAI前線前線|特刊特刊 我們時間下來不是1:10是最好的。其次,其次,DeepSeek采用了采用了MLA(Multi-head Latent Atten-tion)技術,)技術,MTP(Multi-token Prediction)機制也是性能提升的關鍵)機制也是性能提升的關鍵。如果這些優化措施不到位,模型的吞吐量和性能都會受到嚴重影響。因此,模型的最終性能取決于優化的基礎和方法。還有做好DP(Data Parallelism,數據并行),EP(Expert Parallelism,專家并行),PP(Pipeline Parallelism,流水線
129、并行)等并行方案,也有不小的提升。對于閉源模型,優化可能僅限于模型公司內部,但對于開源模型,全球的開發者都可以參與優化,探索優化方案,降低成本從而降低Token價格,推動整個行業的發展。InfoQ:在硬件(如:在硬件(如GPU)以及軟件推理框架和編譯器等層面,究竟有哪些因素限制了開)以及軟件推理框架和編譯器等層面,究竟有哪些因素限制了開源模型的推理效率?同時,如何解決模型規模與推理資源之間的矛盾?源模型的推理效率?同時,如何解決模型規模與推理資源之間的矛盾?王聞宇王聞宇:從硬件角度看,要分GPU和TPU來看,另外編譯器和硬件是緊密關聯。以DeepSeek為例,現在要部署滿血版DeepSeek模
130、型,擁有671億參數。如果使用單臺H100的8卡配置,或者單臺H20的8卡配置,在不做任何有損優化(比如壓縮或量化)的情況下,單臺機器是無法運行的,需要兩臺機器并聯才能滿足需求。這是因為模型參數量巨大,單臺機器的內存和計算速度不足以支撐其運行。但如果使用H200或MI300,一臺8卡機器就可以運行。因此,制約模型運行的并非開源與否,而是模型參數量和優化技術。如果在不損失精度的前提下保留參數量,并為上下文和緩存留出空間,那么確實需要更強的算力來支持。但是部份場景更適合于選擇專用硬件,比如TPU,其設計原理與GPU有所不同。例如,Groq使用了大量的SRAM(高速緩存存儲器)替代HBM(高帶寬、堆
131、疊式存儲器),這使得其成本大幅上升,但吞吐速度也顯著提高。這種硬件適合對成本不敏感、但對性能要求極高的場景,更適合選擇Groq這類TPU。然而,專用硬件的最大問題是隨著模型的快速迭代(AI領域變化迅速,模型架構不斷更新),硬件的固化設計可能無法適應新的模型架構,比如將來如果Transformer算法有大的迭代的時候,可能就不能適應了。我認為,未來對于通用場景,未來對于通用場景,GPU仍將是主流選擇,因為其靈活性和通用性能夠適應快仍將是主流選擇,因為其靈活性和通用性能夠適應快速變化的模型需求。而對于一些特定的、垂直需求的場景,專用速變化的模型需求。而對于一些特定的、垂直需求的場景,專用硬件如硬件
132、如NPU/TPU會逐漸會逐漸占據一定市場份額占據一定市場份額。54 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 InfoQ:我們之前也討論過硬件和軟件方面的限制,這些因素影響了開源模型推理的效:我們之前也討論過硬件和軟件方面的限制,這些因素影響了開源模型推理的效率。你在率。你在Infra領域積累了很多經驗,能否為我們介紹一下目前比較成熟的一些成本優化領域積累了很多經驗,能否為我們介紹一下目前比較成熟的一些成本優化技術?技術?王聞宇王聞宇:當前以GPU為主的硬件主要有三個瓶頸,分別是算力、顯存帶寬、顯存容量,通過三類技術進行解決。無損加速技術無損加速技術 這一類技術致
133、力于通過優化計算過程,減少不必要的計算和I/O,提升算力利用率。一個典型的技術是FlashAttention,它通過對Q/K/V(查詢、鍵、值)的切塊和數學優化,將原本需要三次循環的矩陣計算壓縮為一次循環,從而有效提高計算和訪存效率。同時,FlashAttention還通過算子融合技術,將旋轉位置編碼、MASK等計算邏輯融合到單個ker-nel中,進一步減少了不必要的GPU訪存,優化了計算性能。除FlashAttention外,PageAttention、Chunked Prefill在保證不影響模型精度前提下,提升了推理性能。有損加速技術有損加速技術 這一類技術通常會犧牲一定的精度來換取性能
134、提升,包括量化、稀疏化、KV Cache壓縮等技術。對于大模型推理中的Decode階段,顯存帶寬成為瓶頸所在,主要表現在GPU的全局內存和共享內存的數據交換過程中。此時,量化 和KV壓縮這樣的技術可以顯著減輕I/O壓力。例如,常見的KV Cache通常采用BF16格式存儲,每個數據占用16個二進制位。如果將其壓縮為FP8格式,每個數據僅占8個二進制位,這不僅能減少Decode階段的GPU I/O開銷,還能減少GPU內存占用,提高處理并行度,進一步提升推理性能。系統架構優化系統架構優化 系統層面的架構優化,通過合理調度、緩存和并行計算等技術,減少無效開銷,提升硬件資源利用效率。常見的架構優化技術
135、包括PD分離、投機采樣、Constrained Decoding和Prefix Cache等。推理過程大致可分為Prefill和Decode兩個階段,其中Prefill階段瓶頸是計算,Decode階段瓶頸是顯存訪問。實際硬件中,很難同時解決這這兩個瓶頸問題,因此對應的優化技術應運而生。PD分離是將Prefill和Decode分離到不同的機器上,通過分布式處理技術實現算力利用率最大化。同時,投機采樣通過使用草稿模型提高Decode并行 55 AIAI前線前線|特刊特刊 度,有效減輕I/O訪存壓力。Constrained Decoding和Prefix Cache等技術則能減少重復計算,降低無效t
136、oken的計算量。此外,引擎中的隊列調度、優先級策略和網絡傳輸優化等技術,也能在不同程度上提升推理性能。這些優化技術在學術界和工業界都得到了廣泛應用,不斷有新的研究成果出現。LLM推理的降本空間很大,即使模型和硬件不變,通過優化也能顯著降低成本。這也是Infra公司的核心價值所在。InfoQ:有一位直播觀眾提出了一個很有趣的問題,他想知道:有一位直播觀眾提出了一個很有趣的問題,他想知道DeepSeek的的API后面會不會后面會不會漲價。漲價。王聞宇王聞宇:最近確實有消息稱DeepSeek的API價格上漲了3倍,但這并非單純的漲價行為。DeepSeek在上線初期就明確發布了價格策略,并且在2月8
137、日調整了價格。DeepSeek團隊早在發布第一天就表示,為了推廣服務,初期會以V2的價格進行促銷,而2月8日之后將恢復原價。因此,這次的價格調整是基于既定的價格策略,并非突發的漲價。DeepSeek背后擁有強大的技術團隊,他們在量化交易領域有著豐富的經驗,尤其在毫秒級延遲優化方面非常擅長。其團隊對硬件優化非常有心得,利用PTX和CUDA深度優化提升性能。因此,DeepSeek的價格調整是基于成本核算和市場策略的綜合考慮。此外,DeepSeek采用NSA(Native Sparse Attention)技術)技術,這一技術通過稀疏注意力算法將64k長文本的推理速度提升了11.6倍倍。這一成果表明
138、,通過模型結構的優化,DeepSeek可以顯著降低推理成本。相比傳統的Softmax Attention技術,Sparse Attention、Linear Attention和Tensor Product Attention等技術在推理時的計算成本優勢非常明顯。此外,DeepSeek的開源特性開源特性也使得其他公司和開發者可以根據需求探索不同的算法來進一步降低成本。雖然DeepSeek的官方價格可能會讓部分用戶感到壓力,但隨著技術的不斷進步和新型算力解決方案的出現(例如B100等新芯片的發布),推理成本有望進一步降低。因此,未來DeepSeek的價格不僅不太可能上漲,反而可能會隨著技術的發展
139、和市場競爭的加劇逐漸降低。56 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 InfoQ:PPIO的的DeepSeek大模型在第三方評測中的準確率排名第一,你們是怎么做到的?大模型在第三方評測中的準確率排名第一,你們是怎么做到的?王聞宇王聞宇:這個評測是由一個比較著名的獨立第三方評測機構SuperClue進行的。他們在評測準入頁面上提到,評測是基于其內部封閉的數據集進行的。網上有些資料暗示他們可能擁有很多數據,但這些數據集并未公開,因此我們也不清楚具體內容。評測過程是讓模型回答問題,然后判斷答案是否正確。我們之所以能在評測中排名第一,我認為主要有兩個原因。首先,我們的
140、模型是真正的“滿血版”,保留了所有參數,沒有進行INT8/INT4量化,而是以原始的FP8精度運行推理。FP8提供了更大的動態范圍,相比INT8和INT4,它能夠更好地保留原始數值信息,從而避免了由于量化帶來的精度損失。從行業情況來看,很多公司使用了INT8等低精度量化,因為國產GPU在硬件層面不支持FP8,這可能是其他公司在評測中表現稍遜一籌的原因。其次,我們的模型上線流程非常嚴格,公司在出海時已經做了大量模型托管服務,所以有一套嚴格的商業流程。在上線每個模型之前,我們會使用多種數據集進行評測,包括公司內部的專有數據集以及公開數據集(如GSM8K)。此外,我們還會進行人工評估以確保模型的性能
141、和質量。我們會確保評測結果與官方數據或第三方數據相近,才會正式上線模型。我們對模型的嚴格要求和無損處理,讓我們在SuperCLUE數據集上的表現非常出色。InfoQ:你覺得你覺得DeepSeek這一波是不是代表了這一波是不是代表了AIGC應用和普及的一個拐點?應用和普及的一個拐點?王聞宇王聞宇:在中國,DeepSeek的出現確實是一個重要的拐點。從市場推廣角度看,除了DeepSeek之外,許多公司并沒有真正將核心能力開源,而是通過開源小型項目模型來吸引關注和客戶,隨后再推廣其閉源的大型模型。這種策略更多是將開源作為一種市場推廣手段,而非真正開放核心技術。而DeepSeek則是唯一一家真正將最核
142、心能力開源的公司,尤其是其V3版本,不僅開源,還達到了與OpenAI媲美的效果。對于國內市場而言,DeepSeek的開源還解決了數據管控的問題。由于國內對內容管控的要求較高,許多國際開源模型(如LLaMA等)的數據結果不可控,容易被下架。57 AIAI前線前線|特刊特刊 DeepSeek的開源使得國內企業無需翻墻,極大地降低了使用門檻。此外,DeepSeek的成本遠低于OpenAI,這使得更多的企業能夠負擔得起,從而推動了AIGC應用的普及。從資本角度看,DeepSeek的成功也改變了全球對中國AI技術的信心。此前,全球資本對中國AI持悲觀態度,認為中國只能追趕OpenAI等國際巨頭。然而,D
143、eepSeek的出現證明了中國公司能夠開發出具有國際競爭力的AI模型,這不僅提升了中國AI技術的全球地位,也吸引了更多海外資本的關注。這種信心的提升也反映在股市上,特別是港股市場的整體上漲,部分原因可以歸結于DeepSeek帶來的積極影響。海外投資者,尤其是中東、新加坡和歐洲的資本,開始對中國AI技術表現出更大的興趣,這為國內創業者提供了更多的資金支持。此外,我認為DeepSeek的出現不僅推動了技術的普及,還可能開啟了新的一波ToC創業窗口。就像當年移動互聯網時代一樣。我最近剛從美國灣區回來,感覺那邊的ToC創業窗口已經開啟,我相信中國這邊很快也會打開。因此,DeepSeek的出現可能會引領
144、我們的出現可能會引領我們進入一個新的創業者黃金時代進入一個新的創業者黃金時代,這不僅對開發者來說是一個利好消息,也對整個行業的發展具有深遠意義。58 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 AIAI時代的百萬年薪:時代的百萬年薪:DeepSeekDeepSeek與全球人才與全球人才爭奪戰爭奪戰 作者:柴云鵬 近期,一則有關DeepSeek百萬年薪招聘人才的消息引發了熱議。據消息,DeepSeek開出最高98萬元年薪招聘UI設計師。網友們進一步挖掘之后發現,這家公司正在以極具競爭力的薪資招聘各種工程師,即便是非算法崗,也提供令人矚目的待遇,最高月薪9萬(合年薪12
145、6萬)。特別是核心系統研發工程師,甚至包括了“校招應屆生”這一范疇。百萬年薪招攬人才的故事是否還會在AI時代繼續上演?什么樣的人才才有可能吃上這波紅利?本文整理自InfoQ策劃的DeepSeek系列直播第五期節目。在直播中,極客邦科技創始人&CEO霍太穩對話中國人民大學信息學院院長、計算機系教授柴云鵬,深入探討了DeepSeek爆火背后,高薪招聘是否會長期持續,以及從業者如何在AI時代保持 59 AIAI前線前線|特刊特刊 學習和成長。下文為直播部分內容精選,完整直播回放下文為直播部分內容精選,完整直播回放&最新直播預約可關注“最新直播預約可關注“AI前線視頻號”查看。前線視頻號”查看。以下為
146、柴云鵬院長的分享實錄部分(經編輯)以下為柴云鵬院長的分享實錄部分(經編輯):從ChatGPT到今年DeepSeek的爆火,AI的發展進程正如多年前的預測一樣,正在加速推進。這也給我們的教育和人才培養帶來了機遇與挑戰。AI的熱度不斷攀升,尤其是DeepSeek百萬年薪招聘人才的新聞引發了廣泛討論。從更長的時間維度來看,AI的發展始于2013年至2014年的深度學習技術突破。當時,AlexNet在ImageNet比賽中奪冠,其性能提升令人震驚,但許多人仍對CNN的潛力持懷疑態度。然而,僅一年多后,深度學習便成為AI領域的主流方向,大量研究人員紛紛轉向這一領域。AI領域高薪是必然,但可能不會長期持續
147、領域高薪是必然,但可能不會長期持續 在隨后的幾年中,AI的薪資水平也經歷了起伏。算法崗位曾因稀缺性和高需求而薪資高漲,但其穩定性較差。由于互聯網業務的復雜性,深度學習和機器學習的應用效果并不總是理想,導致算法崗位的人員流動較大。許多人中途轉向系統、安全等其他方向,薪資水平也因此波動。相比之下,系統崗位和研發崗位因穩定性更高而受到青睞。隨著ChatGPT的出現和大模型時代的到來,AI的能力和影響力實現了質的飛躍。機器學習時代,AI的應用落地較為有限,主要集中在視頻、安防和娛樂等少數領域,企業營收和薪資水平也難以持續高漲。但大模型技術的突破使大模型技術的突破使AI真正“破圈”,不再局限于少數賽真正
148、“破圈”,不再局限于少數賽道,而是廣泛應用于普通人的生活和工作中道,而是廣泛應用于普通人的生活和工作中。例如,深圳已經開始嘗試使用“AI公務公務員員”,僅用幾天時間就能完成過去幾十天的工作量,這引發了人們對職業未來的廣泛焦慮和對AI的學習熱潮。如今,AI已成為高階工具,在多個領域展現出強大的生產力,推動薪資水平不斷上升。在北京等頭部高校,在北京等頭部高校,AI相關專業的畢業生薪資已相關專業的畢業生薪資已遠超百萬,甚至剛畢業的博士生也能拿遠超百萬,甚至剛畢業的博士生也能拿到到200萬、萬、300萬甚至更高的年薪萬甚至更高的年薪。DeepSeek等頭部企業之所以能開出如此高的薪資,一方面是因為AI
149、技術解決了更多問題,為企業帶來了可觀的收入;另一方面,AI領域的供需失衡導致人才稀缺,企業為了在激烈的市場競爭中占據優勢,不惜重金吸引核心人才。60 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 從宏觀角度看,AI的發展帶來了巨大的市場需求,尤其是對核心技術和大模型訓練、推的發展帶來了巨大的市場需求,尤其是對核心技術和大模型訓練、推理以及系統級加速設計等方面的專業人才理以及系統級加速設計等方面的專業人才。這些崗位薪資極高,也帶動了相關崗位的薪資上漲。然而,這種高薪現象可能不會長期持續這種高薪現象可能不會長期持續,隨著AI技術的逐漸普及和人才供給的增加,薪資水平可能會有
150、所回落,但仍可能保持在較高水平。AI發展需要人才基數,更需要核心技術人才發展需要人才基數,更需要核心技術人才 從國際視角來看,AI領域的人才現狀呈現出明顯的兩極分化。目前,中美兩國在基礎研究投入、企業創新程度、算力資源和人才儲備等方面處于領先地位,其他國家與之相比仍存在較大差距。這種格局頗為耐人尋味。過去,我們曾反思中美在科研領域的激烈競爭,批評這種過度追逐熱點、競爭激烈的模式,認為這種風格過于浮躁。相比之下,歐洲和日本的科研風格似乎更“佛系”,尤其是歐洲的教授們,他們似乎更注重舒適的研究環境,但即便如此,他們在企業和高校中也做出了許多扎實且高質量的研究成果。然而,在當前AI技術快速突破的背景
151、下,中美兩國這種相對激進的科研策略反而取得了顯著成效,成為了全球AI領域的主要競爭者。在國內,過去20年計算機人才的培養質量不斷提升。以前,清華大學計算機專業的優秀學生大多選擇出國深造,但近年來,越來越多的頂尖學生選擇留在國內近年來,越來越多的頂尖學生選擇留在國內,甚至競爭導師資源。這表明國內高校的水平已經與美國頂尖高校具有相當的可比性。從全球范圍來看,中國的人才儲備整體具有優勢,發展態勢健康。當然,與美國最頂尖的高校相比,國內部分高校仍有差距,但正在快速提升。AI領域的快速發展使得人才需求和培養面臨巨大挑戰。AI人才并非一個單一概念,而是高度細分的領域。在AI領域,人才培養的重要性不言而喻。
152、這就好比足球比賽,雖然需要11名球員組成完整的隊伍,但真正決定比賽勝負的往往是少數關鍵球員。同樣,在在AI領域,盡管需要大量的人才基數作為支撐,但那些少數具備核心技術和創新領域,盡管需要大量的人才基數作為支撐,但那些少數具備核心技術和創新能力的關鍵人才才是推動技術突破和發展的決定性力量能力的關鍵人才才是推動技術突破和發展的決定性力量。在未來,隨著AI技術的不斷演進,人才的重要性將愈發凸顯,而薪資體系的差異也將進一步擴大。那些能夠掌握核心技術、引領創新的關鍵人才,將獲得更高的回報。61 AIAI前線前線|特刊特刊 AI領域需要多維度人才畫像領域需要多維度人才畫像 AI領域的人才畫像可以從多個維度
153、來分析。首先,對于專業人才而言對于專業人才而言,良好的數學和統計學基礎是必不可少的,同時還需要扎實的計算機和編程能力,包括對數據結構、算法以及計算機系統的基本理解。此外,掌握基礎的機器學習、深度學習和大模型技術,以及大數據相關技術,也是硬核技能的重要組成部分。如果專注于特定領域,如計算機視覺等,還需要具備相關的專業知識。軟技能方面軟技能方面,AI行業變化迅速,從業者需要能夠跟上快速發展的技術節奏,例如及時了解最新的研究論文和技術動態,并善于利用AI工具提升學習和解決問題的能力。溝通能力和團隊協作能力也是必備的,同時創新精神尤為重要。目前,盡管AI的能力已經很強,但大多數人仍未充分掌握如何高效利
154、用AI提升工作效率,尤其是在商業和產品開發中。因此,創新精神、想象力、執行力以及對工作的熱情都是推動AI應用落地的關鍵因素。在教育背景方面教育背景方面,頂尖公司通常更傾向于招聘具有優秀教育背景、專業背景的人才,尤其是來自知名高?;蚝M庠盒5漠厴I生。這是因為AI領域相對較新,目前大部分人才供給來自新畢業的學生,而企業內部有經驗的人才相對較少。隨著AI人才的積累,未來企業對教育背景的要求可能會逐漸放寬,尤其是在有豐富相關經驗的情況下。62 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 從能力體系來看,AI時代的人才畫像與傳統計算機人才培養體系有所不同。核心是大模型技術,其
155、支撐包括計算機系統的高效計算能力(如軟硬件協同、芯片算力、分布式網絡等)。數據是AI能力的關鍵,尤其是高質量、獨特的數據集對于模型的優化至關重要。同時,安全可信也是重要領域,因為大模型存在幻覺、合規性和安全隱患等問題,需要專業的解決方案。未來,大部分人才將集中在利用AI解決各行業垂直領域的具體應用,這也是時代的主旋律。對于AI專業人才而言,除了掌握大模型技術外,還需要在以下至少一個方面形成專長:強大的數學功底和對模型的深入理解;數據處理和分析能力;系統設計和軟硬件結合能力;或者安全和軟件工程能力。僅僅停留在對大模型的熟悉和應用層面是不夠的,因為這樣的技術路線容易被替代。相反,具備獨特專長的人才
156、才能在競爭中站穩腳跟具備獨特專長的人才才能在競爭中站穩腳跟。每每個人都有機會借助個人都有機會借助AI實現創新和突破實現創新和突破 非AI領域的人其實也有很大的機會參與到AI的浪潮中。首先,大家需要積極擁抱AI技術,即使不是理科生,學習和使用AI也并不難。計算機行業一直致力于將技術變得更易用、更“傻瓜化”,而AI時代的到來進一步降低了門檻。過去,我們使用電腦需要通過命令行(shell),后來有了圖形用戶界面(GUI)和鼠標操作,再后來智能手機的觸控屏讓操作更加便捷,甚至小孩和老人都能輕松上手。如今,隨著ChatGPT和大模型技術的出 63 AIAI前線前線|特刊特刊 現,我們只需要通過自然語言交
157、流,就能與AI深度互動,完成復雜任務。這使得AI的應用范圍更廣、深度更強,即使零基礎的人也能通過自然語言的描述進行游戲開發、軟件設計等工作。實際上,AI的學習途徑非常豐富,關鍵在于持續學習、鍛煉接受新事物的能力以及培養創新精神。AI的真正爆發將發生在眾多垂直領域和具體應用場景中,而非僅僅局限于AI技術本身。像DeepSeek這樣的專業公司或大廠,在AI核心技術研發方面需要少量頂尖人才,但整體而言,AI的應用和推廣需要大量跨領域的人才。在這些領域,AI的使用門檻并不高,每個人都有機會通過AI顛覆傳統領域,實現創新和突破??偠灾?,AI領域的人才前景依然廣闊,無論是否是計算機或AI專業出身,每個人
158、都有機會在這場浪潮中找到自己的位置。然而,如果不能適應變化,被替代也是不可避免的。為了避免被淘汰,首先需要積極擁抱AI,學會熟練運用AI工具,這樣才能在競爭中脫穎而出。隨著AI的發展,一些崗位可能會被替代,但同時也會涌現出新的方向,而能否率先把握這些新機會,取決于我們是否具備主動學習和適應的意識。從人才和薪資的發展趨勢來看,目前AI領域正處于一個火爆的階段,但未來必然會經歷起伏,薪資水平也會隨著市場供需關系的變化而有所調整。盡管如此,AI的發展無疑將的發展無疑將帶來前所未有的社會變革和生產力提升帶來前所未有的社會變革和生產力提升,整個行業的發展方向是向上的。不過,AI時代的人才需求變得不再像過
159、去那樣明確。在沒有AI的時代,知識和技能的需求是清晰的,能力越高,薪資也越高。但現在,隨著AI的發展,一些原本由人類完成的工作正在被AI所取代。這就要求我們必須不斷提升自己,找到新的立足點,才能在AI的浪潮中生存下來。而生存下來,就意味著有更大的機會去追求更好的發展。因此,我們應該以更積極的態度去擁抱AI,主動實踐和學習。不必過于恐慌,因為AI的普及和替代是一個緩慢的過程,那些熱愛學習、不斷進取的人,最終都會在這個時代找到自己的位置。以下為對話實錄部分(經編輯)以下為對話實錄部分(經編輯):InfoQ:2月月17日,埃隆馬斯克旗下的日,埃隆馬斯克旗下的xAI公司正式發布了其最新的人工智能模型公
160、司正式發布了其最新的人工智能模型Grok-3,64 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 并稱其為“地球上最聰明的人工智能”。對于科研人員、并稱其為“地球上最聰明的人工智能”。對于科研人員、IT從業者以及企業員工來說,從業者以及企業員工來說,AI到底替代不了哪些領域?到底替代不了哪些領域?柴云鵬柴云鵬:目前我還沒有總結出一個特別完美的模式,但可以反過來思考:AI能做什么?能做什么?AI擁有人類最大的知識庫,因此它在橫向關聯能力上特別強,能夠實現跨學科、跨方向實現跨學科、跨方向的應用的應用。比如,即使你對游戲開發一竅不通,但只要掌握一點編程知識,借助AI的幫助,
161、你就可以生成代碼并制作出一個3D游戲。這種跨領域的學習能力使得AI的應用范圍非常廣泛,且成本較低。然而,在任何特定領域,在任何特定領域,AI的能力都有其局限性的能力都有其局限性。以游戲開發為例,雖然AI可以替代部分美工工作,生成圖像,但如果整個游戲完全由AI生成,其質量肯定是有限的。在繪畫領域,如果你的繪畫技巧非常高超,那么你可能仍然比AI更出色,因為AI生成的圖像可能還需要依賴你提供的高質量素材。在研究和系統開發中,AI可以生成一些基本方案,但很難解決那些最復雜、最困難的問題。換句話說,如果你的工作內容相對簡單,就像站在一座低矮的山上,即使你爬到了山頂,也很容易被AI替代。但如果你所在的領域
162、本身復雜且難度較高,你可以在這個領域內不斷向上攀登,那么AI就不太容易替代你。AI好比洪水模型,它會橫掃各個領域中水平較低的部分,這種判斷是基于宏觀邏輯的。當然,也有些也有些領域領域AI可能無法替代人類,比如可能無法替代人類,比如藝術、感性表達,或者需要與人溝通、提供幫助和娛樂的領域藝術、感性表達,或者需要與人溝通、提供幫助和娛樂的領域。這些領域中,人類的某些能力是AI難以替代的,因此這些領域仍然具有很大的價值。之前一些看似復雜的專業領域,比如金融和投資決策,雖然看起來很厲害,但實際上它們的工作內容相對單一,主要是做決策,而且這些決策大多是數字化的。這樣的工作很容易被AI替代,但頂尖的投資決策
163、可能仍然需要人類的參與。目前,AI可能還無法完全實現量化投資,而是需要人類與機器協同工作??傊?,在任何一個領域,只有不斷向縱深發展,才能在AI時代保持競爭力。InfoQ:我們發現,:我們發現,DeepSeek招聘主要針對應屆畢業生,包括本科生、碩士生,甚至實招聘主要針對應屆畢業生,包括本科生、碩士生,甚至實習生,似乎很少從市場上招聘有經驗的專業人士。從您的角度來看,背后的原因是什么?習生,似乎很少從市場上招聘有經驗的專業人士。從您的角度來看,背后的原因是什么?柴云鵬柴云鵬:實際上,在計算機領域,尤其是工科,很多人的創造力最活躍的時期是在20多 65 AIAI前線前線|特刊特刊 歲到30出頭。這
164、個年齡段的人學習能力強,也有一定的經驗。但到了40歲左右,學習能力可能會變慢,整體節奏也會放慢。特別是在AI時代,適應新事物的能力會變弱,而AI團隊需要快速響應,一旦有新的思路,就要爭分奪秒地去實施。加班能力也很重要,而年輕人在這方面更有優勢。從這個角度看,吸引剛畢業或工作沒幾年的年輕人是比較劃算的。比如,我們人大信息學院的進人策略也是這樣,主要精力放在引進年輕人。我們只需要少量有經驗的人來帶領團隊。比如,一個有經驗的人帶領十幾個年輕人,這樣的戰斗力可能是最強的,性價比也很高。從頭培養年輕人有很多好處,比如增強歸屬感和協同溝通能力。理想的創新團隊年齡結構不能太大理想的創新團隊年齡結構不能太大。
165、從這個角度看,DeepSeek的策略是合理的。此外,AI領域與其他領域不同,它本身就很新,資深人士的經驗作用并不大,甚至可能因為固定的思維方式而產生阻力。InfoQ:高校培養出來的:高校培養出來的AI人才和培訓機構培養出來的人才和培訓機構培養出來的AI人才有什么區別?人才有什么區別?柴云鵬柴云鵬:實際上,人與人之間的差異更大,不能簡單地一概而論。但從宏觀上看,這有點像我們當年上學時的情況。比如,學計算機的人會問:軟件工程和計算機科學有什么區別?軟件工程的課程比較務實,注重各種開發環境的實踐;而計算機科學的課程則更偏向底層知識,比如計算機組成原理、操作系統、編譯原理等。高校培養的計算機專業人才,
166、基礎課程體系更完善,數學和計算機底層基礎打得更扎實。這種教育模式有助于學生形成對計算機和AI技術的完整認知,即使有些知識在實際工作中不一定用到,但對理解問題的深度和廣度很有幫助。學生在工作崗位上仍需自學新知識,但高校教育鍛煉了他們的學習能力。相比之下,培訓機構的課程更加直接和務實,注重實戰技能的培養,適合那些已經在職場中、時間有限的人。他們很難像高校學生那樣全身心投入學習,因此培訓機構的課程更注重實用性。如果你通過培訓發現自己對某個領域感興趣且有能力,可以進一步深入學習更基礎的內容,比如數學和計算機底層知識。如今,無論是基礎課程還是實戰應用,都有大量資源可供選擇,包括培訓課程、慕課、國外開放課
167、程等。對于年輕人來說,先從實戰入手,再學習更基礎的知識,對長期發展更有幫助。當然,培訓機構可能也有基 66 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 礎課程,但對于那些希望深入鉆研、追求專業的學生來說,建議不要忽視基礎學習對于那些希望深入鉆研、追求專業的學生來說,建議不要忽視基礎學習。InfoQ:大家都在討論要積極擁抱:大家都在討論要積極擁抱AI并多加應用,但究竟到什么程度才能算得上是擅長使并多加應用,但究竟到什么程度才能算得上是擅長使用用AI,或者是最會用,或者是最會用AI的“打工人”呢?的“打工人”呢?柴云鵬柴云鵬:我認為這個標準其實很簡單,關鍵在于你自己從事
168、的工作或愛好,加入AI后,你能提升多少工作效率?是否能實現效率的倍增甚至更高?是否能切實解決你最關心的問題?如果你只是淺嘗輒止,比如用DeepSeek問兩個問題就覺得寫得很好,但沒有深入挖掘,那就不算真正用好了。你應該找到自己的痛點你應該找到自己的痛點哪些工作是重復性的、浪費時間的,或者你希望提升質量、節省時間的。圍繞這些痛點,你可以利用AI與它交流、獲取建議,甚至借助AI工具解決問題。如果你能通過AI解決自己的痛點,那你就成功了,說明你已經很好地掌握了AI的能力。這種以痛點為切入點的方式,也是判斷自己是否擅長使用AI的標準。痛點解決得越好,說明你對AI的運用越熟練。InfoQ:大模型目前仍存
169、在幻覺問題,對齊和準確度也有待提高,短期內難:大模型目前仍存在幻覺問題,對齊和準確度也有待提高,短期內難以實現真正以實現真正的產業化。當下有什么解決辦法嗎?的產業化。當下有什么解決辦法嗎?柴云鵬柴云鵬:幻覺問題是大模型技術固有的一部分,它無法達到100%的準確率,但可以通過技術改進來降低幻覺出現的概率。以特斯拉自動駕駛為例,其故障率從過去的每多少公里一次故障,已經大幅降低到遠低于人類駕駛的水平。盡管如此,自動駕駛仍不能保證絕對的零故障,但通過研究和改進,其可靠性已經達到了一個合理的水平。類似地,大模型的幻覺問題也在不斷通過研究得到改善?;糜X問題并不影響大模型的產業化?;糜X問題并不影響大模型的產
170、業化。人類自身也會犯錯或產生“幻覺”,但這并不妨礙人們正常工作。因此,我們不能因為大模型存在幻覺就歧視它。實際上,大模型已經達到了一定的可靠性和可用性,盡管仍有錯誤,但已經足夠讓普通用戶愿意使用。例如,DeepSeek之所以被廣泛接受,是因為它已經達到了一個讓用戶覺得“靠譜”的水平,盡管它仍有錯誤,但比過去有了顯著提升。大模型目前無法完全替代人類,但它可以作為工具使用。目前,人們主要使用大模型結 67 AIAI前線前線|特刊特刊 合RAG技術處理私域數據。未來,人們將更多地開發工具層,包括智能體、多智能體交互以及各種AI工具。這些工具將使AI能夠調用更多資源和功能,從而擴展其能力。通過這些工具
171、,AI可以作為人類的助手,由人類把控關鍵決策,從而提高效率,甚至實現人類無法做到的事情。這就好比從騎自行車到駕駛汽車、坦克,甚至坦克群,AI的能力不斷增強,能夠完成的任務也越來越多,這就是生產力的提升,也是產業化的一部分。在某些相對封閉的領域,如自動駕駛,AI甚至可能達到比人類更低的錯誤率,從而實現完全替代人類監督的自動化。但這并不影響大模型在其他領域的產業化應用。從研究角度來看,如何減少幻覺、實現安全可信的AI系統,本身就是一個重要的研究方向。InfoQ:程序員想要轉型為:程序員想要轉型為AI技術人員,有沒有比較快速的學習方法?技術人員,有沒有比較快速的學習方法?柴云鵬柴云鵬:要成為一名AI
172、技術人員,首先需要明確具體的方向,比如是從事算法開發、AI應用開發,還是AI系統設計等。從加速學習的角度來看,AI技術的發展極大地簡化了知識傳遞的過程。過去,知識的傳授依賴于教師的講解,學生可能難以跟上思路。如今,借助AI工具,比如DeepSeek,學習者可以通過提問獲得解答,這種互動式學習模式比傳統的被動接受更為高效。AI能夠快速傳遞基礎知識,降低了學習成本。對于想快速入門的人來說,關鍵在于建立對關鍵在于建立對AI的基本認知的基本認知。例如,程序員可以在短時間內通過與AI交流,理解AI的基本原理、思路和邏輯。不必深入學習底層的數學原理,只要掌握如何使用AI即可。接下來是實踐環節,選擇一個具體
173、的問題,比如開發一個AI應用或處理一個AI模型相關的任務,借助AI工具完成任務。通過一兩個任務的實踐,學習者將對領域有更深入的理解,遇到新問題時也會知道如何尋求解決方案。從學習曲線來看,快速認知、實踐和與從學習曲線來看,快速認知、實踐和與AI頻繁交流相結合的學習方式,比傳統的被動學頻繁交流相結合的學習方式,比傳統的被動學習更高習更高效。雖然快速學習法可能會遺漏一些細節,但如果目標是速成,可以采用這種策略。例如,可以選擇一些輕量級的課程,利用社會資源和培訓課程加速學習過程??傊?,學習學習AI技術仍然需要刻意練習技術仍然需要刻意練習。人需要像訓練模型一樣,通過輸入數據(學習和實踐)來提升能力。雖然
174、可以減少學習樣本的數量,但這個過程是必不可少的。68 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 InfoQ:您自身在平時的日常工作和日常生活中,有哪些地方用到了:您自身在平時的日常工作和日常生活中,有哪些地方用到了AI?在使用過程中有?在使用過程中有什么特別深刻的體會嗎?什么特別深刻的體會嗎?柴云鵬柴云鵬:我的工作直接寫材料、代碼或論文的時間較少,更多的是從事思考和交流。因此,像AI開會總結這類工具對我的影響并不大,因為我的工作重復性任務本身就較少。不過,我最近對教學方面的AI應用感受頗深,尤其是AI在課程建設上的效果,超出了我的預期。未來,這方面的應用可能會越來
175、越多。最近我還發現,用DeepSeek進行思考和交流很有啟發性。我更多地將它當作一個開拓思我更多地將它當作一個開拓思路的“助理”,而不是用于處理事務性或重復性的工作路的“助理”,而不是用于處理事務性或重復性的工作。這種使用方式不算特別重度,但對于像我們這樣的年輕人,尤其是同學們,AI在代碼開發上的應用已經顯著減少了工作量至少減少50%,有些重復性高的任務甚至能減少80%的代碼量。文檔方面更是如此。目前AI工具的輔助功能可能還不夠強大,但相信在未來一兩年內,那些善于擁抱新技術的人會逐漸習慣這種新的工作方式,并從中獲得比傳統方法更好的效果。比如,在項目初期,就應該利用大模型來開拓思路、進行設計,而
176、不是僅僅把它當作一個生成報告的工具。很多人認為大模型存在幻覺,生成的內容不如人類可靠,但實際上,這種看法低估了大模型的作用。它不僅能在最后一步發揮作用,更能在項目前期的許多環節提供幫助。InfoQ:目前大模型領域競爭激烈,最后會不會只剩下幾家頭部模型廠商?對于普通用:目前大模型領域競爭激烈,最后會不會只剩下幾家頭部模型廠商?對于普通用戶而言,現在應該如何選擇和使用這些大模型?戶而言,現在應該如何選擇和使用這些大模型?柴云鵬柴云鵬:從互聯網多年的發展經驗來看,在熱門領域最終能夠存活下來的往往只有少數幾家頭部企業。即使中美市場完全割裂,各自也只會剩下少數幾家主導企業。在美國,像OpenAI、Goo
177、gle和Meta等公司已經比較明確地占據了領先地位。而在中國,目前市場還稍顯混亂,既有傳統大廠,也有新興的AI企業。但未來一到兩年內,市場很可能會迅未來一到兩年內,市場很可能會迅速整合,最終只剩下少數幾家主流廠商速整合,最終只剩下少數幾家主流廠商。2025年將是極為關鍵的一年,大家都在努力尋找合適的位置,爭奪生存空間。對于普通用戶而言,選擇大模型時可以參考口碑選擇大模型時可以參考口碑,因為切換成本并不高。無論是簡單的 69 AIAI前線前線|特刊特刊 對話功能還是API調用,學習成本都相對較低。因此,用戶完全可以根據自己的需求選擇體驗更好的模型。從大模型的競爭來看,雖然目前DeepSeek等模
178、型非常熱門,但新的模型不斷涌現,包括阿里等國內企業以及國外的競爭對手都在迅速跟進。實際上,這些模型之間的差異并不大。從宏觀角度看,一旦某個模型取得領先,其競爭對手也能很快追趕上來。盡管OpenAI曾經遙遙領先,但其他企業最終也能迎頭趕上。更重要的是,用戶需要培養使用大模型的習慣和思維方式,而不是糾結于具體使用哪個模型。在科研領域,我們也可以把大模型當作一個可插拔的組件,就像電池一樣,更關注的是如何利用這些模型完成其他任務,而不是糾結于如何選擇基礎模型。70 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 RAGRAG技術前沿:技術前沿:DeepSeekDeepSeek模
179、型的應用與模型的應用與突破突破 分享嘉賓:黃佳,新加坡科研局資深研究員 我知道大家和我一樣,都是以一種特別積極的心態沉浸在這個DeepSeek的學習世界中。實際上,DeepSeek在我們春節期間送給我們的這份“大禮包”,對我個人來說,就像是一下子把我拋回到了兩年前的那個夜晚2022年11月30號,ChatGPT誕生的那個夜晚。那時候,我充滿了興奮,感覺到了這個世界的不同,也感受到了大家對知識的渴望。所以,我非常急迫地想和大家分享我在這段時間里的心路歷程和總結,一起探索這一切。大家有沒有注意到一個重要的現象,就是在大模型時代,新的技術和創新出現的速度越來越快,而我們學習新東西的速度也在加快。為什
180、么會這樣呢?我們不妨想一想,為什么和大模型接觸久了之后,我們自己變得越來越聰明了?實際上,我們有一句古話,“近朱者赤,近墨者黑”。如果我們總是和更聰明的模型在一起探討、用更聰明的方法 71 AIAI前線前線|特刊特刊 去學習,那么我們的認知就能不斷升級,越來越快。這是我第一個想告訴大家的道理。所以,大家也可以把我看作是一個知識的“蒸餾者”,而這個“蒸餾”在今天是一個特別流行的詞匯。通過我對DeepSeek的學習、論文的閱讀和聽其他老師的分享,我形成了一些自己的想法,希望在這里和大家分享。在大模型時代,我們思考得越多,得到的也就越多。讓我們一起思考幾個問題。第一個問題是:為什么DeepSeek每
181、一步都做對了?這也是我一直在思考的一個問題。大家也許會奇怪,為什么DeepSeek團隊能一次次做對,仿佛他們開了天眼。其實,每一次嘗試都有可能失敗,尤其是在資源有限的情況下??ㄆ瑪盗烤湍敲炊?,要用這些資源去做方向探索。如果這個探索失敗了,會怎樣?你還能不能在這么短的時間里做出V3和r1?DeepSeek團隊就像是特斯拉,相對于愛迪生那種“一直試下去”,用蠻力排除萬難,試一萬種,一萬種不行再試一億種。而特斯拉一出手就準確。為什么能做到這一點?第二個問題是:DeepSeek給我們帶來了什么?我們每個人可能并不是大模型的訓練者,可能在工作中會用到大模型,也有可能并不涉及。那么,作為普通人,了解Dee
182、pSeek對我們到底有什么用呢?這個問題我也不好直接回答。我能說的是,我自己的一系列的思考,也許這些思考能給我們這些不是大模型訓練者或者微調者帶來一些啟示。另外,我還想和大家分享一個觀點:AI時代為每個人帶來了新的機會。當DeepSeek出現時,除了DeepSeek團隊的幾百個博士外,每個人都是在同一時間開始學習這個技術。我鼓勵大家多學習、多探索新事物,也許你會成為未來的專家和導師。這正是AI時代為我們每個人帶來的新機會。今天的分享目錄大致如下:為什么要學習DeepSeek?DeepSeek有哪些核心創新?DeepSeek為普通人(我們)帶來什么?為什么要學習RAG?RAG的前沿進展 Deep
183、Seek為RAG帶來了什么?72 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 為為什么要學習什么要學習DeekSeek 李繼剛老師在一次分享中提出了關于人與AI認知的“喬哈里窗”模型,將人和AI的認知分為四個象限。這個模型非常有啟發性,它將人腦中的“認知宇宙”與AI中的“認知宇宙”進行對比,指出兩者邏輯可能相同也可能不同,關鍵在于找到連接這兩個宇宙的“鑰匙”。具體來說:人知道且人知道且AI知道知道:在這個象限中,人和AI都對某個問題有清晰的認知,交流時無需過多提示,直接溝通即可。人知道但人知道但AI不知道不知道:此時需要通過詳細的提示和框架指導AI,這通常是大模型應
184、用開發中開發者需要做的工作,涉及提示工程和RAG。AI知道但人不知道知道但人不知道:需要通過提問AI來獲取知識。人和人和AI都不知道都不知道:這種情況下需要共同探索。隨著像DeepSeek和OpenAI的O3這樣強大的推理模型出現,AI的認知邊界發生了變化。AI知道的內容更多,使得與AI交流時,人們無需過多展開問題,交流變得更加簡單。這降低了提示工程和RAG的門檻,是大模型發展帶來的直接好處。然而,這種技術進步也引發了關于人類認知邊界變化的思考。如果大模型變得越來越強大,人類的認知邊界可能會有兩種走向:一種是依賴AI,導致認知范圍縮??;另一種是與AI共同進化,使認知邊 73 AIAI前線前線|
185、特刊特刊 界得到拓展。這種分化可能使未來只有20%的人選擇進化,而80%的人可能會退化。DeepSeek的出現為人們提供了強大的工具。從使用者角度看,DeepSeek的部署和調用相對簡單。其開源生態使得開發者可以快速構建RAG框架。例如,通過工具如Cursor,開發者可以一邊編碼一邊調試,大大縮短了開發時間。DeepSeek的文檔也非常詳盡,從DeepSeek LLM到DeepSeek Math,再到V3 R1,用戶可以通過研究其開源論文來深入了解。關于DeepSeek R1和V3的區別,R1版本通過將人類偏好融入訓練過程,進化為更安全、更有效、更可靠的人工智能助手。而V3版本對MoE框架進行
186、了創新,包含細粒度多數量的專業專家和更通用的共享專家。DeekSeek有哪些核心創新有哪些核心創新 DeepSeek的核心創新可以從其研究歷程和關鍵成果中得到清晰的體現。從2024年1月發布第一版論文開始,DeepSeek就展現出強烈的長期主義傾向,其目標是通過持續的研究和開發逐步攻克一系列技術難題。這種長期規劃和逐步推進的策略使得DeepSeek在短短一年內取得了顯著的進展,并最終在2025年1月完成其r1版本,實現了最初設定的目標。DeepSeek的創新主要體現在以下幾個方面。1.長期主義與開源理念長期主義與開源理念 DeepSeek從一開始就強調長期主義和開源。其第一篇論文DeepSee
187、k LLM:通過長期主義擴展開源語言模型明確了這一理念。與OpenAI的封閉開發模式不同,DeepSeek選擇開源其研究成果,讓其他研究者和開發者能夠直接利用其成果,避免重復勞動。這種開源策略不僅加速了技術的傳播,也為DeepSeek贏得了廣泛的社區支持和合作機會。2.混合專家語言模型(混合專家語言模型(MoE)DeepSeek在2024年5月發布了基于混合專家系統(MoE)的語言模型V2,這是其技術創新的重要一步。MoE架構通過將多個領域專家模型組合在一起,并通過門控網絡動態分配查詢請求,使得模型能夠更高效地處理多樣化的任務。這種架構不僅提升了模型的性能,還降低了資源消耗,使得DeepSee
188、k在硬件資源有限的情況下也能實現高性能表現。74 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 3.推理能力的強化推理能力的強化 DeepSeek的推理能力是其核心競爭力之一。從2024年2月開始,DeepSeek就專注于提升模型的推理能力,尤其是通過代碼和數學問題的訓練。代碼和數學問題的解決需要復雜的邏輯推理和逐步思考,這使得模型能夠學習到更深層次的思維模式。相比之下,普通的問答任務往往缺乏推理細節。DeepSeek通過這種方式訓練模型,使其在處理復雜問題時表現出色,其r1版本的推理能力甚至超過了V3版本。4.高性價比的軟硬件協同設計高性價比的軟硬件協同設計 在資源
189、有限的情況下,DeepSeek探索了高性價比的軟硬件協同設計。這意味著DeepSeek不僅在算法上進行了優化,還在硬件適配和資源管理上進行了創新。這種策略使得DeepSeek能夠在沒有像OpenAI那樣龐大硬件資源的情況下,依然能夠實現高效運行和快速迭代。5.持續的技術演進與生態建設持續的技術演進與生態建設 從2024年1月到2025年1月,DeepSeek通過一系列論文和版本迭代,逐步完善了其技術體系。每一步的研究成果都為后續的開發奠定了基礎,最終形成了一個強大的技術生態。75 AIAI前線前線|特刊特刊 例如,DeepSeek Coder在2024年初就已經展現出強大的代碼生成能力,比其他
190、同類工具提前了約9個月。這種前瞻性使得DeepSeek在技術競爭中占據了優勢。DeepSeek的技術成果并非一蹴而就,而是通過持續的研究和優化逐步積累而成。其r1版本的推出標志著DeepSeek在技術上的成熟,其背后是深厚的技術積淀和長期的規劃。這種長期主義和技術積累使得DeepSeek在AI領域脫穎而出,成為值得關注的研究方向。DeepSeek的開發始于對“規模法則”(Scaling Law)的研究。規模法則描述了模型大小、數據量和計算資源之間的關系,以及這些因素如何影響模型性能。DeepSeek團隊通過大量實驗,分析了不同參數配置下的模型能力,試圖回答“多大的模型能在特定數據集上達到何種性
191、能水平”這一問題。這一研究為DeepSeek模型的訓練提供了理論基礎,并指導其在代碼、數學和推理領域的優化。例如,DeepSeek在67B模型大小時,性能超過了LLAMA2的70B模型,尤其是在代碼和數學推理方面表現出色。代代碼智能的崛起碼智能的崛起 在數據組織和訓練方法方面,DeepSeek Coder引入了創新。它采用代碼倉庫的層級結構來組織訓練數據,幫助模型更好地理解文件之間的關聯關系。這種組織方式與傳統的基于簡單問答對的訓練方法不同,能夠為模型提供更豐富的上下文信息,從而增強其推理能力。此外,DeepSeek Coder還借鑒了BERT的填空式訓練方法,通過在代碼片段中“摳掉”部分內容
192、,讓模型預測缺失的部分,從而提升代碼生成的完整性和準確性。這種方法不僅基于前人的思路,還在此基礎上進行了創新。DeepSeekMath則專注于突破數學推理的極限,進一步強調了推理能力的重要性。它通過代碼預訓練來增強數學推理能力,體現了DeepSeek團隊對推理能力的重視。這一過程是逐步推進的:從代碼生成能力出發,進而增強數學推理能力,最終實現推理能力的提升。這一邏輯鏈條表明,代碼和數學推理之間存在緊密聯系,且這一方向是正確的。DeepSeekMath的最大貢獻在于其提出的GRPO(Generalized Reinforcement Policy Optimiza-tion)方法。GRPO是一種
193、強化學習方法,與OpenAI使用的PPO(Proximal Policy Optimiza-tion)不同。在GRPO中,沒有傳統的“value model”,但需要一個“reward model”來為模型提供獎勵信號,從而引導模型更新參數。這種方法與監督學習不同:監督學習通 76 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 過標準答案直接進行反向傳播更新模型參數,而強化學習則通過獎勵信號引導模型在環境中獲得長期回報。GRPO的提出為模型訓練提供了新的思路,盡管其細節與PPO有所不同,但它的核心在于通過獎勵機制而非固定的“標準答案”來調整模型行為。ChatGPT是從
194、Transformer架構逐步發展而來的,從基礎模型到最終的ChatGPT模型之間的關鍵步驟如下所述。首先,我們需要一個基于Transformer架構訓練的基礎模型。這個模型雖然功能強大,但還需要進一步優化以適應特定任務。因此,第一步是進行監督微調(Supervised Fine-Tuning,SFT)。SFT是通過人類標注的高質量數據對基礎模型進行微調,使其能夠更好地理解和生成符合人類期望的文本。這是從普通模型向高級對話模型轉變的第一步。接下來,為了進一步優化模型,OpenAI引入了獎勵模型(Reward Model,RM)。RM的作用是評估模型生成的答案質量,并為模型提供反饋。具體來說,O
195、penAI利用SFT模型生成一系列答案,并讓人類標注者對這些答案進行排序,從而訓練出一個能夠判斷答案優劣的RM。這個過程避免了直接生成標準答案的復雜性,而是通過相對簡單的排序任務來構建RM。RM在強化學習階段至關重要,無論是PPO還是GRPO,都需要一個能夠打分的獎勵模型來指導模型的訓練。RM不需要像基礎模型那樣龐大,它只需要能夠判斷生成內容的好壞即可。這種設計大大降低了訓練成本,并提高了模型的可擴展性。在強化學習階段,模型通過RM的打分來調整自身行為,逐漸優化生成內容的質量。PPO是一種常用的強化學習算法,它結合了RM和一個價值模型(Value Model)。價值模型的作用是估計在給定狀態下
196、采取某種行動的預期回報,它與RM一起幫助模型在強化學習環境中實現最大化回報。然而,價值模型的引入也帶來了問題。它需要與基礎模型類似的規模,這不僅耗費大量訓練資源,還可能導致策略更新過程的不穩定,從而影響訓練的穩定性。相比之下,GRPO放棄了價值模型,僅依賴RM進行打分和反饋。這種設計簡化了訓練過程,減少了資源消耗,并提高了訓練的穩定性。GRPO的核心在于通過RM的打分直接引導模型優化,而不是依賴復雜的價值模型來估計回報。77 AIAI前線前線|特刊特刊 OpenAI展示了從SFT、到RM、再到強化學習的三步訓練過程。這一過程為構建高性能的對話模型奠定了基礎。然而,GRPO的出現進一步優化了這一
197、過程,通過去除價值模型,GRPO在保持高效訓練的同時,避免了價值模型帶來的復雜性和不穩定性。為為何是強化學習?何是強化學習?為什么需要強化學習來訓練大模型?在實驗室中,我們經常搭建基于Transformer架構的模型,但這些模型的能力往往非常有限,無法像人類一樣進行推理和聊天。那么,從基礎模型到具備高級推理能力的模型,最關鍵的躍遷發生在哪個環節呢?答案是強化學習。強化學習提供了一種基于反饋驅動的方法,通過反饋讓大模型能夠自主地、自驅地進行目標驅動的優化。這就是為什么很多人說r1模型的訓練過程像是“左腳踩右腳”一樣不斷提升的原因。強化學習的核心在于:自我檢查與改進推理質量自我檢查與改進推理質量:
198、強化學習幫助模型更擅長自我檢查,并改進推理質量。人類思維中最重要的推理過程,很大程度上是在強化學習的最后一步中誕生的。優化長遠推理過程優化長遠推理過程:強化學習鼓勵模型學會從長遠角度優化推理過程。例如,人類在面對復雜問題時,往往需要逐步推理,而不是簡單地快速回答。大模型也需要學會這種“慢思考”,通過逐步推理來提高準確性和可靠性。思思維鏈維鏈與推理的重要性與推理的重要性 思維鏈(Chain of Thought)的論文提出了一個重要觀點:大模型需要一些機制來引導其進行更全面的思考。具體來說,需要更多的token和更多的推理時間。例如,當我們要求模型“一步一步思考”(think step by s
199、tep)時,模型的回答會變得更加準確。這是因為我們為模型提供了更多的“內存激活空間”,使其能夠更深入地處理問題。這與人類的思考方式類似。人類有兩種思考系統:快思考(自動化、直覺性)和慢思考(邏輯性、分析性)。對于復雜問題,如投資、戰略規劃或編寫代碼,我們需要慢思考來深度分析和推理。大模型也類似,思考時間越長,生成的答案往往越好。78 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 RAG與檢索質量的重要性與檢索質量的重要性 在RAG(Retrieval-Augmented Generation)框架中,檢索的質量決定了大模型生成內容的質量。通過RAG,我們為大模型提供了
200、更多的思考空間,從而提升其推理和生成能力。因此,檢索過程和上下文的質量至關重要。DeepSeek的創新與混合專家模型(的創新與混合專家模型(MoE)DeepSeek在2024年2月就意識到推理能力的重要性,并將其作為研究的核心方向。其成功的關鍵在于早期發現了推理的重要性,并在模型架構上進行了創新。在2024年1月,DeepSeek發表了一篇論文,提出了混合專家語言模型(MoE)的兩個重要思想:更細粒度的專家分割和共享專家的隔離。MoE架構的核心是將模型劃分為多個“專家”,每個專家負責處理特定的任務。這種架構早在1991年就已提出,但在深度學習時代得到了新的發展。DeepSeek MOE架構的核
201、心是將輸入的token通過一個路由器(Router)分配給多個專家網絡。這些專家網絡并不是單層結構,而是由多層組成,每一層都包含多個專家。例如,早期的Misture模型可能每層有7個專家,而DeepSeek MOE已經擴展到每層有200多個專家。這種架構通過稀疏激活機制,使得每個token只激活一小部分專家,而不是整個網絡,從而顯著降低了計算負擔。DeepSeek MOE的訓練機制與Transformer架構類似,通過不斷的訓練優化,模型能夠自動學習如何將不同的token分配給合適的專家。這種動態分配能力是通過門控網絡(Gating Network)實現的,它可以根據輸入token的特征,決定
202、哪些專家參與計算。這種設計不僅提高了計算效率,還增強了模型對不同輸入的適應性。DeepSeek MOE的兩個關鍵微創新包括:更細粒度的專家分割更細粒度的專家分割:通過更細致地劃分專家,模型能夠更精準地處理不同類型的輸入。共享專家的隔離共享專家的隔離:除了專業的專家網絡外,還設置了一批共享專家,類似于醫院中的全科醫生,用于處理通用知識。79 AIAI前線前線|特刊特刊 這種設計使得模型在處理多樣化任務時更加靈活。這些創新都建立在對Transformer架構深刻理解的基礎上。只有深刻理解了Transformer的基本結構,我們才能在此基礎上進行優化和創新。DeepSeek MOE結合了多種優化技術
203、,包括監督微調SFT和獎勵模型RM。這些技術最初由OpenAI提出,DeepSeek在此基礎上進行了整合和優化。例如,DeepSeek V2在2024年5月引入了對齊優化(Alignment Optimization),進一步提升了模型的性能。此外,DeepSeek還引入了多頭潛在注意力(MLA,Multi-head Latent Attention)機制,這是一種新的優化技術,旨在優化Transformer模型中的多頭注意力(MHA)結構,特別是在推理階段的效率和資源消耗方面。MLA(Multi-Head Latent Attention,多頭潛在注意力),多頭潛在注意力)MLA是一種技術,
204、旨在通過優化模型的推理效率和性能,同時保持較低的內存占用。具體來說,MLA利用KV Cache(鍵值緩存)來優化推理過程。它將KV Cache中的數據壓縮成低維的潛在向量,這些向量占用的資源較少。在需要時,系統會動態重構鍵值矩陣,從而減少內存占用,優化推理過程。這種技術特別適用于資源有限的場景,例如沒有大量GPU資源的公司或研究機構。MLA的核心價值在于,它能夠在資源受限的情況下,幫助完成與資源充足條件下相同水平的任務。相比之下,像OpenAI這樣的公司由于擁有大量計算資源,可能不需要這種優化技術。80 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 DeepSeek-
205、V3技術報告(技術報告(2024年年12月)月)DeepSeek-V3是一個大規模語言模型,其技術報告在2024年12月發布。該模型具有以下特點和創新。模型規模 DeepSeek-V3的模型規模為671億參數億參數,雖然不算最大的模型,但已經相當龐大。每個token激活時會涉及370億參數億參數,支持如此大規模的上下文,這表明模型在處理復雜任務時具有強大的能力。技術集成 DeepSeek-V3集成了多種先進技術,包括:MoE:通過多個專家網絡協同工作,提高模型的多樣性和效率。MLA:通過優化KV cache的使用,減少內存占用,提高推理效率。MTP(Multi-Token Prediction
206、,多,多token預測)預測):這是DeepSeek-V3提出的一個新概念。傳統的Transformer架構通常一次生成一個token(即next token prediction)。然而,DeepSeek-V3嘗試一次預測多個token,以提高推理效率。盡管業界主流尚未廣泛采用這種方法,但DeepSeek-V3在這一方向上進行了探索,并取得了一定的成果。高效的高效的FP8訓練訓練:為了在資源有限的情況下訓練大規模模型,DeepSeek-V3采用了高效的FP8訓練技術。傳統的訓練標準使用FP32(32位浮點數),每個參數占用32位。然而,FP32的訓練成本較高,尤其是在資源受限的情況下。Dee
207、pSeek-V3通過混合精度訓練框架,將部分參數壓縮到FP8(8位浮點數),甚至更低精度的FP16(16位浮點數)或int4(4位整數)。這種技術不僅降低了訓練成本,還提高了訓練效率,使得在資源有限的情況下也能訓練出高質量的模型。DeepSeek-R1:通過強化學習激勵大語言模型的推理能力:通過強化學習激勵大語言模型的推理能力 在2025年1月20日,DeepSeek團隊推出了極具影響力的 DeepSeek-R1模型。這一版本不僅在技術上取得了顯著突破,還引入了一系列新的關鍵詞,這些關鍵詞將在業界成為經 81 AIAI前線前線|特刊特刊 典。其中最重要的一個概念是純強化學習,即完全通過強化學習
208、訓練出的推理能力。純純強化學習的重要性強化學習的重要性 在傳統的模型訓練流程中,通常會經歷三個階段SFT-RM-PPO。DeepSeek-R1的初始版本DeepSeek-R1 Zero采用了不同的方法。從DeepSeek-V3到R1 Zero,團隊放棄了SFT階段,直接使用純強化學習來訓練模型。這一決策的關鍵在于,DeepSeek-V3已經通過之前的訓練達到了較高的水平,類似于一個“博士級”的模型。因此,團隊認為可以直接在這一基礎上,通過純強化學習進一步提升模型的推理能力,而無需再進行昂貴且耗時的監督微調。放棄SFT階段帶來的最大優勢是成本和資源的顯著降低成本和資源的顯著降低。SFT需要大量人
209、工標注的數據,這不僅耗時,還需要大量的人力和計算資源。而強化學習(尤其是純強化學習)則依賴于模型自身的探索和獎勵信號,資源需求相對較小。通過這種方式,DeepSeek-R1 Zero不僅節省了成本,還證明了在資源有限的情況下,依然可以訓練出高性能的推理模型。R1的誕生過程的誕生過程-左腳踩右腳左腳踩右腳 DeepSeek R1的開發過程中,一個關鍵的技術策略被稱為“左腳踩右腳”,即通過V3和 82 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 R1 Zero之間的相互訓練和優化,逐步提升模型的性能。這一過程體現了迭代優化的思想,具體步驟如下。1.V3模型的起點模型的起
210、點 DeepSeek團隊從一個已經訓練得非常好的基礎模型DeepSeek V3出發。V3模型本身已經具備了較高的性能,但由于其并非專門針對推理任務優化,因此需要進一步提升其推理能力。2.強化學習訓練強化學習訓練R1 Zero 基于V3模型,團隊嘗試了一種全新的訓練方式純強化學習,直接訓練出一個推理能力更強的模型R1 Zero。R1 Zero的訓練過程中沒有使用傳統的SFT,而是完全依賴強化學習來優化模型的推理能力。這種方法的優勢在于節省了大量的人力標注成本,同時能夠快速提升模型的推理性能。3.生成推理數據生成推理數據 通過R1 Zero模型,團隊生成了一系列高質量的推理數據,這些數據帶有特殊的
211、標簽,用于記錄模型的推理過程。這些數據不僅包含了推理的結果,還展示了模型在推理過程中的思考步驟,為后續的訓練提供了寶貴的資源。4.反饋優化反饋優化V3模型模型 利用R1 Zero生成的推理數據,返回來對DeepSeek V3進行進一步訓練。這一過程使得V3模型能夠吸收R1 Zero的推理能力,從而變得更強大。這種“你訓我,我訓你”的迭代優化方式,使得兩個模型在訓練過程中相互促進,逐步提升性能。5.解決解決R1 Zero的不足的不足 盡管R1 Zero在推理能力上表現出色,但它也存在一些問題,例如中英文混雜、推理格式不完美等。為了解決這些問題,團隊采用了SFT對齊的方式,將R1 Zero生成的數
212、據與人類的語言和思維方式對齊。這一過程包括以下幾個步驟:Consistent Format and Accuracy:確保生成的數據格式一致且準確。83 AIAI前線前線|特刊特刊 COT(Chain of Thought)數據)數據:利用帶有推理步驟的數據進一步優化模型。Knowledge數據數據:補充一些不需要推理的基礎知識,例如簡單的數學問題或常識性問題,確保模型在這些方面也能給出準確答案。經過上述步驟,團隊最終形成了DeepSeek R1。這一版本的模型不僅具備強大的推理能力,還能生成符合人類語言習慣和思維模式的輸出。通過這種“左腳踩右腳”的迭代優化方式,DeepSeek R1在性能上
213、超越了之前的版本,成為了一個具有里程碑意義的模型。蒸蒸餾餾 DeepSeek R1模型的規模達到了631億參數,這使得它難以在普通硬件上部署和使用。為了解決這一問題,DeepSeek團隊引入了模型蒸餾(模型蒸餾(Knowledge Distillation)技術。模型蒸餾是一種將大型復雜模型的知識遷移到小型模型中的方法,使得小型模型能夠在有限的資源下表現出接近大型模型的性能。DeepSeek團隊利用R1模型生成的高質量推理數據集,對其他開源模型(如LLaMA和千問)進行蒸餾訓練。這些數據集包括:COT(Chain of Thought)數據)數據:記錄模型推理過程的數據。84 DeepSeek
214、DeepSeek:AIAI賽道的超級引擎賽道的超級引擎 人類知識數據人類知識數據:包含常識和基礎問題的答案。通過這些數據,團隊對較小的模型(如32B、1.5B、8B和70B的LLaMA和千問模型)進行訓練,顯著提升了它們的性能。例如,經過蒸餾訓練后,千問32B模型的推理能力從50%提升到了70%以上,某些指標甚至達到了83分。這一提升證明了推理數據在模型蒸餾中的重要性。DeepSeek團隊進一步探索了純強化學習在模型蒸餾中的應用。他們發現,對于較小的模型(如32B的千問),直接應用純強化學習效果不佳。原因在于這些模型本身不具備足夠的推理能力,無法通過強化學習實現自我提升。這一過程為模型訓練和優
215、化提供了重要啟示。模型能力的門檻模型能力的門檻:純強化學習需要模型具備一定的基礎能力。對于能力較弱的模型,直接應用強化學習可能效果不佳,甚至可能導致模型性能退化。蒸餾的有效性蒸餾的有效性:高質量的推理數據對于提升模型性能至關重要。通過蒸餾,可以將大型模型的知識遷移到小型模型中,使得小型模型在資源受限的情況下也能表現出色。模型訓練的策略模型訓練的策略:對于能力較弱的模型,應先通過監督學習(如SFT)進行基礎能力 85 AIAI前線前線|特刊特刊 的訓練,然后再逐步引入強化學習進行優化。An aha Moment:模型的“靈光一閃”:模型的“靈光一閃”DeepSeek R1一個引人注目的現象是Ah
216、a Moment。這是一個在模型推理過程中出現的瞬間,模型突然“明白”了某些東西,并通過類似“Wait,wait Wait thats an aha moment I can flag here”的語句表達出來。這種現象讓人聯想到人類在解題過程中,經過多次嘗試后突然靈光一閃的時刻。盡管我們無法確定模型是否真的經歷了類似人類的“意識覺醒”,但這種現象無疑是推理能力的體現,也是大模型在復雜任務中表現出色的一個標志。DeepSeek R1的技術成就的技術成就 DeepSeek R1的開發是中國AI領域的一個重要里程碑。它由100多個博士組成的團隊合作完成,這些研究人員在資源有限的情況下,通過一系列創
217、新方法,開發出了與OpenAI的O1模型相媲美的推理能力。DeepSeek R1不僅達到了與O1相近的性能,還在某些方面超越了它。這一成就展示了中國在AI領域的強大實力,也證明了即使在資源有限的情況下,通過正確的技術路徑和創新方法,也能取得突破性進展。86 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 技技術路徑與關鍵詞術路徑與關鍵詞 DeepSeek R1的開發過程可以總結為以下三個關鍵點。純強化學習純強化學習 DeepSeek R1從V3模型出發,通過純強化學習訓練出R1 Zero,這一過程中沒有使用傳統的監督微調(SFT)。這種方法不僅節省了大量的人力標注成本,
218、還顯著提升了模型的推理能力。左腳踩右腳左腳踩右腳 DeepSeek團隊通過V3和R1 Zero之間的相互訓練和優化,逐步提升模型性能。具體來說,R1 Zero生成的高質量推理數據被用來進一步訓練V3模型,使其變得更強大。這種迭代優化的方式使得模型在推理能力上不斷提升。模型蒸餾模型蒸餾 DeepSeek R1不僅自身強大,還通過蒸餾技術將知識遷移到其他開源模型(如LLaMA和千問)中。通過高質量的推理數據和COT數據,這些小型模型的性能得到了顯著提升。DeepSeek R1的成功離不開OpenAI等先驅團隊的思想啟發。盡管OpenAI沒有開源其成果,但他們的技術理念:“不要教,而是激勵”(“不要
219、教,而是激勵”(Dont teach,incentivize)為DeepSeek團隊提供了重要的指導。這一理念的核心在于,當模型達到一定水平后,不應再通過大量的標注數據和監督學習去“教”模型如何思考,而是通過強化學習去“激勵”模型自主探索和發現解決問題的方法。OpenAI的研究員指出,AI研究者的工作是教機器如何思考,但一種不幸且常見的方法是,我們在用自己認為的思考方式去教機器,而忽略了機器在底層架構(如Transformer)中的真實思考方式。實際上,我們用有限的數學語言去教授那些我們自己都不完全理解的內容。這種思考方式不僅限制了模型的潛力,也忽略了模型自主學習的能力。DeepSeek R1
220、的開發過程中,團隊深受OpenAI這一理念的影響。在論文中,DeepSeek團 87 AIAI前線前線|特刊特刊 隊明確提到了“激勵推理能力”(Incentivizing Reasoning Capability in LLMs),并采用了強化學習的方法來提升模型的推理能力。這種方法不僅節省了大量的人力標注成本,還顯著提升了模型的性能。盡管OpenAI的理念為模型訓練提供了重要的指導,但DeepSeek團隊也意識到,并非所有模型都適合直接應用強化學習。對于能力較弱的模型,仍然需要通過監督學習進行基礎能力的訓練。只有當模型達到一定強度后,才能通過強化學習進一步提升其性能。DeepSeek給我們帶
221、來了哪些機遇給我們帶來了哪些機遇 DeepSeek的出現為我們帶來了諸多機遇和啟示,這些不僅局限于技術層面,更觸及到我們每個人的生活和學習。盡管我們可能并非DeepSeek的研究人員、人工智能博士或頂尖專家,但作為普通人,我們依然能從DeepSeek的發展中獲益良多。首先,DeepSeek為我們帶來了一場知識的盛宴。它激發了公眾對人工智能的興趣和討論,使得從大爺大媽到專業人士都在探討這一領域。它讓我們意識到,AI時代的學習至關重要。只有不斷學習新知識,我們才能緊跟時代的步伐,不被落下。因為在這個快速發展的時代,每年都有新的技術涌現,只有持續學習,我們才能有機會站在行業的前沿。DeepSeek還
222、帶來了一系列關鍵技術的突破和創新,如純強化學習、混合專家模型(MOE)、多頭潛在注意力(MLA)、多token預測(MTP)等。這些技術不僅推動了人工智能領域的發展,也為其他行業帶來了新的思路和方法。對于AI系統應用人員來說,DeepSeek提供了一個強大的工具,可以幫助他們進行更精細的系統設計。對于研究者而言,DeepSeek的開源性和詳細的訓練過程為他們提供了復現和進一步研究的基礎。他們可以嘗試自己訓練類似模型,探索新的技術和方法。對于企業來說,DeepSeek的出現意味著他們可以將這一先進的技術集成到自己的產品和服務中,提升產品的競爭力。例如,微信小程序等應用已經開始接入DeepSeek
223、,為企業帶來了新的發展機遇。同時,DeepSeek的輕量級部署和算力成本優化,使得企業能夠以更低的成本使用這一技術,從而降低了開發和運營成本。對于開發者而言,DeepSeek的出現為他們提供了新的學習和創新方向。他們可以通過學習和應用DeepSeek的技術,提升自己的技能水平,探索新的應用場景。此外,DeepSeek 88 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 的學習成本相對較低,使得更多的人能夠參與到這一領域的發展中來。DeepSeek不僅對專業人士和企業有重要意義,它也與我們每個人的生活息息相關。它的出現甚至影響了股市的估值,提升了中國科技公司的國際形象。
224、這讓我們看到了中國在人工智能領域的強大實力和潛力。DeepSeek的成功也激勵了我們,讓我們對自己的能力充滿信心。它告訴我們,只要我們有正確的方向、堅持和勇氣,就能夠在這個領域取得成功。DeepSeek的出現也讓我們意識到,AI的發展是一個不斷探索和創新的過程。雖然r1等模型已經取得了顯著的成果,但它們并非AI的終點。未來,我們還有更多的工作要做,更多的未知領域等待我們去探索。在我們最新的論文中,兩位杰出的創始人楊植麟和梁文鋒參與了研究工作,這些研究主要集中在注意力機制的探索上,目標是開發出更節省資源的注意力機制。為為什么要學習什么要學習RAG 隨著大語言模型的迅速發展,RAG成為了這一領域的
225、自然產物。大語言模型的強大能力引發了我們對其應用場景的思考,而RAG正是基于這種思考的產物。RAG的核心價值在于,它能夠使大語言模型的應用更加精準、更加貼近實際需求。在當今的工作環境中,89 AIAI前線前線|特刊特刊 RAG的應用幾乎無處不在,無論是企業內部知識庫、學術研究、法律領域、客戶支持,還是零售和電商政策等,RAG都能發揮重要作用,提高工作效率。目前,大語言模型的應用開發主要分為兩個范式:RAG和Agent。對于開發者來說,學習大語言模型的應用開發,要么專注于Agent,要么專注于RAG,或者兩者都學。這兩個范式代表了大語言模型應用開發的兩個主要方向。Agent范式側重于利用大語言模
226、型的邏輯推理能力,讓模型去思考、判斷,并優化工作流程。Agent的想象空間很大,但落地實現相對較為抽象,需要開發者發揮創造力來實現。RAG范式則側重于通過檢索增強的方式,彌補大語言模型在知識檢索和生成方面的短板,使其能夠回答原本不知道的問題。RAG從提示工程出發,逐漸發展出標準RAG、高級RAG和模塊化RAG,甚至可以進行協作式微調,以增強大語言模型的知識內化能力。RAG技術框架本身并不復雜,但流程其實相對直觀。簡單來說,RAG的流程從文檔導入開始,經過嵌入(embedding)和檢索(retrieval)兩個關鍵步驟,最終完成生成任務。然而,盡管流程本身并不復雜,但在實際操作中,RAG涉及的
227、細節和技術內核卻相當豐富,這也是為什么RAG上手容易,但優化卻很難。RAG的核心在于向量相似性向量相似性,即通過將文本轉換為向量形式,利用向量之間的相似性來 90 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 進行檢索。這一過程看似簡單,但其中包含了諸多技術細節。例如,如何實現混合檢索,即將傳統的BM25算法與向量檢索相結合;如何將圖數據庫嵌入到檢索流程中;以及如何對檢索結果進行預處理和后處理等。這些細節不僅影響檢索的效率,還決定了生成內容的質量。為了更好地理解和應用RAG,我們的課程可以將其流程拆解為幾個關鍵環節:數據導入與文本分塊(數據導入與文本分塊(Chunki
228、ng):將原始文檔分割成適合處理的小塊。嵌入(嵌入(Embedding):將文本塊轉換為向量形式,以便進行相似性檢索。檢索(檢索(Retrieval):通過向量相似性檢索相關文本塊。預處理(預處理(Pre-retrieval)與后處理()與后處理(Post-retrieval):對檢索結果進行優化,以提高生成內容的相關性和準確性。生成(生成(Generation):基于檢索到的信息生成最終的輸出。評估(評估(Evaluation):對生成結果進行評估,以確保其質量和相關性。每個環節都有其獨特的技術和技巧。例如,在嵌入環節,選擇合適的嵌入方法和模型至關重要;在檢索環節,優化檢索算法和參數可以顯著
229、提高效率;而在生成環節,如何利用檢索到的信息生成連貫、準確的內容則需要精心設計。91 AIAI前線前線|特刊特刊 RAG的前沿進展的前沿進展 RAG的前沿進展體現在多個方面。首先,Graph RAG的出現為RAG帶來了新的思路。通過結合知識圖譜,Graph RAG能夠更有效地進行embedding和社區構建。在這個框架中,節點通過知識圖譜被聚類成不同的簇,例如藍色、綠色和黃色的簇,這些簇代表了相關的知識。通過這種方式,Graph RAG能夠更精準地識別和整合相關資料,提升檢索和生成的效果。此外,RAG還在不斷拓展其功能模塊,包括Agenda RAG、Adaptive RAG和Correctiv
230、e RAG。這些模塊旨在讓RAG系統具備自我修正和自我優化的能力,從而實現更高效的檢索和更準確的生成。同時,Modular RAG的出現使得多模態RAG成為可能,進一步拓展了RAG的應用范圍和靈活性。DeepSeek為為RAG帶來了什么?帶來了什么?DeepSeek對RAG的貢獻是多方面的。首先,DeepSeek顯著降低了RAG的開發門檻,使得RAG流程中的每一個子任務都能更精細地執行。例如,在處理PDF文件時,DeepSeek優化了布局分析、文本分塊(chunking)和表格解析等環節,提升了RAG在處理復雜文檔時的效率和準確性。DeepSeek還通過提供一系列蒸餾模型,進一步簡化了RAG的
231、本地開發和部署過程。這些蒸餾模型不僅降低了資源需求,還提升了模型的推理能力,使得RAG的應用更加廣泛和高效。此外,DeepSeek在模型優化方面的進展也為RAG帶來了更好的上下文理解和推理能力,進一步提升了生成內容的質量。未未來展望來展望 隨著技術的不斷進步,RAG和DeepSeek的未來充滿無限可能。從感知智能到認知智能,從語言智能到具身智能,AI的發展正在不斷拓展其應用邊界。未來,我們可能會看到更多機器人和智能系統的出現,這些系統將具備更強的自主學習和決策能力。DeepSeek在資源有限的情況下,通過非凡的創造力和準確的判斷力,創造了令人矚目的成就。這不僅展示了中國在AI領域的強大實力,也
232、為全球AI的發展提供了寶貴的經驗和 92 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 啟示。未來,我們有理由相信,DeepSeek和RAG將繼續引領AI技術的發展,為人類帶來更多的可能性。93 AIAI前線前線|特刊特刊 DeepSeekDeepSeek如何重塑如何重塑AIAI商業化格局?商業化格局?作者:黎科峰 本文整理自InfoQ策劃的DeepSeek系列直播第七期節目。在直播中,極客邦科技創始人&CEO霍太穩對話數勢科技創始人兼CEO黎科峰博士,深入探討了回歸技術本身,DeepSeek到底做對了什么,數勢科技在企業經營分析層面如何與DeepSeek結合,對于大
233、數據領域有哪些革新,以及在這背后,商業化層面有哪些值得關注的事情。黎科峰博士認為DeepSeek之所以能跑贏大模型“六小龍”和技術大廠達到“國運級”的一個技術熱度,主要原因有三點:第一,成本的降低;第二,提出了思維鏈;第三,開源的技術路線。當然,這并不意味著其它企業不掌握這些策略和技術,而是因為“尾大不掉”,在大廠中提出創新想法遇到的阻力會更大,導致喪失一些機會。對于DeepSeek來說,由于體量小、架構更扁平、決策更靈活,因此沒有負擔。94 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 DeepSeek爆火之后,AI Agent市場將迎來大規模爆發,未來DeepSe
234、ek相當于安卓系統,而Agent是上面的系統應用,將面向不同的業務場景百花齊放。聚焦在數據場景價值,數勢科技認為AI Agent將工具型應用向決策型應用跨越。下文為直播部分內容精選,完整直播回放下文為直播部分內容精選,完整直播回放&最新直播預約可關注“最新直播預約可關注“AI前線視頻號”查看。前線視頻號”查看。InfoQ:作為一個公司的創始人和:作為一個公司的創始人和CEO,數勢科技有沒有和,數勢科技有沒有和DeepSeek做一些相關的事情?做一些相關的事情?有沒有帶來一些真正的商業回報?有沒有帶來一些真正的商業回報?黎科峰黎科峰:現在在大家的圈子里面,似乎不提全面接入DeepSeek,連朋友
235、圈都沒法發。但對數勢來說,我們在創業初期就定位在“Data+AI”領域,因此也是行業內第一家全面接入并上線應用到客戶層面的企業。春節期間,我們的很多小伙伴都沒有休息,第一時間推出了商業化版本的DeepSeek解決方案,并在節后迅速將其應用到客戶的生產環境中,整個過程非常迅速。當然,這也離不開客戶的積極配合。我們原本就支持各種類型的國內外大模型基座,但隨著R1的推出,其在各方面的效果和部署成本上都表現出色??蛻粼诳紤]成本因素的同時,也看到了R1的CoT推理能力對企業端分析能力的顯著提升,這讓我們的產品如虎添翼,客戶也切實感受到了產品的升級。InfoQ:有沒有哪個用戶的:有沒有哪個用戶的真實反饋讓
236、你覺得,哇!真實反饋讓你覺得,哇!DeepSeek對于數勢科技的產品來說,對于數勢科技的產品來說,就像天上掉下來的大富貴,是一個巨大的驚喜?就像天上掉下來的大富貴,是一個巨大的驚喜?黎科峰黎科峰:我覺得這種感受其實有不少客戶都有。說實話,對于數勢科技來說,我們在數據分析、智能分析、AI Agent領域并不是唯一一家。其實很多擁有基礎大模型的大型機構也在做類似的事情。不過,他們的做法通常是基于基座大模型進行Fine-Tuning,然后做上下一體化的適配,而我們則是直接擁抱最先進的技術大模型。第一點是速度的優勢。我們過往的響應速度非???,客戶使用起來也很便捷。第二點是成本的優勢,客戶部署DeepS
237、eek時,不需要額外的成本。因此,客戶對我們快速擁抱新技術的判斷力反饋非常好,認為我們第一時間抓住了大家都在積極投入的基座大模型,匹配速度很快,而不是先適配其他基礎大模型再遷移到DeepSeek??蛻暨€特別提到,他們對比了我們老版和新版的產品體驗,發現整體提升非常顯著,簡 95 AIAI前線前線|特刊特刊 直是一個“Aha moment”。他們驚訝地發現,不僅在DeepSeek APP上可以體驗到這些強大的功能,在他們企業內部與業務和數據相關的場景中,也能獲得完全一致的體驗。這同樣給他們帶來了驚喜。InfoQ:從:從DeepSeek技技術本身來看,它為什么會達到“國運級”的一個技術熱度?為什術
238、本身來看,它為什么會達到“國運級”的一個技術熱度?為什么脫穎而出的不是備受矚目的大模型“六小龍”而是么脫穎而出的不是備受矚目的大模型“六小龍”而是DeepSeek?黎科峰黎科峰:春節期間,我在國外遇到出租車司機都在使用DeepSeek,他們還和我聊起這個話題,贊嘆道:“哇,這個東西太牛了,中國人真棒!”在國內,連餐館的服務員都裝了DeepSeek,甚至我回國后發現,我家的一些老人也裝了,他們甚至不知道DeepSeek怎么用中文發音。所以,這不僅僅是技術人的追捧,已經引起了國內外“普通人”的廣泛討論,已經破圈了。但回歸到技術本身,DeepSeek到底做對了什么?我認為最重要的有三點。第一是成本的
239、第一是成本的降低。降低。它通過Mixture of Experts(MoE)、Multi-Head Latent Attention(MLA),以及底層的Reinforcement Learning(RL)方式,不再使用Supervised Fine-Tuning(SFT),甚至繞過了一些CUDA,采用PTX匯編來提升能力。從算法層面到工程層面,DeepSeek都極大地降低了訓練和推理的成本,可以說是降低1/10甚至更多。第二點是提出了思維鏈(第二點是提出了思維鏈(Chain of Thought,COT)。過去我們使用大模型時,只是給它一個問題,它給出一個答案,但這個答案是否可信呢?就像我們
240、聊天一樣,你得把你的想法告訴我,你的答案才可信。DeepSeek把這種思維鏈透明化了,拉近了與人的信任感。人們更容易接受這樣的答案,即使有問題,也知道問題出在哪里。下次輸入時,可以調整步驟,讓答案更準確。思維鏈是一個非常大的突破,它非常擬人化。第三點是第三點是DeepSeek是開源的是開源的。我自己以前也做過很多開源項目,也貢獻過一些開源內容。在開源圈子里,一般認為開源的性能能達到閉源的80%,閉源就沒前途了。但DeepSeek開源后,在很多項目中表現得比全世界最好的閉源產品還要出色。這實現了AI平權,讓每個人都能低成本地構建優秀的AI大模型,而不再依賴于10萬張顯卡以上的算力,也不再局限于某
241、些國家。DeepSeek為全世界帶來了平等、低成本的AI構建方式,其意義非常重大。96 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 InfoQ:為什么大模型“六小龍”或者百度、阿里、騰訊這些大廠沒嘗試過這一思路?:為什么大模型“六小龍”或者百度、阿里、騰訊這些大廠沒嘗試過這一思路?這看起來似乎并不是一個復雜的事情。這看起來似乎并不是一個復雜的事情。黎科峰黎科峰:我自己也是從大廠出來創業的,所以對這個問題感觸很深。我覺得在每一波技術浪潮來臨時,往往是一些年輕且富有創新精神的公司能夠率先突破,這可能是因為慣因為慣性思維起到了關鍵作用性思維起到了關鍵作用。無論團隊有多大,
242、如果思維被過去的慣性束縛,就會覺得“就應該這樣做”,比如只能沿著OpenAI的路徑去相信Scaling law。這種思維模式很難轉變,大家可能都認為這是唯一正確的道路。其實DeepSeek的成功并不是因為它的團隊有多聰明,或者資源有多豐富,而是因為它找到了另一條路徑。這種突破恰恰是年輕創新團隊才有的勇氣,而且團隊要足夠小,因為團隊要足夠小,因為“尾大不掉”“尾大不掉”,小團隊試錯負擔小,所以更容易去嘗試。DeepSeek并不是一開始就有清晰的規劃,而是在解決問題的過程中逐漸發現方向。就像剛才提到的思維鏈,DeepSeek最初也沒有想到它會如此出色,但他們在訓練過程中加入了一個目標“think”
243、。原本只有“answer”,現在加上“think”,讓模型去思考,而不管它具體想什么。沒想到在大量訓練后,尤其是在R1版本之后,思維鏈的block產生了許多化學反應。這條路徑其實別人也能想到,但在大廠里提出這樣創新的想法,阻力會非常大在大廠里提出這樣創新的想法,阻力會非常大,因為總會有人質疑其中可能存在的問題。而對于創業公司來說,決策更靈活。他們沒有負擔,組織架構也更扁平化,團隊可以自主申請資源去嘗試。DeepSeek一定經歷過很多失敗,而成功只是很多失敗中的一個。但在大廠里,大家往往過于注重安全性、合理性,反而會喪失一些機會。InfoQ:剛才也提到:剛才也提到DeepSeek成功的一個因素是
244、開源。成功的一個因素是開源。2月月14日百度來了個日百度來了個180度大轉彎度大轉彎宣布下一代文心大模型將開源,對此你怎么看?宣布下一代文心大模型將開源,對此你怎么看?黎科峰黎科峰:我覺得在不同時間有不同的說法是合理的。因為DeepSeek本身就是整個行業中的一個“黑天鵝”事件。在之前大家討論的“六小龍”時,DeepSeek并沒有被提及。所以,現在用事后諸葛亮的眼光去評判過去的事情,我覺得會有很多“打臉”的時刻,這是很正常的。我確實也要替李彥宏說一句,在那個時間段,大家確實都沒有這樣的想法,可能99%的人都認為:第一,開源沒什么太大的商業價值;第二,只有大廠才能玩得起 97 AIAI前線前線|
245、特刊特刊 大模型。這在當時是一種正常的共識。DeepSeek的創新是反共識的,的創新是反共識的,正是因為像DeepSeek這樣的團隊打破了這種共識,它才顯得如此優秀。所以,用過去的共識去嘲諷現在的創新,我覺得是不公平的用過去的共識去嘲諷現在的創新,我覺得是不公平的。往后看,現在大家在討論DeepSeek會不會像移動時代的安卓和iOS那樣并存。DeepSeek是開源的,可能類似于安卓的地位,很多手機廠商和家電設備廠商都基于安卓開發各種移動產品。而iOS是閉源的,也有大量擁護者,比如蘋果用戶會同時使用Mac、iPhone等產品。我個人認為開源和閉源未來還是會并存的開源和閉源未來還是會并存的,各有優
246、勢。開源的優勢在于生態,更多人參與貢獻,會在很多領域百花齊放。而閉源的優勢在于軟硬件一體化設計,在某些場景的產品體驗上,可能比分層設計、由不同廠商設計的產品更有優勢。就像iPhone,它的硬件配置可能無法與國內安卓主流旗艦機相比,安卓已經到16G內存,而iPhone還在8G,但它的體驗并不落后。InfoQ:開源和商業化似乎存在一定的矛盾。一方面,企業投入了大量的資源去做研:開源和商業化似乎存在一定的矛盾。一方面,企業投入了大量的資源去做研究,究,取得了成果,但開源意味著要讓很多人免費使用,這可能無意中培養了所謂的競爭對手。取得了成果,但開源意味著要讓很多人免費使用,這可能無意中培養了所謂的競爭
247、對手。所以開源未來是否會成為商業化的主流趨勢?或者在商業化過程中,我們該如何平衡開所以開源未來是否會成為商業化的主流趨勢?或者在商業化過程中,我們該如何平衡開源和商業化的關系?源和商業化的關系?黎科峰黎科峰:我其實覺得,很多人提到DeepSeek時,會因為它母公司做量化而認為其有現金流支撐,它的技術也能反哺主業。所以,DeepSeek是一個獨特現象。很難想象一家創業公司一開始就做開源,還不去融資。因此,DeepSeek的成功既有必然性也有偶然性,它的成功既有必然性也有偶然性,它的可復制性門檻很高,不是一個普遍現象的可復制性門檻很高,不是一個普遍現象。比如在前幾年,如果創業者對投資人說要做一個開
248、源項目,投資人可能馬上會問:你怎么商業化?怎么閉環?一旦陷入這種短期的商業化思維,就很難做出優秀的產品。在中國市場,其實也有一些優秀的開源項目,比如百度內部孵化并開源的數據庫Doris接受度很高。但這些項目其實都沒有很好地回答商業化的問題。雖然在圈子里大家覺得中國很多開源項目都不錯,但真正實現大規模商業化,比如達到1億用戶以上的,還屈指可數。DeepSeek的出現讓我們發現了一個重要現象:在中國,我們過去更多是跟隨式地談商業 98 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 化,而現在,我們也需要有理想的人真正去實現技術創新和底層技術突破。這可能會讓投資邏輯發生一些
249、變化?,F在,很多基金也開始關注這一領域,包括DeepSeek傳出可能引入外部資本的消息,雖然尚未確認。當你真正有能力做出舉世矚目的行業領先創新時,當你真正有能力做出舉世矚目的行業領先創新時,我認為在很長一段時間內其實不需要考慮商業化我認為在很長一段時間內其實不需要考慮商業化,因為這對人類、對中國來說太重要了。我相信有很多投資人是有情懷的,會支持這樣的項目。在短期內,如果一個團隊急于給出一個商業閉環的答案,我認為它可能會失去一些初衷。我反而鼓勵真正有耐心的資本,比如國家資本或長期資本,去孵化和培育這些項目,不考慮短期商業化,而是專注于實現技術的巨大突破。InfoQ:現在如果想基于:現在如果想基于
250、開源去做創業,有沒有一些關鍵的方法或策略,能讓他們快速開源去做創業,有沒有一些關鍵的方法或策略,能讓他們快速形成有影響力的產品,或者打造出更好的品牌,甚至獲得投資人的認可?形成有影響力的產品,或者打造出更好的品牌,甚至獲得投資人的認可?黎科峰黎科峰:我覺得真正能做偉大事情的可能只有兩類人。第一類是像馬斯克這樣,自己有一桶金,或者像梁文鋒這樣,愿意為了自己的理想去投入。他們不需要看投資人臉色,也不需要做太多妥協。第二類則是那些有幸遇到專注于這類企業的投資機構的人。我認為未來投資界也會在這方面有所區分,DeepSeek就是一個很好的例子。它讓我們反思,我們過去對創業公司的要求是否合理。對于消費賽道
251、的公司,確實需要關注快速的利潤指標,因為利潤和營收的ROI是它們的核心競爭力。但技術創新公司的核心能力是什么技術創新公司的核心能力是什么?我認為,投資和資本市場在評估一家公司時,不能只看財務指標,而應該關注它能改變多少、它的領先性以及它未來可能對應該關注它能改變多少、它的領先性以及它未來可能對行業產生的影響力。行業產生的影響力。這些才是關鍵指標。作為一家創業公司,首先要清晰定位自己在做什么作為一家創業公司,首先要清晰定位自己在做什么。你是要做快速商業化的、以效率取勝的創業,還是追求商業化落地、規?;l展,亦或是專注于原創性、基礎性的技術投資?在中國,過去這個賽道一直很復雜,大家總是把其他賽道的
252、要求搬到這個賽道上。這導致很多企業很難發展,比如一堆科學家的企業,卻要求他們天天賺錢,這其實是很難的。我認為,未來這個賽道會越來越寬廣,會有更多理解這類創業的資本和創業者加入。他們會明確在這個賽道中,企業的核心競爭力是什么。我相信在中國也會像美國一樣,出現像華爾街那樣對一家企業持續投資十年、二十年,最終做出改變世界的事情。99 AIAI前線前線|特刊特刊 第二點是創業者要有明確的目標創業者要有明確的目標。如果做技術創業,從一開始就不要缺乏野心。你的目標不夠高、不夠遠大,就很難激勵投資人和團隊,也不會有更大的進步空間。就像DeepSeek一開始的目標就是要做AGI,要做突破、超越美國,這才吸引了
253、大量人才。第三點是企業文化的構建企業文化的構建。從DeepSeek來看,梁文鋒強調團隊成員要有熱愛和好奇心,他傾向于招聘剛畢業的博士生和碩士生,而不是只依賴有經驗的人。這并不是說有經驗的人不重要,而是因為團隊文化對于技術創新至關重要。不需要一群因循守舊、只會跟隨、沒有勇氣創新的人。如果創始人本身對新事物、新技術不感興趣,不相信未來需要去挑戰,只盯著眼前的收益,那么這樣的企業很難成功。所以,如果要給創業者建議,我覺得就是這三點:定義好賽道,明確目標,構建積極向定義好賽道,明確目標,構建積極向上的團隊文化上的團隊文化。InfoQ:你把數勢科技定位成是一個什么樣的公司?:你把數勢科技定位成是一個什么
254、樣的公司?黎科峰黎科峰:這其實跟我自己的背景有關。我一直專注于應用創新。博士畢業后,我在韓國三星工作,當時是利用安卓系統開發Galaxy手機。我是第一代Galaxy手機操作系統開發團隊的一員,雖然我沒有發明安卓,但我利用它做出了全球最好的手機?;貒?,在百度,我也是移動云領域的早期參與者,打造了大量基于移動化和云計算的產品。后來,在平安和京東,我更多地專注于應用落地,但始終秉持的理念是:選擇最先進的技術作選擇最先進的技術作為“武器”,用它去贏得更多勝利為“武器”,用它去贏得更多勝利。對于數勢科技來說,也是如此。我們會擁抱最先進的模型,但我們的目標是將這些模型將這些模型與我們的核心行業與我們的核
255、心行業金融、零售、消費和高端制造金融、零售、消費和高端制造,探索它們如何在數據分析和業務分析的場景中發揮作用。我們希望通過DeepSeek實現一個宏大的目標:技術平權,實現數據普惠化,數據普惠化,讓不懂技術的人也能輕松分析數據,用數據做智能決策讓不懂技術的人也能輕松分析數據,用數據做智能決策。DeepSeek的出現確實讓我們看到了實現這一目標的可能性。我們不會像DeepSeek那樣沒有明確的商業化目標,但我們清楚這是一個長期事業。我們需要更多客戶參與進來,才能持續迭代我們的產品。目前,我們在幾個核心賽道的市場占有率已經很高,這正是因為我們有大量客戶在使用我們的產品,從而形成了產品迭代的飛輪,讓
256、產品越來越好,形成了正向的發展趨勢。100 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 InfoQ:基于:基于DeepSeek,它到底能給我們帶來哪些商業化的機遇?,F在很多企業都在基,它到底能給我們帶來哪些商業化的機遇?,F在很多企業都在基于于DeepSeek構建自己的生態,包括上下游都在進行適配。那么數勢科技在這方面會做些構建自己的生態,包括上下游都在進行適配。那么數勢科技在這方面會做些什么動作?什么動作?黎科峰黎科峰:我覺得可以從幾個方面來看。首先是硬件生態硬件生態?,F在國內芯片廠商特別開心,因為DeepSeek的出現讓他們發現,不需要那么高的硬件性能也能支持這一
257、技術。DeepSeek的推出對中國算力行業來說是一次狂歡,因為此前其他大參數模型對硬件的要求過高,而國內GPU與A100、H800等仍有差距。DeepSeek降低了硬件門檻,使得國內現有硬件足以支持,這是一層硬件生態的變化。第二層是云服務云服務。由于硬件性能不足,企業需要將DeepSeek上云??梢钥吹?,無論是創業型公司還是騰訊云、阿里云、百度云、華為云等大廠云服務都在積極支持DeepSeek,將其集成到自身服務中。云廠商接入DeepSeek后,流量迅速增加,不得不持續擴容。而這對創業公司DeepSeek來說流量巨大,超出了他們的預期和承載能力,大部分時間處于不可用狀態,云廠商因此成為第二波受
258、益者。第三層是應用端應用端,尤其是AI Agent。AI Agent在移動互聯網時代相當于APP,而iOS和安卓分別對應現在的閉源(如OpenAI)和開源(如DeepSeek、千問)兩種模式。這三層發展都非常迅速。AI Agent開發者則發現,他們只需關注DeepSeek,無需適配多個大模型,大大減輕了工作量。過去,開發者需要在模型上做大量補丁和優化,而現在只需關注業務邏輯、AI Agent設計、多Agent架構,以及如何結合私有數據和知識庫。這將是一波巨大的收益。目前,客戶在低成本獲取DeepSeek后,將目光轉向應用開發。我認為,芯片廠商和云廠商的狂歡只是開始,接下來將迎來一個持續十年的周
259、期迎來一個持續十年的周期AI Agent時代時代。就像移動互聯網出現后,才有了微信、抖音、滴滴、美團等應用的興起,我相信這只是AI發展的開端。當DeepSeek的問題得到解決后,會有大量C端和B端的優秀AI Agent產品涌現,真正實現AI走進每個人的生活。InfoQ:您覺得在商業化:您覺得在商業化落地方面,哪些業務場景最有商業價值?落地方面,哪些業務場景最有商業價值?黎科峰黎科峰:十幾年前移動互聯網剛興起的時候。當時在3W咖啡、車庫,甚至圖書館那邊,101 AIAI前線前線|特刊特刊 大家都在討論“我要做什么才能成功”,大家都在考慮DAU能達到多少。這跟這個問題很像DeepSeek這么火,我
260、們做什么才能成功呢?但從今年回過頭來看,移動互聯網時代真正贏的是誰?其實并不是那些沒有專業能力、沒有行業know-how的人。真正贏的是那些已經在行業內扎根的人。真正贏的是那些已經在行業內扎根的人。比如京東,劉強東原本就是做賣貨的,他享受了移動互聯網的紅利,成就了京東。微信也是如此,它原本就是做社交的,利用移動互聯網的能力,發展出了微信。美團和做內容的公司也是如此。核心在于,我們不需要去關注“我們做什么”,而應該關注“你的深耕業務我們不需要去關注“我們做什么”,而應該關注“你的深耕業務+DeepSeek”。你要清楚自己擅長什么,能解決什么問題,團隊有什么獨特基因,然后換一個武器DeepSeek
261、來實現它。所以,無論是B端還是C端,所有業務的產品形態都可能被重構,但你的行業領域知識、行業Know-how和行業壁壘會越發重要。過去是“互聯網+”,因為互聯網的成本很高,只有互聯網企業才能做大數據和AI。但現在,AI的成本如此之低,連小朋友都會用DeepSeek,我家孩子寫作業都用得很熟練,prompt寫得特別好。當成本不再是問題時,是你自己的領域知識變得重要了。所以,不要輕易跨界去做不熟悉的領域不要輕易跨界去做不熟悉的領域。未來一定是教育AI、醫療AI、金融AI、財務AI、差旅AI、法律AI關鍵是你先要懂這個行業,再結合DeepSeek。我覺得每個行業都有機會,因為中國市場足夠大。只要你在
262、自己的領域第一時間擁抱大模型,一定會有很大的發展空間。而不是看到別人的機會好,就想去變成那樣,因為很難賺到認知之外的錢很難賺到認知之外的錢。創業不應該盲目追逐熱點,而應該聚焦于自己的核心領域:我們的服務客戶痛點是什么?我們的壁壘在哪里?其實,像我們這種心態很容易變化,看到DeepSeek的成功,就難免會想“為什么不是我們”。但我自己從不這樣想,因為我清楚自己擅長什么。我在數據領域深耕多年,對金融、零售和消費行業非常了解,也曾在頭部企業工作過。我清楚這些行業的痛點,知道如何解決這些問題,而這個市場已經足夠大。我們每天都在思考如何利用大模型結合數據分析和業務分析,讓企業里99%的非技術人員能夠零成
263、本地接觸復雜數據,分析業務,實現數據驅動業務增長的目標。我認為其他創業者也應該這樣想,專注于自己真正擅長和熟悉的領域。102 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 InfoQ:現在各:現在各個大廠都在爭相接入個大廠都在爭相接入DeepSeek,這是在蹭熱度,還是有其他考量?,這是在蹭熱度,還是有其他考量?黎科峰黎科峰:不可否認,很多企業有“害怕錯過”的心態,擔心被時代拋棄,這是人之常情。就像人們常說的,大家都在努力跟上時代的步伐?,F在有很多企業聲稱接入了現在有很多企業聲稱接入了DeepSeek,但如果仔細看代碼,就會發現真正接入的并不多。但如果仔細看代碼,就會
264、發現真正接入的并不多。因為從技術角度看,要從原來的產品模式轉變為接入DeepSeek的模式,需要做大量的工作。所以,真正實現產品化接入的企業其實很少,很多只是停留在公關層面。企業為什么要做這種事呢?一方面,是因為害怕不在聚光燈下。我相信大廠一定會有這種擔憂。如果你不做,就像過去安卓出現后,你還堅持只用自己的操作系統一樣,可能會被市場拋棄。另一方面,DeepSeek確實帶來了新的流量。無論是云服務還是C端產品,接入DeepSeek后,流量都在增長。比如微信這樣的運營公司,如果沒有這種敏銳度,那就是失職。所以,企業接入DeepSeek是一種正常的選擇。第三個方面,其實更多是企業內部的思考。當有了D
265、eepSeek,企業自己的大模型該怎么辦?這才是一個靈魂拷問。前面提到的接入,無論是出于情緒表達還是流量考慮,其實都相對容易判斷和執行。因為大模型團隊和產品團隊通常是分開的,有了這么好的流量機會,產品團隊當然希望利用起來。但最關鍵的問題是,當有了但最關鍵的問題是,當有了DeepSeek,企業自己的,企業自己的大模型該如何定位?大模型該如何定位?我相信現在大廠內部最糾結的就是這個問題,大模型團隊的壓力也非常大。高層也在思考,是否還要繼續投入大模型,但目前還沒有看到明確的結論。InfoQ:現在大家對:現在大家對AI Agent都非常關注,但目前基本還停留在都非常關注,但目前基本還停留在AIGC階段
266、。從這個角度來階段。從這個角度來看,有了看,有了DeepSeek的加持,的加持,AI Agent市場是否會迎來很大的爆發,背后的邏輯是什么呢?市場是否會迎來很大的爆發,背后的邏輯是什么呢?黎科峰:首先,是能力的階躍黎科峰:首先,是能力的階躍。以前,大模型的能力不足,需要打很多補丁來彌補。但很可能半年后,這些補丁的90%都會被新的模型升級所覆蓋。這意味著我們為大模型能力打補丁的成本其實是極其浪費的。所以,有了DeepSeek之后,我們會更少地去為大模型的能力打補丁。其次,當大模型的成本降低成本降低后,會有更多人去部署大模型更多人去部署大模型,甚至在手機上也可以安裝。103 AIAI前線前線|特刊
267、特刊 比如,現在的iPhone 16 Pro Max完全可以運行一個1.5B參數的模型。所以,端側的大模型部署會越來越普遍。成本降低不僅意味著客戶可以部署,消費端的設備也可以運行。這為應用的開發提供了空間,因為有了可以運行的平臺。第三,DeepSeek的市場占有率正在提高的市場占有率正在提高。以前我們需要適配20多個大模型,但現在可能只需要專注于一個主流模型。就像過去有Windows Mobile、諾基亞的Meego,還有國內手機廠商的OS,開發者為了適配這些系統非常痛苦。而現在,當一個模型占據主流時,應用端的適配就會變得簡單。中國從來都不缺應用端的場景、數據和愿意擁抱新應用的用戶。這是中國在
268、PC時代和移動互聯網時代的傳統優勢?,F在,美國App Store前十名中有五個是中國APP。當基礎層的問題被解決后,按照中國創新的土壤和優勢,應用端的爆發是必然的,而且已經在發生。我身邊有很多人利用大模型在自己的領域進行創新。比如,我認識幾個律師,他們一直想結合AI,但過去AI的能力不足。最近他們利用DeepSeek,結合自己積累的法律文檔、案例庫,開發出了滿足需求的產品。這就是一個很典型的例子。大家都在積極探索和擁抱新技術,按照這個規律,應用端的爆發是必然的。InfoQ:所以,:所以,DeepSeek的出現對整個中國的創投環境,你覺得會帶來什么樣的變化?的出現對整個中國的創投環境,你覺得會帶
269、來什么樣的變化?黎科峰黎科峰:我們確實身處行業前沿,就像“春江水暖鴨先知”。我們在三個方面都有深刻感受。首先,客戶首先,客戶需求正在迅速崛起需求正在迅速崛起?,F在,幾乎所有金融企業的董事長都在積極推動DeepSeek的落地。當教育成本如此之低,且大家已經達成共識并朝著同一個方向努力時,商業化的空間無疑是巨大的。市場正在爆發,需求也在爆發,因為大家都在積極建設并推動落地。對我們這樣的創業公司來說,有需求就意味著有機會。投資人也會關注這種信號,判斷需求端是否真的爆發。如果只有資金端的活躍而需求端沒有變化,那么這種熱度可能是短暫的。所以在談投資之前,我更關注市場需求端的變化?,F在,需求端的投入正在普
270、遍增長,且范圍越來越廣。預算不再只是投向硬件,比如購買顯卡,而是更多地投入到有價值的落地場景中。不僅是頭部客戶,腰部甚至更廣泛的客戶群體也開始使用相關技術,市場的深度和廣度都在擴大。104 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 第二點,投資人也在做出判斷第二點,投資人也在做出判斷。他們并不是因為一個概念就盲目跟風,而是基于對未來趨勢的判斷,他們相信未來將是AI Agent的時代,會出現AI Agent時代的抖音、微信、美團等巨頭。所以現在大家都在尋找那些可能成為行業巨頭的團隊。資本市場的信心正在回歸,因為他們看到了幾個關鍵變量:一是對未來趨勢的清晰判斷;二是需
271、求端的爆發。一是對未來趨勢的清晰判斷;二是需求端的爆發。第三點,其實現在國家也在強調“耐心資本”第三點,其實現在國家也在強調“耐心資本”。過去,人民幣基金往往要求反投,估值不能降低,投資失敗可能被視為失職。但現在,大家開始意識到需要更多耐心來支持創新。為什么杭州能誕生這么多優秀的創新企業?其實是因為杭州政府和資本早在幾年前就開始布局。不能只看結果,而要看到背后的長期投入?,F在,我也在和一些地方政府領導交流,大家都在學習杭州的經驗。我相信未來會形成更寬松的投資環境,更多地支持和服務創業團隊,創新是需要經歷失敗的。目前來看,這種趨勢正在變好。105 AIAI前線前線|特刊特刊 從提示詞到變現:從提
272、示詞到變現:DeepSeekDeepSeek如何賦能用戶如何賦能用戶 作者:謝孟軍 策劃:趙鈺瑩,高玉嫻 本文整理自InfoQ策劃的DeepSeek系列直播第八期節目。在直播中,極客邦科技創始人&CEO霍太穩對話積夢智能CEO&TGO鯤鵬會榮譽會長謝孟軍,主要探討了兩個方面的問題:第一,DeepSeek爆火背后,作為創業公司如何更好地打造差異化競爭優勢;第二,作為普通人如何借AI之力成為“超級個體”。謝孟軍強調,在全民AI的時代,技術人尤其要避免陷入“技術自嗨”的陷阱,無論是個人還是企業,都需要從技術迷戀轉向技術的實用化,從產品思維轉向用戶價值思維。技術本身并不重要,重要的是技術與場景的結合。
273、下文為直播部分內容精選,完整直播回放可點擊鏈接查看下文為直播部分內容精選,完整直播回放可點擊鏈接查看:https:/ 106 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 以下為謝孟軍的分享實錄部分(經編輯)以下為謝孟軍的分享實錄部分(經編輯):DeepSeek現象級突破的技術解碼現象級突破的技術解碼 DeepSeek無疑是一個具有“國運級”意義的現象級產品。它的技術突破主要體現在三個方面:低成本訓練范式革新、國產算力適配突破和場景化模型蒸餾技術低成本訓練范式革新、國產算力適配突破和場景化模型蒸餾技術。首先,DeepSeek采用了極簡架構,能夠以3%到5%的行業成本實
274、現模型訓練,大幅降低了資源占用。這種低成本訓練模式加上開源的方式,極大地降低了模型開發門檻,讓眾多企業和研究機構能夠參與其中。其次,國產算力適配突破是DeepSeek帶來的另一個重要影響。此前,國產芯片一直在努力適配國外框架,而DeepSeek的出現讓國產芯片找到了用武之地。特別是華為的昇騰芯片,與DeepSeek的適配性非常好,推動了國內GPU廠商的發展。昇騰910B等產品與DeepSeek深度合作,實現了從硬件到技術鏈路的全面國產化,加速了國產化進程。如今,許多企業都在咨詢如何私有化部署DeepSeek模型,這也為國產算力的發展提供了新的機遇。最后,DeepSeek不僅推出了671B的滿血
275、版模型,還通過蒸餾技術開發了多種輕量級版本,32B、18B和7B等。這種從滿血版到輕量版的跨越,為企業提供了靈活選擇的空間,能夠根據不同場景的需求進行適配。例如,企業可以根據自身業務蒸餾出投資版、制造業版、化工行業版或汽車零部件版等專屬模型。同時,DeepSeek在動態部署方面也具有優勢,能夠在復雜決策場景中使用滿血版模型,在高并發交互場景中使用輕量級模型,實現混合式部署。DeepSeek爆火背后的“冷思考”爆火背后的“冷思考”在DeepSeek爆火的當下,每個人似乎都在談論它,仿佛不參與討論就顯得自己與IT圈脫節。朋友圈里每天都在刷屏,某某產品接入了DeepSeek,仿佛不接入DeepSee
276、k的產品都成了“垃圾產品”。而最引人注目的還是股票市場DeepSeek概念股的興起確實帶動了整個經濟氛圍的活躍。與此同時,我也發現,最近很多人在交流中對經濟的信心似乎又回來了,這不得不說是一個非常積極的現象。107 AIAI前線前線|特刊特刊 在全民全民AI的時代的時代,DeepSeek如此火爆的背后,我們也需要進行一些“冷思考”。真正的問題是:DeepSeek到底能用來做什么?到底能用來做什么?作為技術人,我們尤其需要避免陷入“技術自嗨”的陷阱。如今,很多人都在分享DeepSeek背后的技術實現邏輯,但關鍵在于我們如何將關鍵在于我們如何將它真正應用到實際場景中它真正應用到實際場景中。在短視頻
277、平臺上,大家都在宣傳如何部署DeepSeek,搭建個人AI知識庫。但當你在自己的電腦上搭建起這樣一個知識庫后,你會發現它的能力其實非常有限。因為電腦本身的性能有限,你最多只能運行7B或8B的模型,而這些小模型的能力是遠遠不夠的。搭建一個簡單的AI知識庫并不難,但當你的文件數量超過兩三千份時,多路召回的效果會變得極差。在文件數量較少時,知識庫的效果可能還不錯,但要讓它真正產生價值、提升生產力,還有很長的路要走。另一方面,很多新媒體人在宣傳所謂的“DeepSeek+”,比如“DeepSeek+王炸組合”,聲稱可以成倍提升功能效率。確實,DeepSeek在辦公效率方面,比如寫作(如Kimi)、圖像處
278、理(如剪映、PS)等工具的使用上,確實能帶來一些幫助。但對我們技術人來說,更重要的是如何將DeepSeek更好地應用到更多實際場景中去,而不僅僅是停留在表面的效率提升。如如何打造差異化競爭優勢何打造差異化競爭優勢 在當前AI技術快速發展的背景下,無論是個人還是公司,都需要思考如何打造差異化競爭優勢。隨著AI的興起,作為技術人需要結合自身優勢和經驗,找準定位。拿我本人來說,有近20年的開源經驗,同時也有七八年的創業經驗,因此我希望將開源與商業化相結合,分享AI技術的同時,探討如何提升決策能力。于是,我將自己的公眾號從“Asta聊工業聊工業”改為“AI進廠的進廠的Asta”,專注于分享AI在編程、
279、開源和商業化方面的內容。在內容創作上,我嘗試用AI輔助寫作,提綱和核心內容仍需自己撰寫,完后再讓AI優化,這樣既能保持個人寫作風格,又能提升效率。個人工具的全面AI化是提升效率的關鍵。我目前常用的AI工具包括以下幾種:Cursor:我每天都會用它來編寫代碼,尤其是前端開發,效率提升顯著。DeepSeek和和Claude:將兩者結合使用,Claude在長文本創作上更符合我的寫作風格,而DeepSeek則用于聯網搜索技術報告。108 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 Grok 3:其Deep Search功能非常強大,我正在不斷嘗試。Ideogram:這是一個
280、類似Midjourney的文生圖工具,生成的圖片設計感很強,我經常用它來生成圖片。Napkin:它可以將文檔一鍵生成腦圖或PPT格式的圖表,非常適合快速制作PPT。Notion:我用它來收集各種想法和計劃,同時也會將Claude生成的內容整理到Notion中。即夢即夢AI:我用它生成海報,效果不錯,尤其是中文顯示效果很好。創客貼創客貼:主要用于海報設計,其AI設計功能非常實用。Gamma:用于快速生成PPT,設計簡潔且支持導出PDF和PPT格式。我從2009年開始接觸Go語言,而GopherChina也是從2015年開始舉辦,至今已經十年了。這十年間,Go社區不斷成熟,技術話題也逐漸趨同化。比
281、如,大家討論的大多是云計算、K8S容器、微服務、監控等熱門領域。這些內容在過去十年里已經被分享得非常充分,社區的成熟也意味著技術發展進入了一個穩定階段。隨著AI時代的到來,技術人不能固步自封,必須勇敢擁抱變革。因此,我決定將Go社區全面升級為一個AI社區ThinkIn AI。這個社區目前還處于起步階段,但已經展現出巨大的潛力。在這個過程中,我們做了以下兩件事:第一,開發了一個DeepSeek模型兼容性檢測工具。這個工具的靈感來源于朋友的提問:他們的電腦配置能否部署某個型號的DeepSeek模型,比如1.5B、7B或8B等?;谶@個需求,我利用業余時間用React寫了一個網頁工具,通過顯存和內存
282、的檢測,自動判斷用戶電腦能夠部署的最大模型。這個工具開發過程非常高效,僅用了一個晚上的時間,而且完全通過對話式編程完成,我沒有手寫一行傳統代碼。推出后,這個工具受到了廣泛關注,很多人反饋企業也有類似需求,希望了解服務器配置如何滿足不同模型的部署要求。因此,我們又開發了一個企業部署服務器配置計算器。用戶可以根據自己的需求選擇模型大?。ㄈ?0B、671B或14B)、量化類型、序列長度、批次大小等參數,工具會計算出所需的顯存、CPU配置、模型參數占用等信息,并推薦適合的硬件配置,包括GPU、CPU、內存和網絡等。同時,我們在工具底部宣傳了ThinkIn AI社區,目前社區已經吸引了大量用戶,14個群
283、幾乎都滿了,這說明大家對AI的熱情非常高漲。第二,我們開始探索DeepSeek部署后的應用場景。目前,雖然已經有Chatbox和Open 109 AIAI前線前線|特刊特刊 Web UI等客戶端可以連接DeepSeek,但我們認為DeepSeek客戶端可以實現更多功能,尤其是對于企業私有化部署來說,需要更強大的智能體開發。因此,我們決定自己開發一個開源的客戶端DeepChat。這個項目完全開源,采用Apache協議,今天剛剛發布了0.02版本,支持聯網功能,可以通過搜索引擎結合DeepSeek進行更強大的處理。我們的目標是將DeepChat打造成連接強大AI與個人世界的智能助手。未來,人們會越
284、來越多地通過終端設備處理各種事務,包括電腦、平板和手機。我們希望在終端設備上開發更多小應用,比如下一個版本將支持文件上傳和內容總結功能,用戶可以上傳多個文件并輸出自己想要的格式。DeepChat不僅可以連接企業的大腦,也可以連接個人電腦,用戶可以選擇連接本地的小AI,也可以連接公網上的滿血版AI。我們還計劃全面對接MCP協議,將個人智能體的功能整合進來,充分發揮終端設備的潛力。我們希望通過開源的方式,像DeepSeek一樣,毫無保留地分享技術,打造一個全球知名的AI應用生態。對于我們企業而言,從個人到社區,再到企業層面,我們的差異化優勢其實非常明確。比如,我們將Go社區轉型為以DeepSeek
285、為核心的AI社區,這一轉變本身就體現了我們的獨特性。我們始終以開源項目為驅動,圍繞AI編程、開源項目、DeepSeek工具鏈以及MCP社區的終端應用展開工作。這種以開源為基礎、以技術為核心的發展路徑,是我們區別于其他社區和企業的關鍵所在。在企業層面,我們面臨的挑戰是如何在如何在DeepSeek私有化部署這一競爭激烈的市場中找準私有化部署這一競爭激烈的市場中找準自己的定位自己的定位。如今,許多企業都在涉足DeepSeek的私有化部署,但我們必須思考:用戶為什么選擇我們?如何在眾多競爭者中脫穎而出?這正是我們需要解決的問題。我認為,實現差異化的核心在于“行業實現差異化的核心在于“行業Know-Ho
286、w+AI”。我們需要找到自己真正擅長的行業領域,并深入理解該行業的核心數據和業務流程。只有當我們清楚地知道行業數據的價值和業務流程的關鍵節點時,才能將AI技術精準地嵌入其中,從而發揮出我們的差異化優勢。這種結合行業深度知識與AI技術的能力,才是我們能夠在市場中立足的關鍵。AI技術商業化落地的“道”與“術”技術商業化落地的“道”與“術”所謂“道”,是指我們對場景選擇和用戶痛點的深刻理解。首先,我們必須從用戶的真實痛點出發,這是商業化的基礎。其次,商業模式的驗證至關重要,需要從一開始就設計好盈利模式,思考如何持續賺錢。用戶痛點的發現并非孤立的,而是通過與不同行業 110 DeepSeekDeepS
287、eek:AIAI賽道的超級引擎賽道的超級引擎 人士的交流逐漸明晰的。例如,有醫院希望部署DeepSeek的私有化方案,但面臨技術選型和硬件適配的難題;還有企業希望通過小模型解決特定業務問題,需求千差萬別。這些痛點背后,反映出行業對AI技術的迫切需求,也凸顯了我們作為技術提供方的機會。僅僅發現痛點還不夠,我們需要結合行業Know-How與AI技術,找到數據和業務流程中的關鍵點,將AI嵌入其中,實現差異化價值。比如,金融行業可以通過AI優化風險控制,醫療行業則可以利用AI提升診斷效率。這種結合行業深度知識與AI技術的能力,才是我們能夠在市場中立足的關鍵。在“術”的層面,我們則需要關注技術的成熟度和
288、數據的積累。選擇成熟的技術可以降低風險,而數據的積累和算法的優化則是持續迭代的基礎。AI技術的快速迭代要求我們不斷優化模型,以適應市場的變化。小小結結 在在AI時代,每個人都有機會成為超級個體時代,每個人都有機會成為超級個體,無論是個人創業還是小團隊創業,都需要從從技術的迷戀轉向技術的實用化,從產品思維轉向用戶價值思維技術的迷戀轉向技術的實用化,從產品思維轉向用戶價值思維。技術本身并不重要,重要的是技術與場景的結合。同時,從單打獨斗轉向生態協同也是必然趨勢。AI的商業化落地需要構建完整的生態,包括技術提供方、數據支持方和應用場景方。以下為對話實錄部分(經編輯)以下為對話實錄部分(經編輯):In
289、foQ:DeepSeek出現之后,對積夢智能目前的業務以及所服務的客戶帶來了哪些直接出現之后,對積夢智能目前的業務以及所服務的客戶帶來了哪些直接的價值?的價值?謝孟軍謝孟軍:雖然我們的傳統業務還在繼續推進,但我們也要更好地擁抱AI時代帶來的變化。為此,我們專門開辟了一項新業務,開始著手著手DeepSeek的私有化部署相關工作的私有化部署相關工作。這包括幫助客戶梳理知識流程、清洗數據,以及構建高效的數據庫和知識庫,并協助他們將這些內容整合到業務流程中。我們有幾家制造業用戶正在推進DeepSeek的私有化部署。其實這個思路源于去年底,當時我們服務的一家客戶是做橡膠輪胎助劑的。他們內部積累了大量研發
290、資料,研發部門 111 AIAI前線前線|特刊特刊 有大約五十人,但這些數據不便外流,所以他們希望在內部建立一個研發資料知識庫。去年,他們就已經開始與我們對接,探討如何實現這個目標。當時我們告訴客戶基座模型還在迭代,建議他們再等等,但千問2.5其實已經可用。然而,今年春節當DeepSeek r1發布后,客戶過完年就立刻聯系我們,表示一定要采用這個技術。他們希望通過DeepSeek賦能內部的研發資料庫,提升研發效率和知識管理能力。InfoQ:有觀眾提問:如果自己的公司想本地化部署、搭建自己的知識庫,應該選擇:有觀眾提問:如果自己的公司想本地化部署、搭建自己的知識庫,應該選擇DeepSeek的哪一
291、個版本,或者有沒有其他更好的解決方案?的哪一個版本,或者有沒有其他更好的解決方案?謝孟軍謝孟軍:我覺得搭建公司知識庫的關鍵在于明確用途。如果只是搭建一個簡單的知識庫,我認為32B的模型其實就足夠了,效果也不錯。關于具體的硬件配置,大家可以訪問+DeepSeek模型兼容性檢測+,通過這個工具檢測一下自己所需的硬件配置。私有化部署選什么版本的私有化部署選什么版本的DeepSeek其實取決于具體的應用場景其實取決于具體的應用場景。如果條件允許,滿血版當然是最好的,但成本確實很高,至少兩三百萬起步。如果需求沒那么復雜,比如7B或8B的版本,我建議大家可以考慮買個Mac mini,七八千塊錢就能搞定,或
292、者自己配一臺臺式機,大概一萬元左右就能部署起來了。像我現在用的Mac Pro,本機就能部署14B的模型。我看到還有同學問滿血版需要多少張顯卡。這要看具體用什么型號的顯卡了,比如H200還是H20,不同顯卡的數量要求是不一樣的。如果是H20的話,大概需要14張到16張?,F在大家在部署過程中確實會發現有不少問題,尤其是滿血版的部署,并沒有想象中那么簡單。推理模型的優化參數和配置都需要仔細調整,過程中有不少需要注意的地方。InfoQ:有觀眾提問:問題怎么轉成向量去匹配相應的知識庫?:有觀眾提問:問題怎么轉成向量去匹配相應的知識庫?謝孟軍謝孟軍:這個就是RAG(Retrieval-Augmented
293、Generation)技術。它的核心機制是這樣的:當一個文檔輸入進來時,系統會將其分解為一個個小塊,然后通過embedding模型將這些塊轉化為向量并存儲起來。當你需要查詢時,問題也會被轉化為向量,然后在向量庫中進行相似度搜索。不過,RAG目前面臨一個很大的問題:當文件數量很多,比如達到5,000個時,多路召回的結果會非常多,相似度匹配的結果也很多,這就很難確定到底哪 112 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 個是最相關的。因此,上下文的重要性就凸顯出來了?,F在,大家開始轉向一種新的模式Graph RAG,也就是將知識圖譜的概念與RAG結合。這樣可以更好地
294、處理上下文信息,提升檢索的準確性和效率。InfoQ:有觀眾提問:運維該如何提升效率,有什么建議?:有觀眾提問:運維該如何提升效率,有什么建議?謝孟軍謝孟軍:我建議使用Cursor寫運維腳本,效率提升非常明顯,因為運維工作本身就涉及大量腳本編寫。我個人最大的感受是,我們的學習模式可能會因此改變。比如,我以前對前端開發不太熟悉,尤其是TypeScript和React,但現在很多都能輕松上手,寫得很快。為什么呢?因為我采用了“干中學、學中干”的方式通過與Cursor對話,利用它強大的代碼生成能力,它會根據你的需求生成代碼。我們程序員已經掌握編程基本邏輯,比如如何管理包、下載和運行代碼,而且Curso
295、r生成的代碼語法基本正確,只需要稍作檢查即可運行。更重要的是,Cursor會幫你生成目錄樹和文件結構。因為它已經學習了大量開源代碼,所以它能合理設計目錄架構。我覺得這種方式特別適合每一個IT人,因為它不僅提高了效率,還幫助我們在實踐中學習新技術。InfoQ:國內的代碼開發工具你有用過嗎?可以點評一下嗎?:國內的代碼開發工具你有用過嗎?可以點評一下嗎?謝孟軍謝孟軍:國內目前我還沒用過類似的產品?,F在唯一值得期待的就是字節跳動的“Trae”。之前也有一些產品,比如百度的Comate(文心快碼),它們都是對標Copilot的。但Copilot其實是上一個年代的產品,體驗非常差,如果國內的產品只是對標
296、Copilot,我覺得那還是上一代的東西。聽說字節跳動的“Trae”可能會對標Cursor,它在3月份應該會發布國內版。InfoQ:你怎么看待:你怎么看待AI領域里的創業新機會的?對于普通人來說,又如何借助領域里的創業新機會的?對于普通人來說,又如何借助AI成為一個成為一個超級個體?超級個體?謝孟軍謝孟軍:現在很多人都在提“一人團隊”的概念,如果你創業的話,一人團隊其實是個很好的選擇。TGO鯤鵬會的會員開設了“一人出?!钡恼n程,值得去學習一下。我覺得一人團隊的核心在于,現在各個細分賽道中確實出現了很多AI場景應用的機會。以前我們可能需要一個大團隊來完成這些工作,因為涉及到各種協同和分工。但現在
297、,借助AI 113 AIAI前線前線|特刊特刊 工具,一個人就能搞定很多事情。比如我之前提到的cursor,我有一個朋友,他以前完全沒有編程基礎,甚至不是計算機專業出身,但最近迷上了cursor,天天在用它寫小程序,甚至還成功上線了。當然,我會慢慢給他普及一些基礎知識,因為他需要補充的地方還有很多。但這就是AI時代個體創業的魅力所在。不僅僅是cursor,我很多時候有了一個想法,就會讓AI幫我寫草案,比如文章、設計文稿、API文檔,甚至針對API的測試用例,這些都可以通過AI快速生成。InfoQ:比如你早上:比如你早上9點坐在辦公室里,晚上點坐在辦公室里,晚上9點離開辦公室,在這點離開辦公室,
298、在這12個小時里,你會用個小時里,你會用到哪些到哪些AI工具來提升工作效率?工具來提升工作效率?謝孟軍謝孟軍:Cursor大概占了我50%的時間,我主要用它來輔助編程和生成代碼。另外,我還會用Claude,它能快速幫我把一些想法整理成初稿,完善成具體的方案。第三個用得比較多的是Notion,我會把所有的東西都記錄在里面。偶爾會用到Napkin和Gamma,它能把文字內容快速轉化為PPT格式。當然,還有一些小工具,比如即夢,會用來做海報,比如AI自動生成海報這類功能。InfoQ:AI幫助我們提升工作效率,未來也可能會改變我們的工作方式。幫助我們提升工作效率,未來也可能會改變我們的工作方式。AGI
299、(通用人工(通用人工智能)出現后,可能會取代我們智能)出現后,可能會取代我們80%甚至甚至90%的工作。從你的角度來看,未來怎么去定的工作。從你的角度來看,未來怎么去定義人在其中的價值?我們該如何更好地適應義人在其中的價值?我們該如何更好地適應AI時代,或者迎接時代,或者迎接AGI的到來?的到來?謝孟軍謝孟軍:我沒有很深刻地思考過這個問題,只是有一些膚淺的看法。但我一直覺得,目前AI還只是一個輔助工具,它還無法完全替代人類。在很多場景里,AI仍然做不到完全取代人的工作。人的認知很重要?,F在很多時候,關鍵在于你的思維方式和視野有多寬。比如,就像剛才提到的,用AI去寫東西,你需要先想清楚自己想寫什
300、么,以及這個東西能產生什么價值。這些需要人去思考。你不能讓AI幫你完成整個閉環。比如,你讓AI設計一個“利潤率能達到50%的產品并上線”,這種要求實現的可能性并不大。114 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 全球全球AIAI新格局:新格局:DeepSeekDeepSeek帶來的生態機會帶來的生態機會 作者:謝國斌 本文整理自InfoQ策劃的DeepSeek系列直播第九期節目。在直播中,極客邦科技創始人&CEO霍太穩對話神州數碼集團首席AI專家謝國斌,深入探討了DeepSeek爆火背后,AI競爭格局將發生哪些變化,以及在新的格局下,AI企業會面臨哪些新的機會
301、和挑戰,企業又該如何抓住這些機遇。謝國斌表示,隨著AI接入門檻和成本的降低,金融、醫療、教育和汽車等行業的應用可能會率先爆發。除此之外,制造業、辦公行業等也有很大的發展空間。但對于B端企業而言,除了DeepSeek這樣的開源大模型外,還需要多方面的技術進行疊加,從多個維度考慮技術的應用,比如:在部署過程中盡可能利用GPU算力優化,進行進行場景化、專業的小模型訓練,引入私域化的知識,提供一套智能體協同框架 115 AIAI前線前線|特刊特刊 等等。下文為直播部分內容精選,完整直播回放下文為直播部分內容精選,完整直播回放&最新直播預約可關注“最新直播預約可關注“AI前線視頻號”查看。前線視頻號”查
302、看。以下為謝國斌的分享實錄部分(經編輯)以下為謝國斌的分享實錄部分(經編輯):DeepSeek技術創新帶來的影響技術創新帶來的影響 在原創核心技術方面,我們特別關注以下幾個方面。1.群體相對策略優化(群體相對策略優化(GRPO):在傳統的強化學習中,評價一個模型表現好壞的函數通常需要人工設定。而DeepSeek采用了一種創新方法,即引入多個“評委”進行投票,取平均值作為評價標準。這種方法省略了人工設定評價函數的流程,簡化了算法,是強化學習領域的一個關鍵創新。2.多頭潛在注意力(多頭潛在注意力(MLA):該架構通過降維操作大幅壓縮了計算量,顯著降低了模型的訓練和推理成本。3.混合專家模型(混合專
303、家模型(MoE):這種架構通過集成多個專家網絡,極大地擴展了模型的參數規模,同時在推理側顯著加速了推理過程。這種結構類似于“有通識專家、有專識專家,相互配合、各司其職”,與傳統方法相比,效果顯著提升。4.多令牌預測(多令牌預測(MTP):這一技術已經在很多技術專家的分享和網絡博客中被廣泛討論,因此我們這里也不再詳細介紹。116 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 在企業應用落地方面,DeepSeek的價值主要體現在以下四個方面,這些價值對全球AI格局產生了深遠影響。1.降低推理成本降低推理成本:雖然訓練成本已經較低,但DeepSeek的最大優勢在于推理成本。
304、通過MLA等技術,推理成本降至之前的約3%,降低了97%。這一優勢對中小企業尤其友好,能夠加速AI大模型在企業應用場景中的落地。2.模型思考,深度如人模型思考,深度如人:R1模型是一個深度思考模型,不僅提供問題的答案,還展示了推理過程,類似于數學題的解題步驟。這種推理模型的可解釋性更強,更適合賦能更多企業應用場景。用戶可以通過模型的推理過程,清晰地看到模型是如何得出答案的。3.小模型,大作為小模型,大作為:除了完整的全參模型,DeepSeek的R1模型還蒸餾出了7個不同尺寸的小模型。這些小模型數據質量高,蒸餾效果優于同類尺寸模型。在企業落地時,可以選擇這些小模型,進一步降低推理成本,同時保持良
305、好的效果。4.開源、全棧自主可控開源、全棧自主可控:DeepSeek將模型開源,為全球同行和企業提供了一個自主研發和迭代的基礎。目前,國內眾多企業,包括芯片企業和云廠商,已經開始接入DeepSeek原生態模型。這不僅推動了國產化進程,也為建立安全可控的AI生態提供了重要的參考和標桿。AI市場格局變化,機遇挑戰并存市場格局變化,機遇挑戰并存 在全球市場,包括國內的重點領域,AI市場格局發生了諸多變化,對企業與個人而言,機遇與挑戰并存。以神州數碼為例,我們是一家專注于ToB的技術服務公司,從客戶市場需求的角度出發,探討客戶需要什么樣的AI技術企業為其提供服務。除了DeepSeek這樣的開源大模型外
306、,企業客戶還需要以下幾方面的技術進行疊加。1.企業需要將DeepSeek大模型部署起來,并在部署過程中盡量利用部署過程中盡量利用GPU算力優化算力優化,以節省GPU算力成本,無論是訓練成本還是推理成本。2.基于DeepSeek開源模型,企業可以進行場景化、專業的小模型后訓練進行場景化、專業的小模型后訓練,例如7B、14B等,以降低算力門檻。在訓練過程中,數據源就像炒菜的原材料一樣重要。只有通過專業的模型訓練,才能保證模型的質量和效果。3.企業還需要引入私域化的知識引入私域化的知識,例如企業內部的文檔和專家經驗等。這是因為通用 117 AIAI前線前線|特刊特刊 的大模型無法滿足企業的個性化需求
307、,就像廚師需要根據客人的口味進行私人化的調制一樣,企業也需要將內部的知識和經驗融入模型中,通過知識管理實現這一點。4.企業需要提供一套智能體協同框架提供一套智能體協同框架。以炒菜為例,整個過程可以分為多個步驟,如放油、炒佐料、放菜品、勾芡等。在企業中,智能體可以將這些步驟串聯起來,讓每一步都發揮專業功能。在AI技術中,這可能涉及引入外部工具,此外,還可以結合不同的大模型和小模型、專業模型和通用模型,以提升智能體的效果。當企業的應用越來越多時,就需要一個大模型平臺來承載這四方面的功能,以便在企業中有上百個、上千個應用和智能體時能夠正常運轉。神州問學平臺正是按照這樣的邏輯進行研發和服務于企業的。在
308、實現過程中,客戶不僅需要技術手段,還希望在業務中實現高準確性和高并發能力。例如,對話機器人在回答客戶問題時,需要較高的準確性,并且能夠同時支持上百個、上千個C端客戶的提問。同時,項目還需要滿足經濟預算要求,例如對話機器人的預算可能是50萬或100萬。最終目標是讓大模型在企業應用場景中落地,幫助企業實現增收降本和提升辦公效率??蛻粜枨蠛褪袌鲂枨蟮淖兓谏羁痰匾龑д麄€AI市場格局的演變,尤其是ToB(企業服務)領域。雖然ToC領域也會受到影響,但這里我們重點關注的是ToB市場格局的變化。DeepSeek的出現,憑借其開源、低成本等特性,正在引發AI市場格局的重大變革,并推 118 DeepSee
309、kDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 動商業模式的重塑。市市場格局變化場格局變化 生態格式變化生態格式變化:眾多企業圍繞DeepSeek建立生態,上下游企業紛紛進行適配。這可能導致市場格局轉向更加開放和多元化的競爭格局。更多的企業將有機會參與到AI技術的研發和應用中,推動AI技術的普及和創新。垂直領域分化垂直領域分化:醫療、法律等專業場景將出現基于DeepSeek的細分模型,打破通用基礎模型的統治。產業鏈價值轉移產業鏈價值轉移:上游算力需求向推理側傾斜,下游應用開發門檻降低將催生更多垂直領域SaaS服務商。硬件廠商需轉向算力部署和能效優化,軟件企業則需強化工程平臺和應用能力
310、。商商業模式重塑業模式重塑 開源重要性上升開源重要性上升:從DeepSeek R1的成功我們可能會看到更多的公司轉向開源或部分開源模型,以保持競爭力。這種變化將促使AI市場形成更加良性的競爭環境,消費者也將獲得更具性價比的AI服務。催生新的商業模式催生新的商業模式:DeepSeek R1的成功及開源,改變了市場競爭的格局和態勢,將來也會催生新的商業模式。比如圍繞開源生態、高效推理、模型蒸餾等模型架構創新、核心關鍵技術展開新的商業范式。企業流程重塑與再造企業流程重塑與再造:DeepSeek R1的成功及開源,改變了市場競爭的格局和態勢,將來也會催生新的商業模式。比如圍繞開源生態、高效推理、模型蒸
311、餾等模型架構創新、核心關鍵技術展開新的商業范式。對于企業而言,AI技術的發展既帶來了機遇,也帶來了挑戰,兩者是并存的。119 AIAI前線前線|特刊特刊 新新機遇機遇 為為技術企業帶來了新的機會技術企業帶來了新的機會 DeepSeek生態的建立為技術企業帶來了新的機會。例如,中小企業可以通過低成本接入DeepSeek生態,實現低成本創新。DeepSeek通過模型蒸餾技術賦能中小企業,降低AI開發門檻,推動AI應用從頭部企業壟斷轉向長尾場景滲透,如金融、醫療、教育等領域。端端側應用爆發側應用爆發 DeepSeek輕量版適配手機、電腦AIPC、IoT設備,催生本地化AI應用(如離線語音助手)。數數
312、據標注工業化據標注工業化 專業標注公司可能會向推理鏈標注等高階服務轉型。新新挑戰挑戰 技術企業將面臨更多樣化的挑戰技術企業將面臨更多樣化的挑戰:例如,如何在保證模型性能的同時進一步降低訓練成本和推理延遲等。企業需要不斷提升自身的技術實力和創新能力,以應對這些挑戰。軟硬協同能力軟硬協同能力:技術企業需建立算法-硬件協同優化能力(如DeepSeek的GRPO、MLA、MoE與架構創新結合)。安全合規風險安全合規風險:垂直開源模型應用可能面臨一定的安全風險,需內嵌審計模塊。AI技術企業應對的策略和思路技術企業應對的策略和思路 策策略略1:提供:提供DeepSeek全套解決方案全套解決方案-模型部署、
313、訓練和應用適配模型部署、訓練和應用適配 以我們公司過往的經驗為例,首先,作為一家專注于AI技術落地應用的公司,神州數碼的第一個策略是為行業提供完整的提供完整的DeepSeek解決方案解決方案。這包括模型的部署,無論是滿血版還是各種尺寸的蒸餾版,以及模型訓練和算力管理。例如,基于千問32B這種主流模 120 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 型,我們現有的平臺產品不僅能支持模型訓練,還能實現多元異構算力的高效利用和管理,從而提升算力的使用效率。同時,我們的平臺還集成了智能體和知識管理模塊,以支持企業場景的應用和適配。我們認為,這個過程不是一個單向的,而是一個
314、不斷迭代的循環。通過模型的部署、訓練和應用適配,我們不斷循環優化,持續抽取企業行業中的最佳實踐案例,從而為客戶提供更優質的解決方案。策策略略2:踐行:踐行DeepSeek行業實踐行業實踐-企業知識治理平臺企業知識治理平臺 我們的第二個策略是踐行DeepSeek在行業中的實驗應用,特別是在企業的知識治理平臺上。我們會將企業內部的結構化數據中臺和數據倉庫中的結構化數據,與中臺里的知識對象以及非結構化數據進行融合。這里所說的非結構化數據,是指大家常見的PDF文檔、Word文檔、PPT文檔,甚至是圖片和語音等。這些數據都可以被納入我們的知識治理平臺進行利用。當然,在使用過程中,我們會充分考慮數據的脫敏
315、和安全,確保這些數據僅在企業內部使用,不會對外泄露?;谖覀儐枌W的知識治理平臺,我們將企業的知識類化到模型中,或者作為外部工具進行調用。121 AIAI前線前線|特刊特刊 策策略略3:敏捷的構建:敏捷的構建DeepSeek應用流程應用流程-智能體平臺智能體平臺 我們的第三個策略是提供一個敏捷的應用流程平臺,類似于廚師炒菜的步驟規劃。我們將其稱為智能體平臺,它的作用是將一個復雜的應用分解為多個步驟。這就好比人腦的規劃過程比如從北京到上海出差,我們會先規劃訂機票的時間、起飛時間,以及當地的酒店和行程安排。規劃完成后,在出差過程中會用到各種工具,比如訂機票和酒店,這些工具在我們的平臺上被稱為“功能調
316、用”(Function Call)。在此基礎上,我們在規劃過程中設計了執行流程,通過這些流程提高效率并創新企業的業務流程。最后,我們利用低代碼工具將這些流程串聯起來,從而輕松構建智能體,賦能企業的應用。122 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 神神州數碼的未來愿景州數碼的未來愿景-助力企業助力企業AI for Process 神州數碼的未來愿景是通過AI助力企業內部流程的重塑與再造,提升效率,并為此提供相應的工具和服務。我們認為企業流程主要體現在三個方面:首先是商業模式商業模式,即企業如何創造、傳遞和獲取商業價值;其次是管理方法管理方法,涉及企業內部運營資
317、源的決策、績效管理等基本實踐;最后是技術的領先性,通過技術架構技術架構(如大模型架構、AI架構和中臺架構)與商業模式和管理方法的融合,提升企業的運行效率、降低成本并優化資源配置。神州數碼提出的“AI for Process”概念,正是商業模式、管理方法和技術架構三者的融合點。我們倡導的企業落地方法論是“大小模型通專融合”,以促進企業AI在流程中的應用。具體而言,橫向的基礎模型,如DeepSeek V3以及其他商業或開源模型,通過不斷迭代,逐漸從狹義走向廣義,最終邁向通用人工智能。這些模型就像通識專家,能夠解答各種問題,其通用能力會越來越強。而縱向的專業能力則是通過小模型(專識專家)結合場景數據
318、進行微調,例如7B、14B模型,它們可能針對金融、招聘、財務或風險管控等具體場景,逐步達到甚至超越專業人才的水平。當橫向的通用能力和縱向的專業能力經過長期發展后,會形成一個兼具通用性和專業性的區域。這種大模型的通用能力與小模型的專業能力相結合,將有力推動企業AI的落地應用。在這個過程中,需要運用智能體的決策能力、規劃能力、判斷能力、反思能力和工具調用能力等,以決定何時使用大模型、何時使用小模型。這些能力將不斷推動行業企業及業務場景的落地,逐步實現從商業模式到管理方法再到技術架構的閉環,最終助力企業實現AI for Process的目標。以下為對話實錄部分(經編輯)以下為對話實錄部分(經編輯):
319、InfoQ:DeepSeek的出現在中國的算力產業中引起了一場狂歡,這是否意味著像的出現在中國的算力產業中引起了一場狂歡,這是否意味著像MoE這這樣的架構會越來越多地成為行業的主流?同時,這是否也意味著未來樣的架構會越來越多地成為行業的主流?同時,這是否也意味著未來AI領域的競爭將從領域的競爭將從硬件堆砌轉向算法創新?如何在這種算力和算法之間實現動態平衡呢?硬件堆砌轉向算法創新?如何在這種算力和算法之間實現動態平衡呢?謝國斌謝國斌:我個人認為MoE架構很有可能成為主流的大模型架構。在MoE出現之前,尤其 123 AIAI前線前線|特刊特刊 是在DeepSeek出現之前,大約90%以上的模型架構
320、都不是MoE的。自2月份DeepSeekMoE架構推出后,我們觀察到許多公司,都在積極跟進這一技術。從現實情況來看,越來越多的企業傾向于嘗試MoE架構。從MoE算法本身的邏輯來看,它也非常適合在行業中占據重要地位。MoE架構將專家分為通識專家和專識專家,類似于通用大模型和專業大模型的搭配使用。從DeepSeek V1到V2再到V3,專家數量不斷增加,從16個提升到現在的250多個。我們可以預見,隨著MoE架構的不斷發展,專家數量的增加將使其在語義理解上比傳統架構更深入,因為每個專家都專注于特定的任務。此外,與相同參數量的其他大模型相比,MoE在推理過程中能夠顯著降低成本,對行業應用非常友好。我
321、們觀察到AI競爭的一個趨勢是,國外主要依靠硬件堆砌,尤其是通過大量GPU來提升算力,這種方式被稱為“Scaling Law”。但我們認為,算法創新同樣重要?,F在,架構性、核心算法的創新正在成為一種趨勢,而不僅僅是算力的堆砌。實際上,MoE架構與架構與傳統非傳統非MoE架構、硬件堆砌與算法創新之間并不矛盾,它們是相輔相成的。架構、硬件堆砌與算法創新之間并不矛盾,它們是相輔相成的。當算力堆砌達到一定程度后,自然會有團隊和公司去考慮算法創新。而在算法創新的過程中,也會進一步推動數據利用、算力利用和應用創新方面的“Scaling Law”。這種動態的、相輔相成的發展模式更適合未來AI在企業中的落地。I
322、nfoQ:有觀眾提問:企業在部署:有觀眾提問:企業在部署DeepSeek后,如果使用自有數據,是否需要采用后,如果使用自有數據,是否需要采用RAG?謝國斌謝國斌:RAG技術,中文稱為“檢索增強生成”,它與大模型的最大區別在于:大模型像是一個已經內化了知識的學生,比如一個學生學習數學,知識被吸收并理解后存儲在模型內部。而RAG技術則通過向量檢索和文檔切技術則通過向量檢索和文檔切片的方式,從數據庫中調取與問題最相片的方式,從數據庫中調取與問題最相關的片段,這種能力屬于模型外部的增強關的片段,這種能力屬于模型外部的增強,與大模型的內部知識存儲有本質區別。簡單來說,一個是模型內部的知識運用,另一個是模
323、型外部外掛的輔助檢索。RAG技術本身可以通俗地分為三個步驟:1.文檔處理。文檔處理。將文檔(例如一千頁的內容)進行切片,可以按段落、每1000詞或每頁等不同方式切分,然后將這些切片存入向量數據庫。目前有很多開源和商業版的向量數據庫可供選擇。124 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 2.檢索和召回檢索和召回。當用戶提出問題時,系統會通過向量大模型算法計算問題與文檔片段之間的相似度,從一千頁文檔中找出與問題最相關的5個片段。這一步主要是基于向量運算的相似度匹配。3.答案生成答案生成。最后將問題和這5個最相關的片段一起輸入到大模型(如V3或R1)中,由大模型理解
324、并生成最終答案。只有這最后一步真正利用了大模型的能力,而前兩步主要依賴于向量運算,與大模型關系不大。InfoQ:可以這樣理解嗎:“引入:可以這樣理解嗎:“引入RAG技術能夠讓大模型的搜索變得更加精準,尤其是在技術能夠讓大模型的搜索變得更加精準,尤其是在企業內部使用私有數據時,這種精準性會更加凸顯?!逼髽I內部使用私有數據時,這種精準性會更加凸顯?!敝x國斌謝國斌:RAG技術確實能讓大模型的搜索更加精準。一方面,大模型的訓練數據通常有一個截止日期,比如截止到今天。這意味著模型在上線后無法實時處理新信息,例如明天北京下雨這樣的實時信息或新聞。這時,就需要通過外部知識或企業內部知識,以數據灌入的方式臨時
325、更新模型的知識庫。這就是RAG的切片和檢索增強生成過程。另一方面,企業內部數據量龐大,不適合直接用于模型訓練,而RAG技術提供了一種低成本的解決方案。目前,許多云廠商提供的向量數據庫報價非常低廉,幾乎可以忽略不計。RAG技術不僅能實時更新信息,還能快速處理數據。如果RAG配置得當,其檢索速度可達毫秒級,尤其在文檔切片合理、數據量較小時,性能優勢尤為明顯。不過,RAG的語義理解能力相比大模型內化的語義理解稍弱。因此,RAG技術在2024年得到了廣泛應用,尤其是在企業知識管理領域。InfoQ:中小企業如何低成本接入:中小企業如何低成本接入DeepSeek的生態,實現低成本創新?此外,在這個領的生態
326、,實現低成本創新?此外,在這個領域里,哪些應用可能會率先爆發?能否通過一兩個案例來回答這個問題?域里,哪些應用可能會率先爆發?能否通過一兩個案例來回答這個問題?謝國斌謝國斌:對于中小企業而言,大模型DeepSeek的影響主要體現在以下幾個方面。首先,在具體場景中選擇落點時,中小企業可能對數據隱私和準確性要求并不那么敏感。因此,我們建議的低成本接入方法是,選擇一個數據隱私要求不高、對準確性要求不那么嚴格我們建議的低成本接入方法是,選擇一個數據隱私要求不高、對準確性要求不那么嚴格的場景,先將其跑通的場景,先將其跑通。在這個階段,企業可以使用DeepSeek的開源云API,利用云上的數據進行開發。這
327、樣可以讓企業內部的IT人員和業務人員對整個流程有一個全新的認識,了解對話機器人或內部問答系統是如何運作的。125 AIAI前線前線|特刊特刊 當企業對流程有了全面理解后,可迅速切換到更敏感的場景,就可以開始考慮私有化部署DeepSeek。在私有化部署的初期,可以選擇一些小參數模型,比如14B、32B,或者是DeepSeek蒸餾版本的模型。通過小參數模型的私有化部署,企業既能保證數據安全,又不會因為一次性部署滿血版模型而承擔過高的服務器成本。當某些場景對精度要求較高時,企業可以選擇兩條路徑:一是直接使用DeepSeek的滿血版開源模型;二是基于企業自身數據進行微調或模型蒸餾,從而提升精度。這些方
328、案對中小企業來說較為友好,關鍵在于先跑通流程。我們判斷,金融、醫療、教育和汽車等行業的應用可能會率先爆發我們判斷,金融、醫療、教育和汽車等行業的應用可能會率先爆發。這些行業對AI技術的需求大,市場空間廣闊,但同時也面臨著較高的開發成本和門檻。通過我們提到的技術落地方案,如模型微調、數據蒸餾等,結合平臺工程能力,可以大幅降低開發門檻,釋放行業潛力。當然,除了這些行業,制造業、企業辦公制造業、企業辦公等應用也有很大的發展空間。InfoQ:神州數碼是否有已經落:神州數碼是否有已經落地的金融大模型相關應用,或者在這一領域有什么研究地的金融大模型相關應用,或者在這一領域有什么研究方向?方向?謝國斌謝國斌
329、:在金融領域,我們已經有了一些大模型的應用案例。神州數碼在金融領域已有多年布局,尤其是通過上市公司神州信息與相關企業展開合作,專注于金融科技和金融軟件的研發和服務。在銀行核心系統的開發中,以前代碼編寫和業務場景設計代碼編寫和業務場景設計主要依賴人工?,F在,我們通過DeepSeek和大模型技術,將其應用于銀行核心系統,提升編程效率和交付能力,同時優化與企業業務相關的流程設計。在銀行獲客和營銷銀行獲客和營銷方面,我們利用大模型處理結構化和非結構化數據,幫助銀行更好地理解客戶、獲取客戶,并助力零售業務發展。大模型不僅可以作為對話機器人,還能優化企業內部信息溝通流程,尤其在客戶認知和客戶獲取方面,提供
330、了很大幫助。此外,我們在金融風控和監管報送金融風控和監管報送領域也進行了實踐探索。例如,在銀行、監管部門的一些業務應用中,大模型能夠快速分析數據之間的復雜關系,幫助防范金融風險。因為銀行流程中存在大量控制點,僅靠人工判斷有時難以快速響應,而大模型可以高效處理這些復雜關系,從而在金融風控和監管報送領域發揮重要作用。InfoQ:有觀眾提問:在第三方:有觀眾提問:在第三方IT運維和服務行業,如何利用運維和服務行業,如何利用DeepSeek來提升客戶服務來提升客戶服務 126 DeepSeekDeepSeek:AIAI賽道的超級引擎賽道的超級引擎 的價值,的價值,特別是在特別是在IT運維方面?運維方面
331、?謝國斌謝國斌:在為ToB客戶提供IT運維服務時,DeepSeek可以從兩方面帶來價值。一方面是為客戶(甲方)創造價值。對于客戶的機房和后臺系統,包括安全系統、日志系統、郵件系統等,運維過程中涉及大量非結構化數據,如計算機日志和文檔。這些場景非常適合利用大模型進行處理。過去依賴人工的環節,現在可以通過運維框架中的運維智能體來過去依賴人工的環節,現在可以通過運維框架中的運維智能體來實現實現,從而降低服務成本,優化流程。這正是AI for Process在運維領域的體現,能夠為甲方帶來顯著的流程優化價值。另一方面,對于提供IT運維服務的企業自身而言,DeepSeek也具有巨大價值。在運維過程中,企
332、業可以基于大模型開發小型工具,例如代碼工具、自動檢測工具、警報工具或BI工具等。這些工具能夠降低企業在服務過程中的自身人力成本和研發成本降低企業在服務過程中的自身人力成本和研發成本,提高服務效率。因此,從服務甲方和優化自身成本兩方面來看,DeepSeek都具有潛在的巨大收益。InfoQ:現在很多中小企業都在利用模型蒸餾技術來降低:現在很多中小企業都在利用模型蒸餾技術來降低AI開發的門檻,并推動開發的門檻,并推動AI應用從應用從頭部企業的壟斷向長尾場景滲透,比如金融、醫療、教育等領域。蒸餾技術為什么對中頭部企業的壟斷向長尾場景滲透,比如金融、醫療、教育等領域。蒸餾技術為什么對中小企業在開發小企業
333、在開發AI應用非常重要?應用非常重要?謝國斌謝國斌:從學術和常識角度來看,蒸餾分為數據蒸餾和模型蒸餾數據蒸餾和模型蒸餾。數據蒸餾是指通過調用優質模型的API,以問答形式按照固定格式生成標準答案,甚至推理過程。DeepSeek在其論文中就采用了數據蒸餾的方式。模型蒸餾則是用大模型去指導小模型學習。業界有一個通俗的比喻:假設有一個資深的高級數學教師(大模型,如R1/V3),他要教一個聰明的學生(小尺寸模型,如32B)。教師將自己的知識和技能逐步傳遞給學生,這個過程就是蒸餾。經過蒸餾,小尺寸模型在企業應用中會有兩個顯著好處:1.模型尺寸變小,推理時算力需求降低,從而極大節省成本模型尺寸變小,推理時算力需求降低,從而極大節省成本。例如,一個滿血版的大模型(如R1-671B)可能需要兩臺機器、16張顯卡來部署,成本極高。但如果將其蒸餾到32B模型,僅需一張顯卡即可部署,成本節約可達十幾倍到幾十倍。2