1、 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。1 證券研究報告 計算機計算機 全球全球 AI 算力需求繼續向上算力需求繼續向上 華泰研究華泰研究 計算機計算機 增持增持 (維持維持)研究員 謝春生謝春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 聯系人 林海亮林海亮 SAC No.S0570122060076 +(86)21 2897 2228 行業走勢圖行業走勢圖 資料來源:Wind,華泰研究 2024 年 4 月 12 日中國內地 專題研究專題研究 全球全球 AI 算力需求繼續向上算力需求繼續向上 隨著大模型
2、持續迭代,模型能力不斷增強,其背后是“Scaling Law”下模型參數量和數據集不斷增長的結果。我們認為,從大模型的演化路徑來看,模型體量還將進一步擴張,從而帶來算力需求持續增長。具體來看,大模型對算力的需求體現在預訓練、推理、調優三個環節。根據我們的測算,以1000 億參數模型為例,三個環節的算力總需求約 18 萬 PFlop/s-day,對應需要 2.8 萬張 A100 等效 GPU 算力。長遠來看,成熟大模型的運營有望帶來 3169 億美元的服務器增量市場,較 2023 年全球 211 億美元的 AI 服務器市場而言,仍有較大成長空間?;诖?,我們認為大模型持續迭代有望帶來大量算力基礎
3、設施需求,建議關注算力產業投資機遇。模型體量越來越大,帶動算力建設需求模型體量越來越大,帶動算力建設需求 大語言模型(LLM)是在大量數據集上預訓練的模型,其在處理各種 NLP任務方面顯示出了較大潛力。Transformer 架構的出現開啟了大模型的演化之路,隨著解碼模塊堆疊數量的不斷增長,模型參數量持續增加,逐漸演化出 GPT-1、GPT-2、GPT-3、PaLM、Gemini 等不同版本模型,參數量也從十億、百億,向千億、萬億增長。我們看到,每一代模型的演化都帶來能力的增強,背后一個很重要的原因在于參數量和數據集的增長,帶來模型感知能力、推理能力、記憶能力的不斷提升?;谀P偷目s放定律,我
4、們認為未來模型迭代或仍將延續更大參數量的路徑,演化出更加智能的多模態能力。大模型的算力需求體現在:大模型的算力需求體現在:預預訓練、推理、調優訓練、推理、調優 拆解來看,大模型的算力需求場景主要包括預訓練、Finetune 及日常運營。對于三部分的算力需求,我們的測算思路如下:1)預訓練:基于“Chinchilla 縮放定律”假設,計算量可以通過公式 C6NBS 來刻畫;2)推理:以ChatGPT 流量為基準,計算量可以通過公式 C2NBS 來刻畫;3)調優:通過調優所需的 GPU 核時數倒推。以 1000 億參數模型的預訓練/推理/調優為例,三個環節所需的算力需求分別為 13889、5555
5、.6、216 PFlop/s-day。我們認為,在縮放定律(Scaling Law)加持下,隨著模型體量增長,算力需求有望持續釋放?;A設施需求有望持續釋放基礎設施需求有望持續釋放,關注算力產業投資機遇,關注算力產業投資機遇 結合對大模型預訓練/推理/調優的算力需求測算,我們預計從開發到成熟運營一個千億模型,對 A100 等效 GPU 的需求量為 2.8 萬張。根據我們的測算,成熟大模型的運營有望帶來 3169 億美元的全球 AI 服務器增量市場。對比來看,據IDC,2023年全球AI服務器市場規模211億美元,預計2024-2025年 CAGR 將達 22.7%,未來仍有較大成長空間。此外,
6、考慮到國內對高性能芯片獲取受限,AI GPU 國產化也有望進一步提速。產業鏈相關公司包括:1、英偉達鏈:浪潮信息、工業富聯、中際旭創、滬電股份等;2、昇騰鏈:神州數碼等;3、海光鏈:海光信息、中科曙光等;4、EDA:華大九天等。風險提示:宏觀經濟波動、下游需求不及預期、測算結果可能存在偏差。(45)(32)(20)(7)6Apr-23Aug-23Dec-23Apr-24(%)計算機滬深300 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。2 計算機計算機 正文目錄正文目錄“Scaling Law”驅動大模型算力需求持續增長驅動大模型算力需求持續增長.3 預訓練:縮放定律下算力需求
7、有望持續增長.5 推理:高并發是推理計算需求的主要驅動力.8 調優:算力需求主要取決于調優次數.10 算力基礎設施需求有望持續釋放,關注算力產業機遇算力基礎設施需求有望持續釋放,關注算力產業機遇.12 風險提示風險提示.14 圖表目錄圖表目錄 圖表 1:大語言模型(LLM)演化樹.3 圖表 2:下一代大模型或向更大參數方向演化.4 圖表 3:大模型算力需求框架.4 圖表 4:大模型預訓練效果主要由參數量、Token 數量、計算量決定,且滿足“縮放定律”.5 圖表 5:大模型預訓練算力需求.5 圖表 6:同等 Token 量下,模型越大效果越好.6 圖表 7:縮放定律應該優先考慮參數量的放大.6
8、 圖表 8:大模型預訓練算力需求.6 圖表 9:“Chinchilla 縮放定律”下不同體量模型預訓練所需算力.7 圖表 10:Transformer 架構解碼模塊堆疊形成 GPT 模型基礎架構.8 圖表 11:大模型推理需要過程需要經過從文本嵌入到文本輸出的過程.8 圖表 12:大模型推理算力需求.9 圖表 13:大模型推理算力需求測算.9 圖表 14:人工反饋的強化學習的基本原理.10 圖表 15:ChatGPT 等大語言模型需要進行微調以實現效果對齊.10 圖表 16:Deepspeed Chat 模型調優服務所需 GPU 核時數.11 圖表 17:不同參數體量模型 30 次調優算力需求
9、.11 圖表 18:英偉達 A100/A800 加速卡性能.12 圖表 19:大模型 GPU 需求測算.12 圖表 20:模型廠商對服務器的需求測算.13 圖表 21:全球 AI GPU 市場規模.13 圖表 22:全球 AI 服務器市場規模.13 圖表 23:國產主流 AI GPU 對比英偉達 A 系列 GPU.14 GUgVzWbWjZfUGWhV9UkX7NdN9PsQpPoMmQlOmMtPlOpOoQaQpOnNxNpNrQuOqQnP 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。3 計算機計算機 “Scaling Law”驅動大模型算力需求持續增長”驅動大模型算力需
10、求持續增長 Transformer 的出現開啟了大模型演化之路。的出現開啟了大模型演化之路。大語言模型(LLM)是在大量數據集上預訓練的模型,且沒有針對特定任務調整數據,其在處理各種 NLP(自然語言處理)任務方面顯示出了較大潛力,如自然語言理解(NLU)、自然語言生成任務等。從 LLM 近年的發展情況來看,其路線主要分為三種:1)編碼器路線;2)編解碼器路線;3)解碼器路線。從發展特點來看:1)解碼器路線占據主導,歸因于 2020 年 GPT-3 模型表現出的優異性能;2)GPT 系列模型保持領先,或歸因于 OpenAI 對其解碼器技術道路的堅持;3)模型閉源逐漸成為頭部玩家的發展趨勢,這一
11、趨勢同樣起源于 GPT-3 模型,而 Google 等公司也開始跟進;4)編解碼器路線仍然在持續發展,但是在模型數量上少于解碼器路線,或歸因于其復雜的結構,導致其在工程實現上沒有明顯的優勢。圖表圖表1:大語言模型(大語言模型(LLM)演化樹)演化樹 資料來源:Harnessing the Power of LLMs in Practice:A Survey on ChatGPT and Beyond,Yang Jingfeng(2023)、華泰研究 大模型或將向更大參數的方向大模型或將向更大參數的方向不斷不斷演化演化。我們看到從 GPT-1 到 GPT-4 模型、從 PaLM 到Gemini
12、模型,每一代模型的能力在不斷強化,在各項測試中取得的成績也越來越好。而模型背后的能力來源,我們認為參數和數據集是最重要的兩個變量。從十億規模,到百億、千億、萬億,模型參數量的增加類似人類神經突觸數量的增加,帶來模型感知能力、推理能力、記憶能力的不斷提升。而數據集的增加,則類似人類學習知識的過程,不斷強化模型對現實世界的理解能力。因此,我們認為下一代模型或仍將延續更大體量參數的路線,演化出更加智能的多模態能力。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。4 計算機計算機 圖表圖表2:下一代大模型或向更大參數方向演化下一代大模型或向更大參數方向演化 資料來源:谷歌官網,華泰研究 拆
13、解來看,拆解來看,大模型的算力需求場景主要包括預訓練、大模型的算力需求場景主要包括預訓練、Finetune 及日常運營及日常運營。從 ChatGPT實際應用情況來看,從訓練+推理的框架出發,我們可以將大模型的算力需求按場景進一步拆分為預訓練、Finetune 及日常運營三個部分:1)預訓練:主要通過大量無標注的純文本數據,訓練模型基礎語言能力,得到類似 GPT-1/2/3 這樣的基礎大模型;2)Finetune:在完成預訓練的大模型基礎上,進行監督學習、強化學習、遷移學習等二次或多次訓練,實現對模型參數量的優化調整;3)日常運營:基于用戶輸入信息,加載模型參數進行推理計算,并實現最終結果的反饋
14、輸出。圖表圖表3:大模型大模型算力需求框架算力需求框架 資料來源:OpenAI、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。5 計算機計算機 預預訓練:訓練:縮放定律下算力需求有望持續增長縮放定律下算力需求有望持續增長 大模型預訓練大模型預訓練效果主要由參數量、效果主要由參數量、Token 數量、計算量決定數量、計算量決定,且滿足“縮放定律”,且滿足“縮放定律”。根據OpenAI 在 2020 年發表的論文Scaling Laws for Neural Language Models,在大語言模型訓練的過程中,參數量、Token 數量、計算量對大模型的性能表現有著顯著
15、影響。為了獲得最佳性能,這三個因素必須同時放大。當不受其他兩個因素的制約時,模型性能與每個單獨因素呈冪律關系,即滿足“縮放定律”。圖表圖表4:大模型預訓練效果主要由參數量、大模型預訓練效果主要由參數量、Token 數量、計算量決定,且滿足“縮放定律”數量、計算量決定,且滿足“縮放定律”資料來源:Scaling Laws for Neural Language Models,OpenAI,2020、華泰研究 OpenAI 認為模型預訓練的計算量可以通過公式認為模型預訓練的計算量可以通過公式 C6NBS 來刻畫來刻畫。根據 OpenAI 在 2020年發表的論文Scaling Laws for N
16、eural Language Models,預訓練一個 Transformer 架構模型所需要的算力(C)主要體現在前向反饋()和后向反饋()過程,并主要由三個變量決定:模型參數量(N)、每步訓練消耗的 Token 批量(B)、預訓練需要的迭代次數(S)。其中,B、S 的乘積即為預訓練所消耗的 Token 總數量?;诖?,我們可以通過 C6NBS 來刻畫大模型預訓練所需要的算力大小。圖表圖表5:大模型預訓練算力需求大模型預訓練算力需求 資料來源:Scaling Laws for Neural Language Models,OpenAI,2020、華泰研究 免責聲明和披露以及分析師聲明是報告的
17、一部分,請務必一起閱讀。6 計算機計算機 其中,其中,OpenAI 認為模型參數量是最重要變量認為模型參數量是最重要變量,參數越大模型效果越好,參數越大模型效果越好。OpenAI 認為,隨著更多的計算變得可用,模型開發者可以選擇分配多少用于訓練更大的模型,使用更大的批處理,以及訓練更多的步驟。假設計算量增長十億倍,那么為了獲得最優的計算效率訓練,增加的大部分應該用于增加模型大小。為了避免重用,只需要相對較小的數據增量。在增加的數據中,大多數可以通過更大的批處理大小來增加并行性,而所需的串行訓練時間只增加很少一部分。圖表圖表6:同等同等 Token 量下,模型越大效果越好量下,模型越大效果越好
18、圖表圖表7:縮放定律應該優先考慮參數量的放大縮放定律應該優先考慮參數量的放大 資料來源:Scaling Laws for Neural Language Models,OpenAI,2020、華泰研究 資料來源:Scaling Laws for Neural Language Models,OpenAI,2020、華泰研究 谷歌提出“谷歌提出“Chinchilla 縮放定律縮放定律”,認為認為模型參數與訓練數據集模型參數與訓練數據集需要等比例放大以實現需要等比例放大以實現最佳最佳效果效果。據谷歌 DeepMind 在 2022 年發表的Training Compute-Optimal Larg
19、e Language Models,模型預訓練需要的 Token 數量和參數量的放大與模型性能之間的關系并不是線性的,而是在模型參數量與訓練消耗 Token 數量達到特定比例的時刻,才能實現最佳的模型效果。為了驗證這一規律,谷歌用 1.4 萬億個 Tokens 訓練了一個 700 億個參數的模型(“Chinchilla”),結果發現其效果比用 3000 億個 token 訓練的 2800 億參數模型 Gopher更好。而 DeepMind 進一步的研究發現,計算最優語言模型的參數量和數據集大小的近似關系滿足:D=20P,其中 D 表示 Token 數量,P 表示模型參數量,即在此比例下滿足“C
20、hinchilla 縮放定律”。圖表圖表8:大模型預訓練算力需求大模型預訓練算力需求 資料來源:Training Compute-Optimal Large Language Models,DeepMind,2022、華泰研究 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。7 計算機計算機 我們預計我們預計訓練千億參數模型所需算力在訓練千億參數模型所需算力在 1 萬萬 PFlop/s-day 以上以上。我們假設不同參數體量的模型均滿足“Chinchilla 縮放定律”,由此測算不同模型所需的最優數據集大小及預訓練所需的算力。以訓練 1000 億參數的大語言模型為例,“Chinch
21、illa 縮放定律”下所需的訓練Token 數量為 2 萬億個。根據 OpenAI 所提出的計算量公式 C=6NBS,可以計算得到,訓練 1000 億參數模型所需的算力約 1.39x104 PFlop/s-day。同理,訓練 5000 億參數模型所需算力約3.47x105 PFlop/s-day,訓練1萬億參數模型所需算力約1.39x106 PFlop/s-day。圖表圖表9:“Chinchilla 縮放定律”縮放定律”下不同體量模型預訓練所需算力下不同體量模型預訓練所需算力 參數量(億個)參數量(億個)Token(億個)(億個)算力需求(算力需求(PFlop/s-day)模型模型 1 500
22、 1.00 x104 3.47 x103 模型模型 2 1000 2.00 x104 1.39 x104 模型模型 3 3000 6.00 x104 1.25 x105 模型模型 4 5000 1.00 x105 3.47 x105 模型模型 5 10000 2.00 x105 1.39 x106 模型模型 6 20000 4.00 x105 5.56 x106 資料來源:Training Compute-Optimal Large Language Models,DeepMind,2022、華泰研究預測 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。8 計算機計算機 推理:推理
23、:高并發是推理計算需求的主要驅動力高并發是推理計算需求的主要驅動力 GPT 模型模型底層架構由解碼器模塊構成底層架構由解碼器模塊構成。在 GPT 這類大語言模型中,解碼模塊相當于基本架構單元,通過彼此堆疊的方式,拼湊成最終我們看到的 GPT 模型底層架構。解碼模塊的數量決定了模型的規模,GPT-1 一般有 12 個模塊,GPT-2 有 48 個,GPT-3 則有 96 個模塊。模塊數量越多,則意味著模型參數量越大,模型體積也越大。圖表圖表10:Transformer 架構解碼模塊堆疊形成架構解碼模塊堆疊形成 GPT 模型基礎架構模型基礎架構 資料來源:Improving Language Un
24、derstanding by Generative Pre-Training,OpenAI,2018、華泰研究 解碼模塊通過計算解碼模塊通過計算 Token 化的文本數據,實現大模型推理化的文本數據,實現大模型推理。據 OpenAI 在 2020 年發表的論文Scaling Laws for Neural Language Models,大模型在完成訓練之后,模型本身已經固定,參數配置完成之后即可進行推理應用。而推理過程實質上就是對大模型參數的再次遍歷,通過輸入文本編碼后的向量,經過注意力機制的計算,輸出結果并轉化為文字。這一過程中,模型的參數量取決于模型層數、前饋層的層數、注意力機制層的頭數
25、(head)等。圖表圖表11:大模型大模型推理需要過程推理需要過程需要經過從文本嵌入到文本輸出的過程需要經過從文本嵌入到文本輸出的過程 資料來源:Scaling Laws for Neural Language Models,OpenAI,2020、華泰研究 推理過程所需要的算力可以由公式推理過程所需要的算力可以由公式 C2NBS 來刻畫來刻畫。由于解碼模塊在進行推理的過程中,主要執行前向傳播,主要計算量體現在文本編碼、注意力機制計算、文本解碼等環節。根據 OpenAI 給出的計算公式,每輸入一個 Token,并經歷這樣一次計算過程,所需要的計算量=2N+2,其中公式后半部分主要反映上下文窗口
26、大小,由于這部分在總計算量中的占比較小,所需字節常以 K 級別表示,因此在計算中往往予以忽略。最終,我們得到大模型推理的計算需求為單次計算量與 Token 數量的乘積,即C2NBS。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。9 計算機計算機 圖表圖表12:大模型推理算力需求大模型推理算力需求 資料來源:Scaling Laws for Neural Language Models,OpenAI,2020、華泰研究 在在 ChatGPT 同等訪問量下,同等訪問量下,我們預計我們預計千億模型推理所需算力需求在千億模型推理所需算力需求在 5000 PFlop/s 以上以上。據 Si
27、milarweb 數據,2024 年 3 月 ChatGPT 官網訪問量為 18 億次。我們假設每次用戶訪問會進行 10 次問答,每次問答消耗的 Token 數量為 800 個,則計算得 4 月 ChatGPT 官網每秒消耗的 Token 數量為 0.06 億個??紤]到算力基礎設施建設是按照峰值需求而不是平均需求來確定,因此我們進一步假設峰值 Token 需求為均值的 5 倍。最后,假設不同參數模型擁有 ChatGPT 同等訪問量,根據 C2NBS 公式,計算得 1000、5000、10000 億參數模型的每秒推理算力需求分別為 5555.6、27777.8、55555.6 PFlop/s。圖
28、表圖表13:大模型推理算力需求測算大模型推理算力需求測算 參數假設參數假設 1 參數假設參數假設 2 參數假設參數假設 3 參數假設參數假設 4 參數假設參數假設 5 參數假設參數假設 6 推理算力需求(推理算力需求(PFlop/s)2777.8 5555.6 16666.7 27777.8 55555.6 111111.1 4 月推理月推理 Token 峰值消耗數量(億個)峰值消耗數量(億個)0.3 0.3 0.3 0.3 0.3 0.3 4 月秒均月秒均 Token 消耗量(億個)消耗量(億個)0.06 0.06 0.06 0.06 0.06 0.06 4 月訪問量(億次)月訪問量(億次)
29、18 18 18 18 18 18 每次訪問提問次數(次)每次訪問提問次數(次)10 10 10 10 10 10 每次問答每次問答 Token 數量(個)數量(個)800 800 800 800 800 800 峰值倍數峰值倍數 5 5 5 5 5 5 模型參數量(億個)模型參數量(億個)500 1000 3000 5000 10000 20000 資料來源:Similarweb、華泰研究預測 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。10 計算機計算機 調優:調優:算力需求主要取決于調優次數算力需求主要取決于調優次數 大模型完成預訓練之后還需要進行大模型完成預訓練之后還需
30、要進行參數參數調優以符合人類需求調優以符合人類需求。一般而言,大語言模型在完成預訓練之后,還需要經過持續的調優(Finetune)才能實現較好的運行效果。以 OpenAI為例,模型調優的過程采用人類反饋機制(RLHF)進行。強化學習通過獎勵(Reward)機制來指導模型訓練,獎勵機制可以視為傳統模訓練機制的損失函數。獎勵的計算要比損失函數更靈活和多樣(例如 AlphaGO 的獎勵是對局的勝負),代價是獎勵計算不可導,不能直接拿來做反向傳播。強化學習的思路是通過對獎勵的大量采樣來擬合損失函數,從而實現模型的訓練。類似的,人類反饋也不可導,也可以作為強化學習的獎勵,從而產生基于人工反饋的強化學習。
31、圖表圖表14:人工反饋的強化學習的基本原理人工反饋的強化學習的基本原理 資料來源:OpenAI 官網、華泰研究 以以ChatGPT為例,調優過程主要經過三大步驟為例,調優過程主要經過三大步驟?;谌祟惙答伒膹娀瘜W習技術,以ChatGPT的調優過程主要分三步進行:1)訓練監督模型;2)訓練獎勵模型;3)進行 PPO 參數強化學習。調優之后,模型的參數會得到更新,所生成的答案也會更加接近人類所期望的結果。因此,調優過程對算力的需求實際上與預訓練類似,都需要對模型參數進行遍歷,但所使用的數據集較預訓練會小得多。圖表圖表15:ChatGPT 等大語言模型需要進行微調以實現效果對齊等大語言模型需要進行微
32、調以實現效果對齊 資料來源:OpenAI 官網、華泰研究 強化學習算法強化學習算法環境環境獎勵預測獎勵預測人類人類反饋反饋觀察觀察行動行動預測的預測的獎勵獎勵 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。11 計算機計算機 大模型調優的算力需求可以通過調優所需的大模型調優的算力需求可以通過調優所需的 GPU 核時數倒推核時數倒推。對于大模型調優所需的算力需求,我們采用實際消耗 GPU 核時數的方式進行反推。據 Deepspeed Chat(微軟旗下專注于模型調優的服務商),進行一次 130 億模型的調優,需要使用 8 張 A800 加速卡,耗費9 小時完成。據英偉達官網,A80
33、0 加速卡峰值算力約 312 TFLOPS(TF32,采用稀疏技術)。據此計算得,進行一次 130 億參數模型的調優,需要耗費算力約 0.9 PFlop/s-day。以此類推,對 300 億、660 億、1750 億參數模型進行一次調優所需的算力分別為 1.9、5.2、8.3 PFlop/s-day。圖表圖表16:Deepspeed Chat 模型調優服務所需模型調優服務所需 GPU 核時數核時數 模型模型 1 模型模型 2 模型模型 3 模型模型 4 模型參數(億)模型參數(億)130 300 660 1750 單次單次 Finetune 算力(算力(PFlop/s-day)0.9 1.9
34、5.2 8.3 訓練時長(小時)訓練時長(小時)9 18 50.4 20 8xA800 算力(算力(TF32,PFlop/s-day)2.5 2.5 2.5 20.0 注:調優 1750 億參數模型使用的服務器實例為 8 臺,對應 64 張 A800 加速卡 資料來源:Deepspeed Chat、英偉達、華泰研究預測 我們預計每月調優萬億參數模型所需算力在我們預計每月調優萬億參數模型所需算力在 2000 PFlop/s-day 以上以上。為了便于比較,我們進一步假設,不同參數體量的模型均采用單個 A800 服務器實例(即 8 張 A800 加速卡)進行調優訓練,且訓練時長與模型參數量成正比。
35、此外,考慮到調優次數問題,我們假設每個月大模型廠商需要對模型進行 30 次調優?;诖?,我們測算得 1000 億參數模型每月調優所需算力為 216 PFlop/s-day,1 萬億參數模型每月調優所需算力為 2160 PFlop/s-day。圖表圖表17:不同參數體量模型不同參數體量模型 30 次調優算力需求次調優算力需求 模型模型 1 模型模型 2 模型模型 3 模型模型 4 模型模型 5 模型模型 6 模型參數(億)模型參數(億)500 1000 3000 5000 10000 20000 單次單次 Finetune 算力(算力(PFlop/s-day)3.6 7.2 21.6 36.0
36、72.0 144.0 訓練時長(小時)訓練時長(小時)35 69 208 346 692 1385 8xA800 算力(算力(TF32,PFlop/s-day)2.5 2.5 2.5 2.5 2.5 2.5 30 次次 Finetune 算力(算力(PFlop/s-day)108.0 216.0 648.0 1080.0 2160.0 4320.0 資料來源:Deepspeed Chat、英偉達、華泰研究預測 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。12 計算機計算機 算力基礎設施需求有望持續釋放,關注算力算力基礎設施需求有望持續釋放,關注算力產業產業機遇機遇 大大模型訓練
37、模型訓練/推理推理/調優調優帶來算力硬件需求帶來算力硬件需求。對于大模型的計算需求,目前主流的做法是采用AI 服務器進行承載,核心器件是 AI GPU,如英偉達 A100、H100、B100 等。據英偉達,單張 A100 加速卡 TF32 峰值算力為 312 TFLOPS(采用稀疏技術)、FP16 峰值算力為 624 TFLOPS(采用稀疏技術)??紤]到實際工作負載中,往往采用多卡互聯進行模型的訓練和推理,需要考慮有效算力問題。據 Sid Black 等人 2022 年發布的GPT-NeoX-20B:An Open-Source Autoregressive Language Model,多張
38、 A100 互聯下,單卡有效算力約 117 TFLOPS(TF32,采用稀疏技術),即有效算力比例為 37.5%。我們假設,推理過程的有效算力比例與訓練過程相當,則單卡的推理算力為 234 TFLOPS(FP16,采用稀疏技術)。圖表圖表18:英偉達英偉達 A100/A800 加速卡性能加速卡性能 A100 SXM A800 SXM 數數據傳據傳輸速率輸速率 600GB/s 400GB/s 顯存帶寬顯存帶寬 2TB/s 2TB/s 顯存容量顯存容量 80GB 80GB FP64 9.7 TFLOPS 9.7 TFLOPS FP32 19.5 TFLOPS 19.5 TFLOPS TF32 31
39、2 TFLOPS 312 TFLOPS FP16 624 TFLOPS 624 TFLOPS INT8 1248 TFLOPS 1248 TFLOPS 注:TF32、FP16、INT8 均為采用稀疏技術下的算力性能 資料來源:英偉達官網、華泰研究 我們預計千億模型訓練我們預計千億模型訓練/推理推理/調優的調優的 A100 等效等效 GPU 需求量為需求量為 2.8 萬張萬張。對于大模型所需要的算力基礎設施數量,我們以 GPU/服務器數量進行測算。根據我們的測算框架,大模型對算力的總需求即為預訓練、推理和調優的算力需求之和??紤]到模型預訓練完成之后,服務器等基礎設施通常會被用于下一代模型的開發,
40、因此我們假設預訓練、推理、調優的算力需求將并發出現。此外,我們假設訓練、推理、調優均在一個月內完成,基于此,測算得 1000 億參數模型對 A100 GPU 的需求為 2.8 萬張,5000 億模型的需求為 21.8 萬張,10000 億模型的需求為 63.4 萬張。我們進一步假設所有服務器均集成 8 張 A100 加速卡,則 1000、5000、10000 億參數模型對 AI 服務器需求量分別為 0.3、2.7、7.9 萬臺。圖表圖表19:大模型大模型 GPU 需求測算需求測算 模型模型 1 模型模型 2 模型模型 3 模型模型 4 模型模型 5 模型模型 6 模型參數(億)模型參數(億)5
41、00 1000 3000 5000 10000 20000 總算力需求(總算力需求(PFlop/s-day)86914 180772 625648 1181636 3057716 8893209 預訓練算力需求(預訓練算力需求(PFlop/s-day)3472 13889 125000 347222 1388889 5555556 30 天推理算力需求(天推理算力需求(PFlop/s-day)83333 166667 500000 833333 1666667 3333333 30 次調優算力需求(次調優算力需求(PFlop/s-day)108 216 648 1080 2160 4320 總
42、總 GPU 需求(需求(A100,張)張)12891 27760 107022 217940 633727 2058844 預訓練預訓練 GPU 需求(張)需求(張)989 3957 35613 98924 395695 1582779 推理推理 GPU 需求(張)需求(張)11871 23742 71225 118708 237417 474834 調優調優 GPU 需求(張)需求(張)31 62 185 308 615 1231 總服務器需求(總服務器需求(8 卡,卡,臺)臺)1611 3470 13378 27242 79216 257355 預訓練預訓練 GPU 需求(臺)需求(臺)1
43、24 495 4452 12365 49462 197847 推理推理 GPU 需求(臺)需求(臺)1484 2968 8903 14839 29677 59354 30 次調優次調優 GPU 需求(臺)需求(臺)4 8 23 38 77 154 資料來源:NVIDIA 官網、華泰研究預測 免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。13 計算機計算機 成熟大模型的運營有望帶來成熟大模型的運營有望帶來 3169 億美元的億美元的 AI 服務器市場空間服務器市場空間。據中國科學技術信息研究所發布的 中國人工智能大模型地圖研究報告,截至 2023 年 5 月全球累計發布大模型 20
44、2個,中美兩國大模型的數量占全球大模型數量的近 90%。我們預計,目前全球大模型數量仍在持續增加,但隨著大模型的迭代,模型廠商之間的競爭或將逐步趨于均衡?;诖?,我們保守假設未來或將有 30 家廠商實現 1000 億參數模型的成熟運營,20 家廠商實現 5000億參數模型的成熟運營,10 家廠商實現 10000 億參數模型的成熟運營。據京東,單臺浪潮NF5688M6 服務器配備 8 張 A800 加速卡,售價為 159 萬元/臺,按美元兌人民幣 1:7.23 換算約 22 萬美元/臺?;谇笆霾煌P蛯Ψ掌鞯男枨?,我們測算得全球大模型廠商服務器需求規模為 3169 億美元。圖表圖表20:模型
45、廠商對服務器的需求測模型廠商對服務器的需求測算算 廠商數量(家)廠商數量(家)每個廠商的服務器需求量(臺)每個廠商的服務器需求量(臺)服務器單價(萬美元)服務器單價(萬美元)服務器需求規模(億美元)服務器需求規模(億美元)1000 億模型億模型 30 3470 22 229 5000 億模型億模型 20 27242 1198 10000 億模型億模型 10 79216 1742 總計總計 3169 注:美元兌人民幣匯率假設為 1:7.23 資料來源:華泰研究預測 對比之下,目前全球對比之下,目前全球 AI 服務器市場規模僅為服務器市場規模僅為 211 億美元,仍有較大成長空間億美元,仍有較大成
46、長空間。據 Gartner,2023 年全球 AI 芯片市場規模 534 億美元,預計 2024 年同比增速將達 25.7%。據 IDC,2023 年全球 AI 服務器市場規模 211 億美元,預計 2025 年市場規模將達 318 億美元,2024-2025 年 CAGR 將達 22.7%。對比來看,全球大模型廠商的持續競爭和成熟運營有望帶來 3169 億美元的空間,而當下市場規模僅為 211 億美元,仍有較大成長空間。我們認為,隨著全球大模型百花齊放,AI 應用相繼問世,訓練/推理/調優需求有望帶動算力基礎設施建設需求快速增長。圖表圖表21:全球全球 AI GPU 市場規模市場規模 圖表圖
47、表22:全球全球 AI 服務器市場規模服務器市場規模 資料來源:Gartner、華泰研究 資料來源:IDC、華泰研究 國產化背景下,國產國產化背景下,國產 AI GPU 有望加速追趕有望加速追趕。2023 年 10 月 17 日,美國商務部工業與安全局(BIS)發布針對中國的先進計算及半導體制造物項出口限制,國內對于高性能 AI 芯片進口受限。另一方面,我們也看到,目前國產 AI GPU 較海外先進水平仍有差距。國產 AI GPU中,基于華為昇騰 910 設計的 Atlas 300T 算力性能較強,FP16 計算性能在不考慮稀疏技術的情況下約為英偉達 A800 SXM 的 90%。但較英偉達最
48、先進的 B100 等產品,仍有至少2 代以上的產品差距。我們認為,AI 芯片進口受限的背景下,AI GPU 國產化有望提速,技術迭代之下,海內外差距有望逐步縮小。20.9%25.7%0%5%10%15%20%25%30%010020030040050060070080020222023E2024E全球AI芯片市場規模(億美元)yoy3187.5%23.2%27.9%17.3%15.3%0%5%10%15%20%25%30%050100150200250300350201920202021202220232025E全球AI服務器市場規模(億美元)yoy 免責聲明和披露以及分析師聲明是報告的一部分
49、,請務必一起閱讀。14 計算機計算機 圖表圖表23:國產主流國產主流 AI GPU 對比英偉達對比英偉達 A系列系列 GPU A100 SXM A800 SXM Atlas 300T 訓練卡訓練卡 寒武紀寒武紀 思元思元 370 海光海光 深算一號深算一號 數數據傳據傳輸速率輸速率 600GB/s 400GB/s 56.5GB/s-184 GB/s 顯存帶寬顯存帶寬 2TB/s 2TB/s 2933MT/s 614.4 GB/s 1024 GB/s 顯存容量顯存容量 80GB 80GB 32GB HBM/16GB DDR4 48GB 32GB FP64 9.7 TFLOPS 9.7 TFLOP
50、S-FP32 19.5 TFLOPS 19.5 TFLOPS-24 TF32 156 TFLOPS 156 TFLOPS-FP16 312 TFLOPS 312 TFLOPS 280 TFLOPS 96 INT8 624 TFLOPS 624 TFLOPS-256 注:TF32、FP16、INT8 均為不采用稀疏技術下的算力性能 資料來源:英偉達官網、華為官網、寒武紀官網、海光信息招股書、華泰研究 從產業鏈視角來看,從產業鏈視角來看,主要相關公司包括:主要相關公司包括:1)英偉達鏈:浪潮信息、工業富聯、中際旭創、滬電股份等;2)昇騰鏈:神州數碼等;3)海光鏈:海光信息、中科曙光等;4)EDA:
51、華大九天等。風險提示風險提示 宏觀經濟波動。宏觀經濟波動。若宏觀經濟波動,產業變革及新技術的落地節奏或將受到影響,宏觀經濟波動還可能對 IT 投資產生負面影響,從而導致整體行業增長不及預期。下游需求不及預期。下游需求不及預期。若下游對算力需求不及預期,相關的算力投入增長或慢于預期,致使行業增長不及預期。測算結果可能存在偏差測算結果可能存在偏差。本文中的測算過程中用到“縮放定律”、“Chinchilla 縮放定律”等假設,存在一定主觀性,若與實際模型訓練過程不符,則可能導致算力需求存在偏差。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。15 計算機計算機 免責免責聲明聲明 分析師聲
52、明分析師聲明 本人,謝春生,茲證明本報告所表達的觀點準確地反映了分析師對標的證券或發行人的個人意見;彼以往、現在或未來并無就其研究報告所提供的具體建議或所表迖的意見直接或間接收取任何報酬。一般聲明及披露一般聲明及披露 本報告由華泰證券股份有限公司(已具備中國證監會批準的證券投資咨詢業務資格,以下簡稱“本公司”)制作。本報告所載資料是僅供接收人的嚴格保密資料。本報告僅供本公司及其客戶和其關聯機構使用。本公司不因接收人收到本報告而視其為客戶。本報告基于本公司認為可靠的、已公開的信息編制,但本公司及其關聯機構(以下統稱為“華泰”)對該等信息的準確性及完整性不作任何保證。本報告所載的意見、評估及預測僅
53、反映報告發布當日的觀點和判斷。在不同時期,華泰可能會發出與本報告所載意見、評估及預測不一致的研究報告。同時,本報告所指的證券或投資標的的價格、價值及投資收入可能會波動。以往表現并不能指引未來,未來回報并不能得到保證,并存在損失本金的可能。華泰不保證本報告所含信息保持在最新狀態。華泰對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本公司不是 FINRA 的注冊會員,其研究分析師亦沒有注冊為 FINRA 的研究分析師/不具有 FINRA 分析師的注冊資格。華泰力求報告內容客觀、公正,但本報告所載的觀點、結論和建議僅供參考,不構成購買或出售所述證券的要約或招攬。該
54、等觀點、建議并未考慮到個別投資者的具體投資目的、財務狀況以及特定需求,在任何時候均不構成對客戶私人投資建議。投資者應當充分考慮自身特定狀況,并完整理解和使用本報告內容,不應視本報告為做出投資決策的唯一因素。對依據或者使用本報告所造成的一切后果,華泰及作者均不承擔任何法律責任。任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。除非另行說明,本報告中所引用的關于業績的數據代表過往表現,過往的業績表現不應作為日后回報的預示。華泰不承諾也不保證任何預示的回報會得以實現,分析中所做的預測可能是基于相應的假設,任何假設的變化可能會顯著影響所預測的回報。華泰及作者在自身所知情的范圍內,
55、與本報告所指的證券或投資標的不存在法律禁止的利害關系。在法律許可的情況下,華泰可能會持有報告中提到的公司所發行的證券頭寸并進行交易,為該公司提供投資銀行、財務顧問或者金融產品等相關服務或向該公司招攬業務。華泰的銷售人員、交易人員或其他專業人士可能會依據不同假設和標準、采用不同的分析方法而口頭或書面發表與本報告意見及建議不一致的市場評論和/或交易觀點。華泰沒有將此意見及建議向報告所有接收者進行更新的義務。華泰的資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告中的意見或建議不一致的投資決策。投資者應當考慮到華泰及/或其相關人員可能存在影響本報告觀點客觀性的潛在利益沖突。投資者請勿將本
56、報告視為投資或其他決定的唯一信賴依據。有關該方面的具體披露請參照本報告尾部。本報告并非意圖發送、發布給在當地法律或監管規則下不允許向其發送、發布的機構或人員,也并非意圖發送、發布給因可得到、使用本報告的行為而使華泰違反或受制于當地法律或監管規則的機構或人員。本報告版權僅為本公司所有。未經本公司書面許可,任何機構或個人不得以翻版、復制、發表、引用或再次分發他人(無論整份或部分)等任何形式侵犯本公司版權。如征得本公司同意進行引用、刊發的,需在允許的范圍內使用,并需在使用前獲取獨立的法律意見,以確定該引用、刊發符合當地適用法規的要求,同時注明出處為“華泰證券研究所”,且不得對本報告進行任何有悖原意的
57、引用、刪節和修改。本公司保留追究相關責任的權利。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記。中國香港中國香港 本報告由華泰證券股份有限公司制作,在香港由華泰金融控股(香港)有限公司向符合證券及期貨條例及其附屬法律規定的機構投資者和專業投資者的客戶進行分發。華泰金融控股(香港)有限公司受香港證券及期貨事務監察委員會監管,是華泰國際金融控股有限公司的全資子公司,后者為華泰證券股份有限公司的全資子公司。在香港獲得本報告的人員若有任何有關本報告的問題,請與華泰金融控股(香港)有限公司聯系。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。16 計算機計算機 香港香
58、港-重要監管披露重要監管披露 華泰金融控股(香港)有限公司的雇員或其關聯人士沒有擔任本報告中提及的公司或發行人的高級人員。滬電股份(002463 CH)、中際旭創(300308 CH):華泰金融控股(香港)有限公司、其子公司和/或其關聯公司實益持有標的公司的市場資本值的 1%或以上。海光信息(688041 CH):華泰金融控股(香港)有限公司、其子公司和/或其關聯公司在本報告發布日擔任標的公司證券做市商或者證券流動性提供者。有關重要的披露信息,請參華泰金融控股(香港)有限公司的網頁 https:/.hk/stock_disclosure 其他信息請參見下方“美國“美國-重要監管披露”重要監管披
59、露”。美國美國 在美國本報告由華泰證券(美國)有限公司向符合美國監管規定的機構投資者進行發表與分發。華泰證券(美國)有限公司是美國注冊經紀商和美國金融業監管局(FINRA)的注冊會員。對于其在美國分發的研究報告,華泰證券(美國)有限公司根據1934 年證券交易法(修訂版)第 15a-6 條規定以及美國證券交易委員會人員解釋,對本研究報告內容負責。華泰證券(美國)有限公司聯營公司的分析師不具有美國金融監管(FINRA)分析師的注冊資格,可能不屬于華泰證券(美國)有限公司的關聯人員,因此可能不受 FINRA 關于分析師與標的公司溝通、公開露面和所持交易證券的限制。華泰證券(美國)有限公司是華泰國際
60、金融控股有限公司的全資子公司,后者為華泰證券股份有限公司的全資子公司。任何直接從華泰證券(美國)有限公司收到此報告并希望就本報告所述任何證券進行交易的人士,應通過華泰證券(美國)有限公司進行交易。美國美國-重要監管披露重要監管披露 分析師謝春生本人及相關人士并不擔任本報告所提及的標的證券或發行人的高級人員、董事或顧問。分析師及相關人士與本報告所提及的標的證券或發行人并無任何相關財務利益。本披露中所提及的“相關人士”包括 FINRA 定義下分析師的家庭成員。分析師根據華泰證券的整體收入和盈利能力獲得薪酬,包括源自公司投資銀行業務的收入。神州數碼(000034 CH):華泰證券股份有限公司、其子公
61、司和/或其聯營公司在本報告發布日之前的 12 個月內擔任了標的證券公開發行或 144A 條款發行的經辦人或聯席經辦人。神州數碼(000034 CH):華泰證券股份有限公司、其子公司和/或其聯營公司在本報告發布日之前 12 個月內曾向標的公司提供投資銀行服務并收取報酬。滬電股份(002463 CH)、中際旭創(300308 CH):華泰證券股份有限公司、其子公司和/或其聯營公司實益持有標的公司某一類普通股證券的比例達 1%或以上。海光信息(688041 CH):華泰證券股份有限公司、其子公司和/或其聯營公司在本報告發布日擔任標的公司證券做市商或者證券流動性提供者。華泰證券股份有限公司、其子公司和
62、/或其聯營公司,及/或不時會以自身或代理形式向客戶出售及購買華泰證券研究所覆蓋公司的證券/衍生工具,包括股票及債券(包括衍生品)華泰證券研究所覆蓋公司的證券/衍生工具,包括股票及債券(包括衍生品)。華泰證券股份有限公司、其子公司和/或其聯營公司,及/或其高級管理層、董事和雇員可能會持有本報告中所提到的任何證券(或任何相關投資)頭寸,并可能不時進行增持或減持該證券(或投資)。因此,投資者應該意識到可能存在利益沖突。新加坡新加坡 華泰證券(新加坡)有限公司持有新加坡金融管理局頒發的資本市場服務許可證,可從事資本市場產品交易,包括證券、集體投資計劃中的單位、交易所交易的衍生品合約和場外衍生品合約,并
63、且是財務顧問法規定的豁免財務顧問,就投資產品向他人提供建議,包括發布或公布研究分析或研究報告。華泰證券(新加坡)有限公司可能會根據財務顧問條例第 32C 條的規定分發其在華泰內的外國附屬公司各自制作的信息/研究。本報告僅供認可投資者、專家投資者或機構投資者使用,華泰證券(新加坡)有限公司不對本報告內容承擔法律責任。如果您是非預期接收者,請您立即通知并直接將本報告返回給華泰證券(新加坡)有限公司。本報告的新加坡接收者應聯系您的華泰證券(新加坡)有限公司關系經理或客戶主管,了解來自或與所分發的信息相關的事宜。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。17 計算機計算機 評級說明評
64、級說明 投資評級基于分析師對報告發布日后 6 至 12 個月內行業或公司回報潛力(含此期間的股息回報)相對基準表現的預期(A 股市場基準為滬深 300 指數,香港市場基準為恒生指數,美國市場基準為標普 500 指數,臺灣市場基準為臺灣加權指數,日本市場基準為日經 225 指數),具體如下:行業評級行業評級 增持:增持:預計行業股票指數超越基準 中性:中性:預計行業股票指數基本與基準持平 減持:減持:預計行業股票指數明顯弱于基準 公司評級公司評級 買入:買入:預計股價超越基準 15%以上 增持:增持:預計股價超越基準 5%15%持有:持有:預計股價相對基準波動在-15%5%之間 賣出:賣出:預計
65、股價弱于基準 15%以上 暫停評級:暫停評級:已暫停評級、目標價及預測,以遵守適用法規及/或公司政策 無評級:無評級:股票不在常規研究覆蓋范圍內。投資者不應期待華泰提供該等證券及/或公司相關的持續或補充信息 法律實體法律實體披露披露 中國中國:華泰證券股份有限公司具有中國證監會核準的“證券投資咨詢”業務資格,經營許可證編號為:91320000704041011J 香港香港:華泰金融控股(香港)有限公司具有香港證監會核準的“就證券提供意見”業務資格,經營許可證編號為:AOK809 美國美國:華泰證券(美國)有限公司為美國金融業監管局(FINRA)成員,具有在美國開展經紀交易商業務的資格,經營業務
66、許可編號為:CRD#:298809/SEC#:8-70231 新加坡:新加坡:華泰證券(新加坡)有限公司具有新加坡金融管理局頒發的資本市場服務許可證,并且是豁免財務顧問。公司注冊號:202233398E 華泰證券股份有限公司華泰證券股份有限公司 南京南京 北京北京 南京市建鄴區江東中路228號華泰證券廣場1號樓/郵政編碼:210019 北京市西城區太平橋大街豐盛胡同28號太平洋保險大廈A座18層/郵政編碼:100032 電話:86 25 83389999/傳真:86 25 83387521 電話:86 10 63211166/傳真:86 10 63211275 電子郵件:ht- 電子郵件:ht
67、- 深圳深圳 上海上海 深圳市福田區益田路5999號基金大廈10樓/郵政編碼:518017 上海市浦東新區東方路18號保利廣場E棟23樓/郵政編碼:200120 電話:86 755 82493932/傳真:86 755 82492062 電話:86 21 28972098/傳真:86 21 28972068 電子郵件:ht- 電子郵件:ht- 華泰金融控股(香港)有限公司華泰金融控股(香港)有限公司 香港中環皇后大道中 99 號中環中心 53 樓 電話:+852-3658-6000/傳真:+852-2567-6123 電子郵件: http:/.hk 華泰證券華泰證券(美國美國)有限公司有限公司 美國紐約公園大道 280 號 21 樓東(紐約 10017)電話:+212-763-8160/傳真:+917-725-9702 電子郵件:Huataihtsc- http:/www.htsc- 華泰證券(新加坡)有限公司華泰證券(新加坡)有限公司 濱海灣金融中心 1 號大廈,#08-02,新加坡 018981 電話:+65 68603600 傳真:+65 65091183 版權所有2024年華泰證券股份有限公司