《計算機行業AIGC系列之七:國產AI芯片的百倍算力需求!-230324(23頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業AIGC系列之七:國產AI芯片的百倍算力需求!-230324(23頁).pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、行業及產業計算機電萬宏源研究2023年03月24日國產AI芯片的百倍算力需求!行業研究行業深度看好AIGC系列之七相關研究本期投資提示:“一層是AIGC狂潮,深層是數字經濟出AI芯片是大模型的基礎。AI芯片主要分為訓練和推理兩類芯片,云和端對訓練和推理芯證券研究報告20230313-201303172023年3月18片要求不同,目前主流架構包括GPU、FPGA和ASIC三類,通用性GPUFPGAASIC8性能功耗比GPUFPGAFPGAASIC,通用性越低,代表其適合支持的算法類型約少。(2)性能功耗比:GPUFPGAASIC,性能功耗比越高越好,意味著相同功耗下運算次數越多,訓練相同算法所需
2、要的時間越短在不同的應用場景之下,已經形成了不同的AI芯片競爭格局。1.在云和數據中心AI芯片市場,“訓練”和“推理”兩個環節都是英偉達GPU一家獨大,幾乎占據90%以上份額,包括AWS、微軟Azure、谷歌云、阿里云華為云、騰訊云在內的大部分公有云廠商上線的AI加速計算公有云服務絕大部分都是基于英偉達Tesla系列GPU。請務必仔細閱讀正文之后的各項信息披露與聲明第5頁共23頁簡單金融成就夢想#page#SMSG行業深度(1)云端訓練用的幾乎全部是英偉達GPU,公有云廠商中僅谷歌云一家除了提供以英偉達GPU為主的云計算加速服務之外,還推出了基于自研AI芯片TPU的深度學習訓練服務;(2)云端
3、推理目前出現了基于GPU、FPGA、ASIC三種不同芯片云計算服務,但是市場份額仍然以英偉達GPU為主,其中AWS、阿里云、騰訊云、華為云等公有云廠商均推出了FPGA加速計算云服務,另外AWS推出了基于自研AI芯片Inferentia的ASIC加速計算服務,華為云推出了基于自研AI芯片異騰310的ASIC加速計算服務。銀“封經商“終出,芯片廠商出現手機市場以高通、華為、蘋果原主控芯片廠商為主,自動駕駛、安防IPC領域英偉達暫時領先(1)手機高通從曉龍820開始就已經具備第一代人工智能引擎AIEngine;高通從第三代AIEngine開始引入異構計算CPU、GPU和DSP的異構并行計算;目前高通
4、已經送代至第四代,曉龍855是第一個搭載第四代AIEngine的SoC。華為麒麟970、980分別引入寒武紀IP(1A/1H),使得手機SoC開始具備AI能力,在2019年6月華為發布麒麟810,華為與寒武紀合作終止,華為采用了自研AI芯片達芬奇架構(華為在2018年推出了達芬奇架構,對標寒武紀智能處理器IP一Cambricon-1A/1H/1M)。蘋果2017年發布的A11芯片也具備了AI能力,附帶NeuralEngine和開發平臺CoreML用于機器學習。(2)安防IPC:仍然以采用英偉達Jetson系列GPU為主。例如??挡捎昧擞ミ_JetsonTX1大華睿智系列人臉網絡攝像機采用的是英
5、偉達TeslaP4GPU.另外國內三大安防廠商也在陸續采用ASIC芯片,例如???、大華宇視在前端智能化攝像機中采用Movidious的Myriad系列芯片,大華自研AI芯片用于新款客智人臉攝像機(3)智能駕駛:L3級別以上自動駕駛芯片以英偉達Drive平臺為主(包括Xavier和Orin兩款SoC)華為將昇騰310用于自動駕駛域控制器MDC上,2020年已經通過車規級認證:英特爾Mobileye的EyeQ4-5被用在L3-5智能駕駛。但是目前整車廠和Tier1實際采用得最多仍然是以英偉達GPU為主。(在低級別的L1-L2輔助駕駛上,采用的是NXP、瑞薩等廠商的MCU芯片,不涉及深度學習。)(4
6、)智能音箱:目前智能音箱的語音語義識別均在云端完成推理計算,終端上沒有AI專用處理單元。請務必仔細閱讀正文之后的各項信息披露與聲明第6頁共23頁簡單金融成就夢想#page#SMSC行業深度圖1:云端訓練、云端推理、設備端推理三個細分市場的AI芯片競爭格局ADAS語音交移動設備CVVR機器人設備端推斷互設備woinbMovidiusInferenceChiptatelOn DeviceCambriconINOTIVENEFPGA+云計算ASIC云端推斷AUERA阿里云InferenceinteDpno uO182808XXLNX百膜云GoogleGPUCloudTPUTrainingNVIDIA
7、.資料來源:雷鋒網,申萬宏源研究2.AI芯片四大技術路線,寒武紀復制英偉達由于AIGC、類GPT應用有能魚效應,帶來約百倍算力需求(下文)。而英偉達等供給解決需求有瓶頸,因此國產AI芯片有邏輯上需求彈性,AI服務器也有空間。根據IDC數據,2021年全球AI服務器市場規模為156億美元,預計到2025年全球AI服務器市場將達到318億美元,預計21-25年CAGR僅僅19.5%。AI服務器的增長和規??傤~恐怕無法滿足類GPT類應用的百倍需求(例如生產地域、供應商產能、工人等限制),因此AI芯片可能會大量爆發,其次是AI服務器。近期的行業領袖創業潮,會加速這種趨勢。2012-2014年AI創業潮
8、,造就2015-2017年AI機會。2022H2-2023新一輪AI大模型創業潮。目前AI芯片主要玩家應對英偉達塑造的AI生態壁壘,選取了不同的商業策略:(1)英偉達AI芯片依然是AI訓練和推理最佳選擇;(2)寒武紀在走英偉達的路線;(3)AMD在走部分兼容CUDA的路線;(4)谷歌、華為、百度走的是“深度學習框架+AI芯片”自研路線。請務必仔細閱讀正文之后的各項信息披露與聲明第7頁共23頁簡單金融成就夢想#page#SMSG行業深度2.1英偉達:通用芯片GPU英偉達目前在深度學習訓練芯片市場占據絕對整斷地位,憑借的是:(1)CUDA是實現CPU和GPU分工的編程工具;cuDNN針對深度學習訓
9、練,將深度學習模型中對各層(Layer)的常見的操作(例如卷積convolution、池化pooling)以方便理解和使用的接口暴露給開發人員,從而使得開發人員可以快速搭建training的庫:TensorRT針對推理環節,幫助模型自動減值和優化;由于開發者對于這些工具已經非常熟悉,由于學習成本的存在不會輕易遷移;(2)深度學習框架和英偉達AI芯片的高度耦合。由于各家AI芯片廠商編程語言無法兼容,而深度學習框架廠商僅支持一家AI芯片就要投入巨大工程量,因此導致其最終只選擇市占率最大的1-2家進行深度支持英偉達在AI訓練和推理上實現了軟硬件高度耦合而構筑了極高的生態壁壘。表2:國內外主流深度學習
10、框架以及支持的硬件設備公司/機構深度學習框架發布時間支持的AI芯片國外谷歌2015年CPU/GPU(英偉達CUDA)/TPU(谷歌)Tensorfow2016年CPU/GPU(英偉達CUDA)PytorchFacebook中國PaddlePaddle(飛漿)百度2016年CPU/GPU(英偉達CUDA+AMDROCm)/昆侖XPU(百度)海光DCU/華為昇騰清華2020年Jitor(計圖)CPU/GPU(英偉達CUDA)/寒武紀華為Mndspore2020年CPU/GPU(英偉達CUDA)/華為鼻騰MegEngine(天元)礦視2020年CPU(ARM+X86)/GPU(英偉達CUDA)資料來
11、源:PaddlePaddle官網,礦視天元官網,申萬宏源研究英偉達高性能訓練和推理芯片產品主要包括V100、A100、H100以及3月21日GTC2023發布的H100NVL(2張H100通過外部接口以600GB/s的速度連接,每張卡顯存為94GB合計為188GB),預計2024年將推出基于下代Blackwell架構的B100產品。除上文提到的軟件及生態壁壘外,英偉達芯片的主要優勢在于大片上內存、高顯存帶寬以及片間互聯方案。大片上內存是支撐最高達上千億參數(GPT-31750億、GPT-3.52000億)的大模型在芯片上運行的必需,高顯存帶寬能夠實現更高的數據傳輸速率從而減少訓練時間、提升效率
12、;NVSwitch片間互聯方案則大大提升多GPU互聯的運行效率,由于大模型的訓練對算力要求非常高,chatGPT模型訓練一次消耗算力達3640p,需要上萬張A100芯片支持,英偉達NVSwitch能夠實現高速多對多全GPU通信,能夠更大程度發揮GPU集群的算力潛力。22年9月起,美國禁止峰值性能等于或大于A100問值的英偉達芯片向中國出口,合法版本A800、H800已在國內應用。由于中國高性能計算市場對英偉達來說是一個不可放請務必仔細閱讀正文之后的各項信息披露與聲明簡單金融成就夢想第8頁共23頁#page#SMSC行業深度棄的巨大市場,英偉達分別于22年11月、23年3月發布A100、H100
13、的“閥割”版本A800、H800,通過降低數據傳輸速率(顯存帶寬)至400GB/s、450GB/s避開美國限制,從而合法出口到中國,根據CEO黃仁勛在GTC2023演講,H800已在國內BAT的云計算業務中應用。表3:英偉達發布A800、H800實現向中國合法出口型號A800H100A100V100SH100 NVLV100(NVLi|V100(PCIET4nk)功耗70W700W300W700W400W300W250W250W顯存96GB HBM3e80GBHBM340GBHBM216GB80GBHBM2e32/16GB32/16GB32GBHBM2HBM2HBM2HBM2320+銀托8TB
14、S3TB/S1555GB/s900GB/s11341935GB/s900GB/sGB/sGB/S上市時間2017年5月2017年5月2019年112018年32023年下半年2022年12月2022年3月2020年5月月月(預計)4000TFOPsINT8(TOPS)7916TFOPs624TFOPS624TFOPS/1248130TOPTOPSFP162x990 TFLOPS 312TFLOPS2000 TFLOPS 624TFLOPSFP32267 19.5TFLOPS60 TFLOPs15.714TFLOPS 16.419.5 TFLOPs8.1TFLOTFLOPS ?TFLOPsTFL
15、OPS PSFP642349.7TLOPS788.230 TFLOPS9.7 TFLOPS7TFLOPSTFLOPS ?TFLOPSTFLOPSTF322495156TFLoPs/312TF1000TFLoPs 312TFLOPSTFLOPS?LOPS*FP64 Tensor2649.7 TFLOPS60TFLoPs195TFLOPsTFLOPS ?Core工藝4nm7nm4nm7nm2nm12nm2nm2nm限制銷售,須獲限制銷售,須獲許正常銷售中國供應情況還未發行正常銷售正常銷售正常銷售正常銷售許可可資料來源:英偉達官網,NVIDIAGTC2023,申萬宏源研究表4:英偉達AI推理芯片參數
16、一覽臺森A10A16A30A40L40制程8nm4nm7nm8nm4nm算力INT8Tensor核250TFLOPS5004x330 TOPS661299.3TOPS1362TOPS心TFLOPS35.9TFLOPSTOPS598.6TOPS724TOPSFP16Tensor125TFLOPS2504X165TF|330TF*149.7TF|299.4TF181.05TF核心TFLOPS17.9TFLOPS362.1TF*功耗150W250W165W300W300W顯存帶寬24GBGDDR6顯4個16G的24GBHBM2顯存、48GB顯存,696GBS帶糾錯碼的48GB存600GB/s帶寬GD
17、DR6顯存,帶寬933GB/s帶寬GDDR6,864GB/s4*200GB/s帶寬售價¥22,080¥24,150¥32,430¥36.570¥52.440資料來源:英偉達官網,英國硬件設備銷售商Thinkmate,申萬宏源研究請務必仔細閱讀正文之后的各項信息披露與聲明第9頁共23頁簡單金融成就夢想#page#SMSC行業深度2.2寒武紀:復制英偉達成長之路我們認為寒武紀芯片硬件性能相比于英偉達還有追趕空間,上層軟件堆棧與英偉達相似,全自研不是兼容路線;不同之處在于寒武紀需要自己對原生深度學習框架進行修改以支持思元芯片,而英偉達有谷歌原廠支持。硬件方面,從一些表觀的性能參數對比來看,寒武紀訓練
18、芯片思元290和英偉達A100、異騰910相比性能還有追趕的空間。軟件方面,子留到odmolosuel修改而非像華為一樣自研深度學習框架去進行優化,也不想英偉達一樣因為芯片市占率高,有Pytorch/Tensorflow原廠去做GPU算子的優化和設備的支持。另外寒武紀相比英偉達的算子庫豐富程度以及軟件工具鏈的完善程度還有一定差距,需要時間去追趕。表5:寒武紀AI芯片性能參數思元590思元370思元290思元270思元100思元220型號2021年2021年2019年2018年2019年發布年份2023年場景訓練推理訓練推理推理邊緣計算架構MLUarch03MLUW2MLUv02MLU1MLUv
19、02制程7nm7nm16nm16nm7nm16nm性能8TOPS(INTS)256TOPS(INT8)512TOPS (INT8)128 TOPS (INT8) 32TOPS (INT8)256TOPS(NT16) 64TOPS (NT16)16TOPS(FP16)4TOPS(INT16)80TFLOS(FP32)64TOPS(CINT32)功耗75W350W70W75W8.25W350-550W內存帶寬2.7TB/s1228GB/s102GB/s102.4GB/S芯片面積800mm2369.6mm2326.5mm294.8mm2資料來源:寒武紀官網,申萬宏源研究圖2:寒武紀針對原生Tenso
20、rFlow的修改(深圖3:寒武紀的端云一體軟件棧架構灰色部分)武紀E+OPyhonClier武紀營Tensor CAPDiststeNwrk y資料來源:寒武紀,申萬宏源研究資料來源:寒武紀,申萬宏源研究請務必仔細閱讀正文之后的各項信息披露與聲明第10頁共23頁簡單金融成就夢想#page#page#SMSC行業深度圖6:英偉達的CUDA棧圖7:AMD的ROCm棧HIP程序CUDA程序ROCm庫CUDA庫ROC Runtime ROCr)C RuntimeHSA RuntimeROC Kernel Driver (ROCr)PTX(ISA)CUDA DriverOS(Linux+Windows+
21、Mac)OS CLinux)NVIDIA GPUAMD GPU資料來源:CSDNAMDROCm平臺簡介,申萬宏源資料來源:CSDNAMDROCm平臺簡介,申萬宏源研究研究2.4谷歌、華為:“深度學習框架+AI芯片”自研谷歌憑借Tensorflow去做TPU相對而言不存在太多生態壁壘問題,但是仍然無法撼動英偉達,我們認為其原因在于TPU本身性能還有進一步提升空間以及過于專用的問題??埔鈺鴧^首可細季工旅物能理區到理MolHosuel影于力的,會投入大量的Tensorflow工程師針對自家TPU去做支持和優化,因此TPU去挑戰英偉達GPU其實不存在所謂生態壁壘的問題。但是自谷歌自2016年推出第一代
22、TPUv1至今已經到第四代TPUv4(2021年5月發布),仍然無法從英偉達手中搶走明顯份額,其原因主要在于TPU本身性能相比于英偉達同時期GPU而言還有一定差距,另外其芯片設計過于專用所以在卷積之外的算法表現上并不算好:(1)谷歌在芯片設計上的實力和英偉達相比還有一定差距,谷歌在TPU論文中也明確提到由于項目時間比較緊,所以很多優化只能放棄。從性能參數來看谷歌TPUV2和英偉達同年推出的V100相比,性能功耗比、顯存帶寬等指標有著明著差距,即使是谷歌在2018年推出了第三代TPU,其性能(FP32)、功耗等指標仍然和英偉達V100相比存在一定差距。(2)谷歌采用的是傳統脈動陣列機架構,芯片設
23、計上過于專用。TPU的主要創新在于三點大規模片上內存、脈動式內存訪問、8位低精度運算。脈動陣列機做卷積時效果不錯,但是做其他類型神經網絡運算效果不是很好,在一定程度上性了通用性來換取特定場景的高性能。TPU在芯片設計上只能完成“乘+加+乘+加.“規則的運算,無法高效實現“復數乘法、求倒、求平方根倒數”等常見算法?,F在AI芯片的行業趨勢是:GPU在通用性的基礎上逐漸增加專用計算單元;而類似TPU的ASIC芯片在專用性的基礎上逐漸增加通用計算單元兩類芯片有逐漸收斂的超勢。英偉達在用于深度學習領域的GPU上的設計思路是“在通用的基礎上增加專用運算單元”,例如在Volta架構上開始增加TensorCo
24、re(專門用于深度學習加速)、在Turing架構上開始增加RTCore(專門用于光線追蹤加速),棲性通用性為特殊的計算或者算法實現特殊架構的硬件以達到更快的速度。而AI芯片一開始走專用路線,但是現在在專用性之請務必仔細閱讀正文之后的各項信息披露與聲明第12頁共23頁簡單金融成就夢想#page#SMSC行業深度外也在架構設計上也增加了通用計算單元(例如谷歌TPUV1主要是矩陣乘法運算單元占了24%芯片面積,但是TPUV2也開始增加浮點ALU做SIMD)。表6:谷歌歷代推理和訓練芯片性能參數TPU V3型號TPU v1TPU v2TPU v4發布年份2016年2017年2018年2021年場景推理
25、推理+訓練推理+訓練訓練制程28nm20nm(估計)16nm/12nm(估計)7nm(估計)性能92TOPS(INT8)45TOPS(FP16)123TOPS(FP16)TPUV性能的兩倍23TOPS(INT16)3TOPS(FP32)4TOPS(FP32)功耗75W280W450W500W(估計)顯存帶寬不詳34GB/s700GB/s900GB/sK648不詳芯片面積23312611資料來源:,blog.intento,申萬宏源研究備注*:是否能做推理尚不確定華為在2019年8月發布的昇騰910與英偉達在2020年5月發布的A100性能相當,但是我們認為華為的主要問題在于不具備深度學習框架生
26、態掌控力。即使其芯片性能與英偉達水平差不多但是由于Tensorflow/Pytorch兩大主流深度學習訓練框架沒有基于華為異騰910做特定的優化,所以算法結合上述兩大訓練框架在異騰910上實際跑出來的性能其實不如英偉達A100;目前僅華為自研的深度學習框架Mindspore對異騰910和異騰310做了特別優化,由于華為Mindspore大部分精力都是放在對異騰芯片的算子支持和優化上,對英偉達GPU的支持還不夠(見下圖,英偉達的GTX2080Ti結合Mindspore的訓練速度明顯不如GTX2080Ti結合Pytorch1.5的訓練速度),所以只有同時使用華為的深度學習框架和異騰芯片才能同時發揮
27、出兩者的最佳性能。上述我們提到要想在深度學習訓練框架要想打破Tensorflow和Pytorch的基斷必須要靠原始創新,而目前包括華為Mindspore在內的國產深度學習框架尚未很好解決上述兩大訓練框架的痛點。Caffe之所以能夠在早期獲得開發者歡迎是因為解決了深度學習框架從0到1的過程,Tensorflow之所以可以取代Caffe是因為解決了其不夠靈活、不能自動求導、對非計算機視覺任務支持不好等問題,Pytorch之所以明顯搶奪Tensorflow的份額是因為Pytorch引入了動態圖解決了Tensorflow是靜態圖設計調試困難的問題。但是目前國產的三個深度學習框架百度PaddlePadd
28、le、礦視Megengine、華為Mindspore還沒有完美解決開發者在用Tensorflow和Pytorch所遇到的痛點。我們認為Tensorflow和Pytorch目前共同的痛點在于對海量算子和各種AI芯片支持的難度,華為正在探索靠AI編譯器的技術來解決上述問題,但是目前編譯技術仍然還達不到人工優化的效果。華為全面布局了三個層次的AI編譯器,包括圖靈完備的圖層IR設計、使用poly技術的圖算融合/算子自動生成技術(以TVM編譯器的設計思想推出算子開發工具TBE來解決算子開發自動優化的問題)。請務必仔細閱讀正文之后的各項信息披露與聲明第13頁共23頁簡單金融成就夢想#page#SMSG行業
29、深度表7:華為主流推理和訓練芯片性能參數昇騰910型號昇騰310異騰610發布年份2018年2019年2020年(研發中)場景邊緣計算訓練推理達芬奇架構達芬奇制程12nm7nm性能16TOPSGINT8 )640TOPS(INT8)100+TOPS(INT8)320TOPS(FP16)50+TOPS(FP16)8TOPS(FP16)功耗8W310W顯存帶寬1200GB/s456芯片面積資料來源:知乎,海思官網,申萬宏源研究圖8:華為在AI領域全棧自研:從底層芯片到智能編程語言再到深度學習框架AI應用HASOCenerlAplsAPPr ss應用使能ModelArtsfiAEngine全棧Min
30、dSporeTeofPyTorhPoddePadde框架好路CANN芯片使能rorks)AscendIP和芯片AsceTinyAscenAsceMimAscenMax消費終端公有云私有云邊緣計算IoT行業終端全場景資料來源:華為官網,申萬宏源研究圖9:Mindspore和Pytorch結合各類芯片訓練速度(單位:張/秒)18001600140012001000800600營4002000A910+2080Ti+2080Ti+2080Ti+Tesla P100-aesleTeWa1sMindsporeMindsporePyTorch1.5PyTorch1.2PyTorch1.5資料來源:知乎,申
31、萬宏源研究請務必仔細閱讀正文之后的各項信息披露與聲明第14頁共23頁簡單金融成就夢想#page#SMSC行業深度3.中國ASIC芯片格局:寒武紀卡位最優算力精度門檻下,ASIC和GPGPU是最適合大模型的架構。大模型云端訓練多數情況下都在FP32計算精度上,推理端則以FP16和混合精度為主。算力越強,模型效率越高。FPGA和GPU對比,雖然FPGA吞吐率、性能功耗比優于GPU,但是FPGA存在兩個天然缺陷FPGA只適合做定點運算不適合做浮點運算如果用來做浮點運算耗費邏輯很大,而且有些FPGA不能直接對浮點數進行操作的,只能采用定點數進行數值運算。其二,FPGA可以理解成某種“芯片半成品”,需要
32、開發人員做大量二次開發設計芯片,因此開發使用門檻較高。ASIC和GPU則能夠滿足大模型的入門門檻。國內視角下,華為、百度昆侖芯、阿里、寒武紀、海光信息及一眾初創企業(燃原、天數、壁切、沐曦)均推出云端訓練和推理芯片。架構選擇上,華為、百度、阿里、寒武紀選擇ASIC路線。華為、百度、阿里自家業務場景對AI芯片存在天然需求,選擇ASIC在量產制造供應鏈上的難度顯著低于GPU。初創企業則押注通用型GPGPU架構,壁勿、沐曦等初創企業多創立于2018年前后,團隊一般來自出走英偉達、AMD的技術專家,因此技術路線多選擇他們所熟悉的通用型GPU。AI大模型讓ASIC和GPU之間的邊界愈發模糊國內GPU初創
33、企業或在競爭中落后。英偉達在過去很長的一段時間內堅持用統一的硬件,即通用型GPU同時支持DeepLearning和圖像需求。但高性能計算選代到H100產品后,其計算卡和圖像卡分開,在技術路線上也愈發靠近ASIC。初創企業為了實現通用性,選擇了在芯片設計和制造供應鏈存在較多困難的GPU路線,暫未推出真正具備量產成熟度的產品。國產ASIC廠商中,寒武紀是為數不多能夠較為開放支持中游AI算法和模型商1)華為選擇部署端到端的完整生態,例如使用異騰910必須搭配華為的大模型支持框架Mindspore、盤古大模型。第三方開源模型無法在華為上運行,若要運營必須依賴華為提供的工具做深度定制和優化,開放程度低。
34、2)阿里在該方面的定位是系統集成商和服務商,運用自身芯片產品搭建加速平臺中,對外輸出服務。3)百度昆侖芯主要在自身智算集群和服務器上用,以及國內企業、研究所、政府中使用。且由于百度自身AI算法商的商業定位,與其他AI廠商之間存在競爭關系,昆侖芯未必能夠在其他AI算法商中鋪開請務必仔細閱讀正文之后的各項信息披露與聲明第15頁共23頁簡單金融成就夢想#page#SWS行業深度口表8:訓練端芯片已有較多參與者顯存銀托訓練型號功耗上市時間INT8CTOPS)FP1FP3FP6TF3FP64 Tensor6Core640320華為異騰9107nm寒武紀思元2902021年527nm350W32GB HB
35、M2 1228GB/思元5702023年80350-5507nmW壁勿科BR100819GB/s預計2023年7nm300W32GB1028256技HBM2E海光中|濱送DCU健原32GB256T21300W300GB/s128 300 300HBM2E百度昆侖16GBHBM2 512GB/S2019年112566416150W14n月m昆侖22021年8月256128120W32GB7nm資料來源:華為官網,寒武紀官網,壁勿科技官網,百度昆侖芯官網,阿里平頭哥官網,申萬宏源研究表9:推理端芯片華為/阿里/寒武紀等布局較早身香帶寬型號功耗上市時間FP3FP6TF3工藝推理INT8CTOPFP1
36、6FP64 TensorS242Core2019年華為昇騰8TOPS4LPDDR4x2*64bit37331612nm310WFFCMTs16TOPSGW阿里含光2019年982012nm300月寒武思元75W8GB/16GB102GB/s2018年53216TFLOTonm月紀Ps1002019年6思元70W16GB1281Gnm102 GB/s月270思元75W24GB2021年11958301.2GB/s7nm月370LPDDR5資料來源:華為官網,寒武紀官網,壁勿科技官網,百度昆侖芯官網,阿里平頭哥官網,申萬宏源研究英偉達A800、H800對國產廠商存在一定的威協,但在大模型超勢下,英
37、偉達的優勢有所弱化。過去,機器學習訓練時間的主導因素是計算時間,等待矩陣乘法,通過張量核心和降低浮點精度,這個問題很快被解決?,F在大型模型訓練/推理中的大部分時間都是在等待數據到達計算資源。內存帶寬和容量的限制不斷出現在NvidiaA100GPU,如果不進行大量優化,A100往往具有非常低的FLOPS利用率。而800系列降低了數據傳輸速率,弱化了英偉達高算力的優勢。此外,大模型AI芯片更需要片間互聯、HBM,英偉達CUDA這種標準化平臺的優勢同樣有所弱化。請務必仔細閱讀正文之后的名項信息披露與聲明第16頁共23頁簡單金融成就夢想#page#SMSC行業深度寒武紀的優勢在于各種深度學習框架,合作
38、經驗豐富。寒武紀思元系列產品適配TensorFlow、Pytorch、Caffe深度學習框架。2019年開始適配???,峰值時刻合作開發團隊有70-80人(公司派出20-30人),思元290與商湯在CV層面深度合作,NLP領域在訊飛、百度語音都有出貨。寒武紀思元590將是最早實現商業應用的接近英偉達A100性能的國產AI訓練芯片。目前華為異騰910性能超越英偉達V100,但未達到A100水平,壁勿科技7nm通用GPU芯片BR100稱其可與被禁售的英偉達H100一較高下,但尚未量產上市。寒武紀思源590芯片面積800mm2,和A100一樣。內存帶寬2.7T,是A1001.8T的1.5倍。HBM2使
39、用海力士,功耗達350W-550W,FP32算力到80TFLops,目前已經客戶送樣測試階段,在高性能國產AI芯片中進程最快,最有機會承接國內AI算法商對英偉達A100、H100的需求。4.AIGC傳導至潛在的百倍算力需求!當前市場關注AIGC所拉動的增量算力需求及相應投資機會。此前我們指出,AI必然伴隨海量計算,算力是完成數據運算的基礎,chatGPT一共有1750億個參數,訓練過程中消耗大量算力,其訓練模型中就已導入至少1萬顆英偉達GPU。AI發展的基礎是算力提升,AI應用的拓展反向推動算力基建的部署。此前ChatGPT宣布因滿負荷運行暫停服務,算力基建部署值得關注。推理側,ChatGPT
40、海量的訪問需求帶來了巨大的計算成本。我們根據公開數據對此進行估計:根據OpenAI首席執行官SamAltman提供的信息,ChatGPT單次聊天的成本約為0.01美元。ChatGPT目前有超過2000萬日活且在持續上行,假設未來日活數量達到5000萬、平均每個日活進行10條對話,則每日消耗的成本為500萬美元,推測其中大部分為AI服務器成本(折舊、維護等)及對應的電費請務必仔細閱讀正文之后的各項信息披露與聲明第17頁共23頁簡單金融成就夢想#page#SMSC行業深度圖10:0penAI首席執行官SamAltman談ChatGPT每次聊天的成本Elon MuskOnuskDecSelReply
41、ing to samaQ 2728t31887SamAltmansamaverage is probably single-digits cents per chat tryingto figure out more precisely and also how we canoptimize it2:46AMDeC5.2022資料來源:Twitter,申萬宏源研究訓練側,由于大型語言模型(LLM)參數量極高,訓練成本與參數量正相關,因此大模型路線勢必帶動大量額外的算力需求。參考海外最新研究TheEconomicsofLargeLanguageModels1,可以有如下估計:每個token(10
42、00token約等于750個單詞)的訓練成本通常約為6N(而推理成本約為2N),其中N是LLM的參數數量;假設在訓練過程中,模型的FLOPS利用率為46.2%,與在TPUv4芯片上進行訓練的PaLM模型(擁有5400億參數)一致;1750億參數模型的GPT-3是在3000億token上進行訓練的,成本參考谷歌在GCPTPUv4芯片上訓練PaLM模型。計算結果:GPT-3訓練成本為140萬美元左右。圖11:GPT-3訓練成本估算175B moceleTTLOPSonk TFLOPS1.398M資料來源:TheEconomicsofLargeLanguageModels,申萬宏源研究將上述計算框架
43、應用于其他的LLM模型中,可以估算出對應的訓練成本。其中參數量最大的谷歌PaLM模型,訓練成本超過1000萬美元。1https:/ of#ofPromptIferncFLoPs/TokenCOsUFLOPModelFLOPSUoneznCOstor6N#ofTainedTrainingFLOPs/TokerTokens資料來源:TheEconomicsofLargeLanguageModels,申萬宏源研究超越“安迪-比爾”定律2的算力需求爆發!模型參數量每年10倍增長,即使AI芯片的性能提升仍然遵從摩爾定律,計算資源仍然可能難以滿足需求。過去5年中,LLM模型參數呈現指數增長態勢。2018年
44、,OpenAI推出了1.17億參數的GPT-1,谷歌推出了3億參數的BERT:接下來的兩年(2019、2020年),OpenAI陸續推出參數更大的選代版本GPT-2、GPT-3,前者有15億參數,后者有1750億參數。GPT-4參數量高達100萬億,是GPT-3的500倍以上!即使考慮到AI芯片能力的提升(從當前主流的A100升級至H100),仍然需要巨量的額外增量投資。CEO比爾蓋茨,這句語的意思是,硬件提高的性能,很快被軟件消耗掉了。3集成電路上可以客納的品體管數日在大約每經過18個月到24個月便會增加一倍。簡單金融成就夢想請務必仔細閱讀正文之后的各項信息披露與聲明第19頁共23頁#pag
45、e#SMSG行業深度圖14:過去5年中,LLM模型參數呈指數增長#ofModel Parametersin LLMsMT-NLG530B)C-11788)GPT3H7SBLM(540nsNG172On-LM(8.3arge(340MOc:2018May2019t2ozweru2021feb2022Dur20191un2020資料來源:TheEconomicsofLargeLanguageModels,申萬宏源研究5.重點關注公司目前,國內BAT、字節、京東等大廠均投入AIGC大模型研發,模型的應用場景也從文字對話進一步擴展至繪畫、視頻等。多玩家、多場景、豐富的下游應用帶來百倍的增量AI算力需求
46、,算力基建直接受益!計算機行業核心關注AI芯片、服務器等環節。AI芯片建議關注:寒武紀:寒武紀思元系列產品適配TensorFlow、Pytorch、Caffe深度學習框架。2019與商湯在CV層面深度合作,NLP領域在訊飛、百度語音都有出貨。寒武紀思元590將是最早實現商業應用的接近英偉達A100性能的國產AI訓練芯片。海光信息:作為AI服務器中的核心,海光的DCU是GPGPU的一種。根據公司公開發布會,海光DCU同時支持全精度和半精度訓練有稀缺性。預計2023年底量產的DCU3性能與NVDIAH100性能持平。已量產的DCU2約等于70%NVDIAA100,雙方在模擬效率和精度都處于同一代際
47、。算力需求提升疊加國產替代要求,共同構成催化。AI服務器建議關注:浪潮信息:國內最大的AI、邊緣和云服務器供貨商,根據IDC數據,浪潮AI服務器出貨量基本占據國內一半的市場份額,并且多年穩定。chatGPT為代表的AIGC大模型風摩,對于算力的要求會明顯提升,AI服務器作為算力的基礎、核心基建,深度受益。浪潮信息的主要客戶也是互聯網和AI巨頭,在經歷弱周期后,大廠算力競爭有望帶來AI服務器投入顯著回升。此外,根據國家信息中心和浪潮信息聯合發布的報告,目前我國有超過30個城市正在或提出建設智算中心,提供增量請務必仔細閱讀正文之后的名項信息披露與聲明第20頁共23頁簡單金融成就夢想#page#SM
48、SC行業深度中科曙光:在國內超算市場中處于領先地位,超算作為國家級重點項目的支撐,有望在算力的競賽中承擔重要角色,東數西算在內的政策形成催化,預計曙光也將在AI服務器以及超算中心加速中受益。此外,中興通訊(通信)、工業富聯(電子)也具備AI服務器能力TMT領域算力基建邏輯,也建議關注:通信:天孚通信、中際旭創、紫光股份、銳捷網絡、新易盛等。此外也持續關注流量基建主線的數據中心等環節供需變化,包括奧飛數據、潤澤科技等,以及伴隨算力增長的溫控散熱環節,英維克等。電子:GPU:景嘉微、好利科技;視覺芯片及IP:思特威、富瀚微、芯原股份;服務器存儲及接口芯片:瀾起科技、聚辰股份:CPU:海光信息、龍芯
49、中科:FPGA芯片:復旦微、安路科技;數通/服務器PCB:滬電股份、深南電路、生益科技、勝宏科技:光通信芯片:源杰科技。6.風險提示AI芯片迅速選代,開啟價格戰風險。AI芯片領域存在行業加速送代的可能,各AI芯片廠商存在開啟價格戰,導致盈利能力不及預期的風險。AIGC行業落地需求不及預期風險。AIGC等高速發展,存在行業需求落地不及預期的風險供應鏈不穩定風險。存在供應鏈不穩定,導致AI芯片出貨量不及預期的風險。請務必仔細閱讀正文之后的各項信息披露與聲明第21頁共23頁簡單金融成就夢想#page#sWs行業深度表10:重點公司估值表(單位:億元)證券代碼公司名稱2023/3/23歸母凈利潤PEP
50、B(LD總市值2021A2022AE2023E2024日2021A202262023E2024E825688256.SH寒武紀-U669-11.66584.3613.48192108729.02688041.SH海光信息1,5393.278.02142421.25471239520.0324.0529.4937.24283.53000977.SZ浪潮信息55737603019.SH中科曙光55911.5815.1520.0525.974828223.320000063.SZ中興通訊1.63268.1380.898.2113.7124142.9617114601138.SH工業富聯3.37420
51、0201237264132.6265503931300394.SZ天孚通信2003.063.995.096.367.6546322723300308.SZ中際旭創4008.7712.3614.6617.723.36000938.SZ紫光股份89421.4824.3330.0236.48423730252.854.585.5910.19645339301165.SZ銳捷網絡295755297.013021300502.SZ新易盛1986.629.4810.3712.4419164.23611.45172.052.5150416.55300738.SZ奧飛數據10354-0.1212.4318.6
52、224.4G279.51300442.SZ潤澤科技6704.496961龍002837.SZ英維克1412.052.32335317.3115759109300474.SZ景嘉微4602.932.894.235778014.561711145434002729.SZ好利科技410.240.360.761.228.830.771.972.51357255668559.27688037.SH芯源微196474131300613.SZ富瀚微1723.644.245.537.17248.1112.9926.89956042688008.SH瀾起科技7848.2918.65298.081.083.555
53、682tL1183622176.6688123.SH聚辰股份127214.2447119208688041.SH海光信息1,5393.278.0221.259.022.370.512.74.56246114312814.98688047.SH龍芯中科58321610.7714.8918.82688385.SH復旦微電4665.149143312513.15601.93492688107.SH安路科技295-0.310.632815318.3537294.8002463.SZ滬電股份39710.6413.6216.7421.1741914.8116.419.1723.34343126224.14
54、002916.SZ深南電路507267516302228.315.3120.873.46600183.SH生益科技4561029762464.63688498.SH源杰科技970.951.562.13資料來源:申萬宏源研究;注:盈利預測取Wind一致預期請務必仔細閱讀正文之后的各項信息披露與聲明第22頁共23頁簡單金融成就夢想#page#SMS C行業深度信息披露證券分析師承諾本報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,并對本報告的內容和觀點負責。本人不曾因,不因,也將不會因本
55、報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。與公司有關的信息披露本公司隸屬于申萬宏源證券有限公司。本公司經中國證券監督管理委員會核準,取得證券投資咨詢業務許可。本公司關聯機構在法律許可情況下可能持有或交易本報告提到的投資標的,還可能為或爭取為這些標的提供投資銀行服務。本公司在知曉范圍內依法合規地履行披露義務??蛻艨赏ㄟ^索取有關披露資料或登錄信息披露欄目查詢從業人員資質情況、靜默期安排及其他有關的信息披露。機構銷售團隊聯系人華東A組陳陶021-華東B組謝文露華北組李丹010-華南組李異0755-82990609L股票投資評級說明證券的投資評級以報告日后的6個月內,證券相對于市場基準
56、指數的漲跌幅為標準,定義如下:相對強于市場表現20%以上;買入(Buy)增持(Outperform):相對強于市場表現5%20%;:相對市場表現在-5%+5%之間波動;中性(Neutral)減持(Underperform):相對弱于市場表現5%以下。行業的投資評級以報告日后的6個月內,行業相對于市場基準指數的漲跌幅為標準,定義如下:看好(Overweight):行業超越整體市場表現;中性(Neutral):行業與整體市場表現基本持平;看淡(Underweight):行業弱于整體市場表現我們在此提醒您,不同證券研究機構采用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重建議
57、;投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者應閱讀整篇報告,以獲取比較完整的觀點與信息,不應僅僅依靠投資評級來推斷結論。申銀萬國使用自己的行業分類體系,如果您對我們的行業分類有興趣,可以向我們的銷售員索取。:滬深300指數本報告采用的基準指數法律聲明本報告僅供上海申銀萬國證券研究所有限公司(以下簡稱“本公司”)的客戶使用。本公司不會因接收人收到本報告而視其為客戶??d的完整報告為準,本公司并接受客戶的后續問詢。本報告首頁列示的聯系人,除非另有說明,僅作為本公司就本報告與客戶的聯絡人,承擔聯絡工作,不從事任何證券投資咨詢服務業務。本報告是基
58、于已公開信息握寫,但本公司不保證該等信息的準確性或完整性。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用,并非作為或被視為出售或購買證券或其他投資標的的邀請或向人作出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。出業州“圖一要承照用業是女到片中都回中回劃資決策并自行承擔投資風險。本公司特別提示,本公司不會與任何客戶以任何形式分享證券投資收益或分擔證券投資損失,任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。本報告
59、中所指的投資及服務可能不適合個別客戶,不構的任何意見或建議是否符合其特定狀況,以及(若有必要)咨詢獨立投資顧問。在任何情況下,本報告中的信息或所表述的意見并不構成對任何人的投資建議。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。市場有風險,投資需謹慎。若本報告的接收人非本公司的客戶,應在基于本報告作出任何投資決定或就本報告要求任何解釋前咨詢獨立投資顧問。本報告的版權歸本公司所有,屬于非公開資料。本公司對本報告保留一切權利。除非另有書面顯示,否則本報告中的所有材料的版權均屬本公司。未經本公司事先書面授權,本報告的任何部分均不得以任何方式制作任何形式的拷貝、復印件或復制品,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記。請務必仔細閱讀正文之后的各項信息披露與聲明第23頁共23頁簡單金融成就夢想#page#