《計算機行業:GPT 5后NLP大模型逐步走向收斂ASIC將大有可為-230428(25頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業:GPT 5后NLP大模型逐步走向收斂ASIC將大有可為-230428(25頁).pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、請務必閱讀正文之后的免責聲明及其項下所有內容證券研究報告|2023年4月28日GPT 5后NLP大模型逐步走向收斂,ASIC將大有可為行業研究深度報告投資評級:超配(維持評級)證券分析師:熊莉S0980519030002證券分析師:張倫可S0980521120004證券分析師:朱松S0980520070001證券分析師:庫宏垚S0980520010001請務必閱讀正文之后的免責聲明及其項下所有內容報告摘要 GPT 5后NLP大模型逐步走向收斂,ASIC將大有可為。理論來說,當大模型的算力、數據量以及參數量同時增大的時候,整個模型的效果會越來越好。GPT-3使用的數據量為40T,預測GPT-4的
2、數據量需求為400T,但未來數據量將不會無限增大,所以當數據量不能增長的時候,光靠算力和模型參數量增長,并不能增強模型的效果。換言之,受到數據量的限制,NLP大語言模型的迭代或將進入停滯期。在模型迭代停滯期,若應用爆發,則ASIC芯片的優勢就顯現出來。ASIC針對特定需求開發,可根據需求對性能和功耗進行定向優化,其專用的芯片架構與高復雜度的算法相匹配,量產后在性能、功耗、成本方面均具有較大優勢,ASIC芯片將大有可為。頭部廠商紛紛切入AI ASIC領域,技術路徑不同。谷歌15年發布第一代TPU(ASIC)產品,TPU產品持續迭代升級;英特爾19年收購人工智能芯片公司Habana Labs,22
3、年發布AI ASIC芯片Gaudi 2,性能表現出色;IBM研究院22年底發布AI ASIC芯片AIU,有望23年上市;三星第一代AI ASIC芯片Warboy NPU芯片已于近日量產。頭部廠商紛紛切入 AI ASIC領域,看好ASIC在人工智能領域的長期成長性。谷歌:谷歌為AI ASIC芯片的先驅,于15年發布第一代TPU(ASIC)產品,大幅提升AI推理的性能;17年發布TPU v2,在芯片設計層面,進行大規模架構更新,使其同時具備AI推理和AI訓練的能力;谷歌TPU產品持續迭代升級,21年發布TPU v4,采用7nm工藝,峰值算力達275 TFLOPS,性能表現全球領先。英特爾:19年底
4、收購以色列人工智能芯片公司Habana Labs,22年發布Gaudi 2 ASIC芯片。從架構來看,Gaudi架構擁有雙計算引擎(MME和TPC),可以實現MME和TPC并行計算,大幅提升計算效率;同時,其將RDMA技術應用于芯片互聯,大幅提升AI集群的并行處理能力;從性能來看,Gaudi 2在ResNET-50、BERT、BERT Phase-1、BERT Phase-2模型的訓練吞吐量優于英偉達A100,性能表現優異。投資建議:建議關注海內外AI ASIC龍頭。海外AI ASIC公司建議關注:英特爾、IBM等。風險提示:宏觀經濟波動;下游需求不及預期;AI倫理風險;模型仍處于快速迭代期,
5、ASIC芯片發展不及預期。請務必閱讀正文之后的免責聲明及其項下所有內容目錄目錄一、GPT 5后NLP大模型逐步走向收斂,ASIC將大有可為1.1 ASIC具有性能高、體積小、功率低等特點1.2 GPT 5后NLP大模型逐步走向收斂,ASIC將大有可為1.3 ASIC芯片有望在推理領域率先出現爆品1.4 全球AI芯片市場快速增長,ASIC占比將大幅提升二、頭部廠商紛紛切入AI ASIC領域,技術路徑不同2.1 谷歌全球AI ASIC先驅,TPU產品持續迭代2.2 英特爾收購Habana Lab,Gaudi 2性能表現出色三、投資建議:建議關注海內外AI ASIC龍頭請務必閱讀正文之后的免責聲明及
6、其項下所有內容1 1、GPT 5后后NLP大模型逐步走向收斂,大模型逐步走向收斂,ASIC將大有可為將大有可為請務必閱讀正文之后的免責聲明及其項下所有內容ASIC具有性能高、體積小、功率低等特點5ASIC具有性能高、體積小、功率低等特點。AI芯片指專門用于運行人工智能算法且做了優化設計的芯片,為滿足不同場景下的人工智能應用需求,AI芯片逐漸表現出專用性、多樣性的特點。根據設計需求,AI芯片主要分為中央處理器(CPU)、圖形處理器(GPU)、現場可編程邏輯門陣列(FPGA)、專用集成電路(ASIC)等,相比于其他AI芯片,ASIC具有性能高、體積小、功率低等特點。CPU-GPU-ASIC,ASI
7、C成為AI芯片重要分支。1)CPU階段:尚未出現突破性的AI算法,且能獲取的數據較為有限,傳統CPU可滿足算力要求;2)GPU階段:2006年英偉達發布CUDA架構,第一次讓GPU具備了可編程性,GPU開始大規模應用于AI領域;3)ASIC階段:2016年,Google發布TPU芯片(ASIC類),ASIC克服了GPU價格昂貴、功耗高的缺點,ASIC芯片開始逐步應用于AI領域,成為AI芯片的重要分支。表1:ASIC具有性能高、體積小、功率低等特點資料來源:Ashutosh Mishra等著-Artificial Intelligence and Hardware Accelerators-20
8、23年Springer出版-P35、國信證券經濟研究所整理類別CPUGPUFPGAASIC特點擁有大量的緩存和復雜的邏輯控制單元一種由大量運算單元組成的大規模并行計算架構芯片可對其集成的基本門電路和存儲器進行重新定義全定制化芯片,其無法通過修改電路進行功能拓展功耗高高中低優勢 靈活性 通用性強 復雜指令和任務 系統管理 大量并行核 AI處理出色表現 可配置的邏輯門 靈活性 可重新編程性 可用庫設計的定制化邏輯 更快的處理速度 體積小劣勢 核數少 時延嚴重 效率低 功耗高 體積大 編程復雜 固定的功能 前期定制化成本高代表廠商Intel、AMDNVIDIA、AMDXilinx、AlteraGoo
9、gle、寒武紀NVIDIA H100Intel Sapphire RapidsXilinx Versal AI CoreGoogle TPU請務必閱讀正文之后的免責聲明及其項下所有內容GPT 5后NLP大模型逐步走向收斂,ASIC將大有可為6NLP模型的迭代升級有可能進入停滯期。理論來說,當大模型的算力、數據量以及參數量同時增大的時候,整個模型的效果會越來越好。GPT-3使用的數據量為40T,預測GPT-4的數據量需求為400T,但未來數據量將不會無限增大,所以當數據量不能增長的時候,光靠算力和模型參數量增長,并不能增強模型的效果。換言之,受到數據量的限制,NLP大語言模型的迭代或將進入停滯期
10、。模型迭代停滯期,ASIC將大有可為:1)模型快速迭代期:ASIC芯片的設計和制造需要大量資金、較長的時間周期和工程周期,且一旦定制無法再次進行寫操作,所以在模型快速迭代期,ASIC不是最優解;2)模型迭代停滯期:ASIC針對特定需求開發,可根據需求對性能和功耗進行定向優化,其專用的芯片架構與高復雜度的算法相匹配,量產后在性能、功耗、成本方面均具有較大優勢,ASIC芯片將大有可為。圖1:算力、數據、參數量三者均變大的時候模型效果才會越來越好資料來源:GitHub、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容表3:ASIC芯片在推理領域具有明顯優勢資料來源:CSET、國信證
11、券經濟研究所整理ASIC芯片有望在推理領域率先出現爆品7推理芯片更加關注功耗、時延、成本,且對精度要求相對較低。深度學習由訓練和推理兩個任務組成,因為AI芯片的主要功能就是訓練和推理。1)訓練:對大量數據在平臺上進行學習,并形成具備特定功能的神經網絡模型。由于訓練所需數據量巨大、算法復雜度高,對AI芯片有高算力、高容量、高精度和通用性要求。2)推理:指基于已經訓練好的模型,針對輸入數據計算結果,更加關注芯片功耗、時延、成本等因素,且對精度的要求相對較低。ASIC芯片在推理領域具有明顯優勢,有望在該領域率先出現爆品。根據CSET數據,ASIC芯片在推理領域優勢明顯,其效率和速度約為CPU的100
12、-1000倍,相較于GPU和FPGA具備顯著競爭力。盡管ASIC芯片同樣可以應用于訓練領域(例如TPU v2、v3、v4),但我們認為其將在推理領域率先出現爆品。圖2:ASIC芯片更多應用于推理領域資料來源:McKinsey Analysis、國信證券經濟研究所整理表2:推理芯片算力、功耗較低資料來源:華為、國信證券經濟研究所整理芯片昇騰Ascend910昇騰Ascend310功能訓練推理工藝/nm712算力INT8 640TOPSFP16 320TFLOPSINT8 22TOPSFP16 11TFLOPS功耗/W3108內存HBM2E2*LPDDR4x(訓練)(推理)訓練訓練推理推理通用性通
13、用性推理推理準確率準確率銷量速度效率速度CPU1x baseline很高98-99.7%GPU10-100 x10-1,000 x1-10 x1-100 x高98-99.7%FPGA-10-100 x10-100 x中95-99%ASIC100-1,000 x10-1,000 x100-1000 x10-1000 x低90-98%請務必閱讀正文之后的免責聲明及其項下所有內容全球AI芯片市場快速增長,ASIC占比將大幅提升8全球AI芯片市場快速增長,預計22-32年CAGR達29.72%。根據Precedence Research數據,22年全球AI芯片市場規模約為168.6億美金;隨著專用AI
14、向通用AI的發展,以及AI應用領域持續拓寬,算力需求爆發,拉動全球AI芯片市場快速增長,預計2032年將達到2,274.8億美金,對應22-32年CAGR達29.72%。預計ASIC在AI芯片的占比將大幅提升。根據McKinsey Analysis數據,在數據中心側,25年ASIC在推理/訓練應用占比分別達到40%、50%;在邊緣側,25年ASIC在推理/訓練應用占比分別達到70%、70%,ASIC在AI芯片的占比將大幅提升。圖4:預計ASIC在AI芯片的占比將大幅提升資料來源:McKinsey Analysis、國信證券經濟研究所整理圖3:22年全球AI芯片市場規模約為168.6億美金,22
15、-32年CAGR為29.72%資料來源:Precedence Research、國信證券經濟研究所整理168.6 218.7 283.7 368.0 477.4 619.3 803.4 1,042.1 1,351.8 1,753.6 2,274.8 0 500 1,000 1,500 2,000 2,500 20222023202420252026202720282029203020312032AI芯片市場規模(億美金)請務必閱讀正文之后的免責聲明及其項下所有內容2 2、頭部廠商紛紛切入頭部廠商紛紛切入AI ASIC領域,技術路徑不同領域,技術路徑不同請務必閱讀正文之后的免責聲明及其項下所有內
16、容多種類AI芯片并存,頭部廠商紛紛切入ASIC領域10多種類AI芯片并存,頭部廠商紛紛切入ASIC領域。英偉達延續GPU路線,22年發布H100芯片,目前廣泛應用于云端訓練和推理;AMD利用自身技術積累,將CPU和GPU集成在一起,推出Instinct MI300芯片,預計23年H2上市。頭部廠商開始切入ASIC領域,Google為AI ASIC芯片的先驅,21年推出TPU v4,運算效能大幅提升;英特爾19年收購Habana Lab,22年推出Gaudi2 ASIC芯片;IBM、三星等頭部廠商亦紛紛切入ASIC領域。表4:頭部廠商開始切入ASIC領域資料來源:各企業官網、商惠敏-人工智能芯片
17、產業技術發展研究-全球科技經濟瞭望(2021年)-P27、國信證券經濟研究所整理序號公司典型AI芯片發布年份技術架構功能任務1英偉達H1002022GPU云端訓練、云端推理A1002020GPU云端訓練、云端推理V1002017GPU云端訓練、云端推理2英特爾Gaudi22022ASIC云端訓練、云端推理Nervana NNP-T2019NNP-T1000云端訓練Nervana NNP-I2019NNP-I1000云端推理3IBMAIU2023ASIC云端訓練TrueNorth2015類腦芯片邊緣端推理4谷歌TPU v42021ASIC云端訓練、云端推理TPU v32018ASIC云端訓練、云
18、端推理Edge TPU2018ASIC邊緣端推理5蘋果A142020ARM架構SoC邊緣端推理6AMDInstinct MI300 2023APU云端訓練EPYC22019Zen2架構云端推理7ARMARM Cortex-M552020ARM Helium邊緣端推理ARM Ethos-U552020ASIC(Micro NPU)邊緣端推理8高通驍龍8882020ARM架構SoC邊緣端推理Cloud AI 1002020ASIC云端推理9三星Warboy2023(開始量產)ASIC(NPU)云端訓練、云端推理Exynos21002021ARM架構SoC邊緣端推理請務必閱讀正文之后的免責聲明及其項
19、下所有內容谷歌:全球AI ASIC先驅,TPU產品持續迭代11谷歌為全球AI ASIC先驅,TPU產品持續迭代。谷歌2015年發布TPU v1,與使用通用CPU和GPU的神經網絡計算相比,TPU v1帶來了1530倍的性能提升和3080倍的能效提升,其以較低成本支持谷歌的很多服務,僅可用于推理;17年發布TPU v2,用于加速大量的機器學習和人工智能工作負載,包括訓練和推理;18年發布TPU v3,算力和功率大幅增長,其采用了當時最新的液冷技術;20年和21年分別發布TPU v4i和v4,應用7nm工藝,晶體管數大幅提升,算力提升,功耗下降。表5:Google TPU產品持續迭代資料來源:Go
20、ogle、Norman P.J等-Ten Lessons From Three Generations Shaped Googles TPUv4i:Industrial Product-ISCA(2021)-P2、國信證券經濟研究所整理芯片TPU v1TPU v2TPU v3TPU v4iTPU v4發布時間20152017201820202021推理訓練峰值算力(單片)92 TFLOPS46 TFLOPS123 TFLOPS 138 TFLOPS 275 TFLOPS工藝28 nm16 nm16 nm7 nm7 nm裸片尺寸330 mm2625 mm2700 mm2400 mm2780 mm
21、2晶體管數3 B9 B10 B16 B31 B時鐘速度700 MHz700 MHz940 MHz1,050 MHz1,050 MHzTensorCores1顆2顆2顆1顆2顆HBM存儲帶寬300 Gb/sec700 Gb/sec900 Gb/sec300 Gb/sec1,200 Gb/sec矩陣輸入INT8BF16BF16BF16/INT8BF16/INT8熱設計功率(單片)75280450175300圖5:TPU v4i的性能和能耗比大幅提升(下圖基準為TPU v2)資料來源:Norman P.J等-Ten Lessons From Three Generations Shaped Goog
22、les TPUv4i:Industrial Product-ISCA(2021)-P9、國信證券經濟研究所整理性能能耗比(性能/TDP功率)請務必閱讀正文之后的免責聲明及其項下所有內容谷歌:性能表現,A100TPU v4H10012TUP v4性能表現優于英偉達A100。根據TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings數據,TPU v4的性能表現在BERT、ResNet、DLRM、RetinaNet、MaskRCNN下分別為A1
23、00的1.15x、1.67x、1.05x、1.87x和1.37x,性能表現優于英偉達A100。TUP v4性能表現略遜于H100,但功耗管理能力出色。根據AI and ML Accelerator Survey and Trends數據,英偉達H100的峰值性能表現高于TUP v4,而TUP v4作為ASIC芯片,在功耗管理方面表現出色,峰值功率低于H100。圖6:Google TPU產品持續迭代資料來源:Norman P.J等-TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware
24、 Support for Embeddings-ISCA(2023)-P9、國信證券經濟研究所整理圖7:TPU v4i的性能和能耗比大幅提升(下圖基準為TPU v2)資料來源:Reuther A等-AI and ML Accelerator Survey and Trends-IEEE(2022)-P3、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容谷歌:TPU v1架構13統一緩沖器(Unified Buffer)和矩陣乘法單元(MMU)占據53%的芯片總面積。TPU v1主要包括統一緩沖器(Unified Buffer)、矩陣乘法單元(MMU)、累加器(Accumula
25、tors)、激活流水線電路(Activation Pipeline)、DDAM等,其中統一緩沖器和矩陣乘法單元面積占比最高,合計達53%。TPU v1工作流程:1)芯片啟動,緩沖區和DDR3為空;2)用戶加載TPU編譯的模型,將權重放入DDR3內存;3)主機用輸入值填充激活緩沖區;4)發送控制信號將一層權重加載到矩陣乘法單元;5)主機觸發執行,激活并通過矩陣乘法單元傳播到累加器;6)通過激活流水線電路,新層替換緩沖區的舊層;7)重復步驟4-7,直到最后一層;8)最后一層的激活被發送給主機。圖8:TPU v1 Floor Plan資料來源:Norman P.J等-In-Datacenter Pe
26、rformance Analysis of a Tensor Processing Unit-ISCA(2017)-P3、國信證券經濟研究所整理圖9:TPU v1 Block Diagram資料來源:Norman P.J等-In-Datacenter Performance Analysis of a Tensor Processing Unit-ISCA(2017)-P3、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容谷歌:TPU v2架構,基于TPU v1的大規模架構更新14谷歌TPU v2是基于TPU v1架構的大規模更新,使其在推理的基礎上增加訓練功能,主要體現為以
27、下三點:更大的靈活性:訓練面對不同算法,需要更大的靈活性,TPU v2將Activation Storage和Accumulators兩個相互獨立的緩沖區合并成一個Vector Memory,進而提高可編程性;添加了可編程更高Vector Unit,用于替代固定的Activation Pipeline。更大的內存:訓練既需要讀取權重,也要寫入權重,所以將DDR3直接與Vector Memory相連,并用HBM替代DDR3,延遲更低,帶寬更大。提供拓展能力(集群方案):為了加速訓練,通常會采用集群方案,添加Interconnect可以使其與其他TPU進行高效互換。圖10:TPU v1向TPU v
28、2架構演進資料來源:Norrie T等-The Design Process for Googles Training Chips:TPUv2 and TPUv3-IEEE(2020)-P3、國信證券經濟研究所整理TPU v1架構交換Accumulators和Activation位置用Vector Memory替代Activation Storage和Accumulators用通用的Vector Unit替換Activation Pipeline矩陣乘法單元不再直接訪存,通過Vector進行數據讀取和寫回DDR3直接與Vector Memory相連用HBN替換DDR,延遲更低,帶寬更大為支持多
29、卡多節點互聯,增加Interconnect模塊請務必閱讀正文之后的免責聲明及其項下所有內容谷歌:TPU v2內核數增加至2個15TPU v2內核數增加值2個。TPU v1僅有1個Tensor Core,導致管道更為冗長。TPU v2的內核數增加為2個,對編譯器也更為友好。MXU利用率提升。TPU v1的MXU包含256*256個乘積累加運算器,由于部分卷積計算規模小于256*256,導致單個大核的利用率相對較低;而TPU v2的單核MXU包含128*128個乘積累加運算器,在一定程度上,提升了MXU利用率。圖11:TPU v2芯片包含兩個相連的Tensor Core資料來源:Norrie T等
30、-The Design Process for Googles Training Chips:TPUv2 and TPUv3-IEEE(2020)-P3、國信證券經濟研究所整理圖12:TPU v2 Floorplan資料來源:Norrie T等-The Design Process for Googles Training Chips:TPUv2 and TPUv3-IEEE(2020)-P7、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容谷歌:TPU v3延續v2架構,性能提升,TDP優化16谷歌TPU v3延續v2架構,性能提升。TPU V3在v2架構的基礎上,矩陣乘法
31、單元(MXU)數量提升翻倍,時鐘頻率加快30%,內存帶寬加大30%,HBM容量翻倍,芯片間帶寬擴大了30%,可連接的節點數為先前4倍,性能大幅提升。采用液冷技術,TDP優化。TPU v3采用液冷技術,峰值算力為TPU v2的2.67倍,而TDP僅為TPU v2的1.61倍,TDP大幅優化。圖13:TPU v3延續v2架構資料來源:Norrie T等-Googles Training Chips Revealed:TPUv2 and TPUv3-IEEE(2020)-P49、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容谷歌:TPU v4,硬件性能進一步提升17MXU數量翻倍
32、,峰值算力大幅提升。從硬件提升來看,根據Google Cloud數據,TPU v4芯片包含2個TensorCore,每個TensorCore包含4個MXU,是TPU v3的2倍;同時,HBM帶寬提升至1200 GBps,相比上一代,提升33.33%。從峰值算力來看,TPU v4的峰值算力達275 TFLOPS,為TPU v3峰值算力的2.24倍。圖14:TPU v4 MXU數量翻倍,峰值算力大幅提升資料來源:Google Cloud、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容谷歌:TPU v4,可重配置光互連技術引領未來18谷歌的超級計算機構想:將4*4*4(64)個T
33、PU v4芯片連接成1個立方體結構(Cube),再將4*4*4個立方體結構(Cube)連接成共有4096個TPU v4芯片的超級計算機,其中物理距離較近TPU v4芯片(即同一個Cube中的4*4*4個芯片)采用常規電互聯方式,距離較遠的TPU(例如Cube之間的互聯)間用光互連。采用光互連技術可以有效避免“芯片等數據”的情形出現,進而提升計算效率??芍嘏渲霉饣ミB技術可以進一步提升計算性能。谷歌TPU v4通過加入光路開關(OCS)的方式,可以根據具體模型數據流來調整TPU之間的互聯拓撲,實現最優性能,根據TPU v4:An Optically Reconfigurable Supercomp
34、uter for Machine Learning with Hardware Support for Embeddings數據,可重配置光互連技術可以將性能提升至先前的1.2-2.3倍??芍嘏渲霉饣ミB技術提升計算機的穩定性。若計算機中部分芯片出現故障,可以通過該技術繞過故障芯片,進而不會影響整個系統的工作。圖15:谷歌超級計算機互聯結構資料來源:Norman P.J等-TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings-ISCA(2
35、023)-P2、國信證券經濟研究所整理圖16:可重配置光互連技術提升計算機的穩定性資料來源:Norman P.J等-TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings-ISCA(2023)-P3、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容英特爾:Gaudi架構實現MME和TPC并行運算19英特爾收購Habana Lab。Habana Labs成立于2016年,總部位于以色列,是一家為數據中心提供可編程深度學習加
36、速器廠商,2019年發布第一代Gaudi。英特爾于2019年底收購Habana Lab,旨在加快其在人工智能芯片領域的發展,2022年發布Gaudi 2。Gaudi架構實現MME和TPC并行運算。Gaudi架構包含2個計算引擎,即矩陣乘法引擎(MME)和TPC(張量處理核心);Gaudi架構使得MME和TPC計算時間重疊,進行并行運算,進而大幅提升計算效率。Gaudi 2延續上一代架構,硬件配置大幅提升。Gaudi 2架構基本與上一代相同,TPC數量從8個提升至24個,HBM數量從4個提升至6個(總內存從32GB提升至96GB),SRAM存儲器提升一倍,RDMA從10個提升至24個,同時集成了
37、多媒體處理引擎,硬件配置大幅提升。圖17:Gaudi架構實現MME和TPC并行運算,大大提升計算效率資料來源:Habana Gaudi 2 白皮書、國信證券經濟研究所整理圖18:Gaudi 2 Block Diagram資料來源:Intel Habana、國信證券經濟研究所整理請務必閱讀正文之后的免責聲明及其項下所有內容英特爾:Gaudi 2性能表現出色20RDMA技術用于芯片互聯,大幅提升并行處理能力。RDMA是一種遠端內存直接訪問技術,具有高速、超低延遲和極低CPU使用率的特點。Gaudi將RDMA集成在芯片上,用于實現芯片間互聯,大幅提升AI集群的并行處理能力;同時,Gaudi支持通用以
38、太網協議,客戶可以將Gaudi放入現有的數據中心,使用標準以太網構建AI集群。Gaudi 2性能表現出色。根據Habana Gaudi 2 White Paper披露數據,Gaudi 2在ResNET-50、BERT、BERT Phase-1、BERT Phase-2模型的訓練吞吐量分別為A100(40GB,7nm)的2.0、2.4、2.1、3.3x,性能表現出色。圖19:RDMA大幅提升Gaudi并行處理能力資料來源:Intel Habana、國信證券經濟研究所整理圖20:Gaudi 2性能表現出色資料來源:Habana Gaudi 2 白皮書、國信證券經濟研究所整理請務必閱讀正文之后的免責
39、聲明及其項下所有內容3 3、投資建議:建議關注海內外投資建議:建議關注海內外AI ASICAI ASIC龍頭龍頭請務必閱讀正文之后的免責聲明及其項下所有內容建議關注海內外AI ASIC龍頭22GPT 5后NLP大模型逐步走向收斂,ASIC迎來黃金發展期,建議關注海內外AI ASIC龍頭。GPT 5后NLP大模型受到數據量限制,或將逐步走向收斂,進入模型迭代停滯期,若應用爆發則ASIC的優勢就顯現出來了。ASIC針對特定需求開發,可根據需求對性能和功耗進行定向優化,其專用的芯片架構與高復雜度的算法相匹配,量產后在性能、功耗、成本方面均具有較大優勢;ASIC是模型停滯期的最優解,將迎來黃金發展期,
40、建議重點關注海內外AI ASIC龍頭公司。英特爾(INTC.O):英特爾19年底收購以色列人工智能芯片公司Habana Labs,22年發布Gaudi 2 ASIC芯片。從架構來看,Gaudi架構擁有雙計算引擎(MME和TPC),可以實現MME和TPC并行計算,大幅提升計算效率;同時,其將RDMA技術應用于芯片互聯,大幅提升AI集群的并行處理能力。從性能來看,Gaudi 2在ResNET-50、BERT、BERT Phase-1、BERT Phase-2模型的訓練吞吐量優于英偉達A100,性能表現優異。IBM(IBM.N):IBM研究院22年底發布AI ASIC芯片AIU,旨在支持多種格式并簡
41、化從圖像識別到自然語言處理的人工智能工作流程。AIU包含32個基于5nm技術的處理核心以及230億個晶體管,有望于23年上市。請務必閱讀正文之后的免責聲明及其項下所有內容風險提示第一,宏觀經濟波動。若宏觀經濟波動,產業變革及新技術的落地節奏或將受到影響,宏觀經濟波動還可能對 IT 投資產生負面影響,從而導致整體行業增長不及預期。第二,下游需求不及預期。若下游數字化需求不及預期,相關的數字化投入增長或慢于預期,致使行業增長不及預期。第三,AI倫理風險:AI可能會生產違反道德、常規、法律等內容。第四,模型仍處于快速迭代期,ASIC芯片發展不及預期。ASIC芯片的設計和制造需要大量資金、較長的時間周
42、期和工程周期,且一旦定制無法再次進行寫操作,若模型仍處于快速迭代期,ASIC芯片發展不及預期。23請務必閱讀正文之后的免責聲明及其項下所有內容免責聲明免責聲明分析師承諾分析師承諾作者保證報告所采用的數據均來自合規渠道;分析邏輯基于作者的職業理解,通過合理判斷并得出結論,力求獨立、客觀、公正,結論不受任何第三方的授意或影響;作者在過去、現在或未來未就其研究報告所提供的具體建議或所表述的意見直接或間接收取任何報酬,特此聲明。重要聲明重要聲明本報告由國信證券股份有限公司(已具備中國證監會許可的證券投資咨詢業務資格)制作;報告版權歸國信證券股份有限公司(以下簡稱“我公司”)所有。本報告僅供我公司客戶使
43、用,本公司不會因接收人收到本報告而視其為客戶。未經書面許可,任何機構和個人不得以任何形式使用、復制或傳播。任何有關本報告的摘要或節選都不代表本報告正式完整的觀點,一切須以我公司向客戶發布的本報告完整版本為準。本報告基于已公開的資料或信息撰寫,但我公司不保證該資料及信息的完整性、準確性。本報告所載的信息、資料、建議及推測僅反映我公司于本報告公開發布當日的判斷,在不同時期,我公司可能撰寫并發布與本報告所載資料、建議及推測不一致的報告。我公司不保證本報告所含信息及資料處于最新狀態;我公司可能隨時補充、更新和修訂有關信息及資料,投資者應當自行關注相關更新和修訂內容。我公司或關聯機構可能會持有本報告中所
44、提到的公司所發行的證券并進行交易,還可能為這些公司提供或爭取提供投資銀行、財務顧問或金融產品等相關服務。本公司的資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告中意見或建議不一致的投資決策。本報告僅供參考之用,不構成出售或購買證券或其他投資標的要約或邀請。在任何情況下,本報告中的信息和意見均不構成對任何個人的投資建議。任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。投資者應結合自己的投資目標和財務狀況自行判斷是否采用本報告所載內容和信息并自行承擔風險,我公司及雇員對投資者使用本報告及其內容而造成的一切后果不承擔任何法律責任。證券投資咨詢業務的說明證券投資咨
45、詢業務的說明本公司具備中國證監會核準的證券投資咨詢業務資格。證券投資咨詢,是指從事證券投資咨詢業務的機構及其投資咨詢人員以下列形式為證券投資人或者客戶提供證券投資分析、預測或者建議等直接或者間接有償咨詢服務的活動:接受投資人或者客戶委托,提供證券投資咨詢服務;舉辦有關證券投資咨詢的講座、報告會、分析會等;在報刊上發表證券投資咨詢的文章、評論、報告,以及通過電臺、電視臺等公眾傳播媒體提供證券投資咨詢服務;通過電話、傳真、電腦網絡等電信設備系統,提供證券投資咨詢服務;中國證監會認定的其他形式。發布證券研究報告是證券投資咨詢業務的一種基本形式,指證券公司、證券投資咨詢機構對證券及證券相關產品的價值、
46、市場走勢或者相關影響因素進行分析,形成證券估值、投資評級等投資分析意見,制作證券研究報告,并向客戶發布的行為。國信證券投資評級國信證券投資評級類別類別級別級別定義定義股票投資評級股票投資評級買入預計6個月內,股價表現優于市場指數20%以上增持預計6個月內,股價表現優于市場指數10%-20%之間中性預計6個月內,股價表現介于市場指數10%之間賣出預計6個月內,股價表現弱于市場指數10%以上行業投資評級行業投資評級超配預計6個月內,行業指數表現優于市場指數10%以上中性預計6個月內,行業指數表現介于市場指數10%之間低配預計6個月內,行業指數表現弱于市場指數10%以上請務必閱讀正文之后的免責聲明及其項下所有內容國信證券經濟研究所國信證券經濟研究所深圳深圳深圳市福田區福華一路125號國信金融大廈36層郵編:518046總機:0755-82130833上海上海上海浦東民生路1199弄證大五道口廣場1號樓12樓郵編:200135北京北京北京西城區金融大街興盛街6號國信證券9層郵編:100032