《GPU行業深度研究:AI大模型浪潮風起GPU芯片再立潮頭-230326(86頁).pdf》由會員分享,可在線閱讀,更多相關《GPU行業深度研究:AI大模型浪潮風起GPU芯片再立潮頭-230326(86頁).pdf(86頁珍藏版)》請在三個皮匠報告上搜索。
1、AIAI大模型浪潮風起,大模型浪潮風起,GPUGPU芯片再立潮頭芯片再立潮頭證券研究報告證券研究報告 GPUGPU行業深度研究行業深度研究發布日期:2023年3月26日分析師:于芳博分析師:于芳博SAC編號:S1440522030001分析師:金戈分析師:金戈SAC編號:S1440517110001SFC 中央編號:BPD352分析師:分析師:閻貴成閻貴成SAC編號:S1440518040002SFC 中央編號:BNS315本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港
2、提供。同時請參閱最后一頁的重要聲明。核心觀點核心觀點:核心觀點:GPU具備圖形渲染和并行計算兩大核心功能,其應用場景主要包括個人電腦、服務器、自動駕駛、移動端。全球GPU市場保持良好成長性,AI服務器成為市場增長的核心支撐,隨著生成式AI大模型進入到輔助生產力階段,服務器GPU市場需求更為旺盛。英偉達憑借其數據中心GPU的核心技術優勢,成為全球人工智能芯片的引領者。AMD作為全球領先的芯片設計廠商,在GPU市場中與英偉達互相角逐。國內GPU市場空間廣闊,涌現出一批優秀的GPU設計和制造廠商。GPU具備圖形渲染和并行計算兩大核心功能具備圖形渲染和并行計算兩大核心功能。GPU具有數量眾多的運算單元
3、,適合計算密集、易于并行的程序,一般作為協處理器負責圖形渲染和并行計算。GPU微架構由流處理器、紋理映射單元、光柵化處理單元、光線追蹤核心、張量核心、緩存等部件共同組成,微架構的設計對GPU性能的提升發揮著至關重要的作用,也是GPU研發過程中最關鍵的技術壁壘。GPU應用程序接口(API)幫助GPU高效實現渲染功能,在并行計算方面,CUDA(統一計算設備架構)的誕生大幅降低GPGPU并行計算的編程難度,實現GPU的通用化,“個人計算機”變成可以實現并行運算的“超級計算機”。全球全球GPU市場保持良好成長性市場保持良好成長性,AI服務器成為市場增長的核心支撐服務器成為市場增長的核心支撐。2023年
4、GPU全球市場規模預計為595億美元,行業保持高速增長,CAGR為32.9%。GPU的市場主體可以分為個人電腦GPU、服務器GPU、自動駕駛GPU、移動端GPU。過去的幾個季度里,個人電腦GPU市場遭受巨大沖擊,出貨量顯著下滑。核心原因有三點:一、個人電腦市場處于下行周期;二、虛擬貨幣挖礦退潮對獨立GPU出貨造成巨大沖擊;三、下游板卡廠商開啟降庫存周期。近期,各類不利因素正在逐漸消融,個人電腦GPU市場迎來曙光。服務器GPU主要用于AI和高性能計算,人工智能行業的高速發展帶來了旺盛的AI算力需求,AI服務器成為GPU市場增長的核心支撐。以ChatGPT為代表的自然語言大模型展現出高度智能,生成
5、式AI能力不斷突破進入到輔助生產力階段,AI模型算力需求邁上新臺階,對服務器GPU市場帶來顯著拉動效應。自動駕駛GPU在高等級自動駕駛中具備顯著技術優勢,隨著高等級自動駕駛滲透率逐步提升,自動駕駛GPU市場也進入高速成長階段。英偉達憑借其數據中心英偉達憑借其數據中心GPU的核心技術優勢的核心技術優勢,成為全球成為全球人工智能芯片的領導者人工智能芯片的領導者。英偉達過去專注于GPU芯片設計,目前已經轉型成為計算平臺企業,成為人工智能芯片的領導者。其主營業務包含游戲&娛樂、數據中心、專業可視化、汽車業務。過去的兩個季度中,伴隨著個人電腦GPU整體市場需求疲軟,英偉達游戲&娛樂業務營收大幅下滑。隨著
6、虛擬貨幣挖礦退潮對GPU獨立顯卡帶來的沖擊逐漸下降,公司22Q4游戲&oOnM2YeXfVbZuY9YxU9PaO9PoMpPoMsRjMmMtQlOoMpQaQqRnNMYmQpPwMtQqP核心觀點娛樂業務再次環比提升,我們認為公司個人電腦GPU業務正逐步恢復到正常成長階段。2022年英偉達數據中心業務營收超過游戲&娛樂業務,成為第一大收入來源,公司GPGPU具備核心技術優勢,在AI芯片市場中占據主導地位,其數據中心業務將為公司的高質量成長貢獻長期動力。在自動駕駛業務方面,英偉達提供全棧式的自動駕駛解決方案,硬件層面上,其Orin和Thor自動駕駛芯片提供大幅算力,同時DLA模塊和PVA模
7、塊實現AI算法加速;在軟件層面上提供完整的開發者套件,其自動駕駛業務的平臺化優勢保證了英偉達在高等級自動駕駛中的領先地位。AMDAMD作為全球領先的芯片設計廠商作為全球領先的芯片設計廠商,在在GPUGPU市場中與英偉達互相角逐市場中與英偉達互相角逐。AMD的數據中心業務和嵌入式業務展現良好的增長趨勢,公司同時提供個人電腦GPU和數據中心GPU。公司的集成GPU主要被運用在臺式機和筆記本的APU產品,相比獨立GPU更具性價比優勢。Radeon系列獨立GPU構建于RDNA 3架構之上,采用5nm工藝和chiplet設計,實現了性能的整體提升。AMD推出用于數據中心的Radeon Instinct
8、GPU加速芯片,Instinct系列基于CDNA架構。最新的CDNA 2架構實現計算能力和互聯能力的顯著提升,采用CDNA 2架構的計算芯片MI250X與英偉達的先進計算芯片性能指標不分伯仲。AMD ROCm對標英偉達CUDA,其計算生態也在不斷的豐富過程當中。移動端的主要玩家包括高通移動端的主要玩家包括高通、ARMARM、ImaginationImagination。移動端GPU在設計過程中受到能耗和體積方面的限制,都是以集成的SOC芯片的形式出現在移動端。高通在旗艦Android智能手機SoC市場中保持領先地位,ARM是領先的GPU IP公司,Imagination的PowerVR架構在移
9、動芯片領域得到市場的廣泛認可,隨后陸續提出PowerVR的升級版本IMG系列架構。國內國內GPUGPU市場空間廣闊市場空間廣闊,涌現出一批優秀的涌現出一批優秀的GPUGPU設計和制造廠商設計和制造廠商。根據Verified Market Research數據,2020年中國大陸GPU市場規模為47.39億美元,預計2023年中國GPU市場規模將達到111億美元。伴隨著近期宏觀經濟回暖以及國內互聯網企業紛紛加大AI算力布局,PC和服務器的需求上升有望為國內GPU市場帶來整體拉動效應。國內涌現出一批優秀的GPU設計和制造廠商,諸如海光信息和景嘉微。海光信息DCU的產品性能均達到了國際上同類型主流高
10、端處理器水平,在國內處于領先地位,同時海光信息DCU協處理器全面兼容ROCm GPU計算生態。景嘉微GPU研發歷史悠久,技術積淀深厚,其GPU性能優越,芯片業務整體展現良好增長勢頭。風險提示:個人電腦出貨不及預期風險提示:個人電腦出貨不及預期、AIAI技術進展不及預期技術進展不及預期、互聯網廠商資本開支不及預期互聯網廠商資本開支不及預期、自動駕駛進展不及預期自動駕駛進展不及預期、國產替代進程不及預期國產替代進程不及預期、參與廠商眾多導致競爭格局惡化參與廠商眾多導致競爭格局惡化。第一章第一章GPUGPU芯片概述芯片概述0505第三章第三章人工智能芯片的引領者人工智能芯片的引領者英偉達英偉達333
11、3第四章第四章全球第二大全球第二大GPUGPU廠商廠商AMDAMD5555第六章第六章國內國內GPUGPU廠商發展情況廠商發展情況7171第七章第七章風險提示風險提示8383第五章第五章移動移動GPUGPU廠商廠商6363第二章第二章GPUGPU市場概述市場概述1818目目 錄錄 第一章第一章GPUGPU芯片概述芯片概述0505 1.1 GPU定義和主要組成 GPUGPU(GraphicsGraphics ProcessingProcessing UnitUnit):一般稱為圖形處理器:一般稱為圖形處理器,被廣泛用于個人電腦被廣泛用于個人電腦、工作站工作站、移動設備移動設備、游戲機游戲機、嵌入
12、式嵌入式系統中做圖像和圖形相關運算工作系統中做圖像和圖形相關運算工作。GPUGPU結構結構:GPU是一個異構的多核處理器芯片,針對圖形圖像處理優化。通常包括運算單元、L0/L1/L2緩存、Warp調度器、存取單元、分配單元、寄存器堆、PCIe總線接口、顯卡互聯單元等組件。GPUGPU工作方式工作方式:GPU并不是一個獨立運行的計算平臺,需要通過PCIe總線與CPU連接在一起來協同工作,可以看作CPU的協處理器。資料來源:英偉達,CSDN,中信建投圖:英偉達圖:英偉達A100A100 GPUGPU圖:圖:CPUCPU-GPUGPU異構架構異構架構 1.2 GPU相較于CPU并行計算能力更強(一)
13、CPUCPU當中運算單元占據面積相對較小當中運算單元占據面積相對較小。CPU硬件設計過程中為了實現低延遲增加了存儲單元和控制單元的復雜度,運算單元在GPU中占據面積相對較小,以Intel Core i7 3960X為例,其運算單元面積(6*21.4 mm2)大致占總芯片面積(435 mm2)的30%。CPUCPU的并行計算能力相對較弱的并行計算能力相對較弱。CPU通過指令級并行、數據級并行也可以提升其并行計算能力,但是帶來的提升也是有限的。單核單核CPUCPU性能逐步逼近物理極限性能逐步逼近物理極限。由于CPU受到“能耗墻”的限制,CPU主頻難以持續提升,單核單核CPUCPU性能逐步逼近物理極
14、限性能逐步逼近物理極限,采用多核CPU的策略一定程度緩解了CPU性能提升的制約,當前大數據和人工智能帶來了海量的數據,CPU已經無法跟上多源異構數據的爆炸性增長。資料來源:Intel,Wikipedia,中信建投共享L3緩存107.5 mm2接口功能區域107.5 mm2運算單元21.4 mm2存儲器控制66.7 mm2Intel Core i7 3960X22.7億晶體管 面積435mm2圖:圖:CPUCPU的功能區域分布的功能區域分布圖:圖:CPUCPU的主頻受到“能耗墻”限制的主頻受到“能耗墻”限制CPU主頻 1.2 GPU相較于CPU并行計算能力更強(二)GPUGPU具有數量眾多的運算
15、單元具有數量眾多的運算單元,采用極簡的流水線進行設計采用極簡的流水線進行設計,適合計算密集適合計算密集、易于并行的程序易于并行的程序。CPUCPU的運算單元數目相對較的運算單元數目相對較少少,單一運算核心的運算能力更強單一運算核心的運算能力更強,采用分支預測采用分支預測、寄存器重命名寄存器重命名、亂序執行等復雜的處理器設計亂序執行等復雜的處理器設計,適合相對復雜的串行適合相對復雜的串行運算運算。GPUGPU設計過程中側重吞吐優化設計過程中側重吞吐優化,具備強大的內存訪問帶寬具備強大的內存訪問帶寬。CPUCPU設計過程中側重時延優化設計過程中側重時延優化,包含復雜的多級緩存包含復雜的多級緩存(L
16、 L1 1/L/L2 2/L/L3 3)和邏輯控制單元和邏輯控制單元。CPU承擔運算核心和控制中心的地位,GPU一般作為協處理器負責圖形渲染和并行計算。資料來源:英偉達,中信建投維度維度GPUGPUCPUCPU核心數量數千個加速核心幾十個核心產品特點簡單的邏輯控制復雜的邏輯控制單元多線程以到達超大并行吞吐量通過多級緩存降低延遲高效眾多的運算單元(ALU)少量強大的運算單元(ALU)適用場景計算密集、易于并行的程序邏輯控制、串行運算的程序圖:圖:CPUCPU和和GPUGPU的架構比對的架構比對圖表:圖表:GPUGPU和和CPUCPU的區別的區別 1.3 GPU的核心功能一:圖形渲染資料來源:Op
17、enGenus,Vmware,中信建投圖:渲染流程操作圖:渲染流程操作圖:圖:GPUGPU硬件架構下的渲染流程硬件架構下的渲染流程 GPU憑借其較強的并行計算能力,已經成為個人電腦中圖像渲染的專用處理器。圖形渲染具體實現要通過五階段:頂點著色、形狀裝配、光柵化、紋理填充著色、測試與混合。GPUGPU渲染流程:渲染流程:三維圖像信息輸入GPU后,讀取3D圖形外觀的頂點數據后,1 1)在流處理器流處理器中構建3D圖形的的整體骨架,即頂點處理;2)由光柵化處理單元光柵化處理單元把矢量圖形轉化為一系列像素點,即光柵化操作;3)在紋理映射單元紋理映射單元實現紋理填充;4)在流處理器流處理器中完成對像素的
18、計算和處理,即著色處理;5)在光柵化處理單元光柵化處理單元中實現測試與混合任務。至此,實現一個完整的GPU渲染流程。頂點數據1)頂點著色2)形狀裝配3)光柵化4)紋理填充、著色5)測試與混合紋理數據頂點數據頂點處理像素處理顯存光柵化流處理器流處理器光柵化處理單元器紋理映射單元中完成紋理填充 1.4 GPU的核心功能二:通用計算資料來源:CSDN,英偉達官網,中信建投 2003年,GPGPU(GeneralGPGPU(General PurposePurpose computingcomputing onon GPU,GPU,基于基于GPUGPU的通用計算的通用計算)的概念首次被提出,意指利用G
19、PU的計算能力在非圖形處理領域進行更通用、更廣泛的科學計算。GPGPU概念的提出,為GPU更為廣泛的應用開拓了思路,GPGPU在傳統GPU的基礎上進行了優化設計,部分GPGPU會去除GPU中負責圖形處理加速的硬件組成,使之更適合高性能并行計算。GPGPUGPGPU在數據中心被廣泛地應用在人工智能和高性能計算在數據中心被廣泛地應用在人工智能和高性能計算、數據分析等領域數據分析等領域。GPGPU的并行處理結構非常適合人工智能計算,人工智能計算精度需求往往不高,INT8、FP16、FP32往往可以滿足大部分人工智能計算。GPGPU同時可以提供FP64的高精度計算,使得GPGPU適合信號處理、三維醫學
20、成像、雷達成像等高性能計算場景。圖:圖:GPUGPU與與GPGPUGPGPU的差異的差異圖:圖:GPGPUGPGPU在數據中心中承擔的工作任務在數據中心中承擔的工作任務圖形渲染通用計算GPUGPGPU人工智能計算高性能計算 1.5 微架構設計是GPU性能提升的關鍵所在資料來源:英偉達官網,中信建投 GPUGPU微架構微架構(MicroMicro ArchitectureArchitecture)是兼容特定指令集的物理電路構成是兼容特定指令集的物理電路構成,由流處理器由流處理器、紋理映射單元紋理映射單元、光柵化處理單元光柵化處理單元、光線追蹤核心光線追蹤核心、張量核心張量核心、緩存等部件共同組成
21、緩存等部件共同組成。圖形渲染過程中的圖形函數主要用于繪制各種圖形及像素、實現光影處理、3D坐標變換等過程,期間涉及大量同類型數據(如圖像矩陣)的密集、獨立的數值計算,而GPU結構中眾多重復的計算單元就是為適應于此類特點的數據運算而設計的。微架構的設計對微架構的設計對GPUGPU性能的提升發揮著至關重要的作用性能的提升發揮著至關重要的作用,也是也是GPUGPU研發過程中最關鍵的技術壁壘研發過程中最關鍵的技術壁壘。微架構設計影響到芯片的最高頻率、一定頻率下的運算能力、一定工藝下的能耗水平,是芯片設計的靈魂所在。英偉達H100相比于A100,1.2倍的性能提升來自于核心數目的提升,5.2倍的性能提升
22、來自于微架構的設計。圖:圖:英偉達英偉達AdaAda AD102AD102 GPUGPU架構架構圖:英偉達圖:英偉達H100H100相比于相比于A100A100的性能提升的性能提升微架構單元微架構單元 1.6 GPU微架構的硬件構成(一)流處理器流處理器(StreamStream ProcessorProcessor):是GPU內基本運算單元,通常由整點運算部分和浮點運算部分共同組成,稱為SP單元,從編程角度出發,也將其稱為CUDA核心。流處理器是DirectX10后引入的一種統一渲染架構,綜合了頂點處理(Vertex Pipelines)和像素處理(Pixel Pipelines)的渲染任務
23、,流處理器的數量和顯卡性能密切相關。紋理映射單元紋理映射單元(TextureTexture MappingMapping Unit,Unit,TMU)TMU):作為GPU中的獨立部件,能夠旋轉、調整和扭曲位圖圖像(執行紋理采樣),將紋理信息填充在給定3D模型上。光柵化處理單元光柵化處理單元(RasterRaster OperationsOperations UnitsUnits,ROPsROPs):依照透視關系,將整個可視空間從三維立體形態壓到二維平面內。流處理器和紋理映射單元分別把渲染好的像素信息和剪裁好的紋理材質遞交給處于GPU后端的光柵化處理單元,將二者混合填充為最終畫面輸出,此外游戲中
24、霧化、景深、動態模糊和抗鋸齒等后處理特效也是由光柵化處理單元完成的。紋理映射單元紋理映射單元資料來源:英偉達官網,中信建投流處理器流處理器張量核心張量核心光線追蹤核心光線追蹤核心圖:圖:英偉達英偉達TuringTuring的微架構單元的微架構單元 光線追蹤核心光線追蹤核心1.6 GPU微架構的硬件構成(二)資料來源:英偉達官網,中信建投圖:英偉達圖靈光線追蹤核心圖:英偉達圖靈光線追蹤核心圖:圖:Tensor CoreTensor Core通過混合精度運算實現通過混合精度運算實現AIAI運算加速運算加速 光線追蹤核心光線追蹤核心(RTRT CoreCore):是一種補充性的渲染技術,主要通過計算
25、光和渲染物體之間的反應得到正確的反射、折射、陰影即全局照明等結果,渲染出逼真的模擬場景和場景內對象的光照情況。通過采樣BVH算法,用來計算射線(光線、聲波)與物體三角形求交,與傳統硬件相比,RT Core可以實現幾何數量級的BVH計算效率提升,讓實時光線追蹤成為可能。張量核心張量核心(TensorTensor CoreCore):張量核心可以提升:張量核心可以提升GPUGPU的渲染效果同時增強的渲染效果同時增強AIAI計算能力計算能力。張量核心通過深度學習超級采樣(DLSS)提高渲染的清晰度、分辨率和游戲幀速率,同時對渲染畫面進行降噪處理以實時清理和校正光線追蹤核心渲染的畫面,提升整體渲染效果
26、。同時張量核心通過低精度混合運算,極大加速了AI運算速度,讓計算機視覺、自然語言處理、語言識別和文字轉化、個性化推薦等過去CPU難以實現的功能也得以高速完成。1.7 GPU中常見的數據格式和應用場景資料來源:英偉達,中信建投圖:圖:不同的浮點表示不同的浮點表示圖:不同應用場景的常見數據格式圖:不同應用場景的常見數據格式圖表:不同數據格式的構成和用途圖表:不同數據格式的構成和用途 計算機中常用的數據格式包括定點表示和浮點表示計算機中常用的數據格式包括定點表示和浮點表示。定點表示中小數點位置固定不變定點表示中小數點位置固定不變,數值范圍相對有限數值范圍相對有限,GPUGPU中常用的定點表示有中常用
27、的定點表示有INTINT8 8和和INTINT1616,多用于深度學習的推理過程多用于深度學習的推理過程。浮點表示中包括符號位浮點表示中包括符號位、階碼部分階碼部分、尾數部分尾數部分。符號位決定數值正負,階碼部分決定數值表示范圍,尾數部分決定數值表示精度。FP64(雙精度)、FP32(單精度)、FP16(半精度)的數值表示范圍和表示精度依次下降,運算效率依次提升。除此以外還有TF32、BF16等其他浮點表示,保留了階碼部分但是截斷了尾數部分,犧牲數值精度換取較大的數值表示范圍,同時獲得運算效率的提升,在深度學習中得到廣泛應用。數據格式數據格式構成構成用途用途FP641位符號、11位指數、52位
28、尾數常用于對精度要求高的科學計算FP321位符號、8位指數、23位尾數深度學習模型訓練的常見格式TF321位符號、8位指數、10位尾數替代FP32數據格式實現深度學習和HPC計算加速FP161位符號、5位指數、10位尾數深度學習越來越偏向使用FP16BF161位符號、8位指數、7位尾數提升AI模型的推理速度和部署靈活性INT88個bit表示一個數字INT8精度相對較低,常用于AI模型的端側推理科學計算:FP64、FP32AI訓練:FP32TF32FP16AI推理:FP16FP8INT8數值精度逐漸提升數值精度逐漸提升運算效率逐漸提升運算效率逐漸提升 GPUGPU應用程序接口應用程序接口(App
29、licationApplication ProgrammingProgramming InterfaceInterface,APIAPI):APIAPI是連接是連接GPUGPU硬件與應用程序的編程接口硬件與應用程序的編程接口,有利于高有利于高效執行圖形的頂點處理效執行圖形的頂點處理、像素著色等渲染功能像素著色等渲染功能。早期由于缺乏通用接口標準,只能針對特定平臺的特定硬件編程,工作量極大。隨著API的誕生以及系統優化的深入,GPU的API可以直接統籌管理高級語言、顯卡驅動及底層的匯編語言,提高開發過程的效率和靈活性。GPUPU應用程序接口主要涵蓋兩大陣營應用程序接口主要涵蓋兩大陣營,分別是分別
30、是MicrosoftMicrosoft DirectXDirectX和和KhronosKhronos GroupGroup技術標準技術標準。DirectX提供一整套多媒體解決方案,3D渲染表現突出,但是只能用于windows系統。OpenGL的硬件匹配范圍更廣,同時在CAD、游戲開發、虛擬現實等高端繪圖領域得到廣泛應用。此外還包括蘋果的Metal API等。1.8 應用程序接口是GPU和應用軟件的連接橋梁資料來源:CSDN,中信建投圖形圖形API平臺特征平臺特征Direct3DWindowsOpenGL系列OpenGLWindows、類Unix、Linux、MacOSVulkanWindows
31、、Android、LinuxOpenGL ESIOS、AndroidWebGL跨平臺MetalAPPLE圖:應用程序接口連接圖:應用程序接口連接GPUGPU硬件與應用程序硬件與應用程序圖表:圖表:GPUGPU應用程序接口主要標準應用程序接口主要標準GPU硬件顯卡驅動應用程序接口API操作系統OS應用程序 1.9 CUDA架構實現了GPU并行計算的通用化(一)資料來源:CSDN,中信建投 GPGPU相比于CPU,其并行計算能力更強,但是通用靈活性相對較差,編程難度相對較高。在CUDA出現之前,需要將并行計算映射到圖形API中從而在GPU中完成計算。CUDACUDA大幅降低大幅降低GPGPUGPG
32、PU并行計算的編程難度并行計算的編程難度,實現實現GPUGPU的通用化的通用化。CUDA是英偉達2007年推出的適用于并行計算的統一計算設備統一計算設備架構架構,該架構可以利用GPU來解決商業、工業以及科學方面的復雜計算問題。CUDA架構的里程碑意義在于,GPU的功能不止局限于圖形渲染,實現了GPU并行計算的通用化,把“個人計算機”變成可以并行運算的“超級計算機”。英偉達在推出了CUDA以后,相當于把復雜的顯卡編程包裝成了一個簡單的接口,可以利用CUDA直觀地編寫GPU核心程序,使得編程效率大幅提升?,F在主流的深度學習框架基本都是基于CUDA加速GPU并行計算。圖:圖:GPUGPU中并行計算過
33、程中并行計算過程圖:圖:CUDACUDA連接連接GPUGPU與深度學習框架與深度學習框架CUDA兼容各類深度學習框架CUDA僅支持英偉達GPU 資料來源:CSDN,中信建投 CUDACUDA:CUDA采用了一種全新的計算體系結構來調動GPU提供的硬件資源,本質上是應用程序和GPU硬件資源之間的接口。CUDA程序組成包括CUDA庫、應用程序編程接口(API)及運行庫(Runtime)、高級別的通用數學庫。CUDACUDA經過多年優化經過多年優化,形成了獨特軟硬件配合的生態系統形成了獨特軟硬件配合的生態系統。其中包括諸多編程語言的開發環境,各種API的第三方工具鏈,自帶的應用于代數運算和圖形處理的
34、CUDA庫、龐大的應用程序庫,從而實現輕松高效的編寫、調試優化過程。CUDA提供了對其它編程語言的支持,如C/C+,Python,Fortran等語言。CUDA支持Windows、Linux、Mac各類操作系統。CUDA驅動APICUDA運行期環境CUDA開發庫CUDA應用程序GPUCPU函數函數功能功能cuFFT利用CUDA進行快速傅里葉變換的函數庫cuBLAS線性代數方面的CUDA庫cuDNN利用CUDA進行深度卷積神經網絡計算Thrust實現眾多并行算法的C+模板庫cuSolver線性代數方面的CUDA庫。cuRAND隨機數生成有關的庫圖:圖:CUDACUDA程序結構程序結構圖表:圖表:
35、CUDACUDA部分內置函數部分內置函數1.9 CUDA架構實現了GPU并行計算的通用化(二)開發者利用開發者利用開發庫快速開發庫快速構建自己的構建自己的應用應用應用開發接應用開發接口和運行期口和運行期組件,包括組件,包括數據類型等數據類型等基本函數基本函數硬件設備硬件設備的抽象訪的抽象訪問接口問接口 第二章第二章GPUGPU市場概述市場概述1818 160億美元 CAGR:49%GPU市場增長的核心支撐受云廠商資本開支影響短期增速下滑市場規模:51億美元CAGR:8%GPU市場空間測算GPU市場個人電腦數據中心自動駕駛集成GPU獨立GPU22年出貨2.83億臺,同比下滑29.8%個人電腦處于
36、下行周期下游板卡廠商去庫存虛擬貨幣顯卡挖礦需求銳減2023年下半年或迎來PC市場轉折GPU廠商成品庫存或以已達頂峰虛擬貨幣挖礦影響逐步減弱22年出貨3808萬張,同比下滑22.5%。原因預期AI服務器高性能計算595億美元 CAGR:32.9%自動駕駛滲透率提升GPU滲透率提升單車價值量提升25億美元CAGR:44%2.1 GPU市場規模與細分資料來源:Verified Market Research,中信建投 根據根據VerifiedVerified MarketMarket ResearchResearch的預測的預測,20202020年年GPUGPU全球市場規模為全球市場規模為25425
37、4億美金億美金,預計到預計到20282028年將達到年將達到24652465億美金億美金,行業保行業保持高速增長持高速增長,CAGRCAGR為為3232.9 9%,20232023年年GPUGPU全球市場規模預計為全球市場規模預計為595595億美元億美元。GPUGPU按應用端劃分為按應用端劃分為PCPC GPUGPU、服務器服務器GPUGPU、智能駕駛智能駕駛GPUGPU、移動端移動端GPUGPU。PC GPU可以進一步劃分為獨立顯卡和集成顯卡。獨立顯卡主要用作圖形設計和游戲,對性能的要求比較高,主要的廠商包括英偉達和AMD;集成顯卡通常用在對圖形處理性能需求不高的辦公領域,主要產商包括In
38、tel和AMD。服務器GPU通常應用在深度學習、科學計算、視頻編解碼等多種場景,主要的廠商包括英偉達和AMD,英偉達占主導地位。在自動駕駛領域,GPU通常用于自動駕駛算法的車端AI推理,英偉達占據主導地位。圖:圖:GPUGPU整體市場規模(億美金)整體市場規模(億美金)圖表:圖表:GPUGPU的構成分類和生產廠商的構成分類和生產廠商類別類別主要領域主要領域主要廠商主要廠商PCGPU獨立顯卡圖形設計/游戲NVIDIA、AMD集成顯卡辦公Intel、AMD服務器GPUAI訓練/AI推理/HPC計算NVIDIA、AMD智能駕駛GPUAI推理NVIDIA移動端GPU圖形顯示Imagination、高通
39、、ARM2542465050010001500200025003000 2.2 PC顯卡市場迎來至暗時刻后的光明圖:圖:PCPC端不同類型顯卡出貨量情況端不同類型顯卡出貨量情況(百萬臺百萬臺)圖:圖:PCPC顯卡市場市場份額變動(按出貨量)顯卡市場市場份額變動(按出貨量)圖:獨立顯卡廠商的出貨量情況(百萬臺)圖:獨立顯卡廠商的出貨量情況(百萬臺)資料來源:Jon Peddie Research,中信建投 獨立顯卡市場開始逐漸回暖獨立顯卡市場開始逐漸回暖。根據Jon Peddie Research的數據,2022年獨立GPU出貨量下降至3808萬臺,同比下降22.5%,22Q3單季度出貨690萬
40、臺,同比下降45.7%,是十年以來最大的一次下滑,獨立顯卡出貨情況22Q4開始逐漸轉暖。集成顯卡出貨情況仍然不容樂觀集成顯卡出貨情況仍然不容樂觀。2022年集成GPU出貨量為2.83億臺,同比下滑29.8%。疫情期間的居家辦公需求帶動了筆記本電腦的消費增長,集成顯卡的購買激增一定程度上過早消耗了市場需求,后疫情時代,筆記本電腦端需求減弱疊加供應商的過剩庫存導致集成顯卡出貨不斷走低。我們認為我們認為20222022年獨立顯卡出貨遭遇巨大下滑的原因有三點:一年獨立顯卡出貨遭遇巨大下滑的原因有三點:一、受宏觀經濟影響受宏觀經濟影響,個人電腦市場處于下行周期;二個人電腦市場處于下行周期;二、部分部分獨
41、立獨立GPUGPU參與虛擬貨幣挖礦參與虛擬貨幣挖礦,以太坊合并對獨立以太坊合并對獨立GPUGPU出貨造成巨大沖擊;三出貨造成巨大沖擊;三、下游板卡廠商開啟降庫存周期下游板卡廠商開啟降庫存周期。107.23111.5388.2896.8182.6273.6368.658.5711.7711.4712.7213.1913.3810.376.97.430246810121416020406080100120140集成顯卡出貨獨立顯卡出貨6.99.011.610.110.58.27.87.16.95.07.78.16.67.48.99.09.49.210.010.210.08.26.06.22.73.
42、74.55.25.64.62.71.72.02.42.83.62.92.12.62.02.42.32.73.03.22.10.70.80.40.02.04.06.08.010.012.014.02017Q12017Q22017Q32017Q42018Q12018Q22018Q32018Q42019Q12019Q22019Q32019Q42020Q12020Q22020Q32020Q42021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q4英偉達AMDIntel71%12%17%0%10%20%30%40%50%60%70%80%Q2 2009Q1 201
43、0Q4 2010Q3 2011Q2 2012Q1 2013Q4 2013Q3 2014Q2 2015Q2 2016Q1 2017Q4 2017Q3 2018Q2 2019Q1 2020Q4 2020Q3 2021Q2 2022IntelAMDNvidia 2.3 因素一:個人電腦市場依舊處于下行周期 個人電腦市場保持疲軟狀態個人電腦市場保持疲軟狀態。根據IDC數據,2022年全年PC出貨量為2.92億臺,同比下降15.5%,2022Q4全球PC出貨量僅為6720萬臺,同比下降28.1%。IDC預測2023年個人電腦市場全年出貨2.608億臺,全年同比下降10.7%。按照2023年的整體出貨量情
44、況,我們對四個季度的出貨情況做了進一步預測,預計2023Q2-2023Q3后個人電腦出貨將迎來逐季度好轉。下游下游PCPC廠商庫存情況得到改善廠商庫存情況得到改善。當前個人電腦市場正處在PC廠商去庫存周期,根據PC廠商的財報披露,華碩和聯想的庫存天數已經開始減少,其余三家(惠普、戴爾、宏碁)的庫存天數并未顯著降低,由于所有廠商都在積極采取行動減少產量,預計下游PC廠商庫存情況會進一步改善,2023Q3可能恢復到正常庫存情況。圖:個人電腦圖:個人電腦出貨情況及預期出貨情況及預期圖:圖:PCPC廠商存貨周轉天數廠商存貨周轉天數資料來源:IDC,wind,中信建投備注:2023年分季度PC出貨量為中
45、信建投預測8483.686.792.780.571.374.267.262.261.265.273.3010203040506070809010021Q1 21Q2 21Q3 21Q4 22Q1 22Q2 22Q3 22Q4 23Q1 23Q2 23Q3 23Q4PC出貨量出貨量預測020406080100120140160180華碩惠普聯想宏碁戴爾 2.4 因素二:顯卡挖礦市場出現轉折,以太坊轉向權益證明 以太坊以太坊ETHETH占據顯卡挖礦主要市場占據顯卡挖礦主要市場。根據MESSARI數據,在采用GPU挖礦的前7名虛擬貨幣中,以太坊ETH挖礦收入占GPU礦工總收入的97%。比特幣、萊特幣
46、等虛擬貨幣多采用功耗更低的ASIC礦機。20222022年年9 9月月1515日日,以太坊運行機制全面升級以太坊運行機制全面升級,從以太坊從以太坊1 1.0 0的工作量證明機制的工作量證明機制(PoWPoW)轉向以太坊轉向以太坊2 2.0 0的權益證明機制的權益證明機制(PoSPoS),在工作量證明機制中,需要通過累積顯卡提升計算能力,計算能力越強獲得記賬收益的概率越大;在權益證明機制中,只需通過質押虛擬貨幣獲得收益,質押的虛擬貨幣數量越大獲得記賬收益的概率越高。以太坊全面合并后不再需要購入大量顯卡、投入計算資源用于挖礦,是顯卡挖礦市場的重要轉折點。圖:圖:以太坊占據以太坊占據97%97%的的
47、GPUGPU挖礦市場收益挖礦市場收益圖:以太坊由工作量證明機制轉向權益證明機制圖:以太坊由工作量證明機制轉向權益證明機制資料來源:MESSARI,以太坊,中信建投2022.9.15 2.5 因素二:以太坊合并預計約500萬張二手顯卡流入市場 挖礦用顯卡平均哈希率為挖礦用顯卡平均哈希率為4646Mh/sMh/s。根據Hive OS礦池數據,通過不同型號顯卡的哈希率和占比情況統計,估算得到衡量顯卡挖礦能力的平均哈希率為46Mh/s。以太坊合并后顯卡需求降至零以太坊合并后顯卡需求降至零。根據以太坊全網算力,測算得到用于以太坊挖礦的GPU數量在2022年5月達到巔峰,大概為2573萬張,2022年9月
48、降至2008萬張,在以太坊合并之后,顯卡需求降至零。如果按照如果按照2020%回收比例測算回收比例測算,約約500500萬張存量顯卡將流入二手市場萬張存量顯卡將流入二手市場,預計帶來的不利影響在預計帶來的不利影響在20222022Q Q4 4-20232023Q Q1 1之間結束之間結束。圖表:圖表:虛擬貨幣挖礦用顯卡統計虛擬貨幣挖礦用顯卡統計圖:用于以太坊挖礦的顯卡數量測算(萬張)圖:用于以太坊挖礦的顯卡數量測算(萬張)資料來源:Hive OS,etherscan,中信建投型號型號哈希率哈希率Mh/s占比占比Radeon RX 580 3010.1%NVIDIA RTX 307062.00
49、9.4%NVIDIA GTX 1660 SUPER32.00 7.9%NVIDIA RTX 3060 Ti LHR 60.00 5.8%NVIDIA RTX 2060 SUPER43.00 4.3%NVIDIA RTX 3060 Ti62.00 4.3%Radeon RX 570 303.9%NVIDIA RTX 3080100.00 3.6%Radeon RX 5700 XT523.5%Radeon RX 6600302.3%其他45 44.8%平均462573 2008 0500100015002000250030002016-072016-102017-012017-042017-072
50、017-102018-012018-042018-072018-102019-012019-042019-072019-102020-012020-042020-072020-102021-012021-042021-072021-102022-012022-042022-072022-102023-01 051015202502004006008001000120014001600180020002017Q12017Q22017Q32017Q42018Q12018Q22018Q32018Q42019Q12019Q22019Q32019Q42020Q12020Q22020Q32020Q4202
51、1Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q4臺灣板卡廠商原材料庫存(億臺幣)英偉達成品庫存(億美元)2.6 因素三:GPU廠商庫存迎來好轉,高端顯卡價格企穩回升 GPUGPU廠商庫存情況即將迎來好轉廠商庫存情況即將迎來好轉。根據Bloomberg數據,GPU下游四家臺灣板卡廠商(華碩、技嘉、微星、華擎)自2022年一季度原材料庫存達到歷史高位以后,連續兩個季度庫存環比降低,當前原材料庫存相比最高峰下降28%。復盤歷史可見,GPU廠商成本庫存高峰多于臺灣板卡廠商原材料庫存2-3季度后到來,我們預計我們預計GPUGPU廠商的成品庫存將于廠商的成品庫存將
52、于20222022Q Q4 4到達頂峰到達頂峰。高端顯卡價格開始企穩回升高端顯卡價格開始企穩回升。根據Amazon上的顯卡價格跟蹤,英偉達和AMD的高端顯卡在2022年10月以后均實現了不同程度的價格回升,例如RTX 3080價格上漲30%,RTX 3090價格上漲28%,顯卡價格的回升意味著渠道商庫存正逐步回歸到正常水平,高端顯卡受挖礦市場沖擊更為劇烈,高端顯卡價格上漲從側面也能觀察到挖礦市場帶來的不利影響正在逐漸消失。圖:臺灣板卡廠商原材料庫存與圖:臺灣板卡廠商原材料庫存與GPUGPU廠商成品庫存情況廠商成品庫存情況圖:圖:AmazonAmazon顯卡價格跟蹤(美元)顯卡價格跟蹤(美元)資
53、料來源:Bloomberg,Amazon,中信建投0500100015002000250030003500RTX 3060RTX 3080RTX 3080 TiRTX 3090GTX 1650GTX 2060RX 6900 在數據中心在數據中心,GPUGPU被廣泛應用于人工智能的訓練被廣泛應用于人工智能的訓練、推理推理、高性能計算高性能計算(HPCHPC)等領域等領域。預訓練大模型帶來的算力需求驅動人工智能服務器市場快速增長預訓練大模型帶來的算力需求驅動人工智能服務器市場快速增長。巨量化是人工智能近年來發展的重要趨勢,巨量化的核心特點是模型參數多,訓練數據量大。Transformer模型的提出
54、開啟了預訓練大模型的時代,大模型的算力需求提升速度顯著高于其他AI模型,為人工智能服務器的市場增長注入了強勁的驅動力。根據Omdia數據,人工智能服務器是服務器行業中增速最快的細分市場,CAGR為49%。戰略需求推動戰略需求推動GPUGPU在高性能計算領域穩定增長在高性能計算領域穩定增長。高性能計算(HPC)提供了強大的超高浮點計算能力,可滿足計算密集型、海量數據處理等業務的計算需求,如科學研究、氣象預報、計算模擬、軍事研究、生物制藥、基因測序等,極大縮短了海量計算所用的時間,高性能計算已成為促進科技創新和經濟發展的重要手段。圖:大模型時代人工智能算力需求顯著提升圖:大模型時代人工智能算力需求
55、顯著提升圖:圖:Top500Top500超級計算機算力總和保持指數級上升超級計算機算力總和保持指數級上升圖:中國各類服務器的市場份額(億)圖:中國各類服務器的市場份額(億)資料來源:英偉達,Top500.org,Frost&Sullivan,中信建投2.7 GPU在數據中心的應用蘊藏巨大潛力0100200300400500201620172018201920202021 2022E 2023E 2024E 2025EAI服務器業務服務器通用服務器HPC服務器 自然語言大模型參數巨量化是行業發展趨勢所向自然語言大模型參數巨量化是行業發展趨勢所向。以ChatGPT為代表的人工智能模型表現出高度的智
56、能化和擬人化,背后的因素在于自然語言大模型表現出來的涌現能力和泛化能力,模型參數到達千億量級后,可能呈現性能的跨越式提升,稱之為涌現能力;在零樣本或者少樣品學習情景下,模型仍表現較強的遷移學習能力,稱之為泛化能力。兩種能力都與模型參數量密切相關,人工智能模型參數巨量化是重要的行業發展趨勢。預訓練大模型進入千億參數時代預訓練大模型進入千億參數時代,模型訓練算力需求邁上新臺階模型訓練算力需求邁上新臺階。自GPT-3模型之后,大規模的自然語言模型進入了千億參數時代,2021年之后涌現出諸多千億規模的自然語言模型,模型的訓練算力顯著增加。ChatGPT模型參數量為1750億,訓練算力需求為3.14*1
57、023flops,當前各種預訓練語言模型還在快速的更新迭代,不斷刷新自然語言處理任務的表現記錄,單一模型的訓練算力需求也不斷突破新高。圖:超大規模自然語言模型的發展歷程圖:超大規模自然語言模型的發展歷程圖:預訓練自然語言大模型的算力需求圖:預訓練自然語言大模型的算力需求資料來源:stateof AI 2022,Language Models are Few-Shot Learners,中信建投2.8 大模型帶來人工智能算力的旺盛需求ChatGPTGPGPT T-3 3(1(17 75 5B B)PaPan n-GuGu (2 20 00 0B B)HyHyp pe erCrCL LO OV V
58、A A (2 20 04 4B B)JuJur ra as ss si i c c-1 1 J Ju um m b bo o (204B204B)FLFLA AN N (1 13 37 7B B)J une 2020M ay 2021M eM eg ga at tr ro on n TuTur ri i n ng g-NLNLG G (1 13 37 7B B)YuYua an n 1.1.0 0(246B246B)Sep 2021GoGop ph he er r (2 28 80 0B B)ErErn ni i e e 3 3.0 0 T Ti i t ta an n (2 26 60 0B
59、 B)L La aM DM DA A (2 28 80 0B B)J an 2022GPGPT T-j j (6 6B B)GPGPT T-NeNeo oX X (2 20 0B B)Aug 2021P Pa aL LM M (5 54 40 0B B)OPOPT T (1 17 75 5B B)B BL LO OO OM M (1 17 76 6B B)G GL LM M (1 13 30 0B B)M ay 2022Aug 2022ChChi i n nc ch hi i l l l la a (7(70 0B B)chcha at tG GP PT TNov 2022 大模型的算力需求主
60、要來自大模型的算力需求主要來自于三個環節:于三個環節:預訓練得到大模型的訓練環節預訓練得到大模型的訓練環節。該環節中,算力呈現海量需求且集中訓練的特點,大模型通常在數天到數周內在云端完成訓練。模型的訓練算力與模型參數量、訓練數據量有關,以ChatGPT的訓練為例,單次模型訓練需要2000張英偉達A100顯卡不間斷訓練27天。適應下游領域時進一步適應下游領域時進一步fine-tune環節環節。算力需求取決于模型的泛化能力以及下游任務的難度情況。大模型日常運行時的推理環節大模型日常運行時的推理環節。大模型的日常運行中每一次用戶調用都需要一定的算力和帶寬作為支撐,單次推理的計算量為2N(N為模型參數
61、量),例如1750億參數的ChatGPT模型1k tokens的推理運算量為2*1750*108*103=3.5*1014flops=350 Tflops。近期ChatGPT官網吸引的每日訪客數量接近5000萬,每小時平均訪問人數約210萬人,假定高峰時期同時在線人數450萬人,一小時內每人問8個問題,每個問題回答200字,測算需要14000塊英偉達A100芯片做日常的算力支撐。大模型在融入搜索引擎或以app形式提供其他商業化服務過程中,其AI芯片需求將得到進一步的顯著拉動。資料來源:similarweb,中信建投2.9 大模型帶來AI芯片需求的顯著拉動圖:大模型的算力需求圖:大模型的算力需求
62、圖:圖:OpenAIOpenAI官網每日訪問量(百萬人)官網每日訪問量(百萬人)圖:圖:bingbing搜索每日訪問量(百萬搜索每日訪問量(百萬人)人)303234363840424446480102030405012/1/221/1/232/1/23桌面端移動端ChatGPTChatGPT加入加入bingbingChatGPTChatGPT開放開放 根據根據OmdiaOmdia數據數據,20192019年全球人工智能服務器市場規模為年全球人工智能服務器市場規模為2323億美金億美金,20262026年將達到年將達到376376億美金億美金,CAGRCAGR為為4949%。根據IDC數據,20
63、20年中國數據中心用于AI推理的芯片的市場份額已經超過50%,預計到2025年,用于AI推理的工作負載的芯片將達到60.8%。人工智能服務器通常選用CPU與加速芯片組合來滿足高算力要求,常用的加速芯片有GPU、現場可編程門陣列(FPGA)、專用集成電路(ASIC)、神經擬態芯片(NPU)等。GPUGPU憑借其強大的并行運算能力憑借其強大的并行運算能力、深度學習能力深度學習能力、極強的通用性和成熟的極強的通用性和成熟的軟件生態軟件生態,成為數據中心加速的首選成為數據中心加速的首選,9090%左右的左右的AIAI服務器采用服務器采用GPUGPU作為加速芯片作為加速芯片。圖:全球人工智能芯片市場規模
64、(億美金)圖:全球人工智能芯片市場規模(億美金)圖:圖:人工智能服務器工作負載預測人工智能服務器工作負載預測圖:人工智能服務器加速芯片類型圖:人工智能服務器加速芯片類型資料來源:Omdia,IDC,中信建投2.10 AI服務器是GPU市場規模增長的重要支撐59.1%48.5%44.5%43.5%41.5%39.3%39.2%40.9%51.5%55.5%56.5%58.5%60.7%60.8%0%10%20%30%40%50%60%70%80%90%100%201920202021E 2022E 2023E 2024E 2025EAI訓練AI推理0%10%20%30%40%50%60%70%8
65、0%90%100%201920202021GPU其他加速芯片23160376050100150200250300350400201920202021E2022E2023E2024E2025E2026EAI服務器市場規模 北美云廠商資本開支有所放緩北美云廠商資本開支有所放緩。人工智能服務器多采取公有云、私有云加本地部署的混合架構,我們以北美四家云廠商資本開支情況來跟蹤人工智能服務器市場需求變動,2022年四家云廠商資本開支合計1511億美元,同比增長18.5%。Meta預計2023年資本開支的指引為300-330億美元之前,與2022年基本持平,低于此前22Q3預計的340億到390億美元;谷歌
66、預計2023年資本開支將于2022年基本持平,但是會加大AI及云服務的建設投資。信驊科技短期營收下滑有所緩解信驊科技短期營收下滑有所緩解。作為全球最大的BMC芯片企業,信驊科技(Aspeed)的營收變化情況一般領先云廠商資本開支一個季度,其月度營收數據可以作為云廠商資本開支的前瞻指標,信驊科技近期營收下滑有所緩解。圖:北美四家云廠商資本開支情況(百萬美元)圖:北美四家云廠商資本開支情況(百萬美元)圖:圖:ASPEEDASPEED營收及增速情況營收及增速情況資料來源:Bloomberg,ASPEED,中信建投2.11 受云廠商資本開支影響AI服務器市場或將短期增速放緩-50%0%50%100%1
67、50%200%250%0500010000150002000025000300003500040000450002017Q12017Q22017Q32017Q42018Q12018Q22018Q32018Q42019Q12019Q22019Q32019Q42020Q12020Q22020Q32020Q42021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q4亞馬遜微軟谷歌Meta亞馬遜YoY微軟YoY谷歌YoYMeta YoY-60%-40%-20%0%20%40%60%80%100%0.001.002.003.004.005.006.002020-01
68、2020-032020-052020-072020-092020-112021-012021-032021-052021-072021-092021-112022-012022-032022-052022-072022-092022-112023-01營收(億TWD)YoY GPGPUGPGPU在高性能計算領域滲透率不斷提升在高性能計算領域滲透率不斷提升。在高性能計算領域,CPU+GPU異構協同計算架構得到越來越多的應用,全球算力前500的超級計算機中,有170套系統采用了異構協同計算架構,其中超過90%以上的加速芯片選擇了英偉達的GPGPU芯片。GPUGPU在超算服務器中的市場規模保持穩定增
69、長在超算服務器中的市場規模保持穩定增長。根據Hyperion Research數據,全球超算服務器的市場規模將從2020年的135億美金上升到2025年的199億美金,按照GPU在超算服務器中成本占比為27.3%核算,GPU在超算服務器中的市場規模將從2020年的37億上升至2025年的54億美金,CAGR為8%。圖:圖:Top500Top500超算服務器中加速芯片使用情況超算服務器中加速芯片使用情況圖:不同類型服務器的成本占比圖:不同類型服務器的成本占比圖:圖:GPUGPU在超算中的市場規模(億美元)在超算中的市場規模(億美元)資料來源:top500.org,IDC,中信建投2.12 GPU
70、在超算服務器中的市場規模保持穩定增長32.0%23.3%25.0%9.8%27.3%25.0%72.8%26.8%25.6%15.0%8.7%18.0%2.9%10.0%23.3%20.9%25.0%8.7%0%10%20%30%40%50%60%70%80%90%100%基礎服務器 高性能服務器AI推理機器學習型CPUGPU內存輔存其他135.2145.5169.5185.7199.5199.036.939.746.350.754.554.30.050.0100.0150.0200.0250.020202021E2022E2023E2024E2025E超算服務器市場規模GPU在超算服務器中的
71、市場規模 2.13 自動駕駛領域GPU市場保持高成長性 在自動駕駛領域在自動駕駛領域,各類自動駕駛芯片得到廣泛的應用各類自動駕駛芯片得到廣泛的應用。根據Yole數據,全球自動駕駛市場2025年將達到780億美金,其中用于自動駕駛的AI芯片超過100億美元。自動駕駛自動駕駛GPUGPU市場保持較高高成長性市場保持較高高成長性。我們根據ICV Tank的自動駕駛滲透數據,假設GPU在L2中滲透率15%,在L3-L5中滲透率50%,估算得到GPU在自動駕駛領域的市場規模,整體規模將從2020年的7.1億美元上升至2025年的44億美金,CAGR為44%。資料來源:ICVTank,Yole,中信建投圖
72、:自動駕駛圖:自動駕駛滲透率逐步提升滲透率逐步提升圖:圖:GPUGPU在自動駕駛領域的市場規模(億美元)在自動駕駛領域的市場規模(億美元)2330180013091029743598535194830703307346234853298253110801947263431923893471260103614287298180010002000300040005000600070008000900010000202020212022E2023E2024E2025E2026EL0L1L2L3L4-L524.5336.3847.3259.5575.41104.567.0713.4119.3025.0
73、733.9743.8902040608010012020202021E2022E2023E2024E2025E自動駕駛AI芯片GPU在自動駕駛市場規模 第三章第三章人工智能芯片人工智能芯片的引領者的引領者英偉達英偉達3333 英偉達英偉達(NVIDIANVIDIA)創立于創立于19931993年年,是一家專注于智能芯片設計和圖形處理技術的半導體公司是一家專注于智能芯片設計和圖形處理技術的半導體公司。公司產品應用領域包括游戲、數據中心、專業可視化、自動駕駛等,針對具體場景特點,英偉達推出了一系列特定優化的芯片和服務器,同時積極打造相應的軟件生態,成為GPU領域的龍頭企業。公司當前不僅滿足于芯片設
74、計廠商的定位,在芯片、服務器等硬件設施之上,開發CUDA、DOCA等基礎軟件架構,不斷豐富其軟件生態,形成了軟件業務的全棧式解決方案,最終在應用層面上提供AI計算、高性能計算、自動駕駛、云游戲、元宇宙等眾多計算服務,公司已從一家公司已從一家GPUGPU公司成功轉型計算平臺企業公司成功轉型計算平臺企業。3.1 GPU領域龍頭英偉達發展史資料來源:CSDN,中信建投2017201220062010201620142018Tesla第一個統一著色器微架構引入CUDA90/65/55 nmFermi支持ECC流式多處理器支持GDDR5顯存40/28 nmKepler支持PCIe3.0動態并行計算28
75、nmMaxwellSMM流處理器動態高分辨率技術28 nmPascalHBM2的CoWoS技術GPU動態超頻3.016 nmVolta引入Tensor Core改進MPS12 nmTuring配備專用的RT Core深度學習超采樣(DLSS)GDDR6顯存12 nm2020Ampere二代RT CorePCIe4.08/7 nm2022Hopper四代 Tensor Core FP8 浮點格式Transformer 引擎四代NVLink 互連技術4nm圖:圖:英偉達英偉達GPUGPU微架構演進歷程微架構演進歷程 3.2 英偉達四大業務下的主要產品體系資料來源:英偉達官網,中信建投圖:英偉達主要
76、產品體系圖:英偉達主要產品體系游戲游戲&娛樂娛樂占FY2023營收33.6%數據中心數據中心占FY2023營收55.6%專業可視化專業可視化占FY2023營收5.7%汽車業務汽車業務占FY2023營收3.4%GeForce系列Quadro系列Tesla系列RTX studio驅動MAX-Q技術GeForce Now云游戲平臺硬件產品軟件技術開發平臺云端處理器NGC軟件優化中心HPC軟件開發包SDKCUDA架構虛擬GPU平臺云XR平臺AI增強會議軟件Sudio平臺MAXINE視頻增強自動駕駛芯片DRIVEDRIVE OSOSDRIVEDRIVE WorksWorksDRIVEDRIVE AVAV
77、DRIVEDRIVE ChauffeurChauffeurDRIVEDRIVE IXIXDRIVEDRIVE ConciergeConciergeDRIVEDRIVE MapMapDRIVEDRIVE HyperionHyperion開發平臺DRIVEDRIVE SDKSDK模塊式開放平臺DRIVEDRIVE SimSim模擬仿真平臺DRIVEDRIVE DGXDGXDNN訓練平臺Omniverse 設計平臺 3.3 公司盈利能力歷史表現優異 公司FY2023年實現營業收入269.74億美元,與FY2022年同比基本持平。數據中心業務保持快速增長趨勢,游戲業務、專業可視化業務營收相對下滑。FY
78、23Q4營業收入為60.5億美元,同比下降21%,但是環比提升2%,收入業績的恢復性增長主要得益于游戲業務的快速復蘇。公司FY24Q1營收指引為65億,整體業務重回環比正增長階段。FY2023年GAAP凈利潤43.68億美元,同比下降55.21%。第四季度GAAP凈利潤6.8億美元,同比下降72%。FY2023財年游戲顯卡以及數據中心計算芯片的需求相對疲軟,供大于求帶來了較高的庫存水平,導致了大額的資產減值損失,凈利潤水平有所下滑。圖:圖:英偉達營業收入及增速英偉達營業收入及增速(億美元)(億美元)圖:圖:英偉達凈利潤及增速英偉達凈利潤及增速(億美元)(億美元)269.74650.22%-20
79、%-10%0%10%20%30%40%50%60%70%050100150200250300營業收入營收指引YoY43.68-55.21%(100%)(50%)0%50%100%150%200%020406080100120凈利潤YoY資料來源:英偉達年報,中信建投備注:英偉達財年為上年1月31日至當年1月30日 46.30%39.43%33.60%55.63%3.4 2022年公司營收結構發生較大變化資料來源:英偉達年報,中信建投 公司FY2023營收結構發生較大變化,數據中心業務成為主要收入來源,占比55.63%,游戲業務占比下滑。FY2023數據中心業務營收達150億美金,同比增長55.
80、6%,該業務是公司的未來成長引擎,得益于人工智能算力的需求高增,業務保持中長期良好增長態勢,FY23Q4受云廠商資本開支影響,以及中國市場需求相對疲軟,營收略有下滑。FY2023游戲業務營收為90.6億美金,同比下滑27.3%,營收占比為33.6%。FY23Q2后,受顯卡市場沖擊,游戲業務營收連續兩個季度下滑,FY23Q4得到恢復性增長。FY2023專業可視化業務營收達15.44億美金,同比下滑26.7%。FY2023汽車業務營收達到9.03億美元,同比增長59.5%,主要受益于自動駕駛解決方案的銷售增長,營收占比從2021年的2.1%上升到3.35%。FY2022(里圈)FY2023(外圈)
81、13.3916.5422.7124.9527.630.6132.2134.236.220.4215.718.311.4117.521919.0320.4823.6629.3632.6337.538.0638.336.265 0102030405060708090游戲&娛樂數據中心專業可視化汽車業務其他業務營收指引圖:圖:英偉達主營業務收入構成(億美元)英偉達主營業務收入構成(億美元)圖:圖:英偉達主營業務營收占比情況英偉達主營業務營收占比情況 3.5 公司盈利能力水平恢復 近期公司整體毛利率近期公司整體毛利率、凈利率總體恢復到良好水平凈利率總體恢復到良好水平。英偉達成立之初,公司的毛利率只有3
82、0%+,規模效應促使毛利率在2011年達到50%以上。隨著數據中心業務占比不斷提升,單價近萬美元的Tesla系列加速卡的規?;鲐浻诌M一步提升毛利率。FY2022年毛利率提升至64.93%。FY23Q1-Q3公司毛利率水平有所下降,Q3毛利率為43.48%,主要原因是庫存和相關儲備導致較大的資產減值損失。得益于RTX 40系列顯卡的推出,FY23Q4重回63.34%的良好水平。公司研發支出不斷增長公司研發支出不斷增長,研發費用率基本保持在研發費用率基本保持在1818%以上以上,以提高在以提高在AIAI領域中的競爭優勢領域中的競爭優勢。公司研發投入處于行業較高水平,FY2023年研發費用率為25
83、.75%,保持較高研發投入。資料來源:Bloomberg,中信建投43.48%63.34%23.37%0%10%20%30%40%50%60%70%FY18Q1FY18Q2FY18Q3FY18Q4FY19Q1FY19Q2FY19Q3FY19Q4FY20Q1FY20Q2FY20Q3FY20Q4FY21Q1FY21Q2FY21Q3FY21Q4FY22Q1FY22Q2FY22Q3FY22Q4FY23Q1FY23Q2FY23Q3FY23Q4毛利率凈利率32.2%0%5%10%15%20%25%30%35%05101520FY18Q1FY18Q2FY18Q3FY18Q4FY19Q1FY19Q2FY19Q
84、3FY19Q4FY20Q1FY20Q2FY20Q3FY20Q4FY21Q1FY21Q2FY21Q3FY21Q4FY22Q1FY22Q2FY22Q3FY22Q4FY23Q1FY23Q2FY23Q3FY23Q4研發費用研發費用率圖:圖:公司毛利率、凈利率公司毛利率、凈利率圖:圖:英偉達研發投入情況(億美元)英偉達研發投入情況(億美元)3.6 公司游戲業務簡介 公司在游戲領域的產品主要包括:公司在游戲領域的產品主要包括:GPUGPU芯片和硬件產品芯片和硬件產品、GeForceGeForce NowNow云游戲平臺等云游戲平臺等。GPUGPU硬件產品主要包括硬件產品主要包括GeForceGeForce
85、 RTXRTX系列顯卡和系列顯卡和GeForceGeForce GTXGTX系列顯卡系列顯卡。GeForce RTX公司2019年推出的新一代具備先進的光線追蹤和AI技術的游戲顯卡,采用深度學習采樣DLSS及NVIDIA Broadcast等全新前沿AI技術。GeForce GTX系列最早在2007年推出,不含DLSS和光線追蹤技術,性價比相對較高,在市場上仍占有相當重要的地位。市場寒冬過后市場寒冬過后,英偉達游戲業務開始逐步回暖英偉達游戲業務開始逐步回暖。受顯卡市場影響,FY23Q2以來,英偉達游戲業務收入大幅下滑,FY23Q3單季度同比下滑51.2%,FY23Q4游戲業務開始回暖。圖:英偉
86、達游戲業務單季度營圖:英偉達游戲業務單季度營收(億美元)收(億美元)圖:獨立圖:獨立GPUGPU市場份額占比市場份額占比資料來源:英偉達年報,中信建投84%11%5%0%10%20%30%40%50%60%70%80%90%100%Q4 2002Q3 2003Q2 2004Q1 2005Q4 2005Q3 2006Q2 2007Q1 2008Q4 2008Q3 2009Q2 2010Q1 2011Q4 2011Q3 2012Q2 2013Q1 2014Q4 2014Q3 2015Q2 2016Q1 2017Q4 2017Q3 2018Q2 2019Q1 2020Q4 2020Q3 2021Q2
87、 2022NVIDIAAMDINTEL13.3916.5422.7124.9527.630.6132.2134.236.220.4215.718.30510152025303540FY21Q1FY21Q2FY21Q3FY21Q4FY22Q1FY22Q2FY22Q3FY22Q4FY23Q1FY23Q2FY23Q3FY23Q4 3.7 GPU性能增強帶動ASP持續提升產品型號產品型號單價(元)單價(元)CUDA Core核心數核心數顯存容量顯存容量GeForce RTX4090129991638424GBGeForce RTX40809499972816GBGeForce RTX 30901199
88、91049624 GBGeForce RTX 3080 Ti89991024012 GBGeForce RTX 308054998960/870412 GB/10 GBGeForce RTX 3070 Ti449961448 GBGeForce RTX 3070389958888 GBGeForce RTX 3060 Ti299948648 GBGeForce RTX 30602499358412 GBGeForce RTX 3050189925608 GB 英偉達不斷推出性能更高的新產品英偉達不斷推出性能更高的新產品。英偉達每年都會發布多款GPU產品,新產品的晶體管數目、制程、CUDA核心數
89、、顯存容量、渲染和運算能力等方面均有提升。單個單個GPUGPU的的ASPASP不斷提升不斷提升。GeForce RTX價值量提升明顯,RTX 4090顯卡比2020年3090首發時貴了8%,而4080比3080Ti貴了6%。圖表:英偉達圖表:英偉達RTXRTX系列產品單價及性能系列產品單價及性能圖:英偉達產品圖:英偉達產品ASPASP持續上升(美元)持續上升(美元)資料來源:英偉達官網,bloomberg,中信建投020406080100120140160180200英偉達ASPAMD ASP 3.8 公司游戲GPU具有顯著的技術優勢圖:圖:AdaAda架構實現性能的顯著提升架構實現性能的顯著
90、提升圖:顯卡天梯圖圖:顯卡天梯圖圖:圖:steamsteam用戶顯卡統計用戶顯卡統計 GeForceGeForce RTXRTX 4040系列顯卡實現游戲性能的大幅提升系列顯卡實現游戲性能的大幅提升。GeForce RTX 40系列顯卡采用英偉達Ada Lovelace架構,采用第三代RT Core技術實現全景光追性能提升至4倍,DLSS 3技術讓渲染幀率成倍增加,配合著色器執行重排序技術、NvidiaReflex等技術使其性能相較于Ampere架構提升至兩倍以上。資料來源:英偉達,中信建投 3.9 云游戲業務有望成為未來游戲業務支柱 全球云游戲市場增長迅速全球云游戲市場增長迅速。根據IDC的
91、數據,2020年全球云游戲市場規模為49億元,2025年全球云游戲市場規模將達到742.1億元,預期年均復合增速72%。谷歌、微軟、索尼、Facebook、NVIDIA、Valve、騰訊,以及各大游戲廠商紛紛布局云游戲業務。英偉達英偉達GeForceGeForce NowNow云游戲有望成為未來游戲業務支柱云游戲有望成為未來游戲業務支柱。GeForce Now目前已支持1500余款游戲,支持Steam、Epic Games、GOG.com等游戲啟動器,覆蓋75個國家和地區。2023年CES大會上,英偉達宣布GeForce NOW云游戲服務登陸汽車平臺,首批支持汽車品牌包括比亞迪、現代、起亞、捷
92、尼賽思以及Polestar極星。圖:全球云游戲市場規模圖:全球云游戲市場規模(億元億元)圖:圖:GeForce NowGeForce Now云游戲登錄汽車平臺云游戲登錄汽車平臺資料來源:IDC,英偉達,中信建投49114.1203.2348.8539.4742.1010020030040050060070080020202021E2022E2023E2024E2025E 3.10 公司逐步成為全球AI芯片領域的主導者圖:公司數據中心主要產品圖:公司數據中心主要產品圖:公司數據中心業務單季度營收(億美元)圖:公司數據中心業務單季度營收(億美元)英偉達的通用計算芯片具備優秀的硬件設計英偉達的通用計
93、算芯片具備優秀的硬件設計,通過通過CUDACUDA架構等全棧式軟件布局架構等全棧式軟件布局,深度挖掘芯片硬件的性能極限深度挖掘芯片硬件的性能極限,在各類下在各類下游應用領域中游應用領域中,均推出了高性能的軟硬件組合均推出了高性能的軟硬件組合,逐步成為全球逐步成為全球AIAI芯片領域的主導者芯片領域的主導者。早期英偉達在數據中心的產品布局主要為GPU加速服務器。通過不同型號的GPU加速器與CPU、DPU等其他硬件產品組合以及軟件的開發,英偉達還推出了面向高性能計算(HPC)、人工智能(DGX)、邊緣計算(EGX)等領域中的硬件產品。資料來源:英偉達官網,中信建投11.4117.521919.03
94、20.4823.6629.3632.6337.538.0638.336.2051015202530354045數據中心GPGPUDGX服務器通用計算適用AI計算HGX服務器適用HPC、AI計算EGX服務器適用邊緣計算NGC加速軟件HPC、AI加速虛擬GPU調用云端GPU 3.11 數據中心業務核心優勢一:AI計算能力不斷提升圖表:英偉達圖表:英偉達GPGPUGPGPU性能指標性能指標圖圖:不同型號不同型號GPGPUGPGPU的性能比對的性能比對圖圖:英偉達英偉達GPUGPU實現實現TransformerTransformer模型加速模型加速資料來源:英偉達官網,中信建投型號型號H100H100
95、A100A100A800A800V100V100FP64(TFlops)349.79.77.8FP32(TFlops)6719.519.515.7FP16(TFlops)133.87878-INT8 Tensor(Tops)395812481248-GPU顯存(GB)80808032顯存帶寬(GB/s)335020392039900互連(GB/s)900600400300功耗(W)700400400300發布時間2022.032020.032022.112017.5 從英偉達從英偉達GPGPUGPGPU芯片發展歷程來看芯片發展歷程來看,通過不斷提升計算單元數量和引入張量核心通過不斷提升計算單元
96、數量和引入張量核心,實現了計算能力的提升實現了計算能力的提升。每一代新型架構下的GPGPU均實現了各種數據格式下計算能力的提升,同時通過張量核心的引入,大幅提升高性能計算和AI計算能力。在人工智能領域在人工智能領域,公司公司TransformerTransformer引擎技術實現引擎技術實現TransformerTransformer模型的加速運行模型的加速運行。Transformer模型是當前自然語言處理的主流模型,并且越來越多應用在計算機視覺等其他深度學習領域。公司Transformer引擎是一種定制Tensor Core技術,針對Transformer模型的每一層參數進行分析,靈活使用混
97、合精度從而顯著提升模型運行速度。公司與云服務供應商加強合作公司與云服務供應商加強合作,實現實現AIAI算力云化算力云化。2023春季GTC大會上,英偉達宣布與谷歌云、微軟Azure、甲骨文云聯手推出DGX云服務,為中小型企業提供了更加便捷的AI算力獲取方式。00.20.40.60.81FP64(TFlops)FP32(TFlops)FP16(TFlops)INT8(Tops)GPU顯存(GB)顯存帶寬(GB/s)互連(GB/s)功耗(W)H100A100A800V100 3.12 數據中心業務核心優勢二:芯片互聯能力不斷提升 人工智能領域進入千億參數的大模型時代人工智能領域進入千億參數的大模型
98、時代,AIAI算力需求不斷增長算力需求不斷增長,在這種趨勢下在這種趨勢下,對數據中心的協同計算能力要求越來越對數據中心的協同計算能力要求越來越高高,對于能夠在對于能夠在GPUGPU之間實現無縫高速通信的多節點之間實現無縫高速通信的多節點、多多GPUGPU系統的需求也在與日俱增系統的需求也在與日俱增。NVIDIANVIDIA NVLinkNVLink技術最大化地提升技術最大化地提升GPUGPU吞吐量吞吐量。借助NVIDIA NVLink技術,單個NVIDIA H100 GPU通過18路NVLink連接實現900 GB/s總帶寬,是PCIe 5.0帶寬的7倍。NVIDIANVIDIA NVSwit
99、chNVSwitch芯片可為計算密集型工作負載提供更高帶寬和更低延遲芯片可為計算密集型工作負載提供更高帶寬和更低延遲。每個NVSwitch包含64個NVLink端口,實現8 GPU的高速互聯,可以提供無縫、高帶寬的多節點GPU集群。雙層雙層NVSwitchNVSwitch最多實現最多實現256256個個GPUGPU的高速互聯的高速互聯。通過在服務器外部添加第二層NVSwitch,NVLink網絡可以連接多達256個GPU,并提供57.6TB/s的多對多帶寬,從而快速完成大型AI作業。圖表:圖表:NVLinkNVLink互聯互聯圖表圖表:NVSwitchNVSwitch互聯互聯圖表圖表:服務器互
100、聯服務器互聯圖圖:互聯技術示例互聯技術示例資料來源:英偉達官網,中信建投NVLink第二代第二代第三代第三代第四代第四代總帶寬300GB/s600GB/s900GB/s單GPU最大鏈路數61218架構支持VoltaAmpereHopperNVSwitch第二代第二代第三代第三代第四代第四代直連或節點中GPU數量最多8個最多8個最多8個NVSwitch GPU之間帶寬300GB/s600GB/s900GB/s聚合總帶寬2.4TB/s4.8TB/s7.2TB/s架構支持VoltaAmpereHopper服務器互聯服務器互聯直連GPU數量多達256個NVSwitch GPU之間帶寬900GB/s聚合
101、總帶寬57.6TB/s架構支持HopperNVLinkNVSwitch服務器互聯服務器互聯 3.13 數據中心業務核心優勢三:軟硬件深度綁定 2006年,英偉達看到了人工智能的興起及GPU在并行計算方面的優勢后,開始斥巨資研發CUDA指令集架構和GPU內部的并行計算引擎。2007年英偉達正式推出CUDA 1.0版本,并使旗下所有GPU芯片都適應CUDA架構,如今“英偉達英偉達GPU+CUDAGPU+CUDA系統系統”已成為極具行業壁壘的軟硬件生態系統已成為極具行業壁壘的軟硬件生態系統。CUDA已經迭代至CUDA 11版本,得到開發者的廣泛青睞,用戶數量不斷提升。英偉達開發了用于深度學習的英偉達
102、開發了用于深度學習的TensorRTTensorRT推理引擎推理引擎。TensorRT基于CUDA并行編程模型,是一個高性能的深度學習計算平臺,TensorRT針對深度學習推理提供INT8和FP16優化,深度神經網絡的執行速度可比CPU平臺快40倍。TensorRT支持Tensorflow、Pytorch、Caffe等深度學習主流框架。圖:英偉達構建的圖:英偉達構建的CUDACUDA生態生態圖:圖:TensorRTTensorRT實現深度學習推理加速實現深度學習推理加速資料來源:英偉達官網,中信建投 3.14 數據中心業務核心優勢四:產品組合不斷豐富 公司數據中心芯片產品組合已擴展至公司數據中
103、心芯片產品組合已擴展至GPUGPU、CPUCPU、DPUDPU等等。20192019年年,英偉達以英偉達以6969億美元并購了億美元并購了MellanoxMellanox,推出推出BlueFieldBlueField系列系列DPUDPU。DPU的智能網卡將成為云數據中心設備中的核心網絡部件,逐漸承擔原先需要CPU來執行的網絡數據處理、分發的重任,從而從根本上實現軟件定義網絡(SDN)和網絡功能虛擬化(NFV)的諸多優勢,有效降低云計算的性能損失,釋放CPU算力,降低功耗的同時大大減少云數據中心的運營成本。最新的BlueField-3芯片能夠以400Gbps的速率對網絡流量進行保護、卸載和加速。
104、英偉達推出自研英偉達推出自研CPUCPU GraceGrace,產品組合不斷豐富產品組合不斷豐富。在2021GTC大會上,英偉達推出了Grace CPU并計劃在2023年量產,這款CPU是英偉達第一次推出的CPU產品,采用了ARM v9指令集,該指令集主要是增強面向矢量、機器學習和數字信號處理器的相關內容,這款CPU的主要應用場景將是在數據中心領域。資料來源:英偉達官網,中信建投圖:英偉達不斷豐富數據中心產品組合圖:英偉達不斷豐富數據中心產品組合圖圖:數據中心芯片發展路線圖數據中心芯片發展路線圖 3.15 英偉達在AI芯片市場中占據主導地位 英偉達憑借優異的硬件性能英偉達憑借優異的硬件性能、不
105、斷提升的網絡互聯能力不斷提升的網絡互聯能力、CUDACUDA的軟硬件協同的軟硬件協同、以及產品組合的全自研以及產品組合的全自研,在在AIAI數據中心和數據中心和HPCHPC超算中心占據領導者地位超算中心占據領導者地位。在學術界在學術界,英偉達英偉達GPUGPU作為作為AIAI芯片的出現頻率遠超其他類型芯片芯片的出現頻率遠超其他類型芯片。根據stateof.AI 2022報告,英偉達芯片在AI學術論文中的出現頻次遠超其他類型的AI芯片,是學術界最常用的人工智能加速芯片。在數據中心中在數據中心中,英偉達英偉達GPUGPU占據主導地位占據主導地位。根據LIFTR INSIGHTS數據,在大型數據中心
106、的AI加速芯片中,英偉達的GPU占據了超過80%的AI加速芯片市場份額,在Oracle以及騰訊云中,幾乎全部采用英偉達的GPU作為計算加速芯片。在整體數據中心加速芯片市場中,英偉達市場份額為82%,占據主導地位。圖:英偉達芯片在圖:英偉達芯片在AIAI學術論文中的出現頻次學術論文中的出現頻次圖:圖:20222022年人工智能加速芯片在云上部署情況年人工智能加速芯片在云上部署情況圖圖:2022:2022年人工智能加速芯片市場份額年人工智能加速芯片市場份額資料來源:stateof AI2022,LIFTR INSIGHTS,中信建投23x23xlog scale89%72%83%89%100%99
107、%15%5%6%3%7%14%11%6%1%0%20%40%60%80%100%阿里云AWSAzureGCPOracle騰訊NVIDIAAWSXilinxAMDGoogleIntel82%8%4%2%2%2%1%NVIDIAAWSXilinxAMDGoogleIntel其他 3.16 實時協作模擬平臺Omniverse OmniverseOmniverse是一個計算機圖形與仿真模擬平臺是一個計算機圖形與仿真模擬平臺,主要用處是讓企業在實際建設工廠主要用處是讓企業在實際建設工廠、生產產品前生產產品前,通過數字化模擬通過數字化模擬“預覽預覽”實際的成品實際的成品。Omniverse可以應用于媒體娛
108、樂、建筑工程、制造業、自動駕駛等多個領域,利用Omniverse能夠將全局照明、實時光線追蹤、AI、計算和工程 Simulation 等技術整合到日常工作流程中,提高行業工作流程的靈活性和可擴展性。在汽車制造行業中,沃爾沃和通用汽車使用Omniverse統一產品設計流程,豐田汽車則用來創建數字孿生工廠,奔馳使用這款軟件建立和優化新車的生產線,寶馬計劃在2025年投產的新電動車工廠已經在軟件中成功運作。OmniverseOmniverse平臺支持元宇宙的應用程序開發平臺支持元宇宙的應用程序開發,面向用戶提供生成式面向用戶提供生成式AIAI擴展工具擴展工具。創作者可使用Audio2Face,基于音
109、頻文件生成面部表情;使用Audio2Emotion,生成從快樂和興奮到悲傷和遺憾的逼真情緒;使用 Audio2Gesture,實現逼真的上半身動作。圖:圖:OmniverseOmniverse關鍵模塊和功能關鍵模塊和功能圖:基于圖:基于OmniverseOmniverse打造的寶馬數字工廠打造的寶馬數字工廠資料來源:英偉達官網,中信建投 3.17 英偉達提供全棧式的自動駕駛產品解決方案 在自動駕駛領域在自動駕駛領域,英偉達提供平臺化芯片以及算法開發工具鏈英偉達提供平臺化芯片以及算法開發工具鏈,已經形成了全棧式的自動駕駛產品解決方案已經形成了全棧式的自動駕駛產品解決方案。在硬件層面,公司推出Xa
110、vier、Orin、Thor的高等級自動駕駛芯片。在軟件層面,公司推出了自動駕駛配套的底層開發平臺Drive OS、模塊化定制軟件DriveWorks、自動駕駛軟件棧Drive AV和AI輔助駕駛平臺Drive IX等自動駕駛汽車軟件,實現感知、定位和地圖繪制、規劃和控制、駕駛員監控和自然語言處理等主要功能。通過“硬件+軟件”的一體化解決方案,實現L2-L5的自動駕駛應用場景全覆蓋,助力下游客戶進行自動駕駛技術的測試與開發。圖:公司自動駕駛產品提供“硬件圖:公司自動駕駛產品提供“硬件+軟件”的整體解決方案軟件”的整體解決方案圖:公司汽車業務單季度營收(億美元)圖:公司汽車業務單季度營收(億美元
111、)資料來源:英偉達官網,中信建投1.551.111.251.451.54 1.521.351.251.382.22.512.9400.511.522.533.5DriveDrive OSOS基礎軟件堆棧,包 含 CUDA、TensorRT等組件DriveDrive HyperionHyperion自動駕駛汽車參考架構DriveWorksDriveWorks提供各類針對自動駕駛的中間功能件DriveDrive IXIX為 AI 駕艙創新解決方案提供艙內感知DriveDrive AVAV實現感知、定位和地圖繪制、規劃和控制 3.18 自動駕駛Orin芯片 2021年12月,英偉達正式推出采用Ori
112、n芯片,相比前一代Xavier的算力提升7倍,從30 TOPS提升到了254 TOPS。Orin硬件架構可以簡單分為5部分,存儲、外圍、CPU、GPU和加速器,集成了采用12核的ARM Cortex-A78 CPU,新一代Ampere架構GPU以及全新深度學習加速器DLA和計算機視覺加速器PVA。Orin可以覆蓋L2-L5的自動駕駛計算需求。單個Orin芯片最高提供6個CSI攝像頭接口,通過虛擬通道增加到16個,可以承載4個800萬攝像頭。NVIDIA DRIVE L2+解決方案由兩個NVIDIA Orin系統級芯片提供支持,一個用于主動安全、自動駕駛和停車應用,另一個用于AI座艙功能。雙Or
113、in芯片可以承載8個800萬像素攝像頭,5個激光雷達,12個超聲波雷達,實現360度場景感知。圖:圖:OrinOrin硬件架構硬件架構圖:雙圖:雙OrinOrin架構的自動駕駛解決方案架構的自動駕駛解決方案資料來源:英偉達官網,中信建投 3.19 Thor芯片:算力大幅提升,提供全棧式解決方案圖:圖:ThorThor芯片實現計算能力的顯著提升芯片實現計算能力的顯著提升圖:單一圖:單一ThorThor芯片提供全棧式智能汽車解決方案芯片提供全棧式智能汽車解決方案資料來源:英偉達官網,中信建投 ThorThor芯片芯片AIAI算力大幅提升算力大幅提升。2022年9月,英偉達正式推出采用Thor芯片,
114、單顆芯片算力達到2000 TOPS,性能約是目前主流的英偉達Orin芯片的8倍,單顆FSD芯片的28倍,預計于2025年量產。Thor采用了面向高性能計算HPC的Grace CPU,GPU部分采用RTX 40系列的Ada Lovelace架構和針對Transformer深度神經網絡模型優化的Hopper架構,同時采用NVLink互聯技術。Hopper架構兼容的FP8精度格式,從而實現神經網絡的模型加速。ThorThor芯片提供全棧式智能汽車解決方案芯片提供全棧式智能汽車解決方案。Thor芯片提供的極高算力可以同時將包括自動駕駛和輔助駕駛、泊車、駕乘人員監控、數字儀表板、車載信息娛樂等智能功能,
115、統一整合到單個架構中,提供一套包括車身控制、娛樂等在內的全棧式解決方案,降低系統的運行能耗、提升效率,同時降低智能汽車的研發難度。3.20 DRIVE Hyperion自動駕駛平臺 英偉達英偉達DRIVEDRIVE HyperionHyperion是自動駕駛汽車開發平臺和參考架構是自動駕駛汽車開發平臺和參考架構,用于開發高等級的自動駕駛解決方案用于開發高等級的自動駕駛解決方案。DRIVE Hyperion構建于Orin芯片基礎之上,還包含適用于自動駕駛的開發者軟件套件與完整傳感器套件(12個外部攝像頭、3個內部攝像頭、9個雷達、12個超聲波、1個前置激光雷達)。通過準確的傳感器校正、精確的時間
116、同步、集成的實用程序實現了算法的開發加速。DRIVE Hyperion同時支持無線更新,能夠在車輛的完整生命周期內添加新的特性和功能,實現跨代兼容。DRIVEDRIVE HyperionHyperion得到新能源汽車制造商的廣泛青睞得到新能源汽車制造商的廣泛青睞。智己汽車、理想汽車、蔚來汽車、飛凡汽車和小鵬汽車等許多新能源汽車制造商采用DRIVE Hyperion作為平臺來開發智能的車型。英偉達在GTC 2023表示,從2023年上半年起,比亞迪將在部分新車上搭載英偉達DRIVE Hyperion平臺,實現車輛智能駕駛和智能泊車。圖:圖:DRIVE HyperionDRIVE Hyperion
117、示例示例圖:圖:Hyperion 8.1Hyperion 8.1傳感器規格傳感器規格資料來源:英偉達官網,中信建投傳感器傳感器功能功能8個外部攝像頭廣域和遠距視野4個外部攝像頭魚眼近距視野6個雷達角落和側面感知3個雷達前后感知1個激光雷達前面冗余感知3個內部攝像頭駕駛域乘客監控其他傳感器(IMU、GPS、GNSS等)其他信息采集 3.21 公司自動駕駛芯片技術領先,同時具備平臺化優勢軟硬件解耦可獨立升級研發捆綁軟件層面開放程度較高硬件優勢明顯完善的官方開發套件可在模塊化定制軟件層開放API,也可在輔助駕駛平臺和智能助手層開放 API。支持硬件升級路線和軟件升級路線其深度學習算法加速基于英偉達C
118、UDA和TensorRT,使其軟件研發體系不可脫離硬件平臺。生態生態優勢優勢 公司自動駕駛芯片通過公司自動駕駛芯片通過DLADLA模塊和模塊和PVAPVA模塊實現模塊實現AIAI算法加速算法加速。DLA(Deep Learning Accelerator)是一種專用于AI推理的深度學習加速器,英偉達DLA模塊由MAC(乘積累加運算)陣列組成,能夠有效地執行深度學習的固定推理操作??删幊桃曈X加速器(PVA),專注于視覺相關的處理,能夠比GPU或者DLA模塊更快、更好地處理對象檢測等視覺處理中的基本任務。公司自動駕駛架構具備靈活公司自動駕駛架構具備靈活、可快速迭代的優勢可快速迭代的優勢。公司布局了
119、完整的軟件堆棧,圍繞著車端、桌面端、云端構建了開發者平臺,其上包含各類中間件和成熟的算法模塊,形成完整的工具鏈和豐富的軟件生態??蛻艨梢栽谌魏我粚淤I入英偉達的服務,搭建自己的算法或者應用。配合英偉達的高算力自動駕駛芯片,實現自動駕駛算法的開發加速。圖:自動駕駛芯片中的圖:自動駕駛芯片中的DLADLA模塊實現模塊實現AIAI加速加速圖:公司圖:公司自動駕駛業務優勢自動駕駛業務優勢資料來源:英偉達官網,中信建投 第四章第四章全球第二大全球第二大GPUGPU廠商廠商AMDAMD5555 4.1 AMD簡介 美國超威半導體公司(Advanced Micro Devices,AMD)創立于1969年,專
120、門為計算機、通信和消費電子行業提供各類微微處理器以及提供閃存和低功率處理器方案處理器以及提供閃存和低功率處理器方案,公司是全球領先的全球領先的CPUCPU、GPUGPU、APUAPU和和FPGAFPGA設計廠商設計廠商,掌握中央處理器、圖形處理器、閃存、芯片組以及其他半導體技術,具體業務包括數據中心、客戶端、游戲、嵌入式四大部分。公司采用Fabless研發模式,聚焦于芯片設計環節,制造和封測環節則委托給全球專業的代工廠處理。目前全球CPU市場呈Intel和AMD寡頭壟斷格局,Intel占主導地位。在獨立GPU市場中,主要是英偉達(NVIDIA)、AMD進行角逐,Intel目前憑借其銳炬Xe M
121、AX產品也逐步進入獨立GPU市場。19691969公司在硅谷成公司在硅谷成立立,專注于微處理器及相關技術設計。20062006收購收購ATIATI,獲得圖形處理技術,成為當時全球唯一同時具備高性能 CPU/GPU 研 發能力的廠商。20072007發布發布TeraScaleTeraScale架架構構,是 來 自AMD/ATI的最后一個以純圖形為中心的GPU 架構。20122012發布發布GCNGCN架構架構,其 中Polaris是第四代,瞄準中 低 端 市 場;Vega 為第五代,瞄準高端市場。20192019發布發布RDNARDNA架構架構,Radeon 5000 系列顯卡率先采用RDNA架
122、構。20222022發 布發 布 RDNARDNA3 3 架架構的構的Radeon RX7900 XT顯卡,全球首款采用ChipletChiplet設計設計的游戲GPU。圖:圖:AMDAMD GPUGPU業務發展史業務發展史資料來源:AMD官網,中信建投 4.2 AMD保持良好的增長態勢 得益于公司數據中心得益于公司數據中心、嵌入式業務的快速增長嵌入式業務的快速增長,公司營收和凈利潤實現規模提升公司營收和凈利潤實現規模提升。2022年公司營業收入236億美元,同比增長43.6%;2022Q4公司營收55.99億美元,同比增長16%。2022年公司凈利潤13.2億美元,同比下降58.25%;20
123、22Q4凈利潤0.21億美元,同比下降98%,主要原因系收購賽靈思的無形資產攤銷導致凈利潤下滑。公司預期2023Q1營收53億美元,同比下滑10%??蛻艉陀螒虻募毞质袌鲱A計會同比下降,部分被嵌入式和數據中心細分市場增長所抵消。圖:圖:AMDAMD營收及增速營收及增速圖:公司凈利潤及增速圖:公司凈利潤及增速資料來源:AMD,中信建投23643.6%-40%-20%0%20%40%60%80%05010015020025020152016201720182019202020212022營業收入(億美元)YoY-6.6-4.970.433.373.4124.931.6213.2-58.25%-100
124、%0%100%200%300%400%500%600%700%800%-10-50510152025303520152016201720182019202020212022凈利潤(億美元)YoY 4.3 AMD分業務營收情況 公司營收主要包括四部分公司營收主要包括四部分。數據中心業務主要包括用于數據中心服務器的各類芯片產品;客戶端業務主要包括用于PC的各類處理器芯片;游戲業務主要包括獨立GPU及其他游戲產品開發服務;嵌入式業務主要包括適用于邊緣計算的各類嵌入式計算芯片。公司數據中心公司數據中心、嵌入式業務的營收增長較快嵌入式業務的營收增長較快。2022年,公司數據中心業務收入60.43億美元,
125、營收占比25.60%;客戶端業務收入62.01億美元,營收占比26.27%;游戲業務收入68.05億美元,營收占比28.83%;嵌入式業務收入45.52億美元,營收占比19.29%。圖:圖:分業務營收情況分業務營收情況圖:圖:20222022年分業務營收占比情況年分業務營收占比情況資料來源:AMD,中信建投25.60%26.27%28.83%19.29%數據中心客戶端游戲嵌入式8.1311.0811.6312.9314.8616.0916.5517.2816.9218.2921.2421.5210.229.0312.5514.3417.6318.7516.5516.3116.440.540.7
126、90.715.9512.5713.0313.9701020304050607021Q221Q321Q422Q122Q222Q322Q4數據中心客戶端游戲嵌入式 4.4 AMD盈利情況 公司2022年毛利率為45.55%,同比下降2.7pt;凈利率為5.59%,同比下降13.65pt,主要由于賽靈思收購相關的無形資產攤銷以及研發投入的增加。近年來公司不斷增加研發投入,2022年研發費用50.05億美元,同比上升75.9%;研發費用率為21.21%,上升3.9pt,2022年實現了研發費用的大幅提升。截止2022年底,AMD全球員工總數達25000人,相比2021年年底的15500人顯著提升。圖:
127、圖:公司毛利率和凈利率公司毛利率和凈利率圖:公司研發費用率圖:公司研發費用率資料來源:AMD,中信建投-16.54%-11.63%0.81%5.20%5.07%25.50%19.24%5.59%27.06%23.36%34.21%37.79%42.61%44.53%48.25%45.55%-20%-10%0%10%20%30%40%50%60%20152016201720182019202020212022凈利率毛利率50.0521.21%0%5%10%15%20%25%010203040506020152016201720182019202020212022研發費用研發費用率 4.5 AMD
128、提供集成GPU和獨立GPU AMDAMD可以提供集成可以提供集成GPUGPU和獨立和獨立GPUGPU兩類兩類PCPC GPUGPU。集成GPU主要被運用在臺式機和筆記本的APU產品、嵌入式等產品中,主要用于游戲、移動設備、服務器等應用。APU帶有集成的板載GPU,CPU和GPU的高度融合在一起協同計算、彼此加速,相比于獨立GPU更具性價比優勢。獨立獨立GPUGPU為為RadeonRadeon系列系列。AMD的Radeon系列獨立GPU按推出時間先后順序可以分為RX500系列、Radeon 7、RX5000系列、RX6000系列、RX7000系列。Radeon系列顯卡具備一定的性價比優勢,市場份
129、額有進一步上升的空間。RDNARDNA 3 3架構采用架構采用5 5nmnm工藝和工藝和chipletchiplet設計設計,比RDNA 2架構有54%每瓦性能提升,包括2.7倍AI吞吐量、1.8倍第二代光線追蹤技術,5.3 TB/s的峰值帶寬、4K 480Hz和8K 165HZ的刷新率等。AMD預計2024年推出RDNA 4架構,將采用更為先進的工藝制造。圖:圖:AMDAMD游戲游戲GPUGPU產品硬件架構產品硬件架構圖:圖:AMDAMD不同領域的架構選擇不同領域的架構選擇資料來源:AMD官網,中信建投 4.6 CDNA 2架構帶來計算性能的大幅提升 20182018年年,AMDAMD推出用
130、于數據中心的推出用于數據中心的RadeonRadeon InstinctInstinct GPUGPU加速芯片加速芯片,InstinctInstinct系列基于系列基于CDNACDNA架構架構。在通用計算領域,最新的CDNA 2架構相比CDNA 1架構,實現計算能力和互聯能力的顯著提升,MI250X采用CDNA 2架構。在向量計算方面,CDNA 2對向量流水線進行了優化,FP64的工作頻率與FP32相同,具備同樣的向量計算能力。在矩陣計算方面,CDNA 2引入了新的矩陣乘指令級,特別適用于FP64精度,此外Mattrix Core還支持FP32、FP16(BF16)和INT8的計算精度。在互聯
131、方面,通過AMD infinity fabric接口實現加速器之間的P2P或者I/O通信,提供800GB/s的總理論帶寬,相比上一代提升了235%。圖:圖:AMDAMD數據中心數據中心GPUGPU產品架構產品架構圖表:圖表:AMDAMD和英偉達數據中心和英偉達數據中心GPUGPU產品性能比對產品性能比對資料來源:AMD官網,中信建投型號型號AMD MI250X英偉達英偉達H100英偉達英偉達A100FP64(TFlops)47.9349.7FP32(TFlops)47.96719.5FP16(TFlops)3831979624INT8(Tops)38339581248GPU顯存(GB)1288
132、080顯存帶寬(GB/s)327733502039互連(GB/s)800900600功耗(W)560700400發布時間2021.112022.032020.03 4.7 AMD ROCm計算生態 AMDAMD ROCmROCm是是RadeonRadeon OpenOpen ComputeCompute(platform)(platform)的縮寫的縮寫,是是20152015年年AMDAMD公司為了對標公司為了對標CUDACUDA生態而開發的一套用于生態而開發的一套用于HPCHPC和超和超大規模大規模GPUGPU計算提供的開源軟件開發平臺計算提供的開源軟件開發平臺。ROCmROCm之于之于AM
133、DAMD GPUGPU相當于相當于CUDACUDA之于英偉達之于英偉達GPUGPU。ROCmROCm是一個完整的是一個完整的GPGPUGPGPU生態系統生態系統,在源碼級別上實現在源碼級別上實現CUDACUDA程序支持程序支持。ROCm在整體架構上與CUDA類似,實現了主要模塊的對齊,封裝層次較CUDA更為復雜。ROCm由以下組件組成:HIP程序、ROC運行庫、ROCm庫、ROCm核心驅動,ROCm支持各類主流的深度學習框架,例如Tensorflow、PyTorch、Caffe等。圖:圖:NVIDIANVIDIA的的CUDACUDA架構架構圖:圖:AMDAMD的的ROCmROCm架構架構圖:圖
134、:AMDAMD的的ROCmROCm生態組成生態組成資料來源:CSDN,AMD,中信建投 第五章第五章移動移動GPUGPU廠商廠商6363 5.1 移動端GPU采用不同的架構設計 移動端移動端GPUGPU在設計過程中受到能耗和體積方面的限制在設計過程中受到能耗和體積方面的限制,都是以集成的都是以集成的SOCSOC芯片形式出現在移動端芯片形式出現在移動端,被廣泛應用在手機被廣泛應用在手機、平板電腦平板電腦、VRVR、ARAR設備設備、物聯網設備當中物聯網設備當中。SOC芯片中,CPU、GPU共享有限的內存帶寬,頻繁使用內存帶寬會造成較大的能耗,通過采用分塊渲染架構(Tile-Based Rende
135、ring,TBR)可以有效減少帶寬消耗,其核心思想是:將幀緩沖分割為一小塊一小塊,然后在片上高速內存逐塊進行渲染,與PC端采用的及時渲染架構(IMR)相比,極大的減少了DRAM的訪問次數,從而降低了整體能耗。分塊延遲渲染架構(TBDR)采用影藏面消除(HSR),不會渲染被遮擋的物體表面片,渲染效率進一步提升。圖:圖:分塊架構架構分塊架構架構圖:即時渲染架構(圖:即時渲染架構(IMRIMR)和分塊渲染架構()和分塊渲染架構(TBRTBR)的差異)的差異資料來源:TechPowerUp,CSDN,中信建投PC端的IMR架構移動端的TBR架構 5.2 高通在旗艦Android智能手機SoC市場中保持
136、領先 高通自研GPU源自2009年收購于AMD的移動GPU Imageon系列,后改名為Adreno,并集成到自家驍龍SoC中,發展至今已到“Adreno-7”系列,在全球旗艦Android智能手機SoC市場中保持領先。據IDC報告顯示,2022Q3全球手機市場出貨量下滑8%,高通手機業務營收仍實現40%增長;Counterpoint Research研究顯示公司在AP/SoC芯片市場的份額從過往的25%左右提升至30%左右,穩占高端安卓市場。采用驍龍8+的OEM廠商和品牌包括華碩ROG、黑鯊、榮耀、聯想、Motorola、努比亞、一加、OPPO、OSOM、realme、紅魔、Redmi、vi
137、vo、小米和中興等。圖:圖:全球手機全球手機AP/SoCAP/SoC芯片份額芯片份額圖:圖:高通高通Adreno GPUAdreno GPU發展歷史發展歷史資料來源:counterpoint,高通,中信建投2009年以年以前前 Adreno 1x Series GPUs 固定功能GPU加速硬件,A110&A120自研,A130來自ATI/AMD2009-2011 Adreno 2x Series GPUs 收購收購AMD Imageon 完全可編程的 openGL ES 2.0 GPU,A205共同研發,A220/225自研2012-2018 Adreno 3x/4x/5x Series GP
138、Us 首款通用首款通用GPGPU,完全自研完全自研。性能飛速發展,逐步支持OpenGL ES、OpenCL、OpenGL、Direct3D、Vulkan 等。2018-2021 Adreno 6x Series GPUs A650首次支持HDR快速混合快速混合技術、A660引入可變分辨率可變分辨率渲染渲染(VRS)技術、技術、圖像運動圖像運動技術,大大提升游戲性能。2021至今至今 Adreno 7x Series GPUs 采用4nm工藝工藝,用于高端安卓設備,支持光光線追蹤技術。線追蹤技術。39%42%40%35%36%39%28%26%27%29%33%29%15%14%15%20%14
139、%14%7%9%10%11%11%11%6%5%5%4%5%6%5%3%2%1%1%0%0%5%10%15%20%25%30%35%40%45%2021Q12021Q22021Q32021Q42022Q12022Q2聯發科高通蘋果紫光展銳三星海思 5.3 高通移動GPU性能不斷提升迭代 2018年驍龍855攜Adreno 640進入5G時代,2019年高通發布搭載Adreno 660的驍龍888,該GPU是高性能和低功耗的代表產品。Adreno 660采用5nm制程,首次引入可變速率著色(VRS),為移動設備帶來全新桌面級功能,游戲性能提升明顯;桌面正向渲染技術以超逼真的細節提升畫面從電影景深
140、、運動模糊到動態燈光、陰影多個場景的質感;使用HDR FastBlend,運行HDR游戲的速度最高可提高2倍,可加速多層的混合。2022年11月,公司發布全新4nm級GPU Adreno 740,將搭載于驍龍8 Gen2,是首個和唯一支持全部HDR格式的移動GPU,支持光線追蹤技術和游戲后處理加速器技術。在Notebookcheck的GFXBench 3.0 1080p曼哈頓離屏測試中,分數優于蘋果A15。圖表:圖表:部分高端移動部分高端移動GPUGPU(智能手機和筆記本電腦)測試分數(智能手機和筆記本電腦)測試分數GPU型號型號像素著色器個數像素著色器個數制程制程(nm)性能性能評分評分GF
141、XBench 3.0 1080p曼哈頓離屏(曼哈頓離屏(fps)Apple M2(PC)85100483.7Apple M1(PC)8570.7345Adreno 740454.6253Apple A165457.3290.5Apple A155549.6233Adreno 730 444206ARM Mali-G71010449.25238Apple A14 Bionic2536.8172.85Adreno 660728.8134.27資料來源:Notebookcheck,中信建投 5.4 ARM全球領先的半導體IP公司 ARM是全球領先的半導體IP公司,成立于1990年。公司主要產品有CP
142、U、GPU和NPU等處理器IP、安全性IP、系統性IP和相關軟件及開發工具。公司通過IP授權向下游廠商收取許可費用和使用費用,客戶包含芯片設計、芯片生產等電子行業所有重要公司。公司GPU產品為Mali系列,使用場景有智能手機、平板電腦、筆記本電腦、可穿戴設備、VR/AR、自動駕駛汽車芯片等。據Strategy Analytics報告,ARM智能手機和平板電腦的GPU份額在2016年達到頂峰,2017年開始受蘋果iPhone和iPad的GPU出貨量增長等因素影響,ARM的GPU市場份額逐步下降到2020年的39%。據ARM官網,截止2022年6月,Mali GPU累計出貨量超80億顆,為全球出貨
143、量最高的移動GPU。圖:圖:ARMARM整體計算解決方案包含的產品及服務整體計算解決方案包含的產品及服務圖:圖:ARM ARM malimali GPUGPU路線圖路線圖資料來源:Arm,中信建投 5.5 ARM GPU領跑安卓陣營 公司GPU架構為第四代Vallhall,Mali-G7系列定位高端市場,其中Mali-G710在FPS/W峰值和持續工作負載方面表現出色;新出的Mali-G6系列采取G7系列相同架構但使用更少的核心,Mali-G5和Mali-G3定位中端市場。旗艦款Immortails-G715 GPU采用10個及以上內核,支持硬件級光線追蹤技術,效能提升15%,機器學習能力強化
144、兩倍。Immortails-G715 GPU已搭配Cortex-X3 CPU搭載于聯發科新款4nm級旗艦芯片天璣9200。在安兔兔的跑分中,天璣9200相比天璣9000性能提升25%,GPU性能提升32%,功耗降低41%,刷新安卓陣營歷史新高;在更側重GPU的GFX Bench測試中,Immortails-G715比蘋果A16幀數高出26fps。圖:圖:ARMARM整體整體SoCSoC設計方法設計方法圖:圖:ImmortailsImmortails-G715 GPUG715 GPU的架構的架構資料來源:Arm,中信建投 5.6 Imagination提供優秀的移動GPU芯片設計方案 Imagi
145、nation是移動GPU芯片設計的領軍企業,成立于1985年。近些年,公司不斷擴展產品領域,在CPU、人工智能芯片、以太網數據包處理器領域持續發力,產品覆蓋汽車電子、AIot、桌面級應用、移動設備、機頂盒、服務器等諸多領域。公司的PowerVR架構在移動芯片領域得到市場的廣泛認可,為Intel、LG、德州儀器、三星、索尼、蘋果、紫光展銳、海思等諸多公司提供授權服務。面向移動設備,2019年開始公司陸續提出PowerVR的升級版本IMG A系列、IMG B系列、具備光線追蹤能力的IMG CXT多層次產品。圖:圖:ImaginationImagination產品路線圖產品路線圖圖:圖:201920
146、19年手機年手機GPUGPU IPIP市場占有率市場占有率資料來源:Imagination,TSR,中信建投35.5%34.5%30.0%ImaginationARMQualcomm 5.7 IMG B系列采取去中心化的多核架構 2020年10月,公司發布IMG B系列高性能GPU IP,這款多核架構GPU IP包括BXE、BXM、BXT、BXS 4個系列33種配置,IMG BXE面向高清顯示應用,IMG BXM主打圖形處理體驗,IMG BXT面向高性能應用,IMG BXS面向汽車應用。IMGIMG B B系列采用去中心化的多核架構系列采用去中心化的多核架構。在一組內核中,采用主核、次核的拓展
147、模式,其中一個作為主GPU帶有一個控制固件處理器用來分割任務(渲染幀),并將這些渲染幀分割成不同的模塊,其他的GPU就將這些分割的任務在自己的硬件上執行??梢岳闷銱yperLane(超線程)技術,進行多任務并行處理。2021年11月,Imagination推出最新GPU產品IMG CXT實現了4級RTLS硬件光線追蹤,首次在移動端實現了桌面級質量的光線追蹤效果。圖:圖:IMGIMG B B系列產品系列產品圖:圖:BXTBXT的多核架構的多核架構資料來源:Imagination,中信建投 第六章第六章國內國內GPUGPU廠商發展情況廠商發展情況7171 6.1 國內GPU市場空間廣闊 國內市場
148、空間廣闊國內市場空間廣闊,PCPC、服務器拉動服務器拉動GPUGPU需求需求。根據Verified Market Research數據,2020年中國GPU市場規模為47.39億美元,預計2023年中國GPU市場規模將達到111億美元。中國數字化經濟轉型持續推進,催生大量對GPU的市場需求,給GPU帶來廣闊的市場空間。伴隨著近期宏觀經濟回暖以及國內互聯網企業紛紛加大AI算力布局,PC和服務器的需求上升有望為國內GPU市場帶來整體拉動效應。GPUGPU的國產替代過程中也需要克服諸多困難的國產替代過程中也需要克服諸多困難,例如:軟件生態以及例如:軟件生態以及IPIP、先進工藝的生產不可控先進工藝的
149、生產不可控,缺乏人才儲備缺乏人才儲備,人力人力、時間時間、資金投入成本較高等資金投入成本較高等。圖:圖:中國中國GPUGPU市場規模(億美元)市場規模(億美元)圖:圖:GPUGPU國產替代過程中需要克服的困難國產替代過程中需要克服的困難資料來源:Verified Market Research,中信建投缺乏人才缺乏人才儲備儲備先進工藝先進工藝生產不可生產不可控控人力、時人力、時間、資金間、資金投入成本投入成本高高軟件生態軟件生態以及以及IPIP47.3962.983.6111147.5195.9260.2345.60501001502002503003504002020202120222023
150、E 2024E 2025E 2026E 2027E 6.2 海光信息提供服務器、工作站中的高端處理器芯片 海光信息成立于2014年,主營業務是研發、設計和銷售應用于服務器、工作站等計算、存儲設備中的高端處理器。產品包括海光通用處理器(CPU)和海光協處理器(DCU),目前已經研發出多款新能達到國際同類主流產品的高端CPU和DCU產品。2018年10月,公司啟動深算一號DCU產品設計,目前海光DCU系列深算一號已經實現商業化應用,2020年1月,公司啟動了第二代DCU深算二號的產品研發工作。圖:圖:公司產品矩陣公司產品矩陣圖:公司營收細分圖:公司營收細分資料來源:海光信息招股說明書,中信建投海光
151、3200CPU海光5200CPU海光7200CPU海光8100DCU0.491.072.750.051.291.923.257.8615.022.390.002.004.006.008.0010.0012.0014.0016.002019202020213000系列5000系列7000系列8000系列 6.3 海光DCU詳解 海光海光DCUDCU屬于屬于GPGPUGPGPU的一種的一種,海光海光DCUDCU的構成與的構成與CPUCPU類似類似,其結構邏輯相其結構邏輯相CPUCPU簡單簡單,但計算單元數量較多但計算單元數量較多。海光DCU的主要功能模塊包括計算單元(CU)、片上網絡、高速緩存、各
152、類接口控制器等。深度計算處理器深度計算處理器(Deep(Deep-learninglearning ComputingComputing UnitUnit,DCU)DCU)。公司基于通用的GPGPU架構,設計、發布的適合計算密集型和運算加速領域的一類協處理器,定義為深度計算處理器DCU。兼容通用的“類 CUDA”環境以及國際主流商業計算軟件和人工智能軟件,軟硬件生態豐富,可廣泛應用于大數據處理、人工智能、商業計算等應用領域。圖:圖:DCUDCU架構示意圖架構示意圖圖表:海光圖表:海光DCUDCU 81008100性能指標性能指標海光海光81008100典型功耗260-350W典型運算類型雙精度
153、、單精度、半精度浮點數據和各種常見整型數據計算60-64個計算單元(最多4096個計算核心)支持FP64、FP32、FP16、INT8、INT4內存4個HBM2內存通道、最高內存帶寬為1TB/s、最大內存容量為32GBI/O16 Lane PCIe Gen4、DCU芯片之間高速互連資料來源:海光信息招股說明書,中信建投 6.4 海光信息DCU提供高性能算力 海光8100采用先進的FinFET工藝,典型應用場景下性能指標可以達到國際同類型高端產品的同期水平,在國內處于領先地位。2021年下半年DCU正式實現商業化應用,當年貢獻2.38億營收,該業務毛利率為34.84%,產品平均單價為19285元
154、。圖表:圖表:深算一號與主流深算一號與主流GPGPUGPGPU性能比對性能比對項目項目海光信息海光信息NVIDIANVIDIAAMDAMD品牌品牌深算一號Ampere 100MI100生產工藝生產工藝7nm FinFET7nm FinFET7nm FinFET核心數量核心數量4096(64 CUs)2560 CUDA processors640 Tensor processors120 CUs內核頻率內核頻率Up to 1.5GHz(FP64)Up to 1.7Ghz(FP32)Up to 1.53GhzUp to 1.5GHz(FP64)Up to 1.7Ghz(FP32)顯存容量顯存容量3
155、2GB HBM280GB HBM2e32GB HBM2顯存位寬顯存位寬4096 bit5120 bit4096 bit顯存頻率顯存頻率2.0 GHz3.2 GHz2.4 GHz顯存帶寬顯存帶寬1024 GB/s2039 GB/s1228 GB/sTDPTDP350 W400 W300 WCPU to GPUCPU to GPU互聯互聯PCIe Gen4 x 16PCIe Gen4 x 16PCIe Gen4 x 16GPU to GPUGPU to GPU互聯互聯xGMI x 2,Up to 184 GB/sNVLink up to 600 GB/sInfinity Fabric x3,up
156、to 276 GB/s資料來源:海光信息招股說明書,中信建投 海光信息海光信息DCUDCU協處理器全面兼容協處理器全面兼容ROCmROCm GPUGPU計算生態計算生態,由于由于ROCmROCm和和CUDACUDA在生態在生態、編程環境等方面具有高度的相似性編程環境等方面具有高度的相似性,CUDACUDA用戶可以以較低代價快速遷移至用戶可以以較低代價快速遷移至ROCmROCm平臺平臺,因此因此ROCmROCm也被稱為也被稱為“類類CUDA”CUDA”。因此,海光DCU協處理器能夠較好地適配、適應國際主流商業計算軟件和人工智能軟件,軟硬件生態豐富,可廣泛應用于大數據處理、人工智能、商業計算等計算
157、密集類應用領域,主要部署在服務器集群或數據中心,為應用程序提供高性能、高能效比的算力,支撐高復雜度和高吞吐量的數據處理任務。圖:圖:ROCmROCm GPUGPU計算生態計算生態6.5 ROCm GPU計算生態資料來源:海光信息招股說明書,公司官網,中信建投 6.6 景嘉微簡介 長沙景嘉微電子股份有限公司成立于長沙景嘉微電子股份有限公司成立于20062006年年,20152015年推出首款國產年推出首款國產GPUGPU,是國內首家成功研制具有完全自主知識產權的是國內首家成功研制具有完全自主知識產權的GPUGPU芯片并實現工程應用的企業芯片并實現工程應用的企業,2016年在深交創業板成功上市。公
158、司業務布局圖形顯示、圖形處理芯片和小型專用化雷達領域,產品涵蓋集成電路設計、圖形圖像處理、計算與存儲產品、小型雷達系統等方向。公司公司GPUGPU研發歷史悠久研發歷史悠久,技術積淀深厚技術積淀深厚。公司成立之初承接神舟八號圖形加速任務,為圖形處理器設計打下堅實基礎;公司2007年自主研發成功VxWorks嵌入式操作系統下M9芯片驅動程序,并解決了該系統下的3D圖形處理難題和漢字顯示瓶頸,具備了從底層上駕馭圖形顯控產品的能力。2015年具有完全自主知識產權的GPU芯片JM5400問世,具備高性能、低功耗的特點;此后公司不斷縮短研發周期,JM7200在設計和性能上有較大進步,由專用市場走向通用市場
159、;JM9系列定位中高端市場,是一款能滿足高端顯示和計算需求的的通用型芯片。圖:圖:景嘉微發展歷史景嘉微發展歷史資料來源:景嘉微招股說明書,wind,中信建投20062006成功研發成功研發VxWorksVxWorks嵌入嵌入式操作系統下及式操作系統下及GPUGPU芯芯片驅動程序片驅動程序,初步完成GPU技術積累。20122012幾款主要小型專用化雷達產品定型。20152015推出首款國產高性能推出首款國產高性能、低低功耗圖形處理芯片功耗圖形處理芯片JMJM54005400,具有完全自主知識產權。20182018年年1111月月成功研發第二代圖形成功研發第二代圖形處理芯片處理芯片JMJM7200
160、7200。20212021年年9 9月月成功研發第三代圖成功研發第三代圖形處理芯片形處理芯片JMJM9 9系系列列。20222022年年5 5月月JM9系列第二款芯片已完成流片、封裝階段工作及初步測試工作。6.7 公司芯片業務展現良好增長勢頭 2022Q1-Q3,公司實現營收7.29億元,同比下滑10.35%;歸母凈利潤1.73億元,同比下滑30.60%。近年來,公司收入保持高速增長,受行業景氣度旺盛和國產替代加速影響,分別在JM5400和JM9231研發成功時,公司營收增速均實現較大增長。分領域來看,圖形顯控領域產品銷售收入為公司核心收入,2021年芯片業務的快速發展,芯片收入占比提升到38
161、%。2022H1,圖形顯控領域產品銷售收入2.63億元,芯片業務收入2.09億元。圖:圖:公司營業收入、凈利潤及增速公司營業收入、凈利潤及增速圖:公司營收占比情況圖:公司營收占比情況74%73%72%71%48%48%16%20%18%16%10%12%6%5%8%11%41%38%4%2%2%2%1%1%0%20%40%60%80%100%201720182019202020212022H1圖形顯控小型雷達芯片其他收入資料來源:wind,中信建投3.063.975.316.5410.937.291.191.421.762.082.931.7310%30%34%23%67%-0.1013%20
162、%24%18%41%-0.31-40%-20%0%20%40%60%80%0.002.004.006.008.0010.0012.00201720182019202020212022Q1-Q3營業收入(億元)歸母凈利潤(億元)營業收入YoY歸母凈利潤YoY 6.8 芯片業務盈利能力不斷提升 公司芯片領域產品公司芯片領域產品20222022H H1 1毛利率毛利率4848.0404%,實現快速增長實現快速增長。由于公司采購芯片原材料的規?;?、工藝控制水平的提高降低了芯片產品成本,導致毛利率上升。公司堅持自主研發公司堅持自主研發,研發投入不斷加大研發投入不斷加大。2022Q3公司整體營收有所下
163、滑的背景下,研發費用為8027萬元,同比增長51.50%,前三季度合計研發費用2.15億,研發費用率為29.45%。公司研發人員占比不斷提高,2022H1公司有研發人員865名,占比達69.26%。公司管理費用、銷售費用和財務費用相對平穩,2022年前三季度分別為11.56%、4.77%和-1.36%。圖:圖:分業務毛利率水平分業務毛利率水平圖:公司期間費用率情況圖:公司期間費用率情況資料來源:wind,中信建投18.6%33.7%44.5%48.0%0.0%10.0%20.0%30.0%40.0%50.0%60.0%70.0%80.0%90.0%2019202020212022H1圖形顯控小
164、型雷達芯片其他5.38%5.65%4.20%4.36%4.77%12.84%11.76%11.92%10.36%11.56%20.32%22.07%27.14%23.16%29.45%-1.22%-6.82%-3.94%-1.57%-1.36%-10%-5%0%5%10%15%20%25%30%35%20182019202020212022Q1-Q3銷售費用率管理費用率研發費用率財務費用率 6.9 公司GPU性能優越 JM7200采用28nm CMOS工藝,內核時鐘頻率最大1300MHz,存儲器內存為4GB,支持OpenGL1.5/2.0,能夠高效完成2D、3D圖形加速功能,支持PCIe2.0
165、主機接口,適配國產CPU和國產操作系統平臺,可應用于個人辦公電腦顯示系統以及高可靠性嵌入式顯示系統。JM9系列面向中高端通用市場,可以滿足地理信息系統、媒體處理、CAD輔助設計、游戲、虛擬化等高性能顯示需求和人工智能計算需求。2022年5月,JM9系列第二款芯片已完成初步測試工作。圖表:圖表:景嘉微景嘉微9 9系產品與英偉達系產品與英偉達GTXGTX系列性能對比系列性能對比JM9系列型號一系列型號一JM9系列型號二系列型號二GTX 1050GTX 1080內核性能1 GHz(支持動態調頻)1.5GHz(支持動態調頻)1.455GHz1.6GHz顯存帶寬25.6GB/S128GB/S112GB/
166、S320GB/S顯存容量8GB8GB2GB8GB視頻解碼H.265/4KH.265/4KH.265/4KH.265/4K總線接口PCIe 4.0 X8PCIe 4.0 X8PCIe 3.0 PCIe 3.0 X16像素填充率8 GPixels/s32 GPixels/s46.56GPixel/s128GPixel/sFP32運算性能512 GFIops1.5 TFIops1.862 TFIops9 TFIops輸出接口HDMI 2.0HDMI 2.0HDMI 2.0,DisplayPort1.3HDMI 2.0,DisplayPort1.4支持平臺:支持X86、ARM、MIPS處理器和Linu
167、x、中標麒麟、銀河麒麟、統信軟件等操作系統資料來源:wind,中信建投 圖表:圖表:國產廠商渲染國產廠商渲染GPUGPU典型產品性能比對典型產品性能比對資料來源:各公司官網,中信建投6.10 國產GPU性能橫向比較廠商廠商英偉達英偉達英偉達英偉達景嘉微景嘉微芯動科技芯動科技芯動科技芯動科技摩爾線程摩爾線程型號型號GeForce RTX 4090GTX1080JM9系列風華一號風華一號風華二號風華二號MTT S80制程制程4nm16nmNA12nmNANA核心數目核心數目163842560NANANA4096個MUSA時鐘頻率時鐘頻率2.23-2.52GHz1.61-1.73GHz1.5GHzN
168、ANA1.8GHz顯存容量顯存容量24GB8GB8GB4GB/8GB/16GB2/4/8GB16GB顯存類型顯存類型GDDR6XGDDR5XNAGDDR6/GDDR6XNAGDDR6FP32 運算性能運算性能82.58 TFLOPS8.873 TFLOPS1.5 TFIops5 TFLOPS/10 TFlops1.5 TFLOPS14.4 TFLOPS總線接口總線接口PCIe 4.0 x16PCIE 3.0 X16PCIE 4.0 X8PCIe 4.0 x16PCIe 3.0 x8PCIe Gen5 x16 國產國產GPUGPU的典型廠商包括景嘉微的典型廠商包括景嘉微、芯動科技芯動科技、摩爾線
169、程等摩爾線程等。資料來源:各公司官網,中信建投6.11 國產GPGPU性能橫向比較廠商廠商英偉達英偉達海光信息海光信息摩爾線程摩爾線程壁仞科技壁仞科技天數智芯天數智芯型號型號A100深算一號MTT S3000壁礪100P天垓100制程制程7nm7nm FinFETNA7nm7nm核心數目核心數目691240964096NANA時鐘頻率時鐘頻率0.77-1.41GHz1.5-1.7GHz1.9GHzNANA顯存容量顯存容量40GB/80GB32GB32GB64GB32GB 顯存類型顯存類型HBM2eHBM2GDDR6HBM2EDRAM HBM2FP32 運算性能運算性能19.5 TFLOPSNA
170、15.2 TFLOPS240 TFLOPS(峰值)37 TFLOPS總線接口總線接口PCIe 4.0 x16PCIe Gen4 x 16PCIe Gen5 x16PCIe 5.0 X16PCIe Gen4.0 x 16TDP250W350W35W450-550W250W圖表:圖表:國產廠商國產廠商GPGPUGPGPU典型產品性能比對典型產品性能比對 國產國產GPGPUGPGPU的典型廠商包括海光信息的典型廠商包括海光信息、摩爾線程摩爾線程、壁仞科技壁仞科技、天數智芯等天數智芯等。第七章第七章風險提示風險提示8383 個人電腦出貨不及預期個人電腦出貨不及預期。個人電腦出貨受宏觀經濟影響比較大,個
171、人電腦出貨不及預期可能對PC端顯卡出貨造成影響。AIAI技術進展不及預期技術進展不及預期。當前AI技術的快速進步帶動了巨大的AI算力需求,如果AI技術進展不及預期,可能對GPU市場的整體需求產生不利影響?;ヂ摼W廠商資本開支不及預期互聯網廠商資本開支不及預期?;ヂ摼W廠商是AI算力和GPGPU的重要采購方和使用方,如果互聯網廠商資本開支不及預期,可能會對GPGPU的需求情況產生不利影響。自動駕駛進展不及預期自動駕駛進展不及預期。GPU在高等級的自動駕駛中滲透率相對較高,如果自動駕駛技術進步不及預期,可能會對GPU在自動駕駛中的應用產生不利影響。國產替代進程不及預期國產替代進程不及預期。GPU的國產
172、替代過程中面臨諸多困難,國產替代進程可能不及預期。參與廠商眾多導致競爭格局惡化參與廠商眾多導致競爭格局惡化。在GPU需求旺盛的背景下,國內外涌現出諸多GPU行業的新興玩家,眾多參與廠商可能導致整體競爭格局惡化。感謝樊文輝、龐佳軍對本報告的貢獻。風險提示 分析師介紹分析師介紹閻貴成:閻貴成:中信建投證券通信&計算機行業首席分析師,北京大學學士、碩士,專注于云計算、物聯網、信息安全、信創與5G等領域研究。近8年中國移動工作經驗,6年多證券研究經驗。系2019-2021年新財富、水晶球通信行業最佳分析師第一名,2017-2018年新財富、水晶球通信行業最佳分析師第一名團隊核心成員。金戈:金戈:中信建
173、投證券研究發展部計算機行業聯席首席分析師,帝國理工學院工科碩士,擅長云計算、金融科技、人工智能等領域。于芳博于芳博:中信建投人工智能組首席分析師,北京大學空間物理學學士、碩士,2019年7月加入中信建投,主要覆蓋人工智能等方向,下游重點包括智能汽車、CPU/GPU/FPGA/ASIC、EDA和工業軟件等方向。評級說明評級說明投資評級標準評級說明報告中投資建議涉及的評級標準為報告發布日后6個月內的相對市場表現,也即報告發布日后的6個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A股市場以滬深300指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作為基準;美
174、國市場以標普500 指數為基準。股票評級買入相對漲幅15以上增持相對漲幅5%15中性相對漲幅-5%5之間減持相對跌幅5%15賣出相對跌幅15以上行業評級強于大市相對漲幅10%以上中性相對漲幅-10-10%之間弱于大市相對跌幅10%以上 分析師聲明分析師聲明本報告署名分析師在此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,結論不受任何第三方的授意或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明本報告由中信建投證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,
175、由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已披露在報告首頁。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁。一般性聲明一般性聲明本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報
176、告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件,而任何假設條件都可能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告
177、所含信息,基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不對該等投資決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的范圍內,中信建投可能持有并交易本報告中所提公司的股份或其他財產權益,也可能在過去12個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析
178、師的觀點,分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式轉發、翻版、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部中信建投(國際)中信建投(國際)北京東城區朝內大街2號凱恒中心B座12層電話:(8610)8513-0588聯系人:李祉瑤郵箱:上海浦東新區浦東南路528號南塔2106室電話:(8621)6882-1612聯系人:翁起帆郵箱:深圳福田區益田路6003號榮超商務中心B座22層電話:(86755)8252-1369聯系人:曹瑩郵箱:香港中環交易廣場2期18樓電話:(852)3465-5600聯系人:劉泓麟郵箱:charleneliucsci.hk86