《科技前瞻專題:AI ASIC:算力芯片的下一篇章-241216(42頁).pdf》由會員分享,可在線閱讀,更多相關《科技前瞻專題:AI ASIC:算力芯片的下一篇章-241216(42頁).pdf(42頁珍藏版)》請在三個皮匠報告上搜索。
1、科技前瞻專題 AI ASIC:算力芯片的下一篇章 西南證券研究發展中心 海外研究團隊 2024年12月 西南證券研究發展中心 海外研究團隊 2024年12月 1 ASIC 可以適應不同的業務場景和商業模式的需求,可以滿足大型CSP客戶的諸多需求:1)內部工作負載的架構優化;2)更低的功耗,更低的成本;3)為AI工作負載定制的內存和I/O架構。隨著AI應用的發展和生態逐步完善,AI算力集群特別是推理集群對加速計算芯片需求巨大,驅動ASIC快速成長。預計2028年數據中心 ASIC 市場規模將提升至429億美元,CAGR為45.4%。ASIC針對特定算法和應用進行優化設計,在特定任務上的計算能力強
2、大,通常具有較高的能效比。目前ASIC以推理場景應用為主,并開始切入到部分訓練環節。對照北美四大CSP的自研產品路線:Google的TPU出貨目前以v5產品為主,2025年將量產TPU v6;亞馬遜的ASIC產品包括Trainium和Inferentia,分別用于訓練和推理環節;微軟和Meta也推出了各自的ASIC產品Maia 100和MTIA。由于大型CSP的業務模型、應用場景等多通過自身云來承載,每個云承載了獨特的應用和商業模型,包括內部應用(比如搜索引擎、社交媒體等)、SaaS服務(比如AI聊天機器人、Copilot等)、IaaS服務等,自研ASIC可適應自身不同的業務場景和商業模式的需
3、求。相關標的:1)博通:全球AI ASIC龍頭,目前已向多家頭部CSP客戶批量供應ASIC產品,其在計算,存儲,網絡IO,封裝等領域廣泛的IP儲備可為其XPU產品線賦能。2)Marvell:全球一線ASIC廠商,其定制計算產品包括AI加速芯片,針對安全、NIC/DPU、ARM計算、存儲、視頻和CXL功能的ASIC等,客戶包括北美頭部云廠商。風險提示:AI產業發展不及預期的風險;大型科技企業資本支出不及預期的風險;GPU競爭的風險。投 資 邏 輯 目 錄 1 ASIC芯片市場前景 2 ASIC與GPU的對比 4 相關標的 3 北美四大CSP自研AI ASIC 2 3 大型CSP在資本支出方面投入
4、巨大,支出的同比增速在加快。北美四大CSP的Capex規模今年來增幅顯著提升,2024年前三季度整體規模達到1708億美元,同比增長56%,且yoy逐季加快(Q1-Q3 yoy分別為34.7%、64.6%、68%)。其中,微軟530億美元,yoy+78.5%;亞馬遜551.7億美元,yoy+44.6%;谷歌382.6億美元,yoy+79%;Meta 243.9億美元,yoy+20.7%。資本支出大幅提升的背后,是各家巨頭在AI賽道上的競賽、AI算力的稀缺、AI云賦能和AI生態的拓展等多方面驅動。1.1 大型CSP加速資本支出 數據來源:各公司公告,西南證券整理 北美四大CSP資本支出規模(億美
5、元)4 大型CSP的業務模型、應用場景等很多通過自身的云來承載,每個云承載了獨特的應用和商業模型,包括內部應用(比如搜索引擎、社交媒體等)、SaaS服務(比如AI聊天機器人、Copilot等)、IaaS服務等。ASIC 可以適應不同的業務場景和商業模式的需求。ASIC可以滿足客戶的需求:1)內部工作負載的架構優化;2)更低的功耗,更低的成本;3)為AI工作負載定制的內存和I/O架構。1.2 ASIC可適應不同的業務場景和商業模式的需求 數據來源:Marvell,西南證券整理 ASIC需要滿足不同業務/應用的加速計算需求 5 目前在訓練階段,訓練集群對加速計算芯片的需求已提升到萬卡級別。隨著AI
6、模型對訓練需求的提升,未來10萬卡級別指日可待。而在推理階段,由于計算量與業務和應用密切相關,單個推理集群對加速計算芯片的需求低于訓練集群,但推理集群的部署數量要遠多于訓練集群,推理集群的數量預計會達到百萬級別。AI算力集群特別是推理集群對加速計算芯片的龐大需求,是ASIC快速成長的核心驅動力。1.3 訓練和推理集群對加速計算芯片的需求 數據來源:Broadcom,Marvell,西南證券整理 訓練和推理對AI算力集群的需求差異 6 據Marvell預測,2023年 ASIC 占數據中心加速計算芯片的16%,規模約為66億美元;隨著 AI 計算需求的增長,ASIC 占比有望提升至25%,預計2
7、028年數據中心 ASIC 市場規模將提升至429億美元,CAGR為45.4%。1.4 ASIC市場規模預測 數據來源:650 Group,CignalAI,DellOro,LightCounting,Marvell,西南證券整理 數據中心定制加速計算市場規模 目 錄 1 ASIC芯片市場前景 2 ASIC與GPU的對比 4 相關標的 3 北美四大CSP自研AI ASIC 7 8 ASIC針對特定算法和應用進行優化設計,在特定任務上的計算能力強大,例如在某些AI深度學習算法中實現高效的矩陣運算和數據處理。GPU具有強大的并行計算能力,擁有眾多計算核心,可同時處理多個任務,在通用計算和圖形處理方
8、面表現出色,適用于大規模的數據并行計算,如科學計算、圖形渲染、視頻處理等;但GPU在特定任務上的計算效率可能不如ASIC。ASIC通常具有較高的能效比,因其硬件結構是為特定任務定制的,能最大限度減少不必要的功耗。GPU由于其通用的設計架構,在執行特定任務時可能存在一些功耗浪費;但隨著技術的進步,新一代GPU也在不斷提高能效比。ASIC在處理特定任務時,能實現高吞吐量,數據處理速度快,可快速完成大量的數據處理工作。GPU具有較高的帶寬和并行處理能力,在圖形處理和通用計算中能實現較高吞吐量,但在處理一些復雜、非圖形相關的特定任務時,其吞吐量可能會受到一定限制。ASIC在絕對算力和片間互聯方面普遍低
9、于AI GPU,但ASIC的服務器間互聯由于采用以太網為主,具有通用性強、生態開放、低成本等優勢。2.1 ASIC硬件性能:針對特定算法和應用優化設計,具有較高能效比 數據來源:各公司官網,西南證券整理 市面主流GPU與ASIC規格對比 9 ASIC的單位算力成本更低,滿足一定的降本需求。ASIC因其硬件結構是為特定任務定制的,減少了很多針對通用加速計算的不必要的硬件設計,其單位算力成本相比GPU或更低。谷歌TPU v5、亞馬遜Trainium 2的單位算力成本分別為英偉達H100的70%、60%2.2 ASIC的單位算力成本更低,滿足一定的降本需求 數據來源:各公司官網,西南證券整理 市面主
10、流GPU與ASIC算力成本對比 10 ASIC在軟件生態上的優勢:云廠商普遍具備較強的研發能力,為 ASIC 研發了配套的全棧軟件生態,開發了一系列編譯器、底層中間件等,提升 ASIC 在特定場景下的計算效率。部分第三方芯片廠商推出了開源平臺,未來 ASIC 的軟件生態將會愈發成熟和開放。ASIC在軟件生態上的劣勢:軟件生態相對較為單一,主要針對特定的應用場景和算法進行優化。與 GPU 相比,ASIC 的編程難度較大,需要專業的知識和技能,開發工具和軟件庫相對較少。這使得開發者在使用 ASIC 時需要花費更多時間和精力進行開發調試。GPU軟件生態的優勢:軟件生態豐富成熟,擁有廣泛的開發工具、編
11、程語言和軟件庫支持,如英偉達的 CUDA 和 AMD 的 ROCm 等。開發者可使用熟悉的編程語言如 C、C+、Python 等進行開發,且有大量的開源項目和社區支持,方便開發者學習和交流。這使得 GPU 在各種應用場景中都能快速地進行開發和部署。GPU軟件生態的劣勢:軟件生態在特定任務上的優化程度可能不如 ASIC。在一些對性能和功耗要求極高的特定場景中,需要進行大量的優化工作才能發揮出 GPU 的最佳性能。2.3 ASIC與GPU軟件生態對比 數據來源:各公司官網,西南證券整理 11 ASIC在執行特定 AI 算法時的高性能和高能效的優勢,對于大規模數據中心等對能耗敏感的場景非常重要。由于
12、 ASIC 不需要集成通用的功能模塊,從而減少不必要的硬件資源浪費,如果AI應用場景明確且需求量大,ASIC在大規模生產后其單位成本可顯著降低。但ASIC也有開發周期長且靈活性差的劣勢,由于ASIC的設計和制造是針對特定算法和應用場景進行的,一旦設計完成其功能就固化下來,難以對芯片的功能和性能進行修改和升級,如果 AI 算法發生較大變化,ASIC 可能無法快速適應這種變化。此外,ASIC的生態系統還不夠完善,開發者在使用 ASIC 時可能需要花費更多時間和精力去搭建開發環境、編寫底層代碼等,開發難度較大。ASIC更適用于推理:在推理階段,AI模型已訓練完成,需要對輸入的數據進行快速的預測和分類
13、。此時對芯片的計算精度要求相對較低,但對計算速度、能效和成本等要求較高。ASIC正好滿足這些需求,其高度定制化的設計能針對推理任務進行優化,以較低的功耗實現快速的推理計算。且在大規模部署的場景下,ASIC的成本優勢更加明顯,可以降低企業的運營成本。GPU更適用于訓練:AI訓練過程需要處理大量的數據和復雜的計算,對芯片的計算能力、內存帶寬和并行處理能力要求非常高。GPU擁有眾多的計算核心和高帶寬內存,可以同時處理大量的數據樣本和復雜的計算任務,能夠加速 AI 模型的訓練過程。且在訓練過程中,需要不斷地調整模型的參數和結構,GPU的靈活性使其更適合這種頻繁的調試和迭代。2.4 ASIC以推理場景為
14、主,并開始切入到部分訓練環節 數據來源:西南證券整理 目 錄 1 ASIC芯片市場前景 2 ASIC與GPU的對比 4 相關標的 3 北美四大CSP自研AI ASIC 12 13 TPU(Tensor Processing Units,張量處理單元)是谷歌專為AI定制設計的ASIC,其針對大模型的訓練和推理進行了優化。TPU適合各種使用場景,例如聊天機器人、代碼生成、媒體內容生成、合成語音、視覺服務、推薦引擎、個性化模型等。截至2024年,谷歌TPU已迭代6代產品。TPU v5p單個Pod可達8960顆芯片的集群規模,借助Multislice訓練技術,TPU v5p可實現5萬卡線性加速。最新一
15、代TPUv6 Trillium預計2024H2推出,TPU v6 FP16/BF16精度非稀疏算力可達926 TFLOPS,約為H100、B100的93%、53%。相比TPU v5e,TPU v6能效高出67%,峰值性能高出3.7倍。3.1 谷歌TPU:谷歌專為AI定制設計的ASIC 谷歌TPU歷代產品性能 數據來源:谷歌,西南證券整理 14 TPU v4和TPU v5p算力集群采用3D torus(3D環面)架構和OCS,提供高速的網絡連接,增強拓展性與互聯效率。在TPUv4的架構中,每64顆TPU v4芯片組成4x4x4的立方體,每個CPU配備4顆TPU v4,64顆TPU v4和16顆C
16、PU放入一個機架,形成一個模塊。一個模塊有6個面的光路鏈接,每個面有16個鏈接,單模塊共有96個光路連接到OCS。為了提供3D環面的環繞鏈接,對面的鏈接必須連接到同一個OCS。每個模塊連接48個OCS(6162),最終實現所需的4096個TPU v4芯片互聯。TPU v4算力集群的物理架構:一個PCB包含4個TPU v4,通過ICI鏈路連接到其他托盤(tray),16個托盤共同放入一個機架,形成4x4x4的3D模塊結構。64個機柜共同組成4096顆芯片規模的算力集群。3.1.1 谷歌TPU算力集群能力 TPU立方體與3個OCS的連接 數據來源:谷歌,TPU v4:An Optically Re
17、configurable Supercomputer for Machine Learning with Hardware Support for Embeddings,西南證券整理 TPU v4封裝和算力集群 15 TPU v4與英偉達A100在MLPerf基準測試中的性能對比:TPU v4在BERT上比A100快1.15倍,比IPU快約4.3倍;在ResNet上,TPUv4分別比A100和IPU快1.67倍和約4.5倍;運行MLPerf基準測試時,A100的平均功耗比TPU v4高1.31.9倍。雖然TPU v4單芯片算力為A100的88%,但在性能和功耗表現上要優于A100。3.1.2
18、谷歌TPU基準測試性能對比 TPU與A100在MLPerf訓練中的性能對比 數據來源:谷歌,TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,西南證券整理 TPU與A100在MLPerf訓練中的功耗對比 MLPerf Benchmark 英偉達A100 谷歌TPU v4 比率 BERT 380 W 197 W 1.93 ResNet 273 W 206 W 1.13 16 TPU的算力成本隨著產品更新迭代也在持續優化。TPU v5e
19、的相對性價比(TFLOPs/$)是TPU v4的2.3倍,參考谷歌披露的TPUv4公開標價3.22美元/芯片/小時,TPU v5e的標價為1.2美元/芯片/小時,TPU v5e以更低的成本實現了更高的算力。TPU v5p訓練LLM的速度比TPU v4快2.8倍,利用第二代SparseCores,TPU v5p訓練嵌入密集模型的速度比TPU v4快1.9倍。3.1.3 谷歌TPU迭代推動大模型訓練效率顯著提升 谷歌TPU迭代推動大模型訓練效率的顯著提升 數據來源:谷歌,西南證券整理 17 AWS Trainium是AWS專門為超過1000億個參數模型的深度學習訓練打造的機器學習芯片。自2020年
20、以來,亞馬遜發布了兩代Trainium芯片。Trainium 1加速器提供190 TFLOPS的FP16/BF16算力,配有32GB的HBM,內存帶寬820GB/s;而新一代Trainium2達到了430 TFLOPS的FP16/BF16算力,其HBM容量達到96GB,內存帶寬為4TB/s。與第一代相比,AWS Trainium 2的性能提高了4倍,能效提高了1倍。每個Amazon Elastic Compute Cloud(Amazon EC2)Trn1實例部署多達16個Trainium加速器。AWS表示未來擴展到多達10萬個芯片的EC2 UltraCluster集群中,從而高效訓練大模型。
21、基于Trainium的Amazon EC2 Trn1實例與同類Amazon EC2實例相比,可節省高達50%的訓練成本。Trainium已針對訓練自然語言處理、計算機視覺和推薦器模型進行了優化,這些模型用于文本摘要、代碼生成、問題解答、圖像和視頻生成、推薦和欺詐檢測等各種應用程序。3.2.1 亞馬遜自研AI芯片Trainium AWS Trainium 2 數據來源:AWS,Semianalysis,西南證券整理 AWS Trainium產品線 18 AWS Inferentia加速器由AWS設計,在Amazon EC2中以低成本為深度學習和生成式AI推理應用程序提供高性能。第一代AWSInf
22、erentia 1加速器為Amazon Elastic Compute Cloud(Amazon EC2)Inf1實例提供支持,與同類Amazon EC2實例相比,該實例的吞吐量可提高多達2.3倍,每次推理的成本可降低多達70%。2023年亞馬遜發布了Inferentia 2芯片和Inf2實例,與Inferentia相比,AWS Inferentia 2加速器的吞吐量提高了4倍,延遲低至上一代的1/10。Inferentia 1加速器搭載4個第一代NeuronCore,配有8 GB的DDR4內存,每個EC2 Inf1實例最多有16個Inferentia 1加速器。Inferentia 2加速器
23、搭載了2個第二代NeuronCore,支持190 TFLOPS的FP16性能,配置32GB的HBM,與Inferentia 1相比,總內存增加了4倍,內存帶寬增加了10倍;每個EC2 Inf2實例最多有12個Inferentia 2加速器。3.2.2 亞馬遜自研AI芯片Inferentia AWS Inferentia 1架構 數據來源:AWS,西南證券整理 AWS EC2 Inf2實例性能 19 AWS Neuron是一款用于優化AWS Trainium和AWS Inferentia加速器上的機器學習性能的SDK。它支持在基于AWS Trainium的Amazon EC2 Trn1 實例上進
24、行高性能訓練。對于模型部署,它支持在基于AWS Inferentia的Amazon EC2 Inf1實例和基于AWSInferentia2的Amazon EC2 Inf2實例上進行高性能和低延遲推理。AWS Neuron SDK與PyTorch和TensorFlow原生集成,確??蛻艨衫^續在這些熱門框架中使用現有工作流程,并在Amazon EC2 Trn1、Inf1和Inf2實例上以最佳方式訓練和部署ML/DL模型。開發者可將基于GPU的實例遷移到AWS Tranium中,客戶只要修改少量代碼即可實現海量數據訓練,降低了訓練成本。3.2.3 亞馬遜AWS Neuron AWS Neuron S
25、DK工作流程 數據來源:AWS,西南證券整理 20 微軟將Maia 100打造成定制的AI加速器,用于在Azure上運行OpenAI的模型和Copilot等AI工作負載。Maia 100采用臺積電5nm制程和CoWoS-S封裝技術,配備64GB(416GB)的HBM2E,內存帶寬達1.8TB/s。Maia 100配備一個500MB的L1/L2緩存,芯片具有12倍400GbE的網絡帶寬,設計最大功耗700W TDP。Maia 100芯片在MXFP4數據格式下的性能達到 3200 TFLOPS,Int8下達到 1600 TFLOPS,BF16下達到 800TFLOPS,算力性能超過英偉達A100
26、28%,是英偉達H100的40%。微軟Maia 100單SoC搭載16個集群,其中每個集群搭載4個圖塊Tile。Maia 100擁有圖像解碼器和機密計算能力,支持廣泛的數據類型,包括FP32和BF16。3.3 微軟自研芯片Maia 100 微軟Maia 100介紹 數據來源:微軟,西南證券整理 微軟Maia 100內部結構 21 Maia 100基于自定義的RoCE類協議和以太網互連,內置AES-GCM加密引擎以保護用戶數據,網絡連接帶寬達到600GB/s。Maia100還由統一的后端網絡支持,用于擴展和橫向擴展工作負載,提供了支持直接和交換機連接的靈活性。微軟Maia 100芯片的Ares機
27、架配備32顆Maia 100。Ares一個機架中搭載了8臺服務器,每臺服務器中含有4個Maia 100,因此一個機架中總共有32顆Maia 100芯片。Ares機架功率可達40kW,配置了Sidekick液體冷卻系統,在機架兩側設置副設備,冷液從副設備流向Maia 100表面的冷板,副設備吸取液體中熱量后再將冷液輸出,以此構建散熱循環。3.3 微軟自研芯片Maia 100 微軟Maia 100以太網絡拓撲 數據來源:微軟,西南證券整理 微軟Maia 100規格和Ares機架 22 Maia SDK上實現快速部署和模型可移植性。微軟為Maia 100創建了軟件,該軟件與PyTorch和ONNX
28、Runtime等流行的開源框架集成。該軟件棧提供了豐富而全面的庫、編譯器和工具,使數據科學家和開發人員能在Maia 100上成功運行模型。微軟集成了OpenAI的Triton;Triton是一種開源編程語言,通過抽象底層硬件簡化了內核編寫,這將賦予開發者完全的可移植性和靈活性,而不會犧牲效率和針對AI工作負載的能力。Maia的SDK允許用戶將用PyTorch和Triton編寫的模型快速移植到Maia。3.3 微軟自研芯片Maia 100 數據來源:微軟,西南證券整理 23 MTIA v2于2024年4月發布,用于AI推理,旨在增強Meta的排名和廣告推薦引擎。MTIA v2采用臺積電5nm制程
29、,與上一代相比算力和內存帶寬翻倍提升,INT8下的稠密算力354 TFLOPS接近上一代的3.5倍,稀疏算力708 TFLOPS達到上一代的近7倍。MTIA v2配備128GB的LPDDR5內存,內存帶寬205GB/s,設計最大功耗90W TDP。目前Meta已有16個數據中心使用了新款芯片。芯片架構方面,MTIA v2內部包含加速器、片上和片外存儲以及互聯結構。AI加速器由8x8的處理單元網格(PE,processingelement)組成,PE基于RISC-V內核,PE彼此互聯,可作為一個整體運行任務,也可以獨立處理任務。片上內存SRAM容量256MB,SRAM帶寬為2.7TB/s,每個P
30、E內存容量為384KB,PE帶寬為1 TB/s。每個加速器使用PCIe Gen5 x8主機接口。3.4 Meta自研芯片MTIA Meta MTIA 2芯片架構 Meta MTIA 2規格 數據來源:Meta,西南證券整理 24 MTIA v2加速器模塊:每張卡2個MTIA芯片,每個MTIA都可以使用PCIe Gen5 x8接口,單模塊共x16接口(2 PCIe Gen5 x16)。MTIA機柜系統結構:一個機架系統包含(2MTIA芯片)(12模組)(3機箱),相當于每個機架系統搭載了72顆MTIA芯片。3.4 Meta自研芯片MTIA Meta MTIA 2機架系統拓撲 Meta MTIA
31、2加速器模塊結構和性能指標 數據來源:Meta,西南證券整理 25 MTIA v2軟件堆棧與PyTorch 2.0、TorchDynamo、TorchInductor完全集成,致力于提高開發者編程效率。MTIA v2的低級編譯器從前端獲取輸出,生成高效且特定于設備的代碼。下方是運行時堆棧,負責與驅動程序/固件接口,最后,運行時與驅動程序交互。Meta創建了Triton-MTIA編譯器后端為芯片硬件生成高性能代碼,Triton用于編寫ML計算內核,極大提高了開發人員效率?;贛TIA平臺加速后的Meta推薦模型的效率得到提升,在大型片上SRAM的加持下,低復雜度(LC)模型具有開箱即用的優勢,而
32、高復雜度(HC)模型在4-6個月內性能提高了2倍以上。3.4 Meta自研芯片MTIA 基于MTIA平臺加速后的Meta推薦模型效率得到提升 Meta內部工作負載的模型性能基線 數據來源:Meta,西南證券整理 目 錄 1 ASIC芯片市場前景 2 ASIC與GPU的對比 4 相關標的 3 北美四大CSP自研AI ASIC 26 4.1.1 博通AI芯片業務目標 博通AI業務占比從2019年的低于5%提升至2023年的15%左右。根據公司的規劃,預計2024年實現超過100億美元的收入體量,占公司整體收入比例增長至35%。目前博通已經為兩家頭部CSP客戶批量供應了ASIC產品。此外,博通另一家
33、客戶正在產能爬坡中,預計2025年開始貢獻業績。博通AI芯片客戶導入情況 2024年AI芯片目標占比35%數據來源:博通,西南證券整理 27 4.1.2 博通廣泛的IP儲備為ASIC產品線賦能 博通廣泛的IP儲備可為其XPU(ASIC)產品線賦能,博通的IP主要分為4類:計算,存儲,網絡IO,封裝。其中SerDes、基于AI優化NICs、高端封裝、交換機、CPO、內存等IP處于行業領先水平。博通在相關領域投入了30億美元研發費用。計算:處理單元架構,設計流和性能優化 存儲:HBM PHY,整合和性能 網絡IO:架構實現,Chiplets軟硬一體化解決方案 封裝:2.5D/3D封裝,硅光架構和實
34、現,垂直整合等博通廣泛的IP儲備為XPU賦能 博通在XPU業界領先的IP能力 數據來源:博通,西南證券整理 28 4.1.3 博通利用XPU平臺和與客戶的深度戰略合作實現產品快速落地 博通充分利用已經布局完成的XPU平臺工程,實現了業界最快的ASIC產品落地時間。XPU平臺涵蓋了經過10年XPU經驗優化的AI設計流程、AI IP、SoC封裝等一體化解決方案。ASIC產品設計階段耗費7-9個月的聯合開發時間,再用3個月左右的時間完成產品的生產和產能爬坡。博通與客戶在架構階段就展開了深度的戰略合作。在XPU設計啟動的前幾年,完成了關鍵組件的早期IP投資;并且為后兩代XPU同時進行技術、IP和封裝投
35、資。博通與客戶在架構階段的深度戰略合作 博通利用XPU平臺實現業界最快的產品落地 數據來源:博通,西南證券整理 29 4.1.4 博通與客戶聯合開發多款不同復雜度的XPU 隨著算力性能增長、網絡和內存帶寬提升、對電力輸送、熱完整度、機械可靠性等要求的升級,XPU的復雜度在加深。博通積極響應了客戶對更復雜的XPU的需求。博通與多家大客戶一起聯合開發了十幾款XPU產品。博通滿足客戶對XPU復雜度的需求 博通與大客戶聯合開發了多款XPU 數據來源:博通,西南證券整理 30 4.1.5 博通收入穩步增長,利潤率顯著提升 博通2019-2023財年收入年復合增速11.4%。2024年公司收購的Vmwar
36、e并表后,2024財年實現收入515.7億美元,同比增長44%。博通Non-GAAP凈利率從2019財年的41.8%提升至2023財年的51.3%。得益于利潤率的提升,博通2019-2023財年Non-GAAP凈利潤年復合增速達14.4%。2024財年Non-GAAP凈利潤達到237.3億美元,同比增長29%。博通凈利潤(億美元)博通收入(億美元)數據來源:博通公告,西南證券整理 31 4.1.6 半導體是博通最大業務,盈利能力逐年提升 半導體解決方案是公司的最大業務,2023財年占據公司整體收入的78.7%;利潤率從2019財年的50%提升至2023年的58.5%。2024財年公司半導體業務
37、收入301億美元,同比增長6.8%。公司的基礎設施軟件業務占比不低于20%。其中,Vmware在2024年并表后顯著推高了該業務板塊的規模體量。博通基礎設施軟件收入(億美元)博通半導體業務收入(億美元)數據來源:博通公告,西南證券整理 32 4.2.2 Marvell AI業務目標 Marvell的AI業務2023財年為2億美元左右。公司預計24-26財年加速AI業務(連接+定制化計算)收入從5.5億提升至25億美元。Marvell的數據中心業務TAM:根據Marvell預測,2023-2028年其數據中心業務TAM從210億美元增長至750億美元,CAGR為29%;其中,定制化加速計算TAM
38、從66億美元增長至429億美元,CAGR為45%;交換機TAM從61億美元增長至120億美元,CAGR為15%;互聯TAM從43億美元增長至139億美元,CAGR為27%;存儲市場從42億美元增長至59億美元,CAGR為7%。Marvell數據中心業務23年市占率10%,公司長期市占率目標為20%,即業務規模150億美元,相當于23-28年CAGR高達46.6%。Marvell數據中心TAM Marvell加速AI業務收入規模預測 數據來源:Marvell,650 Group,CignalAI,DellOro,LightCounting,西南證券整理 33 4.2.3 Marvell的加速計算
39、基礎設施平臺布局 Marvell的加速計算基礎設施平臺涵蓋了“工藝制程-IP-封裝-專家”的布局。Marvell經過多年對完整定制平臺的收購和重大投資,儲備了一大批世界級的IP,覆蓋模擬、數字、封裝等多個層面的知識產權。其中,Cavium擅長網絡加速計算,AveraSemi(原格芯子公司)擅長為各種應用提供定制芯片解決方案和2.5D/3D封裝技術,Aquantia擅長網絡傳輸,Inphi擅長模擬、硅光和DSP技術,Innovium擅長數據中心交換機芯片技術(競品為博通的Trident和Tomahawk芯片)。Marvell的IP體系 Marvell的加速計算基礎設施平臺 數據來源:Marvel
40、l,西南證券整理 34 4.2.4 Marvell的定制計算產品線和主要客戶情況 Marvell的定制計算產品包括AI加速芯片,針對安全、NIC/DPU、ARM計算、存儲、視頻和CXL功能的ASIC等。Marvell的客戶涵蓋美國3/4的大型CSP。Marvell為亞馬遜設計的AI訓練加速器Trainium 2已批量出貨。B客戶的ARM CPU正處于產能爬坡階段。新介入的C客戶其AI加速器將于2026年產能爬坡。Marvell AI產品的主要客戶 Marvell多樣化的定制計算產品線 數據來源:Marvell,西南證券整理 35 4.2.5 Marvell業績彈性大,2025財年盈利逐季改善
41、Marvell 2021-2024財年收入年復合增速19.5%。2025財年隨著經營改善,2025前三財季收入逐季改善(同比增速依次為-12.2%、-5%、6.9%);FY2025Q3單季度收入15.2億美元,同比增長6.9%,增速重新轉正。Marvell 2021-2024財年Non-GAAP凈利潤年復合增速達31%。2025前三財季Non-GAAP凈利潤為8.5億美元,Non-GAAP凈利率從17.8%提升至24.6%。Marvell凈利潤(億美元)Marvell收入(億美元)數據來源:Marvell公告,西南證券整理 36 4.2.6 受益于AI需求推動,數據中心業務比重超40%數據中心
42、是公司的最大業務,2021-2024財年復合增速28%,高于整體收入增速。受益于AI對光學等產品的需求推動,最近兩個財年數據中心業務占據整體收入比重超40%。其他業務中,企業網絡收入2021-2024財年復合增速21.2%,2024財年占收入比重22%左右;基礎設施收入2021-2024財年復合增速23.2%,2024財年占收入比重19%左右;消費業務2024財年占收入比重11%左右;工業和汽車業務2021-2024財年復合增速44%,2024財年占收入比重7%左右。Marvell分業務收入占比 Marvell分業務收入(億美元)數據來源:Marvell公告,西南證券整理 37 風險提示 AI
43、產業發展不及預期的風險;互聯網科技企業資本支出不及預期的風險;GPU競爭的風險。38 分析師:王湘杰 執業證號:S1250521120002 電話:0755-26671517 郵箱: 分析師:楊鎮宇 執業證號:S1250517090003 電話:023-67563924 郵箱: 西南證券研究發展中心 西南證券投資評級說明西南證券投資評級說明 報告中投資建議所涉及的評級分為公司評級和行業評級(另有說明的除外)。評級標準為報告發布日后6個月內的相對市場表現,即:以報告發布日后6個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。其中:A股市場以滬深300指數為基準,新三板市
44、場以三板成指(針對協議轉讓標的)或三板做市指數(針對做市轉讓標的)為基準;香港市場以恒生指數為基準;美國市場以納斯達克綜合指數或標普500指數為基準。公司評級 買入:未來6個月內,個股相對同期相關證券市場代表性指數漲幅在20%以上 持有:未來6個月內,個股相對同期相關證券市場代表性指數漲幅介于10%與20%之間 中性:未來6個月內,個股相對同期相關證券市場代表性指數漲幅介于-10%與10%之間 回避:未來6個月內,個股相對同期相關證券市場代表性指數漲幅介于-20%與-10%之間 賣出:未來6個月內,個股相對同期相關證券市場代表性指數漲幅在-20%以下 行業評級 強于大市:未來6個月內,行業整體
45、回報高于同期相關證券市場代表性指數5%以上 跟隨大市:未來6個月內,行業整體回報介于同期相關證券市場代表性指數-5%與5%之間 弱于大市:未來6個月內,行業整體回報低于同期相關證券市場代表性指數-5%以下 分析師承諾分析師承諾 報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,報告所采用的數據均來自合法合規渠道,分析邏輯基于分析師的職業理解,通過合理判斷得出結論,獨立、客觀地出具本報告。分析師承諾不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接獲取任何形式的補償。重要聲明重要聲明 西南證券股份有限公司(以下簡稱“本公司”)具有中國證券監督管理委員會核
46、準的證券投資咨詢業務資格。本公司與作者在自身所知情范圍內,與本報告中所評價或推薦的證券不存在法律法規要求披露或采取限制、靜默措施的利益沖突。證券期貨投資者適當性管理辦法于2017年7月1日起正式實施,本報告僅供本公司簽約客戶使用,若您并非本公司簽約客戶,為控制投資風險,請取消接收、訂閱或使用本報告中的任何信息。本公司也不會因接收人收到、閱讀或關注自媒體推送本報告中的內容而視其為客戶。本公司或關聯機構可能會持有報告中提到的公司所發行的證券并進行交易,還可能為這些公司提供或爭取提供投資銀行或財務顧問服務。本報告中的信息均來源于公開資料,本公司對這些信息的準確性、完整性或可靠性不作任何保證。本報告所
47、載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可升可跌,過往表現不應作為日后的表現依據。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告,本公司不保證本報告所含信息保持在最新狀態。同時,本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告僅供參考之用,不構成出售或購買證券或其他投資標的要約或邀請。在任何情況下,本報告中的信息和意見均不構成對任何個人的投資建議。投資者應結合自己的投資目標和財務狀況自行判斷是否采用本報告所載內容和信息并自行承擔風險,本公司及雇員對投資者使用本報告及
48、其內容而造成的一切后果不承擔任何法律責任。本報告刪節和修改。未經授權刊載或者轉發本報告及附錄的,本公司將保留向其追究法律責任的權利。西南證券研究發展中心西南證券研究發展中心 上海上海 深圳深圳 地址:上海市浦東新區陸家嘴21世紀大廈10樓 地址:深圳市福田區益田路6001號太平金融大廈22樓 郵編:200120 郵編:518038 北京北京 重慶重慶 地址:北京市西城區金融大街35號國際企業大廈A座8樓 地址:重慶市江北區金沙門路32號西南證券總部大樓21樓 郵編:100033 郵編:400025 西南證券研究發展中心 西南證券機構銷售團隊西南證券機構銷售團隊 區域區域 姓名姓名 職務職務 手
49、手機機 郵箱郵箱 姓名姓名 職務職務 手手機機 郵箱郵箱 上海上海 蔣詩烽 總經理助理/銷售總監 18621310081 歐若詩 銷售經理 18223769969 崔露文 銷售副總監 15642960315 李嘉隆 銷售經理 15800507223 李煜 高級銷售經理 18801732511 龔怡蕓 銷售經理 13524211935 田婧雯 高級銷售經理 18817337408 孫啟迪 銷售經理 19946297109 張玉梅 銷售經理 18957157330 蔣宇潔 銷售經理 15905851569 .c 魏曉陽 銷售經理 15026480118 北京北京 李楊 銷售總監 186011393
50、62 張鑫 高級銷售經理 15981953220 張嵐 銷售副總監 18601241803 王一菲 高級銷售經理 18040060359 楊薇 資深銷售經理 15652285702 王宇飛 高級銷售經理 18500981866 姚航 高級銷售經理 15652026677 馬冰竹 銷售經理 13126590325 廣深廣深 鄭龑 廣深銷售負責人 18825189744 楊舉 銷售經理 13668255142 楊新意 廣深銷售聯席負責人 17628609919 陳韻然 銷售經理 18208801355 龔之涵 高級銷售經理 15808001926 林哲睿 銷售經理 15602268757 丁凡 銷售經理 15559989681