《ASIC行業深度:市場前景、規模預測、云廠商布局及相關公司深度梳理-241223(34頁).pdf》由會員分享,可在線閱讀,更多相關《ASIC行業深度:市場前景、規模預測、云廠商布局及相關公司深度梳理-241223(34頁).pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、 1/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 行業研究報告 慧博智能投研 ASIC行業行業深度:深度:市場前景市場前景、規模預測規模預測、云廠云廠商布局及相關公司深度梳理商布局及相關公司深度梳理 ASIC 行業正迅速崛起,以其高度定制化的特性適應不同業務場景和商業模式的需求。尤其是在大型云服務提供商(CSP)中,ASIC 能夠優化內部工作負載架構,實現更低的功耗和成本,以及為 AI 工作負載提供定制的內存和 I/O 架構,滿足 CSP 客戶的多樣化需求。隨著 AI 算力集群尤其是推理集群對加速計算芯片的需求日益增長,ASIC 市場將快速增長。預計到
2、2028 年,數據中心 ASIC 市場的規模將提升至 429 億美元,國產 ASIC 芯片制造商也有望逐步追趕。本篇文章我們將深入探討 ASIC 的概念、分類等基礎知識,并分析其在市場上的應用前景。隨后,我們將對 ASIC 與 GPU 進行詳盡的對比,探討 ASIC 的特點和優勢。進一步地,我們將分析市場參與者及競爭格局,并對海外積極布局 ASIC 的廠商進行梳理?;谝陨戏治?,我們將預測未來 ASIC 市場的規模。文章最后,我們將列舉一些與 ASIC 相關的公司。希望通過這些內容,能夠增進大家對 ASIC 的認識和理解。目錄目錄 一、行業概述.1 二、市場前景.3 三、ASIC 與 GPU
3、的對比.5 四、市場參與者及競爭分析.7 五、海外云廠商 ASIC 布局情況.9 六、市場預測.20 七、相關公司.21 八、參考研報.33 一、一、行業行業概述概述 1、ASIC 芯片概念芯片概念 ASIC,全稱為 Application Specific Integrated Circuit,中文名為專用集成電路芯片,顧名思義,是一種為了專門目的或者算法而專門定制的芯片。ASIC 芯片的架構并不固定,既有較為簡單的網卡芯片,用于控制網絡流量,滿足防火墻需求等等,也有類似谷歌 TPU,昇騰 910B 一類的頂尖 AI 芯片。ASIC并不代表簡單,而是代表面向的需求,只要是為了某一類算法,或者
4、是某一類用戶需求而去專門設計的芯片,都可以稱之為 ASIC。2/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 目前芯片的制造工藝已達極限,芯片性能提升速度放緩,同時芯片的散熱問題也日趨嚴峻。ASIC 相較于通用芯片,卸載了通用芯片不必要的邏輯單元,根據特定的應用需求進行優化,減小芯片的面積,以實現數據處理速度,能耗,計算效率的平衡。2、ASIC 芯片分類芯片分類 當下,當下,ASIC 芯片的主要根據運算類型分為了芯片的主要根據運算類型分為了 TPU、DPU 和和 NPU 芯片,分別對應了不同的基礎計算芯片,分別對應了不同的基礎計算功能。功能。TPU 即為谷
5、歌發明的 AI 處理器,主要支持張量計算,DPU 則是用于數據中心內部的加速計算,NPU 則是對應了上一輪 AI 熱潮中的 CNN 神經卷積算法,后來被大量 SoC 進了邊緣設備的處理芯片中。ASIC 芯片也分為全定制芯片也分為全定制 ASIC 芯片、半定制芯片、半定制 ASIC 芯片及可編程芯片及可編程 ASIC 芯片。芯片。YWRVtNpNuNqRyQrOsNpOnNbRbP8OsQmMpNtPiNmNmOfQtRoN9PrQpRuOqMwPMYnOoM 3/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告(1)全定制)全定制 ASIC 芯片:芯片:全定制
6、 ASIC 芯片是定制程度最高的芯片之一,研發人員基于不同電路結構設計針對不同功能的邏輯單元,于芯片板搭建模擬電路、存儲單元、機械結構。全定制化 ASIC 芯片在性能、功耗等方面表現優異。全定制化 ASIC 芯片平均算力輸出約為半定制化 ASIC 芯片平均算力輸出的 8倍,采用 24 納米制程的全定制化 ASIC 芯片在性能上優于采用 5 納米制程的半定制化 ASIC 芯片。(2)半定制)半定制 ASIC 芯片:芯片:構成半定制 ASIC 芯片的邏輯單元大部分取自標準邏輯單元庫,部分根據特定需求做自定義設計。1)門陣列芯片:門陣列 ASIC 芯片包括有信道門陣列、無信道門陣列和結構化門陣列。門
7、陣列 ASIC 芯片結構中硅晶片上預定晶體管位置不可改變,設計人員多通過改變芯片底端金屬層等方式調整邏輯單元互連結構;2)標準單元:該類 ASIC 芯片由選自標準單元庫的邏輯單元構成。設計人員可按算法需求自行布置標準單元。(3)可編程)可編程 ASIC 芯片:芯片:PLD 亦稱可編程邏輯器件,在結構上包括基礎邏輯單元矩陣、觸發器、鎖存器等,其互連部分作為單個模塊存在。設計人員通過對 PLD 進行編程以滿足部分定制應用程序需求。二、市場前景二、市場前景 1、大型大型云端服務供應商云端服務供應商加速資本支出加速資本支出 大型云端服務供應商在資本支出方面投入巨大,支出的同比增速在加快。北美四大云端服
8、務供應商的Capex 規模今年來增幅顯著提升,2024 年前三季度整體規模達到 1708 億美元,同比增長 56%,且 yoy逐季加快(Q1-Q3yoy 分別為 34.7%、64.6%、68%)。其中,微軟 530 億美元,yoy+78.5%;亞馬遜551.7 億美元,yoy+44.6%;谷歌 382.6 億美元,yoy+79%;Meta243.9 億美元,yoy+20.7%。資本支出大幅提升的背后,是各家巨頭在 AI 賽道上的競賽、AI 算力的稀缺、AI 云賦能和 AI 生態的拓展等多方面驅動。2、ASIC 可適應不同的業務場景和商業模式的需求可適應不同的業務場景和商業模式的需求 大型云端服
9、務供應商的業務模型、應用場景等很多通過自身的云來承載,每個云承載了獨特的應用和商業模型,包括內部應用(比如搜索引擎、社交媒體等)、SaaS 服務(比如 AI 聊天機器人、Copilot 等)、IaaS 服務等。ASIC 可以適應不同的業務場景和商業模式的需求。4/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 ASIC 可以滿足客戶的需求:1)內部工作負載的架構優化;2)更低的功耗,更低的成本;3)為 AI 工作負載定制的內存和 I/O 架構。3、訓練和推理集群對加速計算芯片的需求訓練和推理集群對加速計算芯片的需求 目前在訓練階段,訓練集群對加速計算芯片的需
10、求已提升到萬卡級別。隨著 AI 模型對訓練需求的提升,未來 10 萬卡級別指日可待。而在推理階段,由于計算量與業務和應用密切相關,單個推理集群對加速計算芯片的需求低于訓練集群,但推理集群的部署數量要遠多于訓練集群,推理集群的數量預計會達到百萬級別。AI 算力集群特別是推理集群對加速計算芯片的龐大需求,是 ASIC 快速成長的核心驅動力。5/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 三三、ASIC 與與 GPU 的對比的對比 從芯片大類來看,目前人類的芯片可以被分為 CPU、GPU、FPGA、ASIC 四種大類,其中 CPU 是人類芯片之母,擁有最強的通
11、用性,適合復雜的指令與任務;GPU 通過大量部署并行計算核,實現了對于異構計算需求的優化。FPGA 芯片則更加強調可編程性,可以通過編程重新配置芯片內部的邏輯門和存儲器,但是運算性能較低。ASIC 則完全為某類功能或者算法專門設計,通用性較低的同時,擁有對某一類算法最好的性能。下面我們用 ASIC 與 GPU 進行詳細對比:1、ASIC 硬件性能:針對特定算法和應用優化設計,具有較高能效比硬件性能:針對特定算法和應用優化設計,具有較高能效比 ASIC 針對特定算法和應用進行優化設計,在特定任務上的計算能力強大,針對特定算法和應用進行優化設計,在特定任務上的計算能力強大,例如在某些 AI 深度學
12、習算法中實現高效的矩陣運算和數據處理。GPU 具有強大的并行計算能力,擁有眾多計算核心,可同時處理多個任務,在通用計算和圖形處理方面表現出色,適用于大規模的數據并行計算,如科學計算、圖形渲染、視頻處理等;但 GPU 在特定任務上的計算效率可能不如 ASIC。ASIC 通常具有較高的能效比,因其硬件結構是為特定任務定制的,能最大限度減少不必要的功耗。通常具有較高的能效比,因其硬件結構是為特定任務定制的,能最大限度減少不必要的功耗。GPU 由于其通用的設計架構,在執行特定任務時可能存在一些功耗浪費;但隨著技術的進步,新一代GPU 也在不斷提高能效比。ASIC 在處理特定任務時,能實現高吞吐量,數據
13、處理速度快,在處理特定任務時,能實現高吞吐量,數據處理速度快,可快速完成大量的數據處理工作。GPU具有較高的帶寬和并行處理能力,在圖形處理和通用計算中能實現較高吞吐量,但在處理一些復雜、非圖形相關的特定任務時,其吞吐量可能會受到一定限制。ASIC 在絕對算力和片間互聯方面普遍低于在絕對算力和片間互聯方面普遍低于 AIGPU,但,但 ASIC 的服務器間互聯由于采用以太網為主,的服務器間互聯由于采用以太網為主,具有通用性強、生態開放、低成本等優勢。具有通用性強、生態開放、低成本等優勢。2、ASIC 的單位算力成本更低,滿足一定的降本需求的單位算力成本更低,滿足一定的降本需求 ASIC 的單位算力
14、成本更低,滿足一定的降本需求。的單位算力成本更低,滿足一定的降本需求。ASIC 因其硬件結構是為特定任務定制的,減少了很多針對通用加速計算的不必要的硬件設計,其單位算力成本相比 GPU 或更低。例如谷歌 TPUv5、亞馬遜 Trainium2 的單位算力成本分別為英偉達 H100 的 70%、60%。6/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 3、ASIC 與與 GPU 軟件生態對比軟件生態對比 ASIC 在軟件生態上的優勢:云廠商普遍具備較強的研發能力,為云廠商普遍具備較強的研發能力,為 ASIC 研發了配套的全棧軟件生態,研發了配套的全棧軟件生態
15、,開發了一系列編譯器、底層中間件等,提升開發了一系列編譯器、底層中間件等,提升 ASIC 在特定場景下的計算效率。在特定場景下的計算效率。部分第三方芯片廠商推出了開源平臺,未來 ASIC 的軟件生態將會愈發成熟和開放。ASIC 在軟件生態上的劣勢:在軟件生態上的劣勢:軟件生態相對較為單一,主要針對特定的應用場景和算法進行優化。與GPU 相比,ASIC 的編程難度較大,需要專業的知識和技能,開發工具和軟件庫相對較少。這使得開發者在使用 ASIC 時需要花費更多時間和精力進行開發調試。GPU 軟件生態的優勢:軟件生態的優勢:軟件生態豐富成熟,擁有廣泛的開發工具、編程語言和軟件庫支持,如英偉達的 C
16、UDA 和 AMD 的 ROCm 等。開發者可使用熟悉的編程語言如 C、C+、Python 等進行開發,且有大量的開源項目和社區支持,方便開發者學習和交流。這使得 GPU 在各種應用場景中都能快速地進行開發和部署。GPU 軟件生態的劣勢:軟件生態的劣勢:軟件生態在特定任務上的優化程度可能不如 ASIC。在一些對性能和功耗要求極高的特定場景中,需要進行大量的優化工作才能發揮出 GPU 的最佳性能。4、ASIC 以推理場景為主,幵開始切入到部分訓練環節以推理場景為主,幵開始切入到部分訓練環節 ASIC 在執行特定 AI 算法時的高性能和高能效的優勢,對于大規模數據中心等對能耗敏感的場景非常重要。由
17、于 ASIC 不需要集成通用的功能模塊,從而減少不必要的硬件資源浪費,如果 AI 應用場景明確且需求量大,ASIC 在大規模生產后其單位成本可顯著降低。但 ASIC 也有開發周期長且靈活性差的劣勢,由于 ASIC 的設計和制造是針對特定算法和應用場景進行的,一旦設計完成其功能就固化下來,難以對芯片的功能和性能進行修改和升級,如果 AI 算法發生較大變化,ASIC 可能無法快速適應這種變化。此外,ASIC 的生態系統還不夠完善,開發者在使用 ASIC 時可能需要花費更多時間和精力去搭建開發環境、編寫底層代碼等,開發難度較大。ASIC 更適用于推理:更適用于推理:在推理階段,AI 模型已訓練完成,
18、需要對輸入的數據進行快速的預測和分類。此時對芯片的計算精度要求相對較低,但對計算速度、能效和成本等要求較高。ASIC 正好滿足這些需求,7/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 其高度定制化的設計能針對推理任務進行優化,以較低的功耗實現快速的推理計算。且在大規模部署的場景下,ASIC 的成本優勢更加明顯,可以降低企業的運營成本。GPU 更適用于訓練:更適用于訓練:AI 訓練過程需要處理大量的數據和復雜的計算,對芯片的計算能力、內存帶寬和并行處理能力要求非常高。GPU 擁有眾多的計算核心和高帶寬內存,可以同時處理大量的數據樣本和復雜的計算任務,能夠加
19、速 AI 模型的訓練過程。且在訓練過程中,需要不斷地調整模型的參數和結構,GPU 的靈活性使其更適合這種頻繁的調試和迭代。四、四、市場參與者及競爭分析市場參與者及競爭分析 1、IP 和產業鏈整合是芯片自研主要挑戰,需借助外部廠商支持和產業鏈整合是芯片自研主要挑戰,需借助外部廠商支持,綜合能,綜合能力強的廠商競爭優勢顯著力強的廠商競爭優勢顯著 芯片的自研可分為前端、后端兩個階段,其中,IP 和產業鏈整合是主要的挑戰。前端即邏輯設計,涉及芯片的基本功能,后端則是將所有的功能落實到電路并且流片出來的物理實體。目前,電路設計生態已經相對成熟,自研團隊面臨的第一道門檻是有嚴密的知識產權保護的 IP,為了
20、獲得這些 IP,自研廠商往往需要與 IP 設計廠商合作,獲得授權,此外,部分艱深的結構(如 NOC,片上網絡)也是自研團隊難以獨立完成的。除了設計環節,自研廠商還面臨流片、量產、芯片組網、產業鏈整合、軟件生態等一系列挑戰。據芯潮 IC 調查了解到,每家迭代第一代產品,如果按 7 納米中間節點去算,加量產至少小20 億美金。8/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 云廠商自研芯片時,通常會選擇博通、云廠商自研芯片時,通常會選擇博通、Marvell、英偉達、聯發科等廠商合作設計芯片,再通過臺積電、英偉達、聯發科等廠商合作設計芯片,再通過臺積電等代工等代
21、工廠完成芯片制造,目前博通客戶量產節奏領先。廠完成芯片制造,目前博通客戶量產節奏領先。博通目前有三家定制芯片大客戶,前兩家客戶已經進入量產期,新加入的客戶預計在 2025 年進入量產。Marvell 目前有三位客戶,目前均未量產,A 客戶的 AI 訓練芯片、B 客戶的 ArmCPU 處于產能爬坡期,A 客戶的 AI 推理芯片、C 客戶的 AI 芯片預計分別 2025 年、2026 年開始產能爬坡。英偉達則處于更前期的階段。據路透社報道,英偉達正在建立新的業務部門,專注于為云計算和其他公司設計定制芯片,包括 AI 處理器,已經與亞馬遜、Meta、微軟、谷歌和 OpenAI 的代表會面,討論為他們
22、生產定制芯片的事宜。據 ITBEAR 報道,聯發科將為谷歌提供AI 服務器芯片的串行器和解串器(SerDes)方案,并協助整合谷歌自研的 TPU。目前,博通和目前,博通和 Marvell 是較早進軍是較早進軍 ASIC 市場的公司,在行業處于領先地位。市場的公司,在行業處于領先地位。博通占據一半以上的市場份額,Marvell 市場份額在 10%左右。展望未來,展望未來,產業資源整合能力強、產業資源整合能力強、IP 庫完整、有先發優勢的廠商將保持領先,競爭格局不會過于分散。庫完整、有先發優勢的廠商將保持領先,競爭格局不會過于分散。博通、Marvell 均為完整布局通信、計算領域的廠商,在 IP
23、庫、芯片設計平臺、出貨規模都具有綜合優勢;同時,客戶與定制芯片廠商黏性較強。雙方通?;陂L期路線圖,從邏輯設計到物理實現,雙方團隊需密切合作,因此遷移轉換合作伙伴的成本較高。2、國產國產芯片芯片廠商有望逐步追趕廠商有望逐步追趕 目前海外云廠商正加速布局目前海外云廠商正加速布局 ASIC 芯片,國產芯片,國產 AI 芯片廠商有望在推理領域加速追趕。芯片廠商有望在推理領域加速追趕。當前華為昇騰、寒武紀、燧原科技等廠商產品均基于 ASIC 架構,全球 ASIC 市場并未形成明顯的頭部廠商,國產公司后續有望逐步追趕。9/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告
24、 五五、海外海外云廠商云廠商 ASIC 布局情況布局情況 1、谷歌:谷歌專為谷歌:谷歌專為 AI 定制設計的定制設計的 ASIC TPU(Tensor Processing Units,張量處理單元)是谷歌專為,張量處理單元)是谷歌專為 AI 定制設計的定制設計的 ASIC,其針對大模,其針對大模型的訓練和推理進行了優化。型的訓練和推理進行了優化。TPU 適合各種使用場景,例如聊天機器人、代碼生成、媒體內容生成、合成語音、視覺服務、推薦引擎、個性化模型等。截至 2024 年,谷歌 TPU 已迭代 6 代產品。TPUv5p 單個單個 Pod 可達可達 8960 顆芯片的集群規模,借助顆芯片的集群
25、規模,借助Multislice 訓練技術,訓練技術,TPUv5p 可實現可實現 5 萬卡線性加速。最新一代萬卡線性加速。最新一代 TPUv6 Trillium 預計預計 2024H2推出,推出,TPUv6 FP16/BF16 精度非稀疏算力可達精度非稀疏算力可達 926TFLOPS,約為,約為 H100、B100 的的 93%、53%。相比相比 TPUv5e,TPUv6 能效高出能效高出 67%,峰值性能高出,峰值性能高出 3.7 倍。倍。(1)谷歌谷歌 TPU 算力集群能力算力集群能力 TPUv4 和 TPUv5p 算力集群采用 3Dtorus(3D 環面)架構和 OCS,提供高速的網絡連接
26、,增強拓展性與互聯效率。在 TPUv4 的架構中,每 64 顆 TPUv4 芯片組成 4x4x4 的立方體,每個 CPU 配備 4 顆TPUv4,64 顆 TPUv4 和 16 顆 CPU 放入一個機架,形成一個模塊。一個模塊有 6 個面的光路鏈接,每個面有 16 個鏈接,單模塊共有 96 個光路連接到 OCS。為了提供 3D環面的環繞鏈接,對面的鏈接必須連接到同一個 OCS。每個模塊連接 48 個 OCS(6 16 2),最終實現所需的 4096 個 TPUv4 芯片互聯。TPUv4 算力集群的物理架構:一個 PCB 包含 4 個 TPUv4,通過 ICI 鏈路連接到其他托盤(tray),1
27、6個托盤共同放入一個機架,形成 4x4x4 的 3D 模塊結構。64 個機柜共同組成 4096 顆芯片規模的算力集群。10/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告(2)谷歌谷歌 TPU 基準測試性能對比基準測試性能對比 TPUv4 與英偉達 A100 在 MLPerf 基準測試中的性能對比:TPUv4 在 BERT 上比 A100 快 1.15 倍,比IPU 快約 4.3 倍;在 ResNet 上,TPUv4 分別比 A100 和 IPU 快 1.67 倍和約 4.5 倍;運行 MLPerf 基準測試時,A100 的平均功耗比 TPUv4 高 1.3
28、1.9 倍。雖然 TPUv4 單芯片算力為 A100 的 88%,但在性能和功耗表現上要優于 A100。(3)谷歌谷歌 TPU 迭代推動大模型訓練效率顯著提升迭代推動大模型訓練效率顯著提升 TPU 的算力成本隨著產品更新迭代也在持續優化。TPUv5e 的相對性價比(的相對性價比(TFLOPs/$)是)是 TPUv4的的 2.3 倍,參考谷歌披露的倍,參考谷歌披露的 TPUv4 公開標價公開標價 3.22 美元美元/芯片芯片/小時,小時,TPUv5e 的標價為的標價為 1.2 美元美元/芯芯片片/小時,小時,TPUv5e 以更低的成本實現了更高的算力。以更低的成本實現了更高的算力。TPUv5p
29、訓練訓練 LLM 的速度比的速度比 TPUv4 快快 2.8 倍,倍,利用第二代利用第二代 SparseCores,TPUv5p 訓練嵌入密集模型的速度比訓練嵌入密集模型的速度比 TPUv4 快快 1.9 倍。倍。2、亞馬遜亞馬遜:自研推理芯片:自研推理芯片 Inferentia 和訓練芯片和訓練芯片 Trainium AWS(Amazon Web Services)在 AI 芯片的布局主要包含推理芯片 Inferentia 和訓練芯片 Trainium 兩大系列。(1)亞馬遜自研亞馬遜自研 AI 芯片芯片 Trainium 11/34 2024 年年 12 月月 23 日日 行業行業|深度深
30、度|研究報告研究報告 AWS Trainium 是是 AWS 專門為超過專門為超過 1000 億個參數模型的深度學習訓練打造的機器學習芯片。億個參數模型的深度學習訓練打造的機器學習芯片。自2020 年以來,亞馬遜發布了兩代 Trainium 芯片。Trainium1 加速器提供 190TFLOPS 的 FP16/BF16 算力,配有 32GB 的 HBM,內存帶寬 820GB/s;而新一代 Trainium2 達到了 430TFLOPS 的 FP16/BF16算力,其 HBM 容量達到 96GB,內存帶寬為 4TB/s。與第一代相比,與第一代相比,AWS Trainium2 的性能提高了的性能
31、提高了4 倍,能效提高了倍,能效提高了 1 倍。倍。每個每個 Amazon Elastic Compute Cloud(AmazonEC2)Trn1 實例部署多達實例部署多達 16 個個 Trainium 加速器。加速器。AWS 表示未來擴展到多達表示未來擴展到多達 10 萬個芯片的萬個芯片的 EC2 UltraCluster 集群中,集群中,從而高效訓練大模型?;赥rainium 的 Amazon EC2Trn1 實例與同類 AmazonEC2 實例相比,可節省高達 50%的訓練成本。Trainium 已針對訓練自然語言處理、計算機視覺和推薦器模型進行了優化,這些模型用于文本摘要、代碼生成
32、、問題解答、圖像和視頻生成、推薦和欺詐檢測等各種應用程序。(2)亞馬遜自研亞馬遜自研 AI 芯片芯片 Inferentia AWS Inferentia 加速器由加速器由 AWS 設計,在設計,在 AmazonEC2 中以低成本為深度學習和生成式中以低成本為深度學習和生成式 AI 推理應推理應用程序提供高性能。用程序提供高性能。第一代 AWSInferentia1 加速器為 Amazon Elastic Compute Cloud(AmazonEC2)Inf1 實例提供支持,與同類 AmazonEC2 實例相比,該實例的吞吐量可提高多達 2.3 倍,每次推理的成本可降低多達 70%。2023
33、年亞馬遜發布了 Inferentia2 芯片和 Inf2 實例,與 Inferentia 相比,AWSInferentia2 加速器的吞吐量提高了 4 倍,延遲低至上一代的 1/10。Inferentia1 加速器搭載 4 個第一代 NeuronCore,配有 8GB的 DDR4 內存,每個 EC2Inf1 實例最多有 16 個 Inferentia1 加速器。Inferentia2 加速器搭載了 2 個第二代 NeuronCore,支持 190TFLOPS 的 FP16 性能,配置 32GB 的 HBM,與 Inferentia1 相比,總內存增加了 4 倍,內存帶寬增加了 10 倍;每個
34、EC2Inf2 實例最多有 12 個 Inferentia2 加速器。12/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告(3)亞馬遜亞馬遜 AWSNeuron AWS Neuron 是一款用于優化是一款用于優化 AWS Trainium 和和 AWS Inferentia 加速器上的機器學習性能的加速器上的機器學習性能的SDK。它支持在基于 AWS Trainium 的 AmazonEC2Trn1 實例上進行高性能訓練。對于模型部署,它支持在基于 AWS Inferentia 的 AmazonEC2Inf1 實例和基于 AWS Inferentia2 的
35、Amazon EC2 Inf2 實例上進行高性能和低延遲推理。AWS Neuron SDK 與 PyTorch 和 TensorFlow 原生集成,確??蛻艨衫^續在這些熱門框架中使用現有工作流程,并在 Amazon EC2 Trn1、Inf1 和 Inf2 實例上以最佳方式訓練和部署 ML/DL 模型。開發者可將基于 GPU 的實例遷移到 AWS Tranium 中,客戶只要修改少量代碼即可實現海量數據訓練,降低了訓練成本。3、微軟:自研芯片微軟:自研芯片 Maia100 微軟將 Maia100 打造成定制的 AI 加速器,用于在 Azure 上運行 OpenAI 的模型和 Copilot 等
36、 AI 工作負載。Maia100 采用臺積電采用臺積電 5nm 制程和制程和 CoWoS-S 封裝技術,配備封裝技術,配備 64GB(4 16GB)的)的 HBM2E,內存帶寬達內存帶寬達 1.8TB/s。Maia100 配備一個 500MB 的 L1/L2 緩存,芯片具有 12 倍 400GbE 的網絡帶寬,設計最大功耗 700WTDP。Maia100 芯片在芯片在 MXFP4 數據格式下的性能達到數據格式下的性能達到 3200TFLOPS,Int8 下達到下達到 1600TFLOPS,BF16 下達到下達到 800TFLOPS,算力性能超過英偉達,算力性能超過英偉達 A10028%,是英偉
37、達,是英偉達 H100 的的 40%。微軟 Maia100 單 SoC 搭載 16 個集群,其中每個集群搭載 4 個圖塊 Tile。Maia100 擁有圖像解碼器和機密計算能力,支持廣泛的數據類型,包括 FP32 和 BF16。13/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 Maia100 基于自定義的 RoCE 類協議和以太網互連,內置 AES-GCM 加密引擎以保護用戶數據,網絡連接帶寬達到 600GB/s。Maia100 還由統一的后端網絡支持,用于擴展和橫向擴展工作負載,提供了支持直接和交換機連接的靈活性。微軟 Maia100 芯片的 Ares
38、 機架配備 32 顆 Maia100。Ares 一個機架中搭載了一個機架中搭載了 8 臺服務器,每臺服務臺服務器,每臺服務器中含有器中含有 4 個個 Maia100,因此一個機架中總共有,因此一個機架中總共有 32 顆顆 Maia100 芯片。芯片。Ares 機架功率可達 40kW,配置了 Sidekick 液體冷卻系統,在機架兩側設置副設備,冷液從副設備流向 Maia100 表面的冷板,副設備吸取液體中熱量后再將冷液輸出,以此構建散熱循環。Maia SDK 上實現快速部署和模型可移植性。上實現快速部署和模型可移植性。微軟為 Maia100 創建了軟件,該軟件與 PyTorch 和ONNX R
39、untime 等流行的開源框架集成。該軟件棧提供了豐富而全面的庫、編譯器和工具,使數據科學家和開發人員能在 Maia100 上成功運行模型。微軟集成了 OpenAI 的 Triton;Triton 是一種開源編程語言,通過抽象底層硬件簡化了內核編寫,這將賦予開發者完全的可移植性和靈活性,而不會犧牲效率和針對 AI 工作負載的能力。Maia 的 SDK 允許用戶將用 PyTorch 和 Triton 編寫的模型快速移植到 Maia。4、Meta:自研芯片:自研芯片 MTIA 2023 年年 5 月,月,Meta 推出第一代推出第一代 AI 推理芯片推理芯片 MTIAv1(Meta Trainin
40、gand Inference Accelerator),用于支持 Meta 的深度學習推薦模型,該模型是 14/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 Facebook,Instagram,WhatsApp,MetaQuest,HorizonWorlds,andRay-BanStories 業務的重要基礎。MTIAv1 芯片采用臺積電 7nm 制程,Meta 研究顯示,對于低復雜度的深度學習模型,MTIA 的運行效率(TFLOPS/W)優于 GPU,而對于中高復雜度的模型,GPU 的效率更佳,公司表示正在持續優 MTIAv2 于 2024 年 4 月
41、發布,用于用于 AI 推理,旨在增強推理,旨在增強 Meta 的排名和廣告推薦引擎。的排名和廣告推薦引擎。MTIAv2 采用臺積電 5nm 制程,與上一代相比算力和內存帶寬翻倍提升,INT8 下的稠密算力 354TFLOPS 接近上一代的 3.5 倍,稀疏算力 708TFLOPS 達到上一代的近 7 倍。MTIAv2 配備 128GB 的 LPDDR5 內存,內存帶寬 205GB/s,設計最大功耗 90WTDP。目前 Meta 已有 16 個數據中心使用了新款芯片。芯片架構方面,MTIAv2 內部包含加速器、片上和片外存儲以及互聯結構。AI 加速器由 8x8 的處理單元網格(PE,proces
42、singelement)組成,PE 基于 RISC-V 內核,PE 彼此互聯,可作為一個整體運行任務,也可以獨立處理任務。片上內存 SRAM 容量 256MB,SRAM 帶寬為 2.7TB/s,每個 PE 內存容量為384KB,PE 帶寬為 1TB/s。每個加速器使用 PCIe Gen5 x8 主機接口。MTIA v2 加速器模塊:每張卡 2 個 MTIA 芯片,每個 MTIA 都可以使用 PCIe Gen5 x8 接口,單模塊共x16 接口(2PCIe Gen5 x16)。MTIA 機柜系統結構:一個機架系統包含(2 MTIA 芯片)(12 模組)(3 機箱),相當于每個機架系統搭載了 72
43、 顆 MTIA 芯片。MTIAv2 軟件堆棧與軟件堆棧與 PyTorch2.0、TorchDynamo、TorchInductor 完全集成,致力于提高開發完全集成,致力于提高開發者編程效率。者編程效率。MTIAv2 的低級編譯器從前端獲取輸出,生成高效且特定于設備的代碼。下方是運行時堆 15/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 棧,負責與驅動程序/固件接口,最后,運行時與驅動程序交互。Meta 創建了 Triton-MTIA 編譯器后端為芯片硬件生成高性能代碼,Triton 用于編寫 ML 計算內核,極大提高了開發人員效率?;?MTIA 平臺
44、加速后的 Meta 推薦模型的效率得到提升,在大型片上 SRAM 的加持下,低復雜度(LC)模型具有開箱即用的優勢,而高復雜度(HC)模型在 4-6 個月內性能提高了 2 倍以上。16/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 5、特斯拉特斯拉:自研自研 Dojo 計算平臺,用于訓練自動駕駛計算平臺,用于訓練自動駕駛 AI 模型模型 Dojo 于于 2019 年發布,是特斯拉自研的超級計算機平臺,用于訓練其自動駕駛系統的人工智能模型。年發布,是特斯拉自研的超級計算機平臺,用于訓練其自動駕駛系統的人工智能模型。特斯拉在設計和生產過程中與合作伙伴臺積電進行
45、了合作,dojo 平臺的核心組件是 D1 芯片,是由臺積電代工的定制專用集成電路(ASIC),采用 7 納米制程和先進封裝技術。Dojo 可以有效訓練全自動駕駛技術 FSD,使其獲得更多的學習經驗,推動機器人出租車和網絡服務加快應用。(1)采用近存計算架構,單訓練板功耗高達采用近存計算架構,單訓練板功耗高達 15kw 整體架構上,整體架構上,Dojo 分成 6 個層級:內核、芯片、瓦片、模組,機柜,超算機群。1 個 D1 芯片上有 354個核心。25 個 D1 組成一個訓練板(trainingtile),6 個訓練板組成一個訓練矩陣(Training Matrix),2 個訓練矩陣構成 1 個
46、機柜,10 個機柜構成 1 個超算機群。D1 單芯片單芯片 FP32 性能達性能達 22TFLOPS,矩陣計算單元提供了,矩陣計算單元提供了 Dojo 主要的算力。主要的算力。特斯拉矩陣計算單元相應的專利如下圖。該模塊關鍵部件是一個 8x8 矩陣-矩陣乘法單元(Matrix Computational Unit)。輸入為數據輸入陣列和權重輸入陣列,計算矩陣乘法后直接在輸出進行累加。每個 Dojo 核心包括 4 路8x8 矩陣乘法單元。包含包含 25 顆顆 D1 芯片的芯片的 Dojo 訓練板設計成訓練板設計成“三明治式三明治式”結構,實現了計算、存儲、供電和通信無縫集成。結構,實現了計算、存儲
47、、供電和通信無縫集成。每個訓練板都配置了 11GB 的片上跨內核 SRAM,這是一種近存計算架構,相應的耗電量也高達 15kw,采用液冷封裝,能效比為 0.6TFLOPS/W(BF16/CFP8)。Dojo 采用 InFO_SoW 封裝,這種封裝技術不需要額外 PCB 載板,就能將相關芯片集成散熱模塊,加速生產流程。17/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 在高密度的計算芯片環境下,特斯拉面臨較大的電力傳輸和散熱問題考驗。單顆在高密度的計算芯片環境下,特斯拉面臨較大的電力傳輸和散熱問題考驗。單顆 D1 芯片的熱設計功率芯片的熱設計功率(TDP)為
48、為 400W,一個訓練板的功耗高達,一個訓練板的功耗高達 15 千瓦。千瓦。在電力方面,特斯拉在 Dojo POD 上使用了全自研的 VRM(電壓調節模組),單個 VRM 可在不足 25 美分硬幣面積的電路上,提供 52V 電壓和超過1000A 巨大電流,電流目的為 0.86A 每平方毫米,共計 12 個獨立供電相位。特斯拉的電源調節模塊和液冷板采取與芯片本身垂直的立體結構,極大的減少了對處理器平面的面積占用,盡可能減少計算芯片間的距離。特斯拉的 V1 訓練矩陣包含 150 個 D1 芯片(6 個訓練板),4 個主機 CPU,每個主機裝有 5 張 DIP 卡,這是一種 PCIe 卡,每個 DI
49、P 含有 32GB HBM(800GB/s 存儲帶寬),支持特斯拉傳輸協議 TTP,提供超高的 TTP 帶寬和以太網帶寬。訓練板通過 DIP 連接至交換機。在 BF16 和 CFP8 精度下,V1 訓練矩陣算力可達 1Exaflop。一個 Dojo POD 機柜由兩層、12 個訓練板組成,可提供 108PFLOPS 算力。多機柜可以拓展至一組ExaPOD,包含 3000 顆 D1 芯片(120 個訓練板)。18/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 (2)自研自研 TTP 通信協議,提供高帶寬低時延連接通信協議,提供高帶寬低時延連接 Dojo 采用
50、采用 TTP 專有通信協議,提供高帶寬芯片間通信。專有通信協議,提供高帶寬芯片間通信。特斯拉為 Dojo 芯片設計了 TTP 作為通信協議,這是一種基于 PCIe 的專有協議,旨在提供高帶寬和低延遲的數據傳輸,D1 芯片間通信帶寬高達900GB/s。TTP 支持橋接到標準以太網,降低通信時延。支持橋接到標準以太網,降低通信時延。TTP TTPOE 可將標準以太網轉換至 Z 平面拓撲,降低了垂直延遲,大幅降低網絡跳數,以 50GB/s 在以太網上運行。低延遲特性使得 Dojo 芯片在處理復雜計算任務時能夠迅速響應,提高了整體的系統性能。另外每個訓練模塊外部邊緣的 40 個 I/O 芯片達到了36
51、TB/s 的聚合帶寬,或者 10TB/s 的橫跨帶寬。每層訓練模塊都連接著超高速存儲系統:640GB 運行內存可以提供超過 18TB/s 的帶寬,另外還有超過 1TB/s 的網絡交換帶寬。19/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 (3)特斯拉為特斯拉為 Dojo 創建全棧軟件生態創建全棧軟件生態 軟件層面,特斯拉構建了一套由軟件層面,特斯拉構建了一套由 PyTorch、編譯器、驅動程序等共同構成的軟件棧。、編譯器、驅動程序等共同構成的軟件棧。整個軟件生態的頂層是 PyTorch 框架,中間使用 Dojo 編譯器和 LLVM 形成編譯層,底層基于
52、Dojo 驅動。Dojo 編譯器負責劃分任務、配置數據存儲、進行細粒度的并行計算并減少存儲占用。Dojo 編譯器支持的并行方式包括數據并行、模型并行和圖并行。支持的存儲分配方式包括分布式張量、重算分配和分割填充。在軟件生態加持下,用戶可將 Dojo 大型分布式系統視作一個加速器進行整體設計和訓練。20/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 六六、市場、市場預測預測 1、AI ASIC 處于發展初期,處于發展初期,2028 年市場規模有望超年市場規模有望超 400 億美元億美元 北美云廠商對 AI 芯片需求量大,為了增強議價能力和供應鏈多元化,有充足
53、的動力自研芯片。北美云廠商在 AI 領域的資本開支近兩年有望保持高速增長,是英偉達的重要客戶,谷歌、微軟、亞馬遜、Meta 和甲骨文五家云廠商預計貢獻了 FY2025 英偉達 GPU 六成以上的收入,預計接近 500 億美元。而AI ASIC 芯片當前規模遠低于 GPU,博通 FY2024 定制芯片收入預計 70 億美元左右,Marvell FY2024可能僅有個位數億美元收入。能夠認為當前定制芯片仍處于發展初期,云廠商為了降低成本、增強供應鏈保障,會持續迭代 ASIC 并增大在特定場景的 ASIC 部署規模,ASIC 市場規模有望高速增長。目前 ASIC 在 AI 加速計算芯片市場占有率較低
54、,預計增速快于通用加速芯片。據 Marvell 預測,2023年,定制芯片僅占數據中心加速計算芯片的 16%,其規模約 66 億美元,隨著 AI 計算需求增長,以及定制芯片占比提升至 25%,預計 2028 年數據中心定制計算芯片市場規模將達到 429 億美元,2023-2028年 CAGR 達 45%。而通用加速計算芯片 2028 年預計達到 1716 億美元市場規模,2023-2028 年 CAGR為 32%。21/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 2、ASIC 與通用芯片將帶動與通用芯片將帶動 AI 螺旋上升螺旋上升 從全局來看,ASIC
55、 放量與對應的算力降本,是大模型走向一個更大產業的必經之路,AI 的算力敘事足夠宏大,能夠認為在 AI 芯片的發展上,將會經歷多輪螺旋上升式的發展,最終達到全社會的 AGI,新的模型與算法通過通用性 GPU 被發現和初步開發,通過專用 ASIC 將需求繁榮,繁榮的生態吸引更多用戶與參與者,最終培育出新的、更強的算法,循環往復,螺旋上升,最終達成 AGI 的宏偉目標。七七、相關公司、相關公司 隨著 ASIC 放量將助力 Marvell AI、博通、博通等專注于半導體平臺的全球公司快速擴張。晶圓代工廠如臺臺積電、英特爾、中芯國際積電、英特爾、中芯國際的議價能力和產業鏈地位有望提升,利潤上漲。同時,
56、ASIC 的興起將帶動國內 ASIC 芯片廠商的發展,華為昇騰、華為昇騰、寒武紀寒武紀等等廠商有望轉型為頂尖的模型 ASIC 制造商。此外由于散熱對 ASIC 性能至關重要,英維克、中航光電、高瀾股份英維克、中航光電、高瀾股份等散熱公司將持續受益。大量中小ASIC 公司將會催生大量的新建服務器需求。同時,國內芯片有望通過 ASIC 公司加速形成可用大模型算力,從而帶動國內服務器需求起量,對工業富聯、高新發展、中科曙光、紫光股份工業富聯、高新發展、中科曙光、紫光股份等服務器行業龍頭企業形成利好。1、博通博通 博通 AI 業務占比從 2019 年的低于 5%提升至 2023 年的 15%左右。根據
57、公司的規劃,預計 2024 年實現超過 100 億美元的收入體量,占公司整體收入比例增長至 35%。22/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 目前博通已經為兩家頭部 CSP 客戶批量供應了 ASIC 產品。此外,博通另一家客戶正在產能爬坡中,預計 2025 年開始貢獻業績。博通廣泛的博通廣泛的 IP 儲備為儲備為 ASIC 產品線賦能產品線賦能。博通廣泛的 IP 儲備可為其 XPU(博通對于 AI ASIC 的說法)產品線賦能,博通的 IP 主要分為 4 類:計算,存儲,網絡 IO,封裝。計算包括處理單元架構,設計流和性能優化。存儲包括 HBMP
58、HY,整合和性能。網絡 IO 包括架構實現,Chiplets 軟硬一體化解決方案。封裝包括 2.5D/3D 封裝,硅光架構和實現,垂直整合等。其中 SerDes、基于 AI 優化 NICs、高端封裝、交換機、CPO、內存等 IP 處于行業領先水平。博通在相關領域投入了 30 億美元研發費用。博通充分利用已經布局完成的 XPU 平臺工程,實現了業界最快的 ASIC 產品落地時間。XPU 平臺涵蓋了經過 10 年 XPU 經驗優化的 AI 設計流程、AIIP、SoC 封裝等一體化解決方案。ASIC 產品設計階段耗費 7-9 個月的聯合開發時間,再用 3 個月左右的時間完成產品的生產和產能爬坡。博通
59、與客戶在架構階段就展開了深度的戰略合作。在 XPU 設計啟動的前幾年,完成了關鍵組件的早期IP 投資;并且為后兩代 XPU 同時進行技術、IP 和封裝投資。23/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 隨著算力性能增長、網絡和內存帶寬提升、對電力輸送、熱完整度、機械可靠性等要求的升級,XPU 的復雜度在加深。博通積極響應了客戶對更復雜的 XPU 的需求。博通與多家大客戶一起聯合開發了十幾款 XPU 產品。三家大客戶推出多代路線圖。三家大客戶推出多代路線圖。下一代 3nmXPU 有望在 2025 年下半年批量出貨,大幅增長。目前有三家超大規??蛻?,已經
60、開發多代 AIXPU 路線圖,將在未來三年內以不同的速度部署。到 2027 年,三個客戶都計劃在單個結構中部署 100 萬個 XPU 集群。博通 2019-2023 財年收入年復合增速 11.4%。2024 年公司收購的 Vmware 并表后,2024 財年實現收入515.7 億美元,同比增長 44%。博通 Non-GAAP 凈利率從 2019 財年的 41.8%提升至 2023 財年的 51.3%。得益于利潤率的提升,博通2019-2023 財年 Non-GAAP 凈利潤年復合增速達 14.4%。2024 財年 Non-GAAP 凈利潤達到 237.3 億美元,同比增長 29%。24/34
61、2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 半導體解決方案是公司的最大業務,2023 財年占據公司整體收入的 78.7%;利潤率從 2019 財年的 50%提升至 2023 年的 58.5%。2024 財年公司半導體業務收入 301 億美元,同比增長 6.8%。公司的基礎設施軟件業務占比不低于 20%。其中,Vmware 在 2024 年并表后顯著推高了該業務板塊的規模體量。2、Marvell AI Marvell 的 AI 業務 2023 財年為 2 億美元左右。公司預計 24-26 財年加速 AI 業務(連接+定制化計算)收入從 5.5 億提升至 25 億
62、美元。Marvell 的數據中心業務 TAM:根據 Marvell 預測,2023-2028 年其數據中心業務 TAM 從 210 億美元增長至 750 億美元,CAGR 為 29%;其中,定制化加速計算 TAM 從 66 億美元增長至 429 億美元,CAGR 為 45%;交換機 TAM 從 61 億美元增長至 120 億美元,CAGR 為 15%;互聯 TAM 從 43 億美元增長至 139 億美元,CAGR 為 27%;存儲市場從 42 億美元增長至 59 億美元,CAGR 為 7%。Marvell 數據中心業務 23 年市占率 10%,公司長期市占率目標為 20%,即業務規模 150
63、億美元,相當于 23-28 年 CAGR 高達 46.6%。Marvell 的加速計算基礎設施平臺涵蓋了“工藝制程-IP-封裝-專家”的布局。25/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 Marvell 經過多年對完整定制平臺的收購和重大投資,儲備了一大批世界級的 IP,覆蓋模擬、數字、封裝等多個層面的知識產權。其中,Cavium 擅長網絡加速計算,AveraSemi(原格芯子公司)擅長為各種應用提供定制芯片解決方案和 2.5D/3D 封裝技術,Aquantia 擅長網絡傳輸,Inphi 擅長模擬、硅光和DSP 技術,Innovium 擅長數據中心交
64、換機芯片技術(競品為博通的 Trident 和 Tomahawk 芯片)。Marvell 的定制計算產品包括 AI 加速芯片,針對安全、NIC/DPU、ARM 計算、存儲、視頻和 CXL 功能的 ASIC 等。Marvell 的客戶涵蓋美國 3/4 的大型 CSP。Marvell 為亞馬遜設計的 AI 訓練加速器 Trainium2 已批量出貨。B 客戶的 ARMCPU 正處于產能爬坡階段。新介入的 C 客戶其 AI 加速器將于 2026 年產能爬坡。Marvell2021-2024 財年收入年復合增速 19.5%。2025 財年隨著經營改善,預計 2025 前三財季收入逐季改善(同比增速依次
65、為-12.2%、-5%、6.9%);FY2025Q3 單季度收入 15.2 億美元,同比增長 6.9%,增速重新轉正。Marvell2021-2024 財年 Non-GAAP 凈利潤年復合增速達 31%。2025 前三財季 Non-GAAP 凈利潤為8.5 億美元,Non-GAAP 凈利率從 17.8%提升至 24.6%。26/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 數據中心是公司的最大業務,2021-2024 財年復合增速 28%,高于整體收入增速。受益于 AI 對光學等產品的需求推動,最近兩個財年數據中心業務占據整體收入比重超 40%。其他業務中
66、,企業網絡收入 2021-2024 財年復合增速 21.2%,2024 財年占收入比重 22%左右;基礎設施收入 2021-2024 財年復合增速 23.2%,2024 財年占收入比重 19%左右;消費業務 2024 財年占收入比重 11%左右;工業和汽車業務 2021-2024 財年復合增速 44%,2024 財年占收入比重 7%左右。3、寒武紀寒武紀 寒武紀是寒武紀是 AI 芯片領域的獨角獸。芯片領域的獨角獸。公司成立于 2016 年 3 月 15 日,專注于人工智能芯片產品的研發與技術創新,產品廣泛應用于消費電子、數據中心、云計算等諸多場景。公司是 AI 芯片領域的獨角獸:采用公司終端智
67、能處理器 IP 的終端設備已出貨過億臺;云端智能芯片及加速卡也已應用到國內主流服務器廠商的產品中,并已實現量產出貨;邊緣智能芯片及加速卡的發布標志著公司已形成全面覆蓋云端、邊緣端和終端場景的系列化智能芯片產品布局。公司面向云端、邊緣端、終端推出了三個系列不同品類的通用型智能芯片與處理器產品,分別為終端智能處理器 IP、云端智能芯片及加速卡、邊緣智能芯片及加速卡,其中云端智能芯片主要是為云端人工智能處理提供強大的計算能力支撐;云端智能加速卡是基于云端智能芯片,增加外圍電路模塊形成的卡板產品,通過主機的附加接口接入系統。27/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報
68、告研究報告 寒武紀云端推理主要包含寒武紀云端推理主要包含 8 個產品,目前迭代至個產品,目前迭代至 MLU370 系列,系列,最大峰值算力高達 256TOPS(INT8)。寒武紀推理芯片包括 MLU100、MLU270、MLU370 和玄思 1001 等 4 個系列共 8 個產品,其中 2022 年推出的 MLU370 系列基于雙芯片四芯粒思元 370 打造。思元 370 芯片采用 7nm 制程工藝,是寒武紀首顆采用 chiplet 芯片技術的 AI 芯片,也是國內第一款公開發布支持 LPDDR5 內存的云端 AI芯片;公司還基于 4 張 MLU370-X8 產品集成了玄思 1001 智能加速
69、器,以在生物信息、醫療影像、語言模型等行業及可沿長江廣泛應用。370 系列在高密度云端推理領域具有明顯優勢。系列在高密度云端推理領域具有明顯優勢。MLU370-X8 提供 256TOPS(INT8)的峰值算力,高于英偉達 L20。同國內云端推理芯片相比,在 150W 功耗推理卡中,MLU370-X4 峰值算力和昆侖芯 28/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 R200 和燧原 I20 一致,同為 256TOPS(INT8)。在高密度云端推理領域,MLU370-S4 的能耗比高達2.56,具有顯著優勢。全面研發優化推理軟件平臺模型性能、大模型和全面
70、研發優化推理軟件平臺模型性能、大模型和 AIGC 推理業務支持、推理性能優化三個方面,助力推理業務支持、推理性能優化三個方面,助力客戶降本增效??蛻艚当驹鲂?。模型性能優化方面,寒武紀針對語音合成、搜索推薦和視覺處理中高頻使用網絡進行了優化,目前達到了可落地要求;大模型和 AIGC 推理業務支持方面,寒武紀研發大語言模型分布式推理加速庫 BangTransformer,進行了 LLaMA、GLM、BLOOM、GPT-2 等主流生成式大語言模型的適配工作;在推理性能優化方面,BangTransformer 支持算子融合、張量并行、量化推理、Flash Attention等優化特性,用于輔助圖像生成
71、的 MagicMind 是業界首個基于 MLIR 圖編譯技術達到商業化部署能力的推理引擎,在功能、性能、兼容性上都有良好表現,同時基于 MagicMind 到 PyTorch 的集成,客戶無需代碼遷移也能夠享受 MagicMind 帶來的性能加速,同時,MagicMind 新增了多款云、邊、端、車硬件平臺支持,并完善了 Sample Code、BestPractice 等用戶文檔,進一步提高了用戶使用體驗。推理軟件平臺三個維度的研發優化,大幅提升了推理業務運行效率,助力客戶降本增效。29/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 4、華為昇騰華為昇騰
72、華為昇騰(華為昇騰(HUAWEI Ascend)系列芯片是基于華為自主研發的達芬奇架構設計的)系列芯片是基于華為自主研發的達芬奇架構設計的 AI 芯片,包括訓芯片,包括訓練和推理芯片,其參數及表現在國內處于領先水平,并衍生出獨特的昇騰計算產業。練和推理芯片,其參數及表現在國內處于領先水平,并衍生出獨特的昇騰計算產業。昇騰系列芯片主要由華為全資子公司深圳市海思半導體有限公司研發,該子公司成立于 2004 年,除昇騰外還擁有麒麟、巴龍、鯤鵬等自研芯片系列,研發實力強大?!败浻布浻布?全生態全生態”打造面向打造面向“端、邊、云端、邊、云”的全場景的全場景 AI 基礎設施?;A設施。昇騰計算產業是基
73、于昇騰系列處理器和基礎軟件構建的全棧 AI 計算基礎設施、行業應用及服務,包括昇騰系列處理器、系列硬件、CANN(ComputeArchitecture for Neural Networks,異構計算架構)、AI 計算框架、應用使能、開發工具鏈、管理運維工具、行業應用及服務等全產業鏈。其中,以芯片為主的全硬件體系是實現 AI 訓推的底層支撐,以自研計算架構為主的軟件體系是吸引開發者的活力之源,以應用軟件為主的產業生態是面向未來發展的不竭動力。昇騰硬件體系是實現昇騰硬件體系是實現 AI 訓推的算力基礎和底層支撐。訓推的算力基礎和底層支撐。昇騰堅持“硬件開放”策略,為客戶提供自有硬件和伙伴硬件的
74、多樣化算力選擇。1)自有硬件為昇騰系列處理器以及基于昇騰處理器和業界主流異構計算部件的昇騰 Atlas 系列硬件產品。昇騰系列處理器主要包括昇騰 310、昇騰 910、昇騰 910B 等,昇騰Atlas 系列硬件產品包括各類模組板卡、小站、服務器、集群等豐富的產品形態。昇騰自有硬件體系旨在打造面向“云、邊、端”的全場景 AI 基礎設施方案,可廣泛用于“平安城市智能交通、智能醫療、智能零售、智能金融”等領域。2)伙伴硬件指華為開放自有硬件,合作伙伴可進行集成和二次開發,或者通過 OEM/ODM 方式開發自有品牌的服務器整機。昇騰系列處理器是硬件體系的核心。昇騰系列處理器是硬件體系的核心。昇騰處理
75、器專為 AI 計算設計,擁有自研達芬奇架構的,能夠覆蓋端邊云全場景,滿足不同部署環境差異性的算力需求。華為于 2018 年 10 月的華為全聯接大會上首次闡述了華為 AI 戰略,并公布了昇騰 910 和昇騰 310 兩款 AI 芯片,其中昇騰 310 是一款最大功耗僅 8W 的 30/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 極致高效計算低功耗 AI 芯片,2018 年商用量產,可用于推理端;昇騰 910 在 2019 年 8 月正式商用,用于訓練端。昇騰 910 首次采用達芬奇架構,基于 7nm 增強版 EUV 工藝,集成 32 個立方體計算引擎,半
76、精度(FP16)算力達 320TFLOPs,相比英偉達當時的 V100SXM 的 125TFLOPS 高一倍以上。2023年 9 月,華為在受美國制裁三年后發布昇騰 910B,其性能取得重大突破,單精度算力大幅提升,表明華為出色的芯片自研能力與昇騰 AI 處理器未來極高的增長空間。自研達芬奇架構大幅提升自研達芬奇架構大幅提升 AI 算力。算力。昇騰系列 AI 處理器創新使用達芬奇架構,是華為自研的面向 AI 計算特征的全新計算架構,具備高算力、高能效、靈活可裁剪的特性?;谶_芬奇架構的 AI 核內含3DCube、Vector 向量計算單元、Scalar 標量計算單元等,共同保障 AI 計算的高
77、效處理。在神經網絡模型中 99%的計算都需要用到矩陣乘法運算,這部分運算是 AI 計算的核心,在達芬奇架構中由 3DCube來完。3DCube 能夠在一個時鐘周期內完成 4096 次乘加運算,相比傳統 2D 結構運算周期短、時延低、利用率高。此外,AI 核中的 BufferL0A、L0B、L0C 用于向 3DCube 輸送數據和存放計算結果。高速互聯方面:高速互聯方面:昇騰處理器還擁有自研 HCCS 接口,可以完成昇騰處理器之間的互聯,最新一代昇騰910B 的 HCCS 互聯速度可達 392GB/s,結合 PCle5.0 和 RoCE 接口可以組建更具規模的訓練系統,全面釋放硬件算力。31/3
78、4 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 AI 集群是大模型訓練的最終硬件產品形態,昇騰集群是大模型訓練的最終硬件產品形態,昇騰 AI 集群可支持萬卡規模。集群可支持萬卡規模。華為基于昇騰系列處理器開發有一系列昇騰 Atlas 硬件產品,包括模塊、板卡、智能邊緣、服務器、集群等,可廣泛應用于教育科研、智慧城市、智慧交通等各種算力需求水平的領域。在大模型訓練中由于單卡算力有限,通常會基于多卡互聯形成千卡乃至萬卡規模的集群,華為能夠提供或組裝包括集群在內的全系硬件產品。2023 年 7月華為宣布昇騰 AI 集群規模從最初的 4000 卡集群擴展至 16000
79、 卡,成為業界首個萬卡 AI 集群,擁有更快的訓練速度和 30 天以上的穩定訓練周期,十倍領先業界。32/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 推出異構計算架構推出異構計算架構 CANN,構筑生態護城河。,構筑生態護城河。CANN(ComputeArchitecture for Neural Networks)是華為針對 AI 場景推出的異構計算架構,對上支持 PyTorch、MindSpore、TensorFlow 等多種 AI 框架,對下服務 AI 處理器與編程,發揮承上啟下的關鍵作用,是提升昇騰 AI 處理器計算效率的關鍵平臺。昇思昇思 Mi
80、ndSpore 旨在實現易開發、高效執行、全場景覆蓋三大目標。旨在實現易開發、高效執行、全場景覆蓋三大目標。其中,易開發表現為 API 友好、調試難度低;高效執行包括計算效率、數據預處理效率和分布式訓練效率;全場景則指框架同時支持云、邊緣以及端側場景。33/34 2024 年年 12 月月 23 日日 行業行業|深度深度|研究報告研究報告 5、紫光股份紫光股份 擁抱擁抱 AIGC 發展浪潮,國內發展浪潮,國內 ICT 企業領軍者。企業領軍者。公司是國內云計算基礎設施建設和行業智慧應用服務的領先企業,已擁有計算、存儲、網絡、5G、網絡安全、終端等全方位數字化基礎設施能力,可提供云計算、大數據、人
81、工智能、智能聯接、工業互聯網、網絡安全、邊緣計算等數字化解決方案,多個 ICT 產品市占率行業領先。隨著生成式 AI、大模型技術持續發展,有望拉動對 AI 服務器和高速率交換機需求,公司 ICT 基礎設施及服務業務有望持續受益。智算算力需求激增,智算算力需求激增,AI 服務器及高速率數據中心交換機加速放量。服務器及高速率數據中心交換機加速放量。隨著 AIGC 持續發展,AI 智算集群規模持續增長,AI 服務器以及高速率交換機作為算力底座,需求有望加速釋放。公司發布“ALL in AI”以及“ALL for AI”戰略,積極布局算力基礎設施和 AI 私域大模型助力 AI 發展,公司服務器及交換機
82、市場地位穩固,市占率多年穩健第二。6、英維克英維克 溫控全鏈條自研企業,機房溫控和機柜溫控是兩大增長引擎溫控全鏈條自研企業,機房溫控和機柜溫控是兩大增長引擎。公司成立于 2005 年,是技術領先的精密溫控節能解決方案與產品提供商。公司主營業務聚焦設備散熱和環境控制兩個方向,其中機房溫控和機柜溫控為公司的主要業務。2018-2023 年,公司營業收入由 10.70 億元增長為 35.29 億元,CAGR 為26.96%,其中機房溫控和機柜溫控的 CAGR 分別為 25.46%和 43.63%。全鏈條解決方案是核心競爭力,受益龍頭客戶盈利穩定增長全鏈條解決方案是核心競爭力,受益龍頭客戶盈利穩定增長
83、。公司推出 Coolinside 全鏈條液冷解決方案和 BattCool 儲能全鏈條液冷解決方案,通過縱向一體化實現降本增利。截至 2024 年 9 月,公司在液冷鏈條的累計交付已達 1GW,“端到端、全鏈條”的平臺化布局已成為公司在液冷業務領域的核心競爭優勢。公司進入英偉達供應鏈,與儲能電池第一大客戶寧德時代保持長期合作關系,有利于穩定市場份額和收入持續增長。八、參考研報八、參考研報 1.西南證券-科技行業前瞻專題:AI ASIC,算力芯片的下一篇章 2.國泰君安-海外科技行業:算力需求高增,AI ASIC 突圍在即 3.浙商證券-通信行業海外 AI 跟蹤報告:ASIC 有望爆發式增長,利好核心光器件廠商 4.國泰君安-海外科技行業:AI ASIC 芯片,選擇、空間與趨勢 5.國金證券-計算機行業算力深度報告一:算力研究框架產業鏈全梳理 6.中泰證券-半導體行業 AI 系列之國產算力:01,重視產業鏈歷史機遇 7.國泰君安-邁威爾科技-MRVL.US-Marvell 首次覆蓋報告:數通芯片龍頭,開啟 AI 計算新征途 34/34 2024 年年 12 月月 23 日日行業行業|深度深度|研究報告研究報告 免責聲明:以上內容僅供學習交流,不構成投資建議。