1、 請務必閱讀正文之后的免責條款部分 股票研究股票研究 海外專題研究(海外專題研究(美國美國)證券研究報告證券研究報告 股票研究/Table_Date 2024.08.15 算力需求高增,算力需求高增,AI ASIC 突圍在即突圍在即 Table_Industry 海外科技 Table_Invest 評級:評級:增持增持 Table_Market 交易數據交易數據 行業主要上市公司 市值(百萬美元)英偉達 2,857,044 博通 726,907 邁威爾科技 55,442 市值合計 3,639,393 Table_Report 相關報告相關報告 table_Authors 秦和平秦和平(分析師分
2、析師)0755-23976666 登記編號登記編號 S0880523110003 本報告導讀:本報告導讀:AI 算力需求高增,算力需求高增,AI ASIC 具備性價比、功耗等優勢,且軟硬件生態體系日趨成熟,具備性價比、功耗等優勢,且軟硬件生態體系日趨成熟,未來有望實現高速增長。未來有望實現高速增長。投資要點:投資要點:Table_Summary 投資建議:投資建議:ASIC 針對特定場景設計,有配套的通信互聯和軟件生態,雖然目前單顆 ASIC 算力相比最先進的 GPU 仍有差距,但整個ASIC 集群的算力利用效率可能會優于可比的 GPU,同時還具備明顯的價格、功耗優勢,有望更廣泛地應用于 AI
3、 推理與訓練。我們看我們看好好 ASIC 的大規模應用帶來云廠商的大規模應用帶來云廠商 ROI 提升,同時也建議關注定制提升,同時也建議關注定制芯片產業鏈相關標的。芯片產業鏈相關標的。AI ASIC 具備功耗、成本優勢,目前仍處于發展初期,市場規模有具備功耗、成本優勢,目前仍處于發展初期,市場規模有望高速增長。望高速增長。目前 ASIC 在 AI 加速計算芯片市場占有率較低,預計增速快于通用加速芯片。據 Marvell 預測,2023 年,定制芯片僅占數據中心加速計算芯片的 16%,其規模約 66 億美元,預計 2028 年數據中心定制加速計算芯片規模有望超 400 億美元。ASIC 單卡算力
4、與單卡算力與 GPU 仍有差距,但單卡性價比和集群算力效率優仍有差距,但單卡性價比和集群算力效率優秀。秀。ASIC 中算力相對較高的谷歌 TPU v6 和微軟 Maia 100 算力約為 H100 非稀疏算力的 90%、80%,同時 ASIC 的單價顯著低于 GPU,故而在推理場景呈現更高的性價比;ASIC 的芯片互聯以 PCIe 協議為主,處于追趕狀態,NVLink 協議更具優勢;在服務器互聯方面,ASIC 主要采用以太網,正追平英偉達的 IB 網絡,目前 H100 集群可以做到 10 萬卡規模,ASIC 中谷歌 TPU 相對更為領先,TPU v5p單個 Pod 可達 8960 顆芯片,借助
5、軟件能力,TPUv5e 可拓展至 5 萬卡集群,且保持線性加速。由于 ASIC 專為特定場景設計,且云廠商對軟件生態掌握程度也較高,ASIC 集群的算力利用率實際可能高于 GPU(如 TPU、MTIA 等)。軟件生態也是影響軟件生態也是影響 AI 計算能力的重要因素,當前計算能力的重要因素,當前 CUDA 生態占據生態占據主導,主導,ASIC 軟件生態有望逐步完善。軟件生態有望逐步完善。云廠商普遍具備較強的研發能力,均為 AI ASIC 研發了配套的全棧軟件生態,開發了一系列的編譯器、底層中間件等,提升 ASIC 在特定場景下的計算效率。此外,一些商用芯片廠商也推出了開源平臺,如 ROCm 和
6、 oneAPI,未來 ASIC 的軟件生態將會愈發成熟、開放。風險提示:風險提示:AI 算法技術風險、生態系統建設不及預期、芯片研發不及預期、AI 產業發展不及預期 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 2 of 41 目錄目錄 1.投資建議.3 2.AI ASIC 市場處于發展初期,有望保持高速增長.4 2.1.ASIC 是提性能、降功耗成本、增強供應多元化的重要選擇.4 2.2.AI ASIC 處于發展初期,2028 年市場規模有望超 400 億美元.6 2.3.IP 和產業鏈整合是芯片自研主要挑戰,需借助外部廠商支持.7 3.云廠商積極布局 ASIC,打造
7、軟硬件全棧生態.9 3.1.谷歌 TPU.9 3.1.1.TPU 已進化至第六代,覆蓋推理和訓練場景.9 3.1.2.TPU 擅長處理大量矩陣運算.9 3.1.3.創新引入 3D torus 架構和光交換機,增強拓展性與互聯效率 11 3.1.4.提供 Mulislice Training 全棧服務,支持大模型高效訓練.13 3.2.Meta MTIA.14 3.2.1.MTIA 快速迭代,目前主要用于 AI 推理.14 3.2.2.MTIA 旨在尋求計算、內存帶寬的平衡.15 3.2.3.MTIA v2 單機架容納 72 顆芯片,機架間采用以太網通信.16 3.2.4.MTIA 具備完整軟件
8、生態,與 PyTorch 完全集成.17 3.3.微軟 Maia.18 3.3.1.微軟 AI 芯片起步較慢,但有多年的技術積累.18 3.3.2.Maia 100 算力性能領先,片內外內存存在一定不平衡.19 3.3.3.Ares 機架由 32 顆 Maia 100 組成,配置液冷系統.19 3.3.4.Maia 芯片內置 RMDA 以太網 IO,集群配置 25.6T 交換機.20 3.3.5.微軟軟件生態開發成熟度高,構建 Triton 開源平臺.20 3.4.亞馬遜 Trainium.20 3.4.1.亞馬遜在公有云市場布局廣闊,自研芯片涉獵較早.20 3.4.2.Trainium 系列
9、主要用于訓練場景,已進化至第二代.21 3.4.3.16 片 Trainium 芯片構成 Trn 實例,可拓展至萬片集群.22 3.4.4.AWS 構建三層人工智能堆棧結構,提供 SDK 等開發工具.24 3.5.特斯拉 Dojo.25 3.5.1.特斯拉自研 Dojo 計算平臺,用于訓練自動駕駛 AI 模型.25 3.5.2.采用近存計算架構,單訓練板功耗高達 15kw.26 3.5.3.自研 TTP 通信協議,提供高帶寬低時延連接.28 3.5.4.特斯拉為 Dojo 創建全棧軟件生態.29 3.6.百度昆侖芯.30 3.7.阿里含光 800.32 3.8.騰訊紫霄芯片.33 3.9.字節
10、跳動.34 4.CUDA 在 AI 計算領域占據主導,軟件生態長期有望走向多元化.35 4.1.英偉達 CUDA 生態成熟,與 GPU 密切綁定.36 4.2.ROCm、oneAPI 是 CUDA 主要競爭者.38 4.3.云廠商助力軟件生態走向多元與開放.39 5.風險提示.40 uYkVuNpPwPcWfV6MaO9PoMoOnPrNiNoOyQlOnMpR9PpOmMwMtRqRMYoPoO海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 3 of 41 1.投資建議投資建議 單顆 ASIC 算力相比目前最先進的 GPU 存在劣勢,但考慮其往往針對特定業務場景設計,還
11、有配套的通信互聯和軟件生態,整個 ASIC 集群的算力利用效率可能會優于可比的 GPU。此外 ASIC 還有明顯的價格、功耗優勢,我們認為針對特定場景的 ASIC 規模部署有望提升云廠商的 ROI,也建議關注定制芯片產業鏈相關標的。具體分析如下:表表1:AI ASIC 與與 GPU 芯片性能梳理芯片性能梳理 規格規格 H100 B100 TPU v5p TPU v6 Trillium Trainium2 MTIA v2 Maia 100 廠商廠商 英偉達 英偉達 谷歌 谷歌 亞馬遜 Meta 微軟 FP16/BF16(TFLOPS)1000/2000*1750/3500*459 926 431
12、 177/354*800 INT8/FP8(TFLOPS)2000/4000*3500/7000*918 1852 861 354/708*1600 片上內存容量(片上內存容量(MB)50-48-256 448 片上內存帶寬(片上內存帶寬(TB/s)3.8-2.7 片外內存容量片外內存容量(GB)80(HBM3)192(HBM3e)95(HBM3)32 96 128(LPDDR5)64(HBM3)片外內存帶寬片外內存帶寬(TB/s)3 8 2.7 1.6 4 0.2 1.6 互連帶寬(雙向)互連帶寬(雙向)NVLink:900GB/s;PCIe 5.0:128GB/s NVLink:1.8TB
13、/s;PCIe 6.0:256 GB/s 1200GB/s 800GB/s-PCIe 5.0:64GB/s PCIe 5.0:64GB/s 最高最高 TDP 700W 700W-90w 860w 制程制程 4nm 3nm 5nm 4nm 4nm 5nm 5nm 注:紅色字體表示該未經官方確認,為預測值;*表示采用稀疏技術下的算力;Maia 100 第三行為 MxInt8 性能 數據來源:英偉達,谷歌,next platform,IT 之家,the register,亞馬遜,芝能智芯,meta,投資界,電子工程世界 圖圖1:ASIC 在在 INT8/FP8 精度下性價比顯著高于精度下性價比顯著高
14、于 GPU 圖圖2:ASIC 在在 FP16/BF16 精度下性價比高于精度下性價比高于 GPU 數據來源:國泰君安證券研究 注:MTIA v2/A100/H100/B100/MI300 均采用非稀疏算力口徑 數據來源:國泰君安證券研究 注:MTIA v2/A100/H100/B100/MI300 均采用非稀疏算力口徑 從單卡算力來看,北美云廠商的從單卡算力來看,北美云廠商的 AI ASIC 芯片算力普遍低于芯片算力普遍低于 H100 芯片,芯片,但由于其成本較低,在推理常用精度下,但由于其成本較低,在推理常用精度下,ASIC 展現出了更高的性價比展現出了更高的性價比(TFLOPS/$)。谷歌
15、 TPU v6 和微軟 Maia 100 的算力在 ASIC 中較高,FP16/BF16 精度下運算能力分別為 926TFLOPS、800TFLOPS,INT8/FP8 算力分別為 918TFLOPS、1600TFLOPS,分別達 H100 非稀疏算力的 90%、80%以上。同時 ASIC 相比 GPU 有顯著的價格優勢,因此 ASIC 在推理場景有更高的性價比。而中國廠商 AI ASIC 仍處于相對早期的發展階段,百度昆侖芯在智能駕駛領域有一定規模的應用,字節跳動目前尚在招募研發人員,阿里含光 800、騰訊紫霄芯片相對發布時間較早,與全球目前最先進的 AI海外專題研究海外專題研究(美國美國)
16、請務必閱讀正文之后的免責條款部分 4 of 41 芯片比有代際差異。芯片間互聯(芯片間互聯(ICI)來說,)來說,GPU 的的 NVLink 具有顯著的優勢,定制芯片多采具有顯著的優勢,定制芯片多采用用 PCIe 協議,升級迭代速度相對較慢。協議,升級迭代速度相對較慢。ASIC 中,谷歌的 ICI 帶寬相對較高,TPU v5p 可以實現 600GB/s 的芯片互聯帶寬,這主要是由于它采用了3D 環形拓撲結構,保障了芯片間的高速互聯。服務器互聯來看,云廠商服務器互聯來看,云廠商 ASIC 多采用以太網為主,或是自研交換機或交多采用以太網為主,或是自研交換機或交換協議(如谷歌換協議(如谷歌 OCS
17、、特斯拉、特斯拉 TTPoe),傳輸帶寬能夠較好滿足連接需求。),傳輸帶寬能夠較好滿足連接需求。以太網存在通用性高、生態開放,成本較低的優勢。以太網生態的合作伙伴包括博通、思科、Marvell 等,目前都已推出或量產 800G 端口的 51.2T 交換機,博通預計 2025 年推出 102.4T 的 TH6 交換芯片。隨著高速率以太網交換機進入量產,同時 AI 應用場景多元化,推理需求持續增長,預計以太網將更廣泛地應用在 AI 集群中。對于云廠商來說,這也有助于降低網絡成本,提升 ROI。ASIC 集群拓展能力有所分化,與集群拓展能力有所分化,與 GPU 集群有一定差距。集群有一定差距。在 A
18、ISC 芯片中,TPU 和亞馬遜的 Trainium 系列拓展能力較強。TPU v5p 單 Pod 可以實現8960 張芯片互聯,借助軟件服務,TPU v5e 可以突破 Pod 邊界實現 5 萬卡互聯;AWS 宣稱客戶可以在 EC2 UltraCluster 擴展多達 10 萬個 Trainium 2芯片。而英偉達 GPU 的集群規模目前已經可達 10 萬張,xAI 建成了 10 萬張 H100 GPU 的智算集群,Information 報道稱,OpenAI 的下一個超算集群,將由 10 萬塊 GB200 組成。圖圖3:AI 集群規模不斷上漲,向集群規模不斷上漲,向 10 萬卡規模邁進萬卡規
19、模邁進 數據來源:InfoQ 內存角度看,根據芯片設計理念的差別,內存角度看,根據芯片設計理念的差別,ASIC 片上和片外內存的帶寬容量片上和片外內存的帶寬容量指標有所不同。指標有所不同。AI ASIC 主要采用 HBM 作為片外內存,容量及帶寬持平略滯后于 H100、B100 采用的 HBM3、HBM3e。MTIA v2 的片外內存采用LPDD5,內存容量高達 128GB,但帶寬相對較低(205GB/s)。片上內存來看,AI ASIC 普遍設計了較大的片上內存,尤其是微軟的 Maia 100 和特斯拉的 DOJO D1 芯片,片上內存容量高達 448MB、440MB。較高的片上內存容量有助于
20、降低時延,提高計算效率。除了硬件設施,軟件生態也是影響算力系統性能的重要因素。云廠商普遍具備較強的研發能力,均為均為 AI ASIC 研發了配套的全棧軟件生態,提升研發了配套的全棧軟件生態,提升 ASIC在特定場景下的計算效率在特定場景下的計算效率。此外,一些商用芯片廠商也推出了開源平臺,如ROCm 和 oneAPI,未來 ASIC 的軟件生態將會愈發成熟、開放。隨著 AI 產業發展驅動算力需求高增,同時 ASIC 的軟硬件持續迭代,我們認為 ASIC 對提升特定場景的計算性能和性價比將愈發重要,未來市場規模有望高速增長。我們看好我們看好 ASIC 的大規模應用帶來云廠商的大規模應用帶來云廠商
21、 ROI 提升,同時提升,同時也建議關注定制芯片設計環節、以太網產業鏈相關標的。也建議關注定制芯片設計環節、以太網產業鏈相關標的。2.AI ASIC 市場市場處于發展初期,有望保持高速增長處于發展初期,有望保持高速增長 2.1.ASIC 是提性能、降功耗成本、增強供應多元化的重要選擇是提性能、降功耗成本、增強供應多元化的重要選擇 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 5 of 41 由于制造工藝接近物理極限,芯片性能提升速度放緩,同時,功耗散熱問題由于制造工藝接近物理極限,芯片性能提升速度放緩,同時,功耗散熱問題越來越嚴重,成為性能提升的瓶頸。越來越嚴重,成為性
22、能提升的瓶頸。以 GPU 為例,近年來,GPU 的單位面積計算性能(TFLOPS/mm2)提升緩慢,其性能提升主要依靠面積變大。NVIDIA 的 B200、AMD 的 MI300、英特爾的 Gaudi 3 都將兩塊芯片算作一張卡,以實現“雙倍”性能。圖圖4:隨制程提升,物理縮放定律放緩隨制程提升,物理縮放定律放緩 圖圖5:隨著制程提升,功耗密度持續增加隨著制程提升,功耗密度持續增加 數據來源:博通發布會 數據來源:博通發布會 圖圖6:GPU 的單位面積計算性能(的單位面積計算性能(TFLOPS/mm2)2.5 年僅提升年僅提升 15%數據來源:半導體行業觀察 對此困境,卸載通用計算芯片的部分功
23、能,設計出針對特定場景的芯片,是對此困境,卸載通用計算芯片的部分功能,設計出針對特定場景的芯片,是提升芯片性能、降低能耗的重要方式。提升芯片性能、降低能耗的重要方式。參考比特幣礦機,由于比特幣的算法固定,芯片廠商可以針對其算法設計專用 ASIC 芯片,成本更低,同時處理速度要比 GPU 快幾個數量級,性價比更高。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 6 of 41 圖圖7:礦機算力和能耗比分析礦機算力和能耗比分析 數據來源:比特大陸 算法穩定性也是影響算法穩定性也是影響 ASIC 發展的重要因素。發展的重要因素。如果 AI 算法發生較大變化,那么根據之前算法設計
24、的ASIC計算效率就會大幅下降。以Sohu芯片為例,它將專用性做到極致,僅支持 Transformer 算法,由于刪除了絕大多數控制流邏輯,它獲得了極高的數學性能,FLOPS 利用率超過 90%,每秒 token 處理數超過 H100 的 20 倍,但它犧牲了通用性,無法運行 CNN(Convolutional Neural Network,卷積神經網絡)、RNN(Recurrent Neural Network)或LSTM(Long Short Term Memory)等 AI 算法。深度學習發展至今,模型架構經歷從 RNN、LSTM 到 Transformer 的演進歷程,Transfor
25、mer 在大語言模型開發中占據主導地位,且在大語言模型開發中占據主導地位,且 Scaling law 并未并未失效,失效,Transformer 并未達到天花板。并未達到天花板。OpenAI 的 GPT 系列模型、llama、文心一言、通義千問等前沿的大語言模型都基于 Transformer 架構進行訓練,多模態大模型也大都采用 Transformer,只是可能會結合專門處理圖像數據的 CNN 組件,需要使用跨模態的注意力機制、聯合嵌入空間或特殊的融合層來對不同模態信息進行融合。由于 Transformer 存在內存需求巨大的問題,一些學界或創業團隊也在探索非 Transformer 架構,試
26、圖提高計算效率、降低計算成本。目前主要分為RWKV、Mamba、retnet 為代表用循環結構代替 attention,以及把 full attention密集結構變得稀疏的兩類路徑,他們對內存占用的需求更低,有更高的計算效率,但業界對其是否具備 Transformer 一樣的高天花板存疑,此外,從研究資源、軟硬件生態角度看,Transformer 架構具備較高的護城河,非Transformer 仍存在較大的差距。圖圖8:AI 算法架構對比算法架構對比 數據來源:Retentive Network:A Successor to Transformer for Large Language Mo
27、dels 2.2.AI ASIC 處于發展初期,處于發展初期,2028 年市場規模有望超年市場規模有望超 400 億美元億美元 北美云廠商對北美云廠商對 AI 芯片需求量大,為了增強議價能力和供應鏈多元化,有充芯片需求量大,為了增強議價能力和供應鏈多元化,有充海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 7 of 41 足的動力自研芯片。足的動力自研芯片。北美云廠商在 AI 領域的資本開支近兩年有望保持高速增長,是英偉達的重要客戶,谷歌、微軟、亞馬遜、Meta 和甲骨文五家云廠商預計貢獻了 FY2025 英偉達 GPU 六成以上的收入,預計接近 500 億美元。而而 A
28、I ASIC 芯片當前規模遠低于芯片當前規模遠低于 GPU,博通 FY2024 定制芯片收入預計 70 億美元左右,Marvell FY2024 可能僅有個位數億美元收入。我們認為當前定制芯片仍處于發展初期,云廠商為了降低成本、增強供應鏈保障,會持續迭代 ASIC 并增大在特定場景的 ASIC 部署規模,ASIC 市場規模有望高速增長。圖圖9:北美云廠商北美云廠商 CAPEX(十億美元)(十億美元)圖圖10:AI 芯片銷售收入預測(十億美元)芯片銷售收入預測(十億美元)數據來源:彭博,國泰君安證券研究 注:微軟、甲骨文均為后一財年的數據 數據來源:國泰君安證券研究 注:Marvell、英偉達數
29、據均為后一財年的數據 目前目前 ASIC 在在 AI 加速計算芯片市場占有率較低,預計增速快于通用加速芯加速計算芯片市場占有率較低,預計增速快于通用加速芯片。片。據 Marvell 預測,2023 年,定制芯片僅占數據中心加速計算芯片的 16%,其規模約66億美元,隨著AI計算需求增長,以及定制芯片占比提升至25%,預計預計 2028 年數據中心定制計算芯片市場規模將達到年數據中心定制計算芯片市場規模將達到 429 億美元,億美元,2023-2028年年 CAGR 達達 45%。而通用加速計算芯片 2028 年預計達到 1716 億美元市場規模,2023-2028 年 CAGR 為 32%。圖
30、圖11:Marvell 預計數據中心定制加速計算芯片市場預計數據中心定制加速計算芯片市場 2028 年達年達 429 億美元億美元 數據來源:Marvell 發布會 2.3.IP 和產業鏈整合是芯片自研主要挑戰,需借助外部廠商支持和產業鏈整合是芯片自研主要挑戰,需借助外部廠商支持 芯片的自研可分為前端、后端兩個階段,其中,芯片的自研可分為前端、后端兩個階段,其中,IP 和產業鏈整合是主要的和產業鏈整合是主要的挑戰。挑戰。前端即邏輯設計,涉及芯片的基本功能,后端則是將所有的功能落實到電路并且流片出來的物理實體。目前,電路設計生態已經相對成熟,自研團隊面臨的第一道門檻是有嚴密的知識產權保護的 IP
31、,為了獲得這些 IP,自研廠商往往需要與 IP 設計廠商合作,獲得授權,此外,部分艱深的結構(如 NOC,片上網絡)也是自研團隊難以獨立完成的。除了設計環節,自研廠商還面臨流片、量產、芯片組網、產業鏈整合、軟件生態等一系列挑戰。據芯潮 IC 調查了解到,每家迭代第一代產品,如果按 7 納米中間節點去算,13 18 25 27 33 45 68 73 100 133 163 164 225 245 050100150200250300谷歌微軟亞馬遜Meta甲骨文海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 8 of 41 加量產至少小 20 億美金。圖圖12:自研芯片流程
32、圖自研芯片流程圖 數據來源:芯潮 IC 云廠商自研芯片時,通常會選擇博通、云廠商自研芯片時,通常會選擇博通、Marvell、英偉達、聯發科等廠商合、英偉達、聯發科等廠商合作設計芯片,再通過臺積電等代工廠完成芯片制造,目前博通客戶量產節作設計芯片,再通過臺積電等代工廠完成芯片制造,目前博通客戶量產節奏領先奏領先。博通目前有三家定制芯片大客戶,前兩家客戶已經進入量產期,新加入的客戶預計在 2025 年進入量產。Marvell 目前有三位目前有三位 ASIC 客戶,目客戶,目前均未量產前均未量產,A 客戶(預計是亞馬遜)的 AI 訓練芯片、B 客戶的 Arm CPU處于產能爬坡期,A 客戶的 AI
33、推理芯片、C 客戶的 AI 芯片預計分別 2025年、2026 年開始產能爬坡,Marvell 預計 2026 財年(日歷年 2025 年-2026年)AI ASIC 業務將貢獻 25 億美元營收。英偉達則處于更前期的階段。英偉達則處于更前期的階段。據路透社報道,英偉達正在建立新的業務部門,專注于為云計算和其他公司設計定制芯片,包括 AI 處理器,已經與亞馬遜、Meta、微軟、谷歌和 OpenAI的代表會面,討論為他們生產定制芯片的事宜。據 ITBEAR 報道,聯發科將為谷歌提供 AI 服務器芯片的串行器和解串器(SerDes)方案,并協助整合谷歌自研的 TPU。圖圖13:博通目前已有博通目前
34、已有 2 位位 ASIC 客戶處于量產階段,預客戶處于量產階段,預計第計第 3 位客戶將在位客戶將在 2025 年進入量產年進入量產 圖圖14:Marvell 目前有目前有 3 位位 ASIC 客戶,尚未量產,部客戶,尚未量產,部分芯片處于產能爬坡期分芯片處于產能爬坡期 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 9 of 41 數據來源:TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 數據來源:TPU
35、v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 3.云廠商積極布局云廠商積極布局 ASIC,打造軟硬件全棧生態,打造軟硬件全棧生態 3.1.谷歌谷歌 TPU 3.1.1.TPU 已進化至第六代,覆蓋推理和訓練場景已進化至第六代,覆蓋推理和訓練場景 張量處理單元(Tensor Processing Units,簡稱 TPU)是由 Google 開發的,用于加速機器學習工作負載的集成電路(ASIC),可以快速處理神經網絡中使用的大量矩陣運算,
36、支持 TensorFlow、Pytorch 等框架和 JAX。谷歌谷歌 TPU 目前已演化至第六代,可以滿足推理和訓練不同場景的需求。谷目前已演化至第六代,可以滿足推理和訓練不同場景的需求。谷歌第一代 TPU 芯片于 2015 年推出,主要用于推理場景。其推出背景是隨著深度神經網絡興起,矩陣乘加成為重要的計算任務,而谷歌基于成本和戰略的考慮,選擇搭建團隊自研芯片,谷歌招募了 David PattersonRISC 原始設計的開發者等關鍵人物,并與博通合作,幫助芯片的物理落地。2016 年,使用 TPU 的 Alpha Go Zero 擊敗了當時的世界圍棋冠軍李世石。此后,TPU不斷迭代,到 2
37、024 年,已經更新至第六代。TPU 又可根據應用場景,分為e 系列和 p 系列,其中,e 系列負責訓推一體,部署靈活,而 p 系列則主要負責更大規模的基礎模型訓練任務。TPUv5p 單個 Pod 可以達到 8960 顆芯片的集群規模,此外,借助 Multislice 訓練技術,TPU v5e 可以實現 5 萬卡線性加速。表表2:TPU v4/v5e/vp5/v6 的性能指標的性能指標 v4 v5e v5p v6 Trillium Chips per pod 4096 256 8960 256 Chip Bf16 TFLOPs 275 197 459 926 Chip Int8 TOPs -3
38、94 918-HBM(GB)32 16 95 32 HBM BW(GB/s)1228 820 2765 1640 ICI BW per chip(Gb/s)6*448 4*400 6*800 4*800 制程 7nm 5nm 5nm 4nm 注:紅色字體表示該數據未經官方確認,為第三方預測值 數據來源:zartbot,next platform 博通、臺積電等合作伙伴在谷歌的博通、臺積電等合作伙伴在谷歌的 TPU 設計制造中提供了重要支持。設計制造中提供了重要支持。博通不僅共同參與芯片設計,還為谷歌提供關鍵的知識產權,并與臺積電等廠商合作,在制造、測試、封裝等步驟提供支持,幫助谷歌將設計想法落
39、地為可運行的物理芯片。從谷歌的第一代 TPU 至今,博通都參與了芯片的共同設計,對于 TPU 第六代芯片,則采用了臺積電 3-4nm 制程,基于 ARM 架構設計,預計將于 2024 年年底推出。TPU 部署規??焖僭鲩L,為自研大模型及蘋果等外部客戶提供支持。部署規??焖僭鲩L,為自研大模型及蘋果等外部客戶提供支持。Tech Insights 預計,2023 年谷歌向其全球數據中心運送了 200 萬個 TPU。Omdia預計,2024 年谷歌云將部署價值 60 億美元億美元的 TPU,為 Gemini、Gemma 和 Search 等內部項目和蘋果等外部客戶工作負載提供支持。蘋果披露其云側AI
40、基礎模型在 8192 顆 TPUv4 芯片上訓練,端側 AI 模型在 2048 顆 TPUv5p芯片上訓練而成。博通 2024 年定制芯片收入預計接近 70 億美元,主要來自谷歌 TPU。3.1.2.TPU 擅長處理大量矩陣運算擅長處理大量矩陣運算 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 10 of 41 TPU 是 ASIC 芯片,其主要任務是矩陣處理,可以快速高效處理神經網絡中使用的大量矩陣運算,但不能運行文字處理程序、控制火箭引擎或執行銀行交易等通用型任務。GPU 同樣也適合處理大量并行任務,但依然是一種通用處理器,對于對于數千個算術邏輯單元(ALU)中的每
41、一次計算,GPU 都必須訪問寄存器或共享內存,以讀取運算對象以及存儲中間計算結果。而TPU 在矩陣乘法過程中,不需要訪問內存。表表3:TPU v4/v5e/vp5/v6e 的性能指標的性能指標 CPU GPU TPU 設計理念設計理念 注重通用性和靈活性,適合復雜、串行的計算任務 適合處理大量的并行任務 專門用于神經網絡工作負載的矩陣處理器 核心結構核心結構 包含較少的核心,但每個核心能夠處理復雜任務和多任務并發。包含成百上千的小核心,每個核心專注于執行單一任務 TPU 包含數千個乘法累加器,這些累加器彼此直接連接以形成大型物理矩陣。這稱為脈動陣列架構。應用場景應用場景 應用場景廣泛,比如在
42、PC 上通過 CPU 進行文字處理、控制火箭引擎、執行銀行交易,或利用神經網絡對圖像進行分類。適合數據并行處理、高吞吐量計算任務,如深度學習、大規模圖像或視頻處理、科學模擬、天氣預測等 可以快速處理神經網絡中使用的大量矩陣運算。但不能運行文字處理程序、控制火箭引擎或執行銀行交易 數據來源:騰訊云、谷歌云 TPU 的主要任務是進行矩陣處理,即乘法和累加運算的結合。的主要任務是進行矩陣處理,即乘法和累加運算的結合。一個 TPU 芯片包含一個或多個 TensorCore,每個 TensorCore 當中包含一個或多個矩陣乘法單元(MXU)、矢量單元和標量單元,MXU 由收縮陣列中的 128 x 12
43、8個乘積累加器組成。TPU 包含數千個乘法累加器。TPU 主機將數據流式傳輸到饋入隊列中,從饋入隊列加載數據,并將其存儲在 HBM 內存中。執行乘法運算時,結果會傳遞到下一個乘積累加器,輸出是數據和參數之間的乘積總和,在矩陣乘法過程中,不需要訪問內存。計算完成后,TPU 會將結果加載到饋出隊列中。然后,TPU 主機從饋出隊列讀取結果并將其存儲在主機的內存中。圖圖15:TPU 從從 HBM 內存加載參數到矩陣乘法單元內存加載參數到矩陣乘法單元(MXU)數據來源:谷歌云 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 11 of 41 圖圖16:TPU 從內存加載數據從內存加
44、載數據,每次執行乘法運算時,每次執行乘法運算時,結果會傳遞到下一個乘積累加器,輸出是數據和參數之間結果會傳遞到下一個乘積累加器,輸出是數據和參數之間的乘積總和的乘積總和 數據來源:谷歌云 3.1.3.創新引入創新引入 3D torus 架構和光交換機,增強拓展性與互聯效率架構和光交換機,增強拓展性與互聯效率 TPU v4 和和 TPUv5p 算力集群均采用算力集群均采用 3D torus 架構和光交換機(架構和光交換機(Optical Circuit Switch,OCS),提供高速的網絡連接),提供高速的網絡連接。以 TPUv4 為例,每 64 顆 TPU v4 芯片組成 4x4x4 的立方
45、體,4 顆 TPU v4 搭配一顆 CPU,64 顆 TPUv4 和16 顆 CPU 可放入一個機架(rack),選擇每 64 顆 TPUv4 芯片作為一個 43的模塊(block)。一個模塊包含 6 個“面”的光路連接,每面有 16 條光路連接,單個模塊共96 條光路連接至 OCS。相對面的每對連接必須通過同一個 OCS 實現相連,每個模塊連接 48 個 OCS,整個超算中心基于 OCS 可以實現 4096 個 TPU v4 芯片的互聯。圖圖17:TPUv4 模塊通過模塊通過 6 個面進行連接個面進行連接 圖圖18:TPU 立方體通過立方體通過 OCS 相連相連 數據來源:TPU v4:An
46、 Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 數據來源:TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings TPUv4 算力集群的物理架構:算力集群的物理架構:一個 PCB 板包含 4 個 TPU v4,通過 ICI 鏈路連接到其他托架(tray),16 個托架共同放入一個機柜,形成 4
47、x4x4 的 3D模塊結構。64 個機柜共同組成 4096 顆芯片規模的算力集群。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 12 of 41 圖圖19:1 個個 TPU v4 package(左),一個(左),一個 PCB 包含包含 4 個個 TPU v4(右)(右)數據來源:TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 圖圖20:4096 個個 TPUv4 組成的集群中的組成的集群中的 8 個機柜(
48、共個機柜(共 64 個機柜)個機柜)數據來源:TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 谷歌創新使用谷歌創新使用 OCS,其具備吞吐量利用率高、成本低、功耗低等優勢。,其具備吞吐量利用率高、成本低、功耗低等優勢。在主機可靠性為 99%和 1000 片 TPU 的情況下,使用 OCS 的吞吐量利用率達 50%,而不使用 OCS 的吞吐量利用率近似于 0。由于 OCS 交換機直接交換光信號,減少了光電轉換過程中的功耗損失,OCS
49、 功耗在整體系統中占比不足 3%。同時,OCS 還具備顯著的成本優勢,在 TPU v4 算力集群資本開支占比不到 5%。圖圖21:使用使用 OCS 可以大幅提升吞吐量利用率可以大幅提升吞吐量利用率 數據來源:TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 考慮到 TPUv4 和 A100 均在 2020 年進入部署階段,且均使用 7nm 工藝制造,A100 與與 TPU v4 更可比,雖然更可比,雖然 TPUv4 單顆芯片算力僅為
50、單顆芯片算力僅為 A100 的的 88%(BF16 精度下),但精度下),但 TPU v4 算力利用率高,其算力集群在實測性能、成算力利用率高,其算力集群在實測性能、成本、功耗等方面均具備顯著優勢本、功耗等方面均具備顯著優勢。谷歌系統和服務基礎設施副總裁 Amin Vahdat 表示,平均而言,TPUv4 集群在 MLPerf 測試中的表現比 Nvidia 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 13 of 41 A100s 高出 40%。在成本上,4096 顆 TPU v4 芯片和同規模的 A100 芯片相比,可以節約 35-50%左右的成本。功耗方面,MLPe
51、rf 測試結果顯示,在各自由 64 顆芯片組成的集群中,A100 的功耗是 TPU v4 的 1.3 倍至 1.9 倍。圖圖22:TPUv4 pod 與同等規模與同等規模 A100 的訓練效率對比的訓練效率對比 圖圖23:4096 個個 TPUv4 pod 和和 A100 的訓練成本對比的訓練成本對比 數據來源:新智元 數據來源:新智元 隨著隨著 TPU 持續迭代,算力成本持續下降。持續迭代,算力成本持續下降。TPUv5e 的相對性能(TFLOPs/$)是 TPUv4 的 2.3 倍,參考谷歌披露的 TPU v4 公開標價 3.22 美元/芯片/小時,TPU v5e 的標價為 1.2 美元/芯
52、片/小時,TPU v5e 可以以更低的成本實現更高的算力。圖圖24:TPUv5e 的相對性能(的相對性能(TFLOPs/$)是)是 TPUv4 的的 2.3 倍(倍(TPU v4 公開公開標價為標價為 3.22 美元美元/芯片芯片/小時,小時,TPU v5e 的標價為的標價為 1.2 美元美元/芯片芯片/小時)小時)數據來源:谷歌 最新一代最新一代 TPUv6 Trillium 預計預計 2024 年下半年推出交付,年下半年推出交付,從 FP16/BF16 精度來看,谷歌 TPUv6e 可以達到 926TFLOPS,約為 H100、B100 的 93%、53%(非稀疏算力口徑)。相比第五代 T
53、PU,TPU v6 節能 67%。3.1.4.提供提供 Mulislice Training 全棧服務,支持大模型高效訓練全棧服務,支持大模型高效訓練 在在 TPU 上運行的代碼必須由加速器線性代數上運行的代碼必須由加速器線性代數(XLA)編譯編譯。XLA 是即時的編譯器,接受機器學習框架應用發出的圖,以及將圖的線性代數、損失和梯度分量編譯為 TPU 機器代碼。它可以加速 TensorFlow、PyTorch 等框架的運行速度,而且可能完全不需要更改源代碼。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 14 of 41 谷歌提供谷歌提供 Cloud TPU Multis
54、lice Training 全棧服務,提升了集群的拓展性和全棧服務,提升了集群的拓展性和訓練效率。訓練效率。支持用戶將 AI 模型訓練拓展到物理 TPUPod 邊界之外,TPUv5e可拓展至 5 萬卡集群,同時保持高效的訓練性能,以訓練一個 32B 參數的密集LLM模型為例,TPUv5e集群可達53%的MFU(Model FLOPS Utilization,模型算力利用率)。圖圖25:谷歌可基于谷歌可基于JAX和和PyTorch框架提供框架提供Cloud TPU Multislice Training全棧服務,底層硬件支持全棧服務,底層硬件支持 TPU v4 和和 TPU v5e 數據來源:谷
55、歌 圖圖26:借助借助 Multislice Training 全棧技術,全棧技術,TPUv5e 可拓展至可拓展至 5 萬卡集群,萬卡集群,且保持線性加速且保持線性加速 數據來源:谷歌 3.2.Meta MTIA 3.2.1.MTIA 快速迭代,目前主要用于快速迭代,目前主要用于 AI 推理推理 2023 年年 5 月,月,Meta 推出第一代推出第一代 AI 推理芯片推理芯片 MTIA v1(Meta Training and Inference Accelerator),用于支持 Meta 的深度學習推薦模型,該模型是Facebook,Instagram,WhatsApp,Meta Que
56、st,Horizon Worlds,and Ray-Ban Stories 業務的重要基礎。MTIA v1 芯片采用臺積電 7nm 制程,Meta 研究顯示,對于低復雜度的深度學習模型,MTIA 的運行效率(TFLOPS/W)優于GPU,而對于中高復雜度的模型,GPU 的效率更佳,公司表示正在持續優海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 15 of 41 化 MTIA 的軟件堆棧,預計未來將實現類似的效率水平。2024 年年 4 月,月,MTIA v2 發布,用于發布,用于 AI 推理,旨在增強推理,旨在增強 Meta 的排名和推薦的排名和推薦廣告模型。廣告模型。
57、MTIAv2 采用臺積電 5nm 制程,與上一代相比,計算和內存帶寬翻倍提升,INT8 下的稠密算力接近上一代的 3.5 倍,稀疏算力達到上一代的近 7 倍,達到 708TFLOPS。目前已有 16 個數據中心使用了新款芯片,Meta 預計未來幾年內對 MTIA 芯片的投入將會不斷增長。Meta 的算力需求持續增長,目前的算力需求持續增長,目前 AI 訓練任務主要依賴訓練任務主要依賴 GPU 算力集群。算力集群。Meta 有兩個 24576 顆 GPU 組成的數據中心,支撐了大模型 Llama 3 等 AI領域的研究。到 2024 年末,Meta 預計將擁有等效 60 萬片 H100 的算力,
58、對應百億美金以上的資本開支。據扎克伯格預計,Llama 4 的計算能力是Llama 3 的 10 倍(Llama 3 405B 參數大模型在 1.6 萬顆 H100 80GB 的集群上訓練,花費 45 天),2025 年公司在 AI 方向的資本開支將繼續增長。表表4:MTIA v1 和和 MTIA v2 性能梳理性能梳理 MTIA v1 MTIA v2 TDP 25W 90W Host Connection 8x PCle Gen4(16 GB/s)8x PCle Gen5(32 GB/s)GEMM TOPS INT8 102.4 TFLOPS/s 354 TFLOPS/s;708 TFLOP
59、S/s(sparsity)FP16/BF16 51.2 TFLOPS/S 177 TFLOPS/s;354 TFLOPS/S(sparsity)Memory capacity Local memory:128 KB per PE 384 KB per PE On-chip memory:128 MB 256 MB Off-chip LPDDR5:64 GB 128 GB Memory Bandwidth Local memory:400 GB/s per PE 1 TB/s per PE On-chip memory:800 GB/s 2.7 TB/s Off-chip LPDDR5:176
60、GB/s 204.8 GB/s 數據來源:Meta 相比相比 A100,MTIA v2 計算能力約計算能力約 A100 的一半,但其算力利用率更高,功的一半,但其算力利用率更高,功耗節約、成本方面具備明顯的優勢。耗節約、成本方面具備明顯的優勢。MTIA v2 在 INT8 精度下的 GEMM 計算能力為 354 TFLOPS,約為 A100 的 57%,其功耗也遠低于 A100,MTIA v2 的設計功耗是 90w,而 A100 的最大功耗達 250w(PCIe 版)。MTIA v2的價格預計在 2000-3000 美金,顯著低于 A100 芯片約 1 萬美金的價格。MTIA v2 芯片對低復
61、雜度和高復雜度的排名推薦模型均適用。由于 Meta 對整個軟件堆棧的掌握程度高,實際運行中,可以實現比 GPU 更高的效率。3.2.2.MTIA 旨在尋求計算、內存帶寬的平衡旨在尋求計算、內存帶寬的平衡 梳理近年的計算系統可以發現,存儲和通信帶寬提升速度慢于計算性能,影響了工作負載的表現。當前工作負載運行很大一部分時間都被網絡通信占據,因此,Meta 希望尋求計算能力、存儲帶寬和通信帶寬三個維度的平衡,希望尋求計算能力、存儲帶寬和通信帶寬三個維度的平衡,以實現最優的性能表現。以實現最優的性能表現。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 16 of 41 圖圖27:
62、存儲和通信帶寬提升速度慢于計算性能存儲和通信帶寬提升速度慢于計算性能 數據來源:Meta 從芯片架構來看,MTIA v2 內部包含加速器、片上和片外存儲以及互聯結構組成。加速器由 8x8 的處理單元網格(PE,processing element)組成,PE彼此互聯,可以作為一個整體運行任務,也可以獨立處理任務。圖圖28:MTIA v2 芯片架構芯片架構 數據來源:Meta 與其他芯片相比,與其他芯片相比,MTIA v2 有更大的片上內存和片外內存容量,有助于降有更大的片上內存和片外內存容量,有助于降低時延,提升性能低時延,提升性能。MTIA v2 使用 LPDDR5 存儲,其內存容量為 12
63、8GB,帶寬為204.8GB/s。片上內存SRAM容量高達256MB,SRAM帶寬為2.7TB/s,每個 PE 內存容量為 384KB,PE 帶寬為 1 TB/s。而 A100 的 L2 緩存容量為40MB,每個 SM 的內存容量為 192KB,遠低于 MTIA v2 的片上內存。3.2.3.MTIA v2 單機架容納單機架容納 72 顆芯片,機架間采用以太網通信顆芯片,機架間采用以太網通信 Meta 打造大型機架式系統,最多可容納 72 個 MTIA v2 芯片。一塊板包含2 顆 MTIA v2 芯片,12 塊板放在一個機箱里,3 個機箱組成一個機架系統。一塊板上的兩顆 MTIA v2 芯片
64、共享一個 PCIe 5.0 x16 連接器,用于加速器之間以及主機和加速器之間的互聯,芯片互聯的雙向帶寬達 64GB/s,機架外的通信可采用以太網的 RDMA 網卡。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 17 of 41 圖圖29:一塊板上包含一塊板上包含 2 顆顆 MTIA v2 芯片,每顆芯片附芯片,每顆芯片附近有近有 4 顆顆 32GB 容量的容量的 LPDDR5 存儲芯片存儲芯片 圖圖30:每個機箱包含每個機箱包含 12 顆顆 MTIA v2 芯片,一個機柜包芯片,一個機柜包含含 3 個機箱個機箱 數據來源:meta 數據來源:meta 3.2.4.MT
65、IA 具備完整軟件生態,與具備完整軟件生態,與 PyTorch 完全集成完全集成 MTIA 軟件堆棧與軟件堆棧與 PyTorch 完全集成,致力于提高開發者編程效率。完全集成,致力于提高開發者編程效率。MTIA v2 軟件堆棧與 PyTorch 2.0、TorchDynamo、TorchInductor 完全集成,MTIA v2 的低級編譯器從前端獲取輸出,生成高效且特定于設備的代碼。下方是運行時堆棧,負責與驅動程序/固件接口,最后,運行時與驅動程序交互。Meta 創建了 Triton-MTIA 編譯器后端為芯片硬件生成高性能代碼,Triton 用于編寫 ML 計算內核,極大提高了開發人員效率
66、。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 18 of 41 圖圖31:MTIA v2 軟件堆棧軟件堆棧 數據來源:澎湃新聞 3.3.微軟微軟 Maia 3.3.1.微軟微軟 AI 芯片起步較慢,但有多年的技術積累芯片起步較慢,但有多年的技術積累 微軟于微軟于 2023 年年 11 月舉行的月舉行的 Ignite 開發者大會上,發布了微軟兩款自研芯開發者大會上,發布了微軟兩款自研芯片,云端片,云端 AI 芯片芯片 Azure Maia 100 和服務器和服務器 CPU Azure Cobalt 100。雖然Maia 100 是微軟在 AI 訓練和推理領域定制芯片的初
67、次嘗試,起步晚于谷歌、亞馬遜等大型云廠商,但微軟在芯片研發方面擁有較為豐富的經驗。微軟曾經開發過定制 CPU E2,專為多任務處理和高性能計算設計,此外微軟第一代 AI 自研芯片的性能指標也較為領先,未來有望成為云廠商 ASIC 領域重要玩家。微軟多年來已經發展了完善的軟件配套設施,隨著芯片研發的順利推進,為微軟數據中心的基礎設施建設補足硬件配套的不足。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 19 of 41 圖圖32:Azure Maia 100 數據來源:微軟 Ignite 大會 3.3.2.Maia 100 算力性能領先,片內外內存存在一定不平衡算力性能領先
68、,片內外內存存在一定不平衡 Maia 100 是使用臺積電先進封裝技術在是使用臺積電先進封裝技術在 5nm 節點上制造的最大處理器之節點上制造的最大處理器之一,擁有一,擁有 1050 億顆晶體管。億顆晶體管。Maia 100 是微軟針對人工智能任務和生成式 AI進行優化而設計的處理器,目前已在 Bing 和 Office 上進行了測試,Open AI也在用該芯片進行測試。Maia 100 的算力指標出色,接近的算力指標出色,接近 H100。據 Semianalysis 分析,Maia 100 在MXFP4 數據格式下的性能達到 3200 TFLOPS,MXInt8 下達到 1600 TFLOP
69、S,BF16 下達 800TFLOPS(H100 為 1000TFLOPS),在計算能力方面的競爭有一席之地。Maia 的片外內存相對較低,片上內存有明顯優勢。的片外內存相對較低,片上內存有明顯優勢。Maia 擁有 448MB 的 L2緩存區和 140MB 的 L1 緩存區,而 Nvidia H100 只配置了 50MB 的 L2 緩存。微軟在 Maia 芯片上采用了 4 個 HBM 堆棧,不同于 Nvidia(6 個)、AMD(8 個),整體最高提供了 64GB 的 HBM 容量。但在內存帶寬方面,Maia 100采用的是1.6 TB/s的內存帶寬,相較于亞馬遜Trainium、Infere
70、ntia,谷歌 TPU 沒有太大優勢,甚至處于落后地位。據 Semianalysis 分析,因為Maia 芯片在 LLM 熱潮發生前設計,Maia 100 在片上內存和片外內存方面存在一定的不平衡。表表5:Maia 100 性能性能 OCP MXFP4 OCP MXInt8 BF16 Matrix BF16 SIMD L1 Cache L2 Cache HBM 3 Capacity Memeroy Bandwidth 3200 TFLOPS 1600 TFLOPS 800 TFLOPS 49 TFLOPS 140 MB 448 MB 64GB 1600 GB/s Backend Network
71、 Unidirectional IO Bandwidth SerDes Speed PCIe TDP Node Transistor Count Die Size 600 GB/s 4800 Gbps 112 G Gen 5*8 860W TSMC N5 105 Billion 820mm2 數據來源:Semianalysis,國泰君安證券研究 3.3.3.Ares 機架由機架由 32 顆顆 Maia 100 組成,配置液冷系統組成,配置液冷系統 微軟為微軟為 Maia 100 芯片量身打造了機架,名為芯片量身打造了機架,名為 Ares,配備,配備 32 顆顆 Maia 100 芯芯片。片。A
72、res 機架的功率可達 40kw,一個機架中搭載了 8 臺服務器,每臺服務器中含有 4 個 Maia 100 芯片。因此一個機架中總共有 32 枚 Maia 100 芯片。在 Ares 機架中,微軟配置了 Sidekick 液體冷卻系統。在機架兩側設置副設備,冷液從副設備流向 Maia 100 表面的冷板,副設備吸取液體中熱量后再將冷液輸出,以此構建循環。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 20 of 41 圖圖33:Ares 機架機架 圖圖34:Maia 100 拓撲圖拓撲圖 數據來源:Microsoft 數據來源:Zartbot 3.3.4.Maia 芯片
73、內置芯片內置 RMDA 以太網以太網 IO,集群配置,集群配置 25.6T 交換機交換機 微軟對微軟對 Maia 芯片的網絡連接部分做了較大的創新,每個芯片中內置高帶芯片的網絡連接部分做了較大的創新,每個芯片中內置高帶寬的寬的 RDMA 以太網以太網 IO,優化了數據傳輸過程。,優化了數據傳輸過程。Maia 100 配置了 4.8 Tb/s 的以太網 IO,相比英偉達并不遜色,能夠滿足跨機器分布推理的極大需求。同時 Maia 100 將 PCIe 通道減少至 8 個,最大程度擴大 112G SerDes 的區域。Ares 機架內部配備了 3 臺交換機,交換機主要由思科和 Arista 供應。從
74、推測的拓撲圖來看,在 Y 方向上,每片 Maia 100 通過 400Gb/s 的帶寬連接到3 臺交換機,每臺服務器由 4 片 Maia 100 構成,總共集成 4.8T/s 的帶寬連接到每臺交換機。交換機上行進行機柜間 Scale-Out 連接,每個機柜每個平面有 32 個 400Gb 接口,根據 TOR 上下收斂比 1:1,可以推測出每臺交換機的吞吐量為 25.6T。在 X 方向上,按照 X00X10 進行傳輸,在 X 方向上形成了環形互連。單個 Maia 100 芯片提供了高達 4.8T 的帶寬,每個服務器內的 4 顆 Maia 100 芯片通過 Mesh 連接,實現了 1.2T 的片間
75、互連。3.3.5.微軟軟件生態開發成熟度高,構建微軟軟件生態開發成熟度高,構建 Triton 開源平臺開源平臺 微軟在軟件生態方面的開發成熟度較高,自研芯片如何和軟件生態高效配微軟在軟件生態方面的開發成熟度較高,自研芯片如何和軟件生態高效配合、發揮更高效率是發展的目標。合、發揮更高效率是發展的目標。為了開發者在 Azure 上更高效的實現模型的開發,微軟為 Maia 100 提供軟件配套,集成 Pytorch、ONNX Runtime等流行開源框架。該軟件棧提供了豐富的編譯器、庫和工具。微軟和 OpenAI 合作構建了一個基于 Python 的互操作性層,名為 Triton。Triton 通過
76、抽象底層硬件來簡化內核創作,使得在不同 GPU 之間的轉換更加高效,無需對代碼進行大量改寫或者構建自定義內核,賦予開發者更多的靈活性,同時不會犧牲模型的工作負載能力。3.4.亞馬遜亞馬遜 Trainium 3.4.1.亞馬遜在公有云市場布局廣闊,自研芯片涉獵較早亞馬遜在公有云市場布局廣闊,自研芯片涉獵較早 Amazon Web Services(AWS)是快速發展的云服務巨頭,AWS 為亞馬遜貢獻了 907.5 億美元的營收,根據 2023 年 10 月 Synergy Research 的調查顯示,全球公有云 IaaS 市場,亞馬遜 AWS 的市場份額達到 32%(谷歌云 Google Cl
77、oud 11%,微軟 Azure 23%),處于領先地位。亞馬遜較早嘗試自研芯片降低成本,目前,亞馬遜具有亞馬遜較早嘗試自研芯片降低成本,目前,亞馬遜具有 3 條自研芯片的產條自研芯片的產品線:品線:Nitro、Graviton 和和 AI 芯片。芯片。2013 年,亞馬遜推出首顆 Nitro 1 芯片海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 21 of 41(DPU),這是其在自研芯片領域的初次嘗試,為亞馬遜的云服務網絡架構提供了底層的網絡支持。2015 年,亞馬遜收購了為其長期設計芯片的Annapurna 實驗室,于 2016 年發布了自研芯片 Graviton
78、,這是一款基于 Arm架構的服務器 CPU 芯片,從這之后亞馬遜保持每兩年對芯片進行迭代更新的速率。據亞馬遜估計,客戶使用最新一代的 Graviton 4 可將 IT 費用減少一半。伯恩斯坦的一份報告顯示,目前全球近 10%的服務器基于 Arm 處理器,其中,AWS 占據了全球超過一半的 Arm 服務器 CPU 市場。AWS 在在 AI 芯片的布局主要包含推理芯片芯片的布局主要包含推理芯片 Inferentia 和訓練芯片和訓練芯片 Trainium兩大系列。兩大系列。亞馬遜在 2018 年推出 AWS 第一款 AI 推理芯片 Inferentia,2022年對其進行了升級迭代。2020 年,
79、在 AWS re:Invent 開發者大會上,AWS 發布其第二款機器學習芯片,Trainium,用于機器學習訓練。2023 年開發者大會上,AWS 對其 Trainium 系列芯片進行升級,發布 Trainium 2,相比上一代性能提升 4 倍。圖圖35:AWS 自研芯片產品自研芯片產品 數據來源:AWS 3.4.2.Trainium 系列主要用于訓練場景,已進化至第二代系列主要用于訓練場景,已進化至第二代 在在 2020 年年 AWS re:Invent 開發者大會上,開發者大會上,AWS 發布了第一款發布了第一款 Trainium 芯芯片,主要用于機器學習的訓練。片,主要用于機器學習的訓
80、練。Trainium 針對自然語言處理、計算機視覺和推薦器模型進行了優化,這些模型將用于文本摘要、代碼生成、問題解答、圖像和視頻生成、推薦和欺詐檢測等各種應用程序。Trainium 主要用于 AWS的云服務器 EC2 中。每顆每顆 Trainium1 芯片包含兩個芯片包含兩個 NeuroCore-v2。Trainium 架構是在 Inferentia的基礎上的改進,Trainium 1 芯片中內含 2 個 NeuronCore,NeuronCore-v2中每個核心中的標量、矢量和張量引擎數量比上一代增加了一倍。另外,NeuronCore-v2 引入了一個名為 GPSIMD-Engine 的新引
81、擎,由 8 個完全可以編程的 512 位寬矢量處理器組成,可以直接使用 C 和 C+進行尋址,并訪問嵌入式片上 SRAM 內存。Trainium 1 配置了 32 GB 的 HBM 堆疊 DRAM,帶寬為 820GiB/秒,用于提升設備整體帶寬,極大程度提高數據傳輸速率。在互連端,AWS 在 Trainium 1 中采用了 PCI-Express 5.0 標準的外形尺寸和 I/O 插槽,并配置了 4 條 NeuronLink 互連鏈路,是上一代芯片的 2 倍,總共能提供高達 768 GB/s 的帶寬。NeuronLink-v2 是 AWS 推出的最新一代芯片間互連技術,單條鏈路提供 96GiB
82、/秒的帶寬,可實現高效的橫向擴展分布式推理。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 22 of 41 圖圖36:Inferentia 1 架構圖架構圖 圖圖37:Trainium 1 架構圖架構圖 數據來源:AWS 數據來源:AWS Trainium 1 可以達到 380 INT8 TOPS,190 FP16/BF16 TFLOPS 和 47.5 FP32 TFLOPS。此外,Trainium 1 提供 1TB/秒的 DMA 帶寬,具有內聯內存壓縮和解壓縮的功能。2023 年,年,AWS 發布了為高性能訓練發布了為高性能訓練 FM 和和 LLM 設計的設計的 Tr
83、ainium 2,和第和第一代一代 Trainium 1 相比,性能提升了相比,性能提升了 4 倍倍,內存容量擴充內存容量擴充 3 倍倍,同時將能效提同時將能效提高高 2 倍。倍。圖圖38:Trainium 2 封裝圖封裝圖 數據來源:AWS 根據 Trainium 2 芯片封裝圖推斷,Trainium 2 為 2 個 Trainium 1 芯片通過某種高速互連的方式相互連接,在計算元素、網絡連接等層面上相較于Trainium 1 沒有根本改變,但在性能方面有了顯著提升,擁有更多的內核和內存帶寬。據 The Next Platform 報道,Trainium 2 將采用 4nm 工藝,內含11
84、50 億顆晶體管,相當于 Trainium 1 的 3 倍。表表6:Trainium 1&2 性能性能 Core Type Transistors Total NeuroCores Total NeuronLink Bandwidth INT8 Teraflops FP16/BF16/TF32/cFP8 Teraflops HBM Memery Bandwidth Trainium 1 NeuroCore-v2 55B 32 768 GB/sec 380 190 820GB/sec Trainium 2 NeuroCore-v2 115B 64 2043 GB/sec 861 431 4 TB
85、/sec 數據來源:Semianalysis,The Next Platform,國泰君安證券研究 3.4.3.16 片片 Trainium 芯片構成芯片構成 Trn 實例,可拓展至萬片集群實例,可拓展至萬片集群 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 23 of 41 亞馬遜通過彈性計算云服務 EC(Amazon Elastic Compute Cloud)為客戶提供計算服務,允許客戶按需擴展計算資源。EC2 Trn1/Trn1n 實例由實例由 16 臺臺Trainium 構成,可以使用構成,可以使用 Trn1 實例在廣泛的應用程序中訓練實例在廣泛的應用程序中訓
86、練 1000 億以上億以上的參數的深度學習訓練。的參數的深度學習訓練。Trn1 主打高效能,低成本。Trn1 可將訓練時間大幅度縮短,從數月縮短至數周甚至數天。據亞馬遜公布的數據顯示,在對深度學習模型進行訓練時,Trn1 實例比 Nvidia A100 芯片支持的 P4d 實例訓練速度高 50%,成本比 P4d 實例低 40%。相比 Trn1,Trn1n 的 EFA 帶寬翻倍至 1600Gbps,在網絡密集型模型訓練上效率更高。EFA(Elastic Fabric Adapter)是 AWS 針對機器學習和高性能計算開發的網絡適配器。EFAv2 和第一代 EFA 相比,將集體通信性能提升 50
87、%,從而達到加快分布式訓練的目的。為實現高效的數據和模型并行性,每個Trn1 實例都有 512G 共享加速器內存 HBM。圖圖39:Trainium 實例性能實例性能 數據來源:AWS 在 Trn1 芯片互連中,Trn1 實例支持最高達 768Gb/秒的 NeuronLink-v2,這是亞馬遜自主研發的網絡互連技術,適用于高吞吐量低延遲的應用場景。16個 Trainium 芯片通過 NeuronLink-v2 以 2D 環形拓撲在 Trn1/Trn1n 服務器中相連,使得大規模設備訓練更加高效。Trn1/Trn1n 實例能部署在更大規模的 EC2 UltraCluster 中,讓客戶能夠將Tr
88、n1/Trn1n 實例拓展到 30000 個 Trainium 芯片,將芯片與 EFA 網絡互連,能夠提供 6 exaflops 的計算性能,并讓客戶按照需求訪問超級計算機性能。在此規模下,客戶可在數周內訓練 3000 億個參數的 LLM。AWS 將在將在 2024 下半年推出下半年推出 Trainium 2 芯片部署的芯片部署的 Trn 2 實例,實例,AWS 宣稱宣稱將將 Trainium 2 芯片拓展至芯片拓展至 10 萬個,提供萬個,提供 65 exaflops 的計算性能,將有可的計算性能,將有可能成為世界上最大的人工智能計算集群。能成為世界上最大的人工智能計算集群。海外專題研究海外
89、專題研究(美國美國)請務必閱讀正文之后的免責條款部分 24 of 41 圖圖40:Trn1/Trn1n 服務器連接服務器連接 圖圖41:Trn1/Trn1n 部署至部署至 UltraCluster 數據來源:AWS 數據來源:AWS 3.4.4.AWS 構建三層人工智能堆棧結構,提供構建三層人工智能堆棧結構,提供 SDK 等開發工具等開發工具 Neuron SDK 是基于 Tranium 和 Inferentia 實例上運行深度學習上工作負載的開發工具包,包含深度學習編譯器、運行時和原生集成到 TensorFlow 和Pytorch 中的工具。開發者可以輕松將基于 GPU 的實例遷移到 AWS
90、 Tranium中,無需對代碼進行底層的修改。機器學習復雜性要求其在大規模集群上拓展其模型,客戶只要少量修改代碼即可實現大規模的海量數據訓練,大大降低了訓練成本。AWS 為拓展自研芯片的適用場景,降低對為拓展自研芯片的適用場景,降低對 Nvidia GPU+CUDA 的依賴程的依賴程度,采取軟硬結合的方式多維度打造度,采取軟硬結合的方式多維度打造 AWS 云服務。云服務。AWS 在 2023 re:Invent大會上,展示其三層生成式人工智能堆棧結構。處于最底層的是訓練基礎模型和推理基礎設施,除 AWS 在自研芯片的技術積累外,SageMaker 在 AWS訓練和推理的基礎設施中發揮不可估量的
91、作用。SageMaker 是 AWS 提供的一項服務于機器學習的開發框架,方便開發者完成模型的訓練和推理等工作。處于中間層的是 Amazon Bedrock,是一項托管服務,允許客戶在 AWS上構建和部署可擴展的應用程序和服務。最頂層的是亞馬遜生成式人工智能助手 Amazon Q,處于直接應用層,幫助客戶更好進行軟件開發和數據分析。AWS 的人工智能芯片和 Nvidia 仍然存在一定的兼容性差距,未來亞馬遜將大力支持更多的開源模型,目前已和開源人工智能平臺 Hugging Face 達成深度合作,目標是 AWS 人工智能芯片更加具有兼容性,提升其市場份額。海外專題研究海外專題研究(美國美國)請
92、務必閱讀正文之后的免責條款部分 25 of 41 圖圖42:AWS 生成式人工智能堆棧生成式人工智能堆棧 數據來源:AWS 圖圖43:Microsoft 開發開發 數據來源:Microsoft 3.5.特斯拉特斯拉 Dojo 3.5.1.特斯拉自研特斯拉自研 Dojo 計算平臺,用于訓練自動駕駛計算平臺,用于訓練自動駕駛 AI 模型模型 Dojo 于于 2019 年發布,是特斯拉自研的超級計算機平臺,用于訓練其自動駕年發布,是特斯拉自研的超級計算機平臺,用于訓練其自動駕駛系統的人工智能模型。駛系統的人工智能模型。特斯拉在設計和生產過程中與合作伙伴臺積電進行了合作,dojo 平臺的核心組件是 D
93、1 芯片,是由臺積電代工的定制專用集成電路(ASIC),采用 7 納米制程和先進封裝技術。Dojo 可以有效訓練全自動駕駛技術 FSD,使其獲得更多的學習經驗,推動機器人出租車和網絡服務加快應用。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 26 of 41 圖圖44:特斯拉特斯拉 Dojo 概覽圖概覽圖 數據來源:Multiplateform.ai 特斯拉預計特斯拉預計 2024 年年底前投資超過年年底前投資超過 10 億美元來開發自己的超級計算機億美元來開發自己的超級計算機Dojo。在 24 年 Q2 財報電話會議上宣布,馬斯克宣布將繼續加倍投入 Dojo的開發和部
94、署,并將在今年年底前啟動并運行 Dojo D1,它將擁有它將擁有 8,000 顆顆英偉達英偉達 H100 芯片的處理能力。芯片的處理能力。Dojo 處理器已經投入量產。在量產前,特斯拉已有基于英偉達 GPU 的大型超算,但是特斯拉需要每年為英偉達支付數億美金的使用費,隨著 Dojo 的量產和投入使用,其可以在未來幾年為特斯拉節省大額的成本。3.5.2.采用近存計算架構,單訓練板功耗高達采用近存計算架構,單訓練板功耗高達 15kw 整體架構上,整體架構上,Dojo 分成 6 個層級:內核、芯片、瓦片、模組,機柜,超算機群。1 個 D1 芯片上有 354 個核心。25 個 D1 組成一個訓練板(t
95、raining tile),6 個訓練板組成一個訓練矩陣(Training Matrix),2 個訓練矩陣構成1 個機柜,10 個機柜構成 1 個超算機群。D1 單芯片單芯片 FP32 性能性能達達 22TFLOPS,矩陣計算單元,矩陣計算單元提供了提供了 Dojo 主要的算主要的算力。力。特斯拉矩陣計算單元相應的專利如下圖。該模塊關鍵部件是一個 8x8矩陣-矩陣乘法單元(Matrix Computational Unit)。輸入為數據輸入陣列和權重輸入陣列,計算矩陣乘法后直接在輸出進行累加。每個 Dojo 核心包括 4路 8x8 矩陣乘法單元。海外專題研究海外專題研究(美國美國)請務必閱讀正
96、文之后的免責條款部分 27 of 41 圖圖45:Dojo 矩陣計算單元矩陣計算單元 數據來源:電子工程專輯 包含包含 25 顆顆 D1 芯片的芯片的 Dojo 訓練板訓練板設計成“三明治式”結構,實現了計算、設計成“三明治式”結構,實現了計算、存儲、供電和通信無縫集成。存儲、供電和通信無縫集成。每個訓練板都配置了 11GB 的片上跨內核SRAM,這是一種近存計算架構,相應的耗電量也高達 15kw,采用液冷封裝,能效比為 0.6TFLOPS/W(BF16/CFP8)。Dojo 采用采用 InFO_SoW 封裝,封裝,這種封裝技術不需要額外 PCB 載板,就能將相關芯片集成散熱模塊,加速生產流程
97、。圖圖46:Dojo D1 芯片性能指標芯片性能指標 圖圖47:特斯拉訓練板結構圖特斯拉訓練板結構圖 數據來源:特斯拉 數據來源:特斯拉 在高密度的計算芯片環境下,特斯拉面臨較大的電力傳輸和散熱問題考驗。在高密度的計算芯片環境下,特斯拉面臨較大的電力傳輸和散熱問題考驗。單顆單顆 D1 芯片的熱設計功率芯片的熱設計功率(TDP)為為 400 W,一個訓練板的功耗高達,一個訓練板的功耗高達 15千瓦。千瓦。在電力方面,特斯拉在 Dojo POD 上使用了全自研的 VRM(電壓調節模組),單個 VRM 可在不足 25 美分硬幣面積的電路上,提供 52V 電壓和超過 1000A 巨大電流,電流目的為
98、0.86A 每平方毫米,共計 12 個獨立供電相位。特斯拉的電源調節模塊和液冷板采取與芯片本身垂直的立體結構,極大的減少了對處理器平面的面積占用,盡可能減少計算芯片間的距離。特斯拉的 V1 訓練矩陣包含 150 個 D1 芯片(6 個訓練板),4 個主機 CPU,每個主機裝有 5 張 DIP 卡,這是一種 PCIe 卡,每個 DIP 含有 32GB HBM(800GB/s 存儲帶寬),支持特斯拉傳輸協議 TTP,提供超高的 TTP 帶寬和以太網帶寬。訓練板通過 DIP 連接至交換機。在 BF16 和 CFP8 精度下,V1訓練矩陣算力可達 1Exaflop。海外專題研究海外專題研究(美國美國)
99、請務必閱讀正文之后的免責條款部分 28 of 41 圖圖48:特斯拉特斯拉 V1 Dojo 訓練矩陣訓練矩陣(V1 Dojo Training Matrix)數據來源:CSDN 一個 Dojo POD 機柜由兩層、12 個訓練板組成,可提供 108PFLOPS 算力。多機柜可以拓展至一組 ExaPOD,包含 3000 顆 D1 芯片(120 個訓練板)。圖圖49:Dojo POD 機柜機柜 數據來源:半導體產業鏈縱橫 3.5.3.自研自研 TTP 通信協議,提供高帶寬低時延連接通信協議,提供高帶寬低時延連接 Dojo 采用采用 TTP 專有通信協議,提供高帶寬芯片間通信。專有通信協議,提供高帶
100、寬芯片間通信。特斯拉為 Dojo 芯片設計了 TTP 作為通信協議,這是一種基于 PCIe 的專有協議,旨在提供高帶寬和低延遲的數據傳輸,D1 芯片間通信帶寬高達 900GB/s.TTP 支持支持橋接到標準以太網,橋接到標準以太網,降低通信時延。降低通信時延。TTP TTPOE 可將標準以太網轉換至 Z 平面拓撲,降低了垂直延遲,大幅降低網絡跳數,以 50GB/s 在以太網上運行。低延遲特性使得 Dojo 芯片在處理復雜計算任務時能夠迅速響應,提高了整體的系統性能。另外每個訓練模塊外部邊緣的 40 個 I/O 芯片達到了 36 TB/s 的聚合帶寬,或者 10TB/s 的橫跨帶寬。每層訓練模塊
101、都連接著超高速存儲系統:640GB 運行內存可以提供超過 18TB/s 的帶寬,另外還有超過 1TB/s 的網絡交換帶寬。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 29 of 41 圖圖50:特斯拉自研特斯拉自研 TTP 協議,接口卡還可以橋接到標準以太網(協議,接口卡還可以橋接到標準以太網(TTPoE)數據來源:特斯拉 圖圖51:DIP 是一種高帶寬內存的是一種高帶寬內存的 PCIe 卡,支持特斯拉的卡,支持特斯拉的 TTPoE 接口接口 數據來源:特斯拉 圖圖52:Dojo 可以通過可以通過 TTPoe 進行遠程數據存取進行遠程數據存取 數據來源:特斯拉 3.5
102、.4.特斯拉為特斯拉為 Dojo 創建全棧軟件生態創建全棧軟件生態 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 30 of 41 軟件層面,特斯拉構建了一套由軟件層面,特斯拉構建了一套由 PyTorch、編譯器、驅動程序等共同構成的、編譯器、驅動程序等共同構成的軟件棧。軟件棧。整個軟件生態的頂層是 PyTorch 框架,中間使用 Dojo 編譯器和LLVM 形成編譯層,底層基于 Dojo 驅動。Dojo 編譯器負責劃分任務、配置數據存儲、進行細粒度的并行計算并減少存儲占用。Dojo 編譯器支持的并行方式包括數據并行、模型并行和圖并行。支持的存儲分配方式包括分布式張量、
103、重算分配和分割填充。在軟件生態加持下,用戶可將 Dojo 大型分布式系統視作一個加速器進行整體設計和訓練。圖圖53:D1 處理器處理器軟件棧軟件棧 數據來源:電子工程專輯 圖圖54:特斯拉特斯拉 Dojo 編譯器編譯器架構架構 數據來源:車規半導體硬件 3.6.百度昆侖芯百度昆侖芯 昆侖芯持續迭代,昆侖芯目前已經經歷兩輪迭代,1 代于 2018 年發布,2 代于 2021 年 8 月量產,第三代預計 2024 年發布。昆侖芯昆侖芯 2 代是國內首款采代是國內首款采用用 GDDR6 顯存的通用顯存的通用 AI 芯片。芯片。昆侖芯 2 代于 2021 年量產,采用 7nm 制程,整數精度(INT8
104、)算力達到 256 TeraOPS,半精度(FP16)性能為 128 TeraFLOPS,使用16顆PCIe 4.0,GDDR6高性能顯存,最大功耗僅為120W。另外新增 8 顆 PCle 4.0,具備更高的數據傳輸帶寬。通用性、易用性都有顯 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 31 of 41 著增強,適用云、端、邊等領域,未來主要聚焦在自動駕駛、智能交通、智能助手等更廣泛的應用場景。圖圖55:昆侖芯昆侖芯 1 代與代與 2 代性能對比代性能對比 數據來源:芯智訊、IT 之家 昆侖芯助力自動駕駛應用落地與部署。昆侖芯助力自動駕駛應用落地與部署。昆侖芯的算力支
105、持使得蘿卜快跑能夠實現 L4 級別的自動駕駛能力,包括環境感知、動態障礙物識別與預測、復雜交通場景的理解、優化駕駛策略等?!疤}卜快跑”無人駕駛出行服務目前在武漢等多個城市運營,在武漢計劃投入 1000 輛無人駕駛車輛,目前投放超 400 輛,截止 2024 年 4 月 19 日,蘿卜快跑累計訂單超 600 萬單。據百度方面預測,蘿卜快跑有望在 2024 年底在武漢實現盈虧平衡,并在2025 年實現盈利。圖圖56:蘿卜快跑自動駕駛出租車圖蘿卜快跑自動駕駛出租車圖 數據來源:BBC 感知和規劃大模型并進,逐步實現端到端自動駕駛系統。感知和規劃大模型并進,逐步實現端到端自動駕駛系統。蘿卜快跑的核心技
106、術是百度的 Autonomous Driving Foundation Model(ADFM),ADFM 包括感知大模型和規劃大模型。感知大模型采用點云和視覺多模態融合的方式,已經實現包括檢測、跟蹤、理解、建圖這幾項基本能力對信息進行獲取。感知大模型可以將原始數據批量自動化轉化為粗標數據以及精標數據,可以對不規則障礙物、各種位置關系的行人、非機動車或是施工占道等超長尾場景進行精準感知。感知網絡生海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 32 of 41 成的數據不僅用于模型內部,也以人類可讀的形式輸出,確保系統的可監督性和問題追溯性。圖圖57:感知大模型架構感知大模
107、型架構 數據來源:LONGPORT 規劃大模型方面,決策規劃網絡接收感知網絡輸出的數據,包括顯示的三維向量空間和隱式的 BEV 特征,通過 Transformer 在大量數據之間挖掘關系,最終形成最佳的軌跡匹配。圖圖58:規劃大模型架構規劃大模型架構 數據來源:LONGPORT 3.7.阿里含光阿里含光 800 平頭哥半導體是阿里巴巴集團的全資半導體芯片業務主體。平頭哥擁有端云一體全棧產品系列,涵蓋數據中心芯片、IoT 芯片等,全面覆蓋芯片端到端設計鏈路。平頭哥平頭哥 2019 年年 9 月推出了其首款月推出了其首款 AI 推理芯片推理芯片含光含光 800,主要用于云端視覺處理場景主要用于云端
108、視覺處理場景,基于 12nm 工藝與自研架構,集成了 170 億晶體管,峰值算力達 820 TOPS。在 ResNet-50 測試中,推理性能達到 78563 IPS,能效比達 500 IPS/W。含光 800 已投入廣泛行業應用,服務云計算、電商智能搜索與電商營銷,具體包括阿里集團的城市大腦、拍立淘、智能服裝設計、搜索和廣告推薦等業務。此外,AI 大模型“通義千問”也使用了含光 800 提供算力。含光含光 800 是是 4 核設計,中間有命令處理器和高速互聯的核設計,中間有命令處理器和高速互聯的核間通信。核間通信。單個 NPU內核可以處理典型的推理(例如 ResNet50v1),多個 NPU
109、 內核之間也可以通過核間通信(XCORE-COMM)緊密協作以處理更大更復雜的任務(例如RestNet101,MaskR-CNN 等)。每個 NPU 內核有本地內存 local memory,計算靠近存儲,有利于功耗降低。另外,含光 800 還可以調試為三種模式:高性能模式、高能效模式和邊緣模式(低功耗模式),在各模式下可以通過調頻、調壓進一步平衡功耗和性能。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 33 of 41 圖圖59:含光含光 800 NPU/NPU 架構圖架構圖 數據來源:阿里云 圖圖60:含光含光 800 不同模式下的頻率、功耗和性能不同模式下的頻率、
110、功耗和性能 數據來源:阿里平頭哥 平頭哥推出了 HGAI(Han Guang Artihcial lntelligence)軟件開發包,協同含光800 芯片提升 AI 運算效率。HGAI 主要包括模型的前端 Graph IR 轉換、量化、編譯和運行時等幾部分。目前 HGAI 支持的主流深度學習框架主要有:TensorFlow、MXNetCaffe、ONNX 等。同時用戶也可以通過 NPUSMI 來在線監控含光 800 運行狀態,包括主頻、內存利用率、算力利用率等。阿里推出阿里推出 HGAI 軟件包,軟件包,提升用戶編程效率提升用戶編程效率 數據來源:阿里平頭哥 3.8.騰訊紫霄芯片騰訊紫霄芯片
111、 騰訊芯片自研主要由蓬萊實驗室負責。2021 年年,騰訊公布旗下三款自研,騰訊公布旗下三款自研芯片:“紫霄”、“滄?!?、“玄靈”。芯片:“紫霄”、“滄?!?、“玄靈”?!白舷觥敝饕糜?AI 推理,已在語音撰寫、OCR等騰訊業務場景中應用;“滄?!敝饕糜谝曨l轉碼,目前已量產投用數萬片,在云游戲、直點播等場景中,面向騰訊自研業務和公有云客戶提供服務;“玄靈”主要用于智能網絡,定位于云主機的性能加速,減少了主 CPU 的網絡功能占用。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 34 of 41 “紫霄”芯片采用 2.5D 封裝技術合封 HBM2e 內存與 AI 核心,芯片
112、內部增加計算機視覺 CV 加速器和視頻編解碼加速器,主要應用于圖片和視頻處主要應用于圖片和視頻處理、自然語言處理、搜索推薦等場景。理、自然語言處理、搜索推薦等場景。與英偉達 T4相比,紫霄峰值算力和內存帶寬有顯著優勢。圖圖61:紫霄芯片算力參數與英偉達紫霄芯片算力參數與英偉達 T4 對比對比 紫霄紫霄 C100 NVIDIA T4 NVIDIA A10 功耗功耗(W)150 70 150 峰峰值值算算力力 INT8(TOPS)240 130 250 FP16(TFLOPS)120 65 125 FP32(TFLOPS)30 8.1 31.2 內存帶寬內存帶寬(GB/s)819 320 600
113、數據來源:國泰君安證券研究 圖圖62:智能網卡芯片玄靈智能網卡芯片玄靈 圖圖63:視頻轉碼芯片滄海視頻轉碼芯片滄海 數據來源:證券時報 數據來源:證券時報 3.9.字節跳動字節跳動 字節跳動在字節跳動在 AI 應用、基礎模型、底層算力等環節進行了全面布局。應用、基礎模型、底層算力等環節進行了全面布局。2023 年8 月上線首個大語言模型“豆包”及多模態大模型 BuboGPT。其抖音云雀大模型通過首批 生成式人工智能服務管理暫行辦法 備案,面向公眾開放。AI 應用應用方面方面,字節跳動推出了,字節跳動推出了 AI 對話、對話、AI 教育、教育、AI 創作等多款產品。創作等多款產品。豆包是字節重點
114、投入的一款聊天機器人產品,可以完成問答、文本生成、語言翻譯等多種任務,還可以根據用戶需求和上下文進行自適應問答,。字節還推出了扣子,支持用戶定制基于 AI 模型的各類問答 Bot,此外此外,字節跳動還推出了學習伙伴河馬愛學、AI 劇情互動產品貓箱、AI 生圖產品 PicPci、多模態數字人、AI 生圖、AI 生視頻產品等產品。字節還在智能穿戴設備領域有所布局,旗下有耳機品牌 Oladance、VR 頭顯 Pico 等產品,也有望受益于 AI 技術推動。字節也十分重視字節也十分重視 AI 算力方向的投入,外購大量高性能算力方向的投入,外購大量高性能芯片芯片,同時也在招募,同時也在招募芯片相關研發
115、人員。芯片相關研發人員。在大模型領域,字節跳動擁有英偉達高端 GPU 的大規模集群(約 1.3 萬片),還購買了博通最新的 Tomahawk 5nm 高性能交換機芯片以及 Bailly CPO 交換機。研發人員方面,字節跳動官網顯示,字節跳動目前發布了數百個與半導體相關的職位,其中包括 15 個 ASIC 芯片設計師的職位。海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 35 of 41 圖圖64:字節跳動官網招聘信息字節跳動官網招聘信息 數據來源:公司官網 4.CUDA 在在 AI 計算領域占據主導,軟件生態長期有望計算領域占據主導,軟件生態長期有望走向多元化走向多元化
116、 AI 芯片的性能發揮不僅取決于硬件,配套的軟件生態也是重要影響因素,芯片的性能發揮不僅取決于硬件,配套的軟件生態也是重要影響因素,軟件生態包括了操作系統、編程框架、庫、編譯器、工具鏈等。軟件生態包括了操作系統、編程框架、庫、編譯器、工具鏈等。軟件生態的建設是長期的,且具備較強的用戶黏性和較高的遷移成本。CUDA 目前在該領域占據主導地位,AMD、英特爾、華為、各云廠商等也在積極布局。深度學習編程框架由深度學習算法的基本操作封裝成的學習組件構成,可以幫助算法人員更高效地實現已有算法,或設計新算法,提高編程效率。目目前主流的深度學習框架是前主流的深度學習框架是PyTorch和和TensorFlo
117、w,主要創建者分別是Meta、谷歌。在學術研究領域,PyTorch 占主導地位,2022 年,在 EMNLP、ACL、ICLR 三家頂會的 PyTorch 的占比已經超過 80%。從整體客戶使用情況來說,目前 TensorFlow 的客戶更多,2023 年,TensorFlow 在人工智能、機器學習、深度學習領域的客戶分別為 1486、1579、610 個。圖圖65:學術領域,學術領域,PyTorch 使用率在使用率在 2018 年后大幅提年后大幅提升,升,2022 年使用率超年使用率超 80%圖圖66:2023 年年 TensorFlow 客戶數量高于客戶數量高于 PyTorch 數據來源:
118、騰訊云 數據來源:前瞻產業研究院 1,486 1,579 610 865 921 387 05001,0001,5002,000人工智能機器學習深度學習TensorFlowPyTorch海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 36 of 41 圖圖67:神經網絡算法的底層硬件實現步驟神經網絡算法的底層硬件實現步驟 圖圖68:AI 編譯器原理編譯器原理 數據來源:國泰君安證券研究 數據來源:CSDN AI 編譯器的核心抽象是張量(矩陣的高維推廣),在 AI 領域,圖像、文字、視頻等信息都被抽象為張量,相應的數據處理也就是對張量的計算操作,如卷積、轉置、池化等。對張量
119、的操作按順序就組合成了張量計算的數據流圖。AI 編譯器通常采用多層編譯器通常采用多層 IR 設計,可以滿足易用性、高性能的兩類需求。設計,可以滿足易用性、高性能的兩類需求。編譯器前端(圖層)會對 Tensor 進行抽象封裝,開發者只需關注邏輯意義上的模型和算子,后端算子性能優化時,可以打破算子的邊界,從更細的維度,根據不同硬件特點進行優化。主流編譯器包括 nvcc、TVM、TensorFlow XLA 等。以 TensorFlow XLA 為例,其上層采用數據流圖的中間表示,用圖結點來表示計算,邊表示數據流的依賴,這可以滿足 AI 領域用數據流圖描述應用的需求。下層為基于代數表示的中間表示(X
120、LA HLO),高層的數據流圖被轉換為中間表示,可以支持 jit 的算子融合、內存操作消除等優化,而后被翻譯為更底層的 LLVM 中間表示,或直接映射到 TPU 平臺。多層的IR 設計可以兼顧應用在不同硬件平臺之間的移植和優化。4.1.英偉達英偉達 CUDA 生態成熟,與生態成熟,與 GPU 密切綁定密切綁定 CUDA 于 2006 年發布,是 NVIDIA 專為圖形處理單元(GPU)上的通用計算開發的并行計算平臺和編程模型,可以將 GPU 從專用的處理器變成通用處理器單元。CUDA 工具包中包含多個 GPU 加速庫、一個編譯器、多種開發工具以及 CUDA 運行環境。使用 CUDA 時,開發者
121、使用主流語言(如 C、C+、Fortran、Python 和 MATLAB)進行編程,并通過擴展程序以幾個基本關鍵字的形式來表示并行性。CUDA 架構的核心在于并行計算模型,通過線程塊和網格實現,這種層次化的并行結構可以對復雜計算任務進行有效的分解和加速。此外,CUDA 的編譯器 nvcc 也發揮了重要作用,它將 CUDA 代碼轉換成了 GPU 能夠執行的低級指令。表表7:CUDA 生態系統構成生態系統構成 組件組件/類別類別 詳細內容詳細內容 CUDA ToolkitCUDA Toolkit 核心開發包,是 CUDA 開發的基礎環境,包含編譯器(nvcc),調試器(Nsight System
122、s、Nsight Compute 等),性能分析工具(Nsight Graphics、Nsight Profiler),運行時庫、文檔和示例代碼 CUDA Runtime APICUDA Runtime API 運行時 API 允許開發者管理 CUDA 線程執行模型,內存分配與管理,數據傳輸,提供接口啟動 GPU 內核(kernel)函數 海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 37 of 41 CUDA Driver APICUDA Driver API 驅動 API,提供更低級別的硬件控制功能,可直接操作 CUDA 上下文、設備內存、事件同步等 CUDA Li
123、brariesCUDA Libraries cuBLAS:基于 CUDA 的高性能線性代數庫,加速標準矩陣和向量運算 cuFFT:快速傅里葉變換庫,針對 GPU 優化,高效的并行 FFT 計算 cuDNN:深度神經網絡庫,專為深度學習應用設計,針對卷積神經網絡(CNN)中的常見操作進行了高度優化 cuRAND:隨機數生成庫,提供多種高質量的隨機數生成算法 Thrust:C+模板庫,簡化了并行算法的設計和實施 其他包括 cuSPARSE(稀疏矩陣運算庫),NVML(NVIDIA Management Library,用于管理 NVIDIA GPU 狀態和配置),等等 深度學習框架集成深度學習框架
124、集成 CUDA 被廣泛集成到 TensorFlow、PyTorch、MXNet 等,通過 CUDA 后端支持,能夠在 GPU 上以高速度訓練和推理大規模神經網絡模型 第三方庫支持第三方庫支持 許多第三方庫和工具構建于 CUDA 之上,加速科學計算、圖像處理、物理模擬等領域的應用 編程模型擴展編程模型擴展 支持 C/C+、Fortran、Python(通過像 CuPy 這樣的庫)、Julia 等語言的接口或綁定 教育與社區資源教育與社區資源 CUDA 有強大的社區支持,包括教程、論壇、博客文章和大學課程等資源,幫助開發者學習和充分利用 CUDA 技術 數據來源:芝能科技 CUDA 擁有龐大的開發
125、者數量和成熟的生態。擁有龐大的開發者數量和成熟的生態。目前,通過 CUDA 開發的數千個應用已部署到嵌入式系統、工作站、數據中心和云中的 GPU。廣泛應用于多個領域,如高性能計算、深度學習、醫療數據分析、網絡安全、圖像處理等。2023 年財報顯示,CUDA 注冊開發者數量達到 380 萬人。NVIDIA與大學、研究機構和主要計算機廠商合作,幫助 CUDA 吸引了早期研究開發人員的注意力,存在先發優勢。圖圖69:2023 年年 CUDA 注冊開發者數達注冊開發者數達 380 萬萬 數據來源:英偉達財報 CUDA 的優勢在于可以最大性能地提升的優勢在于可以最大性能地提升 NVIDIA GPU 的性
126、能、軟件庫覆蓋的性能、軟件庫覆蓋全面、對全面、對 AI 框架支持度高??蚣苤С侄雀?。1)CUDA 可以最大限度地提高可以最大限度地提高 NVDIA GPU 的性能的性能。CUDA 是專為 NVIDIA GPU 設計的并行計算平臺和編程模型,與 NVDIA 硬件緊密集成,CUDA 代碼直接編譯到 GPU 的指令集,可以高效執行任務。無數基準測試一致表明,CUDA 的吞吐量領先于 NVIDIA 芯片上的 OpenCL 等實現,對于某些工作負載(如 LCZero 國際象棋引擎),內核執行效率通常高出 60%;2)CUDA 對深度學習的支持度高對深度學習的支持度高,CUDA 為各種深度學習框架(如Te
127、nsorFlow、PyTorch 等)提供了底層的內存管理和編程接口。此外,英偉達還推出了基于 CUDA 構建的 NVIDIA CUDA-X,包含用于構建應050100150200250300350400CUDA注冊開發者數(萬)海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 38 of 41 用的多種微服務、庫、工具和技術,可提高 AI 場景下的計算性能;3)CUDA 具有全面、成熟的軟件生態具有全面、成熟的軟件生態,提供了編程語言、API、開發庫、分析和調試工具等,程序員可以直接調用這些庫函數進行計算,如CUFFT、CUBLAS、CUDPP 等,簡化了程序員的工作量。
128、圖圖70:CUDA 集成了多種工具和庫集成了多種工具和庫 數據來源:英偉達 圖圖71:CUDA-X 微服務微服務 圖圖72:CUDA-X AI 數據來源:英偉達 數據來源:英偉達 針對英偉達專有生態系統優化針對英偉達專有生態系統優化 CUDA,也可能會導致封閉和不靈活。,也可能會導致封閉和不靈活。隨著ASIC 芯片、AMD GPU 等新的芯片需求逐漸增長,加速架構多元化,CUDA相對封閉的理念可能會導致其缺乏靈活性。4.2.ROCm、oneAPI 是是 CUDA 主要競爭者主要競爭者 其他商用芯片廠商也積極追趕其他商用芯片廠商也積極追趕 CUDA,大多都推出了自己的軟件生態,并,大多都推出了自
129、己的軟件生態,并且在不同程度地兼容且在不同程度地兼容 CUDA,目前主要競爭者有,目前主要競爭者有 AMD 的的 ROCm 和英特爾和英特爾的的 oneAPI。AMD 的 ROCm 開源平臺提供編譯器、庫、HIP 編程語言等工具,開發人員可以通過 HIP 和 OpenCL 兩種編程模型,實現 CUDA 代碼向ROCm 的遷移,目前已經推出了 ROCm 6;英特爾的 oneAPI 支持跨平臺編程,可以打破不同硬件架構的壁壘,支持多種架構,包括來自不同供應商的 CPU、GPU、FPGA 和 AI 加速器,旨在為異構計算提供與供應商無關的解決方案;海外專題研究海外專題研究(美國美國)請務必閱讀正文之
130、后的免責條款部分 39 of 41 圖圖73:AMD 推出推出 ROCm 開源平臺開源平臺 圖圖74:英特爾推出英特爾推出 oneAPI,支持跨硬件架構編程,支持跨硬件架構編程 數據來源:AMD 數據來源:CSDN 國內軟件生態來看,摩爾線程、壁仞科技等研發了兼容 CUDA 的軟件生態。摩爾線程構建了 MUSA 架構,生態組成類似 CUDA,并打造了軟件開發平臺,能借助 MUSIFY 工具將 CUDA 代碼遷移到 MUSA 平臺,通過自行實現 MUSA-X 計算庫,實現 CUDA API 的一對一替換等;壁仞科技也開發了BIRENSUPA 平臺試圖兼容 CUDA。華為推出了 CANN(Comp
131、ute Architecture for Neural Networks)軟件生態,以便在華為昇騰 AI硬件上開發和部署各種人工智能應用,與 CUDA并不直接兼容。CANN可以提供從底層硬件到頂層應用的全棧支持,包括編譯器、調試器、性能分析工具等,兼容多種 AI框架,如 MindSpore、TensorFlow、PyTorch 等,還提供 AscendCL 編程接口,簡化應用開發流程。作為一個新平臺,其生態系統和社區支持仍處于初步階段,成熟度和市場認可度仍有待提升。圖圖75:華為華為 CANN 軟件生態軟件生態 數據來源:芝能科技 4.3.云廠商助力軟件生態走向多元與開放云廠商助力軟件生態走向
132、多元與開放 云廠商持續迭代自研芯片及配套硬件的同時,也在積極培育相應的軟件生海外專題研究海外專題研究(美國美國)請務必閱讀正文之后的免責條款部分 40 of 41 態,開發了一系列的編譯器、底層中間件等,不斷降低從 CUDA 生態轉換至其他生態的遷移成本,對 CUDA 生態的依賴程度逐漸減輕。谷歌、Meta、微軟、亞馬遜、特斯拉等大廠都非常重視軟硬件的全棧自研,專為 ASIC 配套的軟件生態有利于更好地發揮定制芯片的計算能力。5.風險提示風險提示 AI 算法技術風險算法技術風險 當前 ASIC 芯片架構、編譯層都圍繞張量運算打造,犧牲了一定通用性,如果出現底層運算邏輯脫離張量計算的新算法,那么
133、當前 ASIC 軟硬件體系可能無法適配新算法,面臨技術風險。生態系統建設不及預期生態系統建設不及預期 軟件生態是影響算力集群效率的重要因素,如果云廠商等不能推出有競爭力的 ASIC 配套軟件生態服務,那么用戶可能不愿意將工作任務遷移至ASIC 上。芯片研發不及預期芯片研發不及預期 GPU 更新迭代速度快,ASIC 廠商需要及時跟進技術趨勢、最新的業務需求,持續進行研發投入,否則可能會面臨產品缺乏競爭力而難以大規模部署的問題。AI 產業發展不及預期產業發展不及預期 如果 AI 商業價值遲遲不能兌現,那么云廠商可能面臨投資回報的壓力,進而縮減對 AI 的投入。海外專題研究海外專題研究(美國美國)請
134、務必閱讀正文之后的免責條款部分 41 of 41 本公司具有中國證監會核準的證券投資咨詢業務資格本公司具有中國證監會核準的證券投資咨詢業務資格 分析師聲明分析師聲明 作者具有中國證券業協會授予的證券投資咨詢執業資格或相當的專業勝任能力,保證報告所采用的數據均來自合規渠道,分析邏輯基于作者的職業理解,本報告清晰準確地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,特此聲明。免責聲明免責聲明 本報告僅供國泰君安證券股份有限公司(以下簡稱“本公司”)的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告僅在相關法律許可的情況下發放,并僅為提供信息而發放,
135、概不構成任何廣告。本報告的信息來源于已公開的資料,本公司對該等信息的準確性、完整性或可靠性不作任何保證。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可升可跌。過往表現不應作為日后的表現依據。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司不保證本報告所含信息保持在最新狀態。同時,本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議。
136、在任何情況下,本公司、本公司員工或者關聯機構不承諾投資者一定獲利,不與投資者分享投資收益,也不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者務必注意,其據此做出的任何投資決策與本公司、本公司員工或者關聯機構無關。本公司利用信息隔離墻控制內部一個或多個領域、部門或關聯機構之間的信息流動。因此,投資者應注意,在法律許可的情況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,本公司的員工可能擔任本報告所提到的公司的董事。市場有風險,投資需謹慎。投
137、資者不應將本報告作為作出投資決策的唯一參考因素,亦不應認為本報告可以取代自己的判斷。在決定投資前,如有需要,投資者務必向專業人士咨詢并謹慎決策。本報告版權僅為本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用。如征得本公司同意進行引用、刊發的,需在允許的范圍內使用,并注明出處為“國泰君安證券研究”,且不得對本報告進行任何有悖原意的引用、刪節和修改。若本公司以外的其他機構(以下簡稱“該機構”)發送本報告,則由該機構獨自為此發送行為負責。通過此途徑獲得本報告的投資者應自行聯系該機構以要求獲悉更詳細信息或進而交易本報告中提及的證券。本報告不構成本公司向該機構之客戶提供的投資
138、建議,本公司、本公司員工或者關聯機構亦不為該機構之客戶因使用本報告或報告所載內容引起的任何損失承擔任何責任。評級說明評級說明 投資建議的比較標準投資建議的比較標準 評級評級 說明說明 投資評級分為股票評級和行業評級。以報告發布后的 12 個月內的市場表現為比較標準,報告發布日后的 12 個月內的公司股價(或行業指數)的漲跌幅相對同期的當地市場指數漲跌幅為基準。股票投資評級 增持 相對當地市場指數漲幅 15%以上 謹慎增持 相對當地市場指數漲幅介于 5%15%之間 中性 相對當地市場指數漲幅介于-5%5%減持 相對當地市場指數下跌 5%以上 行業投資評級 增持 明顯強于當地市場指數 中性 基本與當地市場指數持平 減持 明顯弱于當地市場指數 國泰君安證券研究所國泰君安證券研究所 上海上海 深圳深圳 北京北京 地址 上海市靜安區新閘路 669 號博華廣場20 層 深圳市福田區益田路 6003 號榮超商務中心 B 棟 27 層 北京市西城區金融大街甲 9 號 金融街中心南樓 18 層 郵編 200041 518026 100032 電話(021)38676666(0755)23976888(010)83939888 E-mail: