《汽車行業深度:Dojo助推特斯拉加速AI落地-240517(56頁).pdf》由會員分享,可在線閱讀,更多相關《汽車行業深度:Dojo助推特斯拉加速AI落地-240517(56頁).pdf(56頁珍藏版)》請在三個皮匠報告上搜索。
1、 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 Table_Info1 汽車汽車 Table_Date 發布時間:發布時間:2024-05-17 Table_Invest 優于大勢優于大勢 上次評級:優于大勢 Table_PicQuote 歷史收益率曲線 Table_Trend 漲跌幅(%)1M 3M 12M 絕對收益 2%18%6%相對收益 0%9%15%Table_Market 行業數據 成分股數量(只)261 總市值(億)31781 流通市值(億)13554 市盈率(倍)28 市凈率(倍)2.07 成分股總營收(億)36981 成分股總凈利潤(億)1304 成分股資產負債率(
2、%)61 相關報告 奇瑞汽車深度報告:出海持續增長,新能源轉型高彈性-20240219 汽車行業深度:智駕時代來襲,多玩家多模式齊發力推動行業走向落地-20240126 Table_Author 證券證券分析師分析師:周穎:周穎 執業證書編號:S0550521100002 19801271353 研究助理:陳緯國研究助理:陳緯國 執業證書編號:S0550122090006 15624929051 Table_Title 證券研究報告/行業深度報告 汽車汽車行業行業深度:深度:Dojo 助推特斯拉加速助推特斯拉加速 AI 落地落地 報告摘要:報告摘要:Table_Summary 特斯拉不僅在電動
3、汽車領域取得了革命性突破,更在智能駕駛和特斯拉不僅在電動汽車領域取得了革命性突破,更在智能駕駛和人人形機器人形機器人領域展現出其作為領域展現出其作為 AI 公司的雄心和實力。公司的雄心和實力。特斯拉在智能駕駛技術上取得了顯著成就,其全自動駕駛技術 FSD 已更新至 V12版本。特斯拉的算法演進經歷了從 HydraNets 到端到端方案的四代變革,每一代都在感知、決策和規控方面實現了技術突破。最終端到端方案通過直接輸入傳感器信息到神經網絡,實現了高效的駕駛命令輸出。特斯拉在人形機器人領域的進展同樣領先,自 2021 年首次發布概念以來,特斯拉人型機器人在運動能力、視覺感知能力和自主性方面取得了顯
4、著進步。2023 年 12 月發布的 Optimus 第二代產品在行走速度、重量、平衡感和身體控制能力上都有了顯著提升,能夠在工廠環境中執行精確的電池分揀任務。AI 應用的加速需要應用的加速需要 AI 芯片芯片。AI 芯片是 AI 計算的核心工具,可分為訓練和推理兩大類,也可分為云端和終端。不同場景對芯片的性能要求不同。云端訓練芯片是 AI 時代最重要的武器之一,英偉達作為 AI 芯片市場的領導者,其 GPU 架構從 Fermi 到 Hopper 不斷演進,每一代產品都在性能和效能上取得了顯著提升。特斯拉的特斯拉的 Dojo 芯片芯片采用采用 ASIC 路線路線,高效高效支持支持自身自身算法算
5、法訓練訓練。Dojo采用 ASIC 路線,Dojo node 是 Dojo 芯片的最小節點,具有標量處理單元、向量處理單元、存儲單元和片上路由器。D1 芯片集成了354 個 Dojo node,提供了高的算力和能效比。Dojo 訓練 Tile 通過集成多個 D1 芯片,形成了強大的訓練矩陣,能夠支持大規模的 AI模 型 訓 練。Dojo ExaPOD 則 進 一 步 集 成 了 訓 練 矩 陣,提 供 了1.1EFLOPS 的峰值算力和高速 SRAM,為大規模并行計算任務提供了強大的硬件支持。Dojo 的另一個可比對象:的另一個可比對象:谷歌谷歌 TPU。TPU 是首款人工智能專用的計算芯片,
6、于 2016 年首次發布,目前已經從 TPU v1 迭代到了 TPU v5,能力上也有巨大提升,是首個部署張量計算單元的芯片。雖然在數據中心訓練和推理方面有其優勢,但在工業級別適配和開發生態方面面臨挑戰。特斯拉 Dojo 在設計理念和應用模式上與 TPU 有相似之處,但也面臨著類似的大規模推廣壓力??傮w而言,Dojo 產品設計和性能頂尖,但通用性相對較弱,短期內主要以加速特斯拉自身模型訓練為主。風險提示:風險提示:智駕進展智駕進展不及預期不及預期,人形機器人進展不及預期,人形機器人進展不及預期。Table_CompanyFinance -30%-20%-10%0%10%20%2023/5202
7、3/8 2023/11 2024/2汽車滬深300 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 2/56 汽車汽車/行業深度行業深度 目目 錄錄 1.特斯拉:從制造公司到特斯拉:從制造公司到 AI 公司公司.5 1.1.智能駕駛先行者.5 1.1.1.特斯拉智能駕駛第一代算法:HydraNets.5 1.1.2.特斯拉智能駕駛第二代算法:BEV+Transformer.7 1.1.3.特斯拉智能駕駛第三代算法:占用網絡.9 1.1.4.特斯拉智能駕駛第四代算法:端到端方案.10 1.1.5.智駕三要素:算法、算力、數據.12 1.2.掀起人型機器人大潮.12 1.2.1.基本運動
8、能力.14 1.2.2.能力進階提升.17 2.AI 芯片:芯片:AI 應用的發動機應用的發動機.20 2.1.云端和終端&訓練和推理.20 2.2.常見 AI 芯片.22 3.英偉達:英偉達:AI 芯片的領路人芯片的領路人.25 3.1.CPU or GPU.25 3.2.英偉達 GPU 架構演變歷程.27 3.3.CUDA core.28 3.4.Fermi 架構.29 3.5.Kepler 架構&Maxwell 架構.29 3.6.Pascal 架構.31 3.7.Volta 架構.31 3.8.Turing 架構.32 3.9.Ampere 架構.34 3.10.Hopper 架構.3
9、6 3.11.英偉達加速器產品.37 4.特斯拉特斯拉 Dojo:極簡哲學,物盡其用:極簡哲學,物盡其用.40 4.1.Dojo node.40 4.2.D1 Chip.41 4.3.D1 Tile.41 4.4.芯片系統集成.43 4.5.Dojo Interface Processor.43 4.6.Dojo ExaPOD.45 5.谷歌谷歌 TPU:Dojo 的一面鏡子的一面鏡子.47 5.1.TPU.47 5.2.TPU v1.48 5.3.TPU v2 及以上.51 6.投資建議投資建議.54 7.風險提示風險提示.54 圖表目錄圖表目錄 圖圖 1:特斯拉:特斯拉 Model X.5
10、 圖圖 2:特斯拉:特斯拉 HydraNets.6 圖圖 3:HydraNets 動態識別動態識別.7 WWfWvZrVNAWYkZpOaQ9RbRnPrRsQqMfQrRrMfQtRmM7NoPpPvPsPtRwMmPrM 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 3/56 汽車汽車/行業深度行業深度 圖圖 4:早期:早期 2D 平面標注平面標注.8 圖圖 5:BEV 實現實現 2D 轉轉 3D.8 圖圖 6:BEV 對于感知能力的升級對于感知能力的升級.9 圖圖 7:特斯拉占用網絡:特斯拉占用網絡.9 圖圖 8:特斯拉端到端方案更新:特斯拉端到端方案更新.10 圖圖 9:端
11、到端自動駕駛:端到端自動駕駛.11 圖圖 10:基于規則的算法組成:基于規則的算法組成.12 圖圖 11:端到端算:端到端算法法.12 圖圖 12:特斯拉人形機器人:特斯拉人形機器人.13 圖圖 13:特斯拉機器人時間表:特斯拉機器人時間表.13 圖圖 14:人型機器人整體結構設計:人型機器人整體結構設計.14 圖圖 15:虛擬空間的步調規劃:虛擬空間的步調規劃.15 圖圖 16:真實場景下的步姿調整:真實場景下的步姿調整.15 圖圖 17:實際空間下的穩定行走:實際空間下的穩定行走.16 圖圖 18:保持平衡:保持平衡.16 圖圖 19:動作捕捉:動作捕捉.17 圖圖 20:學習瑜伽動作:學
12、習瑜伽動作.18 圖圖 21:物品分類:物品分類.18 圖圖 22:Optimus Gen2.19 圖圖 23:分揀:分揀電池電池.19 圖圖 24:機器人視角的分揀電池:機器人視角的分揀電池.20 圖圖 25:云端、邊緣和終端:云端、邊緣和終端 AI 芯片應用情況芯片應用情況.21 圖圖 26:CPU 和和 GPU 的結構的結構.25 圖圖 27:SM 流多處理器結構圖流多處理器結構圖.26 圖圖 28:CUDA Core 內部組成內部組成.28 圖圖 29:Fermi 架構架構.29 圖圖 30:Fermi 架構中架構中 SM 單元內容單元內容.29 圖圖 31:Kepler 架構架構 S
13、MX.30 圖圖 32:Maxwell 架構架構 SM.30 圖圖 33:Pascal 架構架構 SM.31 圖圖 34:NV Link 示意圖示意圖.31 圖圖 35:Volta 架構架構 SM.32 圖圖 36:Turing 架構架構 SM.33 圖圖 37:RT Core 效果示意圖效果示意圖.34 圖圖 38:Ampere 架構架構.35 圖圖 39:Grace Hopper 示意圖示意圖.36 圖圖 40:GH200.37 圖圖 41:Dojo node.40 圖圖 42:D1 Chip.41 圖圖 43:Dojo 訓練瓦片訓練瓦片.42 圖圖 44:訓練瓦片:訓練瓦片.42 圖圖
14、45:訓練瓦片垂直結構圖:訓練瓦片垂直結構圖.42 圖圖 46:訓練系統:訓練系統.43 圖圖 47:訓練矩陣內存共享方式:訓練矩陣內存共享方式.44 圖圖 48:Dojo Interface Processor.44 圖圖 49:Dojo Host Interface.45 圖圖 50:Dojo ExaPOD.46 圖圖 51:Dojo 性能對比性能對比 1.46 圖圖 52:Dojo 性能對比性能對比 2.46 圖圖 53:Dojo 集成體積對比集成體積對比 1.47 圖圖 54:Dojo 集成體積對比集成體積對比 2.47 圖圖 55:TPU 架構架構.48 請務必閱讀正文后的聲明及說明
15、請務必閱讀正文后的聲明及說明 4/56 汽車汽車/行業深度行業深度 圖圖 57:不同神經網絡上不同神經網絡上 TPU、CPU、GPU 性能比較性能比較.49 圖圖 58:TPU 與其他芯片性能比較與其他芯片性能比較.50 圖圖 59:脈動陣列運算機制:脈動陣列運算機制.50 圖圖 60:TPU v2.51 圖圖 61:TPU v2 架構架構.51 圖圖 62:TPU 架構變化架構變化.52 圖圖 63:TPU v4.52 圖圖 64:TPU v4 和和 v5 參數參數.53 表表 2:HydraNets 特點特點.6 表表 3:訓練:訓練 vs 推理推理.20 表表 4:云端:云端 vs 終端
16、終端.21 表表 5:云端訓練芯片:云端訓練芯片.23 表表 6:云端推理芯片:云端推理芯片.24 表表 7:英偉達:英偉達 GPU 架構演變歷程架構演變歷程.27 表表 8:英偉達芯片參數:英偉達芯片參數 1.38 表表 9:英偉達芯片參數:英偉達芯片參數 1.39 表表 10:TPU 歷代發布時間歷代發布時間.47 表表 11:TPU 歷代芯片參數歷代芯片參數.48 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 5/56 汽車汽車/行業深度行業深度 1.特斯拉:從制造公司到特斯拉:從制造公司到 AI 公司公司 1.1.智能駕駛先行者 特斯拉最初以其顛覆性的電動汽車而聞名于世,但
17、公司的長期規劃和布局是希望成為一家 AI 公司。特斯拉在全自動駕駛(FSD,Full Self-Drive)投入巨大并取得了卓越的成就,它不僅代表了公司在自動駕駛領域的技術突破,而且體現了其在機器學習和數據處理方面的深厚實力。FSD 技術通過不斷學習得到強大的神經網絡和先進的算法,使得特斯拉汽車能夠實現接近人類的駕駛決策。FSD 自發布以來,經過了多次重要更新目前已經來到了 V12 版本,實現了真正智能駕駛端到端大模型。圖圖 1:特斯拉:特斯拉 Model X 數據來源:懂車帝,東北證券 特斯拉的智駕算法被認為是行業的標桿,也是眾多后來者的學習和模仿目標,因此我們通過分析特斯拉的算法演變來理解
18、智駕算法多年來的演化和進步。1.1.1.特斯拉智能駕駛第一代算法:HydraNets 計算機視覺基于人類的視覺系統。計算機視覺基于人類的視覺系統。人類眼睛搜集的信息到達視網膜后,經過大腦皮層的多個區域和神經層,最終形成生物視覺?;谌祟愐曈X,人們設計出計算機視覺神經網絡系統,在計算機視覺任務中,物體檢測一般有如下通用的結構:Input backbone neck head Output。2016-2018年,自動駕駛行業處在發展初期,年,自動駕駛行業處在發展初期,車企在自動駕駛的目標檢測上一般該采用通用網絡結構。車企在自動駕駛的目標檢測上一般該采用通用網絡結構。該結構中僅有一個 head,是單
19、一的目標檢測,而駕駛場景通常同時面臨多項任務,如車道線/人物/信號燈檢測等,單一檢測難以滿足現實需求。Backbone:指特征提取網絡,用于識別單個圖像中的多個對象,并提供對象的豐富特征信息。Neck:頸部位于主干和頭部之間,用于提取一些更精細的特征。Head:在特征提?。˙ackbone)之后,提供輸入的特征圖表示。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 6/56 汽車汽車/行業深度行業深度 圖圖 2:特斯拉:特斯拉 HydraNets 數據來源:特斯拉,東北證券 HydraNets特斯拉的檢測神經網絡。特斯拉的檢測神經網絡。特斯拉將汽車檢測、交通燈識別和檢測、車道檢測等大
20、量任務聚合到一個全新的架構布局中,該架構有一個共同共享的主干,并將分支分成若干個頭部,這種架構被稱為 HydraNets。HydraNets 使用特征提取網絡 BiFPN,實現多特征共享和多任務處理,提升算法效率。表表 1:HydraNets 特點特點 特點特點 解釋解釋 特征共享特征共享 減少重復卷積計算,減少主干數量,在測試時特別高效。解耦任務解耦任務 將特定任務從主干中解耦,能夠單獨微調任務。頸部特征緩存頸部特征緩存 訓練時緩存特征,在做微調工作流時,只使用緩存的特征微調頭部。數據來源:特斯拉,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 7/56 汽車汽車/行業深
21、度行業深度 圖圖 3:HydraNets 動態識別動態識別 數據來源:特斯拉,東北證券 1.1.2.特斯拉智能駕駛第二代算法:BEV+Transformer BEV 感知技術成為感知外部環境的標準方法。感知技術成為感知外部環境的標準方法。BEV 是 Birds Eye-View 的縮寫,通過神經網絡將多個攝像頭和傳感器收集的信息進行整合,形成基于俯視角度的全景圖,同時結合時序信息,動態地感知周圍環境并輸出結果,以便后續的預測和規劃模塊使用。駕駛行為是在 3D 空間中的行為,BEV 通過將 2D 透視空間圖像轉換為3D 空間,消除了距離尺度和遮擋問題,使算法能夠直觀地判斷車輛在空間中的位置以及與
22、其他障礙物的關系。Transformer 大模型為構建大模型為構建 BEV 空間提供了最佳解決方案??臻g提供了最佳解決方案。BEV 空間的構建需要一種合適方法來實現目的,將多個 2D 圖像和傳感器信息綜合轉化為一個 3D 向量空間。特斯拉引入 Transformer 算法架構來執行這一轉換,通過適應各種輸入形式,使得 BEV 在自動駕駛領域得以實現。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 8/56 汽車汽車/行業深度行業深度 圖圖 4:早期:早期 2D 平面標注平面標注 數據來源:特斯拉,東北證券 圖圖 5:BEV 實現實現 2D 轉轉 3D 數據來源:特斯拉,東北證券 在在
23、 2020-2021 年到來的的大模型時代,特斯拉引領自動駕駛行業邁向新篇章,提出年到來的的大模型時代,特斯拉引領自動駕駛行業邁向新篇章,提出了了 BEV+Transformer 的創新算法。的創新算法。特斯拉將 BEV 和 transformer 結合,并且首次實現了該算法的商業化落地。相比于傳統自動駕駛算法,BEV+Transformer 大模型在感知能力有了極大進步:改善了 2D-3D 空間轉換中難以深度預測的問題,大幅提升感知性能,完美實現了多攝像頭和多傳感器信息的融合,極大方便了后續的規控任務;同時更容易融入時序信息,使得模型具有良好的記憶,能夠避免遮擋等問題;汽車具備實時建圖能力,
24、擺脫對高精度地圖的依賴;從后融合到特征融合,信息損失變少,感知能力加強。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 9/56 汽車汽車/行業深度行業深度 圖圖 6:BEV 對于感知能力的升級對于感知能力的升級 數據來源:百度,東北證券 1.1.3.特斯拉智能駕駛第三代算法:占用網絡 2022 年特斯拉在算法中加入占用網絡。年特斯拉在算法中加入占用網絡。占用網絡的基本思路是對周圍環境進行分析從而獲得體積占用率,以此為基礎實現實時感知。占用網絡的具體實現過程需要先將三維世界劃分為網格單元,然后根據算法定義不同單元的占用與空閑,形成一般障礙物的感知能力。圖圖 7:特斯拉占用網絡:特斯拉
25、占用網絡 數據來源:特斯拉,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 10/56 汽車汽車/行業深度行業深度 占用網絡是占用網絡是 BEV+Transformer 的升華迭代。的升華迭代。原有鳥瞰圖的底層能力來源于 2D 圖像信息感知,會缺失一些空間高度信息,無法真實反映物體在 3D 空間的實際占用體積,因此傳統的 BEV 更關心靜止物體(如路沿、車道線等),而空間目標的識別(如物體 3D 結構)難以識別。占用網絡基于學習將三維曲面表示為深度神經網絡分類器的連續決策邊界,可以在沒有激光雷達提供點云數據的情況下對 3D 環境進行重建,且相較于激光雷達還可以更好地將感知到
26、的 3D 幾何信息與語義信息融合,得到更加準確的三維場景信息。1.1.4.特斯拉智能駕駛第四代算法:端到端方案 圖圖 8:特斯拉端到端方案更新:特斯拉端到端方案更新 數據來源:特斯拉,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 11/56 汽車汽車/行業深度行業深度 圖圖 9:端到端自動駕駛:端到端自動駕駛 數據來源:智駕最前沿,東北證券 特斯拉最新的特斯拉最新的 FSD V12 版本采用端到端方案,這是完全基于大模型和數據驅動的版本采用端到端方案,這是完全基于大模型和數據驅動的方案。方案。端到端自動駕駛的核心思想是將車輛從傳感器中收集到的信息(原始圖像數據、原始點云數
27、據等)直接輸入到一個整合的深度學習神經網絡中,該網絡經過處理后直接輸出自動駕駛汽車的駕駛命令,包括方向盤轉角、方向盤轉速、油門踏板開度、制動踏板開度等。端到端智駕方案高效而全面。端到端智駕方案高效而全面。端到端能夠覆蓋各種場景,不需要人工設計繁復的規則,只需不斷投喂訓練數據,深度學習神經網絡就能學會駕駛。因此從性能角度出發,在海量數據的情況下,端到端方案的駕駛能力會無限逼近于人。另外與模塊化自動駕駛系統相比,端到端自動駕駛系統設計難度低,硬件成本較小,并且通過多樣性的數據,能夠獲得在不同場景下的泛用性。國內目前仍處在國內目前仍處在 BEV+transformer到占用網絡的演變進程上,特斯拉則
28、已經走在端到端方案的路上。到占用網絡的演變進程上,特斯拉則已經走在端到端方案的路上。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 12/56 汽車汽車/行業深度行業深度 1.1.5.智駕三要素:算法、算力、數據 在自動駕駛系統中,算法通??梢苑譃楦兄蜎Q策規控兩個主要部分,在端到端方法里兩者結合為一體。圖圖 10:基于規則的算法組成:基于規則的算法組成 圖圖 11:端到端算法:端到端算法 數據來源:東北證券 數據來源:東北證券 影響智駕能力的要素主要影響智駕能力的要素主要有有算法、算力和數據。算法、算力和數據。傳統感知算法的進步主要取決于自身的算法框架、訓練數據質量以及標注能力(依
29、賴訓練算力+研發人數),而在以規則為主的決策規控方案里面算法的進步主要依賴自身規則框架的迭代,訓練數據和代碼數量(依賴研發人數),即算法進步需要算法+數據+算力&研發人數多個維度的支持。在端到端方案中感知和決策規控被結合為一個整體,算法進步依賴于算法框架,訓練算力和數據。由于模型直接從原始數據中學習,而不需要依賴于人工設計的特征或規則,訓練算力和數據的重要性更為突出。1.2.掀起人型機器人大潮 憑借著自身在智能駕駛和人工智能領域的積累,憑借著自身在智能駕駛和人工智能領域的積累,特斯拉特斯拉積極投入積極投入人型機器人人型機器人領域領域,并掀起了行業大潮,并掀起了行業大潮。通過開發具有高度靈活性和
30、智能的人型機器人,特斯拉正在探索 AI 在工業自動化、家庭服務和復雜任務執行中的潛力。這些機器人將能夠執行重復性、危險或需要高度精確度的工作,從而推動生產力的提高和人類工作的轉型。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 13/56 汽車汽車/行業深度行業深度 圖圖 12:特斯拉人形機器人:特斯拉人形機器人 數據來源:特斯拉,東北證券 圖圖 13:特斯拉機器人時間表特斯拉機器人時間表 數據來源:東北證券整理 特斯拉人形機器人在 2021 年初步亮相,展示了其基礎形態和設計,包括與人類相似的身體結構和四肢以及靜態站立能力,但尚未展示動態行走或其他復雜動作。2022 年 9 月 O
31、ptimus 正式亮相,該原型開始展示一些基本的運動能力,如平穩的行走、轉向和動態平衡,機器人的四肢運動變得更加流暢,能夠在一定范圍內進行靈活的伸展和彎曲。后面機器人的視覺感知能力開始得到應用,但僅限于簡單的環境感知和物體識別。2023 年開始 Optimus 功能逐步增強,運動能力得到顯著提升,能夠完成更復雜的動作,如單腳保持平衡、瑜伽動作等。同時機器人的視覺感知能力進一步增強,能夠執行更高級的任務,如視覺自標定、顏色分揀等。特斯拉開始強調 Optimus 的自主性和智能性,通過端到端神經網絡的應用,機器人能夠接收視頻輸入并直接輸出控 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明
32、 14/56 汽車汽車/行業深度行業深度 制指令,實現更高效的任務執行。機器人的雙手和手指變得更加靈活,能夠處理更精細的物體和操作任務。2023 年 12 月 Optimus 二代正式發布,擬人行動能力持續提升,行走速度與上一代相比提高了 30%,重量減輕 10 公斤,改善了平衡感和身體控制能力,手部和頸部靈活性增強,所有手指都具備觸覺,能夠處理精細的物體,如雞蛋。2024 年 5 月 Optimus 展現了更高的運動性能和精確性,在分揀電池任務中表現出色,能夠像人類一樣精準地將電池插入托盤??傮w來說,特斯拉人形機器人 Optimus 在短短幾年內取得了顯著的進步,不僅在運動能力、視覺感知能力
33、和自主性方面得到了提升,還在應用場景和商業化方面取得了重要突破。這些進展預示著 Optimus 在未來將有更廣泛的應用前景和潛力。1.2.1.基本運動能力 圖圖 14:人型機器人整體結構人型機器人整體結構設設計計 數據來源:特斯拉,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 15/56 汽車汽車/行業深度行業深度 圖圖 15:虛擬空間的步調規劃虛擬空間的步調規劃 數據來源:特斯拉,東北證券 圖圖 16:真實場景下的步姿調整真實場景下的步姿調整 數據來源:特斯拉,東北證券 機器人的移動實現需要幾個步驟,首先需要形成物理上的自我感知,然后得到節省能源的步態(研發人員通過運動
34、計劃和控制堆棧,生成機器人運動學模型,然后將所需路徑生成底層平臺,讓整個系統參考其軌跡進行訓練)、保持平衡不摔倒,最后實現全身協調運動(利用相應的傳感器以及他們在現實世界中的觀察來解決機器人的控制難題,機器人的骨盆位置、重心位置,使用更好的機器人模型來進行訓練,通過跟蹤機器人在工作室中的路徑來構建更好的機器人模型,并依據實際情況修正機器人的行為)。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 16/56 汽車汽車/行業深度行業深度 機器人模擬系統中按照其期望的路徑規劃一條線路,不斷添加相互連接的軌跡,直到能讓整個系統保持平衡。但是從模擬系統到了實際體系往往會有更多的復雜問題出現。圖
35、圖 17:實際空間下的穩定行走實際空間下的穩定行走 數據來源:特斯拉,東北證券 圖圖 18:保持平衡保持平衡 數據來源:特斯拉,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 17/56 汽車汽車/行業深度行業深度 通過傳感器測量,將真實世界的復雜性引入訓練環境成了解決問題的關鍵。根據人體結構設計好后,可以先到模擬環境中規劃動作,一旦來到現實世界的復雜性中,還是走不出三步就會倒。研發人員利用相應的傳感器以及他們在現實世界中的觀察來解決機器人的控制難題。最終特斯拉擎天柱也像波士頓動力 Atlas 一樣,反復訓練,甚至適應了人類干擾后才學會在步行中保持穩定。1.2.2.能力進階
36、提升 圖圖 19:動作捕捉動作捕捉 數據來源:特斯拉,東北證券 能夠得到穩定的行走姿態之后下一步要去學習具體的執行動作,特斯拉人形機器人先捕捉人類搬箱子時的運動軌跡,再結合機器人自身特點進行規劃。為了解決人形機器人在觀察的同時操縱真實的物體世界的難題,研發人員將這一步驟分成了兩個,首先生成一個自然運動參考系統,然后再將其進行優化推廣。假設有一個人類對某一動作進行了演示,研發人員通過視頻對其動作設置關鍵幀,并將其映射到機器人上。這樣只需要一個演示視頻,研發人員就可以將其推廣到機器人的現實操縱應用上。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 18/56 汽車汽車/行業深度行業深度
37、圖圖 20:學習瑜伽動作學習瑜伽動作 數據來源:特斯拉,東北證券 圖圖 21:物品分類物品分類 數據來源:特斯拉,東北證券 2023 年 5 月特斯拉 Optimus 終于具備了流暢行走和抓取物體的能力。到了 9 月,特斯拉 Optimus 再次進化,可以自主對物體進行分類了,亮點在于神經網絡完全端到端訓練:輸入視頻、輸出控制。閑暇之余,它還能做瑜伽消遣。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 19/56 汽車汽車/行業深度行業深度 圖圖 22:Optimus Gen2 數據來源:特斯拉,東北證券 2023 年 12 月特斯拉發布了 Optimus Gen2,重量減少 10k
38、g,靈活性等方面都有顯著進步,行走速度提高了 30%,并且能夠完成抓取雞蛋等高精度的動作指令。從畫面來看,Optimus Gen2 擁有靈活的雙手,手指伸展靈活得像個真人,2 個自由度的脖子可以讓機器人在一定幅度內轉頭。圖圖 23:分揀電池:分揀電池 數據來源:特斯拉,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 20/56 汽車汽車/行業深度行業深度 圖圖 24:機器人視角的分揀電池:機器人視角的分揀電池 數據來源:特斯拉,東北證券 2024 年 5 月 6 日,特斯拉放出了 Optimus 的最新演示視頻,經過端到端方案的訓練之后,它能夠在特斯拉的工廠中輕巧自由地拿取
39、電池,放進電池槽中排列整齊,即使失敗,也能自主糾正??傮w而言,特斯拉的人形機器人已經經過幾年的進步和發展,已經具備了一定的運動能力,同時學習人類完成一些精細的操作,逐漸在工廠里面承擔一些實際工作。在利用端到端神經網絡的驅動下,機器人的能力邊界不斷拓寬。2.AI 芯片:芯片:AI 應用的發動機應用的發動機 在大模型的加持下,智能駕駛、人型機器人等 AI 應用場景的落地進展持續加速,而AI 芯片是推動這些變化的發動機。2.1.云端和終端&訓練和推理 表表 2:訓練:訓練 vs 推理推理 環節環節 特點特點 敏感因素敏感因素 AI 算力芯片特點算力芯片特點 AI 算力芯片種類算力芯片種類 訓練訓練
40、大量數據 大量計算資源 硬件通用性 算力敏感 高性能 高帶寬 高精度 GPU 為主 推理推理 快速轉化推理結果 綜合能耗、算力、時延和成本因素 時延敏感 成本敏感 低功耗 低延遲 低成本 GPU FPGA ASIC 數據來源:清華-中國工程院知識智能聯合實驗室、東北證券 人工智能的實現包括訓練人工智能的實現包括訓練(Training)和推理和推理(Inference)兩個環節。兩個環節。訓練環節需要通過大量數據訓練出一個復雜的神經網絡模型,使其能夠適應特定的功能,如圖像識別、語音識別、自然語言處理等。訓練過程需要處理海量的數據,因此對系統的計算性能有較高要求,同時系統需要具有一定的通用性,以便
41、完成各種各樣的學 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 21/56 汽車汽車/行業深度行業深度 習任務。推理是指利用訓練好的神經網絡模型進行運算,利用輸入的新數據獲得正確結論的過程,如識別圖像中的物體、轉換語音為文本、生成自然語言回答等。和訓練相比,推理需要快速將推理行動轉化為結果,要重點考慮單位能耗算力、時延、成本等指標。根據承擔任務的不同,根據承擔任務的不同,AI 芯片分為訓練芯片分為訓練 AI 芯片和推理芯片和推理 AI 芯片。芯片。訓練芯片用于訓練過程,通過大數據構建神經網絡模型,注重絕對的計算能力和計算精度,具有一定的通用性,可處理不同的任務。推理芯片利用神經網絡
42、模型進行推理預測,對計算性能要求相對較低,更注重綜合指標,需要綜合考慮單位能耗算力、時延、成本等。表表 3:云端:云端 vs 終端終端 功能場景功能場景 訓練訓練 推理推理 云端云端 云端訓練:云端即數據中心,對神經網絡而言,訓練過程就是通過不斷更新網絡參數,縮小推理(或者預測)誤差的過程。由于涉及海量的訓練數據和復雜的深度神經網絡結構,云端訓練對芯片性能的要求很高 云端推理:推理過程是指直接將數據輸入神經網絡并評估結果的正向計算過程。相比云端訓練芯片,云端推理芯片考慮的因素不再聚焦于算力,而需要同時考慮功耗、算力、時延、成本等因素 終端終端 終端訓練:訓練對數據量的要求和終端場景在功耗、成本
43、的限制存在一定的矛盾,目前此類型產品亟待研究 終端推理:在 5G 技術和 AIoT 技術高速發展的今天,終端推理芯片有越來越豐富的應用場景,部署在數字城市傳感器、自動駕駛汽車、智慧家居等各種終端設備中,需求和約束也日趨多樣,由于對速度、體積、能效、安全、成本等因素的考慮,模型對準確度和數據精度的要求略有降低 數據來源:東北證券整理 圖圖 25:云端、邊緣和終端:云端、邊緣和終端 AI 芯片應用情況芯片應用情況 數據來源:億歐智庫,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 22/56 汽車汽車/行業深度行業深度 AI 芯片部署位置可以分為云端芯片部署位置可以分為云端和和
44、終端。終端。云端即訓練中心,在計算機領域中一般指將訓練過程集中在大規模訓練中心進行處理。在深度學習的訓練階段一般需要龐大的數據量和運算量,單一處理器無法獨立完成,因此訓練環節主要依賴于云端實現。某些大型模型的推理過程也較為復雜,通過云端計算方式實現。終端指個人可直接接觸或使用、不需要遠程訪問的設備,或者直接和數據或傳感器一體的設備,如手機、汽車、智能家居以及各種物聯網設備等。終端的數量龐大,并且需求的差異性明顯,一般主要負責推理過程,也有一些小型模型可以在終端完成本地化部署和訓練。根據部署的位置不同,根據部署的位置不同,AI 芯片分為云端芯片分為云端 AI 芯片和終端芯片和終端 AI 芯片。芯
45、片。云端 AI 芯片是指在服務器端完成人工智能相關運算的芯片。深度神經網絡首先需要使用大量數據進行訓練操作,訓練完成之后,該神經網絡模型就可以根據輸入的數據進行推理計算。在云端數據中心,訓練和推理都需要用 AI 芯片進行加速。訓練芯片需要考慮可擴展性,因此其主要設計精力除了在計算部分之外,網絡通信部分(包括軟件接口)也至關重要。而推理芯片場景和功能相對更為單一,主要需要兼顧好計算和內存訪問。云端訓練芯片通常有更高的要求,需要用到最新的半導體工藝和高級封裝技術,一旦在站穩腳跟,其他競爭者很難再進入該市場,因此壁壘較高。與云端 AI 芯片相對的是終端 AI 芯片,終端 AI 芯片在設計思路上與云端
46、 AI 芯片有著較大區別。首先,必須保證很高的計算能效;其次,在高級輔助駕駛 ADAS 等設備對實時性要求很高的場合,推斷過程必須在設備本身完成,因此要求終端設備具備足夠的推斷能力。終端計算強調的是超低功耗以及能效比,設計門檻相對于云端要低一些,現階段中國大多數 AI 芯片初創公司都是終端芯片。目前訓練與推理的完成主要集中在云端,隨著越來越多芯片廠商的努力,很多的應用將逐漸轉移到終端。AI 芯片的應用逐漸芯片的應用逐漸專注于特殊場景專注于特殊場景的優化的優化。隨著技術成熟化,AI 芯片的應用場景除了在云端之外,也逐漸開拓出了邊緣端的場景,部署于智能家居、智能制造、智慧金融等領域;另外隨著智能產
47、品種類日漸豐富,芯片也逐漸開始部署于智能手機、安防攝像頭及自動駕駛汽車等智能終端領域,智能產品種類也日趨豐富。未來,AI計算將無處不在。2.2.常見 AI 芯片 人工智能芯片市場競爭愈演愈烈。人工智能芯片市場競爭愈演愈烈。云端訓練芯片對性能要求較高,主要公司包括英偉達、特斯拉、百度、遂原和谷歌等,主流芯片有特斯拉 D1,百度昆侖 1,邃思,英偉達 A100、V100(NVLink)、V100(PCIe)和 V100S 等。云端推理芯片綜合考慮單位功耗算力、時延和成本等因素,市場除了有英偉達、谷歌和賽靈思等傳統芯片大廠之外,Wave computing 等初創公司加入在內。中國公司里寒武紀、比特
48、大陸等同樣積極布局云端芯片業務。主流芯片包括英偉達 T4,賽靈思 AlveoU50、U200、U250、U280,思元 100、思元 270,昇騰 310 等。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 23/56 汽車汽車/行業深度行業深度 表表 4:云端訓練云端訓練芯片芯片 公司名稱公司名稱 特斯拉特斯拉 百度百度 遂遂原原 NVIDIA 芯片名稱芯片名稱 D1 百度昆侖 1 邃思 A100 V100(NVLink)V100(PCIe)V100S 功耗功耗 400W 150W 190W(最 大 功耗)400W 300W 250W 250W 內存內存 440 SRAM 16GB
49、 16GB HBM 40GB HBM2 32/16GB HBM2 32/16GB HBM2 32GB HBM2 帶寬帶寬 10TB/S 512GB/s 512GB/s 1555GB/s 900GB/s 900GB/s 1134GB/s 上市時間上市時間 2023 年 2019 年 11月 2020 年 6月 2020 年 5月 2017 年 5月 2017 年 5月 2019 年 11月 INT8 256TOPS 80TOPS 624TOPS|1248TOPS(稀 疏 技術)FP16 362TFLOPS 16TOPS 80TFLOPS 315TF|624TF(稀疏技術)125TFLOPS 11
50、2TFLOPS 130TFLOPS FP32 22.6TFLOPS 16TOPS 20TFLOPS 19.5TFLOPS 15.7TFLOPS 14TFLOPS 16.4TFLOPS FP64 9.7TFLOPS 7.8TFLOPS 7TFLOPS 8.2TFLOPS TF32 315TFLOPS(稀疏技術)FP64 Tensor Core 19.5TFLOPS 工藝工藝 7nm 14nm GF12 nm FinFET 7nm 12nm 12nm 12nm 數據來源:東北證券整理 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 24/56 汽車汽車/行業深度行業深度 表表 5:云端推
51、云端推理芯片理芯片 NVIDIA 賽靈思賽靈思 中科寒武紀科技股份中科寒武紀科技股份有限公司有限公司 華為技術華為技術有限公司有限公司 芯片名稱芯片名稱 NVIDIA T4 Alveo U50 Alveo U200 Alveo U250 Alveo U280 思元 100 思元 270 昇騰 310 功耗功耗 70W 50W 100W 110W 100W 75W 70W 8TOPS4W 16TOPS8W 內存內存 16GB GDDR6 8GB 64GB 64GB/8GB/16GB 16GB LPDDR4X 帶寬帶寬 320+GB/s 316GB/s 77GB/s 77GB/s/102GB/s
52、102GB/s 2*64bit3733MT/s 上市時間上市時間 2018 年 3月 2019 年 8月 2018年10月 2018年10月 2018年11月 2018 年 5月 2019 年 6月 2019 年 INT8 130TOPS 16.2TOPS 18.6TOPS 33.3TOPS 24.5TOPS 32TOPS 128TOPS 16T FP16 65TFLOPS 16TFLOPS FP32 8.1TFLOPS 2.2T FP64 TF32 FP64 Tensor Core 工藝工藝 12nm 16nm UltraScale 16nm UltraScale 16nm UltraSca
53、le 16nm UltraScale 16nm 16nm 12nm FFC 數據來源:東北證券整理 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 25/56 汽車汽車/行業深度行業深度 3.英偉達:英偉達:AI 芯片的領路人芯片的領路人 英偉達公司創立之初的產品定位為圖形處理芯片,主要用在游戲領域,之后人們逐漸將該芯片的計算能力挖掘出來,英偉達也于 2006 年正式推出統一計算架構(Compute Unified Device Architecture,簡稱 CUDA),這是全球首款 GPU 上的通用計算解決方案。隨著人工智能的發展,計算芯片的市場不斷擴大,英偉達也成為了毫無爭議的
54、行業引領者。3.1.CPU or GPU 中央處理器中央處理器(CPU)和圖形處理器和圖形處理器(GPU)是重要的是重要的計算機計算機引擎引擎,具有不同的,具有不同的結構和作用結構和作用。CPU 由數百萬個晶體管組成,有多個處理內核,被稱為計算機的大腦。CPU 被緩存占據了大量空間,而且有復雜的控制單元,計算單元占比很小,適用于單位內核性能要求較高的工作。GPU 主要由 ALU(Arithmetic and Logic Unit)組成,具有眾多計算單元和超長流水線,只有非常簡單的控制邏輯,適用于大規模計算。圖圖 26:CPU 和和 GPU 的結構的結構 數據來源:英偉達,東北證券 GPU 中包
55、含多個 GPC(Graphics Processing Cluster,圖形處理簇)。GPC 可以被認為是一個獨立的處理單元,包含光柵引擎(Raster Engine)和 SM(流多處理器),它們之間相互連接。不同架構 GPU 所含 SM 數量有所不同,但從 Fermi 架構開始的英偉達 GPU 都有 GPC。主機接口(Host Interface)通過 PCI-Express 將 GPU 連接到 CPU。GPC 中一般有若干個 TPC(Textures Processing Cluster,紋理處理簇),TPC 的基本組成單元是 SM(Streaming Multiprocessors,流多
56、處理器),GPU 硬件的并行性就是由 SM 決定的。每個 SM 具有多個 CUDA 內核,每個 CUDA 內核都有一個完全流水線化的整數算術邏輯單元(ALU)和浮點單元(FPU)負責計算。這些內核由線程調度器(Warp Scheduler)驅動,執行過程中它管理一組線程束(Warp)并將要執 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 26/56 汽車汽車/行業深度行業深度 行的指令移交給分發單元(Dispatch Units),之后通過寄存器(Register File)將任務分給每個內核。GPU 中還有 LD/ST(Load/Store)模塊來加載和存儲數據,SFU(Spec
57、ial Function Units)來執行特殊數學運算(sin、cos、log 等)。每個 SM 中含有若干個 SP(Streaming Processor),Fermi 架構后稱為 CUDA core,通過 CUDA 控制執行,是最基本的處理單元,SP 的數量相當于 CUDA core 的數量。CoreSM 流多處理器流多處理器TPC 紋理處理簇紋理處理簇GPC 圖形處理簇圖形處理簇GPU。從整體結構上看,GPU 包含若干個 GPC,不同架構的 GPU 包含的 GPC 數量不一樣。例如Maxwell 架構中由 4 個 GPC 組成;Turing 架構中由 6 個 GPC 組成。GPC 包含
58、若干個 SM,不同架構的 GPU 的 GPC 包含的 SM 數量也有所不同。例如 Maxwell 架構的一個 GPC 有 4 個 SM;而 Turing 架構的一個 GPC 包含了 6 個 TPC,每個 TPC 又包含了 2 個 SM。SM 包含若干個 Core,能夠同時處理多個線程。圖圖 27:SM 流多處理器結構圖流多處理器結構圖 數據來源:英偉達,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 27/56 汽車汽車/行業深度行業深度 3.2.英偉達 GPU 架構演變歷程 表表 6:英偉達英偉達 GPU 架構演變歷程架構演變歷程 中文名字中文名字 發布時間發布時間 核心
59、參數核心參數 特點特點&優勢優勢 納米制程納米制程 代表型號代表型號 費米費米 2010 16 個 SM,每個SM 包含 32 個CUDA Cores,一共 512 CUDA Cores 首個完整 GPU計 算架構,支持與共享存儲結合的 Cache 層次GPU 架 構,支持ECC GPU 架構 40/28nm 30 億晶體管 Quadro 7000 開普勒開普勒 2012 15 個 SMX,每個 SMX 包括 192個 FP32+64 個FP64 CUDA Cores 游戲性能大幅提升首次持 GPU Direct 技術 28nm 71 億晶體管 K80、K40M 麥克斯韋麥克斯韋 2014 1
60、6 個 SM,每個SM 包括 4 個處理塊,每個處理塊包括 32 個CUDA Cores+8個 LD/ST Unit+8SFU 每組 SM 單元從192 個減少到每組 128 個,每個SM 單元擁有更多邏輯控制電路 28nm 80 億晶體管 M5000、M4000 GTX 9XX 系列 帕斯卡帕斯卡 2016 GP100 有 60 個SM,每個 SM 包括 64 個 CUDA Cores,32 個 DP Cores NVLink 第一代,雙向互聯帶寬160 GB/s,P100擁有 56 個 SM HBM 16nm 153 億晶體管 P100、P6000 TTX1080 伏特伏特 2017 80
61、 個 SM,每個SM 包括 32 個FP64+64 Int32+64 F P32+8 個 Tensor Cores NVLink2.0,CUDA core 拆分,Tensor Core 第一代,支持 AI運算 12nm 211 億晶體管 V100、TiTan V 圖靈圖靈 2018 102 核心 92 個SM,SM 重新設計,每 個 SM 包含 64 個Int32+64 個FP32+8 個Tensor Cores Tensor Core2.0,RT Core 第一代 12nm 186 億晶體管 T4,2080TI RTX 5000 安培安培 2020 108 個 SM,每個 SM 包含 64
62、個FP32+64 個INT32+32 個FP64+4 個Tensor Cores Tensor Core3.0,RT Core2.0,NVLink3.0,結構稀疏性矩陣MIG1.0 7nm 542 億晶體管 A100、A30 系列 赫柏赫柏 2022 132 個 SM,每個 SM 包含 128 個FP32+64 個INT32+64 個FP64+4 個Tensor Cores Tensor Core4.0,NVlink4.0,結構稀疏性矩陣MG2.0 4nm 800 億晶體管 H100 數據來源:英偉達,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 28/56 汽車汽車/行
63、業深度行業深度 英偉達深耕英偉達深耕 GPU 業務業務,產品更迭迅速。產品更迭迅速。2006 年,英偉達發布首個通用 GPU 計算架構 Tesla,它采用全新的 CUDA 架構,支持使用 C 語言進行 GPU 編程;2009 年,英偉達發布第一款采用 40nm 制程的 Fermi 架構 GPU;2012 年,英偉達發布采用28nm 制程的 Kepler 架構,是首個支持超級計算和雙精度計算的 GPU 架構;2014年,英偉達發布采用 28nm 制程的 Maxwell 架構;2017 年,英偉達發布采用 12nm FinFET 制程的 Volta 架構,Volta 架構新增了張量核心,可以大大加
64、速人工智能和深度學習的訓練與推理;2018 年,英偉達發布采用 12nm FinFET 制程的 Turing 架構,Turing 架構新增了 Ray Tracing 核心(RT Core),可硬件加速光線追蹤運算;2020年,英偉達發布 Ampere 架構,Ampere GA100 具有 6912 個 CUDA 核心、108 個張量核心,比 Turing 架構提高約 50%,并在人工智能、光線追蹤和圖形渲染等方面性能大幅躍升,且能效比顯著提高;2022 年,英偉達發布采用 4nm 制程的 Hopper 架構,并推出了 CPU 和 GPU 一體的 Grace Hopper 超級芯片;2024 年
65、,英偉達發布了同樣是 4nm 制程的 Blackwell 架構,再次突破了 AI 芯片的能力上限。3.3.CUDA core 圖圖 28:CUDA Core 內部組成內部組成 數據來源:英偉達,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 29/56 汽車汽車/行業深度行業深度 CUDA core 是英偉達 GPU 中的基本計算單元,在 Fermi 架構中提出,此時一個 SM包含 2 組各 16 個 CUDA core,每個 core 包含一個整數運算 ALU 和浮點運算單元FPU。在 Volta 架構中,CUDA core 變成單獨的 FP32 FPU 和 INT32
66、ALU,兩者比例1:1,合并之后可組成原來的 CUDA core,每個 SM 可以支持 FP32 和 INT32 的并發執行。3.4.Fermi 架構 圖圖 29:Fermi 架構架構 圖圖 30:Fermi 架構中架構中 SM 單元內容單元內容 數據來源:英偉達,東北證券 數據來源:英偉達,東北證券 Fermi 架構于 2010 年發布,最多可支持 16 個 SM,每個 SM 包含 32 個 CUDA core,整塊芯片一共包含 512 個 CUDA core,執行過程中浮點運算和整數運算只能二選一。Fermi 架構通過 CUDA 軟件來實現并行,具有局部內存,同一個分區可以共享內存,SM
67、之間還可以共享全局內存。GPU 由多個 GPC 組成,一個 GPC 包含一個 Raster Engine 光柵引擎,L2 緩存放在中間方便傳輸。相比相比英偉達英偉達最初的最初的 Tesla 架構,架構,Fermi 架構架構在許多方面有所提升在許多方面有所提升。新的架構中 CUDA core 的精度運算能力提升;支持同一個上下文內的算子并行等。3.5.Kepler 架構&Maxwell 架構 Kepler 架構于 2012 年發布,該架構中 SM 更名為 SMX,但實際含義沒有太大改變。Kepler 從硬件上增加了雙精度運算單元的架構,并提出 GPU Direct 技術,可以繞過CPU 在 GP
68、U 間直接進行數據交換,架構中每個 SMX 的運算單元達到 192 個。Maxwell 架構于 2014 年發布,每組 SM 單元的運算單元下降到 128 個,但是包含了更多的邏輯控制電路。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 30/56 汽車汽車/行業深度行業深度 圖圖 31:Kepler 架構架構 SMX 圖圖 32:Maxwell 架構架構 SM 數據來源:英偉達,東北證券 數據來源:英偉達,東北證券 Kepler 架構和架構和 Maxwell 架構功能也有所優化。架構功能也有所優化。Kepler 架構支持在 GPU 內創建 kernel執行動態并行;具備超級隊列功能
69、,讓不同進程的 CUDA streams 擁有更多的物理隊列,增加并發度;支持 warp 內的數據操作,在 warp 內的數據能夠直接在寄存器進行交換,不需通過共享內存。Maxwell 架構對 SM 進行了優化,提出 SMM,具有更高的效率,SM 的指令執行與下發進行了分塊;改進了共享內存結構,在同計算量下功耗更低。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 31/56 汽車汽車/行業深度行業深度 3.6.Pascal 架構 圖圖 33:Pascal 架構架構 SM 圖圖 34:NV Link 示意圖示意圖 數據來源:英偉達,東北證券 數據來源:英偉達,東北證券 Pascal 架
70、構的 SM 結構進一步精簡,SM 內部包含的東西更少,同時芯片制程升級,片上 SM 的數量繼續增加,單個 SM 擁有 64 個 FP32 CUDA core,并分成了兩個區,每個區有單獨的寄存器,因此單個 SM 可以并發執行更多的線程,進一步加強了并行處理能力。Pascal架構提出了第一代NVlink,實現了多GPU間的點到點通信,帶寬達到160GB/s,約等于當時 PCLe 的 5 倍。Pascal 架構是首款采用 HBM2 內存的 GPU 架構,并且統一內存 UVM 進行地址和操作的優化。帶寬是分布式系統訓練大模型的主要瓶頸。帶寬是分布式系統訓練大模型的主要瓶頸。大模型的訓練涉及大量數據在
71、不同計算節點之間的頻繁傳輸,這導致數據傳輸量的增加,通信開銷的上升,對帶寬提出了更高的要求。帶寬限制可能導致節點之間的通信效率下降,同時在同步更新模型參數時引入延遲,影響整體訓練速度。3.7.Volta 架構 Volta 架構是為深度學習優化過的新型流式多處理器架構。架構是為深度學習優化過的新型流式多處理器架構。Volta 架構對 CUDA core進行了拆分,將 FPU 和 ALU 分離,可以同時執行。架構改進了 SIMT 模型,每個線程可以擁有獨立的存取計數和堆棧,使得線程間同步通信可以更加靈活,也可以去適應更復雜的算法邏輯。針對深度學習,Volta 架構提供了 Tensor core 張
72、量計算核心,對卷積計算進行加速。Tensor Core 出現。出現。在過去,矩陣乘法的運算需要被編碼成 FMA,硬件層面需要寄存器-ALU-寄存器-ALU-寄存器來回搬運。Tensor Core 可以直接執行矩陣乘法,但只支持 FP16 數據,輸出結果可以是 FP32,相當于 64 個 FP32 ALU 提供算力,能耗上有優勢。此外從 Volta 架構開始,購買 GPU 可以不僅僅是一張卡,而是 DGX Station,可以裝配 4 塊或者 8 塊芯片一起使用。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 32/56 汽車汽車/行業深度行業深度 圖圖 35:Volta 架構架構 S
73、M 數據來源:英偉達,東北證券 3.8.Turing 架構 Turing 在性能、效能和功能方面都取得了突破。在性能、效能和功能方面都取得了突破。Turing 架構配備了名為 RT Core 的專用光線追蹤處理器,主要用來做三角形和光線的求交,將實時光線追蹤運算加速至上一代 Pascal 架構的 25 倍,并能以高出 CPU 30 多倍的速度進行電影效果的最終幀渲染。Turing 架構繼續配備了用于 AI 加速的 Tensor Core,增加了對 INT8 和 INT4的支持,每秒可提供高達 500 萬億次的張量運算,極大加速 AI 計算能力。Turing 架構還配備了新型流多處理器和用于模擬
74、的 CUDA,運算效率得到顯著提高,改善虛擬現實體驗。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 33/56 汽車汽車/行業深度行業深度 圖圖 36:Turing 架構架構 SM 數據來源:英偉達,東北證券 Turing 架構架構主要主要應用于應用于游戲領域。游戲領域。Turing 架構是為游戲領域設計和優化的一種圖形處理架構,通過引入先進的技術來提供更真實、更引人入勝的游戲體驗。RT Core 使得光線追蹤技術在游戲中得以廣泛應用,實現更逼真的光影效果和視覺細節,為玩家呈現更加逼真的游戲畫面。Tensor Core 用于深度學習和人工智能任務,為游戲開發者提供更大的靈活性,提升
75、游戲的智能化水平,更好地實現高度復雜的圖形效果和智能化的游戲體驗,為玩家帶來更加沉浸式和創新性的游戲體驗。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 34/56 汽車汽車/行業深度行業深度 圖圖 37:RT Core 效果示意圖效果示意圖 數據來源:英偉達,東北證券 3.9.Ampere 架構 Ampere 架構是英偉達推出的一項技術巨獻。架構是英偉達推出的一項技術巨獻。Ampere 架構搭載超過 540 億個晶體管,是當時世界上規模最大的 7nm 處理器,代表 GPU 為 A100,具備 6912 個 CUDA core,108 個 SM,540 億個晶體管。Ampere 架構
76、的核心創新之一是 Tensor Core 3.0技術,新增了對 TF32 的支持,從而顯著提升了 FP32 的人工智能性能。Ampere 架構在多實例 GPU 方面表現出色,能將單個 A100 GPU 劃分為 7 個獨立 GPU,為租賃和云服務需求提供了更靈活的算力配置。Ampere 架構引入 NVLink 2.0,將高速連接速度翻倍,使得多臺機器能夠通過 NV Switch 實現更快速的相互連接。此外,Ampere 架構還充分利用 AI 數學中的稀疏特性,通過結構稀疏性實現性能的翻倍效果。Ampere 架構不僅在圖形處理領域有著顯著影響,也在人工智能和高性能計算領域取得了巨大的成功。請務必閱
77、讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 35/56 汽車汽車/行業深度行業深度 圖圖 38:Ampere 架構架構 數據來源:英偉達,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 36/56 汽車汽車/行業深度行業深度 3.10.Hopper 架構 圖圖 39:Grace Hopper 示意圖示意圖 數據來源:英偉達,東北證券 Hopper 架構是一項創新性的設計架構是一項創新性的設計。Hopper 架構的核心構成包括 8 組 GPC、64 組TPC 和 132 組 SM,共提供 16896 個 CUDA core,同時搭載 528 個 Tensor core,
78、還配備了 Tensor Memory Accelerator,為深度學習任務提供更優秀的加速性能。Grace Hopper superchip 將 Hopper GPU 和 Grace CPU 緊密結合,實現了高達 900GB/s 的數據傳輸速度。Hopper 架構中引入了 Transformer Engine,專為大規模模型訓練提供加速,為人工智能領域的應用提供更大的靈活性。NV Link C2C 技術的應用進一步提升了 Hopper 架構的整體性能,通過高速的通信通道連接多個 GPU,實現協同計算,適用于大規模并行計算任務。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 37/5
79、6 汽車汽車/行業深度行業深度 圖圖 40:GH200 數據來源:英偉達,東北證券 3.11.英偉達加速器產品 英偉達英偉達是圖形處理和人工智能領域的領軍企業,以其卓越的技術創新和高性能產品是圖形處理和人工智能領域的領軍企業,以其卓越的技術創新和高性能產品著稱,顯卡產品系列在推動計算和圖形處理領域的發展上發揮著關鍵作用。著稱,顯卡產品系列在推動計算和圖形處理領域的發展上發揮著關鍵作用。從 Tesla架構開始到 Tensor Core 的引入,英偉達顯卡不僅在游戲領域取得了引人注目的成就,還在在高性能計算、科學計算和人工智能等專業領域也取得了巨大成功。在顯卡產品線中,H100、H800、A100
80、 和 A800 等型號憑借其出色的性能和創新的技術而備受矚目,在 AI/HPC 科學計算能力應用廣泛。H800 和 A800 系列為制裁后中國特供版本,NV Link 速度下調,其他參數保持不變,之后為了滿足美國商務部新的限令,英偉達又推出了 L20 等產品。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 38/56 汽車汽車/行業深度行業深度 表表 7:英偉達芯片參數英偉達芯片參數 1 型號型號 H100 80GB SXM5 H800 80GB SXM5 H100 80GB PCle H800 80GB PCle 應用場景應用場景 AI/HPC 科學計算 Al AI/HPC 科學計
81、算 AI GPU 架構架構 Hopper Hopper Hopper Hopper GPU 核心版本核心版本 GH100 GH100 GH100 GH100 單 精 度 浮 點 核 心單 精 度 浮 點 核 心(CUDA Core)16896 16896 14592 14592 顯存容量顯存容量 80GB HBM3 80GB HBM3 80GB HBM2e 80GB HBM2e 顯存帶寬顯存帶寬 3.35TB/s 3.35TB/s 2TB/s 2TB/s NVLink NVLink 4.0 NVSwitch 900GB/s NVLink 4.0 NVSwitch 400GB/s NVLink
82、bridge 600 GB/s NVLink bridge 400 G8/s 張量運算核心張量運算核心(Tensor Core)528(4 代)528(4 代)456(4 代)456(4 代)FP64 浮點浮點(TFLOPS)34 1 26 0.8 FP32 浮點浮點(TFLOPS)67 60 51 51 FP64 Tensor Core(TFLOPS)67 60 51 51 TF32 Tensor Float(TFLOPS)989 989 756 756 BF16 Tensor Core(TFLOPS)1979 1979 1513 1513 FP16 Tensor Core(TFLOPS)1
83、979 1979 1513 1513 INT8 Tensor Core(TOPS)3958 3958 3026 3025 INT4 Tensor Core(TOPS)-最大功耗最大功耗 700W 700W 350W 350W 數據來源:英偉達,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 39/56 汽車汽車/行業深度行業深度 表表 8:英偉達芯片參數英偉達芯片參數 1 型號型號 A100 80GB SXM4 A800 80GB SXM4 A100 80GB PCle A800 80GB PCle 應用場景應用場景 AI/HPC 科學計算 AI/HPC 科學計算 AI/H
84、PC 科學計算 AI/HPC 科學計算 GPU 架構架構 Ampere Ampere Ampere Ampere GPU 核心版本核心版本 GA100 GA100 GA100 GA100 單 精 度 浮 點 核 心單 精 度 浮 點 核 心(CUDA Core)6912 6912 6912 6912 顯存容量顯存容量 80GB HBM2e 80GB HBM2e 80GB HBM2e 80GB HBM2e 顯存帶寬顯存帶寬 2039 GB/s 2039 GB/s 1935 GB/s 1935 GB/s NVLink NVLink 3.0 NVSwitch 600 GB/s NVLink 3.0
85、NVSwitch 400 GB/s NVLink bridge 600 GB/s NVLink bridge 400 GB/s 張量運算核心張量運算核心(Tensor Core)432 432 432 432 FP64 浮點浮點(TFLOPS)9.7 9.7 9.7 9.7 FP32 浮點浮點(TFLOPS)19.5 19.5 19.5 19.5 FP64 Tensor Core(TFLOPS)19.5 19.5 19.5 19.5 TF32 Tensor Float(TFLOPS)156 156 156 156 BF16 Tensor Core(TFLOPS)312 312 312 312
86、FP16 Tensor Core(TFLOPS)312 312 312 312 INT8 Tensor Core(TOPS)624 624 624 624 INT4 Tensor Core(TOPS)1248-最大功耗最大功耗 400W 400W 300W 300W 數據來源:英偉達,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 40/56 汽車汽車/行業深度行業深度 4.特斯拉特斯拉 Dojo:極簡哲學,物盡其用:極簡哲學,物盡其用 和英偉達相比,特斯拉在芯片設計上走了一條不一樣的道路。英偉達追求滿足所有的不同場景選擇通用路線,而特斯拉主要為自己服務選擇專用路線。4.1
87、.Dojo node 圖圖 41:Dojo node 數據來源:特斯拉,東北證券 特斯拉特斯拉完全從零出發完全從零出發,基于基于滿足滿足自己應用需求的自己應用需求的原則進行原則進行設計。設計。特斯拉 Dojo 芯片中的最小節點稱之為 Dojo node,相當于精簡的定制化小型 CPU 單元,分為五部分,第一部分為前端模塊;第二部分為標量處理單元(類似于 CUDA 核),包含 AGU(訪問內存)和 ALU(運算器);第三部分為向量處理單元(類似于 Tensor 核,具備矩陣乘法能力),第四部分為存儲單元 SRAM(類似于 CPU 內存),為整個芯片提供400GB/s 的讀和 270GB/s 寫速
88、度,吞吐量很大;第五部分為片上路由器 NOC Router,通過特斯拉 TTP 協議實現片間傳輸。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 41/56 汽車汽車/行業深度行業深度 4.2.D1 Chip 圖圖 42:D1 Chip 數據來源:特斯拉,東北證券 D1 芯片中有 354 個 Dojo node,采用臺積電 7nm 制程工藝,在 645mm的面積上塞了500億顆晶體管,BF16、CFP8算力可達362TFLOPS,FP32算力可達22.6TFLOPS,TDP(熱設計功耗)為 400W。相比之下,同樣采用臺積電 7nm 制程工藝、TDP 達400W 的英偉達旗艦計算卡
89、A100 GPU,面積為 826mm,晶體管數量達 542 億顆,BF16、CFP8 算力為 312TFLOPS,FP32 峰值算力為 19.5TFLOPS。D1 芯片芯片相較于相較于傳統傳統 GPU 的優勢在于效率的優勢在于效率。無論是機器人還是智能駕駛,其算法的本質都是大量數據的不斷進行神經網絡的機器學習,對算力的要求極大。定制化的Dojo 芯片對特定算法具有更高的執行效率和更低的能耗。對于神經網絡訓練而言,相較于同期的 CPU 和 GPU 相比,D1 可以實現 15-30 倍的性能提升,以及 30-80 倍效率提升。D1 芯片和 GPU 的本質差別在于平行運算上,GPU 對接平行處理只能
90、逐步處理任務,而 D1 芯片可以同時進行多個任務處理,因此能耗和效率相差極大。4.3.D1 Tile 基于 D1 芯片,特斯拉和臺積電一起推出了晶圓上系統級方案。通過臺積電InFO_SoW 封裝技術,可以將 25 顆 D1 裸片都集成到一個訓練 Tile 上,同時周圍部署 40 個 I/O 芯片,負責瓦片之間的數據傳送。這樣得到的每個 Dojo 訓練 Tile 能耗為 15kW。特斯拉 Dojo 訓練 Tile 中有計算、I/O、功率和液冷模塊,其中功率和液冷模塊放在垂直方向上。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 42/56 汽車汽車/行業深度行業深度 圖圖 43:Doj
91、o 訓練瓦片訓練瓦片 圖圖 44:訓練瓦片訓練瓦片 數據來源:特斯拉,東北證券 數據來源:特斯拉,東北證券 圖圖 45:訓練瓦片垂直結構圖訓練瓦片垂直結構圖 數據來源:特斯拉,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 43/56 汽車汽車/行業深度行業深度 4.4.芯片系統集成 圖圖 46:訓練系統訓練系統 數據來源:特斯拉,東北證券 系統集成層面 6 個訓練瓦片組成一個系統矩陣,2 個系統矩陣組成一個訓練機柜,10 個訓練機柜組成一個集群超級計算機,這里面包含了包含 3000 個 D1 芯片,超過 106w 個 CPU 內核,1320G SRAM 內存,得到了 1.
92、1EFlops 算力。在 Dojo 的訓練矩陣內部具有高速連接、密集集成等特性,75mm 高度能夠支持 135kg的栽重,滿足 100+kW 的功耗。4.5.Dojo Interface Processor 由于 D1 芯片自身沒有共享內存,在 Dojo 訓練矩陣里面每個瓦片最多可以連接 5 個PCle 卡,每個卡上有兩個 16G 的 HBM 內存和以太網接口,整個訓練矩陣通過 PCle(Dojo Interface Processor)來訪問高速內存和外部的主機,也可以通過交換機來訪問其他服務器。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 44/56 汽車汽車/行業深度行業深度
93、 圖圖 47:訓練矩陣內存共享方式訓練矩陣內存共享方式 數據來源:特斯拉,東北證券 圖圖 48:Dojo Interface Processor 數據來源:特斯拉,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 45/56 汽車汽車/行業深度行業深度 圖圖 49:Dojo Host Interface 數據來源:特斯拉,東北證券 除了 DIP 之外,Dojo 還可以通過特斯拉自研的 TTPoE 協議將標準以太網轉換至 Z平臺拓撲,進行跨以太網的互聯。另外,每一個訓練矩陣可以搭配一個 Dojo 主機接口,里面具有 512 個 x86 核心,8TB 主存。4.6.Dojo Ex
94、aPOD 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 46/56 汽車汽車/行業深度行業深度 圖圖 50:Dojo ExaPOD 數據來源:特斯拉,東北證券 每個 Dojo ExaPOD 由十個機柜組成,內部一共集成了 120 個訓練矩陣,包含 3000個 D1 芯片,超過 100w 個訓練節點,因此具備了 BF16/CFP8 層面上 1.1EFLOPS 的峰值算力,擁有 1.3TB 高速 SRAM 和 13TB 高帶寬 DRAM。圖圖 51:Dojo 性能對比性能對比 1 圖圖 52:Dojo 性能對比性能對比 2 數據來源:特斯拉,東北證券 數據來源:特斯拉,東北證券 請務必
95、閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 47/56 汽車汽車/行業深度行業深度 圖圖 53:Dojo 集成體積對比集成體積對比 1 圖圖 54:Dojo 集成體積對比集成體積對比 2 數據來源:特斯拉,東北證券 數據來源:特斯拉,東北證券 Dojo 相比英偉達具有更高的延遲和更好的訓練效果相比英偉達具有更高的延遲和更好的訓練效果。以往要用 6 個 GPU Box 的計算開銷現在只需 1 個 GPU Box,原本 72 個 GPU 機柜才能跑完的自動標注算法現在只要 4 臺 Dojo Cabinet 機柜就能做到。Dojo 相較于 A100 的優勢分為兩點:1、畫面幀數傳輸速度更快,
96、相同模型相同數據大小的情況下 Dojo 的運行 FPS 略高于英偉達 A100,意味著 Dojo 芯片有更好的傳輸速度和更優的計算性能。5.谷歌谷歌 TPU:Dojo 的的一面一面鏡子鏡子 2016 年,谷歌在開發者大會上,推出了自行研制的人工智能芯片 Tensor Processing Unit,TPU。這是首個人工智能的專用計算芯片,后續谷歌又開發出了 TPU v2、TPU v3、TPU v4、TPU v5 等系列產品。5.1.TPU 表表 9:TPU 歷代發布時間歷代發布時間 名稱名稱 時間時間 性能性能 應用應用 TPUv1 2016 年 92Tops+8GB DDR3 數據中心推理
97、TPUv2 2017 年 180TFlops(集成 4 塊芯片)+64GB(HBM)數據中心訓練和推理 TPUv3 2018 年 420TFlops+128GB(HBM)數據中心訓練和推理 Edge TPU 2018 年 可處理高吞吐量的流式數據 loT 設備 TPUv2 pod 2019 年 11.5 千萬億次點運算/s,4TB(HBM),二維環面網狀網絡 數據中心訓練和推理 TPUv3 pod 2019 年 100 千 萬 億 次 浮 點 運 算/s,32TB(HBM),二維環面網狀網絡 數據中心訓練和推理 TPUv4 2021 年 OCS 光互連 數據中心訓練和推理 TPUv4 pod
98、2022 年 數據中心訓練和推理 TPUv5 2023 年 數據中心訓練和推理 數據來源:谷歌,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 48/56 汽車汽車/行業深度行業深度 表表 10:TPU 歷代芯片歷代芯片參數參數 TPUv1 TPUv2 TPUv3 Edge vl Pixel Neural Core TPUv4i Google TPUv4 Tensor TPUv5p Date introduced 2016 2017 2018 2018 2019 2020 2021 2023 Process node 28 nm 16 nm 16 nm 7nm 7 nm 5
99、nm Die size(mm)330mm 625mm 700mm 400mm 780mm On-chip memory(MB)28MB 32MB 32MB 144MB 288MB Clock speed(MHz)700MHz 700MHz 940MHz 1050MHz 1050MHz Memory 8GB DDR3 16 GB HBM 32 GB HBM 8GB DDR 32 GB HBM 95 GB HBM Memory bandwidth 300 GB/s 700 GB/s 900 GB/s 300GB/s 1200 GB/s 2765 GB/s TDP(W)75 280 450 175
100、300 TOPS Tera/Second)45 123 4 275 918 TOPS/W 0.31 0.16 0.56 2 1.62 數據來源:谷歌,東北證券 TPU 是谷歌基于自身的產品需要(云服務、終端產品)開發專門用于 AI 場景的 ASIC芯片,從 2016 年第一代產品推出至今已經來到了第五代。5.2.TPU v1 圖圖 55:TPU 架構架構 數據來源:谷歌,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 49/56 汽車汽車/行業深度行業深度 TPU v1 是采用 28nm 制程工藝的 ASIC 推理芯片,主頻為 700MHz,功耗為 40W。TPU v1 主
101、要對主要對 2015 年最火的神經網絡進行優化,年最火的神經網絡進行優化,包括 MLP、CNN、RNN、LSTM等,其性能在同期產品中非常拔群,計算采用 INT8 數據格式,并通過量化壓縮,保持精度。芯片種具有矩陣乘加專用加速器 MXU,通過改變傳統的運算模式,優化了流程,提升了效率,這也是第一個提出的張量計算單元。在芯片結構圖中,黃色代表運算單元;藍色是數據單元;綠色是 I/O,紅色是控制邏輯單元。與 CPU 和 GPU 相比,TPU 的控制單元更小,更容易設計,面積只占了整個沖模的 2%,給片上存儲器和運算單元留下了更大的空間。而且,TPU 的大小只有其他芯片的一半,而硅片越小,成本越低,
102、良品率也越高。圖圖 56:不同不同神經網絡上神經網絡上 TPU、CPU、GPU 性能比較性能比較 數據來源:量子位,東北證券 TPU 的另外一個優勢是的另外一個優勢是專用化帶來的高效率。專用化帶來的高效率。像 CPU 和 GPU 需要考慮各種任務上的性能優化,需要一些復雜的機制,帶來了更大的不確定性和報錯可能,也會帶來計算效率的損失;而對于 TPU 而言,我們能預測運行一個神經網絡需要的時間,能讓芯片以吞吐量接近峰值的狀態運行,同時嚴格控制延遲,所以表現出更加優異的性能,例如在 CNN1 模型中 TPU 的性能達到了 CPU 的 71 倍。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說
103、明 50/56 汽車汽車/行業深度行業深度 圖圖 57:TPU 與其他芯片性能比較與其他芯片性能比較 數據來源:In-Datacenter Performance Analysis of a Tensor Processing Unit,東北證券 圖圖 58:脈動陣列運算機制脈動陣列運算機制 數據來源:量子位,東北證券 在在 TPU 的的張量計算單元中,矩陣之間的計算可以一次進行,無需反復讀取內存張量計算單元中,矩陣之間的計算可以一次進行,無需反復讀取內存,因此大大提升了效率同時降低了能耗,使得 TPU v1 跑出了遠超同期其他芯片的計算性能。如上圖所示,CPU 和 GPU 在每次運算中都需要
104、從多個寄存器(register)中進行存??;而 TPU 的脈動陣列將多個運算邏輯單元(ALU)串聯在一起,復用從一個寄存器中讀取的結果,TPU 也是首個引入此項運算機制的芯片。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 51/56 汽車汽車/行業深度行業深度 5.3.TPU v2 及以上 圖圖 59:TPU v2 數據來源:谷歌,東北證券 圖圖 60:TPU v2 架構架構 數據來源:谷歌,東北證券 2017 年谷歌發布了 TPU v2 芯片,采用 16GB 高帶寬內存 HBM,單片算力達到45TFLOPS,可以支持 BF16 格式數據的浮點運算,因此具備了模型訓練能力。請務必閱
105、讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 52/56 汽車汽車/行業深度行業深度 圖圖 61:TPU 架構變化架構變化 數據來源:谷歌,東北證券 原先 TPU v1 架構中的 Actication Storage 和 Accumulators 都是存儲區域,為了提升訓練過程中的可編程性,將兩者合并得到了類似于 L1 Cache 的 Vector Memory。Activation Pipeline 變為更加通用可編程的 Vector Unit,負責進行激活等相關運算。MXU 單元直接和 Vector Unit 相連,作為向量單元的協處理器,對編程更加友好。由于訓練場景既要讀取權重,又要
106、寫入權重,將高速 HBM 和 Vector Memory 相連。通過以上改動就得到了 TPU v2 的訓練芯片架構,之后谷歌在此基礎之上有迭代開發出了 TPU v3、TPU v4 和 TPU v5 系列芯片。圖圖 62:TPU v4 數據來源:谷歌,東北證券 請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 53/56 汽車汽車/行業深度行業深度 圖圖 63:TPU v4 和和 v5 參數參數 數據來源:谷歌,東北證券 谷歌 TPU 系列推出之時轟動全球,不過作為一款專用芯片時至今日也難以做到工業級別的適配和開發生態,最后還是以谷歌內部自用為主,特斯拉 Dojo 的路線和模式也使得它在
107、大規模推廣上也會面臨著相同的壓力。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 54/56 汽車汽車/行業深度行業深度 6.投資建議投資建議 特斯拉從制造公司到 AI 公司的轉型需要大量算力作為儲備,雖然英偉達的訓練芯片生態完備,但是作為通用芯片效率相對較低,而且單位成本較高,因此特斯拉通過自研 Dojo 來解決上述問題。Dojo 芯片關注的核心點在于其性能、應用范圍和對英偉達訓練芯片的影響。我們的結論也非常清晰,Dojo 產品設計和性能頂尖,但通用性不如英偉達,未來主要還是加速特斯拉內部模型訓練為主:1.Dojo 是采用存算一體架構,內核高度精簡,系統高度集成的超算體系,能夠在單
108、位體積和空間實現極致的運算能力,對于特斯拉智能駕駛和人形機器人的視覺模型的訓練具有更強的加速作用。2.Dojo 是特斯拉對自身情況定制的算力體系,對其他公司或者其他應用場景的模型訓練場景不一定具備類似的適配性,目前也沒有良好的開發生態,預計 Dojo短期之內很難做到類似于英偉達的上手難度。3.參考谷歌 TPU 推出之時也是轟動全球,但是還是難以做到工業級別的適配和開發生態,最后也是以自用為主,特斯拉Dojo的路線和模式也會面臨類似的困境。7.風險提示風險提示 智駕進展不及預期智駕進展不及預期。目前智能駕駛尚處于行業發展期,方案和功能仍需進步,存在消費端的需求增長較慢不及預期的風險。人形機器人進
109、展不及預期。人形機器人進展不及預期。人型機器人行業處在行業初期,未來進展可能不及預期。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 55/56 汽車汽車/行業深度行業深度 研究團隊簡介:研究團隊簡介:Table_Introduction 周穎:伯明翰大學國際商業學碩士,現任電力設備新能源組證券分析師,2019 年加入東北證券。陳緯國:北京大學材料化學學士,加州大學洛杉磯分?;瘜W工程碩士,現任新能車組研究助理,主要研究方向包括鋰電、智能駕駛、機器人等,2022 年加入東北證券。分析師聲明分析師聲明 作者具有中國證券業協會授予的證券投資咨詢執業資格,并在中國證券業協會注冊登記為證券分析
110、師。本報告遵循合規、客觀、專業、審慎的制作原則,所采用數據、資料的來源合法合規,文字闡述反映了作者的真實觀點,報告結論未受任何第三方的授意或影響,特此聲明。投資投資評級說明評級說明 股票 投資 評級 說明 買入 未來 6 個月內,股價漲幅超越市場基準 15%以上。投資評級中所涉及的市場基準:A 股市場以滬深 300 指數為市場基準,新三板市場以三板成指(針對協議轉讓標的)或三板做市指數(針對做市轉讓標的)為市場基準;香港市場以摩根士丹利中國指數為市場基準;美國市場以納斯達克綜合指數或標普 500指數為市場基準。增持 未來 6 個月內,股價漲幅超越市場基準 5%至 15%之間。中性 未來 6 個
111、月內,股價漲幅介于市場基準-5%至 5%之間。減持 未來 6 個月內,股價漲幅落后市場基準 5%至 15%之間。賣出 未來 6 個月內,股價漲幅落后市場基準 15%以上。行業 投資 評級 說明 優于大勢 未來 6 個月內,行業指數的收益超越市場基準。同步大勢 未來 6 個月內,行業指數的收益與市場基準持平。落后大勢 未來 6 個月內,行業指數的收益落后于市場基準。請務必閱讀正文后的聲明及說明請務必閱讀正文后的聲明及說明 56/56 汽車汽車/行業深度行業深度 重要聲明重要聲明 本報告由東北證券股份有限公司(以下稱“本公司”)制作并僅向本公司客戶發布,本公司不會因任何機構或個人接收到本報告而視其
112、為本公司的當然客戶。本公司具有中國證監會核準的證券投資咨詢業務資格。本報告中的信息均來源于公開資料,本公司對這些信息的準確性和完整性不作任何保證。報告中的內容和意見僅反映本公司于發布本報告當日的判斷,不保證所包含的內容和意見不發生變化。本報告僅供參考,并不構成對所述證券買賣的出價或征價。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的證券買賣建議。本公司及其雇員不承諾投資者一定獲利,不與投資者分享投資收益,在任何情況下,我公司及其雇員對任何人使用本報告及其內容所引發的任何直接或間接損失概不負責。本公司或其關聯機構可能會持有本報告中涉及到的公司所發行的證券頭寸并進行交易,并在法律許可
113、的情況下不進行披露;可能為這些公司提供或爭取提供投資銀行業務、財務顧問等相關服務。本報告版權歸本公司所有。未經本公司書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用。如征得本公司同意進行引用、刊發的,須在本公司允許的范圍內使用,并注明本報告的發布人和發布日期,提示使用本報告的風險。若本公司客戶(以下稱“該客戶”)向第三方發送本報告,則由該客戶獨自為此發送行為負責。提醒通過此途徑獲得本報告的投資者注意,本公司不對通過此種途徑獲得本報告所引起的任何損失承擔任何責任。地址地址 郵編郵編 中國吉林省長春市生態大街 6666 號 130119 中國北京市西城區錦什坊街 28 號恒奧中心 D 座 100033 中國上海市浦東新區楊高南路 799 號 200127 中國深圳市福田區福中三路 1006 號諾德中心 34D 518038 中國廣東省廣州市天河區冼村街道黃埔大道西 122 號之二星輝中心 15 樓 510630