《智能駕駛系列報告二:特斯拉FSD:智駕全棧自研 開啟宏圖新篇-241010(55頁).pdf》由會員分享,可在線閱讀,更多相關《智能駕駛系列報告二:特斯拉FSD:智駕全棧自研 開啟宏圖新篇-241010(55頁).pdf(55頁珍藏版)》請在三個皮匠報告上搜索。
1、本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 1 智能駕駛系列報告二:特斯拉 FSD:智駕全棧自研 開啟宏圖新篇 2024 年 10 月 10 日 概述:FSD 軟硬件全鏈路閉環 技術端快速進化。特斯拉 FSD 是一套包含感知、規控、執行在內的全鏈路自動駕駛軟硬件架構,在算法、算力、數據、芯片等層面實現了高度集成。FSD 技術端快速進化,V12 為首個端到端自動駕駛系統,能夠模擬人類駕駛行為,實現感知決策一體化。特斯拉 Robotaxi 即將正式推出,有望成為特斯拉發展歷程重要里程碑。算法端:創新算法優化 實現高效神經網絡推理。1)感知模塊,采用HydraNets
2、架構,整合多個視覺識別任務到單一網絡,通過 BEV+Transformer技術,實現對車輛周圍環境的感知;2)規劃模塊,引入基于神經網絡的規劃模塊和蒙特卡洛樹搜索,提高自動駕駛決策質量。通過算法端全棧自研,特斯拉以低成本感知硬件實現高階智駕能力,快速優化迭代自動駕駛算法。算力端:布局 Dojo 超級算力 支撐遠期算力需求。特斯拉從算力芯片開始,完整構建 Dojo 超級計算機系統,以處理自動駕駛所需海量數據,旨在擺脫對英偉達 GPU 的依賴,為遠期算力瓶頸進行前瞻布局。其中,自研 D1 芯片作為 Dojo核心,采用存算一體架構,高效優化數據傳輸和處理效率,為 AI 訓練提供強大支持。芯片端:自研
3、 FSD 芯片 集成高效計算能力。特斯拉自動駕駛硬件平臺HW1.0、HW2.0 分別與 Mobileye、英偉達合作推出,2019 年推出 HW3.0 系統,正式轉向硬件平臺全面自研,下一代全自動駕駛硬件 AI 5 預計將于 2025 年下半年投產。特斯拉自研 FSD 芯片采用異構設計,計算性能和高效的數據處理能力卓越。通過芯片自研,特斯拉能夠實現硬件方案的持續快速迭代,與軟件算法進行更好的整合,從而實現更優的系統性能。數據端:自動化數據閉環 優化數據驅動訓練。1)自動標注,特斯拉開發自動標注系統生成 4D 標簽,實現人工與機器相結合的數據標注,大幅提高標注效率;2)仿真模擬:構建虛擬仿真空間
4、,安全且高效地重現和構建極端及復雜場景以進行算法訓練,賦能模型迭代;3)數據引擎,特斯拉將采集的數據通過影子模式篩選出具有語義信息的有效數據,回傳至云端,實現數據和模型持續優化。特斯拉形成綜合訓練數據集,用于訓練車端的在線模型,形成閉環的數據流,實現自動駕駛系統的持續優化。FSD 技術端快速進化 實現感知決策一體化。2023 年 12 月,特斯拉正式推出 FSD Beta V12,是首個實現端到端 AI 自動駕駛的系統,采用單一深度學習模型處理從原始輸入到駕駛決策的全過程,提升自動駕駛的效率和適應性。特斯拉FSD 快速進化,V13 即將 10 月推出,有望于 2025Q1 進入中國和歐洲,智能
5、駕駛拐點已至。投資建議:FSD 技術端快速進化,“We,Robot”發布會即將開幕,Robotaxi即將推出,有望成為特斯拉發展歷程重要里程碑,并與 FSD V13 發布形成共振,共同成為板塊強勁催化,智能駕駛奇點已至:推薦 1)智能駕駛-【伯特利、德賽西威、經緯恒潤-W、科博達】+智能座艙-【上聲電子(智能聲學)、繼峰股份(智能座椅)、光峰科技(車載光學)】;2)T 鏈-【拓普集團、新泉股份、愛柯迪、旭升集團、雙環傳動、岱美股份、銀輪股份】。風險提示:智能化滲透率提升不及預期,智能駕駛技術發展不及預期,Robotaxi 商業化進展不及預期。推薦 維持評級 分析師 崔琰 執業證書:S01005
6、23110002 郵箱: 研究助理 完顏尚文 執業證書:S0100124040021 郵箱: 相關研究 1.汽車和汽車零部件行業周報 20241007:假期港股汽車走強 看多強勢車企+智駕-2024/10/07 2.新勢力系列點評十一:新勢力銷量新高 供給驅動加速-2024/10/03 3.汽車和汽車零部件行業周報 20240929:汽車板塊投資思考:看多強勢車企+智駕-2024/09/29 4.汽車和汽車零部件行業周報 20240922:2024Q3 前瞻:自主崛起提速 規模效應加強-2024/09/22 5.摩托車行業系列點評八:中大排增勢強勁 出口加速恢復-2024/09/20 行業深度
7、研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 2 目錄 1 引言.3 2 概覽:軟硬件全鏈路閉環 全棧自研構筑強大技術基石.5 2.1 發展歷程:軟硬件持續迭代 由外部合作到全棧自研.5 2.2 系統架構:軟硬件全鏈路閉環 實現高度集成.6 3 算法端:創新算法優化 實現高效神經網絡推理.8 3.1 感知:先進感知技術,確保精準環境理解和物體識別.8 3.2 規劃:采用交互搜索框架 快速選擇最優方案.18 4 算力端:Dojo 超級算力支撐 保持能效比優勢.21 4.1 Dojo 系統:特斯拉自研超算平臺 研發進展迅猛.21 4.2 D1 芯片:基于存算
8、一體架構 實現高效數據傳輸.24 4.3 瓦片集群:由基本單元出發 構成大規模算力集群.26 4.4 軟件系統:采用高效同步機制 性能較 GPU 大幅提升.27 5 芯片端:自研 FSD 芯片 集成高效計算能力.30 5.1 硬件架構:由合作邁向自研 運算性能強大.30 5.2 編譯推理:高效優化 最大化計算資源利用.34 6 數據端:自動化數據閉環 優化數據驅動訓練.36 6.1 自動標注:自動化 4D 標簽生成 提升標注效率.36 6.2 仿真模擬:構建虛擬場景 優化算法表現.39 6.3 數據引擎:集成多源數據 加速模型訓練.42 7 端到端架構:FSD V12 引領 實現感知決策一體化
9、.46 7.1 特斯拉的 AI 關鍵時刻:FSD V12 首次實現端到端 V13 即將推出.46 7.2 大模型成就端到端自動駕駛 推動感知決策一體化.48 7.3 端到端架構演進:感知端到端到 One Model 端到端.49 8 投資建議.51 9 風險提示.52 插圖目錄.53 表格目錄.54 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 3 1 引言 本報告為特斯拉 FSD 專題報告,從算法端、算力端、芯片端、數據端四個層面出發,對 FSD 系統底層技術原理進行全面深度拆解,并結合端到端架構演進趨勢,對 FSD 系統的最新發展變化進行梳理
10、,對板塊后續核心催化進行展望。FSD 是一套包含感知、規控、執行在內的全鏈路自動駕駛軟硬件架構,在算法、算力、數據、芯片等層面實現了高度集成:1)算法端:感知規劃算法全棧自研,實現從純視覺信息輸入到規劃方案輸出。1)感知。特斯拉采用 BEV+Transformer 架構,將 2D 圖像轉化為對周圍環境的準確 3D 感知。而后,特斯拉將該架構升級為 Occupancy Network,能夠直接在向量空間產生體積占用,精準識別物體運動狀態差異;2)規劃。特斯拉采用交互搜索框架,以任務分解的方式對一系列可能的行駛軌跡進行研究,實現對規劃方案的實時評估。通過算法端全棧自研,特斯拉以低成本感知硬件進行高
11、階智駕能力輸出,快速實現自動駕駛算法優化迭代。2)算力端:從 0 到 1 構建超級計算機系統,為遠期算力提供強大支撐。特斯拉從算力芯片開始,完整構建 Dojo 超級計算機系統,以處理自動駕駛所需海量數據。2021 年 8 月,Dojo 在特斯拉首屆 AI Day 上正式亮相,定位為超高速訓練計算機,采用分布式計算架構設計,算力分為內核級、芯片級、格點級、集群級等四個層級,實現從訓練節點到訓練集群的完整構建。特斯拉從 0 到 1 構建超級計算機系統,旨在擺脫對英偉達 GPU 的依賴,為遠期算力瓶頸進行前瞻布局。3)芯片端:由合作邁向自研,實現高性能算力集成。特斯拉自動駕駛硬件平臺初期與 Mobi
12、leye、英偉達等合作,2019 年正式發布基于自研 FSD 芯片的 HW 3.0 系統,開始轉向硬件平臺全面自研,下一代全自動駕駛(FSD)硬件AI 5,預計將于 2025 年下半年投產。FSD 硬件計算平臺采用兩顆 SoC 芯片,以雙系統設計提升自動駕駛功能安全冗余。特斯拉構建了神經網絡編譯器與鏈接器,以最大化計算資源利用率、吞吐量,并最小化延遲。通過芯片自研,特斯拉能夠實現硬件方案的持續快速迭代,與軟件算法進行更好的整合,從而實現更優的系統性能。4)數據端:高效自動標注+構建仿真場景,實現數據驅動訓練。2020 年,特斯拉開始研發并使用數據自動標注系統,能夠在 12 小時內自動標注一萬個
13、駕駛旅程,可抵充 500 萬個小時的人工標注工作,極大提高了標注效率。仿真模擬則可以提供現實世界中難以獲得或是難以標記的數據,從而加速 FSD 能力的訓練,賦能模型迭代。結合真實數據和標簽,以及仿真和手動校準的數據,特斯拉形成綜合訓練數據集,用于訓練車端的在線模型,涉及網絡占用、車道線和障礙物檢測以及規劃算法,形成閉環的數據流,實現自動駕駛系統的持續優化。FSD 技術端快速進化,V12 為首個端到端自動駕駛系統,能夠模擬人類駕駛行為,實現感知決策一體化。特斯拉 FSD v12 于 2023 年底推出,采用端到端大行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證
14、券研究報告 4 模型,消除了自動駕駛系統的感知和定位、決策和規劃、控制和執行之間的斷面,將三大模塊合在一起,形成了一個大的神經網絡,直接從原始傳感器數據到車輛操控指令,簡化了信息傳遞過程,因而減少了延遲和誤差,提高了系統的敏捷性和準確性。特斯拉 FSD 快速進化,V13 即將 10 月推出,有望于 2025 年 Q1 進入中國和歐洲,智能駕駛拐點已至?!癢e,Robot”發布會即將開幕,有望成為智駕板塊強勁催化。特斯拉將于北京時間 10 月 11 日在美國洛杉磯發布新品,活動主題口號為“We,Robot”。特斯拉 Robotaxi 即將正式推出,有望成為特斯拉發展歷程重要里程碑,并與 FSD
15、V13 發布形成共振,共同成為板塊強勁催化。本篇報告與市場不同之處:1)從算法端、算力端、芯片端、數據端四個層面出發,對 FSD 系統底層技術原理進行全面深度拆解;2)結合 FSD V12 系統發展路徑,對感知端到端到 One Model 端到端的技術架構演進趨勢展開研究,探析自動駕駛領域全新發展路徑;3)對特斯拉 FSD 的未來發展路徑進行分析,判斷特斯拉自動駕駛的重要技術發展節點,并對未來智駕板塊的潛在事件催化進行展望。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 5 2 概覽:軟硬件全鏈路閉環 全棧自研構筑強大技術基石 2.1 發展歷程:軟
16、硬件持續迭代 由外部合作到全棧自研 特斯拉自動駕駛系統發展始于 2013 年,初期采用外部合作方式。2013 年 9月,馬斯克在推特上首次提到 AP(Autopilot 系統),表示特斯拉正在進行自動駕駛領域的探索。2014 年 10 月,特斯拉與視覺處理芯片獨角獸公司 Mobileye進行合作,正式推出第一代 Autopilot 硬件(HW1.0),率先搭載于 Model S。在未來一年多的時間里,特斯拉通過 OTA 不斷更新固件,使車輛獲得更完善的駕駛輔助或自動駕駛功能。2016 年 10 月,特斯拉推出第二代 Autopilot 硬件(HW2.0),采用了英偉達的 DRIVE PX2 平
17、臺,硬件平臺進一步升級。圖1:2013 年 9 月,馬斯克在 Twitter 中首次提到 AP 資料來源:界面新聞,民生證券研究院 2019 年 4 月,特斯拉推出 HW3.0,正式開啟全棧自研。HW3.0 放棄了英偉達的 DRIVE PX2 平臺,轉而采用特斯拉全棧自研的 FSD 芯片。2020 年 10 月,特斯拉小范圍推送 FSD Beta,對 Autopilot 基礎架構進行了重大重寫。2021 年7 月,特斯拉開始推送 FSD Beta V9,該版本采用純視覺自動駕駛方案,摒棄了傳統的毫米波雷達和超聲波雷達,是特斯拉在自動駕駛技術的重要發展節點。2024年 1 月,特斯拉 FSD V
18、12 正式向用戶推送,將城市街道駕駛堆棧升級為端到端神經網絡,該神經網絡由數百萬個視頻片段訓練而成,取代了超過 30 萬行的 C+代碼。2024 年 2 月,特斯拉 Model Y 迎來 HW4.0 自動輔助駕駛硬件升級,與HW3.0 相比,HW4.0 算力提升 5 倍,在硬件設計上實現并行處理能力增強、內存管理優化和專用加速器集成等多項創新。從最初的輔助駕駛系統,到全棧自研自動駕駛技術,特斯拉持續引領智能駕駛技術發展浪潮。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 6 圖2:特斯拉自動駕駛系統發展歷程 資料來源:特斯拉官網,Teslarati
19、,搜狐網等,民生證券研究院 FSD 累計行駛里程快速增長,商業化拐點已至。2024 年 4 月 12 日,為降低FSD 體驗門檻,吸引更多人訂閱,特斯拉 FSD 推出單月付費優惠,價格從 199 美元/月調降 50%至 99 美元/月,FSD 買斷價格維持 1.2 萬美元不變。FSD V12 版本更新、訂閱價格下降,共同驅動 FSD 累計行駛歷程數快速增長,截至 2024 年8 月 7 日,FSD 累計行駛里程達 1.6 億公里,商業化拐點已至。圖3:FSD 累計行駛里程 圖4:FSD 訂閱價格降至 99 美元/月 資料來源:Teslarati,民生證券研究院 資料來源:阿爾法工廠研究院,民生
20、證券研究院 2.2 系統架構:軟硬件全鏈路閉環 實現高度集成 FSD 是一套包含感知、規控、執行在內的全鏈路自動駕駛軟硬件架構,在算法、算力、數據、芯片等層面實現了高度集成。FSD 架構在 Tesla AI Day 2022 完整提出,核心組件包括規劃(Planning)、神經網絡(Neural Networks)、訓練數據(Training Data)、訓練基礎設施(Training Infra)、AI 編譯與推理(AI 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 7 Compiler&Inference)等。FSD 核心組件在算法端、算力端
21、、數據端和硬件端展現出強大的整合能力:1)算法端,規劃組件專注于解決復雜的多物體關聯路徑規劃問題,通過精確處理自我車輛與周圍所有對象的行進軌跡,為汽車提供執行動作的指導。同時,神經網絡則利用視頻流等信息,輸出車輛的運動學狀態,如位置、速度、加速度等,以實現精確控制。2)算力端,訓練基礎設施提供了強大的計算支持,包括 CPU、GPU 和神經網絡加速器單元(Neural Network Accelerator)。這些硬件資源通過 AI 編譯器的優化,能夠高效地支持神經網絡所需的新操作,并映射到最合適的硬件上,從而提升整體的計算效率。3)芯片端,AI 編譯與推理組件確保了神經網絡能夠在計算機上高效運
22、行。通過將神經網絡的執行分配到兩個獨立的芯片系統上,FSD 實現了高性能的并行計算,進一步提升了自動駕駛系統的響應速度和處理能力。4)數據端,訓練數據通過 4D 自動標注技術、模擬仿真和數據引擎,實現了數據的自動化和精準化處理,形成了一個閉環的數據系統,為算法的訓練和優化提供了高質量的數據基礎。圖5:特斯拉 FSD 系統架構 資料來源:Tesla AI Day 2022,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 8 3 算法端:創新算法優化 實現高效神經網絡推理 感知規劃算法全棧自研,實現從純視覺信息輸入到規劃方案輸出。1)感
23、知。特斯拉采用 BEV+Transformer 架構,將 2D 圖像轉化為對周圍環境的準確 3D 感知。而后,特斯拉將該架構升級為 Occupancy Network,能夠直接在向量空間產生體積占用,精準識別物體運動狀態差異;2)規劃。特斯拉采用交互搜索框架,以任務分解的方式對一系列可能的行駛軌跡進行研究,實現對規劃方案的實時評估。通過算法端全棧自研,特斯拉以低成本感知硬件進行高階智駕能力輸出,快速實現自動駕駛算法優化迭代。3.1 感知:先進感知技術,確保精準環境理解和物體識別 3.1.1 HydraNets:感知算法整體框架 以標準化流程處理視覺信息 特斯拉視覺感知系統采用 HydraNet
24、s 架構,以標準化流程進行視覺信息處理。1)Input。首先,系統接收來自攝像頭的原始視覺數據,每個攝像頭采集分辨率為 1280960、36hz、12 bit 的視頻圖像;2)Backbone。用于提取圖像特征,特斯拉主要采用由 RegNets(Residual Neural Networks,殘差神經網絡)組成的特征網絡結構,能夠通過不同層次的特征提取,捕捉圖像的細節以及整體上下文信息;3)Neck。用于提取更復雜的特征,特斯拉采用 BiFPNs(Bi-directional Feature Pyramid Networks,雙向特征金字塔網絡),通過引入雙向信息流,實現多個尺度之間信息交流
25、共享,增強了對多尺度目標的檢測性能;4)Head。由多個 Task Specific Heads 組成,負責最終的檢測任務,如物體檢測、交通信號和車道識別等。HydraNets 架構能夠實現特征共享、任務解耦與特征緩存。1)特征共享。HydraNets 通過共享 Backbone 和 BiFPNs 特征金字塔網絡,減少了重復計算工作;2)任務解耦。每個子任務在主干網絡上獨立工作和微調,而不影響其他子任務,從而可以在不影響其他任務的情況下,單獨對某個任務的數據集或頭部架構進行更改和優化;3)特征緩存。HydraNets 可以緩存多尺度級別特征,在進行微調工作流程時,可以只使用這些緩存的特征來微調
26、模型的頭部,而無需重復計算整個網絡。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 9 圖6:特斯拉視覺感知系統算法采用 HydraNets 架構 資料來源:Tesla AI Day 2021,民生證券研究院 特斯拉早期方案為先在二維圖像空間實現感知,再投射至三維向量空間。攝像頭采集到的數據為 2D 圖像級,與現實世界不在一個維度,因此要實現完全自動駕駛能力,則需要將二維數據變換至三維空間。特斯拉早期采取的方案是先在二維圖像空間(Image Space)實現感知,將其投射至三維向量空間(Vector Space),再將所有攝像頭的結果進行融合,但該
27、方法需要對每個像素的信息進行精準深度預測,難度極大。此外,該方法無法對被遮擋的區域進行預測,因此如果物體橫跨多個攝像頭,且沒有任何攝像頭能夠檢測到物體全貌,則難以對多個攝像頭采集到的信息進行準確融合,從而無法對物體進行準確預測。圖7:圖像空間預測投射到向量空間后出現較大偏差 圖8:單相機檢測無法解決物體橫跨多相機的問題 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 特斯拉采用 BEV+Transformer 架構,將 2D 圖像轉化為 3D 感知。為了構建三維向量空間,網絡需要進行物體深度信息輸出。大部分自動駕駛公司
28、的方案是行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 10 采用激光雷達、毫米波雷達等傳感器來獲取深度信息,與視覺感知結果進行融合,而特斯拉堅持使用純視覺視頻數據來計算深度信息,在網絡結構中引入一層 BEV(Bird Eyes View,鳥瞰圖)空間轉換層,用以構建網絡的空間理解能力。特斯拉采用“前融合”方案,將車身多個攝像頭獲得的視頻數據直接進行融合,并采用同一套神經網絡進行訓練,實現特征從二維圖像空間到三維向量空間的變換。Transformer 神經網絡是實現二維到三維變換的核心,通過自注意力機制(Self-Attention)和多頭注意力(
29、Multi-Head Attention)模塊,將每個相機對應的圖像特征轉換為 Key(鍵)和 Value(值),然后訓練模型以查表的方式自行檢索需要的特征用于預測,實現對車輛周圍環境的準確感知。圖9:BEV 視角融合了多個攝像頭的視頻數據 圖10:Transformer 是實現二維到三維變換的核心 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 通過虛擬標準攝像頭實現圖像校準,消除外參誤差。不同車輛由于攝像頭安裝外參的差異,可能導致采集的數據存在微小偏差,為此特斯拉在感知框架中加入了一層虛擬標準攝像頭(synthet
30、ic virtual camera),引入攝像頭標定外參將每輛車采集到的圖像數據通過去畸變、旋轉等方式處理后,統一映射到同一套虛擬標準攝像頭坐標中,從而實現各攝像頭原始數據的校準(Rectify),消除外參誤差,確保數據一致性。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 11 圖11:通過圖像校準解決攝像頭采集數據偏差問題 圖12:加入虛擬標準攝像頭以校準圖像數據偏差 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 特斯拉引入時空序列特征層,以進一步提升環境感知準確性。
31、在引入BEV+Transformer 后,感知網絡已經具備三維向量空間的感知能力,但仍是對瞬時的圖像片段進行感知,只能根據當前時刻感知到的信息進行判斷,感知不到世界空間內部分特征。特斯拉通過引入時空序列特征層,使得感知網絡擁有類似于司機的短時記憶,可以對當前時刻的場景做出判斷,并根據一段時間內的數據特征推演出目前場景下的可能結果。圖13:感知網絡仍是對瞬時圖像片段進行感知 圖14:特斯拉引入時空序列特征層 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 時空序列特征層主要包括兩部分:1)特征隊列模塊(Feature Q
32、ueue),用來緩存時序與空間特征。其中,時序特征隊列每過 27ms 將一個特征加入隊列,可以穩定感知結果的輸出,比如運動過程中發生的目標遮擋,模型可以找到目標被遮擋前的特征來預測感知結果;空間特征隊列每行駛一定固定距離,將一個特征加入隊列,用于等紅綠燈一類需要長時間靜止等待的狀態,在該狀態下一段時間之前的時序特征隊列中的特征會出隊而丟失,因此需要用空間特征隊列來記住一段距離之前路面的箭頭或是路邊的標行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 12 牌等交通標志信息;圖15:特征序列模塊可以緩存時序與空間特征 資料來源:Tesla AI Day
33、 2021,民生證券研究院 2)視頻模塊(Video Queue),用來整合時序上的信息。特斯拉使用 RNN結構作為視頻模塊,命名為空間 RNN 模塊(Spatial RNN Module)。車輛在二維平面上前進,可以將隱狀態(Hidden State)組織成一個二維網格。當車輛前進時,只更新網格上與車輛當前視野相關的部分,同時使用車輛的運動學狀態以及隱特征(Hidden Features)更新車輛位置??臻g RNN 的隱狀態可包含多個通道,每個通道可以跟蹤道路的不同方面,如道路中心、邊緣、標線等,網格可以同時處理多種類型的環境信息。網絡可以根據當前的能見度選擇性地更新隱藏狀態,如果某個區域被
34、其他車輛遮擋,網絡可以選擇不更新那個區域的狀態,直到能見度恢復。視頻模塊能夠提升感知系統對于時序遮擋的魯棒性、對于距離和目標移動速度估計的準確性。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 13 圖16:隱狀態可組織成二維網格 圖17:空間 RNN 的隱狀態可包含多個通道 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 3.1.2 Occupancy Network:對 HydraNets 進行重要改進 直接在向量空間產生體積占用 Occupancy Network 能
35、夠對長尾障礙物進行更好表達。在自動駕駛過程中,對常見障礙物如車輛、行人,可以通過 3D 物體檢測的方式來估計其位置和大小,但還有更多長尾障礙物也會對行駛產生重要影響,例如:1)可變形的障礙物,如兩節的掛車,不適合用 3D bounding box 來準確表示;2)異形障礙物,如翻倒的車輛,難以用傳統的 3D 姿態來表示;3)不在已知類別中的障礙物,如路上的石子、垃圾等,無法進行分類。因此,我們希望能找到一種更好的表達來描述這些長尾障礙物,完整估計 3D 空間中每一個位置的占據情況(Occupancy),甚至是語義(Semantics)和運動情況(Flow)。因此,特斯拉引入了 Occupanc
36、y Network(占用網絡)。Occupancy Network 是對 HydraNets 的重要改進,能夠直接在向量空間產生體積占用。Occupancy Network 算法受到機器人領域中 occupancy grid mapping 啟發,將 3D 空間分為大小一致的體素網格(Grid cell),然后判斷每個 cell 是否被占用。Occupancy Network 以車輛攝像頭產生的視頻流作為輸入,直接在向量空間產生單一統一的體積占用,對車輛周圍 3D 位置被占用的概率進行預測,并可以通過視頻信息對被遮擋物體情況進行即時預測。對于每個位置,Occupancy Network 能夠產
37、生一組語義,如路緣、汽車、行人和路上的碎片。Occupancy Network 通過高效的計算能力,在 10 毫秒內快速更新對周圍環境的感知,同時提供物體尺寸的近似估計,支持動態及靜態場景的全面預測,具有低延遲和低內存占用的特點。Occupancy Network 能夠精準識別物體運動狀態差異,與傳統目標檢測網絡相比優勢明顯。中一輛兩節的公交車正在啟動,其中藍色表示運動的體素,紅色表示靜止的體素,Occupancy Network 精確捕捉到公交車第一節已經啟動,而第二節還處于靜止狀態的細微差別,并可對公交車的精確曲率進行預測,而這一過程行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務
38、必閱讀最后一頁免責聲明 證券研究報告 14 對傳統的目標檢測網絡來說非常復雜。圖18:Occupancy Network 對正在啟動的兩節公交車運動狀態進行精準捕捉 資料來源:Tesla AI Day 2022,民生證券研究院 Occupancy Network 能夠生成可行使表面,增強復雜地形自動駕駛車輛控制能力。除體素網格外,Occupancy Network 還能夠生成可行駛表面(driverable surface),可行駛表面具有 3D 幾何形狀與語義信息,能夠增強在多山、彎曲道路等復雜地形上,自動駕駛車輛的控制能力。決策層可利用可行駛表面信息,更好的進行加速、減速等運動決策。圖19
39、:Occupancy Network 能夠生成可行使表面 資料來源:Tesla AI Day 2022,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 15 Occupancy Network 引入 Spatial Attention 機制。Occupancy Network首先利用 RegNet 和 BiFPN 從多相機獲取特征,然后采用帶有 3D 空間位置信息的 Spatial Query,基于 Spatial Attention 注意力機制,實現對多個相機的 3D 空間位置信息和 2D 圖像的信息融合,模型從中學習對應的特征關
40、系,最終輸出高維的空間特征。在進行特征融合后,基于反卷積(Deconvolution)的解碼器會解碼出每個 3D 空間位置的占用情況和占用流輸出,形成固定大小的體素網絡。模型的最后額外設計了一個隱式 Queryable MLP Decoder,輸入任意坐標值(x,y,z),可解碼出該空間位置的信息,即 Occupancy,Semantics,Flow,打破了模型分辨率的限制。圖20:基于 Attention 機制的 Occupancy Network 占用網絡 資料來源:Tesla AI Day 2022,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免
41、責聲明 證券研究報告 16 3.1.3 Lanes Network:提供關鍵車道拓撲信息 優化軌跡與變道決策 Lanes Network 旨在為自動駕駛車輛提供關鍵的車道拓撲信息,以優化軌跡規劃和車道變換決策。初期,特斯拉將車道檢測問題建模為圖像空間即時分割任務,只能從幾種不同類型的幾何形狀中進行車道預測,適用于高速公路等高度結構化的道路,但無法應對交叉路口等復雜、多樣的道路拓撲場景。為此,特斯拉運用神經網絡來預測車道與車道之間的連接性。車道檢測神經網絡由三部分組成,其中第一部分包括卷積層、注意力層與其他神經網絡層,對車輛攝像頭采集的視頻信息進行編碼,產生豐富的視覺表示。之后,特斯拉采用涵蓋有
42、關交叉口內車道拓撲、各條道路上的車道數等信息的低精度地圖,對車道檢測神經網絡生成的豐富視覺表示進行增強,輸出密集張量信息,并最終轉化為車道及其連接性的信息。圖21:Lanes Network 旨在生成車道與連接信息 圖22:特斯拉采用低精度地圖對視覺表示進行增強 資料來源:Tesla AI Day 2022,民生證券研究院 資料來源:Tesla AI Day 2022,民生證券研究院 特斯拉采用離散化處理+樣條系數回歸的方法,進行車道線預測。特斯拉首先將現實世界進行離散化處理,引入粗略劃分的網格,然后對可能位置的熱力圖進行預測,鎖定可能性最大的位置,并在此基礎上對預測進行細化,以得到精確的點位
43、。不同點位的標記類型不同,新車道的起點為起始標記,其他點為延續標記,通過回歸樣條系數來獲取兩點間的精確幾何形狀。之后,不斷重復這一過程,直到得到車道圖中所有標記。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 17 圖23:Lanes Network 工作原理 資料來源:Tesla AI Day 2022,民生證券研究院 神經網絡可專注于計算最重要的區域,以較低延遲對道路上其他物體行為信息進行預測。自動駕駛系統神經網絡的運行分為兩步:1)神經網絡快速識別出 3D空間中代理(即車輛或物體)的位置;2)神經網絡從這些位置提取張量,結合車輛速度、方向等其
44、他數據,進行后續處理。通過稀疏化處理方式,神經網絡可以專注于計算最重要的區域,以較低延遲實現卓越性能,對道路上其他物體行為信息進行預測。自動駕駛系統不僅可以理解環境中的位置和運動狀態,還能夠對其豐富的語義信息進行預測,從而在保證駕駛安全性的同時,實現類人的駕駛操作。圖24:稀疏化處理可使神經網絡專注于計算最重要的區域 資料來源:Tesla AI Day 2022,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 18 3.2 規劃:采用交互搜索框架 快速選擇最優方案 效率、安全和舒適是自動駕駛規劃的三大目標,非凸性和高維性是自動駕駛規
45、劃的兩大難點。與高速路況相比,城市路況更為復雜,需要應對臨時施工路段、穿行車輛與行人。自動駕駛規劃的難點主要體現在兩個方面:1)非凸性,行動空間是非凸的,意味著存在多個可能的解,但難以找到全局一致的解決方案,規劃可能會陷入局部最小值;2)高維性,車輛需要對未來 10-15 秒的行為做出規劃,涉及位置、速度、加速度等大量參數,導致規劃問題呈現出高維的特征。圖25:效率、安全和舒適是自動駕駛規劃的三大目標 圖26:非凸性和高維性是自動駕駛規劃的兩大難點 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 特斯拉將規劃問題進行分
46、層分解,先采用離散搜索方法降低非凸性,縮小選擇范圍,再采用連續優化方法進行優化,得出最終解決方案。對于非凸問題,特斯拉采用離散搜索方法解決,因為離散搜索不會陷入局部最小值,而連續函數優化容易陷入局部最小值;對于高維問題,特斯拉采用連續優化方法解決,因為離散搜索方法不使用任何梯度信息,需要逐點評估每個點的好壞,效率較低,而連續優化方法利用基于梯度的方法,可以快速找到好的解決方案。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 19 圖27:特斯拉將規劃問題進行分層分解 資料來源:Tesla AI Day 2021,民生證券研究院 自動駕駛規劃需要解決
47、多代理聯合軌跡規劃問題,快速選出最優行駛方案。自動駕駛系統需要解決多代理聯合軌跡規劃的問題,考慮自己和所有其他車輛、行人的運動軌跡,對所有可能的行駛方案進行評估,快速選出最優行駛方案。評估過程至少需要 10 毫秒左右,而在面對繁忙路口等復雜場景時需要 50 毫秒。圖28:自動駕駛系統需要實現多代理聯合軌跡規劃 圖29:自動駕駛行駛方案評估至少需要 10 毫秒 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2022,民生證券研究院 為實現實時方案評估,特斯拉采用交互搜索框架,以任務分解的方式對一系列可能的行駛軌跡進行研究。1)自動駕駛系統首先收
48、集車道、障礙物和周圍移動物體的視覺測量數據,這些數據被表示為稀疏抽象(Sparse Abstraction)和潛在特征(Latent Features)。自動駕駛系統利用這些信息生成一組候選目標,使用經典優化方法與神經網絡規劃器來創建初始軌跡;2)得到初始軌跡之后,特斯拉采行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 20 用遞增式的方法,在關鍵約束的基礎上,不斷加入新的約束條件,利用較少約束下的最優解作為初值,逐步求解更復雜的優化問題;3)構建輕量級可查詢網絡,該網絡由人類駕駛數據與寬松時間限制下的計算數據進行訓練,能夠在 100 微秒內對規劃
49、軌跡進行評分,顯著提升規劃效率。特斯拉主要從四個方面對規劃軌跡進行評分,進行決策樹剪枝:1)碰撞檢查,以確保路徑安全;2)舒適性分析,以評估乘客體驗;3)干預可能性,以評估候選路徑導致人工接管的概率;4)與人類駕駛接近度,基于人類駕駛數據,評估候選路徑與人類駕駛員行為的接近程度。通過綜合評估,特斯拉規劃系統能夠高效地篩選出最優路徑,優化自動駕駛的決策過程。圖30:特斯拉采用交互搜索框架,實現實時方案評估 資料來源:Tesla AI Day 2022,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 21 4 算力端:Dojo 超級算力
50、支撐 保持能效比優勢 從 0 到 1 構建超級計算機系統,為遠期算力提供強大支撐。特斯拉從算力芯片開始,完整構建 Dojo 超級計算機系統,以處理自動駕駛所需海量數據。2021年 8 月,Dojo 在特斯拉首屆 AI Day 上正式亮相,定位為超高速訓練計算機,采用分布式計算架構設計,算力分為內核級、芯片級、格點級、集群級等四個層級,實現從訓練節點到訓練集群的完整構建。特斯拉從 0 到 1 構建超級計算機系統,旨在擺脫對英偉達 GPU 的依賴,為遠期算力瓶頸進行前瞻布局。4.1 Dojo 系統:特斯拉自研超算平臺 研發進展迅猛 Dojo 于 2021 年 8 月正式亮相,研發進展迅猛。2019
51、 年 4 月,馬斯克在特斯拉自動駕駛日(Autonomous Day)上提到了 Dojo,稱 Dojo 是“能夠利用海量視頻數據,做無人監管標注和訓練的超級計算機”;2021 年 8 月,Dojo 超級計算機在特斯拉首屆 AI Day 上首次正式亮相,特斯拉重點展示了 Dojo 的關鍵組成單元 D1 芯片,由特斯拉自主研發,用于神經網絡訓練;2022 年 9 月,特斯拉在第二屆 AI Day 上展示了 Dojo 的最新進展,包括散熱方案、Dojo POD 機柜集成架構等;2023 年 7 月,馬斯克表示,特斯拉計劃在 2024 年底前對 Dojo 項目投資超過 10 億美元,自主研發超級計算機
52、,以處理發展自動駕駛軟件所需的海量數據,擺脫對英偉達 GPU 的依賴;2024 年 1 月,特斯拉將投資超過 5 億美元,在紐約超級工廠建造一個巨型 Dojo 超級計算機集群。同時,馬斯克表示特斯拉2024 年在英偉達硬件上的投資將超過 5 億美元,并將開始購買 AMD 的硬件。圖31:特斯拉 Dojo 發展歷程 資料來源:騰訊科技,電動星球,界面新聞,electrek,民生證券研究院 Dojo 算力規劃明確,計劃于 2024 年 10 月達到 100 Exa-Flops。根據特斯行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 22 拉的規劃:1)
53、2023 年 7 月,Dojo 進入投產階段,拉開特斯拉算力集群快速建設階段的帷幕;2)2024 年 2 月,Dojo 將成為全球最強大的五臺超級計算機之一;3)2024 年 10 月,Dojo 的算力總規模達到 100Exa-Flops,相當于 30 萬塊英偉達 A100GPU 的算力總和。圖32:特斯拉 Dojo 算力規劃 資料來源:electrek,民生證券研究院 Dojo 定位為超高速訓練計算機,采用分布式計算架構設計。2021 年 AI Day上,特斯拉表示 Dojo 項目的三大目標為實現最佳 AI 訓練性能、助力更大更復雜的神經網絡模型訓練、實現節能與成本效益。為此,特斯拉采用分布
54、式計算架構設計,以強大的計算單元組成巨大計算平面,計算單元之間通過高帶寬、低延遲的網絡結構進行連接,形成二維網格結構。在進行大型神經網絡訓練時,Dojo 可以將神經網絡分成若干小塊,每個計算單元可以同時處理網絡的一部分。神經網絡編譯器會考慮數據在時間和空間上的接近性,優化信息在計算單元之間的傳遞,從而提高工作效率。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 23 圖33:Dojo 超級計算機三大目標 圖34:Dojo 系統二維網格結構 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民
55、生證券研究院 Dojo 采用分布式 2D 架構,算力分為內核級、芯片級、格點級、集群級等四個層級。按照層次劃分,每 354 個 Dojo 核心組成一塊 D1 芯片,而每 25 顆芯片組成一個訓練模組,最后 120 個訓練模組組成一組 ExaPOD 計算集群,共計 3000顆 D1 芯片。1)內核級:Dojo Core(訓練節點),為單個計算核心,64 位位寬,具有 4 個 8x8x4 的矩陣計算核心,2GHz 主頻;2)芯片級:D1,為單個芯片,核心數為 354,面積 645mm;3)格點級:Dojo Tile,為單個訓練模組,每 5x5個芯片組成一個訓練模組;4)集群級:ExaPOD,為特斯
56、拉訓練集群,每 12 個訓練模組組成一個機柜,每 10 個機柜組成 ExaPOD,共計 3000 個 D1 芯片。表1:Dojo 算力分為內核級、芯片級、格點級、集群級等四個層級 圖示 層級 名稱 片上 SRAM 算力 說明 內核級 Dojo Core(訓練節點)1.25MB 1.024TFLOPS 單個計算核心,64 位位寬,具有 4 個8x8x4 的矩陣計算核心,2GHz 主頻 芯片級 D1 440MB 362TFLOPS 單芯片,核心數為 354,面積 645mm 格點級 Dojo Tile(訓練瓦片)11GB 9050TFLOPS 單個訓練瓦片,每 5x5 個芯片組成一個訓練瓦片 集群
57、級 ExaPOD 1320GB 1.1EFLOPS 特斯拉的訓練集群,每 12 個訓練模組組成一個機柜,每 10 個機柜組成ExaPOD,共計 3000 個 D1 芯片 資料來源:焉知汽車,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 24 4.2 D1 芯片:基于存算一體架構 實現高效數據傳輸 訓練節點是 Dojo 最小的內部計算單元,基于存算一體架構設計。訓練節點(Training Node)是 Dojo 最小的內部計算單元,大小關系到同步速度與硬件復雜度。降低延遲和提高帶寬是訓練節點的主要優化方向,每個訓練節點基于存算一體架
58、構設計,不僅具備向量計算和矩陣計算能力,還包含完整的取指、譯碼、執行部件,并以 2GHz 的頻率運行。每個訓練節點還配備了 1.25MB 的 SRAM 作為主存、而非緩存使用,能夠以 400GB/s 的速度進行數據加載和 270GB/s 的速度進行數據存儲。訓練節點包含了一個 64 位超標量 CPU,針對矩陣乘法和向量 SIMD進行了優化,支持 FP32、BFP16、CFP8 等多種浮點數格式運算。超標量 CPU 具備 4 路多線程能力,可以同時處理多個指令,以提高運行效率。同時,CPU 的指令集針對機器學習工作負載進行了優化,能夠實現轉置、聚集、鏈接遍歷、廣播等多種功能。圖35:Dojo 訓
59、練節點架構 圖36:D1 芯片結構 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 D1 芯片計算陣列由 54 個訓練節點組成,能夠實現高效數據傳輸。訓練節點采用模塊化設計,可以靈活組合擴展,形成更大的計算平面。D1 芯片采用 18x20的網格布局,計算陣列由 354 個訓練節點組成,采用臺積電 7 納米制造工藝,算力達 362TFLOPs,100%面積用于機器學習訓練和帶寬。在計算陣列周圍,D1 芯片布置了 576 個高速低功耗串行器/解串器(Serializer/Deserializer,簡稱SerDes),I/O
60、 帶寬高達 10TB/s,大約是最先進的網絡交換芯片的兩倍,在進行機器學習訓練時能夠實現高效的數據傳輸,從而提升整體的計算性能。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 25 圖37:D1 芯片計算陣列 圖38:D1 芯片串行器/解串器分布 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 D1 處理器的指令集設計通過擴展 RISC-V 架構,提供多樣化的計算格式和編譯器支持。D1 處理器基于 RISC-V 架構的 ISA 進行了擴展,以增強其計算能力。D1 核心支持
61、FP32 和 FP16 這兩種標準的浮點計算格式,并特別引入了 BFP16 格式,以優化推理(Inference)過程。為了進一步提升性能,D1 處理器還集成了 8位 CFP8 格式,這種格式在降低精度的同時提高了計算吞吐量。Dojo 編譯器的設計允許在尾數精度上進行動態調整,從而覆蓋更廣的精度范圍,以適應不同的計算需求。此外,D1 處理器能夠同時支持最多 16 種不同的矢量格式,靈活性高,能夠顯著提升處理器算力,使其能夠更高效的處理各種計算任務。圖39:特斯拉 Dojo 指令集 資料來源:焉知汽車,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明
62、 證券研究報告 26 4.3 瓦片集群:由基本單元出發 構成大規模算力集群 特斯拉將 50 萬個訓練節點集合成巨大的計算平面,以接口處理器提升訓練效率。特斯拉把 50 萬個訓練節點進行組合,形成巨大的計算平面,該計算平面由1500 個 D1 芯片密集連接而成。在計算平面的兩端,特斯拉各放置了一個 Dojo接口處理器,通過第四代 PCIe 接口與計算平面連接,能夠實現數據中心主機與計算平臺的高速通信。接口處理器為計算平面配備了高帶寬 DRAM 共享內存,可以快速存儲訓練瓦片所需的大量數據;使用特斯拉定制協議 TTP 在整個加速器中進行通信,確保訓練瓦片能夠獲得全部內存帶寬,從而提升訓練效率。圖4
63、0:計算平面兩端各放置了一個接口處理器 圖41:Dojo 接口處理器連接在系統托盤下方 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 訓練瓦片是計算平面的基本單元,最終構成大規模訓練集群:1)訓練瓦片。特斯拉創造性的設計了訓練瓦片結構,作為計算平面的基本單元。一個訓練瓦片上集成了 25 個 D1 芯片,采用高帶寬連接器進行數據傳輸,可以提供 9 PFLOPS 的算力。訓練瓦片具有巨大的輸入/輸出(I/O)帶寬,可以快速傳輸和處理大量數據;2)系統托盤。系統托盤上放置了 6 個訓練瓦片,呈 2x3 矩陣式排布。一個系統
64、托盤擁有 20 個接口處理器,以及 640GB 的高帶寬 DRAM,能夠實現機柜內部、不同機柜之間計算瓦片的無縫連接;行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 27 圖42:訓練瓦片上集成了 25 個 D1 芯片 圖43:系統托盤上訓練瓦片呈 2x3 矩陣式排布 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 3)訓練機柜。訓練機柜中集成了兩個系統托盤,總算力達 1000PFLOPS。機柜配置了冗余電源供應系統,以保證計算系統穩定運行;4)訓練集群。訓練集群(ExaP
65、OD)由 10 個訓練機柜組成,總算力達 1 ExaFlOPS。圖44:Dojo 訓練機柜中集成了兩個系統托盤 圖45:系統托盤上訓練瓦片呈 2x3 矩陣式排布 資料來源:Tesla AI Day 2022,民生證券研究院 資料來源:Tesla AI Day 2021,民生證券研究院 4.4 軟件系統:采用高效同步機制 性能較 GPU 大幅提升 軟件系統整體性能由硬件性能、利用率和加速器占用率共同決定。編譯器的任務是從硬件中提取性能,而數據流的任務是確保數據能夠以足夠的吞吐量供給硬件,避免硬件空閑等待數據。當模型非常大時,單個加速器無法一次性處理所有數據,因為每個加速器能處理的批量大小通常比批
66、量歸一化所需的批量大小要小。為解決這一問題,需要在多個加速器上同步運行批量歸一化,但這會帶來前向傳播通信延遲的問題。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 28 圖46:系統性能由硬件、利用率和加速器占用率決定 圖47:多加速器運行批量歸一化會導致前向傳播延遲 資料來源:Tesla AI Day 2022,民生證券研究院 資料來源:Tesla AI Day 2022,民生證券研究院 Dojo 使用高效同步機制,實現不同單元協同工作。Dojo 不僅可以加速模型中那些需要大量計算的部分,還可以提升那些受延遲或帶寬限制的部分的性能,比如批量歸一化
67、或梯度合并、參數收集等操作。Dojo 可以進行靈活切割,以適配模型批量歸一化所需大小,切割部分可作為獨立加速器運行。Dojo 內部使用了高效的同步機制,實現不同計算單元之間的協調工作,形成單一可擴展的計算平面。數據被分散存儲在快速的存儲器中,并且在需要的時候才復制到相應的計算單元,高帶寬可以助力數據快速復制。大多數模型可以在 Dojo 系統上直接運行,無需進行額外配置。圖48:Dojo 系統使用高效同步機制,實現內部單元協作 資料來源:Tesla AI Day 2022,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 29 與 GP
68、U 相比,Dojo 性能提升明顯:1)批量歸一化運行速度。在 Dojo 上,一個批量均一化操作運行僅需 5 微秒,而在 24 個 GPU 上運行需要 150 微秒。Dojo 運行速度具備數量級優勢;2)ResNet 50 模型運行速度。Dojo 的性能與100 個 GPU 相當;3)自動標注網絡運行速度。Dojo 性能已超越 A100 GPU,采用新硬件后性能可以達到 A100 性能的兩倍,使用關鍵編譯器優化后,性能可達A100 的三倍。圖49:自動標注與占用網絡占特斯拉 GPU 使用量一半 圖50:Dojo 處理自動標注與占用網絡速度大幅提升 資料來源:Tesla AI Day 2022,民
69、生證券研究院 資料來源:Tesla AI Day 2022,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 30 5 芯片端:自研 FSD 芯片 集成高效計算能力 由合作邁向自研,實現高性能算力集成。特斯拉自動駕駛硬件平臺初期與Mobileye、英偉達等合作,2019 年正式發布基于自研 FSD 芯片的 HW 3.0 系統,開始轉向硬件平臺全面自研,下一代全自動駕駛(FSD)硬件AI 5,預計將于2025 年下半年投產。FSD 硬件計算平臺采用兩顆 SoC 芯片,以雙系統設計提升自動駕駛功能安全冗余。特斯拉構建了神經網絡編譯器與鏈接
70、器,以最大化計算資源利用率、吞吐量,并最小化延遲。通過芯片自研,特斯拉能夠實現硬件方案的持續快速迭代,與軟件算法進行更好的整合,從而實現更優的系統性能。5.1 硬件架構:由合作邁向自研 運算性能強大 5.1.1 發展歷程:由合作邁向自研 AI 5 預計 2025 年下半年推出 HW1.0 向 HW4.0 快速迭代,硬件性能持續升級。特斯拉的硬件平臺(Hardware Platform,簡稱 HW)是指在其電動汽車中用于自動駕駛功能的計算和傳感系統。特斯拉的硬件平臺經歷了幾代的演變,每一版都代表著技術上的進步和對自動駕駛能力的提升:1)HW1.0。2014 年 10 月,特斯拉基于 Mobile
71、ye 芯片 Mobileye EyeQ3發布第一代硬件 Hardware1.0;2)HW2.0/HW2.5。2016 年 10 月,特斯拉推出 HW2.0,采用了 NVIDIA 的 Drive PX2 平臺,并配置 8 個攝像頭+12 個遠程超聲波雷達+1 個前置毫米波雷達,在功能上實現輔助駕駛。而于 2017 年 8 月推出的 HW2.5,在 HW2.0 的基礎上增加了額外的 NVIDIA Tegra Parker 芯片于增強計算能力;3)HW3.0。2019 年 4 月,特斯拉發布 HW 3.0 系統,特斯拉自研的 FSD 芯片首次亮相,整體算力達 144TOPS,標志著特斯拉開始全面掌握
72、從芯片設計到軟件開發的全棧技術;4)HW4.0。2024 年 2 月,推出的 HW4.0 搭載 FSD2.0 芯片,相較于 FSD1.0芯片,采用更先進的制程技術,算力大幅提升 5 倍;同時,NNA 的數量從 2 個增加到 3 個,工作頻率也從 2.0GHz 提升至 2.2GHz,這有助于更高效地處理深度學習任務,尤其是針對視覺數據的分析。5)AI 5。在 2024 年 6 月的特斯拉股東大會上,馬斯克首次向公眾介紹了下一代全自動駕駛(FSD)硬件AI 5,預計將于 2025 年下半年投產。與現有的HW4.0 版本相比,AI 5 在性能上將實現顯著飛躍,預計整體性能提升約 10 倍,特別是在推
73、理能力上,這一提升可能高達 50 倍,同時在整體能耗方面也比 HW4.0提升了 4-5 倍。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 31 表2:特斯拉自動駕駛硬件平臺不同版本對比 硬件版本 SOP 處理平臺/主芯片 冗余控制 算力(TOPS)功耗(W)圖像處理能力(fps)HW1.0 2014.10 Mobileye EyeQ3 無 0.256 25 36 HW2.0 2016.10 Nvidia Drive PX2 部分 20 250 110 HW2.5 2017.08 Nvidia Drive PX2+完全 20 300 110 HW3
74、.0 2019.04 Tesla FSD 完全 144 220 2,300 HW4.0 2024.02 Tesla FSD 完全 720 80 AI 5 2025 下半年 Tesla FSD 完全 7200 320-400 資料來源:Tesla 官網,汽車之家,Twitter,智能車參考,民生證券研究院 5.1.2 系統架構:雙冗余 SoC 設計 集成高性能核心組件 FSD 硬件計算平臺采用兩顆 SoC 芯片,以雙系統設計提升自動駕駛功能安全冗余。其中,SOC-1 作為主控單元,輸出最終的控制指令,而 SOC-2 則提供擴展計算支持。作為兩套完全獨立的芯片系統,每套系統都配備了獨立的 CPU、
75、GPU、NNA(神經網絡加速器)以及內存,兩套系統中的一個作為主系統運行,另一個作為熱備份,在主系統出現故障時立即接管,以實現冗余,提高安全性。雙系統架構的另一個優勢在于相互驗證能力。在面對相同的駕駛情境時,兩套獨立系統會分別經過感知和規劃算法(或一個完整的端到端算法)處理,得出的駕駛決策應當是一致的。這種設計提供了決策冗余保障,有效提升了自動駕駛系統的功能安全性。圖51:特斯拉 FSD 雙芯片系統設計 資料來源:Tesla AI Day 2021,民生證券研究院 特斯拉的FSD芯片自2016年啟動設計規劃以來,經歷了數年的發展和迭代。2017 年 12 月,特斯拉進行了 FSD 芯片的首次試
76、產,在隨后進行了必要的設計調整。2018 年 4 月,B0 樣片投產,并在同年 7 月獲得認證。2018 年 12 月,特斯行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 32 拉開始用新的硬件和軟件對員工用車進行改裝。2019 年 3 月,特斯拉開始在Model S、Model X 和 Model 3 車型上部署 FSD 芯片,用于 HW 3.0 系統,標志著 FSD 芯片開始得到批量化應用。圖52:特斯拉 FSD 芯片發展歷程 資料來源:Tesla 官網,汽車 ECU 開發,民生證券研究院 FSD 芯片采用異構設計,集成了 CPU、GPU、NN
77、A,和硬件加速器等多個處理單元。FSD 芯片采用三星 14nmFinFet 技術制造,支持單精度和雙精度浮點運算,并配備了運行于 2133MHz 的 128bit LPDDR4 內存,展現出卓越的計算性能和高效的數據處理能力:1)CPUs。3 個四核 Cortex-A72 集群,共計 12 個CPU 核心,運行頻率為 2.2GHz;2)GPU。1 個 Mali G71 MP12 GPU,工作頻率為 1GHz,支持 FP16 和 FP32 浮點運算;3)2 個神經網絡加速器(NN Accelerator,簡稱 NNA)。用于深度學習推理,這是 FSD 芯片的核心部分,用于處理自動駕駛所需的大量視
78、覺和傳感器數據,運行頻率為 2GHz。每個 NNA 配備了 32MB 的 SRAM 緩存,用于存儲模型權重和加速數據訪問。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 33 圖53:特斯拉 FSD 芯片架構 資料來源:Wikichip,民生證券研究院 FSD 2.0 通過擴大 CPU 核心數和增強 NPU 核心,提供更強大的數據處理和神經網絡運算性能。2023 年 2 月,FSD2.0 芯片開始在汽車上部署,用于 HW 4.0。FSD2.0芯片的設計與第一代非常相似,采用更密集的晶體管布局和優化電路設計,性能預計提升三倍以上。在 CPU 中,Co
79、rtex-A72 內核從 12 個增至 20 個,分布在 5 個四核集群中。此外,第二代芯片采用 3 個 NPU 核心,每個核心配備了 32MB SRAM 用于存儲模型權重和激活,通過 96x96 的 MAC 網格實現每個周期 9216個 MAC 和 18432 個操作的高效率運算。NPU 核心以 2.2 GHz 頻率運行,使得單顆芯片算力達到 121.651 TOPS,顯著提升了自動駕駛的數據處理和神經網絡運算性能。表3:FSD 芯片 1.0 和 2.0 性能對比 Model FSD1 FSD2 CPU Cores 12(3*4)A72 20(5*4)CPU Frequency 2.2GHz
80、 2.35GHz GPU Mali G71 MP12 Mali G71 MP12 GPU Frequency 1.0 GHz NPUs 2 3 NPU Frequency 2.0 GHz 2.2 GHz NPU Performance(Individual)36.86 TOPS 40.55 TOPS NPU Performance(Total in SoC)73.7 TOPS 121.65TOPS Memory 128-bit LPDDR4 128-bit GDDR6 Memory Speed 4266 MT/S 14000 MT/S Memory Capacity 8 GB 16 GB Me
81、mory Bandwidth 68.3 GB/s 224 GB/s 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 34 uArch Cortex-A72 Cortex-A72 Manufacturing node Samsung 14nm Samsung TDP 36 Watts 資料來源:ADS 智庫,民生證券研究院 5.2 編譯推理:高效優化 最大化計算資源利用 特斯拉構建了神經網絡編譯器與鏈接器,以最大化計算資源利用率、吞吐量,并最小化延遲。汽車中在同時運行很多架構、模塊和網絡,共有多達 10 億個參數、1000 個神經網絡信號。為了提升計
82、算效率,特斯拉建立了:1)神經網絡編譯器,用于接收復雜的神經網絡圖,然后將其分割為獨立的子圖,并分別進行編譯;2)神經網絡鏈接器,用于鏈接各個編譯好的部分,形成完整系統。計算過程需要進行離線優化,從而能夠在有限的內存和帶寬條件下完成計算。圖54:汽車中在同時運行很多架構、模塊和網絡 圖55:神經網絡編譯器與鏈接器架構 資料來源:Tesla AI Day 2022,民生證券研究院 資料來源:Tesla AI Day 2022,民生證券研究院 特斯拉設計了混合調度系統,以實現算力的充分利用。實現特斯拉設計了混合調度系統,能夠在一個 SOC 上實現異構調度,并在兩個 SOC 之間進行分布式調度,以模
83、型并行方式運行網絡。特斯拉從軟件所有層級進行優化,采用調整網絡結構、改進編譯器、在兩個 SOC 之間采用低延遲高帶寬的 RDMA 鏈接等多種方式,以實現 100 TOPS 算力的充分利用。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 35 圖56:特斯拉混合調度系統架構 資料來源:Tesla AI Day 2022,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 36 6 數據端:自動化數據閉環 優化數據驅動訓練 高效自動標注+構建仿真場景,實現數據驅動訓練。2020 年,特斯拉開始研
84、發并使用數據自動標注系統,能夠在 12 小時內自動標注一萬個駕駛旅程,可抵充500 萬個小時的人工標注工作,極大提高了標注效率。仿真模擬則可以提供現實世界中難以獲得或是難以標記的數據,從而加速 FSD 能力的訓練,賦能模型迭代。結合真實數據和標簽,以及仿真和手動校準的數據,特斯拉形成綜合訓練數據集,用于訓練車端的在線模型,涉及網絡占用、車道線和障礙物檢測以及規劃算法,形成閉環的數據流,實現自動駕駛系統的持續優化。6.1 自動標注:自動化 4D 標簽生成 提升標注效率 從最初的外包第三方人工標注,到開發自動標注(Auto Labeling)系統,特斯拉實現了數據標注的高效化和規?;?。在特斯拉的自
85、動駕駛方案中,無論是在感知還是規控層面,核心算法基本都是由數據驅動的,數據的數量和質量決定了算法的性能,因此構建一套高效獲取、標注及仿真訓練數據的閉環至關重要。特斯拉每年售出近百萬輛汽車,通過這些汽車日常運行,可以采集到超大規模的原始數據集,對這些數據集的標注方面經歷了顯著的發展:1)外包第三方進行人工數據標注。2018 年,特斯拉與第三方公司合作,采用人工標注,該方式標注效率低且溝通成本高。2)自建超千人團隊進行手工標注。而后為提升標注效率和質量,特斯拉自建標注團隊,人員規模近千人。3)開發自動標注系統,實現人工與機器相結合的數據標注模式。隨著自動駕駛數據持續增長,所需標注人員的規模進一步擴
86、大,使得人力成本快速增長,使得 2020 年特斯拉開始研發并使用數據自動標注系統,通過大量數據訓練大模型,再用大模型訓練車端小模型。新算法能夠在 12 小時內自動標注一萬個駕駛旅程,可抵充 500 萬個小時的人工標注工作,極大地提高了標注效率。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 37 圖57:特斯拉數據標注發展歷程 資料來源:Tesla AI Day 2022,民生證券研究院 從 2D 圖像標注,到 4D 的向量空間標注,特斯拉 FSD 系統實現更精細化的路徑規劃和決策制定。通過引入 BEV(鳥瞰圖)視角,特斯拉實現了從 2D 圖像到3
87、D 車身自坐標系的轉變,但最初這僅是對瞬時圖像片段的感知,缺乏時空連續性。為了增強感知網絡的短時記憶能力,特斯拉在感知網絡架構中引入了時空序列特征層,使用視頻片段代替單張圖像來訓練神經網絡,從而提升了對場景的理解能力。到了 2022 年,特斯拉進一步升級了 BEV 感知,引入了 Occupancy Network,推動數據標注向 4D 升級,這不僅包括 3D 空間信息,還融入了時間維度,實現了對動態物體運動軌跡和參數的精確標注。圖58:基于 2D 圖像進行標注 圖59:在 BEV 空間下進行 4D 自動標注 資料來源:Tesla AI Day 2021,民生證券研究院 資料來源:Tesla A
88、I Day 2021,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 38 特斯拉的自動標注方案通過結合車輛采集的多源數據和先進的神經網絡技術,實現了對自動駕駛所需數據的快速和高效處理。具體來說,這一方案首先利用車輛在一段時間內采集到的視頻、IMU、GPS、里程表等數據構成最小標注單元 Clip,然后通過離線神經網絡進行預測,得到深度圖、坐標、目標物等中間層結果。最終,通過特征重建,獲得 3D 標簽集(Labels)以及所有目標的運動趨勢,包括行車軌跡、靜態環境重建、動態物體和運動學參數等,為自動駕駛算法的訓練提供了大量高質量的標注
89、數據。這一流程不僅提高了數據標注的效率,還保證了數據的準確性和一致性。圖60:特斯拉 4D 自動標注流程 資料來源:Tesla AI Day 2021,民生證券研究院 特斯拉的 4D 自動標注技術通過三個關鍵步驟實現高精度的軌跡和結構復現:1)高精度軌跡預測和結構復現。利用多攝像頭和慣性里程計,通過粗對齊、關聯、聯合非線性優化及最終曲面優化,實現多重軌跡重建。這一步驟確保了軌跡數據的準確性和可靠性;2)多路徑聯合重建。自動標記新軌跡的過程使用多軌跡對齊引擎,結合現有重建結果和新行駛軌跡,進一步細化路面細節。所有特征都是通過神經網絡從視頻中自動推斷出來,并在向量空間進行跟蹤和重構。這一自動化過程
90、顯著提高了標注效率,每個新軌跡的自動標記僅需 30 分鐘,大大減少了人工標記的時間和勞動強度;3)新路徑自動標注。整個 4D 自動標注過程在集群上實現并行行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 39 化,整個過程從軌跡重建到最終標記的確定,僅需 1-2 小時。這種高效的自動化流程不僅提高了可擴展性,而且復建的路面和道路細節也為后續的人工驗證提供了有力的指導,確保了標注的準確性和一致性。圖61:4D 自動標注的三個關鍵步驟 資料來源:Tesla AI Day 2022,YouTube,民生證券研究院 6.2 仿真模擬:構建虛擬場景 優化算法表
91、現 仿真模擬(Simulation)可以提供現實世界中難以獲得或是難以標記的數據,從而加速 FSD 能力的訓練,賦能模型迭代。由于路測條件的限制,導致積累數據和訓練算法的效率偏低且成本高昂。為了更高效的實現數據訓練,特斯拉構建了一個真實世界的虛擬仿真空間,來加速 FSD 能力的訓練。自動駕駛的仿真是在模擬環境中,通過調整各類交通參與物及環境的模型參數以構建各種虛擬場景,以訓練算法應對不同場景的性能。仿真模擬在自動駕駛領域中的價值體現在能夠安全且高效地重現和構建極端及復雜場景以進行算法訓練,實現快速且準確的數據標注,提供無風險的測試環境,優化規控算法,并通過持續的閉環場景訓練提升特定功能如泊車技
92、能,同時能夠重現真實世界中的失敗案例進行針對性優化,從而顯著增強自動駕駛系統的安全性和可靠性。特斯拉仿真模擬流程包含五大關鍵步驟:1)傳感器準確模擬。對真實攝像頭屬性進行模擬,包括傳感器噪聲、運動模糊、光學畸變等,以生成車輛上的攝像頭和其他傳感器實際會檢測到的內容;2)真實視覺渲染。特斯拉采用神經網絡渲染技術與光線追蹤方法,以使渲染效果能夠逼近真實世界;3)多元化素材庫。特斯拉的素材庫中,車輛、人物、動物等真實素材數量多達數千個,能夠避免素材數量過少導致的神經網絡過擬合問題。特斯拉還對大量地點進行了建模,以生成模擬環境;4)可擴展場景生成。特斯拉基于算法,程序化地創建具有各種參數(如曲率、不同
93、樹木、錐體、桿子、不同速度的汽車等)的道。此外,特斯拉采用機器學習技術,使神經網絡能夠對故障點進行檢測,并在故障點周圍創造更多數據,形成閉環,行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 40 以優化網絡性能;5)場景重建。特斯拉利用真實行駛視頻片段,構建出與現實相同的虛擬場景,然后在虛擬場景中運行自動駕駛系統,觀察系統運行情況。如果系統在模擬中失敗,可以分析失敗原因,從而對系統進行調整和優化,不斷提升系統性能。圖62:特斯拉仿真模擬流程包含五大關鍵步驟 資料來源:Tesla AI Day 2021,民生證券研究院 特斯拉采用程序化方法進行場景生
94、成,大幅提升運行效率。特斯拉采用自動化工具進行場景生成,能夠快速生成復雜模擬環境,過程包括:1)通過自動化標簽生成道路網格和車道;2)使用線條數據創建車道標記;3)利用中線邊緣生成路中心分道區,并用隨機植被填充;4)以隨機化啟發式規則生成外部世界,包括建筑物、消防栓、樹木等;5)引入地圖數據確定交通信號燈和停車標志的位置,并收集車道數量等信息。特斯拉可以在模擬器中更改道路真實標記,創造全新模擬數據,從而進行更有針對性的訓練,提升預測準確性。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 41 圖63:通過自動化標簽生成道路網格和車道 圖64:以隨機
95、化啟發式規則生成外部世界 資料來源:Tesla AI Day 2022,民生證券研究院 資料來源:Tesla AI Day 2022,民生證券研究院 特斯拉仿真模擬的主要創新和亮點在于高效的虛擬驗證架構,能夠將復雜的道路交通信息和場景元素系統化并高效運行。特斯拉通過瓦片生成器(Tile Creator),將真實標簽數據轉化為具體的仿真元素,如車道線、路緣石和建筑物等。這些元素隨后被瓦片提取器(Tile Extractor)分割成 150 平米的 Geohash 單元,每個單元都擁有一個獨特的 ID 以便于快速加載和調用。這種處理方式使得建模信息更加簡潔,提高了加載和渲染的效率。利用瓦片加載器(
96、Tile Loader),特斯拉可以根據 Geohash ID 編碼快速加載所需的仿真場景切片,專注于加載用戶感興趣的地點及其周邊環境。最終,通過虛擬引擎生成完整的場景。通過這種方式,一個工程師在短短兩周內即可生成舊金山街道的虛擬世界,顯著減少了創建虛擬世界所需的時間。同樣特斯拉可以利用此項 PDG 技術快速拓展到其他城市與國家,或者更新原有的虛擬世界,確保數據依據現實動態發展。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 42 圖65:特斯拉仿真世界創建流程 資料來源:Tesla AI Day 2022,民生證券研究院 6.3 數據引擎:集成多
97、源數據 加速模型訓練 特斯拉通過其自成閉環的數據引擎(Data Engine),有效地優化了神經網絡。特斯拉通過標配自動駕駛硬件的車隊進行數據采集,并通過規則和影子模式篩選出具有語義信息的有效數據,并回傳至云端。在云端,利用工具對 AI 的錯誤輸出進行糾正,并將這些數據整合入數據集群。這些數據進一步用于訓練車端的在線模型和云端的離線模型。最終,通過影子模式在車端進行新模型的測試和不同版本指標的比較,確保經過驗證的新模型得以部署,實現數據和模型的持續優化。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 43 圖66:特斯拉數據引擎示意圖 資料來源:T
98、esla AI Day 2022,民生證券研究院 影子模式加速數據采集,訓練質量有望大幅提升。特斯拉通過影子模式實現了量產車上的自動駕駛系統和傳感器的持續運行與數據采集。在有人駕駛狀態下,系統進行模擬決策并與駕駛員行為對比,不一致時觸發數據回傳,從而積累大量“極端工況”數據。這種模式不僅利用了量產車的廣泛覆蓋和低成本優勢,還顯著加速了數據的收集和訓練模型的質量提升。截至 2024 年 4 月底,特斯拉全自動駕駛(FSD)用戶的累計行駛里程已超過 13 億英里,隨著更多駕駛員試用并可能訂購 FSD,這一數字有望出現大幅增長。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免
99、責聲明 證券研究報告 44 圖67:特斯拉 FSD 用戶的累計行駛里程已超過 13 億英里 資料來源:Teslarati,民生證券研究院 影子模式是特斯拉自動駕駛系統中的關鍵技術,通過內置的觸發器記錄異常情況。在 2021 年 CVPR WAD 會議上,該模式已集成了 221 個觸發器。當異常被觸發時,影子模式會捕獲異常發生前后的原始數據,這些數據經過清洗后,一部分形成了驗證集,而其余數據則通過離線自動標注算法生成標簽。結合真實數據和標簽,以及仿真和手動校準的數據,形成了綜合訓練數據集。這個數據集被用于訓練車端的在線模型,涉及網絡占用、車道線和障礙物檢測以及規劃算法。同時,該數據集也用于訓練云
100、端的離線模型,包括重建模型、感知模型的自動標注以及基于優化的規劃模型。隨著在線算法的更新和新數據的采集,影子模式再次捕獲關鍵案例,并通過更新的離線模型進行自動標注,形成一個閉環的數據流和持續優化的自動駕駛系統。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 45 圖68:自成閉環的數據引擎能夠更好地優化神經網絡 資料來源:Tesla AI Day 2022,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 46 7 端到端架構:FSD V12 引領 實現感知決策一體化 FSD V12 為首
101、個端到端自動駕駛系統,實現感知決策一體化。特斯拉 FSD v12采用端到端大模型,消除了自動駕駛系統的感知和定位、決策和規劃、控制和執行之間的斷面,將三大模塊合在一起,形成了一個大的神經網絡,直接從原始傳感器數據到車輛操控指令,簡化了信息傳遞過程,因而減少了延遲和誤差,提高了系統的敏捷性和準確性。FSD V12 能夠模擬人類駕駛決策,成為自動駕駛領域全新發展路徑。7.1 特斯拉的 AI 關鍵時刻:FSD V12 首次實現端到端 V13 即將推出 特斯拉 FSD Beta V12 是首個實現端到端 AI 自動駕駛的系統,標志著自動駕駛技術的重大突破。2023 年 12 月 21 日,特斯拉正式向
102、公眾發布了最新版本的完全自動駕駛系統 FSD Beta V12。這一版本是首個實現端到端 AI 自動駕駛的系統,它通過一個單一的神經網絡處理從攝像頭獲取的圖像數據到輸出車輛控制指令的全部過程。這種轉變意味著,與之前的版本相比,V12 版本大幅減少了對傳統編程的依賴,從超過 30 萬行 C+代碼減少至僅有 2000 行,更多地依賴于神經網絡進行車輛的轉向、加速和制動控制。FSD Beta V12 的神經網絡經過了數百萬個視頻剪輯的訓練,能夠模擬人類的駕駛決策。這一系統的設計哲學是盡可能地模仿人類的駕駛方式,讓車輛能夠自主地處理復雜的交通環境和不同的駕駛場景。此前,馬斯克在 2023 年 8 月試
103、駕直播中強調了 FSD Beta V12 的這一創新之處,將其描述為“端到端人工智能”,并稱之為“Baby AGI(嬰兒版通用人工智能)”,這表明了其在感知和理解現實世界復雜性方面的高級能力。特斯拉 FSD Beta V12 的發布,展示了通過端到端神經網絡實現自動駕駛的新可能性,為自動駕駛領域提供新的發展路徑。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 47 圖69:馬斯克強調:FSDv12 運行速度快了 10 倍,可以替代 30 萬行代碼 資料來源:42 號車庫,民生證券研究院 FSD V13 即將 10 月推出,有望于 2025 年 Q1
104、 進入中國和歐洲。2024 年 9月 5 日,特斯拉 AI 官方推特發布 FSD 發展路線圖:1)2024 年 9 月,FSD V12.5.2版本,必要干預的間隔里程提高 3 倍;V12.5.2 版本在 HW 3.0 平臺上進行推送,和 HW4.0 統一模型;推送智能召喚功能;在 Cybertruck 上推送自動泊車和 FSD;上線基于太陽鏡的注意力檢測能力;推送高速端到端。2)2024 年 10 月,將泊車和倒車功能整合進 FSD(端到端實現泊車、倒車功能);FSD V13 版本的必要干預之間的里程數提高約 6 倍。3)2025 年 Q1,在中國和歐洲推出 FSD(有待監管部門批準)。行業深
105、度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 48 圖70:特斯拉 FSD 發展路線圖 資料來源:賽博汽車,民生證券研究院 7.2 大模型成就端到端自動駕駛 推動感知決策一體化 目前,自動駕駛系統的設計主要分為兩大技術路徑:模塊化方案和端到端方案。1)模塊化路徑。將自動駕駛系統拆分為眾多模塊,例如感知、規劃和控制,每個一級模塊下又分為眾多子模塊,每個模塊可基于不同的規則或算法。由于每個獨立模塊負責單獨的子任務,因此出現問題時可及時回溯,并易于調試,具有較強的解釋性;2)端到端路徑。將自動駕駛系統視為一個整體,在自動駕駛的應用中,端到端模型可以將感知、規
106、劃和控制環節一體化,通過將車載傳感器采集到的信息直接輸入神經網絡,經過處理后直接輸出自動駕駛的駕駛命令,潛在性能更佳、優化效率更高。特斯拉 FSD v12 采用端到端大模型,消除了自動駕駛系統的感知和定位、決策和規劃、控制和執行之間的斷面,將三大模塊合在一起,形成了一個大的神經網絡。通過這一神經網絡架構,直接從原始傳感器數據到車輛操控指令,簡化了信息傳遞過程,因而減少了延遲和誤差,提高了系統的敏捷性和準確性。但同時,端到端的學習模式也帶來了系統解釋性相對較弱、問題定位相對困難等問題,這是技術發展中需要持續關注并解決的挑戰。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免
107、責聲明 證券研究報告 49 圖71:多模塊化方案 VS 端到端方案 資料來源:Recent Advancements in End-to-End AutonomousDriving using Deep Learning:A SurveyPranav Singh Chib 等,民生證券研究院 7.3 端到端架構演進:感知端到端到 One Model 端到端 截至目前,自動駕駛架構的演進可以分為四個主要階段:第一階段:感知“端到端”。這一階段,整個自動駕駛架構被拆分成了感知和預測決策規劃兩個主要模塊,其中,感知模塊已經通過基于多傳輸器融合的 BEV(Bird Eye View,鳥瞰圖視角融合)技
108、術實現了模塊級別的“端到端”。通過引入 transformer 以及跨傳感器的 cross attention 方案,感知輸出檢測結果的精度及穩定性相對之前的感知方案都有比較大的提升,不過,規劃決策模塊仍然以Rule-based 為主。第二階段:決策規劃模型化。這個階段,整個自動駕駛架構被仍然分為感知和預測決策規劃兩個主要模塊,其中,感知端仍保持上一代的解決方案,但預測決策規劃模塊的變動比較大 從預測到決策到規劃的功能模塊已經被集成到同一個神經網絡當中。值得注意的是,雖然感知和預測規劃決策都是通過深度學習實現,但是這兩個主要模塊之間的接口仍然基于人類的理解定義(如障礙物位置,道路邊行業深度研究
109、/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 50 界等);另外,在這一階段,各模塊仍然會進行獨立訓練。第三階段:模塊化端到端。從結構上來講,這一階段的結構和上一階段比較類似,但是在網絡結構的細節及訓練方案上有很大不同。首先,感知模塊不再輸出基于人類理解定義的結果,而更多給出的是特征向量。相應地,預測決策規劃模塊的綜合模型基于特征向量輸出運動規劃的結果。除了兩個模塊之間的輸出從基于人類可理解的抽象輸出變為特征向量,在訓練方式上,這個階段的模型必須支持跨模塊的梯度傳導 兩個模塊均無法獨立進行訓練,訓練必須通過梯度傳導的方式同時進行。第四階段:One Model
110、/單一模型端到端。在這一階段,就不再有感知、決策規劃等功能的明確劃分。從原始信號輸入到最終規劃軌跡的輸出直接采用同一個深度學習模型?;趯崿F方案的不同,這一階段的 One Model 可以是基于強化學習(Reinforcement Learning,RL)或模仿學習(Imitation Learning,IL)的端到端模型,也可以通過世界模型這類生成式模型衍生而來。圖72:自動駕駛架構演進示意圖 資料來源:辰韜資本,南京大學上海校友會自動駕駛分會,九章智駕,民生證券研究院 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 51 8 投資建議 智能駕駛
111、奇點已至,海外特斯拉引領產業化進程,特斯拉高階智駕技術端不斷突破,FSD V12 已實現“端到端自動駕駛”,Robotaxi 將于 10 月發布。國內三重拐點向上,1)政策端,L3 路測政策出臺,國家、地方層面自動駕駛汽車全無人商業化運營相關政策不斷落地;2)供給端,蘿卜快跑 Robotaxi 廠商商業化進程迅猛,已在包括北京、武漢、重慶、深圳和上海在內的 11 個城市啟動了載人測試運營,計劃到 2024 年底在武漢部署 1000 輛無人駕駛出租車,并力爭在 2025 年實現盈利。華為、小鵬、理想、小米無圖城市 NOA 2024 年將加速開通,特斯拉FSD V12 端到端版本將進一步開放測試及
112、使用;3)需求端,社會公眾對于全無人自動駕駛汽車接受度不斷提升,智駕逐步成為購車重要影響因素。2024 年智能駕駛將迎來為產業化加速的元年,看好高階智能駕駛功能(NOA)滲透率穩步提升。投資建議:FSD 技術端快速進化,“We,Robot”發布會即將開幕,Robotaxi即將推出,有望成為特斯拉發展歷程重要里程碑,并與 FSD V13 發布形成共振,共同成為板塊強勁催化,智能駕駛奇點已至:推薦 1)智能駕駛-【伯特利、德賽西威、經緯恒潤-W、科博達】+智能座艙-【上聲電子(智能聲學)、繼峰股份(智能座椅)、光峰科技(車載光學)】;2)T 鏈-【拓普集團、新泉股份、愛柯迪、旭升集團、雙環傳動、岱
113、美股份、銀輪股份】。表4:重點推薦標的 證券代碼 證券簡稱 股價(元)EPS PE 評級 2023A 2024E 2025E 2023A 2024E 2025E 603596.SH 伯特利 52.15 2.15 1.93 2.58 24 27 20 推薦 002920.SZ 德賽西威 131.77 2.81 3.76 4.78 47 35 28 推薦 688326.SH 經緯恒潤 102.79-1.82-0.12 2.45-42 推薦 603786.SH 科博達 63.6 1.52 2.09 2.70 42 30 24 推薦 688533.SH 上聲電子 36.99 0.99 1.75 2.3
114、8 37 21 16 推薦 603997.SH 繼峰股份 13.57 0.18 0.05 0.67-20 推薦 601689.SH 拓普集團 49.6 1.95 1.76 2.34 25 28 21 推薦 603179.SH 新泉股份 51.87 1.65 2.22 2.91 31 23 18 推薦 600933.SH 愛柯迪 16.1 1.03 1.19 1.54 16 14 10 推薦 603305.SH 旭升集團 11.86 0.77 0.60 0.76 15 20 16 推薦 002472.SZ 雙環傳動 30.28 0.97 1.24 1.58-19 推薦 603730.SH 岱美股
115、份 11.17 0.51 0.53 0.63 22 21 18 推薦 002126.SZ 銀輪股份 20.54 0.77 1.03 1.26 27 20 16 推薦 資料來源:iFind,民生證券研究院(注:股價為 2024 年 10 月 8 日收盤價)行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 52 9 風險提示 智能化滲透率提升不及預期:智能化正處于發展初期,若受制于成本、技術等因素,后續滲透率提升可能不及預期;智能駕駛技術發展不及預期:智能駕駛技術突破存在延遲可能性,導致自動駕駛汽車的安全性和可靠性無法滿足商業化的要求;Robotaxi
116、商業化進展不及預期:技術發展緩慢、政策監管的不確定性與消費者接受度的不確定性可能導致市場需求低于預期,影響 Robotaxi 服務的推廣和應用。行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 53 插圖目錄 圖 1:2013 年 9 月,馬斯克在 Twitter 中首次提到 AP.5 圖 2:特斯拉自動駕駛系統發展歷程.6 圖 3:FSD 累計行駛里程.6 圖 4:FSD 訂閱價格降至 99 美元/月.6 圖 5:特斯拉 FSD 系統架構.7 圖 6:特斯拉視覺感知系統算法采用 HydraNets 架構.9 圖 7:圖像空間預測投射到向量空間后出現
117、較大偏差.9 圖 8:單相機檢測無法解決物體橫跨多相機的問題.9 圖 9:BEV 視角融合了多個攝像頭的視頻數據.10 圖 10:Transformer 是實現二維到三維變換的核心.10 圖 11:通過圖像校準解決攝像頭采集數據偏差問題.11 圖 12:加入虛擬標準攝像頭以校準圖像數據偏差.11 圖 13:感知網絡仍是對瞬時圖像片段進行感知.11 圖 14:特斯拉引入時空序列特征層.11 圖 15:特征序列模塊可以緩存時序與空間特征.12 圖 16:隱狀態可組織成二維網格.13 圖 17:空間 RNN 的隱狀態可包含多個通道.13 圖 18:Occupancy Network 對正在啟動的兩節
118、公交車運動狀態進行精準捕捉.14 圖 19:Occupancy Network 能夠生成可行使表面.14 圖 20:基于 Attention 機制的 Occupancy Network 占用網絡.15 圖 21:Lanes Network 旨在生成車道與連接信息.16 圖 22:特斯拉采用低精度地圖對視覺表示進行增強.16 圖 23:Lanes Network 工作原理.17 圖 24:稀疏化處理可使神經網絡專注于計算最重要的區域.17 圖 25:效率、安全和舒適是自動駕駛規劃的三大目標.18 圖 26:非凸性和高維性是自動駕駛規劃的兩大難點.18 圖 27:特斯拉將規劃問題進行分層分解.19
119、 圖 28:自動駕駛系統需要實現多代理聯合軌跡規劃.19 圖 29:自動駕駛行駛方案評估至少需要 10 毫秒.19 圖 30:特斯拉采用交互搜索框架,實現實時方案評估.20 圖 31:特斯拉 Dojo 發展歷程.21 圖 32:特斯拉 Dojo 算力規劃.22 圖 33:Dojo 超級計算機三大目標.23 圖 34:Dojo 系統二維網格結構.23 圖 35:Dojo 訓練節點架構.24 圖 36:D1 芯片結構.24 圖 37:D1 芯片計算陣列.25 圖 38:D1 芯片串行器/解串器分布.25 圖 39:特斯拉 Dojo 指令集.25 圖 40:計算平面兩端各放置了一個接口處理器.26
120、圖 41:Dojo 接口處理器連接在系統托盤下方.26 圖 42:訓練瓦片上集成了 25 個 D1 芯片.27 圖 43:系統托盤上訓練瓦片呈 2x3 矩陣式排布.27 圖 44:Dojo 訓練機柜中集成了兩個系統托盤.27 圖 45:系統托盤上訓練瓦片呈 2x3 矩陣式排布.27 圖 46:系統性能由硬件、利用率和加速器占用率決定.28 圖 47:多加速器運行批量歸一化會導致前向傳播延遲.28 圖 48:Dojo 系統使用高效同步機制,實現內部單元協作.28 圖 49:自動標注與占用網絡占特斯拉 GPU 使用量一半.29 圖 50:Dojo 處理自動標注與占用網絡速度大幅提升.29 圖 51
121、:特斯拉 FSD 雙芯片系統設計.31 圖 52:特斯拉 FSD 芯片發展歷程.32 圖 53:特斯拉 FSD 芯片架構.33 圖 54:汽車中在同時運行很多架構、模塊和網絡.34 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 54 圖 55:神經網絡編譯器與鏈接器架構.34 圖 56:特斯拉混合調度系統架構.35 圖 57:特斯拉數據標注發展歷程.37 圖 58:基于 2D 圖像進行標注.37 圖 59:在 BEV 空間下進行 4D 自動標注.37 圖 60:特斯拉 4D 自動標注流程.38 圖 61:4D 自動標注的三個關鍵步驟.39 圖 6
122、2:特斯拉仿真模擬流程包含五大關鍵步驟.40 圖 63:通過自動化標簽生成道路網格和車道.41 圖 64:以隨機化啟發式規則生成外部世界.41 圖 65:特斯拉仿真世界創建流程.42 圖 66:特斯拉數據引擎示意圖.43 圖 67:特斯拉 FSD 用戶的累計行駛里程已超過 13 億英里.44 圖 68:自成閉環的數據引擎能夠更好地優化神經網絡.45 圖 69:馬斯克強調:FSDv12 運行速度快了 10 倍,可以替代 30 萬行代碼.47 圖 70:特斯拉 FSD 發展路線圖.48 圖 71:多模塊化方案 VS 端到端方案.49 圖 72:自動駕駛架構演進示意圖.50 表格目錄 表 1:Doj
123、o 算力分為內核級、芯片級、格點級、集群級等四個層級.23 表 2:特斯拉自動駕駛硬件平臺不同版本對比.31 表 3:FSD 芯片 1.0 和 2.0 性能對比.33 表 4:重點推薦標的.51 行業深度研究/汽車 本公司具備證券投資咨詢業務資格,請務必閱讀最后一頁免責聲明 證券研究報告 55 分析師承諾 本報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并登記為注冊分析師,基于認真審慎的工作態度、專業嚴謹的研究方法與分析邏輯得出研究結論,獨立、客觀地出具本報告,并對本報告的內容和觀點負責。本報告清晰準確地反映了研究人員的研究觀點,結論不受任何第三方的授意、影響,研究人員不曾因、不因
124、、也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。評級說明 投資建議評級標準 評級 說明 以報告發布日后的 12 個月內公司股價(或行業指數)相對同期基準指數的漲跌幅為基準。其中:A 股以滬深 300 指數為基準;新三板以三板成指或三板做市指數為基準;港股以恒生指數為基準;美股以納斯達克綜合指數或標普500 指數為基準。公司評級 推薦 相對基準指數漲幅 15%以上 謹慎推薦 相對基準指數漲幅 5%15%之間 中性 相對基準指數漲幅-5%5%之間 回避 相對基準指數跌幅 5%以上 行業評級 推薦 相對基準指數漲幅 5%以上 中性 相對基準指數漲幅-5%5%之間 回避 相對基
125、準指數跌幅 5%以上 免責聲明 民生證券股份有限公司(以下簡稱“本公司”)具有中國證監會許可的證券投資咨詢業務資格。本報告僅供本公司境內客戶使用。本公司不會因接收人收到本報告而視其為客戶。本報告僅為參考之用,并不構成對客戶的投資建議,不應被視為買賣任何證券、金融工具的要約或要約邀請。本報告所包含的觀點及建議并未考慮個別客戶的特殊狀況、目標或需要,客戶應當充分考慮自身特定狀況,不應單純依靠本報告所載的內容而取代個人的獨立判斷。在任何情況下,本公司不對任何人因使用本報告中的任何內容而導致的任何可能的損失負任何責任。本報告是基于已公開信息撰寫,但本公司不保證該等信息的準確性或完整性。本報告所載的資料
126、、意見及預測僅反映本公司于發布本報告當日的判斷,且預測方法及結果存在一定程度局限性。在不同時期,本公司可發出與本報告所刊載的意見、預測不一致的報告,但本公司沒有義務和責任及時更新本報告所涉及的內容并通知客戶。在法律允許的情況下,本公司及其附屬機構可能持有報告中提及的公司所發行證券的頭寸并進行交易,也可能為這些公司提供或正在爭取提供投資銀行、財務顧問、咨詢服務等相關服務,本公司的員工可能擔任本報告所提及的公司的董事??蛻魬浞挚紤]可能存在的利益沖突,勿將本報告作為投資決策的唯一參考依據。若本公司以外的金融機構發送本報告,則由該金融機構獨自為此發送行為負責。該機構的客戶應聯系該機構以交易本報告提及
127、的證券或要求獲悉更詳細的信息。本報告不構成本公司向發送本報告金融機構之客戶提供的投資建議。本公司不會因任何機構或個人從其他機構獲得本報告而將其視為本公司客戶。本報告的版權僅歸本公司所有,未經書面許可,任何機構或個人不得以任何形式、任何目的進行翻版、轉載、發表、篡改或引用。所有在本報告中使用的商標、服務標識及標記,除非另有說明,均為本公司的商標、服務標識及標記。本公司版權所有并保留一切權利。民生證券研究院:上海:上海市浦東新區浦明路 8 號財富金融廣場 1 幢 5F;200120 北京:北京市東城區建國門內大街 28 號民生金融中心 A 座 18 層;100005 深圳:廣東省深圳市福田區益田路 6001 號太平金融大廈 32 層 05 單元;518026