《AI行業專題:從特斯拉FSD看人工智能端到端模型賦能自動駕駛機器人引領具身智能-230803(58頁).pdf》由會員分享,可在線閱讀,更多相關《AI行業專題:從特斯拉FSD看人工智能端到端模型賦能自動駕駛機器人引領具身智能-230803(58頁).pdf(58頁珍藏版)》請在三個皮匠報告上搜索。
1、從特斯拉從特斯拉FSDFSD看人工智能看人工智能 端到端模型賦能自動駕駛,機器人引領具身智能端到端模型賦能自動駕駛,機器人引領具身智能 西南證券研究發展中心 海外研究團隊 王湘杰 2023年8月 AIAI專題專題 2 核心觀點 從特斯拉FSD看AI對自動駕駛的賦能:技術端:特斯拉率先提出純視覺方案,端到端自動駕駛成為新路徑。特斯拉基于對第一性原理的堅持以及對成本的考量,率先實行純視覺方案,認為自動駕駛可以依靠攝像頭實現感知和目標識別,其成本優勢也將推動自動駕駛汽車加速實現規?;慨a。此外,特斯拉基于Transformer大模型推出端到端自動駕駛方案,構建多任務學習神經網絡架構HydraNet,
2、引入特征級融合、占用網絡和BEV+Transformer范式。其中,BEV算法有助于將攝像頭的2D感知轉化為3D視覺,占用網絡有助于解決長尾問題,Transformer能夠利用注意力機制實現更精準的目標識別,并通過添加時序和空間信息使自動駕駛更接近4D真實世界,推動智駕水平邁上新臺階。目前,以特斯拉FSD為代表的自動駕駛系統表明神經網絡算法和AI大模型的賦能已經滲透至智能汽車領域。商業端:汽車軟件化趨勢明顯,整車價值量有望提升。隨著特斯拉FSD自動駕駛軟件的推出,其軟件能力已成為差異化賣點,FSD套件的盈利模式采用一次性買斷制和按月訂閱制,且一次性購買價格經過多輪漲價,目前已提升至15000美
3、元。我們認為,特斯拉在售賣整車的同時還可以售賣自動駕駛服務套件,盈利能力進一步增強。未來,自動駕駛系統在AI技術的賦能下有望持續迭代,單車軟件價值逐步增長,推動整車價值量提升,智能汽車軟件化趨勢明顯。從特斯拉FSD看AI對人形機器人上的賦能:Optimus沿用FSD底座,有望引領具身智能。人形機器人與自動駕駛的算法底座本質上均可分為感知層、規劃層和控制層,且在硬件設施上有較高的重合度和通用性。特斯拉Optimus同樣是基于第一性原理,模擬人體設計,在視覺感知上改進占用網絡,在規控上優化運動軌跡,使機器人更好地適應現實世界。我們認為,自動駕駛技術的進步與發展將惠及至人形機器人領域,推動人形機器人
4、迭代提速,引領AI下一代浪潮。投資建議:建議關注自動駕駛產業鏈和機器人產業鏈,其中重點關注具備數據優勢、算法優勢、且有望在軟件端率先進行商業化變現的整車廠商。相關標的:特斯拉(TSLA.O)、小鵬汽車(XPEX.N)等。風險提示:行業競爭加劇風險,技術發展不及預期風險,商業變現不及預期風險等。1 3VpYWYQYnXxU9PdNbRsQmMpNnOiNqQuMeRoOnRbRpOtQMYmPyQvPmQoQ 1 人工智能助力自動駕駛,端到端方案成為新路徑 1.1 智能駕駛行業趨勢:以自動駕駛技術為驅動,邁向規?;慨a 1.2 自動駕駛生態圈:算法為核心技術難點,車企與模型廠商探索共建 1.3
5、自動駕駛系統:AI賦能主要體現在感知環節 1.4 技術路徑:大模型端到端自動駕駛,BEV+Transformer成為主流 目 錄 1.3.1 感知環節-硬件端:傳感器性能各異,4D毫米波雷達有望成為新標配 1.3.2 感知環節-融合方案:特征級融合優勢顯現,純視覺方案興起 1.3.3 感知環節-視覺表達:BEV實現動態還原,占用網絡展現4D泛化世界 1.4.1 大模型成就端到端自動駕駛,推動感知決策一體化 1.4.2 車企率先聚焦端到端感知,BEV+Transformer成為主流 2 1.1 行業趨勢:以自動駕駛技術為驅動,邁向規?;慨a 電動化 技術驗證的上半場 智能化 商業化量產的下半場
6、行業趨勢 行業機會 競爭要素 動力系統變革:電動化 智能駕駛:L2及以下功能+特定場景L4初試 電子電氣架構變革:軟硬件解耦+中央大算力 智能駕駛:多融合方案+L3及以上商業化量產 技術驗證為核心;Demo車場景試點;單一模塊的落地能力 商業化量產為核心;滿足功能安全的正向開發;規?;?定制化的賦能能力 2016年 電動乘用車滲透率2%2022年 電動乘用車滲透率20%;智能乘用車滲透率5%2030年 預計智能乘用車滲透率50%智能駕駛行業趨勢 資料來源:覺非科技,西南證券整理 從智能駕駛的發展趨勢來看:行業的上半場以電動化為主,核心驅動力與能源電池緊密相關,技術方向主要為輔助駕駛,市場主要關
7、注技術的驗證和特定場景的落地;智能駕駛的下半場以智能化為主,發力方向主要集中于智能座艙領域和自動駕駛領域,核心驅動力在于高階輔助駕駛和自動駕駛技術的創新升級,相關車企逐步聚焦產業化、規?;瘑栴},致力于實現高階智能汽車的商業化量產。從人工智能帶來的變化來看:我們認為神經網絡算法逐漸對各個產業和領域進行深度賦能。2022年11月OpenAI推出ChatGPT、2023年3月推出GPT-4,表明大語言模型率先對文本端賦能;當前,特斯拉FSD系統迭代至Beta V11.4版本,在架構上進行重大改進,引入BEV+Transformer范式,推動端到端自動駕駛,表明神經網絡的助力已滲透到智能駕駛等領域。隨
8、著智駕場景從較為簡單的高速場景邁向更加復雜的城市場景,我們認為,在人工智能的賦能下,自動駕駛感知技術的進步將在更多智駕場景下顯現優勢。3 車載通訊單元車載通訊單元 自動駕駛作為行業下半場的重點發力方向之一,其生態圈的構建非常關鍵。自動駕駛生態圈可分為四個層級:開發服務、后臺系統及基礎設施、單車軟件系統、單車硬件系統。其中,軟件系統中的感知算法、預測及規劃算法是當前的核心技術難點。我們認為,自動駕駛解決方案及其生態圈的構建是車企實現產品領先以及差異化體驗的核心,車企可以選擇與模型廠商或算法公司合作研發、共同探索,建立基于軟件系統和生態圈的核心競爭力。1.2 生態圈:算法為核心技術難點,車企與模型
9、廠商探索共建 系統設計系統設計 系統整合系統整合 測試驗證測試驗證 數據中心數據中心 高精地圖高精地圖 底層操作系統底層操作系統 云端算法學習及迭代云端算法學習及迭代 LBSLBS(基于地理位置的服務)(基于地理位置的服務)智能路網智能路網 (包括路邊通訊及邊緣計算單元線)(包括路邊通訊及邊緣計算單元線)傳感器信號處理傳感器信號處理 感知算法感知算法 預測及規劃算法預測及規劃算法 控制算法控制算法 人機交互人機交互 (HMIHMI)通訊軟件通訊軟件 中間層中間層 車載操作系統(車載操作系統(OSOS)傳感器:傳感器:攝像頭、攝像頭、毫米波雷達、激光雷達毫米波雷達、激光雷達 電子控制單元電子控制
10、單元 GPUGPU、CPUCPU、MCUMCU、存儲芯片等、存儲芯片等 域控制器域控制器 人機交互人機交互 硬件硬件 電路電路/線控線控 動力供應動力供應 單車硬件設施單車硬件設施 單車軟件系統單車軟件系統 后臺系統后臺系統 及基礎設施及基礎設施 開發服務開發服務 自動駕駛生態圈及技術發展情況 資料來源:麥肯錫,西南證券整理 注1:代表技術完全成熟、代表技術基本解決、代表技術核心難點;注2:粉色方框代表需要中國方案;紅色方框代表需要結合客戶、車況路況需求深度制定;灰色方框代表基本全球通用。4 1.3 自動駕駛系統:感知是前提,規控決定車輛如何與環境互動 自動駕駛系統對應著自動駕駛生態圈中的單車
11、軟件系統及部分硬件設施,主要由三個子系統構成:感知子系統:感知是規控的前提,由各種傳感器和感知算法組成。車載傳感器包括攝像頭、激光雷達、雷達、聲納、IMU、GNSS等,用來感知周圍環境、監測車輛的定位和狀態。感知算法主要包括傳感器融合和濾波算法(例如卡爾曼濾波、粒子濾波、貝葉斯濾波),可以幫助減少傳感器數據噪聲的形成,由此降低測量的不確定性。規劃子系統:利用感知結果,對車輛行為進行最優規劃。車輛采用的最優行為需要通過預測車輛和環境中的其他事物的未來狀態來確定,并考慮全局計劃、安全性、舒適性及軟硬件的約束等??刂谱酉到y:通過調整車輛的控制元件,準確執行軌跡,實現“實際駕駛”??刂扑惴煞譃榭v向運
12、動控制(例如對車速、與前后車或障礙物距離的控制)和橫向運動控制(即垂直于運動方向上的控制,例如轉向控制),代表執行器包括油門、剎車和轉向等??刂葡到y決定最終車輛將如何表現并與環境互動。當前,AI對自動駕駛的賦能主要體現在感知環節、以及連接感知和規劃的預測環節。Control Planning Perception Control Algorithms Planning Algorithms Perception Algorithms Sensors 自動駕駛系統基本架構 Camera LIDAR RADAR SONAR IMU GNSS Others Computer Map Localiza
13、tion State Estimation Detection&Tracking Global Planning Behavior Planning Trajectory Generation Longitudinal Control Lateral Control Throttle Brake Steering Actuators Local Planning 資料來源:CONTROL STRATEGIES FOR AUTONOMOUS VEHICLES,西南證券整理 5 1.3.1 感知環節-硬件端:由傳感器采集環境信息,主流硬件成本不一 感知系統首先需要各種硬件傳感器,對周圍環境進行感知
14、,并轉化為數據和信息。核心傳感器包括:1)視覺攝像頭:價格較低,在百元人民幣水平;在目標識別上優勢突出;攝像頭易受光干擾;對雨、雪、霧等極端天氣情況下可能失效。2)激光雷達:價格昂貴,當前車載激光雷達單顆售價約數千元甚至上萬元人民幣;對物體的位置、距離和大小等空間信息的感知更準確;激光雷達基于自發光特性,不受光影響,但易受雨、雪、霧天氣的影響。3)毫米波雷達:成本較高,在數百人民幣至千元區間;不受天氣狀況限制,環境適應性強;測速,測距能力強。4)超聲波雷達:價格低,車載超聲波雷達單個售價在數十元人民幣水平;檢測距離短,是泊車功能的重要傳感器。資料來源:曼孚科技,西南證券整理 四類自動駕駛傳感器
15、性能對比 指標指標激光雷達激光雷達毫米波雷達毫米波雷達超聲波雷達超聲波雷達攝像頭攝像頭探測距離探測距離 150m 10m1mm10mm差差方向性方向性能達到1度最小2度90度由鏡頭決定響應時間響應時間快(10ms)快(1ms)慢(1s左右)一般(100ms)精度精度極高較高高一般溫度穩定性溫度穩定性好好一般一般濕度穩定性濕度穩定性差好差差惡劣天氣適應性惡劣天氣適應性差強差差穿透力穿透力強強強差成本成本高較高低一般功能功能實時建立周邊環境的三維模型自適應巡航、自動緊急制動倒車提醒、自動泊車車道偏離預警、前向碰撞預警、交通標志識別、全景泊車、駕駛員注意力監測優點優點精度極高、掃描周邊環境實時建立三
16、維模型的功能強大不受天氣影響、探測距離遠、精度高成本低、近距離測量精度高成本低、可識別行人和交通標志缺點缺點成本高、精度會受惡劣天氣影響成本高、難以識別行人只可探測近距依賴光線、極端天氣可能失效、難以精確測距6 自動駕駛傳感器配置可分為三大派別:1)攝像頭派:以特斯拉為代表,主要通過視覺攝像頭模擬人眼視力;2)激光雷達派:增加多顆激光雷達,價格較為昂貴,從目前多款車型的傳感器配置來看,激光雷達已具備上車能力;3)毫米波雷達派:以蔚來、小鵬為代表,采用“多顆毫米波雷達+攝像頭”的硬件配置,截至2023H1,部分新勢力車企和傳統車企已將4D毫米波雷達應用至旗下新晉品牌的主推車型上。1.3.1 感知
17、環節-硬件端:車企配置各異,4D毫米波雷或成為新標配 資料來源:特斯拉官網,理想汽車官網,蔚來官網,小鵬汽車官網,西南證券整理 特斯拉及新勢力廠商硬件配置情況 攝像頭攝像頭激光雷達激光雷達毫米波雷達毫米波雷達超聲波雷達超聲波雷達芯片芯片特斯拉特斯拉model 3/s/x/y80112特斯拉FSDL7/L8 Air/Pro1001121*地平線征程5L7/L8/L9 Max1111122*英偉達Orin-X蔚來蔚來ET/ES/EC1215124*英偉達Orin-XG9 570Plus/570Pro/702Pro/650Pro1105121*英偉達Orin-XG9 570Max/702Max/65
18、0Max1125122*英偉達Orin-X硬件配置硬件配置汽車廠商汽車廠商車型車型理想汽車理想汽車小鵬汽車小鵬汽車4D毫米波4D毫米波雷達雷達激光雷達激光雷達V09E001主機廠主機廠蔚來蔚來小鵬小鵬理想理想上汽上汽路特斯路特斯長安長安北汽極狐北汽極狐高合高合廣汽埃安廣汽埃安合創合創一汽紅旗一汽紅旗Eletre深藍SL03極狐阿爾法HI-Phi Y/Hi-Phi ZLX Plus/Hyper GT車型車型ES8/ES7/ET7/ET8等G6/G9等L7/L8/L9智己L7/飛凡F7/飛凡資料來源:億歐智庫,西南證券整理 2023H1部分主機廠激光雷達和4D毫米波雷達搭載情況 7 1.3.1 感
19、知環節-硬件端:車企配置各異,4D毫米波雷或成為新標配 4D毫米波雷達優勢凸顯,有望成為感知硬件配置新方案。毫米波雷達是指工作波長介于1-10mm的電磁波雷達,通過向障礙物發射毫米電磁波并接收回波來精確探測物體的距離、速度、方位,而4D毫米波雷達除探測“距離、速度、方位”外,還可以用于測量高度,從而實現四個維度的感知,并具有廣視角、高精度、高分辨率等優勢,有助于進一步拓展自動駕駛的感知能力。對比其他傳感器,毫米波雷達是基于電磁場原理,而激光雷達和攝像頭本質上均基于光波原理,均不能在雨雪霧霾等惡劣天氣情況下正常工作,而毫米波雷達可以全天候不受光線和氣候的影響,可為其他傳感器提供更多冗余;此外,激
20、光雷達成本高,在一定程度上阻礙了其作為感知裝置的硬需求,但得益于其分辨率較高,因此能為車企在開發樣車階段能夠提供很好的起點,若4D毫米波雷達同樣具備較高的分辨率,將成為車企更經濟的配置選擇。資料來源:億歐智庫,西南證券整理 相同點相同點不同點不同點兩者都能提供目標物的距離、高度等信息:兩者都能提供目標物的距離、高度等信息:4D毫米波在傳統毫米波之上添加高度維度,所以其能夠探測目標物的高度信息,同時延續傳統毫米波的探距能力和測速能力點云稠密度不同:點云稠密度不同:4D毫米波雷達的點云可能只達到10萬點云左右,僅能達到64線以下激光雷達點云數量,而無法達到百線級別的激光雷達點云數量,如128線的產
21、品可能達到140萬左右點云兩者都能輸出三維圖像信息:兩者都能輸出三維圖像信息:4D毫米波的點云與激光雷達點云類似,具備三維建模能力,能夠識別出目標物的三維信息,可區分行人和物體角分辨率水平不同:角分辨率水平不同:4D毫米波雷達的水平和垂直角分辨率可達到12,而激光雷達的水平和垂直角分辨率可達到0.10.2環境適應能力不同:環境適應能力不同:4D毫米波雷達是全天候傳感器,不受雨雪霧塵影響,但激光雷達易受到雨雪霧塵的影響目標物穿透能力不同:目標物穿透能力不同:4D毫米波雷達可以穿透物體,檢測到前車前方的目標物,但激光雷達的點云無法穿透前方目標物性能性能算法應用不成熟:算法應用不成熟:4D毫米波雷達
22、和激光雷達的算法應用都尚未達到到成熟應用階段,甚至4D毫米波雷達成熟度比激光雷達更低應用應用激光雷達和4D毫米波雷達的性能及應用對比 8 隨著各類傳感器的迭代升級,更多的長尾場景有望被覆蓋,自動駕駛系統的魯棒性及行車安全將進一步提升。激光雷達:具備較好的路面小物體識別能力和鬼探頭的識別能力。4D毫米波雷達:在傳統毫米波雷達的基礎上進行技術升級,能夠識別路面的小物體,也能夠識別前車前方的車輛剎車,且識別精度高,可提前讓自動駕駛系統采取制動措施,避免追尾事故。資料來源:億歐智庫,西南證券整理 1.3.1 感知環節-硬件端:傳感器技術迭代,有望覆蓋更多長尾場景 各類傳感器的長尾場景覆蓋情況 一級分類
23、一級分類二級分類二級分類長尾場景長尾場景激光雷達激光雷達4D毫米波雷達4D毫米波雷達毫米波雷達毫米波雷達攝像頭攝像頭傳感器表面是否易污漬傳感器表面是否易污漬表面易積污漬,容易產生噪點不受影響不受影響表面易污漬耐高低溫環境能力耐高低溫環境能力-4085-4085-4085-4080物理級受目標物表面材質和顏受目標物表面材質和顏色的影響色的影響能量易被黑色表面吸收對金屬表面目標物易敏感對金屬表面目標物易敏感不易識別白色物體受極端天氣的影響受極端天氣的影響受影響不受影響不受影響影響較小進出隧道光線明暗突變進出隧道光線明暗突變不受影響不受影響不受影響受影響小物體識別能力小物體識別能力可識別可識別不易識
24、別不易識別動靜物體識別能力動靜物體識別能力可識別可識別不易識別可識別場景級路邊行人和車輛的區分路邊行人和車輛的區分可區分可區分無法區分太近的物體有條件區分鬼探頭識別能力鬼探頭識別能力可識別不易識別 不易識別不易識別前車前方車輛的剎車識前車前方車輛的剎車識別能力別能力不易識別可識別且精度高可識別但置信度低,結果易漏檢不易識別硬件級域級目標級超預期級傳感器層內容層時域層9 從傳感器的硬件配置來看,硬件的不同對應著不同的感知路徑。1)純視覺路線:從第一性原理出發,人類駕駛通過視覺感官識別周圍環境,依靠的是一種近乎無意識的感知,因此自動駕駛同樣可以通過類似于人眼的攝像頭實現識別功能。2)多傳感器融合路
25、線:多傳感器融合方案除了采用攝像頭以外,還采用激光雷達等其他傳感器收集車輛周邊信息,系統將來自多個傳感器的信息和數據在一定的準則下加以分析,為規劃和決策提供依據。廠商基于安全考慮采用多傳感器融合方案。在行業發展前期,車企為盡快完成自動駕駛布局,多采用硬件堆料以實現更多功能,盡管目前自動駕駛技術已取得明顯進步,但在不能完全保證安全的情況下,多數汽車廠商依然保持傳感器的冗余策略。多傳感器融合方案可以提升對有些場景的感知精度,同時在某一傳感器失效時,其他傳感器的數據可以相應補充,但其“融合”技術是該方案當前面臨的主要挑戰。降本成為車企轉向純視覺方案的現實因素。事實上,堆料并不意味著性能的絕對提升。此
26、外,在價格戰的壓力下,車企為節約成本,希望通過精簡相關零部件以降低硬件開支,因此,部分廠商逐步去掉價格昂貴的激光雷達,轉變為純視覺方案,盡管該方案成本更低,但其對數據和算法的要求更高,汽車廠商需加大在軟件端的投入和布局。1.3.2 感知環節-融合方案:純視覺VS多傳感器融合 降本VS安全 感知策略感知策略 純視覺方案純視覺方案 多傳感器融合方案多傳感器融合方案 信息豐富度信息豐富度 僅有圖像語義 包含圖像語義+三維點云 三維深度三維深度 無 有稀疏的點云深度信息有稀疏的點云深度信息 測距精度測距精度 低 高高 相對場景可靠性相對場景可靠性 低可視場景下性能下降 抗干擾能力強抗干擾能力強 相對成
27、本相對成本 低低 高 多模態數據融合多模態數據融合 無需無需 數據融合復雜,可能存在沖突 通用模型開發通用模型開發 視覺通用大模型視覺通用大模型 不同模態數據的模型,算法尚未統一 技術難點技術難點 從2D圖像重建3D場景 多模態數據融合和對齊 純視覺感知與多傳感器融合感知對比 資料來源:CICV,西南證券整理 10 1.3.2 感知環節-融合方案:后融合為當前主流,中融合為發展趨勢 從傳感器的融合流程上看:主要前融合(數據級融合)、中融合(特征級融合)、后融合(目標級融合),其中,前融合業內采用較少,后融合為當前主流,特征級融合有望成為未來發展趨勢。前融合:1)原理:采集各傳感器數據,經過數據
28、同步后,對原始數據進行融合。2)優點:保留數據關聯性,數據損失少。3)缺點:異構傳感器坐標系不一致會導致融合效果不理想,對融合策略要求高。前融合需要處理大量數據,對算力要求較高。后融合:1)原理:各傳感器針對目標物體單獨進行深度學習模型推理,從而各自輸出帶有傳感器自身屬性的結果,并在目標層進行融合。2)優點:不同傳感器獨立進行目標識別,解耦性好,各傳感器可以互為冗余備份。3)缺點:各傳感器經過目標識別再進行融合時,中間損失很多有效信息,影響感知精度;最終的融合算法是一種基于規則的方法,需根據先驗知識來設定傳感器的置信度。中融合/特征級融合從原理上看,該融合方案先將各個傳感器通過神經網絡提取中間
29、層特征(有效特征),再對多種傳感器的有效特征進行融合,從而更接近最佳推理。此外,特征級融合相對后融合數據損失更少、相對前融合算力消耗更少,因此,自動駕駛感知融合方案逐步朝特征級融合發展。攝像頭 激光雷達 毫米波雷達 其他傳感器 攝像頭 激光雷達 毫米波雷達 其他傳感器 原始數據 原始數據 原始數據 原始數據 特特征征級級融融合合 特征提取 特征提取 特征提取 特征提取 目目標標識識別別 決決策策 攝像頭 激光雷達 毫米波雷達 其他傳感器 原始數據 特征提取 數數據據級級融融合合 原始數據 原始數據 原始數據 特特征征融融合合 目目標標識識別別 決決策策 原始數據 原始數據 原始數據 原始數據
30、特征提取 特征提取 特征提取 特征提取 目標識別目標識別 目標識別目標識別 目標識別目標識別 目標識別目標識別 目目標標級級融融合合 決決策策 資料來源:九章智駕,西南證券整理 前融合/數據級融合流程 中融合/特征級融合流程 后融合/目標級融合流程 11 AI算法在視覺呈現上賦予感知系統“腦補”能力,感知系統逐步具備實時性、更穩定、更精準。自動駕駛感知系統形成的視覺表達從透視圖逐漸發展到鳥瞰圖和占用網絡,道路還原從2D空間擴展為3D、4D空間,使車輛在動態運動的過程中能夠實時構建現實地圖,在多顆攝像頭的感知下迅速追蹤物體的距離和速度、發現被遮擋的物體,并增強現實世界的還原細節和精度,讓系統的感
31、知呈現更加符合人類駕駛的需求。透視圖(Perspective View):即人眼通??吹降?D視圖。在人類視覺中,難以看到被遮擋的物體,但在實際駕駛過程中,人類駕駛員可以憑借經驗和記憶對可能存在遮擋情況的風險進行規避,但自動駕駛系統如果是基于透視圖的視覺進行感知和預測,車輛則很難做到提前預警和規避。鳥瞰圖(Birds View):即自上而下的視圖,具備上帝視角。鳥瞰圖感知方案可以在3D空間上分離所有對象,解決透視圖中視野被遮擋的問題,減少對自動駕駛對高精地圖的依賴,但在高度檢測上效果不夠理想。占用網絡(Occupancy Network):占用網絡通過算法對物理世界進行數據化和泛化建模,在3D
32、空間上測出不同物體的高度,呈現4D視覺。例如,識別道路上的垃圾桶、臨時施工牌等障礙物。1.3.3 感知環節-視覺表達:BEV實現動態還原,占用網絡展現4D泛化世界 資料來源:2023上海車展理想汽車,西南證券整理 靜態靜態BEVBEV網絡通過感知還原道路結構網絡通過感知還原道路結構,減減少對高精地圖的依賴少對高精地圖的依賴??梢越鉀Q視野被遮擋的問題可以解決視野被遮擋的問題,并實時動態并實時動態還原現實道路的情況還原現實道路的情況 可測量出障礙物的高度可測量出障礙物的高度,識別細節物體識別細節物體 鳥瞰圖和占用網絡的視覺呈現對比 12 1.4.1 技術路徑:大模型成就端到端自動駕駛,推動感知決策
33、一體化 目前,自動駕駛系統的設計主要分為兩大技術路徑:模塊化方案和端到端方案。兩大路徑可優劣互補,以上路徑當前均在積極探索、相互結合。模塊化路徑:涉及眾多模塊,每個獨立的模塊負責單獨的子任務,例如自動駕駛系統的一級模塊可分為感知、規劃和控制,每個一級模塊下又分為眾多子模塊,每個模塊可基于不同的規則或算法。由于每個獨立模塊負責單獨的子任務,因此出現問題時可及時回溯,并易于調試,具有較強的解釋性。端到端路徑:端到端(End-to-End)概念來源于深度學習,端到端路線是指AI模型只要輸入原始數據就可以輸出最終結果。在自動駕駛的應用中,端到端模型可以將感知、規劃和控制環節一體化,通過將車載傳感器采集
34、到的信息直接輸入神經網絡,經過處理后直接輸出自動駕駛的駕駛命令,潛在性能更佳、優化效率更高。模塊化自動駕駛 VS 端到端自動駕駛 自動駕駛分類 原理 優點 缺點 模塊化設計 將自動駕駛系統拆分為眾多模塊。每個模塊可由基于規則的代碼程序控制;也可以由訓練好的機器學習或深度學習模型控制,每個模塊的算法可以各不相同。安全、穩定、可靠;可解釋性強,每個獨立模塊負責單獨的子任務,便于問題回溯,易于調試等;系統龐大且復雜,涉及很多代碼或算法;算力要求高,當越來越多的模塊采用深度學習網絡時,將引爆計算需求;多數情況下需要使用昂貴的激光雷達來確定障礙物的位置、并需要實時更新的高清大地圖和其他輔助技術等;存在信
35、息損失和誤差問題;端到端路線 將自動駕駛系統視為一個整體,而不是切分為模塊,最后總只用一個模型來實現自動駕駛。例如。將傳感器采集的信息直接送入深度學習神經網絡,神經網絡處理后直接輸出自動駕駛的指令。成本小,降低對激光雷達、高精地圖的依賴、減少中間環節的標注成本等;可借助數據的多樣性獲得不同場景下的泛用性;無需人工設計繁復的規則,深度學習神經網絡通過訓練數據就能學會駕駛;隨著海量數據的自回歸預訓練,有望出現“智能涌現”;解釋性差,當系統出現錯誤時,難以判斷是哪個隱藏層或神經元的問題;閉環驗證較難,缺少真實數據驗證;資料來源:清華大學智能產業研究院,西南證券整理 13 通過對比右側的模塊化和端到端
36、兩大技術路徑示意圖,我們更能直觀地理解兩者的區別:模塊化方案由眾多子模塊組成,每個子模塊對應特定的任務和功能;端到端則是輸入感知信息并直接生成控制信號的單一路徑。從端到端自動駕駛技術路徑來看,神經網絡是關鍵,強化學習是重要方法。神經網絡結構受人腦啟發,模仿生物神經元相互傳遞信號的方式,通過綜合各種信號做出判斷和反應。端到端自動駕駛主 要 學 習 方 法 為 強 化 學 習(RL/Reinforcement Learning),即一種學習如何從狀態映射到行為以使得獲取的獎勵最大的學習機制,在自動駕駛場景中,神經網絡做出的駕駛決策由人類給予獎勵或處罰等反饋,以此來不斷優化駕駛行為。資料來源:Rec
37、ent Advancements in End-to-End Autonomous Driving using Deep Learning:A Survey,西南證券整理 模塊化&端到端 自動駕駛技術路徑示意圖 神經網絡神經網絡 1.4.1 技術路徑:大模型成就端到端自動駕駛,推動感知決策一體化 14 隨著端到端技術的持續發展,其在自動駕駛系統中的感知環節實現率先應用,眾多車企和算法公司基于Transformer架構做算法改進,BEV+Transformer逐漸成為主流解決方案。BEV感知本質上是端到端感知解決方案。在傳統的自動駕駛堆棧中,2D圖像被輸入感知模塊以生成2D結果,然后通過傳感器融
38、合方案將多個攝像機的2D結果轉換為3D圖像,以供系統進行預測和規劃。在端到端感知中,BEV感知模型可以使車輛直接在BEV空間中感知環境,輔助自動駕駛。端到端有望突破性能天花板,找到近似最優解。對比分而治之和端到端兩種解決辦法,分而治之可以在有限的精力內快速實現性能的提升、并形成解決方案,但該方法容易陷入局部最優解,導致性能上限僅為80%。而端到端解決方案通過反復多次、集中優化一系列組件,從而不斷突破性能天花板,直至實現完全的端到端解決方案,從而擺脫局部最優解的痛點,找到近似全局的最優解。1.4.2 技術路徑:車企率先聚焦端到端感知,BEV+Transformer成為主流 資料來源:小鵬汽車,西
39、南證券整理 BEV感知本質上是端到端感知 分而治之與端到端的性能增長曲線 15 BEVformer Encoder Structure BEVformer編碼器具有兩種注意機制:時間自注意機制:通過自我信息校準對由previous BEV feature和current BEV feature初始化的bev query執行可變形注意(deformable attention)??臻g交叉注意機制:從2D攝像頭特征中提取BEV特征,且同樣運用可變形注意機制,采用多攝像頭query,增加兩大模塊,一是攝像頭掩模模塊,可生成BEV空間中的每個攝像頭掩模,另一個是多級偏移模塊,可獲得4個級別的參考點偏移
40、。Transformer架構在自動駕駛系統的感知環節中的運用優勢:Transformer在自然語言處理領域和計算機視覺感知領域均能發揮作用。Transformer在處理大規模數據量場景上具備優勢,較神經網絡可以更好地在海量圖像數據中識別數據間的關聯關系,更有利于構建向量空間。Transformer網絡架構引入注意力機制,關注重要信息而非全部信息,在時間性方面具有更高的并行計算效率,在空間性能方面具有更強的泛化能力。資料來源:Transformer-based models and hardware acceleration analysis in autonomous driving:A su
41、rvey,西南證券整理 1.4.2 技術路徑:車企率先聚焦端到端感知,BEV+Transformer成為主流 16 采用端到端感知方案的代表企業包括特斯拉、小鵬汽車等。2021年特斯拉于AI Day首次在算法層面引入Transformer,與此同時,小鵬汽車等國內車企也積極引入Transformer架構,改進自身算法,并在更短時間內完成了對架構的重寫。特斯拉感知架構HydraNet 資料來源:Tesla AI day,西南證券整理 小鵬汽車感知架構Xnet 資料來源:小鵬汽車官網,西南證券整理 1.4.2 技術路徑:車企率先聚焦端到端感知,BEV+Transformer成為主流 17 2 特斯
42、拉自動駕駛:堅信視覺力量,劍指端到端大模型 2.3 數據端:車隊和里程數據形成自身壁壘,搭建自動標注團隊 2.2 算法端:依托神經網絡架構,邁向端到端大模型時代 2.2.1 感知:引入BEV+Transformer,特征級融合取代后融合 2.2.2 規控:引入蒙特卡洛樹搜索,完成高效求解 2.4 算力端:Dojo突破E級算力,呈現設計架構哲學 2.5 商業端:FSD推行買斷制和訂閱制,軟件化進程加速 目 錄 2.1 硬件端:全棧自研HW3.0,底層硬件繼續向更高級別迭代 18 2.1 硬件端:全棧自研HW3.0,底層硬件繼續向更高級別迭代 HW1.0向HW3.0快速迭代,硬件性能有望持續升級。
43、1)HW1.0:2014年10月,特斯拉基于Mobileye芯片Mobileye EyeQ3發布第一代硬件Hardware1.0。2)HW2.0:2016年10月,特斯拉推出HW2.0,芯片由英偉達提供,并配置8個攝像頭+12個遠程超聲波雷達+1個前置毫米波雷達,在功能上實現輔助駕駛,且該配置延續至Hardware3.0。3)HW3.0:2019年4月,特斯拉發布Hardware3.0系統,采用全棧自研FSD芯片,單個芯片算力達72TOPS,遠高于當時市面上的自動駕駛芯片,算力實現大幅提升,在功能上可識別更多目標。4)目前,特斯拉正處于由HW3.0向HW4.0更高級別硬件的迭代階段,未來有望支
44、持4D毫米波雷達等更多傳感器和攝像頭的接入,使GPU集成化更高、模塊更輕薄,FSD芯片內核數量有望持續增多,進一步提升性能等。資料來源:焉知汽車,西南證券整理 特斯拉自動駕駛硬件迭代歷程 HW1.0HW1.0HW2.0HW2.0HW2.5HW2.5HW3.0HW3.0前置攝像頭前置攝像頭1個側面相機側面相機0側面后置攝像頭側面后置攝像頭0毫米波雷達毫米波雷達超聲波雷達超聲波雷達12*Lidar 5m核心處理器核心處理器1*Mobileye EyeQ31*NVIDIA Parker SoC+1*NVIDIA Pascal GPU+1*英飛凌 TriCore MCU2*NVIDIA Parker
45、SoC+1*NVIDIA Pascal GPU+1*英飛凌 TriCore MCU2*FSD 芯片ROMROM256兆字節6GB8GB2*8GBFlashFlash/2*4GB處理能力處理能力1倍40倍40倍帶冗余420倍帶冗余每秒處理幀數每秒處理幀數361101102300估計功率估計功率25W250W(閑置40W)300W220W12*Lidar 8m1*Camera 35/1*Camera 50/1*Camera 1202*Camera 902*Camera 601*Radar 160m1*Radar 170m19 資料來源:汽車之心,西南證券整理 1)2016-2018年:通用網絡結構
46、階段。在自動駕駛行業發展初期,業內車企在自動駕駛的目標檢測上一般采用通用網絡結構(InputbackboneneckheadOutput),該結構中僅有一個head,是單一的目標檢測,而駕駛場景通常面臨多項任務,如車道線/人物/信號燈檢測等,因此單一檢測難以滿足現實需求。2)2018-2019年:多任務學習神經網絡階段。為解決單一檢測的痛點、能夠完成多頭任務,特斯拉構建出多任務學習神經網絡架構HydraNet,并使用特征提取網絡BiFPN,實現多特征共享和多任務處理,提升算法效率。3)2020年至今:大模型時代。特斯拉引入特征級融合和BEV+Transformer,特征級融合使原始數據的融合效
47、果提升,BEV使攝像頭拍攝的2D視角轉變為3D表達,Transformer通過適應不同形式的輸入使得BEV在自動駕駛領域得以實現。目標檢測的通用網絡結構 特斯拉多任務學習神經網絡架構HydraNet Backbone:提取圖像特征,網絡結構通常包括AlexNet、ResNet、VGGnet、Densenet等 特斯拉主要采用RegNet Neck:提取更復雜的特征,例如使用特征金字塔網絡FPN、BiFPN等提取不同尺度的特征 特斯拉采用BiFPN Head:進行具體的下游任務,如物體檢測、交通信號和車道識別等 特斯拉由多個Head組成 2.2 算法端:神經網絡為基,邁向大模型時代 20 端到端
48、感知:輸入多相機圖像,輸出三維向量空間。特斯拉車身外部環繞8個外部攝像頭,攝像頭對車身周圍環境的圖像數據和信息進行采集,再通過感知神經網絡進行處理,系統通過深度學習模型進行自我培訓,從而達到全范圍認知路況、增進系統控制精度的目的,構建真實世界的三維向量空間,其中包含汽車、行人等動態交通參與物,道路線、交通標識、紅綠燈、建筑物等靜態環境物,以及各元素的坐標位置、方向角、距離、速度、加速度等屬性參數。2.2.1 感知算法:采用端到端感知架構,構建三維向量空間 側后視攝像頭 側后視攝像頭 后視 攝像頭 窄視角前置攝像頭 主前置攝像頭 廣角前置攝像頭 側前視 攝像頭 側前視攝像頭 輸入輸入:通過通過8
49、 8個攝像頭采集真實世界的圖像和信息個攝像頭采集真實世界的圖像和信息 通過感知神經網絡架構進行處理通過感知神經網絡架構進行處理 輸出輸出:真實世界的三維向量空間真實世界的三維向量空間 輸輸入入層層 隱隱藏藏層層 輸輸出出層層 車身外部環繞車身外部環繞8 8個攝像頭個攝像頭 資料來源:Tesla AI Day,西南證券整理 21 特斯拉視覺感知網絡架構 數據輸入層/Input 由下往上由下往上 數據輸入層/Input:多機位,且每個攝像頭每秒輸入36幀12位1280960的高清圖像。數據校準層/Rectify:攝像頭外參差異會導致采集的數據出現偏差,因此在感知框架中加入“虛擬標準相機”,通過去畸
50、變、旋轉等處理,將圖像數據統一映射到同一虛擬標準攝像頭坐標中,保證數據一致性。RegNet網絡和BiFPN:通過RegNet網絡和BiFPN進行特征提取,感知不同尺度的目標,采用多尺度特征融合方法,獲得16012064、8060128、4030256、2015512四個尺度的特征圖。數據校準層/Rectify RegNet網絡和BiFPN 2.2.1 感知-數據校準層:構建標準化數據,實現多機位融合 構建標準化數據,實現多機位融合 資料來源:Tesla AI Day,西南證券整理 22 特斯拉視覺感知網絡架構 由下往上由下往上 特斯拉通過引入Transformer,使自動駕駛的思維方式接近真實
51、世界。特斯拉在BEV空間層對圖像進行特征初始化,再通過多層Transformer與2D圖像特征進行交互融合,最終得到BEV特征,實現BEV視角的轉換。特斯拉運用Transformer的多頭注意力機制將每個攝像頭的圖像轉換為key和value,然后訓練模型以查表的方式自行檢索需要的特征用于預測。具體來看,Key和Value由多尺度特征空間經過多層感知機網絡(MLP)訓練得到。而通過對特征空間進行池化處理得到全局描述向量(context summary),同時對輸出的BEV空間各柵格進行位置編碼(positional encoder),合成描述向量和位置編碼后再通過一層MLP可以得到Query。特
52、斯拉通過運用Transformer,可以將地面坡度、曲率等幾何形狀的變化情況內化進神經網絡的訓練參數中,實現對物體深度信息準確感知和預測,例如,車道線更準確、清晰,目標檢測結果更穩定,不再有重影等??臻g理解層/Transformer:二維數據實現三維變換,自動駕駛接近現實世界 2.2.1 感知-空間理解層:2D數據實現3D變換,自動駕駛接近現實 資料來源:Tesla AI Day,西南證券整理 23 特斯拉視覺感知網絡架構 由下往上由下往上 特征隊列模塊:可分為時序特征隊列和空間特征隊列。1)時序特征隊列:每過27ms將一個特征加入隊列。時序特征隊列可以穩定感知結果的輸出,如運動過程中發生的目
53、標遮擋,模型可以找到目標被遮擋前的特征來預測感知結果。2)空間特征隊列:每前進1m將一個特征加入隊列,用于等紅綠燈一類需要長時間靜止等待的狀態,在該狀態下,一段時間之前的在時序特征隊列中的特征會出隊而丟失,因此需要用空間特征隊列記住一段距離之前路面的箭頭或路邊的標牌等交通標志信息。視頻模塊:特斯拉使用RNN結構來作為視頻模塊,命名為空間RNN模塊(Spatial RNN Module)。添加視頻模塊能夠提升感知系統對于時序遮擋的魯棒性、對于距離和目標移動速度估計的準確性。短時記憶層使得自動駕駛感知網絡擁有類似于司機的短時記憶,可以對當前時刻的場景做出判斷,并根據一段時間內的數據特征推演出目前場
54、景下的可能結果。短時記憶層:充分考慮時序信息,模擬司機短時記憶 2.2.1 感知-短時記憶層:充分考慮時序信息,模擬司機短期記憶 特征隊列模塊(Feature queue module)用來緩存時序特征,視頻模塊(Video module)用來融合時序上的信息,經模塊處理后的特征融合了時序上的多相機特征,最終在Heads中進行解碼并實現輸出。資料來源:Tesla AI Day,西南證券整理 24 感知信息采用特征級融合,擬合效果顯著優于后融合。特斯拉起初采用后融合方案,但在后融合方案下,置信度較低的信息容易被忽略,原始數據也容易丟失,從而會導致信息失真、決策失誤等問題。而特征級融合可以避免不同
55、的攝像頭對同一特征進行識別,因此能夠更好地解決后融合信息失真的問題。根據特斯拉AI Day展示的效果圖來看,在BEV空間中做特征級融合的效果要遠遠好于后融合,同時能夠避免前融合方案下的巨大算力消耗、以及后融合方案下的復雜度難題。特斯拉在BEV空間中做后融合和特征級融合的效果對比 2.2.1 感知:特征級融合取代后融合,降低算力消耗和復雜度 資料來源:Tesla AI Day,西南證券整理 25 2.2.1 感知:BEV+Transformer提供全局視角,應對長尾問題 時序信息疊加占用網絡,減輕長尾難題。目前,自動駕駛技術已成功運用于大多數道路場景,但在部分長尾場景和極端情況中,自動駕駛算法的
56、泛化能力仍然難以支持,而BEV+transformer技術通過提供全局視角和增強推理能力來優化自動駕駛系統的感知能力,進一步提高系統的可靠性和安全性。在特斯拉的BEV+Transformer架構中,通過增加時序信息、引入占用網絡,算法的泛化能力進一步提升,從而能夠應對更多的長尾場景(Corner Case)。增加時序信息:例如,在自動駕駛過程中,如果有行人正在過馬路,該過程卻被障礙物遮擋,如果汽車僅有瞬時感知能力,那么汽車在感知時刻則無法感知到可能存在行人被遮擋的情況,從而產生安全風險。但人類司機可以根據過往經驗以及有關行人過馬路的歷史記憶,意識到行人被遮擋的風險,從而選擇減速避讓。因此,特斯
57、拉在自動駕駛感知網絡架構中引入時空序列特征層,使用視頻片段而非靜止圖像來訓練神經網絡,通過某一時間段的數據特征,推演當前場景下可能性最大的結果。引入占用網絡:占用網絡即“不考慮某一物體究竟是什么,只考慮體素是否被占用”,體素的作用相當于激光雷達點陣的作用,使非典型但卻存在的事物能夠直接表示出來,從而增加算法的泛化能力和對現實世界的精確認知。注:藍色表示運動的體素,紅色表示靜止的體素 特斯拉在感知網絡引入時空序列特征層 特斯拉占用網絡在行車場景中的使用效果 資料來源:Tesla AI Day,西南證券整理 26 2.2.2 規控算法:推出自有解決方案,尋找規控最優解 特斯拉解決方案:特斯拉解決方
58、案:三維向量空間三維向量空間 基于既定目標進行初步基于既定目標進行初步搜索搜索 凸凸優化優化 持續微調優化持續微調優化 全局全局最優解最優解 資料來源:Tesla AI Day,西南證券整理 規控兩大難點:1)非凸性(Non-Convex):通常一個問題有眾多解決方案,難以得出全局最優解,此外,將離散搜索轉化為連續的函數優化,使用梯度下降算法容易陷入局部最優,從而無法快速做出準確決策。2)多維的參數量/參數空間分布廣:車輛行駛包括眾多參數,快速決策的要求會增加搜索和計算的復雜程度。特斯拉解決方案:1)對于僅有唯一解的問題:直接生成明確的規控方案。2)對于有多個可選方案的復雜問題:在由感知獲得的
59、三維向量空間中,基于既定目標進行初步粗略搜索,尋找初步路徑,然后根據安全性、舒適性、效率性等指標,圍繞初步路徑進行優化,再融入成本函數、人工干預數據、仿真模擬數據等,在障礙物間距、加速度等參數上繼續微調,最終得到最優規控方案,最終生成控制指令,由執行模塊接受指令,實現自動駕駛。特斯拉視覺規控解決方案 27 2.2.2 規控算法:引入蒙特卡洛樹搜索,完成高效求解 資料來源:Tesla AI Day,西南證券整理 啟發式搜索啟發式搜索 VS VS 基于導航的啟發式搜索基于導航的啟發式搜索 VS VS 基于神經網絡的蒙特卡洛樹搜索基于神經網絡的蒙特卡洛樹搜索:以停車問題為例:以停車問題為例 引入蒙特
60、卡洛樹搜索,完成高效求解。1)啟發式搜索:采用A-Star算法,搜索所有可能路徑,直至找到解決辦法,以停車問題為例,需要近40萬次搜索。2)基于導航的啟發式搜索:在已知停車場地圖的情況下按照導航尋找停車位,尋找效率相比啟發式搜索提高10+倍,但椎體等未知目標會導致搜索效率降低。3)基于神經網絡的蒙特卡洛樹搜索:通過神經網絡預測各個節點概率或狀態,將節點放于蒙特卡洛樹中進行搜索,有助于大幅減少搜索空間、有效提高決策實時性,在停車問題中僅需288次搜索即可完成求解,效率相比A-Star算法提高千倍。藍色格表示車輛車輛 綠色格表示車位車位 紅點表示椎體椎體 28 2.3 數據端:車隊逐漸壯大,里程數
61、日益增長,構建數據護城河 FSD里程數實現迅速增長:根據特斯拉2023年上半年業績會,特斯拉FSD在里程數上取得新進展,FSD Beta累計行使里程已超過3億英里,僅23Q2單季度提升約1億英里。自身數據庫反哺模型性能:特斯拉車隊規模逐漸壯大、車輛累計行使里程日益增長,有助于特斯拉構建自身的自動駕駛數據倉庫,形成數據壁壘,為大模型的訓練和優化提供更多的優質數據,反哺算法性能。FSD Beta累計行使里程(百萬英里)資料來源:公司公告,西南證券整理 29 2.3 數據端:數據標注從人工標注到自動標注 自建數據標注團隊,保證標注質量及效率。2018年,特斯拉與第三方公司合作,采用人工標注,該方式標
62、注效率低、且溝通成本高。而后為提升標注效率和質量,特斯拉自建標注團隊,人員規模近千人。此后,隨著自動駕駛數據持續增長,所需標注人員的規模進一步擴大,使得人力成本快速增長,使得2020年特斯拉開始研發并使用數據自動標注系統,通過大量數據訓練大模型,再用大模型訓練車端小模型。資料來源:Tesla AI Day,西南證券整理 2、經過離線神經網絡進行預測,得到中間層結果,如深度圖、坐標、目標物、語義分割、深度、光流等 1、汽車在一段時間內采集到的視頻、IMU、GPS、里程表等數據構成最小標注單元Clip 3、經過處理、特征重建,獲得3D標簽集以及所有目標的運動趨勢,包括行車軌跡/靜態環境重建/動態物
63、/運動學參數等 特斯拉數據標注流程 30 2.3 數據端:數據標注從2D到3D、4D 數據標注從2D到3D、4D:通過引入BEV視角,自動駕駛實現2D圖像向3D車身自坐標系轉變,但在未引入時序信息時,BEV仍然是對瞬時的圖像片段進行感知,缺乏時空記憶力,汽車只能根據當前時刻感知到的信息進行判斷。特斯拉感知網絡架構引入時空序列特征層,使用視頻片段,而非用圖像訓練神經網絡,增加短時記憶能力,并于2022年對BEV進行升級,引入占用網絡,推動數據標注向4D升級。資料來源:Tesla AI Day,西南證券整理 3D3D點云重建圖:點云重建圖:3D場景中的標簽可以和2D場景中的標簽相互轉換;3D、4D
64、數據可通過目標移動、方向轉換,獲得不同角度、視野的2D圖像。數據標注從2D到3D、4D 31 2.3 數據端:語義重構,展現完整道路情況 資料來源:Tesla AI Day,西南證券整理 圖像重構將2D圖像的像素映射到對應的語義信息中,即一個2D的像素對應一個向量空間中的像素語義。車輛在行駛時對拍攝的路車輛在行駛時對拍攝的路面進行語義重構,可以繪面進行語義重構,可以繪制出整個道路的情況。制出整個道路的情況。車輛在路面上行駛時,通車輛在路面上行駛時,通過神經網絡的隱含映射,過神經網絡的隱含映射,每個像素都有對應的語義每個像素都有對應的語義信息。信息。32 多個車輛經過同一位置時繪制的不多個車輛經
65、過同一位置時繪制的不同道路語義圖。同道路語義圖。通過融合技術重構路面信息、通過融合技術重構路面信息、3D3D點點云等信息。云等信息。不同車輛經過相同位置時,拍攝到的信息不同,通過多個車輛拍攝到的結果進行融合,可獲得最新路況,而未經過的車輛也可以根據其他車輛走過的信息進行預判。多目標/車輛結果融合可以提高路況信息的準確性、減少數據誤差、噪聲等。2.3 數據端:語義重構,展現完整道路情況 資料來源:Tesla AI Day,西南證券整理 33 2.4 算力端:自研大規模集群超算平臺,Dojo有望提供強算力 資料來源:公司公告,西南證券整理 特斯拉自研超級計算平臺Dojo基于超大計算集群設計。Doj
66、o架構由特斯拉完全定制,涵蓋計算、網絡、輸入/輸出(I/O)芯片、指令集架構、電源傳輸、冷卻等,具備高可擴展性和分布式系統。Dojo具備超高集成度,并非根據小系統拓展而來,旨在高效地處理海量視頻數據、進行定制的神經網絡訓練。Dojo于2021年首屆特斯拉AI Day上面市,當時僅有第一批芯片和訓練塊,尚未構建起完整的Dojo機柜和集群(Exapod);2022年AI Day,Dojo取得新進展,并通過后續的持續部署與規劃,搭建起大規模算力集群,推動大模型訓練。算力規劃明確,Dojo正式投產。1)2023年7月,Dojo進入投產階段,拉開特斯拉算力集群快速建設階段的帷幕;2)預期2024年2月,
67、特斯拉的算力規模進入全球前五;3)預期2024年10月,特斯拉的算力總規模達到100EFlops,相當于30萬塊A100GPU的算力總和。特斯拉Dojo的構成 特斯拉Dojo算力規劃 資料來源:Tesla AI Day,西南證券整理 34 2.4 算力端:特斯拉Dojo自研的D1芯片 Dojo D1性能:Dojo的計算核心采用特斯拉自研的D1芯片,D1芯片使用臺積電7nm工藝,擁有500億個晶體管,芯片面積為645mm,BF16、CFP8算力可達362TFlops,FP32算力可達22.6TFlops,TDP為400W。而英偉達A100芯片同樣采用臺積電7nm工藝,擁有542億晶體管,芯片面積
68、826mm,FP32峰值算力為19.5TFlops。Dojo D1架構:D1芯片由1820顆核心構成,出于良率和穩定性考慮,每個D1芯片有354顆核心(Node)可用。從每顆核心的微架構來看,D1 Node采用存算一體架構(近存計算),帶有向量計算/矩陣計算能力的處理器,具有完整的取指、譯碼、執行部件,處理器運行在2GHz,具有4個8x8x4矩陣乘法計算單元。同時,每個內核擁有一個1.25MB的SRAM作為主存(非緩存),能以400GB/S的速度進行加載,并以270GB/S存儲??梢钥闯?,每個D1核心都是一個完整的帶矩陣計算能力的CPU,且特斯拉對其進行高計算密度的優化,其計算靈活性遠超眾核架
69、構GPU,但同時也將帶來極高的成本。Dojo D1芯片微架構 Dojo采用特斯拉自研D1芯片 資料來源:Tesla AI Day,西南證券整理 35 2.4 算力端:特斯拉Dojo超高集成度的Training Tile Training Tile:基于D1芯片,特斯拉推出晶圓上系統級方案Training Tile,將計算、I/O、存儲、液冷等模塊高度集成,具備極低的延遲和極高的帶寬。Training Tile應用臺積電InFO_SoW封裝技術,將55的D1芯片陣列排布組成,性能可以達到9PFlops BF16/CFP8,功耗為15KW。同時Tiles以2D Mesh結構互連,片上跨內核SRAM
70、達到11GB,并在整個堆棧中使用特斯拉定制的傳輸協議,通過9TB/s結構連接。Dojo接口處理器/Dojo Interface Processor:Dojo接口處理器作為Tile與Host Server的通信橋梁,每個DIP提供900GB/s的TTP接口,同時配備32GB的HBM內存。每個Tile通過5張DIP卡與Host相連,則每個Tile的鏈路帶寬達到4.5TB/s,可共享160GB的HBM。Training Tile通過DIP接口與主機連接 25顆D1集成封裝成為Dojo Training Tile 資料來源:Tesla AI Day,西南證券整理 36 2.4 算力端:特斯拉Dojo突
71、破E級算力的ExaPOD 基于Training Tile,特斯拉推出ExaPOD大規模計算集群。六塊Training Tile組成一個Training Tray,單機柜可放置2個Tray;十個機柜組成一臺ExaPOD。1 ExaPOD=10 Cabinet=120 Tile=3000 D1 Chip=1062000 Node。換算下來,一個ExaPOD可提供1.1EFlops算力,配備1.3TB SRAM,以及13TB DRAM。單機柜2個Tray,十個機柜組成ExaPOD 六塊Training Tile組成Training Tray 資料來源:Tesla AI Day,西南證券整理 37 分
72、層 名稱 片上SRAM 算力(BF16、CFP8)備注 內核 Dojo Node 1.25MB 1.024TFlops 單個計算核心,2GHz主頻,4個884矩陣計算核心 芯片 Dojo D1 440MB 362TFlops 單芯片354核心,7nm,TDP為400W 模組 Dojo Tile 11GB 9950TFlops 5x5個D1芯片組成一個Tile 集群 Dojo ExaPOD 1320GB 1.1EFlops 12個訓練模組組成一個機柜,10個機柜組成ExaPOD,共3000個D1芯片 2.4 算力端:特斯拉Dojo架構設計的哲學 Dojo采用存算一體架構(存內計算or近存計算)。
73、面積精簡:將大量的計算內核集成到芯片中,最大限度提高AI計算的吞吐量,在保障算力的情況下使單個內核的面積盡可能小,更好地處理算力堆疊與延遲的矛盾。延遲精簡:為了實現區域計算效率最大化,內核以2GHz運行,只使用基本的分支預測器和小指令緩存,只保留必要的部件架構,其余面積留給向量計算和矩陣計算單元。功能精簡:通過削減對運行內部不是必須的處理器功能,進一步減少功耗和面積使用。Dojo核心不進行數據端緩存,不支持虛擬內存,也不支持精確異常。Dojo硬件架構總結 資料來源:Tesla AI Day,西南證券整理 38 特斯拉Dojo的愿景是構建一個統一的加速器。Dojo硬件架構已經具備單個可擴展計算平
74、面、全局尋址快速存儲器和統一高帶寬+低延遲的特性。在此基礎上,Dojo自建了編譯器和指令集,ISA以Risc-V為基礎進行改良與擴展,Dojo 編譯器可以在尾數精度附近滑動,以涵蓋更廣泛的范圍和精度。通過軟硬件層面的歸一化,整個系統可以被抽象為一個整體進行算力調度,最大化硬件性能及利用率。根據特斯拉的測試,利用Dojo運行Occupancy Network神經網絡模型時,相較英偉達A100能夠實現性能數倍提升,過去需要6個GPU Box,現在只需要1個Dojo Tile。軟硬件層面歸一化,帶來的計算效率提升 2.4 算力端:特斯拉Dojo軟件棧的優化 資料來源:Tesla AI Day,西南證
75、券整理 39 2.5 商業端:軟件化進程推進,買斷制疊加訂閱制,整車價值量增加 從“量”的角度來看:人工智能、神經網絡以及大模型的應用正加快自動駕駛系統的迭代速度,技術的進步將帶來用戶駕駛體驗的提升,從而推動用戶付費轉化。我們認為,特斯拉FSD Beta v11.4版本在端到端大模型的賦能下將進一步優化系統性能,刺激軟件需求量和付費率抬升。從“價”的角度來看:特斯拉FSD的收費模式采用買斷制和訂閱制。買斷制方面,車主需要一次性支付套件價格,FSD從2016年的3000美元經過多輪漲價,自2022年9月5日起價格提升至15000美元。訂閱制方面,特斯拉在業內首創自動駕駛服務按月收費,FSD每月訂
76、閱價格在99美元至199美元之間,具體取決于車輛是否配備EAP系統;對于車主而言,訂閱模式可以迅速降低FSD購買成本,并在使用期限上靈活選擇;對于特斯拉而言,公司只需要開放軟件接口即可增強盈利能力。我們認為,無論是買斷制還是訂閱制,特斯拉在售賣整車的同時還具備軟件價值,自動駕駛系統的迭代將增加整車價值量,電動汽車逐漸呈現軟件化趨勢。特斯拉駕駛系統價格復盤(美元)資料來源:特斯拉官網,西南證券整理 起始時間起始時間終止時間終止時間基礎版自動輔助駕駛/AP基礎版自動輔助駕駛/AP增強版自動輔助駕駛/EAP增強版自動輔助駕駛/EAP全自動駕駛/FSD全自動駕駛/FSD2016年10月192019年2
77、月27日not available500030002019年2月282019年4月10日not available300060002019年4月11日2019年8月15日included for freenot available60002019年8月16日2020年6月30日included for freenot available70002020年7月1日2020年10月21日included for freenot available80002020年10月22日2022年1月16日included for freenot available100002022年1月17日2022年6月
78、23日included for freenot available120002022年6月24日2022年9月4日included for free6000120002022年9月5日至今included for free60001500040 FSD套件業績兌現,收入貢獻日趨明顯。隨著FSD售價和搭載率提升,近年來FSD收入也隨之上漲。根據公司2022年四季度財報,特斯拉FSD在22Q4帶來約3.24億美元收入。根據公司財報,包括FSD收入在內的服務及其他業務收入呈現持續增長態勢,從16Q4的1.59億美元增長至23Q2的20.5億美元。我們認為,特斯拉FSD從2016年開始貢獻收入,在業內
79、率先產生業績變現,未來智能汽車軟件仍有巨大升值空間,特斯拉FSD汽車軟件收入有望繼續增長。2.5 商業端:FSD套件業績兌現,收入貢獻日趨明顯 0%20%40%60%80%100%16Q417Q117Q217Q317Q418Q118Q218Q318Q419Q119Q219Q319Q420Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q2汽車銷售 汽車租賃 汽車監管信貸 儲能 服務及其他收入 16Q4-23Q2特斯拉收入結構 資料來源:Wind,西南證券整理 16Q4-23Q2特斯拉服務及其他收入(億美元)051015202516Q417
80、Q117Q217Q317Q418Q118Q218Q318Q419Q119Q219Q319Q420Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q241 3 特斯拉機器人:復用FSD底座,引領具身智能 3.1 硬件端:3.1.2 四連桿膝蓋關節:模擬人體設計,優化腿部力學模型 3.1.3 驅動器選型:基于成本-輕量化考慮,實現一機多用 3.2 軟件端:目 錄 3.1.4 驅動器配置:機械結構輸出大力矩,傳感器助力精準電控 3.1.5 機器手:采用電機驅動方案,追求靈巧且高效 3.2.1 感知:復用底層算法,改進占用網絡,實現視覺導航 3.
81、2.2 規劃:借用自動駕駛模擬器,融合多學科,優化運動軌跡 3.2.3 控制:學習人類動作,添加軌跡優化程序,適應現實世界 3.1.1 視覺傳感器:堅持純視覺路線,基于多目打造立體感知 42 資料來源:甲子光年,西南證券整理 3 AI賦能人形機器人,引領具身智能浪潮 機器人作為具身智能的更優形態,人工智能將對機器人進一步賦能。具身智能是將人工智能與機器結合,將多模態的大語言模型作為人類與機器溝通的橋梁,幫助機器處理具身推理任務,強調智能與身體和環境的互動關系,將智能與實際物理世界結合起來,通過身體感知、運動和與環境互動來實現智能行為。人形機器人的具身智能包括具身感知和具身執行。其中,具身感知是
82、指通過機器人身上的各種傳感器獲取周圍環境的信息。具身執行是指將機器人的感知和決策轉化為具體行動。近年來,人形機器人作為具身智能的代表產品,結構設計日益符合人類特點,AI技術的進步進一步提升了人形機器人的感知、規劃、控制和人機交互能力。硬件系統硬件系統 軟件系統軟件系統 智能機器人產業鏈 公共服務公共服務 下游應用下游應用 系統集成系統集成 智能機器人本體制造智能機器人本體制造 中游集成制造中游集成制造 工業制造工業制造 家用服務家用服務 醫療服務醫療服務 特種應用特種應用 其他其他 傳感器傳感器 上游軟硬件上游軟硬件 智能芯片智能芯片 控制器控制器 感知系統感知系統 規劃系統規劃系統 控制系統
83、控制系統 伺服電機伺服電機 減速器減速器 末端執行器末端執行器 交互系統交互系統 43 資料來源:中移智庫,西南證券整理 主流人形機器人性能對比 特斯拉Optimus特斯拉Optimus波士頓動力Atlas波士頓動力Atlas優必選Walker X優必選Walker X小米CyberOne小米CyberOne身高身高1.8米1.75米1.3米1.78米重量重量57kg75kg63kg52kg語音能力語音能力Tesla SoC:語音交流/四維燈語體系、語音交互85種環境語義識別;6類45種人類語義情緒識別視覺能力視覺能力Tesla SoC:視覺信息處理;Autopilot的攝像頭作為視覺傳感器,
84、共8個攝像頭兩個視覺系統:1個激光測距儀+1個立體照相機U-SLAM視覺導航技術,實現自主規劃路徑;定位精度10cm;精定位精度1cm;導航精度20cm2D彎曲;OLED屏幕;Mi Sense自研空間視覺;AI交互相機運動能力運動能力速度8km/h;身體28個自由度,手部11個自由度;驅動:電機+減速器;承載最多約20kg的物品;可行走、上下樓梯、下蹲、拿取物品等動作速度1.5m/s;四肢28個自由度;驅動:電機與液壓兩種傳動;可垂直起跳、跨越障礙、后空翻等速度3km/s;四肢41個自由度;驅動:電機+減速器;可在20斜坡上行走,15cm臺階上上下樓梯;動態足腿控制,自平衡抗干擾速度3.6km
85、/s;21個關節自由度;驅動:電機+減速器應用場景應用場景特種機器人:為人類執行一些無聊或危險的任務,如搬運重物、采購雜貨等特種機器人:執行巡邏、勘測、運輸任務等服務型機器人服務型機器人3 AI賦能人形機器人,引領具身智能浪潮 AI技術的進步進一步提升了人形機器人的語音能力、視覺能力和運動能力,但同時也存在眾多難點。硬件核心難點:人形機器人在手部和腿部的硬件集成上難度較大。1)手部:手部集成需要大量的電機和驅動器;2)腿部:人形機器人的腿部驅動器需要很高的損失峰值功率和驅動能力。軟件核心難點:1)手部:手部涉及20多個自由度,精細化感知難度大;2)腿部:人形機器人在腿部行走上尚未出現真正意義上
86、的類人行走算法,行走算法的技術難度大,且當前的行走算法有很大的不穩定性。3)全身的結合:全身控制需要結合軀干、雙臂和腿部等,涉及到難度較大的復合算法。4)規控算法:混合智能操控和避讓等算法難度大,需要更高維度的規劃。44 硬件層面:特斯拉自動駕駛和機器人在硬件上具備一定的通用性。感知層主要包括攝像頭、毫米波雷達等傳感器;規劃層主要基于AI芯片和FSD系統;控制層包括執行器等。特斯拉機器人在硬件端與自動駕駛具有一定相似性。軟件層面:特斯拉打通FSD在自動駕駛和機器人中的底層模塊,在一定程度上實現算法的復用。自動駕駛FSD系統可以根據感知到的環境信息進行路徑規劃和車輛控制,該方法同樣適用于機器人,
87、幫助機器人實現視覺感知、從而在復雜環境中選擇最佳路徑、最后執行適當的決策。實際上,自動駕駛本質也屬于機器人,特斯拉目前在感知和識別等模塊上具有一定的通用人工智能能力,而通用人工智能算法將是特斯拉未來長期價值所在。3 特斯拉橫向遷移FSD底座,機器人與自動駕駛軟硬件部分適用 特斯拉通用機器人的人工智能 基于AutoPilot的攝像頭 復用FSD算力設施 基于神經網絡算法 神經網絡規劃 復用自動標注系統 復用FSD硬件設施 復用Dojo訓練平臺 資料來源:Tesla AI Day,西南證券整理 45 3.1 硬件端-視覺傳感器:堅持純視覺路線,基于多目打造立體感知 資料來源:焉知汽車,西南證券整理
88、 機器人視覺傳感器技術指標對比 指標指標激光雷達激光雷達攝像頭攝像頭毫米波雷達毫米波雷達超聲波雷達超聲波雷達紅外紅外遠距離探測能力遠距離探測能力強強強弱一般夜間工作能力夜間工作能力強弱強強強受氣候影響受氣候影響大大小小大煙霧環境工作煙霧環境工作弱弱強一般弱雨雪環境工作雨雪環境工作一般一般強強弱溫度穩定性溫度穩定性強強強弱一般車速測量能力車速測量能力弱弱強一般弱行人測量能力行人測量能力一般強弱弱弱測量精度測量精度高中中低高分辨率分辨率高中中低低成本成本高中中低較低指標指標普通單目普通單目單目結構光單目結構光單目TOF單目TOF雙目結構光雙目結構光普通雙目普通雙目檢測距離檢測距離遠近近近遠分辨率分
89、辨率高中低中高精度精度低高高高中視角視角廣窄窄窄廣幀率幀率高低中低中功耗功耗低高高高中成本成本低高高高中適應環境適應環境室內室外室內室內室外室內室外室內室外機器人視覺攝像頭性能和成本比較 機器人的智能感知離不開視覺傳感器,視覺傳感器主要用于檢測機器人周圍的環境,并轉化為機器人可以理解的數據和信息。機器人視覺主要分為2D視覺和3D視覺:1)2D視覺主要基于攝像頭和距離傳感器進行感知、并通過算法還原深度數據,硬件成本低,但算法難度大;2)3D視覺可分為激光雷達和深度相機,深度相機又分為雙目RGB相機、結構光相機和TOF相機,主要用于檢測空間的景深距離。雙目RGB相機非常依賴純圖像特征的提取和匹配,
90、是純視覺方法,因此對場景的光照和紋理要求較高、對算法要求高、計算量較大,應用場景主要為雙目視覺搬運機器人/機械臂、雙目掃地機器人等;而結構光相機可在光照不足、缺乏紋理的場景使用,例如3D人臉識別、手勢識別、安全驗證、金融支付等場景;TOF飛行時間法通過發射持續不斷的“面光源”,快速計算與物體的距離,得到被測物體的3D圖像,可用于機器人導航、規劃路徑、實現避障等場景。46 3.1 硬件端-視覺傳感器:堅持純視覺路線,基于多目打造立體感知 特斯拉Optimus頭部攝像頭配置 視覺感知方面,特斯拉堅持純視覺路線,依靠攝像頭采集信息。自動駕駛和機器人均通過傳感器獲取周圍環境信息,常用傳感器包括攝像頭、
91、雷達(毫米波/激光/超聲波等)、紅外傳感器、GPS、IMU等。在主流機器人中,特斯拉Optimus沿用自動駕駛感知方案,采用純視覺路線;波士頓動力Altas機器人則采用多傳感器路線,包括激光測距儀和立體照相機兩個視覺系統?;陔p目攝像頭視差原理,打造立體視覺感知。特斯拉Optimus機器人頭部配置3顆Autopilot攝像頭,包括左肩攝像頭、右肩攝像頭和中央魚眼攝像頭,可覆蓋大于180度的體前場景。特斯拉采用雙目攝像頭,其原理與人眼相似,基于視差使視覺感知更加立體,且雙目系統成本與激光雷達方案相比成本更低。資料來源:Tesla AI Day,西南證券整理 47 3.1 硬件端-四連桿膝蓋關節:
92、模擬人體設計,優化腿部力學模型 腿部膝蓋彎曲角越大,膝部扭矩負載更高。隨著腿部的彎曲角度變大,例如越接近蹲姿,執行同一任務所需的扭矩會越來越大,例如半蹲走路比站著走路更費勁。特斯拉采用四連桿結構,讓同一負載在直腿狀態和彎腿角度下的所需扭矩更為平緩和一致。在簡單的二連桿設計結構下,機器人的大小腿僅用一個轉軸連接,導致機器人在彎腿狀態下所需的執行扭矩會顯著增加(藍線);在四連桿膝蓋結構下,所需扭矩基本保持平穩,將實現小馬拉大車的效果。四連桿結構(綠色)VS 二連桿結構(藍色)二連桿結構下對驅動器要求的最大扭矩遠遠高于四連桿結構 基于仿生學的四連桿膝蓋關節 膝部負載扭矩和彎曲角關系 執行扭矩圖譜 資
93、料來源:Tesla AI Day,西南證券整理 48 3.1 硬件端-驅動器選型:基于成本-輕量化考慮,實現一機多用 具備一機多用的通用性:特斯拉Optimus軀干中共有28個關節,28各關節中總共采用6種驅動器,實現一機多用,具備通用性,避免由于系統內驅動器型號過多而導致的生產制造效率低下、成本較高等問題。具備更省力的扭重比:6個驅動器中包括3個旋轉驅動器和3個直線驅動器,每個驅動器均有較好的扭重比(即發動機作用于每1噸重量的扭矩,單位為NM),在一定體積下具備更大力氣。機器人軀干中的28個關節共采用6類驅動器 資料來源:Tesla AI Day,西南證券整理 49 3.1 硬件端-驅動器配
94、置:機械結構輸出大力矩,傳感器助力精準電控 特斯拉Optimus在旋轉驅動器和直線驅動器上十分注重扭矩的輸出,例如直線驅動器內的倒置滾珠絲杠。特斯拉在傳感器上致力于實現更精準的電控,在驅動器內部均布置相應的位置傳感器和力矩傳感器。角接觸球軸承 離合器 交叉圓柱滾子軸承 諧波減速器 滾柱 倒置滾柱絲杠 滾珠軸承 四點接觸球軸承 定子 力傳感器 位置傳感器 磁體 磁體 非接觸式扭矩傳感器 輸出位置傳感器 輸入位置傳感器 三類旋轉驅動器和三類直線驅動器的具體硬件配置 資料來源:Tesla AI Day,西南證券整理 50 3.1 硬件端-機器手:采用電機驅動方案,追求靈巧且高效 特斯拉Optimus
95、機器手基于仿生學關節設計,模擬人類關節與肌腱形態,每只手共搭載6個驅動器,擁有11個自由度(6個主動自由度+5個被動自由度),并搭載傳感器,具備感知功能和自適應抓取能力,機器手通過對不同物體的抓握進行模型訓練逐步形成手部的觸覺感知,目前,Optimus可提起約重9公斤的物品、使用部分工具、并能夠精確抓取一些小部件。機器手的手指關節采用具備自鎖結構的蝸輪蝸桿設計,實現輕量且高效。指關節由蝸桿驅動蝸輪,但蝸輪無法驅動蝸桿,由此避免因關節負重而導致驅動器反轉,同時在提取重物時關節會因自鎖效應固定從而保持手部姿勢、避免指關節驅動器額外工作。機器手采用人體仿生設計&手指關節采用的蝸輪蝸桿設計 蝸輪(右側
96、亮藍色)蝸桿(左側深色)資料來源:Tesla AI Day,西南證券整理 51 3D占用網絡 YUV顏色編碼系統 全景分割 FSD打通自動駕駛和機器人的底層模塊,復用視覺神經網絡。特斯拉機器人所運用的視覺神經網絡直接由自動駕駛系統移植而來。其中,占用網絡仍是重中之重。在3D實物探測中,特斯拉進一步改進占用網絡,使用NeRF完成圖形的3D渲染,在視覺感知上強調提供更加精確的景深和體積感知。構建空間點云圖譜,實現機器人視覺導航。在路徑導航方面,特斯拉將機器人通過視覺檢測到的物體搭建成一個空間點云圖譜,通過訓練讓機器人識別室內環境下的常見物體和關鍵特征,然后再在圖譜中避開環境中的實體從而規劃出可行進
97、路徑。3.2 算法端-感知:復用底層算法,改進占用網絡,實現視覺導航 景深視覺感知 體積感知 點云圖譜視覺導航 資料來源:Tesla AI Day,西南證券整理 52 3.2 算法端-規劃:借用自動駕駛模擬器,融合多學科,優化運動軌跡 自動駕駛模擬器可執行機器人運動代碼,但機器人移動較汽車移動更加復雜。在模擬方面,特斯拉將機器人的運動代碼集成到自動駕駛模擬器中,通過運行自動駕駛模擬器的運動控制代碼,幫助機器人實現行走。2022年4月,特斯拉機器人邁出第一步,移動速度緩慢;但隨著團隊解鎖更多關節、以及技術的不斷進展,例如手臂平衡等,機器人的行走日益進化。事實上,從汽車移動到機器人移動的過程中,運
98、動規劃變得更加深入和復雜。模型基于多種學科,優化路徑和軌跡規劃。人類在行走過程中具備身體的自我意識、采用節能步態、能夠做到平衡和四肢協調,因此,機器人的運動規劃需要結合運動學、動力學和接觸特性等多種學科,模型更加復雜。當前,機器人的行走規劃主要分為三個部分:1)基于期望路徑,進行足跡規劃;2)基于規劃的足跡,將足跡連接成軌跡,機器人通過腳趾和腳跟的步幅在軌跡上實現行走,提供更大的步幅和更少的膝蓋彎曲,從而提高系統效率;3)找到質心軌跡,保證機器人系統在平衡狀態下進行動態的、可行的運動。第一步:基于期望路徑,進行足跡規劃 第二步:將足跡連接成軌跡,機器人基于軌跡、并運用腳趾和腳跟像人類一樣跨步走
99、 第三步:找到質心軌跡,保證機器人在平衡狀態下進行動態的、可行的運動 資料來源:Tesla AI Day,西南證券整理 53 3.2 算法端-控制:學習人類動作,添加軌跡優化程序,適應現實世界 特斯拉機器人團隊為實現機器人在現實世界中更加自然地操縱事物,主要基于以下兩個步驟:1)生成自然運動參考庫:通過收集人類演示的自然動作,形成可供機器人參考和學習的運動庫。機器人動作學習過程具體如下:人類演示拾取物體的動作和過程系統對人類的動作進行捕捉將動作可視化地轉化成手部、肘部和軀干位置的關鍵幀使用反向運動學將其映射到機器人上。2)在線運動自適應:在第一個步驟中,單一動作的演示并不足以適應現實世界中的變
100、化,因此特斯拉推出在線運動自適應技術。例如,以機器人拾取特定位置的長方體為例,特斯拉通過添加軌跡優化程序,幫助解決手應該在哪里、機器人應該如何平衡,何時需要將運動適應現實世界等問題。最終生成可以適應現實世界變化的運動參考軌跡。第一步:自然運動參考庫(Natural Motion References)第二步:在線運動自適應(Online Motion Adaptation)人類演示 運動捕捉 全身控制 演示動作 軌跡優化 在線動作 資料來源:Tesla AI Day,西南證券整理 54 行業競爭加劇風險 相關技術發展不及預期風險 商業變現不及預期風險 風險提示 55 分析師:王湘杰 執業證號:
101、S1250521120002 電話:0755-26671517 郵箱: 西南證券研究發展中心 分析師承諾分析師承諾 報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,報告所采用的數據均來自合法合規渠道,分析邏輯基于分析師的職業理解,通過合理判斷得出結論,獨立、客觀地出具本報告。分析師承諾不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接獲取任何形式的補償。重要聲明重要聲明 西南證券股份有限公司(以下簡稱“本公司”)具有中國證券監督管理委員會核準的證券投資咨詢業務資格。本公司與作者在自身所知情范圍內,與本報告中所評價或推薦的證券不存在法律法規要求披露或采
102、取限制、靜默措施的利益沖突。證券期貨投資者適當性管理辦法于2017年7月1日起正式實施,若您并非本公司簽約客戶,為控制投資風險,請取消接收、訂閱或使用本報告中的任何信息。本公司也不會因接收人收到、閱讀或關注自媒體推送本報告中的內容而視其為客戶。本公司或關聯機構可能會持有報告中提到的公司所發行的證券并進行交易,還可能為這些公司提供或爭取提供投資銀行或財務顧問服務。本報告中的信息均來源于公開資料,本公司對這些信息的準確性、完整性或可靠性不作任何保證。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的的價格、價值及投資收入可升可跌,過往表現不應作為日后的表現依
103、據。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告,本公司不保證本報告所含信息保持在最新狀態。同時,本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報告僅供參考之用,不構成出售或購買證券或其他投資標的要約或邀請。在任何情況下,本報告中的信息和意見均不構成對任何個人的投資建議。投資者應結合自己的投資目標和財務狀況自行判斷是否采用本報告所載內容和信息并自行承擔風險,本公司及雇員對投資者使用本報告及其內容而造成的一切后果不承擔任何法律責任。本報告及附錄版權為西南證券所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制和發布。如引用須
104、注明出處為“西南證券”,且不得對本報告及附錄進行有悖原意的引用、刪節和修改。未經授權刊載或者轉發本報告及附錄的,本公司將保留向其追究法律責任的權利。西南證券投資評級說明西南證券投資評級說明 報告中投資建議所涉及的評級分為公司評級和行業評級(另有說明的除外)。評級標準為報告發布日后6個月內的相對市場表現,即:以報告發布日后6個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。其中:A股市場以滬深300指數為基準,新三板市場以三板成指(針對協議轉讓標的)或三板做市指數(針對做市轉讓標的)為基準;香港市場以恒生指數為基準;美國市場以納斯達克綜合指數或標普500指數為基準。公司
105、 評級 買入:未來6個月內,個股相對同期相關證券市場代表性指數漲幅在20%以上 持有:未來6個月內,個股相對同期相關證券市場代表性指數漲幅介于10%與20%之間 中性:未來6個月內,個股相對同期相關證券市場代表性指數漲幅介于-10%與10%之間 回避:未來6個月內,個股相對同期相關證券市場代表性指數漲幅介于-20%與-10%之間 賣出:未來6個月內,個股相對同期相關證券市場代表性指數漲幅在-20%以下 行業 評級 強于大市:未來6個月內,行業整體回報高于同期相關證券市場代表性指數5%以上 跟隨大市:未來6個月內,行業整體回報介于同期相關證券市場代表性指數-5%與5%之間 弱于大市:未來6個月內,行業整體回報低于同期相關證券市場代表性指數-5%以下