
軟件端,BEV+Transformer 帶來域控算力提升和結構變化 特斯拉堅定擁抱重視覺感知方案。2018 年,特斯拉視覺感知路線通過 2D 圖像+ CNN 卷積神經網絡路線實現智能駕駛功能,對于圖像的標注主要依靠人工標注,于 2019 年采用一部分自動標注來提升標注效率。該階段聚焦在 2D 圖像處理,將圖像處理完后拼接成 single trip,實現時間的多幀融合。該方式對圖像的處理屬于規則算法,通過 IPM 將 2D 圖像坐標進行計算,轉換到 3D 空間中。但 2D圖像處理在處理三維世界中的感知問題仍會有較大問題,如路面不平、車輛顛簸等問題都會影響到轉換的準確度。2020 年特斯拉轉向 BEV 方案,并將 CNN 神經網絡轉向 Transformer。先在 BEV 空間層中初始化特征,再通過多層 Transformer 和 2D 圖像特征進行交互融合,得到 BEV 特征,避免了視覺融合時導致的誤差問題。BEV 方案 2020 年重點關注路網的感知,2021 年拓展到整個空間,進行數據重建。