
(1)2021 年 AP 團隊在感知模型加入了 BEV+Transformer+Video Neural Net,完善了感知模型的算法能力和預測能力。通過在特斯拉的感知模型 HydraNet 中加入BEV+Transformer,實現了 2 維圖像向 3 維空間的映射(具體而言,BEV 鳥瞰圖將圖像通過 RegNet、BiFAN 提取特征后,把 8 個攝像頭的圖像組合成一個 3 維圖像),其次將視頻模塊加入神經網絡訓練,即在加入了 BEV Layer 的 HydraNet 中加入了 Video Neural Net,融合了時序數據后的感知模型具有了短時記憶能力,能夠在實際行車過程中進行大量預測。2021 年特斯拉 AI Day 上,AP 團隊的成果顯示,用大量汽車和視頻片段即可在 RNN(循環神經網絡)中構建類似高精地圖的俯視圖。