
真實數據中,長尾場景覆蓋率低。長尾場景(暴雨、積雪或施工復雜環境中事故高發區域)中,車輛的行為決策需要高度魯棒的模型支持,然而,這些場景在真實數據中占比極低,難以通過傳統的路測覆蓋全面?,F有的仿真測試技術只能生成部分場景,而針對動態交互場景(如復雜的多車協同避讓)的模擬能力有限,導致驗證結果難以完全反映真實情況。因此,調整長尾場景在訓練數據中的分布比例有很大的探索價值。目前的普遍解決方案是采用合成數據來模擬真實世界數據的特征分布。合成數據能夠以較低成本增加訓練數據的規模、豐富泛化場景的多樣性,并有效生成長尾場景。例如,英偉達通過其Omniverse平臺,利用合成數據提升模型對復雜場景的適應性。此外,特斯拉也采用合成數據生成邊緣場景來擴充數據集,通過迭代方法捕捉更多邊緣情況。