《《智能網聯汽車感知訓練數據集標準化需求研究報告》內容解讀.pdf》由會員分享,可在線閱讀,更多相關《《智能網聯汽車感知訓練數據集標準化需求研究報告》內容解讀.pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、智能網聯汽車感知訓練數據集標準化需求研究報告內容解讀中國汽車標準化研究院 智能網聯部 華一丁2023年11月27日W A S I C 資料2 01 02 03研究內容解讀標準輸出建議研究概況介紹W A S I C 資料3W A S I C 資料41.1 研究背景01 研究概況介紹 現在,國際上汽車行業競爭很激烈,信息化、智能化等趨勢不斷發展,對我們來講有危有機,危中有機,一定要把關鍵核心技術掌握在自己手里。2020年,習近平總書記在吉林省考察時來到中國一汽集團發表的講話“突破關鍵基礎技術。開展復雜系統體系架構、復雜環境感知、等基礎前瞻技術研發。重點突破新型電子電氣架構、多源傳感信息融合感知、等
2、共性交叉技術。2020 年,中國國家發改委等11部門聯合印發智能汽車創新發展戰略“l 隨著技術水平的不斷提升和相關產業的全面融合,我國智能網聯汽車產業進入新的發展階段。智能網聯汽車標準體系建設第一階段目標任務已圓滿完成,初步構建起支撐駕駛輔助及低級別自動駕駛的標準體系。高精度環境感知是智能網聯汽車技術創新體系中的關鍵基礎技術之一,具有中國特色感知數據訓練集又是高精度環境感知技術的重要組成部分,其質量一定程度上決定著感知能力的水平。W A S I C 資料1.1 研究背景501 研究概況介紹l 為貫徹落實國家標準化發展綱要國家車聯網產業標準體系建設指南(智能網聯汽車)等文件要求,推進中國智能網聯
3、汽車標準體系建設,汽標委智能網聯汽車分標委(SAC/TC114/SC34)秘書處啟動首批智能網聯汽車(ICV)標準化領航項目研究,其中包括感知數據訓練集的標準化需求研究。ICV 標準化領航項目 1-智能網聯汽車 量子通信技術及其安全應用ICV 標準化領航項目 2-基于先進通信技術的車輛網聯功能與應用ICV 標準化領航項目 3-智能網聯汽車 感知數據訓練集ICV 標準化領航項目 4-智能網聯汽車 坐標系ICV 標準化領航項目 5-智能網聯汽車 云控平臺W A S I C 資料1.2 研究目的01 研究概況介紹l 感知訓練數據集是自動駕駛環境感知算法訓練與實現的重要基礎。為了實現高安全高可靠的自動
4、駕駛,感知訓練數據集要應對多重挑戰:交通場景復雜性、天氣多變性、光照挑戰、傳感器誤差以及標注一致性等。l 標準化不僅是解決問題、提升感知算法魯棒性的重要一環,更是引領自動駕駛技術蓬勃發展的關鍵步驟。感知模塊視覺定位目標檢測語義分割傳傳感感器器采采集集數數據據輸輸入入到到感感知知模模塊塊預預測測、規規劃劃、控控制制W A S I C 資料71.3 研究意義01 研究概況介紹l 構建具有中國特色感知數據訓練集,并兼顧現有國外成熟感知數據訓練集,將有效促進我國智能網聯汽車感知算法能力提升,并為中國自主品牌“走出去”提供感知算法基礎支撐。1為行業相關技術研發提供基礎支撐 ADAS/ADS技術方案不斷成
5、熟,產品駕駛自動化等級逐步提高,企業對更高精度的感知能力的需求增加,目前廣泛采用的訓練集往往是國外研究機構提供的,與中國的道路交通參與者的特征相差加大,存在較大的不適應性。2為行業管理提供間接保障 政府對ICV的管理要求逐漸明晰,技術要求和測試方法相關標準加快發布實施,目前對于訓練集測評手段及測試方法還處于前期研究階段,標準化的測試方法是支撐標準實施的重要保障。3標準、高效、全面的感知數據訓練平臺 目前國內及國外存在諸多感知訓練集,數據體量幾千到幾萬幀不等,同時質量也難以保證,誤標率、錯標率難以支撐車企量產車算法,同時存在訓練集覆蓋度較為片面,缺乏統一及全面的統籌。W A S I C 資料1.
6、4 研究項目組成員801 研究概況介紹序號單位名稱職責序號單位名稱職責1中國汽車技術研究中心有限公司牽頭16上海機動車檢測認證技術研究中心有限公司參與單位2上海交通大學參與單位17小米汽車科技有限公司3北京覺非科技有限公司18招商局檢測車輛技術研究院有限公司4北京賽目科技有限公司19福特汽車(中國)有限公司5北京百度智行科技有限公司20上汽通用五菱汽車股份有限公司6寧波吉利汽車研究開發有限公司21高通無線通信技術(中國)技術有限公司7一汽解放汽車有限公司22西華大學8上海臨港絕影智能科技有限公司23武漢路特斯科技有限公司9重慶長安汽車股份有限公司24江蘇大學10中國軟件評測中心25天津大學11
7、北京智能車聯產業創新中心有限公司26華為技術有限公司12北京云測信息技術有限公司27東風悅享科技有限公司13東風汽車集團有限公司技術中心28江鈴汽車股份有限公司14長城汽車股份有限公司29采埃孚商用系統有限公司15泛亞汽車技術中心有限公司30高新興科技集團股份有限公司W A S I C 資料901 研究概況介紹9第第三三次次 線線上上會會討論感知訓練數據分類方式第第五五次次 線線上上會會研究報告初稿討論啟動會 線上會確定研究內容及分工第二次 線上會討論研究框架項目組內進行問卷調研;確定標注質量對訓練集的影響;進一步明確標準化需求;討論場景庫與訓練集的區別和關聯。2022.10.242023.0
8、3.08第第四四次次 現現場場會會討論篩選原則,篩選場景庫針對工作分配進行充分協調和匹配;建立研究報告各章節牽頭單位負責機制。調研部分企業,了解企業現狀;確定感知數據采集及傳感器部署方案;確定訓練數據集數據屬性和要求。2022.09.052022.09.282023.04.20討論感知訓練數據集應用場景和規模整理感知訓練數據集研究報告第第六六會會議議討論感知訓練數據集采集步驟及思路2023.05.09武漢成都討論感知訓練數據集測評方法進一步優化感知訓練數據集研究報告根據各家單位提供的反饋意見,對需求報告進行現場確認和討論,并形成終稿。第第七七會會議議研究報告全文討論杭州2023.08.221.
9、5 會議回顧W A S I C 資料10W A S I C 資料1102 研究內容解讀l 智能網聯汽車感知訓練數據集標準化需求研究報告(以下簡稱“本報告”)共6萬余字,從感知訓練數據集研究背景、感知數據采集及傳感器部署方案、感知訓練數據集應用場景和規模、感知訓練數據集數據屬性和要求、感知訓練數據集測評方法以及標準化建議六個方面進行梳理和總結。智能網聯汽車感知訓練數據集標準化需求研究報告(二)感知數據采集及傳感器部署方案研究(四)感知訓練數據集應用場景和規模(三)感知訓練數據集數據屬性和要求(五)感知訓練數據集測評方法(六)標準化建議(一)感知訓練數據集相關背景研究W A S I C 資料12(
10、一)感知訓練數據集研究背景02 研究內容解讀l 根據采集途徑不同,感知訓練數據集可分為車端和路端兩類。本報告調研了現有的車路兩端感知訓練數據集和常見的數據標注方式。I.車端感知訓練數據集現狀l 車端數據集復雜多樣,不僅包含駕駛數據集,還有交通標志數據集、行人數據集、車道線檢測數據集等。l 車端數據使用數據采集車收集,傳感器部署方式多變。高德采集車示意圖 百度ApolloScape數據采集車示意圖W A S I C 資料13(一)感知訓練數據集研究背景02 研究內容解讀I.車端感知訓練數據集現狀數據集發布時間地點使用設備場景標注類別數據規模nuScenes2019波士頓和新加坡1個32線雷達6個
11、攝像機市區、住宅、郊區和工業區圖像23類,點云32類1.4M高清圖像,4萬幀點云KITTI2012德國卡爾斯魯厄1個64線雷達4臺攝像機市區、鄉村和高速 9類29GB,15000個數據文件,超過200k 3D標注物體圖像Argoverse2019皮茨堡和邁阿密2個32線雷達9個攝像機市區15類跟蹤113個場景,預測32萬條軌跡,每個軌跡5秒ONCE2021中國多個城市1個激光雷達7個攝像機市中心、郊區、隧道、高速公路、橋梁等9類1.6萬個場景,41萬個3D框和76萬個2D邊框Waymo2019美國六個城市5個64線雷達5個攝像頭市區、郊區等23類檢測2030個場景,預測10萬個場景,113k個
12、3D軌跡和160k個2D軌跡ApolloScape2018中國十個城市2個250線雷達6個攝像機市區,鄉村和高速 35類144K+張圖像,70K幀3D實例標記,1000km行駛軌跡W A S I C 資料14(一)感知訓練數據集研究背景02 研究內容解讀II.路端感知訓練數據集現狀l 路端數據采集最主要的部署場景為城市中的交通路口,城市交通路口人員密集,障礙物眾多,對于路端輔助感知有迫切需求,現有的路端感知數據集仍較少。l 路端感知設備大多安裝在高3-5m的設備桿上,或現有交通設施上。路端感知設備示意圖車路協同感知示意圖W A S I C 資料15(一)感知訓練數據集研究背景02 研究內容解讀
13、數據集發布時間數據量數據類別其他DAIR-V2X202271254幀圖像數據71254幀點云數據10類目標物包含障礙物遮擋、截斷等信息Rope3D202250009幀圖像數據9類目標物 IPS300+202114198幀圖像數據14198幀點云數據7類目標物 BAAI-VANJEE Roadside Dataset20215000幀圖像數據2500幀點云數據12類目標物V2XSim2021三個Carla小鎮500G以上數據23類目標物大型虛擬數據集A9-Dataset20221098幀數據9類目標物包含大雪、大霧、交通事故特殊場景II.路端感知訓練數據集現狀W A S I C 資料16(一)感
14、知訓練數據集研究背景02 研究內容解讀III.數據集標注能力現狀l 數據集標注是指將數據集中的原始數據(圖片、點云、文本等)進行人工或自動處理,將其轉換成計算機能夠理解、能夠被算法處理的標準形式。數據標注的質量與能力直接影響到機器學習算法的性能。l 本報告調研了通用的數據集標注方式,以及針對不同任務的標注流程。標注方式通用標注方式根據自動駕駛任務劃分人工標注半自動標注自動標注傳感器融合標注路徑與軌跡標注場景理解標注方式介紹人工清洗標注自動初步標簽,人工審閱純算法標注,無需人工多個傳感器融合目標跟蹤、軌跡預測任務標注場景相關信息標注步驟a.標注需求理解 b.標注準備 c.標注過程 d.標注結果
15、a.算法預處理和預標注 b.人工修正和補充 c.標注結果 a.算法處理和標注 b.標注結果 a.數據同步b.數據對齊c.標注物體d.標注關聯e.質量檢查a.數據收集b.檢測物體標注c.跟蹤物體標注d.軌跡生成e.軌跡標注f.質量檢查a.道路屬性標注b.環境屬性表述c.上下文信息標注d.場景分類標注W A S I C 資料17(二)感知數據采集及傳感器部署方案研究02 研究內容解讀I.車端感知數據采集l 本報告分別對車端和路端兩類感知數據采集及傳感器部署方案進行了研究。采集車的種類及型號為最大化滿足業務需求,選車需要既要考慮通用需求,也要關注特殊需要。一般包括車身外形與尺寸、車內空間、車頂行李架
16、、能源類型及油標號等等十多項參數。傳感器的選型智能駕駛汽車環境感知傳感器主要有激光雷達、單/雙/三目攝像機、魚眼攝像機、環視攝像機以及毫米波雷達等,選型時需要考慮通用水平和性能水平。傳感器配置數量及部署安裝方案一般采用5-8個攝像機并根據功能,分別裝在車頂,后視鏡下方,前側翼子板,前后車標,后備箱等。常采用1-3激光雷達個布置在采集車正上方離地2m-3m處。采集系統配置主要包括外部感知設備、與外部設備相連接的交換機、同步盒、電源模塊,數據融合單元,數據采集與存儲系統,最終上傳到工控機或云端服務器進行存儲。KITTI數據集采集車傳感器布置nuScenes數據集采集車傳感器布置H3D數據集采集車傳
17、感器布置l 目前較為成熟的車端感知數據采集車傳感器布置方案其他硬件系統主要為組合導航。W A S I C 資料18(二)感知數據采集及傳感器部署方案研究02 研究內容解讀II.路端感知數據采集十字路口有綠化帶布設方案T型路口有綠化帶布設方案城市道路布設方案l 目前較為成熟的路端感知數據采集傳感器布置方案傳感器選型路段環境感知傳感器主要有激光雷達、毫米波雷達、RGB相機、紅外相機、事件觸發相機等選型時需要考慮通用水平和性能水平。傳感器配置數量及部署安裝方案路端傳感器主要部署場景包括城市路口、城市道路、高速道路等,對于不同的道路場景,需進行針對性的規劃設計,可以劃分為十字路口,T型路口,城市道路。
18、采集軟件配置主要包括數據獲取模塊,目標融合模塊,數據處理模塊,孿生可視化平臺模塊。其他硬件系統主要為邊緣計算單元。W A S I C 資料19(三)感知訓練數據集數據屬性和要求02 研究內容解讀I.視覺圖像算法數據屬性和要求l 本報告調研了針對不同感知任務的數據集標注范圍、標注類別和標注屬性。II.激光點云算法數據屬性和要求類別描述Vehicle(車輛)此類別包含場景中出現的所有車輛類別,包括汽車,自行車,摩托車等子類。Human(人)此類別包含場景中檢測到的所有人,包括行人,騎手,移動單元,人臉等子類別。Traffic_sign(交通標志)此類別包含所有面向采集車方向的交通標志(包含交通燈)
19、,包括我們不需要標注標志的背面。圖像2D目標檢測算法數據集標注范圍(節選)屬性值描述Occluded(遮擋)0:0%(完全可見)1:1-50%(部分遮擋)2:51-100%(大部分遮擋)3:未知此屬性默認值為0,只有出現部分遮擋或全部遮擋時,將其更改為相應數值。Truncated(截斷)0:0%(完全可見)1:1-50%(部分可見)2:51-100%(大部分被截斷)截斷指的是物體離開圖片邊緣的情況。適用于當車輛,人,交通標志,交通燈的部分或全部被截斷的情況。默認值為0。圖像2D標注目標類別屬性定義(節選)類別名稱類別說明car包含轎車、SUV、MPV、皮卡車、五菱宏光類小面,四輪快遞車等。bu
20、s包含公交汽車、校車、小巴、大金杯、C型房車等。truck大型集卡、大型貨車、大型半掛車、大型廂式貨車、中型廂式貨車、油罐車、垃圾車、機動農用三輪車等。點云3D目標檢測標注范圍(節選)屬性含義值值描述truncated是否截斷:目標物是否在邊緣且未完全在畫面中0目標物完整1目標物不完整(出現在固態雷達點云邊緣)occluded是否被遮擋:目標物是否被其他物體遮擋0完全未被遮擋1小部分被遮擋(不超過一半)2大部分被遮擋3未知(不知道是否被遮擋)abnormal數據是否異常0默認0,無異常1殘影(拼接不完善)3D目標檢測目標屬性說明W A S I C 資料20(三)感知訓練數據集數據屬性和要求02
21、 研究內容解讀III.訓練數據標注精確度行業普遍情況精確度指標含義抽檢比例待驗收的已標注樣本占總的已標注樣本的比例準確率合格的已標注樣本數占總的已標注數的比例貼合度作業人員標注的點、線、框與原始數據中的點、線、框的真值之間的重合程度航向角在傳感器局部坐標系下,標注框的方向與局部坐標系的航向參考軸之間的夾角連續幀的最短幀間隔時長最短幀間隔時長指的是傳感器連續幀之間的時間間隔速度的標注以及最大誤差標注過程中允許的物體速度值與其真值之間差值的最大絕對值圖像標注的像素誤差2d標注框與圖像中物體的真值框之間的像素差值IV.訓練集數據標注格式標注項導出格式2D框宜采用txt/json語義分割宜采用json
22、/Mask目標檢測宜采用xml/txt/json目標追蹤宜采用xml/txt車道線檢測宜采用json圖像標注數據導出格式標注項導出格式3D框宜采用json語義分割宜采用pcd/coco/voc目標檢測宜采用pcd/bin/npy目標追蹤宜采用xml/json車道線檢測宜采用json點云標注數據導出格式W A S I C 資料21(四)感知訓練數據集應用場景和規模02 研究內容解讀I.國內外主流的感知算法模型以及訓練數據集子集所需量級建議l 本報告調研了基于圖像、激光點云以及數據融合算法對不同數據集的使用情況以及不同感知任務所需數據量級和人物模型所對應的場景維度。國內外主流的感知算法模型以及訓練
23、數據集子集所需量級建議算法類型算法名稱數據集所需量級建議目標檢測Fast R-CNN、SSDPASCAL VOC、MS-COCO建議為達到95%以上的識別準確率和召回率,需要不少于100萬張用于訓練和驗證的圖像,每張圖像平均具備8個以上的細分類別目標目標跟蹤SORT、DeepSORTMOT challenge針對每一類目標,應不少于20萬張用于訓練和驗證的圖像(要求單目標時間連續5s以上),保證每幀中均含有有效目標。語義分割HRNetCityscapes、Semantic3D針對圖像語義分割算法需求,應不少于50萬張用于訓練和驗證的圖像,每張圖像平均具備2個以上的細分類別目標,主要針對道路相關
24、內容進行采集。車道線檢測SCNN、RESACityscapes、TuSimple針對車道線檢測,建議為達到99%以上的識別率與準確率,需要不少于50萬張用于訓練和驗證的圖像,盡可能覆蓋多樣性道路場景,如城市道路(包括復雜路口)。盡量覆蓋各種車道線類型、道路情況、天氣情況等。車位線檢測DeepPS、DMPR-PSps2.0、PIL_PARK為了實現精確的停車位檢測,建議數據集數據量達到10萬張以上,如果使用單個攝像機所得圖片,建議數據量達到15萬張以上。圖像點云融合檢測MV3D、PointFusion、Frustum-PointNetKITTI、SUN-RGBD在圖像點云融合檢測算法數據集應有圖
25、像點云的總數100w數量以上,目標數量大概的分布在5-50之間,保證平均每幀的目標大概在10個左右,覆蓋城區高速快速路以及多個城市。圖像點云融合跟蹤DSM、mmMOT、EagerMOTKITTI、NuScenes建議數據集中總幀數應超過100w幀,目標追蹤的種類至少應包含車、行人類別。W A S I C 資料22(四)感知訓練數據集應用場景和規模02 研究內容解讀II.模型任務所應用的場景維度道路場景類型公共道路封閉道路關鍵道路特征分叉路鐵架橋隧道匝道環行路路面情況干燥路面濕潤路面天氣與光照非直道路面破損及不規則路面交通參與者與標志交通參與者類型交通參與者行為交道路標志物W A S I C 資
26、料23(五)感知訓練數據集測評方法02 研究內容解讀l 由于目前各種公開感知訓練數據集的側重點不同,不同數據集合經過訓練后在同一感知算法進行測評時結果的差異性太大,導致無法實現在統一標準下進行相關測試及評價,因此,本報告中對評價指標和評價方法進行了調研和總結。I.感知數據質量評價指標1)像素均值:圖像像素的平均值;u=1=1=1(,)2)圖像標準差:圖像像素灰度值相對于均值的離散程度;std=1=1=1(,)23)圖像平均梯度:圖像的清晰度;G=1=1=1(,)2(,)2l 圖像數據質量評價指標l 點云數據質量評價指標1)點云密度:描述單位面積上激光雷達點的平均數量。=1=12)高程精度:評價
27、點云數據的高程與其真實的地面高程之間誤差分布離散程度。Z=1(Z Z)213)平面精度:評價點云數據的平面位置與其真實的地面位置之間誤差分布的離散程度。=2 2 W A S I C 資料24(五)感知訓練數據集測評方法02 研究內容解讀II.感知訓練數據集評價方法l 數據集劃分方式 評測數據集應做到場景分布多樣性,包含標注類別多樣,數據標注精度準確等維度進行評測。以下為不同分布維度下,道路場景數據集細類分布:1.按天氣、氣候、時間分布、視角等分布2.按交通場景分布3.按交通參與者統計l 評估指標任務類型指標分類問題準確率/差準率/召回率/F1分數/ROC曲線/AUC回歸問題平均絕對誤差/均方誤
28、差/均方根誤差/均值平方對數誤差/平均絕對百分比誤差l 感知數據集數據類型及分布評價1.留出法:按照固定比例將數據集靜態的劃分為訓練集、驗證集、測試集;2.留一法:每次的測試集都只有一個樣本,要進行m次訓練和預測。這個方法用于訓練的數據只比整體數據集少了一個樣本,因此最接近原始樣本的分布3.k折交叉驗證:一種動態驗證的方式,這種方式可以降低數據劃分帶來的影響W A S I C 資料25標準內容 建議開展對車輛感知數據的數據標注內容、標注質量等具體方向的行業標準研制工作標準支撐 目前開展了“自動駕駛系統測試場景數據采集和分析標準需求研究”項目,建議參考該項目的研究進程,進一步明確相關的標準化需求
29、情況。注意事項 數據標注現有即將正式實施的推薦性國家標準GB/T 42755-2023 人工智能 面向機器學習的數據標注規程,建議進行區分。02 研究內容解讀l 根據調研結果,本報告提出了感知訓練數據集標準化建議W A S I C 資料26W A S I C 資料2703 標準輸出建議 充分考慮現有感知訓練數據集的差異性,有針對性地開展通用技術標準化1 1n 標準化感知訓練數據集為行業提供標準、高效、全面的感知數據訓練平臺,為相關技術研發提供基礎支撐;n 目前,因感知數據集領域的相關標準較少,尤其是開發車輛感知功能所用的數據集根據目標功能、技術路線等的不同,在行業內普遍存在一定的差異,標準化過
30、程應充分考慮傳感器類型、訓練目的及應用場景等內容。進一步關注自動駕駛大模型等新型人工智能技術對訓練數據集標準化的需求2 2n 實現可信AI,數據的設計、改進和質量評估是關鍵。以數據為中心的人工智能將重點轉移到訓練數據的治理和增強,高質量的訓練數據集、完備的數據應用策略將會更好的服務于模型的開發與應用;n 價值對齊是AI安全的核心議題。大模型的能力和行為跟人類的價值、真實意圖和倫理原則需保持一致,為確保人類與人工智能協作過程中的安全與信任,需重點關注相關自動駕駛感知訓練數據集的標準化研究。重視行業相關標準確實問題,加速推動自動駕駛感知技術落地應用3 3n 國內針對車輛感知數據集數據標注的標準仍處于空白狀態,建議重點針對車輛感知數據的數據標注內容、標注質量等具體指標的開展行業標準研制工作。W A S I C 資料28請請各各位位領領導導、專專家家批批評評、指指正正!汽標委智能網聯汽車分委會 華一丁n022-n18622766087W A S I C 資料