《量子位:2023中國AIGC數據標注產業全景報告(26頁).pdf》由會員分享,可在線閱讀,更多相關《量子位:2023中國AIGC數據標注產業全景報告(26頁).pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、Q量子位insights中國AIGC數據標注產業全景報告Panoramic Report of Generative AI Data Labeling Industry in China楊凈2023.11量子位智庫QbitAlInsighhts#page#sights數據標注,正迎來關鍵時刻。作為AI認識世界的起點,數據標注本質上是將現實世界信序言息結構化、數字化,充分發揮數據信息的價值。大模型時代到來,AIGC眾多垂直場景落地,以及通用智能、具身智能等前沿領域探索,與高質量、專業化的場景數據密不可分,數據標注從勞動密集型加速朝著知識密集型轉型,行業壁壘進一步提高。作為底層基礎服務,數據標注貫
2、穿大模型全生命周期(訓練測試、評估驗證和應用選代)。一方面,牽涉關鍵Know-how,更多大模型公司/AI企業選擇自建標注團隊和管線;另一方面,上下游合作關系將更為緊密和耦合,專業數據服務提供商更多機會將在垂直領域,幫助企業完成私有化部署。機遇與挑戰并存。合成數據作為新衍生賽道,潛在市場空間巨大。與此同時,數據標注標準難以統一、數據處理流程尚未規范,高學歷多領域多專業成為標注人才的硬指標。#page#nsigh目錄01大模型時代下的數據標注02AIGC數據標注四大變化03AIGC數據標注三大影響因素OA數據標注產業競爭格局/市場規模05數據標注代表玩家案例集#page#hsigftsghts0
3、1大模型時代下的數據標注insights#page#hnsighs數據標注是AI認識世界的起點數據標注是將原始數據進行加工處理,比如分類、拉框、注釋、標記等操作轉換成機器可識別信息的過程。國內數據標注廠商,廣義稱之為基礎數據服務提供商,通常需要完成數據集結構/流程設計、數據處理、數據質檢等工作,為下游客戶提供通用數據集、定制化服務、數據閉環工具鏈等。這也是本次AIGC數據標注全景報告的研究對象。一般數據處理流程:根據原始數據類型以及訓練任務劃分:文本:詞性標注、分類標注、情緒標注、命名實體識別、語義標注、模型訓練數據數據數據原始數據清洗標注質檢意圖標注等;測試/驗證圖像:圖像分類、語義分割、實
4、例分割、拉框、OCR轉寫等;音頻:語音識別、聲紋識別、語音轉寫等;數據標注中的二八定律視頻:通常在一個A項目中,數據準備工作需要80%時長,模型訓練和部署僅占20%。目標跟蹤、行為識別等;3D點云nSiC#page#insights大模型時代下的數據標注大模型范式涌入數據標注,自動化標注門檻大幅降低上市公司股價狂,創業公司融資加速海天瑞聲是國內唯一一家AI數據上市公司,今年2月以來股價受ChatGPT熱潮以SAM模型為代表的圖像分割模型開源;GPT-4、GPT-4V為代表的大模型也被驗曾一度狂,截至11月10日股價較年初上漲59.75%。證在文本、圖像領域標注具有可行性,并衍生出專門做數據標注
5、的大模型,大幅降低自動化標注門檻。國內不少數據服務商進行相關大模型研發,部分產品已經創業代表公司融資情況發布:星塵數據一22年12月5000萬A輪曼孚科技一23年9月數千萬B輪海天瑞聲:數據生產垂直大模型(研發階段)愷望數據一23年4月戰略融資標貝科技一23年4月超億元B2輪曼孚科技:自動駕駛數據標注視覺大模型(已完成研發)整數智能|23年6月數千萬PreA輪23年9月數千萬PreA輪龍貓數據:自動駕駛大模型AutopilotGPT(發布)柏川數據一23年7月千萬元天使輪商湯:明眸SenseAnnotation自動化數據標注平臺(發布)標貝科技:烘培師大模型Baker-GPT(發布)大模型數據
6、解決方案多處開花,以一站式、定制化服務為主智能駕駛新感知范式,BEV+Transformer是機遇也是挑戰國繞大模型開發全生命周期(包括預訓練、監督微調、RLHF、紅隊測試、基準測作為最具代表性應用場景,智能駕駛迎試等),專業數據服務商、大模型企業、AI公司等各方都拿出相關數據解決方案,來新感知范式:以BEV+Transformer為大部分以一站式、定制化服務為主。代表的四維感知替代掉2D+CNN為代表云測數據:面向垂直行業大模型數據解決方案的二維感知方案,給數據服務廠商帶來星塵數據:星塵COSMO大模型數據金字塔解決方案更多機遇與挑戰,包括不限于標注場景澳鵬Appen:A聊天反饋和基準測試兩
7、大解決方案難度大、數據量產能力要求高等。目前火山引擎:火山方舟(涵蓋數據服務模塊)國內部分廠商給出了數據閉環工具鏈和百度:首個大模型數據標注基地解決方案等。#page#page#hsigftsghts02AIGC數據標注四大變化insights#page#nsight需求變化:與行業場景強相關,高質量數據需求長期且持續大模型時代的到來,正加速推動人工智能開發從以模型為中心朝著以數據為中心的方向轉變高質量數據服務需求貫穿大模型全生命周期。廣泛認知里,大模型是以數據為中心的產物。數據數量和質量很大程度決目前大模型技術路徑已經完整清晰,訓練流程主要分為三個階段:定著大模型能力的上限。預訓練監督微調強
8、化學習大模型預訓練以模型為中心:送代模型,數據相對固定。FTRLHF口以數據為中心:關注數據本身,模型成為了數據的容器?!皩嶋H訓練過程中,部分垂直領域大模型需用小規模語料進行二次預訓練操作數據處理流程設計涉及大模型Knowhow,直接決定大模型性能好壞。Modelcentric開AI尤其后兩個階段需要專業人士生成數8ModelData據或對數據進行改寫或排序,最終形成符合人類標準(比如專業邏輯、核話心價值觀等)高質量數據。Data-centricAIModelData而后隨著大模型持續地實時更新送代、朝著多垂直領域落地,尤其通用智能、具身智圖能等相關探索,如何快速擴展到更多真實邊緣場景,高質量
9、場景數據也將成為剛需。企業端客戶需要長期且持續的數據服務,產業鏈上下游供應關系遠比以往除此之外,實時保障輸出內容的安全合規,也遠比以往更受重視。從訓練、選代到應更為緊密和耦合。用落地,數據段務貫穿大模型全生命周期#page#nsighs處理流程側變化:標準從客觀到主觀,高學歷多領域成人才硬指標數據標注從勞動密集朝著知識密集型轉變。傳統數據標注大模型數據標注領域劃分按不同領域或任務劃分按不同階段劃分具體實操拉框、描點、轉寫等操作排序、改寫、生成等操作標注要求偏客觀偏主觀評價指標準確率+效率難以對齊標準解決方案專業培訓、定期開會對齊等舉措工具/平臺標注+人類質檢人才要求??茷橹鞅究埔陨?,多領域專業
10、人才按職能劃分按階段劃分標注角色標注員、質檢員、管理員AI訓練師、模型精調師、指令工程師、紅隊測試軍團等。覆蓋區域重新打散主主要集中在三四線城市#page#fnsigfts業務變化:合成數據成新衍生賽道,潛在市場空間巨大所謂合成數據,即是用AI生成數據而非真實產生,能夠替代真實數據來訓練、測試和驗證大模型。目前主要在自動駕駛、機器人、生物醫藥等領域應用。英偉達Meta亞馬遜等全球科技巨頭均有相關布局(投資、收購等)。OpenAICEOSamAltman曾放言:未來所有數據都將變成合成數據。量子位智庫預計,合成數據將成為未來增速最快賽道,年增長率可達45%。應用場景企業案例合成數據的優勢&特點1
11、、降本增效數據增強模型驗證可解釋AI降低數據獲取成本,生成數據自帶高質量標注,緩解“數據荒”問題。金融2、數據可定制生物醫藥機器人自動駕駛工業應用可擴展性強,靈活度高,可覆蓋更多邊緣、長尾場景。具身智能(國源:官網)3、隱私安全AR/VR群核科技CoohomCloud(群核云)作為目前為數不天然規避掉數據隱私安全合規的問題。多提供室內場景數據服務的代表廠商,能針對不同應用場景合成2D、3D數據集,客戶覆蓋全球,服務多家海內外科技巨頭公司,并于英特爾在產研等開源性項目上進行深度合作。#page#page#hsigftsghts03AIGC數據標注三大影響因素insights#page#nsigh
12、ts三大影響因素:以技術+場景聚合的飛輪效應獲得口碑一看技術能力數據標注作為AI底層服務,最本質是為客戶降本增效。持續選代技術能力的企業渠道將有機會脫穎而出,包括不限于以下幾點業務量增長獲客容易口數據閉環工具鏈的智能化水平人力口對大模型/算法Know-how的理解口數據工程化能力、數據基礎設施建設傳統數據標注飛輪.二看場景資源AIGC高質量場景數據行業Know-how數據處理場景專業人才“能夠根據客戶需求,快速找到并利用與場景能力越強(領域專家、深度用戶等最為貼合的資源??蓴U展性獲得口碑靈活性更強技術三看飛輪效應場景口數據標注仍具備飛輪效應;標注經驗獲客越容易新創業公司入局門檻進一步提高;越豐
13、富專業數據服務商更多機會將在垂類場景,幫助企業完成私有化部署AIGC雕能數據標注飛輪口對外輸出數據服務的大模型公司/AI企業也存在競爭優勢。#page#hsigftsghtsOA產業競爭格局/市場規模insights#page#sights市場競爭格局我國數據標注行業企業競爭格局數據標注行業傳統依靠渠道、人力等形成的低成本競爭優勢將被重塑,數據需求方將更看重數據質量、場景多樣性和可擴展性。2代表公司:代表公司基于以上原因,量子位智庫將從數據基礎設施、場景資源兩個方百度整數智能施,愷望數據群核科技面來分析目前的業內玩家分布及現狀。,柏川數據星塵數據博登智能云測數據第一象限:有技術有場景的明星公司
14、卓印智能龍貓數據該象限存在兩種情況:第一種是模型層公司本身有大模型技術范式以及場景落地經驗曼孚科技積累,可快速輸出數據解決方案,與云服務打包輸出建立信任;第二種則是主要以技倍賽科技術驅動的明星企業,大部分擁有數據閉環工具鏈,再結合幾年來行業經驗,在大模型高質量場景資源浪潮下易受到企業用戶青味大模型數據資源/標注團隊第二象限:有強技術支撐的創業新勢力43代表公司:包括中小眾包團隊,票酸量“4喜稀他手“不限本限書手的溶模型/應用層公司自建到AIGC及其他領域。他們飽受資本市場認可,以愷望數據為例,一年半時間就是完成海天瑞聲數據管線等了三輪融資。數據堂澳中國第四象限:場景壁墊更為深厚的行業玩家晴數智
15、慧該象限著更為深厚的行業數據壁壘,可為下游用戶提供高質量數據集或擁有大模型數未有科技據標注團隊,以海天瑞聲為例,不僅是Llama2的唯一中國伙伴,還發布超大規模中37度數據文多輪對話數據集DOTS-NLP-216,合作企業超810家,覆蓋全球近200個主要語種及景聯文科技方言,有近20年行業深耕。#page#nsihts國內基礎數據服務百億市場規模國內AI基礎數據服務市場規模人力標注重新洗牌知識密集平臺/工具標注(2017年前)(2017-2022年)(2023-2025年)(2025年后)單位:億元以自動駕駛為代表數據質量驅動;人機協同關系進一以訓練任務、算法350的場景爆發;步耦合,人力更
16、多模型為導向;產業鏈重新洗牌,300承擔關鍵決策角色;簡單圖像標注為主。人力標注無法滿足更多企業參與數據250標注,供應合作關市場競爭格局趨于數據需求,自動化系緊密;穩定。標注興起;150大量AI數據初創公創業門檻提高。100司開始涌現。0【人力標注】關鍵節點:2007年,李飛飛團隊啟動ImageNet,借助亞馬遜眾包平臺完成圖像分類和標注來訓練機器學習算法。數據標注從此拉開序幕。2023E2028口【平臺/工具標注】關鍵節點:2017年,以數據驅動的深度學習成為行業共識,自動駕駛大爆發,國內外初創公司涌現,數據標注迎來龐大的市場需求。需求推算:作為AI底層基礎服務,始終依托于人工智能的發展,
17、約占人工智能市場份額10%左右。目前大模型【重新洗牌】關鍵節點:2023年,以ChatGPT為代表的大模型涌現,更高質量、專業化的數據標垂直領域落地仍處于探索階段。注成為剛需。典型樣本:海天瑞聲市占率達12.9%,上半年營收比去【知識密集】關鍵節點:垂直大模型落地加速,數據處理范式、標準基本確定。未來機器將滿足大年同期增長翻番。部分標注需求,人力將承擔關鍵決策任務#page#hsigftsghts05數據標注代表玩家案例集insights#page#insights百度智能云數據眾包百度智能云百度智能云數據眾包,依托百度10余年Al數據經驗、產品技術能力和國內產值規模領先的單體數據標注基地,具
18、備數據“采、標、存、管、訓”一體化的服務能力,根據特定領域、特定場景的客戶需求與委托,可提供數據采集、標注、加工等處理服務,為客戶交付標準化、結構化的服務成果。當前,百度智能云升級大模型數據服務能力,在??谑薪ㄔO全國首個專業大模型數據標注基地,專業大模型數據標注師達數百人,人員本科率達100%。大模型評估服務:大模型標注服務:全面評價應用表現,洞察短板,牽引優化人員、工具、質控、研發多管齊下,保證高質高效洞察與優化指令數據標注服務人類反饋標注服務交付:輸入提示和輸出的高質量監督交付:代表人類偏好的打分排序數據數據可視報表與案例分析優化提案與服務支持大模型數據標注生產線大模型數據生產Copilo
19、t賦能大模型能力評估體系評估流程與工具數據接入數據分發數據標注質量審核數據交付資源調度通用能力專業公正高效應用能力學習能力問答自動分類智能標注自動質檢指令約來滿足ST創作人員定向WMm上下文記憶對話綠集與準入代碼m-Context-標注資源跨語言處理運營能力基礎語言處理各領域眾包專家+專職基地人力專業化數據咨詢+安全標注方案#page#page#nsigfs星塵數據STARPUST星塵數據成立于2017年5月,2023年1月宜布完成5000萬A輪融資。通過自動化標注技術、數據策略專家服務和數據閉環系統,服務自動駕駛(50+頭部客戶)、大模型、智能家居、智慧城市、智能機器人、智慧醫療、智慧教育、
20、智能零售、智能遙感、智慧金融等眾多數據場景。核心產品:Rosetta平臺3.03層:企業私有化部署數據可支持幾萬人以上同時在線標注,數據年處理量過億,可提供先進的AI算法輔助標注工具和項目管理工具,可支持圖像、點云、文本、語音、多模態等各類型100+種主流采集和標注場景,目前平臺自動化水平達到60%以上,數據質量達到99.9%。2層:專有能力數據星塵COSMO大模型數據金字塔解決方案模型評測擬智能客版醫療問診寫作時手法律酷手全融物手瑞助編程1層:通用能力數據自動化評測人工評測照燒就福解PubicData0層:公共數據評測報售知識庫間答管理系統致據標注平臺數據管理系統模型管理系統評測榜單四層數據
21、結構,加速大語言模型構建數據存情數據清洗魏據清選數據增強數據安全預據分析#page#nsights云測數據云測數據云測數據是Testin云測旗下AI訓練數據服務品牌,以高質量、場景化的AI訓練數據服務為基礎,持續為智能駕駛、智慧城市、智能家居、智慧金融等眾多領域提供通用數據集、數據標注平臺&數據管理工具、數據采集/數據標注等服務。面向垂直行業大模型AI數據解決方案適用于新一代AI工程化數據處理工作臺數據池垂直行業知識定向垂直場景的數據服務能力數據推送持續預訓練功能模塊場景化數據持續訂閱基于數據要求數據數據推送回流服務能力采集能力清洗分類能力版本管理數據標簽數據可現化數據統計人機協作優化基于下游
22、任務微調的人機耦合標注能力下游任務微調音視須轉寫友公物古海站文章判斷處理數據待處理數據文生圖持序OCR預識別Picmp編寫任務創建應用基于定向垂直領域人員測試基準評測特定領域專家池場景化服務能力灰度發布聯調系統集成支持特定數據回流處理適用于新一代AI工程化數據處理平臺通過標準AP接口與其他業務集成#page#nsihts龍貓數據L.拋熟據龍貓數據成立于2014年,專業提供自動駕駛、計算機視覺、智能語音、自然語言理解數據采集標注服務,具備數據標注、數據采集、內容審核等能力。針對AIGC類業務,龍貓數據2016年推出標注平臺1.0版本,目前已執行1000+項目,標注人力2000+。自動駕駛大模型A
23、utopilotGPTAutopilotGPT示意圖AutopilotGPT是基于Transformer的點云示例:真實數據百億參數模型,可識別圖片、點云類型。自動標注模型標注結果支持多傳感器數據類型,可進行目標檢DAM模塊仿真數據測、目標追蹤、目標分割、行駛區域識別。只需上傳圖片(通用格式均可)、點云pcd格式,就可自動識別結果。數據集識別能力對比數據集A數據集B數據集CAIGC數據標注流程質量保障:引入大模型,交叉驗證人工對齊評測結果。DANDAL評測數據DAM標注人員A輸出結果是結果輸出結果是否一致標注人員B輸出結果大模型輸出結果香#page#fnsigfts愷望數據KNVERY信望數據
24、成立于2022年2月,團隊成員來自字節跳動、阿里巴巴、Uber、Momenta、奔馳等頭部企業。公司致力于打造AI數據自動化平臺,并為車企、自動駕駛公司以及人工智能等跨產業企業提供一站式AI數據解決方案,目前客戶數已超百余家。融資歷程核心能力提供合規數據、高質量數據、高效率的穩定大規模數據。2022年9月,千萬級天使輪戰略融資,投資方包括辰韜資本、三一集團和溪山天使匯,用于加速建設數據快充站以及團隊完善,持續為汽車產業的智能化,提供數字化、一站式的數據解決方案。創新技術自動化A數據產線高效率運營與平臺模式2023年4月,新一輪戰略融資,投資方為PlugandPlay、辰超資本,探索出海路徑,并
25、繼續投入到產品選代升級當中。2023年9月,數千萬元Pre-A輪融資,由亞盛投資領投,清智資本跟投。本“3456”數據服務工具包輪融資資金將用于自動化產線和工具鏈的持續研發和選代愷望數據學院“3D輔助標注”工具平臺:可在2D中標記后反投影到3D中找到標注物?!?D-BEV數據拼接與標注”工具鏈:可支持大數據流并行作業、可同時通過高校合作儲備及培訓有大批高校學生標注員,通過共建產融實訓基地的形支持200萬人同時標注,目前已在車企應用。式為行業迅速提供大量穩定且優質的數據標注服務,同時運用AI工具輔助管理、基地化管理、專業化高級人才培養等方式,獲得最優人力和最優人效的平衡,“5KW大點云”工具平臺
26、:可在8G內存電腦上運行的5千萬點云數據。降本增效表現領先行業“6大數據生態閉環解決方案”:供應商生態、行業生態、知識庫生態、工具生態、前沿技術生態、專家科研生態目前愷望數據學院已培訓50所學校,培養超過1500名學生為愷望提供數據標注服務,計劃至今年年底將超過2000人規模#page#sight我國值得關注的數據標注行業代表機構TOP20基于數據基礎設施建設、大模型/AI技術理解以及行業深耕和其他因素,量子位智庫評選我國值得關注的20家數據標注機構。海天瑞聲百度智能云云測數據星塵數據龍貓數據倍賽科技晴數智慧群核科技標貝科技曼孚科技愷望數據整數智能博登智能火山引擎商湯科技數據堂未有科技澳鵬中國37度數據景聯文科技“排名不分先后#page#Q量子位insights關于量子位智庫:量子位旗下科技創新產業鏈接平臺。致力于提供育術創新領城產學研體系化研究。面向前沿AI&計算機,生物計算,量子技術及健康醫療等領城最新技術創新進展,提供系統化報告和認知。通過媒體、社群和線下活動,基于專題技術報道及報告、專項交流會等形式,幫助決策者更早掌握創新風向。關于量子位微信號:Qbitbot020今日頭條、知乎、百家號及各大科技信息平臺量子位排名均為科技領域TOP10,內容每天可覆蓋數百萬人工智能量子位智庫小助手全網訂閱科技領城從業者#page#