《IT服務行業:場景應用驅動AI預訓練數據服務需求有望高增-231030(30頁).pdf》由會員分享,可在線閱讀,更多相關《IT服務行業:場景應用驅動AI預訓練數據服務需求有望高增-231030(30頁).pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、 IT 服務/行業深度分析報告/2023.10.30 請閱讀最后一頁的重要聲明!場景場景應用應用驅動,驅動,AI 預訓練預訓練數據服務需求有望數據服務需求有望高增高增 證券研究報告 投資評級投資評級:看好看好(首次首次)最近 12 月市場表現 分析師分析師 程兵 SAC 證書編號:S0160523060001 分析師分析師 楊燁 SAC 證書編號:S0160522050001 相關報告 核心觀點核心觀點 我們認為,數據和高速是我們認為,數據和高速是 AI 投資邏輯的核心抓手投資邏輯的核心抓手,伴隨伴隨 AI 場景應用場景應用的發展成熟,預訓練數據服務是的發展成熟,預訓練數據服務是 AI 產業鏈
2、走向分工明確的必然產物。產業鏈走向分工明確的必然產物??v觀 AI 產業鏈,上游數據是模型感知世界的起點,中游算法開發是數據應用的工具,下游場景應用拉動算法迭代,監管是貫穿上下游的剛需環節。本輪本輪 ChatGPT 浪潮的增長前期,模型使用過往成熟數據導致預訓練數浪潮的增長前期,模型使用過往成熟數據導致預訓練數據服務需求并未快速增長,據服務需求并未快速增長,是因為是因為預訓練數據服務在預訓練數據服務在 AI 發展過程中不發展過程中不需要需要?事實恰恰相反,預訓練數據服務是事實恰恰相反,預訓練數據服務是 AI 大模型降本增效、提高算大模型降本增效、提高算法精度、加速迭代的重要因素法精度、加速迭代的
3、重要因素。前期模型訓練的核心目的是驗證算法可行性,預訓練數據多采用歷史數據,如ChatGPT3.0 的預訓練數據為截止到 2021 年 9 月的歷史數據。因此,前期預訓練數據服務需求并未隨大模型的算法迭代增長而快速提升,但這并不意味著預訓練數據服務是不重要的環節。伴隨著場景應用的落地成為 AI 大模型新一輪的發展動能,大模型迭代的核心變成算法功能的拓展。AI 預訓練數據需要承接下游場景采集的全新數據,AI預訓練數據需求有望伴隨場景應用的落地而快速增長。根據德勤預測,2027 年AI 預訓練數據服務的市場規模有望達到 160 億元,2022-2027 五年復合增速為28.9%。智能駕駛有望持續成
4、為彈性最大的下游應用場景,預訓練數據需求前智能駕駛有望持續成為彈性最大的下游應用場景,預訓練數據需求前置,需求置,需求的提升伴的提升伴隨算法迭代和落地車型隨算法迭代和落地車型的的量產時間或將呈現周期性量產時間或將呈現周期性收斂。收斂。預訓練數據需求受自動駕駛算法迭代、新車型量產落地、新車滲透率等多重因素拉動,智能駕駛有望領先釋放預訓練數據服務的需求。當前行業將繼續受益于 L2+向 L3 技術迭代帶來的數據需求放量,2025 年之后基礎數據需求或將開始相對收斂。2027 年邁入 L3+向 L4 的升級迭代,需求有望開啟新一輪逐步釋放。強者優勢愈發顯著,行業格局有望開啟重塑步伐,科技巨頭和專業數據
5、強者優勢愈發顯著,行業格局有望開啟重塑步伐,科技巨頭和專業數據服務商有望切分更多市場份額。服務商有望切分更多市場份額。隨著行業進入快速發展期,行業逐漸向多模態、合規化、半自動化演變,科技巨頭和專業預訓練數據服務商具備更強的研發優勢,有望領先享受半自動化標注的紅利,形成資源整合和研發技術的壁壘,切分更多市場增量份額。-6%3%12%21%30%39%IT服務滬深300上證指數 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 2 行業深度分析報告/證券研究報告 投資建議:投資建議:伴隨 AI 場景應用的發展成熟,預訓練數據服務是 AI 產業鏈走向分工明確的必然產物,目前行業格局重塑期,科技巨頭和
6、專業預訓練數據服務商有望切分更多市場份額。建議關注:海天瑞聲、匯洲智能、神州數碼。風險提示:風險提示:基礎數據服務商自動化標注研發進展不及預期;智能駕駛算法更新不及預期;新車型落地滲透率不及預期。表1.重點公司投資評級:代碼代碼 公司公司 總市值總市值(億元)(億元)收盤價收盤價(10.27)EPS(元)(元)PE 投資評級投資評級 2022A 2023E 2024E 2022A 2023E 2024E 688787 海天瑞聲 40.34 66.86 0.69 0.85 1.24 86.51 79.09 53.78 未覆蓋 002122 匯洲智能 82.55 4.14 0.04-72.22-未
7、覆蓋 000034 神州數碼 197.86 29.55 1.57 1.83 2.17 14.02 16.17 13.59 未覆蓋 數據來源:wind,未覆蓋公司預測數據為 wind 一致預期數據,如無 wind 一致預期暫不展示,財通證券研究所 CY9YuW9YpXBUkZtU7NdN6MoMpPtRtQiNmNpPeRmPqRbRrQoOMYrNmMxNnRoM 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 3 行業深度分析報告/證券研究報告 場景應用驅動,場景應用驅動,AI 預訓練數據服預訓練數據服務需求有望高增務需求有望高增.1 1 預訓練數據是預訓練數據是 AI 產業鏈的重要環節產
8、業鏈的重要環節.5 1.1 預訓練數據是預訓練數據是 AI 產業鏈的基石產業鏈的基石.5 1.2 大模型跨模態遷移提升數據預訓練的重要性大模型跨模態遷移提升數據預訓練的重要性.5 2 預訓練數據是預訓練數據是 AI 降本增效、場景落地的關鍵降本增效、場景落地的關鍵.9 2.1 過去:追求算法驗證,歷史數據驅動模型預訓練過去:追求算法驗證,歷史數據驅動模型預訓練.9 2.2 當前:算法功能性至上,場景落地驅動預訓練數據需求上升當前:算法功能性至上,場景落地驅動預訓練數據需求上升.11 3 多模態、合規化、半自動化助力格局重塑多模態、合規化、半自動化助力格局重塑.13 3.1 應用落地,數應用落地
9、,數據預訓練趨向多模態、合規化、半自動化據預訓練趨向多模態、合規化、半自動化.13 3.2 行業格局重塑,集中度將進一步提升行業格局重塑,集中度將進一步提升.17 4 智能駕駛助力行業需求長期提升智能駕駛助力行業需求長期提升.22 4.1 智能駕駛有望率先釋放預訓練數據的需求智能駕駛有望率先釋放預訓練數據的需求.22 4.2 切入一站式和自動化的企業領先受益切入一站式和自動化的企業領先受益.24 5 AI 應用導入,應用導入,數據訓練服務先行數據訓練服務先行.27 5.1 海天瑞聲:海天瑞聲:AI 基礎數據服務行業的龍頭基礎數據服務行業的龍頭.27 5.2 匯洲智能:中國版匯洲智能:中國版 S
10、cale AI.29 6 風險提示風險提示.29 圖圖 1.基礎數據的生產和訓練是基礎數據的生產和訓練是 AI 產業鏈的基石產業鏈的基石.5 圖圖 2.多模態模型實驗的對照組數據集多模態模型實驗的對照組數據集.7 圖圖 3.基于基于 Image-Text-Label 預訓練數據集的模型具備更強的區分能力(右)預訓練數據集的模型具備更強的區分能力(右).7 圖圖 4.多模態預訓練數據各環節技術難點多模態預訓練數據各環節技術難點.8 圖圖 5.視覺視覺-語言語言-音頻等多模信息的視覺特征增強過程音頻等多模信息的視覺特征增強過程.9 圖圖 6.數據預訓練服務商是數據預訓練服務商是 AI 數據產業鏈中
11、承上啟下的關鍵一環數據產業鏈中承上啟下的關鍵一環.11 圖圖 7.政策加碼助力政策加碼助力 AI 場景端的應用落地,進一步提升預訓練數據的需求場景端的應用落地,進一步提升預訓練數據的需求.12 圖圖 8.海內外大模型均趨向多模態海內外大模型均趨向多模態.14 圖圖 9.AI 半自動化標注助力專業預訓練數據服務商和模型開發商互相賦能,形成閉環半自動化標注助力專業預訓練數據服務商和模型開發商互相賦能,形成閉環.16 內容目錄 圖表目錄 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 4 行業深度分析報告/證券研究報告 圖圖 10.龍頭企業具備顯著規模效應龍頭企業具備顯著規模效應.19 圖圖 11
12、.龍頭企業具備更強研發優勢龍頭企業具備更強研發優勢.20 圖圖 12.3D 點云全環節半自動化提升標注效率點云全環節半自動化提升標注效率 30%以上以上.21 圖圖 13.百度自動駕駛數據采集定制車百度自動駕駛數據采集定制車.23 圖圖 14.車型迭代周期影響預訓練數據服務需求釋放周期車型迭代周期影響預訓練數據服務需求釋放周期.24 圖圖 15.2D-3D 點云點云-框三數據標注操作視圖框三數據標注操作視圖.25 圖圖 16.4D BEV 數據目標真值的視圖數據目標真值的視圖.25 圖圖 17.數據服務一站式閉環全環節數據服務一站式閉環全環節.25 圖圖 18.海天瑞聲海天瑞聲 2023H1
13、海外業務占比海外業務占比 39%.28 圖圖 19.海海天瑞聲天瑞聲 2022 年智能語音業務占比年智能語音業務占比 64%.28 表表 1.重點公司投資評級重點公司投資評級:.2 表表 2.虛擬人等多模態交互需求提升了預訓練數據的復雜性和技術難度虛擬人等多模態交互需求提升了預訓練數據的復雜性和技術難度.6 表表 3.當前多模態情感識別常用多模態情感數據集當前多模態情感識別常用多模態情感數據集.8 表表 4.多模態融合方法的性能對比多模態融合方法的性能對比.9 表表 5.智能駕駛為未來預訓練數據需求最大的應用場景智能駕駛為未來預訓練數據需求最大的應用場景.13 表表 6.中國部分通用型多模態大
14、模型正向各行各業加速滲透中國部分通用型多模態大模型正向各行各業加速滲透.14 表表 7.監管體系逐漸完善,監管體系逐漸完善,AI 預訓練數據業務合規性趨嚴預訓練數據業務合規性趨嚴.15 表表 8.基礎數據服務頭部企業技術矩陣對比基礎數據服務頭部企業技術矩陣對比.17 表表 9.基礎數據服務頭部企業產品矩陣和產能的對比基礎數據服務頭部企業產品矩陣和產能的對比.18 表表 10.頭部企業多模態、合規化、自動化的全方位對比頭部企業多模態、合規化、自動化的全方位對比.22 表表 11.針對智能駕駛場景,頭部企業數據采集、標注技術對比針對智能駕駛場景,頭部企業數據采集、標注技術對比.26 表表 12.針
15、對智能駕駛場景,數據服務商優勢對比針對智能駕駛場景,數據服務商優勢對比.27 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 5 行業深度分析報告/證券研究報告 1 預訓練數據是預訓練數據是 AI 產業鏈產業鏈的的重要環節重要環節 1.1 預訓練數據預訓練數據是是 AI 產業鏈產業鏈的基石的基石 我們認為,我們認為,數據和高速是數據和高速是 AI 產業鏈投資邏輯的核心抓手,模型迭代速度和數據產業鏈投資邏輯的核心抓手,模型迭代速度和數據的的傳輸速度是傳輸速度是 AI 核心動能核心動能。預訓練數據是預訓練數據是 AI 模型感知世界的起點,為模型開發模型感知世界的起點,為模型開發全生命周期提供數據
16、價值,是全生命周期提供數據價值,是 AI 產業鏈的基石。產業鏈的基石。ChatGPT 大模型引領本輪生成式 AI 浪潮,縱觀當前的 AI 產業鏈,上游數據來源于終端場景的采集,是算法感知世界的起點;中游模型開發是數據應用的工具;下游場景端拉動模型算法迭代;監管是貫穿上下游全環節的剛需。根據澳鵬數據的調研,AI 模型開發項目 80%的時間和精力被用于數據管理,高質量的預訓練數據能大幅地減少數據管理環節的時間消耗,提升模型的訓練效果,實現模型開發全生命周期的降本增效提質。圖1.基礎數據的生產和訓練是 AI 產業鏈的基石 數據來源:2023 大模型和 AIGC 產業圖譜(信通院),財通證券研究所 1
17、.2 大大模型模型跨模態遷移提升數據跨模態遷移提升數據預訓練預訓練的重要性的重要性 當前海內外大模型逐步向多模態遷移當前海內外大模型逐步向多模態遷移,疊加疊加虛擬人等應用虛擬人等應用場景的落地場景的落地,多模態多模態預預訓練訓練數據數據品質和數量均需要品質和數量均需要快速提升快速提升。數據預訓練通過對數據預訓練通過對非非結構化結構化多模態多模態數據數據進進行行跨模態跨模態特征特征的的提取、對齊和融合,解決產業結合下多模態數據難以有效識別提取、對齊和融合,解決產業結合下多模態數據難以有效識別和和語義信息語義信息深度深度利用的痛點利用的痛點,實現模型優化的實現模型優化的降本增效提質。降本增效提質。
18、綜上,我們認為多模綜上,我們認為多模態預訓練數據是解決態預訓練數據是解決 AI 應用長尾問題的關鍵,應用長尾問題的關鍵,大模型與垂直領域的大模型與垂直領域的產業結合產業結合趨趨勢帶來勢帶來的的多模態技術遷移多模態技術遷移,將進一步提升預訓練數據環節的重要性。將進一步提升預訓練數據環節的重要性。伴隨應用端落地,訓練數據更擴展到垂直領域的多模態數據,同時 AIGC 浪潮下虛擬人等多模態交互需求誕生,多模態數據質和量均呈現快速增長趨勢。疊加當前模型迭代更加傾向于向特定領域或特定方向上的優化迭代,實現融合標簽化處 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 6 行業深度分析報告/證券研究報告 理
19、的多模態數據能夠更好地為模型訓練增效提質。因此,大規模、高質量多模態數據集的重要性愈加凸顯,成為模型訓練效果的核心支撐之一。(1)當前大模型的數據需求規模當前大模型的數據需求規模呈現呈現指數級增長指數級增長,大模型數據豐富程度顯著增加,大模型數據豐富程度顯著增加,受到受到各類垂直領域以及虛擬人等應用發展各類垂直領域以及虛擬人等應用發展的的驅動,多模態預訓練數據的數量需求驅動,多模態預訓練數據的數量需求快速增加??焖僭黾?。大模型數據豐富程度顯著增加,受到各類垂直領域以及虛擬人等應用發展的驅動,多模態數據為實現多種數據形態下交互,AI 模型除了要具備理解人類文字指令的能力,還需要通過對齊不同獨立模
20、態關鍵特征,建立文字與圖、語音、視頻等一一映射關系,這背后將依賴大量融合對齊的多模態數據。未來,隨著以 AIGC、虛擬人為代表的 AI 技術以及應用的不斷發展,多模態數據需求將呈現加速增長的趨勢。表2.虛擬人等多模態交互需求提升了預訓練數據的復雜性和技術難度 數據來源:2022 中國人工智能產業報告(艾瑞咨詢),財通證券研究所 (2)場景驅動場景驅動下,下,模型模型優化優化的的方向更加具體,方向更加具體,多模態預訓練數據的加工多模態預訓練數據的加工可以可以對模型對模型的的優化提質增效。優化提質增效。相比于傳統的模型訓練,大模型的數據需求類型也將有所轉變,更多模型或將采用類強化學習模式來進行特定
21、領域或特定方向上的優化迭代,以使得機器能夠以更加接近于人類期望的方式提供答案輸出。對于大模型訓練而言,不僅需要持續獲取大規模、多模態、多場景、多垂向、高質量的數據,更須具備持續迭代的數據清洗和標注策略,不斷提升預訓練、模型微調和獎勵模型等過程中所需數據的質量。高質量的多模態預訓練數據為大模型精確性、通用性和泛化能力奠定了堅實基礎。根據 2022 年微軟的論文Unified Contrastive Learning in Image-Text-Label Space顯示,利用文本和圖像數據進行跨 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 7 行業深度分析報告/證券研究報告 模態特征提取、
22、融合、標注形成的 Image-Text-Label 數據集進行模型預訓練,模型的區分能力得到顯著的提升。圖2.多模態模型實驗的對照組數據集 數據來源:Unified Contrastive Learning in Image-Text-Label Space(微軟,CVPR 2022),財通證券研究所 圖3.基于 Image-Text-Label 預訓練數據集的模型具備更強的區分能力(右)數據來源:Unified Contrastive Learning in Image-Text-Label Space(微軟,CVPR 2022),財通證券研究所 AI 模型的產業結合帶來復雜的功能場景模型的
23、產業結合帶來復雜的功能場景,預訓練數據預訓練數據處理處理的的復雜性和技術難度復雜性和技術難度進進一步提升一步提升。多模態預訓練數據處理工程的技術難點集中在多模態預訓練數據處理工程的技術難點集中在跨模態數據特征識別、跨模態數據特征識別、提取、對齊、融合提取、對齊、融合環節,環節,其中其中多模信息多模信息的的情感識別是人機交互環節的核心情感識別是人機交互環節的核心,單模單模態態信息提取、融合階段信息提取、融合階段和和融合方式融合方式的選擇均是的選擇均是影響多模數據質量的重要因素。影響多模數據質量的重要因素。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 8 行業深度分析報告/證券研究報告 圖4.
24、多模態預訓練數據各環節技術難點 數據來源:模態信息處理前沿綜述:應用、融合和預訓練(吳友政,李浩然,姚霆,何曉冬,中文信息報),京東人工智能研究院,財通證券研究所 (1)多模信息情感識別是人機交互環節的核心多模信息情感識別是人機交互環節的核心。人機交互場景中,多模態情感識別關注如何從人的表情和動作手勢、語音音調、語言等多模態信息中理解用戶細顆粒度的情感表達傾向,進一步反饋指導人機的交互策略。當前主流方式是利用情感標簽來表達多模數據集細顆粒度的情感特征。表3.當前多模態情感識別常用多模態情感數據集 數據來源:模態信息處理前沿綜述:應用、融合和預訓練(吳友政,李浩然,姚霆,何曉冬,中文信息報),京
25、東人工智能研究院,財通證券研究所 (2)多模態數據多模態數據融合融合的的核心核心是是單模信息單模信息的的提取、融合階段提取、融合階段和和融合方式融合方式選擇選擇,其中,其中單模態信息提取單模態信息提取是是多模態融合的基石,融合時間決定數據融合的準確率,融合方多模態融合的基石,融合時間決定數據融合的準確率,融合方式影響數據處理的效率和成本。式影響數據處理的效率和成本。提取單模數據特征的核心是如何從視覺內容中解析出更高層語義信息,以增強視覺特征表達。如從視覺內容中識別目標、屬性、動作、關系、場景圖、語義結構、空間位置等信息,進而對視覺內容的全局性、區域性、目標、關系等細顆粒度的視覺語義進行建模。數
26、據集數據集語言語言模態類別模態類別情感標簽(個)情感標簽(個)視頻片段(個)視頻片段(個)人物數量(人)人物數量(人)數據來源數據來源IEMOCAP英語視覺、語音、文本、面部動作9100010實驗室CMU-MOSI英語視覺、語音、文本7219989YoutubeCMU-MOSEI英語視覺、語音、文本732281000YoutubeCH-SIMS中文視覺、語音、文本52281472電影、電視、綜藝IVD中文視覺、語音62946-語音助手用戶對話 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 9 行業深度分析報告/證券研究報告 圖5.視覺-語言-音頻等多模信息的視覺特征增強過程 數據來源:模態
27、信息處理前沿綜述:應用、融合和預訓練(吳友政,李浩然,姚霆,何曉冬,中文信息報),京東人工智能研究院,財通證券研究所 融合時間和融合方式的選擇直接影響多模態數據集的質量。早期融合的深度大,有效增強多模信息特征之間的交互,提高數據融合準確度。多種融合方式中,Transformer 融合的模型更加復雜,性能更加優越。表4.多模態融合方法的性能對比 數據來源:模態信息處理前沿綜述:應用、融合和預訓練(吳友政,李浩然,姚霆,何曉冬,中文信息報),京東人工智能研究院,財通證券研究所 2 預訓練數據預訓練數據是是 AI 降本增效降本增效、場景落地的關鍵、場景落地的關鍵 2.1 過去過去:追求追求算法算法驗
28、證驗證,歷史歷史數據數據驅動驅動模型模型預訓練預訓練 ChatGPT 拉開生成式拉開生成式 AI 大模型的序幕,大模型的序幕,2022 年年增長增長初期,初期,AI 大模型大模型訓練核心訓練核心是是驗證算法可行性,驗證算法可行性,預訓練預訓練數據數據多多采用采用歷史數據歷史數據,ChatGPT3.0 使用使用截至截至 2021 年年9 月月的歷史的歷史數據數據進行進行模型模型預訓練預訓練。因此,前期因此,前期預訓練數據需求并未伴隨預訓練數據需求并未伴隨大模型大模型“百百模大戰模大戰”而而快速增長??焖僭鲩L。由此帶來錯覺:預訓練數據服務在由此帶來錯覺:預訓練數據服務在AI發展過程發展過程中不需要
29、中不需要嗎?嗎?事實恰恰相反,預訓練數據服務是事實恰恰相反,預訓練數據服務是 AI 模型降本增效模型降本增效、加速迭代加速迭代的的重要因素重要因素。以來源、處理、應用維度縱觀以來源、處理、應用維度縱觀 AI 數據鏈,數據鏈,AI 預訓練數據服務商是承上啟下的關預訓練數據服務商是承上啟下的關鍵抓手。鍵抓手。伴隨 AI 場景應用的發展成熟,預訓練數據服務是 AI 產業鏈走向分工明多模態融合多模態融合典型模型典型模型視覺問答性能視覺問答性能圖像描述性能圖像描述性能情感識別性能情感識別性能門控融合門控融合MAG-XLNet-87.9注意力融合注意力融合Bottom-UP65.736.2-Transfo
30、rmer融合Transformer融合UNIMO74.038.8-圖模型融合圖模型融合MN-GMV73.5-雙線性注意力融合雙線性注意力融合BAN70.4-謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 10 行業深度分析報告/證券研究報告 確的必然產物。AI 預訓練數據服務是通過對預訓練數據進行采集、清洗、標注、質檢,進而精準滿足 AI 企業痛點,為模型開發降本增效,提高算法開發精確度,是 AI 降本增效的關鍵一環。預訓練數據服務承接上游數據來源:預訓練數據服務承接上游數據來源:非結構數據只有經過非結構數據只有經過預訓練處理才預訓練處理才能激活能激活其其價值價值。AI 預訓練數據服務將場景
31、端語音、圖像、文本、視頻、點云等非結構化數據進行采集、清洗、標注、質檢,形成 AI 模型可直接利用的有效預訓練數據集。其中標注環節最為重要,標注環節決定數據有效特征的提取精度,影響模型的開發效率。預訓練數據助力下游算法開發:高質量標注數據貫穿算法開發全生命周期,有效預訓練數據助力下游算法開發:高質量標注數據貫穿算法開發全生命周期,有效提升模型開發提升模型開發效果效果,助力開發環節降本增效。,助力開發環節降本增效。(1)算法設計環節,算法設計環節,減少模型設計的方向性偏差。減少模型設計的方向性偏差。利用小批量預訓練數據對算法初步的設計進行驗證,確定模型設計方向的準確。(2)算法訓練環節,節約模型
32、開發時間,有效簡化模型參數規模,提升模型效率。算法訓練環節,節約模型開發時間,有效簡化模型參數規模,提升模型效率。高質量標注數據可以減少預訓練環節的模型學習時間,在更少的算力資源支撐下達到優化目標,助力算法開發實現降本增效。根據 OpenAI 論文中對大模型優化方案的指引,單獨增加預訓練數據量、模型參數規模、預訓練計算量,對照實驗結果顯示擴大預訓練數據集具備更高的性價比。因此,預訓練數據可有效降低模型參數規模,簡化模型結構,提升算法開發效率。(3)算法算法測評測評環節,保證模型準確性環節,保證模型準確性。少量人工標注的預訓練數據可作為模型輸出結果的對照組,有效評定模型的準確性。(4)算法迭代環
33、節,有效提升模型的性能。算法迭代環節,有效提升模型的性能。在算法迭代環節,針對 bug 對預訓練數據進行精確標注處理,進而對模型精準修復,有效提升模型性能。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 11 行業深度分析報告/證券研究報告 圖6.數據預訓練服務商是 AI 數據產業鏈中承上啟下的關鍵一環 數據來源:德勤官方公眾號,中國 AI 產業報告(艾瑞,2022),財通證券研究所 2.2 當前當前:算法功能算法功能性性至上,至上,場景落地場景落地驅動驅動預訓練數據預訓練數據需求上升需求上升 我們認為,我們認為,AI 預訓練數據承接下游采集的全新場景數據,為下游客戶場景落地的預訓練數據承接
34、下游采集的全新場景數據,為下游客戶場景落地的的算法迭代提供高效燃料,的算法迭代提供高效燃料,進一步滿足場景功能性進一步滿足場景功能性的的拓展。拓展。AI 預訓練數據服務預訓練數據服務有有望伴隨場景應用望伴隨場景應用的的落地而快速成長落地而快速成長。根據德勤預測,。根據德勤預測,2027 年年 AI 預訓練數據服務預訓練數據服務市場規模有市場規模有望望達到達到 160 億元,億元,2022-2027 五年復合增速為五年復合增速為 28.9%。和傳統的深度學習模型相比,大模型的數據數量需求指數級增加。傳統深度學習技術路線下,訓練小模型大約需要 GB 級數據,但訓練大模型通常需要 TB 級數據,如
35、GPT-3 原始文本語料多達 45TB。疊加當前大模型優化的邊際效用下降,優化迭代的成本指數性增加,算法競爭的準入門檻逐步提高,科技巨頭逐漸形成各自的算法護城河。依靠大模型性能和自身強勁的資本優勢,巨頭有望領先發力垂直領域的模型整合,疊加政策頻頻加碼(表4)助力場景落地,應用場景拓展有望成為AI大模型算法迭代創新的新動能。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 12 行業深度分析報告/證券研究報告 圖7.政策加碼助力 AI 場景端的應用落地,進一步提升預訓練數據的需求 數據來源:中國 AI 產業報告(艾瑞),中國中央人民政府網,中國科技部,求是雜志,中國最高人民法院網,財通證券研究所
36、 當前自動駕駛、智慧工業、互聯網內容等終端場景占比基礎數據服務行業的較大份額,自動駕駛環節需采集大量真實、覆蓋不同天氣、不同路況的小概率事件的視頻圖像和激光點云圖像,標注出來行駛區域、車輛、行人等各類元素,有望成為占比最大的下游應用場景。目前基礎數據服務行業仍處于需求釋放的早期,伴隨著未來技術拓展、功能增加、場景拓展,行業需求有望實現幾何級增長。根據德勤預測,2027 年智能駕駛帶來的 AI 預訓練數據服務市場規模有望達到 60.8 億元,2022-2027 年的五年復合增速領先所有下游應用場景高達 37%。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 13 行業深度分析報告/證券研究報告
37、 表5.智能駕駛為未來預訓練數據需求最大的應用場景 數據來源:德勤官方公眾號,財通證券研究所 3 多模態、合規化、半自動化助力格局重塑多模態、合規化、半自動化助力格局重塑 3.1 應用落地,數據預訓練趨向多模態、合規化、半自動應用落地,數據預訓練趨向多模態、合規化、半自動化化 應用端場景復雜度提升應用端場景復雜度提升,驅動驅動大模型的探索逐步遷移到多模態領域,大模型的探索逐步遷移到多模態領域,帶動帶動訓練數訓練數據集的處理從據集的處理從自然語言處理自然語言處理逐步擴展到語音工程、計算機視覺、多模態數據跨模逐步擴展到語音工程、計算機視覺、多模態數據跨模態處理。態處理。復盤本輪復盤本輪的的 AI
38、浪潮,多模態是未來的發展共識。浪潮,多模態是未來的發展共識。ChatGPT 的問世將 GPT 模型應用到對話領域,開啟自然語言對話時代,引發全球新一輪生成式 AI 大模型的探索,目前階段,海內外大模型均呈現多模態的遷移趨勢。中國大模型產業化應用落地呈現通用和專用并行、單模態轉向多模態的發展路徑。文心一言、通義千問、紫東太初等通用化大模型致力于打造跨行業通用化人工智能能力平臺,向各行各業加速滲透;針對生物制藥、遙感、氣象等垂直領域專業類大模型,發揮著領域縱深的優勢不斷深化落地,提供特定業務場景的專業化解決方案。應用應用數據采集數據采集數據標注數據標注數據需求增長動能數據需求增長動能2022年20
39、22年市場規模市場規模(億元)(億元)2027年預測2027年預測市場規模市場規模(億元)(億元)2022-20272022-2027五年復合五年復合增速(%)增速(%)2022年2022年份額份額(億元)(億元)2027年2027年預測份額預測份額(億元)(億元)自動自動駕駛駕駛智慧金融等場景已較為成熟固化,L43:V50未來增長潛力未來增長潛力較小,將趨于穩定較小,將趨于穩定標注視頻圖像以及點云數據中的道路可行駛區域、車輛、行人等各類元素自動駕駛對數據需求處于起步階段,未來技術迭代、功能增加、場景拓展,數據需求量幾數據需求量幾何級增長何級增長16.6560.837%38%52%工業工業采集
40、產品圖像、生產環境畫面、設備運行狀態畫面等數據標注各類生產狀況及產品圖像及其狀態,如鋼鐵表面瑕疵與裂紋工業視覺是行業增長主要驅動力,伴隨國家對工業智能化的重投人,行業數據需求有望放行業數據需求有望放量提升量提升13.0525.629%16%16%安防安防采集各類公共場所、居民住宅樓及商用樓的監控攝像頭數據標注視頻圖像中的人臉骨骼點、車輛、動作行為等元素事件感知識別等新場景需求增加,數據服務需求有一定增長數據服務需求有一定增長空間空間9.925.622%16%12%互聯網互聯網采集用戶生成的文章、搜索、直播、視頻、圖像等內容素材標注文本中的敏感字眼,視頻圖像中人的行為、手勢、嘴型等動作元素行業快
41、速技術迭代帶動需求增長,中長期技術路徑向無監督訓練傾斜,未來數據標注需求未來數據標注需求大概率先增后減大概率先增后減91620%10%7%醫療醫療采集醫療影像、手術工具、處方、設備控制、病例等數據標注醫療影像中的人體拉框、骨臨點以及處方病例中的文本數據等我國老齡化明顯,醫療行業AI應用發展旺盛,帶動基礎數據帶動基礎數據服務需求增長服務需求增長91620%10%7%其他其他如金融:采集票據單據、保險標的、人險、對話語音等非話構化數據和風控數據等結構化數據標注票據,保險標的中的關鍵字等數據,語言中的方言,小語種數據等智慧金融等場景已較為成熟固化,未來增長潛力較小,將趨未來增長潛力較小,將趨于穩定于
42、穩定7.21616%10%6%合計合計454516016028.90%28.90%份額份額變動變動-謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 14 行業深度分析報告/證券研究報告 圖8.海內外大模型均趨向多模態 數據來源:AI 大模型地圖研究(中國科學技術部),財通證券研究所 表6.中國部分通用型多模態大模型正向各行各業加速滲透 數據來源:AI 大模型地圖研究(中國科學技術部),財通證券研究所 應用場景應用場景辦公辦公金融金融生活生活娛樂娛樂自動駕駛自動駕駛智慧城市智慧城市商業商業醫療醫療工業工業M6M6文案生成,服務搜索保險合同條款解析,金融風控,智能對話語音視頻對話,事件點評-汽車
43、外觀自動設計-商品圖片生成,內容封面設計,圖文檢索-悟道2.0悟道2.0圖像翻譯,手語播報-圖片的開放問答,語言操縱數字可視化,可控人設的開放問答生成式問答,詩詞創作-紫東太初紫東太初-影視創作智能駕駛-手術機器人-書生(INTERN)書生(INTERN)以文生圖-居家機器人自動駕駛,圖像分類-文心一言文心一言內容創作,數據分析貸前審核盡職調查,貸后風險檢測預警,生態內企業風險管理-智能對話-突發事件預警檢測-華為盤古華為盤古-ORC識別-智能物流-藥物開發煤礦安全,異物檢測,鐵路軌道機車缺陷,電力巡檢星火星火紀要整理,稿件書寫,數字員工,AI虛擬人-人機交互,多模感知-作文批改 謹請參閱尾頁
44、重要聲明及財通證券股票和行業評級標準 15 行業深度分析報告/證券研究報告 監管政策頻出監管政策頻出,數據監管體系逐漸完善,預訓練數據服務商在進行數據標注,數據監管體系逐漸完善,預訓練數據服務商在進行數據標注業務業務時,時,合規性合規性需要需要不斷提升。不斷提升。新一輪生成式人工智能浪潮引發數據監管體系的不斷完善,預訓練數據環節安全性和合規性監管逐漸收緊。2022 年下半年針對智能駕駛領域模型預訓練數據的采集監管再度完善,830 新規注明量產車、采集車、測試車進行自動駕駛相關的道路數據采集都屬于測繪活動,明確表示采集的坐標、影像、點云及其屬性信息均屬于測繪信息,測繪資質的收緊將進一步出清自動駕
45、駛領域的基礎數據服務商。表7.監管體系逐漸完善,AI 預訓練數據業務合規性趨嚴 數據來源:德勤官方公眾號,中國自然資源部官網,財通證券研究所 預訓練數據自動化推動產業鏈預訓練數據自動化推動產業鏈的的閉環賦能,同時伴隨閉環賦能,同時伴隨算法迭代創新和終端場景的算法迭代創新和終端場景的拓展,數據標注業務復雜度進一步提升拓展,數據標注業務復雜度進一步提升;但全自動化標注無法滿足預訓練數據的但全自動化標注無法滿足預訓練數據的精度要求精度要求,為滿足復雜終端數據的標注為滿足復雜終端數據的標注精度精度要求,人機交互的半自動化標注要求,人機交互的半自動化標注有望有望成為成為未來行業未來行業主流。主流。AI
46、預訓練數據預訓練數據自動化自動化標注帶來標注帶來降本增效,同時降本增效,同時推動推動產業鏈產業鏈閉環閉環賦能。賦能?;A數據服基礎數據服務商務商通過自動化標注工具實現降本增效,疊加人力進行數據質檢,保障預訓練數據的標注精度,進一步實現閉環賦能:高質量預訓練數據正向助力算法開發商模型訓練效果的提升;AI 模型反向賦能自動標注工具,助力預訓練數據服務商提升標注效率,降低標注成本。時間時間政策政策核心核心內容內容2020年3月信息安全技術個人信息安全規范強調數據授權和脫敏的合規性強調數據授權和脫敏的合規性數據授權:數據授權:個人信息處理活動應向個人信息主體明示處理目的、方式、范圍等,征求其授權同意;
47、數據脫敏數據脫敏:針對個人信息去標識化與匿名化提出更為嚴格的定義,明確經處理后的信息不得識別到特定自然人2021年6月中華人民共和國數據安全法對各行業數據的安全與合規提出更嚴格對各行業數據的安全與合規提出更嚴格的頂層設計,分行業主管部門承擔數據的頂層設計,分行業主管部門承擔數據監管任務監管任務強調數據的收集、存儲、試用、加工、傳輸、提供、公開等,工業、電信、交通、金融、科技等行業主管部門承擔本行業、本領域數據安全監管職責2022年8月自然資源部關于促進智能網聯汽車發展維護測繪地理信息安全的通知自動駕駛領域測繪資質成為數據采集必自動駕駛領域測繪資質成為數據采集必備前提,復核后具備甲級資質的廠商僅
48、備前提,復核后具備甲級資質的廠商僅為19個,稀缺性提高為19個,稀缺性提高僅已獲得甲級測繪資質的企業可合法開展自動駕駛高精度地圖的數據采集、存儲、傳輸與處理等相關測繪活動;21年復核后,具有甲級測資質的企業由31家減少到1921年復核后,具有甲級測資質的企業由31家減少到19家,資質獲取難度較高,具有稀缺性家,資質獲取難度較高,具有稀缺性 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 16 行業深度分析報告/證券研究報告 圖9.AI 半自動化標注助力專業預訓練數據服務商和模型開發商互相賦能,形成閉環 數據來源:德勤官方公眾號,財通證券研究所 AI 未來未來大大概率概率不會實現完全的自動化標
49、注不會實現完全的自動化標注。首先,智能化的人機協作模式一直是數據服務行業的發展趨勢,同時也是數據服務企業的核心競爭能力之一,但自動化標注的核心不是完全替代人類,而是在保證數據處理精度的情況下,提高人機協作效率。其次,數據復雜性提升,人為參與校準的重要性只會越來越高。截止目前,已經存在 NLP 數據集的自動化標注平臺,并且全自動標注精度已經高于人工標注精度。2023年9月國外初創公司refuel上線AI標注數據的開源處理工具Autolabel,將自動標注平臺接入 LLM 實現完全自動化標注,比人工標注效率提高 100 倍,成本只有人工成本的 1/7,自動化平臺接入 GPT-4 進行標注實現準確率
50、 88.4%,超過純人工標注準確率 86.2%。但截至目前,針對語音工程、計算機視覺和多模態融合數據,考慮預訓練數據處理精度的要求,半自動化為未來發展的主流。最后,模型迭代演進的方向一定是逐漸接近于人類的判斷和理解,就一定需要人類作為引導,需要通過人工標注幫助其完成新知識的學習,所以只要人工智能持續地發展和進化,就一定需要人類參與,無法達到完全的自動化標注。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 17 行業深度分析報告/證券研究報告 3.2 行業行業格局重塑,格局重塑,集中度將進一步提升集中度將進一步提升 當前當前專業的基礎數據服務專業的基礎數據服務商商以以眾包模式起家,實現技術眾包
51、模式起家,實現技術矩陣矩陣、產品、產品矩陣矩陣的先發優的先發優勢,疊加規模效應勢,疊加規模效應和經驗累積和經驗累積帶來的降本帶來的降本增效,增效,強者恒強的趨勢愈加顯著強者恒強的趨勢愈加顯著,行業行業集中度進一步提升集中度進一步提升。目。目前前專業數據服務商專業數據服務商占比整個行業市場份額約占比整個行業市場份額約 55%,短期難,短期難以超越。以超越。(1)專業的專業的基礎數據服務商基礎數據服務商具備具備一定一定的技術先發優勢的技術先發優勢。行業主要企業分為專業的品牌數據服務商、科技企業、科技巨頭。品牌數據服務商多為眾包模式的內容審核和文本標注起家,具備多年數據處理經驗;科技企業借大模型的新
52、一輪發展浪潮,依靠技術優勢快速切入語音工程和計算機視覺等領域的預訓練數據處理;科技巨頭多依靠自身的一站式算法研發閉環,搭建數據處理自研平臺,實現數據閉環。當前三類企業的頭部企業在技術層面均可實現在多維度的數據采集和數據標注,但頭部的專業數據服務商和科技企業依靠多年經驗或強大的技術研發優勢,在智能駕駛數據標注實現率先切入,如海天瑞聲的多模態整合處理標注,標貝科技率先上線 4DBVE 標注。表8.基礎數據服務頭部企業技術矩陣對比 類別類別頭部企業頭部企業數據采集技術矩陣數據采集技術矩陣數據標注技術矩陣數據標注技術矩陣云測數據云測數據1.圖片圖片:情緒、車輛、行為、建筑、商品、水果。2.視頻視頻:道
53、路、人物、車流。3.音頻音頻:喚醒詞、方言、小語種、兒童音頻。4.文本文本:語料、收據、書本。1.計算機視覺計算機視覺:圖像(分類、拉框、語義分割、3D點云、關鍵點、線標注、2D3D融合);視頻(目標跟蹤)。2.語音工程語音工程:ASR轉寫、情緒判定、聲紋識別、語音切割。3.自然語言處理自然語言處理:OCR轉寫、信息提取、NLU語句泛化、詞性識別、機翻、情感判斷、意圖判斷、指代消解、槽位填充。海天瑞聲海天瑞聲1.圖像視頻圖像視頻:手語、表情、姿態、道路交通、指關節操作等。2.語音語音:多語種朗讀對話的語音識別數據、多音色多語種的語音合成數據。3.文本文本:手寫or自然場景的OCR數據、PPT表
54、格數票據等OCR數據、多語言平行語料、實體識別數據、意圖理解數據、實時對話交互文本等。1.計算機視覺計算機視覺:圖片、2D3D聯合標注、語義分割、點云標注分割追蹤、點云連續幀、全景分割、多模態標注。2.語音工程語音工程:ASR(正字轉寫、語音轉寫、發音詞典、環境性別領域低地域標注)、TTS(正字轉寫、發音校對,詞性韻律因素歌曲標注、發音詞典制作)。4.自然語言處理:自然語言處理:OCR標注、詞性標注、情感標注、文本分類聚類正則化泛化、知識圖譜等。數據堂數據堂1.圖像視頻圖像視頻:人臉、表情、姿態、手勢、圖像處理、車牌識別、場景理解、車輛ReID和識別跟蹤等。2.語音語音:方言、多音色、情感語音
55、、歌曲錄制等。3.文本文本:金融QA、轉賬交易醫療引導、評論打分、人機交互、社交媒體等。1.計算機視覺計算機視覺:2D圖像(目標檢測、全景分割等);視頻(視頻打點、信息提?。?;3D點云(2D3D融合、目標追蹤、點云分割)。2.語音工程語音工程:語音轉寫、情緒標注。3.自然語言處理:自然語言處理:文本實體標注、意圖標注、詞性標注。澳鵬澳鵬1.圖片圖片:多人種、多語言OCR、情感、試卷、手勢、票據、動作圖像,街景、駕駛員、建筑物、掃地機器人視角、3D人臉or物體數據等。2.視頻視頻:多人種、自然天氣、面部動作、人行為、道路交通數據等。3.音頻音頻:多語種方言版喚醒詞、自由對話、TTS語音合成、聲紋
56、、車載語音、商務對話信息數據。4.文本文本:實體詞、醫療問答、艙內多語種指令詞等。1.計算機視覺:計算機視覺:多語言2D圖像標注(包含普通目標檢測、語義分割等),3D圖像(立體框)標注,Lidar標注(如點云目標檢測、聯合標注、點云語義分割、點云跟蹤標注等);視頻分類、視頻審核,視頻按規則抽幀再標注;3D點云標注(點云目標檢測、聯合標注、點云語義分割、點云跟蹤標注)。2.語音工程:語音工程:語音切割、轉寫。3.自然語言處理:自然語言處理:文本語義識別、智能客服機器人數據標注。龍貓數據龍貓數據1.計算機視覺計算機視覺:圖像(人物表情、人臉多點、車輛圖像、車輛行進軌跡、特定符號、地圖位置),視頻(
57、車輛行駛10S視頻等),激光雷達和毫米波雷達的3D點云數據。2.語音語音:TTS聲優數據、多場景語音數據。3.文本文本:手多場景文本數據。1.計算機視覺:計算機視覺:點云建圖與4D點云標注、點云合并幀、車道線標注、點云分割追蹤、多幀標注,圖像語義分割、人臉打點、視頻追蹤、。2.語音工程:語音工程:ASR轉寫、TTS標注。3.自然語言處理自然語言處理:多語種文本數據同步標注。匯洲智能匯洲智能-1.計算機視覺:計算機視覺:視頻(追蹤、打點、連續幀);圖像(2D矩形框、語義分割、關鍵點);3D點云標注。2.語音工程:語音工程:ASR轉寫、方言翻譯、小語種標注。3.自然語言處理:文本分類自然語言處理:
58、文本分類OCR轉寫、情感標注、意圖判斷。品牌品牌服務商服務商占比占比55%謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 18 行業深度分析報告/證券研究報告 備注:多模態數據集僅代表能夠同時實現多數據形式的融合標注和跨模態配齊 數據來源:德勤官方公眾號,各公司官網,財通證券研究所 (2)專業的基礎數據服務商具備專業的基礎數據服務商具備產品矩陣產品矩陣和產能和產能的的先發優勢先發優勢,高復刻率標品數據,高復刻率標品數據集進一步擴大產能的先發優勢。集進一步擴大產能的先發優勢。海天瑞聲經過多年發展,具有將近 1500 個成品數據集,標品數量和復賣率行業第一,正向加成,進一步鞏固龍頭優勢,提升行業
59、集中度。表9.基礎數據服務頭部企業產品矩陣和產能的對比 類別類別頭部企業頭部企業數據采集技術矩陣數據采集技術矩陣數據標注技術矩陣數據標注技術矩陣景聯文科技景聯文科技1.圖像圖像:人臉,人體姿態ReID圖像、手勢、掃地機器人視角圖像、街景道路、駕駛員行為采集等。2.語音語音:車載語音,多人對話、多語種多方言語音等。3.文本文本:語句泛化、人機交互文本、收據,多語言OCR數據等。4.運動健康數據體系運動健康數據體系:耳溫、睡眠、心電、心率等。計算機視覺:計算機視覺:2D圖片標注(語義分割、車道線標注、物體識別),3D點云標注(連續幀標注、點云融合、智能標注)標貝科技標貝科技1.計算機視覺:計算機視
60、覺:多人種人像數據、人體表情數據、電梯人體行為數據。2.語音:語音:多語種語音合成數據、語音識別自然對話數據。2.文本:文本:NLU語料、中英文機器翻譯語料、中維平行語料、粵語語料。1.計算機視覺:計算機視覺:4D-BEV標注,3D點云數據(語義分割、點云標注、連續幀標注、2D3D融合),2D圖像(目標檢測、連續幀標注、語義分割、圖片分類,ocr轉寫等)。2.語音:語音:語音實時轉寫、情緒判定、聲紋標注、韻律/詞性/因素/重音/情感標注等。3.自然語言處理:自然語言處理:ocr轉寫、情感判斷、文本清洗、詞性標注、信息提取、語法標注等。曼孚科技曼孚科技1.計算機視覺:計算機視覺:圖像(人像、特定
61、街景、特定物體、手勢等圖像采集),視頻(道路、動作、街景等場景視頻)。2.語音:語音:多語種、多方言語音數據。3.文本:文本:人機交互,知識庫文本數據。1.計算機視覺:計算機視覺:3D點云連續幀、語義分割、關鍵點標注等。2.語音:語音:語音轉錄、語音合成。4.自然語言處理:自然語言處理:ocr轉寫、實體識別、文本分類??萍季揞^科技巨頭占比占比30%百度眾包百度眾包1.計算機視覺:計算機視覺:圖像(人臉圖像采集、百度線下用戶拍攝的商品、汽車、風景等圖像,網頁圖像抓?。?,視頻(人臉、安防等場景視頻,搭載激光雷達和工業相機,可提供跨城市的2D、3D道路數據采集,支持車輛定制化和傳感器改裝)。2.語音
62、:語音:多場景喚醒詞采集、多語種多方言ASR語音數據,TTS語音數據采集。3.文本:文本:網頁文本內容抓取。1.計算機視覺計算機視覺:圖像語音分割、視頻內容提取/分類、3D點云和2D3D融合,視頻連續幀標注。2.語音語音:語音清洗、轉寫、切分、音素標注。3.自然語言處理自然語言處理:文本清洗、分類、富集、OCR轉寫、情感標注等??萍计髽I科技企業占比占比15%類別類別頭部企業頭部企業產品矩陣產品矩陣產能對比產能對比云測數據云測數據標品:標品:部分文本、圖片、音視頻數據集。定制:定制:智能駕駛、家居、安防、金融、零售場景。交付團隊千人規模;團隊管理成熟度高,交付快海天瑞聲海天瑞聲標品:超標品:超1
63、,498 個成品數據集。個成品數據集。NLP數據集302個;計算機視覺數據集155個;智能語音數據集1041個,具有獨家詞典數據集。定制:定制:智能駕駛、家居、教育、安防、物聯網。數據集標品數量行業排名第一;數據集通用和復賣率較高數據堂數據堂標品:超標品:超300個成品數據集。個成品數據集。數據集全覆蓋文本、圖片、音視頻。已有語音識別數據20萬小時,計算機視覺數據800TB,自然語言理解數據20億條。定制:定制:支持智能駕駛、客服、家居、零售、醫療。3D點云分割5萬+幀/周;點云目標檢測10萬+幀/周;點云追蹤10萬+幀/周;融合標注5萬幀/周澳鵬數據澳鵬數據標品:超標品:超400個成品數據集
64、個成品數據集。250+已標注標品數據集,音頻、圖像、測試、情緒和興趣點數據的定制數據集;定制定制:智能駕駛、醫療健康、人體2D建模、智能家居、智慧金融、新零售20多年來交付7500多個機器學習項目;100萬+技能嫻熟的眾包人員;2D圖像標注(視覺障礙物20萬/周;可行駛區域20萬/周;車道線20萬/周);3D點云標注(聯合標注10萬/周;車道線10萬/周;連續幀20萬/周;分割5萬/周)龍貓數據龍貓數據標品:標品:數據集全覆蓋文本、圖片、音視頻。定制定制:智能駕駛、教育金融、家居安防、媒體生活、芯片硬件、高校。截至目前,眾包用戶突破400萬;單日完成百萬量級以上數據樣本任務;承載千萬級別以上樣
65、本的采集匯洲智能匯洲智能標品:標品:數據集全覆蓋文本、圖片、音視頻。定制定制:自動駕駛(艙外)、城市規劃、醫學影像診斷、視頻會議監督、圖像分割等場景。業務覆蓋文字、圖片、視頻和語音等內容的審核和智能標注服務。有望實現多標簽、全方位、立體式內容標注,已完成十億+條內容支撐品牌品牌服務商服務商占比占比55%謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 19 行業深度分析報告/證券研究報告 備注:多模態數據集僅代表能夠同時實現多數據形式的融合標注和跨模態配齊 數據來源:德勤官方公眾號,各公司官網,各公司定期公告,各公司官方公眾號,IDC 數據,愛企查,極客網,財通證券研究所 (3)專業的基礎數據
66、服務商具備規模效應的先發優勢專業的基礎數據服務商具備規模效應的先發優勢。數據預訓練業務同質化較強,下游環節難以具備卡位優勢,當前較為成熟的語音相關業務附加值最高,計算機視覺相關業務毛利率較低,龍頭企業通過規模效應帶來費用率降低,凈盈利超行業中游公司。同時龍頭具備較強資本實力持續投入新技術研發,進一步助力技術領先優勢。圖10.龍頭企業具備顯著規模效應 數據來源:wind、各公司定期公告,財通證券研究所 類別類別頭部企業頭部企業產品矩陣產品矩陣產能對比產能對比景聯文科技景聯文科技標品標品:圖集33個,語音集3個;文本集3條,專業特色海量醫療數據庫(超400TB)、海量題庫(單方向8千萬數據量)。定
67、制定制:智能駕駛、智慧金融、安防、工業、家居、互聯網、醫療。項目經理均具備3-5年行業經驗;1000+全職標注團隊;110+行業采集渠道和采集經驗標貝科技標貝科技標品:將近標品:將近200個成品數據集。個成品數據集。語音合成訓練集9個,包含11國語言和6種方言;37個語音識別數據集;4個計算機視覺數據集;5個NLP數據集;定制:定制:智能駕駛、智慧金融、安防、工業、家居、互聯網、醫療。10萬小時優質數據的儲備經驗。AI自動標注的能力相較于過去的純人工標注,獲取同等數量的數據樣本,AI自動標注的周期至少可以提效70%以上以上曼孚科技曼孚科技標品:標品:數據集全覆蓋文本、圖片、音視頻。定制:定制:
68、智能工業、城市、農業的算法定制。公司自動駕駛實際項目,協助客戶數據處理效率平均可提升4-8倍以上科技巨頭科技巨頭占比占比30%百度眾包百度眾包標品:標品:覆蓋文本、圖像、語音、視頻、3D點云數據集。定制:定制:智慧駕駛、裝備、安防、金融、零售、文娛,主打自動駕駛場景。數據采集:數據采集:計算機視覺(視頻采集5000段/天、自動駕駛道路500公里/天);語言識別(喚醒詞1000人/天,ASR語音100小時/天);自然語義(網頁抓取5000萬/條)數據標注:數據標注:計算機視覺(圖像語義分割10w區/天、視頻內容提取5W條/天、自動駕駛圖像3D點云40w框/天+8000幀/天,2D3D融合10萬框
69、/天);自然語義(情感標注10w條/天)道路采集:道路采集:3D框選28萬框/天;2D分割4000幀/天;2D框選106萬框/天科技企業科技企業占比占比15%64 65 88 116 169 193 238 233 206 263 25%38%25%20%17%5%4%5%7%7%-10%0%10%20%30%40%50%05010015020025030020182019202020212022收入(百萬元)-數據堂收入(百萬元)-海天銷售費率(%)-數據堂銷售費率(%)-海天 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 20 行業深度分析報告/證券研究報告 圖11.龍頭企業具備更強研
70、發優勢 數據來源:數據來源:wind、各各公司定期公告,財通證券研究所公司定期公告,財通證券研究所 伴隨預訓練數據趨向伴隨預訓練數據趨向多模態、合規化、半自動化,多模態、合規化、半自動化,頭部基礎數據服務商頭部基礎數據服務商依靠依靠研發研發優勢,領先享受半自動化標注的紅利,構建資源整合和研發技術的核心壁壘,實優勢,領先享受半自動化標注的紅利,構建資源整合和研發技術的核心壁壘,實現數據和資源閉環,提升對數據集的理解和數據質量的把控,并在經驗、資質等現數據和資源閉環,提升對數據集的理解和數據質量的把控,并在經驗、資質等環節具備合規優勢。我們認為,強者優勢愈發清晰,預訓練數據行業格局開啟重環節具備合
71、規優勢。我們認為,強者優勢愈發清晰,預訓練數據行業格局開啟重塑步伐,行業集中度塑步伐,行業集中度有望有望進一步提升進一步提升。(1)隨著隨著 AI 數據合規監管體系逐漸完善,專業預訓練數據服務商在數據脫敏,采數據合規監管體系逐漸完善,專業預訓練數據服務商在數據脫敏,采集和測繪資質等環節具備競爭優勢,有望受益于行業出清。集和測繪資質等環節具備競爭優勢,有望受益于行業出清。當前三大類頭部公司基本均具備數據安全管理 ISO 系列認證,但針對熱門應用場景智能駕駛的艙外數據采集,企業中只有科技巨頭百度具備甲級測繪資質,因此具備艙外數據的采集權限和高精度電子導航地圖的制備權限。專業數據服務商和科技企業僅頭
72、部部分企業具備乙級測繪資質,實現艙外計算機視覺數據(道路場景、3D 點云等)的采集。(2)多模態預訓練數據標注難度提升,多模態預訓練數據標注難度提升,頭部數據服務商具備單模數據業務經驗和頭部數據服務商具備單模數據業務經驗和跨跨模技術研發的模技術研發的資本優勢,資本優勢,有望切分更多市場份額。有望切分更多市場份額。專業品牌數據服務商中,云測、海天、澳鵬、數據堂均已完全上線多模態跨模態數據集相關產品;科技企業中標貝科技領先突破多模態數據處理技術。根據 1.2 章節所述,多模態數據趨勢下,數據預訓練環節的重要性進一步提升,疊加跨模態數據處理技術難點重重,頭部數據服務商具備一定優勢。13 16 15
73、12 15 27 42 44 61 94 20%24%17%10%9%14%18%19%29%36%0%5%10%15%20%25%30%35%40%010203040506070809010020182019202020212022研發支出(百萬元)-數據堂研發支出(百萬元)-海天研發費率(%)-數據堂研發費率(%)-海天 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 21 行業深度分析報告/證券研究報告 (3)科技巨頭和專業的預訓練數據服務商依靠自身雄厚科技巨頭和專業的預訓練數據服務商依靠自身雄厚的的資本和標注算法研發資本和標注算法研發的的經驗,領先發力半自動化,享受智能經驗,領先發力
74、半自動化,享受智能輔助輔助工具帶來的降本增效的紅利,推動行工具帶來的降本增效的紅利,推動行業逐漸出清,提升行業集中度。業逐漸出清,提升行業集中度。半自動化工具壓縮人工標注的業務空間,行業開啟由勞動密集型向技術密集型演進。當前 AI 自動標注模型需自動對標注元素實現自動識別、檢測、標注,多數小型人力外包公司難以匹配技術要求。自動化具備較強的正向集成效應,如曼孚率先上線針對智能駕駛數據的自動化數據處理平臺,實現 3D、4D 數據的處理,至少可以形成 6-12 個月的技術壁壘期。圖12.3D 點云全環節半自動化提升標注效率 30%以上 數據來源:數據堂公司官網,澳鵬數據公司官網,36 氪,財通證券研
75、究所 標注環節標注環節功能與優勢功能與優勢效率提升精度提升,速度提升默認尺寸對激光雷達照射不到的圖片部分,系統設定默認尺寸值,快速生成默認尺寸的4D框,確定腦補規則地面檢測根據算法計算點云地面坐標,根據地面不同距離,渲染不同顏色,標注人員通過顏色判斷標注物體,減少標注遺漏自動放框自動將3D點云數據框放在地面,極大縮短數據放置時間插值算法標注工具根據標注員手工標注結果通過插值算法自動計算中間幀目標的位置,標注員只需要微調位置即可,助力提升標注效率自動旋轉根據標注框自動預測車輛朝向,減少人工調整時間自動映射支持在點云和圖像之間鼠標位置的自動映射,輔助標注員判定目標 謹請參閱尾頁重要聲明及財通證券股
76、票和行業評級標準 22 行業深度分析報告/證券研究報告 表10.頭部企業多模態、合規化、自動化的全方位對比 備注:備注:1.多模態數據集僅代表能夠同時實現多數據形式的融合標注和跨模態配齊多模態數據集僅代表能夠同時實現多數據形式的融合標注和跨模態配齊。2.甲級測繪資質甲級測繪資質在全國范圍內都可以承攬任務,乙級資質只能在本行政區域內承在全國范圍內都可以承攬任務,乙級資質只能在本行政區域內承攬任務。攬任務。甲級需要配置測繪儀、經緯儀、水準儀、全站儀、甲級需要配置測繪儀、經緯儀、水準儀、全站儀、GPS 等測繪儀器設備等測繪儀器設備,甲級具備電子導航地圖等制作資質資質?;A數據服務商常見測繪信息屬于乙
77、級,甲級具備電子導航地圖等制作資質資質?;A數據服務商常見測繪信息屬于乙級測繪資質涵蓋信息范圍。測繪資質涵蓋信息范圍。數據來源:數據來源:德勤官方公眾號德勤官方公眾號,各公司官網,各公司官網,各各公司定期公告,公司定期公告,各各公司官方公眾號,公司官方公眾號,IDC 數據,數據,億歐網,億歐網,財通證券研究所財通證券研究所 4 智能駕駛智能駕駛助力行業需求長期提升助力行業需求長期提升 4.1 智能智能駕駛有望駕駛有望率先率先釋放釋放預訓練數據預訓練數據的的需求需求 根據根據德勤預測,智能駕駛德勤預測,智能駕駛是是基礎數據服務基礎數據服務行業份額占比行業份額占比最大最大、復合增速最快、復合增速最
78、快的的應應用場景。用場景。疊加疊加預訓練數據需求隨算法迭代和落地車型量產的時間預訓練數據需求隨算法迭代和落地車型量產的時間或將或將呈現周期性呈現周期性收斂收斂,數據需求前置背景下,數據需求前置背景下,智能駕駛場景有望領先智能駕駛場景有望領先釋放釋放預訓練數據服務行業。預訓練數據服務行業。根據德勤預測,智能駕駛應用場景當前為基礎數據服務行業帶來將近 17 億元市場規模,占比整個行業 52%,是大模型垂直領域產業結合占比最大的終端場景。2027類別類別頭部企業頭部企業多模態技術多模態技術自動化平臺自動化平臺安全安全/測繪資質測繪資質云測數據云測數據領先推出激光雷達點云標注工具,實現多模態3D融合標
79、注部分業務實現自動輔助標注:部分業務實現自動輔助標注:圖像分割、點云貼合、OCR轉錄、NLP實體抽取、TTS轉寫、ASR轉錄。乙級測繪資質;乙級測繪資質;ISO27001海天瑞聲海天瑞聲2023年5月,重磅推出基于文本、語音、圖像、視頻的多模態數據集具備自研和具備自研和 API 接入的一體化智能數據處理平臺:接入的一體化智能數據處理平臺:數據處理平臺接入開源大模型,如智能駕駛平臺 DOTS-AD中接入開源的語義分割模型 SAM(Segment Anything Model),并對模型優化升級,有效提升了 2D 語義分割項目中的降本增效能力。乙級測繪資質;乙級測繪資質;ISO9001,ISO I
80、EC27701、27001數據堂數據堂 2023年10月上線多模態圖文數據集自動標注平臺自動標注平臺-數加加數加加Pro,預識別功能借助算法輔助實現人機交,預識別功能借助算法輔助實現人機交互半自動化標注,人均標注效率提升互半自動化標注,人均標注效率提升30%以上。:以上。:滿足3D點云融合標注、圖像像素級分割、語音識別與合成標注、文本實體關系、視頻分割等多種數據類型的標注。乙級測繪資質;乙級測繪資質;ISO9001;ISO2770127001澳鵬數據澳鵬數據2023年攜手reka AI,推進多模態語言模型的創新自主研發的人工智能輔助數據標注平臺,預標注提升標注員效率自主研發的人工智能輔助數據標
81、注平臺,預標注提升標注員效率91.5%:如2D圖像標注,3D點云標注,語音標注和文本標注等,對點、線、框標注,人臉關鍵點標注,語義分割,拉框標注,語音切分轉寫,NER等均有工具套組支持。持所有主要安全認可和質量認證:ISO27001,27701、9001,GDPR,SOC 2 類型 II認證,及 HIPPA 認證龍貓數據龍貓數據-發布自動駕駛領域標注大模型發布自動駕駛領域標注大模型AutopilotGPT:實現AI加速標注,數據可視化:標注結果可在線預覽;訓練結果與標注結果進行精確比較,迅速發現 corner case,快速修改模型乙級測繪資質;乙級測繪資質;ISO9001、信息安全管理體系全
82、認證匯洲智能匯洲智能-自研Enable AI是高效、智能的數據標注系統,提供多種標注工具和流程管理功能,支持各種數據類型和標注任務,幫助企業實現降本增效。ISO900、北京互聯網安全協會理事單位景聯文科技景聯文科技-部分業務實現智能化標注:部分業務實現智能化標注:2D圖像標注(OCR識別、圖像分類、目標檢測、實例分割、物體預識別);3D點云標注(目標檢測、語義分割、智能車道線、地面分割、預識別);語音視頻標注(語音識別、語音文字轉寫、視頻實體跟蹤)ISO9001、27001;EAR、GDPR、信安標委、數據上鏈標貝科技標貝科技具備多模態自有數據集基于基于AI+SaaS的的數據標注平臺數據標注平
83、臺:標貝科技AI自動標注基于大模型強大的泛化能力,實現3D點云、2D圖像等場景下,目標檢測、目標追蹤、車道線識別、可行駛區域識別、圖像分割、點云分割等多個方向的自動化標注乙級測繪資質;乙級測繪資質;ISO 9001、27001、20000、27017、27018、27701曼孚科技曼孚科技-MindFlow SEED數據服務平臺與數據服務平臺與MindFlow AutoLabeling自動標注自動標注平臺:平臺:實現人像分割、ASR語音轉寫、3D點云自動關鍵幀、車輛識別等輔助標注。歷經多代版本更迭,現已在歷經多代版本更迭,現已在3D、4D點云數據處點云數據處理領域,建立起理領域,建立起6-12
84、個月的技術壁壘個月的技術壁壘乙級測繪資質;乙級測繪資質;符合數據安全與數據隱私要求科技巨頭科技巨頭(占比占比30%)百度眾包百度眾包-具備技術領先業內最強的標注算法能力具備技術領先業內最強的標注算法能力甲級測繪資質;甲級測繪資質;符合所有數據安全與數據隱私要求科技企業科技企業(占比(占比15%)品牌服務商品牌服務商(占比(占比55%)謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 23 行業深度分析報告/證券研究報告 年有望達到將近 60 億元規模,2022-2027 五年復合增速 37%,也是下游增長最快的應用場景。智能駕駛的預訓練數據服務需求受智能駕駛算法迭代、新車型量產落地、新車滲智能
85、駕駛的預訓練數據服務需求受智能駕駛算法迭代、新車型量產落地、新車滲透率等透率等多重多重因素因素的的拉動。拉動。(1)智能駕駛算法迭代帶來功能性拓展,L2-L4 逐步完成輔助駕駛-適時接管-完全自動的演變。算法功能性拓展帶來場景復雜程度的提升,場景端數據的采集標注需求隨之指數級上升。單個 L2+算法模型的成熟需千萬級的預訓練標注數據,L4 算法模型的成熟需千億級的預訓練標注數據。綜上所述,算法迭代帶來智能駕駛級別提升,預訓練數據的數量需求和復雜度同步提升。(2)車型影響傳感器的豐富程度,不同車型,不同傳感器帶來不同的硬件配置方案,影響預訓練數據解決方案的數據規模。量產進度和滲透率的提升帶來車輛數
86、量的提升,車輛數量直接影響預訓練數據需求基數的大小。圖13.百度自動駕駛數據采集定制車 數據來源:百度數據眾包官網,財通證券研究所 預訓練數據需求前置預訓練數據需求前置于于車型量產,車型量產,AI 預訓練數據需求的預訓練數據需求的高增高增隨算法迭代和落地車隨算法迭代和落地車型量產的時間呈現周期性收斂,型量產的時間呈現周期性收斂,考慮數據處理位于算法開發產業鏈上游,數據需考慮數據處理位于算法開發產業鏈上游,數據需求前置于終端場景,求前置于終端場景,智能駕駛場景有望領先智能駕駛場景有望領先釋放釋放預訓練數據服務行業。預訓練數據服務行業。根據德勤根據德勤預測,預測,2027 年智能駕駛帶來的年智能駕
87、駛帶來的 AI 預訓練數據服務需求有望達到預訓練數據服務需求有望達到 74.9 億元,億元,2022-2027 五年五年復合增速為復合增速為 37%。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 24 行業深度分析報告/證券研究報告 2022 年自動駕駛處于研發并推進 L2+級別的自動駕駛落地,2025 年有望實現 L3級別自動駕駛的商業應用,2030 年有望實現 L4 級別自動駕駛的逐步落地。因此,目前將繼續受益于 L2+向 L3 技術迭代帶來的數據需求放量,2025 年之后基礎數據需求將開始相對收斂。2027 年開始 L3+向 L4 升級迭代,算法迭代提升應用場景的復雜性,AI 預訓練
88、數據處理需求指數級上升,2027 年需求或將開始新一輪逐步釋放。圖14.車型迭代周期影響預訓練數據服務需求釋放周期 數據來源:德勤官方公眾號,財通證券研究所 4.2 切入切入一站式一站式和和自動自動化化的的企業企業領先受益領先受益 智能駕駛預訓練智能駕駛預訓練數據服務的核心競爭力主要體現在平臺能力、數據一站式、自動數據服務的核心競爭力主要體現在平臺能力、數據一站式、自動化程度三個方面。平臺能力是數據標注能力的基石化程度三個方面。平臺能力是數據標注能力的基石,4D-BEV 標注已經是大勢所標注已經是大勢所趨。趨。數據閉環助力安全數據閉環助力安全提升,自動化助力提升,自動化助力增效、降本增效、降本
89、,率先切入的率先切入的企業企業領先領先受益。受益。平臺能力是數據標注能力的基石。平臺能力是數據標注能力的基石。平臺功能的豐富度是評價平臺水平的核心要素,目前同時具備 2D 標注、3D 點云標注、2D-3D 聯合標注以及 4DBVE 標注的供應商比較有限,能以最快速度覆蓋更多功能需求的數據服務商將能更好掌握智能駕駛數據市場的主動權以及議價能力。其中,其中,在自動駕駛領域中在自動駕駛領域中,4D-BEV 標注已經是大勢所趨,用于訓練和改進自動標注已經是大勢所趨,用于訓練和改進自動駕駛系統,進一步提高模型的準確性。駕駛系統,進一步提高模型的準確性。4D-BEV 標注在 3D 空間中以時間作為第四 謹
90、請參閱尾頁重要聲明及財通證券股票和行業評級標準 25 行業深度分析報告/證券研究報告 個維度進行標注,通過精準地跟蹤和記錄動態對象的運動軌跡、姿勢變化以及速度等信息,全面理解和分析動態對象在連續的時間序列中的變化,提升自動駕駛系統的感知、決策和控制能力。圖15.2D-3D 點云-框三數據標注操作視圖 圖16.4D BEV 數據目標真值的視圖 數據來源:百度數據眾包公眾號、財通證券研究所 數據來源:標貝科技官網、財通證券研究所 自動駕駛中的數據閉環,是指算法研發由 case-driven 轉向 data-driven 的核心步驟,數據閉環最核心的優勢為安全、增效、降本。根據億歐統計,2023 年
91、數據服務商中,百度智能云,云測數據、曼孚科技、澳鵬數據、景聯文科技、海天瑞聲等均已經成功實現智能駕駛數據的一站式閉環。圖17.數據服務一站式閉環全環節 數據來源:ADS 智庫,財通證券研究所 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 26 行業深度分析報告/證券研究報告 智能駕駛預訓練數據服務的核心競爭力主要體現在平臺能力、數據一站式、自動化程度三個方面。根據極客網評選的 2023 智能駕駛數據服務商榜單,當前針對智能駕駛數據采集,百度數據眾包具備唯一甲級測繪資質,并具備獨家定制化采集車隊。針對數據標注,曼孚科技、澳鵬數據、海天已經上線 4D 點云標注業務,多數具備測繪資質和一站式數據
92、閉環能力,頭部數據服務商已經可以匹配 L2-L3 算法,其中百度遙遙領先,已經率先突破 L4 算法的數據處理技術。表11.針對智能駕駛場景,頭部企業數據采集、標注技術對比 備注:1.僅選取智能駕駛領域的科技巨頭和頭部數據服務商(排名數據參照極客網 2022 榜單);2.此處智能駕駛針對艙內(人機交互)和艙外數據(自動駕駛);3.表格信息選取數據采集與標注的較前沿亮點技術能力,不能概括公司所有技術矩陣內容。數據來源:各公司官網,各公司官方微信公眾號,財通證券研究所 排名排名企業企業屬性屬性智駕數據采集智駕數據采集智駕數據標注智駕數據標注無冕之王百度眾包科技巨頭國內最專業、規模最大的采集車隊;擁有
93、64/40線激光雷達、自研相機(9個)、長短距毫米波雷達(6個)等多傳感器組合;支持定制化的車輛、傳感器改裝國內最強的數據標注能力,覆蓋國內最強的數據標注能力,覆蓋2D/3D超過10種不同類型的標注任務,累計在自動駕駛領域標注2D/3D數據1億幀以上1曼孚數據科技企業街景圖像采集、人機交互本文本采集、道路視頻、街景視頻數據采集支持自動駕駛等場景下支持自動駕駛等場景下2D、3D、4D全類別標注,全類別標注,如2/3D融合、點云分割、點云時序疊幀、BEV標注等;針對4D點云標注場景下大規模點云適配渲染問題,曼孚科技自研地圖分片與LOD大規模點云渲染技術,4D點云車道線與4D點云分割場景均可實現低配
94、置單幀數億級點云平穩運行2澳鵬數據品牌服務商DMS駕駛員行為,艙內語音交互數據等;駕駛員行為,艙內語音交互數據等;支持激光雷達(道路),毫米波雷達(道路),雙目支持激光雷達(道路),毫米波雷達(道路),雙目相機(相機(IR+RGB),魚眼相機),魚眼相機MatrixGo數據標注平臺全面支持自動駕駛領域各維度數據標注平臺全面支持自動駕駛領域各維度2D/3D/4D點云或圖像數據標注:點云或圖像數據標注:訓練機器學習模型針對包括 LiDAR 和點云標注在內的各種數據源做出決策,支持支持障礙物標注、連續幀跟蹤、多傳感器融合標注、3D云語義分割、超大規模流暢操作3海天瑞聲品牌服務商艙內駕駛員表情、動作、
95、語言、多模態交互數據進行采集;艙外行車記錄儀視頻,車牌,車型,車輛特征,違規駕駛圖片,魚眼相機拍攝泊車位邊線數據,人車目標2D數據,地面交通標志圖像等數據DOTS-AD自動駕駛平臺,支持自動駕駛平臺,支持2D/3D/4D 點云或圖像數據標注,點云或圖像數據標注,實現不同場景的輔助標注4數據堂品牌服務商多傳感器融合采集多傳感器融合采集:配備含128線激光雷達在內的多種傳感器的自采車;支持多種激光雷達、毫米波雷達、攝像頭、慣導采集設備;艙內車載語音、駕乘行為;艙外多傳感器融合數據、3D點云數據融合多傳感器、多時空數據,支持融合多傳感器、多時空數據,支持2D/3D 點云或圖像數據標注:點云或圖像數據
96、標注:標注駕駛艙多語種語音數據、駕乘人員人臉、表情、行為圖像數據;3D點云目標檢測、追蹤、語義or全景分割5云測數據品牌服務商覆蓋智能駕駛主流應用場景,覆蓋智能駕駛主流應用場景,擁有DMS與ADAS場景搭建采集經驗:危險駕駛數據、路況信息、車輛信息、3D點云數據支持支持2D/3D點云或圖像數據標注:點云或圖像數據標注:支持圖片通用拉框、車道線標注、駕駛員面部標注、3D點云標注、2D3D融合、全景語義分割6龍貓數據品牌服務商兼容多種類型傳感器:兼容多種類型傳感器:禾賽、圖達通、大疆等多種激光雷達??芍С帜繕藱z測、追蹤;車道線識別;駕駛區域識別;圖像分割;點云分割支持支持2D/3D 點云或圖像數據
97、標注:點云或圖像數據標注:3D點云、實例分割、視頻目標追蹤、3Dbox、車道線、物體識別;針對車輛、行進軌跡、特定符號、特殊場景、地圖位置進行標注7標貝科技科技企業-支持支持2D/3D/4D 點云或圖像數據標注:點云或圖像數據標注:4D-BEV標注,3D點云數據(語義分割、點云標注、連續幀標注、2D3D融合),2D圖像(目標檢測、連續幀標注、語義分割、圖片分類,ocr轉寫等9景聯文科技科技企業艙內人臉數據、車載語音數據、對話、手勢支持支持2D/3D 點云或圖像數據標注點云或圖像數據標注:3D點云標注(目標檢測、語義分割、連續幀標注),2D圖像標注、2D/3D融合標注 謹請參閱尾頁重要聲明及財通
98、證券股票和行業評級標準 27 行業深度分析報告/證券研究報告 表12.針對智能駕駛場景,數據服務商優勢對比 備注:1.僅選取智能駕駛領域的科技巨頭和頭部數據服務商(排名數據參照極客網 2022 榜單)。2.企業分類方法為:如數據眾包標注等模式起家為品牌服務商,如算法平臺切入智能駕駛等業務為科技企業。3.此處客戶為頭部或典型智能駕駛相關公司,不能概括公司所有客戶信息。數據來源:各公司官網,各公司官方微信公眾號,各公司定期公告,IDC 數據,高工智能汽車,財通證券研究所 5 AI 應用導入,數據訓練服務先行應用導入,數據訓練服務先行 5.1 海天瑞聲海天瑞聲:AI 基礎數據服務行業的龍頭基礎數據服
99、務行業的龍頭 AI 大模型垂直領域的產業結合大模型垂直領域的產業結合,拉動,拉動預訓練數據標注需求快速提升預訓練數據標注需求快速提升。本輪大模型浪潮發展進入長尾階段,如何依靠大模型賦能千行百業成為重點,模型進入垂直領域的產業結合帶來了數據標注需求提升。由 4.1 章節可知,根據德勤統計,2022年全中國基礎數據服務市場需求約為45億元,并預計到2027年增長到160億元,2022-2027 五年復合增速 28.9%。海天瑞聲作為國內數據預訓練數據龍頭,有望領先受益于行業增量。公司公司業務布局成熟,業務布局成熟,深度深度綁定綁定客戶客戶資源資源,持續布局海外市場持續布局海外市場。公司向全行業提供
100、多語言、跨領域、跨模態的 AI 數據服務,涵蓋智能語音、計算機視覺、自然語言等多個核心領域。公司深耕行業近 20 年,與阿里巴巴、騰訊、百度、科大訊飛、??低?、字節跳動、微軟、亞馬遜、三星、中國科學院、清華大學等全球 810 家排名排名企業企業屬性屬性數據 閉環數據 閉環測繪 資質測繪 資質客戶客戶無冕 之王百度眾包科技巨頭是甲級1.自動駕駛算法解決方案供應商;2 整車自研廠商(支持(支持L4級別的開發)級別的開發);3 第三方評測機構(如拍照考核資質的數據)東軟集團、奔馳、小鵬、蔚來等1曼孚數據科技企業是乙級專注智能駕駛專注智能駕駛上汽集團、長安汽車、理想汽車、長城汽車、吉利汽車、中國一汽
101、、哪吒汽車、禾多科技、零跑汽車、安途AutoX、毫末智行、摯途、大疆、吉利汽車控股子公司ECARX、博世未來、英偉達、四維圖新、智駕科技、阿里、快手智算、美團等2澳鵬數據品牌服務商是-OEM、Tire1、硬件商、等不同緯度的自動駕駛客戶;、硬件商、等不同緯度的自動駕駛客戶;世界級別世界級別AI用戶:用戶:微軟、亞馬遜、奧多比、AI2、西門子、nextdoor、吉利汽車子公司ECARX(億咖通科技),海外地圖龍頭HERE等。3海天瑞聲品牌服務商是乙級覆蓋傳統車企、造車新勢力、頭部自動駕駛技術公司:覆蓋傳統車企、造車新勢力、頭部自動駕駛技術公司:百度、三星、清華、中科院、??低?、騰訊、云知聲、阿
102、里、微軟、商湯、科大訊飛等70+客戶4數據堂品牌服務商-乙級國內一線車企:國內一線車企:長城、上汽、小鵬、蔚來、宇通等5云測數據品牌服務商是乙級蔚來、小鵬、Cyngn、吉利汽車、奔馳、寶馬、AutoX、小馬智行等6龍貓數據品牌服務商-乙級百度、騰訊科技、中汽數據、理想、德賽西威、廣汽集團、地平線、四維圖新、國汽智聯、長城汽車、長安汽車、蘑菇車聯、國汽智控、輕舟智航等18家深度合作7標貝科技科技企業-乙級吉利汽車、小鵬、蔚來、理想、斑馬智行等知名車企9景聯文科技科技企業是-已進入市面上80%以上的科技企業、獨角獸、上市公司的供應商庫內 謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 28 行業
103、深度分析報告/證券研究報告 科技互聯網、社交、IoT、智能駕駛等領域的主流企業建立了深度合作,客戶規模和質量遠超同業。同時公司前瞻性擴展海外業務,截至 2023H1 海外業務占比39.12%,強勢對標海外龍頭公司。公司公司智能語音業務壁壘深厚,同時智能語音業務壁壘深厚,同時前瞻性布局前瞻性布局智能駕駛智能駕駛數據業務,搶占先發優勢數據業務,搶占先發優勢。(1)公司智能語音業務占比語音識別、語音合成兩大業務模塊,2023H1 智能語音業務收入 0.47 億元,業務占比 63.58%,深耕多年,與客戶建立長期穩定的合作,在語音訓練數據領域建立深厚的技術和客戶壁壘。未來隨著虛擬人、智能駕駛艙內交互等
104、終端應用場景的發展,語音數據標注和處理的需求加速成長。圖18.海天瑞聲 2023H1 海外業務占比 39%數據來源:wind、公司定期公告,財通證券研究所 圖19.海天瑞聲 2022 年智能語音業務占比 64%數據來源:wind、公司定期公告,財通證券研究所 61%39%國內國外25.92%63.58%10.46%0.04%0.00%10.00%20.00%30.00%40.00%50.00%60.00%70.00%05101520253035404550計算機視覺智能語音自然語言應用服務收入(百萬元)占比(%)謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 29 行業深度分析報告/證券研究
105、報告(2)針對下游高景氣度的智能駕駛應用場景,公司從 2021 年開始組建智能駕駛團隊;2022 年開始集中投入建設相關數據服務能力,2022 年 6 月發布第三代智能駕駛標注平臺,平臺支持 3D 點云標注、3D 點云連續幀標注、3D 連續幀與 2D 聯合的標注和 3D 語義分割等;2023 年 4 月正式推出專為自動駕駛場景設計的全棧式數據標注平臺“DOTS-AD 自動駕駛標注平臺”,平臺支持多維度、全方位的自動駕駛標注任務,數據標注效率提升高達 8 倍,可支持萬人同時作業。根據 4.2 章節所述,數據需求前置,智能駕駛有望領先釋放數據服務行業需求,海天智能標注平臺技術優勢顯著,有望領先切分
106、智能駕駛帶來的增量空間。5.2 匯洲智能匯洲智能:中國版:中國版 Scale AI 內容審核內容審核業務業務起家起家,緊跟緊跟 AI 風潮切入智能數據標注風潮切入智能數據標注,深度布局深度布局智能駕駛智能駕駛領域領域。公司目前與小紅書等多家互聯網廠商建立深厚合作關系,在各個領域積累大批重量級客戶。實施實施半自動化標注半自動化標注的的發展發展戰略,當前自動標注大模型研發進展順利戰略,當前自動標注大模型研發進展順利。公司縱向緊跟 AI 大模型浪潮,公司立足數據標注業務,當前發力半自動化標注,大幅提高數據標注業務效率,同時沉淀可復用的 AI 專業數據集。公司積極同時響應行業自動化標注趨勢,搭建 En
107、able AI 數據標注平臺,支持 3D 點云標注、2D 語義分割、物體識別等數據標注業務,強化在自動駕駛、機器人、城市規劃等大模型熱門應用場景的方案解決能力。6 風險提示風險提示 1.基礎數據服務商自動標注研發進展不及預期基礎數據服務商自動標注研發進展不及預期:自動標注平臺研發進度受到資金、人員、項目管理等多方位因素影響,存在未能按項目原計劃推進進度的風險。2.智能駕駛算法更新智能駕駛算法更新迭代迭代不及預期不及預期:智能駕駛算法迭代進程受到算法設計、模型訓練效果、整車量產需求等多因素影響,新一代算法迭代進度存在不及預期的風險。3.新車型落地滲透率不及預期新車型落地滲透率不及預期:新車型滲透
108、率受到當前滲透率、用戶對新車型接受度、汽車行業政策等多方位影響,因此,新車型量產落地后滲透率存在不及預期的風險。謹請參閱尾頁重要聲明及財通證券股票和行業評級標準 30 行業深度分析報告/證券研究報告 分析師承諾分析師承諾 作者具有中國證券業協會授予的證券投資咨詢執業資格,并注冊為證券分析師,具備專業勝任能力,保證報告所采用的數據均來自合規渠道,分析邏輯基于作者的職業理解。本報告清晰地反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響,作者也不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。資質聲明資質聲明 財通證券股份有限公司具備中國證券監督管理委員會許
109、可的證券投資咨詢業務資格。公司評級公司評級 以報告發布日后 6 個月內,證券相對于市場基準指數的漲跌幅為標準:買入:相對同期相關證券市場代表性指數漲幅大于 10%;增持:相對同期相關證券市場代表性指數漲幅在 5%10%之間;中性:相對同期相關證券市場代表性指數漲幅在-5%5%之間;減持:相對同期相關證券市場代表性指數漲幅小于-5%;無評級:由于我們無法獲取必要的資料,或者公司面臨無法預見結果的重大不確定性事件,或者其他原因,致使我們無法給出明確的投資評級。A 股市場代表性指數以滬深 300 指數為基準;香港市場代表性指數以恒生指數為基準;美國市場代表性指數以標普 500 指數為基準。行業評級行
110、業評級 以報告發布日后 6 個月內,行業相對于市場基準指數的漲跌幅為標準:看好:相對表現優于同期相關證券市場代表性指數;中性:相對表現與同期相關證券市場代表性指數持平;看淡:相對表現弱于同期相關證券市場代表性指數。A 股市場代表性指數以滬深 300 指數為基準;香港市場代表性指數以恒生指數為基準;美國市場代表性指數以標普 500 指數為基準。免責聲明免責聲明 本報告僅供財通證券股份有限公司的客戶使用。本公司不會因接收人收到本報告而視其為本公司的當然客戶。本報告的信息來源于已公開的資料,本公司不保證該等信息的準確性、完整性。本報告所載的資料、工具、意見及推測只提供給客戶作參考之用,并非作為或被視
111、為出售或購買證券或其他投資標的邀請或向他人作出邀請。本報告所載的資料、意見及推測僅反映本公司于發布本報告當日的判斷,本報告所指的證券或投資標的價格、價值及投資收入可能會波動。在不同時期,本公司可發出與本報告所載資料、意見及推測不一致的報告。本公司通過信息隔離墻對可能存在利益沖突的業務部門或關聯機構之間的信息流動進行控制。因此,客戶應注意,在法律許可的情況下,本公司及其所屬關聯機構可能會持有報告中提到的公司所發行的證券或期權并進行證券或期權交易,也可能為這些公司提供或者爭取提供投資銀行、財務顧問或者金融產品等相關服務。在法律許可的情況下,本公司的員工可能擔任本報告所提到的公司的董事。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。在任何情況下,本報告中的信息或所表述的意見均不構成對任何人的投資建議。在任何情況下,本公司不對任何人使用本報告中的任何內容所引致的任何損失負任何責任。本報告僅作為客戶作出投資決策和公司投資顧問為客戶提供投資建議的參考??蛻魬敧毩⒆鞒鐾顿Y決策,而基于本報告作出任何投資決定或就本報告要求任何解釋前應咨詢所在證券機構投資顧問和服務人員的意見;本報告的版權歸本公司所有,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用,或再次分發給任何其他人,或以任何侵犯本公司版權的其他方式使用。信息披露信息披露