《艾瑞咨詢:2024年中國AI基礎數據服務研究報告(28頁).pdf》由會員分享,可在線閱讀,更多相關《艾瑞咨詢:2024年中國AI基礎數據服務研究報告(28頁).pdf(28頁珍藏版)》請在三個皮匠報告上搜索。
1、2024 iResearch Inc.2024年中國AI基礎數據服務研究報告2目 錄CONTENTS01AI基礎數據服務行業概述02AI基礎數據服務市場研究03AI基礎數據服務廠商案例04AI基礎數據服務行業面對的挑戰與機遇3AI基礎數據服務行業概述0142024.7 iResearch I2024.7 iResearch IAI產業整體進展在過去幾年里,大眾已見識到GPT、BERT等大語言模型在自然語言理解和生成方面的卓越能力。相比單一模態的大模型,多模態大模型能夠提供更自然的人機交互方式,具備更全面和準確的認知能力,并在不同情境下表現出更高的魯棒性,從而賦能更豐富和全面的AI應用。因此,多
2、模態技術已成為諸多大模型廠商的研發重點。此外,長文本處理能力的提升,使大模型在理解和生成復雜文檔方面表現更佳,能夠更好地支持多主題和多步驟的推理任務;通過知識蒸餾、模型剪枝和混合精度訓練等技術,大模型得以小型化,減少了計算資源需求,提高了推理效率,使大模型在資源受限設備上高效運行,提升了響應速度和用戶體驗,保護了用戶的數據隱私。聚焦國內AI商業化市場,大模型商業化進程加速,API市場競爭激烈,價格戰頻現,但同時也反映出供應商間能力同質化的問題,亟需破局;另一方面,央國企憑借較好的數字化基礎、豐富的數據資源及業務場景、相對充足的科技投入預算,成為現階段國內大模型項目建設的主力軍,推動了大模型在中
3、國AI產業的商業化落地。來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。全球AI產品技術進展中國AI商業化落地進展多模態、長文本、大模型小型化成為熱點研究方向多模態概述:多模態大模型能夠同時處理和理解包括文本、音頻、圖像和視頻在內的多種數據類型,這使得它們能夠提供更自然的人機交互方式,具備更全面和準確的認知能力,并且在不同情境下表現出更高的魯棒性,從而賦能更豐富和全面的AI應用案例:2024年5月,OpenAI推出GPT-4o,可對音頻、視頻和文本進行實時推理;2024年5月,Google演示了多模態AI助手Astra長文本概述:長文本可支持模型理解和生成更復雜的文檔、
4、報告、小說等內容,能夠更有效地進行知識管理和信息檢索,提升了模型對于上下文理解的連貫性,進而更好地實現多主題、多步驟的復雜推理任務案例:2024年3月,月之暗面宣布旗下大模型產品Kimi開啟200萬字無損上下文內測,其后阿里、百度等大模型廠商均宣布相關大模型產品的長文本能力升級規劃;2024年4月,Google、Meta等機構的研究人員先后提出Infini-attention、Megalodon等無限長文本方法大模型小型化概述:通過知識蒸餾、模型剪枝、混合精度訓練等方法,“大模型小型化”相關技術可減少模型參數并降低計算資源需求,提高推理效率,使大模型可在端邊等資源受限的設備上高效運行,降低能耗
5、,提升了響應速度和用戶體驗,還增強了數據隱私保護,未來可能催生更多的創新型智能終端案例:2024年5月,微軟表示Windows將附帶40多個端側AI模型,包括可用于搜索、實時翻譯、圖像生成和處理等任務的小語言模型Phi-Silica;2024年6月,蘋果推出Apple Intelligence個人智能系統,內置3B端側模型,可支持摘要、改寫、問答等功能API調用市場卷起價格戰價格戰的積極意義擴大客戶量及使用頻次,促使大模型技術在國內更快普及,加速創新型應用的誕生;促進供應商不斷優化模型及計算架構,降低模型推理成本;競爭加速產業分層,較少社會整體資源消耗為爭奪大模型客戶流量及背后云資源市場,24
6、年上半年云廠商、大模型廠商等相繼調整API產品定價,低價甚至免費供應價格戰的另一面為大模型產品技術壁壘的薄弱盡管大模型相關產品技術仍在迭代,但國內大模型尤其以API方式提供標準化大模型服務的各供應商的產品能力尚未形成較大代際差異;供應商需加速技術及產品差異化建設,獲取足夠的利潤,產業才能健康、可持續的發展央國企引領大模型項目建設2024年上半年中國大模型相關項目中標統計據智能超參數統計,2024年1-6月中國大模型相關項目中標數量達237個,前5個月披露的項目金額合計已過2023年;行業分布上,電信(47個)、能源(42個)位居1-6月的項目數量頭兩名,其次為教育、金融、政務等行業,各行業中的
7、央國企均在積極推動大模型項目建設央國企對大模型的建設投入較多,與其有較好的數字化基礎、豐富的數據資源及業務場景、相對充足的科技投入預算相關52024.7 iResearch I2024.7 iResearch I數據、算法、算力是構建AI的三大要素在人工智能領域,數據、算法和算力是構建AI系統的三大核心要素,三者的協同使現代AI技術實現了從理論到應用的飛躍。數據是AI的基礎,大量高質量的數據不僅能夠提高現有模型的準確率,還能促進模型的優化和創新。以ImageNet數據集為例,該數據集及相關挑戰賽推動了計算機視覺算法的快速發展,2017年是挑戰賽的最后一年,物體分類冠軍的準確率在7年時間里從71
8、.8%上升到97.3%。近年來,Transformer等預訓練大模型在語言理解及生成等領域表現出色,大模型背后的Scaling Law(規模定律)進一步揭示了模型性能與數據量、算力之間的關系,強化了數據在提升AI表現中的關鍵作用。來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。構建AI系統的三大核心要素:數據、算法、算力算法數據算力算法 是處理信息、提取特征、進行預測的邏輯框架深度學習的興起,CNN、Transformer等模型的迭代,極大地推動了圖像識別、語義理解、文本生成等AI任務的進步算力 支持算法處理龐大和復雜的數據集GPU、TPU等AI芯片的發展,使得研究人員
9、能夠探索更深、更寬的網絡結構,訓練更強大的模型,并加速模型的推理速度。硬件的進步直接影響到AI模型的訓練效率及規?;瘧玫目尚行?,從而不斷拓展AI的邊界數據 是模型學習和適應不同任務的基石高質量的數據能夠幫助模型更好地理解現實世界,并做出更精準的預測;反之,即使是最先進的算法,也無法從劣質的數據中獲得有效的洞察AI高質量數據推動AI系統的發展進步ImageNet數據集的成功,以及大模型的Scaling Law的發現,都證明著高質量數據對于AI發展的巨大推動ImageNet見證CV算法在大規模數據集上的性能提升Scaling Law進一步揭示數據對于提升模型性能的關鍵作用2009年6月,李飛飛團
10、隊完成ImageNet初始版本,共有1500萬張圖片,涵蓋了 2.2 萬個不同類別,這些圖片篩選自近10億張候選圖片,并由來自167個國家的4.8萬多名全球貢獻者進行了標注2012年,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton共同開發的AlexNet在挑戰賽上以超過第二名10個百分點的成績在奪冠,深度學習迎來學術探索與工業應用的熱潮2017年是挑戰賽的最后一年,物體分類冠軍的準確率在7年時間里從71.8上升到97.3,超越了人類的物體分類水平OpenAI研究團隊于2020年發表的論文Scaling laws for neural langua
11、ge models中,系統地探討了語言模型性能與模型大小、數據集大小和計算資源之間的關系。研究發現,模型的性能(如損失函數值)與這些因素之間存在穩定的冪律關系,即模型的性能會隨著數據量、模型規模和計算量的增加而提升現階段,諸多大模型的研發仍在遵循Scaling Law的發展方向 今年2月,由ServiceNow、Hugging Face 和 NVIDIA聯合發布的用于代碼生成的StarCoder2,其數據集規模相比v1大7倍,實現了更準確的上下文感知預測 今年4月,Meta推出Llama3,其訓練數據集超過15T token(是Llama2的7倍),可支持8K的上下文長度(是Llama2的2倍
12、),在MMLU、GPQA、HumanEval等多項基準上成績優異數據、算法、算力的協同促使現代AI技術實現了從理論到應用的飛躍62024.7 iResearch I2024.7 iResearch I來源:艾瑞咨詢研究院自主研究及繪制。來源:LXT-The Path to Al Maturity 2024AI基礎數據服務是AI產業發展的關鍵支撐加速高質量數據的獲取與標注,推動AI算法的創新與持續優化根據AI基礎數據服務廠商LXT對322家有AI項目經驗的美國企業的調研,訓練數據的資金投入占這些企業的AI整體建設投入的15%,61%的企業認為未來2到5年對數據的需求量將會增加,62%的企業認為數
13、據質量比數據量更為重要。LXT的調研結果揭示了企業在AI建設過程中對高質量數據的迫切需求。鑒于AI基礎數據服務廠商在高效提供高質量數據集方面的專業能力,它們已成為AI研發企業的重要合作伙伴,AI基礎數據服務已是推動AI產業發展的關鍵支撐。AI基礎數據服務廠商對AI算法研發企業的幫助企業人工智能建設的預算分配情況推動算法的創新與持續優化 AI基礎數據服務廠商提供的標準數據集使企業能夠迅速開展模型訓練,而定制化數據集則助力企業針對特定應用場景優化算法性能 不僅縮短了AI研發周期,還顯著提升了AI應用的性能和效果,激發了企業在AI領域的創新潛力加速數據獲取與標注 AI算法的訓練對數據的需求量巨大,且
14、對數據的質量和精確度有著嚴格的要求 AI基礎數據服務廠商提供的專業產品與服務能夠助力AI研發企業迅速獲得所需的高質量標注數據確保數據的高標準質量 數據質量對AI算法的性能有直接影響 AI基礎數據服務廠商依托專業的標注團隊和行業領先的標注工具,確保了數據的高標準質量,為算法的精度和可靠性奠定了堅實的基礎,幫助企業打造高性能的AI方案17%15%12%11%11%10%10%9%5%AI戰略訓練數據硬件設備合規管理軟件產品開發人才招聘數據分析其他61%36%3%增長保持現狀減少62.0%38%數據質量更重要數據量更重要企業未來25年的訓練數據需求情況數據量與數據質量的重要性比較72024.7 iR
15、esearch I2024.7 iResearch I來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。AI基礎數據服務廠商及主要產品服務介紹標準數據集、定制數據集、配套產品工具服務等三大產品服務AI基礎數據服務廠商是專注于為各行業的AI算法訓練與調優提供基礎數據產品服務的公司。這些公司通過提供標準數據集、定制數據集和配套產品工具服務,支持互聯網、大模型、智能駕駛等各領域的AI技術發展。數據集按內容格式可分為文本、圖像、視頻、語音等類型,核心生產流程主要包括方案設計、數據采集、數據清洗、數據標注和數據質檢等五個關鍵環節。標準數據集是由數據服務廠商研發并可多次銷售的數據集;
16、定制數據集是依據客戶需求制作特定數據集,數據的知識產權歸客戶所有;配套產品工具服務包括標注工具、實訓平臺及AI模型評測等軟硬件工具服務,用于滿足高效標注數據、培訓數據標注、評估AI能力效果等不同層次的客戶需求,輔助和延展數據服務廠商的相關業務。AI數據數據服務廠商的主要產品服務數據集的核心生產流程標準數據集配套產品工具服務包括標注工具、實訓平臺及AI模型評測等軟硬件工具服務,輔助和延展數據服務廠商的相關業務定制數據集由數據服務廠商研發并可多次銷售的數據集依據客戶需求制作特定數據集,數據的知識產權歸客戶所有根據設計好的數據體系標準,使用各類硬件設備、數據采集系統或網絡爬蟲等工具,獲取滿足需求的原
17、始數據源對采集到的原始數據進行處理,去除或補全缺失數據,修改或刪除格式錯誤、內容錯誤和邏輯錯誤的數據,去除無用或無效的數據借助語言語音預識別、圖像邊界檢測等自動化或半自動化工具,通過人機協作高效完成數據標注基于自動化質檢及多標注員交叉驗證,針對標注數據進行一致性檢查、完整性檢查、準確性檢查、重復性檢查等,糾錯并反饋檢測報告,是確保數據質量的重要環節客戶需求溝通,設計匹配客戶算法模型需求的數據采集、清洗、標注及質檢的數據服務流程及方式方法方案設計數據采集數據清洗數據質檢數據標注82024.7 iResearch I典型服務場景通用大模型(1/2)數據量更大、維度更加多元,標注方式及質量評判標準也
18、更為復雜多樣算法模型從理論到實踐的應用過程依賴于大量的訓練數據。訓練數據越多、越完整、質量越高,模型推理的結果就越可靠。在本報告的討論中,傳統AI泛指Transformer架構出現之前的AI架構,參數量通常相對較小,大模型架構則以Transformer為代表。作為應用大模型架構的代表,ChatGPT在2022年11月上線以來,掀起了AI乃至社會經濟各領域對大模型的研討與應用的熱潮。與傳統AI相似,大模型依然需要大量優質數據,但其所需數據量更大,數據維度更加多元,標注方式及質量評判標準也更為復雜多樣。來源:艾瑞咨詢研究院自主研究及繪制。對比傳統AI模型,大模型對數據集的需求差異大模型傳統AI模型
19、傳統AI模型由于參數量和復雜度的限制,能夠吸收利用的數據量相對有限,過多的數據不僅無法有效利用,反而可能導致過擬合等問題以計算機視覺的經典模型ResNet為例,其在2015年的ImageNet視覺競賽中以3.6%的錯誤率奪得第一名,而其所用的ImageNet數據集有近150萬張圖像,總大小約150GB數據需求量更大大模型通常需要更大量的數據才能訓練出良好的性能,大模型原始訓練數據的大小一般為TB至數百TB,但其訓練首先需將文本等原始數據token化今年4月開源的Llama3的訓練數據集超過15T token,是Llama2的7倍數據維度更加多元大模型的數據來源非常豐富,涵蓋了文本、圖片、音頻和
20、視頻等多種形式,含海量知識信息,涉及各類專業領域和多種語言?;诙鄻踊臄祿?,大模型具備較強的通用能力和遷移能力,能夠適應更廣泛的任務和場景ChatGPT、Claude、Llama 和 Mistral 等大模型的訓練數據包括文學作品、百科全書、新聞、社交媒體、學術文獻等多種知識信息,且往往覆蓋了圖像、視頻和音頻等多模態數據傳統AI模型通常需要針對目標任務場景的領域數據CNN主要處理圖像數據,通?;贠CR、人臉識別、智能駕駛等特定任務場景的圖像數據進行訓練和優化;而RNN和LSTM則一般處理文本和時間序列數據標注方式及評判標準更加復雜標注維度更豐富對噪聲數據的利用度更高評判標準更加復雜傳統AI
21、模型的標注維度通常比較單一圖像分類只需標注圖片的類別,文本分類只需標注文本的主題等大模型的標注需要考慮更加多維的信息,如新聞的標注除了包括主題之外,往往需包括時間、地點、人物等其他標簽為了訓練大模型理解長序列數據的能力,還需要對文本進行更復雜的標注,例如對長篇小說進行按篇章結構或一定字數間隔的標注,標注每個板塊的人物、事件、摘要等信息大模型能夠在一定程度上從包含噪聲和偏差的數據中學習為了更好的模型性能,仍然需要對訓練數據進行清洗和篩選,以獲得更佳的模型效果傳統AI模型對數據質量非常敏感,數據中的噪聲和偏差可能會顯著降低模型性能傳統AI模型的數據標注需要仔細審核,確保高準確度大模型的標注有一定主
22、觀性,如長文本摘要、圖片內容的理解、不同文風的改寫、對同一問題的多個回答的打分等,評判標準更復雜,對標注者的邏輯能力、知識體系的要求更高隨著算法策略的調整或研發側對數據工程理解的加深,數據標注方式及具體導向可能在項目進展中多次調整傳統AI模型的數據標注一般有標準答案,如圖像類別、像素邊界、語音文本等通常有單一答案,評判標準更客觀92024.7 iResearch I2024.7 iResearch I來源:根據公開資料、企業調研,結合艾瑞統計模型核算。數據類型說明:公開數據為無需借助爬蟲工具,可直接下載利用的數據,如來自高校、社區的免費共享數據;大模型應用及客戶合作數據,指用戶在大模型C端應用
23、中反饋的數據,以及大模型在B端行業拓展中企業客戶提供的數據;外采數據包括原料數據以及數據服務公司提供的標準數據集、定制數據集等。其他說明:調研企業研發的大模型均為側重語言能力的多模態大模型;主要以數據token化前所需存儲空間為口徑做占比計算;因調研樣本的局限性,本比例可能與行業整體情況存在偏差。典型服務場景通用大模型(2/2)為提升通用能力,大模型訓練數據的投入將逐步向圖像、視頻等多模態數據傾斜,且需要更多的采購數據支持縱觀業界開源及閉源大模型的能力特性,結合艾瑞對大模型研發企業的調研,雖然當下主流大模型應用仍相對側重文本輸入、文本輸出的能力,但對圖像、視頻、語音等多模態數據的使用已越來越普
24、遍,艾瑞預計大模型訓練數據中多模態數據的占比將在未來數年持續提升。根據艾瑞對部分通用大模型及綜合型AI廠商的調研,目前大模型的訓練數據主要來源于公開數據、網絡爬蟲數據等可公開獲取的數據,其次是采購數據。相比大模型初創企業,綜合型AI廠商憑借現有的互聯網應用和AI業務積累,具備獨特的數據優勢。在模型的通用能力建設方面,公開數據和爬蟲數據已被廣泛利用,未來這兩類數據在整體上的提升空間相對有限,Epoch AI等機構的研究人員于2024年6月更新的論文中表示,大語言模型將在大約2026至2032年之間耗盡所有公開的文本數據。艾瑞預計,大模型研發廠商將通過更多的采購數據來提升模型的通用能力;而在垂直場
25、景優化及行業客戶的拓展中,公開數據和爬蟲數據仍有較大的獲取提升空間,大模型研發廠商也將更多地利用客戶側的合作數據,增強模型解決行業特定領域或企業特定問題的能力。2023年大模型的訓練數據來源構成26.6%22.6%22.5%17.5%10.8%公開數據網絡爬蟲數據采購數據大模型應用及客戶合作數據企業自有數據2023年大模型的各類型訓練數據投入構成來源:根據公開資料、企業調研,結合艾瑞統計模型核算。其他說明:調研企業研發的大模型均為側重語言能力的多模態大模型;以大模型研發企業在2023年對各類型數據的資金投入做占比計算;因調研樣本的局限性,本比例可能與行業整體情況存在偏差。55.0%36.0%9
26、.0%文本數據圖片及視頻數據語音等其他數據102024.7 iResearch I典型服務場景大模型評測公開評測基準與商業化評測服務共建大模型評測生態隨著大模型技術的快速迭代及其在眾多領域的廣泛應用,相關評測需求同步增長。對于模型研發企業,評測是發現模型在功能、性能、安全性和可靠性等方面優劣勢的關鍵步驟,并可與其他企業的模型橫向對比,進而針對性地優化模型,提高其表現和穩定性;對模型應用企業而言,評測是選型和項目驗收的重要工具,通過專業評測服務,企業能夠評估模型的實際應用適用性,確保所選模型滿足需求,并保障定制類模型項目的交付質量。相較傳統AI,大模型的應用空間更廣,評測本身也更加復雜和多樣化,
27、市場對專業評測服務的需求潛力巨大。公開評測基準和商業化評測服務的發展,將為大模型評測提供重要支撐,促進技術與產業的健康發展。來源:艾瑞咨詢研究院自主研究及繪制。公開基準為大模型評測提供重要參考商業化評測為客戶提供體系化服務通過科學、客觀、多場景的評測任務和指標設計,公開基準為學術研究和產業應用提供評估大模型能力的重要參考類別基準名稱發布機構/發布年份評測內容通用文本MMLUUC伯克利、哥大等/202015908個問題,覆蓋基礎數學、美國歷史、計算機科學、法律等57個領域GPQA紐約大學、Cohere、Anthropic等/2023448個多項選擇題,由生物、物理、化學等領域的專家編寫MathU
28、C伯克利等/202112500個高中數學競賽問題,覆蓋代數、幾何、概率論等學科HumanEvalOpenAI/2021164個手寫的編程問題,每個編程問題都由函數簽名、文檔字符串、函數體和幾個單元測試構成其他典型通用文本類評測基準:MGSM、DROP、BBH等通用中文SuperClueAI評測基準社區Clue/20232194道多輪簡答題,覆蓋理科與文科兩大能力,包括計算、邏輯推理、代碼、知識百科等十大任務其他典型通用中文類評測基準:OpenCompass、CMMLU、C-EVAL等翻譯WMT23國際機器翻譯大會/2023通用翻譯、術語、手語、生物醫學、文學等不同領域的翻譯任務語音FlEURS
29、Meta、Google等/2022包含102種語言的n路并行語音數據集,每種語言約12小時的語音監督數據語音翻譯CoVoST2Meta/2020共計2900小時的語音,包含從21種語言翻譯成英語,以及從英語翻譯成15種語言的語料多模態MMMUIn.ai、滑鐵盧大學等/2023從大學考試、教科書中收集的 1.15萬個多模態問題,包括圖表、圖示、地圖、樂譜、化學結構等30種高度異構的圖像類型MathVista加州大學洛杉磯分校等/2023由6141個任務組成,源自 28 個涉及數學的現有多模態數據集和 3 個新創建的數據集EgoShemaUC伯克利等/2023由超過250小時的的人類自然活動的視頻
30、和超過5000個多項選擇題構成,基準要求模型根據三分鐘長的視頻剪輯從5個選項中選出正確答案其他典型多模態評測基準:M3Exam、AI2D、ChartQA、DocVQA、ActivityNet等數據集體系平臺高質量的數據集是進行有效評測的基礎,在公開評測基準的基礎上,商業化評測服務可結合私有或定制數據集,為客戶提供符合實際場景需求的評測數據集和指標商業化評測服務提供自動化、智能化的平臺,支持數據管理和更新,為客戶構建高效、規范且可演進的評測體系,生成詳細報告,助力技術迭代及應用選型,從供需兩側加速大模型產業的發展AI基礎數據服務公司及評測平臺公司可通過商業化評測,為客戶提供體系化解決方案,推動大
31、模型在實際應用中的落地和發展112024.7 iResearch I2024.7 iResearch I來源:綜合網絡公開資料,艾瑞咨詢研究院整理及繪制。來源:綜合華泰證券、九章智駕等公開資料,艾瑞咨詢研究院整理及繪制典型服務場景智能駕駛AI基礎數據服務與AI算法研發相互促進,共同推動著自動駕駛的實現在大模型和端到端技術的加持下,智能駕駛的自動化程度不斷提升,相關功能已成為部分消費者購車時的重要考慮因素。除個別廠商專注于純視覺路線外,當下高級別的智能駕駛系統中,攝像頭和激光雷達是兩大核心傳感器。攝像頭主要捕捉二維圖像,具有高分辨率和豐富的色彩細節;激光雷達則通過發射和接收激光脈沖生成高精度的三
32、維點云數據,能夠精確測量物體的距離、尺寸和相對位置,受光照等環境條件影響較小。攝像頭和激光雷達等各類傳感器各具優勢,互為補充,數據標注需對來自不同傳感器的數據標簽對齊和交叉驗證工作。AI基礎數據服務是支撐智能駕駛、大模型等AI算法研發的基石,而AI算法也大幅提升了智駕研發領域數據標注的效率和效果,為數據服務行業的發展注入了新的活力。數據與AI彼此支撐、相互促進,共同推動著自動駕駛的實現。智駕系統核心傳感器的數據標注工作對比分析自動化標注在智駕研發場景中的應用案例特斯拉 2021年特斯拉人工標注團隊約1000人,其后通過自動化標注系統提高了團隊效率,2022年該團隊裁員200余人 特斯拉采用“多
33、重軌跡重建”技術自動標注車輛行駛軌跡,在集群中運行12小時即可完成10000次行駛軌跡標注,相當于節省了500萬小時的人工標注時間。理想汽車 2023年之前理想汽車每年需通過人工完成約1000萬幀的圖片標注,每張成本68元,一年耗資近億元 此后,理想汽車基于大模型進行自動化標注,算法可在三個小時內完成過去人工一年的工作,效率是人工的1000倍Scale AI Scale AI為通用、Nuro、豐田、法雷奧等諸多智駕研發企業提供了自動化標注的工具平臺或相關產品服務 借助Scale AI的調試訓練數據集的可視化工具平臺Nucleus,無人車等機器人研發企業Nuro可有效維護管理超5億張圖像數據集。
34、Nucleus的Object Autotag功能可支持Nuro選擇某一類別的未標注圖像,并自動找出一組相似圖像,大幅提升罕見場景的數據的準備、標注及管理效率小鵬汽車 XNet的訓練基于50100萬個短視頻,其中動態目標的數量可能達到數億甚至十億量級,如果以人工標注的方式,需要1000人的團隊耗時2年完成標注 小鵬汽車的全自動標注系統僅需16.7天即完成上述工作,且標注質量更高,信息更全面,包括3D位置、尺寸、速度、軌跡等信息架構攝像頭激光雷達標注對象 二維圖像中的汽車、行人、交通標志、車道線等物體 需考慮光照條件和天氣影響 3D點云數據,需標注物體的邊界、相對位置等 相對不受光照條件影響標注復
35、雜性 需綜合物體的顏色、紋理和形狀等進行區分 標注的主觀性或不確定性相對更大 需理解三維空間關系 精確的距離測量 標注結果的一致性更高標注量 攝像頭的數據及采集到的圖像數量相對更多 每張圖像的標注工作量相對更小 每幀點云的數據量很大,點云數據處理和標注的工作量相對更大標注成本 圖像標注相對簡單,且相關自動化工具相對成熟,單張標注成本更低 點云數據復雜,單張標注成本相對更高集成與融合在高級別的自動駕駛系統研發中,大多廠商通常會融合攝像頭、激光雷達等多種傳感器的數據,為系統提供更全面的信息。這意味著標注策略需考慮數據融合,做好來自不同傳感器的數據標簽對齊和交叉驗證工作12AI基礎數據服務市場現狀0
36、2132024.7 iResearch I中國AI基礎數據服務產業圖譜AI基礎數據服務產業的中游即數據標注等數據服務的供應商,包括專業廠商及云廠商兩類,其中后者以支持內部算法研發及云業務客戶需求為主。上游提供原料數據、人力資源支持及IT基礎設施,其中人力資源服務供應商主要包括垂直做數據標注的廠商和綜合IT類廠商兩類,目前業界通常采用遠程線上服務即云BPO的模式進行人力支持。下游為數據服務的需求方,包括大模型、智能駕駛等各行業各領域投入AI算法研發的廠商。來源:艾瑞咨詢研究院自主研究及繪制,圖譜中所展示的公司logo順序及大小并無實際意義。中游云服務廠商數據服務專業廠商上游多源數據人力資源服務I
37、T基礎設施下游通用大模型及綜合型AI廠商垂直行業/領域的大模型及AI廠商智能駕駛AI+安防AI+工業AI+教育AIoT文本、圖片、視頻、音頻等原料數據版權所有者個人企業政府數據標注垂類BPOIT類BPOIT類BPO影像創作搜索及文本創作代碼助手2024年中國AI基礎數據服務產業圖譜多源數據、人力服務、IT設施 數據服務 AI算法研發廠商142024.7 iResearch I中國AI基礎數據服務市場規模2023年中國AI基礎數據服務市場規模45億元,未來5年復合增長率30.4%基于對數據服務專業廠商、云廠商、大模型研發廠商、智能駕駛研發廠商等中國AI基礎數據服務市場的供需兩側企業調研,結合艾瑞
38、對中國人工智能市場整體及AI基礎數據服務市場的發展判斷,艾瑞推算2023年中國AI基礎數據服務市場規模為45億元。在需求側,隨著AI算法研發從面向特定任務領域的小模型向具備更強通用泛化能力的大模型過渡,數據服務需求企業將產生大量高質量、多模態的數據需求。同時,隨著大模型在通用及垂直場景中的應用拓展和智能駕駛等AI技術的規?;虡I落地,良好的商業回報將進一步推動需求側加大對基礎數據的投入。在供給側,隨著數據要素等相關支持政策的持續深化,服務商將加快數據源的獲取及數據集的制作。數據工程技術、數據標準規范、標注方法等日益成熟,人才生態及服務軟件平臺的自動化、流程化也在不斷完善,供給側的供應能力和服務
39、質量得以加強。綜合供需兩側的情況,艾瑞預計到2028年,中國AI基礎數據服務市場規模將達170億元,未來五年的復合增長率為30.4%。來源:根據公開資料、企業訪談,結合艾瑞統計模型核算。37 45 58 75 99 130 170 16.0%22.0%28.0%30.0%32.0%32.0%30.0%202220232024e2025e2026e2027e2028e市場規模(億元)增速(%)2022-2028年中國AI基礎數據服務市場規模CAGR=30.4%152024.7 iResearch I2024.7 iResearch I來源:艾瑞咨詢研究院自主研究及繪制。來源:根據公開資料、企業訪
40、談,結合艾瑞統計模型核算。AI基礎數據服務商的市場結構分析(1/2)自建團隊與品牌數據服務商主導市場,中小服務商的市場份額大幅下滑延續艾瑞在2020年中國AI基礎數據服務行業研究中的供給方劃分方式,本報告將供給方分為需求方自建團隊、品牌數據服務商、中小數據服務三類。其中,有AI基礎數據對外服務的云廠商最為特殊,因其所屬集團的內部AI算法研發所需的數據服務,可能由云服務業務線、算法研發業務線的內部標注團隊,以及外部的品牌和中小數據服務商等四種團隊承接。在艾瑞對供給方的市場份額統計中,云服務業務線的對內支持計入需求方自建團隊的市場;因云服務廠商具備較大的市場影響力、相對完善的服務軟件平臺,將云業務
41、線對外部廠商的數據服務計入品牌數據服務商的市場。相比4年的市場份額情況,中小數據服務商的整體市場份額下滑約41%,需求方自建團隊上升36%,品牌數據服務商上升5%:傳統AI數據標注市場競爭激烈,而大模型、智能駕駛等新興項目體量較大需要較強的綜合服務能力,疊加疫情影響,較多中小數據服務商已退出市場;在大模型、智能駕駛等新興AI算法及對應標注方式快速迭代時期,為追求更高的開發效率、保障信息安全,較多需求方通過自建團隊滿足數據服務需求;未來隨著品牌數據服務商的數據版權的豐富、專業能力的提升、標注方法的成熟,品牌數據服務商將承接更多的數據服務需求。2023年中國AI基礎數據服務供給方的市場份額59.0
42、%35.3%5.7%需求方自建團隊品牌數據服務商中小數據服務商一般廠商的數據服務需求AI基礎數據服務產業的供需合作鏈條云服務廠商所屬集團的內部AI數據服務需求需求方內部標注團隊中小數據服務廠商品牌數據服務專業廠商云服務廠商AI基礎數據服務業務線計入需求方自建團隊市場計入品牌數據服務商市場計入中小數據服務商市場162024.7 iResearch IAI基礎數據服務商的市場結構分析(2/2)2023年CR4為22.0%,行業集中度相比2019年顯著提升據艾瑞調研統計,2023年中國AI基礎數據服務行業的CR4(前四大企業的市場份額)為22.0%,市場仍較為分散。相比2019年14.3%的CR4,
43、中國AI基礎數據服務市場在2023年的集中度顯著提升。市場份額位居前四的企業包括以海天瑞聲、數據堂為代表的數據服務專業廠商以及以百度智能云為代表的云服務廠商。在傳統AI標注市場的激烈競爭中,百度智能云、數據堂等AI基礎數據服務企業敏銳的捕捉到了大模型標注的需求變遷,憑借強大的資源整合及項目管理能力、豐富的行業經驗和專業理解,快速響應市場需求的變化,及時投入大模型相關產品和服務的研發,從而在AI基礎數據服務的整體競爭中贏得了更高的市場份額,也成為了大模型標注領域的頭部廠商。展望未來,隨著大模型等AI技術的發展,數據服務的需求日益龐大且復雜,這對服務企業的綜合能力提出了更高的要求。沒有自動化軟件平
44、臺或平臺能力較弱、資源整合能力有限的廠商將面臨生存空間不斷被擠壓的困境;高質量數據版權豐富、運營管理能力強大、行業理解深刻的頭部數據服務廠商有望持續提升市場份額。來源:根據公開資料、企業訪談,結合艾瑞統計模型核算;CR4為國內營收位居前四的企業的相關營收在中國市場的份額總和;圖中所展示的公司logo順序及大小并無實際意義。2023年中國AI基礎數據服務行業CR4及代表廠商22.0%78.0%CR4其他廠商數據服務專業廠商代表企業云服務廠商代表企業172024.7 iResearch I廠商競爭要素與未來發展策略自動化平臺、深刻的行業理解、對技術與數據的前瞻性布局,將幫助優秀企業贏得市場領先在行
45、業集中度不斷提升的過程中,基于自動化平臺不斷強化項目運營及資源整合能力、深刻理解行業需求,積極應用前沿算法、積累高質量數據集版權的AI基礎數據服務廠商,將在激烈競爭的市場中脫穎而出,贏得市場領先地位。來源:艾瑞咨詢研究院自主研究及繪制。AI基礎數據服務廠商的競爭要素與未來發展策略AI基礎數據服務廠商競爭要素與未來發展策略基于自動化數據服務平臺的項目運營與資源整合能力 自動化與智能化平臺:一個高度自動化、智能化的服務平臺能夠高效地處理數據預處理、清洗、標注等各個環節 資源整合能力:強大的資源整合能力使企業能夠快速召集滿足客戶需求的數據服務人員,確保按時按質交付項目 精細化管理:通過精細化管理標注
46、工程師和標準質檢員等項目人員,企業可以確保團隊內的高效協作 人力資源支持:隨著平臺功能的增強,更多個體可以直接通過平臺為數據服務廠商提供人力資源支持,提升行業運轉效率,擴大從業人員規模深刻的行業理解與前瞻性布局 簡化復雜需求:大模型的標注工作復雜多樣,供應商必須具備將復雜需求簡化為具體標注任務的能力 前瞻性布局:企業需具備前瞻性布局的能力,積極投入有前景的數據集開發,并應用前沿AI算法對平臺進行自動化改造,使企業在技術變革中保持領先原料數據的版權積累 定制數據集業務的局限性:定制數據集因其個性化需求和難以重復售賣的特點,難以支撐數據服務企業的規?;鲩L 標準數據集的優勢:基于高質量原料數據制作
47、的標準數據集則不同,這些數據集可以面向多個客戶重復銷售,市場需求廣泛且客戶接受度高,有助于企業實現規模效應,取得更高的利潤水平18AI基礎數據服務廠商案例03192024.7 iResearch I海天瑞聲深耕行業近20年,向全行業提供多語言、跨領域、跨模態的人工智能數據及相關數據服務北京海天瑞聲科技股份有限公司(以下簡稱海天瑞聲)自2005年成立以來,公司始終致力于為AI產業鏈上的各類機構提供算法模型開發訓練所需的專業數據集。經過多年發展,公司已成為人工智能基礎數據服務領域具有較強國際競爭力的國內頭部企業,并實現了標準化產品、定制化服務、相關應用服務全覆蓋。公司所提供的訓練數據涵蓋智能語音(
48、語音識別、語音合成等)、計算機視覺、白然語言等多個核心領域,全面服務于人機交互、智能家居、智能駕駛、智慧金融、智能安防等多種創新應用場景。來源:綜合企業財報、官網等公開信息,艾瑞咨詢研究院整理及繪制。2.38 2.33 2.06 2.63 1.70 23.3%-1.8%-11.5%27.3%-35.3%20192020202120222023營業收入(億元)同比增減(%)2019-2023年海天瑞聲的營收情況海天瑞聲產品服務及技術布局自然語言處理公司通過設計自然語言處理的訓練數據集結構、采集、加工、質檢;或者對客戶提供的自然語言文本執行加工、質檢工作,最終形成客戶所需的自然語言訓練數據集智能語
49、音公司通過設計、采集、加工、質檢等智能語音訓練數據集生產環節;或者針對客戶提供的原料音頻文件執行加工、質檢工作,最終形成客戶所需的智能語音訓練數據集計算機視覺公司通過設計計算機視覺的訓練數據集結構、采集、加工、質檢;或者對客戶提供的圖像、視頻文件執行加工、質檢工作,最終形成客戶所需的計算機視覺訓練數據集訓練數據相關的應用服務公司基于自身生產的訓練數據提供算法模型相關的訓練服務,運用訓練數據研發能力助力下游客戶完成其算法模型的語言拓展、特定算法模塊拓展、垂直應用領域拓展等,為客戶定制針對特定應用場景的專屬算法模型,提高AI技術應用效果海天瑞聲客戶場景及客戶結構客戶場景客戶場景個人助手語音輸入內容
50、生成智能家居機器人語音導航智能客服智能播報語音翻譯移動社交虛擬人智能駕駛智慧醫療智慧教育智慧交通智慧城市智慧金融機器翻譯智能問答信息提取情感分析OCR識別核心技術布局通過持續的研發投入積累形成了12項核心技術,覆蓋基礎研究、平臺工具、訓練數據生產三個層次,應用于訓練數據生產的設計、采集、加工、質檢全流程12項核心技術中,語音語言學基礎研究、多語種多模態訓練數據設計技術、數據同步技術、大數據驅動的高效數據處理技術、分布式高性能自動校驗技術等5項具備較高技術壁壘客戶結構分析 Top 5:2023年,海天瑞聲Top 5客戶銷售額合計占比33.41%境內/境外:2023年,公司境內地區客戶收入占比64
51、.7%,境內收入額同比-25.2%;境外收入額同比-48.2%營收變動分析公司2023年營收有較大下滑,主要原因包括境外客戶階段性裁員、業務調整和預算釋放放緩,導致境外收入大幅下滑;國內客戶對研發投入持謹慎態度,預算和需求釋放減緩,加上行業競爭加劇,導致境內收入下滑202024.7 iResearch I數據堂憑借高質量數據服務,數據堂已幫助全球上千家企業提升AI模型性能數據堂(北京)科技股份有限公司(以下簡稱數據堂)成立于2010年,是一家面向支撐人工智能產業發展,專業從事人工智能基礎數據服務的企業。經過十余年積累,數據堂形成了數據多模態采集、自動處理、質量評測、安全計算的全鏈條核心技術體系
52、及服務平臺。數據堂專注于為國內外人工智能技術和應用客戶提供一站式基礎數據資源服務、基礎數據生產服務以及基礎數據處理解決方案服務,主要覆蓋大模型、智能語音、自動駕駛、生物認證、智能安防、智能家居、智能娛樂、智慧城市、智能制造、智能醫療等領域。來源:綜合企業財報、官網等公開信息,艾瑞咨詢研究院整理及繪制。0.65 0.79 1.17 1.70 2.36 0.8%21.3%48.8%45.1%39.0%20192020202120222023營業收入(億元)同比增減(%)2019-2023年數據堂的營收情況數據堂產品服務及技術布局數據堂的客戶場景及客戶結構數據服務資源服務人工智能傳統模型及大模型學習
53、、訓練及評測生產服務數據采集、標注、處理、校對、質檢等SaaS服務方案服務私有化數據工廠、人工智能技術能力評測、智能數據標注實訓平臺客戶場景客戶場景數據資產數據平臺自動駕駛數據庫智能語音數據庫生物認證數據庫智能安防數據庫遙感影像數據庫智慧城市數據庫智能制造數據庫智能家居數據庫智能數據工廠百套自動標注處理工具自動駕駛智能語音生物認證智能安防智能家居智能娛樂智慧城市智能醫療智能制造重點研發項目數加加平臺:旨在為項目提供自助化、自動化的高效處理流程的柔性生產系統。最大限度地提升供應商項目執行的效率和質量,并通過數智化和自動化的方式實現更好的業務運營和管理效果數加價Pro:專為客戶打造的一套數據標注生
54、產線系統,旨在提供快速搭建數據標注生產線的解決方案客戶結構分析Top 5:2023年,數據堂Top 5客戶銷售額合計占比39.08%境內/境外:2023年,數據堂境內地區客戶收入占比73.1%,境內收入額同比提升55.7%;境外收入額同比增長7.61%營收變動分析數據堂近幾年收入大幅增長,主要原因是全球人工智能產業規??焖僭鲩L,AI技術的發展和迭代,導致對人工智能數據產品及解決方案的需求快速增長,國內收入的增長同時受益于國家層面對數據生產要素發展的重視212024.7 iResearch I活樹科技專注于多語言數據服務,為AI公司和科研機構提供高質量數據解決方案活樹科技(Lifewood)成立
55、于2004年,是一家面向全球的多語言數據服務企業?;顦淇萍紝W⒂谖谋?、圖像、音頻和視頻數據的采集和標注,提供50+種語言的數據服務,助力AI算法的訓練和優化。憑借二十年的行業經驗,活樹科技為AI公司、互聯網公司及科研機構提供高質量、大規模、結構化的訓練數據?;顦淇萍嫉臄祿鉀Q方案覆蓋個人助手、語音輸入、智能客服、智慧醫療、智慧教育、智慧交通、智慧城市、智慧金融、智能問答、信息提取、情感分析、OCR識別等多種應用場景?;顦淇萍贾铝τ谕苿覣I技術的實踐應用及商業化落地,賦能AI技術與實體經濟深度融合。來源:綜合官網等公開信息,艾瑞咨詢研究院整理及繪制?;顦淇萍既蛉肆Y源布局-16國22交付中心業
56、務布局及項目積累16個國家22個交付中心53個語種數據3,000+個項目經驗LLM項目落地全球16個國家活樹科技數據解決方案C類全球資源助力企業出海美國貝寧泰國孟加拉國印度尼西亞菲律賓塞爾維亞芬蘭英國德國阿聯酋馬來西亞新加坡日本中國越南南非傳統數據服務通用大模型數據服務垂直大模型數據服務(智能駕駛/智能虛擬助手等場景)提供50+語種的全面數據服務,包含數據收集、準備、清理、標記、注釋、檢查和格式化服務創建和優化LLM數據集,包括預訓練、微調、RLHF和偏見處理,確保模型公正提供針對垂直行業的現成數據集,專注于自動駕駛、智能虛擬助手等領域。A類B類C類客戶類型:AI企業、互聯網企業、ICT企業、
57、直播平臺企業等客戶類型:互聯網、AI企業及初創企業、科研機構等客戶類型:主機廠、自動駕駛Tier 1、互聯網企業等222024.7 iResearch I澳鵬AI生命周期數據的創新和實踐者澳鵬(Appen)成立于1996年,公司總部位于澳大利亞,公司通過在美國、中國等國家的九個辦事處和營業部為全球客戶提供可靠的AI訓練數據服務。澳鵬是AI生命周期數據的創新和實踐者。憑借在數據獲取、數據標注和模型評估方面超過25年的經驗,澳鵬使組織能夠推出具有創新性的人工智能數據系統。澳鵬的專業知識包括遍布全球170個國家/地區的70000多個地點的超過100萬名精通290+種語言和方言,以及業界先進的人工智能
58、輔助數據標注平臺。澳鵬的產品和服務讓技術、汽車、金融服務、零售和醫療保健領域的領導者有信心啟動優秀的AI項目。來源:綜合企業財報、官網等公開信息,艾瑞咨詢研究院整理及繪制。3.70 4.14 4.47 3.89 2.74 47%12%8%-13.10%-29.40%20192020202120222023營業收入(億元)同比增減(%)2019-2023年澳鵬的營收情況智能LLM開發平臺集大模型數據準備、訓練、推理、部署應用于一體,提供數據集管理、數據標注、計算資源調度、模型評估、模型微調等全棧管理產品,助力企業輕松擁抱大模型。MatrixGo數據標注平臺高精度數據標注平臺,使用專業多樣的工具集
59、創建高質量、精細化的數據,滿足復雜的標注需求,基于自研AI算法大幅度提升標注效率數據集成品數據集:鵬提供600+個成品數據集,其中包括27600多小時的音頻、490000多幅圖像和超過一億字/詞的文本數據集,涵蓋80種語言和多種方言數據集應用場景:安全駕駛/自動駕駛、互聯網虛擬人/智能客服、智慧金融、智能家居、智能終端、智能安防數據服務數據采集:擁有全球范圍250+語言資源及100萬眾包團隊,澳鵬提供全面的數據定制采集服務,為客戶的AI部署提供高質量的數據支持數據標注:為客戶提供多應用場景和行業的定制數據標注服務,為客戶的AI應用提供全面數據澳鵬產品服務及技術布局核心技術布局澳鵬力求通過技術和
60、創新方案簡化和自動化流程,從而能夠大規模交付AI訓練數據澳鵬的工程、隱私和網絡安全團隊致力于確保數據可用性目標的實現,并確保數據的保護和安全2023年投資0.35億用于技術和系統建設,包括對ADAP的增強,以支持LLM產品,并更好地支持眾包和客戶客戶場景客戶場景澳鵬的客戶場景及客戶結構智能科技智慧醫療智能金融智能駕駛新零售客戶結構分析Top 5:2023年,奧鵬Top 5客戶銷售額合計占比74.8%地區分布:2023年,公司澳大利亞客戶收入占比0.6%;美國客戶收入占比80.5%,收入同比下滑35.3%;其他國家地區收入占比19.4%,收入同比增長6.6%營收變動分析2023年,澳鵬營收同比下
61、滑29.4%,主要受全球經濟環境下行影響,客戶支出縮減,導致澳鵬全球服務業務收入下降36.1%。盡管如此,澳鵬全球服務業務的所有客戶均已完成或正在進行生成式AI項目;同時,得益于中國市場、Quadrant和政府業務的貢獻,澳鵬的新市場業務增長2.2%232024.7 iResearch IScale AI結合尖端技術與卓越運營,為客戶提供機器學習全生命周期的端到端方案Scale AI成立于2016年,總部位于美國。Scale AI的公司使命是加速人工智能應用的發展。Scale AI提供管理整個機器學習生命周期的端到端解決方案,將尖端技術與卓越運營相結合,幫助客戶利用更好的數據更快地實現人工智能
62、投資的價值。Scale AI通過結合機器學習驅動的預標注和主動工具,輔以不同程度和類型的人工審核,將原始數據轉換成高質量的訓練數據。截止目前,Scale AI已完成130億次的標注,為超過8700萬的2D及3D場景打上了標簽。2024年5月21日,Scale AI宣布完成一筆10億美元的融資,估值為138億美元。來源:綜合企業官網等公開信息,艾瑞咨詢研究院整理及繪制。典型客戶及行業應用案例智能駕駛:Scale AI的自動駕駛數據引擎推動了L4級自動駕駛的突破國防:Scale AI的公共部門數據引擎推動了美國國防部的許多重大AI項目OpenAI:Scale AI與OpenAI在GPT-2上合作進
63、行了首批RLHF實驗,并將這些技術擴展到InstructGPT等更多模型上核心技術布局結合了機器學習驅動的預標注和多層次人工審核的數據引擎,可將原始數據高效的轉換為高質量的訓練數據;數據引擎可智能管理和優化數據集,識別高價值數據進行標注,最大化標注投資回報率;數據測試、模型評估和比較等工具,幫助客戶充分利用數據資產生成式AI、基于人類反饋的強化學習(RLHF)Scale AI的融資情況Scale Donovan服務于國家安全的人工智能數字參謀Scale數據引擎收集、整理、標注數據生成式AI數據引擎:快速創建經過審核的由領域專家編制的定制高質量數據集,以訓練世界上最先進的模型測試與評估:持續測試
64、和評估大型語言模型,識別風險,認證AI應用的安全性公共部門數據引擎:為國防、情報、民間機構的AI提供數據支持智駕數據引擎:支持L2-L5的自動駕駛系統開發ScaleGenAI平臺支持客戶構建、測試和優化可釋放數據價值的生成式 AI 應用程序,借助Scale AI先進的RAG、測試評估平臺以及ML專業知識,針對特定領域優化LLM的性能Scale AI產品服務及技術布局構建AI應用AI服務的行業及客戶案例行業及客戶客戶場景美國政府美國陸軍、美國空軍國防創新單元首席數字和人工智能辦公室生成式AIOpen AI、CohereAdept其他企業Microsoft、Meta、GM Nvidia、GAFG、
65、Chegg Howard Hughes、BCG0.0012 0.045 0.18 1.00 1.55 3.25 10.00 2016年 種子輪2017年 A輪2018年 B輪2019年 C輪2020年 D輪2021年 E輪2024年 F輪融資金額(億美元)16億美元130億美元累計融資額估值24行業面對的挑戰與機遇04252024.7 iResearch I2024.7 iResearch I來源:艾瑞咨詢研究院自主研究及繪制。來源:艾瑞咨詢研究院自主研究及繪制。AI基礎數據服務行業面對的挑戰與機遇由于需求量大且需求復雜,行業面對人力短缺、項目難管理等挑戰由于大模型對數據集的要求更加復雜、高質
66、量數據需求的增加,以及需求方對數據安全及保護核心技術的重視,AI基礎數據服務行業面臨諸多挑戰,包括數據標注工程師的門檻提升、項目管理復雜性增加、項目規模大、高質量數據獲取困難、信息安全問題等。盡管面對挑戰,行業也迎來了新的機遇。大模型等AI技術的快速發展帶來了高漲的數據需求,推動了AI基礎數據服務市場的增長,高質量數據集成為供應商的核心競爭力,此外,多模態數據集的需求也將增加。憑借精細的流水分工和日益精準的AI算法,數據服務軟件平臺在行業中的價值不斷提升,平臺可幫助服務方更好的滿足需求方的高質量數據需求,應對好人力及項目管理方面的挑戰。數據標注工程師的從業門檻提升大模型對數據集的評判標準更加復
67、雜,對標注者的邏輯能力、知識體系的要求更高,對從業者的專業背景或學歷水平提出了更高的要求,部分項目面對人力短缺AI基礎數據服務行業面對的挑戰項目管理的復雜性增加標注的方式方法欠缺統一客觀標準,標注方式或評估標準的細節在項目過程中多變,需要服務方在項目進展中與需求方持續溝通、對標注人員持續培訓拉齊項目規模大大模型對數據量有更高要求,數據服務廠商單項目要處理的數據體量大幅增加,進一步凸顯人力短缺及項目運營管理上的挑戰信息安全問題出于數據安全、保護核心技術等考慮,部分需求方選擇通過自建標注團隊的方式滿足大模型、智能駕駛等前沿AI技術研發所需的數據集需求,這種方式一定程度上限制了數據服務公司乃至行業整
68、體的的專業化和規?;l展高質量數據獲取困難目前大模型訓練已利用較多公開數據,為進一步提升模型的通用化及垂直領域能力,將需要更多專業領域的高質量數據,包括多語種的專業書籍、文獻期刊、深度媒體報道,各類優質的影像及音視頻作品等,但受版權政策或授權模式不明朗的限制,相關數據的獲取較為困難AI基礎數據服務行業的發展機遇蓬勃的數據需求通用及垂直大模型、智能駕駛及各行業場景的AI技術研發與應用,伴隨著高漲的AI數據服務需求高質量數據集獨有的高質量數據是數據服務廠商的核心競爭力之一,競爭優勢與相關數據集的種類和數據量正相關,且標準數據集可多次售賣,提升數據服務的毛利。數據服務廠商需在政策及相關數據共享平臺的
69、支持下,努力拓展更新數據集資源多模態數據集目前大模型的能力構建主要基于文本數據,伴隨需求方對于大模型多模態能力的強化,圖片、視頻、音頻等多模態數據的需求與之提升數據服務軟件平臺憑借精細的流水分工,數據服務平臺可以高效響應大規模數據標注需求,且結合日益精準的AI算法,不斷提升人工與平臺整體對數據的清洗預處理、標注及質檢審核的效率。在滿足需求方對高質量數據要求的同時,提升了數據服務方在應對人力及項目管理等方面的挑戰的能力26BUSINESS COOPERATION業務合作官網企 業 微 信新 浪 微 博微 信 公 眾 號400-026-聯系我們27LEGAL STATEMENT版權聲明本報告為艾瑞
70、數智旗下品牌艾瑞咨詢制作,其版權歸屬艾瑞咨詢,沒有經過艾瑞咨詢的書面許可,任何組織和個人不得以任何形式復制、傳播或輸出中華人民共和國境外。任何未經授權使用本報告的相關商業行為都將違反中華人民共和國著作權法和其他法律法規以及有關國際公約的規定。免責條款本報告中行業數據及相關市場預測主要為公司研究員采用桌面研究、行業訪談、市場調查及其他研究方法,部分文字和數據采集于公開信息,并且結合艾瑞監測產品數據,通過艾瑞統計預測模型估算獲得;企業數據主要為訪談獲得,艾瑞咨詢對該等信息的準確性、完整性或可靠性作盡最大努力的追求,但不作任何保證。在任何情況下,本報告中的信息或所表述的觀點均不構成任何建議。本報告中發布的調研數據采用樣本調研方法,其數據結果受到樣本的影響。由于調研方法及樣本的限制,調查資料收集范圍的限制,該數據僅代表調研時間和人群的基本狀況,僅服務于當前的調研目的,為市場和客戶提供基本參考。受研究方法和數據獲取資源的限制,本報告只提供給用戶作為市場參考資料,本公司對該報告的數據和觀點不承擔法律責任。合作說明該報告案例章節包含部分企業的商業展示,旨在體現行業發展狀況,供各界參考。法律聲明THANKS艾 瑞 咨 詢 為 商 業 決 策 賦 能