《艾瑞咨詢:2024年開源大數據行業發展洞察報告(29頁).pdf》由會員分享,可在線閱讀,更多相關《艾瑞咨詢:2024年開源大數據行業發展洞察報告(29頁).pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、2024 iResearch Inc.2024年開源大數據行業發展洞察報告2目 錄CONTENTS01大數據開源工具發展背景02大數據開源工具熱力趨勢03大數據工具熱力值說明3大數據開源工具發展背景0142024.10 iResearch I大數據技術的行業應用大數據技術應用廣度與深度持續加大,成為決定企業競爭力的重要因素來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。大數據技術在各主要行業中的典型應用場景醫療保健預測分析用于病人護理:預測病人入院情況,優化資源分配臨床決策支持:通過數據聚合增強治療建議人群健康管理:分析數據以跟蹤疾病爆發并針對性干預制造業預測性維護:預測設備故障以減少停機時
2、間供應鏈優化:利用數據洞察改善物流和需求預測質量控制:實時監控生產以確保產品質量金融服務欺詐檢測:監控交易以識別和防止欺詐風險管理:通過全面數據分析增強信用評分客戶細分:針對性分析客戶,開發有針對性的產品能源與公用服務智能電網管理:通過需求預測改善負載平衡預測性資產維護:安排維護以防止停電可再生能源預測:優化可再生能源的接入電網零售客戶個性化檢視:根據購買歷史定制營銷活動庫存管理:通過準確預測需求優化庫存水平價格優化:利用競爭者分析和市場分析動態定價產品電信客戶流失預測:識別不滿意的客戶以降低流失率網絡優化:分析流量以更好地分配網絡資源欺詐預防:檢測賬單和使用數據中的異常情況十多年來,隨著大數
3、據技術的演進與成熟,其在經濟領域中的應用也在拓展并持續深化。目前,在包括醫療保健、零售、金融服務、制造業、電信、能源與公共服務的各主要行業中,大數據技術在精細管理、趨勢預測、風險識別、決策支持等場景中發揮著越來越重要的作用。數字時代背景下,數據已成為企業核心資產,而大數據技術則是對這項資產開發,利用,賦能企業的重要手段,越來越多的企業認識到用對、用好大數據技術將決定自身的行業競爭力。52024.10 iResearch I2024.10 iResearch I來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。來源:中國信通院云計算開源產業聯盟,中國通信標準化協會全球開源生態洞察報告(2024年
4、),艾瑞咨詢研究院自主研究及繪制。大數據工具的開源狹義上的開源大數據工具是指在開源大生態下,專注于解決海量、多類型數據的連接、存儲、管理等功能的工具集合。但從搭建大數據平臺角度出發,通常還需要加入AI類組件以幫助數據分析,云原生工具以實現容器編排,另外關系型及各類非關系型數據庫被視為大數據的基礎,由此得到廣義上的大數據工具套件。本報告將以廣義大數據工具為研究對象,對其進行分析。大數據技術領域開源生態成熟度雷達圖0246810技術流行度創新轉化能力法律合規安全能力技術穩定性技術生產力大數據領域具備較好的技術穩健性,以Hadoop、Spark、Flink等為代表的傳統大數據產品已趨于成熟新型開源大
5、數據工具不斷向個性化、定制化發展,如大數據框架中加入AI類庫,以及如Uber、Netflix、Spotify等企業根據自身特定業務貢獻新的適用于具體應用場景的大數據工具開源趨勢下,大數據傳統工具已經成熟,個性化新型工具不斷加入開源生態下狹義與廣義大數據工具前端解決方案制作平臺框架組件庫功能插件操作系統桌面操作系統服務器操作系統云操作系統IoT操作系統數據庫關系型數據庫鍵值數據庫時序數據庫圖數據庫向量數據庫大數據數據存儲數據處理數據分析數據管理數據連接中間件服務器中間件通訊中間件安全中間件Web中間件人工智能數據集智能算法庫訓練平臺AI引擎云原生微服務中間件容器技術及編排網絡服務62024.10
6、 iResearch I開源大數據工具的分類及功能按功能類型分為5層11模塊,合理的工具選型是搭建大數據平臺的前提來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。大數據工具組件是大數據技術輸出的載體,數字化與智能化時代下,一套完整的大數據工具可以分為基礎層、數據連接層、編排與分析層、人工智能層、監控及可視化層共5層,包括儲存格式、數據框架,數據庫、數據管理、數據查詢與連接、流處理與消息管理、數據編排、在線分析、機器學習運維、記錄及監控、數據可視化11個模塊。大數據工具層級圖是對大數據工具的總覽,開源工具林林總總,企業應先解各個工具的定位與功能,根據自身需求牟定工具類型,再進行具體工具的選型。
7、1數據存儲數據框架數據庫指導數據如何存儲及序列化為分布式數據處理提供核心能力結構及非結構化數據主存儲系統數據管理數據查詢與連接流處理與消息處理數據組織,版本控制,數據治理數據集間的查詢、整合、控制實時調控數據管道及事件流數據編排在線分析數據流自動化編排、監控并處理,實現數據有效利用大數據集的快速聚合、查詢與實時分析機器學習運維自動化部署、監控及管理機器學習模型的運營平臺記錄及監控數據可視化監控數據基礎設施健康情況,追蹤指標表現將數據洞察可視化展現 可視化展現系統健康情況,幫助理解數據洞察結論開源大數據工具層級圖監控及可視化層 為以機器學習為代表的各類AI的運行提供基礎服務人工智能層 實現大數據
8、的自動化、實時處理及分析編排及分析層 管理數據的連接、流動、查詢等數據治理任務數據連接層 數據存儲、數據處理,確?;A設施的可擴展性基礎層23457大數據開源工具熱力趨勢0282024.10 iResearch I熱力趨勢(1/12):數據存儲沿二進制存儲、列存儲、云上數據湖的路徑演化,多樣化容納數據類型來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據數據存儲工具熱力圖202320142015201620172018201920202021202220247.646.897.027.535.858.447.717.02201220135.354.725.065.464.683.38
9、0.782009201020112024上半年熱力值 列存儲格式 適應重任務下的數據分析查詢 Parquet,ORC 二進制和結構化格式 針對數據序列化進行優化 Avro,Thrift,Protocol Buffers 云原生數據格式 云上數據湖 Delta Lake,Iceberg,Hudi92024.10 iResearch I熱力趨勢(2/12):框架大數據框架隨數據量的擴大以及處理速度需求提升而迭代;進入大模型時代,大數據框架進而整合模型開發組件來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據框架熱力圖202320142015201620172018201920202021
10、20222024 實時計算、內存計算 流處理、批流一體 Spark,Flink,Storm 分布式計算及存儲 批處理 Hadoop:HDFS+Mapreduce AI函數庫 支持模型訓練、微調 Ray,MLlib(Spark)5.784.845.635.753.058.806.504.972024上半年熱力值102024.10 iResearch I熱力趨勢(3/12):數據庫-之一數據庫種類逐漸豐富,支持云原生、大模型開發訓練及實時分析來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據數據庫熱力圖(1-15)2023201420152016201720182019202020212
11、0222024 云原生數據庫 為基于云的高性能數據分析優化 CockroachDB,TiDB 非關系型數據庫 管理處理半結構、非結構型數據 Cassandra,MongoDB,HBase AI相關向量數據庫 高效管理、查詢嵌入向量 Milvus,Weaviate6.875.716.116.255.607.016.996.01201220135.485.455.485.535.395.385.182009201020112024上半年熱力值112024.10 iResearch I熱力趨勢(3/12):數據庫-之二數據庫種類逐漸豐富,支持云原生、大模型開發訓練及實時分析來源:公開資料整理,艾瑞咨
12、詢研究院自主研究及繪制。4.263.864.024.083.755.024.383.863.543.153.303.622.992.960.700.522023201420152016201720182019202020212022202420122013200920102011開源大數據數據庫熱力圖(16-31)2024上半年熱力值122024.10 iResearch I熱力趨勢(4/12):數據管理隨系統復雜性提升,數據管理更注重數據血緣,版本控制及流程自動化來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據數據管理工具熱力圖20232014201520162017201820
13、192020202120222024 元數據治理,數據血緣 洞察數據關系,數據價值挖掘 Amundsen,DataHub,Atlas 數據目錄及數據治理 快速精準查找、正確使用數據資產 CKAN,Metacat 數據質量/一致性保證、版本控制 自動化驗證,可回溯 Great_Expectations,LakeFS7.555.466.047.515.417.575.77201220133.673.143.663.860.709.022024上半年熱力值132024.10 iResearch I熱力趨勢(5/12):查詢與連接從批量到實時,從單一數據源到跨系統多元數據,從關系型數據到非關系型數據,
14、工具的進化讓數據查詢更迅速、更靈活、更絲滑來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據查詢與連接工具熱力圖201320232014201520162017201820192020202120222024 對于分布式數據的快速查詢做優化 實時查詢,實時分析 Druid,Impala 基于Hadoop框架的大數據查詢 使用SQL語句進行低延時批量查詢 Hive,Pig,Presto 多數據源多數據類型統一聯合查詢 使用一套查詢語句及統一界面 Beam,Trino,Drill7.723.786.497.022.872.648.458.204.532012201120102009202
15、4上半年熱力值3.84142024.10 iResearch I熱力趨勢(6/12):流處理及消息管理由簡單的消息處理功能發展為功能復雜適應混合場景的數據管理工具來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據流處理及消息管理工具熱力圖20232014201520162017201820192020202120222024 分布式架構 實時數據+高吞吐量+低容錯率 Kafka,NiFi,Debezium 消息隊列、訂閱/發布、日志聚合 簡單消息系統中處理少量實時數據 RabbitMQ,ActiveMQ 云原生、事件驅動架構 混合負載+多租戶+地域復制 Pulsar,Memphis2
16、01220136.505.516.376.405.257.087.026.014.973.714.675.023.483.253.222009201020111.602024上半年熱力值152024.10 iResearch I熱力趨勢(7/12):編排大數據編排工具的演變反映了數據工作流不斷變化的需求和復雜性來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據編排工具熱力圖20136.953.188.386.925.745.664.605.286.565.606.8820232014201520162017201820192020202120222024 基于有向無環圖構建任務關系
17、模塊化架構并與云服務集成 Airflow,argo 批處理過程、簡單任務依賴 集中式調度器管理任務的執行 Luigi 將數據管道視為軟件資產 數據血緣追蹤,推動團隊協作 Dagster,DolphinScheduler2024上半年熱力值20120.891.863.04162024.10 iResearch I熱力趨勢(8/12):在線分析由對數據的批量抓取分析發展為云原生可處理高并發的實時數據分析來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據在線分析工具熱力圖20232014201520162017201820192020202120222024 簡化查詢處理過程,實時動態分析
18、 列存儲,矢量化執行 ClickHouse,Trino,Doris 查詢處理結構化、預聚合數據 準實時抓取查詢數據,分布式結構 Druid,Pinot,Kylin 云原生架構,內存計算 實時高并發數據分析 StarRocks,Databend,DuckDB20137.995.587.547.875.218.288.116.942.412024上半年熱力值172024.10 iResearch I熱力趨勢(9/12):機器學習運維-之一由基礎開發生命管理發展為以AI專有性能指標為核心設置的工具生態體系來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據機器學習運維工具熱力圖(1-11)2
19、023201820192020202120222024 端到端的ML流程編排與自動化 支持本地與云環境 Kubeflow,Polyaxon 基礎模型開發跟蹤、可視化及部署 未與云融合,編排與自動化能力有限 Mlaflow,DVC,Pachyderm 實時模型服務,AI優先功能:可解釋性、公平性、漂移檢測 BentoML,ZenML,Ollama7.656.417.297.596.138.818.447.175.775.625.542024上半年熱力值182024.10 iResearch I熱力趨勢(9/12):機器學習運維-之二由基礎開發生命管理發展為以AI專有性能指標為核心設置的工具生態體
20、系來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據機器學習運維工具熱力圖(12-23)202320142015201620172018201920202021202220244.743.774.624.701.935.434.914.241.470.650.540.442024上半年熱力值192024.10 iResearch I熱力趨勢(10/12):記錄與監測由簡單的日志管理及可視化發展為集日志、指標、追蹤為一體數據觀測棧來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據記錄與監測工具熱力圖202320142015201620172018201920202021202
21、22024 構建更強大的指標評估系統 實時、主動監測與預警 Prometheus,Grafana 集中式日志管理與分析 提供日志搜索能力及可視化界面 Elasticsearch,Logstash,Graylog 擴展性更強,效率更優 與其他大數據處理組件無縫結合 SigNoz,OpenTelemetry201220137.886.526.606.976.508.917.896.545.004.244.646.503.96201020112024上半年熱力值202024.10 iResearch I熱力趨勢(11/12):可視化由靜態、本地化解決方案向高互動性、云化、融合AI能力的方向演進來源:
22、公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據可視化工具熱力圖20232014201520162017201820192020202120222024 互動性可視化、儀表盤 與數據實時互動,基于網絡部署 Metabase,Bokeh,Plotly 靜態可視化,基礎繪圖 與桌面環境或某些編程語言整合 ggplot2,Matplotlib,Seaborn 支持多用戶協作,加入AI能力 與大數據架構、數倉深度融合 Superset,Kibana,Redash2024上半年熱力值7.805.275.435.485.169.157.965.404.783.633.633.341.91200820
23、092010201120122013212024.10 iResearch I熱力趨勢(12/12):數據安全來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據安全組件工具熱力圖201320232014201520162017201820192020202120222024 實時威脅檢測和響應 網絡流量的深度包檢測 Falco,Suricata 日志分析與事件關聯 基本的入侵檢測能力(日志監控)OSSEC,Sentry 細粒度的訪問控制策略 集中的安全策略管理 Cilium,Ranger,Knox5.573.674.524.933.518.808.384.18201220112024
24、上半年熱力值從基礎安全和監控能力發展到高級威脅檢測,最終實現全面的訪問管理和數據治理222024.10 iResearch I開源大數據工具熱力趨勢總結由于不同時期的技術挑戰與應用需求促使大數據工具的迭代與豐富來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。開源大數據工具發展時間圖201320142015201620172018201920202021202220232024實時數據處理批流一體數據湖及滄湖一體機器學習組件整合數據存儲及擴展性聯邦查詢與云原生整合數據編目及治理數據查詢與分析數據安全互聯網企業對高通量、實時數據流的處理需求批流數據需整合統一而非后者替代前者解決數據湖數據質量、一
25、致性、實時性等問題大模型時代管理機器學習生命周期(實驗、再現及部署)解決分布式數據庫的擴展性及高時延在多樣數據集間進行查詢而不移動數據云原生架構下更高效、自動化的管理容器數據量上升后,需要工具對其發掘、歸納并翻譯解決數據查詢緩慢、不及時的問題集中性安全管理、細粒度訪問控制232024.10 iResearch I云廠商開源大數據工具支持度比較基礎設施覆蓋度、云計算成本及效用以及開源配套服務是影響客戶在利用開源工具自建大數據平臺時選型底層云平臺的主要因素基礎設施覆蓋度:云廠商更廣闊的基礎設施覆蓋度意味著客戶在進行大數據處理時的延遲時間更少,并可以選擇本地化的部署方式,這對于需要低延時以及數據駐留
26、合規性要求更為嚴格的國際化用戶尤為重要。云計算成本與效用:大數據的處理需要耗費海量計算資源,因此計算效率與成本效益是客戶的重要考量因素。定制化核心基礎硬件能夠從底層增強云計算效率,從成本及能耗角度看也會帶來顯著提升。開源配套服務:云平臺對于開源大數據工具更廣泛的配套服務以及更深度的融合決定了客戶利用開源工具構建大數據平臺的難易度與開發成本,客戶更傾向于使用開源友好度高的云平臺服務。綜合比較AWS,Azure與GCP三大全球性云廠商,AWS在基礎設施覆蓋的廣度、云計算優化的深度、以及生態中開源配套服務的豐富度上均有一定優勢,與當下處理復雜數據類型、重分析呈現的大數據熱點開發組件契合度較高,是大數
27、據云基礎平臺的優質選擇。在34個地理區域內運營108個可用區 計劃在墨西哥、新西蘭、沙特阿拉伯王國、泰國、中國臺灣和AWS歐盟主權云增加18個可用區和6個AWS區域 擁有超過410個邊緣站點與本地區域 自研ARM架構Graviton處理器 為云原生工作任務高度定制,使AWS更具成本效益、更節能、更高效 相較于x86芯片,Graviton3可達到60%的能耗提升,Graviton2可達到最高30%的性能提升 對開源大數據工具提供廣泛支持,為主流大數據框架提供托管服務 AWS生態中的如EMR,MSK等服務與大數據開源工具無縫結合 AWS兼容各類開源數據倉庫與數據湖,通過Glue與Athena可以輕
28、松查詢或轉換各類開源格式的數據 服務范圍涵蓋包括64個區域在內的共140個國家 共有175個邊緣節點 基于Intel及AMD芯片搭建云服務 通過HDInsight與Databricks將開源大數據工具與Azure整合,為用戶處理結構及非結構化數據提供統一平臺 Azure Synapse也將基于Spark的分析原生地整合進來 在38個區域中的115個節點運營(包括本地節點與邊緣節點)正在另外13個區域加緊布局,但總體上在歐美之外的區域布局較少 主要基于Intel及AMD芯片搭建云服務 提供第三方廠商Ampere設計的AltraARM架構芯片 第三方芯片尚未能與自身云平臺進行深度整合 BigQue
29、ry是完全托管的數據倉庫,支持多種開源數據格式,同時支持與開源框架整合進行高階數據分析 通過GKE 支持容器化工作負載,在Kubernetes集群上調度開源大數據應用,管理復雜的大數據管道基礎設施覆蓋度云計算成本與效用開源配套服務來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。24大數據工具熱力值說明03252024.10 iResearch I說明(1/2):熱力值意義及數據采集來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。熱力值意義本報告中所指熱力趨勢是從開發者視角所做的研究判斷,通過對開發者圍繞開源社區相關行為的定量分析,綜合得到熱力值,是開發者對該開源大數據工具的關注、參與、討論
30、、貢獻的綜合體現。因此開源大數據工具的熱力值越高,代表該工具能夠更快速的迭代,受到更精細的優化打磨。從應用視角看,該開源工具更易被使用,并在應用場景中被廣泛推開,即熱力值由開發者端傳導至應用端。事實上,許多開源大數據工具的應用者同時也是開發者,他們針對實踐中的問題持續優化大數據工具,將解決方案回饋至開發社區?;A數據【數據來源】GH Archive:https:/www.gharchive.org/;Github Stars Explorer:https:/emanuelef.github.io/daily-stars-explorer【數據采集時間】起始時間為最早有記錄時間,終止時間為202
31、4年6月30日【數據采集對象】開源大數據工具所對應的Github代碼倉(Repository),而非對應的Github項目(Project)【選取范圍及指標意義】指標選取范圍為GH Archive可提供的17類Github事件,事件定義遵循GH Archive中對應的屬性說明?!局笜诉x定邏輯】基于開發者在開源社區(Github)中的基礎行為,選取Star、Fork、Issue、Commit、Pull Request五項核心指標,其他Github事件或為此五類事件的從屬事件,或其本身一般性屬性較低。以 下 表 格 為 GH Archive 中 所 列 舉 的 17 類 事 件,標 色 事 件 為
32、 本 報 告 選 取 的 五 項 基 礎 指 標。事 件 具 體 定 義 請 參 考 Github 文 檔:https:/ Archive中的事件命名可能與一般認知不同。如,WatchEvent對應Star,PushEvent對應Commit。262024.10 iResearch I說明(2/2):熱力值計算方式來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制?!竞诵闹笜藰藴驶幚怼坎捎脤岛瘮捣蔷€性標準化方式,通過指標極值確定閾值,對指標的觀察值做進行無量綱化處理,便于不同數量級指標間進行綜合分析和比較。計算方式標準化值=Log10(1+觀察值)/Log10(1+閾值)【AHP層次分析法加
33、權】結合定量與定性分析,通過多位專家判斷五項核心指標的相互重要程度,取幾何平均后,確定偏好矩陣,再經過一致性檢驗后確定指標對熱力值影響,即指標在計算熱力值中所占權重。StarForkIssueCommitPRStarForkIssueCommitPR 左側為專家根據行業經驗填寫的偏好矩陣,采用10分制,綠色部分為打分區域;從指標意義來看,Star、Fork、Issue、Commit、PR是漸進發展的,代表開發者參與開源社區由淺入深的過程。因此,盡管專家的矩陣打分各有不同,但總體上遵循由Star至PR逐漸升高這一規律;Star數量長期以來存在著“刷星”等數據虛假問題,因此其在熱力值中所占的權重最
34、小?!居^察值提取】以半年為計算的標準時段,根據獲取的時點基礎數據,計算每半年指標變動值。即當年6月30日相對于上一年12月31日的變動值,以及當年12月31相對于當年6月30日的變動值?!緹崃χ涤嬎慵罢宫F】根據各指標權重及該指標中開源大數據工具的標準化值,加權計算該開源大數據工具熱力值。以半年為基礎熱力區間,展示熱力圖。熱力圖中每一格對應時間(橫坐標)與開源工具(縱坐標),顏色深淺代表熱力值大小。XXXX開源工具時間(半年)27BUSINESS COOPERATION業務合作官網企 業 微 信新 浪 微 博微 信 公 眾 號400-026-聯系我們28LEGAL STATEMENT版權聲明本報
35、告為艾瑞數智旗下品牌艾瑞咨詢制作,其版權歸屬艾瑞咨詢,沒有經過艾瑞咨詢的書面許可,任何組織和個人不得以任何形式復制、傳播或輸出中華人民共和國境外。任何未經授權使用本報告的相關商業行為都將違反中華人民共和國著作權法和其他法律法規以及有關國際公約的規定。免責條款本報告中行業數據及相關市場預測主要為公司研究員采用桌面研究、行業訪談、市場調查及其他研究方法,部分文字和數據采集于公開信息,并且結合艾瑞監測產品數據,通過艾瑞統計預測模型估算獲得;企業數據主要為訪談獲得,艾瑞咨詢對該等信息的準確性、完整性或可靠性作盡最大努力的追求,但不作任何保證。在任何情況下,本報告中的信息或所表述的觀點均不構成任何建議。本報告中發布的調研數據采用樣本調研方法,其數據結果受到樣本的影響。由于調研方法及樣本的限制,調查資料收集范圍的限制,該數據僅代表調研時間和人群的基本狀況,僅服務于當前的調研目的,為市場和客戶提供基本參考。受研究方法和數據獲取資源的限制,本報告只提供給用戶作為市場參考資料,本公司對該報告的數據和觀點不承擔法律責任。法律聲明THANKS艾 瑞 咨 詢 為 商 業 決 策 賦 能