《InfoQ:2022年開源大數據熱力報告(12頁).pdf》由會員分享,可在線閱讀,更多相關《InfoQ:2022年開源大數據熱力報告(12頁).pdf(12頁珍藏版)》請在三個皮匠報告上搜索。
1、開源大數據熱力報告2022熱力“摩爾定律”和熱力圖譜熱力趨勢:多元化、一體化、云原生研究目標和研究模型熱力值TOP30和熱力躍遷邏輯研究致謝報告目錄研究目標Hadoop 作為開源大數據技術的起源,興起于2006年。我們收集從Hadoop 發展第10年,即2015年至今的相關公開數據進行關聯分析,研究開源大數據進入新階段后的技術趨勢,以及開源社區的運作模式對技術走向的助推作用。使用熱力值進行定量分析開源項目熱力值,使用量化指標,刻畫開源項目的開發迭代活躍度和受開發者歡迎程度。具體來講,主要來自于幾個方面:(1)開發者對開源項目的關注度,以及應用場景的廣度和深度(2)開發者參與項目開發的貢獻活躍度
2、(3)開發者在開發過程中展現出的協作關聯度(4)項目和社區的可持續發展的健康度這些和大數據技術發展趨勢、開源項目的技術吸引力、開源社區治理水平以及項目傳播力強相關。本報告所呈現的開源大數據熱力從全景、技術棧分類以及單項目角度對入圍項目的熱力表現進行可視化的多維度洞察,并將項目進程中的關鍵事件與熱力表現進行關聯分析,并引入開源基金會、知名開源項目等領域專家進行訪談,嘗試找到項目健康發展一般規律,并對有效提升項目影響力的方法論進行了歸納總結。數據來源采集時間為2022年10月1日。通過 GitHub log 獲取2015年1月至2022年9月的公開數據(包括項目Id、Star、Issue、Open
3、 PR,Review Comment,Merge PR等)。通過Jira api 獲取2015年1月至2022年9月的公開數據(包括項目Id、Issue數量)。如何定量分析“后Hadoop時代”開源項目和技術趨勢熱力值計算公式把2015年作為基期,2015年所有開源項目平均熱力值作為基數,賦值為100。將三個關鍵指標做歸一化處理,賦予對應權重比例,并由此確立了三個關鍵指標的歸一化系數。詳見下表:某項目某年熱力值=年度新增 Star 原始值*歸一化系數+年度新增 Issue 原始值*歸一化系數+年度 OpenRank 原始值*歸一化系數#說明:所有大數據項目數據合計來看,新增 Star 數8年增
4、長倍數為3,Issue 數8年增長倍數為1.8,OpenRank 值8年增長倍數為8。因此將基期中三個核心指標的權重比例設置為:25%:35%:40%。第8期的權重比例將變化為:15%:15%:70%。表征開發協作的比重大幅提升,這也與開源項目的生命源動力來自于更廣泛的社區開發協作保持一致性。熱力值計算詳見:https:/ Issue)-參與開發協作(提交 PR 和 Review、活躍 Contributor 等)。因此,熱力值由該規律中的3個關鍵指標加權而來。項目關注:每年新增 Star 數量,來自于 GitHub 公開數據社區反饋:每年新增 Issue 數量,來自于 GitHub 與 Ji
5、ra 公開數據開發協作:每年 OpenRank 值,OpenRank 由 GitHub 公開數據(Open PR,Review Comment,Merge PR)計算所得,算法來自X-Lab開放實驗室#說明:因開源大數據項目中有超過40%的項目,使用Jira進行Issue提交和反饋,因此將 X-Lab 原有的 OpenRank 算法進行了修正,將Issue剔除出來,不參與 OpenRank 計算。而將 GitHub 與 Jira 公開數據中的Issue 數單獨列出作為社區反饋維度進行計算。2015年所有項目原始值歸一化系數歸一化后的值歸一化后的權重平均新增Star數772.480.032525
6、%平均新增Issue數1137.800.033535%平均OpenRank值14.372.784040%熱力值100100%熱力值研究模型每隔40個月,熱力值提升1倍我們按照數據處理的生命周期,對開源大數據項目進行了技術分類,包括數據集成、數據存儲、批處理、流處理、數據查詢與分析、數據可視化、數據調度與編排、數據開發與管理8個類別。2022年開源大數據總熱力值,增長到2015年的4倍。每隔40個月,熱力值提升1倍。熱力變遷反映技術趨勢 開發者對數據查詢與分析保持了長期的開發熱情,連續8年位于熱力值榜首。2017年流處理熱力值超過批處理,大數據處理進入實時階段。數據規模越來越大,數據結構更多樣化
7、,數據集成從2020年開始爆發式增長。近2年來,活躍的新興項目為數據調度與編排、數據開發與管理注入新的活力。2025年總熱力值將突破3萬按照目前熱力增長趨勢預測,到2025年,總熱力值將突破3萬,數據集成、數據調度與編排、數據開發與管理將成為強勁的熱力增長點。2015年4,620 2016年7,148 2017年8,359 2018年9,029 2019年11,778 2020年12,914 2021年14,801 2022年17,103 熱力值2022年熱力全景圖數據可視化數據查詢與分析批處理流處理數據存儲數據集成數據調度與編排數據開發與管理2018年熱力全景圖數據可視化數據查詢與分析批處理
8、流處理數據存儲數據集成數據調度與編排數據開發與管理2015年熱力全景圖數據開發與管理數據集成數據存儲批處理流處理數據查詢與分析數據可視化數據調度與編排x2x2匯總計算每個技術類別的開源項目熱力值,用區域面積表征技術類別熱力值大小,得到了基于數據生命周期的熱力全景圖。我們抽取了2015年、2018年和2022年三個時間截面的熱力全景圖,如下所示:60%30%22%16%15%12%-3%-9%數據集成數據調度與編排數據存儲數據開發與管理流處理數據查詢與分析數據可視化批處理2022年熱力值年同比增速開源大數據熱力的“摩爾定律”開源大數據熱力圖譜一套復雜體系分化為六大熱點技術經過10年發展,以Had
9、oop為核心的開源大數據體系,從2015年開始,轉變為多元化技術并行發展,開發者的熱情分別涌向搜索與分析、流處理、數據可視化、交互式分析、DataOps、數據湖六大技術熱點領域,每個熱點領域集中解決某個特定場景問題。其中,數據湖以34%的熱力值年均復合增長率高居第一位,交互式分析、DataOps緊隨其后,分列第二、三位。而原有Hadoop體系的產品迭代則趨于穩定,熱力值年均復合增長率為1%。部分Hadoop生態項目(如HDFS)成為其他新興技術的基礎依賴,另一部分項目(如Sqoop)則逐漸退出舞臺。熱力躍遷更加頻繁,彼此交替推動與大數據應用場景和規模變化趨勢相呼應,熱點領域的熱力躍遷(熱力值大
10、幅度跳變)遵循了從上層數據可視化應用普及,到數據處理技術升級,再到數據存儲和管理的結構性演變,最終,數據基礎設施能力的提升又反過來推動上層應用的技術革新。具體表現為,數據可視化在2016和2021年經歷了兩次熱力躍遷,搜索與分析和流處理 在2019年熱力躍遷,交互式分析和 DataOps從2018年和2021年經歷了兩次熱力躍遷,數據湖在2020年熱力躍遷。熱點領域熱力值年均復合增長率代表項目Hadoop體系1%Hadoop、Spark、Hive、HBase搜索與分析14%Elasticsearch、Lucene、Solr、Opensearch流處理19%Flink、Beam、Kafka、Pu
11、lsar數據可視化24%Superset、Kibana、Grafana、Metabase交互式分析25%ClickHouse、Presto、StarRocks、DorisDataOps27%Airbyte、Airflow、Dolphinscheduler、Atlas數據湖34%Iceberg、Hudi、Delta Lake、Alluxio020004000Hadoop體系搜索與分析流處理數據可視化交互式分析DataOps數據湖熱點技術領域的熱力值趨勢2015年2016年2017年2018年2019年2020年2021年2022年熱力值熱力躍遷熱點技術領域的熱力躍遷歷程2016上層應用的普及數據
12、可視化第一次熱力躍遷2018需要更靈活的數據查詢和數據調度技術交互式分析、DataOps第一次熱力躍遷2019需要更快速的處理數據流處理、搜索與分析熱力躍遷2020需要更低成本的管理、存儲、分析數據數據湖熱力躍遷2021底層技術演進,推動上層技術更新數據可視化、交互式分析、DataOps熱力躍遷熱力趨勢一:用戶需求多樣化推動技術多元化從計算一體化到存儲一體化在對熱力變遷數據的觀察中,我們發現,從2015年開始,計算部分率先進入一體化演進歷程,其中的典型代表流批一體在2019年出現第一個熱力峰值。以數據湖存儲為代表的存儲一體化從2019年起進入了一個新的發展階段,并在2021年前后進入了開發迭代
13、的熱力高速增長期,在此期間,涌現了Delta Lake、Iceberg和Hudi等熱點項目。流批一體數據湖存儲2019基于Apache Flink 流批一體技術架構在阿里巴巴雙11項目大規模應用落地2017Apache Beam捐獻給Apache基金會,統一批處理和流處理編程范式2015Apache Spark提出流批一體2022Apache FlinkTable Store 流式數倉發布2020Hudi、Iceberg從Apache孵化器畢業2022Delta Lake全部開源2019Delta Lake成為Linux基金會項目熱力變遷背后是用戶使用痛點的轉移多元化技術的蓬勃發展,在一定程度
14、上增加了開源生態體系的復雜性,系統架構也存在性能瓶頸,且擴展能力有限。業界需要統一、融合的大數據系統,能夠將多種計算模式有機地融合在一起,易于擴展,能夠支持新的模式,降低開源軟件的開發、運維復雜度。以流批一體為例,這種計算融合技術最早提出于 2015 年,它的初衷是讓開發人員能夠使用同一套接口實現大數據的流計算和批計算,進而保證處理過程與結果的一致性。使用統一的計算框架,用戶可以不用區分實時和離線計算的場景,減少用戶的學習成本,減少開發和維護兩套框架的運維成本。流批一體技術演進過程中的幾個關鍵時間節點,2015年Spark提出流批一體,到2019年基于Apache Flink在阿里巴巴雙11項
15、目中大規模落地流批一體應用,再到2022年Flink Table Store 流式數倉發布,每一次重大技術更迭,都會牽引大量開發者關注和參與,促使流處理領域熱力值顯著提升。開發者在初嘗了計算一體化帶來的技術紅利之后,開始在其他技術領域進行一體化的嘗試。而另一方面,為多種不同的計算模型管理多套不同的存儲已經成為了一個新的痛點。開發者深刻體會到傳統數倉的難以逾越的缺陷,比如數據更新較為昂貴,缺乏跨數據源的高效聯邦查詢等。從2019年開始,數據湖存儲解決方案 Delta Lake出現,以及后續的 Iceberg 和 Hudi等,都致力于解決存儲一體化問題。一體化1.0一體化2.0熱力趨勢二:一體化演
16、進邁入2.0時代發軔于云端的技術重構過去幾年,數據源和數據存儲正逐步遷移到云端,更多元化的計算負載也運行到了云端,計算與存儲分離已成為大數據平臺的標準架構。越來越多的開發者在云端開發中,對開源大數據項目進行云原生改造適配。云原生作為技術創新的實驗場,改變了大量開源大數據技術的走向。2015年后出現的新項目,無一例外地在云原生方向進行了積極的技術布局。Pulsar、DolphinScheduler、JuiceFS、Celeborn、Arctic等誕生于云原生時代的開源項目如雨后春筍般破土成長。這些新項目在2022年的熱力值占比已經達到51%,其中,數據集成、數據存儲、數據開發與管理等領域都發生了
17、非常大的項目更迭,新項目熱力值占比已經超過了80%。從2020年開始,Spark、Kafka、Flink等主流項目陸續正式支持 Kubernetes。云原生推動的開源技術棧大重構正在進行時。20152016201720182019202020212022云原生數據集成傳統數據集成0%8%48%55%56%80%82%92%批處理數據可視化數據調度與編排流處理數據查詢與分析數據開發與管理數據存儲數據集成2015年后出現的新項目在2022年的熱力值占比數據集成率先完成重構隨著云端多樣化數據收集需求的爆發,以及下游數據分析邏輯的變化,數據集成從“勞動密集型”ETL工具演進到靈活高效易用的“數據加工流
18、水線”。傳統數據集成工具Flume、Camel處于平穩維護狀態,Sqoop已于2021年從Apache軟件基金會退役。與云原生結合更緊密的Airbyte、Flink CDC、SeaTunnel等項目飛速發展。在熱力趨勢中可以看到,云原生數據集成在2018年超越了傳統數據集成,從2019年開始,這一演進歷程加速,熱力值逐年翻倍。不少新孵化的項目熱力值年均復合增長率超過100%,增長勢頭強勁。項目名稱熱力值年均復合增長率熱力圖譜(20162022)項目生命周期Airbyte325%3年Flink-CDC159%3年SeaTunnel119%6年InLong111%3年ChunJun72%5年Dbt
19、-core56%7年Debezium52%7年DataX12%5年熱力趨勢三:云原生大規模重構開源技術棧排序項目名稱技術領域2022年熱力值熱力圖譜(20152022)1Kibana數據可視化989.40 2Grafana數據可視化793.55 3ClickHouse數據查詢與分析707.42 4Airflow數據調度與編排653.00 5Spark批處理/流處理627.24 6Elasticsearch數據查詢與分析624.52 7Flink流處理606.42 8Airbyte數據集成604.81 9Beam流處理517.67 10Superset數據可視化513.44 11Arrow數據開
20、發與管理491.36 12Trino數據查詢與分析439.23 13Pulsar流處理360.69 14Kafka流處理353.56 15Doris數據查詢與分析344.59 16Metabase數據可視化318.99 17StarRocks數據查詢與分析315.08 18DolphinScheduler數據調度與編排309.15 19Iceberg數據存儲297.29 20RocketMQ流處理246.88 21Hudi數據存儲243.76 22Datahub數據開發與管理240.37 23Hadoop批處理205.62 24Debezium數據集成189.15 25Duckdb數據查詢與分
21、析184.43 26SeaTunnel數據集成183.40 27Pinot數據查詢與分析183.38 28Dagster數據調度與編排179.98 29Prefect數據調度與編排178.47 30OpenSearch數據查詢與分析178.40 開源大數據項目熱力TOP30解決用戶痛點是核心競爭力每個項目都需要解決用戶在某個細分場景的痛點,反過來,每個細分場景的用戶問題都會有少數幾個項目解決得最好。入圍本次報告的102個項目,在細分領域分布上并不均衡。但TOP30項目的細分領域卻均勻分布,每個領域35個項目。用戶痛點并非一成不變,在前面章節,我們已經描述過技術趨勢演變帶來的項目熱力變遷。我們觀
22、察到了無數新老交替,也觀察到了一批優秀開源項目的與時俱進,成為熱力趨勢中的“常青樹”。如Spark在2014年以Spark SQL代替Shark,2016年發布Structured Streaming,推動著大數據技術向前發展。又如,Flink圍繞實時處理的核心需求,陸續延展出數據集成(FlinkCDC)、數據分析(Flink SQL)、機器學習(Flink ML)、規則引擎(Flink CEP)、動態表存儲(Flink Table Store)等多種場景能力。掌握開源社區運作的方法論對于新開源項目,進入基金會孵化器能夠幫助項目快速成長,Airflow、Pulsar等項目進入孵化器后的熱力趨勢
23、驗證了這一點。歐美開源運作發展較為成熟,除了加入基金會,也有不少獨立存在的優秀開源項目,如Elasticsearch、ClickHouse等。這是開源發展到一定階段的產物,背后有一批開源經驗豐富的人才在不同項目間流動。無論是哪一種方式,這些TOP項目背后的開源社區運作模式都能夠通過基金會、人才流動或者文化傳播沉淀為方法論,傳承到下一個有潛力的項目。持續關注開發者體驗在社區起步階段,找到種子用戶非常關鍵,這一階段項目需要快速迭代滿足他們的需求。而在社區發展趨于成熟時,則更需要關注大眾開發者的產品體驗。無論處于什么階段,都需要保持良好的開發者體驗,如Issue、郵件咨詢等社區互動行為,保證及時反饋
24、SLA。對于誕生于國內的開源項目,擁有良好體驗的英文項目文檔,是做好國際化的先決條件。接受本地開發者的文化和溝通習慣,用他們喜歡的方式發展社區。2年前1年前第1年第2年第3年第4年第5年第6年AirflowPulsarDorisHudiIcebergDolphinScheduler開源項目進入基金會孵化器前后的熱力趨勢商業化對于開源社區發展是雙刃劍熱力TOP30中有超過9成的項目背后存在商業化公司運作。開源與商業化可以并存,并且能夠相互促進,這已經成為業界共識。但我們也在研究中發現,當前能夠做到商業化與開源社區平衡發展的項目并不多。這里存在幾種不同類型:第一類,在長期經營的開源生態上已經建立起
25、強大“護城河”,商業化相對克制和保持節奏。另一類,因為不得已的原因而更改開源策略,開源社區發展受到一定影響,以此換取商業回報。第三類,也是最多的一類,商業化已經啟動,同時開源社區也處于快速發展階段,商業化軟件開發模式在一定程度上改變了“集市”類型的開源軟件開發模式,開源的“速度”變得更快。我們認為,開源背后的商業化更多體現為良性的促進作用。在某個時間段出現商業化和開源之間的排異現象,市場和社區都會自動消化和調整,最終回歸到穩定狀態。TOP項目熱力躍遷邏輯研究聯合發起戰略合作專家顧問(按照姓氏拼音為序)代立冬Apache Member、Apache DolphinScheduler PMC Ch
26、air金耀輝白玉蘭開源開放研究院執行院長、上海交通大學教授李鈺Apache Member、Apache Flink&Apache HBase PMC Member劉京娟開放原子開源基金會副秘書長王峰阿里巴巴開源委員會大數據AI領域主席、Apache Flink 中文社區發起人王青蘭開放群島開源社區委員會法律合規組組長王一鵬InfoQ 總編翟佳Apache Pulsar&Apache BookKeeper PMC Member郭煒Apache Member、Apache SeaTunnel(incubating)導師、ClickHouse中文社區發起人李瀟Apache Spark PMC Mem
27、ber劉冬開源中國創始人,Gitee(碼云)創始人&CTO秦江杰Apache Flink&Kafka PMC Member王晶昱阿里巴巴開源辦公室秘書長王偉X-lab開放實驗室負責人、華東師范大學研究員、博士生導師于邦旭CSDN高級副總裁周曉阿里云智能大數據AI運營總經理報告貢獻者(按照姓氏拼音為序)蔡芳芳InfoQ 主編郭雪雯開放原子開源基金會專家李萌開源中國社區負責人林日華開源中國主編聶勵峰Apache SeaTunnel PPMC、Apache DolphinScheduler Committer涂南阿里巴巴開源辦公室運營專家王荷舒開放原子開源基金會專家郭晧開放原子開源基金會專家李博開放原子開源基金會專家李雪開放原子開源基金會專家劉曉清阿里云開發者社區專家是溪阿里云開源大數據運營專家王殿進StreamNative社區運營負責人趙生宇X-lab實驗室核心成員、同濟大學計算機在讀博士報告合作與反饋致謝社區合作