
算需求日益突出,對數據平臺提出了新的要求。2010 年,數據湖概念被提出,數據湖是一種支持結構化、半結構化、非結構化等數據類型大規模存儲和計算的系統架構。隨著 Hadoop 技術的成熟與普及,企業開始基于Hadoop、Spark 及其生態體系中的配套工具搭建平臺處理結構化、半結構化數據,同時利用批處理引擎實現數據批處理。而以開源 Hadoop 體系為代表的開放式 HDFS 存儲、開放的文件格式、開放的元數據服務以及多種引擎(Hive、Presto、Spark 等)協同工作的模式,形成了數據湖的雛形。Hudi、Delta Lake 和 Iceberg 三大開源數據湖技術的成熟,加速了數據湖產品化落地。數據湖將數據管理的流程簡化為數據入湖和數據分析兩個階段。數據入湖即支持各種類型數據的統一存儲。數據分析則以讀取型Schema(schema on read)形式,極大提升分析效率。