
技術架構:數據湖的核心是存儲業務數據的完整副本(原始數據),包括結構化數據、非結構化數據以及半結構化數據。Hadoop 是企業數據湖建設的典型架構,以分布式文件系統 HDFS、分布式計算引擎 MapReduce 為核心組件,將所有機器的存儲資源與計算資源進行分層抽象設計。2003 年前后,Google 連續發表三篇論文,奠定了大數據的框架基礎。此后基于理論又形成了 Hadoop 原始的“3+1”式軟件棧:即分布式文件系統 HDFS、分布式計算引擎 MapReduce、Hbase NoSQL 數據庫,以及 YARN 資源調度。Hadoop 定義了最基礎的分布式大數據批處理架構,打破了傳統數據庫一體化的模式,將計算與存儲分離,聚焦于解決海量數據的低成本存儲與規?;幚?。Hadoop 在面對上百 PB 數量級的大數據查詢分析時能夠極大地提升效率,同時通過使用廉價硬件集群搭建的分布式系統實現成本效益。