1.數據倉庫
數據倉庫的概念是由William H
Inmon在上個世紀九十年代提出,他將其定義為面向主題的、集成的、穩定的、不同時間的數據集合,用以更好地支持企業或組織的決策分析處理。具體來看,是一種從事務性應用程序中獲取數據與存儲數據的技術組合,它將一些信息系統中分散數據的重要信息提取到集中的存儲庫,以支持對歷史數據的訪問需求。
數據倉庫包含與操作數據庫分離的邏輯數據集合,是一個存儲信息的工具,可以集成來自各種應用程序或系統的各種類型數據,通過ETL(抽取、轉換和加載)過程從外部多種數據源提取數據,然后根據業務需要轉換數據,并將其存儲到數據倉庫中,可以保證管理人員通過專門訪問機制獲取信息并對其進行分析以進行決策。
數據倉庫有幾個特點:面向主題、集成數據、非易失性、時間變化和非標準化。
2.數據倉庫發展歷程
第一代數據倉庫:軟硬件一體化架構、有限的擴展性、昂貴的擴容成本;
第二代數據倉庫:開源軟件框架(Hadoop、Hive、Spark)、適配通用硬件(x86)、適應上百BP的海量數據計算、可靈活地進行性能拓展;
第三代數據倉庫:可按需取用的云化資源、近乎無限的擴容能力、更低的擴容成本、降低運維成本;
第四代數據倉庫:計算存儲分離,精細化的資源管理、全民化的數據分析需求、更高的訪問并發量與更低的延遲。

3.數據倉庫與數據挖掘、數據湖的區別與聯系
(1)數據倉庫與數據挖掘
數據挖掘試圖從數據中發現潛在的、內部的關系和模式,希望能夠透過數據的表象發現其本質;數據倉庫是一個包含大量歷史數據的海量數據庫,側重于管理和存儲以主題進行組織的數據。
數據挖掘所處理的數據比較混沌,其數據源種類很多,可以是數據文件或數據庫,不一定必須是數據倉庫,但是由于數據倉庫已經將大量的歷史數據進行了清洗、加玉后存放起來,因此它可以為數據挖掘算法提供豐富的、規范的、完備的、干凈的樣本數據,數據挖掘算法可以直接使用這些數據,而不必再進行繁瑣的數據清洗和準備工作,從而大大節省數據挖掘在數據預處理上所花費的時間,因此,將數據挖掘技術和數據倉庫有機結合起來,不但能夠發掘化更多的、更好的有價值的模式,而且能夠明顯提高數據挖掘過程的效率。
(2)數據倉庫與數據湖
數據湖能處理所有類型的數據,如結構化數據,非結構化數據,半結構化數據等,數據的類型依賴于數據源系統的原始數據格式;數據倉庫只能處理結構化數據進行處理,而且這些數據必須與數據倉庫事先定義的模型吻合。
數據湖擁有足夠強的計算能力用于處理和分析所有類型的數據,分析后的數據會被存儲起來供用戶使用;數據倉庫處理結構化數據,將它們或者轉化為多維數據,或者轉換為報表,以滿足后續的高級報表及數據分析需求。
數據湖通常包含更多的相關的信息,這些信息有很高概率會被訪問,并且能夠為企業挖掘新的運營需求;而數據倉庫通常用于存儲和維護長期數據,因此數據可以按需訪問。

更多行業知識,敬請關注三個皮匠報告行業知識欄目。
推薦閱讀:《【公司研究】易華錄-數據湖基建龍頭于波瀾之中把握新機遇-210604(32頁).pdf》
《【研報】通信行業海外云相關行業簡析之Snowflake:全球領先云上數據倉庫-20200921(27頁).pdf》
《新能源汽車行業數據倉庫系列之汽車電動化:電動化有望繼續繁榮磷酸鐵鋰風頭正勁-20220221(14頁).pdf》
《艾瑞咨詢:中國云原生數據湖應用洞察白皮書(47頁).pdf》