隨著信息時代的到來企業越來越意識到數據質量對企業的發展的重要程度,數據倉庫不僅能很好的治理海量數據,還能通過數據挖掘提取數據價值,提升企業的競爭力,越來越受企業重視。那么,什么是數據倉庫?有哪些優缺點?本文將具體介紹。

1.數據倉庫
《Building the Data
Warehouse》一書的作者W.H.Inmon最先給數據倉庫下了定義,即是面向主題的、集成的、相對穩定的、反映歷史變化的數據集合。讓管理層可以洞察數據趨勢、行業動向,進而驅動業務發展。
面向主題:指用戶在對數據進行統計分析時關注的維度。一般根據維度來定義主題,從多個業務線抽取出共同的維度建立主題。
集成的:數據倉庫中的數據是從業務數據庫中通過抽取數據并處理、總結和規劃后進行提取和過濾導入的。并要處理雜亂的和分散在不同業務系統的問題,因此可以確保數據倉庫中的數據具有全局統一的特性。
相對穩定的:數據從業務系統導入到數據倉庫后,被長久的存儲起來,主要進行查詢操作而不進行修改和更新。通常只是定期的導入數據。
反映歷史變化:數據倉庫不斷從業務系統中收集數據,積累的數據則蘊藏所有歷史累計信息,通過分析歷史累計的數據對企業的發展方向和行業的發展趨勢做出精準的分析和預測。
目前,幾乎所有的電商數據倉庫都建設在Hadoop大數據技術生態之上。數據倉庫包含以下四個模塊:數據源、數據存儲與管理、OLAP服務器(On-Line
Analysis Processing,聯機分析處理)和前端工具與應用。
2.數據倉庫優缺點
(1)數據倉庫的優點
1)非易失性
存儲在數據倉庫中的數據是非易失性的,因為存儲在數據倉庫中的信息無法編輯。一旦將信息插入到數據倉庫中,就只能對其進行更新或完全刪除。
2)時變性
存儲在數據倉庫中的信息無法編輯,因此可以在數據倉庫中長期存儲。如果一個組織想要評估為什么銷售額在過去一年中下降,而在兩年前的銷售額卻是不可計數的,這可以通過參考存儲在數據庫中的信息來參考其當時使用的策略。
3)結構化信息存儲
以結構化方式存儲的信息。這意味著這里存儲的數據是根據其來源劃分的,并存儲在各自的數據集市中。如果有數據必須添加到銷售中,則該信息將進入已在數據倉庫中創建的銷售數據集市。數據倉庫中沒有雜亂的數據輸入。
4)集成數據
數據集成是數據倉庫的主要功能之一。數據的集成存儲意味著來自多個來源的數據一起存儲在數據倉庫中。
(2)數據倉庫的缺點
1)無法存儲大量數據
無法存儲大量數據被認為是數據倉庫的主要缺點之一。這導致了大數據沒有數據倉庫的支持。
2)數據是剛性的
由于信息以指定的文件格式存儲,因此要在數據倉庫中使用數據,必須將其更改為該文件格式。這導致了數據倉庫無法存儲混合文件格式的數據的缺點。
3)維護成本高
每當小型組織獲得大型IT項目時,就需要高維護系統。這些高維護系統需要財政資源。這會導致組織花費更多的資源而不是從中獲利。
以上梳理了數據倉庫的定義、系統架構及優缺點,希望對你有所幫助,如果你想了解更多相關內容,敬請關注三個皮匠報告的行業知識欄目。
推薦閱讀:
數據管理平臺有哪些?世界主要數據管理平臺品牌一覽
什么是數據管理?包括哪些內容?有什么好處?
數據集成是什么意思?方法有哪些?數據集成三種方法介紹
什么是大數據技術?特點是?在農業中的應用分析