1 什么是數據湖
數據湖的概念最早是由“數據倉庫之父”的 Bill
Inmon提出,在其著作《數據湖架構》一書中,他提出通過設計數據湖來避免垃圾存儲的概念。數據湖是存儲原始數據的大型倉庫,在數據湖中數據有很多不同階段,數據湖的成功建立需要提供大規模數據接入、數據治理、數據服務和數據安全管理框架。
按照維基百科的定義數據湖是一類存儲數據自然、原始格式的系統或存儲,通常是對象塊或者文件。數據湖通常是企業中全量數據的單一存儲。使用數據湖解決方案,從結構化和非結構化數據中生成有意義的信息,并在市場中保持競爭力。

2 建立數據湖的意義
數據湖是政府與社會資本合作,同時解決發展數字經濟三個痛點的中國特色新基建方案
(1)存的起(藍光存儲):訪問速度在分鐘級、存儲能耗在千分之三、存儲成本只有6.5%、存儲時間是100年。
(2)得得到:政府收儲有序開放、社會數據留存共享、制定數據安全法律、建立地方要素市場
(3)用得好:企業依法獲得數據、開放數據智能算法、開發數據應用場景、為數字化轉型賦能

3 易華錄“數據湖+”戰略的應用場景
(1)數據湖+大交通:公司作為智能交通龍頭企業,可以基于數據湖中的政府數據,以及交通軟件管理平臺及電子車牌業務打造交通數據湖。 2020
年,公司中標哈爾濱智慧城市“交通云”平臺服務項目,哈爾濱“交通云”城市交通大腦運用大數據、云計算、人
工智能等前沿技術,將“智慧治堵”作為先導性需求,建設城市數據大腦交通平臺,實現智能感知路況、智能判定堵情、
智能巡查事件、智能優化配時、智能輔助指揮等五大基本功能。
(2)數據湖+大安全:目前研發了藍鯨產品,基于人工智能分析,將攝像頭數據導入數據湖,通過人臉識別精準鎖定相關人員,良好輔助公安
部門偵破案件。公司在“智慧公安”項目建設中,面對技術難度大、工作時間緊、泛在感知數據接入復雜的狀況,緊緊
圍繞“智慧公安”體系化建設方案,積極解決技術難題、組織技術攻關,建起了智能化、實戰化、一體化的“升級版技 防城”實戰應用系統。
(3)數據湖+大健康:隨著老齡化的加速,基于政府對老年人生活的重視,整合養老大數據,為老年人提供增值服務。

4 數據湖與數據倉庫的區別
(1)數據湖能能處理所有類型的數據,如結構化數據,非結構化數據,半結構化數據等,數據的類型依賴于數據源系統的原始數據格式;數據倉庫只能處理結構化數據進行處理,而且這些數據必須與數據倉庫事先定義
的模型吻合。
(2)數據湖擁有足夠強的計算能力用于處理和分析所有類型的數據,分析后的數據會被存儲起來供用戶使用;數據倉庫處理結構化數據,將它們或者轉化為多維數據,或者轉換為報表,以滿
足后續的高級報表及數據分析需求。
(3)數據湖通常包含更多的相關的信息,這些信息有很高概率會被訪問,并且能夠為企業挖掘新的運營需求。
數據倉庫通常用于存儲和維護長期數據,因此數據可以按需訪問。

推薦閱讀:《【公司研究】易華錄-數據湖基建龍頭于波瀾之中把握新機遇-210604(32頁).pdf》
《【4】基于Flink+Iceberg構建企業級實時數據湖-胡爭-阿里巴巴.pdf》
《數據湖技術IceBerg如何解決騰訊看點業務痛點v5.pdf》