1、徐榜江(雪盡)Flink CDC Maintainer&Apache Flink Committer|從數據集成到現代數據棧01數據集成02數據集成工具03現代數據棧04現代數據棧實踐目錄|數據集成Data Integration01|n數據集成數據集成是將多個分散的數據源,在邏輯或物理上有機地集中,為企業解決數據孤島問題,通過統一的數據視圖為企業提供決策支持。n目的數據集成的目標是對數據進行集成,最早的數據集成系統可以追溯到1991年,明尼蘇達大學在構建人口數據庫系統IPUMS1時,使用了一種數據倉庫方法,從不同的數據源中進行數據提取、數據轉換并加載到一個統一的模式中,實現了數據集成。1 h
2、ttps:/en.wikipedia.org/wiki/IPUMS數據集成(Data Integration)|n數據倉庫數據倉庫是一個集成的(Integrated),面向主題的(Subject-Oriented),隨時間變化的(Time-Variant),不可修改的(Nonvolatile)數據集合,用于支持管理決策1。數據倉庫之父 Bill Inmon 于1990年定義n與數據集成關系數據倉庫的首要目的是數據集成,將多個分散的、異構的數據源在邏輯或者物理上整合在一起,便于后續分析。數據倉庫(Data Warehouse)|n數據湖數據湖這個概念最早于2011年提出1。數據湖是一個集中式存儲
3、,用于存儲、處理大量結構化數據、半結構化數據、非結構化數據,它可以以原生格式存儲數據,并處理任何轉換格式。Google Cloud 的數據湖定義n與數據集成關系數據湖的首要目的也是數據集成,將多個分散的、異構的數據源的所有原始數據整合在一起。數據湖與數據倉庫主要區別在于:數據湖的存儲成本更低,無需提前定義數據的schema。1 https:/en.wikipedia.org/wiki/Data_lake數據湖(Data Lake)|ETL計算(T)?裝載(L)采集(E)?ETL 是數據集成的主要步驟,即:數據接入(Extract)數據清洗、打寬(Transformation)數據入倉、入湖(L
4、oad)數據集成工具Data Integration Tool02|數據集成工具(Data Integration Tool)Gartner 數據集成工具魔力象限2022|數據集成工具lakeFS data engineering 2022 map|數據集成工具Stitch(Talend收購)FivetranAirbyteFocusData ingestion,ELT.Data ingestion,ELTELT as a first step.Reverse-ETL coming in 2022.SourcesMore than 130.More than 150.More than 120,
5、one year from inception.Goal is 200 by end of 2021.DestinationsAll major data warehouses,lakes and databases.All main warehouses and databases.All data warehouses,lakes and databases.Customizability of connectorsStitchs Import AI enables their users to push data from anywhere to their destination.Li
6、mited through Fivetrans Cloud functions.User can edit any pre-built connectors and build new ones within 2 hours with Airbytes Connector Development Kit.Database replicationFull table and incremental via change data capture.Pricing is indexed on rows.Full table and incremental via change data captur
7、e.Pricing is indexed on rows.Full table and incremental via change data capture.Pricing adapted for this use case.Integration with data stackNo.Supports dbt transformations.Integrate deeply with Kubernetes,Airflow and dbt.Airbytewill soon integrate with Prefect,Dagster,Great Expectations,and more.In
8、tegrations can be contributed by the community.Support SLAsAvailableAvailableAvailable|ETL vs ELTETLELT|ETL vs ELTFivetran 2019年提出 Modern ELT 口號現代數據棧Modern Data Stack03|n數據棧數據堆棧是一組對原始數據進行提取、轉換和存儲的技術或工具的組合,這些工具可以讓數據工程師和分析師能夠提取和清洗數據,將原始數據轉換為有價值的數據并存儲,然后根據需要進行分析。n意義原始的數據往往是不能提供給數據工程師和分析師直接消費的,數據??梢酝瓿沙槿?/p>
9、原始數據,轉換為有價值的數據并進行存儲,讓數據變得可消費,可分析,從而實現數據驅動業務。數據棧(Data Stack)|n現代數據?,F代數據棧是在數據棧的基礎上,使用創新的或基于云上數倉/湖的工具或技術的組合,現代數據棧構建在云上,比傳統數據棧更容易訪問和擴展。n意義現代數據?;谠粕蠘嫿ǖ奶攸c,具備傳統數據棧很難具備的彈性和擴容優勢,現代數據棧層次清晰有利于垂直領域的工具形成標準的SaaS服務,而SaaS 服務可極大地降低了運維和管理成本?,F代數據棧(Modern Data Stack)|現代數據棧圍繞 Fivetran 的現代數據棧|現代數據棧圍繞 Airbyte 的現代數據棧|現代數據棧
10、|速度相比傳統數據棧,現代數據?;谠频墓ぞ叩膹椥院蛿U容能力更加先進,執行同樣的工作速度通常會更快。成本基于云的解決方案不需要關心硬件和平臺維護,降低了開發運維成本。自動化云上的全托管和自動化服務簡化了數據集成流程,減輕了用戶負擔。易用性現代數據棧中的工具都很容易使用,用戶不需要理解底層技術細節現代數據棧優勢現代數據棧實踐Build Modern Data Stack04|現代數據棧實踐(Build Modern Data Stack)不同公司的(現代)數據棧|現代數據棧實踐圍繞 Flink CDC 的數據集成|現代數據棧實踐全量讀取全量讀取流式讀取流式讀取CDC CDC 流式讀取流式讀取維度
11、關聯維度關聯流式寫入流式寫入CDC CDC 寫入寫入數據庫(MySQL,PostgreSQL,etc.)N/A(Flink CDC)消息隊列(Kafka,etc.)數據湖(Hudi,Iceberg,etc.)數據倉庫(Hive,etc.)N/AKV 數據庫(HBase,etc.)N/AN/AFlink 集成能力|現代數據棧實踐圍繞 Flink CDC 的傳統數據棧|現代數據棧實踐圍繞 Flink CDC 的現代數據棧?裝載(L)?采集(E)計算(T)?Flink?|現代數據棧實踐圍繞 實時計算 Flink CDC 的現代數據棧?裝載(L)?采集(E)計算(T)?Flink?|現代數據棧實踐圍繞 實時計算 Flink CDC 的現代數據棧實時計算Flink版?非常感謝您的觀看|