2020Flink峰會報告:6- Flink SQL-TSY.pdf

編號:29337 PDF 39頁 9.35MB 下載積分:VIP專享
下載報告請您先登錄!

2020Flink峰會報告:6- Flink SQL-TSY.pdf

1、數據接入數據接入 #2 數倉數倉與數據集成與數據集成 #1 數據入倉湖數據入倉湖 #3 數據打寬數據打寬 ( Joins )( Joins ) #4 總結總結 #5 #1 數倉與數據集成 數據倉庫 與 數據集成 數據倉庫是一個集成的(Integrated),面向主題的(Subject-Oriented),隨時 間變化的(Time-Variant),不可修改的(Nonvolatile)數據集合,用于支持管 理決策。 數據倉庫之父 Bill Inmon 于1990年提出 數據倉庫的首要目的:數據集成,將多個分散的、異構的數據源整合在一起,便于 后續分析。 數據集成 與 ETL 數據集成的主要步驟:

2、 數據接入(Extract) 數據清洗、打寬 (Transformation) 數據入倉、入湖 (Load) E T L 傳統數據倉庫 主要的問題: 實時、離線數倉兩套割裂的鏈路,造成重復工作,重復資源消耗 實時、離線底層數據模型不一致,數據一致性和質量難以保障 ETL 數據集成 Hive HDFS KafkaKafka ODS ODS DWD DWD 業務數據庫 業務日志 實時數倉 離線數倉 業務數據庫 業務日志 Binlog 采集 定時 Query Flume DIM DIM Hive 打寬 打寬 DWS Kafka 服務層 (OLAP/KV/RDS) Hive DWS 服務層 (OLAP

3、/KV/RDS) Flume Sqoop Canal Hive DB Flink Hive MR 流批一體的 ETL 數據集成 核心區別: Flink 原生支持 CDC,接入數據庫數據更方便 強大靈活的維表關聯能力,滿足不同工作負載和時效性需求 實時層做數據接入和數據轉換,離線數倉通過實時明細層回流 Flink 流式寫入 Hive,自動合并小文件 優勢: 統一基礎公共數據,保障一致性 提升離線數倉時效性 減少組件和鏈路的維護 Hive Kafka ODSDWD DWD 實時離線一體數倉 DIM 打寬 DWS Kafka 服務層 (OLAP/KV/RDS) Hive DWS 服務層 (OLAP/KV/RDS) 流式入倉 DB/Kafka/Hive Kafka 業務數據庫 業務日志 Binlog 采集 Flume CDC 日志采集 Flink #2 數據接入 Kafka 業務數據庫 業務日志

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(2020Flink峰會報告:6- Flink SQL-TSY.pdf)為本站 (X-iao) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站