當前位置:首頁 > 報告詳情

通過 CDC、Apache Spark? 流和 Delta Lake 解鎖近實時數據復制.pdf

上傳人: 2*** 編號:139075 2023-06-04 26頁 1.50MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

DoorDash通過使用CDC、Apache Spark Streaming和Delta Lake,實現了近實時數據復制。主要內容包括:從數據庫中快速獲取數據,并在數據結構變化時進行合并;在Redshift到Snowflake的數據遷移過程中,建立了一個數據處理流程;DoorDash在2020年的數據處理狀態,包括90%的數據表已通過簡單轉儲方式導入Snowflake,要求增量表具有`updated_at`字段,并對該字段進行索引,應用程序在每次寫操作時更新該字段;項目Pepto旨在提高數據新鮮度,擁有自己的數據在現代數據湖平臺上的所有權,處理數據模式演變和后填充,并允許原本在生產數據庫上運行的分析工作負載。設計原則包括:在所有數據庫類型中使用CDC/Kafka,構建一個自助服務平臺以民主化表的上線,實現一次寫入、多次讀取,利用流式檢查點繞過遲到的數據,以及操作簡單性。項目Pepto不是與數據庫緊密耦合的服務,也不是實時系統。設計決策包括:非Kappa架構,使用“模式注冊表”固定模式,選擇Delta Lake作為其他表格式的替代品。在穩態模式、重建模式和批量合并模式下運行。項目Pepto的成果包括:表上線時間縮短至小于1小時,自助服務;運行在1000個EC2節點上的450個流,每天輸入約800GB數據,重寫約80TB數據,數據新鮮度約為7-30分鐘。挑戰和學習包括:檢查點解決了許多問題,類型轉換很困難,每個適配器都有兩個序列化器,大型表在操作上具有挑戰性,狀態管理困難,Databricks API的冪等性保證簡化了很多問題。未來的工作包括:將在線數據庫的Ad Hoc查詢遷移到Delta Lake工作負載,在Medallion架構中進行流式PII模糊處理,以及處理源數據的模式變更。
"DoorDash如何實現數據實時復制?" "如何在Delta Lake上處理數據庫表的schema演變?" "DoorDash如何通過Project Pepto提高數據處理效率?"
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站