《9-1 Apache Iceberg 在網易嚴選批流一體的實踐.pdf》由會員分享,可在線閱讀,更多相關《9-1 Apache Iceberg 在網易嚴選批流一體的實踐.pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、Apache Iceberg在網易嚴選批流一體的實踐祝佳俊網易嚴選2022-04-232目錄/CONTENTS1234數據架構現狀基于Iceberg的批流一體實踐落地情況&未來規劃Iceberg表治理Chapter01數據架構現狀數據架構現狀數據架構現狀數據架構現狀lambda架構,實時離線兩套邏輯離線數據實效性低,依賴于快照制作同步鏈路組件多,可維護性差1.批流一體?2.存儲支持Upsert?Apache IcebergApache HudiDeltaLake文件合并ManuallyAutomaticManually數據清理ManuallyAutomaticAutomatic文件格式Parq
2、uet,Avro,ORCParquet,avroParquet計算引擎Hive/Spark/Presto/FlinkHive/Spark/Presto/FlinkHive/Spark/Presto存儲引擎HDFS/S3HDFS/S3HDFS/S3/AzureSQL DMLupsertACIDTimeTravel是否支持索引可擴展的元數據存儲Schema演進方案比對 通用表格式,解耦計算引擎 存儲批流一體 Upsert和ACID Schema變更 元數據管理 數據質量保障Iceberg簡介Chapter02基于Iceberg的批流一體實踐流批一體架構新的問題消息亂序&去重處理消息亂序&去重處理消息亂序&去重處理消息亂序&去重處理消息亂序&去重處理一致性快照一致性快照一致性快照Chapter03Iceberg表治理Iceberg表治理Iceberg表治理重寫DeleteFile重寫DeleteFile合并DeleteFile重排序治理效果Chapter04落地情況&未來規劃落地情況 已完成ODS層數據產出的批流融合 離線數據延遲縮短至5分鐘 所有ODS T+1快照的制作可提前半小時 已經有500+任務穩定運行未來規劃010302更多的場景特征工程數倉DWD更好的管理產品化更快的查詢PrestoAlluxioZ-orderBloom-FilterTHANK YOUTHANK YOU