《Apache Paimon 實時數據湖|Streaming Lakehouse 的存儲底座.pdf》由會員分享,可在線閱讀,更多相關《Apache Paimon 實時數據湖|Streaming Lakehouse 的存儲底座.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、Apache Paimon 實時數據湖Streaming Lakehouse 的存儲底座李勁松/阿里云開源大數據表存儲團隊負責人Streaming lakehouse meetup關于演講者l 2015年畢業于電科技學,并職阿云從事上代流計算平臺 Galaxy 研發l 相繼從事 流計算、批計算、湖存儲,并成為 Apache Flink PMC 成員,Apache Beam&Iceberg Committerl 前是阿云級技術專家,開源數據表存儲團隊負責,負責 Apache Paimon 的研發和產品,專注流式湖倉技術與產品流計算邂逅數據湖0101CONTENT目錄 0202Paimon CDC
2、 實時入湖0303Paimon 不止 CDC 入湖0404總結與生態01流計算邂逅數據湖流計算 1.0 實時預處理查詢超快:向業務在線查詢靈活度低:向業務定制化開發定制化靈活性低,查詢模式受限流計算 2.0 實時數倉存儲成本,只能保存較珍貴的數據查詢較快:向量化計算 SSD存儲靈活度中:存儲 Schema 化,SQL 查詢流計算 3.0 實時湖倉實時湖倉挑戰:CDC 湖查詢較慢:批查詢,可通過 DataSkipping 加速查詢靈活度:存儲 Schema 化全量數據,通 SQL 查詢Apache Paimon is a streaming data lake platform that sup
3、ports high-speed data ingestion,change data trackingand efficient real-time analytics.Apache Paimon:一個專門為 CDC 處理、流計算而生的數據湖。希望帶來你舒服、自動的湖上流處理體驗。02Paimon CDC 實時入湖傳統 Hive CDC 倉實時數據湖:按主鍵更新全量表與增量表存儲成本和計算成本都很延時,T+1+合并時延Paimon CDC 湖全流程表三延時低:實時查詢、離線查詢、增量查詢一鍵 CDC 湖:最簡單的同步性能湖:計算成本低低成本存儲:基于 LSM 復件Paimon CDC 簡單的
4、數據集成Data Lake(HDFS/OSS/S3)01010101010101Schema Evolution寬表合并Sync MetaMetaFlink CDC整庫同步Changelog Data批寫Data鍵湖:數據+Schema 變更整庫同步:個作業搞定切 MySql 單表同步 MySql 整庫同步 Kafka 單表同步 Kafka 整庫同步 RichCdcRecord 編程同步Paimon 性能湖調優指南Paimon 提供靈活的參數讓你在 寫性能、查詢性能、存儲空間 權衡Paimon Tag 實時離線融合Snapshots:流不斷產新的 SnapshotTags:Tag 是離線的視圖
5、配置每天0點10分鐘創建個 Tag,最保留3個的 Tag,Flink 流式寫,動創建 Tags,動清理 Tags表三:查詢最新數據 查詢 Tag 的歷史數據 查詢增量數據Paimon LSM 件存儲的復基于 LSM 復件多個 Tags 之前最層可能完全樣,件全復!(調整 Levels 參數來達到更的復)03Paimon 不止 CDC 入湖Paimon 重進展Paimon Streaming LakeSparkStarRocksDorisPrestoSQL超83位貢獻者繁榮的態各場景全可MaxComputePartial-UpdateSequence GroupFirst RowMerge En
6、gineLookup Changelog-Producer合并元數據HivePartitioned TableManifestFull CompactionStatisticsMode動態 BucketAppend 離線表Tag內核Flink CDC 同步Kafka 同步CombinedSink湖態跨分區更新Paimon 數據打寬 Flink Lookup Join Partial Update(Sequence-Group)Flink 雙流 Join成本維表法更新外鍵打寬?To Be Continue Paimon 消息隊列替代嚴格保序!消息隊列樣持 Watermark 且對動合并件持 Co
7、nsumer-ID(類 Kafka Group-ID)Append 表(主鍵)-Bucket=3Paimon 離線表替代Append 表(主鍵)-Bucket=-1持批讀批寫 INSERT OVERWRITE持流讀流寫 動合并件持湖存儲特性 ACID Time Travel(即將來臨)Z-Order 排序加速查詢、DELETE/UPDATE 持04總結與生態總結1.流計算新時代:流式數據湖2.Paimon 核能:CDC 湖3.Paimon 功能集合:寬表、流讀、消息隊列替代、離線表替代4.Paimon 基本成熟,是 Streaming Lake 的優選Streaming Lakehouse 態
8、陣容統一的數據湖存儲統一的數據湖管理統一的數據湖格式LogsRDBMSFlink Table StoreFlink Table StoreFlink SQLStreaming&BatchFlink SQLStreaming&BatchbinlogData ServingSystemsFlink SQLQueriesFlink Table StoreODSDWDDWSADSFlink SQLStreaming&BatchPaimonPaimonPaimonFlink CDC向全引擎可查Flink 最佳集成Spark 深度集成阿云實踐Data Lake(HDFS/OSS/S3)01010101010101MetaData湖CTASCDAS流讀數據計算通過 Metastore 完美集成到數倉中Thanks Streaming lakehouse meetup關注微信公眾號:Apache Paimon,了解業實踐與最新動態Paimon 交流釘釘群:搜索10880001919,討論技術并得到實時的持Githubhttps:/