《螞蟻基于Paimon數據湖實踐.pdf》由會員分享,可在線閱讀,更多相關《螞蟻基于Paimon數據湖實踐.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummitDataFunSummit#20242024螞蟻基于螞蟻基于PaimonPaimon數據湖實踐數據湖實踐閔文俊-螞蟻集團-技術專家自我介紹畢業于南京理工大學,畢業后一直從事大數據方向的工作.目前在螞蟻負責Flink實時計算和數據湖相關的開發工作.應用場景應用場景未來規劃未來規劃目錄目錄 CONTENTCONTENT功能改進功能改進PaimonPaimon介紹介紹DataFunSummitDataFunSummit#202420240101PaimonPaimon介紹介紹什么是Paimon?什么是Paimon?實時更新 LSM Tree Changelog Produc
2、er Merge Engine流批一體 支持流讀 支持批讀 支持Time travel 支持維表點查 全增量一體消費OLAP友好 列式存儲 Manifest Statistics Z-Order豐富生態 Hive Flink Spark Trino Presto Starrocks Doris DataFunSummitDataFunSummit#202420240202業務場景業務場景長周期去重累計長周期去重累計極速核對極速核對實時寬表構建離線查詢加速1.小時分區周期性Sort Compaction2.BloomFilter 索引難點:1.數月歷史數據回溯2.響應時效要求高DataFunSu
3、mmitDataFunSummit#202420240303功能改進功能改進Lookup Join:Full CacheLookup Join:Partial CacheLookup Join:Bucket hash joinLookup Join:Bucket hash join毫秒級維表關聯What is More?PIP-10:Introduce Paimon QueryServiceLookup BloomFilter Index Lookup Join Lookup Changelog Producer Lookup BloomFilter IndexChangelog LifeCycle Decouple如何解決實時計算中常見的回刷的需求?Changelog LifeCycle DecoupleDataFunSummitDataFunSummit#202420240404未來規劃未來規劃未來規劃 增強流讀功能 增強Flink查詢Paimon表的性能 拓展離線場景的應用和現有的離線生態融合 增強表管理,運維,自優化服務感謝觀看感謝觀看謝謝觀看