當前位置：首頁 > 報告詳情

3-1 字節跳動數據湖索引演進.pdf

上傳人：云閑編號：102296 2021-01-01 PDF PDF 30頁 2.46MB

該報告所屬合集： DataFunSummit：2022年多維分析峰會嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/30

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《3-1 字節跳動數據湖索引演進.pdf》由會員分享，可在線閱讀，更多相關《3-1 字節跳動數據湖索引演進.pdf（30頁珍藏版）》請在三個皮匠報告上搜索。

1、字節跳動數據湖索引演進耿筱喻字節跳動數據平臺大數據工程師01HUDI索引介紹索引介紹02問題與挑戰問題與挑戰03字節數據湖索引演進字節數據湖索引演進04未來規劃未來規劃目錄目錄CONTENTHUDI 索引介紹01傳統數倉數據更新在傳統 Hive 數倉的場景下，數據更新方式為:增量 Join 全量-覆蓋歷史分區讀全部文件更新全部文件JoinHudi 索引作用更新數據可以快速被定位到對應的 File Group避免讀取不必要文件避免更新不必要文件全局 Join-Local JoinHudi 索引類型問題與挑戰02數據入湖的業務場景實時 Upsert小時/天級批量 BackFill(Upsert)

2、數據入湖的業務場景單分區 40000 個File Group30 TB 數據量5 千億條記錄數Bloom Filter 性能非常差，入湖速度慢Hudi 索引類型字節數據湖索引演進03Bucket Index 基本原理一種基于哈希的索引邏輯層面提供 Key BucketId File GroupId 的映射關系Bucket Index 寫入流程Bucket Index 分區級 BucketBucket Index 查詢優化Case1:表 T1/2 按A列分桶，AB 列(超集)JoinCase2:表 T1按A列分桶，A列 JoinBucket Index 查詢優化 Coalesce分桶數與 Shu

3、ffle 并行度成倍數關系分桶數 Shuffle 并行度Bucket Index 查詢優化 Bucket Pruning點查列=分桶列查全部文件查單個文件Bucket Index-Extensible Bucket IndexBucket Index 可擴展性差？Bucket Index-Extensible Bucket Index您公司的logo|Extensible Bucket Index 基礎原理Extensible Bucket Index 基礎原理Non Index 非主鍵入湖比如:日志入湖特點：UUID-No IndexUpsert-Insert/AppendNon Inde

4、x 非主鍵入湖現有的索引體系必須要 Locate+數據重新分布Non Index 非主鍵入湖您公司的logo|未來規劃04未來規劃二級索引目標：提升非主鍵列點查性能基于二級索引列構造 Bloom Filter+Multi-Modal Index支持初始索引異步構建支持事務更新未來規劃 Range Index目標：提升點查/范圍查詢性能社區工作Bucket Index0.11Hudi Metastore RFC-36 0.12/1.0Table Management Service RFC-43 0.12/1.0Decouple Avro RFC-46 0.12Embedded Timeline Server RFC-50 1.0Flink 支持 Cluster 0.12NonIndex HUDI-2624非常感謝您的觀看

相關圖表

本文主要介紹了字節跳動數據平臺大數據工程師耿筱喻關于字節跳動數據湖索引演進的內容。文章首先對比了傳統數倉數據更新方式與Hudi索引作用，指出Hudi索引可以快速定位數據，避免不必要的數據讀取和更新。然后，文章提出了數據入湖的業務場景和挑戰，如實時Upsert、批量BackFill等，并指出Bloom Filter在大量數據場景下性能較差。接下來，文章詳細介紹了Bucket Index的原理、寫入流程、分區級Bucket以及查詢優化方法。最后，文章討論了Bucket Index的可擴展性問題，并提出了未來規劃，包括二級索引、Range Index等，以提升非主鍵列點查性能和點查/范圍查詢性能。

"Hudi索引如何提升數據查詢效率？" "字節跳動數據湖索引演進有哪些關鍵步驟？" "如何優化非主鍵列的點查性能？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站