當前位置:首頁 > 報告詳情

3-1 字節跳動數據湖索引演進.pdf

上傳人: 云閑 編號:102296 2021-01-01 30頁 2.46MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

本文主要介紹了字節跳動數據平臺大數據工程師耿筱喻關于字節跳動數據湖索引演進的內容。文章首先對比了傳統數倉數據更新方式與Hudi索引作用,指出Hudi索引可以快速定位數據,避免不必要的數據讀取和更新。然后,文章提出了數據入湖的業務場景和挑戰,如實時Upsert、批量BackFill等,并指出Bloom Filter在大量數據場景下性能較差。接下來,文章詳細介紹了Bucket Index的原理、寫入流程、分區級Bucket以及查詢優化方法。最后,文章討論了Bucket Index的可擴展性問題,并提出了未來規劃,包括二級索引、Range Index等,以提升非主鍵列點查性能和點查/范圍查詢性能。
"Hudi索引如何提升數據查詢效率?" "字節跳動數據湖索引演進有哪些關鍵步驟?" "如何優化非主鍵列的點查性能?"
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站