《嗶哩嗶哩基于Iceberg的智能數據組織優化實踐-楊金德-初稿.pdf》由會員分享,可在線閱讀,更多相關《嗶哩嗶哩基于Iceberg的智能數據組織優化實踐-楊金德-初稿.pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummitDataFunSummit#20242024嗶哩嗶哩基于嗶哩嗶哩基于IcebergIceberg的智能數的智能數據組織優化實踐據組織優化實踐楊金德-嗶哩嗶哩-高級開發工程師智能優化背景智能優化背景智能優化實踐方案智能優化實踐方案智能優化成果及規劃智能優化成果及規劃目錄目錄 CONTENTCONTENTDataFunSummitDataFunSummit#202420240101智能優化背景智能優化背景湖倉一體架構與現狀 Iceberg表數量2K,數據總量40PB,日增100TB Trino日查詢量3M,P99響應時間3sIceberg on HDFSFlinkSpar
2、kSDKTrinoAlluxio實時ETL離線ETL實時ETL交互式分析Magnus數據優化Iceberg on HDFSOLAP場景查詢加速 排序 多維排序:Z-order、Hilbert Curve 索引 一般場景:BloomFilter、Bitmap、BloomRangeFilter 日志場景:TokenBloomFilter、NgramBloomFilter、TokenBitmap、NgramBitmap 預計算:聚合計算優化用戶使用門檻高 利用這些豐富強大的優化手段實現查詢加速,要求用戶:對業務查詢模式有清晰認知 具備相關基礎知識 如何解決?自動分析用戶查詢,為Iceberg表配置合
3、理的優化手段,透明地實現查詢加速DataFunSummitDataFunSummit#202420240202智能優化實踐方案智能優化實踐方案概覽 查詢模式分析 智能推薦 數據優化查詢模式分析 需要分析什么類型的查詢模式?以排序為例:提高字段聚集性,使得Iceberg文件級別MinMax索引可以過濾數據 過濾條件 在order by查詢中可以省下局部排序的成本 order by字段及類型 過濾條件:字段 類型:等值、范圍 是否能下推到Iceberg connector查詢模式分析 過濾模式:過濾字段及過濾類型組合的集合 Trino在生成邏輯計劃的同時分析查詢過濾模式,記錄在查詢信息中 Magn
4、us分析模塊每天讀取前一天的所有查詢信息,將過濾模式按表聚合后,為智能推薦模塊提供決策依據智能推薦 過濾模式統計信息按字段聚合后,可以得出每個字段出現在過濾條件的百分比,作為排序字段選擇依據 多維排序:如何對比不同排序策略的優劣?采樣數據,應用排序結果,通過查詢對比:結果較準,但成本過高 搭建估值模型對比:結果取決于模型準確度,成本低智能推薦 建立以過濾百分比為主、字段基數為輔的模型,配合經驗性規則進行決策 其他涉及的統計信息:最細粒度分區大小/文件數 查詢耗時 查詢讀取數據量智能推薦 Magnus推薦模塊每周對Iceberg表生成一組推薦的配置,同時將推薦配置應用到表里數據優化 異步提交Spark任務優化數據整體設計DataFunSummitDataFunSummit#202420240303智能優化成果及規劃智能優化成果及規劃成果 項目上線三個月,對用戶未配置任何優化的Iceberg表生效,累計優化33張表:30天總讀取數據量減少147TB,與優化前相比減少28%30%的表讀取數據量減少超過60%未來規劃 提高推薦準確率 利用表數據分布等更詳細的統計信息輔助決策 使用機器學習或者AI算法提高決策模型的準確率 支持更多查詢場景和優化手段 分析查詢topn字段,配置排序 分析查詢聚合模式,配置預計算 應用智能優化調整用戶的不合理配置感謝觀看感謝觀看謝謝觀看