《3. 數倉ClickHouse多維分析應用實踐-朱元.pdf》由會員分享,可在線閱讀,更多相關《3. 數倉ClickHouse多維分析應用實踐-朱元.pdf(14頁珍藏版)》請在三個皮匠報告上搜索。
1、clickhouse數倉應用實踐 演講人:朱元日期: 2019-10-20 所遇問題 目錄 CONTENTS 現狀背景 應用實踐 01 數據鏈路長 現狀 即席查詢性能差 數據壓縮率低 需求響應慢 02 數據架構 數據同步ck 01 1,基于公司對數據要求為T+1 2.基于現有開發人員水平及成本 因此采用可視化同步工具kettle. 先將oracle數據平臺維度信息以及相關主題清單數據同步至clichouse數據 倉庫 Oracle數據平臺 通過kettle每天 定時導出文件至 本地 Etl服務器 通過clickhouse- client將文本導 入ck數據庫 clickhouse數據庫 數 倉
2、 建 設 01 ck數倉數據模型采用星型模型搭建 02 數 倉 建 設 維度表 一般維度表數據量不大. 目前采用的是引擎Log+字典表(dictionary) 數 倉 建 設 主題事實清單表 主題事實清單表采用引擎MergeTree. 同步策略: 每日從 oracle數據平臺增量同步到ck數倉. 數 倉 建 設 對外數據 目前對外開放是主題事實清單表+維度表 封裝成一個視圖,類 似如下 數 據 展 示 + 多 維 分析 采用開源報表系統davinci 地址: https:/ 03 1. Memory limit (for query) exceeded 解決:通過在users.xml 配置 max_bytes_before_external_sort max_bytes_before_external_group_by 2. 用戶并發量一上來,負載太高 解決:目前是在中間加redis緩存