1、數據驅動業務發展-業務指標數據體系建設及集市治理實踐張婉綺 京東 數據挖掘工程師|01業務集市現狀03未來展望02業務集市治理目錄 CONTENT|01業務集市現狀業務集市的現狀和治理要點業務集市治理背景|數據挖掘及分析數據指導決策業務迭代實踐“數據驅動力”通過數據體系系統化地獲取及分析數據,為業務決策提供有效支撐,驅動業務發展使用中臺能力,系統化構建業務指標體系通過指標及維度呈現波動分析邏輯,幫助各層管理者,實現目標管理形成“業務智慧”及運用智慧持續驅動業務發展的能力。提供高效率規范數倉能力,減少數據分析師線下工作量,提升分析效率。更多關注業務數據交付,不關注集群狀態歷史集群無序建設業務集市
2、現狀|不可知不可取不可用不可控煙囪式開發現象嚴重模型分散,冗余計算任務浪費過多集群資源??鐚右蕾噰乐貥I務數據共享度低無統一數據標準跨層依賴嚴重,讀取共享數據有明顯問題,存在大量重復讀取消耗IO資源,缺乏共享復用。業務線多,耦合性強,但數據共享度低。各業務團隊間沒有統一數據標準,數據口徑難以保持統一,質量參差不齊。業務集市治理要點|傳統集市治理工具+標準規范+歷史重構0102030504理數據定標準做規劃建模型供服務|02業務集市治理實踐業務數據體系規范化框架及業務集市治理實踐數據體系規范化框架實踐|*Eg:全量-增量*用戶行為日志流量指標用戶指標交易指標*中臺基礎模型*業務模型數據倉庫標準通用
3、基礎模型 明細業務配置*商品維表維表主題指標計算 聚合渠道商品店鋪品類模式部門*中間表-減少資源浪費在線期間運營效果復盤分析歷史數據沉淀新項目規劃數據看板展示深度分析其他系統底層支持使用場景覆蓋項目維度組合分析交叉維度*營銷指標分析支持指標體系基礎建設數據倉庫刷崗處理向下拆解向上實現精細運營復用度高數據質量逐層保障集群治理業務基礎模型規范|用建設業務數倉的思路搭建標準通用化模型。按照不同業務線組織數據,主要進行明細數據的整合,解藕數據源,簡化數倉模型使用復雜度。面向分析師通用應用場景,高效獲取統一口徑,支持常用指標和維度分析。封裝標準口徑行列裁剪維度擴展跨主題拼接治理思路-更關注模型在整條業務
4、線上的普適性及有效性,而非深陷某個具體業務或指標的拆解分析。訂單明細(快照)各業務角度用戶身份訂單明細(歷史至今全量)業務身份121業務身份2業務身份3業務身份4業務身份5用戶身份用戶寬表封裝APP層口徑訂單行粒度打標3用戶/訂單主題各指標訂單行粒度打標,支持自定義時間粒度,節約計算和存儲資源。標準 通用 維度組合集群治理業務通用模型實踐|集群治理數據指標體系|應用數據層為專題經營分析服務,模型按照具體的需求進行設計。其數據直接供數據看板產品展現使用,或者推送到其他系統做相關的數據支撐。按分析對象耦合數據,供日常查詢,提升易用性。組合度量定義主題衍生指標基礎指標業務1對比復合指標指標體系運算業
5、務2集群治理指標維度值統一|指標:訪問人數維度1ABC維度2AB維度3AC流量模型指標:下單人數交易模型維度1ABC維度2AB維度3AC指標:轉化率衍生指標維度1ABC維度2AB維度3AC?指標:訪問人數維度1ABC維度2AB維度3AC流量模型10001 998 777710001 998 777710001 998 7777指標:下單人數交易模型維度1ABC維度2AB維度3AC指標:轉化率衍生指標維度1ABC維度2AB維度3AC!根據不同的維度組合進行聚合時,對同一維度組合生成全局唯一場景值編碼,可方便快速定位到所需下鉆維度。針對Group by/GroupingSets維度組合進行全局排,
6、映射維度字段形成全局唯一編碼,并支持反推。select groupdim(維度a,維度b,維度c)返回值:10001返回值:維度a,維度b,維度cselect groupid(10001)select groupdim(維度a,維度b,維度c,維度d,維度e,維度f,grouping_id,s)返回值:10001000111abcdef返回值:10001select groupdim(維度a,維度b,維度c,維度d,維度e,維度f,grouping_id,h)groupdim(維度a,維度b,維度c)返回值:10001集群治理指標維度值統一|將發生在該SKU的歷史事實數據,按照最新的SKU及崗
7、位等維度信息,進行歷史數據回溯獲取SKU和維度信息的對應關系數據量級大維度組合爆炸刷新頻率高 明細數據量級大 多張大寬表關聯 刷崗日期范圍不斷增大 明細刷崗后需重新聚合 精細化運營下維度越來越多 日粒度刷新 時效要求高本 質集群治理ClickHouse字典刷崗|明細表直接關聯崗位的維表(left join)進行查詢在ClickHouse中將維表加載到字典,然后將明細表基于字典直接進行相應崗位的數據查詢獲取sku和部門的對應關系l 查詢效率快l 查詢邏輯簡單l 字典數據量大,占用空間大l 全量刷崗容易超內存敗x01020304字典按照sku分片縮減字段類型優化sku一對多單分片放置的數據量縮減為
8、1/分片數字典占用空間減少50%字典占用空間減少60%實現了sku一對多的業務場景優化措施|集群治理ClickHouse字典刷崗將維表中的string字段進行轉換,剔除部門name相關字段,將維表按照sku_id分布的方式推入ck,并導入字典關聯的本地表中數據切分,解決內存不夠的問題按分片reload字典按分片對字典和本地表進行0值/數據量校驗按分片刪除并創建字典應用效果:用戶26個月周期數據,每日2.5小時更新完成 1億用戶按日匯總秒級返回 30億用戶刷崗去重數據按月匯總30S內返回|集群治理ClickHouse字典刷崗|集群治理ClickHouse字典刷崗治理措施效果:對讀取頻率top的大模型進行行/列裁剪 通過信息過濾構建加速模型,減少數據量 復用度高的數據沉淀業務數倉,簡化數倉模型使用復雜度,標準化口徑支持通用維度快速關聯。維表存儲數據特性,通過拼接快速對定位數據 合理設計中間表,降低加工過程計算難度應用效果:讀倉成本降低43%應用層模型數量減少51%,存儲降低34%末端看板產品出數時間縮短3小時|集群治理ClickHouse字典刷崗|03對未來的展望展望未來|湖倉一體流批一體資源高效、應用敏捷、業務智能、安全可信自動化智能化非常感謝您的觀看|