《第三代指標平臺如何做輕數倉_大應科技杜雪芳_20240419.pdf》由會員分享,可在線閱讀,更多相關《第三代指標平臺如何做輕數倉_大應科技杜雪芳_20240419.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、D Da at ta aF Fu un nC Co on n#2 20 02 24 4杜雪芳Aloudata 合伙人&首席業務架構師第第三三代代指指標標平平臺臺如如何何做做“輕輕”數數倉倉D a t a F u n 上海站嘉賓專享C Co on nt te en nt ts s目目錄錄1.ETL 的原罪與 NoETL 的全新思路2.第三代指標平臺的能力與價值3.第三代指標平臺做“輕”數倉實踐D a t a F u n 上海站嘉賓專享0 01 1.E ET TL L 的的原原罪罪與與 N No oE ET TL L 全全新新思思路路D a t a F u n 上海站嘉賓專享應應對對數數智智化化分
2、分析析需需求求,反反范范式式 E ET TL L 加加工工不不堪堪重重負負D DB B指標匯總表原始表原始表原始表管理層分析師業務人員SQL廣告系統推薦系統營銷系統寬表寬表接口表接口表各種不同粒度的事實表原始表L Lo og g原始表原始表多多來來源源,數數據據源源爆爆炸炸明細事實表維表維表明細事實表多多場場景景,用用數數需需求求爆爆炸炸文本、圖片、視頻日志數據庫從數字化管理到數智化運營,數據管道不斷生長(Endless data pipelines),數據管理難度上升D a t a F u n 上海站嘉賓專享E ET TL L 工工程程陷陷入入“效效率率、質質量量、成成本本”的的不不可可能能
3、三三角角效效率率ETL 環節成為數據分析效率的核心瓶頸業務需求反復溝通,更迭,排期,實施需求響應時長大于 2 周80%的數據需求沒有被有效滿足計算存儲成本高,ROI 低,人效差面向場景重復構建相似寬表,引發寬表爆炸超過 70%的寬表字段有更新未使用寬表更新、查詢消耗大量存算成本質質量量指標不一致、數據不一致嚴重影響業務決策同一指標不同數據開發鏈路,指標口徑不一致同一指標口徑變更涉及多張表,變更遺漏低質量低效率高成本不不存存在在成成本本D a t a F u n 上海站嘉賓專享如如何何將將效效率率、質質量量、成成本本的的不不可可能能三三角角,變變成成可可能能?人人工工-N No oE ET TL
4、 L 自自動動化化 不不開開發發寬寬表表匯匯總總表表D a t a F u n 上海站嘉賓專享人人工工開開發發寬寬表表匯匯總總表表 -N No oE ET TL L 自自動動化化的的核核心心技技術術能能力力數數倉倉應應用用層層 N No oE ET TL L,做做“輕輕”數數倉倉語語義義化化強大的指標定義能力強強大大的的語語義義模模型型和和函函數數能能力力,復復雜雜指指標標實實現現配配置置化化定定義義,實實現現數數據據加加工工者者與與消消費費者者隔隔離離,做做輕輕數數倉倉自自動動化化自動的指標開發基基于于自自研研的的物物化化加加速速引引擎擎,I IT T 無無需需開開發發寬寬表表與與匯匯總總表
5、表,系系統統自自動動編編排排、物物化化與與回回收收數數據據D a t a F u n 上海站嘉賓專享語語義義化化指指標標定定義義的的6 6大大核核心心核核心心能能力力1 1基基于于數數據據模模型型的的標標準準化化指指標標定定義義構構建建數數據據模模型型構建數據表邏輯關系統統一一指指標標要要素素原子指標/時間限定/業務限定/衍生方式/維度指指標標要要素素組組合合派生指標=原子指標+時間限定+業務限定+衍生方式2 2基基于于函函數數體體系系靈靈活活進進行行指指標標定定義義通通用用函函數數體體系系文本、數學、時間、聚合邏輯函數等窗窗口口函函數數體體系系排名、累計、位移、滑動等分分析析函函數數體體系系
6、預聚合函數、計算調節函數、快速計算函數等3 3基基于于多多層層次次多多聚聚合合構構建建依依賴賴 D DA AG G基基于于復復雜雜指指標標構構建建多多層層次次的的依依賴賴 D DA AG G基基于于 N No od de e 定定義義統統一一的的查查詢詢要要素素多多聚聚合合依依賴賴關關系系構構建建4 4基基于于指指標標要要素素構構建建查查詢詢 S SQ QL L指指標標要要素素轉轉計計算算N No od de e基基于于計計算算 N No od de e 構構建建完完整整 S SQ QL L5 5基基于于指指標標定定義義對對S SQ QL L 進進行行優優化化基基于于指指標標計計算算的的優優化
7、化模型關系關聯鍵篩選下推、AGG 合并、查詢裁剪等基基于于 R RB BO O 進進行行優優化化Limit 下推、子查詢裁剪、列裁剪、篩選下推等6 6基基于于內內存存計計算算引引擎擎提提升升查查詢詢效效率率內內存存計計算算分分析析器器指標復雜度評估體系、RBO/CBO 拆分、DAG 等內內存存計計算算路路由由器器任務管理、任務提交、隊列管控等內內存存計計算算執執行行器器計算算子執行、緩存機制等D a t a F u n 上海站嘉賓專享基基于于指指標標語語義義,抽抽象象有有限限的的原原子子指指標標,實實現現無無限限的的派派生生指指標標覆覆蓋蓋維度表事實表維度表維度表維度表原原子子指指標標累加、半
8、累加、不可累加維維度度維值映射、指標轉維度派派生生指指標標原子指標+統計周期+業務限定+衍生方式語語義義模模型型原子指標定義支持可累加指標e.g.交易金額半累加指標e.g.期末存款余額不可累加指標e.g.開卡用戶數指指標標定定義義目目標標指指標標定定義義方方法法指指標標定定義義能能力力一一次次定定義義、多多次次復復用用,一一處處修修改改,處處處處生生效效時時段段累累計計e.g.本年月日均值最大值時間平移-同環比e.g.貸款余額比月初窗口函數-累計e.g:累計訂單量窗口計算e.g.店鋪銷量排名同期群e.g.留存率、復購率漏斗類e.g.領券開卡率時時間間智智能能窗窗口口函函數數分分析析函函數數派生
9、指標定義支持指指標標計計算算邏邏輯輯只只有有沉沉淀淀在在指指標標平平臺臺,才才能能實實現現指指標標統統一一管管理理和和口口徑徑一一致致 (多層)(指標結果轉業務限定)一一個個指指標標,多多維維度度分分析析一一個個維維度度,多多指指標標分分析析D a t a F u n 上海站嘉賓專享基基于于指指標標語語義義自自動動物物化化加加速速,保保障障指指標標查查詢詢性性能能物物化化加加速速指指標標加加速速策策略略0 03 30 02 20 01 10 04 4物物化化視視圖圖調調度度更更新新根據物化視圖 DAG 依賴關系進行物化視圖的調度以及更新物物化化視視圖圖命命中中與與改改寫寫根據用戶的查詢以及已有
10、的物化視圖來進行匹配改寫物物化化視視圖圖的的構構建建基于用戶的指標、維度、篩選、分區范圍等構建物化視圖物物化化視視圖圖回回收收根據物化視圖使用情況以及節點依賴關系進行物化視圖的回收D a t a F u n 上海站嘉賓專享物物化化視視圖圖構構建建策策略略事事實實表表維維表表維維表表事事實實表表自自動動化化寬寬表表/星星型型模模型型普普通通聚聚合合物物化化視視圖圖行行間間偏偏移移計計算算物物化化視視圖圖復復雜雜指指標標整整體體物物化化視視圖圖結結果果物物化化視視圖圖性能逐步提升復用性/靈活性逐步提升加加速速粒粒度度可可調調可基于實際需求(性能、成本)做到動動態態可可調調節節的加速粒度中中間間節節
11、點點可可復復用用基于物化視圖構建物化視圖,實現中中間間節節點點的的復復用用性性,節省計算資源和成本動動態態 D DA AG G 任任務務調調度度基于物化視圖動動態態構構建建任任務務 D DA AG G 依依賴賴樹樹,避免計算資源的無效消耗D a t a F u n 上海站嘉賓專享冗冗余余維維度度打打寬寬1用戶表訂單表商品表門店表物流表預預打打寬寬:根據語義數據模型,將常用的維度與明細事實表進行關聯打寬訂單寬表物流寬表同同事事實實同同實實體體合合并并計計算算2物物化化表表 T T1 1維度:日、地區、城市.指標:訂單筆數、訂單人數物物化化表表 T T2 2維度:日、商品 ID、品類.指標:訂單筆
12、數、訂單人數物物化化表表 T T3 3維度:日、商品 ID、品類.指標:發貨訂單數長長周周期期依依賴賴短短周周期期3物物化化表表 T T4 4維度:日、地區、城市指標:近 1 日訂單筆數物物化化表表 T T5 5維度:月、地區、城市指標:當月訂單筆數細細粒粒度度上上卷卷聚聚合合計計算算4物物化化表表 T T6 6維度:a、b、c、d指標:近 1 日訂單筆數物物化化表表 T T7 7維度:a、b指標:近 1 日訂單筆數集集成成最最佳佳數數據據工工程程實實踐踐的的物物化化加加速速策策略略D a t a F u n 上海站嘉賓專享基基于于指指標標血血緣緣實實現現物物化化視視圖圖自自動動變變更更與與回
13、回刷刷SensorSensorSensorSensorSensorSensorSensorSensorDimension Source(1)Dimension Source(2)Dimension Source(3)Dimension Source(4)Fact Source(A)Fact Source(B)Fact Source(C)Fact Source(D)DataSet(A)DataSet(B)DataSet(C)DataSet(D)DataSet(1)DataSet(2)DataSet(3)DataSet(4)Atom Metric(A)Atom Metric(B)Atom Metr
14、ic(C)Atom Metric(D)Derived Metric(A)Derived Metric(B)Derived Metric(C)Composite Metric(A)Analysis View(A)Analysis View(B)MV AMV BMV CMV DSensorFact Source(E)DataSet(E)Atom Metric(E)Derived Metric(D)Composite Metric(B)構構建建基基于于指指標標血血緣緣的的網網絡絡算算子子圖圖譜譜,可可基基于于單單個個維維度度/口口徑徑完完成成版版本本級級數數據據的的刷刷新新D a t a F u n
15、 上海站嘉賓專享物物化化視視圖圖命命中中策策略略U Us se er r A AP PP PB BI IAloudata CAN ServerQuery查詢轉成 Node DAGNode 遍歷當前 Node 是否滿足結結果果物物化化視視圖圖命中?當前 Node 是否滿足行行間間偏偏移移物物化化視視圖圖命中?當前 Node 是否滿足普普通通物物化化視視圖圖命中?當前 Node 是否滿足星星型型物物化化視視圖圖命中?是否存在多個可匹配的物化視圖?基于命中的物化視圖查詢基于原始數據查詢否否否選擇最優的物化視圖(維度相似、數據范圍小、日期粒度接近等)否是D a t a F u n 上海站嘉賓專享小小結
16、結:N No oE ET TL L 自自動動化化指指標標平平臺臺的的核核心心能能力力第二代指標平臺(依賴 IT 開發寬表)第三代指標平臺(NoETL 自動化)1語義化強大的語義模型和指標定義能力,任意復雜指標能夠被定義,可管理2自動化實現復雜指標能夠被自動計算&加速,實現性能好、效率快、質量高D a t a F u n 上海站嘉賓專享0 02 2.第第三三代代指指標標平平臺臺的的 能能力力與與價價值值D a t a F u n 上海站嘉賓專享第第三三代代指指標標平平臺臺:A Al lo ou ud da at ta a C CA AN N看看得得懂懂口徑清晰,權責明確鏈路可視,變更可查管管得得
17、住住一處定義,處處使用一處變更,處處生效用用得得好好一個指標,多維分析一個指標,靈活篩選定定義義即即治治理理:1 10 00 0%指指標標口口徑徑一一致致基于強大的語義建模和指標要素配置化定義,系統自動進行“同名不同義、同義不同名”的判重校驗定定義義即即開開發發:開開發發周周期期從從周周縮縮短短到到分分鐘鐘依托虛擬化引擎能力,系統代持寬表與匯總表的反范式加工,指標自動物化加速,實現“定義即生產”定定義義即即沉沉淀淀:降降低低指指標標溝溝通通成成本本指標業務語義的統一沉淀,統一業務用數語言,并提供字段級血緣和指標多版本,清晰指標加工全鏈路并掌握指標歷史變更記錄定定義義即即消消費費:一一個個指指標
18、標,多多場場景景消消費費提供 API、JDBC 標準化接口,支持指標、維度、篩選、時間范圍等靈活的接口參數,實現“一個指標,多場景消費”D a t a F u n 上海站嘉賓專享對對I IT T的的價價值值:數數倉倉應應用用層層 N No oE ET TL L,減減少少大大量量指指標標開開發發和和運運維維指指標標平平臺臺場場景景管理駕駛艙經營核心看板業務自助分析AI 應用Copilot指指標標管管理理語語義義層層維維度度管管理理統統計計周周期期管管理理權權限限管管理理基礎指標派生指標復合指標字段映射自定義維度自定義日期標識統計周期管理查看權限數據權限公公共共層層數數據據倉倉庫庫主題域1主題域2
19、主題域3主題域4主題域5主題域.D DWWD DD DI IMM用戶維度物料維度店鋪維度ODS1ODS2ODS3.ODSn貼貼源源層層D a t a F u n 上海站嘉賓專享對對業業務務的的價價值值:以以指指標標為為中中心心,提提供供智智能能且且靈靈活活的的洞洞察察分分析析指標語義層+大模型,精準對話式分析C Ch ha at tB BI I一個指標,任意維度下鉆一個維度,串聯任意指標以以“指指標標”為為中中心心的的靈靈活活分分析析從廣度到深度:因子歸因+維度歸因指指標標智智能能歸歸因因D a t a F u n 上海站嘉賓專享0 03 3.第第三三代代指指標標平平臺臺 做做輕輕數數倉倉實實
20、踐踐D a t a F u n 上海站嘉賓專享某某證證券券公公司司現現狀狀與與痛痛點點該證券公司經過二十余年的穩健發展,是一家具有全牌照經營資質的綜合類證券公司,公司已建設有大量信息化應用系統,但經內部調研發現,依然存在數據應用開發工工作作鏈鏈路路長長、開開發發效效率率低低、重重復復開開發發、口口徑徑不不一一致致等情況。E ET TL L 任任務務多多數據集市層定義大量 ETL 任務,并設置專崗進行 ETL 維護,工作繁重、機械指指標標變變更更維維護護難難證券行業專業知識程度高,指標口徑溝通與核對費時、費力,變更維護成本高業業務務需需求求急急業務需求的靈活性和緊迫性對數據開發工程師的響應速度和
21、傳統開發模式帶來挑戰E ET TL L 任任務務多多指指標標變變更更維維護護難難業業務務需需求求急急D a t a F u n 上海站嘉賓專享破破解解之之道道:管管研研用用一一體體的的指指標標平平臺臺,讓讓數數據據更更快快更更好好服服務務業業務務方方案案亮亮點點無無需需開開發發應應用用層層表表,運運維維成成本本低低重新定義了指標開發模式,從 IT建設大量數據集市層表-集市層 NoETL解解決決方方案案:基基于于公公共共層層明明細細表表定定義義指指標標,建建設設企企業業級級統統一一指指標標庫庫指指標標復復用用,I IT T 只只定定義義原原子子指指標標IT 只需定義原子指標,業務人員通過原子指標
22、+維度靈活組裝派生指標以以指指標標為為中中心心的的業業務務自自助助分分析析屏蔽底層表和字段,業務靈活拖拽指標和維度開展分析,使用門檻低D a t a F u n 上海站嘉賓專享證證券券公公司司落落地地效效果果減減少少 7 70 0%指指標標開開發發基于明細表定義 80+原子指標,滿足資管業務所有分析需求ETL 工程師分析需求物理表開發業務人員以以數數據據集集為為中中心心,口口徑徑混混亂亂,分分析析維維度度固固定定B Be ef fo or re e業業務務人人員員指標任意維度E ET TL L 工工程程師師原子指標定義無需任何語言開發以以指指標標為為中中心心,口口徑徑一一致致,分分析析維維度度
23、靈靈活活A Af ft te er r開開發發效效率率提提升升 1 1,6 60 00 0%降低指標定義門檻,原來 1 天加工 3.1 個指標-半天加工 20+指標D a t a F u n 上海站嘉賓專享某某頭頭部部股股份份制制銀銀行行現現狀狀與與痛痛點點需求靈活性的擴大及業務用戶對技術指標考慮較少,做出來的報表存在性能體驗問題。查詢性能依賴于專家經驗下的數據模型設計,難以動態適應不斷變化的業務需求。數據需求的變更時有發生,用戶看完第一批數據,產生了更多的想法,需要補充數據進一步分析;在上下級機構之間保障指標口徑一致的同時,又能給下游用戶一定的靈活性,是常見的數據需求??傂?、分行使用了不同的
24、技術方案、工具,客觀上給總分機構、各業務條線指標復用帶來了較大挑戰,導致同一個指標無法做到跨產品、跨機構、跨工具共享使用。B BI I 場場景景性性能能問問題題凸凸顯顯亟亟需需突突破破數數據據需需求求的的最最后后一一公公里里跨跨機機構構、跨跨工工具具共共享享挑挑戰戰D a t a F u n 上海站嘉賓專享解解決決方方案案:提提供供指指標標語語義義層層服服務務,實實現現指指標標統統一一沉沉淀淀與與復復用用語義模型構建指標定義統一指標語義服務OSS數據虛擬化引擎商業智能系統數據編排平臺火眼智策天瞳云圖方方案案優優勢勢數數據據交交付付效效率率 1 10 0 倍倍提提升升用戶可自助完成數據集/指標的
25、定義,系統自動物化加速保障查詢性能,數據交付效率由 2 周縮短至 1 天提提升升分分析析的的精精細細度度與與靈靈活活性性支持用戶從任意維度、任意顆粒度靈活分析,如實現從以前的客群級分析向客戶交易級分析升級指指標標語語義義復復用用及及共共享享建立了統一的指標語義標準及消費通道,支持以 API,JDBC,文件等多種形式,對外提供服務維度定義D a t a F u n 上海站嘉賓專享頭頭部部股股份份制制銀銀行行一一期期落落地地效效果果6 65 5%(自助交付數據集)1 1萬萬+指標沉淀 3 3s s 占占比比 9 95 5%(性能)零售條線批發條線D a t a F u n 上海站嘉賓專享“1 13 36 6”的的指指標標建建設設與與協協作作模模式式定定義義核核心心原原子子指指標標1 10 0%篩篩選選維維度度和和限限定定使使用用6 60 0%配配置置化化定定義義業業務務派派生生指指標標3 30 0%科技人員業務分析師終端用戶D a t a F u n 上海站嘉賓專享Aloudata 公眾號產品咨詢D a t a F u n 上海站嘉賓專享T Th ha an nk k y yo ou u.D a t a F u n 上海站嘉賓專享