《1-2 數倉規范化—菜鳥數據模型管理實踐.pdf》由會員分享,可在線閱讀,更多相關《1-2 數倉規范化—菜鳥數據模型管理實踐.pdf(32頁珍藏版)》請在三個皮匠報告上搜索。
1、數倉規范化-菜鳥數據模型管理實踐總體方案篇王智龍 菜鳥末端數倉公共層模型負責人平臺建設篇董晃菜鳥公共數據數倉研發工程師|01菜鳥末端業務介紹03數據建模平臺建設02模型管理整體規劃04總結&展望目錄CONTENT|菜鳥末端業務介紹01|菜鳥末端業務簡介菜鳥驛站建立面向社區和校園的物流服務平臺,為用戶提供包裹代收、代寄等服務,致力于為消費者提供多元化的最后一公里服務。|菜鳥末端業務大圖網絡網絡拓點、網絡運營、網絡管理硬件高拍儀、巴槍、云監控、小票打印機、小易工作臺、寄件機等代收寄件商業化數智驛站自提上門網點直送到站寄件上門寄件驛站廣告洗衣派樣24小時驛站開放式驛站公益紙箱回收消費者服務消費者運營
2、驛站團購消費者體驗|菜鳥末端業務數倉架構整體設計數據計算數據服務數據應用結構化數據非結構化數據OneService API分布式KV存儲Hbase/Lindorm關系型數據庫mysql自助取數數據產品數據專項業務監控數據同步(離線/準實時/實時)datax/tt天工服務API智能算法實時FlinkODSCDMADM離線MaxCompute分析數據庫服務Hologres/ADB數據建模任務調度監控告警數據質量數據資產數據安全數據地圖數據源DM數據開發治理DataWorks|業務快速迭代和發展的情況下,缺少融合建模規范、建模實操、數倉大圖、數據質量、衡量指標等為一體的線上建模工具1數倉規范和建模實
3、操脫離2中間層不夠豐富,煙囪式開發3模型中英文映射詞庫不豐富4模型字段同意不同名6表的ER關系不易檢索7資產盤點復雜8模型問題導致任務報錯多9無線上體系化的指標衡量數倉5模型研發缺少有效的系統工具9大痛點業務數倉建設痛點模型管理整體規劃02|業務數據規范化建設問題問題總結問題總結n公共層覆蓋度不足,應用層訪問S層表比例太高n核心模型復用性不足,中間層表總數年增長50%以上n核心模型穩定性不足,基線保障起夜次數、數據產出延遲較多n模型健壯性不足,業務變化對模型沖擊大,導致業務支持效率有較大挑戰n數據成本逐年保存較高增長比例中間層表數:值班周均起夜天數:3.5S表訪問次數:數據成本年增長比例:50
4、%問題分析|公共層覆蓋不足數據建設過度依賴需求驅動,缺乏業務數據建設的整體規劃和思考。核心模型復用性不足前期對業務的深入了解或考慮不周,導致后續無法滿足業務需求,只能新建模型或者下游直接依賴S層。核心模型穩定性不足模型對上游的依賴太深,跨bu、跨團隊依賴較多,保障難度加大,混層引用較多。模型健壯性不足模型設計不合理,業務不斷變化時,對模型的沖擊較大需投入更多的人力。數據成本不斷增長不合理的數據生命周期設置,不合理的模型設計以全量表作為主模型,過渡的模型設計。數據規范和易用性不足表和字段的命名規范執行不足;缺乏指標的統一管理;缺乏統一的數據大圖,精品表識別推薦,下游找數難。以上問題的本質主要在數
5、據模型、數據規范管控落地上,所以線上模型管理和規范管控是我們的重點。|數倉規范化-模型管理整體目標總體建設目標 穩定性:完善我們數據產出時效和數據質量穩定性,以我們的值班起夜次數和基線破線率、數據質量工單主動發現率為目標。擴展性:提升模型變化的兼容性,讓底層業務變動與上層需求變動對模型沖擊最小化,以業務需求支持效率和降低核心模型表數量為目標。時效型:提升數據模型產出時效以及需求響應速度,以值班起夜次數和業務需求及時交付率為目標。易用性:降低下游使用門檻,復雜邏輯前置;通過冗余維度和事實表,公共計算邏輯下沉,明細與匯總共存等為業務提供靈活性,以數倉豐富度為目標。成本:避免煙囪式的重復建設以及優化
6、不合理任務消耗,節約計算、存儲成本,以成本執行率為目標。末端模型線上化管理|數倉規范化-模型管理整體方案通過組織保障、制度流程體系的建設結合產品工具來實現數據模型線上化,同時構建模型評估體系和推送治理機制,促進模型不斷優化和完善,達到模型線上管理目的。模型線上化組織保障制度流程產品工具架構師組織搭建模型管理責任到人數據模型規范數倉公共開發規范數倉各層開發規范數倉命名規范DataWorks智能數據建模產品審批流程模型評估打分(事中)推送治理(事后)模型評審(事前)數倉規范化-模型管理整體方案|正向建模新模型通過DataWorks智能建模平臺完成模型線上設計、評審、發布,實現模型后續線上化管理。逆
7、向建模存量模型借助DataWorks智能建模平臺逆向導入的方式實現模型線上化管理,同時也能對我們數倉模型做一次全面的盤點。數倉規范化-正向建模實施流程|數倉規劃業務域定義數據域&業務過程定義模型發布數據標準定義維度建模原子/派生指標定義數倉規范化-逆向建模實施流程|為保證歷史模型線上管理,分為5個階段完成:1、梳理歷史模型2、形成數據模型總線矩陣3、兼容歷史規范4、導入歷史模型5、關閉線下建模入口逆向建模流程逆向建模效果1、存量模型做了全面分析盤點2、下線若干歷史、低價值模型3、梳理定義最全業務過程4、完成存量模型100%線上化管理。逆向建模問題匯總1、多年積攢下來的歷史包袱,較多模型無維護,
8、仍有使用。2、多套規范并存,導致混亂的命名。3、相似模型和低價模型較多。數據建模平臺建設03|從規范定義、便捷開發、發布評審、業務管理視角四個維度展開菜鳥數倉建模平臺規劃規范定義發布評審便捷開發業務管理數倉分層業務分類數據域業務過程儲存策略表生命周期指標時間周期維度詞根管理碼值管理發布前強校驗多引擎發布評審影響性檢查可視化建模逆向建模EXCEL交互多表克隆代碼模式智能標準化翻譯ER圖META互通便捷ETL數據質量業務分類視角數據域視角數倉大圖數據字典成本治理智能數據建模平臺規劃|數倉規劃數據標準數據建模數據指標支持數倉分層、數據域、數據集市等的定義,是數倉設計的核心規劃支持數據字典、標準代碼、
9、度量單位等的定義,以保障數據模型和指標的標準化支持可視化數倉維度建模,支持多種大數據引擎的正向和逆向建模支持原子指標、派生指標等的設計與定義,并支持指標作為模型字段,確保業務口徑統一支持從業務抽象到數倉頂層規劃;支持設置模型設計空間,不同部門可共享一套數倉規范等,可以統一管理不同研發空間的數據模型;與數據質量無縫打通,能一鍵創建質量規則,落標檢查不再難;支持逆向建模,解決現有數倉的建模冷啟動難題;支持通過Excel文件導入模型和通過FML快速構建模型;支持與數據開發無縫打通,自動生成ETL框架代碼;可根據原子指標、修飾詞等批量創建派生指標;與維度建模無縫打通,能通過將指標快速搭建成模型;菜鳥在
10、集團內與DataWorks產品團隊共建智能數據建模產品,將建模平臺規劃落地與產品建設緊密結合。智能數據建模平臺落地|1.規范定義2.逆向建模3.多表克隆4.代碼模式5.Excel操作6.發布評審7.智能翻譯8.數倉大圖分層劃域表名規范批量逆向FML批量調整excel批量導入excel交互命名詞典智能翻譯數倉大圖數據字典X智能數據建模平臺核心功能大圖|5層數據分層12大業務分類(多級)13大數據域及若干業務過程分層劃域核心功能規范定義表名規范6類命名規范:數倉分層、業務分類(一級二級)、數據域、業務過程、存儲策略等要素|批量逆向FML批量調整事實表、維度表、匯總表掛載到對應的目錄(不改造歷史不規
11、范的表)ALTER TABLE TABLENAME SET PROPERTIES(business_category=xxx.xx,data_domain=xxx,business_process=xxx)核心功能逆向建模FML(Fast Modeling Language)是DataWorks團隊開源的,用于維度建模領域快速構建的DSL語言,主要目標是提供一套kimball維度建模理論下,結合大數據開發場景下的一種領域特定語言。|選擇已有物理表,通過勾選字段的方式,進行建模。后期也會基于此功能,自動生成簡易的ETL腳本,方便開發。核心功能多表克隆TableBcol1col2col3col4c
12、ol5.TableAcolacolbcolccoldcole.TableCcolacolbcolccol1col2col3col4col5|注意代碼模式,必須定義好表命名并保存,才可使用。核心功能代碼模式SQL:SELECT A.cola,A.colb,B.cold,B.cole as colxFROM Tablea AINNER JOIN Tableb BON 1=1|Excel批量導入Excel交互核心功能Excel代碼模式該功能,可與本地excel無縫銜接如拷貝到本地excel,本地excel拷貝到建模平臺,并且右鍵集成了常用的批量操作,方便使用。通過標準模板,批量導入到建模平臺|核心功
13、能發布評審評審是按照數據域的劃分定義評審人,實現評審組功能,一人通過即通過目前只實現簡單評審流程,模型相似度、描述豐富度、血緣等衡量模型好壞的指標、輔助評審都在后續的規劃中。|目前此功能已在內部研發測試中,敬請期待。命名詞典智能翻譯輸入中文名稱表名&字段NLP精準分詞機器翻譯英文返回分詞英文按規范拼接英文名稱拼接表&字段標準輸出英文名稱表&字段標準預加載詞根中英文添加分詞中英文預加載詞根中文數倉分層數據域業務板塊業務過程時間周期修飾詞原子指標標準詞根翻譯引擎核心功能智能翻譯|數倉大圖數據字典通過平臺導出功能,可以生成Excel格式的數據字典,包括表名、分層、數據域、業務過程、字段等詳細信息。核
14、心功能數倉大圖總結&展望04|菜鳥數據模型管理建設成果菜鳥數倉團隊從2020年開始與DataWorks團隊不斷共建智能數據建模產品,從最初版簡單的錄入系統,到集成逆向建模、多表克隆、多種引擎的代碼模式、excel交互等功能,極大提升了建模規范和研發效率,成為菜鳥落地數倉規范的統一平臺。3大創新核心價值規范沉淀多樣降本提效使用人數輔助數據體系的規范化建設,能讓規范落到實處全部逆向明細層模型數據建模有線下轉為線上,沉淀企業級核心數據資產面向業務視角自頂向下進行規范建模與面向開發視角自底向上構建數倉,雙管齊下,相輔相成降低儲存成本;降低計算成本末端逆向建設中治理并下線了歷史15%的模型表減少人員溝通成本,產品化支持快四建模以及開發打通,提升建模效率及研發效率末端開發效率整體提升30%末端團隊全員使用公共團隊全員使用1數倉規范和建模實操銜接23多種提效的便捷開發功能不同視角的大圖阿里云DataWorks智能數據建模產品體驗:https:/