1、DataFunSummitDataFunSummit#20242024數倉模型管理與標簽價值評估實踐演講人-李然輝-京東科技-數據資產管理專家京東科技大數據之路此部分內容作為文字排版占位顯示(建議使用主題字體)數倉模型管理此部分內容作為文字排版占位顯示(建議使用主題字體)標簽價值評估此部分內容作為文字排版占位顯示(建議使用主題字體)總結與展望此部分內容作為文字排版占位顯示(建議使用主題字體)目錄 CONTENTDataFunSummitDataFunSummit#2024202401發展歷程發展歷程DataFunSummitDataFunSummit#2024202402數倉模型管理數倉建設方
2、法論項目規劃業務及系統調研倉庫架構設計主題模型設計概念模型設計邏輯模型設計物理模型設計開發測試上線部署優化迭代停更下線準備階段設計階段開發測試階段投產階段一定要分層數倉之父Bill Inmon推出的CIF架構清晰數據結構數據血緣追蹤減少重復開發把復雜問題簡單化屏蔽原始數據的對業務的影響怎么分層?國內現在較通用的三層架構京東零售數據倉庫分層架構 DMx(數據集市層)IDM(整合明細層)SDM(共性加工層)ODM(貼源明細層)DEVDIMSTG(數據緩沖層)京東科技數據倉庫分層架構SDPTMP數據模型設計方法范式建模維度建?;旌辖C繉觽戎夭捎玫姆椒ú煌珼MX(寬表模型)SDM(維度模型)IDM(
3、3NF模型)公共模型層側重采用維度建模為主,范式建模為輔助的建模設計方法,最大化發揮數據管理、應用性能、靈活擴展等優勢m:nm:nm:n一定要做數據探查數據分析驗證分類單源數據列分析類型監測異常值監測跨列分析功能相關性分析表分析主鍵唯一性分析跨表分析外鍵分析血緣分析多源數據數據覆蓋重復值檢測字段最小值最大值平均值標準差偏度唯一有效編號12010.55.916-20姓名-2020年齡234936.109.3030.077-19性別-319收入22009200567823770.028-19模型設計數據標準嵌入 業務術語管理 1.先申請后使用 2.產品自動生成 數據血緣關系 字段級算子血緣 1.M
4、apping設計 2.邏輯轉換規則 模型評審 評分卡 1.如何評價模型好壞?2.治理原則符合性:eg.中臺復用&成本:當前業務場景下該模型是否唯一?DataOps 1.業務參與評審 2.減免邏輯模型設計文檔等 數據模型評分卡序號 評分指標評分項評分標準滿分評分建議1模型設計完整性滿足需求程度XXX 5 2元數據完整性XXX 53模型設計規范性字段規范化XXX 54命名標準化XXX 55模型設計通用性模型擴展性XXX 56模型治理原則符合性唯一性XXX 57模型加工設計專業性模型加工邏輯準確性XXX 58模型加工邏輯可讀性XXX 59模型加工文檔更新及時性XXX 5總分 模型使用制定模型元數據標
5、準標準制定與執行 1.包括業務元數據、技術元數據、管理元數據在內的共24個屬性2.元數據管理系統按照標準進行采集和檢查提升模型元數據質量 補充完善 1.對于缺失的元數據要求補充 2.對于不合格的元數據要求完善 監控與通報 1.自動識別元數據不合格的模型 2.定期通報存在元數據質量問題的個人和部門 模型治理數據認責 唯一負責人 1.每個模型必須有一個唯一負責人 2.數據負責人的職責正式化 數據資產移交 1.離職流程加入資產移交審批節點 2.數據資產管理平臺提供一鍵移交便捷操作功能 模型健康度評估 存儲健康評估 元數據健康評估 數據安全健康評估 滿意度調查和意見反饋 平臺功能支持 問卷調研Data
6、FunSummitDataFunSummit#2024202403標簽價值評估數據資產價值評估方法來源:Gartner為何及如何衡量信息資產的價值報告標簽數據資產價值評估模型數據熱度 應用場景經濟性(U)標簽數據資產價值(BVI)標簽質量有效性(V)穩定性(S)覆蓋率(C)稀缺性(S)廣度(B)深度(P)數據頻率(T)標簽資產價值評估指標名稱:標簽質量(quality)權重:10%一、指標定義:通過有效性和穩定性兩個維度去衡量標簽質量,各占50%1、有效性(vaild):有效性是針對給標簽主體打的標簽,準確反應事實的對象數量與總對象數量的比例。2、穩定性(stable):標簽的枚舉值數量分布變
7、化情況。通過統計每個評估周期標簽枚舉占比情況來計算穩定性權重:10%二、落地方案:quality=valid*50+stable*50 1、有效性(vaild):、樣本數據驗證:用真實樣本數據進行準確性驗證,準確率即為有效性得分;樣本數據按月更新,可以是京東員工數據、外部采買數據以及使用方反饋的真實數據。適用于性別、星座等枚舉型統計類標簽以及挖掘類標簽;、加工口徑驗證:數據加工口徑確認沒有問題,即認為有效性為滿分1。適用于基金持倉金額、白條消費金額等數值型統計類標簽以及規則類標簽;(人工盤點)2、穩定性(stable):計算方法:根據T+0月標簽枚舉值平均占比 和 T+1月標簽枚舉值平均占比
8、進行 穩定性計算,計算公式:stable=1-備注:針對穩定較差,波動性較大的公共標簽,將定期追溯原因,并在產品中進行說明;iiniiiEAEApsiln)(1iAiEpsipsi標簽資產價值評估指標名稱:數據頻率(frequency)權重:5%一、指標定義:指標簽的數據更新周期,分為實時更新、日更、周更、月更、年更5種,不同更新頻率的標簽數據時效性得分不同;二、落地方案:盤點各標簽數據更新周期,year:20,month:40,week:60,day:80,realtm:100,計算公式:freshness=map.get(frequency)指標名稱:覆蓋率(coverage)權重:22%
9、一、指標定義:被打了該標簽的對象的數量占總對象的數量的比例,比如【熬夜用戶】標簽的覆蓋數量是4千萬,用戶總量為13億,那么【熬夜用戶】。標簽的覆蓋率=4千萬/13億=3.769%;二、落地方案:Coverage=(tag_cnt(打了該標簽的數量)/id_cnt(總對象的數量))*100標簽資產價值評估指標名稱:標簽熱度(popularity)權重:23%一、指標定義:指標簽被應用系統應用情況,包含觸達到應用系統數量和用于取值服務應用系統數量以及被應用系統調用的次數;二、落地方案:盤點標簽觸達應用的數量和用于取值服務應用系統的數量,兩者加和的數量記作標簽應用系統數量 app_cnt,依據app
10、_cnt的正態分布情況,進行評分 A:20,B:60,C:100。(每次周期性盤點,會重新進行正態分布)盤點標簽被應用系統調用次數記作 app_visit_cnt,依據 app_visit_cnt的正態分布評估進行評分 a:20,b:60,c:100(每次周期性盤點,會重新進行正態分布)計算公式:popularity=map.get(app_cnt)*70%+map.get(app_visit_cnt)*30%(由于目前標簽系統沒有記錄針對每個標簽應用系統調用梳理的數據,所以公式暫時為:popularity=map.get(app_cnt))標簽資產價值評估指標名稱:應用場景經濟性(econo
11、my)權重:25%指標名稱:稀缺性(Scarcity)權重:15%一、指標定義:數據的價值在于與應用場景(scene)的結合,應用場景經濟性指在具體場景下,數據的經濟價值,高場景經濟性意味著高數據價值。標簽的應用場景經濟性,只標簽應用到哪些經濟場景,經濟場景高則標簽的數據價值高。二、落地方案:盤點標簽觸達應用系統,根據應用系統區分應用場景,暫定以下三個應用場景以及對應的經濟價值性得分,客服與營銷場景:100,合規風控場景 70,管理決策場景 40 (人工盤點)計算公式:economy_score=map.get(scene)一、指標定義:數據在市場上的稀缺程度,物以稀為貴,數據越稀缺價值越大。
12、二、評分標準:依據市場探查結果,假設某數據在市場上有n個提供方(包括我們自己),那么該數據的稀缺性為:1/n*100*最大可替代率,滿分為100分;標簽數據資產價值評估的結果應用與效果對用戶 根據標簽價值評估的各個維度進行標簽的選擇使用對標簽運營人員 提升標簽的覆蓋度、穩定性等維度進行,進而提升標簽的價值;自動識別并清理低價值資產主要作用DataFunSummitDataFunSummit#2024202404總結與展望123展望總結l數據湖的靈活性與數據倉庫的數據可靠性和查詢能力相結合,數倉需要找到自己明確的定位l數倉的產生距今已經30多年了,隨著數據湖等數據架構的發展,是不是數倉就可以被取
13、代了呢?l不再對數據流向做強管控,提升數據使用的效率和成本,只將部分數據集中在數倉做,集市層有需要酌情可以下沉數倉。數據來源也可以是多種途徑;推動數據標準落地,保障數據可聯通性、一致性數據倉庫架構數據模型管理標簽價值評估總結與展望123展望總結l我們建立了貫穿事前、事中和事后的數據模型的管理體系,重點包括數據探查、模型評審和模型健康評估l下一步的目標是采用無維建模方法,雖然我們為了敏捷跳過了邏輯模型設計,但是我們將充實概念數據模型;實現元數據驅動的模型設計和變更;利用主動元數據、知識圖譜和LLM實現數據好找、好理解、好使用數據倉庫架構數據模型管理標簽價值評估總結與展望123展望總結l剛才主要介紹了我們團隊做的非貨幣化的標簽數據價值評估l另外,我們也通過A/B實驗做了部分標簽財務收益的價值評估l下一步計劃打通后鏈路做財務收益價值評估l我們還將為標簽數據資源入表做好準備。包括成本核算、價值評估、安全合規等憑證和披露個方面數據倉庫架構數據模型管理標簽價值評估總結與展望感謝觀看