《基于資產健康度量化模型的小米數據治理實踐.pdf》由會員分享,可在線閱讀,更多相關《基于資產健康度量化模型的小米數據治理實踐.pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、基于資產健康度量化的小米數據治理實踐演講人:孟熠小米數據技術專家2023 小米數據治理里程碑資產健康度量化及產品化未來規劃小米數據治理里程碑數據現狀數據成本數據生產數據使用數據安全隨著業務增長,存儲、計算量日趨增長凌晨資源搶占嚴重,重點業務無產出保障找不到數據、找到不敢用、煙囪式建設數據無分級隱私數據無保護小米數據治理三級火箭數據基線產保障集團元數據倉庫集團數據資產管理平臺集團數據公共層數據治理能(質量、安全、成本、規范)數據資產第級夯實基礎第級構建能第三級守正出奇構建全面數據治理能力,全面推進數據治理通過保障集團核心數據應用穩定、及時產出,夯實數據生產基礎設施建設集團數據資產管理平臺,實現集
2、團整體數據健康度80分基線監控預警、資源調度集團公共層穩定及時產出集團元數據倉庫,大數據治理大數據產出時效、數據內容質量數據安全,分類分級、隱私合規、日志審計生產成本無訪問、重復數據鏈路治理表owner、注釋等規范數據資產門戶,數據治理系列能力工具化資產健康分,資產健康度量化及部門健康水平量化資產圖譜,資產服務化和價值化資產健康度量化及產品化數據治理總體策略用大數據管理大數據,從存儲、計算、規范、質量、安全存儲、計算、規范、質量、安全五方面著手治理,實現數據數據資產化資產化。集團元倉是基礎、治理是能力、數據資產門戶是窗口。集團元數據倉庫元數據數據緣數據操作志系統運志成本治理存儲/計算安全治理安
3、全等級/隱私合規數據資產戶個&部管理戶/治理中/數據地圖/資產錄/資產中質量治理規則監控/變更通知規范治理分層/分類/分級集團數據公共層集團核數據資產,戶/設備分類/訂單等公數據、指標體系等核數據資產健康度量化模型 模型需要解決的問題 可量化:真實度量數據在存儲、計算、質量、安全、規范五方面的實際表現 可解釋:數據資產生產、使用紛繁復雜,如何合理規劃數據特征,實現模型可解釋 有操作:量化后特征需要有配套治理方案和工具支持 健康分基本設定規則 每表一個健康分 百分制,100分最高,0分最低 個人、庫/集群、業務板塊、各級部門、集團健康分以所屬表健康分加權 數據表健康分加權 score=(規范合規
4、健康分*a%+存儲健康分*b%+計算健康分*c%+數據質量健康分*d%+數據安全健康分*e%);規范、存儲、計算、質量、安全健康分根據每項監控特征來計分,特征可溯源可解釋存儲健康分 存儲分類,實現建議生命周期 存儲分級,實現自動化冷備xx天前創建的表熱數據HDFS成本存儲分區表不考慮TTL,存儲健康分80否是最近xx天訪問,0分,建議戶治理永久保留表(不可再源頭表、名單表)否是溫數據OSS低成本存儲冷數據OSS歸檔極冷存儲SQL可訪問SQL不可訪問系統建議訪問周期TTV2倍TTV否是熱數據HDFS成本存儲溫數據OSS低成本存儲刪除持SQL訪問系統建議訪問周期TTV戶設置命周期TTL,分數TTV
5、*100/TTL永久保留表:不可再源頭表:ods志表 名單表:半年/年周期計算復雜、計算邏輯有變化法回刷、審計需要等業務特殊申請等數據表;可再表:基于源頭ods志加的dwm/ads/tmp等、可基于源頭數據重新計算回刷的數據;系統建議訪問周期TTV(Time to Visit):根據最近xx天分區被訪問情況,按定的策略計算的系統建議保留周期值;戶設置命周期TTL(Time to Live):戶配置可保留的最時間分區,必須=TTV;計算健康分 計算不合理特征識別100*sum(特征分)/count(特征)計算資源量化1 cu=1 cpu 4GB內存運行1s 精細化治理方案 數據傾斜:優化作業 運
6、行出錯:修復作業or下線 重復/相似計算:下線/合并重復作業 產出數據未讀?。合戮€作業數據傾斜運時間超過定閾值尾運實例運出錯最近3天任務運連續出錯0分,否則為1分重復/相似計算計算作業對應表相似度,低于50%計為1分,于50%1-相似度分產出數據未讀取最近15天產出數據讀取,0分,否則為1分質量健康分 定義質量管理體系 開發數據質量監控系統 質量監控規則高資產等級表配置表級監控1分,否則0配置字段級監控1分,否則0配置及時性監控1分,否則0安全健康分有設置歸屬的資產目錄,1分,否則0分有指定資產等級,1分,否則0分有設置安全等級,1分,否則0分規范健康分技術負責業務負責歸屬部表命名不合規缺少表描述字段注釋 不合理規范特征項識別命中不合理特征項,表在該項上得分是0,否則1總得分:100*sum(特征分)/count(特征)對不合理特征項進行治理,補全規范信息數據資產管理平臺未來規劃數據治理未來規劃感謝您的觀看演講人:孟熠-小米-數據技術專家