1、B站的 數據治理運營框架 實踐高隆 bilibili 數據倉庫工程師高隆“表哥DAMAB站數據成本治理數據質量”講師簡介分析工具:DAMA-Bok案例1-2022-05-11 存儲水位風險虛擬組織嵌入治理元數據管理案例2-2023-10-30 數據丟失復盤質量運營質量的需求與滿足數據治理中的風險目錄數據管理知識體系數據管理知識體系DAMADAMA-DMBOKDMBOKDAMA 成立于 1980年,是一個全球性數據管理和業務專業志愿人士組成的非營利協會,致力于數據管理的研究和實踐*左上圖是買書的時候送的鼠標墊1 1車輪圖:11個知識領域2 26邊形圖:每個知識領域的7件事情1 12 23 312
2、原則:采取行動和判斷時的依據4 4語境關系圖:每個知識領域都可以展開成具體的活動、方法、目標、指標3 34 案例1-2022-05-11 存儲水位風險名詞解釋:存儲水位:HDFS集群存儲 部門數管:部門的“CDO”Quota:部門預算資源分配 A級數據:多為跨部門使用數據 Trash 數據:一般存7日案例背景案例背景問題與挑戰預案執行項問題DAMA Bok4級(90%)通知數管執行治理組織變更數管權責不明確原則:數據管理需要領導力承諾領域:數據治理3級(93%)刪除長期無訪問數據沒有執行驅動力刪除數據存在風險原則:數據價值使用經濟術語表達領域:元數據2級(95%)刪除 trash調整冷數據容量
3、trash類 數據如何歸屬用戶沒有直接控制trash大小的能力原則:數據管理需求驅動技術決策領域:數據存儲1級(97%)根據分配限制部門寫入組織變更預算歸屬變更限制數據寫入風險極高原則:數據管理是數據生命周期的管理領域:數據倉庫與商務智能破題思路問題DAMA Bok方案Part1組織變更原則:數據管理需要領導力承諾領域:數據治理虛擬組織數委會(人的虛擬組織)資產空間(數據的虛擬組織)Part2限制數據寫入風險極高原則:數據管理是數據生命周期的管理領域:數據倉庫與商務智能嵌入治理預算分配QuotaLimit(限制“新增”)Part3沒有執行驅動力原則:數據價值使用經濟術語表達領域:元數據元數據的
4、管理與應用元數據數倉資產賬單數據治理平臺破題思路 變更方案Part1Part2PPart1:數委會-組織5%20%80-85%問題應該在該層解決組織中的決策層組織中的決策層數據委員會數據委員會數據空間團隊數據空間團隊治理單元管理團隊治理單元管理團隊組織目標組織目標數據目標數據目標長期規劃長期規劃Part1:數委會-角色5%虛擬資源虛擬資源01資源分配資源分配+運營成本運營成本02資源管理資源管理 元數據元數據Part3:元數據的管理-元模型Part3:元數據的管理-元數據的指標與標簽*關于“指標 標簽”與“道行數知名”道數名知行案例2-2023-10-30 數據丟失復盤案例背景(2線6問)問題
5、與挑戰問答DAMA BokQ1 該問題屬于 數據質量維度 中的什么問題?數據完整性問題原則:數據管理即使對數據的質量進行管理領域:數據質量Q2 什么原因導致測試沒發現?技改遷移,歷史組件缺少信息收集原則:數據管理需要元數據領域:數據架構Q3 什么原因導致監控并不是第一時間發現?告警 監控了,表全部為空才會告警,延遲了半天原則:數據價值使用經濟術語表達領域:數據質量Q4 該問題 是否可以做 兜底/容錯?下游有兜底邏輯 可以缺失一定的數據原則:數據管理需要全景視角領域:數據質量Q5 如何能提升問題的解決速度、降低損失?數據提供方 應該感知下游數據應用的重要等級原則:數據管理需要全景視角領域:數據質
6、量Q6 怎樣能有效避免此類問題的再次發生?數據服務方 應該感知下游數據應用的重要等級原則:數據管理是跨功能的領域:數據質量破題思路問題DAMA Bok方案歷史組件缺少信息收集?原則:數據管理需要元數據領域:數據架構各類組件都應具備自回收能力,基于該能力補充需要的元數據與功能更流程能否不等表全部為空就可以發出告警原則:數據價值使用經濟術語表達領域:數據質量數據傳輸鏈路中需要 增加完整性監控方案是否下游都有兜底邏輯?原則:數據管理需要全景視角領域:數據質量重要數據下游使用方需要明確提供數據質量的問題識別與容忍區間數據提供方如何感知下游數據的重要性?原則:數據管理需要全景視角領域:數據質量數據下游的
7、使用場景,質量容忍度需要傳遞給數據提供方數據服務方是否提供了足夠的質量保障?原則:數據管理是跨功能的領域:數據質量數據服務方需要定期進行質量服務水平的審計數據質量監控從 CS 到 TODO事后事后 沉淀基建沉淀基建開發 元數據增強 數據管理能力開發 治理策略 提高問題處理 效率開發 基建降低問題產生的幾率事中事中 處理問題處理問題需要觀察發布的治理項目是否有在被順利執行需要觀察問題新增速度是否遠遠大于處理速度需要評估使用人力參與數治理的工作是否合理事前事前 分析問題分析問題通過 各種渠道收集問題通過 復盤尋找問題處理方法通過 治理策略、開發基建 控制問題的影響TakeAwayDAMA DAMA 車輪圖車輪圖11 個數據管理知識領域道道-行行-數數-知知-名名分析數據問題往往就是分析管道問題數據治理運營框架數據治理運營框架實施數據治理需要操作系統數據質量運營框架數據質量運營框架處理 復盤 執行 沉淀微 信 官 方 公 眾 號:壹 佰 案 例關 注 查 看 更 多 年 度 實 踐 案 例微信官方公眾號:嗶哩嗶哩技術關 注 查 看 更 多 B 站 技 術 分 享