《嗶哩嗶哩:B站數據治理指標體系建設(30頁).pdf》由會員分享,可在線閱讀,更多相關《嗶哩嗶哩:B站數據治理指標體系建設(30頁).pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、B站數據治理指標體系椰子 嗶哩嗶哩 資深數倉開發工程師|01數據治理的背景02數據治理指標模型03成本治理實踐04題外目錄CONTENT|01數據治理的背景|數據治理項目背景|數據爆發式增長,存儲猛增,任務性能堪憂數據質量無保障,事故頻繁,客訴多資產缺乏管理,成本無法評估數據權限體系混亂,存在數據安全隱患其余問題等等12345各類管理問題 產出超時、數據不一致、存儲緊張、任務跑不動、找不到負責人、數據還有人在用嗎類目繁雜 多年歷史積累:孤島數據、未壓縮、有一部分無主數據、無人跟進存量巨大數據治理項目背景|!#$%!&$()*+,-./0!#$%!&$*12345634783!#$9:;?ABC
2、DE&$!數據治理數據質量管理成本管理模型開發管理數據安全管理數據集成管理要解決:由誰做些什么動作和內容為什么要做怎么做做到什么程度的問題數據架構|HDFS、YARN、KAFKA、FLINK等開發、調度、監控、權限用戶、行為用戶模型開發運維血緣安全資產操作質量主題成本主題用數主題埋點主題安全主題治理平臺資產賬單安全審計質量大盤應用指標模型數據源數據治理指標集的視角|FG*?!#$%&()*%&+,-.%&/012%&33HI*JK45678/06789:678;)?A=BC%&=DEFG=HIJK33OF*PQLMNOPQNO12NORSNO33!*RST(UVWXYUVZ,UV9:UV33數
3、據治理指標集的視角|FG*?!#$%&()*%&+,-.%&/012%&33HI*JK45678/06789:678;)?A=BC%&=DEFG=HIJK33OF*PQLMNOPQNO12NORSNO33!*RST(UVWXYUVZ,UV9:UV3302數據治理指標模型|從目標拆解實施策略實施命中及效果評估要完成的目標指標治理指標體系模型|治理目標治理策略策略評估問題-標準制定能夠規避/解決問題的標準標準-實施按照標準制定策略并實施指標-問題從指標中發現、說明問題實施-指標實施效果通過指標來評估指標問題標準實施實施策略和評估指標建立起一個循環指標體系模型基本運營方法數據化運營方法|策略從目標拆
4、解,所以要先確定目標指標目標指標是一個周期內要完成的,不是一個無限期目標正例:本季度目標是存儲下降500PB反例:成本治理目標是存儲下降500PB目標指標是明確的度量,不是一個抽象的概念正例:本季度目標是P0事故數=0反例:本季度目標是不發生重大事故從目標拆解實施策略實施命中及效果評估要完成的目標指標治理目標治理策略策略評估策略制定分為策略方向和實施項策略方向是通過目標指標或上層策略方向直接獲得的策略方向是一個基于因果、包含等直接關聯的拆解實施項是基于上層策略方向,探索數據而得的實施項有時不易于從因果性、包含性等關聯關系的思考中直接獲得基本運營方法|問題-標準制定能夠規避/解決問題的標準標準-
5、實施按照標準制定策略并實施指標-問題從指標中發現、說明問題實施-指標實施效果通過指標來評估指標問題標準實施探索該清單中的共性特點探索目標:從中發現問題、說明問題上層策略方向找出與策略方向大相徑庭的數據資產清單“從xx指標來看,這個數據存在的問題是xxxxx?!毖h的起點治理指標體系模型|治理目標治理策略策略評估一個體系,全盤適用1.降低用量2.降低單價1.總用量2.單價均值存儲成本下降1.降低新增2.降低存量1.每日新增量2.歷史存量總用量下降分層存儲1.冷存儲量2.冷數據量單價均值下降1.數據采樣2.結構優化1.表行數2.行密度每日新增量下降數據壓縮1.壓縮下降量2.未壓縮量歷史存量下降成本
6、管理存儲成本治理指標拆解:先列策略效果指標,再列實施項命中指標因果方向包含方向實施項實施項實施項治理指標體系模型|治理目標治理策略策略評估一個體系,全盤適用1.提升監控覆蓋2.告警提效1.監控覆蓋率2.告警有效率異常發現率提升執行標準化監控配置非標監控任務數監控覆蓋率提升1.告警響應提速2.告警反饋1.響應耗時2.告警反饋率告警有效率提升縮短處理路徑1.非電話告警數2.告警對象不正確數響應耗時下降數據質量管理監控治理指標拆解:先列策略效果指標,再列實施項命中指標因果方向包含方向治理指標體系模型|治理目標治理策略策略評估一個體系,全盤適用1.提升推薦表透出2.加快可用判斷1.推薦表點擊深度2.探
7、表用時找數耗時下降1.主題入口正確分流2.推薦表排序靠前1.主題標簽未覆蓋率2.推薦標簽未覆蓋率推薦表點擊深度下降1.完善表信息2.推薦表數據探查1.業務信息未覆蓋率2.探查報告未覆蓋率探表用時下降數據模型管理找數體驗治理指標拆解:先列策略效果指標,再列實施項命中指標建設的過程|場景分析數據源調研數據標準定義指標口徑定義維度建模指標匯總1.明確治理場景與目標2.根據治理目標,制定策略大綱3.根據策略,預定義指標體系1.按所需指標,調研相關數據源2.確認既存數據源并探查質量3.提煉新數據源需求1.明確業務過程與事實度量2.明確維度與維度屬性標準3.建立治理主題數據標準庫1.明確原子指標與派生指標
8、2.定義指標的統計口徑3.重塑指標體系,評估策略匹配度1.模型設計與創建2.任務鏈路開發、發布上線3.治理工具、報表等透出03成本治理實踐|成本管理大綱|成本管理大綱用了多少量花了多少錢哪里能省怎么省誰來執行不執行怎么辦核心度量運營策略工具能力標準與責任制度成本治理主題指標體系服務于目標的確定|22年的大數據預算控制在21年的50%以內哦。好的,我們還可以堅持。成本分布利用率離線存儲51%離線計算30%實時生產15%OLAP3%其他1%0%20%40%60%80%100%離線存儲離線計算策略的確定|在半年內存儲優化500PB半年優化量=周均優化量*可執行周數砍歷史周均優化量20PB*25周控新
9、增歷史優化量新增優化量包含拆解法確定策略方向如何減少歷史量?如何控制新增量?清單:歷史量Top List清單:新增量Top List如何從清單中說明問題?提出假設:按實施成本低、效果高的順序提出策略的確定|是否可下線是否可縮短是否可改造無下游使用有替代數據數據時效短可快速恢復可壓縮鏈路可重構按實施成本低、效果高的順序提出假設假設判斷優先級判斷成本低,立刻選用判斷成本高,暫緩選用判斷成本高,暫緩選用判斷成本中,備選選用判斷成本低,立刻選用判斷成本低,立刻選用是否可建立標準無下游-下線暫不建立按時效定TTL按層級定TTL必壓縮暫不建立指標體系預定義與數據源調研|砍歷史周均優化量20PB控新增超長T
10、TL調整無用數據停產模型文件壓縮過期數據下線大字段優化歷史優化量新增優化量無下游存儲量未壓縮存儲量行密度日均行數超周期存儲量數據采樣無下游存儲量優化量優化前后存儲量HDFS文件大小無下游存儲量模型間關系數據血緣超周期存儲量SQL日期范圍全量任務信息等等預定義指標體系調研數據源指標定義的改善與關注的維度|無下游存儲量模型間關系數據血緣指標作用:想找到沒有下游使用的模型,命中可下線的策略方向實施。判斷邏輯:通過數據平臺的血緣信息,沒有任務(包含調度及查詢)使用。遇到問題:個別團隊有非標訪問(野生客戶端),不能被平臺的血緣收錄。無下游存儲量所有的訪問HDFS審計日志數據源調整:由【數據血緣】調整為【
11、HDFS審計日志】業務過程調整:由【任務引用】調整為【HDFS的讀/寫】事實調整:由【任務數】調整為【讀/寫次數】原子指標:存儲量派生指標:l 無下游存儲量=過濾系統賬號(如dqc賬號)的訪問后,讀次數為0的模型所使用的存儲量總和l 30天/60天/90天無下游存儲量=連續30天/60天/90天無下游的模型所使用存儲量總和關注維度歸屬部門-空間-個人層級ODS/DW*/ADS數據等級S/A/B/C形式表/非表實施過程中的關注維度舉個改善的栗子將指標投入運營|策略指標審計報告問題清單問題處理效果反饋按天/周例行循環小循環:持續解決已確認問題每周一早上l更新問題清單dept總存儲量無下游剩余待壓縮
12、剩余A100PB10PB20PBB150PB15PB30PB截止當前,問題項統計deptusertable無下游待壓縮A甲db.tbl_1是否B乙db.tbl_2否是請甲 乙 關注,在周五前完成處理。l數據任務運行,更新審計報告l通知owner處理問題每周五下午dept本周優化量無下游實施壓縮實施A10PB1PB2PB指標持續化運營|策略指標審計報告問題清單問題處理效果反饋問題-標準制定能夠規避/解決問題的標準標準-實施按照標準制定策略并實施指標-問題從指標中發現、說明問題實施-指標實施效果通過指標來評估指標問題標準實施解決了已有問題無下游、待壓縮新的問題與策略游離目錄、大字段治理成效|22年
13、的大數據預算控制在21年的50%以內哦。達成!遠超一個月下半年存儲增長 1%(近0增長)66%04題外|題外|FG*?!#$%&()*%&+,-.%&/012%&33HI*JK45678/06789:678;)?A=BC%&=DEFG=HIJK33OF*PQLMNOPQNO12NORSNO33!*RST(UVWXYUVZ,UV9:UV33運營兩字,聽起來較為溫和但數據治理并不只有溫和的一面題外|未達標、未負責造成的影響是否達標、是否負責的測量該事項的標準/責任要求要求影響測量標準/責任-指標體系事件影響標準/責任指標達到可接受的平衡通過實驗 or 經驗(教訓)獲得通常標準/責任類指標體系,是連帶指標值一起定義的。非常感謝您的觀看|