B站數據質量保障體系建設與實踐.pdf

編號:122846 PDF 42頁 6.81MB 下載積分:VIP專享
下載報告請您先登錄!

B站數據質量保障體系建設與實踐.pdf

1、演講人:胡峰BiliBili資深研發工程師 2023 CONTENTS背景目標體系架構案例分享未來展望背景目標背景目標背景目標第一階段第一階段OLTP(聯機事務處理)需求第二階段第二階段OLAP(聯機分析處理)需求第三階段第三階段解決BI和報表需求第四階段第四階段系統對接OLTP(事務處理)和OLAP(報表分析)的需求主要解決數據業務化的能力 數據庫階段數據庫階段數據倉庫階段數據倉庫階段數據平臺階段數據平臺階段數據中臺階段數據中臺階段數據日漸受到重視業務涉及庫表復雜化單庫無法滿足分析需求數據量快速增長引擎、組件多樣化開始引入開源生態業務多樣化能力服務化數據智能化建設階段建設階段演進變化演進變化

2、設計測試用例數據正確性驗證數據庫監控和調優完整性、準確性一致性、及時性保障架構、鏈路可用性數據加工鏈路多樣化(實時)兼容歷史各階段兼容歷史各階段擁抱前沿技術演進浪潮擁抱前沿技術演進浪潮(流批一體等)(流批一體等)質量保障質量保障B站數據建設演進事務是持續發展的,數據保障的演變也是如此事務是持續發展的,數據保障的演變也是如此背景目標背景目標數據應用數據中臺數據平臺埋點分析看板運營分析看板B端分析看板模型構建指標規范實時計算機器學習集群管理數據源賬戶系統埋點數據CRM第三方離線計算增長分析看板內容分析看板數據同步數據開發數倉規劃數據開發套件BOSS看板更多應用數據治理數據血緣數據質量數據安全數據地

3、圖數據資產管理數據集成運維中心.日志分析標簽服務用戶畫像社區分析營銷分析增長分析用戶主題域交易主題域內容主題域營銷主題域社區主題域XX主題域全域數據中心統一IDOneData數據模型數據標簽體系中臺架構背景目標背景目標問題反饋分析看板頁面數據遲遲沒有展示透出,影響用數體驗任務報錯日志看不出原因,不知如何處理集群問題導致數據大批量報錯、延遲,修復費時費力數倉架構繁雜,質量保障不知從哪里下手所分析指標某日歸零是否合理,影響業務決策數據質量保障意識薄弱流任務保障流程和成本高夜間值班告警電話又被打爆了,起夜率爆表背景目標背景目標相關方訴求數據能在預期時間前產出提供的數據準確可信數據出現故障支持快速恢復

4、數據潛在的異??煽焖俣ㄎ煌碛跇I務發現數據異常,導致影響已傳導到數據應用.數據使用方數據使用方龐雜的數據體系中,哪些用戶針對哪些數據有強訴求明確獲知用戶的數據質量和時效性要求保障工具可以全面賦能提效.數據建設方數據建設方數據管道中各組件、平臺對流經數據,明確區分重要性不同場景的保障要求是什么極端情況下的恢復響應要求日常響應機制能否滿足業務.數據管道方數據管道方通過數據質量的持續改善,減少事故糾錯成本,降低數據使用風險,提升業務服務滿意度通過數據質量的持續改善,減少事故糾錯成本,降低數據使用風險,提升業務服務滿意度背景目標背景目標根源梳理010102020404質量問題產生原因質量問題產生原因技術

5、原因技術原因數據標準制定數據模型設計數據采集過程數據清洗加工業務原因業務原因業務理解不到位業務流程的變更數據輸入不規范0303管理原因管理原因流程管理不完善成員意識不到位獎懲機制不明確推進原因推進原因保障工作落實不到位歷史問題可能會復現沒有長期可持續策略背景目標背景目標痛點總結0101 保障范圍及目標不清晰0202 保障效果無法有效衡量各方團隊對需保障數據范圍不清晰,部分核心鏈路無日常保障數據保障分級不準確,導致無法有區分度的進行人力投入保障隨著數據建設推進,架構日趨復雜,保障目標沒有拆解到各組件,預期效果自然不盡人意保障工作好像做了很多,在整體目標層面貢獻如何,無法衡量當前保障推進到什么階段

6、,沒有北極星指標衡量及持續優化保障問題多是單例跟進,沒有形成可衡量的持續優化方法論0303 保障機制及規范不完善過往案例多是單點保障,數據上下游鏈路缺乏保障協同機制跨部門平臺保障機制不完善、流程缺失,跟進負責人模糊沒有形成公司層面的數據保障規范、復盤定級機制,不利于歷史事件問題收斂背景目標背景目標保障目標準確識別核心數據場景,支持數字化衡量保障效果、提升點待辦事項信息數據滿足四大基礎原則(完整性、準確性、一致性、及時性)、各場景的通用、定制化使用要求數據保障貫穿全生命周期(事前、事中、事后)+全生產鏈路(生產、傳輸、加工、組裝、服務)數據中臺具備足夠完善的工具能力,支持在預防、響應、處理、恢復

7、、復查等環節的高效支持3 32 21 14 4體系架構體系拆解體系拆解質量數倉建設為基礎質量數倉建設為基礎構建三大核心能力構建三大核心能力1 12 2體系架構體系架構完備的質量保障體系完備的質量保障體系數字化驅動持續優化數字化驅動持續優化高效的故障處理能力高效的故障處理能力質量數倉建設質量數倉建設 引入相關保障服務數據,進行統一數倉建設 依托數據中臺能力,構建質量數倉架構 為保障問題描述、決策做數據依據支撐 通過日常數據檢測分析發現潛在保障風險,事前將潛在問題消除 為跨團隊協同保障的結果及預期,做衡量和改進拆解支持質量數倉質量數倉建設為基礎建設為基礎體系架構體系架構數據應用數據標準指標服務數據

8、分析離線數據建設實時數據建設質量分運營看板告警歸因看板運維大盤SLA保障評估埋點標準基線標準分級標準反饋標準保障效果告警匯總.基線保障分析告警歸因分析項目明細維表任務明細基線明細告警明細變更明細數據源告警服務基線服務DQC服務血緣數據異常清單實體保障看板值班實時推送保障標準值班標準校驗標準加工標準驗收標準.DWDDWBDWS基線明細模型明細告警明細鏈路血緣標簽明細實體關系.基線寬表告警寬表人員寬表.人員輕匯總告警輕匯總規則項輕匯總基線輕匯總模型輕匯總項目輕匯總實體關系輕匯總.任務完成信息基線完成信息基線異常信息集成歸檔信息任務匯總基線匯總告警匯總變更匯總推進基于數據驅動的質量保障體系建設推進基

9、于數據驅動的質量保障體系建設平臺能力診斷平臺數據血緣DQC治理平臺調度服務數據傳輸告警模塊 基線管理反饋模塊.事件管理值班系統調度系統數據服務體系架構體系架構質量數倉架構1 1、完備的質量保障體系、完備的質量保障體系 目標在于保證數據滿足用戶用數要求 要求各方對相應數據階段的質量保障情況進行負責 按業務要求設計數據質量標準,細化監控標準規則庫 制定數據質量管控目標,數據質量衡量度量化 制定數據質量相關可改進計劃,并持續推進落地三大核心三大核心能力能力體系架構體系架構基本要素2 2、數字化驅動持續優化、數字化驅動持續優化3 3、高效的故障處理能力、高效的故障處理能力構建監測體系構建監測體系部門協

10、同保障部門協同保障推進日常運營推進日常運營 數據資產保障定級-加工鏈路卡點校驗-數據風險點監控(基線、任務、模型等)-數據質量效果衡量 構建質量分衡量機制、支持拆解多維視角(完整性、一致性、準確性、及時性)衡量保障效果 制定保障規則,識別各數據資產(模型、項目、基線等)待完善操作項 協同數據中臺上下游相關組件方,拉齊各組件的SLA保障標準 形成跨團隊、跨組件的協同值班、響應、處理、復盤保障機制 推進業務團隊一起參與保障,了解最終用戶的使用場景。要求 周期同步質量保障核心指標的水位和目標,引入日常保障運營機制 將各方日常反饋的質量問題進行問題分類,抽象校驗規則、沉淀保障知識庫,避免問題反復出現

11、定期復查待辦處理進展及保障效果,分發待辦至責任人完善體系架構體系架構完備的質量保障體系體系架構體系架構知識庫沉淀場景化在完整性、一致性、有效性、及時性等傳統數倉卡點數據校驗基礎上,結合實際場景訴求,擴展沉淀核心場景校驗規則。在基于傳統模型表卡點的范圍外,擴展至埋點數據、指標服務類等場景,做到 埋點-集成-加工-組裝-出倉-API服務 數據流向全鏈路覆蓋卡點校驗卡點校驗規則庫事故歸因知識庫隨著大數據業務的發展,現階段公司組件日趨復雜,在這樣的業務背景下,越來越多的用戶在使用大數據平臺時,發現難以定位問題,基于此在日常保障問題發生的同學,我們會針對性進行問題歸檔。在問題再次發生時,結合告警、恢復工

12、具能力,提升用戶解決問題效率,降低用戶異常成本構建監測體系構建監測體系部門協同保障部門協同保障推進日常運營推進日常運營 數據資產保障定級-加工鏈路卡點校驗-數據風險點監控(基線、任務、模型等)-數據質量效果衡量 構建質量分衡量機制、支持拆解多維視角(完整性、一致性、準確性、及時性)衡量保障效果 制定保障規則,識別各數據資產(模型、項目、基線等)待完善操作項 協同數據中臺上下游相關組件方,拉齊各組件的SLA保障標準 形成跨團隊、跨組件的協同值班、響應、處理、復盤保障機制 推進業務團隊一起參與保障,了解最終用戶的使用場景。要求 周期同步質量保障核心指標的水位和目標,引入日常保障運營機制 將各方日常

13、反饋的質量問題進行問題分類,抽象校驗規則、沉淀保障知識庫,避免問題反復出現 定期復查待辦處理進展及保障效果,分發待辦至責任人完善體系架構體系架構完備的質量保障體系體系架構體系架構協同值班原因定位原因定位緊急跟進緊急跟進影響通知影響通知數據恢復數據恢復構建監測體系構建監測體系部門協同保障部門協同保障推進日常運營推進日常運營 數據資產保障定級-加工鏈路卡點校驗-數據風險點監控(基線、任務、模型等)-數據質量效果衡量 構建質量分衡量機制、支持拆解多維視角(完整性、一致性、準確性、及時性)衡量保障效果 制定保障規則,識別各數據資產(模型、項目、基線等)待完善操作項 協同數據中臺上下游相關組件方,拉齊各

14、組件的SLA保障標準 形成跨團隊、跨組件的協同值班、響應、處理、復盤保障機制 推進業務團隊一起參與保障,了解最終用戶的使用場景。要求 周期同步質量保障核心指標的水位和目標,引入日常保障運營機制 將各方日常反饋的質量問題進行問題分類,抽象校驗規則、沉淀保障知識庫,避免問題反復出現 定期復查待辦處理進展及保障效果,分發待辦至責任人完善體系架構體系架構完備的質量保障體系體系架構體系架構日常運營-質量衡量保障方向是什么保障方向是什么如何衡量效果如何衡量效果待提升項是什么待提升項是什么痛點痛點【數據完整性】:考量數據項信息是否全面、完整、無缺失【數據一致性】:考量同一信息主體在不同的數據中是否相同【數據

15、準確性】:考量數據是否符合預設的質量要求,如數據量校驗等【告警響應度】:基線、模型、項目等數據資產的告警反饋情況 【監控覆蓋率】:基線、模型、項目等數據資產的監控配置情況【作業穩定性】:考量作業的運行穩定性,是否經常報錯,導致數據事故【作業時效性】:考量數據信息可正常產出和使用的時間是否滿足預期【鏈路保障率】:考量數據出倉類任務、指標服務API等服務場景保障情況1 1、完備的質量保障體系、完備的質量保障體系三大核心三大核心能力能力體系架構體系架構基本要素3 3、高效的故障處理能力、高效的故障處理能力2 2、數字化驅動持續優化、數字化驅動持續優化 推進數據全鏈路數字化落地歸庫 構建基于元數據的質

16、量保障數倉體系,支撐決策判斷 構建質量保障北極星指標,持續分析、完善指標 基于指標發現保障瓶頸,設計優化策略方案 推進方案落地,持續循環推進北極星指標推進策略:推進策略:制定質量保障北極星指標 滿足拆解至各保障組件、節點進行效果衡量 建設基于分析歸因的潛在保障問題識別能力 透過日常保障問題表象,直擊問題根因 PDCA循環管控,促進保障持續提升 通過保障提升專項,解決特定問題 總結保障問題,形成方法論,沉淀數據中臺能力構建衡量指標描述分析現狀找到問題瓶頸設計解決方案跟進優化效果數字化效果衡量驅動,持續提升保障結果體系架構體系架構日常運營-專項治理1 1、完備的質量保障體系、完備的質量保障體系三大

17、核心三大核心能力能力體系架構體系架構基本要素2 2、數字化驅動持續優化、數字化驅動持續優化3 3、高效的故障處理能力、高效的故障處理能力 在日常保障實踐案例中不斷總結問題,抽象痛點 基于痛點持續沉淀方法論,打磨工具產品功能 類似保障問題再次出現時,具備成體系應對能力和手段基線風險診斷基線風險診斷 提升核心數據鏈路保障質量告警能力優化告警能力優化 減少無效告警,跨團隊做合理分發故障恢復系統故障恢復系統 一鍵恢復受故障影響數據規則配置系統規則配置系統一鍵操作不同分級數據進行規則覆蓋數據數據開發開發底層底層服務服務故障鏈路一鍵恢復故障鏈路一鍵恢復 數據故障影響鏈路,生成受影響DAG并支持一鍵恢復數據

18、分級全鏈路保障數據分級全鏈路保障支持區分核心數據鏈路,按需投入保障人力統一運維值班機制統一運維值班機制 出現數據問題,具備高效響應跟進機制通過日常保障實踐沉淀方法論,持續打磨產品能力通過日常保障實踐沉淀方法論,持續打磨產品能力提升數據保障質量、優化故障響應效率、降低夜間值班成本提升數據保障質量、優化故障響應效率、降低夜間值班成本體系架構體系架構功能支持案例分享案例分享案例分享保障流程拆解監控覆蓋監控覆蓋任務上線任務上線日常跑批日常跑批觸發告警觸發告警響應跟進響應跟進數據恢復數據恢復問題歸檔問題歸檔開發階段開發階段值班階段值班階段復盤階段復盤階段問題問題線上待保障任務多 5000+監控覆蓋率底

19、不足50%監控覆蓋 無規則審計發布流程 審批環節缺失值班響應SOP流程不完善,跟進處理效率低夜間故障信息同步鏈路不清晰起夜率高 50%+夜間告警數量多,準確率低故障出現時,數據恢復耗時長,人力投入大存在大量非數倉歸因告警 95%+發現存在部分 問題歸因在外部團隊已出現 問題存在復現風險定責機制缺位造成人員意識欠缺案例分享案例分享痛點問題痛點問題數據鏈路這么長,涉及組件這么多,不知從何處下手當前保障指標表現這么差,能推進到什么程度心里沒底有沒有什么推進套路可以借鑒,開箱即用,立竿見影案例分享案例分享實施階段拆解初始階段初始階段保障意識薄弱沒有數據保障行動無相關流程無相關管控被動應對數據問題起步階

20、段起步階段逐漸具備保障意識沒有形成方法論流程局限在項目或部門內分級定義分級定義明確分級保障定義形成標準化管理流程數據保障的規范化量化管理量化管理貫穿全鏈路的保障方法能夠進行量化分析和監控持續優化持續優化專注于持續優化提升逐漸形成最佳實踐案例推進思路推進思路數據鏈路拆解數據鏈路拆解保障分級建設保障分級建設1 12 2全生命周期覆蓋全生命周期覆蓋3 3案例分享案例分享案例分享案例分享數據鏈路拆解數據應用指標服務數據分析離線數據建設實時數據建設PC端數據產品指標封裝API數據集構建DWDDWDODS數據源埋點數據移動端數據產品ODSADSDWSDWBAPPDWS業務庫表抽象數倉建設流向抽象待保障數據

21、實體埋點數據離線/實時項目/任務模型表/kafka topic模型字段數據指標數據基線數據集/API案例分享案例分享保障分級建設業務快速發展階段,要求數據能力快速迭代,服務于業務結果故在保障分級標準的規范和工具能力建設方面相對滯后導致在保障推進工作初期,待優化目標范圍不清晰出現緊急case時 無法針對性保障核心數據問題背景問題背景 梳理核心保障鏈路 100+核心保障場景覆蓋率 63%-100%拉齊各方分級保障標準,為應急性響應提供高優保障思路 完成數據保障分級打標,為數據故障快速恢復提供數據支持定義分級標準盤點數據現狀完成數據分級梳理分級問題推進優化治理實施路徑實施路徑優化收益優化收益案例分享

22、案例分享全生命周期覆蓋埋點數據離線/實時項目/任務模型表/kafka topic模型字段數據指標數據基線數據集/API事前事前事后事后事中事中埋點準入標準埋點準入標準埋點數據埋點數據埋點灰度監控埋點灰度監控代碼掃描糾錯代碼掃描糾錯開發階段開發階段代碼發布審核代碼發布審核項目配置標準項目配置標準監控配置標準監控配置標準監控標準監控標準基線準入標準基線準入標準上線質量標準上線質量標準發布階段發布階段測試報告格式測試報告格式測試交付標準測試交付標準數據驗收標準數據驗收標準卡點監控觸發卡點監控觸發卡點校驗卡點校驗告警信息分發告警信息分發夜間值班規范夜間值班規范值班機制值班機制接警操作流程接警操作流程事

23、故跟進流程事故跟進流程影響通知流程影響通知流程數據恢復流程數據恢復流程事故修復事故修復事件留檔流程事件留檔流程信息同步流程信息同步流程質量保障大盤質量保障大盤保障衡量保障衡量SLASLA達成看板達成看板事件復盤機制事件復盤機制事后復盤事后復盤跟進優化機制跟進優化機制卡點規則沉淀卡點規則沉淀知識庫知識庫事件歸因沉淀事件歸因沉淀告警反饋流程告警反饋流程事件反饋事件反饋事件歸因機制事件歸因機制定級追責機制定級追責機制案例分享案例分享保障專項受公司集群機房遷移+服務混合部署影響數倉整體鏈路保障形勢嚴峻,夜間值班壓力巨大,告警經常出現全鏈路擊穿轟炸的現象,基于此如何在多重原因復合導致的告警風暴中找出問題

24、根因,推進解決告警多起夜高問題,成為相當長一段時間里亟待解決的問題問題背景問題背景項目挑戰項目挑戰 單次告警擊穿全鏈路,觸發告警數 1000+影響波及所有任務OWNER 連續5周,工作日起夜率80%+故障導致數據異常、丟失等問題累計修復成本高達單次事故 80+/人天案例分享案例分享衡量指標推進步驟推進步驟梳理特定時間范圍內的告警明細抽象拆解至數據鏈路各環節、數據保障實體總結問題,進行根因歸類,評估各環節占比集中力量優先處理大頭問題推進多方對齊優化方案、優化規則覆蓋 事件數事件數 22.0723.03 事件捕獲率事件捕獲率 22.0723.03 起夜天數起夜天數 22.0723.03影響數據質量

25、的事件CASE事件通過事中校驗環節及時捕獲的比率夜間值班起夜情況 核心基線破線數核心基線破線數 22.0723.03 過程指標過程指標 ETL任務數:5000+,核心基線數:100+監控覆蓋率:連續2個季度100%,規則數量:16000+P級事故數:連續6個月 無歸屬數倉側P級事故 起夜人次:最近3個季度 75、59、31,逐季降低:21%、47%,累計降低 59%夜間費時:最近3個季度 127.6h、91.77 h、17.4h,逐季降低:28%、81%,累計降低 86%核心場景保障率:63%-100%案例分享案例分享衡量指標核心保障基線破線趨近100%降低50%+降低55%+穩步收斂案例分享

26、案例分享保障推進工作中總結的痛點數據保障涵蓋內容極為廣泛,且具備一定的學習成本。從哪里優先入手,以什么樣的路徑來推進成為一個難題保障入手難保障入手難產出一些列的規范和管理辦法后,往往只能停留于紙面,沒有恰當的保障平臺工具來支撐落地推進推進落地難落地難如何客觀地評估治理、將治理成效量化、可視化的呈現到用戶面前,進而更具驅動力的推進可視化不足可視化不足工作容易陷入“運動式治理”,通過集中的突擊、在一段時間內看到一定的效果,不能長久地、從根本性地解決治理的問題可持續性差可持續性差案例分享案例分享將方法論沉淀成中臺能力工具化規則化推進構建一套可持續質量運營的治理平臺工具將所有待推進保障卡點操作項規則化

27、表達基于產品能力推進日?;U洗k項通知即時化當用戶補齊待辦事項后快速反饋至衡量值,為用戶帶來即時反饋的體驗日?;磥碚雇磥碚雇麛U大保障范圍擴大保障范圍豐富保障策略豐富保障策略持續數據驅動持續數據驅動緊跟數據建設迭代步伐,將保障范圍做到全覆蓋全局視角下迭代可持續監控、反饋、優化、迭代的閉環體系沒有完美的工具,沒有完全不出問題的數據重點是在已知問題出現時,能否快速響應處理以數據為中心進行決策和行動用數據建設驅動數據質量保障工具能力迭代工具能力迭代收斂數倉及外部協同團隊日常問題,沉淀數據歸因知識庫持續優化保障規則庫,豐富卡點校驗能力完善溝通機制完善溝通機制數據保障是一件長期主義事項,保障道路上離

28、不開各方兄弟團隊的大力支持,也希望持續優化溝通機制,提升效率科技領域進無止境,關注業界前沿技術,補充進數據保障彈藥庫,站在巨人的肩膀上高效解決問題擁抱前沿技術擁抱前沿技術其他思考其他思考對數據質量保持敬畏、嚴謹數據質量是數據應用基礎中的基礎保障問題往往發生在細枝末節中未來展望刀耕火種刀耕火種鐵犁牛耕鐵犁牛耕信息浪潮信息浪潮智能終局智能終局萬象初創百事待興萬象初創百事待興針對問題解決問題針對問題解決問題逐漸具備工具思維逐漸具備工具思維高頻問題抽象建設高頻問題抽象建設基于數據發現、描述問題基于數據發現、描述問題沉淀可持續推進的方法論沉淀可持續推進的方法論沒有什么是一鍵操作解決不了的沒有什么是一鍵操作解決不了的如果有,那就再加一種一鍵操作如果有,那就再加一種一鍵操作胡峰胡峰 13825279517 13825279517嗶哩嗶哩技術公眾號嗶哩嗶哩技術公眾號

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(B站數據質量保障體系建設與實踐.pdf)為本站 (2200) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站