《6-3 釋放數據潛能激發數據價值——騰訊云數據治理 Wedata 產品實踐.pdf》由會員分享,可在線閱讀,更多相關《6-3 釋放數據潛能激發數據價值——騰訊云數據治理 Wedata 產品實踐.pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、WeData數據治理介紹及內部實踐釋放數據潛能 驅動業務增長騰訊云大數據平臺產品中心fairyxwang2022081.數據治理挑戰2.騰訊內部數據治理實踐3.WeData數據治理平臺能力目錄數據治理挑戰01數據治理挑戰數據信息分散數據質量差維護困難元數據不全無法審計和度量l需要有業務接口人維護補全業務信息l數據多樣化,缺少統一標準l數據有問題,總是事后才知道l不知該由誰去維護預防l業務系統不清晰l數據資產不明晰業務挑戰l上游是一張空表,或者無效字段,總靠人肉來判別l修改一張表,不清楚帶來哪些影響管理挑戰l用數據的人這么多,如何保障公司數據訪問是可靠安全的l數據成本是什么樣技術挑戰管理挑戰業務
2、挑戰管理挑戰技術挑戰業務挑戰5數據治理“馬斯洛的需求層次”數字化不同階段,數據治理關注的核心需求不同成本安全可用質量時效數據產出及時性數據有保障,準確、完整、有效數據易查找、好理解、可復用數據安全、敏感數據識別、合規保證數據存儲、使用的成本優化和控制騰訊內部數據治理實踐027騰訊內部業務現狀CDG企業發展事業群IEG互動娛樂事業群CSIG云與智慧產業事業群PCG平臺與內容事業群S職能系統WXG微信事業群TEG技術工程事業群數百產品線數千“數據分析師”集成處理洞察治理融合分享數萬業務線EB級存儲量目標一致性8騰訊數據治理三階段數據資產化全面數據匯聚統一數據資產業務決策輔助降本增效成本洞察成分分析
3、責任到人業務治理平臺化方法論沉淀治理工具化效果可量化基于騰訊統一的數據平臺體系,打通系統間數據孤島,建立統一的數據資產,為輔助業務決策提供高質量的數據保障業務規模日益增長,同時也帶來巨大的成本負擔,成本治理迫在眉睫將治理方法論通過平臺進行實現,治理流程工具化,提升治理效率,推動深度治理9騰訊內部實踐:騰訊新聞數據資產化背景與目標過程:數據模型重構成果騰訊新聞數據治理項目目標是通過對騰訊新聞業務數據的規劃、生產、加工、應用等進行全鏈路改造與升級,在提升新聞數據的準確性、覆蓋度和實時性的同時,打造科學的數據應用體系。將數據質量體系在新聞整個業務推進落地,為敏捷分析與科學實驗決策等奠定了基礎缺少統一
4、數據規范:各業務數據埋點規范、上報規范、數倉規范、指標規范各異。數據質量難以保障:業務數據倉庫龐大,總離線表數超過xx萬,缺乏數據分層及數據模型,數據復用度僅15,存在大量年久失修的數據埋點設計-數倉建模-指標建模統一埋點模型升級數倉模型構建指標模型鏈路治理完成數據生產鏈路的規范化建設,從埋點到數倉到指標等,梳理完成了適合新聞的管理流程,并在大改版過程中快速應用數倉治理完成250個模型設計或重構,52個維表的設計以及 270個應用表的開發。在數據資產完整性和分層規范 達到95%、復用度達到73%以上,跨層引用占比小于 5%10騰訊內部實踐:PCG數據成本治理資源用量資源單價PCG大數據成本平臺
5、化治理成本度量策略挖掘治理任務優化執行范圍:1.數據采集平臺2.數據生成平臺3.數據分析平臺4.數據應用平臺成果:在月成本同比增加30%+的情況下,業務單位用戶/內容消費的大數據成本下降,業務大數據成本絕對值下降至少10%強化大數據成本治理理論,沉淀方法論、流程和平臺能力優化思路:降低業務不合理使用優化思路:提升數據平臺效能流程優化策略優化架構優化性能優化11騰訊內部實踐:治理平臺化推動業務治理落地背景與目標過程:構建一站式數據治理平臺大數據環境下,海量數據給業務帶來了巨大價值,同時也帶來巨大的成本及負擔。業務團隊大數據成本盤點困難、治理執行門檻成本雙高、治理效果不能有效量化,都是業務在推進資
6、產治理的痛點現狀概覽資產明細治理方案治理執行洞察全域數倉及大數據成本,呈現最真實的業務資產情況全方位治理項洞察,基于資產分規范,對當前業務的待治理項進行明細展示平臺內置治理方案結合業務定制化治理方案一站式治理執行,針對洞察出的治理項進行治理動作資產價值評分體系構建:規范、安全、質量、成本、應用WeData 數據治理平臺能力0313騰訊內部大數據能力的對外商業化輸出-WeData公有云EMRCDWDLC私有云TBDS數據湖TBDS MPPRDBTDSQL.敏捷數據生產場景化解決方案管理體系用戶管理審批管理多租戶管理項目管理數據源管理多環境管理平臺開放WeData數據開發治理平臺金融政務/公安零售
7、/傳媒/教育制造/能源文旅/地產/交通電商游戲行業應用數據引擎數據匯聚數據倉庫數據湖數據中臺數據建模(DataModel)數據集成(DataInLong)數據開發(DataStudio)數據服務(DataService)統一元數據(MetaData)統一安全(SecurityCenter)統一調度(US)基礎數據支撐服務DataOps生產流程需求規劃開發發布運維數據質量(DQ)數據安全(DS)元數據資產(UDP)資產治理規范安全質量成本應用工具實踐高效數據治理WeData數據治理服務14【DataStudio】數據管理編排空間運維中心2.數據敏捷開發與運維(ETL加工處理)離線/實時同步【數據
8、集成】批量遷移(含遷移運維)1.數據匯聚【數據質量】規則模版質量概覽事前 質量監控、事中生產阻斷、事后質量分析質量監控運維管理質量報告【數據安全】權限策略數據脫敏事前 訪問控制事中脫敏加密、事后訪問審計權限審計數據密級訪問審計數據流通存儲數據生產加工中間數據1中間數據2中間數據3結果數據主數據提煉原始數據規范項【資產治理】數倉規劃模型設計【數據建?!?.數倉定義2.規范標準邏輯模型關系模型數據管理指標、維度行業模版全鏈路工具保障全生命周期數據治理模型物化標準生產API管理【數據服務】API生產3.數據應用治方案理落地執行數據資產化、價值化基于騰訊內部實踐經驗的治理標準體系開發空間安全質量成本應
9、用數據發現數據管理【元數據資產】元數據采集庫表管理業務分類數據地圖數據目錄數據血緣生產變更數據溫度采集、管理、檢索、應用1.數據資產化、規范化 2.成本治理 4.數據應用 以數據應用價值為導向:從數倉規劃、數據標準的管理落地,到質量、安全在生產流程的貫穿,達成數據資產化管理與高效治理WeData數據治理-規范工具規范質量安全可用資產治理16WeData數據治理-質量工具規范質量安全可用治理質量監控配置1.規則模版定義4.定期數據質量分析質量規則模版2.基于元數據配置數據質量監控增加數據質量規則集3.質量問題跟蹤處理ETL流程監控離線周期檢測質量報告:數據質量考核評價質量概覽:質量核心指標日常關
10、注質量任務運維規則校驗器DQ業務層DQ WebDQ樣本采集引擎基礎體系統一元數據多租戶管理數據源管理統一調度異常檢測固定值平均值離散波動方差波動持續波動規則模板引擎完整性準確性一致性唯一性有效性及時性告警郵件短信企微語音弱規則緩沖隊列強規則采集隊列規則管理計算規則翻譯器判斷規則執行器告警規則執行器可視化配置數據監控規則模板運維管理全維度規則豐富模板132質量報告4測試運行事中檢測事后檢測53種官方模板自定義規則模板字段級表級綜合質量分維度質量分表質量分明細17WeData數據治理-安全工具規范質量安全可用成本脫敏策略基于數據分類分級的安全能力脫敏算法分類分級定義數據識別規則識別任務和打標數據脫
11、敏1、敏感數據識別嵌入水印數據水印數據溯源風險識別:訪問、導出、操作3、安全審計風險告警審計日志:訪問、導出、授權、鑒權脫敏任務靜態脫敏查詢場景動態脫敏集成場景數據安全屬性展示敏感數據分布與檢索2、隱私保護能力WeData數據治理-元數據資產管理工具規范質量安全可用治理元數據管理流程元數據采集1血緣影響分析2元數據應用3元數據運營維護4 數據源配置 元數據采集任務配置 庫表元數據采集 ETL調度元數據采集 業務元數據采集 元數據檢索 系統、表與字段血緣關系分析 系統、表與字段影響分析關系分析 業務元數據分析 元數據采集監控 元數據采集問題處理 系統日常運維監控 數據資產展示 數據字典管理 業務
12、指標管理 數據質量檢查 變更影響評估 統一元數據(MetaData)統一安全(SecurityCenter)統一調度(US)基礎能力支撐服務數據發現數據管理數據地圖元數據服務 采集任務管理 采集實例運維 數據歸屬 庫表管理 業務元數據管理 統計大盤 數據目錄 血緣解析、數據溫度、生產變更 數據訂閱 元數據API 血緣API 數據統計API 元數據查詢API 以數據應用為目的元數據資產工具19WeData數據治理-治理實踐落地規范質量安全可用治理企業級治理標準一站式資產治理工具企業級測評體系規范體系元數據規范數據質量規范數據安全規范數據共享規范數據應用規范測評體系元數據成熟度數據質量成熟度數據安全成熟度資產管理成熟度數據應用成熟度資產生產數倉建模數據開發數據發布數據運維資產評估數據定級資產分資產認證成本賬單資產運營數據地圖血緣分析資產市場責任歸屬全域元數據調度元數據技術元數據業務元數據血緣元數據大數據平臺