《2-1 騰訊歐拉數據治理平臺思考與實踐.pdf》由會員分享,可在線閱讀,更多相關《2-1 騰訊歐拉數據治理平臺思考與實踐.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、騰訊歐拉數據治理平臺的思考與實踐虎興龍 騰訊歐拉數據治理技術負責人|騰訊歐拉平臺簡介騰訊PCG數據治理平臺|PCG產品BG外產品騰訊歐拉平臺是騰訊PCG(PCG平臺與內容事業群)自2019年推動數據治理開始啟動建設,目前已在騰訊內部廣泛使用的數據治理解決方案騰訊歐拉平臺基于DataOps理念,結合騰訊數據治理方法論,提供一站式數據產、管、治、用全生命周期的大數據能力,以提升數據治理水平,沉淀企業安全可靠、使用便捷、質量可信的數據資產。主要包含5大核心能力:數據發現:通過數據市場、數據洞察、服務市場為用戶提供方便的找數據、用數據體驗;資產工場:一站式建模、發布、測試、管理、服務化體驗;指標平臺:
2、打造統一指標平臺,建設指標生態,指標治理平臺化 治理引擎:以資產健康分牽引,提供成本、質量、安全等治理能力 大同埋點:平臺幫助業務實現一站式埋點設計、開發、聯調測試、發布審核、質量監控體驗;01平臺建設思路平臺建設思路Data-fabric02統一指標統一指標tMetric此部分內容作為文字排版占位顯示(建議使用主題字體)03數據開發與治理數據開發與治理此部分內容作為文字排版占位顯示(建議使用主題字體)04數據地圖與服務數據地圖與服務此部分內容作為文字排版占位顯示(建議使用主題字體)目錄目錄CONTENT|平臺建設思路請替換文字內容,點擊添加相關標題文字01|數據治理的終態實現數據工業化生產和
3、應用|實現數據工業化高效的業務流程定制高效的業務流程定制或者固化的業務流程固化的業務流程高效的數據模型管理高效的數據模型管理或者固化的數據模型固化的數據模型統一的存算系統統一的存算系統或者單一數據庫單一數據庫數據治理的終態實現數據工業化生產和應用|SAPCRM物料管理供應商管理BIBWMES數據中臺畫像內容渠道BI平臺實驗平臺活動中臺等例如生產執行系統MES:通過SAP定義業務流程、工序等,MES執行業務流程和工序,并把數據反饋給SAP,SAP的BW模塊通過數倉建模的手段組織數據,供BI系統配置報表分析數據互聯網的生產執行系統就是TAB 以及各種業務中臺,如活動中臺、push中臺、推薦系統等工
4、業制造的信息系統互聯網的數據系統歐拉數據資產工場規范化的數倉建模與開發平臺|A Virtual data layer is one virtual place to go for all your data.It combines all of a companys diverse,distributed data sources,whether on-premises or in the cloud,and enables centralized access to data anytime,anywhere.Data-driven organizations deploy a virtua
5、l data layer to access,combine,and provision all of its enterprise data to meet business requirements.Master data represents data about the business entitiesthat provide context for business transactions.The most commonly found categories of master data are parties(individuals and organisations,and
6、their roles,such as customers,suppliers,employees),products,financial structures(such as ledgers and cost centres)and locational concepts.one-Modelone-Entityone-Service數據治理,平臺+專項推進,我們需要一個目標|維度指標規范表命名規范性注釋規范性依賴規范層域規范質量監控保障覆蓋DQC保障覆蓋基線保障覆蓋DQC達標產出穩定性回刷穩定性DDL穩定性安全表安全等級設置字段安全等級設置敏感字段加密審批流程合規性讀寫權限設置合規責任人符合
7、規范成本計算成本存儲成本OLAP成本應用熱度下游依賴數互動推薦值共享熱度應用貢獻度資產健康分資產化率埋點健康分數倉健康分指標健康分(認證)歐拉治理平臺規范化數據建模、運維數據治理工具箱治理專項基于資產分項修復治理資產分運營歐拉數據資產平臺治理專項+平臺能力互相牽引驅動,落地騰訊數據治理最佳實踐|中臺融合資產IDMappinguniID:統一資產實體uniModel:統一數據模型uniService:統一數據服務歐拉歐拉(OLA)(OLA):騰訊數據資產平臺騰訊數據資產平臺提升數據治理平臺化能力提升數據治理平臺化能力,提升數據治理效率提升數據治理效率,打造打造 uniDatauniData數據體
8、系數據體系,沉淀騰訊數據資產沉淀騰訊數據資產價值價值主張主張平臺化:埋點設計 數倉建模 指標建模統一埋點模型大同統一湖倉模型資產工場統一指標模型指標平臺統一數據地圖數據發現統一數據服務API CLOUD治理專項治理專項數據規范與標準資產健康分資產健康分(資產化評價與運營體系)+平臺工具平臺工具(生產即治理的平臺工具),提升規范化資產率新聞治理新聞治理瀏覽器治理瀏覽器治理成本治理成本治理質量治理質量治理指標治理指標治理元數據總庫:全鏈路統一元數據能力元數據總庫:全鏈路統一元數據能力(埋點埋點-數倉數倉-指標指標-報表報表)QQQQ治理治理視頻治理視頻治理數據治理落地的驅動邏輯|資產化率提升、數據
9、EPC提升、成本降低、數據更安全資產化率的標準(先暗后明):質量標準、加工流程標準、元信息標準推力拉力業務配合意愿提升,治理落地結果被認可定義資產化標準定義數據EPC標準定義數據安全標準圍繞歐拉平臺落地標準和產品邏輯設計標準全面公開推、拉標準執行老板要結果平臺能背書(認證)資產共享、貢獻的激勵湖倉開發效率、成本控制的需要安全管理的需求治理公信力資產化要求成本要求安全管理要求管理開發數據地圖存量治理規范化開發資產工場保障新加工的數據是資產化的高質量的數據資產地圖數據管理保障已有數據是能往新的標準上遷移、能適應變化的申請應用查找安全規范成本質量應用統一數據服務規劃開發發布服務化維護統一數據模型質量
10、、安全管理資產化標準資產化標準歐拉數據治理融合解決方案|沉淀安全可信的數據資產數據生產數據應用業務系統終端埋點數據接口線下數據.歐拉數據治理與融合數據集成與開發數據接出與服務敏捷分析數據展示業務系統開發應用數據規劃主題規劃、業務過程規劃模型設計數倉模型、指標模型管理維護基線與調度、質量與安全、成本管理元數據總庫技術元數據、業務元數據數據畫像數據標簽體系、數據特征統一元數據資產分&資產化率:資產治理評價體系應用接出數據發現數據地圖、數據市場、數據洞察指標平臺指標API、指標元數據API數據服務元數據服務、指標服務、數據API規范開發資產治理治理大盤成本看板、資產概覽、治理效果治理方案治理項挖掘、
11、治理項推送、治理任務分配治理執行成本治理、規范治理、安全治理、質量治理元數據服務上報OpenApi、查詢OpenApi統一元數據是治理的基礎|用CMDB的思想來管理數據資產(例如指標、數據表、報表、埋點)的狀態,例如這些資產在特定的時間點是否存在,以及各資產之間的關系。CMDB也可以用在影響分析、根因分析以及變更管理。數據生產邏輯基礎描述權限、審計價值、成本質量、監控內容、訪問API業務過程上下游依賴統一元數據上報OpenApi歐拉數據治理引擎成本治理元數據OpenApi安全治理規范治理查詢搜索血緣TDBankTDBank統一元數據處理數據開發與治理數據開發與治理請替換文字內容,點擊添加相關標
12、題文字02|歐拉數據資產工場規范化的數倉建模與開發平臺實現開發即治理|ODSDIMDWDDWSADS為什么數倉表會亂:缺乏規范和模型1.三張ADS表的加工邏輯不統一,導致總“曝光次數”對不齊2.從ODS-ADS,所有的表物化存儲,數據冗余、字段冗余非常嚴重,導致數倉存儲成本高,物化導致數據回溯產生大量不一致3.ADS、DWS表之間的依賴錯綜復雜,同層依賴,甚至有下層依賴上層的情況4.同樣的表結構在不同的業務域、主題域重復建設解決方案:打造基于業務視角、數據視角的規范化數據建模平臺1.通過規范化維度建模、可視化建模等能力2.通過邏輯表來減少大量冗余物化,邏輯變更更容易做回溯,只有在需要查詢加速的
13、時候做物化存儲3.通過規范化建模平臺,嚴格限制上層只能依賴下層、維度層,一個表只能在一個主題下4.基于指標平臺統一指標口徑,半自助式配置生產DWS、ADS表這張表應該放在“用戶主題”還是“渠道主題下”?這張表修改了加工邏輯,前后數據不一致,為什么不可以是一張邏輯表?數據怎么做版本管理?需要通過規范的數據建模提升數據質量|數據建模是進行數據組織、映射的過程,通常通過一系列簡易符號、視圖、代碼、文本等表達數據關系、流向。數據質量保障維護、開發效率提升快速識別和定位數據問題便于數據協作和理解降低安全風險規范與標準物理模型邏輯模型概念模型定義數據的范疇、業務域、主題等業務含義和規則常用分層分域的思路組
14、織數據,例如常用樹形結構表達定義定義建模方法建模方法定義數據、實體邏輯關系和流向,無須關注底層引擎基于具體引擎定義數據的具體實現常用E-R模型、星型模型,利用SQL或者可視化方法表達在邏輯模型的基礎上翻譯為具體引擎可執行的SQL、workflow或代碼統一模型的方法數據資產評價、認證體系牽引業務治理統一模型的好處需要通過dataops理念提升數據生產維護效率|業務流程設計數據模型設計標準定義管理流批一體湖倉一體數據建模即時調試流程編排測試流水線測試報告預發試運行發布管理基線保障資源管理作業診斷環境隔離多環境管理元數據治理評價問題發現治理推進效果分析作業監控數據監控智能監控數據地圖、目錄數據服務
15、指標服務服務編排數據特征畫像需求流程協作通知項目管理數據生產應用生產流程編排業務流程編排歐拉一站式建模開發、測試發布、質量運維、版本管理能力|規劃設計規范約束開發建模測試CR應用接出12346發布運維5數據建模測試發布質量運維版本管理業務架構物理表邏輯表分區版本代碼版本維度關聯模型SQL代碼(joingroupby)作業調度平臺線上數倉基于二級分區的版本控制基于計算邏輯的版本控制測試數倉線上數倉讀寫正式發布測試聯調物理表測試線上物理表F(x)線上邏輯表邏輯表測試Scheme映射測試F(x)發布數據監控作業監控數據作業基于版本命名用戶告警告警處理后臺作業平臺作業重試強制成功超時暫停下游重跑消息對
16、話操作US作業接口Everything is Code支持歷史版本代碼、任務、模型對比Everything can be reviewed提交發布管理鏈路運維能力提升開發規范配置數倉規范配置治理平臺化1235467歐拉一站式建模開發、測試發布、質量運維、版本管理能力|歐拉-治理引擎:成本、資產現狀看得清,治理大盤-治理方案-行動-效果能閉環參考標桿:dataphin-資產治理,dataworks-數據治理,DATABLAU|歐拉-治理引擎:成本、資產現狀看得清,治理大盤-治理方案-行動-效果能閉環|統一指標統一指標tMetric請替換文字內容,點擊添加相關標題文字03|數據倉庫原始數據轉換后數
17、據ETL工具報表平臺Metriclogic分析平臺Metriclogic實驗平臺Metriclogic數據倉庫原始數據轉換后數據ETL工具報表平臺分析平臺實驗平臺Metriclogic現狀建模生產隨意:系統多、需求多,對于新指標生產、歷史指標變更缺少系統化管理流程統計口徑不一:沒有統一維護指標口徑的地方,相似的指標誰也無法說清楚差異訪問層級錯亂:MySQL、DWS、DWD、接口等訪問方式千奇百怪,缺少統一收口數據信心缺失:使用者對于指標缺乏基本的信心,可信數據分辨難度以及成本較高指標系統標準化指標建模:提供標準化、規范化的指標生產流程統一指標口徑:收斂指標口徑,統一管理建立認證機制:通過有效的
18、認證機制提升指標的權威性和可信度統一指標出口:提供openapi對接周邊生態,確保出口一致指標生產應用現狀歐拉統一指標|1.鏈接數據源3.維度設定、指標定義4.物化、計算MySQLHiveIcebergSnowflakeDatabricks表APIScheme文件導入在線文檔鏈接在線表格2.數據建模Dim_useruseridgenderageDim_channelchannelidnametype事實表useridEventcodeTimechanneluseridgenderagechannelidnametypeEventcodetime1.可視化建模2.SQL作業3.手工視圖可以是邏輯
19、表或者物理表男Gender編碼1女21.1.指標結果物化指標結果物化CubeCube年齡段gender大齡大齡PV10-20男1010-20女1310-20null23null男10原子指標Page_PVCount(ifeventcode=pageview)維度1:gender維度2:age派生指標大齡PVCount(ifeventcode=pageview)維度1:年齡段、gender口徑可用維度統計周期Age102.2.基于原子指標自助創建基于原子指標自助創建DWSDWS寬表寬表agegender大齡大齡PV指標指標2指標指標312男101112女132313男234513女1063可以是
20、ODS、DWD、DWS,甚至是ADS表TAB5.生態、應用AdHoc統計特征指標APIdatatalk業務數據門戶指標結果API指標MetaAPI|歐拉tMetric的建模流程數據地圖與服務數據地圖與服務請替換文字內容,點擊添加相關標題文字04|字段名字段名中文中文名名標準維標準維度度useridaAgesex性別GenderEvent_code事件名Event_time事件時間維度實維度實體體英文名英文名用戶user渠道channel維度名維度名英文名英文名關聯字關聯字典典年齡age性別gender性別字典維度值維度值code男1女0維度字典指標名指標名指標指標維度維度口徑口徑DAU年齡、性
21、別Count(ifevent_code=visit)維度信息表維度實體表數倉事實表指標信息表元數據索引庫全文關鍵詞檢索基于血緣關系的搜索排序基于維度值的索引能力歐拉數據查找能力基礎歐拉統一數據資產地圖|歐拉 API Cloud 服務流程構建API全流程自助生產工具,幫助開發者定制化數據快速調用數據服務,實現一站式開發與運維API Cloud普通API 溝通成本:涉及人力3人(數據1人+服務開發1人+資源管理1人)生產流程:開發耗時10-17天歐拉API Cloud 實現API生產服務化,0代碼、可視化配置方式創建API 溝通成本:涉及人力1人(數據1人)成產流程:耗時1天開發效率高 開發投入低 技術門檻低反復溝通 耗時排期開發業務API生產數倉業務API生產數據標準化數據A數據Bvenus/us聚合運算調度管理手動預估耗時T+1預估耗時5-10天資源申請提單部署手動預估耗時T+1手動服務(trpc)網關核心服務開發/調試=5天存儲資源redisBDB慢!用戶配置API Cloud自動生產數據標準化數倉數據A數據BSpark數據處理調度管理自動存儲資源騰訊云redisBladeKV自動服務(trpc)網關核心服務自動預估耗時T+1騰訊云API購買5分鐘API信息配置(耗時預估5分鐘)數據配置數據導入周期配置資源申請快,易上手歐拉統一數據服務非常感謝您的觀看|