《傅正-網易基于DataOps的數據中臺實踐.pdf》由會員分享,可在線閱讀,更多相關《傅正-網易基于DataOps的數據中臺實踐.pdf(33頁珍藏版)》請在三個皮匠報告上搜索。
1、網易基于DataOps的數據中臺實踐主講人:傅正演講嘉賓介紹傅正網易數帆大數據產品架構師 8年ICT、互聯網領域從業經驗,長期參與從事產品的設計、推廣、運營等相關工作 在大數據產品方面有較豐富的經驗,專注于BI、數據開發、數據治理等領域,主要負責指導網易數帆大數據產品功能設計、商業化推廣及交付、產品功能客戶場景落地CONTENT目錄2023K+01網易大數據概述DataOps 1.0:敏捷、高質量開發實踐DataOps 2.0:開發治理一體化實踐0203DataOps 行業實踐04Part 01網易大數據概述網易大數據發展史支撐網易多級數據中臺架構任務規模 20W+,DAU 2000+行業頭部
2、客戶大規模應用金融、制造、流通、國央企2006離線大數據平臺DDB、DFS、NEMR有數BI實時計算平臺數據中臺全鏈路數據生產力平臺DataOps數據治理2.0引入開源Hadoop2014201620182020202220152009工具平臺+方法論數據生產力模型數據生產力一個愿景三個方法論廣義上:通過使用數據帶來組織生產力提升。狹義上:企業員工使用平臺工具采集數據、處理數據,數據分析以及管理數據的能力。人人用數據,時時用數據DataOps、DataFusion、DataProduct網易數帆大數據產品矩陣數據資產中心數據集成數據開發數據測試任務運維數據標準數據元數據字典標準發布數據分類元數
3、據管理元數據采集元數據注冊元數據掃描元數據發布數據質量稽核監控質量報告強弱規則質量工單數據脫敏安全等級敏感識別權限申請數據安全原子/派生指標系統模型設計中心版本管理指標字典指標關聯維度建模量化評估規范設計發布審核價值分析成本分析量化ROI數據下線數據門戶有數BI可視化報表智能決策駕駛艙API發布數據服務服務權限服務編排服務監控數據目錄數據檢索資產門戶數據血緣數據地圖基于DataOps 全生命周期數據開發大數據基礎平臺NDHHDFS/S3Arctic(實時數據湖)YARN/Kubernetes自動化運維管理活動管理CDP人群圈選渠道觸達活動分析自助取數數據準備移動端數據大屏數據填報復雜報表機器學
4、習交互式建模在線推理可視化建模訓練任務SparkHiveImpalaFlinkPart 02DataOps 1.0:敏捷、高質量開發實踐前DataOps時期:單次數十萬資損的教訓電商業務三單有禮:上游任務變更,導致下游涉及資損數據計算異常,造成 P1級別30W 生產事故。電商業務新人獎勵:訂單標簽任務依賴配置缺失,導致下游任務空跑引發數據異常,誤給老客發紅包,造成 P1級別 20W 的資損。任務依賴人肉配置,漏配、錯配頻發,導致下游數據出錯。16%的任務未運行過就提交上線,最終導致生產事故發生。任務發布上線更改隨意,未經審核和Code Review。任務依賴容易缺失缺少自動化測試缺少發布管控W
5、hy?資損事故多次發生DataOpsDevOpsDataOps是一種敏捷的數據開發模式,將軟件工程CI/CD的方法融入數據開發的流程,基于自動化的數據測試、任務發布等技術,構建數據發布流水線,使數據開發效率更高、交付周期更短、交付質量更有保障。研發過程中需求頻繁變化階段性成果能夠更快速的被驗證通過引入數據測試,將質量保障前置What?What for?網易DataOps1.0:數據發布流水線編碼測試編排代碼審查發布審核部署上線 數據開發IDE 多版本管理(含調度)SQL Scan UDF Studio 數據沙箱 依賴調度 智能任務依賴推薦 參數組 數據比對 數據形態探查 Code Reivew
6、 發布包 全鏈路影響分析 自定義審核流程 自動化回歸 任務模板(組件庫)基于優先級資源調度 智能診斷 資源組效能工具DataOps 基線預警Continuous IntegrationContinuous DeliveryContinuous Deployment SLA發布管控+自動化測試+依賴配置+環節一:編碼場景新任務開發、老任務修改、代碼編輯、任務回滾等需求快速定位目錄、快速定位任務、優秀的IDE、任務比對、一鍵回滾DataOps能力目錄、任務、代碼等搜索定位自動聯想、錯誤提醒、語法高亮、代碼折疊、代碼掃描、代碼分享等多版本管理環節二:編排場景依賴調度、構建任務依賴DAG等DataOp
7、s能力智能依賴推薦:通過系統解析SQL代碼,基于任務血緣推薦依賴環節三:測試場景源頭表數據質量:需要使用ODS源頭表進行數據處理,這個表有沒有問題?修改歷史任務:修改原有任務的邏輯,需要新建測試表、修改代碼。很麻煩,有沒有?表模型重構:老的表下游需要遷移,哪來的勇氣讓下游閉眼遷?團隊新人:代碼水平不過硬,未測試就上線,出了問題,這口嶄新的黑鍋誰來背?DataOps 5項能力數據形態探查01數據比對02數據沙箱03代碼掃描04強制測試05環節四:代碼審查為什么需要代碼審查?無法規則化檢測、代碼掃描為弱規則、需要人工review的場景。誰負責審查?數據團隊架構師、資深數據開發人員、進行數據開發交叉
8、審查的人員。審查范圍業務邏輯:表關聯處理、數據加工邏輯。數倉規范:代碼風格、表和字段的命名規范、代碼注釋完整性。安全問題:破壞性SQL、敏感數據外泄。性能問題:代碼性能問題。代碼掃描規則:分區表未指定分區、使用固定分區、使用“distinct”關鍵字、使用“create”關鍵字、使用“drop”關鍵字、使用“truncate”關鍵字。環節五:發布審核審批依據診斷報告:版本差異匯總、版本差異明細下游影響:影響標簽、下游表數量、下游任務數數據準確性:數據比對、形態探查分級分類-節約審批者時間輕度修改:修改調度時間、修改依賴等等白名單機制:指定時間范圍,比如0:00-08:00;指定成員或角色,比如
9、項目負責人、值班人員等無下游:沒有下游任務,或產出表無下游使用的低優先級任務環節六:部署上線運行穩定、遇到問題能快速定位解決基于優先級的調度 調度和優先級相結合基線預警 支持為天、周、月調度任務設置基線 支持基線的預警、破線時間預估、任務失敗報警凍結池 一鍵凍結異常任務及所有下游 一鍵重跑所有被凍結任務加速器 圈定的任務可運行,其它任務凍結 任務運行失敗快速定位給出解決方案智能診斷Part 03DataOps 2.0:開發治理一體化實踐數據消費依然存在的困擾 數據開發自行開發所需數據表,公共邏輯未沉淀,重復建設多 近義指標膨脹現象 傳統建模為了滿足業務快速交付,開發流程約束收效甚微原因分析 3
10、7%的表存在命名不規范問題 相同的字段,有8種以上的字段命名 沒有定義數據的安全規范,數據分級分類無法得到實施現象 缺乏標準,建模隨意原因分析 數據質量稽核規則覆蓋率只有10%70%的相同數據項,稽核規則和/或閾值設置不一致現象 質量稽核規則沒有配置依據,依賴人員對數據的理解程度原因分析煙囪式開發質量規則覆蓋不佳規范缺失網易DataOps2.0:數據開發治理一體化將數據治理的流程自然融入數據開發的全生命周期過程中,在數據開發的過程中就完成數據治理數據標準指標設計模型設計離線開發數據傳輸數據測試設計階段測試階段自助分析任務發布上線階段日常監控數據質量監控先設計,后開發,先標準,后建模開發階段數據
11、標準:確保規范落地指標設計:業務需求溝通對齊模型設計:讓架構更健壯數據開發數據治理數據質量安全中心開發治理一體化:以數據標準為根本需求數據抽取數據探查數據建模數據開發數據質量任務發布持續運維數據標準數據安全通過數據元承載格式及值域規范并自動生成稽核規則數據建模直接應用數據標準中數據元和元模型數據標準打通各模塊的方式根據表綁定的數據標準所關聯的稽核規則,自動添加到表的稽核監控根據表綁定的數據標準所關聯的安全規則,自動應用到數據脫敏任務數據標準設計內容命名規范數據標準格式規范值域規范質量規范安全規范開發治理一體化:以全生命周期元數據為底座全生命周期的元數據接受了來自設計、開發、消費過程中的所有元數
12、據,讓元數據更加完備,形成數據資產數據抽取數據探查數據建模數據開發數據質量數據服務數據安全數據標準統一元數據找得到看得懂信得過管得了數據資產數據生命周期開發過程元數據設計過程元數據消費過程元數據關聯的標準需求滿足率資產活躍度用戶評價模型定義安全等級血緣物理表定義質量報告兩種治理模式的對比 一步到位,長效解決 隨著需求增多,口徑不統一越嚴重先污染后治理 缺統一衡量標準,價值難以度量 無持續優化機制運動式治理一體化模式傳統治理模式開發治理一體化:給管理者的建議科學的評估體系:構建資產健康分,讓治理價值可量化完善的工具平臺:數據標準產品化持續的數據運營:組織流程打通,數據文化建設關注數據消費,成果可
13、衡量,治理可改進開發治理一體化,保障數據流水線高質量運行先設計,后開發,先標準,后建模三個核心原則三大落地支撐開發治理一體化:數據文化建設Part 04DataOps 行業實踐開發治理一體化:網易落地成果規范 先標準后建模,確保了表、字段、指標命名的一致性及規范性 字段標準化率達到 80%,字段及指標的安全等級已完成 100%設置效率 先設計后開發極大程度保證了公共層邏輯下沉 相同需求對應指標數量縮減 48.7%云音樂模型復用度從2.4%提升到 9.6%,下線 3.4W 個模型質量 自動根據數據標準生成質量稽核規則 規則覆蓋率達到 65%,單個任務的配置效率提升約 70%嚴選質量覆蓋率提升 1
14、00%開發治理一體化:某運營商遇到的問題調度工具開發工具數據血緣質量管理主數據管理元數據管理廠商3廠商1廠商2廠商4其他多廠家、工具割裂廠商1廠商2廠商3廠商4分公司其他MPP調度上傳集團BSS數據智慧人力業務稽核萬號數據數據標簽精準營銷MSS數據政企應用星級維系資產落地本地應用網絡數據網管采集問題:數據標準、數據質量與數據開發嚴重脫節,規范只能停留在字典層面,無法融入數據生產的流程中,不能有效的落地執行和監督。不同廠商、不同工具之間嚴重割裂,數據質量的稽核規則無法和數據標準中數據元的值域約束打通,數據標準中數據元無法跟數據建模工具無法聯動,元數據管理中的數據安全等級和安全中心的數據脫敏無法聯
15、動。開發治理一體化:某運營商落地成果由數據中臺統一為倉庫、經分、網絡集群提供數據采集、建模、開發、調度、治理等一體化能力。在生產過程中對于程序上下線、建表等操作實現在線化、流程化操作,一方面減少人工并提升效率,一方面完善數據管控的過程。模型設計與開發程序開發程序測試審核上線1-模型定義創建模型基礎信息定義模型的元數據2-構建表結構添加模型字段信息提供手工/批量方式3-編輯模型應用程序固化常用程序命令,拖拽式使用圖形化界面,自由配置處理邏輯4-數據在線測試提供WEB界面可視化測試功能;查看執行時長、執行狀態等信息,方便開發人員調試,性能分析5-提交審核開發人員建立上線任務,提交審核6-上線運行運
16、維人員審核通過,上線運行在上線時按照標準規范進行控制,包括命名規范,信息完整性,合理性等,不符合標準規范則不予上線將數據開發與數據治理有機結合起來,既是對開發過程的管控,也是保障數據質量的有效方法。標準規范執行生產流程管控流程數據中臺已有用戶數270+人,已遷移上線作業數8000+個,數據質量稽核數100+個,自助分析累計60000+次,已導入元數據模型數1500+套,初步具備作業調度和元數據統一管控能力。開發治理一體化:某券商落地成果標準:公司內數據孤島現象嚴重,阻礙數據內部共享質量:數據質量難以及時滿足業務預期,無法助力數據挖掘產生價值安全:難以兼顧數據流通和數據安全的平衡三大痛點組織架構:結合企業組織架構及人員配置落實數據治理工作、權責分擔機制業務流程:針對存量數據、新增數據制定不同的治理流程,并做到倉內倉外元數據統一管理產品工具:將整個數據治理流程貫穿于各個子產品模塊中,打造開發與治理一體化的數據中臺重要舉措數據標準管理:基礎數據標準179個,指標數據72個,搭建統一的公共字典合計7個詞根新增159個,制定兩套數據標準分類方案。數據質量管理:累計沉淀400余項數據質量規則。數據安全管理:基于數據分級分類的數據服務審批流程上線,基于脫敏數據在開發環境進行開發和任務發布的研發流程打通。落地成果(截至2022年)治理目標:數據資產化、數據價值化、數據智能化THANKS