極客幫科技:網易互聯網數據中臺實踐(32頁).pdf

編號:56182 PDF 32頁 2.98MB 下載積分:VIP專享
下載報告請您先登錄!

極客幫科技:網易互聯網數據中臺實踐(32頁).pdf

1、網易互聯網產品數據k臺實踐網易互聯網產品數據k臺實踐 數據k臺概覽數據k臺概覽 元數據k心 數據服務 全鏈路數據質量k心 數據資產管理 互聯網h務數據架構 互聯網h務數據架構 猛犸大數據開發計算平臺 猛犸大數據開發計算平臺 供供 應應 鏈 鏈 8.S8.S oo 站 站 音t 音t 傳媒 傳媒 電商 電商 .W.W. +.S+.S 8.S8.S .W.W. +.S+.S 供應鏈決策協同系統 供應鏈決策協同系統 用戶行n分析 用戶行n分析 精準投放 精準投放 用戶運營 用戶運營 用戶行n分析系統 用戶行n分析系統 商品運營 商品運營 用戶精準投放系統 用戶精準投放系統 商品運營系統 商品運營系統

2、 市場運營 市場運營 推廣渠道管理系統 推廣渠道管理系統 供應鏈 供應鏈 供應鏈決策協同系統 供應鏈決策協同系統 管理層 管理層 商品輿情系統 商品輿情系統 高層看板 高層看板 活動實時直播 活動實時直播 VIOAOOVIOAOO h務場景 h務場景 數據產品 數據產品 數據產品:數據產品: 以電商n例 以電商n例 數據智能 數據智能 搜索推薦 搜索推薦 風控 風控 指標口徑f指標口徑f 統一 統一 數據重復數據重復 建設 建設 取數效率低 取數效率低 成本指數成本指數 增長 增長 數據產品數據產品 故障頻發 故障頻發 指標系統指標系統+ +數據服務數據服務 數據地圖數據地圖+ +自助查詢自助

3、查詢 數據質量k心數據質量k心 資產管理資產管理 落地產品落地產品 h務面m的問題 h務面m的問題 k臺產品架構 k臺產品架構 互聯網h務數據k臺架構 互聯網h務數據k臺架構 猛犸大數據開發計算平臺 猛犸大數據開發計算平臺 音t 音t 傳媒 傳媒 供應鏈決策協同系統 供應鏈決策協同系統 用戶行n分析 用戶行n分析 精準投放 精準投放 電商數據k臺 電商數據k臺 統一元數據 統一元數據 共享數據資產 共享數據資產 100%100%數據產品指標覆蓋數據產品指標覆蓋,統一h務口徑和取數口徑定r統一h務口徑和取數口徑定r,消除指標vr性 消除指標vr性 基于數據地圖基于數據地圖,100%100%實現自

4、助取數 實現自助取數 全鏈路數據跟蹤全鏈路數據跟蹤,回答“數據準f準b回答“數據準f準b”“哪y數據故障b“哪y數據故障b”“什么時候恢復b”“什么時候恢復b”,加速數據故障的排查定位加速數據故障的排查定位,助力助力).(%S5+).(%S5+達成 達成 所有數據產品接入統一查詢服務所有數據產品接入統一查詢服務,做到所有對數倉的訪問做到所有對數倉的訪問,可管理可管理、可追蹤可追蹤,通過邏輯模型g物理模型的分離通過邏輯模型g物理模型的分離,大幅提高指標的重用性 大幅提高指標的重用性 構建元數據k心構建元數據k心,通過資產分析通過資產分析、看清數據資產看清數據資產、降低數據管理成本降低數據管理成本

5、、追蹤數據價值追蹤數據價值,消滅低價值的資產消滅低價值的資產,成本節約成本節約%0%0%以d 以d 數據k臺實施效果 數據k臺實施效果 數據k臺概覽 元數據k心元數據k心 數據服務 全鏈路數據質量k心 數據資產管理 大數據計算 大數據計算 數據源 數據源 Hive metastore! 元數據k心 元數據k心 ?! ?! ?! 元數據k心 元數據k心 01 05 02 多租戶多租戶,多h務線 多h務線 能夠支持電商(考拉、i選)、互娛(音t、游戲)、傳 媒、教育 多種數據源支持 多種數據源支持 能夠覆蓋網易所有的數據源,甚至包括4AFkA,REDIQ, 2BAQE等SCHELA KEQQ 4V

6、系統 數據血緣 數據血緣 靜態血緣 動態血緣 血緣支持時間戳,可以按照時間戳讀取,過期 血緣覆蓋率以及血緣采集性能 g大數據系統集成 g大數據系統集成 gRAMGEP結合,允許通過自定r標簽的方式對數據進行動態授權 數據傳輸、自助分析g元數據k心集成 基于元數據k心,構建數據質量k心、數據資產管理k心、數據 地圖 數據標簽 數據標簽 通過l富的f同類型的標簽,完善數據特征體系 指標標識、數倉的o題域、分層信息,是否是數倉維護的推薦 表都以標簽形式存在 網易元數據k心設計原則 網易元數據k心設計原則 元數據k心架構圖 元數據k心架構圖 一個復雜的h務有成千dc張表 f知道數據含r 找f到數據 f

7、知道哪個數據更有價值 f清楚數據的更新頻率 大量重復建設 解決找數據問題 數據地圖 數據地圖 指標系統 指標系統 h務模塊 (電商h務) 數據域 (z易域) h務過程 (e單) 維度 (商品) 修飾類型 (終端類型) 修飾詞 (OC) 時間周期 (昨日) 原子指標 (銷售量) 派生指標 (昨日OC端銷售量) 維度屬性 (商品ID,名稱) 指標和維度命名規范 指標口徑要清晰(p例或S:5) 指標方法論 指標方法論 數據k臺概覽 元數據k心 數據服務數據服務 全鏈路數據質量k心 數據資產管理 指標口徑 指標口徑 相同指標在多個表k存在 指標口徑f統一 指標重用率低,數倉重復加工 安全隱患 安全隱患

8、 底層表直接暴漏 對數倉的訪問缺少權限控制 接入效率 接入效率 所有需求一個接口 S.4 高效率接入 可維護性 可維護性 打通u數據應用W指標W數倉表的全鏈路監控 表變更,f知道誰訪問這個表b n什么要有數據服務 n什么要有數據服務 MUS:5 2BAQE 19 4UKIM 數據源 數據源 緩存 緩存 結果緩存 元數據緩存 元數據k心 元數據k心 CNNPDIMARNP WNPkEP WNPkEP WNPkEP 邏輯執行計劃 邏輯模型 訪問控制 權限校驗 監控報警 查詢服務 查詢服務 用戶行n分析系統 應用層 應用層 物理模型 條件解析 物理執行計劃 日志管理 modelName! OpenA

9、pi Fields!FliterList! OrderBy!Distinct!Limit!Offset! 商品運營系統 結果返回 物理執行 結果聚合 數據服務架構 數據服務架構 模型路由 /S 2BAQE MUS:5 1PEEM9KSL REDIQ 小數據量的小數據量的 靈活查詢場景 靈活查詢場景 大數據量明細數據的查詢場景 大數據量明細數據的查詢場景 z互式z互式 多維分析場景 多維分析場景 4UKIM 離線聚合離線聚合 多維分析場景 多維分析場景 大列表大列表TNONTNON場景 場景 異構數據源使用場景 異構數據源使用場景 服務監控 服務監控 數據k臺概覽 元數據k心 數據服務 全鏈路數

10、據質量k心全鏈路數據質量k心 數據資產管理 01 03 04 02 完整性 完整性 是指需要的數據已完整記錄,可以分n記錄數完整性和字段值完 整性。 準確性 準確性 是指數據在數倉k的值和實際值是否相同,可以分n口徑實現 結果和數據邏輯合理性。 一致性 一致性 是指系統內外部數據源s間的數據一致程度,可以分n指標一致性 和信息一致性。 時效性 時效性 是指數據的時效對應用的滿足程度,可以分n數據任務結束時間和 運行時長。 數據質量 數據質量 超過超過)0%)0%的問題是由h務和產品發現 的問題是由h務和產品發現 收集的問題k存在研發收集的問題k存在研發BSGBSG的占比達的占比達50%50%

11、數據質量提升s前的狀態 數據質量提升s前的狀態 表數據量波動監控和絕對值監控 o鍵唯一監控 字段n空,n0的監控 數據完整性監控,訂單%&小時,終端覆蓋 數值計算邏輯監控:商品只能歸屬一個BU 數據格式的監控,比如I9,UR5 維表的監控 數據異常監控,比如日期還沒發生 同一個指標在f同模型f一致監控 相關指標趨勢監控,比如ST和OT走勢一致 聚合邏輯一致性監控 f同數據源對同一個實體的值一致 任務延遲監控 表產出時間的監控 源數據延遲監控 完整性 完整性 準確性 準確性 一致性 一致性 時效性 時效性 數據質量稽查規則 數據質量稽查規則 覆蓋數據產出的完整生命周期 全鏈路數據血緣的實時監控

12、快速u解哪y數據產品的哪y 指標異常 故障恢復時間的請準預估 全鏈路數據質量監控 全鏈路數據質量監控 全鏈路任務狀態監控 任務甘特圖 全鏈路數據質量監控 全鏈路數據質量監控 500500?! 100% 100% ?! ?! ?! ?SLASLA?99.8%99.8%! 數據質量實施效果 數據質量實施效果 數據k臺概覽 元數據k心 數據服務 全鏈路數據質量k心 數據資產管理數據資產管理 每個項目花u多少錢b 每張報表花u多少錢b 每個數據產品花u多少錢b 每個人花u多少錢b 各個h務線預算符合度b 根據表的熱度,存儲空間、加 工表消耗的資源,確認表是否 可以優化b給出優化建議b 表的一鍵e線 數

13、據資產管理 數據資產管理 要分析哪y數據要分析哪y數據bb f同計算引擎的訪問熱度(表、列) 最近訪問時間 資源消耗(任務加工、表存儲空間) 數據血緣關系 數據打通(任務信息注入底層任務數據打通(任務信息注入底層任務) 2ITE/MR:+VkABAM通過UAPM AOOKICARINMQ CNMFIGSPARINM注入 SOAPk: +VkABAM 通過EMTIPNMLEMRQ QUQREL OPNOEPRIEQ注入 ILOAKA:通過2IMR 方式注入 優化算法 優化算法 從最d游的表開始遍歷,對無訪問的表以及表相關的任 務e線 從d層數據產品產出價值以及報表的訪問情況,進行數 據產品或者報

14、表的e線a 如何采集數據 如何采集數據 0S ILAGE 2.0S ASDIR MR 任務日志 SOAPk 任務日志 MERASRNPE 資產管理實現面m的技術挑戰 資產管理實現面m的技術挑戰 HiveSQLMRSparkSqoop ? HiveSQL ? SparkSQLImpalaSQL FSImage Spark MR Yarn ? HDFSAudit ? MR? Spark? ? ? Impalad Impala ImpalaSQL? ? ? ? Cluster Job Flow User ? ? ? ? Kafka ? ? ? ? HDFS ? ? ? ? ? ? ? ? ? ? ? 系統架構 系統架構 ?! ?! ?! ?! ?20%20%?! 數據資產管理效果 數據資產管理效果

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(極客幫科技:網易互聯網數據中臺實踐(32頁).pdf)為本站 (X-iao) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站