《03-云原生跨域大數據架構落地實踐-吳維偉.pdf》由會員分享,可在線閱讀,更多相關《03-云原生跨域大數據架構落地實踐-吳維偉.pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、京東云原跨域數據平臺落地實踐京東零售-集團數據計算平臺部/吳維偉錄.京東數據平臺概況.京東云原數據平臺建設背景和挑戰三.京東云原數據平臺落地實踐四.落地收益五.未來規劃離在線混部跨域存儲 京東數據平臺是京東數據業務的基礎服務平臺,為京東數據業務的實現提供站式、助式的數據處理全流程解決案。涵蓋數據采集、存儲、加、分析、可視化、機器學習等專業化產品和服務,通過數據集中從形成效的數據開放,在保障數據安全的前提下,提供助式的服務平臺,幅降低數據消費檻,幫助京東數據業務快速落地,助京東實踐以數據為驅動的業務變與發展。云原存算分離Hadoop提供站式、助式的數據處理全流程解決案跨域數據架構.云原數據平臺概
2、況集群規模數百萬核存儲能數 EB計算能運job數百萬.云原數據平臺概況-平臺架構標 促期間在線業務 0 采購擴容 常在線資源共享給離線使=云原彈性伸縮架構升級資源彈性伸縮的最價值是通過資源共享式充分復資源,在資源使上的錯峰填,以達到提升集群資源利率的效果,實現資源價值最化。架構升級 K8S在線服務YARN離線調度離線計算混部資源調度(JMR)(控制混部離在線資源例、彈性伸縮)K8S在線服務離線計算YARN實時計算實時計算痛點 促期間在線業務采購機器應對業務峰 常在線資源利率低.云原數據平臺-建設背景 如何統離線和在線的資源調度?離線在線混合部署時,如何保證在線業務不受影響,離線業務基本穩定?.
3、云原數據平臺-建設挑戰 跨機房資源共享后,跨機房數據訪問如何避免影響在線任務(絡隔離與流控).云原數據平臺-建設挑戰三.落地實踐-(1)計算混部資源池化資源統封裝,屏蔽底層IaaS特性統資源調度,上層應系統感使按需調度,促節點,離線僅需借出數時資源效利在線應和離線計算具有資源互補的特點,可通過統資源調度提升資源復率統資源協同離線計算在線計算共享資源池在線資源離線資源混部資源 K8S 統資源管控 JMR(混部資源管理)協調混部資源調度,結合單機彈性實現資源動態伸縮。強資源隔離保障在線業務 TP99三.落地實踐-(1)混部架構統資源管理 K8S 統管理資源 計算服務容器化改造 混部調度器(JMR)
4、協調 K8S 資源分配和 NM 彈性伸縮單機彈性 安全位 離線最最配額(min,max),動態調整 定制化驅逐策略:容器類型、優先級、啟動時間、資源容量運維優化 YARN Operator 管理 NM pod 命周期 基于 Token 案實現 NM 節點注冊驗證資源隔離 聯合 K8S 團隊實現 CPU 隔離、絡 QoS,保障在線業務 TP99 改造 HADOOP 底層,持基于任務等級、流量類型等多種式設置絡優先級離線配額安全位三.落地實踐-(1)混部關鍵技術資源占分布00:0000:1000:2000:3000:4000:5001:0001:1001:2001:3001:4001:5002:0
5、002:1002:2002:3002:4002:5003:0003:1003:2503:4003:5004:0504:1504:2504:3504:4504:5505:0505:1505:2505:3505:4505:5506:0506:1506:2506:3506:4506:5507:0507:1507:2507:3507:4507:5508:0508:1508:2508:3508:4508:55資源位線資源使量收益技術內核智能編排引擎利云原架構實現峰值資源按需購買,購買資源每占時不超過 4 時資源位線以上計算資源可以分批騰退,降低數據平臺機器成本時序預測數據緣任務診斷動態規劃問題:資源占分
6、布不均衡,部分離線資源時間閑置標:利彈性伸縮能,峰值資源按需向云平臺購買,減少離線計算常駐資源量挑戰:規模、復雜作業鏈路,超百萬任務,資源預測困難運時間任務優先級志解析鏈路圖譜任務解析時序預測資源預測時預測時序編排任務托管資源監測讀寫監測資源調度基于作業分級,結合資源預測、數據緣、作業性能診斷等能,智能動態向云平臺按需購買資源,降低離線機房常駐資源需求總體資源量云平臺資源借三.落地實踐-(1)混部資源動態規劃機房A只讀 standbyDN塊異步傳輸3 機房 6 副本跨域流控BLKDNBLK只讀 standbyDNBLKDNBLK機房BActiveDNBLKDNBLKstandbyDNBLKDN
7、BLKDNBLKDNBLK機房感知機房C只讀 standbyDNBLKDNBLK只讀 standbyDNBLKDNBLKDNBLKDNBLKDNBLKDNBLK災備持跨域切換塊異步傳輸2 機房 4 副本DNBLK1 機房 3 副本EC 3 機房 3.54.5 副本架構改造 機架感知-機房感知 跨域容災:災備可讀,持跨域切換 跨域流控 跨域EC 低冗余EC(1.16副本)架構優勢 跨機房讀取變為本地讀取,減少跨域流量 跨域命周期實現只同步最新數據,歷史數據動刪除 持數據機房級容災三.落地實踐-(2)跨域存儲?-1rack-1rack-2DNDNDNDNDNDN?-2rack-3rack-4DND
8、NDNDNDNDN?-1rack-1rack-2DNDNDNDNDNDN?-2rack-3rack-4DNDNDNDNDNDN/?拓撲管理:/region/cluster/rack 機房感知:RPC 攜帶機房信息 基于 IP 的機房查詢 這個DN屬于哪個機房?這個客戶端屬于哪個機房?標識定義(持副本及EC):regionA:3:1,regionB:2:0,ttl:7200:regionA:2:1:MODIFY,ttl:7200:regionB:0:0:MODIFY 元數據變更:XATTR 塊屬性標識數據跨機房要怎么放?三.落地實踐-(2)跨域存儲:機房感知和標簽RedundancyMonito
9、rCrossRegionRedundancyMonitorAsyncCrossRegionQueueAsyncCrossRegionUpdater增量存量跨域配置錄變更跨域塊同機房塊跨域錄復跨域補塊 跨域補塊獨處理,不影響原有同機房邏輯 異步跨域更新器,結合跨域標簽屬性,實現切換接續補塊 持效的跨域數據共享跨域流控 跨域補塊流控 讀寫優先客戶端同機房 DN 跨域讀寫流控 balancer 機房內部均衡三.京東云原數據平臺-(2)跨域存儲:數據分發及流控底層存儲件系統接層京東云數據命周期掛載管理統權限管理訪問控制華為云私有云JDHDFS離線計算引擎實時計算引擎多維分析引擎路由轉發 接層實現通需求,包括權限、訪問控制、數據命周期、數據調度等 接層利掛載能實現彈性擴縮容 數據調度實現不同掛載存儲的數據遷移數據調度三.京東云原數據平臺-(2)跨域存儲:存儲云原618及雙11促期間動態調撥離線平臺數萬核撐在線系統流量峰,節省量采購成本常期間,離線平臺復在線系統資源數萬核,利率提升20%+,節省量成本四.落地收益五.未來規劃