當前位置:首頁 > 報告詳情

2024峰會-京東零售數據湖應用與實踐.pdf

上傳人: s**** 編號:157218 2024-03-16 20頁 4.72MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

本文介紹了京東零售數據湖在應用與實踐方面的迭代和優化效果、收益以及未來展望。主要內容包括: 1. 背景和痛點:當前數倉采用Lambda架構,實時數據和歷史數據分別存儲,導致用戶需要分別對接不同系統,存在資源浪費和維護成本高的問題。 2. 迭代和優化:通過流量涉及的生產庫寫實時Topic、離線MR作業改為流處理的Flink作業、數據寫入Hudi表等技術方案,實現數據實時性和完整性的統一,提升數據時效性,降低資源浪費,優化存儲成本。 3. 效果和收益:離線數據的時效性提升,計算削峰,降低構建大寬表的資源成本,實現數據修改原子化,提高作業效率;降低存儲數據由快照改為增量存儲,降低存儲代價,支持回看有狀態的歷史快照。 4. 未來展望和規劃:包括容災措施、與批任務的資源隔離、優化資源消耗、數據免疫系統建設、提升Hudi表的自管理能力等方面。 綜上,京東零售數據湖在應用與實踐方面通過技術迭代和優化,實現了數據實時性和完整性的統一,提升了數據時效性,降低了資源浪費和存儲成本,未來將繼續在容災、資源隔離、數據免疫等方面進行規劃和推進。
"如何實現數據實時性和完整性的平衡?" "如何通過技術優化降低數據倉庫維護成本?" "如何提升數據處理時效并實現存儲資源優化?"
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站