《數據湖在快手的應用實踐_034157.pdf》由會員分享,可在線閱讀,更多相關《數據湖在快手的應用實踐_034157.pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummitDataFunSummit#20242024數據湖數據湖在快手的應用實踐在快手的應用實踐靳國衛 快手姓名:靳國衛目前負責生產社交數據團隊10年+數據相關工作經驗,主導快手、滴滴、美團核心業務數據體系建設及公司級BI產品的規劃及落地擅長OLAP技術和數據湖技術并多場景實踐落地數據湖在快手的應用歷程數據湖在快手的應用歷程問題與挑戰、技術選型、應用過程、推廣策略、生態建設數據湖在快手的應用案例數據湖在快手的應用案例CDC數據同步、批流結合業務加速、架構升級數倉優化目錄目錄 CONTENTCONTENTDataFunSummitDataFunSummit#2024202401
2、01數據湖在快手的應用歷程數據湖在快手的應用歷程問題與挑戰技術選型應用過程推廣策略、生態建設問題與挑戰模型持續膨脹模型持續膨脹成本、運維、治理成本、運維、治理跨域跨域/團隊協作團隊協作效率、質量、運維效率、質量、運維離線、實時數據離線、實時數據GapGap質量、決策困擾質量、決策困擾問題與挑戰(具化)數倉:復用數倉:復用 引擎:批處理引擎:批處理 協作:多域建設協作:多域建設業務訴求數據統計:緯度1、緯度2、緯度3、緯度4、指標1、指標2、指標3、指標4、指標5、指標6、核心日報:緯度1、指標1、指標2(SLA承諾7:00)增長錢效數據:緯度1、指標2、指標3、指標4(SLA承諾8:00)增長
3、日報:緯度1、指標3、指標4、指標5、指標6(SLA承諾10:00)數據域A(4點)數據域B(5點)數據域C(7點)數據域D(8點)數據域A&數據域B(7點SLA)公共模型1數據域A&數據域B&數據域C(8點SLA)公共模型2數據域A&數據域B&數據域C&數據域D(10點SLA)公共模型3跨領域數據跨領域數據數數倉倉架架構構復用一次寫多次讀更新寫更新寫多次讀多次讀SLA時效要求技術選型-更新寫更新寫多次讀對比項對比項HudiDelta LakeIceberg功能豐富度豐富豐富待提升公司融合度高自動化程度自動部分開源手動Flink集成是否是社區活躍度活躍活躍相對活躍功能豐富、運維簡便商業化強大框
4、架優秀、擴展性好技術選型 應用方案更新更新更新更新更新數據域A(4點)數據域B(5點)數據域C(7點)數據域D(8點)理想理想數數倉倉架架構構業務訴求數據統計:緯度1、緯度2、緯度3、緯度4、指標1、指標2、指標3、指標4、指標5、指標6、核心日報:緯度1、指標1、指標2(SLA承諾7:00)增長錢效數據:緯度1、指標2、指標3、指標4(SLA承諾8:00)增長日報:緯度1、指標3、指標4、指標5、指標6(SLA承諾10:00)數據域A(4點)數據域B(5點)數據域C(7點)數據域D(8點)數據域A&數據域B(7點SLA)公共模型1數據域A&數據域B&數據域C(8點SLA)公共模型2數據域A&
5、數據域B&數據域C&數據域D(10點SLA)公共模型3跨領域數據跨領域數據數數倉倉架架構構技術選型 應用效果2021-012021-032021-052021-072021-092021-112022-012022-032022-052022-072022-092022-112023-012023-032023-052023-072023-092021-012021-032021-052021-072021-092021-112022-012022-032022-052022-072022-092022-112023-012023-032023-052023-072023-09增長設備域數據模
6、型多緯度分析設備技術選型 推廣策略、生態建設廣泛適用廣泛適用0-10-1、110110的應用的應用價值評估價值評估具有推背感的效率、成本收益具有推背感的效率、成本收益技術選型 推廣策略、生態建設廣泛適用廣泛適用新的任務100%歷史任務96%+CDC同步100%收益評估收益評估規??s減時效提升協作統一生態工具鏈IDPKStreamAB平臺KwaiBI打造數據湖生態工具鏈打造數據湖生態工具鏈論證論證數據湖生態數據湖生態可落地可落地DAU曝光電商訂單DAU點擊CNY夏奧增長花費逐點攻堅逐點攻堅其他電商、商業化搜索、直播生產社交增長推廣應用推廣應用DataFunSummitDataFunSummit#
7、202420240202數據湖在快手的應用案例數據湖在快手的應用案例CDC數據同步批流結合業務加速架構升級數倉優化CDC同步 Kafka2Hudi/Mysql2Hudi60min60min 90min90minxPbxPb存儲存儲業務訴求時效性提升,讓數據應用滿足SLA訴求且具有一定的buffer批流結合 近實時特性業務訴求除夕紅包雨、多輪次觸達實時試驗效果驗證、實時策略驗證5h5h -15min-15min2222輪次輪次架構升級 設備域AB建設應用7171模型模型3838重復重復JoinJoin17%17%計算計算1Pb1Pb存儲存儲架構升級 留存優化業務訴求數據統計:用戶、次留、3留、4留、5留、6留、7留、14留 180留365留50min+50min+15%15%計算計算感謝觀看感謝觀看謝謝觀看