《《EB級數據湖與智能推薦:抖音集團基于Apache Hudi的Sample Center架構與實踐》.pdf》由會員分享,可在線閱讀,更多相關《《EB級數據湖與智能推薦:抖音集團基于Apache Hudi的Sample Center架構與實踐》.pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、抖集團基于Apache Hudi 的SampleCenter架構與實踐2025.03.29 北京快元中耿筱喻|抖集團數據湖存儲技術專家、Apache Hudi Committer 姚翔抖集團推薦架構程師EB級訓練樣本數據流批湖2.LLM序列特征調研能落地實踐3.BackFill 特征回溯過程優化4.超數據規模流式湖解決案1.5.數據湖讀寫加速策略6.數據湖異步服務管理與運維EB級訓練樣本數據流批湖解決案EB級訓練數據存儲架構與成本優化于kafka的hdfs dump數據文件,無表格式控制及平臺化管理,數據冗余存儲很大;hdfs dump存儲傳統hdfs dump都是整體dump寫,沒有sche
2、ma及對各列的更新能,對于些周期回兌需要法持;update能列選及schema裁剪EB級訓練樣本數據流批湖解決案EB級訓練數據存儲架構與成本優化HDFSSPARKFLINKBMQ樣本拼接樣本湖樣本調研普通特征序列特征批式湖流式湖樣本分析模型訓練元數據管理樣本緣樣本質量運維監控今頭條包抖推薦抖直播直播電商抖商城活服務EB級訓練樣本數據流批湖解決案EB級訓練數據存儲架構與成本優化HiveAppSortpredictTbase分流FlinkLake冷啟表Lake樣本表Lake調研表AppLogUserLogBatch TrainingStreaming Trainingbackfill冷啟任務粗排樣
3、本BMQ精排樣本BMQ歸因樣本BMQ粗排模型樣本BMQ精排模型樣本BMQ湖FlinkWindowManger樣本歸因期價值寫歸因label寫展現label寫Feature級聯/增樣本Joiner戶為BMQEB級訓練樣本數據流批湖解決案流批吞吐寫多場景案落地流批導周期回兌樣本調研BulkinsertUpsertBackfillpre sortlocal sortBloom IndexHbase Index并寫BMS并寫BMSEB級訓練樣本數據流批湖解決案SampleCenter樣本全命周期管理平臺EB級訓練樣本數據流批湖解決案SampleCenter樣本全命周期管理平臺平臺覆蓋率湖在抖、直播、直
4、播電商、中化電商、頭條、活服務等業務覆蓋率達90+%;存儲優化35%45%全元數據元數據服務提升建表穩定性99+%,Schema Evolution提升schema的致性和任務穩定性,告警量下降50+%;550PB+緣提供樣本特征、label指標分析看板,查詢側全量樣本打通TQS查詢,提供UDF注冊等功能,提樣本質量及debug功能;質量分析SQL化LLM序列特征調研能落地實踐序列特征在模型迭代效率的瓶頸突破致性缺失周邊系統不數據來源混亂案冗余LLM序列特征調研能落地實踐UID維度動態分桶算法演進(V1.0V2.0)Lake序列底表數據序列特征產框架全量序列特征Joiner BMQBMQ Du
5、mpInsert+Bucket IndexUpsert+Bucket IndexLong Seq Bucket TableExample Bucket Tableds=20241009/00000001-0_*20241010045551.parquetds=20241010/00000001-0_*20241011045551.parquetds=20241011/00000001-0_*20241012045551.parquetds=20241009/hour=00/00000001-0_*20241009045551.parquetds=20241009/hour=00/0000000
6、1-0_20241009045551.log.7_6-1-23393ScheduleIOTrainingCheck TagExampleBucket TableLong Seq BucketTableSort Merge JoinSequence DealCompactionparseversionLLM序列特征調研能落地實踐UID維度動態分桶算法演進(V1.0V2.0)案1:簡單hash mod案案2:邏輯桶slot+物理分桶(正式案)案3:社區致性哈希分桶LLM序列特征調研能落地實踐UID維度動態分桶算法演進(V1.0V2.0)案列設計開發復雜度件數量控制 擴縮容復雜度 桶對能桶有序性訓練
7、同時打開件數案1案2案3較點LLM序列特征調研能落地實踐業務效果量化評估與ROI分析序列特征湖和樣本湖,uid bucket 案在資源消耗上有較優勢。計算資源開銷計算資源開銷Uid bucket基線湖表打平,多個模型已打平,其中部分已在發AB;改序后模型效果改序后模型效果backfill 序列特征的存儲占是 uid bucket 的到數百倍;uid bucket 樣本表的存儲占也更優(減少50%上下)。存儲占比存儲占比backfill 任務失敗率,調優成本;uid bucket 任務成功率,調優成本低。生產穩定性生產穩定性uid bucket 訓練速度相backfill 提升 1 倍以上。訓練
8、速度訓練速度后續架構迭代上,以滿效調研和上線為標,繼續加強寫讀取的靈活性;模型迭代以業務為導向,在多個業務完成推和驗證,實現案效復。BackFill 特征回溯過程優化特征回溯效率瓶頸與歸因分析傳統hive式每次調研時,都需要重新成完整的離線樣本,數據重復浪費;數據io放由于計算周期,算法處理時論是寫周期還是操作便捷性上都很受影響,極地影響了調研效率;各業務按照各邏輯設計運,法進統管理和期有效維護和功能迭代;0102算法迭代效率與靈活性03標準化及平臺化BackFill 特征回溯過程優化backfill回溯流程核邏輯設計樣本表hive標簽表hive特征表特征調研表標簽回溯表樣本表PYTHON/S
9、QLPYTHON/SQL特征調研標簽回溯樣本表樣本表批式訓練批式訓練行對齊行對齊BackFill 特征回溯過程優化backfill回溯流程核邏輯設計實驗結束,戶上線則通過compaction 合并列進產表,放棄則刪除實驗表。調研結束戶觸發上線,周期性掃描schema 變更,有特征變更則成 compaction 計劃合并數據。上線式讀寫放問題通過獨表存儲實驗數據及讀時 join 解決,其放局限于實驗表。讀寫放利 hudi 中件分組概念,將全表 shuffle join 變為件內 join,成本幅降低,可視為 bucket join。讀時join成本實驗表需索引,與產表共享,只能查索引,能upda
10、te 不能 insert。寫語義BackFill 特征回溯過程優化調研鏈路效能提升與動化平臺建設主樣本回溯表寫離線訓練離線批轉流在線AB流式訓練是否上線上線回溯特征到基線刪除回溯表是否SampleCenter OpenApi回溯表建表特征合并及上線刪除寫建表schema成及建表DSL/SQL 寫數據訓練讀取回溯表刪除修改樣本表schema回溯特征合并及上線建表寫刪除修改合并上線EB級訓練樣本數據流批湖2.LLM序列特征調研能落地實踐3.BackFill 特征回溯過程優化4.超數據規模流式湖解決案1.5.數據湖讀寫加速策略6.數據湖異步服務管理與運維萬列表挑戰 SQL 產品化表達超規模數據流式湖超規模數據流式湖 Task Failover超規模數據流式湖 Schema 變更超規模數據流式湖Hudi Native 讀寫加速Hudi Native 讀寫加速Hudi Native 讀寫加速 特征抽取Hudi Native 讀寫加速 特征抽取Amoro 湖倉管理Amoro 湖倉管理Amoro 湖倉管理Thanks!2025.03.29 北京快元中