《datafun2024-數據湖.pdf》由會員分享,可在線閱讀,更多相關《datafun2024-數據湖.pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunDataFun#20242024OPPOOPPO數據湖加速大數據湖加速大模型訓練模型訓練分享人:陳哲嘉 OPPO-高級大數據平臺工程師OPPOOPPO數據湖平臺介紹數據湖平臺介紹Glacier 自研湖倉引擎流批一體大模型任務加速大模型任務加速大模型任務接入數據平臺Rust加速大模型任務技術規劃技術規劃目錄目錄 CONTENTCONTENTDataFunDataFun#202420240101OPPOOPPO數據湖平臺介紹數據湖平臺介紹OPPO大數據架構自研數據湖產品-Glacier 管理和優化開源數據湖表 秒級寫入 索引增強 非結構化數據優化南天門DAM數據產品接入層LivyHi
2、veserverFlinkGateway計算引擎SparkHivePrestoFlink元數據HMS存儲HDFSData FormaticebergCubeFSS3kafkaHudiPaimonGlacier數據入湖CDC入湖采集服務入湖高性能&可靠性客戶端單表支持100+客戶端同時提交數據秒級延遲 基于alluxio的流文件 低延遲的流式讀取和數據分析 正確性保障元數據管理-GMS 元數據定時任務 生命周期管理 數據治理流批一體任務 SQL兼容 執行計劃區分 流批一體維表DataFunDataFun#202420240202大模型任務加速大模型任務加速數據湖&大模型 平臺化管理任務&數據 計
3、算提效,存儲降本 Spark-ML庫 資源調度 對接訓練平臺PySpark 7z數據入湖 內存優化(Pickler)并行度優化 長文本切分/壓縮 Remote Shuffle在線建數據湖表并寫入數據數據加速 分類數據索引 去重結果檢索 緩存加速訓練任務優化 MiniHash,Kmeans任務優化 全局精確去重實現 數據向量化(Rust改造)Tokenizer:Input:RDDOutput:RDDVector數據精確去重任務優化任務Rust化改造 提升效率 內存安全 環境簡單 豐富的開源庫Rust版本,內存效率更高Tokenizer開源Rust實現資源調度 跨集群任務調度 存儲層打通 緩存加速訓練DataFunDataFun#202420240303技術規劃技術規劃RoadMap1.自研緩存2.流批一體引擎3.機器學習/大模型場景掃碼了解更多OPPO技術感謝觀看感謝觀看