datafun2024-數據湖.pdf

編號:157194 PDF 18頁 2.95MB 下載積分:VIP專享
下載報告請您先登錄!

datafun2024-數據湖.pdf

1、DataFunDataFun#20242024OPPOOPPO數據湖加速大數據湖加速大模型訓練模型訓練分享人:陳哲嘉 OPPO-高級大數據平臺工程師OPPOOPPO數據湖平臺介紹數據湖平臺介紹Glacier 自研湖倉引擎流批一體大模型任務加速大模型任務加速大模型任務接入數據平臺Rust加速大模型任務技術規劃技術規劃目錄目錄 CONTENTCONTENTDataFunDataFun#202420240101OPPOOPPO數據湖平臺介紹數據湖平臺介紹OPPO大數據架構自研數據湖產品-Glacier 管理和優化開源數據湖表 秒級寫入 索引增強 非結構化數據優化南天門DAM數據產品接入層LivyHi

2、veserverFlinkGateway計算引擎SparkHivePrestoFlink元數據HMS存儲HDFSData FormaticebergCubeFSS3kafkaHudiPaimonGlacier數據入湖CDC入湖采集服務入湖高性能&可靠性客戶端單表支持100+客戶端同時提交數據秒級延遲 基于alluxio的流文件 低延遲的流式讀取和數據分析 正確性保障元數據管理-GMS 元數據定時任務 生命周期管理 數據治理流批一體任務 SQL兼容 執行計劃區分 流批一體維表DataFunDataFun#202420240202大模型任務加速大模型任務加速數據湖&大模型 平臺化管理任務&數據 計

3、算提效,存儲降本 Spark-ML庫 資源調度 對接訓練平臺PySpark 7z數據入湖 內存優化(Pickler)并行度優化 長文本切分/壓縮 Remote Shuffle在線建數據湖表并寫入數據數據加速 分類數據索引 去重結果檢索 緩存加速訓練任務優化 MiniHash,Kmeans任務優化 全局精確去重實現 數據向量化(Rust改造)Tokenizer:Input:RDDOutput:RDDVector數據精確去重任務優化任務Rust化改造 提升效率 內存安全 環境簡單 豐富的開源庫Rust版本,內存效率更高Tokenizer開源Rust實現資源調度 跨集群任務調度 存儲層打通 緩存加速訓練DataFunDataFun#202420240303技術規劃技術規劃RoadMap1.自研緩存2.流批一體引擎3.機器學習/大模型場景掃碼了解更多OPPO技術感謝觀看感謝觀看

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(datafun2024-數據湖.pdf)為本站 (stock) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站