2025第九屆社交媒體風向大會演講課件合集
2025(首屆)中國低空經濟教育大會嘉賓演講PPT合集
2025年數據峰會(Data Summit 2025)演講PPT合集
1、DataFunDataFun#20242024OPPOOPPO數據湖加速大數據湖加速大模型訓練模型訓練分享人:陳哲嘉 OPPO-高級大數據平臺工程師OPPOOPPO數據湖平臺介紹數據湖平臺介紹Glacier 自研湖倉引擎流批一體大模型任務加速大模型任務加速大模型任務接入數據平臺Rust加速大模型任務技術規劃技術規劃目錄目錄 CONTENTCONTENTDataFunDataFun#202420240101OPPOOPPO數據湖平臺介紹數據湖平臺介紹OPPO大數據架構自研數據湖產品-Glacier 管理和優化開源數據湖表 秒級寫入 索引增強 非結構化數據優化南天門DAM數據產品接入層LivyHi
2、veserverFlinkGateway計算引擎SparkHivePrestoFlink元數據HMS存儲HDFSData FormaticebergCubeFSS3kafkaHudiPaimonGlacier數據入湖CDC入湖采集服務入湖高性能&可靠性客戶端單表支持100+客戶端同時提交數據秒級延遲 基于alluxio的流文件 低延遲的流式讀取和數據分析 正確性保障元數據管理-GMS 元數據定時任務 生命周期管理 數據治理流批一體任務 SQL兼容 執行計劃區分 流批一體維表DataFunDataFun#202420240202大模型任務加速大模型任務加速數據湖&大模型 平臺化管理任務&數據 計
3、算提效,存儲降本 Spark-ML庫 資源調度 對接訓練平臺PySpark 7z數據入湖 內存優化(Pickler)并行度優化 長文本切分/壓縮 Remote Shuffle在線建數據湖表并寫入數據數據加速 分類數據索引 去重結果檢索 緩存加速訓練任務優化 MiniHash,Kmeans任務優化 全局精確去重實現 數據向量化(Rust改造)Tokenizer:Input:RDDOutput:RDDVector數據精確去重任務優化任務Rust化改造 提升效率 內存安全 環境簡單 豐富的開源庫Rust版本,內存效率更高Tokenizer開源Rust實現資源調度 跨集群任務調度 存儲層打通 緩存加速訓練DataFunDataFun#202420240303技術規劃技術規劃RoadMap1.自研緩存2.流批一體引擎3.機器學習/大模型場景掃碼了解更多OPPO技術感謝觀看感謝觀看
1、下載報告失敗解決辦法 2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。 3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。 4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。
datafun2024-文生視頻與應用實踐-劉孟洋.pdf
Datafun-數據湖聯邦分析特性揭秘 v.2.0 .pdf
vivo湖倉一體-徐昱-datafun.pdf
矢量數據湖.pdf
DataFun2023-數據智能驅動業務增長.pdf
2024數據湖峰會PPT-梁溪-終稿.pdf
數據湖和湖倉一體產業觀察(1).pdf
網易數帆&DataFun:網易數據標準實踐白皮書(2024版)(47頁).pdf
2024峰會-京東零售數據湖應用與實踐.pdf
湖倉一體的基礎:聯機數據湖(29頁).pdf
驗證即登錄,未注冊將自動創建賬號