《Alluxio AI:新一代AI_ML訓練中臺的數據I_O解決方案.pdf》由會員分享,可在線閱讀,更多相關《Alluxio AI:新一代AI_ML訓練中臺的數據I_O解決方案.pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、AlluxioAlluxio 下一代高性能數據訪問平臺下一代高性能數據訪問平臺Alluxio核心研發工程師麥嘉銘現狀現狀:紛繁復雜的數據平臺紛繁復雜的數據平臺同置同置(Co-located)(Co-located)計算引擎&HDFS 緊密耦合在一起在同一個集群上實現計算引擎與HDFS的解耦MR/HiveHDFSSpark/PrestoHDFS解耦解耦(Disaggregated)(Disaggregated)將需要彈性伸縮的負載和數據遷移進公有云或者是私有云對應用透明,充分支持Presto,Spark,Impala,TensorFlow,PyTorch允許從傳統大數據存儲向對象存儲過渡向對象存
2、儲過渡向對象存儲過渡混合云化部署混合云化部署支持更多計算框架支持更多計算框架混合異構混合異構 (Hybrid)(Hybrid)大數據大數據/AI之路的架構演進之路的架構演進數據系統日益豐富數據系統日益豐富數據獲取的碎片化數據獲取的碎片化業務團隊對數據統一訪業務團隊對數據統一訪問的強烈要求問的強烈要求存儲與計算分離的存儲與計算分離的架構創新架構創新分割的數據世界分割的數據世界數據復制數據復制&顯性數據同步的復雜性顯性數據同步的復雜性數據分析的多樣性數據分析的多樣性&數據平臺適配的復雜性數據平臺適配的復雜性技術變遷導致的多平臺混合技術變遷導致的多平臺混合架構架構&遷移的復雜性遷移的復雜性復雜的數據
3、平臺復雜的數據平臺低效低效I/O I/O 低性能低性能GPUGPU昂貴昂貴&稀缺稀缺無法隨時使用無法隨時使用專用存儲價格昂貴專用存儲價格昂貴$基礎設施問題基礎設施問題人工智能將在2029年左右達到人類智力水平。進一步展望,至2045年,智能技術和人類文明所創造的生物機器智能的能力將被擴大10億倍。我們正在見證全球性數據中心重組的需求井噴,這場長達十年的對現有數據中心的回收和利用,終將邁向加速計算的轉型之旅。Ray Kurzweil美國投資人和未來學家黃仁勛Nvidia CEOAI/ML的競爭對企業至關重要的競爭對企業至關重要重塑企業數據基礎架構更是大勢所趨重塑企業數據基礎架構更是大勢所趨更快的
4、迭代更快的迭代速度速度更高的準確性和更高的準確性和可追溯性可追溯性快速增長快速增長的數據集的數據集更快的模型更快的模型建設周期建設周期GPUGPU很稀缺很稀缺GPUGPU很昂貴很昂貴GPUGPU的利用率的利用率很低很低少少貴貴低低管理數據副本的復雜管理數據副本的復雜數據工程方案數據工程方案 專用存儲專用存儲失控的云和基礎失控的云和基礎設施的費用設施的費用 業務壓力業務壓力復雜且高昂的解決方案復雜且高昂的解決方案GPUGPU的煩惱的煩惱企業搭建企業搭建/優化優化AIAI高性能數據訪問平臺所面臨的挑戰高性能數據訪問平臺所面臨的挑戰大數據分析大數據分析&AI/ML&AI/ML領域常見的痛點領域常見的
5、痛點AI/MLAI/ML場景場景大數據分析大數據分析/ETL/ETL任務任務GPUGPU短缺短缺GPUGPU利用率低利用率低模型訓練、模型上線時間長模型訓練、模型上線時間長跨集群、跨地域、跨云數據訪問跨集群、跨地域、跨云數據訪問不同存儲不同存儲/計算引擎的復雜技術棧計算引擎的復雜技術棧昂貴昂貴/復雜的數據移動和數據副本復雜的數據移動和數據副本訓練過程中大量的遠程讀取數據移動/復制帶來副本問題AlluxioAlluxio架構及主要功能架構及主要功能源自美國伯克利源自美國伯克利大學大學AMPLab開源項目開源項目1000+節點節點百度最大部署規模10億文件億文件由Alluxio2.0版本支持201
6、4201920237/10 頭部互聯網公司頭部互聯網公司 部署 AlluxioAliPay 80%模型訓練模型訓練 知乎知乎LLM模型訓練,Alluxio提供支持數據爆炸數據爆炸大數據和分析的興起云采用云采用單云到混合云、多云,跨區域深度學習和深度學習和AI大模型訓練和部署 1000+開源貢獻者開源貢獻者1000+參會人參會人 數據編排峰會100%Presto Meta與Alluxio全面集成9/10 頭部互聯網公司頭部互聯網公司 部署 Alluxio支持千億小文件支持千億小文件AlluxioAlluxio 技術發展歷程技術發展歷程分布式緩存分布式緩存全局數據訪問全局數據訪問數據管理數據管理企
7、業安全與合規企業安全與合規性能和可擴展性性能和可擴展性DevOpsDevOps能力能力Alluxio AI Alluxio AI 數據平臺數據平臺云云本地本地混合云混合云跨云跨云分析框架分析框架AI/ML AI/ML 框架框架AlluxioAlluxio平臺架構平臺架構AlluxioAlluxio 主要功能主要功能 -多級緩存多級緩存local cachelocal cache一個高可用的一個高可用的 Service Service Registry(ETCD)Registry(ETCD)記錄了所記錄了所有的可用有的可用 Worker Worker 列表列表一致性哈希決定了如何選擇一致性哈希決
8、定了如何選擇緩存緩存 WorkerWorker客戶端緩存在計算應用內,使用本地存儲或內存提供本地速度緩存集群緩存在計算集群內,或多個相近的計算集群共享,提供網絡速度緩存如果緩存集群下線,客戶端也可以直接連接底層存儲,保證可用性Alluxio Alluxio 主要功能主要功能 -多級緩存多級緩存/s3/data/hdfs/tabless3:/bucket/data/customers/inventoryalluxio:/hdfs:/host:port/tables/customers/inventory/2023/2022/2023/2022通過Alluxio統一管理多個異構的存儲系統通過All
9、uxio統一訪問不同存儲的接口動態加減掛載點方便管理Alluxio Alluxio 主要功能主要功能 -動態多掛載點動態多掛載點Alluxio Alluxio 主要功能主要功能 -多接口支持豐富使用場景多接口支持豐富使用場景 CREATE TABLE alluxio_table(id varchar)WITH(external_location=alluxio:/Data/Reports);Hadoop Hadoop FileSystemFileSystem API APIrdd=sc.textFile(“alluxio:/Data/Sales”);rdd=sc.objectFile(“all
10、uxio:/Data/Sales”);df=sc.read.parquet(“alluxio:/Data/Reports”)Spark/Presto等Java計算引擎通過Alluxio Java客戶端使用Alluxio緩存Alluxio Java客戶端使用RPC(gRPC/netty)讀取集群緩存Alluxio Alluxio 主要功能主要功能 -多接口支持豐富使用場景多接口支持豐富使用場景POSIX/FUSE APIPOSIX/FUSE APIRESTful APIRESTful APIAlluxio FUSE 作為特殊的 Java 客戶端,提供了 POSIX 接口兼容Alluxio 同時提
11、供了 Python 客戶端,使用 REST/S3 接口使用集群緩存Ray/PyTorch/TensorFlow 通常使用 Alluxio FUSE/REST/S3 APIREST API callsREST API calls#Import fsspec&alluxio fsspec implementationimport fsspecfrom alluxiofs import AlluxioFileSystem#Overwrite S3 fsspec implementation to Alluxio fsspec implementationfsspec.register_impleme
12、ntation(s3,AlluxioFileSystem,clobber=True)#Create Alluxio filesystemalluxio=fsspec.filesystem(s3,etcd_host=args.etcd_host)#Ray read data from#Ray read data from AlluxioAlluxio using S3 URL using S3 URLds=ds=ray.data.read_imagesray.data.read_images(s3:/ai-ref-arch/(s3:/ai-ref-arch/imagenetimagenet-fu
13、ll/train,filesystem=-full/train,filesystem=alluxioalluxio)Using Using AlluxiofsAlluxiofs instead of S3fs instead of S3fsOriginal S3 URLOriginal S3 URLAlluxio Alluxio 主要功能主要功能 -多接口支持豐富使用場景多接口支持豐富使用場景S3 APIS3 APIAlluxioAlluxio使用場景案例使用場景案例利用其他業務資源滿足計算擴容需求利用其他業務資源滿足計算擴容需求元數據&數據緩存其他業務集群元數據&數據緩存平臺集群HDFS大數
14、據分析大數據分析 -存算分離場景存算分離場景存儲獨立擴容,數據冷熱分離存儲獨立擴容,數據冷熱分離元數據&數據緩存計算集群HDFS大容量存儲集群HDFS歷史數據降級歷史數據查詢大數據分析大數據分析-存算分離場景存算分離場景大數據分析大數據分析 -緩存加速場景緩存加速場景Uber:3個Presto集群,1500節點只啟用Alluxio client cache,不使用Alluxio集群緩存讀性能提升50%HDFS流量減少10%大數據分析大數據分析 -緩存加速場景緩存加速場景Shopee Trino集群使用Alluxio client cache對查詢進行加速只啟用Alluxio client ca
15、che,不使用Alluxio集群緩存查詢時延下降40%讀吞吐提升10 x 40%40%Query Latency(Second)10 x10 xIO throughput(MB)70707070On PremOn PremCheckpointsCheckpointsTraining Training DataData對象存儲對象存儲或或HDFSHDFS單一真實單一真實數據來源數據來源模型訓練模型訓練集群集群DataDataLakeLake機器學習機器學習 -模型訓練場景模型訓練場景消除數據拷貝,降低成本/復雜性從數據湖加載最新數據避免了拷貝和用于拷貝的數據管道,提升效率比商業化S3存儲性能提升
16、2-8倍比提供了Posix API接口的專用存儲系統訪問速度提升1.5-2X 相較直接數據訪問,API成本節約高達95%70707070On PremOn PremCheckpointsCheckpointsTraining DataTraining Data模型訓練模型訓練集群集群70707070On PremOn Prem線上線上AIAI應用集應用集群群線上線上AIAI應用集群應用集群70707070On PremOn Prem線上線上AIAI應用集應用集群群線上線上AIAI應用集群應用集群對象存儲對象存儲或或HDFSHDFS單一真實單一真實數據來源數據來源DataDataLakeLake
17、模型模型模型模型分鐘級快速部署模型到推理集群支持高并發拉取線上AI應用集群無需再維護本地存儲系統更快部署模型上線,生產環境下的部署時間降低至原先的1/2-1/3機器學習機器學習 -模型訓練場景模型訓練場景GPU 摘要摘要名稱名稱Tesla T4內存內存15GB計算能力計算能力7.5GPU 利用率利用率17%預估預估SM效率效率17%預估實現占用率預估實現占用率69%使用使用Tensor Core的內核時間的內核時間0%類別類別時長時長(us)比例比例(%)平均步驟時間平均步驟時間1,763,649,145100Kernel299,168,90517Memcpy10,521,7220.6Mems
18、et39,4590運行時間運行時間3,043,1690.17DataLoader1,446,068,95682CPU 執行執行1,570,0760.09其他其他3,245,8580.18Resnet-503 epochsS3 Fuse使使用用前前Resnet-503 epochsS3 FuseGPU 摘要摘要名稱Tesla T4內存15GB計算能力7,5GPU 利用率利用率93%預估SM效率93%預估實現占用率68%使用Tensor Core的內核時間0.0%類別類別時長時長(us)比例比例(%)平均步驟時間平均步驟時間334,274,946100%Kernel311,847,02393Mem
19、cpy10,500,1263Memset43,9460.01運行時間運行時間3,899,2411.17DataLoader3,343,3011CPU 執行執行1,648,3910.49其他其他2,992,9180.9DataLoader中的耗時從中的耗時從82%降至降至 1%,GPU利用率從利用率從17%提高至提高至93%使使用用后后AlluxioAlluxio使用前后效果對比使用前后效果對比AlluxioAlluxio VS VS 直接訪問直接訪問S3 S3 17 min17 min總訓練時間(3 epochs)93%93%GPU利用率 (TensorBoard)Alluxio 85 min85 min總訓練時間(3 epochs)17%17%GPU 利用率(TensorBoard)S3 Alluxio Alluxio 比比S3S3快快5 5倍倍掃碼關注掃碼關注 探索更多【技術分享、應用案例、優化寶典探索更多【技術分享、應用案例、優化寶典】AlluxioAlluxio Enterprise Enterprise AIAI高性能數據訪問平臺高性能數據訪問平臺