《DeepSeek變革時代Alluxio重塑企業AI存儲范式.pdf》由會員分享,可在線閱讀,更多相關《DeepSeek變革時代Alluxio重塑企業AI存儲范式.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、DeepSeek變革時代,Alluxio重塑企業AI存儲范式Alluxio Enterprise AI目錄聚焦AI數據全鏈路閉環管道的核心環節及AI存儲所面臨的主要挑戰Alluxio技術架構和最新版本核心能力權威MLPerf Storage測試結果解讀提高AI工作負載性能的Alluxio緩存策略以及典型案例聚焦AI數據全鏈路閉環管道的核心環節及AI存儲所面臨的主要挑戰AI數據全鏈路核心環節及AI存儲所面臨的主要挑戰Alluxio技術架構和最新版本核心能力數據編排平臺助力云原生大數據分析和AI計算Alluxio AI 數據平臺架構高性能數據訪問AI/ML框架分布式緩存全局統一視圖緩存空間管理企業
2、安全與合規性能和可擴展性DevOps能力Alluxio AI 數據平臺云本地混合云跨云零改造、無侵入vAPPAPPLLMAPPvAPPAPPLLMAPPTOSAlluxio AI 核心技術特點統一數據視圖統一數據視圖alluxio:/host:port /ceph minio ossOSSNAS豐富協議支持豐富協議支持S3 DriverHDFS DriverGCS DriverAzure DriverOSS DriverS3 APIHDFS APIPOSIX APIJava File APIREST API高性能數據訪問高性能數據訪問 自動冷、熱分層 零侵入分布式緩存 高性能 I/O 豐富緩存
3、數據管理 高可用高容錯可以無縫對接數據預處理環節中的Spark/Flink等計算引擎,無需任何代碼變動可以有效解決數據預處理環節,數據分散在多處異構存儲的統一訪問問題;可以有效加速數據預處理環節的數據讀寫性能;可以使得數據預處理的結果在緩存中無縫被后續模型訓練等環節使用。在 AI 工作流中集成 Alluxio可在標準的低成本存儲部署運行訓練數據訪問加速,GPU利用率保持90%以上減少數據副本,統一數據訪問,靈活對接GPU集群按需自動加載、緩存替換,簡化運維復雜度支持超高并發的模型服務(從訓練集群到推理集群)數據預處理擴展到100億對象以上,滿足AI需求生產環境下的部署時間降低至原先的 1/2-
4、1/3減輕網絡帶寬競爭,降低底層存儲負載根據使用模式實施數據預加載模型部署作為 ETL和模型訓練的數據共享層模型部署模型訓練Alluxio AI 助理模型訓練加速2-8x 數據訪問速度提升集訓可擴展性高、訓練任務容錯性高模型迭代更高效降低數據工程復雜性和成本 去中心化架構,支持100億以上對象Alluxio AI 助力模型部署服務(MaaS)加速高性能、高并發、海量模型發布服務(MaaS)支持異步模型生產/加載支持實時按需模型加載多az、多副本、高可用、AZ間優先級策略化配置worker按需擴縮容縮短模型上線時間MLPerf Storage Benchmark基于 MLPerf Storage
5、 的 Alluxio 性能測試為了較好地展示 Alluxio 的緩存性能,我們采用了全球首個且唯一的 AI/ML 存儲基準測試MLPerf Storage 進行驗證。MLPerf Storage 基準測試的最新版本為 v1.0,支持兩種模擬加速器(A100 和 H100),其中相關度較高的兩種典型的模型訓練負載特點如圖:這些負載覆蓋了順序讀取、隨機讀取、小文件讀取等多種 I/O 場景,能夠全面評估存儲系統在不同場景下的吞吐量和延遲性能。測試基于Alluxio Enterprise AI 3.4 高性能數據平臺,模型訓練任務直接通過 Alluxio Fuse(POSIX 協議接口)向 Allux
6、io 集群請求緩存數據進行訓練。訓練集群及 Alluxio 集群的拓撲分布如下:關于基準測試Alluxio測試準備數據對比 單卡吞吐Resnet50 on H100Unet3d on H100Alluxio100.00%100%Weka96.61%92.24%Hammerspace93.66%99.99%DDN(lustre)93.71%95.41%GPU 利用率Resnet50 on H100GPU利用率平均利用率平均98.15%Unet3d on H100GPU利用率平均利用率平均96.24%Alluxio 集群可擴展性評測Alluxio 的節點的配置如下:Alluxio Worker:v
7、CPUs 96;架構 x86_64;內存 768 GiB;網絡帶寬 100G;Alluxio Fuse:vCPUs 72;架構 x86_64;內存 192 GiB;網絡帶寬 100G。隨著加速器數量增加、訓練數據集增長以及 Alluxio 集群同步擴容,Alluxio始終保持較高的加速器利用率(超過96%)同時,Alluxio 的數據吞吐性能也隨著集群規模的擴大而顯著增長。這表明Alluxio的 I/O 性能能夠隨著集群規模的線性擴展而穩定提升,從而有效支持超大規模的模型訓練場景。提高提高AIAI工作負載性能的工作負載性能的AlluxioAlluxio緩存策略及緩存策略及典型案例典型案例AI
8、高性能數據訪問場景使用Alluxio收益產品上線時間提升2-4倍大幅提升GPU利用率HDFS訓練數據訓練數據模型訓練數據模型模型訓練模型訓練模型部署模型推理下游應用模型上線Training CloudsOffline CloudOnline Cloud50%93%AI 高性能數據訪問場景使用Alluxio統一命名空間的功能實現跨兩個集群操作;分布式緩存熱數據集客戶挑戰Alluxio 解決方案使用高性能NAS作為緩存功能使用,但是算法部門經常和頻繁高并發從NAS讀和寫,導致NAS性能很差使用Alluxio收益30%90%+縮短 30%+的訓練時間降低數據運維的復雜度提升GPU利用率很多相同數據集
9、被不同用戶反復拉到NAS,造成大量的數據冗余存儲(沒有去重能力)GPU資源利用率不高:30-50%AI 高性能數據訪問場景使用Alluxio+OBS直接支撐模型訓練客戶挑戰Alluxio 解決方案使用NAS帶來了額外的成本,并且費用不低使用Alluxio收益緩存加速:基于模型訓練集群的本地高性能SSD盤資源,通過緩存保障模型訓練的數據讀取性能解綁NAS:使用Alluxio+OBS直接支撐模型訓練,在保障性能的基礎上,降低架構復雜度,減少不必要的ETL代碼,能夠更實時的感知數據源頭的變化利舊降本:在訓練任務性能相當的情況下,既節省了用戶額外購買NAS的成本,又將GPU上空閑的SSD盤有效利用使用
10、NAS,增加了架構復雜度,并且額外增加了數據的搬運成本,需要額外的開發和維護NAS自身的隨機讀性能也面臨挑戰訓練任務AlluxioFuse訓練任務AlluxioFuse訓練任務AlluxioFuseGPU NodeGPU NodeGPU NodeAlluxio Worker 1Alluxio Worker NAlluxio Cluster高性能NAS對象存儲對象存儲AI 高性能數據訪問場景實現廣域算網環境下全局數據的統一管理和智能流轉,支持數據高效訪問,適配超算強大算力??蛻籼魬餉lluxio 解決方案多樣化的算力平臺,包括各式各樣的云平臺、AI平臺、存儲平臺層出不窮使用Alluxio收益Al
11、luxio納管所有底層存儲,實現統一的數據訪問基于Alluxio存儲底座,更容易在上面開展優化工作,如路徑的最優化,數據的遷移策略,加密傳輸,一致性檢查等資源異構問題包括國產集團芯片標準、存儲系統接口各不相同,分散且結構也很復雜,協議較多算力分配不均勻AI 高性能數據訪問場景基于Alluxio構建全新機器學習訓練框架客戶挑戰Alluxio 解決方案機器學習模型訓練效率低、計算集群資源利用率低使用Alluxio收益訓練速度提升 41%熱點數據集扇出系數大,Tbps級別流量觸達對象存儲桶的帶寬瓶頸直連對象存儲,單線程性能低集群資源利用率提升 2.5倍基于Alluxio重構全新機器學習框架,實現更靈
12、活、智能地緩存管理策略;更穩定、易用的運維管理流程科學計算場景(HEPS高能同步輻射光源)分布式內存緩存池:構建7節點、7TB內存集群,通過Alluxio實現數據內存級訪問,避免落盤延遲。統一數據訪問層:Fuse模式掛載,支持多源數據統一命名空間,簡化訪問流程。動態優化策略:合并小文件、內存切片處理,減少文件系統壓力;與Flink協同實現實時數據流編排??蛻籼魬餉lluxio 解決方案IO性能瓶頸:每日產生800TB數據(峰值PB級),傳統分層存儲架構存在讀寫延遲高、實時處理能力不足。使用Alluxio收益集群吞吐達65GB/s,單線程順序讀速度提升至2.4GB/s寫性能接近網絡帶寬極限AI重建算法耗時從10h縮短至0.5h效率提升20倍網絡帶寬利用率達75%,單Worker輸出性能20GB/s存儲壓力降低30%數據多樣性復雜:成像、衍射、譜學等線站數據類型差異大(三維重建、隨機訪問、高并發),傳統存儲難以適配多樣化IO模式。在線計算延遲:數據需落盤后讀取,傳統重建算法處理20GB數據耗時10小時,影響實驗實時性。小文件管理低效:逐幀生成大量小文件,導致文件系統壓力劇增,讀寫性能下降。數據流延遲降低至秒級,支持成像線站實時切片處理反饋時間縮短反饋時間縮短95%技術交流可添加微信DeepSeek變革時代,Alluxio重塑企業AI存儲范式