《【Alluxio】Alluxio在高性能AIML數據訪問中的應用.pdf》由會員分享,可在線閱讀,更多相關《【Alluxio】Alluxio在高性能AIML數據訪問中的應用.pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、Alluxio在高性能AI/ML數據訪問中的應用2023/12/09目錄 AI/ML 面臨的挑戰及數據架構發展 Alluxio 高性能AI/ML數據編排/訪問平臺 Alluxio 在高性能AI/ML數據訪問中的應用AI/ML 面臨的挑戰及數據架構發展PART 1AI/ML 面臨的挑戰及問題?GPU短缺+GPU利用率低+AI技術設施昂貴+海量數據訪問低效+模型訓練/上線時間長AI計算/機器學習GPU短缺:”目前 GPU 比毒品更難獲得”(Tesla 埃隆馬斯克);即使是大型云供應商,分配也需要12個月或更長時間GPU利用率低:即使得到了GPU,GPU利用率也很低(可能由于數據訪問問題);GPU花
2、費時間等待數據加載/預熱,而不是計算AI基礎設施昂貴:GPU資源及專用高性能存儲等基礎設施價格高昂,造成大規模AI/ML計算的成本問題海量數據處理/訪問低效:通用人工智能通常需要海量的數據做支撐,這也要求企業有效地存儲、管理及高性能訪問大量數據模型訓練/上線時間長:AI/ML數據訪問/服務性能減緩了AI/ML模型訓練及模型上線時間,影響企業快速構建部署模型的能力AI/ML 需要什么樣的存儲/緩存/數據訪問系統?目前主流可選方案高性能并行存儲系統:GPFS/CPFS,Lustre等 優點:高性能,POSIX兼容性好 缺點:成本較高;擴展性較差分布式對象存儲系統:AWS S3,OSS,MinIO等
3、 優點:成本很低,擴展性好缺點:性能一般;POSIX兼容性受限存儲中間件/加速系統:JuiceFS,JindoFS等 優點:成本適中,性能較好 缺點:數據格式私有;數據治理/運維成本高數據編排/緩存系統:Alluxio優點:成本較低,性能較好,數據運維簡單 缺點:POSXI兼容性受限AI/ML模型訓練需要的存儲/緩存/數據訪問系統架構選型標準?總體成本:使用較低成本構建面向AI計算任務的高性能數據訪問平臺-對象存儲+緩存系統性能及協議支持:提供高性能數據訪問接口,多數據訪問協議兼容(POSIX,S3,HDFS等)數據格式及架構開放:支持透明數據格式(保持原始存儲目錄和文件格式不變);無廠商/技
4、術鎖定數據治理/運維:降低數據治理/數據運維對訓練流程/效率影響(最少數據遷移時間、簡化Data Loader,Data Pipeline流程,減少運維等)Alluxio 在 AI/ML 技術棧中的架構定位持久化存儲層Alluxio 高性能數據訪問/編排層AI/ML計算框架/推理引擎AI/ML 統一編排層Alluxio 高性能AI/ML數據訪問/編排平臺PART 2Alluxio Enterprise AI 3.0 賦能高性能AI/ML計算數據處理特征工程模型訓練模型部署原始數據處理過數據特征數據訓練數據模型模型/緩存命中結果新結果Alluxio Enterprise AI 3.0基于模型訓練
5、和推理的數據訪問模式提供高性能數據服務針對大語言模型(LLM)、大規模自然語言處理(NLP)及計算機視覺(CV)等AI/ML計算提供高性能數據訪問Alluxio 高性能AI/ML計算應用參考架構數據處理使用 Alluxio 作為數據訪問網關或寫緩存特征工程使用Alluxio作為在線存儲或者離線存儲模型訓練使用 GPU 讀取訓練數據、視覺(圖像)或 NLP/LLM(文本)模型部署使用經過訓練好的模型進行推理或預測Curated/Processed DataModelSpark or PyTorchS3 or HDFSSparkSpark or PyTorchLanding/Raw DataS3
6、or POSIXS32FeatureProcessed dataModelData&FeatureResultModelModelRegion BRegion CRegion ATopologyStorageComputeStageNamespace or Write Cache1Read Cache2Data MigrationAlluxio 產品核心能力/特性及技術價值Alluxio面向AI/ML場景的應用Alluxio面向AI/ML場景的高性能數據訪問加速基于Alluxio的 AI/ML數據訪問技術架構及業務價值加速模型訓練/上線速度提高GPU利用率30%90%降低API改造/適配成本減
7、少高成本專用存儲75%減少數據復制任何和數據副本管理,減少運維人員2X更快的數據管道,減少專用存儲和跨域數據傳輸帶來更低的成本70%降低數據加載時間消耗;提高的GPU利用率和模型訓練效率使用 Alluxio 之前使用 Alluxio 之后Alluxio 在高性能AI/ML數據訪問中的應用PART 3應用案例-頂級互聯網金融服務公司模型訓練場景應用業務挑戰Alluxio解決方案價值收益GPU 利用率較低:20%-30%的GPU利用率.隨著模型訓練任務數量的增加,數據遷移管道難以維護從主數據湖到AI/ML基礎設施平臺的大量冗余副本與云對象存儲相比,GPU 利用率從 20-30%提高到 90%以上僅
8、維護活躍訓練數據集(少于總數據集的 3%)降低數據工程成本75%大規模 AI/ML 訓練的訪問層應用案例-國內頭部車載智能計算廠商模型訓練場景業務挑戰業務挑戰Alluxio Alluxio 解決方案解決方案價值收益價值收益對象存儲中的訓練數據訪問效率較低導致GPU 利用率低.不同部門將相同的數據集下載到NAS,導致NAS中有大量的冗余數據,增加存儲和運維成本通過通過AlluxioAlluxio提供提供FUSEFUSE接口能力同時,提升模型訓練性能和接口能力同時,提升模型訓練性能和GPUGPU利用率利用率數據下載:模型訓練數據預加載速度提升2倍到10倍簡化運維:減少了大量跨集權數據工程運維和數據
9、冗余數據跨集群拷貝時間,成本高,導致整體模型的訓練、部署周期長,成本高訓練耗時:模型訓練時間18小時縮短到14小時(訓練腳本瓶頸)吞吐提升:相比NAS和直接訪問S3存儲,IO讀取速度提5倍應用案例-國內Top3證券公司模型上線場景應用從主數據湖到AI/ML基礎設施平臺的大量冗余副本 在推理集群所在K8s集群的宿主機上部署Alluxio集群并啟動Alluxio Fuse客戶端。通過K8s標簽的方式,讓使用Alluxio Fuse的Pod能夠發布在正確的宿主機上。推理集群的Pod通過Hostpath的方式掛載Alluxio Fuse目錄到模型訓練Pod內。通過Alluxio實現和HDFS Clus
10、ter進行安全集成(Kerberos認證,跨KDC集成)。通過Alluxio Cache實現當多個Pod加載同一個模型時的性能提升。利用Alluxio+HDFS替代NAS,降本增效:適應大模型對于更大存儲空間、更高模型上線性能的要求,同時減少NAS采購成本。應用案例-國內Top3證券公司模型推理場景應用GPU 利用率較低:20%-30%的GPU利用率.從主數據湖到AI/ML基礎設施平臺的大量冗余副本業務挑戰Alluxio解決方案價值收益某證券公司在智能云平臺上建設量化投研平臺-項目建設需要對接多方技術團隊(存儲和計算接口不一致)-計算側需要快速訪問對象存儲上的大量小文件-期望控制對象存儲的使用
11、成本架構要點-從云平臺到本地機房的數據拉取-南向OSS協議訪問對象存儲;北向POSIX協議提供數據接口-K8s環境部署Alluxio組件Alluxio價值體現-Alluxio橋接不同廠商的存算平臺,降低需求方和供應商的系統集成成本-通過元數據緩存提升文件掃描速度10 x以上;通過熱數據緩存避免重復拉取OSS數據-打造智能云平臺數據編礎能力,為云用戶提供異構存儲集成、泛化計算接口對接能力證券期貨證券數據(非因子)應用案例-頂級知識問答/內容服務平臺模型訓練&模型上線一體化場景應用業務挑戰Alluxio 解決方案價值收益HDFS 中的訓練數據訪問效率較低導致GPU 利用率低.使用 Alluxio
12、S3 API 將模型部署速度提高 5 倍GPU 利用率從 45%提高到 98%模型上線/部署成本高,時間長幫助多集群模型快速上線,數據緩存加速模型訓練過程提高用戶留存率和用戶在平臺上的觀看時間通過更高效的數據訪問層將硬件成本降低 50%跨數據中心/跨多云數據訪問造成網絡瓶頸及成本較高應用案例-全球Fortune 5 科技公司-AI/ML場景應用GPU 利用率較低:20%-30%的GPU利用率.業務挑戰Alluxio解決方案價值收益巨額的S3 網絡出口費用數據訪問速度太慢且分散,無法利用GPU有效地利用云中h或本地計算資源進行部署商業分析和洞察需要很長時間:數據無法立即獲得獲得混合云和多云的數據訪問和商業洞察敏捷性根據可用性在本地和云端啟動 GPU;適用于所有人工智能數據和模型開發的通用數據入口點每年節省$1000M以上,降低 S3 出口成本縮短洞察時間THANKS