《ALLUXIO:大模型制勝寶典解密AI高效數據訪問策略白皮書(25頁).pdf》由會員分享,可在線閱讀,更多相關《ALLUXIO:大模型制勝寶典解密AI高效數據訪問策略白皮書(25頁).pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型制勝寶典大模型制勝寶典該白皮書全面介紹了現代AI/ML平臺中的數據訪問模式,并探討了機器學習流程各個階段中數據訪問的特征,以及在構建數據和AI平臺時可選用的解決方案。解密AI高效數據訪問策略機器學習工作流的架構和考量摘要01/24目前,人工智能(AI)技術的應用正在迅速發展,49%的企業首席信息官(CIO)表示正在使用或計劃使用AI技術1。如今興起的生成式AI進一步加速了AI應用,使得AI成為增加企業營收、提高客戶滿意度和企業生產效率的當務之急。AI項目成功的關鍵在于數據訪問,因此為應用程序迅速提供數據的能力至關重要。隨著AI應用場景日趨復雜化,我們需要了解數據訪問模式并采取合適的解決方
2、案。該白皮書全面介紹了現代AI/ML平臺中的數據訪問模式,并探討了機器學習流程各個階段中數據訪問的特征,以及在構建數據和AI平臺時可選用的解決方案。摘要1.數據訪問 AI應用落地面臨的障礙2.揭秘機器學習工作流中的數據訪問模式 2.1機器學習工作流的各個階段 2.2數據訪問模式 2.2.1什么是數據訪問模式?2.2.2機器學習工作流中的數據訪問模式 2.2.3單云數據訪問模式 2.2.4多云/多區域數據訪問模式 2.3需考慮的因素3.優化AI/ML平臺中的數據訪問-架構和基準測試 3.1架構概覽 3.2 由Alluxio賦能的模型訓練的性能和GPU利用率基準測試 3.2.1深度學習算法和數據集
3、 3.2.2部署和設置 3.2.3基準測試結果4.實際應用場景 4.1金融科技巨頭-支付寶,加速數十億小文件上的大型計算機視覺訓練 4.2頭部在線內容社區-知乎,通過優化GPU利用率達到90%加速模型訓練和部署5.總結關于作者目錄02/241367889101112141516161617181920222403/24第一章數據訪問 AI應用落地面臨的障礙04/24一、數據訪問 AI應用落地面臨的障礙數據訪問是AI應用落地中的一項重大挑戰。Gartner研究發現,數據可訪問性是AI應用落地的最大障礙2。(圖1:Gartner-AI應用落地面臨的障礙2)數據訪問之所以影響AI項目成功,原因有以下
4、幾個方面:高質量的AI模型需要訪問大規模數據集與傳統的企業應用程序相比,AI任務需要的數據量要大的多。AI模型的質量和準確性在很大程度上取決于是否能夠訪問大量的訓練數據。要高效應用AI,對數據的需求不僅僅在于數據量大小,還與數據多樣性和復雜度有關。訪問數據的能力會大大影響AI項目的整體結果。無論是在混合云/多云還是單云環境中,數據訪問速度均慢且成本高對于企業而言,相關的數據集通常位于不同的云環境、數據中心或地理區域。AI應用需要能夠訪問任意位置的數據??绶植际皆骗h境訪問數據可能會導致明顯延遲,以及較高的云存儲API成本和流量成本。即使在單一云環境/地理區域的情況下,由于大多數持久化存儲是為低成
5、本存放海量數據而設計的,因此也會面臨數據訪問性能低下的挑戰。05/24一、數據訪問 AI應用落地面臨的障礙增加模型大小會降低應用性能隨著AI技術的發展,AI模型變得越來越大、越來越復雜。根據 OpenAI 的研究,最先進的AI模型規模平均每3-4個月就會增加1倍 3。此外,為了追求準確性,模型需要經常更新并重新部署上線。對于下游應用來說,對大模型文件進行高并發訪問難度很大。GPU 實例的可用性有限,需要進行遠程數據傳輸如今,GPU 已成為稀缺資源。例如,配備 A100 GPU 的 Amazon EC2 P4 實例可能僅在某些AWS 區域 4 可用,而訓練數據則位于遠端。因此將數據傳輸到 GPU
6、 實例進行模型訓練時,會導致模型訓練緩慢且流量成本高昂。GPU 等待數據獲取,導致 GPU 利用率不足GPU是AI任務的重要加速器。但是,GPU的單位時間算力成本高昂。最大限度地提高 GPU 利用率并減少數據訪問導致的GPU空閑等待時間至關重要。這其中的挑戰在于如何能持續向GPU提供數據從而避免計算閑置。因此,數據訪問速度成為瓶頸。要想應對數據訪問中的挑戰,需要充分了解 ML工作流各個階段的數據訪問特征。06/24第二章揭秘機器學習工作流中的數據訪問模式07/24二、揭秘機器學習工作流中的數據訪問模式(圖2:機器學習工作流的各個階段)2.1機器學習工作流的各個階段機器學習工作流包括模型開發生命
7、周期的以下階段:數據導入是將來自不同數據源的數據導入主數據工作流的步驟,可通過數據集成工具來完成,該工具可以從各種數據源提取、轉換和加載數據。數據預處理是為模型訓練準備數據的過程,包括清理數據、剔除異常值以及將數據轉換為模型可以使用的格式。特征工程也是數據預處理的一部分,包含從現有數據創建新特征。模型訓練是建立可基于數據進行預測的模型,通過使用機器學習算法識別數據模式來完成。處理后的訓練數據和再訓練數據將被用于執行 ML流程(例如 A/B 測試、模型調優和超參數調優)。模型部署是使模型可用于生產環境的過程,包括將模型打包并讓需要使用它的應用程序可對其進行訪問。模型推理是使用模型進行預測的過程,
8、包括將新數據輸入模型并通過模型進行預測。模型的推理結果,包括模型分數、輸出數據流和數據分析結果,都會影響下游應用程序的運行。機器學習工作流是包含反饋環路的不斷迭代的過程。一旦模型部署完成,需要衡量其有效性,并且用最新的訓練數據優化和升級模型,從而生成更好的模型訓練結果。2.2.1什么是數據訪問模式?數據訪問模式是指從存儲系統中訪問數據的方式和特征。該模式提供了可用來優化數據處理工作流和存儲系統的重要信息。數據訪問模式主要包括:訪問類型:指的是在打開文件后執行的操作,例如讀取和寫入操作;以及訪問的特征,例如只讀、只寫等。訪問模式:可以是隨機讀/寫或順序讀/寫。隨機訪問根據應用程序邏輯以任意次序對
9、數據塊進行讀/寫訪問。順序訪問對數據塊按照線性次序從頭到尾進行讀寫訪問。文件大?。簡蝹€文件的大小,可分為以下類型:1)小:100KB 2)中:100KB100MB 3)大:100MB100GB文件數量:訪問的數據集中的總文件數??煞譃橐韵骂愋停?)小:1千 2)中:1千 1 百萬 3)大量:1百萬 1億 4)海量:1億 1百億或以上文件格式:數據的格式包括結構化(如Parquet、ORC)和非結構化(如JPEG圖像)08/24二、揭秘機器學習工作流中的數據訪問模式2.2數據訪問模式(圖3:什么是數據訪問模式?)2.2.2機器學習工作流中的數據訪問模式機器學習工作流的每個階段都具有不同的數據訪問
10、模式和相應的需求。數據導入和模型訓練要求高吞吐,預處理要求處理混合讀寫,而推理則要求低延遲和高吞吐。表1顯示了機器學習工作流的不同階段以及相應的數據訪問模式:數據導入任務通常采用順序訪問模式,訪問各種類型和大小的文件。該任務通常對于延遲不敏感,除非是流數據處理場景。寫入占到該任務輸入/輸出操作的90%。數據預處理任務會同時使用隨機和順序訪問。該類任務具有平衡的讀寫模式,會訪問多種數據類型和數據源,并管理各種大小的文件。實時數據處理要求低延遲,而批量數據處理需要高吞吐。模型訓練、部署和推理任務通常采用順序訪問模式,以處理同一種類型的小文件為主。該類任務要求低延遲和高吞吐,并且可通過 GPU 加速
11、獲得顯著的性能提升。另一方面,數據分析算法在傳統 CPU 上運行速度更快。不同的訪問模式需要對基礎設施進行不同的優化。數據導入要求高寫入吞吐,訓練要求高讀吞吐和高GPU利用率,部署要求低延遲和高并發,推理要求低延遲和高可用。09/24二、揭秘機器學習工作流中的數據訪問模式 數據導入數據預處理模型訓練模型部署模型推理非結構化或半結構化結構化計算機視覺自然語言處理Checkpoint寫入 訪問類型大部分寫讀和寫讀和寫大部分讀讀和寫只寫大部分讀只讀訪問模式-讀N/A順序讀隨機讀(4k)順序讀隨機讀(4k)N/A順序讀順序讀訪問模式-寫順序寫或追加寫順序寫或追加寫順序寫或追加寫N/AN/A順序寫或追加
12、寫順序寫N/A文件大小小到大小到大中到大小大大小到大小到大文件數量少到中大量少海量少少少少文件格式Parquet,ORC,Avro,Arrowjpeg,gif,json or text,mp4Parquetor ORC非結構化數據,如jpeg或gif結構化或半結構化NPZ,HDF5,tf-nativepb,pkl,h5,onnx,mlmodelpb,pkl,h5,onnx,mlmodel對數據和AI平臺的要求高吞吐整合所有數據源高吞吐(批處理)低延遲(實時處理)高CPU利用率高吞吐高讀取性能高GPU利用率高吞吐高寫入性能低延遲高并發低延遲高吞吐高可用表1:ML工作流各階段的數據訪問模式10/2
13、4二、揭秘機器學習工作流中的數據訪問模式2.2.3單云數據訪問模式在單云或單個數據中心進行模型訓練時,不同類型的訓練數據集會要求不同的數據訪問模式,而不同的數據訪問模式會影響數據訪問的性能。使用非結構化數據集進行訓練當訪問非結構化數據(例如 JPEG 或 GIF)時,數據訪問模式大多是順序讀取整個文件。當讀取包含超過1萬個文件的生產環境ML數據集時,這種類型的讀取模式會導致無論冷讀還是熱讀(其中熱讀指命中本地 NVMe 存儲上的本地緩存)都采用流式(順序)讀取而非隨機讀。使用結構化數據集進行訓練當訪問結構化數據(例如 Parquet 或 ORC)時,數據訪問模式大多是小文件隨機讀。當我們對生產
14、環境中的ML 數據集啟用4個線程的讀取操作時,該類型的讀取模式導致在讀取大型ML結構化數據集時,無論是熱讀取還是冷讀取,隨機讀都優于流式讀取。(圖4:使用非結構化數據集進行訓練時的單云數據訪問模式)11/24二、揭秘機器學習工作流中的數據訪問模式2.2.4多云/多區域數據訪問模式在某些情況下,機器學習工作流的不同階段可能跨地理區域或云環境。例如,可在一個區域中對導入的數據進行預處理,在另一區域中對模型進行再訓練,然后在一個或多個其他區域中執行模型推理。選擇多區域、多云策略是出于成本、性能和服務能力的綜合考慮。首先,企業通常希望能以成效比最高的方式利用云資源。其次,推理階段通常需要在地理區域上更
15、靠近終端用戶,從而降低延遲。再者,一些云廠商可以提供其他云廠商無法提供的專有資源或服務。例如,Google Cloud 提供 TPU,AWS 提供 SageMaker。(圖5:使用結構化數據集進行訓練時的單云數據訪問模式)(圖6:多云/多區域數據訪問5)12/24二、揭秘機器學習工作流中的數據訪問模式理解了數據訪問模式和要求后,當我們為了優化數據訪問而設計和搭建架構時,需要考慮解決方案的性能、可擴展性和可靠性,從而確保充分實現AI基礎設施的投資價值。數據訪問解決方案應支持以下方面:ML任務的高性能和高吞吐數據集管理,包括從數據湖加載/卸載/更新數據云原生功能,例如多租戶、可擴展性和彈性消除數據
16、冗余,避免管理多個數據副本減少對專用網絡硬件的依賴無論數據位于何處,都可以靈活地在任何位置部署計算對云廠商無感知,避免被廠商鎖定具有前瞻性,能適應存儲和計算技術的發展安全性,包括統一的身份驗證和授權Alluxio提供可滿足上述所有要求的解決方案。Alluxio能將機器學習引擎與不同的存儲系統連接起來,并跨區域和跨云將數據虛擬化,以統一的方式訪問和管理來自不同數據源的數據。Alluxio 提供針對按需數據訪問進行優化的架構,能在恰當的時間訪問正確的位置來獲取數據。Alluxio帶來以下價值:自動從現有數據湖加載/卸載/更新數據?;跀祿L問模式更快地訪問訓練數據。提供高數據吞吐,確保最佳數據訪問
17、性能,從而讓 GPU得到充分利用。加速模型部署,并為推理節點提供高并發模型服務。無需管理數據副本,從而提高數據工程團隊的效率。降低云存儲API和流量成本,例如S3 GET請求的成本、數據傳輸成本等。2.3需考慮的因素13/24二、揭秘機器學習工作流中的數據訪問模式(圖7:由Alluxio支持的跨ML工作流階段的數據訪問)14/24第三章優化AI/ML平臺中的數據訪問-架構和基準測試-15/24三、優化AI/ML平臺中的數據訪問-架構和基準測試(圖8:使用Alluxio進行模型訓練和模型服務的架構)3.1架構概覽在本節中,我們將重點關注 ML工作流的模型訓練和模型服務(部署)這些資源密集型階段。
18、以下是使用Alluxio 進行模型訓練和模型服務的參考架構。在此參考架構中,訓練數據存儲在中心化數據存儲平臺,例如AWS S3或GCS(GoogleCloud Storage)中。部署Alluxio后能夠幫助實現模型訓練集群對訓練數據的無縫訪問。PyTorch、TensorFlow、scikit-learn 和 XGBoost等ML訓練框架都在 CPU/GPU/TPU 集群上層執行。這些框架利用訓練數據生成機器學習模型,模型生成后被存儲在中心化模型庫中。在模型服務階段,使用專用服務/推理集群,并采用 TorchServe、TensorFlow Serving、Triton 和 KFServin
19、g 等框架。這些服務集群通過 Alluxio 從模型存儲庫中獲取模型。模型加載后,服務集群會處理輸入的查詢、執行必要的推理作業并返回計算結果。訓練和服務環境都基于 Kubernetes,有助于增強基礎設施的可擴展性和可重復性。16/24三、優化AI/ML平臺中的數據訪問-架構和基準測試(圖9:基準部署和測試設置)3.2 由Alluxio 賦能的模型訓練的性能和 GPU 利用率基準測試3.2.1深度學習算法和數據集ResNet(殘差神經網絡)是一種被廣泛使用的深度學習模型,尤其在計算機視覺領域大受歡迎。它建立在卷積神經網絡(CNN)的基本架構之上,但有效地解決了梯度消失的問題,從而能提高訓練性能
20、和準確度。就參考架構而言,我們用計算機視覺領域的典型應用場景之一圖片分類任務作為示例,其中我們以ImageNet的數據集作為訓練集,通過ResNet來訓練圖片分類模型。3.2.2部署和設置測試設置摘要Alluxio-KubernetesGPU 服務器-AWS EC2/Kubernetes深度學習算法(CV)-ResNet(應用最廣泛的CV算法之一)深度學習框架-PyTorch數據集-ImageNet(子集-35k圖像,每個100kB-200kB)數據集存儲-S3(單個區域)掛載-FUSE可視化-TensorBoard 代碼執行-Jupyter notebookAlluxioS3-FUSE總訓練
21、時間(3 epochs)17分鐘85分鐘17/24三、優化AI/ML平臺中的數據訪問-架構和基準測試基準線S3-FUSE3.2.3基準測試結果訓練性能基準測試結果基于Resnet-50上3個epochs性能基準測試的結果,使用Alluxio比使用S3-FUSE的速度快5倍。一般來說,提高數據訪問性能可縮短模型訓練的總時間。(表2:計算機視覺訓練性能基準測試結果:Alluxio vs.S3-FUSE)GPU 利用率基準測試結果使用Alluxio后,GPU利用率得到大幅提升。Alluxio將數據加載時間由82%縮短至 1%,從而將GPU利用率由17%提升至 93%。圖10:計算機視覺訓練GPU利用
22、率基準測試結果:Alluxio vs.S3-FUSE18/24第四章實際應用場景19/24四、實際應用場景支付寶是全球最大的移動支付平臺之一,服務13億個人用戶和8000萬商戶。為了給用戶提供最佳體驗,支付寶依靠機器學習模型來支持各種功能,如欺詐檢測、風險評估和個性化推薦。然而,隨著支付寶用戶群和交易量的增長,公司開始在模型訓練方面遭遇挑戰。計算和存儲性能之間的差異導致模型訓練緩慢且效率低下。此外,專用硬件的高昂成本也給支付寶在預算方面帶來了壓力。為了應對這些挑戰,支付寶開始使用Alluxio,作為加速機器學習任務的統一數據訪問層。Alluxio提供位于計算層和存儲層之間的高性能緩存,降低延遲
23、并提高吞吐量。使用Alluxio后,支付寶可以在標準商業化硬件上訓練模型,其性價比高于使用專用硬件。(圖11:支付寶使用Alluxio的訓練架構)4.1金融科技巨頭-支付寶,加速數十億小文件上的大型計算機視覺訓練20/24四、實際應用場景除了提高性能,Alluxio還簡化了支付寶的數據管理。Alluxio提供按需數據訪問,消除了維護數據副本的需求。這使得數據工程師可以騰出時間專注于其他任務,例如優化模型性能。使用Alluxio后,支付寶的模型訓練速度和效率都得到了顯著提升。此外,基礎設施成本有所降低,數據工程師能有更多時間來專注于更具戰略意義的任務。(點擊了解詳情)“在針對我們遇到的挑戰嘗試了
24、各種方案后,我們發現只有Alluxio能夠滿足我們大規模AI訓練的要求。Alluxio 大幅增強了我們在各個業務領域中的AI訓練任務?!标悅饔?,螞蟻集團資深軟件工程師知乎是中國領先的在線內容社區,目前擁有4億用戶、1億月活用戶和540億月瀏覽量。知乎通過訓練自定義大語言模型(LLM)來支持其搜索和推薦功能。為了開發LLM,知乎需要高性能的數據訪問層來有效地訪問位于多個云上的數據。知乎團隊在為LLM構建高性能數據訪問層時面臨幾個挑戰。首先,需要找到一種方法來高效地訪問位于多個云上的數據。其次,需要確保數據訪問層具有可擴展性,能滿足LLM訓練和部署不斷增長的需求。第三,需要確保數據訪問層是可靠的,
25、并且能夠承受預期之外的故障。知乎團隊選擇使用Alluxio作為LLM的高性能數據訪問層。Alluxio為模型訓練和部署中的大規模數據訪問提供統一的加速解決方案。4.2頭部在線內容社區-知乎,通過優化GPU利用率達到90%加速模型訓練和部署21/24四、實際應用場景(圖12:知乎部署Alluxio后的多云LLM工作流)知乎在部署Alluxio后,在性能、可擴展性和可靠性方面都實現了顯著提升。LLM的訓練速度提升了2-3倍,模型更新頻次由幾個小時或幾天提高到分鐘級別。此外,基礎設施成本也降低了50%。查看完整案例我們選擇將Alluxio作為高性能數據訪問層,來解決知乎遇到的技術挑戰。部署Allux
26、io后,GPU利用率達到了以前的兩倍,基礎設施和運營成本降低50%,模型部署和更新速度從幾個小時加快到幾分鐘。胡夢宇,知乎數據平臺團隊軟件工程師22/24第五章總結23/24五、總結人工智能/機器學習的發展進步在解鎖創新機遇的同時,也給數據訪問帶來了挑戰。單云和多云環境數量的增長也進一步加劇了設計 AI/ML 架構時須考慮的復雜性。數據訪問在滿足 AI任務要求的性能、規模和移動性方面發揮著至關重要的作用。數據無處不在,AI平臺的復雜性也日益增加。這其中的挑戰與 GPU 稀缺、成本考量以及成為數據孤島的大量大型數據集有關,因此要求有可靠的數據和 AI 平臺架構。如上所述,Alluxio 可解決A
27、I任務的數據訪問挑戰,將任何模型訓練或模型部署的數據需求對接到所有云上的存儲。案例市集解鎖新場景探索更多寶典市集解鎖新技巧24/24白皮書作者&參考資料Hope WangAlluxio開發者推廣大使王北南Alluxio資深軟件工程師唐春旭Alluxio研究科學家邱璐Alluxio機器學習工程師Shawn SunAlluxio軟件工程師陳壽緯Alluxio開源產品經理郭忱佳Alluxio市場分析專員參考資料1 Gartner,“2023 Gartner CIO survey”2 Gartner,“2021 Gartner AI in Organizations Survey”3 AI and compute,https:/ Amazon EC2 P4 Instances,https:/ Hojin Park,Andy Lu,Greg Ganger,George Amvrosiadis:Multi-region/cloud datasharing scenarios,https:/