《戴爾科技:AI GPU分布式訓練白皮書(2022版)(61頁).pdf》由會員分享,可在線閱讀,更多相關《戴爾科技:AI GPU分布式訓練白皮書(2022版)(61頁).pdf(61頁珍藏版)》請在三個皮匠報告上搜索。
1、戴爾科技 AI GPU分布式訓練技術白皮書(2022 版)內容摘要 當前人工智能應用消耗的計算力,平均2-3個月就會增長一倍。AI模型越來越龐大,模型參數規??焖僭鲩L,針對 AI 大模型訓練,僅靠提升 AI 加速芯片單卡性能已經非常困難,多機多卡分布式訓練勢在必行。同 AI 服務器單機訓練相比,多機 GPU分布式訓練是一個系統工程,“通信墻”和“IO 墻”是制約大規模計算集群加速的主要影響因素。戴爾科技集團將在技術白皮書中,為您分享 AI 計算技術發展的研究,構建 AI GPU 分布式訓練集群的解決方案與性能優化的最佳實踐。本白皮書撰寫團隊戴爾科技集團數據中心業務部戴爾科技集團人工智能和高性能
2、計算創新實驗室北京凌云仿真信息技術有限公司人工智能技術的發展與成熟,AI 商業化進程的加速,為拓展數字經濟及加速企業數字化轉型提供了新的動能。戴爾科技集團首席執行官(CEO)邁克爾 戴爾先生(Mr.Michael Dell)在談及人工智能曾經講過:釋放數據的力量,AI 正在真正改變我們的世界。如果說人工智能是火箭,那么數據就是火箭的燃料。新興且強大的技術,將把我們帶入又一次文藝復興,這將是人類取得偉大進步的一個時代。我們正處在由技術引導的一個巨大投資周期的開端;新技術要求投入巨資來部署支持人工智能的新型技術架構,無縫且安全地從邊緣到核心再到云。在中國,我們看到人工智能技術正在加速與各個主要行業
3、的融合,創造出更多的行業應用場景。在互聯網,AI 正在被廣泛應用于智能推薦、視頻審核與智能客服;在制造業,AI 已經在工業產品外觀檢測、預防性維護等領域落地;在金融,AI 技術越來越多應用于智能風控、投顧與保險理賠;在生命科學,Google Alphafold2 的開源,讓我們看到了 AI 加速蛋白質 3D 結構預測與新藥研發的重大前景。秉承戴爾科技集團“在中國,為中國”的理念,我們一直積極投入于加速中國人工智能產業進步與行業落地的實踐工作。2015 年,戴爾科技與中科院自動化所合作共建人工智能與先進計算聯合實驗室,在 AI 計算、深度學習服務平臺、傳統行業 AI 應用落地等領域進行了深入的探
4、索實踐。2019 年,戴爾科技集團與中國賽艇協會、中國皮劃艇協會簽署水上實驗室技術戰略合作,為中國賽艇隊、皮劃艇隊開發了一套融合 AI 運動生物力學模型、GPU 高性能計算、流數據平臺的綜合智能訓練服務系統,通過視頻實時捕捉運動員的訓練動作、實時分析和判斷,糾正運動訓練中的動作力度、角度和穩定性偏差,助力運動員備戰奧運。在高校 AI 人才培養和產教融合領域,戴爾科技集團基于智能駕駛小車開發的 AI 沉浸式教學實訓平臺,已經在國內多所知名大學完成 AI 實訓課程教學;AI Master Class 人工智能視頻教學課程,目前開放包括 AI 原理/機器學習/特征工程/機器視覺/AI框架 五大模塊超
5、過 30 多講視頻課程,致力于降低在校大學生及有志于投身 AI 的職場人士學習 AI 的入門門檻。AI 模型開發和工業場景應用,需要大量的計算力。戴爾科技集團發布的最新一代 PowerEdge 15G 服務器,面向 AI 異構計算算力需求,在主板設計、電源功率、風扇散熱、GPU 通信等多個技術領域進行優化設計,并推出面向數據中心高性能 AI 計算的優化服務器 PowerEdge XE8545與 PowerEdge R750 xa,以及適應 AI 邊緣計算場景的邊緣優化服務器 PowerEdge XR11 與PowerEdge XR12。伴隨著 AI 行業應用的深入,參數空間更大、結構更加復雜、
6、算力消耗更高的大型 AI 模型不斷涌現,僅靠單機算力的提升已經變得越來越困難和不經濟,依托 AI 計算集群的多機分布式訓練勢在必行。AI 集群分布式訓練是一個復雜的 AI 系統工程,需要計算/存儲/網絡/框架軟件各個組件的相互協同與系統優化,如同一輛行駛在公路上的轎車內部的各個關鍵機械部件,任何一點存在性能短板都會造成整體的性能下降。這其中存儲 IO 是一個非常關鍵的問題。深度學習模型訓練依賴于大數據,訓練數據集數量越多、質量越高、針對性越強,模型的精度越高,這就需要提供一套高性能、易擴展的數據存儲系統,滿足規模持續增長的 AI 數據存儲空間、性能及數據保護要求。隨著以 GPU 為代表的異構加
7、速芯片性能的快速提升,深度學習端到端訓練過程中,對于數據搬運過程的時間要求越發苛刻;特別是圖像、NLP 領域存在大量小文件,而小文件持續快速讀寫一直是存儲領域一大性能難題。如果數據在抽取、預處理、加載過程中存在比較大的延遲,會嚴重影響到 AI 芯片的實際利用率,也就是通常談到的“IO 墻”。面對 AI 數據存儲的技術挑戰,戴爾科技集團提供的PowerScale 存儲系統,助力用戶在 PB 級至幾十 PB 級別的數據規模下,構建超過 1000 張 GPU 規模的 AI 計算集群性能與容量需求相匹配的后端集中存儲系統。PowerScale 提供業界最全面的存儲訪問協議支持,它允許數據科學家使用不同
8、的主流文件協議訪問和讀寫存儲在 PowerScale 上的非結構化數據集,并支持同時以不同的協議訪問同一份文件集以適應不同的應用操作。在 AI GPU 分布式訓練技術白皮書中,我們將為您詳細闡述和報告戴爾科技集團基于數據中心與IT 基礎架構領域的技術積累,在構建高性能、可擴展的 AI GPU 計算集群的參考架構、效能測試及最佳實踐,以及在 GPU 算力優化、應對 GPU 分布式訓練中的“通信墻”與“IO 墻”的解決方案。朱 培 蘭戴爾科技集團全球資深副總裁大中華區數據中心業務總經理1.快速發展中的人工智能產業2.AI 計算技術發展與挑戰3.AI GPU 分布式訓練原理4.AI GPU 分布式訓
9、練的技術挑戰與實踐5.面向 AI 計算的 Dell PowerEdge GPU 加速服務器6.戴爾科技 AI GPU 分布式訓練性能驗證7.構建應用透明的 GPU 分布式訓練集群實踐8.大規模深度學習集群存儲優化實踐9.AI GPU 計算集群網絡通信方案10.戴爾科技端到端 AI 基礎架構解決方案11.總結12.參考文獻020409112029353949545657目 錄02人工智能時代已來,它就在我們身邊,已經開始在改變我們的生活。人工智能自 1956 年美國達特茅斯會議,作為一門學科正式提出,已經經過了 60 多年的發展歷程,期間經歷了“三起兩落”的曲折性發展。2015 年以來,隨著計算
10、力特別是異構加速技術的飛速發展,互聯網與移動互聯網帶來的大量可用于訓練的數據,以及以深度學習、強化學習為代表的 AI 算法技術的不斷成熟,人工智能開始步入產業應用落地的熱潮。埃森哲在人工智能:助力中國經濟增長報告中預測:到 2035 年,人工智能將為中國帶來 7 萬億美元產出,拉動中國經濟增速提高 1.6 個百分點1。目前,以深度學習為核心算法的 AI 技術,主要的應用方向集中在非結構化數據處理及知識發現,如圖像、視頻、語音、語言、文本等。相較于經典機器學習,深度學習簡化了復雜的特征工程,通過深度神經網絡在大量數據學習的基礎上實現特征的自動提取與知識發現,而非結構化數據分析使用傳統技術手工設計
11、特征有著很多的困難和挑戰。機器視覺、語音識別、自然語言處理、時序數據分析,是目前 AI 技術發展較快、相對比較成熟的應用領域。在結構化數據知識發現,AI 技術也為用戶提供了新的技術手段。圖 1:人工智能技術發展歷程快速發展中的人工智能產業103圖 2:人工智能應用的主要技術方向圖 3:AI 典型行業應用場景人工智能技術與具體行業應用結合,衍生出更多具有行業特性的應用場景。目前 AI 技術已經從互聯網、智慧城市,向金融、制造、醫療、零售、交通、教育等更多傳統行業滲透。像制造業應用AI 技術實現產品缺陷檢測、工藝參數優化、良品率提升、故障預測與健康管理(PHM);醫療與生命科學領域通過 AI 實現
12、蛋白質 3D 結構預測與分子篩選、加速新藥研發、醫療影像輔助診斷;汽車行業的智能駕駛,以及零售行業的 AI 商品識別、貨損防控、智能稱重等,都是當前人工智能技術行業落地的熱點場景。04艾瑞咨詢2021 年中國人工智能產業研究報告數據顯示:2021 年中國人工智能核心產業規模為 1998 億元人民幣;2026 年預估相應規模將超過 6000 億人民幣,2021-2026 年度復合增長率預計為 24.8%2。計算機視覺是目前 AI 技術賽道中貢獻最大的細分市場。2021 年 7 月發布中國互聯網發展報告(2021)顯示:2020 年中國人工智能企業數量 1454 家3。當然,雖然過去幾年人工智能產
13、業取得了快速的發展和進步,客觀來看 AI 產業化尚處在初期階段。目前幾乎全部 AI 成熟技術均屬于專用 AI 智能,AI 距離通用人工智能的距離仍然十分遙遠。當前絕大多數 AI 應用落地場景集中在感知智能,認知決策智能需要更快速的發展。人工智能技術仍需不斷成熟,應用場景還需持續拓展,未來 AI 技術對生產、生活和社會的改變將會有更大的期待。AI 計算技術發展與挑戰2計算力是過去幾十年制約神經網絡技術發展的重要原因,也是當下促進深度學習商業落地的重要推動力。相比經典機器學習算法,深度學習模型層次多、參數巨大(模型參數從千萬級別到千億級別,甚至萬億級別)。為了算法模型能夠滿足工業級精度要求,通常需
14、要大量的數據進行模型訓練,這都需要超級算力的支持。北美 AI 研究機構 OpenAI 在 2018 年發布的研究報告顯示:2012 年到 2018 年 6 年時間內,AI 消耗的計算力平均每 3.43 個月增長 1 倍,六年時間內累計增長 30 萬倍4。因而OpenAI提出了“AI計算新摩爾定律”,AI算力增長速度更快于半導體行業經典的摩爾定律周期。圖 4:AI 算力需求增長態勢051_GPU自 Andrew Ng 將 GPU 計算引入到圖像分類并取得巨大成功(注:2018 年圖靈獎獲得者 Yann LeCun 在自述著作科學之路中談到,2006 年微軟研究院的科學家 Patrice Sima
15、rd 首次嘗試將 GPU 用于神經網絡計算30),GPU 目前已經成為 AI 訓練和推理計算最主流和成熟的計算加速方案。NVIDIA 企業級 GPU 加速卡 A100,內置 6192 個 FP32 CUDA 核心,提供強勁的浮點計算性能;性能更將強勁的 H100 GPU 即將上市。深度學習張量計算包含大量的乘法和加法操作,并行度高,而計算邏輯相對簡單,非常適合 GPU SIMD(單指令多數據流)架構進行并行計算。NVIDIA 基于 GPU CUDA 編程框架,針對 AI 應用開發了大量的軟件優化庫,如 cuDNN、NCCL、TensorRT、DeepStream、Metropolis、Maxi
16、ne 等,已經形成了完善的 GPU 軟件生態。2_CPU在 GPU 引入 AI 計算之前,谷歌大腦部署的 AI 超算集群規模有 1000 臺物理器,2000 顆 CPU的計算規模。今日 CPU 仍然承載著很多 AI 的計算任務,絕大多數的數據預處理任務是通過 CPU 來完成,如 Alphafold2 在蛋白質 3D 結構預測中同源序列和模版搜索、三維空間坐標轉換,以及強化學習的一些關鍵任務計算也是由 CPU 來負責。Intel 提供的 AVX512 指令集,來優化深度學習關鍵的浮點計算性能。一些客戶的 AI 推理及輕量級模型訓練,也是部署在 CPU 上運行。圖 5:AI 計算技術發展歷程AI
17、計算技術的快速發展,特別是以 GPU 為代表的異構加速技術的應用,使得快速訓練和商業部署大型深度學習模型成為現實。063_FPGAFPGA 是一種可重構/可編程芯片,可以實現幾乎所有數字電路功能,具有豐富的可重配置的片上資源??膳渲?IO 和用戶自定義的電路,無需在運行時加載并解釋指令集,以具體 workload 按需使用硬件資源,按照具體的數據特征優化硬件計算的流水線,提供很低的計算延遲。FPGA 的這些特性優勢,吸引到一些頭部 AI 用戶,在研發和應用 FPGA 芯片在 AI 低延遲推理以及圖像視頻處理。4_AI 專用加速芯片最近幾年國內外涌現出大量的 AI 專用芯片廠商,提供專門為 AI
18、 深度學習負載設計和優化的專用加速芯片,以提供更高的計算性能和更優的性價比,其中一些 AI 專用芯片已經流片和正式商用。如 Graphcore,是戴爾科技集團參與投資的 AI 芯片初創企業,目前已經成長為歐洲估值最高的 AI獨角獸。Graphcore AI 專用芯片 IPU(Intelligence Processing Unit),通過同構多核的專業架構設計、大量的片上高速 SRAM 存儲、BSP 并行計算機制等 AI 芯片設計,提供高性能的 AI 訓練和推理計算加速。Graphcore 第一代 IPU 芯片 IPUv1 部署在戴爾科技 DSS8440 服務器上,單機配置 8 張 IPU 可
19、以提供 2PFlops 峰值浮點計算性能5。2022 年初上市的 Graphcore 第三代 IPU 加速芯片 BOW,采用 TSMC 7nm 制程工藝,是業界首款采用 3D 封裝技術的 AI 芯片。IPU BOW 在1U 機架式空間集成了 4 塊 IPU 芯片,1U 機箱即可以提供 1.4PFlops 的峰值浮點算力。使用戴爾PowerEdge 服務器作為 IPU 計算節點的控制節點,構成可橫向擴展的 IPU-POD 計算集群。目前已上市的 AI 專用加速芯片,在一些經典的 AI 算法模型上取得了非常好的計算性能,但是從通用性和軟件生態完備性同 GPU 計算相比,還需要更多的時間和努力。圖
20、6:Graphcore IPU AI 專用加速芯片075_ 新型 AI 加速芯片技術未來我們預計將會看到更多的AI加速芯片技術,如類腦芯片、光子芯片、仿生芯片、量子芯片等,當然目前這些 AI 芯片主要還是在實驗室研究階段。如 Intel 2017 年發布的 Loihi 神經擬態芯片,采用 14nm 工藝制造,集成 21 億個晶體管、128 個神經擬態計算核心、13 萬個神經元、1.3 億個突觸?;?Loihi 的“Pohoiki Beach”神經擬態系統,包含 64 顆 Loihi 芯片,擁有 800 萬個神經元和 80億個突觸?;?Intel 公開的數據,Loihi 在一些特定應用(如稀
21、疏編碼、路徑規劃),可以提供傳統 CPU 1000 倍的計算性能6。其他業界之前推出的類腦計算芯片系統,包括如曼徹斯特大學發布的 SpiNNaker、IBM TrueNorth、海德堡大學與德累斯頓大學開發的 BrainScaleS、清華大學類腦計算經研究中心開發的 Tianjic 等7。作為預訓練語言模型的代表,Transformer 模型于 2017 年由 Google 提出。預訓練語言模型的思路是:首先通過大量的無標簽數據進行“預訓練”,獲得一個比較好的語言表示,再將其應用到特定的自然語言處理下游任務中。預訓練模型首先在自然語言處理(NLP)領域取得規模性應用,目前已滲透到機器視覺、生命
22、科學等更多 AI 領域。預訓練模型是 AI 邁向特定領域的通用智能的重要進步。同之前的深度學習算法模型相比,預訓練模型普遍結構復雜,參數空間巨大,訓練預訓練模型需要更大規模的數據集和更強大的計算力。2018 年之后,涌現出很多超大規模的 AI 模型,如BERT、GPT-2、GPT-3,均屬于預訓練模型的范疇。表 1:經典 AI 模型參數規模08雖然 GPU 的制程工藝一直在快速發展,如 NVIDIA 安培架構 A100 GPU 采用 TSMC 7nm 制程工藝,單塊 A100 GPU 包含 540 億個晶體管、6912 個 FP32 CUDA 計算核心和 432 個 Tensor張量計算核心、
23、19.5TFlops FP32 峰值算力和 156TFlops TF32 峰值算力(不考慮結構化稀疏)。即將上市的 Hopper H100 GPU,采用更先進的 TSMC 4nm 工藝,單塊 H100 GPU 集成 800 億個晶體管。但即使是最強勁的GPU型號,當需要訓練超大規模的AI模型時,也需要耗費很長的時間,或者因為模型規模異常龐大(如類似 GPT-3 1750 億參數)根本無法加載到單張 GPU 的顯存來進行處理和計算。NVIDIA 之前曾給出使用單卡 A100 GPU,一些經典 AI 模型達到工業精度需要的訓練時間:MiniGo(強化學習):2156 分鐘;Mask R-CNN(目
24、標檢測):400.2 分鐘;RNN-T(語音識別):309.6 分鐘;3D-Unet(醫療影像):229.1 分鐘;ResNet-50(圖像分類):219 分鐘。當遇到更大規模的大型預訓練模型,非并行化的 GPU 訓練實際上已經無法承載 AI 模型訓練的算力要求。億級、千億級、甚至萬億級別參數規模的 AI 模型訓練所需算力要求,超大規模 NLP/推薦系統特征向量所需顯存要求,更大規模數據集更短訓練時間的訴求,僅依靠單臺 GPU 服務器已經無法滿足超大規模 AI 模型訓練的算力要求,多機多卡 GPU 分布式訓練勢在必行。訓練 1750 億參數的 GPT-3 模型,如果使用 8 卡 V100 GP
25、U 需要訓練 36 年,使用 512 卡 V100 需要訓練 7 個月時間,使用 1024 張 NVIDIA A100 80GB GPU 集群,大致需要 1 個月的訓練時間8。北京智源人工智能研究院發布的中文預訓練模型 26 億參數,使用 64 張 V100 GPU 訓練 3 周時間9。NVIDIA 使用1400 張 V100 GPU 集群訓練 BERT-Large,不到 1 個小時就可以完成訓練10。09AI GPU 分布式訓練原理3GPU 分布式訓練,即跨越單臺 GPU 服務器的算力限制,使用數據中心不同的物理服務器的GPU 算力卡,通過高速低延遲網絡及存儲構建 GPU 計算集群,實現更大
26、規模的、多機多卡的 GPU并行計算。大型 AI 深度學習、強化學習模型,通過 GPU 分布式訓練技術,可以在更短時間內將模型訓練到滿足工業級應用的精度。當前業界多數深度學習框架都可以支持 GPU 分布式訓練,如 TensorFlow、Pytorch、MXNet、Keras,以及國內 AI 框架如 PaddlePaddle 等,但是實現高效率的 GPU 分布式訓練通常需要仔細規劃 AI 集群基礎架構以及框架軟件層面的優化。目前,業界常見的 AI GPU 分布式訓練技術,主要包括如下四類:數據并行、流水并行、模型 并 行 與 專 家 并 行。OpenAI 在 2022 年 6 月 發 表 的Tec
27、hniques for Training Large Neural Networks技術博客,對這四類分布式訓練的技術進行了詳細的總結與比較11。圖 7:AI GPU 分布式訓練的四種類型Source:OpenAI10 數據并行(Data Parallelism)數據并行是最基礎,也是使用最廣泛的一種 GPU 并行訓練的方式。使用數據并行,每塊 GPU計算卡保存完整的模型副本,訓練數據以 Mini-Batch 的方式拆分到不同的 GPU 上并行計算,每個時間周期內 GPU 將自己訓練得到的參數同步給其他 GPU。數據并行,要求每塊 GPU 的顯存需要能夠存儲整個模型。如果是非常大規模的 AI
28、模型已經超過了單塊 GPU 的顯存空間,則無法再使用數據并行。流水并行(Pipeline Parallelism)流水并行,即參與計算的 GPU,各自計算模型的不同層。采用流水并行,GPU 不再需要存儲和計算 AI 模型的所有參數;AI 模型依據層次分配到不同的 GPU,每塊 GPU 只需要存儲和計算屬于自己工作的模型層次的參數。相對于數據并行,同等規模的 AI 模型下,使用流水并行對 GPU顯存容量的開銷更小。流水并行的難度在于深度學習層與層輸入和輸出順序上的串行依賴關系,與GPU 大規模并行計算的矛盾;如果解決不好這個矛盾,GPU 可能會浪費大量時間用于等待負責上一層計算的 GPU 的數據
29、輸出,這些等待時間被稱為“時間氣泡”。減小“時間氣泡”的常見做法是:將一個大批次分解為更多的微批次,以實現每個批次更短的計算時間和更高的并行度。模型并行(Tensor Parallelism)模型并行與流水并行的差異主要在于:流水并行是依據模型的層次進行拆分,而模型并行是將深度學習同一層次的不同張量計算進行水平拆分,每個 GPU 承擔不同部分的計算操作,再將計算結果進行匯總組合。模型并行在如 Transformer 這樣存在大量矩陣計算的大規模預訓練模型,具有很好的加速效果。專家并行(Expert Parallelism)采用專家并行,即每次只使用 AI 網絡中的其中一個部分,用于訓練數據的計
30、算和結果輸出。對于擁有多組權重的情況下,網絡為每組權重(各組權重被稱為“專家”)分配各自的計算任務和GPU 資源,在不增加更多計算資源的情況下獲得更多的訓練參數。11AI GPU 分布式訓練的技術挑戰與實踐4如果說單機多卡性能優化主要是 GPU 服務器內部,如 GPU-GPU 通信、CPU-GPU 通信、GPU IO 通信等,GPU 分布式訓練優化更像是一個 IT 系統工程。它涉及到計算、網絡、存儲硬件層面,也包括數據并行、模型并行、GPU 參數同步通信的算法和軟件實現層面,GPU 集群任何一點出現性能短板,都可能會成為整體訓練過程中的性能瓶頸關鍵點。其中,“通信墻”與“IO 墻”是 GPU分
31、布式訓練最主要的性能瓶頸點。1_“通信墻”AI 模型越龐大,模型參數越多,訓練過程中的通信消耗越大;一些大型 AI 模型訓練過程,通信時間消耗占比已經超過 50%。當前 GPU 服務器外部網絡通信帶寬要低于服務器內部通信,如200Gb HDR Infiniband 已經是領先的高帶寬低延遲通信方案,但是帶寬性能仍然落后于服務器主板的 PCI-E 3.0,更低于 NVLink 與 PCI-E 4.0。同時,我們發現深度學習模型各層網絡參數往往是很不均衡的。以 CNN 卷積神經網絡為例,卷積層通常參數規模不大,大量的參數通常來自最后幾層全連接層,全連接層的參數同步就會帶來很大的帶寬壓力。如果參數同
32、步機制選擇不當,很容易因為網絡擁塞造成性能急劇下降。2_“IO 墻”隨著 AI 加速芯片如 GPU 計算性能的快速提升,深度學習端到端訓練過程中,數據預處理、加載、搬遷過程中的 IO 性能越來越成為性能瓶頸。其中,AI 芯片內部的 IO 性能主要依靠芯片廠商來解決。如 NVIDIA 在企業級 GPU 中采用帶寬性能更高的 HBM 顯存,以及更先進的封裝技術;一些新興的AI 加速芯片,如 Graphcore IPU 使用存內計算技術,與計算核心封裝大容量高速 SRAM。這里我們主要討論 AI 芯片與訓練數據外部存儲硬盤之間的 IO 性能匹配。如果是單機多卡訓練,數據集不大,問題相對容易解決,可以
33、通過 GPU 服務器本地配置高性能 NVME SSD 或者 SSD 硬盤來解決。GPU集群環境,當部署幾十張到上百張 GPU 卡規模,基于數據集中存儲與共享的需求,以及更大數據規模的存儲空間要求,通常會建議部署外置共享存儲系統,而且需要提供文件系統以滿足共享與權限12管理的要求。當外置共享存儲需要同時為很多臺 GPU 服務器提供存儲訪問,特別是上百張 GPU 卡規模的大型計算集群時,存儲 IO 性能要求會成倍累加到共享存儲。特別是很多 AI 應用如圖像、自然語言處理,大量訓練數據是KB級別的小文件,小文件頻繁快速讀寫非常消耗文件存儲系統的性能。如果沒有一個強壯的、支持橫向擴展的企業級文件系統,
34、以及高速的存儲硬件環境(通常需要配置SSD 硬盤或者 NVME SSD 硬盤),非常容易在共享存儲出現 IO 性能瓶頸。圖 8:深度學習訓練過程 IO 流向示意圖圖 9-1:戴爾科技 AI GPU 分布式訓練解決方案針對 AI GPU 分布式訓練,戴爾科技從 IT 系統工程的角度,結合計算、網絡、存儲硬件優化及框架軟件層面優化,從端到端角度為用戶提供整體的 AI GPU 集群架構設計與分布式訓練最佳實踐。13 GPU 服務器內部設計優化GPU 服務器單機性能優化,是集群性能優化的基礎。針對 AI GPU 計算場景要求,戴爾科技集團在過去幾年間,先后發布了多款專門針對 GPU 計算設計和優化的加
35、速服務器。AI GPU 集群計算,為了保障 GPU 運行在最高性能狀態,避免出現 GPU 降頻、GPU 低負載等現象出現,經常需要在GPU 服務器設計中針對 GPU 的功率、散熱、通信等問題進行專業的優化設計,具體方向如:高密度GPU計算(單機支持 4 卡、8 卡 GPU 或更高部署密度)供電和散熱,解決GPU開機過 程的“啟動風暴”;服務器內部,多卡并行 GPU 之間如何高效通信,數據加載過程中 CPU、GPU 與存儲器之間 的高效通信;構建 GPU 計算集群,GPU 與網卡在服務器內部的高效通信。在第 5 章節,將為您詳細介紹戴爾科技 PowerEdge GPU 加速服務器所做的優化設計。
36、低延遲網絡通信技術為解決 GPU 分布式訓練過程中的“通信墻”,硬件層面開啟 GPU Direct RDMA,是非常有效的性能優化方案。通過 GPU Direct 技術調用 RDMA 通信庫,一個服務器節點上的 GPU 可以直接將數據從其顯存發送到目標服務器節點上的 GPU 顯存,而不需要經過兩個節點上的系統內存。AI 訓練過程中的每一個數據字節,不需要繞路到系統內存進行嚴重拉低性能的內核拷貝,從而顯著提升計算效率。配置 GPU 服務器集成的高速網卡,NVIDIA Infiniband 交換機實現原生 RDMA,或通過戴爾網絡團隊自研的 100Gb/25Gb 網絡交換機部署 RoCE,提供低于
37、 TCP/IP 協議的參數同步通信延遲。在訓練數據加載流程,部署 NVIDIA GPU Direct Storage,可以將存儲于外置存儲系統中的訓練數據直接加載到 GPU 顯存進行預處理和后續的訓練計算,縮短了訓練數據加載的流程通路,同時可以降低對 CPU 的處理開銷。深度學習存儲 I/O 優化為了應對 AI GPU 分布式訓練過程中存儲“IO 墻”挑戰,戴爾科技基于橫向擴展的非結構化數據湖解決方案,提供從 TB 級別,到 PB 級別乃至幾十 PB 級別非結構化數據(圖像、視頻、語音、文本等)的存儲平臺解決方案,解決上百張到超過 1000 張 GPU 卡的超大規模計算集群的存儲性能和容量擴展
38、。通過戴爾科技提供的 AI 存儲解決方案,可以幫助用戶解決:1)超大規14模 GPU 計算集群存儲共享及權限配額管理;2)針對訓練數據文件不同大小的性能優化,包括小文件(KB 級別)的 IOPS 性能優化以及大文件(GB 級別)的帶寬性能優化;3)通過 Scale-out 的存儲架構設計,實現存儲容量和性能的隨需擴展;4)存儲內置的軟件機制實現自動存儲分層存儲;5)通過存儲內置軟件以及專業的 DPS 數據保護設備,對訓練數據集、模型文件等關鍵數據提供高可靠的數據保護方案。在第 8 章節,將為您詳細介紹戴爾科技針對 AI 數據存儲的方案設計及優化實踐。軟件層面數據/模型并行及 GPU 通信機制優
39、化在 AI GPU 分布式訓練實踐中,硬件優化+軟件優化相互結合,才可以達到更高效率的集群訓練加速比。目前在深度學習框架層面,配置和實現 GPU 分布式訓練,主要有以下幾種實現方式:a.通過深度學習框架(TensorFlow/PyTorch 等)內置的分布式訓練機制早期有一些深度學習框架,如 Caffe,無法支持分布式訓練;但現在使用這類 AI 框架的開發者已經越來越少。目前主流的深度學習框架,如 TensorFlow、PyTorch、MXNet,均可以提供對分布式訓練的支持機制。但是實踐中發現,很多框架默認提供的分布式訓練實現機制,當 GPU 集群擴展到比較大的規模時,往往效率不高。以 Te
40、nsorFlow 為例,TensorFlow 默認提供的參數服務器機制,GPU 參數同步由承擔參數服務器角色的 GPU 來完成,訓練參數向參數服務器的匯總以及參數服務器同步后的參數分發,網絡通信會產生大量的數據流量,每個 Mini Batch 訓練過程中的傳輸數據量級為 2*K(模型參數量)*N(參與分布式訓練的 GPU 個數),參數服務器 GPU 極其容易成為性能瓶頸。b.通過開源的軟件優化庫為了加速 GPU 分布式訓練,目前業界使用比較多的兩個軟件優化庫是:NVIDIA 提供的NCCLv2 和 Uber 開源的 Horovod。NCCL(NVIDIA Collective Communic
41、ations Library),是NVIDIA 開發的 GPU 集合通信庫,可以實現 GPU 拓撲自動檢測與大量的 GPU 通信優化,通過優化 GPU 訓練過程中的 GPU 通信性能以縮短整體訓練時間。NCCL 支持 AllReduce、Broadcast、Reduce、AllGather、ReduceScatter 等多種集合通信以及點對點通信34。NCCLv1 主要應用于單機多卡通信優化,NCCLv2 在之前版本的基礎上擴展了對 GPU 多機分布式訓練的支持。15NCCLv2 支持單線程控制、多線程控制、MPI 等多種 GPU 并行模式,以及 PCIe、NVLink、Infiniband
42、等多種 GPU 節點內及節點之間的物理通信的支持。NCCLv2 提供的 C 語言 API,可以很方便地被上層應用調用,對于主流的深度學習框架 GPU 分布式訓練提供完善的支持。Horovod 是由 Uber 于 2017 年開源的 GPU 分布式訓練優化框架,最早用于 TensorFlow 的GPU 分布式訓練性能優化,目前可以支持 TensorFlow、Keras、Pytorch、MXNet 框架下的 GPU分布式訓練35。Horovod采用Ring All-reduce的GPU參數同步機制,不再保留參數服務器的角色,所有參與訓練計算的 N 個 GPU 在邏輯拓撲圍成一個環,實現“去中心化”
43、,每個時間窗口 GPU 只與邏輯環的上一個 GPU 及下一個 GPU 進行數據同步。Horovod 支持大規模 GPU 分布式訓練,并且通信時長與 GPU 的個數無關。c.MPI 并行編程優化MPI 是一種跨語言的通信協議,主要用于編寫并行計算機。掌握 MPI 編程,需要開發者具備比較強的 HPC 專業背景。一些 HPC 專家,在根據深度學習框架及 AI 模型的計算特點,使用 MPI 并行編程來進行定制性能優化。與參數服務器-計算服務器(PS-Worker 架構)的分布式 TensorFlow 相比,在 Horovod 分布式架構基礎上采用 MPI 消息傳遞接口和 NCCL 通信庫實現的分布訓
44、練有著更好的運行效率,且方便用戶的集成使用。d.研發更適合大規模分布式訓練的 AI 框架針對超大規模的 GPU 分布式訓練,現在已有一些新興的深度學習框架發布,通過更優化的數據并行、模型并行以及流水并行技術,通過更優化的參數同步通信機制,提供比 TensorFlow或者 PyTorch 現有的主流框架更高效率的并行加速比。NVIDIA Megatron 是 NVIDIA 推出的基于 Pytorch、加速基于 Transformer 架構超大規模模型的分布式訓練加速框架。使用 NVIDIA Megatron,NVIDIA 在 3072 塊 A100 構建的 GPU 加速集群上成功訓練出超過 1
45、萬億參數規模的巨型語言模型36?;?Megatron 訓練 GPT 模型,GPU 計算集群規模從 32 卡 A100 到 3072 卡A100,模型參數規模從 17 億增長到 1 萬億,模型訓練吞吐量增長超過 100 倍;3072 卡 GPU 集群規模下訓練萬億參數模型,GPU 仍然可以達到 52%的計算效率37。16Google 在 2015 年推出的深度學習開源框架 TensorFlow,廣泛為 AI 開發者使用,全球TensorFlow 軟件開發者超過 300 萬。2020 年 Google 發布的 JAX 框架,JAX 是一個高性能數值計算的 Python 庫,在分布式數值計算和并行
46、規模比 TensorFlow 更加出色的表現;目前谷歌大腦、DeepMind 以及很多外部項目,已經開始使用 JAX32??焓峙c蘇黎世理工學院于 2021 年開源的分布式訓練框架 Bagua(八卦),針對分布式場景設計了特定的優化算法,通過算法和系統層面的聯合優化(去中心化、異步通訊、信息壓縮等),在快手內部的工業級應用場景,如大規模自然語言處理和大規模推薦系統,計算性能提升 65%或更高12。國內 AI 初創公司一流科技,2020 年 7 月在 GitHub 上開源由 30 名工程師打造的 OneFlow 深度學習框架,開源一年時間已經獲得超過 2560 個 Stars。OneFlow 針對
47、超大規模 AI 模型訓練,針對模型并行、流水并行、混合并行,在框架層面進行更全面的系統優化13。圖 9-2:NVIDIA Megatron-LM 訓練 GPT 模型摘自 Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM17 高密度 AI 計算對數據中心基礎設施的挑戰隨著數字經濟的快速發展,數據中心的規模在過去幾年快速擴展,伴隨帶來的問題是數據中心的巨大耗電能耗。Science2020 年初刊登論文重新標準全球數據中心能耗估算中的數據顯示:2018 年全球數據中心的耗電規模已經超過全球用
48、電總量的 1%14。人工智能、深度學習應用發展,對于企業數據中心的能耗帶來更大的壓力和挑戰。當前 AI 訓練和推理計算,主要依靠 GPU,而 GPU 屬于高功耗部件。當前商用的雙寬企業級 GPU,單卡功耗 250W-500W。GPU 服務器,代表如 NVIDIA DGX A100 8 卡 GPU 服務器,額定峰值功耗為 6500W15。而當前國內 AI 計算集群建設規模越來越大,普通 AI 計算集群可能部署有 32-64 張 GPU,中大型 AI 集群部署有 128-256 張 GPU 或更大規模,國內一些用戶的大型 AI 數據中心超算集群已經部署有上千甚至上萬張 GPU 計算卡。大規模的 G
49、PU 計算集群部署,對于數據中心的機房基礎設施(供電、散熱、承重等)帶來了很大的挑戰。目前,國內企業用戶的數據中心基礎設施,單個機柜的功率限制多數在幾 KW,需要支持更高功率通常需要數據中心做一定程度的定制化改造。否則單個機柜只能部署很少數量的四卡或者八卡GPU 服務器,因為功率局限 42U 標準 IT 機柜大量空間實際被浪費,整體數據中心能耗表現不佳。大功率、高密度 GPU 部署,對于現有的數據中心制冷和配電系統造成沖擊,如果解決不好將影響現有的 IT 設備安全運行。高密度 GPU 部署,非常容易造成數據中心局部熱點問題,為制冷系統帶來很大壓力。為傳統數據中心設計的制冷和配電系統,改造費時費
50、力,投資巨大,無法兼顧傳統IT 設備和 AI 計算設備的穩定運行。如果希望兼顧 AI GPU 分布式訓練集群計算性能,與數據中心“綠色”、“碳中和”的國家戰略目標,面向高密度 GPU 計算的數據中心基礎設施解決方案需要具體實施。18圖 10:數據中心局部熱點示意圖目前,戴爾科技集團正在全球和國內積極與數據中心基礎設施領先解決方案合作伙伴,共同設計和部署針對 AI GPU 高密度計算的數據中心基礎設施解決方案,包括:簡易解決方案:高密度機柜+行級空調提供專門為 AI 系統服務的獨立制冷系統,滿足單機柜 20KW 的部署密度。實施簡易,不需要升級現有的制冷系統,N+1 供電冗余,就近制冷,高效節能
51、。19圖 11:高密度機柜+行級空調的數據中心基礎設施方案圖 12:模塊化 AI 數據中心解決方案智能模塊化數據中心解決方案采用智能模塊化數據中心解決方案,為 AI GPU 集群系統提供一站式、高能效、高彈性的 AI 數據中心基礎設施解決方案。模塊化數據中心,提供完全獨立的電力、制冷和監控系統,不需要改造現有機房,即插即用,冷熱通道封閉更加節能。數據中心液冷解決方案尋求更高效的 PUE,更加“綠色”的 AI 數據中心,GPU 液冷技術是目前 IT 數據中心的研究熱點,通過液體冷卻的方式,覆蓋GPU、CPU等高功率部件,提供比風冷更低的PUE(PUE可達到1.15或更低)。目前數據中心 GPU
52、液冷,有水冷板和浸沒式液冷等技術方向。20面向 AI 計算的 Dell PowerEdge GPU 加速服務器5GPU 服務器單機性能優化,是集群性能優化的基礎。針對 AI GPU 計算場景要求,戴爾科技在過去幾年間,發布了多款專門針對 GPU 計算設計和優化的加速服務器。戴爾科技集團在計算服務器領域的研發與設計,已經經過 20 多年的積累,在服務器內部架構設計、軟件應用管理、運維服務等方面積累了豐富的經驗。2021 年,戴爾科技全新推出的第 15 代服務器(PowerEdge 15G server)產品家族,包含了近 20 款新一代 Dell PowerEdge 服務器,涵蓋機架服務器、模塊
53、化服務器、GPU 優化服務器、邊緣計算優化服務器等類型,在自適應計算、功耗散熱管理、智能化運維、系統安全等領域提供了很多的設計創新和效能優化。戴爾科技 PowerEdge 15G 服務器的創新設計,集中體現在自適應計算、智能化管理與系統安全保障等方面。圖 13:Dell PowerEdge 15G 服務器創新設計21 自適應計算靈活的計算系統架構,適應新興的各類關鍵型工作負載。比如,為 AI 的訓練和推理,服務器提供完善的 GPU 部件支持,以及 PowerEdge 15G 服務器中專門為 AI GPU 計算定制的服務器如 XE8545 與 R750 xa。針對邊緣計算,數據在邊緣產生,數據分
54、散,數據量大,需要快速處理,這些地方往往沒有傳統數據中心的機房及相應環境,戴爾科技專門針對此環境提供邊緣計算優化型服務器 XR12 與 XR11。在進行高頻交易時,用戶希望服務器能夠支持更多的 NVMe SSD。在做軟件定義存儲時,NVMe SSD 與 SAS/SATA SSD/HDD 能夠多種組合,滿足用戶各種數據分層需求。PowerEdge 15G 服務器家族中,XS 機型支持高性價比的量身定制,用戶不必為實際上不需要用的功能埋單。在服務器主板設計上,PowerEdge 15G 服務器采用 T 型主板,有別于市場中可以看到的 L 型服務器主板,服務器電源均衡部署在服務器的兩側。PowerE
55、dge 15G 服務器的 CPU 處理器性能更強功率更高,內存條密度更高,大功率 GPU 支持,更高的計算密度意味著更高難度的散熱挑戰。采用 T 型主板可以使服務器熱區分布更加均勻。同時,戴爾工程師在后端電源部分設計了單獨的散熱風扇進行輔助。在存儲設計上,戴爾研發工程師將原有的硬盤托架彈簧進行調整,使整排彈簧排列密度降低,可以讓更多的風進入到機箱內部,增強散熱效果。智能化管理隨著企業數字化的深入,數據中心的規模迅速增長,對龐大數量的服務器的運行狀態和故障感知,傳統的運維工具和人工巡檢越發捉襟見肘。在服務器的系統管理上,PowerEdge 15G 服務器引入了人工智能技術,通過自研的 Cloud
56、 IQ 軟件可以通過人工智能算法,幫助用戶分析設備運行過程中 CPU、內存、網卡等關鍵部件的負載情況。如果工作負載過高,可以針對性地進行系統調優;如果發現一些部件的異常狀況,比如硬盤快要出現故障,可以提前主動進行干預,提高系統的可用性。通過 Cloud IQ 軟件工具,用戶系統管理員可以在云端和任何位置,足不出戶即可獲知每一臺服務器設備的狀況,并提前對未來可能產生的故障進行預判,從而從枯燥且繁重的日常監控工作中解脫出來。系統安全PowerEdge 15G 服務器,在產品設計開發階段,就對處理器等部件細節確認其安全性,對服務器產品相關供應鏈進行嚴格審驗,對制造過程確保符合各項安全規范,直到產品出
57、貨運送到用戶現場,對所有包裝進行密封、防篡改設計保護,避免服務器產品從設計、制造、運輸各個環節外部安全風險問題,用戶拆箱即可安全使用。22在服務器運行過程中,PowerEdge 15G 服務器會進行機箱入侵、移動等物理性改變偵測,確保不會被外力篡改;配合自動化 SSL/TLS 憑證管理,快速檢測運行時防護不足項目及 BIOS 即時掃描異常存取行為;并通過簡化二次認證保護確保登錄安全。IT 管理員可以通過稽核日志與安全警示,快速確認是否遭到攻擊,通過系統鎖定、安全抹除、快速操作系統復原,避免外部攻擊造成更大影響和損失?!凹捶铡斌w驗戴爾科技推出了“按需計費”的計劃,用戶可以將數據中心計算、存儲及
58、其他解決方案的交付,轉換為按需付費模式,并提供一致性的“即服務”體驗。用戶可以將服務器的購買,從硬件資產的投資轉變為運營成本的付費模式。用戶可以對自己的計算力需求進行評估,依據評估結果從戴爾購買相應的計算服務。未來隨著業務規模的擴大,用戶只需要選擇相應的升級服務,而不需要再次購買額外的計算服務器進行系統擴容。戴爾科技PowerEdge 15G GPU加速服務器,繼承了戴爾第15代服務器在計算加速、智能運維、系統安全等領域的功能設計,同時針對 GPU 的功耗、散熱、啟動風暴、散熱等技術問題,進行專門的調試與系統優化,以保障 GPU 運行的性能和可靠性。圖 14:戴爾科技 PowerEdge GP
59、U 加速服務器產品家族23在戴爾科技 PowerEdge 15G GPU 服務器產品中,包含專業針對 GPU 計算優化型服務器,以及在標準服務器上提供對 GPU 的支持。GPU 計算專業優化型服務器:PowerEdge XE8545:采用 AMD Milan 處理器架構,支持 4 塊 NVIDIA A100 SXM4 80GB/40GB GPU 卡通過最新的 NVLink 3.0 高速通道實現 600GB/s 的點對點互聯。PowerEdge R750 xa:采用Intel Ice Lake處理器架構與PCI-E 4.0總線,支持4塊雙寬GPU加速卡。PowerEdge XR12與XR11:針
60、對邊緣計算設計的優化型服務器,在機箱深度、高溫、低溫、海拔、抗震、防塵等環境有更強的適應能力。標準服務器支持 GPU 加速:PowerEdge R750/R650/T550:采用 Intel Ice Lake 處理器架構,提供對 GPU 的支持。PowerEdge R7525/R6525/R7515/R6515:采用AMD Milan處理器架構,提供對GPU的支持。在 PowerEdge 15G GPU 服務器上,提供對 NVIDIA、AMD、Intel GPU 卡的廣泛支持,其中支持的 GPU 型號代表包括:NVIDIA A100 NVIDIA A40 NVIDIA A30 NVIDIA A
61、16 NVIDIA A10 NVIDIA T4 NVIDIA A2 NVIDIA H100(即將上市)AMD MI210 Intel ATS-M(即將上市)24PowerEdge XE8545 GPU 加速服務器Dell PowerEdge XE8545,4U 機箱空間支持 4 塊 NVIDIA A100 SXM4 80GB/40GB GPU 加速卡,通過 NVLink 總線實現雙向 600GB/s Pear-to-Pear 全互聯。XE8545 架構設計簡潔且高效,CPU、GPU、IO 之間盡量直連,充分保障數據通信及 IO 傳輸性能。XE8545 提供強勁的本地存儲IO 性能,支持 10
62、塊 2.5 寸 SAS/SATA 硬盤,支持 8 塊 NVMe SSD 硬盤。使用 XE8545 單機 4 卡訓練 ResNet-50 圖像分類模型,計算性能為上一代 4 卡 V100 NVLink GPU 服務器的 2.3 倍。對比其他使用更復雜交換結構的 GPU 服務器,同樣使用四卡 A100 進行模型訓練,性能提升 8%-15%16。在 MLPerf AI 訓練計算性能基準測試 MLPerf Training v1.1 中,PowerEdge XE8545 在所有提交結果的 4 卡 GPU 加速服務器中,取得了 8 個 AI 賽道中的 4 個賽道的性能冠軍。圖 15:PowerEdge
63、XE8545 外觀及內部架構圖25PowerEdge R750 xa GPU 加速服務器PowerEdge R750 xa,是一款 2U 空間支持 4 張雙寬 GPU 的加速服務器,可耐受高達 35環境溫度使用空氣進行冷卻。PowerEdge R750 xa 內部 CPU 與 GPU 之間的通信采用 PCIe 4.0 技術,同時提供 NVLink Bridge 加速通信技術,支持 A100/A40/A30 GPU 通過 NVLink Bridge 實現兩塊GPU 之間的雙向高度通信。R750 xa 支持更豐富的 GPU 選型,如 NVIDIA A100/A40/A30/A10/T4/A2 等。
64、R750 xa 支持多達 8 個 SAS/SATA 固態硬盤或 NVMe SSD 硬盤。針對高性能 NVMe SSD 存儲,PowerEdge R750 xa 提供 NVMe 硬件 RAID 卡保護機制;同 NVMe 軟 RAID 技術相比,硬件 RAID卡可以提供更高的 IO 性能與更完善的數據保護。圖 16:PowerEdge XE8545 ResNet-50 圖像分類模型性能測試圖 17:PowerEdge R750 xa 外觀圖26PowerEdge DSS8440 GPU 加速服務器DSS8440 是一款高密度 GPU 服務器,它可以在 4U 空間內最多支持 10 塊 NVIDIA
65、雙寬 GPU(如A100 GPU)或者 16 塊單寬 GPU(如 T4 GPU)。DSS8440 服務器內部設計,CPU 與 GPU 之間通過 PCIe 交換機實現互聯與通信。DSS8440 具備更強的環境適應性,在 35環境中支持高達 205W的 CPU 加速器。DSS8440 提供多達 10 個本地存儲硬盤(NVMe SSD 與 SAS/SATA 硬盤),加速訪問訓練數據。圖 18:PowerEdge DSS8440 外觀圖圖 19:PowerEdge DSS8440 10 卡 GPU AI 模型訓練基準測試同市場上常見的單機 8GPU 服務器相比,DSS8440 單機可以提供 10 塊如
66、 NVIDIA A100/V100/A30/A40 雙寬 GPU 的支持,單機 GPU 計算密度可以提升 25%。戴爾科技之前的測試顯示:在PowerEdge DSS8440 單機部署 10 張 NVIDIA V100 GPU,在 TensorFlow/Pytorch/MXNet 主流深度學習框架下,訓練 ResNet-50/GoogLeNet/Inception 等圖像分類模型,如下圖所示,10 卡 GPU仍然保持比較良好的計算加速效果17。27戴爾科技 PowerEdge 15G 服務器針對 AI GPU 計算的優化設計:高效率服務器電源與功率增強設計PowerEdge 第 15 代服務器
67、針對 GPU 的供電和散熱提供更多的優化設計。我們之前的觀察顯示:GPU 在啟動過程中會出現“啟動風暴”的現象,即 GPU 在服務器開機過程的毫秒級瞬間,實際功率會超過 GPU 卡標稱的額定最高功率。Dell PowerEdge 15G GPU 服務器配備的高效率服務器電源,單塊服務器標定功率達到 2400W,滿足如 GPU 高功率部件的供電需求。PowerEdge 15G GPU 服務器支持 2毫秒時間 140%-170%電源峰值功率供電,有效應對 GPU 的“啟動風暴”。采用“T 型”主板和分離式電源設計采用“T型”主板和分離式電源設計,電源對稱排列在機箱的兩側,改善空氣流通,散熱效率更高
68、。采用 T 型主板,眾多元器件的背板走線可以采用 45 度而規避 90 度的大彎曲,從電器性的角度信號傳輸更加穩定,可以讓處理器、內存等部件的性能發揮到最高,服務器熱區分布更加均勻。多矢量散熱設計企業級 GPU 是高功耗的硬件部件;如 NVIDIA A100 GPU 加速卡,A100 PCIe GPU 單卡最大功耗 250W,支持 NVLink 的 A100 SXM GPU 單卡最大功耗 400-500W。第 15 代 PowerEdge GPU服務器采用全新的高性能風扇設計,提供新型高性能 GPU 冷卻所需要的增強散熱性能。增強的風道優化散熱設計,確保服務器各個部件更加均衡的獲得冷卻風。第
69、15 代 PowerEdge 服務器采用多矢量冷卻風道 2.0 設計,支持根據各個部件不同的功耗情況,動態調整冷卻風的強度。內置的智能熱算法在保持組件可靠性的同時,最大程度降低風扇和系統功耗,保持全面增強氣流,支持用戶通過iDRAC 帶外管理 GUI 進行管理的自定義冷卻選項(溫度限制、風扇速度限制、聲學等級)。同時,PowerEdge 服務器可以實現實時傳感器數據集成到戴爾科技 OME 服務器軟件管理平臺和電源管理器插件中,以跟蹤和控制機架和數據中心級別的空氣流量,動態分析與預防服務器電源及散熱引起的故障,準確計算 GPU 服務器和數據中心能耗和改進建議。通過 Dell OpenManage
70、 Enterprise Power Manager 軟件,戴爾科技提供了對 PowerEdge GPU 服務器電源功耗管理的能力。OpenManage Enterprise Power Manager 軟件可讓用戶查看、測量和控制服務器功耗,并提高 AI 基礎架構的性能。高效率的 CPU、GPU 與存儲之間的互聯通信第 15 代 PowerEdge GPU 服務器采用最新的第 3 代 CPU 系列 Intel(Ice Lake)和 AMD(Milan),支持更高速的內存 3200 MT/s,以及新一代 PCIe 4.0 通道(64GB/s 雙向通信帶寬),確保 CPU 與 GPU、IO 存儲、
71、網卡之間的高速通訊。PowerEdge XE8545 服務器主板集成 NVLink 3.0 GPU 通信技術,可以28實現 A100 GPU 600GB/s 雙向 Pear-to-Pear 點對點直連通信,而不需要通過交換機中轉。PowerEdge R750 xa 服務器支持 NVLink Bridge 技術,可以實現如 A100、A30、A40 GPU 通過 NVLink 總線實現兩塊 GPU 之間雙向高速通信。戴爾科技 15G GPU 服務器,支持面向 GPU 的多機網絡通訊優化技術 GPU Direct RDMA(GDR)與存儲優化技術 GPU Direct Storage(GDS)。在
72、構建 AI GPU 分布式訓練集群時,可以提供滿足大模型訓練計算的 GPU 通信與存儲 IO 性能。支持 SNAP-IO 技術,單張 IB 網卡可以同時連接兩顆 GPU的 NUMA 域,提供更好 IB 容錯性。針對 AI 邊緣計算的硬件優化PowerEdge XR12(2U 高度)與 XR11 服務器(1U 高度)是 Dell 第 15 代 PowerEdge 服務器家族中,面向邊緣計算的優化型服務器。PowerEdge XR12 與 XR11 采用 16 英寸(400mm)緊湊型設計,它的機箱深度只有標準的 1U 或 2U 機架型服務器的 50%。PowerEdge XR12 與 XR11
73、已經通過電信(3 級 NEBS)與船舶等行業標準,滿足高溫、低溫、防塵、抗震、高海拔等苛刻運行環境。PowerEdge XR12 與 XR11 提供對 GPU 的支持,XR12 可以支持 2 塊雙寬 GPU 或 3 塊單寬 GPU,XR11 支持 2 塊單寬 GPU;適用于工業、電信、零售、交通等智能邊緣 AI 計算場景。PowerEdge XR12 與 XR11 服務器能夠全面容忍惡劣環境,支持電信機房級別的定制化 IO/驅動器的前/后端彈性部署、支持反向氣流設置、防塵/防潮/抗震等高韌性功能。有了 AI 增持的邊緣計算,制造業用戶可以在工廠邊緣進行產品質檢與生產數據分析,超市可以用于商品稱
74、重、商品識別與智能結算與消費者購物行為分析,交通部門可以針對道路通行狀況進行實時監測與預測,對交通擁堵進行疏導。戴爾科技面向 AI 邊緣計算的 Edge in a Box 解決方案,提供從電力,到制冷與算力的一體化交付。圖 20:戴爾科技 AI 邊緣計算 Edge-in-a-Box 解決方案29圖 21:2021 年全球 Top500 HPC 戴爾科技 AI 實驗室排名戴爾科技 AI GPU 分布式訓練性能驗證6戴爾科技結合硬件架構優化+軟件機制優化,在 AI GPU 分布式訓練集群解決方案設計及性能優化,已經進行了多年的研究與驗證,并為用戶提供 AI Ready solution 就緒解決方
75、案和整體參考架構。戴爾科技集團 AI&HPC 創新實驗室部署有大型 GPU 超算集群,可以實現從小規模驗證到幾十臺GPU 服務器的大型分布式訓練集群的效能測試。戴爾科技 AI&HPC 創新實驗室的 GPU 超算集群,在 2021 年全球 HPC Top500 排名中,排名第 233 位。在戴爾科技 AI 創新實驗室中,我們除了完善自身的 AI 就緒解決方案的研究與驗證外,也對外開放 GPU 算力資源,供全球 AI 用戶針對自身的算法模型和軟件開發工具進行量身定制的計算效能驗證。Source:https:/www.top500.org/lists/top500/2021/11/30圖 22-1:
76、MLPerf Training v2.0 XE8545 ResNet-50 分布式訓練基準測試MLPerf 是由全球非營利性社區 MLCommons 組織的,是目前全球參與度最高的 AI 計算性能基準測試之一。MLPerf 于 2022 年 6 月 29 日最新發榜的 MLPerf Training v2.0 AI 訓練基準測試,共計有 21 家企業提供了超過 250 項測試結果;MLPerf Training v2.0 整體 AI 計算性能結果為上一輪MLPerf Training v1.1 榜單的 1.8 倍33。戴爾科技在 ResNet-50 圖像分類、Mask R-CNN 目標檢測和B
77、ERT自然語言處理三個賽道分別提交了基于PowerEdge GPU服務器的分布式訓練的效能數據,通過 GPU 分布式訓練大幅度提升了 AI 模型的訓練速度。在 ResNet-50 圖像分類模型訓練,使用由 32 臺戴爾科技 PowerEdge XE8545 服務器組建的 GPU 加速集群,每臺服務器配置 4 塊 A100 SXM4 40GB GPU 加速卡,GPU 集群通信網絡使用200Gb HDR。使用兩臺服務器 8 卡 A100 GPU、四臺服務器 16 卡 A100 GPU 和 8 臺服務器 32 卡A100 GPU,與單機 4 卡 A100 GPU 相比,ResNet-50 模型訓練速
78、度分別提升為 1.86 倍、3.64 倍和6.36 倍。使用 128 塊 A100 進行分布式訓練,3.26 分鐘即可完成模型訓練。同樣的賽道,單機高密度 GPU 服務器的最高記錄為 18.706 分鐘(單機配置了 16 塊 A100 GPU)。312021 年 6 月發布的 MLPerf Training v1.0 基準測試中,戴爾科技提交了 PowerEdge XE8545與 DSS8440 針對 ResNet-50 圖像分類模型的 GPU 分布式訓練的效能數據。2 臺 Dell PowerEdge XE8545,每臺配置 4 張 A100 SXM 40GB GPU 進行分布式訓練,雙機
79、8 卡訓練 ResNet-50 圖像分類模型速度是單臺 XE8545 四卡訓練的 1.83 倍。2 臺 Dell PowerEdge DSS8440,每臺配置 8 張A100 PCIe 40GB GPU 進行分布式訓練,雙機 16 卡的訓練速度是單機 8 卡 A100 的 1.71 倍18。圖 22-2:MLPerf Training v2.0 XE8545 Mask R-CNN 分布式訓練基準測試在 MLPerf Training v2.0 的 Mask R-CNN 目標檢測賽道,基于 PowerEdge XE8545 的 GPU 計算集群,雙機 8 卡、四機 16 卡與八臺服務器 32 卡
80、 A100 GPU 分布式訓練,對比單機 4 卡 A100,Mask R-CNN 模型訓練速度分別提升為接近 2 倍、3.56 倍和 5.8 倍。使用 128 張 A100 進行分布式訓練,7.335 分鐘可完成 Mask R-CNN 模型訓練。同樣的賽道,單機高密度 GPU 服務器的最高記錄為 26.983 分鐘(單機配置了 16 塊 A100 GPU)。32圖 23-1:MLPerf Training v1.0 XE8545&DSS8440 ResNet-50 分布式訓練基準測試圖 23-2:R750 xa MLPerf Training v1.1 ResNet-50 分布式訓練基準測試2
81、021 年 12 月發布的 MLPerf Training v1.1 基準測試中,戴爾科技在 ResNet-50 圖像分類賽道中提交了基于 PowerEdge R750 xa 的 GPU 分布式訓練效能數據。部署 8 臺 PowerEdge R750 xa GPU 服務器,每臺配置 4 張 A100 PCIe 加速卡,通過 Infiniband 網絡組成 AI 計算集群,對 MLPerf ResNet-50 模型進行分布式訓練。使用 2 臺 R750 xa+8 卡 A100,與 4 臺 R750 xa+16 卡A100,同單臺 R750 xa+4 卡 A100 相比,分別取得了 1.96 倍和
82、 3.63 倍的計算性能加速比。33圖 24:PowerEdge XE8545 TensorFlow 框架下 GPU 分布式訓練效能測試2022 年初,戴爾科技完成的一項 GPU 分布式訓練項目驗證中,使用 6 臺 Dell PowerEdge XE8545 GPU 服務器,每臺配置 4 塊 NVIDIA A100 SXM GPU 加速卡,使用 Infiniband 構建 AI GPU計算集群,在 TensorFlow、Pytorch、MXNet 主流深度學習框架下,對經典圖像分類模型,包括ResNet-50、ResNet-101,Inceptionv3、Inceptionv4、GoogLeN
83、et 等模型的 GPU 分布式訓練性能進行驗證,同樣實現了良好的計算性能的加速效果。在 TensorFlow 框架下,6 臺 PowerEdge XE8545 配置 24 張 A100 GPU 加速卡,進行 GPU 分布式訓練,針對上述五個圖像分類模型,如下圖所示,分別實現了 88%-96%的線性加速比19。34更早期完成的一項測試中,戴爾科技在 PowerEdge C4140 GPU 服務器計算集群中,使用 8 臺PowerEdge C4140 與 32 張 NVIDIA V100 SXM2 GPU 構建的 GPU 計算集群,使用 ResNet-50 訓練ImageNet 數據集圖像分類,在
84、 MXNet 和 Caffe2 深度學習框架下分別實現了單塊 V100 GPU 相比29.4 倍和 26.5 倍的性能加速比20。戴爾科技持續將更多 AI/Deep Learning 領域的研究成果、測試數據,以及技術白皮書,定期發布到戴爾科技集團的技術博客論壇,供客戶和合作伙伴查閱和參考:https:/ 25:32 卡 V100 分布式訓練性能測試35構建應用透明的 GPU 分布式訓練集群實踐7上一章節已為您闡述在構建 AI 分布式訓練集群的一些實踐經驗,但是對于很多 AI 用戶來講,仍然面臨一個挑戰:如何能夠實現對應用透明的 GPU 分布式訓練?對于很多數據科學家和算法工程師,日常工作主要
85、聚焦在應用場景和算法優化設計上,HPC/MPI/GPU 這些并行計算技能并不是工作的主要關注點。即使是使用已有的優化庫,仍然需要進行一系列代碼層面的配置優化。以 Horovod為例,在TensorFlow框架基于Horovod進行GPU分布式訓練,通常需要完成的配置操作步驟包括:1)庫初始化2)配置需要使用的 GPU3)增加分布式優化器4)初始狀態同步5)配置保留檢查點在國內,戴爾科技集團與 AI+HPC 平臺解決方案合作伙伴凌云仿真進行合作,將戴爾科技 AI 基礎設施硬件與凌云仿真 AI 平臺軟件,整合為軟硬件一體化的解決方案,在用戶現有的TensorFlow、PyTorch、Mxnet 這
86、些主流深度學習框架下,基于 NVIDIA NGC 主流分布訓練腳本,不需要手工修改 Python 代碼,能夠通過商業軟件圖形化工具及定制的容器提交 AI 計算作業,簡便地完成超參數配置,可以在后臺自動化完成分布式配置調整和性能優化,實現 GPU 集群訓練加速的功能。凌云仿真是國內聚焦在 AI 及高性能計算加速平臺的 AI 初創公司,創始團隊在高性能計算領域有著 20 多年的從業經驗,在并行計算、GPU 加速等領域有著豐富的技術積累。通過 Web 圖形化界面,可以在 TensorFlow、PyTorch、Mxnet 等主流框架下適配各類python 腳本和其他 GPU/CPU 作業提交及批量提交
87、,如 ResNet-50/152、VGG-16/19、Inception等常用 AI 模型。針對 AI 訓練作業用戶可以方便的配置模型超參數、靈活的自定義;AI 作業監控界面支持按使用者、任務狀態、時間進行交叉過濾顯示;用戶可以根據授權進行開始、終止、刪除、下載權重文件,查詢作業狀態與進程。作業提交采用智能化模板,不需要預先限定資源分配規則,可以根據 CPU/內存/GPU 等資源實際需要靈活地提交申請,更加靈活地實現資源的申請與調配。36圖 26:訓練作業提交管理界面圖分布式訓練的優化機制,如 GPU Direct RDMA、NCCL、以及 MPI 定制化,已經通過系統集成的 AI 容器鏡像進
88、行預配置。作業提交后,平臺軟件將自動完成分布式及性能優化的配置,并通過調度軟件自動調度分配申請數量的 GPU 算力,這些 GPU 算力可以是來自于不同的物理 GPU 服務器。訓練結束后,GPU 算力可以動態回收。在 戴 爾 科 技 AI&HPC 創 新 實 驗 室,使 用 16 張 NVIDIA V100 GPU(來 自 4 臺 戴 爾 科 技 PowerEdge C4140 服務器,GPU 通信使用 NVLink 2.0 總線)構建的加速集群,使用 100Gb EDR連接各 GPU 服務器,在 TensorFlow 框架下進行 ResNet-50、VGG-16、Inceptionv3、Ale
89、xNet等常見圖像分類模型訓練,對比 1 臺/2 臺/4 臺 GPU 服務器加速比,以及開啟和關閉 GPU Direct RDMA,不同優化庫(如 NCCLv2 與 Horovod)性能對比測試。實測數據顯示:開啟 GPU Direct RDMA,GPU 分布式訓練性能有著明顯的提升。通過硬件優化(計算、網絡、存儲層面)以及 GPU參數同步通信機制優化,16 卡 GPU 分布式訓練可以實現 81%-95%+的線性加速比,滿足工業 AI應用的加速需求21。37圖 27:GPU 分布式訓練加速性能基準測試作業監控管理儀表盤,提供對正在訓練作業的進度和重點指標的實時監控和日志輸出。38圖 28:訓練
90、任務圖形化展示及集成 TensorBoard 示意圖圖 29:文件存儲與數據管理界面示意圖在訓練文件存儲及數據管理層面,系統支持對全局共享目錄和個人家目錄進行目錄管理,個人目錄中的任務空間用于存放訓練結果文件。通過集中存儲管理用戶數據,按用戶權限分配存儲配額??梢灾苯油ㄟ^方便的拖放操作定義一個文件為計算輸入文件,支持在線的文件查看瀏覽。39通過戴爾科技與凌云仿真聯合設計、驗證及集成的AI GPU集群解決方案,可以幫助數據科學家與 AI 平臺工程師實現:1)應用透明的 GPU 分布式訓練,容器的部署、配置優化由軟件后臺完成。2)針對 TensorFlow、Pytorch、Mxnet 主流框架的分
91、布訓練腳本,進行多機 MPI 優化,提供 比參數服務器模式更好的性能加速比。3)通過圖形化界面,更加簡便地完成作業提交、參數配置與訓練監控。支持與 Jupyter、TensorBoard 的集成。4)提供了 GPU 資源池自動化的調度分配,實現 7*24 小時連續運行,有效提高硬件的利用率。大規模深度學習集群存儲優化實踐8當您耗費了巨額成本搭建了 GPU 計算集群,肯定不希望在 AI 訓練過程中出現存儲“IO 墻”,即由于存儲性能瓶頸拖累了整體 AI 流程,尤其是大規模 GPU 分布式訓練場景下。一旦出現存儲性能瓶頸,對 AI 業務將會帶來很多不良影響,諸如:更長的 AI 模型開發周期 GPU
92、 處于“饑餓”狀態,難以充分發揮 GPU 的計算性能 數據采樣的范圍和精度影響最終分析準確性 難以擴展到大規模生產環境很多實際應用過程中,我們發現在GPU算力上投入了巨大資金,但是GPU等待的現象依然存在,原因就在于忽視了數據存儲方面的瓶頸所導致?,F實情況是,最好的 AI 解決方案一定是計算和存儲的良好結合。如今眾多的 AI 熱門應用,包括人臉識別、自然語言處理、自動駕駛汽車等項目,每天都在使用巨量的訓練數據進行模型訓練,而這些數據往往是大量的非結構化數據(如圖像、視頻、語音、文本等)。40與傳統的結構化數據不同,非結構化數據結構不規則或不完整,缺乏預定義的數據模型,格式多種多樣,經常呈現出雜
93、亂無章的特點。并且,AI 應用的特點和需求與通用工作負載有很大的不同,這也決定了服務于 AI 的存儲系統需要具備一下的能力:可擴展性工業級的 AI 系統需要大型數據集進行算法訓練,處理數據量越多,AI 模型就能不斷迭代升級。例如:微軟需要五年的連續語音數據來進行語音模型開發和訓練;特斯拉正在用 13 億英里的駕駛數據開發智能駕駛系統22。管理如此龐大規模的數據集,需要極具擴展能力的數據存儲系統??稍L問性AI 訓練通常以隨機讀取的方式,從存儲系統中讀取和重讀整個訓練集,這意味著數據必須可以持續訪問,并且不能使用僅提供順序讀取方法的歸檔存儲系統如磁帶。低延遲數據將會被多次讀取和重讀,數據延遲對于
94、AI 模型訓練總時長非常關鍵。減少延遲,可以將 AI模型訓練的時間節省幾天到幾個月的時間。滿足高帶寬和并發需求AI 訓練過程中使用大量的數據,通常以每小時 TB 級別為單位。對于很多存儲系統,提供這種水平的隨機訪問性能是非常具有挑戰性。同時,為了實現高吞吐量,AI 模型訓練會拆分為多個并行任務,這意味 AI 算法將同時從多個進程訪問同一個文件。因此,存儲系統必須能夠在不影響存儲性能的前提下應對高并發的要求。41在應對非結構化數據存儲挑戰的方向上,戴爾科技集團已經連續 6 年,在 Gartner 分布式文件系統和對象存儲領域處于領導者象限。戴爾科技通過 PowerScale 非結構化數據存儲系統
95、,有效滿足 AI 數據存儲性能和容量的擴展性要求,輕松幫助您實現 PB 級別 AI 數據存儲池建設和運營。戴爾科技 PowerScale/Isilon 存儲解決方案,擁有 20 多年的研發歷史,全球累計交付用戶超過17000 家,23EB 存儲裸容量。PowerScale/Isilon 提供包括高性能全閃存存儲節點、混合存儲節點、大容量存儲節點等不同存儲硬件選型,為 AI 用戶提供高性能、靈活性、可大規模擴展,提供企業級可用性和可管理性的 AI 存儲解決方案。圖 30:戴爾科技 PowerScale 存儲系統圖 31:戴爾科技 PowerScale/Isilon 存儲產品族42PowerSca
96、le 提供非常全面的文件訪問協議支持,包括 NFS、SMB、HDFS、S3、REST 等,豐富的接口可以對接各種類型的業務,以及包括公有云、私有云、邊緣節點在內的各個數據源的數據。支持同時使用兩種或者多種協議訪問同一個文件數據。例如 AI 應用中,GPU 服務器可以通過 NFS協議讀取數據,進行深度學習模型訓練;同樣 Hadoop/Spark 集群也可以通過 HDFS 協議讀取同一份數據,進行傳統機器學習建模。PowerScale 內置自動分層存儲技術,可以根據數據訪問熱度動態在高性能存儲與海量低成本存儲介質中進行數據移動。部署 PowerScale 存儲,可以通過 Scale-out 橫向擴
97、展存儲硬件節點,實現容量和性能的同步擴展,實現數十 PB 級別的存儲池擴充。圖 32:戴爾科技 PowerScale 存儲協議支持戴爾科技 PowerScale 提供的 OneFS 文件系統,采用橫向擴展的存儲架構,已經得到業界持續驗證,為用戶提供開箱即用的企業數據管理和治理功能。用戶能夠集中管理企業存儲流程,包括數據管理、性能管理、數據保護和數據安全。通過 PowerScale 內置的 DataIQ 數據管理工具,用戶可以輕松地在文件和對象存儲平臺上查找和了解數據。針 對 大 規 模 GPU 分 布 式 訓 練 集 群,需 要 幾 百 萬 IOPS 的 Tier 1 級 別 的 存 儲 性
98、能 時,PowerScale 全閃存存儲方案,可以提供高性能的帶寬和 IO 性能保障。PowerScale F900 是戴爾科技推出的高性能 PowerScale 全閃存存儲節點,單個節點提供 46TB 到 369TB 的全 NVMe 存儲,并兼容 NVIDIA GPU Direct Storage(GDS),全力支持用戶處理最數據密集型的 AI 工作負載。戴爾科技 PowerScale 存儲家族提供的其他全閃存節點包括 F600、F200,以及上一代的 F800 與 F810。43圖 33:PowerScale 全閃存存儲產品圖 34:PowerScale/Isilon AI 模型訓練基準測
99、試在早些時間完成的一項 AI 集群測試中,使用 72 張 V100 構建的 GPU 加速集群,使用如ResNet-50/152、Inception-v3、VGG-16 進行 ImageNet 數據集的圖像分類訓練。訓練數據集存儲在戴爾 Isilon F800。F800 是戴爾科技 PowerScale/Isilon 產品家族中一款全閃存存儲節點,在單一4U機箱內提供15GB/s帶寬和250K IOPS的性能體驗?;贗silon F800作為GPU集群后端存儲,實現了很好的 GPU 性能加速。如下圖所示,與訓練數據集部署在 GPU 服務器本地 SSD 硬盤相比,AI 模型訓練計算性能差異只有
100、2%-5%23,基本實現共享存儲性能無瓶頸。44通過在 AI 計算集群中部署 PowerScale 存儲系統,可以為用戶帶來的實際價值:滿足超大規模 AI 計算集群的海量存儲空間PowerScale存儲系統,通過Scale-out橫向擴展的硬件架構,以及性能強勁的OneFS文件系統,可以支持超大規模集群部署。OneFS 支持的單一集群規??梢赃_到 252 個節點,超過 90PB 存儲裸容量。滿足最嚴苛 AI 計算負載的存儲 IO 與帶寬性能要求PowerScale 單一集群可以提供 1580 萬 IOPS 與 1500GB/s 的帶寬性能,無論是小文件 IO 性能還是大文件的吞吐帶寬,都可以通
101、過 PowerScale 存儲系統來實現保障。采用分布式橫向擴展,性能隨容量線性增長,實現容量和性能的同步擴充。企業級的數據安全特性PowerScale存儲系統,提供基于策略的數據保護、控制器負載均衡與故障切換、多租戶權限管理、文件快照、NDMP、遠程復制容災等多重內置軟件機制,滿足用戶嚴格的數據安全保障要求。PowerScale 面對威脅可以實施主動防護,包含實時勒索軟件保護、反病毒掃描、SmartLock支持第三方的安全憑據提供、高級審計日志分析和報告,以及用于快速文件回復的快照索引等先進功能。戴爾科技勒索軟件防護和智能 AirGap 防范網絡共計,保證數據網絡安全。即使有節點出現故障,也
102、能夠快速進行切換,確保 6 個 9 的高可用性。無中斷升級,系統更新換代無須遷移數據存儲雖然是硬件產品,但是其核心還是軟件,隨著新特性的加入,軟件就會面臨著升級的問題。PowerScale OneFS 操作系統支持在線滾動升級,升級過程中輪流重啟節點,對 AI 業務無任何影響;此外,PowerScale 還支持版本回退功能。對于 PowerScale 來說,硬件在線更新換代非常方便,無需要預先數據遷移和停機。只需要 3 步操作,大大減少了風險:1)擴展新節點到現有集群;2)集群內部遷移數據至新節點;3)退休老節點。45隨著 AI 應用的快速發展,GPU 制程工藝快速進步,GPU 計算速度越來越
103、快,AI 訓練數據集越來越大,AI 數據加載耗費的時間對 AI 應用 Pipeline 全流程的性能的影響和壓力也越來越大。以往數據從存儲硬盤到 GPU 顯存進行處理和計算的過程,一直是由 CPU 進行處理和控制。GPU Direct Storage(GDS)技術,是由 NVIDIA 提出的 GPU 直接存儲新技術,旨在實現 GPU 服務器本地或外置存儲(如 NVMe SSD 或 SAS SSD 硬盤)和 GPU 顯存之間實現直接數據路徑,避免了通過 CPU 內部中的反彈緩沖區的額外拷貝24。通過存儲直接訪問內存(DMA)技術,可以緩解CPU I/O處理瓶頸,減少對 CPU 負載的影響,同時為
104、 AI 系統提供更高的存儲帶寬和更低的 I/O 延遲,特別是單個連接和讀密集型應用。GPU Direct Storage(GDS),已經是 NVIDIA CUDA11.4 及更高版本的 CUDA 驅動程度和工具包的組成部分。PowerScale 通過對 NFS over RDMA 的支持,在不低于 25Gb/s 帶寬的存儲網絡上,在滿足網絡交換機和 GPU 服務器網卡支持 RDMA,提供對 GPU Direct Storage 技術的支持。用戶可以在PowerScale 管理軟件操作界面,開啟全局層面或針對單個存儲池 NFS over RDMA 的功能支持。圖 35:Enable NFSoRD
105、MA on PowerScale global settings46圖 36:Enable NFSoRDMA on PowerScale each network pool為驗證 GPU Direct Storage 的存儲性能,戴爾科技集團搭建了一個由 48 塊 GPU 加速卡和 48個 PowerScale 存儲節點組成的 AI GPU 計算集群。GPU 計算集群,有 10 臺 PowerEdge C4140(40 塊 V100 GPU,4 塊 V100 per node)與 2 臺 PowerEdge XE8545(8 塊 A100 GPU,4 塊A100 per node)組成,每臺
106、GPU 服務器通過 2 張 100Gb/s Mellanox CX-6 網卡接入集群網絡。PowerScale 存儲集群,由 48 節點 PowerScale F600 全閃存存儲節點組成。每個 PowerScale 存儲節點配置 2 個 100Gb/s 前端主機接口與 10 塊 1.92TB NVMe 存儲硬盤。AI 測試集群網絡拓撲如右圖所示:47圖 37:Dell PowerScale GPU Direct Storage(GDS)性能測試集群48使用 NVIDIA CUDA 11.4 集成的 GDS 基準性能測試數據 GDSIO 進行存儲性能測試,每個 GPU開啟 8 個線程,IO S
107、ize 512KB,File size 256GB 進行壓力測試。隨著 F600 存儲節點的橫向擴展(從1 個 F600 節點逐步添加到 48 個節點),PowerScale 存儲集群的順序讀帶寬、順序寫帶寬、隨機讀帶寬和隨機寫帶寬,隨著存儲節點數量的增加同步線性擴展。AI 訓練過程中存在訓練數據的持續和反復的快速讀取,存儲讀性能非常關鍵。在 PowerScale存儲性能測試中,順序讀帶寬和隨機讀帶寬性能隨著節點數量增加而增長。順序讀帶寬最高可達到235GB/s,隨機讀帶寬 187GB/s;而文件讀取的延遲指標,始終保持穩定,并沒有因為集群規模和帶寬的擴展而增大 AI 數據文件的讀取延遲25。
108、圖 38:PowerScale GDS 存儲性能基準測試圖 39:PowerScale F600 GDS 存儲順序讀性能測試存儲順序讀性能指標上,48 個PowerScale F600 節 點,GPU 集群存儲帶寬 235GB/s,分別為 16個 F600 節點和 32 個 F600 節點時的 2.98 倍和 1.49 倍。從實際測試數據可以看到,隨著 PowerScale存儲節點數量的橫向增加,存儲帶寬性能可以呈現幾乎線性增長。49AI GPU 計算集群網絡通信方案9在 AI GPU 分布式訓練場景,無論是采用數據并行還是模型并行,大量原先在 GPU 內部進行的數據交換,改變為需要在 GPU
109、 之間進行數據交換。很多場景下,GPU 分布式訓練的實際計算效率,更受限于網絡通訊與存儲 IO 的效率,而非計算。在一些自然語言處理、機器視覺的分布式訓練場景,通信在計算總時長的占比已經超過 50%或更高26,大量的時間耗費在網絡通信而非 GPU 實際計算。模型并行,對網絡通訊的性能的需求,比數據并行還要高。因而,在 AI GPU 分布式訓練集群中,高性能的網絡基礎設施解決方案必不可少。我們認為:構建 AI GPU 分布式訓練的網絡通信解決方案,應該具備和滿足以下特性:高帶寬、低延遲的網絡硬件基礎設施執行 GPU 跨物理節點通信與參數同步的集群計算網絡,是對網絡基礎設施硬件性能要求最高的網絡。
110、源自 Mellanox 的 NVIDIA QUANTUM 系列 Infiniband 交換機,原生支持 RDMA,具備優秀的高帶寬和低延遲傳輸的網路特性,與 GPU 軟件生態有非常好的兼容性,通過 GPU Direct RDMA技術可以大幅縮短分布式訓練中 GPU 參數同步的傳輸時延。QUANTUM 200Gb/s HDR 網絡組網方案成熟可靠,在 AI 與 HPC 集群網絡中被廣泛采用。小型 AI GPU 集群網絡,也可以部署 100Gb/s EDR交換網絡或者在100Gb/s以太交換網絡使用支持IBoIP的ROCE技術。2022年全球GTC大會上,NVIDIA 已經發布 QUANTUM 4
111、00Gb/s NDR Infiniband 交換機,同時發布了將 NVSwitch NVLink交換技術從 GPU 服務器內部通信擴展到 GPU 集群外部通信的市場計劃??紤]到 NVLink 高帶寬的特性(支持 A100 GPU 的 NVLink 3.0 技術提供 600GB/s 的帶寬性能,是 NDR 帶寬性能的 15 倍)。未來 NVSwitch 外部交換技術的商業應用,預計對于需要超高帶寬性能的模型并行、流水并行等分布式訓練技術,將會帶來更大的訓練性能的提升。網絡規劃,我們建議 GPU 計算通信網絡、GPU 服務器存儲通信網絡、GPU 服務器管理網絡、GPU 服務器與數據中心其他設備的通
112、信網絡分開部署,有利于不同通信流量的隔離,不會因為 AI 訓練過程中 GPU 海量參數的快速同步帶來的網絡壓力影響到存儲數據、管理流量以及其他外部通信的通訊和性能抖動,同時也是提高集群網絡系統的整體可管理性??蚣苘浖用?GPU 通信機制優化在同等的網絡設施硬件下,通過對 GPU 通信與參數同步機制的軟件優化,實現更高效率的GPU 通信拓撲與同步機制,以縮短通信時長和整體訓練時間。如在 TensorFlow 框架下,通過50Ring AllReduce 機制進行梯度同步和參數更新,取代 TensorFlow 自帶的參數服務器(Parameter Server)機制,避免參數服務器因為 GPU
113、集群規模擴展、流量過大而成為性能瓶頸。開啟 GPU Direct RDMA,GPU 服務器可以直接讀取另外一臺物理服務器的 GPU 卡顯存,可以大幅縮短 GPU 通訊延遲,降低 CPU 資源的消耗。同樣,GPU Direct Storage 技術的應用,訓練數據加載過程中實現從本地或集群存儲中直接讀取數據到 GPU 的顯存進行預處理和計算(NVIDIA DALI 庫提供對 GPU Direct RDMA 的支持),來縮短數據加載和端到端訓練過程的總時長。網絡通信系統的可管理性在網絡方案設計中,除滿足網絡通信性能要求,我們也應當兼顧網絡的開放性、可管理性、性價比等方面的考慮。下圖是戴爾科技設計的
114、一套 32 臺 4 卡 GPU 加速服務器集群與 128 張 A100 GPU 分布式訓練集群的網絡參考架構。GPU 服務器硬件基于 Dell PowerEdge XE8545 或 R750 xa,它們是 4 卡 GPU機架式服務器。圖 40:128 卡 AI GPU 計算集群的網絡參考架構51圖 41:Dell PowerEdge C4140 GPU 服務器 PCIe 拓撲示例我們設計的網絡方案中包含 4 組網絡,分別為 GPU 集群計算網絡、集群存儲網絡、集群上行業務網絡與集群帶外管理網絡。GPU 集群計算網絡主要用于 GPU 集群間的計算通信和帶內管理,流量需求最大的是多機分布式訓練過程
115、中的GPU 參數同步。這里我們推薦使用 NVIDIA 200Gb/s HDR Infiniband 進行網絡通訊,網絡交換機建議型號為 NVIDIA QUANTUM 8700 或 8790 交換機。QUANTUM 8700/8790 交換機,在 1U 機架式空間內提供 40 個 200Gb/s HDR 接口和 16Tb/s 的交換性能;8790 交換機可以提供更完善管理功能。使用6臺8700/8790交換機,組成一個Spine-Leaf網絡,實現200Gb無阻塞IB通信。4臺Leaf(葉子節點)用于 GPU 服務器的 Infiniband 網絡接入,2 臺 Spine(脊柱節點)用于實現 Le
116、af 節點的 1:1無損。通過橫向擴展 Spine 節點與 Leaf 節點,可以實現更大規模的 GPU 計算集群的無阻塞通信??紤]到 GPU 服務器內部拓撲,我們建議雙 CPU 配置的 GPU 服務器,每臺配置 2 塊網卡,每個 CPU 下至少有一張網卡與 CPU 連接的 GPU 可以在服務器內部直接通信,不建議跨越 CPU 的NUMA 域及通過 CPU 之間連接的 QPI 總線進行 GPU 之間的通訊。如果是 CPU-GPU 之間采用 PCIe switch 架構的 GPU 服務器,可以考慮網卡的數量與 PCIe switch 的數量對應。下圖以 Dell 14G 服務器家族一款 GPU 優
117、化型服務器 PowerEdge C4140(1U 機架式空間支持4 塊 GPU 通過 NVLink 或者 PCIe Switch 通信)為例,說明服務器內部的 GPU 拓撲。52GPU 分布式訓練過程中的 GPU 參數同步,存在大量的 AllReduce 集合通信操作。在實際多層網絡交換架構中,AllReduce 操作在網絡中采用分層迭代,NVIDIA 提出的網絡通信 SHARP 技術(分層聚合與歸約協議)。通過 SHARP 技術和 GPU 通信優化庫 NCCL 的結合,可以卸載和加速深度學習訓練的數據聚合操作27。GPU 集群存儲網絡推薦存儲網絡與集群計算網絡相分離為不同的物理網絡。一方面,
118、避免 GPU 海量參數同步影響到存儲的 IO 性能以及造成存儲性能的抖動;另外一方面,多數的存儲系統并非采用 IB 網絡作為主機連接。這里存儲網絡使用 100Gb 以太網絡,交換機選型為 Dell PowerSwitch Z9264F,實現GPU 服務器集群與 Dell PowerScale/Isilon 存儲系統的通信(PowerScale/Isilon 也提供其他主機接口的支持,如 25GbE)。PowerSwitch Z9264F 交換機,2U 機架式空間內提供 12.8Tbps 的交換容量,支持 64 個 100GbE 端口或 128 個 25GbE 端口或 64 個 50GbE 端口
119、。PowerSwitch Z9264F交換機支持 RoCE、GPU Direct RDMA 與 GPU Direct Storage,提供 500ns 級別的低延遲轉發。圖 42:戴爾科技 PowerSwitch Z9264F 交換機圖 43:戴爾科技 PowerSwitch S5248F 交換機如果是選用如 BeeGFS、Lustre 并行文件系統(可參考戴爾科技 HPC Ready Solution for BeeGFS&Lustre),可考慮存儲網絡選用 Infiniband。GPU 集群上行業務網絡主要用于 GPU 集群接入數據中心網絡,與數據中心其他服務器及業務系統進行網絡通訊與數據
120、傳輸,可以根據企業數據中心網絡現狀及傳輸帶寬要求,選擇相應的接入網絡方案,如萬兆、千兆、25Gb 或其他方案。在參考架構中,我們選擇 25Gb 網絡方案,交換機選型為 Dell PowerSwitch S5248F。PowerSwitch S5248F 交換機,單臺 1U 空間內可以提供 48 個 25GbE 端口 4 個 100GbE端口以及 2 個 2x100GbE 端口。53圖 44:戴爾科技 PowerSwitch N3248TE 交換機 GPU 集群帶外管理網絡主要用于集群 GPU 服務器的帶外管理網絡通信,Dell PowerEdge 服務器提供獨立的帶外管理網口端口 iDRAC。
121、網絡帶寬為千兆,交換機選型建議為 Dell PowerSwitch N3248TE。PowerSwitch N3248TE 在 1U 空間內可以提供 48 個 GE 端口和 4 個 10GbE 端口。戴爾科技擁有多年網絡產品研發的歷史和經驗,致力于為企業級用戶提供成熟、全面、開放的網絡解決方案。成熟性:戴爾科技可以為用戶提供完整的端到端 IT 基礎架構平臺,不但能夠幫助用戶節約部署成本,并且提供了一站式的服務,幫助用戶降低運維成本。戴爾網絡提供了計算、存儲、超融合(HCI)等場景下成熟穩定的網絡解決方案以及最佳實踐。全面性:戴爾科技提供了端到端的網絡解決方案,涵蓋數據中心,廣域網,園區網,能夠
122、幫助用戶實現數字化轉型。戴爾科技提供從 GE、10Gb、25Gb、40Gb、50Gb、100Gb 到 400Gb 完整的接口速率,以及從 12 端口、24 端口、48 端口到 96 端口的各種端口密度交換機,滿足了不同用戶對網絡的需求。開放性:戴爾科技始終倡導開放的網絡解決方案,通過開放的,基于標準的技術解耦來打破傳統網絡的基本結構,解決從超融合到超大規模的各種網絡問題。開放網絡幫助用戶根據實際的環境和需要選擇最適合的操作系統,這些操作系統包括 Dell OS10,Pluribus,SONiC 等。這些操作系統提供了從傳統網絡到軟件定義網絡的解決方案,解決了用戶所面臨的各種網絡問題。54戴爾科
123、技端到端 AI 基礎架構解決方案10戴爾科技集團基于在數據中心計算、存儲、網絡、數據保護產品領域,以及高性能計算(HPC)、大數據分析等解決方案領域 20 多年的技術積累,在 AI 計算領域可以為用戶提供端到端的 AI 基礎架構解決方案。戴爾科技 AI 解決方案用戶,涵蓋互聯網、教育、制造、交通、金融、零售、能源等眾多行業。用戶既可以包括整體設計經過預驗證及優化的 AI 就緒解決方案(AI Ready Solution),也可以根據需要靈活地選擇和配置相應的產品組件,如 AI 加速服務器(GPU/FPGA/IPU)、低延遲網絡交換機、高帶寬數據存儲系統、數據保護系統等。在 AI 平臺建設,戴爾
124、科技集團為用戶提供 GPU集群集中管理及作業調度、GPU 虛擬化、GPU 分布式訓練、AutoML 智能化機器學習平臺等軟件解決方案,幫助用戶實現 AI 計算資源池化及按需調配,降低 AI 平臺建設與應用落地的門檻,助力 AI算力平民化。圖 45:戴爾科技 AI 解決方案全景圖秉承戴爾科技“在中國,為中國”的理念,戴爾科技集團于 2015 年與中科院自動化研究所成立人工智能與先進計算聯合實驗室,共同研究企業級深度學習計算平臺與制造業等傳統行業 AI 應用落地。2019 年發布戴爾科技集團中國人工智能生態合作伙伴建設,協同戴爾科技全球及中國優選 AI平臺及行業應用戰略合作伙伴,在 AI 云平臺、
125、自動化建模,以及制造、教育、零售、生命科學等行業 AI 解決方案,為國內行業用戶提供更全面的解決方案和更佳的服務,加速 AI 行業應用落地進程。55圖 46:基于 AI 的生物力學檢測系統實時姿態檢測2019 年,戴爾科技集團與中國賽艇協會、中國皮劃艇協會簽署技術戰略合作,將人工智能、邊緣計算、流數據處理等技術和數據元素引入到室內訓練和水上訓練,通過視頻實時捕捉運動員的訓練動作,通過 AI 姿態檢測的深度學習算法,為每位運動員建立個性化的生物力學模型,進行實時分析與判斷,糾正運動訓練過程中的動作角度、力度、穩定性偏差,幫助運動員科學提升訓練競技水平。56總結11算力、算法、數據是AI應用落地的
126、三大基石,相互協同打造AI落地的應用場景。加速AI計算性能、降低 AI 計算的單位成本,與更大模型隨之帶來的更高算力要求,已經成為一對相互促進與提升的關聯體。過去幾年間 AI 異構計算技術,特別是 GPU 計算與 AI 專用芯片取得了快速的發展,但是以預訓練模型為代表的超大模型訓練,對 AI 算力供給提出更高的需求。半導體制程工藝的限制,僅靠提升單塊 AI 加速芯片的峰值性能,正在變得越來越困難及不經濟。使用更多 AI 加速芯片,同時進行AI 模型并行計算,以使在較短的時間內完成超大規模 AI 模型訓練,將會是 AI 計算的發展趨勢。同 GPU 服務器單機訓練相比,多機 GPU 分布式訓練是一
127、個系統工程,“通信墻”和“IO 墻”是制約大規模計算集群加速比的重要影響因素。當前深度學習框架自帶分布式訓練機制的擴展效率,以及對應用的不透明,都是影響 AI GPU 分布式訓練效能的制約因素。在 AI GPU 分布式訓練領域,戴爾科技集團研究院及解決方案團隊,協同全球及國內 AI 合作伙伴,致力于系統化解決 GPU 分布式訓練各個瓶頸,從單機效能、網絡通訊、存儲 IO、GPU 分布式通信機制等硬件及軟件方面進行產品及方案優化,并通過軟件解決方案幫助用戶實現更智能、應用透明的 GPU 分布式訓練的作業提交及效能優化,并在當前主流工業框架和機器視覺、NLP 等 AI 模型加速上取得了良好的性能效
128、果。未來戴爾科技集團將緊密跟進行業用戶及合作伙伴 AI 算力需求,面向大模型訓練計算,在框架優化、MPI 優化、硬件設施性能優化等方面持續進行方案驗證與改進,并將分布式訓練能力以更加自動化的方式提供給應用用戶,滿足更新更強勁的 AI 模型及開發框架對算力的需求與挑戰。57參考文獻121.https:/ 2.艾瑞咨詢:2021 年中國人工智能產業研究報告3.中國互聯網發展報告(2021)4.OpenAI 解析 AI 計算力 https:/ 5.戴爾 DSS8440 Graphcore IPU 服務器白皮書6.https:/ 7.基于類腦計算技術的智能計算系統,中國計算機學會通訊,2021 年第
129、1 期 8.OneFlow:GPT-3 模型為何難以復現?這也許是分布式 AI 框架的最優設計9.機器之心:26 億參數,智源、清華開源中文大規模預訓練模型10.BERT 訓練問題(數據并行/模型并行 https:/ 前線:快手八卦!突破 TensorFlow、PyTorch 并行瓶頸的開源分布式訓練框架來了13.OneFlow:“我們決定去登月”14.https:/ 16.Direct from Development PowerEdge XE8545 Performance Characteristics17.Dell EMC PowerScale and Dell EMC DSS 844
130、0 Servers for Deep Learning18.https:/ 集群管理與智能調度解決方案20.Dell EMC Deep Learning Performance Comparing Scale-out vs Scale-up22.公司在算力上砸了重金,為何 AI 還是跑得慢?,戴爾科技集團23.Dell EMC PowerScale and NVIDIA DGX-1 servers for deep learning24.https:/ 25.Dell EMC PowerScale and NVIDIA GPUDirect Performance Report26.阿里巴巴 E
131、FLOPS 集群系統:大規模 AI 實踐孵化的算力基礎設施,中國計算機學會通訊,2021 年第 1 期27.https:/ DGX SuperPOD Data Center Design Reference Guide29.NVIDIA DGX SuperPOD:Scalable Infrastructure for AI Leadership30.科學之路,Yann Le Cun 著,中信出版集團31.AI 芯片 前沿技術與創新未來,張臣雄著,人民郵電出版社32.https:/ 33.https:/mlcommons.org/en/news/mlperf-training-2q2022/34.https:/ 35.https:/ 36.https:/ 37.https:/arxiv.org/pdf/2104.04473.pdf