超云&ampamp西云算力:2024年AIDC基礎設施建設白皮書(64頁).pdf

編號:168529 PDF 64頁 14.20MB 下載積分:VIP專享
下載報告請您先登錄!

超云&ampamp西云算力:2024年AIDC基礎設施建設白皮書(64頁).pdf

1、 2 3 習近平總書記指出,要加快新型基礎設施建設,推動數字經濟和實體經濟融合發展。隨著數字經濟時代全面開啟,算力正以一種新的生產力形式,為各行各業的數字化轉型注入新動能,成為經濟社會高質量發展的重要驅動力。算力基礎設施作為算力的主要載體,是支撐數字經濟發展的重要資源和基礎設施,對于實現數字化轉型、培育未來產業,以及形成經濟發展新動能等方面具有重要作用。AIDC 的建設得到了國家層面的明確支持與指導。2020 年,國家發改委將智能計算中心納入新基建范疇,激發了各地投資熱潮,AIDC 由此進入快速擴張期。2021 年,國家相繼發布了多項規劃,包括新型數據中心發展三年行動計劃(2021-2023

2、年)、“十四五”國家信息化規劃以及“十四五”數字經濟發展規劃,這些規劃進一步推動了 AIDC 的有序發展。到了 2022 年,國家政策引導力度進一步增強,特別是“東數西算”項目的提出,加強了算力資源的統籌與智能調度。2023 年,中共中央、國務院發布的數字中國建設整體布局規劃強調了系統優化算力基礎設施布局的重要性,促進了東西部算力的高效互補與協同聯動。隨著政策支持力度的加強以及人工智能技術的迅速發展,對算力的需求持續增長,AIDC 的建設變得尤為關鍵。AIDC 不僅提供強大的計算能力,還支持數據服務和算法服務,為人工智能的應用與創新提供關鍵支撐。AIDC 的建設和發展已成為推動數字經濟和智能化

3、升級的關鍵力量,也是實現國家人工智能戰略和科技創新的重要舉措。在中國,AIDC 作為新型基礎設施的重要組成部分,正成為推動經濟社會發展和科技進步的重要引擎。因此,超云數字技術集團有限公司聯合寧夏西云算力科技有限公司,與時俱進,聚焦 AIDC 基礎設施規劃、建設、運營,編制了AIDC 基礎設施建設白皮書,為 AIDC 基礎設施建設提供參考。引言INTRODUCTION 1 1 AIDC 概述PART 1 2 AIDC 定義AIDC(Artificial Intelligence Data Center),即人工智能數據中心,是指集成了高性能計算能力、大數據處理能力、人工智能算法和云計算服務的綜合

4、信息處理中心。作為新時代信息技術發展的關鍵基礎設施,AIDC 能夠為政府、企業、科研機構等各類用戶提供強大的數據處理和智能分析能力,支持智慧城市、智能制造、科研計算等多樣化的應用場景,是推動社會信息化和智能化轉型的重要力量。AIDC 建設背景AIDC 的建設是應對當前及未來計算需求的關鍵舉措,對于推動科技進步、經濟增長和社會發展具有重要作用。隨著技術的持續進步和應用場景的不斷擴展,AIDC 的建設和運營正在不斷進行優化和升級,以適應新興的挑戰和需求。AIDC的建設背景可以從政策支持、技術發展和應用需求等多個維度進行闡述。_政策背景在全球化和數字化的大潮中,眾多國家將 AIDC 建設提升至國家戰

5、略的高度。以中國為例,“十四五”規劃和 2035 年遠景目標綱要明確提出加快數字化發展,并將 AIDC 等新型基礎設施的建設列為重點任務。國家層面發布的“十四五”國家信息化規劃和“十四五”數字經濟發展規劃均強調了推動智能計算中心有序發展的必要性。政府為支持 AIDC 的建設和運營,出臺了一系列政策,涉及資金支持、稅收優惠、土地使用等方面。工業和信息化部聯合其他五個部門印發了算力基礎設施高質量發展行動計劃,旨在推動算力基礎設施的高質量發展。國家發展和改革委員會出臺的智能計算中心規劃建設指南為 AIDC 的規劃建設提供了明確的方向。此外,北京、浙江、四川、廣東、上海、山東等多個省市也相繼發布了相關

6、政策規劃,形成了央地協同推進 AIDC 發展的格局。_技術背景數字化轉型的深入推動了對智能算力需求的大幅增長,預計未來 80%的經濟活動將依賴于人工智能。AIDC 作為新型基礎設施,其建設顯得尤為迫切。人工智能技術的演進正從單模態智能向多模態融合邁進,AIDC 在這一過程中扮演著核PART 1|AIDC 概述 2 3 心角色,成為推動通用人工智能發展的關鍵力量。算力經濟的興起和人工智能技術的融合創新,使 AIDC 成為新基建的熱點。AIDC 的建設不僅滿足了日益增長的人工智能算力需求,而且在促進 AI 產業化、賦能產業 AI 化、支持治理智能化等方面發揮了重要作用。AIDC 的發展正在逐步構建

7、一個普適普惠的服務生態,包括算法應用的普及和算力服務的普及,這將為各行業的智能化升級提供助力。_應用背景AIDC 的創新發展對推動人工智能及相關產業的快速增長具有顯著影響,成為經濟增長的新引擎。據智能計算中心創新發展指南預測,“十四五”期間,城市對 AIDC 的投資有望帶動人工智能核心產業增長約 2.9 至 3.4 倍,相關產業增長約 36 至 42 倍。智慧城市建設、科學研究以及傳統產業的數字化和智能化升級,都對數據分析和智能決策支持提出了更高要求。AIDC能夠提供必要的計算資源、支撐基礎和技術支持,從而推動人工智能技術的廣泛應用,并加速科研創新和產業升級。AIDC 的建設是數字化轉型的加速

8、器和智能經濟的基石,已成為推動社會進步和經濟發展的大勢所趨。4 PART?|AIDC?AIDC 建設分析PART 2 4 5 建設原則AIDC 的建設不僅僅是基礎設施的搭建,需要綜合考慮建設基礎和當地的經濟狀態、產業特點等。AIDC 規劃建設應遵循以下幾個關鍵原則:提供公共服務 優化產業布局AIDC 旨在將智慧計算服務普及至基本公共服務,如水電一樣,提供公共的算力、數據和算法服務。在建設規劃中,應綜合考慮國家重大區域發展戰略、能源結構、產業布局、市場發展和氣候環境等因素,對國家樞紐節點、省內數據中心、邊緣數據中心、老舊數據中心及海外數據中心進行分類引導,以形成數據中心的梯次布局。加速產業升級

9、激發經濟活力AIDC 致力于通過降低 AI 應用成本、提升算力效率,促進 AI 生態的對接和創新產業的聚集,加速產業的轉型升級,以及數字經濟與傳統產業的深度融合,全面激發經濟的智能活力。AIDC 以 5G、工業互聯網、云計算、人工智能等技術的應用需求為牽引,整合多元數據資源,提供安全可靠的算力服務,賦能各行各業。技術領先 生態多元AIDC采用尖端AI芯片和面向新型AI場景的計算架構,基于 AI 模型提供高強度的數據處理和智能計算能力,構建技術領先、可持續迭代升級的高性能、高可靠的計算架構。AIDC 注重技術領先和多元算力生態的共同支撐,全面支持人工智能技術的應用和演進。綠色低碳 安全可靠AID

10、C 堅持綠色發展理念,推廣綠色技術和產品,采用清潔能源,并致力于提高能源利用效率。AIDC 在推進發展的同時,也高度重視安全保障,通過強化網絡和數據的安全管理體系,構建全面且穩固的安全防護架構。這些原則旨在推動 AIDC 的高質量發展,構建以 AIDC 為核心的智能算力生態體系,有效支撐各領域的數字化轉型,為經濟社會提供高質量的發展動能。6 PART?|AIDC?建設方式AIDC 建設的具體實施步驟會根據項目規模、地點、投資主體等變量而有所差異,但一般涵蓋以下幾個基本階段。項目規劃與可行性研究:開展市場調研以評估需求和潛在用戶群體;明確 AIDC 的目標與功能,包括所需的計算能力、數據存儲與處

11、理需求;執行技術和經濟可行性研究,評估項目的可持續性與盈利模式。選址與環境評估:綜合考慮能源成本、氣候條件、網絡基礎設施等因素,選擇最佳地點;進行環境影響評估,確保項目符合環保和可持續性標準。資金籌集與投資結構確定:依據項目需求確定資金來源,可能包括政府資助、企業投資、銀行貸款等;制定投資結構,明確股權分配和投資回報機制。設計與建設:委托專業機構進行 AIDC 設計,確保技術領先和未來可擴展性;選定建筑和 IT 基礎設施供應商;監督管理建設過程,確保建設質量和工程進度。設備采購與安裝:根據設計規范采購所需的高性能計算設備、存儲系統、網絡設備等;執行硬件和軟件系統的安裝與配置。運營準備與人員培訓

12、:組建運營團隊,制定運營策略和管理流程;對運營人員開展專業培訓,以確保 AIDC的有效管理。試運營與優化:啟動試運營階段,收集用戶反饋,對服務進行優化;調整運營策略以更好地滿足用戶需求。正式運營與持續改進:AIDC 正式投入運營,提供計算服務;定期評估服務效果,并根據技術進步和市場變化進行必要的升級與改進。完成這些步驟需要跨學科的專業知識,涉及計算機科學、建筑學、項目管理、金融學和環境保護等領域,通常需要多學科專家和團隊的緊密合作。12345678 6 7 應用場景AIDC 的應用場景極為廣泛,覆蓋了多個行業和領域,此處以智慧金融和智慧醫療為例,介紹部分應用場景。風險管理:利用大數據分析和人工

13、智能算法,金融機構能夠更精準地識別和評估包括信貸風險、市場風險和操作風險在內的各類風險。這些技術有助于預測市場趨勢、偵測欺詐行為、評估客戶信用狀況。算法交易:AIDC 可以支持資本市場的高頻和算法交易策略的開發與執行。機器學習使交易系統能夠從歷史數據中學習,并實時作出交易決策??蛻舴眨篈IDC 可以支持智能客服系統的構建,實現全天候客戶服務,通過自然語言處理技術理解并響應客戶的詢問和需求。反洗錢和客戶分析:人工智能技術強化了反洗錢和客戶身份識別流程,通過分析大量客戶數據可以快速識別可疑交易和行為。疾病診斷與預測:通過分析海量醫療數據和圖像,輔助醫生更準確地診斷疾病,如癌癥、心臟病等,并預測疾

14、病的發展趨勢。藥物研發:應用機器學習和數據挖掘技術,可以加速新藥的發現和開發,降低研發成本和風險。醫療影像分析:利用人工智能技術自動分析醫療影像,如 X 光、CT 掃描和 MRI 圖像,協助醫生迅速識別疾病的?兆。健康管理和預防:通過大數據分析,提供健康管理和預防性建議,助力公眾改善生活方式,預防疾病的發生。這些應用場景展現了 AIDC 在金融和醫療行業中的深遠影響。類似地,其他行業也在進行智慧化升級,但由于篇幅限制,此處不再詳細列舉。智慧金融智慧醫療 8 PART?|AIDC?AIDC 基礎設施PART 3 10 11 通用計算資源池主要用于傳統 HPC 業務,異構計算資源池則用于進行 AI

15、 訓練推理等相關業務。異構計算節點采用的異構加速芯片多種多樣,主要包括 GPU、FPGA、ASIC 等,主流的廠商有 NVIDIA、AMD、Intel,國內的加速芯片廠商主要有昇騰、天數、昆侖芯、寒武紀等。分布式存儲資源池負責存儲和管理大量的數據資源,為智算任務提供必要的數據支持。通用計算資源池則提供通用的計算能力,支持各種計算密集型任務的處理。數據傳輸網是 AIDC 中各個組件之間數據傳輸的通道,它確保數據在 AIDC 內的快速、準確傳輸,通常使用 RoCE 技術或者 IB 網絡來實現低延時、無丟包的高性能網絡通信,從而保障 AI 集群的高效率運行。運維管理中心則負責對整個AIDC 進行監控

16、和管理,確保系統的穩定運行。此外,AIDC 的邏輯拓撲還可能包括其他輔助組件,如安全管理模塊、網絡管理模塊等,這些模塊共同提升 AIDC 的安全性和可靠性。_AIDC 評價指標AIDC 評價指標是衡量 AIDC 性能、效率和綠色化程度的一系列標準,對于 AIDC 的規劃、建設和運營至關重要。AIDC評價指標可以根據其衡量的內容分為以下幾個類別:能源效率指標PUE(Power Usage Effectiveness):衡量 AIDC 能源效率的指標,反映 AIDC 用于 IT 設備的實際功率與總能耗的比例。計算公式為:PUE=總耗電/IT 設備耗電。注:PUE 值越接近 1,表示 AIDC 的能

17、源效率越高水資源效率指標WUE(Water Usage Effectiveness):衡量 AIDC 水資源使用效率的指標,反映數據中心總耗水量與 IT 設備耗電量的比值。計算公式為:WUE=(總耗水)/IT 設備耗電注:WUE 數值越小,代表 AIDC 耗水量越低 12 PART?|AIDC?環境影響指標CUE(Carbon Usage Effectiveness):衡量 AIDC 碳排放效率的指標,反映數據中心 CO2 總排放量與 IT 負載能源消耗的比值。計算公式為:CUE=總 CO2 排放量/IT 設備耗電注:CUE 數值越小,代表 AIDC 碳排放強度越低計算能力指標計算力(Comp

18、utational Power,CP):衡量 AIDC 計算能力的指標,包括 CPU 能力和 GPU 算力。計量單位是每秒執行的浮點運算次數(FLOPS)。計算公式為:CP=CPU 算力+GPU 算力注:數值越大代表綜合計算能力越強網絡傳輸能力指標運載力(Network Power,NP):衡量AIDC數據傳輸能力的指標,包括網絡架構、網絡帶寬、傳輸時延、吞吐量等。存儲能力指標存儲力(Storage Power,SP):衡量 AIDC 數據存儲能力的指標,包括存儲容量、性能表現、安全可靠等方面。應用效率指標訓效比(Training Efficiency Ratio):衡量 GPU 訓練能力,基

19、于多種數據,引入訓效比和訓價比參數,其中,訓效比更加面向未來。計算公式為:TER=GPU 訓練能力/能源消耗注:數值越高,單位能源輸出訓練越高這些指標共同構成了一個全面的評估框架,用于評價 AIDC 在能源利用、環境影響、計算力、運載力和存儲力以及綜合服務能力等方面的性能。通過這些指標,可以對 AIDC 的設計、建設和運營進行優化,以實現更高的效率和更好的性能。12 13 通用計算設備_AIDC 計算設備需求在 AIDC 中,服務器上的應用主要圍繞人工智能的需求展開,這些應用包括但不限于人工智能模型訓練、模型推理、大數據分析等。人工智能模型訓練服務器用于訓練各種 AI 模型,包括深度學習、機器

20、學習和傳統算法模型。這些模型可以應用于圖像識別、語音識別、自然語言處理、推薦系統等多個領域。在訓練過程中,服務器需要處理大量的數據和復雜的計算任務。模型推理(Inference)訓練好的模型部署到服務器上,用于進行實時或批量推理。用戶可以通過 API 或其他接口提交數據,服務器上的模型對這些數據進行處理,并返回預測或分析結果。大數據分析服務器對大規模數據集進行分析,以提取有價值的信息和洞察。這包括數據挖掘、統計分析、預測建模等,幫助企業和機構做出基于數據的決策。在整個流程中,服務器需要具備高性能的計算能力、充足的存儲空間和快速的數據讀寫能力。此外,為了確保模型的穩定運行和高效服務,服務器還需要

21、具備良好的散熱系統、穩定的電源供應和網絡連接。隨著模型規模的增大,對服務器的要求也越高,可能需要使用專門為深度學習優化的硬件和軟件堆棧。_AIDC 計算設備選型原則隨著人工智能和大數據技術的飛速發展,AIDC 作為支撐這些技術的重要基礎設施,對服務器計算設備的需求日益增長。AIDC 扮演著智能算力的物理載體角色,需要高性能的服務器來處理海量數據,對其底層硬件設備的方方面面提出了極高的要求,針對其選型我們可以考慮以下幾個關鍵要素。14 PART?|AIDC?一款先進的 AI 服務器需要搭配最先進的 CPU 芯片,先進的 CPU 芯片不僅能夠提供強大的基礎算力,而且其內置的 AI 加速技術更是能夠

22、大幅度提高 AI 的計算效率。不但如此,先進的芯片還能支持更多的PCIe擴展和更大容量的內存,可為AI服務器提供更多的可能性。異構加速芯片是 AI 訓練推理的核心算力來源,常見的異構加速芯片有 GPU、FPGA、ASIC,AI 訓練中主要用到的是 GPU 架構的芯片。隨著 AI 技術的發展,市場上各種各樣的AI 加速產品層出不窮,其中 NVIDIA 的 GPU 產品在市場占據主流地位,AMD、Intel 也有自己的產品,國產 GPU 也涌現出了很多廠商,例如昇騰、昆侖芯、寒武紀、天數等。由于 AI 訓練推理中會涉及大量的 GPU 之間的 I/O 交互,因此對 GPU 之間的通訊效率有著較高的要

23、求,為了解決該問題可以采用 PCIe Switch 來將多個 GPU 互聯,根據連接方式的不同可以形成多種拓撲模式,可針對不同的 AI 算法通訊需求進行靈活調整優化。但是面對超大規模的 AI 訓練,即便是 PCIe Gen5 的帶寬也略顯不足,為了解決該問題不同廠商提出了不同的解決方案,其中 NVIDIA 的 NVLink+NVSwitch 方式是當前市面上的主流方案,基于該方案可以大幅度提高 GPU 點到點之間的通訊帶寬,最高可達 900GB/s。擴展性也是一款 AI 設備的重要要素,在 AI 訓練推理中涉及多個節點并行時需要通過網絡進行互聯,對網絡的延遲和帶寬提出了很高的要求。這就需要 A

24、I 設備本身具有較高的擴展性來適配對應的網卡,當前主流的 AI 網絡一般采用 NDR 網絡,對應的需要 PCIe x16 的擴展插槽,基于現在主流的網絡設計,需要在滿足滿配 8 張 GPU 的情況下仍能提供 45 個PCIe x16 的擴展插槽。散熱也是一款 AI 設備的重要一環,現在 GPU 的功耗動輒 350W 以上,整機滿配 8 卡并搭配高端 GPU 的情況下?會達到整機功耗 4000W 以上,對散熱性能提出了極高的要求,良好的散熱系統不僅能夠提升整機的性能,而且能夠保證整機長時間穩定運行綜上所述,AIDC 對服務器計算設備的選擇要求非常高,其高性能、高擴展和高功率散熱方案等要求不僅反映

25、了當前技術發展的趨勢,也體現了對未來計算需求的預測和準備。隨著人工智能和大數據技術的不斷進步,對服務器計算設備的需求將繼續增長,AIDC 將成為推動科技創新和產業升級的重要力量。先進的 CPU強大的異構加速芯片快速的卡間交互豐富的擴展性良好的整機散熱 16 PART?|AIDC?信創計算設備_AIDC 信創計算設備需求隨著國家自主創新戰略的深入推進,信息技術應用創新及其國產化升級替代已成為關鍵發展趨勢。在 AIDC 的構建中,選擇恰當的信創計算設備對于確保信息安全和提升計算性能至關重要。對于構成 AIDC 核心算力的 AI 訓練和推理服務器設備,通常有以下關鍵需求:核心技術自主可控:AIDC

26、計算設備應優先考慮技術路線的先進性與自主性,以規避人工智能發展中可能出現的技術瓶頸。應采用技術領先且自主可控的解決方案,基于具有自主研發能力和自主知識產權的人工智能芯片、神經網絡異構計算架構以及 AI 框架,構建高性能的人工智能計算集群。訓練性能行業領先:選用行業內領先的人工智能計算芯片,配備高計算密度與高速互聯計算網絡,以實現在訓練和推理性能上的行業領先水平。低碳節能高能效比:優先選擇高能效比的芯片以及高效的風冷或液冷散熱系統,致力于構建一個綠色、集約且低碳節能的人工智能算力平臺。通過這些標準,AIDC 能夠確保在提供高效計算服務的同時,也符合可持續發展和環境保護的目標。_AIDC 信創計算

27、設備選型經過多年的技術積累和市場驗證,信創計算設備已經從最初的“基本可用”階段,逐步演進到了“高效好用”階段。在選擇信創計算設備時,通常會依據核心處理器、業務類型等進行綜合考量。處理器與加速卡選型在 AIDC 中,CPU 和 GPU、NPU 通常協同工作,利用各自的優勢來處理不同的計算任務。這種異構計算模型能夠提供更高的計算效率和性能,是現代數據中心的核心特?。就國產處理器的產品能力而言,國產 CPU 廠商正全力打造具有競爭力的“中國芯”,其中海光、鯤鵬、飛騰、龍芯、兆芯、申威為代表性企業,這些企業在技術路線和生態建設方面各有特點與優勢。海光、兆芯具有 x86 內核授權,基于指令系統進行 So

28、C 集成設計,產品兼容性強,生態較為完善,配套軟件及開發工具相對成熟。飛騰、鯤鵬處理器擁有 ARM 指 16 17 令集授權,基于指令集架構授權進行自主設計,自主化程度較高,也成為了 AIDC 基礎設施的優選產品。國產 AI 加速卡廠商近年來持續發力,在該領域取得了快速進展,相關產品陸續發布,覆蓋了訓練和推理的需求,其中既有基于通用 GPU 架構的加速卡,也有基于 ASIC 架構的 NPU 加速卡,呈現出多元化的發展趨勢?;谕ㄓ?GPU 架構的加速卡 GPGPU 是圖形處理單元(GPU)的一種,對于 CUDA 等主流軟件生態具有較好的兼容性。NPU 則是專門為加速機器學習算法,尤其是深度學習

29、模型的推理和訓練而設計的處理器,它的出現極大地提高了深度學習任務的計算效率。當前國產 NPU 加速卡在產品性能和軟件生態等方面與國際領先水平存在著一定的差距,但隨著新一輪人工智能算力升級的浪潮以及國際局勢的變化,國產 AI 算力芯片的發展步伐已經提前加快。國產 NPU 代表產品包括昇騰、寒武紀、昆侖芯、燧原等,可滿足不同算力需求的訓練、推理場景。訓練服務器選型AIDC 訓練型服務器專門用于人工智能模型的訓練,它通常具備強大的計算能力和大量存儲空間,以支持機器學習算法在大量數據上進行學習和優化。這種服務器的設計旨在提供高效、穩定和可擴展的訓練環境,以滿足不同規模和復雜度的 AI 模型訓練需求。訓

30、練型服務器的選型原則建議如下:強大的計算能力:為了加快訓練速度,訓練型服務器通常配備高性能的 CPU 和 GPU/NPU。GPU/NPU 尤其適用于深度學習等需要大規模并行計算的任務,因為它們能同時處理大量的計算任務。大規模存儲:訓練 AI 模型需要大量的數據集,這些數據集需要被存儲在高速和大量的存儲設備上。因此,訓練型服務器通常配備高容量的硬盤或 SSD 存儲,以及快速的數據訪問速度。網絡性能:為了支持數據的高效傳輸,訓練型服務器需要有高速的網絡接口,這對于分布式訓練等場景尤其重要。散熱和穩定性:高性能計算設備會產生大量的熱量,因此,訓練型服務器需要有高效的散熱系統來保持設備在合適的溫度下運

31、行,同時確保長期的穩定性和可靠性。推理服務器選型AIDC 推理型 AI 服務器專門為運行人工智能推理任務而設計和優化。推理任務是指使用已經訓練好的 AI 模型對新數據做出預測或決策的過程。這些服務器通常配備了高性能的中央處理器(CPU)、圖形處理器(GPU)、神經網絡處理器(NPU)或其他專用硬件,以便快速、高效地處理推理工作負載。18 PART?|AIDC?推理型 AI 服務器的選型原則建議如下:高性能計算能力:為了快速處理復雜的推理任務,推理服務器通常配備有較為強大的計算資源。優化的體系結構:服務器硬件和軟件都是為了提高 AI 推理性能而設計的,包括優化的存儲、內存和數據處理路徑??蓴U展性

32、:推理型服務器通??梢詳U展,支持更多的處理器、內存和存儲,以適應不斷增長的工作負載。穩定性和可靠性:這些服務器設計為在 AIDC 環境中長時間穩定運行,確保 AI 應用程序的持續可用性。_AIDC 信創計算設備解決方案信創計算訓練節點可選用 AI 訓練服務器,如超云 R3418 服務器(外觀如圖 3-5 所示),每臺服務器搭載 2 顆 C86 處理器,支持 64 個計算核心,最高主頻可達 2.7GHz,能夠最大限度地提高多線程應用的并發執行能力;搭載 8 張高端國產雙寬訓練加速卡,可根據應用場景實現拓撲切換,全面支持國產 GPU 卡,可提供 1.2PFLOPS 算力,系統峰值功耗約為 3500

33、W。每臺 R3418 服務器可提供 2TB 系統內存和 300TB 本地高速存儲,支持全新 200G NDR IB 網絡,面向深度學習訓練等場景,打造智算時代最強適應性國產算力平臺。圖 3-5 R3418 產品外觀圖信創計算推理節點可選用 AI 推理服務器,如超云 R2428 服務器(外觀如圖 3-6 所示),基于全新一代國產 ARM 架構處理器開發的人工智能服務器,4U 空間內最高支持 128 個計算核心,主頻 2.1GHz;可以部署 8 顆最高性能 GPU,可根據應用場景實現拓撲切換,可適應 AI 訓練、AI 推理等應用場景。全面支持國產 GPU 卡,實現 CPU+GPU 全國產方案,18

34、 19 支持 16 條 DDR5 內存、7 個 PCIe 5.0+10 個 PCIe 4.0 擴展槽和大容量的本地存儲資源,在提供強勁計算性能的同時,還能滿足用戶對帶寬和存儲的擴展需求。圖 3-6 R2428 產品外觀圖 20 PART?|AIDC?存儲設備_AIDC 存儲需求 AIGC 數據處理過程分為 5 個階段,分別是:數據采集/清洗、數據共享/交互、模型訓練、模型推理、數據歸檔。各階段的需求與功能特點,見表 3-1。表 3-1 AIGC 數據處理各階段需求與功能特點階段需求功能數據采集/清洗數據采集流入數據清洗標注數據共享導出智能歸檔多協議支持海量數據存儲高吞吐(HDD+閃存模式)數據

35、共享/交互數據共享數據交互標準 POSIX 共享協議支持 HDFS、CSI、超高吞吐(HDD+閃存模式)模型訓練數據集讀取Checkpoint高帶寬、低延遲、預讀、全閃存模型推理模型部署驗證低延遲、高帶寬、全閃存數據歸檔海量數據存儲低成本長期存儲分層存儲數據歸檔(磁帶、對象存儲、藍光庫)在數據采集/清洗階段,采用面向存儲海量數據的對象存儲技術能夠有效提升文件的讀寫效率,除了高速的訪問能力外,同時具備存儲海量數據的能力、彈性擴展的能力,為 AI 大模型的數據收集提供了有力支持。網絡上收集的原始數據通常需要經過數據預處理,這包括多格式、多協議數據的清洗、去重、過濾和加工,以便用于 AI 模型訓練。

36、在數據采集階段,采用文件系統的方式實現數據清洗,使用 POSIX 方式訪問存儲可以提供高效的訪問速度,從而提升數據清洗的整體效率。在數據共享/交互階段,通過支持多種協議之間的轉換,如 POSIX、HDFS、CSI 等,實現對存儲的多個業務階段之間進行快速共享和訪問。采用軟件定義系統,可以實現數據卸載技術,從而實現數據的快速復制和共享;通常會使用零拷貝、存儲端拷貝等技術來實現數據的快速共享和交互。在模型訓練階段,通常使用文件系統來存儲模型訓練所需的數據。為了降低 IO 路徑損耗,可以改寫存儲引擎,并配合 20 21 客戶端實現并行文件存儲,以實現高帶寬低延遲的存儲訪問。對于大模型訓練而言,訓練參

37、數和數據集都會呈指數級增長,為了快速加載海量小文件數據集,降低GPU等待時間是至關重要的。當前主流的預訓練模型已經擁有千億級的參數,訓練過程容易受到參數調優、網絡不穩定和服務器故障等多種因素的影響,導致訓練過程不穩定并可能中斷。為了確保訓練能夠回退到之前的還原點而不是初始點,需要使用檢查點(Checkpoints)機制。因此,存儲的讀寫速度對于快速讀寫檢查點(Checkpoints)文件至關重要,能夠有效利用算力資源并提高訓練效率。模型推理階段,為了提供低延遲、高帶寬的整體解決方案,通常會使用全閃存存儲。在 AIGC 應用的推理階段,企業面臨著數據安全、可追溯性、內容審核和合規性等一系列挑戰。

38、這些挑戰不僅關乎技術的有效實施,還直接影響到企業的信譽和合法運營。對于存儲而言,文件在推理階段會針對較小的成果集進行快速的讀取和寫入,會產生對存儲系統大量的數據訪問,并且需對數據進行加密處理,以防止未授權訪問。數據歸檔階段,需要 AIDC 存儲端實現海量、長期、經濟的數據保存。存儲端需要實現全生命周期的數據存儲與管理,提供完備的解決方案。因此需要提供分層存儲解決方案:由熱數據變成溫數據,由溫數據最終形成冷數據長期存儲。這個過程涉及熱存儲(SSD)、溫存儲(HDD)以及冷存儲(磁帶、藍光)等一整套上下游存儲介質的融合平臺。_AIDC 存儲選型設計AIDC 的存儲是整個 AIDC 建設的重要部分,

39、因此要求系統建設方案擁有以下特性:高可靠性、經濟性、先進性、高效性、可擴展性。高可靠性AIDC 的存儲作為整個系統的重要部分,其高可靠性的要求成為至關重要的考量。其中分為數據安全性及系統穩定性兩方面:數據安全性指數據本身的安全性,通過防止邏輯錯誤和物理錯誤兩種方式進行保證。系統穩定性則代表系統高可用性,以保證業務連續性,因此,對象存儲的穩定性直接影響系統的連續性。AIGC 數據處理各階段安全性及系統穩定性技術選型,見表 3-2。22 PART?|AIDC?表 3-2 AIGC 數據處理各階段數據安全性及系統穩定性技術選型階段數據安全性系統穩定性數據采集/清洗海量存儲:糾刪碼/副本;安全程度不同

40、,數據分層存儲使用 VIP,節點損壞后,可以有效保證系統可用性數據共享/交互使用對象存儲,文件系統/對象存儲多種協議統一存儲;標準 POSIX 共享協議支持 HDFS、CSI、超高吞吐(HDD+閃存模式)模型訓練全閃存一般采用 RAID2.0 技術或糾刪碼/副本方式保證數據一致性用多控制器或多個節點+VIP 方式,節點/控制器損壞,VIP 自動切換模型推理全閃存一般采用 RAID2.0 技術或糾刪碼/副本方式保證數據一致性用多控制器或多個節點+VIP 方式,節點/控制器損壞,VIP 可自動切換數據歸檔使用分布式存儲/集中式存儲實現數據分層存儲解決方案;使存儲可以長期保存數據分層存儲、數據歸檔(

41、磁帶、對象存儲、藍光庫)經濟性經濟性需從三個方面來考慮:首先建立對象存儲過程中的初期投入費用,其次是系統建成后的維護費用,最后是對已有投資的保護。在追求存儲、容災系統具有高性能的同時,必須審慎考慮投資的合理性,精簡選取需要的新技術。在建設的過程中,需考慮未來的升級能力,并確保項目經驗豐富、服務水平可靠。不同存儲介質的成本各異,光、磁、電存儲各具特點,見表 3-3。表 3-3 不同類型存儲介質的特點類型原理運行耗電典型設備特點優勢磁性介質磁頭+轉速較高硬盤、磁帶順序 IO 較好,價格適中光學類介質光照刻錄不耗電藍光盤、光盤易長期保存半導體類介質NAND+主控中SSD、NVME隨機 IO 性能優異

42、,價格貴磁性存儲具有廣泛的應用范圍,順序IO較好,價格適中,但能耗較高;電類介質(如NVME、SAS SSD)隨機IO性能優異,但價格相對較高。光類存儲采用物理刻錄方式存儲數據,具有防水、防腐?等特點,適用于長期保存,通常主流廠商的產品可保留至少 50 年。在數據歸檔階段,需要將海量原始數據、處理過程數據和 Checkpoint 數據長期歸檔存儲,其他四個階段也可能涉及到將溫數據轉化為熱數據的需求。AIDC 的存儲設備的分層存儲解決方案,可以有效解決熱、溫存儲的自動分層技術,該 22 23 技術可透明的實現熱數據和溫數據的轉換。當數據長時間未被調用時,系統會觸發長期歸檔保存流程,將數據快速并發

43、的歸檔到磁帶、藍光存儲等介質中,當數據被調取時,可以進行回調檢索。這種方法可以讓數據合理、低成本的存放在海量存儲中,從而降低長期擁有成本。先進性在 AIDC 存儲的設計過程中,嚴格遵循國際規范、標準,高性能分布式存儲平臺采用標準接口、規范和協議,并結合新興技術如分層存儲、軟件定義存儲、零拷貝、深度拷貝及存儲端拷貝等技術,以保證高性能分布式存儲其技術與方案的先進性。高性能分布式存儲方案不僅要滿足當前系統的需要外,還應為未來的業務量發展和數據高速膨脹打下良好的基礎,使其方案有能力和已經建設應用架構完美結合,成為統一信息基礎平臺。在數據共享/交互階段,引入了軟件定義存儲的數據卸載技術,保證數據安全、

44、快速共享;與此同時,軟件定義存儲實現 AIDC 存儲快速擴展、性能提升。高效性AIDC 存儲,需要滿足 AI/AIGC 等應用的高帶寬、低延遲的存儲需求。超云的 AIGC 存儲解決方案專注于 AI 大模型數據的采集清洗、訓練、推理、數據治理全流程,提供更加高效、可靠的存儲支持。采用全 NVME 的 SSD 作為數據存儲,以提供高密度、高效率的讀寫速度。在模型訓練和推理階段,AIGC存儲需提供極高的性能支撐,例如,在模型推理階段,Checkpoint 即為 GPU 的顯存,需在短時間內將顯存內數據快速存儲在共享存儲上,防止遇到任一掉卡或者任一機器宕機,導致前期訓練失效。即使有一卡寫入慢,其他 I

45、O 也不應受影響,以維持 GPU 訓練效率,存儲需提供更高的帶寬和更低的延遲。針對 AIGC 的 Checkpoint 記錄、大視頻文件讀寫、小圖片讀寫等場景,通過分級存儲、分布式元數據技術、多 MDS 等技術,實現 AIGC 場景下的高速讀寫??蓴U展性在以?的存儲使用中,擴容和擴展一直是難點,對存儲的擴容和性能擴展的需求日益增強。同時,需考慮到在擴展時保證業務連續性。最終,使存儲擴展變成一項簡單工作,并避開高峰期,有效提升業務系統的效率。從 ChatGPT 到Sora,新一代人工智能的蓬勃發展,數據爆炸性增長,使存儲的存力核心基礎設施價值凸顯。存儲的彈性擴展能力是AIDC 存儲選型原則的重要

46、考量,采用 Scale-out 存儲架構可實現存儲具備快速擴充能力,如圖 3-7 所示,與集中式架構存儲相比,分布式架構具備快速添加節點和線性擴展的能力。AIDC 存儲采用去中心化設計,大幅簡化了分布式存儲系統管理的復雜度,同時顯著提升了高可用性(HA)、容量與性能橫向擴展(Scale-out)的能力。節點之間采用 peer-to-peer 通訊協議,實現了幾乎無限的節點擴充性。元數據即時分布到每個節點,并通過多副本保護,避免了單一節點元數據故障問題。24 25 硬件層包括存儲硬件和網絡設備,存儲節點采用標準 X86 架構平臺,并能對不同的存儲設備進行池化管理。通過高速網絡將通用存儲服務器中的

47、 CPU、內存、網絡、磁盤、總線整合,形成一個統一存儲器,保證存儲總體性能高于計算處理能力與網絡傳輸速度。存儲軟件管理層采用自主研發分布式文件系統,部署在集群存儲的各個節點上,實現節點間的軟件相互通信并協同工作,通過存儲池虛擬化技術,將集群中所有存儲節點的硬盤空間融合成統一命名空間。利用數據生命周期管理技術,根據文件元數據的屬性(owner、ctime、mtime、path、name、訪問熱度等),將文件的數據放置在統一存儲空間的不同的存儲池中,從而映射到不同的存儲硬件上。協議接口層是指 CS13000 與前端應用軟件之間進行數據通信的接口。CS13000 支持 POSIX、CIFS、NFS、

48、FTP、HTTP、S3、Swift 等多種傳輸協議。CS13000 針對新一代應用高并發的特點,采用帶外模式的大規模開放集群存儲架構,通過多端口千兆、萬兆和Infiniband 網絡互連前端應用節點和后端存儲及元數據節點,實現存儲設備性能輸出的最大化。帶外模式的應用,消除了元數據通路與數據通路的相互干擾。元數據服務器和存儲服務器的集群化,確保整個系統中不存在像 NAS 或者 SAN系統的性能瓶頸點,從而能夠完全滿足 AIGC 應用高并發的需求。26 PART?|AIDC?網絡設備_AIDC 網絡需求AI模型逐漸朝向大模型的方向開始發展,AI超大模型的參數已經達到千億到萬億級別。國內也開啟了AI

49、模型的“狂飆模式”,各種 AI 項目層出不窮,行業呈現“百模大戰”的競爭格局。隨著模型參數量的提高,其對算力和顯存都提出了更高的要求。以 GPT3 為例,千億參數需要 2TB 顯存,當前的單卡顯存容量不夠。即便出現了大容量的顯存,以現在單卡的算力也要 32 年才能完成訓練。為了縮短訓練時間,就需要采用多機多卡并行的方式,通過采用分布式訓練技術,對模型和數據進行切分,進而并行加速,將訓練市場縮短到周或天的級別。為了最大化分布式訓練的效能,就需要構建出一個計算能力和顯存能力超大的集群,來應對大模型訓練中算力墻和存儲墻這兩個主要挑戰。而聯接這個超級集群的高性能網絡直接決定了智算節點間的通信效率,進而

50、影響整個智算集群的吞吐量和性能。要讓整個智算集群獲得高的吞吐量,高性能網絡需要具備低時延、高帶寬、長期穩定性、大規模擴展性和可運維等關鍵能力。低延時:由于通訊延時的存在,分布式訓練系統的整體算力并不是簡單的隨著智算節點的增加而線性增長,而是存在加速比,且加速比小于 1。通訊延時是指單次計算中不同卡之間的通訊導致的數據通訊延遲,因此降低卡間通信時間,是分布式訓練中提升加速比的關鍵,需要重點考慮和設計。高帶寬:在 AI 大模型訓練場景下,機內與機外的集合通信操作會產生大量的通信數據量。流水線并行、數據并行及張量并行模式需要不同的通信操作,這要求網絡具有單端口高帶寬、節點間可用鏈路數量多以及網絡總帶

51、寬高等特點。AIDC 中的計算節點每完成一次計算需要快速的在節點間同步,以便進行下一輪計算,在同步完成前,計算任務處于等待狀態,不會進入下一輪計算。如果帶寬不夠大,梯度傳輸就會變慢,造成卡間通信時長變長,進而影響加速比。高穩定:隨著 AI 模型越來越大,AI 的計算量也越來越大,一個大規模的訓練通常會持續數周甚至數月,大量的數據需要通過網絡進行傳輸和處理,如果網絡不穩定,就可能導致數據傳輸過程中出現中斷、丟失或錯誤,從而影響數據分析和計算結果的準確性,因此對網絡穩定性有著極高的要求,網絡穩定性是保障數據傳輸的完整性、準確性和及時性的關鍵。易擴展:隨著 AI 并行技術的不斷完善和提升,大規模的

52、AI 訓練中會用到上千甚至上萬張 GPU,同時隨著 AI 業務的快速發展,對智算集群也提出了高擴展性的要求,這就對應的需要智算網絡具有良好的擴展性,在滿足當前業務需求的情況下預留應對未來新增需求的能力。26 27 易運維:AIDC 的網絡運維是一個綜合性的任務,面對一個成百上千張 GPU 卡的集群,將整個智算集群的運行狀態的可視化,配置變更的白屏化,異常狀態和故障的快速感知是智算集群高效運營的基礎。_AIDC 的網絡選型當前 AIDC 的大規模網絡架構主要有兩種,一種是 InfiniBand 網絡,一種是 RoCE 網絡,二者各有優勢。InfiniBand 網絡InfiniBand 網絡自從誕

53、生以來就專注于高性能領域,當前市場主流的 IB 技術為 400Gbps 的 NDR。IB 網絡是專門為超算集群設計的網絡,它有兩個特點:原生無損網絡:InfiniBand 網絡采用基于 credit 信令機制來從根本上避免緩沖區溢出丟包。只有在確認對方有額度能接收對應數量的報文后,發送端才會啟動報文發送。依靠這一鏈路級的流控機制,可以確保發送端絕不會發送過量,網絡中不會產生緩沖區溢出丟包。萬卡擴展能力:InfiniBand的Adaptive Routing基于逐包的動態路由,在超大規模組網的情況下保證網絡最優利用。目前業內有大量萬卡規模超大 GPU 集群的 IB 案例。RoCE 網絡RoCE(

54、RDMA over Converged Ethernet)是在 InfiniBand Trade Association(IBTA)標準中定義的網絡協議,允許通過以太網絡使用 RDMA(Remote Direct Memory Access,遠程直接訪問內存)。簡而言之,它可以看作是RDMA 技術在超融合數據中心、云、存儲和虛擬化環境中的應用。RoCE 網絡的特點如下:生態開放:RoCE 生態基于成熟的以太網技術體系,業界支持廠商眾多。相比于 IB 交換系統,RoCE 網絡不需要專用硬件,可以基于多廠商開放的硬件網卡/交換機等進行部署。同時業務的開通、運維與傳統以太網技術一脈相承,配置、維護更

55、為簡單。速率更快:以太網技術廣泛應用于數據中心網絡、城域網、骨干網,當前速率可以靈活支持 1Gbps800Gbps,未來有望演進至 1.6Tbps。與 IB 相比,在互聯端口速率和交換機總容量上更勝一籌。成本較低:以太網高端芯片經過多年的技術發展積累,其單位帶寬成本更具競爭力,交換機成本整體更低。28 PART?|AIDC?InfiniBand 和 RoCE 網絡對比InfiniBand 和 RoCE 網絡解決方案各有各的特點,具體對比分析見表 3-4。表 3-4 InfiniBand 和 RoCE 網絡解決方案特點對比表InfiniBandRoCE成本高低硬件IB 交換機以太網交換機穩定性出

56、色好生態封閉開放性能表現(時延、丟包等)出色好具體到實際業務層面,InfiniBand 方案一般要優于 RoCE 方案,RoCEv2 是足夠好的方案,而 InfiniBand 是特別好的方案,以下將從業務層面對比下這兩種方案。業務性能方面,由于 InfiniBand 的端到端時延小于 RoCEv2,所以基于 InfiniBand 構建的網絡在應用層業務性能方面占優。但 RoCEv2 的性能也能滿足絕大部分智算場景的業務性能要求。業務規模方面,InfiniBand能支持單集群萬卡GPU規模,且保證整體性能不下降,并且在業界有比較多的商用實踐案例。RoCEv2 網絡能在單集群支持千卡規模且整體網絡

57、性能也無太大的降低。業務運維方面,InfiniBand 較 RoCEv2 更成熟,包括多租戶隔離能力,運維診斷能力等。業務成本方面,InfiniBand 的成本要高于 RoCEv2,主要是 InfiniBand 交換機的成本要比以太交換機高一些。業務供應商方面,InfiniBand 的供應商主要以 NVIDIA 為主,RoCEv2 的供應商較多。_AIDC 的網絡設計方案AIDC 網絡設計原則面對 AIDC 對網絡的高要求,通常情況下獨立建一張高性能網絡來承載智算業務是最好的方案,可同時滿足高帶寬、無阻塞的需求。28 29 高帶寬設計:當前大模型 AI 訓練中會涉及大量的數據交互,對帶寬有著極

58、高的要求。目前智算服務器主流配置是配置8 張 GPU,并預留一定數量的 PCIe 插槽用于網絡設備,視智算集群的網絡需求會配置 4 張 100Gbps 以上的網卡,極端情況下甚至會配置8張以上的100Gbps以上的網卡。尤其是針對NVLink機型,當前主流方案是按照GPU:IB網卡 1:1 的模式來配置網卡,這種情況下每臺機器會配置 8 張 HDR 甚至是 NDR 的網卡以滿足 AI 訓練中的高帶寬需求。無阻塞設計:無阻塞網絡設計的關鍵是采用 Fat-Tree(胖樹)網絡架構。交換機下聯和上聯帶寬采用 1:1 無收斂設計,即如果下聯有 20 個 200Gbps 的端口,那么上聯也有 20 個

59、200Gbps 的端口。此外交換機要采用無阻塞轉發的數據中心級交換機。當前市場上主流的數據中心交換機一般都能提供全端口無阻塞的轉發能力。低延時設計 AI-Pool:當前用于 AI 大模型訓練的集群通常會采用支持 NVLink+NVSwitch 的 GPU 機型,這樣節點內不同編號的 GPU 間可借助 NCCL 通信庫中的 RailLocal 技術,可以充分利用主機內 GPU 間的 NVSwitch 的帶寬,基于此我們可以優化網絡架構,將 8 個節點和 8 個接入交換機作為一組,構成 AI-pool,如此同一個組內不同節點的同編號GPU 之間通訊只需要經過 1 跳就可到達,從而大幅度降低通訊延遲

60、。智算胖樹網絡設計網絡可承載的 GPU 卡的規模和所采用交換機的端口密度、網絡架構相關。網絡的層次多,承載的 GPU 卡的規模會變大,但轉發的跳數和時延也會變大,需要結合實際業務情況進行權衡。當節點數量超過交換機的端口數時,為了保證節點之間無阻塞通訊,就需要組成胖樹架構,兩層胖樹架構如圖 3-9 所示,圖中 N 代表單臺交換機的端口數。單臺交換機最大可下聯和上聯的端口為 N/2 個,即單臺交換機最多可以下聯 N/2 臺服務器和 N/2 臺交換機。兩層胖樹網絡可以接入 N*N/2 個節點。圖 3-9 兩層胖樹架構圖對于采用 8 卡 NVLink+NVSwitch 機型的節點我們可以對二層胖樹進行

61、優化,8 個節點為一組采用 AI-pool 的設計模式,如圖 3-10 所示,采用該架構可優化節點間同編號 GPU 的通訊效率,最大可支持 N*N/2 張 GPU 卡互聯。?聚交?機1?聚交?機?/2接?交?機1節點1節點?/2節點1節點?/2接?交?機?30 31 基礎設施_土建基礎設施AIDC 聚焦土建、機房布局和機電配套等數據中心基礎設施。機房建設基礎設施層應符合現行 GB50174 相關規定。系統運行穩定可靠要求,不因設備故障而導致系統運行中斷;應降低系統部署難度和對建設場地的依賴,符合部署簡單、靈活拓展、快速交付和安全可靠的原則;考慮系統的整體架構類型,根據架構類型調整風火水電基礎設

62、施的供配電、制冷、消防等子系統的設計標準,關注承重、層高等設計。對于機房承重機房所在的樓板需要有足夠的承重能力來承受機柜、服務器、UPS(不間斷電源)系統、空調設備等重量。通常,樓板的承重要求會根據機房的規模和設備的重量來確定。機房的承重不僅涉及到樓板,還包括整個建筑結構的安全性。在設計和建設機房時,需要考慮建筑物的整體結構承重能力,確保機房的安全穩定。在機房中,為了便于布線和散熱,會采用架空地板系統。架空地板的承重能力、架空高度需要滿足機房使用要求。AIDC 建筑方案建議指標要求見表 3-5。表 3-5 AIDC 建筑方案建議指標要求類別主要指標承重能力1、建議樓板活荷載標準值 10 kN/

63、m2(根據機柜的擺放密度確定荷載值)2、建議不間斷電源系統室活荷載標準值 10 kN/m23、建議電池室活荷載標準值 16 kN/m2(蓄電池組 4 層擺放)架空地板高度1、建議 500mm(地板下空間作為送風靜壓箱使用)2、建議 800mm(滿足地板下管道安裝與維護要求,地板下空間用作管道安裝)3、如某些改造建筑層高無法滿足時,自然環境滿足下可考慮采用風墻形式_供電及配電供電AIDC 用電量激增,現有電網的容量受到限制,數據中心的選址必須進一步靠近具有充足電量的能源中心才能成立。傳統上,柴油發電機用于在市電中斷時保持數據中心的正常運行時間。由于監管收緊,并且越來越多的組織和股東要求企業對碳排

64、放負責,減少化石燃料的使用已成為廣泛討論的話題,目前的趨勢是推動數據中心使用更多的可再生能源,如 32 PART?|AIDC?風能、太陽能等,以減少對環境的影響。AIDC的大部分業務負載,特別是企業負載,在時間上主要集中于白天工作時段,與光伏、風電的主要發電時段匹配性較高,無需過多儲能與調峰,使得 AIDC 在運用光伏、風電等綠色電力方面具有天然優勢。但光伏、風電和儲能的應用與項目所處的位置強相關、及其電源不穩定的特性,難以作為 AIDC 單一通用電源的解決方案,必須要與其他的穩定能源解決方案結合使用,可以與數據中心的基礎架構融合起來,嘗試提高數據中心的IT和外電轉化率,替代一部分UPS備電設

65、備,發揮額外的經濟收益,甚至遠大于常規光伏和儲能技術本身帶來的經濟收益。核電作為一種低碳、高能量密度的能源形式,理論上可以為數據中心提供穩定且持續的電力供應,核電站作為發電廠,運行時也產生大量的余熱資源,通過冷熱電三聯供,可以在提高能源轉換效率和算力轉換效率上取得雙贏的局面,PUE可能也不再會是問題。但將數據中心與核電站直接聯系在一起存在一些實際的挑戰和考量,在實際操作中,數據中心更可能采取多元化的能源策略,結合使用核電、可再生能源以及其他傳統能源,以確保能源供應的穩定性和可持續性。配電AIDC 機房對數據中心的建設提出了越來越高的要求,數據機房供電負荷的加大、安全級別的提高都對數據中心供電設

66、備提出了越來越高的要求。智能小母線系統在數據中心中逐漸取代傳統的列頭柜,用于機房的末端配電,智能小母線產品示意圖如圖 3-12 所示。這種系統通過始端箱接受前端 UPS 的電源,然后通過具有金屬外殼的母排系統分配電能給各個機柜內的 PDU,更適用于單柜功率高或液冷機柜項目。智能小母線系統采用樹干式的供配電系統,每列機柜都通過兩條母線槽供電,這種設計減少了地板下和機柜上的電纜橋架,便于管理和維護。圖 3-12 智能小母線產品示意圖(圖片來源:突破電氣官網 https:/ )34 PART?|AIDC?圖 3-15 AHU 風墻解決方案示意圖_預制化交付不同等級微模塊機房在建設時,可以滿足各種規模

67、和場景的數據中心快速投入使用,但距離業務上線可用,還需要基于AIDC 基礎設施,進行計算、存儲、網絡、集群調度和管控等多種 IT 設備進行適配。如果能利用 AIDC 建設階段,同步在廠內進行算力設備預先集成和驗證,并與數據中心基礎設施設備進行兼容性互適,那么將減少數倍現場交付環節的時間。整機柜服務器是按照模塊化設計思路打造的服務器解決方案,系統架構由機柜、網絡、供電、服務器節點、集中散熱、集中管理 6 個子系統組成,是對數據中心服務器設計技術的一次根本性變革。整機柜服務器將供電單元、散熱單元池化,通過節約空間來提高部署密度,其部署密度通??梢苑?。集中供電和散熱的設計,最低配置傳統機柜式服務器

68、 10%的電源數量就可滿足供電需要,電源效率可以提升 10%以上,且單臺服務器的能耗可降低 5%。預制化交付不僅提高了建設速度,還提升了 AIDC 的整體質量和可靠性。相較于傳統數據中心,預制模塊化數據中心可以顯著降低建設成本和運營成本,這對于企業來說是一個重要的經濟優勢。(圖片來源于網絡)34 35 西云 AIDC 是典型預制化案例,建設標準主要參考 TIA942 Tier 3 標準進行規劃建設,滿足高端目標用戶的需求;從建筑工藝設計開始,提高基礎設施設計可用性;為數據中心統一管理預留條件。項目整體建設模式采用預制化建設,預制產品可以達到快速部署,工廠級質量控制和降低成本。主體結構采用了相對

69、快速的鋼結構房屋,其它配套設施均按100%預制化模式進行建設。項目中天云數據中心科技,以工廠預制模塊化和數據中心自然冷卻為支點,成功地開發并實施了裝配式數據中心(空地上解決方案和建筑內解決方案)、底座式預制數據中心、箱體式數據中心系列等預制模塊化數據中心產品。其中裝配式空地解決方案通過了全球權威論證機構 UptimeInstitute 的 Tier-Ready 預制數據中心論證。在我國西北開發、建設和運行了全新風制冷的大型數據中心集群。超云 CloudCube-2000 系列微模塊產品解決方案為數據中心 IT 設備提供一個整合的、標準的、優質的、智能的基礎設施環境,是一種全新的高效節能數據中心

70、建設模式。CloudCube-2000 系列模塊化數據中心基礎設施獨特的設計,使其在支持現有業務需求的同時,還可在未來不斷靈活擴展以容納新的業務需求,避免當前產生不必要的投資浪費。工廠統一預制模塊化的建設模式保證了產品的優良制造工藝。采用多個模塊構建的中大型數據中心,可滿足政府、教育、醫療、金融、電信等行業大型數據中心的需求。36 PART?|AIDC?綠色與節能_當前 AIDC 能耗情況全球智能算力的總體情況呈現快速增長的趨勢。截至到 2023 年底,全球算力總規模達到 650 EFLOPS,其中智能算力規模為 142 EFLOPS,與去年相比增加了 25.7%,規模占比達 21.9%。(數

71、據來源:Gartner)2022 年中國智能算力規模約為 41 EFLOPS,與去年相比增加了 41.4%,超過全球整體智能算力增速,在全國算力總規模中占比達 22.8%。IDC 預測,全球 AI 計算市場規模將從 2022 年的 195.0 億美元增長到 2026 年的 346.6 億美元。(數據來源:IDC,中國信息通信研究院整理)算力規模增長的同時,算力能耗總量也在快速攀升。國際能源機構(IEA)的數據顯示,2022 年全球數據中心用電量為24003400 億千瓦時,約占全球最終電力需求 1%1.3%。根據信通院統計,我國 2022 年數據中心能耗總量 1300 億千瓦時,同比增長 16

72、%,預計到 2030 年,能耗總量將達到約 3800 億千瓦時。截至 2023 年 6 月,我國累計建成 196家國家綠色數據中心,行業內先進綠色中心電能利用效率降至 1.08 左右,達到世界領先水平。(數據來源:?集團,中國信息通信研究院)。目前,國家發改委聯合網信辦、工信部、能源局要求全國新建大型、超大型數據中心平均電能利用效率降到 1.3 以下,國家樞紐節點進一步降到 1.25 以下的標準。智算數據中心能耗問題屬于全球性挑戰,隨著技術的不斷進步和市場需求的增加,能耗將持續增長。中國在智算數據中心的建設和能耗管理方面正展現出積極的發展趨勢,并有望在未來幾年內實現顯著的能效提升。_節能技術與

73、應用在 AIDC 基礎設施建設中應當積極進行新型節能技術探索與應用,通過創新節能技術與應用實現更低的 AIDC 能耗和運營成本,AIDC 作為新型基礎設施,其散熱和節能技術尤為關鍵,以適應不斷增長的算力需求,助力于國家對于綠色發展和“雙碳”目標的實現。AIDC 供電技術。發展清潔能源為 AIDC 供電:直接部署清潔能源采用太陽能、風能、水能等清潔能源發電為 AIDC 供電。儲能技術包含儲熱、儲氫、儲電多種方式,由于不同技術適用的場景不同(包括能量和功率),其中儲電技術應用最為廣泛,又可分為物理儲電和化學儲電。儲能技術的發展與利用,彌補了太陽能、風能等間歇能源的不足。UPS 使用高頻機替換工頻機

74、。對于工頻機,發電機的容量至少要 3 倍于 UPS 功率;對于高頻機,輸入功率因數可做到 0.99 或以上,諧波電流小于 5%,前置發電機的容量理論上和 UPS 功率相同,大大縮減了投資和占地面積等。高壓直流(HVDC)代替UPS。相較于 UPS,HVDC 在備份、工作原理、擴容以及蓄電池掛靠等方面存在顯著的技術優勢,因而具有運行效率高、占地面積少、投資成本和運營成本低的特點。降壓和整流合二為一。隨著 AIDC 建設規模的變大,電力容量需求也越來 36 37 越大。需要提高供電的電壓等級來滿足容量需求。這時我們需要通過降壓變壓器將中高壓電源降壓到 AC 380V,再由HVDC 為服務器等供電。

75、降壓過程也存在能量損失,將降壓與整流合二為一來有效降低能量損耗。負載端升壓降損。隨著芯片集成度增加,服務器整機功率密度逐步呈現上升趨勢,末端柜機、板載電源也需要提高 DC-DC 供電的電壓等級來滿足容量需求,并減少中間降壓環節,避免損耗。AIDC 散熱技術。AIDC 在選擇合適的散熱技術時,需要綜合考慮散熱效率、成本、運維難度、環境適應性以及環保要求等因素,以確保數據中心的穩定運行和可持續發展,目前主流的散熱技術包括自然冷源散熱、間接蒸發冷卻、磁懸浮相變冷卻技術和液冷技術。其中:風冷技術是傳統的數據中心散熱方式,通過空氣流動來帶走設備產生的熱量。盡管風冷技術在高密度數據中心中的局限性逐漸顯現,

76、但一些 AIDC 仍在探索更高效的風冷解決方案。全自然風冷技術:通過直接新風自然冷卻 AHU 方案,降低常規制冷系統的能耗,減少碳排放。液冷技術是一種高效的散熱方式,尤其適用于高功率密度的 AIDC。冷板式液冷:通過在服務器節點內部使用冷卻液直接吸收熱量,然后通過外部的散熱系統將熱量排出。浸沒式液冷:將服務器完全浸沒在冷卻液中,利用液體的高熱傳導性進行高效散熱。相變式全浸沒液冷技術,利用液體相變潛熱,可顯著降低能耗。余熱利用:通過以上散熱方案結合將數據中心產生的余熱進行再利用,進一步降低能耗。智能運維管理:使用 AI 技術進行智能運維管理,優化 AIDC 的能效。隨著技術的不斷進步和創新,未來

77、 AIDC 的節能技術和措施將更加多元化和高效。38 PART?|AIDC?軟件設施概述_資源管理與監控AIDC 資源監控管理挑戰隨著人工智能(AI)技術的迅猛進步,大規模計算資源的需求急劇增長。AI 模型的訓練、優化和推理過程均需要強大的計算能力作為支撐。為了提升訓練速度,我們常將大型模型的訓練任務拆分為多個子任務,并借助多個節點進行并行計算。然而,這種做法不僅導致了集群成本的顯著上升,還對整個系統的穩定性構成了威脅。大規模集群的運行和維護帶來的高額成本,已經成為大模型訓練過程中亟待解決的突出問題。加速卡故障率高:當前大規模語言模型訓練需要大量的加速卡來訓練,如 GPU 等。GPU 在長時間

78、高負荷運轉下,由于持續承受巨大的計算壓力,故障發生的概率會顯著增加,導致整體故障率較高,頻繁的故障會導致訓練中斷、計算浪費和集群空轉,從而造成大量的時間和算力浪費。同時我們在對 GPU 訓練集群的監測中發現,一個月內單卡的故障率達到了約 9%,這意味著平均每天單卡的故障率約為 0.3%。常見的故障原因包括 Xid、ECC、NVLINK 以及 NCCL 等錯誤,千卡訓練 LLMA2 65B 的耗時分布如圖 3-16 所示。圖 3-16 千卡訓練 LLMA265B 的耗時分布圖存儲故障對 AI 業務影響:在 AI 訓練和推理的場景下,它負責存儲和管理海量的數據,為訓練和推理任務提供穩定、高效的數據

79、訪問服務。由于存儲系統的復雜性和分布式特性,以及訓練業務的多樣性,存儲問題?難以被及時發現。具體來說,存儲問題可能包括性能瓶頸、數據損壞、容量不足等,這些問題都可能對訓練業務造成嚴重影響。例如,性能正常61%8%3%4%6%10%8%XID錯誤ECC錯誤網絡錯誤NCCL錯誤NVLINK錯誤checkpoint 38 39 瓶頸可能導致訓練速度變慢,甚至導致訓練任務失??;數據損壞可能導致模型精度下降,甚至需要重新開始訓練;容量不足則可能限制訓練數據的規模,從而影響模型的性能。故障難以及時定位:分布式任務由于涉及龐大的資源量,更容易遭遇硬件故障、網絡問題、軟件錯誤等多樣化的挑戰,這些因素可能導致訓

80、練進程的突然中斷。而缺乏統一且高效的監控工具和完善的監控指標體系,?導致關鍵指標被忽視,給整個系統的穩定性帶來嚴重威脅。如果監控指標設置過于片面,僅聚焦于硬件資源的使用情況,而忽視了應用和業務等關鍵維度的各項指標,那么某些潛在問題可能就無法及時發現并妥善處理。資源管理挑戰:隨著技術的不斷進步和模型復雜度的提升,AIDC 需要處理的數據量和計算任務量急劇增加,這要求智算中心必須具備高效的資源管理能力。然而,傳統的資源管理方式?無法滿足這種需求,導致資源利用率低下,甚至可能出現資源浪費的情況。AIDC 的資源管理涉及到多種硬件和軟件資源的協調與配合,還需要考慮如何降低能耗和成本。隨著計算任務的增加

81、,AIDC 的能耗和運營成本也在不斷上升。如何通過優化資源管理方式,降低能耗和成本,提高 AIDC 的運營效率,是另一個需要面對的挑戰。AIDC 資源監控管理解決方案AIDC 資源監控管理系統為集群管理人員提供物理設備、集群資源、數據流及計算任務的全方位監控與管理功能。針對異構網絡監控管理,采用一體化綜合監控技術解決數據共享、監控手段單一和故障漏檢等問題,提升 AIDC 系統的可靠性、效率和運維便捷性。一體化監控異構資源,全方位監控管理一體化綜合監控技術,監控各種計算資源,包括 CPU、GPU、TPU 等,以及存儲和網絡資源的使用情況。平臺實時收集分析數據,了解資源負載與可用性,進而實施管理與

82、調整。全生命周期管理,高效可控管理提供了作業全生命周期管理,能夠讓開發者跟蹤作業狀態、為訓練優化提供必要的信息、分析平臺資源使用率狀態、幫助制定資源使用率提升方案。同時提供完備、高效的異構計算資源管理,從數據加速、網絡優化、業務系統無縫對接等維度保障 AI 業務,實現開發者便捷無感知的開發模式和管理者高效可控的管理模式。便捷高效異構計算管理,充分發掘算力價值針對異構算力資源接入與管理,建立加速卡管理模型,可以實現零業務代碼修改和異構算力資源接入、配額管理、算力使用的配置化流程,以及異構加速卡的類型識別、算力識別。同時提供報表統計、監控告警功能,使平臺管理員能夠獲取異構算力的健康狀態及使用情況,

83、可以通過配置化的方式實現異構算力資源的接入和管理。良好的適配性和通用性,42 PART?|AIDC?自定義指標采集云跡智算平臺集成prometheus生態,擴展Prometheus自定義Exporter的功能。允許用戶通過編寫和配置采集腳本(支持 Python、Shell、Batch 等語言)來輕松定義和收集監控指標數據。滿足 AI 訓練和推理的復雜場景下的監控擴展。日志采集在 AI 模型訓練中,日志分析是一個關鍵過程,日志采集將訓練過程中的重要事件和錯誤信息等進行收集歸整,云跡智算平臺的日志采集能力如圖 3-19 所示。并且,云跡智算平臺將重要日志,如 xid 錯誤日志、ECC 日志等進行重

84、點記錄,包含模型的詳細信息,如模型名稱、訓練開始和結束時間、訓練過程中的重要事件以及任何異?;蝈e誤信息,以更好地了解模型訓練過程、診斷問題以及優化模型的性能。圖 3-19 云跡智算平臺日志采集能力示意圖故障定位如圖 3-20 所示,云跡智算平臺將故障按照其出現的位置劃分為以下幾類:應用層故障、集合通信層故障、GPU 層故障以及網絡層故障。根據故障的現象,將其大致分為環境問題、性能問題和網絡問題。實時?流采集關鍵指標監控實時日志采集基于?警的規則設多?通?機制日志?與通?表、統計?展?表?設計與定制日志可?化展?多源?集長期存儲與?策略日志?集與存儲?分析工具報表生成與制定日志分析與?表?異常?

85、故障定?與分析故障診斷與問?定位系統?,?iD錯誤運行?、錯誤?GPU相關日志數據加密傳?權?管理與訪問控制安全與隱私保護強大的?引?支持?活的過?件設?日志?與?44 PART?|AIDC?圖 3-21 云跡智算平臺故障自愈流程圖故障恢復功能,它不僅能夠幫助企業用戶及時發現并告警 GPU 故障,還能夠根據具體業務運行情況,執行用戶授權的自愈恢復操作,從而建立完善的 GPU 故障應對機制和備份方案,保障計算資源的穩定運行。設備巡檢隨著模型參數量的增加和訓練復雜性的提高,所需的集群規模會越來越大。防范故障是關鍵一步,云跡智算平臺致力于防范潛在風險,可以對集群、網絡及訓練任務進行定期巡檢,并對潛在

86、問題進行系統化管控,以防止惡化成為故障。分布式存儲和網絡統一監控管理云跡智算平臺在一個集中的界面中監控和管理所有的分布式存儲和網絡設備,可以實時收集和分析分布式存儲系統和網絡的狀態信息,可以監控硬件狀態(如硬盤、服務器、網絡設備)、系統性能(如 I/O 速率、網絡延遲、帶寬利用率)、以及應用程序性能(如響應時間、事務處理速率)。AIDC 資源監控管理是智算數據中心和云計算環境中的關鍵組成部分,它們確保了系統的高效運行和資源的優化利用。通過實時監控應用和基礎設施性能,系統能迅速識別并響應潛在問題,減少故障時間。這一機制使得 AIDC 業務計算能夠自動執行故障預案,迅速恢復服務,極大減少了人工干預

87、的需求。_資源調度與運營資源調度與運營平臺,已經成為 AI 數據中心的標準底座。由于 AI 基礎設施設備價格昂貴,增強調度算法來提升分布式訓練的資源利用率是一個收益極大的途徑。算力調度平臺能夠整合不同來源、類型和架構的算力資源,實現統一調度與故障場景?結?結果復?故障通?創建故障事件?行自?策略 44 45 運營,從而提高整體的資源利用率。通過智能化的調度和管理,AI 可以幫助降低 AIDC 的建設和運營成本。AIDC 資源調度與運營需求算力調度的目標是實現算力資源的合理分配和利用,確保算力的需求和供給達到平衡,提升 GPU 整體的利用率,需要實現以下幾個方面的能力。異構資源管理k8s 能夠管

88、理和調度異構類型的計算資源,包括 CPU、GPU 以及專門的 AI 加速器。簡化運維流程k8s 通過自動化的方式簡化了部署、監控和管理 AI 應用的復雜性。彈性資源利用AI 應用通常對資源有高需求,特別是在訓練階段。k8s 可以根據工作負載的需求動態分配和擴展資源,提高了資源利用率,降低了成本。支持大規模部署隨著 AI 模型變得越來越大,k8s 提供了必要的工具和支持,以支持這些大型模型的部署和管理。AIDC 資源調度解決方案構建一個異構計算集群的管理平臺需要整合多項技術和功能。需要實現計算集群物理資源的統一管理和靈活的調度策略,同時支持AI開發作業的全流程工作負載,以支持AI訓練任務。對集群

89、的全面監控和告警機制,可以確保系統的穩定運行,并提供故障容錯能力。通過詳盡的統計報表展示集群資源和作業處理情況,并引入自動化運維服務,可以實現高效、標準化的 AI 開發流程和可擴展的基礎設施管理。資源統一管理可采用分布式資源管理系統(如 Kubernetes、Hadoop YARN)來統一管理 CPU、GPU、TPU、MLU、DCU 等不同類型的計算資源。實現資源調度算法,確保作業能在合適的資源上運行。設計多種調度策略(如公平調度、最小化響應時間、最大化資源利用率等),根據不同場景需求自動選擇。實現自定義調度策略,以適應特定的業務需求。集群物理資源監控與告警可部署監控系統(如 Promethe

90、us、Grafana)實時監控資源使用情況。當監測到資源異?;蛐阅芷款i時,系統自動觸發告警通知。并提供作業狀態追蹤和日志管理功能。集群設計故障檢測、恢復機制,確保作業在節點故障時能夠自動遷移。實現數據冗余和備份策略,保障數據安全。集群資源和作業吞吐的統計報表通過加入集成統計和報告功能,自動生成資源和作業的性能報告。提供可視化的報表,幫助用戶分析和優化資源使用。自動運維服務通過腳本或自動化工具(如 Ansible、Chef、Puppet)減少人工干預,實現自動化的系統運維任務,如軟件更新、系統優化、資源清理等。46 46 PART?|AIDC?AIDC 資源調度最佳實踐超云 AI 平臺(SCAI

91、PaaS)是針對人工智能訓練、推理提供的一站式解決方案。平臺實現對多集群多節點的算力、存儲等基礎設施資源池化;平臺具備多租戶多層級用戶管理、權限管理、資源管理、vGPU 等能力;平臺集成 Tensorflow、Caffe、pytorch、PaddlePaddle、MXNet 等多種常用 AI 框架,同時支持用戶根據業務需求進行自定義計算框架,實現從數據管理、模型開發、模型訓練、模型管理、模型測試及發布的全生命周期管理。超云 AI 平臺支持開發實例的持久化,內置支持在線交互開發,并可對接第三方開發工具;平臺內置對節點 CPU、內存、網絡、磁盤、加速卡健康狀態及性能情況的報警設置,支持用戶自定義報

92、警觸發以及報警恢復的后置處理,支持自定義報警通知模板;平臺支持用戶自定義報表數據的獲取統計;平臺支持同時對接多種存儲系統,支持不同硬件構成的異構計算單元,可支持主流國產化芯片。超云 AI 平臺支持各種靈活的調度算法,十幾種調度模式能夠滿足不同場景需求?;谄脚_工程理念的算力服務化能力可以實現自助選擇、自動化部署、自助提交作業、自助數據管理、自助監控告警、費用分析。強大的算力運營支撐體系,包括支持將普通算力、超算、智算統一計量計費,費用化管理,算力供應商管理等。統一的運營門戶,可以幫助供應商和用戶對算力商品統一管理,實現運營活動標準化、算力數據的統計分析、行業算力數據和費用數據的統一展示。46

93、47 47 AIDC 安全設計PART 4 48 PART?|AIDC?物理安全AIDC 的物理安全是指保護 AIDC 免受自然災害、人為破壞、盜竊和其他物理性威脅,確保 AIDC 的基礎設施、硬件、數據和運營不受損害,保持業務的連續性和數據的完整性。確保數據中心物理安全可以考慮以下因素:地理位置:選擇自然災害發生頻率低的區域建設。設施安全:包括防火、防水、防盜、防電磁干擾等。使用電磁屏蔽材料,保護設備免受外部電磁干擾。安裝自動滅火系統和火災報警系統。環境控制:確保恒溫、恒濕,以及良好的通風和散熱系統。安裝溫濕度傳感器、煙霧探測器、水浸探測器等,實時監控環境狀況。訪問控制:實施嚴格的門禁制度和

94、來訪登記制度。部署高清攝像頭,對關鍵區域進行 24 小時監控。使用 IC 卡、生物識別技術等,控制人員進出關鍵區域。AIDC 的建設和運營成本高昂,物理安全措施有助于保護這些投資,避免因安全事件導致的財產損失,減少或避免因服務中斷而造成的經濟損失和信譽損害。同時物理安全措施可以增強客戶對企業的信任,客戶更愿意將數據和業務托付給那些能夠確保其信息安全的 AIDC。AIDC 的物理安全是確保業務穩定、數據保護和遵守法規的關鍵,對于任何依賴AIDC 的組織來說都是至關重要的。網絡安全AIDC 的網絡安全是指保護 AIDC 的網絡系統、設備、服務和數據不受未經授權的訪問、篡改、破壞或泄露。保護 AID

95、C 網絡安全的措施包括:邊界防御:使用防火墻、入侵檢測和防御系統(IDS/IPS)保護網絡邊界。內部監控:網絡安全審計,流量監控,異常檢測。48 49 數據加密:使用 VPN、SSL 等加密技術保護數據的傳輸安全。安全策略:制定和執行網絡安全策略,包括網絡隔離、數據訪問控制等。網絡攻擊可能導致服務中斷,影響 AIDC 的運營和客戶滿意度,強大的網絡安全能夠減少這種風險,確保業務的連續性。數據泄露或網絡攻擊可能嚴重損害企業的品牌和聲譽,甚至可能導致直接的經濟損失,網絡安全的保障有助于維護客戶的信任。AIDC的網絡安全對于確保業務穩定、數據保護和遵守法規至關重要,是在AIGC時代必須重視和投資的關

96、鍵領域。數據安全與隱私保護AIDC 的數據安全與隱私保護指的是確保存儲在數據中心中的數據不被未授權訪問、泄露、篡改或破壞的措施,同時保護個人和企業的隱私權利。這包括了對訓練結果、算法模型、敏感數據、商業秘密和其他有價值信息的保護。確保數據中心數據安全與隱私保護的措施包括:數據加密:對存儲和傳輸的數據進行加密處理。數據備份:定期進行數據備份,并確保備份數據的安全性。數據恢復:建立數據恢復流程,確保在數據丟失或損壞時能夠快速恢復。訪問控制:實施細粒度的訪問控制,確保只有授權用戶可以訪問敏感數據。數據脫敏:對敏感數據進行脫敏處理,以防止未授權訪問。商業秘密和知識產權是企業競爭力的核心,保護這些信息免

97、遭泄露或盜竊對于維持市場地位至關重要,確??蛻魯祿踩梢栽鰪娍蛻魧?AIDC 的信任,促進客戶忠誠度和業務增長。同時,數據安全措施也可以確保 AIDC 能夠在面臨數據丟失或系統損壞的情況下快速恢復,減少業務中斷。數據中心數據安全與隱私保護對于數據中心來說至關重要,不僅是為了遵守法律和維持客戶信任,也是為了保護企業的資產、促進業務增長和確保長期成功。50 50 PART?|AIDC?業務連續性與災難恢復AIDC 的業務連續性是指 AIDC 在面臨各種潛在的威脅和風險時,能夠維持關鍵業務功能正常運行的能力。這包括了對硬件故障、人為錯誤、網絡攻擊、自然災害等可能導致業務中斷的事件的預防和應對措施。

98、災難恢復是指在企業遭受嚴重的數據丟失或系統損壞的情況下,能夠迅速恢復數據和系統功能,以最小化業務中斷和損失的計劃和過程。災難恢復是業務連續性計劃的一部分,專注于在災難發生后如何恢復數據和系統。確保業務連續性與災難恢復的措施包括:業務影響分析:評估潛在風險對業務的影響程度,確定業務關鍵功能和恢復時間目標,同時識別和分析可能對AIDC 造成威脅的各種風險。業務連續性計劃:制定詳細的業務連續性計劃,包括預防措施、應急響應流程和恢復策略等。災難恢復計劃:制定災難恢復計劃,包括數據備份、備份數據存儲、恢復流程和測試等。數據備份和冗余組件:定期備份數據,并將備份數據存儲在安全的地方。部署冗余的硬件、網絡和

99、電源系統,以減少單點故障的風險。確保關鍵業務功能在災難發生時能夠持續運行,有助于企業在面臨災難時保持收入流,減少因服務中斷而造成的經濟損失。在災難發生時迅速恢復服務能夠提高客戶滿意度,增強客戶對 AIDC 的信任和忠誠。數據中心業務連續性與災難恢復對于確保 AIDC 在面臨各種威脅和風險時能夠持續運營,保護企業的長期成功和聲譽至關重要。50 51 51 AIDC 基礎設施建設白皮書案例分析與最佳實踐PART 5 52 PART?|?西云案例介紹寧夏 AIDC 項目占地 70 畝,建筑面積近 2.8 萬平方米,包含三棟高規格自然風冷高密度機房,采用多種創新技術,專業為支撐人工智能大模型產業的發展

100、,構建綠色安全的算力基礎設施。西云算力通過優化選址和創新制冷、變配電技術,建設了丹摩智算平臺(https:/),實現了綠色低碳和 PUE、WUE 的極致優化。丹摩智算平臺基于先進可靠的 IDC 機房環境和大規模高性能計算集群、存儲集群與智算網絡,提供 CPU/GPU 算力集群、CPU/GPU 裸金屬服務和高性能存儲服務。支持 AI 訓練、AI 推理、高性能計算等廣泛的并行高性能計算場景,并提供定制化部署服務。丹摩智算平臺計算節點提供十余種高性能計算卡,可提供 140PFLOPS 的 GPU 算力以及超 10 萬個 CPU 計算核心。GPU 配置大內存并具備高內存帶寬,CPU 和 GPU 之間建

101、立高效數據傳輸鏈路,均確保了提供足夠的資源來支持人工智能模型的訓練和推理。丹摩智算平臺高性能存儲采用全閃存陣列,文件系統可支持 100GB/s 的吞吐和 260 萬 IOPS。高性能存儲系統支持高并發訪問,確保多個節點能夠高效地讀取和寫入數據,而不會造成性能瓶頸。并且,在計算節點之間以及計算節點與存儲節點之間均采用 IB 網絡。高并發、高性能的存儲服務與高帶寬、低時延的網絡相輔相成,避免了存儲及網絡性能瓶頸,使計算節點性能最充分發揮。丹摩智算平臺是寧夏首個采用全自然風冷技術的 30KW 機柜人工智能數據中心,利用新風來消除數據中心的余熱。配置新風 DX 型 AHU 及相關管路設備、風道等設備均

102、為工廠預制,現場施工周期大大縮短,工廠預制產品級管理,質量更可控。所有風口增加過濾,進入機房增設門廳,采用雙層隔離防灰系統;機房內添設 24h 空氣顆粒檢測,并設置報警及處理機制。所有機柜包括網絡等機柜設置應急新風制冷,網絡機房增設應急 TF 風機及配套風閥。30KW 高功率密度風冷機柜的應用,大幅提高了土地利用率,節約了超過 30%的土地資源。創新的直接新風自然冷卻 AHU 方案,大幅降低了常規制冷系統的風扇和壓縮機功耗,降低碳排放,充分結合氣候條件,從而使 PUE 值達到較理想的標準。52 53 最佳實踐分享公共算力服務中心建設在信息化和數字化技術迅猛發展的當下,政府和企業對算力的需求正急

103、劇增長。依托強大的算力支持,政府能夠將公共服務的整合、業務系統的融合、服務數據的集中管理、以及數據資源的共享與交換等功能,有效融入智慧城市建設中。這不僅提升了政府決策的科學性,增強了社會治理的精準度,還極大提高了公共服務的效率。人工智能技術的不斷進步,正促使智慧城市從單純的數據化向全面的智能化轉型。公共算力服務中心在此過程中扮演著至關重要的角色,它為人工智能算法的訓練、推理和應用提供了必要的計算支持,加速了人工智能技術在各行業的實際落地。通過建設公共算力服務器中心,不僅可以滿足當前的算力需求,還能為未來的技術進步和產業發展提供可持續的動力。以下以丹摩智算平臺為例,展示公共算力服務中心的最佳實踐

104、。算力基礎設施基本情況 服務器數量:3000+GPU 卡數量:2500+算力規模:140PFLOPS 算力集群網絡:RoCE+IB 互聯網帶寬:電信/聯通/移動服務能力 丹摩算力服務平臺上線運營中 可支持目前全部開源大模型和國內頭部大模型企業的訓練需求 可支持各類大模型的推理服務需求運維及安全管理經驗 對運維問題第一時間記錄,并定期總結分析。建立的完善的監控系統和報警規則,第一時間發現和處理問題。平臺版本更新上線前進行安全掃描,確保安全問題處理后才可發布。有詳細的安全操作規范和審計流程。54 55 基礎能力層提供數據預處理、向量庫優化、模型對接、開放 API 等基礎服務能力,為具體的產品能力接

105、口支撐。產品能力層實現 AI 應用管理、知識庫管理、用戶管理及商業化插件模塊,為各類業務場景提供服務能力和管理能力。超云 AIGC 一體化解決方案是一個多層次、高效能的技術體系,它不僅提供了強大的基礎架構和算力支持,還通過先進的網絡傳輸層和大模型層,實現了智能化服務的高效交付。通過這個方案,企業能夠享受到全面的智能化服務,從而實現工作效率的大幅提升和用戶體驗的全面優化,加速步入數字化、智能化的新時代。56 PART?|?56 總結與建議PART 6 56 57 建設 AIDC 的重要性在數字化時代,算力作為融合信息計算力、網絡運載力、數據存儲力的新型生產力,正逐漸成為社會發展的關鍵驅動力。AI

106、DC(人工智能數據中心)作為算力基礎設施的典范,不僅提供強大的計算服務,還具備多元泛在、智能敏捷、安全可靠、綠色低碳等特性,對促進產業轉型升級、賦能科技創新、滿足人民對美好生活的向往以及實現社會高效能治理等方面起著至關重要的作用。AIDC 是科技創新的重要引擎。它為科學研究、技術開發和創新活動提供無與倫比的計算和數據處理能力,從而加速科研成果的轉化和技術革新的突破。AIDC 正助力工業制造、農業、金融服務等傳統產業實現數字化和智能化的飛躍,極大提升了生產效率和產品質量,為產業轉型注入了新動能。在社會管理領域,AIDC 發揮著不可替代的支撐作用。它通過大數據分析和智能決策支持,顯著提高了政務服務

107、、城市管理、公共安全等領域的管理效率和成效。AIDC 為智慧城市和智能社會的構建提供了核心的計算與數據處理能力,為智能交通、智慧醫療、智慧教育等社會管理應用提供了強有力的技術支撐。AIDC 也是國家競爭力和安全的關鍵保障。在全球化的競技場中,AIDC 已成為衡量一個國家科技實力和綜合國力的重要指標。它在維護國家信息安全、防御網絡攻擊等方面的作用不容小覷。同時,AIDC 為科研人員和在校學生提供了實驗和研究的高端平臺,為人才培養和科研教育的提升做出了貢獻,增強了國家的軟實力。AIDC 在推動環境保護和可持續發展方面同樣發揮著重要作用。它通過優化資源配置和提高能源效率,為環境保護和可持續發展提供了

108、堅實的技術支撐。綜上所述,AIDC的建設不僅是技術發展的必然趨勢,更是經濟社會發展的迫切需求。它在推動科技進步、促進產業升級、提升社會管理水平、增強國家競爭力等多個方面都具有不可替代的戰略意義。隨著技術的持續進步和應用場景的不斷拓展,AIDC 的重要性將愈發凸顯,成為推動社會向前發展的重要力量?;A設施供應商的發展策略在AIDC建設中,選擇和發展基礎設施供應商是一個關鍵環節,需要采取一系列策略來確保供應商不僅能夠滿足當前需求,而且能夠提供持續的、高質量、可靠和高效的服務。以下是幾個關鍵策略的優化描述:58 PART?|?技術實力與創新能力評估:深入分析供應商的技術實力和創新能力,確保其能夠提供

109、前沿的技術解決方案,以滿足AIDC 在高性能計算和數據處理方面的高標準要求。全面質量保證:驗證供應商是否擁有完善的質量管理體系,能夠確保其產品和服務的穩定性與可靠性。這涉及到對供應商的生產工藝、材料選用、以及產品質量檢驗流程的細致評估。綜合成本效益分析:執行細致的成本效益分析,權衡初始投資、運行維護成本、長期運營成本以及未來升級成本,以甄選提供最佳性價比的供應商。定制化解決方案與服務靈活性:優先考慮那些能夠提供定制化解決方案和展現出高度服務靈活性的供應商,以適應AIDC 獨特的需求和市場變化??沙掷m性與綠色認證:傾向于選擇那些在環境保護、能源效率和可持續發展方面有明確承諾和實踐的供應商,以助力

110、 AIDC 實現其綠色環保的運營目標。持續創新與研發投入:重視那些不斷在研發上進行投入、推動技術創新的供應商,確保 AIDC 能夠持續保持其技術領先優勢。通過這些策略的實施,AIDC 建設能夠確保與最優質的供應商合作,為實現長期穩定發展和高效運營打下堅實基礎。超云提供從產品研發、架構設計優化到定制化運維的全方位服務。超云不僅能夠根據客戶需求進行基礎定制,還能提供產品功能定制和深度定制服務,確保產品在成熟穩定的同時,也具備高度的靈活性和適應性。超云對產品質量的嚴格把控體現在其通過 ISO27001 信息安全管理體系和 ISO9001 質量管理體系等多項國際認證。公司不斷在技術、人才和設備上進行投

111、入,建立了先進的實驗室,專注于液冷技術和低功耗設備的研發,致力于推動行業的綠色發展和技術創新。憑借其在技術創新和服務質量上的卓越表現,超云已經成為中國電子、國家電網、中國移動等眾多知名企業的信賴之選,服務于超過千家企業,展現了其在行業中的領先地位和強大的市場競爭力。西云算力憑借其自有數據中心的堅實基礎設施,不斷擴展其算力資源的規模,致力于打造一個以 AI 算力為核心,算力調度服務為支撐,安全管控為后盾的一站式專用算力服務平臺寧夏西部云基地綠色智算平臺。該平臺專為各種具體應用場景設計,提供深度定制化的解決方案。西云算力的服務質量得到了國際認可,已通過 ISO 9000(質量管理體系)、ISO 20000(服務管理體系)、ISO 27001(信息安全管理體系)等多項管理體系認證。這些認證確保了西云算力能夠滿足包括高性能計算、人工智能在內的廣泛應用場景的需求,并為客戶提供高度定制化的計算與存儲服務。通過這些服務,西云算力不僅保障了數據處理的高效性和安全性,而且通過其靈活的定制服務,滿足了不同客戶的個性化需求,進一步鞏固了其在算力服務領域的領先地位。2 PART 1|AIDC 概述

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(超云&ampamp西云算力:2024年AIDC基礎設施建設白皮書(64頁).pdf)為本站 (探險者) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站