《中國信通院:智算中心綜合評價報告(2024年)(53頁).pdf》由會員分享,可在線閱讀,更多相關《中國信通院:智算中心綜合評價報告(2024年)(53頁).pdf(53頁珍藏版)》請在三個皮匠報告上搜索。
1、智算中心綜合評價報告智算中心綜合評價報告 (2022024 4 年年)中國信息通信研究院云計算與大數據研究所 2024年9月 版權聲明版權聲明 本報告版權屬于中國信息通信研究院,并受法律保護。本報告版權屬于中國信息通信研究院,并受法律保護。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明注明“來源:中國信息通信研究院來源:中國信息通信研究院”。違反上述聲明者,本院。違反上述聲明者,本院將追究其相關法律責任。將追究其相關法律責任。前前 言言 當前數字化時代,人工智能等新一代信息技術飛躍式發展,智能算力逐漸成為科技產業技術創新、成果轉化與
2、應用落地的關鍵驅動力。我國正積極應對這一技術變革,加強智能算力的布局、研發和應用,以提升國家競爭力。2024 年 3 月,“人工智能+”首次被寫入政府工作報告。同年 9 月,工信部等十一部門發布關于推動新型信息基礎設施協調發展有關事項的通知,再次強調逐步提升智能算力占比。智算中心正面臨著前所未有的發展機遇與挑戰。構建一個全面覆蓋技術先進性、安全性與可用性,又重點突出服務能力及可持續發展能力的綜合評價體系,顯得尤為重要且迫切。綜合評價體系旨在通過科學的量化分析與客觀的價值判斷,評估智算中心的發展水平,前瞻性地引領其未來的發展方向。通過綜合評價體系,我們期望為智算中心的建設者提供決策依據,助力其優
3、化資源配置,提升建設質量;為運營者指明管理方向,促進其提升運營效率與服務水平;同時,也為使用者制定透明、可信賴的選擇指南,確保數據價值得以最大化實現。促進整個智算生態的良性互動與協同發展,推動智算中心從單一技術設施向集成化、全方位賦能的平臺轉型,為數字經濟的蓬勃發展注入源源不斷的動力。因時間和能力所限,報告內容有所疏漏在所難免,煩請各界不吝指正。如有意見或建議請聯系 。目目 錄錄 一、智算中心發展背景.1(一)智能算力成為經濟發展新引擎.1(二)智能算力需求多層面快速擴張.2(三)國家引導智算中心高質量發展.3 二、智算中心發展現狀.4(一)智算架構不斷豐富,評價體系由硬向軟演進.4(二)算力
4、結構不斷優化,智能算力規模逐步擴大.5(三)國家引導布局優化,持續扶持智算中心發展.6(四)企業成為重要主體,積極推進智算中心建設.7(五)通算智算齊頭并進,應用場景日趨多元豐富.8 三、智算中心發展挑戰.9(一)智算規模持續擴大,倒逼底層技術加速變革.9(二)算力應用門檻較高,普適普惠水平有待提高.10(三)智算業務靈活部署,算存運能力需全面增強.11(四)AI 服務器功率驟升,綠色低碳發展面臨挑戰.13(五)軟硬件一體化融合,智算中心追求提質增效.15(六)建設經營多元發展,統一評價體系有待構建.16 四、智算中心綜合評價體系.17(一)綜合評價體系構建.17(二)算力.19(三)存力.2
5、2(四)運力.26(五)安全性.28(六)可用性.30(七)綠色低碳.32(八)服務能力.37(九)智能運營.42 五、智算中心發展建議.45 (一)強化創新引領,提升自主研發能力.45(二)推動標準制定,促進技術規范發展.45(三)開展測試服務,助力評價體系完善.45(四)構建智算生態,推動全產業鏈協同.46 圖圖 目目 錄錄 圖 1 GDP、數字經濟及算力總規模的發展趨勢.2 圖 2 我國智算中心相關政策演進階段.4 圖 3 智算中心總體架構.5 圖 4 2023 年我國算力行業應用分布情況.10 圖 5 制冷技術 PUE 發展趨勢.14 圖 6 基礎設施&物理資源管理范疇.15 圖 7
6、智算基礎設施特征.18 圖 8 智算中心綜合評價體系.19 智算中心綜合評價報告(2024 年)1 一、智算中心發展背景 隨著人工智能技術的日新月異,特別是在大規模模型訓練與應用領域取得突破性進展后,當前算力需求呈現出增長態勢。黨的二十屆三中全會明確提出加快推進數字經濟與實體經濟深度融合,推動數字產業化、產業數字化,為智算中心的發展提供了更為廣闊的發展空間和機遇。智算中心不僅成為支持人工智能、大數據等技術在制造業、服務業中的深度應用平臺,也是在新型工業化進程中助力產業升級、實現高端化、智能化、綠色化的重要基礎設施。在政府政策的積極引導和技術創新的持續驅動下,智算中心建設得到了強有力的支持。同時
7、,市場對高效、穩定算力服務需求的激增,加之開源軟件如Kubernetes、Nomad 等技術的日益成熟,智算中心在產業智能化、企業數字化轉型中的作用愈發重要,推動了其持續快速發展。(一一)智能算力成為經濟發展新引擎)智能算力成為經濟發展新引擎 智能算力是數字經濟時代新的生產力,帶動數字經濟發展和GDP增長。數字經濟以數據為關鍵要素,以算力為核心生產力。智能算力支撐人工智能應用簡化復雜任務,實現個性化服務,提升生產力水平。當前,算力正從互聯網、電子政務等新興領域向服務、金融、制造、教育等傳統行業延伸,賦能傳統行業數智化轉型,激發經濟增長新動能。此外,智能算力的發展也在一定程度上影響著 GDP 增
8、長。從發展趨勢看,算力規模與經濟發展水平呈現出正相關,數字經濟規模和地區生產總值較高的省份,算力發展水平也較高。同時,算力對經濟具有輻射帶動作用。截至 2023 年底,我國算力規模達到 230 EFLOPS,智算中心綜合評價報告(2024 年)2 算力總規模近 5 年年均增速近 30%,GDP 增長 5.2%。來源:信通院、網信辦、國家統計局 圖 1 GDP、數字經濟及算力總規模的發展趨勢(二)智能算力需求多層面快速擴張(二)智能算力需求多層面快速擴張 宏觀上,智能算力的發展是新的時代要求。在數字經濟時代,讓算力真正成為像水電一樣的服務,使用戶實現一點接入、全算貫通。大國博弈在算力、數據、算法
9、等方面的競爭日益白熱化,據不完全統計,自 2017 年起共有 50 余國家發布人工智能戰略。習近平總書記強調,要把科技的命脈牢牢掌握在自己手中,在科技自立自強上取得更大進展。微觀上,算法模型愈加復雜,數據量急劇增長,應用不斷延伸,智能算力需求快速擴張。算法模型上,機器學習、神經網絡等技術顯著進步,算法復雜度和精度不斷提高,大模型參數規模呈現指數級增長。從 GPT-3 到 GPT-4 大模型,參數量實現了從 1750 億到 1.8萬億的跨越。數據量上,我國數據規模持續擴大,2023 年數據生產總智算中心綜合評價報告(2024 年)3 量達到 32.85 澤字節(ZB)1,同比增長 22.44%,
10、非結構化數據爆發式增長,通用算力已經難以完成視頻編解碼、游戲渲染等新型應用背后的大量非結構化數據處理。應用場景上,人工智能在各行業應用程度不斷加深,應用場景愈發廣泛。自動駕駛、智能家居、醫療影像診斷等新興場景對智能算力的需求日益旺盛。(三)國家引導智算中心(三)國家引導智算中心高質量高質量發展發展 政策引導力度逐漸加大,推動智算中心高質量發展。2020 年,國家發改委將智能計算中心納入新基建范疇。2021 年,國家相關部門發布了“十四五”數字經濟發展規劃、新型數據中心發展三年行動計劃(2021-2023 年)等多項規劃,提出加快部署、統籌建設高性能智算中心,推動智算中心有序發展。2023 年,
11、數字中國建設整體布局規劃和算力基礎設施高質量發展行動計劃相繼出臺,提出優化算力基礎設施布局,引導通用數據中心、超算中心、智能計算中心等合理梯次布局,逐步合理提升智能算力占比。當前,國家對于智算中心從鼓勵建設轉向規劃布局,政策引導逐步深化,指引方向更加明確。在今年的兩會上,“人工智能+”被首次寫入政府工作報告,提到適度超前建設數字基礎設施。9 月 4 日,工業和信息化部等十一部門重磅發布 關于推動新型信息基礎設施協調發展有關事項的通知,提到打造具有影響力的通用和行業人工智能算法模型平臺,部署區域性人工智能公共服務平臺。1 全國數據資源調查報告(2023 年)智算中心綜合評價報告(2024 年)4
12、 來源:中國信息通信研究院 圖 2 我國智算中心相關政策演進階段 二、智算中心發展現狀(一)智算架構不斷豐富,評價體系由硬向軟演進(一)智算架構不斷豐富,評價體系由硬向軟演進 在傳統數據中心中,業界更多關注底層的風火水電等硬件設施。隨著人工智能技術的不斷發展,智算中心的概念逐漸明晰,其架構也在不斷完善和進化,從關注硬件擴展到更加注重軟件與硬件的協同設計與優化。工信部等十一部門在 9 月發布的關于推動新型信息基礎設施協調發展有關事項的通知 將智算中心定義為基于人工智能理論,采用人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的一類算力基礎設施。在智算中心發展階段,供電、制冷等底
13、層設施仍是關注的基礎,同時業界的焦點逐步拓展至軟件層和模型層。在硬件層,從過去單純地關注算、存、運單個系統的運行轉向 AI計算子系統、存儲子系統、網絡互連子系統的協同建設;在軟件層,智算中心綜合評價報告(2024 年)5 除了操作系統、數據庫、中間件等底層軟件,AI 開發框架和軟件加速庫進入研究視野。隨著 GPT-3 的出世,大模型的發展也是日新月異,大模型演進路徑從通用模型(L0)演進至行業模型(L1)及垂直領域(L2)模型。智算中心展現出不同于傳統數據中心的新變化,并且行業發展尚處于百家爭鳴的階段,這不僅要求評價體系從硬件向軟件演進,同時業界期望通過標準化體系去判斷各種產品或框架發展水平的
14、高低。圖 3 描繪了智算中心的總體架構,在關注硬件基礎設施的傳統評價體系的基礎上增加了智算中心新框架的描述。來源:中國信息通信研究院 圖 3 智算中心總體架構(二)算力結構不斷優化,智能算力規模逐步擴大(二)算力結構不斷優化,智能算力規模逐步擴大 算力結構上,智能算力需求日益增長,我國加快智算布局,智能算力的比例逐步提高。算力正從單一向多元化、智能化方向全面優化與演進,體現了信息技術的創新與進步。隨著人工智能技術的發展,智能算力占比顯著提高,并呈現出穩定的增長趨勢。截至 2023 年底,我國智能算力規模達到 70EFLOPS,增速超過 70%,智能算力占算力智算中心綜合評價報告(2024 年)
15、6 總規模比重超過 30%。算力結構優化不僅提升數據處理的速度與效率,還增強計算系統的靈活性和可擴展性,為各行業的數字化轉型和智能化升級奠定了堅實基礎。算力規模上,智算中心建設經歷了從百卡到十萬卡的階梯式發展。在智算中心發展的初期,市縣級智算中心以百卡規模起步,地方政府秉持“小步快跑,不斷嘗試”的原則,積極推動百卡集群小規模智算中心的落地,如南京、武漢等地率先探索幾十 P 至百 P 規模滿足數字政務需求。千卡集群主要分布在省會城市的智算中心,運營商出租算力和大型央國企自用算力,例如工行、招行、深交所等建設千卡集群算力規模在百 P 到千 P 之間。隨著調度技術的成熟和 AI 技術的廣泛應用,智算
16、中心步入萬卡及十萬卡集群,主要集中在 AI 企業和運營商,用于企業數字化轉型自用、大模型和服務出租。OpenAI 和微軟聯已建成 10 萬卡集群、Meta 發布了 1.6 萬卡、2.4 萬卡集群,特斯拉/xAI在 2024 年 7 月搭建了壯觀的 10 萬卡的超級集群。國內企業緊隨其后,騰訊、阿里也發布了超萬卡集群。字節跳動搭建了一個 12288 卡集群,研發 MegaScale 生產系統用于訓練大語言模型??拼笥嶏w在2023 年建成了首個昇騰萬卡算力平臺“飛星一號”。(三)國家引導布局優化,持續扶持智算中心發展(三)國家引導布局優化,持續扶持智算中心發展 在布局方面,國家不斷出臺相關政策對智
17、算中心在內的算力基礎設施進行優化部署。2021 年,新型數據中心發展三年行動計劃(2021-2023 年)發布,引導新型數據中心集約化、高密化、智能化建設,推動形成數據中心梯次布局。2023 年 10 月,算力基礎設施高質量智算中心綜合評價報告(2024 年)7 發展行動計劃 提出完善算力綜合供給體系,優化算力設施建設布局,促進東西部高效互補和協同聯動。同年 12 月,國家發改委等五部門發布深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見,提出了包括構建全國一體化算力網、算力的一體化布局、東中西部算力的一體化協同等在內的重點工作部署,以推動新增算力向國家樞紐節點集聚。(四)企業成為
18、重要主體,積極推進智算中心建設(四)企業成為重要主體,積極推進智算中心建設 在政府的積極引導下,電信運營商勇擔使命,建設部署取得積極成效。三大基礎電信運營商將智算中心與算力網絡建設作為發展方向,并融合技術、應用等優勢,加快落實布局東西部算力基礎設施建設。中國電信通過建設全國“2+3+7+X”公共智算資源池,特別是在京津冀、長三角地區建設的液冷單集群萬卡智算池。中國移動則依托算力網絡“4+N+31+X”資源布局體系,統籌規劃“N+X”智算中心布局。中國聯通則致力于打造面向算力供給的數智新底座,加速推進智算中心建設升級,在數據中心“5+4+31+X”基礎上打造“1+N+X”智算集群。三大運營商均致
19、力于通過技術創新和服務升級,推動算力成為像水電一樣“一點接入、即取即用”的社會級服務,為數字經濟發展注入新動能。第三方數據中心服務商緊跟“東數西算”布局規劃指引。秦淮數據積極融入“東數西算”國家級零碳工程示范項目,依托甘肅慶陽豐富的可再生清潔能源,布局建設零碳數據中心產業基地,服務京津冀、長三角、粵港澳大灣區等區域的算力需求;萬國數據充分利用西部地智算中心綜合評價報告(2024 年)8 區“風、光、天然氣”等優勢資源,打造綠色智能數據中心;世紀互聯逐漸向西部地區擴大業務布局,計劃用地 200 畝于烏蘭察布建設云計算中心,并提升綠色能源使用比例。(五)通算智算齊頭并進,應用場景日趨多元豐富(五)
20、通算智算齊頭并進,應用場景日趨多元豐富 通算與智算兩種形態并存,共同構筑了現代計算的新格局。在數智化轉型和智算中心建設的浪潮中,以智算為代表的算力規模穩步增長,但同時各類應用場景對不同算力的需求也日趨多樣化和復雜化。2023 年 10 月,工信部等六部門印發的算力基礎設施高質量發展行動計劃強調了多元供給和優化布局的重要性。隨著智算中心建設的不斷深化,建設方逐漸認識到能力和目標單一的智算中心區域性和行業性依賴強,難以應對復雜多樣的應用場景,無法充分發揮智算中心價值。在此背景下,“一中心雙引擎”(智算中心同時提供智算和通算資源)、超算中心的 AI 升級改造、云計算中心標配智算云服務等新建設場景不斷
21、涌現。新場景呈現出如下特點:互補性,通算、智算和超算合理配比并有機組合,使計算中心能夠提供更靈活、全面和高效的算力服務;協同性,在某些復雜應用中,將通算、智算和超算的能力結合起來,以實現最優的性能和效率;靈活性,算力中心能夠根據多樣化的算力需求變化動態調整、靈活調度資源分配,甚至定制需求的算力資源;可擴展性,算力中心在特定算力不足的情況下,能夠快速實施工程擴容或線上動態擴容,保證充足的算力資源。智算中心的多樣化算力發展是響應不斷變化的算力需求和經濟挑戰的必然結果,智算中心綜合評價報告(2024 年)9 有利于智算中心投資規劃的理性化回歸,有利于加速智算中心向大型化、智能化、綠色化方向的發展,有
22、助于數字經濟和社會的持續發展。三、智算中心發展挑戰(一)智算規模持續擴大,倒逼底層技術加速變革(一)智算規模持續擴大,倒逼底層技術加速變革 AI 應用場景對冷卻的要求較高,風冷難以消解局部熱點。大規模訓練對于計算資源、存儲能力及散熱效率的要求尤為苛刻。一方面,在進行深度學習模型、大數據分析等復雜計算任務時,高強度的數據處理和運算會導致硬件設備產生大量熱量,高溫環境將嚴重影響硬件的性能穩定性和使用壽命,甚至可能引發系統故障。另一方面,智算中心業務流量峰谷波動顯著,業務高峰期服務器集群需要滿負荷甚至超負荷運行,局部熱點問題突出。風冷技術受限于空氣的熱傳導效率及風流組織的均勻性,難以快速且精準地應對
23、服務器內部復雜的熱量分布,局部熱點難以有效消除。此外,風冷系統對于環境溫度變化的響應速度相對較慢,難以實時匹配業務負載變化帶來的熱量波動,這在對溫度敏感的高性能計算任務中尤為明顯。液冷技術可利用液體高導熱性,實現熱量的快速吸收和轉移,從而更有效地消除局部熱點。智算中心功率密度的不斷提升,供電架構日益復雜。與傳統數據中心相比,一方面,AI 芯片運行功耗峰谷特性明顯,算力需求高時功耗達最高設計值,低算力需求時功耗較低。且大模型訓練時間長,工作負載可以在峰值功率下,運行數小時、數天甚至數周。另一方面,智算中心對業務連續性要求高,供電系統平穩運行仍直接關系到智算中心核心功能的實時響應和執行效率。彈性供
24、電系統可采用大容量、智算中心綜合評價報告(2024 年)10 模塊化的高效不間斷電源,形成電力資源池,配備儲能系統,通過釋放存儲的能量來管理電力需求高峰,實現扛峰增載。(二)算力應用門檻較高,普適普惠水平有待提高(二)算力應用門檻較高,普適普惠水平有待提高 算力應用以互聯網為主,推動算力全行業普及應用尚存空間。據中國算力發展報告(2024 年)數據顯示,截至 2023 年底,我國算力行業應用主要分布在互聯網、企業、政務、金融等行業,占比分別為46.3%、21.3%、11.3%、7.8%,互聯網占比持續上升,政務占比進一步下降。其中互聯網主要可細分為公有云、網站、視頻、AI、電商、游戲、支付等領
25、域,占比分別為 16.2%、3.5%、7.4%、3.3%、4.8%、1.3%、0.9%。算力應用正從互聯網、電子政務等傳統領域,向服務、電信、金融、制造、教育等多個行業拓展。隨著智能算力在更多行業的應用前景不斷顯現,智能駕駛、影視渲染等典型領域有望充分發揮智能算力在提升效率與決策能力中的優勢,應重點關注典型行業智能化轉型需求,以點帶面,助力全行業實現智能化升級。來源:中國信息通信研究院 圖 4 2023 年我國算力行業應用分布情況 智算中心綜合評價報告(2024 年)11 中小型企業亟需成本優化以促進商用算力的深度應用與發展。一方面,智算中心的前期建設和后期運維成本高,還配備了高價值的 AI服
26、務器、高性能芯片和液冷系統等,總擁有成本居高不下。高成本通過價格傳遞機制導致智能算力租賃市場價格高。另一方面,盡管我國中小型企業有智能化升級的需求,但是目前追求降本增效更為迫切。而且大部分中小型企業處于行業價值鏈中低端,普遍存在專業人才缺乏、營收較低、抗風險能力弱等特點。對于中小企業而言,投入高算力成本進行智能化升級,難以帶來足夠收益,達到預期效果。(三)智算業務靈活部署,算存運能力需全面增強(三)智算業務靈活部署,算存運能力需全面增強 1智算深挖芯片潛力,算力調度與管理待優化 集群擴展對模型利用率(MFU)指標帶來挑戰。MFU 描述了在給定集群規模條件下,模型訓練時有效利用計算資源的性能指標
27、。一般來說,隨著集群規模的擴大,MFU 是呈現次線性的。在超大集群中,通信帶寬不平衡,隨著集群擴大無法掩蓋的集合通訊占比會增加,導致 MFU 逐漸降低。同時集群規模變大后,其穩定性、可用性降低會導致 MFU 下降。當前,以 GPU/NPU 為代表的通用加速芯片不斷更新架構工藝、持續升級性能,同時專用加速芯片仍在不斷發展。算力資源的全局調度和高效管理有助于提高算力利用率。從集中式計算系統到分布式計算系統,算力調用方式經歷了從固定資源到動態資源、從本地到云端的轉變。這一演進不僅提高了計算資源的利用效率和任務性能,還為企業和組織提供了更加靈活、可擴展的計算服務解決方案。通過虛擬化技術,可以將物理資源
28、轉化為虛擬資源,實智算中心綜合評價報告(2024 年)12 現資源的動態分配和靈活調度。隨著人工智能技術的不斷發展,混部技術和 AI 彈性容量的智能化程度將不斷提升。例如,中國移動智算中心(青島)通過引入自研智算平臺和先進算法,優化算力調度,可以更準確地預測應用負載和資源需求,從而實現超大規模訓練場景下的精細化資源管理,有效提升計算效率,榮獲算力性能 4A 等級認證。2AI 大模型算力需求大,存儲能力需同步升級 全閃存儲、分布式存儲、冷熱數據分離存儲等技術,推動智算中心的存儲向高效化和智能化發展。隨著數據類型由單模態向多模態和全模態轉變,數據量爆發增長。同時,大模型的訓練過程需要隨機讀取海量小
29、文件,以及快速保存模型數據集。高頻詞的讀寫使數據存儲系統必須提供高達 100M IOPS 的讀寫能力和上百 GB/s 的帶寬。過去廣泛采用的共享存儲搭配本地 SSD 盤的存儲架構,因受限于容量不足、易受計算節點波動影響以及缺乏容災備份機制等缺陷,已難以適應當前大模型發展的需求。而全閃分布式存儲可擴展至上百節點,單集群存儲容量可達數百 PB 以上,單個存儲節點能達到數百萬至上千萬 IOPS,10-20GB/s 帶寬,一般 10-20 個全閃存儲節點即可滿足 AI大模型下的性能要求,同時提供完善的數據保護機制和安全防護措施,實現數據在多個計算節點間的共享訪問,且管理運維簡便高效。3網絡性能需求提升
30、,技術創新刻不容緩 智算集群中計算節點的海量數據傳輸亟需高性能、超低延遲且支持無損傳輸的網絡互聯技術。為處理大規模智算集群帶來的海量計算任務,多維度并行被廣泛應用,包括數據并行、流水線并行、張量并智算中心綜合評價報告(2024 年)13 行和專家并行。通過多個 GPU/NPU 節點構建超大規模的計算集群,這幾種并行方式將數據或者模型切分到不同 GPU/NPU 訓練,并行數據需要在各個節點之間高速傳輸,以確保計算任務的高效完成。張量并行通信量是流水線并行和數據并行的 50 倍以上,業界通常采用機內定制的高速總線技術承載。流水線并行和數據并行需要跨多節點通信,通過超寬無損的網絡提供超大的帶寬和超快
31、的數據傳輸速度,從而確保數據在各個節點之間流暢地傳輸。大規模 AI 計算要求有效利用和高效分配網絡資源。傳統網絡的資源分配不均衡可能導致部分節點過載,從而降低整體網絡性能。隨著 AI 大模型應用的普及,多節點協同進行模型訓練的頻率和數據計算規模將顯著增加,集群規模擴展使得網絡資源負載不均的問題變得更加突出。高利用率的網絡能更好地管理和分配資源,確保每個節點充分利用,從而提高整體計算效率。提升網絡的資源感知能力將有助于更好地分配計算和網絡資源,實現網絡級負載均衡,提高整個集群的計算訓練效率,從而處理更多的計算業務,減少資源浪費和成本。(四)(四)AI 服務器功率驟升,綠色低碳發展面臨挑戰服務器功
32、率驟升,綠色低碳發展面臨挑戰 芯片 TDP 不斷攀升和集群部署方式導致總功耗不斷增加,能耗成為智算中心迫在眉睫的問題。一方面,AI 計算任務的復雜性和數據量的爆炸性增長,要求 AI 芯片具備更強的處理能力和更高的運算效率。AI 芯片設計不斷向更高集成度、更多核心數、更高頻率的方向發展,提升計算能力的同時也帶來了功耗的顯著增加。另一方面,為了降低網絡時延,智算服務器需要以集群的方式進行部署。將多臺服智算中心綜合評價報告(2024 年)14 務器連接在一起,形成一個統一的計算平臺,從而大大提高數據處理的速度和效率。據 Digital Information World 發布的報告,智算中心為訓練
33、AI 模型產生的能耗將為常規云工作的 3 倍,預計到 2030 年,智算中心的電力需求將以每年 10%的速度增長,而這對雙碳背景下的智算中心能效提升帶來了巨大的挑戰。液冷技術作為智算中心的高效制冷方案,可顯著提升散熱效率并降低電能使用效率(PUE)。采用風冷直膨散熱冷卻方式的數據中心PUE 一般在 1.5 左右。左右。因液體的熱導率較氣體可提高一個數量級,目前全球高密集度、高供電功率的超大型數據中心已逐漸引入液冷設備。自然冷卻也是一種具有巨大潛力的節能技術,能適應不同氣候條件和地區需求。例如,在南方炎熱地區,可采用高溫大溫差并聯冷水機組的方式來降低數據中心的溫度。在北方寒冷地區,可以采用直接空
34、氣自然冷卻的方式,提高能源利用效率。來源:中國信息通信研究院 圖 5 制冷技術 PUE 發展趨勢 智算中心綜合評價報告(2024 年)15(五)軟硬件一體化融合,智算中心追求提質增效(五)軟硬件一體化融合,智算中心追求提質增效 人工智能服務場景中,快速部署成為關鍵需求,智算中心面臨的建設和交付挑戰日益增加。用戶對交付時間的要求不斷縮短,復雜的組網與設備調試進一步加大了項目實施的難度,集群系統的性能、能效、可靠性、安全性等各方面都提出了更高要求。此外,如圖 7 所示,智算中心涉及的 L1 層(基礎物理設施層)和 L2 層(網絡、存儲及虛擬化層)也面臨嚴峻挑戰,尤其是 L2 層的集成需求變得日益復
35、雜,需要更高效的預制化建設模式。當前,集成過程的工具化不足,缺乏統一的高效集成工具平臺,導致項目從規劃到實施再到上線的周期被大大拉長,集成效率顯著降低,這不僅增加了企業的運營成本,也限制了 AI 服務快速響應市場變化的能力。來源:中國信息通信研究院 圖 6 基礎設施&物理資源管理范疇 軟硬一體化融合架構具備多方面技術優勢,將提升智算中心服務能力的質量和效率。在硬件層面,按照計算、存儲、網絡等資源類別的差異,整合硬件資源,形成同類資源池,實現 CPU(Central Processing Unit,中央處理器)、GPU(Graphics Processing Unit,圖形處理器)、NPU(Ne
36、ural Processing Unit)、FPGA(Field-Programmable Gate Array,智算中心綜合評價報告(2024 年)16 現場可編程門列陣)、ASIC(Application-Specific Integrated Circuit,專用集成電路)等多種異構算力的按需重組,能夠滿足不同場景中的應用需求。在軟件層面,推進硬件資源自適應重構,實現資源動態調整、靈活組合和智能分配,響應多應用、多場景需求。軟硬件融合架構發揮資源管理和調度系統的應用感知能力,建立起智能化融合架構,使軟件層面的全部資源在可調度的范圍內實現動態組合,能夠滿足多種應用場景的智能化需求。(六)(
37、六)建設經營建設經營多元發展,統一評價體系有待構建多元發展,統一評價體系有待構建 智算中心建設多元發展,評價體系碎片化,亟需構建統一標準,促進技術創新與產業升級健康發展。在當今數字化轉型的大潮中,智算中心作為支撐人工智能、大數據等前沿技術的關鍵基礎設施,其建設與經營正呈現出百家爭鳴的繁榮景象。各地政府、企業及科研機構紛紛投入資源,探索符合自身需求的智算中心建設路徑,推動技術創新與產業升級。在制冷方面,液冷包含了冷板式液冷和浸沒式液冷等多種方案,冷卻液介質也存在氟化液和硅基油等多種選擇。在供電方面,企業也對供電冗余提出了多種技術路線,根據實際情況采用 N+X冗余、2N 或者其他的冗余供電方式。除
38、了底層的基礎設施,上層網絡等隨著節點數量的增加有各種組網方式。此外,出于成本或者是可用性的考量,智算中心的各個系統的布局也存在差異。然而,這種多元化的發展模式也帶來了評價體系的碎片化問題。不同主體在智算中心的建設標準、運營效率、技術創新能力等方面存在顯著差異,缺乏統一、科學的評價體系來衡量其綜合效能。這不僅智算中心綜合評價報告(2024 年)17 增加了市場比較的復雜性,也可能導致資源錯配和重復建設,影響行業的健康可持續發展。構建一套統一、權威的智算中心評價體系可以引導行業健康發展,促進技術交流與合作,推動形成優勢互補、協同發展的良好生態。四、智算中心綜合評價體系(一)綜合評價體系構建(一)綜
39、合評價體系構建 目前我國算力評價主要可分為規格算力評價和算力綜合評價兩大類。前者主要關注硬件設備的計算性能,后者對算力系統進行多元的性能測試和分析。但是兩者的共同點都是聚焦在硬件基礎設施上,對上層軟件的考量較少。然而,隨著技術的快速演進和業務需求的復雜化,在應對人工智能應用場景,現有評價體系未能對軟硬件設備提供全面的考量。在原有評價體系的基礎上,本報告的綜合評價體系不僅涵蓋了智算中心軟硬件總體架構,還綜合考量了智算中心的特征。與傳統數據中心相比,智算中心具有高算力、大存力、高運力、高安全、高可用、高能效、智運營、優服務等特征。高算力、大存力、高運力構成了智算中心的算力底座。智算中心集成前沿的技
40、術元素,如人工智能算法、存算分離、大數據分析及高速網絡通信等,還配備高性能的計算硬件,應對大數據分析、深度學習、圖像處理等復雜多變的計算需求。同時,智算中心融入了綠色節能理念,通過采用先進的能效管理系統和節能設備,實現了計算資源的高效利用與能源消耗的顯著降低,展現出了高能效的特點。此外,在數據安全與隱私保護方面,智算中心構建了多層次的安全防護體系,包括數據加密、訪問智算中心綜合評價報告(2024 年)18 控制、安全審計等,全方位保障數據資產的安全性與用戶隱私,體現了其高安全性的顯著優勢。在業務連續性方面,智算中心通過全面的冗余設計、自動化的故障恢復機制等措施確保服務的高度可用性,即使在面對突
41、發故障時也能迅速恢復。通過深度整合從底層硬件資源到上層應用軟件的全棧技術能力并輔以先進的運營理念,智算中心能夠全方位地為用戶賦能,提供高度定制化、靈活可調的優質服務體驗。來源:中國信息通信研究院 圖 7 智算基礎設施特征 構建一個全面、科學、前瞻性的智算中心綜合評價體系不僅是對智算中心現狀的一次全面審視,更是對其未來發展潛力與方向的一次深刻洞察。對應“5+3+1”特征2,報告從算存運能力、安全可用性、綠色低碳、智能運營以及服務能力等多個維度出發,甄選了具有代表性的關鍵指標,旨在從多層次對智算中心進行綜合評價,甄別智算中心的優勢與不足,為其后續的優化升級提供明確方向;還能夠促進智 2 1 是指風
42、火水電,3 是指高算力、大存力、高運力,5 是高安全、高可用、高能效、智運營、優服務。智算中心綜合評價報告(2024 年)19 算中心之間的良性競爭與合作,推動整個行業的健康發展。來源:中國信息通信研究院 圖 8 智算中心綜合評價體系(二)算力(二)算力 算力是衡量智算中心處理能力的核心指標,直接關系到數據處理的速度與效率。算力是支撐“人工智能與大數據”產業蓬勃發展的重要“底座”,也是驅動經濟數字化轉型的新引擎。算力水平對智算中心整體服務水平起著決定性的作用。理論算力,即 AI 芯片的各類性能參智算中心綜合評價報告(2024 年)20 數的標稱值,奠定了性能上限。但在實際的運行中,算力發揮不僅
43、取決于芯片本身的計算能力,還受到顯存容量與帶寬、互聯技術以及系統架構設計等多方面因素的影響,往往發揮不出全部的算力性能,有效算力低于理論算力。對業務模型場景的支持能力也是考驗智算中心的重要標準,體現了智算中心適應不同應用需求、快速響應市場變化的能力。這不僅要求硬件平臺具備廣泛的兼容性,能夠支持多種框架和算法的運行,還要求軟件生態能夠提供豐富的算子庫、預訓練模型及工具鏈,以便用戶能夠快速部署和優化自己的模型。以商湯科技人工智能計算中心為例,該中心提供大規模彈性算力,支持超大參數的大模型訓練,旨在滿足上海和長三角地區對低延遲、高效能 AI 服務的需求。創新的低時延網絡設計和 RDMA 高速通信網絡
44、,進一步提升了訓練和推理的效率,推理服務的性價比提升了 3 倍,展現了較優性價比的 AI 服務效果,為智能制造等多個行業提供了堅實支持。此外,中國聯通上海臨港智算中心配備 1.5 萬架機架,是聯通“1+N+X”高等級算力集群的核心樞紐節點,基于統一聯通云底座構建多卡并行、多元共生、訓推一體的智算集群,實現了萬卡算力供給,榮獲智算中心算力性能 5A 等級認證。1.AI 芯片單卡峰值算力 AI 芯片的單卡峰值算力是衡量其性能的關鍵指標,它決定了芯片在處理人工智能任務時的最大計算能力。智算中心往往運行計算量大、數據海量密集的人工智能任務。而支撐任務運行的算力,最重要的組成部分是 AI 芯片,峰值算力
45、越高,表示芯片理論上能更快地完智算中心綜合評價報告(2024 年)21 成復雜的計算任務,如更快的響應實時應用的處理,尤其是在 AI 訓練和推理過程中需要處理的大量數據和并行運算。2.模型利用率(MFU)模型利用率指模型一次前反向計算消耗的矩陣算力與機器理論算力的比值,反映 AI 芯片的規劃、管理與使用情況。高模型利用率意味著更高效的資源使用,減少對額外硬件的需求。模型利用率可以反映出整體算力利用效率。3.線性度 線性度是衡量一個系統或模型輸出與輸入之間線性相關程度的指標。它表示系統在一定范圍內,輸出與輸入之間的比例關系保持穩定的程度。線性度好的系統,其輸出能夠較為準確地反映輸入的變化,呈現出
46、較為明顯的線性特征;而線性度差的系統,輸出與輸入之間可能存在較大的偏差或非線性關系。在智算場景中,線性度為單卡訓練擴展到多卡,單機拓展到集群的效率度量指標。線性度的取值范圍為01,數值越接近于 1,其性能指標越好。4.集群有效算力 智算中心通過集群方式對外提供服務。集群有效算力是指智算集群實際能提供的最大算力和理論最大算力的比值,表征智算中心的實際算力表現。在一個由多個計算節點組成的 AI 集群中,實際可用于執行人工智能任務(如模型訓練、推理等)的計算能力的總量不僅取決于單卡峰值算力,還依賴于整個集群的網絡配置、規模和算力利用率。有效算力更能反映集群在實際工作負載下的性能。智算中心綜合評價報告
47、(2024 年)22 5.模型訓練能力 智算中心對多元化訓練場景的高效支持能力,是衡量其算力適應性廣度的關鍵指標。由于人工調參的差異,AI 芯片適用的業務場景有偏好。智算集群應滿足多種模型在各個應用場景的訓練以及配套性能,比如,應能夠支持計算機視覺、語音識別、機器翻譯、推薦算法、大模型等應用場景下的代表性模型訓練與數據集處理。6.模型推理能力 推理也是智算中心的關鍵應用領域。從場景看,智算中心應能夠實現處理計算機視覺、語音識別、機器翻譯、推薦算法等常見模型的推理任務,支持包括文本、圖像、聲音等多模態數據的處理以及跨模態推理任務。通過實際應用場景的效果進行驗證,并確保其能夠在真實世界問題中提供有
48、效決策支持多模態推理;此外,在從新信息中學習和適應的能力方面,應能夠展示出在少量樣本或零樣本學習情景下的推理的靈活性和適應性。(三)存力(三)存力 存力關注的是智算中心的數據存儲與訪問能力,是數據持久化與高效利用的重要支柱。黨的十九屆四中全會首次提出將數據作為生產要素參與分配,數據已成為重要生產要素和資產。伴隨著計算走向異構化、復雜化,AI 模型走向巨量化,存儲層面面臨著海量數據的采集、存儲、傳輸、管理等一系列挑戰與問題,存儲集群的容量需足夠龐大以支撐海量數據存儲。此外,在數據成為核心資產的背景下,安全可靠性成為了不可忽視的基石。在呼吁綠色低碳的當下,存儲設備智算中心綜合評價報告(2024 年
49、)23 的能耗不可小覷。為應對這些挑戰,業界積極擁抱技術創新,將存算分離、彈性擴展、冷熱數據分治等先進設計理念融入存儲系統中,以提升資源利用效率?!按蟠媪Α钡膶崿F不僅是容量上的突破,更是可靠存儲、先進技術與綠色理念的深度融合。以科大訊飛 AI 先進存儲中心為例,其通過創新存儲技術,采用分級管理、多協議無損互通等先進設計,成功構建了高效、穩定的 AI 大模型訓練平臺,解決了存儲性能與容量的平衡問題,有效提升了數據處理效率與可靠性。1.存儲集群容量 存儲容量是支撐智算中心數據密集型智能計算任務的數據底座,指存儲集群系統容量總和。智算中心所存儲的海量數據,包括原始數據、訓練數據、Checkpoint
50、 數據、中間結果數據以及模型文件等。而足夠的存儲容量可以確保數據的完整保存,滿足大規模模型訓練以及對外進行推理服務的需求。OpenAI o1 和 Sora 的出現標志著 AI 大模型從 NLP 走向多模態,所需數據量也快速增長。一個 NLP 大模型訓練所需數據集在 50TB 以上,原始數據約是數據集的 50 倍,存儲集群系統容量在 PB 級;多模態、萬億參數大模型所需數據集急速增長到數百 PB,原始數據約是數據集的十倍以上,存儲集群系統容量需求提升到 EB 級。2.吞吐量 存儲的吞吐性能作為衡量智算中心存儲集群設備性能的重要標準,影響著智算中心運行的整體效率,因智算中心常需要進行人工智能模型的
51、訓練和推理,需要快速訪問和處理大量數據,高吞吐率的存智算中心綜合評價報告(2024 年)24 儲系統能夠提升數據傳輸速度,加速模型訓練和推理過程。高性能存儲集群系統可以減少 AI 芯片的等待時間,提高整體計算效率。在處理和存儲海量數據的過程當中,高吞吐量的存儲設備可以快速讀寫大量數據,滿足大數據應用的需求。千卡、萬卡集群逐步向十萬卡集群推進,數據集加載和 Checkpoint 讀寫這兩個過程與存儲子系統緊密關聯,已經成為影響智算集群能力的關鍵。數據集加載過程和推理過程以海量小文件訪問為主,IOPS 性能密度需要達到千萬 IOPS/PB 存儲容量,以最小加載時長減少 AI 芯片等待時間。Chec
52、kpoint 讀寫過程是帶寬型場景,帶寬性能密度需要達到 TB 級帶寬/PB 存儲容量,將集群故障恢復耗時縮至最短。3.存儲集群可靠性 存儲集群系統應提供不低于 6 個 9 的高可用性。數據存儲的穩定可靠,直接決定了智算集群的高可用性。原始數據、訓練過程中產生的 Checkpoint 數據、以及輸出的訓練模型等都會被保存到數據存儲系統上,如果出現丟失或者損壞,其損失不言而喻。6 個 9 高可用性存儲確保集群服務持續在線,同時多種跨智算中心的高可用方案需將跨域的高可用性提升至 7 個 9 以上,在遇到供電中斷等不可抗力因素時,存儲集群系統應具備數據災備和恢復能力,并實施定期的數據災備和有效的恢復
53、策略,以防數據丟失。如通過同步、異步復制,支持小時級、分鐘級的 RPO(Recovery Point Objective)、RTO(Recovery Time Objective),以達到災備數據恢復的效果,有效的保障數據的安全可靠性。應支持軟件可信、數據加密、防勒索病毒、安全銷毀等存智算中心綜合評價報告(2024 年)25 儲安全技術。4.彈性擴展和智能數據分級 存儲資源彈性擴展是指存儲集群系統能夠根據用戶的實際需求,自動調整存儲資源的分配,包括增加或減少存儲容量,以適應業務的發展變化。隨著智算中心存儲數據量的增長,存儲系統需要具備良好的擴展性,高吞吐量的存儲設備有助于平滑地擴展存儲容量并支
54、持在線彈性擴展。存儲集群系統通過增加節點擴展集群規模,靈活地滿足存儲容量增長的需求,應對 AI 應用大規模數據存儲的挑戰。存儲集群系統應支持冷熱數據自動分級,模型訓練推理過程中熱數據被頻繁訪問,而溫冷數據如早期保存的 Checkpoint 和歷史模型參數則很少被訪問。數據存儲自動分級允許在一個存儲池內使用不同類型的存儲介質劃分不同的硬盤池,可以靈活的兼容文件、對象等多種協議。通過對不同價值數據的自動搬遷,將冷熱數據存放到各自合適的存儲空間中,性能與成本實現更好的平衡。5.數據管理 存儲集群系統提供數據編織能力,基于存儲元數據管理及檢索能力,通過全局數據視圖技術,實現全局數據可視可管,大幅提升數
55、據流動效率,達成業務無感、業務性能無損的數據最優排布,滿足來自多個源頭的價值數據快速歸集和流動,以提升海量復雜數據的管理效率,直接減少 AI 訓練端到端周期。提供智能檢索引擎和 RAG 知識庫能力,支持張量、向量等多維數據快速檢索,加快大模型推理效率。智算中心綜合評價報告(2024 年)26(四)運力(四)運力 運力關注的是智算中心的網絡連接與數據傳輸能力,是數據流動與資源共享的基石。作為構建智算算力服務的重要一環,網絡運力是以數據通信網絡基礎設施為基礎,以自動化、智能化網絡技術等為支撐,實現數據在不同用戶、算力設施間以及算力設施內高效流動的網絡運載力。智算中心通常涉及到大量的數據傳輸,如人工
56、智能(AI)、機器學習(ML)和高性能計算(HPC)應用,這些應用需要快速、高效的網絡來處理和分析大量數據。智算中心運力應具備高速率的集群間通信能力、較低傳輸時延以及可靠性保障。為滿足北京高密度人工智能企業的需求,北京電信構建了以數據中心為核心的全光互聯網絡,實現了數據中心間的超高速互聯和極低時延。通過 800G 波分技術和全局負載均衡算法,該網絡在 0.5-2ms 內實現了京津冀區域算力的無損互聯。該創新網絡不僅降低了能耗,還推動了算力資源的無差異高效輻射,為區域數字經濟一體化和智能化轉型提供了強大支持。1.集群通信性能 智算中心的集群通信性能是評估算力與存力設備在集群環境中運行效率與效果的
57、關鍵因素。為實現高效網絡通信,數據中心常采用all_reduce、all_gather、all_to_all、broadcast 及 pt2pt 等多種通信算法,以優化數據傳輸路徑與效率。在全面衡量集群整體通信性能時,通常綜合考慮數據規模、操作耗時、吞吐以及帶寬,這些指標共同構成了評估集群通信性能與效率的綜合體系。2.數據傳輸時延 智算中心綜合評價報告(2024 年)27 數據傳輸的網絡時延影響著智算中心整體的應用效率。自動駕駛、虛擬現實、增強現實等人工智能應用,對響應時間較為敏感。因此,智算中心網絡的設計和優化通常會考慮如何降低時延,提高數據傳輸的實時性和可靠性。對于實時性要求極高的應用來說
58、,同交換機下點到點單向時延3.5us,三跳網絡下點到點單向時延6.5us 是較為卓越的表現。3.數據有效帶寬 有效帶寬是指在實際應用中,網絡鏈路能夠持續穩定提供的最大數據傳輸速率。它受到多種因素的影響,如網絡擁塞、設備性能、傳輸協議等。RDMA(Remote Direct Memory Access,遠程直接內存訪問)技術支持高速、低延遲的數據傳輸,為大數據處理和分布式計算提供了強有力的支持。在某些特定場景下,高性能 RDMA 網絡數據傳輸的有效帶寬應達到或超過 90%的利用率,以確保數據傳輸的高效性和穩定性,為大規模并行計算任務提供堅實保障。4.服務器網絡冗余 智算中心需構建多路徑網絡連接,
59、確保網絡故障不會導致全系統的癱瘓。服務器網絡的冗余可確保智算中心在運力側實現高可用,降低故障對智算中心任務運行的實際影響。智算中心可通過服務器雙物理端口,以多活方式接入 RDMA 網絡,降低單 TOR 交換機故障影響,提升 RDMA 網絡整體可靠性。5.網絡可視化監控 通過對智算中心網絡運行情況的監控,及時跟蹤排查網絡丟包、智算中心綜合評價報告(2024 年)28 擁塞等相關故障,提升對內部算網的感知,實現高效運力運維。智能計算中心的網絡分鐘級、秒級的可視化監控,包括 RoCEv2 和 IB,網絡吞吐、丟包、擁塞等監控,以及集群監控大盤,事件大盤,告警大盤等網絡性能可視化能力,可幫助智算中心運
60、維人員快速定位故障,及時預警,做到網絡全流程的可視化高效運維管理。(五)安全性(五)安全性 安全是智算中心運行的生命線。智算中心作為各個行業信息系統運行的物理載體,已經成為經濟社會運行不可或缺的關鍵基礎設施,應以發展與安全并重為原則,進一步強化安全管理和能力建設,構建完善的安全保障體系。具體來看,安全性應聚焦物理安全、人員安全、設備安全、消防安全、網絡安全等五方面。物理安全確保了智算中心免受自然災害、盜竊及非法侵入的威脅,保障了關鍵資產的物理完整性;人員安全則通過專業的培訓與嚴格的訪問控制,降低了人為因素導致的數據泄露或設備損壞風險;設備安全將防止因設備故障或老化導致的服務中斷,確保智算中心能
61、持續高效地提供服務;消防安全作為應急響應的重要組成部分,能夠有效預防火災事故的發生,并在火災發生時迅速控制火勢,減少損失;而網絡安全則是智算中心面對外部威脅的第一道防線,通過加密技術、防火墻等手段保護數據傳輸安全,防范網絡攻擊,確保智算中心系統的穩定性和數據的機密性。例如,有孚網絡的北京永豐云計算數據中心,采用了高性能的 UPS 和冷卻設備,并實施了全面的物理安全措施,包括監控和門禁系統。這些措施有效保障了數據和設備的安全。此外,該中心還引入了流量清智算中心綜合評價報告(2024 年)29 洗和漏洞掃描等技術,確保數據安全性,為整個行業提供了良好的安全管理范例。1.物理安全 高業務連續性要求智
62、算中心故障發生率低,故障恢復時間快。為了盡可能地減少故障,需要對智算中心的硬件設備進行 24 小時全天候的無盲點監控,將關鍵硬件的運行狀態以可視化的方式呈現給運維團隊,使運維人員能夠直觀了解系統整體運行狀況,確保設施設備的物理安全。對于智算中心的監控應在建筑各出入口、樓層出入口、運營機房內全面實現無盲點,全面關注各設備和環境狀況。2.人員安全 智算中心是涉及供電、制冷等系統的綜合性建筑,對運維管理的專業性要求較高。人員配置上應覆蓋電氣、暖通、弱電專業,且應具備基本專業能力,維護人員獲得國家及相關機構認可的電氣及暖通職業資格證書。3.設備安全 為了確保設施設備的正常運行與高效運維,運維裝備配置比
63、例維持在總運維人數的 10%或以上。這一策略不僅確保充足的技術資源和工具支持,以應對各種突發故障和日常維護需求,還能迅速響應問題,實現高效解決,從而有效維護智算中心整體運營環境的安全性。4.消防安全 火災自動報警系統通過探測器實時監測智算中心內的煙霧、溫度智算中心綜合評價報告(2024 年)30 等火災征兆,一旦達到設定閾值,立即發出報警信號,實現火災的早期發現和預警。服務器對環境溫度有嚴格要求,遇火或遇到與火伴隨產生的熱量、蒸氣和煙霧時,特別容易損壞,且受損程度隨溫度上升而迅速提高。配置火災自動報警系統可以及時發現并處理潛在的火災隱患,降低火災發生的概率和危害程度。5.網絡安全 智算中心承載
64、著對于服務時效更為敏感的 AI 應用任務,需要實現網絡端到端的安全災備保護數據安全。安全域劃分是實現網絡安全的重要手段,可以將具有相同安全保護需求且互相信任的系統組成一個獨立的區域,從而有效隔離不同安全域之間的風險,還可實施更加精細的數據訪問控制策略,確保敏感數據僅在授權范圍內流通,防止數據泄露或被非法訪問。(六)可用性(六)可用性 智算中心提供服務的首要條件是各系統具備可用性,能夠支撐業務的運行。智算中心的建設涉及供電系統、溫控系統、設備和環境監控系統、網絡布線等多個系統的協調配合,對系統的可用性、穩定性和容錯性有著極為嚴格的要求。不同于安全性,可用性表征在有一定容錯或者并行維護的條件下的運
65、行能力。系統冗余設計是保障智算中心高可用性的關鍵。通過多路徑供電供冷、備份系統等冗余措施,可以在單點故障發生時迅速切換至備用資源,確保系統的持續穩定運行。中國雅安大數據產業園在供電系統設計上采用了雙電源多回路環網供電的方式,確保在任何一個電源出現故障時,能夠即時無縫切換到智算中心綜合評價報告(2024 年)31 備用電源,從而保證數據中心的持續運轉,實現了高水平的可用性,極大降低了因單點故障帶來的停機風險,為各類業務的連續性提供了有力保障。1.供電系統 高可用的供電系統冗余要求為 2N。以市電為例,2N 冗余意味著有兩條完全獨立的電源線路為智算中心供電,即使其中一條線路出現故障,另一條線路也能
66、繼續供電,確保智算中心不會因電力中斷而停機。對于一些關鍵業務系統和數據,企業和組織往往要求智算中心達到非常高的可用性水平。而市電進行 2N 冗余設計是實現高可用性的重要手段之一。通過提供兩條完全獨立的電源線路,可以最大限度地減少因電力中斷而導致的停機時間,滿足企業和組織對高可用性的需求。2.溫控系統 相比于傳統數據中心,智算中心的變化之一是溫控系統的冷卻方式從風冷過渡到液冷。對于液冷設備而言,為了滿足可用性的要求,同樣需要對 CDU 換熱單元作冗余設置以保證單條線路故障的情況下智算中心正常運行。2N 設置能夠保證最高等級的可用性,但考慮到成本管控,企業也可采用 N+X 冗余配置,在單個設備故障
67、的情況下仍能保障整體系統的正常運行。3.設備和環境監控系統 設備和環境監控系統能隨時采集各個設備的運行狀態和健康狀況,快速察覺故障點并做出反饋。監控系統的核心功能是實時采集和智算中心綜合評價報告(2024 年)32 傳輸視頻、音頻等數據,以及進行必要的控制操作。這些功能的實現都依賴于穩定的電力供應。由一路不間斷電源+一路市電供電并保持末端監控設備的冗余能夠保證監控系統的高可用性。4.網絡布線 智算中心涉及到大量的數據傳輸,網絡的高可用性確保數據在傳輸過程中的連續性和完整性,減少因網絡故障導致的服務中斷和數據丟失。智算中心的網絡包含園區至外部、園區內機房樓兩部分。大部分智算中心具備 2 個及以上
68、不重合的管道路由就可以滿足可用性的基本要求。(七)綠色低碳(七)綠色低碳 在算力基礎設施高質量發展行動計劃中指出,堅持綠色低碳發展,全面提升算力設施能源利用效率和算力碳效水平。智算中心作為高能耗的基礎設施,需從基礎設施、設備到算力平臺進行全方位的能效優化與碳排放管理。算力基礎設施規模和復雜度日益增加,基礎設施層的能耗問題逐步引發重視,推動了制冷、電力供應等領域的節能技術進步,早期關注點主要聚焦于基礎設施層。隨著對碳排放環節的識別,設備的能耗情況引起業界關注,尤其是服務器和存儲設備的能效提升。當前,隨著人工智能和大數據技術的廣泛應用,智算中心的計算需求急劇增長,使得算力平臺層的能效管理成為關鍵關
69、注點。通過全鏈條的優化,智算中心可以實現真正的綠色低碳目標,支撐數字經濟的可持續發展。螞蟻消金自 2023 年起大規模投資綠色計算技術,通過智能運維、數據治理和業務優化,實現了節能減碳成效。根智算中心綜合評價報告(2024 年)33 據 GreenOps 的碳排放產品的計算,螞蟻消金減少了 357 噸二氧化碳排放,且單筆交易的碳強度同比下降 58%。1.基礎設施 智算中心的基礎設施層涵蓋電力供應、制冷系統和建筑結構等系統,是支持其穩定運行和長期可持續發展的關鍵?;A設施層的能源使用效率與可再生能源的應用水平,直接決定了智算中心的碳排放強度,并在很大程度上影響了算力綠色低碳性的實現。同時,通過智
70、能化手段加強能源和碳排放的管理,可以顯著提升管理效率,確?;A設施在整個生命周期內的資源利用最大化和環境影響最小化。(1)電能利用效率(PUE)電能利用效率為智算中心總耗電量與智算中心 IT 設備耗電量的比值,一般用年均 PUE 值。統計除建筑辦公設施外,智算中心 IT 設備、制冷設備、供配電系統和其它基礎設施的用電量。PUE 越接近 1,電能使用效率越高。我國當前的部分智算中心不斷強化綠色節能低碳技術應用,采用液冷等先進制冷技術,使得機房散熱能耗降低 50%以上,PUE 值可降至 1.2。(2)水資源利用效率(WUE)從 PUE 到 xUE,能耗指標越來越豐富,業界意識到智算中心對水資源的消
71、耗也很大。谷歌發布的 2023 年環境報告顯示,AI 在 2022年消耗了 56 億加侖(約 212 億升)的水,相當于 37 個高爾夫球場的水。水資源利用效率為智算中心總耗水量與智算中心 IT 設備耗電量的比值(單位:L/kWh),一般用年均 WUE 值。WUE 數值越小,代表智算中心綜合評價報告(2024 年)34 智算中心利用水資源的效率越高。(3)碳利用效率(CUE)碳利用效率(CUE)是測量和計算智算中心碳利用效率的方法,為智算中心二氧化碳總排放當量(CO2eq)與 IT 設備負載能源使用量(通常以千瓦時為單位)的比值,單位是 kgCO2eq/kWh。需統計智算中心運行階段,消耗電力
72、、熱力(蒸汽、熱水)等能源所對應的二氧化碳等溫室氣體排放。IT 設備負載能源使用量為智算中心中 IT 設備耗電,包括智算中心中的計算、存儲、網絡等 IT 設備的耗電的總和。(4)可再生能源利用比例 智算中心中的可再生能源電力耗電量與數據中心總耗電量的比值即為可再生能源利用比例。比率越接近 1.0,智算中心使用的可再生能源就越多,可再生能源利用比例越大,則表示該智算中心能源供給結構越優。2.設備 算力設備層是數據處理和輸出的基礎,涵蓋計算、存儲和網絡等IT 設備。IT 設備尤其是服務器在智算中心的能耗與碳排放占比均很高,對關鍵設備的能耗監控與碳排放管理有助于推動智算中心整體的綠色節能。(1)單卡
73、能效 單卡能效是衡量智算中心 IT 設備層綜合能效的關鍵指標,具體體現為單位用電量所產生的算力,即總能耗轉化為算力的效率。隨著芯片架構的不斷突破,盡管單卡能耗不斷提升,但算力能效也有明顯改善。智算中心綜合評價報告(2024 年)35(2)算力能效(CEE)算力能效用綜合算力與智算中心總耗電量的比值衡量。綜合算力是指考慮了通用服務器、AI 服務器、數據存儲以及網絡交換實際使用比例與設備能力的乘積。算力能效的關注點從單個設備的優化逐步擴展到算存運一體的能耗優化。這一指標是對設備能耗情況的全面反映,尤其是通過歸一化處理解決不同設備算力值量級不一致問題,實現各類設備能效的綜合計算。計算公式為:CEE=
74、C/E,其中 CEE 指的是智算中心綜合算力能效值,表示單位電力所能轉換的算力;C 是智算中心在一定時期內的綜合算力總和,代表實際處理業務的能力;E 代表著測量期內智算中心單位時間的總耗電量(單位:千瓦時)。CEE 值越高,意味著智算中心在消耗相同電力的情況下,能夠提供更高的算力輸出,反映出更高的能效水平。(3)算力碳效(CCUE)算力碳效是衡量智算中心碳排放效率的關鍵指標,定義為智算中心綜合算力與碳排放的比值,其公式為:CCUE=C/CE,其中 C 表示智算中心在特定時間段內實際處理業務所產生的總算力,CE 則代表該期間內的總碳排放量,單位為 kg。CCUE 值越高,意味著在相同碳排放條件下
75、,智算中心能夠提供更強的計算能力,即在相同的碳排放量下能夠處理更多的計算任務。3.算力平臺 算力平臺層是智算中心在資源配置與管理中的關鍵環節,直接關系到計算效能與資源利用效率的提升。在推進綠色低碳發展中,平臺智算中心綜合評價報告(2024 年)36 層應著力增強計算效用的監控評估能力,優化算力資源的全局調度和工作負載的消耗管理,確保資源配置的合理性與高效性。同時,平臺層需具備靈活的算力資源選擇和遷移能力,以適應不斷變化的應用需求和能效要求。這些能力的提升和評價對于推動智算中心實現綠色低碳目標具有重要意義。(1)算力資源選擇和遷移能力 算力資源選擇和遷移能力指的是企業在不同智算中心之間選擇最合適
76、的算力資源,并根據需求動態遷移計算任務的能力。這一能力確保了企業能夠在多個智算中心中有效分配資源,從而優化計算效率和能耗。目前,隨著多智算中心協同運作的需求增加,一些企業通過采用先進的調度算法和虛擬化技術,提升了資源選擇的精準性和任務遷移的靈活性。(2)平臺碳排放量監測與統計 平臺碳排放量監測與統計這一指標旨在對平臺運行過程中產生的碳排放量進行精準跟蹤和詳細記錄。該指標通過對計算資源消耗、電力使用、制冷需求等環節的實時數據收集與分析,確保能夠準確評估平臺的碳排放水平?,F階段,部分智算中心已開始采用智能監測系統和數據分析技術,實現了對碳排放的細化管理。通過持續監測和統計,平臺能夠及時調整資源配置
77、和運行策略,以減少碳排放,實現低碳運營目標。(3)算力調度 算力調度是智算中心通過智能化算法對計算任務進行動態分配,以實現資源利用效率最大化和能耗最小化。該指標涵蓋了對實時業務智算中心綜合評價報告(2024 年)37 需求、資源可用性、能耗狀況的綜合評估,通過調度優化算法,動態調整任務執行順序與資源配置,確保系統在高效運行的同時降低能耗。隨著計算需求的多樣化和綠色低碳目標的推進,算力調度的精確性和智能化程度越來越受到重視。部分智算中心已開始采用高級調度算法和機器學習技術,以期實現更為精確的資源分配和能耗管理。(4)計算資源占用率 計算資源占用率指的是在一段時間內,計算資源被占用的百分比。高占用
78、率意味著智算中心能夠在處理大量任務時,最大限度地發揮處理器的性能,減少閑置資源,從而降低不必要的能耗。隨著計算任務復雜性增加和資源需求的多樣化,提升占用率已成為優化平臺層運行的重要方向。當前,一些智算中心通過更精細的任務調度和資源管理,逐步減少計算資源的空閑時間和低效運行,從而在保持高性能計算的同時,降低能耗并推動綠色低碳發展。(八)服務能力(八)服務能力 服務能力是智算中心對外提供價值的關鍵。業務范疇上,具備卓越服務能力的智算中心能夠迅速響應市場變化,靈活調整資源配置,為用戶提供定制化、高性能、低延遲的計算服務,包括智算基礎設施服務、算力資源服務、大模型服務和服務質量保障等。層次劃分上,智算
79、中心的服務能力涵蓋了基礎設施、大模型服務、服務質量三個層次。智算中心提供規劃設計、系統集成等基礎設施服務,全方位的大模型服務涵蓋數據清洗、標注、增強以及模型選型、訓練推理等環節,并且從無故障運行等方面保障服務質量。算力資源主要關注計算資源智算中心綜合評價報告(2024 年)38 的提供和優化,根據用戶需求提供靈活的計算資源配置方案,包括CPU、GPU、NPU 等各類計算節點的組合與調度。在模型服務上,預訓練模型和定制化模型開發等服務支持用戶加速自身的應用開發和部署進程。中南智算中心依托天翼云“慧聚”平臺。大幅降低大模型訓練、微調、部署、推理的門檻,提供一站式、全鏈路、低門檻、高安全的大模型訓推
80、服務,為各行業、各場景提供從模型生產到應用閉環的解決方案。1.智算基礎設施服務(1)基礎設施 基礎設施集成服務包含基礎設施規劃設計、建設以及工程安裝等?;A設施集成服務應具備從基礎設施集成發展到基礎設施和 IT 設備聯合勘測和規劃設計能力,以及針對 IT 系統的特征對基礎設施提供改造方案能力;智算中心建設主要涉及安全管理、物料管理、質量管理、進度管理以及測試驗收等數字化管理能力;工程安裝主要是門禁申請、設備簽收、安裝前檢查、硬件部署、硬件初始化、固件升級、硬件壓測、硬裝驗收。(2)算力平臺 算力平臺集成服務主要包含子系統設計與實施以及集群系統集成服務。智算子系統規劃設計實施主要是規劃設計、OS
81、 安裝、軟件部署、單機綜合測試、單機訓練測試、智算子系統驗收。智算集群系統集成主要是集群系統需求調研、集群系統規劃設計、集群系統對接聯調、參數面集合通信測試、集群性能測試、集群穩定性測試、集群智算中心綜合評價報告(2024 年)39 初始化調優、集群試運行、集群驗收、項目管理。算力平臺集成服務應具備算存網協同整體規劃能力,包括整體風險、質量、進度、溝通、問題、變更等一系列針對集群的基本功能和集群模型訓練性能;集群集成功能/性能測試驗證能力,包括應具備算存網協同測試能力,包括整體風險、質量、進度、溝通、問題、變更等一系列針對集群的基本功能和集群模型訓練性能測試能力,包含但不限于線纜鏈接、信號質量
82、、配置部署和產品狀態等方面的驗證測試能力。以及萬卡/十萬卡風冷/液冷集群端到端規劃設計、安裝集成、測試驗證能力。(3)算力資源 算力資源服務包括算力租賃、資源管理和算力加速等服務。算力租賃將計算資源(如 XPU 等硬件資源以及相關的存儲、網絡資源)封裝成服務,以租賃的形式提供給有需求的用戶。這種業務模式允許用戶根據自己的計算需求,靈活選擇所需的算力資源量和使用時長。同時,還確保資源負載均衡,根據實時需求動態調整資源分配,避免過載與閑置。支持無縫動態擴容,隨著業務增長迅速增加算力資源,確保業務連續性與高效運行。集群算力加速指智算中心部署后,使得有效算力進行進一步提升和加速的能力。針對集群訓練場景
83、應支持如并發調度能力、模型與算法優化能力、運行加速和編譯優化能力;針對集群推理場景應支持如推理調度優化、模型與算法優化等能力。2.大模型服務(1)數據服務 數據服務主要涉及文檔解析服務,數據清洗服務,數據標注服務,智算中心綜合評價報告(2024 年)40 數據增強服務,語料質量評估等服務。文檔解析服務基于客戶提供的非結構化/半結構化文檔,通過文本和信息處理形成初始的訓練數據集。數據清洗服務針對解析后的數據,進行數據清洗,從大規模的數據中解析出有效、合規的原子知識,生成 Token,并進行向量化。數據標注服務對清洗后的原始數據進行標記,以便于算法識別特定的信息。數據增強服務通過數據合成增加預訓練
84、和 SFT 數據,形成用于訓練的 QA 對。語料質量評估服務對數據工程處理和生成的語料質量進行評估,保障模型訓練的數據質量,以便達到預期的訓練效果。(2)模型服務 AI 開發環境部署支持主要根據客戶的具體模型需求,結合產品形態,輸出模型運行環境的安裝部署方案,制作與推送容器鏡像。具體服務內容包括模型訓練環境部署支持,模型推理環境部署支持和開發工具部署支持。AI 開發使用支持具體包含訓練開發支持,推理開發支持,模型適配部署支持主要基于客戶具體業務場景與需求,完成適配模型的部署與調測。模型服務包含模型選型適配、模型增量訓練及模型微調服務。在智算服務中,模型選型至關重要。模型選型適配服務制定模型評估
85、能力框架和指標,基于主流的開源模型,在實驗室搭建驗證環境,構建測試集從完整的視角評估模型能力以及和客戶場景的匹配度,為客戶提供模型選型的建議和模型增量預訓練服務,支持用戶打通模型增量預訓練流程,拉起多卡任務,提供故障診斷等相關服務,通過增加預訓練權重、優化超參等方法提升模型精度。模型微調服務進行分布式智算中心綜合評價報告(2024 年)41 全參微調支持、低參微調支持;幫助客戶進行微調后權重合并轉換并進行推理驗證。模型遷移調優主要包含模型遷移,模型調優和模型驗收。模型遷移主要提供專屬服務工程師,將客戶模型從源平臺遷移目標 AI 平臺。模型調優針對已遷移模型優化模型的計算精度與計算性能至服務驗收
86、標準。包含模型精度調優和模型性能調優。模型驗收基于客戶提供的 AI 平臺和驗證環境,使用業界開源或客戶提供的數據集對遷移后的模型進行測試。驗收通過后,輸出模型遷移測試報告,提供可直接在 AI 平臺訓練的模型代碼、訓練腳本與使用說明文檔。3.服務質量(1)基礎設施保障能力 基礎設施保障能力是智算中心服務能力中的重要一環,它專注于對供配電系統、暖通系統等關鍵基礎設施的日常巡檢、維護與管理?;A設施保障能力的主要任務是通過建立科學、系統的巡檢制度,明確巡檢內容、頻率及責任分工,確保對智算中心的核心設施進行全面、細致的監控與檢查。(2)無故障運行 智算中心的無故障運行時間(MTBF,Mean Time
87、 Between Failure)指的是在預定的運行周期內,系統能夠持續、穩定地提供計算資源和服務,不出現影響業務連續性的中斷或故障。這一指標是衡量智算中心服務質量、技術實力和運維能力的重要標尺。據 ODCC 調研,一個千卡集群在運行百億參數的無故障運行時間在 7 天左右,萬卡集群的智算中心綜合評價報告(2024 年)42 無故障運行時間約為 24 小時。(3)故障快速恢復 故障快速恢復能力是指智算中心發生故障時能夠快速進行故障恢復的能力,用平均故障恢復時間(MTTR,Mean Time To Repair 單位:ms)來衡量。具體表征智算中心在執行特定任務時,中心的某部分或整體M次(M3)發
88、生同一故障而無法繼續執行任務的時間點,與該故障被修復,任務重新獲得執行的時間點之間的差的平均值(九)智能運營(九)智能運營 運營管理正在逐步邁入以設施、平臺、體系、服務為核心要素的智能運營發展階段。智算中心以大規模、超大規模為主,海量的設備和復雜的系統為高效管理帶來了挑戰。如果缺乏與之相匹配的智算中心精細化運維手段,勢必會造成電力和網絡成本的浪費。智算中心需要在全自動、互聯、自運維的基礎設施環境下,通過全方位的監控系統感知并準確定位故障,通知智能決策系統下發變更、維護等指令,實現運維從數據輸入到預測性維護全過程的數字化和自動化,形成智算中心運維全生命周期的服務能力。此外,智算中心單一的系統模塊
89、節能已經達到天花板,需全面轉向系統化節能,芯片、服務器、機柜、制冷系統、配電系統、機房系統等環節缺一不可。AI 節能通過軟件賦能硬件管理,利用人工智能技術來降低智算中心能耗。中國聯通福州智云數據中心依托人工智能驅動的節能優化架構,實現了從設計到運維的全生命周期節能調優能力,通過能耗動態采集與數字化仿真技術,有效提升了能源利用效率,獲得 AI 節能等級 4A 認證,為行業智能智算中心綜合評價報告(2024 年)43 節能樹立了典范。1.監控管理 監控管理是指智算中心應具備的一種核心能力,它允許通過統一標準的方式對資源進行監控與管理。這包括采用業界標準的帶外管理協議(如 IPMI、Redfish)
90、和帶內管理方式(如 SSH、命令行),以確??缙脚_兼容性。同時,資源池內同類型設備需提供統一的北向接口,以標準化方式上報狀態、告警等信息,便于集中管理和快速響應。此舉旨在提升運維效率,保障算力資源的高效穩定運行。2.自動化運維 傳統運維方式存在依賴人工操作、響應速度緩慢的問題,難以適應復雜多變的業務需求。為解決這些痛點,運維系統應具備全流程自動化功能,覆蓋任務分配、狀態監控及問題處理等環節。同時,此功能應支持 PC 端、移動端、大屏端等多平臺訪問,確保用戶無論身處何地都能迅速掌握運維動態,高效執行管理操作,顯著提升運維效率與應急響應能力。3.維保管理 隨著智算中心規模擴大,傳統維保管理方式已難
91、以滿足高效運維需求。為確保機房設備穩定運行,需推進維保管理優化。優化應具備兩大要點:一是維保計劃電子化,實現任務自動分配與跟蹤,確保維保工作如期進行;二是維保內容標準化,制定統一作業指導書,減少人為差異,保障維保質量。這兩方面將有效提升維保效率與設備管理水平,確保業務連續性。智算中心綜合評價報告(2024 年)44 4.容量管理 容量管理是指對智算中心各層級(系統、機房、機柜、設備)的容量進行全面監控與分析。通過多維度監控,管理者能精準掌握資源使用狀況,有效減少資源碎片化,確保資源分配的安全性與精細化。同時,基于實時數據,容量管理還支持前瞻性規劃,助力提前預判并調整資源容量,確保業務連續性與擴
92、展性。5.智能運行 智能運行是指電氣、暖通、安防等自動化運行設施結合軟件能力,從快速地發現問題、及時地通報問題、準確地判斷問題、高效地處置問題等方面,助力數據中心破除“人為主責”的局面,滿足客戶越來越高的 SLA(service Level agreement,服務等級協議)要求。安全性上,人為操作易出錯,設施智能運行能實現更深層次的安全性。從效率角度來看,和汽車的自動駕駛一樣,數據中心設施的自動化運行可以降低對人員的依賴,提升效率。6.節能管理 借助大數據、AI 技術、數字孿生等技術,構建智算中心的 IT 設施與機房基礎設施協同的智能化節能管理體系。運用 AI 算法預測 IT設備運行工況、優
93、化能源使用、智能調度資源,實現主動管理、精準調優。通過機器學習、大數據分析等技術,對智算中心的運行數據進行深度挖掘,提升能耗優化決策的準確性與效率。智算中心綜合評價報告(2024 年)45 五、智算中心發展建議(一)強化(一)強化創新引領創新引領,提升自主,提升自主研發研發能力能力 持續推進智算中心軟硬件基礎設施研發投入和技術創新,把握技術主動權。重點加強 AI 芯片技術、開發框架、算子算法等的深入鉆研,形成一批具有自主知識產權的核心產品和技術,增強算存運一體化能力。同時也應在基礎設施上實現技術突破,比如柔直供電、液冷技術、微電網等,以應對智算業務日益靈活的需求。在智算需求增長和技術變革的背景
94、下,軟硬件加速融合的趨勢顯著,創新驅動尤為重要,加強產學研合作,加快科技成果轉化,為智算中心高質量發展打下堅實基礎。(二)(二)推動推動標準制定,促進技術規范發展標準制定,促進技術規范發展 加強智算標準頂層設計,完善智能算力標準體系,明確標準化重點方向,系統開展智能算力標準制定。應系統開展智算中心建設、智算調度、計算架構、訓練框架、數據接口、信息安全、軟硬件規范等標準體系建設,特別是加快推進 AI 芯片等重點標準的研制。通過建立全面的評價標準,引導企業在研發、生產、管理等環節對標達標,有效促進智算資源的合理分配,幫助中小企業更好地利用智算服務,降低其應用成本。此外,標準化也有助于解決在高速發展
95、中出現的不規范問題,推動智能算力產業的可持續進步。(三)開展測試服務,助力評價體系完善(三)開展測試服務,助力評價體系完善 對智算中心的軟硬件設施開展測試認證,通過評估問效不斷豐富并完善綜合評價系統。建立一套科學、系統且具備前瞻性的方法論,智算中心綜合評價報告(2024 年)46 緊密結合國內外智算技術的最新發展趨勢,充分考慮我國智算中心的實際情況,涵蓋硬件基礎設施、軟件平臺以及整體系統的集成與優化能力。面向智能算力的供給方開展智能算力相關測試認證工作,樹立智能算力應用典范,推廣一批具有示范效應的智算實踐。通過不斷的測試實踐,獲取前沿的技術情況,了解實際地發展水平,持續完善綜合評價體系的構建,
96、使其更加地科學、客觀、合理。(四)構建智算生態,推動全產業鏈協同(四)構建智算生態,推動全產業鏈協同 構建“智算生態圈”,聚合產學研用力量,加快智算基礎設施高質量建設。去年,在工信部的指導下,“算力產業發展方陣”成立,重點圍繞產業研究、應用培育、協同創新、國際合作四方面開展相關工作,旨在促進相關主體間的交流和深度合作,促進供需對接、技術革新、知識共享,形成優勢互補,加強應用推廣,有效推進算力產業發展。匯聚產學研用多方力量,全面推進“智算生態圈”建設,優化智算資源配置,提高智算服務效能,促進資源高效協同管理,打造智算資源共享、平臺共建、價值共創的產業生態!中國信息通信研究院中國信息通信研究院 云計算與大數據研究所云計算與大數據研究所 地址:北京市海淀區花園北路地址:北京市海淀區花園北路 52 號號 郵編:郵編:100191 電話:電話:010-62300095 傳真:傳真:010-62300095 網址:網址: