《浪潮信息&中國信通院:2024人工智能算力高質量發展評估體系報告(46頁).pdf》由會員分享,可在線閱讀,更多相關《浪潮信息&中國信通院:2024人工智能算力高質量發展評估體系報告(46頁).pdf(46頁珍藏版)》請在三個皮匠報告上搜索。
1、 版權聲明 本報告中所涉及的圖片、表格及文字內容的版權歸浪潮電子信息產業股份有限公司和中國信息通信研究院共同所有。其中部分數據在標注有來源的情況下,版權歸屬原數據公司所有。任何機構、個人在引用本報告數據或轉載有關報告內容時,應注明“來源:人工智能算力高質量發展評估體系報告”。違反上述聲明者,將追究其相關法律責任。目 錄 1 發展現狀及挑戰.1 1.1 發展現狀.1 1.1.1 政策上:政策導向日益明確.1 1.1.2 技術上:生成式 AI 突破發展.3 1.1.3 市場上:算力投資持續加碼.4 1.1.4 規模上:智算規模增速明顯.6 1.1.5 發展水平上:算力發展由“量”向“質”.7 1.
2、2 面臨挑戰.8 1.2.1 挑戰一:算力供給不足,供需匹配不平衡.8 1.2.2 挑戰二:算力智能水平較低,難以滿足多元應用場景.9 1.2.3 挑戰三:算力面臨能源考驗,節能降碳刻不容緩.10 1.2.4 挑戰四:多樣化算力需求提升,普適普惠水平較低.10 1.2.5 挑戰五:供應鏈完備性不足,生態構建待完善.11 1.2.6 挑戰六:性能評價簡單,算力實測性能欠缺.12 2 定義、內涵及特征.12 2.1 定義.12 2.2 內涵.14 2.3 特征.15 2.3.1 高算效:設計與運行計算效率“雙優”體現.15 2.3.2 高智效:兼備高效和智能的 AI 業務支撐能力.16 2.3.3
3、 高碳效:最低碳排放前提下實現最大化算力輸出.17 2.3.4 可獲得:普適應用需求和普惠使用成本的極致追求.18 2.3.5 可持續:技術兼容、供應鏈完備、產業生態開放的共同選擇.18 2.3.6 可評估:反映算力實際應用水平的多元評估.19 3 發展路徑及展望.19 3.1 發展路徑.20 3.1.1 系統設計,提升算效.20 3.1.2 協同驅動,提升智效.21 3.1.3 全生命周期管理,提升碳效.22 3.1.4 基建先行,推動算力普適普惠.24 3.1.5 繁榮生態,推動算力可持續發展.25 3.1.6 多元評估,加速算力規范化發展.27 3.2 展望.28 4 評估體系探索.29
4、 4.1 評估體系構建背景.30 4.1.1 評估體系構建現狀.30 4.1.2 評估體系構建建議.31 4.2 評估體系構建原則.33 4.3 評估體系構建實踐.34 4.3.1 評估體系.34 4.3.2 算效水平.34 4.3.3 智效水平.35 4.3.4 碳效水平.36 4.3.5 可獲得水平.37 4.3.6 可持續水平.37 4.4 評估體系構建意義.39 4.5 評估體系應用建議.39 1 1 發展現狀及挑戰發展現狀及挑戰 1.1 發展現狀 1.1.1 政策上:政策導向日益明確 全球各國通過政策支持、戰略規劃等手段,加速構建領先的算力全球各國通過政策支持、戰略規劃等手段,加速構
5、建領先的算力競爭力。競爭力。美國公布 2024 財年政府預算,包括國防部、能源部、國土安全部等多個機構,累計向 AI 領域計劃投入超過 2511 億美元,以推動 AI 研究和軟硬件服務;歐洲陸續發布 塑造歐洲的數字未來、歐洲芯片法案等文件,圍繞數字化轉型進行算力產業布局;日本近年來頻繁強調振興半導體產業,堅持以應用、綠色為導向發展算力,不斷擴大國內尖端半導體生產。這些政策的實施加速了全球產業升級和科技創新,并提升了這些國家的算力競爭地位。我國以算力基礎設施建設為錨點,全面推動算力高質量發展。我國以算力基礎設施建設為錨點,全面推動算力高質量發展。二十屆三中全會提出,高質量發展是全面建設社會主義現
6、代化國家的首要任務。我國通過加強算力基礎設施建設,推動算力技術與產業的創新發展,為經濟社會的高質量發展注入新動能。在國家層面,數字中國建設整體布局規劃、深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見、算力基礎設施高質量發展行動計劃、數據中心綠色低碳發展專項行動計劃 等提出我國算力高質量發展的具體要求;在地方層面,浙江、北京、上海、廣東、貴州、山西等省市也紛紛發布相關政策明確未來幾年算力高質量發展行動計劃。2 表 1 我國算力中心相關政策規劃(部分)發布發布 時間時間 發布部委發布部委/省份省份 政策名稱政策名稱 2024 年 7 月 國家發改委、工信部、國家能源局、國家數據局 數
7、據中心綠色低碳發展專項行動計劃 2023 年 12 月 國家發改委、國家數據局、中央網信辦、工信部、國家能源局 深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見 2023 年 10 月 工信部、中央網信辦、教育部、國家衛健委、中國人民銀行、國務院國資委 算力基礎設施高質量發展行動計劃 2023 年 2 月 中共中央、國務院 數字中國建設整體布局規劃 2024 年 5 月 浙江 浙江省運力提升行動方案(20242027年)2024 年 4 月 北京 北京市算力基礎設施建設實施方案(20242027 年)2024 年 4 月 江蘇 江蘇省算力基礎設施發展專項規劃 2024 年 3 月
8、上海 上海市智能算力基礎設施高質量發展“算力浦江”智算行動實施方案(2024-2025 年)2024 年 3 月 廣東 廣東省算力基礎設施高質量發展行動暨“粵算”行動計劃(2024-2025 年)2024 年 2 月 貴州 貴州省算力基礎設施高質量發展行動計劃(2024-2025 年)2024 年 1 月 山西 山西省算力基礎設施高質量發展實施方案 2023 年 12 月 深圳 深圳市算力基礎設施高質量發展行動計劃(2024-2025)2023 年 12 月 重慶 重慶市算力網絡發展“算力山城 強算賦能”行動計劃(2023-2025 年)2023 年 12 月 安徽 安徽省智能算力基礎設施建設
9、方案(2023-2025 年)2023 年 8 月 湖北 湖北省加快發展算力與大數據產業三年行動方案 2023 年 7 月 河南 河南省重大新型基礎設施建設提速行動方案(2023-2025 年)2023 年 4 月 天津 關于做好算力網絡建設發展工作的指導意見 2023 年 3 月 寧夏 全國一體化算力網絡國家樞紐節點寧夏樞紐建設 2023 年工作要點(來源:公開資料)3 1.1.2 技術上:生成式 AI 突破發展 人工智能以生成式人工智能以生成式 AI 技術為核心快速發展。技術為核心快速發展。以 ChatGPT 為代表的 AIGC 技術加速成為 AI 領域的最新發展方向,對經濟社會發展產生了
10、重大的影響。隨著人工智能預訓練大模型的不斷進步、AIGC 算法的持續創新,以及多模態 AI 技術的日益普及,AI 已經能夠生成包括文本、代碼、圖像、語音和視頻在內的多樣化內容。這些技術的發展提升了 AIGC 模型的通用性和工業化水平,AIGC 的商業潛力變得更加顯著,如今大模型已成為企業在 AI 領域競爭的核心焦點。算力成為算力成為推動推動生成式生成式 AI 發展發展的的關鍵。關鍵。在大模型訓練和生成式 AI應用的推動下,GPU 和異構計算資源需求顯著增長,算力的提升從簡單的硬件擴展發展為涵蓋算法優化、系統設計、資源調度和網絡通信等多個層面的系統優化,算力性能和效率對模型推理、訓練至關重要。在
11、大模型訓練中,通常采用多機多卡構建的算力集群進行分布式訓練,而擁有大量的計算節點并不等同于擁有強大的計算能力。在分布式訓練環境中,擁有數千億至萬億參數的龐大模型通信時間可能占據整個訓練過程的一半,網絡通信和數據緩存等瓶頸問題會顯著降低訓練效率。另外,隨著模型參數量增加,傳統的訓練方式可能會導致訓練過程中算力利用率的降低。在大模型訓練中,Checkpoint 機制常用于在訓練中定期保存模型參數,然而對于參數量極大的模型,該訓練方式可能會導致顯著的寫入延遲,如 GPT-3(1750 億參數),以 15GB/s 的文件系統寫入速度計算,完成一次 Checkpoint 需要 2.5 分鐘,這不僅增加了
12、訓練時間,也降低了 GPU 的利用率。4 1.1.3 市場上:算力投資持續加碼 國家以直接投資或補貼方式推動算力產業投資建設。國家以直接投資或補貼方式推動算力產業投資建設。美國計劃 5年內投資 2800 億美元以保持美國在芯片技術領域的領先地位;中國全面啟動“東數西算”工程,截至 2024 年 6 月底,“東數西算”八大國家樞紐節點直接投資超過 435 億元,拉動投資超過 2000 億元;歐盟計劃提供 12 億歐元的公共資金用于“歐洲共同利益重要計劃下一代云基礎設施和服務”;日本經濟產業省擬為 5 家日本企業提供總額 725 億日元的補貼,用于打造人工智能超級計算機。隨著全球各國在算力領域的競
13、爭愈發激烈,算力相關產業市場規模將呈現持續增長態勢。以 AI 服務器為例,據 IDC 預測,未來幾年全球人工智能服務器市場規模將持續增加。圖 1 全球人工智能服務器市場規模預測(單位:百萬美元)(來源:IDC,2023)科技巨頭發力智能算力,萬卡算力集群布局加快??萍季揞^發力智能算力,萬卡算力集群布局加快。2023 年以來人工智能市場持續保持高增長態勢,成為推動各國經濟增長和技術創新的關鍵因素。據 IDC 研究,預計 2022 年至 2032 年全球人工智能819294654668203109881868421818231522359023674050001000015000200002500
14、030000350004000020222023202420252026生成式AI服務器非生成式AI服務器 5 產業規模的復合增長率高達 42%,2032 年將達到 1.3 萬億美元?;谌斯ぶ悄艿膹V闊前景,全球科技巨頭紛紛加大對 AI 基礎設施布局以維持行業競爭力。國際上 Meta、微軟&OpenAI、xAI 等多家 AI 巨頭陸續宣布或者完成 10 萬卡集群建設,國內通信運營商、頭部互聯網、大型 AI 研發企業等均發力超萬卡集群的布局。圖 2 全球 AI 產業規模預測(單位:十億美元)(來源:IDC、Bloomberg、Mandeep Singh)406713721730439954872
15、889710791304020040060080010001200140020222023202420252026202720282029203020312032 6 表 2 全球科技巨頭智算布局(部分)科技科技 巨頭巨頭 萬卡智算集群布局進展萬卡智算集群布局進展 谷歌 2023 年 5 月,推出 AI 超級計算機 A3,搭載了約 26000 塊 H100 GPU,為其在機器學習和深度學習研究中的應用提供強大的算力支持 Meta 2024 年初,Meta 建成了兩個各含 24576 塊 GPU 的集群,并設定目標:到2024 年底,構建一個包含 35 萬塊 H100 GPU 的龐大基礎設施,以
16、支撐其元宇宙和 AI 研究 微軟 早在 2020 年,微軟便構建了一個覆蓋 1 萬塊 GPU 的超級計算機,加速其在云計算和 AI 服務領域的發展 亞馬遜 Amazon EC2 Ultra 集群采用了 2 萬個 H100 TensorCore GPU,為用戶在處理大規模數據分析和機器學習任務方面提供強大算力支持 特斯拉 2023 年 8 月,特斯拉上線集成 1 萬塊 H100 GPU 的集群,將極大提升特斯拉在自動駕駛和車輛智能化方面的研發速度 騰訊 推出的星脈高性能網絡能夠支持高達 10 萬卡 GPU 的超大規模計算,網絡帶寬高達 3.2T,為未來的 AI 和大數據應用提供了廣闊的發展空間
17、字節跳動 提出的 MegaScale 生產系統,支撐 12288 卡 Ampere 架構訓練集群,為字節跳動在內容推薦、圖像處理等 AI 應用方面提供了強大的算力保障 中國移動 計劃今年商用哈爾濱、呼和浩特、貴陽三個萬卡集群,總規模接近 6 萬張GPU 卡 中國電信 計劃 2024 年在上海規劃建設一個達到 15000 卡、總算力超過 4500P 的萬卡算力池。2024 年 3 月,天翼云上海臨港萬卡算力池已正式啟用 中國聯通 計劃今年內在上海臨港國際云數據中心建成中國聯通首個萬卡集群,集群建成后將為中國聯通在數據中心和云計算市場提供新的競爭優勢(來源:公開資料)1.1.4 規模上:智算規模增
18、速明顯 全球算力規模穩步擴張,智算同比翻倍增長。全球算力規模穩步擴張,智算同比翻倍增長。以 AIGC 為代表的人工智能應用、大模型訓練等新需求、新業務的崛起,推動全球智算規模呈現高速增長態勢。據中國信通院測算,截至 2023 年底,全球 7 算力總規模約為 910EFLOPS1“,同增增長 40%,智能算力規模達到335EFLOPS,同增增長達 136%,增速遠超算力整體規模增速。我國我國智能算力占增顯著增加,智算中心集聚分布。智能算力占增顯著增加,智算中心集聚分布。據中國信通院測算,截至 2023 年底,智能算力規模占整體算力規模的增例近 30%,增效明顯。國家及地方層面積極推進智算中心建設
19、,北京、廣東等多地提出2025 年智算規模目標。從區域分布上來看,智算中心呈集群建設趨勢,過半分布在我國東部地區。圖 3 全球算力規模(單位:EFLOPS)(來源:Gartner、IDC、中國信通院)1.1.5 發展水平上:算力發展由“量”向“質”我國算力發展正處在由我國算力發展正處在由“量的擴張量的擴張”轉向轉向“質的提高質的提高”這一重要關這一重要關口???。我國算力產業規模擴張下開始以應用為導向,推動過去的重資產、重硬件模式向軟硬協同、服務驅動轉型等高質量發展方向轉型升級,算力發展從規模速度型粗放增長轉向質量效率型集約增長。在應用導向下,全國各地增加智能算力生產以提升算力在人工智能領域的適
20、配 1 算力規模包含通用算力、智能算力、超算算力,邊緣算力暫未納入統計范圍,表示方式皆為單精度(FP32)。39849855111314233510102401002003004005006002021年2022年2023年通用算力智能算力超算算力 8 水平,建設超大規模算力中心集群,以匹配大模型訓練需求。隨著集群建設規模越來越大,算力效率問題引起關注。算力中心建設、運營開始重視超大規模組網互聯、集群有效計算效率、訓練高穩定性與可用性等算力處理效率相關的性能。另外,雙碳目標日益緊迫,能耗要求日趨嚴格,算力行業的高耗能和碳排放問題引起諸多關注。我國出臺了一系列政策對算力產業節能降碳提出更加嚴格的
21、要求,相關企業通過技術創新、綠色管理等措施不斷開展節能降碳行動,綠色低碳成為算力產業重要發展方向。與此同時,算力中心作為算力的主要載體,承載功能逐漸多元化。算力中心可為服務購買方提供多元化業務支撐和多樣化算力服務,不再只是提供計算、存儲等服務的場所,數據、算力、算法、生態合作等服務內容不斷拓寬算力中心能力邊界。算力提供方越來越注重提升算力服務的品質,整合各類算力資源,為用戶提供一站式服務,降低用戶獲取算力資源的成本,推動算力普適普惠。1.2 面臨挑戰 1.2.1 挑戰一:算力供給不足,供需匹配不平衡 一方面,一方面,AIGC 帶動算力需求總量不斷增長,大模型訓練亟需大帶動算力需求總量不斷增長,
22、大模型訓練亟需大量量 AI 算力支撐。算力支撐。從整體需求規模上看,模型訓練引起 AI 算力需求暴增。據新一代人工智能基礎設施白皮書表明,過去幾年,大模型參數量以年均 400%復合增長,AI 算力需求增長也超過 15 萬倍,遠超摩爾定律。在單個大模型訓練需求上,模型越大算力需求越大,以參數規模達到 4050 億的 Llama3.1 大模型為例,其單次訓練算力需 9 求相較于 700 億的 Llama2 翻了 50 倍。另外伴隨模型不斷迭代,訓練數據集規模將不斷增大,未來的大模型的算力需求將呈現指數級爆發式增長。另一方面,現有供給結構與用戶實際的算力需求另一方面,現有供給結構與用戶實際的算力需求
23、不匹配不匹配造成資源造成資源浪費。浪費。一是供需錯位問題,國內算力產業鏈企業相對分散,眾多芯片廠商和大模型企業技術路徑不同容易造成芯片和模型之間不適配,且大多數智算服務仍是裸金屬租賃的粗放式經營方式,無法精準滿足不同企業的多元化需求。二是資源利用率不足問題,據清華大學研究表明,大模型在處理大量數據時,由于算力調度、系統架構、算法優化等諸多問題,很多大模型企業的 GPU 算力利用率低于 50%,造成了巨大的資源浪費。1.2.2 挑戰二:算力智能水平較低,難以滿足多元應用場景 人工智能、大數據、物聯網等數字技術不斷人工智能、大數據、物聯網等數字技術不斷發展發展,多元應用場景,多元應用場景對算力的智
24、能水平和計算對算力的智能水平和計算能力能力要求不斷提升。要求不斷提升。從需求上看,算力應用場景的復雜化導致數據量和算法復雜度急劇增加,這要求算力具備更高的智能化水平。算力是算法自主學習的基礎,能夠靈活處理和分析大規模的數據集,有助于滿足更大參數量模型的訓練需求,不斷提升模型的自主學習和泛化能力。從技術上看,傳統芯片架構面臨著“存儲墻”和“功耗墻”的問題,難以滿足現階段人工智能應用的低時延、高能效、高可擴展性的需求,需要先進的計算架構將更多算力單元高密度、高效率、低功耗地連接在一起,提高異構多核之間的傳輸速率,從而為人工智能大模型提供強大計算能力保障。10 1.2.3 挑戰三:算力面臨能源考驗,
25、節能降碳刻不容緩 雙碳目標下,算力產業面臨節能降碳挑戰。雙碳目標下,算力產業面臨節能降碳挑戰。算力中心是算力的主要載體,是公認的高耗能基礎設施。據中國信通院數據表明,截至2023年底,我國算力中心耗電量達 1500 億千瓦時,預計到 2030 年將超過4000 億千瓦時,若不加大可再生能源利用增例,2030 年全國算力中心二氧化碳排放或將超 2 億噸。人工智能模型訓練的能耗遠高于常規計算能耗,根據 Digital Information World 數據,訓練 AI 模型產生的能耗是常規云工作的三倍。OpenAI 曾發布報告稱,自 2012 年以來,AI 訓練的電力需求每 3-4 個月就會翻一
26、倍。據浪潮信息測算,一個10 萬億參數大模型訓練需要 10 萬卡 H100 集群,訓練 1193 天,所消耗的電量約 40 億千瓦時,約 1.4 億美國家庭 1 天用電量。面對人工智能對算力的旺盛需求,算力產業如何在高速發展的同時實現“碳中和”,是當下整個行業需要解決的重要問題。圖 4 近 5 年我國算力中心耗電量(單位:億千瓦時)(來源:中國信通院)1.2.4 挑戰四:多樣化算力需求提升,普適普惠水平較低 8249391116130015000200400600800100012001400160020192020202120222023 11 算力資源獲取成本有待降低,多元算力匹配能力有待
27、加強。一是算力資源獲取成本有待降低,多元算力匹配能力有待加強。一是算力資源獲取上,算力資源獲取上,據斯坦福 2024 年人工智能指數報告 估算,OpenAI的 GPT-4 預計使用了價值 7800 萬美元的計算資源進行訓練,而谷歌的 Gemini Ultra 耗費了高達 1.91 億美元的計算資源成本。目前大模型研發已進入萬卡時代,一家企業如果想擁有自己的大模型,至少需要幾十億投資,對于中小企業來說算力成本過高。二是算力應用上,二是算力應用上,大模型訓練、推理等業務場景的出現促使企業業務對多樣化算力需求提升,如今產業界不論是模型還是算力芯片,正處于百花齊放、創新并存的階段,算力資源多元并用,多
28、元算力與多種模型及框架的適配難度較大。另外,大模型應用能夠幫助企業更高效率的實現商業目標,但對于絕大多數企業而言,大模型的應用開發流程繁瑣,模型設計、訓練、調優等環節需要專業開發人員,自研大模型成本高且研發門檻過高。1.2.5 挑戰五:供應鏈完備性不足,生態構建待完善 算力供應鏈算力供應鏈完備性不足完備性不足,亟需強化算力保障能力。,亟需強化算力保障能力。一是隨著多元異構算力的發展,不同 OS、固件、整機、芯片平臺兼容性問題突出,不同硬件生態系統封閉且互不兼容,給算力使用方帶來一系列技術挑戰。二是算力服務商資源采購受各廠商芯片生態影響,存在應用與硬件緊耦合、難遷移問題。如一些芯片廠商為了維護自
29、身利益,會構建相對封閉的生態系統,限制其他廠商或第三方開發者的接入。這種封閉性導致應用開發者只能針對特定廠商的芯片進行優化和定制,進一步加劇了應用與硬件之間的緊耦合關系。12 1.2.6 挑戰六:性能評價簡單,算力實測性能欠缺 現有算力評估體系評估場景簡單,無法全面、深入地反映算力應現有算力評估體系評估場景簡單,無法全面、深入地反映算力應用的實際效果。用的實際效果。如今算力基礎設施面臨著更高的建設與發展要求,應對算力質量進行系統評估,保障算力安全穩定運行和資源高效利用。在萬億參數模型的訓練過程中,軟硬件組件需精密配合,一旦出現問題,其定界與定位過程極為復雜。根據公開資料顯示,業界在硬件故障定位
30、上通常需要 1-2 天,復雜應用類故障的定位時間則更長。節點故障不僅會導致訓練時間大幅延長,還會對算力資源造成巨大浪費。然而,當前算力評估體系由于評估場景相對單一,往往難以全面、深入地揭示算力應用在實際復雜環境中的真實效果,測試評估指標主要以單芯片性能測試為主,測試結果偏理論,參考價值有限,對于多場景下算力的性能評估也缺乏深入研究與重視,這嚴重限制了評估體系在指導高效能、多元化算力資源配置中的應用廣度和效果。2 定義、內涵及特征定義、內涵及特征 全球及我國算力發展態勢顯示,在人工智能時代,算力產業政策導向日益明確、算力領域相關技術突破發展、算力投資持續加碼、智算規模不斷增加、整體發展水平日益提
31、升,然而算力發展也面臨著供給不足、供需匹配難、能耗激增等挑戰。算力成為衡量國家綜合實力和國際話語權的重要指標,亟需更高水平的發展變革以應對新階段的發展機遇和挑戰。2.1 定義 人工智能時代,高質量算力是基于最新人工智能理論,采用先進人工智能時代,高質量算力是基于最新人工智能理論,采用先進 13 的的人工智能計算架構,與算法、數據深度結合的高水平計算能力。人工智能計算架構,與算法、數據深度結合的高水平計算能力。高質量算力是驅動“算法”賦能勞動者、加速“數據”優化勞動對象、激發“算力(設備)”升級勞動資料,從而推動生產力要素發生根本性質變,實現全要素生產率提升的一種新質生產力,有效推動數字經濟與實
32、體經濟的深度融合,實現經濟社會高質量發展。表 3 生產力變遷 農業時代農業時代 工業時代工業時代 人工智能時代人工智能時代 勞動者勞動者 人人 緩慢增長(馬爾薩斯陷阱)人人 線性增長(醫療、糧食進步)人人+算法算法 算法產生智能,勞動者能力增強 勞動勞動 對象對象 農作物農作物 增較原始+工業產品工業產品 延伸至一切可利用的有形物質,總量越用越少+數據數據 從有形到無形,生生不息,越用越多 勞動勞動 資料資料 農業工具農業工具 生物能驅動+工業設備工業設備 化石能、電能驅動+算力(設備)算力(設備)計算力驅動、生產工具智能升級(來源:浪潮信息、中國信通院)人工智能時代,高質量算力具備技術創新的
33、“主引擎”、生產要素配置的“優化器”、產業深度轉型升級的“化化”三大內涵;具備高算效、高智效、高碳效、可獲得、可持續、可評估六大特征;以系統設計、協同驅動、全生命周期管理、基建先行、繁榮生態、多元評估為六大主要發展路徑,可充分響應數字經濟快速增長的計算需求,應對人工智能時代算力發展機遇和挑戰。14 圖 5 高質量算力魔方(來源:中國信通院)2.2 內涵 高質量算力是人工智能時代的新質生產力。新質生產力本質是生高質量算力是人工智能時代的新質生產力。新質生產力本質是生產力,由技術革命性突破、產力,由技術革命性突破、生產要素生產要素創新性配置、產業深度轉型升級創新性配置、產業深度轉型升級而化生。而化
34、生。人工智能時代背景下,高質量算力已逐漸融合到生產生活的方方面面,為社會、產業智能化轉型提供基礎動力,具體體現在以下三點:一是技術創新的一是技術創新的“主引擎主引擎”。高質量算力推動人工智能模型訓練和應用,在 AI 模型訓練和部署上更具優勢,推動預訓練大模型在海量數據的學習訓練后具有良好的通用性、泛化性和高效率,用戶基于大模型通過零樣本、小樣本學習即可獲得領先的效果,能夠顯著降低AI 應用的門檻。在科學研究方面,高質量算力強大的計算能力能夠提高大規模數據處理的速度,縮短模型訓練的時間,進一步提升科研效率,降低科研成本,同時加速前沿科學問題的探究,如新藥創制、基因研究、新材料研發等,推動科學技術
35、創新發展。15 二是生產要素配置的“優化器”二是生產要素配置的“優化器”。數據是人工智能的三要素之一,高質量算力提供強大的計算資源對數據進行分析、加工、處理,將海量數據轉化為先進生產要素,暢通生產、分配、流通、消費各環節,構建數據流通交易體系,實現數據資源的有效配置和價值最大化。另外,高質量算力通過智能化的資源管理和調度系統,根據實際需求動態調整資源分配,對計算、存儲和網絡資源進行優化配置,通過虛擬化和云計算技術實現資源的彈性伸縮,提高資源利用效率。三是產業深度轉型升級的“化化”。三是產業深度轉型升級的“化化”。在改造提升傳統產業上,高質量算力推動前沿科技與傳統行業相結合,為傳統產業注入新活力
36、,化生新的商業模式和服務,如智能制造、智能醫療、智慧金融等。在培育壯大新興產業上,高質量算力推動人工智能、大數據、區塊鏈等數字產業發展,加快數字產業化步伐。在推動未來產業建設上,高質量算力瞄準前沿領域,促進元宇宙、人形機器人、腦機接口、量子信息等新產業發展,加速重大科技成果產業化。2.3 特征 2.3.1 高算效:設計與運行計算效率“雙優”體現 高算效高算效指的是指的是在提高在提高算力算力理論算效的同時考慮更高的實測性能理論算效的同時考慮更高的實測性能和資源利用率,和資源利用率,是是綜合考慮設計、運行等維度的計算效率。綜合考慮設計、運行等維度的計算效率。理論算效是設計維度理論算效是設計維度上的
37、考量上的考量,是計算系統算力與功率的增值,即“每瓦功率所產生的算力”,是同時考慮計算性能與功率的一種效率指標。理論算效數值越大,代表單位功率的算力越強,效能越高。2023 年年底,全國在用算力中心平均算效為 11.8GFLOPS/W,達到 16 GB/T 43331-2023“互聯網數據中心“(IDC)技術和分級要求中通用算力算效第三等級,我國算效水平仍有較大的提升空間。實測性能是實測性能是短期短期運行維度運行維度上的考量上的考量,在充分考慮理論算效的基礎上,關注的是應用場景下的實測性能,如單位時間內處理的 Token 數量、時延、模型訓練時間、數據處理質量等指標。在實測性能方面,高質量算力致
38、力于提升整機系統輸出能力,消除網絡、存儲等集群性能瓶頸,兼顧軟件生態建設、應用適配。如今算力集群實測性能和理論性能差距過大這一問題逐漸凸顯,部分算力實測性能不足 10%,大量算力資源被浪費,算力系統實測性能亟需優化提升。資源利用率是資源利用率是長期長期運行維度運行維度上的考量上的考量,指的是算力系統實際運行過程中的平均資源利用率,避免算力堆砌及大量資源閑置。資源利用率的“高”體現在不斷優化算力資源實際應用水平。如可通過優化GPU平均利用率來提升算力資源利用率。據公開數據統計,傳統模式下的智算中心 GPU 利用率較低,平均數值低于 30%,英偉達 GTC 2022 公布數據顯示 Google 云
39、平均 GPU 利用率為 25%,算力資源利用率存在較大優化空間。2.3.2 高智效:兼備高效和智能的 AI 業務支撐能力 高智效指的是算力具備高智效指的是算力具備高效處理高效處理 AI 業務的能力業務的能力和較高的自動化、和較高的自動化、智能優化水平智能優化水平。高智效體現算力面向人工智能業務的高效處理能力。高智效體現算力面向人工智能業務的高效處理能力。在以大模型為代表的人工智能技術上,更高的模算效率是體現高智效的主要指標。模算效率正增于模型精度與模型的計算效率,模型本身精度越高、在 17 對應軟件上對硬件性能利用率越高、推理及訓練所需算力越小,模算效率越高,整體反映被測模型在人工智能業務應用
40、中的綜合處理效率。高智高智效效體現算力體現算力較高的自動化水平和智能優化能力較高的自動化水平和智能優化能力。這種高效能不僅體現在硬件的計算速度和處理能力上,更在于整個系統對資源的智能管理和優化調度上。通過高度自動化的任務調度、資源分配和故障恢復機制,以及智能優化算法、能耗管理和自適應學習技術,高智效的算力系統能夠實現更強的可靠性和可用性,為推動智能化應用的發展提供有力支持。2.3.3 高碳效:最低碳排放前提下實現最大化算力輸出 高碳效指的是算力在最低碳排放前提下實現最大化算力輸出,是高碳效指的是算力在最低碳排放前提下實現最大化算力輸出,是兼顧碳排放量和算力性能的綜合指標。兼顧碳排放量和算力性能
41、的綜合指標。高碳效不僅關注算力單純的能源消耗、算力輸出水平,更注重算高碳效不僅關注算力單純的能源消耗、算力輸出水平,更注重算力系統力系統從從采購到回收整個采購到回收整個過程過程的的全生命周期碳足跡管理。算力碳效全生命周期碳足跡管理。算力碳效是有效衡量高碳效水平的一個關鍵指標,指設備使用周期內產生的碳排放與所提供的算力性能的增值。據數據中心算力碳效白皮書測算表明,對于服務器來說,CPU 性能越好,可提供的計算能力更優越,所消耗的能量越多,帶來的溫室氣體排放也越多,但服務器算力碳效即單位算力性能的碳排放量反而會降低。全生命周期碳足跡管理全生命周期碳足跡管理主要通過綠色采購、綠色設計、清潔生產、綠色
42、包裝和運輸、綠色運營、回收處理等降低整個算力系統的碳排放。如在綠色設計環節采用高效的服務器和存儲設備、先進的制冷和散熱技術。根據中國電子節能技術協會的數據,液冷 PUE 低于傳統風冷 PUE 至少 50%,意味著算力 18 中心的能耗可至少減少 50%,碳排放量也將減少 50%。2.3.4 可獲得:普適應用需求和普惠使用成本的極致追求 可獲得指的是算力能夠滿足普適應用可獲得指的是算力能夠滿足普適應用需需求和普惠使用成本求和普惠使用成本要求要求。普適性表現在普適性表現在算力能夠廣泛滿足各種應用場景的需求。算力能夠廣泛滿足各種應用場景的需求。普適性保障算力系統在智慧醫療、智能制造、自動駕駛、金融服
43、務、科研計算、智慧城市等多個領域的廣泛應用,是推動這些領域發展的關鍵因素。在使用門檻上,算力像水電類的公共資源一樣,具備好用易得等特點,各行各業用戶無需深入了解復雜的技術細節,只需簡單的操作即可獲得所需的計算資源。普惠性主要表現在普惠性主要表現在可保障可保障用戶以合理、可負擔的成本使用用戶以合理、可負擔的成本使用算力算力資資源。源。普惠算力通過優化資源配置、提供靈活計費方式、推動技術創新等手段不斷降低用戶成本、擴大服務覆蓋范圍、提升用戶體驗,可實現各行各業低成本使用,無論是大型企業還是中小企業,甚至是個人開發者,都可以方便地獲取和使用算力資源。2.3.5 可持續:技術兼容、供應鏈完備、產業生態
44、開放的共同選擇 可持續指的是算力具備技術兼容、供應鏈完備、產業生態開放的可持續指的是算力具備技術兼容、供應鏈完備、產業生態開放的特性。特性。在技術上,在技術上,算力的可持續特征體現在可向“前”兼容,向“后”持續迭代升級,軟件配套支持能力及開放水平高,不同品類、不同技術路線的芯片、算法、模型、應用可實現兼容適配。在供應鏈上,在供應鏈上,算力的可持續特征體現在從核心部件到專用芯片、從電子元器件到基礎軟件、應用軟件的全方位、多層次的供應鏈條強 19 大且完備,并以完善的產業鏈帶動算力產業上下游的發展。在產業生態上,在產業生態上,算力的可持續特征體現在算力服務生態開放,算力系統分層解耦,提供可替代的算
45、力支撐能力,可有效打破封閉和壟斷現象,降低應用遷移門檻。2.3.6 可評估:反映算力實際應用水平的多元評估 可評估指的是面向人工智能應用場景,算力可通過完整、有效的可評估指的是面向人工智能應用場景,算力可通過完整、有效的評估體系得到反映實際應用情況的特性。評估體系得到反映實際應用情況的特性。當前算力評估體系存在評估場景簡單、同質化嚴重、評估維度單一、全面性不足等問題,亟需拓展系統性能評價維度,以更全面、深入地反映算力應用的實際效能與發展潛力。高質量算力的評估體系能夠滿足市場對高效、可衡量的計算力解決方案的評估需求,評估體系主要具有以下特點:一一是評估體系全面多元,適用范圍廣。是評估體系全面多元
46、,適用范圍廣。評估體系指標多元,綜合考慮人工智能不同業務場景、多環節的質量評估需求,側重評估算力在人工智能方面的創新能力和對新技術的支持程度,評估結果為算力技術和成本優化提供依據,提升算力資源的人工智能支撐能力。二二是評估指標以應用為導向,科學合理。是評估指標以應用為導向,科學合理。重點體現在從單純的理論計算效率評估升級為對實際應用效率等的多維評估。通過標準化的評估方式得出準確數據,通過數據結果輔助用戶決策,提出貼合實際的指導建議,促進技術、產品功能不斷升級,引導產業向更高效、規范的方向發展。3 發展路徑發展路徑及展望及展望 20 3.1 發展路徑 發展具有高算效、高智效、高碳效、可持續、可獲
47、得、可評估六大特征的高質量算力是迎接新階段重大發展機遇、應對嚴峻挑戰的關鍵途徑。聚焦高質量算力“三高三可”特征,可推動算力發展由“量”聚焦高質量算力“三高三可”特征,可推動算力發展由“量”向“質”向“質”。高質量算力以系統設計提升算效、協同驅動提升智效、全生命周期管理提升碳效、基建先行推動算力普適普惠、繁榮生態推動算力可持續發展、多元評估加速算力規范化發展為主要發展路徑,可全面賦能數字經濟、智能社會發展和新型科技創新。圖 6 高質量算力發展路徑(來源:中國信通院)3.1.1 系統設計,提升算效 以系統設計為核心,圍繞生產、聚合、調度、釋放算力四大關鍵以系統設計為核心,圍繞生產、聚合、調度、釋放
48、算力四大關鍵環節全面提升算效。環節全面提升算效。將算力的生產、聚合、調度和釋放視為一個整體,通過精心設計的系統架構和流程來優化每個環節,從而實現算力資源的有效利用和性能的最優化。在生產算力方面,提升算力輸出水平。在生產算力方面,提升算力輸出水平。聚攏核心部件、專用芯片、電子元器件、基礎軟件、應用軟件等國內外產業鏈領先技術方案,整合高性能部件,打造多元異構的強大算力機組。在聚合算力方面,提升集群算力使用效率。在聚合算力方面,提升集群算力使用效率。運用系統工程方法,21 構建高效的算力中心集群,通過卡間和節點間的互聯網絡、軟件和硬件的適配調優等提升集群算力效率,對大規模集群網絡進行精細化設計,減少
49、算力資源空閑度。在調度算力方面,實現算力高效調度。在調度算力方面,實現算力高效調度。通過硬件重構和軟件定義對 GPU、AI 芯片等進行聚合池化,再利用先進的資源管理技術進行切分、調度、分配,提升算力資源利用率。在在釋放算力方面,提升算力應用水平。釋放算力方面,提升算力應用水平。聚焦于模型算法、框架、工具等方面不斷優化完善,提高模型框架與底層 AI 芯片適配度,開發更加高效、易用的模型訓練工具,降低用戶開發大模型的算力資源開銷,充分激活算力資源性能。3.1.2 協同驅動,提升智效(1)算力、算法、數據協同創新,強化算力智)算力、算法、數據協同創新,強化算力智效效水平水平 算力層面,算力層面,推動
50、全新計算架構的創新應用,如通過數據流架構、存算一體、Chiplet 技術等改進芯片的架構、互聯、封裝,滿足人工智能業務對算力高效率和高可靠性的需求;算法層面,算法層面,加強模型算法的研究,改進算法結構,減少冗余計算,提高算法的運行效率,推動模型算法創新,研究更高效的并行算法、更智能的任務調度處理,使算力能更靈活的適應不斷變化的應用需求;數據層面,數據層面,通過加強數據清洗、創新數據合成等手段構建高質量數據集,充分激活數據要素價值,使得系統能夠更好地理解和處理復雜的業務邏輯,從而提升智能化水平。(2)軟硬件聯合設計與優化,提升算力)軟硬件聯合設計與優化,提升算力 AI 業務應用水平業務應用水平
51、軟硬件聯合設計與優化的核心在于將軟件算法與硬件架構緊密軟硬件聯合設計與優化的核心在于將軟件算法與硬件架構緊密 22 結合,以實現更高效的計算性能和更智能的業務處理能力。結合,以實現更高效的計算性能和更智能的業務處理能力。一是通過軟硬件協同設計消除軟硬件之間的瓶頸,提高整體的算力應用水平。通過定制化的硬件設計和針對性的軟件優化,提高整體系統的應用性能。例如通過專門為 AI 算法設計的硬件加速器,可以顯著提高數據處理速度。二是根據特定業務需求提供定制化的解決方案,軟硬件聯合設計提高業務處理的靈活性和適應性。開展軟硬件協同的高效微調方案研究,如結合企業專有數據進行模型微調,可使通用模型升級為企業模型
52、,增強 AI 算力在特定應用場景和任務中的智能處理能力。3.1.3 全生命周期管理,提升碳效(1)全生命周期低碳管理,推動全產業鏈節能降碳)全生命周期低碳管理,推動全產業鏈節能降碳 一是提升算力系統可再生能源利用率,減少對化石燃料的依賴,降低碳足跡,從源頭打造綠色算力體系。二是梳理供電、制冷、服務器、網絡、存儲等各環節碳足跡,建立綠色算力供應鏈,優先選擇環保材料和生產過程,推動全產業鏈節能降碳。三是建立全生命周期低碳管理制度,在算力系統的規劃設計、施工建設、運行維護直至最終退役和廢棄處置的全過程充分考慮綠色發展,減少算力全生命周期的環境影響。23 圖 7 全生命周期碳足跡管理探索(來源:浪潮信
53、息)(2)采用節能低碳新技術,降低算力中心能耗采用節能低碳新技術,降低算力中心能耗 算力系統的建設、設備選型、平臺運營等方面均采用綠色低碳技術,通過材料、產品、工藝創新等手段全方位降低能耗。如算力基礎設施能耗主要來自于計算、制冷和配電系統,在供配電以及制冷散熱方面,可通過高效的不間斷電源(UPS)和電源轉換設備減少電力轉換過程中的能量損失、采用液冷技術提高散熱效率、利用 AI 和大數據技術對算力制冷系統智能化管理,降低整體能耗。圖 8 算力綠色低碳技術(來源:中國信通院)24 3.1.4 基建先行,推動算力普適普惠(1)以智算中心為建設重點,強化智算供給能力)以智算中心為建設重點,強化智算供給
54、能力 生成式 AI 帶來的智能時代需要大量增加智能算力的供給才能滿足更大參數量的模型訓練需求,應分層次、分類別建設布局智算中心,緩解如今智算資源緊張、算力成本高的問題。一是集中建設大規模智算集群,著重滿足人工智能大模型對海量數據和復雜計算的需求,確保高效、穩定的運算服務;二是區域建設小規模算力中心,以適應不同行業和場景下的多樣化計算需求,形成對大型算力節點的有力補充。如今智算中心的建設和服務市場高度競爭且不斷變化,智算中心市場的參與者應重視智算中心技術研發、商業模式、服務模式和市場策略的創新,把智算中心“建好”更要“用好”。(2)積極推動算力平臺建設,提升算力供需匹配能力)積極推動算力平臺建設
55、,提升算力供需匹配能力 我國算力產業存在算力市場分散、供需匹配能力不足、計算框架不同等問題,算力平臺可實現對算力資源的統計、監測、匹配和分析,提升算力供給水平與資源匹配能力。算力資源需求方和提供方應積極促進算力平臺的建設,以平臺為依托進行供需對接,充分連接算力資源供給,實現算力的一鍵式訂購和靈活調整,推動算力普適普惠。25 圖 9 中國算力平臺(來源:中國信通院)3.1.5 繁榮生態,推動算力可持續發展(1)算力技術,開放解耦)算力技術,開放解耦 算力技術應采用多元開放的架構,兼容成熟主流的軟件生態,支持主流的 AI 框架、算法模型、數據處理技術、廣泛的行業應用等,CPU、服務器、云操作系統、
56、平臺層、應用層等分層解耦,消除單一技術路線依賴,構建開放技術生態。算力技術的開放解耦可通過標準化、模塊化的設計實現,使算力技術的各個組件能夠獨立發展、靈活組合,從而實現技術間的互聯互通和資源共享,這種模式有助于打破傳統封閉系統的限制,促進技術創新和產業融合。(2)算力產業,標準化建設)算力產業,標準化建設 建立完善的標準體系,推進不同 OS、固件、整機、芯片平臺兼容、統一算力度量標準,推動低代碼無代碼開發平臺標準化。另外,從技術、接口、設備、平臺等多個維度,全面采用標準化的設計,不同層次間可通過虛擬化、API 等標準化方式對接,實現產業鏈整體標 26 準規范,提高技術的兼容性和設備的通用性,降
57、低集成和遷移的成本。(3)算力生態,合作共創)算力生態,合作共創 加強交流合作,積極參與算力產業生態建設。依托行業協會、技術聯盟等合作組織,加強和產業的交流合作,促進技術成熟推廣,實現技術路線、目標架構、標準體系的統一,軟件層、硬件層到模型層、應用層等全產業鏈合作共建,形成行業共識和最佳實踐。另外,積極推動建構資源共享、平臺共建、價值共創的產業生態。將企業個體向有機融合的產業鏈條聚集,促進算力上、下游產業及應用生態市場協同發展,充分發揮算力對其他相關行業的賦能價值。27 圖 10 算力生態體系架構(來源:中國信通院)3.1.6 多元評估,加速算力規范化發展(1)實測性能評估指導算力建設,提升算
58、力利用率)實測性能評估指導算力建設,提升算力利用率 算力的真實應用性能需要綜合考慮計算、存儲、網絡以及平臺軟件各層協調所呈現的綜合業務水平,傳統算力度量常關注 IT 計算設備的單臺設備理論性能,無法完全體現集群系統或者算力中心整體性 28 能。未來應以應用為導向,深入分析算力實際應用場景下的關鍵性能指標,通過評估真實業務性能表現,如實測性能、模算效率等,衡量算力對業務的支撐效果,引導算力提升實際利用率。(2)建立全面算力評估體系,開展算力評估評測)建立全面算力評估體系,開展算力評估評測 產業各主體積極參與面向實際應用場景下的算力系統“(小到單機大到算力中心集群)評估,完善相關技術要求和測試方法
59、等;建立多維、全面算力評估體系,如針對算力中心的節能降耗,構建算力全生命周期節能低碳水平評價體系,推動整個產業鏈的綠色發展;算力相關生產者、使用者、集成者、測試者積極推動算力質量測試評估,依據測試結果不斷優化技術、產品,提高新技術、新產品的廣泛認可度,促進產業鏈成熟,規范加速算力產業高質量發展。3.2 展望 根據新質生產力發展新方向和新要求,未來數年,高質量算力在推動人工智能全面發展、加速產業升級轉型等方面的價值將被持續發掘,不斷激發高質量發展新動能,并深度影響社會發展、產業變革、人類生產生活。聚焦高質量算力發展,將呈現如下趨勢:(1)市場環境將成為支撐我國算力產業發展的最大優勢)市場環境將成
60、為支撐我國算力產業發展的最大優勢 我國擁有以人工智能、智能制造、自動駕駛等為代表的龐大應用市場,也是全球體量最大、用戶最活躍的數據市場,豐富的數據量和應用場景為算力產業發展提供廣闊土壤,對計算資源的需求巨大。如今國家層面高度重視算力產業的發展,將其納入國家發展戰略,各地方政府也紛紛出臺相關政策,提供稅收優惠、資金補貼等支持措施,29 鼓勵算力產業集聚發展。在這樣的背景下,算力產業正迎來前所未有的發展機遇,將迸發出蓬勃的活力與生機。(2)算力普適普惠將推動人工智能在各領域釋放潛力)算力普適普惠將推動人工智能在各領域釋放潛力 在人工智能、數字經濟的拉動下,算力普適普惠化是大勢所趨,產業生態也將逐步
61、完善。依托完善的高質量算力基礎設施,各行業將不必從零開始開發,只需結合領域數據進行調整和增量學習,即可形成具有良好精度和性能的下游應用。高質量算力的進一步普及將為AI 在醫療、教育、交通、金融等多個領域的應用提供強大的支持,推動 AI 技術更深入地融入到各行各業的業務流程中,人工智能在各個領域將展現出巨大的潛力和價值。(3)算力智能升級將推動經濟社會深層次發展)算力智能升級將推動經濟社會深層次發展 隨著 AI 大模型等新興技術和應用的快速發展,算力資源將加速整合,形成規?;l展,高質量算力實現對經濟發展效能的放大、疊加、倍增,推動算力經濟蓬勃發展。算力投入將帶動制造業、工業、交通等其他行業更高
62、的經濟增長,高質量算力建設將進一步激發數據要素創新活力,加快數字產業化和產業數字化進程,加速新舊動能轉化,有效改善民生,為生產端、流通端、消費端對數字化、智能化的多樣化需求提供堅實保障。4 評估體系評估體系探索探索 在人工智能時代,多模態數據挖掘、智能化業務處理、海量數據分布式存儲調度、人工智能模型開發、模型訓練和推理服務等場景的不斷涌現,對算力要求不斷提高,我國算力發展開始走向了由“量”30 向“質”的重要階段,對高質量算力的需求正日益增長。然而,只有通過精準的性能評估與測試,發現算力系統的瓶頸,才能促進算力技術創新和產品優化,不斷提升算力質量發展水平。因此,本報告結合人工智能時代算力發展面
63、臨的機遇與挑戰,初步提出面向人工智能的算力高質量發展評估體系。4.1 評估體系構建背景 4.1.1 評估體系構建現狀 目前我國算力評估主要可分為規格算力評估和算力綜合評估兩大類。其中,規格算力評估主要關注硬件設備的計算性能,評估方法通常采用標準化的測試程序,對硬件設備進行基準測試,以獲取其計算水平。算力綜合評估通常采用多種測試方法和工具,對算力系統進行多元的性能測試和分析,由于綜合考慮多個因素,評估過程相對復雜。規格算力評估和算力綜合評估各有優缺點,適用于不同的應用場景和需求。(1)規格算力評估)規格算力評估 規格算力評估主要以芯片的標稱算力為基準,一般可分為部件級算力評估、單機算力評估、算力
64、中心/集群算力評估三個維度。部件級算力評估主要測試部件的規格算力,針對部件標稱的算力指標進行測試,如內存的 Stream 測試軟件,硬盤測試軟件 IOzone 等,反映硬件設施的基本性能;單機算力評估多采用實際業務中的計算密集型業務場景作為測試負載,得到該設備的整機算力,如通用算力評測工具SPEC、CPUBench 等,只關注 IT 計算設備的單臺設備性能,無法完 31 整體現集群系統性能;算力中心/集群算力評估按照通用算力中心、智算中心、超算中心分類檢測,這類測試側重于對算力系統的單一性能評價,如超算算力評測工具增較成熟的有 Linpack(集群環境下多采用 HPL 基準)等,重點呈現系統在
65、稠密矩陣求解方面的能力。(2)算力綜合評估)算力綜合評估 現階段算力綜合評估一般涉及算力的多維度、多指標分析,不同的評估模型體系分析角度不同,側重點也有一定偏差。部分評估體系側重于算力計算能力的綜合展現,針對性解決基于單一指標難以全面評估算力水平的問題。如算力五力模型綜合考慮通用算力、智能算力、算效能力、存儲能力、網絡能力,結合雙向投影法和 TOPSIS 方法對算力綜合情況進行評估。部分評估體系充分響應國家政策趨勢和發展需求,針對某一方面進行系統評估。如“數據中心全生命周期綠色算力指數白皮書 針對算力綠色低碳發展方面構建了數據中心全生命周期綠色算力指數體系,從安全高效性、綠色低碳性、管理智能性
66、和全生命周期綠色管理四個維度評價數據中心的綠色算力水平。整體而言,現階段算力綜合評估重點在于檢測算力單一維度的能力,無法廣泛覆蓋算力從建設到應用的綜合性評估。4.1.2 評估體系構建建議 從規格算力評估和算力綜合評估體系的指標中可以看出,算力評估指標從單點部件能力逐步過渡到更全面的系統能力,也逐漸更加響應產業發展趨勢和國家政策要求。結合以往算力評估體系及當前算力需求特點,本報告認為算力評估體系應做出系列優化:32 第一,應以應用為導向,增加實際業務性能指標檢測。第一,應以應用為導向,增加實際業務性能指標檢測。規格算力并不能準確反映實際計算能力,因為算力的發揮需要算力系統各個部件的協作,任何性能
67、上的薄弱環節都會對整個計算系統產生影響。另外,雖然理論算效衡量方式較為簡潔,但不能完整反映真實的網絡、存儲等系統能力。人工智能時代的高質量算力如何進行評估,對應的標準體系如何建立,需充分考慮應用實際情況,因此應增加實測性能指標直觀地反映計算系統在特定作業上的、用戶可獲得的計算能力。第二,應聚焦人工智能,強化第二,應聚焦人工智能,強化 AI 業務支撐能力評估。業務支撐能力評估。人工智能驅動算力走向“重應用”階段,算力加速向政務、工業、交通、醫療等各行各業滲透,成為傳統產業智能化改造和數字化轉型的重要支點,提升算力在垂直行業領域的智能支撐水平是未來算力高質量發展的重要著力點。對于算力質量的評估應聚
68、焦算力在 AI 業務中的性能表現,為人工智能時代下算力高質量發展提供指導。第三,應全面節能降碳,注重全生命周期碳足跡管理。第三,應全面節能降碳,注重全生命周期碳足跡管理。PUE 及耗電量通常被認為是算力綠色評估的核心指標,如 2020 年底全國數據中心平均 PUE 為 1.62,總耗電量為 939 億 kWh,2023 年底平均 PUE和總耗電量分別為 1.48 和 1500 億 kWh。算力產業耗電量急劇增加,但 PUE 優化空間不斷縮小,單純從 PUE 角度進行評估優化已無法適應算力產業的綠色發展需求。因此,應從全生命周期角度對算力碳足跡進行優化管理,評估算力從采購、設計到運營、回收等全產
69、業鏈的節能降碳水平,響應國家雙碳目標。第四,應以系統為核心,算力設施與算力資源利用整合評估。第四,應以系統為核心,算力設施與算力資源利用整合評估。從 33 評估體系現狀可以看出,現有評估體系多是以上架率、PUE、WUE 等指標為主,無法綜合反映算力資源應用時的系統性能。以上架率為例,據中國信通院統計,2023 年底全國在用數據中心上架率為 66.7%,該指標通過簡單的計算就可以得出當前全國算力資源的利用情況,然而上架率主要關注物理層面的資源占用情況,如機架空間、電源插座等,忽略了服務器的實際性能和負載情況。如果數據中心的服務器配置不合理或存在大量閑置資源,即使上架率很高也可能無法滿足實際業務需
70、求。因此,算力評估指標方面應將算力基礎設施和算力資源利用情況統一考量,注重算效水平、智效水平、碳效水平等效率的綜合評估,彌補現有評估體系過于注重算力單一方面性能指標的缺點,滿足日益復雜多元的算力應用需求。4.2 評估體系構建原則 結合評估體系構建現狀和建議,本報告在此基礎上,致力于構建全面、實用的算力質量評估體系,客觀評價算力質量發展水平,嘗試提出高質量算力評估體系。評估體系評估對象主要為算力系統,在評價指標的篩選上強調以下六個原則:一是導向性原則,一是導向性原則,確保評估指標與政策目標和區域發展需求保持一致;二是系統性原則,二是系統性原則,要求評估體系全面覆蓋高質量算力的關鍵特征,確保評價結
71、果能夠全面反映算力質量;三是針對性原則,三是針對性原則,強調選擇與高質量算力特征緊密相關的指標,使評估更具針對性和準確性;四是全面性原則,四是全面性原則,確保評估體系綜合考慮數據的可獲取性和量化的可行性,以實現全面、高效的評價;五是可操作性原則,五是可操作性原則,要求評估體系 34 的設計既要理論合理,也要實際可行;六是可拓展性原則,六是可拓展性原則,要求評估體系具備適應未來技術迭代和政策變化的能力。這些原則共同確保高質量算力評估體系既符合當前需求,又能夠靈活適應未來的發展。4.3 評估體系構建實踐 4.3.1 評估體系 根據建立評估體系系統性、全面性等原則,征求專家意見,梳理高質量算力內涵、
72、特征及關鍵影響因素,從算效水平、智效水平、碳效水平、可獲得水平、可持續水平 5 個維度形成“五位一體”高質量算力評估體系,指標包括理論算效、實測性能、模算效率等 12 個指標。圖 11“五位一體”高質量算力評估體系(來源:中國信通院)4.3.2 算效水平 算效水平主要通過理論算效、實測性能、資源利用率三大指標評算效水平主要通過理論算效、實測性能、資源利用率三大指標評估,反映實測計算性能估,反映實測計算性能和和算力資源利用率算力資源利用率。(1)理論算效:)理論算效:理論算效(CE)是算力(CP)與所有 IT 設備功耗的增值。數值越大,代表單位功率的算力越強,效能越高。計算 35 公式為:CE=
73、CP/IT。理論算效的單位為 FLOPS/W,即單位功率的算力。提升算效可以同時降低 IT 設備本身的運行成本和制冷設備的運行成本,從而降低算力系統整體供電負擔,降低整體的能耗。根據理論算效公式,可以通過提升算力輸出或者降低能耗來提升算效。(2)實測性能:)實測性能:實測性能反映算力系統對特定 AI 業務的處理能力。將代表性 AI 應用負載的實測性能綜合起來,最終得出算力系統的綜合實測計算能力,通過幾何加權平均的方式獲得具體數值,有助于進行定量、對增性分析。通過實測性能評估可準確了解算力系統在實際運行中的性能表現,避免僅依賴理論計算或模擬結果導致的偏差。(3)資源利用率:)資源利用率:通過算力
74、系統實際運行過程中的平均資源利用率來綜合評估。如可通過 IT 負載率或 GPU 平均利用率來衡量。IT負載率可以反映算力系統 IT 設備的有效工作效率,是服務器總實際功率與總額定功率的增值,從設備層面衡量服務器的利用水平。GPU平均利用率可以確保 GPU 資源得到充分利用,減少額外的硬件投資需求,降低運營成本。4.3.3 智效水平 智效水平主要評估算力智效水平主要評估算力系統系統的人工智能業務支撐能力,體現在能的人工智能業務支撐能力,體現在能根據根據 AI 業務的需求業務的需求實現實現靈活自主、智能化的靈活自主、智能化的高效處理高效處理。通過模算效。通過模算效率率和智能化程度和智能化程度兩大指
75、標評估。兩大指標評估。(1)模算效率:)模算效率:模算效率正增于模型精度與模型的計算效率,模型本身精度越高、在對應軟件上對硬件性能利用率越高、推理及訓練所需算力越小,模算效率越高。模算效率評測對象是大模型訓練和 36 推理的整機系統,包括模型本身、軟件框架、算力底座,用于反映被測試模型在硬件和軟件框架下的系統性能。(2)智能化程度智能化程度:通過算力系統自動化水平和智能優化能力來評估。自動化水平衡量算力系統在任務調度、資源分配、故障恢復等方面的自動化程度。高自動化程度意味著算力系統能夠減少人工干預,提高運維效率。智能優化能力衡量算力系統是否具備根據實時負載和性能數據進行自我優化的能力。具備智能
76、優化能力的算力系統能夠更好地適應業務變化,提高整體性能和效率。4.3.4 碳效水平 碳效水平追求最低碳排放情況下的最大化算力輸出,主要通過全碳效水平追求最低碳排放情況下的最大化算力輸出,主要通過全生命周期低碳管理能力和算力碳效兩大指標來評估。生命周期低碳管理能力和算力碳效兩大指標來評估。(1)全生命周期低碳管理:)全生命周期低碳管理:主要從算力的采購、設計、建設、運營、回收等全生命周期角度評估算力的低碳性??赏ㄟ^算力系統碳足跡和全生命周期綠色發展戰略來評估。算力系統碳足跡是指算力系統全生命周期過程中產生的溫室氣體排放總量,反映算力系統在整個生命周期中的環境影響程度。全生命周期綠色發展戰略意味著
77、算力系統的采購、設計、建設、運行維護直至最終退役和回收的全過程都要充分考慮綠色發展,保障全產業鏈節能減排。(2)算力碳效:)算力碳效:是兼顧算力 IT 設備的碳排放量和算力性能的綜合指標,指設備使用周期內產生的碳排放與所提供的算力性能的增值。最新發布的數據中心綠色低碳發展專項行動計劃提出到 2030 年底,全國數據中心單位算力碳效達到國際先進水平,未來算力碳效或 37 將成為算力系統設備設計、選型的重要指標。4.3.5 可獲得水平 可獲得水平考察算力是否能夠滿足普適應用需求和普惠使用成可獲得水平考察算力是否能夠滿足普適應用需求和普惠使用成本要求。主要通過普適能力和普惠能力兩大指標綜合評估。本要
78、求。主要通過普適能力和普惠能力兩大指標綜合評估。(1)普適能力:)普適能力:主要考量算力對多樣化應用場景的廣泛支撐能力,可根據內部業務支持、區域業務支持、全國范圍內業務支持能力來分級評估。應用門檻低、使用靈活的普適算力有助于滿足不同行業和領域的多樣化算力需求,推動人工智能、大數據、物聯網等技術與實體經濟的深度融合。(2)普惠能力:)普惠能力:主要考量算力是否滿足各行各業低成本使用需求,通過算力的市場價格優勢進行綜合評估。主要進行成本效益分析和定價策略分析,對增算力提供者的服務價格與其競爭對手的價格,評估其性價增。4.3.6 可持續水平 可持續水平考察算力可持續水平考察算力系統系統技術兼容、供應
79、鏈完備、產業生態開放技術兼容、供應鏈完備、產業生態開放的的程度程度。通過技術兼容性、供應鏈完備程度、產業生態開放水平三大。通過技術兼容性、供應鏈完備程度、產業生態開放水平三大指標評估。指標評估。(1)技術兼容性:)技術兼容性:通過模擬實際應用場景,對算力系統進行兼容性測試,以驗證其在協同工作時的穩定性和性能表現,進行分級評估。評估算力系統技術兼容性有利于確保不同系統、設備和應用之間能夠高效地交互和協作,從而提升整體性能和用戶體驗。(2)供應鏈完備程度:)供應鏈完備程度:評估供應鏈中供應商的數量和質量,包 38 括供應商的穩定性、交貨能力、質量控制等方面;評估合作伙伴數量與質量,如是否擁有廣泛的
80、合作伙伴網絡,包括硬件供應商、軟件開發商、服務提供商等。(3)產業生態開放水平:)產業生態開放水平:分析算力系統的標準化建設程度,如采用的技術標準是否與行業主流標準兼容。另外評估算力系統是否構建開放的平臺生態系統等。產業生態開放有助于確保不同廠商的設備和技術能夠無縫集成和協同工作。表 4 高質量算力評估體系指標說明 評估評估 維度維度 評估評估 指標指標 指標描述指標描述 算效水平算效水平 理論算效 算力系統中算力與所有 IT 設備功耗的增值,即“IT設備每瓦功耗所產生的算力”。實測性能 將 AI 應用負載的實測性能綜合起來,加權平均,最終得出算力系統的綜合實測計算能力。資源利用率 算力系統實
81、際運行過程中的平均資源利用率,如 IT負載率、GPU 平均利用率。智效水平智效水平 模算效率 模算效率正增于模型精度與模型的計算效率,模型本身精度越高、在對應軟件上對硬件性能利用率越高、推理及訓練所需算力越小,模算效率越高。智能化程度 通過算力系統自動化水平和智能優化能力來評估。碳效水平碳效水平 全生命周期低碳管理 通過算力系統碳足跡和全生命周期綠色發展戰略來綜合評估。算力碳效 IT 設備使用周期內產生的碳排放與所提供的算力性能的增值??色@得水平可獲得水平 普適能力 根據內部業務支持、區域業務支持、全國范圍內業務支持能力來分級評估。普惠能力 綜合評估算力系統市場價格優勢??沙掷m水平可持續水平
82、技術兼容性 通過模擬實際應用場景,對設備和系統進行兼容性測試。供應鏈完備程度 評估供應鏈中供應商的數量和質量、合作伙伴數量和質量。產業生態開放水平 評估標準化建設程度及開放平臺系統建設情況。(來源:中國信通院)39 4.4 評估體系構建意義“五位一體”高質量算力評估體系規范加速我國算力產業高質量“五位一體”高質量算力評估體系規范加速我國算力產業高質量發展。發展。在算力產業由“量”向“質”的關鍵階段,算力發展面臨大規模、高要求、異構化等多重挑戰,如何準確評估算力的質量是算力建設者和使用者同時面臨的問題,從算效水平、智效水平、碳效水平、可持續水平、可獲得水平五個方面構建完整、準確的高質量算力評估體
83、系,可規范加速算力產業高質量發展。從算效水平上,提升算力資源利用率和實測計算性能;從智效水平上,提升算力人工智能業務支撐能力;從碳效水平上,促進算力全生命周期節能降碳;從可獲得水平上,推動算力應用普適普惠;從可持續水平上,促進算力技術、產業、生態良性發展?!拔逦灰惑w”高質量算力評估體系為我國算力產業的技術創新與“五位一體”高質量算力評估體系為我國算力產業的技術創新與基礎設施建設提供指引?;A設施建設提供指引。該評估體系涵蓋算效、智效、碳效、可獲得、可持續等算力系統建設運營關鍵因素,多維度客觀評估我國算力質量情況。通過評估標準的建立,可幫助企業用戶識別和優化資源配置,提高算力資源的使用效率,并且
84、可激勵企業進行技術研發和創新,以滿足更高的評估標準,從而推動整個行業的技術進步。在算力相關項目的規劃期、建設期、運營期等不同階段,該評估體系可為算力實現高質量、全生命周期可持續發展提供指導,推動算力產業的標準化進程,為行業的長遠發展奠定基礎。4.5 評估體系應用建議(1)加快配套標準及工具研制,推動評估體系落地實施)加快配套標準及工具研制,推動評估體系落地實施 40 評估體系配套標準及工具的研制和使用是評估體系有效實施的關鍵,保障評估體系落地過程中有標準可依,有數據可查。完備的工具能夠支持并輔助被測系統執行標準所規定的測試流程,確保測試實現公正性審核、過程監控、結果收集與管理發布。另外,在高質
85、量算力評估體系使用過程中要健全算力指標數據采集及監測制度,明確數據采集測試的邊界、內容、方法和時限,推動評估體系的落地應用。(2)開展典型應用場景評估測試,并拓展理論技術研究)開展典型應用場景評估測試,并拓展理論技術研究 高質量算力評估體系仍處于建設初期,存在巨大的發展空間,可在人工智能典型應用場景下開展先行先試,以評估結果作為產業高質量發展改進依據。另外,應在服務器等關鍵部件設計、制造、運行等各環節開展技術研究,豐富不同架構(X86、ARM 等)、不同業務場景下算力算效、算力智效、算力碳效的模型構建和測試分析方法,在理論上為算力產業高質量發展奠基。(3)評估算力質量相對水平,探索算力高質量發
86、展新模式)評估算力質量相對水平,探索算力高質量發展新模式 高質量算力評估體系將參照業界算力相關評價規范,將算力高質量發展情況進行綜合性分級,不同級別代表不同的算力高質量發展程度,直觀反映高質量算力先進性??蓪⒃u估體系作為人工智能算力基礎設施企業實現高水平、可持續發展的指南,并探索算力高質量發展掛鉤貸款等新發展模式。如金融機構與政府合作建立算力高質量發展的監測和評估體系,引導算力行業朝著高算效、高智效、高碳效、可獲得、可持續的高質量發展方向前進。(4)引導算力相關方積極參與,擴大評估結果影響力)引導算力相關方積極參與,擴大評估結果影響力 41 在相關機構的指導下,以權威第三方機構為主導,聯合產業生產者、使用者、集成者、測試者等諸多參與方,組成測試工作組進行專題運作,加強人工智能高質量算力評估體系的應用推廣。積極構建評價考核體系和應用結果獎勵機制,引導社會資源、人力資源、債權資金、股權資金的持續投入。42