1、計算中心有效算力評測體系白皮書國家人工智能標準化總體組全國信標委人工智能分委會二二二年七月計算中心有效算力評測體系白皮書國家人工智能標準化總體組全國信標委人工智能分委會二二二年七月編寫單位(排名不分先后)中國電子技術標準化研究院 鵬城實驗室北京航空航天大學 華為技術有限公司 中國移動通信有限公司研究院 中國電信股份有限公司研究院中國聯合網絡通信有限公司研究院 上海依圖網絡科技有限公司浪潮電子信息產業股份有限公司 飛騰信息技術有限公司 上海商湯阡誓科技有限公司 上海天數智芯半導體有限公司摩爾線程智能科技(北京)有限責任公司 上海燧原科技有限公司 上海登臨科技有限公司 北京登臨科技有限公司 西安未
2、來人工智能計算中心 成都智算中心 青島人工智能計算中心 武漢人工智能計算中心 沈陽人工智能計算中心 大連人工智能計算中心 中原人工智能計算中心 河北人工智能計算中心 南京人工智能計算中心編寫組成員(排名不分先后)范科峰 董 建 張 群 徐 洋 鮑 薇 張 琦 余 躍 張葉紅董一川 欒鐘治 謝海波 丁寶貴 曹曉琦 包振忠 聶永豐 孫錫軍 崔 金 張 超 王遷涵 張婷婷 魏 華 雷 波 周舸帆 何 琪 曹 暢 張 巖 李建飛 趙春昊 許 源 李柏宏 康真健 王大偉 谷瀟聰 田紹清 郭 文 余雪松 張鈺勃 董龍飛 袁兆凱 姚建國 張亞林 張明潔 慈紅斌 陳衡哲 汪宇波 劉 明 楊增君 穆勤學目 錄1
3、 數字經濟與算力建設 1 1.1 算力建設助力計算中心高質量建設 1 1.2 通過有效算力實現“節能”+“增效”雙輪驅動,促進計算 中心高質量建設 22 計算中心算力評測現狀 4 2.1 計算中心算力類型 4 2.2 計算中心算力評測方法 53 有效算力評測體系與應用 7 3.1 有效算力的內涵 7 3.2 有效算力評測體系 11 3.2.1 有效算力指標CUE 11 3.2.2 有效算力指標CUE的計量方法 11 3.2.3 有效算力指標CUE的測試集與測試工具 13 3.3 有效算力的應用場景 15 3.3.1 人工智能計算中心 16 3.3.2 一體化大數據中心 17 3.3.3 超算中
4、心 21 3.3.4 算力網絡 224 有效算力的標準與評測進展 25 4.1 人工智能場景有效算力標準現狀 25 4.2 通用場景有效算力標準現狀 26 4.3 超算場景有效算力標準現狀 265 大力推進有效算力評測體系建設 28 5.1 建議政策導向有效算力的先行先試 28 5.2 建議加快指標體系的標準化和工具化 29 5.3 建議通過組織承載并進行榜單發布 296 結語 31核心表達牽引以有效算力的衡量方式進行計算中心新型基礎設施高質量建設(含人工智能計算中心、一體化大數據中心、超算中心等),達到以業務應用為牽引、以全棧優化為手段、以節能增效為目標的計算中心建設和評測體系,提升計算中心
5、新型基礎設施建設的質量,以支撐數字經濟等宏觀政策與頂層設計落地。白皮書內容白皮書提出有效算力和有效算力指標的概念。并給出有效算力的內涵、定義、計量和評測方法,及有效算力和有效算力評測指標體系的應用場景、標準進展與規劃。白皮書內容將根據技術的發展逐步迭代,本篇內容主要聚焦面向集約化建設的大型計算中心。-1-1數字經濟與算力建設數據和算力資源是數字經濟時代區域和國家競爭力的核心戰略資源。隨著信息技術的快速發展,全球數字經濟新型基礎設施建設格局正面臨深刻改變。數字經濟呈現全新的運行規律。以數據流動和處理的自動化,化解復雜系統的不確定性,實現資源優化配置,支撐經濟高質量發展的經濟新業態。1.1算力建設
6、助力計算中心高質量建設2018年諾貝爾經濟學獎獲得者 William D.Nordhaus 在計算過程一文中對算力進行定義:“算力是設備根據內部狀態的改變,每秒可處理的信息數據量”。泛在算力:智能社會的基石結合眾多權威定義中算力的特征,將算力定義為設備通過處理數據,實現特定結果輸出的能力。算力的主要載體之一是計算中心等新型基礎設施。高質量的計算中心建設,是支撐數字經濟高質量發展的重要手段,這在人工智能、云計算、區塊鏈、大數據等數字經濟重點領域尤為明顯。與此同時,計算中心的高速增長也帶來了一系列能源消耗問題。高質量建設計算中心,通過“節能”、“增效”兩手抓以應對能源消耗問題,提升算力質量。以計算
7、中心為代表的算力基礎設施,其算力總量1、算力效率2是新基建的主要抓手。我國經過多年信息化工作的推進與積累,計算中心產業已初具規模,同時隨著新基建的快速推進,我國計算中心產業呈現出基數大、增速高的局面,在算力總量上僅次于美國處于全球第二位,但算力效率與應用水平上對比美國仍存在較大差距。計算中心建設需要從“靶場思維”走向“戰場思維”轉變,著眼未來戰略新興行業布局,適度超前,前1 算力總量:以全球服務器、芯片出貨量統計的規格算力總量2 算力效率:算力的使用效率計算中心有效算力評測體系白皮書-2-瞻籌劃,置身未來,圍繞“算力效率”建設新一代算力基礎設施。計算中心能耗總量持續增加。過去十年間,我國計算中
8、心整體用電量以每年超過10%的速度遞增,預計從2020年到2030年,計算中心用電量占全社會用電量的比例從2.7%增長至3.7%。2018年全年共消耗1608.89億千瓦時電量,超過整個上海市用電量。計算中心是未來為數不多能源消耗占社會總用電量比例持續增長的行業,因此,計算中心行業積極踐行低碳節能,為我國的綠色環保事業貢獻力量。促進我國計算中心低碳技術轉型與高質量發展。集中力量攻克間接蒸發冷卻、有效算力提升、能源互聯網、碳捕集利用與封存技術(CCUS)等技術,通過節能技術與增效技術融合,促進計算中心向低碳、綠色、循環方向發展。計算中心高質量建設,需要合適的算力評測體系。計算中心建設受到數字經濟
9、高質量發展要求的驅動,對計算中心高質量建設提出更高要求。因此,如何有效評價一個計算中心建設的質量,如何牽引技術體系的高質量發展,亟需建設一個合適的算力評測體系。1.2 通過有效算力實現“節能”+“增效”雙輪驅動,促進計算中心高質量建設數字經濟高速發展帶來的是計算中心的快速擴張,而計算中心是未來為數不多的、能源消耗占比持續增長的行業(過去十年間,我國計算中心整體用電量以每年超過10%的速度遞增,預計從2020年到2030年,計算中心用電量占比從2.7%增長至3.7%;以10年為期,電費占計算中心總成本的60%3)。3 數據來源:國網能源研究院、36 氪研究院-新基建系列之:2020 年中國城市數
10、據中心發展指數報告-3-1數字經濟與算力建設通過計算中心的“綠色化、集約化、算力多樣化”,實現“清潔化、規?;?、綜合化”的轉型發展路徑。計算中心作為需求側載體需要堅持節能、增效雙輪驅動,通過節能技術創新、計算架構創新、軟件架構優化等手段,助力節能減排目標有效達成。計算機系統需要依靠各個部分軟硬件整體協同才能在應用中發揮最大的能力,這并不是各個部分的機械組合或簡單相加。因此,單純堆砌每個部分的能力,并不能使整個系統獲得最大收益。一個集群系統需要從全棧的角度進行軟硬件協同設計與優化。有效算力的提出是計算中心高質量建設的有益牽引。有利于計算中心高質量規劃:通過代表性的業務性能分析與評測,利于數據中心
11、建設者的對IT設備的提前規劃設計。有利于計算中心建設的節能、增效:通過不同應用程序的綜合評測,提升數據中心在單位能耗下的性能表現,實現節能+增效的效果。有利于促進基礎軟件的發展:通過包括操作系統、數據庫、加速庫、數學庫、系統調度、云平臺軟件等的基礎軟件優化,可大幅提升應用軟件在系統硬件上的性能表現,利用基礎軟件充分釋放芯片和硬件系統算力。有利于呈現系統的全棧優化:隨著摩爾定律的失效,依靠芯片單核性能不斷提升來提升硬件能力的時代已經過去,現代計算中心早已走向了集群系統,涉及到計算、存儲、網絡以及軟件中間的配合和協同。軟硬件全棧優化,是通過軟件技術充分釋放硬件計算能力的必要手段。例如通過算法優化、
12、軟件運行時調優、網絡通信優化、芯片指令優化、編譯器優化等措施,可實現計算效率的倍增。軟硬件聯合設計與優化,是面向業務需求進行高質量算力基礎設施設計、算力表現優化的必要有效手段。-4-計算中心有效算力評測體系白皮書2計算中心算力評測現狀2.1計算中心算力類型從1.1節算力的定義可以看出,算力體現了對計算、存儲、網絡等計算中心IT基礎設施完整能力的刻畫,且具有多樣性的特點,背后是多樣性業務的需求。根據目標處理的業務對象,算力一般可分為通用算力、人工智能算力以及超算算力3種指標類型。通用算力以CPU承載為主,以整型計算與邏輯處理為代表,并輔以浮點計算。主要面向的是通用軟件應用,有著復雜的邏輯。其計算
13、模型主要是邏輯運算,有著不規則的數據結構、不可預測的存取模式、遞歸算法以及分支密集型算法。其硬件結構中70%以上晶體管用于構建控制單元和緩存,計算單元從幾十個到上百個。人工智能算力以NPU/TPU/GPU承載為主,其中訓練以FP16、FP32、TF32等半精度浮點、單精度浮點計算與張量處理為代表,推理以INT8、FP16、BF16為代表。主要面向的是特定場景,比如基于人工智能的圖像識別、語音識別等,其邏輯簡單、計算密集、并發任務高。其計算模型主要是并行數據計算,面向規則的數據結構(數組、矩陣類型的數值),具有可預測的存取模式。其硬件結構中70%以上晶體管用于構建計算單元,計算單元從幾千到幾萬個
14、。超算算力以CPU/GPU承載為主,以FP64雙精度浮點計算與矢量處理為代表。主要面向的是科學計算、工業計算等數值仿真場景,例如基于流體力學的天氣預報、飛行器設計等。超算應用歷史悠久,其業務以對物理世界的建模、數值計算為主,對精度要求高,其硬件結構對雙精度計算單位要求高。同時,在一些細分領域會存在相對獨立的算力類型,如圖形計算算力,以GPU/CPU承載為主,以像素填充率和幾何填充率為主要指標。主-5-2計算中心算力評測現狀要面向的是三維可視化、云渲染等業務場景。隨著VR、元宇宙等概念的興起,這類算力存在較大的增長空間。2.2計算中心算力評測方法熱力學溫標的提出者開爾文勛爵曾提到:“If you
15、 can not measure it,you can not improve it.”即:“無法度量,就無法改進!”。這句話放在計算領域也是適用的。作為計算中心的重要組成部分-計算機系統,是影響算力的關鍵因素。從計算機發展的早期,就提出要對計算機系統的性能進行評估與測試。希望通過性能評估與測試,發現系統的瓶頸,幫助改善產品設計。也提出了各種各樣的方法對計算機系統性能進行評估,如指令混合法、核心程序法和基準程序法等。指令混合法:從五十年代Gibson提出的每秒平均執行的指令條數指標(單位為MIPS,即每秒百萬條指令)開始,基本思想是以各種典型指令出現的頻率作為權重進行加權平均計算,也被稱作指令
16、混合法。該方法較之前單純使用加法指令執行速度作為評價指標有所進步。隨著更多數值計算(浮點運算)的出現,MFLOPS指標(即每秒百萬次浮點計算)開始使用。但該方法不能反映緩存、流水線等更新的CPU體系結構特點。核心程序法:1964年Whetstone的出現表明評價指標開始從指令的執行情況過渡到代表性功能函數或程序的執行情況。也被稱為核心程序法。相關的功能函數或程序來自于最常使用的小程序段。與當前經常使用的miniapp或proxyapp有異曲同工之妙。該方法比指令混合法更能反映計算機系統的軟硬件設計特點?;鶞食绦蚍ǎ呵捌谑褂玫降脑u價方法都相對簡單,在一定程度上可以反映計算機系統的性能,但隨著產品
17、的不斷迭代,系統及業務負載的復雜度均有較大提升,上述評測方法已不能滿足或不能真實反映計算機系統的實際性能。因此,從業務負載的角度出發,基準程序法開始流行起來,如-6-計算中心有效算力評測體系白皮書SPEC CPU、HPCC等。這些基準程序中的測試負載來自于實際業務場景,根據測試指標進行相應裁剪,一定程度上能夠代表客戶實際使用場景,對生產選型具有重要指導意義。上述三種測試方法呈現一種遞進的關系,對于計算中心建設和評測而言,應當將評價標準從“極值”走向“積分”。全面衡量計算中心的建設質量。目前,計算中心評測體系分為5種類型:1)基礎設施能耗水平,如電源使用效率PUE(Power Usage Eff
18、ectiveness);2)部件級算力評估,如規格算力(芯片標稱的算力規格)指標;3)單機或單服務器的性能評測,如SPEC等,關注IT計算設備的單臺設備性能,無法完成體現集群系統性能;4)計算中心系統單一性能評價,通過計算中心集群系統整體測試,呈現算力某個單一方面的性能指標,例如IO500重點呈現系統整體存儲性能,HPL重點呈現系統在稠密矩陣求解方面的能力;5)通過真實應用完整呈現整系統能力,例如AISbench與MLperf關注人工智能領域的多種業務場景性能。圖1算力評測指標分類算力評價指標逐步從單點部件能力過渡到全棧全場景業務生產力無視應用/規格算力代理應用/抽象算力真實應用/有效算力部件
19、級部件級子系統級單場景全棧全場景CPUNPUGPUTPUDhrystoneWhetstoneSPEC CPUCPUBenchHPCGHPLHPCCSPEChpcUnixbenchGraph500IO500HPL-AIAISbenchMLperfTPCClusterBenchSPCBTCDSPFPGA-7-2計算中心算力評測現狀3有效算力評測體系與應用3.1有效算力的內涵計算中心的性能需要綜合考慮芯片、存儲、網絡以及平臺軟件各層協調所呈現的綜合業務性能,也就是“有效算力”。有效算力的提出,目的是牽引計算中心等集群系統的高質量設計與優化,其實質是一種集群系統的性能評測方法,屬于涵蓋了計算、存儲、網
20、絡、基礎軟件(OS、云平臺)等軟硬件全棧綜合業務性能的基準程序法,其方法是從以規格能力進行衡量的方式,演進到以真實業務可獲得的性能進行衡量。以實現牽引最終用戶從計算中心實際使用效果角度進行規劃,牽引系統廠商從軟硬件整體,含硬件基礎設施、基礎軟件、應用軟件等全棧角度進行計算中心的建設和優化。規格算力與有效算力之間的關系:有效算力是對規格算力的補充。傳統上,計算中心用計算芯片的規格算力進行性能衡量,常用的計量單位是每秒執行的浮點數運算次數(FLOPS)。這種衡量方式較為簡潔,從宏觀與統計的角度實現算力整體的呈現,但缺乏對計算芯片訪存、整型數據處理等多方面能力的刻畫,缺乏對計算中心網絡、存儲等集群系
21、統能力完整地刻畫。例如,在人工智能領域,有效算力的引入改變了傳統上只按照人工智能規格算力(如FLOPS,TOPS,甚至Hz等)來計量計算能力的方式,并朝著對于用戶具備實際參考意義的方向推進了一步。規格算力并不能準確反映實際計算能力,因為算力的發揮需要人工智能服務器系統各個部件的協作,任何性能上的薄弱環節(如有限的內存訪問速率、總線帶寬、網絡交換速率等)都會對整個計算系統產生影響。因此,有效算力能夠更為直觀地反映計算系統在特定作業上的、用戶可獲得的計算能力,是計算計量方法的有力補充。關于有效計算能力的研究,已在SPEC基準建設的初期展開,并沿用至今。-8-計算中心有效算力評測體系白皮書有效算力的
22、合理呈現形式為:用真實業務軟件在一定規模的ICT基礎設施系統上(含計算、存儲、網絡、OS、軟件中間件等)進行性能的測量。有效算力的本質是表征真實業務通過軟硬件聯合調優,所獲得的真實算力,以此實現與規格算力的區分。有效算力推動系統整體的架構設計、集成優化,軟硬協同和軟件層(如操作系統、計算引擎和框架)的技術優勢。與傳統的數據中心算力規模衡量指標,如柜數、硬件規格等相比,有效算力有利于提高大數據中心應用場景的設計與優化,例如:(1)通過存算分離架構提升有效算力能力在搭建大數據集群時,用戶經常默認使用計算服務器的本地硬盤作為數據存儲,這是Hadoop最初引入的一種存算一體的分布式架構。實際上在追求更
23、高性能、更好靈活性的公有云上,使用更多的是存算分離架構。存算分離即使用處理能力高的計算服務器搭建計算集群,專注高性能分析;使用存儲服務器搭建存儲集群,專注海量數據的存儲和基本的加工、過濾等操作,計算和存儲集群之間通過高速網絡互聯,充分發揮各自優勢、合理分工、緊密協同。存算分離架構具有更靈活的計算資源、存儲資源和業務擴展能力。計算中心的存算一體大數據集群大多存在CPU利用率低或者硬盤不夠用的情況,計算和存儲資源使用不均衡且無法單獨擴展,即便增加服務器解決了一個維度的問題卻使另一個維度的問題更嚴重,導致計算和存儲資源只能綁定在一起。而且多個集群之間也無法共享存儲資源。存算分離架構不僅可以單獨擴展計
24、算集群或者存儲集群,還可以帶來更加靈活的業務擴展能力。-9-3有效算力評測體系與應用存算分離架構可以實施數據生命周期管理。數據根據其時效不同具有不同的熱度(訪問頻率),將冷、溫、熱數據按需存儲到機械硬盤、固態硬盤、持久化內存等不同的介質上可以優化性能,獲得最佳體驗。使用專用的存儲集群和生命周期管理軟件可以實現細致的數據熱度管理策略和快速的介質間遷移。存算分離更加降本增效。存算分離架構可以分別提升計算、存儲密度,對大量使用CPU、GPU等發熱量大的計算集群使用液冷方案,對于發熱量低的存儲集群使用風冷或自然冷卻,達到節能低碳,降低PUE的目標。(2)利用統一內存池提升有效算力能力在大數據離線分析場
25、景中,Shuffle是在MapReduce計算過程中的一個主要操作,該操作將Map任務的輸出數據重新分布到Reduce任務的計算節點上,進行下一階段的計算。原生Hadoop、Spark等大數據分析平臺的Shuffle過程是將數據先保存到Map任務本地硬盤,再發送到遠程Reduce任務節點內存中。主要原因是每個計算節點的內存是有限的,無法緩存所有的Map任務輸出數據。但該落盤操作不得不切斷原本順滑的數據處理流水線,大大降低分析性能。統一內存池將大數據集群內計算節點的內存互聯池化,建立統一訪問圖2存算分離架構圖示-10-計算中心有效算力評測體系白皮書空間,并通過遠程直接內存訪問(RDMA)協議實現
26、低延遲讀寫訪問?;贠CK統一內存池框架的Shuffle免去本地硬盤保存過程,通過遠程內存訪問協議直接寫入Reducer的內存中,可以減少數據拷貝次數,提升Spark作業性能,進而提升有效算力。圖3統一內存池架構圖示針對內存墻限制,統一內存池技術擴展了單節點的內存容量,使應用可以盡可能的舍棄外存,而使用更快的內存資源,其不僅可加速MapReduce的Shuffle過程,而且可應用于數據庫、虛擬化、人工智能等場景下獲得性能提升。-11-3有效算力評測體系與應用3.2有效算力評測體系3.2.1有效算力指標CUE有效算力指標(CUE:Computing Usage Effectiveness),是覆
27、蓋計算中心全生命周期評估的指標體系,包含了對應的方法論、工具和測試數據集??捎糜谠u價計算中心建設的綠色性、先進性、實用性。CUE與PUE兩個指標可以從計算中心的“有效算力與能耗水平”兩個維度,以一種綜合的方式衡量計算中心設計質量的指標體系。CUE核心理念:從規格算力演進到有效算力以表征應用業務性能;從PUE演進到CUE,以體現全棧垂直優化的價值。CUE評測指標提供方法論和工具支撐,真實反映計算中心資源使用情況,通過效能分析,指導計算中心面向業務場景,從全棧融合的角度,自機房、能源基礎設施、硬件基礎設施至軟件基礎設施各層的整體設計與建設,提高計算中心資源使用率。從能耗比,演進到算能比,提升資源可
28、分配的效能。鼓勵建設主體按照有效算力標準對計算中心進行系統化設計;通過PoC(Proof of Concept)牽引硬件與硬件協同、硬件與軟件協同、軟件與軟件協同,以獲取更優的有效算力。3.2.2有效算力指標CUE的計量方法有效算力指標可用如下方式進行計量:其中Psi為測試集在基準軟硬件系統上的實際性能;Pi為測試集在目標軟硬件系統上的實際性能。i為測試集中不同benchmark或實際應用軟件的權重。為調整系數,建議該常數值為100。-12-計算中心有效算力評測體系白皮書CUE公式的設立,可以有效避免多個真實業務性能測試所帶來的單位不統一、描述過于復雜等局面。通過幾何加權平均的方式獲得一個單一
29、數值,有助于進行定量、對比性分析。例如在人工智能領域,實際吞吐率代表人工智能服務器系統對特定訓練或推理作業的有效計算能力。提升有效計算能力可達到硬件系統擴容的效果。有效算力的提升,軟件方面的優化可包含如計算設備加速庫中算子的優化、軟件棧的輕量化等技術的應用。對特定訓練作業的有效計算能力是單位時間內訓練過程能消耗的樣本數量:對視覺類測試,單位為圖片數每秒(images/s);對自然語言處理類測試,單位為句數每秒(sentences/s)。如評價人工智能服務器系統的綜合訓練能力,可將多個代表性訓練作業的有效計算能力綜合起來,形成人工智能服務器系統的有效計算能力,它是人工智能服務器系統在給定任務集合
30、S上,實際吞吐率與每任務基線吞吐率之比的加權幾何平均。a)對于給定的訓練場景集合S,對每個場景負載sS,使用某特定參照計算系統,在s上測得吞吐率作為基線;b)設SUT在s上測得的訓練實際吞吐率為,則訓練綜合相對吞吐率,由在s上的加權幾何平均計算。:式中:是在參考人工智能計算設備上測得的關于s的基線吞吐率。對于一次對比測試,應在所有被測系統的運行中保持不變;-13-3有效算力評測體系與應用s 是作業s對應的權值;調整系數。如測得場景resnet50_v1.5及bert-large的實際吞吐率與,訓練吞吐率綜合加速比可由下式計算:式中:調整系數,默認為100;ThRN*resnet50_v1.5對
31、應的基線吞吐率;ThBL*bert-large對應的基線吞吐率;RN resnet50_v1.5對應的權值;BL bert-large對應的權值。3.2.3有效算力指標CUE的測試集與測試工具按照計算中心使用目的,CUE可被細分為面向人工智能計算中心、超算中心和一體化大數據中心的CUE指標。其中,面向于人工智能計算中心的CUE測試集可參考信息技術 人工智能 服務器系統性能測試規范(T/CESA 1169-2021)的測試集,例如圖像識別、語義分析等。測試集的選擇需要兼顧效率、公平性與牽引作用。隨著技術和應用的不斷發展,將會有更多的測試集,例如大模型、國產數據集等不斷涌現,需要適當考慮測試集的標
32、準化更新問題。-14-計算中心有效算力評測體系白皮書圖4標準中定義的測試集實例圖5CPPB-CPU中定義的標準測試集及可能的集群系統測試集擴展CPPB-CPU-int,用于測試裸算力,對位SPEC CPU,只關注計算性能CPPB-Cluster-BigData,用于測試大數據集群有效算力,關注集群業務綜合性能CPPB-Cluster-DataBase,用于測試數據庫集群有效算力,關注集群業務綜合性能測試場景workloadgccx264gzipregexHbaseSparkStormOLTPOLAPSM2/SM3/SM4編譯器視頻編碼解碼數據壓縮大數據數據庫加解密文字處理類型項目112技術要素
33、模型模型數據集a門限b優化方法試驗次數結果模型精度數據集a門限b優化方法試驗次數結果模型精度損失函數損失函數模型數據集a門限b優化方法試驗次數結果模型精度損失函數AI服務器AI服務器集群圖像識別自然語言處理resnet101_v1imagenet2012imagenet2012sgd+momentumsgd+momentum5555FP16/FP32FP16/FP32FP16/FP32bert-large d gcn-wiki/en-wikiresnet50_v1.5softmax+cross entropy losssoftmax+cross entropy losssoftmax+nega
34、tive maximumlikehood lossTop1-準確率 75%resnet101_v1imagenet2012sgd+momentum77FP16/FP32softmax+cross entropy lossTop1-準確率 75%Top1準確率 74%mask_lm accuracy 0.7lambimagenet2012sgd+momentumFP16/FP32FP16/FP32bert-large d gcn-wiki/en-wikiresnet50_v1.5softmax+cross entropy losssoftmax+negative maximumlikehood
35、lossTop1準確率 74%mask_lm accuracy 0.7lamb-15-3有效算力評測體系與應用建議面向于通用場景的CUE測試集可在CPPB-CPU標準測試集基礎上進行擴展,例如大數據、數據庫等分布式集群應用。建議在一定規模規格算力的集群系統上進行有效算力測試。允許優化硬件配置與基礎軟件版本,以及應用參數等,以體現全棧優化的效果,并根據實測工具獲取最終性能數值。該數值可作為不同技術路線集群系統的性能對比,以牽引技術架構與軟硬件設計的演進。對于人工智能計算中心、超算中心等并行集群系統特征更為明顯的業務場景,或者一體化大數據中心等并發集群系統特征更為明顯的業務場景,亦可通過有效算力的
36、評測方法,按照并行或者并發的技術,進行整系統的評測,以實現對傳統評測方法的補充。相對而言,并行的測試方法更關注整系統對單一任務的處理能力,而并發的測試方法更關注整系統對多個任務的吞吐能力。人工智能計算中心的有效算力測試工具進展顯著,目前相關的標準化組織已發布AISBench Test Toolkit作為測試工具套件。同時發布人工智能系統性能測試規則,定義了人工智能系統及應用性能測試內容、組織流程和發布方法。在使用AISBench 進行測試工程中,測試方使用AIBench-Tester,被測方使用AISBench-Stub,在第三方機構監督下進行測試。測試的數據集可參考信息技術 人工智能 服務器
37、系統性能測試規范(T/CESA 1169-2021)的測試集。測試系統建議在一定規模規格算力的集群系統,或者計算中心整系統進行測試。3.3有效算力的應用場景與算力類型相對應的,本報告中列舉出新型基礎設施的三種代表性計算中心,以及在這些場景下有效算力如何表示。這三種計算中心分別是人工智能算力所對應的人工智能計算中心,通用算力所對應的一體化大數據中心和超算算力對應的超算中心。-16-計算中心有效算力評測體系白皮書同時,隨著算力網絡概念的提出,如何在算力網絡場景中通過有效算力的方式度量、交易多種算力,也是迫切需要解決的前沿問題。隨著計算中心業務的不斷豐富和發展,有效算力的應用場景將更為多樣化,在后續
38、的白皮書中將繼續增加算力類型和有效算力的廣度和深度。3.3.1人工智能計算中心人工智能計算中心是以基于人工智能芯片構建的人工智能計算機集群為基礎,涵蓋了基建基礎設施、硬件基礎設施和軟件基礎設施的完整系統,主要應用于人工智能深度學習模型開發、模型訓練和模型推理等場景,提供從底層芯片算力釋放到頂層應用使能的人工智能全棧能力。人工智能計算中心面向需要大量人工智能算力的新興行業提供普惠的人工智能公共算力服務,負載應用使用多種人工智能模型,其有效算力可以通過提取主要應用領域、選取領域典型代表模型并測試代表模型的性能表現、統計代表模型應用比例三個步驟獲得評估數據。計算機視覺(Computer Vision
39、,CV)和自然語言處理(Natural Language Processing,NLP)是人工智能計算中心當前主要的應用領域。人工智能廣泛應用于計算機視覺、自然語言處理、語音識別、對話機器人、個性化推薦等領域。根據2020-2021中國人工智能計算力發展評估報告,計算機視覺和自然語言處理是人工智能當前最主要的應用領域,在整體人工智能市場中占比超過90%。計算機視覺、自然語言處理深度學習技術,已經在安防、工業檢測、智慧園區、對話機器人、語言翻譯等生產場景落地,取得了良好的應用效果。實際上,CV、NLP也是深度學習技術應用最成功的兩個領域。通過對當前計算機視覺和自然語言處理領域的常用代表性模型Re
40、sNet50和Bert-Large的分布數據進行統計分析,ResNet50模型相對占比約為56%,Bert-Large模型相對占比約為44%。ResNet和Bert是當前人工智能領域典型的代表模型,建議作為目前-17-3有效算力評測體系與應用有效算力的典型負載。圖像分類是計算機視覺最為常見的應用。ResNet作為最為經典的分類模型,在ImageNet數據集上top5錯誤率3.57%,ILSVRC 2015競賽排名第一。ResNet能夠有效緩解梯度過深導致的梯度消失問題,使得網絡加深后性能不會變差,收斂速度更快,同時參數相對之前的模型更少、復雜度更低。近年來又出現了很多ResNet網絡的變體,如
41、Res2Net,ResNeSt,IResNet,SCNet等,應用更加廣泛。因此在CV領域,以ResNet模型為代表的圖像分類任務,可作為有效算力度量的標準負載。自然語言處理是深度學習的另一個主戰場,包括文本分類、文本生成、文本摘要、主題提取等多個細分任務。開發者針對某一個NLP業務主題收集語料、設計網絡結構、訓練,定制化開發成本高。近年來出現了預訓練大模型技術,開發門檻低、訓練成本低、精度高,并且沉淀行業知識,能夠很大程度上解決傳統模型開發碎片化的問題。大模型成為NLP領域重要的技術突破。Bert模型作為典型的NLP大模型,在11個方向大幅刷新了精度,從發布至今一直備受關注,近年來出現了多個
42、變體,如ROBERTA、ALBert、ERNIE、BertGCN等,持續刷新SOTA,是深度學習領域的研究熱點。NLP應用場景廣泛,任務多樣化,開源測評數據集豐富,可以作為另一個有效算力度量的標準負載。由此可見,當前ResNet和Bert模型分別是計算機視覺和自然語言處理領域中研究和應用最廣泛,落地最成熟的典型模型。隨著人工智能技術的不斷演進,新的模型不斷涌現,相信未來我們會看到更多的模型落地。有效算力的典型負載會不斷更新和完善,始終代表人工智能計算中心主流負載。3.3.2一體化大數據中心為推動計算中心合理布局、供需平衡、綠色集約和互聯互通,構建數據中心、云計算、大數據一體化的新型算力網絡體系
43、,促進數據要素流通-18-計算中心有效算力評測體系白皮書應用,實現計算中心綠色高質量發展,2021年,國家發展改革委、中央網信辦、工業和信息化部、國家能源局聯合發布全國一體化大數據中心協同創新體系算力樞紐實施方案,全國一體化大數據中心建設已成為未來新經濟社會發展的重要基礎。交互、交易、洞察三種應用系統成為一體化大數據中心負載的主要組成部分。一體化大數據中心面向社會千行百業提供通用計算服務。業務應用基本上有四類:1.交互類,如線上政務、辦公應用,互聯網購物、社交應用的前端系統,以Web/應用服務器類負載為主。2.交易類,如網上支付以及各類資產交易系統,以數據庫類負載為主。3.洞察類,如經營分析、
44、客戶畫像等,以大數據分析類負載為主。4.另外還有其他定制業務應用,以云主機負載為主。一體化大數據中心的實際業務應用可能由多個類型的負載以一定的比例組合而成。大數據分析、數據庫、Web/應用中間件、云主機是一體化大數據中心的典型業務負載。1.大數據分析類負載大數據分析應用場景通?;贖adoop、Spark生態開源大數據計算引擎或相關的商業發行版構建大數據分析集群,可以對各類結構化、非結構化、半結構化數據進行加工處理和分析挖掘。以Spark為例,主要應用于離線批處理,包括機器學習和圖分析,以及少量的流式計算。離線批處理以海量非結構化數據的排序、結構化數據的統計挖掘應用為代表,離線批處理應用參與計
45、算的數據量大、數據格式多樣、處理過程復雜,對數據處理時間要求不高,可以從分鐘到小時級別,常用于后臺海量數據的深度分析。-19-3有效算力評測體系與應用機器學習和圖分析數據挖掘需要利用機器學習提供的模型技術在海量數據中識別出潛在未知的規律,以發掘其中蘊含的有用信息。通用的機器學習算法和工具包括分類、回歸、聚類、協同過濾、降維等。在社交媒體數據挖掘中使用圖來表示網絡結構,能夠更快地在大量數據中識別圈團和連接關系,圖分析技術在搜索引擎和推薦系統中被大量應用。從業務應用層面衡量一個大數據分析系統的有效算力可以對單位時間內能夠完成的文本排序、排名統計、分析作業等不同類型的負載量進行測試。TeraSort
46、是Hadoop內置的一種業界主流的排序性能測試基準,通過在給定的大數據集群上對隨機生成的TB級文本數據進行排序,得到集群每分鐘能夠排序的數據量(GB/Min)。PageRank是一種在圖上使用無監督機器學習進行排名的測試基準,這種算法應用在谷歌的搜索結果排名中,其測試結果同樣是集群每分鐘實現排名的數據量(GB/Min)。TPC-DS測試基準來自零售行業訂單數據挖掘業務,在集群上對25張表執行99個SQL,其執行時間體現了集群的性能。大數據分析系統除了對CPU處理能力的要求之外,還對存儲和網絡的吞吐量產生很大的挑戰,通過合理的存算架構設計、算子統籌協調、近數據計算、內存計算等技術可以達到減少數據
47、搬遷,提升處理吞吐量,并最終縮短計算時間的目標。同時,新興的數據處理單元(DPU)具有數據I/O、協議棧卸載能力,實現了與CPU的互補,對提升大數據分析有效算力具有很大作用。2.數據庫類負載數據庫應用場景當前主要以MySQL、OpenGauss、Hbase等開源數據庫引擎或者各類商業數據庫軟件構建數據庫平臺,對各類結構化數據進行事務處理和快速查詢。關系型數據庫-20-計算中心有效算力評測體系白皮書關系數據庫處理核心數據,支撐關鍵應用。關系型數據庫面向聯機事物處理(OLTP),其最大的特點是能夠保證事務(transaction)處理過程的一致性,即保證所管理的記錄數據在增、刪、改、查過程中的正確
48、性,滿足現實世界中各類交易場景的需求,如金融交易、訂單管理等。Key-Value數據庫又稱鍵值數據庫,其獨特的數據結構和存儲方式可以快速通過Key值索引查詢獲得相應內容數據。廣泛應用于海量歷史記錄的查詢場景,比如話單查詢、運維日志查詢等。對鍵值數據庫的要求主要是容量、時延、性價比,能夠存儲海量歷史數據并可以隨時被查詢調出。衡量關系型數據庫業務性能的指標一般通過交易處理量,即能夠處理記錄的增、刪、改、查等操作的數量。TPC-C是由事務處理性能委員會提供的一個專門針對聯機事務處理系統測評的基準測試工具,其業務模型來自大型的商品批發銷售場景,詳細定義了商品、客戶、銷售網點、倉庫等交易過程中涉及的元素
49、,測試過程中模擬高并發的查詢、下單、支付等操作,其測試結果是數據庫每分鐘完成的交易數量TPM(Transactions per Minute)。3.Web/應用中間件類負載包括提供網頁Http請求服務的Web服務器,如Nginx、Apache等,提供業務應用處理服務的應用服務器,如Tomcat等。4.定制業務應用(云主機類負載)與上述各類計算平臺不同,虛機屬于更底層的基礎架構。由于虛擬化可以提供多租戶、安全隔離、高效運維等優勢特性,越來越多的應用基于虛機部署,包括大數據應用以及各類ISV自研應用。因此在虛擬化層的優化也成為應用加速的重要一環,例如通過數據處理單元(DPU)卸載虛機中的網絡負載、
50、存儲負載和部分計算負載能夠顯著提升虛機性能。-21-3有效算力評測體系與應用3.3.3超算中心超級計算中心(以下簡稱超算中心)是以超級計算機為基礎,面向科研、國民經濟、社會發展、高新技術產業等突出問題和核心技術,是著重對準解決普通計算機和服務器不能完成的大型復雜課題而建設的,相對于早期的計算中心而言,它的計算能力有了巨大的飛躍,可應用的領域和使用模式更有了極大的拓展。超算中心建立在足夠的科技創新能力和應用需求基礎上,是一個國家和地區的自主創新能力和綜合競爭力的具體體現。超算中心的業務特征可用七個小矮人來進行表征。從算法角度來說,美國超算領域著名數學算法專家 Colella 于 2004 年提出
51、了科學計算的 7 種算法模型,即結構性網格、非結構性網格、快速傅里葉變換(FFT)、稠密線性代數(Dense Linear Algebra)、稀疏線性代數(Sparse Linear Algebra)、粒子動力學(Particles)、蒙特卡洛(Monte Carlo),被稱為“七個小矮人”。這 7 種算法模型對高性能計算機提出了不同方面和層次的需求,也基本覆蓋了常見高性能計算應用。氣象、制造、生命、油氣等應用功能軟件是超算中心的主要負載類型。(1)氣候氣象。氣候氣象是高性能計算的重要應用領域。氣象預測研究大氣的變化規律,從定性和定量兩方面來說明大氣的特征,其計算量大、時效性要求高。氣候氣象領
52、域應用對集群系統的內存帶寬、網絡時延等提出非常高的要求。WRF、GRAPES等是該領域的典型應用軟件。(2)制造CAE。以汽車研發為例,汽車結構的靜、動強度、疲勞、空氣動力學、NVH和碰撞安全等廣泛、深入的CAE分析計算模擬已經成為汽車研發的最重要手段之一。工業制造領域典型的應用包括OpenFOAM、SU2等。(3)固體物理和納米材料。在固體物理和納米材料領域,固體物理和納米材料的空間尺度一般可以從原子到微米尺度。人們可以了解材料的電子、光學、磁性、熱學、力學等基本物理化學性質,主要計算方法是第-22-計算中心有效算力評測體系白皮書一性原理計算和分子動力學方法,蒙特卡洛方法也常有應用。固體物理
53、和納米材料領域典型應用包括VASP、Gromacs等。(4)生命科學。生命科學可細分為基因測序、電鏡分析、蛋白質折疊等生物信息學。生命科學領域典型的軟件包括Blast、GATK、Eman等。通過典型應用軟件,如WRF、OpenFOAM、VASP等HPC作業在集群上的運行時間可以評估超算集群的有效算力。3.3.4算力網絡2022年5月,鵬城實驗室在國家有關部委指導下首次公開發布“中國算力網(China Computing NET,C2NET)”研究計劃,6月正式上線一期工程“智算網絡版塊”,全面接入鵬城云腦、北京、合肥、武漢、西安、成都、中原、南京、杭州等9個算力中心,標志中國算力網建設邁出實質
54、性一步。國內三大運營商也對算力網絡展開深入的研究與布局。運營商普遍認為,新時代算網協同需求愈發突出,算網協同將實現算網資源高效融合、算力服務泛在靈活、算力供給智能高效和算力基礎設施綠色低碳。而算力網絡是運營商新型信息基礎設施的重要組成、云網融合數字基礎設施的重要特征和重要組成部分,并相繼發布算力網絡白皮書。算力網絡是計算和網絡深度融合下的新型網絡架構。以無所不在的網絡連接和高度分布式的計算節點為基礎,通過服務的自動化部署、業務的最優路由和負載均衡,構建全新的算力基礎設施和網絡基礎設施,以網絡系統化優勢改變單點算力不足的現狀,通過算力調度的高需求促進網絡超寬帶智能發展。保證網絡能夠按需、實時調度
55、不同位置的計算資源,提高網絡和計算資源利用率,進一步提升用戶體驗,從而實現網絡無所不達,算力無處不在,智能無所不及的目標。算力網絡的核心思想是將計算節點聯接起來,動態實時感知算力狀態,并統籌分配和調度計算任務,構成感知、決策、分配、調度算力的網-23-3有效算力評測體系與應用絡。在此基礎上匯聚和共享算力、應用、數據、算法資源,是一種多資源、多樣性異構算力深度融合。算力網絡使算力資源從單計算節點統一分配轉變到所有計算節點間任務和資源統一調度。通過算力網絡建設,打造我國信息基礎設施數字基座,實現“共建算力、共享資源、共同發展”的愿景。算力網絡中有效算力的典型應用場景主要包括算力需求度量、算力資源管
56、理和算力交易。算力網絡面向計算類業務,根據業務的需求,結合當前網絡中實時的網絡狀況和可服務的計算資源的計算狀況,通過算力網絡靈活匹配、動態調度,將計算任務路由到合適的目標計算節點,以支撐業務的計算需求,保證業務的用戶體驗。(1)算力需求度量:算力需求的量化是實現算力服務化的基礎國家推動“中國算力網”建設的一個重要意義是提高算力使用效率,實現全國算力規?;?、集約化的發展,而如何將用戶的業務需求轉化為真實算力需求,將對確定業務的部署位置,以及應用的分發和數據的搬運產生關鍵價值。用戶業務的算力需求是否得到準確的表征,將會直接作用于算力調度和算力交易,并對用戶的真實業務體驗帶來影響。算力需求的量化是實
57、現算力服務化的基礎,通過有效算力量化面向業務的真實算力,將為用戶提供更好的業務體驗。不同的業務應用對算力的需求不一致,比如訓練類場景需要處理海量數據,用大量標記過的數據訓練復雜的神經網絡模型,實現滿足特定功能場景的要求,因此訓練類任務主要集中在云端,需要有足夠強的計算能力作為保障。(2)算力資源管理:對計算節點可用算力資源的度量算力資源管理將算力資源的度量值上報到算網大腦,構建算力地圖,為算力調度提供依據。有效算力對于實際業務的量化是算力調度和使用的基礎,算力網絡將充分獲取多級泛在的算力資源,綜合考慮各個計算節點的負載、價格、能耗和數據等維度,制定相應的調度策略,滿足用戶的業-24-計算中心有
58、效算力評測體系白皮書務需求。(3)算力交易:將有效算力作為服務提供給用戶算力交易過程中,算力的貢獻者(算力賣家)與算力的使用者(算力買家)分離,整合算力貢獻者的零散算力,為算力使用者提供經濟、高效、去中心化的算力服務。最后,在算力網絡場景中,如何從用戶的角度去考慮應用與有效算力的對應關系,如何從運營者的角度去考慮算力網絡中各中心異構算力的統一度量,以實現公平有效的算力定價等,這些問題有待進一步展開討論。-25-3有效算力評測體系與應用4有效算力的標準與評測進展“十四五”是發展數字經濟的關鍵窗口期。通過達成一定的有效算力產業共識,形成一些相關的標準,組織一批先進計算中心評測,以達到牽引計算中心高
59、質量建設,形成“節能”+“增效”的雙提升局面,意義重大。4.1人工智能場景有效算力標準現狀目前,T/CESA 11692021信息技術 人工智能 服務器系統性能測試規范中給出了有效算力的測量方法。該標準由中國電子技術標準化研究院牽頭起草,中國科學院軟件研究所、北京航空航天大學、曙光信息產業有限公司、聯想集團有限公司、北京曠視科技有限公司、科大訊飛股份有限公司、上海依圖網絡科技有限公司、華為技術有限公司、浪潮電子信息產業股份有限公司、上海商湯阡誓科技有限公司等共同研制,于2021年8月26日發布,同年9月1日起實施。該標準規定了人工智能服務器系統,完成深度學習訓練及推理任務的性能(運行時間、能耗
60、、實際吞吐率、能效、效率、彈性、承壓能力等)測試方法,適用于人工智能服務器系統的性能評估。該標準的提出,旨在提供規范、全面、兼顧行業常見場景的人工智能服務器和人工智能服務器集群性能測試方法及指標,為各領域用戶人工智能計算系統的優化提供依據和途徑。有效算力的標準化,使其計量有了標準的、固化的負載和配置(數據集,優化方法,作業到達模式等)。固化的負載和配置,弱化了計算能力計量過程中算法、模型層面配置差異可能帶來的影響,使對計算設備硬件及其配套的組件(如計算庫,訓練、推理軟件框架工具等)的計算能力的計量得以實施。-26-計算中心有效算力評測體系白皮書4.2通用場景有效算力標準現狀目前針對IT設備或數
61、據中心層面的算力核算,產業界或標準組織中更多的還是采用以處理器能力為核算指標。一種方法是直接通過處理器廠商配置中的參數計算得來,即規格算力。正在制定的標準有:2021-1316T-YD 數據中心算力技術要求和測評方法2021-CCSA-70 數據中心算力測試方法另一種方法大多是基于基準程序運行結果得到,如SPEC組織推出的SPEC CPU2017、國內計算產品性能基準工作組推出的通用計算性能基準工具CPUBench,均是采用實際業務中的計算密集型部分作為測試負載,也都已成為業界重要的測試基準。2022年,中國電子工業標準化技術協會發布的3項團體標準對通用算力性能評測技術要求、負載設計要求以及運
62、行框架要求進行了規定,有助于加強在通用算力性能工具開發和設計方面的指導。具體如下:CESA-2020-4-007通用計算CPU性能測試評價技術要求CESA-2021-3-001通用計算CPU性能測試基準負載設計要求CESA-2021-3-002通用計算CPU性能測試基準運行框架要求但上述方法均從計算部件或服務器單機層面進行簡單求和,并未考慮集群生產系統或計算中心系統在實際業務場景中的算力表現,忽略了計算、存儲、網絡之間的復雜交互過程。因此,以集群系統業務生產能力為代表的算力評測亟待進行研究,相關標準配套工具也需盡快研發。4.3超算場景有效算力標準現狀超算行業中大多是采用業內比較成熟的線性系統軟
63、件包Linpack 性能測試基準(集群環境下多采用HPL基準),該基準程序通過用高斯消元法求解N元一次稠密線性代數方程組來評價超算系統浮點計算能力。一種單-27-4有效算力的標準與評測進展一的標準能否有效地衡量出超級計算機的真實性能一直引起人們的質疑。后續更多的基準工具(如:HPCC、HPC-AI等)較之前的評價維度有所變化,但仍沒有走到采用實際業務性能表現來評判計算系統性能這一步。2021年,綠色計算產業聯盟發布的標準服務器應用場景性能測試方法 高性能計算開始采用典型業務應用(如氣象領域、基因領域、CFD領域)對超算系統進行測試。其中標準參編單位有:中國電子技術標準化研究院、上海交通大學、華
64、為技術有限公司、天津飛騰信息技術有限公司、安謀科技(中國)有限公司等單位。如何更系統、更有針對性在超算場景下對設備系統的算力進行評估依舊值得探究,旨在為發現系統性能瓶頸、進行算力評估和配置規劃等提供有效指導。-28-計算中心有效算力評測體系白皮書有效計算能力指標體系,是一個計算能力計量指標的集合,涵蓋通用計算設備(如通用服務器、集群等)和專用計算設備(如人工智能服務器、人工智能集群和人工智能計算中心等)計算能力的計量。要使有效算力指標體系服務于產業,就要推進有效算力評測體系的建設,包含政策引導、指標體系標準化和工具研制、組織承載和榜單發布等關鍵環節,形成常態循環,不斷促進產業發展。5.1建議政
65、策導向有效算力的先行先試隨著國家出臺對“數字經濟”的宏觀規劃,優化升級數字基礎設施,加快構建算力、算法、數據、應用資源協同的全國一體化大數據體系,穩步構建智能高效的融合基礎設施等成為計算中心領域的重點措施。而其中高質量計算中心的建設與升級,需要通過應用,通過“有效算力”的建設方式進行牽引。隨著“東數西算”工程的規劃、設計和實施,算力的評測、租售和使用將成為常態。在標準化的安全保障和作業規程的基礎上,有效計算能力有望成為計算能力建設、買賣的計量單位。而有效計算能力指標體系,則將各種計算設備的計算能力統合起來,實現以下目標:以實際需求衡量應用需要的有效算力;按用戶實際所得計量計算能力;不同類型計算
66、能力的相互換算;奠定數據要素流通和交易的基礎。建議加強政策牽引,鼓勵“有效算力”作為計算中心高質量建設標準進行先行先試,形成有政策可循的局面。5大力推進有效算力評測體系建設-29-5大力推進有效算力評測體系建設5.2建議加快指標體系的標準化和工具化從測試科學上講,有效計算能力是一個計量指標體系。從算力交易角度來講,有效計算能力用于衡量計算設備實時負載情況。從計算設備性能上來講,有效計算能力代表計算設備在標準化負載上,實際所能輸出計算性能。增廣有效計算能力指標體系的應用,將為我國計算產業的發展奠定現實基礎。發揮有效計算能力指標體系對產業的帶動力的一種有效形式是推進可落地實施的標準化。標準配套工具
67、的研制和使用是標準落地的先決條件。完整的工具,應能完成、約束、協助被測系統完成標準規定的所有可能的測試過程,實現測試公平性檢查,測試過程監控,測試結果收集,結果發布管理等功能。建議加快“有效算力”指標體系的建設工作,在相關領域形成標準和工具,形成有標準可依,有數據可查的局面。5.3建議通過組織承載并進行榜單發布建議有效算力評測體系在人工智能計算中心場景進行先行先試??苫谌斯ぶ悄苡嬎阍O備有效計算能力,以維護公共利益為目標,在相關機構的指導下,以權威第三方機構為主導,聯合產業生產者、使用者、集成者、測試者等諸多參與方,組成測試工作組進行專題運作。建立并定期發布人工智能計算設備有效計算能力榜單。榜
68、單可有多重內容和用途:從計算設備性能比較上講,榜單可以為用戶直觀地顯示特定計算設備在標準化負載上的有效計算能力,作為計算設備代次更替、周期性優化成果的展示、驗證、發布場所;從計算能力交易上講,榜單可以給出所轄計算設備當前的負載情況和可用計算能力,為交易提供依據。-30-計算中心有效算力評測體系白皮書我國是人工智能技術研究、應用大國,有巨量計算需求。但與此形成對照的是,對比歐美先進國家,我國計算設備的生產、研制尚存相當大的增進空間。計算能力榜單,不僅是國家計算產業的晴雨表,計算設備綜合研制能力、性能的縮影,更是市場的導向。當前,我國尚未建立有公信力的第三方有效計算能力榜單。計算能力指標,計量及相
69、關標準,對國外有相當程度的依存性。為更好地促進我國人工智能計算產業發展,促進計算產業技術良性競爭,為“東數西算”創造基礎,應完善配套標準,優化計量工具,培養專業測試組織人員,加速建立以有效計算能力指標體系為基礎的榜單。-31-5大力推進有效算力評測體系建設有效算力白皮書將作為系列化的白皮書持續演進發布。在本白皮書中,首先提出有效算力和有效算力指標的概念,給出有效算力的內涵、定義、計量和評測方法,及有效算力和有效算力評測指標體系的應用場景、標準進展與規劃。本白皮書首先聚焦計算中心,尤其是人工智能計算中心,隨著標準、產業共識等的持續推進,更多應用場景如邊緣數據中心、算力網絡等領域的有效算力白皮書將
70、陸續發布。應該認識到,有效算力對各種應用場景的完整覆蓋仍有一段路要走。正如本白皮書指出的,如何在一體化大數據中心等通用算力場景進行有效算力業務負載的選擇;如何在CPPB等面向服務器的標準走向面向集群的有效算力標準;在算力網絡場景中,如何從用戶的角度去考慮應用與有效算力的對應關系,如何從運營者的角度去考慮有效算力定價等,這些問題有待進一步展開討論。希望本白皮書能夠開啟“有效算力”理念在產業界的廣泛討論與共識的逐步達成,加速相關政策、標準、工具和評測等工作的展開,從而實現牽引以有效算力的衡量方式進行計算中心新型基礎設施高質量建設,達到以業務應用為牽引、以全棧優化為手段、以節能增效為目標的計算中心建設和評測體系,提升計算中心新型基礎設施建設的質量,以支撐數字經濟與雙碳驅動等宏觀政策與頂層設計落地。6結語