《中國計算機學會:2022高性能計算系統性能評價白皮書(33頁).pdf》由會員分享,可在線閱讀,更多相關《中國計算機學會:2022高性能計算系統性能評價白皮書(33頁).pdf(33頁珍藏版)》請在三個皮匠報告上搜索。
1、編寫委員會顧問陳國良 鄭緯民 袁國興 主編林新華 王月 張云泉 陳文光 翟季冬 唐卓 副主編韋建文 張興軍 潘景山 曾令仿 李少波 王毅 顧雪軍 編委(按姓氏為序排列,不分先后)段芳成 樊春 范靖 馮銳 高亦沁 龔斌 郭洪星 郭武 韓振興 何益 胡廣超 賈東寧 姜萬強 李斌杰 李會民 魯蔚征 孟凡輝 孟鑫 唐國輝 萬林 王丙強 王繼彬 王旭東 袁良 張凱麗 張洋 張震 趙順存 鐘毅 鄒有編委單位中國信息通信研究院 國家超級計算濟南中心 國家超級計算長沙中心 鵬城實驗室 之江實驗室 省部共建公共大數據國家重點實驗室(貴州大學)上海交通大學 清華大學 北京大學 中國科學技術大學 中科院科學計算所
2、西安交通大學 山東大學 湖南大學 南方科技大學 蘭州大學 中國人民大學 中南大學 中北大學 深圳大學白皮書以高性能計算系統綜合評價指標作為評估系統性能的新方法,牽引建設存算平衡、以數據為中心的系統,以達到三個主要目標:以實際需求牽引系統設計,以行業經驗為指導系統選型,以提高系統實際使用能效為首要目標。白皮書將以綜合評價指標為載體,介紹高性能計算系統設計方法,提升高性能計算系統設計選型的平衡性。白皮書從算力(包括科學計算與AI計算性能)、存力(存儲性能)、運力(網絡性能)和效率(系統能效與平衡性)六個維度選取指標,給出了綜合性能的評測方法,和高性能計算系統的典型應用場景、典型系統配置,最后提出了
3、建立評測社區推廣評測體系的愿景,展望了標準演進的規劃。白皮書內容將隨著技術演化與社區成員反饋而逐步迭代,這是系統性能評價指標發布的首個版本。主要理念白皮書內容目 錄目 錄CONTENTSCONTENTS1.1.存儲系統的重要性愈發凸顯0302050711041.2.系統綜合性能更突出2.1.性能評價方法的演進趨勢053.1.性能評價基準測試程序07103.2.性能評價的標準規范4.1.六個維度度量高性能計算系統12124.1.1.科學計算性能維度124.1.2.AI計算性能維度124.1.3.存儲性能維度134.1.4.網絡性能維度134.1.5.系統能效維度134.1.6.系統平衡性維度16
4、4.2.綜合評價計算方法164.3.指標權重與平衡性范圍的設計初稿2.2.以性能評價牽引05建設存算比合理的計算系統2.3.以性能評價牽引06使用多協議互通的存儲系統1高性能計算的發展趨勢3高性能計算性能評價現狀4高性能計算性能指標和評價規范2集群綜合性能評價方法的演進19275.1.典型算力下的集群設計示例195.1.1 超大型集群設計示例205.1.2 大型集群設計示例215.1.3 中型集群設計示例225.2.典型場景下的集群特性分析 235.2.1.“IO密集型”超算系統:以面向基因測序的集群為例235.2.2.“IO密集+計算密集型”超算系統:以面向氣象預報的集群為例245.2.3.
5、“AI密集型”超算系統:以面向自動駕駛的集群為例255性能評價方法的應用6高性能計算系統性能評價規范的展望01黨的十九屆四中全會首次將數據作為生產要素參與分配,數據的作用受到國家高度重視,2022年1月,國務院“十四五”數字經濟發展規劃中要求“以數據為關鍵要素,加強數字基礎設施建設”,數據資源匯聚、共享、流通、應用的需求快速增加,對存儲、計算、網絡、安全等的要求也越來越高,以數據為中心的新型數字基礎設施將有力支撐經濟社會數字化發展。2021年5月,國家發展改革委會同中央網信辦、工業和信息化部、國家能源局聯合發布全國一體化大數據中心協同創新體系算力樞紐實施方案,提出構建數據中心、云計算、大數據一
6、體化的新型算力網絡體系,布局建設全國一體化算力網絡國家樞紐節點,以滿足數據資源存儲、計算和應用需求的大幅提升。在需求和政策雙重牽引下,全國各地區大力推進數字基礎設施建設的發展,包括計算、存儲和網絡在內的基礎設施和技術均被高度重視,2022年7月,工業和信息化部主辦的中國算力大會上發布了中國綜合算力指數,從算力、存力、運力、環境四個維度綜合評價新型基礎設施和新型數據中心的發展水平。高性能計算的發展趨勢102高性能計算是重要的數字基礎設施、國之重器,是高算力、高存力、高運力的代表。2020年以來,十四五信息化規劃和新基建驅動我國高性能計算建設進入高速增長期,多地地方政府和企事業單位都在積極建設高性
7、能計算中心和部署新一代高性能計算系統,將其作為推動經濟社會快速發展的關鍵措施。隨著數據價值的不斷提升以及大數據、人工智能等新興數字產業的興起,高性能計算正在由“大計算”的HPC加速邁向“大計算”+“大數據”的HPDA(高性能數據分析),并呈現5大趨勢特點。多元應用驅動多元算力。CPU處理器和GPU、FPGA、xPU等專用處理器相結合構建高性能計算的異構算力體系結構。AI計算發展迅猛。AI計算成為高性能計算算力發展最為迅猛的類型之一,且逐步呈現計算芯片DSA化、計算網絡多平面化等特征。成為與傳統高性能計算越來越有區分的領域,這種變化與特征在大模型時代表現的更為明顯。異構多態復合歸一,資源集約推動
8、架構融合化。一方面,根據應用的需求,構建不同性能和功能的計算和存儲環境,通過靈活組織異構計算體系結構,實現計算、存儲資源比例的靈活調整和性能功耗的平衡。另一方面,圍繞應用負載特征開展體系結構軟硬件協同設計,提升資源的使用效率與性能。高速互聯,更寬更快推動全光化。當前高性能計算互聯網絡主要有Infiniband、Slingshot和RoCE等,隨著技術積累和產業需求升溫,光子集成技術已從功能器件研究向規?;尚酒葸M,光交換技術趨于成熟,全光交換成為發展趨勢。按需彈性極簡運維,加速應用容器化。容器可以為高性能計算工作負載提供動力,并為大規模計算工作負載啟用若干功能框架,能夠提前封裝高性能計算運
9、行環境,易獲取、易操作、易利用,在科研人員中普及化使用高性能計算。以數據為中心,數據密集型超算快速發展。進入大數據時代后,數據的規模不斷增長。隨著HPDA的發展,高性能計算系統的業務負載需考慮HPC、大數據和AI的混合疊加,對于數據的存儲和處理能力提出了更高要求。高性能計算系統需要從數據密集型角度進行設計,支持應用驅動的科學計算工作流,推動負載從計算科學發現向數據科學發現轉變??偨Y以上趨勢,不難看出,當前計算性能已不再是評價高性能計算集群的唯一標準,集群的綜合性能日益受到重視,尤其是與數據息息相關的存儲系統。1.1.存儲系統的重要性愈發凸顯傳統的高性能計算行業以算力作為核心生產力,如今,業界普
10、遍意識到,當數據存力不足或者效率低下時,數據就無法高效流動、按需使用,也就無法充分挖掘其價值,小則影響算力作用的充分發揮,大則關乎整個高性能計算產業的發展。存儲性能是繼計算性能之后,各行各業數字化能力建設的一種進階,在數字經濟發展中至關重要。存儲與計算性能高度融合,方能真正形成新的核心生產力,能夠在各種業務場景中讓效率指數級增加,讓生產力獲得前所未有的解放。平衡存算比是當前超算集群融合存儲與計算性能的主要方法之一。目前,芯片不斷朝著高性能、低成本、高集成的方向發展,但隨著單芯片集成的晶體管數量增多,高耗能等問題隨之出現,導致芯片性能難以持續提升,無法大規模提升算力。多芯片堆疊封裝為芯片突破性能
11、瓶頸提供了可能,平衡存算比可有效縮短數據搬運路徑,降低搬運功耗,實現芯片級算力與IO的平衡。從設備內視角來看,CPU、總線速度、主內存帶寬及容量的發展速度不一,尤其是在處理海量數據過程中,內存與存儲的空間和帶寬成為制約性能增長的主要瓶頸,如果存儲設備能平衡CPU和IO性能,將在很大程度上釋放算力潛力。此外,隨著數據量的增加,數據處理和存儲的效率也需要及時跟進。在多樣化的HPC場景中,日均產生的數據量可達PB級,需要超大的容量方能完成歸檔。除此之外,在海量數據處理過程中,數據可能需要經過多種格式的轉換,比如自動駕駛和石油勘探這兩個高性能計算應用較為普遍的領域,只有將NFS格式的數據轉換成HDFS
12、格式后,系統才能進行有效處理。海量的數據轉換需要耗費大量的時間,其中還會損壞部分數據,而且產生的數據冗余也占用了寶貴的存儲空間。因此,存儲設備實現多協議互訪可有效提升數據結構多樣化的處理效率。031.2.系統綜合性能更突出隨著社會經濟的發展和科學的進步,爆炸式增長的應用需求不斷促進高性能計算往更廣、更深的領域進行系統性擴展。量子化學、基因測序、氣象預測和核技術等傳統的高性能計算領域需要并行處理大量的原始數據。因此,除了需要保證密集計算的能力以外,海量數據并發執行、極高的數據并發存取效率也對集群的存儲性能提出了較高的挑戰。在這種條件下,只有保證系統聚合能力隨節點數線性擴展、保證流暢的并行I/O與
13、高帶寬的網絡才能獲得復合性的計算能力,滿足日益復雜的計算需求。除此之外,高性能計算在非傳統的應用領域中也發揮著獨特的作用,例如金融、投行和保險業所承擔的風險分析工作,除了發揮傳統高性能計算的密集計算性能外,集群更多融入了數據處理、事務處理和信息服務的功能。在這些場景下,科學計算能力的主導地位有所弱化,相反,網絡和存儲提供的實時數據處理和快速交付功能更為凸顯。當代高性能計算的發展,能耗和功耗也扮演著越來越重要的角色,逐漸成為成為大規模計算平臺建設必須考慮的重要因素,綠色節能也成為衡量高性能計算平臺綜合性能的重要尺度,TOP500和Green500排名榜單均加入能耗指標。近來,最新一代的E級超算系
14、統的設計能耗標準是不超過20MW。誠然,硬件工藝的更新換代對能耗的降低至關重要,但要想讓高性能計算系統以最大性能、最高能耗效率運行,也需要讓存儲、網絡、計算等各個組件基于應用特征無縫銜接,否則很有可能成為整個集群性能的掣肘。因此,當代高性能計算的發展趨勢更傾向于整體的綜合性能。042.1.性能評價方法的演進趨勢現有的性能評價規范專注細分領域,存在重計算、輕存儲、評測指標分散、缺少應用場景和缺少綜合的性能評價規范等缺點。這些評測規范通常過分強調被測系統某一個方面的能力,容易造成偏科。例如,在設計系統時若以浮點計算能力為唯一考量目標,以此為指導設計出的高性能計算系統,難以全面滿足高算力、高存力、高
15、運力、高能效的新型基礎設施要求。此外,現有評價方法對新場景的關注還不夠。隨著NVMe全閃存儲介質、基于糾刪碼的存儲冗余機制、多協議互通存儲系統、新一代異構加速處理器的面市,誕生了諸如BurstBuffer閃存緩沖文件系統、超高密度存儲系統、多功能一體化存儲系統、面向超大模型訓練的人工智能專用系統等新的集群應用場景。如何為這些場景分類,如何評價設計系統與這些場景的適用程度,是新的性能評價方法需要解決的問題。2集群綜合性能評價方法的演進設計高效工作的高性能計算集群系統,需要在目標場景指引下,平衡處理器、網絡和存儲等組件的選型,合理搭配。高性能計算集群的綜合性能評測方法能夠發揮“標尺”作用,對衡量設
16、計的有效性產生著重要作用。05062.2.以性能評價牽引建設存算比合理的計算系統下圖展示了存儲的層次化結構。從數據使用的時間視角看,數據在不同的存儲層次停留,等待被上一層調用,或者是被換出到下一層。在有限的預算下,如何設計各個層次的存儲容量和存儲帶寬,是一個相當重要卻容易被忽視的問題。論文An analysis of system balance and architectural trends based on top500 supercomputers總結今年Top500超算集群配置,提出了各層次存儲容量和速率比例的參考范圍。我們提出的評測方法在“系統效率”部分參考這篇論文的研究結果,以此
17、來引導設計集群存儲系統的容量和帶寬。2.3.以性能評價牽引使用多協議互通的存儲系統從數據使用的角色視角看,數據在計算系統中需要經過仿真生成、大數據分析、對外發布的流程。這些流程會分別調用MPI多機并行軟件、大數據分析軟件和Web數據共享軟件,而這些軟件性能最佳的數據訪問接口可能是不一樣的。例如,仿真階階段需要調用MPI-IO接口,大數據階段需要調用HDFS,而分享階段需要調用S3接口。傳統存儲系統在多用途場景下,需要用戶將一份數據拷貝多次,手動維護不同接口數據的一致性。而新型存儲系統內置協議互通功能,能夠無縫地為同一份數據提供多種數據訪問接口,并維護其一致性。我們的評測方法也增加了多協議互通的
18、相關內容,以此引導超算集群的多協議互通建設。我們提出的性能評價標準,旨在引入與使用場景相關的性能指標,通過綜合評分方法,為集群的計算、存儲、網絡和效率這四個關鍵維度,分別給出評價分數,并結合專家意見,給出系統建設的進一步建議。與現有評測標準較大的區別是,這個標準將從數據使用的時間和角色的視角,著力牽引建設存算比更加合理的計算系統,以及建設具有多協議互通功能的存儲系統。DROS(分布式關系型對象服務層)Index LayerPersistence Layer元數據/數據管理層高級特性語義抽象層管控面NFSCIFSMPIPOSIXS3HDFS現有高性能計算評價標準呈現出“缺少行標國標、評測程序分散
19、、評測領域單一”的問題。本節介紹超算集群性能評價基準測試與標準的現狀。3.1.性能評價基準測試程序當前,業內研究人員發布了數十個具有不同側重面的高性能計算集群性能基準測試程序,按照評價的領域,可以分為基礎計算性能、圖計算性能、AI計算性能、存儲網絡性能、設備能效等等。各個主要領域中相對知名的基準測試程序如下表所示:3高性能計算性能評價現狀07評測領域基礎計算性能TOP500、HPCG、PARSEC、SPECCPU、SPECHPC、SPECACCEL圖計算性能Graph500知名基準測試程序08其中,被廣泛使用的包括Linpack(求解線性方程組性能)、HPCG(求解共軛梯度性能)、IO500(
20、存儲性能)、Graph500(圖計算性能)、AI500(AI計算性能)等,但是均專注于各個細分的評測領域,缺少對集群的綜合性能評測,且多數沒有形成系統性的評價規范。始于1993年的TOP500榜單是目前最為熟知的高性能計算性能評價規范,由國際組織“TOP500”編制,每半年發布一次,TOP500排名基于Linpack基準測試衡量線性方程計算的速度和效率,最新版HPL2.0規范從2008年一直用到現在,不過隨著越來越多的應用程序采用微分方程等復雜計算方式,Linpack性能與實際計算效率間的差距將越來越大。因此田納西大學教授Jack Dongarra提出了HPCG(高度共軛梯度基準測試)標準,與
21、Linpack關注線性方程的計算性能不同,HPCG使用更復雜的微分方程計算方式。Linpack更考驗超算的處理器理論性能,而HPCG更看重實際性能,對內存系統、網絡延遲要求也更高。除了TOP500以外,多個評測榜單試圖從不同方向對超算集群的性能展開評價:面向圖計算性能的Graph 500標準于2010年發布,采用GTEPS基準測試評價,更加適用于在數據密集型應用場景中的評測;BenchCouncil的AI500測試標準,基于增量迭代的方法學和智能科學計算應用場景,目前包含3個典型科學數據集,14個負載的不同軟件棧實現;IO500是衡量高性能計算存儲性能的常用評價標準,于2017年11月發布,該
22、標準涵蓋帶寬和元數據兩項基準測試。同時,業界還存在多個商用或非商用的評測基準套件,例如側重計算性能的SPEC系列和PERSEC、側重AI應用性能的MLPerf、側重存儲與網絡性能的OSU Microbenchmarks和HPC Challenge等。以下是SPEC HPC與HPC Challenge兩個被廣泛應用的基準測試套件的測試內容:SPEC HPC包含9個測試,涵蓋了宇宙學、天氣學、高能物理學等多個方向的科學計算問題,側重于科學計算性能的測試。SPEC HPC的評分規則相對簡單,使用了基準集群的運行時間與被測集群的運行時間的比值作為集群的評分。評測領域AI計算性能HPC AI500、ML
23、Perf、AIPerf、AISBench存儲與網絡性能IO500、OSUMicrobenchmarksHPCChallenge設備能效Green500知名基準測試程序09基準測試評測領域HPL:測量求解線性方程組的浮點執行率計算性能存儲性能網絡性能DGEMM:測量雙精度實矩陣-矩陣乘法的浮點執行率FFT:測量雙精度復數一維離散傅里葉變換(DFT)的浮點執行率PTRANS(并行矩陣轉置):來自多處理器內存的大型數據數組的傳輸速率,測試網絡總通信容量RandomAccess:測量內存的整數隨機更新率STREAM:測量可持續內存帶寬和簡單矢量內核的相應計算速率通信帶寬:測量傳輸大小為2,000,00
24、0字節消息所需的時間HPC Challenge包含了8個測試,分別屬于科學計算性能、存儲性能與網絡性能三個評測領域。然而,該基準測試未提供綜合評價的計算規范,僅對于各個測試分別輸出了性能的數值。LBM D2Q37:計算流體動力學Tealeaf:物理學/高能物理學Cloverleaf:物理學/高能物理學Minisweep:核工程-輻射傳輸POT3D:太陽物理學SPH-EXA:天體物理學和宇宙學HPGMG-FV:宇宙學、天體物理學、燃燒miniWeather:天氣基準測試評測領域通信延遲:測量將8字節消息從一個節點發送到另一個節點所需的時間SOMA Offers Monte-Carlo Accel
25、eration:物理/聚合物系統科學計算性能10其中,數據中心存儲能效測評規范規定了數據中心存儲設備的能效測試方法與能效等級評價方法,對測試環境、測試方法、能效指標、加分項均做出了規范;分布式塊存儲總體技術要求針對分布式塊存儲解決方案提出功能、性能、可靠性等方面的要求;計算存儲分離架構的分布式存儲測試方法規定了計算存儲分離架構的分布式存儲方案的功能、性能、兼容性、擴展性、可靠性、安全性、運維、硬件和網絡測試方法;服務器應用場景性能測試方法 高性能計算通過制定標準化的評估方法,對比評估綠色計算產品與傳統架構產品在該場景所關注指標、特性上的差異化優勢,展示了以ARM架構為代表的綠色計算服務器在高性
26、能計算應用場景的性能表現。3.2.性能評價的標準規范現有的高性能計算性能評價規范非常碎片化。國內外標準化組織尚未發布針對高性能計算集群綜合性能評價的國家或行業標準,現有標準集中于數據中心和存儲,缺少集群性能相關的國標、行標、ISO標。相關的標準主要有如下幾項:標準號標準名稱發布時間類型T/CCSA 325-2021數據中心存儲能效測評規范2021/11/2團標T/CCSA 263-2019分布式塊存儲總體技術要求2019/12/23團標YD/T 4030-2022計算存儲分離架構的分布式存儲測試方法2022/4/8行標GCC7003-2020服務器應用場景性能測試方法 高性能計算2020/11
27、/26地標T/CESA 1213-2022通用計算CPU性能測試評價技術要求2022/7團標T/CESA 1214-2022分布式塊存儲總體技術要求2022/7團標T/CESA 1215-2022計算存儲分離架構的分布式存儲測試方法2022/7團標T/CESA 1169-2021信息技術 人工智能 服務器系統性能測試規范2021/9地標IEEE P2937Performance Benchmarking for ArtificialIntelligence Server Systems2022/9地標為了彌補現存基準測試和標準在指標設置與評價規范方面的不足,確保本文所設置的高性能計算系統性能評
28、價指標具有科學性和可解釋性,我們充分調研了Top500各大超級計算集群的性能指標,相應數據集的鏈接為https:/ R-CNN模型。圖像推理任務的計算性能:系統使用ResNet-50模型在圖像推理任務的性能,單位:VFLOPS。測試數據集使用ImageNet,遍歷周期(Epochs)設定為90,性能度量單位VFLOPS計算方法如下:FLOPS*(實測準確度/目標準確度)5,其中,FLOPS是推理過程中的浮點運算速度,實測準確度是測試過程實際達到的Top1準確度;目標準確度是測試標準預定義的最佳模型質量Top1,設定為0.763。圖像訓練任務的計算性能:系統使用Mask R-CNN模型在COCO
29、數據集上的圖像訓練任務中的訓練速度,單位:圖片/秒。質量要求為每AP0.377Box和0.339Mask,性能度量單位為完成質量要求的訓練所花費的時間。4.1.3.存儲性能維度本維度共包含以下5個指標,參考了在IO500等榜單中被廣泛使用的測試基準,同時擴展了存儲新能力(多協議互通)的測試,衡量高性能計算集群存儲系統的性能特征。運行測試程序,獲得6個維度共19項基礎指標浮點計算性能(Flops)存儲帶寬(GB/s)網絡延遲(微秒).19項基礎指標1為19項指標設計維度內權重浮點計算性能存儲帶寬網絡延遲.19項指標權重2使用幾何平均數計算每個維度的性能評分維度1:科學計算性能維度2:AI計算性能
30、維度3:存儲性能維度4:網絡性能維度5:系統能效維度6:系統平衡性3分析集群特點,給出特定場景下的提升建議提升建議4存儲性能網絡性能能效AI計算通用計算6868727892+13文件系統單客戶端單流帶寬:文件系統在單客戶端單流測試條件下能達到的帶寬,單位GB/s。文件系統單客戶端多流帶寬:文件系統在單客戶端多流測試條件下能達到的帶寬,單位GB/s。文件系統聚合帶寬:文件系統在多客戶端多流測試條件下能達到的聚合帶寬,單位GB/s,按照文件系統可用容量劃分評價等級。文件系統聚合IO操作速率:文件系統在多客戶端多流測試條件下能達到的IO操作速率,單位:IOPS,按照文件系統可用容量劃分評價等級。多協
31、議平均訪問效率:分別以HDFS、對象、NFS三種協議訪問文件系統上的同一份數據時,與使用POSIX標準文件訪問協議的速率比值,取三項比值的平均數,不支持的協議比值為0,單位為百分比。4.1.4.網絡性能維度本維度共包含以下3個指標,以描述高性能計算集群的網絡性能。隨著集群規模的擴大、精度要求的提高、模型趨于復雜,以及數據中心、云計算、異地超算等分布式基礎設施的概念提出,集群對IO通信性能的需求迅速增加。網絡通信也成為了評價集群性能的一個不可或缺的維度,與存力一同保障了算力的高效率運行。點對點通信帶寬:系統中任意兩個節點間的雙向通信帶寬,單位Gbps。點對點通信延遲:系統中任意兩個節點間的通信往
32、返延遲,單位微秒。網絡對分帶寬與注入帶寬比值:系統網絡的對分帶寬與所有節點注入帶寬的比值,單位為比值。4.1.5.系統能效維度本維度包含2個指標,用于評價高性能計算集群的能源利用效率。隨著高性能計算集群算力突破E級大關,以及數據量的爆炸性增長,高能耗將成為未來集群的核心挑戰。提升算力與存力的能源利用效率勢在必行。單位功耗支持浮點計算能力:系統的HPL浮點計算性能計算子系統能耗的比值,計算單位功耗下的浮點計算能力,單位FLOPS/W。單位功耗的可得存儲容量:系統的可得存儲容量與存儲子系統額定功率的比值,計算單位功耗下的可得存儲容量,單位TB/W。4.1.6.系統平衡性維度本維度共包含5個指標,用
33、于評價高性能計算系統的容量層級。內存容量與核心數比:內存容量與處理器核心數的比值,單位為比值。BurstBuffer與內容容量比:BurstBuffer容量與內存容量的比值,單位為比值。長久存儲與BurstBuffer容量比:并行文件系統容量與BurstBuffer容量的比值,單位為比值。內存與BurstBuffer的帶寬比:內存帶寬與BurstBurffer帶寬的比值,單位為比值。BurstBuffer與文件系統的帶寬比:BurstBuffer帶寬與并行文件系統帶寬的比值,單位為比值。14匹配度=(1)V上限V下限V上限+V下限V V表 高性能計算性能指標匯總表實際測試值PFLOPS維度指標
34、數值說明備注單位科學計算性能AI計算性能存儲性能系統使用雙精度共軛梯度法求解稀疏線性方程組時的浮點運算速度。系統使用雙精度高斯消元法求解稠密線性方程組時的浮點運算速度。圖像推理任務的計算性能HPCG雙精度浮點計算性能HPL雙精度浮點計算性能圖像訓練任務的計算性能文件系統單客戶端單流帶寬文件系統單客戶端多流帶寬實際測試值實際測試值實際測試值實際測試值圖片/秒GB/sGB/sVFLOPS系統使用ResNet-50模型在圖像推理任務的性能。測試數據集使用ImageNet,遍歷周期(Epochs)設定為9 0,性 能 度 量 單 位VFLOPS計算方法如下:FLOPS*(實測準確度/目標準確度)5。系
35、統使用Mask R-CNN模型在COCO數據集上的圖像訓練任務中的訓練速度。文件系統在單客戶端單流測試條件下能達到的帶寬。文件系統在單客戶端多流測試條件下能達到的帶寬。文件系統聚合帶寬文件系統聚合IO操作速率實際測試值實際測試值GB/sIOPS文件系統在多客戶端多流測試條件下能達到的聚合帶寬。文件系統在多客戶端多流測試條件下能達到的IO操作速率。上述5個指標值需經轉換后才能有效使用,轉換方式如公式(1)所示。當指標值在上下限范圍內時,取值為1,表示匹配度較高,即該值越優;當取值在上下限范圍外時,該值小于1。匹配度越高時,該值設計的就越好。TFLOPS實際測試值15維度指標數值說明備注單位存儲性
36、能網絡性能多協議平均訪問效率點對點消息延遲網絡對分帶寬與注入帶寬比值單位功耗的浮點計算性能實際測試值實際測試值理論計算值實際測試值系統能效百分比微秒百分比GFLOPS/W分別以HDFS、對象、NFS三種協議訪問文件系統上的同一份數據時,與使用POSIX標準文件訪問協議的速率比值的平均值。系統中任意兩個節點間的MPI消息通信往返延遲。計算網絡性能時,該指標取延遲數值的倒數。點對點網絡帶寬實際測試值Gbps系統中任意兩個節點間的MPI消息通信雙向帶寬系統網絡的對分帶寬與所有節點注入帶寬的比值。系統的浮點計算實測性能與計算子系統能耗的比值。單位功耗的可得存儲容量系統的可得存儲容量與存儲子系統額定功耗
37、的比值。實際測試值TB/W系統平衡性內存容量(GB)與處理器核心數的比值評分時如下公式轉換為“匹配度”再代入綜合評價分數計算匹配度。理論計算值比值BurstBuffer容量與內存容量的比值理論計算值理論計算值比值比值長久存儲容量與BurstBuffer容量的比值16維度指標數值說明備注單位4.2.綜合評價計算方法本評價規范使用幾何平均數計算每個維度的性能評分,為每個被測集群評出科學計算性能、AI計算性能、存儲性能、網絡性能、系統能效和系統平衡性六個維度的評分。維度 的性能評分按照公式(2)計算。其中,為維度的性能指標集合,為指標 在被測超算集群上的性能。為不同測試指標的權重。為調整系數,建議該
38、常數值為100??紤]到不同計算集群的算力規模,使用公式(2)對各個維度進行評分之前,需要參考表2中的HPL實測性能對集群進行劃檔分類,然后再進行評分。對高性能計算集群的評價,最終會輸出兩個結果:(1)評測數據詳表:該表詳細記錄各指標性能的數值;(2)性能雷達圖:以多維度雷達圖來顯示集群系統在不同維度的性能評分。內存帶寬與BurstBuffer帶寬的比值實際計算值比值比值BurstBuffer帶寬與并行文件系統帶寬的比值實際計算值系統平衡性評分時如下公式轉換為“匹配度”再代入綜合評價分數計算匹配度。4.3.指標權重與平衡性范圍的設計初稿我們根據經驗初步設計了如下的指標權重,主要考慮是:在計算性能
39、維度,以HPL為代表的稠密矩陣計算方法應用最廣泛,權重最高。存儲性能維度的五個指標重要性相當,均分1.0權重。網絡性能維度中,點對點帶寬最重要因此權重最高。系統能效方面,單位功耗浮點性能比可用存儲容量重要,因此權重更高。系統平衡性方面,五個指標重要性相當,均分1.0權重。綜合評價方法的使用者可以針對具體測試場景,按需設置權重。17表 指標權重維度指標權重科學計算性能AI計算性能HPL雙精度浮點計算性能0.6HPCG雙精度浮點計算性能0.4圖像推理任務的計算性能0.5圖像訓練任務的計算性能0.5存儲性能文件系統單客戶端單流帶寬0.2文件系統單客戶端多流帶寬0.2文件系統聚合帶寬0.2文件系統聚合
40、IO操作速率0.2多協議平均訪問效率0.2點對點網絡帶寬0.4網絡性能點對點消息延遲0.3網絡對分帶寬與注入帶寬比值0.3單位功耗的浮點計算性能0.6系統能效單位功耗的可得存儲容量0.4內存容量(GB)與處理器核心數的比值0.2BurstBuffer容量與內存容量的比值0.2長久存儲容量與BurstBuffer容量的比值0.2內存帶寬與BurstBuffer帶寬的比值0.2系統平衡性BurstBuffer帶寬與并行文件系統帶寬的比值0.218我們調研了歷年Top500超算集群,在現有集群建設經驗基礎上,初步整理了各層級存儲系統容量、帶寬的配比范圍。按照集群實測峰值計算能力,我們將集群劃分為三檔
41、規模,分別是:性能大于30PFLOPS的超大型集群,性能10-30PFLOPS的大型集群,和1-10PFLOPS的小型集群。不同規模的集群具有不同的設計考量,因此在平衡性上有范圍差異。后續將補充其他評估方法,不斷完善建議值范圍。指標按實測峰值計算能力分類內存容量(GB)與處理器核心數的比值BurstBuffer容量與內存容量的比值并行文件系統存儲容量與BurstBuffer容量的比值內存帶寬與BurstBuffer帶寬的比值建議值范圍61028134625142040103022015005000100030008002000482614BurstBuffer帶寬與并行文件系統帶寬的比值30P
42、FLOPS10-30PFLOPS1-10PFLOPS30PFLOPS10-30PFLOPS1-10PFLOPS30PFLOPS10-30PFLOPS1-10PFLOPS30PFLOPS10-30PFLOPS1-10PFLOPS30PFLOPS10-30PFLOPS1-10PFLOPS5.1.典型算力下的集群設計示例我們調研TOP500超算集群的相關性能,基于集群實測性能,將集群劃分為三檔:30PFLOPS以上、10-30PFLOPS、1-10PFLOPS,分別對應超大型計算集群、大型計算集群和中型計算集群。在2022年Top500榜單上,這三類集群的數據量分別占約20臺、35臺和445臺。白皮
43、書提出的性能評價方法主要有兩個應用:1)指導典型算力下的集群設計,即在給定算力下,如何設計和選擇其他組件的性能。2)分析典型場景下的集群特性,將集群劃分為“計算密集”、“IO密集”、“計算+IO密集”、“AI計算密集”等類型。下面兩節通過例子,展示評價方法在分析不同算力下的集群設計、超算集群類型劃分中的作用。5性能評價方法的應用19205.1.1 超大型集群設計示例Summit超級計算機坐落于美國橡樹嶺國家實驗室,它從一開始就專為人工智能操作而設計,可以使用機器學習和深度學習來推動在健康、物理和氣候建模以及其他領域的研究。除此之外,Summit的設計非常靈活,能夠有效平衡各種科學和工程類計算的
44、工作負載。使用上文所述的評分方法,Summit超級計算各維度的指標和各維度的評分結果如下所示,不同維度內的各指標所占權重見附錄表格。部分性能指標結果難以獲得,我們通過推測得出。維度指標評分AI計算性能圖像推理任務的計算性能(單位:VFLOPS)3070000000圖像訓練任務的計算性能(單位:圖片/秒)存儲性能文件系統單客戶端單流帶寬(單位:GB/s)35718文件系統單客戶端多流帶寬(單位:GB/s)文件系統聚合帶寬(單位:GB/s)文件系統聚合IO操作速率(單位:IOPS)多協議平均訪問效率(單位:百分比)點對點網絡帶寬(單位:Gbps)704網絡性能點對點消息延遲(單位:微秒)網絡對分帶
45、寬與注入帶寬比值單位功耗的浮點計算性能(單位:GFLOPS/W)114系統能效單位功耗的可得存儲容量(單位:TB/W)內存容量(GB)與處理器核心數的比值BurstBuffer容量與內存容量的比值長久存儲容量與BurstBuffer容量的比值內存與BurstBuffer的帶寬比值系統平衡性BurstBuffer與文件系統帶寬的比值90數值26198484(*)35942400(*)科學計算性能HPL雙精度浮點計算性能(單位:PFLOPS)47578HPCG雙精度浮點計算性能(單位:TFLOPS)148.62725.758132500260000000.862000.561.02214.7190
46、.02481(+)0.68(+)0.89(+)0.95(+)1(+)注:(+)表示匹配后的值,(*)表示該項指標結果為估計值215.1.2 大型集群設計示例“Hawk”超級計算機坐落于德國斯圖加特大學,該型超級計算機主要服務于在能源、氣候、尖端學術、工業和健康等領域的研究,在發電廠的優化、區域和全球氣候模型的相互作用、流行病和遷徙的探索、車輛和飛機的空氣動力學改進以及噪音排放的測定等領域均發揮著重要的作用。使用上文所述的評分方法,“Hawk”超級計算各維度的指標和各維度的評分結果如下所示,不同維度內的各指標所占權重見附錄表格。部分性能指標結果難以獲得,我們通過推測得出。維度指標評分AI計算性能
47、圖像推理任務的計算性能(單位:VFLOPS)26743581圖像訓練任務的計算性能(單位:圖片/秒)存儲性能文件系統單客戶端單流帶寬(單位:GB/s)30406文件系統單客戶端多流帶寬(單位:GB/s)文件系統聚合帶寬(單位:GB/s)文件系統聚合IO操作速率(單位:IOPS)多協議平均訪問效率(單位:百分比)點對點網絡帶寬(單位:Gbps)671網絡性能點對點消息延遲(單位:微秒)網絡對分帶寬與注入帶寬比值單位功耗的浮點計算性能(單位:GFLOPS/W)35系統能效單位功耗的可得存儲容量(單位:TB/W)內存容量(GB)與處理器核心數的比值BurstBuffer容量與內存容量的比值長久存儲容
48、量與BurstBuffer容量的比值內存與BurstBuffer的帶寬比值系統平衡性BurstBuffer與文件系統帶寬的比值注:(+)表示匹配后的值,(*)表示該項指標結果為估計值80數值240329(*)297600(*)科學計算性能HPL雙精度浮點計算性能(單位:PFLOPS)6047HPCG雙精度浮點計算性能(單位:TFLOPS)19.33334.659(*)11(*)1760(*)18190000(*)0.82(*)2000.60.81(*)4.950.00641(+)0.53(+)1(+)1(+)(*)0.9(+)(*)225.1.3 中型集群設計示例“Wilkes-3”坐落于英國
49、劍橋大學,是世界上第一臺云原生超級計算機,該超算中心為英國的科學研究提供了主要的計算資源,在天體物理學、材料模擬、核聚變發電和臨床醫學研究具有重要的應用。使用上文所述的評分方法,“Wilkes-3”超級計算各維度的指標和各維度的評分結果如下所示,不同維度內的各指標所占權重見附錄表格。部分性能指標結果難以獲得,我們通過推測得出。注:(+)表示匹配后的值,(*)表示該項指標結果為估計值維度指標評分AI計算性能圖像推理任務的計算性能(單位:VFLOPS)45039380圖像訓練任務的計算性能(單位:圖片/秒)存儲性能文件系統單客戶端單流帶寬(單位:GB/s)30389文件系統單客戶端多流帶寬(單位:
50、GB/s)文件系統聚合帶寬(單位:GB/s)文件系統聚合IO操作速率(單位:IOPS)多協議平均訪問效率(單位:百分比)點對點網絡帶寬(單位:Gbps)691網絡性能點對點消息延遲(單位:微秒)網絡對分帶寬與注入帶寬比值單位功耗的浮點計算性能(單位:GFLOPS/W)146系統能效單位功耗的可得存儲容量(單位:TB/W)內存容量(GB)與處理器核心數的比值BurstBuffer容量與內存容量的比值長久存儲容量與BurstBuffer容量的比值內存與BurstBuffer的帶寬比值系統平衡性BurstBuffer與文件系統帶寬的比值99數值408981(*)496000(*)科學計算性能HPL雙
51、精度浮點計算性能(單位:PFLOPS)728HPCG雙精度浮點計算性能(單位:TFLOPS)2.2941.22(*)10(*)15(*)1500(*)13240000(*)0.87(*)2000.59(*)0.91(*)29.70.016(*)1(+)1(+)(*)1(+)(*)0.93(+)(*)1(+)(*)235.2.典型場景下的集群特性分析為探索可有效評估高性能計算集群系統的性能指標,本文充分調研了幾個典型的高性能計算應用場景,其中包括基因測序、氣象預報、油氣勘探、自動駕駛和新材料設計領域,研究不同場景下的應用特性和典型,分析不同應用場景下的超算集群需要擁有的性能特點。5.2.1.“I
52、O密集型”超算系統:以面向基因測序的集群為例基因測序作為基因檢測的重要方法,可以通過基因組信息以及相關數據系統,預測罹患多種疾病的可能性?;驕y序的業務流程主要包括:文庫制備(樣本上機+數據下機)、生信分析(測序分析+報告解讀)、分析后解讀(報告交付+歸檔分發)。其中生信分析階段包含文件格式轉換、解壓縮、基因拼接、比對、排序、去重、變異檢測以及聯合基因型檢測。該階段對高性能集群IO有很高的要求,屬于典型的“IO密集型”HPC應用。全基因組測序分析主要包含比對、排序、去重、檢測等步驟,每個步驟對計算資源的需求有差異。比對環節主要是將基因序列和參考基因組進行序列比對,以計算、比對查找為主,單客戶端
53、多線程異步加載,大文件小IO讀寫,和CPU核數、內存、存儲性能強相關,排序環節主要是對所有基因片段的編號按照坐標順序從小到大進行排序,去重是去除由PCR過量擴增所形成的副本,主要是大文件小IO異步順序讀寫操作,同樣和計算核數、內存大小和存儲單客戶端性能指標強相關。變異檢測環節主要是生成vcf文件包含樣本變異點位和基因型信息,主要與輸入文件大小、參考基因組文件大小和調用方法有關,IO表現為單客戶端多流大文件小IO操作,和內存大小和存儲性能指標強相關。同時,海量的基因測序數據需要大容量存儲空間。例如一臺Illumina NovaSeq測序儀生產量為6TB/40h,滿負荷下一年能產生1PB左右數據,
54、加之生物信息分析過程一般會產生原始數據量5倍左右的中間文件及結果,因此要支撐一臺NovaSeq一年的數據產出存儲及分析,大約需要6PB有效存儲空間。為該場景設計的一個典型超算系統主要硬件配置和關鍵性能如下表所示,這臺超算系統的浮點計算能力不足1PFLOPS,但每核心配備的內存數超過10GB,且采用了低延遲Infiniband網絡,文件系統聚合吞吐能力達到324GB/s。這是一個在“計算”與“存儲”平衡中偏向“存儲”的系統,因此是一個IO密集型超算系統。圖:基因測序業務流任務調度節點(部署SGE/PBS等調度軟件)工作節點(集群部署)2-基因轉換1-數據收集共享存儲6-數據分發/歸檔3-基因拼接
55、4-基因比對5-基因注釋主控主機執行主機1執行主機NXXX格式VCF文件FASTQ文件FASTQ文件BAM/SAM文件248748核心HPL性能:0.58PFLOPS93312GB每核心內存數:10.6GB100G HDR Infiniband節點間網絡延遲:0.64微秒100 PB聚合吞吐能力:324GB/s 硬件數量對應評測方法的關鍵指標表 某基因測序集群5.2.2.“IO密集+計算密集型”超算系統:以面向數值氣象預報的集群為例數值氣象預報通過采集各種觀測手段獲得的數據作為初始場,在一定的初值和邊值條件下,利用高性能集群的算力,求解描述天氣演變過程的流體力學和熱力學的方程組,從而預測未來一
56、定時段的大氣運動狀態和天氣現象。主要包括氣象觀測數據采集、數據預處理、模式計算以及后處理。其中,模式計算對高性能集群系統的計算、網絡和IO都有很高的要求,屬于典型的“IO密集+計算密集型”HPC應用。數值氣象預報應用軟件的運行時長通常和預報區域大小,網格數量、分辨率大小、設計算法及HPC集群性能等因素有關。通常而言,預報區域越大,網格數越多、分辨率越精細以及設計算法越復雜對HPC的性能和規模有著更高的要求。一方面,現有的數值氣象模式都采用MPI方式實現并行計算,適合在多個高性能服務器上并行執行;另一方面,數值氣象預報模式本質上是基于流體力學和熱力學等設計的,網格數量的多少一定程度上決定著模式執
57、行的并行度,所以數值氣象模式是計算密集型的應用。因此,跟計算集群的浮點計算能力、內存帶寬等指標強相關。數值氣象預報模式是基于差分格點設計的,其在高性能平臺上運行不僅涉及格點與格點之間的通信,而且還涉及在模式迭代運行時的收集通信。CPU核之間通信頻繁,跟計算網絡的帶寬、時延、包轉發率強相關。此外,在模式運行的過程中必定會不斷地產生臨時數據和中間結果數據,這也就是說模式運行階段需要對共享存儲不斷地進行讀寫。此外,在模式運行階段,會不斷地產生臨時數據和中間結果數據,需要對共享存儲不斷進行讀寫,且每天的氣象預報結果,必須在規定的時間分鐘數小時級完成計算,產生最終計算結果,對時效性要求極高。跟存儲系統的
58、聚合帶寬、IOPS指標強相關,業務負載通常是大小IO混合讀寫。為該場景設計的一個典型超算系統主要硬件配置和關鍵性能如下表所示,這臺超算系統的浮點計算能力達到2.39PFLOPS,每核心配備4GB內存,且采用了低延遲Infiniband網絡,文件系統聚合吞吐能力達到112GB/s。這臺超算系統在“計算”和“存儲”并重,是“IO密集+計算密集”型超算系統。內存網絡CPU存儲255.2.3.“AI密集型”超算系統:以面向自動駕駛的集群為例自動駕駛車,是一種無須人工干預而能夠感知其周邊環境和導航的車輛。它利用了包括雷達、激光、超聲波、GPS、里程計、計算機視覺等多種技術來感知其周邊環境,通過先進的計算
59、和控制系統,來識別障礙物和各種標識牌,規劃合適的路徑來控制車輛行駛。自動駕駛業務涉及10+處理環節,業務復雜,包括數據導入、預處理、訓練、仿真、結果分析等多個環節,主要處理流程如圖。表 某氣象預報集群硬件配置 硬件數量對應評測方法的關鍵指標14400HPL性能:2.39PFLOPS57600GB每核心內存數:4GB100Gbps節點間網絡延遲:0.63微秒12PB112GB/s內存網絡CPU存儲26自動駕駛系統向L3及以上級別升級,每輛車安裝的雷達、攝像頭、傳感器數量和精度要求成倍增加,對應路測里程和產生的數據量也成倍數增加。這些變化對存儲空間、訪問效率和計算算力都提出了新的挑戰:1)自動駕駛
60、升級,EB級路測數據:相比L3,L4路采數據量增加3-5倍,每天數百TB數據需導入存儲并完成預處理,預處理后產生15%場景庫數據需存儲、EB級數據需歸檔(10年+)。2)一套業務,多種協議并存:測試數據傳輸導入、預處理、訓練、仿真、結果分析各個環節要求協議不同(對象/NAS/HDFS等),數據孤島嚴重,數據拷貝時間比處理分析時間2倍以上,導致效率低。3)業務模型復雜,1.5ms時延:路采傳感器種類多,業務IO模型復雜;多次迭代,上百路并發,要求在車型算法訓練、功能仿真階段均提供極致性能,單集群帶寬達到百GB/s,時延1.5ms。為該場景設計的一個典型超算系統主要硬件配置和關鍵性能如下表所示,這
61、臺超算系統的浮點計算能力總和達到了16PFLOPS,其中GPU貢獻了82.5%計算能力。為滿足自動駕駛訓練的高速數據請求和大批次數據緩存需求,每CPU核心配備了6GB內存,文件系統帶寬達到79GB/s。這臺超算系統計算能力AI性能突出,是一個“AI密集型超算系統”。表 某自動駕駛集群硬件配置19840核CPU HPL性能:2.8PFLOPS1240塊NVIDIA A100加速卡GPU HPL性能:13.2PFLOPS119040GB每核心內存數:6GB200Gbps節點間網絡延遲:0.77微秒 硬件數量對應評測方法的關鍵指標GPU內存CPU網絡24PB79GB/s存儲6高性能計算系統性能評價規
62、范的展望27本文通過對高性能計算性能評價指標、評價方法的現狀及演進趨勢的深入分析,針對當前高性能計算技術新應用、新場景,充分考慮計算、存儲、網絡等ICT基礎設施對HPC性能的影響及各評價指標相互間的聯系,提出了一整套評價指標,并針對高性能計算典型應用場景,進一步分析和驗證這些評價指標的關聯性和合理性。此外,后續的研究工作將繼續深入開展,旨在建立一套科學、合理、具有一定產業影響力、多維度的評價標準規范體系,從而解決當前高性能計算設計選型困難的難題,改變國內缺乏高性能計算綜合評價標準規范體系的現狀,能夠更好的引領高性能計算存算并重、綠色節能、多功能一體的技術趨勢,基于這一目標,未來我們還有如下三項工作重點展開:第一,基于評價規范開發評測程序,降低在不同架構超算上運行評測程序的難度。第二,基于評測結果,定期選取性能優異、有特色的系統,構建“優秀高性能計算系統”榜單。第三,建立社區,業界共同探討與優化性能指標。28