1、 超算互聯網白皮書超算互聯網白皮書 超算互聯網聯合體超算互聯網聯合體 二二四年四月二二四年四月 序序 言言 過去 20 多年,中國的高性能計算事業取得長足的進步。在“機器、應用、環境”三方面協調均衡發展的方針指導下,自主研發的超級計算機 11 次位居世界超算 TOP500 第一,大規模并行計算應用三次獲得世界高性能計算應用最高獎“戈登貝爾”獎,基于互聯網構建的國家高性能計算環境得到廣泛應用,支撐了國家重要的科學研究和工程建設項目。近年來,人工智能和大模型的發展對算力提出了前所未有的新需求,算力水平已經成為衡量一個國家科技與經濟水平的重要指標。但另一方面,急劇變化的國際環境和日趨嚴重的外部限制與
2、封鎖,對我國高性能計算的可持續發展提出了嚴峻挑戰。在外部嚴格封鎖的條件下,軟硬結合、系統優化、應用為先是打破困境的必然出路,以應用成效論英雄,從機器性能世界領先轉向應用成效世界領先,應該成為我國高性能計算發展追求的新目標。超算互聯網正是在這個背景下提出的重要任務。所謂超算互聯網,是一種基于互聯網理念,借鑒互聯網應用的成功經驗而發展的計算基礎設施。它追求計算應用資源的互通和共享,為最終用戶提供優質的計算應用服務,幫助用戶用計算解決應用問題。同時,它又具有商業模式,通過資源提供、應用運營、應用開發各方的通力合作,獲得自身可持續發展的資金和資源。在科技部、工信部的指導下,已經成立 了國家超算互聯網聯
3、合體,正在為超算互聯網的建設而努力。本白皮書的撰寫和發布恰逢其時。首先,它將使聯合體的成員進一步統一思想,凝聚共識,共商大計,明確做什么?怎么做?促進成員間目標和步調的一致。其次,通過論述超算互聯網的技術架構、運行機制、應用形態和運營模式,有助于更加科學地開展超算互聯網的頂層設計,系統性地安排資源彈性匯聚調度、應用平臺和應用商店構建、應用軟件開發部署機制等關鍵支撐技術的研發工作。第三,白皮書所闡述的理念和技術體系將指導超算互聯網應用的開發,不斷豐富超算互聯網的應用資源,對最終用戶提供更加優質的服務。最后,白皮書的發布也有助于社會公眾了解什么是超算互聯網,激發使用超算互聯網完成自身業務的興趣,拓
4、寬各行各業對超算互聯網的使用和參與。同時,也有助于潛在的投資主體了解超算互聯網的理念和潛力,吸引多方投入共建超算互聯網。真切希望超算互聯網白皮書的發布能發揮其在傳播理念、凝聚共識、科學規劃方面的獨特作用,促進超算互聯網的技術研發,促使超算互聯網理念和愿景的早日落實,推動我國高性能計算技術和應用的水平邁上新臺階。中國科學院院士、超算互聯網總體專家組組長 錢德沛錢德沛 2024 年 2 月 7 日 前前 言言 數字經濟時代,算力成為新型生產力。以計算為基礎的數值模擬、數字仿真、大數據分析、人工智能等求解問題的方法,正帶來新的生產、科研和治理范式。超級計算能力是衡量一個國家或地區科技競爭力和綜合實力
5、的重要標志,有賴于機器、應用、環境三位一體協調發展。超算互聯網是要用互聯網化的理念、思維、模式、技術、平臺、機制來運營現有超算基礎設施,實現降低算力使用門檻,提高資源利用效率,培育自主軟件生態,促進算力泛在應用,推動跨界融合創新,提升超算環境服務能力等目的。本白皮書在征求、吸收超算互聯網聯合體眾多專家的意見建議的基礎上,梳理當前我國超算基礎設施與服務環境面臨的機遇和挑戰,提出超算互聯網的基本概念與重要特征,描繪超算互聯網的目標愿景與生態價值鏈,明確超算互聯網應當具備的關鍵能力;描述國內外超算基礎設施互聯共享的發展現狀,梳理超算網格、超算服務化、超算互聯網的發展脈絡;提出超算互聯網的參考模型,梳
6、理各層級功能特征與關鍵技術問題,明確制訂超算互聯網標準規范體系的要求;提出超算互聯網的參考運營架構,明確超算互聯網應具備的運行機制;展望超算互聯網創新的使用模式及豐富的應用場景;最后,從技術攻關、應用示范、標準制訂、人才培養、數據共享等方面提出行業發展倡議。本白皮書還有諸多不足,期待各方批評指正,共話未來!超算互聯網白皮書 目目 錄錄 一、發展背景.1 二、基本概念.5(一)概念特征.5(二)目標愿景.6(三)關鍵能力.8(四)參考模型.12(五)概念演進.13 三、發展現狀.16(一)發達國家高度重視超算設施互聯共享.16(二)中國推動超算網格向超算互聯網升級.21 四、技術架構.31(一)
7、總體參考架構.31 1.資源層.32 2.平臺層.38 3.服務層.41 4.應用層.44(二)關鍵技術問題.45(三)標準規范體系.50 超算互聯網白皮書 五、運營管理.53(一)運行機制.54(二)參考運營架構.56(三)超算互聯網聯合體.60 六、應用展望.62(一)創新的使用模式.62(二)豐富的應用場景.63 1.人工智能.64 2.科學計算.66 3.工程計算.70 七、發展倡議.73 八、附錄.76(一)附錄 1:縮略語.76(二)附錄 2:參考文獻.77 超算互聯網白皮書 圖圖/表目錄表目錄 圖 1 中國超算產業三位一體協調發展策略.3 圖 2 超算互聯網的重要特征.5 圖 3
8、 超算互聯網支持多方生態協作.7 圖 4 超算互聯網應具備的關鍵能力.9 圖 5 超算互聯網參考模型.13 圖 6 從超算網格到超算互聯網的演進關系.14 圖 7 EuroHPC(2021-2027)發展策略框架.19 圖 8 日本高性能計算基礎設施(HPCI)分布.20 圖 9 中國超算基礎設施網絡化發展歷程.21 圖 10“十三五”國家高性能計算環境.23 圖 11 超算互聯網總體參考架構.31 圖 12 超算互聯網標準體系.51 圖 13 超算互聯網主要參與方及其關系.53 圖 14 超算互聯網運營商參考運營架構.57 圖 15 國家超算互聯網聯合體正式成立儀式.60 表 1 EuroH
9、PC JU 納管的超級計算機列表.19 超算互聯網白皮書 1 一、一、發展背景 當今世界,人類社會正循著網絡化、數字化、智能化的方向快速發展。人類社會空間、物理空間和信息空間日益緊密融合,以 5G、人工智能、先進計算為代表的新一代信息技術加速向各領域滲透。特別是近年來以 ChatGPT、AlphaFold2、Sora 為代表的新一代人工智能技術,作為變革性力量,帶來全新的生產方式、科研范式和治理模式。先進計算成為求解問題、探索未知世界的重要方法,數值模擬、數字仿真、大數據分析、人工智能等手段普及應用,支撐科學研究、技術發明、產品開發、工業制造與社會治理。計算能力與算法、數據、模型等要素相互融合
10、,成為數字經濟時代的新質生產力。近期,工業和信息化部等六部門印發算力基礎設施高質量發展行動計劃,國家發展改革委等部門印發 關于深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見,明確提出算力是數字經濟時代的新型生產力。算力網是支撐數字經濟高質量發展的關鍵基礎設施,可通過網絡連接多源異構、海量泛在算力,實現資源高效調度、設施綠色低碳、算力靈活供給、服務智能隨需。在國家實施“東數西算”戰略的背景下,以新型數據中心、超算中心、智算中心為代表的算力基礎設施正加速部署。截止目前,我國已啟動建設 8 大國家級算力樞紐節點和 10 個數據中心集群,已建成十多個國家超級計算中心,超 40 個城市在建
11、智算中心,25 個國家新一代人工智能公共算力開放創新平臺獲批建設,全國一體化算力網正加快構建。超級計算能力是衡量一個國家或地區科技競爭力和綜合實力的超算互聯網白皮書 2 重要標志。超級計算已廣泛應用于航空航天、工業仿真、氣象環保、油氣勘探、人工智能、新能源、新材料、生物醫藥、智慧城市、基礎科研等眾多領域,在應對重大挑戰性問題,促進傳統產業轉型升級,提高人民生活水平,促進重大科學發現等方面發揮著不可替代的作用。多年來,在中國科技計劃的持續支持下,我國超算產業堅持“機器、應用、環境”三位一體協調發展策略,在機器研制、關鍵應用、服務環境等方面已處于世界前列,“神威”、“天河”、“曙光”系列超級計算機
12、已多次占據全球超級計算機性能 TOP500 領先位置,大氣模擬、地震模擬、量子模擬、分子動力學模擬等關鍵領域大規模并行應用獲得戈登貝爾(Gordon Bell)獎,全國范圍建成十多個國家超級計算中心、中國國家網格(China National Grid,CNGrid)等戰略性信息基礎設施。同時,總體上看,我國高性能計算軟件與應用的發展相對不足,應用生態也不夠豐富,高性能基礎和應用軟件大量依賴國外軟件,存在“卡脖子”的風險1。建立發展高性能計算的生態環境,需要形成一個從基礎研究、技術突破、產品研發到應用推廣的協作共同體,不是簡單的鏈條,而是相互關聯的社會網絡2。1 錢德沛,欒鐘治,劉軼.從網格到
13、東數西算:構建國家算力基礎設施J.北京航空航天大學學報,2022,48(9):14.2 李國杰.發展高性能計算需要思考的幾個戰略性問題.中國科學院院刊,2019.6 超算互聯網白皮書 3 圖 1 中國超算產業三位一體協調發展策略 隨著數字化轉型不斷深入以及國際地緣政治形勢變化,我國超算產業面臨新的機遇與挑戰:人工智能帶來 AIGC、大模型、AI For Science、AI For Technology 等新興應用,催生巨大算力需求,并驅動超級計算與人工智能融合發展;云計算、APP Store 等互聯網新平臺新應用沖擊傳統的超算資源管理與用戶服務模式,超算中心亟需從“賣機時”向“提供應用服務與
14、解決方案”升級;全國范圍內不同體系結構、歸屬不同運營主體的多源異構算力需要互聯、集成與統一調度,以實現資源高效利用;隨著更多超算中心、智算中心建成,需探索形成更加有效的競合機制與商業模式,實現計算服務行業可持續發展;“東數西算”背景下,大數據洪流(data deluge)帶來的數據傳輸問題備受關注,需升級網絡基礎設施,優化大規模數據超算互聯網白皮書 4 遠程傳輸效率;中美貿易戰、科技戰凸顯新時期我國解決芯片、基礎軟件等“卡脖子”問題,加快建設自主軟硬件生態的緊迫性。上述問題與挑戰,對我國進一步發展超算基礎設施及其服務環境提出了更高要求。放眼世界,構建具備高效的數據傳輸、資源共享、算力調配、生態
15、協作能力的超算基礎設施網絡,也是發達國家塑造高性能計算競爭優勢的重要策略,例如美國的能源科學研究網絡 ESnet(Energy Sciences Network)、歐盟的高性能計算共同體計劃 EuroHPC JU(The European High Performance Computing Joint Undertaking)、日本的高性能計算基礎設施 HPCI(High Performance Computing Infrastructure)等。2023 年 4 月 17 日,國家超算互聯網正式啟動部署,并成立了國家超算互聯網聯合體。超算互聯網將在以往中國國家網格 CNGrid 以及業內
16、高性能計算云(HPC Cloud)實踐的基礎上,全面利用互聯網化的理念、思維、模式、技術、平臺、機制來運營超算基礎設施,打造具備互聯網理念與特征的新一代高性能計算服務環境,實現降低算力使用門檻,提高資源利用效率,構建自主軟件生態,培育科技人才隊伍,促進算力泛在應用,推動跨界融合創新,提升超算環境服務能力等目的。值得一提的是,本白皮書討論的超級計算,是相對廣義的概念,涉及超級計算、高性能計算、智能超算等,包括硬件、軟件、算法、應用、產業生態環境。超算互聯網白皮書 5 二、二、基本概念(一)概念特征 在全球新一輪科技革命和產業變革中,互聯網與各領域的融合發展具有廣闊前景和無限潛力,已成為不可阻擋的
17、時代潮流。超算互聯網是具備互聯網理念與特征的超算基礎設施,是互聯網化的高性能計算服務環境,是互聯網創新成果與算力基礎設施運營的深度融合。超算互聯網不僅要在各算力中心之間形成高效數據傳輸網絡,更要構建和完善全國一體的算力調度網絡和面向應用的生態協作網絡。超算基礎設施深度融合互聯網的理念、思維、模式、技術、平臺與機制后,將呈現以下重要特征:圖 2 超算互聯網的重要特征 開放性:開放性:通過類電商平臺、應用商城(APP Store)、開源社區等平臺,為創新、交互與合作提供開放包容的環境和條件;便捷性:便捷性:通過高速網絡、云、XaaS、移動 APP 等技術和服務模式,讓算力使用、數據傳輸、應用服務更
18、加高效便捷;交互性:交互性:通過線上交易、線上社區、線上培訓等機制模式,促進供需方、產學研、上下游之間廣泛交流與協作;超算互聯網白皮書 6 資源共享:資源共享:利用網格、云、容器、隱私計算、XaaS、區塊鏈等技術,促進算力、數據、算法、模型等資源共享與流通;創新驅動:創新驅動:大幅降低超算使用門檻,支持豐富應用場景,讓更多用戶便捷使用模擬仿真、大數據分析、AI 等新手段,進行科學研究和工程技術創新;跨界融合:跨界融合:通過面向工業、材料、生物、能源等行業的領域應用平臺,讓 HPC、AI 技術高效賦能行業轉型升級;泛在化:泛在化:實現跨區域、跨架構、跨層級、跨運營主體的一體化算力調度,讓算力無處
19、不在,用戶可隨需使用超算;去中心化:去中心化:支持多體系架構、多算力中心、多服務平臺之間的互聯互通與競合發展,形成包容并蓄、共生共榮的產業生態;服務化:服務化:提供硬件、軟件、數據、模型的 XaaS 化服務,提升超算基礎設施綜合服務能力,優化用戶體驗。(二)目標愿景 超算互聯網以高效安全的數據傳輸網絡為基礎支撐,以互聯網的思維運營超算基礎設施為核心理念,以構建市場化、領域化、服務化、標準化的高性能計算服務環境為發展方向,以供需緊密對接的“類電商”應用服務平臺為主要載體,廣泛連接算力供給、軟件開發、數據交易、模型服務、行業應用等產業鏈相關各方,促進實現基礎設施高效利用、異構算力調度共享、軟件硬件
20、協同創新、人才隊伍發展壯大、產業生態自立繁榮等多層目標,有效支撐我國超算技術、應用、人才、產業的長期可持續發展。超算互聯網白皮書 7 超算互聯網應致力于構建“平等、互利、協作、創新、共贏”的生態價值鏈:圖 3 超算互聯網支持多方生態協作 最終用戶最終用戶通過超算互聯網按需獲取計算、存儲、軟件、數據、模型等各類資源與服務,降低使用門檻與成本,專注自身業務創新;超算中心超算中心通過超算互聯網實現互連與資源共享,觸達更多用戶,提高資源利用率,打造差異化、有競爭力的領域應用服務平臺,從機時服務向應用平臺服務升級,實現可持續發展;軟件開發者軟件開發者通過超算互聯網靈活、便捷地開設應用商店,為更多用戶提供
21、軟件產品服務,線上直接獲取用戶反饋,促進自身產品快速迭代,提高自主軟件競爭力;超算研發機構超算研發機構通過超算互聯網支持新技術驗證與新產品開發,促進不同架構加強協作,推動多平臺多架構基于統一接口互聯互通;超算互聯網白皮書 8 高校與科研機構高校與科研機構通過超算互聯網實現算力、數據等資源共享交換,促進算法、模型、軟件等科研成果轉化,促進產教融合,支持學生參與技術競賽、眾包眾籌、開源社區等公益項目;第三方服務商第三方服務商通過超算互聯網為用戶提供技術咨詢、軟件外包、技術培訓、數據交易、居間代理等豐富多樣的專業性服務,協同超算中心、軟件開發商做大計算服務業規模;地方政府地方政府通過超算互聯網整合區
22、域內算力、數據、人才、應用等資源要素,構建超算互聯網區域樞紐節點,融入全國一體化算力網絡,推動產、學、研、用深化協作,促進重點產業轉型升級,培育發展具有區域特色優勢的先進計算軟件與服務業,提高區域科技創新水平與產業競爭力。(三)關鍵能力 為支撐實現上述價值目標,作為新型超算基礎設施,超算互聯網應致力于構建和發展以下關鍵能力:超算互聯網白皮書 9 圖 4 超算互聯網應具備的關鍵能力 1.強大的基礎資源服務能力 提供世界一流的軟硬件資源和多種國產芯片算力,通過全國一體化算力管理調度核心系統實現資源可測量、可調度,并建立高效的數據傳輸優化網絡,為資源共享與協作提供支持。具有世界一流的軟硬件資源,接入
23、、匯聚所有國家級超算中心及具有區域或行業優勢的各類算力中心的資源,支持納管多種國產芯片算力,總聚合算力達到千億億次級;建成全國一體化算力管理調度核心系統,擁有全局資源可測量可調度能力,支持跨架構、跨地域、跨層級、跨運營主體的資源管理與任務調度,實現全局統一存儲服務,屏蔽超算中心底層硬件差異,提供標準化計算服務;超算互聯網白皮書 10 形成全國性大規模數據傳輸優化網絡,超算中心間實現高速安全互連,為大規模資源共享與協作、海量數據傳輸、“東數西算”、分布式協同計算等任務提供高效網絡支撐。2.豐富的應用場景支撐能力 為各行業領域用戶提供解決方案,并通過應用服務平臺促進供需對接,降低超算門檻。支持 H
24、PC、人工智能、大數據、云等豐富應用場景,具備為用戶提供解決方案的服務能力,能夠幫助各行業領域用戶解決實際問題;形成面向最終用戶的業務應用服務體系,建成簡單、高效、易用的“類電商”應用服務平臺,打造應用商城(APP Store),提供各類應用集成、封裝、發布、部署與交易的全流程服務,促進供需廣泛對接;面向關鍵行業、重要領域建成一批領域應用服務平臺,支持開發、集成一批領域應用軟件,支持用戶基于工作流和領域知識快速開發部署業務應用,大幅降低超算門檻。3.自主生態體系支撐能力 提供自主生態體系支撐,包括建立高性能計算軟硬件生態、公共軟件資源庫和統一開發接口等。通過超算互聯網行業聯合體,形成全產業鏈合
25、作網絡。能夠支撐建立我國自主技術的高性能計算軟硬件生態,解決高性能計算機應用的瓶頸問題,能夠運行面向國產計算芯片超算互聯網白皮書 11 的基礎軟件、工具軟件和開發環境,具備豐富應用軟件資源;建成公共的共性軟件資源庫,包含數學庫、算法庫、工具庫、求解器、模型庫等,為應用開發與集成提供高效支撐,促進高性能并行軟件研發,持續提高國產軟件的數量和質量;支持研發推廣統一編譯器、統一數學庫、統一開發接口與規范、自動移植工具等,屏蔽底層硬件架構的差異性,降低軟件移植成本,提高移植效率,實現軟件一次編程后跨中心跨架構平滑運行;持續發展超算互聯網行業聯合體,探索新型產業協作機制,在產學研之間、軟硬件之間、上下游
26、之間、多平臺之間形成去中心化的全產業鏈合作網絡。4.高水平人才隊伍保障能力 人才是超算互聯網成功的根本保障,在基礎設施高效管理、服務平臺穩定運行、并行軟件開發推廣、應用解決方案研發部署等方面,具備高水平人才隊伍保障能力。通過在線知識庫、在線培訓、并行計算競賽、開發者大會等多種線上或線下方式,大力推廣并行計算編程技術,形成國內活躍的并行計算人才社區;支持產教融合,長期、持續培養面向國產芯片的超算軟件開發與復合型應用人才;加強國際合作,通過聯合科研、學術會議、超算競賽等多種方式,促進海內外人才交流與經驗分享。超算互聯網白皮書 12 5.可持續循環發展能力 通過提供優質服務、技術轉化和產業投資等方式
27、獲取經濟效益。支持超算中心向提供應用平臺服務轉變,并實現用戶規模擴張。通過構建應用服務平臺和與其他算力網絡的互聯互通,適應不同超算架構,形成共贏的商業模式。在政府支持的基礎上,超算中心能夠通過對外提供優質服務、技術成果轉移轉化、科創產業投資等多種方式獲取經濟效益,實現自身循環可持續發展;支持超算中心實現從提供機時服務向提供應用平臺服務的根本性轉變;用戶規模不斷擴大,數量達到百萬級規模;以構建高效運轉的“類電商”應用服務平臺為抓手,形成超算中心、超算軟件開發者和超算用戶多方共贏的商業模式;形成適應不同超算架構的超算互聯網標準體系;與中國算力網等其他算力網絡實現互聯互通與協調發展。(四)參考模型
28、本白皮書提出超算互聯網的參考架構模型(如圖 5),包括資源層、平臺層、服務層和應用層,各層遵循統一的運營、安全與標準體系。白皮書第四章詳細闡述了該參考架構的具體內容。超算互聯網白皮書 13 圖 5 超算互聯網參考模型 資源層:資源層:以高速網絡連接分布各地的算力基礎設施,聚合多個中心的軟硬件資源,形成可共享調度的基礎資源池。平臺層:平臺層:構建基礎核心能力,承上啟下提供能力支撐,向下支撐實現資源的接入、管理與調度等功能,向上支撐實現作業管理、模型/數據/工具集管理、用戶管理、交易管理和商城管理等功能。服務層:服務層:依托平臺層能力,面向科學計算、工程計算、智能計算等領域用戶需求,提供算力服務、
29、應用服務、模型服務、數據服務、社區服務等各類服務。應用層:應用層:面向各行業領域用戶,支持豐富的應用和應用場景。運營、安全和標準:運營、安全和標準:構建統一的運營服務體系,保障網絡與數據安全,形成統一的標準與規范,并貫通各層。(五)概念演進 超算網格是與超算互聯網密切相關的重要概念。超算網格可以視作超算互聯網的前身,為超算互聯網發展提供了一定的支撐條件。超算互聯網白皮書 14 圖 6 從超算網格到超算互聯網的演進關系 超算網格(Computing Grid)的概念出現在上世紀九十年代,指通過網絡將分布在不同地理位置的超算中心連接起來,建立一個類似電力網(Power Grid)的計算資源網絡3,
30、聚合大規模的計算能力,支持資源共享、任務分發與協同計算。例如,美國的 TeraGrid、歐盟的EGEE 和中國的 CNGrid,都在學術科研領域成功構建了大規模資源共享協作環境。超算網格在屏蔽不同超算中心差異,實現統一作業調度等方面,可為超算互聯網提供部分底層設施和技術參考。超算網格主要服務于學術科研領域,而超算互聯網的目標是要將超算能力拓展至千行百業,因此需要聯結更多算力中心和上下游企業,管理更多類型的資源和作業,服務更大規模的用戶群體,網絡乘數效應更加明顯。高性能計算云(HPC Cloud)的概念出現于本世紀初,肇始于亞 3 錢德沛,欒鐘治,劉軼.從網格到東數西算:構建國家算力基礎設施J.
31、北京航空航天大學學報,2022,48(9):14.超算互聯網白皮書 15 馬遜等互聯網企業在公有云平臺上為用戶按需彈性提供高性能計算、存儲服務。同時近年來大多數超算中心也開始提供云化的 HPC 服務,云計算與高性能計算的結合愈加緊密。超算云可以看成是傳統超算的“云化”演進,是以超算中心資源作為底座,基于統一的資源調度平臺,通過云計算的服務模式為用戶提供高性能計算服務4。超算云一般由單一主體對外提供服務,而超算互聯網的核心理念是通過類電商平臺聯結多個主體,管理調度多源、異構、海量的資源。云計算無疑是超算互聯網的關鍵技術與服務模式之一,但超算互聯網的目標并不止于提供云化的機時資源,更需構建上層應用
32、商城,解決用戶業務應用問題。同時,超算互聯網作為國家級基礎設施,需全力支撐解決生態適配、軟件移植、產學研協作、人才培養等諸多行業共性問題和“卡脖子”問題。4 超級計算創新聯盟.高性能計算云(HPC Cloud)白皮書,2021.9 超算互聯網白皮書 16 三、三、發展現狀 大規模超級計算機造價昂貴,動輒需投入上億美元,除石油、汽車、互聯網等領域少數巨頭企業外,中小企業、高校和科研機構等用戶無力投資。因此,由政府出資建設,然后委托國家實驗室、高?;驅I機構運營,成為各國部署超級計算機的主流模式。發達國家或地區長期推進建設超算基礎設施網絡,促進互聯互通、資源共享與業務協作,不斷提高資源利用率和投資
33、回報。(一)發達國家高度重視超算設施互聯共享 1.美國相關情況 目前,美國擁有世界上最強大的超算基礎設施互聯互通與協作網絡,包括商業性較強的亞馬遜 AWS 云、微軟 Azure 云等,以及政府支持建設的公益性設施網絡,如能源科學網絡 ESnet6、開放科學網格(Open Science Grid,OSG)等。早在 1986 年,美國國家科學基金會(NSF)構建 NSFNET 網絡,允許全美科研人員連接和使用來自 6 家超級計算中心的資源。NSFNET 在1998 年停止運行后,NSF 又在 2001 年組建了世界上最大規模的分布式計算網格 TeraGrid(2011 年被 XSEDE 計劃替代
34、),2005 年又資助建設了開放科學網格(OSG)。美國能源部(DOE)在 1986 年也組建了其專屬科研網絡 ESnet,連接下屬的國家實驗室、大學和科研機構,旨在讓數以萬計的全國科研人員不必受物理位置限制,高效傳輸科研數據,共享使用超級計算、儀器設備等各類資源。最新一代網絡ESnet6 已于2022年10 月發布。超算互聯網白皮書 17 本世紀以來,美國政府先后啟動全球信息網格計劃(GIG)、極大規??茖W與工程探索和發現環境計劃(XSEDE)、國家戰略性計算計劃(NSCI)、先進科學計算研究計劃(ASCR)、先進計算生態系統(ACE)戰略計劃、研發基礎設施國家戰略(RDI)、美國國家人工智
35、能研究資源(NAIRR)等一系列戰略規劃,其重要目的之一就是要充分利用、連接和增強美國的計算與網絡基礎設施資源,持續發展壯大先進計算生態體系,以保持美國在高性能計算領域的全球領導力和競爭優勢。同時,在全球商業領域,亞馬遜、微軟等美國企業在各自公有云平臺上打造了日臻成熟的高性能計算即服務(HPCaaS)業務模式,引領著全球高性能計算云的發展趨勢。以亞馬遜為例,其 AWS 高性能計算服務已廣泛應用于處理復雜、數據量大的計算任務,包括基因組學、計算化學、地震處理、計算機輔助工程以及深度學習和自動駕駛等諸多應用領域。2.歐盟相關情況 歐盟一直致力于在政治、經濟、科技等領域推進歐洲共同體的愿景實現。在超
36、級計算領域,歐盟先后實施歐洲先進計算伙伴計劃(PRACE)、歐盟地平線(Horizon Europe)計劃、歐洲高性能計算技術平臺(ETP4HPC)、歐洲極限數據與計算項目(EXDCI)、“開放科學云”行動計劃(EOSC)、歐洲高性能計算聯合體計劃(EuroHPC)等,聯合各成員國共同發展資源共享的高性能計算基礎設施網絡。在網格計算方面,歐盟曾先后啟動歐洲網格(EuroGrid)、數據網格(European DataGrid)、電子科研網格(Enabling Grids for E-超算互聯網白皮書 18 science in Europe,EGEE)、網格基礎設施(European Grid
37、 Infrastructure,EGI)等一系列項目5,旨在建立可持續運維的泛歐計算基礎設施,供科研人員全天候使用。歐洲高性能計算聯合體(EuroHPC JU)始建于 2018 年 10 月,其宗旨是部署和運行世界級的高性能計算和數據基礎設施,推動建設卓越的歐洲高性能計算生態環境。根據歐盟理事會于 2021 年 7 月正式通過的“歐洲高性能計算聯合體(EuroHPC JU)項目條例”,20212027 年,歐盟將開發、部署、擴展并維護世界領先的超級計算、量子計算、服務和數據基礎設施生態系統;開發并應用需求導向、用戶驅動的創新型且具有競爭力的超級計算系統;擴大超級計算基礎設施開放范圍,公共機構和
38、私營部門均可使用,以支持歐洲科學界和產業界的數字化和綠色化雙重轉型以及關鍵技能發展6。5 錢德沛,欒鐘治,劉軼.從網格到東數西算:構建國家算力基礎設施J.北京航空航天大學學報,2022,48(9):14.6 袁珩,張麗娟.“數字歐洲計劃”20212022 年度工作要點.科技參考,2022,6 超算互聯網白皮書 19 圖 7 EuroHPC(2021-2027)發展策略框架 EuroHPC JU 的具體目標之一,是將歐盟層面和成員國層面的高性能計算資源整合一個通用平臺上,向公私部門用戶開放,提供云端超算、量子計算及數據基礎設施服務,推動高性能計算被各類社群用戶廣泛使用。截止 2024 年 1 月
39、,EuroHPC JU 已納管來自 9 個成員國的世界級超級計算機,包括歐洲第一臺 E 級超級計算機 Jupiter。表 1 EuroHPC JU 納管的超級計算機列表 序號序號 機器名稱機器名稱 持續性能持續性能 petaflopspetaflops 峰值性能峰值性能 petaflopspetaflops 部署國部署國 1 LUMI 386 539.13 芬蘭 2 LEONARDO 246.54 313.9 意大利 3 MARENOSTRUM 5 178.3 311.95 西班牙 4 MELUXINA 12.81 18.29 盧森堡 5 KAROLINA 9.59 12.91 捷克 6 DI
40、SCOVERER 4.52 5.94 保加利亞 7 VEGA 6.92 10.05 斯洛文尼亞 8 DEUCALION 7.22 10 葡萄牙 9 JUPITER 1000 N/A 德國 信息來源:EuroHPC JU 官網 超算互聯網白皮書 20 3.日本相關情況 日本從上世紀 80 年代中期開始發展超級計算機,在機器性能方面屢次超越美國。2003 年,在日本教育科研網 SuperSINET 基礎上,日本文部省啟動實施“國家研究網格基礎設施”(NAREGI)項目,研制部署面向科學研究的網格基礎設施。繼 NAREGI 項目之后,日本又開始實施“下一代超級計算機計劃”,啟動建設日本高性能計算基礎
41、設施網絡 HPCI7。圖 8 日本高性能計算基礎設施(HPCI)分布 HPCI 網絡由日本信息科學與技術研究組織(RIST)負責運營管理,通過將分散在日本高校、研究機構的超算中心計算與存儲資源通過高速網絡連接起來,形成國家級的共享計算環境,滿足各類用戶不同需求。目前,HPCI 已經連接日本理化學研究所(RIKEN)、東京大學、筑波大學等 15 個超算中心,其中包括日本最先進的超級計算機“富 7 錢德沛,欒鐘治,劉軼.從網格到東數西算:構建國家算力基礎設施J.北京航空航天大學學報,2022,48(9):14.超算互聯網白皮書 21 岳”(Fugaku)。HPCI 納管的計算資源類型異構多樣,涵蓋
42、通用 x86 CPU、ARM 架構的富士通 A64FX CPU、GPU 以及 NEC 的矢量加速芯片等。日本政府還同步資助重點工業企業使用高性能計算資源,促進工業仿真模擬技術普及應用。HPCI 網絡不僅幫助日本加速科學突破與技術進步,也促進了產業競爭力提升、人力資源開發和用戶基礎擴大。(二)中國推動超算網格向超算互聯網升級 與發達國家地區不同,我國超算基礎設施的公共服務平臺屬性更強,普遍要求向社會開放,服務支撐眾多領域。20 多年來,以超算中心為基礎的高性能計算環境大致經歷了超算網格、超算服務化、超算互聯網三個發展階段。各階段的側重點不同,其中,超算網格聚焦于基礎資源的共享與協同,超算服務化強
43、調通過云計算、領域應用服務平臺等方式提升超算基礎設施服務能力,超算互聯網凸顯了新形勢下建立新型產業協作機制與自主軟件應用生態的緊迫性。圖 9 中國超算基礎設施網絡化發展歷程 超算互聯網白皮書 22 1.超算網格 21 世紀初,網格計算在中國興起。1999 年-2000 年,863 計劃支持建立了由 5 個高性能計算中心構成的國家高性能計算環境原型,形成了超算網格的雛形。2004 年,在教育部支持下,由華中科技大學牽頭,啟動建設中國教育科研網格,研制網格核心中間件,集成中國教育和科研計算機網(CERNET)上自治的、分布異構的海量資源。到 2006年,中國教育科研網格集成分布于全國 13 個省市
44、 20 所重點高校的計算、存儲、數據、軟件等資源,計算能力超 15 萬億次,支持了生物信息學、圖像處理、遠程教育、流體力學等領域網格應用,成為當時全國高校公共服務體系的重要基礎設施。同期,國家 863 計劃啟動建設國家高性能計算環境實驗床,即中國國家網格 CNGrid,成立中國國家網格運行管理中心。CNGrid 于 2005年 12 月正式開通運行,首批匯聚中科院超算中心、上海超算中心等8 個結點,形成 18 萬億次計算能力。在國家科技計劃的持續支持下,研發了國家高性能計算環境系統軟件 CNGrid GOS 和 CNGrid Suite,實現了資源的互聯互通與統一共享、作業的提交與全局調度、數
45、據的全局管理和環境的安全管控。截止 2022 年,CNGrid 已聚合 22 個結點的計算資源 871PF 和存儲資源 538PB,部署應用軟件和工具超 740份,研究團隊用戶數超過 7000 個,支持領域應用社區和業務平臺 23個,覆蓋高能物理、計算化學、材料科學、生命科學、地球科學、天文學、工業設計、能源勘探、教育等眾多領域。CNGrid 通過資源共享機制,為科學研究、工程設計、產品開發、信息化建設等各類用戶提超算互聯網白皮書 23 供高性能計算與數據處理服務,累計支持千余項科研項目。圖 10“十三五”國家高性能計算環境8 CNGird 在國家科技計劃支持下歷經 20 余年發展,已經成為不
46、可或缺的戰略性信息基礎設施,其資源能力與服務水平進入世界前列,在一定程度上促進超級計算機從單機模式向網絡計算模式的轉變,并在航空航天、石油勘探、生物醫藥、工業設計等多個關鍵領域支撐了一批重要應用,為“東數西算”背景下進一步建設超算互聯網積累了寶貴經驗,提供了技術基礎。2.超算服務化 隨著云計算的蓬勃發展,傳統高性能計算開始向云化服務模式轉變,超算云化成為行業發展方向。目前,大部分超算中心都已建有云 8 錢德沛.構建支撐科技創新的新一代計算基礎設施J.數據與計算發展前沿,2020,2(1):1-17 超算互聯網白皮書 24 資源管理系統或云服務平臺,能夠為用戶按需提供可彈性擴展的機時資源、Saa
47、S 軟件等云化服務,降低超算使用成本和門檻。例如:國家超級計算長沙中心自研云服務平臺,對不同資源池進行統一監控、管理和調度,實現用戶資源的快速彈性擴展,支持多維度角色權限管理,提供租戶虛擬化層隔離、租戶內部訪問控制等功能。并行科技作為獨立的超算云服務提供商,將部分超算中心的計算資源整合為統一云計算資源池,構建了“并行超算云”一站式服務平臺。甘肅省計算中心的高性能計算云服務系統,涵蓋作業調度、資源管理、應用安裝、用戶管理、系統監控等功能模塊。貴安超算中心的 Renderbus 云渲染平臺,可對外提供圖像渲染云服務。中國航天科工集團智能科技研究院的信創云環境超算服務平臺,可以為智能體訓練、智能仿真
48、等場景提供基于國產 GPU的算力服務等。在超算云基礎上,部分超算中心面向行業應用場景需求,結合“互聯網+”理念,構建了多個領域應用服務平臺,匯聚整合計算、存儲、數據、應用軟件等多方面資源,在線為用戶提供更完整的應用服務或解決方案。例如:中國科學院計算機網絡信息中心的生物醫藥應用服務社區(grid.org),匯聚 50 余種主流科學應用軟件,涵超算互聯網白皮書 25 蓋生物信息、藥物靶標鑒定和藥物設計等領域,支持基因組分析、轉錄組分析、蛋白質分析、藥物分子設計等應用。上海超算中心 的 Xfinity 工業高性能計算服務 平臺(),于 2010 年 4 月上線,截止 2020 年9 月,十年間完成
49、作業數超 43 萬個,使用機時數超 4790 萬核時,在汽車、飛機、鋼鐵、高端裝備設計等領域為上千家企業用戶提供仿真模擬計算服務。國家超算天津中心的天河設計與仿真平臺(cae.th-),涵蓋幾何模型設計、求解計算、后處理分析等環節,滿足結構、流體、電磁等不同領域的云端設計仿真一體化需求。國家超算天津中心的高通量材料計算平臺(mathtc.nscc-),集成材料計算軟件、前后處理和數據可視化模塊,擁有面向材料計算的全鏈條算法工具集成和統一接口技術,支持多組元材料體系從微觀、介觀到宏觀的結構、物性和服役行為的多尺度計算仿真技術,可實現材料計算設計的全流程自動控制。國家超算無錫中心的神工坊高性能仿真
50、平臺(),建于 2016 年,是支持工程仿真應用的開發、定制和在線服務的 PaaS+SaaS 平臺。神工坊已實現航空發動機等領域極高保真度數值模擬,并行規模達到 100 萬核心,網格分辨率達到10 億級別,引領行業發展。超算互聯網白皮書 26 甘肅省計算中心的甘肅省生物醫藥高性能計算示范平臺,將生物醫藥類計算軟件以更友好、更易用的 Web 方式提供給用戶,用戶無需安裝配置環境,即可通過網絡訪問各種服務。陜西空天超算構建的航空航天領域應用服務平臺,可提供結構、流體、燃燒、焊接等高性能計算服務。超算云和領域應用平臺的建設,一定程度上改變了超算中心的傳統服務模式,提升了高性能計算環境的綜合服務能力,
51、為建設超算互聯網提供了樣板經驗。但目前各平臺獨自發展,相對分散,如何實現多平臺互聯互通與協作共贏,成為超算互聯網的重要課題。3.超算互聯網 2017 年 7 月,國家超算濟南中心在中國超級計算中心 CEO 聯席會議上首次提出“超算互聯網”的概念,希望將當時的 6 個國家超算中心聯為一體。2019 年 7 月,科技部高新司在中國超級計算事業發展四十年紀念活動上,提出“建設國家超算網絡,形成全國超算資源共享新格局”的設想。2023 年 4 月 17 日,科技部高新司在天津啟動部署國家超算互聯網,提出到 2025 年底形成技術先進、模式創新、服務優質、生態完善的總體布局。同時由 22 家單位發起組成
52、了國家超算互聯網聯合體,由國家高性能計算機工程技術研究中心任理事長單位。近年來,清華大學、中國科學院計算機網絡信息中心、國家超級計算濟南中心、鵬程實驗室、中科曙光等多家單位分別從原型體系研究、高速互聯網絡、大規模數據傳輸、全國一體化算力調度、區域算超算互聯網白皮書 27 網生態建設、標準研制等方面,開展試驗與探索。1)超算互聯網原型體系研究方面 國家超算無錫中心牽頭,聯合中科院計算機網絡信息中心、國家超級計算天津中心、國家超級計算深圳中心、清華大學等單位,圍繞實現超算中心“從提供機時服務轉向提供應用平臺服務”這一目標,從構建高速互聯的核心資源網、面向重點領域的應用平臺、應用平臺服務體系等三大方
53、面進行了系統性研究,提出“超算中心間網絡高速安全互連、跨中心資源管理與任務調度、應用平臺基礎框架構建與管理、應用軟件的移植與優化、應用共性基礎軟件資源庫集成、業務流程管理和應用平臺構建”等一系列關鍵技術問題,同時對以應用商店為代表的應用服務模式、機制、評價指標以及多方共贏商業模式等問題也進行了初步研究。2)超算互聯網高速互聯方面 國家超算濟南中心在 2022 年的山東算網一期建設中,掌握了長距離無損無限帶寬(IB)通信技術,在國內首次實現濟南-青島跨地域 500km 超算間長距 IB 網絡的高速互聯,將網絡延遲從雙向 10 毫秒以上降至約 5 毫秒,并在海洋、新材料領域進行了應用示范。江蘇未來
54、網絡集團有限公司基于未來網絡試驗設施 CENI,在無錫、青島、廣州和北京之間建成 100G 確定性超算互聯網,并通過整合中國網絡操作系統 CNOS,提供“分鐘級”和“按需定制”的網絡切片服務,滿足四地超算中心在不同業務場景下的互聯需求。中信網絡有限公司正在建設的 DCI(Data Center Interconnection)算力網絡已經覆蓋 20超算互聯網白皮書 28 多個省 100 多個數據中心,可以在 1 分鐘內交付數據中心之間的彈性連接。3)大規模數據遠程高效傳輸方面 中國移動和國家超算無錫中心聯合開展了按實際使用量付費的“數據快遞服務”試驗,通過彈性云專線+云專網,幫助用戶就近接入網
55、絡,并在短時間內租用網絡大帶寬完成數據傳送。試驗實現了在3 個小時內完成 4TB 數據搬遷的目標,滿足用戶低成本、高效率的大規模數據傳輸需求。為支撐高校用戶更便利地使用遠程超算中心資源,中國教育和科研計算機網 CERNET 已開通無錫超算中心 100Gbps 接入CERNET2,并在純 IPv6 網絡上采用兩次翻譯技術(IVI)實現清華大學與無錫超算 IPv4-IPv6-IPv4、IPv6-IPv6 的鏈接,為超算中心和用戶搭建高速專用數據傳輸通道。中信網絡在 2023 年 11 月開展了北京-廣州 100G 鏈路的廣域 RDMA 數據傳輸測試,結果表明長途鏈路上容損 LT-RDMA 設備數據
56、傳輸速率達到 85Gbps,是普通 RDMA 速率29Gbps、多流 TCP 速率 37Gbps 的 2 倍以上。4)全國一體化算力調度方面 中國科學院計算機網絡信息中心持續優化建設具有基礎設施形態、服務化特征的國家高性能計算環境 CNGrid。中科曙光在 2020 年正式上線全國一體化算力服務平臺(),實現了對全國十多個算力中心資源的整合與統一任務調度,聚合雙精計算能力超過1000PFlops。中國科學院計算技術研究所、中科南京信息高鐵研究院于 2020 年啟動“信息高鐵綜合試驗基礎設施算力網”項目,建超算互聯網白皮書 29 設了國內首個云-網-邊-端一體化的算力基礎設施試驗場。鵬城實驗室在
57、 2022 年發布“中國算力網(China Computing NET,C2NET)”計劃,利用新一代通信、網絡技術實現國家大型算力高速互聯。中國算力 網 一 期 已 于2022年6月 上 線,以“鵬 城 云 腦”()為樞紐節點,跨域納管了 20 余個異構算力中心,匯聚半精度算力規模超 3000PFlops。5)區域超算互聯網生態建設方面 國家超算濟南中心在濟南-青島間長距離 IB 網絡高速互聯試驗的基礎上,建立了國內首個跨地域的超算互聯試驗網,覆蓋山東省 16個地市,并在 2023 年聯合沿黃流域九省區的 11 所計算中心成立“黃河流域算網聯盟”,搭建黃河工業算力調度樞紐平臺。合肥先進計算中
58、心、上海超算中心、蘇州超算中心、昆山超算中心等于 2020 年聯合組建了長三角先進計算聯盟。國家超算廣州中心自成立來在珠三角地區設立了 15 家分中心,連通了廣州超算到各城市的高速網絡專線,建成超算應用服務網絡,并在 2018 年和 2023 年牽頭成立了“粵港澳超算聯盟”和“粵港澳超算應用互聯網”,旨在構建超級計算創新應用互聯網平臺,為大灣區的科研機構、高校和企業提供計算能力支撐和應用服務。6)超算互聯網相關標準研制方面 因超算互聯網仍處于起步階段,相關標準研制主要以企業級、團體級為主,國家級、行業級標準尚屬空白。中國科學院計算機網絡信息中心在運行 CNGrid 過程中,對資源匯聚接入、用戶
59、統一訪問入口、超算互聯網白皮書 30 異構集群互聯互通、領域應用開發接口等方面進行了若干標準化工作;之江實驗室聯合清華大學、中科曙光等制定 超算互聯網 參考架構標準,并已立項研制資源信息服務接口規范、計算任務接口規范等 3項標準;中國信息通信研究院聯合北京航空航天大學、中國科學院計算機網絡信息中心、國家超級計算濟南中心等 21 家單位聯合發布了高性能計算云總體架構與技術要求;中國移動云聯合昆山超算中心構建超算并網平臺一期試點,正在探索算力并網接口規范與標準等等。超算互聯網白皮書 31 四、四、技術架構 超算互聯網仍處于起步階段,其技術路徑需要不斷探索與持續優化。本白皮書提出超算互聯網的總體架構
60、,并梳理其中的關鍵技術問題,為從業者提供參考與指導。(一)總體參考架構 超算互聯網匯聚各算力中心的異構算力資源,對資源進行池化管理與統一調度,并協同軟件、模型、數據等各類服務商,為各行業領域用戶提供應用服務與解決方案,形成上下游協作共贏的超算商業生態。超算互聯網采用層次化的設計原則,按資源層、平臺層、服務層和應用層進行構建,同時應遵循統一的運營、安全與標準規范。超算互聯網總體參考架構如下圖所示:圖 11 超算互聯網總體參考架構 超算互聯網白皮書 32 1.資源層 資源層通過互聯網絡連接分布各地的算力中心,實現計算、存儲、網絡等資源的匯聚與共享。資源層為超算互聯網提供算力資源底座支撐,匯聚不同運
61、營主體、不同類型算力中心的異構資源,并通過對計算、存儲、網絡等資源進行池化,以實現統一管理與調度。1)基礎資源 基礎資源主要包括算力中心提供的計算、存儲、網絡等資源,呈現芯片多樣、體系異構、存儲多元、高速互連、綠色低碳等特征,直接或間接影響算力調度系統的設計。芯片多樣 隨著應用需求和芯片技術的發展,計算芯片呈現多樣化發展趨勢。算力中心的主要計算芯片包括通用處理器(CPU)和 AI 處理器,提供FP64、FP32、TF32、FP16、BF16、INT8、INT4 等不同精度的計算能力。其中,通用處理器有 x86 體系結構,如美國的 Intel、AMD,中國的海光、兆芯,也有 ARM 體系結構,如
62、飛騰、華為鯤鵬,還有其他體系結構,如龍芯、申威等。AI 處理器有 GPU、ASIC、FPGA、NPU 等多種實現方式。目前 Nvidia 的 GPU 占據最大市場份額,國產芯片發展快速,如寒武紀、海光 DCU、華為昇騰、百度昆侖芯、阿里平頭哥、沐曦、天數智芯、燧原、摩爾線程、壁仞等等。體系異構 異構計算已成為算力中心的主流架構。根據 TOP500 全球超級計算機排行榜,2011 年 6 月首次公布的異構系統數量僅有 19 臺,到超算互聯網白皮書 33 2023 年 11 月已增至 186 臺。在前十位的系統中,除了日本“富岳”外,其他 9 臺都采用了加速器技術。美國的 Frontier、Aur
63、ora,我國的天河、曙光等超算系統均采用CPU+GPU/加速器的節點內異構架構,神威系列超算則采用片內異構眾核處理器架構。對于人工智能計算中心,異構系統更加普遍,除了廣泛采用的CPU+GPU 結構,如 CPU+Nvidia GPU、CPU+海光 DCU 等,還有 CPU+深度學習處理器/加速器的結構,如 CPU+Google TPU、CPU+寒武紀、CPU+華為昇騰等。眾多計算芯片的出現以及異構計算的流行,大幅提升算力中心的計算能力,但同時也增加了并行編程的復雜性,提高了算力調度的難度。高效存儲 應用的多樣性也催生了多種類型的高效存儲系統,如傳統高性能計算環境常用并行文件系統,而云計算、大數據
64、場景通常使用大容量塊存儲、對象存儲等。算力中心的存儲系統呈現高性能、分層管理、大規模擴展、管理智能化等特征,如:NVMe 等高性能存儲技術提供更高讀寫速度和更低延遲,更好滿足數據 IO 訪問密集型應用;通過分層存儲,滿足冷、溫、熱數據的不同存儲需求,兼顧效率與經濟性;分布式存儲架構結合 IB、RoCE 等高速網絡技術,滿足大規模擴展存儲需求;存儲系統具備智能化管理功能,更好滿足數據遷移、存儲布局優化、預測故障、數據保護等需要。同時,在超算互聯網、多云互聯的環境下,數據經常要在不同算超算互聯網白皮書 34 力中心間遷移和傳輸,因此需要構建覆蓋多中心的全局數據資源視圖,實現數據全局可視、跨域數據訪
65、問與調度、跨中心數據管理等必要功能,常用技術路線包括全局跨域文件系統、全局元數據管理、通過集中共享存儲同時向多中心提供存儲服務等。高速互連 以 CPU+GPU 為代表的異構計算帶來計算性能的快速提升,同時也對互連網絡提出更高要求。在算力中心建設過程中,內部互連網絡的設計是關鍵因素,不僅需要關注計算節點間的互連,還要考慮 CPU 間、GPU 間、CPU 與 GPU 間的互連等。在節點間互連方面,IB、RoCE 等 RDMA網絡已將帶寬提高到 200Gb/s、400Gb/s,并正在向 800Gb/s 及更高速率演進。在節點內部的芯片間互連方面,CPU 間互連主要通過 QPI、GMI 等技術,CPU
66、 與 GPU 間的連接通常采用 PCIe 技術,GPU 間的互連則以 Nvidia 率先推出的 NVLink 為代表。同時近年來 Intel 推出 CXL規范,試圖統一異構部件間的互連協議。未來,各層級互連網絡的性能將不斷提升,同時新的技術也會出現,比如通過在交換機上執行 reduce 計算的在網計算(in-network computing)技術正得到越來越多的關注。另外,節點間的互連網絡(如IB)和 GPU 間的互連網絡(如 NVLink)已有融合趨勢,為算力中心帶來更高性能的互連解決方案。在算力中心之間,互連網絡技術也從早期的幀中繼、ATM 逐步演進到以全光高速互聯、波分復用、SRv6、
67、SDN 和確定性網絡等新技術為代表的新發展方向,其趨勢主要體現在更高的數據傳輸速度、更低超算互聯網白皮書 35 的信號傳輸延遲、更大的數據傳輸容量以及更高的可靠性水平。綠色低碳 能耗已經成為制約超級計算機發展的重要瓶頸。根據 2023 年 11月 TOP500 排行榜,共有 188 臺系統披露功耗數據,累計達 388.9 兆瓦,平均每套系統超過 2 兆瓦,排名前兩位的 Frontier、Aurora 功耗均超過 20 兆瓦。2022 年全國數據中心耗電量達到 2700 億千瓦時,占全社會用電量約 3%,預計到 2030 年,將接近 4000 億千瓦時。巨大的能耗不僅給算力中心運營帶來高昂的成本
68、開銷,而且對計算機的可靠性和可用性也會造成直接和潛在的不良影響。目前,業內在研制超級計算機、建設算力中心過程中,已大量使用新的綠色節能技術,以提高能源使用效率,包括處理器動態功耗調節、液冷散熱、微模塊、余熱回收、智能功耗控制、綠電“源網荷儲”等等。同時,“東數西算”工程也在推進算力中心向中西部綠色能源豐富地區布局。因此,在超算互聯網實現跨域算力調度過程中,如何更高效調度和優先使用綠色算力,也是需要考慮的問題。2)資源池化 資源池化是通過隊列、容器、虛擬化等技術,將 CPU、內存、磁盤、網絡等各類硬件資源變成可動態管理的“資源池”,以簡化資源的管理,實現資源的高效利用。資源池化后,可按需調用、彈
69、性擴展,自動匹配滿足業務高峰和低谷時的資源需求。其中,隊列是作業調度系統組織作業的通道,可將計算資源按一定規則進行分類,調度系統按隊列對資源進行統一調度和管理。虛擬化是從邏輯上實現資源實例,超算互聯網白皮書 36 用戶無需關注底層物理資源的分配過程。計算資源通過隊列、虛擬機、容器等技術實現池化,存儲資源通過 NAS、SAN 等技術將多個存儲設備聚合成資源池,網絡資源通過 SDN(軟件定義網絡)實現池化。資源池化應滿足以下要求:可隔離 可按租戶對其使用的資源進行隔離,保障資源訪問的獨立性,且可按用戶需求實現不同級別的隔離。計算資源可按隊列、虛擬機、容器、裸金屬等不同顆粒度隔離,存儲資源可按目錄、
70、分區、介質、存儲系統等不同顆粒度隔離,網絡資源可按 VPC 等方式進行隔離??捎嬃?可對用戶使用的計算、存儲、網絡、軟件、數據等資源進行計量,且可追溯。計算資源可按核時、卡時、實例數、節點數等單位計量,存儲資源可按存儲配額、實際實用量等方式計量,網絡資源可按帶寬配額、實際實用量等方式計量,軟件可按功能模塊、訂閱時長等方式計量,數據可按條目數、訂閱時長等方式計量??烧{度 可按不同級別實現資源調度,通過 Slurm、LSF、PBS 等作業調度系統實現 CPU 核心級、GPU 卡級的資源調度,通過 Kubernetes 等資源編排管理系統實現容器級的資源調度,通過 Openstack 等云管理系統實
71、現虛擬機級別的資源調度。3)互聯網絡 中心互聯網絡是指使用高速網絡連接多個算力中心,實現中心資超算互聯網白皮書 37 源的互通與共享??缬驍祿鬏?、算力調度、應用遷移等場景都要依靠高速網絡。中心互聯網絡建設應滿足以下要求:高帶寬 在超算互聯網場景下,如石油勘探、天文物理、生物醫藥、大模型訓練等領域,許多超算或智算應用需要處理 TB 級甚至 PB 級的海量數據,同時在多算力中心之間進行算力調度時,需要進行大規模的跨域數據傳輸和應用遷移,因此對中心之間以及中心與用戶之間的網絡帶寬要求極高。尤其是在碰到瞬時突發流量的情況下,這一需求更加凸顯。低時延 隨著超算互聯網的發展,將出現越來越多的低時延應用場
72、景。例如,在算力跨域調度中,需要在不同算力中心之間進行協同計算;在工業領域的動態仿真設計中,用戶與算力中心之間進行實時互動;在VR/AR、大模型訓推一體等應用中,云邊端之間進行實時數據交互。這些實時計算交互類業務對網絡的時延抖動、數據包丟失率要求較高。高安全 超算互聯網連接大量的用戶與海量的資源,也帶來了更多安全風險。因此需要圍繞超算互聯網的網絡、應用、數據、傳輸、計算環境、平臺系統、運營管理等方面,建立立體的安全體系,保障超算互聯網環境安全。應當立足主動防御思維,通過冗余網絡線路、安全事件發現、分析研判、通告預警、響應處置、追蹤溯源、復盤整改等舉措,將技術、管理、流程進行有機整合,提高超算互
73、聯網內生安全能力。超算互聯網白皮書 38 2.平臺層 平臺層是超算互聯網的大腦中樞,提供核心支撐功能。平臺層承上啟下,銜接資源、服務與應用,向下可屏蔽底層資源差異,實現算力高效接入,并進行資源的跨區域、跨主體、跨架構統一管理和調度;向上可提供作業管理、模型/數據/工具集管理、用戶管理、交易管理和商城管理等系列支撐功能。平臺層建議使用模塊化、微服務的設計架構,以確保其可擴展性、可靠性和安全性。平臺層實現的主要功能包括:1)算力接入 算力接入是通過提供統一的標準接口實現各中心資源匯聚,應滿足如下要求:實現跨域異構的計算、存儲、網絡等資源接入;提供多種資源接入方式,包括獨占式、代理式、API式接入等
74、;對異構資源進行抽象,屏蔽資源的個性化差異。2)資源管理 資源管理是實現對各中心接入資源的感知、監控、注冊、度量等,應滿足如下要求:實現資源的感知,多維度采集資源運行狀態信息,包括資源的規模、負載、利用率、可用性等,并進行全面的資源監控與健康度分析;實現資源的注冊,進行資源的登記、變更、注銷等操作,形成動態、一致的資源列表;超算互聯網白皮書 39 實現資源的度量,對計算、存儲、網絡等資源進行統一的抽象描述和建模,形成度量模型。3)算力調度 算力調度是針對用戶的計算需求,結合各算力中心的資源特征與狀態,將計算任務分配到合適的資源池運行,應滿足如下要求:識別和分析用戶的計算任務需求特征;通過高效的
75、調度策略,實現資源的快速定位與自動匹配;對作業執行過程進行管理和監控,包括作業狀態查看、作業日志記錄以及作業的掛起、重啟、刪除、搶占等操作;實現跨域資源的調度,建立跨算力中心的任務協同機制,針對跨域工作流進行統一定義;針對同一任務的不同階段,或同一階段的多個不同任務進行跨域資源分配,并監督各中心任務執行過程,確保任務完成后及時返回結果;對不同類型的算力任務實現統一融合調度,并提供統一接口。4)用戶管理 用戶管理是對用戶、運營者、運維者、第三方商戶、開發者等不同角色的管理,形成綜合完善的用戶管理體系,應滿足如下要求:對用戶進行分級分類管理、管理權限;實現面向個人用戶、組用戶、企業用戶等的不同規模
76、/類型的用戶管理機制;實現多個算力中心的用戶賬號統一認證,用戶一次登錄后可超算互聯網白皮書 40 使用多個中心的資源;支持用戶擴展,實現用戶標簽、行為分析等管理機制,更好地為用戶服務。5)交易管理 交易管理是對應用商城中多種類型資源的交易、支付、結算等過程進行管理,應滿足如下要求:構建計費模型,從計量單位、資源包形式、付費周期、優惠活動等多個維度進行定義;提供靈活的計費策略,對機時類、容量類、應用類、服務類等資源進行分類和聚合,提供固定價格、階梯價格等計費方式;提供線上線下等多種資源購買方式,支持用戶在線支付;支持平臺與多中心之間、平臺與商戶之間、平臺與個體開發者之間等的結算機制;建立交易結算
77、體系,實現跨地域、跨運營主體的結算通道。6)模型算法管理 模型算法管理是指平臺層應建立相應的工具集、模型庫、算法庫、數據集以及鏡像倉庫等,支撐上層應用服務。模型算法及工具集建設應滿足如下要求:支持模型開發,提供相關的開發與測試環境,實現模型的快速開發、測試、上線與部署;支持應用鏡像管理,兼容主流鏡像庫標準格式,便于用戶快速構建和發布鏡像;超算互聯網白皮書 41 支持算法、模型、數據等內容的管理,包括收集、封裝、上傳、上架、備份等;建立開放的數據集共享環境,支持用戶創建、上傳和分享。7)商城管理 商城管理包括應用的封裝與發布、商戶的入駐與管理等,應滿足如下要求:構建應用倉庫,支持商戶或開發者上傳
78、封裝好的應用,支持應用在多中心之間共享和同步,支持應用的存儲與自動分發;支持應用封裝與發布,兼容多種封裝格式,形成豐富的應用模版,滿足不同商戶快速發布需求;支持商戶的入駐與管理,提供快速入駐與認證機制,提供店鋪裝修、用戶引流、品牌宣傳、用戶和交易分析等運營輔助支持。3.服務層 服務層依托平臺層的核心能力,整合算力中心、軟件提供商、運營商、終端用戶及各類服務商的能力,對用戶提供多樣化服務,包括算力服務、應用服務、模型服務、數據服務、社區服務等。1)算力服務 算力服務是將基礎資源封裝成服務提供給用戶使用,包括機時服務、存儲服務、容器服務、裸金屬服務等。算力服務應滿足如下要求:適用于科學計算、工程計
79、算、人工智能等場景,能根據應用需求特征進行分配和調度相應的算力資源;超算互聯網白皮書 42 提供處理器、加速器、計算節點等不同形式的計算單元;提供豐富的并行環境、算法庫、編譯器、深度學習框架等計算環境;按統一規范實現異構算力資源的封裝,提供標準化服務輸出;支持跨域資源的使用與調度。2)應用服務 應用服務是針對不同行業領域的應用軟件,進行標準化封裝并發布,方便用戶一鍵安裝、訂閱即享。應用服務應滿足如下要求:按統一規范進行應用的標準化封裝,封裝步驟包括明確環境依賴、定義執行過程、執行測試用例等;支持 Tar、Conda、Docker 等多種應用封裝方式;針對不同的硬件環境,進行應用功能與安全性驗證
80、,確保其安全性和可用性,同時支持自動推薦或匹配算力資源;面向異地多中心實現應用倉庫對應用的統一集中管理;根據應用使用頻度和運營策略,支持應用的預裝、動態安裝等多種策略;支持按需定向發布或公開發布,供用戶訂閱使用;提供應用分類、快速檢索等功能。3)模型服務 模型服務包括模型訓練、模型推理、模型調優、模型發布等,應滿足如下要求:支持主流深度學習框架與常用的模型庫,方便用戶訂閱使用;超算互聯網白皮書 43 支持按統一規范進行模型封裝,包含定義模型命名、構建模型文件、測試模型實例等步驟;支持用戶對其現有模型進行快速調優,或定制開發新的模型,并對外發布模型服務,供第三方調用;模型部署發布時,平臺提供容器
81、運行環境、外部訪問地址和相應的安全策略;模型使用時可自動推薦或匹配算力資源。4)數據服務 數據服務提供數據管理、數據交易、數據共享等服務,以提高數據資源利用率,挖掘數據價值。數據服務應滿足如下要求:支持不同行業領域的數據存儲管理,滿足文本、圖片、語音、視頻等不同數據格式的存儲要求;提供數據封裝的標準規范,如統一的命名、大小、格式等,支持按規范對數據進行比較、清洗、轉換和加工,方便相關軟件和模型高效調用數據;支持按需定向發布或公開發布,供用戶購買使用;提供數據安全與隱私保護機制,涉及數據的存儲、交換、訪問等環節,防止數據泄漏、丟失和被篡改,確保數據的安全性、可用性和完整性。5)社區服務 社區服務
82、包括需求發布、項目協作、業務交流、培訓、課程、專業賽事等服務,應滿足如下要求:超算互聯網白皮書 44 支持用戶在社區發布各類任務需求,如仿真設計、圖像渲染、模型調優、技術培訓等任務;支持用戶在線交流,探討行業趨勢、技術經驗、學術前沿等各類話題;支持用戶在線分享案例,發布專業文章,提升行業影響力;提供培訓課程、實訓環境、競賽、開發測試環境等相應支持;與行業其他主流社區緊密互動,如用戶引流、用戶互認證、內容共享、賽事合作等。4.應用層 應用層既是超算互聯網服務的目標對象,也是超算技術與其他行業領域交叉融合發展的產物。應用領域的持續拓展,用戶群體的不斷擴大,正是超算互聯網建設的核心要義。超算互聯網應
83、當面向各行業領域用戶,支撐豐富的應用場景,例如:在人工智能方面在人工智能方面,支持基礎大模型/行業大模型訓練與推理、圖像識別、語音識別、自然語言處理(NLP)、計算機視覺(CV)、生成式人工智能(AIGC),以及人工智能驅動的科學研究(AI For Science),尤其是 AI 方法在藥物研發、基因研究、生物育種、新材料研發等領域的應用。在科學計算方面在科學計算方面,支持大氣科學之全球氣候海洋模式、空氣質量預報,生命科學之藥物設計,基礎科學之高能物理,計算化學之第一原理計算,計算材料學之材料結構預測,計算宇宙學之 N 體計算模擬,計算生物學之蛋白質結構預測、腦模擬等。超算互聯網白皮書 45
84、在工業仿真方面在工業仿真方面,支持從電子元器件到高端裝備的設計、仿真、制造,涉及計算機輔助設計(CAD)、計算機輔助工程(CAE)(包括計算流體力學、空氣動力學、結構分析、熱分析、電磁分析等)、計算機輔助制造(CAM)等。在數據密集型計算方面在數據密集型計算方面,支持智慧城市之視頻數據處理,生命信息領域之基因數據處理、高通量虛擬藥物篩選,網絡信息安全領域之網絡靶場、大數據隱私保護和入侵檢測,石油勘領域之海量地震數據處理,氣象領域之數值天氣預報,遙感領域之衛星遙感數據處理等等。本白皮書在第六章進一步分析闡述了超算互聯網的創新使用模式與支持的若干應用場景。同時,鑒于目前我國自主高性能計算應用軟件生
85、態偏弱,需要重點圍繞國產自主硬件,加強對軟件和應用的重視與投入,持續研發和完善包括操作系統、編程語言、編譯器、調試及性能分析工具、基礎算法庫、求解器、各種領域應用軟件在內的全棧軟件生態,并通過超算互聯網等平臺不斷優化國產軟件的用戶體驗,吸引更多用戶使用,進而形成自主軟硬件產業的良性循環。(二)關鍵技術問題 本白皮書在借鑒業內相關研究成果的基礎上,梳理出以下若干超算互聯網關鍵技術問題,供從業者參考。1.資源的統一度量與動態感知 超算互聯網環境具有資源分散、多源異構、場景多樣等特點。資源類型非常豐富,包括共享資源、獨占資源、裸金屬、存儲、網絡、應用、模型、代碼、數據等。且不同資源的計量方式有差異,
86、如計算超算互聯網白皮書 46 按核時或卡時計,網絡按帶寬/流量計,應用、模型等也有不同的計量方式。這對資源服務的高效性、計算的準確性帶來了巨大挑戰。需要從計算、網絡、存儲、軟件和數據等多維度構建評估模型,對多樣化算力資源信息進行抽象整合與規范描述,關聯映射不同來源的異構計算資源,形成一套通用的資源度量與評估體系,實現多方算力資源合理評估、分配和高效調用。在資源跨域異構調度場景下,需要構建動態更新的資源感知系統,實時獲取各中心各類資源的狀態,并根據其狀態匹配或調整調度策略。建立動態資源感知系統,根據計算性能、存儲容量、能效、成本、網絡時延、傳輸帶寬和應用特點進行統一度量與評估,實現算力需求和算力
87、資源的統一匹配和高效調度。2.跨域異構算力的透明調度 面向跨域異構多中心的算力調度,是超算互聯網所面臨的重要挑戰。用戶通過超算互聯網平臺提交計算任務后,無需關心該任務在哪個算力中心上運行。這一過程的實現其實非常復雜,需要考慮多種因素,解決動態資源感知、資源匹配、數據和環境準備、調度機制等一系列問題。其中,動態資源感知是實現跨域異構算力調度的基礎;資源匹配需要同時考慮需求側和供給側的因素,包括開發環境、應用需求特征、資源數量、可用性、忙閑狀態、資源定價等;數據和環境準備包括系統環境、用戶環境、應用環境、輸入數據等;調度機制是指建立全局跨中心調度機制,需要考慮資源、用戶、權限、優先級、權重等諸多因
88、素。超算互聯網白皮書 47 高效是跨域異構算力調度的關鍵,需要讓用戶對跨域調度無感,獲得與本地計算一致的良好體驗。另外還需要協同“東數西算”等工程,探索建立跨區域算力資源調度、網絡傳輸、算電融合、運營服務、交易結算、收益分配等協同機制,制定推廣算力調度、算力結算等相關標準規范。3.應用的快速開發與高效匹配 異構體系結構顯著增加了編程的復雜性。業界廠商紛紛推出支持異構編程的語言和接口,如 Nvidia 的 CUDA、海光的 DTK、申威的Athread、AMD 的 ROCm/HIP 等,并在此基礎上開發了各種基礎算法庫、求解器、深度學習框架等。近年來也出現一些第三方的編程接口,如OpenCL、O
89、penAcc、SYCL 等,但這些接口目前在不同硬件平臺上的實現仍然有差異。超算互聯網環境下,異構編程難、移植工作量大等問題變得更加突出。面對各超算中心、智算中心中的不同芯片、不同體系結構、不同廠商的異構硬件系統,如何做到應用“一次編譯,到處運行”,成為超算互聯網面臨的重要挑戰。為應對這一挑戰,需要從統一編程語言、自動編譯工具、遷移工具、作業調度、應用封裝等多方面著手解決,包括:研制獨立于硬件平臺且可屏蔽硬件細節的編程模型/語言,使程序從源頭上適應支撐多種架構;建立統一的數學庫,解決目前各超算中心的數學庫、函數庫存在接口、版本、性能不統一的問題;研究開發異構程序轉換遷移工具,實現并行程序在不同
90、硬件平臺間的透明轉換和自動編譯,減少超算互聯網白皮書 48 用戶移植難度和工作量;研究并行程序在多樣化算力中心的透明調度和運行機制;研究多種應用封裝技術,解決應用開發環境與運行環境不一致的問題,實現應用的快速分發部署與資源匹配。4.高速互聯的新型網絡技術 超算互聯網在各地算力中心之間實現高速互聯,形成一個可以共享和統一調度的基礎設施資源池,需要建設高速率、低時延、穩定的網絡支撐環境,讓用戶能夠隨時、隨地、隨需地通過無所不在的網絡接入無處不在的算力。針對實時計算交互類業務和海量數據傳輸類業務,網絡支撐環境需要在先進性、可靠性、高通量和低成本之間取得平衡,以滿足不斷變化的業務需求。因此,網絡支撐環
91、境應當滿足未來一段時間內的發展需求,并具備持續演進的潛力,持續研究和部署應用新型網絡技術,例如:通過全光高速互聯技術,滿足算力節點 100GE、400GE、800GE 的超寬端口連接需求;采用波分復用系統,支持廣域范圍的長距離大規模數據傳輸;基于最新的 SDN 協議與網絡操作系統技術,助力網絡智能化,為網絡管理和控制提供高度的靈活性和效率;研究 SRv6/G-SRv6 協議技術,提供覆蓋省網、骨干和數據中心的端到端按需調度能力;研究確定性網絡技術,為高實時性業務提供穩定的時延、確定的帶寬、高可靠性、精確的時頻同步和安全隔離性保障,將網絡的性能從“盡力而為”提升到“確保所需”9;利用 IPv6
92、海量地址、確定路由、質量保障、內生安全等優勢,支持構建高速、高效、高安全的算力互聯等。9 劉韻潔,范赫男.確定性網絡:從“盡力而為”到“確保所需”.網絡安全與數據治理,2023.2 超算互聯網白皮書 49 同時,需要考慮經濟性,網絡綜合運營成本不應超過當前行業水平,確保超算互聯網用戶能夠以經濟實惠的方式獲得所需的網絡服務。5.大規模數據的遠距離高效傳輸 在科學計算、工程計算、人工智能、大數據等應用場景中,需要處理的數據量越來越大。在超算互聯網環境中,無論是當用戶向算力中心上傳數據,還是在各算力中心之間進行跨域的計算任務調度,如何提高數據傳輸效率,減少數據傳輸時間,降低數據移動成本,成為一項重要
93、挑戰。以往的常用方法是通過人工或快遞直接運送存放好數據的硬盤或盤陣。但隨著各行業領域產生的數據量越來越大,而且當超算中心互聯后,數據在多個算力中心間流轉會更加頻繁,傳統的數據搬運方式無法應對。因此,需要升級現有網絡基礎設施。根據國家“東數西算”工程相關規劃,到 2025 年底,1ms 時延城市算力網、5ms 時延區域算力網、20ms 時延跨國家樞紐節點算力網將在示范區域內初步實現,國家樞紐節點間網絡傳輸費用大幅降低10。另外,也需要持續研究遠程數據高效傳輸技術,例如:FTPS、SCP 等數據傳輸協議優化、廣域容損 RDMA數據傳輸技術、數據壓縮算法、多路徑傳輸、數據緩存、數據傳輸感知與網絡性能
94、監測等。6.超算互聯網環境的立體安全防護 與超算中心單體運營模式不同,超算互聯網環境將面臨一系列新的安全挑戰:攻擊者可能會利用大規模攻擊和高速攻擊的方式快速滲 10 國家發展改革委等部門印發的關于深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見 超算互聯網白皮書 50 透和破壞網絡安全,從而可能會影響到大量的設備和系統;使用者來自不同地區、不同組織,涉及多個層面的身份認證和訪問控制問題;通常要處理敏感的科學計算和數據,一旦發生數據泄露,可能造成更嚴重的后果,包括知識產權的喪失和機密信息的泄露等;算力中心的異構性也增加了網絡安全的復雜性和挑戰,如各種不同類型的計算機和操作系統可能存在
95、漏洞和安全隱患等等。為應對這些挑戰,需要采取一系列的網絡安全措施,包括加密通信、訪問控制、入侵檢測和防御系統、漏洞修補和安全培訓等。同時也需要加強用戶的安全意識和教育,提高網絡安全的整體水平。(三)標準規范體系 算力中心目前面臨算力設施分布不均衡、接口不統一、兼容與互操作標準缺失等問題,需積極制定國家、行業層級標準,以保證超算互聯網的開放性和普適性,滿足不同角色的接入需求,促進互聯互通的生態建設。在超算互聯網標準體系的頂層規劃下,體系化、規范化推進超算互聯網建設,對支撐超算中心互聯互通、行業應用、服務模式及評價等工作,包括但不限于超算互聯網參考架構、超算互聯網平臺技術要求、超算互聯網平臺接入規
96、范、超算互聯網應用服務平臺技術規范、超算互聯網服務評價指標、超算互聯網資源管理技術規范、超算互聯網資源調度技術規范等方面的內容。需要在術語、參考架構、技術要求、接入規范、接口規范、資源管理調度、服務評價和安全保障等方面開展超算互聯網標準體系建設,超算互聯網白皮書 51 從頂層規劃超算互聯網及平臺的設計、開發、部署以及應用。圖 12 超算互聯網標準體系 術語:規范超算互聯網術語可以確保信息傳遞的準確性和一致性,避免歧義,是超算互聯網標準體系的基礎通用標準。參考架構:規范超算互聯網功能、角色和活動等,為超算互聯網的設計開發、服務管理和實施應用提供參考。技術要求:規范超算互聯網平臺總體技術要求、功能
97、分層、業務服務、調度流程等,為超算互聯網平臺研發及維護提供參考。接入規范:規范超算互聯網各算力中心接入超算互聯網平臺的標準及流程。接口規范:規范超算互聯網不同組件、子系統或設備之間的交互方式,促進系統集成,提高互操作性,降低開發和運維成本。超算互聯網白皮書 52 資源管理調度:在資源管理和調度層面建立規范,統一資源調度的基本單位、格式、輸入,并能實現網上用戶和本地用戶的統一管理。服務評價:規范超算互聯網相關平臺的服務及其評價指標,促進算力一體化運營,指導相關服務平臺的架構和機制設計。安全保障:規范超算互聯網需要遵循的安全保障標準,如防火墻、加密等,以保護計算資源和數據的安全性。超算互聯網白皮書
98、 53 五、五、運營管理 超算互聯網參與方眾多,涉及產業鏈各個環節,涵蓋算力中心、運營商、軟件商、用戶等多種角色。其中,算力中心是超算互聯網的主要資源提供方,包括國家超算中心、區域算力中心、行業算力中心及其他算力中心;運營商是超算互聯網運行服務的中樞,主要承擔應用服務平臺的建設與運行維護,提供資源接入、調度、交易與交付等服務;服務商由入駐平臺的各類商家構成,包括軟件服務商、技術服務商、培訓服務商等;用戶是超算互聯網上各類資源與服務的使用方,包括企事業用戶和個人用戶。超算互聯網聯合體是由產業上下游機構聯合組成的共同體,屬于行業聯盟性質的組織,旨在促進行業協作與發展。超算互聯網主要參與方及其關系如
99、下圖:圖 13 超算互聯網主要參與方及其關系 超算互聯網白皮書 54(一)運行機制 超算互聯網將推動超算基礎設施從以往“孤島”式的單體運營方式向多方合作的網絡化運營方式轉變,從橫向、縱向維度拉通產業鏈各個環節,需要靈活高效的運行機制做保障。本白皮書認為,超算互聯網應重點圍繞平臺運營、成果轉化、應用服務、生態合作等多方面積極探索新模式,構建新機制,以促進各方緊密協作,實現長期可持續發展。1.探索應用驅動多方共贏商業模式 采用一系列市場化機制,持續提升超算基礎設施用戶服務水平與行業競爭力,擴大超算用戶群體,形成多方共贏的新型商業模式。以用戶為中心,以解決用戶實際問題為出發點,促進超算中心從提供機時
100、服務為主向提供應用服務與解決方案為主轉變;以應用為牽引,在超算中心、應用軟件開發者和超算用戶之間形成共贏的新型商業模式;促進超算領域相關科研成果轉化,著重提高軟件成果的工程化、產品化、標準化水平;加強用戶需求調研與問題反饋改進,不斷提升產品服務的可用性與易用性,提高用戶體驗與滿意度;拓展超算應用范圍,從以提供科學計算為主的應用,向數字經濟各行業領域的計算應用拓展,促進超算在產業升級、民生服務、社會治理等領域的廣泛應用;采用互聯網運營推廣模式,通過在線直播、電商引流、場景超算互聯網白皮書 55 APP、社交媒體、“線上到線下”、數據營銷、精準推薦等多種渠道、多種方式推廣超算應用服務,全面觸達目標
101、用戶群體。2.探索超算電商平臺應用服務機制 通過構建線上應用服務平臺、應用商城、開發者社區等,服務相關各方,打造多方交流、交易與協作的平臺。在應用服務平臺上提供算力、算法、數據、工具、模型等解決方案式服務,完善 XaaS 產品體系,降低超算使用門檻,縮短服務交付時間,提升可用性與易用性;為服務商提供電商服務,解決服務商在資源上線、交易、交付、客戶服務、售后過程中面臨的系列問題,幫助服務商輕松入駐應用商城;構建開發者開源社區,提供眾包、眾籌、線上競賽、線上直播、線上培訓等各類服務,促進技術交流、分享與協作。3.探索多維度多層面生態協作機制 在超算領域上下游、產學研用之間以及多算力中心、不同超算架
102、構之間形成去中心化、平等協作的網狀合作機制。推動超算領域上下游企業之間協作,重點圍繞國產芯片構建軟件應用生態,促進軟硬件之間的協同設計、適配與優化;面向關鍵行業或重點領域構建領域應用服務平臺,促進算力、數據、算法、模型、應用融合創新,面向用戶業務場景形成解決方案;推動產學研協作,圍繞國家重大戰略需求和市場應用需求開超算互聯網白皮書 56 展聯合技術攻關,促進科研成果轉移轉化;促進產教融合,支持企業、高校聯合培養復合型超算人才;引入眾包、眾籌合作機制,促進超算技術開發與應用創新;支持不同架構算力中心之間或多個運營商之間合作,促進資源共享與技術協作;支持不同超算架構之間協作,協同攻關跨架構互聯互通
103、的共性技術問題,統一接口標準與開發環境,降低底層硬件異構帶來的編程復雜性,促進軟件跨架構高效移植與適配。(二)參考運營架構 運營商是超算互聯網運行服務的中樞,應積極探索互聯網化的運營模式,構建 XaaS 化的產品體系,提供領域化的應用服務,實現數智化的管理支撐,形成標準化的運維體系。本白書提出一種參考運營架構,如圖所示:超算互聯網白皮書 57 圖 14 超算互聯網運營商參考運營架構 1.運營:互聯網化 構建類電商應用服務平臺,以互聯網思維開展平臺構建、產品開發、用戶服務、運營推廣等相關工作,包括但不限于:實現算力、軟件、數據、模型等資源上線、入網,提供云化服務,構建應用商城;面向全業務場景、全
104、媒體渠道開展超算應用推廣與普及活動,持續擴大超算用戶群體;前端需求引領,快速推進平臺、商城的技術迭代與功能升級;基于技術社區、眾包、眾籌等互聯網機制,提高用戶參與感,促進超算產業生態的大規模交流與協作。超算互聯網白皮書 58 2.產品:XaaS 化 推進算力、軟件、數據、模型等要素的在線服務化(XaaS),實現資源在線便捷交易,提供解決方案,相關工作包括但不限于:拓展服務品類,提供 IaaS、PaaS、DaaS、MaaS、SaaS 等系列產品,包括基礎資源服務、應用軟件服務、數據服務、模型服務等;支持超算中心通過統一接口,在平臺上開設算力商店;支持軟件、數據、模型等開發者、服務商入駐應用商城,
105、創建行業應用 APP 等;為超算中心、軟件服務商、技術服務商等提供在線開店、交易、交付、推廣等全流程電商服務。3.服務:領域化 在工業、生物、材料、人工智能等行業應用領域,結合領域專業知識,集成行業共性軟件,形成各類領域應用平臺,面向最終用戶的業務場景提供解決方案和支持服務,相關工作包括但不限于:形成領域共性軟件資源庫,提供領域應用配套的軟件工具、數據、模型等資源,為用戶提供開箱即用的軟件與應用支持服務;配備應用領域技術專家團隊,提供領域應用軟件的開發、適配與優化支持服務,為用戶提供面向業務應用的解決方案;集成現有并行應用軟件與應用服務平臺,形成一批行業領域重大應用示范,解決卡脖子問題;超算互
106、聯網白皮書 59 建立面向領域應用的服務體系和應用服務評價指標。4.支撐:數智化 采用數字化、智能化技術手段,構建運營管理支撐體系,優化業務流程管理、用戶管理、資源管理、結算管理與運營分析決策,保障平臺高效、穩定運行,相關工作包括但不限于:基于用戶在線活動數據,進行用戶畫像,為用戶提供精準的個性化、定制化服務,提高用戶體驗;對全局資源狀態進行實時動態感知與精細化管理,提高資源監控管理、作業調度、應用適配等業務效率;持續優化計費與結算模型,提高用戶按用量計費以及中心之間結算的效率與準確性;圍繞咨詢、試用、簽約、交付、公益贈送等業務場景,進行數字化業務流程設計與評估更新;通過抓取全量運營數據,進行
107、多維度運營分析,根據分析結果進行迭代與決策,提升運營效率與服務質量。5.運維:標準化 圍繞資源接入、資源管理、用戶服務等方面,建立統一規范的運維服務標準,保障平臺高效運轉,為用戶提供高品質服務,相關工作包括但不限于:超算互聯網各資源提供方應遵循統一的運維與服務等級標準,確保資源運維質量的一致性;構建超算互聯網全局資源管理與監控系統,為資源提供方和超算互聯網白皮書 60 使用方提供專業、統一、規范的運維保障服務;按照高度協同的風險管理等級與應急預案,提前做好計劃內維護、升級的通知與告警;通過統一的工單流轉系統和標準的服務流程,及時響應、處理用戶反饋的系統相關問題,提升用戶體驗與滿意度。(三)超算
108、互聯網聯合體 超算互聯網聯合體是在國家相關部委的指導下,本著自愿、互利、共贏的原則,由國家超算、區域超算等算力中心,以及從事超算相關領域的企業、高校和科研機構等單位組建而成,于 2023 年 4 月 17 日在天津成立,首批發起成員單位有 22 家。截止 2024 年 1 月,超算互聯網聯合體成員單位數量已增至 82 家。圖 15 國家超算互聯網聯合體正式成立儀式 超算互聯網聯合體以強化國內高性能計算產業創新發展能力為目標,以推進各級超算中心互聯互通,深化高性能計算應用服務創新為重點,以完善高性能計算服務環境和提升安全保障能力為支撐,助超算互聯網白皮書 61 力打造數據、計算、應用與安全協同發
109、展的產業生態體系。聯合體主要任務包括:協助國家相關部門制定超算互聯網頂層設計和發展規劃;設計超算互聯網運營機制;制定超算互聯網運營服務的技術標準、服務規范;評測和認證超算互聯網運營實體;推廣和宣傳超算互聯網理念、標準和政策,廣泛聯合對超算互聯網的有益資源等。超算互聯網白皮書 62 六、六、應用展望 超算互聯網的應用價值,更多體現在超算使用門檻的大幅降低,應用軟件生態的自主自強,以及對眾多應用場景的泛在支撐。(一)創新的使用模式 超算互聯網將催生一系列新機制、新模式、新業態,幫助用戶降低使用門檻,推動算力中心競合發展,促進產業生態緊密協作。1.更多元的算力服務模式 通常情況下,用戶以直接訪問的方
110、式使用超算中心的算力資源,這需要具備一定的專業技能。超算互聯網為用戶帶來多樣、便捷、場景化的算力使用模式。用戶既可使用直接訪問方式,也能通過應用服務平臺使用 PaaS、SaaS、MaaS 等服務,或通過應用場景 APP 獲取算力服務。新模式下,用戶按需使用,按使用量付費,無需關注其使用的算力類型和地理位置,甚至無需關注使用的應用軟件,從而大幅降低用戶的算力使用門檻。2.更多樣的資源部署模式 當前,中小用戶一般傾向于使用公共算力資源,而大型用戶要考慮業務連續性、供應穩定性、數據安全性等諸多因素,往往采用自建方式。超算互聯網為用戶帶來更多樣的資源部署模式,以滿足不同類型用戶或同一用戶在不同發展階段
111、的需求,包括:同時使用公共算力和私有算力的混合云部署模式,使用多個算力中心資源的多云部署模式,支持中心訓練與邊緣推理一體部署的云邊端協同模式等。用戶可以根據自身業務需求選擇合適的資源部署模式,并可動態調整。超算互聯網白皮書 63 3.更良性的算力中心競合模式 現有模式下,單個算力中心獨立為用戶提供服務,往往受自身算力資源規模、資源類型、資源忙閑狀態、應用與工具軟件豐富度、專業服務能力、地理位置等因素限制,難以很好地滿足不同類型用戶的多樣化、差異化需求。超算互聯網模式下,通過一體化算力服務平臺,允許用戶選擇最合適的算力中心或者同時享受多個算力中心的服務。算力中心之間也將從競爭走向競合,從而彌補自
112、身資源與能力不足,更好滿足用戶差異化需求。同時,也將催生一批具有領域應用特色優勢的專業服務平臺,實現錯位發展,避免同質化競爭。4.更緊密的產業生態協作模式 超算互聯網不僅是數據傳輸網和算力調度網,也是算力產業的生態協作網,其協作范圍涉及軟硬件之間、上下游之間、不同要素之間、算力中心之間和產學研之間。在超算互聯網上,活躍的不僅是算力的提供商和消費者,更有大量的應用軟件商、應用服務商、數據提供商、代算商、技術與信息提供商、居間服務商等多元角色。超算互聯網平臺通過在線一站式配齊算力、軟件、數據、模型、技術服務、技術資料、培訓等各類要素資源,促進供需高效對接,從而形成算力產業的生態大協作平臺。(二)豐
113、富的應用場景 超算互聯網應具備豐富的應用場景支撐能力,促進超算在各行業領域的廣泛應用,尤其是要重點支撐高性能計算與人工智能融合創新。超算互聯網白皮書 64 1.人工智能 1)AI 大模型 人工智能正在從專用智能走向通用生成式智能。大模型通常擁有百億以上參數,具有能力“涌現”特征,如 Stable Diffusion、DALL-E 2 和 Midjourney 根據用戶的文本提示生成高質量的圖像,Sora 視頻生成模型成為“世界模擬器”。但大模型依賴大算力,如 GPT-3 訓練所需計算資源超過 3640 PetaFlop/s-day。超級計算機可在短時間內處理海量數據,提高模型訓練效率,也可以優
114、化算法,提高模型的精度和泛化應用能力。超算互聯網服務平臺不僅能夠為垂直行業大模型訓練提供算力資源,也可以為最終用戶提供大模型即服務(MaaS)。2)AI For Science 機器學習、深度學習等人工智能技術解決高維數學問題的強大能力,催生了一種新的科研范式,即 AI For Science,或稱科學智能。目前人工智能方法在蛋白質結構預測、芯片設計、天氣預報、大規模分子模擬甚至核聚變點火等方面取得了突破性進展。2023 年 3 月,科技部啟動“人工智能驅動的科學研究”專項部署工作,支持發展一批針對典型科研領域的“人工智能驅動的科學研究”專用平臺。面對AI For Science 應用,算力服
115、務平臺需要整合超算與智算資源,支持混合精度運算,并實現計算過程任務流和數據流分解,同時通過統一不同平臺、不同數據庫的接口,實現自動計算工作流,簡化用戶的操作流程。3)自動駕駛 超算互聯網白皮書 65 自動駕駛的實現,需要基于感知融合、虛擬路測、高精地圖、車路協同等關鍵技術,完成數字世界與實體路況的深度融合,這些場景的實現需要大量的數據和計算能力。例如,Tesla 的 L2 級別 FSD 自動駕駛融合感知模型,其訓練數據集含有百萬量級道路采集視頻片段,算力投入約 500PetaFlops/day。自動駕駛等級每增加一級,所需要的算力就會呈現數量級的增長,比如多模態虛擬路測將再帶來若干個數量級的算
116、力需求。4)智慧城市 新型智慧城市需要融合 5G、物聯網、人工智能、區塊鏈等技術,實現對人、車、事件、場景的全面感知、實時匯聚和智能分析,因此對于算力需求日益旺盛。以城市安防場景為例,當前市場主流加速卡支持約 30 路高清視頻解析,一個大型城市的視頻監控達到 30-100 萬路,對應需要約 1-3 萬張加速卡提供算力。隨著城市信息模型(CIM)、數字孿生、AR/VR 等新技術運用,以及民生服務、城市治理、文化旅游相關 AI 場景的拓展,可以預見算力需求將持續增長。5)社會計算 隨著全社會數據總量爆發式增長,海量數據分析帶來的計算需求正在激增。社會認知大腦是通過實時感知社會大眾的網絡空間活動,然
117、后對各類感知數據進行分析建模,為化解風險和行動決策提供有效信息支撐。社會認知大腦需要采集海量的互聯網社交媒體數據,其數據量每天數以億計,且以文本、圖片、音視頻等非結構化數據為主,需要通過 AI 算法模型完成實體抽取、文本分類、情感分析、機器翻超算互聯網白皮書 66 譯、OCR 識別等自動化分析處理,需要大量的計算資源。2.科學計算 1)數值天氣預報 數值預報系統是現代化氣象預報業務的基礎,需要通過復雜的數據處理和計算對天氣狀態進行推演,是典型的計算密集型應用。提升數值預報精度和預報時效一直是氣象行業的發展目標,數值預報模式持續向更高時空分辨率、更快計算效率、更準確預報結果以及多模式耦合、集合預
118、報的方向發展,對計算能力的要求越來越高。業內預測,天氣預報從當前的 10 公里精度,提升到公里、次公里級,數據規模和算力需求都將提升 100-1000 倍。2)計算流體力學 計算流體力學(CFD)通過數值求解各種流體動力學控制方程,達到研究各種流動現象和規律的目的。CFD 在航空航天、汽車、船舶等領域已逐漸成為與理論分析、實驗并列的三大主要方法之一。美國國家航天局(NASA)預測,21 世紀,高效能計算機和 CFD 技術的進一步結合將給各類航空航天飛行器的氣動設計帶來一場革命11。目前,包含非穩態 RANS 紊亂模型的整體飛行器的流固耦合的計算規模已經達到 E 級,而使用大渦模擬 LES(La
119、rge EddySimulation)方法的噪聲模擬需要的計算規模超越 Z級規模,遠遠超過今天最快超級計算機的處理能力12。11 徐傳福,車永剛,李大力,等.天河超級計算機上超大規模高精度計算流體力學并行計算研究進展J.計算機工程與科學,2020,42(10 高性能???:1815-1826.12 龔春葉,包為民,湯國建,等.航天領域高性能并行計算研究進展J.J4,2014,36(09):1629-1636.超算互聯網白皮書 67 3)粒子輸運數值模擬 粒子輸運理論是研究微觀粒子在介質中遷移統計規律的數學理論,在核武器、核電、放射性治療等領域已產生多款粒子輸運數值模擬軟件。據統計,結合復雜物理
120、邊界條件的粒子輸運程序的運行時間占美國能源部高性能計算系統上實際物理模擬運行時間的 50-80%。對于確定性模擬,其計算涉及三維空間、二維角方向、一維時間、一維通量等 7 個維度,全尺度計算中每個時間步需要 1017到 1021個自由度,整個計算超出了 E 級計算規模。對于非確定性模擬,計算精度與抽樣粒子數的平方根成正比,高精度模擬將超出 Z 級計算規模。4)密碼分析 密碼是信息社會的信任基礎。對稱密碼暴力破解的計算復雜度依賴于密碼長度 N,與數字、大小寫字母、特殊符號的排列組合數成正比,約為 96N。對當前的超級計算機而言,12 位密碼已較難破解,而16 位密碼分析更是遠超 E 級計算規模。
121、RSA 是目前最常用的非對稱密碼體系,其安全性依賴于大整數分解的難度。單個 RSA-768(232 位十進制數)分解約消耗 1752 萬核時,1024 位 RSA 整數分解的計算量預計將高千倍以上,而現在常用 RSA 加密是 2048 位,其大整數分解的計算量將超過 Y 級13。5)新藥研發 新藥研發面臨成本高、周期長、失敗風險大等問題。在美國,一 13 李翊誰,穆雨桐,遲利華,等.數域篩法研究綜述.計算機應用,2018,38(S1):104-107 超算互聯網白皮書 68 種新藥的上市往往需花費超過 10 億美元并耗費 1017 年的時間14。使用高性能計算機輔助藥物設計,可以加速藥物研發,
122、降低風險。在超級計算機上,可以快速完成超大規模藥物先導化合物篩選與評估,提高藥物研發效率;應用分子動力學模擬可大規模搜尋藥物潛在靶點,對藥-靶結合體系進行評估,為新藥發現提供重要依據;采用人工智能與高性能計算結合的方法,可加速篩選甚至從頭生成新的苗頭化合物。目前可估算的化合物空間已高達 1060,需要海量的算力支撐才能夠完成相關任務。6)新材料開發 借助強大的計算能力和先進的數據挖掘算法,新材料研發已由“經驗+試錯”模式向計算驅動模式轉變。通過采用不同時間尺度和空間尺度的數值模擬計算,可揭示材料在不同條件下的微觀組織結構和特性,提升新材料的研發效率。例如,目前科研人員已經將合金微結構的相場模擬
123、擴展到了超千萬計算核心。近年來科研人員還將材料模擬與人工智能相結合,實現了具有第一性原理精度且更大原子體系和更長時間尺度的大規模分子動力學模擬,使得模擬速度提升 2-3 個數量級。7)宇宙學模擬 宇宙學模擬是理解星系形成、暗物質、暗能量等重大科學問題的重要手段,其涉及的物理過程多、動力學范圍大、計算方法復雜、計算規模大,一直是反映國際高性能計算發展水平的典型代表。其中最 14 金鐘,陸忠華,李會元等.高性能計算之源起科學計算的應用現狀及發展思考.中國科學院院刊,2019.6 超算互聯網白皮書 69 核心的 N 體問題模擬及其應用先后 9 次獲得“戈登貝爾”獎?;趪a計算系統的天文 N 體計算
124、模擬軟件將實施千億量級及以上規模的高效率宇宙學模擬,為國際大型星系巡天、暗物質、暗能量大型探測計劃,以及我國重大科學工程 500 米口徑球面射電望遠鏡(FAST)和空間站巡天望遠鏡等大科學裝置提供必要的數值模擬支撐15。8)生命科學研究 生命科學研究包括基因測序、蛋白質結構預測、腦模擬等,大部分計算任務屬于數據密集型。以基因測序為例,需要處理 DNA 序列、基因組結構、變異位點等大量數據。隨著測序技術高速發展和國家增加普惠健康領域投入,基因測序人群隊列規模越來越大,且包含全面的健康、環境和社會學相關信息,這些數據具備大數據特征,需要更大規模的計算資源。超級計算機還能進行全基因組關聯分析,發現以
125、前未發現的影響人類復雜表型的遺傳因子,深入理解其遺傳結構,針對復雜疾病提供個性化預防與診療方案。9)類腦模擬 人類大腦大約由 1010個神經元和 1014個突觸組成。為了在計算機中“重現”人類智能,類腦模擬已成為神經科學研究熱點,并逐步從區塊模擬向全腦模擬發展。大腦模擬首先面臨的是復雜度問題,例如日本超級計算機 K 曾模擬過 1.51109個神經元和 1.681012個突觸,但僅達到人腦規模的 10%16。完美模擬一個生物學上的真實大腦需 15 金鐘,陸忠華,李會元等.高性能計算之源起科學計算的應用現狀及發展思考.中國科學院院刊,2019.6 16 馮圣中,李根國,栗學磊等.新興高性能計算行業
126、應用及發展戰略.中國科學院院刊,2019.6 超算互聯網白皮書 70 要近乎無限的參數。全腦模擬需要整合多尺度數據,進行超大規模、分布式、高復雜度仿真模擬,并從中挖掘出執行特定任務的神經環路,這需極大規模計算能力的支撐。10)基礎科學研究 高性能計算在基礎科學研究領域已經成為不可或缺的重要手段。以第一性原理電子結構計算為例,科研人員借助計算軟件,通過數值方法計算材料的電子結構,預測材料的性質及其應用。隨著第一性原理向更精確、更大體系發展,需要實現更長時間尺度的分子動力學模擬,計算結果更加接近真實,相應地對計算能力的要求也越來越高。3.工程計算 1)工業仿真 建模與仿真是智能制造的關鍵技術,在汽
127、車、航空航天、船舶等領域發揮著無可替代的優勢和作用。例如,在汽車的研發設計過程中,需要在超級計算機上進行多領域物理系統的建模仿真,涉及剛度、強度、噪聲、振動與聲振粗糙度(NVH)、機構運動、碰撞模擬、板件沖壓、疲勞和空氣動力學分析等。據業內測算,未來整車仿真規模將從3000 萬網格細化到 3 億網格,計算需求增加約十倍。超算互聯網不僅可以提供所需高性能算力資源,還能通過匯聚各類仿真計算軟件,滿足結構、流體、電磁、氣動等多學科協同仿真設計需求,支持復雜系統工程仿真。2)石油勘探 隨著三維地震勘探等新技術的應用推廣,物探行業正邁入高精度超算互聯網白皮書 71 勘探時代,勘探原始數據量在 10 年內
128、增加了 50 倍,對計算、存儲資源提出更高需求。以目前物探領域的常規偏前處理、Kirchhoff 偏移和炮域波動方程偏移算法為例,每字節數據所需浮點算力達 104次到108次級別。超算互聯網通過實現跨區域、跨超算中心的算力調度和全局存儲,將有效提升地震數據處理效率,縮短地震數據處理周期。3)數字孿生 數字孿生作為一種通用目的技術(GPT),能夠為跨層級、跨尺度的現實世界和虛擬世界建立起溝通橋梁,在工業化、城市化、全球化進程中有著廣泛的應用場景,涉及增材制造工藝仿真、研發設計、智能車間/工廠、智能家居、智能建筑、數字孿生城市、智慧交通、智慧醫療、智能能源、供應鏈網絡、智慧地球等。數字孿生(Dig
129、ital Twin)是將物理對象表達為計算機和網絡能識別的數字模型,并根據當前狀態,通過實測、仿真和數據分析來實時感知、診斷、預測物理實體對象的未來狀態,而且數字對象之間,數字對象與其物理對象之間能夠實時動態互動,可以通過優化和指令來調控物理實體對象的行為。在這一過程中,需要利用仿真計算、數值模擬等技術進行全周期、全領域的動態仿真,利用大數據、機器學習等技術基于不完整信息和不明確機理推測未來,利用云計算、區塊鏈等技術實現多個數字孿生體之間共享智慧,共同進化。隨著數字孿生技術的進化,如大數據、人工智能、機器學習、增強現實等新技術進入研發設計階段后,研發設計將真正實現“所想即所得”17。17 安世
130、亞太科技股份有限公司.數字孿生體技術白皮書,2019.12 超算互聯網白皮書 72 4)元宇宙 元宇宙需要在對現實世界進行多模態數據采樣的基礎上,借助模擬仿真、人工智能技術進行虛擬場景的重建、生成和渲染,在協同創建、高精仿真、實時渲染、智能交互等環節都對計算資源提出巨大需求。據英特爾測算,要實現雪崩和頭號玩家中描繪的持續運行且極具沉浸感的計算體驗,并讓數十億用戶實時訪問,現有算力需要提升 1000 倍。同時,隨著技術的發展,元宇宙將從最初的娛樂、游戲場景,逐步拓展到文旅、教育、能源、農業、金融、數字人等更多領域,對多元泛在的算力需求將呈現幾何級數增長。5)多媒體渲染 多媒體渲染是從模型生成圖像
131、的過程,先使用嚴格定義的語言或數據結構對物體進行三維建模,描述幾何、視點、紋理、照明等信息,然后添加位圖紋理、程序紋理、照明光線、凸凹紋理映射與相對位置,進而得到人眼所見的完整圖像。多媒體渲染已廣泛應用于建筑、影視、游戲、動漫、廣告、AR/VR 等領域。隨著 4k、8k 顯示屏的普及,以及各行業對高清內容和實時交互需求的增加,傳統的 PC 工作站已無法滿足愈加龐大的渲染計算量。超算互聯網通過對全局計算資源進行合理分配和調度優化,對作業進行高效管理,支撐大規模渲染任務的快速完成,提高動漫影視等內容制作效率。超算互聯網白皮書 73 七、七、發展倡議(一)加強理論研究與技術攻關 超算互聯網是新形勢下
132、適應中國國情提出的一項系統性工程,涉及面廣,環節多,問題錯綜復雜,在國際上沒有完全可參照的現成經驗。超算互聯網的發展在體系結構、關鍵技術、管理體制、運行機制、商業模式、標準規范等諸多方面面臨挑戰,需要在政府統籌支持下,通過設立長期科技計劃專項,持續推動產業界、學術界緊密協作,不斷探索創新,努力前行。(二)推進關鍵領域應用示范 行業應用是超算互聯網的服務目標,也是其發展的助推器。支持有能力、有條件的超算中心打造有特色、有優勢的領域應用服務平臺,提高用戶服務能力,同時遴選若干國家重大戰略應用,給予重點支持,發揮多超算中心協同優勢,吸引軟件、數據、模型等生態伙伴共同參與,解決國家亟待解決的重大問題,
133、形成生態協作的標桿示范。(三)持續完善超算互聯網標準規范 為實現算力按需調度、數據可信流通、應用開箱即用、模型可上網等目的,需要業界共同努力,持續構建和完善超算互聯網標準規范體系。在資源接入與輸出、資源測量感知與標識、應用封裝、數據共享、性能調優與評測、服務質量評價等各方面,逐步形成一套行業廣泛認可、行之有效的標準體系,包括統一接口、標準、規范、流程、協議、架構、指南、最佳實踐等。(四)強化產教融合培養超算人才 超算互聯網白皮書 74 超算互聯網的發展可能需要幾代人的努力,而高水平的人才隊伍是根本保障。我國超算領域人才缺口極大,特別是在先進算法、并行編程、大模型、工業軟件、交叉研究、行業超算應
134、用等方面,制約著超算應用水平的提升。應當以產業應用需求為引領,面向國產芯片自主生態建設目標,優化產教融合模式,為各行業領域持續培養和輸送高水平、高技能的并行計算人才。(五)促進數據開放共享與流通 超算互聯網的發展離不開成熟、規范、活躍的數據要素市場。在國家“數據要素”行動計劃統一部署下,圍繞科技創新、工業制造、應急管理、氣象服務、城市治理、醫療健康、金融服務等領域,應按照“開放為常態、不開放為例外”的共享理念,推進各領域數據開放共享與流通,同時保障好數據安全,促進大數據分析、大模型預測、AI For Science、開放科學等新范式的普及應用。(六)構建超算互聯網區域樞紐節點 超算互聯網的建設
135、需要與區域經濟社會發展緊密結合。圍繞重點區域的資源優勢和發展需要,建設超算互聯網區域樞紐節點,以線上線下相結合的方式,充分匯聚區域內算力、算法、數據、人才等相關資源要素,形成區域一體化算力服務網絡和生態協作網絡,支撐區域產業轉型升級與智能社會治理。(七)與中國算力網等計劃協調發展 在國家推進“東數西算”工程的背景下,算力資源的基礎設施化、算力網絡融合化發展受到廣泛重視。目前,國內存在多個算力網絡相超算互聯網白皮書 75 關計劃,包括鵬城實驗室的“中國算力網”計劃,中國移動、中國電信、中國聯通等運營商的算網融合計劃,中國科學院計算所的“信息高鐵”計劃,國家信息中心的“城市算力網”計劃以及中國信息
136、通信研究院牽頭建設的算力互聯互通驗證平臺,等等。超算互聯網需要與各大工程計劃加強溝通協調,著重在高速網絡數據傳輸、異構算力共享調度、“東數西算”應用創新、統一接口規范等方面有效協作,為加快構建全國一體化算力網提供保障支撐。超算互聯網白皮書 76 八、八、附錄(一)附錄 1:縮略語 縮略語縮略語 英文全稱英文全稱 中文全稱中文全稱 3D 3-Dimension 三維 AI Artificial Intelligence 人工智能 AIGC Artificial Intelligence Generated Content 生成式人工智能 API Application Programming I
137、nterface 應用程序編程接口 CAD Computer Aided Design 計算機輔助設計 CAE Computer Aided Engineering 計算機輔助工程 CLI Command-Line Interface 命令行界面 CNGrid China National Grid 中國國家網格 CPU Central Processing Unit 中央處理器 ESnet Energy Sciences Network 美國能源科學研究網 EuroHPCJU European High Performance Computing Joint Undertaking 歐盟高性
138、能計算共同體計劃 GPU Graphics Processing Unit 圖形處理器 HPC High Performance Computing 高性能計算 HPCI High Performance Computing Infrastructure 日本的高性能計算基礎設施 IaaS Infrastructure as a Service 基礎設施即服務 LSF Load Sharing Facility 一種分布式集群管理系統軟件 MaaS Model as a Service 模型即服務 PaaS Platform as a Service 平臺即服務 QoS Quality Of
139、Service 服務質量 SaaS Software as a Service 軟件即服務 SC Supercomputing 超級計算 SLURM Simple Linux Utility for Resource Management 一種調度系統 超算互聯網白皮書 77(二)附錄 2:參考文獻 1.李國杰.發展高性能計算需要思考的幾個戰略性問題.中國科學院院刊,2019.6 2.錢德沛,欒鐘治,劉軼.從網格到東數西算:構建國家算力基礎設施J.北京航空航天大學學報,2022,48(9):14.3.錢德沛.構建支撐科技創新的新一代計算基礎設施J.數據與計算發展前沿,2020,2(1):1-1
140、7 4.孫凝暉.對信息技術新體系的思考.中國科學院院刊,2022,37(1):8-14.5.歷軍.中國超算產業發展現狀分析.中國科學院院刊,2019.6 6.高文,鄒鵬,田永鴻,曾煒.智能超算的技術演進.鵬城實驗室通訊,2020.6 7.袁珩,張麗娟.數字歐洲計劃 2021-2022 年度工作要點.科技參考,2022,6 8.超級計算創新聯盟.高性能計算云(HPC Cloud)白皮書,2021.9 9.劉韻潔,范赫男.確定性網絡:從“盡力而為”到“確保所需”.網絡安全與數據治理,2023.2 10.徐傳福,車永剛,李大力,等.天河超級計算機上超大規模高精度計算流體力學并行計算研究進展J.計算機
141、工程與科學,2020,42(10 高性能???:1815-1826.11.龔春葉,包為民,湯國建,等.航天領域高性能并行計算研究進展J.J4,2014,36(09):1629-1636.12.李 翊 誰,穆 雨 桐,遲 利 華,等.數 域 篩 法 研 究 綜 述.計 算 機 應用,2018,38(S1):104-107 13.金鐘,陸忠華,李會元等.高性能計算之源起科學計算的應用現狀及發展思考.中國科學院院刊,2019.6 14.馮圣中,李根國,栗學磊等.新興高性能計算行業應用及發展戰略.中國科學院院刊,2019.6 15.遲學斌等.國家高性能計算環境發展報告.科學出版社,2018.12 16
142、.中國信息通信研究院.中國算力服務研究報告(2023 年).2023.7 17.中國信息通信研究院.中國算力發展指數白皮書(2023 年).2023.9 18.安世亞太科技股份有限公司.數字孿生體技術白皮書,2019.12 編 寫 委 員 會 參編機構(排名不分先后):國家高性能計算機工程技術研究中心 中國信息通信研究院 國家超級計算天津中心 國家超級計算濟南中心 國家超級計算廣州中心 國家超級計算無錫中心 國家超級計算深圳中心 國家超級計算長沙中心 國家超級計算鄭州中心 國家超級計算成都中心 中國科學院計算機網絡信息中心 中國科學院計算技術研究所 江南計算技術研究所 國防科技大學 北京航空航
143、天大學 上海交通大學 清華大學 青島國實科技集團有限公司 山西太行實驗室有限公司 南方科技大學 之江實驗室 全國智能計算標準化工作組 中國電信集團有限公司 賽爾網絡有限公司 中信網絡有限公司 江蘇未來網絡集團有限公司 中移(蘇州)軟件技術有限公司 北京世紀互聯寬帶數據中心有限公司 合肥市大數據資產運營有限公司 無錫恒鼎超級計算中心有限公司 國超(西安)計算技術有限公司 上海超級計算中心 甘肅省計算中心 哈爾濱市超級計算中心 陜西空天超算中心有限公司 雄安(衡水)先進超級計算中心 貴安超級計算中心 航天科工集團智能科技研究院有限公司 大連市大數據運營有限公司 深圳屹艮科技有限公司 鄭州祺石信息技術有限公司 中關村超互聯新基建產業創新聯盟 感謝以下人員參與編寫(排名按姓氏拼音不分先后)曹振南 柴華 陳功紀 陳新海 陳頁 崔華 樊黨鋒 范志華 馮順磊 高巍 高占普 龔春葉 郭榮祥 何鐵寧 何曉斌 洪釗峰 黃聃 黃震春 金能智 李可 李冉 李屹 劉輝輝 劉靖宇 劉杰 陸騰 欒鐘治 呂灼恒 馬炬 馬慶懷 彭本黔 瞿隆 宋平 宋堯 隋劍峰 王斌 王健 王建波 王英龍 魏旗 吳璨 許華俊 許佳立 姚海鵬 楊莉 袁玉峰 張國華 張宏巍 張嘉鵬 張瑞友 張武生 張戰炳 趙峰 趙歡 鄭亮 鄭雙雙