《中國智能計算產業聯盟:超智融合發展趨勢與技術路徑研究報告(52頁).pdf》由會員分享,可在線閱讀,更多相關《中國智能計算產業聯盟:超智融合發展趨勢與技術路徑研究報告(52頁).pdf(52頁珍藏版)》請在三個皮匠報告上搜索。
1、 1超智融合發展趨勢與技術路徑研究報告單志廣 張云泉 何寶宏 張廣彬 I 主編超智融合發展趨勢與技術路徑研究報告出品單位:支持單位:2 3超智融合發展趨勢與技術路徑研究報告編寫委員會顧問:錢德沛 陳潤生 陳國良 鄭緯民 袁國興主編:單志廣 張云泉 何寶宏 張廣彬執行主編:安 靜 洪釗峰 王海峰編委:沈文海 陳學斌 方 娟 賈海鵬 賴能和 趙 立 蘇 濤 袁 良 王 建 李婧穎 陳 栩 房毓菲 劉 殷 戴 彧 王建波 余艷紅 李 偉 湯國偉特別鳴謝:清華大學 益企研究院參編單位:國家信息中心 中國科學院計算技術研究所 中國信息通信研究院云計算與大數據研究所 國家高性能計算機工程技術研究中心 清華
2、大學 國家氣象中心超智融合發展趨勢與技術路徑研究報告 4目錄 CONTENTSP05 第一章 超智融合發展背景P06 一、人工智能催生的巨大算力需求推動超算向適 AI 化升級P09 二、算力賦能人工智能的關鍵在于算力設施向超算與智算融合演進P19 第二章 超智融合重塑計算格局P19 一、超智融合的內涵范疇P22 二、超智融合的三個階段P26 三、超智融合的關鍵能力P29 第三章 超智融合技術路徑創新P30 一、算力架構P34 二、算力調度P37 三、算力服務和運營P39 四、數據安全和隱私保護P41 第四章 超智融合新型應用場景和實踐案例P42 一、創新應用場景P43 二、典型案例P45 第五
3、章 超智融合進展和目標愿景 5超智融合發展趨勢與技術路徑研究報告超智融合發展背景超智融合發展趨勢與技術路徑研究報告 6一、人工智能催生的巨大算力需求推動超算向適 AI 化升級隨著技術迭代發展,計算解決問題的范式也在不斷變化。從早期的數學模型驅動,到數據驅動,再到 AI 賦能。超算與 AI 的融合正在重塑計算科學、IT 產業和人類社會發展格局。中國在超算領域擁有深厚的技術積累,而應用側對算力結構轉型的迫切需求進一步推動了超智融合技術的快速發展。超智融合是一個循序漸進的發展過程,它融合了超算強大的數據處理能力與人工智能的算法優化能力,可有效解決算力瓶頸,推動計算技術創新發展。超智融合不僅涉及數據、
4、算法、業務等層面的融合創新,也對底層的計算、存儲、網絡等基礎設施提出了相應要求。(一)超智融合的歷史演進。盡管人工神經網絡早期的研究工作可以追溯至上世紀40 年代,現代意義的超級計算機也在上世紀 70 年代問世,但在很長一段時間里,超級計算與人工智能似乎就象兩條車道上并行奔跑的汽車,前者追求“算得快”,后者追求“算得巧”,相對獨立發展。進入本世紀 10 年代,隨著英偉達公司開始推動 GPU 從傳統圖形渲染應用進入大規模并行計算領域,加上互聯網大數據的爆發式增長,深度學習算法、CPU+GPU 異構并CHAPTER1 超智融合發展背景 7超智融合發展趨勢與技術路徑研究報告行超級計算機、大規模數據集
5、這三大要素開始匯集,進而開啟了新一代人工智能日新月異的發展進程。超級計算機的強大算力與人工智能的深度神經網絡算法,在大數據的催化下,開始走向融合。在超智融合的早期探索階段,一個具有里程碑意義的事件是在 2012 年多倫多大學研究團隊使用NVIDIA GTX 580 GPU訓練AlexNet,并在ILSVRC挑戰賽上大獲成功,開創了一種新的計算模式。在這一時期,盡管已經出現了大規模的 CPU+GPU 異構集群,如 2010 年出現的世界首個達到 P 級算力規模的異構超算曙光星云(采用 2560塊 Nvidia C2050),但當時的 GPU 仍以雙精度為主,低精度性能不足。隨著深度學習算法在圖像
6、識別、語音識別、自然語言處理等領域的大量應用,為提高各類模型的訓練速度,并降低成本,以提供半精度、整型算力為主的專用 AI 芯片開始出現,如 2016 年谷歌發布的首個 AI 專用芯片 TPU,2018 年寒武紀發布的中國首款 AI 專用芯片 MLU 等。加之 2017 年谷歌提出 Transformer 架構,AI 從小模型進入大模型時代,對低精度算力需求出現指數級增長。專門面向 AI 訓練和推理的智能計算系統開始出現,并與傳統的高性能計算機或超級計算機獨立發展。然而,近幾年來,隨著人工智能的進一步發展,如多模態大模型、科學大模型、行業智能體的出現,尤其是 AI 在行業專業領域里的泛化和深入
7、應用,如 AI for Science(科學智能),使得智能化任務更加復雜,應用場景日趨多樣。無論是以雙精度算力為主的傳統超算,還是以半精度算力見長的智算系統都難以單獨滿足多元復雜的場景任務,對新型超智融合系統的需求日益迫切。2021 年 AlphaFold2 對 35 萬種蛋白質結構的成功預測,開啟了新的科研范式,同時也對計算系統提出新的要求。新的超智融合計算系統,需同時滿足數值模擬和神經網絡計算任務,支持高精度、低精度和混合精度計算模式,并從傳統的以 CPU 為中心轉向以 GPU 為中心進行系統重構,對計算、存儲、網絡等子系統進行協同優化設計,同時系統的管理、運維和調度也要更加智能化。(二
8、)人工智能將助力超級計算機突破性能發展瓶頸。當前摩爾定律逼近物理極限,單一計算架構難堪重負,導致全球超算發展遇到瓶頸。全球超級計算機500強(Top500)數據顯示,超算增長從過去每 10 至 11 年增長 1000 倍降至增長 100 倍以下。特別 8是由于系統規模受到能效指標約束、量子計算機等顛覆性技術距離實用尚有距離、新原理的計算和存儲器件缺少突破、自主高端處理器研制受制于人、超算應用軟件對外依賴度較高等原因,我國追求超算機器性能世界領先存在一定難度,將高性能計算的發展目標從機器性能世界領先轉向應用成效世界領先成為贏得主動的關鍵。以應用成效為目標要求應用軟件充分發揮并行硬件的優勢,著力突
9、破軟硬結合、應用優化。人工智能催生的新軟件能極大豐富傳統超算的軟件資源,提高其解決復雜挑戰性問題的能力。抓住 AI 發展的契機,能夠帶動超算領域硬件、算法、軟件、應用和系統的協同創新,提升超算的應用成效。(三)人工智能驅動超級計算機增強 AI 特征運算能力。隨著人工智能技術快速發展,千億參數人工智能大模型的訓練催生了巨大的算力需求,例如 OpenAI 訓練一次 1750 億參數的 GPT-3 模型所需算力約為 3640PFlops-day(即每秒運算 1000 萬億次,運行 3640 天),而GPT-4 的訓練算力需求更是高達 GPT-3 的 68 倍。AI 改變計算解決問題的范式,“規模效應
10、”猛增的大模型正成為名副其實的“算力黑洞”。為此OpenAI 與微軟公司計劃構建十萬乃至百萬級 GPU 的算力集群,以滿足GPT-6 的訓練需求。相比之下,當前我國大模型訓練面臨著巨大的算力缺口。除了被限制的英偉達 GPU 產品外,我國目前有兩類算力集群可以支持大模型訓練。一類是基于國產 AI 芯片的集群系統,但由于國產 AI 芯片的生態系統尚不完傳統超級計算機提供的是超強雙精度浮點運算能力,主要用于解決數值模擬和第一性原理計算等科學與工程計算問題,開展預測性科學研究。與之不同的是,智算系統提供的是半精度浮點數或整數運算,主要面向人工神經網絡模型的訓練和推理。CHAPTER1 超智融合發展背景
11、 9超智融合發展趨勢與技術路徑研究報告善,邁向應用的路途道阻且長;另一類是國家超級計算設施,其超大規模的異構計算集群是巨量參數規模的大模型絕佳的訓練場。通常來說,傳統超級計算機提供的是超強雙精度浮點運算能力,主要用于解決數值模擬和第一性原理計算等科學與工程計算問題,開展預測性科學研究。與之不同的是,智算系統提供的是半精度浮點數或整數運算,主要面向人工神經網絡模型的訓練和推理。隨著人工智能算法不斷滲入各行業應用領域,應用場景變得更加復雜,純粹的半精、整型算力環境已難以滿足應用落地的需求。例如在蛋白質結構預測、新材料設計、天氣預報、大規模分子模擬等 AI for Science 場景中,只有超智融
12、合才能實現最優解,甚至是只有超智融合才能使問題變得可解。二、算力賦能人工智能的關鍵在于算力設施向超算與智算融合演進超智融合涉及數據、算法、業務及算力設施等層面,其中基礎設施層面的融合非常關鍵,是支撐上層應用融合得以順利進行和持續發展的重要條件。推進超智融合不單是緩解大模型“算力荒”的有效之策,更是順應智能時代發展的應有之義。超算、智算融合發展具有三方面特點:一是強化多元算力資源協同調度。由于當前應用側對算力結構轉型存在迫切需求,基礎算力、智算算力、超算算力等應用的多元化發展催生“超智融合”,即采用混合型算力資源或融合型算力體系,對異構算力資源進行池化管理與統一調度,同時滿足多種不同算力的應用需
13、求。多元算力融合可構建更加適應人工智能時代需求的新型算力生態系統,未來發展應從供需兩側做好算力資源和業務應用的統籌銜接,避免有效應用需求不足、缺乏網絡服務質量保證、沒有成熟調度體系的普遍性算力互聯,更不能脫離實際應用需求進行異地計算和遠地算力設施布局。二是強化軟硬件協同?!俺侨诤稀奔夹g路徑上需要底層技術與體系結構進行軟硬件協同創新,例如解決覆蓋全精度算力供給,友好通用、零移植開銷的軟件棧,存算傳緊耦合分布式異構體系結構,全局高速共享存儲、浪涌 IO 優化設計,卡間、節點間高速互連協同,多元融合的算力調度系統,大規模智能系統管理,支持大規模并行計算的 AI 框架、優化通信效率的中間件等。同時,
14、由于不同的人工智能應用場景需要不 10同的算法和算力支持,“超智融合”應完善人工智能軟件棧,構建支持人工智能應用的開發環境,使人工智能模型能夠便捷地部署和運行。特別是應充分利用互聯網,構建開放共享的互聯平臺,提供跨域互聯的資源交易共享以及內容高質、用戶活躍的智能內容社區,鏈接產、學、研、用各類主體,加速智能創新和應用落地。三是強化人工智能內生融合。當前的“超智融合”實踐以 AI 賦能為重要前提,人工智能技術不僅改變了傳統超算的求解方式,而且正在影響傳統超算的系統結構。在超算支撐AI 應用(for AI)和用 AI 技術改進超算(by AI)兩個階段之上,仍需在基礎理論層面尋求突破,實現超算與智
15、算的深層次有機融合。在超智實現內生融合(being AI)階段,人工智能將不僅起到賦能作用,更是內化為計算機系統的核心屬性和基本組成,進而最大化提升計算的性能和效率,使人機交互更簡單友好,系統管理更便捷高效。超算互聯網是超算、智算融合演進的重要依托。數字經濟時代,算力成為驅動經濟社會高質量發展的新型生產力。但單一計算架構已無法應對日益復雜的計算場景,通過“超智融合”技術將超算的強大處理能力與智算的算法優化能力融合發展已成大勢所趨。過去很長一段時間,我國超算中心之間的互聯受制于網絡基礎設施的性能和成本,導致想讓一個超算中心維持非常高速的互聯鏈路,每年將付出很高的通信費用。隨著具有計算需求的應用分
16、布越來越廣,對數據中心間的互聯性能要求越來越高。因此,我國提出構建超算互聯網,面向超算中心形成可以普遍訪問的計算基礎設施,支撐超算中心間的資源共享,建立豐富的國產應用生態和統一的運營體系,改善超算中心之間的網絡性能,提高數據傳輸速率,提高資源利用率,既可以在有需求時實現多中心協同計算,也有助于計算任務及數據在各個中心之間的快速分發,使計算資源更高效地利用。超算互聯網并不是要研究網絡,而是借鑒互聯網的理念發展超算的基礎設施。超算互聯網運用“超智融合”技術,通過連接全國的超算中心、智算中心,底層匯聚全國各個算力中心的異構算力資源,通過一體化服務與調度平臺進行分布式異構算力資源調度,可以讓多個超算中
17、心、智算中心之間能夠更加緊密地耦合,更高效快速地共同解決大型復雜計算難題。國家超算互聯網平臺自 2024 年 4 月正式上線以來,已有超過 200 家應用、數據、模型等服務商入駐,實現算力供給、軟件開發、數據交易、模型服務等產業鏈相關各方的緊密鏈接,構建市場化、互聯網化、標準化的先進計算服務環境。(全球各國超算設施布局一覽請參照附件)CHAPTER1 超智融合發展背景 11超智融合發展趨勢與技術路徑研究報告超智融合重塑計算格局超智融合發展趨勢與技術路徑研究報告 12在人工智能驅動下,新的智能計算也在興起。本質上智算與超算(即高性能計算,High Performance Computing,HP
18、C)都屬于計算范疇,都是用計算來解決問題,主要區別在其應用性質。超算提出時間較早,其性能、運算速度、存儲容量等都要遠超通用型服務器系統,因而被歸類為超級計算機。傳統超算主要面向數值方式求解微分方程類的大規模計算應用,特別是科學計算和工程計算。智算則主要面向以神經網絡為代表的深度機器學習訓練和推理應用,特別是自然語言處理、語音識別、圖像識別和其他多模態智能應用。在計算精度方面,超算側重于雙精度浮點運算和單精度浮點運算,智算側重于整數運算或半精度浮點運算;在數據類型方面,傳統超算以標量、向量為主,智算則普遍采用張量以獲得更高的計算性能;在 IO 方面(Input/Output),智算通常屬于數據密
19、集型應用,相比大部分傳統超算應用,其對 IO 性能需求更為苛刻。近年來,隨著人工智能技術的快速發展,超算開始借助人工智能的方法,采用神經網絡替代部分數值模擬計算,采用混合計算精度,提高計算效率。例如很多科學發現場景,開始借助神經網絡、深度學習、大模型等方法來替代原本的數學模型,通過技術的快速迭代來解決傳統科學發現問題,由此業界也提出“AI for Science”的概念。隨著二者相互促進和發展,未來計算機將不再區分是屬于超算還是屬于智算,二者融合將成為必然趨勢。超智融合是計算技術演進的里程碑,其標志著從通用計算主導傳統科學計算,過渡到異構加速的 AI 計算新時代。兩者技術特性互補,將重新定義計
20、算領域。從現實發展的角度來看,超智融合理念順應 AI 時代的需要。一方面,應用側對算力的需求越來越多元化,超智融合兼具高性能計算強大的CHAPTER2 超智融合重塑計算格局相比大部分傳統超算應用,智算對 IO 性能需求更為苛刻。隨著人工智能技術的快速發展,超算開始借助人工智能的方法,采用神經網絡替代部分數值模擬計算,采用混合計算精度,提高計算效率。13超智融合發展趨勢與技術路徑研究報告計算處理能力和智算的算法優化能力,可以滿足同時需要不同算力的應用需求;另一方面,隨著模型復雜度提高、覆蓋范圍擴大及所需精度提高,超智融合也可以提升計算與訓練結果的可信度。一、超智融合的內涵范疇從超智融合的內容和適
21、用范疇來看,超智融合并非簡單的“超算+智算”的堆疊,而是從芯片到計算、存儲、網絡,到算力調度、系統運維,再到平臺層、應用層的系統化融合,包含了數據融合、算法融合、業務融合、基礎設施融合等,最終實現超智的內生融合。1數據融合數據是人工智能算法模型進行學習的基礎原料。對于垂類大模型、AI For Science 等領域而言,無論是高質量的行業知識庫,還是嚴謹的科學數據集,都是非常稀缺的資源。在數據要素流通共享尚不完善的情況下,數據不足或高質量標注數據缺失無疑會嚴重制約人工智能的落地應用。數值模擬在一定范圍和某種程度上可以有效緩解這一困境。特別是在一些無法通過物理實驗獲取數據,或者原始數據積累不足、
22、數據混亂、數據質量差的情況下,可以先通過數值模擬的方法產生部分高質量數據,再提供給 AI 模型進行學習。例如在新材料研發領域,基于深度學習的分子動力學模擬方法,正是利用第一性原理計算小系統生成的數據作為訓練輸入,再通過特殊設計的深度神經網絡高精度地重復出第一性原理方法計算的結果。2算法融合在 AI For Science 領域,通過將數值模擬方法和深度學習方法結合起來運用,可以在計算精度和計算速度兩方面實現最優平衡組合。例如,DeePMD-kit 分子動力學模擬軟件,正是通過結合物理建模和機器學習,采用混合精度計算架構設計,提出了一套有效的新方法來解決長期困擾分子動力學模擬的精度和效率不可兼得
23、的難題。目前該軟件已經在 8000 多塊國產 GPU 加速卡上實現了規?;渴饝?,問題規??呻S計算資源獲得線性增長??梢?,將數值模擬算法融入神經網絡,或將神經網絡加入物理模型,在很多場景下可獲得精度、性能最優解。143業務融合在實際業務場景中,雖然人工智能方法針對某些環節或模塊可以發揮令人吃驚的加速作用,但仍然無法對全業務流程進行加速,因此采用超智融合的策略和方法會更加務實高效。例如,在生物制藥領域,使用 Alphafold2 預測蛋白質結構的最后一步,仍然需要使用 AMBER 來對生成的結構進行能量最小化處理,通過物理建模來進一步優化蛋白質結構,使其在物理上更加合理和穩定。在 CAE 工業
24、仿真領域,使用神經網絡替代高耗時的傳統化學反應模型,可以獲得計算效率的巨大提升,但針對流體對流、擴散、剪切等流動特征問題仍然需要使用傳統數值算法進行求解。在氣象海洋預報領域,同化預測、海洋大氣耦合預測等業務有望實現 AI 替代,但 AI 方法在對數據的依賴性和物理機制的可解釋性等方面仍存在局限,傳統數值模擬方法在氣象業務中很難被 AI 方法完全替代。4基礎設施融合為了讓數據融合、算法融合、業務融合更加高效,底層起支撐作用的軟硬件基礎設施的融合則是重要基礎條件。通過兼容主流技術生態,提供全面精度算力,構建存算網協同設計的均衡系統,實現異構算力資源的高效管理和智能調度等等,為用戶構建統一的超智融合
25、算力系統,不僅能更高效地支撐數值模擬、AI For Science、AI 訓練與推理等全場景應用,同時也可大幅減少算力基礎設施建設與運營成本。與智算中心、超算中心煙囪式分立建設模式相比,建設超智融合算力中心,可以更好地實現兼容、集約、共享和高效,為業務智能化保駕護航。國家發展改革委等部門在關于深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見中已明確提出,要加強新型算力基礎設施系統設計,建設涵蓋通用計算、智能計算、超級計算的融合算力中心,促進不同計算精度算力資源服務有機協同。二、超智融合的三個階段超算與 AI 的融合是一種雙向賦能,將重塑計算科學、IT 產業和人類社會發展格局。一方面
26、,超算為智算的發展提供強勁的算力供給、高速的 IO 性能,并在大規模分布式調度、異構并行計算開發環境、大規模高速通信庫、并行算法等諸多層面直接提供了大量的代碼、框架、工具和間接的參考經驗。另一方面,人工智能技術發展從體系結構、硬件、軟件和算法等方面也極大影響了超算的技術演進。CHAPTER2 超智融合重塑計算格局 15超智融合發展趨勢與技術路徑研究報告中國科學院院士、北京航空航天大學教授錢德沛提出,隨著超算與智算的分別發展,高性能計算與 AI 未來有望走向融合態勢,將呈現出三個階段性的特征:一是超算支撐 AI 應用(For AI),利用強大算力來提升 AI 性能;二是 AI 改進傳統超算(By
27、 AI),通過 AI 技術使計算系統更加智能和高效;三是超智實現內生融合(Being AI),使 AI 成為計算系統的核心和靈魂。1、For AI:超算支撐 AI 應用傳統超算通過利用高速并行計算機系統解決復雜的數值計算、模擬仿真和大規模數據處理等問題,被廣泛用于科學和工程計算、氣象預報、宇宙探索等領域。隨著人工智能技術的發展,超算在 AI 領域的應用潛力也逐漸凸顯,例如并行化深度學習、高性能優化、分布式推理、多模態融合、大規模數據處理等(如下表所示)。同時,隨著 AI 大模型的快速發展,AI 成為繼計算機之后新的生產工具,其強大的數據處理能力和模式識別功能被用來解決傳統科學問題,一種全新的科
28、學發現范式AI for Science 應運而生。超算對 AI for Science 發展的賦能體現在兩方面:一方面,超算的并行計算能力是AI for Science的基礎。AI算法通常涉及大量的并行計算,而超算的多處理器架構和并行計算能力能夠充分滿足這一需求。另一方面,AI for Science 所產生的新方法和新軟件將極大豐富傳統超算的軟件資源,提高其解決復雜挑戰性問題的能力。AI for Science 僅是超算支撐 AI 應用場景中的“冰山一角”,隨著 AI 大模型面臨的計算任務日趨復雜和 AI 應用場景超算與AI的融合是一種雙向賦能,將重塑計算科學、IT產業和人類社會發展格局。一
29、方面,超算為智算的發展提供強勁的算力供給、高速的 IO 性能,并在大規模分布式調度、異構并行計算開發環境、大規模高速通信庫、并行算法等諸多層面直接提供了大量的代碼、框架、工具和間接的參考經驗。16CHAPTER2 超智融合重塑計算格局超算支撐 AI 技術發展概述并行化深度學習深度學習是AI的重要分支,但在訓練大型深度神經網絡時需要大量的計算資源。HPC 技術可以通過并行化計算和優化算法,加速深度學習的訓練過程。高性能優化AI 算法中存在很多計算密集型任務,如矩陣運算、卷積等。通過使用高性能的計算庫、優化算法和并行計算技術,可以提高算法的計算性能和效率,減少運行時間。分布式推理在部署大規模 AI
30、 模型時,分布式推理技術可以通過將模型分發到多個計算節點上,并利用 HPC 集群的計算能力,加速推理過程。這種并行推理技術可以提高響應速度和吞吐量,適用于實時應用和大規模數據處理。多模態融合AI 算法通常需要處理多種數據類型和模態,如圖像、語音、文本等。通過結合HPC 技術,可以實現多模態數據的并行處理和融合。大規模數據處理AI 算法對于大規模數據的處理和分析需要強大的計算能力和存儲系統。HPC 技術可以提供高速的數據傳輸、分布式存儲和并行計算能力,以支持大規模數據的處理。的日趨多樣,高性能硬件系統所提供的算力支撐愈發重要。在與 AI 融合的過程中,超算可以通過權衡多種因素,面向 AI 的特征
31、需求開展計算機系統設計,從而提供更強大、更高效的計算資源支撐 AI 研究與應用。2、By AI:AI 改進傳統超算英特爾研究員兼并行計算實驗室主任 Pradeep Dubey 曾表示,在高性能計算基礎設施領域,人工智能界的興起對于實現人工智能的愿景而言至關重要,即機器不僅能夠分析數字,還能幫助我們做出更出色、更明智的復雜決策。AI 技術在高性能計算領域的應用,既展示了其強大的問題解決能力,也暴露了現有系統的局限,因此需要利用AI 技術改進傳統超算。17超智融合發展趨勢與技術路徑研究報告在超智融合的過程中,AI 對傳統超算的改進體現在兩方面:一方面是 AI 影響傳統超級計算機的結構。傳統超算主要
32、是計算密集型的超算系統,AI 以張量數據為主,以半精度浮點運算和整數運算、極高的 IO 通信為主要特征。AI 的快速發展對傳統超算體系架構提出了更高的要求,需要深入分析現有框架結構,發現AI在算力需求、數據鏈路、并行模式等層面與現有框架結構不匹配的因素,解決 AI 無法充分利用現有架構能力或現有架構無法滿足 AI 計算需求的問題。隨著越來越多科學計算使用到 AI 技術,不少 AI應用也需要高精度、混合精度計算。未來單一精度的計算會減少,混合精度的計算將成為主流。另一方面,AI也將成為解決傳統超算問題的有效方法。利用人工智能技術,可以使超算更加智能、高效和節能,例如通過云邊端資源的協同,追求更低
33、的整體成本;同時也可采用 AI 手段賦能計算系統的優化,例如使用大模型的方法開展處理器設計自動化的研究等。3、Being AI:超智實現內生融合超智融合的最終形態是內在智能,形成從系統到軟件的完整生態。一方面,超智內生融合的計算機將內置原生的 AI 引擎與智能服務,構建完整的 AI 應用生態系統,面向行業場景和應用所需,賦能智能制造、智慧醫療、數字政務、智慧教育等眾多領域的AI 創新應用,助力打造 AI 應用新范式。隨著超智融合技術成熟與應用的廣泛鋪開,超算與 AI 將與更多產業生態深度結合,形成更加豐富、高效的產業鏈條,促進經濟結構 18CHAPTER2 超智融合重塑計算格局的優化升級,為數
34、字化轉型提供強大動力。另一方面,AI 也將對計算產生深遠影響,促使用戶重新思考計算的本質屬性智能。超算與 AI 的融合將解鎖更多計算潛力,推動技術創新達到前所未有的高度,為解決人類面臨的復雜問題提供強有力的支持。從此,人工智能不再是一種外加的能力,而是計算機的核心屬性和基本組成。AI 和超算作為機器智能與算力的代表性技術,二者的深度融合必將帶來巨大的能量,推動社會智能化水平的提升,更將深刻影響經濟模式,促進資源的高效配置,提高生產效率,帶動就業結構的變化。當超算和智算真正實現內生融合的時候,其所呈現的計算能力和智能化水平可能會遠遠超過當下的單一超算或單一智算,實現“1+1 遠大于 2”的效果。
35、三、超智融合的關鍵能力(一)通用全精度高算力芯片研制能力是超智融合的硬核技術,可從根本上實現高效融合。大規模并行計算系統架構正在從傳統的以 CPU 計算為中心轉向以 GPU 計算為中心。以新型 GPU 為代表的通用全精度高算力芯片作為研制智能超算系統、構建先進算力基礎設施的硬核技術,是整個體系的核心。在國際上,英偉達、英特爾等芯片巨頭均已經布局和研制相關產品。通過單一芯片平臺支持全精度計算和混合精度計算,支撐多元計算場景任務,滿足科學計算、工程計算、人工智能模型訓練與推理等不同場景AI 和超算作為機器智能與算力的代表性技術,二者的深度融合必將帶來巨大的能量,推動社會智能化水平的提升,更將深刻影
36、響經濟模式,促進資源的高效配置,提高生產效率,帶動就業結構的變化。當超算和智算真正實現內生融合的時候,其所呈現的計算能力和智能化水平可能會遠遠超過當下的單一超算或單一智算,實現“1+1 遠大于 2”的效果。19超智融合發展趨勢與技術路徑研究報告對 FP64、FP32、FP16 等不同精度的算力需求;同時因其可以在單一芯片內實現混合精度計算,減少芯片間的數據交換開銷,從而大幅提高計算效率與性能,可更高效地滿足 AI for Science、數字孿生智能體、自動駕駛、生物制藥等新興復雜應用算力需求。(二)多元異構融合的基礎開發與運行環境,是超智融合應用的發展基礎。超智融合的應用場景,對傳統應用開發
37、模式提出了挑戰,特別在當前國際環境下,構建多元融合異構運行時系統與基礎庫環境,包括超智融合異構編譯系統,提供完善的科學計算與 AI 異構編程模型與編譯器系統工具鏈,為上層平臺與行業應用提供堅實的支撐,是超智融合應用發展的必然要求。(三)兼容主流生態是超智融合得以全面發展的重要條件,也是未來發展的必然趨勢。當前超算領域基于 x86 CPU 和 GPU 架構已積累了巨量的應用軟件,智算領域基于GPU 架構也已快速形成了龐大的軟件生態體系,并在各自領域占據了超過 90%的市場份額。打通傳統超算和新興智算應用,需要具備支撐以上領域主流生態、普適通用的算力系統。否則,將會給開發者帶來巨大的額外應用移植負
38、擔,并使部分應用資產無法繼承和發展,拖累超智融合的發展速度。核心算力芯片是決定算力系統軟件生態的決定性因素。因此,在構建超智融合算力系統時,核心算力系統應選用兼容主流、通用適配的算力芯片。20CHAPTER2 超智融合重塑計算格局(四)高效的數據處理與管理能力是超智融合多場景應用創新的牢固根基。AI 大模型要求超智融合具備強大的數據處理和管理能力??焖俨杉?、整理和分析海量數據能夠為多場景耦合應用創新提供堅實的數據基礎。通過優化數據存儲和訪問方式,提高數據的讀取和寫入速度,從而支持用戶在不同場景下對數據的高效利用。(五)強大的計算資源調配能力讓超智融合實現資源的最優利用。為了獲得更好的綜合效益、
39、計算效率和性價比,超智融合需要實現計算資源的靈活調配。例如在自動駕駛研發中,當進行車輛模擬測試時,可調配更多超算資源來模擬復雜的路況和車輛行為;而在對測試數據進行分析和模型訓練時,則增加智算資源的投入,以提高訓練效率和準確性。又如在電商平臺的促銷活動期間,根據實時的流量和交易數據,動態調整超算和智算資源,確保系統的穩定運行和快速響應客戶需求,實現計算效率和性價比的最大化。(六)高精度模擬生成高質量數據是有效支撐 AI 模型的關鍵。利用高精度模擬生成AI 模型所需的高質量數據是超智融合的關鍵能力之一。通過超算的強大計算能力,進行復雜的物理、化學等過程的模擬,從而產生準確、豐富和多樣化的數據。這些
40、數據可以為智算中的 AI 模型訓練提供優質的素材,幫助模型更好地學習和理解各種現象,提高模型的準確性和泛化能力。在航空航天領域,利用超算進行高精度的空氣動力學模擬,生成大量精確的氣流、壓力等數據,為智算訓練飛行器控制的 AI 模型提供優質素材,使飛行器能夠更智能地適應各種飛行條件。在材料科學中,通過超算模擬原子和分子層面的相互作用,產生材料性能的數據,進而幫助智算訓練預測新材料特性的模型,加速新材料的研發進程。例如,斯坦福大學研究團隊推出的的全球首個大型流體力學數據集 BLASTNet,已匯聚風、水、氫氣等流體的 5TB 模擬仿真數據,這些高精度的數據由全球多臺超級計算機在過去模擬生成,可用于
41、支撐從飛行器設計、醫學研究到全球氣候、海洋模式等許多領域的模型訓練。21超智融合發展趨勢與技術路徑研究報告超智融合技術路徑創新超智融合發展趨勢與技術路徑研究報告 22CHAPTER3 超智融合技術路徑創新在當前數字化與智能化進程的加速推動下,超算與智算的融合成為科技發展的前沿趨勢。隨著人工智能、大數據分析等領域的迅猛發展,傳統的計算架構面臨巨大的挑戰,尤其是在處理大規模數據、并行計算和復雜模型訓練方面。為了應對這些新興需求,一種以 CPU、GPU 為主要核心,兼顧其他專用加速芯片的融合計算存儲網絡架構應運而生。這種架構通過整合不同類型處理器的優勢,實現對計算任務的高效處理和資源的最佳利用,為超
42、智融合提供強大的技術支撐。超智融合的關鍵在于算力的高效調度和管理。在傳統的 HPC 體系中,作業調度系統主要負責多任務環境下的資源分配和執行順序。然而,當 AI 任務加入計算環境后,調度系統不僅需要處理科學計算任務,還需考慮 AI 訓練和推理過程中對計算資源的動態需求。如何在異構計算架構中實現算力的優化調度,成為提升系統性能的核心問題。一、算力架構融合計算架構的優化與協作是超智融合系統性能提升的關鍵,為多元計算需求提供強勁支持。從融合層度上講,可以分為兩種模式。一是現有計算芯片的協作融合,CPU 與 GPU 的協同計算提供了高效的硬件加速,為復雜科學計算和AI任務提供了強有力的支撐。在超算與智
43、算融合的背景下,計算架構的設計需要能夠兼顧不同任務類型的需求。傳統超算任務通常要求極高的浮點計算精度和性能,而智能計算任務則需要處理海量數據并進行復雜的模型訓練。因此,未來的算力架構須在硬件層面實現 CPU+GPU 為核心的技術路線,以便在多樣化的計算場景中提供強大的支持。傳統 CPU在處理順序性、復雜邏輯運算方面表現優異,但其在大規模并行計算、數當 AI 任務加入計算環境后,調度系統不僅需要處理科學計算任務,還需考慮 AI 訓練和推理過程中對計算資源的動態需求。如何在異構計算架構中實現算力的優化調度,成為提升系統性能的核心問題。23超智融合發展趨勢與技術路徑研究報告據密集型任務中逐漸顯現出局
44、限性。GPU 的設計初衷是處理圖形數據,但其大量的并行計算單元使其在深度學習等需要高度并行計算的領域表現出色。一些專用芯片則專門為加速神經網絡計算而設計,具有更加優化的計算路徑和更高的能效比。融合計算架構整合 CPU、GPU 以及專用芯片的優勢,在不同計算單元之間實現任務的動態分配,從而最大限度地發揮各自優勢,顯著縮短計算時間,為各種復雜計算任務提供強有力的支撐。在融合架構中,CPU、GPU 與專用芯片共同協作,以優化 AI 模型的訓練和推理過程。例如在一個典型的 AI 訓練任務中,特別是深度學習模型的訓練,涉及大量的矩陣運算。GPU 由于其強大的并行處理能力,能夠同時處理成千上萬的簡單任務,
45、因此在加速矩陣乘法、卷積等核心運算方面表現出色,同時 GPU 的并行計算能力使得 AI 模型能夠在更短的時間內完成訓練。二是算力芯片設計和編程框架層面的融合,CPU、GPU 和其他專用芯片相互借鑒,屏蔽自身局限,發展出能更好適應超智融合場景的特性和能力。例如,專用芯片通過兼容 GPU 的應用生態,增加雙精等高計算精度支持;GPU 增加張量計算單元和優化的神經網絡計算單元等;開發統一的編程框架,統一CPU、GPU和專用芯片的編程模式,屏蔽底層硬件差異,為用戶提供更簡單易用的函數、算法等。隨著數據規模的增長和計算復雜度的提升,存儲系統在融合計算架構中的作用愈發重要。存儲與計算的融合架構通過數據與計
46、算任務的緊密耦合,顯著提升系統的整體性 24CHAPTER3 超智融合技術路徑創新能和資源利用率,為大規模數據處理提供可靠保障。為了支持復雜的HPC和AI任務,融合存儲網絡需要提供高效的數據管理與訪問機制。此外,為支持 CPU、GPU 和專用芯片的協同工作,融合計算架構必須提供統一的內存訪問模型,以避免不同計算單元之間的數據傳輸瓶頸。傳統的存儲架構通常采用層次化設計,即高性能計算部分與大容量存儲部分分離,數據通過總線在二者之間傳輸。然而,在超智融合的背景下,這種分離式架構難以滿足高速計算與海量數據存儲之間的無縫對接需求。融合計算存儲架構的一個關鍵特點是“計算近數據”(Compute Near
47、Data),即通過將計算資源直接部署到數據存儲附近,減少數據在計算單元與存儲單元之間的傳輸延遲,從而大幅提升數據訪問的效率。通過將計算單元和存儲單元緊密集成,系統可以更快速地訪問數據,從而提升整體計算效率。為了支持復雜的 HPC 和 AI 任務,融合存儲網絡需要提供高效的數據管理與訪問機制。融合存儲架構還可引入計算能力,數據被分布式存儲在多個存儲節點中,每個存儲節點都具備一定的計算能力,能夠在數據生成的同時進行預處理,減少數據傳輸的開銷。計算與存儲融合,特別適合于需要實時處理的大規模 AI 應用,通過將數據處理下沉到存儲節點,可以顯著提高系統的整體性能。隨著大模型加速向多模態演進,以及生成式
48、AI 在垂直行業領域快速滲透,人工智能對于存儲容量、性能、功能的需求全面提高,存算一體化協同發展是必然要求。分布式全閃疊加多級數據加速技術、全路徑 AI 親和機制等,促進 AI 存算協同發展。分布式全閃存儲可以有效支撐容器化AI平臺部署,滿足大模型訓練推理對存儲性能、容量、穩定性、擴展性的嚴苛需求。例如,曙光 ParaStor 分布式全閃存儲系統依托 NVMe 端到端全閃技術優化,可實現單節點帶寬最高達到 130GB/s、320 萬 IOPS、單流 10GB/s的極致性能。同時,通過在 CPU、GPU、內存、本地存儲、外部存儲等部件之間實現多級數據加速,并搭配全路徑 AI 親和機制,可以大幅降
49、低 AI 訓練數據等待時間與數據傳輸代價。其中,曙光首創自研的 XDS 智能加速技術,結合內嵌的 ParaBuffer 加速引擎,在 AI 訓練計算節點與存儲系統之間構造大內存池,可以顯著縮短國內外主流GPU數據傳輸IO路徑,將系統整體I/O性能提升數倍,真正實現AI存算的協同優化,大幅縮短大模型訓練時間。25超智融合發展趨勢與技術路徑研究報告圖:存儲面向 AI 的多級數據加速技術高性能互聯網絡通過低延遲、高帶寬的傳輸能力,確保了異構計算單元之間的高效通信,是融合計算架構的關鍵組成部分。在融合計算架構中,不同計算單元之間的數據交換頻繁且數據量大,高速互聯網絡是連接不同計算單元(如 CPU、GP
50、U 等)與存儲單元的關鍵,對系統的整體效率有著重要影響。傳統的以太網雖然能夠提供基本的數據傳輸功能,但在面對超智融合任務時,其帶寬和延遲難以滿足需求。因此融合計算架構應轉向采用更高性能的網絡技術。Infiniband 是一種高帶寬、低延遲的網絡技術,能夠提供更快的數據傳輸速度,同時支持遠程直接內存訪問(RDMA),允許不同計算節點直接訪問彼此的內存,從而減少了數據傳輸中的 CPU 開銷,廣泛應用于HPC 系統中。Infiniband 的拓撲結構設計也很靈活,可以根據系統需求進行擴展,適用于大規模并行計算環境。NVLink 是 NVIDIA 推出的一種高帶寬互聯技術,主要用于GPU之間的高速通信
51、。與傳統的PCIe相比,NVLink可以提供更高的數據傳輸速率,特別是在多 GPU 系統中,可以顯著提升數據傳輸的效率。近年來,NVLink 或其他類NVLink 互聯技術逐漸被應用于 CPU 與 GPU、GPU 與 GPU 之間的通信中。因此,融合計算存儲網絡架構應支持高性能互聯和多種設備之間的互操作,特別是在處理器與內存、加速器之間的數據交換中,可以靈活配置用于不同類型的異構計算架構。此外,為了在大規模計算任務中實現網絡資源的最優分配,智能路由與負載均衡技術的引入也是必要的。通過動態監測網絡的使用情況,優化網絡資源的分配,調整數據包的傳輸路徑,避免網絡擁堵和不均衡負載,最大化網絡的使用效率
52、。26CHAPTER3 超智融合技術路徑創新二、算力調度靈活的作業調度與資源管理系統是高效算力分配的核心,為復雜任務的順利執行奠定基礎。傳統 HPC 調度系統在處理 AI 計算任務時表現出資源調度不靈活和任務切換效率低的局限性,需改進以適應新型計算需求??茖W計算任務通常是批處理式的,計算負載較為均勻,任務的執行時間也相對固定。因此傳統的 HPC 調度系統通常采用基于作業隊列的調度模型。然而,AI 計算任務則具有高度的動態性和不確定性,如深度學習模型的訓練過程中,需要頻繁地調整計算資源的分配,并且模型的訓練時間往往難以準確預測。傳統 HPC 調度系統在面對 AI 計算任務時,常常表現出資源調度不
53、靈活、任務切換效率低、任務優先級難以管理等問題。此外,傳統調度系統在處理 CPU、GPU 等不同類型的計算單元時,往往無法充分發揮各類硬件的優勢,導致系統整體效率降低。為了應對 AI 計算任務的特殊需求,面向 AI 的作業調度系統應運而生。面向 AI 的作業 27超智融合發展趨勢與技術路徑研究報告調度系統通過動態資源分配和任務優先級管理,能夠更有效地處理 AI 任務的復雜性和動態性,提升系統的整體性能。這類調度系統通過引入動態資源分配、任務優先級管理和跨節點分布式訓練等策略,能夠更好地適應 AI 任務的特性。動態資源分配是 AI優化調度系統的核心功能之一。通過實時監測各個計算單元的負載情況,調
54、度系統可以動態調整計算資源的分配。任務優先級管理則是為了應對多任務環境下的資源競爭問題。在 AI 計算環境中,不同的任務可能具有不同的重要性和緊急程度。調度系統可以根據任務的優先級,合理分配計算資源,以保證關鍵任務的優先執行。例如,在一個訓練與推理混合的計算環境中,推理任務通常需要快速響應,調度系統可以為其分配更高的優先級,以確保其低延遲地完成。隨著深度學習模型的規模越來越大,單節點計算資源往往難以滿足需求,因此需要將訓練任務分布在多個計算節點上,進行跨節點分布式訓練。調度系統通過合理劃分訓練數據和模型參數,使得計算任務能夠在多個節點上并行執行,從而大幅縮短訓練時間。融合計算的調度系統需要支持
55、多種計算單元的感知與管理、跨平臺任務調度和異構資源動態調度,以應對復雜的計算環境和多樣化的任務需求。在融合計算架構中,調度系統需要面對更加復雜的計算環境和多樣化的計算任務。因此,傳統的 HPC 調度系統和面向 AI 的調度系統在融合計算環境下,需要進一步的整合和優化。融合計算的調度系統需要具備多種計算單元的感知與管理能力,能夠根據任務執行時間、資源需求和數據依賴,制定最優的調度策略,智能選擇最合適的計算單元來執行任務。例如,對于并行度較高的任務,調度系統可以優先選擇 GPU 或專用芯片進行處理,而對于需要復雜邏輯控制的任務,則優先選擇 CPU。其次,融合計算的調度系統還需要具備跨平臺的任務調度
56、能力。計算任務可能會在不同的計算平臺(如本地超算中心、云端智算平臺)之間進行分布和遷移。調度系統需要能夠在這些平臺之間協調計算資源,并確保任務的順利執行。此外,在融合計算架構中,許多任務都是數據密集型的,尤其是在 AI 和大數據處理任務中。數據密集型任務的調度對數據的存取效率有著很高的要求,因此,調度系統需要針對數據密集型任務進行特別的優化,具備節點級甚至任務級的調度能力。智能調度算法通過機器學習和大數據分析,能夠實現對資源調度策略的自動優化,從而提升系統的計算效率和任務管理能力。智能調度算法能夠在復雜的計算環境中,通過對系統運行數據的持續學習,不斷調整資源分配和任務調度,以適應變化的計算需
57、28CHAPTER3 超智融合技術路徑創新求和系統狀態。例如,智能調度系統可以根據歷史數據,預測任務的執行時間和資源需求,提前進行資源預留和優化,避免任務隊列的積壓和系統響應時間的延遲。針對超智融合的算力需求,構建融合算力調度技術體系,針對多類型、跨區域、跨架構的算力進行調度,突破多元異構資源的統一管理與融合調度,促進不同精度算力資源高效協同。另外,在調度策略技術創新上,需持續研究智能應用特征匹配機制和動態資源調度策略,提升對大規模、跨學科、復雜業務的支撐能力,實現超智融合場景下對不同類型算力的統一融合與高效調度??傊?,超智融合對承載算力生產、聚合、調度等功能的基礎設施帶來了諸多挑戰。隨著人工
58、智能發展進入大模型時代,超算中心正迎來新的發展機遇,既要滿足以超級算力支撐大模型訓練,降低大模型算力成本的現實需求,更要支撐起以 AI For Science、AI For Technology 為代表的新一代科研范式變革和科研自動化的長遠需求。2023 年 3 月,科技部啟動“人工智能驅動的科學研究”專項部署工作,加快推動國家新一代人工智能公共算力開放創新平臺建設,支持高性能計算中心與智算中心異構融合發展,推進軟硬件計算技術升級。展望未來,超算中心將向超智融合計算中心架構演進,并將伴隨一系列技術創新,包括:全精度大算力高互連通用加速芯片、異超算中心將向超智融合計算中心架構演進,并將伴隨一系列
59、技術創新,包括:全精度大算力高互連通用加速芯片、異構并行體系結構、面向傳統并行計算 和 分布式訓練 的編程模型、面向 HPC&AI 應用的智能化資源管理與作業調度工具、超大規模集群智能運維工具(AIOps)、支持混合精度計算的先進算法等等。29超智融合發展趨勢與技術路徑研究報告構并行體系結構、面向傳統并行計算 和 分布式訓練 的編程模型、面向 HPC&AI 應用的智能化資源管理與作業調度工具、超大規模集群智能運維工具(AIOps)、支持混合精度計算的先進算法等等。三、算力服務和運營伴隨超智融合算力架構、算力調度技術的融合演進,對算力資源的統一部署、調控以及服務化運營顯得尤為重要。運用互聯網化的
60、理念、思維、模式、技術、平臺、機制打造統一的算力服務平臺,整合各類算力資源,為用戶提供一站式服務,降低用戶獲取算力資源的成本,推動以往“孤島”式的單體運營方式向多方合作的網絡化運營方式轉變,從橫向、縱向維度拉通產業鏈各個環節,構建靈活高效的運行機制,以促進各方緊密協作,形成市場化、互聯網化、標準化的先進計算服務和生態運營環境,逐步形成全國統一的算力服務大市場,實現長期可持續發展。探索互聯網化的運營模式。各類通用大模型、垂直行業大模型落地對推理算力、訓推一體算力的需求增加,大模型、生成式 AI、AI For Science 應用場景增多,行業滲透率持續提升。算力時代,通過鏈接各類超算、智算中心,
61、智能調度各類算力資源,并深度整合計算資源、軟件資源、應用解決方案資源,對智算中心、超算中心、數據中心等算力設施統一資源管理、統一用戶管理、統一記賬、資源融合調度和應用協同服圖:超智融合計算中心是發展趨勢 30CHAPTER3 超智融合技術路徑創新務,降低算力使用門檻,進而實現高效利用算力資源和高質量用戶服務。通過培育自主軟件生態,促進算力泛在應用,推動跨界融合創新,提升算力環境服務能力,為社會提供高效、便捷的算力服務。例如,當前我國超算互聯網已匯聚包括國家超算中心、區域智算中心在內的 20 家算力中心,可在線服務的通用處理器超過 10 萬顆,AI 加速卡超過 13 萬塊。探索平臺化的應用服務機
62、制。針對算力昂貴、算法軟硬不解耦、傳統應用場景算法眾多、選擇難、新應用場景算法缺乏生態支撐等問題,面向關鍵行業或重點領域構建領域應用探索構建一體化算力服務平臺、應用商城、開發者社區等,促進算力、數據、算法、模型、應用融合創新,面向用戶業務場景形成解決方案,實現將多元化算力轉變為可調度的資源。完善計算、模型等產品體系,降低算力資源使用門檻,縮短計算服務交付時間,提升可用性與易用性,打造多方交流、交易與協作的服務環境。例如,2024年 4 月 11 日,超算互聯網平臺()正式上線運行并對外提供服務。截止 2024 年 6 月,應用商城已入駐各類算力服務商 273 家,發布 6200 余款算力商品;
63、服務用戶數量超過 10 萬,服務企業 3000 余家。探索多維度多層面的生態協作機制。超智融合服務與運營涵蓋算力中心、運營商、軟件商、用戶、政府等多種角色,涉及產業鏈各個環節,參與方眾多。首先,圍繞算力供給、軟件開發、數據交易、模型服務等產業鏈關鍵環節,探索構建一體化算力調度、數 31超智融合發展趨勢與技術路徑研究報告據傳輸、生態協作體系,使相關各方建立緊密鏈接,在超智融合領域上下游、產學研用之間以及多算力中心、不同超算架構之間構建去中心化、平等協作的網狀合作機制,推動上下游企業之間協作。仍以超算互聯網為例,自 2023 年 4 月超算互聯網聯合體成立以來,到2024年6月,聯合體已擴展至14
64、5家,已涵蓋產業鏈的主要環節。其次,在算力運營服務方面需要大量的資金投入和支持,包括硬件設備、專業人才、技術生態以及技術研發等方面,在一定程度上要依賴政府的支持來進一步夯實算力基礎。建設開放標準。提供算力資源服務和運營的前提首先在運營層面,各方共同制定超智融合算力運營服務的技術標準、監管機制和規范,確保行業的規范化和標準化發展。其次在技術層面,促進資源共享與技術協作,加強軟硬件之間的協同設計與優化、軟件跨架構高效移植與適配,支持不同架構算力中心之間或多個運營商之間合作,協同攻關跨架構互聯互通的共性技術問題,統一接口標準與開發環境,降低底層硬件異構帶來的編程復雜性,構建國產芯片軟件應用生態。四、
65、數據安全和隱私保護在超智融合技術的發展過程中,確保數據安全和隱私保護是至關重要的。以下是一些關鍵措施和策略:1.技術融合與創新:超智融合技術通過結合超級計算和智能計算的優勢,可以更高效地處理和分析數據。在這一過程中,可以采用先進的加密技術,如同態加密和多方安全計算,以確保數據在傳輸和處理過程中的安全性。同時,可以利用人工智能算法優化數據處理流程,提高數據安全性和隱私保護水平。2.軟硬件協同:在硬件方面,可以開發專用硬件以支持高效的數據處理和安全操作。軟件方面,需要構建完整的 AI 軟件棧,以支持數據的安全處理。軟硬件的協同優化有助于提高系統的整體安全性。3.法規遵從:隨著數據安全法和個人信息保
66、護法的實施,超智融合技術的發展需要遵循相關法律法規,確保數據處理活動的合法合規。這包括對數據的采集、加工、使用等各個環節進行規范管理。32CHAPTER3 超智融合技術路徑創新4.隱私計算技術:隱私計算技術,如聯邦學習、拆分學習等,可以在不泄露原始數據的前提下進行數據分析和機器學習。這些技術有助于在保護數據隱私的同時,實現數據的價值挖掘。5.安全標準制定:參與制定超融合系統通用技術要求等國家標準,確保超融合產品在設計和制造過程中滿足安全要求,為數據安全提供保障。6.主動隱私保護:通過構建主動隱私保護策略,實現用戶感知、用戶控制、風險分析和合規審計,強化全生命周期的用戶隱私安全保護。7.數據融合
67、技術研究:研究和應用數據融合技術,如聚類分析、人工智能算法等,以發現數據內容之間的關聯性,同時確保數據融合過程中的安全性和隱私性。通過上述措施,可以在超智融合技術的發展中有效地確保數據安全和隱私保護,促進技術的健康發展。33超智融合發展趨勢與技術路徑研究報告超智融合新型應用場景和實踐案例超智融合發展趨勢與技術路徑研究報告 34CHAPTER4 超智融合新型應用場景和實踐案例一、創新應用場景(一)超智融合在多個行業和領域展現出顯著的創新應用潛力超智融合不僅有效突破了算力瓶頸,還促進了技術融合與創新發展,正在各行業的領域實現突破和應用拓展,為經濟社會的高質量發展注入新的動力。比如在全球氣候研究領域
68、,超智融合通過其強大的數據處理能力和高效的問題求解策略,對復雜系統進行精準模擬,為全球氣候研究提供了重要支持。中國科學院的相關研究成果表明,超智融合技術已被應用于數值天氣預報系統,提高了天氣要素預報和臺風路徑、強度預報的準確性。在能源礦產勘探領域,超智融合顯示出巨大潛力,能夠處理大規模的數據集,提高資源勘探的效率和精度。在生物醫藥研發領域,在新藥開發和材料科學等方面,超智融合的應用加速了科技成果轉化和知識邊界拓寬,有助于加快藥物發現和開發過程。在金融領域,超智融合也發揮著重要作用,尤其是在處理復雜數據和優化算法方面,為金融分析和決策提供了強有力的支持。(二)在模型、算法、軟件、硬件四個層面,人
69、工智能將與超級計算結合發揮重要作用一是模型層面。經典科學計算存在建模困難、或者模型準確但不可計算、或者模型可計算但不夠準確等問題,而基于人工智能可以構造更好的模型,在湍流模型、分子力場模型、天氣預報等物理過程參數化方面都有應用。二是算法層面。借鑒人工智能中的神經網絡等數學工具,可以在科學計算的經典問題如線性方程求解、微分方程組求解、最優化問題求解等方面解決痛點。三是軟件層面。在具備模型和算法的基礎上,還需要在計算機上進行實現。這個過程涉及到大量的編程工作,并且錯誤率高。借助大模型等技術,可以在編譯優化、自適應調優、自動代碼生成等方面把減輕負擔、提高效能和質量。四是硬件層面。人工智能已經深刻改變
70、了超算硬件的發展,未來還將帶來更廣泛的改變,例如計算單元設計、芯片設計、處理器設計、超算系統設計等。綜上所述,超智融合技術已成為推動科技創新的關鍵力量,將在未來幾年內迎來快速發展,為各行業的轉型升級和數字經濟發展提供核心驅動力。35超智融合發展趨勢與技術路徑研究報告二、典型案例(一)流體仿真領域的 AI 方法變革在傳統的流體仿真設計過程中,主要依賴人類的直覺和經驗,而 AI 正在驅動該領域的方法補充甚至是替代,尤其是有限元分析(Finite Element Analysis,FEA)、計算流體動力學(Computational Fluid Dynamics,CFD)求解以及基于自動化工業幾何構
71、造的工業設計生成和參數優化方面,AI 已經顯現出巨大的潛力和價值。在使用超算求解最優設計參數時,往往存在耗時長、難以通過有限資源實現最優參數的問題,這限制了工程師的設計空間和效率,并且模擬結果難以預測。模擬仿真場景下,超算更擅長精準求解實驗數據。以求解壓力分布數據階段為例,通過超級算力對機翼周圍流場進行精確模擬,可以得到機翼表面不同位置的壓力分布情況。如下圖所示,在機翼前緣部分,由于氣流受到阻滯,靜態壓力大約為 35949.46 帕。沿著機翼上表面,隨著氣流加速,壓力逐漸降低,可能出現局部的低壓區域。在大迎角情況下,上表面靠近機翼后緣處可能會出現氣流分離,導致壓力急劇下降,靜態壓力大約為 12
72、521.08 帕。機翼下表面通常壓力相對較高,尤其是在靠近機翼根部的區域。使用超級算力進行流體動力學求解后的數據,不僅可以精確到千分比甚至萬分比級別,而且還能夠反映出下物體表面壓力的平穩分布或在某些特殊情況下的變化,比如在有地面效應時,下表面壓力會受到影響而發生改變。圖 機翼流體仿真圖 36與超算不同,智算更適合對大量數據進行學習和分析,加以建模和預測。同樣以求解機翼附近壓力分布場景為例,智算能夠使用超算已處理好的機翼流體仿真結果,結合已有的風洞試驗模型,對升阻力特性曲線、表面壓力分布和油流圖譜等指標進行預測。圖 機翼壓力預測圖如上圖所示,將已知參數(機展長1.1713m、平均氣動弦長0.14
73、12m、參考面積 0.1453 m2、展弦比 9.5)投喂到 DLR-F6 翼身組合體(帶短艙)風洞試驗模型中,使用 SU2 求解器分別在 SA 模型和 SST 模型計算 DLR-F6 翼身組合體表面壓力分布,可以快速得到壓力的預測值exp,且預測值與兩種模型的計算的壓力分布曲線幾乎重合,說明使用智算能夠迅速學習壓力分布變化趨勢數據,同時很好地完成壓力分布預測任務。CHAPTER4 超智融合新型應用場景和實踐案例 37超智融合發展趨勢與技術路徑研究報告(二)物理、化學、材料、生命科學領域的“模型+數據驅動”演進趨勢在物理化學材料領域,早期“試錯式”的材料研究方法基于表征實驗,直接進行優化和篩選
74、,研究周期長、效率低,處于“實驗驅動”階段;接下來演化為“理論計算驅動”,計算模擬基于密度泛函理論(Density Functional Theory,DFT)、分子動力學(Molecular Dynamics,MD)等理論,預測候選材料。進入“理論計算驅動”階段后,引入超算進行高通量研究,實驗可結合批處理,實現了高效率低成本,縮小了試錯范圍。但由于計算規模有限,無法通過無上限的計算規模擴張來滿足日益提升的計算需求。超智融合技術可將該領域推進到下一個階段“模型+數據驅動”,即“物理模型+人工智能(AI)+高性能計算(HPC)+大模型”。在蛋白質結構預測方面,人工智能(AI)與超算的融合主要體現
75、在 AlphaFold 這一革命性技術上,DeepMind 公司開發了 AlphaFold 人工智能系統,它能夠精確地基于氨基酸序列預測蛋白質的三維結構,其準確性可與冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗技術解析的 3D 結構相媲美,被廣泛認為是生物科學和生物醫學領域的重大突破。在 2021 年,DeepMind 宣布 AlphaFold 預測出 98.5%的人類蛋白結構,以及 20 種模式生物的蛋白結構,將超過 36.5 萬個蛋白結構存放到與歐洲生物信息研究所合作構建的公開數據庫中。在基于AI 力場的分子動力學模擬方面,人工智能(AI)與超算的融合以 LSR-MP 為代表,它由微軟
76、研究院科學智能中心聯合耶魯大學、西安交通大學提出,是一種新型的分子動力學機器學習框架。LSR-MP 結合了物理洞見和幾何深度學習,通過在原子/分子片段上分別建模短程和長程效應,為大規模分子體系的高精度、高效模擬提供了新的途徑,可應用于新藥開發和材料設計等領域。在材料性能預測方面,微軟研究院科學智能中心開發的深度學習模型能夠在廣泛的元素、溫度和壓力范圍內實現準確高效的材料模擬與性質預測。該模型結合了深度學習技術和大規模第一性原理計算,是典型的超智融合應用場景,能夠高效處理多種材料的模擬,包括但不限于金屬、氧化物、硫化物、鹵化物及其不同狀態,為材料設計的數字化轉型提供強有力的支持。38CHAPTE
77、R4 超智融合新型應用場景和實踐案例(三)氣象短臨預報領域的的高實時性預測在具體應用實踐中,眾多應用領域對實時性有著嚴格的要求。以氣象短臨預報為例,預測未來 1 至 4 小時內的天氣變化,對于及時應對極端天氣對生產和生活造成的影響至關重要。從實時性的角度來看,傳統科學計算方法在處理此類問題時面臨較大的挑戰,因為科學計算通常涉及到方程求解,而用超算在極短時間內完成這類模擬是非常有難度的。超智融合可發揮深度學習“先訓練后預測”的優勢,雖然訓練過程可能會耗費較多計算資源,但其預測階段極為迅速,遠快于傳統科學計算領域的方法。因此,采用深度學習技術可以有效地滿足對實時性要求較高的場景需求。目前在氣象領域
78、,NWP(Numerical Weather Prediction,數值天氣預報)+AI 的融合框架系統已用于集合訂正與短臨預報結合的業務場景。集合預測訂正是指學習觀測數據與集合預報成員之間的規律,偏差訂正結果更接近真實的天氣特征;短臨預報則是利用歷史的觀測數據預測未來小時到天級別的天氣變化特征。在氣象預報的應用場景中,計算任務本身具有時效性需求,涉及的計算量大且對并行處理能力要求高。因此,超算與智算的融合是解決該場景需求的最優選擇,具備強大節點計算能力的系統能夠顯著提升整體的計算效率。(四)能源與環境領域的多尺度問題在能源與環境領域,碳捕捉與碳封存技術的重要性日益凸顯。該技術需要將二氧化碳通
79、過特定的技術手段進行捕捉,并尋找到安全的廢棄礦井或其他地質結構進行封存。在此過程中,一個至關重要的問題是,將二氧化碳直接注入地下是否會對地下水環境和土壤造成不利影響。這是該領域的一個典型的多尺度問題。在連續尺度上,也就是從 10 厘米到 100 米的范圍,二氧化碳的輸運過程對地下多孔介質的性質會產生顯著影響。在這一尺度上,主要的研究任務是求解反應輸運方程;39超智融合發展趨勢與技術路徑研究報告在更細小的孔隙尺度上,模型通常采用 Lattice Boltzmann 方法;而在納米尺度,研究的焦點轉向二氧化碳與礦物質之間的化學反應,這需要求解量子力學方程,屬于地球化學的研究范疇。在碳捕捉與碳封存的
80、問題中,多尺度和多物理特征的表現尤為突出。此外,數據的不確定性對模型的選擇和求解方法也有著顯著的影響。超算可在一定程度上滿足以上不同尺度的求解需求,但所需資源量巨大、并且耗時長。多尺度模型和模擬主要基于物理定律,而使用 AI 深度學習則可基于數據驅動,這兩者之間的互補性恰恰是超智融合的優勢。一方面,通過深度學習可以高效地處理多尺度模擬產生的龐大數據量,從而實現可預測的模擬;另一方面,可以利用多尺度模型來優化深度學習模型,解決其不適定性問題。這種互補性至關重要,超智融合應用在該領域潛力巨大。(五)數學領域的自動化超參數選擇問題在數學領域,經常需要處理大規模線性方程組。而采用代數多重網格方法進行求
81、解,通常會遇到算法中 smoother 部分超參數選取的難題,此問題在該領域歷來是研究瓶頸。40CHAPTER4 超智融合新型應用場景和實踐案例恰當的超參數選擇能夠顯著提升算法性能,但若選擇不當,則會對計算效率產生負面影響。例如在圖像處理方面,傳統的處理方法通常涉及超參數的設定,這些參數最初可能僅為一個數值,但為了實現更精細的處理,可能需要將其擴展為一個場。如何調整這些復雜超參數成為問題,傳統方法往往依賴于人工經驗或對較為粗略的假設進行大規模計算,這不僅耗時且效率低下。同樣,以上問題可通過人工智能和智能計算與超級計算的融合得到有效解決。在元學習(Meta-Learning)領域,已有眾多研究致
82、力于實現超參數的自動選擇,這也是自動化機器學習(AutoML)的重要組成部分。例如在圖像反問題中,對于控制正則化的超參數 的選擇,過去常常依賴于經驗性的手動調節,但現在基于人類已經擁有的大量觀測圖像及處理后的高質量圖像,可以訓練一個神經網絡,使其能夠基于觀測數據自適應地推斷出最優的 值。在設計過程中,如果某些環節的設計依賴于直覺和經驗,且已經擁有大量數據,同樣可以利用神經網絡來逼近這些環節。通過端到端的訓練,可以將隱藏在數據中的未知知識擬合成網絡,從而實現更高效、更精準的模擬和預測。41超智融合發展趨勢與技術路徑研究報告超智融合進展和目標愿景超智融合發展趨勢與技術路徑研究報告 42CHAPTE
83、R5 總結展望超智融合進展和目標愿景目前,超智融合技術已經成為全球計算領域的熱點話題,如在 2024 年的國際超算大會上,超智融合方案已經遍地開花,眾多高性能計算系統采用了 CPU+GPU/專用芯片的融合架構。我國在超算領域擁有深厚的技術積累,超智融合技術已被應用于超算互聯網的建設中,通過鏈接全國超算、智算中心,構建起一體化算力服務平臺。預計在未來,超智融合將推動計算芯片、應用、整機、系統的協同創新,加快計算技術的整體創新。一、超智融合技術發展發展路徑清晰:超智融合發展路徑已經逐漸清晰,包括超算支撐 AI 應用(for AI)、用 AI 技術改進超算(by AI)、超智實現內生融合(being
84、 AI)三個層面。這一技術路徑旨在通過超算和智算的融合發展,實現算力和算法的優化。應用實踐增多:超智融合技術已被應用于多個領域。今年 4 月,國家超算互聯網平臺上線,標志著我國在超智融合領域邁出了探索性步伐。該平臺依托一體化算力調度、數據傳輸、生態協作體系,為全社會提供了先進的計算服務。同時通過整合全國的超級計算資源,構建起一個高效、便捷的算力服務平臺。這一平臺的建設和運營得到了國家相關部門的認可,并被視為推動算力服務資源網絡化、普惠化、標準化的重要舉措。國家超算互聯網的建設和運營,不僅促進了算力資源的高效利用,也為數字中國建設提供了強有力的支撐。軟硬件協同創新:超智融合的關鍵技術包括混合型算
85、力資源或融合型算力體系的構建、軟硬件協同創新等。這些技術使得超智融合系統能夠同時滿足多種不同算力的應用需求,并在性能和效率上實現最大化。在硬件方面,超智融合技術追求以最低能耗實現最高性能,未來可能朝著可重構或柔性硬件的方向發展。在軟件方面,則從基本大模型理論出發,形成完整支撐人工智能的軟件棧,以實現軟硬件的協同優化。而在未來超智融合落地進程中,如國家超算互聯網通過軟硬件協同創新為超智融合提供了廣闊的應用場景和算力資源支持。二、超智融合目標愿景構建新型算力生態系統:超智融合技術的最終目標之一是構建更加適應 AI 時代需求的 43超智融合發展趨勢與技術路徑研究報告新型算力生態系統。這一系統將能夠同
86、時滿足多種不同算力的應用需求,為經濟社會發展提供強大的算力支撐。實現算力與算法的雙重優化:通過超智融合技術的發展,將實現算力與算法的雙重優化。一方面,通過超算的強大處理能力提升算力;另一方面,通過智算的算法優化能力提高計算效率。這將有助于突破當前的算力瓶頸,推動人工智能技術的進一步發展。推動計算技術革新:超智融合技術的發展將推動計算技術的革新。隨著技術的不斷進步和應用的不斷拓展,超智融合技術將成為未來計算技術演進的重要方向之一。這將為各行各業提供更加高效、靈活的計算方式,推動經濟社會的高質量發展。促進科學大模型創新:超智融合技術不僅用于基礎科學研究,也會更廣泛地滲透到技術研究甚至工程科學,促進
87、科學、技術和工程整個科研領域的重大范式轉變:AI4S 將大量觀察數據編碼成符號化的規律或知識,AI4T 則將大量滿足需求規范的樣例解碼成人造物的具體設計,進而對生物制藥、新材料發現、AI 天氣預報、芯片全自動設計等諸多領域產生重大影響。今天,大語言模型(large language model,LLM)主要從互聯網上學習海量樣本數據,未來,大科學模型(large science model,LSM)將超越人類語言的局限,學習、理解大自然的語言一種更高維度、更多尺度、更多模態、科學嚴謹的表達。在科研領域,模型驅動和數據驅動必將走向深度融合,面向垂直領域的更多高質量數據集和大科學模型將被構建出來,
88、并在超算互聯網等大型設施平臺的支撐下,融合成為跨學科、跨領域的統一的科學基座模型,以消除不同科學領域之間的壁壘。同時,借助日益成熟、擁有強泛化能力的大語言模型,與科學基座模型進行交互,形成可以指導機械臂精確執行操作,實現自動合成、自動實驗的科研智能體,從而讓每個人都有機會參與到科學發現的過程中來。促進多元算力融合:通算、智算、超算、量算等多元計算模式的融合發展,有望促進量子計算從科研成果走向產業化,并形成算力的終極形態。其中,“量超融合”可以通過基于超算的量子模擬器,加速模擬量子計算機的工作過程,或使用量子計算方法以指數級別加速超算領域的某些特定計算任務,提高超算的綜合性能;“量智融合”可以用
89、 AI 技術優化量子計算中的算法和參數,提供量子計算的效率和準確度;“量云融合”可以通過在公有云上搭建量子計算云平臺,降低量子計算機使用門檻,促進量子計算軟件開發。441 https:/hpdf.science/全球各國超算設施布局一覽美國高性能數據基礎設施(High Performance Data Facility,HPDF)1美 國 能 源 部(United States Department of Energy,DOE)提 出HPDF,旨在構建支撐數據密集型科學研究的先進基礎設施,并實現互聯,使研究人員能夠以新穎的方式無縫、安全地融合美國能源部世界級的研究工具、基礎設施和用戶設施,從根
90、本上加速發現和創新。HPDF項目確定的總投資估計在 3 億至 5 億美元之間。HPDF 被設想為一種國家資源,將成為推進 DOE 綜合研究基礎設施(Integrated Research Infrastructure,IRI)計劃的基礎。IRI 旨在為研究人員提供無縫融合DOE 的獨特數據資源、實驗用戶設施和高級計算資源,HPDF 的使命是通過提供最先進的數據管理基礎設施、能力和工具,從而促進和加速科學發現。高性能數據設施將在 IRI 計劃的運營和成功中發揮核心作用,可以滿足 DOE 國家實驗室用戶設施的數據和分析需求等。HPDF 將為人工智能研究提供一個至關重要的國家資源,為研究人員開辟新途
91、徑,解決科學和工程中的基本問題,這些問題需要靈活共享大型數據集和實時分析來自實驗的流式數據。DOE 是世界上最大的科學數據生產者,而 HPDF 將為用戶進入百億億次超級計算和百億億次數據時代提供廣泛的數據密集型研究的平臺。HPDF 將采用“中心(hub)-輻條(spoke)”模型,其中托馬斯杰斐遜國家加速器裝置(Thomas Jefferson National Accelerator Facility,JLab)和勞倫斯伯克利國家實驗室(Lawrence Berkeley National Laboratory,LBNL)將托管鏡像集中資源,并通過在輻條或其他地點部署和協調分布式基礎設施,啟
92、用高優先級的 DOE 任務應用。在 JLab 的領導下,JLab/LBNL 合作伙伴將組I 附件 I 45超智融合發展趨勢與技術路徑研究報告建一個世界級的 HPDF 中心項目團隊,交付一個地理上具有彈性和創新性的 HPDF 核心基礎設施,能夠滿足廣泛多樣的用戶、機構和使用案例的需求。JLab/LBNL 合作伙伴關系本身將為第一個輻條合作伙伴提供模板,并在 AI 賦能的綜合科學的新興時代開辟新的機構參與和外展路徑。Hub 和 spoke 將通過能源科學骨干網絡(ESnet)相互連接,ESnet 于2022 年 10 月升級為 ESnet6,聚合帶寬為 46 Tb/s,可以支持數 PB 的數據流。
93、其中一個國家實驗室預計將成為該設施中心的所在地,其在ESnet 上的地位在選擇過程中至關重要,該設施將被設計為動態配置計算、網絡資源和存儲,以訪問靜止或運動中的數據,支持使用精心策劃的數據集,以及對直接來自實驗或儀器的流式數據進行近實時分析。46歐洲高性能計算聯合體(EuroHPC JU)2歐洲的算力大國主要以西歐國家為主,其中德國、英國算力規模僅次于日本,另外法國、荷蘭、意大利、西班牙、波蘭、瑞士、瑞典也是入圍全球算力規模前 20 的國家,但是各國的算力規模與中、美的差距較大。另外,在超算方面,截至 2022 年 11 月,歐盟有 17 個國家擁有入圍Top500 的超算系統,數量占到全球的
94、 21%,算力規模占全球的 16%。EuroHPC JU 是歐盟于 2018 年在盧森堡以聯合倡議方式成立的組織。EuroHPC JU 允許歐盟、EuroHPC JU 參與國以及私人合作伙伴,通過協調匯集資金和資源,推動歐洲開發世界一流的超級計算生態系統。同時,EuroHPC JU 負責算力資源在歐盟各國間的統籌調度和分配,并不斷加大算力基礎設施建設和配套關鍵技術研發的投入力度,使歐洲成為超級計算領域的世界領導者。這提升了歐洲的科學卓越性和工業實力,支持其產業數字化轉型,同時確保其技術主權。2 https:/eurohpc-ju.europa.eu/index_enI 附件 I 47超智融合發
95、展趨勢與技術路徑研究報告當前 EuroHPC JU 的成員由公共和私人成員組成,其中公共成員包括歐盟(由委員會代表)以及選擇成為聯合承諾成員的成員國和相關國家;私人成員來自三個參與私人合作伙伴的代表,即歐洲高性能計算技術平臺(ETP4HPC)、大數據價值協會(BDVA)和歐洲量子產業聯盟(QuIC)。EuroHPC 聯合項目由其成員共同出資,2021-2027 年期間的預算約為70 億歐元。截至 2024 年 1 月,EuroHPC JU 已納管來自 9 個成員國的世界級超級計算機,包括歐洲第一臺 E 級超級計算機 Jupiter(EuroHPC JU 納管的超級計算機列表如下3。)序號機器名
96、稱持續性能petaflops峰值性能petaflops部署國家1LUMI386539.13芬蘭2LEONARDO246.54313.9意大利3MARENOSTRUM 5178.3311.95西班牙4MELUXINA12.8118.29盧森堡5KAROLINA9.5912.91捷克6DISCOVERER4.525.94保加利亞7VEGA6.9210.05斯洛文尼亞8DEUCALION7.2210葡萄牙9JUPITER1000N/A德國3 超算互聯網聯合體.超算互聯網白皮書 48日本高性能計算基礎設施(High-Performance Computing Infrastructure,HPCI)4
97、HPCI 網絡是由日本信息科學與技術研究組織(RIST)負責運營管理,通過高速網絡將分散在日本各大學和研究機構的主要超級計算機和存儲資源連接起來,形成國家級的共享計算環境,滿足各類用戶不同需求。HPCI為日本廣大用戶高效訪問國家HPC資源提供了科學技術計算環境。通過 HPCI 運營取得的研究成果不僅加速了科學突破和技術進步,還為提高產業競爭力、開發人力資源和擴大用戶群做出了貢獻。4 https:/www.hpci-office.jp/enI 附件 I 49超智融合發展趨勢與技術路徑研究報告HPCI 是一個通過身份驗證基礎設施和高速網絡(SINET6)連接日本大學和研究機構的超級計算機的系統(如
98、上圖所示)。HPCI 系統中提供單點登錄(Single Sign On,SSO),可有效利用全國范圍的 HPCI 資源。通過使用此功能,HPCI 用戶在登錄其中一個資源后即可無縫利用所有授予的 HPC 資源。HPCI 納管的計算資源類型異構多樣,目前跨學科大型信息基礎設施聯合使用/研究中心(JHPCN)由配備超級計算機的八個中心組成,包括北海道大學、東北大學、東京大學、東京工業大學、名古屋大學、京都大學、大阪大學和九州大學。中國超算互聯網自 2009 年科技部批準建設國家超級計算中心以來,國家超算中心已經支撐眾多關鍵領域科技成果發布。面對人工智能等技術的快速發展,全社會對算力提出更高要求,算力
99、中心亟需突破現有單體運營模式。為解決該問題,2023 年 4 月,國家超算互聯網正式啟動建設。2024 年 4 月,國家超算互聯網平臺正式上線。國家超算互聯網可將全國眾多超算中心連接起來,連接產業生態中的算力供給、應用開發、運營服務、用戶等各方能力和資源,并以互聯網的思維運營超算中心,構建一體化的超算算力網絡和服務平臺。國家超算互聯網依托一體化的算力調度、數據傳輸、生態協作體系,實現算力供給、軟件開發、數據交易、模型服務等產業鏈相關各方的緊密鏈接,構建市場化、互聯網化、標準化的先進計算服務環境。其建設的重要目標就是緊密連接供需方,通過市場化的運營和服務體系,實現算力資源統籌調度,有效支撐原始科
100、學創新、重大工程突破、經濟高質量發展等目標達成。超算互聯網不僅要在各算力中 50心之間形成高效數據傳輸網絡,更要構建和完善全國一體的算力調度網絡和面向超算應用的生態協作網絡,連接供需、拓展應用、繁榮生態,打造國家先進算力底座。國家高性能計算機工程技術研究中心以應用引領、實現算力高效利用為目標,建設超算互聯網,主要實現以下三方面突破:一是構建了多元異構算力資源池。通過應用封裝、算力標準化等方式,連接國家超算中心、全國一體化大數據中心等多種形態的算力資源,實現了全國 14 省 20 余城市 100 余家算力聯合體成員的全面入網,統籌異構算力,完成了多元算力的有效組網。二是打造了支撐算力互聯服務的軟
101、件生態。通過建立共性工具庫、數據集、應用軟件庫等,實現了連接上游 270 余家各類應用服務商、下游100 余個行業的軟件生態構建,支撐了 1000 余個應用場景的算力需求,促進算力供需方的高效對接,極大推動了算力的廣泛應用。三是支撐了算力應用領域的標準化體系建設。規范算力的接入、調度、服務和運營等,發布超算互聯網白皮書,完成了多項國家標準、團體標準的立項和研制,對規范我國算力服務的標準化發展起到了積極作用。截至目前,超算互聯平臺已形成算力多元、領域全面、高效運行的全國一體化算力網絡。平臺已發布算力商品 6000 余款,服務用戶超 10 萬個,促進了我國算力資源的網絡化、普惠化、標準化發展。此外,自 2019年 7 月科技部提出“建設國家超算網絡,形成全國超算資源共享新格局”的設想以來,國家超級計算濟南中心、國家超算無錫中心、清華大學、中國科學院計算技術研究所、中國科學院計算機網絡信息中心、中科曙光等多家單位從超算互聯網原型體系研究、高速互聯網絡、大規模數據傳輸、全國一體化算力調度、區域算網生態建設、標準研制等方面,開展了一系列前期試驗與探索。I 附件 I 51超智融合發展趨勢與技術路徑研究報告 52