《中國移動:OpenCOCA白皮書(2023)(31頁).pdf》由會員分享,可在線閱讀,更多相關《中國移動:OpenCOCA白皮書(2023)(31頁).pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、OpenCOCA 白皮書白皮書(2023)主編單位主編單位中國移動云能力中心參編單位參編單位(排名不分先后排名不分先后)云計算開源產業聯盟、深圳云豹智能有限公司、上海燧原科技有限公司、上海云脈芯聯科技有限公司、昆侖芯(北京)科技有限公司、銳捷網絡股份有限公司、中科馭數(北京)科技有限公司、上海壁仞科技股份有限公司、中興通訊股份有限公司、華為技術有限公司、新華三技術有限公司、珠海星云智聯科技有限公司、瀚博半導體(上海)有限公司目錄1.算力基礎設施發展現狀與挑戰.11.1 發展現狀與趨勢.11.2 應對機遇與挑戰.32.COCA 軟硬一體片上計算架構打造國家級自主可控算力基礎設施.52.1 COC
2、A-DPU 重構計算架構.62.2 COCA-GPU 融通算力生態.122.3 COCA-HPN 提供海量 AI 算力.153.從 COCA 走向 OpenCOCA,業內首個開放式的軟硬一體片上計算平臺.213.1 能力共享,激發行業活力.213.2 行業共治,規范行業標準.223.3 協作共贏,創造行業價值.234.展望與倡議.234.1 布局開放式智算生態,帶動國內智算產業成熟發展.234.2 共建產業聯盟,自主掌握云計算技術標準.234.3 聯創高精尖技術,引領云計算市場下一個黃金十年.24縮略語列表.25參考文獻.28OpenCOCA 白皮書(2023)11.算力基礎設施發展現狀與挑戰
3、算力基礎設施發展現狀與挑戰1.1 發展現狀與趨勢發展現狀與趨勢當前,以云計算、人工智能、大數據為代表的新一代信息技術蓬勃發展,傳統產業與新興技術加速融合,推動數字經濟的快速增長。算力基礎設施作為各行業信息系統運行所依賴的核心能力,在經濟社會運行中不可或缺。近年來,我國對算力基礎設施的重視程度不斷提升,國家發展和改革委員會在 2020 年 4 月明確定義新基建,即基于新一代信息技術演化而成的基礎設施,其中包括以數據中心和智能計算中心為代表的算力基礎設施。在狹義上算力基礎設施指以算力資源為主體的基礎設施,自下而上包括底層設施、算力資源、管理平臺和應用服務等,覆蓋超算中心、智算中心等多樣化算力體系。
4、在廣義上算力基礎設施指一體化 ICT 服務,包含融算力生產、算力傳輸和 IT 能力服務。作為新基建的核心組成部分,算力基礎設施在我國數字經濟發展過程中扮演著重大支撐角色。一方面,通過互聯網、大數據、人工智能等新興技術的深度應用,傳統基礎設施轉型升級形成融合基礎設施;另一方面,通過對科學研究、技術開發和產品研制的持續支持,算力基礎設施驅動技術革新和產業應用創新。超算智算成為算力規模增長主驅動超算智算成為算力規模增長主驅動算力作為一種新型生產力,主要包含信息計算力、數據存儲力等要素,通過算力基礎設施向社會提供服務。在數據存儲力方面,根據 IDC 數據統計,最近 5 年全球數據每年以兩位數速度持續快
5、速增長。同時,國家互聯網信息辦公室發布的數據顯示,我國數據資源規??焖僭鲩L,2022 年我國數據產量達 8.1ZB,同比增長 22.7%,全球占比達10.5%,位居世界第二,預計到 2025 年數據總量將躍居世界首位,占比達到全球總量的三分之一。在信息計算力方面,隨著云計算服務的日趨成熟,算力發展呈現單要素向多要素融合轉變。隨著“十四五”規劃持續推進,截止到 2022 年底,我國算力總規模達到 180 EFLOPS,排名全球第二,其中,通用算力規模為 137 EFLOPS,智能算力規模為 41 EFLOPS,超算算力規模為 2 EFLOPS,近五年來,我國整體算OpenCOCA 白皮書(202
6、3)2力規模保持近 30%的增長速度。隨著算力規模持續擴大,智算和超算逐漸成為新的算力增長引擎。智算方面,根據 ICPA 智算聯盟統計,截至 2022 年底,全國已投運的人工智能計算中心有20 余家,在建的也超過 20 家。地市企業依托智能計算中心的算力服務,結合本地產業特色,加快人工智能應用創新,聚合人工智能新業態。例如武漢人工智能計算中心陸續孵化出紫東太初、武漢 LuoJia 等大模型1。超算方面,2023 年 6月發布的最新全球超級計算機 TOP500 榜單中,中國以 134 套上榜數量位居全球第二,占 26.8%。應用創新促進數據中心融合升級應用創新促進數據中心融合升級近年來隨著HPC
7、(High Performance Computing)、人工智能和大數據等應用的蓬勃發展,原來的傳統數據中心已無法滿足新型應用的承載需要,新型應用以集群式服務為載體,具有超大規模并行計算的特征,往往依賴數十TB的高質量數據集、數十萬CPU核和上萬塊GPU,以及節點間高效率的集合通訊,需要算力、算法、數據多要素的融通協同,迫使傳統數據中心向新型數據中心演變。新型數據中心不僅是某些設備的集合,而且是包含計算、存儲、通信能力以及環境、安全等配套能力,可通過內部設備傳遞、處理、展示數據信息,最終服務于客戶的數據服務系統,具備高技術、高算力、高能效、高安全的特點,具體表現在算力規模與密度的逐步提高、“
8、綠色低碳”新技術應用逐步擴大、本地或跨域智慧化運維管理逐步升級、信息技術與運營技術的一體化安全得到保障。從我國總體算力供需格局來看,東西部算力供需失衡,東部地區算力應用需求大且資源緊張,而西部地區算力資源相對寬裕,通過國家“東數西算”戰略構建布局合理的新型數據中心將成為推動未來社會數字化發展、促進社會產業化變革乃至重構全球競爭格局的關鍵舉措。隨著人工智能和物聯網技術的發展,新型數據中心算力整體需求結構逐漸發生變化,基礎算力所占比重逐步降低,智能算力與超算算力比重正快步攀升。(1)智能計算中心智能計算中心是指基于最新人工智能理論,采用領先的人工智能計算架構,提供人工智能應用所需算力服務、數據服務
9、和算法服務的公共算力新型基礎設施。智能算力主要是基于GPU(Graphics Processing Unit)、FPGA(Field ProgrammableGate Array)、ASIC(Application Specific Integrated Circuit)或其他加速器支撐的高OpenCOCA 白皮書(2023)3并行、高密集計算能力的異構算力。近年新推出的大語言模型(LLM,LargeLanguage Module)所使用的數據量和參數規模呈現“指數級”增長,帶來智能算力需求的爆炸式增加。智能計算中心主要應用于多模態數據挖掘、智能化業務高性能計算、海量數據分布式存儲調度、人工智
10、能模型開發、模型訓練和推理服務等場景,所產生的大規模生產算力將為智慧醫療、智慧城市、智慧交通等領域的應用提供基礎支撐。(2)超級計算中心超級計算中心是指配備高性能計算設備和軟件,擁有超級數據存儲和處理能力,且能夠提供超級計算服務的綜合產業化基地。超級計算指利用超級計算機的集中式計算資源來處理極端復雜和數據密集型的問題。超算芯片以CPU為主,可含部分GPU加速器,主要提供雙精度浮點數(64 位)計算能力,其中每秒千萬億次的運算被稱為“P級”超算,每秒百億億次的運算被稱為“E級”超算。近年來,我國超算中心發展迅猛,目前已擁有 14 所國家級超級計算中心。超算中心主要運用于尖端科研、國防軍工、產業升
11、級和重大社會問題等大科學、大工程、大系統中,是國家科研實力的體現,也是國家科技發展水平和綜合國力的重要標志。超算中心所提供的算力將廣泛應用于石油氣勘探、生物醫藥、海洋工程、氣象預測和智慧城市等眾多領域,深刻影響著國家產業和人民生活。新算力和新技術相互促進協同發展新算力和新技術相互促進協同發展一方面,基礎設施計算技術加速演進,異構計算成為智算/超算中心的主流架構。在摩爾定律放緩、顛覆技術尚未成熟的背景下,以AI大模型為代表的多元應用創新驅動算力技術加速進入智能計算新周期,進一步帶動計算產業的發展。智能計算時代,搭載各類計算加速芯片的AI服務器將成為智能算力的主要來源。另一方面,先進計算體系化創新
12、活躍,創新模式和重點發生了轉變,呈現出軟硬融合、系統架構創新的特征。技術創新持續覆蓋基礎工藝、硬件、軟件、整機不同層次,互聯持續高速化、跨平臺化演進,異構融合加速超級計算和智能計算協同發展。1.2 應對機遇與挑戰應對機遇與挑戰2023 年 10 月 8 日,六部委重磅發布 算力基礎設施高質量發展行動計劃,從計算力等四個方面提出了到 2025 年發展量化指標,提出到 2025 年算力規模超OpenCOCA 白皮書(2023)4過 300 EFLOPS,智能算力占比達到 35%2,算力基礎設施的高質量發展面臨如下挑戰。隨著摩爾定律的放緩,傳統以 CPU 為中心的數據中心體系存在性能瓶頸、成本壓力等
13、問題,一方面,帶寬性能增速比失調,通用 CPU 的性能增長已無法滿足新型算力基礎設施的數據增長需求;另一方面,云服務商的 TCO(Total Costof Ownership)急劇增加,百 Gbps 的高性能網絡就需要 12 顆以上 Xeon CPU 的核。因此,數據中心的體系架構需要從“以計算為中心”轉向“以數據為中心”,即將“CPU 處理效率低下、GPU 處理不了”的虛擬化計算、網絡、存儲等負載卸載到專用 DPU(Data Processing Unit),提升整個計算系統的性能、降低系統的 TCO。AI(Artificial Intelligence)場景各廠家 GPU 芯片技術碎片化3
14、、大模型需要激發 AI 芯片性能,AI 推理場景下 GPU 資源的利用率較低。多樣化的 GPU 生態導致用戶使用不同 GPU 芯片時增加了遷移成本;其次,模型的參數及數據量的倍增要求智算中心具備高效的訓推套件來提升效率;最后,整卡或固定比例的 GPU算力資源的分配方式,使得在推理場景下資源的利用率較低且算力資源調度不靈活。大模型運算中,通信是一個重要組成部分,部分 GPU 進行運算,運算完成后還需要與其他 GPU 之間交互數據。一方面,通訊帶寬越大,數據同步越快,GPU 的使用率就越高。另一方面,大模型對時延和丟包要求也很高。因為,多個 GPU 運算同一個任務,花費時間最長的 GPU 運算完,
15、才算完成一個運算任務。丟包對 GPU 訓練的影響明顯,在極端情況下,丟包甚至會導致 GPU 訓練失敗。XPU(eXtreme Processing Unit)算力資源從體系結構設計到指令集架構再到接口設計,都是相對封閉的,相互之間不兼容,且難以修改或進行普適性擴展。整合多種異構算力資源并采用統一編程框架對現有計算平臺來說復雜度高,需要一套標準化且能高效管理異構算力資源的開放平臺。為了應對上述挑戰,中國移動提出 COCA(Compute on Chip Architecture)軟硬一體計算架構。其中,COCA-DPU 模塊,針對數據中心場景,通過計算、存儲、網絡、安全和管控五大引擎實現云化加速
16、;COCA-GPU 模塊,用于提高 GPU 訓練推理效率和提升 GPU 資源利用率;COCA-HPN(High Performance Network)模塊,用于提供大帶寬、低延時及零丟包的高性能網絡服務能力,釋放 AI 集群性能。OpenCOCA 白皮書(2023)5既是挑戰也是機遇,為了實現構建更宏大的算力、更高效的連接和更可靠的算力體系愿景,秉承“開放+共贏”理念,中國移動同步孵化 OpenCOCA(OpenCompute on Chip Architecture)開源項目,包含 DPU、GPU 和 HPN 三個模塊,用于共建 XPU 產業聯盟,聯創高性能技術,破解算力體系生態封閉難題,
17、同時布局國產化智算生態,帶動國產化智算產業成熟發展。2.COCA 軟硬一體片上計算架構打造國家級軟硬一體片上計算架構打造國家級自主可控算力基礎設施自主可控算力基礎設施COCA 以構建普惠的高性能算力為核心目標,以打造自主可控的高性能算力基礎設施為宏偉愿景,助力數字中國建設。遵循“軟件定義,硬件加速”的理念,COCA 主要由 COCA-GPU 模塊、COCA-DPU 模塊、COCA-HPN 模塊組成。其中,COCA-DPU 模塊,圍繞計算、存儲、網絡、安全、管控形成“五大卸載引擎”,基于軟硬一體重構算力基礎設施的數據中心;COCA-GPU 模塊圍繞 AI 抽象、AI 加速、AI 池化技術,拉通
18、GPU產業上下游,共同化解不同 GPU 平臺“碎片化”的問題;COCA-HPN 模塊,針對大規模集群一方面需要海量的 GPU 算力,另一方面也將面臨更為嚴重的網絡擁塞問題的特點,提升算效突破算力互聯瓶頸。COCA 以 DPU 為基礎,通過 HPN 與國產 GPU 生態的深度融合,重構算力基礎設施,聯創高性能網絡技術,共建自主 DPU+GPU 產業聯盟,帶動國產化智算產業成熟發展。圖 2-1 COCA 軟硬一體片上計算架構OpenCOCA 白皮書(2023)62.1 COCA-DPU 重構計算架構重構計算架構DPU 是一種提供數據中心基礎設施服務的處理器,可以卸載及加速網絡、存儲、安全和管控等基
19、礎功能,釋放更多的 CPU 算力供客戶使用4。DPU 通常由通用處理單元和專用加速引擎組成,通用處理單元處理控制平面業務,專用加速引擎保證數據平面的處理性能,在保證通用性的同時,突破通用基礎設施虛擬化的數據處理性能瓶頸。將虛擬化軟件框架由單 CPU 平臺支撐擴展至由CPU+DPU 雙平臺支撐,可大幅增強云基礎設施的數據處理能力。COCA-DPU 模塊通過對算力基礎設施的數據中心進行軟硬一體重構,能對計算、存儲、網絡、安全和管控等功能進行加速和卸載。COCA-DPU 模塊通過抽象的驅動適配層實現對 DPU 的標準接入,可分為計算、存儲、網絡、安全、管控五大引擎,其中計算引擎提供標準化的 virt
20、io-net(Virtual I/O Network)、virtio-blk(Virtiual I/O block)后端接口,實現虛擬化 I/O 的數據面和控制面的加速和卸載;存儲引擎在 DPU 上實現存儲接口后端,通過加載標準 virtio-blk 或NVMe(Non-Volatile Memory Express)驅動實現塊存儲的讀寫,無需額外的廠商專用驅動;網絡引擎采用標準的卸載接口和流表實現網絡流量的卸載與加速;安全引擎通過通過信任根機制以及標準的 IPsec 等加密通訊協議對系統和多租戶網絡進行安全防護,并基于 DPU 提供有效的卸載方案;管控引擎屏蔽了裸金屬、虛擬機和容器的產品形態
21、差異,從而實現 DPU 資源統一管理和全鏈路管控運維。圖 2-2 COCA-DPU 系統架構OpenCOCA 白皮書(2023)72.1.1 計算引擎計算引擎計算引擎聚焦在 I/O 虛擬化卸載和熱遷移。計算引擎通過 DPU 提供的標準化的 virtio-net、virtio-blk 后端接口,實現虛擬化 I/O 的數據面和控制面的加速和卸載?;?Linux 內核層面和用戶層面(例如DPDK、SPDK)的 virtio-net、virtio-blk 前端驅動,DPU 能夠和 host 側的 VM 或者裸金屬實現無縫對接,提升網絡 I/O 的性能,完全卸載 host 側 CPU 對 virtio
22、接口處理的資源開銷。圖 2-3 COCA-DPU virtio-net/blk 卸載為了實現現代算力基礎設施資源靈活快速管理,計算引擎需要支持熱遷移功能。vDPA(Virtual Data Path Acceleration)技術是其中一種有效的途徑。vDPA 技術的核心是 vDPA Framework,能夠實現 virtio 控制面和數據面的分離。通過在virtio 控制面和廠商私有控制面之間設置中間適配層,既避免了全直通下控制面過于暴露存在的安全隱患,又能屏蔽硬件差異,使不同硬件卸載廠商之間的熱遷移成為可能。vDPA 框架可在用戶態也可在內核態實現,計算引擎適配和支撐vDPA 的不同技術演
23、進路徑,提供針對算力基礎設施的熱遷移功能。OpenCOCA 白皮書(2023)8圖 2-4 vDPA 框架5672.1.2 存儲引擎存儲引擎在云計算中,DPU 可以為云主機或裸金屬提供存儲加速功能,通過軟硬件結合方式實現存儲協議卸載,靈活實現存儲 IOPS(Input/Output Operations PerSecond)高性能和 guest CPU 低占用率的要求。數據中心通過 DPU 彈性存儲實現了數據中心存儲資源的池化,使數據中心計算實例可以按需分配存儲資源,并實現彈性伸縮,提高資源利用率,從而降低數據中心運營成本。在彈性存儲中的云盤掛載與云盤啟動過程中,COCA-DPU 可以實現裸金
24、屬實例的快速部署,通過將裸金屬實例和虛擬機實例的部署流程、鏡像資源和網絡配置歸一化,簡化了部署過程,提升了用戶體驗,降低了運營成本。DPU 實現 guest 側存儲接口的卸載,主要方式為在 DPU 上實現存儲后端接口,并提供 virtio-blk 或 NVMe(Non-Volatile Memory Express)的塊設備接口,guest中加載標準 virtio-blk 或 NVMe 驅動實現塊存儲和文件存儲的讀寫,無需額外的廠商專用驅動。DPU 網絡側接口則將業界常用的遠端存儲協議,包括iSCSI(Internet Small Computer System Interface)、Ceph
25、 RBD(Ceph Rados BlockDevice)、NVMe-oF(NVMe over Fabrics)910前端卸載到 DPU,其中基于 DPU 提供的 RDMA(Remote Direct Memory Access)網絡功能實現的 NVMe-over-RDMA網絡存儲協議可以完成數據中心對各種存儲設備的資源池化,大幅度提升了塊存儲性能,滿足了租戶對存儲性能的需求。OpenCOCA 白皮書(2023)9圖 2-5 COCA-DPU 存儲卸載2.1.3 網絡引擎網絡引擎隨著 CPU 與網卡性能“剪刀差”的產生,傳統的、圍繞 CPU 的網絡加速方案逐漸難以應對不斷增長的 I/O 需求,而
26、投入更多 CPU 來換取 I/O 性能的做法則相對低效。COCA-DPU 通過網絡引擎將虛擬交換機的功能卸載到 DPU,降低主機 CPU 在網絡轉發業務功能上的開銷,提高主機可售賣計算資源,同時提升虛擬機的網絡性能。圖 2-6 COCA-DPU 網絡卸載DPU 作為數據處理的核心,在以 DPU 為中心的數據中心架構下,網絡 I/O請求由 DPU 處理和加速,可以將網絡消耗的 I/O 資源全部卸載到 DPU 上,完全釋放服務器的 CPU 資源。一方面因為 DPU 低功耗的特點,數據中心 I/O 的能耗可以大幅降低。另一方面,CPU 資源可 100%用于計算,這提升了單臺服務器的計算密度,與同等規
27、模的數據中心相比,該架構可以提供更多的計算資源。OpenCOCA 白皮書(2023)102.1.4 安全引擎安全引擎COCA-DPU 采用基于數字簽名的可信根方式確保固件啟動的安全性和完整性。DPU 中的一次性非易失存儲區中存放公鑰,該區域一次燒結后,不能再被更改,該公鑰作為 DPU 安全啟動的可信根計算基礎。在 DPU 固件發布時,將采用數字簽名系統的私鑰進行加密。私鑰為簽名系統保留,不被外泄。當 DPU 啟動時,將采用逐級驗簽的方式,確保系統固件的安全性和可靠性。公有云多租戶場景,數據流量以明文形式進行傳輸存在風險,為保證數據的安全可靠,可以通過 COCA-DPU 以租戶為粒度對客戶的原始
28、報文進行加解密,防止數據在傳輸過程中被非法竊取。首先,DPU 對主機側發來的業務 VM 虛機流量進行分析,觸發本端和對端的 DPU 引擎進行 IKE(Internet Key Exchange)協商,建立 IPsec(Internet Protocol Security)加密隧道。其次,當 IPsec 加解密隧道建立后,本地 VM 的感興趣流經過本端 DPU 引擎時,本端 DPU 安全引擎會將此流量進行加密并添加新的報文頭,然后發送到目的端 DPU。目的端 DPU 引擎收到密文后,對密文解密,并上送目的 VM,從而完成了數據加密傳輸流程。上述過程,除 IKE 協商外,均可以通過網絡引擎和安全引
29、擎對業務進行加速。圖 2-7 COCA-DPU 安全卸載82.1.5 管控引擎管控引擎管控引擎可以為云平臺提供裸金屬、云主機和容器的資源管理和監控功能,通過將此部分下沉至 COCA-DPU,屏蔽了裸金屬、虛擬機和容器的產品形態差異從而實現 DPU 資源統一管理,同時提供 DPU 全鏈路管控運維能力?;诠芸匾鎸⒃破脚_管理組件從主機 CPU 卸載到 DPU,不僅解決了主機 CPU 資源占OpenCOCA 白皮書(2023)11用的問題,增強了計算實例的性能和穩定性,也提高了計算實例的安全性。此外,除云主機管理組件外,VNC(Virtual Network Console)、監控腳本、系統日志等
30、相關運維組件同樣卸載到 DPU 上,可以降低虛擬化場景下主機 CPU 資源開銷,為裸金屬提供和虛擬機一致的交付和運維體驗。圖 2-8 COCA-DPU 管控系統架構與此同時,將管控組件部署在 DPU 中具有如下優勢:DPU 可直接接入管控系統,實現上線、拉起和運維自動化,將管控系統與主機解耦,提高運維效率;對主機 CPU 系統零侵入,實現管控與主機系統解耦,提高管控開發和部署效率;實現裸金屬和虛擬化場景 VM 和 BM 的并池,提高計算資源利用率;OpenCOCA 白皮書(2023)12圖 2-9 COCA-DPU 管控部署架構另外,管理組件本身對 CPU 的計算性能要求不高,DPU 中的通用
31、 CPU 性能完全可以滿足需求,而且管理組件卸載到 DPU 之后能夠將全部主機 CPU 資源提供給上層業務使用,同時也減小了管理軟件對上層業務應用程序的干擾,進一步提升整體算力基礎設施的算力密度和安全性。2.2 COCA-GPU 融通算力生態融通算力生態COCA-GPU 模塊包括 AI 抽象、AI 加速以及 AI 池化三大技術,分別解決AI 生態割裂、大模型訓練/推理性能加速以及算力資源調度不靈活的問題。AI 抽象屏蔽底層硬件差異構筑統一的 AI 生態;AI 加速為大模型分布式訓練及生產部署提供了一套加速套件全面提升 AI 性能;AI 池化通過軟件定義算力,在細粒度切分算力的同時打破物理邊界實
32、現算力資源的靈活取用。通過上述三大模塊,COCA-GPU 可以有效幫助客戶降低遷移成本,提高 GPU 訓練推理效率及 GPU資源利用率。OpenCOCA 白皮書(2023)13圖 2-10 COCA-GPU 系統架構通過在框架和 GPU 計算庫之間新增 AI 抽象層定義了統一的算子標準,使得上(框架)下(GPU)兩層有效解耦。不同廠商基于這一套標準里抽象的函數聲明列表,根據自己的硬件封裝算法及內存拷貝、流創建銷毀等設備操作功能,標準化地接入 COCA-GPU。2.2.1AI 抽象抽象AI 抽象旨在屏蔽不同架構 GPU 芯片的軟硬件差異,聯合國內外 GPU 行業聯盟共同構筑一套統一標準,實現 A
33、I 應用跨芯片的無感遷移,解決當前 AI 生態的多樣化、碎片化的問題,帶動國產 GPU 統一生態的發展。圖 2-11 COCA-GPU AI 抽象一是面向用戶提供主流框架適配器,針對不同 GPU 芯片及軟件棧為用戶提供了統一抽象層,實現無感知的跨 GPU 遷移部署 AI 應用。二是面向 GPU 廠商聯合制定了一套統一的算子標準支撐 AI 模型的開發應用,各硬件廠商基于自家OpenCOCA 白皮書(2023)14硬件特性主動適配接入,構建標準化的硬件接口,推動國產生態繁榮發展。三是面向 AI 應用提供了統一的算力 API,簡化了各類 GPU 廠商軟硬件棧,建立統一納管及映射機制。算子標準制定了一
34、套抽象的接口規范,并衍生出一系列的統一算力 API 接口。對下由各廠商根據該接口及參數列表實現具體的功能,對上供COCA-GPU AI 抽象提供的框架適配器調用。由于上層框架直接調用統一算力API,屏蔽底層硬件差異,因此可以實現一次編碼在不同 GPU 執行,大大降低用戶的研發和遷移成本。2.2.2AI 加速加速AI 加速是面向 AI 任務提供的加速引擎包括訓練和推理加速套件,針對底層硬件、網絡、通信及算子庫對訓練/推理過程進行優化,充分發揮硬件能力,進一步提升 AI 應用性能表現及效率,降低客戶及企業的成本。圖 2-12 COCA-GPU AI 加速分布式訓練過程中,卡間及機間的通信往往成為制
35、約大模型訓練過程的主要性能瓶頸點。CTK(Compute on Chip Architecture Training Kit)為用戶提供了開箱即用的訓練加速套件。分布式通信策略一方面通過在梯度傳遞過程中同步進行計算操作,來提高整體的訓練效率;另一方面通過降低通信頻次及數據量來優化分布式訓練的通信過程。高性能通信庫根據網絡拓撲并結合 RDMA 網絡最大程度地優化分布式訓練中的通信拓撲與時長,提升整個訓練過程的效率。訓練完的模型直接投入生產部署,其推理性能通常較差并且算力資源的使用效率很低。CIK(Compute on Chip Architecture Inference Kit)推理加速套件提
36、供計OpenCOCA 白皮書(2023)15算圖優化以及高性能算子庫助力用戶的業務模型可以針對不同硬件特性進行優化加速。圖優化在模型真正執行推理前,通過圖精簡以及算子融合等技術對模型的計算量進行壓縮,從而提升推理速度;高性能算子庫則針對顯存訪問及算法優化等實現了一系列高性能場景化算子,幫助用戶編譯最優的部署方案,提升推理性能、降低生產成本。2.2.3AI 池化池化AI 池化通過軟件定義 GPU 算力,打破原有的 AI 應用直接調用物理硬件的方式,增加軟件層對 GPU 算力進行統一的抽象,實現算力的細粒度切分以及 AI應用與物理 GPU 的解耦。圖 2-13 COCA-GPU AI 池化管理調度
37、組件是 AI 池化單元的核心組件,負責管理集群所有服務器上物理GPU 設備、軟件定義的虛擬 GPU 算力、服務器網絡信息。提供虛擬 GPU 算力的統一調度、GPU 計算節點上其他功能組件的服務注冊與發現功能。算力服務插件部署于每臺 GPU 服務器之上,用于發現節點上的物理 GPU 資源,通過軟件定義的方式將 GPU 算力進行細粒度切分與抽象,并上報到管理調度組件。同時通過配合客戶端運行時組件實現虛擬算力的遠程掛載??蛻舳诉\行時組件部署在用戶云主機、容器或者裸金屬之上,當使用 GPU算力執行 AI 應用時,相關算力請求會被客戶端運行時組件接管并分發到對應的算力服務插件,對用戶實現無感知地本地調用
38、遠端算力。2.3 COCA-HPN 提供海量提供海量 AI 算力算力OpenCOCA 白皮書(2023)16隨著 ChatGPT(Chat Generative Pre-trained Transformer)的出現,AI 大模型相關應用百花齊放,紛紛進入到億級參數網絡時代,徹底引爆了智算中心領域對算力規模的需求。當前智算中心規?;懔Σ渴饠U展趨勢上主要分為節點內算力連接和節點間算力連接兩個主要方向。其中,節點內芯片間高性能互聯網絡以NV-LINK(NVIDIA-LINK)和 CXL(Compute Express Link)1112技術為代表,其主要特點是高帶寬、低延遲、低功耗和高密度;另外
39、,節點間高性能互聯網絡以IB(InfiniBand)13和 ROCE(RDMA over Converged Ethernet)v2 技術為代表,其主要特點是高帶寬、低延遲、機房內傳輸和規?;ヂ?。用于分布式訓練框架通信的高性能集合通信庫通過發現拓撲并選擇最優通信路徑進行集群通信,進而實現可以線性擴展的規?;悩嬎懔?。在 HPN 智能管理運維方面,智能管控系統不僅能夠對節點內和節點間高速互聯網絡進行管理監控,還能夠根據監控數據智能化調整網絡配置參數以及故障診斷和排除。綜上,通過軟硬一體、端網協同等方式共同實現智能化管理運維的異構算力互聯網絡。圖 2-14 COCA-HPN 異構算力互聯架構
40、2.3.1 高性能高性能集合通信集合通信庫庫高性能集合通信庫在 AI 大模型訓練過程中主要負責管理異構算力芯片間的數據通信,業界主流應用于異構算力通信的開源 GPU 集合通信庫,如NCCL(NVIDIA Collective Communications Library),無法做到在任何網絡結構中都發揮出極致的通信性能,大規模訓練任務的集群效率存在極大的改善空間?;谝苿釉颇芰χ行淖远x的異構計算互聯網絡拓撲結構的特點,COCA-HPN 正OpenCOCA 白皮書(2023)17自研定制化的高性能集合通信庫,在 AllReduce 和 All-to-All 等常用通信模式下,能夠有效利用內外部
41、互聯帶寬能力,預計數據通信效率能提升 20%以上。同時,在設備管理、拓撲感知、通信選路等方面 COCA-HPN 也將進行定制化設計。(1)多軌網絡的流量路徑規劃:異構算力 GPU 之間通信路徑存在多種異構拓撲,如節點內部互聯網絡 NVLINK 和 PCIe Switch 等,節點間互聯網絡 RDMA。集合通信庫在路徑規劃過程中應充分考慮物理拓撲結構,充分利用節點內和節點間網絡。在多軌網絡中,異構算力節點分配需結合算力連接智能管理系統,將算力資源分配在具有親和性的網絡位置,盡可能實現節點間互聯網絡在一跳交換機上實現互通。同時,充分利用異構算力節點內網絡通信高吞吐的特點,優先將數據在節點內同步,再
42、利用多軌網絡進行節點間數據通信。(2)異構網絡數據傳輸優化:異構網絡將節點間數據傳輸的會話數量大幅減少,流量規模按節點內傳輸、機架內一跳交換機傳輸和三跳交換機傳輸依次遞減,同時,將短數據流在節點內匯聚為長數據流的方式來減少會話數量,降低對RDMA 智能網卡上 RDMA QP 數量規模的要求,從而提升整網的傳輸性能。(3)通信原語拓撲自適應:異構算力集合通信庫通過對異構網絡拓撲的感知,在集合通信過程中使用不同通信原語時,充分利用網絡拓撲特點,選擇數據通信方式。如節點內互聯方式是點對點時,做 Ring AllReduce 需要建立多個 Ring,充分利用節點內互聯網絡帶寬;如節點內互聯方式是 Sw
43、itch 時,做 RingAllReduce 則無需建立多個 Ring。2.3.2 內部互聯網絡系統內部互聯網絡系統大模型的訓練和推理場景中,需要使用到多張 GPU 卡聯合進行計算,計算過程中需要多張卡對計算結果進行分發、收集和規約計算等數據交互操作。執行這些數據交互操作所需要的時間,通常占到整個訓練或推理過程耗時的 30%-40%左右。因此,節點內通信的性能,直接影響了模型訓練或推理的整體性能。當前算力基礎設施的節點內通信,主要分為如下兩種互聯方案。(1)PCIe(Peripheral Component Interconnect express)Switch 互聯隨著 PCIe 技術的發展
44、,以 PCIe x16 雙向傳輸為例,總的雙向傳輸帶寬從Gen3 的 32GB/s 發展到 Gen4 64GB/s,再到 Gen5 128GB/s。PCIe/PCIe Switch 作為異構算力互聯的基礎拓撲得到了廣泛應用,進一步依托 GPUDirect P2P 技術實現節點內 GPU-GPU、GPU-DPU 芯片間互聯通信。在提供通信帶寬擴展方面,OpenCOCA 白皮書(2023)18PCIe/PCIe Switch 的通信帶寬限制了點對點間的線性擴展能力,進而限制了高性能異構算力在節點內互聯互通的應用規模。(2)芯片間高速總線互聯受限于 PCIe Switch 的通信性能,英偉達提出了自
45、定義的高速總線互聯技術NV-LINK,作為 PCIe 的替代技術,實現 GPU-GPU 以及 GPU-CPU 之間高速大帶寬總線互聯和內存共享能力。NVLINK 核心技術體現在增加連接密度的同時還能有效控制數據傳輸功耗,同時實現內存地址空間共享和互訪。如下圖,經過 4代 NVLINK 技術的迭代,在 NVLINK4 中單個 GPU 已經支持 18 個 NVLINK 連接,共 900GB/s 的雙向總帶寬能力。圖 2-15 英偉達 NVLINK 演進過程14此外,CXL 也是目前業內重點關注的標準化協議。CXL 聯盟于 2019 年由英特爾發起,聯合了眾多 CPU 廠商、服務器廠商和云廠商,共同
46、推進 CXL 標準發展,目前標準已經更新到第三代,能夠有效提升異構算力芯片緩存級和內存級通信效率。緊跟行業技術發展的路徑,移動云提出 COCA-HPN X-LINK,通過卡間直連以及設備內存統一管理,提升卡間數據交互的效率。(1)加大卡間互聯的數據傳輸帶寬GPU 通過 PCIe 接口與主機相連,一般的卡間通信需要經過 GPU1 顯存-主機內存-GPU2 顯存的冗長鏈路,經歷多次設備側和主機之間的數據傳輸。為了解決這個問題,X-LINK 提供額外的數據傳輸通路,從而提供了更高的卡間帶寬,且避免了數據多次搬運。(2)減少卡間數據傳輸的額外開銷由于 PCIe 設備內存和主機內存處于不同的物理空間,難
47、以做到統一的管理OpenCOCA 白皮書(2023)19和協作,并導致不同設備和主機間進行數據交互時,產生大量額外開銷,降低了數據傳輸效率,且增加了數據傳輸過程中的不穩定性。支持 CXL 設備,可以將設備內存與主機內存作為一個邏輯整體來統一管理,從而減少設備和主機間的數據傳輸開銷,提升整機協作效率。類似的,在同一臺服務器內的多個 CXL 設備,也可以減少彼此之間的數據傳輸開銷,從而提升數據傳輸的效率和穩定性。2.3.3 外部互聯網絡系統外部互聯網絡系統除了提升和解決節點內物理連接層面的帶寬時延問題之外,COCA-HPN 也聚焦節點間的互聯能力,旨在提供一套統一、可擴展、高可靠的網絡連接。主流的
48、被應用于 HPC、智算中心的節點間計算通信的網絡協議包括:IB、ROCEv1、ROCEv2、iWARP、SRD(Scalable Raliable Datagram)15以 及Solar-RDMA16等。目前 IB 和 ROCEv2 得到了更多的發展機會,IB 是一種原生RDMA 協議,在物理層和傳輸層上都進行了優化,提供了非常高的數據傳輸帶寬和低延遲,但是與特定的硬件耦合較強,部署成本高昂。ROCEv2 突破 ROCEv1只能運行于 L2 子網的限制擴展到 L2、L3 層網絡,從而有了更大的應用空間,同時配合多種的擁塞控制算法,例如 DCQCN(Data Center Quantized C
49、ongestionNotification)、HPCC(High Performance Congestion Control)17、Timely、Swift 等,提升了網絡性能,從而使得 ROCEv2 在 HPC 和分布式大模型訓練逐步得到應用和推廣。當前大模型訓練數據量和參數數量仍在成倍增長,AI 模型的規模在過去 4年維持了每年 10 倍的增長,除了 GPU 本身的算力仍需提升外,超大的規模集群還將面臨更為嚴重的網絡擁塞問題。COCA-HPN 能解決這一問題,移動云推出面向 RoCE 的“烏蒙”高性能網絡,其原創的“烏蒙”擁塞控制協議,實現了高精度的擁塞信號檢測能力,可降低擁塞時延,提升
50、集群算效。在智算中心的典型“中長流”場景下,集群網絡性能可以提升 48%,可支持萬卡級智算集群組網能力。OpenCOCA 白皮書(2023)20圖 2-16 COCA-HPN 自研“烏蒙”擁塞控制協議2.3.4 HPN 智能管控系統智能管控系統當前新型智算數據中心場景,運維手段在應對高性能參數網絡的高穩定性需求時存在著挑戰,主要表現在:一是無法及時發現故障及網絡性能波動,部分故障從發生到發現通常到小時級別,而且一些微突發的故障因為監控粒度不夠導致監控遺漏。二是故障響應及解決速度慢,主要在于發現故障之后的排障分析耗時長,無法快速解決故障從而造成 GPU 運算資源的浪費。針對以上問題,移動云推出
51、COCA-HPN 智能管控系統,在自研的智能管控分析平臺上通過鏈路狀態監測、RoCE 網絡性能實時監控分析以及快速故障根因分析來解決如上問題。(1)網絡鏈路狀態檢測對全網鏈路進行主動的連通性探測(可通過 IPIP 標準協議,不綁定網絡設備),秒級快速探測全網所有網絡路徑,及時發現端口、線卡、設備、協議等異常引起的鏈路連通性故障。(2)RoCE 網絡性能實時監控分析RoCE Telemetry 關鍵指標監控:通過 gRPC 遙測手段,秒級(部分指標毫秒級)收 集 端 口、芯 片 隊 列、PFC(Priority-basedFlowControl)、ECN(Explicit Congestion
52、Notification)等關鍵指標信息進行負載情況監控、擁塞情況監控、丟包統計、端口隊列緩存監控,并針對超限事件及時告警,及時發現微突發、負載不均衡問題。RDMA 流級可視:通過 ERSPAN 鏡像 RDMA 控制面報文,通過控制面報文OpenCOCA 白皮書(2023)21進行 RDMA 流統計和流參數的性能監控,及時發現網絡性能波動,輔助調優。(3)故障根因分析根據告警信息、鏈路狀態監控信息、Telemetry 監控指標等,結合專家經驗和知識圖譜進行故障的多維關聯分析,分鐘級自動定界定位,幫忙快速進行根因分析、解決故障。3.從從 COCA 走向走向 OpenCOCA,業內首個開放業內首個
53、開放式的軟硬一體片上計算平臺式的軟硬一體片上計算平臺當前算力基礎設施相關產業面臨嚴峻的豎井化技術生態挑戰,各廠商圍繞自身硬件特性構建相對獨立且排他的工具鏈系統。構建 COCA 技術架構的初衷是為了突破這種困境,而不是再造一個新的“豎井”,因此,中國移動決定突破創新,以世界一流信息服務科技創新公司的胸懷,開源 COCA 軟硬一體片上技術架構,從 COCA 走向 OpenCOCA,打造業內首個開放式的軟硬一體片上計算平臺。3.1 能力共享,激發行業活力能力共享,激發行業活力COCA 以 DPU、GPU、HPN 三大單元為主體方向,當前已在 DPU 計算、存儲、網絡、安全、管控等關鍵技術實現突破,具
54、備成熟的商用能力。秉承“開放+共贏”的理念,移動云將 COCA 基礎核心能力提取出來創建OpenCOCA 開源項目,當前,OpenCOCA 項目已受到多家合作伙伴的關注與支持。圖 3-1 OpenCOCA 開源理念OpenCOCA 擬籌 OpenCOCA 委員會、項目(群)辦公室、技術運營委員會、OpenCOCA 白皮書(2023)22綜 合 運 營 委 員 會,技 術 運 營 委 員 會 下 設 OpenCOCA-DPU 工 作 組、OpenCOCA-GPU 工作組和 OpenCOCA-HPN 工作組。其中項目(群)辦公室負責架構、版本規劃等項目管理工作,處理項目需求、跟蹤問題反饋,并協調各
55、工作組聯合運營;OpenCOCA-DPU 工作組負責 DPU 五大引擎的架構設計、開源開發及維護;OpenCOCA-GPU 工作組負責 AI 抽象、AI 加速以及 AI 池化相關內容,設計統一的 GPU 接入標準,開發提供針對異構 GPU 池化管理的統一 SDK 或插件;OpenCOCA-HPN 工作組負責端網協同等融合技術,開發打造高性能,包容開放的高性能網絡單元。圖 3-2 OpenCOCA 委員會通過 OpenCOCA 開源項目,希望可以為行業內各芯片廠商提供開源應用實踐平臺,深化算力賦能行業應用,激活行業活力。3.2 行業共治,規范行業標準行業共治,規范行業標準以 OpenCOCA 開
56、源項目為媒介,中國移動希望與產、學、研各界合作伙伴精誠合作,攜手制定算力基礎設施標準和規范,注重行業頂層技術規劃,堅持技術協同,避免碎片化研究和低質量的重復工作,與各方一道,在以“軟件定義、硬件加速”為核心理念的基礎上,凝聚共識,共同推進算力基礎設施標準化、規范化。OpenCOCA 開源項目擬將各家 DPU、GPU、FPGA 等算力芯片的能力集合分類梳理,制定異構算力能力標準規范,制定異構算力芯片接入標準規范;同時面向云平臺提供標準化 API 接口?;?OpenCOCA 軟硬一體片上計算平臺,云平臺可以忽略底層設備差異,而專注于異構算力的編排調度,更加快速完成高性OpenCOCA 白皮書(2
57、023)23能算力基礎設施建設,通過基礎設施并池的方式實現統一化運維與管理?;贠penCOCA 相關標準,各芯片廠商可有效保障自身算力芯片的通配性,降低芯片產品接入云平臺的適配成本,以便快速融入市場。3.3 協作共贏,創造行業價值協作共贏,創造行業價值為實現“打造自主可控的高性能算力基礎設施”的宏偉愿景,OpenCOCA 將繼續發揮“開放+共贏”優勢,實現算力基礎設施行業相關的需求感知傳遞與能力聚集呈現。將客戶所提出的行業市場需求及時通過 OpenCOCA 向下傳遞至社區,引導芯片廠商和研究機構關注到更被迫切需要的技術能力;將各廠商具備的最新技術特性通過 OpenCOCA 向上暴露給云上租戶
58、,實現行業賦能的同時為各廠商提供實踐應用平臺及相應的市場份額。通過 OpenCOCA 開源事項推動算力基礎設施行業內的良性循環,落地實施算力應用創新案例,創造行業價值。4.展望與倡議展望與倡議本白皮書基于算力基礎設施的現狀,圍繞目前面臨的挑戰和技術革新,大膽暢想了高性能算力基礎設施的未來發展。中國移動認為18,新型智算中心當前處在“集群時期”,已經按照集群的思想構建算力基礎設施。面向中遠期,我們將重點攻關“超級池化時期”的關鍵技術,盡快形成行業共識,加速相關核心技術和產業成熟。4.1 布局開放式智算生態,帶動國內智算產業成熟發展布局開放式智算生態,帶動國內智算產業成熟發展OpenCOCA 致力
59、于構建以 GPU、DPU、HPN 為核心的異構超算力一體化開放式架構,有助于充分調動算力,滿足高效、敏捷、彈性、安全等需求,是面向新一代基礎設施建設的重要布局。OpenCOCA 將繼續聚焦“算力+連接+能力”,以高效、開放可控、可信的計算架構為基石,持續構建“云為核心,網為基礎”的算力網絡,帶動國內智算產業成熟發展,全力支撐國家算力互聯互通、算網生態聚合,為數字中國建設貢獻更大的力量。4.2 共建產業聯盟,自主掌握云計算技術標準共建產業聯盟,自主掌握云計算技術標準中國移動多措并舉構建 OpenCOCA 框架開源生態,營造創新良好的算力基礎設施發展環境。我們倡議遵循開源開放原則,聯合建設開源社區
60、,鼓勵我國高OpenCOCA 白皮書(2023)24校、企業、行業組織等產業各方融入開源社區生態,孵化更多像 OpenCOCA 這樣的開源項目,共建產業聯盟,自主掌握云計算技術定義權。配套建設開源風險監測、開源生態監測等平臺,強化開源生態治理意識。我們從標準工作切入,推進算力基礎設施框架統一的標準化,加速 COCA 框架形成支持跨平臺遷移部署的能力,為算力基礎設施筑起協同生態。4.3 聯創高精尖技術,引領云計算市場下一個黃金十年聯創高精尖技術,引領云計算市場下一個黃金十年注重頂層技術規劃,堅持自主可控,中國移動依托 COCA 計算架構完成算力基礎設施升級,依托 OpenCOCA 解決算力體系生
61、態封閉問題。鼓勵企業增加技術創新投資,與合作伙伴聯創高精尖技術,強化對 DPU、GPU、xPU、RNIC(RDMA Network Interface Controller)等單芯片的設計和創新能力,逐步實現關鍵核心領域自主可控,推動算力基礎設施全面國產化穩步落地,引領云計算市場下一個黃金十年。OpenCOCA 白皮書(2023)25縮略語列表縮略語列表縮略語縮略語英文全稱英文全稱中文釋義中文釋義AIArtificial Intelligence人工智能ASICApplication Specific Integrated Circuit應用特定集成電路Ceph RBDCeph Rados B
62、lock DeviceCeph 提供的塊存儲能力ChatGPTChatGenerativePre-trainedTransformer生成型預訓練變換模型CIKComputeonChipArchitectureInference Kit軟硬一體片上計算架構推理套件COCACompute on ChipArchitecture軟硬一體片上計算架構CPUCentral Processing Unit中央處理器CTKCompute on Chip Architecture TrainingKit軟硬一體片上計算架構訓練套件CXLCompute Express LinkINTEL 推出的開放性互聯協議
63、DCQCNData Center Quantized CongestionNotification一種廣泛采用的擁塞控制算法DPUData Processing Unit數據處理器ECNExplicit Congestion Notification顯性擁塞通知FPGAField Programmable GateArray可編程陣列邏輯GDRGPU Direct RDMAGPU 之 間 直 接 通 過RDMA 通信GDSGPU Direct StorageGPU 直接訪問存儲設備GPUGraphics Processing Unit圖形處理器HPCHigh Performance Compu
64、ting超級計算HPCCHigh Performance Congestion Control高精度擁塞控制HPNHigh Performance Network高性能網絡IBInfiniBand無限帶寬技術OpenCOCA 白皮書(2023)26IKEInternet Key Exchange因特網密鑰交換協議IOPSInput/Output Operations Per Second每秒讀寫(I/O)操作次數IPSECInternet Protocol Security互聯網安全協議iSCSIInternet Small Computer SystemInterface計算機系統接口LLM
65、Large Language Module大語言模型NCCLNVIDIA Collective CommunicationsLibraryNVIDIA 集合通信庫NV-LINKNVIDIA-LINK英偉達開發并推出的總線及其通信協議NVMeNon-Volatile Memory Express非易失性內存標準NVMe-oFNVMe over Fabrics一種傳輸層協議規范,旨在使用NVMe通過網絡將主機連接到存儲OpenCOCAOpen-source Compute on ChipArchitecture開源軟硬一體片上計算架構PCIePeripheral Component Interco
66、nnectexpress高速串行計算機擴展總線標準PFCPriority-based Flow Control基于優先級的流量控制RDMARemote Direct Memory Access遠程直接內存訪問RISCReduced Instruction Set Computer精簡指令集計算機RNICRDMANetwork Interface ControllerRDMA 網絡接口控制器ROCERDMAover Converged Ethernet基于融合以太網的RDMASRDScalable Reliable Datagram可擴展的可靠數據報TCOTotal Cost of Owners
67、hip總體擁有成本virtio-blkVirtiual I/O block虛擬塊設備virtio-netVirtual I/O Network虛擬化網絡設備驅動程序VNCVirtual Network Console虛擬網絡控制臺OpenCOCA 白皮書(2023)27vDPAVirtual Data Path Acceleration虛擬數據路徑加速XPUeXtreme Processing Unit異構處理器單元OpenCOCA 白皮書(2023)28參考文獻參考文獻1 中國算力發展指數白皮書R,中國信通院,20232 算力基礎設施高質量發展行動計劃R,工業和信息化部、中央網信辦、教育部、
68、國家衛生健康委、中國人民銀行、國務院國資委,20233 面向智算的算力原生白皮書R,中國移動,20224 云計算通用可編程 DPU 發展白皮書R,中國移動,20235 Ariel Adam,Amnon Ilan.Achieving network wirespeed in an open standardmanner:introducing vDPA.6 Jason Wang,Ariel Adam.vDPAkernel framework part 1:vDPAbus for abstractinghardware.7 Jason Wang,Ariel Adam.Introduction to
69、 vDPAkernel framework.8 https:/ NVMe Overview,https:/www.nvmexpress.org/wp-content/uploads/NVMe_Overview.pdf10 NVMe over Fabric Overview,https:/nvmexpress.org/wp-content/uploads/NVMe_Over_Fabrics.pdf11 Compute Express Link Specification,June 2019,Revision:1.112 Compute Express Link CXL:ACoherent Int
70、erface for Ultra High SpeedTransfers,Kurt Lender,Intel,Flash Memory Summit 201913 Introduction to InfiniBand,Mellanox White Paper,https:/ https:/ ACloud-Optimized Transport Protocol for Elastic and Scalable HPC16 SIGCOMM22 From Luna to Solar:The Evolutions of the Compute-to-StorageNetworks inAlibaba Cloud17 HPCC:High Precision Congestion Control,Yuliang Li,Rui Miao,HongqiangHarry Liu,etc.,SIGCOMM 19,2019 Conference of theACM Special Interest Groupon Data Communication18 中國移動 NICC 新型智算中心技術體系白皮書R,中國移動,2023