《益企研究院:2024 數字中國萬里行暨算力經濟中國行考察報告(154頁).pdf》由會員分享,可在線閱讀,更多相關《益企研究院:2024 數字中國萬里行暨算力經濟中國行考察報告(154頁).pdf(154頁珍藏版)》請在三個皮匠報告上搜索。
1、12特 別 鳴 謝3目錄 CONTENTS序 東數西算與主權大模型的思考算力經濟對基礎設施、技術創新提出新要求P002確?!皷|數西算”工程高質量發展P003構建主權級基礎大模型P004加快培養新質生產力人才P005PART 綜述第一章.算力即新質生產力 P008智能駕駛有望貢獻算力的全新增量P009高校開啟新一輪技術創新實踐 P011智算產業需加快軟硬件適配生態建設 P013異構計算支持大計算場景P017綠色算力:從全棧視角落地液冷技術 P019算力與能源協同聯動P021“算力經濟”創新實踐P022PART 行業應用篇第二章.算力數據驅動 智能駕駛進入下半場 P026自動駕駛進入數據驅動的 3
2、.0 時代 P027多模態大模型促進技術變革 P028智能算力賦能自動駕駛 P031車能路云網融合發展加速落地 P0354第三章.算力賦能產學研 助力高校技術創新 P042北京大學:算力運營探索,自研 SCOW 管理平臺P043上海交通大學:優化應用部署,關注復合型人才培養 P045華南理工大學:以多元化液冷實踐打造高效綠色算力 P050中國農業大學:花小錢辦大事,算力強勢增長P052華中農業大學:釋放多元算力價值,推動交叉學科應用P054中國人民大學:升級算力應用,打造“玉蘭 10B”大模型P055北京理工大學:提升大模型價值,“墨子”全新升級 P056PART 技術演進篇第四章.多元算力交
3、織 P060CPU:分而利合 P061GPU:合縱連橫 P079DPU:由云向智 P088服務器:重構升級 P105第五章.全棧數據中心理念落地 P117全棧液冷技術新突破 P117從專業計算到創新實踐 P124PART 產業聯動篇第六章.算力能源協同 P132綠色節能創新實踐 P133大模型助力算電協同創新 P136綠電應用探索實踐 P138綠電供給實踐 P140第七章.算力經濟創新實踐 P145“算力之都”張家口 P146“草原云谷”烏蘭察布 P147“中國云谷世界算谷”“金融云谷”和林格爾 P1482024 數字中國萬里行考察報告 目錄22024 數字中國萬里行考察報告 序2024 年的
4、兩會上,我提交了關于“東數西算”工程高質量發展、破解大模型算力瓶頸、培養新質生產力人才的相關提案。并且,首次提出了要構建“主權級基礎大模型”,用以提升國家競爭力,維護未來國家安全。算力經濟對基礎設施、技術創新提出新要求在從事超級計算 30 余年的過程中,我對計算技術的發展和應用有了深刻的理解與洞察。2018年,我首提“算力經濟(Computational Economy)”這個概念,最初定義的維度是比較簡單的。首先計算要成為算力經濟的核心,未來以計算能力來衡量一個地方或地區的數字經濟發展水平,使之成為一個很重要的指標。隨著“東數西算”工程的發布正式開啟了算力經濟時代,一個地區的算力產業是不是發
5、達,也意味著數字經濟是不是有機會,算力經濟也成為了西部地區新一輪經濟發展的強力抓手。狹義的算力經濟定義是指與算力強關聯的算力服務產業鏈,其中包括了四類參與者:一是算力設施提供者;二是算力生產者;三是算力運營者;四是是算力消費者。他們共同閉環成為一種商業模式。隨著認識的深化,隨后又有了廣義的算力經濟,即“算力+”。凡是可以用到算力的國民經濟的各個方向全國政協委員中國科學院計算技術研究所研究員益企研究院首席專家顧問張云泉單元,都是算力經濟的范圍。只要以算力為核心生產要素,以算力為引擎,就都是廣義的算力經濟。這是數字經濟很重要的一個組成部分,在數字經濟中的比重會越來越大。綜上所述,在圍繞算力本身產生
6、的算力服務產業中,狹義的算力經濟指算力服務業產業鏈;廣義的算力經濟可以理解為數字產業化、產業數字化、城鎮數字化這種提供各種基礎設施,提供各種支撐保障的新模式和新業態,也就是算力+產業。算力經濟是一個相對較新的概念。它指的是在數字經濟中,計算能力(或稱為算力)作為一種資源,其分配、使用和價值化的過程。隨著技術的發展,特別是在云計算、大數據、人工智能等領域,算力作為新質生產力,成為了推動經濟增長的關鍵因素之一,具備以下幾個核心點。資源化:計算能力被視作一種資源,可以像電力、水資源一樣被分配和交易。市場化:算力可以在市場上進行買賣,形成供需關系,價格由市場決定。服務化:算力通常以服務的形式提供給用戶
7、,如序 東數西算與主權大模型的思考3云服務、高性能計算服務等。價值化:算力的使用可以帶來經濟價值,比如通過提高生產效率、促進創新、優化決策過程等??蓴U展性:算力資源可以根據需求進行擴展,以適應不同的業務場景和計算需求??沙掷m性:隨著對算力需求的增加,如何可持續地提供和使用算力,減少能源消耗和環境影響,也是算力經濟需要考慮的問題。算力作為新質生產力的代表,圍繞“大算力+大數據+大模型”,算力為數據和算法等新的生產要素賦能,正在催生數字化、智能化、生態化的新質生產力形態。而算力經濟的發展對基礎設施、政策法規、技術創新等多個方面都提出了新的要求,也為經濟增長提供了新的動力。確?!皷|數西算”工程高質量
8、發展為了確?!皷|數西算”工程高質量發展,2024 年兩會期間,我建議合理調整樞紐節點范圍布局,實現資源的優化配置和高效利用,有力支撐大模型算力服務業的高質量發展。2022 年 3 月,國家發改委、中央網信辦等四部門聯合印發通知,同意在京津冀、長三角、內蒙古等八地啟動建設國家算力樞紐節點。至此,全國一體化大數據中心體系完成總體布局設計,“東數西算”工程正式全面啟動。兩年來,“東數西算”工程取得了顯著成績。促進了東西部的協同聯動,緩解了東部能源緊張的問題,也給西部開辟了一條新的發展道路。同時,網絡設施的聯通也得到了加強,東西部間的數據直連通道正在加快打通,國家數據中心集群的網絡節點等級和網絡傳輸質
9、量也得到了提升,“東數西算”工程展現了良好的發展態勢。2023 年,經過一年的考察和調研,“東數西算”工程在實施過程中尚存以下現象:一是“東數西算”工程國家樞紐節點的遴選缺乏準入和退出機制,缺乏完善的考核評估機制,不利于“東數西算”工程高質量發展。部分國家樞紐節點的布局缺乏深入系統的論證,缺乏公開透明可操作的準入和退出機制,更缺乏行之有效的考核評估辦法,無法及時跟蹤和評估樞紐節點的發展狀況,并根據發展情況及時對國家樞紐節點的數量和布局進行動態調整,確?!皷|數西算”工程的高質量發展。二是部分國家樞紐節點存在數據中心集群規劃范圍與市場自然形成的數據中心集聚區域重合度較低的問題。這種現象在長三角和粵
10、港澳較為普遍。以長三角樞紐為例,目前兩個國家規劃的數據中心集群起步區位于上海西面,而上海西北部的嘉定、太倉、常熟等地,已經有不少新建或正在運營的數據中心,但因未納入“東數西算”數據中心集群起步區內,客觀上形成了樞紐規劃區內數據中心活躍度不如規劃區外的局面,不利于“東數西算”工程健康發展。三是國家樞紐節點基于傳統數據中心而規劃,缺乏新一代支持大模型訓練的高端智算中心,影響推動大模型訓練和推理服務產業的發展的進程。為確?!皷|數西算”工程的高質量健康發展,我提出以下建議:一是建立樞紐節點動態準入退出機制,定期對“東數西算”工程國家樞紐節點的項目數量、投資數額、運行狀況、產業發展趨勢、算力服務品質、資
11、源利用率、行業應用需求等進行全面評估,并根據42024 數字中國萬里行考察報告 序評估結果對樞紐節點的數量和布局進行動態調整。通過評估,可以將非“東數西算”布局內但具備一定超前發展優勢的地區納入“東數西算”的樞紐節點版圖中。對于發展滯后、運營能力不足的國家樞紐節點,可以適時進行清退。同時,通過適度的政策傾斜,吸引新項目落地在國家數據中心規劃區域(如起步區),壯大國家數據中心集群規模,有序引導數據中心和算力中心產業向規劃區域內轉移,確保規劃范圍內的數據中心和算力中心高質量健康發展。二是加強對現有樞紐節點國家數據中心集群起步區周邊項目的審核,對符合準入條件的項目可以納入起步區,對確實不符合準入條件
12、的項目予以調整,提升區域重合度和起步區活躍度。復核在新基建浪潮中獲批但不在“東數西算”工程規劃范圍內的數據中心項目,用“東數西算”的準入規則嚴格考核用能和環保水平,符合標準且有實際應用需求的可以批準、授予能評;對于確實不適合納入規劃范圍的,可采用逐步退出的機制;原則上不再批準新的數據中心項目,舊有數據中心在現有設施到期后逐步淘汰,原則上不予改造。三是正確引導和鼓勵新型高端智算中心的建設,有序推進大模型訓練和推理服務產業的發展。降低算力成本、提高利用效率,真正促進大模型的落地進展??傊?,為確?!皷|數西算”工程的高質量發展,要建立起“東數西算”工程的動態調整機制,發揚“東數西算”精神內核而不拘泥于
13、具體的規劃,建立起完善的準入和退出機制,健全問責和扶持體系,在保持總體穩定的基礎上,根據區域經濟發展、產業轉型升級、能源結構調整等因素的變化,適時調整樞紐節點的規劃范圍、節點數量和布局,實現資源的優化配置和高效利用,護航算力經濟更健康有序的高質量發展。構建主權級基礎大模型大模型在2023年的火爆,與GPU的一卡難求,進一步暴露出我國算力產業發展存在的核心問題。大模型已成各國科技競爭的戰略必爭地。近來,美國在大模型領域持續發力:Meta 公司擬采購 35 萬片英偉達 GPU 發展自己的大模型;軟銀集團正嘗試投入一千億美金研發自己的 AI 芯片;OpenAI 更是計劃籌集七萬億美金研制生產新 AI
14、芯片。2023 年,英國政府官網公告稱,要創立“基礎模型工作組”,英國希望能擁有自己國家的“主權”人工智能技術,其公共服務也能夠從這種人工智能的轉型影響中受益。近日,英偉達提出“主權 AI”的概念,并將其定義為“一個國家利用自己的基礎設施、數據、勞動力和商業網絡生產 AI 的能力”。英偉達官網發布的文章認為,“主權 AI”涵蓋物理和數據基礎設施,后者包括主權基礎模型,由當地團隊開發,并在當地數據集上進行訓練,以促進對特定語言、文化和習俗的包容性。為此,2024 年兩會期間我也提出要重視“主權級基礎大模型”的開發?!爸鳈嗉壔A大模型”是一個動態概念,它應該是某一時期內最高水平的大模型。這一大模型
15、算力要求最高、智能水平最高,是一個國家 AI 水平的最高點,是基礎大模型的基礎,也可以被形容為“根模型”?!爸鳈嗉壔A大模型”將深刻影響一個國家的科技5競爭力,涉及軍事、經濟、政治等多方面能力。沒有“主權級基礎大模型”,就像是國家沒有了國防重器,國家就會被打壓,國家安全也會受到威脅,因此必須盡快研制處于國際領先水平的“主權級基礎大模型”,以維護未來的國家安全。我建議,利用我國在超算研發建設中的豐富積累,設立能夠支持“主權級”多模態大模型訓練的專用超算攻關專項。過去的 15 年,我國超算的研制已經達到世界領先水平,形成了神威、天河和曙光三大世界級超算研制團隊,奪得了十一次世界冠軍和兩次超算應用最
16、高獎“戈登貝爾獎”。通過該專項計劃的支持,可以充分利用超算領域多年積累的人才和技術優勢,快速形成突破,盡快縮小我國在“主權級基礎大模型”訓練領域與美國的差距,為研制更先進適用的大模型專用訓練芯片和系統贏得時間。目前,國內一些企業往往傾向于使用國外的開源大模型,還經常出現低水平的重復與“內卷”,百模大戰使得算力資源過于分散,延誤了“主權級基礎大模型”的研發。無論是專用超算攻關專項還是AI芯片攻關專項,都需要國家出面協調資源,以當年“兩彈一星”的形式組建隊伍,以取得快速突破。留給我們的時間窗口并不長,不能錯失良機。在解決 AI 芯片“卡脖子”的基礎性問題上,希望能夠集中全國 AI 芯片研制力量,組
17、建由業內權威專家和各主要 AI 芯片廠家參加的智能算力發展專項組,通過多輪競爭,確定最優的訓練芯片研發技術路線和國家標準,擇優集中投入資金和優秀人才資源,整合芯片產能,盡快研制出能夠滿足國產“主權級基礎大模型”訓練的十萬卡、百萬卡甚至千萬卡并行算力需求的 AI 芯片和系統。同時,政府發揮指導、協調、規范作用,通過政策指導和傾斜,鼓勵規模大、高效率的集群,突破萬卡或更多卡的限制。前段時間,字節和北大的一篇新論文引起了業內廣泛關注,字節搭建起的萬卡集群,能在 1.75 天內完成 GPT-3 規模模型(175B)的訓練。在大模型推理產業鏈上,建議通過投資引導低功耗推理芯片和算子庫技術攻關,鼓勵大模型
18、壓縮、適配和性能調優等技術研發,通過規模效應實現成本共擔,降低模型推理算力成本,形成經濟適用國產大模型推理產業鏈。為大模型企業和愿意通過大模型手段智能化轉型的傳統企業提供必要的支持和配套服務,快速形成“新質智能生產力”,助力國產大模型平臺企業的生態建設和占領市場。加快培養新質生產力人才為了培養新質生產力人才,我也提到了建議優化資源分配,及時更新課程內容和教學方法,促進產教融合,加快企業導師引進并設立專項獎勵。一段時間以來,以 ChatGPT 為代表的通用人工智能的快速發展,預示著全球新一輪科技革命和產業變革的到來。特別是近期以 Sora 為代表的高質量短視頻 AI 生成工具的出現,不僅推動著科
19、技創新,還促進著新質生產力的茁壯成長,為生成式人工智能開拓了廣闊的產業應用空間。中央財辦相關負責人在解讀 2023 年中央經濟工作會議精神時提到,加快培育新質生產力要打造新型勞動者隊伍,包括能夠創造新質生產力的戰略人才和能夠熟練掌握新質生產資料的應用型人才。因此,培養既具有科技創新能力又能熟練應用 AI 新技術的人才,顯得尤為重要。62024 數字中國萬里行考察報告 序目前,我國在人工智能教育領域已取得顯著成就,但也在一定程度上存在以下四方面問題:一是教育資源分配不均。我國生成式人工智能的教育資源,如高質量課程、資深教師和先進技術,主要集中在頂尖學府和城市地區,導致農村和偏遠地區的學生無法獲得
20、平等的受教育機會。二是課程內容更新滯后。由于人工智能領域發展迅速,學校的課程內容和教學方法無法及時跟上技術的最新發展,學生學到的可能是已經過時的知識和技能。三是實踐機會缺乏。生成式人工智能教育需要大量的實踐和實驗,但很多學校由于資源限制,無法為學生提供足夠的實驗設備和實踐機會。四是師資力量不足。人工智能是一個高度專業化的領域,需要有專業知識和實踐經驗的教師。目前,合格的生成式人工智能教師相對稀缺,影響了教學質量。為滿足市場對新質生產力人才的需求,要積極解決課程、師資和資源配置等挑戰,以提升我國在全球數字經濟競爭中的優勢。我提出四大建議:一是優化資源分配,促進教育平等。為解決教育資源分配不均的問
21、題,建議通過國家層面的宏觀規劃優化資源分配,特別關注偏遠和農村地區,確保上述地區也能獲得必要的資源。建議可以在現有教育部政策框架內進行探索和實施,如設立“生成式人工智能教學資源共享平臺”,以鼓勵學校間根據生成式人工智能的技術特點,共享教學內容資源和教學計算資源。二是及時更新課程內容和教學方法。應對課程內容更新滯后的問題,學校需要及時更新課程內容和教學方法,與快速發展的人工智能領域同步。如設立“生成式人工智能國際協同創新計劃”,以鼓勵國內外學校(或企業)合作創新課程內容和教學方法,并在學校示范應用生成式人工智能技術開發的教學助手,以提供個性化學習體驗。三是促進產教融合,增加實踐機會。針對實踐機會
22、缺乏的問題,學校應與企業和研究機構合作,增加學生的實踐機會。為了更好地適應畢業后的工作環境,學校和產業界應加強合作,通過實習、項目合作等方式幫助學生了解實際工作中的需求和挑戰,從項目式學習中提高教育的實用性和有效性。建議設立“生成式人工智能創新實踐基地”,以鼓勵有智能化需求的各行業企業提供實習機會和人工智能應用場景,增加學生在生成式人工智能技術上的實踐能力。四是加快企業導師引進并設立專項獎勵。針對師資力量不足的問題,應加快推進在生成式人工智能領域企業導師的引進速度,鼓勵企業導師和校內教師充分合作,通過企業導師幫助校內教師提升在生成式人工智能領域的知識和教學能力。7PART 綜述2024 數字中
23、國萬里行暨算力經濟中國行考察報告8第一章 算力即新質生產力全棧數據中心縱貫 IT 基礎架構與數據中心基礎設施,把芯片、計算、存儲、網絡等技術和數據中心“風火水電”作為一個整體看待;上層業務需求的變化會通過芯片、計算和存儲等 IT 設備傳導到網絡架構層面,即數據中心作為基礎設施也會相應地產生自上而下的變化。2023 年是大模型蓬勃發展的一年,從文字對話交互開始,“百模大戰”爆發。2024 年 Sora 的發布標志著人工智能(AI)在視頻技術領域取得了突破性進展,多模態大模型持續演進。相比單模態模型,多模態大模型可實現文本、語音、圖像及音視頻等多模態數據的復雜處理和交互。超大規模 AI 大模型的訓
24、練需要相應的算力支撐,在Transformer 及大語言模型(LLMs)出現前,絕大部分的 AI 模型訓練和推理對算力等硬件資源要求不高,使用單機 CPU/GPU 或分布式小集群即可滿足需求。隨著 Transformer 架構持續升級,所需參數量增加,AI 模型爭鋒正帶動著算力“軍備競賽”。生成式 AI 引燃算力需求,算力技術架構持續升級。作為服務器的關鍵部件,芯片架構性能不斷提升的同時,功耗增加也非常顯著,這給數據中心的散熱問題和能源效率帶來極大挑戰。從 2018 年開始,益企研究院開啟“數字中國萬里行”活動,足跡遍布全國“一體化數據中心”體系下的八大樞紐節點和十大數據中心集群,提出并完善、
25、踐行“全棧數據中心”理念。全棧數據中心縱貫 IT 基礎架構與數據中心基礎設施,把芯片、計算、存儲、網絡等技術和數據中心“風火水電”作為一個整體看待;上層業務需求的變化會通過芯片、計算和存儲等IT 設備傳導到網絡架構層面,即數據中心作為基礎設施也會相應地產生自上而下的變化。這意味著服務器等 IT 設施的設計和液冷等先進技術的應用,需要以業務的視角實現應用與技術聯動,以數據中心整體的視角將制冷、供電以及監控運維實現垂直整合,構建高質量的算力供給體系。2023年,數字中國萬里行暨算力經濟中國行團隊繼續深入“東數西算”工程樞紐節點考察,從上層應用到底層基礎設施架構演進,從綠色算力到算力與電力協同,再到
26、區域城市算力經濟布局,見證了基于算力平臺的諸多創新實踐。算力經濟時代,算力作為新質生產力,正推動著數字經濟高質量發展,綜合本次調研,我們認為以下幾個方面值得業內探討:+2024 數字中國萬里行考察報告 綜述9一.智能駕駛有望貢獻算力的全新增量業內普遍認為“大模型+大算力+大數據”是邁向通用AI的可行路徑。用戶場景決定技術價值,大模型如何找到合適的場景、真正發揮價值?大模型又需要怎樣的硬件資源支持更廣闊的應用?在調研過程中,我們發現大模型的發展思路給自動駕駛帶來了更多啟發,從道路信息感知到路徑規劃決策,從智能駕駛的開發效率到用戶駕駛體驗,大模型正逐步成為推動智能駕駛落地的關鍵。一些頭部企業和學術
27、團隊積極探索,相關嘗試已開始在業內落地,并給行業發展帶來了巨大的想象空間。一方面大語言模型(LLM)直接參與到自動駕駛,比如 LLM 應用于自動駕駛的環境理解和環境互動的可行性,使用 LLM 可解釋的端到端自動駕駛系統,解釋車輛行為并提供相應的推理,還可以回答用戶提出的各種問題。另一方面,大模型技術促進數據和算力擴展到智能汽車產業全鏈條,從研發、生產制造、銷售/售后、運營等環節的數據正在打通,高強度的算力不僅需要被用于模型的運行、更新、迭代,還需要支撐仿真測試中場景的搭建與渲染,多模態大模型還可以助力仿真的構建。在產業生態和國家政策方面,為了支持智能網聯汽車發展,我國正在推動車路云一體化生態的
28、規?;涞睾统B化運營進程,車路協同智+10能交通國家戰略漸趨明確,行業共識逐步形成,產業化工作正在穩步推進。我們正在極力解決輕量化、本地化、實時全局等技術難題,不斷加速端到端自動駕駛大模型的落地進程。比如數字中國萬里行團隊調研了蘇州市智能網聯汽車發展的核心區蘇州市相城區,這里正培育出智能車聯網全產業鏈生態,已成為長三角地區最具活力和影響力的智能汽車產業發展高地。AI 大模型技術的應用將為智能駕駛帶來革命性的變革,需要使用智算集群來提升數據處理與模型訓練的效率。因此,承載算力基礎設施的大型化智算中心已成為車企快速占領智能汽車市場的基礎條件。近兩年,國內車企或自建或聯合云廠商共建智算中心,希望掌
29、握穩定的算力資源,縮短開發周期,加快自動駕駛產品迭代,提升競爭力。這意味著,智能駕駛有望成為未來貢獻算力的全新增量。2024 數字中國萬里行考察報告 綜述11二.高校開啟新一輪技術創新實踐除了調研多地的數據中心之外,數字中國萬里行暨算力經濟中國行還先后走進了位于西安的西安電子科技大學、位于北京的中國農業大學、位于上海的上海交通大學和位于廣州的華南理工大學。我們發現,中國高校在數字化教學、智慧校園等方面的探索與實踐已卓有成效。在高校高性能算力平臺演進進程中,多元算力、算網融合、大模型技術、液冷技術等綠色算力解決方案在高校加速落地。同時以北京大學為代表的高校通過創新實踐解決了算力網絡市場中使用、接
30、入、交易三個關鍵問題,促進了算力網絡的進一步發展,充分發揮了算力資源的價值,為國家的“東數西算”“雙碳”戰略提供了高質量的支撐,為業界提供了寶貴的經驗和啟示。一直以來,北京大學在高性能計算等先進技術應用方面勇于探索。北京大學具備包括“未名一號”“未名二號”在內的多套算力集群,為數學、深度學習、大氣海洋環境、新能源新材料、天文地球物理、生物醫藥健康等領域提供高性能科學與工程計算服務。北大“未名一號”集群是國內首個使用聯想溫水水冷系統的大規模超算集群;“未名二號”集群則是全球首個智能無損 400GbE 高性能計算中心網絡樣板點。為了實現算力資源易管理、易應用、易調度的目標,北京大學結合自身應用場景
31、和科研特點,聯合北京大學長沙計算與數字經濟研究院開發了國內首個開源的算力中心門戶和管理平臺SCOW 管理平臺。SCOW 還提供了連接層,也是算力網絡的融合和交易平臺。目前,北京大學公開 SCOW 的開源包,以便于更多的高校能夠體驗到統一部署 北大未名二號算力集群+中 國 高 校 在 數 字 化 教學、智慧校園等方面的探索與實踐已卓有成效。在高校高性能算力平臺演進進程中,多元算力、算網融合、大模型技術、液冷技術等綠色算力解決方案在高校加速落地。以北京大學為代表的高校通過創新實踐解決了算力網絡市場中使用、接入、交易三個關鍵問題,促進了算力網絡的進一步發展,充分發揮了算力資源的價值,為國家的“東數西
32、算”“雙碳”戰略提供了高質量的支撐,為業界提供了寶貴的經驗和啟示。12與管理平臺的優勢。國內已經有30家機構測試、部署使用SCOW平臺。北京大學還發布了智能算力調度系統鶴思調度系統,該調度系統打通了超算中心、智算中心,還有云計算中心的壁壘,可進行跨數據中心的調度。如果說北京大學很大程度上代表了北方高校在算力應用上的探索者,那么上海交通大學則是南方乃至全國地區算力應用的先行者。2013年誕生的上海交通大學“交我算”計算平臺目前是全國高校排名第一的高性能計算力平臺?!敖晃宜恪逼脚_服務了上海交通大學 1200 多個課題組,“交我算”平臺還開發了全國校級服務平臺中可能是唯一的“工單”系統。從最早的粗放
33、型采購到后來的按需購買與計算、再到科學融合與計算賦能,“交我算”的服務模式已經走在了全國高校前列。時至今日,“交我算”服務模式已經進入到第五個階段,即科研軟件工程(RSE)對接學?!按蠼】怠薄按蠛Q蟆薄按笮畔ⅰ钡陌l展戰略,“交我算”團隊從支持科研團隊的某一應用研發轉向受眾更多、更加普適的科研軟件研發?!敖晃宜恪逼脚_支撐了上海交通大學計算服務的不斷革新升級,賦能科研原始創新與前沿突破?!八荚匆惶枴?、2.0 集群、Arm 超算平臺等共同構成了“交我算”的算力基座,提供了多元化、多維度的算力服務與應用環境。在數字中國萬里行團隊 2023 年的走訪過程中,我們發現國內高校正 上海交大 2.0 集群20
34、24 數字中國萬里行考察報告 綜述13在開啟新一輪的特色高性能計算平臺建設,開始落地液冷等技術應用。華南理工大學在校內數據中心的建設中使用了存算一體的液冷解決方案,通過曙光 ParaStor 分布式液冷存儲系統將可存儲容量擴展至近25PB,數據中心 PUE 也降低到 1.2 以下,為學校的科研數據存儲提供了堅實支撐,同時優化了運維管理,大大提升應用效率。中國農業大學的科技小院是一種研究生培養與農業科技推廣的模式,中國農業大學網絡中心通過虛擬專網技術對科技小院網絡進行重新設計和部署,實現了科技小院網絡與校園網“一網融合”。在解決學校數字化應用的問題上,中國農業大學網絡中心從系統架構的底層設計出發
35、,按照基礎建設、服務能力和中臺應用能力三個方面將不同部門的業務進行劃分,通過“一網通辦”將其串聯起來,打造統一部署、集中化管理的效果。同時校級高性能計算應用平臺總計已具備 1 PFlops 雙精度浮點算力,支撐了農業大學 159 個實驗室的科研應用。在最近一次的“雙一流”評估中,中國人民大學擁有十幾個優秀學科,包括計算機科學技術和統計學均進入了 A 類序列。為此,中國人民大學重新調整了在算力應用層面的算力平臺布局,中國人民大學投入上千萬元對現有平臺進行了升級和改造。截止 2023 年 11 月,CPU 算力達到 335T,GPU 算力達到 1.3T,并全部采用了高速 IB 網絡,性能達到了行業
36、一流水平。中國人民大學用了 8 個月的時間開發出自己的預訓練大模型“玉蘭 10B”,推動了大模型的研究?;诟咝阅芩懔ζ脚_的應用加速,中國人民大學對于計算科學的科研能力也在持續提升。三.智算產業需加快軟硬件適配生態建設多模態數據正成為大模型訓練的主要數據,對算力來說需求倍增,相同參數下,更深的模型擁有更好的性能,超千億參數的大模型研發就不僅僅是算法問題,而是囊括了底層龐大算力、網絡等諸多領域的復雜系統性工程,需要有超大規模數據中心的 AI 算力來支撐。以 AI 芯片為主的高效率、大規模的智能算力基礎設施將成為訓練AI 大模型的前提。在應用層面,隨著“百模千態”走向每一個行業,在加速千行萬業智能
37、化轉型時,承載大模型的新型算力中心也在悄然發生變化算力規??焖僭鲩L、計算技術多元創新、產業格局加速重構。+以 AI 芯片為主的高效率、大規模的智能算力基礎設施將成為訓練 AI大模型的前提。在應用層面,隨著“百模千態”走向每一個行業,在加速千行萬業智能化轉型時,承載大模型的新型算力中心也在悄然發生變化算力規??焖僭鲩L、計算技術多元創新、產業格局加速重構。14來自 Synergy Research Group 的數據和預測顯示,未來六年內開放的超大規模數據中心的平均容量將很快達到當前運營的超大規模數據中心的兩倍以上,生成式 AI 技術和服務的影響已成為超大規模數據中心發展的動力。在中國,服務 AI
38、 的智算中心是發展最快的一種算力供給形式,2024 年我國有超過 30 個城市正在建設智算中心,整體布局以東部地區為主,并逐漸向中西部地區拓展。數字中國萬里行團隊此前考察了阿里云烏蘭察布、張北智算中心,以及商湯科技臨港 AI 計算中心(簡稱臨港 AIDC)。以商湯科技為例,2022 年正式投入運行的臨港 AIDC 是 SenseCore大裝置的重要載體,是上海新一代 AI 計算與賦能平臺,是服務上海建設“具有全球影響力的科創中心”戰略目標的標桿項目,更是亞洲最大的 AI 計算中心之一。臨港 AIDC 項目位于臨港新片區,一期投資 56 億元,主要建設園區智算大樓與科研行政大樓,用于 AIDC
39、平臺硬件搭建、平臺軟件、平臺管理系統與大模型應用等多方向研發。項目占地 87 畝,整體規劃建筑面積 13 萬平方米,一期已建成 7 萬平方米。目前,臨港 AIDC已成為國內 AIDC 建設的“樣板間”。2024 數字中國萬里行考察報告 綜述+商湯科技人工智能計算中心15單位 規劃算力(P)已建算力(P)待建算力(P)哈爾濱數字龍江智算中心 500 100 400 大連人工智能計算中心 300 100 200 沈陽人工智能計算中心 300 300 0 北京(昇騰)人工智能計算中心 3000 400 2600 福建人工智能計算中心 400 105 295 廣州人工智能公共算力中心 1000 200
40、 800 河北人工智能計算中心 300 100 200 南京鯤鵬-昇騰人工智能計算中心 140 140 0 濟南人工智能計算中心 400 100 300 青島人工智能計算中心 100 100 0 天津人工智能計算中心 400 200 200 杭州人工智能計算中心 240 140 100 寧波人工智能超算中心 300 100 200 合肥人工智能智算中心 100 100 0 中原人工智能計算中心 300 100 200 武漢人工智能計算中心 400 400 0 長沙人工智能創新中心 1000 200 800 中國-東盟人工智能計算中心 42 42 0 西安未來人工智能計算中心 500 300 2
41、00 成都智算中心 300 300 0 重慶人工智能創新中心 400 400 0 北京數字經濟算力中心 2000 400 1600 石景山智能算力中心 610 200 410 石家莊人工智能計算中心 500 100 400 天府智算中心項目 1000 256 744 武昌智算中心 100 100 0 琶洲算谷沙溪智算中心 300 100 200 新疆智算融合算力中心 500 0 500 合計 15432 5083 1034916商湯科技SenseCore大裝置管理的算力實現了全國聯網的統一調度,在上海、深圳、廣州、福州、濟南、重慶等地都拓展了新的計算節點,總算力規模高達 12000 PFlop
42、s,已有超 4.5 萬塊 GPU,其中臨港AIDC為8400 PFlops,遠遠超出立項規劃的3740 PFlops算力總量。在支持自身大模型研發的同時,也支持外部客戶訓練大模型和應用部署。強大算力可支撐超過 20 個千億超大模型同時訓練,并支持萬億參數大模型的全生命周期生成。在 2023 年的調研中,我們繼續探索了成渝地區的西部(重慶)科學城先進數據中心與位于長三角地區的吉利星睿智算中心。這里需要特別說明的是,前者雖然名為“數據中心”,但無論是基礎設施還是上層應用都更符合“智算”的范疇,比如展示的中國移動一體化存力平臺、某 AI 大模型企業的 PB 級大模型平臺、新勢力車企超百 PB 的存力
43、平臺等項目都側重于智算方面,因此我們認為其定位更接近于智算中心。至于吉利星睿智算中心就更是如此。作為國內車企中自建設備規模最大、綜合算力領先、業務覆蓋領域最廣、智能化支撐能力最強、高安全級別的智算中心,吉利星睿智算中心正致力于幫助車機擁有更準確安全的自動駕駛能力、更智能流暢的AI助手、更快的連接和運行速度、更有趣的影音娛樂模式。這也更符合大眾印象中關于“智能應用”的概念,推動了吉利自家多元化的智能駕駛應用。目前,中國智算中心的發展尚處于初期階段但發展迅速。數字中國萬里行暨算力經濟中國行活動在調研時發現,國內有關智能算力的相關政策,還是聚焦在總的算力規模上,對算力密度和互聯帶寬的重視程度還遠遠不
44、夠,特別是集群層面的算力密度。對算力中心和數據中心基礎設施層面的支持更是不足,譬如對提高機柜功率密度、縮短網絡布線距離、提高互聯帶寬的重視均有待提高,對用于解決高功率密度帶來高發熱量的液冷技術又缺乏統一標準,不僅造成這一層面的生態碎片化,也提高了客戶更換供應商的成本。未來,隨著算力底座技術門檻的提高,AI 大模型比拼的更多是集群系統能力。從軟件到硬件,隨著智算中心數量增長,國產算力產業需要加快智算中心軟硬件適配生態建設,需要通過標準等手段適度收斂,建立統一、高效的生態,集中有限的產業和社會資源,規范算力產業的高質量發展,最終促進產業 AI 化、AI 產業化的落地。2024 數字中國萬里行考察報
45、告 綜述+未來,隨著算力底座技術 門 檻 的 提 高,AI 大模型比拼的更多是集群系統能力。從軟件到硬件,隨著智算中心數量增長,國產算力產業需要加快智算中心軟硬件適配生態建設,需要通過 標 準 等 手 段 適 度 收斂,建立統一、高效的生態,集中有限的產業和社會資源,規范算力產業的高質量發展,最終促進產業 AI 化、AI 產業化的落地。17四.異構計算支持大計算場景當 AI 的應用場景呈現多樣化時,數據中心側單一的計算架構就難以滿足業務需求了,多樣性計算加速了算力格局的變化,多元化的算力來源,既包括了 CPU、GPU、FPGA 等異構算力,又包括了 x86、Arm 等架構方案。當生成式 AI
46、應用不斷發展,異構計算作為大計算時代的解決方案,打破了傳統通用計算的限制,融合不同指令集和體系架構的計算單元,從底層支持大計算場景。業務需求驅動加上底層工藝和封裝技術的支撐,處理器也開始了“內卷”。CPU 不斷擴展硬件加速指令集;GPU 集成 CUDA 核,還集成了 DSA 性質的 Tensor 核;DPU 集成了 CPU 以及 ASIC,形成 SoC。在數據中心領域,2019 年英特爾就提出了超異構計算。XPU 是架構組合,包括 CPU、GPU、FPGA 和其他加速器;oneAPI 是開源的跨平臺編程框架,底層是不同的 XPU 處理器,通過 OneAPI 提供一致性編程接口,使得應用跨平臺復
47、用。+京東云華北廊坊數據中心,華燈初上18DPU 是一個伴隨著云計算的成熟而逐步進入人們視野的概念,經歷了不斷的演進后,增加了自身的能力。隨著“羽翼豐滿”,DPU 甚至開始與 CPU、GPU 爭奪數據中心的核“芯”地位。DPU 的控制平面主要使用性能較強的通用 CPU 核,以處理較復雜的任務,且面向 Linux 等系統編程十分友好。常見的通用 CPU 核有英特爾的至強 D 以及 Arm 的大核(Arm v8 的 A72/A78 和 N1、v9 的N2),較早期的產品還有一些采用 MIPS64 核心。Arm 提供了豐富的內核授權,供不同性能、功耗、成本需求的產品選用。在 Cortex-A 系列之
48、后,Arm 面向云計算和數據中心領域推出了 Neoverse 平臺。該平臺分為三大系列 Neoverse V 系列、Neoverse N 系列、Neoverse E 系列,考察報告將對 Arm 內核的演進過程進行詳細闡述。在西部(重慶)科學城先進數據中心,數字中國萬里行團隊考察了基于國產架構的全套解決方案在架構層面構建了從基礎設施到應用體系全方位的安全方案,內置了國密的加密算法,構建了可信的安全根,使用、存儲、傳輸以及數據流動都采用了加密技術,從底層到應用構建全方位的安全體系。數字中國萬里行團隊曾參觀過阿里云、騰訊云、京東云、抖音、UCloud(優刻得)等國內多個超大規模數據中心,它們都上線了
49、包括 x86、Arm 等主流架構在內的多種算力資源。京東云自研的服務器支持包括第五代英特爾至強可擴展處理器在內的多算力平臺,也支持Arm 平臺和其他國產化平臺,最大支持 750W 的芯片功耗。同樣進行了異構應用探索的還有 UCloud 烏蘭察布數據中心。早在2022 年 UCloud 就推出了基于安培 Ampere Altra Q80-30 處理器的云服務器解決方案;2023 年 UCloud 還與此芯科技達成彈性擴容項目合作,在 UCloud 上海云基地部署新的芯片研發業務,致力于開發兼容Arm指令集的高能效計算解決方案。2024年,在英偉達的支持下,UCloud將DPU應用于裸金屬物理云。
50、DPU裸金屬訓練集群為高帶寬、低延遲、數據密集的大模型訓練場景提供了強大的計算引擎,大幅提升網絡處理能力和數據傳輸速度。+2024 數字中國萬里行考察報告 綜述19五.綠色算力:從全棧視角落地液冷技術生成式 AI 帶來的挑戰不在于增加數據中心的數量,而是大幅增加運行這些數據中心所需的功率。以數據中心的能耗大戶 CPU 和 GPU 為例,目前最新發布的第五代英特爾至強可擴展處理器中,鉑金 8593Q的 TDP 功耗已經達到 385 瓦,其余多款鉑金 8580、鉑金 8558P 等處理器的 TDP 功耗也在 350 瓦。英偉達最新一代的 H100 GPU 峰值功耗為 700 瓦,按照 61%的年利
51、用率,一張 H100 每年將消耗約 3740 千瓦時的電量;而被英偉達稱為“傳奇”的 DGX H100 共由 8 個 NVIDIA H100 加速卡組成,系統功耗可達 10.2 千瓦。按照英偉達 2023 年底公布的 H100 終端用戶銷量顯示,僅就大型互聯網客戶來說,H100 GPU全球范圍內共售出約 70 萬張,這就耗費了約 2000 千兆瓦時,大約20000 萬億度電。2023 年,“液冷”已成為熱詞,當然這并不代表液冷技術解決方案在早些年并不存在。事實上,液冷技術早在十幾年前就已經是高性能計算領域的主流解決方案。我國最早登上 TOP500 冠軍寶座的“天河二號”超級計算機就采用了部分液
52、冷技術解決方案。但在更通用、更廣泛的云數據中心領域,液冷技術應用雖然一直在發展,卻總是表現得不溫不火,更多時候用戶總是抱著試水的心態在“體驗”。隨著算力需求的暴增和隨之帶來的功耗指標居高不下,越來越多的用戶意識到液冷技術解決方案的價值和重要性。+UCloud 烏蘭察布數據中心20在數字中國萬里行暨算力經濟中國行的考察調研過程中,我們發現采用液冷技術解決方案的數據中心與智算中心正在大幅增加,部分單位甚至具備了冷板式液冷與浸沒式液冷的雙重方案,同時也有針對服務器、存儲等不同基礎設施的差異化液冷模式。比如在西部(重慶)科學城先進數據中心,我們就看到了基于中科曙光全浸式液體相變冷卻技術的高密度、模塊化
53、數據中心。華南理工大學了解到曙光存儲提供的冷板式液冷技術方案也是存算一體化的解決方案。因此在校內數據中心的建設中大膽使用了液冷技術解決方案,通過曙光 ParaStor 分布式液冷存儲系統將可存儲容量擴展至近 25PB,數據中心 PUE 也降低到了 1.2 以下,為學校的科研數據存儲提供了堅定支撐。在京東云華北廊坊數據中心,數字中國萬里行團隊考察了京東自研的整機柜服務器??紤]到數據中心生命周期很長,尤其是液冷技術的支持,預留三代平臺的支持,確保整機柜能夠在各種各樣的部署環境下使用,既可以在自建新機房使用,也可在液冷機房部署,支持各種各樣的設備類型和平臺?;谝豪湔麢C柜的部署,京東云華北廊坊數據中
54、心的 PUE 可以控制在 1.1,年度碳排放可節省 2000 噸,也讓數據中心的部署密度提升了 28.6%,空間利用率更出色。從服務器到存儲,液冷技術已不再是“星星之火”。在具體的落地過程中,益企研究院倡導從全棧數據中心的視角切入。服務器等 IT 設施的設計和液冷等先進技術的應用,需要以業務的視角實現應用與技術聯動,以數據中心整體的視角將制冷、供電以及監控運維進行垂直整合,構建高質量的算力供給體系。采用相變浸沒冷卻技術的刀片式服務器早在十幾年前,液冷技術已是高性能計算領域的主流解決方案。隨著算力需求的暴增和隨之帶來的功耗指標居高不下,越來越多的用戶意識到液冷技術解決方案的價值和重要性。在 AI
55、應用和綠色低碳的共同推動下,“液冷”從 2023年起成為行業熱詞。2024 數字中國萬里行考察報告 綜述21六.算力與能源協同聯動AI 需要龐大的算力,AI 也需要大量的能源。要保證算力能夠高效地大規模運行,一靠高性能芯片,二靠電力。數據中心的本質就是把能源轉化為算力,瓦特轉化為比特,成為數字經濟發展的基礎設施。據Digital Information World 報道,數據中心為訓練 AI 模型產生的能耗將是常規云工作的三倍,預計到 2030 年,美國數據中心的電力需求將以每年約 10%的速度增長。2023 年 12 月,國家發展改革委、國家數據局等部門聯合印發的關于深入實施“東數西算”工程
56、加快構建全國一體化算力網的實施意見中提到重點推進五個一體化,其中一條便是算力與綠色電力一體化融合。數字中國萬里行團隊在考察中發現,在產業的轉型關鍵期,新型基礎設施發揮著加速轉型、促進創新、激活經濟的核心作用。一方面,數據中心領域正引入更先進、更節能的新興技術,不斷提升能源使用效率,提供更綠色的算力,通過自身的綠色低碳,為其他行業的智能化轉型賦能,促進全社會降碳。另一方面,算力與電力正在形成相互支撐、協同發展的新態勢。從算力到綠電,從單一的某一座數據中心到某個產業園區,數字中國萬里行團隊發現,綠色化加速推動新型算力中心不斷演進,而先進的運營理念、低碳的運營方式與智能化的服務能力,讓單位比特的能耗
57、和碳排放持續下降,提供更多的“綠色算力”。張北草原天路上密布風力發電機222024 數字中國萬里行考察報告 綜述+七.“算力經濟”創新實踐隨著“東數西算”等工程深入實施,數據中心、智能計算中心、超級計算中心等算力平臺的建設和應用不斷加速,數字經濟將進一步成為實體經濟高質量發展的引擎和助推器。我們調研了甘肅慶陽樞紐節點、成渝樞紐節點和長三角蕪湖集群、粵港澳韶關集群等等,完成了最后一塊拼圖。至此,包括過往調研過的京津冀(北京、天津)、內蒙古(呼和浩特、和林格爾)、粵港澳(廣州、深圳)等樞紐節點在內,數字中國萬里行團隊已經完成了對于“東數西算”工程八大樞紐節點和十大集群的全面調研,因此在算力基礎設施
58、建設方面也有了更具廣度和深度的視野。同時我們也發現,目前諸多地區已圍繞算力強關聯的算力服務產業鏈開始布局,“算力經濟”有了更多創新實踐成果。張家口市毗鄰北京,已融入“首都一小時經濟圈”。作為八大算力網絡國家樞紐節點、十大數據中心集群之一,張家口市正聚焦全國一體化算力網絡國家樞紐節點建設,以起步區懷來、張北、宣化為突破口,加快推進懷來大數據產業基地、張北云計算基地等園區建設,著力推動大數據產業形成特色突出、集約高效的合理空間布局。特別是正在規劃建設的數字服務產業基地,將通過與懷來、張北、宣化 3 個數據中心集群起步區的有效銜接,構建起“一廊四區多園”的發展新格局。截至2023年底,張家口市投入運
59、營數據中心27個、標準機柜33萬架、服務器 153 萬臺,算力規模達到 7600P(1P 約等于每秒 1000 萬億次計算速度),已注冊大數據企業超 120 家,初步形成“數據存儲+算力調度+裝備制造+應用服務”的大數據全產業鏈條。下一步,張家口市將積極承接北京大數據產業項目疏解和轉移,持續推進大數據產業開發應用,構建大數據全產業鏈生態體系,加速建設京津冀“算力之都”。27個運營數據中心33萬架標準機柜153萬臺服務器7600P算力規模達到初步形成“數據存儲+算力調度+裝備制造+應用服務”大數據全產業鏈條張家口 聚焦全國一體化算力網絡國家樞紐節點建設(截至 2023 年底)232018 年,“
60、數字中國萬里行”活動啟動時,“草原云谷”烏蘭察布數據中心建設剛剛起步;2023 年,烏蘭察布數據中心集聚效應顯著,官方資料顯示,已簽約落戶 31 個數據中心項目,總投資 858 億元,簽約服務器規模 447 萬臺,阿里巴巴、蘋果、華為、快手、UCloud等10余個已投運項目算力規模達14000P,智能算力占70%以上,“把世界存在烏蘭察布”正在成為現實。2023年,和林格爾新區備受產業專業人士的關注?!皵底种袊f里行”活動期間,華為云在和林格爾新區建設了北方區域最大的云數據中心。同期,和林格爾數據中心集群的重大工程之一中國農業銀行總行數據中心 15 棟單體建筑全部封頂。和林格爾新區作為全國一體
61、化算力網絡國家樞紐節點和十大國家數據中心集群之一,正在用“產業先行、以產立城、產城一體”的新思維,重點圍繞數據中心集群產業鏈和集成電路產業鏈規劃布局。豐富的能源儲備尤其是新能源綠色電力供應是和林格爾新區的優勢之一,也是包括華為等諸多行業巨頭選擇落戶于此的重要原因之一。和+內蒙古和林格爾新區云集運營商和大型金融企業的數據中心24林格爾新區以數據中心為載體,帶動本地產業高質量發展,促進技術創新鏈和產業鏈深度融合,加快形成算力經濟新模式新業態。除了充足的能源供給之外,和林格爾新區打動各大企業的因素是價格,尤其是新能源的價格更是低于行業平均水平與企業心理預期。和林格爾新區打造出了底層算力服務平臺、數據
62、落地與應用、創新實踐與發展等全方位的服務體系,完整、準確、全面貫徹“算力經濟”新發展理念,開始同步構建算力中心、算力設備制造、算力服務、算力應用的算力經濟產業體系。和林格爾新區在為全國輸出綠色算力的同時,正不斷強鏈補鏈,形成數字技術與實體經濟深度融合的新格局。截至目前,和林格爾新區數據中心標準機架達到 15 萬架,服務器裝機能力達到 120 萬臺,總算力規模達到 1600P,穩居全國前列。和林格爾新區注重發展算力網絡,先后建成了國家互聯網骨干直聯點,國際互聯網數據專用通道,為新型數字基礎設施建設和數字化應用打下了堅實的基礎,已形成內通全國、外聯俄蒙歐的通道網絡體系。+2024 數字中國萬里行考
63、察報告 綜述2023年12月召開的中央經濟工作會議提出,要以科技創新推動產業創新,特別是以顛覆性技術和前沿技術催生新產業、新模式、新動能,發展新質生產力。2024年政府工作報告提出的政府工作十大任務,第一項就是“大力推進現代化產業體系建設,加快發展新質生產力”。新質生產力正在從根本上重構傳統的生產方式和社會運行邏輯,而算力不僅體現在其作為新質生產力所發揮的動力支持作用上,更體現在算力本身具有的廣泛應用場景以及由“算力+”賦能行業而生的算力經濟發展前景上,賦能自動駕駛、智能制造等產業,與能源、電力等行業融合協同,帶來城市經濟發展、社會治理的系統性變革,服務中國經濟高質量發展。25PART 行業應
64、用篇2024 數字中國萬里行暨算力經濟中國行考察報告26第二章 算力與數據驅動 智能駕駛進入下半場自動駕駛是駕駛輔助功能的最終形態,同時作為 AI 技術在汽車行業落地的重要形式,其正在引領著汽車產業的深刻變革。來自 Canalys 的數據顯示,中國市場 L2+滲透率連續三個季度達到全球第一,在 2023 年第三季度中國 L2+車型銷量已經達到 35 萬輛,L2+ADAS(高級駕駛輔助系統)滲透率達到了 5.7%。技術變革、需求顯現、產品供給加速以及政策落地共同促成了中國 L2+市場實現銷量與市場滲透雙增長,中國市場將進入高階輔助駕駛競爭的重塑期。數據來源:Canalys2020 年 2 月國家
65、頒布了智能汽車創新發展戰略,希望在 2025年實現有條件自動駕駛的智能汽車達到規?;a,實現高度自動駕駛的智能汽車在特定環境下市場化應用。同時大模型對車路協同智能駕駛的賦能效應持續釋放。車、路、云、網的協同成為推動自動駕駛安全性提升和規?;瘧玫谋赜芍?。伴隨車路兩端數據的增加、智能技術的演進迭代以及政策法規的支持,智能駕駛正式進入下半場。NO.1全球35萬輛5.7%中國市場 L2+滲透率連續三個季度2023 年第三季度中國 L2+車型銷量L2+ADAS 滲透率+2024 數字中國萬里行考察報告 行業應用篇27一.自動駕駛進入數據驅動的 3.0 時代自動駕駛 1.0 時代為硬件驅動,主要依靠
66、激光雷達和人工規則的認知方式提供自動駕駛方案。但在 100 萬公里后,硬件不再是決定自動駕駛技術發揮的下限。自動駕駛 2.0 時代則是軟件驅動,特點是傳感器單獨輸出結果,用小模型和少數據的模式提供自動駕駛方案。挖掘算力潛能,讓 AI 真正發揮價值。在 AI 算力升級后,很多自動駕駛企業加大了對算法模型的應用,這使得其產品最終能夠落地,讓自動駕駛“走”了起來。伴隨智能網聯汽車傳感器數量的快速增加,ADAS 和自動駕駛車輛數據的生成量也呈現指數級增長,從 GB 到 TB、PB,傳統數據存管模式無法應對大規模復雜數據的快速處理、各種傳感器數據及外部數據的適配接入。從行業趨勢來看,由硬件與軟件驅動的自
67、動駕駛 1.0 與 2.0 時代已近尾聲。由數據驅動的 3.0 時代正式開啟,采用多模態傳感器聯合輸出結果,用大模型大數據的模式提供自動駕駛方案。在自動駕駛3.0時代,數據閉環是核心要素,即從車端數據采集,到處理后形成有效數據集,再通過云服務器進行存儲、處理,經過算法模型訓練、驗證后,將最優模型部署上車,各環節相互連接,形成的自動駕駛數據循環。由硬件與軟件驅動的自動駕駛 1.0 與 2.0 時代已近尾聲。由數據驅動的3.0 時代正式開啟,在自動駕駛 3.0 時代,數據閉環是核心要素,即從車端數據采集,到處理后形成有效數據集,再通過云服務器進行存儲、運輸,經過算法模型訓練、驗證后,將有效數據成果
68、部署上車,各環節相互連接,形成的自動駕駛數據循環。28以數字中國萬里行團隊考察的吉利汽車為例,基于用戶車隊及集團內運營車輛資源,目前吉利一輛車每個月的合規數據采集量是幾個 GB的量級(吉利具有合規采集資質),星睿智算中心每天的采集數據增長量達到了 TB 水平。吉利智能駕駛提出的數據閉環解決方案包括:感知數據閉環、地圖數據閉環、駕駛數據閉環和用戶數據閉環。依托吉利星睿智算中心和數據閉環技術能力,吉利把目標設定為以車載端0.1 倍的算力,用一套標準的數據格式,利用云端 10 倍的算力,達到100 倍的采集處理效率。當然,數據閉環涉及到海量的數據,其中面臨兩個問題:其一,在自動駕駛領域需要長周期的數
69、據采集,需要重點發掘 Corner Case(邊角場景或極端場景),這些數據分布廣、概率低,采集成本高;其二,所有算法或系統要上路之前,必須進行嚴苛的道路測試,需要覆蓋很多的場景和安全隱患。因此,近年來業界開始在視覺問題中引入合成數據(Synthetic Data),一方面用于解決數據難以獲取和標注的問題,另一方面合成數據通過排列組合大量參數、引入隨機化等方式,產生大量的場景可以解決數據多樣性的問題,讓訓練出來的模型具有更好的泛化能力。目前吉利通過全棧自研 AI Drive 合成數據及虛擬仿真測試平臺,采用大模型的技術架構涵蓋 AI 技術群和大模型的融合創新,通過真實數據語義挖掘和合成數據仿真
70、能力解決智駕功能開發所需的大量隨機/定向場景數據。這改寫了智能駕駛算法開發范式,能夠大幅提高算法迭代效率。當智能駕駛行業進入了下半場,就需要更深更廣的挖掘數據應用場景及價值,讓數據發揮價值,讓數據流動起來,用來提升產品用戶服務,對用戶實時進行關懷。而全棧全價值鏈的數據閉環能力,將會是智能駕駛行業打開提升用戶體驗、提高功能安全的鑰匙。二.多模態大模型促進技術變革智能駕駛的核心是通過用戶體驗驅動價值創造,讓智能化設計回歸理性。以 GPT 為代表的大模型為智能駕駛帶來了新思路,與早期的 AI模型相比,大模型在參數量上有了質的飛躍,使得復雜任務的建模能力整體上獲得提升。比如,以往在城市 NOA 場景中
71、,數據采集、數當智能駕駛行業進入了下半場,就需要更深更廣的挖掘數據應用場景及價值,讓數據發揮價值,讓數據流動起來,用來提升產品用戶服務,對用戶實時進行關懷。而全棧全價值鏈的數據閉環能力,將會是智能駕駛行業打開提升用戶體驗、提高功能安全的鑰匙。2024 數字中國萬里行考察報告 行業應用篇29據標注成本非常高,現在大模型具備多模態的能力,能夠對海量數據進行語義層級的理解,能夠把數據做標簽化處理,可以快速檢索,從而形成模型訓練的數據集,繼而實現車輛的自動駕駛、智能導航、智能駕駛等功能,提升駕駛的安全性和舒適性。用于車機系統和智能座艙的語言大模型,不僅能實現更高智能的人車交互,還可擺脫座艙的同質化,因
72、算法不同而具有不同的特色和功能,進而形成車企自身獨特的智能化差異。視覺大模型的應用通過強大的數據分析和模式識別能力,增強了自動駕駛系統的安全性、效率和用戶體驗,實現了更準確的環境感知、智能決策。2024 年 Open AI 推出的 Sora,展示出了明顯優于此前生成式視覺模型的成果,這也讓不少人對其在自動駕駛仿真領域的應用產生了期待。目前國內已經有多家車企宣布推出自己的大模型,助力實現更智能的駕駛、更個性化的服務和更高效的運營。如吉利汽車推出的星睿 AI大模型,是吉利全棧自研的全球首個汽車行業全場景 AI 大模型;一汽聯合阿里云通義千問打造的大模型 GPT-BI,則是汽車行業首個落地的大模型
73、BI 應用。用于車機系統和智能座艙的語言大模型,不僅能實現更高智能的人車交互,還可擺脫座艙的同質化,因算法不同而具有不同的特色和功能,進而形成車企自身獨特的智能化差異。視覺大模型的應用通過強大的數據分析和模式識別能力,增強了自動駕駛系統的安全 性、效 率 和 用 戶 體驗,實現了更準確的環境感知、智能決策。30在數字中國萬里行團隊考察期間,我們看到吉利發布的星睿 AI 大模型擁有超千億參數量,具備海量常識和情感模塊。星睿 AI 大模型以星睿智算中心為算力底座,將自研基礎大模型與吉利的 NPDS 研發體系、巨量造車全鏈路場景數據庫深度融合,包括了語言大模型、多模態大模型、數字孿生大模型在內的三大
74、基礎模型,以及衍生出的 NLP語言大模型、NPDS 研發大模型、多模態感知大模型、多模態生成大模型、AI DRIVE 大模型、數字生命大模型這六大能力模型。作為星睿智算中心純自研的成果,星睿 NLP 語言大模型總訓練數據量超過 3 萬億 tokens。該模型的出色邏輯推理能力和上下文記憶能力使其在中文語言處理領域達到了領先水平。人機可以互動精準對話,AI 語音支持車內外語言交互,可實現 0.23s 極速響應、全時免喚醒、全畫面可見即可說,一句話最多可下達 15 個指令,支持全車多人同時對話。星睿 NPDS 研發大模型是吉利星睿語言大模型在研發端的創新應用。它支持造型設計、機械設計、質量管控和自
75、動駕駛虛擬訓練等環節的研發工作。通過高效的數據管理和分析,NPDS 研發大模型可助力研發人員快速發現和解決問題,提高產品的研發效率和質量。2024 數字中國萬里行考察報告 行業應用篇31智能體驗是消費者評價智能汽車的重要指標,而算力資源是直接影響開發速度的硬性因素,智能駕駛算法的訓練需要在有限的時間內完成大量的運算,因而對算力形成極高的要求。隨著智能駕駛車輛滲透率的提升,車端算力、城市NOA(NavigateOnAutopilot,自動輔助導航駕駛或領航輔助駕駛)系統需要的云側訓練大算力需求也將持續釋放。星睿多模態大模型能夠將語音、圖像、視頻和車輛信號等多種信息模態進行理解和整合,實現智能交互
76、。同時,多模態生成大模型能夠將語音輸出轉化為多種模態信息,為用戶提供更加豐富和多樣化的服務體驗。一句話,星睿多模態大模型具有全場景感知和生成品質高的優勢。星睿數字孿生大模型是一個“超級元宇宙生成引擎”,具備完備的3D 生成技術和數字人 AI 驅動技術。它能夠快速生成各種逼真的3D 場景和人物形象,為虛擬世界的構建提供了強大的支持。數字孿生大模型的出色表現也為吉利的自動駕駛訓練提供了重要支撐。從通用大模型到垂直類大模型,從用大模型合成數據到挖掘數據價值,未來大模型在汽車行業的發展趨勢將是多元化的,國內車企的實踐給了垂直類大模型極大的想象力。端到端自動駕駛大模型是未來智能駕駛的愿景之一,目前行業內
77、正在極力解決輕量化、本地化、實時全局等技術難題,加速端到端自動駕駛大模型的落地進程。三.智能算力賦能自動駕駛Open AI 一直主張大模型計算量和數據量的暴力美學。同樣的原則,也發生在智能駕駛領域。智能體驗是消費者評價智能汽車的重要指標,而算力資源是直接影響開發速度的硬性因素,智能駕駛算法的訓練需要在有限的時間內完成大量的運算,因而對算力形成極高的要求。隨著智能駕駛車輛滲透率的提升,車端算力、城市 NOA(Navigate On Autopilot,自動輔助導航駕駛或領航輔助駕駛)系統需要的云側訓練大算力需求也將持續釋放。為實現自動駕駛汽車更全面、精確、可靠地感知、決策、控制和執行行駛任務,自
78、動駕駛等級每提升一級,對算力資源的需求至少增加十倍。同時,數據和算力已擴展到智能汽車全環節。汽車智能化是汽車產業升級發展的重要方向,而新能源汽車正是算力應用的最直接表現,從研發、生產制造、銷售/售后、運營等環節的數據都需要打通。數據算力需求將擴大至汽車產業全環節,每一輛汽車出廠之前,工程師們就已經為整車進行了完善的智能操控與應用測試,確保用戶體驗更安全的智能駕駛、更智能的智能座艙。高強度的算力不僅需要被用于模型的運行、更新、迭代,還需要支撐仿真測試中場景的搭建與渲染。+32因此,承載算力基礎設施的大型化智算中心已成為車企快速占領智能汽車市場的基礎條件。近兩年,國內車企或自建或聯合云廠商共建智算
79、中心,努力提升競爭力。吉利汽車湖州“星?!敝撬阒行?,是全球車企首個“云、數、智”一體化超級云計算平臺,綜合算力已經達到 1027 PFlops。平臺通過構建強大的智能化算力體系,統一研發、統一運營、全棧統一租戶化管理,AI 場景研發效能提升幅度超過 20%。業務支撐范圍覆蓋了智能駕駛、智能座艙、人工智能、新能源安全、車聯網大數據、試制試驗等領域,成為吉利打通“車路云網圖”,實現天地一體化和萬物互聯的堅實底座。小鵬汽車烏蘭察布“扶搖”智算中心。在 2022 年數字中國萬里行團隊考察期間,小鵬汽車和阿里云共同宣布在烏蘭察布合建當時最大的自動駕駛智算中心“扶搖”,專用于自動駕駛模型訓練,算力可達 6
80、00 PFlops,將小鵬自動駕駛核心模型的訓練速度提升了170 倍。雨中的吉利星睿智算中心+2024 數字中國萬里行考察報告 行業應用篇33長城汽車旗下毫末智行“雪湖綠洲”智算中心。其算力達到 670 PFlops,采用了自主研發的高性能計算平臺和深度學習框架,可支持毫末在自動泊車、自動駕駛等領域的創新。比亞迪云輦智算中心。該智算中心具有多核高性能處理能力,支持多通訊和信號接口,可對車輛行駛實時監測車身姿態,進行快速決策等。蔚來汽車合肥“蔚來云”智算中心。其集成了阿里云、英偉達等合作伙伴的技術資源,支持蔚來在自動駕駛、電池云服務等領域的發展。長安汽車重慶智算中心?;诎俣戎悄茉频陌亵?AI
81、異構計算平臺,長安智算中心的計算能力達到了 142 PFlops,在支持智能網聯與自動駕駛研發等相關業務時,模型訓練速度最高可提升 125 倍。理想汽車與火山引擎合作,2023 年在大同開始建設智算中心。以 2023 年數字中國萬里行團隊參觀考察的吉利星睿智算中心為例,2022 年 7 月完成一期建設,2023 年 2 月 27 日正式揭牌。該數據中心總投資 10 億元,占地 52.12 畝,規劃機柜 5000 架,一期已建成標準 5kW 機柜 2520 架。截至 2024 年 1 月,數據中心正在運行的CPU 資源約 6 萬多個、AI 芯片 2 千多張、存儲容量超過 60PB。這也是國內制造
82、業首個落地的超大規??茖W計算集群,實測雙精度浮點算力達 25.13 PFlops。星睿智算中心的算力設施主要分為四大區域:通用區、智駕區、仿真區、邊緣研發區。吉利星睿智算中心機房首個落地國內制造業首個落地的超大規??茖W計算集群60000+數據中心正在運行的 CPU 資源2000+AI 芯片 2 千多張60PB存儲容量超過 60PB+34星睿智算中心通用技術架構主要面向常規數據入湖、數據存儲、大數據計算開發、大數據應用支持、AI 研發等業務領域提供技術服務。IaaS 層由通用計算資源、GPU 計算資源、存儲資源、網絡資源、數據庫/數倉資源、大數據資源組成,統一對 PaaS 層提供資源服務。Paa
83、S 層主要由數據傳輸服務、數據計算開發服務、數據治理服務、AI服務組成,用于調用 IaaS 層資源,對吉利常規車聯業務提供大數據和 AI 業務研發支撐。SaaS 層由車聯網大數據應用業務、AI 應用業務相關的一系列應用系統或終端產品組成,直接對產品業務提供數據或計算支持。通用區主要服務智能座艙、云車機研發等,以及研發系統統一的數據湖等。智駕區運行的業務包括數據采集管理、數據標注管理、智駕仿真管理、數據管理平臺、模型研發平臺等。仿真區是吉利全棧自研 AI Drive 虛擬結合的大模型平臺,依托大模型的技術架構能力,涵蓋 AI 技術群和大模型的融合創新,通過合成數據仿真能力和真實數據語義挖掘,解決
84、智駕功能開發所需的隨機/定向場景數據不足和數據長尾問題。能夠大幅提高算法迭代效率,也正在改寫著智能駕駛系統的開發范式。邊緣研發區則是支撐吉利研究院本地數據業務、智能化業務的研發,如試制試驗等業務的開展。吉利星睿智算中心機房 的液冷集群2024 數字中國萬里行考察報告 行業應用篇35依托智算中心吉利構建起全場景數字化智能服務。運行一年多來,從產品(新能源車)角度看,吉利星睿智算中心獲得了不少階段性成果。NOA 量產全面接入,給低于 20 萬定價的車型帶來了更多智駕能力(如博越 L),實現了智能駕駛數據自動閉環;推出了新一代座艙操作系統銀河 NOS,覆蓋多款車型需求,讓用戶的車機交互體驗與手機無異
85、;全場景 AI 服務,包括全場景 AI 模型、WOW 壁紙、AI 音樂律動、兒童繪本等,實際落地應用了大模型、AIGC 等技術;業內領先的大數據應用服務,如數據湖及治理能力,支持超過 350萬輛車的數據實時回傳數據平臺;可為新能源車提供 724 小時的云端守護,如銀河 E8 的神盾電池安全系統,包括了云端的安全智能管控,可以做到事前預警、事中報警。四.車能路云網融合發展加速落地在智能網聯時代中,城市就是一個基于數據驅動的智能體,汽車將成為智慧城市中移動的節點,每天產生、接收、傳遞大量的數據。AI 大模型技術的應用將為智能網聯汽車帶來革命性的變革。未來,智能網聯汽車將與道路基礎設施、云計算平臺等
86、多個領域實現深度融合,共同構建一個高度智能化的交通系統。這將有助于提高交通效率,降低交通事故發生率,同時也為自動駕駛技術的發展提供了更廣闊的空間。為了支持智能網聯汽車的發展,中國汽車與交通產業正在探索汽車、交通、城市融合發展的新路徑,進一步促進智能駕駛的落地。2016年以來,“車路協同智能交通”的國家戰略漸趨明確,行業共識逐步形成,產業化工作正在穩步推進。2019 年 9 月,中共中央、國務院印發交通強國建設綱要,并發出通知,要求各地區各部門結合實際認真貫徹落實。推進數據資源賦能交通發展,構建泛在先進的交通信息基礎設施,加強智能網聯汽車(智能汽車、自動駕駛、車路協同)研發,開發新一代智能交通管
87、理系統,加速新業態新模式發展。在智能網聯時代中,城市就是一個基于數據驅動的智能體,汽車將成為智慧城市中移動的節點,每天產生、接收、傳遞大量的數據。AI 大模型技術的應用將為智能網聯汽車帶來革命性的變革。未來,智能網聯汽車將與道路基礎設施、云計算平臺等多個領域實現深度融合,共同構建一個高度智能化的交通系統。這將有助于提高交通效率,降低交通事故發生率,同時也為自動駕駛技術的發展提供了更廣闊的空間。+362020 年 2 月,國家發展改革委等十一部門聯合印發智能汽車創新發展戰略,明確以智能網聯汽車強國為建設目標,提出構建智能網聯汽車技術創新體系、產業生態體系、基礎設施體系、法規標準體系、產品監管體系
88、、網絡安全體系。2020 年 11 月,住房和城鄉建設部、工業和信息化部兩部委辦公廳印發關于組織開展智慧城市基礎設施與智能網聯汽車協同發展試點工作的通知,明確了加強智慧城市基礎設施建設、實現不同等級智能網聯汽車在特定場景下的示范應用,不斷提升城市基礎設施智能化水平,加快智能網聯汽車產業發展。2021 年 10 月,交通運輸部正式發布了 數字交通“十四五”發展規劃,明確了未來五年我國的數字交通發展目標,構建交通新型融合基礎設施網絡,加快推進交通新基建,推動新技術與交通基礎設施融合發展,完善公路感知網絡,推進公路基礎設施全要素全周期數字化,發展車路協同和自動駕駛,推動重點路段開展惡劣天氣行車誘導,
89、緩解交通擁堵、提升運行效率,建設監測、調度、管控、應急服務一體的智慧路網平臺等智慧公路業務建設。2023 年 11 月,工業和信息化部、公安部、住房和城鄉建設部、交通運輸部聯合發布關于開展智能網聯汽車準入和上路通行試點工作的通知,進一步明確 L3 級和 L4 級自動駕駛準入規范,推動L3 級和 L4 級自動駕駛車型實現里程碑式的新跨越。2023 年 12 月,交通運輸部印發自動駕駛汽車運輸安全服務指南(試行),明確鼓勵規范自動駕駛汽車在特定區域、特定時段從事城市公共汽電車、出租汽車、物流配送等商業化試運營,為自動駕駛汽車大規模商業化落地奠定政策基礎。有別于國外主導的單車智能方案,我國正在探索車
90、路云一體化,即智能網聯汽車中國方案,探索汽車、交通和城市的融合發展。在推動車路云一體化生態的規?;涞睾统B化運營進程中,面向車路云一體化的基礎設施體系提供了堅實的底部支撐。我國正在探索車路云一體化,即智能網聯汽車中國方案,探索汽車、交通和城市的融合發展。在推動車路云一體化生態的規?;涞睾统B化運營進程中,面向車路云一體化的基礎設施體系提供了堅實的底部支撐。2024 數字中國萬里行考察報告 行業應用篇372024 年 1 月,數字中國萬里行團隊走進了蘇州市智能網聯汽車發展的核心區蘇州市相城區,這里培育著智能車聯網全產業鏈生態,聚集了產業鏈上下 260 多家企業、覆蓋 30 余個細分領域,在自
91、動駕駛核心算法、新型傳感器、線控底盤、域控制器、車路協同等領域形成了一批頭部企業和代表性產品,已成為長三角地區最具活力和影響力的產業發展高地。在天翼交通科技有限公司(以下簡稱天翼交通),我們體驗了天翼交通車路云一體化運營服務的兩個典型應用:智能駕駛輔助服務和智能交通管理輔助服務,進一步了解了該應用背后的天翼交通城市級車路云一體化的智慧底座。天翼交通搭載“輕車熟路”系統的車路協同式自動駕駛,全球首次實現以輕量化自動駕駛汽車+高級別全息智慧道路,依靠純路端感知在城市級公開道路實現5G網聯式L4級別自動駕駛。通過車路云的協同,在蘇州市相城區南天成路這條“智駕大道”上,可以看到天翼交通在路端集成安裝的
92、激光雷達、毫米波雷達、攝像機、補盲雷達、路端通訊模及邊緣計算等多種設備,充分發揮了系統“掛得高、看得遠”的+蘇州市智能網聯汽車發展的核心區蘇州市相城區38感知優勢,打造出全路段無盲區、無死角的道路感知體系,可將原本實現 L4 級別自動駕駛所需的單車多維度感知轉由路端傳感器分擔,通過后端技術引擎的處理與分析,向車端反饋時空連續、高置信、真智能的感知融合數據,車端獲得了道路上包括其他車輛、行人、紅綠燈信息等一系列感知結果,并依靠云端的路徑規劃完成點到點的自動駕駛功能,幫助車輛進行智能決策與控制。目前,天翼交通在蘇州市打造了相城三期(51 公里全息感知道路、111 公里智能網聯道路)、S17 高速(
93、6.5 公里全息感知道路、49.5公里智能網聯道路)以及市級云控平臺等標桿示范工程。在未來的規劃中,天翼交通將在整個蘇州市域范圍內建設 1000 公里的全息智慧道路。我們看到,在 S17 高速上,結合路端的實時交通狀況,通過 5G 通信,可以為新能源重卡提供節能車速的駕駛建議,車輛按照云端的車速建議結合自身位置開展相應的實際駕駛動作。除此之外,天翼交通還搭建了智能駕駛賦能服務平臺、智能交通運營服務平臺。在面向交通管理的應用實踐中,利用 AI 識別能力,可以第一時間識別到相關交通事故并初步對相關方的責任進行判定,進而提交給交警進行復核,若結果確認就可下發執行,后續也可結合車端或者手機端的應用,直
94、接下發事故處理結果,讓事故雙方快速離場、恢復交通、避免擁堵。+2024 數字中國萬里行考察報告 行業應用篇39對于自動駕駛汽車來說,通過道路感知體系感知的數據顯然要比車身上的傳感器所能獲得的數據更為全面。但在整個車路協調方案中,最關鍵的是道路與車輛之間的通信問題。天翼交通自誕生之日起就兼顧了云網、數據安全等技術優勢和資源優勢。一方面,通過中國電信的5G 網絡切片技術,為智慧交通提供專網服務,確保道路與車輛通信的高可靠、低時延;另一方面,依靠中國電信的網絡基建優勢,整套解決方案的設計與部署都在原基礎上疊加,利于在城市里的快速部署,也便于后續的運維,減少項目的落地投資。天翼交通城市級車路云一體化基
95、礎設施體系由“3系統+1平臺”組成。3 系統分別是激光/毫米波雷達與攝像頭的場景化定制組合所構建的分級多源感知系統,還有基于算力分層適配的分布式算力系統,以及基于 5G 切片的超穩態智駕專網系統。1 平臺即支撐服務分層解耦、應用跨域共用的云控基礎平臺。目前車路協同主要采用路端開展多點位融合感知計算并把相應結果傳輸到邊緣云進行融合的方式,開展覆蓋范圍內的環境感知計算。但由于目前 AI 算法對于算力的要求較高,這種方式使得路端算力的投資比較大,隨著算法升級,算力平臺無法有效擴展,同時接入對應的邊緣云還需要相應的光纖部署等一系列工程量大的工作。而天翼交通的分層算力網絡系統,可實現算力在中心云、區域云
96、、邊緣云、基站、路側的分級部署和協同,能帶來部署便捷、減少投資、統一運維等優點。對 于 自 動 駕 駛 汽 車 來說,通過道路感知體系感知的數據顯然要比車身上的傳感器所能獲得的數據更為全面。但在整個車路協調方案中,最關鍵的是道路與車輛之間的通信問題。天翼交通自誕生之日起就兼顧了云網、數據安全等技術優勢和資源優勢。+40具體來說,天翼交通為整個項目建設了微基站,將路端的一部分算力上浮,在 5G 基站側構建分布式的算力體系,來支撐對路段上多個點位數據的匯聚計算。同時結合實際計算需求,將邊緣云一部分數據融合與控制功能下沉,從而可以根據實際算法升級或覆蓋升級帶來的新計算要求,動態的構建基于基站的邊緣算
97、力支持,快速響應計算需求。同時,路側感知的信息通過中國電信超高可靠、超低時延的 5G 網絡實現數據的處理和傳輸(比如虛擬雙頻專網、雙發選收、動態調度增強功能等),保障車路之間信息傳遞的實時性。當然,為了避免網絡的波動,天翼交通采用 5G 切片技術,讓高級別自動駕駛更穩定、更安全,成本也更低?;谌到y,天翼交通依據相應行業標準構建分層云控基礎平臺,作為相關運營的城市交通數據底座,完成跨域系統之間的數據標準化對接、針對性計算、標準化的分享,從而使得市區相關的業務可以在統一的數據體系下完成協同??梢钥闯?,天翼交通車路云一體化系統通過最可靠的通信和最強大的邊緣算力平臺,通過全局性的調度,實現了車路協
98、同效率的最大化。這使得寶貴的道路資源也能實現高效和系統性的配置,從而達到整個道路交通系統的智能化提升,最終打造“聰明的車”,建設“智慧的路”,布局“靈活的網”,實現對智能駕駛以及智慧交通的服務賦能。+2024 數字中國萬里行考察報告 行業應用篇41從產業生態和國家政策來看,我國正在大力推動車路云一體化生態的規?;涞睾统B化運營進程,車路協同智能交通國家戰略漸趨明確,行業共識逐步形成,產業化工作正在穩步推進。從技術演進來看,AI 大模型技術的應用將為智能駕駛帶來革命性的變革,智算集群可以提升數據處理與模型訓練的效率。因此,承載算力基礎設施的智算中心成為車企快速占領智能汽車市場的基礎條件。國內車
99、企或自建或聯合云廠商共建智算中心,希望掌握穩定的算力資源,縮短開發周期,加快自動駕駛產品迭代,提升競爭力。42第三章 算力賦能產學研 助力高校技術創新盡管高校一直在算力應用中的規模不大,卻是非常關鍵的一環?;蛟S是出于對科研的創新與探索,許多高校都愿意采用最新的技術進行嘗試。受限于服務對象與客觀條件,單一校級數據中心的規模很難與互聯網大廠甚至是一般的云數據中心相比,但正所謂“麻雀雖小,五臟俱全”,其所應用的技術及管理水平對于整個高校算力圈乃至教育領域的影響力依然非常大。2024 年的政府工作報告明確提出,要“堅持教育強國、科技強國、人才強國建設一體統籌推進”“加快推動高水平科技自立自強”“深化教
100、育科技人才綜合改革,為現代化建設提供強大動力”。這進一步提升了人才教育的價值,也凸顯了高校創新的現實意義。除了調研多地的數據中心外,2023 年的數字中國萬里行暨算力經濟中國行還先后走進了西安電子科技大學、北京大學、中國農業大學、上海交通大學和華南理工大學。數字中國萬里行考察團隊發現,中國高校在數字化教學、智慧校園等方面的探索與實踐早已卓有成效。同時,在高性能算力平臺的演進進程中,多元算力、算網融合、大模型技術、液冷技術等綠色算力解決中 國 高 校 在 數 字 化 教學、智慧校園等方面的探索與實踐早已卓有成效。同時,在高性能算力平臺的演進進程中,多元算力、算網融合、大模型技術、液冷技術等綠色算
101、力解決方案正在高校加速落地。+2024 數字中國萬里行考察報告 行業應用篇 2023 年數字中國萬里行暨算力經濟中國行 走進西安電子科技大學43方案正在高校加速落地。以北京大學為例,通過創新實踐解決了算力網絡市場中使用、接入和交易三個關鍵問題,促進了算力網絡的進一步發展,充分發揮了算力資源的價值,為國家的“東數西算”“雙碳”戰略提供了高質量支撐,為業界提供了寶貴的經驗和啟示。北京大學:算力運營探索,自研 SCOW 管理平臺北京大學的計算中心早在上世紀七十年代初就參與了國內第一臺百萬次計算機的制造工作。如今,北京大學在校級算力平臺建設、算力運營方面積極創新實踐,推動算力發展。北京大學高性能計算校
102、級公共平臺于 2018 年正式揭牌啟用,以計算中心技術團隊為支撐,面向全校提供高性能科學與工程計算服務滿足各學科領域對于大規模數據處理和大規??茖W計算的需求。北京大學擁有“未名一號”“未名二號”等多套算力集群,為數學,深度學習、大氣海洋環境、新能源新材料、天文地球物理、生物醫藥健康等領域提供高性能科學與工程計算服務。目前平臺資源包括 755 個節點和 33584 個核心,擁有 4.39 PFlops 的雙精度峰值計算能力和 15PB 的存儲容量。平臺的日常工作重點就是對這些算力資源實現有序、精準的管理和運維。在建設層面,北京大學是國內首個大規模采用溫水水冷技術降低數據中心 PUE 的高校,推動
103、了液冷技技術在數據中心領域的實踐。同時,北京大學也是第一個大規模使用國產 100G 無損高速網的單位,推動了國產高速網絡技術的發展。北京大學“未名一號”算力集群+44在應用層面,為了實現平臺化的統一管理、算力資源有效調動、不同層級用戶的合理分配,北京大學計算中心集思廣益,并最終攜手北京大學長沙計算與數字經濟研究院共同開發出具有獨立知識產權的算力中心門戶和管理平臺SCOW(Super Computing On Web)。從此,算力用戶和運維團隊只需要一個瀏覽器就能完成算力中心的算力資源使用、管理全流程,實現算力中心資源易管理、易使用的目標。不同于商業軟件的復雜與繁瑣,SCOW 強調一體化部署、開
104、箱即用。它提供圖形化界面,使用方便。在門戶平臺,超算用戶無需了解和配置 SSH、VNC、命令行等技術,直接在瀏覽器上就可以使用超算集群,極大降低了用戶使用門檻,即使是 Linux“小白”用戶也能順利提交作業。在后端界面,設計了能支撐復雜管理的模型。當所有節點都部署之后,SCOW 還提供了連接層,即算力網絡的融合和交易平臺。如果某個算力中心的算力資源很豐富,但用戶資源不足,就可以通過平臺對外銷售算力;如果自身的算力需求比較旺盛,還可以通過平臺購買算力資源。在 SCOW 的開發過程中,實現了諸多技術的創新和突破。如基于透明代理的全流程審計,主要是把網絡安全中的審計引入到系統,加強操作的安全;面向
105、CI/CD 的自動化安全檢測機器人,從源代碼級別實現自動化安全;高畫質低延遲的遠程桌面;基于文件元屬性和網絡自適應的跨集群智能文件傳輸等。統一用戶界面管理系統超算集群智算集群超算集群門戶系統標準接口計費收費作業管理用戶管理賬戶管理身份認證調度系統文件系統調度系統文件系統調度系統文件系統權限管理在線作業提交在線資源申請在線shell平臺跨集群文件傳輸可視化桌面可視化應用+2024 數字中國萬里行考察報告 行業應用篇45相對于目前不少高校使用的外國平臺,北京大學開發 SCOW 并不是為了盈利,也不是為了出名,而是希望通過這一平臺讓更多中國高校用上自己的管理平臺,也同樣是證明中國軟件并不比國外的差。
106、未來,SCOW將朝著 SCOWForAI 的方向發展,用更強、更多功能和更全面的系統服務更多的高校。樊春在不斷迭代與驗證 SCOW 的優勢之后,北京大學決定將 SCOW 項目開源,便于更多的高校能夠體驗到統一部署與管理的優勢。尤其在 AI調度系統上,SCOW 擁有良好的兼容性,與主流系統都做了對接,方便管理員搭建系統,做到開箱即用。如果某高校尚未建設集群,只能在單機上測試系統的話,可以用 Vagrant 實現一鍵部署,也可以用Docker 實現快速部署。目前,全國已有 50 多個機構部署、測試或在使用 SCOW。開源下載量在不到半年的時間內已經超過 12000 次。正如計算中心系統管理室樊春老
107、師所說:“相對于目前不少高校使用的外國平臺,北京大學開發 SCOW 并不是為了盈利,也不是為了出名,而是希望通過這一平臺讓更多中國高校用上自己的管理平臺,也同樣是證明中國軟件并不比國外的差。未來,SCOW 將朝著 SCOW For AI 的方向發展,用更強、更多功能和更全面的系統服務更多的高校?!睌祿@示,北京大學高性能計算平臺已經實現了對于 500 多個、總計30 多億經費的項目支持,支撐高水平論文 1700 多篇,其中Nature正刊 20 篇、JACS頂刊 35 篇和Nature系列的文章 100 多篇,可謂碩果累累。隨著全新建成的“未名二號”算力集群上線運行,北京大學在自主創新與科教興
108、國層面,不斷貢獻自己的力量,推動中國高校算力的快速、持續、穩定發展。上海交通大學:優化應用部署,關注復合型人才培養上海交通大學在高校算力建設和服務層面也是先行者。上海交通大學的“交我算”平臺是校級計算公共服務平臺,由校網絡信息中心負責建設與日常管理,全面支撐全校教學、科研、管理的計算需求?!敖晃宜恪逼脚_早在 2013 年成立,經過“十二五”“十三五”的持續投入與建設,目前已發展成為國內高校頂尖的算力中心,平臺包括云計算、AI 計算、高性能計算、Arm 超算、楊元慶科學計算中心五大計算平臺和科學大數據平臺,通過構建統一聚合門戶,為師生提供一致的計算服務體驗?!敖晃宜恪逼脚_的算力資源非常豐富,除了
109、楊元慶捐助的“思源一號”46高性能計算集群之外,目前運行的還包括 2.0 集群、AI 計算平臺、Arm 超算平臺以及科學大數據平臺等多個算力集群,聚合存儲容量達到 65PB,未來將擴展到 100PB。其中,“思源一號”高性能計算集群總算力為 6 PFlops,暫列國內高校第一;Arm 超算平臺共有100 個計算節點,是國內高校首個基于 Arm 處理器的高性能計算集群,并在硬件和系統層面上均采用了全國產化解決方案,也為國產操作系統在高性能計算領域的大規模應用和完善提供了應用先例和推廣經驗。當然,“交我算”作為上海交通大學校級計算公共服務平臺,最大的價值還在于為學校的教學與科研賦能。為此,上海交通
110、大學網絡信息中心為“交我算”平臺打造了集算力基座、計算服務、人才團隊在內的三位一體模式,支撐計算服務不斷革新升級,賦能科研原始創新與“思源一號”高性能計算集群 2.0 集群65PB聚合存儲容量達100PB未來將擴展到6PFlops“思源一號”高性能計算集群總算力100個計算節點Arm 超算平臺共有2024 數字中國萬里行考察報告 行業應用篇47前沿突破。上述提到的“思源一號”、2.0 集群、Arm 超算平臺等等共同構成了“交我算”的算力基座,提供了多元化、多維度的算力服務與應用環境,而真正讓這些算力設備發揮價值的,還要數專業的計算服務團隊。相較于不少高校網絡信息中心的人手不足,上海交通大學可以
111、說是人才濟濟。在學校大力支持下,“交我算”團隊從最開始的 5 人迅速發展到目前的 32 人,其中一半以上來自 C9 高校,具有碩士及以上學歷,是國內高校規模最大的計算服務團隊。在這個龐大的服務團隊中,計算專員占比很高,這些老師們的主要任務就是支持學科交叉,簡單來說就是在專業學科與計算機學科之間充當“翻譯”。一直以來,高??蒲杏龅降淖畲髥栴}就是許多老師不懂計算機語言,或許不少老師是某個領域的教授乃至權威,比如生物、化學、物理等等學科,但是如何將這些學科的專業需求轉化為計算機能“聽懂”的語言,如何實現有效的代碼編程與調優,這就是計算專員們需要解決的問題。尤其近些年,隨著數字化、智能化的發展,幾乎所
112、有的理工學科實驗都可以通過計算機進行模擬,而不斷升級變化、層出不窮的計算機軟件工具也必需要專業的人才來操作,這也是學科交叉發展的必然。上海交大“交我算”平臺的 管理儀表板+48當然,這種“翻譯”服務也不可能是一對一的,畢竟目前“交我算”平臺已經服務于上海交通大學 1300 多個課題組,如此龐大的數量也讓整個服務團隊異常忙碌。為了實現有序管理、避免重復問題提交,“交我算”平臺開發出全國校級服務平臺中可能是唯一的“工單”系統。這樣一來,通過對于不同工單系統需求的分析,服務團隊就可以為需求一致或者接近的課題組提供標準化的服務,同時也可以保障不同課題組的作業能夠有序運行,讓算力資源與服務團隊運行實現效
113、率最大化。這也是“交我算”推出的全新服務模式。從最早的粗放型采購到后來的按需購買與計算,再到科學融合與計算賦能,其實“交我算”的服務模式已經走在了全國高校的前列。時至今日,“交我算”在科研和教學服務方面取得了新的成就。首先,創新科研支撐模式,數字賦能高水平科學研究。一是面向廣大師生,提供“隨手用”計算服務。統一調度分布在不同校區的算力資源和存儲資源,提供針對教學與科研的計算模板,便于快速調取使用,以滿足不同課程與科研任務的需求。近 5 年,累計為 6800 余名師生提供計算服務,支撐各類科研項目 1000 余項。二是面向復雜項目,提供“個性化”計算支撐。打造具有學科背景的計算專員團隊,深入“交
114、我算”十年走過的五個階段自主創新 科研軟件十四五學科融合 計算賦能2018-2020幫你算 更快更好2015-2017誰想算 都可以來算2012-2014誰要算 誰就自己買2012 年前2024 數字中國萬里行考察報告 行業應用篇49項目共同開展研究,為科研用戶提供個性化的計算支撐服務?!敖晃宜恪睘楦綄偃鸾疳t院牽頭的中國代謝解析計劃提供計算服務,助力解決 PB 量級(千萬億字節)的健康大數據“隨存隨算”和數據構建過程中的高通量生物信息學計算難題。三是面向堵點難點,提供“定制化”解決方案。針對科研過程中遇到的計算領域技術難題和性能瓶頸,優化程序代碼,提升計算性能,保障科研工作高效推進?!敖晃宜恪?/p>
115、助力某院士科研團隊,加速白血病早期診斷的基因組分析流程,將分析每個病人的所需時間從 1 周縮短到 13 個小時,以數字賦能推動科研效率和質量提升。其次,創新教學融合模式,數字賦能高素質人才培育。探索實踐“計算深度融入專業課教學”新模式,由專業課教師和計算服務團隊教師共同參與設計計算材料、計算生物、計算流體力學、計算社會科學等10 余門課程,注重各專業所需的計算知識講授和技能培養,強化計算實驗和實踐環節,增強學生用數字化手段解決實際問題的能力。為各專業課程的計算教學創設一站式軟硬件環境,支撐 25 個院(系)、100余門課程計算實驗和畢業設計,每年為7000余名師生提供服務。針對各類專業課應用需
116、求,定制簡單易上手的編程實踐環境,努力使計算實驗教學不受固定教學時間和專用教室限制,推動數字化教育與實踐融入更多課程。與時俱進,守正創新。經過十余年交大人的持續建設,目前“交我算”平臺已發展成國內高校頂尖的算力中心,也擁有目前國內最大的校級計算服務團隊,可以更好地支持學??蒲?、教學、管理的創新發展,為促進學科交叉融合提供了行業標桿。面向未來,“十四五”期間“交我算”將繼續緊跟國家、上海市及學校的戰略布局,著力加強算力基礎設施建設和服務模式創新,為推進學校事業高質量發展和拔尖創新人才培養注入強勁動力。+50華南理工大學:以多元化液冷實踐打造高效算力、綠色算力 華南理工大學使用的液冷解決方案是目前
117、華南地區高校中較為領先的案例。作為廣東省著名的雙一流高校,華南理工大學也是整個華南地區一流的理工類大學。目前該校建有 29 個國家級科研平臺、231 個省部級科研平臺,數量位居廣東省高校首位。正因為科研項目眾多,該校數據中心廣泛承載了科研平臺和智慧校園等業務,為在校超 10萬名師生提供密集的數據計算資源。換句話說,校數據中心已成為全校的算力“心臟”。如何保證這個“心臟”高效、穩定、健康和綠色地運轉,成為擺在管理者眼前的首要問題。相比上述提到的北京大學、上海交通大學來說,華南理工大學在計算中心規模上與之相當。其在液冷應用層面處于先進水平。數字中國萬里行考察團隊在現場看到了包括曙光數創、聯想等多家
118、企業的先進液冷技術解決方案,這證明了華南理工大學在應用領域的創新與大膽。為了向全校師生與科研日常應用提供支持,在考量過諸多建設方案之后,最終曙光和聯想的液冷解決方案脫穎而出。存算一棧式的液冷數 華南理工機房2024 數字中國萬里行考察報告 行業應用篇51華南理工大學稱得上是曙光存儲在華南地區的經典案例,一方面基于液冷領域的長久積累,勇于打破“性能、能耗、成本”之間的“不可能三角”,通過液冷存儲系統與液冷服務器的技術同源,形成“存算一棧式”液冷方案;另一方面也讓數據中心基礎設施得以統一規劃、設計和通用,在助力數據中心提高運維效率的同時,率先在行業內補全了全棧液冷的拼圖。據中心,解決了長久以來困擾
119、學校的數據中心高能耗、難散熱等難題,實現能效和性能的雙重目標,也讓應用體驗上了一個新的臺階。不同于其他高校因學院眾多所遺留的歷史包袱,華南理工大學國際校區是一個全新校區,也是全國唯一的所有學院、專業都是新工科、交叉學科的校區。這種情況一方面對算力、數據利用有比較高的需求,另一方面在數據中心的建設上也給管理者提供了更多發揮的空間。交叉學科的價值就在于并不專注于某一領域的研究,而是借助多個學科、多個專業的融合與協同,通過復雜的分析、實驗等手段進行研究的新興學科,因此數據交流與應用就顯得更為重要。此外,學校絕大部分實驗都需要計算機進行模擬與仿真,自然也對于系統算力、數據存力提出新的要求。除了教學科研
120、帶來的應用壓力之外,還有一部分壓力來自于政策與發展需求,即綠色低碳。近些年,國家對數據中心排放有了越來越嚴苛的要求,北上廣深等一線城市都陸續出臺了數據中心節能要求,明確表示要將數據中心 PUE 降低到 1.3 甚至 1.2 以下。這也意味著,新建數據中心必須要考慮到未來5到10年甚至更長時間的發展問題。因此,在選擇解決方案時就要更具戰略發展的眼光。在經過仔細的評估與計算之后,華南理工大學最終選擇在國際校區采用存算一棧式液冷解決方案,即計算液冷和存儲液冷的全棧式方案,算力建設達到雙精度7.3P和 AI 計算 94P,并將存儲容量擴展了近 25PB。這主要得益于液冷數據中心在節省電力能耗、節約數據
121、中心設備空間、大規模節約線纜和提升應用體驗等層面的優勢。使用存算一棧式解決方案出于幾點考慮:一是要求性能比較高、質量比較好;二是成本比較低;三是環保。這里提到的成本,主要是電力成本,這也是傳統風冷數據中心成本的大頭。非 IT 設備占據了能耗的40%,這其中很大一部分就是空調等散熱設備。而在使用液冷之后,隨著 PUE 的降低,用于散熱的電量大大減少,長久看來已經遠超過液冷部署的一次性成本,從整體 TCO 角度來說達到了降本增效、節能減排的效果。該方案讓用戶的應用體驗也隨之提升。相對于風冷散熱來說,液冷的散熱效果更均衡、更穩定,無論是對服務器還是對存儲設備來說,運行也就更為順暢、平滑,這樣用戶就感
122、受不到性能的跳躍,可以流暢、1.31.2PUE 降低到25PB存儲容量擴展30%整體能耗降低52穩定的進行科研項目操作。據測算,在使用液冷解決方案之后,華南理工大學數據中心整體能耗降低了 30%。按照服務器、存儲等 IT 基礎設施 5 年的生命周期計算,整體 TCO 有所節省的同時也為后續的升級和迭代提供了良好的基礎條件。數字中國萬里行考察團隊認為,華南理工大學稱得上是曙光存儲在華南地區的經典案例,一方面基于液冷領域的長久積累,勇于打破“性能、能耗、成本”之間的“不可能三角”,通過液冷存儲系統與液冷服務器的技術同源,形成“存算一棧式”液冷方案;另一方面也讓數據中心基礎設施得以統一規劃、設計和通
123、用,在助力數據中心提高運維效率的同時,率先在行業內補全了全棧液冷的拼圖。中國農業大學:花小錢辦大事,算力強勢增長數字中國萬里行考察團隊走進的第四所大學是中國農業大學。因為“農業”的原因,這所大學在大眾的視野中多少有些“神秘”。甚至就連中國農業大學信息化辦公室的陳昕主任也開玩笑的表示,大學里并非大家想象的那樣“遍地是牛羊”。恰恰相反,國字頭的中國農業大學有著太多的光環,“雙一流”“985”“211”等稱號都彰顯出這是一座建校超百年的一流學府。據“星球數據派”統計,2023 到 2024 年中國 985 大學預算經費增速排名中,中國農業大學以 24.3%的增幅排名第二,僅以 0.2%的微小差距落后
124、于冠軍南京大學,這也反映出中國農業大學的快速發展。數字中國萬里行考察團隊發現,中國農業大學從 2022 年開始分一、二期進行了校級算力平臺建設,其中一期規模較小,主要是驗證建設思路,即實現低成本、高價值的優質服務。在有了一定經驗之后,2023 年二期工程快速上馬,并獲得了校內師生的高度肯定。截至 2023 年 11 月,中國農業大學校級算力平臺總計具備 1178 TFlops 的雙精度浮點算力,支撐了學校約 160 個實驗室的科研應用,助力在自然細胞科學等影響因子大于 20 的期刊發表論文 7 篇,SCI 一區頂刊論文若干。雖然就規模來說,其在全國高校校級算力排行中處于中下水平,但就運算速度已
125、達到了中上層級,真正體現了“花小錢辦大事”。7:3高性能計算和 AI 計算23%存儲投入占比6.7PB 裸容量4.5PB 可用容量2024 數字中國萬里行考察報告 行業應用篇+53對中國農業大學而言,科研項目方向眾多,為此在算力的配比上也兼顧了高性能計算和 AI 計算,大概按 7 比 3 的比例配比。同時考慮到生物相關的項目需要大量的存儲,平臺的存儲投入占比約為 23%,其中裸容量 6.7PB,可用容量 4.5PB。在網絡方面,平臺基本按照全線速設計,所有計算節點均采用 100Gbps 的 IB 網絡高速互聯,最大限度保證網絡無瓶頸。農大校級網絡建設54華中農業大學:釋放多元算力價值,推動交叉
126、學科應用隨著智慧化應用在各行各業普及,農業作為國民經濟基礎,也在發生著悄然變化。除了精準農業之外,包括農業信息服務、產業鏈改造升級、資源環境可持續發展,這些都屬于農業應用的范疇,各大農業類高校也自然而然地肩負起細分領域科研與應用創新的重擔。華中農業大學作為全國“雙一流”建設高校,一直以來依托傳統優勢農科,理農結合培植發展生命科學,通過交叉培植、整合集成、發展鞏固、帶動提升等幾個階段,用現代生物科學技術提升傳統農科,加快推進學科交叉融合,提升農科和生命科學國際影響力與行業影響力。為了解決農業科研時各種變量和因素的復雜數據處理需求,華中農業大學在實際科研與教學中對傳統高性能計算集群產生了新的需求。
127、首先就是異構算力的多樣化,由于科研場景不同、各學院差異化的需求也不同,因此多元化算力已經成為華中農業大學要解決的首要問題。其次,隨著不同集群增多,如何實現不同規模、不同配置的集群統一管理調度,提升資源利用率,實現有效管理和監控,也是需要解決的問題。最后,多元化還需要軟件與應用生態的支持,華中農業大學的科研工作多年來一直以開源軟件為主,因此在多元化的過程中需要充分考慮部分未識別的軟件從 x86 架構平滑遷移至 Arm 架構等問題。為了解決這些應用層面的難題,經過多方考慮與深度評估后,華中農業大學最終決定選擇了 Arm+x86+NPU 的異構計算方案。一方面,利用 Arm 處理器低功耗和高效能的特
128、性處理需要長時間運行的任務;另一方面,利用 x86 處理器進行大規模的高性能計算任務,結合昇騰架構的 NPU 加速卡處理特定場景的計算任務,實現計算資源的靈活分配和優化利用。整個集群分為計算節點、大內存節點、NPU 節點、管理節點、登錄節點和運維節點。Arm 節點包括五舟 S627K2 通用服務器及五舟 S900K3 訓練服務器,整個 x86 和 Arm 架構 CPU 總核數9792,CPU 總理論雙精度浮點計算能力 596 TFlops。多元化的效果也是顯而易見的。在實際應用中,通過廣電五舟提供的完善建設方案,鯤鵬處理器的算力效能層面領先主流純 x86 架構 10%,又通過軟硬件全棧調優使得
129、相關的農科行業應用得到了優化,效能進一步得到提升。目前,針對華中農業大學作物遺傳改良全國重點實驗華中農業大學作為全國“雙一流”建設高校,一直以來依托傳統優勢農科,理農結合培植發展生命科學,通過交叉培植、整合集成、發展鞏固、帶動提升等幾個階段,用現代生物科學技術提升傳統農科,加快推進學科交叉融合,提升農科和生命科學國際影響力與行業影響力。2024 數字中國萬里行考察報告 行業應用篇55室、動物科學技術學院、動物學院、信息學院等 838 個軟件都實現了對鯤鵬與昇騰平臺的適配,對高頻軟件進行去重分析已有 691 個適配Arm,適配率高達 82%,也讓華中農業大學的異構應用邁上了新臺階。中國人民大學:
130、升級算力應用,打造“玉蘭 10B”大模型數字中國萬里行考察團隊調研的高校多以綜合性或理工類為主,類似中國人民大學這樣的“文科院?!笔欠浅L厥獾拇嬖?。與大眾印象中以馬克思主義哲學、經濟學、法學等傳統強勢專業為主略有不同,如今數據統計、AI、量子計算等諸多熱門應用也是中國人民大學所關注的,其自身的算力平臺已經初具規模。目前,中國人民大學已經打造出基礎算力中心、數據資源、算法模型等團隊,借助更直觀、操作更簡單的圖形化界面,提供豐富的案例庫和數據集,同時也有 SSH 界面,有利于不同院系、不同專業的學生輕松進行數據分析和交互。在算力應用層面,中國人民大學投入了上千萬元對現有平臺進行升級和改造,目前 C
131、PU 算力達到 335T,GPU 算力達到 1.3T,并全部采用高速IB網絡,解決了讓人頭疼的延遲與卡頓問題,性能達到行業一流。數據平臺的打造則基于目前主流的 Kubernetes 技術,支持多種存儲方式,比如 Lustre 并行文件系統和基于 x86 的分布式文件系統。與算力平臺相通,用戶可以通過圖形化界面上的案例庫和數據集進行數據分析和交互。為促進跨學科合作,中國人民大學還定期組織了名為“數智工作坊”的系列活動,1 到 2 個月舉辦一次,專注于大數據與 AI。這些工作坊促進了各學科間的交流和思想碰撞,比如文學語言和商學、管理學等領域的合作。某商科老師進行了一項關于中國專利的分析,但受限于對
132、 Python 代碼的優化缺乏經驗,利用效率不高。為此,平臺運營團隊幫助他優化了神經網絡 Bert 模型。最終借助 transformer 的方案,將原本需要 500 多個小時的任務縮短至 20 個小時,科研效率大幅度提升。+中國人民大學提出的“國家治理大數據人工智能創新平臺”就是算力應用的很好載體,也能夠為學校層面提供優秀的平臺支持,推動學科間的交流與合作,進一步強化高??蒲兴脚c人才培養。56北京理工大學的“墨子”大模型已經廣泛應用于科研與教學中,并在逐步提升“墨子”大模型的應用特性,以應對未來更加高端、多元化和復雜化的挑戰,從而徹底、全方位解決數據碎片化、分析力度粗、知識獲取難等應用難題
133、。針對當下熱門的大模型應用,中國人民大學利用上百張 GPU 加速卡,僅 8 個月的時間就開發出預訓練大模型“玉蘭 10B”,并攜手高瓴 AI學院進行不斷的調優。雖然遇到不少挑戰,諸如 MPI-IO 要求過高、卡間互聯不夠、數據清洗難度增加等等,但團隊成員信心滿滿,通過嘗試多種技術來解決問題,推動了大模型研究的發展。人們普遍認為理工類大學對計算機、算力應用的需求較為迫切,師生在應用技能上也較為熟練。然而,像中國人民大學這樣的文科高校其實更需要關注到數字化創新的應用,因為這能補全綜合性大學的技術“短板”。中國人民大學提出的“國家治理大數據人工智能創新平臺”就是算力應用的很好載體,也能夠為學校層面提
134、供優秀的平臺支持,推動學科間的交流與合作,進一步強化高??蒲兴脚c人才培養。北京理工大學:提升大模型價值,“墨子”全新升級與諸多高校一樣,北京理工大學也擁有自己的大模型系統,名為“墨子”的科技大模型。這是由北京理工大學自主研發的,專注于科學論文領域的大型語言模型。該模型旨在通過大規模語言和證據檢索模型 SciDPR 的支持,生成針對用戶關于特定論文的問題,進行簡潔準確的回答,并為學術研究人員提供情感支持?!澳印贝竽P筒粌H能夠理解科學論文的內容,還能夠在實際應用場景中提供幫助,如跨模態科技搜索引擎、科技知識圖譜、科技論文閱讀器和科技對話系統等學術產品,在科技學術領域具有重要的應用潛力和研究價值
135、。在大模型應用如火如荼的今天,“墨子”的迭代非常迅速。為了進一步提升在科技論文領域的作用,尤其是針對多模態應用、科技論文領域推薦應用、科技論文續寫應用三方面所發揮的重要作用,北京理工大學計劃將“墨子”大模型進一步升級,通過引入多元化異構算力底座,提供強大的算力支撐。為此,北京理工大學評估了來自行業內第三方的多家方案,最終選擇采用 Arm 架構的多核昇騰 AI 處理器打造強大的升級平臺。昇騰 AI 處理器集成了圖像&視頻預處理器、外部通信模塊、硬件加速器、芯片2024 數字中國萬里行考察報告 行業應用篇+57管理核等模塊,提供完整的 SOC 功能。目前,單臺設備支持 4 個鯤鵬 920 處理器,
136、能夠最大限度地提高多線程應用的并發執行能力;內部具備的 8 個昇騰 AI 處理器,能夠最大限度地提高多線程應用的并發執行能力,單臺服務器提供 2.5 PFlops 算力,采用 FP16(半精度浮點數格式)。如今,北京理工大學的“墨子”大模型已經廣泛應用于科研與教學中,并在逐步提升“墨子”大模型的應用特性,以應對未來更加高端、多元化和復雜化的挑戰,從而徹底、全方位解決數據碎片化、分析力度粗、知識獲取難等應用難題。58在“2023 數字中國萬里行暨算力經濟中國行”活動中,考察團隊看到了高校算力需求的快速增長,這種增長不僅推動了算力基礎設施的建設,也促進了高校在科研、教學、管理等方面的數字化轉型。同
137、時,這也帶來了諸如運營管理、用戶使用難度、算力融合等一系列挑戰,而為了克服這些挑戰,各大高校又組織網絡中心、信息中心等團隊進行攻關,從而實現了從技術到應用再到技術的螺旋式循環。針對應用拓展,北京大學和上海交通大學做出了很好的榜樣。這兩所高校都從自身的日常教學與科研需求出發,通過多年的積累和拓展,形成了符合自身需求、有著明確應用場景的平臺級解決方案。其中,北京大學的SCOW平臺在北京大學、國家天文臺、中南大學等五家機構完成部署;上海交通大學的“交我算”平臺則肩負起全面支撐學校教學、科研和管理的計算需求,更是全國高校應用的翹楚,成為了行業標桿與學習典范。在先進IT基礎設施和解決方案的應用層面,包括
138、北京大學、上海交通大學、華南理工大學等高校都使用了液冷解決方案,事實證明無論是從效率角度還是從低碳角度,液冷解決方案對于高校應用來說都是未來發展的必然趨勢。值得一提的是,這些高校都采用了不止一家的解決方案,甚至在算力層面這些高校也有包括主流 x86、Arm 在內,乃至國產信創平臺等多維度的需求,這也有助于未來科研應用的多元化發展,甚至有助于培養復合型人才。目前,數字中國萬里行考察團隊調研的高校還是以“雙一流”“985”“211”為主,這些高校有著相對更充裕的教學資金和師資力量,在科研水平上也排名前列。但在國內還有數量眾多、比例更大的普通高等院校。未來,考察團隊計劃深入更多高校,助力高校的智慧教
139、學場景,讓更多高校有機會接觸并了解最新的數字化、智能化咨詢與應用,推動中國的數字教育發展。2024 數字中國萬里行考察報告 行業應用篇59PART 技術演進篇2024 數字中國萬里行暨算力經濟中國行考察報告602024 數字中國萬里行考察報告 技術演進篇第四章 多元算力交織益企研究院過去兩年發布了2021 中國云數據中心考察報告和算力經濟時代 數字中國萬里行 2023 新型算力中心調研報告(以下簡稱“2021 版報告”和“2023 版報告”),報告的中心篇幅都留給了數據中心服務的核心對象算力單元。這兩份報告持續關注了CPU、GPU 和 DPU 等多元算力的發展,重點探討了大小核、Chiplet
140、等趨勢,且均體現在新的一年中業內全面鋪開的產品層面上。作為通用算力的代表,CPU 分出“大、小”核本身也是一種多元化的體現。大核為了性能,小核不僅為了能效,也為了在同樣的硅片面積上提供更多的 CPU 核心。隨著小核越做越多,大核又大又多,Chiplet 勢在必行。由于 CPU 自身架構的復雜性,還分為幾個流派,所以在 Chiplet 的具體實現上,頗有些不同的風格并存。GPU 的“核”比 CPU 要小得多,主要以量取勝,Chiplet 的驅動力更多來自于芯片整體實在是太大了。要解決這個問題,理論上很簡單,直接用兩個同樣的 Die 拼成一個大的 GPU 或加速器就可以了,英偉達的 B200 和英
141、特爾的 Gaudi3 都是這樣做的。AMD Instinct MI300系列和英特爾 Data Center GPU Max 則在封裝環節上了難度,一個好處是便于把 CPU 集成進來這也算是一種“大小核”的組合。當然,通常而言,CPU 與 GPU 的集成并不需要如此緊湊,譬如英偉達的 GH200 和 GB200 超級芯片(Superchip)。接下來,我們將從服務器的角度切入,介紹各算力單元的發展狀況,最后再回到服務器。DellOro Group 對通用和 AI 服務器的硬件配置特征做了個大致的分類,深有共鳴,就拿來借用一下。+61GPU 等加速器目前還不能完全離開 CPU 獨立運作,網卡加上
142、 CPU 也能發展出 DPU,所以照例從 CPU 的發展說起。一.CPU:分而利合CPU 的大、小核始于手機等移動設備,大核負責輸出性能,不需要那么強性能的時候就用小核來降低功耗、保障續航?,F在 PC 端的 CPU也已經是大小核搭配,而服務器超越單個設備的使用方式決定了大核與小核都可以做成單獨的 CPU,但 Chiplet 的手法又是通用的。(一)大小核全面鋪開CPU 核心的“大、小”有其相對性,Arm、AMD 和英特爾在具體實現上各有自己的考量;而在目的和手段上,卻也不乏共通之處。通用加速(低端)加速(高端)工作負載傳統推理推理AI 訓練推理客戶類型全部公有云,Colo,企業頭部云,企業(政
143、府/實驗室)CPU1+CPU2 CPU2 CPU加速器CPU 內置1 8 GPU:NVIDIA L40 級或 FPGA或定制加速器4 16 GPU:NVIDIA A100 級或帶 HBM 的定制加速器網卡10/25 Gbps 以太網100 Gbps 以太網(頭部云)100+Gbps 以太網前端:100+Gbps 以太網后端:200+Gbps 以太網/IB服務器價格范圍$3,000$15,000$15,000$80,000$80,000$200,000+網絡10/25/100 Gbps 以太網400 Gbps 以太網(頭部云)100/400 Gbps 以太網前端:400+Gbps 以太網后端:2
144、00+Gbps 以太網/IB散熱方式風冷混合 風/液冷液冷單機柜功率15 kW20 60 kW60 120+kW622024 數字中國萬里行考察報告 技術演進篇大核即性能核(Performance Core),強調單核性能,屬于縱向擴展(Scale-up)路線,與之相對應的橫向擴展(Scale-out)要在同樣的芯片面積下提供更多(對特定類型應用)“夠用”的核心,即小核。對于大多數云和邊緣應用,CPU 的計算強度并不大,而功耗對成本和適用性的影響相對明顯?!靶『恕被蛘哒f能效核(Efficiency Core)是一個有利于控制制造成本、提升密度、降低能耗的方案,而且應用這套思路的趨勢日趨明顯。邊
145、緣側的功耗限制最為突出,也是最先以功耗為目標優化處理器規格的領域。其中的典型如英特爾的 Xeon D 和 Atom,前者主要通過削減核心數量實現目標;后者不僅核心數量有限,處理器架構也大幅精簡。處理器架構精簡也是能效核的主流操作方式,而減小 CPU 核心面積最直觀的辦法就是“裁剪”緩存(Cache)容量和向量計算單元的規格。Arm 總結的不同類型應用(工作負載)對 CPU 的要求+631.Arm:VN 不忘 NVArm 的“大小核”(big.LITTLE)概念在手機上被消費者熟知,后來大核又被進一步細分,出現“超大核”,一個手機SoC內混搭三種核心。這種大、中、小核細分的思路,在 Arm Ne
146、overse 上體現的更為清晰。Neoverse V 系列用于打造高性能 CPU,具有更大的緩存、更大的帶寬、更大的亂序執行窗口,為追求高性能的計算和內存密集型應用程序的系統提供盡可能高的每核性能。這個系列主要面向高性能計算(HPC)、AI/ML(機器學習)加速等工作負載。Neoverse N 系列關注橫向擴展性能,提供經過優化、平衡的 CPU設計,以提供理想的能效比,以及較高的單位面積性能。其主要面向橫向擴展云、企業網絡、智能網卡/DPU和定制ASIC加速器、5G基礎設施以及電源和空間受限的邊緣場景。Neoverse E 系列期望以最小的功耗、最小的芯片面積支持高數據吞吐量和高線程數,面向網
147、絡數據平面處理器、低功耗網關的 5G部署。N 系列在傳統上也屬于大核的范疇,但有了“超大”的 V 系列,對性能的重視超過功耗和面積(PPA)。所以V、N、E三個系列對應大、中、小更為合理,不過在只討論V和N的時候,如果將V稱為大核或性能核,N 就是小核或能效核。+Arm Neoverse 平臺的 V、N、E 三大系列分別面向高性能、能效平衡、高能效三種需求,目前已經發展到第三代 642024 數字中國萬里行考察報告 技術演進篇能效被公認為 Arm 的傳統優勢,V 系列則直接向 x86 發起性能挑戰。Arm 的數據顯示,經過 V1 到 V2 的努力,在 SQL 數據庫、企業級Java、機器學習加
148、速等工作負載上,Neoverse V2 已經具有一定優勢。在生成式 AI(GenAI)如 70 億參數的 LLaMA 2 模型推理場景中,Neoverse V2 的 性 能 比 V1 高 出 23%。2024 年 2 月 下 旬 發 布 的Neoverse V3 和 N3 也都很強調 AI 性能的提升,SVE/SVE2 支持BFloat16、INT8 等格式的數學運算。根據 Arm 的評估,在 AI 數據分析(AI data analytics)上,Neoverse V3 的性能比 V2 提高84%,Neoverse N3 更是比 N2 提高 196%之多。2.AMD:SRAM 反向操作在 2
149、023 版報告出版后,AMD 推出了代號 Bergamo 的第四代 EPYC 97x4 處理器,每 CPU 最多 128 個 Zen 4c 核心。作為 Zen 家族的第一個“小核”,Zen 4c 的思路比較“取巧”:保持核心架構與(同一代的大核)Zen 4 相同,L1、L2 緩存一樣,指令集完全通用,通過 L3 緩存減半(每核從 4MB 到 2MB)、優化 SRAM設計等手段,芯片面積大幅度減小。AMD 宣稱,在相同制造工藝(臺積電 5nm)下,Zen 4c 的面積減少了 35%,但性能損失相對較小,每瓦特性能還提升了 9%,每單位面積的性能提升了 25%。Arm Neoverse V2的微架
150、構,獲得NVIDIA Grace和AWS Graviton4采用;從二代開始,V 和 N 系列都基于 Armv9+652023版報告中曾經指出,隨著半導體制造工藝的進步,相對邏輯電路,緩存(Cache)用的 SRAM 電路的微縮效果在 7nm 以下工藝時期遇到了瓶頸,SRAM 的面積成本愈發顯得昂貴。Zen 4 的 CCD 中,三級緩存的面積接近一半。因此,Zen 4c 大幅度地縮減緩存容量肯定是有利于降低成本的。但是,即使假設 Zen 4 的三級緩存面積占 50%,容量減半后只是縮減 25%的面積,其余的面積優化如何實現呢?答案是:除了已經是6T 的 L2 緩存,Zen 4c 把核心內的 S
151、RAM 也從 8T 換成了 6T,每單元節約了 2 個晶體管,實際宏面積降低達 40%之多。相應的,Zen 4c 在頻率上做了一些犧牲。改用 6T SRAM 對性能會有明顯的影響,因為 6T SRAM 只有一對字線和位線,無法進行雙端口操作。雖然 AMD 利用了臺積電的偽雙端口 6T SRAM,雙泵操作,可以在同一周期內連續發出讀、寫兩個電壓脈沖,改善了性能,但這樣的操作會限制頻率的提升盡管 AMD 宣稱經過優化設計,與 8T SRAM 的頻率差異控制到了 20%以內。以 128 個 Zen 4c 核心的 EPYC 9754 為例,基準頻率為 2.25GHz,最高加速頻率為 3.1GHz;而
152、96 個 Zen 4 核心的 EPYC 9654,基準頻率為 2.4GHz,最高加速頻率為 3.7GHz?;?Zen 4 的 EPYC 9004F 系列更是強調高頻率,譬如 9474F 的基準頻率為 3.6GHz,最高加速頻率為 4.1GHz;9174F 基準頻率為 4.1GHz,最高加速頻率為4.4GHz。+隨 著 半 導 體 制 造 工 藝的 進 步,相 對 邏 輯 電路,緩 存(Cache)用的 SRAM 電路的微縮效果在 7nm 以下工藝時期遇到了瓶頸,SRAM 的面積成本愈發顯得昂貴。Zen4 的 CCD 中,三級緩存的面積接近一半。662024 數字中國萬里行考察報告 技術演進篇
153、降低頻率對邏輯電路部分也帶來了面積上的優化。譬如直接影響是較低的泄露(減少 50%)和開關電容(減少 25%),可以在布線時減少間距,更寬容的時序要求也可以減少緩沖單元的數量。進一步的,邏輯電路的布局也可以更為緊湊,通過取消分區隔斷,可以減少面積損失。更小的核心面積還帶來了更小的時鐘網格,進一步減少面積的開銷。頻率降低之后,三級緩存的面積也可以得到精簡,標準單元的面積減少 20%以上;數據宏對合并,減少 10%的宏面積。經過重新設計之后,包含二級緩存在內的單個 Zen 4c 核心面積僅為2.48 平方毫米,相比 Zen 4 核心的 3.84 平方毫米,縮小了 35.4,從而可以大大提高核心密度
154、。在減少核心面積和三級緩存容量后,Zen 4c 單個 CCD 內包含兩組CCX,各 8 個核心和 16MB 三級緩存。由此,Zen 4c 的 CCD 在核心數量翻倍(8 16)、三級緩存不變(32MB)的前提下,芯片面積依然控制在 72.7 平方毫米,相比 Zen 4 CCD 的 66.3 平方毫米只增加了 9.7。Zen 4 的 L3 緩存向上堆疊得到 3D V-Cache 版(型號以 X 結尾),容量減半結合 L2 緩存以下的設計優化得到小核的 Zen 4c,AMD 真是把 SRAM 玩出了花。需要注意的是,Zen4c 實際上只裁剪 L3 Cache 的做法,意味著它保留了超線程,開啟時每
155、個物理核心可以提供 2 個邏輯核心。+673.英特爾:E 核全面精簡前五代英特爾至強可擴展(Xeon Scalable)處理器都只有性能核,從采用Chiplet技術的第四代開始,代號格式為“石+Rapids(急流)”,如 Sapphire Rapids(SPR,第四代)和 Emerald Rapids(EMR,第五代),至強 6 的性能核版本延續了這一風格,代號為 Granite Rapids;在這一代加入的能效核版本將統一以 Forest(森林)結尾,如至強 6700E 的 Sierra Forest。對比性能核(P-core,P 核),英特爾對能效核(E-core,E 核)的裁剪相當徹底。
156、超線程:E 核去掉了超線程,即每核心為 1 個線程。緩存容量:L2 緩存,每個 P 核有 2MB,4 個 E 核共享 4MB。P 核有“以一當二”的超線程,所以分攤到邏輯處理器上,雙方都是每“核”1MB;但在物理處理器的層面,P 核就是 E 核的 2 倍。從目前的 L3 緩存容量來看,P 核的優勢更明顯。向量計算單元:AI 和向量操作方面,P 核不僅有 2 個 AVX-512 運算單元,(SPR 起)新增的 AMX 矩陣引擎也加入了 FP16 支持;E 核則“回退”到 256 位的 AVX2,而且是 2 個 128 位拼成,雖然這個 AVX2 加入了 INT8 和 BF16/FP16 的 VN
157、NI(Vector Neural Network Instruction,向量神經網絡指令)支持,總體的算力比 P核還是差得遠。顯然,高性能計算不是 E 核版的目標場景,AI 應用也要量力而行。至強 6700E 由 1 個(E 核的)計算 Die 和 2 個 I/O Die 構成 682024 數字中國萬里行考察報告 技術演進篇(二)Chiplet 走向模塊化CPU 作為服務器里的“大管家”,提供算力只是其諸多工作之一,還包括且不限于管理內存和其他 I/O 資源(如 PCIe),所以 CPU 的Chiplet 實現必須要考慮按功能劃分,模塊化計算 Die 和 I/O Die 正在成為潮流。1.
158、AMD:居中擴展,完全分離作為 CPU 應用 Chiplet 技術的先行者,AMD 從代號 Rome 的第二代EPYC 處理器(7002 系列)開始,確立了把 DDR 內存控制器和 PCIe控制器等 I/O 器件集中到一個單獨的 IOD(I/O Die)上,多個 CPU核心及其 Cache 構成的 CCD(Core Complex Die)環繞周圍的布局。這樣做的好處是核心與 I/O 解耦,IOD 和 CCD 的制程可以分別演進,擴充 CPU 核心的數量也較為容易,通過增加 CCD 數量,或迭代更多核心數量的 CCD,都可以獲得 CPU 總核心數的上升。譬如 Zen 4 和 Zen 3 都是每
159、個 CCD 有 8 個核心共享 32MB L3 緩存,前者對應的服務器 CPU 代號 Genoa 即 EPYC 9004 系列,通過把CCD 的數量從 8 個增加到 12 個(當然,離不開 IOD 的支持),總的核心數就從 64 個升至 96 個;Zen 4c 單個 CCD 內的核心數量翻番到 16 個,共享 32MB L3 緩存,對應的服務器 CPU 代號 Bergamo,CCD 的數量又回到 8 個,共 128 個小核。AMD 第四代 EPYC 處理器的 Infinity Fabric 3.0 IOD 采用 6nm 制程,支持 12 個 DDR5 內存通道,可掛接12 個 5nm 制程的
160、Zen 4 CCD(含 3D V-Cache 版)或 8 個 Zen 4c CCD+69由 于 Zen 4c 的 CCD 包 含 兩 組 CCX,但 復 用 一 個 IFOP(Infinity Fabric On-Package)SerDes,所以占用 IOD 的 IFOP 還減少了(12個到 8 個)。按計劃將于 2024 年下半年推出的第五代 EPYC(基于 Zen 5),又回到 1+12 的架構,可以提供多達 192 個核心、384 個線程。2.Arm:兩種思路并存2023 年第四季度,微軟也借力 Arm 公布了自有品牌的 CPU,其Azure Cobalt 100 具有 128 個基于
161、 Neoverse N2 的核心;AWS 的Graviton則已經發展到第四代,具有96個基于Neoverse V2的核心。96 個大核,或 128 個小核,這一年里的 Arm 和 AMD,在每 CPU 的物理核心數上,算是打個平手。當然,Arm 陣營里還有 72 個 Neoverse V2 核心的 NVIDIA Grace CPU,以及 192 個核心的 AmpereOne,2023 版報告中都有過介紹。一個與 AI 緊密結合,一個主攻云原生,路線和定位都很吻合。2024 年 6 月初召開的 Computex 上,NVIDIA 公布了下一代的 Vera CPU,預計將基于 Neoverse
162、V3,單核性能與核心數都會有所提升。CPU 核心數的增長明顯高于 CPU 和服務器出貨量的增長(數據來源:IDC)+702024 數字中國萬里行考察報告 技術演進篇不論大核小核,單 CPU 都來到了百核時代,Chiplet 就成了必選項,關鍵在如何實現。2021 版報告已經指出,Arm Neoverse 和英特爾至強可擴展處理器采用的網格(Mesh)結構,在應用Chiplet技術時存在怎么拆分的問題。網格結構的一大特點是內存和 I/O 控制器等布置在外圍,CPU 核心部分組成的矩陣在內,初期可以只把它們剝離出來形成單獨的 Die,但隨著矩陣的規模越來越大,也勢必要切分成多塊(tile),即不同
163、的Die。從 Graviton3 到 Graviton4 都屬于前一種,由多達 7 個 Die 構成:64個Neoverse V1(Graviton3)或96個Neoverse V2(Graviton4)核心構成最大的Die,4個DDR5內存控制器的Die分列左右(東西向);布局上的主要變化來自 2 個 PCIe 5.0 控制器的 Die,從 Graviton3 的緊貼核心 Die 下方(南向),改為 Graviton4 的分列上下(南北向),且拉開一定距離。從初代 Graviton 到 Graviton4,其中 Graviton3 是臺積電 5nm 制程,Graviton4 推測是 4nm
164、制程+71 當然,Graviton4 每個 Die 的“內容”都大幅度升級,包括但不限于:CPU 核心的 L2 緩存容量倍增至 2MB;核心數增長 50%;DDR5 內存通道數量增長 50%,達到 12 條,速率也從 4800 提高到 5600;I/O 能力也明顯增長,PCIe 5.0 通道可達 96 個,并支持雙路(2S)配置。Arm 官 方 推 出 的 一 攬 子 解 決 方 案 Arm Neoverse 計 算 子 系 統(Compute Subsystems,CSS),提供了偏“傳統”的 Chiplet 選項,即對等拆分。Hot Chips 2023 上,Arm 介紹了 Neovers
165、e CSS 的概念,將核心、CMN 網格、系統/電源管理,以及開發工具等進行了打包,有利于進一步降低 CPU 的開發周期和成本。以其首款方案 Arm Neoverse CSS N2 為例,單個服務器內可以擴展到 256 核心。典型的布局可以是單個 Die 內提供 64 個 N2 核心,以及 4 組 DDR5/LDPPR5 內存控制器(40bit 8)分列兩側、4 組 PCIe 5.0/CXL x16 通道占一側,再有一條 IO 邊負責 Die to Die 連接。這樣一組 CSS 的內核數量也可以是 16、24 核等,隨著網格規模的縮減,對應的內存控制器、IO 資源也會相應的縮減。Arm Ne
166、overse CSS N2 的網格架構,有 32 個計算 Tile,每個 Tile 有 2 個核心,單 Die 提供 64 個核心722024 數字中國萬里行考察報告 技術演進篇Die to Die 連接可以基于 UCIe,也可以是私有協議和 PHY,既可以兩顆 Die 互連后封裝為一顆 CPU,也可以用于連接其他高性能加速器。每臺服務器可以支持雙 CPU 插槽,CPU 之間的 SMP 互聯是復用PCIe/CXL PHY這一點與其他 SMP 系統類似,譬如英特爾至強的UPI 與 PCIe 是復用的。雙芯 Chiplet 搭配雙路插槽,每個系統就可以達到 64 2 2=256 核的規模。+微軟
167、Azure Cobalt 100 采用了 Arm Neoverse CSS N2 方案,單 CPU 用 2 個 Die 實現 128 個核心;該方案雙路可提供 256 核心73Neoverse CCS N3 面向電信、DPU、網絡和云應用,每個 Die 可以有 8 32 個核心,以及一對 DDR5 內存控制器、一對 I/O 控制器和可選的 Die 間互連,32 核心的 TDP(Thermal Design Power,熱設計功耗)可以低至 40W(瓦)。Arm 表示,與 Neoverse CSS N2核相比,Neoverse CSS N3 核的每瓦性能可提高 20%。Neoverse CSS
168、V3面向云、高性能計算、AI和機器學習(ML)工作負載,64 個 Neoverse V3 核心配置 6 個 DDR5 內存控制器、4 個 I/O 控制器和 2 個 Die 間互連,可以升級到每個 CPU 槽位 128 個核心,即 2個 Die 直接拼在一起。據稱,CSS V3 每 CPU 的性能可以比 CSS N2高一半。+英偉達的數據中心芯片路線圖,Vera Rubin 將是接班 Grace Hooper 的 CPU 與 GPU 組合742024 數字中國萬里行考察報告 技術演進篇3.英特爾:從等分,向異構第 四、五 代 英 特 爾 至 強 可 擴 展 處 理 器 的 XCC(eXtreme
169、 Core Count,最多核 or 極多核)版本也采用對等拆分的方式,但是經歷了一個從四等分到二等分的過程。代號 Sapphire Rapids(SPR)的第四代英特爾至強可擴展處理器由2 種互為鏡像的 Die 拼成 22 的(大)矩陣,所以整體高度對稱上下、左右都對稱,外圈的左右有 DDR 內存控制器,上下是 PCIe 控制器和集成的加速器(DSA/QAT/DLB/IAA),UPI 位于四角,是典型的網格架構布局。四等分的第四代英特爾至強可擴展處理器(上)和二等分的第五代英特爾至強可擴展處理器(下)+75第五代英特爾至強可擴展處理器(代號 Emerald Rapids,EMR)把Die 的
170、數量從 SPR-XCC 的 4 個減半為 2 個,仍然是互為鏡像的方式,但用于連接各個 Die 的 EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多芯片互連橋接)數量從 10 個銳減至 3 個,也可以簡化封裝環節的工作。EMR 是 SPR 的優化版本,所以核心數增加不多,從 56/60 到 64 個;DDR5 內存控制器的規格從 4800 小幅提升到 5600。最顯著的規格變化是 L3 Cache(LLC)容量,從第四代英特爾至強可擴展處理器的1.875MB,暴漲至 5MB,結合 Die 數量的減半,單 Die 的迭代幅度還是蠻大的。不過,從架構
171、層面上,對等拆分的模塊化程度不如按功能拆分,如CPU 核心區(包括 LLC)與內存、I/O 等區域相分離。相比 EPYC 二代和 Graviton3 以來的做法,至強 6 選了一條折中的路線:將 UPI、PCIe 控制器、(SPR 開始加入的)DSA/IAA/QAT/DLB 等加速器及I/O Fabric 剝離為模塊化的 I/O Die,CPU 核心部分組成的矩陣與(就近的)內存控制器組成模塊化的計算 Die,2 個 I/O Die 與 1 3 個計算 Die 通過英特爾的 EMIB 連為一體,封裝成一顆完整的處理器。I/O 和計算分屬不同的 Die,設計和制程可以分別優化,靈活性更高:+至強
172、 6 的模塊化 SoC 架構,2 個 I/O Die 服務 1 3 個(帶內存控制器的)計算 Die76I/O 部分從先進制程中的獲益不明顯,已經得到業界驗證,所以 I/O Die 采用成熟的 Intel 7 制程;計算 Die 采用先進的 Intel 3 制程。I/O Die 真的只有 I/O,把內存控制器留在 CPU 核心區,又至少有兩個好處:CPU 核心與內存控制器的距離不會太遠,時延有保證;可以根據 CPU 核心的不同配置對應的內存規格,包括內存通道數和速率。具體到 6700 和 6900(包括 E 核版和 P 核版),劃分的主要依據就是計算 Die 的數量和(2 個)I/O Die
173、的規格。已經發布的 6700E,具有 1 個 E 核計算 Die,最多 144 個 E 核。6700P 有 3 種構型,分別是:1 個較小的(P 核)計算 Die,最多 16 個 P 核,稱為 LCC(Low Core Count,低核心數);1 個 計 算 Die,最 多 48 個 P 核,稱 為 HCC(High Core Count,高核心數);2個計算Die,最多86個P核,稱為XCC(eXtreme CC,極多核)。6900E 有 2 個 E 核計算 Die,最多 288 個 E 核,稱為 ZCC。6900P 有 3 個 P 核計算 Die,最多 128 個 P 核,稱為 UCC。2
174、024 數字中國萬里行考察報告 技術演進篇 為至強 6 設計的主板,左邊這塊支持 6900 系列,每 CPU 有 12 個內存通道77就單個計算 Die(compute tile Die)而言,E 核 Die 的核心數能達到 P 核 Die 的 3 倍,內存通道數應為 2 倍,即 8 個和 4 個,這樣6700 系列是 8 通道,6900 系列可達 12 通道。但是至強 6 的 E 核版支持的內存規格最高為 DDR5-6400,而 P 核版可以支持速率高達 8000/8800 MT/s 的 MCRDIMM(Multiplexer Combined Ranks Dual In-line Memo
175、ry Modules,多路合并陣列雙列直插內存模組),帶寬提升 25%以上。另外,由于 E 核 Die 上的核心數更多,其單體功耗也不低。譬如:1 個 E 核 Die 的 6780E,TDP 為 330W,6700P 有 2 個 P 核計算Die,看起來 TDP 也不過 350W;2 個 E 核 Die 的 6900E 和 3 個 P 核計算 Die 的 6900P,TDP 均為500W。CPU 的實際功耗受工作頻率等因素的影響較大,不能只看一個指標。官方數據顯示,雙路配置下,與 64 核的第五代英特爾至強可擴展處理器旗艦 8592+(TDP 350W)相比,144 核的至強 6780E 功耗
176、隨負載的增長較為線性,在服務器利用率 40%60%的甜點區能降低280W 功耗,還能獲得 18%的性能提升。6700 系列有多達 88 個 PCIe 5.0/CXL 2.0(單路可達 136 個)和 4個 UPI 2.0,P 核版支持四路和八路配置;6900 系列增加到 96 個PCIe 5.0/CXL 2.0 和 6 個 UPI 2.0,但只有單雙路配置,核數已經夠多了。+782024 數字中國萬里行考察報告 技術演進篇CXL2.0至強 6 還首次導入了 CXL 2.0,并可以通過三種模式擴展內存。第一種模式是 CXL NUMA 節點,允許將系統原生的 DRAM 內存和通過 CXL 技術擴展
177、的內存作為兩個獨立的 NUMA 節點,可以在系統軟件或應用層進行內存內容的分層管理,優化配置并屏蔽上層業務,這也是 CXL 一直采用的管理模式之一。但是某些廠商、ISV 客戶或無法對自身軟件進行修改優化的客戶,依然希望能夠用一個對軟件透明,在硬件層面上管理 CXL 和系統原生DRAM 內存的解決方案。針對這樣的需求,英特爾提供了兩種模式。一種是異構交織(Hetero Interleaved)模式,把系統原生的DRAM 內存和 CXL 內存,在地址上進行混合。從帶寬上來看,每個 CXL 內存交織的通路和 DRAM 交織的通路是平衡的,因此 CXL延遲略有區別,但整體對系統的吞吐影響并不大。這種模
178、式僅在6900P/6700P 系列得到支持,可以給系統平臺提供更大的內存帶寬,而且應用程序并不會直接感知或管理到 CXL 內存。另一種是扁平內存(Flat memory)模式,讓 CXL 和原生 DRAM做一個硬件輔助的分層,完全對軟件透明。在 1:1 的近/遠內存比率下,會盡量把 CXL 常用的數據放在 DRAM 中,獲得非常接近于完全 DRAM 的性能表現。79二.GPU:合縱連橫晶體管數量增加是算力提升的主要手段之一,但芯片面積受到各種物理限制。因此,頂級 CPU、GPU 通過 Chiplet 技術進一步擴展規模已是當下共識。AMD Instinct MI200 系列、英特爾 Gaudi
179、 3 先后采用了雙 Die 拼合,隨著 2024 年 3 月英偉達發布 Blackwell,三巨頭主要的AI算力都選擇了Chiplet方案構建新一代的旗艦級GPU/加速器。從 6 塊 HBM(如左邊的 Gaudi 2)到 8 塊 HBM(右邊的 Gaudi 3)是 GPU/加速器走向雙 Die 拼合的典型特征2024 年 3 月,英偉達發布了 Blackwell 架構 GPU,包括 B200、B100,以及 GB2001 個 Grace CPU 搭配 2 個 B200 GPU 的組合。1.英偉達:進入雙 Die 時代Blackwell 采用臺積電 4NP 工藝制造,雙芯片封裝集成 2080 億
180、個晶體管,折合每個 Die 的晶體管數量 1040 億相對 H100/H200 的800億個有30%的提升。晶體管數量和密度的提升也意味著功耗激增,單 GPU 已經可以達到千瓦級,相應的散熱要求也更為嚴苛,英偉達正式建議引入液冷散熱方案。Blackwell 的兩個 Die 之間的互連被稱為 NV-HBI(NVIDIA High Bandwidth Interface,英偉達高帶寬接口),帶寬高達 10TB/s。兩個 Die 被視作一個統一的 CUDA GPU。封裝面積的增加也得益于中介層面積擴大,相應的可封裝多達 8 顆HBM3e 內存,單顆容量 24GB,帶寬 1TB/s。整個 GPU 合計
181、 192GB+80容 量,8TB/s 帶 寬,相 對 H100 的 16GB6 HBM3 和 H200 的24GB6 HBM3e 大幅提升了容量和帶寬。Blackwell 采用第二代 Transformer 引擎,并引入了新的數據類型:FP4 和 FP6。由于 FP4 的位寬比 FP8 進一步降低,B200 峰值算力達18 或 9PFLOPs(稀疏張量或密集張量)。如果繼續使用 FP8 密集張量作為參考指標,那就是 H100 的 2 倍多一些(4500GFLOPs 相對1980GFLOPs)。另外,所謂有得必有失,這一代的 CUDA 核心不再支持 INT8。簡單歸納一下 Blackwell 支
182、持的數據類型,其中 Tensor Core 支 持:FP64、TF32、BF16、FP16、FP8、INT8、FP6、FP4;CUDA Core 支持:FP64、FP32、FP16、BF16。NVLink 升級到第五代,每顆 GPU 提供 18 組 link,每組 link 是50GB/s 的單向帶寬,共 1.8TB/s 的雙向帶寬。最大支持 576 個 GPU的連接,相比上一代是 256 個。配套的第四代 NVSwitch 芯片提供72 個 NVLink Port(端口),每個 Port 雙 200Gbps SerDes,由此就構成了 7.2TB/s 的全雙工帶寬也是上一代的兩倍。B200
183、還支持 PCIe 6.0,但暫時還沒有平臺支持。B200 的最大 TDP 為 1000 瓦,700 瓦的 B100 有利于“平替”現有的 H100/H200,當然性能也有所下降。在良好的散熱條件(如液冷)支持下,B200 的 TDP 也可以上升到 1200 瓦,以獲取更好的性能。在此將Ampere、Hopper、Blackwell三代GPU的主要規格整理成表,其中 B100 和 B200 的規格根據 8 卡的 HGX B100/B200 系統參數整理。2024 數字中國萬里行考察報告 技術演進篇+81架構AmpereHopperBlackwell型號A100H100H200GH200 GH20
184、0B100B200完整 B200GB200顯存類型HBM3HBM3 HBM3eHBM3 HBM3e HBM3e顯存容量80GB80GB144GB96GB144GB192GB192GB192GB384GB顯存帶寬2TB/s 3.35TB/S4.8TB/s4TB/s4.9TB/s8TB/s8TB/s8TB/s16TB/s稠密算力FP16(FLOPS)312T1P1P1P1P1.75P2.25P2.5P5PINT8(OPS)624T2P2P2P2P3.5P4.5P5P10PFP8(FLOPS)-2P2P2P2P3.5P4.5P5P10PFP6(FLOPS)-3.5P4.5P5P10PFP4(FLOP
185、S)4-7P9P10P20PNVLink 帶寬600GB/s900GB/s1.8TB/s功耗400W700W700W1000W1000W700W1000W1200W2700W備注單芯片1Grace1H1001Grace1H200雙芯片1Grace2B200 GB200 的性能超過 B200 的兩倍,因此我們以 GB200 的一半性能推定了一款完全版的 B200(TDP 也更高),以體現目前的 SXM 版本B200 并非完全規格。性能打折扣的情況在 H100/200 SXM、H100 PCIe 上同樣存在。最直觀的原因是功耗的限制。HGX 的 8 GPU 形態本身就帶來了很高的功率密度和發熱量,
186、兼顧風冷散熱方案的時候更有必要降低功耗上限,由此損失一些性能。2.AMD:模塊化與 APU與 B200 這些產品采用兩顆較大的芯片(Die)組合不同,2023 版報告中詳細介紹過的英特爾 Data Center GPU Max(代號 Ponte Vecchio),以及后來推出的 AMD Instinct MI300 系列,都選擇用更小的芯片來構建大規模但更靈活的 GPU。GPU Max 的小芯片叫 Xe-core Tile,MI300 的是 XCD 和 CCD。其中,MI300 又可以分為兩類產品:AMD Instinct MI300X 是 GPU,集 成 了 8 顆 XCD(Accelera
187、tor Complex Die);AMD Instinct MI300A 是加上了 CPU 的 GPU,集成了 6 顆 XCD 和3 顆 CCD(CPU Complex Die)。822024 數字中國萬里行考察報告 技術演進篇其中的 CCD 與 Zen 4 CPU 所用的是相同的,之前已經被用在了 EPYC和 Ryzen 產品線上,每顆 CCD 內有 8 個 CPU 核心。XCD 采用了臺積電的 5nm 制造工藝,每顆 XCD 有 38 個 CDNA 3 計算單元。XCD 和 CCD 通過 3D 封裝與下方的 4 顆 I/O Die 互連。IOD 使用6nm 制造工藝。4 顆 IOD 總共提
188、供了 256MB 的 Infinity Cache 和128 通道共 8192bit 的 HMB3 接口,以及 8 組第四代 Infinity Fabric Link,其 中 2 組 可 復 用 為 PCIe 5.0 x16。這 些 IOD 通 過 Infinity Fabric 片上網絡將 XCD、CCD 互聯起來。AMD Instinct MI300X 的封裝布局+83AMD Instinct MI300 系列這種 3D+2.5D 封裝與英特爾 Data Center GPU Max 也有異曲同工之處,關于后者的詳細 Chiplet 結構可以參考益企研究院 2023 版報告第三章存算互聯中
189、的“向下發展:基礎層加持”部分。英特爾在 Base Tile 中提供了 288MB 的緩存和交換網絡,以及 HBM、PCIe、Xe Link 等的 PHY。計算芯片(XCD、CCD、Xe-core Tile)通過 3D 封裝堆疊在主動(有源)中介層(AMD是 4 個 IOD,英特爾是 2 個 Base Tile)之上,主動中介層再通過 2.5D封裝(EMIB 或硅中介層)連接外部 IO,如 HBM。這種封裝方式被稱為 3.5D。AMD MI300 系列所使用的 XCD、CCD、IOD 具有很理想的復用效果。三種芯片都只需要設計和生產一種版本,封裝時通過 180旋轉即可適配,不需要制造鏡像芯片,
190、有利于優化成本。相對而言,第四、五代英特爾至強可擴展處理器的 XCC 版本都需要生產鏡像布局的芯片,更不要說還有 MCC 甚至 EE LCC 等細分的 Die 規格了。MI300X 集 成 192GB HBM3,是 OAM 形 態,通 過 7 組 Infinity Fabric Link 互聯,每個服務器節點內可提供 8 個 MI300X,節點外部擴展是通過 1 組 PCIe 5.0 x16 實現?;?MI300X 的系統與常見的8 GPU 服務器類似,使用雙路處理器(如 AMD EPYC 9004 系列),配置多通道 DDR5 內存,推薦搭配 8 塊 RDMA 網卡。作為比較“傳統”的 G
191、PU,MI300X 在發布時的主要優勢是 HBM 堆棧數量更多,8顆 HBM3 可以提供 5.3TB/s 的帶寬和 192GB 的容量,遠超 H100 的80GB、3.3TB/s。英偉達的 H200 主要也是提升了 HBM,容量達到141GB,帶寬也提升到4.8TB/s,但6顆HBM3的上限還是比8顆的低。AMD Instinct MI300A 的封裝布局+842024 數字中國萬里行考察報告 技術演進篇MI300A 集成 128GB HBM3,被稱為數據中心 APU(加速處理器),外觀與CPU類似,采用SH5插槽,通過4組Infinity Fabric Link互聯,單節點內可安裝 4 顆
192、MI300A。節點外部擴展可使用 4 組 Infinity Fabric Link 或 PCIe 5.0 x16。由于 MI300A 已經集成了 CPU,其服務器不再安裝其他的 CPU,也不提供 DDR 內存擴展。整個節點的內存完全來源于 MI300A 內封裝的 HBM3,4 顆 MI300A 總共提供512GB 的容量。AMD Instinct MI300X AMD Instinct MI300A+85可以看到,不管是 MI300X 還是 MI300A,都要通過 Infinity Fabric Link 互聯。2024 年 5 月,AMD、Broadcom(博通)、Cisco(思科)、Goo
193、gle(谷歌)、HPE(惠普企業)、英特爾、Meta、Microsoft(微軟)組建了新的行業聯盟 UALink Promoter Group。UALink 即 Ultra Accelerator Link,用于 GPU 之間的通信,對標英偉達的 NVLink。最初的 UALink 規范就將基于經過驗證的 Infinity Fabric 協議,預計在 2024 年第三季度釋出 1.0 規范,并計劃在第四季度更新為帶寬更高的迭代版本。3.GPU 集成 CPUNVIDIA Grace Blackwell Superchip(超 級 芯 片)由 1 個 Grace CPU 搭 配 2 個 B200
194、GPU 構 成,目 前 已 發 布 的 被 稱 為 GB200 Superchip。GB200 的 CPU 與 GPU 之 間 的 連 接 依 舊 基 于 NVLink C2C,帶 寬900GB/s??紤]到 Grace 的宣傳當中并沒有提及規劃了兩組 NVLink C2C,不排除每顆 B200 GPU 與 CPU 的互聯帶寬相對 GH200 會折半為 450GB/s。即便如此,這樣的帶寬依舊可以超過 PCIe 6.0 x16 可以提供的水平,也依舊大致相當于 NVSwitch 與任一 GPU 互聯的帶寬(4 或 5 組 link)。GB200 的 480GB LPDDR5X 和兩組 192GB
195、 HBM3e 加起來,就有了864GB 的“Fast Memory”。按照目前的配置,GB200 平均到每顆GPU 的 Fast Memory 容量只有 432GB,會明顯小于 GH200(621GB或 572GB)。但是,考慮到第五代 NVLink 允許更大規模的 GPU 互聯,可以構建的“單”GPU 的內存容量就會遠遠超過上一代產品。以 GB200 NVL72 為例,36 組 GB200 總共可以獲得超過 30TB 的+862024 數字中國萬里行考察報告 技術演進篇Fast Memory。如果構建最多 576 顆 B200 的集群,則可以超過2400TB!“顯存”如此巨大的“單”GPU
196、在做大模型訓練的時候會展現極大的優勢。異構整合是 Chiplet 的價值點之一。MI300A 對 CPU 的整合思路與英偉達的 GH200 SuperChip 完全不同。后者的 CPU 除了提供一定的通用算力之外,最大的賣點就是通過 NVLink C2C 將 CPU 的內存接入整個 NVLink 域,為 GPU 提供更大容量的直接內存訪問。英偉達將 GPU 上的 HBM 與 Grace CPU 上的 LPDDR5X 統稱為 Fast Memory。MI300A 的 CPU 與 CU 共享 HBM 的容量與帶寬,雖然容量相對有限,但帶寬極大。MI300A 整合 CPU 是希望能夠更快地預處理一些
197、數據,減少了跨 CPU(外部)的數據訪問。MI300A 的數據訪問和處理的能效很高,這種小容量、高帶寬的模式,典型的應用場景便是科學計算。AMD 在發布 MI300A 時,便引用 OpenFOAM 測試數據(流體力學)說明其性能是 H100 的 4 倍,其中 GPU 的紙面性能提供了一些優勢(FP32 和 FP64 的算力,以及 HBM3),但更大的優勢來自于統一內存和內存帶寬。MI300A 已被用于下一代 El-Capitan 超級計算機,該超算預計將提供高達 2 Exaflops 的算力。類似的為 CPU 提供高帶寬內存的思路包括英特爾的 Xeon Max,以及更早的富士通的 A64FX,
198、在科學計算方面性能突出。英特爾的Falcon Shores XPU 也曾計劃異構整合 CPU 和 GPU,但是,Falcon Shores 已經被推遲到 2025 年上市,并取消了異構設計,改為純GPU 方案。英特爾取消 XPU 可能是暫時的,畢竟目前英特爾還沒有一款類似 Zen 4 CCD 這般成熟且通用的計算芯片可供移植,搞融合的風險確實更高。AMD 的 Zen 4 CCD 是 2022 年底上市的,基于它已經發展出了多種產品,出現在 AMD 多個子品牌當中,涵蓋筆記本電腦、臺式機、工作站、服務器等多個平臺。而英特爾的至強 6 才剛剛開始將計算、I/O 的 Tile 分離,初步體現了計算芯
199、片的擴展靈活性和IO 芯片的復用。隨著未來的 CPU、GPU 產品線發展,算力的異構集成依舊應該還是會回到英特爾的路線圖中。異構整合是 Chiplet 的價值點之一。MI300A 對CPU 的整合思路與英偉達的 GH200SuperChip完全不同。后者的 CPU除了提供一定的通用算力之外,最大的賣點就是 通 過 NVLinkC2C 將CPU 的 內 存 接 入 整 個NVLink 域,為 GPU 提供更大容量的直接內存訪問。874.網絡:從 400G 到 800G從2022年下半年到2023年上半年,不到一年的時間里,博通、英偉達、Marvell 和思科都推出了 51.2T 的交換機(芯片)
200、,這樣的芯片可以提供 128 個 400Gb/s 的交換機端口。2024 年 3 月 中 旬 的 GTC 上,英 偉 達 發 布 了 新 的 X800 系 列InfiniBand(Quantum-X800)和以太網(Spectrum-X800)交換機。Quantum-X800具有多達144個800Gb/s端口,總帶寬115.2Tb/s,配合英偉達 ConnectX-8 SuperNIC 使用,端到端帶寬達 800Gb/s。下一步就是 1.6Tb/s,以滿足 GPU 集群不斷提升的互聯需求。阿里云的 GPU 服務器和 400G 交換機+882024 數字中國萬里行考察報告 技術演進篇三.DPU:
201、由云向智SmartNIC(智能網卡)崛起于云計算的黃金時代,用意包括但不限于為 CPU 減負,或者說從 CPU 那里搶點兒工作出來。于是,一些x86 CPU 核心的負載被轉移到智能網卡集成的 CPU 上,為 Arm 創造了市場機會。英偉達收購 Mellanox 之后,DPU、IPU、CIPU 等名詞相繼出現,網卡上升到了數據或基礎設施處理器的高度。1.從 SmartNIC 到 DPU:層層加碼DPU 是一個伴隨著云計算的成熟而逐步進入人們視野的概念,它也經歷了不斷的演進,不斷增加自身的能力。隨著“羽翼豐滿”,DPU 甚至已經開始與 CPU、GPU 爭奪數據中心的核心地位。隨著數據中心的規模增長
202、,虛擬化興起,使得“軟件定義網絡”成為主流。數據中心需要調度龐大的網絡、存儲流量,這個過程需要占用一定的計算資源。這種開銷也被稱為“數據中心稅”,而且,即使沒有運行任何業務,這個消耗也是實際存在的。早期的“數據中心稅”主要由CPU買單,一臺主機當中會有若干CPU核心用于支撐這些開銷??紤]到 CPU 相對昂貴,且功耗偏高,將這些工作盡可能地卸載到其他硬件(協處理器、加速器等)上,是一個合理的思路。卸載的任務是一個循序漸進的過程。早期的產品,被稱為智能網卡(SmartNIC)。譬如網絡傳輸包轉發處理時,首先在內核空間進行查表,如果查找命中,則會下發到內核態進行緩存,以便后續在內核態直接命中,從而直
203、接轉發;如果沒有命中,則到用戶空間進行后續的查找。智能網卡可以優化轉發性能,當流緩存到網卡后,后續的報文解析、流表查找和轉發直接在網卡內部完成,減輕了 CPU 核心的負擔。89再譬如,各種虛擬化協議,SR-IOV、VirtIO、PV 的加速,VxLAN、Geneve Overlay、VTEP 的卸載等等。虛擬化占用資源非常嚴重,純軟件虛擬化方案可以消耗一半的 CPU 資源。為此 CPU 廠商提供了一些硬件虛擬化能力,如英特爾的 VT-X,可以提供 CPU 和內存的虛擬化,但對于網絡和存儲的虛擬化并沒有什么幫助。亞馬遜的 Xen AWS 2013 通過 PCIe SR-IOV 技術,正式引入了網
204、絡 I/O 硬件虛擬化,到Xen AWS 2017 又實現了存儲 I/O 的硬件虛擬化。隨著數據流量的增加,安全方面的開銷同樣也急劇增大。IP 數據包在公用網絡中傳輸可能會面臨被偽造、竊取或篡改的風險,而 IPsec(Internet Protocol Security)是為 IP 網絡提供安全性的協議和服務的集合,IP 數據包通過 IPsec 隧道進行加密傳輸智能網卡還逐步開始承擔 IPsec 加解密操作。簡而言之,數據中心網絡數據傳輸層面的算力消耗,如虛擬交換、虛擬路由、IPsec 等,使用通用 CPU 核心進行處理不夠劃算,那就可以交給專用的加速器處理。這種加速器早期均基于 FPGA 進
205、行開發,經過多輪迭代后,逐步出現 ASIC/SoC 形式的產品。譬如前面提到的Xen AWS 2017,亞馬遜在 2017 年底發布的 Nitro 卡完全實現網絡和存儲的卸載,這也意味著云計算架構終于真正實現了業務與基礎設施的物理隔離。2.FPGA 開局最早將 FPGA 引入數據中心進行加速的探索者是微軟,項目代號Catapult。該項目于 2014 年的 ISCA 會議論文(A Reconfigurable Fabric for Accelerating Large-Scale Datacenter Services)而被業界所了解,被視為第一個在大型數據中心中應用 FPGA 的實例。Cat
206、apult 的早期階段先是嘗試做一些應用加速,第一階段每張卡采用了 6 顆 Xilinx Virtex-6 FPGA,第二階段每張加速卡使用單顆 Intel/Altera Stratix V,加速卡之間利用 SAS 接口通訊。這個時期共部署了1632 臺服務器,主要應用是為 Bing 搜索加速,如利用深度神經網絡做搜索排序,將這類運算從 CPU 卸載下來這就是妥妥的“異構算力”??!據介紹,Bing搜索引擎的文件排名運算在進行硬件加速后,吞吐量提升了 95%。數據中心網絡數據傳輸層面的算力消耗,如虛擬交換、虛擬路由、IPsec等,使用通用 CPU 核心進行處理不夠劃算,那就可以交給專用的加速器處
207、理。這種加速器早期均基于 FPGA 進行開發,經過多輪迭代后,逐步 出 現 ASIC/SoC 形 式的產品。+902024 數字中國萬里行考察報告 技術演進篇到 2016 年,微軟發表了 Catapult 第三階段的成果,直接將 FPGA與數據中心網絡進行互連,終于有了早期智能網卡的雛形。這個加速卡依舊采用 Stratix V 系列 FPGA,網絡接口為兩個 40Gbps QSFP 端口第二階段的加速卡是用 SAS 接口互聯,現在變成了標準的網絡接口。FPGA 加速卡位于服務器和數據中心網絡之間,一個網口連接TOR 交換機,另外一個網口與服務器的網卡相連。此外,FPGA 還通過PCIe 3.0
208、 x8與CPU互連。這個階段,微軟將加速卡用于網絡虛擬化,將流表固化于 FPGA 當中。FPGA 和 RDMA 網卡,以及 DRAM 等雜七雜八的加起來,成本大約是1000美元。類似的工作如果交給CPU來做,每個主機可能需要消耗 5 個物理核而如果這些 CPU 物理核全部用于出租,整個生命周期內可以獲得 4500 美元的收益。微軟在自家數據中心的 5670 臺服務器中部署了第三代的 FPGA 加速卡。各互聯網大廠也陸續部署了類似的加速卡。FPGA 或 ASIC/SoC 與網卡結合,即是智能網卡。隨著智能網卡功能的成熟,相關的處理能力也可以加速器的形式回到 CPU 內部,譬如英特爾第四代至強可擴
209、展處理器的 DSA。+91基于 FPGA 的智能網卡存在一些明顯的缺點。首先是編程難度較大,普通軟件工程師進行二次開發的門檻較高。更主要的問題是,FPGA的邏輯資源有限,或者說邏輯資源對應的芯片成本較高,主流的FPGA 無法容納復雜的邏輯,因此,通常只能將數據面的功能放入其中,限制了智能網卡的功能進一步發展?;?ASIC 的智能網卡也存在資源有限的缺點,其網絡處理器編程可以基于規模較小的通用處理器核心,早期典型的如 MIPS 等,這些核心做高吞吐量的流處理是足夠的,但更復雜的邏輯就捉襟見肘了,畢竟這些小核的算力、緩存容量都極其有限。相應的,控制面的功能還保留在 CPU 上處理,如虛擬化管理程
210、序、容器引擎等等,因為程序復雜,工作量大。一般來說,GPU、SSD 等資源也需要通過 CPU 進行調度。能否實現控制面的卸載呢?當然可以,相應的,DPU 的概念出現了。前面提到的 AWS Nitro 被視為 DPU 的鼻祖,其引入的嵌入式 CPU 可以通過不同的軟件實現不同的功能,如 VPC(虛擬私有云)卡、EBS(彈性塊存儲)卡、安全芯片等。虛擬機的業務管理安排在“額外”的 CPU 上運行,表面上性能開銷相同,但主機 CPU 時間的成本通常更高,將負載轉移還是劃算的。而且,管理和業務運行在不同的處理器上,還帶來了安全方面的好處。同一時期,阿里云也開始開發和部署神龍架構,2017 年天貓雙十一
211、大促部署了 1000 臺服務器進行驗證,2019 年起將阿里巴巴集團的所有計算類服務都遷移至神龍架構。在智能網卡到 DPU 的演進過程中,前者經歷了業務層層加碼的過程,其結構也有 On-Path 和 Off-Path 的不同流派,因此,DPU 的概念與智能網卡在硬件上的區別其實是比較模糊的。3.DPU 與 IPU跟智能網卡越來越復雜一樣,DPU 也經過了大量的演進。早期 DPU是 Data Processing Unit(數據處理器)的縮寫;后來,有人提出其中的 D 是 Datacenter,叫數據中心處理器;還有更高大上的,叫Data-centric,以數據為中心的處理器。也有的廠商索性起了
212、新的名字,如英特爾推出的是 IPU(Infrastructure Processing Unit,基礎設施處理器),阿里云的是 CIPU(Cloud Infrastructure Processing Units,云基礎設施處理器)。不論如何,DPU/IPU 要處理的,確實是數據,但已經不僅僅是“數據平面”中的數據,它已經被視為數據中心的重要算力資源,而不僅僅是為 CPU 減負一方面,干的活多了,可謂功高蓋主;另一方面,從 DPU 的角度看,DPU 與 CPU、基于 FPGA 的智能網卡存在一些明顯的缺點。首先是編程難度較大,普通軟件工程師進行二次開發的門檻較高。更主要的問題是,FPGA 的邏
213、輯資源有限,或者說邏輯資源對應的芯片成本較高,主流的 FPGA 無法容納復雜的邏輯。+922024 數字中國萬里行考察報告 技術演進篇GPU、存儲類似,只是被調度的資源,它可以存在于數據中心的中樞,也可以部署在邊緣包括近邊緣和遠邊緣??紤]到控制平面的復雜性,靈活、易于編程是最為重要的。相對合理的策略是引入通用的 CPU 核負責這部分任務。因此,多數 DPU 可以看做是“通用 CPU+加速器”的組合。這種組合可以是分立的,典型的如英特爾 2021 年推出的代號 Oak Springs Creek 的 IPU 參考平臺,就是將 Xeon D CPU 和 Agilex FPGA組合在一張擴展卡上。1
214、6 核的 Xeon D 負責控制平面的工作,FPGA負責數據平面的加速。由于 FPGA 可以重新硬件編程,以及尤其適合于數據流處理的低延遲特性,這種組合可以更好地適應數據中心高吞吐量和時延敏感的技術需求,譬如電信運營商、存儲虛擬化等等。也可以將控制平面和數據平面的處理都整合在單一芯片內。譬如同期英特爾也推出了其首個基于 SoC 的 IPU 產品,代號 Mount Evans。這款 SoC 使用了 16 個 Arm Neoverse N1 核心作為通用處理器以處理控制平面部分的業務。數據平面主要是網絡和存儲的加速器,包括RDMA、NVMe、數據包處理、服務質量控制、流量整形、IPSec 加密等等
215、,以及 PCIe 和以太網的 SerDes。Mount Evans 在高集成度下也實現了很好的靈活性。處理控制平面使用 Arm Neoverse N1 核心可以支持 DPDK 和 SPDK 這些高性能編程框架,數據平面的編程支持 P4 語言。2019 年,英特爾收購了 Barefoot公司,Barefoot 的創始人 Nick McKeown 與英特爾、谷歌、微軟等公司聯合設計了 P4 語言,專門用來對網絡交換的數據面進行編程。+93英偉達的 BlueField-3 DPU 是 AI 時代的明星產品。除了支持 PCIe 5.0 x32 和 400G 網絡,BlueField-3 相比 Blue
216、Field-2 的最明顯變化是計算能力提升 3 倍BlueField-3 具有 16 個 Arm A78 核心,而上一代是 8 個 A72 核心。大幅增加的 Arm 核心數量和單核性能有利于支持更多的虛擬實例,或為更大規模的無阻塞通信卸載消息傳遞接口。CPU 核的增加在芯片面積上也產生了明顯差異,已經占據了BlueField-3 將近一半的面積。BlueField-3 的 數 據 平 面 可 編 程 性 通 過 可 編 程 的 加 速 流 水 線(Accelerated Programmable Pipeline)和新的可編程數據路徑加速器(Datapath Accelerator,DPA)實
217、現。DPA 是一個由 16 個核心組成的 I/O 和數據包處理器,專為設備仿真、擁塞控制、自定義協議等 IO 密集型、低計算任務而構建。我們可以將 BlueField-3 簡單看做是 Arm Neoverse N 系同級的 CPU核心與 ConnectX-7 智能網卡核心集成在一顆晶體管數量高達 220 億的 SoC 內。就架構而言,它是由多核 CPU 負責虛擬機、軟件定義存儲等數據中心應用的管理,由固化的加速器進行加解密等安全操作,由可編程的數據流加速器處理網絡與 CPU、GPU 的通訊。+942024 數字中國萬里行考察報告 技術演進篇4.GPU 與 AI 算力為了提高管理能力,DPU 引
218、入了相對較強的嵌入式 CPU,接下來的賣點應該從哪里挖掘呢?那就強化某些方面的能力,尤其是時髦的 AI方向吧。在 2020 年,英偉達和 Marvell 都明示了這一點,前者規劃的產品是 BlueField-2X,后者是 OCTEON 10。英偉達當時規劃的 BlueField-2 是 8 個 Arm Cortex-A72 核心搭配 ConectX-6。在此基礎上規劃的 BlueField-2X 計劃外掛一顆Ampere GPU。利用 Tensor Core 的 AI 算力可以進行實時安全分析,這在當時確實是相當時髦的概念,譬如英特爾 vPro 中的硬件盾(Intel Hardware Shi
219、eld)宣稱是首款商用的基于芯片的 AI 威脅檢測解決方案,將病毒掃描工作負載從 CPU 分流到 GPU。DPU 面對的數據流量巨大得多,看上去很是值得掛上一顆GA102等級的核心處理安全問題。計劃中的功能包括識別提示竊取機密的異常流量、線速加密流量分析、惡意活動的主機自檢、以及動態的安全編排自動化響應(SOAR)等?;仡櫽ミ_ 2020 年時期的 DPU 路線圖,BlueField 提升通用算力和AI 算力的思路很明確,BlueField-3 的 CPU 性能要比 BlueField-2 高4 倍,BlueField-3X 估計繼續使用 Ampere GPU;BlueField-4 則更激進
220、,CPU和GPU都要在BlueField-3X的基礎上實現幾倍的提升(就當是 GH200 的 DPU 版吧)。實際上,BlueField-2X 和 3X 這樣的命名并沒有被采用,類似思路的產品變成了“融合加速器”(Converged Accelerator)產品線。除+95了前面提到的基于 AI 的網絡安全應用,融合加速器還可以用于 5G 虛擬無線接入網絡(vRAN)進行 GPU 加速的信號和數據處理,或者用于邊緣場景的 AI 應用(尤其是多實例并行)。真正把 AI 算力集成到 DPU 芯片內部的是 Marvell OCTEON 10。Marvell 將其 DPU 家族的歷史上溯到 2005
221、年,當時主要用于防火墻,早期被定位為“基礎設施處理器”。2015 年,Marvell 宣布 OCTEON TX 采用 Arm 核心。OCTEON 10 是 Marvell 的第七代DPU,在 2021 年透露,采用臺積電的 N5P 制造工藝,支持 PCIe 5.0接口,其主要亮點是首批采用 Arm Neoverse N2 核心的產品之一,+962024 數字中國萬里行考察報告 技術演進篇并且集成了機器學習引擎。OCTEON 10 的 24 個 N2 核心每個均有64KB 指令 Cache 和 64KB 數據 Cache,以及 1MB L2 Cache,所有核心共享 48MB L3 Cache
222、再配合 16GB DDR5-5200 ECC DRAM,其處理能力在 DPU 中相當有優勢。OCTEON10 除了固化密碼處理、虛擬化等功能外,還有向量數據包處理(Vector Packet Processing)和機器學習處理器(ML Processor)。向量數據包處理引擎與前一代的標量處理引擎相比,能夠將數據包處理吞吐量大幅提高 5 倍。機器學習處理器支持 INT8、FP16 數據,主要用于推理應用,如威脅檢測、波束成形優化、情境感知服務、預測性維護。這些應用也是比較典型的邊緣側場景,包括無線基站、車載等,這也是 Marvell 的傳統優勢領域。對于計算中心,機器學習除了可以識別惡意流量
223、,也有機會做網絡流量分析,分析識別延遲、丟包、抖動等;還可以在存儲方面分析數據冷、溫、熱,協助分層、壓縮等。不論是英偉達的融合加速器,還是 Marvell OCTEON10,它們的共同點都是整合了不同程度的 AI 算力。支撐這種算力需求的現實應用是5G 時代大規模 MIMO 天線陣列相關的趨于復雜的波束成形算法,潛在的應用領域則遠不止于此。物聯網、數據庫等應用都可以用上優化的算力進行加速。如何更高效地整合AI算力,平衡性能、成本、靈活性,將是 DPU 發展中的重要議題。5.DPU 也要 Chiplet大語言模型的成功讓數據中心的算力和網絡帶寬都進入到高速發展的階段,如果要更好地適應這種形勢,D
224、PU 的迭代速度必須相應加快。類似 BlueField 的規模較大的 SoC 方案會面臨升級滯后的問題。典型的就是在 GTC2024 上,英偉達發布了面向高性能 AI 基礎設施大語言模型的成功讓數據中心的算力和網絡帶寬都進入的高速發展的階段,如果要更好地適應這種形勢,DPU 的迭代速度必須相應加快。+97的新一代的 Quantum-X800 網絡平臺(InfiniBand),其中包括Quantum Q3400 交換機(144 個 800Gbps 端口)和 ConnectX-8 SuperNIC;以 及 Spectrum-X800(以 太 網),包 括 Spectrum SN5600 交換機(6
225、4 個 800Gbps 端口)和 BlueField-3 SuperNIC。BlueField-3 SuperNIC和BlueField-3 DPU的區別后面介紹,重點是,BlueField-3 平臺到 GTC2024 召開之時尚未更新。按照 BlueField-2內 置 ConnectX-6、BlueField-3 內 置 ConnectX-7 的“規 律”,ConnectX-8 應該也會被未來的 BlueField-4 整合進去的。不同規模的嵌入式 CPU 可以定義不同卸載能力,如 BlueField-3 SuperNIC 與 BlueField-3 DPU,前者的 CPU 核心數為后者的
226、一半;又如 Marvell OCTEON10 的 CN103 與 CN106,前者的 CPU 核心數為后者的三分之一。DPU 的發展也面臨進一步整合異構算力的問題,除了通用CPU核配合若干數據流加速器,高并行的AI算力也趨于重要,不論是 GPU 還是 NPU 形式。高性能、高靈活性的需求一定會促使 DPU 也開始考慮 Chiplet 的思路。相應的,通用 CPU IP 的總線協議也需要為此做好相應的準備。以 Arm 的 AMBA(Advanced Microcontroller Bus Architecture)為例,這是 Arm 推出的高級微控制器總線架構,在近 30 年的歷程中不斷演進,并
227、獲得了廣泛的應用。AMBA 包括幾種不同定位的總線,早期的 AHB/ASB 是高級高性能總線,通常用于 CPU 和高性能設備之間的交互;APB 是高級外設總線,通常和 AHB 相連接,來訪問一些低速的外設。在 AMBA3.0 的協議中增加了 AXI,可以與高性能外設交互,典型的就是 FPGA。AMBA CHI 則有更高的性能,用于片上互聯,用于應對 Chiplet 下的 CPU Tile 之間的一致性整合。進一步的,CHI C2C 利用了 CHI 規范的許多特性,供來自不同供應商的小芯片實現互聯,如各種加速器。CHI C2C 支持第三方和行業標準,重點之一就是UCIe。簡而言之,AMBA CH
228、I C2C 實現了對 UCIe 標準的支持,方便CPU 與各種加速器通過高級封裝組合起來。這些加速器可能用于 AI算力,也可用作加速或卸載網絡、存儲、數據庫的操作。加速器在發展早期會采用 FPGA 形式提供(AXI),隨著應用趨于成熟和規?;?,將會逐步固化為 AISC(AXI)或者 Tile(AXI C2C 或 CHI C2C)的形式,AMBA 涵蓋的不同總線協議為不同發展階段做好了準備。+高性能、高靈活性的需求一定會促使 DPU 也開始考慮Chiplet的思路。相應的,通用 CPUIP 的總線協議也需要為此做好相應的準備。以 Arm的 AMBA 為 例,這 是Arm 推出的高級微控制器總線架
229、構,在近 30 年的歷程中不斷演進,并獲得了廣泛的應用。982024 數字中國萬里行考察報告 技術演進篇6.GPU 的新助手:SuperNICSuperNIC(超級網卡)的概念在 2021 年的一篇論文(SuperNIC:A Hardware-Based,Programmable,and Multi-Tenant SmartNIC)中提出。當時的概念是一個新的分布式硬件框架,每個 SuperNIC 連接一小組端點,并整合這些端點的網絡功能。概念的提出者認為,智能網卡無法同時實現多租戶支持、可編程性、硬件加速這三個功能。SuperNIC 是基于硬件的、可編程的、多租戶的智能網卡,支持三種類型的網
230、絡計算卸載:傳統網絡堆棧功能,例如傳輸層;常見的網絡功能,例如防火墻和 IPSec;特定應用程序的數據包處理。這看上去,其實有點兒像 DPU 的事情。2023 年 COMPUTEX 期間,英偉達發布了 Spectrum-X 平臺,其中包括了 Spectrum-4 以太網交換機與 BlueField-3 DPU。對于高性能集群的網絡交互,DPU 有很多獨特的價值,譬如可以實現計算和通訊的異步(某 RDMA 發起者的訪問請求從本地 DPU 發出,到目標 DPU 接收到,即可返回。目標 DPU和目標內存的處理不需要發起方參與),籍此有效降低 RDMA 操作的性能損耗。到了下半年,英偉達引入了 Blu
231、eField-3 SuperNIC,并將其定義為一種新型網絡加速器,旨在為基于以太網的 AI 云上運行的超大規模AI 工作負載提供助力,可在 GPU 服務器之間提供可靠、無縫的連接。英偉達宣傳的獨特屬性包括:NVIDIA BlueField DPU 和 SuperNIC+99高速數據包重排序可確保數據包的接收和處理順序與源端發送的順序相同。這可保持數據流的順序完整性;使用實時遙測數據和網絡感知算法進行高級擁塞控制,以管理和預防 AI 網絡中的擁塞;輸入/輸出(I/O)路徑上的可編程計算,可實現 AI 云數據中心網絡基礎設施的自定義和可擴展性;節能高效的半高設計,可在有限的功率預算范圍內高效適應
232、 AI 工作負載;全棧AI優化,包括計算、網絡、存儲、系統軟件、通信庫和應用框架。以上屬性強化了高性能網絡的數據處理能力,而不再像 DPU 那樣強調租戶、容器管理等控制平面的內容。另外,限制了功耗或者說是,不需要 DPU 那么高的功耗。分布式存儲和 GPU 集群對數據中心的 RDMA 擁塞控制要求越來越高,這也是各大云廠商高性能以太網需要卷算法的重點,相應的算法需要自研的交換機和網卡支持。英偉達的 Spectrum-X 平臺只是其中一個流派,然后將其中配套的網卡賦予了 SuperNIC 之名比智能網卡高級,但又不需要 DPU 那么高的規格。至于InfiniBand網絡,并不需要把太多算力消耗在
233、擁塞控制上,用 ConnectX 系列智能網卡就足夠了。從功能的角度,BlueField-3 DPU 和 BlueField-3 SuperNIC 的異同點可以參見下表。簡單說,BlueField-3 SuperNIC 主要是圍繞提升GPU 在以太網中的協同能力設計的。英偉達建議高性能 AI 集群中,GPU 與 SuperNIC 應該以 1:1 的比例進行配置。硬件上,BlueField-3 SuperNIC 相對 DPU 也有了相應的弱化。首先是 Arm 核心數量,從 16 個減半為 8 個,DDR5 內存容量也從32GB(128bit+16bit ECC)降為 16GB(64bit+8bi
234、t ECC)。對應的,功耗也降低了,DPU 需要使用 8pin 的外接 12V PCIe 供電,+1002024 數字中國萬里行考察報告 技術演進篇SuperNIC 取消了該輔助供電。BlueField-3 全部是全高卡設計,均提供雙網絡端口,而 SuperNIC 既有全高卡,也有半高卡,網絡端口可單可雙。BlueField-3 DPUBlueField-3 SuperNIC任務云基礎架構處理器卸載、加速和隔離數據中心基礎架構針對 GPU 級系統中的南北向優化加速 AI 計算的聯網一流的 RoCE 網絡針對 GPU 級系統中的東西向優化共同能力虛擬私有云(Virtual Private Clo
235、uds)網絡加速網絡加密加速可編程網絡流水線精密計時平臺安全獨特能力強大的計算能力安全、零信任管理數據存儲加速彈性基礎設施配置每個系統 12 個 DPU強大的網絡AI 網絡功能集全棧 NVIDIA AI 優化高能效、小尺寸設計每個系統最多 8 個 SuperNIC1017.DPU 中的 CPUDPU 的控制平面主要使用性能較強的通用 CPU 核,以處理較復雜的任務,且面向 Linux 等系統編程友好。常見的通用 CPU 核有英特爾的至強 D 以及 Arm 的大核(Arm v8 的 Cortex-A72/A78、Neoverse N1,v9 的 Neoverse N2),較早期產品還有一些采用
236、MIPS64 核心。英特爾至強 D 的方案主要是搭配 FPGA 使用。至強 D 和 FPGA 都可以自由采購,進入門檻較低??紤]到 DPU 是與具體的應用場景緊密相連的,這種方案可以針對各個云廠商的需求特點選擇最重要的協議、功能進行編程,可以少量多樣、反復迭代,而且 FPGA 還具有低時延優點,特別適合數據流處理。隨著部署量的增加,這樣的方案會顯得成本偏高。定制化的 SoC 方案一般采用開放授權的核心,Arm、MIPS、RISC-V均可以作為選擇。以 Marvell 為例,其網絡處理器曾大量使用 MIPS核心,譬如 OCTEON III 就是一個比較龐雜的家族,簡單的 CN70XX/CN71X
237、X系列可以用作AP、網關、NAS,使用14核的MIPS64 r3核心;CN73XX/CN72XX 系列可以給防火墻、路由器、虛擬化存儲等使用,提供 416 個 MIPS64 r5 核心;CN77XX/78XX 系列可以達到 1648個 MIPS64 r5 核心,供高端路由器、DPU、蜂窩網絡接入等使用。到了 2015 年發布的 OCTEON TX,Marvell 全面轉向 Arm 架構,使用的是收購的 Cavium 基于 Arm v8 設計的 ThunderX 核心,規模在824 核之間。2019 年發布 OCTEON TX2 最多可以提供 36 個 Arm v8 Cortex-A72 核心。
238、英偉達在 2020 年發布的 BlueField-2 提供了8 個 Arm v8 Cortex-A72 核心,之后的 BlueField-3 增加到 16 個A78 核心。AMD 的 Pensando DSC-200 提供 16 個 A72 核心。+1022024 數字中國萬里行考察報告 技術演進篇在 Arm v9 時代,適用于 DPU 的是 Arm Neoverse N 系列核心。譬如英特爾 Mount Evans 有 16 個 N1 核心,Marvell OCTEON 10 可擴展到 36 個 N2 核心,直逼低端服務器 CPU。8.Arm 核心的演進Arm 提供了豐富的 IP 授權,供不
239、同性能、功耗、成本需求的產品選用。在 Cortex-A 系列之后,Arm 面向云計算和數據中心領域推出了Neoverse 平臺。在 Arm 的規劃中,強調能效比的 Neoverse N 系列適合作為 DPU 的嵌入式 CPU 使用。其中,Neoverse N1 依舊基于 Arm v8 體系,準確的說是 v8.2。順便一提,Cortex-A78 也是基于這 Arm v8.2 體系,而 Cortex-A72 屬于 v8.0A 體系。Neoverse N2 則是比較重要的大版本迭代,基于 Arm v9.0A 架構。從 Arm Cortex-A72 到 A78,CPU 性能上了一個大臺階。譬如,從緩存
240、角度看就很明顯:A72 的 L1 指令緩存是 48kB,數據緩存是 32kB(最大可以 64kB),L2 緩存是共享的,容量 512kB 4MB 規模;A78的L1指令和數據緩存均提升至64kB,L2緩存是每個核心私有的,容量 256/512kB,在此基礎上又提供了 512kB4MB 的共享 L3 緩存。其他的改進還包括 Arm v8.2A 擴展指令集擴展,讓 A78 的 NEON 多媒體處理 SIMD 引擎支持半精度浮點(FP16)數據類型。103同處 Arm v8.2A 指令集架構的 Arm Neoverse N1 相對 Cortex-A78也有不小的提升,譬如前者每個核心的私有 L2 緩
241、存相對后者翻倍。更 重 要 的 是,Neoverse N1 除 了 選 擇 Cortex-A 簇 狀(Cluster)架構多處理器(4 個核心為一簇),也可以選擇直接互聯,以構成目前服務器多 CPU 中比較主流的網格(Mesh)架構。換句話說,Neoverse 更適合構建大規模的多核心 CPU。Arm Neoverse N2 相對 N1 并非簡單的數字迭代,而是一次重大提升。N2 是 Neoverse 家族首個支持 Arm v9 指令集架構的核心,支持 SVE2(可伸縮矢量擴展,Scalable Vector Extension)、增強加密指令等重要功能。Arm Neoverse N2 的微架
242、構也做了諸多改進,使得 IPC 性能相對 N1有了 40%的提升。譬如前端方面,分支預測寬度翻倍,分支目標緩沖(Branch Target Buffer,BTB)條目也大幅增加;流水線部分,命名寬度從 4 條擴展到 5 條,重排序緩沖(reorder buffer,ROB)從128提升到160以上;L1、L2緩存的吞吐能力提升30%到翻倍水平。Arm Neoverse N2 還將核心的互聯方案迭代到 CMN-700,2021 版報告中已有介紹,此處不再重復。相對核心數以百計的服務器系統,擁有 36 個 N2 核心的 Marvell OCTEON 10 仍屬于典型的 DPU 應用。Arm 認為
243、12 36 核的配置適合 DPU 使用,更小的核心規??捎糜诰W關等。符合 UCIe 規范的Die to Die 有利于 DPU 通過 Chiplet 方式整合外部加速器構成 SoC,核心核數(最多)Marvell OCTEON TXThunderX24NVIDIA BlueField-2Arm Cortex-A728Marvell OCTEON TX2Arm Cortex-A7236AMD Pensando DSC-200Arm Cortex-A7216NVIDIA BlueField-3Arm Cortex-A7816Intel Mount EvansArm Neoverse N116Mar
244、vell OCTEON 10Arm Neoverse N236+1042024 數字中國萬里行考察報告 技術演進篇這個是一個非常有價值的能力。不論是多種版本的 Nitro 卡(虛擬化、分布式存儲、本地存儲、安全等),還是 BlueField 衍生的融合加速器等,都體現了 DPU 應用的多樣性。DPU 的控制平面可以由 Arm、RISC-V 等 CPU IP 構建。CMN700 等一致性網絡解決內部互聯,如高速內存控制(DDR5、HBM)、PCIe控制器、UCIe 接口等,并易于水平擴展。當然,使用非一致性網絡,如 NIC-400/500、NI-700 等也是可以的,具有低時延的特點。9.AI
245、需求推動 DPU 用量大增DPU 起源于為虛擬化和網絡流量的開銷減負,設計上基于云服務商對自身業務的獨特理解,長期以來呈現少量多樣的特點,云大廠對于自家 DPU 的介紹也一直猶抱琵琶半遮面。為了應對數據中心網絡的高要求,商用交換機的服務很難滿足互聯網大廠的需求,大廠普遍走上自研交換機、智能網卡/DPU的道路。但隨著AI時代數據流量的劇增,+105不論在數據中心內部還是在邊緣側,都有大量的任務值得 DPU 承接,DPU 有可能從少量、多樣發展為大量、多樣。在英偉達看來,新一代的 AI 算力服務器的算力網絡應該實現 GPU 與DPU/SuperNIC 的 1:1 配置,如果考慮到管理網絡的需求(每
246、臺服務器 1 2 塊 DPU),單臺算力服務器的 DPU 配置可以達到 10 塊。另一個典型新興領域就是存儲,不論是GPU直連NVMe存儲的需求,或者是存儲子系統的虛擬化,高性能存儲節點也需要配置 DPU 降本增效。日益受到重視的還有邊緣側(不論是近邊緣還是遠邊緣)激增的非結構化數據的流量,也需要相應的算力進行更有效地處理。簡而言之,早期數據中心的算力來源于通用 CPU,HPC/AI 對大規模并行算力的需求讓 GPU 崛起為兩強并立,而 DPU 正逐步發展為異構算力的第三極。DPU 內部的算力來自于異構,除了嵌入式 CPU,還有日趨多樣的加速器資源。這些加速器既可以是 FPGA,也可以是ASI
247、C 或者 Chiplet 方式提供。四.服務器:重構升級AI 特別是大語言模型(LLM)的訓練應用,對算力的總體規模和部署密度有很高的要求,所以 GPU/加速器的互聯和服務器所需的網絡帶寬也一路攀升,后者已經來到 800Gbps 乃至 1.6Tbps 的水平。1.主流訓練機型英偉達在 2016 年推出的 DGX-1 系統,不僅首個實體(服務器)捐贈給了 OpenAI,其架構設計也影響深遠,一直延續至今。早期數據中心的算力來源 于 通 用 CPU,HPC/AI 對大規模并行算力的需求讓 GPU 崛起為兩強并 立,而 DPU 正 逐 步發展為異構算力的第三極。DPU 內部的算力來自于異構,除了嵌入
248、式CPU,還有日趨多樣的加速器資源。這些加速器既可以是 FPGA,也可以是 ASIC 或者 Chiplet方式提供。1062024 數字中國萬里行考察報告 技術演進篇DGX-1 系統架構包含以下要素:8 個 SXM 規格的 GPU 在基板(Baseboard)上通過專用的高速互聯(NVLink)結為一體,即縱向擴展(Scale-up);這些 GPU 通過 PCIe 連接 2 個(通常為 x86)CPU 和多塊高速網卡(InfiniBand 或 RoCE),以將多臺 GPU 服務器組成集群,即橫向擴展(Scale-out)。具體配置為:8 個 SXM2 規格的 Tesla P100 或 V100
249、 GPU;2 個 20 核 CPU(英特爾至強 E5-2698 v4);512GB DDR4-2133 內存;4 個 100Gbps InfiniBand(EDR)網卡,2 個 10GbE;4 個 1.92TB SSD 作為本地存儲(緩存);3200 3500W 供電需求;3U 高度。除了 2018 年首次引入 NVSwitch 的 DGX-2 容納多達 16 個(V100)GPU,后續推出的 DGX Xx00(X 代表大寫字母,x 代表數字)都采用 8 個 GPU 的配置,如 DGX A100 和 DGX H100。DGX 是英偉達提供的軟硬件一體的解決方案,英偉達還向服務器供應商和大型互聯
250、網用戶提供GPU、基板和NVSwitch構成的HGX模組,這些客戶根據各自的需求搭配(英特爾或AMD的)CPU、內存和網卡、NVIDIA HGX H200 107存儲,形成完整的系統。HGX 有 4 GPU 和 8 GPU 兩個版本,其中(2 CPU+)4 GPU 的組合更適合高性能計算(HPC)場景。在 Blackwell 這一代,暫時只發布兩款 HGX 參考設計HGX B100和 HGX B200,以及一款 DGX B200,均為 8 GPU 配置。以 DGX B200 為例:配套的處理器升級到英特爾的第五代的至強鉑金 8570,雙路 112 核;配置內存 2TB,可以擴展到 4TB;總的
251、 GPU 內存是1440GB,即每個 B200 GPU 為 180GB。開 放 計 算 項 目(OCP)在 2018 年 晚 些 時 候 發 起 的 OAI(Open Accelerator Infrastructure,開放加速器基礎設施)子項目,通用基板(UBB)設計支持多達 8 個 OAM(OCP Accelerator Module,開放加速器模塊,對標 SXM),可以視為 HGX 的開源版本,獲得 AMD、英特爾等全球以及一眾國內 GPU/加速器廠商的廣泛支持,英偉達也在2022 年 5 月將 HGX H100 的基板物理規范貢獻給了 OAI 項目。OAI 項目與 DGX/HGX 的
252、一大區別在于,英偉達 GPU 之間互聯使用的 NVLink 及 NVSwitch 都是專有技術。特別是用于基板上 GPU 之間數據交換的 NVSwitch,在 OAI 的體系里并沒有類似的角色,常見的解決方案是用通用技術直連各 GPU 或加速器。以英特爾面向訓練平臺的 Gaudi 系列 AI 加速器為例,OAM 版本之間的直連(Scale-up)和對外的網絡(Scale-out)都使用RoCE v2端口。+典型的 OAM 基板1082024 數字中國萬里行考察報告 技術演進篇隨著加速器所配置的 HBM(高帶寬內存)容量和帶寬的增長,RoCE端口的數量和速率也隨之上升,總帶寬呈現倍增趨勢。在集群
253、層面,基于 8 個 Gaudi 3 加速器的服務器通過 3 個 800GbE端口上聯到標準以太網交換機,由 96 臺 Leaf 交換機和 48 臺 Spine交換機(均為 64 端口 800GbE)組成的二層網絡可支持 512 個服務器節點,共 4096 個 Gaudi 3 加速器?;ヂ撆c網絡的帶寬隨著芯片算力、內存容量及帶寬的增長而“水漲船高”是普遍規律,于英偉達 DGX 就是 NVLink 和 InfiniBand/以太網的速率。Intel Gaudi 3 之間的全互聯拓撲+Intel Gaudi 3 對標 NVIDIA H100,拋開這些性能對比,提供的參數和加 速卡的各種形態、冷卻方式
254、等信息還是很豐富的109加速器GaudiGaudi 2Gaudi 3芯片制程16nm7nm5nm加速卡HL-205HL-225HHLB-325L內存容量和類型32 GB HBM296 GB HBM2E128 GB HBM2E內存帶寬1 TB/s2.46 TB/s3.7 TB/s互聯端口10 100Gbps24 100Gbps24 200Gbps加速器互聯7 100Gbps21 100Gbps21 200Gbps網絡互聯3 100Gbps3 100Gbps3 200Gbps+2024 年 發 布 的 B200 GPU 公 開 數 據 不 多,DGX B200 的 網 絡 配置,從帶寬的角度,與
255、DGX H100 似無不同,主要變化是對接南北向網絡的兩塊 ConnectX-7 雙端口網卡被兩塊功能更豐富強大的BlueField-3 DPU(Data Processing Unit,數據處理器)所取代,東西向網絡仍是 8 塊 ConnectX-7 單端口網卡。這可能只是暫時的情況,畢竟英偉達已經發布了 ConnectX-8 SuperNIC,支持 800Gbps InfiniBand,適用 PCIe 6.0。PCIe 5.0 不但限制了英偉達新一代網卡的性能,其實也會限制第四代 NVSwitch芯片的性能。目前的 DGX B200 并非“完全體”,隨著英特爾或AMD 的下一代 PCIe
256、6.0 平臺就緒,DGX B200 也會隨之升級。AMD Instinct MI300X 的 OAM 模組,注意高大的散熱片1102024 數字中國萬里行考察報告 技術演進篇服務器 OEM 基于 HGX 模組提供的 GPU 服務器在內部拓撲上會有2:8:x 的配比范圍,即 2 個 CPU、8 個 GPU,網卡數量可變,這也會影響到集群使用的交換機和光模塊、線纜的總數。2.CPU 與 GPU 配比2023 年 5 月底,英偉達在 COMPUTEX 2023 大會上有一系列重量級發布,包括 GH200 Grace Hopper 超級芯片(Superchip)、DGX GH200,和用于加速計算的開
257、放模塊化服務器設計 MGX。英特爾和 AMD 的 x86 CPU 只能通過相對低速的 PCIe 總線與英偉達 GPU 通信,這限制了 GPU 訪問 CPU 內存的速度。英偉達基于Arm Neoverse V2 開發的 Grace CPU 加入了 NVLink-C2C(Chip to Chip),與其 GPU 之間建立 900GB/s 的高速通道,顯著提升訪問CPU 內存的帶寬,緩解 GPU 自身 HBM 容量不足的困境。1 個 Grace CPU 與 1 個 Hopper 架 構 GPU 通 過 NVLink-C2C 連 接并封裝為一體,就得到了 GH200 Grace Hopper 超級芯片
258、(簡稱GH200)。1U 規格的 MGX 機箱可配置 1 或 2 個 GH200。平臺DGX-1DGX-2DGX A100DGX H100DGX B200GPUP100V100A100H100B200FP32 算力10.6 T15.7 T19.5 T67 THBM 容量16 GB HBM216/32 GB HBM280 GB HBM2e80 GB HBM3192 GB HBM3eHBM 帶寬732 GB/s900 GB/s2039 GB/s3.35 TB/s8 TB/sNVLink 帶寬NVLink1160 GB/sNVLink2300 GB/sNVLink3600 GB/sNVLink490
259、0 GB/sNVLink51.8 TB/s數據網絡4 100Gbps IB EDR8 100Gbps IB EDR8 單口200Gbps IB ConnectX-72 雙口200Gbps以太網ConnectX-7 VPI400GbpsIB/以太網:8 單口ConnectX-7 VPI2 雙口ConnectX-7 VPI400Gbps IB/以太網:8 單口ConnectX-7 VPI2 雙口BlueField-3 DPU+111DGX GH200 與之前的 DGX 不同,是機柜級的架構。一個機柜內有 2個 15 OU(Open U,48mm)的刀片式機箱,各有 8 個 GH200 和3 臺 L
260、evel 1 的 NVLink 交換機。16 個這樣的機柜通過 36 個 Level 2的 NVLink 交換機組成 DGX GH200 集群,共有 256 個 GH200 超級芯片,顯存(HBM)總容量達 144TB,NVLink 總帶寬達 230TB/s,總算力(FP8)達 1 EFLOPS。集群內的網絡資源包括單口 400Gbps IB 網卡和雙口 200Gbps BlueField-3 各 256 塊、24 臺 InfiniBand(IB)交換機、20+22 臺以太網交換機,光纖總長度達 150 英里(約 240 公里)。半年之后,2023 年 11 月底召開的 AWS re:Inve
261、nt 2023 大會上發布了 GH200 NVL32,單機柜組成 32 個 GPU 的 NVLink 域(domain)。GH200 NVL32 的機柜內包括:+Grace Hooper 超級芯片與Grace CPU 超 級 芯 片(雙CPU)2 個 GH200 超級芯片組成的服務器節點 1122024 數字中國萬里行考察報告 技術演進篇16 個 1U 的 MGX 節點,每個節點有 2 個升級版 GH200(GPU 為擁有 141GB HBM 3e、帶寬 4.8TB/s 的 H200);9 臺 NVLink 交換機通過銅纜形成機柜級的“背板”,將 32 個GH200 連為一體。這是整合在單一機
262、柜內的超級 GPU32 顆 GPU 的 NVLink 域,HBM3e 總容量達 4.5TB,統一內存容量達 19.5TB(每塊 GH200 Superchip 提 供 Grace CPU 的 480GB LPDDR5X 和 H200 GPU 的144GB HBM3e)。英偉達提供的數據顯示,與8卡的HGX H100(NVL8)相比,GH200 NVL32 的 GPT-3 訓練性能達到 1.7 倍,大語言模型推理性能達到 2 倍。GH200 NVL32 是一種機柜級方案,使用帶冷板式液冷的集中供電機柜,設備空間為 31U。每臺 NVLink 交換機(NVSwitch Tray)包含 2 顆第三代
263、 NVSwitch 芯片,提供 128 個 NVLink 端口,每個端口 50Gbps。NVLink 交換機位于機柜中部,上下各安排 8 個計算節點,機柜上下再各 3U 空間安排電源。每顆 GPU 外聯 900GB/s的 NVLink 對應 18 個 NVLink 端口,16 個節點 32 顆 GPU 總共需要 576 個端口,通過 9 臺 NVLink 交換機實現完全互聯非常輕松。NVIDIA GH200 NVL32 的正視圖與后視圖113互聯方案也與半年前的發布不同,GH200 NVL32 不打算通過NVLink Switch 級聯擴展更多 GPU,所有 NVLink 集中在一個機柜內,線
264、纜長度可以得到有效控制,可以完全使用無源銅纜連接。因此,如果真的想擴展 GH200 NVL32,建議使用 400Gbps InfiniBand或以太網。翻番的節點密度有利于 GH200 NVL32 轉為使用冷板式液冷和能降低機柜內互聯成本的銅纜,也給后續推出 GB200 NVL72 打下了基礎。2024 年 3 月發布的 GB200 NVL72 依舊是在 1U 空間內安排兩組SuperChip,提供 4 個 GPU 和 2 個 CPU,因為每個 GB200 超級芯片由1個Grace CPU和2個B200 GPU組成,即CPU與GPU的配比從1:1調整為 1:2。這樣整機柜內有 18 個 GB2
265、00 超級芯片節點,共 36 個GB200 超級芯片,72 個 GPU 疊加 36 個 CPU,一個 GB200 NVL72機柜的 HBM3e 總容量達到 13.3TB,總內存容量更高達 30.2TB。由于 GPU(B200)的功率和數量都大幅度增加,每個 GB200 超級芯片的 TDP 來到 2700W,單柜功率也飆升到 120kW,(冷板式)液冷成為必然。與GH200 NVL32類似,GB200 NVL72的9臺交換機也位于機柜中部,上下安排 18 臺 GB200 Compute Tray,再上下各 3U 電源框。NVLink 交換機升級到第四代 NVSwitch 芯片,每臺交換機 144
266、 個端口,每個 100GB/s。從英偉達發布的信息來看,DGX GH200 發布+NVLinkSwitch 芯片500 億晶體管,臺積電 4NP 制程72 端口 400G SerDes4 個 1.8TB/s NVLink7.2TB/s 全雙工帶寬SHARP 在網計算,3.6 TFLOPS FP81142024 數字中國萬里行考察報告 技術演進篇時的兩級 NVLink 網絡又回來了,8 臺 GB200 NVL72 組成的 DGX SuperPOD 可以連接多達 576 個 Blackwell GPU。在更高密度的 GPU 配置下,機柜內采用銅纜互聯方案不僅成本更低,還可以釋放更多的供電能力給計算
267、節點。英偉達 CEO 黃仁勛表示,如果采用光纖方案,僅光模塊和 Retimer 就要耗電 20kW。同時,采用冷板式液冷也可以減小粗大的銅纜對風道的不利影響。相應的,網絡配置也來到了 72 個單口 400Gb/s InfiniBand 網卡和36 個雙口 200Gb/s(IB 和以太網)BlueField-3。在自有 Arm CPU 與 GPU 配比較低(目前不高于 1:2)的同時,4U規格的 MGX 服務器還會把 x86 CPU 與(英偉達)GPU 的配比擴大到2:16,多元化的方案也意味著網絡架構要有更高的靈活性。3.高帶寬存儲在數據采集、數據準備、訓練和推理等 AI 工作流的各個環節,對
268、存儲有著不同的要求。訓練過程中會有一些從存儲設備中隨機讀取數據的操作,但對網絡和存儲壓力最大的環節還是設置檢查點(Checkpointing)和從中恢復(Restore)數據的操作,大量數據的持續寫入和讀取,需要網絡和 BlackWell 平臺全家福115存儲提供很高的訪問帶寬。仍以英偉達為例,從 GPU 服務器內置的本地存儲到共享的網絡存儲,都突出了高帶寬的特性。DGX 系列積極的采用高帶寬、低時延的 NVMe SSD 作為本地存儲,如 DGX A100 和 H100 均配置了 8 個 3.84TB 的 NVMe SSD,總容量達 30TB。英偉達的 GPUDirect Storage(簡稱
269、 GDS)技術允許 GPU直接訪問(掛接在同一 PCIe Switch 上的)NVMe SSD 或網卡(連接NVMe over Fabric 的遠程存儲),緩解 CPU 的 I/O 瓶頸,提高有效訪問帶寬并降低時延。在英偉達基于 DGX H100 系統的 DGX SuperPOD 參考架構中,存儲性能級別應用場景數據集大小單節點讀寫性能Good自然語言處理(NLP)數據集通常適合本地緩存4/2 GB/sBetter壓 縮 圖 像 處 理(如ImageNet)許多甚至大多數數據集都可以放在本地系統的緩存中8/4 GB/sBest使用 1080P、4K 或未壓縮圖像進行訓練,離線推理,ETL 等數
270、據集太大,無法放入緩存,大量的第一次遍歷 I/O 需求,只讀取數據集一次的工作流40/20 GB/s1162024 數字中國萬里行考察報告 技術演進篇+不論如何評論“摩爾定律”,芯片算力提升的貢獻越來越來自于先進封裝而非制造工藝的改進。于是,在算力密度提升的同時,芯片功耗的上漲也引人關注2024 年,數據中心 CPU 全面進入百核時代,GPU 的功耗則已邁過千瓦大關。一方面,CPU 核心數的持續增長,使得四至八路存在的意義減弱,單路服務器大有抬頭之勢;另一方面,AI 訓練集群的規模越來越大,單臺服務器 8 個 GPU 的配置已嫌不足,整機柜級別的“超級節點”正在涌現。集群內的跨節點通信要求,也
271、使得加速服務器(GPU 或加速器為主)配置的網卡不僅數量多,而且端口速率不斷攀升,帶動網絡端口總量及帶寬需求劇增,網絡基礎設施投資變得前所未有的昂貴。對算力密度的追求,促使單芯片功耗和單位空間內的芯片數量同時增長,這種疊加效應對服務器的散熱能力提出巨大挑戰,成為液冷技術應用邁上新臺階的主要驅動力。網絡與計算網絡使用同樣的 NDR 400Gb/s InfiniBand 交換機,要為每個 DGX H100 節點提供至少 40GB/s(獨立 400Gbps 網口)的存儲帶寬,最大網絡性能達到 80GB/s(2 個 400Gbps 端口)更佳。該參考架構給出了建議的性能級別和應用場景。像 Checkp
272、oint 這種應用,主要訴求是讀寫帶寬,對時延的要求沒有計算集群那么高,共享存儲系統可以跨訓練集群或機房樓部署,在必要時可以將一個集群的 Checkpoint 加載到另一個集群中繼續訓練?;?DGX GB200 的 NVIDIA DGX SuperPOD 及 其 液 冷配套設施 117第五章 全棧數據中心理念落地近些年,隨著云計算、大數據、AI 等應用的不斷普及,業界對于承載實際業務的底層數據中心 IT 基礎設施的性能要求越來越高。這也使得包括服務器、存儲在內的諸多基礎設施功耗不斷增加。特別是隨著“東數西算”工程的啟動以及“雙碳”目標的提出,如何解決數據中心能源利用率低、節能技術水平不足等問
273、題,已成為數據中心建設的首要難題。為此,全行業都在尋找行之有效的、高性價比的解決方案,促成了液冷技術的大面積應用。2023 年,液冷發展呈現出“井噴”式增長,然而這并非意味著液冷解決方案是新生技術。事實上,早在十幾年前,液冷在高性能計算領域就 是主流解決方案了。我國最早登上 TOP500 冠軍寶座的“天河二號”超級計算機就采用了部分液冷解決方案。但是在更通用、更廣泛的云數據中心領域,液冷雖然一直在發展,卻總是顯得不溫不火,更多的用戶是抱著試水的心態在“體驗”。直到 AI 的爆發式增長、算力需求的指數級提升,再加上迅猛發展的生成式 AI 不再單純增加數據中心的數量,而是大幅增加了運行這些數據中心
274、所消耗的功率。液冷已成為從芯片到基礎設施,整個產業未來發展的指導方向。無論從政策角度、市場需求,還是技術的成熟度來講,我們都可以認為數據中心已經來到了“液冷時代”。液冷正成為未來 AI 服務器散熱的主流解決方案,其強大的散熱能力和經濟效率將推動數據中心的持續發展和創新。2024 年不僅是國產算力加速發展的黃金期,也是液冷的放量元年。一.全棧液冷技術新突破據國際能源署(IEA)估算,由于需要靠大量計算才能運行的生成式AI越來越普及,2026年全球數據中心耗電量最多將達到2022年的2.3倍,可能膨脹至 620 至 1050 太瓦時(1 太瓦時=10 億千瓦時)。斯坦福大學 AI 研究所發布的20
275、23 年人工智能指數報告顯示,OpenAI 的 GPT-3 單次訓練耗電量高達 1287 兆瓦時(1 兆瓦時+無論從政策角度、市場需求,還是技術的成熟度來講,我們都可以認為數據中心已經來到了“液冷時代”。液冷正成為未來 AI 服務器散熱的主流解決方案,其強大的散熱能力和經濟效率將推動數據中心的持續發展和創新。2024 年不僅是國產算力加速發展的黃金期,也是液冷的放量元年。118=1000 千瓦時),甚至 OpenAI 每訓練一次,就相當于 3000 輛電動汽車同時跑 30 多公里。以數據中心的能耗大戶 CPU 和 GPU 為例,在主流的第五代英特爾至強可擴展處理器中,鉑金 8593Q 的 TD
276、P 功耗已經達到了 385 瓦,其余鉑金 8580、鉑金 8558P 等處理器的 TDP 功耗也在 350 瓦,這是相當驚人的數值。GPU 的表現更加“恐怖”。英偉達最新一代的 H100 GPU 峰值功耗高達 700 瓦,按照 61%的年利用率,每張 H100 每年將消耗約3740 千瓦時的電量。被英偉達稱為“傳奇”的 DGX H100 共由 8 個NVIDIA H100 加速卡組成,系統功耗最高為 10.2 千瓦。按照英偉達2023 年底公布的 H100 終端用戶銷量數據顯示,僅大型互聯網客戶,H100 GPU 全球范圍內共售出約 70 萬張,按照 61%的利用率計算,要耗費約 2000 千
277、兆瓦時,大約 20000 萬億度電。公開數據顯示,2008 年到 2019 年,CPU 年功耗增長率大約為 4.4%,而 2020 年到 2023 年就增長到 22%;GPU 功耗增長也有相應趨勢,2008 年到 2019 年的復合增長率為 1.6%,2020 年到 2023 年的復合增長率就達到了 21%。芯片功耗的急劇增長,給服務器散熱帶來了非常大的挑戰。同理,數據中心的能耗管理也已刻不容緩,否則未來數據中心散熱設備的耗電量將會超過 IT 設備,從而讓計算“背上的包袱”越來越重。近 10 年主流 CPU/GPU 的功耗增長(益企研究院整理/發布)2024 數字中國萬里行考察報告 技術演進篇
278、4.4%2008 年到 2019 年CPU 年功耗增長率大約22%2020 年到 2023 年增長到1.6%2008 年到 2019 年復合增長率為21%2020 年到 2023 年復合增長率就達到+119為此,越來越多的企業也將液冷作為解決數據中心散熱難題、緩解數據中心高能耗問題的“關鍵方案”。當然,真正推動液冷普及的因素是多方面的,還包括技術進步、需求迭代和政策引導等等。早在 2020 年,我國明確提出 2030 年“碳達峰”與 2060 年“碳中和”目標。為實現“雙碳”目標,也為解決數據中心的能源利用率低、技術水平不足等問題,各級政府先后出臺了相關政策,包括北京、天津、上海、重慶、廣州、
279、湖北、深圳等七省市在內啟動了地方碳排放權交易市場試點工作并陸續開始上線交易。相應的,這也從政策層面對數據中心提出了全新的挑戰。一直以來,我國數據中心占用的能耗較高,年耗電量超過全社會用電量的 1.5%,大多數數據中心的電能使用效率(PUE)甚至大于 2。近些年,包括北上廣深在內的一線城市都不約而同的出臺了若干限制數據中心 PUE的政策與措施。比如,北京市地方標準數據中心能源效率限額(DB11/T1139)中就明確提出,優先推薦達到先進值的項目(年能耗 2 萬噸標煤的 PUE 準入值為 1.25,年能耗 2 萬噸標煤的 PUE準入值為 1.2;PUE 先進值為 1.15),其中包括了對于碳排放、
280、水資源消耗量等多維度的需求,目的就是為了引導粗放、低能效的傳統數據中心建設向集約、高技術、高能效的新型數據中心變革。目前,建設綠色低碳、集約高效、安全可靠的新型數據中心,也是為了促進整個行業快速、健康、有序地發展。當然,最核心的還是在液冷技術上的突破。散熱需求的暴增引導了技術服務商的加速迭代,最終在全球大環境與國內政策導向的雙重作用下,讓液冷這項已經存在多年的技術獲得了全面普及的市場契機。目前看來,冷板式與浸沒式是當下最主流的兩種液冷散熱方式,其中又以冷板式技術的發展更為成熟、接受程度更高、成本更可控。不過,這里提到的冷板式液冷并非只包括全覆蓋式,事實上由于設計原理不同,冷板式液冷需要把散熱的
281、設備固定在冷板上(比如CPU、GPU等),液體經過冷板將設備的熱量傳遞帶走,從而實現散熱,這屬于間接接觸型液冷散熱。在數字中國萬里行考察團隊的調研過程中,我們看到不少數據中心采用的都是風液混合模式,即服務器內主要熱源采用液冷冷板套件進行冷卻,其余熱源仍采用風冷方式進行冷卻。如此一來,既能夠借助混+早 在 2020 年,我 國 明確 提 出 2030 年“碳 達峰”與2060年“碳中和”目標。為實現“雙碳”目標,也為解決數據中心的能源利用率低、技術水平不足等問題,各級政府先后出臺了相關政策,包括北京、天津、上海、重慶、廣州、湖北、深圳等七省市在內啟動了地方碳排放權交易市場試點工作并陸續開始上線交
282、易。120合冷卻方式大幅提升服務器散熱效率,又可以降低冷卻系統能耗,增強服務器可靠性。如今,主流服務器供應商都提供這樣的散熱方式,也因其超高性價比為廣大用戶所接受。1.冷板式液冷:全液冷覆蓋冷板式液冷在服務器內部首先解決的是 CPU 和 GPU 等高功率芯片的熱點問題,讓服務器有效提升液冷占比,并初步實現液冷能效對 PUE的貢獻。與此同時,由于其他功率器件還未完全實現液冷的覆蓋,如硬盤/SSD、PCIe 卡、電源等,其熱量耗散仍由風扇帶走,所以當前數據中心的冷板液冷服務器仍然處于“風液混合”的發展階段。一方面,風液并存的架構增大了數據中心基礎設施的復雜程度,機房內不僅要同時維護風冷空調和液冷管
283、路兩種末端,送風溫度和送液溫度的設置也是一個系統工程;另一方面,隨著液冷趨勢的逐步產業化,以及國家對數據中心從包含 PUE、WUE、CUE 的更多維度、更嚴苛的減碳考核,服務器液冷走向全覆蓋就成為了一個必然的走向。以技術突破而言,固定配置下的定制液冷方案都屬易于實現的范疇,而擁有眾多“變形金剛”式配置的通用機架服務器則一直是液冷圈實現全覆蓋難以逾越的難關,包含怎樣實現高密度硬盤下的液冷熱插拔、內存高頻維護場景的便捷拆換、層出不窮的 PCIe 卡的液冷解耦覆蓋、電源在風冷液冷下的無縫切換等等,以及必須搭配的更加精細化、智能化的流量分配、調節機制。在2U通用服務器領域,寧暢推出的首款原生全液冷通用
284、機架服務器,讓涉及服務器內解熱需求的部件都實現原生基因式、標準化的液冷設計突破,包含 CPU、DIMM、SSD/HDD、GPU、PCIe 卡、PSU 等,通過 OCP UQD/UQDB 液體連接器以及特殊高分子材料管路的互通連接,實現整機液冷的全面、解耦覆蓋。寧暢的解決方案最大亮點在于 PCIe 區域的首創解耦設計,以及3200W CRPS 冷板 PSU 的首發,突破了業內服務器全液冷覆蓋的關鍵技術瓶頸。這些原生液冷標準化設計可以移植到各種類型的機架服務器中,且支持全生命周期各部件、多規格的適配,從部件液冷模塊化組合的思路出發,實現了各種應用場景,滿足客戶的組合需求。2024 數字中國萬里行考
285、察報告 技術演進篇+121相對于機架式服務器來說,刀片服務器的市場覆蓋率要小很多,主要是一些注重計算密度與效率的用戶在選購。但隨著液冷時代來臨,在冷板式液冷的全新加持下,刀片服務器也實現了算力密度、散熱效率與運維管理等多維度的全面提升,對于注重空間利用率的許多高校、科研機構和企業來說也是節能低碳的新選擇。刀片服務器的代表產品就是聯想海神 Neptune 溫水水冷服務器。作為一款發布于 2012 年的技術產品,海神溫水水冷服務器經過不斷迭代,已升級到第 6 代。相比過往,新技術增加了對服務器電源部件水冷散熱的支持。新一代聯想溫水水冷系統已經完全實現對 CPU、GPU、內存、IO 設備及電源等關鍵
286、部件的全水冷散熱設計,大幅提高了系統的可靠性。+122溫水水冷技術匯集了材料學、微生物學、流體力學、傳熱學等多個領域的科研成果,可以讓使用該技術的服務器乃至數據中心全年自然冷卻,將 PUE 值降至 1.1 甚至更低,顯著提高了能源再利用效率。實踐驗證,與傳統風冷散熱方式相比,聯想溫水水冷系統可以達到最高 98%的熱傳導效率,能夠將進水溫度控制在最高 50 攝氏度,出水溫度在 58 攝氏度左右,有效提升了整個系統的性能。即使在海南等熱帶地區,室外側散熱也能夠實現自然冷卻而不用空調或風扇等散熱設備輔助,大大減少了能源消耗。除了散熱效率的提升之外,聯想溫水水冷還實現了余熱的回收利用。比如,在冬季可以
287、利用余熱為樓宇供暖,進一步節省能源消耗。不得不說,聯想是該領域的先行者,包括北京大學、上海交通大學等多家高校都已經有所應用(更多詳細內容請參見第三章)。隨著液冷技術應用的深入,不少用戶已經不滿足于服務器層面的散熱,而需要整機柜級液冷解決方案。這一點在互聯網、運營商的數據中心愈發明顯。超聚變的 FusionPoD 系列商用數據中心整機柜液冷服務器,具有高密度、高性能、高能效、高可靠、一體化交付等特點,也是唯一一家明確表示“PUE 低至 1.06”的廠商。超聚變還是首個獲得 TV 南德意志集團認證的品牌,證明了其在數據中心領域具有的先進智能技術及優異性能。2024 數字中國萬里行考察報告 技術演進
288、篇+123值得一提的是,FusionPoD for AI 整機柜液冷服務器,支持多種 GPU模組應用,實現 4U 空間內 CPU、GPU 和交換的一體化高密集成,支持水、電、網三總線盲插,即插即通,即拔即斷?;谠豪湓O計,通過防噴射、漏液導流、漏液關斷等措施保護高價值設備的可靠運行,為高價值設備增加了一層保障。2.浸沒液冷快速推廣與多樣化的冷板式液冷不同,浸沒式液冷是一種直接接觸型液冷,通過將服務器、存儲等有散熱需求的 IT 設備完全浸沒在冷卻液中,讓冷卻液吸收發熱器件的熱量實現降溫。根據原理不同,浸沒式液冷也分為“單相”與“相變”兩種,其中“相”指的就是分子或原子的聚集狀態。所謂“相變”
289、簡單說來就是液態與氣態的相互轉化,冷卻液受熱后氣化帶走熱量,再通過冷卻后液化進而循環利用。浸沒式液冷是目前業界最先進,也是成本相對更高的液冷解決方案。得益于液體比熱容較大或相變潛熱的優勢,浸沒式液冷解決方案可以有效解決高功耗的行業難題,確保 CPU 核溫低至 65 攝氏度以下(比風冷方式降低約 25 攝氏度),在突發高頻運行時不會引起 CPU 溫度瞬間大幅變化,保障了系統運行的安全可靠性。相變式浸沒液冷解決方案以低沸點、不導電液體作為冷媒,服務器所有部件均浸沒在冷媒中,所有元器件做到 100%液冷,利用冷媒沸騰吸熱,實現發熱元器件高效冷卻,為服務器運行提供了一個穩定的環境。數據中心的空調需求大
290、為降低,節省了大部分風扇與空調投資成本。據測算,相比傳統風冷機房節能在 20%至 30%以上,浸沒式液冷 PUE 可低至 1.1 以下,并大幅度降低數據中心的噪音。曙光數創的 C8000 是針對超高密度刀片服務器散熱問題推出的浸沒式液冷基礎設施產品,在高 2600mm 寬 2100mm 深 1400mm 的空間內,最多可部署 160 個計算節點,單柜功率高達 220 千瓦,節省機房面積超過 85%。發熱部件 100%采用浸沒式液冷散熱技術,利用15 到 35 攝氏度的水作為冷源,實現全年自然冷卻,無風扇設計相比傳統風冷數據中心節能超過 30%。服務器采用 DC400V 直流供電,減少 AC/D
291、C 轉換環節,系統效率高達 96%以上,在滿足高功耗供電需求的同時,減少了配電損耗。+124總體來說,由于冷卻液和發熱設備充分接觸,使得散熱效率更高;由于沒有風扇,也讓噪音更低。這都是液冷技術特別是浸沒式液冷技術的優勢。但是,浸沒式液冷的成本與技術難度同樣很大,特別是冷卻液的選擇。數字中國萬里行考察團隊在調研過程中走訪了位于浙江紹興市的浙江諾亞氟化工有限公司,了解到關于冷卻液發展的最新行業進展。國產冷卻液的快速發展也讓浸沒式液冷的成本進一步降低,讓其不再是部分超算中心或者互聯網大廠才能使用的“貴族技術”,而走向更多行業、更多場景。二.從專業計算到創新實踐數字中國萬里行考察團隊發現,走訪的所有數
292、據中心與智算中心都采用了液冷解決方案,部分甚至具備了冷板式液冷與浸沒式液冷的雙重方案,還有針對服務器、存儲等不同基礎設施的差異化液冷模式。比如,西部(重慶)科學城先進數據中心、長沙 5A 級智算中心、京東云華北廊坊數據中心、華南理工大學、北京大學、上海交通大學、華中科技大學協和深圳醫院(深圳市南山區人民醫院)、OPPO AI 濱海灣數據中心、商湯科技臨港 AIDC 等,都有液冷應用的落地案例。西部(重慶)科學城先進數據中心肩負著重慶在“東數西算”工程中的重任,是全國一體化大數據中心成渝樞紐節點的重慶數據中心集群起步區之一。這里的單機柜功率為 90 千瓦,集成了 120 個節點服務器和相關網絡設
293、備,采用立體化機柜布局,高密集約,相對于傳統機柜解決方案來說功率提升了 10 倍,效率更高。更出色的是散熱表現,2024 數字中國萬里行考察報告 技術演進篇+125得益于曙光全浸式液體相變冷卻技術,可以做到服務器 100%的液冷散熱,讓CPU電子元器件工作的環境更舒適。由于服務器整體無風扇,并與液冷換熱設備分層布置,機房內十分安靜。同樣采用曙光液冷解決方案的還有長沙 5A 級智算中心。這是曙光首家以“立體計算”理念打造的智算中心,秉承了立體算力建設、立體應用賦能、立體生態共生的理念,加速算力轉化為生產力。在現場可以看到,該中心采用了層次化、模塊化、立體化的創新設計,采用浸沒式液冷節點及通用架構
294、,具備強大的性能和良好的生態適配性。同時,浸沒式液冷技術也將智算中心的核心系統 PUE 值降低至 1.04,同等算力情況下相比風冷節能超30%。值得一提的是,其命名中的“5A”代表了算力基礎設施在“開放、融合、綠色、普惠、服務”五個維度上的能力優勢,它們共同定義了當前智能計算中心建設的參考依據和建設標準,也成為了曙光“立體計算”的代表作。在京東云華北廊坊數據中心,京東云部署了針對超大規模數據中心應用的、自主研發的 J360 G3 整機柜。該方案采用模塊化設計,支持前后 IO 維護,可配置多元的供電方案,更通過風扇后置實現了熱維護,也能夠徹底解決通用產品出現的 RV 振動問題。J360 G3 解
295、決方案有多種磁盤和電源配置方式,尤其是前后IO維護可以適合不同機柜應用,更符合互聯網快速迭代的實際業務情況。得益于模塊化設計,J360 西部(重慶)科學城先進數據中心+126G3 的物料復用率達到了 70%,借助于規模效應可以使開發周期與開發成本同時降低 60%。DC48V 供電模式的引入還可以為單機柜年節省 8500 度電力,碳排放降低 8.7 噸。J360 G3 整機柜解決方案支持冷板式液冷散熱,支持包括最新一代英特爾至強可擴展處理器在內的多平臺,還支持 Arm 平臺和其他國產化平臺,最大支持 750W 芯片功耗。在現場我們看到,基于冷板式液冷散熱的一排排機柜,這些液冷服務器的部署可以將數
296、據中心的 PUE 控制在 1.1,年碳排放節省 2000 噸,同時讓數據中心的部署密度提升了28.6%,空間利用率更出色。如今,京東云也與英特爾共同推出了綠色數據中心的創新實踐,實現行業賦能,幫助更多用戶走上液冷之路。2024 數字中國萬里行考察報告 技術演進篇+127為服務器等算力設備提供液冷已被用戶所接受,但是在存儲領域乃至網絡領域,是否需要液冷解決方案呢?答案是肯定的。因為無論是服務器、存儲還是網絡都是在一個數據中心甚至一臺機柜中,所以存儲和網絡設備同樣需要液冷解決方案。IDC 發布的液冷數據中心白皮書顯示,存儲在數據中心系統能耗占比即將超過 35%,比例僅次于計算能耗。也就是說,如果存
297、儲系統的 PUE 值降低,那整個數據中心的 PUE 值都會明顯降低。在這種情況下,存算一體化已經不可避免,而使用液冷解決方案的存儲系統也將成為行業的大勢所趨。正是看到這一點,華南理工大學在校內數據中心的建設中大膽使用了一棧式液冷解決方案,即選擇計算液冷和存儲液冷的全棧式方案,通過聯想海神 Neptune 溫水水冷服務器和曙光 ParaStor 分布式液冷存儲系統的解決方案,算力建設達到雙精度 7.3P 和 AI 計算 94P,并將存儲容量擴展了近 25PB,數據中心 PUE 也降低到 1.2 以下。該方案為學校的科研數據存儲和數據處理提供了堅定支撐,優化了運維管理,提升了應用效率的同時能耗降低
298、了 30%。除了高校,醫院對于數據安全的重視程度同樣很高。根據電子病歷應用管理規范(試)要求,門(急)診電子病歷由醫療機構保管的,保存時間自患者最后一次就診之日起不少于 15 年;住院電子病歷保存時間自患者最后一次出院之日起不少于 30 年。換句話說,醫院對于數據可靠性、穩定性的要求極高,自然也就需要有強大的 IT 基礎設施為數據保駕護航。+存 儲 在 數 據 中 心 系 統能 耗 占 比 即 將 超 過35%,比例僅次于計算能耗。也就是說,如果存 儲 系 統 的 PUE 值 降低,那整個數據中心的PUE 值都會明顯降低。在這種情況下,存算一體化已經不可避免,而使用液冷解決方案的存儲系統也將成
299、為行業的大勢所趨。1282024 數字中國萬里行考察報告 技術演進篇作為廣東省醫療機構中的佼佼者,華中科技大學協和深圳醫院(深圳市南山區人民醫院,簡稱“南山醫院”)年總診療量高達 227 萬人次,這對后端數據中心的算力與存力都提出了嚴苛的挑戰。為響應“十四五”中關于打造智慧醫療、推進“5G+醫療健康”新模式發展的要求,南山醫院提出了以“12345+N”為架構體系的信息化建設方案,在綜合現場環境與業務現狀、充分考慮未來發展等需求之后,南山醫院使用了液冷方案有效地解決數據中心散熱難題??紤]到原有設備利舊,南山醫院借助曙光數創自產自研的冷板液冷散熱套件將其他主流服務器廠家的風冷服務器改造為液冷服務器
300、,不僅節約了新購液冷服務器的成本,還在機房內減少了風扇的使用,有效降低了 PUE 值,超過了深圳當地對 PUE 的政策要求。得益于液冷數據中心的支撐,南山醫院的數字化醫療能夠更好地了解患者的健康狀況和就醫需求,為制定個性化的診療方案提供科學依據。同時,還可以為醫院的科研活動提供強大的計算能力和數據存儲能力,推動醫院在醫學研究領域取得更多創新成果。正如報告前面所提,生成式 AI 應用的崛起造成了數據中心性能與散熱的雙重壓力。如今,該應用不僅僅只停留于后端數據中心領域。從2024 年開始,AI PC 和 AI 手機的概念逐步興起,讓越來越多人看到了大模型應用的新藍海。2024 年 2 月底,手機廠
301、商 OPPO 發布了 AI 手機,提出包括 OPPO AI 超級智能體和 AI Pr 智能體開發平臺組成的 OPPO 1+N 智能體生態+129戰略,旨在通過全新 AI 戰略讓 AI 從嘗鮮到常用,為用戶帶來更高效、自在的下一代 AI 體驗。伴隨著大模型應用的遍地開花,算力需求已經實現了前端與后端的協同,因此類似手機這樣的產品線也需要強大后端數據中心的支撐。OPPO AI 濱海灣數據中心位于粵港澳大灣區核心區域的東莞濱海灣新區,占地面積 6.26 萬平方米,總建筑面積 10.22 萬平方米,包括 4棟數據中心大樓和 1 棟綜合辦公樓。數據中心規劃建設 6736 個 8 千瓦機柜,單園區 12
302、萬臺服務器,未來將建成國內超大型數據中心。該數據中心與 OPPO 華南地區多處重要機房的網絡時延低于 2 毫秒,能夠協同 OPPO 濱海灣總部基地各類硬件創新實驗室,提供安全、高效、可持續的數據實驗算力資源。面對算力提升帶來的巨大散熱壓力,OPPO AI 濱海灣數據中心部署了浸沒式液冷集群,以應對未來激增的 AI 算力需求。至此,OPPO 也成為了手機廠商中首家落地智能計算液冷技術并交付AI業務使用的廠商。OPPO AI 濱海灣數據中心采用了阿里巴巴的單相浸沒式液冷散熱解決方案。其浸沒式液冷機房分布于數據中心的三層和四層,每層各可容納 6 個 Tank 液冷機柜,單柜支持 16 臺高性能高功耗
303、的訓練 GPU服務器。浸沒式液冷機房的暖通和供電均采用 2N 的冗余架構,暖通和電氣單路故障均不影響業務連續性。這也使得該機房整套系統效率達到了 PUE 值 1.15 以下,相較目前主流的冷水機組系統,能夠節省45%以上的能耗,并實現實際測試值約 54dB 的低噪音環境。+1302024 數字中國萬里行考察報告 技術演進篇在綠色低碳領域,OPPO AI 濱海灣數據中心 100%采用了綠電,實現范圍二整體零碳排放,并提出了“電力=算力+熱力”的數據中心能源利用新等式,從廢熱利用的角度為數據中心構建了一種新的生態。即輸入電力給服務器使用并生成算力,服務器廢熱又能夠被回收利用,對數據中心的可持續發展
304、具有重要意義。未來,機房服務器對廢熱回收利用產生的熱水,可為園區人才房提供日常生活所需熱水。同時,OPPO聯合英特爾、??松梨诘榷嗉覐S商,在浸沒式液冷機房開展了基于新型油類冷卻液的部件及整機級別的兼容與性能測試。新型冷卻液具備顯著的低碳優勢與成本優勢,可滿足數據中心低碳發展的多種需要。時至今日,液冷解決方案已經成為數據中心有效降低 PUE、提升利用率的必要手段,甚至可以說是唯一手段。2024 年政府工作報告明確提出,要將“單位國內生產總值能耗降低 2.5%左右”。這意味著節能減排已是大勢所趨,各地不斷出臺的數據中心 PUE 控制標準也在事實上要求數據中心運營者與基礎設施所有者最大限度地降低碳
305、排放。這些都為液冷技術的應用與普及提供了先決條件。液冷技術正在強化生態鏈的創新協同。從傳統的雙冷角度來看,數據中心的產品和交付界面非常清晰,基礎架構和基礎設施部門各自為戰,但隨著液冷技術的應用落地,這樣的交付界面正在逐步被打破,傳統數據中心的風火水電與 IT 基礎設施呈現明顯的融合趨勢。如上述提到的整機柜液冷解決方案、浸沒式液冷解決方案都可以管中窺豹。由此看來,隨著應用的進一步落地與大面積普及,未來數據中心發展將呈現全新的協同趨勢。過去的 2023 年,我們已經看到液冷技術從之前的不溫不火到積極部署。如今,冷板式液冷已經成為諸多用戶采購服務器、搭建數據中心的首選項,部署容易改造成本也更低,占據
306、了液冷應用的絕大多數場景。在這種趨勢下,全棧液冷也已大勢所趨,我們看到包括寧暢、聯想、新華三、超聚變等多家企業已經將全棧液冷定義為未來的發展目標和方向,同時全棧液冷也為數據中心散熱提供了新的思路與選擇。131PART 產業聯動篇2024 數字中國萬里行暨算力經濟中國行考察報告132第六章 算力能源協同在 產 業 轉 型 的 關 鍵 時期,新型基礎設施發揮著加速轉型、促進創新、激活經濟的核心作用。一方面,數據中心領域正引入更先進、更節能的新興技術,不斷提升能源使用效率,提供更綠色的算力,通過自身的綠色低碳,為其他行業的智能化轉型賦能,促進全社會降碳。我們可以看到,算力正在促進電力行業的數字化和智
307、能化發展。AI 需要龐大的算力,也需要大量的能源。如何保證算力能夠高效且大規模運行,一靠高性能芯片,二靠電力。數據中心的本質就是把能源轉化為算力,把瓦特轉為比特,夯實數字經濟發展的基石。據 Digital Information World 報道,數據中心為訓練 AI 模型產生的能耗將是常規云工作的三倍。預計到 2030 年,美國數據中心的電力需求將以每年約 10%的速度增長。來自生態環境部的數據顯示,預計到 2025 年,全國數據中心用電量占全社會用電量的比重將提升至5%,到 2030 年全國數據中心耗電量將接近 4000 億千瓦時。2023 年 12 月,國家發展改革委、國家數據局、中央網
308、信辦、工業和信息化部、國家能源局聯合印發深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見提出重點推進五個“一體化”,其中之一就是“算力與綠色電力一體化融合”,并提出到 2025 年底,算力電力雙向協同機制初步形成,國家樞紐節點新建數據中心綠電占比超過 80%。不難看出,算力與電力需要形成相互支撐的發展態勢,形成新質生產力的重要推動力。數字中國萬里行考察團隊發現,在產業轉型的關鍵時期,新型基礎設施發揮著加速轉型、促進創新、激活經濟的核心作用。一方面,數據中心領域正引入更先進、更節能的新興技術,不斷提升能源使用效率,提供更綠色的算力,通過自身的綠色低碳,為其他行業的智能化轉型賦能,促進
309、全社會降碳。我們可以看到,算力正在促進電力行業的數字化和智能化發展。比如中國電子云與華電電科院、華電南自華盾公司合作開發的國內首個行業級自主可控燃機智慧運維云平臺,其正式上線推動了燃氣發電行業的數字化、智能化發展,不僅助力傳統電廠向智慧電廠升級,還支持了新產業、新模式、新業態的創新發展。另一方面,傳統的電力供給方式和成本已經無法適應綠色算力的要求,基于新能源的綠色電力早已大勢所趨。來自國家能源局的數據顯示,2023 年全國新增風電并網裝機容量為 7590 萬千瓦,同比增長2024 數字中國萬里行考察報告 產業聯動篇+133102%。截至 2023 年底,全國累計光伏發電裝機容量約為 6.1 億
310、千瓦,同比增長 55.2%。該增長率顯示了光伏發電在中國的快速發展和廣泛應用。一.綠色節能創新實踐對于超大規模的數據中心集群來說,伴隨著算力升級帶來的高功率密度,園區級別的能源優化就變得尤為重要。數字中國萬里行考察團隊實地看到,像合盈數據(懷來)科技產業園、UCloud 烏蘭察布數據中心,以及商湯上海臨港 AI 計算中心,它們在節能、節水、熱回收、減碳等方面都有創新性的實踐。合盈數據目前以間接蒸發冷卻技術為主,包括高效UPS節能運行模式、高效氣流組織方案、照明系統節能等舉措,通過“組合拳”的方式實現最優節能組合方案。除了引入先進節能技術之外,合盈數據還從園區級的節能方案入手,通過構建多能互補綜
311、合能源管理體系,在數據中心冷凍站內設置水源熱泵型熱回收系統,向周邊生活區域及農業設施提供全年穩定的生產熱源,同時冷凍水回水溫度下降,可持續為 IT設備冷卻。除了節能方面的領先實踐,合盈數據在園區還規劃部署了污水收集系統,每當下雨的時候就可以回收雨水,由此實現海綿調蓄能力。按照規劃,懷來園區 1000 畝地塊年雨水收集與處理可達 8960 噸,污水回收和再生率達到 85.45%。7590萬千瓦2023 年全國新增風電并網裝機容量6.1億千瓦截至 2023 年底全國累計光伏發電裝機容量102%同比增長55.2%同比增長134在綠色能源應用方面,合盈數據借助自主研發的能碳管理系統,可以全生命周期實時
312、跟蹤并核算數據中心系統、建筑系統、交通系統、基礎設施系統、廢棄物處理系統以及能源系統等各碳排放源,識別并分析全生命周期能源消耗的瓶頸和浪費點,不斷改進能源使用效率,降低能源消耗。同時,合盈數據也融合了綠色能源產業生態的力量,多維度推進綠色能源相關的技術創新、應用落地、產業合作。值得關注的是,在一些大型數據中心園區,熱回收作為一種新型節能方案已得到了成功實踐。數字中國萬里行考察團隊先后參觀了位于內蒙古的 UCloud 烏蘭察布數據中心、位于上海的 UCloud 青浦數據中心,可謂東西呼應,是“東推西訓”、“東數西存”、“東數西算”的最佳實踐。在烏蘭察布,UCloud 按照國際 A 級數據中心標準
313、自建的“西部”數據中心,坐落于國家算力網絡樞紐節點內蒙古樞紐集寧片區的大數據產業園內,與北京直線距離 300 公里,三路入京鏈路時延低至 4.2ms。UCloud 烏蘭察布數據中心的清潔能源使用率達到50%,這正符合國家節能減排的“雙碳”戰略。在機房內部,UCloud 烏蘭察布數據中心采用的是房間內水平彌散送風、上回風的氣流組織形式,對熱通道實施封閉處理,配合溫度檢測和氣流調節措施,保證各類設備均衡冷卻,無局部熱點。冷/熱通道的設計溫度為 25/37 攝氏度,是比較理想的應用溫度,而設備運行產生的熱水也可以回收用于辦公空間冬季采暖,節能效果顯著。UCloud 烏蘭察布數據中心園區內的 110K
314、V 變電站+2024 數字中國萬里行考察報告 產業聯動篇135名為“啟蟄”的數據中心余熱回收利用技術,是 UCloud 踐行“雙碳”政策而構建的創新解決方案。其創造性地提出“集散分離、遠近兩宜”的余熱回收利用理念:利用集中式余熱回收方案來實現熱量的遠距離輸送和利用;分布式余熱回收方案來實現熱量的就近利用。兩種方案相輔相成,即保證了余熱利用效率,又提高了部署的靈活性和適用性,具有極高的推廣應用前景和價值。集中式余熱回收方案是建設獨立的熱回收站,引入制冷系統的冷水作為熱源,利用水源熱泵螺桿機制取高溫熱水,輸送到需要采暖的建筑空間,然后通過空調末端實現供熱。UCloud 烏蘭察布數據中心的集中式余熱
315、回收系統已經為 2 棟綜合辦公樓提供了冬季采暖。分布式余熱回收利用方案是在 IT 模塊的空調間部署水源多聯機作為余熱利用的主體,水源多聯機與精密空調并聯,共用一套水輸配系統,為周邊空間提供冷量和熱量。UCloud 烏蘭察布數據中心的分布式余熱回收系統,為數據中心樓內的電池室、柴發機房、高配間、水泵房、辦公室等低發熱空間,提供了冬季采暖。在上海,UCloud 青浦數據中心考慮到土地、電力資源緊張,而水資源相對充足的特點,選擇了間接蒸發冷卻方案以提升制冷效率。與傳統的間接蒸發冷卻方案不同的是,UCloud 青浦數據中心重構了間接蒸發冷卻流程,自主研發了名為“白露”的間接蒸發冷卻技術。其利用室外空氣
316、的不飽和性,在新風進口增設表冷器,循環噴淋水先流經表冷器,然后通過噴淋裝置均勻流入間接蒸發風風換熱器的濕通道;新風在表冷器處等濕降溫,然后在濕通道內與噴淋水混合,等焓降溫;新風和循環噴淋水相互促進降溫,不斷迭代,最終穩定至室外露點溫度;機房回風流過間接蒸發風風換熱器的干通道,冷卻后送入數據機房。該技術使得數據中心送風極限由室外濕球溫度調整為室外露點溫度,濕球效率從主流產品的 70%提升至 100%以上。制冷效率提高10%到 25%,減少機械補冷能耗,可以大幅降低數據中心 PUE 和整體運行 TCO。UCloud 青浦數據中心部署應用的“白露”間接蒸發機組共計 60 臺,助力數據中心實現了 1.
317、26 的超低 PUE 值。以 1000 臺 30A 機柜的規模計算,每年可比常規機組節約電費 130 萬元以上。+“集散分離、遠近兩宜”的余熱回收利用理念:利用集中式余熱回收方案來實現熱量的遠距離輸送和利用;分布式余熱回收方案來實現熱量的就近利用。兩種方案相輔相成,即保證了余熱利用效率,又提高了部署的靈活性和適用性,具有極高的推廣應用前景和價值。136二.大模型助力 算電協同創新面對算力集群的用電結構與未來能耗增長趨勢帶來的挑戰,基于商湯大裝置 SenseCore 和“日日新 SenseNova”大模型體系強大的架構底座,商湯基于臨港算力集群(一期)作為應用場景,在算力電力協同、調度一體化管理
318、中不斷創新。依托新片區的前瞻性能源戰略部署和源網荷儲一體化管理的思路,基于商湯大模型體系強大的架構底座,進行智能預測與決策,并通過生成式 AI 虛擬電廠實現精準、動態、實時的能源調度,參與用戶側需求響應、獲取削峰填谷收益、實現綠電交易,最終降低能源費率,目標降低電力成本 5%以上。在基礎設施運營層面,為實現智算中心高效用能,實現算力電力的一體化管理,商湯從以下三維維度進行統籌規劃實施:電網資源側:以源網荷儲的邏輯進行整體規劃,由政府統籌協調管理電網源側、網側整體資源,通過源網端的一體化管理實現能源源頭的高效規劃;用戶側主要解決負載效率的提升,通過企業參與的方式解決負荷端的應用問題;同時政府和企
319、業共同開展儲能的建設和應用,提升整體能源儲備容量,豐富用能側應用場景的靈活性?;A設施側:整體基礎設施需要綜合考慮用能側的應用場景和訴求,在算力基礎設施的全生命周期踐行用能側實施方案,具體包括:在基礎選址中考慮區位、氣候、綠能綠電資源、區域內儲能資源等因素、在實際運營過程中針對基礎設施(機電系統、儲能)及 IT系統(服務器、網絡)進行分層精細化算力運營、在軟件平臺中通過通過算力管理平臺、任務調度平臺等軟件系統的應用提升基礎設施用能效率。創新應用側:除以上基礎用能方案外,商湯積極踐行高效用能的創新應用,包括開發和應用基于生成式 AI 技術,提升算力設施電力運行效率的垂類能源大模型、開發建設拉通能
320、源-電力-機房-服務器-集群-算力全鏈路數據及流程整合的基礎設施運營平臺、應用基于數字孿生的算力電力一體化協同調度的算力駕駛艙等。除此之外,商湯構建全生命周期標準化運維管理體系,研發了運維大模型與 AI 智能運維管理平臺,利用數字化與智能化技術提升運營效率 15%,通過動態制冷優化,實現能耗降低 5%。2024 數字中國萬里行考察報告 產業聯動篇+137在算力算效管理層面,商湯基于自身實踐,形成了一套實現算電一體化協同管理的算效管理方案,有效的打通了從硬件到軟件、從電力到算力的應用場景,能夠為算力高效輸出提供有效依據?;A設施層:通過對供配電系統、溫控系統及 IT 系統的監控,輸出算力基礎設施
321、 PUE 值;機柜層:記錄小時級機房包間、機柜用電量,以及單機柜小時級負載量;GPU 服務器層:通過自研軟件對 GPU 服務器進行全維度信息管理,包括 GPU 卡類型、GPU 卡使用屬性、服務器負載率監控等;軟件管理層:通過 SenseCore 算力云管平臺及計算調度平臺實現對于算力使用實際情況的有效管理和調度,包括 GPU 使用量、GPU使用率、實時訓練/推理任務數、實時算力數等;業務運營層:通過自研軟件對于 GPU 算力實際服務客戶情況進行整盤監控,包括物料信息、客戶屬性、運營成本等;基于上述不同層面的管理措施落地,商湯可以實時掌控算力利用效率,建立算力與能耗之間的邏輯關系與評估體系,形成
322、算力電力協同調度平臺的優勢能力,并根據實際運行數據結合園區能耗管理、儲能設備進行及時的電力資源調度,更高效的開展算電一體化管理。在算電協同創新中,商湯大模型體系能力至關重要。商湯自研“日日新”大模型體系,針對各類能源場景(如能源調度、交易、運營等),整合科學計算大模型、氣象大模型、風力發電預測模型、用電負荷預測模型、調節能力預測模型和調度決策智能模型,與生態企業合作研發廣泛適用的全自主能源大模型體系。能源大模型體系采用多模態MoE架構,基于超過4TB的行業知識文本、能源結構化數據、視覺圖像、氣象信息等多模態數據訓練,形成 700億模型參數。在保證基礎通識能力的同時,該大模型能夠通過預測、決策、
323、調度,處理復雜的能源任務,是能源行業內首個具備“分析、優化、決策、交互”等多種能力的全棧式大模型,可以滿足行業客戶的不同場景需求。能源大模型通過邊端能量控制器感知源網荷儲資源信息,以節點“能在算電協同創新中,商湯大模型體系能力至關重要。商湯自研“日日新”大模型體系,針對各類能源場景(如能源調度、交易、運營等),整合科學計算大模型、氣象大模型、風力發電預測模型、用電負荷預測模型、調節能力預測模型和調度決策智能模型,與生態企業合作研發廣泛適用的全自主能源大模型體系。+138量塊”數據結構為基本單元,通過預測下一個15分鐘的“能量塊”數據,生成自適應的“能量系統”,針對能源場景提供分析與決策能力,并
324、通過生成式 AI 虛擬電廠進行能源調度。調度過程中支持人為評估與策略調整,調度完成后自動進行策略校驗,所有人為調整和校驗結果將被反饋至大模型,以實現模型性能的持續調優。三.綠電應用探索實踐在從北京去往懷來的路上,無論是高鐵還是自駕,可以看到沿途山上那些星羅棋布的光伏板和“大風車”(風力發電塔)。它們為附近城鎮提供著源源不斷的綠色電能。一直以來,綠電直供形式對資源、氣候條件、區域面積和當地政策等條件要求較為苛刻,實施起來具有較大的局限性,而完全依靠市場化的綠電交易,則成本較高且價格不穩定。如今,合盈數據(懷來)科技產業園在張家口市同城的沽源、蔚縣等地配置了風光新能源電站,實現自有綠電同城并網,通
325、過電力市場化交易機制,保障可再生能源電量供應的穩定性且成本可控。數字中國萬里行考察團隊來到沽源風光新能源電站,看到剛剛建成的“大風車”可以為數據中心提供部分綠色電能。目前,合盈數據通過“源網荷儲”一體化的理念,同期部署新型算力業務集群和綠色能源業務集群。沽源風光新能源電站2024 數字中國萬里行考察報告 產業聯動篇139電源側:多能互補,多方式并存。產業園同城配置新能源電站,通過電力市場化交易機制,保障可再生能源電量供應穩定;配合園區內分布式光伏,通過綜合能源管理系統為園區補充穩定、安全的綠色電力。電網側:主動配電網絡,安全穩定供應。產業園實現主動配網,通過自建 110 千伏變電站,采取 2N
326、 架構,配備同步集中的 UPS,保證供電系統的冗余和容錯能力;同時采用主動管理分布式電源、儲能設備和雙向負荷的模式,讓數據中心的能源配置更加平衡,保證長期平穩的能源供應。負荷側:優化數據中心配電系統架構,提升配電系統的可靠性和調節能力。產業園借助先進的預測算法和調優 AI 算法,對數據中心IT 設備和各類輔助設備的運行功率進行精準的分析和預測,在保障安全穩定運行的基礎上,最大限度地消納可再生能源。儲能側:多元儲能,最大程度消納綠電。由于數據中心耗電量較大,源側新能源裝機容量較大,儲能采用共享儲能形式,可極大地提升儲能設施利用率,減少儲能開發成本。荷側產業園計劃通過電化學儲能、氫儲能等多種儲能方
327、式結合分布式新能源,用于非生產樓的電力供應,同時研究通過削峰填谷、需量電費管理等形式,起到一定的替代柴發設備和提高供電可靠性的作用。合盈數據懷來園區140從算力到綠電,從單一的數據中心到整個產業園區,數字中國萬里行考察團隊發現,綠色化加速推動了新型算力中心的不斷演進,先進的運營理念、低碳的運營方式與智能化的服務能力,讓單位比特的能耗和碳排放持續下降,提供了更多的“綠色算力”。四.綠電供給實踐張家口市毗鄰北京,已融入“首都一小時經濟圈”。其作為八大算力網絡國家樞紐節點、十大數據中心集群之一,正在打造“算力之都”,構建“一廊四區多園”的發展新格局。數字中國萬里行考察團隊親歷了正在建設的數字服務產業
328、基地與懷來、張北、宣化 3 個數據中心集群起步區。目前,張家口市圍繞全國一體化算力網絡國家樞紐節點建設,以起步區懷來、張北、宣化為突破口,加快懷來大數據產業基地、張北云計算基地等園區建設,搭建京津冀大數據產業發展廊道,主動承接京津大數據產業外溢。以經開區為龍頭,打造數字服務產業功能區;以張北縣為龍頭,打造數據存儲與綠色低碳功能區;以懷來縣為龍頭,打造數據存算與融合應用功能區;以宣化區為龍頭,打造裝備制造與數據存算功能區。打造一批分布合理、特色鮮明、運行高效的大數據產業園,構建多園協同聯動格局。+綠色化加速推動了新型算力中心的不斷演進,先進的運營理念、低碳的運營方式與智能化的服務能力,讓單位比特
329、的能耗和碳排放持續下降,提供了更多的“綠色算力”。2024 數字中國萬里行考察報告 產業聯動篇141截至 2023 年底,全市投入運營數據中心 27 個、標準機柜 33 萬架、服務器 153 萬臺,算力規模達到 7600P(1P 約等于每秒 1000 萬億次計算速度)。張家口市還是全國唯一國家級可再生能源示范區,累計批復風光發電項目 513 個,總規模 5600 多萬千瓦。在“雙碳”目標過程中先行先試。據河北新聞聯播報道,張家口市風光開發總規模穩居全國地級市非水可再生能源第一,域內可開發風能資源儲量在4000萬千瓦以上,太陽能可開發量超過 3000 萬千瓦。目前已有華能、大唐、華電、國電等 1
330、30 多家企業在這里開展風光發電業務。數字中國萬里行考察團隊發現,在能源供給能力和最終電價上,同作為全國一體化算力網絡國家樞紐節點、十大數據中心集群的內蒙古呼和浩特市和林格爾新區,正在通過綠色電力和高質量算力聯動,推動中國的算力綠色化發展。眾所周知,內蒙古自治區是全國最主要的可再生能源和能源安全保障基地,擁有全國 57%的風能資源,超過 21%的太陽能資源,新能源資源豐富。自治區 6000 千瓦以上的新能源發電裝機容量達 6641萬千瓦,占全區電力總裝機容量的 37.5%。到 2025 年,新能源裝機規模將達到 1.35 億千瓦以上,新能源裝機占比將超過 50%,能夠為數字經濟發展提供更加充足
331、的綠色能源保障。從地理位置來說,呼和浩特市地處京津冀環渤海經濟圈腹地,是國家向北開放、連接中蒙俄經濟走廊的重要樞紐城市。和林格爾新區距離呼和浩特市中心城區只有 20 公里,是內蒙古首府的城市副中心。豐富的能源儲備尤其是新能源綠色電力供應是和林格爾新區的優勢之一。同時,和林格爾新區具備完善的供電保障能力,配套建設了系列500 千伏變電站、220 千伏變電站、110 千伏變電站,形成了安全可靠的供電保障。27個全市投入運營數據中心153萬臺服務器33萬架標準機柜7600P算力規模142除了充足的能源供給之外,和林格爾新區打動各大企業的因素還有價格,尤其是新能源的價格更是低于行業平均水平與企業的心理
332、預期。綠色電力交易是以綠色電力產品為標的物的電力中長期交易,用以滿足發電企業、售電公司、電力用戶等市場主體出售、購買綠色電力產品的需求,并為購買綠色電力產品的電力用戶提供綠色電力證書。綠電價格由發電企業與電力用戶、售電公司通過市場化方式形成,包括電能量價格和綠色環境權益價格。由于各地資源稟賦不同,綠電電價也有所差異。和林格爾新區接入的蒙西電網是自治區所屬電網,通過電力多邊交易,風光發電同步參與,并將大數據、云計算等需要建設數據中心的產業用電競價列入了優先交易的范圍,不設置限制。按照內蒙古自治區工業和信息化廳關于印發關于調整戰略性新興產業電力交易的若干政策的通知(內工信經運字 2022405 號
333、)規定,數字經濟項目參與電力多邊交易到戶電價約是 0.29 元/千瓦時,使用綠電比例約50%以上。和林格爾新區正在建設綠色能源供給示范項目,通過綠色直供方式未來綠電使用比例可達到 100%。和林格爾新區的算力可再生能源使用率在全國范圍內已有明顯優勢,可滿足當地算力產業持續、快速的發展需求。全國主要區域可再生能源發電量占用電量比例數據來源:中國信通院發布的和林格爾綠色算力指數報告區域區域可再生能源發電量占用電量比例可再生能源發電量占用電量比例青海 75.89%廣東 21.11%吉林 36.88%浙江 18.24%甘肅 35.78%河南 17.14%內蒙古 32.49%陜西 14.31%全國 31.60%湖南 13.10%遼寧 30.38%江西 12.82%新疆 28.52%江蘇 12.22%黑龍江 23.88%山東 9.86%山西 21.73%安徽 8.42%+2024 數字中國萬里行考察報