《OCTC:2024基于標準PCIe接口的人工智能加速卡液冷設計白皮書(13頁).pdf》由會員分享,可在線閱讀,更多相關《OCTC:2024基于標準PCIe接口的人工智能加速卡液冷設計白皮書(13頁).pdf(13頁珍藏版)》請在三個皮匠報告上搜索。
1、 基于標準PCIe接口的人工智能加速卡液冷設計 白皮書 (2024年1月)開放計算標準工作委員會 發布 OCTC BA012024 OCTC BA012024 I 版權保護文件 版權所有歸屬于該文件的發布機構,除非有其他規定,否則未經許可,此發行物及其章節不得以其他形式或任何手段進行復制、再版或使用,包括電子版,影印件,或發布在互聯網及內部網絡等。使用許可可于發布機構獲取。II 目 次 前 言.III 1 概述.1 2 發展趨勢.1 3 術語.1 4 縮略語.2 5 總體描述.2 5.1 冷板式人工智能服務器組成.2 5.2 冷板式人工智能加速卡組成.3 6 技術方案.3 6.1 設計要求.3
2、 6.2 外觀要求.4 6.3 結構要求.4 6.4 熱性能要求.6 6.5 可靠性要求.7 參 考 文 獻.9 OCTC BA012024 III 前 言 本文件由中移動信息技術有限公司提出。本文件由開放計算標準工作委員會歸口。本文件起草單位:中移動信息技術有限公司,浪潮電子信息產業股份有限公司,上海壁仞智能科技有限公司,中科寒武紀科技股份有限公司,上海燧原科技有限公司,寧暢信息技術有限公司,中科可控信息產業有限公司,新華三技術有限公司,史陶比爾(杭州)精密機械電子有限公司,中航光電科技股份有限公司,京東云計算有限公司,百度在線網絡技術(北京)有限公司。本文件主要起草人:李圣義,楊洋,李金波
3、,劉廣志,羅竣峰,李明杰,周立志,邸賀亮,張政,黃乾明,王輝,朱重興,孫鵬,李壯,謝澤邦,王周杰,廖嵬,聶超,高亦廷,梅敬青,王思善,王海巖,韓學磊,李偉祖,王偉,李鵬,謝地,董永申,李進寶,王貴林,蔡岳霖,金躍紅,鄭建武,高從文,劉玲,董少杰,郗卓寧,傅浩杰。OCTC BA012024 1 基于標準 PCIe 接口的人工智能加速卡液冷設計指南 1 概述 冷板式人工智能加速卡在結構設計、流體快插接頭、熱性能設計等方面無統一設計要求,服務器針對不同廠商的冷板式人工智能加速卡需要進行結構和散熱適配,耗費大量人力、物力。本技術白皮書主要制定標準PCIe接口形態的冷板式人工智能加速卡在結構設計、冷板設
4、計、流體快插接頭選型、熱性能設計、可靠性設計方面的要求,用于指導冷板式人工智能加速卡的設計。通過本白皮書提供的設計指導,降低服務器和冷板式人工智能加速卡之間的適配難度,降低適配的成本和人力投入。同時降低部署和運維難度,方便終端客戶根據業務場景靈活選擇相應產品,加速液冷式人工智能加速卡和服務器產品上市。此外,通過統一的設計指導,在冷板本體、流體快插接頭等關鍵組件上產生規?;б?,獲取低成本液冷解決方案,推動冷板式液冷技術的普及。2 發展趨勢 以AIGC為代表的人工智能大模型的發展,帶來了算力需求的指數式提升。AI芯片需要通過提升工作頻率或增加運算單元來獲得更強的算力,帶來人工智能加速卡功耗的不斷
5、提升。當前人工智能加速卡單卡功耗已達到350W至600W量級,帶來服務器散熱功耗的顯著提升,在給服務器散熱設計帶來挑戰的同時,也給建設綠色數據中心帶來了很大的挑戰。液冷技術成為解決人工智能服務器高功耗散熱問題、降低數據中心PUE的關鍵,其中冷板式液冷技術是當前解決人工智能加速卡高功耗問題的主流方案。目前標準PCIe接口形態的人工智能加速卡仍然是業界主流,國內外部分廠商已經推出了相應的冷板式人工智能加速卡,但均是按照自身產品形態特征進行設計,未考慮同行業其他廠商情況,不能作為標準化設計。同時,雖然冷板式液冷散熱技術在CPU、內存、扣板式人工智能加速卡上已經取得了成功應用,但在標準PCIe接口形態
6、的人工智能加速卡上的應用仍然很少,業界迫切需要一個針對標準PCIe接口形態人工智能加速卡的液冷設計指導,來推動冷板式散熱技術在人工智能加速卡應用的普及。3 術語 3.1 冷板式液冷 cold plate liquid cooling 通過冷板(通常為銅鋁等導熱金屬構成的封閉腔體)將發熱器件的熱量間接傳遞給封閉在循環管路 中的冷卻液體,通過冷卻液體將熱量帶走的一種實現形式。3.2 冷板式人工智能加速卡 cold plate liquid cooling artificial intelligence accelerator card 專為人工智能應用設計,通過冷板進行散熱的硬件加速器,可用于提升
7、機器學習和深度學習的速度和性能,從而更好地滿足人工智能應用的需求。3.3 冷板式人工智能服務器 cold plate liquid cooling artificial intelligence server OCTC BA012024 2 配備了冷板式人工智能加速卡的服務器,可為人工智能應用提供高效能計算處理能力。3.4 機柜冷卻工質供回歧管 rack coolant manifold 用于向機柜內各液冷冷板分配冷卻工質的裝置。3.5 流體快插接頭 hydraulic quick disconnect 一種包含插頭和插座、且插頭和插座都帶流體截斷功能的快速插拔組件。4 縮略語 下列縮略語適用
8、于本文件。AI 人工智能(Artificial Intelligence)AIGC 生成式人工智能(Artificial Intelligence Generated Content)ASIC 專用集成電路芯片(Application Specific Integrated Circuit)CEM 板卡機電(Card Electromechanical)CPU 中央處理器(Central Processing Unit)EMC 電磁兼容性(Electromagnetic Compatibility)FPGA 現場可編程門陣列(Field Programmable Gate Array)GPGP
9、U 通用圖像處理器(General-purpose computing on graphics processing units)PCIe 高速外圍組件互連總線(Peripheral Component Interconnect Express)PUE 數據中心電能利用率(Power Usage Effectiveness)RCM 機柜冷卻工質供回歧管(Rack Coolant Manifold)VR 電壓調節器(Voltage Regulator)5 總體描述 5.1 冷板式人工智能服務器組成 人工智能服務器組成如圖1所示,主要包括通用計算子系統、異構加速子系統、存儲子系統、互聯子系統、監控
10、子系統、供電子系統、結構及散熱子系統、輸入輸出設備等組成。其中異構加速子系統配備了面向人工智能應用的加速器,例如GPGPU卡、AI ASIC卡、FPGA卡等,可為人工智能應用提供高效能計算處理能力。OCTC BA012024 3 通用計算子系統異構計算子系統存儲子系統網絡子系統監控管理子系統結構和散熱子系統供電子系統供電線系統總線管理總線輸入輸出設備 圖1 人工智能服務器組成 人工智能服務器基于散熱子系統實現方式的不同,可分為風冷式人工智能服務器和冷板式人工智能服務器,其中冷板式人工智能服務器是本文研究的重點。冷板式人工智能服務器CPU和人工智能加速卡應采用冷板進行散熱,內存等其它高功耗部件宜
11、采用冷板散熱,以進一步提升液冷散熱的占比,降低數據中心PUE。設計上需要應減少機箱內的管路,并采用漏液檢測機制,以提升服務器的可靠性。5.2 冷板式人工智能加速卡組成 冷板式液冷加速卡由人工智能加速板卡、液冷板、加速卡外殼結構件組成。冷板覆蓋加速卡上的主芯片及其他發熱元件(包括但不限于VR、顯存等),提高板卡封裝狹小空間內人工智能芯片散熱效率。加速卡對外提供一對流體快插接頭(兩個公頭),用于連接服務器內部集/分水結構或RCM。冷板式人工智能加速卡能夠有效避免局部熱點,降低服務器系統風扇功耗,降低數據中心整體PUE,是未來綠色數據中心發展的必然趨勢。6 技術方案 本技術方案旨在針對標準PCIe接
12、口的人工智能加速卡冷板設計的外觀、結構、液冷快插接頭、熱性能、可靠性方面進行定義,以解決冷板式人工智能加速卡和服務器的適配問題。6.1 設計要求 人工智能加速卡液冷設計要求如下:a)應根據AI芯片的型號尺寸和發熱特點及電子信息設備的內部結構進行設計,以獲得更好的換熱效率,在滿足芯片整個使用周期內的殼溫要求下,應優化流道設計,減小冷板模塊的流阻;b)應保障滿足AI芯片插座的載荷及其他結構性要求;c)應考慮配管位置及方向,液體進出口位置,避免與電子信息設備產生干涉;OCTC BA012024 4 d)冷板基板和流道宜采用銅或鋁合金材質,一個系統中冷卻工質直接接觸的部件不應有兩種電極電位差較大的金屬
13、;e)冷卻工質的選用應考慮與二次側循環回路中所有直接接觸的固體表面材質間的相容性;f)漏液檢測裝置的泄漏量感應基準應不高于0.5ml;g)應符合芯片對散熱器重量的要求;h)應考慮冷板的安裝及拆卸順序,滿足芯片的操作規范;i)應滿足芯片的扣合力技術要求,安裝拆除后散熱基板底面滿足平面度技術要求。6.2 外觀要求 人工智能加速卡外觀要求如下:a)冷板散熱蓋板應光滑,不應變形,散熱基板底部表面不應有裂紋,劃痕,變形、污點等缺陷;b)冷板散熱基板散熱面形狀宜為方形或八邊形;c)固定模塊表面銳邊倒鈍,無毛刺,外表面無劃痕、臟污,明顯色差和花斑、裂縫、變形等缺陷,涂覆層無起泡、堆積、龜裂和脫落現象;d)接
14、口應無毛刺、劃痕、變形等缺陷,并與配管順暢接合;e)配管管內應無臟污,無毛邊披鋒,無破損。6.3 結構要求 6.3.1 加速卡結構尺寸要求 標準PCIe接口的人工智能加速卡擋片宜不開孔,冷板全覆蓋加速卡進行全液冷設計。加速卡對外液冷接口需要考慮和服務器系統或RCM的對接方式,有利于加速卡和外界液冷系統對接。板卡尺寸符合PCIe CEM規范,為單槽或者雙槽、全高形態,卡長(不含快插接頭)宜不大于266.7mm。加速卡的進出水口快插接頭可根據應用場景放置于加速卡擋片側或者加速卡尾端。6.3.1.1 當流體快插接頭位于擋片側,結構尺寸設計要求如圖 2 所示。266.7mm50.0012.0615.2
15、324.00出水口進水口 圖2 結構設計要求(流體快插接頭位于擋片側)OCTC BA012024 5 人工智能加速卡需要插入服務器才能工作,因服務器后窗針對液冷卡有限制,需要進出水口能滿足下列要求:a)如圖2所示,加速卡流體快插接頭位于擋片側,進水口位于出水口上方??觳褰宇^和冷板連接的地方,需要做凸臺,凸臺高度與機箱后窗結構相關,宜高度不小于3mm,以方便密封和在服務器側的插拔;b)加速卡公頭位于加速卡上,兩個快插接頭公頭中心點之間距離大于等于24mm,以滿足快插接頭母頭能支持正常的插拔操作,且無結構干涉;c)加速卡快插接頭母頭最大直徑19.5mm,宜小于18mm,以滿足兩張相鄰的加速卡之間快
16、插接頭正常的插拔操作;d)進水口快插接頭中心點距離擋片最上方距離大于等于50mm,以避免加速卡插入后擋片和板卡結構干涉,確??旒铀倏ú褰宇^可以從服務器后窗推出;e)快插接頭的外徑需要小于機箱后窗開口的寬度,最大不超過12.06mm;f)快插接頭的左邊緣距離擋片右邊緣應小于等于15.23mm。6.3.1.2 當進出水快插接頭位于尾部時,設計要求如圖 3 所示。266.7mm 312mm進水口出水口 24.00 38.786.57 圖3 結構設計要求(流體快插接頭位于加速卡尾部)a)如圖3所示,加速卡流體快插接頭位于尾部,進水口位于出水口上方;為了節省空間,快插接頭和冷板連接的地方不宜有凸臺;b)
17、加速卡公頭位于加速卡上,兩個快插接頭公頭中心點之間距離大于等于24mm,以滿足快插接頭母頭能支持正常的插拔操作,且無結構干涉;c)加速卡快插接頭母頭最大直徑19.5mm,宜小于18mm,以滿足兩張相鄰的加速卡之間快插接頭正常的插拔操作;d)出水口快插接頭中心點距離加速卡金手指下邊緣大于等于38.78mm;e)為了便于服務器機箱設計,流體快拆頭位于尾部時,宜加速卡本體+快插接頭靜態插合尺寸不超過312mm。6.3.2 加速卡冷板設計要求 OCTC BA012024 6 加速卡冷板的設計要求如下:a)冷板的材料需要考慮導熱性及與冷卻液的化學兼容性,例如可選擇紫銅。冷板對板卡上熱源的全覆蓋;b)固定
18、方式宜使用4個彈簧螺絲固定的方式進行固定;c)主芯片和冷板之間的壓力應保證滿足散熱性能需求;d)冷板散熱基板底部和主芯片接觸區域要求光滑,且平面度不大于0.05mm,粗糙度Ra不大于1.6um。6.3.3 流體快插接頭要求 人工智能加速卡流體快插接頭選型主要考慮結構兼容性,需要保證在加速板卡側面正常連接冷板和封裝,同時組裝在服務器上不發生結構干涉。為了滿足快插接頭位于人工智能加速卡擋片側或者尾部兩種不同場景下的結構要求,流體快插接頭尺寸要求見表1。表1 流體快插接頭規格要求 流體快插接頭參數 規格要求 公頭最大直徑 12.06mm 母頭最大直徑 19.5mm,推薦不大于 18mm 靜態插合尺寸
19、 45mm 靜態插合尺寸是指快插接頭公頭和母頭插合后,公頭橡膠圈和母頭橡膠圈之間的尺寸,如圖4所示。靜態插合尺寸 圖4 流體快插接頭靜態插合尺寸示意圖 流體快插接頭參考型號見表2。表2 流體快插接頭參考型號 廠商 參考型號 中航光電科技股份有限公司 TSC/D-4 史陶比爾(杭州)精密機械電子有限公司 緊湊版 SCG03/IC 6.4 熱性能要求 6.4.1 人工智能加速卡熱性能參數 冷板式人工智能加速卡熱性能參數及建議值見表3。OCTC BA012024 7 表3 熱性能參數要求 熱性能參數 建議值 加速卡熱設計功耗 單寬卡:450W 雙寬卡:600W 加速卡進水溫度 3055(最低溫度為參
20、考值,宜高于機房凝露溫度 3)加速卡最大出水溫度 65(參考值)進出水口溫升 進出水口溫升宜 610左右;進出水口最大壓降 額定流量 進水口到出水口總壓降(含快插接頭)45kPa(按最大 600W 功耗計算)翅片流速 經過翅片的最大流速2m/s 冷卻液顆粒物要求 50um,參考標準YD/T 3982-2021 數據中心液冷系統冷卻液體技術要求和測試方法:液體中固態顆粒物含量,0.5m 顆粒不超過25 顆/ml,0.51m 顆粒不超過5 顆/ml,1m3m 顆粒不超過3 顆/ml,沒有直徑超過50m 金屬顆粒。6.4.2 人工智能加速卡潤濕材料 潤濕材料選型要求見表4。表4 潤濕材料選型要求 元
21、件 建議材料 冷卻工質 需要考慮冷卻工質熱物性、環保特性、安全特性、環境適應性、工質與管路材料兼容性、工質成本和可獲取性等。IT 設備推薦使用含緩蝕劑、殺菌劑等藥劑的水、乙二醇/丙二醇水溶液等。冷卻液標準參考YD/T 3982-2021數據中心液冷系統冷卻液體技術要求和測試方法。冷板 冷板材質優選:紫銅、鋁合金(需做好耐腐蝕和絕緣要求)??觳褰宇^ 和冷卻液具有化學兼容性。不銹鋼、鋁合金(僅限搭配鋁合金冷板)、黃銅(表面需要做好鍍層,把黃銅和液體隔離,冷卻液不推薦使用去離子水)。6.5 可靠性要求 6.5.1 漏液檢測要求 服務器系統設計宜有漏液檢測裝置(例如采用漏液感應線),每個業務單板提供一
22、個監控連接器接口(服務器系統來定義),檢測范圍覆蓋冷板易泄漏點,比如:焊接部位,管鏈接位置等。6.5.2 環境適用性 工作、貯存中溫度、濕度、EMC、壓力要求見表5。OCTC BA012024 8 表5 環境適用性要求要求 參數 建議值 冷板最大工作壓力 350kPa,無液體泄露,無變形 冷板最小爆破壓力 最大工作壓力的 3 倍,無液體泄露,可變形 溫度 工作:040 貯存:-4585 濕度 工作:8%RH90%RH(無冷凝)貯存:10%RH93%RH(無冷凝)大氣壓 86kPa106kPa EMC CLASS A 搭配服務器去獲取相關認證,實際設計參考國家標準 GB/T 17625.9-2016電磁兼容 限值 低壓電氣設施上的信號傳輸 發射電平、頻段和電磁騷擾電平。OCTC BA012024 9 參 考 文 獻 1 GB/T 17625.9-2016電磁兼容 限值 低壓電氣設施上的信號傳輸 發射電平、頻段和電磁騷擾 電平 2 YD/T 3982-2021數據中心液冷系統冷卻液體技術要求和測試方法 3 T/CESA 1249.1-2023服務器及存儲設備用液冷裝置技術規范