1、云 邊 服 務 器 : 推 進 邊 緣 計 算 基 礎 設云 邊 服 務 器 : 推 進 邊 緣 計 算 基 礎 設施 標 準 化施 標 準 化( ( 技 術技 術 白 皮 書白 皮 書 ) )開放數據中心標準推進委員會 2019-12 發布 - 1 - 目目 錄錄 1. 背景背景 . 1 2. 云邊服務器系統構架設計綜述云邊服務器系統構架設計綜述 . 3 3. 主板和系統板的標準化設計主板和系統板的標準化設計. 7 3.1. 主板標準化設計 . 7 3.2. 面板接口排布 . 9 3.3. 系統板卡 . 9 4. 靈活的電源配置靈活的電源配置 . 10 5. 多散熱方案并存可選多散熱方案并存
2、可選 . 11 6. 模塊化結構設計模塊化結構設計 . 14 7. 三防優化設計三防優化設計 . 16 8. 高速信號設計在邊緣計算系統中的分析高速信號設計在邊緣計算系統中的分析和建議和建議 . 18 8.1. 高速信號完整性在邊緣環境全風冷散熱設計中的挑戰和建議 . 18 8.2. 高速信號完整性在邊緣環境全風冷散熱三防漆涂覆設計中的挑戰和建議19 8.3. 高速信號完整性在邊緣環境浸入式液冷中的挑戰和建議 . 20 9. 云邊服務器分布式管理設計的關鍵技術云邊服務器分布式管理設計的關鍵技術 . 23 9.1. 遠程管理接口可擴展設計關鍵技術 . 24 9.2. 高可靠性管理設計關鍵技術 .
3、 25 10. 編制歷史編制歷史 . 27 - 2 - - 3 - 前 言 基于英特爾至強可擴展處理器和 AI 高性能加速處理器, 解決戶內、戶外嚴苛邊緣環境挑戰的云邊服務器創新系統構架,助力云IAAS、 PAAS 和 SAAS 服務延伸到邊緣, 引領混合云基礎設施構架變革,推進邊緣計算基礎設施標準化,加速“云-邊-端”整體方案的商業部署,滿足數據井噴時代的多樣新型業務需求。 白皮書編寫工作組單位:百度、英特爾、富士康、中國信息通信研究院、浪潮、中國電信等 1 1. 背景背景 隨著物聯網、虛擬現實和5G移動網絡等的發展,網絡數據和帶寬也迎來了爆炸性的增長。據統計:每天個人日常生活產生數據150
4、GB,無人機作業產生18TB,智能汽車產生數據4TB,增強現實和虛擬現實(AR/VR) 沉浸式游戲每分鐘產生3TB數據。5G移動通信的到來更進一步刺激了視頻類富媒體流量的發展。移動視頻流量每年增長45%,到2023年占總體移動數據流量的73%。全球互聯網數據逐年提升,2020年將達到40ZB。 如果將海量的數據流量直接傳回數據中心處理, 將對現有通信運營商的網絡架構以及互聯網廠商提供的計算、儲存、智能分析等相關服務造成巨大挑戰。同時,新興業務應用不斷涌現,其中具有代表性的包括:智慧交通、無人零售、智慧醫院、智能家居、智能工廠、智能電網以及自動駕駛等。這些新興業務對于低時遲、 大帶寬、 多連接以
5、及高穩定安全的應用運行環境有嚴格的要求。 傳統的 “云-端” 架構服務模式面臨變革。邊緣計算作為一種新型計算模型,在靠近用戶或數據源的位置提供網絡、計算、存儲等服務,驅動計算和網絡架構從“端-云”演進到“端-邊-云”。邊緣計算是指數據或任務能夠在靠近數據源頭的網絡邊緣側進行計算和執行計算的一種新型服務模型,允許在網絡邊緣存儲和處理數據,和云計算協作,在數據源端提供智能服務。網絡邊緣側可以理解為從數據源到云計算中心之間的任意功能實體,這些實體搭載著融合網絡、計算、存儲、應用核心能力的邊緣計算平臺。邊緣計算不僅能夠實現流量的本地化處理、 降低對遠端數 2 據中心的流量沖擊,而且能夠提供低時延和高穩
6、定的應用運行環境,有利于計算框架在終端和數據中心間的延展,有助于實現場景需求、算力分布和部署成本的最佳匹配。 邊緣計算在從學術理論到工程開發、商業部署的發展過程中, 逐漸形成以互聯網云服務企業、通信運營商以及設備商、工業互聯網企業為代表的三大陣營?;ヂ摼W企業以消費物聯網為主要陣地,將公有云服務能力延伸到網絡邊緣側,用于滿足低延遲、大帶寬、多連接的新型業務需求;通信運營商以及設備商以邊緣計算為突破口, 發力于網絡架構和連接設備設計變革, 構建靈活開放的網絡能力,為萬物互聯、 數據互聯提供技術支撐;工業互聯網企業發掘自身工業網絡連接及其平臺服務領域的優勢,在網絡邊緣側加強算力、儲存、安全管理體系建
7、設實現IT技術與OT技術的深度融合。 目前, 三大陣營步入了邊緣計算商業開發的早期階段,取得了一些具體業務運用初期試點成果。但是,推動邊緣計算的大規模商業部署、 打造健康穩定的邊緣計算產業生態仍然面臨不少問題和挑戰。 云邊服務器,作為“端-邊-云”新型計算架構的重要基礎設施之一,具備數據中心服務器性能以及豐富的有線和無線通信能力、基于云原生軟件構架,可穩定工作于嚴苛的邊緣環境,承載靠近數據源端的本地高性能智能服務,實現云邊無縫協同。云邊服務器將推動混合云基礎設施變革, 其構架設計成為邊緣計算基礎設施規?;逃貌渴鸬年P鍵挑戰之一。 云邊服務器商用構架設計目前處于早期階段, 邊緣計算大規模商用開發
8、部署需要業界跨領域協作。 三大陣營廠商和云企業根據各自領域的運用需求探索定義、開發云邊服務器系統,推動邊緣基礎設施加速向前發展。 由于邊緣計算業務呈現 3 多樣化的特性, 使用一套商用邊緣計算系統架構滿足不同業務的需求成為難點和挑戰。 云邊服務器的發布對于業界邊緣計算基礎設施架構設計的規范化以及解決上述難點和挑戰提供全面參考和觸發創新思考, 并且致力于攜手開放數據中心標準推進委員會(ODCC)相關單位加速推動邊緣計算生態健康發展。 本白皮書內容來源于百度、英特爾、富士康等ODCC會員單位聯合開發、商用試點的云邊服務器(Cloud Edge Server)。區分于其他邊緣設備,云邊服務器構架設計
9、適用于在苛刻邊緣環境中需求高性能服務器的業務應用,比如: 戶外車路協同、 戶內新零售物流調度等應用。 云邊服務器采用創新的三防設計 (防水、防塵、防雷擊)和散熱技術、重構了數據中心服務器架構,能夠安全地工作在溫度易于波動的高低溫環境。 同時通過基于模塊化設計實現的靈活搭配組合,實現一套系統構架滿足多種邊緣計算業務需求。 白皮書對云邊服務器架構設計進行詳細介紹、突出設計難點和創新點,內容組織如下:系統構架設計綜述、主板和系統板的標準化設計、靈活的電源配置、多散熱方案并存可選、模塊化結構設計、三防優化設計、高速信號設計在邊緣計算系統中的分析與建議、 云邊服務器分布式管理設計的關鍵技術。 2. 云邊
10、服務器系統構架設計綜述云邊服務器系統構架設計綜述 云邊服務器主要應用于邊緣計算節點,它既是云服務向邊緣側的延伸,同時也給前端應用作數據計算及存儲支撐,實現數據應用的本地化,是連接云服務和前端數據應用的關鍵節點。目前,云邊服務器典型的業務場景包括:智慧家庭、智慧城市、車路協同、新零售、電信移動邊緣計算(MEC,Multi-access Edge 4 Computing)等。如表 2-1 所示為對應各業務的架構需求總結。云邊服務器的主體架構從實際應用和業務出發,定義具體系統軟硬件架構,體現了業務定義架構的設計思路。 表格 2-1 云邊服務器業務需求 業務場景 業務需求 部署場地 智慧城市 低延遲;
11、空間有限 戶外 智慧醫院 可操作性和易維護;常規尺寸 室內 智慧家庭 中等性能;小尺寸 室內 智慧電網 中等性能;小尺寸;無線、有線網絡訪問 室內 智能工廠 中等性能;大儲存 室內 車路協同 高性能;人工智能推理能力;低延遲;豐富的無線、有線網絡接口 戶外 電信 MEC 高性能;IDC/電信設備機柜;網絡轉發能力,網絡云化 室內 新零售 中等性能;無線網絡 室內 根據各業務場景需求, 云邊服務器的系統架構和功能主要分為室內和戶外兩大類別。室內和戶外不同的環境條件(如溫度、濕度、腐蝕度等)使得室內和戶外設計有著不同的設計考量。因此,云邊服務器架構需要采用標準模塊化設計以便于不同定制化設計之間模塊
12、的復用, 從而使得云邊服務器系統架構能夠滿足室內、戶外不同應用場景的需求。 5 室內系統架構設計: 需要適應標準機架式服務器架構,可以被部署在標準機架中,滿足電信 MEC、新零售、工業互聯網等針對不同業務、應用場景的設計規范與設計需求。 戶外系統架構設計:主要針對車路協同、智慧城市等戶外系統業務需求。需要提供較強的算力、針對人工智能(AI,Artificial Intelligence)等算法的硬件加速,以滿足人工智能等高性能運算需求。同時,需要提供豐富的外設接口以滿足各類外接設備的接入。另外,由于戶外環境的多樣性,戶外系統需要智能的機構和散熱解決方案應對嚴苛的環境。 表格 2-2 云邊服務器
13、配置設計典型需求 設備 室內 戶外 CPU 單路至強服務器處理器 內存 支持 6 通道 DDR4 內存 PCIe 擴展 支持 5 個標準 PCIe 插槽 網絡 支持千兆及以上網絡 支持千兆及以上網絡 支持 802.11ac 無線網絡 支持 4/5G 和 GPS 網絡 支持其他短距離傳輸無線網絡 支持 POE 網絡 存儲 支持 6 盤位及以上存儲設備 支持 2 盤位及以上存儲設備 支持 2 個高速存儲設備 支持 2 個高速存儲設備 6 成熟的云邊服務器系統架構要求在同一套系統架構的框架下,通過靈活的配置滿足室內或戶外環境下不同業務類型的需求。如圖 2-1 和 2-2 所示,云邊服務器系統采用標準
14、模塊化設計、靈活的機構組合、優化的電源及散熱解決方案和多樣的板卡配置,可以通過不同組合、配置適配室內和戶外不同應用。云邊服務器系統架構最大程度上實現模塊的重復利用,降低開發周期和經費投入,從而減少系統整體部署成本。 圖 2-1 云邊服務器室內典型系統 7 圖 2-2 云邊服務器戶外典型系統 3. 主板和系統板的標準化設計主板和系統板的標準化設計 3.1. 主板標準化設計主板標準化設計 如表 2-1 所列業務需求, 作為邊緣計算節點, 云邊服務器需要支撐大量的本地計算和存儲需求, 因此云邊服務器采取了單路英特爾至強可擴展處理器平臺解決方案。創新性的在 uATX 標準主板規格(9.6” x 9.6
15、”)上實現了平臺部署以及 6 通道 DDR4 內存設計,可以全面兼顧標準化、高性能和高密度設計需求,能有效釋放英特爾至強可擴展處理器的計算能力。 8 另外,云邊服務器主板也創新設計兼容英特爾至強 W-3200 系列平臺。采用 W-3200 系列處理器可以在至強可擴展處理器基礎上擴展更多 PCIe 通道, 便于實現更多網絡以及存儲設備的資源接入。 云邊服務器為擴展更多的網絡端口和存儲設備,設計并提供了多種標準高速設備接入接口, 包括高達 5 個標準 PCIe 插槽 (須搭配系統板卡) 、 3 個 Slimline連接器、2 個 M.2 SATA 和 6 個 SATA 接口等。此外,云邊服務器也提
16、供了豐富的人機交互接口和管理功能, 包括 VGA 接口、 USB 接口、 RS485 接口、 RS232接口等。 管理單元采用了主流 ASPEED BMC (Board Management Controller,基板管理控制器)芯片。 圖 3-1 主板布局 9 3.2. 面板接口排布面板接口排布 云邊服務器面板接口排布如圖 3-2 所示。符合典型的電信、云服務、以及工業互聯網廠商對于接口排布要求。 圖 3-2 接口布局 3.3. 系統板卡系統板卡 在云邊服務器設計中,系統板卡可以擴展主板設計各接口的用途。使系統設計能夠更加靈活的進行配置。 在云邊服務器中, 系統板卡涉及 PCIe 擴展卡、
17、PCIe轉接卡、高速背板、電源轉接板卡等多種類型,極大地豐富了系統的可擴展性和配置的靈活性。 云邊服務器通過系統板卡的靈活配置和使用,可以在系統中實現多種高速接口配置,適應不同業務需求和應用場景。通過系統板卡,云邊服務器整體系統可以實現高達 5 個標準 PCIe 插槽,2 個 M.2 SATA 硬盤接口、6 個 2.5” SATA接口和 2 個高速 U.2 NVMe 硬盤接口以及 10 到 12 盤的云邊服務器儲存運用。 10 4. 靈活的電源配置靈活的電源配置 相對傳統云服務器室內環境,云邊服務器應用場景多變,特別需要適配不同的戶外和室內環境。對于室內場景,環境溫度等可控,云邊服務器在滿足溫
18、度空間散熱等可靠性要求的情況下,需要盡可能的提升性能;對于戶外場景(如車路協同、智慧城市等),溫度等環境相對惡劣、對系統的散熱要求苛刻,還有防水防塵的等特殊要求,而 CPU 性能功耗相對可以降低,從而降低對電源容量的要求。 云邊服務器需要靈活實現不同的電源配置來滿足不同的應用場景。對于室內應用, 支持 1+1 冗余大容量電源設計, 支持高功耗高性能 CPU; 對于戶外應用,云邊服務器需要實現對 ATX 標準三防電源的兼容使用,從而優化電源成本和可靠性。無論戶外或室內電源型號都滿足 80Plus 鉑金級效率指標。通過靈活的電源配置,使同一套云邊系統,能夠實現對室內和戶外等多種不同環境的支持,提高
19、云邊系統的使用率,降低應用成本。 圖 4-1 室內外電源模塊 11 5. 多散熱方案并存可選多散熱方案并存可選 云邊服務器絕大部分需要部署在戶外,這就需要嚴格的防水防塵防腐設計。同時,典型的苛刻運行環境溫度要求從零下 25C 到零上 55C。除了機構設計之外, 散熱設計也面臨極大的挑戰。本白皮書提出了四種不同的系統參考設計以應對嚴苛的環境設計要求。 全風冷散熱(Air-cooling):全風冷設計比較直觀,系統進風溫度就是戶外的空氣溫度,即零下 25C 至零上 55C 之間。 - 防塵:在外箱的左右兩側采用過濾網結構以達到防塵的效果。在散熱設計過程中,過濾網的阻抗值取標準揚塵測試之后的阻抗值以
20、考慮最壞的情況。 - 防腐:防腐一般可以通過三防漆實現,同時在過濾網設計中可以加裝過濾有害物質的成分。 - 防水/防濕:一般來說,水的來源有兩個方面:雨水和凝露。防雨可以通過本白皮書第 6 章的結構設計完全實現。接下來,需要著重解決的是防止凝露在機箱內部積聚。從物理角度解釋,凝露的產生有兩個必要條件:一是高濕度環境;二是溫差,即外箱內壁(接近于戶外環境溫度)和內箱系統出風之間的溫差。由于改變空氣濕度需要額外的干燥系統,本白皮書建議的方案主要考慮通過消除兩個方向的溫差,從而達到消除凝露的目的。一是冷熱通道分離,即內箱進風和出風口隔 12 離;二是在必要的時候采取點陣加熱方式加熱部分外箱內壁達到消
21、除溫差的目標。 浸沒式液冷(Immersion Cooling):浸沒式液冷屬于接觸式冷卻的一種方式。一般來說,浸沒式液冷有兩大關鍵要素:冷卻液和元件兼容性。從第一次被提出到現今的近 20 年間,浸沒式液冷在電子散熱行業一直沒有得到廣泛的接受應用,主要有幾大原因:一是缺乏殺手級應用場景。目前風冷和冷卻分配器(Cooling Distribution Unit,CDU)加冷板方案可以解決絕大部分的電子散熱問題,并不需要浸沒式液冷。嚴格的說,目前沒有任何應用場景是必須要浸沒式液冷才能解決的;二是冷卻液成本。因為目前的主要媒介是氟化液,而氟化液主要應用于半導體行業,所以成本一直居高不下;三是元件兼容
22、性。元件的兼容性測試與認證需要花費巨大的人力物力。由于浸沒式液冷的行業接受度不高,從芯片、內存、乃至電容電感等的元件供應商并沒有很大的動力去推動和完成測試認證。同時,成本和元件兼容性這兩大難題也可以歸結于產業鏈的極度不完整。 需要支持 IP65/67 規范的云邊服務器戶外運用,是浸沒式液冷運用實踐的最佳場景之一。 云邊服務器浸沒式液冷設計方案目前處于工程測試階段,具體的設計細節和測試數據,由百度、富士康和相關系統廠商牽頭,以單獨的白皮書進行發布。 主動制冷散熱(Refrigeration Cooling):主動制冷散熱設計屬于風冷設計范疇(詳見圖 5-1),但不同于以上所提及的風冷,因為此方案
23、可以達到完全密閉以滿足 IP65/67 的設計要求。在外箱增加壓縮機主動制 13 冷模塊,通過冷熱通道隔離實現系統進風溫度遠低于戶外環境溫度,使得云邊服務器可以在極限高溫環境中運行。同時,在低溫環境系統無法啟動時,可以對系統入口空氣進行加溫。直觀的講,搭載主動制冷散熱的云邊服務器就是一個只有一臺系統的迷你數據中心。 圖 5-1 主動制冷散熱設計 后窗冷板方案(Rear IO Heat Exchanger):此方案也比較直觀,主要技術點就是在內箱系統后窗加裝冷板, 冷板通過外部迷你 CDU 進行換熱 (詳見圖 5-2)。該方案與傳統的系統內部各主要元件加裝冷板方案相比較,最大的優點是易于維護。因
24、為系統內部還是風冷,所以維護時不需要拆裝內部冷板,大大提高了效率,同時大大簡化了冷板結構設計。該方案也可以實現系統完全封閉。 14 圖 5-2 后窗冷板方案模塊化結構設計 6. 模塊化結構設計模塊化結構設計 云邊服務器有著豐富的應用場景,比如:室內邊緣機房、室內新零售、戶外車路協同等。為了最大程度的滿足和覆蓋各種應用場景下的不同需求, 本白皮書建議通過采用模塊化設計以最大程度降低開發以及部署成本。 戶外與室內應用場景下有諸多不同需求:(1)室內與戶外的環境差異,比如戶外場景下,需要考慮防水、防塵、防輻射、安全等,而在室內邊緣機房場景則不需要考慮防水、防塵等額外需求;(2)尺寸方面需求,邊緣云室
25、內機房需要考慮到機架的規范尺寸,而戶外場景下,尺寸限制則比較不敏感;(3)具體服務器配置的微小差異。鑒于以上各因素,本白皮書建議在室內場景下(包括室內新零售場景)采用標準 2U 機架服務器尺寸規范(EIA-310-D)。然而,在戶外場景下,沿用室內機架服務器,但是需要額外增加外殼來實現防水、防塵、防輻射以及安全等需求。同時,容納戶外場景下所需的模塊,比如 WIFI、4G、電源等。 15 對于戶外和室內場景下內部配置的需求差異, 云邊服務器架構在設計上應當都能做到兼容,從而企業可按照具體配置需求在終端進行實際部署。 圖 6-1 戶內標準 2U 機架云邊服務器 圖 6-2 云邊服務器戶外配置 16
26、 7. 三防優化設計三防優化設計 云邊服務器在戶外應用場景中需要應對嚴酷的環境, 比如雨水、 凝露、 灰塵、太陽輻射和腐蝕。服務器在開發設計中要注意防水、防塵、防輻射和防腐蝕,同時也要兼顧產品性能與可靠性。在技術要求上,中短期目標是實現 IP55 標準,長期目標是實現 IP65/67 標準。 目前的技術: 防水、 防輻射和防腐蝕的技術實現難度不大, 一般可以滿足要求。 比如:防水一般采用魚鱗板、迷宮設計等;防輻射和防腐蝕采用防輻射油漆等。這里不做過多描述。 防塵方面, 初期可以采用一般的防塵網技術, 可以滿足絕大部分灰塵濃度較低 (空氣質量較好) 的地區。 但是, 在某些灰塵濃度較高的地區,可
27、能會因此增加服務器維護防塵網的頻率,進而增加成本。 中期可以考慮如下創新概念改善這個問題: 反向氣流(如圖 7-1 所示):改善現有設備,設備內部防塵網內側可以布置一些風扇。目的是定期規律性地關閉系統主風扇,開啟這些防塵網內側的風扇,產生反向氣流,清理掉累積的灰塵。通過這樣的設計在防塵方面,實現某種意義上的免維護。 17 圖 7-1 云邊服務器防塵設計-反向氣流 旋流預濾器(如圖 7-2 所示):改善現有設備,在設備進氣口外面增加一種旋流預濾器(市場上選購)。其目的是排除空氣中的灰塵, 尤其是顆粒較大容易堵塞防塵網的灰塵。其設備的工作原理為利用離心力將大顆?;覊m排出,而只保留潔凈空氣。此方法可
28、有效降低在防塵網的維護頻率。具體實現上,應采用空氣濃度傳感器控制旋流預濾器的開啟與關閉,用以節省電力。 圖 7-2 云邊服務器防塵設計-旋流預濾器 長期 IP65/67 要求下的技術發展: 18 IP65/67 要求較高,但是好處是設備要做到完全密閉,從而沒有水、灰塵等顧慮。設備可靠性和壽命也會因此大大提高,如下為實現的一些方法: 浸沒式液冷(Immersion Cooling), 詳見 5 散熱章節 主動制冷散熱設計(Refrigeration Cooling),詳見 5 散熱章節 8. 高高速信號設計在邊緣計算系統中的分析速信號設計在邊緣計算系統中的分析和建議和建議 眾所周知,隨著 PCI
29、e、 DDR 等高速信號速率以及服務器主板設計密度的不斷增加,高速信號完整性設計直接影響到高性能服務器性能。不同于部署在溫度、 濕度、 空氣質量可控環境中的傳統服務器, 云邊服務器的部署環境較為復雜。以本案為例:云邊服務器需要正常工作于零下 25C 到零上 55C,濕度范圍為5%到 95%的苛刻環境。部署環境中復雜變化的溫、濕度給云邊服務器主板設計中的高速信號完整性帶來新的挑戰。 8.1. 高速信號完整性在邊緣環境全風冷散熱設計中的挑戰和高速信號完整性在邊緣環境全風冷散熱設計中的挑戰和建議建議 溫度和濕度對插入損耗的影響 服務器主板 PCB(Printed Circuit Board 印刷線路
30、板)的插入損耗量測是建議在相對低溫干燥的環境中進行的。如:IPCTM-650 Method 2.5.5.12A 19 (23C 2C 73.4F 3.6F and 40%RH5%)。服務器系統實際運行在高溫高濕度等環境下將導致插入損耗的增加。最壞的情況如下: - 中級損耗 PCB 板材將增加 16%的額外插入損耗 - 低損耗 PCB 板材將增加 11%的額外插入損耗 - 超低損耗 PCB 板材將增加 8%的額外插入損耗 建議設計者在參考處理器服務器平臺設計規范中, 結合云邊服務器部署環境溫濕度變化范圍,重點分析高速信號從芯片端到芯片端(end-to-end)全通道的插入損耗是否仍在處理器平臺設
31、計規范范圍。 溫度和濕度對阻抗的影響 用來量測 PCB 信號走線阻抗的樣品分為低溫干燥和高溫高濕兩種,分析和實驗數據均顯示溫度和濕度對阻抗幾乎沒有明顯影響。 溫度和濕度對串擾的影響 在分析沒有發現溫度和濕度對串擾有明顯影響。實驗驗證數據,將在后續信號完整性專題的設計文檔中更新。 8.2. 高速信號完整性高速信號完整性在邊緣環境全風冷散熱在邊緣環境全風冷散熱三防漆涂覆三防漆涂覆設計設計中的挑戰和建議中的挑戰和建議 在邊緣環境全風冷散熱設計中,服務器的 PCB 主板表層常常會用三防漆做涂覆處理以避免或者減緩空氣對主板的化學腐蝕。 三防漆涂覆設計中的信號完整性挑戰包括: 20 對三防漆的要求: -
32、對三防漆材質介電常數(Dk Dielectric Constant)、耗散因子(Df Dissipation Factor)的要求:三防漆Dk、Df對 PCB 表層阻抗、插入損耗、串擾影響的仿真分析和測試驗證正在進行中,將在后續信號完整性專題的設計文檔中更新。 - 對三防漆涂覆厚度的要求: 三防漆涂覆厚度對 PCB 表層阻抗、 插入損耗、串擾影響的仿真分析和測試驗證正在進行中,將在后續信號完整性專題的設計文檔中更新。 對三防漆涂覆的服務器主板設計的建議: - 最大程度避免 PCB 表層走線。 - 在無法避免表層走線的情況下,通過仿真,分析三防漆對表層走線的阻抗和插入損耗的影響。建議和 PCB
33、板廠溝通對阻抗和插入損耗的制成要求,以滿足平臺設計指導要求。 - 對于涂覆三防漆的PCB表層走線, 應對其高速信號執行完整的板級、系統級信號完整性驗證。 8.3. 高速信號完整性在邊緣環境浸入式液冷中的挑戰和建議高速信號完整性在邊緣環境浸入式液冷中的挑戰和建議 為避免在傳統全風冷散熱設計中常見的空氣腐蝕, 同時實現云邊服務器運行在可控溫度、濕度環境中,浸入式液冷技術正在被考慮應用在的高端云邊服務器 21 部署環境中。其中,冷卻液體與 PCB、電子元器件的兼容性表現給高速信號完整性帶來新的挑戰。浸入式液冷環境下的信號完整性挑戰包括: 對浸入冷卻液體的要求: 冷卻液體的介電常數Dk須小于2.3以滿
34、足高速信號對處理器插座 (Socket) 和連接器的阻抗要求。 過高的Dk值會導致處理器插座和連接器的特征阻抗偏低,信號大部分能量會被反射回去,從而降低高速信號的信號完整性。 冷卻液體對 PCB 微帶線和帶狀線的影響 - 對微帶線插入損耗的影響: 損耗有小幅增加, 但總體對損耗影響不大。建議盡量減少高速信號的微帶線設計。參考處理器平臺設計規范,如高速信號全通道插入損耗接近規范的邊緣值, 建議做全通道的仿真分析。圖 8-1 為電路板的微帶線損耗量測。 - 對微帶線阻抗的影響: 對阻抗有 3-5%的影響。 考慮到原有 PCB 微帶線的 10%的制造誤差,可以建議對于將部署在浸入式液冷環境下的專用
35、PCB 上高風險的高速信號提高阻抗制造誤差要求,比如,從原有的 10%提高到 5%。 - 對微帶線串擾的影響:遠端串擾略微減少。近端串擾不變。串擾影響不影響信號完整性設計。 - 對帶狀線的影響: 損耗, 阻抗, 串擾都沒有明顯變化。 性能基本不變。 22 圖 8-1 PCB 浸入冷卻液體中信號線的損耗量測 冷卻液體對處理器插座、連接器和 電纜(Cable)的影響: 典型的處理器插座、連接器和電纜是基于空氣作為周圍介質而設計的。 當處理器插座、連接器和電纜浸入到冷卻液體里時, 其設計的目標阻抗很可能會發生變化。 當周圍介質空氣被某種液體取代時,建議建立新的模型用以信號完整性性能分析, 例如高頻結
36、構仿真軟件 (High Frequency Structure Simulator, HFSS)等三維電磁仿真軟件進行仔細計算分析。 - 處理器插座:研究表明,冷卻液體對于處理器插座阻抗能夠做到電感性和電容性阻抗不匹配平衡, 對處理器插座性能產生影響在可接受范圍內。然而,對未來處理器插座的信號完整性在冷卻液體中的影響仍需要仔細的仿真計算。 - 連接器:由于周邊的冷卻液體,連機器的阻抗會變得更加電容性,從而增加電容性阻抗不匹配,同時電感性不匹配變小?,F在大多高速連接器(8GHz) 的主要阻抗不匹配是電容性的,所以液冷會將這些 23 高速連接器的電容性不匹配放大,增加信號能量反射,信號完整性性能變
37、差。 對于多連接器設計的高速信號通道, 建議做全通道仿真分析。 - 電纜: 高速信號速率的增長使得高速電纜越來越多的應用于服務器以太網(Ethernet)、PCIe 等高速互聯。高速電纜的性能指標要求嚴格,微小的改變也可能會引起巨大的性能變化,存在潛在的風險,比如:液體包裹著電纜包皮改變其性能。因此建議電纜需要做長期電性能和可靠性驗證。 關于關注液體老化對高速信號完整性的建議 液體老化的潛在風險是液體材料性質發生變化將會影響到信號完整性性能,比如冷卻液體化學物質性質變化、外界環境污染、內部器件材料沖刷污染等??梢圆扇〉谋匾雷o措施包括: 部署浸入式液冷之前, 適當的器件清潔以及滲濾系統的使用。
38、被來自內部和外部污染的液體會引起電氣性能問題,從而導致信號完整性性能改變。建議維護人員定期檢測液體電氣特性參數, 以確保這些參數在規定的使用范圍內。 9. 云邊云邊服務器分布式管理設計服務器分布式管理設計的的關鍵技術關鍵技術 云邊服務器分布式管理構架面臨著兩大關鍵挑戰:遠程管理接口可擴展設計;高服務質量、高可用性以及高安全性設計。 24 9.1. 遠程管理接口可擴展設計關鍵技術遠程管理接口可擴展設計關鍵技術 Redfish 協議基于 Restful 的工業管理標準,已經有大量的實現和使用場景。其具有良好的擴展性和易于集成性,能夠很好地作為統一接口管理標準。在大量設備的管理中可以很好地組合和簡化
39、管控的協議,并通過少量接口連接下發到下一層的管理控制器中。 接口的統一性: 把業務往云邊分散的同時, 原本服務器和數據中心內的管理模式也同樣地被擴展到遠程管理中。在設計遠程管理接口中,要考慮如何充分運用和靈活管理數據中心、云邊端的資源,來達到云邊融合、云邊一體。把數據中心的管理接口和云邊服務器的管理接口統一, 一方面大大減少了重新設計的開發成本和時間成本。同時,從云邊融合的角度來講,統一的管理接口極大地減少了管理的復雜程度。 可擴展性:今天的云基礎設施已經做到非常細粒度的優化。 為了削減整體運維成本,有不同種類、定制化的機型和設備組件來支撐著日益增長的業務。與此同時,也帶來了多樣化資源管理的挑
40、戰。同樣,在云邊方向上同樣需要對于不同種類資源的管理進行支持。從架構方案上, 不僅僅要考慮當前已有設備的支持,而且也需要在擴展接口、 易于增加新的接口上做設計。 易于集成性:“云-邊-端”時代中,接口可讀性提升設計成為關鍵。不管是云和邊的業務接口、還是端設備管理,在不同的細分領域中使用相同的 25 協議標準將簡化系統管理集成的復雜程度。 系統管理集成使用比較多的是XML 和 JSON 格式,Restful 接口已經成為主流。 管理中的并發問題:在大量業務的驅使下,海量級的機器管理成為常態,需要整個體系能夠同時支持百臺千臺甚至更多設備的管理。 傳統的點對點協議很難支持大規模的管理, 基于 Red
41、fish 的管理構架設計可以有效提升網絡流量、遙測和管控中的成功率和容錯率。 9.2. 高可靠性高可靠性管理管理設計設計關鍵技術關鍵技術 云邊服務器包含多種帶有固件的設備,具體涉及 BIOS、BMC、微碼、網絡設備、存儲以及電源等。靈活有效地解決系統更新、固件漏洞修復和新功能激活等問題,是邊緣設備系統安全保障的關鍵。 固件的容錯:在系統正常運行中出現的異常和死機的原因,除了硬件的故障之外,固件出錯也占了較大的比例。在固件的容錯設計中,比較常見的是固件冗余機制:當其中一個固件出現了異常時,及時切換至備用固件,保障系統正常工作和始終在線。 固件的升級:對于固件的更新和補丁,絕大多數情況需要系統重啟
42、,進行固件激活。一般需要先停止業務服務,然后進行關機,并使用新的固件重新啟動機器; 然后, 再啟動操作系統 (Operation System, OS) ; 最后,重新恢復業務。 這中間一般要花費幾分鐘時間。對于服務的質量來說會產生比較明顯的影響。圖 9-1 描繪了固件升級后重啟對業務服務質量的影響。 26 圖 9-1 固件升級中的在線升級 在云邊場景下本白皮書建議要考慮固件升級的兩個方面,包括在線升級以及在線激活 在線升級: 離線升級對于業務影響也是非常大的。 雖然云邊一體的業務有著一定量的服務冗余能力,但還是可能會帶來一定程度上的服務質量的降低。通過在線升級可以減少固件升級過程對于業務的影
43、響,大大改善對服務質量的影響。此外,在傳統的數據中心中,運維可以直接接觸到機器,因此還有大量的情況可以通過運維人員在現場做人工的離線升級。但是在云邊場景下, 各個節點部署的非常分散。 因此, 本白皮書建議通過應用遠程在線升級的方案來進行固件升級,從而來降低運維成本和提升補丁修復的時效性。 在線激活: 除了在線升級之外, 還需要考慮到在升級之后的激活問題。 因為即使是在在線更新后, 絕大多數情況還是需要重啟來進行固件的激活的。 圖9-2 描述固件升級后的在線激活流程。在云邊服務器固件在線激活的過程 27 中:首先,固件模塊被觸發激活, OS 以及當前運行的業務暫停;然后,再次觸發固件的激活動作, 協同關聯的硬件暫停當前所有的操作, 保護當前的系統數據和上下文不被改變; 在固件激活后, 系統進行重載和恢復動作; 在系統恢復工作后, 進行服務和業務的恢復。 整個過程不需要重啟機器, 并且對于業務的影響是在激活的階段,因此對于整個過程的影響從數分鐘以上縮小到 1 分鐘級甚至秒級,大大地減少了對于服務的影響時間。 圖 9-2 固件升級后的在線激活流程 10. 編制歷史編制歷史 版本號 更新時間 主要內容或重大修改 V1.0 2019年12月 初稿發布