《H3C:2024年HDM技術白皮書(81頁).pdf》由會員分享,可在線閱讀,更多相關《H3C:2024年HDM技術白皮書(81頁).pdf(81頁珍藏版)》請在三個皮匠報告上搜索。
1、H3C HDM 技術白皮書 Copyright 2018-2024 新華三技術有限公司 版權所有,保留一切權利。非經本公司書面許可,任何單位和個人不得擅自摘抄、復制本文檔內容的部分或全部,并不得以任何形式傳播。除新華三技術有限公司的商標外,本手冊中出現的其它公司的商標、產品標識及商品名稱,由各自權利人擁有。本文檔中的信息可能變動,恕不另行通知。i 目 錄 1 概述 1 2 系統設計 2 3 產品功能 3 3.1 豐富的管理接口 3 3.1.1 Web 管理接口 3 3.1.2 IPMI 管理接口 3 3.1.3 SNMP 管理接口 4 3.1.4 Redfish 管理接口 4 3.1.5 HD
2、M 聯合管理 6 3.1.6 LCD 顯示屏 6 3.2 主機監控 9 3.2.1 系統健康狀態 9 3.2.2 傳感器 10 3.2.3 系統資源監控 12 3.3 故障告警 13 3.3.1 故障告警 13 3.3.2 SDS 簡介 14 3.3.3 SDS 故障診斷 15 3.3.4 故障上報 17 3.3.5 故障預告警 18 3.4 可維護性 18 3.4.1 操作日志 18 3.4.2 事件日志 19 3.4.3 串口重定向 21 3.4.4 傳感器信息上報 21 3.4.5 串口信息監控 22 3.4.6 一鍵收集 22 3.4.7 診斷面板 23 3.4.8 安全面板 24 3
3、.4.9 藍屏快照 24 3.4.10 錄像回放 25 3.4.11 告警策略 25 3.4.12 Remote XDP 26 ii 3.4.13 ACD 27 3.4.14 iHDT 27 3.4.15 服務 U 盤 28 3.4.16 HDM 任務狀態查詢 28 3.4.17 應急診斷 29 3.5 主機管理 29 3.5.1 FRU 及資產信息管理 29 3.5.2 系統啟動項 29 3.5.3 風扇管理 30 3.5.4 DCPMM 內存 32 3.5.5 網卡 33 3.5.6 FC HBA 卡 33 3.5.7 GPU 卡 34 3.5.8 硬分區 34 3.6 存儲管理 34 3
4、.6.1 存儲卡管理 34 3.6.2 邏輯盤管理 35 3.6.3 物理盤管理 36 3.6.4 存儲可維護 38 3.7 智能電源和能耗管理 39 3.7.1 設備上下電控制 39 3.7.2 功率封頂 40 3.7.3 電源工作模式 41 3.7.4 歷史功率統計 42 3.7.5 節能設置 42 3.7.6 AC 恢復配置 43 3.8 虛擬 KVM 和虛擬媒體 44 3.8.1 虛擬 KVM 44 3.8.2 H5 KVM 45 3.8.3 KVM 模式配置 45 3.8.4 虛擬媒體 46 3.8.5 KVM 截屏 47 3.8.6 KVM 錄像回放 48 3.9 VNC 會話 4
5、8 3.9.1 VNC 介紹 48 3.9.2 VNC 支持共享模式和獨占模式 49 iii 3.9.3 VNC 配置頁面 49 3.9.4 建立非安全 VNC 會話 49 3.9.5 VNC 密碼設置 50 3.10 HDM 網絡 51 3.10.1 邊帶管理及 NCSI 技術 51 3.10.2 網口模式 53 3.10.3 IPv6 55 3.10.4 NTP 及時間管理 56 3.10.5 DNS 57 3.10.6 遠程 Syslog 59 3.10.7 電子郵件告警 59 3.10.8 SNMP Trap 60 3.10.9 USB WIFI 61 3.10.10 LLDP 62
6、3.11 安全管理 63 3.11.1 用戶權限 63 3.11.2 本地用戶 64 3.11.3 LDAP 域用戶 65 3.11.4 AD 域用戶 66 3.11.5 密碼復雜度 67 3.11.6 服務管理 69 3.11.7 防火墻 69 3.11.8 SSL 證書管理 70 3.11.9 雙因素認證 70 3.11.10 可信硅根 73 3.11.11 硬件加密 73 3.12 固件管理 73 3.12.1 固件雙鏡像 74 3.12.2 固件升級 74 3.13 配置管理 75 3.13.1 配置文件導入導出 75 3.13.2 HDM 恢復默認配置 77 3.14 G3 和 G5
7、 服務器特性支持差異 77 1 1 概述概述 HDM(Hardware Device Management,硬件設備管理)是 H3C 自主研發的服務器遠程管理系統。HDM 兼容服務器業界管理標準 IPMI、SNMP、Redfish,支持鍵盤、鼠標和視頻的重定向,文本控制臺的重定向,串口重定向,遠程虛擬媒體,高可靠的硬件監控和管理功能。HDM 提供了豐富的特性支持,其主要特性有:豐富的管理接口 提供 IPMI/HTTPS/SNMP/Redfish 管理接口,滿足多種方式的系統集成需求。聯合管理 實現小規模服務器的統一管理,降低了中小企業服務器運維管理的成本。LCD 液晶顯示屏 部分機架服務器可選
8、配 3.5 英寸可觸摸 LCD 液晶顯示屏,方便了服務器的臨場巡檢或維護。故障監控和診斷 故障監控和診斷,通過精準定位與診斷,指導運維人員快速解決問題,保障設備 7*24 小時高可靠運行。故障日志可通過 SNMP Trap、SMTP、Redfish 事件訂閱、遠程 Syslog 多種途徑主動上報。截屏與錄像 通過截屏和錄像可以快速分析系統崩潰的原因。RAID 帶外管理 支持 RAID 的帶外監控和配置,提升了 RAID 配置效率和管理能力。智能電源管理 功率封頂技術幫助管理員輕松提高部署密度;動態節能技術幫助您有效降低運營成本。虛擬 KVM、VNC 和虛擬媒體 提供方便的遠程維護手段。支持 D
9、NS/LDAP/AD 支持域管理和目錄服務,能簡化服務器網絡管理和用戶管理。USB WiFi 模塊 支持外接小米隨身 WiFi 模塊,方便服務器的近場維護和管理。雙鏡像備份 提高系統的安全性,即使當前運行的軟件完全崩潰,也可以從備份鏡像啟動。服務 U 盤 支持服務 U 盤,可執行一鍵收集等操作,簡化了臨場運維管理。安全管理 從接入、賬號、傳輸、存儲四個維度保障服務器管理的安全。支持雙因素認證、黑白名單(防火墻)、接口服務管理、SSL、可信硅根、用戶自定義權限。2 2 系統設計系統設計 如圖 1 所示,HDM 硬件芯片采用服務器專用 SOC(System on Chip)芯片,有效管理服務器硬件
10、設備。SOC 芯片支持遠程 KVM 和 64M(G5 產品支持)本地 VGA 顯示,支持專用和共享網口,以及其它豐富的板級管理和外設接口。圖1 HDM 系統結構 HDM 的 KVM 模塊通過 VGA 接口接收來自主機系統的視頻信息,經過壓縮后再通過網絡將壓縮數據傳輸到遠程 KVM 客戶端進行解壓還原。此外 KVM 模塊接收遠程 KVM 客戶端的鍵盤鼠標數據,通過模擬的 USB 鍵盤鼠標設備將數據傳輸到主機系統,實現遠程的鍵盤鼠標控制。HDM 提供傳統的 LPC 系統接口與主機系統通信,支持標準的 IPMI 管理。HDM 對外提供專用的 GE 以太網絡接口,支持通過網絡使用 IPMI、Redfi
11、sh、SNMP 等接口進行遠程管理操作。HDM 通過傳感器實現了對服務器的溫度、電壓等狀態全面監控,并且提供對服務器的風扇和電源的智能管理。支持整機功耗動態管理,通過電源主備、功率封頂、節能配置等技術實現服務器功耗最優化。HDM 支持最新的邊帶網絡技術 NCSI(Network Controller Sideband Interface)以及 VLAN網絡功能,通過邊帶網絡可以支持更加靈活的管理組網。HDM 支持鍵盤、鼠標和視頻的重定向、文本控制臺的重定向、遠程虛擬媒體(可將終端的光驅、硬盤、文件夾映射到服務器)和基于 IPMI2.0 的硬件監控和管理功能。支持 HDM 軟件的雙鏡像備份和主備
12、切換。HDM 下掛 SD 卡(Nand flash),用于存放 iFIST 鏡像,并可用于記錄服務器的運行信息,包括配置信息、操作日志、事件日志等。3 HDM 提供了豐富的用戶接口,如基于 Web 界面的用戶接口、命令行、IPMI 接口、Redfish、SNMP 接口,并且所有用戶接口都采用了接入鑒別機制和高度安全的加密算法,保證接入和傳輸的安全性。HDM 對服務器進行了全面精細的監控,并且提供了豐富的告警和詳細的日志。如 CPU 的內核溫度、內存故障、硬盤故障、電壓、風扇轉速、電源故障等。同時還提供了 CPU、內存和硬盤信息的查詢。HDM 能夠在服務器宕機的時候自動保存宕機之前屏幕上輸出的最
13、后的信息,用于故障的定位。還支持即時的屏幕快照,第三方程序可以設置定時或周期性的進行屏幕截屏,不需要手工定時去查看服務器,為維護人員節省大量時間。HDM 各業務模塊采用高內聚、低耦合的架構設計,啟動響應迅速,能夠及時響應帶外管理接口的訪問,確保各類傳感器的正常運行,從而高效管理主機散熱,保障主機業務的穩定運行。HDM 從正常啟動至滿足常用網絡管理接口可訪問的典型時間參數如表 1 所示。表1 HDM 可訪問的典型時間參數 HDM 從啟動至 時間/s 網絡Ping通 74 s IPMI命令接口正常響應 90 s 可登錄Web訪問頁面 70 s Redfish接口正常響應 85 s 3 產品功能產品
14、功能 3.1 豐富的管理接口 3.1.1 Web 管理接口 HDM 提供了基于 HTTPS 的 Web 可視化管理接口。通過簡單的界面操作快速完成設置和查詢任務。通過遠程控制臺可以對服務器進行 OS 啟動全程監控,對服務器進行 OS 操作,對服務器進行光驅/軟驅映射等。支持通過 WebGUI 瀏覽快速響應,確保平均響應時間低于 1s??梢栽跒g覽器地址欄輸入 HDM 的網口 IP 地址(IPv4 或 IPv6)或域名地址打開 HDM Web 的登錄界面,輸入賬號登錄到 HDM Web。支持的瀏覽器有:Firefox78 及以上,Chrome 48 及以上。3.1.2 IPMI 管理接口 HDM
15、兼容 IPMI 1.5/IPMI 2.0 規范,DCMI(Data Center Mangeability Interface,支持數據中心管理接口),通過第三方工具(如:ipmitool)基于 LPC 通道或 LAN 通道實現對服務器的有效管理。LPC 通道:運行 KCS 協議,ipmitool 等工具必須運行在服務器本機的操作系統上。4 LAN 通道:運行 UDP/IP 協議,ipmitool 等工具可以遠程管理服務器。第三方工具支持 Windows 和 Linux 系統。以下以 ipmitool 工具詳細說明:ipmitool 命令格式:ipmitool interface parame
16、ter ipmitool 命令舉例:查詢 HDM 的傳感器列表 基于 KCS:ipmitool sensor list 基于 LAN:ipmitool-H*.*.*.*-I lanplus-U -P sensor list H:HDM 網口 IP 地址 I:傳輸協議,lan:不加密,lanplus:加密 U:HDM 本地用戶名 P:HDM 本地用戶密碼 L:會話權限,默認 Administrator。3.1.3 SNMP 管理接口 基于簡單網絡管理協議(以下簡稱 SNMP)是管理進程(NMS)和代理進程(Agent)之間的通信協議。它規定了在網絡環境中對設備進行監視和管理的標準化管理框架、通信
17、的公共語言、相應的安全和訪問控制機制。SNMP 具有以下技術優點:基于 TCP/IP 互聯網的標準協議,傳輸層協議一般采用 UDP。自動化網絡管理。網絡管理員可以利用 SNMP 平臺在網絡上的節點檢索信息、修改信息、發現故障、完成故障診斷、進行容量規劃和生成報告。屏蔽不同設備的物理差異,實現對不同廠商產品的自動化管理。SNMP 只提供最基本的功能集,使得管理任務與被管設備的物理特性和實際網絡類型相對獨立,從而實現對不同廠商設備的管理。簡單的請求應答方式和主動通告方式相結合,并有超時和重傳機制。報文種類少,報文格式簡單,方便解析,易于實現。SNMPv3 版本提供了認證和加密安全機制,以及基于用戶
18、的訪問控制功能,增強了安全性。HDM 提供了基于 SNMP 的編程接口,支持 SNMP Get/Set/Trap 操作,第三方管理軟件通過調用 SNMP 接口可以方便地對服務器集成管理。SNMP 代理支持 v1/v2c/v3 版本。SNMP 代理提供接口查詢系統健康狀態、系統健康事件、硬件信息、告警上報配置、功率統計數據、資產信息、散熱管理、固件版本信息、網絡管理等。3.1.4 Redfish 管理接口 Redfish 是一種基于 HTTPs 服務的管理標準,利用 RESTful 接口實現設備管理。每個 HTTPs 操作都以 UTF-8 編碼的 JSON 格式(JSON 是一種 key-val
19、ue 對的數據格式)提交或返回一個資源或結果,就像 Web 應用程序向瀏覽器返回 HTML 一樣。該技術具有降低開發復雜性,易于實施、易于使用而且提供了可擴展性優勢,為設計靈活性預留了空間。目前我們利用 Redfish 管理接口可以實現包括用戶管理、獲取服務器信息、管理模塊信息等常用 HDM 和 BIOS 配置。5 Redfish=REST API+軟件定義的服務器(數據模型),當前由標準組織 DMTF(www.dmtf.org)負責維護。Redfish 流程圖如圖 2 所示,客戶端發出 HTTP(s)請求,通過認證(Token、Basic)之后,從數據庫獲取數據并返回讀取結果,如圖 3 所示
20、。同時數據庫通過 SEL 和 IPMI 實時更新數據庫內容。圖2 Redfish 流程圖 6 圖3 Redfish 接口操作示例(查詢電源信息)3.1.5 HDM 聯合管理 HDM 聯合管理實現小規模服務器的統一管理,簡化了中小企業服務器運維管理。HDM 聯合管理主要提供如下功能,頁面信息如圖 4 所示:設備發現:支持 HDM 設備批量添加,最多支持添加 10 臺設備(不支持 IPv6 地址);設備刪除:支持單臺和批量設備刪除;狀態查詢:支持查看設備的基本狀態信息,包括產品名稱、產品序列號、健康狀態、電源狀態、UID 狀態等信息;電源管理:支持設備的電源操作,包括:開機、關機、重啟等操作;遠程
21、訪問:提供設備 HDM 和 H5 KVM 訪問的跳轉鏈接。圖4 聯合管理信息 3.1.6 LCD 顯示屏 H3C 部分機架服務器可選擇配置 3.5 英寸可觸摸 LCD 液晶顯示屏,以用于顯示或配置服務器相關信息。通過 LCD 顯示屏,提升了本地維護的簡便性,也加快了現場故障的定位和修復。LCD 液晶顯示屏主要提供了如下功能:信息頁面:顯示產品名稱、產品序列號、HDM/BIOS 固件版本號,如圖 5 所示;7 狀態頁面:查看服務器整體,以及處理器、內存、存儲、風扇、電源、溫度傳感器等部件的健康狀態和日志等信息,如圖 6 所示;監控頁面:實時顯示入風口溫度,及 CPU 溫度,如圖 7 所示;配置頁
22、面:支持配置 HDM 管理口網絡和恢復管理員賬戶等操作,如圖 8 所示。各部件通過不同顏色來顯示在位和健康狀態,顏色顯示規則和 Web 一致,如下:綠色:設備正常;黃色:設備出現輕微告警 橙色:設備出現嚴重告警;紅色:設備出現緊急告警;灰色:設備不在位。圖5 服務器基本信息顯示 8 圖6 服務器整體健康狀態顯示 圖7 監控頁面顯示 9 圖8 配置頁面顯示 3.2 主機監控 3.2.1 系統健康狀態 通過 HDM 可以獲取系統的整體和各部件的健康狀態,健康狀態可以通過 WEB、健康指示燈、LCD、診斷面板、安全面板等方式展示。在 Web 的【基本概況】頁面可以看到服務器整體健康狀態和告警匯總信息
23、,如圖 9、圖 10 所示。整體健康狀態由服務器相關部件健康狀態決定,關聯的部件有:處理器、內存、風扇、電源、存儲、PCIe 設備、溫感、主板、背板、轉接卡等。10 圖9 基本概況(G3 系列服務器)圖10 基本概況(G5 系列服務器)3.2.2 傳感器 1.3D 溫度海洋 3D 溫度海洋用于顯示服務器機箱中各組件溫度傳感器的分布圖及數值,同時提供了實際物理結構圖作為參考,如圖 11 所示。溫度海洋上的圓圈與表中可用的傳感器相對應,將鼠標移到溫度海洋上的圓圈上可查看傳感器名稱、狀態、溫度讀數和閾值。溫度海洋的顏色從綠色逐漸變為紅色,綠色表示溫度為 0C,紅色表示溫度較高。坐標含義如下:X:傳感
24、器在 X 軸上的坐標信息;Y:傳感器在 Y 軸上的坐標信息;Z:傳感器所屬的服務器信息。11 圖11 溫度傳感器信息查詢 2.傳感器歷史曲線 HDM 可以查看任意線性(溫度、電流、電壓、風扇轉速)傳感器的最近一周、一天的歷史曲線信息,包括顯示在某一時刻某一傳感器的最高、平均、最低的數據信息,如圖 12 所示。圖12 傳感器歷史曲線 12 3.2.3 系統資源監控 1.系統資源監控 HDM 可以查看監控帶內的 CPU、內存、磁盤的資源占用率資源,如圖 13 所示。當監控帶內的 CPU、內存、磁盤的占用率資源超過閾值時,系統會記錄事件日志。支持告警閾值設置,如圖 14 所示。使用本功能時需要在 O
25、S 側安裝并運行 FIST SMS(Server Management Service,該代理軟件運行在 OS 下)。圖13 系統資源監控 圖14 系統資源告警閾值設置 13 2.CUPS CUPS 將 CPU、Memory、IO 三者作為一個整體資源。通過動態負載率可判斷當前主機所運行業務類型比例,動態負載率高說明該業務為當前主機主要運行業務,如圖 15 所示。圖15 CUPS CPU CUPS 動態負載率:當前 CPU 核心數據的累計利用率,CPU 值較高說明當前主要運行了計算密集型業務。Memory CUPS 動態負載率:當前內存總線的累計傳輸率,Memory 值較高說明內存總線訪問頻率
26、高,跟使用的內存容量大小無直接關系。而 OS 下的內存使用率=已使用內存容量/內存總容量,如使用了 8GB 內存中的 2GB 內存,內存使用率為 25%。IO CUPS 動態負載率:當前 PCIe 總線的 IO 帶寬利用率,IO 值較高說明 PCIe 總線訪問頻率高,當前主要運行了 IO 密集型業務。3.3 故障告警 3.3.1 故障告警 當服務器部件發生故障,系統不正常工作、宕機或斷電時,HDM 能夠根據不同類型及不同模塊出現的故障產生告警信息,同時生成日志信息。服務器產品的告警可分四個級別,按告警嚴重性分為:正常(Info)事件提示級別用于表示對系統不會產生影響的事件,例如正常的狀態變化,
27、告警事件解除。輕微告警(Minor)輕微告警不會對系統產生大的影響,需要盡快采取相應的措施,防止故障升級。嚴重告警(Major)嚴重告警將會對系統產生較大的影響,有可能中斷部分系統的正常運行,導致業務中斷。14 緊急告警(Critical)緊急告警可能會使單板下電,系統中斷。需要馬上采取相應的措施進行處理。不依賴 OS,HDM 能夠檢測部分故障信息如下:處理器:能夠檢測 CPU 的 IERR、自檢錯誤、配置錯誤(包括 CPU UPI errors,IOH UPI errors,CPU core errors,IOH core errors 等)、MCERR 等故障;內存:能夠檢測內存的可糾正、
28、不可糾正錯誤、高溫、Post Training 失敗等故障;電源:包括電源在位、AC/DC 輸入丟失、電源預告警、PSU 自檢失敗等故障;風扇:能夠檢測到風扇的在位、故障、降級故障;存儲:能夠檢測到硬盤在位、故障、預故障、關鍵陣列、故障陣列等故障;超溫報警:包括對 CPU、內存、進風口、電源、硬盤等部件進行超溫報警;主板和相關板卡關鍵信息,如電壓、電流故障;總線:包括對 I2C、IPMB、QPI/UPI 總線故障檢測。3.3.2 SDS 簡介 HDM SDS(Smart Diagnose System,智能診斷系統),是一個全生命周期的設備智能診斷系統,能夠對服務器主要硬件發生的故障進行快速、
29、精準的檢測與診斷。如圖 16 所示,SDS 通過收集服務器硬件發生故障時的基礎數據,包括傳感器、CPLD、寄存器、事件日志等,基于歷史硬件故障診斷經驗庫,對硬件故障的發生原因進行分析定位,最終給出故障診斷結果報告。故障診斷結果報告的內容包括故障模塊、故障時間、故障類型、現象描述、可能原因、故障判據以及處理措施。圖16 智能診斷系統 SDS 支持對服務器主要硬件的全面監控,提供了精準可靠的故障檢測與診斷機制,可以檢測和診斷的硬件故障包括:MCA 故障(CPU、內存和 PCIe 故障)電源故障(電流、電壓、溫度、電源風扇、IIC、均流)主板故障(二次電源、風扇、網卡、電流、電壓、溫感)PCIe 卡
30、故障(網卡、RISER 卡、NCSI 通道)陣列卡故障(RAID 卡、線纜、擴展板、緩存、電池、硬盤)15 SDS 系統提供了一些輔助診斷功能,包括故障發生時的服務器系統截屏、HDM 串口日志、主機串口日志,IPMI 進程調試日志、HDM 重啟原因記錄等日志,通過這些故障診斷輔助功能,能夠更加清楚地知道故障發生時的現場情況。3.3.3 SDS 故障診斷 1.MCA 故障診斷(Intel)MCA(Machine Check Architecture,以下簡稱 MCA)故障診斷是 SDS 的重要組成部分,MCA 故障診斷支持 CPU、內存、PCIe 故障的檢測和診斷。SDS 采用輪詢檢測機制對 M
31、CA 故障進行監控和診斷,即 SDS 在輪詢過程中檢測到 CATERR/MSMI 信號后,能夠通過 PECI 通道進行帶外收集硬件故障現場的基礎數據,主要是錯誤相關的 Banks 寄存器和 CSRs 寄存器。結合收集的故障現場基礎數據,基于歷史硬件故障診斷經驗庫,對硬件故障進行分析定位給出診斷報告。如圖 17 所示,從總體上展現了 MCA 故障診斷的流程。圖17 MCA 故障診斷總體概覽圖 (1)CPU 故障檢測 CPU 故障來源有兩種,一種是 CPU 本身內部的故障,另一種是 CPU 外部部件(內存和 PCIe設備)故障引起的。MCA故障診斷能夠檢測CPU內部主要模塊的故障,包括:取指單元(
32、IFU),數據緩存單元(DCU),數據傳輸緩沖單元(DTLB)等。MCA 故障診斷能夠分析出故障類型,在多個疑似故障源中進行綜合分析,篩選定位到具體故障部件。常見的 CPU 故障類型有:緩存不可糾正故障,包括數據讀取錯誤、數據寫入錯誤、數據預取錯誤 看門狗超時故障,3-strike timeout UPI 不可糾正故障 CPU 內部電源控制模塊故障 CPU 訪存超時(2)內存故障檢測 16 內存故障總體上可劃分為可糾正內存故障和不可糾正內存故障。服務器系統一旦發生內存不可糾正故障將會對客戶業務的運行造成嚴重影響。MCA 故障診斷專注于內存不可糾正故障的檢測與診斷,可以對收集故障記錄模塊記錄的內
33、存故障地址進行解析,在服務器系統搭載的大量內存條中識別出故障的內存條,精準定位到具體的 CPU-Channel-DIMM。常見的內存不可糾正故障類型有:訪存地址/命令錯誤 內存讀取/寫入錯誤 內存緩存控制錯誤 內存超時錯誤(3)PCIe 故障檢測 MCA 故障診斷能夠對收集故障記錄模塊記錄的 PCIe 故障地址進行解析,在服務器系統諸多的 PCIe 設備中識別出故障的 PCIe 設備,精準定位到具體的 CPU-Slot。常見的 PCIe 故障類型有:Received an Unsupported Request 故障 Malformed TLP 故障 Completer Abort 故障 Co
34、mpletion Timeout 故障 Poisoned TLP 故障 ACS Violation 故障 Flow Control Protocol Error 故障 Data Link Protocol Error 故障 Surprise Down Error 故障 2.MCA 故障診斷(AMD)HDM 接受 BIOS 傳輸的相關 AMD MCA 數據,并進行解析,能夠解析如下信息:(1)CPU 故障檢測 檢測到 CPU 的不可糾正、可糾正錯誤,并可精確到 SOCKET;檢測到 SMN 錯誤信息(SMN 寄存器記錄的是一些會觸發系統冷重啟的錯誤),錯誤能夠解析指向具體 Socket。(2)內
35、存故障檢測 檢測到 ECC 內存錯誤能夠精確到 Dimm,非 ECC 內存錯誤能夠精確到 Channel;檢測到 Mem Trainning 和 Mem Test 錯誤信息,能夠精確錯誤到具體 Dimm。(3)PCIe 故障檢測 檢測到 PCIe 的可糾正不可糾正錯誤,解析錯誤指向到具體 Slot。3.電源故障診斷 電源是服務器工作的動力來源,電源故障的檢測和診斷是基本要求,SDS 采用中斷上報和輪詢檢測的機制對電源故障進行監控,能夠支持11類共計 24種電源故障,基本涵蓋了電源的主要故障類型,實現電源故障的全面監控和診斷。電源不在位故障;電源輸入電壓故障,包括輸入欠壓告警和保護,機房輸入掉電
36、或輸入電源線接觸不良;17 電源風扇故障;電源入風口溫度故障,溫度過高告警和保護,溫度過低告警和保護;電源輸出電壓故障,包括輸出電壓過低告警和保護,輸出電壓過高告警和保護;電源輸出電流故障,輸出電流過高告警和保護;電源 1Hz 閃爍,不供電故障;電源 IIC 通訊異常;電源 EEPROM 信息錯誤,包括 FRU 信息不正確和非我司認證電源;電源型號不匹配;電源負載不均衡。4.主板故障診斷 主板是連接服務器其他硬件的樞紐,SDS 針對服務器不同機型進行個性化故障檢測和診斷,最多能夠支持 70+種主板故障類型。二次電源故障,涵蓋了服務器各類二次電源模塊,包括 CPU 和板卡電源模塊等;風扇不在位故
37、障和 PWM轉速異常;溫度異常,包括整機、CPU 和各類板卡溫度異常;電壓和電流異常。5.PCIe 卡故障診斷 PCIe 卡是對服務器功能的擴展,SDS 主要針對網卡和 RISER 卡進行故障檢測和診斷,根據機型差異最多能夠支持 40+種 PCIe 卡故障類型。網卡故障,包括自研 mLOM 卡和 25G 自研 FLOM 卡的電源、溫感和在位異常;RISER 卡在位異常;NCSI 通道切換異常。6.陣列卡故障診斷 SDS 支持 PMC 和 LSI 陣列卡的故障檢測和診斷,通過分析陣列卡上報的事件日志,能夠支持 100種陣列卡故障類型。RAID 卡啟動異常;線纜異常;內存異常;電池異常;硬盤異常;
38、掉電保護模塊異常。3.3.4 故障上報 故障告警:HDM 支持實時監測硬件和系統的故障狀態,并主動上報故障事件日志,上報的通道包括 SNMP Trap、SMTP、Redfish 事件訂閱、遠程 Syslog 等方式。SDS 故障診斷:通過 HDM 的一鍵收集功能,可以查看 SDS 日志中的診斷報告,以獲取硬件故障的詳細信息。18 3.3.5 故障預告警 HDM 支持對 CPU、內存、硬盤、RAID 卡、網卡、電源等部件進行主動預警。CPU:支持對 CPU 的可糾正錯誤(Configuration error)、CPU 溫度、QPI/UPI 總線、DMA 等預故障進行告警。內存:支持對內存的可糾
39、正 ECC 錯誤進行預警功能。硬盤:支持對 HDD、SSD 盤的預故障、Media error、Prefail、壞道(僅 HDD 盤)等故障進行預告警;支持對 SSD、NVMe 盤的擦寫壽命進行預告警和監控。RAID 卡:檢測 RAID 卡 PCIe 鏈路上的總線可糾正錯誤,并提供預告警。支持對陣列卡上電池預故障(電壓低)進行告警。網卡:檢測網卡 PCIe 鏈路上的總線可糾正錯誤,并提供預告警。電源:支持對電源的預故障,負載不均衡,電源極限功率超過矯正時限等預故障進行告警。提供電源自檢失敗預告警功能。主板:監控主板上電壓、溫感等信息,提供相關預告警。3.4 可維護性 3.4.1 操作日志 操作
40、日志包含審計日志、固件更新日志、硬件更新日志和配置日志。審計日志:記錄訪問 HDM 的操作信息,用于日常運維安全審計;固件更新日志:記錄固件更新的操作信息及操作結果;硬件更新日志:記錄硬件更新的操作信息及操作結果;配置日志:記錄用戶的配置操作及操作結果。日志包含時間、主機名和詳細信息描述。日志等級包括:信息和告警。操作日志界面如圖 18 所示。19 圖18 操作日志界面 3.4.2 事件日志 事件日志用于記錄、查看服務器傳感器產生的各種事件。事件按嚴重性分成如下 4 個等級:正常:表示對系統不會產生影響的事件,例如正常的狀態變化,告警事件解除;輕微:表示對系統不會產生大的影響,需要盡快采取相應
41、的措施,防止故障升級;嚴重:表示對系統產生較大的影響,有可能中斷部分系統的正常運行,導致業務中斷;緊急:表示可能會使服務器下電,系統中斷。需要馬上采取相應的措施進行處理。在事件日志頁面可以通過傳感器名稱,事件等級,時間參數來快速篩選查詢到所需要的事件日志,如圖 19 所示。20 圖19 事件日志界面 1.事件碼 HDM 為每條事件日志標識了一個事件碼,通過事件碼可精確定位出設備的故障類型,并可方便查詢相關告警日志手冊,獲取更詳細信息。2.處理建議 HDM 的 Web 頁面為部分事件日志提供“處理建議”顯示,用戶可立即獲取相關故障的處理建議,加快了故障的快速定位和修復。圖20 處理建議 21 3
42、.4.3 串口重定向 HDM 提供系統 SOL(Serial Over LAN,串口重定向)功能,即將原本只能從本地串口線輸出的系統串口數據重定向到網絡設備輸出,并能接受遠程網絡設備的輸入。網管人員在遠程通過網絡終端就可以輕松的查看系統串口實時輸出數據,并能對系統進行操作干預,跟在近端使用系統串口效果一樣。1.串口切換到多種部件 HDM 的 SOL 功能可切換到多種部件,包括 SOL 到 BIOS/OS、智能網卡、RAID 扣卡,如圖 21 所示。圖21 SOL 串口切換 2.串口信息記錄 HDM 可以提供串口信息記錄功能,該功能將部件的實時串口數據記錄到內部存儲介質中。當部件發生故障時,可以
43、通過一鍵收集功能導出串口日志信息進行分析。3.4.4 傳感器信息上報 HDM 支持將傳感器信息(IPMI sdr elist 命令結果)定期發送到 Syslog 服務器,可配置 Syslog 服務器IP 地址、端口號、傳輸協議、定期發送間隔等參數。展示頁面如圖 22 的【傳感器信息設置】所示。22 圖22 Syslog 的傳感器和串口信息上報 3.4.5 串口信息監控 用戶可配置 BIOS/OS 串口日志直接發送到遠程 Syslog 服務器,以方便對主機串口信息的監控。相關配置信息可參考 3.4.4 圖 22 的【串口信息設置】。3.4.6 一鍵收集 一鍵收集日志(黑匣子)功能用于收集服務器的
44、日志信息、硬件信息、SDS 故障診斷等信息,如圖 23所示。也可以查看 CSV 格式日志,了解服務器運行狀態??梢蕴砑勇撓等诵畔?,用于日志解析問題咨詢,方便信息對接,提高運維工作效率。23 圖23 一鍵收集 3.4.7 診斷面板 診斷面板(G3 服務器支持)可以直接的顯示出服務器異常信息,如圖 24 所示,診斷面板能直接指示到具體故障設備,其故障顯示與 HDM 的事件日志記錄同步。圖24 診斷面板示意圖 面板功能介紹:顏色指示:橙燈/紅燈則表示對應組件有故障告警,綠燈表示組件狀態正常。故障數碼管:一般用于指示具體是哪個部件。24 支持設備:支持 POST/TEMP/CAP/BRD/CPU/DI
45、MM/HDD/PCIE/PSU/RAID/FAN/VRD 大類的故障。多種故障:若多個組件同時出現故障時,診斷面板以 4 秒為周期循環顯示全部故障。故障組件信息說明:POST:表示系統 POST 期間有錯誤發生,POST 異常中止。TEMP:表示對應組件溫度超過設定閾值。CAP:表示系統功率超出當設置的功率封頂限額。BRD:表示設備上對應的 SMC/PDB/Node/mLOM 出現故障。CPU:表示對應的 CPU 上出現錯誤告警。DIMM:表示對應的通道上內存條出現告警。HDD:表示對應背板上硬盤出現錯誤告警。PCIE:表示對應的槽位上 PCIe 卡出現錯誤告警。PSU:表示對應的哪個電源模塊
46、出現錯誤告警。RAID:表示相應的 RAID 卡插槽上 RAID 卡狀態提示。FAN:表示對應的風扇出現錯誤告警。VRD:表示對應的 SMC/PDB/CPU 等模塊出現電源錯誤告警。3.4.8 安全面板 H3C G5 服務器支持安全面板,如圖 25,為用戶帶來全新的視覺體驗。安全面板氛圍燈支持 3 種顏色(白色/橙色/紅色),可實現背景燈光效果與服務器健康或功率負載等狀態聯動。用戶根據指示燈即可獲取服務器相關狀態或故障信息。加快了服務器現場巡檢或故障定位。圖25 安全面板示意圖 3.4.9 藍屏快照 當服務器 Windows 操作系統發生故障重啟時,HDM 支持將最后一屏以指定的格式保存在 H
47、DM 的存儲空間內。用戶發現系統宕機后,可以通過網絡登錄 HDM 查看藍屏快照,進而對故障進行快速分析。HDM 最多可保存十張藍屏快照。該功能必須先開啟 KVM 服務才會生效。25 3.4.10 錄像回放 開啟服務器的錄像功能,當服務器操作系統發生崩潰、重啟或關機時,系統會自動錄制事件發生前的錄像并保存到內部存儲空間。技術人員可以通過錄制的視頻信息對操作系統崩潰、重啟或關機的原因進行分析。在 HDM 的錄像回放頁面,如圖 26 所示,用戶可以對已錄制的頁面進行播放、下載、刪除等操作。當前 HDM 支持記錄三個視頻文件。該功能必須先開啟 KVM 服務才會生效。圖26 錄像回放 3.4.11 告警
48、策略 1.NMI NMI 用于向 OS 觸發一個 NMI 中斷,以收集內核堆棧信息并輸出到控制臺,便于系統異常時定位。2.MCA 策略 MCA 策略是指當 HDM 檢測到不可糾正的 IERR 錯誤(包括 CPU 錯誤、內存錯誤和 PCIe 錯誤)時,主機是否需要重啟的策略。26 圖27 告警策略 3.4.12 Remote XDP 針對 Intel CPU,用戶無需購買 Intel專用調試器進入機房和服務器連接,遠程即可對CPU進行 JTAG調試,收集服務器的 CPU、內存、PCIe、USB 等部件的寄存器信息,以協助定位到底層硬件疑難問題。(僅 1、2 路的 Skylake、Cooperla
49、ke、IceLake 機型支持)。圖28 Remote XDP 原理 使用介紹:(1)開啟 HDM 的 RemoteXDP 服務。(2)在遠程 PC 上安裝 Intel 提供的 openIPC。(3)安裝 Python,下載 Intel 提供的 Cscripts。(4)打開 CMD 窗口,在 cscripts 目錄下執行如圖 29 所示命令即可完成調試環境的建立。27 圖29 Remote XDP 3.4.13 ACD 針對 Intel CPU 平臺,HDM 集成了 Intel 的 ACD(Autonomous Crash-Dump,自動崩潰轉儲)特性。如圖 30 所示,當發生 MCA 錯誤時
50、,ACD 功能通過 PECI 通道帶外收集 MCA 和 CPU 其它相關寄存器信息(包括 CPU、內存、PCIE 故障信息),將故障信息按照要求的 JSON 文件格式保存,可用CScripts 解析,增強了 Intel 平臺的 MCA 故障的定位手段。圖30 Intel 的 ACD 功能 HDM 支持通過 IPMI 接口主動觸發 ACD 功能。3.4.14 iHDT AMD 提供的 iHDT(Hardware Debug Tool,硬件調試工具)工具,可用于遠程對 AMD CPU 進行帶外 JTAG 調試,收集服務器的 CPU、內存、PCIe 等部件信息,其原理如圖 31 所示。G5 AMD
51、機型服務器支持 iHDT 功能,使用前需要首先在 HDM 上打開 iHDT 服務使能。28 圖31 iHDT 原理。3.4.15 服務 U 盤 無需登錄 HDM,用戶或運維人員通過服務 U 盤可直接運行相關功能,簡化了臨場運維管理。G5 服務器智能掛耳上 USB Type-C 口為一個直連 HDM 系統的接口,如圖 32 示。U 盤通過 typeC轉 USB 連接線連接,可實現服務 U 盤相關功能。HDM 檢測到插入 U 盤之后,根據 U 盤中的操作標識,可以執行一鍵收集操作。服務 U 盤制作:用戶可通過 Unitool 生成 U 盤中的操作標識,以制作服務 U 盤。圖32 G5 服務器 US
52、B Type-C 接口 3.4.16 HDM 任務狀態查詢 支持 Redfish 查詢 HDM 后臺任務狀態,可查詢到任務類型、簡短描述、狀態(未開始/處理中/處理完畢)、觸發條件(HDM 復位/系統熱復位/系統下電)、估計的執行時間等信息。支持的任務包括:固件升級,SDS 一鍵收集,MCA 收集,KVM 鏡像掛載,配置導入導出。29 3.4.17 應急診斷 當服務器因可更換硬件故障導致啟動進程掛死在 POST 階段時,可以通過本功能配置應急診斷功能,包括最小啟動和診斷隔離啟動功能,如圖 33 所示。最小啟動是指服務器僅啟用單 CPU、單核、單通道內存來啟動操作系統或 UEFI SHELL。在
53、最小啟動模式下,系統可以繼續運行,從而可進行其它診斷和維護操作。診斷隔離啟動是指當服務器啟動失敗時,對服務器的硬件部件進行診斷,診斷出故障部件后,隔離該部件并重新啟動。通過診斷隔離可以提高服務器整體 RAS 特性,降低系統的整體故障率,保障了系統的正常運行。圖33 應急診斷 3.5 主機管理 3.5.1 FRU 及資產信息管理 FRU 信息指整機或部件制造過程中寫入到部件存儲器件中的相關信息,包括:制造商,產品名稱,部件號,序列號等信息。資產信息管理的核心是采集部件的唯一編碼,HDM 支持采集服務器上相關部件的唯一編碼,包括自研板卡和外購部件。自研板卡從 FRU 中獲取部件信息,包括唯一編碼信
54、息。外購卡,HDM 從 BIOS 或其它帶外方法獲取相關信息。3.5.2 系統啟動項 系統啟動項用于配置服務器的下一次啟動模式和啟動設備,以及設置有效期,如圖 34 所示。30 圖34 系統啟動項設置 3.5.3 風扇管理 HDM 支持風扇線性調速和更為精確的 PID 調速兩種調速方法。1.MS 線性調速 MS 調速算法簡單,直接根據溫度以及 xml 配置文件來決定出風扇的轉速。圖 35 為示例的 xml 配置文件。31 圖35 xml 配置文件 2.PID 調速 PID 風扇調速通過調速參數配置 XML 文件中傳感器調速參數以及傳感器溫度,實時計算出風扇轉速。其優點是能夠更加精準的進行風扇轉
55、速控制。PID 算法如下:圖36為PID算法調速效果仿真圖。從中可以看到隨著DTS溫度的升高,風扇轉速也會相應的增加,溫度降低風扇轉速也會相應的降低。32 圖36 PID 算法調速效果 3.風扇模式配置 用戶可根據不同場景,設置相應的風扇模式,包括:靜音模式:風扇調速模式為靜音模式時,在確保服務器正常散熱的前提下,風扇以最低轉速運轉,此時噪音最小。該模式適用于對噪音要求比較高的場景。均衡模式:風扇調速模式為均衡模式時,風扇會加快轉速,此時的噪音和散熱能力介于靜音模式和強勁模式之間。該模式適用于對噪音和散熱能力有平衡要求的場景。強勁模式:風扇調速模式為強勁模式時,風扇以當前條件下的最高轉速運轉,
56、此時噪音最大,但風扇的散熱能力最強,能有效降低 CPU 等關鍵組件的溫度。該模式適用于對服務器散熱要求比較高的場景,如業務繁忙導致 CPU 等關鍵組件負載較大、工作環境溫度變化頻繁。自定義:設置風扇模式時,檔位(1-20)越高,風扇的轉速越高、散熱能力越強,噪聲也越大;檔位越低,風扇的轉速越低、噪聲越小、功耗越低。3.5.4 DCPMM 內存 DCPMM(Intel Optane DC Persistent Memory Module,英特爾數據中心永久內存模塊)內存是 Intel推出的一種新型的非易失內存設備。通過 BIOS 和 MCTP(over ME),HDM 可獲取 DCPMM 內存的
57、控制器固件版本、DCPMM 溫度、控制器溫度、剩余壽命、累計上電時間、內存容量、SSD 容量等信息,顯示示例如圖 37。33 圖37 DCPMM 內存信息 3.5.5 網卡 HDM 實現了對支持 NCSI over MCTP(over PCIe)的網卡以及 OCP 網卡的帶外管理,可獲取網卡的端口信息,包括 MAC 地址,接口類型,連接狀態,協商速率等信息,如圖 38 為示例。注:BIOS 在 Legacy 模式下,HDM 不支持獲取網卡 MAC 和固件版本號獲取。圖38 網卡信息 3.5.6 FC HBA 卡 通過 MCTP over PCIE,HDM 實現了對部分 FC HBA 卡的帶外管
58、理功能,包括可以實時獲取卡的 WWN號,溫度,健康狀態,Link 狀態,速率等信息。支持卡有:Lpe31002、Lpe31000、Lpe32002、Lpe32000。34 3.5.7 GPU 卡 HDM對GPU卡的帶外管理可以獲取內存總量,核數,額定頻率,產品名稱,廠家名稱,廠商ID,固件版本,內部 GPU 個數,對應內部 GPU 的溫感值等信息。當前支持 GPU 類型:NVIDIA、寒武紀、比思、燧原部分型號 GPU,不同型號 GPU 能獲取信息不相同。3.5.8 硬分區 H3C UniServer R8900G3 服務器支持物理硬分區功能,可將一臺 8 路服務器切換成 2 臺 4 路服務器
59、使用。兩個分區的業務在硬件上隔離,并可換裝不同的 CPU。各個分區擁有獨立的 BIOS,可搭配不同的操作系統。獨立資源&共享資源:獨立資源:上下 4P 服務器可擁有和管理各自獨立的 CPU、內存、硬盤、風扇、Riser 卡等資源,各硬分區的風扇都支持 N+1 冗余。擁有獨立的 HDM 管理系統,并能升級各自的 HDM 等固件。共享資源:服務器的電源、中置背板資源由兩個硬分區共享。3.6 存儲管理 3.6.1 存儲卡管理 HDM 可獲取存儲卡的數量,型號、廠商、固件版本、接口類型、接口速率、廠商序列號、緩存容量、模式、RAID 級別等信息。35 圖39 存儲卡信息獲取 3.6.2 邏輯盤管理 H
60、DM 支持對 LSI 卡(9300、9311、9400 除外)、PMC 卡(支持 MCTP over PCIe,P460、H460)存儲卡進行創建邏輯盤操作。RAID 帶外配置管理依賴 RAID 控制器 Firmware 的能力。支持修改 LSI 卡(9300、9311、9400 除外)下邏輯盤讀寫策略。36 圖40 邏輯盤管理 3.6.3 物理盤管理 HDM 可獲取物理盤的槽位號、廠商型號、固件版本、廠商序列號、狀態、容量、屬性(物理盤速率、接口類型和硬盤類型)、重構進度(LSI 卡支持)等信息。針對 LSI 卡(9300、9311、9400 除外)下的物理盤,可以配置物理盤的狀態,包括:U
61、nconfigured_Good,Unconfigured_Bad,JBOD 狀態。支持配置物理盤為熱備盤,包括全局熱備和專屬熱備(PMC 卡不支持)。硬盤定位點燈??刹榭床⑶袚Q硬盤定位燈的狀態,主要用于硬盤實際位置查找操作。37 圖41 物理盤管理(邏輯視圖)38 圖42 物理盤管理(物理視圖)3.6.4 存儲可維護 1.故障告警 能夠檢測到硬盤在位、故障、預故障、關鍵陣列、故障陣列故障。HDD 盤:支持對物理故障、預故障、配置錯誤、固件狀態異常、Media error、Prefail、UNC、壞道、硬盤 Miss 狀態監控和告警。SSD 盤:支持對物理故障、預故障、配置錯誤、固件狀態異常、
62、Media error、Prefail、UNC、硬盤 Miss 狀態監控和告警;支持對 SSD 盤擦寫壽命、剩余預留塊信息采集和告警。NVMe 盤:支持對 NVMe 盤擦寫壽命監控和告警??刂瓶ǎ褐С挚刂瓶ㄊ?、重構進度失效告警。BBU:支持對 BBU 故障、預故障(電壓低)、不在位進行告警。2.SDS 日志和診斷 通過 PBSI 通道,SDS 能夠獲取 PMC 卡相關日志信息,包括 60+種存儲相關故障。通過 MCTP(over I2C)通道,能夠獲取 LSI 卡相關日志信息,約 200+條關于 RAID 卡、BBU、物理盤、邏輯盤、背板相關故障信息日志。39 SDS 診斷:支持對 PMC/
63、LSI 的 RAID/HBA 卡的日志信息進行診斷,診斷出相應的錯誤原因,并給出了相關處理措施。支持的模塊有:RAID 卡、連接線纜、BBU、存儲介質。共計有 100 條故障判據。3.SMART 信息獲取&診斷 能獲取 SAS/SATA 的 HDD SSD 硬盤 SMART 信息,并實現了基于 SMART 信息的故障診斷功能。SMART 信息保存周期 30 天,采集周期 1 天 1 次。獲取接口:通過一鍵下載獲取。4.存儲卡串口日志 通過一鍵下載可以獲取 RAID 扣卡以及 LSI 卡(9300、9311、9400 除外)的串口日志信息。3.7 智能電源和能耗管理 3.7.1 設備上下電控制
64、HDM 的 Web 提供對服務器的電源控制方式如圖 43 所示。圖43 設備上下電 服務器電源控制方式包括:立即重啟、強制關機、正常關機、開機、關機并重新開機。立即重啟:表示對服務器進行冷復位,即:HDM 直接拉 PCH 使系統復位,繞過正常的操作系統關閉流程。強制關機:表示對服務器進行關機,無需等待 OS 響應,繞過正常的操作系統關閉流程,效果相當于長按服務器面板上的電源按鈕。40 正常關機:表示對服務器進行安全關機,HDM 向 OS 發送 ACPI 中斷,若 OS 支持 ACPI 服務,則先走正常的操作系統關閉(將所有運行進程關閉)后下電,否則,只能等到超過下電超時時間后,HDM 將系統強
65、制關機;效果相當于短按服務器面板上的電源按鈕。開機:表示對服務器進行上電。關機并重新開機:表示對服務器先強制關機再開機。3.7.2 功率封頂 現代數據中心一直面臨的一項挑戰是企業正在消耗大量的電源、空間和冷卻成本。而隨著能源需求以及能源和冷卻成本的大幅度上漲,日益增長的可用能源的容量預計在未來幾年里將跟不上需求的增長。對于當前的數據中心來說,最急需解決的問題就是通過技術創新實現節能降耗。在傳統的數據中心中,客戶為保證數據中心無間斷運行,往往要耗費巨資來建設一套額外的電力基礎設施。此外,IT 管理員通常會以過度能源供應,來確保電力供應。HDM 提供的功率封頂技術可以通過有效地對每一臺服務器能耗的
66、準確控制,避免了能源的過度供應,有效地將能源中過度供應的部分能源用于數據中心擴容。功率封頂功能通過設置系統的功率預期上限,當系統功率超過此上限值后,引導特定動作發生,從而保證機箱整體功率的合理分配。封頂失敗進一步動作包括:記錄事件:封頂失敗后在系統事件文件中記錄一條日志,默認執行。關機(可選):封頂失敗后,系統將執行強制下電操作。41 圖44 電源配置-功率配置 HDM 支持對 Intel 和 AMD CPU 的功率封頂功能。3.7.3 電源工作模式 在滿足業務功耗前提下,將部分電源設置為熱備用,提升電源功率轉換效率。如圖 45 所示,HDM可設置服務器電源的工作模式,包括主備模式和負載分擔模
67、式。主備模式:包括至少 1 個主電源,至少 1 個備用電源。當主電源發生故障,備用電源會自動切換為主電源,以保證電源的可靠性。當主電源實際功率超過主電源額定功率(主電源最大功率)的 62%時,備用電源將自動切換為主電源,變成負載均衡模式。負載均衡:所有在位電源均處于主電源模式,實現負載分擔。42 圖45 電源工作模式配置 3.7.4 歷史功率統計 HDM 可以提供準確的能耗監測并且能通過曲線提供統計,從而使管理員能夠通過能耗監測裝置深入了解實際電力及散熱資源的使用情況。用戶可以根據歷史數據對服務器節能進行優化。圖46 查看歷史功率 3.7.5 節能設置 一鍵設置電源性能模式,包括:性能模式、節
68、能模式、均衡模式,如圖 47 所示。滿足不同客戶或不同場景對服務器的性能、功耗、噪聲等不同需求。43 圖47 設置電源性能模式 通過調節 CPU 的最高工作頻率(P-state)和空閑工作時間(T-state)可以降低系統能耗,如圖 48所示。支持多種調節等級,操作靈活,滿足不同產品需求。圖48 設置節能 3.7.6 AC 恢復配置 AC 恢復配置用于配置服務器通電后系統的啟動策略,如圖 49 所示。包括:總是開啟:通電后,服務器系統會自動啟動;總是關閉:通電后,服務器系統保持關閉狀態;上一次電源狀態:通電后,服務器系統會恢復到上次斷電前的狀態。服務器缺省處于此模式。開機延遲:開機延遲時間???/p>
69、以配置:0,15s,30s,45s,60s,以及隨機(0120s)。開機延遲可以用于服務器的錯峰上電,降低機房開機過程中的瞬時功耗。44 圖49 AC 恢復配置 1.系統開機的最終指令由 HDM 控制 系統開機的最終指令都由 HDM 發出(該功能僅在部分機型實現)。AC 通電后主板 Standby 電源先供電,HDM 啟動,然后由 HDM 根據開機通電策略決定是否將系統開機。3.8 虛擬KVM和虛擬媒體 3.8.1 虛擬 KVM 虛擬 KVM 是指用戶在客戶端利用本地的視頻、鍵盤、鼠標對遠程的設備進行監視和控制,提供實時操作異地設備的管理方式。圖50 虛擬 KVM USBHDMIP netwo
70、rk終端編碼器DVI ReceiverVIDEOUSB顯示數據以太網數據USB數據 45 3.8.2 H5 KVM H5 KVM 相對于 KVM 優勢在于無需任何插件,通過瀏覽器 HTTPs 訪問即可實現對服務器的遠程管理。HDM 支持通過 IP 地址和賬號密碼來直接訪問 H5 KVM。輸入格式如下:http:/ip_addr/viewer.html?u=user_name&p=user_passord,示例如圖 51 所示。圖51 H5 KVM 的直接訪問的示例 3.8.3 KVM 模式配置 共享或獨占模式,如圖 52 所示。獨占模式:僅支持一個遠程控制臺會話,且擁有完全控制權限;共享模式:
71、支持多個(1 主 N 從)遠程控制臺會話,主用戶擁有完全控制權,從用戶只有只讀權限(只能查看遠程控制臺視頻、進行截屏和視頻錄制操作,但不能進行任何控制操作)。加密模式:僅 H5 KVM 支持。使用加密模式之后信息在客戶端和服務器加密傳輸,提高了數據傳輸的安全性。使用非加密模式的優點是數據傳輸速率較快,安裝 OS 時推薦。46 圖52 KVM 模式配置 3.8.4 虛擬媒體 虛擬媒體即通過網絡在服務器上以虛擬 USB 光盤驅動器和軟盤驅動器的形式提供對本地媒體(光盤驅動器、軟盤驅動器或光/軟盤的鏡像文件,硬盤文件夾)的遠程訪問方式;虛擬媒體數據支持AES 128 CBC 算法加密傳輸。虛擬媒體的
72、實現原理是將客戶所在的本地主機的媒體設備通過網絡虛擬為遠端服務器主機的媒體設備。支持的虛擬媒介有:DVD、CD 光驅 ISO、IMG 文件 虛擬文件夾:將本地的文件夾掛載到主機端。USB key 47 圖53 虛擬文件夾實現效果 3.8.5 KVM 截屏 在 KVM 界面可以開啟截屏功能,截屏圖像格式為 JPEG 格式,錄像文件保存在本地 PC(打開 KVM的 PC),如圖 54 所示。圖54 KVM 界面的截屏功能 48 3.8.6 KVM 錄像回放 在KVM界面可以開啟錄像功能,錄像格式為AVI格式,錄像文件保存在本地PC(打開KVM的PC)。如圖 55 所示。當用戶出于安全或者其他需要,
73、要將虛擬 KVM 操作過程記錄下來時,可以通過啟動屏幕錄像功能來實現。屏幕錄像功能啟動后,虛擬 KVM 控制臺會自動將屏幕上的所有顯示和操作都記錄到自定義視頻格式文件中。錄像文件在本地可以通過播放器來播放。圖55 KVM 界面的視頻錄制 3.9 VNC會話 3.9.1 VNC 介紹 VNC(Virtual Network Console,虛擬網絡控制臺)用于傳送服務端的原始圖像到客戶端,該協議提供一種不用登錄 HDM 即可訪問控制服務器的方法,即用本地主機的顯示器、輸入設備遠程控制服務器。VNC 系統由客戶端,服務端和 VNC 協議組成。VNC 服務端 VNCServer:在 HDM 端運行,
74、其作用是捕獲并共享服務器屏幕,并且與系統運行狀態無關。49 VNC 客戶端即 VNCViewer(PC 端本地應用程序):用于與服務器交互,遠程連接運行VNCServer 的計算機。第三方 VNC 客戶端有 RealVNC、TightVNC、NoVNC 等。HDM 支持 IPv4、IPv6 VNC 會話,為用戶提供更為靈活的 KVM 操作方式。3.9.2 VNC 支持共享模式和獨占模式 HDM 同時最多支持 2 個 VNC 會話,且支持兩種會話模式。共享模式:支持打開 2 個 VNC 會話,2 個 VNC 會話均有權限控制鼠標和鍵盤,可控制 OS;獨占模式:當獨占模式的會話連接時,如果存在共享
75、模式的會話,該會話將被強制斷開;獨占模式的會話存在時,下一個會話的連接請求將被拒絕。共享模式與獨占模式可由客戶端配置。3.9.3 VNC 配置頁面 VNC 在線會話使能默認關閉。配置頁面為:單擊安全/服務配置菜單項,進入服務配置頁面,如圖56 所示。圖56 服務配置 3.9.4 建立非安全 VNC 會話 1.在 HDM 上的操作 開啟 VNC 服務。2.在 VNC viewer 客戶端進行登錄操作 通過 VNC viewer 建立 VNC 會話;打開 VNC viewer,輸入 VNC 密碼打開 VNC 會話,如圖 57 所示。50 圖57 建立非安全 VNC 會話 3.查看會話 成功建立非安
76、全會話后,可以在安全/服務配置查看到會話類型為 VNC,IP 地址為客戶端 IP,且支持 IPv4 和 IPv6,如圖 58 所示。圖58 VNC 服務會話查看 3.9.5 VNC 密碼設置 支持 VNC 的密碼復雜度檢查設置,當啟用時密碼固定長度為 8 位,不啟用時密碼長度是 1-8 位,如圖 59 所示。51 圖59 VNC 密碼設置 3.10 HDM網絡 3.10.1 邊帶管理及 NCSI 技術 邊帶管理(共享網口)就是利用邊帶 NCSI(Network Controller Sideband Interface)技術使管理系統與主機系統共用主機物理網口,通過一個網口就可以同時做管理操作
77、和業務處理,簡化組網,節省交換機端口;從安全考慮,利用 VLAN 技術將管理與業務劃分在不同網段。NCSI 是基于物理總線 RMII 的帶外管理總線協議。普通的網絡管理總線是 MDC/MDIO 總線,這種管理總線需要額外的引腳作為物理總線,但是 NCSI 總線是與網絡通信總線 RMII 復用總線,在 RMII總線基礎之上定義一個 NCSI 協議,這樣就可以達到減少物理引腳的目的。NC(Network Controller:網絡控制器)在與對外通信上分為內部網絡接口:Internal Host Interface,外部網絡接口:External Network Interface,以及帶外接口:
78、Sideband Interface。其用途分別是:向外部網絡發送數據,與 HDM 進行網絡通信(包括 NCSI 協議)。HDM 通過 NCSI 協議進行網絡配置,網絡配置成功之后,HDM 就可以向 NC 發送正常的網絡報文。從鏈路上看,NCSI 報文與網絡通信報文在物理鏈路上共用一個物理總線:RMII,該 RMII 物理總線連接的另外一端是 HDM,那么這條總線在 NC 看來就是一個帶外接口(Sideband Interface)。52 圖60 邊帶管理框圖 從數據流程來看,HDM 通過 MAC 向物理總線 RMII 發送一個網絡報文,NC 通過 RMII 接收到網絡報文后,對網絡報文進行解
79、析。解析后,如果是 NCSI 報文(判斷的條件是:ether type 為 0 x88F8),則進行 NCSI 響應;如果是對外發送數據的網絡報文(ether type 為非 0 x88F8)則將數據轉發到External Interface。圖61 邊帶管理數據流圖 從協議層面上看,NCSI 協議是一個網絡層協議,其網絡類型碼為 0 x88F8。53 圖62 NCSI 協議 3.10.2 網口模式 HDM 可以配置的網口模式包括:正常模式、Bonding 模式、網口自適應模式。1.正常模式 用戶可通過共享網口或專用網口訪問 HDM,兩個口 IP 地址應分屬不同網段。圖63 網口模式配置 2.
80、Bonding 模式 使用 Bonding 功能可以提高 HDM 接入的可靠性。切換為 Bonding 后,系統會將 HDM 共享網絡接口和 HDM 專用網絡接口作為一個邏輯上的網絡接口使用。切換后,Bonding 接口將繼承 HDM 專用網絡接口的 IP 地址和 MAC 地址。HDM 共享網絡接口和 HDM 專用網絡接口中的任意一個接口 UP狀態,管理員仍然能通過 HDM Bonding 網絡接口的 IP 地址訪問 HDM。54 圖64 Bonding 切換前后概覽頁面的網絡配置 3.網口自適應模式 網口自適應模式指的是 HDM 管理流量優先選擇專用網口作為通信端口,即共享網口和專用網口處于
81、 Active/Standby 狀態,同一時間只有一種網口可以訪問 HDM,專用網口優先。當專用網口連接網線,無論共享網口是否連接網線,選擇專用網口作為通信端口。當共享網口連接網線,專用網口未連接網線時,選擇共享網口作為通信端口。網口自適應模式下,共享口和專用口和共用一套 IP 地址和 MAC 地址(專用口 MAC)。4.端口自適應 端口自適應模式指的是可以根據網卡端口的連接情況自動選擇共享網口,該特性具有以下優點,只要網卡有一個端口處于連接狀態,即可通過共享網口管理 HDM。sLOM、mLOM、FLOM、OCP 網卡、支持 NCSI 功能的 PCIe 網卡均支持此功能。共享網口切換指的是切換
82、HDM共享網口后,管理員只要重新接入切換后的共享網口即可訪問HDM,該特性具有以下優點:不用更改服務器在整網中的網絡信息,實現平滑切換。不需要重新配置切換后共享網口的網絡信息(包括 IP 地址、VLAN 等),提高維護效率。55 圖65 共享網口切換 注意:網口自適應模式和端口自適應模式不能同時開啟,否則可能會導致網絡故障。3.10.3 IPv6 HDM 全面支持 IPv6。專用網口和共享網口(NCSI)的物理通道均支持 IPv6 地址訪問,如圖 66 所示。圖66 HDM 支持 IPv6 地址功能 56 圖67 支持 IPv6 登錄 HDM Web 3.10.4 NTP 及時間管理 網絡時間
83、協議 NTP(Network Time Protocol)是 TCP/IP 協議族里的一個應用層協議,用于在一系列分布式時間服務器與客戶端之間同步時鐘。服務器的 HDM 支持配置服務器所在的時區,并通過手動或自動獲取首選和備用 NTP服務器(支持 IPv4和 IPv6),手動設置NTP服務器地址支持FQDN域名,如圖 68 所示。57 圖68 NTP 頁面 HDM 可以從多種時鐘源獲取時間信息,其時間同步的優先級如下:主NTP服務器 二級NTP服務器 DHCP Server兼任的NTP Server 主機ME(僅Intel產品)BMC上的 RTC。3.10.5 DNS DNS 是一種用于 TC
84、P/IP 應用程序的分布式數據庫,提供域名與 IP 地址之間的轉換服務。完整的域名由主機名和上級域名組合而成。HDM 中,主機名可以手動配置,也可以根據服務器的 SN 號自動生成;上級域名可以手動配置,也可以通過 DHCP 自動獲取。HDM 支持將共享網口和專用網口的 IP 地址與域名建立映射關系,并將該映射關系向網絡中的 IP DNS 服務器進行注冊。注冊方式分為 nsupdate 以及 FQDN主機名方式:nsupdate 方式為客戶端直接通過 nsupdate 命令更新 DNS 服務器的區文件;FQDN主機名方式為 DHCP 服務器在確認客戶端的網絡地址分配后,將客戶端的信息動態注冊到
85、DNS 服務器。用戶可以將所有被管理服務器加入一個統一的管理域并使用便于記憶的域名來訪問被管服務器的HDM。58 圖69 DNS 注冊流程 圖70 IPv6 DNS 解析 圖71 通過域名訪問 HDM 域名服務配置設置主機名(如hdm)域名配置設置上級域名(如)完整域名如注冊HDM明確IPv6地址對應的接口(共享網口或專用網口)域名服務器配置向域名服務器注冊IPv6地址和完整域名的映射關系 59 3.10.6 遠程 Syslog HDM 支持遠程 Syslog 服務器獲取操作日志和事件日志??膳渲眠h程 Syslog 服務器的端口號,傳輸協議、日志類型、主機標識參數,如圖 72 所示。傳輸協議支
86、持配置:UDP、TCP、TLS 加密傳輸。其中 TLS 加密傳輸支持單向和雙向認證,如圖72 所示。圖72 遠程 Syslog 服務器配置 圖73 Syslog 配置 3.10.7 電子郵件告警 HDM 可設置將服務器產生的事件日志通過“電子郵件警報”發送給指定用戶,幫助用戶監控服務器的運行狀態。SMTP 服務器地址支持 IPv4 和 IPv6 地址。支持匿名/認證用戶發送,告警信息最多支持發送給 16 個用戶用于服務器監控。支持所有告警事件按嚴重等級上報,并支持嚴重等級設置,包括:“所有級別”,“緊急”,“輕微+嚴重+緊急”,如圖 74 所示。60 圖74 SMTP 配置 3.10.8 SN
87、MP Trap HDM 可設置將服務器產生的事件日志通過 SNMP Trap 發送給指定用戶,幫助用戶監控服務器的運行狀態。HDM 支持 SNMP Trap 服務器配置,可配置按嚴重性級別上報,包括:“所有級別”,“緊急”,“輕微+嚴重+緊急”。支持配置模塊 OID 模式和事件 OID 模式兩種模式上報,如圖 75所示。模塊 OID 模式:一個模塊(以傳感器類型劃分)的告警對應同一個 OID,用戶通過 OID 可確定出現問題的模塊。事件 OID 模式:是在模塊 OID 模式的基礎上做了精細化處理,將每個模塊下的每一種事件告警各自對應一個 OID,用戶僅利用告警 OID 就可以確定模塊的故障類型
88、。圖75 SNMP Trap 配置信息 61 圖76 SNMP Trap 配置 3.10.9 USB WIFI 通過 G5 服務器智能掛耳上 USB Type-C 接口,HDM 支持外接第三方 USB WIFI 模塊,為 HDM 提供了無線熱點功能。通過無線 WIFI,用戶可使用手機或便攜機直接登錄 HDM,并配合使用 HDM移動端 APP(HDM Mobile)或其它工具進行運維和巡檢操作。注:當前僅支持小米隨身 WIFI,且需要通過 typeC 轉 USB 連接線進行連接;為提高安全性,僅允許同時接入 2 個客戶端;無線名稱:默認是產品名稱+產品序列號后 10 位;無線密碼:默認不加密,以
89、實現即插即用。通過 HDM 可配置無線的參數包括:無線使能、無線名稱、加密方式和密碼、定時關閉時間、無線管理口 IP 地址,DHCP-server 地址池等參數,配置頁面如圖 77 示。62 圖77 USB WIFI 配置 通過無線接口,HDM 支持網絡協議有:WEB、Redfish、IPMI、SSH、Telnet。3.10.10 LLDP LLDP(Link Layer Discovery Protocol,鏈路層發現協議)提供了一種標準的鏈路層發現方式,使不同廠商的設備能夠在網絡中相互發現并交互各自的系統及配置信息,網絡變化時,網管系統可以快速掌握二層網絡拓撲信息和拓撲變化信息。HDM 支
90、持 LLDP 協議,可以解析本地網絡中交換機的相關信息,如圖 78 所示。網絡接口:服務器接收 LLDP 信息的網絡接口;交換機 MAC 地址:上聯交換機端口的 MAC 地址;交換機系統名:上聯交換機系統名;連接端口號:上聯交換機端口號;端口信息:上聯交換機端口名;網口速率:網絡接口的速率。HDM 支持主動發送 LLDP 報文,以方便鄰居設備發現自身。63 圖78 LLDP 配置 3.11 安全管理 3.11.1 用戶權限 在用戶訪問配置頁面可以配置本地用戶和域用戶(包括 LDAP 和 AD 用戶),通過這些用戶可以訪問 HDM Web 界面。用戶所擁有的網絡訪問權限由屬于的角色組決定,HDM
91、 支持的角色組有:Administrator:管理員,對所有功能具有讀取和寫入權限;Operator:操作員,對所有功能具有讀取權限,對部分功能具有寫入權限,能執行日常的基礎操作;User:用戶,具有只讀訪問權限,無法修改 HDM 配置;CustomRole1CustomRole5:自定義權限組用戶,管理員可以配置用戶所擁有的權限。自定義權限配置如圖 79 所示。圖79 網絡權限 1.接口所屬權限模塊 HDM 將所有功能&接口(Redfish、IPMI)分屬不同的權限模塊,以提升接口的安全性。64 權限模塊包括:用戶配置,常規配置,遠程控制,遠程媒體,安全配置,電源控制,維護診斷,配置自身,查
92、詢模塊。不同權限模塊涉及主要功能如表 2 所示。表2 權限模塊描述 權限模塊名稱 權限模塊涉及功能簡述 用戶配置 包括:用戶管理,高級密碼配置,目錄管理,導入導出,聯合管理等 維護診斷 包括:硬盤點燈、CUPS、錄像截屏、固件管理(更新、重啟、主備切換)、恢復出廠配置,重新統計實時監控信息等功能 遠程控制 存儲管理、硬分區、系統資源監控設置、KVM(電源控制、鏡像掛載除外)、VNC密碼管理、系統啟動項、UID燈控制、SOL串口設置、MCA策略和安全面板設置等操作 遠程媒體 包括:虛擬媒體、KVM鏡像掛載 安全配置 包括:服務配置、防火墻、SSL證書、PFR固件保護、登錄安全性信息等 電源控制
93、包括:電源管理,風扇管理,NMI控制,物理電源按鈕控制 常規配置 包括:網絡配置(如:網口、NTP、SNMP、LLDP、DNS、syslog),資產標簽配置等 配置自身 包括:配置用戶(僅限本地用戶)自身的密碼 查詢 包括:所有查詢GET接口 3.11.2 本地用戶 HDM 最大支持 16 個本地用戶的配置,并可選擇本地用戶的接口權限(IPMI、WEB)和 SNMP 擴展權限配置,如圖 80 所示。65 圖80 本地用戶配置 3.11.3 LDAP 域用戶 LDAP(Lightweight Directory Access Protocol)是一個訪問在線目錄服務的協議。LDAP 目錄中可以存
94、儲例如電子郵件地址、郵件路由信息等各種類型的數據,為用戶提供更集中、更便捷的查詢。如圖 81 所示原理,啟用 HDM 的目錄服務,管理員可以將所有 HDM 的用戶管理,權限分配,有效期管理都集中到目錄服務器上,避免大量的重復性用戶配置任務,提高管理效率。另外將用戶集中到目錄服務器上,也能大大提高 HDM 智能管理系統的安全性。圖81 LDAP 服務器原理圖 LDAP 標準優點:66 可擴展性:可以在所有 HDM 上同時動態支持 LDAP 服務器上新增賬戶的管理;安全性:用戶密碼策略都在 LDAP 服務器上實施。支持 SSL 加密機制;實時性:LDAP 服務器上賬戶的任何更新都將立即應用到所有的
95、 HDM;高效性:可以將所有 HDM 智能管理系統的用戶管理,權限分配,有效期管理都集中到目錄服務器上,避免大量的重復性用戶配置任務,提高管理效率。3.11.4 AD 域用戶 AD(Active Directory、活動目錄)是指 Windows 服務器操作系統中的目錄服務;它提供了集中組織管理和訪問網絡資源的目錄服務功能,使網絡拓撲和協議對用戶變得透明。AD 被劃分成區域進行管理,基于這種結構,可以隨著企業的成長而進行擴展。HDM 支持 AD 用戶認證功能。啟用 AD 認證并制定訪問策略,如圖 82 所示。配置完成后,用戶可以使用 AD 目錄服務器中設置的用戶名和密碼直接訪問 HDM。其權限
96、由用戶所在角色組的權限決定,如圖 83 所示。圖82 AD 服務器配置 67 圖83 AD 角色組權限配置 3.11.5 密碼復雜度 賬號安全包括:密碼復雜度檢查、密碼有效期、禁用歷史密碼重復次數、登錄失敗鎖定、密碼鎖定時長、弱口令檢查,提示修改初始密碼。在“配置-用戶配置”的“高級設置”里可配置。如圖 84所示。68 圖84 賬戶安全設置 密碼復雜度檢查:開啟該功能后,所有用戶的密碼設置需符合以下要求,否則密碼設置無法通過檢查;密碼長度為 820 個字符,僅支持字母、數字、空格和特殊字符!#$%&*()_+-=|;:”,./?,區分大小寫;至少包含大寫字母、小寫字母和數字中的兩種字符;至少包
97、含一個空格或特殊字符;不能與用戶名或用戶名的倒序相同;需符合“禁用歷史密碼”要求。密碼有效期:用戶密碼的使用期限,臨近使用期限前,HDM 會提醒用戶更換密碼。默認管理員不受密碼有效期配置影響;禁用歷史密碼:用戶修改密碼時,禁止使用設置次數內的歷史密碼;登錄失敗鎖定:用戶登錄失敗的次數達到設定的次數后,系統會鎖定該用戶的登錄;登錄失敗鎖定時長:用戶由于登錄失敗達到登錄失敗鎖定次數后,被系統鎖定的時長。用戶被鎖定后,在失敗鎖定時長內不能登錄 HDM。弱口令檢查:使用弱口令字典檢查用戶設置的密碼是否屬于弱口令,開啟該功能后,用戶設置的密碼不能在弱口令字典中。69 弱口令字典管理:支持導入、導出弱口令
98、字典,設置的密碼在密碼復雜度檢查和弱口令字典認證功能使能的情況下不能在弱口令字典中。3.11.6 服務管理 為了滿足客戶的業務和安全需要,HDM 提供開關來控制是否提供服務端口。如圖 85 所示,HDM支持查看和修改的服務有:CD-Media、FD-Media、HD-Media、IPMI、KVM、Remote_XDP|iHDT、SNMP、SSH、Telnet、VNC 和 Web。圖85 HDM 服務配置 3.11.7 防火墻 防火墻可根據訪問 HDM 的設備的 IP 地址(地址段)、MAC 地址和時間段進行訪問控制,設置防火墻黑白名單規則,以允許符合規則的設備訪問 HDM,如圖 86 所示。黑
99、名單功能:可以設置阻止訪問 HDM 的設備的 IP 地址、IP 地址段和 MAC 地址,以及阻止訪問生效的時間。處于黑名單外的設備可以訪問。HDM 最大支持 20 條黑名單規則;白名單功能:可以設置允許訪問 HDM 的設備 IP 地址、IP 地址段和 MAC 地址,以及允許訪問的時間段。添加白名單規則后,白名單以外的地址均不能訪問 HDM。HDM 最大支持 20 條白名單規則。其中黑名單的優先級比白名單高,如訪問 HDM 的設備的 IP 地址既在黑名單,又在白名單中,則禁止訪問。70 圖86 防火墻配置 3.11.8 SSL 證書管理 SSL 證書管理包括上傳 SSL、生成 SSL、查看 SS
100、L。SSL 證書信息包括:使用者、頒布者、有效時間、序列號等信息。HDM 自帶 SSL 證書,為提高安全性,建議替換成用戶自己的證書和公鑰對。3.11.9 雙因素認證 傳統平臺登錄只需要輸入用戶名和密碼,用戶密碼是系統唯一的保護屏障,安全管理顯的比較薄弱。在雙因素認證方案的框架下,用戶輸入用戶名密碼的同時,還需要滿足另一個因素才能正常登錄管理系統,增強了系統管理的安全性。HDM 支持證書認證和 OTP 認證兩種雙因素認證,且它們不能同時啟用。開啟雙因素之后,系統會關閉 Telnet、SSH、VNC、IPMI、Redfish、SNMPV3、SOL 等接口或服務,用戶需謹慎開啟雙因素認證模式。1.
101、OTP 認證 HDM 采用寧盾 OTP(One Time Password,一次性密碼)動態令牌方案,使用 Radius 協議,支持國密算法,取得了國密資質認證。打開 OPT 認證之后,用戶在登錄 HDM Web 輸入用戶名密碼時,還需要輸入一個動態密碼,這個動態密碼可由硬件令牌或者手機令牌產生,且需要在 OTP 服務器上認證通過,才能夠登錄 HDM 系統,其組網方案如圖 87 所示。71 圖87 OTP 雙因素認證組網方案 開啟雙因素后,HDM 的登錄界面會新增一個動態密碼輸入框,如圖 88 所示。圖88 雙因素認證登錄 2.證書認證 為了提高了 HDM 的安全可靠性,避免因 HDM 用戶信
102、息泄露引發安全問題,HDM 提供證書認證功能。啟用證書認證功能后,用戶登錄 HDM 需要同時擁有客戶端證書和客戶端私鑰證書才能通過認證并登錄成功。72 圖89 證書雙因素認證 用戶從正式的 CA 認證機構申請根證書和客戶端證書文件后,可以通過證書認證功能上傳到 HDM,再為每個客戶端證書綁定一個 HDM 本地用戶。綁定成功后,用戶打開瀏覽器上傳客戶端私鑰證書。上傳成功后,用戶進入 HDM 登錄頁面根據提示信息選擇客戶端證書,就能以客戶端證書綁定的本地用戶的身份登錄 HDM。認證流程如圖 90 所示。圖90 證書認證過程 73 HDM 最多可以上傳 5 個根證書和 16 個客戶端證書,每個根證書
103、最多可以上傳 16 個客戶端證書,每個客戶端證書只能綁定一個HDM本地用戶。HDM支持上傳Base64編碼的根證書和客戶端證書,證書格式包括:*.cer、*.crt、*.pem,瀏覽器僅支持上傳*.p12 格式的客戶端私鑰證書。啟用證書吊銷檢查功能前,請確保 Web 服務器和 OCSP(Online Certificate Status Protocol,在線證書狀態協議)服務器可以正常通信.啟用證書功能前,必須導入根證書和客戶端證書,并綁定已啟用 HDM Web 訪問權限的 HDM 本地用戶。否則,在后續登錄時會出現無法認證的情況。3.11.10 可信硅根 Intel PFR 提供了固件保護
104、、檢測和恢復功能,提高了系統安全可信程度。其原理是把信任的根源放置到 Intel Xeon 處理器和平臺的 PFR CPLD 上,使用這個可信硅根去執行對 HDM-Uboot 的校驗和恢復,后續 HDM-Uboot 會進一步對 HDM 固件進行校驗和恢復,從而實現了整個系統的安全可信。原理如圖 91 所示。圖91 Intel PFR 原理 3.11.11 硬件加密 HDM 的 SOC 芯片支持硬件安全加速模塊,用來加強 HDM 的安全相關功能。主要應用在認證、數據加解密等安全應用中。實現了 AES、DES、3DES、RC4、MD5、SHA1、SHA224、SHA256、HMAC-MD5、HMA
105、C-SHA1、HMAC-SHA224 和 HMAC-SHA256 算法。3.12 固件管理 HDM 可管理的固件包括:支持查詢 HDM、BIOS、CPLD、PSU、LCD 固件版本;支持不斷電不中斷業務升級 HDM 固件版本;支持固件升級,且升級時 HDM、BIOS、CPLD、PSU、LCD 固件都已經進行過簽名,確保鏡像是完整的;74 HDM 支持雙鏡像切換。3.12.1 固件雙鏡像 為了提升系統可靠性,HDM 使用了固件雙鏡像備份技術,如圖 92 所示。當在運行過程中出現 flash誤操作或者存儲塊損壞時,可以切換到備份鏡像運行。圖92 固件雙鏡像 3.12.2 固件升級 支持對 HDM、
106、BIOS、CPLD、PSU、LCD 固件升級,如圖 93 所示。從兼容性考慮,建議用戶將HDM 主備鏡像更新到同一個版本。圖93 固件升級頁面 75 HDM 固件升級時支持兩種生效方式(手動和自動),BIOS 固件升級支持三種生效方式(手動、自動和設置重啟時間),且支持 HDM、BIOS 升級后的配置保留或覆蓋,如圖 94 所示。圖94 固件升級頁面 1.BIOS 自升級 當 BIOS 升級選擇“配置保留”和“配置覆蓋”時,HDM 僅上傳 BIOS 的固件文件到 eMMC,后續主機重啟時,BIOS 會通過 HDM 從 eMMC 中獲取固件文件,自行升級固件,以實現相關的配置策略。3.13 配置
107、管理 3.13.1 配置文件導入導出 配置導入導出就是指把 HDM、BIOS、RAID 的所有配置能以配置文件的方式導出和導入,實現管理員可以輕松的遠程配置服務器,如圖 95 所示。配置文件導入導出具有以下技術優勢:通過 HDM 的配置導入導出功能實現帶外批量配置 HDM、BIOS、RAID 三大模塊的配置選項,覆蓋選項全;配置可閱讀、可編輯、可保存??刹⑿信渲枚嗯_服務器;操作便捷,靈活使用將大幅提升管理運維效率;配置導入速度快:配置單個文件僅需 2 分鐘,HDM+BIOS+RAID 全配置僅需 6 分鐘;可配置參數多:其中 HDM 支持 100+選項、BIOS 支持 1000+選項、支持修改
108、 RAID 級別。76 圖95 配置文件導入導出頁面 配置文件支持如下使用場景,如圖 96 所示。導出配置文件,完成修改再導入=批量修改設置選項;配置文件在同型號服務器上通用,即針對同一類型機器快速完成大規模設備的配置和部署;更換主板或者恢復出廠默認設置后,可以快捷的恢復自定義設置。77 圖96 配置文件導入導出使用場景示意圖 3.13.2 HDM 恢復默認配置 恢復 HDM 默認配置可將 HDM 的配置恢復到最原始的配置狀態,可用于 HDM 重新配置。3.14 G3和G5服務器特性支持差異 G3 和 G5 服務器支持的特性主要差異情況如表 3 所示,僅部分服務器支持的情況,請以服務器的實際情況為準。表3 G3 和 G5 主要差異特性 特性名稱 G3 產品 G5 產品 其它描述 LCD顯示屏 支持 支持 僅部分機架服務器支持 診斷面板 支持 不支持-安全面板 不支持 支持 僅部分G5機架服務器支持 iHDT 不支持 支持 僅G5 AMD服務器支持 USB WIFI 不支持 支持 G5智能掛耳上有專用管理接口的服務器支持 服務U盤 不支持 支持 G5智能掛耳上有USB Type-C接口的服務器支持 可信硅根 不支持 支持 G5 Intel服務器支持