《浪潮:浪潮服務器故障診斷系統技術白皮書(37頁).pdf》由會員分享,可在線閱讀,更多相關《浪潮:浪潮服務器故障診斷系統技術白皮書(37頁).pdf(37頁珍藏版)》請在三個皮匠報告上搜索。
1、Inspur ServerFault Diagnosis System文檔版本 1.0發布日期 2022-09-05浪潮服務器故障診斷系統技術白皮書ISFDS尊敬的用戶:版權 浪潮 2022.版權所有未經事先書面同意,本文檔的任何部分不得復制或以任何形式或任何方式修改、外傳注:您購買的產品、服務或特性等應受浪潮集團商業合同和條款的約束。本文檔中描述的全部或部分產品、服務或特性可能不在您的購買或使用范圍之內。除非合同另有約定,浪潮集團對本文檔內容不做任何明示或默示的聲明或保證。由于產品版本升級或其他原因,本文檔內容會不定期進行更新。除非另有約定,本文檔僅作為使用指導,本文檔中的所有陳述、信息和建
2、議不構成任何明示或暗示的擔保。Inspur和“浪潮”是浪潮集團的注冊商標。Windows是微軟公司的注冊商標。Intel、Xeon是Intel公司的注冊商標。其他商標分別屬于其相應的注冊公司。技術服務電話:4008600011地址:中國濟南市浪潮路1036號 浪潮電子信息產業股份有限公司郵編:250101目錄1 引言2 概述2.1 IS-FDS介紹2.2 術語3 IS-FDS整體架構3.1 服務器故障分類3.2 服務器故障處理單元3.3 服務器故障處理流程3.4 支持產品4 IS-FDS關鍵技術4.1 故障實時檢測與隔離4.2 故障精準定位與上報4.3 故障智能預警與修復4.4 為浪潮服務器定
3、制的帶內外故障監管系統5 IS-FDS功能簡介5.1 CPU 故障檢測與處理5.2 內存故障檢測與處理5.3 PCIe通用部件故障檢測與處理5.3.1 硬盤5.3.2 GPU5.3.3 存儲卡5.3.4 網卡5.4 主板故障檢測與處理5.4.1 服務器故障指示燈5.4.2 主板VR故障檢測預處理5.4.3 異常掉電問題處理0103040405060608091010101011111212121313131314141416165.4.4 上電超時問題處理5.4.5 主板防燒板功能設計6 ISBMC 故障監測與診斷6.1 系統運行日志記錄6.1.1 開機自檢碼監測及日志記錄6.1.2 屏幕快照
4、6.1.3 Mainteance Log介紹6.2 系統宕機日志記錄 6.2.1 宕機截屏及宕機錄像6.2.2 日志收集下載界面6.2.3 宕機診斷案例 6.2.4 非宕機監測案例6.3 系統事件日志記錄 6.3.1 系統事件記錄6.3.2 故障上報 6.3.3 日志設置6.3.4 IDL日志及處理建議 6.4 整機系統健康狀態監測6.4.1 系統概要6.4.2 Sensor匯總列表6.4.3 審計日志記錄6.4.4 資產信息 02161617171718181919202122222224262729293032341 引言隨著“新基建”、“東數西算”、“元宇宙”等數字化浪潮的推進,全社會數
5、字化轉型加速,數字化建設飛速發展,當今數字化在國家和企業層面均已上升到戰略高度。通用、存儲、超融合、AI服務器等作為支撐數字化計算服務的基礎設施硬件,在云計算、大數據、物聯網、AI等各領域的大批量部署呈指數級不斷增長,并且其承載的業務也越來越多,計算壓力,存儲能力,網絡帶寬正在經受嚴峻的考驗。另外,服務器本身作為計算、存儲、網絡等新技術應用的復雜軟硬件集合體,由處理器、內存、存儲設備(RAID卡/HDD/SSD)、AI加速卡(GPU卡/ASIC加速卡/FPGA加速卡)、網卡(以太網卡/Infiniband網卡/智能網卡)、主板、電源設備、散熱設備、BIOS固件、BMC管理軟件等組件組成,其軟硬
6、件復雜度也在不斷提升;所以,在所難免會存在不可預期的故障造成宕機,影響數字化業務正常運行,特別是關鍵業務的宕機造成的客戶損失及影響是難以估量的。當前,海量服務器數據中心正面臨著高昂的運維成本支出和維護管理復雜度的巨大挑戰,所以提升服務器的維護體驗,能夠確保服務器連續穩定地運行,實時掌握服務器運行健康狀態,即使在出現故障的情況下也可以及時修復恢復業務運行,逐步成為服務器需要具備的基礎保障功能。浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司03Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書OSPOSTInspur ServerISMD
7、ISPIMISBIOSISBMCDiagnosisData collect當前服務器運維痛點問題:設備故障宕機后,定位故障的關鍵部件寄存器日志信息收集不完整,歷史故障記錄信息不健全,無法進行自動準確的故障部件定位;故障診斷定位效率低下,服務器出現問題后主要基于人工分析和經驗判斷結果,自動化與智能化程度不高。設備故障恢復上線時間長,現場故障難以復現,需要多次手動更換部件來驗證,排障效率低下,對客戶的業務影響較大。解決問題的ISFDS技術方案:服務器長久持續運行狀態下,需要有健康狀態的實時監控上報,ISBMC 可以在未發生故障之前,上報出是否存在異常的電壓信號波動,CPU可修復錯誤過多,局部過多熱
8、量累積,大量內存ECC發生等。用戶可提前感知這些異常的存在,關注存在預告警的服務器計劃性停機維護,避免演變成致命故障或災難性故障。建立以 ISBMC 為中心的帶外故障處理系統,優化對服務器各部件故障信息及使用資源的抓取邏輯,保障所有故障數據能實時完整收集,再結合服務器完整的資源拓撲,可以輕松處理各類致命故障和災難性宕機的分析診斷定位,提升服務器故障診斷明確率與處理時效,實現分鐘級診斷定位,快速更換故障部件恢復業務運行。建立浪潮 ISFDS 故障診斷專家規則庫,對浪潮海量客戶宕機日志的深入分析學習,不斷完善專家診斷規則,浪潮故障診斷專家規則庫在ISBMC的落地,實現了IERR宕機診斷準確率95%
9、的成績。2.1 IS-FDS介紹2 概述浪潮服務器故障診斷系統ISFDS(Inspur Server Fault Diagnosis System)是浪潮開發的具有自主知識產權的服務器故障診斷系統,對服務器各組件軟硬件設計進行深度定制融合,自主創新開發浪潮自有服務器故障診斷專家規則庫,可以對服務器進行全生命周期的工作健康狀態實時監測、預警,在宕機故障發生時可實現分鐘級快速精準診斷、修復和恢復業務運行;提升產品硬核競爭力的同時為推進中小客戶免運維的實現,以及大客戶數據中心智能運維的實現,做出了實質性跨越式的貢獻。浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司04Inspur Server
10、Fault Diagnosis System浪潮服務器故障診斷系統技術白皮書圖2-1 研制浪潮物理基礎設施管理平臺ISPIM,實現ISBMC帶外日志和ISMD帶內日志匯總診斷,實現故障現場日志場景完整還原,實現故障監控覆蓋度最大化,故障診斷準確率最大化;該平臺帶外硬件日志是通過ISBMC REST接口進行收集,帶內系統日志是通過ISMD REST接口進行收集;也可以僅通過ISBMC進行收集帶外硬件日志;ISPIM、ISBMC均具備診斷后的預告警事件直接推送到客戶運維系統的能力,并且支持上報接口定制化。研制浪潮服務器帶內管理驅動ISMD,作為帶內系統采集的代理角色,支持性能指標訂閱,實現了帶內系
11、統性能、配置和日志收集等功能,支持主/被動的形式上報至ISPIM進行分析,實現了浪潮服務器帶內、帶外管理的能力。對于ISPIM通過ISMD進行帶內日志收集的方式,需要在被管理設備系統OS下安裝ISMD,ISPIM發現ISMD后即可進行帶內系統日志收集。浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司05Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書通過表2-1對本文出現的專業名詞及縮略語進行解釋。2.2 術語表2-1 術語表ISBIOSInspur Server BIOS(Basic Input/Output System)Insp
12、ur Server BMC(Baseboard Management Controller)Inspur Server Management DriverInspur Server Physical Infrastructure ManagerMachine Check ArchitectureCorrectable ErrorUncorrectable ErrorUncorrected RecoverableSoftware Recoverable Action RequestUncorrected No Action requiredMachine Check ErrorInternal
13、ErrorPlatform Environment Control InterfaceSRARUCRUCECEMCAISPIMISMDISBMCPECIIERRMCERRUCNA術語SRAO解釋Software Recoverable Action OptionalISFDSInspur Server Fault Diagnosis SystemPower On Self TestPOSTMachine Check ExceptionAdvanced Error ReportAt-Scale DebugAutonomous Crash DumpReliability、Availability、
14、ServiceabilityHost Bus AdapterHost Channel AdapterInfiniBandACDASDAERMCEIBHCAHBARASBAFIBMC Assisted FRU IsolationIntelligent Platform Management InterfaceIPMIJoint Test Action GroupNetwork Interface ControllerNICJTAGPlatform Firmware ResiliencePower Management BusSystem Management BusSerial Advanced
15、 Technology AttachmentSimple Mail Transfer ProtocolSimple Network Management ProtocolSelf-Monitoring Analysis and Reporting TechnologyNVM Express Management InterfaceNetwork Controller Sideband InterfaceSMBus Post-Box InterfaceIntegrated Error HandlerSystem Control InterruptSystem Management Interru
16、ptsPFRPMBusSMBusSATASMTPSNMPS.M.A.R.T.NVME-MINC-SISMBPBIIEHSCISMINMINon Maskable InterruptMessage Signal InterruptCorrected machine-check error interruptCMCI morphed into SMIMCE morphed into SMIAdvanced Configuration and Power Interface Device-Specific MethodACPI Platform Error InterfacesGeneric Har
17、dware Error SourceWindows Hardware Error ArchitectureMSICMCICSMIMSMIACPIDSMAPEIGHESWHEABERTBoot Error Record TableHardware Error Source TableHESTERSTError Record Serialization Table術語解釋EINJError Injection Table浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司06Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書3 IS-FDS 整
18、體架構3.1 服務器故障分類ISFDS依托浪潮自研服務器硬件開發,主要功能由ISBIOS、ISBMC、主板硬件設計聯合實現;實現了服務器全生命周期的異常部件即時上報,有隱患部件智能上報,發生宕機后引發故障部件即刻準確上報;并且對非致命類故障進行實時修復,對服務器硬件固件運行狀態進行實時評估,全方位監測設備的健康狀態。從上圖可見服務器故障類型可劃分為CE類故障和UCE類故障,UCE類故障包括IERR災難性故障、FATAL致命故障、UCR不可糾正可恢復故障三種,FATAL與UCR同屬于MCERR類型的故障會向OS觸發MCE中斷;UCR故障通常稱為non-Fatal類型的UCE,包含UCNA、SRA
19、R、SRAO三類故障。另外從故障場景劃分,服務器故障可劃分為宕機類故障和非宕機類故障兩大類。宕機類故障主要體現在開機過程宕機及運行時宕機兩部分,見圖3-2。非宕機類故障包括CPU/內存/GPU/存儲設備/網絡設備/PCIe外插設備的可修復故障及非致命故障統計監測、部件及鏈路健康狀態監測。另外基礎硬件的監測是衡量服務器健康狀態的關鍵指標,包括供電溫度指標異常監測,主板風扇異常監測等,見圖3-3。IERRFIVR FaultCore UCEUncore UCEAddress Parity UE errorReadWrite UE error.Malformed TLP errorReceiver
20、Buffer Overflow errorSurprise link down errorFlow Control Protocol ErrorData Link Protocol Error系統供電異常CPU供電異常內存供電異常PCH供電故障CPU過熱關機PCH過熱關機Memory過熱關機FrB2 Soft Hang監測微碼加載異常ME自檢異常CPUMemory UCEPCle UCE供電故障散熱故障OS Hang主板固件故障主板電信號故障運行時宕機開機過程宕機宕機類故障POST自檢異常供電故障開機時序異常圖3-2 宕機類故障分類故障類型分類CEUCEUCRFATALIERRUCNASRAR
21、SRAO圖3-1 故障類型分類浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司07Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書圖3-3 非宕機類故障分類圖3-4 基礎硬件監測內存控制器CE異常內存CE超閾值告警內存初始化異常巡檢UCE(iMC)Poison UCE(IFU、DCU、MLC)內存異常CPU自檢異常CPU在位不識別CPU型號不一致UPI鏈路降速降帶寬失效監測指令執行單元IFU CE UCR監測PCU單元 CE監測UPI鏈路 CE監測CPU CE UCR監測二級緩存CE UCR監測CHA Cache CE監測CPU異常非
22、宕機類故障PCle外插設備異常Receiver errorBad TLP/Bad DLLPReplay Num RolloverReplay Timer Time outCEUCRPoisoned TLPCompletion TimeoutCompleter AbortUnexpected CompletionUnsupported RequestAER監測PCle鏈路降速/降帶寬監測SAS/SATA鏈路狀態監測NVME鏈路狀態監測RAID卡物理盤狀態預告警NVME/SSD/HDD SMART故險預告警存儲介質壽命監測冗余空間預警BBU健康狀態監測RAID卡邏輯盤狀態告警RAID卡RAM CE
23、 UCE監測RAID卡固件自檢狀態監測硬盤健康狀態監測RAID卡健康狀態監測存儲鏈路健康狀態監測存儲設備異常網口物理link狀態監測網卡Port UCE計數智能網卡Smart NIC OS狀態監測IB(HCA)卡的鏈路狀態監測網絡設備異常GPU利用率監測Nvlink鏈接健康狀態監測顯存CE、UCE計數監測GPU異?;A硬件監測風扇占空比&轉速監測風扇功耗監測風扇故障檢測風扇在位信息監測風扇監測PSU自檢異常PCH自檢異常BMC自檢異常電路單元監測TPM自檢異常I2C總線異常通信總線監測主板異常SMBUS總線異常PMBUS總線異常VR芯片故障檢測過流異常(觸發燒板保護)上電超時檢測異常掉電檢測運
24、行時監測CPU供電功耗監測內存供電功耗監測PCH供電功耗監測硬盤背板供電功耗監測各單元VR實時電壓電流監測系統供電監測GPU供電功耗監測系統總功耗監測OCP供電功耗監測PSU輸入輸出監測PSU異常狀態監測供電監測CPU溫度監測內存溫度監測PCH溫度監測PSU溫度監測進出風口溫度監測NVME/SATA SSDSAS/SATA HDD硬盤背板溫度監測網卡溫度監測光模塊溫度監測RAID卡溫度監測OCP卡溫度監測GPU溫度監測各單元供電VR溫度監測溫度監測硬盤溫度監測當啟動服務器后,服務器硬件和底層固件可能出現各種錯誤:在OS運行過程中,隨機的CE錯誤在硬件底層即可完成修復,通過冗余資源替換故障區域,
25、降低運行速率、請求重傳等方式修復故障,維持系統正常運行;不可預期的CE風暴會對設備性能造成持續的影響,需要對造成CE爆發的部件進行風暴中斷抑制,并進行計劃停機更換修復;小概率的UCE故障中,致命的UCE會導致kernel panic服務器宕機重啟,非致命的UCR在系統修復的情況下OS還可以保持繼續運行,例如 POST 過程內存 UCE 修復、CPU Core 故障隔離、UPI/PCIe總線鏈路問題降帶寬、OS運行過程中內存Poison UCE Recovery修復等;災難性的IERR故障會直接導致服務器宕機,依賴ISFDS診斷機制找出導致故障的部件進行更換維護。另外,服務器開機階段在固件層出現
26、問題,PFR(Platform Firmware Resilience)機制會探測到相關的異常,使用Recover動作或雙鏡像等措施進行開機故障即時修復。3.2 服務器故障處理單元System Event LogCE StormPage offlineCE RandomUCE NonFatalUCE FatalIERRInsupr ServerSystem Recover浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司08Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書圖3-5浪潮服務器故障處理單元以ISBMC為主中心構建,向外部各單
27、元延伸拓展,從基礎的供電監測、溫度監測、散熱監測,到承載業務的關鍵部件CPU監測、內存監測、存儲設備監測、PCIe設備監測、主板監測,實現全方位無死角的帶外故障數據的實時收集、分析和診斷,并將診斷結果推送至System Event Log,同時呈現在服務器前面板故障指示燈及BMC Web界面。另外以CPU為次中心構建故障診斷輔助系統,開機過程中CPU運行ISBIOS在帶內收集CPU、內存、PCIe等設備的故障信息和資源拓撲信息,并傳遞給ISBMC用于輔助診斷;同時OS運行階段ISBMC實時監測CPU CATERR/ErrorPin 信號,在 IERR/UCE/UCR/CE 發生時使用 PECI
28、/JTAG 接口及時獲取 CPU 記錄的故障寄存器信息,ISBIOS可以搜集突發的異常故障信息經過CMCI、CSMI、MCE、MSMI、SMI、SCI、NMI等方式上報到ISBMC或操作系統。HDDNVMe U.2/M.2PClePClePCleNICRAIDUPICATERR/ErrorPinDMIPECI/JTAGSSDSAS/SATASMBus/LPC/JTAGI2C/Uart/MCTPPSUISBIOSFPGAT-SensorPMBusVR ICFANISBMC圖3-6上圖列出了硬件連接拓撲示意圖,其中,關鍵故障處理的組件有:ISBMC:故障檢測、定位、上報的核心處理單元,提供ISFD
29、S技術硬件層的算力算法實現。ISBIOS:故障隔離、預警、修復的底層代碼實現,提供ISFDS平臺功能實現的固件支撐。CPU:Intel至強CPU提供了增強的RAS功能,增強了CPU內部子模塊、內存、PCIe 設備的硬件RAS特性,提供了健全的故障檢測和和修復的底層硬件支持。主板:Inspur自研主板具備支故障檢測和預處理能力,供電VR發生故障立刻上報,即時硬件異常故障保護機制,過流的情況下會主動觸發燒板保護功能,避免局部故障擴大化;另外還設計有上電超時、異常掉電等硬件故障檢測功能。3.3 服務器故障處理流程如圖3-7所示,服務器硬件的故障ISBMC方面可由經過各種接口協議對各PCIe部件進行主
30、動抓取,使用CPU的ErrorPin、CatError對故障類型進行監測,使用CPU的PECI接口對CPU寄存器進行ACD收集然后進行BAFI解析,使用CPU的JTAG接口進行在線ASD調試;同時ISBMC支持SEL/IDL/SNMP/SMTP/Syslog/Restfull/Redfish/Https等各類接口推送形式將接收到的預警和故障進行上報。ISBIOS方面可經由CPU觸發各類故障的SMI中斷由對應SMI Handle處理后上報給OS相應的Driver進行故障處理,同時使用IPMI上報給ISBMC;內存CE及SRAO故障使用Pageoffline機制進行修復,內存SRAR類型的故障發生
31、在用戶側進程中可以進行進程終止修復,發生在Kernel側則會觸發Kernel Panic,CPU、Memory、PCIe產生的FATAL類型的故障同樣也會觸發Kernel Panic;ISBIOS會將CE及各類UCE故障記錄到APEI的HEST Table供OS檢索處理記入Syslog,另外OS也有RAS處理應用EDAC、Rasdeamon等可以主動抓取CPU和各部件的故障。圖中具體名詞釋義見術語表2-1。浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司09Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書圖3-7 服務器故障處理流程N
32、on-FatalDevice Driver RecoverOperating SystemCEUCRFATALOptionalMcelog deamonMCE/CMCIEDAC/RasdeamonUCR SEL/IDL/SNMP/SMTP/Syslog/Restfull/Redfish/HttpsISBMCInspur ServerBAFIIPMIIPMIPMBUSSMBUSNC-SISMBPBIStoreLibStorageCoreS.M.A.R.T.CE/UCEASD IERR/MCERRACDPCHFANsVRsPSUMemoryPcie DevicesNVME-MINVMeNICGPU
33、RAIDSensorsKill ProcessSSD/HDDErrorPinJTAGCatErrorPECIIEHAERMSRCSRCPUCPU SMI HandlerCSMI/MSMI/SMIPCle SMI HandlerNMI/SCIISBIOSSCI/CSMI/ELOGMemory SMI HandlerSMBIOSModulePOST ErrorSMMWheaErrorlnjPollingMCECMCINMI/SCI handlerUCEUCECMCICECECECECECECEAPEIERSTGHESBERTEINJHESTFATALUCR SysLogACPIDSMPage Of
34、flineDMI(Desktop Management Interface)GHESSRARSRAOPage CEThresholdFATALKernelPanicUser SideKernel Side浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司10Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書4.1 故障實時檢測與隔離服務器開機ISBIOS POST過程中首先BIST(Build in self test)組件會進行CPU內部各子模塊的自檢檢測,然后進行內存和PCIe外設的初始化及故障檢測,檢測到Core或Dimm存在故障會
35、隔離掉繼續啟動,避免單一非必要部件故障影響整機系統的運行;OS運行階段會對內存進行實時的巡檢檢測,ISBIOS會主動告知OS異常的內存Page進行offline隔離;供電設計實現了主PSU故障主動隔離并啟用備用PSU,主板設計監測局部過流異常及時隔離故障區域,避免硬件損壞擴大化;另外ISBMC擔負整機所有的硬件及固件的故障全時的巡檢監測,實時掌控各部件供電、溫度情況及各種異常故障輸出狀態,對服務器硬件的健康狀態進行整體評估。4 IS-FDS關鍵技術ISFDS整合了硬件、ISBIOS、ISBMC以及操作系統的故障處理技術,形成一整套故障處理系統,涵蓋了故障檢測、故障預警、故障修復、故障隔離、故障
36、定位、故障上報,六大主要關鍵技術。實現了服務器各部件的實時檢測及智能預警、整機性能及健康狀態持續監測、系統故障全時修復與隔離、宕機故障快速診斷與精準定位;并且以ISMD、ISPIM實現帶內外監控整合能力,達成了智能化運維在數據中心的進一步推進。MemoryCPUPCle DevicesDimm 0Dimm 1Dimm 2Dimm 3SATAPCHCore 0PCle slot 0PCle slot 1PCle slot 2PCle slot 3Device CE WarningDevice fault isolationC0C1C2C3C4C5C6C7C8C9CaCb圖4-14.2 故障精準定
37、位與上報ISBMC與ISBIOS直接進行災難性故障IERR處理的流程,在災難性故障IERR發生后第一時間感知CPU發生故障的時刻,使用優化增強的PECI交互驅動進行記錄故障關鍵寄存器的及時抓??;ISBMC與ISBIOS在HOST系統資源拓撲構建、故障日志的收集、日志分析過程、日志上報途徑(SDR、SMTP、SNMP-trap等)過程都進行了全面的代碼重構,及過程可視化呈現;IERR診斷使用浪潮ISFDS故障診斷專家規則庫進行故障日志的在線分析及故障部件的精準定位,并且在ISBMC診斷失敗后啟用ISBIOS自診斷機制,提高IERR故障診斷的準確率。3.4 支持產品*具體機型實際實現功能見官方產品
38、說明功能型號ISFDS V3.0ISFDS V2.0NF5280M6/NF5180M6/NF5260M6/NF5270M6/NF5266M6/NF5466M6/NF5468M6/NF5488M6/NF5688M6/i24M6/i48M6/SN5160FM6/SN5264FM6/NF8260M6/NF8480M6;NF5280M5/NF5180M5/NF8260M5/NF8480M5;浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司11Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書4.3 故障智能預警與修復ISFDS故障預警功能,采用
39、浪潮服務器海量客戶的非宕機類故障日志匯總,基于浪潮云海Insight大數據平臺進行數據挖掘分析;學習數據行為模式生成預警規則,落地到浪潮故障診斷專家規則庫,再由ISBMC、ISPIM進行規則應用,對服務器內所有部件進行全生命周期的運行狀態進行跟蹤監測,進行實時數據的行為模式識別,識別潛在隱患部件及高風險部件進行提前預警,降低服務器在高負荷運行狀態下的突然失效。ISFDS具備對于某些偶發的非致命的UCE故障的基礎修復能力,做到故障的即時恢復,降低演變成致命UCE導致宕機的發生。例如CPU DCU巡檢Parity故障修復、內存Poison UCE 進行Recovery、內存讀寫CE及巡檢CE/UC
40、E的實時修復、內存讀寫CE進行softPPR、內存SMbus故障自修復、PCIe UCR故障Recovery等。4.4 為浪潮服務器定制的帶內外故障監管系統浪潮服務器帶內管理驅動ISMD采用C語言編程,通過讀取系統文件、系統函數、系統工具等手段,從監控、性能、日志等方面進行全面的監控,性能監控支持秒級監控,日志支持增量采集,依賴系統最小化,安裝包10M,單核cpu利用率10%,內存占用開機自檢代碼”打開如圖6-1所示。6.1.1 圖6-1 開機自檢代碼web界面11CPU初始化SB初始化初始化檢測MEM內存安裝完成MEM初始化讀SPDMEM初始化設定初值CPUPOST-MEM初始化312C19
41、322F2B當前自檢代碼當前自檢代碼15當前自檢代碼描述當前自檢代碼描述NB初始化表6-1 開機自檢代碼參數表浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司18Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書屏幕快照是ISBMC提供的一項方便系統巡檢的功能,用戶可以通過Web界面對當前系統的屏幕輸出進行截取并保存,在OS喚醒狀態及關閉KVM狀態下使用手動截屏,隨時對系統當前畫面進行屏幕截圖,當用戶需要查看時可以通過網絡將文件獲取至本地使用圖片查看軟件瀏覽屏幕截圖,不需要時則刪除截圖即可。在ISBMC Web頁面導航欄中選擇“故障診斷
42、屏幕截圖手動截屏”,如圖6-2所示。6.1.2 在導航欄中選擇“日志和告警一鍵收集日志”下載壓縮包dump_0_20000102-0243.tar.gz并解壓為onekeylog,Maintenance Log位于文件夾Log內,打開如圖6-3所示界面。具體參數見表6-2 2000-01-01T08:20:19.970000+08:00 Diagnose Lag【MCAProgressTask】McaTriggerType:9 2000-01-01T08:20:19.990000+08:00 Diagnose Log【MCAProgressTask】Collect Reg Data and A
43、nalyse,phaseName:First 2000-01-01T08:20:19.990000+08:00 Diagnose Log【MCAProgressTask】Get register start time:2000-01-01T08:20:19(First)2000-01-01108:20:20.370000+08:00 Diagnose Log【MCAProgressTask】PciconfigRegLocal Get CSR register(global,csr)data Done,expend 0s 2000-01-01T08:20:20.560000+08:00 Diag
44、nose Log【MCAProgressTask】PciconfigRegLocal Get CSR register(dmi)data Done,expend 0s 2000-01-01T08:20:27.520000+08:00 Diagnose Log【MCAProgressTask】PciConfigReg Get PCIe RootPort register data Done,expend 7s 2000-01-01T08:20:28.760000+08:00 Diagnose Log【MCAProgressTask】PciConfigReg Get PCIe Device reg
45、ister data Done,expend 1s 2000-01-01T08:20:29.060000+08:00 Diagnose Log【MCAProgressTask】PciConfigRegLocal Get CSR register(iio)data Done,expend 1s 2000-01-01T08:20:32.730000+08:00 Diagnose Log【MCAProgressTask】Get Msr register data Done,expend 3s維護日志Maintenance.Log主要記錄了程序運行過程的重要數據,常用于分析軟件的具體執行情況。如圖7-
46、4所示,日志記錄了Oem命令觸發收集register data的開始時間、收集Csr 和PCIe RootPort register data的花費時間以及收集register data的結束時間。6.1.3 圖6-3 維護日志圖6-2 手動截屏程序記錄在日志的數據Get Msr register data Done,expend 3s2000-01-01T08:20:19.990000+08:00系統記錄日志的時間參數描述表6-2 維護日志參數表屏幕快照Mainteance Log介紹浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司19Inspur ServerFault Diagno
47、sis System浪潮服務器故障診斷系統技術白皮書圖6-5 宕機錄像web界面6.2 系統宕機日志記錄宕機截屏及宕機錄像當服務器操作系統發生宕機時,宕機截屏可以獲取系統宕機的最后一屏畫面并以指定的格式保存在ISBMC的存儲空間內。用戶發現系統宕機后,可以通過網絡登錄至ISBMC內查看宕機屏幕,進而對故障進行快速定位和分析。在導航欄中選擇“故障診斷屏幕截圖宕機截屏”。如圖6-4所示,在系統宕機時獲取系統宕機的最后一屏畫面。6.2.1 圖6-4 系統宕機截屏開啟宕機錄像功能,當服務器操作系統觸發宕機時,系統會自動錄制一段宕機前的視頻并以壓縮的格式保存至ISBMC存儲空間。用戶可以通過“一鍵收集日
48、志”下載錄制的宕機視頻(.dat 格式),并在“解析視頻”處將ISBMC下載到本地的.dat文件轉為.avi文件,然后在“宕機視頻”顯示錄像,技術人員可以通過錄制的視頻信息輔助定位系統故障。該功能必須先關閉KVM服務才會生效。在導航欄中選擇“故障診斷屏幕錄像宕機錄像”,打開如圖6-5所示界面。Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司20日志收集下載界面在ISBMC Web頁面導航欄中選擇“日志和告警一鍵收集日志”下載壓縮包dump_0_20000102-024.tar.gz并解壓
49、為onekeylog,日志文件均位于Log文件夾,界面如圖6-6所示,參數見表6-3。6.2.2 圖6-6 日志收集界面表6-3 日志文件參數表Onekeylog/log/InspurCpuRegisterRawData.jsonCPU寄存器故障診斷解析日志故障診斷分析流程日志審計日志IDL日志調試日志維護日志SEL日志Onekeylog/log/selelist.csvOnekeylog/log/maintenance.logOnekeylog/log/inspur_debug.logOnekeylog/log/idl.logOnekeylog/log/audit.logOnekeylog/
50、log/AnalyProcess.logOnekeylog/log/InspurIerrAnalyResultReport.json日志收集下載路徑信息項用途記錄獲取寄存器數據的時間、觸發方式、CPU的類型、CPU寄存器的數據等。記錄寄存器解析結果、信息采集時間、CPU類型、收集診斷數據的方式等。記錄IERR故障診斷的具體過程,及診斷分析結果(診斷結果會推送至SEL日志)。記錄用戶登錄、注銷、用戶管理、固件更新和恢復等。記錄實體部件的事件描述并顯示錯誤等級。存儲調試過程的相關信息并顯示信息的等級。記錄用戶需求或技術人員調試的重要信息。記錄系統內傳感器名稱,傳感器類型、觸發事件的詳細描述。浪潮專
51、有和保密信息版權所有浪潮電子信息產業股份有限公司21Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書圖6-7 故障診斷分析流程日志宕機診斷案例服務器發生IERR災難性故障后,ISBMC會立刻執行IERR故障精準定位流程,故障的詳細診斷報告會記錄在“故障診斷分析流程日志”中,用戶可以查看發生故障的精確時間、發生故障的模塊及故障類型、故障現象描述、導致故障的具體設備、故障定位的詳細判據以及處理建議等,如圖6-7所示,另外對于疑難復雜宕機案例ISBMC還支持ASD、ACD、BAFI等技術實現疑難案例的快速分析及診斷定位根因。圖6-7展示了由CPU
52、0訪問PCIe設備MMIO資源異常,發生的Tor Timeout導致3-Strick Timeout,進一步引發了CPU IERR故障的發生。由圖例可以看到,故障定位先找到發生故障的CPU CPU0,再找到記錄故障現場數據的MCA Bank MC10,由該Bank解析出詳細的故障類型 Tor_Timeout,由該Bank記錄的地址追溯到使用該MMIO地址空間的PCIe設備 Mellanox ConnectX-5網卡,并詳細打印了該設備名稱、BDF、槽位信息等。6.2.3 浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司22Inspur ServerFault Diagnosis Syst
53、em浪潮服務器故障診斷系統技術白皮書非宕機監測案例ISBMC可以實現對NVME SSD常見SMART故障的監測,可以做到剩余(冗余)空間異常、盤體超溫、只讀模式、易失性內存失效、預故障提醒,詳細見下表6-4。6.2.4 SMART字段NVME SSD剩余空間低于閾值告警ISBMC記錄DiagNVME:SN:S63SNE0R509578,available spare space has fallen below the threshold!建議動作此告警發生時,說明NVME SSD的冗余空間不足,已達到冗余空間的閾值,建議更換全新的NVME SSDNVME SSD溫度超過閾值告警DiagNVM
54、E:SN:S63SNE0R509578,Tempperature is above an over temperature threshold or below an under temperature threshold!此告警發生時,說明服務器整機或機房散熱異常,建議提升系統風扇轉速或降低機房環境溫度NVME SSD系統可靠性降級DiagNVME:SN:S63SNE0R509578,NVM Subsysterm reliablility has been degraded!若是存在溫度超標,建議檢查散熱情況;非超溫情況,建議進行換盤操作NVME SSD介質為只讀模式告警Diag NVME:
55、SN:S63SNE0R509578,The media has been placed in read only mode!此告警發生時,說明NVME SSD進入“只讀”模式,無法進行數據寫入,避免發生數據丟失的風險,請盡快更換全新的NVME SSDNVME SSD易失性內存備份系統失效告警Diag NVME:SN:S63SNE0R509578,The volatile memory backup device has failed!此告警發生時,說明NVME SSD內部DRAM器件損壞,盤無法正常工作,請盡快更換全新的NVME SSDNVMe SSD PDLU壽命監測(Percentage
56、Drive Life Used)超過閾值進行Warning級別告警DiagNVME:SN:S63SNE0R509578,life used warning level alert!DiagNVME:SN:S63SNE0R509578,life used critical level alert!此告警發生時,說明NVME SSD的壽命將要耗盡,請盡快更換全新的NVME SSD。NVME SSD 讀取溫度sensor失敗DiagNVME:SN:S63SNE0R509578,Read temp sensor failed assert!此告警發生時,說明NVME SSD的溫度傳感器發生異常,建議更
57、換全新的NVME SSD。表6-46.3 系統事件日志通過“系統事件日志”界面的功能,用戶可以查看ISBMC系統事件日志,下載系統事件日志和清除系統事件日志。系統事件日志特性如下:(1)最多支持3639個條目。(2)支持人性化日志管理:可視化、篩選、下載、清空。(3)支持本地存儲和歸檔。(4)支持循環模式。當SEL已滿時,舊日志將被丟棄,新日志被保留。(5)操作清除SEL時,1條“SEL被清除”的日志將被記錄在SEL中。(6)支持通過Web或IPMI CMD導出SEL。(7)支持通過SNMP Trap、Syslog通知事件至遠程客戶端。系統事件記錄在ISBMC Web頁面導航欄中選擇“日志和告
58、警系統事件日志”,打開如圖6-8所示界面。參數說明見表6-5,日志操作說明見表6-6。6.3.1 圖6-8 系統事件web界面浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司23Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書事件IDSEL中的事件ID事件日志生成時間傳感器名稱,用戶可通過ipmitool sdr elist 查看設備所有傳感器名稱IPMI 2.0中定義的傳感器類型:Temperature /溫度傳感器Voltage /電壓傳感器Processor /CPU狀態傳感器Power Unit /PSU狀態傳感器Memory
59、 /內存狀態傳感器Drive Slot /硬盤狀態傳感器Critical Interrupt /Pcie狀態傳感器事件詳細信息描述傳感器類型傳感器名稱時間戳參數描述表6-5 系統事件日志參數表過濾選擇事件類型、傳感器和起止日期進行過濾搜索。動作:您可以采用過濾器選項(事件類型、傳感器名稱、起止時間),查看設備中記錄的特定事件。點擊該按鈕可下載日志到本地點擊該按鈕將刪除所有現有傳感器日志記錄清除事件日志下載事件日志參數描述表6-6 日志操作說明表浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司24Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技
60、術白皮書故障上報ISBMC支持實時監測系統告警事件,并通過SNMP(Simple Network Management Protocol)TRAP、郵箱、syslog等方式上報至遠程接收服務器。通過“SNMP TRAP設置”界面的功能,用戶可以(1)啟用SNMP TRAP(2)設置告警策略在ISBMC Web頁面導航欄中選擇“日志和告警SNMP TRAP”,打開如圖7-12和圖7-13所示界面。6.3.2 圖6-9 SNMP TRAP web界面勾選啟用 SNMP TRAP展開頁面,SNMP TRAP支持TRAP版本選擇,默認版本號V1,選擇V3版本時需要增加用戶名、認證密碼、加密協議以及加密
61、密碼。支持根據告警事件嚴重性級別進行上報過濾。Trap消息會攜帶主機標識符,主機標識可指定主機名、單板序列號、產品資產標簽中任意一個。圖6-10 告警策略web界面浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司25Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書告警策略支持設置4個syslog服務器的IP為目的地、端口,點擊保存。支持對接收目標發送測試信息。通過“郵箱告警”界面的功能,用戶可以(1)啟用或關閉SMTP郵件告警。(2)設置接收告警的郵件地址。在導航欄中選擇“日志和告警郵箱告警”,打開如圖6-11和圖6-12所示界面。圖
62、6-11 郵箱告警web界面勾選啟動SMTP郵件告警展開頁面,SMTP支持選擇SMTP服務器地址、SMTP服務器端口、SMTP服務器安全端口、是否啟用發件人身份證、發件人電子郵件ID、發件人用戶名、發件人密碼、是否啟用SMTP SSLTLS、是否啟用SMTP STARTTLS、郵件主題、主題附加、告警發送級別等信息。浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司26Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書接收告警的郵件地址最多支持4個接收目標,每個接收目標均可配置郵件地址以及對郵件地址的描述信息,支持對接收目標發送測試信息。
63、圖6-12 接收告警郵件地址web界面6.3.3 日志設置BMC支持“日志設置“功能,通過配置Syslog 日志設置,使 BMC 系統向第三方服務器以 Syslog 報文方式發送日志。在導航欄中選擇“日志和告警日志設置”,打開如圖6-13 所示界面,點擊“Syslog日志設置”,打開如圖6-14所示界面,具體參數見表6-7 和表6-8。圖6-13 日志設置界面圖6-14 Syslog設置浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司27Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書表6-7 Syslog設置遠程日志告警級別傳輸協議
64、Syslog告警日志存儲位置,可選擇是否存儲遠程日志。使用遠程日志時,BMC將日志存放在遠程Syslog服務器中和本地日志文件中。不使用遠程日志時,僅會存放在本地日志文件中。高于此告警級別的時間將被發送,可選為:Info:發送Info、Warning和Critical級別的告警信息。Warning:發送Warning,Critical級別的告警信息。Critical:僅發送Critical級別的告警信息。Syslog報文在BMC系統和Syslog服務器之間傳輸時使用的傳輸協 議,可選為:UDP:面向非連接的協議,在正式收發數據前,收發方不建 立連接,直接傳輸正式的數據。TCP:面向連接的協議,
65、在正式收發數據前,必須在收發方 建立可靠的連接。參數描述表6-8 Syslog服務器和報文格式序號啟用服務器地址序號。參數描述端口日志類型操作啟用或關閉自動上報Syslog報文功能。Syslog服務器地址信息。保存:保存該Syslog服務器和報文相關信息。測試:測試已設置的Syslog通道是否可以成功發送報文。需要使用Syslog報文上報的日志類型??蛇x為:Idl日志、audit日志中的一項或兩項。Syslog服務器端口號。IDL日志及處理建議 浪潮故障診斷IDL是浪潮ISBMC獨有的日志類型,用于記錄BMC設備上基于IPMI傳感器的事件歷史記錄。與系統事件日志信息相比,IDL日志信息提供的信
66、息更多更全,并且每條日志均有相應的處理建議,能更有效的幫助用戶進行日志診斷和分析。日志可根據日期、嚴重性、設備、關鍵字等方式進行過濾,可執行日志下載和日志清除操作,點擊每條日志后側按鈕 可獲取關于本條日志的處理建議以及相應的操作步驟。通過“IDL日志”界面功能,您可以查看此設備上的BMC IDL日志列表。通過點擊相應告警事件右側的處理建議按鈕,可以查看對告警事件的處理建議。在ISBMC Web頁面導航欄中選擇“日志和告警IDL日志”,打開如圖6-15所示界面。具體參數說明見表6-9,IDL日志操作說明見表6-10。6.3.4 圖6-15 IDL日志web界面浪潮專有和保密信息版權所有浪潮電子信
67、息產業股份有限公司28Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書圖6-16 IDL日志告警事件處理建議表6-10 IDL日志操作說明表過濾選擇嚴重性和起止日期以進行過濾搜索動作:用戶可以使用過濾選項(事件嚴重性級別、時間、關鍵字),查看設備中記錄的特定事件。下載IDL日志到本地點擊清除日志按鈕將清除BMC上所有IDL日志信息清除日志下載日志參數描述IDL日志支持告警事件處理建議,用戶可根據IDL日志的處理建議和相應操作步驟清除告警事件。如圖6-16所示。序號IDL日志中的事件ID事件錯誤等級,包括信息、告警和嚴重。FAN、INTRUS
68、ION、CPU、PSU、MEMORY、DISK、PCIe、BMC.告警事件的詳細描述IDL日志生成時間告警事件的唯一故障編碼,長度8字節服務器系統主機名針對此告警事件的處理建議處理建議主機名事件碼產生時間事件描述設備類型級別參數描述表6-9 IDL日志參數說明表浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司29Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書圖6-17 BMC 登錄界面圖6-18 系統概要web界面6.4 整機系統健康狀態監測系統概要在瀏覽器登錄BMC遠程頁面之前,地址欄輸入https:/BMC_IP/#dashbo
69、ard,并按“Enter”,打開如圖6-17所示頁面,該頁面在未輸入用戶名密碼之前會有一個整機健康狀態提示的圖標,用戶可根據該圖標,在未登錄之前確定是否該服務器存在異常問題。在登錄BMC遠程頁面后,通過主頁“系統概要”界面,用戶可以查看服務器信息、服務器運行狀況信息、固件版本信息、在線用戶信息等,了解整機系統的健康狀態。如圖6-18所示。具體參數見表6-11。6.4.1 Sensor 匯總列表通過“傳感器”界面的功能,用戶可以查看當前系統支持的所有傳感器的相關信息,并可以通過雙擊門限傳感器界面中的傳感器行跳到修改傳感器閾值界面進行設置。傳感器界面包含門限傳感器頁簽和離散傳感器頁簽。在ISBMC
70、 Web頁面導航欄中選擇“傳感器門限傳感器”,打開如圖6-19界面,具體監控的門限傳感器見表6-12,其范圍包含但不限于表6-12。參數說明見表6-14。6.4.2 服務器信息區域展示的信息服務器運行狀況正常/在位警告嚴重 不在位/燈滅固件版本信息BMC 版本。BIOS版本。ME版本。PSU版本。CPLD版本。在線用戶信息類型:登錄類型,如HTTPS、CTL等。用戶名:登錄BMC的用戶名。用戶權限:登錄BMC的用戶對應的用戶組信息。IP:登錄BMC的用戶所在機器IP地址信息。提供服務器的基本信息,包括:產品類型:服務器的產品類型。產品名稱:服務器的產品名稱。制造商:服務器的制造商。產品序列:服
71、務器的產品序號。資產編號:服務器的資產編號。System UUID:服務器的System UUID 信息。Device UUID:服務器的Device UUID 信息。綁定管理接口:服務器的綁定管理口IP地址。服務器開關機狀態:開機或關機。UID狀態:UID指示燈打開或關閉。整體狀態:服務器整體狀態。處理器:CPU健康狀態。內存:內存健康狀態。硬盤:硬盤健康狀態。風扇健康狀態。網絡:網絡健康狀態。電源:電源健康狀態。提供服務器的運行狀況,包括:說明:各模塊健康狀態可包含為:固件版本信息,包括:說明:因機型差異,此區域顯示的固件類型會有所不同。當前登錄本BMC Web的用戶信息,包括:表6-11
72、 IDL系統概要說明表圖6-19 門限傳感器web界面浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司30Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書名稱當前值嚴重低閾嚴重高閾單位Inlet_TempOutlet_Temp2530N/AN/AN/AN/AN/AN/AN/AN/AN/AN/A55deg_cdeg_cdeg_cdeg_cdeg_cdeg_cdeg_c8383107DisableDisableDisableDisableDisableDisableDisableDisableDisableDisableCPU0_Temp
73、CPU1_TempCPU0_NVDIMM_TCPU1_NVDIMM_TPCH_TempCPU0_VcoreCPU1_VcoreCPU0_VCCIOCPU1_VCCIOPSU0_VINPSU1_VINSYS_12VTotal_PowerFAN_PowerCPU_PowerPSU0_PINPSU1_PINFAN1_F_SpeedFAN1_R_SpeedFAN2_F_SpeedFAN2_R_SpeedFAN3_F_SpeedFAN3_R_Speedvoltsvoltsvoltsvoltsvoltsvoltsvoltswattswattswattswattswattsrpmrpmrpmrpmrpmrp
74、mN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/AN/A1.2061.2060.7740.774N/AN/A10.22.2232.2231.261.26N/AN/A14.0422412.18328Disable36Disable8400720084007200DisableDisable浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司31Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書在導航欄中選擇“傳感器離散傳感器”,打開如圖6-20界面,具體監控的離散傳
75、感器見表6-13,其范圍包含但不限于表6-13。參數說明見表6-15。表6-12 門限傳感器圖6-20 離散傳感器web界面浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司32Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書表6-15 離散傳感器參數表名稱傳感器名稱傳感器狀態狀態參數描述名稱狀態CPU0_StatusCPU1_StatusBMC_Boot_UpSEL_StatusPSU0_StatusACPI_PWRPower_ButtonUID_ButtonFAN_Redundant0 x80800 x80800 x80000 x8
76、0000 x80010X80000X80000 x80020 x8002PWR_On_TMOUTCPU_C0D0CPU0_C0D1Disk0_StatusPCIe_StatusBIOS_Boot_UpPost_StatusSys_Heath0 x80000 x80000 x80000 x8040DisabledDisabled0 x80020 x8004表6-13 離散傳感器審計日志記錄通過“審計日志”界面的功能,用戶可以查看系統的審計日志,BMC審計日志特性如下:(1)通過SSH、Redfish、IPMI、Web接口登錄系統進行管理的關鍵行為將會被記錄,其范圍包括但不限于登錄、注銷、用戶管理
77、、密碼管理、授權管理、核心安全配置(如訪問控制策略、自動更新策略、安全監控策略、審計功能)的變更、固件更新和恢復等。(2)審計日志支持的大小是200K,如果超過200K,較老的日志將會備份到BMC中。當前的審計日志可通過Web進行查看,較老的審計日志可通過一鍵收集日志功能下載。在ISBMC Web頁面導航欄中選擇“日志和告警審計日志”,打開如圖6-21所示界面,參數說明見表6-16。6.4.3 名稱傳感器名稱傳感器當前讀值傳感器狀態傳感器不可逆低閾值傳感器嚴重低閾值傳感器非嚴重低閾值傳感器非嚴重高閾值傳感器嚴重高閾值嚴重高閾非嚴重高閾傳感器不可逆高閾值傳感器讀值單位單位不可逆高閾非嚴重低閾嚴重
78、低閾不可逆低閾值狀態當前值參數描述參數描述表6-14 門限傳感器參數表圖6-21 審計日志web界面序號審計日志序號,序號越小的操作發生越早審計日志產生時間軟件接口,包括:WebCLIIPMIKVMVMEDIA_CDVMEDIS_HD用戶,記錄日志事件操作用戶,如admin,sysadmin或者NA等IP或硬件接口,硬件接口包括SERIAL、HOST、IPMB、USB和SSIFIP或硬件接口用戶事件詳細信息事件描述軟件接口產生時間參數描述表6-16 審計日志參數表浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司33Inspur ServerFault Diagnosis System浪潮
79、服務器故障診斷系統技術白皮書資產信息通過“系統信息”界面的功能,用戶可以查看系統的資產信息詳情,在該界面下有 CPU、內存、電源、設備清單、硬盤、網卡、安全芯片,七個子頁面,分別展示各種類別設備的詳情信息。以CPU子頁面為例,會展示CPU的在位狀態、處理器ID、具體型號、當前速率、核數、線程數、TDP、各級緩存大小、PPIN等。內存、電源、PCIe設備的具體詳細信息見圖6-22的示例所示。在ISBMC Web頁面導航欄中選擇“信息系統信息”,打開如圖6-22所示界面。圖6-22 資產信息web界面6.4.4 浪潮專有和保密信息版權所有浪潮電子信息產業股份有限公司34Inspur ServerFault Diagnosis System浪潮服務器故障診斷系統技術白皮書浪潮電子信息產業股份有限公司 文中有關產品圖片及文字僅供參考,詳細產品規格及價格,請向浪潮當地經銷商查詢 版權聲明2022浪潮,保留一切權利 BJ 09/2022浪潮技術支持與服務熱線 400-860-0011購買咨詢熱線 400-860-6708/800-860-浪潮服務器浪潮存儲