定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《H3C:2024年HDM技术白皮书(81页).pdf》由会员分享,可在线阅读,更多相关《H3C:2024年HDM技术白皮书(81页).pdf(81页珍藏版)》请在本站上搜索。 1、H3C HDM 技术白皮书 Copyright 2018-2024 新华三技术有限公司 版权所有,保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。本文档中的信息可能变动,恕不另行通知。i 目 录 1 概述 1 2 系统设计 2 3 产品功能 3 3.1 丰富的管理接口 3 3.1.1 Web 管理接口 3 3.1.2 IPMI 管理接口 3 3.1.3 SNMP 管理接口 4 3.1.4 Redfish 管理接口 4 3.1.5 HD2、M 联合管理 6 3.1.6 LCD 显示屏 6 3.2 主机监控 9 3.2.1 系统健康状态 9 3.2.2 传感器 10 3.2.3 系统资源监控 12 3.3 故障告警 13 3.3.1 故障告警 13 3.3.2 SDS 简介 14 3.3.3 SDS 故障诊断 15 3.3.4 故障上报 17 3.3.5 故障预告警 18 3.4 可维护性 18 3.4.1 操作日志 18 3.4.2 事件日志 19 3.4.3 串口重定向 21 3.4.4 传感器信息上报 21 3.4.5 串口信息监控 22 3.4.6 一键收集 22 3.4.7 诊断面板 23 3.4.8 安全面板 24 33、.4.9 蓝屏快照 24 3.4.10 录像回放 25 3.4.11 告警策略 25 3.4.12 Remote XDP 26 ii 3.4.13 ACD 27 3.4.14 iHDT 27 3.4.15 服务 U 盘 28 3.4.16 HDM 任务状态查询 28 3.4.17 应急诊断 29 3.5 主机管理 29 3.5.1 FRU 及资产信息管理 29 3.5.2 系统启动项 29 3.5.3 风扇管理 30 3.5.4 DCPMM 内存 32 3.5.5 网卡 33 3.5.6 FC HBA 卡 33 3.5.7 GPU 卡 34 3.5.8 硬分区 34 3.6 存储管理 34 34、.6.1 存储卡管理 34 3.6.2 逻辑盘管理 35 3.6.3 物理盘管理 36 3.6.4 存储可维护 38 3.7 智能电源和能耗管理 39 3.7.1 设备上下电控制 39 3.7.2 功率封顶 40 3.7.3 电源工作模式 41 3.7.4 历史功率统计 42 3.7.5 节能设置 42 3.7.6 AC 恢复配置 43 3.8 虚拟 KVM 和虚拟媒体 44 3.8.1 虚拟 KVM 44 3.8.2 H5 KVM 45 3.8.3 KVM 模式配置 45 3.8.4 虚拟媒体 46 3.8.5 KVM 截屏 47 3.8.6 KVM 录像回放 48 3.9 VNC 会话 45、8 3.9.1 VNC 介绍 48 3.9.2 VNC 支持共享模式和独占模式 49 iii 3.9.3 VNC 配置页面 49 3.9.4 建立非安全 VNC 会话 49 3.9.5 VNC 密码设置 50 3.10 HDM 网络 51 3.10.1 边带管理及 NCSI 技术 51 3.10.2 网口模式 53 3.10.3 IPv6 55 3.10.4 NTP 及时间管理 56 3.10.5 DNS 57 3.10.6 远程 Syslog 59 3.10.7 电子邮件告警 59 3.10.8 SNMP Trap 60 3.10.9 USB WIFI 61 3.10.10 LLDP 62 6、3.11 安全管理 63 3.11.1 用户权限 63 3.11.2 本地用户 64 3.11.3 LDAP 域用户 65 3.11.4 AD 域用户 66 3.11.5 密码复杂度 67 3.11.6 服务管理 69 3.11.7 防火墙 69 3.11.8 SSL 证书管理 70 3.11.9 双因素认证 70 3.11.10 可信硅根 73 3.11.11 硬件加密 73 3.12 固件管理 73 3.12.1 固件双镜像 74 3.12.2 固件升级 74 3.13 配置管理 75 3.13.1 配置文件导入导出 75 3.13.2 HDM 恢复默认配置 77 3.14 G3 和 G57、 服务器特性支持差异 77 1 1 概述概述 HDM(Hardware Device Management,硬件设备管理)是 H3C 自主研发的服务器远程管理系统。HDM 兼容服务器业界管理标准 IPMI、SNMP、Redfish,支持键盘、鼠标和视频的重定向,文本控制台的重定向,串口重定向,远程虚拟媒体,高可靠的硬件监控和管理功能。HDM 提供了丰富的特性支持,其主要特性有:丰富的管理接口 提供 IPMI/HTTPS/SNMP/Redfish 管理接口,满足多种方式的系统集成需求。联合管理 实现小规模服务器的统一管理,降低了中小企业服务器运维管理的成本。LCD 液晶显示屏 部分机架服务器可选8、配 3.5 英寸可触摸 LCD 液晶显示屏,方便了服务器的临场巡检或维护。故障监控和诊断 故障监控和诊断,通过精准定位与诊断,指导运维人员快速解决问题,保障设备 7*24 小时高可靠运行。故障日志可通过 SNMP Trap、SMTP、Redfish 事件订阅、远程 Syslog 多种途径主动上报。截屏与录像 通过截屏和录像可以快速分析系统崩溃的原因。RAID 带外管理 支持 RAID 的带外监控和配置,提升了 RAID 配置效率和管理能力。智能电源管理 功率封顶技术帮助管理员轻松提高部署密度;动态节能技术帮助您有效降低运营成本。虚拟 KVM、VNC 和虚拟媒体 提供方便的远程维护手段。支持 D9、NS/LDAP/AD 支持域管理和目录服务,能简化服务器网络管理和用户管理。USB WiFi 模块 支持外接小米随身 WiFi 模块,方便服务器的近场维护和管理。双镜像备份 提高系统的安全性,即使当前运行的软件完全崩溃,也可以从备份镜像启动。服务 U 盘 支持服务 U 盘,可执行一键收集等操作,简化了临场运维管理。安全管理 从接入、账号、传输、存储四个维度保障服务器管理的安全。支持双因素认证、黑白名单(防火墙)、接口服务管理、SSL、可信硅根、用户自定义权限。2 2 系统设计系统设计 如图 1 所示,HDM 硬件芯片采用服务器专用 SOC(System on Chip)芯片,有效管理服务器硬件10、设备。SOC 芯片支持远程 KVM 和 64M(G5 产品支持)本地 VGA 显示,支持专用和共享网口,以及其它丰富的板级管理和外设接口。图1 HDM 系统结构 HDM 的 KVM 模块通过 VGA 接口接收来自主机系统的视频信息,经过压缩后再通过网络将压缩数据传输到远程 KVM 客户端进行解压还原。此外 KVM 模块接收远程 KVM 客户端的键盘鼠标数据,通过模拟的 USB 键盘鼠标设备将数据传输到主机系统,实现远程的键盘鼠标控制。HDM 提供传统的 LPC 系统接口与主机系统通信,支持标准的 IPMI 管理。HDM 对外提供专用的 GE 以太网络接口,支持通过网络使用 IPMI、Redfi11、sh、SNMP 等接口进行远程管理操作。HDM 通过传感器实现了对服务器的温度、电压等状态全面监控,并且提供对服务器的风扇和电源的智能管理。支持整机功耗动态管理,通过电源主备、功率封顶、节能配置等技术实现服务器功耗最优化。HDM 支持最新的边带网络技术 NCSI(Network Controller Sideband Interface)以及 VLAN网络功能,通过边带网络可以支持更加灵活的管理组网。HDM 支持键盘、鼠标和视频的重定向、文本控制台的重定向、远程虚拟媒体(可将终端的光驱、硬盘、文件夹映射到服务器)和基于 IPMI2.0 的硬件监控和管理功能。支持 HDM 软件的双镜像备份和主备12、切换。HDM 下挂 SD 卡(Nand flash),用于存放 iFIST 镜像,并可用于记录服务器的运行信息,包括配置信息、操作日志、事件日志等。3 HDM 提供了丰富的用户接口,如基于 Web 界面的用户接口、命令行、IPMI 接口、Redfish、SNMP 接口,并且所有用户接口都采用了接入鉴别机制和高度安全的加密算法,保证接入和传输的安全性。HDM 对服务器进行了全面精细的监控,并且提供了丰富的告警和详细的日志。如 CPU 的内核温度、内存故障、硬盘故障、电压、风扇转速、电源故障等。同时还提供了 CPU、内存和硬盘信息的查询。HDM 能够在服务器宕机的时候自动保存宕机之前屏幕上输出的最13、后的信息,用于故障的定位。还支持即时的屏幕快照,第三方程序可以设置定时或周期性的进行屏幕截屏,不需要手工定时去查看服务器,为维护人员节省大量时间。HDM 各业务模块采用高内聚、低耦合的架构设计,启动响应迅速,能够及时响应带外管理接口的访问,确保各类传感器的正常运行,从而高效管理主机散热,保障主机业务的稳定运行。HDM 从正常启动至满足常用网络管理接口可访问的典型时间参数如表 1 所示。表1 HDM 可访问的典型时间参数 HDM 从启动至 时间/s 网络Ping通 74 s IPMI命令接口正常响应 90 s 可登录Web访问页面 70 s Redfish接口正常响应 85 s 3 产品功能产品14、功能 3.1 丰富的管理接口 3.1.1 Web 管理接口 HDM 提供了基于 HTTPS 的 Web 可视化管理接口。通过简单的界面操作快速完成设置和查询任务。通过远程控制台可以对服务器进行 OS 启动全程监控,对服务器进行 OS 操作,对服务器进行光驱/软驱映射等。支持通过 WebGUI 浏览快速响应,确保平均响应时间低于 1s。可以在浏览器地址栏输入 HDM 的网口 IP 地址(IPv4 或 IPv6)或域名地址打开 HDM Web 的登录界面,输入账号登录到 HDM Web。支持的浏览器有:Firefox78 及以上,Chrome 48 及以上。3.1.2 IPMI 管理接口 HDM 15、兼容 IPMI 1.5/IPMI 2.0 规范,DCMI(Data Center Mangeability Interface,支持数据中心管理接口),通过第三方工具(如:ipmitool)基于 LPC 通道或 LAN 通道实现对服务器的有效管理。LPC 通道:运行 KCS 协议,ipmitool 等工具必须运行在服务器本机的操作系统上。4 LAN 通道:运行 UDP/IP 协议,ipmitool 等工具可以远程管理服务器。第三方工具支持 Windows 和 Linux 系统。以下以 ipmitool 工具详细说明:ipmitool 命令格式:ipmitool interface parame16、ter ipmitool 命令举例:查询 HDM 的传感器列表 基于 KCS:ipmitool sensor list 基于 LAN:ipmitool-H*.*.*.*-I lanplus-U -P sensor list H:HDM 网口 IP 地址 I:传输协议,lan:不加密,lanplus:加密 U:HDM 本地用户名 P:HDM 本地用户密码 L:会话权限,默认 Administrator。3.1.3 SNMP 管理接口 基于简单网络管理协议(以下简称 SNMP)是管理进程(NMS)和代理进程(Agent)之间的通信协议。它规定了在网络环境中对设备进行监视和管理的标准化管理框架、通信17、的公共语言、相应的安全和访问控制机制。SNMP 具有以下技术优点:基于 TCP/IP 互联网的标准协议,传输层协议一般采用 UDP。自动化网络管理。网络管理员可以利用 SNMP 平台在网络上的节点检索信息、修改信息、发现故障、完成故障诊断、进行容量规划和生成报告。屏蔽不同设备的物理差异,实现对不同厂商产品的自动化管理。SNMP 只提供最基本的功能集,使得管理任务与被管设备的物理特性和实际网络类型相对独立,从而实现对不同厂商设备的管理。简单的请求应答方式和主动通告方式相结合,并有超时和重传机制。报文种类少,报文格式简单,方便解析,易于实现。SNMPv3 版本提供了认证和加密安全机制,以及基于用户18、的访问控制功能,增强了安全性。HDM 提供了基于 SNMP 的编程接口,支持 SNMP Get/Set/Trap 操作,第三方管理软件通过调用 SNMP 接口可以方便地对服务器集成管理。SNMP 代理支持 v1/v2c/v3 版本。SNMP 代理提供接口查询系统健康状态、系统健康事件、硬件信息、告警上报配置、功率统计数据、资产信息、散热管理、固件版本信息、网络管理等。3.1.4 Redfish 管理接口 Redfish 是一种基于 HTTPs 服务的管理标准,利用 RESTful 接口实现设备管理。每个 HTTPs 操作都以 UTF-8 编码的 JSON 格式(JSON 是一种 key-val19、ue 对的数据格式)提交或返回一个资源或结果,就像 Web 应用程序向浏览器返回 HTML 一样。该技术具有降低开发复杂性,易于实施、易于使用而且提供了可扩展性优势,为设计灵活性预留了空间。目前我们利用 Redfish 管理接口可以实现包括用户管理、获取服务器信息、管理模块信息等常用 HDM 和 BIOS 配置。5 Redfish=REST API+软件定义的服务器(数据模型),当前由标准组织 DMTF(www.dmtf.org)负责维护。Redfish 流程图如图 2 所示,客户端发出 HTTP(s)请求,通过认证(Token、Basic)之后,从数据库获取数据并返回读取结果,如图 3 所示20、。同时数据库通过 SEL 和 IPMI 实时更新数据库内容。图2 Redfish 流程图 6 图3 Redfish 接口操作示例(查询电源信息)3.1.5 HDM 联合管理 HDM 联合管理实现小规模服务器的统一管理,简化了中小企业服务器运维管理。HDM 联合管理主要提供如下功能,页面信息如图 4 所示:设备发现:支持 HDM 设备批量添加,最多支持添加 10 台设备(不支持 IPv6 地址);设备删除:支持单台和批量设备删除;状态查询:支持查看设备的基本状态信息,包括产品名称、产品序列号、健康状态、电源状态、UID 状态等信息;电源管理:支持设备的电源操作,包括:开机、关机、重启等操作;远程21、访问:提供设备 HDM 和 H5 KVM 访问的跳转链接。图4 联合管理信息 3.1.6 LCD 显示屏 H3C 部分机架服务器可选择配置 3.5 英寸可触摸 LCD 液晶显示屏,以用于显示或配置服务器相关信息。通过 LCD 显示屏,提升了本地维护的简便性,也加快了现场故障的定位和修复。LCD 液晶显示屏主要提供了如下功能:信息页面:显示产品名称、产品序列号、HDM/BIOS 固件版本号,如图 5 所示;7 状态页面:查看服务器整体,以及处理器、内存、存储、风扇、电源、温度传感器等部件的健康状态和日志等信息,如图 6 所示;监控页面:实时显示入风口温度,及 CPU 温度,如图 7 所示;配置页22、面:支持配置 HDM 管理口网络和恢复管理员账户等操作,如图 8 所示。各部件通过不同颜色来显示在位和健康状态,颜色显示规则和 Web 一致,如下:绿色:设备正常;黄色:设备出现轻微告警 橙色:设备出现严重告警;红色:设备出现紧急告警;灰色:设备不在位。图5 服务器基本信息显示 8 图6 服务器整体健康状态显示 图7 监控页面显示 9 图8 配置页面显示 3.2 主机监控 3.2.1 系统健康状态 通过 HDM 可以获取系统的整体和各部件的健康状态,健康状态可以通过 WEB、健康指示灯、LCD、诊断面板、安全面板等方式展示。在 Web 的【基本概况】页面可以看到服务器整体健康状态和告警汇总信息23、,如图 9、图 10 所示。整体健康状态由服务器相关部件健康状态决定,关联的部件有:处理器、内存、风扇、电源、存储、PCIe 设备、温感、主板、背板、转接卡等。10 图9 基本概况(G3 系列服务器)图10 基本概况(G5 系列服务器)3.2.2 传感器 1.3D 温度海洋 3D 温度海洋用于显示服务器机箱中各组件温度传感器的分布图及数值,同时提供了实际物理结构图作为参考,如图 11 所示。温度海洋上的圆圈与表中可用的传感器相对应,将鼠标移到温度海洋上的圆圈上可查看传感器名称、状态、温度读数和阈值。温度海洋的颜色从绿色逐渐变为红色,绿色表示温度为 0C,红色表示温度较高。坐标含义如下:X:传感24、器在 X 轴上的坐标信息;Y:传感器在 Y 轴上的坐标信息;Z:传感器所属的服务器信息。11 图11 温度传感器信息查询 2.传感器历史曲线 HDM 可以查看任意线性(温度、电流、电压、风扇转速)传感器的最近一周、一天的历史曲线信息,包括显示在某一时刻某一传感器的最高、平均、最低的数据信息,如图 12 所示。图12 传感器历史曲线 12 3.2.3 系统资源监控 1.系统资源监控 HDM 可以查看监控带内的 CPU、内存、磁盘的资源占用率资源,如图 13 所示。当监控带内的 CPU、内存、磁盘的占用率资源超过阈值时,系统会记录事件日志。支持告警阈值设置,如图 14 所示。使用本功能时需要在 O25、S 侧安装并运行 FIST SMS(Server Management Service,该代理软件运行在 OS 下)。图13 系统资源监控 图14 系统资源告警阈值设置 13 2.CUPS CUPS 将 CPU、Memory、IO 三者作为一个整体资源。通过动态负载率可判断当前主机所运行业务类型比例,动态负载率高说明该业务为当前主机主要运行业务,如图 15 所示。图15 CUPS CPU CUPS 动态负载率:当前 CPU 核心数据的累计利用率,CPU 值较高说明当前主要运行了计算密集型业务。Memory CUPS 动态负载率:当前内存总线的累计传输率,Memory 值较高说明内存总线访问频率26、高,跟使用的内存容量大小无直接关系。而 OS 下的内存使用率=已使用内存容量/内存总容量,如使用了 8GB 内存中的 2GB 内存,内存使用率为 25%。IO CUPS 动态负载率:当前 PCIe 总线的 IO 带宽利用率,IO 值较高说明 PCIe 总线访问频率高,当前主要运行了 IO 密集型业务。3.3 故障告警 3.3.1 故障告警 当服务器部件发生故障,系统不正常工作、宕机或断电时,HDM 能够根据不同类型及不同模块出现的故障产生告警信息,同时生成日志信息。服务器产品的告警可分四个级别,按告警严重性分为:正常(Info)事件提示级别用于表示对系统不会产生影响的事件,例如正常的状态变化,27、告警事件解除。轻微告警(Minor)轻微告警不会对系统产生大的影响,需要尽快采取相应的措施,防止故障升级。严重告警(Major)严重告警将会对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断。14 紧急告警(Critical)紧急告警可能会使单板下电,系统中断。需要马上采取相应的措施进行处理。不依赖 OS,HDM 能够检测部分故障信息如下:处理器:能够检测 CPU 的 IERR、自检错误、配置错误(包括 CPU UPI errors,IOH UPI errors,CPU core errors,IOH core errors 等)、MCERR 等故障;内存:能够检测内存的可纠正、28、不可纠正错误、高温、Post Training 失败等故障;电源:包括电源在位、AC/DC 输入丢失、电源预告警、PSU 自检失败等故障;风扇:能够检测到风扇的在位、故障、降级故障;存储:能够检测到硬盘在位、故障、预故障、关键阵列、故障阵列等故障;超温报警:包括对 CPU、内存、进风口、电源、硬盘等部件进行超温报警;主板和相关板卡关键信息,如电压、电流故障;总线:包括对 I2C、IPMB、QPI/UPI 总线故障检测。3.3.2 SDS 简介 HDM SDS(Smart Diagnose System,智能诊断系统),是一个全生命周期的设备智能诊断系统,能够对服务器主要硬件发生的故障进行快速、29、精准的检测与诊断。如图 16 所示,SDS 通过收集服务器硬件发生故障时的基础数据,包括传感器、CPLD、寄存器、事件日志等,基于历史硬件故障诊断经验库,对硬件故障的发生原因进行分析定位,最终给出故障诊断结果报告。故障诊断结果报告的内容包括故障模块、故障时间、故障类型、现象描述、可能原因、故障判据以及处理措施。图16 智能诊断系统 SDS 支持对服务器主要硬件的全面监控,提供了精准可靠的故障检测与诊断机制,可以检测和诊断的硬件故障包括:MCA 故障(CPU、内存和 PCIe 故障)电源故障(电流、电压、温度、电源风扇、IIC、均流)主板故障(二次电源、风扇、网卡、电流、电压、温感)PCIe 卡30、故障(网卡、RISER 卡、NCSI 通道)阵列卡故障(RAID 卡、线缆、扩展板、缓存、电池、硬盘)15 SDS 系统提供了一些辅助诊断功能,包括故障发生时的服务器系统截屏、HDM 串口日志、主机串口日志,IPMI 进程调试日志、HDM 重启原因记录等日志,通过这些故障诊断辅助功能,能够更加清楚地知道故障发生时的现场情况。3.3.3 SDS 故障诊断 1.MCA 故障诊断(Intel)MCA(Machine Check Architecture,以下简称 MCA)故障诊断是 SDS 的重要组成部分,MCA 故障诊断支持 CPU、内存、PCIe 故障的检测和诊断。SDS 采用轮询检测机制对 M31、CA 故障进行监控和诊断,即 SDS 在轮询过程中检测到 CATERR/MSMI 信号后,能够通过 PECI 通道进行带外收集硬件故障现场的基础数据,主要是错误相关的 Banks 寄存器和 CSRs 寄存器。结合收集的故障现场基础数据,基于历史硬件故障诊断经验库,对硬件故障进行分析定位给出诊断报告。如图 17 所示,从总体上展现了 MCA 故障诊断的流程。图17 MCA 故障诊断总体概览图 (1)CPU 故障检测 CPU 故障来源有两种,一种是 CPU 本身内部的故障,另一种是 CPU 外部部件(内存和 PCIe设备)故障引起的。MCA故障诊断能够检测CPU内部主要模块的故障,包括:取指单元(32、IFU),数据缓存单元(DCU),数据传输缓冲单元(DTLB)等。MCA 故障诊断能够分析出故障类型,在多个疑似故障源中进行综合分析,筛选定位到具体故障部件。常见的 CPU 故障类型有:缓存不可纠正故障,包括数据读取错误、数据写入错误、数据预取错误 看门狗超时故障,3-strike timeout UPI 不可纠正故障 CPU 内部电源控制模块故障 CPU 访存超时(2)内存故障检测 16 内存故障总体上可划分为可纠正内存故障和不可纠正内存故障。服务器系统一旦发生内存不可纠正故障将会对客户业务的运行造成严重影响。MCA 故障诊断专注于内存不可纠正故障的检测与诊断,可以对收集故障记录模块记录的内33、存故障地址进行解析,在服务器系统搭载的大量内存条中识别出故障的内存条,精准定位到具体的 CPU-Channel-DIMM。常见的内存不可纠正故障类型有:访存地址/命令错误 内存读取/写入错误 内存缓存控制错误 内存超时错误(3)PCIe 故障检测 MCA 故障诊断能够对收集故障记录模块记录的 PCIe 故障地址进行解析,在服务器系统诸多的 PCIe 设备中识别出故障的 PCIe 设备,精准定位到具体的 CPU-Slot。常见的 PCIe 故障类型有:Received an Unsupported Request 故障 Malformed TLP 故障 Completer Abort 故障 Co34、mpletion Timeout 故障 Poisoned TLP 故障 ACS Violation 故障 Flow Control Protocol Error 故障 Data Link Protocol Error 故障 Surprise Down Error 故障 2.MCA 故障诊断(AMD)HDM 接受 BIOS 传输的相关 AMD MCA 数据,并进行解析,能够解析如下信息:(1)CPU 故障检测 检测到 CPU 的不可纠正、可纠正错误,并可精确到 SOCKET;检测到 SMN 错误信息(SMN 寄存器记录的是一些会触发系统冷重启的错误),错误能够解析指向具体 Socket。(2)内35、存故障检测 检测到 ECC 内存错误能够精确到 Dimm,非 ECC 内存错误能够精确到 Channel;检测到 Mem Trainning 和 Mem Test 错误信息,能够精确错误到具体 Dimm。(3)PCIe 故障检测 检测到 PCIe 的可纠正不可纠正错误,解析错误指向到具体 Slot。3.电源故障诊断 电源是服务器工作的动力来源,电源故障的检测和诊断是基本要求,SDS 采用中断上报和轮询检测的机制对电源故障进行监控,能够支持11类共计 24种电源故障,基本涵盖了电源的主要故障类型,实现电源故障的全面监控和诊断。电源不在位故障;电源输入电压故障,包括输入欠压告警和保护,机房输入掉电36、或输入电源线接触不良;17 电源风扇故障;电源入风口温度故障,温度过高告警和保护,温度过低告警和保护;电源输出电压故障,包括输出电压过低告警和保护,输出电压过高告警和保护;电源输出电流故障,输出电流过高告警和保护;电源 1Hz 闪烁,不供电故障;电源 IIC 通讯异常;电源 EEPROM 信息错误,包括 FRU 信息不正确和非我司认证电源;电源型号不匹配;电源负载不均衡。4.主板故障诊断 主板是连接服务器其他硬件的枢纽,SDS 针对服务器不同机型进行个性化故障检测和诊断,最多能够支持 70+种主板故障类型。二次电源故障,涵盖了服务器各类二次电源模块,包括 CPU 和板卡电源模块等;风扇不在位故37、障和 PWM转速异常;温度异常,包括整机、CPU 和各类板卡温度异常;电压和电流异常。5.PCIe 卡故障诊断 PCIe 卡是对服务器功能的扩展,SDS 主要针对网卡和 RISER 卡进行故障检测和诊断,根据机型差异最多能够支持 40+种 PCIe 卡故障类型。网卡故障,包括自研 mLOM 卡和 25G 自研 FLOM 卡的电源、温感和在位异常;RISER 卡在位异常;NCSI 通道切换异常。6.阵列卡故障诊断 SDS 支持 PMC 和 LSI 阵列卡的故障检测和诊断,通过分析阵列卡上报的事件日志,能够支持 100种阵列卡故障类型。RAID 卡启动异常;线缆异常;内存异常;电池异常;硬盘异常;38、掉电保护模块异常。3.3.4 故障上报 故障告警:HDM 支持实时监测硬件和系统的故障状态,并主动上报故障事件日志,上报的通道包括 SNMP Trap、SMTP、Redfish 事件订阅、远程 Syslog 等方式。SDS 故障诊断:通过 HDM 的一键收集功能,可以查看 SDS 日志中的诊断报告,以获取硬件故障的详细信息。18 3.3.5 故障预告警 HDM 支持对 CPU、内存、硬盘、RAID 卡、网卡、电源等部件进行主动预警。CPU:支持对 CPU 的可纠正错误(Configuration error)、CPU 温度、QPI/UPI 总线、DMA 等预故障进行告警。内存:支持对内存的可纠39、正 ECC 错误进行预警功能。硬盘:支持对 HDD、SSD 盘的预故障、Media error、Prefail、坏道(仅 HDD 盘)等故障进行预告警;支持对 SSD、NVMe 盘的擦写寿命进行预告警和监控。RAID 卡:检测 RAID 卡 PCIe 链路上的总线可纠正错误,并提供预告警。支持对阵列卡上电池预故障(电压低)进行告警。网卡:检测网卡 PCIe 链路上的总线可纠正错误,并提供预告警。电源:支持对电源的预故障,负载不均衡,电源极限功率超过矫正时限等预故障进行告警。提供电源自检失败预告警功能。主板:监控主板上电压、温感等信息,提供相关预告警。3.4 可维护性 3.4.1 操作日志 操作40、日志包含审计日志、固件更新日志、硬件更新日志和配置日志。审计日志:记录访问 HDM 的操作信息,用于日常运维安全审计;固件更新日志:记录固件更新的操作信息及操作结果;硬件更新日志:记录硬件更新的操作信息及操作结果;配置日志:记录用户的配置操作及操作结果。日志包含时间、主机名和详细信息描述。日志等级包括:信息和告警。操作日志界面如图 18 所示。19 图18 操作日志界面 3.4.2 事件日志 事件日志用于记录、查看服务器传感器产生的各种事件。事件按严重性分成如下 4 个等级:正常:表示对系统不会产生影响的事件,例如正常的状态变化,告警事件解除;轻微:表示对系统不会产生大的影响,需要尽快采取相应41、的措施,防止故障升级;严重:表示对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断;紧急:表示可能会使服务器下电,系统中断。需要马上采取相应的措施进行处理。在事件日志页面可以通过传感器名称,事件等级,时间参数来快速筛选查询到所需要的事件日志,如图 19 所示。20 图19 事件日志界面 1.事件码 HDM 为每条事件日志标识了一个事件码,通过事件码可精确定位出设备的故障类型,并可方便查询相关告警日志手册,获取更详细信息。2.处理建议 HDM 的 Web 页面为部分事件日志提供“处理建议”显示,用户可立即获取相关故障的处理建议,加快了故障的快速定位和修复。图20 处理建议 21 342、.4.3 串口重定向 HDM 提供系统 SOL(Serial Over LAN,串口重定向)功能,即将原本只能从本地串口线输出的系统串口数据重定向到网络设备输出,并能接受远程网络设备的输入。网管人员在远程通过网络终端就可以轻松的查看系统串口实时输出数据,并能对系统进行操作干预,跟在近端使用系统串口效果一样。1.串口切换到多种部件 HDM 的 SOL 功能可切换到多种部件,包括 SOL 到 BIOS/OS、智能网卡、RAID 扣卡,如图 21 所示。图21 SOL 串口切换 2.串口信息记录 HDM 可以提供串口信息记录功能,该功能将部件的实时串口数据记录到内部存储介质中。当部件发生故障时,可以43、通过一键收集功能导出串口日志信息进行分析。3.4.4 传感器信息上报 HDM 支持将传感器信息(IPMI sdr elist 命令结果)定期发送到 Syslog 服务器,可配置 Syslog 服务器IP 地址、端口号、传输协议、定期发送间隔等参数。展示页面如图 22 的【传感器信息设置】所示。22 图22 Syslog 的传感器和串口信息上报 3.4.5 串口信息监控 用户可配置 BIOS/OS 串口日志直接发送到远程 Syslog 服务器,以方便对主机串口信息的监控。相关配置信息可参考 3.4.4 图 22 的【串口信息设置】。3.4.6 一键收集 一键收集日志(黑匣子)功能用于收集服务器的44、日志信息、硬件信息、SDS 故障诊断等信息,如图 23所示。也可以查看 CSV 格式日志,了解服务器运行状态。可以添加联系人信息,用于日志解析问题咨询,方便信息对接,提高运维工作效率。23 图23 一键收集 3.4.7 诊断面板 诊断面板(G3 服务器支持)可以直接的显示出服务器异常信息,如图 24 所示,诊断面板能直接指示到具体故障设备,其故障显示与 HDM 的事件日志记录同步。图24 诊断面板示意图 面板功能介绍:颜色指示:橙灯/红灯则表示对应组件有故障告警,绿灯表示组件状态正常。故障数码管:一般用于指示具体是哪个部件。24 支持设备:支持 POST/TEMP/CAP/BRD/CPU/DI45、MM/HDD/PCIE/PSU/RAID/FAN/VRD 大类的故障。多种故障:若多个组件同时出现故障时,诊断面板以 4 秒为周期循环显示全部故障。故障组件信息说明:POST:表示系统 POST 期间有错误发生,POST 异常中止。TEMP:表示对应组件温度超过设定阈值。CAP:表示系统功率超出当设置的功率封顶限额。BRD:表示设备上对应的 SMC/PDB/Node/mLOM 出现故障。CPU:表示对应的 CPU 上出现错误告警。DIMM:表示对应的通道上内存条出现告警。HDD:表示对应背板上硬盘出现错误告警。PCIE:表示对应的槽位上 PCIe 卡出现错误告警。PSU:表示对应的哪个电源模块46、出现错误告警。RAID:表示相应的 RAID 卡插槽上 RAID 卡状态提示。FAN:表示对应的风扇出现错误告警。VRD:表示对应的 SMC/PDB/CPU 等模块出现电源错误告警。3.4.8 安全面板 H3C G5 服务器支持安全面板,如图 25,为用户带来全新的视觉体验。安全面板氛围灯支持 3 种颜色(白色/橙色/红色),可实现背景灯光效果与服务器健康或功率负载等状态联动。用户根据指示灯即可获取服务器相关状态或故障信息。加快了服务器现场巡检或故障定位。图25 安全面板示意图 3.4.9 蓝屏快照 当服务器 Windows 操作系统发生故障重启时,HDM 支持将最后一屏以指定的格式保存在 H47、DM 的存储空间内。用户发现系统宕机后,可以通过网络登录 HDM 查看蓝屏快照,进而对故障进行快速分析。HDM 最多可保存十张蓝屏快照。该功能必须先开启 KVM 服务才会生效。25 3.4.10 录像回放 开启服务器的录像功能,当服务器操作系统发生崩溃、重启或关机时,系统会自动录制事件发生前的录像并保存到内部存储空间。技术人员可以通过录制的视频信息对操作系统崩溃、重启或关机的原因进行分析。在 HDM 的录像回放页面,如图 26 所示,用户可以对已录制的页面进行播放、下载、删除等操作。当前 HDM 支持记录三个视频文件。该功能必须先开启 KVM 服务才会生效。图26 录像回放 3.4.11 告警48、策略 1.NMI NMI 用于向 OS 触发一个 NMI 中断,以收集内核堆栈信息并输出到控制台,便于系统异常时定位。2.MCA 策略 MCA 策略是指当 HDM 检测到不可纠正的 IERR 错误(包括 CPU 错误、内存错误和 PCIe 错误)时,主机是否需要重启的策略。26 图27 告警策略 3.4.12 Remote XDP 针对 Intel CPU,用户无需购买 Intel专用调试器进入机房和服务器连接,远程即可对CPU进行 JTAG调试,收集服务器的 CPU、内存、PCIe、USB 等部件的寄存器信息,以协助定位到底层硬件疑难问题。(仅 1、2 路的 Skylake、Cooperla49、ke、IceLake 机型支持)。图28 Remote XDP 原理 使用介绍:(1)开启 HDM 的 RemoteXDP 服务。(2)在远程 PC 上安装 Intel 提供的 openIPC。(3)安装 Python,下载 Intel 提供的 Cscripts。(4)打开 CMD 窗口,在 cscripts 目录下执行如图 29 所示命令即可完成调试环境的建立。27 图29 Remote XDP 3.4.13 ACD 针对 Intel CPU 平台,HDM 集成了 Intel 的 ACD(Autonomous Crash-Dump,自动崩溃转储)特性。如图 30 所示,当发生 MCA 错误时50、,ACD 功能通过 PECI 通道带外收集 MCA 和 CPU 其它相关寄存器信息(包括 CPU、内存、PCIE 故障信息),将故障信息按照要求的 JSON 文件格式保存,可用CScripts 解析,增强了 Intel 平台的 MCA 故障的定位手段。图30 Intel 的 ACD 功能 HDM 支持通过 IPMI 接口主动触发 ACD 功能。3.4.14 iHDT AMD 提供的 iHDT(Hardware Debug Tool,硬件调试工具)工具,可用于远程对 AMD CPU 进行带外 JTAG 调试,收集服务器的 CPU、内存、PCIe 等部件信息,其原理如图 31 所示。G5 AMD 51、机型服务器支持 iHDT 功能,使用前需要首先在 HDM 上打开 iHDT 服务使能。28 图31 iHDT 原理。3.4.15 服务 U 盘 无需登录 HDM,用户或运维人员通过服务 U 盘可直接运行相关功能,简化了临场运维管理。G5 服务器智能挂耳上 USB Type-C 口为一个直连 HDM 系统的接口,如图 32 示。U 盘通过 typeC转 USB 连接线连接,可实现服务 U 盘相关功能。HDM 检测到插入 U 盘之后,根据 U 盘中的操作标识,可以执行一键收集操作。服务 U 盘制作:用户可通过 Unitool 生成 U 盘中的操作标识,以制作服务 U 盘。图32 G5 服务器 US52、B Type-C 接口 3.4.16 HDM 任务状态查询 支持 Redfish 查询 HDM 后台任务状态,可查询到任务类型、简短描述、状态(未开始/处理中/处理完毕)、触发条件(HDM 复位/系统热复位/系统下电)、估计的执行时间等信息。支持的任务包括:固件升级,SDS 一键收集,MCA 收集,KVM 镜像挂载,配置导入导出。29 3.4.17 应急诊断 当服务器因可更换硬件故障导致启动进程挂死在 POST 阶段时,可以通过本功能配置应急诊断功能,包括最小启动和诊断隔离启动功能,如图 33 所示。最小启动是指服务器仅启用单 CPU、单核、单通道内存来启动操作系统或 UEFI SHELL。在53、最小启动模式下,系统可以继续运行,从而可进行其它诊断和维护操作。诊断隔离启动是指当服务器启动失败时,对服务器的硬件部件进行诊断,诊断出故障部件后,隔离该部件并重新启动。通过诊断隔离可以提高服务器整体 RAS 特性,降低系统的整体故障率,保障了系统的正常运行。图33 应急诊断 3.5 主机管理 3.5.1 FRU 及资产信息管理 FRU 信息指整机或部件制造过程中写入到部件存储器件中的相关信息,包括:制造商,产品名称,部件号,序列号等信息。资产信息管理的核心是采集部件的唯一编码,HDM 支持采集服务器上相关部件的唯一编码,包括自研板卡和外购部件。自研板卡从 FRU 中获取部件信息,包括唯一编码信54、息。外购卡,HDM 从 BIOS 或其它带外方法获取相关信息。3.5.2 系统启动项 系统启动项用于配置服务器的下一次启动模式和启动设备,以及设置有效期,如图 34 所示。30 图34 系统启动项设置 3.5.3 风扇管理 HDM 支持风扇线性调速和更为精确的 PID 调速两种调速方法。1.MS 线性调速 MS 调速算法简单,直接根据温度以及 xml 配置文件来决定出风扇的转速。图 35 为示例的 xml 配置文件。31 图35 xml 配置文件 2.PID 调速 PID 风扇调速通过调速参数配置 XML 文件中传感器调速参数以及传感器温度,实时计算出风扇转速。其优点是能够更加精准的进行风扇转55、速控制。PID 算法如下:图36为PID算法调速效果仿真图。从中可以看到随着DTS温度的升高,风扇转速也会相应的增加,温度降低风扇转速也会相应的降低。32 图36 PID 算法调速效果 3.风扇模式配置 用户可根据不同场景,设置相应的风扇模式,包括:静音模式:风扇调速模式为静音模式时,在确保服务器正常散热的前提下,风扇以最低转速运转,此时噪音最小。该模式适用于对噪音要求比较高的场景。均衡模式:风扇调速模式为均衡模式时,风扇会加快转速,此时的噪音和散热能力介于静音模式和强劲模式之间。该模式适用于对噪音和散热能力有平衡要求的场景。强劲模式:风扇调速模式为强劲模式时,风扇以当前条件下的最高转速运转,56、此时噪音最大,但风扇的散热能力最强,能有效降低 CPU 等关键组件的温度。该模式适用于对服务器散热要求比较高的场景,如业务繁忙导致 CPU 等关键组件负载较大、工作环境温度变化频繁。自定义:设置风扇模式时,档位(1-20)越高,风扇的转速越高、散热能力越强,噪声也越大;档位越低,风扇的转速越低、噪声越小、功耗越低。3.5.4 DCPMM 内存 DCPMM(Intel Optane DC Persistent Memory Module,英特尔数据中心永久内存模块)内存是 Intel推出的一种新型的非易失内存设备。通过 BIOS 和 MCTP(over ME),HDM 可获取 DCPMM 内存的57、控制器固件版本、DCPMM 温度、控制器温度、剩余寿命、累计上电时间、内存容量、SSD 容量等信息,显示示例如图 37。33 图37 DCPMM 内存信息 3.5.5 网卡 HDM 实现了对支持 NCSI over MCTP(over PCIe)的网卡以及 OCP 网卡的带外管理,可获取网卡的端口信息,包括 MAC 地址,接口类型,连接状态,协商速率等信息,如图 38 为示例。注:BIOS 在 Legacy 模式下,HDM 不支持获取网卡 MAC 和固件版本号获取。图38 网卡信息 3.5.6 FC HBA 卡 通过 MCTP over PCIE,HDM 实现了对部分 FC HBA 卡的带外管58、理功能,包括可以实时获取卡的 WWN号,温度,健康状态,Link 状态,速率等信息。支持卡有:Lpe31002、Lpe31000、Lpe32002、Lpe32000。34 3.5.7 GPU 卡 HDM对GPU卡的带外管理可以获取内存总量,核数,额定频率,产品名称,厂家名称,厂商ID,固件版本,内部 GPU 个数,对应内部 GPU 的温感值等信息。当前支持 GPU 类型:NVIDIA、寒武纪、比思、燧原部分型号 GPU,不同型号 GPU 能获取信息不相同。3.5.8 硬分区 H3C UniServer R8900G3 服务器支持物理硬分区功能,可将一台 8 路服务器切换成 2 台 4 路服务器59、使用。两个分区的业务在硬件上隔离,并可换装不同的 CPU。各个分区拥有独立的 BIOS,可搭配不同的操作系统。独立资源&共享资源:独立资源:上下 4P 服务器可拥有和管理各自独立的 CPU、内存、硬盘、风扇、Riser 卡等资源,各硬分区的风扇都支持 N+1 冗余。拥有独立的 HDM 管理系统,并能升级各自的 HDM 等固件。共享资源:服务器的电源、中置背板资源由两个硬分区共享。3.6 存储管理 3.6.1 存储卡管理 HDM 可获取存储卡的数量,型号、厂商、固件版本、接口类型、接口速率、厂商序列号、缓存容量、模式、RAID 级别等信息。35 图39 存储卡信息获取 3.6.2 逻辑盘管理 H60、DM 支持对 LSI 卡(9300、9311、9400 除外)、PMC 卡(支持 MCTP over PCIe,P460、H460)存储卡进行创建逻辑盘操作。RAID 带外配置管理依赖 RAID 控制器 Firmware 的能力。支持修改 LSI 卡(9300、9311、9400 除外)下逻辑盘读写策略。36 图40 逻辑盘管理 3.6.3 物理盘管理 HDM 可获取物理盘的槽位号、厂商型号、固件版本、厂商序列号、状态、容量、属性(物理盘速率、接口类型和硬盘类型)、重构进度(LSI 卡支持)等信息。针对 LSI 卡(9300、9311、9400 除外)下的物理盘,可以配置物理盘的状态,包括:U61、nconfigured_Good,Unconfigured_Bad,JBOD 状态。支持配置物理盘为热备盘,包括全局热备和专属热备(PMC 卡不支持)。硬盘定位点灯。可查看并切换硬盘定位灯的状态,主要用于硬盘实际位置查找操作。37 图41 物理盘管理(逻辑视图)38 图42 物理盘管理(物理视图)3.6.4 存储可维护 1.故障告警 能够检测到硬盘在位、故障、预故障、关键阵列、故障阵列故障。HDD 盘:支持对物理故障、预故障、配置错误、固件状态异常、Media error、Prefail、UNC、坏道、硬盘 Miss 状态监控和告警。SSD 盘:支持对物理故障、预故障、配置错误、固件状态异常、62、Media error、Prefail、UNC、硬盘 Miss 状态监控和告警;支持对 SSD 盘擦写寿命、剩余预留块信息采集和告警。NVMe 盘:支持对 NVMe 盘擦写寿命监控和告警。控制卡:支持控制卡失效、重构进度失效告警。BBU:支持对 BBU 故障、预故障(电压低)、不在位进行告警。2.SDS 日志和诊断 通过 PBSI 通道,SDS 能够获取 PMC 卡相关日志信息,包括 60+种存储相关故障。通过 MCTP(over I2C)通道,能够获取 LSI 卡相关日志信息,约 200+条关于 RAID 卡、BBU、物理盘、逻辑盘、背板相关故障信息日志。39 SDS 诊断:支持对 PMC/63、LSI 的 RAID/HBA 卡的日志信息进行诊断,诊断出相应的错误原因,并给出了相关处理措施。支持的模块有:RAID 卡、连接线缆、BBU、存储介质。共计有 100 条故障判据。3.SMART 信息获取&诊断 能获取 SAS/SATA 的 HDD SSD 硬盘 SMART 信息,并实现了基于 SMART 信息的故障诊断功能。SMART 信息保存周期 30 天,采集周期 1 天 1 次。获取接口:通过一键下载获取。4.存储卡串口日志 通过一键下载可以获取 RAID 扣卡以及 LSI 卡(9300、9311、9400 除外)的串口日志信息。3.7 智能电源和能耗管理 3.7.1 设备上下电控制 64、HDM 的 Web 提供对服务器的电源控制方式如图 43 所示。图43 设备上下电 服务器电源控制方式包括:立即重启、强制关机、正常关机、开机、关机并重新开机。立即重启:表示对服务器进行冷复位,即:HDM 直接拉 PCH 使系统复位,绕过正常的操作系统关闭流程。强制关机:表示对服务器进行关机,无需等待 OS 响应,绕过正常的操作系统关闭流程,效果相当于长按服务器面板上的电源按钮。40 正常关机:表示对服务器进行安全关机,HDM 向 OS 发送 ACPI 中断,若 OS 支持 ACPI 服务,则先走正常的操作系统关闭(将所有运行进程关闭)后下电,否则,只能等到超过下电超时时间后,HDM 将系统强65、制关机;效果相当于短按服务器面板上的电源按钮。开机:表示对服务器进行上电。关机并重新开机:表示对服务器先强制关机再开机。3.7.2 功率封顶 现代数据中心一直面临的一项挑战是企业正在消耗大量的电源、空间和冷却成本。而随着能源需求以及能源和冷却成本的大幅度上涨,日益增长的可用能源的容量预计在未来几年里将跟不上需求的增长。对于当前的数据中心来说,最急需解决的问题就是通过技术创新实现节能降耗。在传统的数据中心中,客户为保证数据中心无间断运行,往往要耗费巨资来建设一套额外的电力基础设施。此外,IT 管理员通常会以过度能源供应,来确保电力供应。HDM 提供的功率封顶技术可以通过有效地对每一台服务器能耗的66、准确控制,避免了能源的过度供应,有效地将能源中过度供应的部分能源用于数据中心扩容。功率封顶功能通过设置系统的功率预期上限,当系统功率超过此上限值后,引导特定动作发生,从而保证机箱整体功率的合理分配。封顶失败进一步动作包括:记录事件:封顶失败后在系统事件文件中记录一条日志,默认执行。关机(可选):封顶失败后,系统将执行强制下电操作。41 图44 电源配置-功率配置 HDM 支持对 Intel 和 AMD CPU 的功率封顶功能。3.7.3 电源工作模式 在满足业务功耗前提下,将部分电源设置为热备用,提升电源功率转换效率。如图 45 所示,HDM可设置服务器电源的工作模式,包括主备模式和负载分担模67、式。主备模式:包括至少 1 个主电源,至少 1 个备用电源。当主电源发生故障,备用电源会自动切换为主电源,以保证电源的可靠性。当主电源实际功率超过主电源额定功率(主电源最大功率)的 62%时,备用电源将自动切换为主电源,变成负载均衡模式。负载均衡:所有在位电源均处于主电源模式,实现负载分担。42 图45 电源工作模式配置 3.7.4 历史功率统计 HDM 可以提供准确的能耗监测并且能通过曲线提供统计,从而使管理员能够通过能耗监测装置深入了解实际电力及散热资源的使用情况。用户可以根据历史数据对服务器节能进行优化。图46 查看历史功率 3.7.5 节能设置 一键设置电源性能模式,包括:性能模式、节68、能模式、均衡模式,如图 47 所示。满足不同客户或不同场景对服务器的性能、功耗、噪声等不同需求。43 图47 设置电源性能模式 通过调节 CPU 的最高工作频率(P-state)和空闲工作时间(T-state)可以降低系统能耗,如图 48所示。支持多种调节等级,操作灵活,满足不同产品需求。图48 设置节能 3.7.6 AC 恢复配置 AC 恢复配置用于配置服务器通电后系统的启动策略,如图 49 所示。包括:总是开启:通电后,服务器系统会自动启动;总是关闭:通电后,服务器系统保持关闭状态;上一次电源状态:通电后,服务器系统会恢复到上次断电前的状态。服务器缺省处于此模式。开机延迟:开机延迟时间。可69、以配置:0,15s,30s,45s,60s,以及随机(0120s)。开机延迟可以用于服务器的错峰上电,降低机房开机过程中的瞬时功耗。44 图49 AC 恢复配置 1.系统开机的最终指令由 HDM 控制 系统开机的最终指令都由 HDM 发出(该功能仅在部分机型实现)。AC 通电后主板 Standby 电源先供电,HDM 启动,然后由 HDM 根据开机通电策略决定是否将系统开机。3.8 虚拟KVM和虚拟媒体 3.8.1 虚拟 KVM 虚拟 KVM 是指用户在客户端利用本地的视频、键盘、鼠标对远程的设备进行监视和控制,提供实时操作异地设备的管理方式。图50 虚拟 KVM USBHDMIP netwo70、rk终端编码器DVI ReceiverVIDEOUSB显示数据以太网数据USB数据 45 3.8.2 H5 KVM H5 KVM 相对于 KVM 优势在于无需任何插件,通过浏览器 HTTPs 访问即可实现对服务器的远程管理。HDM 支持通过 IP 地址和账号密码来直接访问 H5 KVM。输入格式如下:http:/ip_addr/viewer.html?u=user_name&p=user_passord,示例如图 51 所示。图51 H5 KVM 的直接访问的示例 3.8.3 KVM 模式配置 共享或独占模式,如图 52 所示。独占模式:仅支持一个远程控制台会话,且拥有完全控制权限;共享模式:71、支持多个(1 主 N 从)远程控制台会话,主用户拥有完全控制权,从用户只有只读权限(只能查看远程控制台视频、进行截屏和视频录制操作,但不能进行任何控制操作)。加密模式:仅 H5 KVM 支持。使用加密模式之后信息在客户端和服务器加密传输,提高了数据传输的安全性。使用非加密模式的优点是数据传输速率较快,安装 OS 时推荐。46 图52 KVM 模式配置 3.8.4 虚拟媒体 虚拟媒体即通过网络在服务器上以虚拟 USB 光盘驱动器和软盘驱动器的形式提供对本地媒体(光盘驱动器、软盘驱动器或光/软盘的镜像文件,硬盘文件夹)的远程访问方式;虚拟媒体数据支持AES 128 CBC 算法加密传输。虚拟媒体的72、实现原理是将客户所在的本地主机的媒体设备通过网络虚拟为远端服务器主机的媒体设备。支持的虚拟媒介有:DVD、CD 光驱 ISO、IMG 文件 虚拟文件夹:将本地的文件夹挂载到主机端。USB key 47 图53 虚拟文件夹实现效果 3.8.5 KVM 截屏 在 KVM 界面可以开启截屏功能,截屏图像格式为 JPEG 格式,录像文件保存在本地 PC(打开 KVM的 PC),如图 54 所示。图54 KVM 界面的截屏功能 48 3.8.6 KVM 录像回放 在KVM界面可以开启录像功能,录像格式为AVI格式,录像文件保存在本地PC(打开KVM的PC)。如图 55 所示。当用户出于安全或者其他需要,73、要将虚拟 KVM 操作过程记录下来时,可以通过启动屏幕录像功能来实现。屏幕录像功能启动后,虚拟 KVM 控制台会自动将屏幕上的所有显示和操作都记录到自定义视频格式文件中。录像文件在本地可以通过播放器来播放。图55 KVM 界面的视频录制 3.9 VNC会话 3.9.1 VNC 介绍 VNC(Virtual Network Console,虚拟网络控制台)用于传送服务端的原始图像到客户端,该协议提供一种不用登录 HDM 即可访问控制服务器的方法,即用本地主机的显示器、输入设备远程控制服务器。VNC 系统由客户端,服务端和 VNC 协议组成。VNC 服务端 VNCServer:在 HDM 端运行,74、其作用是捕获并共享服务器屏幕,并且与系统运行状态无关。49 VNC 客户端即 VNCViewer(PC 端本地应用程序):用于与服务器交互,远程连接运行VNCServer 的计算机。第三方 VNC 客户端有 RealVNC、TightVNC、NoVNC 等。HDM 支持 IPv4、IPv6 VNC 会话,为用户提供更为灵活的 KVM 操作方式。3.9.2 VNC 支持共享模式和独占模式 HDM 同时最多支持 2 个 VNC 会话,且支持两种会话模式。共享模式:支持打开 2 个 VNC 会话,2 个 VNC 会话均有权限控制鼠标和键盘,可控制 OS;独占模式:当独占模式的会话连接时,如果存在共享75、模式的会话,该会话将被强制断开;独占模式的会话存在时,下一个会话的连接请求将被拒绝。共享模式与独占模式可由客户端配置。3.9.3 VNC 配置页面 VNC 在线会话使能默认关闭。配置页面为:单击安全/服务配置菜单项,进入服务配置页面,如图56 所示。图56 服务配置 3.9.4 建立非安全 VNC 会话 1.在 HDM 上的操作 开启 VNC 服务。2.在 VNC viewer 客户端进行登录操作 通过 VNC viewer 建立 VNC 会话;打开 VNC viewer,输入 VNC 密码打开 VNC 会话,如图 57 所示。50 图57 建立非安全 VNC 会话 3.查看会话 成功建立非安76、全会话后,可以在安全/服务配置查看到会话类型为 VNC,IP 地址为客户端 IP,且支持 IPv4 和 IPv6,如图 58 所示。图58 VNC 服务会话查看 3.9.5 VNC 密码设置 支持 VNC 的密码复杂度检查设置,当启用时密码固定长度为 8 位,不启用时密码长度是 1-8 位,如图 59 所示。51 图59 VNC 密码设置 3.10 HDM网络 3.10.1 边带管理及 NCSI 技术 边带管理(共享网口)就是利用边带 NCSI(Network Controller Sideband Interface)技术使管理系统与主机系统共用主机物理网口,通过一个网口就可以同时做管理操作77、和业务处理,简化组网,节省交换机端口;从安全考虑,利用 VLAN 技术将管理与业务划分在不同网段。NCSI 是基于物理总线 RMII 的带外管理总线协议。普通的网络管理总线是 MDC/MDIO 总线,这种管理总线需要额外的引脚作为物理总线,但是 NCSI 总线是与网络通信总线 RMII 复用总线,在 RMII总线基础之上定义一个 NCSI 协议,这样就可以达到减少物理引脚的目的。NC(Network Controller:网络控制器)在与对外通信上分为内部网络接口:Internal Host Interface,外部网络接口:External Network Interface,以及带外接口:78、Sideband Interface。其用途分别是:向外部网络发送数据,与 HDM 进行网络通信(包括 NCSI 协议)。HDM 通过 NCSI 协议进行网络配置,网络配置成功之后,HDM 就可以向 NC 发送正常的网络报文。从链路上看,NCSI 报文与网络通信报文在物理链路上共用一个物理总线:RMII,该 RMII 物理总线连接的另外一端是 HDM,那么这条总线在 NC 看来就是一个带外接口(Sideband Interface)。52 图60 边带管理框图 从数据流程来看,HDM 通过 MAC 向物理总线 RMII 发送一个网络报文,NC 通过 RMII 接收到网络报文后,对网络报文进行解79、析。解析后,如果是 NCSI 报文(判断的条件是:ether type 为 0 x88F8),则进行 NCSI 响应;如果是对外发送数据的网络报文(ether type 为非 0 x88F8)则将数据转发到External Interface。图61 边带管理数据流图 从协议层面上看,NCSI 协议是一个网络层协议,其网络类型码为 0 x88F8。53 图62 NCSI 协议 3.10.2 网口模式 HDM 可以配置的网口模式包括:正常模式、Bonding 模式、网口自适应模式。1.正常模式 用户可通过共享网口或专用网口访问 HDM,两个口 IP 地址应分属不同网段。图63 网口模式配置 2.80、Bonding 模式 使用 Bonding 功能可以提高 HDM 接入的可靠性。切换为 Bonding 后,系统会将 HDM 共享网络接口和 HDM 专用网络接口作为一个逻辑上的网络接口使用。切换后,Bonding 接口将继承 HDM 专用网络接口的 IP 地址和 MAC 地址。HDM 共享网络接口和 HDM 专用网络接口中的任意一个接口 UP状态,管理员仍然能通过 HDM Bonding 网络接口的 IP 地址访问 HDM。54 图64 Bonding 切换前后概览页面的网络配置 3.网口自适应模式 网口自适应模式指的是 HDM 管理流量优先选择专用网口作为通信端口,即共享网口和专用网口处于81、 Active/Standby 状态,同一时间只有一种网口可以访问 HDM,专用网口优先。当专用网口连接网线,无论共享网口是否连接网线,选择专用网口作为通信端口。当共享网口连接网线,专用网口未连接网线时,选择共享网口作为通信端口。网口自适应模式下,共享口和专用口和共用一套 IP 地址和 MAC 地址(专用口 MAC)。4.端口自适应 端口自适应模式指的是可以根据网卡端口的连接情况自动选择共享网口,该特性具有以下优点,只要网卡有一个端口处于连接状态,即可通过共享网口管理 HDM。sLOM、mLOM、FLOM、OCP 网卡、支持 NCSI 功能的 PCIe 网卡均支持此功能。共享网口切换指的是切换82、HDM共享网口后,管理员只要重新接入切换后的共享网口即可访问HDM,该特性具有以下优点:不用更改服务器在整网中的网络信息,实现平滑切换。不需要重新配置切换后共享网口的网络信息(包括 IP 地址、VLAN 等),提高维护效率。55 图65 共享网口切换 注意:网口自适应模式和端口自适应模式不能同时开启,否则可能会导致网络故障。3.10.3 IPv6 HDM 全面支持 IPv6。专用网口和共享网口(NCSI)的物理通道均支持 IPv6 地址访问,如图 66 所示。图66 HDM 支持 IPv6 地址功能 56 图67 支持 IPv6 登录 HDM Web 3.10.4 NTP 及时间管理 网络时间83、协议 NTP(Network Time Protocol)是 TCP/IP 协议族里的一个应用层协议,用于在一系列分布式时间服务器与客户端之间同步时钟。服务器的 HDM 支持配置服务器所在的时区,并通过手动或自动获取首选和备用 NTP服务器(支持 IPv4和 IPv6),手动设置NTP服务器地址支持FQDN域名,如图 68 所示。57 图68 NTP 页面 HDM 可以从多种时钟源获取时间信息,其时间同步的优先级如下:主NTP服务器 二级NTP服务器 DHCP Server兼任的NTP Server 主机ME(仅Intel产品)BMC上的 RTC。3.10.5 DNS DNS 是一种用于 TC84、P/IP 应用程序的分布式数据库,提供域名与 IP 地址之间的转换服务。完整的域名由主机名和上级域名组合而成。HDM 中,主机名可以手动配置,也可以根据服务器的 SN 号自动生成;上级域名可以手动配置,也可以通过 DHCP 自动获取。HDM 支持将共享网口和专用网口的 IP 地址与域名建立映射关系,并将该映射关系向网络中的 IP DNS 服务器进行注册。注册方式分为 nsupdate 以及 FQDN主机名方式:nsupdate 方式为客户端直接通过 nsupdate 命令更新 DNS 服务器的区文件;FQDN主机名方式为 DHCP 服务器在确认客户端的网络地址分配后,将客户端的信息动态注册到 85、DNS 服务器。用户可以将所有被管理服务器加入一个统一的管理域并使用便于记忆的域名来访问被管服务器的HDM。58 图69 DNS 注册流程 图70 IPv6 DNS 解析 图71 通过域名访问 HDM 域名服务配置设置主机名(如hdm)域名配置设置上级域名(如)完整域名如注册HDM明确IPv6地址对应的接口(共享网口或专用网口)域名服务器配置向域名服务器注册IPv6地址和完整域名的映射关系 59 3.10.6 远程 Syslog HDM 支持远程 Syslog 服务器获取操作日志和事件日志。可配置远程 Syslog 服务器的端口号,传输协议、日志类型、主机标识参数,如图 72 所示。传输协议支86、持配置:UDP、TCP、TLS 加密传输。其中 TLS 加密传输支持单向和双向认证,如图72 所示。图72 远程 Syslog 服务器配置 图73 Syslog 配置 3.10.7 电子邮件告警 HDM 可设置将服务器产生的事件日志通过“电子邮件警报”发送给指定用户,帮助用户监控服务器的运行状态。SMTP 服务器地址支持 IPv4 和 IPv6 地址。支持匿名/认证用户发送,告警信息最多支持发送给 16 个用户用于服务器监控。支持所有告警事件按严重等级上报,并支持严重等级设置,包括:“所有级别”,“紧急”,“轻微+严重+紧急”,如图 74 所示。60 图74 SMTP 配置 3.10.8 SN87、MP Trap HDM 可设置将服务器产生的事件日志通过 SNMP Trap 发送给指定用户,帮助用户监控服务器的运行状态。HDM 支持 SNMP Trap 服务器配置,可配置按严重性级别上报,包括:“所有级别”,“紧急”,“轻微+严重+紧急”。支持配置模块 OID 模式和事件 OID 模式两种模式上报,如图 75所示。模块 OID 模式:一个模块(以传感器类型划分)的告警对应同一个 OID,用户通过 OID 可确定出现问题的模块。事件 OID 模式:是在模块 OID 模式的基础上做了精细化处理,将每个模块下的每一种事件告警各自对应一个 OID,用户仅利用告警 OID 就可以确定模块的故障类型88、。图75 SNMP Trap 配置信息 61 图76 SNMP Trap 配置 3.10.9 USB WIFI 通过 G5 服务器智能挂耳上 USB Type-C 接口,HDM 支持外接第三方 USB WIFI 模块,为 HDM 提供了无线热点功能。通过无线 WIFI,用户可使用手机或便携机直接登录 HDM,并配合使用 HDM移动端 APP(HDM Mobile)或其它工具进行运维和巡检操作。注:当前仅支持小米随身 WIFI,且需要通过 typeC 转 USB 连接线进行连接;为提高安全性,仅允许同时接入 2 个客户端;无线名称:默认是产品名称+产品序列号后 10 位;无线密码:默认不加密,以89、实现即插即用。通过 HDM 可配置无线的参数包括:无线使能、无线名称、加密方式和密码、定时关闭时间、无线管理口 IP 地址,DHCP-server 地址池等参数,配置页面如图 77 示。62 图77 USB WIFI 配置 通过无线接口,HDM 支持网络协议有:WEB、Redfish、IPMI、SSH、Telnet。3.10.10 LLDP LLDP(Link Layer Discovery Protocol,链路层发现协议)提供了一种标准的链路层发现方式,使不同厂商的设备能够在网络中相互发现并交互各自的系统及配置信息,网络变化时,网管系统可以快速掌握二层网络拓扑信息和拓扑变化信息。HDM 支90、持 LLDP 协议,可以解析本地网络中交换机的相关信息,如图 78 所示。网络接口:服务器接收 LLDP 信息的网络接口;交换机 MAC 地址:上联交换机端口的 MAC 地址;交换机系统名:上联交换机系统名;连接端口号:上联交换机端口号;端口信息:上联交换机端口名;网口速率:网络接口的速率。HDM 支持主动发送 LLDP 报文,以方便邻居设备发现自身。63 图78 LLDP 配置 3.11 安全管理 3.11.1 用户权限 在用户访问配置页面可以配置本地用户和域用户(包括 LDAP 和 AD 用户),通过这些用户可以访问 HDM Web 界面。用户所拥有的网络访问权限由属于的角色组决定,HDM91、 支持的角色组有:Administrator:管理员,对所有功能具有读取和写入权限;Operator:操作员,对所有功能具有读取权限,对部分功能具有写入权限,能执行日常的基础操作;User:用户,具有只读访问权限,无法修改 HDM 配置;CustomRole1CustomRole5:自定义权限组用户,管理员可以配置用户所拥有的权限。自定义权限配置如图 79 所示。图79 网络权限 1.接口所属权限模块 HDM 将所有功能&接口(Redfish、IPMI)分属不同的权限模块,以提升接口的安全性。64 权限模块包括:用户配置,常规配置,远程控制,远程媒体,安全配置,电源控制,维护诊断,配置自身,查92、询模块。不同权限模块涉及主要功能如表 2 所示。表2 权限模块描述 权限模块名称 权限模块涉及功能简述 用户配置 包括:用户管理,高级密码配置,目录管理,导入导出,联合管理等 维护诊断 包括:硬盘点灯、CUPS、录像截屏、固件管理(更新、重启、主备切换)、恢复出厂配置,重新统计实时监控信息等功能 远程控制 存储管理、硬分区、系统资源监控设置、KVM(电源控制、镜像挂载除外)、VNC密码管理、系统启动项、UID灯控制、SOL串口设置、MCA策略和安全面板设置等操作 远程媒体 包括:虚拟媒体、KVM镜像挂载 安全配置 包括:服务配置、防火墙、SSL证书、PFR固件保护、登录安全性信息等 电源控制 93、包括:电源管理,风扇管理,NMI控制,物理电源按钮控制 常规配置 包括:网络配置(如:网口、NTP、SNMP、LLDP、DNS、syslog),资产标签配置等 配置自身 包括:配置用户(仅限本地用户)自身的密码 查询 包括:所有查询GET接口 3.11.2 本地用户 HDM 最大支持 16 个本地用户的配置,并可选择本地用户的接口权限(IPMI、WEB)和 SNMP 扩展权限配置,如图 80 所示。65 图80 本地用户配置 3.11.3 LDAP 域用户 LDAP(Lightweight Directory Access Protocol)是一个访问在线目录服务的协议。LDAP 目录中可以存94、储例如电子邮件地址、邮件路由信息等各种类型的数据,为用户提供更集中、更便捷的查询。如图 81 所示原理,启用 HDM 的目录服务,管理员可以将所有 HDM 的用户管理,权限分配,有效期管理都集中到目录服务器上,避免大量的重复性用户配置任务,提高管理效率。另外将用户集中到目录服务器上,也能大大提高 HDM 智能管理系统的安全性。图81 LDAP 服务器原理图 LDAP 标准优点:66 可扩展性:可以在所有 HDM 上同时动态支持 LDAP 服务器上新增账户的管理;安全性:用户密码策略都在 LDAP 服务器上实施。支持 SSL 加密机制;实时性:LDAP 服务器上账户的任何更新都将立即应用到所有的95、 HDM;高效性:可以将所有 HDM 智能管理系统的用户管理,权限分配,有效期管理都集中到目录服务器上,避免大量的重复性用户配置任务,提高管理效率。3.11.4 AD 域用户 AD(Active Directory、活动目录)是指 Windows 服务器操作系统中的目录服务;它提供了集中组织管理和访问网络资源的目录服务功能,使网络拓扑和协议对用户变得透明。AD 被划分成区域进行管理,基于这种结构,可以随着企业的成长而进行扩展。HDM 支持 AD 用户认证功能。启用 AD 认证并制定访问策略,如图 82 所示。配置完成后,用户可以使用 AD 目录服务器中设置的用户名和密码直接访问 HDM。其权限96、由用户所在角色组的权限决定,如图 83 所示。图82 AD 服务器配置 67 图83 AD 角色组权限配置 3.11.5 密码复杂度 账号安全包括:密码复杂度检查、密码有效期、禁用历史密码重复次数、登录失败锁定、密码锁定时长、弱口令检查,提示修改初始密码。在“配置-用户配置”的“高级设置”里可配置。如图 84所示。68 图84 账户安全设置 密码复杂度检查:开启该功能后,所有用户的密码设置需符合以下要求,否则密码设置无法通过检查;密码长度为 820 个字符,仅支持字母、数字、空格和特殊字符!#$%&*()_+-=|;:”,./?,区分大小写;至少包含大写字母、小写字母和数字中的两种字符;至少包97、含一个空格或特殊字符;不能与用户名或用户名的倒序相同;需符合“禁用历史密码”要求。密码有效期:用户密码的使用期限,临近使用期限前,HDM 会提醒用户更换密码。默认管理员不受密码有效期配置影响;禁用历史密码:用户修改密码时,禁止使用设置次数内的历史密码;登录失败锁定:用户登录失败的次数达到设定的次数后,系统会锁定该用户的登录;登录失败锁定时长:用户由于登录失败达到登录失败锁定次数后,被系统锁定的时长。用户被锁定后,在失败锁定时长内不能登录 HDM。弱口令检查:使用弱口令字典检查用户设置的密码是否属于弱口令,开启该功能后,用户设置的密码不能在弱口令字典中。69 弱口令字典管理:支持导入、导出弱口令98、字典,设置的密码在密码复杂度检查和弱口令字典认证功能使能的情况下不能在弱口令字典中。3.11.6 服务管理 为了满足客户的业务和安全需要,HDM 提供开关来控制是否提供服务端口。如图 85 所示,HDM支持查看和修改的服务有:CD-Media、FD-Media、HD-Media、IPMI、KVM、Remote_XDP|iHDT、SNMP、SSH、Telnet、VNC 和 Web。图85 HDM 服务配置 3.11.7 防火墙 防火墙可根据访问 HDM 的设备的 IP 地址(地址段)、MAC 地址和时间段进行访问控制,设置防火墙黑白名单规则,以允许符合规则的设备访问 HDM,如图 86 所示。黑99、名单功能:可以设置阻止访问 HDM 的设备的 IP 地址、IP 地址段和 MAC 地址,以及阻止访问生效的时间。处于黑名单外的设备可以访问。HDM 最大支持 20 条黑名单规则;白名单功能:可以设置允许访问 HDM 的设备 IP 地址、IP 地址段和 MAC 地址,以及允许访问的时间段。添加白名单规则后,白名单以外的地址均不能访问 HDM。HDM 最大支持 20 条白名单规则。其中黑名单的优先级比白名单高,如访问 HDM 的设备的 IP 地址既在黑名单,又在白名单中,则禁止访问。70 图86 防火墙配置 3.11.8 SSL 证书管理 SSL 证书管理包括上传 SSL、生成 SSL、查看 SS100、L。SSL 证书信息包括:使用者、颁布者、有效时间、序列号等信息。HDM 自带 SSL 证书,为提高安全性,建议替换成用户自己的证书和公钥对。3.11.9 双因素认证 传统平台登录只需要输入用户名和密码,用户密码是系统唯一的保护屏障,安全管理显的比较薄弱。在双因素认证方案的框架下,用户输入用户名密码的同时,还需要满足另一个因素才能正常登录管理系统,增强了系统管理的安全性。HDM 支持证书认证和 OTP 认证两种双因素认证,且它们不能同时启用。开启双因素之后,系统会关闭 Telnet、SSH、VNC、IPMI、Redfish、SNMPV3、SOL 等接口或服务,用户需谨慎开启双因素认证模式。1.101、OTP 认证 HDM 采用宁盾 OTP(One Time Password,一次性密码)动态令牌方案,使用 Radius 协议,支持国密算法,取得了国密资质认证。打开 OPT 认证之后,用户在登录 HDM Web 输入用户名密码时,还需要输入一个动态密码,这个动态密码可由硬件令牌或者手机令牌产生,且需要在 OTP 服务器上认证通过,才能够登录 HDM 系统,其组网方案如图 87 所示。71 图87 OTP 双因素认证组网方案 开启双因素后,HDM 的登录界面会新增一个动态密码输入框,如图 88 所示。图88 双因素认证登录 2.证书认证 为了提高了 HDM 的安全可靠性,避免因 HDM 用户信102、息泄露引发安全问题,HDM 提供证书认证功能。启用证书认证功能后,用户登录 HDM 需要同时拥有客户端证书和客户端私钥证书才能通过认证并登录成功。72 图89 证书双因素认证 用户从正式的 CA 认证机构申请根证书和客户端证书文件后,可以通过证书认证功能上传到 HDM,再为每个客户端证书绑定一个 HDM 本地用户。绑定成功后,用户打开浏览器上传客户端私钥证书。上传成功后,用户进入 HDM 登录页面根据提示信息选择客户端证书,就能以客户端证书绑定的本地用户的身份登录 HDM。认证流程如图 90 所示。图90 证书认证过程 73 HDM 最多可以上传 5 个根证书和 16 个客户端证书,每个根证书103、最多可以上传 16 个客户端证书,每个客户端证书只能绑定一个HDM本地用户。HDM支持上传Base64编码的根证书和客户端证书,证书格式包括:*.cer、*.crt、*.pem,浏览器仅支持上传*.p12 格式的客户端私钥证书。启用证书吊销检查功能前,请确保 Web 服务器和 OCSP(Online Certificate Status Protocol,在线证书状态协议)服务器可以正常通信.启用证书功能前,必须导入根证书和客户端证书,并绑定已启用 HDM Web 访问权限的 HDM 本地用户。否则,在后续登录时会出现无法认证的情况。3.11.10 可信硅根 Intel PFR 提供了固件保护104、、检测和恢复功能,提高了系统安全可信程度。其原理是把信任的根源放置到 Intel Xeon 处理器和平台的 PFR CPLD 上,使用这个可信硅根去执行对 HDM-Uboot 的校验和恢复,后续 HDM-Uboot 会进一步对 HDM 固件进行校验和恢复,从而实现了整个系统的安全可信。原理如图 91 所示。图91 Intel PFR 原理 3.11.11 硬件加密 HDM 的 SOC 芯片支持硬件安全加速模块,用来加强 HDM 的安全相关功能。主要应用在认证、数据加解密等安全应用中。实现了 AES、DES、3DES、RC4、MD5、SHA1、SHA224、SHA256、HMAC-MD5、HMA105、C-SHA1、HMAC-SHA224 和 HMAC-SHA256 算法。3.12 固件管理 HDM 可管理的固件包括:支持查询 HDM、BIOS、CPLD、PSU、LCD 固件版本;支持不断电不中断业务升级 HDM 固件版本;支持固件升级,且升级时 HDM、BIOS、CPLD、PSU、LCD 固件都已经进行过签名,确保镜像是完整的;74 HDM 支持双镜像切换。3.12.1 固件双镜像 为了提升系统可靠性,HDM 使用了固件双镜像备份技术,如图 92 所示。当在运行过程中出现 flash误操作或者存储块损坏时,可以切换到备份镜像运行。图92 固件双镜像 3.12.2 固件升级 支持对 HDM、106、BIOS、CPLD、PSU、LCD 固件升级,如图 93 所示。从兼容性考虑,建议用户将HDM 主备镜像更新到同一个版本。图93 固件升级页面 75 HDM 固件升级时支持两种生效方式(手动和自动),BIOS 固件升级支持三种生效方式(手动、自动和设置重启时间),且支持 HDM、BIOS 升级后的配置保留或覆盖,如图 94 所示。图94 固件升级页面 1.BIOS 自升级 当 BIOS 升级选择“配置保留”和“配置覆盖”时,HDM 仅上传 BIOS 的固件文件到 eMMC,后续主机重启时,BIOS 会通过 HDM 从 eMMC 中获取固件文件,自行升级固件,以实现相关的配置策略。3.13 配置107、管理 3.13.1 配置文件导入导出 配置导入导出就是指把 HDM、BIOS、RAID 的所有配置能以配置文件的方式导出和导入,实现管理员可以轻松的远程配置服务器,如图 95 所示。配置文件导入导出具有以下技术优势:通过 HDM 的配置导入导出功能实现带外批量配置 HDM、BIOS、RAID 三大模块的配置选项,覆盖选项全;配置可阅读、可编辑、可保存。可并行配置多台服务器;操作便捷,灵活使用将大幅提升管理运维效率;配置导入速度快:配置单个文件仅需 2 分钟,HDM+BIOS+RAID 全配置仅需 6 分钟;可配置参数多:其中 HDM 支持 100+选项、BIOS 支持 1000+选项、支持修改108、 RAID 级别。76 图95 配置文件导入导出页面 配置文件支持如下使用场景,如图 96 所示。导出配置文件,完成修改再导入=批量修改设置选项;配置文件在同型号服务器上通用,即针对同一类型机器快速完成大规模设备的配置和部署;更换主板或者恢复出厂默认设置后,可以快捷的恢复自定义设置。77 图96 配置文件导入导出使用场景示意图 3.13.2 HDM 恢复默认配置 恢复 HDM 默认配置可将 HDM 的配置恢复到最原始的配置状态,可用于 HDM 重新配置。3.14 G3和G5服务器特性支持差异 G3 和 G5 服务器支持的特性主要差异情况如表 3 所示,仅部分服务器支持的情况,请以服务器的实际情况为准。表3 G3 和 G5 主要差异特性 特性名称 G3 产品 G5 产品 其它描述 LCD显示屏 支持 支持 仅部分机架服务器支持 诊断面板 支持 不支持-安全面板 不支持 支持 仅部分G5机架服务器支持 iHDT 不支持 支持 仅G5 AMD服务器支持 USB WIFI 不支持 支持 G5智能挂耳上有专用管理接口的服务器支持 服务U盘 不支持 支持 G5智能挂耳上有USB Type-C接口的服务器支持 可信硅根 不支持 支持 G5 Intel服务器支持