「NETWORKING」- 日常维护:检查清单(Checklist)

  CREATED BY JENKINSBOT

解决方案

日常维护工作是有计划的例行工作,因此,针对各项操作整理一份操作清单(Checklist)是十分必要的;

针对网络设备的 Checklist:可以参考相应的产品文档;日常维护检查的项目也可由客户自定义;

Checklist
1)设备环境检查
2)设备基本信息检查
3)设备运行检查
4)接口内容检查
5)业务检查

设备环境检查

设备运行环境正常是保证设备正常运行的前提。然而实际工作的时候,当有故障发生,并不会第一时间检查设备环境,因为设备环境相比较其他的因素来说,更加的稳定和不容易发生故障;

温度和湿度对设备正常运行有重大影响,标准的机房都应该配备温度计和湿度计,并且应每天安排人员例行检查和记录;

机房的清洁和整齐也影响着设备的正常运行:清洁问题影响设备的散热;整齐主要是指设备、线缆的布放。按照规范的安装部署要求,设备和线缆都需要规范布放。但是在网络运行过程中,时常会有临时的调整,比如临时跳线测试。这些活动积累一段时间后,机房就会变乱。设备环境检查就是发现这些问题并及时纠正;

另一方面,非标准的机房更要注意设备环境检查,比如楼层的设备间,需要特别注意清洁和散热问题;

设备位置摆放是否合理,通过观察方法,设备应放在通风、干燥的环境中,且放置位置牢固、平整。设备周围不得有杂物堆积;
机房温度状况,观察 / 温度计,通常要求机房长期工作环境温度:0℃~45℃;短期工作环境温度:-5℃~55℃;
机房湿度状况,观察 / 湿度计,通常机房的长期工作环境相对湿度应在 5%RH~85%RH 之间,不结露;短期工作环境相对湿度应在 0%RH~95%RH 之间,不结露;
机房内空调运行是否正常,观察 / 空调,空调可持续稳定运行,使机房的温度和湿度保持在设备规定范围内;
清洁状况,观察,所有项目都应干净整洁无明显尘土附着。注意防尘网的清洁状况,及时清洗或更换,以免影响机柜门及风扇框的通风、散热;
散热情况,观察,设备正常工作时,要求保持风扇正常运转(清理风扇期间除外),擅自关闭风扇会引起设备温度升高,并可能损坏单板。不要在设备子架上通风口处放置杂物,还应定期清理风扇的防尘网;
线缆布放,观察,电源线与业务线缆分开布放。电源线布放整齐、有序。业务线缆布放整齐、有序。 线缆标签清晰、准确,符合规范;
接地方式及接地电阻是否符合要求,观察,一般要求机房的工作地、保护地、建筑防雷地分开设置,因机房条件限制,可采用联合接地。尤其对于户外使用的设备,设备接地非常重要,如果未接地容易造成雷击损坏;
供电系统是否正常,观察 / 电压表,要求供电系统运行稳定。直流额定电压范围为–48V DC~–60V。交流额定电压范围为 100V~240V;
……
注意,以上各种参数不同设备可能有所差异,以各自产品文档为准;

设备基本信息检查

设备基本信息检查包括软件版本检查、License 检查、设备存储空间等信息;
设备运行的版本 | display version | 单板 PCB 版本号、软件版本号与要求相符;
检查软件包 | display startup | 检查下述系统文件名是否正确:当前启动大包名;下次启动大包名;备份大包名;配置、许可文件、补丁、当前启动文件名和下次启动文件名;
License 信息 | display license, display license state | 查看 GTL License 文件名、版本及配置项是否符合要求,确认是否需要升级。“Master board license state”项为“Normal”。“Master board license state”项为“Demo”或“Trial”时,确认 License 在有效期内;
检查补丁信息 | display patch-information | 补丁文件必须与实际要求一致,建议加载华为公司发布的该产品版本对应的最新的补丁文件。 补丁必须已经生效,即补丁的总数量和正在运行的补丁数量一致;
检查系统时间 | display clock | 系统时间需要与网络管理服务器的时间保持一致(误差不超过 5 分钟);
检查存储空间 | dir flash、dir slave#cfcard | Flash/SD 卡 /CF 卡里的文件都必须是有用的,否则请在用户视图下执行 delete/unreserved 命令删除;
信息中心 | display info-center | “Information Center”项为“enabled”;
检查配置正确性 | display current-configuration | 通过查看当前生效的配置参数,验证设备配置是否正确;
检查 debug 开关 | display debugging | 设备正常运行时 debug 开关应该全部关闭;
检查配置是否保存 | compare configuration | 当前的配置和下次启动的配置文件内容一致;
……

关于设备运行的软件版本:
设备运行版本在项目建设时就应确认,正常情况下版本信息不会变化。在检查过程中若发现版本信息有变化,应重点关注。这种情况通常是由于不规范的管理造成的;
如果是新添加的设备,可能采用不同的软件版本;也有可能由于其他原因升级或降级了部分设备。特别是在网络规模较大的场景下,网络中同一款设备可能运行不同版本的软件。这时就需要重点关注不同版本是否能够满足同样的网络功能需求;

关于启动信息:设备上可能存在多个版本或多个配置文件,这种情况下冒然变更启动信息的会对网络的正常运行造成较大的风险。设备一旦重启(比如供电故障),则可能影响整个网络的运行;

关于 License 信息:不同设备的 License 规则可能不同,需要区别对待。某些设备的 License 是有期限的,需要重点关注;

关于存储空间:尽管大部分设备提供了数十 G 甚至数百 G 的存储空间,但是由于设备运行过程中会不断生成一些文件,如日志文件等。在某些异常情况下,如设备遭受攻击或设备信息频繁变更时,日志文件会急剧增加,如果这种现象持续存在,就可能会导致设备的存储空间耗尽、关键信息丢失;

设备运行状态检查

在进行设备运行状态检查时,重点关注设备硬件的运行状态,如板卡、电源、风扇、温度、CPU、内存等。一般设备上都设置了告警灯,通常硬件故障都会导致告警灯亮(具体状态因产品而异)。因此,也可以通过现场观察发现设备运行异常状态;

对于板卡、电源、风扇等部件的运行状态,应遵照厂商的相关指导进行判断,有必要时联系厂商进行指导。如果确认为硬件故障,可以联系供应商处理(由于不同项目、不同设备的维保方案不同,有的硬件故障可直接联系厂商更换,有的则需要联系供应商协助处理);

单板运行状态 | display device | 重点关注单板在位信息及状态信息是否正常。 单板“Online”为“Present”;单板“Power”为“PowerOn”;单板“Register”为“Registered”;单板“Alarm”为“Normal”;
设备复位情况 | display reset-reason、display reboot-info | 通过查看复位信息(包括复位时间、复位原因),确认无非正常复位;
设备温度 | display temperature、display environment | 各模块当前的温度应该在上下限之间;
风扇状态 | display fan | Present 项为 YES 表示正常;
电源状态 | display power | State 项为 Supply 表示正常;
FTP 网络服务端口 | display ftp-server | 不使用的 FTP 网络服务端口要关闭;
告警信息 | display alarm all | 无告警信息。如果有告警,需要记录,对于严重以上告警需并立即分析并处理;
CPU 状态 | display cpu-usage | 各模块的 CPU 占用率正常。如果 CPU 占用率如果超过 80%,建议重点关注;
内存占用率 | display memory-usage | 内存占用情况正常,如果“Memory Using Percentage Is”超过 60%时需要关注;
日志信息 | display logbuffer、display trapbuffer | 不存在异常信息;
主用板 / 备用板的备份状态 | display switchover state | 主备板同时存在时,要同时有主备板的显示状态信息。倒换完成,设备开始正常工作后,主用板需要显示为“realtime or routine backup”表示正常;
……

设备接口内容检查

网络设备通过接口来交换数据报文。因此,接口的信息非常重要。接口状态异常会影响到网络的功能;
接口如果出现大量错包,并且在短时间内不断增加,通常是由于链路(包括物理接口)的问题造成的;
接口错包 | display interface | 业务运行时,要检查接口有无错包,包括 CRC 错包等;
接口协商模式 | display interface | 接口协商模式正确,两边接口要一致,不能有半双工模式;
接口配置 | display current-configuration interface | 接口的配置项合理,如接口双工模式、协商模式、速率、环回配置等;
接口状态 | display interface brief | 接口的 Up/Down 状态满足规划要求。接口的收发流量是否过大?(长期超过 70%)
PoE 供电 | display poe power-state interface interface-type interface-number | PoE 供电状态正常,“Port power ON/OFF”为“ON”的接口,其“Port power status”为“Delivering-power”;
……

业务运行状态检查

业务运行状态主要是指网络协议的运行状态;
MAC 地址表信息 | display mac-address | MAC 地址表信息正确
VLAN 信息 | display vlan | 查看所有 VLAN 的基本信息
路由表信息 | display ip routing-table | 具有默认路由或者其他精确路由,便于故障时候可以远程定位 对于处于一个网络中同一层次的设备,如果运行相同的路由协议,各设备上的路由条目应该相差不大(因为静态路由的配置差异,路由条目上可能存在一定差异)
OSPF 邻居状态 IS-IS 邻居状态 BGP 邻居状态 | display ospf peer display isis peer display bgp peer | OSPF 邻居状态:邻居状态“State”为“Full”或者”2-Way” IS-IS 邻居状态:邻居状态“State”为“Up” BGP 邻居状态:邻居状态“State”为“Established”
VRRP 状态 | display vrrp display vrrp statistics | 备份组中的设备的 VRRP 状态“State”不能同时为“Master”
MSTP 状态 | display stp brief | 指定端口和根端口的“STP State”为“FORWARDING”
……