解决方案
如果采取非结构化的网络故障排除流程,即凭直觉在这些步骤之间重复执行,虽然最终也可能找到解决故障的方法,但无法保证稳定的效率。在复杂的网络环境中,有可能会由于非结构化的网络故障排除流程而导致新的故障,从而使网络故障的排除变得更加困难;
报告故障
企业中存在多个部门,这些部门间的网络有互联互访的需求。为了保障网络的正常运行,企业可能存在如下情况:
1)大中型企业成立网络维护部门,构建专业的网络团队;
2)小型企业出于成本考虑,一般不存在单独的网络维护部门,而是将网络托管给专业的网络维护公司;
3)求助设备生产商,拨打厂商的售后服务电话;
通常情况,网络故障的第一感知人员并非网络维护人员,而是其他业务相关的各个部门人员,网络工程师经常接到各种求助电话;
主动沟通确认,询问用户相关内容,并记录在排障报告中:
1)故障报告者:在企业环境中,不同级别的用户可能会有不同的网络访问权限,所以需要了解用户姓名、所在的部门、职位级别、所负责的工作内容、使用电脑的位置(楼层、房间、无线接入还是有线接入)、在使用电脑访问什么网站时发现的问题;
2)故障频率:是突发的、偶尔的、还是频繁的;
3)用户操作:出现故障之前和之后,用户对自己的终端做了哪些操作,如是否更改了 IP 地址和 DNS、是否安装了桌面防火墙软件、安全控制软件等;
确认故障
确认故障的原因是:用户的描述可能是含糊不清的,报告的故障也不一定是真实的故障点,所以需要有经验的工程师进行确认故障的工作;
确认故障的四个要素:
故障的主体:哪个网络业务出现了故障;
故障的表现:故障的现象是什么样的;
故障的时间:用户是什么时间发现的故障,以及专业人员推测的故障出现的真实时间;
故障的位置:哪个网络组件出现了故障;
对故障现象进行准确的描述;
最后应确认该故障是否属于自己的负责范围,即自己是否被赋予相应的权限来处理该故障;
收集信息
需要收集哪些信息:收集信息阶段主要是收集与故障相关的信息,如文档、网络变更情况等;
如何收集这些信息:使用设备自身的操作命令;使用信息收集工具,如抓包工具、网管软件等;
获取授权:在对信息安全要求较高的网络环境中,对信息的收集是需要得到授权的,有时需要签署书面的授权文件;
收集信息阶段的风险评估:有些收集信息的操作,如对路由器或交换机执行”debug”命令,会导致设备的 CPU 占用率过高,严重的情况下甚至会使设备停止响应用户的操作指令,从而引入额外的故障现象。所以在收集信息的时候应评估这些风险,平衡引入新故障的风险与解决现有故障的紧迫性之间的关系,并明确的告知用户这些风险,由用户来决定是否进行风险较大的信息收集工作;
判断分析
判断分析阶段是对收集到的信息进行分析整理。通过对故障信息、维护信息、变更信息的汇总,结合团队经验(或个人经验)进行综合的判断和分析,得到可能导致网络故障的原因列表;
原因列表
在原因列表阶段,首先需要列出所有可能的故障原因,然后通过信息过滤,列出最可能的待排查故障原因,同时排除掉当前最不可能的故障原因,从而缩小故障的排除范围;
故障评估
在需要在逐一排查前,进行故障评估工作;
在故障评估阶段可能需要搭建临时的网络环境;
对复杂的网络故障,如果经过评估认为短时间内无法排除故障,而用户又需要马上恢复网络的可用性,这时可能需要临时跳过故障节点,搭建替代的网络环境;
搭建临时网络环境的时候,应充分考虑到解决问题的迫切性与绕过某些安全限制措施的危险性,应与用户进行充分的沟通,并在得到许可的情况下才能执行;
逐一排查
在逐一排查阶段同样需要平衡解决问题的迫切性与引入新故障的风险性之间的矛盾。所以应该明确告知用户排查工作可能带来的风险,并在得到许可的情况下才能执行操作;
有些情况下,通过逐一排查验证推断的过程涉及到网络变更,这时必须做好完善的应急预案和回退准备;
解决故障
如果通过逐一排查找到了故障的根本原因,并排除了故障,网络故障排除的流程就可以结束了;
复杂的网络环境中,故障现象消失后仍然需要观察一段时间,一方面确认用户报告的故障已经得到了解决,另一方面确认故障排除的过程中没有引入新的故障;
收尾工作
收尾工作包括相关文档的整理、信息的通告等。需要对之前网络故障排除流程中所有进行了变更的配置或软件进行备份,并做好故障排除文档的整理和移交工作。为了避免同样的故障再次发生,在此阶段应该向用户提出改进建议;