来源:HIT专家网 作者:天津市肿瘤医院 郝尚永
上月,信息中心进行新入职员工工作满一年的考核会,其中有这么一个问题:某科室报修网络不通、连不上服务器了,怎么快速排查和处理这种网络故障?每个工程师都很努力回答了几条,汇总一下七七八八也大体差不多,但总感觉还是缺些什么。晚上静心思考,其实工程师们把眼光都是局限在了一个个的单独点上,缺乏一个具有全局观的整体思路和框架。而这个问题在医院信息中心的日常运维工作中,是最常遇到甚至每天都要发生的,要有一个快速排查和处理问题的整体思路和策略很有必要。
趁周末有时间,沏杯热茶,搬出日常的工作笔记梳理思考,整理成此文——医院常见网络故障快速排查及处理策略,避免出现问题后盲目处理,东一榔头西一棒子,没有章法。
这些分析和策略有的看起来似乎十分简单、人人都知道,但在实际工作中如何能够做到条分缕析、面面俱到、逐一落到实处,并不是件易事。希望能与同行相互交流,在医院网络维护工作中互有启发,继续补充完善。
医院网络现状
(1)医院网络多为内网、外网两套网,并且物理隔离。
(2)医院网络为星型网络结构,网络交换机分为核心层、汇聚层、接入层。
(3)为保障高可用性,内网多为双核心、双汇聚的架构,各楼层的接入层交换机双上联到楼宇的汇聚交换机,汇聚交换机再双上联到核心交换机。
(4)多采用固定IP地址,并绑定MAC地址。
(5)需要外联的网络链路越来越多,例如银行、医保、网上预约通道、微信支付、省市卫计委上传平台、国家新农合平台等。
医院网络故障的风险因素点和原因分析
(1)信息点位规划不合理;
(2)临时线慢慢变成正式线;
(3)科室搬家;
(4)同一办公室内点不够需要增加集线器(HUB);
(5)私接设备、私接线路、私改IP、私改设置;
(6)跳线杂乱没有标识;
(7)设备、线路、模块等的积尘老化;
(8)设备背板、电源、模块等硬件故障;
(9)设备配置文件丢失、版本升级失败等软件故障;
(10)设备温度过高;
(11)交换机长期高负荷或者报错没有发现;
(12)交换机广播风暴;
(13)网络端口双上联形成环路;
(14)跳线质量不过关;
(15)网络设置如VLAN等设置错误;
(16)交换机版本不兼容或者端口接口类型不兼容;
(17)ARP攻击或网关被篡改;
(18)受到网络攻击或被病毒侵袭;
(19)设备意外断电;
(20)施工中刨断线缆。
网络故障的分类
(1)按照故障类型分
物理故障:如线路故障、交换机故障、服务器故障等;
逻辑故障:如网络配置故障、环路故障、路由故障等;
外端故障:如Internet出口故障、医保中心端故障等。
(2)按照故障性质分
连通性问题:链路彻底不通;
性能问题:网络时断时续、传输速度慢。
网络故障排查理论基础七层模型
网络故障排查及处理的指导思想是:网络不会发生无缘无故的故障,网络不会存在解决不了的问题。
由于各层相对独立,按层排查能够有效地发现和隔离故障,因而一般使用逐层分析和排查的方法。
通常有两种逐层排查方式:一是从低层开始排查,适用于物理网络不够成熟稳定的情况,如组建新的网络、重新调整网络线缆、增加新的网络设备;二是从高层开始排查,适用于物理网络相对成熟稳定的情况,如硬件设备没有变动。无论哪种方式,最终都能达到目标,只是解决问题的效率有所差别。
在实际应用中往往采用折衷的方式,凡是涉及到网络通信的应用出了问题,直接从位于中间的网络层开始排查,首先测试网络连通性,如果网络不能连通,再从物理层(测试线路)开始排查;如果网络能够连通,再从应用层(测试应用程序本身)开始排查。
网络故障排查及处理流程图
网络故障排查及处理步骤
步骤0:网络结构心中有数
作为信息中心网络工程师,应该熟悉网络中的设备以及网络拓扑情况,如同熟悉从单位回家的路一样。当你的朋友打电话问你路时,你在知道他所处的位置后,会告诉他从当前位置如何快速到达你的单位。而解决网络中的故障,和“指路”是差不多相同性质的工作。
- 要熟悉网络拓扑图,知道网络中有什么设备,这些设备之间是如何层级连接的;
- 内网需要知道各设备的IP地址、子网掩码、网关地址、VLAN信息等;
- 外网还需要知道DNS地址以及路由表信息。
步骤1:了解故障现象
全面了解故障的现象,并详细询问相关细节,可以请故障发生时操作人员描述正常运行时的情况,检查一下在故障发生之前是否对节点或是网络进行了改动。如果能重现问题可以重现。
询问问题 | 引起网络故障的潜在因素 |
故障表现现象如何 | 网络不通、速度过慢、某项操作不能进行 |
故障现象有什么规律 | 时间的规律性、故障的随机性、故障的局部性等 |
故障发生前进行过哪些操作 | 优化系统、删除文件、插拔线路、做卫生等 |
故障发生时正在进行什么操作 | 正在使用系统、使用应用软件、升级 |
这个操作以前进行过吗 | 进行过没问题、进行过有问题但己解决等 |
以前同样操作是否成功 | 完全可行、可行但有小问题、一直运行不畅 |
最后一次成功运行是什么时候 | 在最近几天、一周以前等 |
最近硬件或软件发生了哪些改变 | 更换网络设备、安装某个软件、卸载某个软件等 |
周围环境最近有什么变化 | 办公室搬迁、安装新的线路、基建工程等 |
步骤2:定位故障范围
(1)单点故障,可定位故障源在故障源自身;
(2)小范围网络故障,可定位故障源在离故障源最近的相应设备或链路;
(3)全网故障,可定位故障源在出口或核心区域;
(4)非网络故障,并非网络故障问题,如服务器问题、存储问题等。
步骤3:隔离故障
如果故障影响整个网段,那么就通过减少可能的故障源来隔离故障。
步骤4:排除故障
(1)首先确认网络或相关设备是否出现人为变更;
(2)其次检查物理链路、设备是否正常;
(3)最后检查网络设备的相关属性或配置;
(4)从用户端PC到接入交换机,从接入交换机到汇聚层交换机,从汇聚层交换机到核心交换机,从核心交换机到防火墙,从防火墙到路由器,从路由器到出口网关。
确定了故障源,那么排除故障就比较容易了。对于网络硬件设备来说,最方便的措施就是简单地更换,对损坏部分的维修可以以后再进行。
步骤5:验证故障是否被排除
- 请操作员按照正常工作操作,测试验证故障是否解决;
- 请操作员快速测试几项其他操作以验证是否还有其他故障;
- 有时解决了一个地方的问题有可能引起另外一个地方的问题;
- 有时故障的表象是暂时解决了,但有可能掩盖了问题的本质,埋下了事故隐患。
常用排错方法
(1)终端主机
终端主机Windows系统常用命令:
CMD命令 | 作用 |
ipconfig /all | 查看网卡信息 |
ipconfig /release | 网卡信息复位 |
ipconfig /renew | 重获取IP地址(DHCP环境下) |
ipconfig /flushdns | 刷新DNS缓存(外网环境下) |
ping IP地址 | 网络连通性测试 |
tracert -d IP地址 | 网络联通路径追踪 |
arp -a | 查看ARP信息 |
arp -d | 重置网卡ARP信息 |
telnet IP地址 | 远程登录 |
(2)物理链路
- 检查链路指示灯状态是否正常;
- 重新拔插链路(光纤跳线不适合反复插拔,多模光纤可以通过肉眼看到可见光);
- 用测线仪测试线路是否物理断路;
- 更换端口;
- 更换跳线(PC端跳线、交换机端跳线)。
(3)网络设备
- 查看状态灯,包括电源指示灯、状态灯、报警灯;
- 感知设备温度,检查设备是否温度过高;
- 如果使用了光纤收发器,给予特别注意;
- 重启治百病,尤其是集线器Hub、无线路由器需要经常重启。
(4)网络交换机常用命令
掌握交换机的常用命令,例如:查看告警信息、查看设备温度、查看CPU使用率(超过80%应特别关注)、查看内存使用率(超过60%应特别关注)、看当前配置信息、查看端口信息、查看arp信息等。
(5)交换机常见指示灯含义
想加入HIT专家网专业交流群吗?请添加“HIT专家网”小助手微信好友后提交你的申请哦
(请注明姓名、单位名称、职务、主管技术或产品领域,以便有针对性加群)
【责任编辑:谭啸】
评论前必须登录!
注册