最新消息:欢迎您,亲爱的读者!您可以通过QQ号或新浪、腾信微博账号直接在评论处登录,发表评论并选择转发到微博、QQ空间。

【郝尚永专栏】医院常见网络故障快速排查及处理策略

专栏 HIT金子 1298浏览 评论

来源:HIT专家网     作者:天津市肿瘤医院  郝尚永

郝尚永

上月,信息中心进行新入职员工工作满一年的考核会,其中有这么一个问题:某科室报修网络不通、连不上服务器了,怎么快速排查和处理这种网络故障?每个工程师都很努力回答了几条,汇总一下七七八八也大体差不多,但总感觉还是缺些什么。晚上静心思考,其实工程师们把眼光都是局限在了一个个的单独点上,缺乏一个具有全局观的整体思路和框架。而这个问题在医院信息中心的日常运维工作中,是最常遇到甚至每天都要发生的,要有一个快速排查和处理问题的整体思路和策略很有必要。

趁周末有时间,沏杯热茶,搬出日常的工作笔记梳理思考,整理成此文——医院常见网络故障快速排查及处理策略,避免出现问题后盲目处理,东一榔头西一棒子,没有章法。

这些分析和策略有的看起来似乎十分简单、人人都知道,但在实际工作中如何能够做到条分缕析、面面俱到、逐一落到实处,并不是件易事。希望能与同行相互交流,在医院网络维护工作中互有启发,继续补充完善。

医院网络现状

(1)医院网络多为内网、外网两套网,并且物理隔离。

(2)医院网络为星型网络结构,网络交换机分为核心层、汇聚层、接入层。

(3)为保障高可用性,内网多为双核心、双汇聚的架构,各楼层的接入层交换机双上联到楼宇的汇聚交换机,汇聚交换机再双上联到核心交换机。

(4)多采用固定IP地址,并绑定MAC地址。

(5)需要外联的网络链路越来越多,例如银行、医保、网上预约通道、微信支付、省市卫计委上传平台、国家新农合平台等。

医院网络故障的风险因素点和原因分析

(1)信息点位规划不合理;

(2)临时线慢慢变成正式线;

(3)科室搬家;

(4)同一办公室内点不够需要增加集线器(HUB);

(5)私接设备、私接线路、私改IP、私改设置;

(6)跳线杂乱没有标识;

(7)设备、线路、模块等的积尘老化;

(8)设备背板、电源、模块等硬件故障;

(9)设备配置文件丢失、版本升级失败等软件故障;

(10)设备温度过高;

(11)交换机长期高负荷或者报错没有发现;

(12)交换机广播风暴;

(13)网络端口双上联形成环路;

(14)跳线质量不过关;

(15)网络设置如VLAN等设置错误;

(16)交换机版本不兼容或者端口接口类型不兼容;

(17)ARP攻击或网关被篡改;

(18)受到网络攻击或被病毒侵袭;

(19)设备意外断电;

(20)施工中刨断线缆。

网络故障的分类

(1)按照故障类型分

物理故障:如线路故障、交换机故障、服务器故障等;

逻辑故障:如网络配置故障、环路故障、路由故障等;

外端故障:如Internet出口故障、医保中心端故障等。

(2)按照故障性质分

连通性问题:链路彻底不通;

性能问题:网络时断时续、传输速度慢。

网络故障排查理论基础七层模型

网络故障排查及处理的指导思想是:网络不会发生无缘无故的故障,网络不会存在解决不了的问题。

网络七层

由于各层相对独立,按层排查能够有效地发现和隔离故障,因而一般使用逐层分析和排查的方法。

通常有两种逐层排查方式:一是从低层开始排查,适用于物理网络不够成熟稳定的情况,如组建新的网络、重新调整网络线缆、增加新的网络设备;二是从高层开始排查,适用于物理网络相对成熟稳定的情况,如硬件设备没有变动。无论哪种方式,最终都能达到目标,只是解决问题的效率有所差别。

在实际应用中往往采用折衷的方式,凡是涉及到网络通信的应用出了问题,直接从位于中间的网络层开始排查,首先测试网络连通性,如果网络不能连通,再从物理层(测试线路)开始排查;如果网络能够连通,再从应用层(测试应用程序本身)开始排查。

2

网络故障排查及处理流程图

网络故障排查及处理步骤

步骤0:网络结构心中有数

作为信息中心网络工程师,应该熟悉网络中的设备以及网络拓扑情况,如同熟悉从单位回家的路一样。当你的朋友打电话问你路时,你在知道他所处的位置后,会告诉他从当前位置如何快速到达你的单位。而解决网络中的故障,和“指路”是差不多相同性质的工作。

  • 要熟悉网络拓扑图,知道网络中有什么设备,这些设备之间是如何层级连接的;
  • 内网需要知道各设备的IP地址、子网掩码、网关地址、VLAN信息等;
  • 外网还需要知道DNS地址以及路由表信息。

步骤1:了解故障现象

全面了解故障的现象,并详细询问相关细节,可以请故障发生时操作人员描述正常运行时的情况,检查一下在故障发生之前是否对节点或是网络进行了改动。如果能重现问题可以重现。

询问问题 引起网络故障的潜在因素
故障表现现象如何 网络不通、速度过慢、某项操作不能进行
故障现象有什么规律 时间的规律性、故障的随机性、故障的局部性等
故障发生前进行过哪些操作 优化系统、删除文件、插拔线路、做卫生等
故障发生时正在进行什么操作 正在使用系统、使用应用软件、升级
这个操作以前进行过吗 进行过没问题、进行过有问题但己解决等
以前同样操作是否成功 完全可行、可行但有小问题、一直运行不畅
最后一次成功运行是什么时候 在最近几天、一周以前等
最近硬件或软件发生了哪些改变 更换网络设备、安装某个软件、卸载某个软件等
周围环境最近有什么变化 办公室搬迁、安装新的线路、基建工程等

3

4

步骤2:定位故障范围

5

(1)单点故障,可定位故障源在故障源自身;

(2)小范围网络故障,可定位故障源在离故障源最近的相应设备或链路;

(3)全网故障,可定位故障源在出口或核心区域;

(4)非网络故障,并非网络故障问题,如服务器问题、存储问题等。

步骤3:隔离故障

如果故障影响整个网段,那么就通过减少可能的故障源来隔离故障。

步骤4:排除故障

(1)首先确认网络或相关设备是否出现人为变更;

(2)其次检查物理链路、设备是否正常;

(3)最后检查网络设备的相关属性或配置;

(4)从用户端PC到接入交换机,从接入交换机到汇聚层交换机,从汇聚层交换机到核心交换机,从核心交换机到防火墙,从防火墙到路由器,从路由器到出口网关。

确定了故障源,那么排除故障就比较容易了。对于网络硬件设备来说,最方便的措施就是简单地更换,对损坏部分的维修可以以后再进行。

步骤5:验证故障是否被排除

  • 请操作员按照正常工作操作,测试验证故障是否解决;
  • 请操作员快速测试几项其他操作以验证是否还有其他故障;
  • 有时解决了一个地方的问题有可能引起另外一个地方的问题;
  • 有时故障的表象是暂时解决了,但有可能掩盖了问题的本质,埋下了事故隐患。

常用排错方法

(1)终端主机

终端主机Windows系统常用命令:

CMD命令 作用
ipconfig  /all 查看网卡信息
ipconfig  /release 网卡信息复位
ipconfig /renew 重获取IP地址(DHCP环境下)
ipconfig /flushdns 刷新DNS缓存(外网环境下)
ping  IP地址 网络连通性测试
tracert -d  IP地址 网络联通路径追踪
arp  -a 查看ARP信息
arp  -d 重置网卡ARP信息
telnet  IP地址 远程登录

(2)物理链路

  • 检查链路指示灯状态是否正常;
  • 重新拔插链路(光纤跳线不适合反复插拔,多模光纤可以通过肉眼看到可见光);
  • 用测线仪测试线路是否物理断路;
  • 更换端口;
  • 更换跳线(PC端跳线、交换机端跳线)。

(3)网络设备

  • 查看状态灯,包括电源指示灯、状态灯、报警灯;
  • 感知设备温度,检查设备是否温度过高;
  • 如果使用了光纤收发器,给予特别注意;
  • 重启治百病,尤其是集线器Hub、无线路由器需要经常重启。

(4)网络交换机常用命令

掌握交换机的常用命令,例如:查看告警信息、查看设备温度、查看CPU使用率(超过80%应特别关注)、查看内存使用率(超过60%应特别关注)、看当前配置信息、查看端口信息、查看arp信息等。

(5)交换机常见指示灯含义

6

7

小助手二维码想加入HIT专家网专业交流群吗?请添加“HIT专家网”小助手微信好友后提交你的申请哦

(请注明姓名、单位名称、职务、主管技术或产品领域,以便有针对性加群)

【责任编辑:谭啸】

 

您必须 登录 才能发表评论!