专业咨询
致力推进中国医疗卫生信息化

《浙江省医疗卫生信息安全管理案例集》选登(5):交换机逻辑环网导致网络秒级闪断故障

来源:HIT专家网    案例提供人:嘉兴市第二医院   施乐旻

编者按:由浙江省卫生信息中心主任、浙江省卫生信息学会秘书长倪荣同志主编的《浙江省医疗卫生信息安全管理案例集》,汇集了来自全省医疗卫生信息化工作者们的实战心得,内容紧贴医疗卫生信息安全、系统运行维护的常见问题,具有很高的实用价值。相信对于医疗卫生信息化工作者、IT企业工程实施和运维服务人员而言,都是一本极其解渴的实用好书。

正是意识到这本书的巨大价值,HIT专家网作为行业信息服务平台,十分热切地期望向同行及时推荐分享这本书。经过与浙江省卫生信息学会接洽,HIT专家网受权开辟专栏以连载形式转载该书收纳的163个案例当中的10余个供读者品尝,同时欢迎有兴趣的读者踊跃订购,也可直接通过微店购书(http://weidian.com/i/1667178330?wfr=c)。 

jiaxingshidieryiyuan【案例描述】

某医院业务有秒级的闪断,第一次闪断发生后,间隔了三天又发生了第二次闪断,之后不到24小时再次出现两次闪断,接下来闪断越来越频繁。由于闪断的时间基本上在2到3秒,只有少量正在使用的业务系统出现需要重新登录的现象,起先业务基本不受影响,后期随着闪断的频繁,对业务系统的影响也越来越明显。信息中心及时联系了软件供应商和网络维护商来寻找这一故障产生的原因,并寻求解决办法。

【原因分析】

当第二次闪断发生后接到工作人员的报告,引起了高度重视,信息科人员认为此类事件绝非偶发事件,信息系统存在着较大的隐患,如不及早解决必定会对系统的影响越来越大。于是进行分析,归纳出以下几点可能。

1、服务器问题:经过观察,各主要服务器在两次闪断发生的时间点上运行状态良好,没有异常事件发生,各服务器CPU和内存的利用率也大体正常,可以基本排除服务器问题。

2、数据库问题:由于前两次系统闪断的时间点均不在业务高峰时段,在数据库的日志记录中也没有异常事件,各主要数据库的进程均无异样,观测到的第三次闪断发生时也没有数据库的异常现象,所以数据库问题也可以基本排除。

3、网络问题:由于闪断发生时接到的故障报告基本上分散在各个大楼,由某个系统引起的故障可能性也不大,基于上述检查采用排除法,基本可以判断是网络故障,所以集中力量对全院网络进行了排查。

【解决方案】

1、关闭一台核心交换机,排除双机虚拟化及双链路引起网络故障的可能性,使用尽量简单的网络环境运行业务系统,经过观察,故障依然发生。

2、由于核心交换机可以防止较大流量的环网,保障网络不会瞬间瘫痪,关闭核心交换机防环网功能继续排查是一个检查是否存在环网的有效手段。由于关闭防环网功能对网络产生的风险较大,后续的排查只能安排在晚上,当该功能关闭后发现网络闪断时间变长,更加频繁,而前期的检查已经排除了物理环网,但在抓数据包的时候感觉有环网存在,故判断网络中有逻辑环网。

3、分端口排查,在每个端口中进行防环网设置的开启和关闭工作。发现在其中一个端口下做如上操作,网络状态有明显变化,由此判断该端口下的两台交换机均有可能出现故障。

4、分别关闭两台交换机,发现其中一台较旧的交换机是问题的源头,在不停地发包,检查后判断为该交换机内部通讯发生异常为逻辑环网,马上更换了该交换机,并把前期修改的其它设置恢复原样。经观察,没有发现闪断及其它异常现象,抓包分析后也正常,到此故障排除。

【总结建议】

由于历史遗留问题,医院VLAN划分不是很合理,接下来需要将服务器VLAN和业务VLAN逐步分离,在有故障的VLAN也存在终端数量较多的问题,需要进一步细分。如能够完成上述工作,业务VLAN交换机故障影响到医院整体业务的事件将可以很好地避免,对故障排查的工作压力也将变小。

 

zhengdingfengmian20151204

 

医院信息部门一线人员必读书籍。如果您感兴趣更多类似案例的实操解决之道,欢迎订阅!详情请点击:实战力作 欢迎订阅《浙江省医疗卫生信息安全管理案例集》或者通过微店购书(http://weidian.com/i/1667178330?wfr=c)。

【责任编辑:石晨露】

赞(0)

评论 抢沙发

评论前必须登录!

 


未经允许不得转载:HIT专家网 » 《浙江省医疗卫生信息安全管理案例集》选登(5):交换机逻辑环网导致网络秒级闪断故障
分享到: 更多 (0)