来源:HIT专家网 作者:衡反修
医院信息系统承接着医疗业务和患者服务,其稳定可持续的运行成为医院必需,也成为医院信息中心最大的责任和任务。今年6月,北京某医院核心网络交换机故障,备用交换机无法正常启用,导致三个院区的业务中断数小时,引起舆情和上级领导的高度关切,主管部门要求各医院防微杜渐,梳理风险并落实整改。
该案例医院的故障,为我们敲响了警钟:过去我们主要关注核心业务系统,比如HIS系统的核心服务器、数据库安全、备份、容灾和应急演练,关于核心网络交换机的主备切换演练少有。
从主流核心网络交换机的供应商处了解到,他们几乎没有收到过类似技术支持的诉求。医院普遍认为核心网络交换机设备本身可靠性高,且为双机模式,即使一台故障,另外一台还能支撑;如果出现故障,可以一边替换一边维修,为时不晚,不会影响业务系统应用。
但,核心网络交换机的故障和损坏也是会发生的。北京大学肿瘤医院建网近30年,在2021年出过一次外网核心交换机板卡损坏的故障。幸运的是在夜间发生,通过及时维修,未酿成规模故障。事后复盘:该核心交换机仅做了定时更新(8年左右)和运维,未曾做过如果一台设备故障时的模拟演练,以检验设备是否完好、备用设备是否可用,以及双核心、双链路是否真的是“双”的。
据我所知,大部分医院的核心网络设备都是在建设伊始,或设备更换时做过模拟切换,但也仅限测试设备本身,全网是否能够保障双链路,亦未可知;在设备在用期间,医院很可能顾不上应急演练。在没有演练的前提下,一旦出现故障,大概率就是措手不及。
2024年7月14日(星期日),北京大学肿瘤医院组织并成功实施了一场针对内网、外网及无线网三网核心网络设备的冗余演练。在介绍这场演练之前,有必要梳理一下医院网络核心交换机主备切换应急演练的必要性,以及可能存在的风险。
必要性
对医院网络核心交换机进行主备切换应急演练,具有以下必要性。
1.连续性保障。医院网络的连续性对于医疗业务系统连续性、确保患者健康和生命至关重要。通过演练,可以确保在主交换机失败时,备用系统能够无缝接管,保持网络服务不中断。
2.技术验证。演练可以验证备用系统的配置和性能是否满足需求,确保实际发生故障时能够正常工作。
3.提升人员技术能力和熟悉程度。通过模拟故障切换,可以增强医院网络工程师应急流程的熟悉度,提高他们对实际情况的应对能力。
4.发现问题。应急演练有助于发现潜在问题,如交换机及配套网络和安全设备配置错误、硬件兼容性等,从而可以在非紧急情况下修复这些问题。
5.符合性要求。网络安全等级保护、电子病历评级,以及互联互通评测等相关标准和要求,需要医院定期进行此类演练(不限于核心业务系统的数据库和应用),以证明其业务连续性和灾难恢复计划的有效性。
风险评估
其次是医院核心网络交换机主备切换应急演练的风险评估。我们先看一下演练的几种模式:
桌面演练。也叫“沙盘推演”,是最基础的灾备演练方式。桌面演练的工作量小,易于实施,可以根据实际需求灵活开展,并可以模拟多个场景。不过,这些演练场景都是“范本”,能解决计划性的问题,但故障哪有那么多计划?都是突然发生的;故障方式也是千姿百态。所以,桌面推演的效果相对有限。
模拟演练。模拟演练是以桌面演练结果为基础,由信息部门与门诊、收费、挂号、检验检查等相关业务科室共同参与,采用模拟数据和模拟业务系统运行演练。模拟演练是一种对现有生产环境没有影响的演练方式,由于需要虚拟出较为真实的使用场景,因此在技术上的要求较高,比如拔网线、正常关闭数据库等,以模拟出故障场景。这种演练在医院可能占绝大多数,一般会全院通知,暂停部分系统和业务,等模拟演练恢复了再使用系统,避免真的切换到备份或容灾系统后产生新的业务数据后续处理问题,以降低风险和对业务的影响。
实战演练。实战演练需要灾备系统真正接替生产系统运行一段时间,是在具体设定的灾难场景下,将业务切换到灾备系统及业务恢复环境,并在完成数据、应用及业务恢复后,由灾备系统提供对内、对外的业务服务;原来的生产环境可以进行必要的系统维护,或者为灾备环境提供备份支持。作为应急演练的最高阶段,实战演练的场景最为真实,更易发现潜在问题,并进一步完善灾备系统。
除桌面演练外,模拟演练和实战演练都有一定的风险,比如:
1.服务中断:演练过程中可能会出现意外,导致网络服务临时中断,影响医院运行。
2.数据丢失:如果切换过程不当,可能会导致正在传输的数据丢失。
3.配置问题:在切换过程中可能会遇到意外的配置问题,导致备用系统不能正常接管。
4.设备损坏:频繁的切换可能会对设备造成额外负荷,从而增加故障率。这可能是最大的风险。常在信息中心的人都知道,如果设备一直运行着,不断电、不关机,可能一直没有事儿,但是一旦关机可能就起不来了。
5.安全风险:在切换过程中,可能会出现安全防护的短暂下降,增加网络遭受攻击的风险。比如网络安全设备没有双链路设计,出现短暂的保护失效,医院系统和设备可能就成了不设防之地了。
所以,为了减少这些风险,应急演练应在计划和控制的环境中进行,最好在业务非高峰时段进行,以最小化对医院运行的影响。同时,演练前应有详细的风险评估和预案(比如备份设备配置数据、更多技术支持人员、应急设备供应等),确保在出现问题时能够迅速恢复正常操作。在演练后,应彻底审查并记录演练结果,以改进未来的应急计划。
后文是北京大学肿瘤医院在2024年7月14日组织开展的核心网络交换机(包括HIS内网、办公网、无线网三套网络设备)主备切换的应急演练方案、过程、演练中出现的问题和解决方法。希望给大家有所借鉴。(详情请点击《演练实录 | 北京大学肿瘤医院核心网络设备应急演练》)
【责任编辑:陈曦 版式:明超】
评论前必须登录!
注册