来源:HIT专家网 记者:朱小兵 陈翠翠
5月5日晚,一则媒体关于医院信息系统瘫痪的报道引起了业界的关注。
媒体报道相关经过
据福建晚报消息,5月3日,“五一”假期的最后一天,福建省某医院(本文旨在剖析个案,汲取教训,故特将原文报道的该医院名称隐去——HIT专家网编者注)却“乱了套”:从上午8点上班开始,该院的电脑系统就全部瘫痪,10点30分,部分医生的工作平台有所恢复,但挂号收费及各个电脑取号点仍旧未恢复。大量患者无法正常就诊,缴费、取药、信息登记都依靠手工完成,各个收费、取药窗口都排起了“长龙”。医护人员忙得团团转,行政人员几乎全员出动做解释工作和维护秩序。
直至5月4日下午2点,医院的信息系统才恢复正常工作。
据了解,这是该医院少有的现象,以前就算电脑系统出问题,顶多一个小时就会恢复正常。是什么原因导致这个持续了一天半的系统故障?据福建晚报的报道,导致这次故障疑为电力抢修所致。但至今院方也没有告知明确的故障原因。
电力故障之后,如何驾驭UPS提供2小时“黄金救援”时间
“是的,这次系统故障是断电引起的。该院的信息系统一直以来都没有出过大的问题,但这次故障恢复过程中,数据库的恢复确实存在很多困难。”该消息在HIT专家网KOL微信群一经传开,福建省内一位医院信息科主任分享了其所了解到的这次故障的主要原因。
“医院一般都是双路供电,像这样发生大面积断电的概率很小,医院系统宕机因为电源中断也很少。”HIT专家网微信群的专家们也对这鲜见的案例高度关注,并针对这次故障的原因进行探讨和分析。
据了解,医院的机房都是双路供电,应对断电普遍的办法是通过UPS(不间断电源)暂时支撑,多数医院UPS支撑时长为2小时甚至更长一些。而在这个“黄金救援”的两小时内,究竟发生了什么,并导致系统恢复过程用掉一天半的时间,确实值得同行警示。
一位业内知名专家告知HIT专家网:如果确实是由电力系统中断造成,就医院信息系统的应急处置来看,整个事件处理的环节可能最少存在以下四个方面的问题:
第一,如果医院机房UPS正常工作,医院信息科应该有最少有两个小时做出充分的反应。第二,如果UPS正常工作,并且医院信息科有成熟的应急机制,就可以做到正常关闭服务器和数据库,一旦后续电力供应恢复,即可正常重启服务器和数据库;第三,即便前面两关“失守”,数据库异常关闭,医院应该平时对数据库做有备份,比如通过“一主一备”的机制,这样也可以在电力供应恢复后,迅速恢复全院信息系统的工作。第四,即便以上“三招”全部失效,医院平时应该设立应急服务器,重点确保基本业务(如收费、挂号)可以快速恢复。
“我们医院碰到过一回医院被供电局拉电,并且短时间无法恢复。我冲到机房时,全部是服务器散热风扇的巨响,UPS剩余电量也不多,我立刻给总值班电话,然后依次关闭服务器、存储、核心交换机等,如果等UPS自己耗完突然停机,系统有可能‘爬’不起来。”南京某医院信息科分享了他们一个类似的经历。
也有医院的CIO建议,像UPS这种平常不怎么关注的设备,其是否正常工作真的很难顾全,所以专业的事交给专业的人来干。“我们医院的UPS就完全托管,电力有情况公司比我们先知道,能及时处理。”
安全等级保护的精髓是促进持续改进
系统的运维保障是信息安全等级保护中的一项重要内容。实际上,从去年开始HIT专家网就推出【HIT180等保专栏】,其中就有医疗设备信息安全防护、医疗行业信息安全等级保护实施案例等内容。
2012年11月,阜外医院顺利通过信息安全等级保护第三级测评,他们的机房建设方案是:电力采用双电源接入,一条从医院配电室直接连到核心机房,另一条由医院备用柴油发电机连到核心机房,确保接入电源的冗余可靠。UPS采用双机热备,所有服务器设备均使用双电源,即使一台UPS出现故障也能保证系统的稳定运行。湿温度调控方面,核心机房使用多台机房专用空调,并配备工业风扇用于空调出现故障后加强空气流通,消除热量聚集。监控方面核心机房分别对空调、UPS、漏水、多个温湿度传感器进行集中监控,并配备短信报警器,在任何一项超过阈值后均会发短信到机房管理员和值班人员手机上。另外,还要考虑防盗、防火、防雷等方面的防护措施。
据了解,福建这所系统瘫痪一天多的医院,其实也已经通过信息安全等保三级测评。这也直接警示医院:并不是通过了安全等保三级测评就能保证系统100%的安全。“安全是相对的,信息系统哪个环节疏漏都将可能出现大问题,因此只能加强制度落实的检查。”一位医院CIO坦言。也有专家认为,信息系统的维护还是要秉承人防为主,抓平时维护。关键还是要靠人的管理。
正如上海仁济医院信息中心主任孟丽莉在2014年12月举行的第三届南湖HIT论坛上所说:“尽管我们已顺利通过评审,但仍然有很多困惑,例如制度的能否真正落地,应急预案在实际中能否真的起到效果,三级标准是否符合三级医院实际业务流程等。但不可忽略的是,安全一定是信息化建设的基础,持续改进是安全永远的主题。”
“看别人出问题时,觉得有很多理由可以避免,但我想更多的是要做好应急预案演练,且也要更多的宣传信息系统是会出现故障的,让医院工作人员知道信息系统是有可能出故障的。”一位主任对此次故障事件感慨颇深。
从这个事件也可以看到一个事实:技术复杂度越高,对系统的依赖就越大。当信息系统出故障,信息科的责任首当其冲。亡羊补牢,为时不晚。希望通过一所医院的事故教训,可以从中汲取诸多教训经验,给更多医院信息科主管带来有益的警示,防患于未然。
医院信息系统安全保卫战,警钟长鸣!
莫非定律总能得到应验,怕的不是故障的发生,怕的是不知道原因和没有应对之策。
UPS是要定期做充放电的,否则失效了都不晓得。
安全策略什么的都是假的 重要的是资金
不出问题领到是不重视的