来源:HIT专家网 作者:龚晨
医院信息系统的业务连续性管理,是医院信息部门责无旁贷的责任,也是许多医院CIO“心中难以言说的隐忧”。
在4月13日举办的PHITA2024年会上,首都医科大学附属北京朝阳医院信息中心副主任韦力分享了对于医院信息系统的业务连续性管理的认识:
根据雷曼软件进化定律,软件开发是减少混乱程度(熵减)的过程,软件维护是提高混乱程度(熵增)的过程。因此,系统的稳定性在最初总是最好的,即使是最熟练的软件维护工作,也只是放缓了系统退化到非稳态的过程,系统稳定性的降低是一种“必然”。
从主观上来看,在信息系统稳定性运行的三个关键要素:人员、技术、管理中,人是最大的变量。人的多样性和不可预测性、错误和偏差、抵抗变化的本性,都会带来信息系统的不可控。
“层层防守,压实责任,守住阵线。”韦力建议医院信息部门参照《信息系统稳定性保障能力建设指南(2022年)》的“PDRI安全模型”,锻造保障信息系统稳定性运行的核心能力。
P:预防(Protect)
“PDRI安全模型”中的P是指“预防”,也即减低隐患引入概率,为系统故障突发事件做好准备,这一工作应分解到医院信息部门的每一个岗位职责中去。
韦力建议医院信息部门管理者为开发、测试、运维人员分别制定岗位稳定性保障规范,并责任到人,深入细节。
比如:开发人员应遵守代码质量规范、日志规范、系统建构规范等,并通过一系列考核指标,保证书写的代码正确合规、清晰规范。韦力本人是软件工程师出身,“我总是对开发人员说,你的工作就代表你自己,代码写得好,证明人靠谱;代码里全是bug,恐怕能力也是有问题的”。
测试人员的缺失是当前医疗机构普遍存在的问题,仅有部分具备开发能力的医院在招聘测试工程师。但软件测试的工作不应被忽视。比如在系统上线前,医院信息部门有责任把关键的功能点都测试到位。“系统问题应尽量在内部质量管理中加以解决,而不应等把系统发到用户手里了,再等用户来反馈问题。”
“就像医院的消防演练要求每个人都会使用灭火器一样,安全运行的理念也应深入每一名HIT工程师的心中。”韦力说。
D:检测(Detect)
“PDRI安全模型”中的D是指“检测”,也即通过监控手段及时发现安全事件的发生,以便尽快采取响应措施,减低安全损失。
“可能有人会把检测简单地理解为挂一块监控大屏。但能挂屏,首先说明的是信息科对自己的工作有信心,第二是表明故障点是是可测量的——这一点是很重要的。”
韦力建议医院信息科可引入一些开源的检测工具,根据工作所需搭配使用,如全链路压测工具Takin,监控告警工具滴滴夜莺、Zabbix、点评CAT等。
R:响应(Response)
“PDRI安全模型”中的R是指“响应”,也即在故障发生时研判事件信息,开展故障识别和应急响应。
要做到“快速响应”,一方面要求医院信息科掌握必要的紧急操作与故障恢复方法,包括但不限于网络交换机重启、板卡插拔、备用链路切换、虚机重启、系统服务重启、日志清理等,不把黄金时间浪费在等待救援上。
“关键时刻,医院信息科的人都要会那么一两手。”韦力举了一个例子:医院内网核心万兆网卡状态异常,部分业务访问缓慢、时断时续。当时解决这个故障的措施是插拔板卡,听上去非常简单,但很多工程师不会拔也不敢拔。“这不仅考察我们对故障点的判断能力,也需要通过日常的实操演练,增强实战信心。”
另一方面,医院信息科要多和“能人”交朋友,主动识别能在关键时刻解决问题的人,包括厂商在内。“希望有更多厂商能成为这样的人,关键时刻能挺身而出,与医院并肩作战。”
应急响应时,医院信息部门还应做到“靠前指挥,直面问题”。韦力认为,信息部门只有到了故障现场,才能了解问题细节并采取最适宜的应急举措。比如,门诊报修反应不能收费了,但到现场后可能发现只是自助机不能收费了,或某一两台出现故障。信息部门第一时间出现在故障现场,将会给业务部门带来更多信心,并准确掌握故障发展状态。
I:改进(Improve)
“PDRI安全模型”中的I是指“改进”,也即事后分析总结故障原因,识别深层次原因,制定改进策略,对故障处置过程进行归档。
韦力总结了9类医院信息系统常见故障与预防处理要点:
第一类是网络故障,故障预防与处理要点包括:运行状态监控、配置备份、备品备件、系统拓扑、切换演练等。
第二类是服务器存储故障,要点为:虚拟化、运行状态监控、备品备件、存储扩容更新、关注磁盘空间不足等问题。
第三类是机房电源故障,应注意多路供电、备用电源、引入专业支持、划清责任边界、日常演练。
第四类是机房空调故障,应注意制冷量监测、空调冗余、设备更新、多散热方式储备,并针对季节因素(如北京春天杨絮柳絮多)采取预防性措施。
第五类是系统软件故障,“熟悉的才是最好的,对一样事物了解的人越多越安全”。
第六类是应用软件故障,要点是系统解耦、故障隔离、系统拓扑、充分测试、代码走读。
第七类是人工操作失误,医院信息部门应特别关注权限管理、安全意识、操作规范等问题。
第八类是人为故障,要关注网络、系统、数据库层面的异常行为分析,并加强日志分析、权限管理。
第九类是病毒攻击,要引入态势感知、定期漏扫等工具。
“《计算机专业人员行为规范》中说:计算机专业人士需要做出‘吹哨人’的行动,及时报告任何可能导致系统风险的迹象,将确保公众利益作为专业工作的核心。”韦力说,确保医院信息系统业务连续性的责任重于泰山,医院信息科工程师应不断学习、保持谦卑,坚持做难而正确的事。
【责任编辑:陈曦 版式:金家潘】
评论前必须登录!
注册