来源:HIT专家网 作者:李崇铭
“保障医院业务连续性就像跑马拉松,需要我们坚持不懈,持之以恒。医院信息系统动辄上百套,每套系统在运行中可能出现不同的问题,因此运维管理对信息部门而言尤为重要,可谓系统安全运行的基石和保障。”
2025年1月18日,在HIT专家网举办的“2025年HIT热点趋势研讨会”上,北京大学肿瘤医院信息部主任衡反修在介绍医院IT运维管理的原则和方法的基础上,分享了医院信息部门在机房巡检、故障台账分析等方面的实践经验和心得体会。
医院信息系统运维管理的原则和方法
磁盘损坏、网络中断、授权到期等,这些都是医院信息部门可能面临的突发状况。尽可能减少信息系统问题发生和非计划宕机,医院信息部门可从加强运维管理入手,保障医院信息系统连续稳定运行。
衡反修介绍,医院信息系统运维管理应遵循四个原则:
一是IT运维服务要做到“事前有计划、事中有控制、事后有保障”,最大程度预防问题发生,执行应急响应,进行根因分析和持续改进,避免问题复现。
二是将IT运维的主动服务和被动服务相结合,即预防性运维和事后故障处理。
三是落实IT整体运维服务,涵盖基础软硬件、业务系统等方面;强调全员安全质量管理,医院信息部门工程师和合作伙伴厂商都应该具备运维管理的思维和意识。
四是IT运维贯穿业务流程始终,对运维事件、问题、配置、变更等进行闭环管控。
“我们自2019年开始,每年都会梳理年度信息部整体运维计划清单,包括应用厂商运维、软硬件运维、机房运维,还有安全演练、定期重启计划等内容。”衡反修介绍,北京大学肿瘤医院信息部将运维计划具体到周,列出运维内容、执行时间、输出文档、责任人、检查人等,确保执行无误,避免纰漏。
缩短从“发生问题”到“发现问题”的时间
以机房巡检故障台账和业务系统故障台账为例,衡反修分享了常见问题和实践经验。
医院信息部的机房巡检每日两次,巡检内容涵盖机房温度、湿度及各项软硬件指标。巡检员填写巡检记录日志并将巡检照片、巡检情况说明发送至微信工作群,发现问题时及时通知负责人处理。
衡反修表示,坚持使用微信工作群进行巡检,便于同步信息,及时响应问题,同时实现机房巡检的PDCA闭环,杜绝再发生类似事件。“巡检的目的在于缩短从‘发生问题’到‘发现问题’的时间,追根溯源。如果问题发生一段时间后仍未被发现,需向相关负责人问责。”
统计结果显示,2021年至今,北京大学肿瘤医院机房巡检的预警故障记录共80次,其中硬件故障占64%,软件及系统故障占10%,其他故障占26%。从巡检故障的年度分布来看,近三年故障数量逐年增加。衡反修介绍,故障增长的原因包括设备使用时间变长、老化,医院设备总量持续增加,巡检指标细化、项目增加,合理、完善的巡检方式和制度更容易发现问题等。
巡检内容与标准随医院信息化建设不断优化。比如,2018年,巡检记录本增加温湿度正常范围(确定标准,比如什么指标属于正常或异常),为了避免不常用业务系统发生故障影响正常运行,增加了审计、VPN、防统方系统巡检内容。2020年,由于发生过DG(Data Guard)服务停机未及时发现的问题,增加HIS、EMR主备服务器时间和数据同步巡检内容;考虑到不是每个工程师都有巡检小机服务器的能力,科室开发了专用运维小程序,巡检员可实现一键对比同步结果是否一致。2021年,由于发生过空间和日志增长造成存储溢满产生的故障,增加HIS、EMR表和日志存储空间使用率的巡检内容,防止因容量不足对系统产生影响。
衡反修还介绍了巡检过程中容易忽视的问题:视角问题,在站姿巡检时容易遗漏故障告警;告警灯光颜色不同,可能导致巡检结果误判或遗漏;设备面板遮挡,无法及时显示告警信息;出现问题但巡检结果正常或系统未告警;巡检时忽略设备显示的部分信息;忽略机房附属设备,未检查其运行是否正常等。
衡反修还强调,需要加强巡检工程师责任心,提高巡检技能,采用PDCA方法,对巡检出来的预警追根溯源。“发现预警后,通知项目负责人或者运维服务商,第一时间解决问题,这是最基本的要求。那么如何才能快速发现问题?”衡反修对科室提出要求,每个发现的预警都要从技术手段追溯发生的时间。“比如磁盘报警是某日下午16时发现的,那这个问题是什么时间发生的呢?通过系统日志或其他方式,我们发现是前天凌晨3时发生的。在这一时间段中,我们安排了人员巡检,为什么没有及时发现?所以我们需要督导工程师工作,加强责任心。”
分析故障根因,避免故障重现
“想要完全避免故障的发生是不可能的,当故障发生的时候,我们一定要记录、根因分析、解决方案和复盘,从既往问题中总结原因,最大程度避免故障重现。”衡反修说。
医院信息部的业务系统故障清单,详细记录了故障的持续时间、事件描述、影响范围、解决方法,以及发生原因、根因分类和细分类。例如,京医通系统出现故障无法发卡,经排查是服务器使用较久,硬件性能下降,临时关机导致的。重新拔插电源后重启服务器,随后业务恢复。通过此次故障,医院信息部总结经验,增加CA服务器SNMP服务监听,可及时发现解决异常问题。
从业务系统故障根因分析入手,医院信息部集中检查业务系统是否存在共性问题。例如,关于供应链授权问题,信息部完善供应链评审制度,要求厂商签订保证书,每年开展评审,拒绝与不合格的供应链再次合作。为保障系统安全和业务连续性,信息部梳理在用系统,检出可能存在的口令漏洞共计86项,要求两周内完成整改。新建业务系统如果没有强口令,一律拒绝上线。
“医院信息部门应将预防性巡检和故障分析结合起来,前者最大程度避免故障发生,后者避免故障重现。”衡反修表示,建立故障台账不是为了追责,而是为了解决问题,汇总问题进行分析。医院信息部还定期组织巡检故障分析和一致性培训、故障分析会,加强部门成员对运维管理的理解和认识。

精彩不容错过!
【责任编辑:陈曦 版式:明超】
评论前必须登录!
注册