专业咨询
致力推进中国医疗卫生信息化

衡反修:坚持日常巡检,医院信息人不做“救火队员”

来源:HIT专家网      作者:姜浩 根据录音整理

常有人说,医院信息人是业务系统的“救火队员”,当系统出现问题时,他们总是在第一时间赶到现场并解决问题。然而,“救火队员”登场意味着火势已起,更理想的状态是在“起火”前及时发现问题,防患于未然。

2021年10月14日,在由HIT专家网主办、日立数据(Hitachi Vantara)协办的“医疗数据存储管理在线论坛”上,北京大学肿瘤医院信息部主任衡反修提出了医院信息人“不做系统‘救火队员’”的观点。之所以提出这个看法,衡反修主任认为,不能以抢救及时来彰显系统运维人员的作用,更应在日常工作中有计划地执行运维巡检,根据问题改进流程,解决问题并达到防微杜渐、避免出现“火情”的效果。

巡检是系统安全运行的基石和保障

据衡反修介绍,2019年,北京大学肿瘤医院的年门诊量接近74万人次,年出院患者接近9万人次,平均住院日为3.49天;2021年,患者平均住院日已缩减至2.94天。“医院业务运行效率之所以能达到较高水平,除医护人员的辛勤努力外,也离不开依靠院内各类信息系统的高效支持。”

目前,医院内的信息系统越来越多,系统复杂性越来越强,对于系统的安全性及业务连续性的要求也越来越高。整个医院的信息系统都在高频度、高压力下运行,长此以往,难免遇到各种各样的问题。如何能够减少问题发生、避免非计划宕机,这对于医院信息部门而言是一大挑战。

衡反修认为,想要保障医院信息系统长期安全运行,日常巡检工作必不可少。“日常巡检是系统安全运行的基石和保障,医院应将日常巡检作为系统安全保障的重点。”

利用PDCA方法,解决巡检问题,消灭安全隐患是关键

衡反修表示,医院在建立运维巡检管理闭环时,可引入PDCA方法论,解决巡检中发现的问题,消灭安全隐患,并更新管理机制,形成新一轮的管理闭环。其中,P为Plan(计划),根据科室年度计划制定巡检计划,输出年度科室整体运维工作清单。D为Do(执行),责任人按照巡检计划进行巡检,重点在于保质保量的落实。C为Check(核查),是过程监督,需要建立事中反馈机制,同时过程检查、阶段性检查也是过程纠偏机制。A为Action(改进),根据执行及检查中的问题,持续改进运维方法,并加以彻底解决。

衡反修建议,信息部门在制定运维巡检计划(Plan)时应分为年计划、月计划、日计划。在年计划中,根据科室工作轻重缓急,制定并输出年度科室整体运维工作清单,制定巡检年历;在月计划中,将巡检计划具体到周,列出巡检内容、责任人、检查人、执行时间,最后输出巡检报告;在日计划中,针对日常重点工作,落实责任人,明确工作要求。衡反修特别强调:“巡检年历中的工作内容并非是固定的,会根据实际巡检情况不断增加。”这也体现了PDCA不断反复、不断修订、螺旋上升的过程,目的直指解决问题、消灭隐患。

日常巡检“查”什么?

医院信息部门传统的巡检执行模式是:在巡检前打印一份《机房巡检记录》,由机房巡检人员对巡检过程中服务器的状态与问题等进行手工记录,再将《机房巡检记录》做归档处理。在这种模式下,巡检人员的巡检时间、范围难以监督,服务器历史状态难以追溯,以至于使巡检流于形式,等问题出现以后再解决问题,运维人员也变成了“救火队员”。

为此,衡反修对传统巡检模式进行了改进,建立了基于微信群即时沟通的巡检机制。信息部门内部建立巡检微信群,巡检员记录巡检过程,拍照上传至群内,使记录真实、透明、可控。群内其他成员也可实时关注服务器状态。

衡反修介绍了北京大学肿瘤医院信息部基于微信群所设立的8项巡检内容:

机房巡检巡检目的是保障机房环境和硬件网络设备的运行安全,目标包括:服务器存储、核心交换机、UPS、电源、空调(含室外机)、温湿度(需要有标准)、消防。检查系统是否存在异常报警,及时发现问题并反馈,通知项目负责人,着手问题整改。

早班巡检。对京医通自助机、价格查询机、自助打印机、叫号报到机、互联网诊疗App等医院早间必须运行的系统进行巡检。每日清晨,由相关工程师巡检,并在互联网诊疗App上执行挂号、缴费、退费等操作,以确保App及互联网接口正常。

外包工作区巡检。落实信息部门对外包人员工作环境的安全管理,巡检内容包括:电脑、门窗、插线板、网络、消防通道等。由相关工程师早晚各检查一次,避免出现漏雨、电源故障及消防安全问题。

核心数据库巡检。目的是抓住核心系统的运行安全,每日对重要系统(如HIS、EMR、LIS、病理、手术麻醉等系统)的数据库进行巡检,包括备份数据的大小、备份完成情况、设备剩余存储空间等,同时还需检查HIS服务器主备机的数据一致性。为此,北京大学肿瘤医院信息部自主开发了核心系统巡检软件系统。

数据质量巡检。“使用数据的最关键因素即数据质量。”据衡反修介绍,北京大学肿瘤医院建立了数据核对巡检制度,坚持每日巡检,已持续数年之久,以此保证数据中心与HIS系统内数量、金额、条数等量值的一致性,避免数据不一致给医院管理决策者以及临床大夫的数据应用带来困扰,保障CDR、BI系统的数据质量与可用性。

软件系统月度巡检。衡反修介绍说,每位工程师对应巡检6至7个系统,巡检内容包括操作系统磁盘空间,数据库、归档日志、备份数据库所在磁盘空间,以及运行和备份情况、时间一致性、关键服务运行健康评价等。

配线间月度巡检包括:楼层配线间、交换机运行、交换机风扇、配线间UPS。检查线路是否混乱、温度是否异常、是否存在异常报警等。

系统服务商季度巡检。项目负责人根据运维合同、运维计划督促并查收服务商的巡检报告,确认后交予文档管理员进行统一管理,以落实供应商工作责任,避免遗漏。同时存档文件可作为供应商服务评价和续签运维合同依据。

巡检结束后,需根据巡检执行(Do)结果,实行月度两级巡检核查(Check)制度:负责人记录执行情况,一级核查是组长的事中核查,二级核查是部门副主任或主任的事后核查或抽查。核查后,根据结果输出月度检查单,记录执行结果,包括:本月问题、相关解决方案及上月问题解决情况。

应急预案是保障系统安全的最后底线

运维巡检闭环管理的最后一环是问题改进(Action)。衡反修认为,问题改进应“对事不对人”,着重关注如何改进业务流程和方法。同时,问题解决后应锁定改进成果,制定措施,避免二次出错。如有需要,可相应修改操作规程或改进运维计划。

在数年如一日的运维巡检闭环管理实践中,北京大学肿瘤医院信息部不断以问题为导向,及时追踪系统运行过程中可能出现的问题并防患未然。衡反修主任着重分享了以下几点心得体会:

必须将低频专用系统加入日巡检。相关巡检人员需每日检查数据库审计、VPN、防统方等系统是否可用、有无故障报警。

管理好授权码问题授权码是公司控制软件的手段,一旦停止服务,将对医院业务造成严重影响。医院信息部门需与服务商沟通取消授权期限,或明确业务停止所造成的责任归属。如果出现授权等问题带来的系统故障,由供应商承诺认罚,扣除相应运维费用。这些手段都是为了让各方负起系统安全运维的责任。

解决好核心数据库减负问题。医院信息系统运行时间越来越长,HIS、电子病历等核心系统一直在负重前行。如果将其比作一辆“数据拖车”,其装载的货物已越来越多,外挂车厢也越来越长。衡反修表示,医院的核心数据库已不堪重负,经巡检发现:数据备份时间超长,备份恢复时间超长,维护和应急窗口极短,数据安全风险越来越大。对此,他提议,应及时将在线数据库进行分库处理,将存储时间过长的“冷数据”剥离出来,并尽可能将数据库减负工作尽早提上日程。

做好巡检一致性培训。一致性是确保巡检质量的重要指标。北京大学肿瘤医院信息部制定了巡检手册以统一巡检标准,定期进行全员培训,并对培训进行视频记录。

完善应急预案“巡检可以减少问题,不代表不出问题。应急预案是保障系统安全的最后底线。”衡反修表示,不仅要建立全院系统的应急预案(如HIS、核心数据库、核心交换设备、互联网诊疗等),还要建立科室系统应急预案(如采血、检验、放疗、叫号、超声等系统)。

衡反修总结说:“要以‘不可信’为基础来建设可信的运维机制。”首先,系统是“不可信”的,不能依赖系统的自动报警功能;其次,供应商是“不可信”的,供应商派驻的运维人员时常会出现岗位变动;再次,工程师也是“不可信”的,工程师工作繁忙,运维巡检易发生疏忽。

总而言之,医院信息系统运维巡检要做到责任有分工,落实有计划,巡检人员也要时刻保持警惕,对风险点存在预期,不断检验业务系统此刻的状态,争取将问题消灭于萌芽,避免“火情”,不做系统的“救火队员”。

关注HIT专家网微信订阅号
精彩不容错过!

【责任编辑:秦勉】

赞(9)

评论 抢沙发

评论前必须登录!

 


未经允许不得转载:HIT专家网 » 衡反修:坚持日常巡检,医院信息人不做“救火队员”
分享到: 更多 (0)