专业咨询
致力推进中国医疗卫生信息化

马鞍山市区域卫生信息化:数据清洗技术在平台数据处理中的应用

区域数据的清洗

区域平台的数据清洗工作,就是将预处理数据库中的数据进一步的清洗过滤,形成最后的标准中心数据。这个过程是可重现的,同时清洗结果也是一致的。数据中心的数据清洗步骤包含在ETL 过程之中,而且是自动运行的。

(1)抽取:通过收集现有医疗数据中心、健康档案数据中心、各条线业务系统的字典文档与平台目标数据字典集,实现以居民诊疗信息库、药品库和运营报表库的实时数据获取,为下一步的数据清洗提供完善的预处理数据库。

(2)转换:通过数据清洗ETL工具,将前置机预处理数据库中的数据按照平台数据标准要求进行转换和清理,最终生成高质量的标准数据。

(3)装载:通过将清洗后的数据装载至资源库,并提供数据验证服务,如有与目标库要求不符的数据,系统将自动提醒。

结合前期整理收集的数据情况来看,目前数据问题主要有主从表数据关联不上、业务数据有缺陷(比如姓名只有一个字或一个字母,身份证号码只有几位或者多余18位等)、范围混淆(比如性别,在一家机构可能是1表示男2表示女,另一家机构的数据表示恰好是反过来的)、重要字段数据为空、多条重复无用数据等。针对以上问题,分别确定了数据清洗内容和方式:

主从表数据关联不上的数据:对于这样的数据,先确定主表,然后确定主从表直接的关联,利用SQL语句获取能够关联和不能关联的数据,然后分析不能关联的原因,看有没有其他方式能够将所有记录关联起来。对于实在关联不起来的数据,将保存在前置机的预处理数据库中,而对于能够关联起来的数据,则存储到中心数据库。通过这种方式来清洗对平台来说无效的或者无法利用的数据。

业务数据有缺陷:对于有缺陷的数据,比如姓名、身份证号、医保卡号等,可以通过其他一些关键字信息或者其他信息表进行管理匹配,看看能否得到有效的数据,如果可以,则将相关信息匹配关联后存储到数据中心。对于实在无法修正的数据,将保留在预处理数据库中。

范围混淆:这种情况主要在各医疗机构之间的数据出现。对于这类数据,在清洗过程将按照平台标准进行统一,使其标准化。这个过程主要是将各个机构数据中,值相同但代表意思不同的数据参照标准表进行清洗,获取标准的数据后,再存放在标准数据库中。

重要字段数据为空:比如性别、科室信息等重要数据为空。对于这些数据,在清洗过程中将直接赋予固定的值,比如性别为空的直接赋值“未告知的性别”,而科室可以赋值“其他科室”等。

多条重复无用数据:例如,目前系统中存在的同一人有多条除了主键值不一样,其他所有数据完全一样的数据。对于这部分数据,应该由源数据加以处理后推送到前置机。我们也可以有两种方式加以处理,一是全部导入标准数据库,这些数据不违反数据的逻辑结构,但是考虑到实际情况我们还可以进行过滤处理,在清洗过程中只取一条数据,其他数据保留在预处理数据库中。

对于其他类型的尚未发现的数据问题,在其出现时我们将和相关人员进行沟通确定相应的清洗方式。

实现效果:区域数据的共享

数据的采集和整合,最终形成完整、有效的中心数据共享库和相关的辅助数据库,通过对共享数据的访问,最终实现3区3县及各级医疗机构对居民相关信息的共享;同时,通过对这些数据的统计、分析形成相关的分析报表,为管理层决策提供依据。下面将根据不同的数据使用对象,具体介绍整合后的数据共享使用情况:

1、居民:

居民通过区域卫生平台系统提供的“个人注册服务”进行居民信息注册成功后,可以通过平台提供的门户网站进入“个人健康管理系统”,通过此系统居民就可以通过“健康档案浏览器”和“病历浏览器”完整的查询到以往分散在各个医疗机构和社区的相关诊疗信息(门诊诊疗信息,门诊病历信息,检查检验信息,住院诊疗信息,手术信息等)和健康档案信息(基本健康档案信息、疾病相关信息,健康教育、健康体检等,从而让居民对自身生命周期内的相关健康和诊疗信息有个全面的了解和掌握。

2、各级医疗机构和社区卫生服务站的医务人员:

各级医疗机构、社区、乡村卫生服务站的医务人员通过平台医务人员注册成功后,获得相应的授权就可以使用平台提供的应用模块——健康服务工作站。医务人员通过“健康档案浏览器”和“病历浏览器”查询居民完整的相关诊疗信息和健康档案信息。居民在就医时,医务人员通过查询其以往的完整的健康信息和相关诊疗信息,可以全面掌握和了解其以往的健康状况和治疗方式,为其制定治疗方案提供参考信息。

3、行政管理层:

卫生系统内的行政管理层在平台上注册授权后,可以进入面向行政管理层设计的决策支持系统。通过全面整合区域平台内不同渠道、不同来源的数据,并进行统计与分析,为卫生决策部门宏观分析医疗卫生状况提供决策数据。同时,也利于基层单位信息资源的数据共享,对完善区域内卫生信息的统一管理起到一定的作用。行政管理层人员能够查看到的数据,包括基本医疗保障、药物管理、公共卫生服务、卫生资源统计、医院运营管理等内容。通过充分、灵活、直观的数据显示方式,向决策人员展示区域内的基本医疗费用情况、基本药物抗菌药物的使用情况,医院的医疗服务、医疗安全、医疗质量等情况,了解各医院的医疗设备资源配置情况、各种疾病的控制管理情况、健康档案建档情况等。

4、其他行政机构:

区域卫生信息平台建成后,还可以为其他相关机构提供数据共享服务,比如120急救等。通过接口规范,其他机构也可以共享查询居民的健康档案和全部的医疗信息(重要隐私除外)。

【相关阅读】:“智慧城市”卫生先行:马鞍山市区域卫生信息平台建设实践

【作者简介】

陈启航,男,1979年生,现任马鞍山市卫生信息中心负责人,长期从事卫生信息化工作,负责全面推进马鞍山市区域医疗卫生信息化建设。主要负责的项目包括:马鞍山市区域卫生信息平台建设项目,马鞍山市120指挥调度系统建设项目,马鞍山市公共卫生管理信息系统项目和马鞍山市基层医疗机构信息管理系统项目等。

1 2
赞(3)

评论 1

评论前必须登录!

 

  1. #1

    让医疗机构将各自的数据按照标准接口规范推送到指定的前置机,事实上真正的数据ETL工作是由各机构的开发商完成的,跟平台没有啥关系。

    爱就爱乐10年前 (2015-03-06)


未经允许不得转载:HIT专家网 » 马鞍山市区域卫生信息化:数据清洗技术在平台数据处理中的应用
分享到: 更多 (0)