2022年6月,重症临床科研数据库MIMIC(Medical Information Mart for Intensive Care)发布了MIMIC-IV 2.0版。MIMIC-IV包含了2008-2019年之间波士顿贝斯以色列迪康医学中心(Beth Israel Deaconess Medical Center,简称BIDMC)重症监护病房收治的4万多名患者的临床数据,并且在许多方面有了改进:调整了数据组织架构,突出了数据来源;对患者标识符进行了自动识别,并且根据《健康保险携带和责任法案》(HIPAA)安全条款删除了患者标识符,实现了患者隐私保护。
近年来,MIMIC专病数据库在推动临床信息学研究、流行病学和机器学习研究方面取得大量成果。笔者曾对MIMIC-III专病数据库进行过一系列介绍。作为后续,本文介绍MIMIC-IV 2.0的最近进展。
数据预处理
MIMIC-IV的数据来自院内临床业务信息系统,主要包括临床电子病历EHR数据和ICU临床信息系统。数据预处理分为三步进行:
1.数据获取。所有数据来自BIDMC入院患者的综合临床数据。MIMIC-IV首先创建了一份患者清单,包含2008-2019年期间所有入住医院ICU或急诊科患者对应的医疗记录编号,将所有临床数据源表过滤为患者清单的患者相关行。
2.数据重组。为了更好地进行回顾性数据分析,MIMIC数据库对临床信息源数据进行了重组处理,包括源数据库表约束处理、删除财务事务数据,以及重组为更少的数据表。这个过程的目的是简化数据回顾性分析,方便临床研究。更重要的是,为了确保专病数据库的数据能反映真实的临床数据集,没有进行数据清洗。
3.去标识符。对HIPAA规定的患者标识符进行删除。使用随机密码替换患者标识符,从而避免患者、住院时间和ICU住院时间等可识别标识符泄露患者隐私。MIMIC数据库使用查找表和允许列表过滤结构化数据,在有必要的字段中,采用自由文本识别算法从自由文本中去除PHI(Protected Health Information,受保护的健康信息)。最后,使用以天为单位的偏移量,将日期和时间随机移到未来时刻,对每个主题标志字段分配一个日期移位。因此,单个患者的数据在数据库内部是一致的。例如,如果原始数据的两个度量之间的间隔为4小时,那么在MIMIC-IV中计算的时间差异也将是4小时。但不同患者在时间上没有可比性。
执行完三个步骤后,加工后的数据被导出为CSV文件,压缩后提供给申请者。
数据库架构
MIMIC-IV数据分为两个模块:HOSP和ICU。分模块的目的是为了突出数据源。
1.HOSP模块
HOSP模块数据包含来自医院EHR的临床数据。大部分生理测量数据是在患者住院期间记录的,部分数据来自医院外(如实验室的门诊实验报告结果)。HOSP模块数据包括了患者基本信息数据、住院临床信息(含入院信息)和期间转科数据。
值得注意的是,患者数据表通过ANCHOR_YEAR和ANCHOR_YEAR_GROUP两个字段提供患者的时间信息。ANCHOR_YEAR是2100-2200年之间的一个确定年份,ANCHOR_YEAR_GROUP是2008-2019年之间的一个日期范围。这些信息可以让研究人员推断出患者接受治疗的大致年份。例如,如果患者的ANCHOR_YEAR是2158,其ANCHOR_YEAR_GROUP是2011-2013,那么该患者的住院实际时间发生在2011-2013年之间。最后,ANCHOR_AGE字段为给定ANCHOR_YEAR的患者提供年龄信息,如果患者的ANHOR_YEAR超过89,则ANCHOR_AGE设置为91(也即所有超过89岁的患者都被分组到一个值为91的组中,不管他们的实际年龄是多少)。
死亡日期可在患者数据表的DOD字段中查询。死亡日期来自医院记录和州记录,如果两者都存在,则以医院记录优先。根据姓名、出生日期和社会保险号,MIMIC数据库使用基于自定义规则的链接算法匹配州记录。在MIMIC-IV中,不提供出院后一年以上死亡日期的数据。作为患者身份确认过程的一部分,每个患者的最长随访时间正好是他们最后一次出院后的一年。例如,如果患者最后一次出院发生在2150-01-01,那么该患者最后可能的死亡日期是2151-01-01。如果患者在2151-01-01或之前死亡,并且在州或医院的死亡记录中被记录,那么MIMIC数据库将包含已确认的患者死亡日期。如果患者在最后一次出院后至少存活了一年,则DOD列中将有一个NULL值。
HOSP模块的其他信息包括患者实验室数据(LABEVENTS、D_LABITEMS)、微生物培养(MICROBIOLOGYEVENTS、D_MICRO)、临床医嘱(POE、POE_DETAIL)、药物管理(EMAR、EMAR_DETAIL)、药物处方(PRESCRIPTIONS、PHARMACY)、医院账单信息(DIAGNOSTICS、D_ICD_DIAGNOSTICS、PROCEDURES_ICD、D_ICD_PROCEDURES、HCPCSEEVENTS、D_HCPCS、DRGCODES)、在线医疗记录数据(OMR)和服务相关信息(SERVICES)等数据。
2.ICU模块
ICU模块数据来自BIDMC的MetaVision(iMDSoft)系统中的患者临床生命体征数据。其中,ICULIES和D_ITEMS表链接到一组以“events”为后缀的数据表。ICU模块中的数据表包括静脉和液体输入(INPUTSEVENT)、入量成分(INGREDIENTEVENTS)、患者输出(OUTPUTEVENTS)、过程事件(PROCEDUREEVENTS)、记录为日期或时间的信息(DATETIMEEVENTS)以及其他图表信息(CHAREVENTS)。所有事件表都包含一个STAY_IDZID列,允许识别相关ICU患者,以及一个ITEM_ID列,允许识别D_ITEMS中记录术语概念。
数据库使用
MIMIC数据是在医院常规临床实践中收集的,反映了实际临床实践。总体而言,MIMIC专病数据库具有开源共享和适合科研协同的特点。
1.开源共享
MIMIC数据文件以一组CSV文件提供,同时也提供了输入数据到PostgreSQL、MySQL,以及MonetDB数据库管理系统的脚本文件。研究者在使用这些数据前,需要在MIMIC网站注册,获取使用授权。完成授权的两个关键步骤是:
- 研究者需要完成保护患者隐私的相关课程培训,遵守HIPAA要求;
- 研究者必须签署数据使用协议,明确数据使用保密标准,禁止识别单个患者信息。
申请通过后,研究者会收到在PHYSIONETWORKS下载该数据库的详细信息文件。
2.协同科研
许多研究者使用独立的数据代码进行数据处理和分析。为在共享代码标准基础上实现协同研究,MIMIC开发者建立了公共代码仓库鼓励开发和共享相关代码,地址为:https://github.com/mit-lcp/mimic-code。该仓库已有重症医学研究使用的常用变量计算代码,包括疾病严重度评分、合并症评分以及不同处理如机械通气和血管加压方法等。开发者鼓励研究者使用这些代码进行科研并进行改进。MIMIC数据仓库正日益成为临床研究者的重要工具。
总结
临床数据的共享分析和二次利用是医疗信息化发展的必然趋势。回顾性临床数据分析,通过知识发现和算法开发,为改善患者医疗服务质量提供了契机,已越来越多地用于流行病学和预测建模。尽管近年来医院临床记录电子化取得了显著进步,但获取医疗数据并改善患者临床仍面临重大挑战,医疗数据共享有限的原因是多方面的,对患者隐私的关注仍是制约数据共享的首要问题。
MIMIC重症专病数据库采用的数据组织架构方案,允许数据开源共享和协同科研,为我国临床专病数据库建设提供了参考。MIMIC专病数据库在广泛应用中取得了成功,其研究领域包括:在明确定义队列中评估治疗效果、预测关键患者的预后等。MIMIC-IV的目标是通过数据组织架构的改变来提高临床数据可用性,并使更多临床研究应用成为可能。
【作者简介】
郑西川,上海交通大学附属第六人民医院计算机中心教授级高工。上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师。中国医院协会信息专业委员会(CHIMA)委员,中国医药信息学会(CMIA)委员,上海市医院协会信息管理专业委员会委员,中国医药信息学会上海分会常委,中国生物医药技术协会医药信息分会常委,《医疗卫生装备》杂志特约审稿专家。
研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。
【责任编辑:秦勉】
评论前必须登录!
注册