专业咨询
致力推进中国医疗卫生信息化

【郑西川专栏】临床科研大数据应用系列1:加强对重症监护医学数据集MIMIC-III的利用分析

来源:HIT专家网     作者:上海市第六人民医院计算机中心 郑西川

MIMIC-III数据集概述

MIMIC-III是一个免费开放的重症监护医学数据集,由美国麻省理工学院计算生理学实验室、贝斯以色列迪康医学中心(BIDMC)以及飞利浦医疗共同发布。早期的MIMIC数据集主要用于还原临床实际中各种危重症病人所用诊疗方案和监护策略,基于该数据集,能够检测、比较和评估为重症病人多参数智能监护系统性能以及数据分析算法。MIMIC-III是MIMIC-II的更新版,MIMIC-II命名是“多参数智能监测数据库”(Multiparameter Intelligent Monitoring in Intensive Care),MIMIC-III升级为“重症监护医学数据集”(Medical Information Mart for Intensive Care)。

由于MIMIC具有开放性、数据集时间跨度长(12年)以及个人健康数据完整等特点,使它成为重症医学界著名的科研数据集,吸引了学术界和工业界众多研究成员使用该数据集从事重症医学科学研究。对MIMIC-III数据集成管理方法进行研究探讨,对当前医院电子病历数据挖掘分析以及大数据支撑临床科研有重要意义。

MIMIC-III数据集包含2001-2012年间麻省理工贝斯以色列迪康医学中心重症监护室病人真实医疗数据,共有成人(年龄>=16岁)53423人,还包括了2001-2008年间7870个新生儿的临床医疗数据。不仅包括病人生命体征、化验结果、用药情况,也包括了医学图像(超声、核磁、CT等),还包括了病人的医疗过程及人口统计信息。基于这些数据,国际上相关学者进行了大量研究,发表了大量有价值的论文成果,近年来利用该数据集发表临床科研文献持续增多。

数据源与集成方案

MIMIC-III数据集临床医疗数据来源于以下业务系统:重症监护信息系统数据、BIDMC的EMR数据库、社会保险关于病人死亡文件记录。

BIDMC使用了两套重症监护信息系统:飞利浦的CareVue临床信息系统和IMDSoft MetaVision ICU系统。包含了以下临床数据:护理过程中的病人生命体征时态数据(如心率、血压、呼吸等),医生观察记录以及输液记录等;医院EMR系统中病人的数据有:病人基本信息、实验室检验报告、出院小结、心电及影像报告、病人费用情况以及国际疾病诊断ICD-9编码等;通过社会保险系统得到了病人院外死亡的日期,作为MIMIC-III数据集的组成部分。

MIMIC-III重症监护医学数据集的总体方案如下图所示。

MIMIC-III重症监护医学数据集数据集成示意图MIMIC-III重症监护医学数据集数据集成示意图

数据表设计

MIMIC-III 数据库包含了医院多种ICU病人的临床数据和生命体征波形数据集,由26个数据表组成。这26个数据表按照内容分为四大类,分别是病人基本信息表、门诊相关信息表、住院ICU临床相关信息表以及辅助字典术语信息表。具体解释如下:

1、病人基本信息表

序号 表名 中文 内容
1 PATIENTS 病人登记表 病人基本信息(姓名、性别、出生日期、死亡日期)
2 ADMISSIONS 住院表 病人入院、出院以及死亡时间,人口统计信息、种族、语言、宗教、婚姻状态等
3 CALLOUT 出院表 病人出院相关信息(出院前病房、转院信息、出院结果等
4 ICUSTAYS ICU记录表 病人进出ICU的相关信息(ICU类型、房号、进出ICU时间等
5 TRANSFERS 转科(床)记录 住院期间的转床记录(转床床号、进出时间、转移状态、住院时长等
6 SERVICES 服务表 住院期间的治疗及转换时间

表1:病人基本信息及转床信息表

2、病人门诊信息表

序号 表名 中文 内容
1 CPTEVENTS 医疗服务记录表 病人在医院获得的CPT记录,包括编码、时间等
2 DIAGNOSES_ICD 诊断信息表 病人的确诊信息,包括病人编号、ICD9编码
3 DRGCODES 诊断相关组表 病人的诊断类型信息表,包括DRG编码,DRG类型
4 LABEVENTS 门诊检验记录 病人在门诊的检验记录,包括项目ID,测量值、测量时间
5 MICROBIOLOGYEVENTS 微生物检测记录 病人微生物检测信息记录,包括测量样本ID,类型,描述、测量时间
6 PRESCRIPTIONS 处方信息表 门诊病人处方用药,包括截止时间、药物类型、药物名称、药量

表2:病人门诊治疗相关信息表

3、病人ICU相关信息表

序号 表名 中文 内容
1 CAREGIVERS 医务人员表 包含医务人员编号与类型
2 CHAREVENTS 化验记录表 病人在ICU的化验信息,包括项目、测量人员、测量值、测量单位、测量时间等
3 DATETIMEEVENTS 日期型事件表 病人在ICU的所有测量项目的日期、时间
4 INPUTEVENTS_CV 注射事件表CV 在ICU的CV系统检测的药物注射情况,含医务人员编号、注射量、注射速率、注射开始与结束时间
5 INPUTEVENTS_MV 注射事件表MV 在ICU的MV系统检测的药物注射情况,含医务人员编号、注射量、注射速率、注射开始与结束时间
6 NOTEEVENTS 文本记录事件表 病人的相关记录,包括护理记录、影像报告和出院记录等
7 OUTPUTEVENTS 排泄记录表 病人在ICU的排泄记录,包括项目名称、排泄量、排泄时间等
8 PROCEDUREEVENTS_MV 医疗过程事件表 由MV系统监测的治疗记录,包括项目名称、开始结束时间、项目测量值以及医务人员编号等
9 PROCEDURES_ICD ICD手术记录表 ICU已完成手术的信息,手术ICD9编码

表3:病人ICU的临床治疗相关信息表

4、辅助字典术语信息表

序号 表名 中文 内容
1 D_CPT 医疗服务术语表 医疗服务术语,8类医疗服务:评估和管理、麻醉、外科、放射、病理、实验室、内科、新兴技术、药品与测量
2 D_ICD_DIAGNOSES ICD病情词典表 病人诊断疾病的简称与全称
3 D_ICD_PROCEDURES ICD医疗过程词典表 手术治疗的简称与全称
4 D_ITEMS ICU化验词典表 病人在ICU的化验项目ID、名称、缩写、来源以及类型
5 D_LABITEMS 门诊化验词典表 病人在门诊的化验项目ID与类型信息

表4:辅助字典及术语信息表

数据访问与利用分析

MIMIC-III数据集的数据以一组独立文件形式提供下载,同时包含了将这些数据加载到PostreSQL、MySQL以及MonetDB的脚本文件。在使用这些数据前,研究者需要在MIMIC网站注册并获得使用授权,具体方法不再赘述。

基于MIMIC-III数据集进行数据挖掘分析已成为国外一些著名大学临床数据挖掘分析的课程内容。基于MIMIC-III进行了大量的临床科研项目,包括:预测病人预后的机器学习模型、病人生命体征临床检测技术改进以及非结构化医学文本的语义分析等。

许多研究者利用MIMIC-III对重症监护数据进行数据挖掘,产生了新的临床模型和评价,包括疾病严重度评分、并发症评分以及临床诊疗方法的改进,如机械通气、血压测量等。MIMIC-III已成为了重症监护医学研究的重要数据支撑和临床科研工具,也是病人生命体征监测设备数据分析改进的重要数据源。

MIMIC-III数据集自开放以来,对重症医学临床科研起到了巨大的支撑作用。系统梳理MIMIC-III数据集内容及相关研究,对目前我国临床医疗大数据研究与实践有重要意义。通过对重症医学领域MIMIC数据集及其挖掘分析初步研究,笔者建议:

(1)临床大数据信息集成管理与利用分析是医疗大数据应用的重点内容,专门领域数据深度挖掘是临床大数据发展的重要方向。

(2)我国医疗行业大数据应用还处于初级水平,在数据集成和数据标准化方面仍存在很大差距,需要引起重视。

(3)MIMIC数据集拥有真实、丰富、完整的病人大数据,可以有效地进行临床决策,能够对具体疾病发展进行影响因素分析,预测疾病发展趋势。

(4)伴随人工智能技术发展,医学语义分析、机器学习模型与深度学习技术应用,大数据应用分析能对医学临床科研产生突破性进展,结合AI技术的专科大数据应用是今后临床大数据发展需要关注的重要方向。

【作者简介】

郑西川,上海交通大学附属第六人民医院计算机中心主任、教授级高工。上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师。中国医院协会信息管理专业委员会 (CHIMA)委员;中国医药信息学会(CMIA)委员;上海市医院协会信息管理专业委员会委员;中国医药信息学会上海分会常委;中国生物医药技术协会医药信息分会常委;《医疗卫生装备》杂志特约审稿专家。

研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③ 区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。

近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。

小助手二维码

想加入HIT专家网专业交流群吗?请添加“HIT专家网”小助手微信好友后提交你的申请哦

(请注明姓名、单位名称、职务、主管技术或产品领域,以便有针对性加群)

【责任编辑:谭啸】

赞(1)

评论 抢沙发

评论前必须登录!

 


未经允许不得转载:HIT专家网 » 【郑西川专栏】临床科研大数据应用系列1:加强对重症监护医学数据集MIMIC-III的利用分析
分享到: 更多 (0)