来源:HIT专家网 作者:上海市第六人民医院计算机中心 郑西川
近年来,我院在加大临床医疗信息化建设力度的基础上,着力实现专科医疗文书结构化和专科疾病临床路径电子化应用,在临床数据整合、临床数据中心以及生物医学样本库建设等方面取得了较大进展。
我院内分泌科团队在糖尿病并发症预测和风险分析方面进行了大量基础研究。2015年,在上海申康医院发展中心“医联工程”的组织下,我们参与了科技部863计划课题“基于区域医疗与健康大数据处理分析与应用研究”课题,承担子课题“(面向医疗信息共享)基于区域医疗与健康大数据处理分析与应用研究”中的“糖尿病健康管理与并发症预测监测分析服务及应用示范”任务。项目研究以糖尿病并发症为切入点,研究基于大数据的糖尿病多源数据整合、挖掘分析、机器学习等关键技术及临床应用,开发了基于临床大数据的糖尿病智能决策支持原型系统。通过项目研究,在医疗大数据辅助临床精准医疗、疾病风险预测方面取得了一定收获。
以往工作回顾
慢性高血糖以及代谢紊乱会引起多种并发症,糖尿病并发症是糖尿病患者的主要致死因素。糖尿病并发症很多,包括大血管病变以及并发微血管病变,涉及神经系统和心、胸、肾、眼、胃等多个器官,一旦发病会对患者造成重大伤害,所以提前预防尤为重要。如何预测糖尿病的并发症,利用大数据方法对糖尿病的并发症以及死亡风险进行预测,已成为国内外糖尿病专病研究的热点。
国外糖尿病并发症预测模型研究水平参差不齐,国内预测模型研究处于起步阶段。国际上对糖尿病并发症预测模型的研究已从最初的单因素线性模型发展成多因素符合模型,主要用于预测糖尿病病人若干时间后发生并发症的可能性,如:英国的前瞻性糖尿病预测模型、瑞士巴塞尔研究中心的CORE糖尿病模型等。国内研究较多的是单一并发症预测模型,如:糖尿病神经病变预测模型、糖尿病肾病预测模型等,也有进行多种糖尿病并发症预测的,但预测结果并不理想。
从方法学角度分析,糖尿病并发症及死亡风险预测方法主要有:多元回归(logistic)模型、决策树模型、状态转移(markov)模型、Cox比例风险模型及人工神经网络(Articial Neural Network,ANN)等。一般而言,Logistic 回归模型要求各变量之间相互独立,纳入的变量较少,神经网络可以同时纳入很多变量,但人工神经网络模型对临床医生逻辑上难以理解,应用阻力较大。对于新发现的危险因素,要想纳入模型,以上模型都难以完成,而且这些模型的变量必须在研究进行时就开始收集。
现有的糖尿病并发症及死亡风险研究存在问题如下:(1)缺乏利用临床大数据结合时间序列分析动态预测糖尿病并发症的研究。目前糖尿病并发症预测研究较多时某一时间点的某一类或几类特定的临床指标值对单一并发症的影响,少有综合考虑所有临床数据随着时间变化对病人风险和糖尿病并发症的影响;而且用于预测训练和测试的数据相对较少,预测结果也不理想。需要基于大数据,结合时间序列分析和多源数据整合的糖尿病并发症和死亡风险预测。(2)缺少基于临床大数据的糖尿病智能决策知识库。国外虽有个别用于预测糖尿病病人血糖水平的决策支持系统,但未与临床大数据衔接,其决策模型不能实现动态实时临床决策支持。基于大数据的糖尿病并发症预测系统,能够辅助医护人员进行动态糖尿病并发症和死亡风险预测,进行临床干预,也对其他慢病的临床决策支持具有借鉴意义。
项目内容及解决的关键问题
1.项目内容
(1)对上海市“医联工程”病人信息数据、上海第六人民医院、普陀区中心医院等糖尿病患者的数据进行分析,了解医院信息系统以及电子病历系统临床信息可获取的数据具体有哪些,哪些指标对糖尿病并发症影响明显,通过与临床专家访谈,确定建立糖尿病专病数据库并进行临床信息系统整合时,需要哪些临床指标。
(2)提出基于大数据的临床证据挖掘,结合时间序列分析,多医院多源数据证据进行动态融合,动态预测糖尿病并发症和死亡风险。首先,我们构建了两种不同模型来预测糖尿病并发症。第一种是先预测、再融合,对不同的临床监测变量,选择时间序列分析进行变量预测,根据其预测时间点的预测值,转化为临床证据,进行证据融合,得到并发症结局的置信度分布。第二种是先融合、再预测,即对所有临床可监测变量值,转化为相应的临床证据,采用一定规则进行多源数据融合,得到不同并发症的置信度分布,然后进行并发症结局预测。
(3)原型系统研发。开发一套基于临床大数据的糖尿病并发症与死亡风险预测决策支持系统,实现与医院电子病历系统无缝对接。
2.解决的关键问题
(1)如何实现临床大数据的临床证据挖掘与自动学习?
本项目选择贝叶斯方法从大数据中进行临床证据提取,选择基于ER规则的证据融合方法来构建自动学习模型。学习模型的目标函数是最小化历史数据中的糖尿病患者并发症即死亡风险预测结局与观察结局差异。
(2)如何实现对糖尿病并发症和死亡风险进行动态预测?
结合时间序列分析和多源证据融合来进行。具体就是先预测、再融合,或先融合、再预测。
结论
本项目理论创新在于:
(1)从医疗大数据利用分析角度,改进了传统专家临床决策思想,符合循证医学理念;
(2)基于临床大数据进行证据提取学习,突破了有限数量训练集数据进行建模的局限,利用了上海区域大数据,基于“医联工程”多年积累的数据信息;
(3)结合时间序列分析和多源证据融合进行动态评估预测,能满足临床决策的动态需求。技术上采用了大数据分析方法;结合时间序列分析方法实现动态风险预测,既考虑了患者病情发展,又兼顾了患者病情手多种因素影响的复杂性;
(4)同时实现的原型系统与医院电子病历软件实时对接,在电子病历系统中进行实际对接,也属于应用创新。
【作者简介】
郑西川,上海交通大学附属第六人民医院计算机中心主任、教授级高工。上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师。中国医院协会信息管理专业委员会 (CHIMA)委员;中国医药信息学会(CMIA)委员;上海市医院协会信息管理专业委员会委员;中国医药信息学会上海分会常委;中国生物医药技术协会医药信息分会常委;《医疗卫生装备》杂志特约审稿专家。
研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③ 区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。
近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。
评论前必须登录!
注册