专业咨询
致力推进中国医疗卫生信息化

【郑西川专栏】重症病人ICD自动编码与机器学习模型应用

来源:HIT专家网   作者:上海市第六人民医院计算机中心  郑西川

郑西川

我国医院ICD诊断编码工作主要由编码人员参考医生书写的诊断描述来完成,不仅耗费时间,而且容易出错。随着医院电子病历的应用深入,一些医院将ICD编码工作交给临床医生进行书写选择,但效果并不理想。

在医院实际病人出院小结和相关诊断报告的基础上,我们用词袋模型和主题模型提取文本特征,详细比较了不同分类器的表现,针对不同分类器的性能差异设计了机器学习的集成学习模型,使ICD自动编码在整体性能以及适应能力上得到了提升,为机器学习技术在自动诊断编码、电子病历临床路径管理以及医院 DRG付费管理等质量提升提供了新途径。

数据来源

基于医院2017-2018年ICU病人出院小结数据,每条记录都进行了ICD编码标注。共计1268种互不相同的ICD编码,由于许多ICD编码在样本里出现次数很少,不具备统计性,如B-细胞淋巴瘤的编码只出现一次。因此选取了前10位ICD编码出现次数最多的2732条出院小结作为实验数据集。这些数据中,S72.000(股骨颈骨折)出现次数最高,达到680人次;排名第10的为S32.701(多发性骨盆骨折),出现103人次。

模型方法

在出院小结中,门诊诊断、入院诊断、出院诊断以及检查结果通常为短文本,包含大量的医疗术语,其词空间较为固定。但入院情况是对患者入院时的症状、病因等的描述,用词等习惯因人而异,存在大量的同义词以及一词多义现象,需进一步提取主题。

隐含狄利克雷分布是被广泛使用的一种主题模型,可用三层贝叶斯概率模型描述词、主题和文档之间的关系。通过吉布斯采样或者期望最大化算法即可学习得到上述两个多项式分布,即LDA。因此,在已知多项式分布的情况下,新给出一段文档,通过贝叶斯推断可求出新文档的主题分布,得到文档的隐含语义特征。

经过对出院小结文本段处理,得到了医生诊断、检查结果特征向量和有LDA表征的入院情况特征向量,每条出院小结记录转换成一个特征向量。机器学习,是从特征向量到类别标签映射的假设空间中,通过最优化等策略学习得到最优假设的过程。

虽然目前很多分类模型都可使用,但是各分类器在实际数据集中的表现各有优劣。通过机器学习的集成学习模型方法,我们结合不同分类器的优势,提升了整体的分类效果和适应能力。

初步结果

为验证模型的分类效果,采用K折交叉验证的方式测试分类效果,并用精确率、召回率和F1值来评价模型。支持向量机、K近邻、决策树、朴素贝叶斯和神经网络的分类效果在S72.101(股骨粗隆间骨折)、N20.000(肾结石)、E66.900(肥胖症)和S72.000(股骨颈骨折)这四个类别的表现都很好,F1值都超过了0.95。

但是在其他6个类别的分类效果各有优劣。比如,C20.x00(直肠恶性肿瘤)在支持向量机、决策树和神经网络上表现很好,F1值超过0.8;而在K近邻和朴素贝叶斯模型上表现较差,F1值分别为0.5和0.2。

我们通过集成学习将各个不同类型分类器的优劣综合起来,整体表现得到了提升,几乎所有类别的分类准确度都有不同程度的提高。

结论

实验结果证明,集成学习方法可用于重症病人的ICD自动编码。下一步将在如下几方面进行改进:

首先,还应进一步挖掘更多数据的特征,如生命体征序列数据、影像报告等;

其次,目前只考虑了ICU病人常见的前10位ICD编码分类,应继续扩大数据集,并结合规则和知识库实现少数ICD的自动编码;

最后,在临床实际中每个病人往往有很多个ICD诊断编码,应实现多标签分类,识别所有相关的ICD编码,并且自动分清主次。

利用重症病人的出院小结作为数据集,设计基于自然语言处理和集成学习的ICD自动诊断编码模型,通过特征提取将文本表示为特征向量,将ICD自动编码任务转化为机器学习的分类问题。这对临床电子病历应用中ICD编码标准化、医院临床路径以及DRG付费管理应用有重要意义。(注:硕士研究生王阳阳同学完成了软件设计与相关实验。)

【作者简介】

郑西川,上海交通大学附属第六人民医院计算机中心主任、教授级高工。上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师。中国医院协会信息管理专业委员会 (CHIMA)委员;中国医药信息学会(CMIA)委员;上海市医院协会信息管理专业委员会委员;中国医药信息学会上海分会常委;中国生物医药技术协会医药信息分会常委;《医疗卫生装备》杂志特约审稿专家。

研究方向:①基于PACS电子病历的临床信息共享;②HL7/XML电子转诊相关技术及应用研究;③ 区域临床信息共享及协同医疗信息技术研究;④数字化医院的相关标准及实现技术。

近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。

小助手二维码

想加入HIT专家网专业交流群吗?请添加“HIT专家网”小助手微信好友后提交你的申请哦

(请注明姓名、单位名称、职务、主管技术或产品领域,以便有针对性加群)

【责任编辑:谭啸】

赞(0)

评论 抢沙发

评论前必须登录!

 


未经允许不得转载:HIT专家网 » 【郑西川专栏】重症病人ICD自动编码与机器学习模型应用
分享到: 更多 (0)