来源:HIT专家网 作者:德州大学休斯顿健康科学中心生物医学信息学院 吴永辉 朱珉 徐华
编者按:德州大学生物医学信息学院(SBMI ,School of biomedical informatics)是全美最大的生物医学信息院系之一,也是全美唯一的学院级生物医学信息专业教育机构。该学院院长由美国医学信息学界知名华人教授张家杰博士担任。近期与HIT专家网达成合作开辟【SBMI专栏】,分享医学信息学领域前沿动态。
美国医学信息学协会的年会(AMIA annual Symposium),是学界总结进展的全球性年会,其国际影响力仅次于3年一次的世界MedInfo大会。本次会议在华盛顿举行,历时4天。转换信息学(translational bioinformatics)、临床科研信息学(clinical research informatics)、消费信息学 (consumer informatics)、公共卫生信息学(public health informatics)和应用临床信息学(applied/operational clinical informatics)是今年的热点。参会同仁都使用了twitter共享会议心得,@AMIAInformatics。我院Dean Sittig教授是理事会理事。会议的合作厂商有Oracle. Cerner、阿斯利康、GE Health、葛兰素史克、辉瑞、西门子等。
随着电子病历的迅速普及和医疗大数据时代的到来,自然语言处理技术(NLP)在生物医学领域迅速发展,已经成为当前的研究热点 。临床医学信息大量的以非结构化(或半结构化)文本形式存储于信息系统中,NLP是从医疗文本中提取有用信息的关键技术。通过自然语言处理,这些非结构化的医疗文本被转化为包含重要医学信息的结构化数据,科研人员才可以从这些结构化的数据中发现有用医学信息,从而提高医疗系统的运行质量,减少运行成本。
在美国,临床医学领域NLP的研究开始于20世纪60年代。早期的研究基于有限的电子医疗文本验证了NLP在医疗领域的可行性。到80年代和90年代,大量的医学数据和领域知识库被逐渐建立起来。例如SNOMED ——被广泛应用的临床医学术语知识库之一,UMLS(The Unified Medical Language System)——一体化医学信息系统,集成了150多种常用医学术语知识库。随后,大量的临床医学NLP系统开始出现,代表性的临床医学NLP系统有MedLEE、MetaMap、cTAKES、MedEx、KnowledgeMap等。这些临床医学NLP系统的应用覆盖了医学信息抽取、医学文本分类、医疗决策支持、病人信息管理、医疗信息问答、医学知识挖掘及知识库建立等诸多领域。在临床医学信息学领域,由美国医学信息学协会(AMIA)组织的年会是医学信息学和临床医学自然语言处理最重要的年会之一。协会的官方刊物(JAMIA)是临床医学信息学最重要的刊物之一。
作为通用自然语言处理的分支,临床医学自然语言处理的发展始终紧随通用自然语言处理的进展,同时有所创新并回馈通用自然语言处理研究。作为从非结构化数据中抽取有用信息并结构化的关键技术,医学信息抽取一直是临床医学NLP的研究热点。临床医学文本中包含大量的临床医学名实体,这些医学名实体涵盖了非常珍贵的临床医疗信息,例如病人的病史、诊断、检测项目、疾病、治疗方法、所用药物等。 通用NLP领域的大量医学名实体识别方法被应用到了临床医学信息抽取领域,包括基于通用词典的方法,基于规则的方法和基于机器学习的方法等。在一系列公开测评任务中,基于机器学习的有监督学习模型取得了较好的性能。但是,有监督机器学习模型的训练通常需要大量人工标注的语料,这正是临床医学NLP研究中缺少的。相对于通用NLP领域,临床医学领域出于保护病人隐私的考虑,缺少大量可用的人工标注临床医学语料(其中,美国国立卫生研究院下的中心I2B2,通过组织一系列公开测评为临床医学语料建设做了大量贡献)。临床医学NLP相对通用NLP研究的另一个特有的特征是,临床医学领域有比较完善的知识库(如SNOMED 和 UMLS),而且这些知识库对于相对较窄的领域具有较好的覆盖率。医学信息抽取的研究大量的使用了这些已有知识库,并取得了不错的效果。
美国德州大学休斯顿健康科学中心(以下简称“中心”),生物医学信息学院院,计算生物药物学中心有着多年的临床医学NLP研究和系统开发经验。中心主任徐华副教授目前担任美国医学信息学协会自然语言处理工作组主席。中心发表的论文涵盖了医学信息学最前沿的期刊和会议。该中心致力于临床医学NLP基础方法研究多年,研究方向涵盖了医学名实体识别(NER)、语义角色标注(SRL)、句法分析(Parsing)、主动学习以及深度学习等方向。中心研发的生物医学NLP系统涵盖了临床医学NLP的各个阶段, 其中,药物信息抽取系统MedEx是最广泛应用的临床医学NLP系统之一,临床医学人员和医学信息学研究人员可以通过该系统自动抽取电子病历中的药物相关信息;时间信息抽取和医学名实体时序关系抽取系统在2012 年I2B2公开测评中获得冠军;医疗名实体识别和标准化系统在2013年SemEval 公开测评中获得冠军;CARD是第一个通用临床医学缩写词处理工具;即将开发完成的CLAMP系统是一个通用临床医学NLP系统,上述模型和算法在CLAMP中完全得到支持,可以应用于医学信息抽取并标准化,消除病人敏感信息和医学文本挖掘等相关领域。 这些临床医学NLP研究是基于大规模病人数据应用的基础。以此为基础,该中心主持了一系列基于大规模电子病例的药物重定向、药物安全监视、药物基因组学和健康医疗分析的项目。
在2014年的AMIA会议上,中心发表的论文涵盖了机器学习、医学信息抽取、语义角色标注、医学知识库构建和药物重定向等方向。徐华做了基于大规模电子病历的药物重定向研究报告,引起了领域内极大关注。上述一系列自然语言处理技术使得基于大规模电子病历的研究成为可能。由于语言学规律在不同自然语言中具有一定普遍性,这些基于英文的系统和模型通过本地化可以被应用于其他语言记录的电子病例。在中文临床医学方面,我中心和北大医学院合作,进行了一系列中文临床医学电子病例的研究,转化了一些基于英文的模型和系统,如中文医学名实体识别等(相关文章发表于JAMIA)。
下面是徐华副教授参与写作的文章摘要。
案例一:
药物主动监视(pharmacovigilance)是药物流行病学的一个主要方法学,通过监测药物投放市场后的临床副作用,进行关联性研究。这就需要把病历数据中的不良药物反应提取出来,并借助医疗文献的数据挖掘,进行关联形成分析。从而产生各种概率的分布,供人类专家筛查和进一步分析提供线索。文献的挖掘和病历的挖掘用到了自然语言分析。《Identifying Plausible Adverse Drug Reactions Using Knowledge Extracted from the literature》
案例二:
肿瘤复发时的转移模型对于肿瘤的预后和存活率是一个关键的指标。然而,这些数据在病历中多为自由文本记载,或自由文本和结构化数据混合记载。一个智能的文本抽取和建模工具,对这种知识的提炼有巨大的价值。本文用自由文本中的解剖学位置建模,从而抽取出了线索,供临床的进一步研究。 《Identifying Metastases from Pathology Reports in Lung Cancer Patients》
案例三:
美国电子病历有效性使用(meaningful use)已经让病历数据快速电子化,为流行病研究和基因组学研究创造了条件。电子病历数据的二次利用,成为了目前的热点。本文总结了病历中数据挖掘的关键方法学,从而为现存药物的其他功效分析提供了思路。(比如伟哥起源于心脏病药物研究,最后用于治疗男性性功能障碍)最近的研究表明相比其他的糖尿病治疗方案,有一种二型糖尿病药物,在治疗糖尿病的同时,提高了肿瘤病人的存活率,并降低了复发风险。这个发现指导科研人员去探索,是否此药物可以用来作为一种肿瘤治疗药物。基于自然语言处理技术和深度学习技术,我们可以用电子病历数据来推理此假设。《Mining Electronic Health record to Detect Drug-Repurposing Signals for Cancers》
案例四:
语义角色标识(Semantic role labeling),可以在自由文本中提取精准的语义关系。比如肝脏活检,肝脏是活检材料的解剖学来源。语义角色标识在语料库里是非常丰富的,需要针对医学做进一步的提炼和验证。建立和改良临床词汇的语料库是一个长期的工程。我们使用了交叉关联的方法学,把新闻通讯中的语义角色标识与临床文献相结合并交验,从而争取实现再利用其他领域已经存在的语料库,降低临床语义角色标识建立的成本。《Domain Adaptation for Semantic Role Labeling of Clinical Text》
案例五:
为了建立高性能的语法解析器,人工改良过的句法树库(Tree bank,树图资料库)是一个关键的元信息模型。各个领域的树库建设正在展开。我们这次做了病人出院小结的树库建设。《Building a Treebank of hospital discharge summaries》
案例六:
电子病历中,药物和现病史的关联分析,对如何规范化用药,降低过度医疗,映射临床路径,起到关键作用。我们做了个计算模型,用了5个轴系的知识框架,从两个学院的病历数据和一家保险公司的理赔数据中建立关联模型。《Development of a Unified Computable Problem-Medication Knowledge base》
案例七:
健康论坛成为互联网上的一大热点。论坛数据的挖掘用途很多,比如,医生们对于典型或者罕见病的讨论,潜在的流行病爆发趋势等。事件驱动模型的挖掘,让这些散在的数据更具有时序性,聚合性,从而协助专家们整理新的知识。《Extracting Patient Demographics and Personal Medical Information from Online Health Forums》
以上简要介绍了自然语言处理的七个应用案例,如果您希望更深入了解某个案例或者进一步交流,欢迎积极发表评论留言或者与作者联系:朱珉,微信号:mzhu666
评论前必须登录!
注册