专访UTH徐华教授：自然语言处理助力医学大数据研究-HIT专家网

来源：HIT专家网记者：朱小兵

HIMSS15展会现场中美HIT同仁合影。左起：朱珉、朱小兵、徐华、郑杰、姚丽霞

4月中旬在美国芝加哥举行的HIMSS15期间，HIT专家网有机会在现场与美国德州大学休斯顿健康科学中心生物医学信息学院（SBMI in UTHEALTH）徐华教授就该学院新设立的医疗大数据专业方向进行了采访交流。近年来，SBMI十分重视自然语言处理技术的研究。为什么要在医学信息学领域应用自然语言处理技术？

开展海量医疗数据研究的前提：缩短数据清洗周期

面对海量的医疗数据，应该如何开展研究？这正是SBMI给自己的命题。

徐华教授说：“当前面临最主要的挑战，来自于电子病历系统（EMR）的数据主要服务于临床而非科研。因此，其数据结构、存储方式，都不是很适合直接用于研究。需要花费很多的时间，做数据清洗、分析方法的准备工作。”

徐华教授举了一个例子：有学者提出，二甲双胍（糖尿病药）可以提高癌症患者的存活率。这就意味着，这个药可以用来治疗癌症。但是，这一结论如何从电子病历数据中获得验证？

对此，传统的做法是：第一步，找到所有的癌症患者；第二步，然后看是否有糖尿病；第三步，筛查是否服用了该药；第四步，找到这些病人用药、生活习惯及其他致病的因素，然后对不同的用药组进行比较。这些数据的抽取、清洗，需要很长的时间。

“在美国，电子病历通常都包括大量非结构化的数据。因此，最大的挑战是：非结构化数据非常凌乱，要寻找有价值的结论，无异于大海捞针。”徐华教授说，“为此，我们需要借助一些技术，将整个数据提取、清洗、整合过程自动化。经过研究，我们开发了自然语言处理软件，能够自动从文本数据中提取符合需要的信息。我们先在范德堡医学中心做了试点应用，随后推广到梅奥诊所，并应用到二甲双胍和癌症患者的存活率的研究中。研究表明，我们的软件和传统方法得到了差不多的存活曲线。以往，做这件事需要几年的时间。而用医学信息学的方法，不仅能够大幅缩短周期，而且加强了统计功效（Statistic Power）。”

“如果能够把所有电子病历数据联网形成大数据仓库，我们就可以用这个方法做大量的研究，帮助医院开展临床决策、市场研究、政策制定、疾病监控、医学研究以及深度的病例分析。”徐华教授说。

类似的应用还可以用于其他许多需要数据支撑的场景。比如医疗保险公司，有了数据支撑后，可以制定针对不同人群的医疗健康保险政策。同时，对于支付医疗费用的赔付，也提供了更好的依据，加强医保控费。

自然语言处理：实现电子病历数据的机器可读

徐华教授介绍，电子病历主要用于临床，数据需要重新组织才能开展研究。例如不同医院使用不同的术语标准，医生看病的记录也不尽相同。如何才能让这些记录实现机器可读，这正是其重点研究的课题。

“这就需要建立数据仓库，重新定义元数据和新的数据模型才能开展分析。只有转换到通用的数据模型之后，所有医院的数据才能进行交流。但是究竟如何做？要考虑很多因素，包括病人隐私保护。”徐华教授说。

数据整合、数据分析分别需要不同的技术。“大家都在想充分利用电子病历的数据，但是每一步怎么做，并不是很清楚。我们在试图建立这个框架。为此，我们研究建立医疗的通用数据模型( Common Data Model,CDM)。首先，将一些定义标准化，并贴上不同维度的标签。而如何将电子病历数据转换为这些标准化的数据，就需要用到自然语言处理的技术。”

而在标准的制定方面，的确是美国的优势。美国ONC（国家医疗信息技术协调办公室，Office of the National Coordinator for Health Information Technology）和NIH投入了大量研究经费开发关于电子病历数据二次利用的通用标准。当中最活跃的电子病历数据二次利用标准化组织包括：SHARPn ，该项目由美国ONC授予梅奥诊所科研经费，进行电子病历的数据再利用研究。 PCORNet是国家以病人为中心的临床研究网络，致力于变革传统的临床研究，更多的鼓励病人、医护人员来参与，从而提高医疗质量，积累新的医学知识。 OHDSI（Observational Health Data Sciences and Informatics）致力于改良医学的决策支持模型，通过在病史、健康诊疗过程、绩效评估中循证，在大尺度的观测性医疗数据中寻找群体级别的估算值和个体级别的预测。OHDSI的合作者能访问过10亿病人的网络，从而产生医疗各方位的数据。全球的病人、医生以及其他的决策人员都可以使用OHDSI的数据和工具等解决方案。OHDSI的项目从业人员背景来自于统计学、计算机科学、流行病学、物理学、信息学、生物医学等，参与机构则包括了学界、医院、医疗界、支付方、医疗设备的生产商以及政府的部分职能部门。

医学大数据研究的未来挑战

麦肯锡的研究报告认为，未来5年，在美国有五大改变现有规则的力量，大数据是其中之一。有分析机构预测大数据在医疗领域的价值：到2020年，预计每年可以节省1900亿美元的医疗费用。

徐华教授认为：“大数据的应用，将主要用于疗效比较研究、CDS（临床决策支持）、药品不良反应跟踪监测等。而在以前，这些都主要是靠医生主动的汇报。未来将主要基于数据驱动，自主监测。”

据介绍，药品不良反应跟踪，是世界卫生组织（WHO）要求的一项工作，也叫做四期临床。药品投入市场使用之后，必须经过临床四期监测，以保证没有额外的毒副作用。

SBMI希望引入大数据的方法，将其研究成果产品化。“我们预期的医疗大数据分析，不是一次性的解决方案，而是一种服务。”徐华教授说，“未来的方向和瓶颈在于两个方面：其一，对大数据的计算资源要求，比如并行计算。其二，医学领域还不能完全做到数据驱动，因为医疗有大量的知识。如何将数据驱动的信号，与现有的知识库结合起来。这是医疗比较独特的地方，需要建立医学信息和知识之间的关联关系。”

徐华教授也谈到精准医疗这一热门话题。他认为，大数据为精准医疗提供了一种技术方法。在综合各种因素之后，对治疗方案进行个性化的治疗，但这需要确立不同的模型。例如：warfarin抗凝剂，病人吃多少，非常敏感，吃过量会引起大出血甚至死亡。决定剂量的因素，除了年龄、性别，还有几个基因。这些临床的数据需要和基因表型数据综合评估，从而确定针对不同个体的剂量。基因测序已经日益普及，对用药的影响也很普遍，商业化应用也日趋成熟。

【简介】

徐华 2008年获美国哥伦比亚大学生物医学信息学博士。2008-2012任职美国范德堡大学生物医学信息系助理教授。2012加盟德州大学休斯顿生物医学信息学院，任副教授和生物医学计算中心主任至今。多年来从事医学信息学研究和软件开发，主要研究方向包括：人工智能在医疗领域的应用，生物医学领域的自然语言处理以及电子病历数据挖掘。主持和参与多项美国大型医学信息研究项目，现任三个美国国立卫生研究院重要课题（NIH R01）的首席研究员(Principal Investigator)。现已发表100余篇论文。2014当选为美国医学信息学院院士。

专访UTH徐华教授：自然语言处理助力医学大数据研究

评论 1

评论前必须登录！

相关推荐

最新发布

业界招聘

社区新帖

最新评论

标签云

链接表

HIT180客服

关注微信：hit180
复制微信号

回顶部