最新消息:欢迎您,亲爱的读者!您可以通过QQ号或新浪、腾信微博账号直接在评论处登录,发表评论并选择转发到微博、QQ空间。

薛万国:医疗大数据应用的核心是服务能力建设

管理视野 HIT金子 5943浏览 评论

来源:HIT专家网    记者:孙鹏

IMG_4030(1) (1)

“医疗大数据应用的核心是服务能力建设。”这是在4月下旬举行的“医疗大数据服务能力建设研讨会”上,解放军总医院医学信息研究所高级工程师薛万国在演讲中所表达的鲜明观点。过去一年多来,解放军总医院国家医疗大数据工程实验室开展了积极探索。本文为薛万国主任演讲实录,有摘编。

医疗大数据的本质是服务

医疗大数据应用的本质是一项服务,这与传统的信息化应用有所不同,它不是一项或几项系统应用。以下是两个医疗大数据应用场景实例。

一是病历检索。比如医生希望查找“肿瘤化疗后白细胞下降的患者”,或“30天内二次住院的患者”,而原有的病历检索系统功能很难直接支持这些比较复杂的检索条件,需要技术人员通过SQL来人工检索。即使建立了自动化的数据检索系统,但在真正面对大数据应用时也总是难免“挂一漏万”,通常需要人工检索服务。

二是数据分析。比如“65岁以上老年人患两种以上疾病的排名前三的共病组合”或“老年下肢关节手术全麻/非全麻与术后肺部感染的相关性研究”的数据分析过程,从数据的抽取、整合到分析都需要IT技术和数据分析人员人工完成,特别是需要对业务数据十分熟悉。这说明医疗数据分析是一个不能自动化的个案服务过程,无法通过一个系统帮助用户直接完成。

因此,在现阶段,人工处理是医疗大数据应用最主要的工作,SQL 是最简单有效的处理工具。

在整个大数据分析的流程里,通常包括这样几个阶段,依次为:数据抽取、数据整合、数据清洗、格式转换、数据分析以及结果呈现。其中,90%的工作量是在准备数据,10%的工作量才是做数据分析,准备数据需要人工处理,数据分析所用的建模工具同样也属于人工处理。

根据不同类型大数据分析的技术特征,通常可把大数据分析分成四个层次:第一阶段也是最低层次是描述型分析,通常需要报表、BI工具;第二阶段是诊断型分析,主要通过相关性分析、数据挖掘来完成;第三阶段是预测型分析,根据既往历史数据来预测未来,通常用到机器学习模型、建模分析;第四阶段是指导型分析,即在预测型分析的基础上进一步给出如何行动的指导,需要人工智能、机器学习等技术。其中,除第一类可借助自动化报表工具实现半自动分析外,后三种类型是大数据相对高阶段分析,需要专业分析人员通过人工分析的方式解决问题。

综上所述,开展医疗大数据应用是一项多学科融合的技术服务,其本质是一项服务。与相对规律、低层次的信息化的运维服务相比,医疗大数据服务是一项高层次服务,需要对医院自身需求和信息化流程极为熟悉,难以通过外包形式长期持续发展。因此,做好医疗大数据应用的关键是医院要具备自己的服务能力。很难想像医疗大数据应用可以委托给某个公司长期提供创新式服务,至少现在还没有这种模式。

医疗大数据所需能力及团队建设

医院开展医疗大数据应用至少需要六个方面能力,包括提出问题的能力、数据资源能力、数据平台能力、数据处理能力、数据分析能力、数据治理能力。这六个能力又可分为四个层面:一是提出问题能力,这是需方能力,可通过示范应用、培训、设置课题来激发临床人员的创造性;二是数据资源能力和数据平台能力,这是基础支撑能力;三是数据处理能力和数据分析能力,这是核心服务能力,也是供方能力;四是数据治理能力,是为保障大数据应用所需的管理保障能力。

如何做好大数据服务能力建设?大数据核心服务能力是人工服务能力,第一步就是要做好团队建设。大数据利用需多学科技术人才协同完成,服务过程至少需要三类人才:

第一类是信息技术人员,主要职责是数据抽取、整合、预处理,数据资源管理、授权,数据平台管理等与IT紧密相关的工作,通常所需的技能包括SQL、传统及大数据技术平台管理、深度学习框架等基本技能。同时,除纯技术人员外,还需要部分人员对业务信息系统及数据流程非常熟悉。

第二类是数据分析人员,主要职责是提供各种类型数据分析、建模、撰写研究报告等,需要掌握数理统计方法、机器学习算法(数据挖掘算法)、R、SQL、Python 、深度学习框架等技能。同时,还需要流行病学与公共卫生统计人员方面专业人才,对整个统计分析提供指导。

第三类是生物信息人员,主要职责是提供组学数据处理分析,技能包括掌握各类开源的组学处理分析工具。

医疗大数据的服务流程建设

人才是硬条件,除了团队建设外,对于大数据中心来讲,还要有软条件,就是服务流程的建设。要建立一个规范化服务工作流程对服务进行管理。主要包含三个部分内容:

首先是建立规范化的服务工作流程,依次是需求描述、分析方案设计、数据抽取、数据清洗和预处理、数据分析、形成报告等步骤;其次是建立服务质量保证机制,数据分析方案、分析过程、最终报告需经过技术评审;再次是建立多学科人员协同工作模式,要有纵、横结合的工作模式,多专业人员的讨论机制。在此过程中,临床人员充分参与沟通,必要时咨询病案等领域专家。

在数据利用平台方面,医疗大数据有其特殊性,具有“小”数据多、“大”数据少以及结构化、自有文本、医学影像、组学数据并存等特点。因此,传统数据库往往更为简便成熟,技术生态也更完善,在整个平台建设中,更适宜传统技术平台+大数据平台的混合架构,并不需要统一的一体化平台。

其中,小规模结构化数据的处理与分析可采用传统架构来处理,结构化数据的自由检索没有索引,可采用列数据库并行算法来支持,对于自由文本检索,可采用ES集群或Hadoop集群。同时,需面向技术人员提供各类工具支持,包括数据抽取、去隐私、结构化特征提取、统计建模工具等。

此外,数据治理十分重要。医院信息化已经开始由传统的IT治理向数据治理发展。IT治理关注的重点是围绕信息系统应用来展开,如何最大程度地发挥信息系统的作用,怎样配合实现医院战略目标是传统IT治理所强调的内容,其关注点是IT应用。在大数据时代,数据被当做资源看待,数据治理关注的重点是数据资源管理与应用,主要内容包括对数据资源整合、数据利用、数据质量、数据权益、数据安全等方面的职责与管理体系做出明确规定,以最大程度发挥数据资源的作用。

数据治理能力是医疗大数据应用能力的重要构成,是开展医疗大数据服务、提高数据质量的重要管理和保障措施,可保证数据资源的集中统一管理,避免分散割据和人为壁垒,保护数据安全。同时,还可为医疗数据质量提供管理保障,以提高数据质量为目标来持续改进信息化应用。

医疗大数据应用案例

目前,解放军总医院国家医疗大数据工程实验室在如下几个领域开展了一些应用研究。

一是针对胃癌患者生存分析的研究。基于包含1749例随访患者的1937个胃癌专病病例数据,根据病理分型、胃癌不同部位、不同分期或不同手术方法等对不同人群生存期进行分析比较,实现对某一类患者生存期的预测。

二是开发出针对二型糖尿病用药智能推荐模型。基于2万多例糖尿病病例和机器学习模型,针对患者用药模式六分类,建立了一个预测模型,目前准确率达到72%。

三是PCI术后MACE预测模型分析,依据2万人临床与随访数据对PCI术后MACE进行预测分析,以此实现评价六种主流机器学习的方法。

四是合作开发肝脏肿瘤影像识别系统,目前进行肝脏分割的准确率达到95%,在此基础上,下一步将进行肿瘤部位标注和肿瘤识别。

五是针对皮肤病理图像识别研究,恶性皮肤黑素瘤识别率达到90%。

六是在组学数据分析领域,一方面是脑胶质瘤,基于TCGA和NCBI数据,发现可用于精准分型的甲基化Panel;另一方面是急性髓系白血病,基于实际病例的基因数据筛选,发现一个耐药标识基因。

七是临床智能输血决策系统,基于8万例输血病例,建立红细胞输注量个性化预测评估模型,准确率接近90%,已将该模型嵌入医生工作站,实现医生输血申请的智能化管控。

同时积极探索数据开放共享。2017年,解放军总医院主办了急诊大数据分析大赛,在急救医学数据库中整合2.3万人次的急救数据,去隐私后开放利用,从全国24个申报项目中筛选出11个单位13支代表队,自拟题目,自定方案,在两天开放时间内做出结果。现场气氛非常热烈,最后成果大家也是非常满意,效果超出预期。通过这样的活动,倡导了数据开放利用的理念。

通过这些例子,我们也能进一步看到,大数据在医院的应用,根本上来讲,需要提升自身的服务能力。

【责任编辑:谭啸】

 

您必须 登录 才能发表评论!