专业咨询
致力推进中国医疗卫生信息化

王晖:大数据在卫生计生监督领域的应用体会

来源:HIT专家网    记者:孙鹏   实习记者:邢妍

王晖处长介绍大数据应用体会

医疗大数据持续火热。而在卫生计生监督领域,已经开始了积极的探索实践。在2017年3月18日由中国研究型医院学会医疗信息化分会医疗和临床科研大数据专业委员会主办、HIT专家网承办的“医疗大数据应用与实践研讨会”上,国家卫生计生委卫生计生监督中心信息二处王晖处长结合卫生计生监督中心已经开展的大数据应用实践,分享了其背后运用大数据技术和相关性分析思维的实践之道。

大数据在卫生监督领域应用的背景

“信息报告系统或者是直接录入信息的系统,是信息化发展不可逾越的初级阶段。”王晖认为,相比于医院内动辄上百套业务流程复杂的信息系统,作为公共卫生信息系统之一的卫生计生监督信息系统覆盖全国3000多家监督机构,用户6万多人,看似流程相对简单的系统,但在一个大的范围内,就是一个复杂的系统。为此在2009年,国家卫生计生委卫生计生监督中心专门开发了适用于全国范围内各级卫生计生监督机构的国家级平台——卫生监督信息报告系统,信息报告系统采用网路直报方式采集数据。同时开发了基础版业务系统,在一些试点省省级平台统一部署基础版软件,包括卫生行政许可审批系统、卫生监督检查与行政处罚系统,在业务过程中自动生成信息报告系统所需数据,通过交换方式将信息上传至国家级平台。从2009年到现在,在全国范围内动态、完整地采集到了包括公共卫生、医疗服务、传染病防治和计划生育等9个专业的300万家一户一档的管理相对人个案底档数据,这为全国卫生计生监督大数据平台的搭建和后续的大数据应用提供了数据来源的基础。

王晖表示,在卫生计生监督领域,现阶段下的大数据应用有三点需求首先是业务上的需求,每隔两年就修订一次的卫生计生调查制度在报告制度、汇总统计等随着业务变化,都都会发生变化;其次是现有系统功能上的需求,包括提升并发查询计算效率、增强统计分析能力、保障业务系统稳定性;再次是技术上的驱动,随着大数据技术的日渐成熟应用,这也为进一步开展卫生计生监督数据的研究利用提供了条件。

同时,在卫生计生监督领域,大数据应用目标则体现在两个方面

一方面是数据整合上的目标。首先是搭建起基于Hadoop技术和卫生计生监督数据仓库的卫生计生监督大数据基础技术平台;其次是解决历史数据的归集问题,要通过归集原有版本中的历史数据来实现平台与新建卫生监督信息报告系统的平滑对接;第三是统一数据的标准,其中包括行业数据标准和业务系统数据标准。

另一方面是数据利用上的目标。首先是完成多并发个案实时统计查询的目标,全国3000多家各级卫生计生监督机构机构中6万多人每天都要使用查询系统,其中会产生大量的并发情况,所以要解决好个案查询问题;其次在统计分析方面,要提高统计分析功能的灵活扩展能力,加强各业务、各专业数据之间的关联关系分析功能,完成历史数据的趋势分析与预测分析的目标。

卫生计生监督大数据应用的初步成果

“对于卫生计生领域的大数据应用,不要总是讨论多大规模的数据才是大数据,只有快速地掌握并应用大数据技术,才能打开大数据应用这扇窗。”王晖表示,2015年,国家卫生计生委监督中心开始了大数据应用项目的初步建设,先后完成了国家卫生计生监督大数据基础平台的搭建、大数据资源的整合以及部分基于大数据平台的业务应用。

据王晖介绍,国家卫生计生监督大数据平台构建了大数据的基础软硬件环境与数据加工框架。该平台在大数据技术选型上采用Hadoop作为大数据的存储方案,将Solr作为大数据的全文检索引擎,Impala作为大数据的计算引擎。同时,将业务库和统计库进行分离,以确保发生大量并发情况下的性能稳定性。在卫生监督信息报告系统中,先将数据信息放置在关系型数据库,随后再通过个案交换到大数据平台。王晖表示,在实际过程中,传统的汇总统计和自动生成的报告是基于关系型数据仓库来进行,而个案查询和专题分析则通过大数据平台来计算处理。而在大数据资源整合方面,王晖认为,首先要兼顾整合内部数据和外部数据。“大数据平台应用千万不要只局限于自身的数据,只是内部数据可能远远不能实现想要分析的目标。”王晖表示,在项目具体建设过程中,通过国家卫生计生监督大数据平台,对卫生计生监督内部的包括卫生计生监督资源库、执法信息库等在内的历年数据进行了归集,同时整合了包括医疗机构信息库、国家卫生计生委医政医管局医师、护士注册数据等与卫生计生监督相关联的“外部”业务数据,初步形成了卫生计生监督大数据的数据资源体系,实现了数据的统一管理,为监督业务的数据挖掘做了铺垫。同时,为了提高国家卫生计生监督大数据平台的数据质量,包括完善卫生计生监督元数据和卫生计生监督指标体系等措施都促进了数据的标准化管理。

王晖表示,基于国家卫生计生监督大数据平台的初步应用效果,表现在了两个方面

第一是实现了数据的快速查询。大数据平台的查询达到了千万级数据多并发秒级响应,在相同的环境下,大大高于传统关系型数据库的处理效率,且支持分布式部署,在数据量增加的情况下,不需要改变设计策略,只做服务器线性扩充即可;

第二是在数据挖掘分析方面的应用。大数据平台为统计分析提供数据管理和数据计算分析框架,实现了对监督历史数据、统计局数据、其他相关业务数据等多源数据的关联性、多维度、相关因素分析的深入分析,并能提供各种图表形式的灵活直观的展现。

此外,王晖还以打击非法行医数据的专题分析为例,用地图、表格等形式生动形象地展现了非法行医的地域分布,通过数据的归集和相关性的集中展现,从中深入解析出了非法行医聚集地从上海、江浙等华东地区向云贵等西南地区转移的原因。

王晖举例阐释大数据在卫生计生监督工作中的应用

关于大数据技术的应用体会

2016年,国家卫生计生监督中心继续完善了卫生计生监督大数据平台,引入Spark计算框架,进一步聚焦可持续性的数据分析业务,进一步兼容开放数据分析组件和企业级的分析工具组件,提供了更加精细、精准、及时的信息支撑服务,也满足了更多的个性化、自主化的数据服务需求。

“对于现阶段的大数据平台建设来说,甲方转型困难,乙方转型更困难,我们希望搭建一个一个多租户化的大数据平台,统一维护好后,都在这个基础平台上开发和应用,不仅安全而且还降低了投入成本。”王晖表示,多租户技术能在多个应用和多个用户环境下,为用户提供资源分配和任务调度的功能。

而对于如何选用统一使用的大数据平台中的多个关键组件这一问题,王晖认为需要从解决实际需求的问题导向入手。比如,对于非结构化的数据来说,国家卫生计生监督中心所承担的包括全国生活饮水在线监测和全国公共场所中游泳池水等在线监测必须要有大数据应用作为基础,这些需要大量实时采集的非结构化数据在数据监督统计和数据实时监测方面均有需求。在监督统计方面,传统的Oracle数据库,用Sqoop批量导入指定数据,最后进入关系型数据库来进行计算。而在生活饮水数据的实时监测方面,通过消息传输中Kafka消息队列来进行管理。

“我们现在的业务数据规模并不大,但6500万多条的数据量具备了大数据的雏形。”王晖表示,“为了进一步缩短获取数据的时间,我们针对数据的传输和载入过程,大数据平台适合一次导入,多次使用的场景,数据载入是有一定的时间开销,为此我们发掘了出了一个在数据计算处理过程中的小技巧。”据王晖介绍,首先将业务生产库的数据,通过Oracle 的Golden Gate以秒级的速度传输到前置数据库,随后通过Sqoop软件做一个小技巧,具体的应用是在双数据区进行交替访问即在奇点时访问偶点,在偶点时访问奇点。

“大数据有一个载入的过程,我们在经过优化后载入一次全量数据只需要40多分钟,这实际上就把24个小时缩短到了1个小时,目前全国6万多工作人员能查询1个小时之前的数据。”王晖说。同时,王晖还介绍了全国卫生计生监督中心正在开展的8种介水传染病发病情况的数据研究。截止到目前的分析发现,多个相关性的关系特征明显:即实验室样品检测合格率越高介水传染病发病率越低,水源水类型越多的地区发病率越低,当地水厂专职人员数和当地人口数的比例越低发病率越高,水厂数和当地人口数比例越低发病率越高。

王晖在最后还谈到了三点对大数据应用的体会

首先是大数据对监督工作理念的影响。王晖表示,大数据平台鼓励从业者从更多、更广、更深的角度看待、分析数据的工作理念,这对监督工作的影响更为深远,不仅可以进一步挖掘业务流程所产生的数据的价值,而且还可以促进业务流程上的优化;

其次是越来越多的业务需要大数据技术来做支撑。随着业务数据的不断增长,业务的发展也不断地有业务融合和协作上的需求,这需要一个更加开放和高效管理平台来实现对卫生计生监督业务的管理、数据的整合挖掘,满足管理需求;

第三是总体设计、混合式架构、逐步建设与发展是切入大数据技术应用的较好方式。“在不同的阶段针对不同的业务类型选择合适的技术组件至关重要,要在保留传统基础设施和软件的基础上,逐步发展和完善大数据平台的建设。现阶段的情况下,我认为混合架构是适合我们尝试大数据应用的方式。”王晖如此表示。

【责任编辑:孙鹏】

赞(0)

评论 抢沙发

评论前必须登录!

 


未经允许不得转载:HIT专家网 » 王晖:大数据在卫生计生监督领域的应用体会
分享到: 更多 (0)