来源:HIT专家网 作者:国家卫生计生委卫生和计划生育监督中心 王晖处长
卫生监督信息化,自2009年正式启动以来,克服了起点低、基础差的局限,取得了快速发展,目前已搭建国家级卫生监督信息平台,并开发全国使用的信息报告系统、卫生计生监督员网络培训系统和国家卫生计生委政务大厅信息管理系统等16套信息系统,初步具备了大数据的特征,为未来卫生计生监督信息化获取数量更多、类型更丰富的数据,将卫生计生监督信息化建设推向更高水平,并进而使用大数据技术奠定了基础。卫生计生领域大数据时代已经来临,不要沉浸于讨论多大规模的数据才是“大数据”,只有快速掌握这个技术,才能打开大数据时代的窗户。
卫生计生监督数据初步具备大数据特征
从数据量看,自2011年1月1日国家卫生监督信息报告系统上线到现在,通过信息报告系统二次录入和通过业务系统自动产生后传送给国家级平台两种方式,已采集关于《全国卫生监督调查制度》要求的个案信息卡的数据约2500万条。就目前而言,与大数据要求的规模尚有一段距离。
从增长角度看,现阶段国家卫生监督信息报告系统呈每年500万-800万条的数据增长量。就目前而言,具备了大数据的雏形。
从类型看,国家卫生监督信息报告系统中主要是结构化数据,涉及调查制度的个案信息卡内容,加上机构和人员卡,分五大类,建设项目、行政许可、经常性监督、监督检测和案件查处。涉及的半结构化和非结构化数据很少,因而无法满足有效扩大分析数据范围的要求。
从系统看,产生、收集、传输、利用有关卫生监督信息主要依靠以下几个系统:运行环境层面上的,国家级卫生监督信息网络软硬件支撑平台;应用软件层面上的,国家卫生监督信息报告系统,省级卫生监督日常业务系统(卫生行政许可、卫生监督检查和行政处罚)。就目前而言,缺少大数据系统要求的类似大规模人工辅助决策系统、分布式储存与计算、流式处理等系统与技术支持。
总之,就目前而言,卫生计生监督信息化产生的数据初步具备了大数据的特征,但数据量、数据类型与支撑系统方面,无法满足使用大数据的要求。但从卫生监督信息化现阶段发展方向与发展趋势来看,其为大数据的利用奠定了一定的基础,为日后进一步利用大数据开展业务等活动开辟了道路。反过来,基于初步具备大数据的特征,现阶段以利用大数据为导向,尝试使用大数据技术,进一步明确卫生监督信息化的发展方向,推动卫生监督信息化向更高水平发展具有重要意义。
卫生计生监督大数据平台建设情况
2015年6月,国家卫生计生委卫生和计划生育监督中心启动了卫生监督综合分析二期项目建设。通过本期项目建设,完成了国家卫生监督大数据基础平台搭建、大数据资源整合以及实现了部分基于大数据平台的业务应用。相关建设情况总结如下:
1. 大数据技术平台搭建
平台介绍:国家卫生计生监督大数据平台构建了大数据的基础软硬件环境与数据加工框架。平台在大数据技术选型上采用Hadoop/HBase作为大数据存储方案,选用Solr作为大数据检索引擎,Impala作为大数据计算引擎工具,平台架构如下:
平台架构共分为4层,自下而上分别是基础层、数据层、服务层和应用层。
(1)基础层:主要包含大数据平台所需要的服务器集群和存储,集群和存储可以随着数据量的增长线性扩充,以满足业务增长的需要。
(2)数据层:采用Hdfs、HBase、关系数据库混合式架构,包括大数据基础平台和关系型数据库。部署在基础设施之上的大数据基础平台是整个架构的核心,它主要由两部分构成,分别为分布式文件系统和分布式数据库以及集成适应卫生计生监督业务需求的大数据计算和检索引擎。
(3)服务层:基于大数据基础平台,开发了大数据平台服务接口,接口主要为上层应用提供一系列服务。接口主要包含查询与计算两大类,查询类接口支持业务信息查询检索服务,计算类接口支持汇总分析服务。
(4)应用层:主要是依托大数据平台实现的数据查询、数据分析以及数据挖掘等业务应用。
大数据平台采取分布式系统,即使数据增加,也可以平滑扩容集群,增大处理能力,查询速度基本保持不变。
选型产品分析:在卫生计生监督大数据平台的设计过程中,针对不同的大数据技术,结合卫生计生监督业务的业务需求和数据特点,进行了技术选型,以下是选型产品的分析:
表:选型产品分析
技术选型 | 技术特点 | 应用 |
Hadoop平台(HDFS) | 成熟、稳定、可靠、容错和安全好,存取速度快;实现低成本的存储和低时延、高并发的查询支持。 | 存储卫生计生监督业务历史数据;提供并行的计算和非结构化数据的处理能力。 |
HBase、关系数据库混合架构 | 支持分布式计算,可扩展性好;混合型的架构可以对支持传统业务的模式,在向大数据技术过渡阶段,为用户交互查询提供数据存储支持。 | 分布式数据库(Hbase):存储加工、关联、汇总后的业务数据,提供分布式计算,支撑数据深度分析和数据挖掘能力,向关系型数据库输出关键指标和高度汇总数据;关系型数据库:一期建设的数据仓库,主要存储指标数据、关键指标数据和高度汇总数据。 |
Solr | 高效的搜索引擎,可扩展性强与关系型、NOSQL数据库结合的很好;支持分布式部署,可以建立高效、容错性好的服务器集群。 | 在卫生计生监督大数据基础平台上选用Solr作为检索引擎,提升查询效率 |
Impala | 与HDFS结合的很好;支持SQL语义,可以对原有的oracle数据的业务分析快速迁移。 | 为后台复杂的大数据计算提供计算服务 |
平台部署情况:目前大数据平台部署在国家卫生计生委卫生和计划生育监督中心机房,服务器共计5台,包含应用服务器、关系型数据库服务器和分布式数据库服务器,因为设备资源有限,部分机器有复用。平台部署结构见下图:
2. 大数据资源整合
在项目建设过程中,通过国家卫生计生监督大数据平台,对卫生监督内部历年的监督报告数据进行归集,同时整合国家卫生计生委医政医管局医师、护士注册数据和国家统计年鉴等与卫生计生监督相关的业务数据,初步形成了卫生计生监督大数据的数据资源体系,实现了数据的统一管理,为监督业务数据挖掘打下了基础。
3. 应用效果
基于国家卫生计生监督大数据平台实现了针对数据快速查询和挖掘分析的应用。
(1)大数据平台有效提升查询效率:采用HBase+Solr实现个案分布式查询,加强大规模并发下大量个案数据检索性能与可靠性,追溯日志信息,实现针对个案数据的历史变化情况查询功能以管理相对人为核心的各类卫生监督业务开展情况查询。
以大数据平台综合查询子系统的监督检查记录查询为例,达到了千万级数据多并发秒级响应,在相同环境下,明显优于传统关系型数据库的处理效率,且支持分布式部署,在数据量增加的情况下,不需要改变设计策略,主要做服务器线性扩充就可以。
关键指标 |
服务器数量:3台
部署环境:HDFS2.5、Solr4.4.0、Hbase0.98 场景:个案查询功能(记录量1500万条,任意条件查询) 并发用户:60个 平均响应时间:1.108s |
(2)深入数据挖掘分析:国家卫生计生监督大数据平台为统计分析提供数据管理和数据计算分析框架,实现对监督历史数据、统计局数据、其他相关业务数据等多源数据的关联性、多维度、相关因素分析的深入分析,并提供灵活直观的展现。提高了卫生监督统计分析功能的灵活扩展能力,各业务、各专业数据之间的关联关系分析能力,历史数据的趋势分析与预测分析能力。
大数据技术应用体会
1. 大数据理念对监督工作的影响
大数据给人的第一感觉是技术层面的事情,但大数据平台“鼓励从更多、更广、更深的角度看待、分析数据”的工作理念对工作的影响更为深远,不仅可以进一步挖掘业务流程所产生的数据的价值,而且可以反过来推进优化业务流程。
更多的角度看待数据促使我们更深入地思考数据本身的含义、价值、产生数据的工作流程。在进行卫生计生监督大数据项目的过程中,信息部门、业务部门、承建厂商共同针对监督中心既有的数据内容、每个数据的含义、每个统计指标的统计口径都进行了梳理,在此基础上在进一步分析和挖掘可能的数据价值。这些基础性的但又是在大数据理念指导下的整理工作既为进一步发展和使用大数据平台打下基础,又为进一步优化业务流程以便收集和管理更有效的数据。
更广、更深的角度看待和分析数据促使我们更加宏观地思考自采数据与监督中心之外的数据如何结合,如何通过更广泛的数据联系来发现可能的关系和数据价值,例如与国家宏观经济数据、卫生统计数据等之间进行关联分析,发现能帮助开展卫生计生监督工作的有意义的结论,比如非法行医与宏观经济和人群就医行为之间的关系。
2. 越来越多的业务需要大数据技术的支撑
目前,业务发展不断要求进行业务融合和协作,这需要一个更加开放和高效管理平台,实现对卫生计生监督业务的管理、数据的整合挖掘,满足管理需求。卫生计生监督业务系统、数据分析系统的需求更多地适合采用大数据平台来做支撑。
大数据平台的技术发展不断满足业务管理和发展的需要。大数据平台的典型特征是基础设施易扩展、数据支持量大、组件多、相对经济,这些特征很适合各类数据中心和发展的需要。良好的扩展性和相对经济使用户可以在未来根据需要不断以相对低廉的成本逐步扩展数据中心;数据支持量大使用户有信心能真正处理好海量数据;技术组件不仅多而且以很快的速度在发展,HBase、Hive、Spark、Impala以及各类分析组件都在快速发展,这些技术为支撑各类业务处理、数据加工、综合查询等业务场景提供了技术支撑。除了Hadoop为基础的平台之外,目前大数据平台还在关系型数据(例如分布式关系型数据库)、NoSQL(例如MongoDB、Cassandra)等方面有深入的发展,这些技术的发展丰富了大数据平台的技术实力。
业务流程的处理需要大数据技术。包括卫生监督报告系统在内的各类在线处理业务随着管理复杂度的增加、用户数量的增加、数据内容的增加、服务类型的增加、用户体验的提高、对响应及时性的更高追求,都越来越需要改变传统的构建信息系统的方法,需要用大数据的理念来进一步架构和改进在线业务系统,从而可以在更大规模、更高并发、更方便扩展的角度来处理数据。
数据的深入利用和数据分析需要大数据技术的支撑。业务管理的流程产生了数据,从管理的角度上看,业务管理数据的产生就是数据的监测收集的过程,而监测是为行动服务的,数据如何进一步支撑行动,就需要从现有数据中发掘可能的规律、规则、提醒等,以便及时地从宏观上评价、微观上指导行动。对数据价值的追求越多,就需要大数据平台更多的、综合的支持,也就会更多地需要大数据的各类技术来支撑使用场景。
3. 总体设计、混合式架构、逐步建设与发展是切入大数据技术应用的较好方式。
卫生计生监督业务以及其他各类政府管理型业务的信息化支撑工作已经在逐步沿着大数据的理念前进,逐步应用大数据技术,但在如何逐步切入使用大数据技术方面,经过此前项目建设的经历以及与业界各方面专家的多次交流和评审,认为采用总体设计、混合式架构、逐步建设和发展是切入大数据技术应用的较好方式。
需要总体进行设计。包括监督中心在内的各类机构已经具有自己的信息系统,也已具有成熟的实施信息系统的工作思路和管理策略,但考虑到大数据技术与传统做法还是有所不同,为了未来更好地可持续发展和建设,建议在使用大数据技术之前先进行总体的设计,理清整体技术架构和实施路线,避免重复工作。
先期采用混合式架构。既有的信息系统是采用传统的管理信息系统的策略建设的,在数据层、应用层的设计中与大数据的理念、互联网的工作理念不太相同,服务器、存储、网络层面已有成熟的设计,为了避免出现问题,建议在保留传统基础设施和软件的基础上,逐步搭建大数据平台,实现传统结构与大数据平台的互联,即采用混合式架构,避免一次性转向大数据平台出现不可预料的问题,影响工作和管理。
大数据平台本质是数据的管理和利用,因此不是一蹴而就的,需要不断建设和积累,从管理和实施上需要逐步开展,从技术策略上也需要逐步发展,在不同的阶段针对不同的业务类型选择合适的技术组件,权衡实时与定时处理、大批量处理与快速增量处理、快速存储与快速查询、即时分析与后台计算等之间的关系,逐步建设和发展大数据平台。
后续工作和计划
目前已完成搭建卫生计生监督大数据基础平台,后续将会在此基础上,推动监督业务在平台上的应用,并不断在现有的大数据平台补充完善新的大数据技术,解决卫生计生监督业务需求
1. 数据资源
进一步完善卫生监督大数据的数据资源,整合监督、信用、宏观经济等数据,对已有数据进行加工处理,挖掘数据价值。
2. 业务应用
推进决策分析应用建设,发现更多的数据相关性,实现更多业务分析主题,利用大数据平台实现卫生计生监督业务中非结构化数据的全文检索应用等。
3. 技术发展
大数据基础平台建设是一个不断完善的过程,后续将会根据业务需要,逐步引入新的大数据计算和分析技术,比如流式的大数据计算技术Strom/Spark来实现卫生监督业务实时大数据分析;引入开源的统计计算和统计制图优秀工具R语言与大数据平台结合实现对大数据的分析展示。
通过国家卫生计生监督大数据平台的建设和应用,不断完善优化国家卫生监督系统整体架构,增强卫生计生监督系统辅助分析决策能力。
【责任编辑:沈媛巧】
评论前必须登录!
注册