专业咨询
致力推进中国医疗卫生信息化

医疗大数据:包袱还是黄金

如何应对“大数据”,是摆在医院IT部门面前的一个“大考验”。如果处理不好,“大数据”就会成为“大包袱”、“大问题”、“大包袱”;反之,如果应对得当,“大数据”则会为医院带来比黄金还贵的“大价值”。而这一切,都离不开科学地规划和部署存储架构。

“我们医院这几年净忙着添置存储设备了。”某大型三甲医院计算机室主任如是说,“大型医院每年的数据增量在数十TB,仅医学影像每年可达20TB。”

医疗大数据:包袱还是黄金 

作者:谭啸     来源:新卫生

面对医疗大数据的“大考”

医疗卫生信息的数据量正在急剧增长,这是一个不争的事实,但大多数人对于这个事实,还只停留于简单的“直觉”。那么,到底医疗卫生信息的增速究竟有多“急”?

中山大学第一附属医院(以下简称:中大一附院)信息网络科主任石志杰称:“我们医院在5年之内,数据量有可能突破PB量级。”作为一家临床、教学和科研并重的医院,中大一附院的数据增长状况很具代表性:1998年,全院数据存储量为3.4TB;5年之后,全院数据存储量增长到24TB;2008年,医院将存储容量扩到130TB,目前即将存满。

驱动数据量急剧增长,主要是PACS影像、B超、病理分析等业务所产生的非结构化数据。这些非结构化数据的类型也很复杂,“单从数据文件的大小来看,有的细如沙粒,有的大如石块,还有的巨如岩石。”石志杰如此比喻。人体不同部位、不同专科影像的数据文件大小不一,意味着在实际的PACS网络存储和传输管理上,要采取不同的应对策略,为不同的类型的数据提供不同的传输带宽和存储保障策略。

可以说,中国的医疗正在迈入“大数据(big data)”时代。所谓“大数据”,是指某个数据存取点的数据量非常之大,以至于利用常规的软件工具已经难以对其进行搜集、管理和加工了,其数据规模往往达到了PB(1024TB)级。医疗行业具有典型的“大数据”特征:一是数据量大;二是数据类型复杂。

面对“大数据”的大考,医院须考虑三大主要问题。

第一,安全可靠。

数据存储是否安全可靠,已经关乎医院业务的连续性因为系统一旦出现故障,首先考验的就是数据的存储、灾备和恢复能力。如果数据不能迅速恢复,而且恢复不能到断点,则对医院的业务、患者满意度构成直接损害。

因此,安全性和可靠性是医疗行业用户对存储的首要需求。过去在数据规模比较小,备份和恢复比较容易,而且还可以做到实时的备份。现在,临床信息系统越来越多、越来越细,可能有几十个系统,服务器数量非常大。这么多的服务器还能不能做到把各种数据都备份到不同的地方去,这件事情非常难。

医院当前面临的挑战、也是让CIO们苦恼的问题是:怎么做备份?保证的级别还能不能做到像过去那样,出了问题以后恢复到任何一个时间点?备份如何管理?几十个服务器总不能一个一个去备份,能不能做集中备份?备份的介质是选择磁盘,还是磁带?又怎么管理?

第二,提高医院运行和服务效率。

中国医学科学院肿瘤医院计算机室主任李怀成曾表示:“我们最怕灾备成灾,备份的东西却不能用。”

在中大一附院,放射科专家们每天要阅读数以万计的影像。以前,调取影像的速度是每秒两三幅。一个病人的CT影像往往多达两千幅,调取一个病人的数据就要等5分钟,为等待大量图像数据传输到本地,等待阅片的教授不得已只能喝茶以消磨时间;采用虚拟化云存储架构之后,调阅2000幅影像仅需50秒。新的存储架构上线之后,放射科室的教授、专家终于可以每天准时下班了。这让中大一附院的IT人员感到扬眉吐气。因此,提高效率就是节省医生的时间,从而缓解医疗资源的紧张状况,在一定程度上帮助解决“看病难”问题。

第三,降低成本。

存储架构是否合理,不仅影响到医院IT系统的成本,而且关乎医院的运营成本。中大一附院先后于2002年、2006年对存储系统进行了升级扩容。医院不断地在买不同品牌的存储系统,买盘的速度也越来越快。很多医院的信息中心主任都感叹,“我们花了很多钱购买存储设备,但依然觉得不够用。”医疗数据激增,造成医院普遍存在着较大的存储扩容压力。

如今,医院的存储设备大多是由不同厂商构成的完全异构的存储系统,这些不同的存储设备利用各自不同的软件工具来进行控制和管理,这样就增加了整个系统的复杂性,而且管理成本非常高。

牢牢抓住存储的“牛鼻子”

存储是一切临床业务应用系统的根基。大数据时代,尤其要牢牢抓住存储的“牛鼻子”。

医院的数据存储介质,大致经历几个阶段:较早以前是用光盘刻录数据,这种方式费时费力。假设一所医院每天新产生80GB数据量,而一张光盘只能刻4G,刻一张盘需要1小时,光驱还经常坏。后来,改用磁带库,成本低,存取也很快。如果磁带在磁带库中,每分钟可调取几百M数据,如果不在磁带库中,就要先找到磁带。但是今天,这些方案都不能满足医院临床业务的即时性和连续性需求。

通常,HIS、PACS等关键业务系统的数据都是独立存储,一套应用需要准备一套存储;结构化数据和非结构化数据也不是统一存储的;而且,医院信息系统大多是异构的,不仅需要足够大的存储容量,而且还需要数据整合。

迅速膨胀的非结构化数据(PACS、音视频数据),是医院存储管理的重中之重,PACS数据一般存储5~10年,有的数据要保留很久。而一旦超过10年,不管何种存储介质,不管哪家公司,产品一定会停产。PACS影像数据量很大,不能停机,如何将数据迁移到新的存储设备?如何为PACS应用提供更强大的文件存储与管理平台,提高阅片效率,是医院IT部门的关注点。要想满足这些需求,医院必须选择合理的存储架构,即新的存储架构必须符合医疗数据的管理特性,具有前瞻性。

如今,存储虚拟化技术提升了存储系统的功能和管理能力,并将许多高级智能加入到存储网络中的各个地方。虚拟存储技术,是将底层存储设备进行抽象化统一管理,向服务器层屏蔽存储设备硬件的特殊性,只保留其统一的逻辑特性,从而实现了存储系统集中、统一而又方便的管理。对比一个计算机系统来说,整个存储系统中的虚拟存储部分就像计算机系统中的操作系统,对下层管理着各种特殊而具体的设备,而对上层则提供相对统一的运行环境和资源使用方式。

HDS(日立数据)采取的存储虚拟化策略是把存储的智能(即系统的“大脑”)放在一个独立于磁盘的控制器中,通过这个“大脑”来控制外部所有的存储产品。针对结构化数据和非结构化数据,HDS都有成熟的应对策略。

HDS的第一大“利器”是针对结构化数据的虚拟存储平台(Virtual Storage Platform,VSP)是业内唯一可进行三维扩展的存储平台:(1)纵向扩展,在单一单元中增加处理器、连接性和容量,从而优化开放系统与大型机环境的性能;(2)横向扩展,满足不断升级的服务器需求和容量要求;(3)纵深扩展,优化多厂商存储环境,从而保证所有存储资产的投资回报。

针对大数据最于难应对的“重头戏”——非结构化数据,HDS的应对“利器”是内容归档平台HCP(Hitachi Content Platform),它能把结构化和非结构化数据集成到一个单一的动态归档架构中,同时有效消除各种应用的冗余数据。

据郑州大学第一附属医院信息中心主任吴亚杰介绍,原先医院一般采用磁带备份的方式,但是中原一带多风沙,很毁磁带。同时,临床科研对离线数据的查询需求日益增多,必须保持许多数据的在线状态。HDS的HCP归档方案,可以对不常用的数据进行归档,但又可以随时在线调用。并且HCP可以扩展至40PB,容量还能够进行线性扩展,满足用户不断增长的数字归档需求。

HDS的第三个“利器”——HDI(Hitachi Data Ingestor)则适用于区域卫生信息化,它能与HCP紧密结合,将HCP数据快速、安全地分发到用户和现有应用程序,从而实现区域的数据分享,方便区域医疗协同服务的开展。如今,区域卫生信息化建设如火如荼。针对跨机构的区域数据共享,HDI将有助于提高已经安装了HCP的医疗机构开展区域医疗。

迎接“大价值”

只有妥善处理好存储架构,“大数据”才能给医院带来大价值,才不会成为大问题。“大价值”具体将体现在以下几个方面。

首先,确保IT投资的价值。由于医院不同的业务系统可能采用的是不同厂家的存储设备。HDS VSP可实现将其全部虚拟化,并将同一类型的硬盘(如SSD、SAS、SATA)重新“捆绑”在一起。HDS 还采用了动态分层技术。针对结构化数据的存取,一定要“快”。HDS VSP可以根据数据被调用的频率,自动将常用的数据搬到最高层,提高效率。

“HDS VSP恰恰十分稳定,迄今为止,只有HDS VSP提供100%的可用性。”日立数据系统亚太区卫生与生命科学行业总经理马明才说,“HCP、VSP组合在一起,就能够比较系统地解决医院数据的存储归档问题。结构化的数据直接连入VSP,非结构化的数据先送到HCP,再送到VSP。”

有了HDS的存储虚拟化平台以后,用户不必再为旧有系统“弃之可惜、食之无味”而烦恼,通过虚拟化整合了现有存储资源,并可以只通过一个统一的管理界面和通用的管理软件来对整个数据存储系统进行管理,因此为用户带来很大的灵活性,使他们可以继续使用原有的存储设备,充分利用。

其次,充分发掘数据资产的价值。医院虽然拥有庞大的数据,但是躺在那里睡觉的数据是没有任何价值的,只有盘活这些数据,才能体现出数据资产的价值。

用户利用HCP,就像使用Google搜索网络内容一样在其内部网络上轻松快捷地搜索所需内容。为了不增加用户的负担,HCP不会给用户造成新的存储孤岛,也不需要更多的软件工具和管理界面,而是为用户提供了一个单一管理界面,为用户实现包括HCP在内的整个HDS的分层存储环境的监测、报告与控制,从而降低了运营成本,最大化地实现投资回报率。

在中大一附院,以往,医生如需查看归档到磁带上的历史资料,机房必须配备专门的工程师全天找数据,找到了还调不出来。现在医生自己就可以查询数据,因为数据全部实现了在线存储。“尤其在PACS领域,非结构化数据的管理是一个巨大挑战。一般先把数据存起来问题不大,但是日后的检索、查询,尤其是模糊查询的压力很大。HDS在数据归档方面恰恰提供了方案。该方案的核心是一套软件,设计了元数据建库规则,通过给数据加标签的方式,建立不同维度,从而具有模糊查询功能。”石志杰说。

三是提高服务能力,最终惠及患者。电子化让传统的阅片流程得以优化,可以帮助降低平均住院日,缓解医疗资源紧张的局面。以前必须等片子送到专家桌面才能阅片;现在拍完片就可以实时传送到专家的PC上,专家可以随时在线调阅,一分钟之内都可以调完。此外,放射科全部实现了网上审批流程。放射科主任在网上对阅片报告进行审核,同时可以共享阅片信息。对于中大一附院而言,每降低0.1个平均住院日,经济和社会效益就非常可观。(谭啸)

 

相关链接:

1.何谓大数据(Big Data)

大数据是指某个数据存取点的数据量非常之大,以至于利用常规的软件工具已经难以对其进行搜集、管理和加工了,其数据规模往往达到了PB(1024TB)级,譬如,AT&T公司每天传送的数据量高达19PB。常规技术已经难以应对PB级的挑战,要对如此大规模的数据量进行高效处理需要一些特殊的技术手段,诸如:MPP(大规模并行处理)数据库、Hadoop平台、云计算平台、网络存储系统等。

2.结构化数据

主要是指有一定结构,可以划分出固定的基本组成要素,能以表格的形式表达的数据,可用关系数据库的表、视图来表示。

3.非结构化数据

指被记录信息的数据长度和格式等是不固定的,如产品图形信息工艺特征和加工特性等信息。

赞(1)

评论 1

评论前必须登录!

 

  1. #1

    此文用中大一附院的案例介绍医疗数据存储的解决方案,有说服力,我是学习了。
    目前医院信息化把电子病历作为信息系统的核心在加强建设。多年来我对医疗运作越来越依赖信息系统、许多人热衷宣传无纸化、说实施了电子签名就可以取消纸质的病案了,等等有种莫名的忧心。这种忧心就在于,医院对信息系统越依赖,信息系统存储的数据就越多,对这些数据的安全性和持续的再用性要求就越强。在没有了纸质存储的情况下,所有的存储压力就由信息部门承受了,而面对现实中的技术条件和资金状况,信息部门又能承受起多少?
    在线数据怎样的满足快速读取?离线数据怎样建立索引?过往的数据怎样从老一代的存储介质迁移到新一代的设施当中?灾备的数据如何在应急中发挥期望的作用?只一个存储,就能有N多个课题。

    muli0112年前 (2012-11-19)


未经允许不得转载:HIT专家网 » 医疗大数据:包袱还是黄金
分享到: 更多 (0)