专业咨询
致力推进中国医疗卫生信息化

分布式存储,让医学影像数据管理从“绿皮火车”迈向“高铁”

来源:HIT专家网      作者:龚晨、朱小兵

三级医院数据通常80%以上是非结构化数据,其中医学影像数据占绝对比重。如何保证临床医生对高效高质阅片体验的极致追求?医学影像调阅场景日益增多,如何在控制成本的前提下实现“数据时刻在线”?如何避免传统集中式存储在横向扩展上的性能瓶颈问题?如何破解海量影像数据的备份、迁移难题?

分布式存储解决方案,凭借其独特的横向可扩展性以及经济性,日益成为医院信息部门应对上述挑战时的重要技术方案选项。

医学影像数据的存储管理面临新需求

迅速增长的医学影像数据及日益普及的临床应用需求,对存储管理提出了新需求。

一是数据体量大且增长迅速。三甲医院的医学影像数据通常达到数百TB量级,部分大型三甲医院已达PB级别。据上海交通大学医学院附属仁济医院(以下简称仁济医院)信息中心主任郑涛介绍,近年来,仁济医院的影像数据存储呈现出多院区集中化管理与跨院区一体化应用的特点,累计集中的影像数据总量已超2PB。

上海交通大学医学院附属仁济医院信息中心主任郑涛

“面对未来数字化病理、区域医疗中心等建设,非结构化数增量只会越来越大。”据南昌大学第一附属医院信息处处长、江西省临床医学科学研究院医疗信息化研究所所长曹磊介绍,南昌大学第一附属医院的数据增长量约为300TB/年,大影像总数据量达到1.2PB。新型影像数据、组学数据等数据类型的增多,影像空间分辨率的增加,使得影像数据处于持续激增状态。

南昌大学第一附属医院信息处处长、江西省临床医学科学研究院医疗信息化研究所所长曹磊

二是文件总数量大,且以小文件为主。以多层螺旋CT等新型影像设备为例,其数据产生和处理方式导致了需要存储的文件数量大规模增长,而影像数据的另一特点是小文件特别多,读写效率低,成为影像查询与调阅的瓶颈。

三是数据存储时间长根据相关法规要求,医学影像数据需要存储15-30年,甚至可能需要永久存储,这对存储架构的延续性提出较大挑战。

四是数据应用场景多样。院内院外各类业务系统、区域影像平台等都对影像数据有访问需求,除支持临床业务、科研外,还需面向患者端的云胶片,多院区、医联体内的远程影像会诊等新业态。这些多样化的需求使得影像数据的访问频次加剧、访问数据量增多,存储端面临高并发压力。

五是调阅频率不均。医学影像数据有显著的“冷热之分”,随着时间的推移,早期数据被访问的概率逐渐降低,成为冷数据。对不同访问频率的数据采用相同的存储技术,既不合理也难以持续,因此选择存储方案时需在调阅性能和存储成本之间寻找平衡点。

“归档的历史数据,调阅速度降下来之后,临床反馈最强烈的部分就是影像数据。”郑涛发现,如今临床医生对“历史影像对比”的需求非常高,这也要求影像数据尽可能采取近线存储方式。

六是数据备份、迁移难度大。PB级别的医学影像数据迁移与备份,更是医院信息部门的巨大挑战。郑涛给出一个数字:“大约花两年才能迁移4年的数据。”

分布式存储契合医学影像数据存储难点

郑涛认为,由于医学影像数据具有体量大、文件数量规模大、数据路径复杂度高的特点,给数据存储管理带来不少痛点:例如集中存储的空间需求高、核心网络数据交互的负荷高、大量4K小文件与存储条带的优化难度高,以及数据备份的耗费高等。

仁济医院集中存放影像数据,所占机房机柜的比例可达20%甚至更高,且未来增长趋势明显可见。更多的集中式存储也意味着需要更多网络资源,以提供更多节点负载式地数据交互方式。“毫无疑问,这是医院数据中心都在面临的两大痛点。”郑涛说。

因此,越来越多的医院CIO开始关注分布式存储。

曹磊认为,分布式存储的诸多技术特性,很好地契合了医学影像数据的特殊需求。

首先,也是最重要的一点,分布式存储具备独特的横向扩展能力——在增加存储容量时,存储性能随之线性增长,达到容量和性能的平衡;而不会像传统集中式存储的纵向扩展架构一样,在增加容量的同时性能不变甚至下降。

第二,分布式存储采用多节点组成存储集群,能够把来自客户端的访问分布在不同节点上,提高访问效率。

第三,较好的分布式存储产品一般都具备完善的软硬件生命周期管理能力,不同时期、不同型号的产品能够跨多代整合到同一集群中,以避免大规模的数据迁移。目前南昌大学第一附属医院的分布式存储集群横跨了三代产品,时间跨度超过10年。

第四,大多数分布式存储产品能支持一个大的统一目录,减少造成数据分区的可能性,方便运维;主流的分布式存储产品能支持多种访问协议,较好地满足不同业务的数据访问需求。

深信服EDS针对医学影像数据的“四重优化”

将存储架构从集中式存储转向分布式存储,深信服医疗事业部EDS运营专家张拥军对此有一个比喻:从“绿皮火车”迈向“高铁”,才能解决医院集中式存储面临大容量带来的性能瓶颈和可持续扩展的问题。深信服EDS,也即“企业级分布式存储”(Enterprise Distributed Storage),诞生于2013年,早期作为超融合、桌面云的存储底座使用。2017年,深信服正式将EDS作为一款高性能生产存储产品独立发布,使其从底座走向生产场景,截至目前已在多个行业交付超过200例PB级存储项目。

深信服医疗事业部EDS运营专家张拥军

为使EDS更好地适应医疗业务场景,深信服针对医学影像数据进行了四重专项优化,推出“医院分布式影像数据存储解决方案”。

第一重优化:针对医疗非结构化数据的特点,采取有效措施提升存储性能,保障阅片体验,包括:

首先是自研巨量元数据,提高大规模医学影像数据检索效率,从根本上解决“检索调取慢”难点。

由于在传统文件系统,文件存放位置像是倒立的树形结构视图,应用读取文件需要存储系统层层检索才能调取;升级为元数据库后,简单来说可视为“电子化的文件柜”,可以记录电子文件的处所、更新状态、操作记录等数据集合,记录更加精细。如果将海量影像数据比作图书馆,要想找到指定的书,传统文件存储的方式类似于管理员拿着目录索引,在楼层和书架上层层搜索;而元数据则类似机器人取得一个指令后,经电脑高效运算获得准确位置,由机器人直奔目的选取图书,显然更适合PACS批量小文件的高效处理。在元数据库的基础上,深信服持续优化和精简数据库事务逻辑。例如原来写入一个文件,数据库要执行两个步骤,精简后数据库只需一个步骤即可完成,效率提升50%,时间缩短50%。

其次,通过网络通道优化,缓解多客户端并发能力,提升单客户端批量影像调取效率,保证全院影像数据调阅的体验。

为解决业务高峰期导致多个收图前置服务器数据堆积,以及影像工作站并发多、调阅影像卡慢等问题,深信服采用基于目录分片的分布式策略,实现多活元数据并发访问,达到负载均衡的目的;同时优化文件存储协议并发缺陷,解决单用户动态多线程并发,提升每个用户的批量调取效率。通过已交付的深信服EDS医院案例数据显示,FTP调阅CT517KB大小的文件速度可达552张/秒,S3对象调阅57KB速度可达1200张/秒。

第二重优化:基于冷热数据分层,实现近线数据与在线数据的自动调度,让数据永久在线。

深信服EDS基于“一套存储,多池透明分层”,打造了包括在线影像SSD全闪池、近线影像混闪池和冷数据全HDD池在内的“介质分级存储池”,通过智能算法和手动策略,数据可在各池之间相互流动,达到“数据永久在线、随时可用”效果。实现方式是:系统自动识别在线存储中超过一定时间(由医院定义)未被调阅的文件,并将其归档至近线存储里;当用户调取一个近线文件,系统会把就近或同一批次的近线文件全部快速将其调度到在线存储,在提升调阅性能的同时也能有效控制成本。

第三重优化:解决医学影像数据迁移难、备份难问题。

深信服为医疗行业海量数据的迁移需求,专门研发了高效的智能数据迁移工具,可将任意存储在无人值守的情况下,自动根据空闲时段限速或加速,通过多线程并发技术,将历史数据迁移到EDS上。

此外,为应对海量数据备份难的问题,深信服EDS与专业备份软件结合,通过API接口联动即可比对变化数据,无需全盘扫描。相比传统备份方案,深信服海量数据备份效率更快,备份窗口间隔时间更短,可实现小时级RPO,并且对业务性能无损耗。

第四重优化:软硬件解耦、同架构多芯,实现存储架构永存。

在生态方面,深信服EDS已与国内外90%主流PACS厂商实现兼容验证。EDS采用深信服操作系统PlatOS,解耦底层硬件,针对不同硬件平台深度优化,支持信创和非信创生态。“医学影像数据的保存周期长,设备更新迭代快速,扩容麻烦,迁移繁琐。我们希望通过这种软硬件解耦、同架构多芯的方式、平滑替换的手段,让存储架构永存,免除医疗机构的后顾之忧。”张拥军说。

据介绍,深信服EDS已服务超过800多家医院,其中头部三甲医院超200家,PB级存储医院超过20家。

分布式存储力争从“近线”走向“在线”

目前,分布式存储方案主要还是在医院近线生产业务领域落地。

比如,仁济医院在影像灾备系统建设中引入了分布式存储,并将影像灾备存储面向近线业务开放,从而减轻生产系统的压力。“我们将3-6个月内的数据定为在线数据,更早的归为近线数据。”郑涛介绍,在实际使用中已感受到大规模分布式存储方案在应对高数据量和高并发方面的优势,特别是针对医学影像数据的特点进行优化后的性能表现,较为突出。

分布式存储,也有相应的技术环境和运维管理要求。

“分布式存储对网络通信的依赖性更高。在数据同步和复制过程中,多个节点同时访问和修改数据,确保这些数据在不同节点上保持一致性,就变得至关重要。”郑涛建议,在日常运维中除了要确保分布式存储自身的运行状态外,也需确保各节点的网络通信具备高性能、冗余性、高可用性。

曹磊建议,医疗机构在选择分布式存储时,重点考察分区文件的查询效率问题、不同时效的数据分层问题、小文件的优化问题以及大集群的运维便捷性问题。当分布式存储集群超过数十个节点时,运维管理难度大幅增加。如进行版本升级或打补丁时,需要对所有节点进行更新,此时更加考验产品运维的便捷程度。

“高性能、高稳定性、后续扩展性,以及拥抱新技术的能力。”张拥军建议医疗机构重点关注分布式存储的上述能力。尤其在稳定性方面,要重点考察分布式存储故障后的修复速度,包括SSD硬盘故障后的恢复速度、大容量机械盘的可靠性技术,以及节点修复速度。未来也可考虑医院非结构化数据备份和压缩,解决数据丢失或中毒风险。

张拥军介绍,在拥抱新技术能力方面,深信服联合GPU厂商,基于GDS协议,以100GB/秒的速度为前端GPU提供调取服务,减少医疗机构在大模型训练、仿真等场景中的数据准备时间。同时,深信服开发了NFS+并行文件系统,为基因测序、新药研发等医院科研所需的高性能分布式计算提供存储支持。

张拥军认为,医疗机构从近线业务入手应用分布式存储是务实之举。他也信心满满地表示,在为医学影像数据提供在线存储服务方面,深信服已经做好了技术准备。

【医疗信息化企业资源对接意向调查】

微信扫码或长按二维码,参与“医疗信息化企业资源对接意向调查”

HIT专家网坚持通过分享前瞻、实用的信息,努力搭建起医疗信息化用户和企业之间的专业交流桥梁。

如您希望对HIT专家网报道的企业产品技术方案做进一步了解,或有重要的需求反馈,请花1分钟填写问卷,我们将尽可能转达相关企业与您取得联系。

此图片的alt属性为空;文件名为HIT%E4%B8%93%E5%AE%B6%E7%BD%91%E8%AE%A2%E9%98%85%E5%8F%B7.png
关注HIT专家网微信订阅号
精彩不容错过!
此图片的alt属性为空;文件名为9fd96946f80198b.png
寻求“商务合作”请扫码填写需求
我们将尽快与您联系!

【责任编辑:陈曦 版式:金家潘】

赞(1)

评论 抢沙发

评论前必须登录!

 


未经允许不得转载:HIT专家网 » 分布式存储,让医学影像数据管理从“绿皮火车”迈向“高铁”
分享到: 更多 (0)