Page 6 - 区域医疗大数据白皮书
P. 6
基于 Hadoop 实现海量数据的处理和分析 • 随着未来医疗系统的升级,医疗标准的版本升级,数据 为了解决上述诸多问题,英特尔公司协助用友医疗进行了 中心必须能够解决存储模式如何满足数据模式的更新 合理的架构分析和指导,对于基于大数据分析的解决方案 的问题; 进行了深入的探索和研究。并且制定了基于英特尔大数据 • 数据中心必须具备水平扩展能力和对应用程序透明的能 解决方案的区域卫生数据中心建设目标: 力,要求能做到底层扩展对上层业务的隔离,通过更多 • 在海量数据情况下,数据中心必须具有文档快速检索的 的服务器成比例的透明化扩展容量和性能。 性能; 海量数据 健康问题 诊疗活动 分析 检索 检索 医院/基层医疗 机构 文档检索/数据分析API 区域卫生信息交换层 CDA模板 数据库 文档存储 健康档案 注册服务及 文档库 数据库 数据 分析 文档存储 文档检索 健康档案 服务 服务 服务 文档 API (XML) HBase 分布式数据库 业务系统 业务系统 Name Node Data Node Data Node Data Node HDFS 分布式文件系统 图 3 基于 Hadoop 的区域卫生信息平台数据处理流程 区域内的各医疗卫生服务机构,调用区域卫生信息平台 提供的服务,将依从 HL7 CDA 模板设计的健康档案文档 (XML 格式),上传至区域卫生信息平台。采集的 CDA 文档类型包括个人基本健康记录登记、门诊摘要、处方记 个人基本健康信息登记:1 千万条 录、糖尿病专访和糖尿病随访等不同类型的数据(文档)。 门诊摘要:3 千万条 文档上传后,通过 XML 解析,提取关键数据元素(META- 处方记录:1 亿条 DATA),调用文档存储服务将关键数据元素和 XML 文档 存储在 hbase 数据库中,形成健康档案文档库。 糖尿病专档:2 百万条 基于大数据的区域卫生信息平台提供文档检索服务和数据 糖尿病随访:2 千 4 百万 分析服务,通过开放的文档检索 / 数据分析接口,针对个 人(居民、患者)、医生和卫生管理人员提供不同类型的 数据和业务服务,满足不同用户类型对于海量数据访问、 处理和分析的需求。 6