来源:HIT专家网 作者:中国研究型医院学会医疗大数据专委会委员 朱杰
接上篇:【朱杰专栏】资源与变现:医疗健康大数据的“灵魂拷问”
2015年做病案归档系统时,遇到一个大问题:封装成为PDF格式的病历文件如何快速存储和调用,同时还要兼顾数据安全、数据归档和恢复的要求。
由于笔者做过六年PACS产品,所以头脑里第一反应是用类似PACS那样的机制:数据库存索引、文件系统存文件、应用层建规则的方法,做一个针对PDF文件的传输归档系统。后来,技术团队调研后说:“用Mongo DB吧,分布式数据库底层解决了数据多层备份问题、支持二进制文件不用单独管理文件系统的目录结构了。”就这样,笔者第一次接触到了大数据技术。
最近看了几个项目,大数据技术仍然被当作是传统关系型数据库功能和性能上的补充,穿插在传统技术框架中使用。比如,如果发现某个数据库单表过大,又不能拆分,就干脆建一个HIVE。不管三七二十一,先把数据导入进去,单表几十亿条数据也能跑得起查询了。再比如,居民健康档案跨表查询性能跟不上,直接一次性生成JSON文件放在MongoDB里面。这样,每次查询就变成了单体文件调阅,性能就总该没有问题了。
“工欲善其事,必先利其器”,大数据技术的工具性利用可以看作是其促进传统信息化改造的一个敲门砖。但是任何事物都不会停留在萌生阶段,不管家长怎么看自己的孩子,小朋友总会按照自己的节奏一步步长大成人。大数据技术也是如此,按照“器、法、术、道”的层级拾阶而上,逼迫技术的应用者全神应对。
首先在“器”的层面。数据与数据分析工具的丰富化逐渐造成系统中数据分不同采集、应用目的多层存储,数据之间的同步问题、多源头问题、一致性问题愈演愈烈。这时,就不得不出台一些数据管理办法,盘点家产、统一规划,建立数据资源目录,对数据的开发利用做到心中有数。由此,“法”的层面工作量逐渐提升了。在此阶段,大家对信息系统的考察点不再是某个流程是否实现了信息化,而是某个数据是否在线可用,是否有一套制度在后面保证数据的可信可用。毕竟,后者问题解决了,大家喜闻乐见的数据可视化才不是一幅宣传画。
而一旦建立资源目录,数据的多层级生产、存储、利用变得真实可见,数据内部的准确性、时效性、一致性、可用性问题就浮出水面。业务部门会不停地问:“为什么这个数据和那个数据不一致?为什么这个数据他们能看到我们看不到?为什么我不能在10分钟之内看到这个数据?”由此,数据质量管理办法、数据质量管理流程和数据质量评价、分析、追踪工具层又被建立了起来。对于技术部门来说,保证数据可用和保证业务系统的业务连续性成了同样重要的日常运维目标。
在“法”的支持下,大数据的工作中心由技术、流程、职能逐渐转移到组织、目标、协同上。由此,大数据开始进入“术”的层面。从定义上来说,“法”是放之四海而皆准的准则,而“术”是因地制宜、因人而异的技巧。比如,相同的老师教“美术”、“魔术”,学生会因天分不同而导致结果变量很大。
在大数据领域的“术”相当于最佳实践,是一个别人很难直接复制但是足以借鉴的能力。从组织上来说,有大数据中心与信息中心分离还是合并的组织创新尝试。从应用上来说,有CDSS是基于知识库规则库还是基于真实世界数据的探索。从产品上来说,有传统CDR系统融合大数据技术的突破。见仁见智,不一而足。
“术”的花样百出,锤炼了更高层方法论的升华,这就是更加抽象的“道”。此层面不考虑一时一地的具体问题解决,而是从大数据管理总体应用成熟角度建立多级评价模型,即综合组织、管理、技术、业务、质量等多个维度建立一个支持横向比较和纵向引导的框架。
有过电子病历系统建设经验的同行对此路径不会陌生。大数据一旦从技术工具上升到管理流程,下一步必然朝着成熟的管理方法论和评价模型方向走下去。确实如此,参照软件开发汇总使用的CMM(Capability Maturity Model for software)模型,针对数据处理也有DMM(Data Management Capability Maturity Model)数据开发成熟度模型。2017年,国内开发的《数据管理能力成熟度评估模型》(GB/T36073-2018)可以看作是DMM的中国落地版,从数据管理策略、数据管理业务案例、数据管理流程、数据治理、数据框架、技术机构、数据质量、数据操作8个职能领域分解出29个能力考察项目,对机构的数据管理能力作出从初始级到优化级的五层分级评价。
目前,该模型尚没有在医疗卫生行业做适配,未形成医疗行业的标准或操作指南。但是,其中的分级评价思路对于我们完成医疗大数据平台建设规划和业务规划有很强的参考意义。过去十年中,医院信息平台和电子病历的分级评价对行业发展推波助澜的作用有目共睹。也许不久的将来,大家也会面对数据管理能力成熟度分级评价的挑战。
(下期预告:先有鸡还是先有蛋:大数据与数据质量)
注释:
- Mongo DB:2009年出现的一种文件导向的分布式数据库,MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。
- HIVE:基于Hadoop的一个数据仓库工具,HIVE将Hadoop结构化的数据文件映射为数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。优点是学习成本低,不需要在专门开发MapReduce应用。
- JSON(JavaScript Object Notation):是JavaScript规范的一个子集,用于定义文本格式的存储和交换。简单地说,JSON 可以将 JavaScript 对象中表示的一组数据转换为字符串,然后就可以在网络或者程序之间轻松地传递这个字符串,并在需要的时候将它还原为各编程语言所支持的数据格式。JSON比XML结构更加清晰易读,数据交换时字符数量也更简洁。
【作者简介】
朱杰:中国研究型医院学会医疗大数据专委会委员,现任北京医渡云技术有限公司高级产品总监。2002年毕业于北京大学光华管理学院工商管理硕士,曾任泰达国际心血管病医院CIO,通用电气(中国)医疗集团集成信息产品部亚洲区产品经理,北京嘉和美康信息技术有限公司副总经理、市场部总经理。
想加入HIT专家网专业交流群吗?请添加“HIT专家网”小助手微信好友
(请务必注明姓名、单位名称、职务、主管技术或产品领域等实名信息)
【责任编辑:孙鹏】
评论前必须登录!
注册