来源:HIT专家网 作者:南京都昌信息科技有限公司 袁永福
2021年8月30日,《旗帜》杂志刊文《坚持党管数据 保障数据安全》。文章指出,当前,数据已被视作与土地、劳动力、资本、技术并列的五种生产要素之一。大数据不仅是重要的生产资源,更是和“枪杆子”“笔杆子”一样重要的执政资源,对国家长治久安和综合国力竞争具有极端重要性,网信类中央企业要深刻领会、学习贯彻《数据安全法》的政治意义,充分发挥技术优势,不断提高党管数据能力水平。
《旗帜》杂志是由中央和国家机关工作委员会主管、旗帜杂志社主办的机关党建月刊,是中央和国家机关工作委员会的机关刊物。这篇文章的发表,表明大数据的政治层次正在提高。HIT全体从业人员面对大数据,也要进一步提高政治觉悟。
笔者最近还遇到一件事,在某著名球星代言的人寿保险公司购买商业保险后,有一次在无意中得知,该保险公司以所谓大数据技术得知笔者近期在江苏某大三甲医院购买了处方药,并以此猜测笔者的身体健康情况,干预保险合同的执行过程。笔者立刻意识到:该保险公司可能获得了未脱敏的病历数据,而且数据量可能不小。在此,结合自身从事电子病历编辑器开发和应用工作的经验,笔者谈谈医疗行业病历敏感数据保护的话题。
病历数据应实现“精准部分加密”
病历数据是比较核心的隐私数据,比手机号等其他个人信息要隐私得多。包含可标识身份的敏感信息的病历数据,更是“贵不可言”。
在当今的技术条件下,云计算正升级为数字孪生,进而演变成所谓的“元宇宙”。人类社会正在向电影《黑客帝国》的一些场景靠拢。真实世界中采集的数据大多都会进入云计算体系,这是一个不可抗拒的过程。对于HIT领域,云计算就是新一轮的解放思想、改革开放。我们只能拥抱趋势,没有任何理由来抵制云计算、搞数据封闭,否则就是IT领域的闭关锁国,就会落后挨打。
在元宇宙不可抵挡的膨胀过程中,各种敏感数据必然会并入元宇宙,此时必须要受到足够强度的保护,以满足合规合法的要求。否则,今天保险公司能获得笔者的病历敏感数据,明天敌对势力也能获得人民群众的敏感数据,再大的市场主体都会翻车。近期某些互联网平台公司被查就是前车之鉴。
在医疗信息化行业,病历数据是核心数据。但病历数据通常是由常规数据和敏感数据掺杂在一起的,很难借助某种通用的方法来进行分离与自动化数据脱敏。一些业界机构采用的是人工识别混合半自动化处理方式,但这种方法不能普及。一些胆大的市场主体为了省成本、抢时间,不认真做数据脱敏;一些更加胆大包天的则直接打起敏感数据的主意,但这迟早是会跌跟头的。
现在的HIT行业存在大量市场主体,主体之间配合工作,形成产业链,其中比较重要的是病历数据产业链。在这个产业链中,医生是生产者,电子病历系统是生产工具,政府、保险公司、患者等是支付方。
根据现代管理理念,整个产业链是“零信任”的。为了适应零信任的环境,病历中的敏感数据必须全生命周期加密,可以称为“敏感数据原生态加密”:一旦产生就是加密的,永不解密存储。
但一份病历是完整的、不可分割的数据包,敏感数据段和正常数据段“混居”在一起,而正常数据段是不应该加密的。
如何精确区分正常数据段和敏感数据段,实现精准部分加密,目前还没有自动化技术。笔者想到的技术方案,是在全结构化电子病历文档技术的基础上,叠加敏感数据透明加密技术。
敏感数据透明加密技术
在该技术方案中,医院在编制结构化电子病历模板时,对敏感数据字段进行额外标记。应用这种病历模板创建的电子病历文档,可以对经过特别标记的敏感数据段进行加密处理,从而实现精准的局部加密。
举例说明,图1是一个病历文档。
在这个病历文档中,患者姓名、身份证件号、手机号、地址、工作单位等都是敏感数据,只能让相关医生和管理者看到,任何其他无关人员都是不可以看到的。
可是在现实中,大量的电子病历系统采用明文存储病历文档的,例如图1所示病历文档保存成XML内容后,大致如图2所示。
这么一份病历文档如果扔到外网,就像一大块肥肉扔到原始森林中,有成群的饿狼一口吞下它——完全不符合零信任的原则。
基于敏感数据透明加密技术,对病历文档做一些增强处理,就能解决敏感数据保护的问题。
首先,在制作结构化电子病历模板时,对敏感字段添加特定标记;然后,编辑器提供API,调用医院提供的可逆加密运算能力,对敏感字段进行加密。此时保存的电子病历文档如图3所示。
在安全的医院内部环境中,当病历编辑器打开这样的病历文档,识别出被加密的敏感数据段,然后调用医院提供的解密计算能力在内存中进行临时解密,并在用户界面上明文显示出来。临时解密结果用完立刻销毁,绝不保存。对于用户来说,整个操作过程是透明的,毫无察觉。
病历编辑器本身不提供加解密算法,而是依赖医院提供的加解密计算能力,医院的计算能力可以由专业加解密算法公司提供,也可以利用基于硬件的高级加解密技术,使得加密结果符合法律层面的认可要求。当该电子病历文档脱离安全的医院内部环境,病历编辑器无法调用解密计算能力,敏感数据无法解密,此时该病历文档如图4所示。
使用该技术,病历文档从创建之初就是被部分加密的,无论是存储在医院内部的数据库,还是复制到外界的第三方数据中心,都是原生态脱敏的。也就是说,整个病历数据产业链从一开始就解决了敏感数据的脱敏操作问题,大大提高整个体系的安全性。
由于是原生态脱敏,此时病历数据对于网络黑产来说价值较低,网络黑产攻击系统的意愿降低,这也能从经济利益的角度来提高信息系统的安全性。
同时,这种部分加密的病历数据基本上不影响正常的病历大数据分析。因为年龄、婚姻状况、月经量等医学描述信息是全面的,足以支撑合法合规的大数据分析。
业界正在探索的跨医院病历文档分享功能,其中涉及病历敏感数据的加解密,敏感数据透明加密技术正好满足这一需求。
从产业链源头赋能病历敏感数据脱敏
一个技术只有推广普及,才能价值最大化,而我们团队有能力让这个新技术得以快速推广。
经过多年的努力,我们和大多数HIT软件企业达成利益共同体,都昌编辑器逐渐成为全国电子病历系统中的标准件。不同的厂家、不同的运行环境、数万家医院,都在使用同一个编辑器。在这种情况下,医院只需要升级编辑器,对现有电子病历系统无需大改动,以较少的成本就能快速获得敏感数据透明加密技术,这样才有可能让这种新技术迅速普及到数万家医院。
笔者认为,只要在产业链源头进行一些改进,往往就能惠及整个产业链,可谓事半功倍。都昌信息经过长期艰苦奋斗,心无旁骛地花费了十年时间,掌握了病历编辑器这个电子病历产业链的上游产品,使得我们能用微小的体量来影响整个产业链。
未来,我们计划在病历编辑器中添加敏感数据透明加密技术,整个业界就能以较低的成本来解决数据脱敏这个病历大数据产业的“卡脖子”问题,解放生产力,帮助整个HIT行业价值最大化,并为“党管数据”提供技术工具。
【作者简介】
袁永福,男,微软MVP,80后,南京都昌信息科技有限公司联合创始人,中国医院信息化领域知名软件技术专家,长期从事电子病历编辑器等行业核心技术的研发和推广,并直接为多家三甲医院提供软件技术支持及咨询服务。
【责任编辑:晓青】
评论前必须登录!
注册