专业咨询
致力推进中国医疗卫生信息化

【袁永福专栏】数据透明保护:应对医疗大数据应用安全“卡脖子”问题

       来源:HIT专家网    作者:南京都昌信息科技有限公司 袁永福

袁永福

       近期,医疗行业的大数据应用日益增多,影响日益深远,此时相关的安全问题日益突出。特别是可靠的人员隐私数据的保护,或者说数据脱敏,成为大数据应用中的“卡脖子”问题。若不认真解决,迟早会爆雷。为解决这一问题,都昌团队即将推出病历文档局部数据透明保护技术(TDP-Transparent Data Protection)。

现状

       在医疗数据中,病历文档数据是重点部分之一,而病历文档中夹杂着不少隐私数据,比如:患者姓名、联系方式、医护人员姓名等等。按照美国人的做法包括以下18项身份识别信息:姓名,小于省级的地址(包括街道、城市、地区和三位以后的邮编),除年份以外与个人相关的日期(包括生日、进院日、出院日、死亡日期、超过89岁的年龄)、电话号码、车辆登记号码、车牌号码、医疗器械标识号和序列号、传真号码、电子邮件、URL、社保号码、IP地址、病历编号、指纹等生物标记信息、医疗保险号码、正面全脸照片、银行账户号码、证件号码(身份证、驾照等)。

       此外,我认为还应该包括医护人员的姓名和工号,可以让第三方立场中立地处理病历。

       任何其他可用于识别的编码或特征的病历文档数据价值比较高,有足够的经济利益来引起网络黑色产业链的兴趣。

       另一方面,医疗大数据又需要以大量的真实病历数据为基础。真实病历数据是大数据所需的燃料。没有这种燃料,大数据之类的都是空中楼阁。

       这就存在一个突出的矛盾:一方面,要大规模远程传输、复制和分析病历文档;另外一方面,为了保护隐私数据而要限制这些行为。如何解决这个矛盾呢?

       首先要明确,医疗大数据是大势所趋,宜疏不宜堵,不能因噎废食。为此一些常见的做法是提升网络安全保护水平,加强事前防御和事后审计,不过这其中工作量巨大,而且肯定存在漏洞,不可能万无一失。

       为此,都昌团队正在研发数据透明保护技术来帮助解决这个矛盾。从源头来保护隐私数据,确保减少病历数据泄露后的损失。而且能降低病历数据对于网络黑产的价值,从经济利益方面保护数据。

原理

       透明保护技术是基于都昌的电子病历编辑器技术。其大致的原理就是医院在制作结构化病历文档模板时,对于一些隐私数据文档域,比如病人姓名、地址、联系方式、操作医护人员姓名等,做上一个特别标记。

       电子病历系统配上一个加密解密相关的密钥,可以存储在一个严格保护的K宝中,电子病历系统启动时加载这个密钥,医生写完病历后保存时,隐私字段内容就使用这个加密密钥进行加密存储,其他字段(比如主诉、现病史、检查检验结果之类的)还是明文存储。

       这样得到的病历XML文档中间就夹杂着加密数据。

       当医护人员使用医院内部软件打开文档时,编辑器检测到被加密的敏感数据域,就会根据内部密钥动态地局部解密,然后以明文的形式呈现给用户。

       透明保护不会影响医院业务系统的性能。病历文档中隐私字段数据量占比小,加密解密运算速度快,而且病历XML文件大小增加不多,医护人员不会感觉到透明保护的存在。

       当文档复制到医院外部,病历XML文档仍然可以正常加载,大部分内容都可以获取,但是隐私数据是加密的,不知道密钥是无法破解的,只能以乱码的形式呈现给用户。而且按照病历书写规范和行业惯例,病历中明文区域出现敏感数据的可能性很小。因此隐私数据得到很好的保护。

       而正常的大数据处理是不应该需要这些隐私数据的,因此透明保护不会干扰正常的大数据业务。

       从经济角度看,透明数据保护也能发挥作用。网络黑产获取病历文档,很多看中的是其中的敏感数据,这些敏感数据是所谓精准营销的基础。但是当隐私数据加密了,这些病历数据对于黑产来说就成了鸡肋,也就没有足够的动力来突破重重安全措施来非法复制传播了,于是数据就得到保护。经济利益手段是最稳固可靠的保护手段。

       透明保护技术同时支持了医院业务系统和大数据系统的运行。成为实现医疗大数据的最佳底层技术,为医疗大数据应用提供了一根方便可靠的安全带。

案例

       下图是一个病历文档:

yuan

       若明文保存则XML内容大致如下:

<EMRDocumet>

<String>孕妇基本情况</String>

<Fieldid=”孕妇姓名”>张翠花</Field>

<Fieldid=”证件号码”>360428000000000000</Field>

<Fieldid=”出生日期”>1994-1-1</Field>

<Fieldid=”年龄”>25</Field>

<Fieldid=”手机号”>13388888888</Field>

<Fieldid=”孕前身高”>170</Field>

<Fieldid=”孕前体重”>70</Field>

<Fieldid=”户口地址”>南京雨花台区软件大道999号</Field>

<Fieldid=”产后休养地址”>南京雨花台区软件大道999号</Field>

<Fieldid=”丈夫姓名”>王小二</Field>

<Fieldid=”证件号码”>360428999999999999</Field>

<Fieldid=”出生日期”>1991-1-1</Field>

<Fieldid=”手机号”>13300000000</Field>

<Fieldid=”工作单位”>南京绿地公司</Field>

<Fieldid=”户口地址”>南京雨花台区软件大道999号</Field>

<Fieldid=”结婚年龄”>3</Field>

<Fieldid=”末次月经”>2019-1-1</Field>

<Fieldid=”初潮”>14</Field>

<Fieldid=”月经天数”>3</Field>

<Fieldid=”月经周期”>29</Field>

<Fieldid=”月经量”>50</Field>

<Fieldid=”痛经”>有</Field>

<Fieldid=”受孕方式”>自然受孕</Field>

<Fieldid=”胎数”>1</Field>

<Fieldid=”过敏史”>青霉素</Field>

</EMRDocumet>

       这样的文件在网络黑产中单价10元都不嫌贵。

       但是采用透明数据保护技术,保存的则保存的XML文件如下:

<EMRDocumet>

<String>孕妇基本情况</String>

<Fieldid=”孕妇姓名”TDP=”1″>FDAJSIF3$#@$#@</Field>

<Fieldid=”证件号码”TDP=”1″>FDASJIFA$#q$#@$@#!%$@#%$#@#@$</Field>

<Fieldid=”出生日期”>1994-1-1</Field>

<Fieldid=”年龄”>25</Field>

<Fieldid=”手机号”TDP=”1″>^%#$%$#^$%^$@#$#@%#$%$#@$#@%#$%</Field>

<Fieldid=”孕前身高”>170</Field>

<Fieldid=”孕前体重”>70</Field>

<Fieldid=”户口地址”TDP=”1″>%$#^%#$%$@#%#$@^%#^$%^@$#%$@#%$@#%#%34</Field>

<Fieldid=”产后休养地址”TDP=”1″>^%$^%@%$@#%$#@%$#%$#^%#$^54</Field>

<Fieldid=”丈夫姓名”TDP=”1″>#@$#!$#$#@^%#$^@%$%#$#@!#@!#!@</Field>

<Fieldid=”证件号码”TDP=”1″>*^%@%$#@%@^%@%$@#%#^%#$%$@#</Field>

<Fieldid=”出生日期”>1991-1-1</Field>

<Fieldid=”手机号”TDP=”1″>$#@%$#@#$!#@$#!@$#@</Field>

<Fieldid=”工作单位”TDP=”1″>r$@%$@^@$##@!$@#%$#</Field>

<Fieldid=”户口地址”TDP=”1″>%$@#^%#$^$@#%#@!$@#%#%$#@%#^%$#999号</Field>

<Fieldid=”结婚年龄”>3</Field>

<Fieldid=”末次月经”>2019-1-1</Field>

<Fieldid=”初潮”>14</Field>

<Fieldid=”月经天数”>3</Field>

<Fieldid=”月经周期”>29</Field>

<Fieldid=”月经量”>50</Field>

<Fieldid=”痛经”>有</Field>

<Fieldid=”受孕方式”>自然受孕</Field>

<Fieldid=”胎数”>1</Field>

<Fieldid=”过敏史”>青霉素</Field>

</EMRDocumet>

       在医院内部打开文档没有任何异常,但在医院外部则显示如下:

yuan2

       这份病历文档在网络黑产中单价一毛钱也未必能卖出去。对于网络黑产来说,病历文档的价值急剧降低,其破解复制病历文档的动力大为减弱。但这种文档却足够正常的大数据系统使用。这下医院放心了,也就能愉快地玩大数据了。

推广

       由于透明加密技术是通用的底层技术,其最佳实现地点就是病历编辑器的内部。我们作为专业的编辑器研发团队,自然要在这方面做好工作。

       都昌团队即将推出的透明保护技术会随着编辑器软件版本的升级,方便地赋能到两百多家医院软件公司,进而让数万家医疗机构获得这种关键性的技术工具,从而为全行业的大数据应用解决了隐私数据保护的大问题。

【小结】

       相信经过我们及合作伙伴的努力,能解决很多医院对于隐私数据泄露的顾虑,减少其分享病历数据的障碍,缓解大数据行业的“巧妇难为无米之炊”的难题,促进大数据的推广普及,从而让数据的价值最大化,最终帮助医疗行业的价值最大化。

【作者简介】

        袁永福:男,微软MVP,80后,南京都昌信息科技有限公司联合创始人,中国医院信息化领域知名软件技术专家,长期从事电子病历编辑器等行业核心技术的研发和推广,并直接为多家三甲医院提供软件技术支持及咨询服务。

小助手二维码想加入HIT专家网专业交流群吗?请添加“HIT专家网”小助手微信好友后提交你的申请哦

(请注明姓名、单位名称、职务、主管技术或产品领域,以便有针对性加群)

【责任编辑:谭啸】

赞(2)

评论 抢沙发

评论前必须登录!

 


未经允许不得转载:HIT专家网 » 【袁永福专栏】数据透明保护:应对医疗大数据应用安全“卡脖子”问题
分享到: 更多 (0)