专业咨询
致力推进中国医疗卫生信息化

【姜疆专栏】关于卫生行业数据容灾备份的六个观点(5):深刻理解自己的RTO和RPO

 笔者尽管经历了10年的医疗信息化发展混沌之路,却正在以一个爱好者的身份和研究的心态,去了解容灾备份的概念及工具。下文所提出的六个观点都是亲身感受和总结,希望此文能够引来讨论及拍砖,我们共同努力去做好医疗行业的容灾备份建设方案。

关于卫生行业数据容灾备份的六个观点之五——

深刻理解自己的RTO和RPO

作者:姜疆     来源:HIT专家网

在说这两个名词之前,我再向大家明确一下灾难的概念:任何导致业务连续性受到影响的事件都是灾难。我们知道,机房的火灾是灾难,雷击导致服务器和交换机的故障是灾难,数据库突然宕机,客户端无法连接也是灾难,尽管数据没有丢失但是系统不稳定造成了损失,这些都是灾难。那么备份的磁带库磁带机故障,夜间备份失败,算不算灾难?我个人认为还不属于灾难的范畴,因为还未影响到你的业务连续性。

对于数据容灾领域,RTO和RPO是相对专业的名词,但是很好理解也很重要。面对灾难我们要首先希望系统能够尽快恢复运行,丢失的数据要找回来。RTO就是从宕机到正常使用所需要的时间。假设双机集群可以对其中一个宕机进行切换做出反应,花了5分钟后,从A切换到B,那么业务系统可以用了。那我们就可以这样理解:双机集群面对其中一个节点宕机,它可以做到RTO为5分钟。当然,RTO越少越好。还需要强调,如果仅仅是找回了数据,没有花时间配置,客户端系统无法正常使用,那配置的时间也算是RTO的组成部分。总之,想让系统正常使用而累积的时间都是RTO。

RPO可以理解为你可以忍受掉多少时间的数据。如果你的系统是在1个小时前备份的,那么这一个小时内的数据都可能找不回来了,则RPO就是1小时。当然RPO也是越短越好。

数据一个不丢,系统恢复等待时间为0,那就是理想状态,那就是RPR为0,RTO也是0。理论上可以做到吗?可以!但是需要强调一下,为了改进RTO从30分钟缩短到8分钟,你可能需要花50万,如果你要从8分钟缩短到1分钟,要付出的可能500万都不止。当然PRO为0也需要极高的代价,我们知道如果客户端突然出故障,客户端数据是无法保存的(除非给每个客户端都做容灾保护),所以理想的PRO为0几乎无法做到。我们只要能够保证提交到服务器的数据尽量不丢失就不错了。

RTO和RPO是衡量一个容灾备份系统的重要指标,也是需要规划者权衡的问题。在医疗领域,RTO比RPO重要,我们首先要保证业务连续性。先不管丢了多少分钟数据,我们首先要保证系统一刻不停地运转。如果医嘱系统突然宕机30分钟以上,或是门诊收费和药房系统停30分钟,将会给医院带来巨大损失。按照我的经验,基本上20分钟系统不能恢复,门诊病人就跑掉大半了。

1 2
赞(0)

评论 抢沙发

评论前必须登录!

 


未经允许不得转载:HIT专家网 » 【姜疆专栏】关于卫生行业数据容灾备份的六个观点(5):深刻理解自己的RTO和RPO
分享到: 更多 (0)