专业咨询
致力推进中国医疗卫生信息化

【姜疆专栏】关于卫生行业数据容灾备份的六个观点(2):不要相信一劳永逸的解决方案

 笔者尽管经历了10年的医疗信息化发展混沌之路,却正在以一个爱好者的身份和研究的心态,去了解容灾备份的概念及工具。下文所提出的六个观点都是亲身感受和总结,希望此文能够引来讨论及拍砖,我们共同努力去做好医疗行业的容灾备份建设方案。

关于医疗卫生行业数据容灾备份的六个观点之二——

不要相信一劳永逸的解决方案

作者:姜疆          来源:HIT专家网       

毕业后,我进入了医疗行业。说实话,10年来从未特别系统地学习什么容灾备份,但是几次刻骨铭心的教训让我明白,天底下没有一个可以让你一劳永逸的方案。

当时我所在的医疗软件公司有大客户也有小客户。N年前的某日,我到一个乡镇医院和网管员瞎聊,大家口若悬河夸夸其谈的时候,突然翘着的二郎腿一不小心将桌子下面的服务器踢了一脚,服务器蓝屏了。楼下收费室马上电话打上来,网管对他们很不耐烦地吼:“正在重启服务器,等几分钟!”然后继续和我侃大山。

到了地区级三级医院,谁还敢乱踢服务器?才参加工作没两年的我,看到启动的时候如飞机引擎吼叫一般的服务器风扇,还有一排排交换机的指示灯,心里面总是觉得这些玩意不能轻易乱动,一旦出了问题就麻烦了。这些高档货都在防静电地板的屋里,空调吹得人浑身发抖。

尽管医院对这些机器呵护备至,我们也是小心翼翼,但是噩梦还是来了。某日,公司突然接到电话,说HIS系统数据莫名其妙出现错乱。公司老总亲自驾车去现场解决问题,当然我也一同赶往现场。高速路上一路飞驰,老大开车也不说话,就是专心地将车开到时速不低于140公里每小时(超速啊)。

记得很清楚,当时的情况是:基于ROSE HA的双机软件安装在NT4.0 server上面,由于双机软件互相抢夺控制权导致下面连接的系统时常不能访问。到最后,这个ROSE 已经彻底疯了,把SQL Server 6.5的数据库彻底捣烂了,连门诊收费表都只能显示半截数据。我也开了眼了,第一次看到被拦腰弄烂的表。接下来,还是土办法重装系统,手工恢复数据,剩下的补录。一晚上没睡觉……

在这里不得不说到双机集群的问题。

现在还有很多人认为,做容灾就是弄双机热备。我承认,双机热备是一个好东西,你会发现安装了双机系统以后,双机的心跳线路互相侦测,再也想不到比这完美的东西了,它自己会从崩溃的节点转移到正常的节点。

我们先不说早些年配置磁盘阵列控制器的艰辛和配置双机软件的复杂。到后期版本Windows群集,基本上微软的服务器版本已经免费自带,并且安装配置也比较轻松了。但是有个问题还是存在的,那就是对于磁盘的控制器。

双机集群并不是一个理智的一劳永逸的东西,它一旦发疯的时候,不仅仅是让服务器罢工而且会把数据库弄烂。双机集群系统增加了系统复杂性,一旦中途安装失败,你很可能再也无法正常安装了,只有将系统重做。在没有压力的时候,你会发现切换得比较流畅;但是负荷比较重的时候,双机的切换有时候也是很缓慢并且莫名其妙的。

看到服务器的日志,那些莫名其妙的错误,你别指望问微软公司求解,给你回答问题的家伙也是漫不经心的的二把刀,他们只会推卸责任。而尝试给HP打电话,有些问题,中国区回答不了,直接说等美国总部给你回信,等等就是20多天,还是一个模棱两可的回答。

再次强调,至于双机集群用在什么场合解决什么问题,你需要深入学习,而不是别人说什么就是什么。不同的方案和技术用来解决不同的问题。

我并非是要抹杀双机集群技术或者厂商,只是举例提醒诸位,不要被厂商所迷惑。你要知道你掌握工具的特性,了解他们的长处和短处。如果你听厂商给你卖一个屠龙刀,你会发现,这把刀只能用来屠龙而不能切菜,你要的仅仅是菜刀,至于龙,估计你这辈子都见不到。如果出了问题,他们这些当官的老大们只能迁怒于公司和信息中心,他们始终认为IBM是形象高大的蓝色巨人,而你就是小丑。当然,出了事你就要扛着,别怪厂商的产品,你又不能重新开发个操作系统来,只有认命。大家知道法航AF447事故(就是在2009年在大西洋上坠毁的空客A330客机),空客的飞机尽管是采用电传控制系统操作,但是空客设计飞机的第一个原则就是机器不能代替人进行决策,第二个原则就是机器要对人的能力进行补充,但是要明确步骤,不能由外延(一个指令只做一件事)。法航AF447事故的调查结果肯定会让飞行安全系统的设计更加遵循上述的原则。

难道在灾难面前我们能够按“auto pilot” 就能度过灾难?数据系统容灾也如此,双机容错的切换行为往往也是诡异的,是人无法控制的,我们在容灾问题上的依赖思想就到此为止吧,不要什么事情都指望自动化的系统。我们必须清楚自己为什么要这么做,以及这样做之后可能的后果。我们要记住“机器不能代替人决策”,容灾系统也不是一个人工智能的自动化洗衣机那么简单。

容灾领域没有一劳永逸的解决方案,没有所谓的自动化容灾切换。所谓的自动也是在特定环境下的局部技术特色,你必须要思考和判断问题。如果有厂商说他自己的灾备系统多么智能和自动化,大家就要开喷了。

【上一篇】《观点一: 人是容灾系统建设的第一要素》

【下一篇】《观点三:容灾建设的二八原则》

【作者简介】姜疆,现任上海爱数华西分公司医疗行业经理。曾经是一名地道的程序员、产品经理、产品架构师,拥有近11年医疗卫生信息化工作经验,热爱钻研技术、喜爱各种软件技术并热衷学习数据分析和挖掘领域的知识。曾和医院一线人员一起并肩奋战过,为医院信息化一点一滴的建设奉献了职业生涯的大部分时光。从最初的程序员到研发架构再到产品线部门经理,历任医疗软件行业各种技术岗位。在国内各型大小HIS等公司做过技术研发、架构师、技术管理、售前类职位。至今他写的软件还在国内数十家医院默默运行。

曾经参与或独立编写过国内数十家大中型医院及区域医疗整体解决方案及软件架构设计, 对于HIS、LIS、EMR及BI有深刻的理解,对于行业发展规律有独立的见解。 自2009年起开始正式做销售、售前相关的工作。凭借资深的医疗行业背景,迅速成为医疗行业数据安全/文档管理方面的专家。擅长根据每个客户的业务需求设计解决方案,帮助客户解决数据丢失和业务服务中断等问题。

赞(0)

评论 抢沙发

评论前必须登录!

 


未经允许不得转载:HIT专家网 » 【姜疆专栏】关于卫生行业数据容灾备份的六个观点(2):不要相信一劳永逸的解决方案
分享到: 更多 (0)