| 项目咨询 |积分体系 | 加入收藏 | 设为首页 | RSS
您当前的位置:首页 > 市场 > 百科 > 行业研究 > 专家专栏 > HIT专家 > 姜疆

大型医院数据安全应急处理预案设计

时间:2013-03-14 21:48:32  来源:  作者:
更多

                  上海爱数软件有限公司 医卫行业顾问   姜疆

摘要  医院数据安全应急处理预案每个医院均有不同,很多医院都积累了很多经验,但是随着新的容灾备份方案及技术的引入,就需要打破原来的旧的流程体系,亟需建立新的标准和流程。本文系统并纲领性地提出建立预案需要把握的原则,结合医院的实地情况,结合相关的原则来制定适合自己的数据安全应急处理预案。文中特别提到并引用了很多米切尔.K.林德尔等的应急管理理论知识,通过这些知识系统地梳理我们遇到的实际问题,帮助医院建立有效的应急处理预案
   

关键词:  应急处理、数据安全、备份容灾、存储、
引言: 医疗的本质是“Care People”,一切有利于医疗安全和提升医疗质量的措施都能被医院广泛应用,病人需要高质量的医疗及护理。医院既需要一套技术手段或者设备来帮助我们提升医疗安全和提升医疗质量,更需要一套方法和流程来让新技术手段能够发挥应有的作用。随着临床信息系统的建设,医院的软件系统日趋复杂,原来网络和系统架构都已经不能满足当前大型医院的需求。网络改造,服务器升级换代,磁盘阵列扩容,增加异地容灾机房等等都纳入了很多医院信息科的工作日程。大量资金投入可以让我们迅速获得一套产品,但是
当前各个数据安全厂商技术上各有千秋,针对医院信息系统如何构建适合自己的应急管理预案相关知识还比较匮乏。不管已经购买还是将来准备购买容灾备份设备的医院都应该考虑如何建立一套适合自己的应急处理预案。怎么去分析,怎么去实践,我们应该有相应的指导原则。

第一个原则:首先要建立应急组织机构并划分职责
在《三级综合医院评审标准实施细则》特别提到了“应急管理”。首先第一步就是要建立医院的建立健全医院应急管理组织和应急指挥系统,负责医院应急管理工作。院长是医院应急管理的第一责任人。
很多医院没有把数据容灾作为一把手的工程,但是随着医院规模越来越大,在数据安全遭到危机的时候,院长需要直接面对社会舆论的监督,在CIS系统深入应用的今天,医疗数据安全涉及生命安全,任何一个隐患就会造成难以估量的灾难。我们参照JCI(国际医院评审)的建议,可以将应急组织机构分为四个小组:领导小组、检查小组、技术小组、应急小组。
领导小组全面领导并监督医院应急方案的制定及准备,提供行政支持。领导制定、审核、落实应急方案,发布启动灾难性应急方案的命令,督促应急小组按计划应急。领导小组总指挥:院长;副总指挥:信息科主任。如何发布灾难性应急方案的命令,这个要看灾难的边界,如果灾难到了信息科不能独立决策的时候,那么发布灾难应急方案命令的就是院长。
检查小组负责检查各部门应急准备工作,检查应急启动后的落实情况和评估效果,并督促制定应急方案。 组长:医院主管领导(一般是分管副院长);成员:医院行政领导(医务科或者是相关行政监督及目标管理科室)
技术小组在发生问题时协调软件开发商誉设备供应商。对于灾难性的问题,技术小组及时向领导小组汇报并建议是否启动相应的应急计划。对于区域或部门级的故障,技术小组及时给予指导,并建议启动应急计划。组长:计算机中心主任;成员:计算机中心成员。
应急小组负责应急计划的实施,及时向领导小组汇报并与技术小组沟通。对于某部门内出现的故障,有部门负责人启动应急计划,事后备案。应急小组组长:分管信息化副院长;副组长:计算机中心主任;成员:计算机中心成员。
     需要注意的是医院机构人员众多,工作千头万绪,针对应急管理这块权责必须成文并落实下来,不能缺乏成文的规范。由于致灾因子(类似电源故障、病毒、网络故障)并不是规律性的出来,灾难的形态也是千差万别,规划组织架构和流程并不能靠口头规范。按照美国的突发事件指挥系统(Incident Command System,ICS)提供的原则我们还可以做一些组织机构的补充,正因为诞生ISC是因为各个机构出现的规划协调不利,资源配置不协调,事发现场机构间沟通不畅。所以ISC提到了几个原则对于医院来说也有借鉴意义, 其中“可管理的控制幅度”原则需要我们注意,在组织架构中需要限制直接监管的人数。比如技术小组,我们不能让其规模太大,如果一个信息科有20个人,那么直接属于应急管理机构的成员应该最好不要超过5个人,这些人应该是信息科的骨干,有相对较高的技术水平。
     尽管到目前我还没有听说国内医院有建立应急运行中心,当然这方面国外对此更有经验,突发事件的处理就是一群人在一个资源有保障的地方办公,根据确定每个办公人员的需求,可以规划一个信息流的邻接矩阵来制定合理的布局。对于医院来说应急管理不仅仅是数据安全,还有突发医疗事故、大规模自然灾害(类似地震)、这些应急管理需要整合的话,应急运行中心就是非常必要的。
  
第二个原则:分别建立信息管理部门内和临床部门的应急计划
 
信息管理部门的应急方案如果简单实践,就是列举各个设备或者系统可能出现情况,再写出处置方法。比如服务器列举这几类信息:设备型号、应急准备、应急计划。设备型号就是比如类似HP580配置清单;应急准备就是平时的备份容灾手段(双机,RAC,实时复制等);应急计划就是大致内容:当…发生时启动…方式如何如何操作等等。特别需要注意的是,信息中心有没有能力去全面的分析并且合理地制定出处置动作。自动化容灾设备也不能解决所有问题,信息中心在这个问题上不要期待有一个万能的技术手段解决所有问题。公司给予医院的往往是一个解决方案包,如何应用好有时候也需要人为分析。
当我们按照上述方法列举所有问题和方法的时候,我们会发现都是那么杂乱无章,并且比较粗浅。我们推荐用一个更加专业的词汇“致灾因子”(Hazard)来列举我们遇到的问题。比如地震、火灾、水灾、电源故障、服务器磁盘损坏,这些都是致灾因子。我们不得不承认地震给我们带来的深刻惨痛回忆,但是往往我们更担忧的是由于信息科范围内的问题导致局部的隐患和灾难。所以,所有这些致灾因子需要全面分析和评估。
致灾因子的脆弱性分析是我们建立应急管理战略的依据。按照等保的分级我们可以大致估计风险的程度。我们需要准备一个表格来列举并归类这些致灾因子。首先第一步就是识别,第二步就要估计可能性,第三步是预计后果。致灾因子的识别如果是大的框架范围其实大家都能分析,难在细节上面,只有经过职业训练的信息安全顾问和医院长年累月具有丰富经验的技术骨干通力配合才能识别的比较理想。
“我是否需要采取防护措施”是致灾因子评估需要回答的问题。对于一个乡镇医院来说,采用双机单阵列的架构,估计对其已经足够。他们在“磁盘阵列单点故障”的致灾因子中,他们可以不需要做出防护动机,他们通过评估缺乏紧迫性。但是三级医院的看法就不一样,所以风险评估和医院规模及财产损失是密切相关的。
我们对于致灾因子有时候需要关注它的发生速度、强度、范围、时段、可能性。这些有助于我们建立应急计划。其实我们对于这个方面已经有感觉,我们只需要再次整理描述他们即可。对致灾因子来说,有一些公认的脆弱性数据,比如对于磁带恢复的失败率,如果是自然性灾害,评估自己所处的地区和季节在历年雷电的受灾情况。历次服务器系统崩溃的原因,这些历史事件都应该有记录,这些都是有力的依据。
当我们列举一个致灾因子表格的时候,我们需要考虑致灾因子的信息分享问题。院长、信息中心主任、临床科室操作人员对于同一个信息理解是有偏差的,所以如何沟通是一个非常重要的事情,首先要考虑(1)人们必须接收信息。如果在夜间大多数人都在睡觉,很多人都很难获取信息,如果应急响应必须要人为干预,那么致灾因子信息状态该如何有效传递。说到这里,我们缺乏一个有效的信息整合平台,当然我们期望手机上能够看到所有设备的当前健康状态最好,这也是厂商的努力方向(2)人们必须注意现有的信息。大家都很忙,什么信息应该传播,让正确的信息给正确的人(3)人们必须理解信息。信息科在协助临床科室的时候应该少说专业术语,专业术语会让大家难以理解。
当我们列举好这些致灾因子,那么接下来对于致灾因子的管理战略就包括减缓、准备、响应、恢复这四个步骤进行。
致灾因子减缓(hazard mitigation)针对灾害的根源,减少灾难发生的可能性或限制其影响。减缓的关键是实现预防,当病毒来了我们用强力的杀毒软件去杀还是通过预防(上网行为控制及IT资产权限管理)的方式?用什么方法控制到什么程度是我们需要思考的问题,医院对于数据安全的投入有限,同样我们需要做出决策的依据主要是它们的成本和收益。
灾害准备(disaster preparedness)这块内容就是发生情况应对的手段和步骤。灾害准备计划要包括:(1)谁参与 ?(2)何种应急响应与“灾后恢复”计划是可行的?比如操作系统发生崩溃,必须要恢复的话,如果采用网络恢复,那么首先保证网络是可用的。如果网络不可用,那么这种恢复计划就不具有可行性。(3)响应和恢复组织如何发挥作用?他们需要什么资源?例如,LIS系统发生故障时,如果启动单机程序,原来的网络打印机无法调用,或者根本就没法采用网络打印(无纸化),此时报告要传递,是否需要协调打印机资源。对于双向通信的设备,条码系统已经不能使用,是不是启动人工编号方式,需要准备一套编号的操作流程,当然还有笔。对于信息中心来说似乎我们可以得到很好的训练来让自己成为灾难处理的高手,但是临床科室在缺乏培训的情况下也会让信息中心手忙脚乱。所以(4)应该确定维护、培训、训练、演习的方法和日程表。对临床科室也要培训。即使所有的灾难都在信息中心一次性搞定,那么至少也要培训一下前端操作人员重新登陆程序,否则数据库中断无法连接仍然会让他们无法工作。
应急响应(emergency response)开始于事件发生时。应急响应需要限制最初的影响带来的损失。最大限度减轻二次影响带来的损失。所谓二次影响就是类似电源故障导致服务器集群软件故障,“由灾害引发的灾害”。例如生产机房的UPS受到了雷电影响,如果我们知道生产机房的UPS不够先进难以抵制雷电带来的冲击,如果灾备机房的UPS有浪涌保护能够抵御雷电引起的浪涌,那么这时候我们应该切换业务系统到灾备机房。即使灾备机房没有丝毫损坏,那么雷电假如果造成了群集逻辑性错误,那么切换到灾备机房错误也可能依旧。如何减轻二次灾害也是需要考虑的问题。
信息中心和医院的资源比较有限的,我们基于如下原则进行应急响应:
1、重点部门原则。重点部门、关键业务必须重点保护。制定应急方案是,应合理安全人力资源、设备资源等。
2、重点设备原则。对一些涉及面较大的设备必须得到重点保护,应该使用冗余备份。
3、风险优先原则。跟进风险评估情况,对有可能造成损失的系统,优先制定应急方案,并在发生问题时优先启动,优先恢复
4、完整性原则。应急预案是一个系统工程,它包含预防范性、应急处理措施、触发条件、启动、恢复措施等。必须考虑成本及可能遇到的风险(医院信誉,社会影响)
5、有效性原则。必须保证措施切实有效。
6、可操作性原则。应急措施要简单、可操作。

对于医院数据容灾有了应急计划,那么如何演习也是一个课题,我们通过堆积木式的演习推进来评估自己该做什么演习。到底是基于讨论层面还是基于行动的演习。基于桌面的演习,比如沙盘推演在没有什么风险的情况下可以对应急计划的组织架构、合理性、前后顺序步骤这些能够得到初步的评估。
灾后恢复(disaster recovery)将业务运行回复到原状。信息系统的灾后恢复往往比常规灾害的灾后恢复还显得复杂,如何保证灾后恢复之后数据一致性,还有切换到生产系统所用的效率都是值得考虑的。我们往往在灾难后面花费补救的金钱往往超过了给致灾因子减缓的投入。就像汶川地震之前,对于地震的预防投入微乎其微,如果对于地震带上的居民多进行一些培训和宣传教育,那么至少死亡人数可以减少很多。同样对于信息系统安全建设也需要专家和医院领导进行风险沟通,医院领导需要制裁那些增加致灾因子脆弱性的行为,激励能使那些减轻致灾因子脆弱性的行为活动奖赏。在数据安全和应急管理领域,需要鼓励大量技术人员为医院去努力建立一个流程,如果不想流于形式,那就要建立激励机制。在电子病历使用的初期,有很多操作性的问题或规范性的问题会使医院在医疗事故发生时让自己处于被动的局面,而之前大家都在体系中对问题漠不关心,如何调动人员的积极性是一个普遍问题。
 
第三个原则:通过培训和绩效评估建立可持续体系
对于培训有三个层次:
(1)领导层要进行应知应会的培训 (2)对IT中心相关管理人员的技能培训(核心培训)(3)对操作层面的防范意识的教育和使用培训,如权限意识、规范操作、安全检查、操作使用等。
目前信息产业迅猛发展,技术手段日新月异,没有百分之百的安全管理系统,只有不断提升管理及技术手段,与时俱进才能保障信息安全。在应急管理体系中人员的绩效评估是一个比较困难的课题,因为大部分医院人员绩效管理都没有上升到一定层次,在应急管理层面的绩效评估更是无人问津。但是针对组织的评估有一些一般原则可以作为我们工作的指导方向。要求培训者运用计算机工具对于致灾因子进行脆弱性评估;评估致灾因子教育计划;评估致灾因子减缓计划。当然这些体系都是西方应急管理理论体系里面提到的,要做中国尚需时间消化,对于非常重视信息化的医院来说,这种理论对于管理的追求是永无止境的,正好国外的理论亟待我们去消化利用。
由于对于许多管理者来说领导力并非与生俱来,因此领导力的培训必不可少。医院的数据安全是需要领导用长期战略性思维考虑的问题。对于领导的培训,有效的方法之一就是切实的生动的事件。
综上所述三个原则,是让医院在数据安全建设中对灾难性事件做出做好最充分准备的基本原则,更加强调了的人、流程的结合。这些理论让我们将容易忽视的部分重视起来,积极去实践,建立适合自己医院的流程和数据安全应急预案体系。

参考文献
梁铭会、金瓯 等。国际医院评审(JCI)实战必读——信息化解读JCI评审捷径,浙江大学出版社
三级综合医院评审标准实施细则(2011 年版)
夏保成 张小兵 王慧彦。突发事件应急演习与演习设计,当代中国出版社
米切尔.k.林德尔等。应急管理概论,中国人民大学出版社
霍华德.昆鲁思等。灾难的启示——建立有效的应急反应战略,中国人民大学出版社

来顶一下
返回首页
返回首页
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
栏目更新
栏目热门