更多关于应急计划

作者:David Lane

几周前,我顺便提到了应急计划的必要性。今天,我想更仔细地研究一下它们。我目前的工作与业务持续性 (COOP) 和灾难恢复 (DR) 相去甚远,但我仍然在处理灾难问题以及预防灾难,无论是专业上还是个人上。你们有些人知道,我是一名业余无线电操作员,专门从事紧急通信。因此,我花了很多个人时间与其他部门主管一起开会,讨论政府持续性、风险评估和缓解以及恢复的非常现实的问题,这些问题是信息技术领域的许多人永远不必考虑的。大多数主题都围绕降低威胁生命的风险(请注意,我说的是降低,而不是消除)。

在信息技术领域,在大多数情况下,如果发生系统故障,不会有人死亡(是的,是的,那些在医疗保健领域工作的人有完全不同的要求),但这并不意味着我们不应该确保我们的计划考虑到我们所做的一切都存在风险,如果我们管理负责运行其他系统的系统,则风险更大。上周二,这件事以一种非常私人的方式深深地印在我的脑海中。我乘坐火车上下班。火车与货运和美铁共享轨道,这意味着美国铁路系统中任何一个复杂的系统发生故障都可能造成混乱。上周二,正如任何乘坐铁路的人都知道的那样,是命运多舛的日子之一。

控制着从波士顿到佛罗里达州铁路的 CSX 铁路公司失去了调度系统的使用权。这是一个电传打字系统,每位工程师都依赖它来获取他们的“交通指令”,其中列出了设备功能级别、信号中断、轨道状况等(正如向我们这些外行人解释的那样),即使像我乘坐的火车这样的短途运行,也可能多达 10 页,每辆火车都必须拥有。当然,第一个问题是为什么这是纸质的,但暂时忽略这一点,这个系统能力的丧失是灾难性的。它基本上冻结了许多火车。在我所在的角落,这意味着影响了数千人。这些人中的大多数最终不得不走上公路,这在华盛顿特区地区只会意味着混乱和交通拥堵,而在该地区,混乱和交通拥堵是司空见惯的。当发生此类延误时,会造成经济损失。火车公司必须为人们乘坐地铁付费,人们除了支付火车票费用外,还必须支付开车和停车费用。而我只知道一些当地的成本。我敢打赌,这次中断的代价非常昂贵,不仅对我的当地火车系统,而且对 CSX 来说也是如此。

该系统在相当短的时间内恢复运行。他们是否实施了灾难恢复计划?回滚补丁?我不知道,但他们让系统恢复运行了。

当我们作为系统人员设计灾难恢复或业务持续性系统时,我们通常关注的是停机时间。系统将停机多久?我们真的应该关注成本和影响。可悲的是,许多公司无法告诉你停机的成本。对于服务公司来说尤其如此。我希望 CSX 可以精确到美分地告诉我每分钟停机对他们造成的损失,但这是否包括二级和三级系统受到的影响所承担的成本?这次中断的成本是否高到可以被设计成防止它发生?当然,这是问题的另一面。我们大多数人,如果有时间和设备,都可以构建一个尽可能接近防弹的系统,但成本可能会高到不切实际的程度。因此,需要权衡取舍。我们都经历过并为额外的集群争论过,但会计师告诉我们,为了那 1% 的机会,不值得花费额外的 50 万美元,尽管投资回报可以防止公司损失 200 万美元。

因此,我们制定应急计划,编写灾难恢复程序(这些程序没有得到充分的演练,也没有被足够多的人了解),并祈祷明天我们不会在《华尔街日报》的头版上看到我们公司。

加载 Disqus 评论