CSI和圣骑士哨兵远程监控拯救客户从几乎完全毁灭

2013年12月16日
CSI和圣骑士哨兵远程监控拯救客户从几乎完全毁灭

APP客户端我们的生活中有那么多事情会在节假日、晚上和周末中断?  这些年来,我有太多的管道泄漏, 在最糟糕的时候,热水器会漏水,炉子会坏掉.

APP客户端也是如此.  我们的大多数客户资源有限, 工作人员, 所以周末通常是“自动驾驶”——希望没有什么不好的事情发生,希望他们周一平安无事地走进家门.

然而, 不幸的是,对于我们的一个大客户来说,周六他们的存储区域网络(SAN)发生了非常糟糕的事情.  这个存储设备包含了他们的大部分关键文件服务器和数据.  如果没有它,他们的整个运营就会停止,影响到大约1.2万名用户.  有问题的系统有冗余系统的所有关键部分,以及额外的备用驱动器,以立即, 自动更换故障的驱动器,无需用户干预,以保持最大的冗余和性能.  这是世界一流的设备.

周六,第一次警报来了.  他们失去了动力.  它发生.  该系统立即抓取了一个备用部件,并按照设计自动修复了问题.  不幸的是,一切都在按计划进行.  然后第二个驱动器出现故障.  系统又一次自动抓取了一个备用的并修复了这个问题.  非常不寻常,但是这个系统的设计是为了自动处理这个问题.  然后第三个硬盘坏了!  这可能是十年或更久一次的失败事件.  备件都没了!   现在是星期天的早晨.  幸运的是,这个系统是用所谓的RAID集设计的.  现在它只需要一个驱动器就可以完全正常工作, 但是它现在使用基本的X X Y = Z代数动态地重新创建丢失的驱动器数据,以保持系统运行,直到可以获得并手动插入一个真正的驱动器.

那个星期天的早晨,这个绝对重要的设备离彻底崩溃只有一步之遥.  残酷的现实逼近了这12件事,000名依赖的用户将不复存在.  这意味着实施真正的灾难恢复计划,可能需要几天的停机时间来重建和恢复一切.  如果有什么地方出了问题, 当用户在没有关键系统的情况下挣扎度日时,组织混乱就会随之而来.

当所有这些屠杀都在进行的时候,客户睡着了,没有意识到他们离毁灭有多近.

幸运的是,我们的客户订购了CSI的圣骑士哨兵远程监控服务.  这为他们提供了对其关键系统的24x7x365监视覆盖.  随着这些事件在周末展开,圣骑士开始通知我们的APP客户端人员这些事件.   当我们看着事件持续到周日早上,警报开始响起,我们的APP客户端人员很快意识到这不是常规故障,这对我们的客户来说是至关重要的.   因为我们有紧急情况, 下班后支持, 我们给供应商和客户的紧急联系人打了电话.   SAN的现场24x7x365小时服务不足4小时.  然而, 这是一个非常不寻常的故障,供应商在周日只有两个替换驱动器在该地区可用.   周日下午6点,我们的系统工程师在现场会见了客户和供应商的快递员,并交换了两个驱动器.  重新构建过程自动启动.  到6:30,每个人都回家了.  根据重建速率,我们估计还需要5个小时才能完全重建冗余.  我们还没有脱离险境.  如果在接下来的五个小时里发生什么事,我们的委托人还是会死的.   我们的APP客户端人员继续使用我们的圣骑士哨兵远程监控系统远程监控重建进度,直到我们完全确定他们是完全安全的.  然后,第三个也是最后一个驱动器在周二以常规方式被替换.

因为客户使用了CSI的圣骑士哨兵(Paladin Sentinel)来监控原本可能是巨大灾难的事情,但却没有发生.  12个,周一,000名用户以一种平静的方式来到这里,幸灾乐祸地不知道周末的情况有多糟糕,也不知道他们离一场非常糟糕的比赛有多近, 非常糟糕和紧张的一周.

你是否有50,这就是CSI每天为大大小小的客户所做的事情..

CSINY_favicon 想了解CSI如何帮助你, APP客户端.

 


请留下评论!

你一定是 登录 发表评论.

友情链接: 1 2 3 4 5 6 7 8 9 10