如果你的服务器在半夜发出尖叫,没有人听,那又有什么关系呢?

2016年6月8日
如果你的服务器在半夜发出尖叫,没有人听,那又有什么关系呢?

我想和你们分享一个最生动的例子来说明APP客户端CSI 圣骑士哨兵 远程监控网络的方法优于其他解决方案.

我们的一个公立学区使用我们的圣骑士哨兵监控服务他们非常昂贵的SAN在一天晚上10点15分突然释放出一股非常, 在几分钟内发出非常可怕的警报.  这些消息有效地表示SAN卷和驱动器已被完全破坏!  如果这是真的, 整个学区被彻底摧毁,他们必须实施灾难恢复计划.

突然,消息停止了,SAN说它又高兴了.   事实上,一个小时后,我们的一个工程师在一个不相关的项目上工作,没有出现任何问题.

早上6点半左右,我们查看了夜间自动警报,并为我们认为突出的问题制定了一个计划.  这些可怕的警报消失了.   自动化系统完成了它的工作.  目前SAN没有任何问题.   然而,老实说,这对我来说还不够好.   我所看到的不会就这么消失.  这个学区本应完全消失.

我搬到了这个地区.  很好.   我远程进入SAN.  很好.  没有错误,也没有在控制台中直接看到发生了不好的事情的警告.   然而, 当我查看历史事件日志时, 和圣骑士哨兵昨晚告诉我们的一模一样.   发生了一件非常糟糕、非常可怕的事情——然后它神秘地消失了,没有任何解释.

我拿起电话打给小贩.   他们和我一样害怕.  他们看到的是灾难性的.  这样的事情是不会自愈的.  诊断很好.   我听到很多评论,比如, "我们以前从未见过这种情况"和"你现在真的应该死了".   这个案例被升级到下一个级别,然后最终直接提交给工程团队.  工程团队回来说, “你现在应该死了”,并且需要固件升级来解决重复发生的问题.  他们说,在之前版本的SAN固件中添加的一个功能“确实有效”,这让他们非常惊讶,因为他们说, “这几乎行不通。”.  他们显然很害怕,并且坚定地认为这项工作需要尽快完成.

我们已经成功完成了厂商推荐的固件升级.

如果学区根本没有监控解决方案, 他们永远不会知道,他们整个地区都在电子灾难的边缘摇摇欲坠.  如果他们有一个纯自动化的监控解决方案, 他们(最好的情况下)可能会对一个月后收到的报告有一个自我修复的警报,可能从来没有读过, 或者(最坏的情况)仍然不知道即将发生的灾难,因为他们的监视解决方案没有与他们的SAN通信.

CSI的圣骑士哨兵监控看到了这种模式,我们37年使用这些APP客户端的经验告诉我们,即使每个人和每件事都说它很好, 这不是.

你怎么知道你不知道什么?   如果这种情况真的发生在你身上,你有什么计划吗?  如果不是这样, CSI联系 关于我们的 圣骑士哨兵监控.   免费试用..


友情链接: 1 2 3 4 5 6 7 8 9 10