为什么会发生IT灾难?

新闻
IT灾难事件大家都不陌生,也是老生常谈了,但为什么会发生IT灾难事件呢?深入来看其实包含两个方面,即触发因素和根本原因。

一、概述

IT灾难事件大家都不陌生,也是老生常谈了,但为什么会发生IT灾难事件呢?深入来看其实包含两个方面,即触发因素和根本原因。触发因素是触发初始事件或异常情况,根本原因是把最初的事件变成灾难的原因,它们通常与无法在合理的时间(可容忍的RTO时间)内从事件中成功恢复有关,而且灾难并非总是如人们所料而发生。

[[418555]]

二、IT灾难的触发因素

正常数据中心运营面临的典型IT灾难触发因素总结包括以下方面:

1、机房遭遇渗水或漏水事故;

2、停电相关事件,如短路、闪电或中央断电;

3、机房冷却系统故障;

4、火灾,通常由于过热,短路或电子元件故障产生;

5、人为错误或缺乏使用技巧,这种情况有时代价高昂;

6、软件故障,程序员可能会犯错;

7、数据中心和外部的通信故障,有情况发生时,延误了处理;

8、地震、台风、洪水,山火等自然灾害,全球变暖,极端气候会增多;

9、机器设备本身硬件故障;

10、错误冗余,也就是冗余在关键时刻没起到作用;

11、蓄意的网络攻击,如黑客或者勒索软件等;

12、网络病毒感染;

13、地区社会暴乱或者战乱;

14、其他无法预料的突发事件。

三、IT灾难的根本原因

IT灾难的根本原因也就是把我上面提到的这些触发因素演变成真正IT灾难的原因,如果保护和预防措施很到位的话,那就不能称得上是真正的灾难了,因为可以恢复,或者把损失降到可以接受的范围内。那么相反一旦发生IT灾难,如果没有做好相应的保护机制和措施,最不好评估的损失就是数据的损失,因为绝大部分数据一旦丢失是不可再生的。

这里着重讨论一下,在许多情况下,虽然有诸多的保护措施,但是有些措施还是有不确定性,也就是不能确保在灾难发生时一定会起作用。例如以下情况:

1、不间断电源

有一种情况,在电源故障后,人们才发现UPS电池耗尽或UPS单元之间的电源平衡不正确,结果其中一个UPS单元过载并发生故障,导致与其相连的系统瘫痪;

2、防火隔离保护

只有在真正发生火灾的情况下,人们才能知道这个系统效果有多大。如果只有一个水管,一个电缆隧道或一个冷却隧道没有很好地隔离,那么火灾或不可接受的高温很可能会蔓延到相邻的房间;

3、灭火系统

除非在真实的环境中进行试验,否则人们不会知道是否有气体泄漏或系统故障;

4、错误冗余

由于配置错误,可能有些冗余保护起不到真正的冗余作用。根据我们的经验,这通常适用于通信交换机,SAN控制器和某些存储系统。可能只有当其中一个系统出现故障时,组织才会发现高可用配置不正确,并发生应用程序中断;

5、异地灾备间飞行数据丢失问题

在异地灾备中,故障转移到远程位置是灾难恢复战略的一个关键部分。然而启动故障转移的最大障碍是两个站点之间数据完整的不确定性。这种不确定性的原因是生产站点和恢复站点之间传输的数据不一致。一个站点上的灾难需要能够在一个远程位置进行恢复,即远离主站点的物理实际空间。确保远程恢复的一个主要问题是确保飞行中的数据完整且一致。那么何为飞行中的数据丢失呢?灾难发生后生产系统可能已提交数据更改,但数据可能未到达恢复站点,这就是飞行中的数据丢失,如果能确保飞行中的数据零丢失,能使您能够频繁地进行故障切换和故障恢复。测试故障转移过程应该成为一个常规事件,用于评估和改进灾难恢复过程和准备情况;

6、日益严重的蓄意攻击

互联网正在受到更频繁的,更严重的攻击。从生活中的冰箱,汽车到健身监测器,超过200亿台各种类型的设备连接到互联网,每周还持续增长数百万台设备新连接到互联网上,安全漏洞和漏洞的数量正呈爆炸式增长。网络攻击的违规行为的代价是惊人的,可能会威胁到某些公司的生存。个人觉得如果出现了一个新的网络威胁,那么随着技术的发展,新的防御措施也会产生,但出现了一个新的防御措施,那么可能新的攻击方法又会出现。所以建议用户最好备份多个副本,至少要保留一个“末日”副本,也就是数据和日志文件的原始副本。

四、总结

事件触发因素与大量低概率的根本原因共同促成了IT灾难,所以IT灾难并不是表面上的那么简单。人类在评估低概率事件的影响力方面比较弱,对IT灾难风险的清醒评估至关重要,至于具体采用什么等级的措施或者资金要投入多少,要达到什么程度,可根据不同的预算情况和业务的重要性来实施,但首先要认识到这个问题。

 

责任编辑:华轩 来源: 存储灾备
相关推荐

2020-12-10 07:37:42

HashMap数据覆盖

2021-12-27 08:24:08

漏洞网络安全

2020-02-25 10:56:33

云迁移公共云云计算

2023-08-26 07:44:13

系统内存虚拟

2015-09-25 10:41:48

r语言

2021-03-10 10:40:04

Redis命令Linux

2023-06-27 16:53:50

2020-09-24 09:29:34

人工智能

2016-01-04 11:03:00

2019-02-27 10:18:26

重置Windows 10Windows

2015-04-16 10:40:29

2015-11-19 00:11:12

2023-04-27 07:40:08

Spring框架OpenAI

2024-01-18 11:50:28

2012-12-25 15:19:20

Windows操作系统

2020-12-16 19:26:42

IIOTIOT工业物联网

2011-10-11 15:42:54

大数据数据库

2019-03-14 11:00:40

GoLua语言

2018-03-23 04:58:16

区块链物联网互联网

2021-01-06 16:19:02

物联网安全人工智能
点赞
收藏

51CTO技术栈公众号