【IT168 评论】良好的业务依赖于好的计划。场景预测、响应描述和结果分析是业务生存的关键。技术也不例外,我们都希望得到一个好结果,但从统计学上讲,麻烦是不可预知的,可能就在你的面前。这也是您为您的房子和汽车上保险的原因。
技术层面,冗余、高可用性和灾难恢复就是您业务的保险措施。如果您为你的企业制定了正确的技术保障措施,那么您的业务可能就会在数据灾难中幸免。
什么可能导致数据灾难?
在数据灾难中幸存的非常好的方法就是提前为灾难做好准备。很多公司最大的错误就是在灾难发生之际才采取措施。
说到灾难,我们可能会立即想到龙卷风、飓风、地震、火灾、暴风雪、洪水等。那么在技术层面,灾难又是什么呢?
技术灾难更多的是由技术控制人员的人为错误或者系统故障导致的,可能包括软硬件损坏,恶意软件,勒索软件,更新失败等。
人为错误
技术中的人为错误因素被定义为“行为者无意行为”,例如:缺乏计划、简单的输入错误导致代码严重损坏、无法更改密码、意外删除数据等。
人为错误很容易导致病毒或恶意软件侵入系统。并且世界上任何一项技术都无法阻止人为错误对企业业务的影响。
人们意外被电线绊倒,误拔掉正确的电源线,或者在错误的服务器上以正确的方式进行维护。并且心怀不满的员工也会恶意破坏系统。不要过分依赖技术而忽略了人为因素的影响。
考虑可能性
仔细考虑数据灾难发生的任何可能以及能够造成的一切影响是灾难恢复计划的关键部分。
例如:硬件冗余,自动异地备份和地理分离等措施都能够在数据灾难中很大程度保障您的业务盈利。
您可以把它当成一场赌注,但我相信跟您的业务价值相比,任何赌注都是值得的。
一个正确的灾难恢复策略最重要的是确定好以下两点:
恢复时间目标(RTO)
恢复点目标(RPO)
一旦您确定了某项任务的“灾难点”,您便可以开始为这些可能做准备。与其去讨论这样做的意义,不如讨论它对您业务的意义。
恢复时间目标(RTO)
恢复时间目标(RTO) 是指灾难发生后,从IT系统宕机导致业务停顿之刻开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段。需要考虑的因素包括订单丢失、生产力下降、上市时间延迟等影响商业信誉和客户忠诚度的一切因素。
其中同一因素对不同企业的影响程度是不一样的。例如:停工时间。
一个信息网站停机一个小时,可能只会遭受投诉,几乎没有直接性的经济损失。但是,如果是一家电子商务零售商的网站在黑色星期五或者网络星期一停机一个小时,可能就会威胁到这家公司的底线,甚至威胁到整个企业的生存。
案例:Macy 百货公司
Macy百货在2016年和2017年都经历过在黑色星期五和网络星期一两天的网络减速和停电事件。
根据Adobe Insights数据,2017年美国的网络星期一的在线交易记录又创新高,达到65.9亿美元,比上一年增长了16.8%。周五又带来了50.3亿美元的在线交易。移动销售也是第一次在24小时内达到20亿美元。
由此便可预知Macy百货的一天故障造成的损失有多大。
恢复点目标(RPO)
恢复点目标(RPO)是指灾难发生后,容灾系统能把数据恢复到灾难发生前时间点的数据。亚特兰大市是实施灾难恢复解决方案的一个重要例子。
案例:亚特兰大市
在今年的3月,您可能听到过关于亚特兰大市勒索软件攻击的新闻。亚特兰大市是一个拥有600万人口的大都市,2018年3月22日,多个市的计算机系统被一个称为SamSam的大规模勒索软件攻击瘫痪,影响了将近1/2的部门业务。
黑客将重要文件加密,并要价1000美元的比特币才给提供解密密码,否则就删除数据。亚特兰大官员表示,当地有关部门正在与联邦调查局、国土安全部等部门合作,调查勒索软件访问了什么信息,如何破解等等。该官员表示,与亚特兰大市打过交道的所有公司或个人都有可能面临网络攻击的风险,建议大家清查自己的银行账户。
有一个经过测试的备份系统
一个未经测试的备份系统等同于没有备份。根据Ponemon Institute2016年数据违规成本显示,经历过重大数据丢失的企业,43%没有再次开业,51%两年内倒闭。恢复数据需要的时间越长,情况就越糟糕。到第十天,93%的公司在一年内申请破产。
因此,一个企业想要在数据灾难中幸存下来,必须有一个经过测试的备份系统。
解决数据灾难需要回答的十个问题
1. 您的关键系统和资产是什么?
2. 如果您的核心应用程序故障一小时,您的企业将面临哪些风险?如果是一天呢?一周呢?
3. 您要防范哪些灾难?
4. 您的恢复时间目标(ATO)是多少?是针对每个应用程序或面向客户的系统吗?
5. 您的恢复点目标(RPO)是多少?是针对每个应用程序或面向客户的系统吗?
6. 数据恢复过程的关键利益相关者或决策者是谁?他们清楚自己的身份吗?
7. 您是否有书面的恢复计划?如果有,是否符合所有的合规目标?
8. 您目前是否正在备份数据?是否在外地?
9. 重新创建所有的专有数据需要多长时间?是否有这样的能力?代价是什么?
10. 您组织的最后一次完成完整恢复测试是什么时候?