数据中心在企业发展过程扮演着重要的角色,因此很多企业非常看重数据中心的运维情况。数据中心虽然能为企业带来一定的利润,但在运行的过程中也会出现一定的故障,从而导致数据中心意外停机。

随着企业计算环境变得越来越复杂,IT系统故障和网络错误导致数据中心数量大幅减少,导致更多意外停机。

数据中心大幅减少中

电源故障是数据中心中断的常见原因,但它们不是唯一的罪魁祸首。随着企业计算环境变得越来越复杂,IT系统和网络故障正在使数据中心数量大幅减少。

Uptime Institute一直在研究公开报告的中断情况,以追踪导致意外停机的原因。在过去三年中,它已经从传统媒体或社交媒体上报道的162次中断中剔除了信息。在此期间,可用数据量稳步攀升;研究人员收集了2016年27次停电,2017年57次停电以及2018年78次停电的数据。

“公共中断使得新闻越来越规律,”Uptime Institute的研究执行主任Andy Lawrence表示,该公司提供弹性服务,建立和运行数据中心的建议以及认证服务。

劳伦斯在该研究结果公布后表示,该行业现在正在记录“世界各地近乎日常严重的停电事故”。这并不一定意味着停电次数飙升,但停机时间越来越受到关注,“我们很清楚,停电的影响肯定会增加,”他说。

来自Uptime Institute的研究的一个重要发现:电源在整体故障中的影响较小,而网络和IT系统则更为牵连。

转变的一个原因是电力系统比过去更可靠地执行,这减少了本地数据中心电力故障的数量。

在过去二十年中,技术行业一直专注于如何设计电力系统,即使电力系统某处出现故障或故障,IT资产也能继续运行,Uptime Institute首席技术官Chris Brown说。“供应双线IT设备的2N配电系统的出现使得IT系统能够通过一系列单一事件和事件继续运行,”布朗说。

同时,日益复杂的IT环境导致更多的IT和网络相关问题。“数据现在分布在多个地方,对网络有一些重要的依赖关系,应用程序[架构]的方式以及数据库复制的方式。这是一个非常复杂的系统,今天扰乱该系统的可能性比过去几年要少,“Uptime Institute负责IT优化和战略的副总裁Todd Traver说。

评估数据中心中断的严重性

为了区分可能导致业务崩溃的中断和仅仅造成不便的中断,Uptime Institute已经提出了规模。劳伦斯说,评级系统允许研究人员了解模式如何随时间变化。Uptime Institute的规模有五个等级:

1级是可以忽略不计的停机。中断是可记录的,但对服务的影响很小或没有明显影响,也没有服务中断。

2级的特点是最小的服务中断。服务中断,但对用户,客户或声誉的影响微乎其微。

3级是业务重要的服务中断。它涉及客户或用户服务中断,主要是范围,持续时间或效果有限。财务影响很小甚至没有。会产生一些声誉或合规影响。

4级是严重的业务或服务中断。涉及服务和/或操作的中断。分歧包括一些财务损失,违规行为,声誉损害和可能的安全问题。客户损失是可能的。

5级是关键业务或任务关键中断,涉及服务和/或运营的重大和破坏性中断。可能存在巨大的财务损失,安全问题,合规性违规,客户损失和声誉受损。

当Uptime Institute在三年期间检查所有公开报告的数据中心中断(级别1到5)时,IT系统和网络问题超出了电源作为主要原因(见图)。

•当比较逐年的原因时,这种趋势尤其明显。2017年,电力是28%停电的罪魁祸首。次年,仅有11%的停电被列为主要原因。与IT系统相关的故障保持相当一致;它们是2017年32%的停电和2018年停电的35%的主要原因。网络作为停电的主要原因显着增加:2017年中断的19%被归咎于网络,而2018年则为32%。

“这是事物的相互联系。这就是为什么网络中断的大幅上升导致了中断,“Traver谈到了2018年的飙升。“事物不是连接在一个或两个站点上,而是连接三个或四个站点或更多站点。网络在IT弹性方面发挥着越来越大的作用。

此外,随着更多IT资源被移交给服务提供商并且不再受使用它们的组织的直接控制,它会增加管理和操作复杂性。

“2018年的三分之二的愤怒与网络和IT有关。这是过去几年的一次重大变化,“Traver说。

深入研究数据中心停机时间

Uptime Institute的研究深入研究了数据中心中断的具体原因。

在网络方面,中断的常见原因包括:

•光纤在数据中心外部切断,路由选择不足。

•主要交换机间歇性故障,未部署辅助路由器。

•主要交换机故障没有备份。

•维护期间的流量配置不正确。

•路由器和软件定义的网络配置错误。

•对非备份单个组件(如交换机和路由器)断电。

错误配置的路由器和软件定义的网络是“常见的网络问题。他们应该通过测试检测到,“Traver说。

Traver说,当谈到光纤切割时,公司往往不知道他们有单点故障。“他们可能有两个独立的供应商,但他们不知道,光纤在同一个沟渠中运行。他们没有做出适当的尽职调查来确定这一点。“

当IT是罪魁祸首时,引用的一些原因包括:

•管理不善的升级,软件级别的测试不足。

•大型磁盘驱动器或存储区域网络的故障和后续数据损坏。这可能是由硬件故障引起的,由于配置或编程错误而加剧。

•负载平衡或流量管理系统中的同步或编程错误失败。

•错误编程的故障/同步或灾难恢复系统。

•对非备份的单个组件(例如服务器或大型磁盘驱动器)断电。

谈到负载均衡/流量管理问题,Lawrence表示,当公司尝试更广泛地分发IT资源时,可能会出现编程错误和同步问题。“减少对单一网站的依赖通常是更广泛战略的一部分;就像你挤压气球一样,问题突然出现在其他地方,“劳伦斯说。

Traver补充说,当公司“没有真正规划所有平台的应用程序和数据,或者他们没有经常测试它们时,就会出现问题”。

当权力成为罪魁祸首时,一些主要的停电原因包括:

•雷击,导致激增和失去力量。备份软件/配置失败。

•转换开关出现间歇性故障,导致无法启动发电机或转移到第二个数据中心。

•UPS故障和无法转移到二级系统。

•操作员错误,关闭或错误配置电源。

•公用电力损失以及发电机或UPS的后续故障。

•电涌引起的IT设备损坏。

•IT设备没有配备双电源供应商切换到二次馈电。

布朗说,在与权力有关的罪魁祸首中,没有什么不熟悉或令人惊讶的。“数据中心工程师一直在努力解决这些问题-如何设计,如何减少设计-几十年来,”他说。

Traver说,总的来说,公司需要更加关注数据中心的弹性。“了解您的系统是如何设计的。完全理解-所有相互依赖。并且也知道它是如何失败的,并计划失败。这是我认为缺少的那块,“他说。

“设备越来越好,管理越来越好,经验越来越好。它正在成为一个更成熟的行业,“劳伦斯总结道。”但即便如此,停电仍然是一个非常重要和昂贵的问题。“

(原标题:深入研究数据中心停机-网络问题)

信息化和软件服务网 - 助力数字中国建设 | 责编:莎莉