5个关键设备故障的警告信号

作者: Judy Howell
创建日期: 25 七月 2021
更新日期: 23 六月 2024
Anonim
OPPO自研NPU芯片被质疑是鸡肋?5分钟讲明白NPU与小米ISP的区别。【白呀白Talk】
视频: OPPO自研NPU芯片被质疑是鸡肋?5分钟讲明白NPU与小米ISP的区别。【白呀白Talk】

内容


带走:

通过周密的预先计划减少停机时间可能意味着业务增长与下降之间的差异。那就是平均两次故障间隔的时间。

不要低估了当今的公司每天对关键系统的依赖程度。这就是为什么企业能够衡量设备故障风险的唯一常识。由于不能保证某台设备何时会发生故障,因此至少必须对何时不再被视为可靠设备进行准确的估算。

否则,看不见的设备对企业而言似乎并不重要,但是当单个冷却风扇出现故障,导致发电机放弃重影并在长时间内导致成千上万的用户代价高昂的问题时,您可以看到能够评估基础架构的哪些组件可能发生故障以及何时发生是至关重要的。那就是平均故障间隔时间(MTBF)出现的地方,IT专业人员依靠它来提供准确的 估计 关于关键设备何时会发生故障。在这里,我们了解了最终杀死某些常见类型的关键设备的原因,以及MTBF如何帮助您度过难关。

什么是MTBF?

每个制造的IT设备都分配有唯一的型号。那些在关键基础架构中扮演重要角色的企业将获得MTBF估算值。为一件设备计算出MTBF的复杂计算是在产品研发过程中的漫长测试阶段进行的,并且相对于特定模型而言相对特定。

如果要查找特定设备的MTBF,可以在制造商提供的详细规格表中找到它。您也可以直接与制造商联系。

路由

企业级路由器包括许多部分,其中一些是静态的,而其他则是静态的。电源设备(PSU)和冷却风扇都具有活动部件,并且这些部件容易成为故障点,尤其是如果该设备未安装在相对无尘的数据中心内时。值得庆幸的是,通过一些管理员的输入,大多数路由器都会向 系统日志 工具,以便可以标记任何失败的组件。

开关

同样,企业网络中的下一个层次是交换硬件。尽管企业级交换机也倾向于依靠风扇,但是它们通常少于路由器机箱中的风扇。如果风扇呼气机制完好无损,则故障交换机通常会在软件级别发生异常行为,方法是意外禁用交换机端口,或者更常见的是,它表现出异常行为,例如丢包,导致不同级别的流量中断或错误更改用户定义的设置,而无需要求这样做。

网络庞然大物Cisco为其Cisco Catalyst 3750G-24TS型号宣传其一台路由器的MTBF为188,574小时。如果将其除以8,765.81277(一年中的小时数),则可以看到该模型的MTBF估计值约为21.5年。当您认为此设备需要24/7正常运行而无故障时,该数字可以保证,尽管实际上实际上只是其可靠性的指示。即使这样,它仍可以使用户对设备预期能使用多长时间做出有根据的猜测。


弹性电源

连接到大量电池的不间断电源(UPS)可以在短暂的时间内为企业内部的备用电源提供电力,而在停电后发电机旋转之前。与任何设备一样,某些特定的软件故障也可能在UPS内部出现,但通常,它们从中汲取能量的电池通常会引起最大的关注。如果UPS电池频繁断电并充电,其容量将更快减少,并且其运行时间将大大缩短。毫不奇怪,UPS电池也有可能完全失效。当出现故障时,UPS可以通过调制解调器和网络进行报告,但更常见的是,较早的UPS在首次出现问题时会触发声音警报。

没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时,您就无法提高编程技能。

受保护的存储

过去十年左右,我们今天使用并高度依赖的硬盘变得更加可靠。但是,它们远非万无一失,并且取决于您可能相信的研究,取决于许多因素,它们似乎可以正常工作更长的时间。 (有关此问题的很棒的评论,可以在The Remarketer上找到。)如果启用了详细报告,并且驱动器提供了有关错误的反馈,则损坏扇区和读取/写入故障是发现存储阵列中的磁盘时的关键。失败了。使用多个磁盘连接到RAID控制器的服务器中的另一个常见问题是控制器本身将发生故障。不幸的是,有时硬盘在没有任何警告的情况下只是停止工作,这一问题很难可靠地防范。

伺服器

除了内置在服务器中的驱动器和活动部件(例如上述冷却风扇和PSU)之外,服务器硬件组件中还会出现许多问题。在软件级别进行报告(通常指BIOS或其他低级硬件组件诊断程序)是发现故障或更重要的是显示故障迹象的关键。一个可能并不立即显而易见的问题是影响主板的问题。机器不喜欢过多的热量是完全合理的。但是即使在今天,如果现代电路板遭受快速的热损失-或从运行温度很高到突然变冷-也会出现裂纹,导致电路板灾难性地损坏。这是一个要牢记的问题,尤其是如果您在维护窗口内在建筑物之间移动设备而没有时间限制的情况下。


MTBF:可能也会失败

与MTBF预测一样有用,对于计算企业必须依赖的任何设备的可接受风险水平至关重要。不幸的是,即使制造商提供了所有的统计保证,保证运行关键系统的设备的可用性的唯一具体方法是将设备加倍以实现超时故障转移。

企业中使用的每一个硬件都是由许多不同的组件组成的,因此真正的MTBF绝非易事。显然,至关重要的是不要让企业的未来取决于这些可能性的度量标准,而应将它们作为衡量业务连续性和灾难恢复程序的明智决策的准绳。毕竟,通过精心的预先计划减少停机时间可能意味着成功的企业与失败的企业之间的区别。