
序言
平均故障间隔(MTBF:Mean Time Between Failure)在许多行业中被模糊地用作表示可靠性的术语,且最近有被滥用的倾向。由于MTBF在很大程度上依赖于故障的先决条件和定义,因此必须做出正确解释。
在过去的60多年中,围绕如何延长MTBF这一课题,业界推出了20个以上的延长耐用期限的方法。MTBF成为了各类讨论会上的中心议题。这一趋势在IT和通信设备的设计领域尤为明显。毕竟几分钟的宕机就会对企业的市场价值产生极大负面影响。因此网络所需的物理基础设施(NCPI)是否可靠至关重要,而充分理解MTBF是第一步。

这个问题是在考虑MTBF值时经常被问到的问题。在没有明确地定义故障的情况下计算MTBF,不仅会导致方向性错误,计算出的MTBF值也几乎没有意义。举个例子来说,就像一边用“超长续航距离”来宣传汽车的燃油效率,却不标注油箱的总容量一样。故障定义模糊的原因是故障有两个基本含义。
2)虽然作为产品整体的运行仍在继续,但是一部分要素的必须功能不再能继续运行。

以下两个示例说明产品的某些状态是否按上述定义分类为故障。
如果RAID阵列中的冗余磁盘出现故障,则RAID阵列可用于提供任何重要数据都功能可以正常工作,但磁盘阵列组件存储数据的功能将无法正常工作。该状态按照1)的定义不是故障,但在2)中是故障。
UPS的逆变器发生故障,UPS切换为旁路电路时,可以执行向重要负载供电的UPS的必需功能,但不能使用提供稳定电力的UPS组件的必需功能。和例1一样,这也是2)的定义中的故障。
综上,如果故障的定义只有两个,那么定义故障可能很简单。但遗憾的是,当涉及到产品的评估时,这件事就变得和MTBF本身一样复杂。实际上故障的定义方式远不止两种,甚至可以说有无数种。例如有的制造商会根据产品的种类区分使用多个故障的定义。有的制造人员会以过程控制等目的将状态故障全部记录下来,他们又追加了以下几个问题,以此正确地定义故障:
①是否将用户使用不当也认定为故障?设计人员往往会忽略用户的使用方法错误这种可能性。
②是否将由于修理业者操作导致的机器停止认定为故障?
④在电脑的LED(警告灯)不工作的情况下,对电脑的动作没有影响的异常是否被被认定为故障?
⑤电池等耗材没有达到使用期限就无法使用的情况是否被认定为故障?
故障定义的重要性显而易见,在进行MTBF值解释之前必须了解故障的定义。这些问题是做出可靠决定的基础。人们常说工程师不会犯错误,错的搞错了是前提条件。这句话对MTBF也是通用的。



原创声明:本文系远发国际精益咨询原创文章,未经许可不得抄袭、引用。
文章都看完了
不点个