当前信息处理技术及其系统已经渗透到社会和企业的各个领域,人们对微电子产品的依赖程度越来越大,然而无论是电子器件还是电路和系统,都不可避免会出现故障。尤其是涉及人们生命安全和生存等问题,或者环境恶劣等人不可及或不方便修复的地方,这些故障一旦发生若不能及时修复或避免将产生灾难性的后果。
由于现代数字系统正朝着超大规模、超高集成度和功能复杂化的方向发展,电路规模和设计电路复杂度的急剧增大,使得基于经验知识和设计规则的电路设计方法已经难以应付,系统的可靠性也随之降低,并且传统的容错技术也已经不能满足日常需求。
传统容错技术主要包括故障检测和诊断、故障屏蔽、故障修复。
其中故障检测是判断系统是否发生了故障,而故障诊断则是在故障检测的基础上确定故障发生在电子设备的哪个区域、发生了什么性质的故障,但是无法自动修复这一故障。因此必须有故障屏蔽和修复的步骤。
故障屏蔽一般是通过增加冗余资源的方法让多个相同功能的系统同时工作,只要占多数的子系统不出现错误,那么整个系统就仍能维持正常功能,确保最终输出结果的正确性不受影响。但故障屏蔽只能容忍故障,可以给出故障警告,同样无法实现故障修复。
所以需要完成故障修复工作,即通过某种方式对出现错误的系统进行修复,以使整个系统重新回到正常的运行状态。故障修复是容错系统的最后一个环节,修复之后的系统会重新投入运行,以保证整个容错系统的可靠性不受影响。
除以上谈到的容错技术,还有一种容错技术受到企业越来越多的关注,这就是冗余技术。冗余技术包括两个方面,即功能性冗余技术和结构性冗余技术。功能性冗余主要应用于信息冗余技术,用来保证系统在进行信息加工和传输过程中的正确性,提高被加工信息的抗干扰能力。
今天我们重点探讨的是第二种,即结构性冗余技术,通过在系统中附加一定的重复部分以达到提高可靠性的目的,结构性冗余的建立和实施往往在系统设计初期就必须考虑周全。具体来说要重点考虑硬件系统包括电子元器件、部件,甚至一个完整的硬件系统的冗余。这种冗余容错模式下,即使硬件发生故障,也可以利用冗余的电路资源,“绕开”发生故障的节点,保障系统的持续运行。
传统数据中心为保证系统的高可用性和高可靠性,往往采用双机热备或者异地容灾部署模式,不仅投资大、实施周期长、技术复杂,而且运营成本也居高不下。随着数字化转型和智能制造的深入,企业的工厂车间对服务器的可靠性要求也越来越高,不仅要求服务器适应工厂苛刻的生产环境,还要求服务器具备极强的容错能力。
为了解决系统设计复杂度和系统可靠性这一矛盾,Stratus经过多年研发,创新服务器架构体系,打造无单点故障的全双工硬件架构,为这一问题给出了最优解。Stratus推出的ftServer容错服务器和ztC Edge边缘计算平台可以在不需要人工干涉的前提下对故障进行自诊断和自修复,为提高复杂系统的可靠性提供了全新的途径。

以Stratus ftServer容错服务器为例,如上图所示。ftServer架构的前半部分包括CPU、专用的ASICS特殊芯片组,并为其专门开发了Automated Uptime Layer软件,它提供自检查逻辑,可持续检查在ftServer上同步运行的软硬件。当检测到任何故障时,它会自动隔离组件并确定问题所在,然后自动呼叫Stratus客户援助中心(CAC)并报告故障和订购正确部件,新部件将隔夜送达客户那里。
Stratus在每个ftServer中都采用这种架构方式,因此将系统的这一部分均称为CRU(客户可更换设备),而每个CRU均包含单个服务器的完整架构,包括 CPU、芯片组、内存组件,以及错误检测和隔离软件。系统还将其与该架构包含磁盘的I/O侧耦合在一起。这些全双工CRU同步运行,意味着在时钟周期内的任何给定时间点,全双工ftServer内的每一位和每个寄存器均完全相同,CRU由全双工多路径I/O总线连接。
这种架构消除了单点故障,在组件出现故障时不存在转换时间,因为它已经在与同时执行完全相同任务的双工搭档组件同步运行。因此,没有任何转换时间!在一个CPU组件无法工作时仍继续处理业务,正在进行的交易不会出现任何中断,其余CPU将驱动剩余的所有组件。在一个内存组件无法工作时也不会丢失该内存中的数据,因为剩余的同步内存搭档保存了所有这些数据;一个磁盘驱动器无法工作也没有关系,因为其镜像搭档仍会使所有这些数据保持完整,Stratus可为客户提供永远在线处理环境。
容错技术最早应用于航天器,是提升航天器可靠性的重要手段之一。近年随着工业智能化的发展,工厂车间出现越来越多的边缘计算需求,要求服务器的部署更靠近数据源,对服务器的可靠性提出了更高的要求。
Stratus开创性地设计全双工硬件的单一系统,为智能制造的深入发展提供了可能。目前无论是流程行业还是离散行业,在关键的工业自动化控制场景中我们越来越多地发现Stratus产品的身影,为工业企业的关键业务提供坚实支撑,同时助力中国制造业稳步推进智能制造转型升级。