大数跨境
0
0

什么是容错

什么是容错 Penguin Solutions
2016-04-30
1
导读:1容错技术概念(1)容错(Fault-tolerance):容忍故障,考虑故障一旦发生时能够自动检测出来


 


 

1容错技术概念

1)容错(Fault-tolerance):容忍故障,考虑故障一旦发生时能够自动检测出来并使系统能够自动恢复正常运行。当出现某些指定的硬件故障或软件错误时,系统仍能执行规定的一组程序,或者说程序不会因系统中的故障而中止或被修改,并且执行结果也不包含系统中故障所引起的差错。

2容错计算机系统:在发生故障或存在软件错误的情况下仍能继续正确完成指定任务的计算机系统。

3)设计与分析容错计算机系统的各种技术称为容错技术;

4)容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补充,构成高可信度的系统;

2实现容错计算的四个方面

1)不希望事件的检测。不希望事件是指失效、故障、差错等等。为容忍系统中的不希望事件,应首先对其进行检测。

2)损坏估价。由于一个故障的出现和它的失效结果之间可能存在延迟,故障可能已经传播到该系统的其他地方,导致故障

的扩大。因此,在作出一个被检测的故障有关的决定之前,有必要判定系统已被破坏的程度,这依赖于系统设计者的策略和

已有的探测技术。

3)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采用不希望事件恢复技术,把目前的错误系统状态转换成一

个正确的系统状态。

4)不希望事件处理和继续服务。确保已被恢复的不希望事件效应不会立即再现,以使系统继续提供规定的服务。

3容错系统的一般阶段

(1)故障限制:当故障出现时,希望限制其影响范围。故障限制是把故障效应的传播限制到一个区域内,从而防止污染其他

区域。

(2)故障检测:大多数失效最终导致产生逻辑故障。有许多方法可用来检测逻辑故障,如奇偶校验、一致性校验都可用来检

测故障。故障检测技术有两个主要的类别,即脱机检测和联机检测,在脱机检测情况下,进行测试时设备不能进行有用的工

;联机检测提供了实时检测能力,因为联机检测与有用的工作同时执行。联机检测技术包括奇偶校验和二模冗余校验

(3)故障屏蔽:故障屏蔽技术把失效效应掩盖了起来,从某种意义上说,是冗余信息战胜了错误信息,多数表决冗余设计就

是故障屏蔽的一个例子。

(4)重试:在许多场合,对一个操作的第二次试验可能是成功的,对不引起物理破坏的瞬间故障尤其是这样。

(5)诊断如果故障检测技术没有提供有关故障位置和/或性质的信息,那么就需要一个诊断。

(6)重组:当检测出一个故障并判明是一个永久性故障时,这时重组系统的器件以便替代失效的器件或把失效的器件与系统

的其他部分隔离开来,也可使用冗余系统,系统能力不降低。

(7)恢复:检测和重组(若必要的话)之后,必须消除错误效应。通常,系统会回到故障检测前处理过程的某一点,并从这

一点重新开始操作。这种恢复形式(一般叫卷回)通常需要后备文件、校验点和应用记录方法。

重启动:如果一个错误破坏的信息太多,或者系统没有设计恢复功能,那么恢复功能也许就不可能。仅当系统未受任何破坏

时,才能进行重启(从故障检测点恢复所有操作的)。重启指仅有某些过程可以毫无损失的重新启动,

重启相当于系统需要完全重新加载。

(8)修复:把诊断为故障的器件换下来,与故障检测一样,修复也可以是联机进行的或者脱机进行的。

(9)重构:对元件进行物理替换之后,把修复的模块重新加入到该系统中去。对联机修复来说,实现重构不中断系统的工作。

4容错软件的定义

1。对自身的错误的作用具有屏蔽作用

2。可以从错误状态恢复到正常状态

3。发生错误时,能完成预期的功能

4。在一定程度上具有容错能力

实现容错技术主要是冗余

1。结构冗余

2信息冗余

3时间冗余

4冗余附加技术

世纪80年代,第一代容错技术就开始进入商用领域。美国Stratus(容错公司)在Stratus独特的硬件级容错技术及VOS专有操作系统环境下,采用了Motorola M68000处理器。

1993年,Intel I860处理器在Stratus的硬件级容错体系结构中成功应用,在软件环境方面,还能满足业界对开放性要求的Unix操作系统FTX,即AT&T UNIX SVR4

1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PARISC对称多处理技术。

进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA服务器的需求激增,过去仅仅可以应用在RISC平台、HPUX环境下的容错产品也面临着新的挑战。另一方面,企业越来越依赖信息系统来完成关键业务的应用,同时他们不可能配备更多的专业人员来进行专职维护。双机热备集群服务器遇到难题。


 


【声明】内容源于网络
0
0
Penguin Solutions
Penguin Solutions致力于提供高性能和高可用性的计算基础设施解决方案和服务,以支持从边缘到核心再到云的关键工作负载的部署和运行——特别是在人工智能(AI)、高性能计算(HPC)、容错(FT)和边缘计算基础设施方面。
内容 481
粉丝 0
Penguin Solutions Penguin Solutions致力于提供高性能和高可用性的计算基础设施解决方案和服务,以支持从边缘到核心再到云的关键工作负载的部署和运行——特别是在人工智能(AI)、高性能计算(HPC)、容错(FT)和边缘计算基础设施方面。
总阅读844
粉丝0
内容481