摘要: 在SOR模型的基础上提出了BRO-SOC(Backward Recovery Oriented Sphere Of Correctness)框架。在该框架的指导下提出了DoubleRun容错处理器方案。DoubleRun使用确定性重播(Deterministic Replay)技术保证处理器的可靠性。由于DoubleRun将故障的检测边界设置在BRO-SOC框架的SOC2一级,因此只需对L1 cache进行适当扩展即可容忍处理器流水线中的瞬态故障,由于它不需改动现有的处理器流水线,故相比于其他方案对处理器流水线的性能影响更小。利用SPEC2000的部分程序测试了DoubleRun的无故障性能。为将DoubleRun与其他容错方案(DCC、Slipstream)作横向比较而提出了衡量指标TAC(Time and Area Cost)。实验结果表明,DoubleRun在提供全故障覆盖率的情况下仅增加了6.9%的面积开销和89.8%的时间开销,其TAC虽然比Slipstream大7%但却可以提供全面的故障覆盖率,其故障覆盖能力与DCC相同但TAC却比后者小14%。