侵权投诉
订阅
纠错
加入自媒体

故障度量和安全机制ASIL等级详解

2020-10-25 22:18
Elektroauto
关注

上一篇内容,我们讨论了系统层面的不同的自检技术来检测我们的潜伏失效。本篇将讨论故障度量和安全机制ASIL等级。

01

概念介绍

1- 单点故障(SPF):一个要素中的硬件故障,直接导致安全目标的违反,并且该元件中的任何故障都不被任何安全机制所覆盖。

举个栗子:电阻器开路可能导致违反安全目标。电阻器本身没有安全机制或者根本不受控。

2- 残余故障(RF):随机硬件故障的一部分,其本身导致在硬件元件中发生的违反安全目标的情况,其中该部分随机硬件失效不受安全机制控制。

举个栗子:对于通过奇偶校验检查的寄存器,导致奇偶校验检测未检测到的偶数个错误位的故障,可能导致违反安全目标。也就是说,安全机制不能覆盖所有的故障而是部分覆盖,这就是残余。

3- 双点故障:只有与第二个独立故障相结合才有可能违反安全目标的故障。举个栗子: ECC 用例:

潜伏(双点)故障:用于通过ECC检查的内存。ECC用于从内核到系统存储的E2E保护以及外围RAM的单独保护。那么单个的bit是如何随机损坏的呢?

散乱的阿尔法粒子可能会导致RAM中的某一个bit改变其存储值。如果ECC机制使用不当,这些稀少的错误可能会随着时间的推移而累积,并导致数据损坏,甚至是系统故障。这些事件的本质是随机的,在某个地址上发生错误并不表示下一次错误可能在何时或者何处发生:

一个已经纠正但未发出信号的单bit故障,如果ECC纠正失败,则可能违反安全目标;

使ECC失效且初始化启动无法检测到的故障。

那这里的潜伏故障是如何证明的呢?假设!

第一个独立故障:由于阿尔法粒子导致RAM的两个bit随机翻转(两个bit自动检测而没有被纠正);

第二个独立故障:在查表中的错误,它表示一个错误或一个中断逻辑中的错误,通知驱动程序,如上图所示。

如果有两个bit翻转,只要ECC会向FCCU等另一个模块标记一个标志位来处理故障,就没什么问题。由于通知程序也被损坏,因此在这里发生了潜伏的故障,从而导致安全目标的违反。

02

安全机制规范

也就是说,在规定的时间间隔内没有检测到双点失效,则将其归类为潜伏故障。当我们决定编写对所需模块进行自检的安全机制时(根据系统架构),这些安全机制至少应符合:

ASIL-B for TSRs assigned ASILD

ASIL-A for TSRs assigned ASILB or ASILC

QM for TSRs assigned ASILA

为什么这么说呢?

因为我们的目的就是减少双点故障。也就是说,两个ASIL-B点不能违反安全目标。这意味着我们保护我们的系统直到ASIL-D (B+B=D)的TSR。

该TSR可以是一种安全机制,而不是由FSR展开得出的,如下图示:

我们有一个单片机,它配备了内存模块的奇偶校验。该奇偶校验机制的等级为ASIL-B。该能力在以下安全机制中得到证明:

REQ_01:MCU XYZ shall implement a parity for the SRAM and Flash memoery - ASIL B

要求:制定一个安全要求,以测试奇偶校验检测和信号、记录内存故障的能力。

答案:自检,如下→

REQ_02:MCU XYZ shall implement a self-test routine that tests the capability of the parity to detect and signal SRAM and Flash memory - ASIL A
现在,单片机中有硬件内置自测模块。现代的单片机都配备了硬线的安全机制,节省我们使用软件实现它们的时间。如下图,实际上,他们的性能优于软件测试库(SW-Test-Libraries)。当我们采购汽车级的安全芯片的时候,供应商会提供给我们安全手册。根据所需要的ASIL等级来使用MCU的安全要求(AoU)。等到完成架构系统和相应的TSR的安全分析后,我们可以把AoU的需求整理好发给软硬件团队来实现这些需求(通常此部分体现在SSI中)。

除了ECC外,还有一个FCCU,它可以收集故障并通知其他例程、模块来注册故障或采取复位(单片机级别的安全状态,而不是整个系统的安全状态)。

系统失效有几种类型?→通常是7种:

Fail-dangerous: 故障发生时可能导致危险;

Fail-inconsistent: 如果发生失效,提供的结果将明显不一致;

Fail-stop: 如果失效的话,完全停止;

Fail-safe: 如果失效,返回或保持安全状态;

Fail-operational: 发生故障时,继续保持正常工作;

Fail-silent: 发生故障时,不会打扰任何人;

Fail-indicate: 向其周围显示它失效了;

请注意:前两种失效的情况是不理想的,在实施安全机制和TSR后,他们将被转换为后5种故障安全类型的任意组合。也就是说,我们可以将安全状态指定为可操作状态并指示或停止或静音。

以上,就是本期的全部内容,我们下期再见啦!

参考资料:外文文献资料免责声明:本文章中内容是由小编翻译自外文文献资料,免费传播知识。

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号