1、1功能安全技术与应用知识讲座这一讲,将讨论安全相关系统的故障、错误与失效的基本理念。上一讲介绍的是安全相关系统的行为和要求的基本概念。 安全相关系统的 3 大支柱:一是安全功能。针对特定的危险事件,为达到或保持被保护对象的安全状态,由 E/E/PE 安全相关系统或其他风险降低措施实现的功能。安全状态是指达到安全时被保护对象的状态。二是安全完整性。在规定的时间段内,在规定的条件下,安全相关系统成功执行所规定安全功能的概率。安全完整性分为SLI1、SLI2、SIL3、SIL4 这 4 个等级。三是故障安全原则。当安全相关系统失效时,被保护的对象应按预定顺序达到安全状态。 安全相关系统的操作模式:一
2、是要求模式。将被保护对象导入规定的安全状态的安全功能,仅当要求时才执行。要求模式又分为低要求模式和高要求模式。二是连续模式。安全功能将被保护对象保持在安全状态是正常操作的一部分。 我们反复强调的理念是,功能安全就是用保证安全功能能够正确实现的概率,来实现安全的。怎么保障功能的正确实现呢?就是控制安全相关系统的失效,使失效率低到一个可接受的值以下。怎么控制安全相关系统的失效呢?就是尽可能减少错误或故障,或增强系统抗故障和错误的能力。 沿着这样的思路,还是先建立概念。首先了解什么是失效。失效即2功能单元执行一个要求功能的能力的终止,或功能单元不按要求起作用。这是“IEC61508”的定义,顾名思义
3、,还存在其他定义,内容也有些不同,因为我们是介绍功能安全,所以就必须按“IEC61508”的定义来讲。按照这个定义,失效是指:功能单元丧失了其执行所要求功能的能力;和/或功能单元虽提供某项功能,但不是所要求的功能,也就是提供了错误的功能。其中第二点是与其他定义的主要区别。还可从另一角度来理解失效,即:设立功能单元的目的,是让其执行要求的功能,安全相关系统作为一个功能单元,其目的是排除特定的行为,或避免某个特定的行为,这些行为的出现就是失效。 从一般的观点看,失效是由故障引起的(或由更低一级的功能单元的失效引起的) , “IEC61508”认为,失效是由故障和/或错误(主要是人的失误)引起的。所
4、以在基于“IEV 191-04-01”的定义上,增加了由于软件或规范等的不足而导致的系统性失效。这样一来,失效就被分为两类:随机的(在硬件中) ;系统的(在硬件或软件中) 。前者称随机硬件失效;后者称系统性失效。 失效的主体是一个功能单元。功能单元,是能够完成规定目标的软件实体、硬件实体,或两者相结合的实体。在“IEV191-01-01”中,常用“项目”一词代替功能单元,一个项目有时可能包括人员在内。 功能单元是通过完成规定功能达到预定目标的,它可能是一个或一组软件、一个或一组硬件,以及软件和硬件的组合。如果某个功能的实现需要有人参与,则该功能单元就包括人在内。 3一个功能单元的基本模型如下图
5、 1 所示: 图 1 中,FU 代表功能单元,L 代表层级。i 代表 1、2、3、4 等数字。在这张图中,功能单元可被看作是一个由多层构成的层级结构,每一层都可依次称作功能单元。在(i)层(图中的第 2 层方框) , “原因”可能是本层功能单元自身错误(偏离正确的值或状态) ,如不纠正或避免,则可能导致这一功能单元的失效,结果使其进入失效“F” 状态,即:失效状态,意味着该功能单元不能执行要求的功能。 (i)层功能单元的失效“F”状态,可能依次表现为(i-1) 层(图中的第 1 层方框)功能单元自身的故障,如不纠正或避免,则可能导致 (i-1)层功能单元的失效。同时,i 层功能单元也是由更基础
6、的 i+1 层功能单元构成的。 举个例子,设立一个系统作为功能单元,该功能单元的功能是:当压力容器中的压力达到 K 时,打开压力容器上的阀门,放掉压力。功能回路如图 2 所示: 如把该系统看作是一个功能单元,这一功能单元又是由 3 个更基础的功能单元压力传感器、逻辑控制器和阀门构成。同时,这 3 个基础功能单元又由更基础的功能单元(如零件)构成。图中传达出的重要信息是,失效控制有可能根据情况从不同的层次入手,但无论如何,失效控制都需从最基础做起。 按照“IEC61508”的观点,失效是由故障和/或错误引起。所以控制失效须从故障和错误下手。故障,即:可能导致功能单元执行要求功能的能力降低,或丧失
7、其能力的异常状况(“ISO/IEC 2382-14”“ISO/IEC 2382-14-01-10”) 。 4“IEV191-05-01”定义的“故障” ,是一种以无能力执行要求功能为特征的状态,不包括预防性维护或其他计划的行动期间的无能力,或外部资源的缺少产生的无能力。 对于故障有两点要引起注意:一是故障会导致功能的丧失,也可能仅导致功能的能力降低。功能的完全丧失意味着失效,功能的能力降低但未失效即是故障,这是控制失效的有效缓冲地带。二是故障表现为无能力,一般来说故障的起因是自身问题;故障的起因如是外部问题,或故障的起因是人使用的错误,则认为是外部保障问题,不作故障论。但在功能安全领域,无论什
8、么起因,无能力都是须控制的,都作为故障。所以对于故障的控制,不仅是对内部的控制,也包括对外部保障的控制,以及对人的各种有可能的错误的控制. 理解了故障之后,再来理解什么是错误。 错误,是计算、观测和测量到的值或条件与真值、规定的或理论上正确的值或条件的差异。人为错误,也可称为失误。引发非期望结果的人的动作或不动作。本定义是以“ISO/IEC 2382-14-02-03”为基础,并与“IEV 191-05-25”给出的不同,增加了“或不动作” 。 人为错误是引起失效的另一重要方面。在“IEC61508”中,为说明起因,有时将故障和人为错误都作为故障,但在处理这两类问题时,方法是完全不同的。 在这
9、个因果链中,同一件事(实体 X)即可被看作是(i)这一层功能单元的失效状态(“F”状态) ,即:其失效的结果是落入这个状态,也可看作是(i-1)这一层功能单元失效的起因,即:(i-1)这一层功5能单元的故障。也就是说,从功能单元构成的角度看,低一层级的功能单元的失效,同时也可认为是高一层级功能单元的故障,是高一层级功能单元失效的起因。从这个角度看,故障与失效可以是一件事,这个事件(实体 X)既有“IEC 61508”的“故障”概念(在这里强调其起因的概念) ,同时又兼有“IEC 60050-191”中“故障”的概念,这里强调其自身状态的概念。 在以上的描述中,失效由故障导致;但在有些情况下,失效可能不由内部故障引起,而由外部事件引起,如闪电或电磁干扰。而且,失效也可能在没有前期失效(故障)的前提下存在。如设计错误就是这种故障的例子。此外,人为使用不正确造成的问题,也会导致功能单元的失效。 编辑 边安