1、DCS 典型故障原因分析与防范对策一、前 言DCS 在国内大型火力发电机组上应用始于上世纪八十年代后期,到目前为止只有二十几年的运行经验。华能国际电力股份有限公司整套引进 350MW 机组,投资建设的南通、上安、大连、福州电厂是国内最早应用 DCS 的电厂。随着火力发电机组自动化水平的不断提高,单元机组 DCS 系统的功能范围不断扩大。近两年新建和改造机组的单元控制室内除用于紧急停机、停炉用的后备手操外,其余操作全部依赖于 DCS。因而,由于 DCS 本身故障引起的跳机现象时有发生。所以,如何提高 DCS 的可靠性作为一个重要课题摆在了从事热工自动化工作的各位人士的面前。由于工作关系,有机会到
2、过三十多家火电厂收资、交流或验收,接触到应用 DCS 的 100700MW 单元机组近八十台,几乎覆盖了国内应用过的所有类型的 DCS,对各种类型的 DCS 发生的故障有较多的了解,无论是进口 DCS,还是国产 DCS,尽管在原理、结构上迥异,包含的子系统也不一样多,但都或多或少地出现过一些相类似的故障,通过对典型故障进行深入细致地分析,找出故障的真正原因,举一反三,制定出防范措施,并正确地实施,可以很好地防止此类 DCS 故障的重复发生。本文列举了几个典型的 DCS 故障案例,供从事热工技术管理及检修人员参考。二、案例一 控制器重启引发机组跳闸2.1 事件经过2001 年 11 月 1 日,
3、A 电厂 4 号机组停机前有功负荷 270MW,无功96MVar,A、B 励磁调节器自动并列运行,手动 50Hz 柜跟踪备用。14 时 26 分,事故音响发出,发电机出口开关、励磁开关跳闸,“调节器A 柜退出运行“、“调节器 B 柜退出运行“等报警信号发出,机组解列。对 ECS 控制系统检查、试验,发现#14 控制器发生故障已离线,与之冗余的34 控制器发生重启,更换了#14 和34 控制器主机板后,机组重新启动,不久,发变组与系统并列。2.2 原因分析根据历时数据分析,13 时 31 分,#14 控制器硬件故障而离线运行,热备用的#34 控制器自动由辅控切为主控。14 时 26 分,#34
4、控制器由于通讯阻塞引起“WATCHDOG“误判断,致使控制器重启。由于控制器控制励磁调节器的方式为长信号,没有断点保护功能,#34 控制器重启后,不能自动回到断点前的状态,导致 A、B 调节器自动退出运行,手动 50Hz 柜自动投入。由于发电机失磁,发电机端电压下降,导致厂用电源电压降低,手动 50Hz 柜输出电压继续降低,手动 50Hz 柜投入后发电机没有脱离失磁状态,直至切除励磁装置,造成发电机失磁保护动作,发电机出口开关跳闸。#14 控制器和#34 控制器控制发变组设备,包括厂用电切换的备自投继电器接点BK,#34 控制器重启后,BK 自动复位,继电器接点断开,BK 投到退出位置,造成
5、6KV 电源开关 6410、6420 开关自投不成功。2.3 防范措施2.3.1 将故障控制器更换。后来制造厂确认这一批主板晶振存在问题,同意免费更换,利用停机机会更换 4 号机组所有控制器主板。2.3.2 增加任一控制器、I/O 卡、通讯卡离线报警功能。2.3.3 程序内部“WATCHDOG“的时间设置太短,易造成误判断,对所有控制器进行软件升级。2.3.4 调节器 AQK、BQK 方式开关和厂用电备自投 BK 开关组态图增加断点保护功能,防止控制器自启动后,励磁调节器和厂用电自投开关退出运行。2.3.5 检查 ECS 系统的所有组态,对存在以上问题的逻辑进行修改。2.3.6 联系调节器厂家
6、,使调节器内部可以作到运行状态自保持,将控制器控制调节器的方式改为短脉冲信号控制。2.6.7 在 ECS 内增加手动 50Hz 柜输出电压自动跟踪功能。三、案例二在线传代码致使机组解列3.1 事件经过2002 年 7 月 12 日,B 电厂5 机组监盘人员发现机组负荷从 552MW 迅速下降,主汽压力突升,汽轮机调门开度,由原来的 20%关闭到 10%并继续关闭,高调门继续迅速关闭至 0%,机组负荷降低至 5MW,运行人员被迫手动紧急停炉,汽轮机跳闸,发电机解列。3.2 原因分析DCS 与汽轮机控制系统分别由两家国外公司制造,两系统差异较大,通讯问题没有很好地解决,存在一些难以消除的缺陷。热控
7、人员在 DCS 工程师站上向负责 DCS 与汽轮机控制系统通讯的 PLC 传送通讯代码时,DCS 将汽轮机阀位限制由正常运行中的 120%修改为 0.25%,造成汽机 1、2、3 号调门由 20%关闭至 0%,机组负荷由 552MW 迅速降至 5MW。3.3 防范措施3.3.1 机组运行期间,禁止 DCS 传代码工作。3.3.2 机组停运期间,DCS 传代码时,应经运行班长同意,并做好安全措施。3.3.2 将 DCS 操作员站对汽轮机控制系统操作员站画面进行操作的功能闭锁,但在 DCS 操作员站上仍能监视到汽轮机控制系统的信息。四、案例三 DCS 工作站时钟混乱引发 DCS 失灵4.1 事件经
8、过:2001 年 8 月 3 日,C 电厂 2 号机组负荷 200MW,#1 至#9 控制器处于控制方式,#51 至#59 控制器处于备用方式。8 时 23 分,各控制器依次发 NTP 报警,历史站报警窗口显示如下:Aug 3 08:23:50 drop7 7 NTP:too many recvbufs allocated(30)Aug 3 08:23:50 drop4 7 NTP:too many recvbufs allocated(30)8 时 26 分,#2 控制器脱网,#52 控制器切为主控;11 时 05 分,#52 控制器脱网;13 时 39 分,#7 控制器脱网,#57 控制器
9、切为主控,在#7 控制器向#57 控制器切换瞬间,由该控制器控制的 A、B 磨煤机跳闸;15 时 11 分,#9 控制器脱网,#59 控制器切为主控,在#9 控制器向#59 控制器切换瞬间,由该控制器控制的 E 磨煤机跳闸;15 时 51 分,#1 控制器脱网,#51 控制器切为主控,在#1 控制器向#51 控制器切换瞬间,由该控制器控制的 A 引风机动叶被强制关闭。15 时 22 分,重启操作员站 drop213(备用时钟站),NTP 报警未消失;15 时 35 分,重启历史站,NTP 报警未消失;15 时 59 分,重启工程师站(主时钟站),NTP 报警基本消失;16 时 09 分,重启历
10、史站,16 时 30 分,系统恢复正常。4.2 原因分析NTP 软件的作用就是维持网络时钟的统一,主时钟设置在工程师站上,备用时钟设置在操作员站上。控制器脱网原因为主时钟与备用时钟不同步造成系统时钟紊乱,从而造成 NTP 报警导致控制器脱网。NTP 故障的原因有两种可能,一种是主频为 400MHz 工作站,不同于 1 号机组的 270MHz(SUN 公司在 400MHz 工作站上对操作系统有较大改进)工作站,2 号机组所用的 1.1 版本软件在 400MHz 工作站上未测试过,不能确保 1.1 版本软件在此配置上不出问题。另一种是主时钟与备用时钟不同步,在 8 月 3 日控制器脱网后,曾发现
11、Drop214 的时钟比其它站快了 2 秒, 当时 Drop214 的画面调用速度较慢,经重启后正常,并且 NTP 时钟报警是在系统运行 73-75 天左右才出现的,估计是系统时钟偏差积累到一定程度后导致主、备时钟不同步,而引起系统时钟紊乱,最终导致控制器脱网。NTP 时钟故障使控制器脱网,处理不及时会使报警的控制器依次脱网,从而导致整个控制系统瘫痪。4.3 防范措施4.3.1 根据本次故障现象,制造商将软件由 1.1 版本升级为 1.2 版本。4.3.2 为确保控制系统可靠运行,定期重启主时钟和备用时钟站。4.4 D 电厂 5 号机组在 2002 年试运期间曾发生 DCS 时钟与 GPS 时
12、钟不同步,引发 DCS 操作员站失灵事件。由于网 上传送的数据均带时间标签,时钟紊乱后会给运行机组带来严重后果,基本情况与 C 电厂 2 号机组类似。采取的措施是暂时断开 GPS 时钟,待软件升级和问题得到根本解决后,再恢复 GPS 时钟。五、案例四 CABLETRON 集线器总通讯板故障导致 MFT 误动5.1 事件经过2002 年 1 月 1 日,E 电厂 1 号机组负荷 250MW,#51 至#59 控制器处于控制方式,#1 至#9 控制器处于备用方式,A、B、C、E、F 磨煤机运行。18 时 57分,所有磨煤机跳闸(直吹炉),MFT 动作,机组跳闸。5.2 原因分析经分析,确认是 DC
13、S 集线器的总通讯板故障,导致连在其上的所有控制器同时发生切换,在控制器向备用控制器切换过程中,#57、#58、#59 控制器PK 键信号误发(这三个控制器属 FSSS 系统),即 CRT 上“磨煤机跳闸按钮“的跳闸和确认指令同时发出,使所有磨煤机跳闸,导致 MFT 动作。5.3 防范措施CABLETRON 集线器属于早期产品,目前在市场上购买备件已比较困难,采用CISCO 集线器来取代 CABLETRON 集线器。六、案例五 冗余控制器失灵造成机组跳闸6.1 事件经过2003 年 3 月 23 日,F 电厂3 机组停机前电负荷 115MW,炉侧主汽压9.55MPa,主汽温 537,主给水调节
14、门开度 43%,旁路给水调节门开度47%(每一条给水管道均能满足 100%负荷的供水),汽包水位正常;其它各参数无异常变化。监盘人员发现锅炉侧部分参数显示异常,各项操作均不能进行,同时炉侧 CRT 画面显示各项自动已处于解除状态。调自检画面发现#3 控制器离线,#23 控制器处于主控状态。运行人员立即联系热工人员处理,同时借助汽机侧CRT 画面监视主汽压、主汽温,并对汽包电接点水位计和水位 TV 加强监视,主汽压在 9.09.6MPa 波动、主汽温在 510540波动、汽包水位在+75-50mm波动,维持运行。几分钟后,热工人员赶到现场,发现#3 控制器离线、#23 控制器为主控状态,但#23
15、 控制器主控下的 I/O 点(汽包水位、主汽温、主汽压、给水压力、等)均为坏点,自动控制手操失灵。经过多次重启,#3 控制器恢复升为主控状态。在释放强制的 I/O 点时,监盘人员发现汽包水位急剧下降,就地检查发现旁路给水调节门在关闭状态,手动摇起三次均自动关闭,汽包水位 TV 和显示表监视不到水位,手动停炉、停机。6.2 原因分析根据能追忆到的历史记录分析,可以推断#3 控制器(主控)故障前,#23 控制器(辅控)因硬件故障或通讯阻塞,已经同 I/O 总线失去了通讯。当#3 控制器因主机卡故障离线后,#23 控制器升为主控,但无法读取 I/O 数据,造成参与汽水系统控制的一对冗余控制器同时失灵
16、,给水自动控制系统失控,汽包水位保护失灵。在新更换的3 控制器重启成功后释放强制点的过程中,DCS 将旁路给水调节门指令置零(逻辑如此设计是为了在控制器故障时,运行机组向更安全的方向发展),关闭旁路调节门。而旁路调节门为老型号的阀门,相当于解除了自保持的电动门(接受脉冲量信号),切手动时不能做到电气脱扣,因此,紧急情况下不能顺利打开,造成汽包缺水。6.3 防范措施6.3.1 更换#3、#23 控制器主机板,同时考虑增加主机板的备品储备。6.3.2 增加通讯卡,使控制器与 I/O 卡之间的通讯为冗余的。6.3.3 对所有控制器、I/O 卡、BC 卡的通讯进行监测,增加脱网逻辑判断功能,生成报警点
17、并进行历史记录。一旦控制器工作异常,可及时报警并处理。6.3.4 增加控制器超温报警功能,在控制器出现故障之前可以采取措施,将事故消灭在萌芽之中。6.3.5 汽包水位等重要调节、保护系统的输入信号,一般应为三路相互独立的信号,通过分流器将这三路信号变成六路信号,分别进六块端子板和 AI 卡件,送入两对控制器,一对控制器用于调节、保护,另一对控制器只参与保护。这样可以很好地解决一对冗余的控制器同时故障时,重要保护失灵的问题。6.3.6 更换重要自动调节系统的执行机构,使之具有完善的操作功能。6.3.7 DCS 失灵时,若主要后备硬手操或监视仪表不能维持正常运行,运行人员应立即停机、停炉。6.3.
18、8 关闭 MIS 系统接口站中的所有硬盘共享功能,确保 DCS 系统同 MIS 系统只具备单向通讯功能。七、结 束 语以上案例只是在一定范围内发生的 DCS 故障的几个比较典型案例,即使将这些案例的反措全部应用到每套 DCS 中去,也不能避免 DCS 故障的再次发生。在更大范围内,由 DCS 故障引发的停机事件也不会太少,有些事件肯定会涉及到控制器负荷率高、网络通讯负荷率高等问题,由于目前还没有有效的手段监测控制器负荷率和网络通讯负荷率,找出这类事件的根本原因还有一定的难度,因此,消除这类缺陷也比较困难。要防止各类事故的发生,必须从源头-DCS 的设计和制造抓起,将国内应用的各种类型的 DCS 发生过的故障情况反馈到有关部门,由有关部门召集专家进行分析研究,制定出相应的标准、制度和反措,强制执行,并形成一个大的闭环质量控制体系,长期良性循环。