1、分类号密级UDC学位论文间歇工业过程的统计建模、在线监测和质量预测作者姓名指导导师姓名教授院长东北大学信息科学与工程学院教授香港科技大学化学工程系申请学位级别博士学科类别工学学科专业名称检测技术与自动化装置论文提交日期2004年7月论文答辩日期学位授予日期答辩委员会主席评阅人东北大学2004年7月ADISSERTATIONINMEASUREMENTTECHNOLOGYANDAUTOMATICINSTRUMENTMULTIVARIATESTATISTICALMODELING,ONLINEPROCESSMONITORINGANDQUALITYPREDICTIONFORBATCHPROCESSESB
2、YSUPERVISORPROF,PROFNORTHEASTERNUNIVERSITYJULY2004声明本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包括其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本人签名日期东北大学博士学位论文摘要I摘要为了迎合现代社会瞬息万变的市场需求,现代过程工业正逐渐倚重于生产小批量、多品种、高附加值产品的间歇过程。由于间歇过程固有的多变量、多工序、变量时变性、反应复杂、工序运行时间不确定;以及间歇过程产品市场
3、占有周期短等多种原因,以主成分分析PCA和偏最小二乘PLS为核心技术的基于过程数据的多变量统计建模方法逐渐成为一个重要的在线监测、故障诊断和质量改进的工具,用于保障生产过程的安全可靠运行以及连续稳定的产品质量。目前被广泛应用于间歇过程的多向主成分分析MPCA和多向偏最小二乘MPLS模型,将一次间歇操作的所有数据当作一个样本,虽然可以有效地监视过程的整体运行状况,却很难进一步分析间歇过程中每一个子操作阶段的数据特征。这使得基于MPCA的过程监测算法对幅值较小的故障不甚敏感,而在线的过程监测和质量预测算法在很大程度上依赖于对未来测量值预估的准确程度。本论文在深入研究间歇过程数据特征的基础上,重点研
4、究间歇过程的多操作阶段特性,结合PCA/PLS在处理高维、高度耦合数据上的优势,提出了一系列基于间歇过程子操作时段的统计建模、过程监测和质量预测算法1针对产生等长数据的间歇过程,研究过程变量相关关系随操作时间的变化特征,实现对间歇过程的子操作时段划分,并提出基于子时段的PCA建模和在线监测算法。2实际工业过程中,受各种因素的影响,间歇过程的每一次操作周期产生的过程数据长度并不完全相等。因此,针对不等长的间歇过程,提出了改进的间歇过程子时段划分和基于子时段的PCA建模和在线监测算法。3对于那些不容易在短期内获取理想建模数据的间歇过程,提出一种只需要一次正常的间歇操作数据就可以进行子时段划分的方法
5、,以及基于子时段PCA模型的在线监测算法;同时提出了一种模型更新策略,随着建模数据的增加逐渐完善模型以便实现准确可靠的过程监测和故障诊断。4根据多操作时段间歇过程的特点,将间歇过程的产品质量指标划分为“累积型”和“非累积型”两类。对于累积型质量,MPLS模型是比较理想东北大学博士学位论文摘要II的选择;而针对非累积型质量指标,本文提出基于子时段PLS模型的质量分析和在线质量预测方法。基于子时段的质量分析可以找出产品质量指标和特定子操作时段的关联关系,以及在特定子时段中影响产品质量的关键过程变量。基于子时段的在线质量预测方法不仅模型结构简单实用,而且精度可靠。这些算法不仅可以深入分析间歇过程子操
6、作时段的过程特征,为每个子时段建立简单实用的二维PCA/PLS模型,而且子时段PCA/PLS模型可以在线监视过程的运行状态或预测产品的质量而不需要未来的过程变量测量数据,这将极大程度地改进并简化了间歇过程的在线监测和质量预测程序。上述算法在注塑过程中所取得的成功应用证明了这些算法的有效性,可以成为其它间歇工业过程的一个可行的建模、监测和质量改进的工具。关键词间歇工业过程,过程监测、故障诊断,质量预测,主成分分析,偏最小二乘,注塑过程东北大学博士学位论文ABSTRACTIIIABSTRACTTHEFOCUSOFMANYINDUSTRIESHASNOWSHIFTEDTOTHEMANUFACTURI
7、NGOFHIGHERVALUEADDEDPRODUCTSTHATAREMAINLYPRODUCEDTHROUGHBATCHPROCESSESTOMEETTODAYSRAPIDLYCHANGINGMARKETDRIVENBYTHEINCREASINGNEEDTOREDUCEPRODUCTTOMARKETTIME,ANDDUETOTHEPROCESSHIGHDIMENSIONALITY,COMPLEXITY,BATCHTOBATCHVARIATION,THEDATABASEDMULTIVARIATEPROCESSMODELINGMETHODS,SUCHASPRINCIPALCOMPONENTANA
8、LYSISPCAANDPARTIALLEASTSQUARESPLS,HAVEBECOMEINCREASINGLYIMPORTANTONLINEMONITORINGTOOLSFORENSURINGPROCESSSAFETYANDPRODUCTQUALITYCONSISTENCYMULTIWAYPCAANDMULTIWAYPLS,THEMOSTPOPULARTOOLSFORBATCHPROCESSMONITORING,AREEFFECTIVEINDETERMININGWHETHERABATCHOPERATIONISNORMALORNOT,ASAPOSTOPERATIONANALYSISONLINE
9、PROCESSMONITORINGORQUALITYANALYSISBASEDONAMPCA/MPLSMODEL,HOWEVER,REQUIRESTHEPREDICTIONOFTHEUNAVAILABLEFUTUREPROCESSDATAINTHEEVOLVINGBATCH,WHICHCANSERIOUSLYAFFECTTHEPROMPTNESSANDACCURACYOFTHEMONITORINGANDQUALITYPREDICTIONINADDITION,THEMPCA/MPLSBASEDMETHODSAREILLSUITEDFORMULTISTAGEBATCHPROCESSESASTHEY
10、TAKETHEENTIREBATCHDATAASASINGLEOBJECT,MPCA/MPLSBASEDMETHODSHAVEDIFFICULTYTOREVEALTHECHANGESOFPROCESSCORRELATIONFROMSTAGETOSTAGE,ANDINSENSIVETOSMALLPROCESSSHIFTSCONSIDERINGTHATMULTIPLICITYOFOPERATIONSTAGEISANINHERENTNATUREOFMANYBATCHPROCESSES,EACHSTAGEHASITSOWNUNDERLYINGCHARACTERISTICS,ANDTHEOVERALLP
11、ROCESSCANEXHIBITSIGNIFICANTLYDIFFERENTBEHAVIORSOVERDIFFERENTOPERATIONSTAGES,THISTHESISISFOCUSEDONMULTIVARIATEMULTISTAGEBATCHPROCESSESASERIESOFSTAGEBASEDPROCESSMODELING,MONITORING,FAULTDIAGNOSISANDQUALITYPREDICTIONMETHODSHAVEBEENDEVELOPEDASFOLLOWS5FOREVENLENGTHBATCHPROCESSES,ASTAGEBASEDMODELINGANDONL
12、INEMONITORINGSCHEMEHASBEENDEVELOPEDBASEDONTHEFACTTHATCHANGESINTHEPROCESSCORRELATIONMAYRELATETOITS“OPERATION”STAGESDIVIDINGTHEPROCESSINTO“OPERATION”STAGESBYANALYZINGANDCLUSTERINGTHEPCALOADINGMATRICESANDCONSTRUCTINGSUBPCAMODELSFOREACHSTAGECANAPPLYTHECONVENTIONALTWOWAY东北大学博士学位论文ABSTRACTIVPCA“DIRECTLY”T
13、OABATCHPROCESS6BASEDONTHEABOVEMENTIONEDSTAGEBASEDMODELINGANDMONITORINGMETHOD,ANIMPROVEDMETHODWASDEVELOPEDFORTHEMONITORINGOFUNEVENLENGTHBATCHPROCESSES,WHERETHETOTALBATCHDURATIONANDDURATIONSOFVARIOUSOPERATIONSSTAGESWITHINTHEBATCHARENOTFIXEDINLENGTHBECAUSEOFCHANGESINOPERATIONCONDITIONORCONTROLOBJECTIVE
14、7ANEWBATCHMONITORINGMETHODWASPROPOSEDFORTHOSEPROCESSES,WHICHHAVEDIFFICULTIESINCOLLECTINGSUFFICIENTCYCLESINLIMITEDTIMETHEPROPOSEDMETHODUSEDASINGLEBATCHREFERENCEDATATOBUILDANINITIALMONITORINGMODEL,ANDUPDATEDTHEMODELWITHTHEACCUMULATIONOFNEWSUCCESSFULBATCHES8THEPRODUCTQUALITIESOFABATCHPROCESSCANBEDIVIDE
15、DINTOTWOTYPESCUMULATIVEANDNONCUMULATIVEMPLSMODELISTHEBESTCHOICETOANALYSISANDPREDICTTHECUMULATIVEQUALITYATTRIBUTESFORNONCUMULATIVEQUALITY,ASTAGEBASEDSUBPLSMODELINGMETHODISDEVELOPEDFOREXPLORINGTHERELATIONSHIPBETWEENPROCESSSTAGESANDQUALITYVARIATION,ANDFORFINDINGTHEKEYPROCESSVARIABLESTHATCAUSEDTHEMAJORI
16、TYOFQUALITYVARIATIONTHESEMETHODSCANNOTONLYOBTAINTHESUBTLEPROCESSINFORMATIONINEACHSTAGE,BUTDEVELOPATWOWAYSUBPCA/PLSMODELFOREASIERPROCESSINTERPRETATIONANDFAULTDIAGNOSISFUTHERMORE,THEYDONOTREQUIRETHEFUTUREPROCESSMEASUREMENTSFORONLINEPROCESSMONITORINGANDQUALITYPREDICTIONTHESUCCESSFULAPPLICATIONSTOINJECT
17、IONMOLDINGPROCESSSHOWTHATTHEPROPOSEDMETHODSAREEFFECTIVEANDMAYBETHEFEASIBLETOOLSFORBATCHMONITORINGANDQUALITYIMPROVEMENTOFOTHERINDUSTRIALBATCHPROCESSESKEYWORDSBATCHPROCESSES,PROCESSMONITORING,FAULTDIAGNOSIS,QUALITYPREDICTION,PRINCIPALCOMPONENTANALYSIS,PARITALLEASTSQUARES,INJECTIONMOLDINGPROCESS东北大学博士学
18、位论文目录V目录摘要IABSTRACTIII目录V第一章绪论111课题背景及意义112多变量统计过程监测及故障诊断4121数据的标准化处理4122主成分分析PCA和偏最小二乘PLS5123多变量统计过程监测9124基于变量贡献图的故障诊断11125PCA和PLS的衍生方法及其应用1213间歇过程的在线监测及故障诊断12131间歇过程的数据特点及标准化处理13132多向主成分分析(MPCA)及多向偏最小二乘(MPLS)16133基于MPCA的间歇过程统计分析和在线监测1814本文的主要工作20第二章基于间歇过程子操作时段的PCA建模和在线监测2321引言2322基于间歇过程子操作时段的PCA建模
19、24221基本思想24222间歇过程子操作时段的划分26223基于子操作时段的PCA建模2923基于间歇过程子操作时段的在线监测31231计算统计控制限31232基于子操作时段PCA模型的在线过程监测3124三水箱系统中的实验研究33241三水箱实验装置33242子时段划分、PCA模型及过程分析34243过程监测及故障诊断38东北大学博士学位论文目录VI25注塑过程中的应用研究43251注塑过程简介43252注塑过程子时段划分、建模及统计分析45253注塑过程的在线监测及故障诊断4826本章小结54第三章不等长间歇过程的子时段PCA建模和在线监测5531引言5532处理间歇过程不等长数据的常用
20、方法5633不等长间歇过程的子时段PCA建模和在线监测58331基本思想58332不等长间歇过程的数据标准化59333不等长间歇过程的子时段划分60334建立用于过程监测的子时段PCA模型63335在线过程监测和故障诊断6434注塑过程中的应用研究67341实验设计和建模数据67342不等长注塑过程的子时段划分和PCA建模69343不等长注塑过程的过程监测和故障诊断7235本章小结74第四章基于最少建模数据的子时段PCA建模和在线监测7841引言7842滑动窗口PCA建模方法79421滑动主成分分析79422间歇过程的滑动窗口PCA建模7943基于滑动窗口PCA模型的子时段建模和监测80431
21、建模数据及标准化81432子时段划分、PCA建模和在线监测82433子时段模型和控制限的更新84434两点讨论8544注塑过程中的应用研究87441建模数据87442实验结果分析8745本章小结88东北大学博士学位论文目录VII第五章间歇过程产品质量的统计分析和在线预测9151引言9152基于子时段PLS模型的质量分析92521间歇过程的子时段PLS建模93522计算PLS模型中潜变量的个数94523质量分析的辅助指标9653基于子时段PLS模型的在线质量预测9754注塑过程中的应用研究98541注塑过程的主要质量参数98542实验设计和建模数据100543质量分析结果与讨论102544离线和
22、在线质量预测的结果与分析10855本章小节109第六章结束语112参考文献115致谢128作者攻读博士学位期间完成论文130作者简介132东北大学博士学位论文第一章绪论19绪论11课题背景及意义为了适应现代社会瞬息万变的市场需求,现代过程工业正逐渐倚重于生产小批量、多品种、高附加值产品的间歇过程。半导体加工、制药过程、注塑过程、发酵过程等都属于典型的间歇过程,间歇过程的产品与现代人的生活息息相关。因此,间歇过程的安全可靠运行以及连续稳定的产品质量逐渐成为过程工业界的关注焦点;而同时,间歇过程建模、在线监测、故障诊断及质量控制也将成为科研人员一个迫切且必要的研究课题。间歇过程的主要特点是在有限的
23、时间内、以预先设计好的工序将原材料加工生产成符合质量要求的产品。虽然间歇过程的每一个操作周期都是严格按照设计好的流程进行,但是由于间歇过程固有的多变量、多工序、变量时变性、反应复杂、工序运行时间不确定;以及间歇过程产品的市场占有周期短等多种原因,过程工程师难以在很短的产品研发周期内,依靠有限的资金投入,建立精确可靠的机理模型或基于知识推理的专家模型。因此,基于机理模型或知识模型的过程监测、故障诊断和质量预测方法较难适用于间歇工业过程。另一方面,随着电子技术和计算机应用技术的飞速发展,现代工业过程大都具有完备、甚至冗余的传感测量装置,可以在线获得大量的过程数据,譬如压力、温度、流量等测量值。显然
24、,这些过程数据中含有关于生产过程运行状态以及可用于预测最终产品质量的有用信息。基于过程数据的统计监测方法1吸引了科研人员的广泛关注,譬如传统的休哈特SHEWHART控制图2,以及衍生而来的累积和控制图CUSUM3,4和指数加权滑动平均控制图EWMA等5。然而,由于缺乏有效的数据处理和信息提取的方法,传统的统计监测方法并没有广泛应用于多变量工业过程,尤其是间歇工业过程。工业过程中那些大量的、随手可得的测量数据,是一座座富含信息的金矿,却没有得到有效的发掘和利用。其中的主要难点在于10数据维数高。现代工业过程一般拥有几十至上百个测量变量,而且数据采集系统的采样速度以及工业计算机的运行速度也日新月异
25、的增长。这就意味着每一个间歇操作周期内,生产过程将产生成千上万的过程数据。高东北大学博士学位论文第一章绪论2维的过程数据使得传统的基于数据的建模方法受到严峻的挑战,在提取有用信息的同时尽可能地降低数据的维数已成为现代工业过程基于数据的建模方法的一个迫切要求。11测量变量之间的相关性。过程变量的外部特征决定于过程的内部运行机制。在自然界,事物总是相生相克、此消彼长、变化无穷。工业过程亦是如此,过程变量之间并非独立无关,而是遵从一定的运行机理体现出复杂的耦合关系。譬如注塑过程的保压段中,压力、速度和时间存在固定的关系压力越大,加压速度越慢而保压时间则越长。过程变量之间这种复杂的耦合关系同样也给传统
26、的过程监测方法带来极大的困扰。12变量测量值中的时序依存关系。和连续过程不同,间歇过程的一个显著特点就是过程时变性。这一特点亦决定了间歇过程的变量测量值中存在显著的自相关关系。这种自相关关系是多变量过程建模方法中需要考虑的因素。13测量噪声、3I数据问题。电子传感装置的输出信号容易受到外界噪音源的污染,比如交流电磁场、音波干扰等。基于数据的建模方法需要合适的信号提炼,突出测量数据中的系统性信息,屏蔽掉测量噪音的影响,这样才有可能建立准确的过程模型。另外,实际工业过程的测量数据通常存在3I问题,即不完整INCOMPLETE、不连续INCONSISTENT和不准确INACCURATE,3I数据问题
27、已经成为多变量工业过程的数据校正和数据协调领域一个关注焦点。上述问题困扰着基于测量数据的统计过程分析和建模方法,这种迟滞不前的状况一直持续到二十世纪80年代末,以主成分分析PRINCIPALCOMPONENTANALYSIS,PCA6,7和偏最小二乘法PARTIALLEASTSQUARES,PLS810等多变量投影技术为核心的多变量统计建模方法揭开了基于过程数据的统计过程监测、故障诊断及质量控制的新篇章。因为PCA和PLS只需要正常工况下的历史数据来建立模型而不需要过程的机理知识,同时PCA和PLS能够有效地剔除过程数据中的冗余信息、极大地降低数据维数,甚至可以将过程运行状态直接显示于二维的主
28、成分监视图中,这类方法越来越受到研究人员和现场工程师的亲睐。目前,基于这类多变量统计模型的过程监测、故障诊断、控制器设计、质量控制等算法层出不穷1162,并且已成功地应用到多个连续生产过程中6376。然而,PCA和PLS方法并不能直接应用于间歇工业过程,因为间歇过程的建东北大学博士学位论文第一章绪论3模数据通常是三维矩阵,间歇过程变量测量值的均值和方差随着操作时间不断变化,并且在不同的操作工序中显示出不同的变化特征。为了有效利用PCA和PLS等多变量投影方法在处理高维、高度耦合数据时的独特优势,我们有必要针对间歇过程的数据特征,将多变量统计过程建模方法扩展应用于间歇工业过程,并且在此基础上研究
29、面向间歇过程的基于多变量统计模型的在线监测、故障诊断及质量控制算法。目前,瑞典UMEA大学WOLD教授的科研组7779,美国MARYLAND大学MCAVOY教授的科研组8083、加拿大MCMASTER大学MACGREGOR教授的科研组8489,英国NEWCASTLE大学MORRIS和MARTIN的科研组9094、美国DUPOND公司的KOSANOVICH和PIOVOSO等95,96、荷兰AMSTERDAM大学SMILDE教授的科研组97107以及中国台湾CHUNGYUANCHRISTIAN大学的LIU和CHEN等人108111均已投入大量人力、物力和资源进行间歇过程的多变量统计建模算法及其工业
30、应用的研究工作,而国内在这一方向上的研究工作尚属起步阶段112117。在上述科研小组中,NOMIKOS和MACGREGOR于19941995年提出的基于多向主成分分析MULTIWAYPCA,MPCA和多向偏最小二乘MULTIWAYPLS,MPLS的间歇过程监测和质量预测算法8486和RNNARETAL于1998年提出的基于分层多模块PCA模型MULTIBLOCKHIERARCHICALPCA,MBPCA的自适应间歇过程监测算法118具有一定的代表性。但是,这两类方法仍有各自的不足之处。MULTIWAYPCA/PLS实际上是将一次间歇操作的所有过程数据折合成一个数据单元,当作一个数据样本,历史数
31、据库中不同间歇操作周期的数据构成整个样本空间而后进行PCA/PLS分析。这种方法可以成功地监测一次完整的间歇操作周期是否正常,但是基于MPCA/MPLS模型的在线过程监测和质量预测算法必须要预先估计出未来的过程测量值以便构造一个数据样本,这是因为一个间歇操作周期还未结束时我们是无法获得将来的过程变量测量值。因而,基于MPCA/MPLS模型的过程监测、故障诊断及质量预测算法很大程度上依赖于对未来测量值预估的准确程度。另一方面,因为MPCA/MPLS将一次间歇操作周期的所有数据当作一个整体对待,该模型不太适用于多操作阶段的间歇过程;而多操作阶段特性恰恰是间歇过程的一个显著特点。基于分层多模块PCA
32、模型的自适应过程监测算法则是将间歇过程的每一个采样时刻的过程数据当作一个子模块并建立相应的底层PCA模型,底层数据的东北大学博士学位论文第一章绪论4潜变量LATENTVARIABLE构成一个新数据模块并建立上层PCA模型即过程监测模型。模型的自适应性体现在根据当前采样时刻的底层PCA模型和前一采样时刻的上层PCA模型,建立当前时刻的上层PCA模型。这个方法虽然不需预估间歇操作周期中的未来测量值,但算法的计算量太大且鲁棒性较差;而且迭代过程中的累积误差将严重影响间歇操作后半段的过程模型的精度。其它一些间歇过程的监测方法大都是MPCA/MPLS模型在非线性、动态过程中的扩展应用,并没有根本解决上述
33、两类方法中存在的问题。面向间歇过程的多变量统计建模、监测、故障诊断及质量改进这一研究领域中仍有大量的空白和难题没有涉及和解决,因此,这一领域正成为科研工作者和过程工程师的巨大挑战,但也是难得的契机。一系列完善可行的间歇过程建模、监测、诊断和质量改进算法必将推动整个间歇工业过程的长足进步和繁荣发展,为社会提供高质量产品的同时,还可排除安全隐患、保障生命和财产、节约资源、保护环境,提供这些更加重要的无形的社会财富。12多变量统计过程监测及故障诊断统计过程监测的主要目标是快速准确地检测到生产过程中出现的异常工况,即过程偏离理想工作状态时的工况,偏离的幅值以及这种异常状态发生并延续的时间。基于统计方法
34、的故障诊断则是在监测程序发现过程异常状态时,根据过程测量值偏离正常状态的变化幅值和变化了的变量相关性,给出导致这一异常工况的主导过程变量。对生产过程的在线监测和诊断不仅可以为过程工程师提供有关过程运行状态的实时信息、排除安全隐患、保证产品质量;而且可以为生产过程的优化和产品质量的改进提供必要的指导和辅助。统计过程监测及故障诊断方法所依托的主要理论是以主成分分析PCA及偏最小二乘PLS为核心的多变量统计投影方法。下面将简略介绍PCA和PLS的主要原理以及基于PCA/PLS的统计过程监测方法中所涉及的若干问题。121数据的标准化处理数据标准化是基于过程数据的建模方法的一个重要环节。一个好的标准化方
35、法可以很大程度上突出过程变量之间的相关关系、去除过程中存在的一些非线潜变量是一种通称。主成分分析中的主成分、因子分析中的因子变量、典型相关分析中的典型变量等都属于潜变量的范畴。东北大学博士学位论文第一章绪论5性特性、剔除不同测量量纲对模型的影响、简化数据模型的结构。数据标准化通常包含两个步骤10数据的中心化处理和无量纲化处理。数据的中心化处理是指将数据进行平移变换,使得新坐标系下的数据和样本集合的重心重合。对于数据阵XNM,数据中心化的数学表示式如下,,1,1,1IJIJJJIJIXXXINJMXXN11其中,N是样本点个数,M是变量个数,I是样本点索引,J是变量索引。中心化处理既不会改变数据
36、点之间的相互位置,也不会改变变量间的相关性。过程变量测量值的量程差异很大,比如注塑过程中机桶温度的测量值往往在几百度左右,而螺杆位移的量程只有几个厘米。若对这些未经过任何处理的测量数据进行主成分分析,很显然在几百度附近变化的温度测量量左右着主成分的方向,而实际上这些温度变化了35C相对于其量程来说并不是很大的变化。在工程上,这类问题称为数据的假变异,并不能真正反映数据本身的方差结构。为了消除假变异现象,使每一个变量在数据模型中都具有同等的权重,数据预处理时常常将不同变量的方差归一实现无量纲化,如下式,,2,/1,1,11IJIJJJIJJXXSIIJJSXXI12在数据建模方法中,最常用的数据
37、标准化则是对数据同时作中心化和方差归一化处理,,1,1,IJJIJJXXXIIJJS13本文中所有二维建模数据,在未有特殊说明时,均经过式13的标准化方法预处理。另外,为了避免过多的符号标记,在不会混淆的基础上,后文中标准化的数据和原始测量数据用同样的标记符号。122主成分分析PCA和偏最小二乘PLS主成分分析是一种多变量统计方法,其主要思想是通过线性空间变换求取主成分变量,将高维数据空间投影到低维主成分空间。由于低维主成分空间可东北大学博士学位论文第一章绪论6以保留原始数据空间的大部分方差信息,并且主成分变量之间具有正交性,可以去除原数据空间的冗余信息,主成分分析逐渐成为一种有效的数据压缩和
38、信息提取方法,已在数据处理、模式识别、过程监测等领域得到了越来越广泛的应用。主成分分析的工作对象是一个二维数据阵XNM,N为数据样本的个数,M为过程变量的个数。经过主成分分析,矩阵X被分解为M个子空间的外积和,即11221MTTTTTJJMMJXTPTPTPTPTP14其中,JT是1N维得分SCORE向量,也称为主成分向量;JP为1M维负载LOADING向量,亦是主成分的投影方向;T和P则分别是主成分得分矩阵和负载矩阵。主成分得分向量之间是正交的,即对任何I和J,当IJ时满足0TIJTT。负载向量之间也是正交的,并且为了保证计算出来的主成分向量具有唯一性,每个负载向量的长度都被归一化,即IJ时
39、0TIJPP,IJ时1TIJPP。XNMN1MMTTMPN1M1T1TPENAAMNMTTP图11主成分分解示意图FIGURE11ILLUSTRATIONOFPRINCIPALCOMPONENTDECOMPOSITION公式14通常被称为矩阵X的主成分分解,1,TJJJMTP实际上是M个直交的主成分子空间,这些子空间的直和构成了原来的数据空间X,如图11所示。若将14等号两侧同时右乘JP,可以得到下式15,称之为主成分变换,也称作主成分投影,东北大学博士学位论文第一章绪论7JJXTXPTP15即,每一个主成分得分向量JT实际上是矩阵X在负载向量JP方向上的投影。在求取主成分的过程中,主成分得分
40、向量JT的内积,JT,实际上对应着X的协方差矩阵TXX的特征值J;而负载向量JP是J对应的特征向量。由于主成分得分需要满足长度递减约束,1TMT,即1M,这个约束使得每个主成分具有独特的统计意义。第一主成分提取了X最多的方差信息,第一负载向量1P则是矩阵X的最大方差变异方向;第二主成分提取了残差空间E中最多的方差信息,其中11TEXTP,第二负载向量2P则是X中方差变异第二大方向,依此类推。当矩阵X中的变量存在一定程度的线性相关时,X的方差信息实际上集中在前面几个主成分中;而最后的几个主成分的方差通常是由测量噪声引起的,完全可以忽略不计。因此,主成分分析具有了保留最大方差信息的同时显著降低数据
41、维数的功能。广泛应用于过程监测领域的主成分分析模型如下式所示,1ATTJJJTXPXTPEXXTP16其中,T和P的维数分别为NA和MA;A代表主成分模型中所保留的主成分个数;X由主成分得分和负载向量重构得到,可以说X是由主成分模型反推得到的原始数据X的系统性信息;E则为主成分模型的残差信息。有很多方法可以确定合适的主成分个数,其中主成分累计贡献率法和交叉检验法最为常用,详见参考文献7,119。另外,求取主成分负载向量的两种常见方法,一是数值方法奇异值分解(SVD);另一种迭代运算方法NIPALS算法,受篇幅限制本文也不作介绍,敬请参阅文献7。偏最小二乘的工作对象是两个数据阵XXNM和YYNM
42、,譬如工业过程中的过程变量和质量变量测量值,其中N是样本个数,XM是X的变量个数,YM是Y的变量个数。偏最小二乘的出现是为了解决传统的多变量回归方法在以下两个方面的不足东北大学博士学位论文第一章绪论814数据共线性问题。在第一节中曾提到,现代工业过程的测量变量之间存在一定程度的相关性,即变量和变量之间存在耦合关系。变量间的这种相关关系会导致预测矩阵的协方差矩阵TXX是一个病态矩阵,这将降低最小二乘回归方法中回归参数1TTXXXY的估计精度,从而造成回归模型的不稳定810,120。15小样本数据的回归建模,尤其是样本个数少于变量个数的情况9,10。一般统计参考书上介绍,普通回归建模方法要求样本点
43、数目是变量个数的两倍以上,而对于样本点个数小于变量个数的情况则无能为力。偏最小二乘相当于多变量回归、主成分分析和典型相关分析三者的有机结合,它能够有效解决上面提到的两个问题,同时可以实现回归建模、数据结构简化和两组变量间的相关分析,给多变量数据分析带来极大的便利10。偏最小二乘模型包括外部关系(类似于X和Y矩阵分别进行主成分分解)和内部关系(类似于X和Y的潜变量之间实现最小二乘回归建模),外部关系11ATTAAAATTAAAXTPEEYUQFFTPUQ17内部关系AAABUT18其中/TTAAAAABTUTT,是X空间潜变量T和Y空间潜变量U的内部回归系数。但是,偏最小二乘并不等于“对X和Y分
44、别进行主成分分析,然后建立T和U之间的最小方差回归关系”,而是要求T和U抽取X和Y最大方差信息的同时,保证T和U最大程度的相关。因此,PLS算法中,向量T和U通常被称为潜变量,而不是主成分。PLS的具体运算方法(奇异值分解,NIPALS和KERNELPLS算法)以及常用的确定潜变量个数的方法详见文献810,30,118。东北大学博士学位论文第一章绪论9123多变量统计过程监测经过主成分分析,原始数据空间被分解为两个直交的子空间由向量12,APPP张成的主成分子空间和由1,AMPP张成的残差子空间。用所得到的PCA模型16式在线监测过程的运行状态时,新测量数据,1,MXXX,将被投影到主成分子空
45、间,其主成分得分和残差量由下式可得,TTTPPPPIPPTXXTXEXXX19基于PCA的多变量过程监测实际上是通过监视两个多元统计量,主成分子空间的HOTELLING2T和残差子空间的Q统计量,以获取整个生产过程运行状况的实时信息56。2T统计量定义如下,2211ATAAATTSTT110其中1,ATTT为式19计算得到的主成分得分向量,对角矩阵1,ASDIAG是由建模数据集X的协方差矩阵TXX的前A个特征值所构成。当建模数据X经过标准化预处理后,即标准化为变量均值为0方差为1后,式110可改写成,221ATAATTTT111显然,2T统计量是由A个主成分得分共同构成的一个多变量指标;通过监
46、视2T控制图可以实现对多个主成分同时进行监控,进而可以判断整个过程的运行状态。Q统计量,也称之为预测误差平方和指标SQUAREDPREDICTIONERROR,SPE,是测量值偏离主成分模型的距离,定义如下,21MTJJJSPEXXEE112当生产过程处于被控状态INCONTROL时,由正常工况下采集的过程数据建立的PCA模型能够很好地解释当前的过程变量测量值之间的相关关系,并能够得到受控的2T和SPE指标。反之,为了客观地判断过程是否出现异常,即当前东北大学博士学位论文第一章绪论102T和SPE统计量是否不再满足正常操作条件下的两个统计量的统计分布,我们需要用建模数据来确定过程正常运行状态下
47、的统计控制限。2T统计量的控制限可以利用F分布按下式计算7,56,2,1ANAANTFNA113其中N为建模数据的样本个数,A为主成分模型中保留的主成分个数,为显著性水平,在自由度为A,NA条件下的F分布临界值可由统计表中查到。残差空间中Q统计量的控制限可由下式计算7,56,121,012202001211211HCHHHQ1141130221,2,3213MIIJJAIH其中C是正态分布在显著性水平下的临界值,J为协方差矩阵TXX较小的几个特征根。基于PCA的过程建模及在线监测的步骤总结如下16采集正常操作工况下过程数据XNM,并将之标准化成变量均值为0方差为1;17对X进行主成分分解,并确
48、定模型中保留的主成分个数A,得到主成分模型16;18计算建模数据X中每个样本的主成分和残差,估计2T和SPE统计量的控制限;19对于在线采集的过程数据,由模型19计算其主成分和残差;20计算新数据的2T和SPE指标;21若任一指标超出正常操作区域的控制限,监测程序告警提示异常工况的出现。东北大学博士学位论文第一章绪论11124基于变量贡献图的故障诊断当多元统计指标2T和SPE超出了正常的控制限,监测程序可以给出警告,提示过程出现了异常操作状况,但是却不能提供发生异常状况的原因。贡献图CONTRIBUTIONPLOT123,作为一种故障诊断的辅助工具,能够从异常的2T和SPE统计量中找到那些导致
49、过程异常的过程变量,实现简单的故障隔离和故障原因诊断的功能。针对主成分和残差子空间的两个统计量,有两种贡献图可用于故障诊断2T贡献图和SPE贡献图。2T的定义式111可展开如下,222212ATTTT第A个主成分AT对2T的贡献可简单地定义为,221,AATTCAAT115而过程变量JX对第A个主成分的贡献可由主成分得分的定义式反推,即1,1,1,AMAAMJJAJMAPTXXXPPXP因此,JX对AT的贡献率定义为,,1,1,AJJJATXAXPCAAJMT116SPE贡献图要比2T贡献图更简单直观,根据SPE统计量的定义112,每个过程变量对SPE的贡献为,2,JJJSPEXJJXXCSIGNXXSPE117其中JJSIGNXX用来提取残差的正负信息。实际应用贡献图时,可以将116和117得到的变量贡献率向量标准化为模长为1的向量,然后用柱