1、生活用纸纤维原生状态识别程序的界面设计和算法改进何智恒 1 柴欣生 1,2 陈春霞 2 陈润权 2 刘道恒 1( 1华南理工大学制浆造纸工程国家重点实验室,广东 广州 510640;2国家纸制品质量监督检验中心,广东 东莞 523080)摘要:基于 PCA-BP 神经网络(Principal Component Analysis-Back Propagation Neural Network)的算法,采用 LabView 编写了程序界面交互友好的操作软件系统,用于对生活用纸的纤维原生状态识别。界面设计主要赋予了程序简便操作,人机友好的特点;在算法中通过引入国质检总局提供的条件判定方法对前期的纤
2、维原生状态识别模型进行了改进。结果表明,程序界面具有清晰简洁、交互友好、可操作性强的特点,可对处于模糊区域的样品的纤维原生状态进行准确的识别。本程序对于市售卫生纸使用的安全性,防止假冒伪劣和制假售假,具有重要的意义。关键词:界面设计;主成分分析;BP 神经网络;纤维原生状态中图分类号:TS721 文献标识码: A 文章编号: 1671-4571(2018)04-DOI: 10.19696/j.issn1671-4571. 2018.4.001引文格式:何智恒, 柴欣生, 陈春霞等. 生活用纸纤维原生状态识别程序的界面设计和算法改进J. 造纸科学与技术, 2018,37(4):.何智恒 先生In
3、terface Design and Algorithm Improvement of Fibers Original State Identification Program for Tissue PaperHE Zhi-heng1 CHAI Xin-sheng1,2 CHEN Chun-xia2 CHEN Run-quan2 LIU Dao-heng1,*作者简介:何智恒,生于 1995 年,学士,在读硕士生,主要从事制浆造纸检测设备的开发与应用研究。通讯作者:刘道恒,男,生于 1973 年,本科,工程师,主要从事制浆造纸检测设备的开发与应用研究。Email:基金项目:制浆造纸工程国家重点
4、实验室开放基金项目(201779) 。(1. State Key Laboratory of Pulp and Paper Engineering, South China University of Technology, Guangzhou 510640, China; 2. National Paper Products Quality Supervision Inspection Center, Dongguan 523080, China)Abstract: Based on the algorithm of PCA-BP neural network (Principal Comp
5、onent Analysis-Back Propagation Neural Network), a program-interactive friendly operation software system was programmed by LabView to identify the fibers original state of tissue paper. The interface design mainly provides the advantages of concise operation and friendly interaction between the com
6、puter and operator. The conditional identification rule from the National Quality Inspection Center is integrated in the algorithm to improve the performance of the identification model. The results show that the program interface is clear and concise, with friendly interaction and strong operabilit
7、y. It can accurately identify the fibers original state of the sample in the fuzzy area. This procedure is of great significance for the safety of tissue paper on the market and prevention of counterfeiting.Key words: interface design; principal component analysis; back-propagation neural network; f
8、iber original state0 引言随着经济的发展和人们生活水平的提高,对于生活用纸的需求越来越大。为了节约造纸原材料和降低生产成本,世界各国都积极鼓励对回收废纸纤维在造纸中的利用,如:用于包装的瓦楞纸中的主要原料就是废纸的回收纤维 1。然而,由于回收纤维不可避免地携带了残余油墨、荧光增白剂等增强剂等残余化学品 2,3,其与人体皮肤接触或被摄入体内会对使用者的健康造成伤害。据此,我国有关部门已制定了一些相应的规范,禁止某些纸品(主要是与人体皮肤直接接触的卫生用纸)中使用回收纤维。然而,鉴于一些企业生产工艺的不规范,或部分不良商家为了节约成本而有意在卫生用纸生产中掺杂回收纤维,使得一些
9、不符合国家标准的产品流入市场,对消费者(特别是儿童)人体健康构成威胁。因此,建立一种快速有效识别卫生用纸纤维原生状态的方法和技术是非常重要的。 关于卫生用纸纤维原生态的识别,传统方法是检测纸品中是否存在填料、涂料、荧光性纤维和 4 种以上的纤维原料等 4。但在生活用纸生产当中由于原料或是工艺条件等因素,可能无意地给产品引入细微程度的污染。而传统的检测方法很难区别有意掺杂少量回收纤维所生产的生活用纸和原生浆卫生纸生产工艺中无意引入之间的差异,而且决定纤维原生状态的影响因素众多,各因素之间的耦合关系复杂。为了在卫生用纸纤维原生态的识别中得到更客观的结果,国家质检总局设立了打击假冒伪劣和打击制假售假
10、的公益性行业科研专项,其中就规定了用于纤维原生状态识别的变量(即:灰分含量、有效残余油墨量、帚化率、有无荧光性物质、有无黄色机械浆纤维染色反应、有无非木纤维等)和判断的基本原则,即:通过以上变量的各种复杂组合的构成,来确定卫生用纸纤维的原生状态,如:掺有荧光性物质的卫生纸,其根据有效残余油墨量小于 10 ppm、 1020 ppm 之间、大于 20 ppm 这 3 种不同情况可能存在不同的原生状态。由此可见,即使有了上述的变量和判断原则,在变量较多、变量的各种组合的情况下,仅通过我们人脑来完成确定卫生用纸纤维原生状态的过程是繁琐复杂的,且容易造成判断失误。为了克服这一困难,我们在前期的工作中提
11、出了借助统计学多变量分析的方法(如:主成分分析 5、神经网络 6等) ,实现对纤维原生状态的进行识别。结果表明,采用以统计学为基础的主成分分析和 BP 神经网络结合的方法,能够对卫生用纸中纤维原生状态进行很好的识别。然而,上述的研究都是借助于统计学的商业软件实现的,需要专业的人员才能进行方法的建模和操作,不易在相关的产品质量监督和监测部门普及推广。因此,为了方便该方法的实际应用,在计算机上实现核心算法的集成、开发人机友好的程序界面和方便简洁的操作软件系统,是十分必要的。我们基于前期的主成分分析和 BP 神经网络,采用 LabVIEW 图形化编程软件编写程序,编译了便于理解操作的卫生用纸原生态识
12、别软件。研究的主要焦点是:完成编译的程序将略去复杂算法的大量运算,并融合国家质检总局提出的条件判定方法;实现本文纤维原生状态识别方法的可视化和提供给操作者一个清晰简便的操作界面;对前期的主成分分析和 BP 神经网络结合的模型进行改进,提高处于原生纤维和回收纤维分类边界数据点识别的可靠性。1 实验部分1.1样品数据预处理本文共采用了 143 个卫生用纸样品,大部分来自于国内维达、太阳、金红叶等不同厂家,其中包括 114 个原生纤维样品数据和 29 个回收纤维样品数据。本文从 143 个样品中随机抽取 15 个样品作为测试集,剩余 128 个样品作为训练集。1.2检测指标的选择根据国家纸制品质量监
13、督检测中心提供的生活用纸纤维原生状态识别方法,本文选择了 9 个变量(D65 亮度、D65 荧光亮度、有效残余油墨量、帚化率、灰分、抄纸方法、是否有黄色机械浆纤维染色反应、是否有荧光性物质、是否有非木纤维)作为识别纤维原生状态的检测指标。1.3模型建立表 1 主成分分析各指标间的相关系数矩阵D65 亮度D65 荧光亮度残余油墨量 帚化率 抄纸方法染色反应D65 白度 1 D65 荧光亮度 -0.402 1 残余油墨量 -0.813 0.497 1 帚化率 -0.086 0.545 0.247 1 抄纸方法 -0.494 0.303 0.321 -0.277 1 染色反应 -0.466 0.89
14、9 0.553 0.577 0.433 1*染色反应指是否有黄色机械浆纤维染色反应。表 2 各主成分特征值、贡献率、累计贡献率主成分 F1 F2 F3 F4 F5 F6特征值 3.27 1.48 0.78 0.25 0.15 0.06贡献率/% 54.50 24.67 13.00 4.17 2.50 1.16累计贡献率 % 54.50 79.17 92.17 96.34 98.94 100由表 1、表 2 可以看出多个检测指标之间存在较大的相关性,且前 3 个主成分的累计贡献率大于 90%,因此需要对检测指标进行降维处理,取前 3 个主成分代替原有的 6 个检测指标。本文采用 matlab 数
15、学软件进行数据分析处理和模型的初步建立,使用主成分分析(Principal Component Analysis,PCA)从以下 6 个检测指标(D65 亮度、D65 荧光亮度、有效残余油墨量、帚化率、抄纸方法、是否有黄色机械浆纤维染色反应)中选择出最适当的几个主成分对训练集数据降维,然后将处理后的训练集数据输入至 BP 神经网络 7中进行训练,并使用训练好的模型对预测集作出预测,接着采用条件判定方法辅助识别处于分类边界的数据点,最后得出最终识别结果。神经网络采用 3 层结构,在输入层和隐含层之间选取 logsig 传递函数,隐含层采用 11 个神经元,隐含层和输出层之间选取 purelin
16、传递函数。采用 Levenberg-Marquardt 自适应学习率算法的 trainlm 作为训练函数。最大训练次数 20000 次,学习速率为 0.01,目标误差为 0.001。最后用条件判定方法对所有指标的值进行验证。1.4界面开发设计采用 LabVIEW 图形编程软件对纤维原生状态识别程序进行算法的编写和界面的开发设计,把繁琐的算法隐含在程序的底层,略去数据处理的过程,获得直观的识别结果,使复杂的识别方法可视化,以达到方便操作、友好交互、快速准确的目的。2 结果与讨论2.1生活用纸纤维原生态识别程序界面的设计根据用户特定的需求和操作使用的方便性,对生活用纸纤维原生状态识别程序界面的设计
17、需考虑识别的准确性、操作的简便性、界面的可读性,其主要设计思想由图 1 所示。图 1 界面设计思想本文以“输入 输出” 的简单思路作为界面设计的主要指导思想,目的是达到操作者输入,根据程序提示经过简单几步操作直接得到输出结果的目的。图2 是由 LabView 设计开发的生活用纸原生状态识别程序界面,其中, (a) 、 (b) 、(c)分别为测量数据输入界面、数据库输入界面、结果显示界面。本文在输入数据和结果显示界面以表格形式显示数据,可以让操作者清晰具体地看到所有测试数据的详细信息和对应的识别结果,方便不同数据之间进行对比。在数据库载入界面,特别设计了“默认数据库” 和“更新数据库”两种模式:
18、默认数据库使用已经训练保存好的模型,直接经过简单矩阵运算得出判定结果;更新数据库可以通过右边 BP 神经网络自行训练模型;其次,训练误差图可以让操作者自行设定训练的次数以达到调整训练时间的目的,误差值还能直观地反映出训练好的模型对于普遍数据的适应性;在此界面还在程序底层嵌入了主成分分析、BP 神经网络和条件判定方法 3 种算法。(a )(b)(c )图 2 界面设计的实例在开发生活用纸纤维原生状态识别程序界面过程中,特别地将复杂算法加以包装和修饰,隐含在程序底层,而操作者的使用界面通俗易懂,操作者只需要拥有基础的计算机操作知识,就能够通过简单地输入数据,快速得到识别结果,大大提高了纤维原生状态
19、的识别效率。2.2识别模型设计的技术路线鉴于传统生活用纸纤维原生状态识别方法运用时的复杂性和不准确性,我们采用了统计学的主成分分析、BP 神经网络算法,再配合条件判定方法进行模型技术路线设计。识别模型技术路线的设计有如下几个方面的考虑,即:原始数据先经过主成分分析、BP 神经网络两种机器学习算法,再对处于分类边界的可疑点进行多级条件结构判定,最后得到纤维原生状态的识别结果,详细的过程如图 3 所示。图 3 模型结构该设计可以使模型整体类似一个“多级条件结构” ,使数据在每一级进行一次“是”或“否 ”的条件判定,然后进入下一级,依此类推,最后得到识别结果。这样的判定流程方法清晰明了、简单易懂,方
20、便以后改进,如果需要添加新的检测指标,只需再添加一级或多级条件结构就能满足要求,而且条件结构能够给出极为明确的判定边界,对于识别处于分类边界的可疑点效果非常理想。2.3 前期识别模型的算法的缺点和改进在前期的工作中,我们建立的主成分分析和 BP 神经网络模型在实际应用 8后结果反映,对于大部分纤维样品数据点都能准确识别,但是该模型依然存在有两个缺陷:神经网络训练时间较长;模型对大多数的样品表现出较好预测效果,但是并没有考虑到数据处于分类边界的情况,当数据点处于原生纤维和回收纤维分类边界时,仍存在可能误判的情况,如图 4 所示,测试集中有一个数据点处于原生纤维和回收纤维的交界处,PCA 聚类分析
21、可能会对此类边界样品点作出误判。这是因为数据库本身并不能涵盖任何情况,其次 BP 神经网络权重随机初始化的不确定性和训练步数不足够大也会给模型的判定带了一定的误差。虽然可以通过增加步数来避免判断不一致的问题,并通过庞大的数据来尽可能涵盖任何情况,但是,这样会大大延长模型和程序运算时间,也会使识别效率降低。图 4 主成分分析得分图针对上述神经网络训练时间较长的缺陷,本文对算法作出改进如下:1.BP神经网络不再使用固定的训练学习率,而是采用自适应的学习率。自适应学习率可以使神经网络训练时自行调整训练速度:一开始的误差较大,训练速度可以加快,当训练次数增加后,误差接近目标值时,训练速度需要减慢,以保证准确度,因此改进后的 BP 神经网络在不牺牲准确率的前提下,将比前期的模