1、收稿日期:2012-10-31; 基金项目:国家自然科学基金资助项目(10974130) ;陕西省自然科学基金资助项目(2012JM1005)第一作者:李璟民,男,硕士研究生,主要研究方向为数字信号处理、模式识别. E-mail:li_*通讯作者:郭敏,女,教授,博士研究生导师,主要从事数字信号处理及模式识别研究. E-mail: 基于二叉树支持向量机的小麦碰撞声分类研究李 四, 张三丰 *(陕西师范大学 物理学与信息技术学院,陕西 西安 710062)摘 要:小麦颗粒存在虫害、霉变和发芽问题,为了实现小麦颗粒的自动分类,采用二叉树和支持向量机相结合方法对小麦碰撞声进行识别分类。首先从时域和频
2、域对小麦碰撞声信号进行分析和处理,提取信号特征,然后利用二叉树支持向量机分类器进行分类,对小麦完好粒、虫害粒、霉变粒和发芽粒4 类麦粒的识别均达到 84.0%以上。实验结果表明,该项研究具有较强的实用价值,为小麦的自动识别分类提供了一种可行方法。关键词:小麦碰撞声;二叉树;支持向量机;识别分类中图分类号:TP391.42 文献标志码:A PACS: Study on the classification of wheat impact acoustic signalsbased on binary tree SVMLi Si, Zhang Sanfeng*( College of Physic
3、s and Information Technology, Shaanxi Normal University, Xian 710062, Shaanxi, China)Abstract: Several problems exist in wheat kernels such as insect infestation, mold-damaged kernel and sprout-damaged kernel. In order to sort the wheat kernels into different types automatically, a novel approach wh
4、ich integrates binary tree and support vector machine (SVM) is proposed to discriminate between four different types of wheat kernels by impact acoustic signals. At first, the impact acoustic signals were analyzed and potential features were exacted from them in both time and frequency domains. Then
5、 the SVM based on binary tree was used for pattern recognition. Detection accuracy rates of the presented system for undamaged kernel, insect damage, moldy and sprout damage were above 84.0%. The experimental results show that our research has a high value on application and provides a feasible meth
6、od for automatic classification of wheat kernels.Key words: wheat impact acoustic signals; binary tree; support vector machine 注意:1 摘要的撰写:摘要内容(200 字左右),不要论及论文的基础和背景知识;直奔目的、方法、结果、结论;不要进行自我评价。目的本研究要达到的核心目标。方法所用的原理、理论、条件、对象、材料、工艺、结构、手段、装备、程序等。结果实验的、研究的最重要结果和数据,被确定的关系等。结论结果的分析和意义。2 中图分类号需准确。3 作者信息完整(见页脚
7、) 。4 收稿日期即是本文首次投稿日期(见投稿平台)5 英文摘要需语句通顺,可参考同领域的英文文献。6 全文请单栏排版。引言小麦受储藏方式的影响,容易发生霉变、发芽和虫害现象,严重影响储藏小麦的品级,有效地检测和防治工作显得尤为重要。常用的检测方法包括光学技术检测法、机械技术检测法、电子技术检测法等,但是这些检测方法存在劳动强度大,费用高的缺点 1-2。因此,利用电子计算机将声学技术与模式识别技术相结合,实现高效率、低成本的储粮自动检测成为该领域研究的热点。2001 年,Pearson 提出利用碰撞声发射方法检测开心果的开口情况,碰撞声检测系统首先采集开心果的碰撞声信号,然后对声信号进行时频域
8、特征提取,采用线性判别分析方法筛选未开口的开心果,其吞吐量约为 40颗/秒,分类准确率接近 97.0% 3。2005 年,Pearson 等利用碰撞声检测小麦的完好性,通过对声音信号时域和频域的分析处理,成功地实现了小麦完好粒和虫害粒(Insect Damaged Kernel, IDK)的分类,完好粒的正确识别率为 98.0%,IDK 的正确识别率为 87.0% 4。2006 年, Onaran 等利用碰撞声检测系统采集榛子的碰撞声,提取信号的时域最大幅值和线性谱频率,采用支持向量机(Support Vector Machines, SVM)进行分类,成功的从发育完好的榛子中筛选出未完全发育
9、的榛子,分类准确率达 97.0%5。2011 年,Omid 开发了基于专家系统的碰撞声分类器,采用 J4.8 决策树从开心果碰撞声信号中选择最优分类统计特征,形成 IF-THEN 规则,然后利用模糊逻辑分类器,分类准确率为 95.56%6。2011 年,Hosainpour 等设计了土豆和泥块的智能分拣系统,提取碰撞声的时频特征,利用多层 BP 神经网络,实现土豆和泥块的自动识别、分类,吞吐量可达到 20 吨/ 小时,且成功分类比例达 97.0%7。2012 年,Khalesi 等利用碰撞声检测两种类型的胡桃,采集到的声信号进行时频特征提取,PCA 特征向量降维处理后,采用多层前馈神经网络进行
10、分类,识别准确率分别为 96.56%和 99.64%8。从以上研究成果可以看出,利用碰撞声检测法可以实现农产品颗粒的品级检测与自动分类,且具有较高的识别率。本文采用二叉树和支持向量机相结合的方法对小麦碰撞声进行识别分类,首先选取小麦完好粒、IDK、霉变粒和发芽粒样本各 300 粒,采集碰撞声信号,从时域和频域对碰撞声信号进行分析和处理,提取信号特征,设计二叉树支持向量机分类器进行分类,较好地实现对小麦完好粒、IDK、霉变粒和发芽粒 4 类麦粒的识别,为小麦的自动分类提供了一种新方法。注意:引言应概述前人在该领域所作的相关工作,并提出进行本研究的动机。指出论文研究工作与他人的异同、重点及其在哪些
11、方面取得成果和突破。1 支持向量机原理支持向量机是以统计学习理论为基础,针对有限样本的一种通用学习方法,能有效解决小样本、高维数、非线性等问题。支持向量机基于结构风险最小原理,利用最大化分类边界的思想,寻求最优超平面解决线性可分情况下的模式识别问题 9-10。而对于线性不可分情况,则又通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而在高维特征空间采用线性分析方法进行问题求解。设给定的训练集为(x 1, y1 ), ., (xk, yk),其中 xk Rn, yk -1,1,k 为训练样本总数,n 为模式空间的维数,x 为训练样本,y 为样本的类标。如果第
12、 i 个样本 xi 属于第 1 类,则 yi =1,如果 xi 属于第 2 类,则 yi = -1。支持向量机就是要寻找一个满足要求的超平面 wx+b =0 (w 为分割平面的法向量,b 为分割平面的偏移量),使得训练集中的正类输入和负类输入分别位于该超平面的两侧,既能把训练集中的数据正确分类,又能使分类后的数据集的间隔尽可能最大。用数学模型描述如下:. (1) 21min()kicw注意:公式公式若在文中叙述常用请连续编号,并且公式末尾要有标点符号。其中,C 为惩罚因子,它用来控制错分样本惩罚的程度。 对于非线性 SVM,则可根据泛函的有关理论,设计一种满足 Mercer 条件的核函数,将原
13、始线性不可分样本据映射到某一高维特征空间,在特征空间运用内积函数实现线性不可分数据集的分类。假设利用核函数 K(xiyi)=(xi)(yi)把原始数据映射到高维特征空间,那么特征空间的核函数 SVM 为:. (2) 11ma()2kkiijjQayKix通过对式(2)问题的求解,可得到最终判别函数为:. (3) *1()sgn()kiif bx注意: 表示向量和矩阵的符号用黑斜体2 材料与方法 2.1 实验装置实验装置如图 1 所示,主要由计算机、麦克风和不锈钢板组成。不锈钢板大小为 24cm11cm0.06cm 且与水平成 30的夹角,钢板尺寸和安装角度的合适选择可使钢板震动干扰声降到最低。
14、当麦粒从钢板正上方 50cm下落时,用型号舒尔 BG 4.1 高灵敏麦克风采集麦粒碰撞50cm123451 P C2 不锈钢板3 麦克风4 隔音箱5 麦粒图 1. 小麦碰撞声采集装置Fig.1 Schematic of experimental apparatus of collecting impact acoustics from wheat kernels注意:图应有中英文图题钢盘产生的碰撞声信号,并将声信号传送至装有 MAYA44 声卡的计算机,进行数字化处理,采样频率为 48 000Hz。对采集的碰撞声信号进行分析处理,分别提取声信号时域和频域统计特征参量,然后使用二叉树 SVM分类
15、识别,实验流程如图 2 所示。碰撞声采集预处理特征提取特征向量集决策树S V M分类器计算识别率时域特征频域特征图 2. 实验流程图Fig.2 Flow process diagram of the experimental method2.2 特征提取本文选取小麦完好粒、IDK、霉变粒和发芽粒各 300 粒用于实验。IDK 的害虫洞穴改变了麦粒的结构;受到真菌感染的麦粒,会使胚乳多孔,麦粒收缩,重量减轻;而小麦发芽会使淀粉转化为糖,伴随着幼芽的出现,麦粒会裂开,这些物理结构上的不同,导致碰撞声信号的不同,由此认为,通过分析碰撞声信号可以区别 4 种类型的麦粒,实现受损粒与完好粒的分拣。2.2
16、.1 时域特征提取1) 最大幅值小麦碰撞声信号的幅值和麦粒本身的物理结构密切相关,物理结构上的不同导致小麦碰撞声信号强弱不同,直接表现在信号振幅上的波动,由此得知,最大幅值是麦粒类别的一个重要特征。2)幅值总和每一类小麦碰撞声信号的幅值总和是不同的。经反复实验,从最大幅值前第 50 个开始连续取 250 个采样点作为统计区间,计算这 250 个采样点碰撞声信号在时域所对应的幅值总和。3)峰度 峰度系数是用来刻画信号分布密度曲线的陡峭程度。 所 以 在 小 麦 碰 撞 声 信 号 的 统 计 区 间 上 , 通 过 峰 度 系数 就 可 以 反 映 不 同 类 型 小 麦 碰 撞 声 信 号 在
17、 时 域 空 间 分 布 密 度 曲 线 的 变 化 快 慢 。4) 偏 度偏度系数是用来刻画信号取值关于均值的对称程度。可以度量时域空间上不同类型小麦碰撞声信号在曲线对称性上存在的差异。5) 方 差方 差 刻 画 了 信 号 观 测 值 相 对 于 其 均 值 的 离 散 程 度 。若小麦碰撞声信号的取值比较集中则方差较小;反之,则方差较大。以上各参数的计 算 公 式 如 表 1 所 示 。如 上 的 5 个 碰 撞 声 音 信 号 特 征 参 数 的 具 体 计 算 公 式 见 表 1。表1. 碰撞声音信号特征参数计算公式Tab. 1 Extracting features from im
18、pact acoustic signal特征参数 计算公式最大幅值 max()Mn幅值总和 ()1NSui峰度 4()2xnXKrtVar偏度 ()31()NSkewnr方差 22()xxVar注:其中,n =1,2,3,为采样点,N为统计区间采样点的个数,本文实验中N取250,x(n)为实验过程中采集的小麦碰撞声信号第n个采样点所对应的时域幅值, 表示统计区间内x(n)的平均值。X注意:表采用三线表,并且要有中英文表题,表注不需要英文。2.2.2 频域特征提取采用直接谱估计 Bartlett 法,快速傅里叶变换的点数为 1024,采样频率为 48 000Hz,窗函数采用汉宁窗,长度为 102
19、4。典型的完好粒、IDK、霉变粒和发芽粒相对功率谱如图 3 所示。可以看出,4 类碰撞声信号的功率谱曲线整体走势不同,能量的分布存在明显差异,所以在频域提取功率谱最大能量值及其对应频率作为碰撞声信号识别特征。0 0.5 1 1.5 2 2.5x 104-90-80-70-60-50-40-30频 率 /Hz相对功率谱幅值 /dBa0 0.5 1 1.5 2 2.5x 104-90-80-70-60-50-40-30频 率 /Hz相对功率谱幅值 /dBb图 3. 2 类麦粒的相对功率谱Fig.3 The relative power spectral estimated for two diff
20、erent types of wheat kernel impact acousticsa.完好粒; b.IDK;注意:子图用 a、b 区分,并且图线需清晰,照片需要较好的分辨率。图中的坐标名尽量用中文表示。本刊采用黑白印刷,故请将彩色图片转化为灰度图,并且在图中和文中不要用彩色去区分图中的各种线条。略下两图为图线和照片的例子.图 3.(a)对应不同势垒宽度时的能级分裂,(b)波矢量差随入射电子能量的变化Fig.3. (a) The energy level splittings corresponding to different barrier widths. (b) The electr
21、on energies dependence of difference of wave vectors.图 3 PEG-4000 不同添加量时所得产物的 SEM 图Fig.3 SEM images of samples with different addition of PEG(Mw=4000).PEG-4000 添加量分别为:a. 0 mmol; b. 0.1 mmol; c. 0.2 mmol; d. 0.3 mmol.3 分类和结果 3.1 SVM 参数的设置根据支持向量机原理可知,支持向量机分类器性能的优劣依赖于核函数、惩罚参数和特征参数的选取。不同的核函数对应不同的算法,必定产生
22、不同的支持点和分类面,最终对分类结果产生很大的影响。本实验使用的核函数主要有:(1)多项式函数(poly ),(2)权重径向基函数(htrbf)。在分类器 SVM 惩罚参数 C 确定的情况下,首先预先假定其中两个子分类器 SVM 的核函数,然后对第三个子分类器 SVM 选择不同的核函数,得到不同的正确识别率,选择获得识别率最高的核函数作为该子分类器 SVM 的核函数。重复此实验过程,即可实现 3 个子分类器 SVM 对核函数的优化选择。3 个子分类器 SVM 选择不同核函数对分类正确率的影响如表 2 所示。表 2. 选择不同核函数的分类结果Tab. 2 Recognition results
23、with different kernel functions核函数 多项式函数/% 权重径向基函数/%SVM 1 87.0 82.0SVM 2 87.0 86.5SVM 3 86.0 87.0惩罚参数 C 用来控制错分样本惩罚的程度, C 值越大,算法的时间复杂度就越高。为了解决样本在高维空中的不完全线性可分问题,选择合适的参数 C 也可以降低误分率。实验中,核函数参数选定后,对 SVM 分类器中 3 个子分类器 SVM 的惩罚参数 C(C=2 i,其中 i0,5)进行选择。结果显示,对于子分类器 SVM1,当惩罚参数 C 小于 21 时,正确识别率呈递增趋势,当惩罚系数 C 取值大于 21
24、 时,正确识别率则呈递减趋势,即C 取 21 时取得最好分类效果,正确识别率为 87.0%;对于子分类器 SVM2,当惩罚参数 C 大于 22 时正确识别率为略4 结论(或结语)本文设计了一种碰撞声检测系统对采集的小麦碰撞声信号进行时域和频域分析处理,提取信号特征,设计二叉树 SVM 分类器,实现了对小麦完好粒、IDK、霉变粒和发芽粒的分类。和现有检测方法相比,本文构造的二叉树 SVM 分类器采用了基于核函数的聚类方法,极大地提高了检测结果的准确性与可靠性,成功地实现了小麦完好粒、IDK、霉变粒和发芽粒 4 种不同类型的分离,尤其对霉变粒的识别效果最为显著。本方法仍需进一步改进,以达到对小麦颗
25、粒更准确的识别,并在提高检测率的同时将此方法应用于玉米、豆类等其他谷物的识别。注意:在结论中应指出本论文的独创性结果以及存在的局限性,并指出本文研究后续的进一步研究方向参考文献:1 胡丽华,郭敏.储粮害虫检测新技术及应用现状.农业工程学报J, 2007, 23(11): 286-290.2 白旭光.储粮害虫检测技术评述.粮食储藏J,2010, 39(1): 6-9.3 Pearson T C. Detection of pistachio nuts with closed shells using impact acoustics J. Applied Engineering in Agric
26、ulture, 2001, 17(2): 249-253.4 高国栋,李明,龙村,等.选择性脑灌注对深低温停循环脑组织 EAA 含量的影响J.中国体外循环杂志, 2006,4(3):175-177.5 Wubs M, Saito K, Kohler S, et al. Gauging a quantum heat bath with dissipative Landau-Zener transitions J.Physical Review Letters, 2006,97:200404(1-4)期刊型参考文献注意:1 作者三人以后用“等”或“et al”2 英文期刊名要全称3 加标志符J4
27、应有 年,卷(期):起页码-止页码. 若文献采用文章编号制如参考文献5,则为年,卷(期):文章编号(起页码-止页码)6 冯连世,李开刚.运动员机能评定常用生理生化指标测试方法及应用M.北京:人民体育出版社,2002.图书标志码M,涉及引用书中具体的结论、定义、定理等需标注页码.7 战旗.谷氨酰胺和耐力训练对大鼠抗氧化水平及免疫功能影响的实验研究D.西安:陕西师范大学体育学院,2002.学位论文要有学院名8 Tang Manlai, Wang Kai, Tian Guoliang, et al. On improved EM algorithm and confidence interval c
28、onstruction for incomplete tablesJ. Computational Statistics & Data Analysis,2007,51:2919-2933.cr中国作者的拼音需全拼,若原刊简拼则遵照原刊。9 WU Xiaojun. The application of EM algorithm to thickness estimation of layer materialsC/ Chen C H. Ultrasonic文章作者 文章名 会议集责任者and Advanced Methods for Nondestructive Testing and Material Characterization. Singapore: World Scientific, 2007:37-48会议集名称 出版地 出版社 年 页码会议集论文按如上格式为方便联系请提供作者的手机号码: 感谢您投稿!我们会及时认真的处理您的每一篇论文