IOA-ANNO-1.ppt

上传人:ga****84 文档编号:351830 上传时间:2018-09-25 格式:PPT 页数:32 大小:281KB
下载 相关 举报
IOA-ANNO-1.ppt_第1页
第1页 / 共32页
IOA-ANNO-1.ppt_第2页
第2页 / 共32页
IOA-ANNO-1.ppt_第3页
第3页 / 共32页
IOA-ANNO-1.ppt_第4页
第4页 / 共32页
IOA-ANNO-1.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、by 谢广明 , 20052006学年度第一学期,1,Artificial Neural Networks ANN,第六章 人工神经网络(II),by 谢广明 , 20052006学年度第一学期,2,内 容,前向神经网络模型前向神经网络用途前向神经网络训练BP算法,by 谢广明 , 20052006学年度第一学期,3,前向神经网络,多层前向网络一个M层的多层前向网络可描述为:网络包含一个输入层(定义为第0层)和M-1个隐层,最后一个隐层称为输出层;第 l 层包含 个神经元和一个阈值单元(定义为每层的第0单元),输出层不含阈值单元;,by 谢广明 , 20052006学年度第一学期,4,前向神经

2、网络,第 层第 个单元到第个单元的权值表为 ;第 层( 0)第 个( 0)神经元的输入定义为 ,输出定义为 ,其中 为隐单元激励函数,常采用Sigmoid函数,即 。输入单元一般采用线性激励函数 ,阈值单元的输出始终为1;,by 谢广明 , 20052006学年度第一学期,5,前向神经网络,by 谢广明 , 20052006学年度第一学期,6,前向神经网络用途,弄这么个东西有用么?怎么用呢?,by 谢广明 , 20052006学年度第一学期,7,前向神经网络用途,用途非常广泛非线性映照能力:神经网络能以任意精度逼近任何非线性连续函数。在建模过程中的许多问题正是具有高度的非线性。并行分布处理方式

3、:在神经网络中信息是分布储存和并行处理的,这使它具有很强的容错性和很快的处理速度。自学习和自适应能力:神经网络在训练时,能从输入、输出的数据中提取出规律性的知识,记忆于网络的权值中,并具有泛化能力,即将这组权值应用于一般情形的能力。神经网络的学习也可以在线进行。多变量系统:神经网络的输入和输出变量的数目是任意的,对单变量系统与多变量系统提供了一种通用的描述方式,不必考虑各子系统间的解耦问题。,by 谢广明 , 20052006学年度第一学期,8,前向神经网络用途,Bool 函数任何bool函数都可以用一个单隐层的网络来表示但是可能要求指数级的隐层单元个数连续函数每一个有界的连续函数都可以有一个

4、两级的网络以任意小的误差(在有限的范数下)逼近任意函数任意函数都可以被一个由三级的网络以任意精度逼近,by 谢广明 , 20052006学年度第一学期,9,前向神经网络训练,神经网络的训练给定一组样本,即一组神经网络的输入输出,不断调整网络中的权重使得网络最终能够很好的满足样本所给定的输入输出关系。最基本的算法: BP算法其它方法Hebb学习概率式学习竞争学习,by 谢广明 , 20052006学年度第一学期,10,前向神经网络训练,本质:优化如下目标函数 其中P为样本数, 为第p个样本的第j个输出分量。是理想输出和实际输出的误差函数,by 谢广明 , 20052006学年度第一学期,11,B

5、P算法,BP算法-前向网络的训练算法BP算法的出现1974年,Werbos已提出了该方法1982年,Paker完成了相似的工作UCSD PDP小组的Rumelhart、Hinton和Williams1986年独立地给出了BP算法清楚而简单的描述,by 谢广明 , 20052006学年度第一学期,12,BP算法,算法实施过程根据输入输出状态维数决定网络的输入层和输出层神经元的个数根据问题特点和经验决定隐层层数和神经元个数一般选择 M=2设定网络的初始参数按照梯度下降法极小化目标函数,逐步调整权重矩阵直到满意为止,by 谢广明 , 20052006学年度第一学期,13,梯度下降算法,求解函数优化问

6、题,可按照如下公式迭代,其中序列初值任取,by 谢广明 , 20052006学年度第一学期,14,BP算法,梯度下降法,by 谢广明 , 20052006学年度第一学期,15,BP算法,特点:网络权重的调节上用的是梯度下降算法容易推广到任意有向网络训练的时候迭代的次数可能很多,慢训练后使用网络会非常快问题收敛性和局部极小值过拟和的问题:指网络训练精度很高,但推广检验样本精度较差,也称为网络的泛化能力差,by 谢广明 , 20052006学年度第一学期,16,算法设计,输入/输出变量的确定及其数据的预处理网络的输入变量即为待分析系统的内生变量(影响因子或自变量)数,一般根据专业知识确定。若输入变

7、量较多,一般可通过主成份分析方法压减输入变量,也可根据剔除某一变量引起的系统误差与原系统误差的比值的大小来压减输入变量。输出变量即为系统待分析的外生变量(系统性能指标或因变量),可以是一个,也可以是多个。一般将一个具有多个输出的网络模型转化为多个具有一个输出的网络模型效果会更好,训练也更方便。,by 谢广明 , 20052006学年度第一学期,17,算法设计,样本数据收集和整理分组采用BP神经网络方法建模的首要和前提条件是有足够多典型性好和精度高的样本。为训练过程使之不发生“过拟合”和评价建立的网络模型的性能和泛化能力,必须将收集到的数据随机分成训练样本、检验样本(10%以上)和测试样本(10

8、%以上)3部分。此外,数据分组时还应尽可能考虑样本模式间的平衡。,by 谢广明 , 20052006学年度第一学期,18,算法设计,由于采用Sigmoid转换函数,为提高训练速度和灵敏性以及有效避开Sigmoid函数的饱和区,一般要求输入数据的值在01之间。因此,要对输入数据进行预处理。如果输出层节点也采用Sigmoid转换函数,输出变量也必须作相应的预处理,否则,输出变量也可以不做预处理。 预处理的方法有多种多样,各文献采用的公式也不尽相同。预处理的数据训练完成后,网络输出的结果要进行反变换才能得到实际值。为保证建立的模型具有一定的外推能力,最好使数据预处理后的值在0.20.8之间。,by

9、谢广明 , 20052006学年度第一学期,19,算法设计,隐层数一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向。应优先考虑3层BP网络(即有1个隐层)。一般地,靠增加隐层节点数来获得较低的误差,其训练效果要比增加隐层数更容易实现。对于没有隐层的神经网络模型,实际上就是一个线性或非线性(取决于输出层采用线性或非线性转换函数型式)回归模型。因此,一般认为,应将不含隐层的网络模型归入回归分析中,技术已很成熟,没有必要在神经网络理论中再讨论之。,by 谢广明 , 20052006学年度第一学期,20,算

10、法设计,隐层节点数隐层节点数的选择非常重要,它不仅对建立的神经网络模型的性能影响很大,而且是训练时出现“过拟合”的直接原因,但是目前理论上还没有一种科学的和普遍的确定方法。目前多数文献中提出的确定隐层节点数的计算公式都是针对训练样本任意多的情况,而且多数是针对最不利的情况,一般工程实践中很难满足,不宜采用。确定隐层节点数的最基本原则是:在满足精度要求的前提下取尽可能紧凑的结构,即取尽可能少的隐层节点数。研究表明,隐层节点数不仅与输入/输出层的节点数有关,更与需解决的问题的复杂程度和转换函数的型式以及样本数据的特性等因素有关。,by 谢广明 , 20052006学年度第一学期,21,算法设计,在

11、确定隐层节点数时必须满足下列条件:隐层节点数必须小于N-1(其中N为训练样本数),否则,网络模型的系统误差与训练样本的特性无关而趋于零,即建立的网络模型没有泛化能力,也没有任何实用价值。同理可推得:输入层的节点数(变量数)必须小于N-1。训练样本数必须多于网络模型的连接权数,一般为210倍,否则,样本必须分成几部分并采用“轮流训练”的方法才可能得到可靠的神经网络模型。,by 谢广明 , 20052006学年度第一学期,22,算法设计,折衷选择若隐层节点数太少,网络可能根本不能训练或网络性能很差;若隐层节点数太多,虽然可使网络的系统误差减小,但一方面使网络训练时间延长,另一方面,训练容易陷入局部

12、极小点而得不到最优点,也是训练时出现“过拟合”的内在原因。合理隐层节点数应在综合考虑网络结构复杂程度和误差大小的情况下用节点删除法和扩张法确定。,by 谢广明 , 20052006学年度第一学期,23,算法设计,迄今为止还没有构造性结论,即在给定有限个(训练)样本的情况下,如何设计一个合理的BP网络模型并通过向所给的有限个样本的学习(训练)来满意地逼近样本所蕴含的规律(函数关系,不仅仅是使训练样本的误差达到很小)的问题。通过训练样本的学习(训练)建立合理的BP神经网络模型的过程,在国外被称为“艺术创造的过程”,是一个复杂而又十分烦琐和困难的过程。,by 谢广明 , 20052006学年度第一学

13、期,24,算法设计,学习率学习率影响系统学习过程的稳定性。大的学习率可能使网络权值每一次的修正量过大,甚至会导致权值在修正过程中超出某个误差的极小值呈不规则跳跃而不收敛;但过小的学习率导致学习时间过长,不过能保证收敛于某个极小值。所以,一般倾向选取较小的学习率以保证学习过程的收敛性(稳定性),通常在0.010.8之间。,by 谢广明 , 20052006学年度第一学期,25,算法设计,初始连接权值误差函数一般存在(很)多个局部极小点,不同的网络初始权值直接决定了BP算法收敛于哪个局部极小点或是全局极小点。要求计算程序必须能够自由改变网络初始连接权值。由于Sigmoid转换函数的特性,一般要求初

14、始权值分布在-0.50.5之间比较有效。,by 谢广明 , 20052006学年度第一学期,26,算法设计,网络模型的性能和泛化能力训练神经网络的首要和根本任务是确保训练好的网络模型对非训练样本具有好的泛化能力(推广性),即有效逼近样本蕴含的内在规律,而不是看网络模型对训练样本的拟合能力。从存在性结论可知,即使每个训练样本的误差都很小(可以为零),并不意味着建立的模型已逼近训练样本所蕴含的规律。仅给出训练样本误差(通常是指均方根误差RSME或均方误差、AAE或MAPE等)的大小而不给出非训练样本误差的大小是没有任何意义的。,by 谢广明 , 20052006学年度第一学期,27,算法设计,分析

15、模型泛化能力,应该也必须用非训练样本误差的大小来表示和评价。判断建立的模型是否已有效逼近样本所蕴含的规律,最直接和客观的指标是从总样本中随机抽取的非训练样本(检验样本和测试样本)误差是否和训练样本的误差一样小或稍大。非训练样本误差很接近训练样本误差或比其小,一般可认为建立的网络模型已有效逼近训练样本所蕴含的规律。,by 谢广明 , 20052006学年度第一学期,28,算法设计,因为训练样本的误差可以达到很小,因此,用从总样本中随机抽取的一部分测试样本的误差表示网络模型计算和预测所具有的精度(网络性能)是合理的和可靠的。判断网络模型泛化能力的好坏,主要不是看测试样本误差大小的本身,而是要看测试

16、样本的误差是否接近于训练样本和检验样本的误差。,by 谢广明 , 20052006学年度第一学期,29,算法设计,合理网络模型的确定对同一结构的网络,由于BP算法存在(很)多个局部极小点,因此,必须通过多次(通常是几十次)改变网络初始连接权值求得相应的极小点,才能通过比较这些极小点的网络误差的大小,确定全局极小点,从而得到该网络结构的最佳网络连接权值。,by 谢广明 , 20052006学年度第一学期,30,算法设计,收敛误差界值在网络训练过程中应根据实际情况预先确定误差界值。误差界值的选择完全根据网络模型的收敛速度大小和具体样本的学习精度来确定。当选择较小时,学习效果好,但收敛速度慢,训练次

17、数增加。取得较大时则相反。,by 谢广明 , 20052006学年度第一学期,31,算法改进,由于BP网络采用误差反传算法,其实质是一个无约束的非线性最优化计算过程,在网络结构较大时不仅计算时间长,而且很容易限入局部极小点而得不到最优结果。目前已有改进BP法、遗传算法(GA)和模拟退火算法等多种优化方法用于BP网络的训练。,by 谢广明 , 20052006学年度第一学期,32,http:/,题 目: 基于自适应BP神经网络的结构损伤检测 题 目: 基于BP神经网络的企业技术创新能力评价及应用研究 题 目: BP神经网络预测油田废水混凝处理效果 题 目: 基于BP神经网络构建城市时需水量预测模型 题 目: BP神经网络在焉耆盆地水质评价中的应用 题 目: BP神经网络在焉耆盆地农田排水量估算中的应用 题 目: 基于优化BP神经网络的中子法检测煤中氢含量 题 目: BP神经网络进行系统辨识的红外图像超分辨力复原方法 题 目: 基于BP神经网络的长江流域人口预测研究 题 目: BP神经网络在脑电图信号预测中的应用一个相对比较容易完成的选题!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。