1、Convolutional Neural Networks 卷积神经网络 杨皓轩 12307130286 主要内容 1. 卷积神经网络 诞生背景与历程 2. 卷积神经网络应用 LeNet-5手写数字识别 3. 深度学习 Hinton做了些什么 4. 深度学习在数字图像识别上的运用 Hinton如何在 2012年 ImageNet引起轰动 卷积神经网络提出的背景 浅层神经网络 大约二三十年前,神经网络曾经是机器学习领域特别热门的一个方向,这种基于统计的机器学习方法比起过去基于人工规则的专家系统,在很多方面显示出优越性。 卷积神经网络提出的背景 但是后来,因为 理论分析的难度 ,加上 训练方法需要
2、很多经验和技巧 ,以及 巨大的计算量和优化求解难度 ,神经网络慢慢淡出了科研领域的主流方向。 值得指出的是,神经网络(如采用误差反向传播算法:Back Propagation,简称 BP算法,通过梯度下降方法在训练过程中修正权重使得网络误差最小)在层次深的情况下性能变得很不理想(传播时容易出现所谓的梯度弥散Gradient Diffusion或称之为梯度消失,根源在于非凸目标代价函数导致求解陷入局部最优,且这种情况随着网络层数的增加而更加严重,即随着梯度的逐层不断消散导致其对网络权重调整的作用越来越小),所以只能转而处理浅层结构(小于等于 3),从而限制了性能。 浅层神经网络的缺陷 于是, 2
3、0世纪 90年代,有更多各式各样的 浅层模型 相继被提出,比如只有一层隐层节点的支撑向量机( SVM,Support Vector Machine)和 Boosting,以及没有隐层节点的最大熵方法(例如 LR, Logistic Regression)等,在很多应用领域取代了传统的神经网络。 显然,这些浅层结构算法有很多局限性:在有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定的制约。更重要的是,浅层模型有一个特点,就是需要依靠人工来抽取样本的特征。然而,手工地选取特征是一件非常费力的事情,能不能选取好很大程度上靠经验和运气。 能不能自动地学习一些特征呢?
4、 深度学习的优势 深度学习通过学习一种深层非线性网络结构,只需简单的网络结构即可实现复杂函数的逼近,并展现了强大的从大量无标注样本集中学习数据集本质特征的能力。 深度学习能够获得可更好地表示数据的特征,同时由于模型的层次深(通常有 5层、 6层,甚至 10多层的隐层节点,“深”的好处是可以控制隐层节点的数目为输入节点数目的多项式倍而非多达指数倍)、表达能力强,因此有能力表示大规模数据。 对于图像、语音这种特征不明显(需要手工设计且很多没有直观的物理含义)的问题,深度模型能够在大规模训练数据上取得更好的效果。 卷积神经网络 早在 1989年, Yann LeCun (现纽约大学教授 ) 和他的同
5、事们就发表了卷积神经网络( Convolution Neural Networks, 简称 CNN)的工作。 CNN是一种带有卷积结构的深度神经网络,通常至少有两个非线性可训练的卷积层,两个非线性的固定卷积层(又叫 Pooling Laye)和一个全连接层,一共至少 5个隐含层。 CNN的结构受到著名的 Hubel-Wiesel生物视觉模型的启发,尤其是模拟视觉皮层 V1和 V2层中 Simple Cell和 Complex Cell的行为。 卷积神经网络应用 LeNet-5手写数字识别 C1层: 输入图片大小: 32*32 卷积窗大小: 5*5 卷积窗种类: 6 输出特征图数量: 6 输出特征图大小: 28*28 (32-5+1) 神经元数量: 4707 (28*28)*6) 连接数: 12304 (5*5+1)*6*(28*28) 可训练参数: 156 (5*5+1)*6