1、毕 业 设 计 (论 文 )基于深度学习的图像超分辨率重建研究院 别 数 学 与 统 计 学 院专业名称 信 息 与 计 算 科 学班级学号 5133117学生姓名 楚 文 玉指导教师 张 琨2017 年 06 月 10 日东北大学秦皇岛分校毕业设计(论文) 第 I 页基于深度学习的图像超分辨率重建研究摘 要人工神经网络凭借其超强的学习能力,使得人工智能得到迅猛的发展,让人工神经网络再次成为研究热点。目前深度学习已经广泛应用于计算机视觉,语音处理,自然语言处理等各个领域,甚至在某些领域已经起到了主导作用。单一图像超分辨率重建技术旨在将一个低分辨率图像经过一系列算法重构出对应的高分辨率图像。目前
2、比较成熟的方法有基于频域法,非均匀图像插值法,凸集投影法,最大后验概率法以及稀疏表示法。本文主要研究利用深度学习实现单一图像超分辨率重建。本文首先简要介绍人工神经网络的发展历程,然后介绍深度学习在计算机视觉方面的应用。然后介绍神经网络的一些理论知识,最后介绍深度学习中的卷积神经网络(CNN, Convolutional Neural Network) 。本文研究如何利用卷积神经网络实现超分辨率重建。卷积神经网络分为三层结构,第一层的作用是特征块的提取和表示,第二层的作用是非线性映射,第三层的作用是重建出高分辨率图像。本文首先将一个图像降采样再双三次插值作为低分辨率图像,作为卷积神经网络的输入,
3、而高分辨率图像作为卷积神经网络的输出,利用卷积神经网络建立低分辨率,高分辨率之间的映射。最后针对该模型进行改进,再加入一层作为特征提取。最后利用深度学习框架TensorFlow 实现上述模型。最后研究快速超分辨率重建模型,并针对模型层数和过滤器大小进行改进,与先前实验做比对。关键字:超分辨率重建,卷积神经网络,深度学习,TensorFlow东北大学秦皇岛分校毕业设计(论文) 第 II 页Image Super-Resolution Using Deep learningAuthor: Chu Wen-yuTutor: Zhang KunAbstractArtificial Neural Net
4、work because of its strong ability to learn, get rapid development of artificial intelligence, let the Artificial Neural Network become the research upsurge again. Deep learning has been widely used in computer vision, speech processing, natural language processing and so on. The super-resolution(SR
5、) technique is designed to refactor a low-resolution image through a series of algorithms to reconstruct the corresponding high-resolution image. Currently, the method of frequency domain, Non-uniform image interpolation, Projection onto convex set(POCS), Maximum a posterior(MPA) and sparse matrix m
6、ethod are the more mature methods. This paper mainly researches the realization of super-resolution(SR) reconstruction using deep learning.In this thesis, first is a brief introduction of the development of artificial neural network, then introduces the application of deep learning in computer visio
7、n. With that introduces some theoretical knowledge of neural network, and finally introduces the convolution neural network(CNN) in deep learning. This article mainly researches how to use the convolution neural network(CNN) to get the super-resolution reconstruction. The convolution neural network
8、contains three structures, the effect of the first layer is Patch extraction and representation, the second is the function of Non-linear mapping, the role of the third layer is the high-resolution image reconstruction. First to downscale and bicubic interpolation an image as the low-resolution imag
9、es as the input of the convolution neural network, and the high-resolution image as the output of the convolution neural network, using convolution neural network established end-to-end mapping between the low -resolution and high-resolution. Finally, the model is improved, and then a layer is 东北大学秦
10、皇岛分校毕业设计(论文) 第 III 页added as feature extraction. The model implements using deep learning frame TensorFlow. Finally, learn more about the accelerate super-resolution reconstruction model and improve the model layer and filter size, and compare with the previous experiment.Key Words: Super-Resolution
11、, Convolution neural network, Deep learning,TensorFlow东北大学秦皇岛分校毕业设计(论文) 第 IV页目 录1 绪论 .11.1 课题背景及意义 .11.2 国内外研究现状 .21.3 论文的内容结构 .32 深度学习理论 .52.1 人工神经网络理论 .52.1.1 神经网络基础理论 .62.1.2 BP 反向传播算法 .92.1.3 随机梯度下降法 .122.2 深度神经网络理论 .132.2.1 深度学习的核心思想 .132.2.2 卷积神经网络 .142.3 TensorFlow 简介 .193 基于 SRCNN 的超分辨率重建算法研
12、究 .213.1 SRCNN 模型简介 .213.2 SRCNN 模型的改进 .223.3 改进的模型的实现 .233.3.1 数据集制作 .233.3.2 TensorFlow 实现卷积神经网络 .243.4 FSRCNN 模型 .273.4.1 FSRCNN 模型简介 .273.4.2 FSRCNN 模型改进 .284 实验及分析 .294.1 具体实验结果分析 .294.2 与其他实验对比分析 .31结 论 .35东北大学秦皇岛分校毕业设计(论文) 第 IV页致 谢 .36参考文献 .37附 录 A.39附 录 B.44东北大学秦皇岛分校毕业设计(论文) 第 1 页1 绪论1.1 课题背
13、景及意义从 2016 年 AlphaGo 完胜李世石到 2017 年 5 月战胜柯洁等诸多世界围棋顶级高手,人工智能和深度学习这些概念再次引起了学术界的关注。谷歌、脸书、阿里巴巴、百度等众多国内外互联网公司纷纷宣布要将人工智能作为他们的下一个战略重心 1。在类似 AlphaGo、无人机驾驶汽车等最新技术的背后,深度学习是推动这些技术发展的核心力量。目前我们所熟知“深度学习”基本上是深层神经网络的一个代名词,而神经网络技术可以追溯 1943 年。深度学习之所以看起来像一个新技术的原因是在 21 世纪初期并不是很流行。神经网络的发展史大致可以分为三个阶段。早期的神经网络模型类似于仿生机器学习,它试
14、图模仿大脑的学习机理。最早是在 1943 年由 Walter Pitts 教授和 Warren McCulloch 教授提出的 McCulloch-Pitts Neuron(MP)计算结构模型,大致模拟了人类神经元的工作原理,使用了简单的线性加权和的方式来模拟变换 2。Frank Rosenblatt 教授在 1958 年提出了一个感知机模型(perceptron) 3。它首次实现了依据样本数据集来学习权重。这两个模型深深的影响了现代机器学习,为现代机器学习奠定了基础,但自身也存在许多不足。Seymour Paper 教授和 Marvin Minsky 教授在 1969 年出版的 Percep
15、tron 书中证明了感知机模型只能解决线性可分问题,无法解决异或问题。在之后的十几年里,关于神经网络的研究全部处于停滞状态。直到 20 世纪 80 年代末,第二波神经网络研究热潮因为分布式知识表达(distributed representation)和神经网络反向传播算法的提出而重新兴起。这大大增强了模型的表达能力,让神经网络从宽度的方向走到了深度的方向。这为之后的深度学习奠定了基础。1986 年 David Everett Rumelhart 教授、Geoffrey Everset Hinton 教授和Ronald J. Willians 教授在自然杂志上发表的 Learning Repr
16、esentations by Back-propagating errors 文章中首次提出了反向传播算法(BP ) 3,此算法大幅降低了训练神经网络的时间。直达今天仍是训练神经网络的主要方法。现如今使用的一些神经网络结构,比如卷积神经网络和循环神经网络,在这个阶段取得了显著的成就。Sepp Hochreiter 教授和 Juergen Schmidhuber 教授于 1991 年提出的 long short-term memory(LSTM)模型可以有效的对较长的序列进行建模,比如一段文字和语音等。东北大学秦皇岛分校毕业设计(论文) 第 2 页直到今天 LSTM 都是解决自然语言处理,语言识
17、别的有效方法。然而,之后神经网络研究再度步入寒冬。在神经网络发展前景不好的时候,传统的神经网络学习算法却得到了突破性的进展,并在 90 年代末超过了神经网络,成为当下最先进的方法。典型的案例是 1998 年,使用支持向量机(SVM)的算法在手写体识别上,可以把错误率降低到 0.8%,这是神经网络无法做到的。导致这种情况的原因主要是因为在当时的计算资源下,训练深层的神经网络仍然非常困难,其次,当时的数据量比较小,无法满足训练深层神经网络的需求。随着计算机性能的进一步提高,以及云计算、GPU 的出现,到 2010 年左右,计算量不再是阻碍神经网络发展的问题。与此同时,随着互联网+的发展,获取海量的
18、数据也不在困难。于是乎新的神经网络高潮再次来临。在 2012ImageNet 举办的图像分类竞赛 ILSVRC 中,由 Alex Krizhevsky 教授实现的深度学习系统 AlexNet 赢得了冠军。自此之后深度学习作为深层神经网络的代名词被大家所熟知。在 2013 年,深度学习被麻省理工(MIT)评为了年度十大科技突破之一 4。在 2013 年的 ImageNet 比赛中,效果较好的模型都是使用深度学习。2014 年 ImageNet 比赛,谷歌的 GoogLeNet 加深网络深度到 20 多层,将 top5 错误率降到了 6.656%。在 2012 年微软亚洲研究院(Microsoft
19、 Research Asia,MSRA)二十一世纪计算大会(21st Century Computing)上,微软高级副总裁 Richard Rashid 现场演示了微软开发的由英文到汉语的同声传译系统。深度学习在图像识别领域的突破掀起了学术界的研究热潮,而深度学习在人机博弈上的突破使得这个概念深入人心。在 2016 年 3 月谷歌开发的围棋人工智能系统 AlphaGo 以 4:1 战胜韩国棋手李世石,成为人工智能历史上的一个里程碑。而在今年 AlpahGo 再次战胜我国顶级围棋高手柯洁,让人们对人工智能更加的憧憬。深度学习的热潮也深深影响了我,让我对深度学习产生了浓厚的兴趣。图像超分辨率重建
20、在现阶段已经非常成熟,但是利用深度学习去做超分辨率重建的案例并不多,借着深度学习,神经网络的热潮,研究深度学习下的超分辨率重建。1.2 国内外研究现状单一图像超分辨率重建是计算机视觉的经典问题。本部分主要介绍深度学习在计算机视觉方面的研究现状以及传统的超分辨率重建方法的研究现状。东北大学秦皇岛分校毕业设计(论文) 第 3 页深度学习算法最早尝试应用的领域就是计算机视觉问题。1989 年,Yann LeCun 教授提出了卷积神经网络(CNN)的概念,它是一种包含卷积层的深度神经网络模型。起初卷积神经网络在小规模的问题上取得了非常好的效果,但是却没有取得重大突破。归其原因就是卷积神经网络对大图像处
21、理得不到理想的效果。直到 2012 年深度学习算法 AlexNet 赢得图像分类比赛 ILSVRC 冠军,卷积神经网络才得以重新被热议研究。ILSVCR 是基于 ImageNet 图像数据集的图像识别类比赛,在计算机视觉领域有极高的影响力。从 2013 年开始,ILSVRC 上基本都是深度学习在参赛。从 2012 年到 2015 年间,通过对深度学习算法的不断研究,ImageNet 图像分类的错误率以每年 4%的速度递减。这说明深度学习完全打破了传统机器学习算法在图像分类上的瓶颈,让图像分类问题得到了更好的解决。2015 年在自然科学杂志上刊登的深度学习综述Deep Learning 5,对现
22、在的深度学习理论进行了总结,文章中提到了用 ReLu 函数代替Sigmoid 函数成为最流行的作用函数,加上 GPU 加速运算等,这些共同促进了深度学习在图像识别的成功,给计算机视觉领域带来了一场革命。国内互联网巨头百度公司将深度学习相关技术应用到计算机视觉上,推出了一系列产品,并且聘请了美籍华人科学家 Andrew Ng (吴恩达)主导百度的深度学习,取得了显著的成果,在 2017 年的最强大脑中,由吴恩达科学团队设计的小度智能机器人,与国内外顶级最强大脑进行对决,未尝败绩。图像超分辨率重建算法大致可以分为基于插值的算法 6、基于重建的算法 7和基于学习的算法 8。其中基于插值的算法中,尤其
23、是 Keys 在 1985 年提出的双三次插值算法,至今仍然应用在各个计算机视觉领域。当放大倍数较小时,双线性插值,最近邻算法以及双三次插值都可以得到显著的效果。基于重建的算法中,比较突出的是盲超分辨重建,从低分辨率图像预估出高分辨率和模糊核 9。基于学习的超分辨率重建是近年来比较热门的研究方向,Freeman 等人将机器学习方法成功应用到图像超分辨率重建问题上,但是该算法低分辨率面片和低分辨率输入之间不能完全匹配,会引入错误的细节。Sun 等人在此基础上做了改进,增强图像中的边缘等基元 10。Chang 等人提出了一种基于局部嵌入的图像超分辨率算法 11。Yang 等人结合压缩感知理论,利用
24、信号的稀疏表示精简训练样本得到学习字典 12。最近几年深度学习比较热门,汤晓鸥团队提出利用 CNN 实现超分辨重建,他将基于深度学习的方法和基于稀疏表示的方法对比,得出基于稀疏表示的方法是深度学习神经网络中的一种表示形式 13,并且实验得到的东北大学秦皇岛分校毕业设计(论文) 第 4 页结果比稀疏表示要好。1.3 论文的内容结构本部分主要介绍本文的主体架构:第一部分介绍了课题的研究背景及意义,先简要介绍了深度学习的发展历程,然后介绍深度学习以及图像超分辨率重建国内外的研究现状。第二部分主要介绍深度学习的基础理论知识,包括人工神经网络基础理论,学习训练网络方法,BP 算法,以及卷积神经网络基础理论介绍,还有 TensorFlow 深度学习框架介绍。第三部分主要介绍基于卷积神经网络(CNN)的图像超分辨率重建模型,包括网络层的搭建,数据集的制作,模型训练,反馈学习等。然后将模型层数加深进行算法改进,最后学习快速超分辨率重建技术,针对模型的层数和过滤器尺寸进行改进。第四部分介绍算法实验分析和总结,针对实验效果,模型复杂程度,训练时间等方面进行分析比对。第五部分对这次论文进行归纳总结,分析不足,提出可行性的建议。