1、用平常语言介绍神经网络(Neural Networks in Plain English)因为我们没有很好了解大脑,我们经常试图用最新的技术作为一种模型来解释它。在我童年的时候,我们都坚信大脑是一部电话交换机。(否则它还能是什么呢?)我当时还看到英国著名神经学家谢林顿把大脑的工作挺有趣地比作一部电报机。更早些时候,弗罗伊德经常把大脑比作一部水力发电机,而莱布尼茨则把它比作了一台磨粉机。我还听人说,古希腊人把大脑功能想象为一付弹弓。显然,目前要来比喻大脑的话,那只可能是一台数字电子计算机了。 John R.Searle 注 11.神经网络介绍(Introduction to Neural Net
2、works)曾有很长一个时期,人工神经网络对我来说是完全神秘的东西。当然,有关它们我在文献中已经读过了,我也能描述它们的结构和工作机理,但我始终没有能“啊哈!”一声,如同你头脑中一个难于理解的概念有幸突然得到理解时的感觉那样。我的头上好象一直有个榔头在敲着,或者像电影AnimalHouse(中文片名为“动物屋”)中那个在痛苦地尖叫“先生,谢谢您,再给我一个啊!”的可怜家伙那样。我无法把数学概念转换成实际的应用。有时我甚至想把我读过的所有神经网络的书的作者都抓起来,把他们缚到一棵树上,大声地向他们吼叫:“不要再给我数学了,快给我一点实际东西吧!”。但无需说,这是永远不可能发生的事情。我不得不自己
3、来填补这个空隙.由此我做了在那种条件下唯一可以做的事情。我开始干起来了。这样几个星期后,在一个美丽的日子里,当时我在苏格兰海边度假,当我越过一层薄雾凝视着狭长的海湾时,我的头脑突然受到一个冲击。一下子悟到了人工神经网络是怎样工作的。我得到“啊哈!”的感觉了!但我此时身边只有一个帐篷和一个睡袋,还有半盒子的脆玉米片,没有电脑可以让我迅速写出一些代码来证实我的直觉。Arghhhhh!这时我才想到我应该买一台手提电脑。不管怎样,几天后我回到家了,我立刻让我的手指在键盘上飞舞起来。几个小时后我的第一人工神经网络程序终于编成和运行了,并且工作得挺好!自然,代码写的有点乱,需要进行整理,但它确实已能工作了
4、,并且,更重要的是,我还知道它为什么能工作!我可以告诉你,那天我是一位非常得意的人。我希望本书传递给你的就是这种“啊哈!”感觉。当我们学完遗传算法时,你可能已尝到了一点感觉,但你希望这种感觉是美妙的话,那就要等把神经网络部分整个学完。2.生物学的神经网络-大脑 (A Biological Neural NetworkThe Brain).你的大脑是一块灰色的、像奶冻一样的东西。它并不像电脑中的 CPU 那样,利用单个的处理单元来进行工作。如果你有一具新鲜地保存到福尔马林中的尸体,用一把锯子小心地将它的头骨锯开,搬掉头盖骨后,你就能看到熟悉的脑组织皱纹。大脑的外层象一个大核桃那样,全部都是起皱的
5、图 0 左,这一层组织就称皮层(Cortex)。如果你再小心地用手指把整个大脑从头颅中端出来,再去拿一把外科医生用的手术刀,将大脑切成片,那么你将看到大脑有两层图 0 右:灰色的外层(这就是“灰质”一词的来源,但没有经过福尔马林固定的新鲜大脑实际是粉红色的。)和白色的内层。灰色层只有几毫米厚,其中紧密地压缩着几十亿个被称作 neuron(神经细胞、神经元)的微小细胞。白色层在皮层灰质的下面,占据了皮层的大部分空间,是由神经细胞相互之间的无数连接组成。皮层象核桃一样起皱,这可以把一个很大的表面区域塞进到一个较小的空间里。这与光滑的皮层相比能容纳更多的神经细胞。人的大脑大约含有 1OG(即 100
6、 亿)个这样的微小处理单元;一只蚂蚁的大脑大约也有 250,OOO 个。以下表 l 显示了人和几种动物的神经细胞的数目。图 0 大脑的外形和切片形状表 l 人和几种动物的神经细胞的数目动 物神经细胞的数目(数量级)蜗 牛10,000 (=104)蜜 蜂100,000 (=105)蜂 雀10,000,000 (=107)老 鼠100,000,000 (=108)人 类10,000,000,000 (=1010)大 象100,000,000,000 (=1011)图 1 神经细胞的结构在人的生命的最初 9 个月内,这些细胞以每分钟 25,000 个的惊人速度被创建出来。神经细胞和人身上任何其他类型
7、细胞十分不同,每个神经细胞都长着一根像电线一样的称为轴突(axon)的东西,它的长度有时伸展到几厘米译注,用来将信号传递给其他的神经细胞。神经细胞的结构如图 1 所示。它由一个细胞体(soma)、一些树突(dendrite)、和一根可以很长的轴突组成。神经细胞体是一颗星状球形物,里面有一个核(nucleus)。树突由细胞体向各个方向长出,本身可有分支,是用来接收信号的。轴突也有许多的分支。轴突通过分支的末梢(terminal)和其他神经细胞的树突相接触,形成所谓的突触(Synapse,图中未画出),一个神经细胞通过轴突和突触把产生的信号送到其他的神经细胞。每个神经细胞通过它的树突和大约 10,
8、000 个其他的神经细胞相连。这就使得你的头脑中所有神经细胞之间连接总计可能有 l,000,000,000,000,000 个。这比 100 兆个现代电话交换机的连线数目还多。所以毫不奇怪为什么我们有时会产生头疼毛病!有趣的事实曾经有人估算过,如果将一个人的大脑中所有神经细胞的轴突和树突依次连接起来,并拉成一根直线,可从地球连到月亮,再从月亮返回地球。如果把地球上所有人脑的轴突和树突连接起来,则可以伸展到离开们最近的星系!神经细胞利用电-化学过程交换信号。输入信号来自另一些神经细胞。这些神经细胞的轴突末梢(也就是终端)和本神经细胞的树突相遇形成突触(synapse),信号就从树突上的突触进入本
9、细胞。信号在大脑中实际怎样传输是一个相当复杂的过程,但就我们而言,重要的是把它看成和现代的计算机一样,利用一系列的 0 和 1 来进行操作。就是说,大脑的神经细胞也只有两种状态:兴奋(fire)和不兴奋(即抑制)。发射信号的强度不变,变化的仅仅是频率。神经细胞利用一种我们还不知道的方法,把所有从树突上突触进来的信号进行相加,如果全部信号的总和超过某个阀值,就会激发神经细胞进入兴奋(fire)状态,这时就会有一个电信号通过轴突发送出去给其他神经细胞。如果信号总和没有达到阀值,神经细胞就不会兴奋起来。这样的解释有点过分简单化,但已能满足我们的目的。神经细胞利用电-化学过程交换信号。输入信号来自另一
10、些神经细胞。这些神经细胞的轴突末梢(也就是终端)和本神经细胞的树突相遇形成突触(synapse),信号就从树突上的突触进入本细胞。信号在大脑中实际怎样传输是一个相当复杂的过程,但就我们而言,重要的是把它看成和现代的计算机一样,利用一系列的 0 和 1 来进行操作。就是说,大脑的神经细胞也只有两种状态:兴奋(fire)和不兴奋(即抑制)。发射信号的强度不变,变化的仅仅是频率。神经细胞利用一种我们还不知道的方法,把所有从树突上突触进来的信号进行相加,如果全部信号的总和超过某个阀值,就会激发神经细胞进入兴奋(fire)状态,这时就会有一个电信号通过轴突发送出去给其他神经细胞。如果信号总和没有达到阀值
11、,神经细胞就不会兴奋起来。这样的解释有点过分简单化,但已能满足我们的目的。 正是由于数量巨大的连接,使得大脑具备难以置信的能力。尽管每一个神经细胞仅仅工作于大约 100Hz的频率,但因各个神经细胞都以独立处理单元的形式并行工作着,使人类的大脑具有下面这些非常明显的特点:能实现无监督的学习。 有关我们的大脑的难以置信的事实之一,就是它们能够自己进行学习,而不需要导师的监督教导。如果一个神经细胞在一段时间内受到高频率的刺激,则它和输入信号的神经细胞之间的连接强度就会按某种过程改变,使得该神经细胞下一次受到激励时更容易兴奋。这一机制是50 多年以前由 DonardHebb 在他写的 Organina
12、tion of Behavior 一书中阐述的。他写道:“当神经细胞 A 的一个轴突重复地或持久地激励另一个神经细胞 B 后,则其中的一个或同时两个神经细胞就会发生一种生长过程或新陈代谢式的变化,使得励 B 细胞之一的 A 细胞,它的效能会增加” 与此相反的就是,如果一个神经细胞在一段时间内不受到激励,那么它的连接的有效性就会慢慢地衰减。这一现象就称可塑性(plasticity)。对损伤有冗余性(tolerance)。大脑即使有很大一部分受到了损伤,它仍然能够执行复杂的工作。一个著名的试验就是训练老鼠在一个迷宫中行走。然后,科学家们将其大脑一部分一部分地、越来越大地加以切除。他们发现,即使老鼠
13、的很大的一部大脑被切除后,它们仍然能在迷宫中找到行走路径。这一事实证明了,在大脑中,知识并不是保存在一个局部地方。另外所作的一些试验则表明,如果大脑的一小部分受到损伤,则神经细胞能把损伤的连接重新生长出来。处理信息的效率极高。神经细胞之间电-化学信号的传递,与一台数字计算机中 CPU 的数据传输相比,速度是非常慢的,但因神经细胞采用了并行的工作方式,使得大脑能够同时处理大量的数据。例如,大脑视觉皮层在处理通过我们的视网膜输入的一幅图象信号时,大约只要 100ms 的时间就能完成。考虑到你的神经细胞的平均工作频率只有 100Hz,100ms 的时间就意味只能完成 10 个计算步骤!想一想通过我们
14、眼睛的数据量有多大,你就可以看到这真是一个难以置信的伟大工程了。善于归纳推广。大脑和数字计算机不同,它极擅长的事情之一就是模式识别,并能根据已熟悉信息进行归纳推广(generlize)。例如,我们能够阅读他人所写的手稿上的文字,即使我们以前从来没见过他所写的东西。它是有意识的。意识(consciousness)是神经学家和人工智能的研究者广泛而又热烈地在辩论的一个话题。有关这一论题已有大量的文献出版了,但对于意识实际究竟是什么,至今尚未取得实质性的统一看法。我们甚至不能同意只有人类才有意识,或者包括动物王国中人类的近亲在内才有意识。一头猩猩有意识吗?你的猫有意识吗?上星期晚餐中被你吃掉的那条鱼
15、有意识吗?因此,一个人工神经网络(Artificial neural network,简称 ANN)就是要在当代数字计算机现有规模的约束下,来模拟这种大量的并行性,并在实现这一工作时,使它能显示许多和生物学大脑相类似的特性。下面就让我们瞧瞧它们的表演吧!3 数字版的神经网络 (The Digital Version)上面我们看到了生物的大脑是由许多神经细胞组成,同样,模拟大脑的人工神经网络 ANN 是由许多叫做人工神经细胞(Artificialneuron,也称人工神经原,或人工神经元)的细小结构模块组成。人工神经细胞就像真实神经细胞的一个简化版,但采用了电子方式来模拟实现。一个人工神经网络中
16、需要使用多少个数的人工神经细胞,差别可以非常大。有的神经网络只需要使用 10 个以内的人工神经细胞,而有的神经网络可能需要使用几千个人工神经细胞。这完全取决于这些人工神经网络准备实际用来做什么。有趣的事实有一个叫 Hugo deGaris 的同行,曾在一个雄心勃勃的工程中创建并训练了一个包含1000,000,000 个人工神经细胞的网络。这个人工神经网络被他非常巧妙地建立起来了,它采用蜂房式自动机结构,目的就是为一机器客户定制一个叫做 CAM BrainMachine(“CAM 大脑机器”)的机器(CAM 就是 Cellular AutomataMachine 的缩写)。此人曾自夸地宣称这一人
17、工网络机器将会有一只猫的智能。许多神经网络研究人员认为他是在“登星”了,但不幸的是,雇用他的公司在他的梦想尚未实现之前就破产了。此人现在犹他州,是犹他州大脑工程(Utah BrainProject)的领导。时间将会告诉我们他的思想最终是否能变成实际有意义的东西。译注 我想你现在可能很想知道,一个人工神经细胞究竟是一个什么样的东西?但是,它实际上什么东西也不像; 它只是一种抽象。还是让我们来察看一下图 2 吧,这是表示一个人工神经细胞的一种形式。译注Hugo de Garis 现在为犹他州立大学教授,有关他和他的 CAM 机器,可在该校网站的一个网页上看到报道,其上有真实的照片,见 http:/
18、www.cs.usu.edu/degaris图 2 一个人工神经细胞图中,左边几个灰底圆中所标字母 w 代表浮点数,称为权重(weight,或权值,权数)。进入人工神经细胞的每一个 input(输入)都与一个权重 w 相联系,正是这些权重将决定神经网络的整体活跃性。你现在暂时可以设想所有这些权重都被设置到了-和之间的一个随机小数。因为权重可正可负,故能对与它关联的输入施加不同的影响,如果权重为正,就会有激发(excitory)作用,权重为负,则会有抑制(inhibitory)作用。当输入信号进入神经细胞时,它们的值将与它们对应的权重相乘,作为图中大圆的输入。大圆的核是一个函数,叫激励函数(ac
19、tivationfunction),它把所有这些新的、经过权重调整后的输入全部加起来,形成单个的激励值(activationvalue)。激励值也是一浮点数,且同样可正可负。然后,再根据激励值来产生函数的输出也即神经细胞的输出:如果激励值超过某个阀值(作为例子我们假设阀值为 1.0),就会产生一个值为 1 的信号输出;如果激励值小于阀值 1.0,则输出一个 0。这是人工神经细胞激励函数的一种最简单的类型。在这里,从激励值产生输出值是一个阶跃函数译注。看一看图 3 后你就能猜到为什么有这样的名称。图 3 阶跃激励函数译注 由图可知阶跃函数是一元的,而激励函数既然能把多个输入相加应为多元,故需加以
20、区别。如果到目前为止你对这些还没有获得很多感觉,那也不必担心。窍门就是: 不要企图去感觉它,暂时就随波逐流地跟我一起向前走吧。在经历本章的若干处后,你最终就会开始弄清楚它们的意义。而现在,就放松一点继续读下去吧。3.1 现在需要一些数学了(Now for Some Math)今后讨论中,我将尽量把数学降低到绝对少量,但学习一些数学记号对下面还是很有用的。我将把数学一点一点地喂给你,在到达有关章节时向你介绍一些新概念。我希望采用这样的方式能使你的头脑能更舒适地吸收所有的概念,并使你在开发神经网络的每个阶段都能看到怎样把数学应用到工作中。现在首先让我们来看一看,怎样把我在此之前告诉你的所有知识用数
21、学方式表达出来。一个人工神经细胞(从现在开始,我将把“人工神经细胞”简称它为“神经细胞”) 可以有任意 n个输入,n 代表总数。可以用下面的数学表达式来代表所有 n 个输入:x1, x2, x3, x4, x5, ., xn同样 n 个权重可表达为:w1, w2, w3, w4, w5 ., wn请记住,激励值就是所有输入与它们对应权重的之乘积之总和,因此,现在就可以写为:a = w1x1 + w2x2 + w3x3 + w4x4 + w5x5 +.+ wnxn以这种方式写下的求和式,我在第 5 章“建立一个更好的遗传算法”中已提到,可以用希腊字母 来简化:注:神经网络的各个输入,以及为各个神
22、经细胞的权重设置,都可以看作一个 n 维的向量。你在许多技术文献中常常可以看到是以这样的方式来引用的。 下面我们来考察在程序中应该怎样实现?假设输入数组和权重数组均已初始化为 xn和 wn,则求和的代码如下:double activation = 0;for(int i=0; i 激活阀值,所以这个神经细胞将输出1。 在进一步读下去之前,请你一定要确切弄懂激励函数怎样计算。表 2 神经细胞激励值的计算输 入权 重输入*权重的乘积运行后总和 10.50.50.5 0-0.200.51 -0.3 -0.3 0.2 1 0.90.9 1.1 00.1 01.13.2 行,我知道什么是神经细胞了,但用
23、它来干什么呢?大脑里的生物神经细胞和其他的神经细胞是相互连接在一起的。为了创建一个人工神经网络,人工神经细胞也要以同样方式相互连接在一起。为此可以有许多不同的连接方式,其中最容易理解并且也是最广泛地使用的,就是如图 5 所示那样,把神经细胞一层一层地连结在一起。这一种类型的神经网络就叫前馈网络(feedforwordnetwork)。这一名称的由来,就是因为网络的每一层神经细胞的输出都向前馈送(feed)到了它们的下一层(在图中是画在它的上面的那一层),直到获得整个网络的输出为止。图 5 一个前馈网络由图可知,网络共有三层(译注:输入层不是神经细胞,神经细胞只有两层)。输入层中的每个输入都馈送
24、到了隐藏层,作为该层每一个神经细胞的输入;然后,从隐藏层的每个神经细胞的输出都连到了它下一层(即输出层)的每一个神经细胞。图中仅仅画了一个隐藏层,作为前馈网络,一般地可以有任意多个隐藏层。但在对付你将处理的大多数问题时一层通常是足够的。事实上,有一些问题甚至根本不需要任何隐藏单元,你只要把那些输入直接连结到输出神经细胞就行了。另外,我为图 5 选择的神经细胞的个数也是完全任意的。每一层实际都可以有任何数目的神经细胞,这完全取决于要解决的问题的复杂性。但神经细胞数目愈多,网络的工作速度也就愈低,由于这一缘故,以及为了其他的几种原因(我将在第 9 章作出解释),网络的规模总是要求保持尽可能的小。到
25、此我能想象你或许已对所有这些信息感到有些茫然了。我认为,在这种情况下,我能做的最好的事情,就是向你介绍一个神经网络在现实世界中的实际应用例子,它有望使你自己的大脑神经细胞得到兴奋!不错吧?好的,下面就来了.你可能已听到或读到过神经网络常常用来作模式识别。这是因为它们善于把一种输入状态(它所企图识别的模式)映射到一种输出状态(它曾被训练用来识别的模式)。下面我们来看它是怎么完成的。我们以字符识别作为例子。设想有一个由 8x8 个格子组成的一块面板。每一个格子里放了一个小灯,每个小灯都可独立地被打开(格子变亮)或关闭(格子变黑),这样面板就可以用来显示十个数字符号。图 6 显示了数字“4”。 图
26、6 用于字符显示的矩阵格点要解决这一问题,我们必需设计一个神经网络,它接收面板的状态作为输入,然后输出一个 1 或0;输出 1 代表 ANN 确认已显示了数字“4”,而输出 0 表示没有显示“4”。因此,神经网络需要有 64个输入(每一个输入代表面板的一个具体格点)和由许多神经细胞组成的一个隐藏层,还有仅有一个神经细胞的输出层,隐藏层的所有输出都馈送到它。我真希望你能在你的头脑中画出这个图来,因为要我为你把所有这些小圆和连线统统画出来确实不是一桩愉快的事。一旦神经网络体系创建成功后,它必须接受训练来认出数字“4”。为此可用这样一种方法来完成:先把神经网的所有权重初始化为任意值。然后给它一系列的
27、输入,在本例中,就是代表面板不同配置的输入。对每一种输入配置,我们检查它的输出是什么,并调整相应的权重。如果我们送给网络的输入模式不是“4”,则我们知道网络应该输出一个 0。因此每个非“4”字符时的网络权重应进行调节,使得它的输出趋向于 0。当代表“4”的模式输送给网络时,则应把权重调整到使输出趋向于 1。如果你考虑一下这个网络,你就会知道要把输出增加到 10 是很容易的。然后通过训练,就可以使网络能识别 0 到 9 的所有数字。但为什么我们到此停止呢?我们还可以进一步增加输出,使网络能识别字母表中的全部字符。这本质上就是手写体识别的工作原理。对每个字符,网络都需要接受许多训练,使它认识此文字
28、的各种不同的版本。到最后,网络不单能认识已经训练的笔迹,还显示了它有显著的归纳和推广能力。也就是说,如果所写文字换了一种笔迹,它和训练集中所有字迹都略有不同,网络仍然有很大几率来认出它。正是这种归纳推广能力,使得神经网络已经成为能够用于无数应用的一种无价的工具,从人脸识别、医学诊断,直到跑马赛的预测,另外还有电脑游戏中的 bot(作为游戏角色的机器人)的导航,或者硬件的 robot(真正的机器人)的导航。这种类型的训练称作有监督的学习(supervisedlearnig),用来训练的数据称为训练集(trainingset)。调整权重可以采用许多不同的方法。对本类问题最常用的方法就是反向传播(b
29、ackpropagation,简称 backprop 或 BP)方法。有关反向传播问题,我将会在本书的后面,当你已能训练神经网络来识别鼠标走势时,再来进行讨论。在本章剩余部分我将集中注意力来考察另外的一种训练方式,即根本不需要任何导师来监督的训练,或称无监督学习(unsupervised learnig)。这样我已向你介绍了一些基本的知识,现在让我们来考察一些有趣的东西,并向你介绍第一个代码工程。4. 聪明的扫雷机工程( Smart Minesweeper Project)我要向你介绍的第一个完整例子,是怎么使用神经网络来控制具有人工智能的扫雷机的行为。扫雷机工作在一个很简单的环境中,那里只有扫雷机以及随机散布的许多地雷。图 7 运行中的演示程序。