1、学习,学习就是对信息进行编码,其目的就是通过向 有限个例子(训练样本)的学习来找到隐藏在例子背后(即产生这些例子)的规律(如函数形式)。,编码,我们使用状态级(behavioristic)编码准则。如果输入激励为 ,而响应为 ,则认为系统学会了激励响应对 。输入输出对 表示函数 的一个采样。函数将n维矢量X映射到p维矢量Y,学习过程,由所有的输入 得到响应 那么系统就学习了函数。,学习过程,若输入 系统就会得到响应 ,则表明系统近似或部分的学习了函数,即系统把相似的输入映射为相似的输出,由此估计出一个连续的函数。,学习与改变,当样本数据改变系统参数时,系统学习、自适应或自组织这些改变。在神经网
2、络中表现为突触的改变,而不是神经元的改变(尽管有时神经元也学习新的状态)。注:突触的改变就是权值的学习过程,而神经元的改变只是网络的演化 。,结论,当激励改变了记忆介质并使改变维持相当长一段时间后,系统才学会了 。这也说明了传统的解释学习是半永久的变化。如果我们通过了微积分的考试,那么可以说我们学会了微积分,并且可以持续这种“会“的状态一段时间。,举例,画家画画除草机除草,学习与量化,学习模式与样本模式之间存在严重的不匹配。通常系统只能学会样本模式环境中一小部分样本模式,而可能的样本数量使无穷的。,学习与量化,量化的必要性系统的存储量是有限的,这就要求系统要通过学习学会用新的样本模式替换旧的样
3、本模式,从而形成样本模式的内部表达或采样模式的样机。学会了的样机定义量化模式 。,学习与量化,量子化 量子化,把样本模式空间 分成k个区域:量子化区域决策组。被学习的原型矢量在一个足够大的模式空间 中定义了个 突触点。当且仅当某个 在 中移动时,系统才进行学习。,学习与量化,矢量量子化规则 矢量量子化可以按照不同的规则进行优化。原型可以扩展以使矢量量子化均方误差最小或使某些数字性能规则最优。更一般的,量子化矢量可以估计样本模式的未知的概率分布,即,原型矢量的分布可以统计的代表样本模式的未知分布。,非监督学习,描述样本模式x在样本空间 中的连续分布的概率密度函数 未知,通过学习来更精确的估计 。
4、非监督学习不作 的假设,只是利用最少限度的信息 。利用“无标志”的模式样本,“盲目”处理模式样本 ,其计算复杂度小,精确度小,但是速度快,适用于高速环境。,监督学习,监督器假设了一种样本模式分组结构或 性能 。监督学习算法依赖于每个学习样本的分组隶属度信息,即,假设 分成: 所以算法可以检查出错误分组或计算出“错误”信息或矢量。,监督学习,计算较复杂,精确度较高,但是速度较慢。,在神经网络中的区别,监督学习利用在所有可能的突触值的联系空间中估计出的梯度下降,来估计依赖于的未知均方性能的测度梯度。监督器利用分组隶属度信息来确定数字误差信号或矢量,以引导估计出的梯度下降。,在神经网络中的区别,非监
5、督学习类似与生物突触,利用神经信号的局部信息来改变参数,而不利用分组隶属度信息,处理未标志的原始数据。它自适应的把样本模式分成模式簇 ,突触扇入矢量估计样本模式的分组轨迹,这个过程依赖于未知概率密度函数 ,其它非监督神经系统具有模式状态空间(pss)的吸引子低谷AB,AB对应于模式分组。,在神经网络中的区别,一阶差分或一阶微分方程可以用来定义非监督学习定律。一般来说,随机微分方程定义了非监督学习定律,并且描述了突触如何处理局部信息。,局部信息,局部信息:突触可以简单获得的,经常是表示突触性质和神经信号性质的信息 。局部化使突触可以实时、异步地学习,不需要全局的误差信息,也使非监督学习定律的函数
6、空间缩小,即,突触只能获得局部非常有限的信息。,局部信息,局部的非监督突触把信号和信号联系起来,形成由局部化限定的共轭或相关学习定律。学习定律中只包含神经元、突触和噪声三项。 借助于联想可以进一步缩小函数空间,它把模式联系起来。通过 把 、 联系起来,神经网络估计函数 和未知的联合概率密度函数 。,四个非监督学习定律,主要介绍了信号Hebbian学习、 微分Hebbian学习、 竞争学习、 微分竞争学习 这四种非监督学习定律。,四个非监督学习定律,首先介绍这四种非监督学习定律的确定性形式;为了在实际中严密论述学习定律的随机形式,再简单回顾一下概率论、随机过程、布朗运动和白噪声;最后,对这四种非
7、监督学习的学习定律的性质分别加以简单介绍。,确定信号的Hebbian学习定律,局部神经信号: 或简化为:,确定信号的Hebbian学习定律,若 ,则第 个连接被激活若 ,则第 个连接被抑制 :是单调非下降函数,其作用就是把激励或膜电位 转化为有界信号 。,确定性的竞争学习定律(Grossberg,1969),用是竞争信号调整信号突触的差,即:,确定性的竞争学习定律 (Grossberg,1969),若 ,则输出神经元场 中的第 个神经元赢得竞争;若 ,则输出神经元场 中的第 个神经元输掉竞争。,确定性的竞争学习定律 (Grossberg,1969),竞争可以归结为最近的模式匹配。 是一个度量指
8、示器函数。,确定性的竞争学习定律 (Grossberg,1969),实际中, 是线线性的,即, 输入模式矢量 就代表了神经元场 中的输出。此时,竞争学习准则就成为线性竞争学习准则:,确定性的微分Hebbian学习准则(Kosko,1988),学习准则 信号速度: 虽然信号是非负的,但是速度则可正可负,确定性的微分竞争学习定律,学习法则: 微分竞争,只有改变了才学习,速度 使局部奖惩强化。,确定性的微分竞争学习定律,线性微分竞争学习法则:,布朗运动和白噪声,布朗运动的样本是一个连续的不断抖动的曲线。白噪声是理想化的布朗运动的时间导数,是在无限宽的频带上的一个平的频谱,因而具有无穷大的平均能量,三
9、概率空间和随机过程,随机过程是随机变量族的序列,更一般的讲,是随机矢量族的序列(即多维随机矢量)。随机过程也是有序号的随机变量,不同序号的集合定义了不同的随机过程。一个有限序号集定义了一个随机矢量,如 一个有限可数的序号集定义了一个随机序列。一个连续或不连续的序号集定义了一个随机过程。,可测性,随机过程 是 的函数,就是在算子T的作用下将 映射成 。映射X必须是可测的 。,可测性,假设, 的子集 由区间乘积构成:假设 的子集 由n个被映射到 的矢量构成: 如果, 则集合 是 的一个可测子集,或Borel集,则概率 也确定了。,可测性,一般来说,函数或映射当且仅当可测集的反向映射集是可测集时,才
10、是可测的。,概率空间,定义了概率空间,a. 为概率空间提供点或元素事件b.集合集 为概率空间提供点或事 件的集合c.概率测度 把集合事件在 上以数字加权。,Sigma代数,Sigma代数或Sigma场,是样本空间的集合族。 若 表示Boerl场, 的拓扑Sigma代数,它包含了 的Borel可测子集,概率测度,定义:若 在 的不相交子集 上是可数、加性的,即: 则 定义了一个概率测度,概率测度,概率测度把有限的非负数赋予 的集合。概率空间 上, 。,累积概率函数,随机矢量 其累积概率函数 为 简记为 ,或直接记为,概率密度函数,假设 有连续的偏导数,则概率密度 函数为: 是非负的实数,其和或积
11、分为1:,高斯密度函数,高斯密度函数 是最重要的概率密度函数之一 其中, 为随机矢量x的平均值,数学期望,数学期望是,互相关,互相关是,互协方差,互协方差是,互协方差阵,互协方差阵是,互相关协方差矩阵,互相关协方差矩阵,不相关,若X、Z不相关,则,独立,若X、Z相互独立,则,条件概率密度函数,条件概率密度函数 是,条件期望,条件期望是,条件独立,条件独立,指示器函数,则可以定义 指示器函数,指示器函数,数学期望,收敛定义,收敛定义,四种收敛方法:,以概率1收敛:依概率收敛,四种收敛方法:,均方收敛依分布收敛,四种收敛方法,四者关系: 以概率1收敛 均方收敛 依概率1收敛 依分布收敛, 上述逆不
12、成立。,高斯白噪声,高斯白噪声是布朗运动的伪导数过程 :连续的布朗运动扩散或Wiener过程 定义:,高斯白噪声,白噪声过程是零均值和时间域不相关的,高斯白噪声,具有有限的方差,高斯白噪声,有一个确定性的自相关函数,高斯白噪声,自相关函数为,宽平稳随机过程,当且仅当时间变化不影响一、二阶矩时,一个随机过程才是宽平稳随机过程,即,噪声随机非监督学习定律,首先考虑一般的情况,噪声随机非监督学习定律,引理:,噪声随机非监督学习定律,引理说明:随机突触在平衡态振动,而且至少和驱动的噪声过程的振动的一样大,突触矢量 在每个t都振动,其平均值为一常数,即围绕常值 作布朗运动。,随机平衡,当突触 停止运动,确定的Hebbian学习定律出现了随机平衡,竞争学习定律,随机竞争学习定律用随机竞争信号 调制随机矢量差 ,并加上独立高斯白噪声矢量 来模型化那些未模型化的效应,线性竞争学习定律,线性竞争学习定律以X代替线性信号矢量,离散随机差分方程系统,常用竞争学习算法作为离散随机差分方程系统,自组织映射系统,Kohonen把下面简化的非监督随机系统称为自组织映射系统,