MyResearch&Planning.ppt

上传人:ga****84 文档编号:350293 上传时间:2018-09-25 格式:PPT 页数:150 大小:2.32MB
下载 相关 举报
MyResearch&Planning.ppt_第1页
第1页 / 共150页
MyResearch&Planning.ppt_第2页
第2页 / 共150页
MyResearch&Planning.ppt_第3页
第3页 / 共150页
MyResearch&Planning.ppt_第4页
第4页 / 共150页
MyResearch&Planning.ppt_第5页
第5页 / 共150页
点击查看更多>>
资源描述

1、Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 1,郑伟诗智能科学系wszhengieee.orghttp:/www.eecs.qmul.ac.uk/jason/,统计分析进阶,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 2,统计分析进阶,课程安排隐马尔可夫模型多元统计分析:简介多元主成分分析案例分析程序发往作业:发至 exercise_ (不要发到我的ieee邮箱)作业截止时间:9月8日,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 3,I 隐马尔可夫模型,隐马

2、尔可夫模型(HMM)的由来马尔可夫性和马尔可夫链HMM实例HMM的三个基本算法,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 4,HMM的由来,1870年,俄国有机化学家Vladimir V. Markovnikov第一次提出马尔科夫模型马尔可夫模型马尔可夫链 隐马尔可夫模型,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 5,马尔可夫性,如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程X(t+1) = f( X(t) )隐马尔可夫:只观察到Oi, Oi由

3、隐含变量Xi的状态值决定,且(Oi,Xi)独立。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 6,马尔科夫链,时间和状态都离散的马尔科夫过程称为马尔科夫链记作Xn = X(n), n = 0,1,2,在时间集T1 = 0,1,2,上对离散状态的过程相继观察的结果链的状态空间记做I = a1, a2, aiR. 条件概率Pij ( m ,m+n)=PXm+n = aj|Xm = ai 为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj的转移概率。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 7

4、,转移概率矩阵,晴天 阴天 下雨晴天 0.50 0.25 0.25阴天 0.375 0.25 0.375下雨 0.25 0.125 0.625,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 8,转移概率矩阵(续),由于链在时刻m从任何一个状态ai出发,到另一时刻m+n,必然转移到a1,a2,诸状态中的某一个,所以有当Pij(m,m+n)与m无关时,称马尔科夫链为齐次马尔科夫链,通常说的马尔科夫链都是指齐次马尔科夫链。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 9,HMM实例实例描述,设有N个缸,每个缸中

5、装有很多彩球,球的颜色由一组概率分布描述。实验进行方式如下根据初始概率分布,随机选择N个缸中的一个开始实验根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为O1,并把球放回缸中根据描述缸的转移的概率分布,随机选择下一口缸,重复以上步骤。最后得到一个描述球的颜色的序列O1,O2,,称为观察值序列O。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 10,HMM实例约束,在上述实验中,有几个要点需要注意:不能被直接观察缸间的转移从缸中所选取的球的颜色和缸并不是 一一对应的每次选取哪个缸由一组转移概率决定,Wei-Shi Zhengwszhengieee

6、.org,9/25/2018, Page 11,HMM概念,HMM的状态是不确定或不可见的,只有通过观测序列的随机过程才能表现出来观察到的事件与状态并不是一一对应,而是通过一组概率分布相联系 HMM是一个双重随机过程,两个组成部分: 马尔可夫链:描述状态的转移,用转移概率描述。 一般随机过程:描述状态与观察序列间的关系, 用观察值概率描述。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 12,Markov链(, A),随机过程(B),状态序列,观察值序列,q1, q2, ., qT,o1, o2, ., oT,HMM的组成示意图,HMM组成,Wei-

7、Shi Zhengwszhengieee.org,9/25/2018, Page 13,HMM的基本要素,用模型五元组 ( N, M, ,A,B)用来描述HMM,或简写为 =( ,A,B),Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 14,HMM可解决的问题,问题1:给定观察序列O=O1,O2,OT,以及模型 , 如何计算P(O|)?问题2:给定观察序列O=O1,O2,OT以及模型,如何选择一个对应的状态序列 S = q1,q2,qT,使得S能够最为合理的解释观察序列O?问题3:如何调整模型参数 , 使得P(O|)最大?,Wei-Shi Zheng

8、wszhengieee.org,9/25/2018, Page 15,解决问题1 的基础方法,给定一个固定的状态序列S=(q1,q2,q3) 表示在qt状态下观测到Ot的概率 计算量相当大,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 16,解决问题1 前向法,定义前向变量初始化:递归:终结:,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 17,前向法示意图,1 . t t+1 .,a1j,at1,qN.qi.qj.q1,atN,ati,aNj,aij,N=5, M=100, = 计算量3000,Wei-S

9、hi Zhengwszhengieee.org,9/25/2018, Page 18,解决问题1 后向法,与前向法类似定义后向变量初始化:递归:终结:,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 19,解决问题2: Viterbi算法,目的:给定观察序列O以及模型,如何选择一个对应的状态序列S ,使得S能够最为合理的解释观察序列O?N和T分别为状态个数和序列长度定义:我们所要找的,就是T时刻最大的 所代表的那个状态序列,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 20,解决问题2: Viterbi算法,

10、初始化:递归:终结:求S序列:,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 21,解决问题3: Baum-Welch算法(模型训练算法),目的:给定观察值序列O,通过计算确定一个模型l , 使得P(O| l)最大。算法步骤:1. 初始模型(待训练模型) l0,2. 基于l0 以及观察值序列O,训练新模型 l;3. 如果 logP(X|l) - log(P(X|l0) 0,则,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 59,均值向量的估计,在一般情况下,设样本矩阵为:,设样品 相互独立,同遵从于P元正态

11、分布 ,而且np,0,则总体参数均值的估计量是,均值向量和协方差阵的估计,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 60,即均值向量的估计量,就是样本均值向量.这可由极大似然法推导出来。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 61,协方差阵的估计,总体参数协差阵的极大似然估计是,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 62,其中L是离差阵,它是每一个样品(向量)与样本均值(向量)的离差积形成的n个 阶对称阵的和。同一元相似, 不是的无偏估计,为了

12、得到无偏估计我们常用样本协差阵 作为总体协差阵的估计。,62,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 63,3. 多元线性回归分析,1.多元线性回归的数学模型,2.模型参数的最小二乘估计,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 64,多元线性回归的数学模型, 模型的理论假设,是因变量,则多元线性回归模型的理论假设是,为随机误差.,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 65, 模型的建立,求 p 元线性函数,的经验回归方程,的统计估计,称为经验回

13、归系数.,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 66,模型的数据结构,方便,我们引进矩阵,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 67,于是,多元线性回归模型的数据结构为,称为多元样本回归方程,其中,称为回归设计矩阵或资料矩阵.,模型的数据结构,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 68, 条件,表明,,是一个满稚矩,的个数应当大于解释变量的个数. 违反该假设时,称模型存在多重共线性问题., 条件,且各个,相互独立,对多元线性回归模型理论假设

14、的说明,68,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 69,时,称回归模型存在自相关.,当模型违反上述假设后,就不能使用最小二乘法估计来求解回归系数.解决方法可参考回归分析相关教材。先介绍模型符合假设时的参数估计方法.,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 70,模型参数的最小二乘估计, 参数估计的准则,定义离差平方和,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 71,计,称,拟合值.称,Wei-Shi Zhengwszhengieee.org,9

15、/25/2018, Page 72,参数估计的算法,当满足元线性回归模型理论假设的条件时,模型参数,的最小二乘解为,可以证明,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 73,其中,波动大小可以由抽样过程中进行控制.同一元线性回归分,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 74,主成分分析主成分回归,主成分分析,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 75,汇报什么?,假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借

16、贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗? 当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。,75,例子,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 76,主成分分析,每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来

17、对它们进行描述。介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 77,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息

18、外贸平衡等等。,主成分基本思想,77,一个经济学的例子:,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 78,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 79,Wei-Shi Zhengwszhe

19、ngieee.org,9/25/2018, Page 80,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 81,成绩数据: 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 82,从本例可能提出的问题,目前的

20、问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 83,主成分分析,例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定

21、下是可能的)那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。,83,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 84,主成分分析,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去

22、次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。,84,几何分析,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 85,几何分析,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 86,主成分分析,对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(princ

23、ipal component)。,86,几何分析,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 87,主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。 很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 88,(1) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。,在力求数据信息丢

24、失最少的原则下,对高维的变量空间降维,寻找主成分,即研究指标体系的少数几个线性组合,这些综合指标将尽可能多地保留原来指标变异方面的信息。 要讨论的问题是:,88,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 89,(2) 选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 (3)如何解释主成分所包含的实际意义。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 90,数学模型与几何解释,假设我们所讨论的实际问题中,有p个

25、指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 91,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 92,满足如下的条件:,主成分之间相互独立,即无重叠的信息。即

26、,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 93,主成分分析的几何解释,平移、旋转坐标轴,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 94,为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和

27、x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 95,主成分分析的几何解释,平移、旋转坐标轴,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 96,如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 97,旋转变换的目的是为了使得n个样品点在Fl轴方

28、向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 98,Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。,

29、Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 99,主成分分析数学基础简介,一、两个线性代数的结论,1、若A是p阶实对称阵,则一定可以找到正交阵U,使,其中 是A的特征根。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 100,2、若上述矩阵的特征根所对应的单位特征向量为,则实对称阵 属于不同特征根所对应的特征向量是正交的,即有,令,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 101,主成分的推导,(一) 第一主成分,设X的协方差阵为,由于x为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 102,其中1, 2, p为x的特征根,不妨假设1 2 p 。而U恰好是由特征根相对应的特征向量所组成的正交阵。,下面我们来看,是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差。,Wei-Shi Zhengwszhengieee.org,9/25/2018, Page 103,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。