第八章 相关与回归分析 - 三眼教育-互联网数据分析师.ppt

上传人:da****u 文档编号:1178362 上传时间:2018-12-17 格式:PPT 页数:73 大小:1.94MB
下载 相关 举报
第八章 相关与回归分析 - 三眼教育-互联网数据分析师.ppt_第1页
第1页 / 共73页
第八章 相关与回归分析 - 三眼教育-互联网数据分析师.ppt_第2页
第2页 / 共73页
第八章 相关与回归分析 - 三眼教育-互联网数据分析师.ppt_第3页
第3页 / 共73页
第八章 相关与回归分析 - 三眼教育-互联网数据分析师.ppt_第4页
第4页 / 共73页
第八章 相关与回归分析 - 三眼教育-互联网数据分析师.ppt_第5页
第5页 / 共73页
点击查看更多>>
资源描述

1、第 11章聚类分析与判别分析 聚类分析判别分析聚类分析引言相似性度量系统聚类K-均值聚类聚类分析的 SPSS实现引言l 物以类聚,人以群分。l 例:中国的民族分成若干类,上市公司分类,等等l 对于一个数据集,人们既可以对变量(指标)进行分类(称为 R型聚类),也可以对观测值(个案,样品)来分类(称为 Q型聚类)。这两种聚类在数学上是对称的,没有什么不同。33例:哪些少数民族的生存状况更接近? 民族 原始数据标 化死亡率 () 出生 时 期望寿命 (岁 )满 族 5.80 70.59朝 鲜 族 7.44 67.14蒙古族 8.11 65.48维 吾 尔 族 10.21 58.88藏族 9.51

2、59.24哈 萨 克族 9.81 60.47*标化死亡率是根据相同的人口年龄结构(标准组)计算的,因而更具可比性。44聚类分析需要解决的一个问题l 如何衡量样本点之间的距离或相似程度?l 距离 ,主要用于样品(观测)间相似性度量l 相似系数 ,主要用于变量间相似性度量55常用的距离的计算方法l 设每个样品有 p个指标(变量)。把 n个样品看成 p维空间中的 n个点,则两个样品间相似程度就可用 p维空间中的两点距离公式来度量。l 两点距离公式可以从不同角度进行定义。l 当变量的测量值相差悬殊时,要先进行 标准化 ,以消除计量单位对计算结果的影响。66常用的距离的计算方法l 欧氏距离( Eucli

3、dean)l 平方欧氏距离 Squared Euclideanl 切比雪夫距离( Chebychev)77明考夫斯基距离 (明氏距离 )*按 q的取值不同可以包括多种距离计算方法。例如:88相似系数的计算方法l 变量间 的相似性可以从它们的方向趋同性或 “相关性 ”进行考察, “夹角余弦法 ”和 “相关系数 ”两种主要度量方法,统称为相似系数。(1) 夹角余弦 *两变量 Xi与 Xj看作 p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算显然, cos ij 1。99相似系数的计算方法(2) Pearson相关系数 Pearson相关系数经常用来度量变量间的相似性。变量 Xi与 Xj的 Pearson相关系数定义为显然也有, rij 1。1010

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课件讲义

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。