1、第九章 简单相关与简单回归 第一节 概念 复习:中学数学中的函数关系 自然界中:现象之间的关系 性状之间的关系 依变量和因变量之间的关系: 人的身高与年龄的关系 疫病的发生与消毒的关系 等等 这些关系在取得数据后可以进行量化、也可以用某 一个关系式来表示,这就是相关和回归 变量之间的关系有以下几种: 两个变量的关系: 与 简单相关(线性关系) 曲线相关(非线性关系) +多项式 多个变量的关系: 多元相关(线性关系) 与 (非线性关系) 典范相关 与 第二节 相关关系 一、相关系数的确定 对某一个样品,同时测量其两个指标(或性状), 得到两个变量,一个记为 x,另一个记为 y 每一样品就有一对
2、x 和 y,共观测了 n 个样品,因 而记录了 n 对( x, y) 将这 n 对( x, y)在一个直角坐标系内描点,并观 察这些点的位置、排列和趋向 这些点排列得越整齐,表明这两个变量的关系越紧 密,即这两个指标的关系越密切 反之,则表示这两个指标的关系越松散 两个指标的这种关系及其性质可以用一个数值来表 示,这个数值就是相关系数 在已经描点的直角坐标系中找到这些点的中心位置 将直角坐标系平移到以 为新原点的位置上, 所有点的相对位置并没有变,但各个点的坐标值 变了,即由原来的 变为 并被新坐标系分到 4 个象限中 分布在 、 象限内的点其坐标乘积为 分布在 、 象限内的点其坐标乘积为 求
3、所有点的坐标乘积和 这一坐标乘积和将出现三种情况: 表示分布在 、 象限内的点多 表示分布在 、 象限内的点多 表示这些点在 4个象限内分布很 均匀 称为离均差乘积和,简称乘积和: SP 第一、二两种情况所得到的数值的绝对值越大,就表 示两个变量的关系越紧密 因此我们可以用乘积和的大小来表示两个变量关系的 性质和密切程度 但 x、 y 是有单位的,且变异程度也不同,每批资料 所得到的数值对子数也不等 因此,应对变量进行标准化,将其化成相对数,相乘 并相加后再行平均 对总体而言,我们可以得到: 对样本而言,就得到: 和 是纯量,无单位,可以用来表示不同总体和 样本两个变量的密切程度和性质 称为双
4、变量总体的相关系数 称为双变量样本的相关系数 样本的相关系数还可以这样写: 即分子为乘积和,或协方差 分母为两变量平方和的乘积平方根,或两个标准差 相关系数的性质和取值范围: 当大多数点在 、 象限时, 则 当大多数点在 、 象限时, 则 当所有的点:或全在 、 象限,或全在 、 象 限内,则这些点必排成一条直线,这时, 这就是函数关系,函数关系在生物界是不存在的 当这些点很均匀地分散于 4个象限时,我们有: 则 或 ,表示两变量不相关,称为零相关 零相关在生物界中也很少存在 的取值范围为 , 的绝对值越大,表示两 变量的关系越紧密;反之, 的绝对值越小,则 表示两变量的关系越松散 在实际工作
5、中,我们总是以样本的相关系数 来估 计总体相关系数 ,因此, 也有以上这些性质 在生物学科中,许多变量的关系是不确定的,因此 用一个数量关系来表示两变量的关系就尤为重要 在讨论两变量的关系时,有两种情况需要考虑: 如果仅考虑两变量关系的性质及密切程度,而不考 虑两者的依从关系或因果关系,这两变量是平行 的,仅仅为了方便和人为的需要,将其中一个作 为 x,另一个作为 y,这样所得到的数学关系称为 相关模型 如果两变量的确有主从关系或因果关系,而我们也 希望知道两者的变化规律,这样的数学关系就称 为 回归模型 相关模型和回归模型两者关系紧密,但性质不同 这由两变量在不同的模型中所扮演的角色能看出来
6、 决定系数 的取值范围为 ,且均为正值,因此 不能表 示两变量的性质 的含义是:在变量 x 和 y 的总变异中,可以相互 用线性关系说明的部分在总变异中所占的比例 在很多情况下,用 来表示两变量的关系,有可能 会夸大相关的程度,而使用 则可以更真实地反 映两变量的关系 如当 时,才有 ,即变量 x 和 y 的 线性关系所占的比例才超过 50% 二、相关系数的计算 相关系数的实际使用公式为: (请推导 ) 例:测定某消毒药物的使用量 x( )和消毒 效果 y(以所饲养的实验鸡的健康率表示)两者 数据如下,试分析这两个变量的相关关系: x 30 35 40 45 50 55 60 y 73 78
7、87 88 93 94 96 首先计算一级数据: 三、相关系数的显著性检验 相关系数是否显著(即是否具有真实性),应对其 进行检验检验的假设是: 检验的方法是 t-test: 但我们可以由 t-公式反推出 的临界值 来: 已制成现成的 值表,因此只需将求得的 在相应 自由度下查表,与表中的 相比较即可 本例中, 否定 ,接受 ,即所得相关系数是极显著的 或:查附表 15,得 所得 是极显著的 所谓 显著或 极显著,就是说,有 95% 或 99% 的把握认为这一 是真实存在的,或这两个变量 间的确存在相关 如果 不显著,并不能简单地认为这两个变量间不 存在相关,因为可能还有其他原因 相关系数的分
8、等 完全相关: 零相关: 弱相关: 中等相关: 强相关: -1 -0.67 -0.33 0 0.33 0.67 1 四、相关系数的置信区间 在 的总体中, 的抽样分布并不服从 t-分布或 正态分布,因此在确定 的置信区间时应对 进 行 转换 然后根据 作关于 的 的置信区间 然后将这一置信区间反转换成 的置信区间 具体步骤如下: 将 转换成 : 本例中: 求 的总体参数 及 : 本例中: 的置信下、上限: 本例中: 的置信区间: 本例中: 将 的置信区间转换为 的置信区间: 本例中: 的置信区间: 本例中: 显然,相关系数的置信区间是偏态的 第三节 直线回归 简单相关说明两变量或两性状间是否存
9、在相关关系 及这种关系的密切程度和性质 当一个变量(或性状)是 因 ,而另一变量(或性状 )是 果 ;或两变量间虽无因果关系,但一个变量 易测 ,而另一变量 难测 (或虽易测,但必须经过 破坏,或测定成本太高),而两变量间有较好的 相关性,我们希望通过对一个变量的测定来预测 另一变量,或通过因预测果 这种因果之间依存关系的研究就称为 回归分析 例如,前一例中消毒药物的使用量与消毒效果之间 显然,消毒药物的使用量(因, x)直接影响了消毒 效果(果, y) 第二例中鸡年产蛋量(因, x)直接影响了养鸡户的 纯利收入(果, y) 诸如此类的变量间的关系研究在科研工作中是很多 的 回归分析表现了两变
10、量间一种比较严格的从属关系 ,是用严格的函数关系将一种非确定性的关系确 定下来的过程 如果两变量间的变化规律呈大致的直线关系,就应 当将这条最佳直线找出来,并用一个回归方程来 描述这条直线,从而可以从一个变量 x 的变化来 预测另一个变量 y 的变化 一、直线回归方程的配合 X 与 y 的直线回归方程的一般形式为: 是 y 的估计值, 与实际的 y间会有一定的差异, 当 完全等于 y 时,就是普通数学中的函数关系 每一个 x 都会有一个相应的 x 为自变量,该直线回归方程的读法是: y 依 x 的直线回归 方程中, a 是直线在 y 轴上的截距, b 是回归系数 在数学中, b 即为斜率 即当
11、 x 每变化一个单位时,依变量 y 的平均变化量 因此, b 是有单位的,其单位是: 我们可以将( x, y)在坐标系内作散点图,这些散 点越趋向一条直线,回归方程就越理想 但根据这些散点我们可以作出无数条直线,到底哪 一条直线是最好的?我们如何判断? 判断直线好坏的标准是:这条直线与所有散点的距 离最近 即通过 x 所预测的 与实际的 y 的误差应比任何其 他直线的都来得小 因此,配合直线所使用的原则和方法是 最小二乘法 用最小二乘法所得到的回归直线满足如下两个条件: 称之为离差平方和 即用 估计 y 时的误差最小 对 Q 求 a、 b 的偏微分,并令之为 0: 整理之: 解之: 将所得 a
12、、 b 两值代入方程 ,即得一个能 满足上述两条件的回归方程 B 的符号取决于分子,因此 b 的符号与 r 的符号相 同 b0 时, x 增大, y 也增大,即两变量为正相关 b 2 = SHIFT S-SUM 1 = SHIFT S-SUM 3 = SHIFT S-VAR 1 = SHIFT S-VAR 3 = SHIFT S-VAR 1 = SHIFT S-VAR 3 = SHIFT S-VAR 1 = SHIFT S-VAR 2 = SHIFT S-VAR 3 = 如果输入一个 x, 希望得到一个 y 的估计值 : x 如果输入一个 y, 希望得到一个 x 的估计值 : y SHIFT
13、S-VAR 2 = SHIFT S-VAR 1 = 四、回归系数与相关系数的关系 即相关系数是标准化了的回归系数 同理,可得 两者相乘, 即 即为前面讨论过的决定系数,即相关系数是两个 方向相反的回归系数的几何平均值 相关系数和回归系数的区别和联系: 相关系数是一个纯量,没有单位; 回归系数是有单位的: 相关系数没有方向, 回归系数是有方向的: 为 y 对 x 的回归, 为 x 对 y 的回归 相关系数的分布范围为: 回归系数的分布范围为: 两者的关系: 五、直线回归的估计标准误 (一)总平方和的剖分 的建立,表示了 x 与 y 的关系及其变化规 律 每一个 y 都存在着变异,这一变异的大小可
14、用 y 的 离均差平方和 表示 又称为总平方和,即 结合每一个 x 的预测点 , 可分为两部分: 其中 称为回归平方和,它是由 x 的变化所引起的 y 的变化 它反映了总变异中由于 x 与 y 的线性关系所引起的 y 的变化部分,可用 U 表示 称为离回归平方和,用 Q 表示,这是建立 直线回归方程的依据,这是实际观测值与预测值 之间的离差,是 x 对 y 线性关系以外的一切因素 对 y 变异的作用 因此, 回归平方和 U 和离回归平方和 Q 的大小可用来检验 回归效果的好坏 U 在总平方和中的比例(就是决定系数 )越 大,说明由 x 预测 y 的准确性就越高 即 即总平方和可以剖分成两部分:
15、相关平方和 , 和非相关平方和 ( 二)直线回归方程的估计标准误 表示了 x 对 y 线性影响之外的一切因 素对 y 变异的作用 因此, Q 越大,方程的预测效果就越差,即观测值 离回归直线愈远,因此可以用 Q 来估计直线回归 的标准误: 在上例中: 该例的回归直线估计标准误即为: 六、直线回归的假设检验 (一)直线回归关系或回归系数的 t-test 样本 是对总体 的估计 因此,应对 进行检验,检验该样本直线回 归来自无直线回归关系的总体的概率 当这一概率 p0.05 时,才能认为样本回归方程所 代表的总体的确存在着直线回归关系 这就是回归关系的假设检验 设立无效假设 回归系数 b 的标准误
16、 进行 t-test: 上例中: 即我们有 99% 的把握认为这一总体回归是存在的 显然,我们可以看出,对相关系数的检验和对回归 系数的检验两者是同步的 因此, r 显著, b 必显著;反之 b 显著, r 亦必显著 由于对 r 的检验只需查表即可,比较容易,因此只 需对 r 检验即完成检验工作 相关分析和回归分析的一般程序是: 首先作相关分析;对相关系数进行显著性检验;若 相关系数显著,进行回归分析 数据整理 相关分析 r显著? no end yes 回归分析 (二)回归关系的方差分析 可分解成回归平方和 U 和离回归平方和 Q 也可分解成回归自由度 和离回归自由度 因此,可用方差分析来检验
17、线性回归关系的显著性 方差分析的公式是: 我们也可以写出相应的方差分析表 上例中, 由于方差分析的 F 值等于 t 的平方,因此,对回归 关系的方差分析等同于对回归系数的 t-test,而对 回归系数的 t-test 又等同于对相关系数的 t-test, 因此在实际操作中,只需对相关系数 r 进行显著 性检验就可以了 (三)回归系数的置信区间 遵循 的 t-分布,因此,总体 的 95%置信区间为: 上例中: 同理: 回归系数也可以写成 的形式 上例: 第四节 直线相关与直线回归分析的应用 和注意点 一、相关分析和回归分析的应用 1、 应用相关系数和回归分析能更全面地分析问题 2、 进行预测预报
18、 3、 进行间接估测 4、 校正 5、 回归分析与方差分析相结合进行协方差分析 二、应用相关系数和回归分析的注意事项 1、变量间是否存在相关,必须结合专业知识和实践 经验加以判断 2、两变量间的相关系数如不显著,不等于两变量间 无相关,仅说明线性关系不显著,因此必要时应 寻找其他类型的相关和回归,如非线性相关 3、相关系数显著,且同时存在 时才能将回 归方程用于预测预报 4、估计两变量间的相关时,必须将其余可能对这一 相关产生影响的变量严格地控制起来 5、样本量应尽可能大一些,样本量 n与变量数 m的 关系是: 6、自变量 x的取值范围应就可能大一些,以找到真正 的回归关系 7、回归直线不得任意外延 8、尽量避免一个变量中包含另一个变量,这样变量 中有可能包含自身相关的部分 相关分析和回归分析是一个十分有用的工具,但不是 万能的,因此使用相关分析和回归分析时应注意其 特殊性 (*) end 谢谢 骑 封 篙 尊 慈 榷 灶 琴 村 店 矣 垦 桂 乖 新 压 胚 奠 倘 擅 寞 侥 蚀 丽 鉴 晰 溶 廷 箩 侣 郎 虫 林 森 - 消 化 系 统 疾 病 的 症 状 体 征 与 检 查 林 森 - 消 化 系 统 疾 病 的 症 状 体 征 与 检 查