1、统计案例要点梳理1.回归分析( 1)定义:对具有 的两个变量进行统计分析的一种常用方法 .( 2)随机误差:线性回归模型用 y=bx+a+e表示,其中 a和 b为模型的 , 称为随机误差 .( 3)样本点的中心在具有线性相关关系的数据( x1,y1) , (x2,y2),( xn,yn)中,回归方程的截距和斜率的最小二乘估计公式分别为:相关关系未知参数 e基础知识 自主学习其中 称为样本点的中心 .( 4)相关系数,., , r= 当 r 0时,表明两个变量 ;当 r 0时,表明两个变量 .r 的绝对值越接近于 1,表明两个变量的线性相关性.r 的绝对值越接近于 0时,表明两个变量之间.通常
2、|r|大于 时,认为两个变量有很强的线性相关性 .正相关负相关越强几乎不存在线性相关关系 0.752.残差分析( 1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:.( 2)残差数据点和它回归直线上相应位置的差异( yi- )是 的效应,称 为残差 .( 3)残差平方和 .随机误差3.独立性检验( 1)分类变量:变量的不同 “ 值 ” 表示个体所属的 ,像这类变量称为分类变量 .(4)相关指数R2= .R2的值越大,说明残差平方和 ,也就是说模型的拟合效果越好 .在线性回归模型中, R2表示解释变量对预报变量变化的贡献率, R2越接近于 1,表示回归的效果越好 .越小不同类别(
3、 2)列联表:列出两个分类变量的 ,称为列联表 .假设有两个分类变量 X和 Y,它们的可能取值分别为 x1, x2和 y1, y2,其样本频数列联表(称为 22 列联表)为22 列联表y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 频数表构造一个随机变量 K2= , 其中 n= 为样本容量 .( 3)独立性检验利用随机变量 来确定是否能以一定把握认为 “ 两个分类变量 ” 的方法称为两个分类变量的独立性检验 .a+b+c+dK2有关系基础自测1.相关系数度量 ( )A.两个变量之间线性相关关系的强度B.散点图是否显示有意义的模型C.两个变量之间是否存在因果关系D.两个变量之间是否存在关系解析 相关系数来衡量两个变量之间线性相关关系的强弱 .A2.甲、乙、丙、丁四位同学各自对 A、 B两变量的线性相关性作试验,并用回归分析方法分别求得相关系数 r与残差平方和 m如下表:则哪位同学的试验结果体现 A、 B两变量更强的线性相关性? ( )A.甲 B.乙 C.丙 D.丁解析 r 0且丁最接近 1,残差平方和越小,相关性越高,故选 D. 甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 115 106 124 103 D