1、直线回归与相关赵耐青复旦大学公共卫生学院卫生统计教研室1直线回归 举例说明回归背景问题 通过该例导出直线回归的意义 简述正态分布的性质 由此导出直线回归分析对资料的要求 简述直线回归的回归系数检验 直线回归的预测值及其 95% 可信区间 标准曲线制作中的直线回归问题 直线回归分析小结 思考题2直线回归掌握的要点 直线回归方程 (总体 )是描述什么? 直线回归分析对资料有什么要求? 直线回归分析的具体基本步骤是什么? 在直线回归中, Y是否一定为随机变量? 在直线回归中, X是否一定为随机变量? 在直线回归中,预测值 的意义是什么? 在直线回归中,回归系数 b的意义是什么?3举例 例 为了研究
2、3岁至 8岁男孩人群平均身高 (cm)与年龄 (year)的规律,在某地区在 3岁至 8岁男孩中随机抽样,共分 6个年龄层抽样: 3岁, 4岁, , 8岁,每个层抽 3名男孩,共抽 18名男孩。资料如下:4本例的研究目的和实现方法 研究目的:了解年龄与儿童人群的平均身高对应关系。 方法 1:可以做普查,得到每个年龄组所有儿童的身高,并且计算每个年龄组的儿童人群的平均身高。 方法 2:作抽样调查,本例就是通过按年龄组分层抽样调查,获得样本后用回归分析的方法得到每个年龄组儿童人群的平均身高估计值和相应的统计推断。5儿童身高的分布特征 一般而言,儿童身高满足 同一年龄 x的儿童身高 y近似服从正态分
3、布,因此对于每个年龄 x, 均有一个身高y的总体均数 。 不同年龄 x的儿童身高分别近似服从对应不同身高总体均数 的正态分布。 身高的总体均数 是年龄 x的一个函数6画散点图考查身高与年龄的分布关系Y的离散程度与 X没有关系,并且散点呈直线带7画散点图考查身高总体均数与年龄的关系 年龄组的身高样本均数与年龄的散点图8由散点图确定身高总体均数与年龄可能是直线关系 年龄组的身高样本均数与年龄的散点图显示年龄组的身高样本均数与年龄几乎在一条直线上,略有些偏离直线的点可以理解为样本均数的抽样误差所致,因此可以假定固定年龄的身高总体均数 与年龄 x的关系可能是直线关系,即假定:9回归方程 并且称上述直线方程为 (总体 )回归方程。 回归方程中 , 为未知参数,需要 用样本资料通过拟合曲线后得到其估计值,并分别记为 a和b, 相应得到样本估计的回归方程 通常称 为 Y的预测值,其意义为固定 x, Y的总体均数 的估计值。10