1、 第十四章 直线回归分析上一章我们学习了对每个研究对象同时观察两个指标 的成对数据进行关联性分析方法。本章将讨论成对观 察数据中变量间的数量依存关系。“回归 ”一词最早由 Golton在一项有关父亲与儿子身高 的研究中提出。后来人们借用 “回归 ”这个词来描述通 过自变量的数值预测反应变量的平均水平。为了通过可测或易测的变量对未知或难测或不可测变 量的状态进行估计,可以借助于回归分析。为了研究父亲与成年儿子身高之间的关系,卡尔 .皮尔逊测量了 1078对父子的身高。把 1078对数字表示在坐标上,如图。例如儿子的身高与父亲的身高有着某种依存关系,可以用回归分析的方法去研究这种关系,即把两个变量
2、间的数量依存关系用函数形式表示出来,用一个或多个变量去推测另一个变量的估计值和波动范围,这就是回归分析。例如,我们可以用身高、体重、肺活量的这些容易测 量的指标来估计心室输出量、体循环总血量等相对难 测的指标。我们把被估计或预测的变量称为因变量 (dependent variable),或称反应变量 (response variable),常用 y表示; y 所依存的变量称为自变量 (independent variable),或称解释变量 (explanatory variable),或称预测因子 (predictor),常用 x表示。第一节 直线回归方程的建立一、直线回归的概念本章重点介绍
3、两个连续性变量之间的线性依存关系的统计方法,简称线性回归 (linear regression)。 例 14.1 某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对 20名男性志愿受试者测量其腰围 (cm),并采用磁共振成像法测量其腹腔内脂肪面积 (cm2),结果如表 14.1所示。试建立腹腔内脂肪面积 ( y )和腰围 ( x )的直线回归方程。表 20名男性志愿受试者腰围和腹腔内脂肪面积的测量值为直观理解男性腰围与腹腔内脂肪面积的关系,以腰围为横轴,腹腔内脂肪面积为纵轴,描出 20对数据散点图如图 14.1。腰围 (cm)图 14.1 两 变 量直 线 回 归 关系散点 图 腹腔内脂肪面积(cm2)如上图所示,可见散点大致呈直线趋势。即假设有一条潜在的直线可用来刻画两变量之间的关系,这样的直线称为回归直线。通常用 来表示回归直线上各点的纵坐标,其数值是当 x 取某一值时因变量 y 的总体均数的估计值。在数学上,描述因变量 (y)依赖于另一自变量 (x)的变化而变化的方程称为直线回归方程,也称为直线回归模型,表述为:其中, y为个体的因变量值, x为其自变量值, 为回归直线的截距参数, 为回归直线的斜率参数,又称回归系数。