1、第十二章 线性回归分析 练习题 一、最佳选择题 1 表示( )。XYS, 的离散程度 B 对 的离散程度 CY 和 X 的离散程度 Y DY 对 的离散程度 X 的离散程度 2. 用最小二乘法确定直线回归方程的原则是各观察点距直线的( ) 。 A 纵向距离之和最小 B纵向距离的平方和最小 C垂直距离之和最小 D垂直距离的平方和最小确 E纵向距离的平方和最大 3 Y144X 是 17 岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重 换成国际单位 kg,则此方程( ) 。 A 截距改变 B 回归系数改变 C 两者都改变 D两者都不改变 E相关系数改变 4直线回归系数假设检验,其自由度为( )
2、 。 A. n B. n-1 C. n-2 D. 2n-1 . 2(n-1) 5. 当 r0 时, abX 回归方程中( ) 。Y Aa 必大于零 Ba 必等于 Ca 必等于零 X Da 必等于 Ea 必等于 b 6在多元线性回归分析中,应变量总离均差平方和可以分解为回归平方和与残差平方和 两部分,试回答残差系指 ( )。 A观察值 与估计值 之差 iYi B观察值 与平均值 之差i C估计值 与平均值 的平方和之差 i D观察值 与平均值 之差的平方和iY E观察值 与估计值 之差的平方和 ii 二 、问答题 1用什么方法考察回归直线是否正确? 2简述回归系数方差分析 Y 的平方和自由度的分
3、解。 3简述回归分析中 Y 的标准差 与剩余标准差 的区别和联系。YSXYS, 4 简述 与 的区别。YS0 5举例说明如何用直线回归方程进行预测和控制? 6直线回归分析时怎样确定自变量和因变量? 7简述曲线回归常用的几种曲线形式。 三、计算题 1一个产科医师发现孕妇尿中雌三醇含量与产儿体重有关,并且两者之间成正相关。 现收集了 31 例待产妇 24 小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。结果 如下表,求直线回归方程并对回归系数作假设检验。 待产妇尿中雌三醇含量与新生儿体重关系 编号 尿雌三醇 新生儿体重 编号 尿雌三醇 新生儿体重 (mg/24h) (kg ) (mg/24h)
4、 (kg) (1) (2) (3) (4) (2) (3) 1 7 2.5 17 17 3.2 2 9 2.5 18 25 3.2 3 9 2.5 19 27 3.4 4 12 2.7 20 15 3.4 5 14 2.7 21 15 3.4 6 16 2.7 22 15 3.5 7 16 2.4 23 16 3.5 8 14 3.0 24 19 3.4 9 16 3.0 25 18 3.5 10 16 3.1 26 17 3.6 11 17 3.0 27 18 3.7 12 19 3.1 28 20 3.8 13 21 3.0 29 22 4.0 14 24 2.8 30 25 3.9 15
5、 15 3.2 31 24 4.3 16 16 3.2 2为探讨某地饮水中氟含量与氟骨症的关系,试对测量得到的下列 8 对数据进行直线相 关分析 。 氟含量(mg/L)X: 0.47 0.64 1.00 1.47 1.60 2.86 3.21 4.71 患 病 率()Y: 22.37 23.31 25.32 22.29 28.57 35.00 46.07 46.08 (1)按此资料绘制散点图? (2)求直线回归方程并对回归系数作假设检验。 (3)试估计氟含量为 2.00 mg/L 时,患病率平均增加多少,计算其 95的可信区间,并 说明其含义。 (4)求氟含量为 2.00 mg/L 时,患病率
6、 Y 值的 95的容许范围,并解释其含义。 练习题参考答案 一、最佳选择题: 1D 2B 3C 4C 5D 6A 二 、问答题 1答:用以下三种方法判定: (1)直线必须通过点( , ) 。XY (2)若纵坐标、横坐标无折断号,将此线左端延长与纵轴相交,焦点的纵坐标必等于截 距 。a (3)直线是否在自变量 X 的实测范围内。 2答: 即 ,为反应变量 的离均差平方和,表示在未考虑 与 的S总 2Y( ) YXY 回归关系时 的变异,可分解为两部分的变异,一部分为回归平方和,另一部分为剩余平方 和,分别用 和 表示。这三个平方和,各有其相应的自由度 ,其关系为:回 剩 ,总 回 残 , , 。
7、1n总 回 n-2残 3答: 表示在总体中,当 为某一定值时,个体 值的波动范围。而剩余标准差YSXY 是指当 对 的影响被扣除后, 方面仍有变异。这部分变异与 无关,纯属抽样变,YX YX 异。当 与 接近且充分大时,可用 代替 。,XSY 4答: 是 对应 的总体均数的一个样本估计值, 是反映其抽样误差大小的标 YS 准误,其计算公式为 ; 是反映个体 2200()()11YXXXxxSnnl0YS 值的容许区间大小的,也就是说当总体中 为某定值时, 值由于随机误差影响在 上Y 0 下波动的范围的大小就取决于标准差 ,其计算公式为0YS 。0 2 20 0()()11YXXXxxSnnl
8、5答:步骤如下: (1)根于研究目的确定预报因子( )和预报量( ) ,由 估计 值,收集资料。YY (2)建立预报方程 ,并进行回归系数假设检验。若 P 小于检验水准,则回baY 归方程成立。 (3)根据回归方程在 实测范围内对 进行预测,并计算 为某定值时,个体 值波XX 动范围(容许区间) 。例如:17 岁儿童, 为年龄, 为体重,可根据年龄预测(估计)XY 体重。 统计控制是利用回归方程进行逆估计,如要求因变量 值在一定范围内波动,可以通过Y 控制自变量 的取值来实现。步骤同前。例如:针刺哑门穴,进针深度 与颈围 间存在X YX 直线关系,可根据 取值达到控制 的目的。Y 6答: (1
9、)型回归中, 为精密测定和严格控制的变量, 为正态变量。表示原因的为 , 表示结果的为 。Y (2)型回归中, 、 均为服从正态分布的随机变量,互为因果,可计算两个回归X 方程。何者为 ,何者为 ,根据研究目的确定。如身高、体重两变量,若目的只是由身高 估计体重,则确定 为身高, 为体重。Y 7答:曲线回归常用的几种曲线形式有: (1)指数函数( ) ,当 时, 随 上升而上升;当 时, 随()abXe0YXb0Y 上升而下降。X (2)幂函数( ) ,当 时, 随 上升而上升;当 时, 随 上升bY X 而下降。 (3)对数函数( ) ,当 时, 随 上升而上升,先快后慢;当lnaXb0YX
10、 时, 随 上升而下降,先快后慢。b0X (4)logistic 函数( ) ,当 时, 随 上升而下降;当 时,1abXYe b0 随 上升而上升。Y 三、计算题 1解: (1)计算获得: , , , , ,534X298769.2Y234.81750XY ,.1.Y534.01.02298767.1X 代入公式: 4120.6.XYb3.20617.35aY5 (2)回归系数假设检验: ,即孕妇尿中雌三醇含量与产儿体重有直线关系0:H ,即孕妇尿中雌三醇含量与产儿体重无直线关系1.5 由上面的计算结果: , ,267.4X26.74Y4.12XY21.3.Y ,308XS08.1567.4
11、bS 所以, .614.5t 自由度 ,查 t 值表, , ,按 检验水准,329v0.1/2,9.6t0.1P0.5 拒绝 ,认为待产妇 24 小时尿中雌三醇含量与产儿体重之间存在线性回归关系。0H 2解: (1) 散点图如下 氟 含 量 与 患 病 率 的 散 点 图 0 5 10 15 20 25 30 35 40 45 50 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 氟 含 量 ( mg/L) 患病 率( %) (2) 由原始数据及散点图初步分析,估计本资料有直线趋势,故作下列计算 , ,15.96X247.02.X , , ,240Y86Y31Y594.2XY2
12、25.98Xln222 4.086.771.3Yl59640. 97.88XXYln 97.486.215XYlb3.018.29a 回归系数假设检验: ,即氟含量与患病率之间无线性关系0:H ,即氟含量与患病率之间有线性关系1.578.02YSl总 29465.9831.Xl回 2.9.045S剩 总 回 方差分析(见表): 方差分析表 变异来源 SS df MS F P 回归 625.983 1 625.983 40.805 0.01 剩余 92.045 6 15.341 总变异 718.028 7 计算得 ,查 界值表,得 P0.01,按 水准,拒绝 ,接受 ,16.47F0.50H1
13、可认为氟含量与患病率间有直线关系。 t 检验: ,即氟含量与患病率之间无线性关系0:H ,即氟含量与患病率之间有线性关系1.578.02YSl总 29465.9831.Xl回 2.9.045S剩 总 回 .028YXSn剩06.4.3839215bYXtl 按 ,查 t 界值表,得 ,按 水准,拒绝 ,接受 ,结论同6v0.P00H1 上。本题 ,故可用直线回归方程 来tF.81.48.2964YabXX 描述患病率与增加氟含量的关系。 异常点即对应于( )绝对值特大的观测数据见表 残差的计算 序号 X Y 1 0.47 22.37 21.31 1.06 2 0.64 23.31 22.40
14、0.91 3 1.00 25.32 24.71 0.61 4 1.47 22.29 27.72 5.44 5 1.60 28.57 28.56 0.01 6 2.86 35.00 36.65 1.65 7 3.21 46.07 38.90 7.17 8 4.71 46.08 48.53 2.45 由散点图及残差分析,第一点(X1.47,Y22.29)为可疑的异常点。 根据以上的计算结果,进一步求其总体回归系数的 95可信区间。 总体回归系数 的 95可信区间 )8.,963()1.592.347.2.6,18592.347.2.6( ),(,0.)(,05. bnbnStSt 按回归系数的 9
15、5可信区间下限和上限分别代入 ,得 。XbYa37.12a 回归系数的 95可信区间上、下限对应的两条直线,回归方程为: XYXY.7.,.1 (3)估计氟含量为 2.00mg/L 时,患病率平均增加多少,计算其 95的可信区间,并说明 含义。 39.18.5)0.2.(8192.3)()(0* xnSXY 当 X2.00mg/L 时, 的 95可信区间:Y ( , )(31.132.4471.39,31.132.4471.39)0.5/2,6Yt0.5/2,6tS (27.73,34.53) 即总体中,氟含量为 2.00mg/L 时,患病率平均增加 31.13mg/L,其 95的可信区间为
16、(27.73,34.53mg/L) 。 其含义为:当氟含量为 2.00mg/L 时,相应的平均增重服从一个正态分布(此正态分布 的样本均数估计值为 31.13mg/L) ,如果从此正态分布中重复抽样 100 次,这 100 个可信区 间中理论上将有 95 个区间包含真正的总体均数(虽然这个总体均数真值是未知的) 。 (4)求氟含量 2.00mg/L 时,患病率 Y 值的 95可信区间,并解释其含义。 16.48.5)0.2.(8192.3)()(10* XxnSXY 当 x2.00mg/L 时, ,个体 Y 值的 95可信区间:8.2964 ( , )(31.132.4474.16,31.132.4474.16)0.5/2,6t0.5/,YtS (21.95,41.31) 即估计,总体中,氟含量为 2.00mg/L 时,由 95的患病率增加体重在 20.95,41.31mg/L 范围内。