1、上节课内容ESL Chp2中一些重要的观点 目标:找到一个 “好 ”的模型,根据一些预测子 预测变量 Y好 : 风险 (期望预测误差) 最小 :答案: ,但是 是什么 ? 期望预测误差分解:若 ,其中 且 为模型 的估计偏差 方差折中 1线性回归模型线性回归模型:假设 是线性的:线性回归模型是一个古老的工具,但 仍然很有用 n 简单,有封闭形式的解n 对回归效果很容易进行解释n 应用广泛,因为 Xi 可以为任何变量的任何函数n 如 2一元线性回归n 假定 ,其中n 假定 。n 在一维情况下,未知参数为斜率 和截距n 令 和 分别表示 和 的估计,则匹配的线为n 预测值 /匹配值为n 残差为3点
2、估计n 最小二乘( least squares)估计为使得残差平方和最小的 和 :n 的无偏估计为:4标准误差和置信区间n n n 的 1-置信区 间为 :5假设检验n 若要检验假设 ,可用 Wald检验统计量 ,如果 ,拒绝n 也可用 p-value计算:n 未知时, 的真正分布为 t分布:n 但样本数 n较大时,可用正态分布近似6预测及其标准误差n 预测为:n 7预测误差n 在观测 处,响应的真值为n 则预测误差为n 预测的 1-置信区间:8例: Weiss13.6n 例 13.6( 2001年总统选举):n Y: Buchannan 的得票数n X: Bush 的得票数当残差是随机正态分布时,线性回归的推断是最精确的9例: Weiss13.6n 例 13.6(续):n Y: log (Buchannan 的得票数 )n X: log ( Bush 的得票数 )残差分布更合理?10