1、第 1 章 解决问题的办法 1.1(一)理想的情况下,我们可以随机分配学生到不同尺寸的类。也就是说,每个学生被分配一个不同的类的大小,而不考虑任何学生的特点,能力和家庭背景。对于原因,我们将看到在第 2 章中,我们想的巨大变化,班级规模(主题,当然,伦理方面的考虑和资源约束)。 (二)呈负相关关系意味着,较大的一类大小是与较低的性能。因为班级规模较大的性能实际上伤害,我们可能会发现呈负相关。然而,随着观测数据,还有其他的原因,我们可能会发现负相关关系。例如,来自较富裕家庭的儿童可能更有可能参加班级规模较小的学 校,和富裕的孩子一般在标准化考试中成绩更好。另一种可能性是,在学校,校长可能分配更好
2、的学生,以小班授课。或者,有些家长可能会坚持他们的孩子都在较小的类,这些家长往往是更多地参与子女的教育。 (三)鉴于潜在的混杂因素 - 其中一些是第( ii)上市 - 寻找负相关关系不会是有力的证据,缩小班级规模,实际上带来更好的性能。在某种方式的混杂因素的控制是必要的,这是多元回归分析的主题。 1.2(一)这里是构成问题的一种方法:如果两家公司,说 A 和 B,相同的在各方面比 B公司用品工作培训之一小时每名工人,坚定除外,多 少会坚定的输出从 B公司的不同? (二)公司很可能取决于工人的特点选择在职培训。一些观察到的特点是多年的教育,多年的劳动力,在一个特定的工作经验。企业甚至可能歧视根据
3、年龄,性别或种族。也许企业选择提供培训,工人或多或少能力,其中,“能力”可能是难以量化,但其中一个经理的相对能力不同的员工有一些想法。此外,不同种类的工人可能被吸引到企业,提供更多的就业培训,平均,这可能不是很明显,向雇主。 ( iii)该金额的资金和技术工人也将影响输出。所以,两家公司具有完全相同的各类员工一般都会有不同的输出,如果他们使用不 同数额的资金或技术。管理者的素质也有效果。 ( iv)无,除非训练量是随机分配。许多因素上市部分(二)及( iii)可有助于寻找输出和培训的正相关关系,即使不在职培训提高工人的生产力。 1.3 没有任何意义,提出这个问题的因果关系。经济学家会认为学生选
4、择的混合学习和工作(和其他活动,如上课,休闲,睡觉)的基础上的理性行为,如效用最大化的约束,在一个星期只有 168 小时。然后我们可以使用统计方法来衡量之间的关联学习和工作,包括回归分析,我们覆盖第 2 章开始。但我们不会声称一个变量“使”等。他们都选择学生的变量。 第 2 章 解决问题的办法 2.1( I)的收入,年龄,家庭背景(如兄弟姐妹的人数)仅仅是几个可能性。似乎每个可以与这些年的教育。 (收入和教育可能是正相关,可能是负相关,年龄和受教育,因为在最近的同伙有妇女,平均而言,更多的教育和兄弟姐妹和教育的人数可能呈负相关)。 ( ii)不会( i)部分中列出的因素,我们与 EDUC。因为
5、我们想保持这些因素不变,它们的误差项的一部分。但是,如果 u 与 EDUC 那么 E( U | EDUC) ,所以 SLR.4 失败。 2.2 方程 ,加减 的右边,得到 y =( ) ( )。调用新的错误 ,故 E( E) = 0。新的拦截 ,但斜率仍然是 。 2.3(一)让易 = GPAI, XI = ACTI,和 n = 8。 = 25.875, = 3.2125,(十一 - )(艺 - ) = 5.8125,(十一 - ) 2 = 56.875。从公式( 2.9),我们得到了坡度为 = 5.8125/56.875 0.1022,四舍五入至小数点后四个地方。 ( 2.17) = - 3.
6、2125 - 0.1022 25.875 0.5681。因 此,我们可以这样写 = 0.5681 + 0.1022 ACT 每组 8 只。 拦截没有一个有用的解释,因为使不接近零的人口的利益。 ,如果 ACT 是高 5 点,增加0.1022( 5) = .511。 (二)观察数 i 和 GPA 的拟合值和残差 - 四舍五入至小数点后四位 - 随着于下表: GPA 1 2.8 2.7143 0.0857 2 3.4 3.0209 0.3791 3 3.0 3.2253 - 0.2253 4 3.5 3.3275 0.1725 5 3.6 3.5319 0.0681 6 3.0 3.1231 -
7、0.1231 7 2.7 3.1231 - 0.4231 8 3.7 3.6341 0.0659 您可以验证的残差,表中报告,总结到 ,这是非常接近零,由于固有的舍入误差。 ()当 ACT = 20 = 0.5681 + 0.1022( 20) 2.61。 ( iv)本残差平方和,大约是 0.4347(四舍五入至小数点后四位),正方形的总和,( YI - )2,大约是 1.0288。因此, R-平方的回归 R2 = 1 - SSR / SST 1 - ( .4347/1.0288) .577 的。 因此,约 57.7的 GPA 的变化解释使学生在这个小样本。 2.4( I)的 CIGS = 0
8、,预测出生体重是 119.77 盎司。当 CIGS = 20, = 109.49。这是关于一个8.6的降幅。 ( ii)并非必然。还有许多其他的因素,可以影响新生儿的体重,尤其是整体健康的母亲和产前护理质量。这些可以与吸烟密切相关,在分娩期间。此外,如咖啡因消费的东西可以影响新生儿的体重,也可能与吸烟密切相关。 (三)如果我们想预测 125 bwght,然后 CIGS =( 125 - 119.77) /( - .524) -10.18,或约 -10香烟!当然,这完全是无稽之谈,并表明会发生什么,当我们试图预测复杂,出生时体重只有一个单一的解释变量的东西。最大的预测出生体重必然是 119.77
9、。然而,近 700 个样品中有出生出生体重高于 119.77。 (四) 1,176 1,388 名妇女没有在怀孕期间吸烟,或约 84.7。因为我们使用的唯一的的 CIGS解释出生体重,我们只有一个预测出生体重在 CIGS = 0。预测出生体重必然是大致中间观察出生体重在 CIGS = 0,所以我们会根据预测高出生率。 2.5( i)本截距 意味着,当 INC = 0,缺点被预测为负 124.84 美元。 ,当然,这不可能是真实的,反映了这一事实,在收入很低的水平,这个消费函数可能是一个糟糕的预测消费。另一方面,在年度基础上, 124.84 美元至今没有从零。 (二)只需插上 30,000 入公
10、式: = -124.84 + .853( 30,000) = 25,465.16 元。 ( iii)该 MPC 和 APC 的是在下面的图表所示。尽管截距为负时,样品中的最小的 APC 是正的。图开始以每年 1,000 元( 1970 美元)的收入水平。 2.6( i)同意。如果生活密切焚 化炉抑制房价过快上涨,然后越远,增加住房价格。 ( ii)若选择的城市定位在一个地区焚化炉远离更昂贵的街区,然后登录(区)呈正相关,与房屋质量。这将违反 SLR.4, OLS 估计是有失偏颇。 (三)大小的房子,浴室的数量,很多的大小,年龄,家庭,居委会(包括学校质量)质量,都只是极少数的因素。正如前面提到
11、的( ii)部分,这些肯定会被分派 日志( DIST) 的相关性。 2.7(一)当我们条件的公司在计算的期望,成为一个常数。所以 E( U | INC) = E( E | INC)= E( E | INC) = 0,因为 E( E | INC) = E( E) = 0。 ( 2)同样,当我们条件的公司在计算方差,成为一个常数。所以 VAR( U | INC) = VAR( E | INC) =() 2VAR( E | INC) INC,因为 VAR( E | INC) =。 (三)家庭收入低没有对消费有很大的自由裁量权,通常情况下,一个低收入的家庭必须花费在食品,服装,住房,和其他生活必需品。
12、收入高的人有更多的自由裁量权,有些人可能会选择更多的消费,而其他更节省。此酌情权,建议在收入较高的家庭储蓄之间的更广泛的变异。 第 2.8( i)从方程( 2.66) , = /。 堵在义 给人 = /。 标准代数后,分子可以写为 。 把这个分母显示,我们可以写 。 西安条件,我们有 E() 因为 E( UI)对于所有的 i = 0。因此,偏置在这个方程中的第一项由下式给出。这种偏见显然是零,当 。也为零时, = 0, = 0 这是相同的。在后者的情况下,通过原点的回归是回归截距相同。 ( ii)从最后一个表达式部分( i)我们有,有条件兮, ( VAR) = VAR = = /。 ( iii
13、)由( 2.57), VAR() 。从心领神会, ,所以无功(): ()。看,这是一种更直接的方式来写,这是小于除非 = 0 =。 ()对于一个给定的样本大小,偏置的增加(保持在固定的总和)的增加。但增加的方差相对增加( VAR)。偏置也是小的,小的时候。因此,无论是我们优选的平均平方误差的基础上取决于大小,和 n(除的大小)。 2.9( i)我们按照提示,注意到 =(样本均值为 C1 义的样本平均) =。当我们:回归 c1yi c2xi(包括截距)我们使用公式( 2.19)获得的斜率: ( 2.17),我们得到的截距 =( C1) - ( C2) =( C1) - ( C1/C2) ( C2
14、) = C1( - ) = C1),因为拦截从回归毅喜( - )。 ( ii)我们使用相同的方法,伴随着一个事实,即( i)部分 = C1 + C2 +。因此, =( C1 +易) - ( C1 +) =易 - ( C2 + XI) - = XI - 。因此, C1 和 C2 完全辍学的回归( C1 +毅)( C2 + XI)和 =的斜率公式。截距 = - =( C1 +) - ( C2 +) =() + C1 - C2 = C1 - C2,这就是我们想向 大家展示。 (三),我们可以简单地适用( ii)部分,因为。换言之,更换 C1 与日志( C1),易建联与日志(彝族),并设置 C2 =
15、0。 ( iv)同样的,我们可以申请 C1 = 0 和更换 C2 日志( C2)和 xi 日志(十一)( ii)部分。如果原来的截距和斜率,然后。 2.10(一)该推导基本上是在方程( 2.52),一旦带内的求和(这是有效的,因为不依赖于 i)。然后,只需定义。 ()由于我们表明,后者是零。但是,从( i)部分, 因为是两两相关(他们是独立的),(因为)。因此, ( iii)本的 OLS 拦截 的公式,堵在给 ( 4)因为是不相关的, , 这就是我们想向大家展示。 (五)使用提示和替代给 2.11(一)我们想要,随机指定小时数,这样在准备课程时间不受其他因素影响性能的 SAT。然后,我们将收集
16、信息为每一个学生的 SAT 分数在实验中产生的数据集,其中 n 是我们可以负担得起的学生人数在研究。从公式( 2.7),我们应该试图得到尽可能多的变化是可行的。 (二)这里有三个因素:先天的能力,家庭收入,和一般健康检查当天上。如果我们认为具有较高的原生智慧的学生认为,他们不需要准备 SAT,能力和时间呈负相关。 家庭收入可能会与时间呈正相关,因为高收入家庭可以更容易负担得起的预备课程。排除慢性健康问题,健康考试当天应大致准备课程的时间无关。 ( iii)倘预备课程是有效的,应该是积极的:,应加大坐在其他因素相等,增加小时。 ( iv)本拦截,在这个例子中有一个有用的解释:因为 E( U) =
17、 0 时,平均 SAT 成绩的学生在人口小时 = 0。 第 3 章 解决问题的办法 3.1( I) hsperc 定义使得较小的是,较低的高中学生的地位。一切平等,在高中学生中的地位恶化,较低的是他 /她预期的大学 GPA。 (二)只要将这些值 代入方程: ( 20) + 0.00148( 1050) = 2.676。 (三) A 和 B之间的区别仅仅是 140 倍的系数上周六,因为 hsperc 是相同的两个学生。所以 A 预测都有得分 0.00148( 140)高 .207。 (四)随着 hsperc 固定 坐着。现在,我们要找出 坐在 = 0.5,所以 0.5 = 0.00148( 坐)
18、或 坐在 = 0.5 /( 0.00148) 338。也许并不奇怪,其他条件不变的情况下差异大的SAT 分数 - 几乎两个和一个半标准差 - 需要获得 大学 GPA 或半个点的预测差异。 3.2( i)同意。由于预算的限制,它是有道理的,在一个家庭中的兄弟姐妹有,任何一个家庭中的孩子受教育较少的。要找到降低预测的教育一年的兄弟姐妹的数量的增加,我们解决1 = .094( ),所以后后 。 (二)控股 SIBS feduc 的固定,一年以上母亲的教育意味着 0.131 年预测教育。所以,如果母亲有 4 年以上的教育,她的儿子被预测有大约了半年( .524)更多的受教育年限。 (三)由于兄弟姐妹的
19、人数是一样的,但 meduc feduc 都是不同的,系数在 meduc feduc 都需要进行核算。 B和 A 是 0.131( 4) + .210( 4) = 1.364 之间的预测差异教育。 3.3( i)若成年人睡眠权衡工作,更多的工作意味着较少的睡眠(其他条件不变),所以 0, 0。 LSAT 和 GPA 都进入一流的质量的措施。更好的学生参加法学院无论身在何处,我们期望他们赚得更多,平均。 , 0。在法库的学费成本的卷数的学校质量的两个措施。 (成本库卷那么明显,但应反映质量的教师,物理植物,依此类推)。 (三)这是对 GPA 只是系数,再乘以 100: 24.8。 (四)这是一个
20、弹性:百分之一的在库 量增加暗示了 .095的增长预测中位数的起薪,其他条件相同的情况。 (五)这肯定是具有较低职级,更好地参加法学院。如果法学院有小于法 B校排名 20,预测差异起薪是 100( .0033)( 20) =上升 6.6,为法学院 A. 根据定义 3.5( I)号,学习 +睡觉 +工作 +休闲 = 168。因此,如果我们改变的研究,我们必须改变至少一个其他类别的,这样的总和仍然是 168。 ( ii)由( i)部分,我们可以写,说,作为一个完美的其他自变量的线性函数研究:研究睡眠 休闲工作。这适用于每个观察,所以 MLR.3 侵 犯。 (三)只需拖放一个独立的变量,说休闲: G
21、PA = +学习 +睡觉 +上班 + U。 现在,例如, GPA 的变化,研究增加一小时,睡眠,工作,和 u 都固定时,被解释为。如果我们持有的睡眠和固定的工作,但增加一个小时的研究,那么我们就必须减少一小时的休闲。等坡面参数有一个类似的解释。 3.6 空调解释变量的结果,我们有 = E( +) = E() + E() 。 3.7(),省略了一个重要的变量,可能会导致偏置,并且只有当被删去的变量与所包含的解释变量,这是真实的。同方差的假设, MLR.5 表明 OLS 估计量是公正的,没有发挥作用。 (同方差被用于获得通常的方差的公式)。另外,样品中的解释变量之间的共线性的程度,即使它被反映在高
22、的相关性为 0.95,不影响高斯 - 马尔可夫假设。仅当存在一个完美的线性关系,在两个或更多的解释变量 MLR.3 侵犯。 3.8 我们可以用表 3.2。根据定义, 0,假设更正( 1, 2) 0, E()。 3.9(一) 0 和 Corr( X1, X2) 0。 ( ii)本比例的影响是 0.00024( 50) = 0.012。要获得的百分比效果, 我们将此乘以 100: 1.2。因此, 50 点其他条件不变的 ROS 增加预计将增加只有 1.2的工资。实事求是地讲,这是一个非常小的影响这么大的变化, ROS。 (三) 10的临界值单尾测试,使用 ,是从表 G.2 为 1.282。 t 统
23、计量 ROS是 .00024/.00054 .44,这是远低于临界值。因此,我们无法在 10的显着性水平拒绝 H0。 (四)基于这个样本,估计的 ROS 系数出现异于零,不仅是因为采样变化。另一方面,包括活性氧可能不造成任何伤害,这取决于它是与其他自变量(虽然这些方程中是非常显着的,即 使是与活性氧)如何相关。 4.3(一),控股 profmarg 固定, 日志(销售) =( .321/100) 100 0.00321( 销售)。因此,如果 销售 = 10, .032,或只有约 3/100 个百分点。对于这样一个庞大的销售百分比增加,这似乎像一个实际影响较小。 (二) H0: = 0 与 H1
24、: 0,是人口坡日志(销售)。 t 统计量是 .321/.216 1.486。从表 G.2获得 5的临界值,单尾测试,使用 df = 32 - 3 = 29,为 1.699;所以我们不能拒绝 H0 在 5的水平。但 10的临界值是 1.311;高于此值的 t 统计以来,我们拒绝 H0 而支持 H1 在 10的水平。 (三)不尽然。其 t 统计量只有 1.087,这是大大低于 10的临界值单尾测试。 4.4(一) H 0: = 0。 H1: 。 ( ii)其他条件相同的情况,一个更大的人口会增加对房屋的需求,这应该增加租金。整体房屋的需求是更高的平均收入较高,推高了住房的成本,包括租金价格。 ( iii)该日志系数(弹出)是弹性的。正确的语句是“增加了 10的人口会增加租金 .066( 10) = 0.66。” (四)用 df = 64 - 4 = 60,双尾检验 1的临界值是 2.660。 T 统计值约为 3.29,远高于临界值。那么,在 1的水平上显着差异从零。 4.5( I) ( .094),或约 0.228 至 0.596。 (二)没有,因为值 0.4 以及 95 CI 里面。 (三)是的,因为 1 是远远超出 95 CI。