1、1社会研究的统计应用 李沛良第二篇 统计叙述:单变项与双变项23 简化一个、两个变项之分布表 1 简化一个变项之分布定类层次 定序层次 定距层次基本技术 次数分布(f)比例(P=f/N)比率(百/千/万分比率)对比值图示法(长条图、圆饼图)累加次数向上累加分布 cf向下累加分布 cf累加百分率向上累加百分率分布 c%向下累加百分率分布 c%分组 组限:每组的范围,包括上限和下限。真实下限=标示下限 0.5 真实上限=标示上限 +0.5组距:真实上下限之差。组中点:真实上下限的平均值。图示法(矩形图、多角线图)集中趋势 众值 中位值 均值离散趋势 离异比率、质异指数 四分位差 标准差注:1.关于
2、数值中小数的取舍问题。 “四舍五入”之“四舍”没有问题,同时结合“前单五入” ,即“五”前面是单数就进位,若是双数则舍掉(0 算双数) 。2.所谓集中趋势测量法,就是找出一个数值来代表变项的分布,以反映资料的集结情况。此法的意义在于,可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。众值 (Mo):次数最多的值。中位值(Md):在一个序列的中央位置之值。均值 ( ):变项的各个数值之和,求取一个平均数。3.离散趋势测量法,是要求出一个值来表示个案与个案之间的差异情况。该法与集
3、中趋势测量法具有互相补充的作用。集中趋势测量法所求出的是一个最能代表变项所有资料的值,但其代表性的高度却要视乎各个个案之间的差异情况。如果个案之间的差异很大,则众值、中位值、均值的代表性就会甚低;此时以这三个值作估计或预测,所犯的错误就会很大。离异比率(V):非众值的次数与全部个案数目的比率。 质异指数(IQV):其作用是求出各个类别之间在理论上最多的可能差异中实际上出现了多少差异。(k=变项的类别数目,f=每个类别的实际次数)四分位差(Q):将个案由低至高排列后分为四个等分,第一个四分位置的值 Q1 与第三个四分位置的值 Q3 的差异。标准差(S):将各数值(x)与其均值( )之差的平方和除
4、以全部个案数目,然后取其平方根。公式中 x 与 相差,就是表示以均值作为代表值时会引起的偏差或错误。总之,集中趋势测量法与离散趋势测量法并用,可以一方面知道资料的代表值,有助于估计或预测的工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。正态分布与标准值?简化两个变项之分布统计相关2交互分类与百分表简化相关与消减误差相关测量与假设检定相关测量法,目的是要理解两个变项在“样本” (随机与非随机样本均可)中的相关“强弱”程度及方向。检定假设方法,则是根据“随机”样本的资料来推论两个变项在“总体”中“是否”相关。 体中是否相关。第四章 相关测量法与测量层次第一节 两个定类变项:Lam
5、bda ,tau-y一、Lambda 相关测量法 (以众值作为预测的准则)3例 4-1 研究 100 名青年人的最大志愿是否男女有别,获得表 4-1 的次数资料。由于我们认为性别(X)是自变项,志愿( Y)是依变项,且两个都是定类变项,故此要应用 系数来简化相关的情况。根据 系数的公式和表 4-1 的次数资料,可知 My=50, =40+30=70,n=100,所以:这个统计值表示以 X 预测 Y,可以消减 40%的误差。例 4-2 研究青年人的志愿与他们的知心朋友的志愿是否相关,表 4-2 是得到的次数资料。由于青年人的志愿(Y)与知心朋友的志愿(X)可能是互相影响的,难以区分何者是自变项或
6、是依变项,故要应用 Lambda 相关测量法的对称形式,即 系数。根据 系数的公式和表 4-2 中的次数资料,可知 My=50,Mx=54, =28+41+7=76, =28+42+4=73,n=100,所以:这个统计值表示,如果以两个变项互相预测,可以消减 47%的误差。二、tau-y 相关测量法4例 4-3 以表 4-1 的青年人研究资料为例。全部个案数目 n=100。性别(X),边缘次数 Fx 分别是 60,40。志愿(Y) ,边缘次数 Fy分别是 40、50、10。表内有 6 个条件次数,每者都代表同属于某项 Y 值与某项 X 值的个案数目(f) 。将这些数值带入 tau-y 公式,结
7、果如下:这个数值不但表示性别与志愿的相关程度,且可以解释为:以性别来预测或估计志愿的话,能够消减 22.4%的误差。注:由于 Lambda 测量法是以众值作为预测的准则,不理会众值以外的次数分布;而 tau-y测量法是考虑全部的次数,故其敏感度高于 Lambda 测量法。比较:例 抽样调查某市镇的劳动人口的职业背景与其工作价值观之间的关系,有表 4-3 所得的资料。(全部 Mo 集中在条件次数表的同一行或同一列中,Lambda 系数为0)这个统计值表示职业与工作价值取向是毫无关系的。但 tau-y=0.007,表示职业背景对工作价值观是有若干影响的。也可以通过将次数表变为百分率表,发现有 72
8、.4%的制造业工人注重物质报酬,64.3%的服务业从业员注重物质报酬。虽然分别不大,但相对上从事制造业的人比从事服务业的人较多注重物质报酬;换言之,职业背景(X)对工作价值取向(Y)是略有影响的。5第二节 两个定序变项:Gamma,dy可用 Gamma 系数和 dy 系数来简化两个定序变项的关系。其中,Gamma 适用于分析对称的关系,dy 适用于不对称的关系,两者的系数值都是由-1 至+1,既表示相关的程度,也表示相关的方向,且都具有消减误差比例的意义。Gamma,dy 可统称为级序相关法,以每对个案之间的相对等级作为预测的准则。一、 Gamma 相关测量法 二、dy 相关测量法例 4-4
9、假定有四名学生(ABCD),他们的数学成绩与英文成绩的等级分别如表 4-4 所示。由 Ns=2,Nd=4 得:这个统计值表示四名学生的数学等级与英文等级成反比,相关程度是 0.33。G 的绝对值是 0.33,可以解释为:以一个变项的相对等级来预测另一变项的相对等级,可以减少 33%的误差。例 4-5 有表 4-5 的五所工厂的资料。Ns=4,Nd=3,Ty=2。可见工人积极性与产量成正比。然而,二者的相关程度颇弱,以其中的一个变项来预测另一个变项,只可以消减 14%的误差。我们假定:工人积极性(X),工厂产量(Y),用 dy 来简化相关的情况:这个系数值除了显示正相关外,也表示以工人积极性的高
10、低来预测或估计工厂产量的高低,可以减除 11%的误差。6例 4-6 我们在某城市调查 200 户人家,目的时要知道住户的人口密度与婆媳冲突是否有关系。交互分类之后的次数分别如表 4-7 所示。由于两个变项都属于定序层次,要用 Gamma 或 dy 来简化其相关情况。若假定:住户人口密度(X),婆媳冲突(Y),选用 dy 相关测量法。根据表 4-7 的次数资料,可求出:7第三节 两个定距变项:简单线性回归与积矩相关两个定距变项,可用简单线性回归分析法来以自变项的数值预测或估计依变项的数值,用积矩相关系数来测量两个变项相关程度和方向。一、简单线性回归分析回归分析法的目的,是要找出一个错误最小的方法
11、来预测依变项的数值。简单线性回归分析法,是根据一个直线方程式,以一个自变项(X)的数值来预测一个依变项(Y)的数值。这个方程式是:其中,b 称为回归系数,表示回归线的斜率。b 值是表示自变项对依变项的影响的大小和方向;a 是截距,即回归线与 Y 轴的交点; 是根据回归方程式所预测的 Y 变项值。例 4-7 我们希望以女青年的学校教育年期(X)来预测或估计她们每天参与家务劳动几多小时(Y) 。调查了 9 名女青年后,获得表 4-9 的资料。采用简单线性回归法分析。从表中的计算,可知X=36,Y=18,XY=47, ,而 n=9,所以:这里 b=-0.83,表示两变项有负向效果,即上学年期愈多,参
12、与家务劳动就愈少。同时,每增加一年的教育,可能减少 0.83 小时家务劳动。将这两个数值代入简单线性回归方程式,得:这个方程式简化了九名女青年在两个变项上的众多资料,而且可以用来预测或估计女青年们的家务劳动数量。如,有两名女青年,她们曾经分别上学三年、六年。将 X=3,X=6 分别代入回归方程式中:根据这些数值,我们可作如下预测或估计:上学三年的女青年每天参与家务劳动约 2.8小时,上学六年的约 0.3 小时。同样,此方程式可应用于预测或估计样本以外之个案的数8值。二、积矩相关测量法测量两个定距变项间的相关强弱,可用皮尔逊的积矩相关系数(r) 。 值,称为决定系数。基本上,r 系数所要表示的,
13、就是以线性回归方程式作为预测的工具时所能减少的误差比例。因此,r 系数越大,就表示线性回归方程式的预测能力越强。例 4-8 以表 4-9 资料为例。根据上表资料可求得:积矩相关系数(r)显示,家务劳动数量与教育水平之间具有很强的负相关,即教育水平愈低,参与家务劳动愈多。决定系数( ) ,则显示以一个变项来预测另一个变项,能够消减 65.6%的误差。9第四节 定类变项与定距变项:相关比率与非线性相关相关比率又称为 eta 平方系数( ),是根据自变项(X)的每一个值来预测或估计依变项(Y)的均值。eta 系数值(E)是由 0 到 1,其平方值 具有消减误差比例的意义。例 4-9 表 4-10 是
14、研究 20 名学生的家庭职业背景(分为干部、工人、农民)对其语文能力(0-100 分)的影响。由于家庭职业背景(X)属于定类层次,语文水平(Y)属于定距层次,用 E 系数来测量两者的相关情况。从上表的下端,可知属于干部、工人、农民三类家庭的学生数目( ) ,每类学生的语文成绩的平均得分( ) 。根据每名学生的成绩,可以计算出全部学生(n=20)的得分之平方总和是:把全部学生成绩相加,然后除以人数,可得平均成绩 =74.1。将上述数值带入相关比率测量法的公式:=0.70从 E 值,可见家庭职业背景对学生的语文水平有强大的影响。从 值可见以家庭背景预测或估计语文成绩,可以消减 70%的误差。另外,
15、从表的下端,可见这三类家庭背景的学生的平均语文成绩颇有分别。相对之下,以干部家庭的学生表现最好(平均是 84.92 分) ,次为农民家庭(平均 79.60 分) ,最不好的是工人家庭的学生(平均 61.75 分) 。表最下层是标准差,可见来自工人家庭的学生在语文水平上的相互差异最大(S=9.64) ,其次是干部家庭学生的相互差异(S=4.40) ,以农民家庭学生之间的语文差异最小(S=2.87) 。10第五节 定类变项与定序变项:Lambda, tau-y例 4-10 表 3-1 是研究 100 名青年人的教育水平(定序)对其最大志愿(定类)的影响。我们将教育水平看做是定类变项,可用 或 ta
16、u-y 系数来分析它(X)与志愿(Y)之间的不对称关系。假定用 tau-y,结果如下:可见教育水平对青年人的志愿之影响颇弱,以教育水平来预测志愿,只能减除 13.8%的误差。我们曾经从表 4-1 中计算出这 100 名青年人的性别对其志愿的影响是 tau-y=0.224。相对之下,可见青年人的志愿受性别的影响大于受教育水平的影响。可见相关系数值在相互比较时,更显出其意义。第六节 定序变项与定距变项:相关比率例 4-11 下表是研究 20 名学生的家庭收入(分高、低两级)对其英文成绩(0-100 分)的影响。由表中资料,计算得:可见以家庭收入预测或估计学生的英文成绩,只能消减 2%的误差。相对之下,家庭收入较高的学生的平均语文成绩(75.8 分)只是略高于家庭收入较低者(72.4 分) 。 另外, (见第八章第三节) ,本例中
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。