1、1.2 独立性检验的基本思想及其初步应用分类变量 :变量的不同 ”值 ”表示个体所属的不同类别 .如 :性别 ,是否吸烟 ,宗教信仰 ,国籍等在日常生活中 ,我们常常关心两个分类变量之间是否具有关系 .例如 ,吸烟是否与患肺癌有关系 ?性别是否对于喜欢数学课程有影响 ?等等为调查吸烟是否对患肺癌有影响 ,某肿瘤研究所随机地调查了 9965人 ,得到如下结果 (单位 :人 )吸烟与患肺癌列联表不患肺癌 患肺癌 总计不吸烟 7775 42 7817吸烟 2099 49 2148总计 9874 91 9965列联表 :列出两个分类变量的频数表那么吸烟是否对患肺癌有影响 ?粗略估计 :在不吸烟者中 ,
2、有 0.54%患有肺癌 ;在吸烟者中 ,有 2.28%患有肺癌 .因此 ,直观上得到结论 :吸烟者和不吸烟者患肺癌的可能性存在差异三维柱形图二维条形图等高条形图上面我们通过分析数据和图形 ,得到的直观印象是吸烟和患肺癌有关 ,那么事实是否真的如此呢 ?能够以多大的把握认为 ”吸烟与患肺癌有关 ”,假设H0:吸烟与患肺癌没有关系 ,看看能推出什么结论把前表中的数字用字母代替 ,得到如下用字母表示的列联表 :不患肺癌 患肺癌 总计不吸烟 a b a+b吸烟 c d c+d总计 a+c b+d a+b+c+d不患肺癌 患肺癌 总计不吸烟 a b a+b吸烟 c d c+d总计 a+c b+d a+b+c+d如果 ”吸烟与患肺癌没有关系 ”,则在吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例差不多 ,即因此 |ad-bc|越小 ,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大 ,说明吸烟与患肺癌之间关系越强 ;为了使不同样本容量的数据有统一的评判标准 ,基于上述分析 ,我们构造一个随机变量 :不患肺癌 患肺癌 总计不吸烟 7775 42 7817吸烟 2099 49 2148总计 9874 91 9965利用公式计算得 K2的观测值为 :这个值是不是很大呢 ?