1、2019 年艺体生文化课-百日突围讲练通专题十五 统计与统计案例抽样方法【背一背基础知识】1.简单随机抽样:一般地,从元素个数为 N 的总体中逐个不放回地抽取容量为 n 的样本,如果每一次抽取时总体中的各个个体有相 同的可能性被抽到,这种抽样方法叫做简单随机抽样最常用的简单随机抽样的方法:抽签法和随机数法简单随机抽样适用范围是:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小.2.系统抽样:假设要从容量为 N 的总体中抽取容量为 n 的样本,第一步,先将总体的 N 个个体编号;第二步,确定分隔间距 k,对编号进行分段,当 (n 是样本容量)是整数时,取 k ;当 (n 是样本
2、容量)不是Nn Nn Nn整数时,先用简单随机抽样剔除 - 个个体,取 k ;第三步,在第 1 段用简单随机抽样确定第一个个Nn Nn Nn体编号 l (lk);第四步,按照一定的规则抽取样本,通常是将 l 加上间隔 k 得到第 2 个个体编号 lk,再加 k 得到第 3 个个体编号 2lk,依次进行下去,直到获取整个样本系统抽样的适用范围是:元素个数很多且均衡的总体;各个个体被抽到的机会均等.3.分层抽样:当总体由有明显差别的几部分组成时,为了使抽取的样本更好地反映总体的情况,常采用分层抽样 ,将总体中各个个体按某种特征分成若干个互不交叉的几部分,每一部分叫做层,在各层中按层在总体中所占比例
3、进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样分层抽样的应用范围是:总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样【讲一讲释疑解惑】1必备技能:在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分 成几个组,则分段间隔即为 Nn ( 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值2典型例题:例 1【2018 年全国卷文】某公司有大量客户,且不同龄段客户对其服务
4、的评价有较大差异为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是_例 2.【2017 江苏,3】 某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为 200,400, 300,100 件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取 60 件进行检验,则应从丙种型号的产品中抽取( )件.学- 科网频率分布直方图与茎叶图【背一背基础知识】1. 频率分布直方图:在频率分布直方图中,纵轴表示 ,数据落在各小组内的频率用各长长方形的面频 率组 距积表示,各小长方形的面积总和等于 1连接频率分布直方图中各小长方形上端的
5、中点,就得到频率分布折线图随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线,它能够更加精细的反映出总体的分布规律2频率分布 直方图的步骤如下:()求极差;()确定组距和组数;()将数据分组;()列频率分布表;()画频率分布直方图频率分布直方图能很 容易地表示大量数据,非常直观地表明分布的形状3茎叶图:茎是指中间的一列数,叶是从茎的旁边生长出来的数茎叶图表示数据有两个突出的优点:其一是统计图上没有原始数据的损失,所有信息都可以从这个茎叶图中得 到,其二是在比赛时随时记录,方便记录与表示4当样本数据较少时,用茎叶图表示
6、数据的效果较好,它不但可以保留原始信息,而且可以随时记录,给记录和表示都带来方便【讲一讲释疑解惑】1必备技能:(1)在频率分布直方图中估计中位数和平均数的方法中 位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等平均数:在频率分布直方图中,平均数等于图中每个小矩形面积乘以小矩形底边中点的横坐标之和(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据波动的大小标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定2典型例题:例 1【2018 年江苏卷】已知 5 位裁判给某运动员打出的分数的茎叶图如图所示,那么这 5 位裁判打出的分数
7、的平均数为_来源:学# 科#网例 2【2018 届福建省龙岩市高三毕业班教学质量检查】如图是某校高三(1)班上学期期末数学考试成绩整理得到的频率分布直方图,由此估计该班学生成绩的众数、中位数分别为( )A. 105, 3 B. 15, 2C. 2, . D. , 3.变量间的相关关系与独立性检验【背一背基础知识】1两个变量间的相关关系:有关概念:相关关系与函数关系不同函数关系中的两个变量间是一种确定性关 系相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系如果一个变量的值由小变大时另一个变量的值由小变大,这种相关称为正相关;如果一个变量的值由小变大时另一个变量的值由大变小,
8、这种相关称为负相关;如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系回归方程: ybxa是两个具有线性相关关系的变量的一组数据 12()()nxyxy, , , , , , 的回归方程,其中 、 是待定参数 b、 的计算公式 1122()()nniiiii iixbxayx.2独立性检验:22 列联表来源:学科网 B B 合计A n11 n12 n1A n21 n22 n2 来源:学*科*网总计 n1 n2 n来源:Z+xx+k.Com构造一个随机变量 2122n,利用随机变量 2来判断“两个分类变量有关系”的方法称为独立性检验:若 23.841,则有 95
9、%把握认为 A 与 B 有关;若 26.35,则有 99%把握认为 A 与 B 有关;其中 是判断是否有关系的临界值, 841应判断为没有充 分证据显示 A 与 B 有关,而不能作为小于 95%的量化值来判断【讲一讲释疑解惑】1.必备技能:求回归直线,使“离差平方和为最小”的方法叫做最小二乘法,用最小二乘法求得回归方程ybxa是两个具有线性相关关系的变量的一组数据 12()()nxyxy, , , , , , 的回归方程,其中、是待定参数 可以看出: ()回归直线必过点 ,xy;() b与 r符号相同.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,主要判断特定量之间是否有相关关
10、系,如果有就找出它们之间贴近的数学表达式.比如线性回归分析就是分析求出的回归直线是否有意义,而判断的依据就是|r|的大小:|r|1,并且|r|越接近 1,线性相关程度越强;| r|越接近 0,线性相关程度越弱.从散点图来看,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.线性相关检验的步骤如下: ()作统计假设:x 与 Y 不具 有线性相关关系;()根据小概率 0.05 与 n2 在附表中查出 r 的一个临界值 0.5r;()根据样本相关系数计算公式求出 r 的值;()作统计推断,如果|r| 0.5,表明有 95%的把握认为 x 与 Y 之间具有线性
11、相关关系;如果| r| 0.5,我们没有理由拒绝原来的假设.这时寻找回归直线方程是毫无意义的.注意:线 性回归分析以散点图为基础,具有很强的直观性,有散点图作比较时,拟合效果的好坏可由直观性直接判断,没有散点图时,只须套用公式求 r,再作判断即可独立性检验没有直观性,必须依靠2作判断学-科网2.典型例题来源:学科网 ZXXK例 1【2017 山东,理 5】为了研究某班学生的脚长 x(单位:厘米)和身高 y(单位:厘米)的关系,从该班随机抽取 10 名学生,根据测量数据的散点图可以看出 y与 x之间有线性相关关系,设其回归直线方程为 ybxa已知1025ix,106iy, 4b该班某学生的脚长为
12、 24,据此估计其身高为(A) 160 (B) 3 (C) 16 (D) 170例 2【2018 届高考二轮专题】为了调查“小学成绩”与“中学成绩”两个变量之间是否存在相关关系,某科研机构将所调查的结果统计如下表所示:中学成绩不优秀 中学成绩优秀 总计小学成绩优秀 5 20 25来源:学+科+网 Z+X+X+K小学成绩不优秀 10 5 15总计 15 25 40则下列说法正确的是( )参考数据:P(K2k 0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.01 0.005 0.001k0 0.46 0.71 1.32 2.07 2.71 3.84 5.024 6.
13、635 7.879 10.828A. 在犯错误的概率不超过 0.1 的前提下,认为“小学成绩与中学成绩无关”B. 在犯错误的概率不超过 0.1 的前提下,认为“小学成绩与中学成绩有关”C. 在犯错误的概率不超过 0.01 的前提下,认为“小学成绩与中学成绩无关”D. 在犯错误的概率不超过 0.01 的前提下,认为“小学成绩与中学成绩有关”【练一练能力提升】一、选择题(12*5=60 分)1. 【山东省德州市 2019 届高三期末联考】已知某产品连续 4 个月的广告费 (千元)与销售额 (万元)( )满足 , ,若广告费用 和销售额 之间具有线性相关关系,且回归直线方程为 , ,那么广告费用为
14、5 千元时,可预测的销售额为_万元.2.【2016 高考山东】某高校调查了 200 名学生每周的自习时间(单位:小时) ,制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20), 20,22.5), 22.5,25),25,27.5),27.5,30).根据直方图,这 200 名学生中每周的自习时间不少于 22.5 小时的人数是( )(A)56 (B)60 (C)120 (D)1403.【河 北省衡水中学 2019 届高三第一次摸底】某地某高中 2018 年的高考考生人数是 2015 年高考考生人数的 1.5 倍.为了更好地对比该校考生的升学情况,统
15、计了该校 2015 和 2018 年高考情况,得到如下饼图:2018 年与 2015 年比较,下列结论正确的是( )A一本达线人数减少B二本达线人数增加了 0.5 倍C艺体达线人数相同D不上线的人数有所增加4.【2017 课标 1,文 2】为评估一种农作物的种植效果,选了 n 块地作试验田这 n 块地的亩产量(单位:kg)分别为 x1,x 2,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是Ax 1, x2,x n的平均数 Bx 1,x 2,x n的标准差Cx 1, x2,x n的最大值 Dx 1,x 2,x n的中位数5 【2018 届黑龙江省佳木斯市第一中学高三第七次调研】
16、如果数据 的平均数是 ,方差是 ,则 , 的平均数和方差分别是( )A. 与 B. 和 C. 和 D. 和 来源:学科网 ZXXK6 【2018 届福建省莆田市高三 3 月教学质量检测】为了解某校一次期中考试数学成绩情况,抽取 100 位学生的数学成绩,得如图所示的频率分布直方图,其中成绩分组区间是 ,则估计该次数学成绩的中位数是( )A. 71.5 B. 71.8 C. 72 D. 757 【2017 山东,文 8】如图所示的茎叶图记录了甲、乙两组各 5 名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则 x 和 y 的值分别为A. 3,5 B. 5,5 C. 3
17、,7 D. 5,78 【2018 届北京市海淀区高三上学期期末】下面的茎叶图记录的是甲、乙两个班级各 5 各同学在一次数学测试中的选择题的成绩(单位:分,每道题 5 分,共 8 道题):已知两组数据的平均数相等,则 的值分别为A. 0,0 B. 0,5 C. 5,0 D. 5,58.【2018 届安徽省池州市高三上学期期末】某种产品的广告费支出 x与销售额 y之间有如下对应数据(单位:百万元) ,根据下表求出 y关于 x的线性回归方程为 6.517.y,则表中 a的值为( )x24 8y300 69A. 50 B. 4 C. 56. D. 49.【四川省乐山市 2019 届高三第一次调研】胡萝
18、卜中含有大量的 胡萝卜素,摄入人体消化器官后,可以转化为维生素 ,现从 , 两个品种的胡萝卜所含的 胡萝卜素(单位: )得到茎叶图如图所示,则下列说法不正确的是( )A B 的方差大于 的方差C 品种的众数为 D 品种的中位数为10 【2018 届辽宁省丹东市高三上学期期末】某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用 22 列联表进行独立性检验,经计算 26.705K,则所得到的统计学结论是:有( )的把握认为“学生性别与支 持该活动没有关系” A. 99.9% B. 99% C. 1% D. 0.1%11 【2018 届吉林省长春市第十一高中、东北师范大学附属中学
19、、吉林一中,重庆一中等五校高三 1 月联合模拟】下列命题:在线性回归模型中,相关指数 2R表示解释变量 x对于预报变量 y的贡献率, 2R越接近于 1,表示回归效果越好;两个变量相关性越强,则相关系数的绝对值就越接近于 1;在回归直线方程 0.52yx中,当解释变量 x每增加一个单位时,预报变量 y平均减少 0.5 个单位;对分类变量 X与 Y,它们的随机变量 2K的观测值 k来说, 越小, “ X与 Y有关系”的把握程度越大.其中正确命题的个数是( )A. 1 个 B. 2 个 C. 3 个 D. 4 个12 【2018 届山东省威海市高三期末】某单位为了落实“绿水青山就是金山银山”理念,制
20、定节能减排的目标,先调查了用电量 (单位:度)与气温 (单位: )之间的关系,随机选 取了 天的用电量与当天气温,并制作了对照表:(单位: )(单位:度)由表中数据得线性回归方程: .则 的值为A. B. C. D. 二、填空题(4*5=20 分)13.【2016 高考江苏卷】已知一组数据 4.7,4.8,5.1,5.4,5.5,则该组数据的方差是_ _. 14.【2018 届山东省淄博市高三 3 月模拟】某校高三年级 3 个学部共有 600 名学生,编号为:001,002,600,从 001 到 300 在 第一学部,从 301 到 495 在第二学部,496 到 600 在第三学部.采用系
21、统抽样的方法从中抽取 50 名学生进行成绩调查,且随机抽取的号码为 003,则第二学部被抽取的人数为_15.【广东省惠州市 2019 届高三第三次调研】某商场一年中各月份的收入、支出情况的统计如图所示,下列说法中正确的是_.2 至 3 月份的收入的变化率与 11 至 12 月份的收入的变化率相同;支出最高值与支出最低值的比是 6:1;第三季度平均收入为 50 万元;利润最高的月份是 2 月份.16 【广东省肇庆市实验中学 2019 届高三第四次月考】某校组织高一全体学生参加计算机操 作比赛,等级分为 1 至 10 分,随机调阅了 60 名学生的成绩,得到样本数据条形图如下图所示,则样本数据的均值和方差分别为_和_