1、2019 年艺体生文化课-百日突围讲练通专题二 概率统计(文科)统计【背一背基础知识】一抽样方法抽样方法包含简单随机抽样、系统抽样、分层抽样三种方法,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围二用样本估计总体1.频率分布直方图:画一个只有横、纵轴正方向的直角坐标系,把横轴分成若干段,每一段对应一个组的组距,然后以此段为底作一矩形,它的高等于该组的 频 率组 距 ,这样得出一系列的矩形,每个矩形的面积恰好是该组上的频率,这些矩形就构成了频率分布直方图.在频率分布直方图中,每个小矩形的面积等于相应数据的频率,各小矩形的面积之和等于 1;2.茎叶图:茎叶图是一种将样本数
2、据有条理地列出来,从中观察样本分布情况的图.在茎叶图中, “茎”表示数的高位部分, “叶”表示数的低位部分.3.样本的数字特征:(1)众数:一组数据中,出现次数最多的数据就是这组数据的众数(一组数据中的众数可能只有一个,也可能有多个).在频率分布直方图中,最高的矩形的中点的横坐标即为该组数据的众数;(2)中位数:将一组数据由小到大(或由大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置的数就是这组数据的中位数;如果数据的个数是偶数,则中间两个数据的平均数就是这组数据的中位数.在频率分布直方图中,中位数 a对应的直线 xa的左右两边的矩形面积之和均为 0.5,可以根据这个特点求频率分布直方
3、图中的中位数;(3)平均数:设 n个数分别为 1x、 2、 、 n,则 12nxx 叫做这 个数的算数平均数.在频率分布直方图中,它等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;(4)方差:设 n个数分别为 1x、 2、 、 nx,则 22221 nsxxx 叫做这n个数的方差,方差衡量样本的稳定性的强弱.一般来讲,方差越大,样本的稳定性越差;方差越小越接近于零,样本的稳定性越强;学-科网(5)标准差:设 n个数分别为 1x、 2、 、 nx,则 2221 nsxxx 叫做这 n个数的标准差,标准差也可以衡量样本稳定性的强弱.三.独立性检验(1)分类变量:对于变量的“值”
4、表示个体所属的不同类别,像这样的变量称为分类变量;(2)列联表:列出的两个分类变量的频数表,称为列联表.(3)与表格相比,三维柱形图与二维条形图更能直观地反映出相关数据的总体状况.(4)利用随机变量 2K来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验(5)两个分类变量的独立性检验的一般步骤:列出两个分类变量的列联表:假设两个分类变量 x、 y无关系;计算 22nadbcKd(其中 nabcd 为样本容量);把 2的值与临界值比较,确定 x、 y有关的程度或无关系.临界值附表: 2pKk0.5.40.25.10.50.2.10.5.1783726384163
5、7892四.两个变量的相关关系(1)作出两个变量的散点图,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线(2)回归方程为 ybxa,其中 12niixy= 12)(niiiiixy(, aybx.【讲一讲释疑解惑】1.必备技能:在求解样本的众数、中位数、平均数以及方差时,首先一般要将样本的数据按照一定的顺序进行列举,并根据这些数的定义进行计算;在综合题中求解相应事件的概率时,可以利用树状图作为巩固辅助基本事件的列举,最后在作答时一般利用点列法进行列举.2.典型例题例 1.【2018 年新课标 I 卷文】某家庭记录了未使用节水龙头
6、50 天的日用水量数据(单位:m 3)和使用了节水龙头 50 天的日用水量数据,得到频数分布表如下:未使用节水龙头 50 天的日用水量频数分布表日用水量频数 1 3 2 4 9 26 5使用了节水龙头 50 天的日用水量频数分布表日用水量频数 1 5 13 10 16 5(1)在答题卡上作出使用了节水龙头 50 天的日用水量数据的频率分布直方图:(2)估计该家庭使用节水龙头后,日用水量小于 0.35 m3 的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按 365 天计算,同一组中的数据以这组数据所在区间中点的值作代表 )【答案】(1)直方图见解析.(2) 0.48(3) .【
7、解析】(1)(2)根据以上数据,该家庭使用节水龙头后 50 天日用水量小于 0.35m3 的频率为0.20.1+10.1+2.60.1+20.05=0.48,因此该家庭使用节水龙头后日用水量小于 0.35m3 的概率的估计值为 0.48例 2 【2018 年全国卷文】 某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人,第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:来源:学_科_网 Z_X_X_K(1)根据茎叶图判
8、断哪种生产方式的效率更高?并说明理由;(2)求 40 名工人完成生产任务所需时间的中位数 ,并将完成生产任务所需时间超过 和不超过 的工人数填入下面的列联表:超过 不超过第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?附: , 【答案】 (1)第二种生产方式的效率更高理由见解析(2)超过 不超过第一种生产方式 15 5第二种生产方式 5 15(3)有【解析】(1)第二种生产方式的效率更高理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟,用第二种生产方式的工人中,有 75%的工人
9、完成生产任务所需时间至多 79 分钟因此第二种生产方式的效率更高(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5 分钟,用第 二种生产方式的工人完成生产任务所需时间的中位数为 73.5 分钟因此第二种生产方式的效率更高(iii )由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于 80 分钟;用第二种生产方式的工人完成生产任务平均所需时间低于 80 分钟,因此第二种生产方式的效率更高(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在
10、茎 7 上的最多,关于茎 7 大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高以上给出了 4 种理由,考生答出其中任意一种或其他合理理由均可得分(2)由茎叶图知 列联表如下:超过 不超过第一种生产方式 15 5第二种生产方式 5 15(3)由于 ,所以有 99%的把握认为两种生产方式的效率有差异例 3【2018 届甘肃省高三第一次诊断】2017 年 12 月,针对国内天然气供应紧 张的问题,某市政府及时安排部署,加气站采取了紧急限气措施,全市居民打
11、响了节约能源的攻坚战.某研究人员为了了解天然气的需求状况,对该地区某些年份天然气需求量进行了统计,并绘制了相应的折线图.学-科=网()由折线图可以看出,可用线性回归模型拟合年度天然气需求量 (单位:千万立方米)与年份 (单位:年)之间的关系.并且已知 关于 的线性回归方程是 ,试确定 的值,并预测 2018 年该地区的天然气需求量;()政府部门为节约能源出台了购置新 能源汽车补贴方案 ,该方案对新能源汽车的续航里程做出了严格规定,根据续航里程的不同,将补贴金额划分为三类,A 类:每车补贴 1 万元,B 类:每车补贴 2.5万元,C 类:每车补贴 3.4 万元.某出租车公司对该公司 60 辆新能
12、源汽车的补贴情况进行了统计,结果如下表:为了制定更合理的补贴方案,政府部门决定利用分层抽样的方式了解出租车公司新能源汽车的补贴情况,在该出租车公司的 60 辆车中抽 取 6 辆车作为样本,再从 6 辆车中抽取 2 辆车进一步跟踪调查,求恰好有1 辆车享受 3.4 万元补贴的概率.【答案】 (1) (2)【解析】()如折线图数据可知代入线性回归方程 可得 .将 代入方程可得 千万立方米.概率【背一背基础知识】1随机事件的概率(1)古典概型:计算公式 P(A) ;A包 含 的 基 本 事 件 的 个 数基 本 事 件 的 总 数解 题关键 是弄清基本事件的总数 n 以及某个事件 A 所包含的基本事
13、件的个数 m,常用排列组合知识及公式 P(A) 解决mn(2)几何概型:计算公式 P(A) ;构 成 事 件 A的 区 域 长 度 面 积 或 体 积 试 验 的 全 部 结 果 构 成 的 长 度 面 积 或 体 积 解 题关键 在于把基本事件空间转化为与之对应的区域来解决1互斥事件有一个发生的概率:计算公式 P(AB)P(A)P(B)(A、B 互斥);对于 较复杂的互斥事件的概率求法可考虑利用对立事件去求【讲一讲释疑解惑】1.必备技能:求解独立性检验 的基本问题时,一般只需按照独立性检验的基本步骤进行即可,即第一步提出假设,第二步计算 2K的值,第三步计算犯错误的概率,第四步下结论.2.典
14、型例题例 1.【2018 年天津卷文】已知某校甲、乙、丙三个年级的学生志愿者人数分别为 240,160,160现采用分层抽样的方法从中抽取名同学去某敬老院参加献爱心活动()应从甲、乙、丙三个年级的学生志愿者中分别抽取多少人?()设抽出的 7 名同学分别用 A,B,C ,D,E,F,G 表示,现从中随机抽取 2 名同学承担敬老院的卫生工作(i)试用所给字母列举出所有可能的抽取结果;(ii)设 M 为事件“抽取的 2 名同学来自同一年级” ,求事件 M 发生的概率【答案】() 应从甲、乙、丙三个年级的学生志愿者中分别抽取 3 人,2 人,2 人;()(i)答案见解析;(ii) 【解析】()由已知,
15、甲、乙、丙三个年级的学生志愿者人数之比为 322,由于采用分层抽样的方法从中抽取 7 名同学,因此应从甲、乙、丙三个年级的学生志愿者中分别抽取 3 人,2 人,2 人() (i)从抽出的 7 名同学中随机抽取 2 名同学的所有可能结果为来源:Z,xx,k.ComA,B,A ,C,A,D, A,E,A,F ,A,G ,B,C, B,D,B,E ,B,F, B,G,C,D,C,E,C,F,C,G ,D,E,D,F, D,G, E,F,E,G ,F,G ,共 21种(ii)由() ,不妨设抽出的 7 名同学中,来自甲年级的是 A,B,C ,来自乙年级的是 D,E,来自丙年级的是 F,G,则从抽出的
16、7 名同学中随机抽取的 2 名同学来自同一年级的所有可能结果为 A,B,A,C, B, C, D,E,F,G,共 5 种所以,事件 M 发生的概率为 P(M )= 例 2 【2018 年文北京卷】电影公司随机收集了电影的有关数据,经分类整理得到下表:电影类型 第一类 第二类 第三类 第四类 第五类 第六类电影部数 140 50 300 200 800 510好评率 0.4 0.2 0.15 0.25 0.2 0.1好评率是指:一类电影中获得好评的部数与该类电影的部数的比值.( )从电影公司收集的电影中随机选取 1 部,求这部电影是获得好评的第四类电影的概率;()随机选取 1 部电影,估计这部电
17、影没有获得好评的概率; ()电影公司为增加投资回报,拟改变投资策略,这将导致不同类型电影的好评率发生变化.假设表格中只有两类电影的好评率数据发生变化,那么哪类电影的好评率增加 0.1,哪类电影的好评率减少 0.1,使得获得好评的电影总部数与样本中的电影总部数的比值达到最大?(只需写出结论)【答案】 () () ()增加第五类电影的好评率, 减少第二类电影的好评率.【解析】()由题意知,样本中电影的总部数是 140+50+300+200+800+510=2000.第四类电影中获得好评的电影部数是 2000.25=50,故所求概率为 .()设“随机选取 1 部电影,这部电影没有获得好评”为事件 B
18、.没有获得好评的电影共有 1400.6+500.8+3000.85+2000.75+8000.8+5100.9=1628 部.由古典概型概率公式得 .()增加第五类电影的好评率, 减少第二类电影的好评率.【练一练能力提升】解答题(12*10=120 分)1.【2018 届河北省石家庄高三教学质量检测(二) 】随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加,下表是某购物网站 2017 年 1-8月促销费用(万元)和产品销量(万件)的具体数据:月份 1 2 3 4 5 6 7 8促销费用2 3 6 10 13 21 15 18产品销量1来源:学+科+网 Z+X+X+K 1 2 3 5 4(1)根据数据绘制的散点图能够看出可用线性回归模型拟合 与 的关系,请用相关系数 加以说明;(系数精确到 );(2)建立 关于 的回归方程 (系数精确到 );如果该公司计划在 9 月份实现产品销量超 6 万件,预测至少需要投入促销费用多少万元(结果精确到 ).参考数据: , , , ,其中 , 分别为第 个月的促销费用和产品销量, .参考公式:(1)样本 的相关系数 .(2)对于一组数据 , , ,其回归方程 的斜率和截距的最小二乘估计分别为, .【答案】 (1)见解析;(2) 万元. 【解析】(1)由题可知 ,