1、1必修三第二章统计复习专题一、基础知识回顾1:简单随机抽样(1)总体和样本 在统计学中 , 把研究对象的全体叫做总体把每个研究对象叫做个体把总体中个体的总数叫做总体容量为了研究总体 的有关性质,一般从总体中随机抽取一部分: , , , 研究,我们称它为样本其中个体的个数称为样本容量(2)简单随机抽样:就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本个体被抽中的可能性相同(概率相等) ,样本的每个个体完全独立,彼此间无一定的关联性和排斥性且为逐个不放回抽取,简单随机抽样是其它各种抽样形式的基础。通常只是在总体个体之间差异程度较小和数目较少时,才采用这种方法。(3)
2、简单随机抽样常用的方法:抽签法随机数表法计算机模拟法(4)抽签法: 给调查对象群体中的每一个对象编号;准备抽签的工具,实施抽签;对样本中的每一个个体进行测量或调查(5)随机数表法:给调查对象群体中的每一个对象编号(编号位数相同) ;获取样本编号2:系统抽样(1)系统抽样(等距抽样或机械抽样):把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。 K(抽样距离)=N/n(若 N/n 不是整数,则需先用简单随机抽样剔除数目最少的个体后再进行)2(2)系统抽样,即等距抽样是实际中最为常用的抽样方法之一。因为它对抽样框的要求较低,实施也比较
3、简单。更为重要的是,如果有某种与调查指标相关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽样可以大大提高估计精度。3:分层抽样(1)分层抽样(类型抽样):先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。两种方法:先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中抽取。先以分层变量将总体划分为若干层,再将各层中的元素按分层的顺序整齐排列,最后用系统抽样的方法抽取样本。(2)分层抽样是把异质性较强的总体分成一个个同质性较强的
4、子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。分层标准:以调查所要分析和研究的主要变量或相关的变量作为分层的标准。以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。以那些有明显分层区分的变量作为分层变量。(3)分层的比例问题:抽样比=样 本 容 量 各 层 样 本 容 量个 体 容 量 各 层 个 体 容 量按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。3如果要
5、用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。类别 共同点 各自特点 相互关系 适用范围简单随机抽样从总体中逐个抽取 总体中的个体数较少系统抽样 将总体均匀分成几部分,按事先确定的规则在各部分抽取再起时部分抽样时采用简单随机抽样总体中的个数较多分成抽样抽样过程中每个个体被抽取的机会相等,都为n/N经总体分成几层,分层进行抽取各层抽样时采用简单随机抽样总体由差异明显的几部分组成如:某学校决定从高一(1)班 60 名学生中利用随机数表法抽取 10 人进行调研,先将 60 名学生按 01,02,60 进行编号;如果从第 8 行
6、第 7 列的数开始从左向右读,则抽取到的第4 个人的编号为( )(下面摘取了第 7 行到第 9 行)8442 1753 3157 2455 0688 7704 7447 6721 7633 5026 8392 6301 5316 5916 9275 3862 9821 5071 7512 8673 5807 4439 1326 3321 1342 7864 1607 8252 0744 3815 0324 4299 7931A16 B38 C21 D50【考点】系统抽样方法【分析】根据随机数表法的读法,可得答案【解答】解:找到第 8 行第 7 列的数开始向右读,第一个符合条件的是 16,第二个
7、数 59,第三个数 38,第四个数 21第 4 个样本个体的编号是 21,故选:C,4:用样本的数字特征估计总体的数字特征(1)样本均值: nxx21(2)样本标准差: nxxs n22212 )()()( 4(3)众数:在样本数据中,频率分布最大值所对应的样本数据(可以是多个) 。(4)中位数:居中(中间一个或两个的平均数,直方图中使两边频率相等的数据)注意: 如果把一组数据中的每一个数据都加上或减去同一个共同的常数,标准差不变如果把一组数据中的每一个数据乘以一个共同的常数 k,标准差变为原来的 k倍一组数据中的最大值和最小值对标准差的影响,区间 的应用;)3,(sx“去掉一个最高分,去掉一
8、个最低分”中的科学道理5:用样本的频率分布估计总体分布1:频率分布表与频率分布直方图频率分布表盒频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布规律,它可以使我们看到整个样本数据的频率分布情况。具体步骤如下:第一步:求极差,即计算最大值与最小值的差.第二步:决定组距和组数:组 距 与 组 数 的 确 定 没 有 固 定 标 准 , 需 要 尝 试 、 选 择 ,力 求 有 合 适 的 组 数 , 以 能 把 数 据 的 规 律 较 清 楚 地 呈 现 为 准 .太 多 或 太 少都 不 好 , 不 利 对 数 据 规 律 的 发 现 .组 数 应 与 样 本 的
9、容 量 有 关 , 样 本 容 量越 大 组 数 越 多 .一 般 来 说 , 容 量 不 超 过 100 的 组 数 在 5 至 12 之 间 .组 距应 最 好 “取 整 ”, 它 与 有 关 .组 距极 差注 意 : 组数的“取舍”不依据四舍五入,而是当 不是整数时,组数组 距极 差= +1.组 距极 差频率分布折线图 :连接频率分布直方图中各个小长方形上端的中点,就得到频率分布折线图。5总体密度曲线:总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息。2:茎叶图:茎是指中间的一列数,叶是指从茎旁边生长出来的数。例 1:某班 n 名学生的综合素质测评成绩(百分制
10、)频率分布直方图如图所示,已知 7080分数段的学生人数为 27 人,9095 分数段的学生中女生为 2 人(1)求 a,n 的值;(2)若从 9095 分数段内的学生中随机抽取 2 人,求其中至少有一名女生的概率【考点】频率分布直方图;列举法计算基本事件数及事件发生的概率【分析】 (1)根据频率分布直方图求出 a 的值,从而求出 n 即可;(2)先得到男生 4 人,记为:a,b,c,d,女生 2 人,记为:e,f ,列出所有的基本事件以及满足条件的事件,从而求出满足条件的概率即可【解答】解:(1)由频率分布直方图得:(a+a+2a+3a+4a+4a +5a)5=1,解得:a=0.01 ,由已
11、知得(4a+5a )5= ,解得:n=60;(2)9095 分数段内的学生数是 2a560=6,则男生 4 人,记为:a,b,c,d,女生 2 人,记为:e ,f,若从 9095 分数段内的学生中随机抽取 2 人,共有 ab,ac,ad,ae,af ,bc,bd,be ,bf ,cd ,ce ,cf,de,df ,ef,共 15 种情形,其中满足至少有一名女生共有:ae,af ,be,bf,ce,cf,de , df,ef,共 9 种情形,其中至少有一名女生的概率是 p= = 例 2:某赛季甲、乙两名篮球运动员每场比赛得分情况的茎叶图如下6甲 乙0 85 1 3 6 44 5 1 2 3 5
12、87 6 9 1 6 1 3 3 8 98 5 40 5 1图 225请 根 据 上 图 对 两 名 运 动 员 的 成 绩 进 行 比 较 , 谁发挥比较稳定。6:变量间的相关关系:自变量取值一定时因变量的取值带有一定随机性的两个变量之间的关系交相关关系。对具有相关关系的两个变量进行统计分析的方法叫做回归分析。(1)回归直线:根据变量的数据作出散点图,如果各点大致分布在一条直线的附近,就称这两个变量之间具有线性相关的关系,这条直线叫做回归直线方程。如果这些点散布在从左下角到右上角的区域,我们就成这两个变量呈正相关;若从左上角到右下角的区域,则称这两个变量呈负相关。设已经得到具有线性相关关系的
13、一组数据: x1。 nxy。 y7所要求的回归直线方程为: ,其中, 是待定的系数。ybxa(2)回归直线过的样本中心点 (,)例 3. 10.假设关于某设备的使用年限 x(年) 和所支出的维修费 y(万元)有如下统计资料:x 2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0若由资料知,y 对 x 呈线性相关关系.试求:(1)线性回归方程;(2)估计使用年限为 10 年时,维修费用约是多少?思路分析:本题考查线性回归方程的求法和利用线性回归方程求两变量间的关系.解:(1)b= =1.23,a= -b =5-1.234=0.08.yx所以,回归直线方程为 =1.23x+0.08.y(
14、2)当 x=10 时, =1.2310+0.08=12.38(万元),即估计使用 10 年时维修费约为 12.38 万元.例 4 (15 年全国卷 19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单位: t)和年利润 z(单位:千元)的影响,对近 8 年的年宣传费 xi和年销售量 yi(i1,2,8) 数据作了初步处理,得到下面的散点图及一些统计量的值.2251 45903.1xyiii8表中 w1 , , x118xw()根据散点图判断,y a bx 与 ycd 哪一个适宜作为年销售量 y 关于年宣传费 x 的回x归方程类型?(给出判断即可,不
15、必说明理由 )()根据() 的判断结果及表中数据,建立 y 关于 x 的回归方程;()已知这种产品的年利率 z 与 x、y 的关系为 z0.2yx.根据() 的结果回答下列问题:()年宣传 费 x49 时,年销售量及年利润的预报值是多少?()年宣传费 x 为何值时,年利率的预报值最大?附:对于一组数据(u 1 v1),(u 2 v2),(u n vn),其回归线 v u 的斜率和截距的最小二乘估计分别为: 21i)(uniivuvxw21)(x 21)(xw)(1yxx )(1ywx46.6 56.3 6.8 289.8 1.6 1469 108.8y9二、练习提高;1.一学校高中部有学生 2
16、 000 人,其中高一学生 800 人,高二学生 600 人,高三学生 600 人.现采用分层抽样的方法抽取容量为 50 的样本,那么高一、高二、高三各年级被抽取的学生人数分别为( )A.15,10,25 B、20,15,15 C.10,10,30 D.10,20,202.一个容量为 10 的样本数据,分组后,组距与频数如下:1,2),1;2 ,3),1;3,4) ,2;4,5) ,3;5 ,6),1;6,7),2.则样本在区间1 ,5)上的频率是( )A、0.70 B.0.25 C.0.50 D.0.203.观察新生婴儿的体重表,其频率分布直方图如图 2-1 所示,则新生婴儿体重在2 700
17、,3 000) 的频率为( )图 2-1A.0.001 B.0.1 C.0.2 D、0.34.有甲、乙两种水稻,测得每种水稻各 10 株的分蘖数后,计算出样本方差分别为 s 甲 2=11,s 乙2=3.4,由此可以估计( )A.甲种水稻比乙种水稻分蘖整齐 B、乙种水稻比甲种水稻分蘖整齐C.甲、乙两种水稻分蘖整齐程度相同 D.甲、乙两种水稻分蘖整齐程度不能比较5.某公司在甲、乙、丙、丁四个地区分别有 150 个、120 个、180 个、150 个销售点,公司为了10调查产品销售的情况,需从这 600 个销售点中抽取一个容量为 100 的样本,记这项调查为(1);在丙地区中有 20 个特大型销售点
18、,要从中抽取 7 个调查其销售收入和售后服务情况,记这项调查为(2). 则完成(1)(2)这两项调查宜采用的抽样方法依次是( )A.分层抽样法,系统抽样法 B、分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法 D.简单随机抽样法,分层抽样法6.已知 x, y 之间的一组数据如下表,则 y 与 x 的线性回归方程 y=a+bx 必经过点 ( D )( A) (2,2) (B) (1.5,0) (C) (1,2) (D) (1.5,4)7.若总体中含有 1 650 个个体,现在要采用系统抽样法,从中抽取一个容量为 35 的样本,分段时应从总体中随机剔除_个个体,编号后应均分为_段,每段有_个个体.答案:5 35 478.数据 x1,x2, ,x8 的平均数为 6,标准差为 2,则数据 2x1-6,2x2-6, ,2x8-6 的平均数为_,方差为_.答案:6 169.进行 n 次试验,得到样本观测值为 x1,x2,xn,设 c 为任意常数,d 为任意正数,得变量 yi=(i=1,2,n),则 =_.dcxiy答案:)(110.某连锁经营公司所属 5 个零售店某月的销售额和利润额资料如下表:商店名称 A B C D E销售额( x)/千万元 3 5 6 7 9利润额( y)/百万元 2 3 3 4 5() 画出销售额和利润额的散点图;x 0 1 2 3y 1 3 5 7