1、1高中统计与概率知识点(文科)(一)统计一、简单随机抽样1总体和样本 在统计学中 , 把研究对象的全体叫做总体把每个研究对象叫做个体把总体中个体的总数叫做总体容量为了研究总体 的有关性质,一般从总体中随机抽取一部分: , , , 研究,我们称它为样本其中个体的个数称为样本容量2简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的可能性相同(概率相等) ,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。3简单随机抽样常用
2、的方法:(1)抽签法;随机数表法; 计算机模拟法;使用统计软件直接抽取。在简单随机抽样的样本容量设计中,主要考虑:总体变异情况;允许误差范围;概率保证程度。4抽签法:(1)给调查对象群体中的每一个对象编号;(2)准备抽签的工具,实施抽签(3)对样本中的每一个个体进行测量或调查例:请调查你所在的学校的学生做喜欢的体育活动情况。5随机数表法:例:利用随机数表在所在的班级中抽取 10 位同学参加某项活动。二、系统抽样1系统抽样(等距抽样或机械抽样):把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。K(抽样距离)=N(总体规模)/n(样
3、本规模)前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。2可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。如果有明显差别,说明样本在总体中的分布成某种循环性规律,且这种循环和抽样距离重合。系统抽样,即等距抽样是实际中最为常用的抽样方法之一。因为它对抽样框的要求较低,实施也比较简单。更为重要的是,如果有某种与调查指标相关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽样可以大大提高估计精度。三、分层抽样1分层抽样(类型抽样):先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各
4、个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。两种方法:(1 )先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中抽取。(2 )先以分层变量将总体划分为若干层,再将各层中的元素按分层的顺序整齐排列,最后用系统抽样的方法抽取样本。2分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。分层标准:(1 )以调查所要分析和研究的主要变量或相关的变量作为分层的标准。(2 )以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。(3 )以那
5、些有明显分层区分的变量作为分层变量。3分层的比例问题:(1)按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。(2)不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。如果要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。四、用样本的频率分布估计总体分布1.频率分布直方图组距与分组:样本容量越大,分组越多,当样本容量不超过 100 时,一般可分成 512 组,组距力求“取整” 。直方图中小长方形的面积表
6、示相应各组的频率,小长方形的面积之和为 1。频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。32.茎叶图:茎是指中间的一列数,叶就是从茎的旁边生长出来的数,中间的数字表示得数的十位数,旁边的数字分别表示两个人得分的个位数.一般将各个数据的叶按大小次序写在茎的左右侧。五、用样本的数字特征估计总体的数字特征1.平均数: nxx212.极差:一组数据中的最大值减去最小值的差,它反映了这组数据的偏离程度.3.方差: 4.标准差:,标准差越小越稳定.nxxxs n22212 )()()( 5.用样本估计总体时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得
7、到的信息会有偏差。在随机抽样中,这种偏差是不可避免的。虽然我们用样本数据得到的分布、均值和标准差并不是总体的真正分布、均值和标准差,而只是一个估计,但这种估计是合理的,特别是当样本量很大时,它们确实反映了总体的信息。6.(1)如果把一组数据中的每一个数据都加上或减去同一个共同的常数,标准差不变(2 )如果把一组数据中的每一个数据乘以一个共同的常数 k,标准差变为原来的 k 倍(3 )一组数据中的最大值和最小值对标准差的影响,区间 的应用;)3,(sx“去掉一个最高分,去掉一个最低分”中的科学道理7.如何从频率分布直方图估计样本的数字特征: 中位数:在直方图中,中位数左边和右边的直方图的面积应该
8、相等。 平均数:在直方图中,平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和。六、两个变量的线性相关1、概念:(1)回归直线方程:散点图中的点从整体上看分布在一条直线附近,这条直线叫回归直线.(2)回归系数:直线方程 y=kx+b,我们把直线方程记作:y=bx+a,其中,a,b 叫做回归系数.b 是直线的斜率,a 是截距.2最小二乘法43 直线回归方程的应用(1)描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系(2)利用回归方程进行预测;把预报因子(即自变量 x)代入回归方程对预报量(即因变量 Y)进行估计,即可得到个体 Y 值的容许区间。(3)利用回归方
9、程进行统计控制规定 Y 值的变化,通过控制 x 的范围来实现统计控制的目标。如已经得到了空气中 NO2 的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中 NO2 的浓度。(二)概 率随机事件的概率及概率的意义1、基本概念:(1 )必然事件:在条件 S 下,一定会发生的事件,叫相对于条件 S 的必然事件;(2 )不可能事件:在条件 S 下,一定不会发生的事件,叫相对于条件 S 的不可能事件;(3 )确定事件:必然事件和不可能事件统称为相对于条件 S 的确定事件;(4 )随机事件:在条件 S 下可能发生也可能不发生的事件,叫相对于条件 S 的随机事件;(5 )频数与频率:在相同的条件
10、 S 下重复 n 次试验,观察某一事件 A 是否出现,称 n 次试验中事件 A 出现的次数 nA 为事件 A 出现的频数;称事件 A 出现的比例 fn(A)= 为A事件 A 出现的概率:对于给定的随机事件 A,如果随着试验次数的增加,事件 A 发生的频率 fn(A)稳定在某个常数上,把这个常数记作 P(A ) ,称为事件 A 的概率。(6 )频率与概率的区别与联系:随机事件的频率,指此事件发生的次数 nA 与试验总次数n 的比值 ,它具有一定的稳定性,总在某个常数附近摆动,且随着试验次数的不断增多,A这种摆动幅度越来越小。我们把这个常数叫做随机事件的概率,概率从数量上反映了随机事件发生的可能性
11、的大小。频率在大量重复试验的前提下可以近似地作为这个事件的概率。3.1.3 概率的基本性质1、基本概念:(1 )事件的包含、并事件、交事件、相等事件5(2 )若 AB 为不可能事件,即 AB= ,那么称事件 A 与事件 B 互斥;(3 )若 AB 为不可能事件,AB 为必然事件,那么称事件 A 与事件 B 互为对立事件;(4 )当事件 A 与 B 互斥时,满足加法公式:P(AB)= P(A)+ P(B);若事件 A 与 B 为对立事件,则 AB 为必然事件,所以 P(AB)= P(A)+ P(B)=1,于是有 P(A)=1P(B)2、概率的基本性质:1)必然事件概率为 1,不可能事件概率为 0
12、,因此 0P(A)1;2)当事件 A 与 B 互斥时,满足加法公式:P(AB)= P(A)+ P(B);3)若事件 A 与 B 为对立事件,则 AB 为必然事件,所以 P(AB)= P(A)+ P(B)=1,于是有 P(A)=1P(B);4)互斥事件与对立事件的区别与联系,互斥事件是指事件 A 与事件 B 在一次试验中不会同时发生,其具体包括三种不同的情形:(1)事件 A 发生且事件 B 不发生;( 2)事件 A 不发生且事件 B 发生;(3)事件 A 与事件B 同时不发生,而对立事件是指事件 A 与事件 B 有且仅有一个发生,其包括两种情形;(1 )事件 A 发生 B 不发生;(2 )事件
13、B 发生事件 A 不发生,对立事件互斥事件的特殊情形。3.2.1 3.2.2 古典概型及随机数的产生1、 ( 1)古典概型的使用条件:试验结果的有限性和所有结果的等可能性。(2 )古典概型的解题步骤;求出总的基本事件数;求出事件 A 所包含的基本事件数,然后利用公式 P(A)= 总 的 基 本 事 件 个 数包 含 的 基 本 事 件 数3.3.13.3.2 几何概型及均匀随机数的产生1、基本概念:(1 )几何概率模型:如果每个事件发生的概率只与构成该事件区域的长度(面积或体积)成比例,则称这样的概率模型为几何概率模型;(2 )几何概型的概率公式:P(A)= ;积 )的 区 域 长 度 ( 面 积 或 体试 验 的 全 部 结 果 所 构 成积 )的 区 域 长 度 ( 面 积 或 体构 成 事 件 A(1 ) 几何概型的特点:1)试验中所有可能出现的结果(基本事件)有无限多个;2)每个基本事件出现的可能性相等