1、概率与统计 知识点一:常见的概率类型与概率计算公式; 类型一:古典概型; 1、 古典概型的基本特点: ( 1) 基本事件数有限多个; ( 2) 每个基本事件之间互斥且等可能; 2、 概率计算公式: A 事件发生的概率 () APA 事 件 所 包 含 的 基 本 事 件 数总 的 基 本 事 件 数; 类型二:几何概型; 1、 几何概型的基本特点: ( 1) 基本事件数有无限多个; ( 2) 每个基本事件之间互斥且等可能; 2、 概率计算公式: A 事件发生的概率 () APA 构 成 事 件 的 区 域 长 度 ( 或 面 积 或 体 积 或 角 度 )总 的 区 域 长 度 ( 或 面 积
2、 或 体 积 或 角 度 ); 注意: ( 1) 究竟是长度比还是面积比还是体积比,关键是看表达该概率问题需要几个变量,如果需要一个变量,则应该是长度比或者角度比;若需要两个变量则应该是面积比;当然如果是必须要三个变量则必为体积比; ( 2) 如果是用一个变量,到底是角度问题还是长度问题,关键是看 谁是变化的主体, 哪一个是等可能的; 例如: 等腰 ABC 中, 角 C=23 ,则: ( 1) 若点 M 是线段 AB 上一点,求使得 AM AC 的概率; ( 2) 若射线 CA 绕着点 C 向射线 CB 旋转,且射线 CA 与线段 AB 始终相交且交点是 M,求使得 AM AC 的概率; 解析
3、:第一问中明确 M 为 AB 上动点,即点 M 是在 AB 上均匀分布,所以这一问应该是长度之比,所求概率:1 3= 33ACP AC ; 而第二问中真正变化的主体是射线的转动,所以角度的变化是均匀的,所以这一问应该是角度之比的问题,所以所求的概率:2 75 5=120 8P ; 知识点二:常见的概率计算性质; 类型一:事件间的关系与运算; A+B(和事件):表示 A、 B 两个事件至少有一个发生; AB (积事件):表示 A、 B 两个事件同时发生; A (对立事件):表示事件 A 的对立事件; 类型二:复杂事件的概率计算公式; 1、 和事件的概率: ( ) = ( ) ( ) ( )P A
4、 B P A P B P A B ( 1) 特别的,若 A 与 B 为互斥事件,则: ( )= ( ) ( )P A B P A P B ( 2)对立事件的概率公式: ( ) 1 ( )P A P A 2、 积事件的概率: ( 1)若事件 12 nA A A、 、 、 相互独立,则: 1 2 1 2( ) ( ) ( ) ( )nnP A A A P A P A P A ( 2) n 次独立重复的贝努利 实验中,某事件 A 在每一次实验中发生的概率都为 p,则在 n次试验中事件 A 发生 k 次的概率: ( ) (1 )k k k n knnP A C p p 类型三:条件概率; 1、 条件概
5、率的定义:我们把在事件 A 发生的条件下事件 B 发生的概率记为: ( | )PB A ; 且 ()( | )()P A BP B A PA2、 三 个常见公式: ( 1) 乘法公式: ( ) ( ) ( | )P A B P A P B A ( 2) 全概率公式:设 1 2 3, , , , nA A A A是一组互斥的事件且1nkk A ,则对于任何一个事件 B 都有:11( ) ( ) ( ) ( | )nnk i ikkP B P A B P A P B A ( 3) 贝叶斯公式: 设 1 2 3, , , , nA A A A是一组互斥的事件且1nkk A 则对于任何一个事件 B 都
6、有:1( ) ( | )( | )( ) ( | )jjj niikP A P B AP A BP A P B A知识点三: 求解一般概率问题的步骤; 第一步:确定事件的性质: 等可能事件、互斥事件、相互独立事件、 n 次独立重复实验等; 第二步:确定事件的运算:和事件、积事件、条件概率等; 第三步:运用相应公式,算出结果; 知识点三:常见的统计学 数字 特征量及其计算; 特征量一:平均数(数学期望) 计算公式一:1 2 31 ()nx x x x xn ; 计算公式二:1 ()nx i ikE x P x x ; 计算公式三:(若随机变量 x 是连续型随机变量,且函数 ()fx是它的密度函数
7、) ()Ex xf x dx特征量二:中位数 将所有的数从大到小排或者从小到大排,若共有奇数个数,则正中间的那个数叫做这一列数的中位数;若共有偶数个数,那么正中间那两个数的平均数叫做这一列数的中位数。 特征量三:众数 将所有数中出现次数最多且次数超过 1 次的数叫做这一列数的众数。一列数的众数可以有多个,也可以没有。 特征量四 :方差 方差反映一组数或者一个统计变量的稳定程度,方差越小数值越稳定,方差越大则数值波动越大。 计算公式一: 211 ( ) nxkkD x xn ; 计算公式二: 211 ( ) ( ) nx k k xkD P x x x En ; 计算公式三: 22()xD Ex
8、 Ex ; 注:期望和方差的性质 : 性质 1: ()Ec c ; 性质 2: ()E ax b aE x b ; 性质 3: 1 2 1 2() nnE x x x E x E x E x ; 性质 4:若 ,xy相互独立,则: ( ) ( ) ( )E x y Ex Ey ; 性质 5: 2 2 2( ) ( ( ) ) ( ) ( ( ) )D x E x E x E x E x ; 性质 6: ( ) 0Dc ; 性质 7: 2( ) ( )D ax b a D x ; 性质 8:若 ,xy为两个随机变量则: ( ) ( ) ( ) 2 ( ( ) ) ( ( ) ) D x y D
9、x D y x E x y E y ; 性质 9:若 12, , , nx x x 是相互独立的随机变量,则: 1 2 1 2( ) ( ) ( ) ( )nnD x x x D x D x D x ; 知识点四:简单的统计学知识; 问题一: 统计学中的简单的抽样方法; 方法一:简单随机抽样; 1、 基本原理:根据研究目的选定总体,首先对总体中所有的观察单位编号,遵循随机原则,采用不放回抽取方法,从总体中随机抽取一定数量观察单位组成样本。 2、 具体做法: 随机数字法 ; 抽签法; 3、 优缺点分析: 优点:基本原理比较简单; 当总体容量不大时比较方便; 抽样误差的计算较方便 ; 缺点: 对所
10、有观察单位编号,当数量大时,有难度 ; 方法二:系统抽样; 1、 基本原理:先将总体的观察单位按某顺序号等分成 n 个部分再从第一部分随机抽第 k 号观察单位,依次用相等间隔,机械地从每一部分各抽取一个观察单位组成样本; 2、 优缺点分析: 优点: 抽样方法简便 ,特别是容量比较大的时候; 易得到一个按比例分配的样本,抽样误差较小 ; 缺点: 仍需对每个观察单位编号 ; 当观察单位按顺序有周期趋势或单调性趋势时,产生明显偏性 ; 方法三:分层抽样; 1、 基本原理: 先将总体按某种特征分成若干层,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。 2、 具体做法: 第一步:计算每一层个体
11、数与总体容量的比值; 第二步:用样本容量分别乘以每一层的比值,得出每层应抽取的个体数; 第三步:用简单随机抽样的方法产生样本; 3、 优缺点分析: 优点: 在一定程度上控制了抽样误差,尤其是最优分配法; 缺点:总体必须要能分成差别比较大的几层时才能用,局限性比较大; 总结:以上三种抽样方法的共同特征是每个个体被抽中的可能性相同; 知识点五:常用的几个统计学图表; 图表一:频率分布直方图与频率分布折线图; 1、 说明几个基本概念: ( 1) 频数:符合某一条件的个体个数; ( 2) 频率:频率 =频 数总 数;(在必要情况下,可以近视的看作概率;所有组的频率之和是 1;) 2、 认识频率分布直方
12、图: ( 1) 横标是分组的情况; ( 2) 纵标不是频率,而是频率 /组距;小方框的面积才是频率;所有的面积和为 1; 3、 画频率分布直方图: 第一步:求极差; 第二步: 分组,确定组距; 第三步:列频率分布表; 第四步:作图; 4、 画频率分布折线图: 将频率分布直方图中每个方框的顶边的中点用直线连起来形成的折线图; 5、 利用频率分布直方图估计样本的统计学数字特征量: ( 1) 中位数:取图中方框面积和达到 12 时的横坐标; ( 2) 众数:取最高的那个方框的中点横坐标; ( 3) 平均数:1( ) ( )nkkkE x x P x x ;其中 kx 表示第 k 组的中点横坐标, (
13、)kPx x表示第 k 组的频率; ( 4) 方差: 21( ) ( )nkkD x x E x; 图表二:茎叶图; 定义:若数据为整数,一般用中间的数表示个位数以上的部分,两边的数表示个位数字;若数据是小数,一般用中间的数表示整数部分,两边的数表示小数部分形成的图表; 知识点六:变量间的相互关系与统计案例; 1、 相关关系的分类 : 从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为 正相关 ;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关 。 2、 线性相关 : 从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变
14、量之间具有线性相关关系,这条直线叫 回归直线。 3 最小二乘法求 回归方程 : (1)最小二乘法:使得样本数据的点到回归直线的 距离的平方和 最小的方法叫最小二乘法 (2)回归方程:两个具有线性相关关系的变量的一组数据: (x1, y1), (x2, y2), , (xn, yn),其回归方程为 y bx a, 其中, b 是回归方程的 斜率 , a 是在 y 轴上的截距 4样本相关系数 : r ,用它来衡量两个变量间的线性相关关系 (1)当 r 0 时,表明两个变量 正相关 ; (2)当 r 0 时,表明两个变量 负相关 ; (3)r 的绝对值越接近 1,表明两个变量的线性相关性 越强 ;
15、r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系通常当 |r| 0.75 时,认为两个变量有很强的线性相关关系 6独立性检验 : (1)用变量的不同 “ 值 ” 表示个体所属的不同类别,这种变量称为分类变量例如:是否吸烟,宗教信仰,国籍等 (2)列出的两个分类变量的频数表,称为列联表 (3)一般地,假设有两个分类变量 X 和 Y,它们的值域分别为 x1, x2和 y1, y2,其样本频数列联表 (称为 22 列联表 )为: y1 y2 总计 x1 a b a b x2 c d c d 总计 a c b d a b c d 22 ()( ) ( ) ( ) ( )n a d b
16、cK a b a c c d b d (其中 n a b c d 为样本容量 ),可利用独立性检验判断表来判断 “ x 与 y 的关系 ” 这种利用随机变量 K2来确定在多大程度上可以认为 “ 两个分类变量有关系 ” 的方法称为两个分类变量的独立性检验 附表: P(K2 k) 0.050 0.010 0.001 k 3.841 6.635 10.828 注意: ( 1) 2K 越大相关性越强,反之越弱; ( 2)附表中 P(K2 k)是两个统计学变量无关的概率; 知识点七:常见的概率分布及期望 、 方差; 类型一:离散型随机变量的概率分布; 1、 两点分布(贝努利分布或 0、 1 分布): (
17、 1) 特点:随机变量 x 只能取两个值 0、 1;分布列如下: x 0 1 P p q ( 2) 期望: ()Ex q ; 方差: 2( ) =D x q q pq ; 2、 二项分布: ( 1) 特点:在 n 次独立重复的贝努利实验中,每次实验中 A 事件发生的概率都是 p;每次试验只有两个结果 A或 A ;随机变量 x 表示 n次试验中 A事件发生的次数; 即: ( ) (1 )k k n knP x k p pC ;则称随机变量 x 服从二项分布;记为: ( , )x B n p ; ( 2) 期望: ()Ex np ;(有两种不同的证明方法,这里就省略了。) 方差: ( ) (1 )
18、D x np p npq ; 3、 几何分布: ( 1) 特点: 在独立重复的贝努利实验中,每次实验中 A 事件发生的概率都是 p,不发生的概率为( 1p );随机变量 x 表示 A 事件首次出现时试验的次数;则称随机变量 x 服从几何分布,记为: ()x Gp ; ( 2) 期望: 1()Exp ;( 1( ) (1 ) kP x k p p ,期望公式可以利用等比数列求和和极限的思想证明。) 方差: 1() pDx p ; 4、 超几何分布: ( 1) 特点:一般的共有 N 个个体, A 类个体有 M 个,从中任取 n 个,随机变量 x 表示取到的 A 类个体的个数,则称 x 服从超几何分
19、布,记为: ( , , )x H n M N; ( ) ; ( 0 , 1 , 2 , 3 , , m in , )k n kM N MnNCCP x k k M nC ; ( 2) 期望: ()MnEx N ; 方差: 2( 1 ) ( 1 )( ) ( )( 1 )M n M M n n M nDx N N N N ; 类型二: 连续型随机变量的概率分布;(高中阶段我们只研究正态分布) 正态分布: 1、 密度函数的概念: 在频率分布折线图中 ,当样本容量取得足够大,组距取得足够小的时候频率分布折线图会变成一条光滑的曲线,我们就把这样的曲线叫做连续性随机变量的密度曲线;把他的解析式叫做密度函
20、数; 显然,如果连续型随机变量 x 的密度函数是 ()fx,则: ( ) ( )baP a x b f x dx ; ( ) 1f dx ; ( ) ( )aP x a f x dx ; ( ) ( )aP x a f x dx ; 2、正态分布的定义:如果连续型随机变量 x 的密度函数是: 22()21()2xf x e ;则称随机变量 x 服从正态分布,记为: 2( , )xN ; 3、正态分布曲线的特点: ( 1)整条曲线都在 x 轴的上方,即 ( ) 0fx 对 xR 恒成立; ( 2) x 是他的对称轴,当 ,x 时,函数 ()fx单调递增;当 , )x 时,函数 ()fx单调递减;
21、在 x 时取得最大值; ( 3) 正态分布曲线的两个主要参数 ,的几何学意义: 参数 决定对称轴的位置,也决定整条曲线的位置,所以也称为位置参数;参数 决定数据的离散程度,也就决定了曲线的高矮胖瘦;具体规律是: 越大,数据越离散,曲线越矮越胖; 越小,数据越集中,曲线越高越瘦; 于是我们习惯于把参数 称为形身高/c m频 率/ 组 距0. 080. 040. 020. 06150 155 160 165 170 175 180状参数; 4、 正态分布的期望与方差:若 2( , )xN 期望: ()Ex ; 方差: 2()Dx ; 5、 正态分布的 3 原则: ( 1) ( ) 0.682 6Px ; ( 2) ( 2 2 ) 0.95 44Px ; ( 3) ( 3 3 ) 0.997 4Px ; 6、标准正态分布:若 (0,1)xN ,则称随机变量 x 服从标准正态分布; 7、正态分布 2( , )xN 与标准正态分布之间的转化关系: 若 2( , )xN ,则 (0,1)xu N;