1、第一章 随机事件及其概率1.1 随机事件及其运算随机现象:概率论的基本概念之一。是人们通常说的偶然现象。其特点是,在相同的条件下重复观察时,可能出现这样的结果 ,也可能出现那样的结果 ,预先不能断言将出现哪种结果.例如,投掷一枚五分硬币,可能“国徽” 向上, 也可能“ 伍分”向上;从含有 5 件次品的一批产品中任意取出 3 件,取到次品的件数可能是 0,1,2 或 3.随机试验:概率论的基本概念之一.指在科学研究或工程技术中, 对随机现象在相同条件下的观察。对随机现象的一次观察(包括试验、实验、测量和观测等),事先不能精确地断定其结果,而且在相同条件下可以重复进行 ,这种试验就称为随机试验 。
2、样本空间: 概 率 论 术 语 。 我 们 将 随 机 试 验 E 的 一 切 可 能 结 果 组 成 的 集 合 称 为 E 的 样 本空 间 ,记 为 。 样 本 空 间 的 元 素 ,即 E 的 每 一 个 结 果 ,称 为 样 本 点 。随机事件:实际中,在进行随机试验时,人们常常关心满足某种条件的那些样本点所组成的集合.称试验 E 的样本空间 的子集为 E 的随机事件,简称事件.在每次试验中,当且仅当这一子集中的一个样本点出现时,称这一事件发生.特别,由一个样本点组成的单点集,称为基本事件.样本空间 包含所有的样本点,它是 自身的子集,在每次试验中它总是发生的,称为必然事件.空集 不
3、包含任何样本点,它也作为样本空间的子集,它在每次试验中都不发生,称为不可能事件.互斥事件( 互 不 相 容 事 件 ) : 若事件 A 与事件 B 不可能同时发生,亦即 ,则称BA事件 A 与事件 B 是互斥(或互不相容)事件。互逆事件: 事件 A 与事件 B 满足条件 , ,则称 A 与 B 是互逆事件,也称 A 与 B 是对立事件,记作 (或 ) 。互不相容完备事件组:若事件组 满足条件 , ( ) ,nA,21 jin1,2ji,则称事件组 为互不相容完备事件组(或称 为样本空n1ii , A,1间 的一个划分)。1.2 随机事件的概率概率:随 机 事 件 出 现 的 可 能 性 的 量
4、 度 。 概 率 论 最 基 本 的 概 念 之 一 。 人 们 常 说 某 人 有 百 分之 多 少 的 把 握 能 通 过 这 次 考 试 , 某 件 事 发 生 的 可 能 性 是 多 少 , 这 都 是 概 率 的 实 例 。统计概率:在 一 定 条 件 下 , 重 复 做 n 次 试 验 , 为 n 次 试 验 中 事 件 A 发 生 的 次 数 ,A如 果 随 着 n 逐 渐 增 大 , 频 率 逐 渐 稳 定 在 某 一 数 值 p 附 近 , 则 数 值 p 称 为 事 件AA 在 该 条 件 下 发 生 的 概 率 , 记 做 P(A)=p。 这 个 定 义 成 为 概 率
5、的 统 计 定 义 。古 典 概 型 : 若随机现象有下列两个特征 (1) 试验的可能结果(基本事件)只有有限个;(2)试验中每个可能结果(基本事件)出现的可能性相等.则称这类现象的数学模型为古典概型.古典概率:在古典概型中,如果基本事件的总数为 n,事件 所包含的基本事件个数为 ( ),则定义事件 的概率 为 .即把 可 以 作 古 典 概 型 计 算 的 概 率 称 为 古 典 概 率 。 古典概率可直接按公式计算,而不必进行大量的重复试验。1.3 概率的基本运算法则加法公式: 设 为任意两个事件,则 .当 满足BA, )()()( ABPBAP,时,加法公式为 。)(条件概率:在事件 发
6、生的条件下,事件 发生的概率称为事件 在事件 已发生条件下的条件概率,记作 。当 时,规定 ;当 时,)(BAP0)()()(APB0)(规定 。0)(乘法公式:设 为任意两个事件,若 ,则 。同理,, )(BP)()(若 , ,)(AP)(AB事件的独立性:如果事件 与 满足 ,则称事件 关于事件 是独立的。)(AB独立性是相互的性质,即 关于 独立, 一定关于 独立,或称 与 相互独立。1.4 全概率公式和贝叶斯公式全概率公式:设 事 件 组 是样 本 空 间 的 一 个 划 分 ,且 ,nB,210)(iBP, 则 对 任 意 的 事 件 , 有ni,21Ani iiPP1)/()(此
7、公 式 称 为 全 概 率 公 式 。贝叶斯公式:设事件组 是样本空间 的 一 个 划 分 ,nB,21, ,0)(iBPi,对任意的事件 ,且 ,则A0)(P, ni iijjj BA1)/()/ .,21nj此 公 式 称 为 贝 叶 斯 公 式 。第二章 随机变量及其分布2.1 随机变量随机变量:设 E 是一随机试验,它的样本空间为 ,如果对于 内的每一个 e,变e量 都有一个确定的实数值 与之对应,则变量 是样本点 e 的实函数,记作XX(e)X。这样的变量称为随机变量。(e)随机变量的分布:要全面了解一个随机变量,不但要知道它取哪些值,而且要知道它取这些值的统计规律,随机变量取值的统
8、计规律就称为它的概率分布,简称分布。分布函数:设 是一随机变量, 是任意实数,由 确定的函数称为随Xx)(xXPxF机变量 的分布函数。如果将 看成是数轴上的随机点的坐标,那么,分布函数 F(x)在处的函数值就表示 落在区间 上的概率。对于任意实数 ,x ),(x21,因此分布函数完整地描述了随1221 XPxXP )(12x机变量的统计规律性。离散型随机变量:如果随机变量 的可能取值只有限个或可列个,则称它为离散型随机变量。若 的可能取值为 ,相应的概率 称为离散型随机变量ix),21(iipxXP的概率函数或分布律。XBernoulli 试验:只有两个可能结果的随机试验称 Bernoull
9、i 试验。试验的独立性:若是试验 E1的可能结果与 E2的可能结果的发生与否是独立的,则称试验E1与 E2是相互独立的。n 重 Bernoulli 试验:把 Bernoulli 试验重复独立进行 n 次,称为 n 重 Bernoulli 试验。n 重 Bernoulli 试验是一种非常重要的的概率模型,它是“在相同条件下进行重复试验或观察”的一种数学模型.二项分布:若将 Bernoulli 试验中的一个可能结果记为 且 ,n 重ApP)()10(Bernoulli 试验中 出现的次数记为 ,则随机变量 的概率函数为 AXX,knknpCkXP)1( n,2,10的分布称为服从参数为 的二项分布
10、,记作 .当 时, 的概率函数X ),(pB1X为 , , ,则称 服从参数为 的两点分布pP1 pXP10)10(p(或 0-1 分布).泊松分布:若随机变量 的概率函数为!keXP)0(,210k则称 服从参数为 的 分布,记作 。oisn)(PX连续型随机变量:设随机变量 所有可能取值充满一个区间,如果相应于它的分布函数存在非负函数 ,对于任意的实数 都有)(xF)(xf xdxfxF)()(则称 为连续型随机变量, 称为 的概率密度函数. 有如下性质:X)(xfX)(xf(1) ,1)(dxf(2) 21)(1xdfP均匀分布: 如果随机变量 的概率密度函数为 X其,0 )( bxab
11、xf则称 在区间 上服从均匀分布 ,记为 .X,ba ),(baUX指数分布: 如果随机变量 的概率密度函数为其中 为常数.0, ,)(xexf0则称 服从参数为 的指数分布, 记为 .X)(EX正态分布: 如果随机变量 的概率密度函数为, ,2)(21)(xexf x其中 为常数,则称 服从参数为 的正态分布 ,记为 .当)0(,X2, ),(2NX时,称 服从标准正态分布 ,记为 .1, )1,0(NX随机向量: 如果 是是联系于同一样本空间 中的两个随机变量,则称 为21, ),(21二维随机变量或二维随机向量。对任意两个实数 ,二元函数21,x称为 的联合分布函数。),(),( 212
12、1 xXPxF),(X或 称为 或1X ),(2112 XxPxF1的边缘分布函数。2常用的随机变量函数的分布:(1) -分布 设独立随机变量 均服从标准2n,21正态分布 N(0,1) ,则随机变量 的分布称为服从是自由度为 n 的 分布,记niiX122 2作 ,其分布密度函数为)(2n0,0,)2()(21xenxf x(2) -分布 设 , ,且 与 相互独立,则随机变量t)1,0(NX)(YXY所服从的分布称为自由度为 的 分布,记作 ,其分布密度函数为nYt/nt)(nt, 。21)()21)(nxxfx(3) -分布 设 , ,且 与 相互独立,则随机变量F(12X)(2nYXY
13、所服从的分布称为自由度为 的 分布,记作 ,其分布21/nYXF),(21nF),(21nF密度函数为 。 0,0 ,)()()2()( 212112 1xxnxf n第三章 随机变量的数字特征数学期望:随机变量按概率的加权平均,表征其概率分布的中心位置,它 反 映 随 机 变 量 平均 取 值 的 大 小 ,它 是 简 单 算 术 平 均 的 一 种 推 广 。 是 随 机 变 量 最 基 本 的 数 学 特 征 之 一 ,又称 期 望 或 均 值 。离散型随机变量的数学期望:设 为一离散型堕机变量,其分布列为 ,X iipxXP)(,若级数 绝对收敛,则称这级数为 的数学期望,记为 ,即(
14、1,2)i 1iipx E,否则,称 的数学期望不存在.1iipxEX连续型随机变量的数学期望:设 为一连续型随机变量,其密度函数是 ,若X()fx收敛,则称 为 的数学期望,否则称 的数学期望不存在.dxf)( dxfE)( X方差、标准差: 设 为一随机变量,若 存在,则称 为 的方2)(EX2)(E差,记为 ,即 ; 称为 的标准差。方差描述)(XV2)()ESDV了随机变量的可能取值关于均值的分散程度。若离散型随机变量 的概率函数为,则 ;若连续型随机变量 的概iipxP)(),21( 12)()(i iipXExXX率密度函数为 ,则 。)(fdfxV)()(2变异系数:设 为任一随
15、机变量,若 存在,且 ,则 称X)(X0)E()()(XCV为 的变异系数。协方差、相关系数:设 为二维随机向量,若 存在,则),(21 )(21EX称为 与 协方差,记作 ;)(21EXXE2,2Cov称为 与 相关系数,记作 。协方差、相关系数都是)(21XVEE12X21,X描述两个随机变量之间线性关联程度的数字特征。当 时,称 与 不相关。021,12矩:设 为随机变量,若 存在,则称 为 的 k 阶原点矩;若)(kE)(kkXE存在,则称 为 的 k 阶中心矩. ; 的kXE)()(kX 1,2. X数学期望是 的一阶原点矩,即 ; 的方差是 的二阶中心矩,即 。1 2)(V大数定律
16、:概率论中讨论随机变量序列的算术平均值向常数收敛的定律。概率论与数理统计学的基本定律之一。大数定律有若干表现形式。贝努里大数定律:设 是 重贝努里试验中事件 出现的次数, 是事件 在每次试验中n出现的概率,则对任意的 ,有 。定理表明事件发生的频率依1limpnPn概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性。就是说当 n 很大时,事件发生的频率于概率有较大偏差的可能性很小中心极限定理:是概率论中最著名的结果之一。它指出,大量的独立随机变量之和具有近似于正态的分布。因此,它不仅提供了计算独立随机变量之和的近似概率的简单方法,而且有助于解释为什么有很多自然群体的经验频率呈现出钟形
17、(即正态) 曲线这一事实,因此中心极限定理这个结论使正态分布在数理统计中具有很重要的地位,也使正态分布有了广泛的应用。中心极限定理也有若干个表现形式。德莫佛拉普拉斯中心极限定理: 设 是 重贝努里试验中事件 出现的次数, 是np事件 在每次试验中发生的概率,则当 n 无限大时,频率 趋于服从参数为 ,A n的正态分布。即:对任意的 ,有 。该np)1(xxtn depP21)1(lim定理是中心极限定理的特例。在抽样调查中,不论总体服从什么分布,只要 n 充分大,那么频率就近似服从正态分布。 第四章 随机抽样及抽样分布总体、个体:统计学中,把研究对象的全体称为总体,其中的每个成员称为个体。统计
18、方法就是通过对部分个体的观察来推断总体的规律性。抽样、样本:为了推断总体分布及其各种特征,就必须从总体中,按一定的法则抽取若干个体进行观测或试验,以获得有关总体的信息。这一抽取过程称为抽样,所抽取的部分个体称为样本。简单随机抽样及简单随机样本:如果一种抽样方法满足下面两点:(1)代表性. 总体中每一个体都有同等机会被抽入样本,这意味着样本中每个个体与所考察的总体具有相同的分布,因此,任一样本中的个体都具有代表性。 (2)独立性. 样本中每个个体取什么值并不影响其它个体取什么值。这意味着,样本中各个体 是相互独立的随机变量;n21X,则称它为简单随机抽样。由简单随机抽样所得的样本称为简单随机样本
19、。统计量:设 为来自总体 X 的一个样本, 为一个连续函数,果n21,X ),g(n21中不包含未知参数,则称 为一个统计量。统计量是一随机变量,它的分g ),g(n21布称为抽样分布。样本均数、样本方差:统计量 和 称为样本均数与niiX1niiXS122)(样本方差。单个正态总体的抽样分布:设 为来自正态总体 的一个样本,则n21, ),(2N(1) ,),(1NXnii(2) )1()(22S(3) )(/ntX两个正态总体的抽样分布:设 和 分别为来自正态总体1n21,X 2n,Y和 的样本,则有),(21N)(Y(1) , ,其中 ,)2()()(121tnS212)1()(12nS
20、SYX(2) 。)1,(2121nFSYX第五章 抽样估计参数估计:参数估计就是要从样本出发去构造一个统计量作为总体中某未知参数的一个估计量;包括点估计和区间估计两种。点估计:设 为总体 的样本, 为总体 的一个未知参数,构造统计量nX21, X,对于样本观测值 ,将统计量 的的观测值)( nx,21,21nx作为参数 的估计,则称 为 的估计值,称统计量 为),(21nx),(21nX的估计量; 的估计量和估计值统称为 的估计,记作 ,这种对未知参数作进行定值估计,称为参数的点估计.矩估计:当样本容量 n 较大时,可以用样本各阶矩去估计总体的各阶矩。按这种统计思想获得未知参数的估计量的方法称
21、为矩估计。极大似然估计:概率较大的事件在一次试验中出现的可能性较大。如果随机抽样(随机试验)的结果得到样本观察值 ,则我们应当这样选取 的值,使这组样nx,21 k,21本值出现的可能性最大。也就是使似然函数 达到最大值,从而求出参数的),(21kL估计值,此方法得到的参数估计称为极大似然估计。区间估计:要求由样本构造一个以较大的概率包含真实参数的一个范围或区间,这种带有概率的区间称为置信区间,通过构造一个置信区间对未知参数进行估计的方法称为区间估计。置信区间、置信度:设 为总体 的样本, 为总体 的一个未知参数,对于nX21, X预先给定的 值,构造统计量 和)0(),(21n),(212n
22、X,使之满足 ,则称随机区间 为 的 或)(21)(21P),置信区间;其中 和 分别称为置信下限和置信上限, 称为置信度.%单侧置信区间:由 或 1),(21nXP 1),(21nXP确定的区间 或 称为总体未知参数 的置信度为 的单侧置信区间;),(1, 分别称为单侧置信下限和单侧置信上限。12第六章 假设检验假设检验:是 统 计 学 中 根 据 一 定 假 设 条 件 由 样 本 推 断 总 体 的 一 种 方 法 。 具 体 作 法 是 :首 先 根 据 问 题 的 需 要 对 所 研 究 的 总 体 作 某 种 假 设 ,接 着 建立推断统计假设 的方0H0H法,以判断所作假设是否正
23、确。在统计学上,称判断假设 正确与否的方法为统计假设检验,简称假设检验。统计假设:把任何一个关于总体分布的假设,称为统计假设。仅涉及到总体分布中所包含的几个未知参数的统计假设称为参数假设;否则称为非参数假设。小概率原理:在概率论中我们把概率很接近于 0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件.一般多采用 0.01,0.05 两个值即事件发生的概率在 001 以下或0.05 以下的事件称为小概率事件,这两个值称为小概率标准,小概率事件可以认为在一次试验中一般不会发生。实际问题中,如果小概率事件发生了,我们认为这是不合理的现象。检验统计量:建立推断统计假设 的方法时所用到的统计量
24、称为检验统计量。0H两类错误:任何一个假设检验都有可能犯两类错误中的一类,I 类错误是弃真错误,即否定了未知的真实情况,把真当成了假;II 类错误是纳伪错误,即接受了未知的不真实状态,把假的当作真的接受了。 I 类错误和 II 类错误是一对矛盾。降低了 I 类错误的概率时,犯II 类错误的概率就会提高。要同时达到减少犯两类错误的可能性,唯有通过扩大样本容量来实现。显著性水平:只控制犯第 类错误概率 的检验称为显著性检验, 称为显著性水平,I参数检验:统计假设仅为参数假设的统计检验方法称为参数检验。参数检验法是依赖于总体分布性质的。非参数检验:是对总体分布不作任何限制性假设统计检验方法。由于它无须对总体分布作任何限制性假设特点,因此也称之为自由分布检验或无分布检验。与参数检验方法比较,非参数检验方法具有容易理解,计算相对简单的特点第七章 方差分析