1、第 4 章 数理统计的基础知识数理统计与概率论是两个有密切联系的学科, 它们都以随机现象的统计规律为研究对象. 但在研究问题的方法上有很大区别:概率论 已知随机变量服从某分布, 寻求分布的性质、数字特征、及其应用; 数理统计 通过对实验数据的统计分析 , 寻找所服从的分布和数字特征, 从而推断整体的规律性. 数理统计的核心问题由样本推断总体 从本章开始,我们将讨论另一主题:数理统计。数理统计是研究统计工作的一般原理和方法的科学,它主要阐述搜集、整理、分析统计数据,并据以对研究对象进行统计推断的理论和方法,是统计学的核心和基础。本章将介绍数理统计的基本概念:总体、样本、统计量与抽样分布。由于大量
2、随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来。 但客观上只允许我们对随机现象进行次数不多的观察试验,也就是说, 我们获得的只是局部观察资料。数理统计就是在概率论的基础上研究怎样以有效的方式收集、整理和分析可获的有限的, 带有随机性的数据资料, 对所考察问题的统计性规律尽可能地作出精确而可靠的推断或预测,为采取一定的决策和行动提供依据和建议.4.1 总体与样本一、 总体与总体分布1.总体:具有一定的共同属性的研究对象全体。总体中每个对象或成员称为个体。研究某批灯泡的质量,该批灯泡寿命的全体就是总体;考察国产 轿车的质量
3、,所有国产轿车每公里耗油量的全体就是总体;某高校学习“高等数学” 的全体一年级学生。个体与总体的关系,即集合中元素与集合之间的关系。统计学中关心的不是每个个体的所有具体特性,而是它的某一项或某几项数量指标。某高校一年级学生“高等数学” 的期末考试成绩。对于选定的数量指标 X (可以是向量)而言,每个个体所取的值是不同的,这一数量指标 X 就是一个随机变量(或向量) ;X 的概率分布就完全描述了总体中我们所关心的这一数量指标的分布情况。数量指标 X 的分布就称为总体的分布。说明例如 服装厂生产的各式服装,玩具厂生产的儿童玩具,检验部门通常将产品分成若干等级。 3 X 总 体 分 布 就 是 设
4、定 的 表 示 总 体 的 随 机 变 量. 的 分 布 .4.1 X 定 义 统 计 学 中 称 随 机 变 量 ( 或 向 量 ) 为 , 并 把 随 机变 量 ( 或 向 量 ) 的 分 布 称 为 总 体总 体 分 布 .1X 表 示 总 体 的 既 可 以 是 随 机 变 量 , 也 可 以. 是 随 机 向 量 .2有 时 个 体 的 特 性 本 身 不 是 直 接 由 数 量 指 标 来 描 述 的总体的分布一般来说是未知的,统计学的主要任务正是要对总体的未知分布进行推断。二 样本与样本分布以下假定所考虑的样本均为简单随机样本,并简称为样本。样本的双重理解全体样本值组成的集合称为
5、样本空间12 12.4. n nXXX 称 (,)为 总 体 的 , 若 , 是 独 立 同分 布 的 随 机 变 量 , 且 与 总 体 同 分 布 , 样 本 中 所 含 分 量简 单 随 机 的 个 数 称 为 该 样 本定 义 本 的样 容 量1212n nXx 在 未 观 察 具 体 的 抽 样 结 果 时 , 样 本 (,)视 为 随 机 向 量 .观 察具 体 的 抽 样 结 果 后 , 样 本 便 可 理 解 为 所 得 的 一 组 具 体 的 观 察 值 (,),称 为 样 本 值 .1212i1(),(,) nniXFxXFxx 设 总 体 的 分 布 函 数 为 则 样
6、本 ,)的 分 布 函 数 为, ).称 之 为 样 本 分 布 .1212 i1(),(,),(nn nipxPxXpxPXxX 若 总 体 为 随 机 变 量 , 概 率 分 布 为 取 遍 所 有可 能 值 , 则 样 本 的 概 率 分 布 为离 散 型 , ). 2(4 ,N 称 总 体 为 正 态 总 体 , 如 它 服 从 正 态 分 布 .正 态 总 体 是 统 计 应 用中 最 例常 见 的 总 体 .现 设 总 体 服 从 正 态 分 布 )则 气 样 本 密 度 由 下 式给 出 :212 i121(,)exp()()2nii nniifx fx , .(01)1.4,0
7、1XpPpp 称 总 体 为 伯 努 利 总 体 , 如 它 服 从 以 为 参 数 的 伯 努 利分 布 .即 例 2比 如 我们 从 某 班 大 学 生 中 抽 取 10 人 测 量 身 高 , 得 到 10 个 数 .我 们 只 能 观 察 到 随 机 变 量 取 的 值 而 见 不 到 随机 变 量 .它 们 是 样 本取 到 的 值 而 不 是 样 本 . 总 体 、 样 本 、 样 本 值 的 关 系总 体 (理 论 分 布 )?样 本样 本 值统 计 是 从 手 中 已 有 的 资 料 样 本 值 , 去 推 断 总 体 的 情 况 总体 分 布 F(x)的 性 质 .总 体 分
8、 布 决 定 了 样 本 取 值 的 概 率 规 律 , 也 就 是 样 本 取 到 样 本 值的 规 律 ,事 实 上 , 我 们 抽 样 后 得 到 的 资 料 都 是 具 体 的 、 确 定 的 值 . 因 而 可 以 由 样 本 值 去 推 断 总 体 . ? ? ? 是 总 体 的 代 表 , 含 有 总 体 的 信 息分 散 、 复 杂二 二 二 二 二 二 二 二 二 二12,nnnssXPiiip 其 样 本 ()的 概 率 分 布 为 :(1-)1201k nni ii 其 中 ()取 或 , 而 +,它 恰 等 于 样 本 中 取 值 为的 分 量 之 总 数 . 1212
9、 1112 (,),.!43kn nnkki sn nXXPiiPieeii 设 总 体 服 从 参 数 为 的 泊 松 分 布 , 为 其 样 本 ,则 样 本 的 概 率 分 布 为 :例 . 12k nninsii其 中 ()取 非 负 整 数 , 而 +.三 统计推断问题简述12(,).nXXX借 助 于 总 体 的 一 个 样 本 , 对 总 体 的 未 知 分 布 进 行推 断 , 我 们 把 这 统 计 推类 问 题 统 称 断 问 题为 为 利 用 样 本 对 未 知 的 总 体 分 布 进 行 推 断 , 我 们 需 要 借 助 样 本 构 造样 本 的 适 当 的 函 数
10、, 正 是 利 用 这 些 函 数 所 反 映 的 总 体 分 布 的 信 息 来 对总 体 分 布 所 属 的 类 型 , 或 总 体 分 布 中 所 含 的 未 知 参 数 作 出 统 计 推 断 .4.2 统计量一、统计量的定义二、常用的统计量 以后简称修正样本方差为样本方差.12(,)43nXX 不 含 设 为 总 体 的 一 个 样 本 , 称 此 样 本 的 任 一总 体 分 布 未 知 参 数 的 函 数 为 该 样 本 的定 义 . 统 计 量 .21212125,.(,)(,) nnnnEDXSSXX 设 总 体 服 从 正 态 分 布 , 未 知 为总 体 的 一 个 样
11、本 , 令 . 例则 与 均 为 样 本. 的 统 计 量 .(5, .UU 但 若 令 则 不 是 该 样 本 的 统 计 量 , 因 的 表 示 式 中 含 有 总 体 分 布 中 的 位 置 参 数12(,)nXX设 为 总 体 的 一 个 样 本 .12()nXXXn称 样 本 的 算 术 平 均 值 为 样 本 均 值 , 记 为. 样 本 均 值 ,即 .2201 ()2.niiSX样 本 方 差 是 用 来 描 述 样 本 中 诸 分 量 与 样 本 均 值 的 均 方 差 异 的 , 它 有两 种 定 义 方 式 。 直 观 的 : .并 称 为 样 本 的.样 本 方 差未
12、修 正 样 本 方 差22 201()1.niinSX 统 计 学 中 更 常 用 另 一 种 定 义 , 即并 称 修 正 样样 本 的 本 方 差为一阶原点矩即为样本均值.二阶中心矩即为未修正样本方差上述五种统计量可统称为样本的矩统计量,简称为样本矩.他们皆可表为样本的显式函数。三、枢轴量 仅含一个未知参数,但其分布却已知的样本函数成为枢轴量。21()niiSSX样 本 标 准 差 定 义 为 样 本 方 差 的 算 术 平3.样 本 标 准 即差 方 根 ,.1,.41nkkiiA. 样 本记并 称 为 样 原 点 距 阶的 原 点 距本 1()1.5,nkiiBXk记 并 称 为 样
13、本.样 本 中 心 距 阶 中 心 距的12(1)(2)()(1)(2) ()(, , 6n nn iXXXi 设 为 总 体 的 一 个 样 本 .将 样 本 中 的 诸 分 量 按 由 小到 大 的 .顺 序 统 计 量 顺 序 统 计次 序 排 列 成 则 称 为 样 本 的 一 组 , 称 为 样 本 的 第 个顺 序 量统 计 量 .(1)12(1)12mi(,max(,).n nXX 样 本 极 特 别 地 , 称小 值 样 本 极 与分 别 为 与 , 并 称 为 值 样 本 的大 极 差1212(,)(,;), .n nUX 设 为 总 体 的 一 个 样 本 , 需 推 断
14、总 体 分 布 中 某 一 未 知参 数 , 构 造 一 个 样 本 函 数 服 从 一 个 已 知 分 布2200120(,) (,5 ,)(),4 nNXXnXU: 设 总 体 其 中 已 知 , 未 知 , 为总 体 的 一 个 样 本 , 令 例 .4.3 常用的统计分布统计的目的就是借助从总体 中随机抽取的样本 ,构X1(,)nX造相应的统计量(枢轴量) ,通过研究它们的分布来对未知的总体分布进行推断. 因此,本节将要补充统计学中经常用到的分布: 分布、 分布与 t 分布。一、分位数在统计推断中,经常用到统计分布的一类数字特征分位数,在讲常用的统计分布之前,我们先给出分位数的一般概念
15、和性质,这对于以后查阅常用统计分布表和解决第五章的有关参数的区间估计和假设检验的问题都是非常有用的.、上侧分位数定义2、上侧分位数的性质2(), (4.6)-()()(). XFxFPFXx 设 随 机 变 量 的 分 布 函 数 为 , 对 给 定 的 实数 ( ) , 如 果 实 数 满 足 即 上 侧 或 则 称 为 随 机 变 量 的 分 布 的 水 平 的 .或 定 义 直 接 称 为分 布 函 数 的 水 平 的 分 位 数上 侧 分 位 数 100122(1) (), ();4.8();(3)(,) ,1()1;(4.9)(4), 10. (.)FFxFXffxdNuuuPFX
16、若 是 严 格 单 调 递 增 的 则若 ,则若 记 水 平 的 上 侧 分 位 数 为 则即对于像标准正态分布那样的对称分布(密度函数为偶函数) ,统计学中还用到双侧分位数。3、双侧分位数定义4、双侧分位数的性质5、上侧分位数和双侧分位数的例题二、 分布1、 分布的定义()(01), ,4.12).(4.13)(5)4. .X FxTPXTFTx 设 是 对 称 分 布 的 连 续 型 随 机 变 量 , 分 布 函 数 为对 于 给 定 的 实 数 如 果 正 实 数 满 足 即则 称 为 随 机 变 量 的 分 布 的 水 平 的 , 也 简 称 位 ,双 侧 分 位 数 分 位 数或
17、直 接 称 为 分 布 函 数 的 分平义 水 的 位 数定 21()1-,2()(4.1)(2) 53 (.6)XFTPFTF由 分 布 的 对 称 性 容 易 知 道 以 下 关 系 式 成 立 :(1)或 20.50.5. 0.250.250.254.6(,).()1.0.95,164.7,.9XNPuuu : 例 设 求 水 平 的 上 侧 分 位 数 和 双 侧 分 位 数解 : 由 于 , 所 以查 表 可 得而 水 平 的 双 侧 分 位 数 为 , 它 满 足查 表 得 2对定义 4.6 的几点说明2、 分 布 的 典 型 模 式122120() (4.18)()()(0).6
18、(4.nxnaxXfxeedXnXn2如 果 随 机 变 量 的 密 度 函 数 为其 中 是 函 数 ,称 服 从个 自 由 度 的 分 布 定 义 , 记 作1();()1)!()2123) 1,22(2.3)3) 2.(4)1=aannnnx xxnx : 当 是 正 整 数 时当 时是 的 指 数 分 布的 密 度 函 数 为 单 峰 曲 线 , 从 原 点 开 始 递 增 , 在处 取 得 最 大 值 , 然 后 递 减 , 渐 进 于 轴 , 关 于 不 对 称的 密 度 函 数 在 0处 取 无 穷 大 , 以 y轴 为 垂 直 渐 进 线122221, ,(0,1) . () .ni nXXNi Xn 设 是 个 相 互 独 立 的 随 机 变 量 且 则题 服 从 分 布命 2分 布 关 于 自 由 度3、 的 可 加 性222(),4. (),.(2)(),.XmYYnnEDXn( ) 若 且 与 相 互 独 立 , 则若 则命 题 12 2212212,()()mn mmn nX XYXYYY 设 独 立 、 服 从 标 准 正 态 分 布 ()由 于 , 根 据 定 义 4.6与 命 题 .1,与 同 分 布 , 与同 分 步 , 再 由 与 独 立 知 , 与同 分 布 以证 ,明 所