1、数学期望:随机变量最基本的数学特征之一。它反映随机变量平均取值的大小。又称期望或均值。它是简单算术平均的一种推广。例如某城市有 10 万个家庭,没有孩子的家庭有 1000 个,有一个孩子的家庭有 9万个,有两个孩子的家庭有 6000 个,有 3 个孩子的家庭有 3000 个, 则此城市中任一个家庭中孩子的数目是一个随机变量,记为 X,它可取值 0,1,2,3,其中取 0 的概率为 0.01,取 1 的概率为 0.9,取 2 的概率为 0.06,取 3 的概率为0.03,它的数学期望为 00.0110.920.0630.03 等于 1.11,即此城市一个家庭平均有小孩 1.11 个,用数学式子表
2、示为:E(X)=1.11。也就是说,我们用数学的方法分析了这个概率性的问题,对于每一个家庭,最有可能它家的孩子为 1.11 个。可以简单的理解为求一个概率性事件的平均状况。各种数学分布的方差是:1、 一个完全符合分布的样本2、 这个样本的方差概率密度的概念是:某种事物发生的概率占总概率(1)的比例,越大就说明密度越大。比如某地某次考试的成绩近似服从均值为 80 的正态分布,即平均分是 80 分,由正态分布的图形知 x=80 时的函数值最大,即随机变量在 80 附近取值最密集,也即考试成绩在 80 分左右的人最多。下图为概率密度函数图(F(x)应为 f(x),表示概率密度):离散型分布:二项分布
3、、泊松分布连续型分布:指数分布、正态分布、X 2 分布、t 分布、F 分布抽样分布只与自由度,即样本含量(抽样样本含量)有关二项分布(binomial distribution):例子抛硬币1、 重复试验(n 个相同试验,每次试验两种结果,每种结果概率恒定伯努利试验)2、抽样分布3、 P(X=0), P(X=1), P(X=3), .所有可能的概率共同组成了一个分布,即二项分布泊松分布(possion distribution):1、 一个单位内(时间、面积、空间)某稀有事件2、 此事件发生 K 次的概率3、P(X=0), P(X=1), P(X=3), .所有可能的概率共同组成了一个分布,即
4、泊松分布二项分布与泊松分布的关系:二项分布在事件发生概率很小,重复次数 n 很大的情况下,其分布近似泊松分布均匀分布(uniform distribution):分为连续型均匀分布和离散型均匀分布离散型均匀分布:1、 n 种可能的结果2、 每个可能的概率相等(1/n)连续型均匀分布:1、 可能的结果是连续的2、 每个可能的概率相等( )连续型均匀分布概率密度函数如下图:指数分布(exponential distribution):用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、中文维基百科新条目出现的时间间隔等等。指数分布常用于各种“寿命”分布的近似。1、连续型分布,每个点的概率
5、:2、无记忆性。已经使用了 s 小时的元件,它能再使用 t 小时的概率,与一个从未使用过的元件使用 t 小时的概率相同。即它对已经使用过的 s 小时没有记忆。指数分布的概率密度函数如下图:正态分布(normal distribution):又称高斯分布。1、 描述一个群体的某个指标。2、 这个指标是连续的。3、 每个特定指标在整个群体中都有一个概率( ) 。4、 所有指标概率共同组成了一个分布,这个分布就是正态分布。正态分布的概率密度函数如下图:中心极限定理:不论总体的分布形式如何(正态或非正态) ,只要样本(抽样样本)含量 n 足够大时,样本均数的分布就近似正态分布,且均数与总体均数相等,标
6、准差为(总体标准差)/(n 的开方) 。中心极限定理使得 t 分布、F 分布和 X2 分布在抽样样本含量很大时不需要对总体样本是否正态有要求。t 分布(student t distribution): 1、t 分布是以 0 为中心的一簇曲线,每个自由度决定一个曲线2、自由度是一个抽样小样本中的具体观测值的个数(抽样样本含量)-13、总体样本呈正态分布(抽样样本含量较小时,要求总体样本呈正态分布,如果抽样样本含量很大(eg. n = 100) ,由中心极限定理可知抽样样本均数也近似正态分布,因而“差值”的概率也呈正态分布,而 t 分布的每一条曲线实际上都是正态分布曲线)4、从一个总体样本中抽取很
7、多个小样本抽样5、每个小样本都有一个均值6、每个小样本的均值与总体样本均值有一个差值,这个差值用 t 估计7、可能有多个小样本的差值估计都是 t,t 出现的次数占所有小样本的比例可以用一个概率衡量8、所有 t 值的概率组成一个分布,就是 t 分布的一个曲线9、另外做一个抽样,每个小样本包含的观测值不同,则形成 t 分布的另外一个曲线10、自由度越大,则曲线越接近于标准正态分布11、t 分布只与自由度相关t 分布的概率密度函数如下图(v 为自由度):X2 分布(chi square distribution):1、X 2 分布也是一簇曲线,每个自由度决定一个曲线2、自由度是一个抽样小样本中的具体
8、观测值的个数(抽样样本含量)-12、总体样本呈正态分布(抽样样本含量(n)较小时,要求总体样本呈正态分布)3、从总体样本中抽取 n 个观测值:z 1,z 2,z 3抽样4、将它们平方后求和,这个和用一个新变量表示,即 X25、重复抽样并获得多个 X2:X 12,X 22,X 32,X 426、可能有多次抽样的 X2 值相同,同一个 X2 值的抽样次数占总次数的比例可以用一个概率表示7、所有的概率值共同组成一个分布,就是 X2 分布 的一条曲线8、另外做一次,只要从总体中选取观测值数目 n 不同,得到的就是另外一条曲线10、自由度越大,则曲线越接近于标准正态分布11、X 2 分布只与自由度相关X2 分布的概率密度函数如下图(n 在这里为自由度):F 分布( F-distribution):1、F 分布也是 一簇曲线, 每对自由度决定一个曲线2、自由度是一个抽样小样本中的具体观测值的个数(抽样样本含量)-12、两总体样本方差比的分布3、总体样本呈正态分布(抽样样本含量(n)较小时,要求总体样本呈正态分布)4、从总体样本中抽取两个样本, 两个样中的观测值数目可相同也可不同,分