1、2019/7/8,1,计量经济学补充知识,2019/7/8,2,第一节 概率论基础,一、正态分布及其特征二、随机变量的数字特征,2019/7/8,3,一、正态分布及其特征,若连续型随机变量 X 的概率密度函数为:,其中和 ( 0 )都是常数, 则称X服从参数为和的正态分布或高斯分布. 记作:,2019/7/8,4,1、正态分布概率密度函数的性质,(3) f(x)关于x= 轴对称;,(4) 函数f(x)在(-, 上单调增加,在, +)上单调减少,在x= 处取得最大值;,(5) x = 为 f (x) 的两个拐点的横坐标;,(6) f (x) 以 x 轴为渐近线,2019/7/8,5,根据对密度函
2、数的分析,也可初步画出正态分布的概率密度曲线图.,正态分布概率密度函数的曲线图,2019/7/8,6,决定了图形的中心位置, 决定了图形中峰的陡峭程度.,2、正态分布N(, 2) 的图形特点,2019/7/8,7,3、正态分布N(, 2)的分布函数,2019/7/8,8,4、标准正态分布N(0,1),=0,=1的正态分布称为标准正态分布.其密度函数和分布函数常用 和 (x) 表示:,2019/7/8,9,标准正态分布的分布函数,标准正态分布的密度函数和分布函数,2019/7/8,10,标准正态分布N(0,1)的性质 :,标准正态分布的重要性在于,任何一个一般的正态分布都可以通过线性变换转化为标
3、准正态分布.,定理1,根据定理1,只要将标准正态分布的分布函数制成表,就可以解决一般正态分布的概率计算问题.,2019/7/8,11,标准正态分布函数值表通常所给出的是当 x 0 时, (x)的值。即:,5、正态分布表,当 x 0 时 ,2019/7/8,12,若,5、标准正态分布表,2019/7/8,13,6、标准正态分布的上分位点,设,若数 满足条件,例5:查表试求,解:由,2019/7/8,14,二 随机变量的数字特征,1、数学期望2、方差3、协方差和相关系数,2019/7/8,15,定义1 设X是离散型随机变量,它的分布律是: PX=xk=pk , k=1,2,请注意 :离散型随机变量
4、的数学期望是一个绝对收敛的级数的和。数学期望简称期望,又称为均值。,若,绝对收敛,,则称,即,为随机变量X的数学期望,记为:,1)离散型随机变量的数学期望,1、随机变量的数学期望,2019/7/8,16,定义2 设X是连续型随机变量,其密度函数为 f (x),如果积分,绝对收敛,则称此积分值为X的数学期望, 即,请注意 : 连续型随机变量的数学期望是一个绝对收敛的积分.,2)、连续型随机变量的数学期望,2019/7/8,17,定理:设Y是随机变量X的函数:Y=g (X) ,g是连续函数,则有:,3)随机变量函数的数学期望,该公式的重要性在于: 当我们求Eg(X)时, 不必知道g(X)的分布,而
5、只需知道X的分布就可以了. 这给求随机变量函数的期望带来很大方便.,2019/7/8,18,4)数学期望的性质,1. 设C是常数,则E(C)=C;,4. 设X、Y 相互独立,则 E(XY)=E(X)E(Y);,2. 若k是常数,则E(kX)=kE(X);,3. E(X+Y) = E(X)+E(Y);,(诸Xi相互独立),请注意:由E(XY)=E(X)E(Y)不一定能推出X,Y 独立,2019/7/8,19,1)方差的定义,记为D(X)或Var(X),即,D(X)=Var(X)=EX-E(X)2,2、随机变量的方差,2019/7/8,20,2)计算方差的一个简化公式,D(X)=E(X2)-E(X
6、)2,展开,证:D(X)=EX-E(X)2,=EX2-2XE(X)+E(X)2,=E(X2)-2E(X)2+E(X)2,=E(X2)-E(X)2,利用期望性质,2019/7/8,21,3)方差的性质,1. 设C 是常数, 则 D(C)=0 ;,2. 若 C 是常数, 则 D(CX)=C2 D(X) ;,3. 设 X 与 Y 是两个随机变量,则 D(X+Y)= D(X)+D(Y)+2EX-E(X)Y-E(Y) = D(X)+D(Y)+2E(XY)- E(X)E(Y),4. D(X)=0 PX= E(X)=1 ,2019/7/8,22,推论:若 X,Y 相互独立, 由数学期望的性质4得,此性质可以
7、推广到有限多个相互独立的随机变量之和的情况.,2019/7/8,23,E X-E(X)Y-E(Y) 称为随机变量X和Y的协方差,记为Cov(X,Y) ,即, Cov(X1+X2,Y)= Cov(X1,Y) + Cov(X2,Y), Cov(X,Y)= Cov(Y,X),2.简单性质, Cov(aX,bY) = ab Cov(X,Y) a,b 是常数,Cov(X,Y)=E X-E(X)Y-E(Y) ,1.定义,3)协方差和相关系数,2019/7/8,24,Cov(X,Y)=E(XY) -E(X)E(Y),可见,若X 与 Y 独立, Cov(X,Y)= 0 .,计算协方差的一个简单公式,由协方差的
8、定义及期望的性质,可得,特别地,Cov(X,X)=E(X2) E(X) 2=D(X),D(X+Y)= D(X)+D(Y)+ 2Cov(X,Y),2019/7/8,25,协方差的大小在一定程度上反映了X和Y相互间的关系,但它还受X与Y本身度量单位的影响. 例如:,Cov(kX, kY)=k2Cov(X,Y),为了克服这一缺点,对协方差进行标准化,这就引入了相关系数 .,2019/7/8,26,二、相关系数,为随机变量 X 和 Y 的相关系数 .,在不致引起混淆时,记 为 .,2019/7/8,27,相关系数的性质:,2. X和Y独立时, =0,但其逆不真.,存在常数 a,b(b0),,使 PY=
9、 a + b X=1,,即 X 和 Y 以概率 1 线性相关.,2019/7/8,28,若=0, 则Y 与 X 无线性关系;,若0|j。若方阵A的对角线上方的元素全为零,则称A为下三角矩阵。显然,aij=0,i0,则称A为正定矩阵,记作A0;若对一切x,有xAx0,则称A为非负定矩阵,记作A0。对非负定矩阵A和B,AB表示AB0;AB表示AB0。,2019/7/8,61,正定矩阵和非负定矩阵的基本性质,(1)设A是对称矩阵,则A是正定(或非负定)矩阵,当且仅当A的所有特征值均为正(或非负)。(2)设A0,则A的秩等于A的正特征值个数。(3)若A0,则A10。(4)设A0,则A0,当且仅当|A|
10、0。(5)若A0(或0),则|A|0(或0)。(6)BB0,对一切矩阵B成立。(7)若A0(或0),则存在 0(或0),使得 称为A的平方根矩阵。(8)设A0是p阶秩为r的矩阵,则存在一个秩为r(即列满秩)的pr矩阵B,使得A=BB。,2019/7/8,62,1.8 特征值的极值问题,(1)若A是p阶对称矩阵,其特征值依次为12p,则(2)若A是p阶对称矩阵,B是p阶正定矩阵,12p是B1A的p个特征值,则(3)柯西许瓦兹不等式(CauchySchwarz) 若B0,则(xy)2(xBx)(yB1y),2019/7/8,63,第二节 基本概念,一 随机向量,二 多元分布,三 随机向量的数字特征
11、,2019/7/8,64,2019/7/8,65,二、多元分布,2019/7/8,66,2019/7/8,67,2019/7/8,68,2019/7/8,69,2019/7/8,70,2019/7/8,71,2019/7/8,72,2019/7/8,73,三、随机向量的数字特征,2019/7/8,74,2019/7/8,75,2019/7/8,76,2019/7/8,77,2019/7/8,78,2019/7/8,79,第三节 多元正态分布,一 多元正态分布的定义,二 多元正态分布的性质,2019/7/8,80,一、多元正态分布的定义,2019/7/8,81,2019/7/8,82,2019/
12、7/8,83,2019/7/8,84,二、多元正态分布的性质,2019/7/8,85,2019/7/8,86,2019/7/8,87,2019/7/8,88,2019/7/8,89,2019/7/8,90,2019/7/8,91,第二节 数理统计基础,一、样本及其抽样分布二、参数估计三、假设检验,2019/7/8,92,一、样本及其抽样分布,例:设某厂1年内生产了1,000,000只灯泡,我们需要考察这一百万只灯泡的寿命情况。,1)总体,研究对象的某项数量指标的值的全体称为总体,总体中所包含的个体的个数称为总体的容量.,总体中每个元素称为个体。每个个体是一个实数,2019/7/8,93,每只灯
13、泡的寿命是随机的,因此可以将其看作一个随机变量X ,而X的取值存在一定的分布。这样,总体就可以用一个随机变量及其分布来描述。我们对总体的研究就可以转化为对该随机变量及其性质的研究。,1)总体,总体就是一个随机变量,2019/7/8,94,这一抽取过程称为 “抽样”,所抽取的部分个体称为样本。 样本中所包含的个体数目称为样本容量,2) 样本,总体分布一般是未知,或只知道是包含未知参数的分布,为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息 。,2019/7/8,95,一旦取定一组样本X1, ,Xn ,就可以通过观察得到n个具体的数 (x1,x2,xn)。
14、称(x1,x2,xn)为样本的一次观察值,简称样本值 .,最常用的一种抽样叫作“简单随机抽样”,其特点:,1. 代表性: X1,X2,Xn中每一个与所考察的总体有 相同的分布.,2. 独立性: X1,X2,Xn是相互独立的随机变量.,2) 样本,2019/7/8,96,由样本观察值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.,1)统计量,这种不含任何未知参数的样本的函数称为统计量. 它是完全由样本决定的量.,二、统计量与抽样分布函数,2019/7/8,97,几个常见统计量,样本平均值,它反映了总体均值的信息,样本方差,它反映了
15、总体方差的信息,样本标准差,2019/7/8,98,统计量值,2019/7/8,99,几个概念之间的关系,总体:X,样本:X1, X2, ,Xn,抽样,实验,样本观察值:x1, x2, xn,统计量:f(X1, X2,Xn),代入,统计量值:f(x1, x2,xn),2019/7/8,100,2)统计三大抽样分布,记为,定义: 设 相互独立, 都服从标准正态分布N(0,1), 则称随机变量: 所服从的分布为自由度为 n 的分布.,、分布,自由度(degree of freedom, df):是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数称为该统计量的自由度,例如,在
16、估计总体的平均值时,样本中的n个数全部加起来,其中任何一个数都和其他数据相独立,从其中抽出任何一个数都不影响其他数据(这也是随机抽样所要求的)。因此一组数据中每一个数据都是独立的,所以自由度就是估计总体参数时独立数据的数目,而平均值是根据n个独立数据来估计的,因此自由度为n 。,2019/7/8,101,如图所示:,例如:,的点为 分布的上分位点,对于给定的正数,称满足条件:,分布的上分位数,2019/7/8,102,定义: 设XN(0,1) , Y , 且X与Y相互独立,则称变量:,服从自由度为 n的 t 分布.,、t 分布,记为:tt(n),t 分布又称为学生氏(Student)分布,t分
17、布的密度函数关于t=0对称;当n充分大时, t分布近似于标准正态分布N(0,1),2019/7/8,103,t分布的上分位点:,对于给定的正数(0,1),称满足条件:,的点为t(n)分布的上分位点,如图所示:,2019/7/8,104,2019/7/8,105,、F分布,服从自由度为n1及 n2 的F分布,n1称为第一自由度,n2称为第二自由度。,FF(n1,n2) .,记作:,定义: 设 , 且U与V相互 独立,则称随机变量:,F(n2,n1),若FF(n1,n2) ,则1/FF(n2,n1),2019/7/8,106,F分布的上分位点,的点F(n1,n2)为 F(n1,n2) 分布的上分位
18、点,如图所示:,2019/7/8,107,2019/7/8,108,3、几个重要的抽样分布定理,特别地,当总体为正态分布时,以下将给出几个重要的抽样分布定理.,2019/7/8,109,定理 1 (样本均值的分布),2019/7/8,110,定理 2 (样本方差的分布),2019/7/8,111,定理 3,2019/7/8,112,定理 3,2019/7/8,113,定理 4 若: ,则,定理5若: ,则,定理6若: ,且 是幂等矩阵则,其中,2019/7/8,114,点估计估计量的评选标准区间估计,二、参数估计,2019/7/8,115,参数估计问题的一般提法,X1,X2,Xn,要依据该样本
19、对参数作出估计, 或估计的某个已知函数g() 。,现在从该总体抽样,得到样本,设有一个统计总体 , 总体的分布函数为F( x, ) ,其中为未知参数 (可以是向量) .,这类问题称为参数估计.,二、参数估计,2019/7/8,116,1、点估计概念,随机抽查100个婴儿 ,得100个体重数据,10,7,6,6.5,5,5.2, ,2019/7/8,117,为估计 :,我们需要构造出适当的样本的函数 T(X1,X2,Xn) , 每当有了样本,就代入该函数中算出一个值,用来作为 的估计值 .,把样本的一组观察值代入点估计量T(X1,X2,Xn) 中,就可以得到参数的一个点估计值。,2019/7/8
20、,118,用样本体重的均值 估计 .,类似地,用样本体重的方差 估计 .,2019/7/8,119,样本均值是否是 的一个好的估计量?,样本方差是否是 的一个好的估计量?,2、估计量的评选标准,问题是:,估计量的常用评判标准:,1无偏性,2有效性,3一致性,2019/7/8,120,估计量是随机变量,对于不同的样本值会得到不同的估计值 . 我们希望估计值在未知参数真值附近摆动,而它的期望值等于未知参数的真值. 这就导致无偏性这个标准 .,1)、无偏性,则称 为 的无偏估计 .,2019/7/8,121,所以无偏估计以方差小者为好, 这就引进了有效性这一概念 .,由于,2)、有效性,2019/7
21、/8,122,2)、有效性,2019/7/8,123,3)、一致性,无偏性和有效性都是在样本容量n固定的前提下提出来的,我们自然希望随着样本容量的增大,一个估计量的值能稳定于待估参数的真实值,因此对估计量又有下述一致性的要求:,2019/7/8,124,引言,前面,我们讨论了参数点估计. 它是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大. 区间估计正好弥补了点估计的这个缺陷 .,3、区间估计,2019/7/8,125,譬如,在估计新生婴儿体重的问题中,若我们根据一个实际样本,得到婴儿平均体重的一个点估计值为3千
22、克,若我们能给出一个区间,在此区间内我们合理地相信 的真值位于其中. 这样对婴儿平均体重的估计就有把握多了.,实际上, 的真值可能大于3千克,也可能小于3千克.,2019/7/8,126,也就是说,我们希望确定一个区间,使我们能以比较高的可靠程度相信它包含真参数值.,这里所说的“可靠程度”是用概率来度量的 ,称为置信度或置信水平.,2019/7/8,127,置信水平的大小是根据实际需要选定的.,例如,通常选取置信水平1-=0.99、0.95、0.90,2019/7/8,128,1)置信区间定义,满足,和 分别称为置信下限和置信上限.,则称区间 是 的置信水平(置信度 )为 的置信区间.,201
23、9/7/8,129,可靠度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度.,区间估计的两点要求,2019/7/8,130,在求置信区间时,要查表求分位点.,2)、置信区间的求法,2019/7/8,131,例:若 X 为连续型随机变量 , 求X的置信度为1的置信区间,置信区间,解:设所求的置信区间为(a,b),则:,2019/7/8,132,我们总是希望置信区间尽可能短.,从上例可以看出,置信区间是不惟一的,事实上,若X的概率分布函数为f(u),取置信水平为95%,则对任意两个数a和b,只要它们包含了f(u)下95%的面积,就确定一个95%的置信区间.,2019/7/8,133,在概
24、率密度为单峰且对称的情形,当a =-b时求得的置信区间的长度为最短.,2019/7/8,134,即使概率密度不对称,如2分布,F分布,习惯上仍取对称的分位点来计算置信区间.,2019/7/8,135, N(0, 1),解:选的点估计为 ,寻找一个待估参数及其估计量的函数 ,要求其分布为已知.,有了分布,就可以求出U取值于任意区间的概率.,明确问题,是求什么参数的置信区间?置信水平是多少?,2019/7/8,136,对给定的置信水平,查正态分布表得,对于给定的置信水平, 根据U的分布,确定一个区间, 使得U取值于该区间的概率为置信水平.,2019/7/8,137,从中解得,也可简记为,于是所求
25、的置信区间为,2019/7/8,138,3)、单正态总体均值的置信区间,1)均值的置信区间(置信水平为1- ),2019/7/8,139,假设检验的基本思想和方法假设检验的一般步骤单正态总体均值的假设检验单正态总体方差的假设检验,四、假设检验,2019/7/8,140,假设检验,参数假设检验,非参数假设检验,这类问题称作假设检验问题 .,总体分布已知,检验关于未知参数的某个假设,总体分布未知时的假设检验问题,在本节中,我们将讨论不同于参数估计的另一类重要的统计推断问题. 这就是根据样本的信息检验关于总体的某个假设是否正确.,四、假设检验,2019/7/8,141,在正常生产条件下,由于种种随机
26、因素的影响,每罐可乐的容量应在355毫升上下波动. 这些因素中没有哪一个占有特殊重要的地位. 因此,根据中心极限定理,假定每罐容量服从正态分布是合理的.,例:罐装可乐的容量问题,一、假设检验的基本思想和方法,2019/7/8,142,它的对立假设是:,称H0为原假设(或零假设);,称H1为备择假设(或对立假设).,H1:,随机抽取5罐可乐,可以认为X1,X5是取自正态总体 的样本,,现在要检验的假设是:,一、假设检验的基本思想和方法,2019/7/8,143,那么,如何判断原假设H0 是否成立呢?,一、假设检验的基本思想和方法,2019/7/8,144,一、假设检验的基本思想和方法,2019/
27、7/8,145,一、假设检验的基本思想和方法,但是,由于作出判断的依据是一个样本,当实际上H0为真时仍可能作出拒绝H0的判断(如由于抽样误差等原因)。我们无法消除犯这种错误的可能性,但希望将犯这种错误的概率控制在一定限度之内,如不高于一个约定值 ,即使P拒绝H0 H0为真= ,2019/7/8,146,一、假设检验的基本思想和方法,因而,如果观察值满足,则拒绝H0 ,否则接受H0,2019/7/8,147,2019/7/8,148,故我们可以取拒绝域为:,由于,是一个小概率事件.,W:,如果由样本值算得该统计量的实测值落入区域W,则拒绝H0 ;否则,不能拒绝H0 .,2019/7/8,149,
28、第一步:提出原假设和备择假设,第二步:选取一检验统计量,在H0成立下求出其的分布,二、假设检验的一般步骤,第三步:对给定的显著性水平,查表确定统计量的临界值,并计算出拒绝域,第四步:将样本值代入,算出统计量的观测值,并判断其是否落入拒绝域;若落入,则拒绝原假设;反之则接受原假设。,2019/7/8,150,三、单正态总体均值的假设检验,2019/7/8,151,某车间用一台包装机包装葡萄糖。当机器工作正常时,袋装葡萄糖的重量服从均值为0.5公斤,标准差为0.015公斤的正态分布。某日随机抽取了9袋,测得其重量分别为(公斤):0.497 , 0.506 , 0.518 , 0.524 , 0.498 , 0.511 , 0.520 , 0.515 , 0.512问机器是否工作正常?(显著性水平0.05),