1、实用生物统计,要 求,理解并能应用统计思想熟练掌握常用方法:假设检验、方差分析、回归分析、实验设计等了解其它统计方法的适用范围、限制条件等,学 习 方 法,高效率利用课堂时间预习,听懂,复习独立完成作业多动脑,多问题,理解基础上记忆 http:/ R. 伯恩斯坦,史道济译,科学出版社,2002生物统计学(第二版),杜荣骞著,高等教育出版社,2003生物统计学题解及练习,杜荣骞著,高等教育出版社,2003,前言,典型问题:疫苗是否有效?吸烟是否有害?某批产品中合格品有多少?是否报废?新配方是否优于旧的?流行病是否增加?为了保证获得单抗,需要做多少次细胞融合?,要统计的数据的共同特点,信息不完全结
2、果不确定,统计学就是从不完全信息中取得正确知识的一系列技巧,例1.1 试验配方1(x)配方2(y)两种不同饲料配方对鸡增重的影响。饲养5周后,增重如下。问哪种饲料好?,统计学的其它任务,估计风险大小,做出合理的决策设计实验,以最小代价获取所需知识,不掌握统计学基本知识,就不会成为合格的生命科学工作者!,第一章 概率论基础,1.1 随机现象与统计规律性,必然现象(或不可能事件):一定条件下必然发生(或必然不发生)的事件。又称决定性事件。随机现象:条件不变,仍会有不能预测的结果的事件。大部分科学实验的结果都是随机事件。,频率稳定性,随机事件的结果是不确定的。但在大量的实验中,各种结果的频率会逐渐趋
3、于固定数值,即它的出现概率。这种现象是随机事件内在规律性的反映,称为频率稳定性。,1.2 样本空间与事件,事件间的关系,A,B,A,B,A,A,B,事件的运算,运算的顺序,逆 乘方 交 乘法 并或差 加减法,运算规律,(1)交换律:AUB=BUA,AB=BA(2)结合律:(AUB)UC=AU(BUC),(AB)C=A(BC)(3)分配律:(AUB)C=(AC)U(BC), (AB)UC=(AUC)(BUC)(4)德莫根(De Morgan)定理: 对于n个事件,甚至对可列个事件,,1.3 概 率,古典概型:样本空间只有有限个样本点 这些样本点出现的可能性相等,性质,(1)非负性:对任意事件A,
4、P(A)0 (2)规范性:P()=1(3)可加性:若A1,A2,An两两互不相容, 如果样本空间含有无穷多个样本点,则上述可加性也应推广为可列可加性(或称完全可加性),即:若A1,A2,, An,互不相容,,几何概型样本空间为某一可度量的几何区域,样本点数常常是不可列的 该几何区域内每一样本点出现的可能性相等 概率等于有利场合的长度(面积、体积)与样本空间的长度(面积、体积)之比。Monte-Carlo方法Bertrand奇论,1.4 概率的运算,概率加法: P(AUB)= P(A)+P(B)P(AB) 条件概率:乘法定理: P(AB)=P(A) P(B|A)=P(B) P(A|B),1.5
5、独立性,两个事件的独立性 若P(AB)=P(A)P(B), 则称事件A, B相互独立三个事件的独立性 若以下4式同时成立,则称事件A, B, C相互独立: P(AB)=P(A)P(B), P(AC)=P(A)P(C), P(BC)=P(B)P(C), P(ABC)=P(A)P(B)P(C),多个事件的独立性:定义:A1,A2,An为n个事件,若对任何正整数k(2kn),有P(Ai1 Ai2 Aik) = P(Ai1) P(Ai2) P(Aik), 其中i1, i2, , ik为满足下式的任何k个自然数: 1i1i2 0, (i=1, 2,)(2)A1 + A2 + A3 + + An + =
6、(完全性) 则对任一事件B,有: 满足上述条件的事件组通常称为样本空间的一个分割。,逆概公式,若事件B能且只能与两两互不相容事件A1,A2,An,之一同时发生,则,统计和概率,随机变量Random variable,随机变量X在实验中所得到的取值有随机性的量 例1:连续三次抛一枚硬币,出现正面的次数X为随机变量。,定义:在一定条件下,每一个可能结果都唯一地对应到一个实数值X(),则称实值变量X()为一个随机变量。简记X。可以用随机变量表示随机事件X=1,X2P(X=1) = P(1)=0.375,随机变量Random variable,离散型随机变量 Discrete random varia
7、bleX可能取有限个值或无限个值,并能一一列举出来连续型随机变量Continuous random variableX可能取无限个值,不能一一列举出来,离散型随机变量,P称为概率函数 P(X=x) = P(x) = p离散型随机变量概率分布表对任意可能结果 x,有 P(x)0, 且,连续型随机变量,连续型随机变量的概率密度函数probability density而且有重要性质由积分的定义,累积分布函数,定义:设X为一随机变量,称函数 F(x) = P( X x ) (-x+) 为X的累积分布函数(cumulative distribution function)。,离散型累积分布函数,P(a
8、Xa,有:F(b)F(a) 左连续性:F(x-0) =F(x),两点分布,分布列为:其概率模型是进行一次随机试验,成功的概率为p, 失败概率为q=1-p若X的分布如下,则X服从两点分布。P(X=1) = pP(X=0) = q一次Bernoulli试验,常见的离散型随机变量分布,二项分布(binomial distribution),n重Bernoulli试验:一次Bernoulli试验只有两种可能结果,成功或失败成功的概率为p, 失败的概率为1-p各次试验间相互独立,即互不影响用X表示n重Bernoulli试验中成功的次数,常见的离散型随机变量分布,超几何分布Hypergeometric d
9、istribution,总体中有 N 件产品(其中有 M 件次品)进行不放回抽样检查,得到 n 件样品,一次取一个用X表示这个容量为n的样本中的次品数 , 则,0knN, kM,常见的离散型随机变量分布,几何分布geometric distribution,连续进行独立实验,若以X记首次成功时的实验次数 g(k, p) = P(X=k) = qk-1p k=1, 2, 3 无记忆性 令B为前m次未成功,A为再等k次,则,常见的离散型随机变量分布,负二项分布negative binomial distribution,连续独立实验,以X记第k次成功时总的实验次数,则X服从负二项分布 若令k=1,
10、则为几何分布在生态学的研究中常有应用,许多生物种群的空间分布型都可以用它来描述,其参数k可作为聚集性的指标,k 越小,该生物的群集性越明显。,常见的离散型随机变量分布,Poisson分布,在二项分布中,当事件出现概率特别小,(p0),而实验次数又非常多(n),使np(常数)时,二项分布就趋近于泊松分布,x=0,1,2,常见的离散型随机变量分布,Poisson分布,如:一个特定的时间段内到达电话交换台的呼叫次数一种放射性物质10秒内释放的粒子个数一立方厘米血液中白细胞的个数一株紫菜上生长的细菌群体数,常见的离散型随机变量分布,Poisson分布,用X表示给定的时间或空间段(单位时间或空间段的t倍
11、之内)成功的次数由 为单位时间或空间段内成功的平均次数,则t倍单位时间或空间段内成功出现的平均次数为而取 ,则,常见的离散型随机变量分布,Poisson分布三个性质,平稳性: 在(t0, t0+t)中来到的呼叫平均数只与时间间隔t的长短有关,而与起点t0无关。它说明现象的统计规律不随时间变化。独立增量性(无后效性):在(t0, t0+t)中来到k个呼叫的可能与t0以前的事件独立,即不受它们的影响。它说明在互不相交的时间间隔内过程的进行是相互独立的。普通性:在充分小的时间间隔内,最多来一个呼叫。即: 令Pk(t)为长度为t的时间间隔中来k个呼叫的概率,则:,常见的离散型随机变量分布,Poisso
12、n分布,如果改用细胞计数为例: 平稳性:在记数板上某一区域中观察到细胞平均数只与区域的大小有关,与这一区域位于板上的什么位置无关。这说明细胞出现在板上任何位置的可能性都是相等的。 独立增量性:在某一区域中观察到k个细胞的可能性与区域外细胞的多少无关,不受它们的影响。这说明细胞出现在何处与任何其他细胞无关,细胞间既不会互相吸引,也不会互相排斥。 普通性:每个细胞都可与其他细胞区分开来,不会有两个或几个细胞重叠在一起,使我们对细胞无法准确计数。,Poisson分布,例: 某物理学家将一只Geiger计数器放在一种放射物附近,记录激发粒子的个数,2小时内每10秒记录一次。从获得的数据,物理学家计算出
13、10秒钟(单位时间)内粒子(成功)的平均激发数为5.5个,假设这是一个Poisson试验,计算10秒内激发超过3个的概率。,常见的离散型随机变量分布,连续型随机变量,连续型随机变量取任意个别值的概率都是0 一个事件的概率为0,并不一定是不可能事件。一个事件概率为1,也不一定是必然事件。, P(X=C) = 0,均匀分布uniform distribution,X在区间a,b上服从均匀分布,其概率密度为分布函数,常见的连续型随机变量分布,指数分布exponential distribution,密度函数分布函数 无记忆性,其中0,为常数,常见的连续型随机变量分布,Poisson分布与指数分布,二
14、者的参数有完全相同的实际意义:如果一个事件成功在单位时间或空间段内由Poisson过程随机产生,那么 A,一个时间或空间段内成功的次数服从Poisson分布 B,两次成功之间的时间或空间间隔服从指数分布 C, 为单位时间或空间内成功的次数 D,1/ 为成功出现的平均间隔时间或空间,即1/ 个时间或空间单位例: 已知一家医院的急诊室在周日下午6:0010:00之间平均到达5个急救病例。如果离散随机变量到达个数服从Poisson分布,则在这段时间内:1.相继两次到达间隔时间的期望, 2.前次到达的15 分钟内有另一次到达发生的概率,正态分布normal distribution,N(,2) N(0
15、,1),=0.5,=1.0,=1.5,常见的连续型随机变量分布,密度,标准正态分布密度函数曲线和分布函数曲线, (1.960) (1.960) = 0.95 (2.576) (2.576) = 0.99, ( x) = (x) (x)= 1- (x),随机变量X的标准化,设X N(,2) ,令则U N(0, 1),即:令XN(0,1),则:,例2.1 已知小麦穗长服从N(9.978, 1.4412),求下列概率:(1)穗长12.128cm,(3)穗长在8.573cm与9.978cm之间。,例2.2 从甲到乙地有两条路线,走第一条路所需时间服从N(50,100),走第二条路时间服从N(60,16
16、),问:(1). 若有70分钟可用,走哪条路好?(2). 若只有65分钟呢?解:走哪条路好可理解为走该条路在指定的时间内到达的可能性大。因此有:,显然F2(70) F1(70),应走第二条路。,显然F1(65) F2(65),应走第一条路。,随机向量,X=(X1,X2,Xn),如X1代表温度,X2代表湿度, n维随机向量(随机变量)离散型随机向量分布列(表)连续型随机向量密度函数,n维随机变量的联合分布函数,F(x1, x2, xn)=P(X1x1, X2x2, Xnxn) F(X1, X2, , -, Xn)=0F(+, +, , +)=1P(a1X1b1, a2X2b2)= F(b1,b2
17、) - F(a1,b2) - F(b1,a2) + F(a1,a2),n维随机变量的联合分布函数,二维均匀分布 n维正态分布,n维随机变量的联合分布函数,离散:令 P(y1, y2, yn) = P(X1=y1, X2=y2, Xn=yn),则分布函数为: 连续:令f(y1, y2, yn)为其密度函数,则分布函数为:,F(x1, x2, xn) =,边际分布,有放回摸球的概率分布,无放回摸球的概率分布,例2.3 袋中有4只白球和6只黑球,摸到白球记为1,摸到黑球记为0。以X1记第一次摸球的结果,X2记第二次摸球的结果 。,随机变量的独立性,定义:设F(x1, x2, xn)为随机向量X= (
18、X1, X2, Xn)的联合分布函数,若对任意x1, x2, xn,有:F(x1, x2, xn)= F1(x1)F2(x2) Fn(xn) 则称随机变量X1, X2, Xn互相独立。其中F1,F2,Fn分别为X1, X2, Xn的分布函数。离散型随机变量独立,有:P(X1=x1, X2=x2, Xn=xn) = P1(X1=x1)P2(X2=x2) Pn(Xn =xn) 连续型随机变量独立,有:f(x1, x2, xn)= f1(x1)f2(x2) fn(xn),离散型随机变量数学期望Expectation,随机变量的数字特征 (numeric characteristics),击中环数X
19、8 9 10 甲的概率P 0.3 0.1 0.6 谁的成绩好呢? 乙的概率P 0.2 0.5 0.3 甲:80.3N+90.1N+100.6N=9.3N 乙:80.2N+90.5N+100.3N=9.1N,离散型随机变量数学期望Expectation,定义:设X为一离散型随机变量,它取值为x1, x2, x3 ,对应的概率为p1, p2, p3 ,若级数绝对收敛,则把它的极限称为X的数学期望或均值,记为E(X)。 例2.6 两点分布: X: 1 0 P: p q E(X) = 1p+0q =p,随机变量的数字特征 (numeric characteristics),E(X) =,均值mean,
20、二项分布数学期望,几何分布数学期望,Pk=qk-1 p, k = 1,2,绝对收敛,当|q|0)r=1, X1= KX2+Cr= -1, X1= -KX2+C若r=0, 则称X1与X2不相关。下列事实等价:cov(X1,X2)=0 X1与X2不相关 E(X1X2) = E(X1)E(X2) D(X1+X2) = D(X1)+D(X2),证明: cov(X1,X2) = E(X1-E(X1) (X2 E(X2) = EX1X2-X1E(X2)-X2E(X1)+ E(X1)E(X2) = E(X1X2)- E(X1)E(X2) (1),(3)等价D(X1+X2) = EX1-E(X1)+X2 E(
21、X2)2= E(X1-E(X1)2+(X2 E(X2)2+2(X1-E(X1) (X2 E(X2)= D(X1)+D(X2)+2cov(X1,X2) (1)与(4)等价,相关系数的性质,相关系数的性质,若X,Y独立,则X,Y不相关,但逆不成立。 独立是说互相间没有任何影响,因此不存在任何函数关系 不相关只说X,Y间没有线性关系,是否有非线性关系则不一定 n个随机变量:若X1,X2 Xn不相关,则: E(X1X2 Xn)= E(X1)E(X2) E(Xn) D(X1+X2+Xn)= D(X1)+D(X2)+ +D(Xn),矩 moment,原点矩origin moment mk=E(Xk)称为随
22、机变量X的k阶原点矩(正整数k)数学期望就是一阶原点矩 (k=1)中心矩central moment Ck=E(X-E(X)k称为随机变量X的k阶中心矩(正整数k)方差是二阶中心矩(k=2),中位数 median,中位数是同时满足P(Xx) , P(Xx) 的x值 在离散型的情况下,中位数可能不唯一 如:X: 1 5 7 P: 0.1 0.4 0.5 中位数为5,7中任意数 四分位数quantile: Q1,Q2,Q3百分位数Percentile,众数mode,若X为离散型,则使P(X=xi)=pi达到最大值的xi称为众数若X为连续型,则使其密度函数f(x)达到最大值的x称为众数在上面的例子中
23、,众数为7。显然众数也可能不唯一。,变异系数coefficient of variability,是一个没有单位的数,使用它可以更好地直观比较各随机变量的离散程度,偏态系数(偏度),峰态系数(峭度),三阶中心矩除以标准差的立方称为随机变量的偏态系数coefficient of skewness,记作CS。即:CS0,正偏度;CS0,密度函数图形尖;Ce0,有:只要实验次数足够大,样本均值Sn/n就会趋近于母体的期望,中心极限定理 central limit theorem,设X1,X2,Xn是独立同分布的随机变量,且E(Xi),D(Xi)存在,则对一切实数a1 是否成立?,两个分布N(1,12
24、)和N(,2),问和1是否一样?将样本均值与1相比,如果样本均值与1相近,则说明两个分布的均值有极大的可能是相同的,即=1.如果样本均值远离1(给一个人为的判断标准a:样本均值位于a的右边或-a的左边),则说明两个分布的均值有很小的可能(概率很小)是相同的,即1.,a,假设检验hypothesis testing,假设 H0 =1=151,小概率事件,U=0,在H0(=1=151)为真的条件下,统计量UN(0,1)U的特定值 u 应有绝大多数位于=0附近,即u在0附近的概率P应很大即|u|1.96时,接受H0,拒绝H0,接受H0,拒绝H0,由分析知:由于生活水平提高,孩子身高只会增加,不会减少
25、。同时,题目也是问身高是否有增长,因此只要判断 1 是否成立即可.,假设检验,小概率事件拒绝H0,0.05,=0.01,假设检验,1=151,小概率事件拒绝H0,0.005,0.01,问题: 1 未知? 用样本 S 代替统计量 自由度n-1的t分布 t分布概率密度函数,假设检验,假设检验,=0.05 显著差异 =0.01 t t0.99(199) 2.347 有极显著差异结论: 拒绝H0,应认为10年来该地区男孩身高有明显增长。,小概率事件拒绝H0,t 分布 =0.05双侧检验 单侧检验t 分布 =0.01双侧检验 单侧检验,假设检验,假设的建立,零假设(null hypothesis) :H0: =151 151 151 通过统计检验决定接受或拒绝H0后,可对问题作出明确回答要能根据H0建立统计量的理论分布 备择假设(alternative hypothesis) :HA:151 151 0 ,或 0,则有 ,即差值的方差小于两组数据方差的和,此时采用配对检验可提高检验精度 r 0,则有 ,即差值的方差反而大于两组数据方差的和,此时采用配对检验会降低检验精度,