1、 0 / 44生物统计学第三版 课后作业答案(李春喜、姜丽娜、邵云、王文林编著)第一章 概论(P7)习题 1.1 什么是生物统计学?生物统计学的主要内容和作用是什么?答:(1)生物统计学(biostatistics )是用数理统计的原理和方法来分析和解释生物界各种现象和实验调查资料,是研究生命过程中以样本来推断总体的一门学科。(2)生物统计学主要包括实验设计和统计推断两大部分的内容。其基本作用表现在以下四个方面:提供整理和描述数据资料的科学方法;确定某些性状和特性的数量特征;判断实验结果的可靠性;提供由样本推断总体的方法;提供实验设计的一些重要原则。习题 1.2 解释以下概念:总体、个体、样本
2、、样本容量、变量、参数、统计数、效应、互作、随机误差、系统误差、准确性、精确性。答:(1)总体(populatian) 是具有相同性质的个体所组成的集合,是研究对象的全体。(2)个体(individual)是组成总体的基本单元。(3)样本(sample)是从总体中抽出的若干个个体所构成的集合。(4)样本容量(sample size)是指样本个体的数目。(5)变量(variable)是相同性质的事物间表现差异性的某种特征。(6)参数(parameter)是描述总体特征的数量。(7)统计数(statistic)是由样本计算所得的数值,是描述样本特征的数量。(8)效应(effection)试验因素相
3、对独立的作用称为该因素的主效应,简称效应。(9)互作(interaction)是指两个或两个以上处理因素间的相互作用产生的效应。(10)实验误差(experimental error)是指实验中不可控因素所引起的观测值偏离真值的差异,可以分为随机误差和系统误差。(11)随机误差(random)也称抽样误差或偶然误差,它是有实验中许多无法控制的偶然因素所造成的实验结果与真实结果之间产生的差异,是不可避免的。随机误差可以通过增加抽样或试验次数降低随机误差,但不能完全消。(12) 系统误差(systematic)也称为片面误差,是由于实验处理以外的其他条件明显不一致所产生的倾向性的或定向性的偏差。系
4、统误差主要由一些相对固定的因素引起,在某种程度上是可控制的,只要试验工作做得精细,在试验过程中是可以避免的。(13) 准确性(accuracy)也称为准确度,指在调查或实验中某一实验指标或性状的观测值与其真值接近的程度。(14) 精确性(precision )也称精确度,指调查或实验中同一实验指标或性状的重复观测值彼此接近程度的大小。(15)准确性是说明测定值堆真值符合程度的大小,用统计数接近参数真值的程度来衡量。精确性是反映多次测定值的变异程度,用样本间的各个变量间变异程度的大小来衡量。1 / 44习题 1.3 误差与错误有何区别?答:误差是指实验中不可控制因素所引起的观测值偏离真值的差异,
5、其中随机误差只可以设法降低,但不能避免,系统误差在某种程度上可控制、可克服的;而错误是指在实验过程中,人为的作用所引起的差错,是完全可以避免的。第二章 实验资料的整理与特征数的计算(P22、P23)习题 2.1 什么是次数分布表?什么是次数分布图?制表和绘图的基本步骤有哪些?制表和绘图时应注意些什么?答:(1)对于一组大小不同的数据划出等距的分组区间( 称为组距),然后将数据按其数值大小列入各个相应的组别内,便可以出现一个有规律的表式,这种统计表称之为次数分布表。(2)次数分布图是指把次数分布资料画成图状,包括条形图、饼图、直方图、多边形图和散点图。(3)制表和绘图的基本步骤包括: 求全距;确
6、定组数和组距;确定组限和组中值;分组,编制次数分布表。(4)制表和绘图时需要注意的是事先确定好全距、组数、组距、各组上下限,再按观测值的大小来归组。习题 2.2 算数平均数与加权数形式上有何不同?为什么说它们的实质是一致的?答:(1)形式不同在于计算公式的不同:算数平均数的计算公式为 M = ;nxx.21加权平均数的计算公式为 M = 。mffxx.21(2)因为它们反映的都是同一组数据的平均水平。习题 2.3 平均数与标准差在统计分析中有什么作用?它们各有哪些特性?答:(1)平均数(mean)的用处:平均数指出了一组数据资料内变量的中心位置,标志着资料所代表性状的数量水平和质量水平;作为样
7、本或资料的代表数据与其它资料进行比较。(2)平均数的特性:离均差之和等于零;离均差平方和为最小。2 / 44(3)标准差(standard deviation)的用处:标准差的大小,受实验或调查资料中多个观测值的影响,如果观测值与观测值之间差异较大,其离均差也大,因而标准差也大,反之则小;在计算标准差时,如果对各观测值加上火减去一个常数 a,标准差不变;如果给各观测值乘以或除以一个常数 a,则所得的标准差扩大或缩小了 a 倍;在正态分布中,一个样本变量的分布可以作如下估计: s 内的观测值个数约x占观测值总个数的 68.26, 2s 内的观测值个数约占总个数的 95.49, 3sx x内的观测
8、值个数约占观测值总个数的 99.73。(4)标准差的特性: 表示变量的离散程度,标准差小,说明变量的分布比较密集在平均数附近,标准差大,则说明变量的分布比较离散,因此,可以用标准差的大小判断平均数代表性的强弱;标准差的大小可以估计出变量的次数分布及各类观测值在总体中所占的比例;估计平均数的标准误,在计算平均数的标准误时,可根据样本标准差代替总体标准差进行计算;进行平均数区间估计和变异系数的计算。习题 2.4 总统和样本的平均数、标准差有什么共同点?又有什么联系和区别?答:(1)总体和样本的平均数都等于资料中各个观测值的总和除以观测值的个数所得的商。二者区别在于,总体平均数用 表示,= ,公式中
9、分母为总体观测值的个数NxN,样本平均数用 x= ,公式中的分分母为样本观测值的个数 n。样本平均数n是总体平均数 的无偏估计值。x(2)总体和样本的标准差都等于离均差的平方和除以样本容量。二者的区别在于,总体标准差用 表示, ,分母上总体观测值的个数 N;标准差用 s 表=()2示, ,分母上是样本自由度 n-1。样本标准差 s 是总体标准差 的=()21无偏估计值。3 / 44习题 2.5答:见下图100 例 30-40 岁健康男子血清总胆固醇(mol/L)的次数分布表组限(mol/L)组中值(mol/L) 次数 频率 累积频率2.60- 2.870 2 0.02 0.02 3.10- 3
10、.370 8 0.08 0.10 3.60- 3.850 12 0.12 0.22 4.10- 4.375 24 0.24 0.46 4.60- 4.845 20 0.20 0.66 5.10- 5.325 18 0.18 0.84 5.60- 5.825 7 0.07 0.91 6.10- 6.345 8 0.08 0.99 6.60- 0.000 0 0.00 0.99 7.10- 7.220 1 0.01 1.00 习题 2.6答:见下图1007.257.006.756.506.256.005.755.505.255.004.754.504.254.003.753.503.253.002
11、.75100Frequency20100Std. Dev = .87 Mean = 4.74N = 100.00这 100 例男子的血清总胆固醇基本呈正态分布,中间 4.1-5.1mol/L 的最多,两边少,但 6.6-7.1 mol/L 的没有。4 / 44习题 2.7答:见下图Statistics100 10004.7389.086674.6600a4.79b.86665.75108.276.241.055.4784.522.707.22473.893.5850c4.08334.20004.31004.49004.66004.85005.16005.21005.38505.9325Vali
12、dMissingNMeanStd. Error of MeanMedianModeStd. DeviationVarianceSkewnessStd. Error of SkewnessKurtosisStd. Error of KurtosisRangeMinimumMaximumSum1020253040506070758090PercentilesCalculated from grouped data.a. Multiple modes exist. The smallest value is shownb. Percentiles are calculated from groupe
13、d data.c. Descriptive Statistics100 4.52 2.70 7.22 4.7389 .0867 .86665 .751100100 Valid N (listwise) Statistic Statistic Statistic Statistic Statistic Std. Error Statistic StatisticN Range Minimum Maximum Mean Std.Deviation Variance由上表可知:平均数=4.7389,标准差s=0.86665,而CV=s / * 100% =18%习题 2.8答:由习题 2.7 的表可
14、知:中位数 Median=4.6600,平均数 =4.7389,两数相差 0.0789,符合正态分布。习题 2.95 / 44答:分析见下图:Descriptive Statistics10 4.00 20.0000 .3944 1.24722 1.5561024Valid N (listwise)Statistic Statistic Statistic Std. Error Statistic StatisticN Range Mean Std.Deviation VarianceDescriptive Statistics10 11.00 20.0000 1.0750 3.39935 1
15、1.55610 Valid N (listwise)Statistic Statistic Statistic Std. Error Statistic StatisticN Range Mean Std.Deviation Variance由上图可知:“24 号”玉米的平均数 =20,标准差 s=1.24722,而 CV=s /* 100% =6.24%;“金皇后”玉米的平均数 =20,标准差 s=3.39935,而 CV=s /* 100% =17.00%,比较二者的变异系数 CV, “24 号”玉米的的变异系数 CV 比“金皇后”玉米的小得多,说明“24 号”玉米的整齐度大于“金皇后”玉
16、米。习题 2.10答:分析见下图:Descriptive Statistics50 25.00 53.00 42.4600 .9865 6.97579 48.66250 Valid N (listwise)Statistic Statistic Statistic Statistic Std. Error Statistic StatisticN Minimum Maximum Mean Std.Deviation VarianceDescriptive Statistics50 39.00 69.00 52.1000 .8959 6.33503 40.13350 Valid N (listw
17、ise)Statistic Statistic Statistic Statistic Std. Error Statistic StatisticN Minimum Maximum Mean Std.Deviation Variance由上图可知,贻贝单养的平均数 1=42.46,极差 R1=53-25=28.00,标准差s1=6.97579,CV 1=s1 / 1 * 100% =16.43%;贻贝与海带混养的平均数 2=52.10,极差 R1=69-39=30.00,标准差 s2=6.33503,CV 2=s2 / 2* 100% =12.16%,虽然单养的极差较小(28) ,但贻贝与海
18、带混养的平均数更大(52.10),且混养的变异系数更小,即其整齐度更有优势,由此得出,贻贝与海带混养的效果更好。6 / 44第三章 概率与概率分布(P48)习题 3.1 试解释必然事件、不可能事件和随机事件。举出几个随机事件例子。答:(1)必然事件(certain event)是指在一定条件下必然出现的事件;相反,在一定条件下必然不出现的事件叫不可能事件(impossible);而在某些确定条件下可能出现,也可能不出现的事件,叫随机事件(random event)。(2)例如,发育正常的鸡蛋,在 39下 21 天会孵出小鸡,这是必然事件;太阳从西边出来,这是不可能事件;给病人做血样化验,结果可
19、能为阳性,也可能为阴性,这是随机事件。习题 3.2 什么是互斥事件?什么是对立事件?什么是独立事件?试举例说明。答:(1)事件 A 和事件 B 不能同时发生,即 AB=V,那么称事件 A 和事件 B 为互斥事件(mutually exclusion event),如人的 ABO 血型中,某个人血型可能是 A 型、B 型、O型、AB 型 4 中血型之一,但不可能既是 A 型又是 B 型。(2)事件 A 和事件 B 必有一个发生,但二者不能同时发生即 A+B=U,AB=V,则称事件A 与事件 B 为对立事件(contrary event),如抛硬币时向上的一面不是正面就是反面。事件 A 与事件 B
20、 的发生毫无关系。(3)事件 B 的发生与事件 A 的发生毫无关系,则称事件 A 与事件 B 为独立事件(independent event),如第二胎生男生女与第一台生男生女毫无关系。习题 3.3 什么是频率?什么是概率?频率如何转化为概率?答:(1)事件 A 在 n 次重复试验中发生了 m 次,则比值 mn 称为事件 A 发生的频率(frequency),记为 W(A)。(2)事件 A 在 n 次重复试验中发生了 m 次,当试验次数 n 不断增加时,事件 A 发生的频率 W(A)就越来越接近某一确定值 p,则 p 即为事件 A 发生的概率(probability)。(3)二者的关系是:当试
21、验次数 n 充分大时,频率转化为概率 。习题 3.4 什么是正态分布?什么是标准正态分布?正态分布曲线有何特点?u 和 对正态分布曲线有何影响?答:(1)正态分布是一种连续型随机变量的概率分布,它的分布特征是大多数变量围绕在平均数左右,由平均数到分布的两侧,变量数减小,即中间多,两头少,两侧对称。(2)=0,=1 的正态分布为标准正态分布,记为 N(0,1)。(3)正态分布具有以下特点:正态分布曲线是以平均数 为峰值的曲线,当 x= 时,f(x)取最大值 21;正态分布是以 为中心向左右两侧对称的分布 ux的绝对值越大,f(x) 值就越小,但 f(x)永远不会等于 0,所以正态分布以 x 轴为
22、渐近线,x 的取值区间为(-,+ ); 正态分布曲线完全由参数 和 来决定 正态分布曲线在 x= 处各有一个拐点;正态分布曲线与 x 轴所围成的面积必定等于 1。(4)正态分布具有两个参数 和 , 决定正态分布曲线在 x 轴上的中心位置, 减7 / 44小曲线左移,增大则曲线右移; 决定正态分布曲线的展开程度, 越小曲线展开程度越小,曲线越陡, 越大曲线展开程度越大,曲线越矮宽。习题 3.5答:查附表 1 可得:(1)P=(0.3-1.5) P (-1.375)P(-1.38)P=(-1.38)=1-F(= -1.38)=1-0.08379=0.91621(4) P(x -1) P(-1.25
23、)P=(-1.25)=1-F(= -1.25)=1-0.1056=0.89440习题 3.7解:(1) 根据基因分离定律和基因自由组合定律可知:F 1 代非糯稻 Ww 与糯稻 ww 回交,F2 代糯稻和非糯稻的概率均为 1/2,其中糯稻有 200*1/2=100 株,非糯稻有200*1/2=100 株。(2) 糯稻为 2000*1/4=500 株,非糯稻为 2000*3/4=1500 株。习题 3.8解:由题意可知这种遗传符合泊松分布,P=0.0036(1) , = np =200*0.0036=0.72,()=!P (1) =0.72 1*e-0.45 / 1!= 0.72* e-0.45
24、=0.4591(2) 调查的株数 n 应满足 e- =e-np =0.01因此 n = = 1280 (株)plg*01.4329.0*6.-习题 3.98 / 44解:此题符合二项分布,n=5,p=0.425,q=1-0.425=0.575故 “四死一生”的概率 P(4)= p4q1 = 5*0.425 4*0.5751 = 0.09378C5习题 3.10解:设 x 服从这一正态分布。因为 x 服从 =16,=2 的正太分布 N(16,4),故通过标准化转换公式 u= 可转化为:(1) P(1020) P(2 )P 1=(2)=1-F(=2)=1-0.97725=0.02275P 1 (2
25、)的总概率 P=P1+ P2=0.02275+0.02275=0.04550小于 12 或大于 20 的数据的百分数为 4.55%。习题 3.11解:(1)查附表 3 可知,当 df =5 时: P (t= 2.571)=0.05,故 P (t-2.571)=0.05/2=0.025 P (t= 4.032)=0.01,故 P (t4.032)=0.01/2=0.005(2)查附表 4 可知,当 df =2 时: P ( = 0.05) =0.975,故 P ( 0.05) =0.975X XO P ( = 5.99) =0.05,故 P ( 5.99) =1-0.05=0.95X X P (
26、 = 0.05) =0.975,故 P 0.05) = 1-0.975=0.025X XP ( = 7.38) = 0.025,故 P ( 0.05)=0.025-0.025=0X X X(3)查附表 5 可知,当 df1 =3,df 2 =10 时: P (F3.71)=0.05P (F6.55)=0.019 / 44第四章 统计推断(P78-79)习题 4.1 什么是统计推断?统计推断有哪两种?其含义是什么?答:(1)统计推断(statistical inference)是根据总体理论分布由一个样本或一系列样本所得的结果来推断总体特征的过程。(2)统计推断主要包括参数估计和假设检验两个方面
27、。(3)假设检验是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率水平(或显著水平)上应该接受或否定的哪种假设的推断。参数估计则是由样本结果对总体参数在一定概率水平下所做出的估计。参数估计包括点估计(point estimation)和区间估计(interval estimation)。习题 4.2 什么是小概率原理?它在假设检验中有什么作用?答:(1)小概率原理(little probability)是指概率很小的事件在一次试验中被认为是几乎不可能会发生的,一般统计学中常把概率概率小于 0.05 或 0.01
28、 的事件作为小概率事件。(2)它是假设检验的依据,如果在无效假设 H0 成立的条件,某事件的概率大于 0.05 或0.01,说明无效假设成立,则接受 H0,否定 HA;如果某事件的概率小于 0.05 或0.01,说明无效假设不成立,则否定 H0,接受 HA。习题 4.3 假设检验中的两类错误是什么?如何才能少犯两类错误?答:(1)在假设检验中如果 H0 是真实的,检验后却否定了它,就犯了第一类错误,即 错误或弃真错误;如果 H0 不是真实的,检验后却接受了它,就犯了第二类错误,即 错误或纳伪错误。(3)假设检验中的两类错误是弃真错误和取伪错误。为了减少犯两类错误的概率要做到:显著水平 的取值不
29、可以太高也不可太低,一般去 0.05 作为小概率比较合适,这样可以使犯两类错误的概率都比较小;尽量增加样本容量,并选择合理的实验设计和正确的实验技术,以减小标准误,减少两类错误。习题 4.4 什么叫区间估计?什么叫点估计?置信度与区间估计有什么关系?答:(1)区间估计(interval estimation)指根据一个样本的观测值给出总体参数的估计范围,给出总体参数落在这一区间的概率。(2)点估计(point estimation)是指从总体中抽取一个样本,根据样本的统计量对总体的未知参数作出一个数值点的估计。(3)置信度与区间估计的关系为;对于同一总体,置信度越大,置信区间就越小,置信度越小,置信区间越大。习题 4.5解:(1)假设 ,即改变饵料后对虾体重无显著变化;:oH,即改变饵料后对虾体重显著变化。A