1、第一章 概论一、生物统计学的概念(一)统计学统计学 (Statistics)是数学的一个分支,用以搜集、整理、分析数据,进而推导分析结果的科学方法,因而有学者也将统计学统称为统计方法( Statistical Method)。统计不但用来简化和表示一组数据,而且主要是在探讨如何从一组数据的总体中(总体, Population),以某一抽取过程(抽样, Sampling)抽出部分数据(样本, Sample),来研究如何利用这一部分数据去估计、检验或预测数据总体的某些未知的特性值。 1搜集数据 统计工作的第一步,即要搜集相关的统计数据,无论是原始数据(如已调查或实验所得的数据)还是二次数据(例如政
2、府公布的统计数据)。统计数据的搜集必须切合统计分析的目的,否则将浪费许多时间和金钱,却得到一大堆无法使用的数据。 2.整理数据 所搜集的数据通常是杂乱无章的,尤其是原始数据。所以需要加以整理,以计算出想要的统计数字或绘制出统计图表。此部分包括分类、归类、列表和绘图,通常是用电脑来加以整理。 3分析数据 所计算出的统计数字仍只是一大堆数字结果,并不是每个人都能够看得懂,必须由受过统计训练的专家来分析,才能解释出其涵义。例如,分析其集中趋势、方差、差异性、相关性、周期性等。此部分即描述性统计(Descriptive Statistics),主要是描述和叙述事物的现象。 4推论数据 如果分析对象只是
3、一部分样本,则仍需要推论其分析结果,来推断总体的可能结果。例如,用样本统计量推算总体的参数(Parameter),或以样本的结果证实或否定一些有关总声的假设。此部分即推论统计的工作,利用样本所收集的数据推论总体的状况。(二)生物统计学 生物统计学 是统计学在生物学研究中的应用,它是用统计学的原理和方法来分析和解释生物界各种现象和试验调查资料的科学。 随着生物学研究的不断发展,运用统计学方法来认识、推断和解释生命过程中的各种现象,也越来越广泛。尽管生物统计在应用过程中曾经受到过一些批评,但绝大多数生物学家、农学家、园艺学家、育种学家、畜牧学家、医学工作者以及人口学家还是在自己的研究领域越来越普遍
4、地应用生物统计分析方法,并把它变为学科自身发展的需要。 生物学研究的对象 是复杂的生物有机体,与非生物相比,它具有更加特殊的复杂性。 生物有机体的生长发育、生理活动、生化变化及有机体受外界环境因素的影响等,都使生物学研究的试验结果有较大的差异性,这种差异性往往会掩盖生物体本身的特殊规律。在生物学研究中,大量试验资料内在的规律性,也容易被杂乱无章的数据所迷惑,容易被人们所忽视。因此,在生物学研究中,应用生物统计学就显得特别重要。生物学研究的实践证明,只有正确地应用生物统计原理和分析方法对生物学试验进行合理设计,对数据进行客观分析,才能得出科学的结论。 在对事物的研究过程中,人们往往是通过某事物的
5、一部分(样本),来估计事物全部(总体)的特征的,目的是为了以样本的特征对未知总体进行推断,从特殊推导一般,对所研究的总体作出合乎逻辑的推论,得到对客观并物本质的和规律性的认识。在生物学研究中,我们所期望的是总体,而不是样本。但是在具体的试验过程中,我们所得到的却是样本而不是总体。因此,从某种意义上讲,生物统计学是研究生命过程中以样本来推断总体的一门学科。 生物统计学是在生物学研究过程中,逐渐与数学的发展相结合所形成的,它是应用数学的一个分支,属于生物数学的范畴。生物统计学以数学的概率论为基础,也涉及到数列、排列、组合、矩阵、微积分等知识。生物统计学作为一个重要的工具课,一般不过多讨论数学原理,
6、而主要偏重于统计原理的介绍和具体分析方法的应用。二、生物统计学的主要内容 生物统计学的 基本内容 ,概括起来主要包括 试验设计和统计分析 两大部分。在 试验设计 中,主要介绍试验设计的有关概念、试验设计的基本原则、试验设计方案的制定、常用试验设计方法,其中主要的有对比设计、随机区组设计、拉丁方设计、裂区设计以及正交设计等。在 统计分析 中,主要包括数据资料的搜集和整理、数据特征的计算、统计推断、方差分析、回归和相关分析、协方差分析、主成分分析、聚类分析等。 从生物统计学的基本作用上来讲,其任务可以概括为以下几个方面: ( 1) 提供整理和描述数据资料的科学方法 ,确定某些性状和特性的数量特征。
7、一批试验或数据资料,若不整理则杂乱无章,不能说明任何问题。统计方法提供了整理资料、化繁为简的科学程序,它可以从众多的数据资料中,归纳出几个特征数或绘出一定形式的图表,使试验研究者能从少数的特征数或一些简单的图表中了解大批资料所蕴藏的信息。 ( 2)判断试验结果的 可靠性 。一般在试验中要求除试验因素以外,其他条件都应控制一致,但在实践中无论试验条件控制得如何严格,其试验结果总是受试验因素和其他偶然因素的影响。偶然因素的影响就是造成试验误差的重要原因。一个试验结果,是由试验因素造成的还是试验误差造成的,要正确判断就必须应用统计分析方法。 ( 3)提供由样本 推断总体的方法 。试验的目的在于认识总
8、体规律,但由于总体庞大,一般无法实施,在研究过程中都是抽取总体中的部分作为样本,用统计方法以样本来推断总体的规律性,在这种推断中,统计原理和方法起到了理论上的保证作用。 ( 4)提供试验设计的一些 重要原则 。为了以较少的人力、物力和财力取得较多的试验信息和较好的试验结果,在一些生物学研究中,就需要科学地进行试验设计,如对 样本容量的确定、抽样方法、处理设置、重复次数的确定以及试验的安排 等,都必须以统计学原理为依据。从统计分析和试验设计的关系来看,统计学原理可以为试验设计提供合理的依据,而试验设计又是统计分析方法的进一步运用。以统计学原理为指导,进行科学合理的试验设计时,可以使在较少人力、物
9、力、时间和条件下,得出可靠而准确的数据和信息。以往有一些试验资料,由于设计不当而丧失了大量的试验信息,究其原因多半是由于缺乏一定的统计知识,使试验的效率大大降低。当然,统计原理和分析方法对试验设计有着积极的指导意义,但它绝对不可能代替试验设计。如果试验目的、要求不明确,设计不合理,试验条件不合适,统计数据不准确,这种试验也绝对不会成功,统计原理和分析方法都不可能挽救试验的这种失败。三、生物统计学发展概况 现代统计学起源于 17世纪,它主要有两个来源,一是政治科学的需要,二是当时贵族阶层对机率数学理论很感兴趣而发展起来的。另外,研究天文学的需要也促进了统计学的发展。瑞士数学家 JBernouli( 1654 1705)系统论证了大数定律。后来, J Bernouli的后代 D Bernouli( 1700 1782)将概率论的理论应用到医学和人类保险。 正态分布理论对研究生物统计的理论是十分重要的,它最早是由 De Moiver于 1733年发现的,后来德国天文学和数学家 Gauss ( 177 1855)在研究观察误差理论时,也独立发现了正态分布的理论方程,因此,常有人将正态分布称为 Gauss分布。