1、第1章 绪论,Introduction,一、什么是统计学,统计学(statistics)是关于数据(data)的科学,是从数据中提取信息的一门学科,包括设计、搜集、整理、分析和表达等步骤Data are numbers, but they are not “just numbers”数据(data)+说明 (context)=信息(information)例:50 (just a number)50公斤是可接受的体重50分是不及格的分数,二、统计学分支学科,根据研究领域和研究对象,统计学又分为:数理统计、经济统计、生物统计、医学统计、卫生统计生物统计学(Biostatistics):用统计学的
2、原理和方法研究生命科学中的问题的学科 。,三、为什么要学统计学,采用统计学方法,发现不确定现象背后隐藏的规律。变异(variation)是社会和生物科学中的普遍现象变异使得实验或观察的结果具有不确定性,,用统计学思维方式考虑有关生物和农业研究中的问题 以紫花和白花的大豆品种杂交,在F2代共得289株,其中紫花208株,白花81株,能否说花色受一对等位基因控制?某春小麦良种的千粒重34g,现自外地引入一高产品种,在8个小区种植,得其千粒重平均为35.2g,能否说新引入品种的千粒重高于当地良种?,三、为什么要学统计学,保证你的研究论文能通过统计学审查对不同生物学杂志发表论文的调查结果显示,有统计错
3、误的论文所占比例高达72%,最低也有20%。国内外权威生物学杂志对来稿都有统计学要求或统计学指导。,三、为什么要学统计学,获得循证生物学证据的主要手段“良好愿望的生物学”(well-meaning biology)转入“以证据为基础的生物学” (evidence-based biology,EBB)需要有统计学方法的支持。全世界每年发表的生物学术论文,能作为可靠“证据”的论文并不多。,三、为什么要学统计学,四、统计学内容,正确数据来源,数据处理,数据产品,统计推断,参数估计,进阶推断,第2章,假设检验,第5章,第5章,第68章,基础知识,第3章,第4章,描述统计学(descriptive st
4、atistics)是指用统计指标、统计图、统计表等方法,对数据的特征及其分布规律进行检测与描述。推断统计学(inferential statistics)是通过随机样本信息推断总体特征的过程。 区间估计( interval estimation) 假设检验(hypothesis test),四、统计学内容,五、统计学结论的不确定性(Uncertainty),某春小麦良种在8个小区种植,得其千粒重平均为35.2g。该品种千粒重在33.836.6g之间,置信度为95%。Statistics gives us a language for talking about uncertainty that
5、 is used and understood by statistically literate people everywhere.,六、统计学家是科学家,Jacob Bernoulli (伯努利) (1654-1705) Edmond Halley (哈雷) (1656-1742) De Moivre (棣美佛) (1667-1754) Thomas Bayes (贝叶斯) (1702-1761)Leonhard Euler (欧拉) (1707-1783)Pierre Simon Laplace (拉普拉斯) (1749-1827) Adrien Marie Legendre (勒让德
6、) (1752-1833) Thomas Robert Malthus (马尔萨斯) (1766-1834)Friedrich Gauss (高斯) (1777-1855) Johann Gregor Mendel (孟德尔) (1822-1884)Karl Pearson (皮尔森) (1857-1936)Ronald Aylmer Fisher (费歇) (1890-1962)Jerzy Neyman (内曼)(1894-1981) Egon Sharpe Pearson (皮尔森) (1895-1980) William Feller (费勒)(1906-1970),六、统计学家是科学家
7、,第2章 数据的组织与表达,Arrangement and Presentation of Data,Section 2.1Data and Data Type数据与数据类型,一、原始数据的组织,资料以电子表格(spreadsheet)方式记录。包括个体 (Individual):一笔数据所描述的对象(object)。电子表格中输入在一行。及变量( Variable ) :描述任何一个个体的特征,一个变量对不同的个体取不同的数值(value)。电子表格中输入在一列。,(一) 数量性状资料 数量性状(quantitative trait)的度量有计数和量测两种方式,其所得变数不同。 1. 不连续
8、性或间断性变数( discontinuous or discrete variable ) 指用计数方法获得的数据。 2. 连续性变数( continuous variable ) 指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。,二、试验资料的性质与分类,(二) 质量性状资料 质量性状( qualitative trait )指能观察而不能量测的状即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法:统计次数法 于一定总体或样本内,统计其具有某个性状的个体数目及具有不同
9、性状的个体数目,按类别计其次数或相对次数。 2. 给分法 给予每类性状以相对数量的方法,二、试验资料的性质与分类,Section 2.2次数分布表,表1 100个麦穗的每穗小穗数,一、 间断性变数资料的整理,表2 100个麦穗每穗小穗数的次数分布表,从表2中看到,一堆杂乱的原始资料表,经初步整理后,就可了解资料的大致情况,另外,经过整理的资料也便于进一步的分析。,每穗小穗数在1520的范围内变动,把所有观察值按每穗小穗数多少加以归类,共分为6组,组与组间相差为1小穗,称为组距。这样可得表2形式的次数分布表。,一、 间断性变数资料的整理,二、 连续性变数资料的整理,表3 140行水稻产量(单位:
10、克),具体步骤: 1. 数据排序(sort) 首先对数据按从小到大排列(升序)或从大到小排列(降序)。 2. 求极差(range) 所有数据中的最大观察值和最小观察值的差数,称为极差,亦即整个样本的变异幅度。从表3中查到最大观察值为254g,最小观察值为75g,极差为25475=179g。,二、 连续性变数资料的整理,3. 确定组数和组距( class interval ) 根据极差分为若干组,每组的距离相等,称为组距。 在确定组数和组距时应考虑: (1)观察值个数的多少; (2)极差的大小; (3)便于计算; (4)能反映出资料的真实面貌等方面。 样本大小(即样本内包含观察值的个数的多少)与
11、组数多少的关系可参照表4来确定。,二、 连续性变数资料的整理,表4样本容量与组数多少的关系,组数确定后,还须确定组距。组距=极差/组数。以表3中140行水稻产量为例,样本内观察值的个数为140,查表4可分为816组,假定分为12组,,则组距为179/12=14.9g,为分组方便起见,可以15g作为组距。,二、 连续性变数资料的整理,4. 选定组限( class limit )和组中点值( 组值,class value ) 以表3中140行水稻产量为例,选定第一组的中点值为75g,与最小观察值75g相等;则第二组的中点值为75+15=90g,余类推。 各组的中点值选定后,就可以求得各组组限。每组
12、有两个组限,数值小的称为下限( lower limit ),数值大的称为上限( upper limit )。上述资料中,第一组的下限为该组中点值减去1/2组距,即75(15/2)=67.5g,上限为中点值加1/2组距,即75+(15/2)=82.5g。故第一组的组限为67.582.5g。按照此法计算其余各组的组限。,二、 连续性变数资料的整理,5. 把原始资料的各个观察值按分组数列的各组组限归组 可按原始资料中各观察值的次序,逐个把数值归于各组。 待全部观察值归组后,即可求得各组的次数,制成一个次数分布表。 例如表3中第一个观察值177应归于表5中第8组,组限为172.5187.5;第二个观察
13、值149应归于第6组,组限为142.5157.5;。依次把140个观察值都进行归组,即可制成140行水稻产量的次数分布表(表5)。,二、 连续性变数资料的整理,表5 140行水稻的次数分布,注:前面提到分为12组,但由于第一组的中点值接近于最小观察值,故第一组的下限小于最小观察值,实际上差不多增加了1/2组;这样也使最后一组的中点值接近于最大值,又增加了1/2组,故实际的组数比原来确定的要多一个组,为13组。,二、 连续性变数资料的整理,三、 属性变数资料的整理,属性变数的资料,也可以用类似次数分布的方法来整理。在整理前,把资料按各种质量性状进行分类,分类数等于组数,然后根据各个体在质量属性上
14、的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。例如,某水稻杂种第二代植株米粒性状的分离情况,归于表6。,表6 水稻杂种二代植株 米粒性状的分离情况,Section 2.3次数分布图,一、 方柱形图,方柱形图( histogram )适用于表示连续性变数的次数分布。,现以表3的140行水稻产量的次数分布表为例加以说明。即成方柱形次数分布图1。,二、多边形图,多边形图( polygon )也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。,仍以140行水稻产量次数分布为例,所成图形即为次数多边形图(图2)。,三、 条形图,条形图(bar)适用于间断性变数和属
15、性变数资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出次数。,现以表6水稻杂种第二代米粒性状的分离情况为例,可画成水稻杂种第二代植株4种米粒性状分离情况条形图(图3)。,图3 水稻F2代米粒性状分离条形图,四、 饼图,饼图( pie )适用于间断性变数和属性变数资料,用以表示这些变数中各种属性或各种间断性数据观察值在总观察个数中的百分比。,如图4中白米糯稻在F2群体中占8%,白米非糯、红米糯稻和红米非糯分别占17%、21%和54%。,Section 2.4平均数,一、平均数的意义和种类,平均数的意义: 平均数( average )是数据的代表值,表示资料中观
16、察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确二者之间相差的情况。,平均数的种类 : (1) 算术平均数 一个数量资料中各个观察值的总和除以观察值个数所得的商数,称为算术平均数( arithmetic mean ),记作 。因其应用广泛,常简称平均数或均数(mean)。均数的大小决定于样本的各观察值。 (2) 中数 将资料内所有观察值从大到小排序,居中间位置的观察值称为中数( median ),计作Md。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。,一、平均数的意义和种类,(3) 众数 资料中最常见的一数,或次数最多一组的中点值,称为众数( mode ),计作
17、MO。如棉花纤维检验时所用的主体长度即为众数。 (4) 几何平均数 如有n个观察值,其相乘积开n次方,即为几何平均数( geometric mean ),用G代表。,一、平均数的意义和种类,二、算术平均数的计算方法,若样本较小,即资料包含的观察值个数不多,可直接计算平均数。设一个含有n个观察值的样本,其各个观察值为x1、x2、x3、xn,则算术平均数由下式算得:,若样本较大,且已进行了分组,可采用加权法计算算术平均数,即用组中点值代表该组出现的观测值以计算平均数,其公式为,其中yi 为第i 组中点值,fi 为第 i 组变数出现次数。,例1 在水稻品种比较试验中,湘矮早四号的5个小区产量分别为2
18、0.0、19.0、21.0、17.5、18.5kg,求该品种的小区平均产量。,例2 利用表5资料计算平均每行水稻产量。,若采用直接法, =157.47。因此,两者的结果十分相近。,二、算术平均数的计算方法,三、总体平均数,总体平均数用 来代表,它同样具有算术平均数所具有的特性。,上式Xi 代表各个观察值,N代表有限总体所包含的个体数, 表示总体内各个观察值的总和。,Section 2.5变异数,一、极 差,极差( range ),又称全距,记作R,是资料中最大观察值与最小观察值的差数。,表7 两个小麦品种的每穗小穗数,甲品种R=2313=10;乙品种R=2016=4。两品种的平均同为18,但甲
19、品种的极差大,平均数的代表性差;乙品种的极差小,平均数代表性好。,二、方 差,离均差平方和(简称平方和)SS,样本SS=,总体SS=,均方或方差(variance),样本均方(mean square) :,总体方差:,样本均方是总体方差的无偏估计值,三、标准差,(一) 标准差的定义样本标准差:,总体标准差:,样本标准差是总体标准差的估计值。,(二) 自由度,样本n-1称为自由度,记作DF,其具体数值则常用 表示。统计意义:是指样本内独立而能自由变动的离均差个数。,三、标准差,(三) 标准差的计算方法,1. 直接法,例3 设某一水稻单株粒重的样本有5个观察值,以克为单位,其数为2、8、7、5、4
20、。,三、标准差,2 矫正数法,其中 项称为矫正数,记作C。,在上例中,将有关数字代入即有:,三、标准差,3 加权法 若样本较大,已生成次数分布表,可采用加权法计算标准差,其公式为:,三、标准差,例4 利用表5的次数分布资料计算每行水稻产量的标准差。,若采用直接法,其标准差s=36.23(g)。由此可见,直接法和加权法的结果是很相近的。,三、标准差,四、变异系数,变异系数( coefficient of variation ):,变异系数是一个不带单位的纯数,可用以比较二个事物的变异度大小。,例如表8为两个小麦品种主茎高度的平均数、标准差和变异系数。如只从标准差看,品种甲比乙的变异大些;但因两者
21、的均数不同,标准差间不宜直接比较。如果算出变异系数,就可以相互比较,这里乙品种的变异系数为11.3%,甲品种为9.5%,可见乙品种的相对变异程度较大。,表8 两个小麦品种主茎高度的测量结果,四、变异系数,第3章 概率与抽样分布,Probability and Sampling Distributions,Section 3.1Random Variables随机变量,事件的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。 概率:随机事件发生的可能性大小,用大写的P 表示;取值0,1。,一、频率与概率frequency and probab
22、ility,1. 样本频率总是围绕概率上下波动 2. 样本含量n越大,波动幅度越小,频率越接近概率。,频率与概率的关系:,表 在相同条件下盲蝽象在某棉田危害程度的调查结果,一、频率与概率frequency and probability,一、频率与概率frequency and probability,小概率原理 若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。,二、随机变量,用以记录随机试验结果(outcome)的变量,称为
23、随机变量(random variable),用大写英文字母X, Y 等代表。随机变量X的概率分布,表达 X 的可能取值和取这些值的概率规则。,离散型和连续型随机变量,随机变量的可能取值是离散的数字,如计数型或分类型等,称为离散型随机变量(discrete random variable)。0, 1, 9 。20次实验中成功的次数, 二项式分布。随机变量的可能取值是某一实数的区间,如“大于0”或“-22之间”等,称为连续型随机变量(continuous random variable)。正态随机变量,二、随机变量,三、离散型随机变量的概率分布,列出离散型随机变量X的所有可能取值列出随机变量取这些
24、值的概率通常用下面的表格来表示P(X =xi)=pi称为离散型随机变量的概率函数,四、连续型随机变量的概率密度,若观察资料数量够大,则直方图(组数适当增加)的整体形态可用一近似的平滑曲线显示。直方图中纵轴改为次数比例,则该平滑曲线称为密度曲线(density curve)。,概率密度曲线,密度曲线的性质,曲线都在水平线上 (密度函数=0)。曲线下所涵盖的全部面积正好为1(所有可能性为1)。曲线下任何范围所涵盖的面积,为观察值落在该范围的比例(概率)。密度曲线可视为是观察变量的理论分布图形。,四、连续型随机变量的概率密度,随机变量X的一切可能取值的完备组中,各可能取值xi与其相对应的概率pi乘积
25、之和描述随机变量取值的集中程度计算公式为,五、随机变量的数学期望,随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)描述离散型随机变量取值的分散程度计算公式为,六、随机变量的方差,Section 3.2The Binomial Distributions二项分布,一、二项分布设定The Binomial Setting,固定的观察次数 n。n 次的观察都独立,每次的观察都不会对其他观察提供任何信息。每次的观察都只有两种可能的结果,多假设为“成功”或“失败”两种。每次的观察“成功”的概率都一样,设定为 p。,二、二项分布Binomial Distribution,满足二项分布设定
26、的试验,以 X 记录 n次观察中“成功”的次数,则称 X 的分布为参数为 n 与 p 的二项分布(binomial),记为B(n, p)。X 的所有可能取值为0, 1, , n。对应的概率函数为 P(X = x) = P(x)。,例1 某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽样10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少?,按上述二项分布概率函数式计算,7头愈好,3头死去概率:8头愈好,2头死去概率:9头愈好,1头死去概率:10头全部愈好的概率:,三、示例,若问10头中不超过2头死去的概率为多少
27、?则应该应用累积函数,即,三、示例,四、二项分布的期望值与标准差,期望值: E(X) = np方差: Var(X) = np(1-p)标准差:,Section 3.3Normal Distributions正态分布,一、特点,正态曲线所有正态曲线都有相同的外型具有对称、单峰及钟形的特性。正态曲线所代表的分布即为正态分布(normal distribution)每一正态分布都有其平均值 与标准差,m,s,一、特点,正态曲线较大,m,s,一、特点,正态曲线的拐点,拐点落在一个处,拐点落在-处,一、特点,二、为什么这么重要,Good descriptions for some distributio
28、ns of real data身高, 体重, 考试成绩Good approximations to the results of many kinds of chance outcomesTossing a coin many timesMany statistical inference procedures are based on normal distributions,三、68-95-99.7规则,正态分布有其特定的数据分布规则:平均值为 , 标准差为 的正态分布68%的观察资料落在m 的 1 之内95%的观察资料落在m 的 2 之内99.7%的观察资料落在m 的 3 之内,0,1,
29、2,3,-1,-2,-3,m,m+s,m+2s,m+3s,m-s,m-2s,m-3s,68% 的资料,95% 的资料,99.7% 的资料,三、68-95-99.7规则,四、变量标准化(Standardization),令观察值 x 服从平均值为 ,标准差为 的分布,则 x 的标准化值(standardized value)定义为标准化值又称为 z-值(z-score)。,标准化变量可以证明z的平均值为0z的标准差为1,四、变量标准化(Standardization),五、标准正态分布,变量 X 服从平均值为 ,标准差为 的正态分布,简记为 X N(, 2)。X 经过标准化后为 Z(=(X-)/
30、 s ),则 Z 也服从正态分布,并且平均值为 0 ,标准差为 1,即Z N(0, 1)。我们称 Z 服从标准正态(standard normal)。,六、标准正态表,z,表列数字是z左边的面积,z = - 0.44,z左边的面积为0.33,- 0.44,0.33,z,表列数字是z左边的面积,z = 0.44,z左边的面积为0.67,六、标准正态表,七、双侧临界值,在标准正态曲线图下, 右方与 左方的面积和为 a ,则称 为标准正态分布概率为 a 的双侧临界值。可查表。,m = 0,面积为a/2,面积为a/2,八、单侧临界值,在标准正态曲线图下, 右方的面积为 a ,则称 为标准正态分布概率为
31、 a 的单侧临界值。可查表。,m = 0,面积为a,例2 假定y是一随机变数具有正态分布,平均数 =30,标准差 =5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。,首先计算:,先将x转换为u值,九、计算,同理可得: FN(40)=0.9773,所以:P(26x40)=FN(40)FN(26)=0.97730.2119 = 0.7654,P(x40)=1P(x40)=10.9773 =0.0227,查附表,当u=0.8时,FN(26)=0.2119,说明这一分布从到26范围内的变量数占全部变量数的21.19%,或者说,x26概率为0.2119.,九、计算,例3
32、在应用正态分布时,经常要讨论随机变数x离其平均数的差数大于或小于若干个值的概率。例如计算离均差绝对值等于小于和等于大于1 的概率为:,也可以简写为,九、计算,相应地,离均差绝对值等于小于2 、等于大于2 、等于小于3 和等于大于3 的概率值为:,九、计算,例4 计算正态分布曲线的中间概率为0.99时,其y或u值应等于多少?,因为正态分布是对称的,故在曲线左边从到 u的概率和在曲线右边从u到的概率都应等于1/2(10.99)=0.005。 查表,u=2.58时, fN(x) =0.004940.005。 于是知,当 2.58时,在其范围内包括99%的变量,仅有1%变量在此范围之外。上述结果写作:
33、,九、计算,同理可求得:,九、计算,同理, 亦可写成:,以上 乃正态曲线下左边一尾x从到 上的面积和右边一尾y从 到上的面积之和,亦可写成:,九、计算,Section 3.4Sampling Distributions抽样分布,一、总体与样本 population and sample,总体:根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体,样本:从总体中随机抽取的部分研究对象,二、总体容量与样本容量population size and sample size,总体容量(N):总体中所包含的个体数目。根据N大小,总体分有限总体和无限总体,样本(n):从总体中随机抽取的部分研
34、究对象,三、随机抽样 random sampling,为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。,四、参数与统计量parameter and statistic,参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为、。固定的常数,推断inference,统计量:样本的统计指标,如样本均数、标准差,采用英文字母分别记为 。 参数附近波动的随机变量 。,五、总体均值、方差与标准差,总体均值总体方差总体标准差,六、样本均值、方差与标准差,总体均值总体方差总体标准差,七、样本的概率分布,统计量(为样本的函数),亦为随机变量,其概率分布称
35、为抽样分布(sampling distribution)。一般统计量的抽样分布,则多根据重复抽样(实验)结果来了解其概率分布。 的抽样分布大数法则,中心极限定理,八、大数法则,由具有有限(finite)平均数 m 的总体随机抽样,随着样本容量的增加,样本平均数 越接近总体的均数 m 。样本平均数的这种行为称为大数法则(law of large numbers)。,以 代表样本容量为 n 的资料平均数,逐渐增加样本容量,将 n 及对应的 图示如后。,八、大数法则,Number of observations, n,前 n个样本的均数,22,23,24,25,26,27,28,29,30,31,3
36、2,33,1,5,10,50,100,500,1000,5000,10000,八、大数法则,九、样本平均数的均数与标准差,令 为样本容量为 n 的一组SRS的平均数,其总体平均数为 m 与标准差为 s。则 的分布平均数为 m 与标准差为 。因为 的分布平均数也是 m,故 又称为 m 的不偏估计。样本容量越大,则样本平均数 的变异越小。,十、正态的样本平均数的分布,若总体服从正态 N(m, s2) ,则SRS的平均数 也服从正态 N(m, )。,十一、中心极限定理(CLT),若总体平均数为 m 、标准差为 s ,当样本容量够大时,则SRS的平均数 的分布近似正态 N(m, )。我们称之为中心极限
37、定理(Central Limit Theorem)。总体与正态分布差越多,则样本容量要越大。样本容量越大, SRS的平均数 的分布越近似正态 。,例5 在江苏沛县调查336个m2小地老虎虫危害情况的结果, =4.73头, =2.63,试问样本容量n=30时,由于随机抽样得到样本平均数 等于或小于4.37的概率为多少?,十一、中心极限定理(CLT),查附表,P(u0.36)=0.2266,即概率为22.66% (属一尾概率)。因所得概率较大,说明差数0.36是随机误差,从而证明这样本平均数4.37是有代表性的,变异系数为:,十一、中心极限定理(CLT),第4章 试验设计,Designing Ex
38、periments,Section 4.1Concepts About Designing Experiments试验设计的基本概念,一、试验,对被观察个体,人、动物或对象,施以处理后,测量有兴趣的变量的反应。试验进行程序为:试验单位处理反应控制试验环境只允许有不同处理水平,以避免混合效应的情况。例:冷冻法对胃溃疡减轻疼痛的效应胃溃疡病人,施以冷冻法(一般相信可降低胃酸的产生),观察疼痛症状减轻的情况。冷冻法确实有症状减轻的效应。,二、试验指标(experimental index),在试验中具体测定的性状或观测的项目称为试验指标。株高、千粒重、亩产量、日增重、产奶量 、产蛋率、瘦肉率单指标试
39、验与多指标试验,三、试验因素(experimental factor),试验中所研究的影响试验指标的因素叫试验因素,简称因素如品种、施肥量、灌溉方式单因素试验与多因素试验试验因素常用大写字母A、B、C、等表示,四、因素水平(level of factor),试验因素所处的某种特定状态或数量等级称为因素水平,简称水平如比较3个品种亩产量的高低,这3个品种就是品种这个因素的3个水平因素水平用代表该因素的字母加添足标1,2, , 来表示,如 A1 、 A2 、 , B1 、B2、,等,五、试验处理(treatment),事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理单因素试验,试验因素的
40、一个水平就是一个处理在多因素试验时,试验因素的一个水平组合就是一个处理,试验因素不同水平的组合,六、试验单位(experimental unit),在试验中能接受不同试验处理的独立的试验载体叫试验单位如一只家禽、 一头家畜、一只小白鼠、一尾鱼试验单位往往也是观测数据的单位,七、重复(repetition),在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复一处理实施的试验单位数称为处理的重复数用某种饲料喂4头猪,就说这个处理(饲料)有4次重复,八、实例,棉花灌溉试验,Section 4.2Basic Principles for Designing Experiments试验
41、设计的基本原则,测量值=真实值+随机误差+非随机误差 xi = + i 1随机误差(随机抽样误差): 影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。 2系统误差 受确定因素影响,大小变化有方向性。 3非系统误差(过失误差) 研究者偶然失误而造成的误差。,一、试验误差,偏差bias,二、准确度与可靠性,准确度(accuracy)或真实性(validity) :观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异度)。可靠度(reliabiliy),也称精密度(precision)或重复性(repeatability) :重复观察时观察值与其均值的接近程度,受随机误差
42、的影响(常用指标:一致百分率、Kappa值)。,三、试验设计原则与统计显著性,试验设计基本原则:控制(Control)隐藏变量对反应的效应。随机化(Randomization)安排试验单位接受指定的处理。重复(Replication)试验于许多试验单位,以降低结果的机会变异(chance variation)。统计显著性(Statistical Significance)。若观察的效果太大,在概率分布上极不可能发生,称为该效应统计显著。,试验设计三原则的关系及作用,重复,随机化,控制,无偏误差估计,估计误差,降低误差,统计推断,提高精确性,三原则,作用,Section 4.3Methods o
43、f Experiment Design常用试验设计方法,一、完全随机设计,所有的试验单位,随机指定到所有处理的试验设计,称为完全随机设计(Completely Randomized Design)。例 节约能源方案研究:安装用电量显示表,是否有警示节约用电的效果?分组一处理一 随机分组二处理二用电量分组三处理三,20户,20户,20户,装显示表,张贴图表,一般宣传,完全随机设计的逻辑依据,完全随机试验可提供确实的证据,显示不同处理是造成不同效应的原因。试验进行之前的随机分组,各组成员背景应该在各方面都类似。试验进行之中,各组的试验环境除了处理外应该都相同。各组的平均反应差异,必然来自于不同的处
44、理或是各组的随机差异。相同处理的两组也可能有不同平均反应差异。,一、完全随机设计,二、配对设计与区组设计,配对设计(matched pairs design):两种处理分别(随机的)施行在一对特性相同或类似的试验单位上。例如:双胞胎区组设计(block design):特性相同或类似的的试验单位组成区组(block),在各区组内随机安排试验单位接受指定的处理,称为区组设计。,分组一处理一 男性 随机 分组二处理二 反应 分组三处理三 分组一处理一 女性 随机 分组二处理二 反应 分组三处理三,试验单位,二、配对设计与区组设计,Section 4.4Field Experiment Design
45、田间试验设计,一、田间试验的基本要求,试验目的要明确试验条件要有代表性试验结果要能够重演,二、田间试验的误差来源及控制途径,误差来源试验材料固有的差异试验时农事操作和管理技术不一致所引起的差异进行试验时外界条件的差异控制误差的途径选择同质一致的试验材料改进操作和管理技术,使之标准化控制引起差异的外界主要因素,三、控制土壤差异的小区技术,试验地土壤肥力差异的形式小区面积小区的形状小区方向重复次数,试验地土壤肥力差异的形式,肥力从大田的一边到另一边逐渐改变斑块状差异,小区面积,小区面积增加,试验误差减小。小区面积扩大之后,同一小区里可能包括肥力不同的地块,缩小了小区间的土壤差异;扩大小区面积可增加株数,能够克服植株个体间的差异,增强其代表性,天津绿白菜勘察试验小区面积与变异系数,小区的形状,小区长宽比对土壤差异的变化,采用狭长小区能较全面地包括不同肥力的土壤,相应减少小区之间的土壤差异,提高试验精确度。田间试验小区长宽比一般为25:1。小区面积较大时,长宽比多用35:1;1小区面积较小时,长宽比多用23:1。,小区方向,肥力梯度,小区的方向必须是长的一边与肥力变化最大的方向平行,使区组方向与肥力梯度方向垂直。,