《林业试验设计及数据分析》讲义.doc

上传人:龙*** 文档编号:856365 上传时间:2018-11-03 格式:DOC 页数:27 大小:439.50KB
下载 相关 举报
《林业试验设计及数据分析》讲义.doc_第1页
第1页 / 共27页
《林业试验设计及数据分析》讲义.doc_第2页
第2页 / 共27页
《林业试验设计及数据分析》讲义.doc_第3页
第3页 / 共27页
《林业试验设计及数据分析》讲义.doc_第4页
第4页 / 共27页
《林业试验设计及数据分析》讲义.doc_第5页
第5页 / 共27页
点击查看更多>>
资源描述

1、1林业试验设计与数据分析绪论一、科学试验与试验统计 科学试验(实验)是一种计划好的调查研究,是以获得新的事实、证实或否定以前的实验结论为基本目的。 试验统计是认识事物本质的工具 统计分析是研究事物间关系的手段 试验要讲科学性 试验思想的先进性 试验条件的典型性 试验数据的准确性 试验结果的重演性二、试验设计的意义与作用 田间试验是林业科研活动的重要内容,科学合理的实验设计,是获得有价值的数据,进而取得正确研究结果与结论的基础。 林业试验用地地形复杂,面积大,立地条件变化大。在林业田间试验中,科学地控制环境,具有极大的重要性。 林业生产周期长,不正确的试验设计,将浪费大量宝贵的时间,造成无可挽回

2、的损失。三、林业试验数据处理的若干问题 从观测数据中提取尽可能多的有价值的信息,得出正确的结论,是一项专业性很强的工作。 林业试验往往规模大,数据多,借助电子计算机和先进的统计软件及其它应用软件,可提高工作效率。 试验统计的理论和方法正在发展中。2第一章 林业试验方法第一节 田间试验的概念田间试验的主要内容是讨论如何合理地安排试验以及处理分析试验结果,它是生物统计学的重要方面。田间试验是农林学科中重要的实验环节,是计划好的调查研究和实践运筹,它不仅能评审试材的优劣,试验条件的好坏,而且能回答试验的精确度、可靠性及资料量。田间试验的创始人,英国的费舍(R.A.Fisher, 1890-1962)

3、,其试验理论的主要观点: 试验要有明确的目的,其目的必须建立在经济效益方面; 为减少试验中各种误差,应采用随机化原理; 为了提高试验精度,应该有充分的重复次数,选择最有效的实验配置和最可靠的分析方法,等。从林木遗传改良为例,可以看出正确的田间试验十分必要。要将选出的或创造出来的优良遗传材料放到最合适的环境条件中去,必须进行适应性试验。这里存在着三大因素:遗传组成,环境条件和基因型与环境的互作反应。由于林木个体大,个体发育周期长,材料占地面积大,变化着的立体空间生态因子复杂,就带来林木育种工作中鉴定、选择和各种田间评审的困难性。G(遗传组成)G1(群体)G2(家系)G3(个体)E(环境条件)E1

4、(地理位置)E2(海拔)E3(生态)E4 (立地类型)P(表现型值)G(基因型值)E(环境误差)假设有两个不同的表现型,它们的组成分别为:P1=G1+E1 和 P2=G2+E2,如果 E1 和 E2 不同的话,就很难估测 G1 和 G2 的差异及其程度。如果 E1 和 E2 相同或相似,其间的误差可以估算,则 G1 和 G2 的差异就容易估算出来。第二节 田间试验三原则一、试验误差例:某树种的一批种子进行千粒重检验,用两种方法: 抽样四次,各称一次,千粒重为 5.29 克,5.36 克,5.38 克,5.31 克, 平均 5.34 克。 抽样一次,称四次,千粒重:5.49 克,5.47 克,5

5、.48 克,5.49 克,平均重 5.48 克。评价:法:存在抽样误差和操作误差,可靠性(accuracy)较高,有一定的精确度;法:存在称重操作误差,精确度(precision)较高,可靠性低。试验误差的分类: 系统误差,或称片面误差:是指试材差异,观测误差,技术与操作的不一致等原因造成的误差。这类误差只要严格按试验操作要求统一尺度,是比较容易克服的。 偶然误差是由试验地的差异造成的,包括土壤差异,病虫害差异以及其他微生境的差异,是较难消除的一类差异。它是衡量试验精度的误差。只要找到误差的起因,就可分成条件误差和随机误差。试验中最难克服的是土壤,为了提高试验的可靠性(准确性) 和精度,理解必

6、须选择好试验地,正确理解并执行田间试验的原则。3条件误差由试验或生产条件所造成的误差。随机误差受偶然因素影响与测量不准确所造成的误差叫随机误差。二、田间试验三原则 重复 随机化 局部控制重复在一个试验中每种处理(品种或措施) 共同出现的次数。重复的作用在于降低试验误差,提高试验的准确性(可靠性 ),估算试验误差。试验误差的大小与重复次数的平方根成反比。重复的次数必须根据试验要求的精度,条件差异,试验地面积,小区面积等多方面来考虑。严格来讲,重复次数的多少,应该由试验材料差异,精度和准确性等试验因子来决定。随机化是指处理的重复与小区的排列次序随机化。这样的排列使试验中的数据和统计值都建立在公平无

7、偏的基础上,使试验误差的计算量可靠可信。从一个总体中随机地抽取样本,对每样本随机地施以不同的处理,把每个处理随机地设置在试验单元或小区,这样就可以认为是满足了观测值及误差独立分布的前提,使差异显著性的检验有效。实现随机化的方法查随机数表,计算器或计算机产生随机数,抽签(抓阄)等。局部控制是在重复或区组里力求使条件一致起来。同一重复内的条件尽可能一致,不同重复间条件允许不一致。局部控制的关键是土壤差异的控制。第三节 常用的试验设计本节参考书目北京林学院主编1980数理统计,中国林业出版社丁希泉编著1986农业应用回归设计,吉林科学技术出版社洪伟1993林业试验设计与方法,北京科学技术出版社茆诗松

8、2003统计手册,科学出版社一、有关试验设计的几个概念 处理(treatment)参试树种、种源、家系、无性系、品种,不同营林措施等。 重复(replication)在一个试验中每种处理共同出现的次数。 区组(block)局部控制的地块。完全区组区组内包含所有的处理。区组数=重复数不完全区组区组内只包含部分处理。区组数重复数 小区(plot)某个处理在区组内占据的一个小地块。是实施试验的最小单位。二、常用的试验设计方法(一)、完全随机设计(The Complete Randomization Design)把试验处理包括重复数混合在一起,完全随机地设置小区。每个试验处理的重复数可以相同,也可以

9、不同。例如,有 A、B、C、D 四个处理,三次重复的完全随机设计。做法4 将处理连同重复顺序排列,编成 43=12 个序号小区代号 A1 A2 A3 B1 B2 B3 C1 C2 C3 D1 D2 D3序 号 1 2 3 4 5 6 7 8 9 10 11 12 用随机数表等方法产生 12 个随机数,并将随机数由小到大排号随机号数字 30 06 64 99 33 89 27 84 65 47 28 11排 列 号 4 1 7 12 5 11 3 10 8 6 9 2 将处理重复序号排入相应的“排列号”之中,即完成了完全随机设计的排号工作,依次安排试验。完全随机设计可避免某些处理经常相邻而带来的

10、系统误差。它适用于处理数较少,试验地整齐均一的情况,这在林业上很难满足。许多学者认为随机区组设计优于完全随机设计。(二)、随机区组设计(随机完全区组设计The Randomized Complete Block Design)每一重复组成一个区组,重复与区组同义,每个区组包括所有处理(是谓完全区组),每个处理在一个区组内只占有一个小区,各区组以及每个区组内各小区均随机排列。这是最常用的田间试验设计。步骤 确定试验处理数和重复(区组)数; 将处理排号,抽取相同数量的随机号作一次重复的排序,有多少次重复就要抽多少组随机号,组成相应的小区排列次序; 将所有重复的位次按随机办法编号,就成为区组号,记区

11、组、区组等; 制成试验方案,包括设计图; 将设计方案落实到试验现场。以 10 个处理三个重复的试验为例,在课堂上完成设计。RCB 设计的变化:不连续单株小区,随机轮换区组等。(三)、拉丁方设计(The Latin Square Design)利用拉丁方安排试验的试验设计。拉丁方设计也是完全区组设计,是对随机区组设计的一种改进。在一个拉丁方中,将处理从两个方向排列成区组,k 个处理排成 k 行 k 列,每个处理在各行各列中只出现一次。拉丁方设计的特点是处理数、重复数、横行数和直行数都相同,即直行、横行都可构成一个区组,可以实行两个方向的条件控制。优点对土壤差异实行双重控制,准确性较高。缺点横、直

12、区组小区数必须相等,伸缩性较小,缺乏随机区组设计的灵活性,且要求条件一致。只应用于规模较小,试验地条件较一致的试验。做法 确定一个标准方,即横行和直行均为顺序排列的拉丁方。 随机调换标准方各横行位置。 随机决定各直行位置。5例一个 55 的拉丁方设计,标准方为A B C D EB C D E AC D E A BD E A B CE A B C D(在课堂上完成横行、直行的随机排列)(四)、正交拉丁方设计(The Crossed Latin Square Design)利用正交拉丁方安排试验的试验设计。若要考察的因素不是一个而是两个、三个甚至更多,但供试单元并不能增加或增加很少,这时可利用正交

13、拉丁方,在拉丁方设计的基础上不增加试验次数的条件下引进另一个或一些因素,仍能作出相应分析。所谓正交拉丁方是指两个或几个阶数相同的拉丁方之间呈正交关系。任意两个互相正交的拉丁方,一个用希腊字母表示,一个用拉丁字母表示,当两个拉丁方重叠起来时,任一希腊字母与每一拉丁字母均只相遇一次。如下图A B C D E A B C D EB C D E A B C D E AC D E A B C D E A BD E A B C D E A B CE A B C D = E A A C D说明n 个处理就有 n-1 个正交拉丁方;不是任何拉丁方都有与之正交的拉丁方,如66 的拉丁方则不存在与之正交的拉丁方;

14、各阶拉丁方所具有的正交拉丁方可以数理统计(北京林学院主编)附表 19 上查得;从附表 19 上查得的号码应与试验各因素的处理号随机对应,即必须进行随机化处理。另外,正交拉丁方一般用于两个因素的试验,若安排三个或三个以上的因素,则不仅设计复杂,而且在作方差分析时,随因素增加剩余项自由度减少很多,使得分析可靠度减少很快。同时安排三个或三个以上因素的试验可采用正交设计。(五)、平衡不完全区组设计(The Balanced Incomplete Block Design,简称 BIB设计)在随机区组设计中,当处理数较多时常常会出现一个区组不能容纳全部处理的情形,这是可以用平衡不完全区组(BIB)设计。

15、BIB 设计各区组内的小区数小于试验的处理数,即每个区组不能包含所有的处理(不完全区组),每种处理在同一区组内最多只出现一次,而且在整个试验中有相同的被测次数,此外,任意一对处理都有在同一区组内相遇的机会,而且在整个试验中,相遇的次数相等(平衡)。BIB 设计需要满足的条件 设处理数为 v,每区组内小区数为 k,每处理重复数为 r,区组数为 b,则整个试验总的小区数 n=vr=bk,每对处理在同一区组内同时出现的次数为 =kv()16综合起来,BIB 设计的必要条件是 b, k, v, r, 这五个参数都必须是正整数,并且满足 vr=bk r vb kv (v-1)=r(k-1)上述几个条件,

16、(2)中的 vb 在林木田间试验中很难得到满足,故(3) 也难以得到满足。标准的平衡不完全区组设计方案可查数理统计(北京林学院主编)附表 20。设计步骤1. 确定 v, r, k,计算出 b。2. 查“平衡不完全区组设计表”确定各区组内处理的组成。3. 对各区组内处理做随机排列。4. 对各区组进行随机排列。当处理数为某数的平方,即 v=p2,b=p(p+1),k=p= ,r=k+1=p+1 时,称为平衡格子设v计。(六)、裂区设计(The Split-Plot Design)裂区设计适用于参试因素需区别对待时的多因素试验。如有两个因素要区别对待,可先将第一级因素(A)的各处理(主处理 A1,A

17、 2,A 3)按随机区组设计安排于各小区,称主区;然后把各主区看作第二级因素的区组,每个主区划分成若干个小小区,也按随机区组设计安排第二级因素(B)的各处理(副处理 B1,B 2,B 3,B 4)。如下图B2 B1 B3 B2 B4 B3 - -A1- - - -A2- - - -A3- -B3 B4 B4 B1 B1 B2B1 B3 B4 B3 B2 B3 - -A2- - - -A3- - - -A1- -B4 B2 B2 B1 B4 B1B4 B3 B2 B4 B1 B2 - -A1- - - -A3- - - -A2- -B2 B1 B1 B3 B3 B4(七)、正交设计(The Cr

18、ossover Design)在试验实践中,有时需要同时考察多个(三个或以上)因素,有时还需要了解这些因素中哪个主要哪个次要,各因素之间有没有互作,或了解在多个因素同时使用情况下什么样的试验条件组合结果最佳,正交设计可有效地解决这些问题。如 N、P、 K 各种肥料单独使用效果不理想,若混合使用,就有必要了解什么样的配比效果最佳,即需要找出最优配比,这时可用正交设计。正交设计利用人工编制的一套试验用表,即正交表来安排试验。与正交拉丁方设计、裂区设计等相比,正交设计的优点是可不受很多条件的限制(如不能有因素间的交互作用,各因素处理必须相等且等于拉丁方阶数,裂区设计则要求事先了解那个因素为主因素等)

19、。7多因素全面试验时,试验次数随因素的增加而增加很快,如有 A、B、C 三个因素,每因素两个处理,全面试验需进行 222=8 次此试验,如下图有 5 个因素,每因素 4 个处理,就需要进行 45=1024 次试验,这在林业上是很难完成的。采用正交设计,分别只需进行 4 次和 16 次试验。 正交设计的基本思想(以 23 的试验为例)全面试验需进行 8 次试验,正交设计是从全面试验中挑选部分试验点进行试验。试验点的挑选有两个特点,即“均匀分散,整齐可比”。“均匀分散”使试验点具有代表性,“整齐可比”便于试验的数据分析。本例总共只需 4 次试验(如下图)。B 2 C 21 2 A 由上图可以看出,

20、选取的试验点均匀、对称地落在立方体各平面上,每个平面两个试验点。再看 33 的试验,如下图:B3 3 C221 A 2 3 正交表(北京林学院主编数理统计附表 21)的使用LN(ms)表示试验次数为 N,每因素 m 个水平,共 s 列。 例 L 8 (27),表示 7 列(最多可安排7 个因素),每因素 2 个水平,需进行 8 次试验。L 9 (34)表示 4 列,每因素 3 个水平,9 次试验。此外还有复合型的正交表,即因素水平不等的正交表,参阅常用数理统计表。正交表的特点:(1) 任一列中各水平出现的次数相等。(2) 任两列间各水平相遇的次数相等。8这两个特点体现了正交设计在试验安排上的均

21、衡性。采用正交设计,通过方差分析可了解哪些因素是主要因素,因素间交互作用的大小,因素间水平的最佳组合,各因素的与目的指标的回归关系等。正交设计与回归分析相结合,还可以找出试验因素水平之外的最优组合。(八)、回归正交设计一般称为回归设计,又称响应曲面设计,它是把试验的安排、数据的处理和建立有效的回归模型统一起来加以研究的一种试验统计分析方法。具体做法,是在正交表的基础上增加试验点:坐标平移,两水平正交表的 2 变成-1,1和-1 分别为 “上水平”和“下水平 ”;在每个试验因子的上水平和下水平的外头分别增加两个星号点;在中心点重复若干试验。如下图所示。x2 x2(0,r) (0,r)(-1,1)

22、 (1,1) (-1,1) (1,1)(-r,0) (0,0) (r,0) x1 (-r,0) (0,0) (r,0) x1(-1,-1) (1,-1) (-1,-1) (1,-1)(0,-r) (0,-r)回归正交设计一般分为一次回归正交设计和二次回归正交设计。一次回归设计具有正交性和旋转性。常用的是二次回归设计,这种设计要具有正交性、旋转性和通用性,必须满足一定的条件,关键是适当选择星号点和中心点重复次数,如下表,具体可参阅(茆诗松2003统计手册,科学出版社,p711,表 13.5.15),满足这些条件的二次回归设计称为二次回归通用旋转设计。三次回归旋转设计较少使用。二次回归通用旋转设计

23、参数表p mc r m0 N2 4 1.414 5 133 8 1.682 6 204 16 2.000 7 315( 实施)2116 2.000 6 326( 实施) 32 2.378 9 537( 实施) 64 2.828 14 92注:p试验因子数,m c二水平正交表上的试验点数,r星号臂长度,m 0中心点的重9复次数,总试验点数 N=mc 2p+m0。回归正交设计可采用改造后的二水平正交表来安排试验(茆诗松,2003),也可利用 SAS系统的“Design of Experiments”功能来安排试验和分析试验数据(注意:SAS 的回归正交试验设计表是将二水平正交表的 1 变成-1,2

24、 变成 1),参阅 正交回归设计的 SAS 解决方案。(九)、均匀设计当试验因子数较多,且每个因子的水平数较多时,运用正交设计需要做的试验次数仍然比较多,难以安排试验。均匀设计就是在这种背景下,为进一步减少试验次数,而又能保证一定的试验精度而提出的。均匀设计是我国数学家王元和方开泰于 1980 年提出的,它特别适用于变量取值范围大,水平数多(不低于 5)的试验。该方法的基本思路是将正交设计“均匀分散,整齐可比”要求中的“整齐可比”去掉,通过提高试验点的 “均匀分散”的程度,使试验点具有更好的代表性,能用较少的试验获得较多的信息。均匀试验是根据均匀设计表来安排试验的。和正交表相似,均匀设计表也是

25、精心编制的一套试验表,它是用数论方法编制的(方开泰,1994)的,每一个均匀设计表都有一个代号 UN(qs)。其中 N 表示试验次数,q 表示因子的水平数, s 表示该表的列数。通常带“*”的均匀设计表有更好的均匀性,应优先选用。每张均匀设计表都附有一张使用表,它指示我们如何从均匀设计表中选用适当的列,以及由这些列所组成的试验方案的均匀性。如:(a) U*6(64) (b) U*6(64)的使用表试验号 1 2 3 4 s 列号 D1 1 2 3 6 2 1 3 0.18752 2 4 6 5 3 1 2 3 0.26563 3 6 2 4 4 1 2 3 4 0.29904 4 1 5 35

26、 5 3 1 26 6 5 4 1均匀设计表的均匀性用偏差 D 衡量,D 越小,表示均匀性越高。例如,当只有两个因素时,选用列 1 和 3 安排试验偏差最小,均匀性最好。查均匀设计表可参阅方开泰(1994)和茆诗松(2003)。均匀设计表的特点:(1) 每个因素的每个水平做一次且仅做一次试验。(2) 任两个因素的试验点描在平面的格子上,每行每列有且仅有一个试验点。如 U*6(64)的第 1 列和第 3 列描成下图(a)。性质(1)和(2)反映了试验安排的均衡性,即对每个因素的各个水平给予同样的重视。(3) 均匀设计表任两列组成的试验方案一般是不平等的。例如用 U*6(64)的 1,3 列和 1,4 列分10别作图,得下图(a)和(b)。显而易见,图(a) 的点分布均匀,而图(b)的点分布不均匀。因此,安排均匀设计表的使用表安排试验是十分重要的。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 课程笔记

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。