1、论述题: 1. 解释假设检验的基本思想方法及可能会犯的两类错误及在实际应用中如何控制可能犯两类错误的概率。 2.试述均匀试验设计的特点,对均匀试验设计和正交试验设计两种方法进行比较,指出各自的优缺点。 3.试述费歇判别的基本思想方法及主要步骤。 4.试述多元线性回归解决实际问题的基本思想方法及主要步骤。 6.解释正交试验设计的特点及理论依据。 7.试论述一元线性回归的基本思想及主要方法步骤。 一、(任选两题,每题 10 分,共 20 分) 1解释假设检验的基本思想方法及可能会犯的两类错误及在实际应用中如何控制可能 犯两类错误的概率。 2解释正交试验设计的特点及理论依据。 3试述一元线性回归的基
2、本思想及主要方法步骤。 答案: 1.假设原理运用了小概率原理,在原假设 0H 正确的前提下,根据样本观察值和运用统计方法检验由此将导致什么结果,如果导致小概率事件在依次试验中发生了,则认为原假设可能不正确,从而拒绝原假设;反之,如果未导致小概率事件发生,则没有理由拒绝原假设。 第一类错误:弃真错误即 0H 为真时,作出拒绝 0H 的判断;第二类错误:纳伪错误即 0H 不真时,作出接受 0H 的判断。 通常限制犯第一类错误的概率 ,增大样本容量使犯第二类错误的概率 尽可能地小。为了简化检验过程,更多的应用是只控制犯第一类错误的概率 ,而不考虑犯第二类错误的概率。 2. 正交试验设计 是研究多因素
3、多水平的又一种设计方法 , 它有多、快、好、省的特点。“多”是指可以考虑多因素、多指标;“快”是指试验次数少、周期短、见效快;“好”是指可以很快找到优秀方案和可能最优方案;“省”是指省时间、省耗费、省资金、省劳力等。 正交性原理是正交实验设计的理论依据,它主要表现在均衡分散性和整齐可比性两个方面。均衡分散性是指正交表安排的实验方案均衡地分散在配合完全的水平组合的方案之中。整齐可比性是指对于每列因素,在各个水平导致的结果之和中,其它因素的各个水平出现的次数是相同的。 3.一元线性回归是研究两个变量之间的相关关系,且两个变量有着密切的关 系,它们的这种相关关系不能用完全确切的函数形式表示,但在平均
4、意义下有一定的定量关系表达式。 1)先进行相关性分析,看两个变量间是否有线性关系,确定回归方程中的因变量与自变量,对线性模型进行假设; 2)从样本数据出发对线性回归方程进行参数估计,确定回归方程; 3)对回归方程进行各种统计检验:回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、残差正态检验。 4)利用回归方程进行解释或预测现象。 1.在某新产品开发试验中需要考虑四个因素 A、 B、 C、 D 对产品质量的影响。根据专业知识和实践经验知道 , A 与 C 之间存在着交互作用, D 与 A、 B 及 C 之间的交互作用可以忽略不计。 ( 1)假设每个因子只取两个水平,试选择适当
5、的正交表安排该实验; ( 2)指出第 2 号及第 5 号试验的实验条件。 解: ( 1) 根据题意, A 与 B、 B 与 C 之间的交互作用还不能肯定,需要通过试验考察。这样,需要考察的因子及交互作用为 A, B, C, D, A B, A C, B C。因此可以选用 78(2)L 正交表。 表头设计列入表 1-1。 表 1-1 表头设计 列号 1 2 3 4 5 6 7 因子 A B AB C AC BC D 试验方案列入表 1-2。 表 1-2 实验方案表 A B AB C AC BC D 1 2 3 4 5 6 7 1 1 1 1 1 1 1 1 2 1 1 1 2 2 2 2 3 1
6、 2 2 1 1 2 2 4 1 2 2 2 2 1 1 5 2 1 2 1 2 1 2 6 2 1 2 2 1 2 1 7 2 2 1 1 2 2 1 8 2 2 1 2 1 1 2 ( 2)第 2 号试验的 试验 条件为 1 1 2 2ABCD , 第 5 号试验的试验条件为 2 1 1 2ABCD 。 2.设 1 (0,1,1)X , 2 (2,0,1)X , 3 (1,2,4)X ,为来自总体 X 的一个样本,求 X 的协方差矩阵 、相关矩阵 R 的矩估计。 解: 3 3 3 1 2 31 1 11 1 1 1 1 1( , , ) ( ( 0 2 1 ) , ( 1 0 2 ) ,
7、( 1 1 4 ) ) ( 1 , 1 , 2 )3 3 3 3 3 3i i ii i iX x x x 311 1 011( ) ( ) ( 0 ( 1 , 0 , 1 ) 1 ( 1 , 1 , 1 ) 1 ( 0 , 1 , 2 ) )3 1 21 1 2iiiX X X X 因 子 水 平 试 验 号 1 1 021 0 1 1 1 1 0 0 01 1 3( 0 0 0 1 1 1 0 1 2 ) 12 2 21 0 1 1 1 1 0 2 4 30 32 11 - 0213- 12230 12R3.下面记录了三位操作工分别在四台不同机器上操作二天的日产量: 机器 操作工 甲 乙
8、丙 A 15 17 16 16 18 21 B 16 17 15 15 22 19 C 15 16 18 17 18 18 D 18 20 15 17 17 17 试用方差分析法 检验: ( 1)操作工之间的差异是否显著; ( 2)机器之间的差异是否显著; ( 3)交互影响是否显著( 0.05 )。 解: 由题意知 3, 4, 2k r n ,又由题目给出数据可得 : 1 2 31 3 4 , 1 2 9 , 1 5 0T T T , 1 2 3 41 0 3 , 1 0 4 , 1 0 2 , 1 0 4T T T T , 413T , ijT 见上表中两数之和。 2 2221 1 1413
9、718 9 81.9 5833 4 2k r n ijli j lTSy k rn 总2 22211 1 4 1 35 7 0 9 7 3 0 . 0 8 3 34 2 3 4 2kAiiTSTr n k r n 2 22211 1 413426 45 0.45 833 2 3 4 2rBjjTSTk n k rn 2 22 2 2 2111 1 413143 45 30.0 833 0.45 83 34.9 1672 3 4 2krAB ij A BijTS T S Sn k rn 2 2 2 2 2= - 8 1 . 9 5 8 3 3 0 . 0 8 3 3 0 . 4 5 8 3 3
10、4 . 9 1 6 7 1 6 . 5A B A BS S S S S 误 总 将计算的有关结果列入方差分析表(表 3-1)中。 表 3-1 方差分析表 方差来源 平方和 自由度 平均平方和 F 值 操作工 30.0833 2 15.0417 10.9394 机器 0.4583 3 0.1528 0.1111 交互作用 34.9167 6 5.8195 4.2323 误差 16.5 12 1.375 总和 81.9583 23 对于给定水平 0.05 ,由 0.05PF 分别查(附表 5)得 123.89, 3.49,3 3.00 , 由表 3-1 可知: ( 1)操作工之间的差异显著。 (
11、2)机器之间的差异不显著。 ( 3)操作工与机器交互影响显著。 4.下面是来自两 个正态总体 11( ,1)N、 222( ,2 )N的样本值 123 1 1 3: , , 0 , ,2 2 2 2: 3 6 , 3 2 , 3 , 3 2 , 3 6 试分别用贝叶斯判别法(取1221, , (1 | 2 ) ( 2 | 1 )33q q C C )和距离(采用马氏距离)判别法判别样品 1 2x 及 2 1.1x 所属的类 i 。若出现不一致结果,请提出你的判别建议 。 解: 依题意,对于 1 , 1 0EX ,对于 2 , 2 3EX 。 ( 1)贝叶斯判别法: 21 ( 2 0 ) 221
12、 11( 2 ) 0 . 0 5 422p e e 211( 2 3 )222 11( 2 ) 22p e e 0.242 2 1211 ( 1 . 1 0 ) 20021 11(1 . 1 ) 22p e e 0.218 2 3611 ( 1 . 1 3 ) 20022 11(1 . 1 ) 22p e e 0.066 1 1 2 221( 2 ) 0 . 0 5 4 0 . 0 3 6 ( 2 ) 0 . 2 4 2 0 . 0 8 133p q p q 1 1 2 221( 1 . 1 ) 0 . 2 1 8 0 . 1 4 5 ( 1 . 1 ) 0 . 0 6 6 0 . 0 2 2
13、33p q p q 所以, 1 2x 属于 2 , 2 1.1x 属于 1 。 ( 2) 距离判别法: 11 20( 2 ) ( 2 , ) 21dd 22 223 1( 2) ( 2 , ) 22dd 显然 12(2, ) (2, )dd ,故 1 2x 属于 2 。 11 1 . 1 0(1 . 1 ) (1 . 1 , ) 1 . 11dd 22 21 .1 3(1 .1 ) (1 .1 , ) 0 .9 52dd 显然 12(1 .1, ) (1 .1, )dd ,故 2 1.1x 属于 2 。 ( 3) 结果不一致分析。 5已知四个 样品分别为 ( 2 , 5 ) , ( 2 , 3
14、 ) , ( 4 , 3 ) , ( 6 , 2 ),试用重心法和离差平方和法进行聚类分析。若分成两类,请您提出您的分类建议。 解: ( 1)重心法: 首先将四个样品分别看做一类,计算距离矩阵 2(0)D 。 2(0)D 1G 2G 3G 4G 1G 0 2G 4 0 3G 8 4 0 4G 25 17 5 0 由 2(0)D 可以看出, 2G 和 3G 之间距离最短, 因此可以合并为一个新类 5 2 3,G G G ,然后计算 1G 、 4G 、 5G 之间的距离,得相应的 2(1)D 如下 2(1)D 1G 4G 5G 1G 0 4G 25 0 5G 5 25 0 由 2(1)D 可以看出
15、, 1G 和 5G 之间距离最短,因此可以合并为一个新类 6 1 5,G G G ,然后计算 4G 、 6G 之间的距离,得相应的 2(2)D 如下 2(2)D 4G 6G 4G 0 6G 16.25 0 最后将 4G 与 6G 合为一类 7 1 2 3 4, , ,G G G G G 。 上述聚类过程用聚类图表示为图 5-1。 ( 2)离差平方和法: 由( 1)中已计算的重心法的距离平方及 22()pqpq pqpqnnD D Cnn 计算距离矩阵 2(0)D 。 2(0)D 1G 2G 3G 4G 1G 0 2G 2 0 3G 4 2 0 4G 12.5 8.5 2.5 0 由 2(0)D
16、 可以看出, 2G 和 3G 之间距离最短,因此可以合并为一个新类 5 2 3,G G G ,然后计算 1G 、 4G 、 5G 之间的距离,得相应的 2(1)D 如下 2(1)D 1G 4G 5G 1G 0 4G 12.25 0 5G 3.3333 16.6667 0 由 2(1)D 可以看出, 1G 和 5G 之间距离最短,因此可以合并为一个新类 6 1 5,G G G ,然后计算 4G 、 6G 之间的距离,得相应的 2(2)D 如下 2(2)D 4G 6G 4G 0 6G 12.1875 0 最后将 4G 与 6G 合为一类 7 1 2 3 4, , ,G G G G G 。 上述聚类
17、过程用聚类图表示为图 5-2。 6.在有关合成纤维的强度 y 与其拉伸倍数 x的试验中得试验数据如下: ix iy 2ix 2iy iixy 1 2 1.3 4 1.69 2.6 2 2.5 2.5 6.25 6.25 6.25 3 2.7 2.5 7.29 6.25 6.75 4 3.5 2.7 12.25 7.29 9.45 5 4 3.5 16 12.25 14 6 4.5 4.2 20.25 17.64 18.9 7 5.2 5 27.04 25 26 8 6.3 6.4 39.69 40.96 40.32 9 7.1 6.3 50.41 39.69 44.73 10 8 7 64 4
18、9 56 11 9 8 81 64 72 12 10 8.1 100 65.61 81 64.8 57.5 428.18 335.63 378 ( 1) 试利用上述数据表建立合成纤维的强度 y与其拉伸倍数 x的回归方程; ( 2) 检验所见方程是否有意义( 0.05 ); ( 3)预测当拉伸倍数 x=6 时,强度 y 的置信度为 95%的置信区间。 解: ( 1)由于 n =12, 64.8 5.412x, 57.5 4.791712y 21 2 1 2 22211( ) 1 2 4 2 8 .1 8 1 2 ( 5 .4 ) 7 8 .2 6x x i iiil x x x x 1 2 1
19、211( ) ( ) 1 2 3 7 8 1 2 5 .4 4 .7 9 1 7 6 7 .4 9 7 8x y i i i iiil x x y y x y x y 于是得 变 量 序 号 67.4978 0.862578.26xyxxlb l $ 4 . 7 9 1 7 0 . 8 6 2 5 5 . 4 0 . 1 3 4 2a y b x $ 故所求回归方程为 0. 13 42 0. 86 25yx$ ( 2) 221 2 1 22 2 211( ) 1 2 3 3 5 .6 3 1 2 ( 4 .7 9 1 7 ) 6 0 .1 0 5 3y y i iiiS l y y y y 总
20、2 0.8625 67.4978 58.2169xyS b l 回 $ 2 2 2 1 .8 8 8 4S S S 总 回残 由 0.05PF ,查 (1,10)F 分布表(附表 5)得 4.96 ,而 22 308.2869 4.96/ (12 2)SF S 回残所以回归方程有意义。 ( 3) 6x 时, y的估计值为 0 . 1 3 4 2 0 . 8 6 2 5 6 5 . 3 0 9 2y $ 又 2 / ( 2 ) 0 .4 3 4 6S S n 残 ,由 0. 05 / 2 0. 02 5PT ,查 (10)t 分布表 (附表 3)得 2.2281 ,故 得 y的置信度为 95%的
21、预测区间为 220000 ( ) ( )11( 1 , 1 )x x x xx x x xy S y Sn l n l $200200( 5 . 4 )1( 0 . 1 3 4 2 0 . 8 6 2 5 2 . 2 2 8 1 0 . 4 3 4 6 1 ,1 2 7 8 . 2 6( 5 . 4 )10 . 1 3 4 2 0 . 8 6 2 5 2 . 2 2 8 1 0 . 4 3 4 6 1 )1 2 7 8 . 2 6xxxx 从而得 6x 时, y 的置信度为 95%的预测区间为( 4.2992, 6.3192) 1.某厂有三条生产线,从三条生产线生产的纤维中分别抽取了一些样品,
22、纤维强度数据见下表,试考察它们生产的纤维在强度上是否有显著差异? 自动生产线 纤维强度 甲 7.0 7.4 6.1 6.5 7.5 乙 5.5 6.7 7.2 5.8 丙 6.7 7.2 8.2 7.3 7.5 6.9 解: 三条生产线可以看做三个水平,即 3k ,以 ( 1,2,3)iri 表分别示各水平所做的重复试验次数,即 1 2 35, 4, 6r r r ,由上表计算得 1 2 31 0 3 . 5 , 3 4 . 5 , 2 5 . 2 , 4 3 . 8T T T T 2 22211 1 1 3103.5721 .21 7.06546irk ijijTSy rrr 总22 2 2
23、 2 221 1 1 3T 34.5 25.2 43.8 103 .5 2.45 4 6 5 4 6k ii iTS r r r r 组 间2 2 2 = 7 . 0 6 2 . 4 = 4 . 6 6S S S 误 总 组 间 221 2 32 . 4/ ( 1 )2 3 . 0 9 0 14 . 6 6/ ( )12SkFS r r r k 组 间误将有关结果列入方差分析表(表 1-1)。 方差来源 平方和 自由度 平均平方和 F 值 因素 A(组间) 2.4 2 1.2 3.0901 误差(组内) 4.66 12 0.3883 总和 7.06 14 对于给定 ,由 PF 查 (2,12)F 表可得 ,则 F ,所以三条生产线上的纤维强度差异。 2.设有来自不同总体的四个样本分别为( 2,5),( 2,3),( 5,1),( 6,2),试用重心法和离差平方和法进行聚类,并提出您的分类建议。 解: ( 1)重心法: 首先将四个样品分别看做一类,计算距离矩阵 2(0)D 。 2(0)D 1G 2G 3G 4G 1G 0 2G 4 0