1、内容:A.3, A.10, A.12A.3 上机实践:将 MASS 数据包用命令 library(MASS)加载到 R 中,调用自带“老忠实”喷泉数据集geyer,它有两个变量:等待时间 waiting 和喷涌时间 duration,其中(1) 将等待时间 70min 以下的数据挑选出来;(2) 将等待时间 70min 以下,且等待时间不等于 57min 的数据挑选出来;(3) 将等待时间 70min 以下喷泉的喷涌时间挑选出来;(4) 将喷涌时间大于 70min 喷泉的等待时间挑选出来。解:读取数据的 R 命令:library(MASS);#加载 MASS 包data(geyser);#加载
2、数据集 geyserattach(geyser);#将数据集 geyser 的变量置为内存变量(1) 依题意编定 R 程序如下:sub1geyser=geyserwhich(waiting70),1;#提取满足条件(waiting1)k=k+1;data1k,=studenti,;data1name math physics chem literat english mean1 Ricky 67 63 49 65 57 60.27 Simon 66 71 67 52 57 62.69 Jed 83 100 79 41 50 70.610 Jack 86 94 97 51 55 76.612 J
3、etty 67 84 53 58 56 63.613 Corner 81 62 69 56 52 64.014 Osten 71 64 94 52 52 66.625 Amon 74 79 95 59 59 73.2(5) 依题意,要创造两个子集 data4 和 data2, 用两样本的比较方法比较他们的平均成绩是否有显著差异。类似创造 data1 的方法,创造 data2。并设 x=data1$mean,y=data2$mean,比较二样本 x,y 是否有显著差异,由于还没有学非参数检验,试用 t 检验检验之(R 的 t 检验函数为 t.test(x,y),原假设 H0 是两样本的均值相等,
4、备择假设 H1 是两样本不等)。如果 P 值 p-value1.645, 则将会拒绝 H0: ,而且按照 Neyman-Pearson 引理,该检验是最优的。现在,如果我们观察到 X=2.1,该水平 0.05 的最优检验告诉我们拒绝 =0 的零假设,接受 =1000 的备择假设,你觉得有问题吗?问题在哪里?如何解决?答:有问题。假设检验在原假设条件成立下,得到拒绝域 ,意思是拒绝 ,接受 。而 只是其中的一种情况,故不能接受 。改进方法:可直接提出假设“均值为 1000”进行检验。即检验(2) 有两组学生的成绩,第一组为 11 名,成绩为 x:100,99,99,100,100,100,100
5、,99, 100, 99, 99; 第二组为 2 名,成绩为 y: 50, 0. 我们对这两组数据作同样水平 = 0.05 的 t 检验(假设总体的均值为 ), 。10:10:H对第二组数据的检验结果为:df=10, t= -2.8868,mean(x)= 99.54545, 单边检验( 10);sl=sum(x0);sl=sum(z0);n1=sg+sl;k=min(sg,sl)binom.test(k,n1,0.5)Exact binomial testdata: k and n1number of successes = 3, number of trials = 10, p-value
6、 = 0.3438alternative hypothesis: true probability of success is not equal to 0.595 percent confidence interval: 0.06673951 0.65245285sample estimates:probability of success 0.3P 值 p-value = 0.3438,不拒绝原假设,认为两个联赛的三分球得分次数没有显著差异。(2) 作 z 的直方图如图 2.4.1,图形显示 z 的分布不存在显著不对称的迹象,可以做 wilcox.testwilcox.test(z)Wil
7、coxon signed rank testdata: zV = 45, p-value = 0.08398alternative hypothesis: true location is not equal to 0检验的 P 值 p-value = 0.08398,在 alpha=0.05 下,不拒绝原假设。与符号检验的结论相同,但 P 值小了很多。(3) 在如上的检验中,由于数据的分布不存在显著不对称的迹象,wilcox.test 是可靠的,因而 wilcox.test 理好。事实 wilcox.test 的 P 值小了很多,更能区分差异。在检验可靠的情形下,P 值越小越好。2.12 在
8、白令海所捕捉的 12 岁的某种鱼的长度(单位:cm) 样本为长度 /cm 64 65 66 67 68 69 70 71 72 73 74 75 77 78 79 数目 1 2 1 1 4 3 4 5 3 3 0 1 6 1 1您能否同意所声称的 12 岁的这种鱼的长度的中位数总是在 6972cm 之间?解:这是求置信区间的问题,设 =0.05. x=c(64,65,65,66,67,68,68,68,68,69,69,69,70,70,70,70,71,71,71,71,71,72,72,72,73,73,73,75,77,77,77,77,77,77,78,83);数据探索:正态 Q-Q
9、图和密度函数图如下两者显示数据 x 近似于对称分布,ks 正态性检验的 P 值为0.58,也没有拒绝正态性假设,因此可以认为数据分布不拒绝对称性假设。因此可以做 Walsh中位数置信区间,基于Bootstrap 方差估计的中位数正态置信区间、枢轴量置信区间、分位数置区间,下面求 walsh 置图 2.4.1 z 的直方图信区间。(1) walsh 中位数置信区间walsh=NULL;n=length(x);for(i in 1:n)for (j in i:n)w=(xi+xj)/2;walsh=c(walsh,w);list(med=median(walsh), nwalsh=length(w
10、alsh);# median(walsh)=71, length(walsh)=666 #编程求 walsh 中位数的(1- )*100%=95%的置信区间walsh.conf=function(x,alpha)walsh=NULL;n=length(x);for(i in 1:n)for (j in i:n)w=(xi+xj)/2;walsh=c(walsh,w);nw=length(walsh); #walsh 的长度walsh.sort=sort(walsh);#搜索 walsh 中位数的置信区间,对称地砍掉左尾和右尾for(k in seq(1,(nw/2),1)F=pbinom(nw
11、-k,nw,0.5)- pbinom(k,nw,0.5);if (F(1-alpha)lk=k-1;breaklci=walsh.sortlk;uci=walsh.sortnw-lk+1;list(lci=lci,uci=uci,lk=lk,uk=nw-lk) #调用函数walsh.conf(x,0.05)$lci= 71, $uci=71.5结论:12 岁的这种鱼的长度的中位数的 95%的 walsh 置信区间是( 71, 71.5)(cm).(2) 其它置信区间,基于 Bootstrap 方差的枢轴区间是最好的,它是(69,73) ,还是没有 Walsh 区间好,因为数据分布是对称的。依
12、walsh 平均,可以说 12 岁的这种鱼的长度在 6972 之间(置信水平 95% ) 。2.14 社会学家欲了解抑郁症的发病率是否在一年时间随季节的不而不同,他使用了来年一所大医院的病人数据,按一个 4 个季节,依次记录过去 5 年中第一次被确诊为患抑郁症的病人数,数据如下表(单位:人)季节 春季 夏季 秋季 冬季 合计人数 495 503 491 581 2070请问:发病率是否与季节有关?解:这是一个假设问题。也称为独立性检验问题。如果两者独立,即无关,则发病人数在 4 个季节是均匀(发病率为 1/4) ,否则两者是相关的。 Pearson 检验过程如下:2H0;p 1=p2=p3=p
13、4=1/4;H 1;p 1,p 2,p 3,p 4 不全等;V=c(495,503,491,581);p=1/4;n=sum(V);df=4-1;chi2=sum(V-n*p)2/(n*p)pvalue=1-pchisq(chi2,df);pvalue;#请思考:为什么用右尾概率?10.01453647结论:在 =0.05 时拒绝原假设,认为发病率与季节有关。具体地说,冬天的发病率高(p 3= 0.2807) 。当然,为了要得到科学的结论,应该要规范抽样,使得样本有代表性,毕竟一个医院的数据其代表性是值得商榷的。内容P106: 3.1; 3.4; 3.5.3.1 在一项研究毒品对增强人体攻击性影响的实验中,组 A 使用安慰剂,组 B 使用毒品,试验后进行攻击性测试,测量得分显示在如下表中(得分越高表示攻击性越强)组 A 10,8,12,16,5,9,7,11,6