SAS学习系列19. PROC MEANS均值以及均值的T检验.doc

资源描述

1、19. PROC MEANS均值以及均值的T检验（一）PROC MEANS过程步由PROC UNIVARIATE过程步生成的大多数统计描述，用PROC MEANS过程步也可以实现。区别是，UNIVARIATE是做更深入的统计分析；如果只是需要计算少数的统计量，PROC MEANS更适合（不能做图形输出）。基本语法：PROC MEANS data = 数据集 statistic-keywords;CLASS variable;VAR variable-list;说明：（1）CLASS指定分组变量，VAR指定要做统计分析的变量；（2）默认置信水平是0.05（即95%的置信限），若要设定在统计量关键

2、词位置加上，例如，ALPHA =0.1;（3）若不加统计量关键词，默认输出：均值、非缺省值个数、标准差、最小值、最大值。可选的统计量关键词包括：关键词说明关键词说明CLM双边置信限RANGE极差CSS校正平方和SKEWNESS偏度CV变异系数STDDEV标准差KURTOSIS峰度STDERR均值的标准误LCLM置信下限SUM求和MAX最大值SUMWGT求权重和MIN最小值UCLM置信下限MEAN均值USS未修正的平方和MODE众数N非缺省值个数NMISS缺省值个数PROBTT检验的概率TT值Q1或P25第1四分位数MEDIAN或P50中位数Q3或P75第3四分位数P11%分位数P55%分位数P

3、1010%分位数P9090%分位数P9595%分位数P9999%分位数例1 儿童书作家考察市面上儿童书的页数作为出书的参考，搜集数据（C:MyRawDataPicbooks.dat）如下：读入数据，计算数据个数、均值、中位数，以及90%的置信限。代码：data booklengths;infile c:MyRawDataPicbooks.dat;input NumberOfPages ;run;*Produce summary statistics;proc means data = booklengths N MEAN MEDIAN CLM ALPHA = 0.10 MAXDEC = 2;t

4、itle Summary of Picture Book Lengths;run;运行结果：说明：有90%的把握说“儿童书的页数范围是：26.44, 29.56”.（二）假设检验的P值法一、什么是假设检验？实际中，我们只能得到抽取的样本（部分）的统计结果，要进一步推断总体（全部）的特征，但是这种推断必然有可能犯错，犯错的概率为多少时应该接受这种推断呢？为此，统计学家就开发了一些统计方法进行统计检定，通过把所得到的统计检定值，与统计学家树立了一些随机变量的概率分布进行对比，我们可以知道在百分之多少的机遇下会得到目前的结果。倘若经比较后发现，涌现这结果的机率很少，即是说，是在时机很少、很罕有的情

5、况下才出现；那我们便可以有信念地说，这不是巧合，该推断结果是具有统计学上的意义的。否则，就是推断结果不具有统计学意义。二、假设检验的基本思想小概率反证法思想小概率思想是指小概率事件（P，则在显著水平下接受H0;注意：为临界值，看P值在不在阴影部分（拒绝域），空白部分为接受域。2. 左侧检验I. 原假设H0: 0, 备择假设H1: 0;. 根据样本数据计算出统计量t的观察值t0（，则在显著水平下接受H0;3. 右侧检验I. 原假设H0: 0, 备择假设H1: 0;. 根据样本数据计算出统计量t的观察值t0（ 0）;. P值 = Pt t0 = t0的右侧尾部的面积；. 若P值（在右尾部分），则在

6、显著水平下拒绝H0; 若P值，则在显著水平下接受H0;（三）T分布与T检验一、T分布若样本均数服从正态分布，经过U变换, 可以变成标准正态分布N(0, 12), 也成为U分布. 实际工作中，由于总体标准差未知，用样本标准差代替，则不再服从标准正态分布，而是服从T分布：其中，S为样本方差，n为样本含量，v为自由度。T分布只有一个参数自由度v. v时，T分布无限接近标准正态分布。T分布的图形说明：单侧概率（单侧尾部面积）用表示；双侧概率（双侧尾部面积）用表示；例如，t0.05,10=1.812, 则P(t-1.812)=P(t1.812)=0.05 t0.05/2,10=2.228, 则P(t-

7、2.228)+P(t2.228)=0.05二、T检验T检验，是一种参数假设检验，用来检验“单样本均数与已知均数、两独立样本均数、配对设计资料的均数”是否存在差异，这种差异是否能推论至总体。T检验适用于样本含量较小（比如n60，大样本数据可以用U检验），适用条件：数据服从正态分布（做正态性检验）；满足方差齐性（即两样本的总体方差相等，做F检验）；若满足，可以尝试对数据做变量变换：对数变换、平方根变换、倒数变换、平方根反正弦变换等。正态性检验：（1）W检验，Shapiro-Wilk检验是基于次序统计量对它们期望值的回归而构成的。所用检验统计量为W，又称为W检验。在样本量3n50时使用。（2）D

8、检验，Kolmogorov-Smirnov检验的统计量为D，所以也称D检验，在样本量50n1000时使用。假设检验H0：数据总体服从正态分布，H1：数据总体不服从正态分布。当P时，拒绝H0，认为样本所来自的总体不服从正态分布；当P时，不拒绝H0，认为样本所来自的总体服从正态分布。F检验要求两样本数据的总体均服从正态分布，统计量F为为较大的方差与较小的方差的比值：假设检验H0：两总体方差相等；H1：两总体方差不相等。取=0.10（较大以减少II类错误），当P时，拒绝H0，认为两总体方差不相等；当P时，不拒绝H0，认为两总体方差相等。（四）均值的T检验T检验“单样本均数与已知均数、两独立样本均数、

9、配对设计资料的均数”是否存在差异。例如，检查学生成绩平均分是否在某个分值之上；比较同一老师教的两个班的学生平均分是否存在差异；正常饲料组和维E缺乏组大白鼠肝中维生素A含量的均值是否存在差异。T检验在SAS中用PROC TTEST过程步实现。一、单样本与指定均值基本语法：PROC TTEST data = 数据集 H0 = mu0 options;VAR variable; 说明：“H0=mu0”，对变量的均值与指定均值mu0（默认是H0=0），做T检验。原假设是=0.二、两独立样本的均值基本语法：PROC TTEST data = 数据集 options;CLASS variable;VAR

10、variable;说明：CLASS语句指定分组变量，进行组间均值的比较。三、配对设计资料的均值基本语法：PROC TTEST options;PAIRED variable1 * variable2;说明：配对均值T检验，是检验两个变量各数据的差的均值是否等于0.四、Options可选项（1）ALPHA = n 指定显著水平;（2）CI = type 指定标准差的置信区间的类型，EQUAL（默认）为equal-tailed的置信区间，UMPU为基于一致最优无偏检验的置信区间，NONE不输出置信区间；（3）SIDES = type 指定单侧、双侧检验，默认type=2为双侧检验，L为左侧检验，U

11、右侧检验；五、绘制T检验的图形在TTEST语句中使用参数PLOTS = (绘图类型)即可。基本语法：PROC TTEST data = 数据集 PLOTS = (绘图类型); 可选的绘图类型： ALL或NONE绘制全部图形或不绘制任何图形； BOXPLOT盒形图； HISTOGRAM直方图（包括正态分布、核密度线）； INTERVALPLOT均值的置信区间的图形； QQPLOTQQ图； SUMMARYPLOT在一张图中绘制直方图和盒形图； AGREEMENTPLOTAGREEMENT图； PROFILESPLOTPROFILESPLOT图；注意：TTEST过程步都默认绘制QQ图和SUMMARY

12、PLOT图，配对T检验还默认绘制AGREEMENTPLOT图和PROFILESPLOT图。另外，指定绘制图形类型之后，那些默认图仍然会绘制，除非加上(ONLY):PROC TTEST data = 数据集 PLOTS(ONLY) = (绘图类型);例2 50米女子自由泳的数据（C:MyRawDataOlympic50mSwim.dat），变量包括姓名、决赛用时、半决赛用时：读入数据，用配对T检验考察决赛和半决赛用时有无明显差异。代码：data Swim;infile c:MyRawDataOlympic50mSwim.dat;input Swimmer $ FinalTime SemiFina

13、lTime ;run;proc ttest data = Swim;paired SemiFinalTime * FinalTime;title 50m Freestyle Semifinal vs. Final Results;run;运行结果：程序说明：（1）总决赛用时与半决赛用时之差的均值为0.0850, 其95%置信区间为0.239, 0.1461; 标准差为0.0731, 其95%置信区间为0.0483, 0.1488; （2）自由度为7的t值=3.29，P值=0.0133 小于显著性水平=0.05（P值在双尾部分“拒绝域”），故拒绝原假设H0. 结论：两个均值不相同，其结果有统计学意义。

展开阅读全文