1、1一、数据集整理与SAS基本编程1、试用产生标准正态分布函数的随机函数normal(seed)产生均值为170,方差为64的正态随机数100个,并计算其常规统计量(均值、标准差、变异系数、偏度和峰度) 。data date1;mu=170;sigma=8;do i=1 to 100;y=mu+sigma*RANNOR(0);output ;end;run;proc means data=data1 mean std cv stderr skewness;var y;output out=result;run;2、设已知数据集class中有5个变量:name, sex, age, height和
2、weight,请编写程序新建数据集class1,其中class1只包含name, sex, age三个变量,且把name重命名为id。data class;input name$ sex$ age heigh weigh;cards;小明 男 15 160 50;run;data class1;2set class;keep name sex age;rename name=id ;run;proc print data=class1;run;3、SAS 的逻辑库可分为永久库和临时库两种,请编写一段程序直接建立永久库 sasuser 中的下例数据集,并按降序排序。数据名 tong:20 13
3、20 16 23 19 19 16data Sasuser.tong;input x;cards;20 13 20 16 23 19 19 16;run;proc sort data=Sasuser.tong;by descending x ;run;proc print data=Sasuser.tong;run;4、设已知数据集 data1 和数据集 data2number province1 Hebei3 Zhejiang5 Gansu请编写程序串接 data1 和 data2,且分组变量为 number。data data1;input number province$;cards;1
4、 Hebei3 Zhejiangnumber city2 Chengdu4 Nanjing35 Gansu;run;data data2;input number city$;cards;2 Chengdu4 Nanjing;run;data data;set data1 data2;by number;run;proc print data=data;run;二、描述统计1、下表记录了某超市一个月内每天的营业额(千元),现用 SAS过程做描述统计,请根据给出的结果回答以下问题:日期 营业额 日期 营业额 日期 营业额 日期 营业额 日期 营业 额1 6.14 7 14.76 13 42.41
5、 19 11.13 25 33.872 48.35 8 39.18 14 30.21 20 1.07 26 20.093 0.95 9 36.87 15 15.62 21 17.12 27 34.734 18.61 10 15.64 16 40.47 22 8.33 28 43.865 37.89 11 30.44 17 8.81 23 8.59 29 7.566 3.48 12 23.38 18 2.5 24 4.08 30 23.44(1) 、该超市一个月内的平均营业额,哪天最大、最小?(2) 、营业额的偏度、变异系数;4(3) 、数据是否服从正态分布?( )0.5data data1;i
6、nput number province$;cards;1 Hebei3 Zhejiang5 Gansu;run;data data2;input number city$;cards;2 Chengdu4 Nanjing;run;data data;set data1 data2;by number;run;proc print data=data;run;data a;input date total;cards;proc univariate data=a ;var total;run; 52、假设某学校大学生的身高为 X(记总体 X 的均值为 ,方差1为 ) ,体重为 Y(记总体 Y
7、的均值为 ,方差为 ) ,今从全校随122机抽取 100 名学生,测得身高、体重数据如下,请根据输出结果回答以下问题:身高 体重 身高 体重 身高 体重 身高 体重 身高 体重172.4 75 169.3 54.8 169.3 64 171.4 64.8 166.5 47.4171.4 62.2 168.2 66.9 165.1 52 168.8 62.2 167.8 65165.8 62.2 167.8 65 164.4 58.7 169.9 57.5 164.9 63.5160.3 55.2 175 66.6 172.5 73.5 172 64 168.4 57155 57 175.5 6
8、3.9 172.3 69 168.6 58 176.4 56.9173.2 57.5 167.5 50 169.4 52.2 166.7 72 169.5 57165.7 55.4 161.2 48.5 172.8 57 175.1 75.5 157.5 50.5169.8 62.9 168.6 63.4 172.6 61 163.8 58.5 165.1 61.5166.7 52.5 170.9 61 166.1 69.5 166.2 62.5 172.4 52.6172.8 60 177.8 63.9 162.7 56.8 168.8 54 169.1 66.2177.5 60 177 6
9、6.2 169.9 55.9 167.4 54.4 169.3 58.4172.8 72.8 169.8 58 160 65.3 179.1 62.2 172.3 49.8163.3 46.5 172.9 66.7 165.4 58 175.8 63.2 162.3 52.2165.4 65.7 171.5 59.3 176.6 66.3 181.7 68.6 175.2 74.9169.5 59.5 169.6 61.5 169.1 63.1 185.5 77 173.9 65.5162.5 50 171.5 58.5 175.6 59.8 166 75.5 167.2 63.3171.9
10、57 176.6 58.4 177.3 67 169.2 71.8 166.2 49.8181.7 63 175.8 68.3 172.3 55.5 172.7 58.5 174.3 64171.2 59 174.8 68 165.4 55.5 169.1 64.8 167.9 626176.8 64 183.5 69.9 165.5 48.6 171 70.5 170.3 58.51、身高、体重的均值 和方差 的 90%的置信区间;12,21,data a;input heigh weigh;cards;run;proc ttest data=a alpha=0.1;run;169.31,1
11、71.0960.201,62.3072、分析 100 名学生身高数据频率直方图;proc gchart data=a;vbar heigh/type=freq;run;3、对身高均值 和方差 做假设检验;170cm2230cm70.70720.05 接受原假设没有显著差异; 4、体重数据是否来自正态总体?proc univariate data=a normal;var weight;run;样本少于2000看第一个 大于2000 看第二个因为0.4639大于0.05所以接受原假设所以来自正态总体三、假设检验1、某生产企业进行技术改造,为考察改造是否对生产量有提高,记录改造前后各 10 天的产
12、量(吨/天)的数据: 改 3.3 11.7 9. 6. 2 3.1 5.3 3.7 21.8 17.68造前4 8改造后33 30.88.811.442.6 5.8 1.6 19 22.4 30.2技术改造对产量是否有显著的影响( )?0.5data test;input a b;cards;run;proc ttest data=test;paired a*b;run;因为 0.03840.01,所以方差相等,看第一个 equal,0.00240.01拒绝原假设,两个独立样本有显著差异。四、方差分析1、生产配方问题。生产某种产品需要两种原材料: A 和 B;考察的指标为产品的产量 Y。设因子
13、 A 有三个品牌:A1,A2,A3;因子B 有四个品牌:B1,B2,B3,B4。对这 12 中配搭的每一种,安排两次实验,得数据如下表(每次实验的产量): B1 B2 B3 B4A1 19.3,19.2 24,27.3 26,28.5 27.8,28.5A2 21.7,22.6 27.5,30.3 29,28.7 30.2,29.8A3 20,20.1 24.2,27.3 24.5,27.1 28.1,27.7(1) 、原材料 A 的不同品牌对产量是否有显著的差别?哪个品牌更好些( )?0.5(2) 、原材料 B 的不同品牌对产量是否有显著的影响?10(3) 、A 和 B 对产量的影响哪个更大些?(4) 、A 和 B 是否有交互作用?(5) 、使产量达到最大的生产条件是什么?data test3;do a=1 to 3;do b=1 to 4;do c=1 to 2;input x ;output;end;end;end;cards;run;proc glm data=test3;class a b;model x=a b a*b;means a b a*b/t; /*多重比较设置*/run;因为 0.00360.05 拒绝原假设,A 品牌对产量有显著影响。0.0010.05 拒绝原假设,A 品牌对产量有显著影响。