1、第七章 交叉表的生成和分析1 基本概念 本章描述的方法适用于分类变量(classification variables)。 单向频数表:一维表; 交叉表:具有两个或多个分类变量的列联表。 双向表:具有两个变量的表; 三向表:具有三个变量的表; 双向双向 :并非指行数或列数,而是指表中包含的变量个数2 FREQ过程步 1.一般形式PROC FREQ DATA=数据集名 选项 ;TABLES 变量名列 /选项 ;BY 变量名列 ;WEIGHT 变量名 ;OUTPUT OUT=输出数据集名 输出统计量列表 ;RUN; 2.功能: 具有统计描述和统计推断的功能。 对分类变量计算频数分布,产生从一维到
2、n维的频数表和交叉表。 统计分析:变量间关联强度等统计量。 3.说明: 3.1 FREQ语句: DATA=数据集名 :指明分析对象; 选项:指定频数的排列方式1) ORDER=FREQ|DATA|INTERNAL|FORMATTED FREQ: 按频数递减的次序排列 DATA: 按在原数据集中出现的次序 INTERNAL: 按内部值排序(默认方式) FORMATTED: 按外部格式值排序2) PAGE:每页只输出一张表,缺省方式:每页尽可能多地输出表;3) NOPRINT:禁止显示输出。 3.2 BY语句: 按指定变量分组统计,要求数据集事先按分组变量排序。缺省方式:不分组。 3.3 WEIG
3、HT: 指定加权变量,用于计算加权平均数等统计量。 3.4 TABLE语句:指定要分析的变量名。一个 FREQ过程步中可以有多条 TABLE语句。 格式: TABLE 变量 1 变量 2; 分别产生变量 1 、变量 2 的单向频数表; TABLE 变量 A1*变量 B1 变量 A2*变量 B2 ;产生 A、 B两个变量的双向交叉表,变量 A的值形成行,变量 B的值形成列; TABLE 变量 A1*变量 B1*变量 C1 变量 A2*变量 B2*变量 C2 ;产生 A、 B、 C三个变量的三向交叉表,变量 A的值形成层,变量 B的值形成行,变量 C的值形成列; 说明: 系统缺省方式:对所有变量作
4、一维频数表; 一维频数表内容:频数、累积频数、频数百分比、累积百分比; 二维频数表内容:交叉分组列表,包括:各格的频数、总频数的各格百分数、行频数的各格百分数、列频数的各格百分数。 TABLE语句中的常用选项: 普通选项: OUT=数据集名 :指定包含变量和频数计数的输出数据集。 统计分析选项: CHISQ: 对每层的齐性或独立性作 检验,包括 Pearson 、 似然比 、 Mantel-Haenszel 。 另外还给出与 检验有关的关联度,包括Phi系数、列联系数、 Cramers V。 对于 22表,给出 Fisher精确概率。 AGREE: 作 配对 检验。 EXACT: 对于大于 2
5、2的列联表,进行 Fisher精确检验。同时也给出CHISQ选项包含的全部统计量。 MEASURES: 对每层的二维表计算一系列关联指标及相应的标准误,包括 Pearson和 Spearman相关系数,以及 Gamma和 Kendall系数等。对于 2 2表,还给出常用的危险度指标及其标准误。 CMH: 给出 Cochran-Mantel-Haenszel统计量,可检验 2维以上的表的行变量与列变量之间的关联程度。对于 2 2表, FREQ过程给出相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的Breslow检验。 ALL: 给出 CHISQ、 MEASURES、 CMH所请求的全部
6、统计量。 ALPHA p: 给出检验水准。缺省值为 0.05。 有关表格信息选项: EXPECTED: 给出期望频数 DEVIATION: 给出每格的实际频数与期望频数的差值 CELLCHISQ: 给出每格对总 c 2的贡献,即计算每格的 (实际频数 -期望频数 )2/期望频数。 CUMCOL: 给出累积列百分数 控制输出选项: NOFREQ: 不给出列联表中的格频数 NOPERCENT: 不给出列联表中的格百分数 NOROW: 不给出列联表中各格的行百分数 NOCOL: 不给出列联表中各格的列百分数 NOCUM: 不给出频数表的累积频数和累积百分数 NOPRINT: 不给出表格,但给出 CHISQ、MEASURES或 CMH等语句所指定的统计量。 例 1:统计 sashelp.class中有关年龄的信息proc freq data=sashelp.class ;table age;run; 例 1:建立 sashelp.class中年龄和性别的列联表,并进行 检验。proc freq data=sashelp.class ;table age*sex/chisq;run;