关联分析: 高级概念 第7 章 关联分析: 高级概念关联分析处理事务数据 Rules Discovered: Diaper - Beer处理分类属性 我们可能发现关于因特网用户特征的有趣信息: 网上购物= 是 关注隐私= 是 许多应用包含对称二元属性和标称属性。表7-1 显示的因特网调查数 据包含对称二元属性,如:性别、家庭计算机、网上聊天、网上购 物和关注隐私;还包括标称属性,如文化程度和州。处理分类属性 l 为了提取这样的模式,我们需要将标称属性和对称 二元属性转换成“ 项” ,使得已有的关联规则挖掘算 法可以使用。 l 这种类型的变化可以通过为每个不同的属性- 值对 创建一个新的项来实现。 例如: 标称属性文化程度可以用三个二元项取代 u 文化程度= 大学 u 文化程度= 研究生 u 文化程度= 高中 l 类似的,对称二元属性性别可以转换成一对二元项 :性别= 男、性别= 女。处理分类属性 l 将关联分析用于二元化后的数据时,需要考虑如下 问题。 (1) 有些属性值可能不够频繁,不能成为频繁模式的一部分。如: 州名。 解决办法:将相关的属性值分组,形成少数类别。例如,每个州 名都