1、p WEKA简 介p 数据格式p 数据准 备p 属性 选择p 可 视 化分析p 分 类预测p 关 联 分析p 聚 类 分析p 扩 展 WEKA课程的总体目标和要求:v 熟悉 WEKA的基本操作,了解WEKA的各项功能v 掌握数据挖掘实验的流程 准备数据 选择算法和参数运行 评估实验结果v 了解或掌握在 WEKA中加入新算法的方法p作 为 一个大众化的数据挖掘工作平台, WEKA集成了大量能承担数据挖掘任 务 的机器学 习 算法,包括 对 数据 进 行 预处 理 、 分 类 、 回 归 、 聚 类 、 关 联 分析 以及在新的交互式界面上的 可 视 化 等等。通 过 其接口,可在其基 础 上 实
2、现 自己的数据挖掘算法。 WEKA所用的数据格式( 跟 Excel一样)Explorer界面 Open file EditWEKA文件相关 术语p表格里的一个横行称作一个 实 例( Instance),相当于统计 学中的一个 样 本,或者数据 库 中的一条 记录 。 竖行称作一个属性( Attribute),相当于 统计 学中的一个变 量,或者数据 库 中的一个字段。 这样 一个表格,或者叫数据集,在 WEKA看来,呈 现 了属性之 间 的一种关系 (Relation)。上 图 中一共有 14个 实 例, 5个属性,关系名称 为 “weather”。pWEKA存 储 数据的格式是 ARFF(
3、Attribute-Relation File Format)文件, 这 是一种 ASCII文本文件。上 图 所示的二 维 表格存 储 在如下的 ARFF文件中。 这 也就是 WEKA自 带 的 “weather.arff”文件,在 WEKA安装目 录 的 “data”子目 录 下可以找到。n文件内容 说 明 识别 ARFF文件的重要依据是分行,因此不能在 这 种文件里随意的断行。空行(或全是空格的行)将被忽略。 以 “%”开始的行是注 释 , WEKA将忽略 这 些行。如果你看到的 “weather.arff”文件多了或少了些 “%”开始的行,是没有影响的。 除去注 释 后,整个 ARFF文
4、件可以分 为 两个部分。p第一部分 给 出了 头 信息( Head information),包括了 对 关系的声明和 对 属性的声明。p第二部分 给 出了数据信息( Data information),即数据集中 给 出的数据。从 “data”标记 开始,后面的就是数据信息了。p关系声明 关系名称在 ARFF文件的第一个有效行来定 义 ,格式 为 relation 是一个字符串。如果 这 个字符串包含空格,它必 须 加上引号(指英文 标 点的 单 引号或双引号)。p属性声明 属性声明用一列以 “attribute”开 头 的 语 句表示。数据集中的每一个属性都有它 对应 的 “attribu
5、te”语 句,来定 义 它的属性名称和数据 类 型。 这 些声明 语 句的 顺 序很重要。首先它表明了 该项 属性在数据部分的位置。例如, “humidity”是第三个被声明的属性, 这说 明数据部分那些被逗号分开的列中,第三列数据 85 90 86 96 . 是相 应 的 “humidity”值 。其次,最后一个声明的属性被称作 class属性,在分 类 或回 归 任务 中,它是默 认 的目 标变 量。 属性声明的格式 为 attribute 其中 是以字母开 头 的字符串。和关系名称一 样 ,如果 这 个字符串包含空格,它必 须 加上引号。pWEKA支持的 有四种numeric 数 值 型
6、 标 称( nominal)型string 字符串型date 日期和 时间 型其中 和 将在下面说 明。 还 可以使用两个 类 型 “integer”和 “real”,但WEKA把它 们 都当作 “numeric”看待。注意 “integer”, “real”, “numeric”, “date”, “string”这 些关 键 字是区分大小写的,而 “relation”、 “attribute ”和 “data”则 不区分 。p数 值 属性 数 值 型属性可以是整数或者 实 数,但 WEKA把它 们都当作 实 数看待。p标 称属性 标 称属性由 列出一系列可能的类别 名称并放在花括号中:, , . 数据集中 该 属性的 值 只能是其中一种 类别 。 例如 如下的属性声明 说 明 “outlook”属性有三种 类别 :“sunny”, “ overcast”和 “rainy”。而数据集中每个 实 例 对应 的 “outlook”值 必是 这 三者之一。 attribute outlook sunny, overcast, rainy 如果 类别 名称 带 有空格,仍需要将之放入引号中。