1、 1 做中国领先的科研资源提供商第七章第七章 常用的数据挖掘软件常用的数据挖掘软件总课时: 6小时(实验: 4小时) 大数据处理大数据处理 配套课件配套课件 2提纲数据挖掘软件介绍WekaRapidMinerKnime 3数据挖掘软件介绍n Weka: 名气最大 的机器学习 和数据挖掘软件n 高级用户可以通过 Java编程和命令行来调用其分析组件n 为 普通用户提供了图形化 界面n 在 Weka论坛有大量的扩展包n 很多其它开源数据挖掘软件也支持调用 Weka的分析功能 4数据挖掘软件介绍n RapidMiner:耶鲁大学的研究成果n 免费 提供数据挖掘技术和 库n 数据挖掘过程简单,强大和
2、直观n 多层次的数据视图,确保有效和透明的 数据n 400多个数据挖掘运营商支持n 强大的可视化 引擎n 耶鲁大学 已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘 5数据挖掘软件介绍n Knime:数据流模式的挖掘软件n 类似数据流( data flow)的方式来建立分析挖掘 流程n 用户可 选择性地运行一些或全部的分析 步骤n 用 Java开发的,可以扩展使用 Weka中的挖掘 算法n 通过插件的方式, 用户 可以加入自己的处理 模块,并可以集成到其它各种各样的开源 项目中 6数据挖掘软件介绍n IBM Intelligent
3、 Miner: IBM的商业级产品n 简单 易 用n 能 处理大数据量的 挖掘n 功能 一般 ,没有 数据探索 功能n 与其 他软件接口差,只能用 DB2,连接 DB2以外的数据库时,如 Oracle, SAS, SPSS需要 安装DataJoiner作为中间 软件 7提纲数据挖掘软件介绍WekaRapidMinerKnime 8Weka简介n WEKA的全名是怀卡托智能分析环境( Waikato Environment for Knowledge Analysis),它的源代码可通过http:/www.cs.waikato.ac.nz/ml/weka得到。n 同时 weka也是新西兰的一种鸟名,而 WEKA的主要开发者来自新西兰。 n WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。 n 2005年 8月,在第 11届 ACM SIGKDD国际会议上,怀卡托大学的 Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有 11年的发展历史)。 Weka的每月下载次数已超过万 次。 10Weka的数据格式n WEKA所处理的数据集是一个二维的表格