1、第五章 modeler操作入门第五 章 modeler操作入门 5.1 modeler概述 5.2 modeler相关操作 5.3 modeler功能 5.4 案例分析 5.5 进一步学习5.1Modeler概述Modeler界面架构与 产 品5.1.1Modeler界面简介:一般认为 数据 挖掘是持续性 的项目过程,在 这个过程中 ,数据 挖掘的各种算法是数据挖掘过程的核心步骤, 但并不是 整个项目的全部决定性因素 。为了数据 挖掘过程 更标准化, IBM SPSS Modeler使用的就是 CRISP-DM(CRoss Industry Standard Process- for Data
2、 Mining), 跨行业数据挖掘标准流程),其中一共分为 6个步骤:商业理解,数据理解,数据准备,建模,评估,发布。 商业 理解( business understanding) 从 商业的角度了解项目的要求和最终目的,确定数据挖掘的目标,制定项目计划 。 数据 理解( data understanding) 收集 原始数据、探索数据 特征、 检验 数据质量 (完整性、正确性 )和缺失值的填补等 。 数据 准备( data preparation) 涵盖 了从原始粗糙数据到构建最终数据集(将作为建模工具的分析对象)的全部工作,为适应建模工具而进行的数据清理 (数据变量的选择和转换 )等等。
3、建模( modeling) 多种 建模方法被加以选择和使用,通过优化模型将其参数将被校准为最为理想的值。 评估( evaluation) 一 个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。 发布( deployment) 将 其发现的结果以及过程组织成为可读文本形式1.数据流 构建区 一个完整的数据流至少应该包括一个起始节点和一个终端节点。 数据流 构建区 是主要 工作区域 ,我们 通过 构建和连接一个个节点帮助 我们完成数据探索,数据 清洗及 数据建模等工作 。 数据流 在 Modeler中称之为 stream, 因此 modeler保存 的文件也是以 .
4、str结尾的 。2.数据流、结果和模型管理区( 1)流:流管理区 ,同时构建 /编辑多个模型流 ,这个选项可以帮助分析员在对 多个流进行切换;( 2)结果:将输出 /图形的结果保存并进行 编辑命名 ,供下次查看;( 3)模型:在该选项卡下, modeler所建立的所有模型都将出现在这里,我们可以通过该选项卡随时查看生产的模型,甚至把模型结果单独保存。3.数据挖掘项目管理 区数据 挖掘会是一个持续性的项目过程,尤其是在商业数据挖掘当中 。可以 看到,这里面的阶段设置就是按照CRISP-DM方法论进行划分的 ,通过 这个项目管理区,我们就可以很方便把相应的内容(无论是 str文件,结果,模型乃至于 word文档都可以归纳进来)对号入座,在每次开展或者继续项目的时候就可以很容易进行查看操作,非常方便分析 人员进行管理。4节点区 ( 1)起始节点,这类节点是整个数据流的起点,这类节点之前不能再连接其他节点; ( 2)中间节点,这类节点往往是数据挖掘过程的一个步骤,可以在它之前和之后都可以且必须接其他节点; ( 3)终端节点:这类节点代表了 数据流 (或 数据流的 分支 )结束 ,这类节点后面不能再接其他节点。节点类型: