精选优质文档-倾情为你奉上第1章 数据挖掘的概念本章目标 理解对大型的、复杂的和信息丰富的数据集进行分析的必要性。 明确数据挖掘过程的目标和首要任务。 描述数据挖掘技术的起源。 认识数据挖掘过程所具有的迭代特点,说明数据挖掘的基本步骤。 解释数据的质量对数据挖掘过程的影响。 建立数据仓库和数据挖掘之间的联系。1.1 概述现代科学和工程建立在用“首要原则模型(first-principle models)”来描述物理、生物和社会系统的基础上。这种方法从基础的科学模型入手,如牛顿运动定律或麦克斯韦的电磁公式,然后基于模型来建立机械工程或电子工程方面的各种应用。在这种方法中,用实验数据来验证基本的“首要原则模型”,以及对一些难以直接测量或者根本不可能直接测量的参数进行评估。但是在许多领域,基本的“首要原则模型”往往是未知的,或者研究的系统太复杂而难以进行数学定型,随着计算机的广泛应用,像这样的复杂系统生成了大量的数据。在没有“首要原则模型”时候,可以利用这些易得的可用数据,通过对系统变量之间可以利用的关系(即未知的输入输出相关性