,数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编 邓松李文敬刘海涛编著 电子工业出版社,第5章 数据预处理,本章包括: 数据预处理基本功能 数据预处理的方法,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。 数据挖掘:为企业决策者提供重要的、有价值的信息或知识,从而为企业带来不可估量的经济效益。,数据挖掘过程一般包括数据采集、数据预处理、数据挖掘以及知识评价和呈现。 在一个完整的数据挖掘过程中,数据预处理要花费60% 左右的时间,而后的挖掘工作仅占总工作量的10% 左右。 目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等。,数据挖掘的必要性: 在海量的原始数据中,存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。,数据预处理分类: 从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理、数据集成、数据变换、数据归约等4个基本功能。 在实际的数据预处理过程中, 这4种功能不一