数据预处理资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值为什么要预处理数据?n 现实世界的数据是“ 肮脏的” 数据多了,什么问题都会出现q 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据q 含噪声的:包含错误或者“ 孤立点”q 不一致的:在编码或者命名上存在差异n 没有高质量的数据,就没有高质量的挖掘结果q 高质量的决策必须依赖高质量的数据q 数据仓库需要对高质量的数据进行一致地集成资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值数据质量的多维度量n 一个广为认可的多维度量观点:q 精确度q 完整度q 一致性q 合乎时机q 可信度q 附加价值q 可访问性n 跟数据本身的含义相关的q 内在的、上下文的、表象的资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值数据预处理的主要任务n 数据清理q 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性n 数