精选优质文档-倾情为你奉上 数据中心质量保证方案 广东第二师范学院 第一章 引言高校数据中心作为校情决策分析的数据来源,为保证数据中心的质量,通常需要进行数据处理,主要包括以下几个重要的步骤:数据审查、数据清洗、数据转换和数据验证四大步骤。(一)数据审查该步骤检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与调查要求一致,是否全面;还包括利用描述性统计分析,检查各个字段的字段类型、字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。(二)数据清洗该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清冼”,使“脏”数据变为“干净”数据,有利于后续的统计分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除。(三)数据转换数据分析强调分析对象的可比性,但不同字段值由于计量单位等不同,往往造成数据不可比;对一些统计指标进行综合评价时,如果统计指标的性质、计量单位不同,也容易引起评价结果出现较大误差,再加上分析过程中的其他一些