回归分析中异常值的诊断与处理1 引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一步进行统计分析的前提但是通常的统计整理方法往往都对样本数据有一个前提假设,即样本数据是来自同一个总体,而这个假设有时却不能成立原因一是由客观因素造成的,如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据混杂进来当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同的总体,我们称这样的数据为异常数据若对混有异常数据的样本按常规进行统计整理、分析、推断,往往会得出不符合实际的结论本文就样本中的异常数据提出了诊断方法和处理方法,并结合实例说明了简单回归中上述方法的具体应用2 异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值(Outliers).狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的数据,也称离群值社会经济统计中一切失实数据统称为异常值由于人为或随机因素的影响,失实的数据随时