1、正态概率图(normal probability plot)方法演变:概率图,分位数-分位数图( Q- Q) 概述正态概率图用于检查一组数据是否服从正态分布。是实数与正态分布数据之间函数关系的散点图。如果这组实数服从正态分布,正态概率图将是一条直线。通常,概率图也可以用于确定一组数据是否服从任一已知分布,如二项分布或泊松分布。 适用场合当你采用的工具或方法需要使用服从正态分布的数据时;当有 50 个或更多的数据点,为了获得更好的结果时。例如:确定一个样本图是否适用于该数据;当选择作 X 和 R 图的样本容量,以确定样本容量是否足够大到样本均值服从正态分布时;在计算过程能力指数 Cp 或者 Cp
2、k 之前;在选择一种只对正态分布有效的假设检验之前。 实施步骤通常,我们只需简单地把数据输入绘图的软件,就会产生需要的图。下面将详述计算过程,这样就可以知道计算机程序是怎么来编译的了,并且我们也可以自己画简单的图。1 将数据从小到大排列,并从 1n 标号。2 计算每个值的分位数。i 是序号:分位数(i0.5)/n3 找与每个分位数匹配的正态分布值。把分位数记到正态分布概率表下面的表 A.1 里面。然后在表的左边和顶部找到对应的 z 值。4 根据散点图中的每对数据值作图:每列数据值对应个 z 值。数据值对应于 y 轴,正态分位数 z 值对应于 x 轴。将在平面图上得到 n 个点。5 画一条拟合大
3、多数点的直线。如果数据严格意义上服从正态分布,点将形或一条直线。将点形成的图形与画的直线相比较,判断数据拟合正态分布的好坏。请参阅注意事项中的典型图形。可以计算相关系数来判断这条直线和点拟合的好坏。 示例为了便于下面的计算,我们仅采用 20 个数据。表 5. 12 中有按次序排好的 20 个值,列上标明“过程数据” 。下一步将计算分位数。如第一个值 9,计算如下:分位数(i0.5)/n(10.5)/200.5/20 0.025同理,第 2 个值,计算如下:分位数(i0.5)/n(20.5)/201.5/20 0.075可以按下面的模式去计算:第 3 个分位数=2.520,第 4 个分位数3 5
4、20以此类推直到最后 1 个分位数19. 520。现在可以在正态分布概率表中查找 z 值。z 的前两个阿拉伯数字在表的最左边一列,最后 1 个阿拉伯数字在表的最顶端一行。如第 1 个分位数0. 025,它位于1.9 在行与 0.06 所在列的交叉处,故z1.96。用相同的方式找到每个分位数。如果分位数在表的两个值之间,将需要用插值法进行求解。例如:第 4 个分位数为 0. 175,它位于0.1736 与 0.1762 之间。0.1736 对应的 z 值为 0.94,0.1762 对应的 z 值为0.93,故这两数的中间值为 z 0.935。现在,可以用过程数据和相应的 z 值作图。图表 5.
5、127 显示了结果和穿过这些点的直线。注意:在图形的两端,点位于直线的上侧。这属于典型的右偏态数据。图表 5.128 显示了数据的直方图,可进行比较。 概率图( probability plot)该方法可以用于检验任何数据的已知分布。这时我们不是在正态分布概率表中查找分位数,而是在感兴趣的已知分布表中查找它们。 分位数-分位数图(quantile-quantile plot)同理,任意两个数据集都可以通过比较来判断是否服从同一分布。计算每个分布的分位数。一个数据集对应于 x 轴,另一个对应于 y 轴。作一条 45的参照线。如果这两个数据集来自同一分布,那么这些点就会靠近这条参照线。 注意事项绘
6、制正态概率图有很多方法。除了这里给定的程序以外,正态分布还可以用概率和百分数来表示。实际的数据可以先进行标准化或者直接标在 x 轴上。如果此时这些数据形成一条直线,那么该正态分布的均值就是直线在 y 轴截距,标准差就是直线斜率。对于正态概率图,图表 5.129 显示了一些常见的变形图形。短尾分布:如果尾部比正常的短,则点所形成的图形左边朝直线上方弯曲,右边朝直线下方弯曲如果倾斜向右看,图形呈 S 型。表明数据比标准正态分布时候更加集中靠近均值。长尾分布:如果尾部比正常的长,则点所形成的图形左边朝直线下方弯曲,右边朝直线上方弯曲如果倾斜向右看,图形呈倒 S 型。表明数据比标准正态分布时候有更多偏
7、离的数据。一个双峰分布也可能是这个形状。右偏态分布:右偏态分布左边尾部短,右边尾部长。因此,点所形成的图形与直线相比向上弯曲,或者说呈 U 型。把正态分布左边截去,也会是这种形状。左偏态分布:左偏态分布左边尾部长,右边尾部短。因此,点所形成的图形与直线相比向下弯曲。把正态分布右边截去,也会是这种形状。如果翻转正态概率图的数轴,那么弯曲的形状也跟着翻转。比如,左偏态分布将是一个U 型的曲线。记住过程应该在受控状态下对图形作出有效判断。尽管作直方图能马上知道数据的分布,但它却不是判断这些数据是否来自同一特定分布的好办法。人眼不能很好地判别曲线,其他的分布也可能形成相似的形状。并且,用服从正态分布的少量数据集作成的直方图可能看起来不是正态的。因此,正态概率图是判断数据分布的较好方法。判断数据分布的另一种方法是使用拟合良好性检定,比如 Shapiro-Wilk 检验,Kolmogorov-Smirnov 检验,或者 Lilliefors 检验。关于这些检验的具体描述,不在本书的讨论范围,这些检验在大多数的统计软件上都能实现。向统计学家咨询如何选择正确的检验并解释其结果。请参阅“假设检验”以理解这些检验和所得到的结论的一般原则。最好的方法是使用统计软件得到正态概率图并作拟合性检验。结合使用可以对数据和统计标准有直观的理解,以此判定是否为正态。END