1、第三章敘述統計:數值方法B部分, 滄海書局,第 3 章 B 部分敘述統計:數值方法,相對位置的量數與離群值的偵測 探究性的資料分析 兩變數間相關性量數 加權平均數與群組資料的處理,%,x,相對位置的量數與離群值的偵測,z 分數 柴比雪夫定理 經驗法則 離群值的偵測,z 分數通常稱之為標準化值(standardized value)。其可被解釋為xi 與平均數之間有幾個標準差的差距。 當資料值小於樣本平均數時, z 分數便為負。當資料值大於樣本平均數時, z 分數便為正。z 分數為 0 表示資料值等於樣本平均數。,z 分數,班級大小資料的 z 分數,範例,柴比雪夫定理,在任何資料集合內至少有(1
2、 - 1/k2)百分比的觀察值與平均數的差距在 k 個標準差之內,此處 k 為任何大於 1 之值。 至少有 75% 的觀察值,與平均數的差距在 k = 2 個標準差之內。 至少有 89 % 的觀察值,與平均數的差距在 k = 3 個標準差之內。 至少有 94% 的觀察值,與平均數的差距在 k = 4個 標準差之內。,範例,柴比雪夫定理假設某學院商用統計課程有100位學生修課,其期中考成績之平均數為70,標準差為5。有多少學生的分數介於60與80之間?又有多少學生的分數介於58與82之間? 利用柴比雪夫定理,我們可看出至少0.75或至少75%的觀察值與平均數的差距在兩個標準差之內。因此,100個
3、學生至少有75人分數介於60與80之間。而分數介於58與82的人數而言,我們可看出表示58是小於平均數有2.4個標準差而表示大於平均數2.4個標準差。利用柴比雪夫定理且 z =2.4,我們可得到: 至少有82.6%的學生分數必介於58與82之間。,經驗法則,針對資料為鐘形分配而言: 大約 68% 的資料與平均數的差距在 1 個標準差一個標準差內。,經驗法則,針對資料為鐘形分配而言: 大約 95% 的資料與平均數的差距在 2 個標準差內。,經驗法則,針對資料為鐘形分配而言: 幾乎所有 (99.7%)的資料與平均數的差距在 3 個標準差內。,範例,經驗法則 有一條生產線是在填裝液體清潔劑。填裝重量
4、通常是鐘形分配,若填裝重量的平均數為每盒16盎斯,標準差是0.25盎斯,我們便能利用經驗法則勾勒出下列的結果: 大約有68%的填裝盒的重量介於15.75與16.25盎斯之間(也就是與平均數的差距在一個標準差之內)。大約有95%的填裝盒的重量介於15.50與16.50盎斯之間(也就是與平均數的差距在二個標準差之內)。幾乎所有的填裝盒重量介於15.25與16.75盎斯之間(也就是與平均數的差距在三個標準差之內)。,離群值的偵測,離群值(outliers)意指為資料集裡有一個或更多極大或極小的觀察值。 觀察值之 z 分數比 3 還小或比+3還大時,就是離群值。 離群值可能是未被正確登錄的資料。 離群
5、值亦可能是被錯放在資料集。 離群值也可能是登錄正確的資料,而且也是屬於這個資料集。,範例,離群值的分配參考班級大小資料的 z -分數, z -分數為 1.50 表示第5個觀察值為離平均數最遠的值。然而,此標準化值仍在 -3 到 +3 之間,因此,z -分數顯示出在班級大小資料中並無離群值。,探究性的資料分析,五數彙總 箱形圖,五數彙總,最小值第一四分位數中位數第三四分位數最大值,五數彙總12位畢業生的薪資若以遞增順序排列的話可以得到下列資料。中位數為2,905,Q1 = 2,865且Q3 = 3,000已被計算出來。再回顧此資料集之最小值為2,710,而最大值為3,325。因此,此資料集之五數
6、彙總為2,710, 2,865, 2,905, 3,000, 3,325。大約有 1/4 或25%的資料值會介於這五數兩兩間隔之間。,範例,(中位數),箱形圖,箱形的製作以第一、三四分位數為前後邊。 箱形中的垂直線位置為中位數。 使用四分位數距(IQR)時,必須設定界限。 下界位於 Q1 之下 1.5(IQR)。 上界位於 Q3 之上 1.5(IQR)。 在界限之外的值為離群值。 continued,箱形圖(續),鬚的畫法是從箱形的兩邊至界限內最大與最小值。 以 * 表示離群值的位置。,範例,箱形圖,1.59(IQR),1.59(IQR),(IQR),兩變數間相關性量數,共變異數 相關係數,共
7、變異數,共變異數是用來衡量兩變數間的線性關係。 當共變異數為正值表示正相關,當共變異數為負值表示負相關。,樣本共變異數記為 sxy 。母體共變異數記為 。,共變異數,相關係數的範圍由-1 到 +1 。 其值接近 -1 表示代表強的負線性關係。其值接近 +1 表示代表強的正線性關係。樣本相關係數的定義為 rxy.母體相關係數的定義為 。,相關係數,加權平均數與群組資料的處理,加權平均數 群組資料平均數群組資料變異數 群組資料標準差,加權平均數,平均數是以經由對每一觀察值加權計算而來,目的是為了彰顯其重要性,此即稱為加權平均數。 計算學期平均成績,權重為學分數。只要觀察值的重要性是不相同的,分析人
8、員就必須使用權重以反映每個觀察值的重要性。,x = wi xi wi其中 xi = 第 i 個觀察值 wi = 第 i 個觀察值的權重,加權平均數,群組資料,應用加權平均數的算式可取得從群組資料得到近似的平均數、變異數與標準差。 為了計算加權平均數,我們視每組中點為此分組所有值的代表。 以組中點作為資料值,分組次數作為權重,計算加權平均數。 同樣的,以分組次數作為權重,計算變異數及標準差。,樣本平均數 母體平均數 其中 fi = 第 i 組的次數 Mi = 第 i 組的組中點,群組資料平均數,範例,次數分配Sanderson and Clifford會計事務所完成年度稽核時間(天)的次數分配,並以20家公司為樣本,做出稽核時間的次數分配。,範例,樣本平均值,群組資料變異數,樣本變異數 母體變異數,範例,樣本變異數樣本標準差,End of Chapter 3, Part B,