1、169,第 5 章,樣本資料的數值分布,170,統計量(statistic)或表徵數:依據樣本資料計算出具有特定意義的數值,是描述統計學(Descriptive Statistics)的主要內容,也是推論統計學的推論基礎。統計量的測量(measure)或統計量的計算:定義和計算出統計量的過程或方法。,171,1.集中趨勢量數(measures of central tendency):位於圖形最高點附近的統計量,包含平均數(Mean)、中位數(Median)和眾數(Mode);2.差異量數(measures of variability):集中趨勢量數平均數上下界限的統計量,包含標準差(Std
2、 deviation)和變異數(Variance);,曲線圖與統計量的關係:,172,3.大小量數(measures for size):位於圖形二極端點的統計量,包括最大值(Maximum)、最小值(Minimum)和全距(Range);4.偏差量數(measures of deviation from normality):表示圖形是否常態分布的統計量,包括偏態(Skewness)和峰度(Kurtosis)。,173,1.抽樣誤差(sampling error)或平均數穩定性量數(measures of stability):用標準誤差(S.E. mean)來表示,是推論統計學的基礎;2.
3、五數綜合(five-number summary)圖:最大值(Maximum) 、第一四分位數(first quartile)、中位數(Median)、第三四分位數(third quartile)和最小值(Minimum);,具有特殊意義的圖形或量數:,174,3.盒形圖(boxplot):將五數綜合圖加上二個內柵,用來找出離群值(outlier);4.相對變異量數(measures of relative variability):比較不同單位變項間的變異,例如變異係數(coefficient of variation)。,175,5.1常用數學運算符號,1.求總和的數學符號(sigma):
4、,176,5.1常用數學運算符號,3.用積分符號表示機率函數:,(5.6),177,5.2集中趨勢量數,集中趨勢量數(measures of central tendence)或中心位置量數(measures of central location):圖形最高點的統計量,平均數(Mean)、中位數(Median)或眾數(Mode)。,178,5.2.1算術平均數,179,5.2.2中位數,180,5.2.2中位數,181,5.2.3眾數,眾數(Mode)mo:出現次數最多次的值。眾數求算步驟如下: 1.將 n 個觀測值由小到大重新排列。 2.重複出現次數最多的觀測值就是眾數。,182,5.2.
5、4集中量數間的關係,算術平均數 、中位數 md 和眾數 mo 關係圖形:,1.單峰對稱 (symmetric) 分布: 參閱圖 5.1。,圖5.1單峰對稱分布,183,2.單峰左偏 (skewed to left)分布: 參閱圖 5.2。,圖5.2單峰左偏分布,5.2.4集中量數間的關係,184,3.單峰右偏 (skewed to right)分布: 參閱圖5.3。,圖5.3單峰右偏分布,5.2.4集中量數間的關係,185,5.2.5平均數與中位數的使用時機,選用原則如下:,1.常態分布,二者皆可使用,優先使用平均數。2.偏態分布,中位數比平均數具代表性。3.序位變項或整群抽樣資料,使用中位數
6、。4.指數或對數分布變項,使用中位數。5.母數推論統計法使用平均數,無母數推論統計法使用中位數。,186,5.3平均數的差異量數,差異量數(measures of variability)、離勢量數(measures of dispersion)或分散量數(measures of spread):表示分散情形的統計量,標準差(Standard deviation)和變異數(Variance)。,187,5.3.1變異數,188,5.3.1變異數,189,5.3.2標準差,190,5.3.2標準差,母體標準差:,(5 .15),變異數或標準差大,表示觀測值差異性或分散程度大。,191,5.4分布
7、的大小量數,大小量數(measures for size)或分布的分散(spread of the distribution):觀測值或圖形二極端值的統計量,最大值(Maximum)、最小值(Minimum)和全距(Range)。 最大值(Maximum):最大的觀測值。最小值(Minimum):最小的觀測值。全距R(Range):最大值 max 和最小值 min 的差:,(5 .16),192,5.5常態分布的偏差量數,偏差量數(measures of deviation from normality):判斷資料是否常態分布的統計量,偏態(Skewness)和峰度(Kurtosis)。,19
8、3,判斷標準如下:,(1)高窄峰 (leptokurtic):峰度 Kur 3。(2)常態峰 (mesokurtic):峰度 Kur = 3。(3)低闊峰 (platykurtic):峰度 Kur 0。參閱圖 5.5(2)常態峰 (mesokurtic):峰度 Kur = 0。參閱圖 5.1(3)低闊峰 (platykurtic):峰度 Kur 0。參閱圖 5.2。(2)對稱 (symmetry):偏態 Sk = 0 。參閱圖 5.1。(3)左偏 (skewed to the left):偏態Sk 0 。參閱圖 5.3。,5.5.2偏態,199,1.中距值(mid-range)與平均數比較,二
9、數有明顯差異,是偏差形態,中距值 MR:,5.5.3簡易判斷法,快速判斷偏差形態的方法:,(5.20),2.標準差與平均數比較,標準差超過平均數 25%,是偏差形態。3.最大值和最小值與比較,超出 範圍,是偏差形態。,200,5.6穩定性量數,標準誤差(S.E. mean 或Standard errors)或標準誤:表示平均數穩定性或抽樣誤差大小的統計量:,(5.21),201,5.7分布的比較及離群值,五數綜合(five-number summary)圖:最大值(maximum) 、第一四分位數(first quartile)、中位數(median)、第三四分位數(third quartil
10、e)和最小值(minimum)。盒形圖(boxplot):由五數綜合圖增加二內柵而成,用來找出離群值(outlier)。,202,5.7.1四分位數,203,5.7.1四分位數,4. 第二個分割點 50%的位置O(Q2)或O(md):,(5.8),204,5.7.1四分位數,5. 第三個分割點 75% 的位置 O ( Q3 ):,(5.23),205,5.7.2五數綜合圖,五數綜合圖:將最小值 min、第一四分位數 Q1、中位數 md、第三四分位數 Q3 和最大值 max 依序按比例大小排列,五條垂直線表示五數的位置,然後在 Q1、md和 Q3之間繪出盒形,如圖 5.6 所示:,206,5.7
11、.3四分位差,207,5.7.4盒形圖,盒形圖:將五數綜合圖中間的盒形邊緣向二端各延伸相同距離的內柵(inner fence)。內柵 IF 1和 IF2:,(5.27),208,5.7.4盒形圖,盒形圖如圖5.7所示:,209,5.8相對離勢量數,相對離勢量數(measures of relative dispersion):比較相同或不同單位變項間相對變異情形的統計量,例如變異係數(coefficient of variation)。變異係數(coefficient of variation) C.V.:標準差和算術平均數的比值:,(5.28),變異係數沒有單位,變異係數大者,該變項分散程度
12、或差異性較大。,210,5.9偏態資料的處理,偏態資料來源:,1.資料本身具有偏態的特性2.受離群值影響。,211,5.9.1 資料轉換,轉換前變數 x 和轉換後變數 x,212,5.9.2 幾何平均數,幾何平均數 G:,(5.31),213,5.9.3 截尾算術平均數,截尾算術平均數(trimmed mean)或修剪平均數:,214,5.9.4 Windsorized 算術平均數,Windsorized 算術平均數計算步驟如下:,1.求出 Q1 和 Q3。2.小於 Q1 的資料一律改成 Q1 的值。3.大於 Q3 的資料一律改成 Q3 的值。4.計算修改後的算術平均數。5.此種算術平均數稱為
13、Windsorized 算術平均數 (Windsorized mean)。,215,5.10例題,216,217,218,219,220,221,222,223,224,225,226,227,228,229,230,231,232,233,234,235,236,237,238,239,240,241,242,243,244,245,5.10例題,246,247,248,5.11結語,1.常態分布資料,算術平均數具有足夠代表性,使用母數統計法是最佳選擇。2.偏態分布資料,將資料轉換、刪除或修改成常態分布,然後使用母數統計法推論和分析。3.不能轉換或修改偏態分布資料,中位數比算術平均數更具代表性,使用無母數統計法是最佳的選擇。,249,5.11結語,4.算術平均數搭配變異數或標準差,中位數通常四分位數或全距。5.中位數和眾數是研究質性資料的重要統計量。,