1、2011.02.18更新,1,第三章 描述性統計,授課教師:,2,本章重點,瞭解平均數、中位數以及眾數的意義與優缺點瞭解變異數與標準差的定義與意義認識經驗法則的用途瞭解使用變異係數與Z分數的時機,3,大綱,平均數中位數眾數百分位數變異數與標準差平均數和標準差的共同應用經驗法則其他重要的統計測量數,4,3-1 平均數,平均數主要在衡量一組資料的中央趨勢平均數有許多不同計算公式如:算術平均數、加權平均數、幾何平均數,5,3.1.1平均數的基本觀念若沒有特別指定,平均數指的就是算術平均數,6,用數學符號表示則寫成母體平均數: 樣本平均數:,7,以物理的角度來看,正好是一組資料的重心,8,非組距型資料
2、平均數的求法將每筆資料加總起來再除以資料總數組距型資料平均數的求法同一組的資料以該組的組中點來代表這一組的所有資料值,9,例 1請分別使用計算機與Excel,求出2.5.1節中全班64位學生的平均分數。,打開檔案:2-5學生成績,10,例2 下表為2.5.1節完成後的64位學生成績的次數分配表: 請計算平均成績。,打開檔案:2-5學生組距型成績,Excel指令說明SUMPRODUCT(範圍1,範圍2):將範圍1與範圍2的數值相乘後再加總,相當於數學運算式,11,3.1.2平均數的性質平均數是全體資料的幾何中心,若以物理學的角度來看,它也是這群資料的重心把每一筆資料乘以a之後再加b,則新的平均數
3、為原來的a倍再加b當 時 有最小值,或,12,例 3某次統計學考試因為班上考得非常不理想,全班總平均只有25分。於是老師決定把每一位同學的分數乘以1.8倍之後再加10分,請問分數調整後的全班平均成績變成多少分?,新的平均分數等於:,13,3.1.3平均數的優點定義十分簡單、容易瞭解反應靈敏所有的資料皆被列入計算式中,充分的應用到所蒐集到的每一筆資料具良好的代數運算特性值是唯一的,適合當作全體資料的代表性數值,14,3.1.4平均數的缺點若資料中存在極端值,會使平均數失去代表的意義非數值型態的資料無法求得平均數平均數雖然唯一,但不一定存在組距型資料,平均數會因分組的不同,得到不同的答案平均數的數
4、值不一定存在於真實世界之中只能適用於資料分配呈單峰且偏斜情況不大的情況,15,例 4某國中某位學生在某次考試中,各科的成績與每週上課節數如下表所示:請問直接將各科成績加總起來再除以科目數,求出此學生的平均成績,是否適合?請你試著舉另一種計算方式?,平均數的計算公式必須根據資料型態來決定採用哪種公式較佳,由於求考試成績大部分是為了班級排名,因此每位學生都必須採用同一個公式計算成績,而每位學生的各科成績分配皆不同,故平均成績如何計算沒有所謂的是否適合的問題,因此直接將各科成績加總起來再除以科目數並未不妥,這也是大部分國中老師所採取的計算方式,平均成績,16,3-2 中位數,中位數(median)是
5、用來衡量一組資料的中央位置,17,3.2.1中位數的基本觀念資料筆數為奇數筆,18,資料筆數為偶數筆,19,例 5求下列2小題之中位數:(1)5,20,50,20,11,9,2(2)60,70,40,5,9,20,20,25,(1)先將資料由小到大排序: 2 5 9 11 20 20 50 11位於正中央,故中位數=11(2) 先將資料由小到大排序: 5 9 20 20 25 40 60 7 20與25之間位於正中央 故中位數取20與25的平均數,20,例 6 請打開檔案2-5學生成績,試求這64位學生成績的中位數。,Excel指令說明MEDIAN(範圍)或MEDIAN(數字1,數字2,數字3
6、,):求出範圍內或數字1,數字2,數字3,,的中位數。,21,3.2.2中位數的性質簡單,容易計算與瞭解當x等於 之中位數時 有最小值不會受到資料兩側極端值所影響答案具有唯一性使用的範圍比平均數廣,22,3.2.3中位數的缺點沒有充分使用蒐集到的資料缺乏敏感性類別型態的資料無法求算中位數代數運算性質不佳,23,例 7 還記得在本節中一開始介紹的某公司員工收入嗎?資料表如下:你覺得依照這家公司的員工收入情況,應該如何求出一個數值來代表這家公司的所有員工收入情形?,24,3-3 眾數,測量一筆資料的趨勢,還有一個也經常被使用,那就是眾數,25,3.3.1眾位數的基本觀念一筆資料中出現次數最多的那筆
7、資料,通常用符號Mo來代表眾數下面的資料表,採用眾數對你去打工來評斷你的收入,會比中位數好一些,26,例 8 試求出下列三小題之眾數: (1)1,3,3,3,3,5,5,9,20,100,100(2)1,1,1,1,2,2,8,8,8,8,90,90,91,91,91(3)6,6,8,8,10,10,100,100,120,120,(1)因為資料中3出現的次數最多,故本題眾數=3(2)因為資料中1與8出現的次數最多且相同,故眾數有兩個分別為1與8(3)因為所有的資料出現次數都相同,無法比較那個資料出現最多次,故眾數不存在。,27,例 9 請用Excel計算2.5.1節中64位學生成績的眾數。,
8、Excel指令說明MODE(範圍):求出範圍內的眾數,打開檔案2-5學生成績,28,3.3.2類別型態眾數的計算Excel中所提供的眾數指令只能計算數值型態的眾數,對於文字型態資料求算眾數則必須先完成次數分配表,再由人工的方式觀察眾數,29,3.3.3眾數的優點簡單容易瞭解。不會受極端值所影響。組距型資料具開放組距時,仍然可以求出眾數。眾數適用於所有量尺衡量的資料。,30,3.3.4眾數的缺點沒有充分的使用蒐集到的全體資料不具敏感性代數運算性質不佳不具存在且唯一性組距型資料的眾數求法沒有統一的公式,31,3-4 百分位數,如果資料呈常態分配,靠近中央的資料比較多,然後往兩旁遞減如果想要瞭解更詳
9、細的情況,更精準的預測數量,可以利用百分位數,32,3.4.1百分位數把一組資料平均分割成100等分,99個等分點稱為百分位數 分別表示第1個百分位數,第2個百分位數,,33,百分位數的求法步驟1:排序步驟2:求位置步驟3:找資料如果求出來的位置是小數點,採用無條件進1取整數位,然後再找那個位置的資料如果求出來的位置是整數,把小數點去掉然後再往前取下一筆資料,把這兩筆資料平均。,34,例 10已知12筆資料如下:5 9 11 20 31 35 40 44 49 55 60 90(1)求第70個百分位數。 (2)求第25個百分位數。,35,3.4.2特殊百分位數十分位數把一組資料切成10等分,每
10、一等分所對應的資料值稱為十分位數,符號記作四分位數把一組資料切成4等分,每一等分所對應的資料值稱為四分位數,符號記作,36,例 11 承例題10,求第1、第2以及第3四分位數。,37,3.4.3統計公式的缺陷統計公式是由統計學家為了某個目的而創造出來,但並非每個公式都適用所有的資料型態在進行統計分析時,務必要將公式的適用情況瞭解透徹,不然研究結果會和實際相差甚遠,38,3-5 變異數與標準差,變異數與標準差主要的目的在用來衡量一組資料的集中或分散程度,39,3.5.1變異數的基本觀念,要比較上面兩個圖形的集中分散程度,可以用這些橫桿長度平方的平均值,這些橫桿長度平方和的平均值就是所謂的變異數,
11、40,母體變異數樣本變異數,n 表示樣本數,n1 稱為由度,41,例 12請針對下列10筆資料,分別計算母體變異數與樣本變異數。 6 9 5 7 3 14 6 22 8 20,42,例 13請打開檔案2-5學生成績,使用Excel分別求出母體變異數與樣本變異數。,Excel指令說明STDEVP(範圍)或STDEVP(數字1,數字2,):求出母體標準差STDEV(範圍)或STDEVP(數字1,數字2,):求出樣本標準差:次方,43,例 14 求本章例題2中,64位學生的成績變異數。,根據例題2,已知平均數等於63.094,44,3.5.2變異數的性質變異數越小表示資料越集中,越大表示資料越分散變
12、異數的大小與統計圖視覺上的集中或分散程度無關將每筆資料乘以任意數值a之後再加上任意數b,變異數會變成原來的a 2倍變異數越小平均數就越具代表性,45,例 15 (1)請把例題12的每一筆資料加5之後再計算變異數。(2)請把例題12的每一筆資料乘以 之後再計算變異數。(3)請把例題12的每一筆資料乘以 再加5之後再計算變異數。請把上面三小題的變異數和例題12的答案比較看看,是否有什麼發現?請採用母體變異數公式,46,47,3.5.3變異數的優點簡單,容易瞭解充分的使用蒐集到的資料反應靈敏具良好的代數運算特性,48,3.5.4變異數的缺點容易受極端值所影響只有區間量尺與比率量尺衡量的資料才能夠求算
13、變異數變異數的單位為原資料單位的平方,不容易解釋此單位的意義,49,3.5.5標準差的意義變異數開根號之後所得到的數值稱為標準差母體標準差樣本標準差,50,標準差的性質標準差的性質與變異數大同小異將每筆資料加上任意數b,標準差不會改變大小將每筆資料乘以任意數a,標準差會變成原來的 a倍將每筆資料乘以任意數值a之後再加上任意數b,標準差會變成原來的a 倍,例 16請打開檔案2-5學生成績,使用Excel分別求出母體標準差與樣本標準差。,51,3-6平均數和標準差的共同應用經驗法則,資料服從鐘型分配分配或者單峰對稱分配,那麼我們可以利用經驗法則來進行某特定範圍的估計大約有68%的資料會介於平均數加
14、減1個標準差的範圍內大約有95%的資料會介於平均數加減2個標準差的範圍內大約有99.7%的資料會介於平均數加減3個標準差的範圍內,52,53,54,例 17 在本章一開始,我們提到了前程紡織公司,打算擴展成衣市場到法國,假設法國的成年男子身高分配為單峰對稱分配,大約有3000萬人口。為了調查法國成年男子身高分配情形,前程紡織派遣調查人員,隨機抽取了1000位法國人,測得他們的平均身高為175公分,標準差5公分。前程紡織公司打算設計五種尺寸的成衣,這五種尺寸分別為XS、S、M、L、XL。他們第一批打算先製作10萬件成衣進行市場的試探,請你利用經驗法則,來建議前程紡織公司這五種尺寸的成衣應該各做多
15、少件?,55,3-7其他重要的統計測量數,有些公式在衡量某些情況會出問題體重不完全代表胖瘦程度,收入的金錢數也不完全代表富有程度在本小節中,我們將介紹相對統計測量數,56,3.7.1變異係數變異係數主要用在單位不同或平均數不同的數個群體比較離散或變化量程度的衡量工具,57,例 18 下表為近五年內(2005-2009)黃金、鑽石與石油的平均價格(單位:萬元): 請問上述三種物品,近五年內哪個價格波動較大?如果李大治是一個極度 保守的投資人,你會建議他投資哪一種商品。,58,3.7.2 Z分數Z分數又稱為標準分數Z分數主要用在單位不同或平均數不同時欲比較個別資料或變數離散程度的衡量工具一組資料Z分數的分配圖形和原始資料的分配圖形樣子差不多,或,59,例 19已知李大治99學年度上學期統計學期中考考了80分,全班平均成績70分,標準差5分;而期末考則只考了60分,全班平均成績50分,標準差2分。李大治的父母認為他嚴重退步,你認同他父母的看法嗎?,