1、2018/9/29,Jen-pei Liu, PhD,1,二、敘述統計學(DESCRIPTIVE STATISTICS)(Chapter 3),劉仁沛教授國立台灣大學農藝學研究所生物統計組國立台灣大學流行病學與預防醫學研究所國家衛生研究院生物統計與生統資訊組jpliuntu.edu.tw,【本著作除另有註明,網站之內容皆採用創用CC 姓名標示-非商業使用-相同方式分享 3.0 台灣授權條款釋出】,2018/9/29,Jen-pei Liu, PhD,2,大綱資料整理中心位置測定值分散度測定值,2018/9/29,Jen-pei Liu, PhD,3,資料整理:圖表表示法,直方圖(Histogr
2、am)和多邊圖(Polygon)莖葉圖(Stem-and-leaf Plot)圓形圖(Pie Chart)散播圖或散佈圖(Scatter Plot)盒形圖(Box-Plot),2018/9/29,Jen-pei Liu, PhD,4,直方圖-資料,2018/9/29,Jen-pei Liu, PhD,5,步驟,決定組數(# of classes) Sturgesmethod計算組距(Class Interval) 組距 = (最大觀測值 - 最小觀測值) / 組數決定每一組的上與下的組限(Lower and Upper Class Limits)與組界(Class Boundaries)計算組
3、值 (Class Values) = 上下組界之平均,2018/9/29,Jen-pei Liu, PhD,6,步驟,計算觀測落在每組上與下組界內之次數(Frequency)計算每組的累計次數(Cumulative frequency)計算每組的相對次數(Relative frequency, or proportion)或累計相對次數(Cumulative relative frequency, or Cumulative proportion)將組值為橫軸計次數為縱軸,組距為各組之寬度繪製成直方圖,2018/9/29,Jen-pei Liu, PhD,7,Example 四環素膠囊測定重量
4、,組數 K = 1+3.322 1050 = 1+(3.322)(1.7) = 6.65 =7組距 = (256 - 244) / 7 = 1.714 = 2組限最小值為244,但組距為2故第一組之上下組限為(244, 245)因本組包含244、245兩個值,故組距為2 第二組組限為(246, 247),組限單位與資料相同,2018/9/29,Jen-pei Liu, PhD,8,Example續1,第一組下組界為最小值減0.5 243.5第一組上組界為243.5 + 2 = 245.5第二組下上組界為(245.5, 247.5)組界單位通常比資料多一位小數第一組上組界與第二組下組界 245.
5、5 = (245+246)/2= (第一組上組限+第二組下組限) / 2第一組組值= (244+245) / 2 =(243.5+245.5) / 2 = 244.5,2018/9/29,Jen-pei Liu, PhD,9,Example 續2,第一組中共包含244、244、245三個數值次數為3,相對次數為3/50 = 6第二組包含246、246、247、247、247五個數值次數為5,累計次數為8,相對累計次數為8/50 = 16檢查次數和是否為50,相對次數和為100製直方圖以直方圖之長方形頂點(組值位置) 各組以一直線連接成多邊圖(Polygon),2018/9/29,Jen-pei
6、 Liu, PhD,10,表3.2b 50粒四環素次數分布表(分組),2018/9/29,Jen-pei Liu, PhD,11,圖3.4 50粒四環素膠囊重量分布直方圖,2018/9/29,Jen-pei Liu, PhD,12,2018/9/29,Jen-pei Liu, PhD,13,莖葉圖製作步驟,決定莖的單位,莖的個數在5與20之間將最小的莖至於頂點,將最大的莖至於底部對每一個莖以行的方式加入葉,葉應為個位數字(Single digit)將每一個莖的葉自小(左)至大(右)排列計算每一個莖的葉之次數,2018/9/29,Jen-pei Liu, PhD,14,例子 12歲男童之收縮壓紀
7、錄表,2018/9/29,Jen-pei Liu, PhD,15,例子,以每個收縮壓的前兩位數字為莖8、9、10、11、12、13 莖 8 9 10 11 12 13,2018/9/29,Jen-pei Liu, PhD,16,例子,最小的莖為8,其相對的個位數字為葉8、0、4將葉次小(左)至大(右)排列048其次數為3,2018/9/29,Jen-pei Liu, PhD,17,圖3.3 12歲男學童血壓莖葉圖,2018/9/29,Jen-pei Liu, PhD,18,長條圖(Bar Chart),由表3.2a若四環素膠囊重量分成下列3組,其次數如,2018/9/29,Jen-pei Li
8、u, PhD,19,圖3.1 長條圖,2018/9/29,Jen-pei Liu, PhD,20,長條圖 VS 直方圖,2018/9/29,Jen-pei Liu, PhD,20,長條圖:適用類別變的資、相鄰組別的矩 形間有間隔。直方圖:適用連續變的資、相鄰組別的矩 形間無間隔。,2018/9/29,Jen-pei Liu, PhD,21,圓形圖(Pie Chart),圓形圖大都用於比例(相對次數)資料之表示法,以360度之圓形分成100等分成100等分,各組資料所佔之比例表示如下:,圖3.2 圓形圖,2018/9/29,Jen-pei Liu, PhD,22,散播圖(散佈圖, Scatter
9、 Plot),將兩種不同資料共同呈現其散佈情形:相關(Correlation)與迴歸(Regression)資料:,2018/9/29,Jen-pei Liu, PhD,23,圖3.7 8位健康成人膽固醇與舒張壓散播圖,2018/9/29,Jen-pei Liu, PhD,24,中心位置測定值,變數(Variable)會變動的量測值如本班同學的身高、體重及性別(會因不同同學而不同)個別同學身高體重在不同時間亦不同擲硬幣每次結果亦不同變數通常以大寫字母表示,如X代表體重被觀測到之變數通常以小寫表示之,如x90.5kg,2018/9/29,Jen-pei Liu, PhD,25,2018/9/29
10、,Jen-pei Liu, PhD,2018/9/29,Jen-pei Liu, PhD,26,中心位置測定值,隨機變數(Random Variable)變數之觀測值的出現是以機率決定例子:擲硬幣一次,兩種結果正面(H)與反面(T) 令x=1若為反面;x=2若為正面 若硬幣為一未作假的硬幣,正、反面出現的機 率相同均為1/2 x=1的機率為1/2 x=2的機率為1/2但在擲硬幣前,不知兩結果為何(雖然一定為1或2),2018/9/29,Jen-pei Liu, PhD,27,趨中性(Central Tendency)與分散度(Dispersion),族群中觀測值集中的情形稱為趨中性50粒四環素
11、膠囊:54集中在248-251mg12歲男學童之收縮壓:40集中在90-110mmHg台大大學部三年級男性學生的體重: 50%集中在 50-70 kg,2018/9/29,Jen-pei Liu, PhD,28,趨中性(Central Tendency)與分散度(Dispersion),常用族群描述趨中性的的數量為算術平均數(Arithmetic mean)、中量(中位數Median)、眾數(Mode)若族群中元素代表某一特性的變數以X1,X2, ,XN代表(N為族群的大小)族群算術平均值定義為為希臘字母代表族群算術平均;為希臘字母代表和,上下標表示和為1加至N,2018/9/29,Jen-p
12、ei Liu, PhD,29,趨中性(Central Tendency)與分散度(Dispersion),中量:觀測值中間的數值 50觀測值大於中量 50觀測值小於中量眾量:出現次數最多的觀測值,2018/9/29,Jen-pei Liu, PhD,30,趨中性(Central Tendency)與分散度(Dispersion),分散度:觀測值分散或變動的程度50粒250mg四環素膠囊實際測定重量變動範圍自 244mg至256mg12歲男學童收縮壓自80mmHg至133mmHg台北市25歲以上工作人口的年薪自5000元至50億,2018/9/29,Jen-pei Liu, PhD,31,族群描
13、述分散度常使用的數量,最大值(Maximum) 最小值(Minimum)全距(範圍,Range)= 最大值 - 最小值變方(變異數,Variance)變方為每一個觀測值與族群平均之距離平方的平均,2018/9/29,Jen-pei Liu, PhD,32,族 群X1,X2,.,XN、2,樣 品x1,x2 ,.,xn 、s2,抽樣(Sampling),估算(Estimating),N:族群觀測值個數n:樣品觀測值個數,2018/9/29,Jen-pei Liu, PhD,33,族群描述分散度常使用的數量,通常吾人無法得到整個族群的觀測值(成本、時間、)所以無法計算族群平均()與變方(2)等族群的
14、母數吾人假設 與2為未知的常數必須自族群抽樣得到一個樣品,以樣品觀測值計算相對數量,估算族群母數樣品所計算的數量,稱為統計值(Statistics)每抽一個樣品所得到樣品觀測值不同統計值亦不同,2018/9/29,Jen-pei Liu, PhD,34,樣品平均值,樣品觀測值:X1,X2, ,Xn樣品平均值平均值之單位原觀測值之單位,2018/9/29,Jen-pei Liu, PhD,35,表3.4 台北市某醫院一星期內初生嬰兒體重表(克),2018/9/29,Jen-pei Liu, PhD,36,樣品平均數之性質,原觀測值均加(減)一常數,新觀測值的平均數為原資料平均值加(減)此一常數,
15、2018/9/29,Jen-pei Liu, PhD,37,樣品平均數之性質,原觀測值乘以一常數,新觀測值之算數平均值為原觀測值算數平均值乘的C倍,2018/9/29,Jen-pei Liu, PhD,38,樣品平均數之性質,觀測值與其算術平均值之偏差(Deviation)的和為0,2018/9/29,Jen-pei Liu, PhD,39,樣品平均數之性質,因偏差和為0,所以當我們知道前三個觀測值之偏差為0、-3、5時,因偏差和為0,所以第四個觀測值偏差為-2,所以可自由活動的偏差為3 = 4 - 1。此可自由活動偏差的個數稱為自由度(Degrees of freedom)一般為樣品觀測值個
16、數減1 (n-1),2018/9/29,Jen-pei Liu, PhD,40,中量(中位數),步驟將觀測值自小排到大 (排序觀測值)若n為奇數,中量為(n+1)/2個排序觀測值若n為偶數,中量為n/2個與(n/2)+1個排序觀測值的算術平均數,2018/9/29,Jen-pei Liu, PhD,41,例子:白血球測定數目(103) 8,30,6,9,8,3,12,15,18 大小排列:3,6,8,8,9,12,15,18,30 (排序觀測值)n=9奇數 若僅取前面8個觀測值 n=8偶數,2018/9/29,Jen-pei Liu, PhD,42,中位數不受極端值影響,即使資料中有一個極端值
17、,中位數也不會因此而有很大的改變。,2018/9/29,Jen-pei Liu, PhD,42,2018/9/29,Jen-pei Liu, PhD,43,眾量(Mode),發生次數最多的觀測值例子:四環素重量其眾量為250mg(發生9次)12歲男學童收縮壓之眾量為100mmHg(發生四次),2018/9/29,Jen-pei Liu, PhD,44,(a)常態分布,(b)右偏分布(薪資),(c)左偏分布(分數),圖3.8 常態分布與偏斜分布,2018/9/29,Jen-pei Liu, PhD,45,幾何平均(Geometric mean),若觀測值均為正數且其分佈為右偏算術平均數未能代表均
18、中性故先取對數轉換(Logarithmic Transformation)轉換後之觀測值分佈數為對稱計算其算術平均數再取反對數轉換得幾何平均數原始觀測值的中量,2018/9/29,Jen-pei Liu, PhD,46,設x1,x2, ,xn為一樣品資料,各樣品點取對數之平均值設為 如下:則幾何平均值 如下或以下式開n次方也是,得為,2018/9/29,Jen-pei Liu, PhD,47,下列資料是10位病人服藥後藥量吸收達到最大之時間(小時:Tmax) ,試求其算術平均值,中量及幾何平均值,幾何平均值 之求法如下令,2018/9/29,Jen-pei Liu, PhD,48,調和平均值(
19、Harmonic mean),各觀測值之倒數平均值,其計算式如下,2018/9/29,Jen-pei Liu, PhD,49,例子: 例如某人到三家雜貨店買雞蛋,每家每個蛋之價錢分別為3.5,4,5元,求一顆蛋平均多少錢?由調和平均值得,此結果與算數平均值( 元)略有出入。,2018/9/29,Jen-pei Liu, PhD,50,分散度(Dispersion),分散度測定值,人工測定法(mg% / ml),機器自動測定法(mg% / ml),圖 同一組資料人工測定與機器自動化測定尿酸紀錄圖,2018/9/29,Jen-pei Liu, PhD,51,最大值、最小值與全距,人工測定法機器自動
20、測定法,2018/9/29,Jen-pei Liu, PhD,52,樣品變方-均方 與標準偏差,樣品變方(Sample Variance) 均方(Mean Square)樣品標準偏差(Sample Standard Deviation), SD,2018/9/29,Jen-pei Liu, PhD,53,樣品變方-均方 與標準偏差,均方之單位為觀察值單位的平方SD之單位為觀察值單位 計算公式中分子:為偏差的平方和分母:為自由度因 由偏差計算所得,故可以自由變動的偏差個數為 n-1,所以 為偏差平方和之平均,故又稱為均方,2018/9/29,Jen-pei Liu, PhD,54,簡化均方計算公
21、式,2018/9/29,Jen-pei Liu, PhD,55,Example,人工測定法尿酸值,2018/9/29,Jen-pei Liu, PhD,56,Example,儀器自動測定法尿酸值,2018/9/29,Jen-pei Liu, PhD,57,簡算公式,人工測定法儀器自動測定,2018/9/29,Jen-pei Liu, PhD,58,均方與標準偏差之性質,原觀測值加(減)一常數新觀測值之均方與標準偏差不變,人工測定法尿酸值減4,2018/9/29,Jen-pei Liu, PhD,59,人工測定法尿酸值 乘上c=2,2018/9/29,Jen-pei Liu, PhD,60,均方
22、與標準偏差之性質,原觀測值乘一常數新觀測值之均方為觀測值均方乘上常數的平方,新觀測值之標準偏差為原觀測之標準偏差乘以常數。,2018/9/29,Jen-pei Liu, PhD,61,變異係數(Coefficient of Variation, CV),平均值較大的樣品,其變方亦較大,不能直接以較兩個不同單位或不同平均值的樣品變方。此時可用變異係數CV是不帶單位的純數(Scalar),2018/9/29,Jen-pei Liu, PhD,62,例子:,人工測定法尿酸值:儀器自動測定法尿酸值:,2018/9/29,Jen-pei Liu, PhD,63,例子:10位成人的體重與身高,2018/9
23、/29,Jen-pei Liu, PhD,64,百分位數(Percentile),第 p百分位數:對一組 n個觀測值而言, 第 p百分位數為一統計量,n個觀測值中有 p%小於第 p百分位數(100-p)%大於第 p百分位數例子:國中基測的PR值小孩身高體重的百分位,2018/9/29,Jen-pei Liu, PhD,65,計算步驟,將n個觀測值自最小到最大排序 (順序統計量Order Statistics)計算若為整數,第p百分位數為第及第 排序的觀察值之平均若不為整數,取下一個大於的整數, 令其為,第p百分位數為第排序的觀測值,2018/9/29,Jen-pei Liu, PhD,66,百
24、分位數(Percentile),Q1:第25百分位數(第一四分數)Q2:第50百分位數=中量(Median)(第二四分數)Q3:第75百分位數(第三四分數)四分位差(Inter-quartile Range,IQR)= Q3 Q1,2018/9/29,Jen-pei Liu, PhD,67,生活中的IQR:學測級分,學測級分五項標準之計算:頂標:成績位於第88百分位數之考生級分。前標:成績位於第75百分位數之考生級分。 均標:成績位於第50百分位數之考生級分。 後標:成績位於第25百分位數之考生級分。 底標:成績位於第12百分位數之考生級分。,2018/9/29,Jen-pei Liu, Ph
25、D,67,2018/9/29,Jen-pei Liu, PhD,68,例子:20位顧客的滿意度,Data:1, 3, 5, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10n=20Q1:p=0.25, 第5及第6排序觀測值之平均:Q2:p=0.50, 第10及第11排序觀測值之平均:Q3:p=0.75, 第15及第16排序觀測值之平均:IQR:9-7.5=1.5,2018/9/29,Jen-pei Liu, PhD,69,盒形圖(Box-Plot),步驟1. 畫一個盒子:自Q至Q12. 決定內籬(Inner Fence)與外籬(Oute
26、r Fence)內籬:Q1-1.5(IQR) Q3+1.5(IQR)外籬:Q1-3(IQR) Q3+3(IQR)3. 畫出肖線(Whiskers)下:用虛線將Q1與內籬中最小值連接上:用虛線將Q與內籬中最大值連接4. 落在內外籬間之觀測值稱為中度偏離值(Mild Outliers),落在外籬外之觀測值稱為極度偏離值(Extreme Outliers),2018/9/29,Jen-pei Liu, PhD,70,經驗法則:若觀測值分佈為對稱,大約68.27%的觀測值會落在95.45%的觀測值會落在99.73%的觀測值會落在,2018/9/29,Jen-pei Liu, PhD,71,例子: 某一
27、品牌49輛汽車每加侖行使的英里數,2018/9/29,Jen-pei Liu, PhD,72,大約68.26%的車輛每加侖里程數在大約95.44%的車輛每加侖里程數在大約99.73%的車輛每加侖里程數在,2018/9/29,Jen-pei Liu, PhD,73,總 結(Summary),資料整理直方圖、多邊圖、莖葉圖、盒形圖、長條圖、圓形圖、散播圖中心位置測定值算術平均值、中量、幾何平均值、調和平均值分散度測定值最小值、最大值、全距、樣品變方、標準偏差、百分位數,2018/9/29,Jen-pei Liu, PhD,74,習 題,P.71:1將P.71的第2題資料為樣品資料,求算術平均數、均方、標準偏差、變異係數P.72: 5, 6, 7, 8用P.71第2題之資料作莖葉圖及盒形圖P.72:11,12 可用SAS或Excel計算或製圖。必須根據電腦outputs回答習題,不能只交電腦outputs。,版權聲明,版權聲明,