1、課程六,信賴區間,樣本統計是母體參數的估計值。眾多樣本統計值集合起來成為抽樣分佈。我們關心樣本的抽樣分佈是否圍繞在母體參數。,點估計與區間估計,樣本統計是點估計,是我們的猜測。區間估計則是母體參數有可能落在其中的眾多點估計。點估計應該是無偏(unbiased)、離散程度盡可能小(efficient)。,無偏估計,樣本平均數是母體平均數的無偏估計:EY-bar=E1/n(Y)=1/n(EY)=1/n(n)(EY)=樣本的變異數是母體變異數的無偏估計:ES2=2,中央極限定理(Central Limit Theorem, CLT),當樣本數很大(n=30)時,不論母群體是何種機率分配,樣本平均數的
2、抽樣分配為近似常態分配。,信賴區間1,要正確估計母體參數是不可能的,但是可以假設母體參數應該落在一定的區間,稱為信賴區間(confidence interval)。而產生信賴區間需要信心水準(confidence level),或者是誤差(margin of error)點估計加減誤差便是區間估計。,信賴區間2,假如點估計所在的信賴區間未包含真實參數,可能是該信賴區間太小,也可能是點估計落在離母體參數太遠的地方。因此,我們要控制信賴區間的大小,也就是決定容許多大的誤差(margin of error)。誤差越大,則信賴區間越小。誤差越小,信賴區間越大,越有可能涵蓋真實參數。,信賴區間3,信賴區
3、間=點估計+-誤差(M)誤差=critical value se而critical value(z值)來自於=1-(信賴區間/100)z值對應,/2分屬於z值分佈的兩端。因此,信賴區間估計常表示為:p- z(1-/2)*(se), p+z(1-/2)*(se),信賴區間4,由於眾多點估計成常態分佈,點估計之間的離散程度也可以用標準誤表示。而信賴區間可視為點估計的不確定程度,也就是點估計加上若干標準誤。抽樣樣本越大,相同的樣本變異數下,樣本平均值的標準誤越小,則信賴區間也越小,也就是不確定程度越小。,例,Florida民意調查顯示,1200名受訪者中,有396人贊成限制墮胎,0.33。那麼贊成的
4、真實比例多少?標準誤(s.e.)為(0.33)(1-0.33)/1200=0.01395%的信賴區間為0.33+-1.96*se=(0.30, 0.36)。,樣本規模,若已知z值,而且已知樣本平均值,且設定誤差,那麼可以推導適合的樣本數。當M0.04(4%),z=1.96,=0.5,n=0.25*(1.96/0.04)2=600。至少需要600個樣本。,連續樣本,抽樣分佈(sampling distributions)適用於二元以及連續變數。當母體為連續變數時,我們使用樣本平均值推論母體平均值。Y-bar的標準誤(se)為s/n。,例,抽出400名美國人,身高平均值為70.2吋,標準差為2.8
5、9吋,那麼全體美國人平均身高是否有6呎(72吋)?70.2+-1.96*(2.89/ 400)(69.9, 70.4)因為兩個標準誤的信賴區間不涵蓋72,因此無法確認母體的平均身高有72吋。,例,抽出900個學生接受調查,他們平均一年有27000的零用錢,標準差為4000元,請問全體學生的平均零用錢為多少,在95%的信心水準之下?因為95%的信心水準等於是0.05的誤差,/2對應z值為1.96,因此區間估計為2.7-1.96*0.4/900, 2.7+1.96*0.4 /900=26700,27200,t分配,假設母群體呈常態,而未知,以樣本標準差s取代。樣本愈小,抽樣分佈的兩側尾巴愈長(越平
6、坦)(A&F, p. 119)。如果n=30,t趨近於Z。n-1為自由度。樣本統計來自於隨機變數,而若干事件便可決定樣本統計值,其個數稱自由度。例如:已知平均年齡為25,在抽出四人之後,第四人的年齡在平均年齡為25時自動被決定,因此自由度為3。,t分配的區間估計,假設誤差=,自由度n-1,信賴區間可表示為y-bar-t/2(se), y-bar+t/2(se)。se=s/n例:中國30個港口調查得到平均吞吐量76億噸,假設標準差為12,對於母體平均值的95信賴區間估計為:76-2.045*12/30, 76+2.045*12/30=71.51, 80.48,單尾t值,有時候我們只想找出是否大於
7、或小於某個值,而非兩邊平均的區間。假設誤差=,自由度n-1,右尾機率t(, df=n-1)的信賴區間可表示為(-, y-bar+t(se)。左尾機率t(, df=n-1)的信賴區間則表示為y-bar+t(se), -)。,例,基隆港停靠五艘郵輪,乘客人數分別為275, 285, 270, 284, 275人。如果想推論平均每艘郵輪人數是否高於270人,且誤差為0.05,那麼可查表df=4, =0.05, t=2.132,計算信賴區間為(-, 277+2.132*(6.45/5) (-, 282.22。故平均每艘郵輪人數在95信心水準下會高於270人。,正確解讀信賴區間,當我們抽樣夠多次,則其中約有95% 左右個(100個之中有95個) 信賴區間會包含。至於對任一特別的區間, 會落在此區間的機率,不是1便是0。見A&F, p. 116。,總結,瞭解區間估計的意義瞭解二元變數的平均值標準誤求法瞭解連續變數的平均值標準誤求法瞭解如何推算一定信賴區間的樣本數樣本數較小時可使用自由度為n-1的t分佈,