1、教學演示教材: 信賴區間與信心水準的解讀,一、常態分布,為何成績單只要有個人成績加上平均數、標準差,就足夠估計學生大約的名次?例:A生成績(全班40人),全班成績直方圖,常態曲線函數圖,平均數、標準差決定常態分布曲線函數,A生名次的約估,標準常態分配,標準常態分配累積機率表,上面的標準常態累積機率表,是由標準常態分配機率密度函數(上圖中的 f (x)),計算從-到 zp 曲線下的面積而得,通常記作F(zp),因此上表可以寫成 F(zp) = p。,以右圖為例 F(1.96) 0.975,所以在平均值前後 1.96 個標準差的機率為0.9750.025 = 0.95。,標準常態分配累積機率表,大
2、學聯考的統計資料,已知X54.63 s 13.73,某生國文成績為 24.7 分 這個分數距離平均值 1.96 個標準差:利用常態分配表推知他的百分等級是 2.5%, 但由大考中心資料得知他實際的百分等級是 4%,二、信賴區間,92年7月19日,某報就成年人對公立大學學費是否太貴的議題進行調查,於20日報導:成功訪問了871位成年人。在百分之九十五的信心水準下,有46% 民眾認為學費太貴,抽樣誤差在正負3.3%之內,而該調查是以台灣地區住宅電話為母體作尾數兩位隨機抽樣。這代表信賴區間為(0.46-0.033,0.46+0.033)我們每次做抽樣調查時都可以做出一個區間估計,例如上例的區間為(0
3、.427,0.499) ,而所謂百分之九十五的信心水準,即指每次做出的區間會涵蓋實際比例的機率為95%。但是,這些區間與 95% 如何求出?,信賴區間的實驗,老師為全班每個同學各準備一籤筒,事先不讓學生知道籤筒裡放了幾支籤,內含若干有獎籤,然後做實驗:讓每個同學在籤筒內抽取一支籤,記錄是否為有獎籤後放回,連續抽取20次。(類似於民調中成功訪問了20人)如果抽出7支有獎籤,則推估有獎籤的比例為 ,你有多少信心支持自己的推估正確?,樣本比例的抽樣分布,每個同學的 雖然在變動,但中央極限定理告訴我們, 只要n夠大,這些 可以被常態分布描繪的相當接近,前面提到常態分配中:約有95%的資料會在期望值1.
4、96個標準差的範圍中,所以大約有95%的機會,我們每個人所求出的區間 會包含真正的有獎籤比例 p,信賴區間的計算,將每位同學的中獎比例代入下列公式:,區間公式對照表( n =20 ),信賴區間圖,右圖中,全班 40 個學生每個人都得到一個區間,如果老師事先知道 p = 0.6,那麼從圖中可知有36 個區間包含真實的 p 值。全班 40 個學生包含 p 值區間個數的期望值為 40 0.95 = 38 個,0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1,區間比較圖,n =20 n = 40,n = 20 與 n = 40 的區間估計的差異,因區間半徑等於 , 所以較
5、大的 n 值具有較小的區間半徑,也意味著有較佳區間估計的效果。,信賴區間的解讀,全班依照這樣的區間公式求出的 40 個區間, 由模擬的實驗結果,可以發現並非一定有 95% 的區間會涵蓋實際值 p。全班執行這個實驗,正如 40 個學生每人都在擲一枚出現正面機率為 0.95 的硬幣,我們只知道此實驗出現正面個數的期望值為 40 0.95 = 38 個,並不能保證一定出現 38 個正面。其實出現38個的機率只有每個學生一旦做出區間,就只可能有兩種情形:包含真實 p 值,或不包含真實 p 值。因此一旦做出區間後,並不能說真實 p 值在此區間的機率為 95%,回顧抽樣調查的例子,92年7月19日,某報就
6、成年人對公立大學學費是否太貴的議題進行調查,於20日報導:成功訪問了871位成年人。在百分之九十五的信心水準下,有46% 民眾認為學費太貴,抽樣誤差在正負3.3%之內,而該調查是以台灣地區住宅電話為母體作尾數兩位隨機抽樣。這是否代表認為公立大學學費太貴的民眾比例在(0.427,0.493)這個區間範圍內?所謂百分之九十五的信心水準下,你可以說明出其涵義嗎?,例題1,A工廠生產的A飲料經隨機抽樣,得平均容量為330.04cc,在95% 的信心水準下,抽樣誤差為1.54cc;而B工廠生產的B飲料經隨機抽樣,得平均容量為329.56cc,在95% 的信心水準下,抽樣誤差為1.24cc,今隨機抽出一罐
7、A飲料測量後告訴大家,再隨機抽出一罐B飲料,試問下列何者正確?(1)B飲料的容量必在328.32,330.80(2)A飲料的容量有95%的機率在328.50,331.58中(3)A飲料的容量大於B飲料的容量(4)假若兩種飲料罐子皆標示容量330cc,則這兩 種飲料都不能說其標示不實Ans:(4)說明:A的信賴區間328.50,331.58,B的信賴區間328.32,330.80,相關知識探討,中央極限定理區間半徑的由來信心水準的改變民意調查樣本數1068的由來,中央極限定理,n=20與n=40之抽樣分布圖形,人數,抽中有獎籤比例,抽中有獎籤比例,n=20,n=40,人數,抽中有獎籤比例,抽中有
8、獎籤比例,例題2,假設上頁兩個圖為某校300 人一起做實驗,每個人均從已知籤筒(內有 5 支籤,其中 3 支是有獎籤)抽籤 n 次,每次取出一支籤,取出後須放回。第一圖是 n = 20 時,每人抽中有獎籤比率與人數的分佈圖,第二圖則是 n =40 的分佈圖。試以此兩圖選出下列正確的敘述:,(1)在 n = 20 的實驗裡,一學生抽中有獎籤比率正好是 0.6 的機率 為 (2)在 n = 20 的實驗裡,95%的信心水準下,將每位同學的有獎 籤比例 代入區間半徑公式 ,則 的同學 其區間半徑最長(3)在95%的信心水準下,因為信賴區間半徑公式為 ,所以n=20比n=40的區間半徑長,所以n=20
9、時,其信賴區間 有較大的機會涵蓋真正的有獎比例0.6(4)如果我們再做一次實驗,將n改為100,人數同樣為300人, 則抽中有獎籤比例在0.55,0.65範圍內的人數必超過200人Ans:(1)(2)(4)說明(2)利用二次式求最大值或算幾不等式不難求出答案 (3)在n變大時,其求得的 會更易靠近真正值,所以半徑 雖變短,但95% 還是95% (4) n變的越大,其圖形越集中於0.6,用機率為 0.6 的二項分佈說明中央極限定理,執行抽到有獎籤機率為 0.6 的實驗 20 次,設抽到有獎籤 k 次,則此機率為 而此實驗中籤機率的期望值為 0.6 ,變異數為 引進函數 ,而將此兩機率函數畫圖於下
10、:,介於期望值 0.6 前後 1.96 個標準差是指中籤比例在 之間,因二項分配是一離散型的隨機變數,所以更正確的說法是中籤比例在0.40.8 之間,且發生此事件機率為 經計算此值約為 0.963,與常態分配的 0.950 僅差距0.013,介於期望值 0.6 前後 1.96 個標準差是指中籤比例在 之間,因二項分配是一離散型的隨機變數,所以更正確的說法是中籤比例在0.40.8 之間,且發生此事件機率為 經計算此值約為 0.963,與常態分配的 0.950 僅差距0.013,上述討論若用常態分配去近似二項分配,96.3% 將近似成 95%,而每次實驗所得 可作出區間而真實 p 值落在此區間的機
11、率約為 0.963(用常態分配近似時,會宣稱此機率約為 0.95),此區間我們稱為信賴區間,此機率我們稱為信心水準。,區間半徑的由來,區間半徑其實就是1.96個標準差求二項分配的標準差,二項分配的期望值與標準差,首先介紹隨機變數 X : 定義 X 的期望值 變異數 舉例:若 X 是一中獎機率為 p 的二項分配: 可得 E(X) = p1+(1-p)0 = p, Var(X) = p(1-p)2+(1-p)(0-p)2 = p(1-p)。,介紹兩個小引理:,引理一:若 X、Y 是獨立的隨機變數且 a、b 為常數,則 E(X+Y) = E(X) + E(Y)且 E(aX+b) = a E(X) +
12、 b,引理二:若 X、Y 是獨立的隨機變數且 a、b 為常數,則 Var (X+Y) = Var (X) + Var (Y)且 Var (aX+b) = a 2 Var (X),計算 n 次二項分配平均的期望值與標準差,真實的信心水準,實驗 n 值為 20 ,如果區間取 則實際的信心水準是 96.3% 。但是本次實驗中,區間為 則實際的信心水準是 92.8% 。,信賴區間由95%改成90%,標準常態分配累積機率表,例題3,A工廠生產的飲料經隨機抽樣,得平均容量為330.04cc,在95% 的信心水準下,抽樣誤差為1.54cc,試求在90%的信心水準下,其抽樣誤差為何?,民意調查的樣本數n = 1068是如何得到?,民意調查的意義,謝謝大家的聆聽!,