1、科學教學的形成性評量,任宗浩 副研究員國立台灣師範大學科學教育中心,什麼是教學評量?,傳統上根據透過有系統的方法所蒐集的教、學相關資訊,利用科學的方法對學生的學習或老師的教學進行推論。蒐集甚麼資訊?如何蒐集?何時進行蒐集?頻率為何?如何分析與解讀所獲得的資訊?另類評量概念動態評量(Dynamic Assessment)檔案評量(Portfolio Assessment)真實評量(Authentic Assessment)實作評量(Performance Assessment),蒐集甚麼資訊?,診斷性、形成性與總結性評鑑的異同,診斷性、形成性與總結性評鑑的異同,診斷性、形成性與總結性評鑑的異同,
2、診斷性、形成性與總結性評鑑的異同,診斷性、形成性與總結性評鑑的異同,評量設計,Step 1: 決定重要觀念(Big Ideas)Step 2: 設定(教學)學習目標並針對目標進行拆解(工作分析)Step 3: 透過不同層級的評量實務(Practices)定義出預期的學習表現(Learning Performance)Step 4: 設計適當的測驗機制(試題、計畫、作業等),什麼是重要觀念(Big Ideas) ?,對一個學科或跨學科(甚至於跨學習階層)而言,具有相當的重要性對於世界的有效思考方式學習者可以透過其適當發展的認知能力以及對於現象或表徵的經驗來理解為了未來的學習建立基礎最終能有助於學
3、生根據科學和科技進行個人、社會或是政治的決定可以包含內容和科學實務,以科學探究活動中的證據和推理為例:是否對單一學科或跨學科都很重要?科學家思考事物的有效方式?是否是未來學習的基礎?科學探究活動中的證據和推理,Step 1: 決定重要觀念,科學假設如果能夠引發豐富的科學研究,即使最後發現這些假設是錯的,它們對於科學的發展仍是扮演非常重要的角色,能夠分辨科學論述中的推理所混淆的事實陳述和個人觀點陳述,並對其提出批判。,Step 2: 設定教學目標並對目標進行拆解,明訂學習標準(Standards)考慮學生的先備知識以及可能的各種可能的另類(迷思)觀點對標準進行詮釋將標準拆解成數個相關的(更小的)
4、觀念釐清重點是否還需要更多的觀念與其他的學習標準聯結(參考Atlas Maps),如何分析與解讀所獲得的資訊?,先確定所蒐集的資訊是有效的和可信的 效度 (Validity) & 信度 (Reliability) (活動二)依據評量的目的選擇適當的分析方法 形成性評量 & 總結性評量,設計一個測驗工具的目的,想要發現些甚麼?想發現的資訊是有關於試題還是有關於人?一般而言,測量(measurement)的目的是想要探討人的潛在能力 (latent traits)。透過設計良好的工具(試題)可以幫助我們達到此一目的。,測量的品質,受測者知道些甚麼、能做甚麼樣的事情=我們需要確認幾件事我們的測量是精
5、確的 (reliability);我們真的有測到想測的東西(validity);即使利用不同的測量工具還是可以獲得同樣的結果(invariance),理想測量的性質,測量的分數是有意義的,Ann,Bill,Cath,這些學生能做些甚麼?即使利用不同的試題所測量出來的分數是相同的,原始分數的意義,原始分數是否具有理想測量的特性很難解釋分數間差異的意義很難將試題的難度與人的分數關聯起來,原始分數的意義- 2,0,100%,簡單測驗的分數,較難測驗的分數,100%,A,A,A,B,B,B,C,C,C,D,原始分數和試題的聯結,25%,50%,70%,90%,?,客觀的分數,?,?,?,90%,70%
6、,50%,25%,個位數的加法,測試作業的難度,多步驟的整數運算,應用問題,分數的運算,試題反應理論(Item Response Theory, IRT),希望能透過IRT幫助我們建構出一個理想的測量如果受測學生們的答案符合Rasch model的預期,該測量最具有解釋力(構念效度)人的能力和試題的難度是透過同一量尺比較可建構出分數的意義學生的分數與測驗工具無關,IRT,IRT 模型提供每個受試者答對個別題目的IRT 並非決定論,而是機率論只要給訂試題的難度和答題者的能力,就可以計算該受試者成功回答此一試題的機率,建立模型試題反應曲線,答對的機率,低能力,高能力,1.0,0.0,0.5,單參數
7、模型(或稱為Rasch Model),試題難度- 1,不同難度的試題反應曲線,1,2,3,不同難度的試題反應曲,|V,Difficult,Easy,學生能力的估計,學生能力的估計,學生能力的估計,學生能力的估計,學生能力的估計,學生能力的估計,學生與試題的比較,個位數的加法,測試作業的難度,多步驟的整數運算,應用問題,分數的運算,對一個學生的能力定位,1,2,3,4,5,簡單的除法,學生能力| 試題難度,| 49,| 208,3.0 |,|,|,| 110,X |,|,X | 278,XX | 45 106 108 306 342,XXX | 158 230,308,X |,XXXXX | 2
8、5 349,XXX | 69,|,2.0 XXXXXX | 148 256,XXXXXX |,52 124 167,XXX | 2 6 40 71 115,XXXXXXXXXX | 1 73 168,XXXX | 41 47 235 247,XXXXXXXX | 105,165 255,XXXXXX | 99 112 113 169,XXXXXXX | 48 54 81 260 269 312 332,XXX | 107,XX | 5 22,288 330,XXX | 282 284,XXXXXXX | 18 166 177 183,1.0 XX | 12 16 63 83 119 185 2
9、20 226 289 317,XXX | 31 140 233 234 263 285,X | 35 43 302 316,X | 10 87 137 159 200 299,XX | 15 27 122,205 258 305 348,X | 111 216 261 272 324,| 42 59 61 79 117 162 198 202 203 323 343,X | 80,134 217 259,| 20 46 89 96 125 155 176 184 231 238 291,X | 11 60 92 94 100 133 139 144 147 150 175 182 1,97,|
10、 28 33 180 201 257 300 304 318 322 325,| 57 84 141 151 161 206 243 273 313 321 328 340,0.0,| 30 38 76 145 242 295 297,| 3 39 66 67 74 101 123 244 265 311,| 17 103 228 240 267 310 346,| 44 128 199 215 227 248,對於學生能力敘述的不變性,利用相對於試題的難度來描述學生的能力如果所有的試題符合 Rasch model,表示所有的試題測到的相同的一種構念(能力當所有的試題反應曲線符合Rasch m
11、odel時,受試者間的相對位置不會因為所受測的試題不同而有所改變(在誤差範圍內),考慮下面這種情形,IRT 相關的統計檢定,模型吻合指標(fit indices)告訴我們這些試題是否是測同一種能力利用試題特徵曲線(item characteristic curves,ICC) 圖可大致看出數據與模型的吻合程度,比較下列兩個試題的ICCs,比較符合模型,較不符合模型預測,形成性評量的實例說明,以每一章或12週的授課內容測驗一次分析所有的教材建立明細表決定哪些要測驗所有重要的部分均得測驗通常以80%到85%通過率為精熟由測驗結果指出學生的學習困難及原因(可能需要透過診斷性評量提供資訊)提供補救教學之意見,形成性評量範例雙向細目表Modern Biology (Otto & Towle, 1965),範例:形成性評量結構圖(化學單元),範例:形成性評量結構圖(化學單元),形成性評量可能的報表呈現結果,活動進行與討論,