信息技术教育评价基础.DOC_文客久久网wenke99.com

资源描述

1、第一章信息技术教育评价基础通过本章的学习，你将能：1区别测量、测验、考试、评价等概念2区分常模参照和标准参照评价3描述效度和信度的意义及其对测验准备的作用4描述主要的评价方式并各举出一个例子5能从任务的真实性、任务的复杂性、所需的评价时间和计分的主观性等方面对主要的评价方式进行比较分析6描述实施有利于促进学生学习的教学评价对教师能力的要求第一节基本概念的界定问题：我们在日常的教学中，在各类教育教学专业期刊中，会不断看到诸如“评价”、“测量 ”、“测验 ”、“考试”等概念，你认为这些概念之间有区别吗？如果你认为有区别，那你认为这些概念分别适合什么场合？一、测量、测验、考试、评价（一）

2、测量早在 1951 年，史迪文森在其实验心理学手册中提出“广义而言，测量是根据法则给事物赋予数量。”111也就是说，用一定规则给事物属性指派数字或符号的过程即测量。这是迄今为止公认的测量定义。根据这一定义，测量通常包含三个要素：1事物及属性：即测量的对象或目标。教育和心理测量往往是通过测量个体的外显行为或外在表现特征，来探知隐含于所外显行为之中的个体潜在特质及其水平，比如说某次表现性评价测量是学生在某个信息问题解决任务上的表现。但测量者真正想测查的是学生的信息素养。因此教育与心理测量中的事物属性是指个体的心理特质，是间接测量的结果。2法则：即测量所依据的规则和方法，法则是测量的关键。法则的选择

3、直接决定测量是否可靠，好的法则可保证得到可靠的测量，差的法规则往往会得到不可靠的甚至是错误的结果。法则的好坏取决于它是否符合被测事物属性和规律，以及是否易于制定和便于操作。由于人类的心理特质抽象易变，其测量规则的制定和应用相对困难得多。3数字或符号：数字是代表某一事物或事物某一属性的量。数字本身只是一种符号，只有当我们赋予它意义时，它才变成量化的数。数具有自然数系统的某些特点，包括：区分性，例如“相等”“不相等”等；等级性，例如，123；等距性，21=3 2；可加性，1+1=2 ，等等。由于数字本身具有这些逻辑运算的特征，所以通过测量所得的数，不仅可以表示事物属性的类别、大小、多少，而且还可以

4、在一定的条件下由数的运算而对事物的属性进行推测。任何领域里的测量都应包含上述三元素，教育评价也是利用测量原理对教育领域内的事物或现象给予数字化的描述，比如学生的学业成就、学习能力水平等。可以说，测验则是教育评价的主要量化工具。（二）测验对测验有多种多样的定义，阿娜斯塔西 2221982 年在其心理测验中所下的定义比较完整，至今仍为大多数教育和心理测验学家所接受，而且适于对中小学教学中使用的测验进行解释：“测验实质上是对行为样本的客观的和标准化的测量。”根据这一定义，测量与测验是包含关系，测验是对测量对象、测验程序、测验的客观性和规范性做了明确界定的测量，也就是说，一个测量要成其为测验，必须包含

5、三个基本界定因素：1行为样本中小学教学中采用测验是希望了解学生对课程规定的学习目标上的掌握情况，但中小学学习目标是多层次，而且涉及的内容十分广泛，测验不可能涵盖学生在某一阶段学习内容和学习目标中所有可能的行为表现，因此测验只能选取一组有代表性的内容和目标，以学生在这些内容和目标上的行为作为行为样本来考查学生在相应行为领域的行为特征。当学生的行为样本很恰当地代表测验所要测的全部内容时，该测验就会提供了有用的预测信息，否则，就说明构成测验的行为样本代表性不强。2标准化标准化是指测验在编制、施测、计分及分数解释方面应依据一套系统规范的程序，保证测验有统一的标准，并使不同学生或学生群体的测验结果具有可

6、比性。同时，可减少无关因素对测验结果的影响，从而使之更为准确、可靠。3客观性测验的标准化是为为了提高测验的客观性，但绝对的标准化在现实教学中难以做到，因此，人们通常采用一下指标来考察测验的客观性：（1）测验项目分析，通常所说的测验题目在教育和心理测量学中被称为“项目”，项目分析即对测验题目的难度和区分度等进行分析，确保测验题目能合理地区分出学习成功和不成功的学生。（2）信度，指测验结果的可靠程度；（3）效度，指测验结果的有效程度。（三）考试在教育测量领域，经常出现“考试”一词，比如中学毕业考试、大学入学考试，等等。考试与测验存在一些差异，主要有：1测验的范围较广，如心理测验、各种随机的小测验

7、等。而考试一般是指比较正式场合下的测验，比如说期末考试、高考、自学考试等。要根据二者分别适用的场合合理使用两个术语，有些场合下两者可以相互替换，如既可说“单元测验”又可说“单元考试”；有些场合下，尤其是对一些公认的特殊称谓，两者不可相互替代，如“高考”不能说“高测”，“心理测验”不能称为“心理考试”等2测验的目标一经确定，测验的内容只会一定的范围那变化，而且，测验经过对某些群体的反复试用、修改后，会逐步形成标准化的测验；而考试目的性很强，大多在某一特殊的时间和地域范围内为了某一特殊的目的而实施，因为下一次考试的目的和范围会发生很大改变，所以难以在原有考试的基础上进行连续性的修改，所以，旨在测量

8、学生对知识、技能掌握程度的考试（如高考）很难实现标准化；当然，以测量学生能力为主的考试也可实现标准化的过程，如 GRE（Graduate Record Examination）。“考试是评价的主要方式之一，考试应与其他评价方式相结合，要根据考试的目的、性质、内容和对象，选择相应的考试方法。要充分利用考试促进每个学生的进步。 ”教育部关于积极推进中小学评价与考试制度改革的通知（教基200226 号） 333（四）评价评价是一个非常宽泛的范畴，包括了各种用来确定学生达到教学预期的学习目标的程度的方法，既包括测验又包括多种表现性评价方法。例如，为了评价一个学生处理多媒体信息的能力，可以使用客观

9、性测验（objective test）测查学生掌握的多媒体工具方面的知识，再让学生在规定的实际操作任务中来搜集、处理多媒体信息并制作多媒体作品，来考察学生实际的多媒体信息处理技能。多媒体只是测验中包含了大量多媒体知识的样本，其数量之大，远远超过了学生在实际操作任务中需要使用的知识技能。知识测验回答的是学生对要操作的技能“知道了多少”，表现性评价回答的则是学生“实际能做得如何”。本书主要关注信息技术教育过程中学生学习成就的评价，就成就评价（achievement assessment），重在通过各种各样的评价方法了解学生在信息技术教学干预下，对预期学习目标的掌握程度。为了便于陈述，在全书中都用“

10、评价”来表示成就评价。同时，尽管我们倡导尽可能多地使用真实性的评价，但由于受学校环境、时间、设备等方面的限制，往往需要将纸笔测验和表现性评价结合使用，才能做到完整地评价学生的信息技术学习成就。所以，本书中所用的评价是同时包含了纸笔测验和表现性评价的成就评价。现在对测验之外的评价方式出现了很多种称谓，表 11 列出了与表现性评价有关的几个术语及其解释。表 11 与表现性评价有关的常用术语表现性评价(Performance Assessment是指要求学生通过实际操作某项任务或一系列任务（如制作一个信息技术作品、利用信息技术开展一项研究等）来表现出他们的理解水平和操作技能水或 Performanc

11、e-based Assessment)平的评价。另类评价（Alternative Assessment）是表现性评价的另外一种称谓，强调这些评价方法提供了有别于传统纸笔测验的其他一些评价方式。真实性的评价（Authentic Assessment）是表现性评价的另外一种称谓，强调在评价时，关注学生将理解和操作技能应用于真实世界中实际问题的重要性二、参照点与单位在利用测量原理进行量化的教育评价时都会用到参照点和单位这两个要素。（一）参照点参照点是计算的起点，参照点不同，测量结果就会因其所代表的意义不同而无法进行比较。理想的参照点是绝对零点。但是在教育和心理测量中，由于所要测量的特质常常很模糊，所

12、以很难找到绝对零点，教育评价中的参照点一般随所参照的标准而变化。教育评价中主要采用两种参照标准对评价结果进行解释：常模参照（normreferenced）和标准参照（criterionreferenced），采用这两种参照标准对评价结果做出解释分别被称为“常模参照解释”（normreferenced interpretation）和 “标准参照解释”（criterionreferenced interpretation）”。一次对学习学习成绩的评价可以提供（1）学生的相对等级或者（2）学生能够或不能够操作某项任务的描述。第一种结果表示的是学生在全部学生中所处的相对位置（例如，“在某个测验中，学

13、生 A 在全班 35 个学生中排第三名”）。这种解释学生绩效的方法称做常模参照解释。第二种结果表示的是对每个学生在具体知识和某些能力上的掌握水平的描述，例如，“她能够分析一段程序的基本结构并描述它的用途”。这种解释评价结果的方法称做标准参照解释（与标准参照解释有关的术语见表 12）。表 12 与标准参照解释有关的术语领域参照解释在一系列有关的、明确界定的任务范围（即领域）内解释评价结果。其含义与标准参照解释类似，这种解释描述性较强，较少使用内容参照解释与领域参照解释基本相同，但这里的内容领域更宽泛，即包括代表内容的任务也包括代表过程的任务。本术语也较少使用，多被标准参照解释代替目标参照解释评

14、价结果是用某一系列试题所代表的具体目标来解释的。它也经常被称为标准参照解释，但主要用于局限于对某一非常具体的目标的解释。在具体教学中，这两种方法各有所长，常模参照评价能告诉我们学生与其他同学比较的结果，标准参照评价则能告诉我们学生对某项技能掌握的情况，而不必考虑其他学生的表现（参见表 13 对两者的比较）。大多数时候，这两种方法被视为统一的而非分离开的，在开展成就测验时往往是将两者的优点结合起来使用。表 13 常模参照和标准参照评价的比较常模参照测验标准参照测验主要用途调查性测验掌握性测验主要侧重点测量学生在成绩上的个体差异描述学生可以完成的任务结果的解释将学生的成绩与其他学生的

15、结果进行比较将学生的表现与一个明确界定的成就范围进行比较内容的覆盖面通常覆盖广泛的成就领域通常限定在某些特定学习任务中测验计划的特点通常使用明细表倾向使用详细具体的范围说明项目选择的程序选择能最大程度将学生区分开的评价项目（例如，能得到一个可靠的等级），简单的评价项目通常会从测验中删去包括所有可用于充分描述学生表现的所有评价项目。无须过分考量评价项目的难度或为了增加分数的范围而删去简单的项目绩效标准通过在某一特定群体中的相对位置来确定学生的绩效水平，例如，20 个人中排第五名通过绝对标准确定学生的绩效水平，例如，学生能说出 90%的技术术语的定义，以此来描述学生的掌握水平（二）单位理想的单

16、位应具备两个条件：一是要有确定的意义，即所有人对同一“单位”所代表的含义的理解相同，例如，所有人对“1 公里”的理解都相同；二是单位要具有相同的价值，即相邻两个单位点间的差别相等，比如一公里和两公里之间以及二公里和三公里之间同样有一公里的差距。但教育测量中得到的数据的单位往往是不等距的或者是等距不等值的。例如：在一次信息技术考试中学生 A 得到了 90 分，学生 B 得到了 80 分，学生 C 得到 70 分，尽管 90 分与80 和 80 分与 70 之间的原始分差相同，但却不等距，也就是说，不能据此判断学生 A 与学生 B 学习成绩的差异和学生 B 说学生 C 学习成绩的差距相同；同样，如

17、果本次考试中，一道难题和一道相对容易的题目满分都是 5 分，这两个5 分是不等值的。因此，分数等值问题是教育评价中非常重要但极易被忽视的问题，本书后面的章节将专门讨论转化原始分数以使其等值、等距的方法。三、教育评价中的量表教育评价中的量表（scale）的原意是“称”，也就是有零点并具有等距刻度，可用于给事物指派数字的测量工具。在教育评价中，量表可被定义为一个有单位和参照点，可根据测量目的和测量规划对被测事物赋值的连续体。根据量表的参照点和单位不同，从低级到高级、从模糊到精确将量表分成四类：（一）命名量表也称类别量表，是值根据某种法则给事物及属性指派名称或类别的量表，是最为简单、最为粗糙的量表，

18、例如，在电子表格或数据库中常用的用数字进行编号，或用数字给不同的群体命名（用 1 代表男生，0 代表女生）等等。命名量表数据或符号，只有区分性，但没有序列性、等距性、可加性等，不能进行代数运算和数量化分析，只适于进行次数统计，如次数、众数、百分比、离散相关等。（二）顺序量表也称等级量表，这种量表不仅将事物及属性分类，而且还在此基础上根据统一标准将之分为若干等级或进行顺序排列。因此，顺序量表比命名量表更为精确些，比如，根据学生的实际表现分别给予“优（5）”“良（4）”“中（3）”“合格（2）”“不合格（1）”等。这种量表所得的数据或符号具备了序列性，但仍没有等距性和可加性，仍不能对之进行加、减、

19、乘、除运算。它所适用的统计有中位数、百分位数、等级相关系数、肯德尔和谐系数以及秩次方差分析等。（三）等距量表也称区间量表，它在给事物及属性指派数字和符号时，要求各数字或等级之间的差距是相同的，即具有相等的单位。本书后面讲到的标准分数即是一种等距量表。这种量表所得数字既具备了区分性和序列性，同时又具备了等距性和可加性。我们可加减或乘除同一个常数于每一个观测值，而并不破坏这些数值的关系，因此在一个等距量表上所得到的测值可以转换到另一个与该组资料计算的参照点和单位不同的等距量表上去。但是，由于这种量表的单位是人定零点，因此不能将其数据直接乘除，以倍数来解释。此种量表能最广泛地应用统计方法，如计算均数、变差、相关系数等统计量以及应用 t 检验、F 检验等。（四）比率量表这是测量的最高水平，也是一种理想的量表。它有相等单位和绝对零点，因此所得结果不仅可以比较差距，而且还可以计算比例，以倍数来解释数据。很多物理测量都属于这一类量表，比如长度、重量、时间等测量。而教育和心理测量由于难以确定绝对零点，因此很难达到这一量表水平。四、评价的效度和信度

展开阅读全文