1、1国际基础教育质量监测述评张林静 2012/05/26(河北省教科所 河北 石家庄 050061)摘要:基础教育决定着一个国家未来的全民素质,是影响国家持续发展和提高国家竞争力的核心要素。各国政府及国际组织高度关注教育公平和质量,从战略高度出发关注基础教育质量,并将建立完备的基础教育质量监测体系作为提高这一质量的重要举措。本文通过比较国际组织及世界各国在基础教育质量监测方面的经验,归纳出监测工作的基本特点,对我国基础教育质量监测工作提出建议。关键词:国际;基础教育;质量监测;特点;启示随着知识经济的兴起,经济全球发展的挑战,以及国际竞争的加剧,世界各国都面临着一个必然的选择:提高全民素质,培养
2、创新型人才,增强综合国力,提高国际竞争力。基础教育决定着一个国家未来的全民素质,是影响国家是否持续发展和具有国家竞争力的核心因素。当前各国政府及国际组织普遍关注:如何在保障教育机会公平的基础上提高教育质量,培养青少年学生具备良好的知识素养和能力水平,以迎接未来社会的挑战。世界各国从国家战略发展的角度出发,高度关注基础教育质量,并将建立完备的基础教育质量监测体系作为提高这一质量的重要举措。基础教育质量监测,是指监控组织通过对本国关键年龄段学生2学习的若干主要课程在一定时间间隔内进行抽样测试,及时发现可能存在的质量问题,以便教育决策部门调节教育政策,控制教育行为,从而稳定与提高国家教育质量。 1一
3、、国际基础教育质量监测项目国际基础教育质量监测多以国际学生比较项目的形式展开,主要有 PISA 、TIMSS 和 PIRLS,虽然其组织形式与监测内容均有不同,但都极大地促进了参与国或地区教育质量的改善和提高。1、PISA 项目简介国际学生评价项目,简称 PISA,它是经济合作与发展组织(简称 OECD)对成员国基础教育质量进行比较的国际性教育项目。PISA测试 15 岁学生阅读、数学、科学领域的关键能力,包括试卷和问卷两部分。问卷有三种,包括学生问卷、学校问卷、家长问卷。PISA评价的目的不在于了解学生掌握了多少学科知识,而在于他们否掌握了与他们将来生活相关的基础知识和技能 2。PISA 从
4、 2000 年开始,每 3 年一次,每次重点测评一个领域并兼测其他,九年一循环。各国的样本范围在 4500 至 10000 名学生之间。PISA 评价核心是素养,在测试框架中首先提出“素养”的概念,即“学生应用所学知识和技能,分析、推理和进行有效沟通,解决和解释各种不同情境中问题的能力” 3,这个概念指导了 PISA 测评内容的制定。PISA测评确定了三个领域:阅读素养、科学素养、数学素养,并对这三个测试领域的内涵做了明确的界定。PISA 在各测试领域确定了三个测试维度,即内容/结构(知识)维度、过程(认知技能)维度、条3件/情境(知识与技能的运用)维度 4,还进一步明确了三个维度的划分比例。
5、作为一个相对年轻的国际评价项目,PISA 是建立在“终身学习”的动态模型基础之上的,其主要特点有:、良好的政策导向:向各国提供详尽的分析报告,成绩用数字图表来表示,可以对各国的教育质量的现状进行直接比较。多国根据 PISA 的报告,反思本国教育不足,实施改进措施。、充分体现了终身学习的理念:更注重学生学习和生活习惯的培养,使学生了解自己的思维过程、学习策略和方法。独创“素养”概念。、长期趋势研究:通过持续的参与,可以让各国清楚地了解国内教育效果的动态变化。、科学的背景信息收集:可以对学生的成绩分类比较,并对成绩差异作出原因解释。、设计科学严谨的评价方法:从确定测评对象年龄到监测内容、从测评程序
6、到工具的具体题目内容,都体现了 PISA 的高度科学性与严谨性。、评价内容与社会生活需要密切相关:基于评估终身学习能力以及问题解决能力的评价理念。PISA 认为阅读、数学和科学三个领域的能力是生活中必须掌握的能力,测评的内容均来自于社会生活的各个方面,以真实的生活情境问题呈现。 5、广泛的覆盖面和国际合作:PISA2009 年参与国(地区)已达 67 个,并有逐步扩大的趋势。PISA 测评凝聚了多国教育专家的智慧,各国专家共同参与测试工具的开发和数据分析,是国际合作研究的典范。2、TIMSS 项目简介4“国际数学与科学研究趋势”简称 TIMSS,于 1995 年发起,至今已成为 IEA 最成功
7、的国际比较研究项目之一。 TIMSS 主要测评领域为四、八年级学生的数学与科学,由学科测试卷和问卷组成。每四年一次,是基于课程标准的测评。采用二阶整群抽样的方法进行抽样,一阶由样本学校组成,二阶由样本校的样本班组成,整班入样。一般来讲,一个国家大概有 150 所学校会被抽中。TIMSS 评估的出发点和落脚点是课程,即学生在正规的学校教育中被提供了什么课程,学生能够在多大程度上掌握被提供的课程。基于这样的理念,TIMSS 首创了课程评价的三个层次:准备的课程、实施的课程、掌握的课程。 6TIMSS 的主要特点:调查的内容广泛:除数学与科学外,还对参加测试的学生、教师和学校就影响学生学习的学习动机
8、、学习兴趣、学习习惯等问题进行专门的问卷调查。首创了三维的课程评价模型,课程是学生学业成就的重要影响因素。覆盖面最大、参与人数最多且最严格的国际比较教育研究。2011 年有 70 个国家参与。开创了大型录像带研究的先例。协调员撰写本国研究报告。并作为国际 TIMSS 系列研究的分报告。广泛的国际合作。3、PIRLS 项目介绍国际阅读素养进步研究(简称 PIRLS)是由国际教育成就评价协会(IEA)主持,以四年级学生的阅读素养为评价核心,包括阅读成绩、阅读行为和阅读态度。评估重点是学生的阅读素养,同时也关注学生在学校和家庭的阅读环境。阅读能力的评估必须以真实的5阅读材料为基础。测试工具包括试卷和
9、问卷两种,试卷的设计具有连贯性,可以测试学生阅读素养的发展趋势;调查问卷以学生、家长、教师、校长为对象,收集影响学生阅读水平的相关因素。阅读素养是 PIRLS 评价的核心,将阅读能力分为三个评价维度:理解的过程、阅读的目的、阅读行为和态度。 7二、 世界各国基础教育质量监测综述1、美国教育进展评价(NAEP)美国国家教育进展评价(简称 NAEP),也称为“国家成绩报告单” ,是美国国内唯一的、最权威的、长期的中小学生学业成就全国测评体系,已成为衡量美国教育发展状况的一个重要指标,它为美国教育政府教育政策的制定和改进提供了可靠的依据,为世界各国所效仿。国家评价管理委员会(NAGB)作为 NAEP
10、 的管理机构;国家教育统计中心(NCES)负责执行;NAEP 实施由 NCES 招标的专业教育考试机构来完成的,他们各自负责不同的环节,目前参与 NAEP 的专业机构有:ACT、ETS、NCS、AIR、Westat 等。 8以 NAEP 为中心,美国形成了团结合作又相互制衡的全国教育质量监测机制,以保证NAEP 的独立性、公平性、科学性和导向性。NAEP 从设计到实施是一个非常复杂的过程,一般需要几年的时间,主要环节有:制定测评框架、研发测试工具、抽样与现场施测、阅卷、数据统计分析、撰写并发布报告。是一种基于课程标准的评价,美国课程标准包括三种具有内在关联的标准:内容标准、表现标准、学习机会标
11、准。6NAEP 是全国范围内的教育质量监测,通过对某些年级进行抽查,旨在检测学生在核心学科领域的知识和能力。NAEP 分全国评价和州评价两类:全国评价每年一次,以 4、8、12 年级学生为样本,评价内容包括阅读、数学、科学、经济学、公民教育、美国历史、写作、地理和艺术等 9 个学科,每年选择其中的两到三个科目和两个年级的学生参加。州评价每两年实施一次,以 4、8 年级学生为样本,评价内容为阅读和数学,其他科目则自愿参加。长期趋势评价每四年一次,目标是预测中小学生学业成就变化趋势,只在国家层面上开展,评价对象为 9、13、17 岁学生,评价科目包括数学和阅读。 92、日本全国学力考试日本从 20
12、 世纪 50 年代开始进行抽样学力考试,后发展成全国若干年级的统考,后因引发了恶性成绩竞争而于 1965 年中止。后受到国际学力考试的影响,同时基于国内教育发展的需要,经过了若干年的努力、调整,于 2007 年在全国举行了针对六年级和九年级全体学生的学力考试,这是中止了 43 年后重新恢复的全国性学力统一考试,以后每年举行一次。2007 年度的学力考试又称 “全国学力、学习状况调查” ,下面以 2007 年为例进介绍。文部科学省负责学力考试的领导与管理,日本国立教育政策研究所负责试题研制、结果统计分析、撰写并公布调查报告,贝乐思公司和日本电信集团数据处理公司负责试卷评审。考试内容包含学力考试和
13、学习状况调查两部分,测试内容为国语和算数(中学为数学) ,以中小学学习指导要领为依据,参照了以往文部省和7PISA 的经验和出题方式,以考察学生对基础知识的掌握和灵活运用能力。每科试卷分为 A、B 卷,A 卷为“知识”部分,20 分钟;B 卷为“活用”部分,40 分钟;由此可见该学力考试尤其侧重对知识活用能力的考查。问卷调查是为了解学生习惯、态度以及中小学教育教学基本情况而实施的,包括学生问卷和校长问卷。3、澳大利亚教育质量监测作为 OECD 的成员国,澳大利亚参加了 PISA2000、2003、2006测评,测评结果对澳大利亚政府进行教育改革提供了一系列重要依据。2007 年,澳大利亚制定了
14、全国学校改进计划:统一制定全国学校教育框架、进行中小学课程改革、核心科目进行全国统考。尤其重视学生的读写和计算能力。2007 年前,澳大利亚实施了成绩提高监控项目(简称 AIM) ,由澳大利亚教育研究委员会(简称 ACER)设计发展,每年 10 月进行,主要测查科目为英语和数学,对象包括三、五、七年级的全体学生。 10澳大利亚教育部门认为学生的读写和计算能力是学习和生活所必须的、最重要的能力,2007 年后,国家读写能力和计算能力测验(简称 LANNA)取代了 AIM,测查对象扩大到三、五、七、九年级,全国测查时间改在 5 月份。测量时间为 4560 分钟。规定了最低的读写、计算能力标准,即基
15、准成绩。基准成绩由国家任命的委员会(简称 BESC)设定,以便各州和地区可以和基准成绩进行比较,从而提出各学校自己的教学改进策略;同时学生的进步能被测量和跟踪;学生可以自我比较进步程度。 11建立完善的基础教育质量监测体系,已成为世界各国提高教育8质量的重要举措。其中发达国家如美国、日本、欧盟国家、加拿大等,较发达国家如韩国、新加坡、新西兰、芬兰、中国香港、台湾等,发展中国家如柬埔寨、越南、南美和拉丁美洲的国家和地区等。12这些国家的经验为我国开展基础教育质量监测具有很大的借鉴意义。三、国际基础教育质量监测的特点通过世界各国的基础教育质量监测制度及国际知名学生评价项目比较发现,在许多方面有着共
16、同特点。1.重视评估的导向作用。改进质量是基础教育质量监测工作的根本目的。各国的教育主导权均掌握在国家手里,以此决定监测体系导向,引导教育改革发展方向。政府对基础教育质量监测体系发展方向的主导作用,主要从立法、行政、财政及对评估结果的应用等途径,对评估活动加以影响。 132.明确的质量观。PISA 测试以能力为中心,是建立在“终身学习”的理论基础之上的,重视学生的能力培养。其他监测多以课程为中心,测量学生学科课程目标的达成情况。3. 重视评估结果的使用。国际组织与各国均非常重视对评估结果的有效利用,强调评估结果对教育对决策的促进、对教育政策的影响、对教学质量的改善作用。一些国家参加通过能加国际
17、测试,了解本国学生在某因素的排名,全面掌握基础教育质量整体情况,反思不足并调整本国的教育政策,提高教育质量。4. 公益性。国际项目与国家监测均是为了反映基础教育质量的9整体状况、存在的问题、为进一步改进与提高寻找依据,是教育责任的一部分。因此,国际项目的经费来自于各个参与国,各国监测经费均由政府提供,不向学校和学生收取任何费用。5.管办分离的模式。国际测评项目是由国际组织管理,由国际知名的教育专业机构或中介机构具体实施,是国际教育合作的典范。各国的基础教育质量监测工作也多由政府教育行政部门领导管理、授权具体部门或研究机构实施。因质量监测科学性、专业性很强,同时为了保证它的公平性,一般由多个部门
18、共同合作实施。6.相同工具类型。各监测项目的工具均包含试卷和调查问卷,试卷衡量学生学习的结果,用分数来表示;调查问卷用于了解与学生学习相关的、有意义的、稳定的影响因素,进行不同群体学生特点分析。美国 NAEP 问卷调查比较关注学生的种族、家庭经济状况等社会背景,日本学生问卷更关注学生个人的生活习惯、态度、学校教育条件、教育政策等教育内部或自身的背景情况。7.重长期趋势研究。PISA 有长期趋势评价,其他测评项目均没有单独的长期趋势评价,但是各测评项目却非常重视这项内容,通过对几次监测结果的比较研究,分析密切相关的影响因素,评定政策效果。8.固定年龄段反复测评。各监测项目均以某个固定的年级或年龄
19、的学生为监测对象,通过周期性的测试,来掌握该年龄段的学生的学习与身心状况。通过各年度监测数据的纵向比较,开展持续的追踪研究。109.重视能力发展。不管是以能力为中心还是以课程为中心的评价,均重视学生能力的培养与发展,不仅重视学科课程目标的达成,更重视学生对知识的灵活运用能力。10.大规模抽测。除日本、澳大利亚是全体学生统一测试外,其他国家大部分均以抽测的形式进行。通过科学的抽样,确定测试对象,在固定的时间,以纸笔测试的形式进行。11.独立性。目前各国进行基础教育质量监测的组织模式主要有三种,一是独立于教育行政部门的专职机构,二是政府委托大学或研究机构来做,三是教育部的职能部门负责。不管是哪种模
20、式,监测工作均有一定的独立性,包括评估标准的制定、评估方式和评估报告研制等。均不受政府的直接干预和控制。12.法律化、制度化、规范化。各国基础教育质量监测制度基本上经由教育立法来保障,包括评估的目的、性质、作用、内容、方法、程序等方面,通过政策或行政手段予以确定。四、对我国基础教育质量监测工作的启示1、建立基于课程标准的、全国统一的基础教育质量监测标准。监测内容包含所有国家课程和领域,涵盖学生的全面发展。课程标准用于规范学业成就评价的设计理念、提供评价的维度框架,限定评价的内容范围和认知要求。 14我国课程标准的三维目标提供了基础教育质量监测的评价维度,不仅检查学生掌握知识的情况,更从过程与方法、情感态度价值观等维度进行过程性考察。质量监测基于标准,也使得评价的分数和结果更具有可解释性,更利于向公众