全球科研评价体系的演进与发展.doc

资源描述

1、1全球科研评价体系的演进与发展摘要：通过对美国、英国、澳大利亚、荷兰四国科研评价体系发展的纵向梳理，以及对四国最新科研评价体系的横向比较，可以发现此四国科研体系具有一些共同的演进逻辑和发展趋势：评价体系的精细化、评价成本效益的最大化、政府引导的明朗化。这些评价体系的特点对我国建设科学而多元的科研评价体系具有重要的借鉴意义。关键词：科研评价；国际比较；演进；发展中图分类号：G649.1 文献标识码：A 文章编号：1672-4038（2013）09-0081-06 在知识经济时代，全球众多发达国家都旨在通过科研评价来促进本国科研实力的提升。虽然各国采取的科研评价形式不同，但这些评价都服务于一个

2、共同的目标，即促进科研产出和质量的提升，实现国家科研实力和创新力的可持续增长。在国家层面上，科研评价可以实现科研资源的合理配置，促进重点研究领域的优先发展，催化科研成果的社会应用；在机构层面上，科研评价直接或间接地影响财政拨款、大学声誉、生源、毕业生就业，从而调控科研机构的发展方向和发展策略：在个人层面上，科研评价有利于激励科研工作者和管理者的工作热情，提升科研工作绩效。在世界各国中，美国、英国、澳大利亚、荷兰的科研评价体系不仅历史悠久，而且各具特色。通过对这四个国家科研评价体系的比较研究。2挖掘全球科研评价的演进逻辑与发展趋势，可以为我国科研评价体系的建立提供有益的经验借鉴。一、科研评价

3、体系的国际比较 1.美国科研评价体系美国国家科学研究委员会（The NationalResearch Council，简称NRC）作为由美国国家科学院创建的民间非营利组织，在近 20 年里对美国高层次的科研活动进行了多次评价，并于 1982、1995、2010 年发布了三次美国研究型博士项目排名。其中 1982 和 1995 年的两次排名完全基于同行评价，NKC 在每个学术领域中邀请一些系主任和高级学者对该学术领域的博士项目进行打分，从 0（不具备博士授予资格）到 5 分（卓越）分为 6 个级别，专家评分的平均值就是各个参评单位的最终分数。然而，完全依赖同行评价的评估方式受到了外界对于评价体

4、系科学性和公正性的质疑，鉴于此，NKC 在 2001-2003 年期间开发了全新的评估方法。新方法最大的特色在于其基于数据（Data-based）的特点，即通过调查和回归两种不同取径的方法来确定排名。调查法通过自下而上、显性化的途径，让教师直接在问卷中对博士项目的多个特征进行评分：回归法则是一种自上而下、推断性的评价方法，先邀请每个学科的 40 名教师对各博士项目进行整体评分，然后通过回归模型寻找这些评分与项目特征之间的联系，即通过回归的技术手段来推断项目各个特征的优劣。 NRC 在 2008-2009 年对美国博士项目进行了新一轮评估，并于 2010年发布了美国研究型博士项目的最新排名。评估

5、包含三个维度：科研活动（Research Activity）、学生支持与成果（student Support and 3Outcomes）、教育环境的多样性（Diversity of the Educational Environment）。其中科研活动包括教师在出版、引用、科研经费和获奖等方面的情况，出版和引用的文献计量指标来自于 SCI 数据库；学生支持和成果包括第一年获得全额资助的学生比例、规定时间内获得学位的学生比例、学生获得学位的时间、为学生设置的学术职位情况、毕业生就业信息的提供情况；教育环境的多样性则包括少数民族师生比例、女性师生比例、国际学生比例。最新排名的多维度结果呈现

6、方式令人耳目一新，新排名包括调查排名、回归排名两个总体排名和科研排名、学生排名、多样性排名三个分项排名，每个项目的排名基于不同的评价者样本计算 500 次，取 90%的置信水平。然而 2010 年排名发布之后，外界评价却褒贬不一。2010 年排名以数据统计为主、辅以同行评价的评估方法无疑比单纯的专家评价更科学，多维度的排名也给不同的利益关系者提供了更全面的数据，但来自各方的质疑也不在少数。例如：有学者质疑仅从教师群体获取数据的可信性，问卷评价指标设计和指标权重分配被认为是评估委员会的一家之言，跨学科研究被认为在这种学科本位的评估中没有得到公正的评价等等。另外，NRC 公布的排名区间被指责跨度

7、过大，如密西根大学的传播学专业的回归排名在 2-58 之间，调查排名却在 7-22 之间，这令使用者很难判断项目的真实水平。 2.英国科研评价体系英国的科研评价由政府主导，是全球历史最悠久和最成熟的科研评价体系之一。在 1986-2008 年间，英国高等教育拨款委员会共开展了 64次 RAE（The Research Assessment Exercise）评估。RAE 排名历经 20多年，延续了以学科为单位的同行评价方式。以 2008 年评估为例，以学科为基础设立了 67 个评价单元，双层结构的评价专家组包括 15 个主专家组和 67 个分专家组（每个评价单元设立一个分专家组），总共包括

8、1000 名专家。评估内容主要围绕研究成果、研究环境、声誉指标这三个方面展开，其中研究成果的评价主要基于科研人员的代表性出版物，权重至少达到 50%。 RAE 排名呈现出显著的精英管理特点，并取得了明显的效果：一流院校和优势学科获得了更多的科研资源，其科研质量和科研管理水平都实现了明显的提高；科研人员都力争在高质量的期刊上发表论文，科研人员的流动也更为活跃。但是，该评价也受到了评价成本过高、对跨学科评价不利以及专家构成不公等种种诟病。为了削减开支、提高效率、提升科研的社会影响力，英国政府在2008 年开发了 REF（Research Excellence Framework）以取代原来的RA

9、E 评价体系。新的评价体系有了几个重大的变化。第一，评价单元和专家大大减少。评价单元由 2008 年的 67 个减少到 36 个，主专家组由 15个减少到 4 个，分专家组由 67 个减少到 36 个。为了减少由于大幅度削减评价单元带来的诸如学科分类粗放等负面影响，除专家组成员外还将聘请编外评审员来参加评估，尤其是在跨学科研究和科研的实际应用价值方面。第二，评价标准和评价内容有了较大的变化。评价内容维度由原来的 4 个变为 3 个，分别为“成果（Output） ”、 “影响力（Impact） ”和“环境（Environment） ”，每个维度的权重都予以明确的规定。成果被5赋予 65%的权重，

10、以“原创性、意义和严密性”作为其评价标准。每位科研人员被要求提供 4 件代表性科研成果，既可以是著作、论文、工作报告、会议论文，也可以是教材、设计与展品、媒体作品等。成果评价主要采用专家评价，同时参考 Scorpus 引用数据库的文献计量数据。REF 声称考虑到文献引用率的诸多缺陷，如：论文发表的时间长短、学科背景差异、负引用（Negative Citation）、出版语言差异等，文献计量数据只作参考。新增添的影响力维度则既备受瞩目而又饱受争议。影响力从“广度（Reach） ”和“意义（Significance） ”两个方面进行衡量，强调科研在文化、经济、环境、教育、政策制定、公共服务等各个

11、方面造成的影响。增加该维度的出发点原本是试图促进科研成果的社会应用，但在实际操作过程中遭到了重应用研究轻理论研究、重“硬”科学轻“软”科学的诟病，因而其权重由原先的 25%下调到目前的 20%，被评单位被要求提交一份影响力表格和案例分析报告，专家组主要根据这两份材料来评估其影响力。环境则被赋予 15%的权重，以“活力（Vitality） ”和“可持续性（Sustainability） ”为衡量标准，主要包括科研策略、人员（教师发展和研究生培养）、科研收入及基础设施和设备、科研合作。 3.澳大利亚科研评价体系澳大利亚的科研评价由政府主导，与科研经费资助挂钩。澳大利亚研究委员会（Austral

12、ianResearch Council，简称为 ARC）开展的科研评价经历了从“综合指数” （Composite Index）到“科研质量框架”（Research Quality Framework，简称 RQF）再到“澳大利亚科研卓越”（Exce Uence inResearch for Australia，简称 ERA）的转变。 6始于 1995 年的综合指数评价以大学为独立单元进行评价，评价内容主要包括大学所获得的经费及科研产出（出版物数量及授予的硕士和博士学位数量等）。这种评价体系表面上产生的收效非常明显，大学越来越重视在 Web of Science 数据库收录期刊中发表论文，其科

13、研产出量在1992-1996 年间每年至少提升了 8%，发表在 SCI 上的论文每年增长 2%。但是，澳大利亚的科研影响力却在下降，在 1988 到 1993 年间，澳大利亚文献引用率在 OECD 国家中从第 6 位下滑到第 11 位，学者们虽然发表的论文数量上升，但是其平均引用影响（Citation Impact）却在下降。针对这种情况。澳大利亚政府于 2006 年开始筹备新的科研评价体系，即 RQF。在大量收集各大学、专家及商界和教育界人士建议的基础上，RQF 的评价单位由大学改为研究组，包括 13 个学科领域的专家组，每个组有 12 个成员，专家组成员包括至少 3 个外国专家和 3 个

14、终端用户。RQF 还未及实施，新一届政府于 2008 年宣布以 ERA 来取代 RQF。 ERA 结合文献计量数据以及专家评审内容，以学科为单位对科研质量进行评估。ERA 已于 2010 年和 2012 年进行了两次评估，共 41 所科研机构参评。评价内容包括四个方面：（1）科研质量（Research Quality），包括出版物及会议的级别、引用分析、ERA 同行评议、经同行评议的国内和国际科研收入；（2）科研数量及活动（Research Volume and Activity），包括科研产出总量、科研收入等指标；（3）科研应用（ResearchApphcation），包括科研商业收入

15、等应用测量指标；（4）声誉（Recognition），包括在权威出版单位担任编辑的人数、参加知名学术团体的人数和全国科研奖金获得者人数等声誉测量指标。澳大利亚研7究委员会根据评估结果，对具备国际竞争力的院校和学科进行重点资助。ERA 作为新生事物也遭到了诸多质疑，其中争议最多的当属 ERA 于2011 年公布的期刊评级，把学术期刊划分为 A*、A、B 和 C 四个等级。期刊评级一公布即遭到了各方的激烈批评，并迫于压力于当年 5 月宣布废除。另一较大争议是科研经费到底该归入科研投入还是成果。目前 ERA把科研经费数额作为科研成果指标，很多专家质疑该做法的科学性，认为很难把科研经费数额清楚地归入

16、投入或成果，而建议用科研输入/输出率来取代。 4.荷兰科研评价体系荷兰科研评价体系的产生源自于“条件性资助（Conditional Funding） ”体系的终结。荷兰从 1983 年实施“条件性资助” ，对教学和科研进行资助。随着 1993 年该资助体系的消亡，荷兰政府要求建立教学和科研两套评价体系。因此，荷兰大学协会（Association of Umversities in the Netherlands，简称 VSNU）在 1993 年到 2003 年期间开展了“科研质量评价（Quality Assessment of Research） ”项目，由外部同行委员会对科研质量的四个方面

17、进行评估：生产率、成果质量、适切性和长期生存能力。自 2003 年后，荷兰大学的科研评价开始采用标准评价协议（The Standard EvaluationProtocol，简称 SEP）框架，该协议由荷兰皇家艺术和科学院（KNAW）、荷兰大学协会（VSNU）、荷兰科学研究组织（NOW）联合制定。SEP 评价包括外部评价和自我评价，其中外部评价每 6 年举行8一次，由外部独立专家对研究所（research institute）进行评估，从两个层次展开：机构（院校、系科或研究学院）层次、科研小组或项目层次。 SEP 评价树立了两大目标：提高科研质量和代表资助部门、政府及社会进行科研工作检查

18、。其评价的内容和形式都较为丰富，既有回顾评价，也有前景评价；既有对科研成果的评价，也有对研究前景、科研管理、科研政策的评价：既有中期审查，也有终期评价；既有常规的材料评审，也有现场审查和负责人访谈。评价包括四个维度：质量（Quality）、产出率（Productivity）、社会相关性（SocietalRelevance）、活力与可行性（Vitality andFeasibility）。其中质量包括 5 项内容：研究质量及科学相关性、领导地位、学术声誉、人力资源和财力资源、博士研究生培养情况；产出率包含科研产出策略和科研成果，研究成果的评价基于3-5 篇代表作及出版物的总数，必要时使用

19、文献计量指标；社会相关性包括社会价值、社会影响及社会应用性；活力和可行性包括 SWOT（长处、短处、机遇、威胁）分析、策略、稳健性 3 项内容。SEP 评估以同行评价和自我评价为主，其评估结果和政府拨款之间没有直接的联系，但教育部会基于该评价结果对科研业绩较差的单位进行警告，督促其整改。通过对美、英、澳、荷四个国家科研评价体系演进逻辑和发展趋势的剖析，我们可以把这些国家最近的科研评价体系特点整理归纳如下（见表 1）。二、全球科研评价体系的演进特点遵循美、英、澳、荷四国科研评价体系的发展脉络，可以看出这四9种科研评价体系在评价目的、评价内容和评价方法上各有特色。但多样性的表象之下隐藏着共

20、同的演进逻辑和发展趋势。主要表现为如下几点：1.评价体系的精细化评价体系的精细化主要体现在评价内容的多维化、评价结果呈现的动态化和评价方法的多元化三个方面。首先，评估内容从以往的单一维度朝着多重维度的方向发展，除了对绩效（产出和影响）进行评价外，对赋能（投入和过程）的评价也日益重视。在绩效方面。除了科研产出之外，科研应用和影响力在科研评价中的地位正在提高；在赋能方面，科研环境和科研策略等投入和过程指标也得到了更多的重视。其次，评价结果呈现出更大的多样性，除了传统的单维度、静态的排名或分级方式。还出现了多维度、动态的评分方式。再次，评价方法从以往的单一手段转向同行评价和计量数据相结合的多元评价

21、手段。可以说，世界各国都在不遗余力地开发更科学的评价体系，改进评价方法。比如：美英评价体系经历了以同行评价为主到同行评价与计量指标相结合的过程，澳大利亚则经历了以简单的计量指标为主转向以专家评价结合计量指标的过程，荷兰的科研评价虽然目前仍主要以同行评价和自我评价为主，但正越来越多地把计量指标纳入评价过程。 2.评价成本效益的最大化鉴于科技竞争力的战略地位。各国对巨额的科研评价耗费并不吝惜，但却加强了对科研评价成本效益（评估成本与效益之比）的调控。早期基于规模的评价模式虽然成本较低，但是由于无法有效提升高校和科研人员的科研积极性，因而其产出的科研效益较低。当前各国普遍采用基10于绩效的评价方式

22、，从方案设计、资料提交、数据收集到专家评审等各个过程都需要耗费大量的费用，尽管如此，各国政府鉴于科技生产力的战略地位，并没有单纯削减科研评估投入，而是利用各种方式来优化评估方法，减少不必要的耗费，同时以更高的科研产出来提升科研评价的效益。比如：美国、澳大利亚和荷兰近年来正在加大投入，研制开发更为复杂的科研评价体系，而英国的科研评价体系虽然多年来一直受到耗费过高的批评，但英国政府并没有对评价投入进行实质性的削减，而仅在评价方法上做了一些微调，如减少评价单元、增加计量指标等。 3.政府调控的明朗化无论是在官方还是非官方组织的科研评价中，政府都扮演着至关重要的角色。在知识经济时代，各国政府深刻认识

23、到科研实力在社会发展和国际竞争中的关键作用，通过多种显性或隐性的方式调控科研发展的方向和策略，而科研评价就是其中的一个重要手段。从各国科研评价的演进史来看，从评价目标和内容的选取到评价指标和评价单元的设计都反映出政府宏观引导的意图。各国的科研评价体系无一例外地都把提高科研质量作为其显性目标，但在其背后均隐藏着政府对“科研卓越”的价值预设及路径规划，这种隐性预设和规划通过科研评价维度和指标的设计被反映出来。如：美国 NRC 把学生支持与成果、教育环境的多样性作为评价维度，折射出美国政府一贯实施的大量吸引国际优秀人才的战略：英国 REF 新增加的“影响力”维度反映出英国力图引导科研与社会应用更好结合的发展策略：澳大利亚和荷兰把“社会应用”作为重要维度，反映出两国对于科研社会应用的高度重视；美国虽未把“社会应用”

展开阅读全文