1、基于 AHP 的自学考试助学组织评估指标体系及方法的研究高洪军1研究的背景11 自学考试的改革与发展当今时代,强化教育的育人功能,提高受教育者的素质,是各类学校、各种教育形式的共同理念。高等教育法明确规定自学考试是一种高等教育制度,它是我国高等教育的组成部分。目前,自学考试的学业评价以国家考试成绩作为唯一的评价手段,应该说有一定局限性,虽然强化了学业评价的平等性,但是削弱了全面性与客观性。就目前的考试手段,很难对考生的能力、特别是素质进行有效的测评。所以,研究、建立自学考试考生学业综合评价体系,把考生平时学习与表现情况纳入总体评价,是实现自学考试向考试与学习过程并重转变的关键,也是完善自学考试
2、教育制度的重要任务。开展自学考试考生学业综合评价,是通过建立考生平时学习成绩考核、认定办法,将考生的学习过程考核成绩与国家考试成绩结合起来,一并纳入自学考试考生学业评价体系,使个人自学、社会助学和国家考试三者更加紧密地有机结合起来,引导、激励自学考试考生全面发展,全面提高综合素质。自学考试的社会助学以民办教育为主体。民办教育目前在我国尚属探索发展时期,许多助学单位在办学条件、规范管理、教职工队伍的素质和稳定性等诸多方面都存在不足。基于此,推行学业评价改革的前提就是要对助学单位进行必要的评估。1.2 教育评估的研究与完善目前,无论是从理论研究,还是从实践层面上,一个具有中国特色的教育评估体系正在
3、形成。在教育活动的各个领域、各个层次开展了广泛的教育评估活动,包括全国的、地区的、学校的、学科的、教师的、学生的、校长的各种评估,教育工作者制定了相当数量的各种评估方案或质量标准。但不可否认的是大都存在一定的局限性,主要表现为如何测量评估指标。事实上,教育现象的不确定性主要表现为随机性和模糊性,对教育现象做出明晰而精确的描述是非常困难的。目前,对学校的评估已经从过去的定性评估过渡到定性与定量相结合,以定量为主的评估方式,并在设置评估指标体系时强调指标的量化。评估的本质是主观的评测,所以这从理论层面确实是个挑战。但从具体的操作层面无疑是一个折中的选择,针对大规模的评估则又是明知的抉择。依笔者之见
4、,强调指标的量化还远不够、应该全部量化,毕竟评估者很难得出客观的定性结论。指标的量化能更有效促进评估工作的组织,前提是选择适当方式将定性因素转化为定量因素。2自学考试助学组织的评估指标体系及评估模型2.1 评估指标体系2.1.1 评估指标体系的特征助学组织的的评估要受到各种因素的制约。因此,评估指标体系的设计,需要深入了解影响评估的各种因素及其特征,分析它们之间内在关系,在遵循全面与科学性、系统性等原则上,建立正确、客观的评估指标体系。另外,要体现客观与可测性、可比与相容性、定量评估与定性评估相结合和动态指标与静态指标相结合等方面的要求。2.1.2 助学组织评估的指标体系为了科学合理地对助学组
5、织进行综合评估,评估的指标体系应在遵循上节所给出的原则基础上,从影响学校工作的诸多因素中,选择主要的能从不同角度反映总体情况的关键因素作为指标体系的内容。自学考试的教育、教学活动广泛,评估的要求也不尽相同。有行政部门的年度评估、管理部门的示范评选和学业综合评价等。其形式相似,内容要求不同,在本文中以北京自学考试的示范助学组织评选指标体系作为解剖对象来做说明。经分析和研究,将助学组织评估指标体系设计成三层结构。第一层是助学组织的综合评估;第二层为综合评估的六个主要方面(一级指标)包括基本条件、教学管理、行政管理、教学条件、教学效果和助学行为;第三层是将第二层的六个一级指标分解成的若干个二级评估指
6、标。2.2 助学组织评估指标体系的算法模型2.2.1 评估指标体系结构助学组织的评估属于多目标决策问题,在评估模型方面应根据层次分析理论,按指标的层次关系和隶属性关系逐层分解,形成层次分析评估模型。所以,本文设计的如图 21 所示的助学组织评估指标体系结构,是采用经典评估的结构,一般设置一级指标 Fn、二级指标 Fnn 和测评点。2.2.2 综合评估线性加权模型此模型是针对大规模教育评估设计的数学模型。这是定性指标定量化管理的有效手段 1-3。以两级指标体系为例,对于第 i 个一级指标,第 k 个专家的评估结果如下:表 2-1 专家评估结果示例第 i 个一级指标中的二级指标 1iF2i inF
7、第 k 个专家的评估量化值()kix()kix ()ikx第 k 个专家对第 i 个一级指标 Fi的评估值: 第 k 个专家的综合评估值 ,()()1mkkixw合成各专家意见,得出总体评估值 ()1Kkkx其中, 且 ,0,1,2.k1k反映第 k 个专家的权重,由评估组织者确定。若各专家水平相当,k则可取 ,1,2.,k KK2.3 评估指标体系权重算法的研究2.3.1 AHP 层次分析方法概述2.3.1.1 评估算法与选择 AHP 算法线性加权评估模型的基础就是将评估体系的指标量化,即要取得指标的权重。无论是定量指标还是定性指标,都必须按照统一的量化方式处理,用同一的量纲衡量。为了解决评
8、估体系指标的权重量化。本文将依据评估需求和 AHP优势,提供一个有效的解决途径。2.3.1.2 AHP 的背景及发展层次分析法(Analytic Hierarchy Process,简记 AHP)在 20 世纪 70 年代中期由美国匹兹堡大学著名的运筹学家萨迪(T. L. Satty)教授等人在为美国国防部研究“根据各个工业部门对国家福利的贡献大小而进行电力分配”课题时,应用网络系统理论和多目标综合评价方法,正式提出的一种定性与定量分析相结合的多准则决策方法。它是指将决策问题的有关因素分解成目标、准则、方案等层次,在此基础上进行定性分析和定量分析的一种决策方法。它把人的思维过程层次化、数量化,
9、并用数学为分析、决策、预报或控制提供定量的依据。这一方法的特点,是在对负责决策问题的本质、影响因素以及内在关系等进行深入分析之后,构建一个层次结构模型,然后利用较少的定量信息,把决策的思维过程数学化,从而为求解多目标、多准则或无结构特性的复杂决策问题,提供一种简便的决策方法。尤其是适用于人的定性判断起重要作用的、对决策结果难于直接准确计量的场合。层次分析法就是为分析这类复杂的社会、经济、教育以及科学管理领域中的问题提供了一种实用的决策方法。2.3.1.3 AHP 与其它算法的比较综合评估的具体方法有许多种,各种方法的总体思路是统一的,大致可分为熟悉评估对象、确立评估的指标体系、确定各指标的权重
10、、建立评估的数学模型,分析评估结果等几个环节。其中确立指标体系、确定各指标权重、建立数学模型这三个环节是综合评估的关键环节。(1)AHP 法的优势与局限AHP 层次分析法是一种强有力的系统分析加运筹学方法,对多因素、多标准、多方案的综合评价及趋势预测相当有效 4。它不仅适用于存在不确定性和主观信息的情况,还允许以合乎逻辑的方式运用经验、洞察力和直觉。面对由“目标层+准则层+方案层”构成的递阶层次结构决策分析问题,给出了一整套处理方法与过程。AHP 法最大的优点是可以简单明了地处理定性和定量相结合的问题,可以将决策者的主观判断与政策经验导入模型,并加以量化处理。AHP 从本质上讲是一种科学的思维
11、方式 5。AHP 法的主要优势 面对具有层次结构的整体问题综合评价,采取逐层分解,变为多个单准则评价问题,在多个单准则评价的基础上进行综合; 为解决定性因素的处理及可比性问题,以“重要性” (数学中表现为权重)比较作为统一的处理格式。并将比较结果按重要程度以 1 至 9 级进行量化标度。 检验与调整比较链上的传递性,即检验一致性的可接受程度; 对汇集全部比较信息的矩阵集,使用线性代数理论与方法加以处理。挖掘出深层次的、实质性的综合信息作为决策支持。AHP 法的局限性 AHP 法也有致命的缺点,它只能在给定的策略中去选择最优的,而不能给出新的策略; AHP 法中所用的指标体系需要有专家系统的支持
12、,如果给出的指标不合理则得到的结果也就不准确; AHP 法中进行多层比较的时候需要给出一致性比较,如果不满足一致性指标要求,则 AHP 法就失去了作用; AHP 法的关键层次分析法的关键在于,层次结构要合理,这需要对具体问题细心的调查研究。尽管求解权重系数有较大的计算量,但一旦求出来,便可在一定范围内普遍适用。如果所选的要素不合理,其含义混淆不清,或要素间的关系不正确,都会降低 AHP 法的结果质量,甚至导致 AHP 法决策失败。(2)权重系数的精确测度目前,权重系数的精确测度主要有“专家咨询法(Delphi) 、层次分析法、二项系数加权法、环比评分法”等。其中比较有代表性的、较成功的主要是D
13、elphi 法和 AHP 法。而且,权重系数的确定基本上已由个人经验决策转向专家集体决策,比如评委投票表决法(简化了的 Delphi 法)等等。Delphi 法是邀请多位专家匿名赋值,多次论证后求均值。其优点在于容易为人接收、有较高的说服力;缺点在于经验判断、无过程验证,不一定符合实际情况。AHP 法是目前使用较多的一种确定权重的方法。此法对各指标之间的重要程度的分析更具逻辑性,再加上数学处理,可信度较大,应用范围较广,它由于具有坚实的理论基础、完善的方法体系而深受欢迎,并在实践中创造了多种多样的变形方法。本文中确定权重采用 AHP 法,就是利用其优势,并规避、弱化其不足。2.3.2 基于 A
14、HP 的评估指标体系权重的测算方法2.3.2.1 构造评估算法的层次分析结构(1)评估算法各因素分析助学组织评估指标是依照现行的北京自学考试示范助学组织评选的指标体系,它包括基本条件、教学管理、教学效果等。指标和标准的科学性,是教育、管理专家和决策者所考虑的问题。当然我们也聘请了相关专家进行了充分的论证,只是本文中对此问题暂不讨论。在这里是从算法层面解决评估指标的公正和实用性。(2)构造算法层次分析结构图建立一个多层次的递阶结构,按目标的不同、实现功能的差异,将算法分为几个等级层次。层次结构建立在管理者(或分析者)对问题全面深入认识的基础之上。根据对问题的初步分析,将问题包含的因素,按照是否共
15、有某些特性将他们聚集成组,并将它们之间的共同特性看作为新的层次中的一些因素;而这些因素本身也按照另外一组特性被组合,形成另外更高层次的因素,直到最终形成单一的最高因素,这往往可以看作决策分析的目标。这样即构成目标层,若干准则层和方案层的层次分析结构模型。在评估算法运用中,结合评估中不同因素的重要程度形成了结构图。图 2-2 就是依据北京自学考试示范助学组织评选的指标体系的分析,构造出的层次分析结构图。2.3.2.2 构造判断矩阵(1)对各层因素进行两两比较确定以上递阶结构中相邻层次因素间相关程度。通过构造两两比较判断矩阵(正互反矩阵)及矩阵运算的数学方法,确定对于上一层次的某个因素而言,本层次
16、中与其相关因素的重要性排序相对权重。n 个因素 u1,u 2,u n,两两比较其重要性共要比较 n(n-1)/2 次。第 i 个因素 u1 与第 j 个因素 uj 重要性之比为 aij。问题是如何得出 aij 的值。AHP 采用19 比例标度来确定 aij;这是 AHP 的特点,也是优点。本来,n 个因素比较n1 次,即可确定顺序,为什么要比较 n(n-1)/2 次呢?这是由事物的复杂性和决策人的局限性决定的,事实证明,n 个因素按重要性只有两两比较,才能揭示重要性的内在规律,仅仅比较 n1 次是绝对不行的,因为只比较 n1 次,其中若有一次失误,则排序就将遭到破坏。而两两比较可减少失误。判断
17、矩阵的因素赋值如表 2-2。表 2-2:AHP 1-9 标度的含义 标度 含义1 表示两个因素具有同样的重要性3 表示一个因素比另一个因素稍微重要5 表示一个因素比另一个因素明显重要7 表示一个因素比另一个因素强烈重要9 表示一个因素比另一个因素极端重要2、4、6、8 为上述相邻判断的中值判断矩阵形如下表。表 2-3 判断矩阵A A1 A2 AnA1 a11 a1nA2 a21 a2n An an1 an2 ann两两比较两个因素的重要性,总是在某种准则(准则层比较是以总目标为准则,方案层比较分别以准则层中各因素为准则)下进行的。至于为什么取19 比例标度,而不取别的?是因为人们直觉最多只能判
18、断出 9 个等级的差异,再细的差异,人的直觉是分辨不出来的,而两两比较判断矩阵是领域专家靠感觉去分辨和构造的。从理论上讲,用 115 比例标度也未尝不可,只是人的直觉分辨不出来。对于 n 个物体,两两比较其重要性得判断矩阵 A = (aij)nn,显然 aij 满足:a ij 0,a ij = 1/aji,a ii = 1,共计 n(n-1)/2 个判断,所以 A 是正的互反矩阵,且对角线上因素为 1,这样的 n 阶矩阵可表示为上三角或下三角矩阵。但 A 的因素 aij 通常不具有传递性,即 aij ajk aik,这是由事物的复杂性和人的认识的局限性造成的。如果 aij ajk aik 成立
19、,则称 A 是一致性矩阵。从判断矩阵 A 出发到导出因素在某种准则 C 下按重要性大小的排序,矩阵 A 的一致性起着至关重要的作用。(2)构造比较判断矩阵基于经典评估的指标结构与 AHP 层次分析方法结构的共同性,给采用 AHP方法解决评估指标的权重提供了可能性。它通过共同的价值尺度指标的重要性来量化权重,从而实现以定量为主的评估方式。按照 AHP 层次分析 19 比例标度的说明和专家对评估指标认识的具体案例(见 2-6 表),具体构造两两比较判断矩阵。以下是根据评估指标和专家的评价结果列出各个判断矩阵实例:表 2-4 一级指标判断矩阵示范性助学组织评估 示范性助学组织评估 行政管理 教学管理
20、 教学条件 教学效果 助学行为行政管理 1 0.1667 1 1 0.3333教学管理 6 1 6 6 2教学条件 1 0.1667 1 1 0.3333教学效果 1 0.1667 1 1 0.3333助学行为 3 0.5 3 3 1行政管理、教学管理、教学条件、教学效果和助学行为的判断矩阵略。2.3.2.3 判断矩阵的一致性检验(1)一致性检验的意义在上述过程中建立起了判断矩阵,使得判断思维数学化,简化了问题的分析。此外,这种数学化的方法还有助于决策者检查并保持判断思维的一致性。应用 AHP 法,保持判断思维的一致性是非常重要的。所谓判断思维的一致性是指专家在判断指标重要性时,各判断之间协调
21、一致,不致出现相互矛盾的结果。在多阶判断的条件下出现不一致,极容易发生,只不过在不同的条件下不一致的程度是有所差别的。对于实际问题建立起来的判断矩阵往往满足不了一致性,造成这种情况的原因是多种多样的,如由于客观事物的复杂性、人们认识上的多样性和可能产生的片面性。要求每一个判断都有完全的一致性显然不太可能,特别是因素多规模大的问题更是如此,但是,要求判断具有大体上的一致性是应该的。若出现甲比乙极端重要,乙比丙极端重要,丙又比甲极端重要的情况显然是违反常识的。因此,为了保证应用层次分析法分析得到的结论合理,还需要对构造的判断矩阵进行一致性检验。这种检验通常是结合排序步骤进行的。(2)判断矩阵的一致
22、性检验根据矩阵理论可以得到这样的结论,即如果 , , 是满足式的数,也就是矩阵 A 的特征根,并且对于所有的 ,有显然,当矩阵具有完全一致性时, 1 = max = n,其余特征根均为零;而当矩阵 A 不具有完全一致性时,则有 1 = max n,其余特征根 , , 有如下关系:由上述结论得出,当判断矩阵不能保证具有完全一致性时,相应判断矩阵的特征根也将发生变化,这样就可以用判断矩阵特征根的变化来检验判断的一致性程度。因此,在层次分析法中引入判断矩阵最大特征根以外的其余特征根的负平均值,作为度量判断矩阵偏离一致性的指标,即用检查决策者判断思维的一致性。显然,当判断矩阵具有完全一致性时,CI =
23、 0,反之亦然。从而有:CI = 0, 1 = max = n,判断矩阵具有完全一致性。另外,当矩阵 A 具有满足一致性时, max 稍大于 n,其余特征根也接近于零。不过这种说法不够严密,必须对于“满足一致性”给出一个度量指标。衡量不同阶判断矩阵是否满足具有满意的一致性,还须引入判断矩阵的平均随机一致性指标 RI 值。对于 1-9 阶判断矩阵, RI 的值分别列于下表中。表 2-5 RI 值1 2 3 4 5 6 7 8 90.00 0.00 0.58 0.90 1.12 1.24 1.32 1.41 1.45在这里,对于 1、2 阶判断矩阵,RI 只是形式上的,因为 1、2 阶判断矩阵总是
24、具有完全一致性。当阶数大于 2 时,判断矩阵的一致性指标 CI 与同阶平均随机一致性指标 RI 之比称为随即一致性比率 CR。当时,即认为判断矩阵具有满意的一致性,否则就需要调整判断矩阵,使之具有满意的一致性。判断矩阵一致性检验通常是伴随层次排序进行的。2.3.2.4 层次单排序通过层次单排序可以测算指标体系的权重计算出某层次因素相对于上一层次中某一因素的相对重要性,这种排序计算称为层次单排序。具体地说,层次单排序是指根据判断矩阵计算对于上一层次某因素而言本层次与之有联系的因素重要性次序的权重。理论上讲,层次单排序计算问题可归结为计算判断矩阵的最大特征根及其特征向量的问题。但一般来说,计算判断
25、矩阵的最大特征根及其对应的特征向量,并不需要追求较高的精确度。这是因为判断矩阵本身有相当的误差范围。而且,应用层次分析法给出的层次中各种因素优先排序权重从本质上来说是表达某种定性的概念。因此,一般用迭代法在计算机上求得的是近似的最大特征根及其对应的特征向量。本实例中采用一种简单的计算矩阵最大特征根及其对应特征向量的方法方根法。(1)计算判断矩阵每一行因素的乘积 Mi, i =1,2, n (2)计算 Mi 的 n 次方根(3)对向量 正规化则 即为所求的特征向量。(4)计算判断矩阵的最大特征根 max其中(AW) i 表示向量 AW 的第 i 个因素。根法是一种简便易行的方法,在精度要求不高的
26、情况下使用。除了根法,还有和法、特征根法、最小二乘法等。结合实例,利用这种方法,容易对各判断矩阵的各层次单排序进行计算以及求得一致性检验结果。 (具体过程略)现将结果在表 2-6 中列出:表 2-6 评估指标权重的生成及结论一级 指标1-9 度 专家估测指标分值调整后 指标分值二级指标 及分值1-9 度 专家估测指标 分值调整后 指标分值二、行政管理 1 8.33 15 2-1、领导班子 1 2.083 32-2、管理机构及管理人员 1 2.083 32-3、制度建设 1 2.083 32-4、资产及财务管理 0.333 0.694 22-5、安全工作 0.333 0.694 22-6、多址办学 0.333 0.694 2三、教学管理 6 50 30 3-1、管理队伍 1 8.335 53-2、师资队伍 1 8.335 53-3、教学管理制度 1 8.335 53-4、教学计划、教学大纲 1 8.335 53-5、教学质量监控 1 8.335 53-6、素质教育 1 8.335 5四、教学条件 1 8.33 15 4-1、教学环境 1 0.833 34-2、教学设备 3 2.499 4