1、 201 几种常见等值方法的统一处理 Treat Some Common Equating Methods in a Unified Form 丁树良 * 熊建华 * *江西师范大学计算机学院 E-mail: 本文将 IRT 框架下几种常用的等值方法的目标 函数用一个统一形式进行描述,并且用这种统一的形式导出了两种新的等值方法,其中的相对熵等值法与 Haebara 和 Stocking-Lord 给出的等值方法计算出的等值系数十分接近。 关键词: 目标函数 统一形式 相对熵等值法 1 引言 大型题库是计算机化自适应测验( Computerized adaptive test, CAT)的基
2、础。大型题库建设离不开测验等值 1-3, 5,对教育的评价也离不开等值。测验等值是指将测量同一心理特质的多个测验形式上的测验分数(或潜特质水平)或项目参数实现单位系统转换,达 到相互间对应指标可比的过程 1,2。本文在项目反应理论( Item Response Theory, IRT)框架下讨论等值问题,注意到 IRT 中二参数 Logistic模型( 2PLM)是使用 Logistic模型等值的最基本模式,我们先讨论 2PLM 中几种常见的项目参数等值方法的统一处理问题,然后将这种统一的等值方法推广到双参数 Samejima等级记分模型。 本文的讨论都假定是在满足等值条件之下进行的,且对于项
3、目参数的估计经过了模型资料拟合检验。我们还假定测验经过等值设计,即采用锚测验 -非等组设计。 2 几种常 用的等值方法 设有 Nx和 NY个被试分别参加了测验 X 和 Y, X 与 Y 中含有 m 个锚题( anchor item)。由 IRT 知,同一测验项目在两个不同测验中估出的值之间有如下关系: Aaa xjyj / BAbb xjyj ( 1) 而同一被试在两个不同测验上估出的能力参数有关系式 BA xy ( 2) 这里 A、 B称为等值系数。若用 ),;( baP 表示能力为 的被试答对区分度为 a,难度为 b 的项目的概率,则只要 0A ,便有恒等式 ),/,(),( BAbAaB
4、APbaP xjxjxyjyjy ( 3)由于 BA xy ,故由( 3)有 ),/,(),( BAbAaPbaP xjxjyyjyjy ( 4)若 1)(7.1e x p 1),( babaP ,即为 2PLM,则( 4)也可以写成 202 ),(),( xjxjyyjyjy baBAPbaP ( 5) 的形式,而且将( 4)改写成( 5)的形式往往计算起来更方便。 记 ),(),( xjxjyax a jyjyjyjy baBAPPbaPP ( 6) 注意到( 5)左右两边 , a , b 皆为估计值,故只能近似相等。若用 ),( yajxaj PPd 表示 jxP , jyP之间的某种意
5、义下的差距,则可以认为,等值是寻找等值常数 A, B,使形如下面的一个目标函数 F 达到最小: ),(),( 11 jxjymjN PPdBAF 目前基于 IRT 的较流行的等值方法(实际上是按目标函数的形式给予区分的)有均值 -均值方法,均值 -标准差方法,稳健的迭代加权均值 -标准差方法, Haebara 的项目特征曲 线方法(简记为 Hcrit),Stocking-Lord 测验特征曲线方法(简记为 SLcrit) 5,以及 Kim和 Cohen 的最小 2 -方法 4。 3 统一的表示形式 以下讨论几种常用等值方法的统一表示形式,即给出目标函数的统一形式。记 ),( 21 mxxxx
6、PPPP , ),( 21 xNxxx PPPP ,同样定义 yP 及 yP ,再记 )(),( yx PgPfhdd ( 7) 这里, d, h, f, g 都是映射,它们的具体含义根据上下文进一步说明。 ()由 IRT 中等值要求知测验 X 与 Y对称,对 m个锚题的难度在两个测验形式中的估计值向量 ),( 1 xmxy bbb 和 ),( 1 ymyy bbb ,其相关系数应该等于 1,今在( 7)中取 ),()( 1 BAbBAbPf xmxx ,记 )( xPf 为 xb , )( yPg 为 yb , yxyxh ),( ,则 )()()()()(),( yxyxyx PgPfPg
7、PfPgPfhd 于是 )()(),( yxyxyxMS bbbbPgPfhdd ( 8) 这里 x 表对向量 x取转置运算。( 8)是均值 -标准差方法的目标函数。通过不同的 gfhd , 的选取,可导出稳健的均值 -标 准差方法的目标函数 3, PP207-208 以及稳健的迭代加权均值 -标准差方法 3, PP208-209 。 ( ii) 取 xx PPf )( , yy PPg )( ,令 )(),( yxyxh 则得 Heabara 方法的目标函数如下: )()(),( yxyxPgPfhdd yxH 211 )( jyhxmjN PP ( 9) 相仿,通过对 gfhd , 的不同
8、选取, 还可以导出 SLcrit5以及最小 2 -方法等值的目标函数 4。 4 统一表达式的应用 统一表达式除了可以揭露不同的方法之间的相同之处外,还可以用来推广一些等值方法。 例 1 在等级记分题中,记 ),(.10 jfjxjxjxjx PPPP , jf 为第 j 个项目的满分值,),( 1 mxxx PPP , ),( 1 xNxx PPP ,相仿可定义 yP ,则由( 9)立即可得等级记分题对应的203 Heabara项目特征曲线法,记为 GHd 2011 )( y a jtjtxftmjNGH PPd j ( 10) 但严格地讲( 10)是类目响应函数( category resp
9、onse function)方法,而不是 Hcrit。若以项目为单位进行考察,则有另一个相应于 Heabara方法的目标函数。 )()()(),(1 yxyxyxGH PPIPPPgPfhdd 2011 )( jtyjtxftmjN PPtj 对于 Samejima模型 , * 1,* tjxjtxjtx PPP ,且 0,1 *1,* 0 jfjxjx PP ,而当 10 jft 时 1* )(e x p 1 x jtxaxjx a jt baP 则有 2*1111 )( jtyjtxftmjNGH PPd j ( 11) 这是 Hcrit 在等级记分模式下的推广。 仿上,给出相应的 f,
10、g, h, d,也可将 SLcrit 推广到 Samejima等级记分模式,即给出目标函数 2011 )( jtyjtxftmjNG S L PPtd j 2*111 )( jtyjtxftmjN Pj ( 12) 同样地,我们还可以将最小 2 -方法推广到等级记分模式 5。 例 2 若在 0-1记分模式下,记 )1(ln,)1(ln)(l o g 11 x a mx a mxaxax PPPPPit )(lo g,),( lo g)( 1 xNxx PitPitPf ,同样定义 )()( yy gfPg , yxyxh ),( ,则 )()() ) ()() ) )(),( yxyxyx P
11、fPfPfPfPgPfHd = 211 )()( yjyyjxjyxjmjN babBAa ( 13) 这是陈希镇 2001 年 5月给出的一个等值目标函数,相仿还可给出另一个目标函数 211 )()( yjyyjxjyxjmjN babBAa ( 14) 例 3 在 0-1记分模式下,记 jxjx PQ 1 , jyjy PQ 1 )(,),()( 11 mxmxx PfPfPf , )lnln,ln( ln)( 11 y N jjyx N jjxjxj QQPPPf 同样定义 )()( yy PfPg ,再定义 )()()(),( yxyx PfPfPfPfh )()()()()(),(
12、yxxyxyx PfPfPfPfPfPfhd ( 15) 其中 ),( 21 mx d ia g , ),( 11 x N jjxx N jjxj QQPPd ia g j=1,2,m 事实上,( 15)所表示的是 xP 与 yP 的相对熵( relative entropy) )|( yx PPI )(ln)l n ()|( 11 jyjxjxjyjxjxmjNyx QQQPPPPPI ( 16) 但( 16)中 x与 y不对称,故可以再定义 )|()|()|( xyyxyx PPIPPIPPS ( 17) 若考虑等级记分模式,( 17)式可以拓广为 N jtxjtyjtyjtyjtxjtx
13、fjmjyx PPPPPPPPS j1 01 )l n ()l n ()|( ( 18) 经实际计 算和反复模拟,( 18)和( 10)、( 11)、( 12)计算出的等值系数 A, B相距无几,甚至有时更精确。并且用熵来度量两个分布的相近程度是一种自然的方法 6, P32。 204 5 结论 我们统一处理了 IRT 中几种常见的等值方法。通过统一处理不仅可以发现不同等值方法之间的本质联系,而且可以给出一些新的等值方法。根据 Monte Carlo 模拟的结果可知,新的等值方法,特别是相对熵方法是一种较好的等值方法,对此我们将单独撰文报道。 参考文献 1 漆书青 . 戴海崎 . 丁树良,现代教
14、育与心理测量学原理 . 南昌:江西教育 出版社, 2000.20( 3) . 2 戴海崎 . 等级反应模型项目特征曲线法等值研究 . 心理学探新 . 2000.20( 3) . 3 Hambleton, R.K.& Swaminathan, H., Item Response Theory, Principles and Applications, Boston: Kluwer (1985). 4 Kim, S-H, & Cohen, A.S. , A minimum 2 method for equating tests under the graded response model. Ap
15、plied psychological measurement, Vo1.19,No.2, 167-176 (1995). 5 Kolen, M.J.& Brennan, R.L. , Test Equating Methods and Practices, New York: Springer-Verlag (1995). 6 Kotz.S, 吴喜之 . 现代贝叶斯统计学 . 北京:中国统计出版社, 2000. The target functions of several well-known equating methods is treated in a unified form. Using the unified form two new equating methods are derived. The relative entropy method is appoximate to item characteristic curve and test characteristic curve methods according to the computational results. Key words: Target function Unified form Relative entropy equating method