1、第一部分 测量理论与问卷量表的编制,测量的定义,测量的定义:运用一套符号系统去描述某个被观察对象的某个属性的过程将某个研究者所关心的现象予以变量化的具体步骤,也就是把某一个属性的内容,以变量的形式来呈现。 符号系统的表现形式度量化(scaling):以数字的形式去呈现某个属性的数量(quantities)。分类(classification):以分类的模式,去界定被观察对象的某个属性或特质是属于何种类型。,测量的种类与形式,(1)根据具体对象分:认知测验(成就检测、智力检测、能力倾向检测)与人格测验(态度、兴趣、性格、道德)(2)依据目的分:描述性、预测性、诊断咨询、挑选性、配置性、计划性、研
2、究性(3)依据检测的材料分:文字性测验、非文字性测验(4)根据检测的质量要求分:标准化检测与非标准化检测(5)根据检测的事实对象分:个别检测、团体检测(6)根据检测是否有时间限制:速度检测、难度检测、最佳行为检测、典型行为检测(7)根据检测的具体领域:教育检测、职业检测、临床检测、研究性检测,心理测量的功能,收集研究资料建立和检验理论假设实验分组选拔人才人员安置心理诊断心理咨询描述评价,心理测量的使用,使用资格: 心理专业本科以上学历者; 在心理测量专家指导下具有两年以上测验使用经验者; 经过心理测量培训班专门训练并获得资格认定书者。测验的保密:保证测验的价值、防止测验的失效保护个人隐私:只有
3、在必要的情况下,才询问个人隐私;保证为受测者保密;凡测验中必要涉及个人隐私就事先征得同意,测量的格式,指量表的整体形式结构与非结构化测量量表题目的特性开放性测量数字型问题文字型问题封闭式测量类别性测量连续性测量,编制测验的一般程序,(一) 确定测验的目的(二) 拟定编制计划(三) 设计测试项目(四) 项目的试测和分析(五) 合成测验(六) 测试使用的标准化(七) 搜集信度、效度资料(八) 编写测验手册,确定测验的目的,明确对象明确目标明确用途,拟定编制计划,双向细目表:测验项目;项目比例。可用来核对项目是否覆盖所测领域;确定项目分数,设计测试项目,收集资料选择项目形式(全开放型;单一反应型;多
4、重选择型;双极等级评定;利克特型;排序;分类信息编写修订项目(项目取样代表性;项目范围与测验计划的一致性;项目数量的要求;项目难度的要求,项目的试测和分析,预测:与正式测验有一致性(同样群体,情境一致);与正式测验不同(时限宽,人数不必太多)项目分析:难度;区分度;答案的适当性;内容适当性;表达清楚,合成测验,项目选择:难度、区分度选择项目的编排:并列直进式、混合螺旋式编制复本:同一心理特质; 相同内容范围;题型相同;题量相等;难度分布相同,Likert scale(李克特式量表),李克特式问卷是广泛应用在社会与行为研究中的一种问卷格式,适合于态度测量和意见的判定。典型的Likert量表由一组
5、测量某一个相同特质或现象的题目所组成,每一个题目均有相同的重要性。每一个单一的题目,包含了一个陈述句与一套量尺。量尺由一组连续数字所组成,每一个数字代表一定的程度,用以反映被试对于该陈述句同意、赞成或不同意、反对的程度。李克特氏量表分数的计算与运用有一个基本的假设,即数字与数字之间的距离是相同的,在这一假设下,不同的题目才可以加总得到一个量表的总分,因此Likert量表又称为总加量表,表示量表的总分由个别题目加总所得。,李克特式量表,编写的基本步骤,编写项目(Item Generation)编写出许多表面效度的项目。项目分析与选择(Item Analysis and Selection)计算项
6、目得分与总分的相关系数,然后选择10到20个相关程度最高的项目(0.80以上较好),以得到一量表。施测(Administration) 将项目随机排列后,给被试填写,且要安排反向题,以发现那些被试是完全不看项目内容,而只在按照某一个习惯作答。至于分数的计算,则为被试各个项目得分的加总。因此又称为总加量表。,评价,优点最通用,因为使用简单。 缺点不一定为等距尺度。所以是否可由各项目得分相加以求算总分尚有待商榷。被试间不一定存有可比较性。因此相同的分数所代表的意义不一定相同。被试内不一定存有可比较性。所以一被试所谓的常常看电影与常常打篮球,所表示的实际频率可能不同。被试通常不愿选择太极端的值,或因
7、顺从社会规范而不诚实作答,致使测量存在误差。,Thurston scale(瑟斯顿量表),以Thurstone格式所编写的量表称为Thurstone量表,此量表也是由一组测量某相同特质的题目所组成,但是每一个题目具有不同的强度,被试勾选某一个题目时,即可获得一个强度分数,当一组题目被评估完毕后,所有被勾选为同意的题目的强度分数的中位数,即代表该量表的分数。,Thurstone量表的编制 首先,编制者先将编写完成的一组题目(约数十个),交由一群相关的实务人员,请这些评估者按照个人喜好或实务上的重要性,将题目归类,例如将最不重要或轻微的标为1,最重要的归为11,其它的依序给予1至11不同的数字,代
8、表不同的重要性。评分完成之后,每一题可以计算出一个平均数或四分位差(Q Score),每一个题目的Q分数如果越大,代表大家的评分越分散,重要性越模糊,但是如果大家一致认为某个题目很重要或很不重要,该题目的Q分数则会越小,变异情况较小,模糊性低。研究者即依模糊性的高低选出最一致性的题目10至20题,并使其平均数能涵盖不同轻度高低,组成一套Thurstone量表,此时这十几题不但内容上具有特定的重要性,而且模糊性低,且每个题目都有一定的重要性权重(即重要性平均数)。Thurstone量表完成后,由受测者逐题依“同意”或“不同意”作答,回答同意的题目计1分,并乘以该题重要性的权重得到个体分数,再以各
9、题分数的中数代表该量表的得分。该量表的测量较Likert尺度更符合等距的原则,因此,该方法也被称为等距量表法。但是,该量表制作过于复杂,评分者选择有其代表性与客观性问题,且耗时较多,因此并不经常被采用。,(4)评价,优点最符合用单一数值来表达一概念的要求。 缺点所测量的概念须定义得非常严谨并有一固定或顺序性的模式存在,如婴幼儿的发展阶段;较难用在态度的测量上。过程耗费时间、人力。不论所测量的概念为何,但若被试皆为异质性的,也很难得到满意的测量值。,语意差别测量,语意差别测量,使用两极化形容词来表示测量的内容。语意差别法对于题目分数的计算,除了个别的使用每一个形容词配对来进行平均数的计算之外,还
10、可以将形容词加总获得总分来计算,因此,也是一种总加量表。此外,除了可以用Likert量表的尺度之外,另一种替代的方法是以一段开放的线段,让被试自由点出其意见倾向,再以点选的距离来代表被试的强度,因此也被称为视觉类比测量。,强迫选择问题,强迫选择问题,强迫选择问题,强迫选择问题是利用两个立场相反的描述句,其中一句代表正面的立场,另一句代表反面的立场,要求被试自两者中选择出比较接近自己想法的题目,然后将正面的题项勾选题数加总得到量表的总分。强迫选择量表主要在于改善Likert量尺对于两极端强度测量敏感度不足的问题,当被试在两个立场向左的陈述句作二选一选择时,即明确的指出个人的立场,而不会由中庸模糊
11、的分数。此外,强迫选择问题能够回避一些反应心向的问题,减少被试以特定答题趋势去回答问题(例如中庸取向,一致偏高分作答等等)。强迫选择量表的缺点之一时量表的长度比传统Likert量表多出一倍,增加了编题者的工作量。强迫选择量表在销售调查或民意测验时,用以了解被试的立场时有其强迫表态的优点。,形容词评定技术,形容词评定技术,形容词表单可以说时一种简化的Likert量尺的测量格式,正对某一个测量的对象或特制,研究者列出一组关键的形容词,并要求被试针对各形容词的重要性进行评估。形容词表单是一种探索性的测量方法,一般研究中对于形容词的选择大多并没有理论依据。当被试针对一组形容词进行判定之后,利用因素分析
12、的技术来进行分类或以特定方式重新分组。在某些人格量表中,测验编制者基于特定的理论或实证的研究数据,列出某一心理特质相关的重要形容词,组成形容词表单,对被试进行施测,加总得到的分数即代表该心理特质的强度。,问卷编制注意事项,(1)项目至少能区分两个组的不同(2)避免装假倾向(3)避免默认倾向(4)避免社会赞许性(5)避免无回答(6)避免防卫倾向(7)避免暗示答案,问卷编制注意事项,(8)对笼统、抽象、含混概念不加操作性定义,造成问卷设计者与调查对象或调查对象之间的理解不一致。 比如,“你的家庭布局是:A学术气氛 B现代化 C时髦 D整洁 E一般”(9)两个以上概念在同一题目中出现。如“你经常教小
13、孩识字和算术吗?”(使那些只教小孩识字或只教算术的家长很犯难)(10)使用专门术语、行语、俗语。(11)答案设置漏掉了综合性的选择项目。比如,你在为孩子选择书包时,首先重视的是书包的:A质量 B容量 C价格 D色彩,问卷编制注意事项,(12)使用不肯定的词,如“某些”、“相当”、“非常”、“经常”。(13)使用可作多种解释,意义含糊的词。如“你父亲属于哪一社会阶层”(“属于”可理解为“目前是”、“最终或应该属于”)(14)问卷中出现调查对象未经历过的或不知道的,导致问卷结果的虚假性。(如要求学生从其并未看过的电影名称中挑选他最喜欢的一部),问卷编制注意事项,(15)问题的陈述使用否定句(特别是
14、双重否定句),致使答卷者忽略其中的否定词而误解题意,造成回答不真实。(16)问题带有刺激性的词,伤害调查对象的感情,使人受窘,引起反感。如“你家里有酒鬼吗?”(17)问题缺乏受限制的前提。比如,为了解高师生的职业理想变化情况,设问“入学以来,你从事教师职业的态度有所变化吗?”(18)题目中供选择的项目未包含所有的程度。,问卷题目的编制的窍门,所设置的问题与所研究的主题密切相关;题目应清楚,无歧义;尽量不要使用带有倾向性的问题;所提出的问题应为被调查者能够回答的问题(在其知识或经验范围内);尽量不提带有社会压力的问题;所提问题应尽量具体;“你小时侯(在读初中时)暑假在家干什么”问题中提供选择答案
15、要么全列出来,要么全不列;“在你的公司中你的升迁主要靠所创造的价值吗?”,问卷题目的编制的窍门,对某些不易理解的问题应尽量作些简单解释;询问回答者的切身体验比普遍提法要好;采用多种方式减轻问题可能给回答者带来的社会压力投射式提问,提示其他人可能处于相同情景。“中学生对能否谈恋爱有不同的看法,请你对下面的看法作出评定:A应公开提倡 B应任其自然发展 C应对其进行淡化 D应旗帜鲜明地反对 E其他”假定性提问:假定回答者可能会否认某种问题,就要让他无法否定。比如,“你第一次吸毒是在什么时候?”(假定他吸过毒,而不问“你吸毒吗?”)迂回、间接地提问委婉性提问。(清洁工“环境卫生技师”),第二部分心理测
16、验客观性指标,1、信度: reliability 2、 效度;validity3、 项目分析(难度和鉴别力),1、信度,指测验结果的可靠程度。只有测验结果接近或等于实际真值,或多次测验结果十分接近,就可以认为测验结果是可靠的。 科学的东西必须能够重复,两次测验的结果必须具有一定的一致性,差异比较小,信度问题实质是一组被试两次测验结果的一致性问题。测验的可靠性,是指对某一群体而言,不是针对某一个被试而言。 信度高低可以用相关系数来表示。,信度的作用和意义作用:1)解释预测个人分数的意义 2)解释真实分数与实得分数间的关系 3)确定测验好坏的一个指标;最理想 r=1.00,意义:1)信度系数为样本
17、测验分数的总方差中有多少比例是真分数方差,也就是测验的总变异中真分数造成的变异占百分之几; 2)测量的标准误是有多大可能性真实分数在某一分数范围内。并且可以预测实得分数再测时可能的变化情况。,信度估计方法 (1)重测信度 同一量表对同一组被试施测两次所得结果的一致性程度。主要针对时间变量,采集数据方法是对同一组被试间隔一定的时间相同的测验重复测试一次。时间间隔选择依测验性质和目的而定。,条件:所测特质须是稳定的;施测间隔期内,所测特质没有获得更多的学习和训练;遗忘和练习效果基本相互抵消。,重测信度计算:皮尔逊积差相关法,(2)复本信度 又叫等值性系统,考虑误差来源是内容取样,采集数据方法:给被
18、试施测两个内容等值但题目不同的测验,即:一个测验有平行的两个版本测验A、B,先作A式测验,在最短时间内再作测验B式,求两组数值的相关,计算积差相关法。,复本信度的高低反映两个互为复本的测验等价的程度,而不是反映一个测验本身受随机误差影响的大小,关键取决于复本测验的选择。,(3)分半信度(内在一致性信度) 劈半信度或折半信度,如智力测验,成就测验,是一种将测验分成等值的两半来求相关系数的信度。考察一个测验内容两半题目测量的是否同一个心理特点或行为。采集数据方法:一次测验结束后,将测验按一定标准分为等值的两半,分别计算每位被试在两半测验上的分数,求出相关系数,计算用积差相关法。 常用的方法是将一个
19、测验分裂为两个假定相等而独立的部分,然后计算这两部分的得分相关系数(如奇偶项),之后再用斯皮尔曼布朗公式(r=2r/1+r)估计整个测验的信度。,(4)同质性信度 同质性信度:所有题目间的一致性程度,考虑测验内容是否异质。同质性是测验单一特质的必要条件。 判别标准:题目间呈高正相关。数据采集方法:施测一次测验,算出所有题的得分,求出各题目的相关。 同质性信度也是一种构思效度,或叫结构效度。,计算公式:克龙巴赫系数,例题:某态度量表共7题,100个被试在各题上得分的方差分别是0.81,0.82,0.79,0.83,0.85,0.76,0.77,测验总分的方差为14.00,求信度系数。,评分信度:
20、考虑测验随机误差来源是评分者间的差别,由评分者造成,用积差相关法求得不同评分者所评 分值间的相关。 2个评分者用斯皮尔曼等级相关法,3人以上用肯德尔和谐系数。,计算公式:,影响信度的因素,1) 样本特征:样本团体得分分布的影响,样本越分散信度越高;样本团体异质性的影响,异质性越高信度越高;样本团体平均能力水平的影响,平均能力越低信度越高2) 测验的长度:测验越长题目越多,测验的内容取样就越有代表性;测验越长被试的猜测因素影响越小,信度就高。3) 测验的难度:测验难度对信度有间接影响。对于人格测验、兴趣、态度、价值观等测验,不存在难度问题。从理论上说,只有难度水平为50%时,才能使测验分数分布范
21、围最大,求得的信度也最高。4) 测量的时间间隔:时间间隔只对重测信度和不同时测量的复本有影响,时间越短信度值越高。,2、 效度,它表示一个测验实际测量出所测特性或功能的真实性程度,或指一个测验真正确实地测量到它所欲测量的东西的程度。含义:1)测验测量什么? 2)测验对测量目标的测量精确度和真实性是多少?鉴别一个测验的好坏,首要的指标就是效度。,效度是针对测验目的而言的。不同测验有不同的目的。比如智力测验,如果用来测验智力就可能是高效的,用来测验性格则肯定是无效的。所以在使用心理测验时必须明白测验的目的。,效度估计方法 (1)内容效度 表示测验所选的题目(测题)符合所欲测验内容的程度。是测验题目
22、对有关内容或行为总体取样的适当性程度。用于成就测验,不适合能力倾向和人格测验确定内容效度的方法: 逻辑法:专家判断,专家对测验题目进行考核,看测验是否能够测出所要测的内容; 经验法:经验判断,通过实践检查测验能否测出欲测的内容。 统计法:抽取两套平行测验,测同批被试求相关,(2)结构效度,也叫构想效度,表示测验实际测量出所欲测量的心理结构或特征的程度。用一个结构框架去衡量效度。构思效度无单一指标,由各方面证据累积直接来作出评价。 确定方法:测验内部方法(内容效度、同质性信度),测验间方法(求与效度高测量相同特质的旧测验的相关或与不同特质的测验的相关;因素分析法),效标效度研究,实验和观察法验证
23、,(3)效标关联效度 又称效标效度,实证效度或准则关联效度。它是测验分数与作为效标的另一独立测验结果之间的一致性程度;或测验总分数与外在标准之间的相关程度,反映的是用测验预测个体在某种情境下行为表现如何的有效性程度。 同时效度:效标资料与测验分数同时获得。主要用来查明新编测验的效度。 预测效度:效标分数在测验之后相当长时间获得。主要用来评价测验的预测能力。反映从测验分数预测任何效标情境或一段时间后被试的行为表现程度 常用效标:学业成就,临床诊断,实际工作表现,特殊训练成绩,效标团体比较,先前有效测验,等级评定。,实证效度确定方法相关法 :计算测验分数与效标分数的相关系数,区分法:被试接受测验并
24、工作一段时间后,根据其工作成绩分成好坏两组,比较两组原测验分数,命中率:正命中率(测验选出的人中合格中所占比例);总命中率(测验所选出的人中合格人数,淘汰的人中不合格的人数和与总人数之比),(4)表面效度 它是一个测验看起来好像是测量所要测的东西的程度,不是效度,不反映测验正测量的东西,只是外行人的一种评价。,影响效度的因素 1) 测验本身因素,包括:测验题目质量,测验长度,测验实施中的干扰,被试因素,增加测验误差,降低测验效应。 2) 测验施测的样本性质,样本同质性越高,效度越低。不同团体对同一测验反应可能不同;同一测验,效度团体性质不同;样本团体的异质性 3) 效标的性质:若其它条件一样,
25、所测量的行为或心理特质与效标行为或特质越相似,效度系数就越高,信度和效度的关系 St2=Sco2+Ssp2+Se2 St2 :总分变差。 Sco2 :由所测量的心理特性引起的主要变差。 Ssp2 :由与所测量的特性无关的其它个别性质所造成的变差(系统误差引起的变差)。 Se2 :误差变异。 rtt=(Sco2+Ssp2) / St2 ; Val= Sco2 / St2,信度和效度的关系说明:,相同:信度和效度是以相关系统来表示的不同:涉及的误差不同,信度仅考虑偶然的随机误差占测验总变异的比例;效度则还包括与测验无关但稳定的测量误差联系:1)信度是效度的必要而非充分条件,信度越高,效度不一定越高
26、2)效度是受信度制约的,在同一个测验里其信度必然高于效度,至少相等。,3、项目分析(难度和鉴别力),测验的好坏与项目(测题)的选择有很大的关系,好的测题是鉴别力高并且难度适宜的项目。项目分析三内容1) 诱答分析:每个项目只有一个正确答案其余均为诱答。2) 难度分析:通过率:回答某个项目的样本中,正确回答该项目的人数P=R/N*100。3) 鉴别力分析:鉴别力是对于所测量的心理特性的区分能力。,(1)项目难度 项目难度是衡量测题难易水平的数量指标。估计项目难度的方法通常是以被试通过每个项目的百分比来决定的,如果一个项目通过百分比太高或太低,说明该项目太易或太难,一般情况下这两个项目应该删除。 通
27、过率:回答某个项目的样本中,正确回答该项目的人数P=R/N*100,,二分法记分项目的难度,通过率,极端分组法,非二分法记分项目的难度,(2)项目鉴别力(区分度) 它是衡量测题对不同水平被试区分程度的指标。如果一个测题鉴别力高,那么水平高的或能力强的被试就得高分,否则得低分,这样就能把不同水平得被试区分开来。 估计鉴别力方法通常是以不同水平的被试通过每个项目的百分比之差来决定(D=PH-PL) 。,计算公式,鉴别指数法:PH-PL,相关法,(3)区分度与难度关系,(4)项目难度受猜测影响的校正,校正公式,全体被试,某个被试,项目分析的 特殊问题,(一)备选答案的反应模式 多重选择题依然需要分析
28、被试对各个备选答案的反应模式。1、正确的备选答案被所有受试选择,说明题目太容易或题目可能提供了某种暗示。2、错误答案没有一个被试选择,说明该选项不具迷惑性,错得过于明显。最少要有2以上的人选择,否则这个备选答案要去掉。3、如果被试都选择了同一错误答案,可能是编著测验时把正确答案定错了,4、高分组被试的选择集中在两个答案上,二者选择率相近,说明该题可能有两个正确答案或在某种意义上另一个选择也有一定的意义。5、高分组对正确答案的选择与低分组相等或低于后者,说明该题所考察的东西与被试水平无关,即不具有辨别力。6、一个题目被试未作答的人数多(速度测验除外)或选择各个备选答案的人数几乎相等,说明该题可能
29、过难或题意不清。,(二)标准参照测验的项目分析 以上介绍的是常模参照测验的项目分析方法,不完全适用标准参照测验,需要注意以下方面。 1、难度分析 标准参照测验可以采用常模参照测验的方法计算难度,但对难度水平的要求不同,只要认为项目重要,就可包括在测验中,而不管其通过率和鉴别力如何。 2、区分度分析 标准参照测验不适合用相关法计算区分度,但可以采用类似鉴别指数的方法计算,即比较两组通过率。,(三)速度测验的项目分析1、项目特点:项目容易,多数人都可以通过。项目多,有时限,很少有人做完全部项。2、通过率和区分度的特征测验前部项目通过率高,后部低。前部区分度低,后部区分度被高估。从速度测验得到的项目分析的指标,主要反映了项目的位置,而不反映项目的难度和区分度。3、前面介绍的分析方法不适用速度测验。,