第五章
测量效度>>练习与思考
练习与思考:
1.什么是测量的效度?它与信度的关系这样?
2.什么是内容效度?测验编制者和使用者应分别从哪几个方面来把握内容效度?
3.什么是结构效度?测验编制者和使用者应分别怎样把握结构效度?
4.什么的实证效度?它与内容效度和结构效度有何异同?
5.什么是效标和效标测量?
6.已知
若希望把效度系数提高到0.65和0.70,则测验长度要增加几倍?
解答要点:
1.(1)效度是指一个测验或量表实际能测出其所要测的心理特质的程度。
①信度高是效度高的必要而非充分条件
当随机误差的变异(
)减小时,真实分数的变异数增加,测验信度(
)随之提高。信度的提高只给有闲变异数(
的增加提供了可能)至于是否能提高效度,还要看系统误差变异数(
的大小)。可见,信度高不一定效度就高。但一个测验要想效度高,真分数的变异数必须占较大的比重,即测验的信度必须高。
②测验的效度受它的信度制约
根据效度和信度的定义(
)以及公式(
)可得到:
2.(1)内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。
(2)测验的编制者和使用者应该从以下几个方面来把握内容效度:
①首先应该明确内容效度的含义;
②应该明确内容效度的应用范围;
③在使用时还要主要不要跟表面效度相混淆;
④对测验的编制者来说应该懂得确定测验内容效度的方法,明确确定内容效度的步骤。
3.(1)结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。
(2)对于编制者和使用者来说应该从以下几个方面来把握结构效度:
①首先应该明确结构效度含义;
②其次也应该了解结构效度的特点;
③应知道结构效度的应用范围;
④对测验的编制者来说应该懂得确定测验结构效度的方法,明确确定结构效度的步骤。
4.(1)实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。
(2)实证效度与内容效度和结构效度一样都用于估计测验效度。
(3)实证效度与内容效度和结构效度的不同之处在于:
①它们是估计测验效度的不同方面;
②它们的应用范围不同;
③确定它们的方法也不同。
5.(1)效标是衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得的我们所感兴趣的行为。
(2)效标测量就是把我们所感兴趣的行为用数字或等级表达出来。
6题:
得当效度系数提高到0.65时,测验长度要增加6.4倍;
当效度系数提高到0.70时,测验长度要增加20倍。
第六章
测验的项目分析>>练习与思考
1.测验项目分析的作用是什么?
1.因为用测验的项目分析可以解决以下问题:
(一)项目是否具有所预期的功能?对于常模参照测验,测题是否有足够的区分度?对目标参照测验来说,测题是否能充分地测量到教学的结果。
(二)项目的难度是否得当?
(三)项目是否有缺陷?
第七章
测验常模>>练习与习题
练习与思考:
1.试比较各种导出分数的优缺点。
2.列举你所了解的各种测验的分数合成方法,并评价它们的合理性。
3.选择常模团体与制定常模有什么关系?任何选择好常模团体?
4.离差智商与比率智商的本质差异是什么?
(此题为思考题)
解答要点:
1.常用的导出分数有百分等级、标准分数、T分数。
百分等级
百分等级的优点:百分等级是一种相对位置量数,具有可比性,且具有易于计算、解释方便等优点,对一般教师、学生和家长来说,均能了解百分等级的意义,所以它较适用于不同的对象和性质不同的测验。另外,百分等级不受原始分数分布状态的影响,即使分数分配不是正态的,也不会改变百分等级常模的解释能力。
百分等级的缺点:
(1)百分等级的单位不等,尤其在分配的两个极端。如果原始分数的分配是正态或近似正态分布,则靠近中央(平均数或中位数附近)的原始分数转换成百分等级时,分数之间的差异便夸大了,虽然原始分数比较靠近,但转换成百分等级后,却显示出很大的差异性;对接近两极端的原始分数,百分等级反应迟钝,即使原始分数发生较大的变化,也不能引起百分等级的相应变化,使得其差异被缩小了。
(2)百分等级只具有顺序性,无法用它来说明不同被试之间分数差异的数量。它不适合计算平均数、相关系数及其它统计量数。
(3)百分等级只相对于特定的被试团体而言的。因此在解释时不能离开特定的参照团体。被试得分不变,但参照团体改变了,百分等级值就可能发生变化。所以在报告百分等级时,一定要说明是相对于什么参照团体来说的。
标准分数
标准分数的优点:标准分数是一个抽象值,不受原始测量单位的影响,并可接受进一步的统计处理。具有可比性和可加性。
标准分数的缺点:由于计算中经常出现负数和小数,且单位过大(一个标准差单位),所以,使用起来不够方便。
T分数
T分数的优点:
(1)
具有等单位特点,便于工作进一步的统计分析。
(2)正态分布下,可以利用正态分布表将各种导出分数与百分数等级分数作换算。
(3)正态分布下,运用某种变式分数可以将几个测验上的分数作直接的比较。即使是非正态分布,也可运用由正态化的Z分数转换而得的变式分数进行直接比较分析。
T分数的缺点:
(1)分数过于抽象,不易理解,正如在介绍麦柯尔的T分数时所提到的那样不为一般人所熟悉。
(2)在非正态分布下,分布形态不同的变式分数,仍然不可以作相互比较,也不能相加求和。
2.(1)临床诊断--直觉合成:在实际工作中,最常用的组合测验分数的方法是根据经验对测验分数作直觉的组合,这就好比临床医生,把各种化验、检验所获得的资料与实际观察所得的结果结合起来,根据经验作出诊断一样。象这种根据直觉的经验,主观地将各种因素加权,而获得结论或预测的方法叫作临床诊断。
临床诊断--直觉合成的合理性表现在:
①具有高度的综合性。它允许我们从整体上来考察问题,充分考虑各测验所测特质间交互影响,各测验上所得分数的对比关系与组合类型的结构特点,测验分数与实际反应表现其中的生动关系等。
②具有灵活的针对性,能就特定的个人作具体的结论。而一般的统计方法具有常模性,常模性的统计模式难于适应每个个体所具有的独特性,更难于适应非典型的新颖形式。
(2)加权求和合成:如果各个测验所测特质间相互代偿作用,这些测验上的分数又是连续性资料,并能大体同时获得,那么可以采用加权求和的立法对分数进行合成。
加权求和合成的合理性表现在:
将变量做了等量加权后适合于各测验对预测效标具有同等重要性的场合,根据各个变数与效标之间的经验关系作差异加权后适合于各测验对预测效标具有不相等的场合。
(3)多重回归:多重回归就是研究一种事物或现象与其他多种事物或现象在数量上相互联系和相互制约的统计方法。
多重回归的合理性表现在:
(4)多重划分:多重划分就是在各个特质上都确定一个标准,从而把成绩划分为合格与不合格两类。在一个测验上合格了,不能保证总的要求一定能合格。只有每个测验都合格时,总要求才算合格。
多重划分的合理性表现在:
3.选择常模团体与制定常模的关系:制定常模首先要确定出常模团体。
应该这样选择常模团体:
(1)
群体构成的界限必须明确。
在确定常模团体时,必须清楚地说明所要测量的群体的性质与特征。虽然有关常模团体的一般规定取决于测验的目的与使用,且可能有多个常模团体。但对每个常模团体的性质和特征必须有一个简短而明确的描述,若群体过大,群体内部也许有许多小团体,它们在一个测验上的表现也时常有差异,假如这种差异较为显著,就必须对每个小团体分别建立常模。例如,艾森克个性预测(EPQ),就是分性别,以不同年龄组而建立常模的。
(2)
常模团体必须是所测群体的一个代表性样本。
当所要测量的群体较小时,将所有的被试逐个测量以得到常模。在群体较大时,则不可能如此,只能测量一部分被试作为群体的代表,此时就存在取样是否具有代表性的问题。如果常模团体缺乏代表性,将会使常模资料产生偏差,从而影响到测验结果解释的准确性。为了克服取样偏差,保证具有代表性,一般在抽样时应遵循随机化原则,采用统计学的方法抽取样本。关于具体抽样方法,可参阅有关统计学著作中的抽样推断部分。
(3)
取样的过程必须明确且有详尽的描述。
取样的过程必须明确且有详尽的描述,这主要是为了使测验的使用者不至于误用测验和错误地解释测验结果,所以在一般的测验手册中,都有相当篇幅详细介绍常模团体的大小、取样策略、取样时间以及其他有关情况。这些说明和描述越明确、越详尽夜好。
(4)
样本大小要适当。
所谓"大小适当"并没有明确的指标。根据统计学原理,取样误差与样本大小成反比。所以,在其他条件相同时,样本越大越好。但是还应考虑到人力、物力等方面的因素,通常在决定样本大小时,应注意:
①总体的数目。总体数目小,样本相应可小些,但不应过小,若总体过小,则可将全部被试入选;当总体较大时,相应样本也大。
②群体的性质,如果群体性质单一,则样本不必太大,即可以反映群体性质;若群体性质复杂,则样本容量(n)就应大一些。
③测验结果的精确度。根据统计学原理,抽样误差的大小与样本容量成反比,若要提高精确度,即是说减低抽样误差,就必须加大样本容量(n)。
(5)
常模团体必须是近时的。由于当今教育发展迅速,所以建立的常模必须是近时的,过时的常模是不能作为参照标准的,一个常模不能一劳永逸地使用。
(6)
注意一般常模与特殊常模的结合。测验手册上所列的常模通常为一般常模,它的使用范围比较广。有时对于某些特殊的群体不一定完全适用。因此,测验在希望使用更为具体的、适合特殊情况的常模。即特殊常模。将特殊常模与一般常模结合起来,可使被试与最接近的群体进行比较。因为各个具体群体在某些方面是独特的,它的成员将与测验手册所列的常模团体成员不符。所以,依据一般常模解释所得的结论可能不够恰当,如果将两者结合使用,解释分数便会更加准确。但特殊常模只提供有关特殊信息,适用范围较窄。所得结论不能在广泛的背景作解释。