英语专业本科学习

运用spss软件进行信度分析 【转】

运用spss软件进行信度分析 (转载)

http://wfq0927.blog.sohu.com/61109874.html

问卷的信度分析

一、概念:

    信度是指根据测验工具所得到的结果的一致性或稳定性,反映被测特征真实程度的指标。一般而言,两次或两个测验的结果愈是一致,则误差愈小,所得的信度愈高,它具有以下特性:

1、信度是指测验所得到结果的一致性或稳定性,而非测验或量表本身;

2、信度值是指在某一特定类型下的一致性,非泛指一般的一致性,信度系数会因不同时间、不同受试者或不同评分者而出现不同的结果;

3、信度是效度的必要条件,非充分条件。信度低效度一定低,但信度高未必表示效度也高;

信度检验完全依赖于统计方法。

    信度可分为:内在信度:对一组问题是否测量同一个概念,同时组成量表题项的内在一致性程度如何;常用的检测方法是Cronbach’s alpha系数。外在信度:对相同的测试者在不同时间测得的结果是否一致,再测信度是外在信度最常用的检验法。

二、信度指标:

1. 用信度系数来表示信度的大小。信度系数越大,表明测量的可信程度越大。究竟信度系数要多少才算有高的信度。学者DeVellis(1991)认为,0.60~0.65(最好不要);0.65~0.70(最小可接受值);0.70~0.80(相当好);0.80~0.90(非常好)。由此,一份信度系数好的量表或问卷,最好在0.80以上,0.70至0.80之间还算是可以接受的范围;分量表最好在0.70以上,0.60至0.70之间可以接受。若分量表的内部一致性系数在0.60以下或者总量表的信度系数在0.80以下,应考虑重新修订量表或增删题项。

2.信度指标多以相关系数来表示:大致可分为三类:稳定系数(跨时间的一致性)、等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。 

 三、信度分析方法:1.重测信度法:

用同样的问卷对同一被测间隔一定时间的重复测试,也可称作测试——再测方法,计算两次测试结果的相关系数。很显然这是稳定系数,即跨时间的一致性。重测信度法适用于事实性的问卷,也可用于不易受环境影响的态度、意见式问卷。由于重测信度需要对同一样本试测两次,而被测容易受到各种事件、活动的影响,所以间隔时间需要适当。较常用者为间隔二星期或一个月。

2.复本信度法(等同信度法):

复本信度法是让被测一次填写两份问卷复本,计算两个复本的相关系数。由于这种方法要求两个复本除表达方式不同外,在内容、格式、难度和对应题项的提问方式等方面都要完全一致,所以复本信度属于等值系数。在实际的调查中,问卷很难达到这种要求,这种方法较少被采用。

3. 折半信度法:

折半信度法是指将测量项目按奇偶项分成两半,分别记分,测算出两半分数之间的相关系数(实际应用EXCEL软件),再据此确定整个测量的信度系数RXX。折半信度属于内在一致性系数,测量的是两半项目间的一致性。这种方法不适合测量事实性问卷,常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特量表。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh)),即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式:rtt=2rhh/(1+rhh),求出整个量表的信度系数rtt。

4. 评分者信度:

这种方法在测量工具的标准化程度较低的情况下进行的。不同评分者的判分标准也会影响测量的信度,要检验评分者信度,可计算一个评分者的一组评分与另一个评分者的一组评分的相关系数。

5. a信度系数法:

克伦巴赫a信度系数是目前最常用的信度系数。其公式为:a=(k/k-1)*(1-(∑Si2)/ST2)
其中,K为量表中题项的总数,Si2 为第i题得分的题内方差,ST2为全部题项总得分的方差。从公式中可以看出,a系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。

在李克特量表法中常用的信度检验方法为“Cronbach’s a”系数及“折半信度”.

四、利用SPSS进行信度分析

SPSS中,专门用来进行测验信度分析的模块为Scale下的Reliability Analysis;使用Data Reduction之下的Factor模块。

Reliability Analysis模块主要功能是检验测验的信度,主要用来检验折半信度、库李及a系数以及Hoyt信度系数值。至于重测信度和复本信度,只需将样本在二次(份)测验的分数的数据合并到同一数据文件之后,利用Correlate之下的Bivariate求其相关系数,即为重测或复本信度;而评分者信度则就就是使用的Spearman等级相关及Kendall和谐系数。

1   Reliability Analysis模块的Model选项的参数及对应中文术语

关键字   能
Alpha Cronbach a系数
Split-half 折半信度,n是第二分量表的题数
Guttman Guttman最低下限真实信度法
Parallel 各题目变异数同质时的最大概率(maximum-likelihood)信度
Strict parallel 各题目平均数与变异数均同质时的最大概率信度

2  Reliability Analysis模块的Statistics部分选项的参数及对应中文术语

关键字   能
F test Hoyt信度系数
Friedman Chi Friedman等级变异数分析及Kendall和谐系数
Cochran Chi Cochran’s Q检验,适用于答案为二分(如是非题)的量表
Hotelling’s T Hotelling’s T2 检验
Tukey’s Tukey的可加性检验
Intraclass 量表内各题目平均数相关系数

 

SPSS软件分析调查问卷的信度【转】

在做调查问卷时,最看重的是调查问卷的科学性和有效性,如果一个问卷设计出来无法有效地考察问卷中所涉及的各个因素,那么我们为调查问卷所作的抽样、调查、分析、结论等一系列的工作也就白做了。那么,我们如何来检验设计好的调查问卷是否有效呢?信度分析是评价调查问卷是否具有稳定性和可靠性的有效的分析方法。
二、信度分析的提出及分析方法
信度,又叫可靠性,是指问卷的可信程度。它主要表现检验结果的一贯性、一致性、再现性和稳定性。一个好的测量工具,对同一事物反复多次测量,其结果应该始终保持不变才可信[1]。例如,我们用一把尺子测量一张桌子的高度,今天测量得高度与明天测量的高度不同,那么我们就会对这把尺子产生怀疑。因此,一张设计合理的调查问卷应该具有它的可靠性和稳定性。
调查问卷的评价体系是以量表形式来体现的,编制的合理性决定着评价结果的可用性和可信性。问卷的信度分析包括内在信度分析和外在信度分析。内在信度重在考察一组评价项目是否测量同一个概念,这些项目之间是否具有较高的内在一致性。一致性程度越高,评价项目就越有意义,其评价结果的可信度就越强。外在信度是指在不同时间对同批被调查者实施重复调查时,评价结果是否具有一致性。如果两次评价结果相关性较强,说明项目的概念和内容是清晰的,因而评价的结果是可信的。信度分析的方法有多种,有Alpha信度和分半信度等,都是通过不同的方法来计算信度系数,再对信度系数进行分析[2]。
目前最常用的是Alpha信度系数法,一般情况下我们主要考虑量表的内在信度——项目之间是否具有较高的内在一致性。通常认为,信度系数应该在0~1之间,如果量表的信度系数在0.9以上,表示量表的信度很好;如果量表的信度系数在0.8~0.9之间,表示量表的信度可以接受;如果量表的信度系数在0.7~0.8之间,表示量表有些项目需要修订;如果量表的信度系数在 0.7以下,表示量表有些项目需要抛弃。我们可以通过目前比较流行的SPSS软件对调查问卷进行信度分析,这样我们就可以判断一个调查问卷是否具有稳定性和可靠性。
三、利用SPSS软件进行信度分析
下面就以兵团广播电视大学“人才培养模式改(革)和开放教育试点”毕业生追踪调查[3]中《电大教学效果评价》(毕业生用)这一调查量表进行分析。量表见下图。
(一)对量表进行纬度划分,将量表分为知识、能力、业绩三个纬度。其中,第1~4题划分到知识纬度,第5~12题划分到能力纬度;第13~15题划分到业绩纬度。通过每一纬度的Alpha系数来考察每一项得分间的一致性。
1、打开SPSS软件,调入930条记录的数据文件,进入SPSS主界面。
2、在知识纬度中,对项目(1)专业知识的掌握;(2)所学知识与工作岗位的实际需要;(3)知识面的拓宽;(4)专业水平的提高;进行内部一致性分析。
①单击“分析”菜单中的“尺度分析”,再在“尺度分析”的子菜单中点击“可靠性”分析,打开“可靠性分析”的主对话框。
②在左侧的源变量框中选择上述四个项目所对应的变量c1,c2,c3,c4加入到对话框右边的“项目”中,作为分析变量,再在对话框下面的“模型”中选择“Alpha”,进行Alpha信度分析。
③点击对话框中的“统计量”按钮,打开相应的对话框,选择要输出的统计量、变量描述、方差分析,总结等。在这个例题中为了看的清楚,我们用默认方式,即只输出样本个数、项目个数和信度系数。
④点击“继续”按钮,回到“可靠性分析”的主对话框,勾选“列出项目标签”,再单击“确定”按钮,这样软件系统就会自动进行四个项目的分析。
3、由分析结果可知,量表中第1~4题之间的Alpha信度系数
为0.7387,可见这四项的信度系数在0.7~0.8之间,表明有些项目需要修订。我们可以将“知识面的拓宽”与“所学知识与工作岗位的实际需要”进行相关分析,再将 “知识面的拓宽”和“专业水平的提高”进行相关分析,发现它们之间的相关系数都很低,所以我们可以适当修改“知识面的拓宽”这个项目,限定它的范围,提高它的精确程度。
(二)利用上述方法可以对知识、能力这两个纬度进行内部一致性的分析,得出三个纬度的Alpha系数分别是:0.7387、 0.8412、0.7510。由此可见,第一个和第三个的信度系数均在0.7~0.8之间,说明知识和业绩这两个纬度中有些项目描述不够精确,需要进一步调整和修改。能力纬度的信度系数在0.8~0.9之间,说明信度可以接受,不需要进行修订。
(三)再利用上述方法对整个量表的所有项目进行内部一致性分析,得出问卷总的内部一致性信度系数为0.9001,说明量表的信度非常好,整体上不需要进行修改,每个项目都可以保留。
通过这一实例我们可以看出,用SPSS软件进行调查问卷的可靠性分析非常方便,不仅能考察项目间的一致性,还能够检验出需要修改或删除的项目,提高了调查问卷的质量。
(四)小结
利用SPSS软件进行Alpha信度分析,使我们的研究建立在定量分析的基础之上,科学有效地对问卷进行了信度分析,减少了复杂繁琐的计算,方便了我们工作和研究,这样我们的调查问卷才能得出比较客观的综合评价。

调查问卷的信度效度分析方法(转载)
http://hi.baidu.com/wenhan1117/blog/item/42ee3708d25b0dd963d98629.html
问卷调查法是教育研究中广泛采用的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。信度和效度分析的方法包括逻辑分析和统计分析,本文主要讨论后者。
一、信度分析
    信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:
    1、重测信度法
    这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。
    2、复本信度法
    复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。
    3、折半信度法
    折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式:
    求出整个量表的信度系数(ru)。
    4、α信度系数法
    Cronbach α信度系数是目前最常用的信度系数,其公式为:

    其中,K为量表中题项的总数, 为第i题得分的题内方差,为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。
二、效度分析
    效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度分为三种类型:内容效度、准则效度和结构效度。效度分析有多种方法,其测量结果反映效度的不同方面。常用于调查问卷效度分析的方法主要有以下几种。
    1、单项与总和相关效度分析
    这种方法用于测量量表的内容效度。内容效度又称表面效度或逻辑效度,它是指所设计的题项能否代表所要测量的内容或主题。对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。逻辑分析一般由研究者或专家评判所选题项是否“看上去”符合测量的目的和要求。统计分析主要采用单项与总和相关分析法获得评价结果,即计算每个题项得分与题项总分的相关系数,根据相关是否显著判断是否有效。若量表中有反意题项,应将其逆向处理后再计算总分。
    2、准则效度分析
    准则效度又称为效标效度或预测效度。准则效度分析是根据已经得到确定的某种理论,选择一种指标或测量工具作为准则(效标),分析问卷题项与准则的联系,若二者相关显著,或者问卷题项对准则的不同取值、特性表现出显著差异,则为有效的题项。评价准则效度的方法是相关分析或差异显著性检验。在调查问卷的效度分析中,选择一个合适的准则往往十分困难,使这种方法的应用受到一定限制。
    3、结构效度分析
    结构效度是指测量结果体现出来的某种结构与测值之间的对应程度。结构效度分析所采用的方法是因子分析。有的学者认为,效度分析最理想的方法是利用因子分析测量量表或整个问卷的结构效度。因子分析的主要功能是从量表全部变量(题项)中提取一些公因子,各公因子分别与某一群特定变量高度关联,这些公因子即代表了量表的基本结构。通过因子分析可以考察问卷是否能够测量出研究者设计问卷时假设的某种结构。在因子分析的结果中,用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因子对量表或问卷的累积有效程度,共同度反映由公因子解释原变量的有效程度,因子负荷反映原变量与某个公因子的相关程度。在结束本文时应再次强调,为了提高调查问卷的质量,进而提高整个研究的价值,问卷的信度和效度分析绝非赘疣蛇足,而是研究过程中必不可少的重要环节。

 
另外转的资料:
一、信度的考验
    (一)稳定性系数(重测信度)
    重测信度是用同一批受试者做同一份量表,然后以前、后两次测验的分数做积差相关。通常两次测验的间隔多以两周为度,有的量表甚至因其需要也有高达一个月或数个月的情形。两次测验的相关若越高,则代表其越具有稳定性。一般而言,.7~.9是属高相关,.4~.6是属中度相关,而.3以下则是低相关。
    (二)内部一致性系数(Cronbach α、折半信度)
    假如所得的Cronbach α系数越高,则代表其测验的内容越趋于一致。其次,内部一致性系数还可用折半信度来求得,但由于折半信度是将题目分成两半分别求得两个总分(通常是分为奇数题和偶数题),然后再以积差相关求两个分数的相关。由于题目被分为两半,常会造成信度偏低的现象。因此,需要再加以校正。较常用的校正方法有斯布(Spearman-Brown)、福乐兰根(Flanagan)、卢隆(Rulon)等校正公式。
二、效度的考验
    (一)效标关联效度
  为了要验证所编的量表是否具有效度,最常用的一种方法即是效标关联效度。此种方法是针对所编的量表找一个可参照的效标,假如所得的积差相关系数达中度相关以上(0.4以上),即代表此份量表具有相当的效标关联效度。
    一般而言,适当的效标需具有相当的可靠性,否则无法有效预测所编制的量表。如以上述的「运动成就动机量表」而言,若以资深的教练对选手加以评分,所得分数当然可以作为效标。若是资浅的教练,因为对所有的选手还不是非常了解,其所做的评分就不是可靠的效标。
    (二)建构效度(团体差异的分析、因素分析)
  1、团体差异的分析:以前述所编的「运动成就动机量表」而言,编制者可请教练从其团队中选出高成就动机及低成就动机的选手,然后以高、低成就动机组的选手在成就动机得分的平均数进行差异性考验。假如高成就动机组的平均得分显著高于低成就动机组的平均得分,即代表此份量表能有效的区别高、低成就动机的选手。
  又如考验「运动攻击态度量表」的团体差异性分析,可以比较男、女选手在此量表得分的平均数,若男选手的得分显著高于女选手的得分,即代表此量表具有良好的效度。因为从一般心理学的研究中,男性的攻击性都显著高于女性。因此若男选手的得分显著高于女选手的得分,符合了心理学的研究,可由此说明此量表具有建构效度。
    2、因素分析:因素分析用在效度的考验方面可分为探索性因素分析(exploratory factor analysis)和验证性因素分析(confirmatory factor analysis)两种。当编制者在编制量表而没有理论作为根据时,只是由编制者依其概念将有关的题目编制出来,然后透过探索性因素分析了解所编的题目中究竟含有多少个因素。而当编制者采用某个理论来编制量表时,因为一个理论通常都会包含几个向度,亦即所编的量表相对的也会包含这几个分量表。为了验证此项量表所包含的分量表是否和所用的理论一致,验证性因素分析就可用来考验其效度。
    在用探索性的因素分析时,通常量表的编制者并不会预先知道会有几个因素,而是看特征值(eigenvalue)大于1的因素有几个,就决定有几个分量表。此外,虽然在统计软件包(如SPSS)上有多种方法可抽取因素时,但是一般多半用主轴法(principal axis method)。至于在转轴方面,有正交转轴(一般较常用最大变异法varimax)和斜交转轴(oblimin)两种。通常可先用斜交转轴试做,看其各因素之间的相关,若各因素之间是零相关,可改用正交转轴。若各因素之间有低相关(0.1~0.3),当然是用斜交法进行转轴。此时,以斜交转轴所抽取的因素就可加以命名,并将各因素中各题的因素负荷量较小的题目剔除(一般小于0.4的题目可加以剔除),然后重新再跑一次因素分析,直至各因素所有题目的因素负荷量都达到0.4以上。假如是用正交法进行转轴,也是同样的方式,先将各因素命名,然后剔除因素负荷量未达0.4的题目,再重新跑因素分析。
  另外在进行探索性的因素分析时,若是编制者综合若干个理论而合成一个量表(其中有几个分量表),此时亦可先用斜交转轴做,但可指定因素的数目。如编制的量表有五个分量表,就可指定以五个因素来做因素分析。因素分析后的各因素间没有相关存在,可改用正交转轴。若各因素间的相关是低相关(0.1~0.3),就以此斜交转轴的结果呈现各题的因素负荷量。若有两个因素间的相关达0.4(含)以上,即表示这两个因素有很大的重迭,应该将这两个因素合并为一个因素,然后再重新做斜交转轴,直到没有因素间的相关达0.4以上为止。
  至于验证性的因素分析则是量表的编制者根据某一个理论编出一个量表(其中有若干个分量表),为了验证所编的量表是否符合原先的理论,此时可用验证性因素分析加以验证。在进行验证时,有SPSS的LISREL(linear structural relations)软件包可以使用。譬如所根据的理论若有五个因素,而验证性因素分析所做出来的结果也证明是这五个因素,此时即可说此量表具有建构效度。

用信度和效度理论指导英语测试【转】

用信度和效度理论指导英语测试

转自:http://www.langfly.com/a/20101015/235516.shtml

用信度和效度理论指导英语测试:在教学过程中的阶段性评价或某教学过程结束后的终结性评价中,测试者在施测前可以从信度和效度两个方面对测试进行理论指导,施测后再从这两个方面对测试的质量和效果进行评价,从而使测试更具科学性。

任何一次英语考试,为保证达到预期的测试目的,首先要尽量追求试题具有较高的信度、效度。在教学过程中的阶段性评价或某教学过程结束后的终结性评价中,测试者在施测前可以从信度和效度两个方面对测试进行理论指导,施测后再从这两个方面对测试的质量和效果进行评价,从而使测试更具科学性。

  信度和效度是评估语言测试最为关键的两个质量指标。如果我们要使一次英语测试成绩能正确反映学生的语言能力,达到预期的测试目的,那么在设计和使用测试时,信度和效度是我们首要关注的特征。但两者在本质上又是相互冲突的。在一定的约束条件下,为了使英语测试的总效用达到最大化,我们要尽量找到信度和效度之间最佳的平衡关系。

  信度是“测试的一致性”。简言之,就是测试结果的可信度、可靠度。我们可以这样来检验测试的信度:使用同样一份试卷,在两种不同的场合、环境中,在较短的时间间隔内,施与同样的学生,如果测试结果基本吻合,那么证明该测试是有信度的。一份试卷的测试结果如果缺乏信度,就没有使用价值,同时也减弱了考试的公正性。当然,要完全消除不一致性也是不可能的,我们能做的是尽量把影响不一致性的不利因素控制在最低程度,以便于提高测试信度。

  语言测试的效度表明一种相关性,即测试与测试目标的关联程度。美国心理研究协会认为效度是我们根据测试分数所作的推断或结论如何有意义、恰当以及有效的程度。语言测试的效度是指测试是否考查了测试者想要测试的语言方面的内容,考生所考的成绩是否合理地说明了该考生的语言能力。效度的内涵十分丰富,一般包括内容效度、构想效度、共时效度、预期效度、卷面效度。一项测试的内容效度往往是重点考察的方面。内容效度指试卷的试题内容是否代表了考试内容规范所规定的内容,主要指试题与所要考查的语言知识、技能或语言能力的相关性、代表性,与考生的合适性。一般来说,一项测试的内容效度越高,就越能精确地了解所要测试的内容,并产生较好的正面反拨效应。语言测试的目的实质上是为了推测个人的语言能力。推测的依据是考试分数(成绩)。当我们用考试分数去推测语言能力时,必须证明考试分数在多大程度上反映了我们所测量的语言能力。我们应该明白讨论测试效度必须与具体的测试目的相结合,脱离了具体的测试目标而谈论测试效度是没有意义的。

  内容效度研究的是以下几个方面:测试的内容是否和测试目标有关;测试内容是否有代表性,是否全面地、充分地体现了要考查的各方面的内容,试卷中是否有足够的题目去体现所要考的各方面内容;测试内容是否适合测试对象,即考试内容不能太难也不能太容易。提高测试的内容效度的办法之一是在命题之前认真研究测试的目标,确定测试内容的范围和能力的层次,确定哪些是最有代表性的,应该以什么样的比例在测试中体现出来。在此基础上,制定内容细目表,或双向细目表,把任务安排到题项中去,使每一个题有具体的任务,整个测试具有良好的代表性。

  信度所涉及的问题是个体测试成绩在多大程度上是由测试误差或其它因素所影响的。效度所关注的问题是个体测试成绩在多大程度上和个体语言能力相关。因而,我们研究信度的目的是使测试误差造成的影响最小化,研究效度旨在使我们想要检测的语言能力的效果最大化,它们是两个相互补充的目标。一项测试若没有信度,也就无所谓效度。信度是效度的前提或必要条件。权衡信度和效度,效度是首要的。测试效度较高的试题有时测试信度较低。反之,测试信度较高的试题有时测试效度较低。

  信度和效度作为评估测试质量的两个基本特性,两者虽然在一定程度上是相互矛盾的,但完全可以通过相互协调使之达到适切的平衡,以保证测试的总效用性最大化。在英语测试的设计和命题过程中,不能绝对、片面、盲目地追求或强调某一方面而以失去另一方面为代价,只有综合平衡二者的关系才能获得最大的总效用。语言测试的信度是指语言测试结果的一致性程度,通常包括三个方面:测试本身的信度、受试者在不同情况下的表现以及评分的信度。Henning 列举了五项影响测试信度的因素: (1) 学习者的波动,如临时的心理或生理的变化; (2) 评分的波动,如评分员之间、每个评分员自身前后之间的差异; (3) 测试过程中的波动,如外界的干扰、不同的指令; (4) 测试的特征,如测试时间的长短,试题的难易度、区分度; (5) 与作答相关的错误,如猜测因素等。完全消除不一致性是不可能的。

  如果我们遵循某些原则,确实可以最大限度地保证信度。为此,Hughes 提出了十点建议: (1) 抽取足够的样本,试题尽可能覆盖高中三年所学内容; (2) 不设含糊的题目,提供清楚明了的指令,确保试卷卷面设计完善; (3) 施考条件一致,无干扰; (4) 充分研究单项选择题的命题技术,最大限度地提高其效度; (5)使受试者之间的比较尽可能直接; (6) 提供详细的评分细则; (7) 培训评分员; (8) 评分前确定统一的可接受的答案和评分标准; (9) 通过考号而非姓名来辨别受试; (10) 书面表达采用多人独立评分。效度的概念包括以下几个方面:结构效度(语言测试的理论基础)、内容效度(足够的、具有代表性的、相关的抽样)、标准关联效度(与外在的、独立的、得到广泛认可的测试相比较,含同期效度和预测效度) 和表面效度(外行对测试的印象)。高兰生等列举了影响效度的9 个因素: (1) 目标和任务不明确; (2) 内容没有很好划定; (3) 题项的比例不恰当; (4) 题量不当; (5) 有错误或不规范; (6) 有暗示; (7) 指导语表述不清或者太难; (8) 缺少缓解怯考心理的措施;(9) 没有为后续工作开好路。

  就试题设计而言,Hughes 和李炯英分别提出七项提高效度的建议,概括如下:测试全面考查学生综合语言运用能力、取样广泛而不可预测性,尽可能使用真实的语言材料;尽可能使用直接测试法(如口试)、适当减少离散题(题与题之间彼此没有联系,如单选题) 和客观题、增加主观题的比例;开发和增加新的测试题型;新增实用性、真实性并举的作文考试题型;进一步研究和规范改卷评分体系、确保师生了解测试、必要时给教师提供协助等。

  综上所述,在分析一次测试的信度和效度时,我们应重点考虑如下几个方面:首先,考试是否反映了考试性质,即是成绩测试(也称学业测试) 还是水平测试。成绩测试(形成性评价) 的重点在于通过测试发现问题,补缺补差,为进一步的教学活动提供指导;水平测试(终结性评价) 的重点在于通过测试了解学生的实际水平,用于遴选人才。某次测试只有正确地反映了此次测试的性质,才能具有较度的信度和效度。其次,考试内容能否体现新的语言教学观。语言测试随着语言观的发展而发展,也随着教学理念、教学模式的更新而更新。随着英语教学改革的实施,英语教学在教学目标、教学内容等方面提出了新的要求,作为检验课程改革成果的测试自然也会随着新课改而提出新的要求,并通过测试的信度和效度体现出来。第三,能否产生正面反拨效应。测试是教和学的导向,问题是如何提高测试的正面反拨效应,减少负面反拨效应。Hughes 提出了若干提高正面反拨效应的建议:测试要培养能力;测试内容要覆盖面广并具有一定的不可预测性;尽量使用直接测试法;成绩测试要与教学目标相结合,使用尺度参照等。这些建议多数涉及效度,也与信度相关。信度和效度是影响反拨效应的重要因素,正确处理好两者的关系能使测试产生积极有利的反拨效应。

已保护:英语教学形成性评价工具五种

这篇日志已被密码保护。请在这里输入密码:


已保护:英语测试学补充阅读材料1-试卷评讲

这篇日志已被密码保护。请在这里输入密码:


已保护:英语测试学课程介绍

这篇日志已被密码保护。请在这里输入密码:


宜宾学院外国语学院英语写作 is powered by BlogCN.com - WordPress | WordPress Themes