教育测量的基本方法

来源:百度文库 编辑:神马文学网 时间:2024/04/28 04:21:42
教育测量与教学评价是教学活动的重要组成部分,是在教学领域中进行科学管理的重要手段,合理地开展测量评价活动是提高教育质量的有效保证.
一、基本概念
1.教育测量
教育测量有广义和狭义之分.从广义上说,教育测量泛指运用测量手段对教育活动所进行的量的测定。它涉及的范围很广,凡是需要并能够测量的与教育有关的活动均在研究之列,如教育投入、教育过程各要素、教育的效果等。从狭义上讲,教育测量专指按一定规则对学生的知识、智能、个性发展、思想品德等所进行的量的测定。通常所提及的多是狭义上的教育测量。
2. 教学评价
教育评价是按照一定标准,运用科学可行的方法,对教育活动所进行的价值判断的过程。它包括对教学过程和教学效果的评价,诸如学校、教师的教学工作、课堂教学、教学方法、模式和内容以及学生的学业成就、一般智能发展、个性发展、思想品德状况等评价。
3.测验及其种类
测验是指对通过一定的仪器和试题所引起的受测者的行为样本进行测量的系统程序。教育测量的对象和内容是非常丰富的,测验作为教育测量的主要工具,种类也很繁多,可按不同标准加以分类。
按测验的功用分类(1)学绩测验; (2)能力测验; (3)人格测验。
按测验的目的分类(1)诊断性测验;(2)形成性测验;(3)终结性测验。
诊断、形成、终结三种测验对照表
种类
目的
特点
时间
诊断性测验
预测摸底
比较正规
教学开始
形成性测验
矫正改进
灵活
教学进程中
终结性测验
鉴定
正规
教学结束
按测验的对象分类(1)个别测验;(2)团体测验。
按解释分数和方法分类
(1)常模参照测验
指参照被测群体的实际水平解释分数的测验叫做常模参照测验。群体的平均分数一般可以反映群体的水平,称为常模。以常模为参照点,将被测个人的成绩与常模比较,并把比较结果所反映出来的差异数量化,作为导出分数。参照常模解释分数,便于比较和选拔工作的进行,它属于相对评价的范畴。例如,在升学考试中,按标准化的要求进行的分数转换就是参照常模得出的。
(2)目标参照测验
参照被测达到目标的程度来解释分数的测验,叫做目标参照测验,也称作标准参照测验。通过与特定的标准进行比较,了解被测的达标程度,这是一种绝对评价方法。例如,毕业考试就是以某一学段的教育目标为标准,衡量学生的达标情况而进行的。
常模参照测验和目标参照测验的对照表
种类
参照系
归属
作用
理想分布
常模参照测验
群体水平
相对评价
比较选拔
全距大,
正态分布
目标参照测验
教育目标
绝对评价
鉴定
负偏态
4.测量的要素
测量的三要素:
①参照点  参照点分绝对零点和相对零点.教育测量所应用的参照点都是相对零点。
②统一的单位
③量具(测量工具) 教育测量常用的工具是试卷,而试卷由测题构成,故我们必须高度重视命题的研究,提高试题的质量,这样才能保证测验的可靠性和有效性。
二、数据整理
在教育测量中,通过各种测验获得大量分数,这些杂乱无章的分数有三个问题,一是看不清它们的分布形态,二是不了解它们的特征和变化规律,三是每个分数表达的意义含混模糊。因此,需要对零乱分散的分数进行整理和分析,以便在此基础上作出解释和评价。
1.分数整理
(1)顺序排列表
顺序排列是简单的整理分数的方法。它是将所有个体的成绩,按高低顺序排列,并且列于表中,称作顺序排列表。这种方法简明清晰,一眼便能看到最高分数和最低分数,而且可以大致了解个体成绩在总体中的位置。
例1  分数整理(用Excel )
(2)频数分布表
频数分布表是一种反映数据分布情况的统计表。所谓频数是指一群数据在各个数值(或区间)上所出现的数据的个数,也称为次数。每一个频数除以数据的总个数称为频率,或称相对次数。
(3)频数直方图
由频数分布表可以制作频数直方图。方法是:以分数为横轴,频数为纵轴,建立直角坐标系,在横轴上标出各组分数的组中值,频数值等距标在纵轴上;然后以组中值为底边中点,组距为底边,组频数为高作出各矩形,即得频数直方图。
例2(柱形图)
三、统计数据
1.算术平均数
一组数值的总和除以数据的总频数所得的商称为算术平均数,简称平均数。计算公式是:  = 。
例3  用Excel求一组数据的平均数。
2.方差
一组数据中,各数离均差的平方和的算术平均数称为这组数据的方差。又叫均方差或变异数。用符号S2或σ2表示。
3.标准差
方差的算术平方根称为标准差。用符号S或σ表示。
标准差是反映全体考生分数之间的离散程度和差异情况。它与平均分一起使用,决定了某次考试分数分布情况。σ值越大,表示部分考生离平均分的“差距越大”,也就是分数分布较广;σ值越小,则分数分布较窄或说“集中在平均分附近”。计算公式是:
σ=
用CZ—1206科学计算器或Excel求平均数和标准差基本操作步骤(略)
例4.用Excel标准差。
4.差异系数
标准差较准确地反映了一组分数的离散程度,它与原数据的单位相同,是一种绝对差异量数。在进行不同组间离散程度比较时,适用于单位相同、平均数相近的情况。如果各组数据单位不同,或虽然单位同但平均数相差甚远时,不能直接用标准差比较,这时应使用差异系数。
差异系数是一组数据的标准差与平均数的百分比,用CV表示:
CV= ·100%。
例5  某校中考成绩语文的标准差S1=15,平均分X1=85分(满分130分),政治标准差S2=10,平均分X2=50(满分70分),试比较两科的差异情况。
语文:CV1= =  =17.6%;
政治:CV2= =  =20%。
因此,政治科分数离散程度大。
5.标准分数(z分数)
标准分数是以平均分为参照点,标准差为度量单位的分数。它具有重要理论价值和应用价值。按照转换的方式和对分布形态的影响效果,可分为两类:
①不改变分布形态的标准分数
定义式为:        z = .
其中,xi为原始分数, 为参照群体的平均分,s为参照群体的标准差,z为标准分数。这种标准分数又称z分数。
例6.某生高考数学成绩105分,所在省的数学平均分68.40分,标准差28.90分,求他的标准分数。
Z= = 1.266。
该学生处于优秀学生行列,但如果将他置于全国高考最好的省份,如平均分92.26分,标准差24.10分,则Z=0.529,仅能算中等偏上。
为了与通常记分的习惯协调一致,对z分数可以再施行线性变换,以消除它的负值和小数: y=Az+B. 当A=10,B=50时,便得到了T分数:T=10z+50。
6.难度
难度是指试卷(题)的难易程度。一般用试卷(题)的得分率或答对率(P)表示,所以难度事实上是容易度。P值在0~1之间,数值越大,说明试卷(题)越容易。
有关考试难度水平估计一览表
最   易
容   易
适 中 题
较  难

很 难
难     度
0.95
0.85
0.70
0.50
0.30
0.10
章节考试
20%
40%
30%
10%
高    考
30%
30%
20%
20%
竞    赛
20%
30%
30%
20%
计算公式:             P= 。
例7.用Excel求难度。
一般情况下,测验的平均难度接近0.50时,分数趋于正态分布,否则分数分布将出现偏态。就整个测验而言,当平均难度为0.5且题目组间的相关为零的情况下,分数呈正态分布,而难度值越小,则题目越难,低分段人数必然较多。难度值越大,题目越容易,分数将大部分集中在高分区。这样,在分数的分布上,就会呈现出两种不同的偏向,前者为正偏态,后者为负偏态。
7.区分度
是试题对不同考生的知识、能力水平的鉴别程度。如果一个题目的测试结果使水平高的考生答对(得高分),而水平低的考生答错(得低分),它的区分能力就很强。题目的区分度反映了试题这种区分能力的高低。一般认为,区分度的数值达到了0.3,便可以接受;达到了0.3以上为好的题目;在0.4以上为优秀题目;低于0.3的题目,区分能力差。
1994~1995年高考数学试题区分度统计表
年份
0.3以下
0.3~0.4
0.4以上
1994
文科
14.7%
20.7%
64.4%
1994
理科
5.3%
20.7%
74%
1995
文科
13.3%
8.7%
78%
1995
理科
16.7%
37.3%
46%
可见,题目区分度的实质是用以鉴定一个题目有效性的指标,它的高低变化对测验的质量具有深刻的影响。与题目的难度相比,人们更关注题目的区分度的高低,并以此作为筛选和修改试题的主要依据。
试题的区分度的计算比较方便的方法有以下两种:
(1)得分率求差法
将受测群体按题目得分的高低排列,取高分人数的27%为一组,他们的得分率记作PH;低分人数的27%为另一组,他们的得分率记作PL,用D表示区分度,则该题的区分度为
D=PH—PL。
(2)得分求差法
将受测群体按题目得分的高低排列,取高分人数的27%为一组,低分人数的27%为另一组,用D表示区分度,用H表示高分组得分总和,用L表示低分组得分总和, 用n表示高分组(低分组)人数,XH表示该题的最高得分,XL表示该题的最低得分,则
D=。
例8.用Excel求区分度。
8.信度
信度是衡量测验分数一致性或可靠性的一个指标,即用一个或一组测验对同一被试群体施测多次,所得结果的一致性的程度,以及测验分数所反映被试真实水平(即真分数)的可靠性程度。
(1)分半相关
将全卷中全部试题按题号或分数适当分半,得到两个平行的“子试卷”,计算这两个子试卷考生得分的相关系数,这样求得的是半个试卷的信度,然后再用斯皮尔曼—布郎(Spearman—Brown)公式校正,得到考试的分半信度系数。一般认为分半信度系数在0.90以上比较合适。这个方法比较适合多数为选择题的试卷。
rtt =
其中,rtt分半信度系数,rab表示A、B两份试卷得分的积差相关系数。
例9.用Excel求积差相关系数。
计算公式rab=
其中,x1i、x2i是第i个受测者先后两次测验所得分数,n是受测人数。
应当注意,在应用上式时,分半的两部分测验须满足在平均数、标准差、分布形态、测题间相关、内容、形式和题数都相似的假设条件。
(2)内部一致性信度
通常采用的是克伦巴赫(Cronbach)的α—系数公式,它适用于非选择题(多重记分)较多的试卷。α—系数为试卷信度的最低限,一般认为其值在0.80以上,考试的信度比较好。
克伦巴赫(Cronbach)公式:  rtt = 。
其中,Sii 2是每个测试题目得分的方差,St2是整份测验总分的方差。
国家教委考试中心对高考试题分析与评价时,即用分半相关与α—系数方法求出试卷信度。
近3年高考数学(理科)试卷统计数据对比
项目
1994年
1995年
1996年
平均分
83.12
88.36
82.79
标准差
25.50
24.00
25.30
难度
0.550
0.590
0.550
分半信度
0.8339
0.8506
0.8500
α—信度
0.7580
0.8867
0.8884
9.效度
效度是测验有效性或准确性的指标。由于效度分析可以针对各种要求和运用各种程序,而在特定的条件下,使用不同的分析方法可以得到不同的效度。因此,一个测验可以具有不同的效度指标。当我们讨论一个测验的效度时,只有界定了它的条件,效度才有确切的意义。
对常模参照测验来说,主要有效标关联效度、内容效度和结构效度。
(1)效标关联效度
测验的效标又可称为准则,它是衡量测验效度的参照标准。我们可以用一类标准化测验作为某次测验的效标(如国家级高考、省级各类会考等),用积差相关法计算效度。
例10 以国家级高考的成绩作为效标,计算某考生进入高校后的第一学期的数学学习成绩的效度。
由于客观上的种种原因,难以确定有效的效标,因此,效度的计算,采用求平均区分度代替,其公式是:
r效= 。
其中,r效表示试卷的效度,k表示试卷中的试题数,Di表示每道试题的区分度。
(2)内容效度
测验的题目对所要测量的内容具有代表性的程度称作内容效度。它反映测验题目在所要测量的内容范围和教学目标内取样是否充分和确切的问题,主要用于学科成绩测验。内容效度一般不用数量化指标来表示,主要依靠在某种依据的基础上作出逻辑分析。为了提高测验的内容效度,首先要注意界定测验的内容范围,其次要注意系统取样。目前,大多数学科成绩测验的编制者根据教学目标的分类,先拟就测验的蓝图,将各部分内容和教学目标各层次按确定的比重表达出来,然后编制测题,以满足提高内容效度的要求。
(3)结构效度(构造效度)
结构效度是指考试对理论上构造或特质的测量程度。
例11  测量“推理能力”考试。
确定结构效度需三个步骤:建立理论体系(理论结构)并以此出发提出关于某一心理特征的假设;设计和编制测验,并进行实施;用收集证据和逻辑分析的方法来验证与理论假设的相符程度。
由于建立理论和提出假设的困难,操作步骤较为复杂,且没有单一的量化指标来描述有效程度,所以,在一般的考试质量分析中很少采用。