刘欧博士“美国高等教育评估”讲座纪要

来源:百度文库 编辑:神马文学网 时间:2024/04/29 09:26:54

刘欧博士“美国高等教育评估”讲座纪要

 

(俞韫烨 整理)

 

2010年3月8日,美国教育测验服务中心(Educational Testing Service,ETS)刘欧研究员在北京语言大学教育测量研究所做题为“美国高等教育评估”(Evaluation of Higher Education in the United States)的讲座。

 

刘欧老师简介:

美国ETS研究员,2006年在美国加州大学Berkeley分校获博士学位,2001年在中国科技大学获得学士学位。目前在ETS主要从事测验效度、高等教育评估等方面的研究。

 

刘欧老师首先简单介绍了ETS研发机构的相关情况:

ETS是一个非营利性机构,1947年成立于美国新泽西州普林斯顿,是目前世界上最大的教育测验和研究组织。目前,每年在世界各地有五千多万人(次)参加ETS开发的考试。ETS全世界雇员超过2500人。

目前,ETS开发的考试和评估多种多样,主要有:(1)执照或证书考试,如Praxis系列考试;(2)资格考试,如TOEFL托福考试;(3)入学考试,如SAT和GRE;(4)分级考试,如AP;(5)问责性(accountability)考试,如NCLB;(6)毕业考试(exit testing),如马里兰州高中评估考试;(7)政策、评估、研究型考试,如NAEP;(8)职业录用选择考试,如托业考试(TOEIC)。

 

美国国内非常重视高等教育,现在的关注点包括:

(1)大学入学率(enrollment 和accessibility)。比如非洲裔美国人和西班牙裔美国人进入可授予学位的学校[1]的比率相对很低,由社区大学转入四年制大学的比率也偏低。

(2)学校对学生的保有率(retention)和学位获得率(degree attainment)。

(3)教学质量。主要可从学生体验、满意度和学习结果来评估。

(4)远程教育(distance education)。美国的远程教育在最近十年中发展非常快。

(5)教育成果评估问题。高等教育的effectiveness需要进行评估和评价,包括联邦和州立法机关、相关机构、家长和公众。

   

美国高等教育评估目前面临的主要挑战是:关注投入而非产出,可比较的教育成果严重缺乏。

 

为了解决高等教育评估中的这些问题,2006年,美国成立了“自愿问责系统”(Voluntary System of Accountability,以下简称VSA),该系统主要目的是测量“核心教育成果”(core educational outcomes),促进公众对高等教育机构运转工作的理解。

他们将“核心教育成果”定义为学生的综合能力,具体包括四个分项能力:批判性思考能力(critical thinking)、分析性推理能力(analytical reasoning)、阅读能力和写作能力[2]。由于目前尚无测量这种“综合能力”的专门测验,因此VSA另选了三种标准化测验,分别是:EPP(ETS Proficiency Profile),CAAP(Collegiate Assessment of Academic Proficiency)和CLA(Collegiate Learning Assessment)。高校可根据各自情况任选一种测验来测量本校学生的“综合能力”。

 

VSA中的增值评估

 

在VSA系统中,“增值”指的是,控制了高考成绩(即入学分数)后,新生与毕业班学生在标准化考试上表现的差别。具体计算“增值”的方法一般有两种,分别是非等组代表性抽样研究(cross-sectional)和纵向研究(longitudinal)。虽然纵向研究的设计更理想更科学,但为了便于操作,一般都采用代表性抽样来考察“增值”。

“增值”评价是怎样计算的呢?以ETS开发EPP考试为例,用下图表示:

 

 

新生                                     毕业班学生

第一步:

SAT平均分预测EPP平均分

第一步:

SAT平均分预测EPP平均分

 

 

 

 

 

 

第二步:

计算分差

EPP预测值-EPP实测值)

第二步:

计算分差

EPP预测值-EPP实测值)

 

 

 

 

第三步:

计算增值

增值=毕业班学生分差-新生分差

 

 

 

 

 

 

 

 


图1:增值评价计算方法

 

“增值”报告样例:

 

 

 

 

“增值”评估的结果对高校的影响主要体现在以下方面:

(1)外界对学校的认证

(2)联邦和州拨款

(3)学校的声誉

 

高校评估存在的问题:

(1)三个考试间的可比性问题

(2)取样的代表性问题。

(3)学生动机问题。

(4)增值计算的方法选用问题。用简单线性回归方法、多水平线性模型或是其他方法。

(5)学生进步和高校教育间的连接(linking)问题。这是最敏感也是最重要的问题。很多高校反对VSA的这项增值评估,他们认为影响学生学习的因素太多,很多因素是学校无法控制的,比如家长是否支持、学生是否打工、学校的排名、学生的学习方法等。因此通过增值评价来衡量高校的教育质量是不公平的。但反过来,也有专家指出,这些不可控因素是普遍存在的,可以认为对各个高校的影响是差不多的。

(6)在同类型学校间开展比较。为了尽量减少不可控因素造成的不公平情况、减弱“金字塔效应”[3],有人提议将同一类型学校放在一起进行比较,比如可将生源最好、学生背景比较相似的哈佛大学、耶鲁大学、麻省理工大学等归为一个比较团体。

 

下一步研究

(1)希望能吸引大学教师参与VSA的评估运动中来。这些教师可为评估提供参考,同时也可以吸收评估结果以改进教学。

(2)参考其他国家高等教育评估的经验。

 

 

主题报告结束后,刘欧老师回答了测量所师生们感兴趣的问题。大家的问题可分为以下几大块:

 

一:计算机自动评分问题

Q1:GRE考试的计算机评分,使用的是E-RATER吗?

刘:对,现在GRE作文机评用的就是E-RATER。正式评分时,如果一位评分员和E-RATER对一篇作文的评分完全相同,则此分数为最后得分;如果不同,则需要请第二名评分员再评分。

Q2:请问GRE计算机自动评分时,所给分数是分档分,如1-6档,还是一个类似百分制的分数?根据以往的经验,人机给分能够完全吻合的不到50%,复评量很大。

刘:GRE的评分采用的是6分制。因为GRE是一个高利害考试,评分非常慎重,人机给分完全吻合后才能通过。

 

二:增值评价

Q1:根据刚才的介绍,EPP、CAAP和CLA等是否可以被看作SAT考试的效标(criterion)、evidence to support validity 呢?

刘:可以这么认为,但这并不是增值评价的主要目的。SAT的主要效标是学生大学第一年的成绩,即GPA。

Q2:增值评价使用三项标准化测验测量四项能力,请问在进行比较时,除了用共同组计算相关外,还使用别的方法吗?

刘:这个分析有两个层面。一个是学生层面,以学生为单位计算相关,另一个是以学校为单位计算相关。虽然参加的学校有限(仅13个),但我们仍然计算了校际层面相关。

除了进行考试之间的比较,我们还进行了不同能力间的比较。比如,假如三个考试可以同时使用,则不同考试间同一能力的相关肯定高于同一考试内部不同能力间的相关。理论上,EPP数学和批判性思维能力的相关肯定要低于EPP的批判性思维能力与CLA批判性思维能力的相关,经过检验也的确如此。

Q3:增值评估中的两种方法,即非等组代表性抽样(cross-sectional)和纵向研究(longitudinal),它们的研究结果会有什么差别?

刘:目前还没有对这两种方法的比较研究,我们现在正在开展这样的研究工作。主要困难在于,纵向研究需要前后好几年的数据,数据采集、与学生的联络等都要耗费很多精力。代表性抽样这种方法的问题是,它有一个很强的假设,即抽取的新生和抽取的毕业班学生来自同一总体,现实情况是,在学生流失率很高的情况下,很难说两者来自同一总体。

Q4:目前做教育成果评价(outcome evaluation),主要手段是三个标准化考试。还有没有测验之外的评价手段或评价来源?有没有指标是与学生毕业后的收入相关的?请介绍一下。

刘:除了测验之外,各个学校都有自己组织的核心专业的评价,但这些评价基本是“各自为战”,校级之间不具可比性。此外,在本科生阶段,除了“综合能力”之外,还有一些“软能力”同样受到重视,有专门的量表进行测量。这个“软能力”包含的内容很多,比如学生在学校里是否有归属感、对学习环境的满意度等。当然,也有一些“硬指标”需要考察,如教师数量、教学资源等。

关于学生毕业后的情况,美国教育部门掌握着一些数据,其中就包括了收入信息。但此信息不作为衡量高校教育水平的一个指标。

 

三:等值问题

Q1:请问托福考试是采用一种方法进行等值还是多种方法进行等值?如果采用多种方法等值,评价这些等值方法的标准是什么?如何选用等值方法,是固定采用某一种等值方法还是根据每次等值情况来选取最佳方法?

刘:作为一个很成熟的考试,托福已经有适合自己的等值方法了,但会在进行等值时考察其他方法的等值结果,如果较之现有方法更佳,则会考虑改进或更换等值方法,如果现有方法更佳,则沿用不变。

Q2:托福现在用的是什么等值方法?

刘:据我所知,托福用的IRT concurrent的方法比较多。托福的等值会用到铆题,否则无法做等值。现在不会在正式考试中预测试题。

 

四:其他问题

Q1:刚才提到美国大学对学生保有率(retention)不高,最低的一组是53%,最高的也才80%。而在中国,这个数据大概接近100%。在你看来,什么样的水平比较好?

刘:理想的水平大概是100%吧。但中国和美国大学的不同。在选课上,中国的大学喜欢为学生作出安排,并未给学生提供很多自由和选择机会,这样的好处是保证了学生选课进度和毕业率。美国大学的选课制度给学生很多自由,但从另一角度来说,过分自由也导致了教育资源的浪费。另外,上大学的意义对中美学生而言很不同。中国学生眼中上大学意义非凡,在美国学生眼中其实并不是那么重要。

Q2:请问,托福试题是一次性的吗?会重复使用吗?

刘:理论上是一次性的,如果有重复出现的,也是极少数情况。

 

 

刘欧老师的讲座给我们带来了美国高等教育评估的最新资讯,使我们对高校评估和增值评价有了更深入的认识。我国的高等教育评估与美国相比,在理念和方法上有很大不同,如果能借鉴一些美国的成功经验,也许评估将成为高等教育进步的触媒,而不是负担。

 



[1] 按照学校制度,美国高校可以分为公立和私立两大类。其中,公立大学主要可分为社区大学和提供博士学位的大学(Ph.D institutions);私立大学基本都是提供博士学位的大学(Ph.D institutions

[2] 刘欧老师提到,美国教育者非常重视由这四种能力组成的“综合能力”,因为它既关系到一个学生未来的职业发展,更关系到整个国家日后的综合国力。

[3]  指原来成绩越好的学生,考试分数的进步越不明显