【楠蓉书香】华东师大心理学测量

来源:百度文库 编辑:神马文学网 时间:2024/04/19 14:34:15
心理测量和量表操作

大概的介绍。
凡是客观存在的事物都是有数量的。
                                ——桑代克
凡是有数量的东西都是可以测量的。
                                ——麦克尔
心理用间接测量。测量行为,来推测心理。
心理测量的结果不绝对。


I.        心理测量的发展史
一.        中国古代的心理测量思想与实践
1905 法国——科学心理测量.
孔子——心理测量的思想
"中人以上,可以语上也;中人以下,不可以语上也。"
孟子"权,然后知轻重;度,然后知长短;物皆然,心为甚。"
刘劭《人物志》,"观其感变,以审常度。"
翻译后,名为《人类能力之研究》
        韩非 一手画圆,一手画方。   到现在,用于测注意力
        民间,周岁试儿              到现在,婴幼儿的动作测量
        古代的问答法                到现在,临床谈话法,问卷法
        庄子:九征                  到现在,情景法
        博弈(棋)、九连环、七巧板——古代测智力水平的器具
        八阵图。
二.        心理测量早期探索及尝试
英国 高尔顿  最早想通过测量人的证明他的"遗传论"。
        美国 卞特尔  心理学只有立足于实验与测量之上,才会有自然科学的准确度。
        德国 冯  特  心理测量的思想。
三.        科学心理测量的诞生与发展
1905 法国  比纳(Binet)
1895创办第一本心理学杂志《心理学年报》
心理测量的原理:把结果与他人比较,以求概括。
1905:比纳-西蒙量表(的标志)-标志着科学心理测量的诞生。
30题,从易到难。
1908、1911两次修订,制订了"智龄"之后,有斯坦福"-比纳量表(推孟修订,1916)[现在的所谓"比纳量表]引入了斯腾(德国)的心理商数概念,变化为:
    智龄
IQ=_____ *100使不同年龄层次间儿童的智力水平比较成为可能。也叫比率智商
实龄
后来量表的特点
I.        操作性量表(比纳的量表是语言性量表)
II.        团体测验  (比纳的量表是个别的测验)
III.        教育测验(学习测验,eg桑代克,斯坦福成就测验)
IV.        人格的测验
V.        特殊能力测验(eg音乐,绘画能力etc)
四.        心理测验在中国的发展
1916 樊炳清 介绍比纳的量表
1920 南京高等师范学校(现南大),廖世承、陈鹤琴开设心理测量课。之后,制定量表,开创杂志…
抗日战争开始一度中断。
1979后,心理测量在中国走进辉煌。智力测验方面,陆志韦,吴天敏;人格测验方面,肖孝嵘;艾伟,学业成就方面。-中国国内著名心理测量方面的学者。


第二章        心理测量的性质
测量最基本的特征:对事物进行区分
一.        测量的基本问题。
1.定义 :利用一定的法则[现在,心理学中的法则还不完善,所以结果不精确]。
用数字对事物[心理学中,是对事物的特征及属性]加以区分(描述)。
"数字"的特性:
I.        区分性
II.        等级性/序列性
III.        等距性
IV.        可加性
2.要素      
绝对的零点(没有此特性)-理想的参照点,加减乘除都可以
I.        参照点{
           人为参照点 只能加减,不能乘除。
             确定的意义
II.        单位应有{
相等的价值
心理测量中的单位,不具有上面的特点,所以单位不够理想
eg"年龄"不具有相等的价值
∵4岁-5岁的1年比44-45的1年发展快得多。
3.种类
I.        名称测量/类别  特征:仅区分功能,符号意义 使用数学统计方法——次数、百分比、X2 、列联相关                     
II.        等级(代表符号-大于号,小于号)特~_ 分等性
使~ 中位数、百分位数、等级相关,秩次相关
III.        等距测量                        特~ 分等且等距
使~加减,均数,标准差,t检验F检验
IV.        比率测量(最好的一种测量水平)  特~具有绝对零点
                                    使~几何均数、等比量数,加减乘除
4.直接与间接测量
直接测量:准确
间接测量:需中介,可能失真

二.        测量的特征
1.        定义:依据一定的心理学理论,使用一定的操作程序,给人的行为定出数量化的价值。
2.        可行性
3.        性质
I.        间接性(测外显行为,推测大脑中的活动)
II.        相对性
III.        客观性(测量要做到标准化)
4.        心理测量的水平
智力、价格测验等:等级测量
∵无绝对零点 无等距的单位但,可转化为标准分数,则可使用等距测量的方法。

三.        心理测验的基本概念
1.        定义  心理测验是对行为样组的和标准化的测量
(eg题目代表全域,则题目是↑,数据结果也域,则数据也是↑)测量的编制实施,评分,解释都有一致性
四.        心理测验的种类功能
I.        按功能分1.能力测验 智力、潜力(eg职业能力)特殊能力
2.学习成就测验 各科目的学习能力、技能掌握情况
3.人格测验 态度、性格、情绪、气质
II.        按人数分1.个别测验
2.团体测验     比较特点
III.        按材料分1.器具测验                                     一类     (不绝对)
2.文字测验(纸笔测验)                            另一类
IV.        按目的分1.诊断测验(具体)
2.筛选测验(大致)[使用对象的不同]
功能
I.        人才选拔
II.        心理问题的预防与诊断
III.        对一个人能力等的评价
五.        怎样正确对待心理测验
编制量表示合理    使心理测验有偏差的原因
实施测验有问题
1.测验保密(内容保密、结果保密)
2.心理测验的资格(接受过培训、有考核)
3.测验常模的使用范围
4.不能"测定终身"。(过几个月可再测几次)
5.对测验本身的认识。(参照其他各方面情况,得出适当的结果)
6.测验结果不能作为歧视人的依据,操作规范。

第三章        智力测验
1. 概述
1.定义:
智力——对问题的理解与推理的一般能力。
——具有正相关的特殊能力的总和。
——产抽象思维为核心的多种能力的总和。
(国内较认同)
2.智力测验:
在一定条件下,使用特定的标准化测验量表,对被试施加测验,从被试的一定反应中测量共智力高低。
3.智龄与智商
I.                  智龄
比率智商=    实龄  *100
                  推孟 10岁前  10-18
具体年龄点有
                  贝雷、韦克斯勒:13岁前 13-25
II.        离差智商
=            X     
          同龄人-x
4.智商的稳定性和可变性
稳定性。时间间隔越短,相关越大;
第一次做,年龄小时做,与产后结果的相关越小(5岁后做较好)
可变性。
5.智商的分布和分类
分类:推孟的分类
IQ  140以上   120-140  110-120  90-110  80-90  70-80  50-70  25-50  25以下
类别 天才      上智     聪颖     中材   迟钝   近愚  低能   无能   白痴
韦克斯勒的分类
IQ        类别      理论(百分比) 实际样组
130以上  极优秀     2.2               2.3
120-129   优秀       6.7               7.4
110-119   中上       16.1              16.5
90-109    中等       50                49.4   }82%
80-89     中下       16.1               16.2
70-79     边缘       6.7                6.0
70以下   智力缺陷   2.2                2.2
55-69轻度,可学习
40-55中度,可训练
25-39重度,需护理,训练后可处理
25以下 极重度,全护理。
6.智力的性别差异
总体上,没有。
发展上,女性先快后慢;男性先慢后快。
女性在语言,记忆上强。男性在数理、空间上强。
女性分布集中,男性分布广。
7.遗传,环境对智力的影响
同卵双生子     同一环境    .88(智力相关)
同卵双生子     不同环境    .75
异生双生子    相同环境  同性别  .60
{
  不同性别  .50
同胞兄弟姐妹  相同环境          .50
不同环境          .35
无血缘关系,但自幼在同一环境下长大 .20
无血缘关系,但自幼在不同环境下长大 .00
另:亲生父母与子女的智力相关       .50
养父母与子女的智力相关         .30

&2.智力理论

斯腾伯格《超越智商》
智力非一个单一结构,是一个综合的有整体的结构
1.因素说,(英)斯皮尔曼
一般因素(G因素)
特殊因素(S因素)
2.多因素说,(美)桑代克-凯利。
反对二因素说(尤其是G因素)。
认为——智力是各种特殊能力的综合
3.群因素(美)瑟斯顿
智力可以分为各种组群,每一组群都有一共同的G因素。分为七种组群(语文理解,语词流畅,数字运算,空间关系,机械记忆、知觉速度、一般推理)
由于七个组群仍有较高相关,所以修改后的该理论加入了"次组因素"的说法。后来该理论被称为"群因—一般因素,理论"。
4.卡特尔  流体智力与晶体智力。
流体~随神经系统成熟  该能力自然发展开。 是先天的。发展早衰退也早。
Eg.机械记忆,图形分辨(反应)知觉速度。
晶体~:受后天环境。教育的影响。
发展晚,后来会加快。Eg.语词.常识.词汇
5.智力的三维结构(吉尔福特  美)
三维度   内容                操作         成果
视听 图形             认知         单元
符号          记忆(短时 长时)  类别
语义            发散性思维       关系
行为            会聚性思维       系统
                    评价         转换
                                 蕴涵
4     *       5       *    6=120
细分有5     *       6        *    6=180(已找出105种因素)
6.三重结构论     斯腾伯格
(认为:传统的智商是静态的。)
       情境理论
三重:{经验理论
成分理论——核心内容
最基本的信息加工单元。元成分对其他成分进行计划、评价、加工等。另,操作成分执行元成分的指令,同时,有反馈;知识获得成分,选择问解解决的策略。
元成分:
                              
                  操作成分           知识获得成分
前两种理论,从外部世界、经验角度来看。
情境理论指出智力是主体对环境的适应、选择、改造。
经验理论指导测验编制中应运用大多数人都有(或无)的经验。或新异或熟悉。
7.智力的PASS模型
(DSA 戴斯):要产全新的理论取代传统的。     同时性
三个方面(三级认知功能)计划-注意-加工
                      ↓            继时性
              这一状态决定是两步的基础。
生理基础:三级机能联合区。(鲁利亚)
DAS编制的智力测验:DN认知评价系统。分四个分量表:
I.        第一分量表(计划性功能系统)
视觉搜索,计划连接,数字匹配。
II.        第二分量表(注意-唤醒系统)
III.        同时性加工
图形记忆、矩阵问题,同时性言语加工。表现的注意,找数字,听觉选择注意。
IV.        继时性加工
句子重复、句子问题、字词测验

&3.智力测验
一.        福-比纳量表(S-B量表)
1.19.6推孟第一次修订  首次用"智商概念"(第一版)
1937推孟第一次修订  采用复本的形式。(L版、M版)
1960推孟第三次修订  删除过时的题目,对题目重新排版,两个版本合二为一,题量增加。(第三版)
1972在第三版上,对常模进行修改
1986第四次修订版(桑代克Hagen)对S-B量表大规模修改(第四版)
↑现在使用的版本。
2.理论框架与构成
引八卡特尔的"流体""晶体"理论,及桑代克与Hagan的认知理论:∴理论框架是认知能力测验。
构成:3层次,15分测验
一般推理/理解能力            
      
晶体智力             流体智力/分析能力     短时记忆
获取、运用语文、                            I珠子记忆
数字的知识来解决     抽象/视觉能力         II语句记忆
问题与学校教育有关   I对图形或形态的分析  III数字记忆
II仿造/仿画            IV物品记忆
III矩阵
IV折纸和剪纸
语文推理           数量推理
I词汇              I算术
(小年龄,7岁上) II数列关系
II理解            III等式
III谬误
IV语文关系                              共15个分测验
3.S-B测验的特点
I.        内容上含概了更广的知识能力与信息加工的能力。
II.        采取分量表的形式(而前之版为年龄量表),框架有很大变化。对能力的各个方面进行评价。
III.        保留了传统的适应性测验
IV.        除了给总智商外,还有四个方面的分数及更多分支详细。
使用范围:2岁半~成人  适于找出弱智或超常儿的人。
4.测验的实施与评分
先测词汇分测验,以其成绩及年龄决定起测点。停测点因卷而易。采取一边操作一边评分。评分多是"0/1计分"。每个分测验的分数相加(即:原始分数,转换成标准量表分把分测检量表分相加),查常模,得四个量表分。再把四个分相加得总智商。
二.        麦卡锡幼儿智能量表(2岁半~8岁半)
(1972编)
1.        特点:
I.        测验材料起点低,近似玩具。
II.        不受民族、地域文化差异的影响。
III.        年龄范围侧重于学龄期儿童。弱智儿童可用到14岁。
2.        构成
五个分量表。 十八个分测验
总智商

        语言    知觉操作          数量         记忆           运动
I.图画记忆       I.积木         I.数的问题   (把其他四部分  ( 眼、手
II.语词知识      II.拼图        II.数字记忆     与记忆有关的    的动作)
III.语词记忆    III.连续敲击 III.计数和数的区分 测验组合在一起)
IV.词语流畅性   IV.左右方向
V.反义类推      V.图形临摹
VI.画人
VII.概括归类
3.        评分
原始分数。查表,每分量表的分数相加,得合成粗分。
智商把前三部分的合成粗分相加得智商。还可评判"一侧性"(或叫"单侧化")单侧化的完成也意味着智力的发展。

三.        瑞文测验(Rowen)
渐进矩阵 A B C D E 60题  标准型
        A B C D36题  彩色型-用于幼儿及弱智儿童
         I
高级型
         II
标准型+彩色型→联合型  5岁~75岁
A套:简单类比、直接辨别
B套:简单推理
8岁以前只做A.Ab.B三套即可。
C套:单维推理(数量、位移、组合)
D套:二维推理
E套:套合、互换
特点:无文化差别的问题,可用于大规模筛选。
四.        韦克斯勒智力量表。
1.        发展:纽约贝勒维精神病院中,雏形,因为韦克斯勒认为:
比纳量表的常模不适于成人。
智商术法不适于成人。
智商并不能完全反映智力。
韦克斯勒提出离差智商
儿童量表:WISC,WISC-R(修订版)
          WISC-Ⅲ
成人量表:WAIS,WAIS-R
学龄前及学龄初儿童量表(4.5岁-6.5岁)WPPSI,WPPSI-R
2.        WISC-R简介
全量表

                         语言量表       操作量表
语言量表
分测验:
I.        常识(生活常识-检查对日常事物的认知能力一般知识)
II.        类同
III.        算术
IV.        词汇
V.        理解
VI.        数字广度[备用替代](智力有问题,顺背不超过5个,倒背不到3个)
操作量表
I.        填图
II.        图片排列
III.        积木
IV.        拼图
V.        译码
VI.        迷津←(备用/替代)
原始分查表,相加得分量表分,再相加,得全量表分。
1991年修订版

总智商

                       言语理解  知觉组织  注意集中    加工速度
                   (常识,类同、(填图,图  克服分心(译码、符号搜索)
词汇、理解) 画排列,积(算术,
             木,拼配)  背数)
另配:
成绩测验:用于学力能力、策略上有困难的学生(智商不低)
五.        考夫曼儿童成套评估测验(2 1/2岁~12 1/2岁)
Kanfman Assessment Battery for Children(K-ABC)
以Das的PASS模型为依据
设想效果:从认知心理学与神经心理学角度测量智力,不仅测量已有知识水平,而且测量解决新问题的能力。所得分数便于教育安排上的采用。
另,也有非语言量表

总量表

                     继时性加工    同时性加工  成就量表   智力(-设想为解决
                    I.动作模仿     I.图形辨认   I.词汇表达        新问题的能力
                   II.数字背诵     II.人物辨认  II.人地辨认       流体智力(先天)
                   III.系列记忆    III.完形测验 III.数字运用      智力量表分=
                                  IV.图形组合 IV.物体猜迷     继时性加工的组分
                                  V.图形类推  V.阅读发音   +同时性加工的得分
                                 VI.位置记忆 VI.阅读理解    (+非语言量表)
                                VII.照片系列  晶体智力(后天)

§4对智力测验的反思的评价
1.        存在价值
2.        智力测验的优点
有标准化的过程——最大的优点
比通过学业成就来评价智力要科学得多。——
I.        评价人的各种能力
II.        评价范围广
III.        快速、有效
3.        存在的问题与局限性
局限性表现在
I.        智商只提供量的数据,而无质的分析
II.        只测当时的智力,而不能考虑到以后的发展速度和趋势
III.        标准答案有利于聚合思维、抽象思维和推理,而无利于发散思维
IV.        与文化教育有关,只能部分反映一个人的智力水平。(受理论局限)适应性行为也是智力的一部分。
V.        作智力测验受很多因素影响(Eg:情绪、动机、疲劳etc)
4.        智力测验的新理论与新方法。
I.        皮亚杰的发生认识论
重要的不在于对与错,而在于怎么推理得到了结果。方法:综合了观察、测量、访谈etc,组合成了——临床法。
II.        生态文化理论:
强调重视现时的环境、情景中人的智力活动。从各种社会环境中对智力进行评价。

第四章 学业成就测验
(学绩测验、教育测验)*特征与智力测验相比的异用
旨在对学生在某一科目、某一知识中掌握的程度进行评价。
心理测验中的学业成就测验是标准化了的。
§1概述
一.发展
1.1894,Rice的拼字测验揭开了标准化测验的序幕
桑代克——教育测验之父
(学生)Stune的算术测验——最早的标准化的学科测验
桑代克的书法测验——第一个用科学方法编制的教育测量工具。
2.        性质:
学生对某一科目的学习效果,无预测功能。
3.        标准化测验与白编测验的不同之处。
I.        教师自编的测验因教师的进展,班级的情况的不同而不同,易反映所在学校现行的具体的教育目标;标准化中含有的教育目标更普遍。得到很多教育家的共识。
II.        标准化测验重于理解、思维过程;自编的测验重于具体知识。
二.成就测验的类型。
1.(综合)成套测验
斯坦福成就测验(幼级)
学术能力成就测验
基础教育及基本技能最低限度测验
2.单科测验
    3.品质量表
4.        教师自编测验eg:作文(优缺点)
要求:
I.        量多,范围广,覆盖面大
II.        学生的回答形式越易越好
III.        要有客观标准的评分方法
IV.        测验形式多样化
V.        尽量用要推理思考的题目,避免机械记忆
                                      第五章 人格测验(个性)
Eysenck Personality Questionnaive (EPQ)
艾森克个性问卷。
1752年              产生N分量表(神经质)
1959年              E分量表(外倾性)
1964年              L分量表(说谎)
1975年              P分量表(精神质)
L量表值超过一定值之后,表明这份测量无效。
克雷普林,荣格。"联想法"
武德沃斯
人格测验的四种形式
一.自陈测验--基本假设:人对自己最了解。忽略了:了解的正确性,报告的真实性
非自我描述,而是测验,一般是纸笔测验
采用是非题或选择题
   1.内容消毒人格测验(早期采用)
        根据某一种人格理论,来确定要测量的一个特质。
        缺点:特质与试题的联系,过于明显,容易使结果失真。
   2.因素分析人格测验
        因素间相关较小。一个因素测一种特质
eg:Y~G人格测验
   3.经验效标人格测验
根据不同的人的反应来编制
eg:MMTI(明尼苏达。。。)
用词要尽量中性化
一般加入测慌题目
《卡特尔16种人格因素量表》
(一)根据"特质理论"。特质比习惯更一般化。
      整个人格体系所包含的行为都可用语词表现出来。通过因素分析,找到了15个因素:第二项B是从智力理论而来的。为第16个因素。
      有ABC三个英文版,各187题。
(二)特点:1。客观,明确,中性化的词语
            表面效度低,看不出测什么
            编排
            2.标准化。经过三次抽样,准确性高。测验程序,抽样都符合标准化。有部面图
            3.非单一功能,是多功能的
            十六个因素组合,得次级得一些人格因素
            4.广普性。
            用来评价正常人。16岁以上到老。
                            8岁到14岁用14P下(或CPQ)
                            5岁到8岁。还有一个量表。
            5.多元性
            信息量大。
(三)要求。1。每题都要选一个答案。
             2.全部要回答
             3.尽量做得快
             4.少选折中得答案
《明尼苏达多项人格文卷》
             根据经验效标来测验。
(一)编制思路和过程
   1930~1940
   收集1000多个题目,在效标组(异常人)和对照组(正常人)做实验。为了测多项,要有许多效标组
  10个临床量表和4个效度量表(Q量表无专门题目)
  13个分量表共654题。(有重叠得题目)。不重复,共550题,其中有16题可用两次。
  1至399题是测验用,其他供研究用
(二)施测和评分。约45分钟,一般不超过90分钟
有:卡片式;问卷式
男女分开;把重叠的题的答案比较,不同的在6题以上,作废;这些题与无法回答的题在30题以上,作废。
疑病症:            T>60                 不愉快,敌意,需求,同情
抑郁症:            T>70                 表现:易怒,胆小,自责
癔病:              T>70                 歇斯底里,天真,缺少自知力。用否认,压抑来处理事情。
精神病态            高分                  很难接受社会价值观和社会道德规范易接受反社会行为。
                                          外露,善交际,爱享受,不成熟,家庭关系处理不好,虚伪。
男子气好气。(非病)T越高,越远离自己的性别  男:敏感,被动,爱美。(高分)
                                                 好攻击,粗鲁(低分)
                                             女:(与男相反)
妄想症:            T>70                   明显精神病行为:认为自己受欺负--障碍
                    >80(极端)             --精神病
                    ∈[60,70]              --倾向
精神衰弱                                  强迫行为,恐怖,刻板,自责,不安。
精神分裂                                  分裂的生活方式,退缩,胆小,心情易变,紧张,有奇怪的思想,判断力差。
                     70~80               有幻想,幻觉
轻躁狂              T∈[70,75]             外露,乐观,精力过分充沛,易怒,纵酒,轻浮,夸张,过高估计自己
                     >75                  情绪反复无常
社会内向(非病)    高分                  内向倾向严重
                                          胆小,退缩,屈服,过于谨慎,反应慢
                    低份                  外向,冲动,任性,做作,不太真诚
注:要根据双高分的原则。 高:>60或70
(三)优缺点
优点:
(I)        客观;与医学诊断一致性高
(II)        首次把效度量表引入测验
(III)        既可作医学诊断,也可以作正常人的人格诊断
(IV)        丰富的题库
        缺点:
(i)        人格测验信度不够
(ii)        易受被试的年龄,性别,学历,社会环境的影响
(iii)        对人格特质的描述多用病理学解释
(iv)        题目多,时间过长易引起烦躁。
二.        投射测验
投射:个体把自己的思想,态度,愿望,情绪,性格等人格特质不自觉地反映于外界事物或他人身上的心理作用。
特点:刺激本身没有意义。
强调无意识,否认自陈测验。
投射测验的类型:
1.联想法
   词的联想(荣格)
   罗夏墨迹图 Rorschach Ink-Blot Test
2.构造法
   根据被试看到的图片,构造一个故事(有过去,现在,将来)。
   主题统觉测验 TAT
   儿童主题统觉测验:(i)动物版 (ii)人物版
3.完成法
   提供残缺不全的图片或句子,要求补充完整
  语句完成测验(SSCT)60题(类:家庭,性,人际关系,自我观念--
4.排选造
  给予几张照片,按(任何方法)某种顺序排列
5.表露法
  让被试利用某种媒介自由表露心理状态
  画树测验
  20个标准
投射测验优缺点
优:(I)不受题目限制,可测出题目以外的线索,对人格做出综合探索
缺:(I)评分缺乏标准,无常模,信效度不够,不易量化理论深奥,对主试要求高,不易普及
三.评定量表(他评量表)
类型:
1.数字评定量表
2.图标评定
3.标准评定
4.强迫选择评定量表
四.情境测验
1.品格教育测验
  主要用来测儿童的品格发展
(1)        诚实测验。Eg:不肯能成绩
(2)        自控测验
(3)        公正测验(多用于幼儿)
        2.情境压力测验
eg:无领袖团体情境测验
  3.优缺点:
     优:在实际情境中做测验,表现出来的人格特征较真实,准确。
     缺:实施起来较困难,主试需经过严格培训。但仍有误差。
四种人格测验的缺陷
(i)        人格的定义还不一致。测验内容也不一致。所测的人格特质也不相同。
(ii)        人格测验的信度。效度较低。原因在于:人格受情境和个人当时心态的影响;人格测验很难找到准确的效标。
(iii)        人格测验编测题很难
(iv)        测验结果的解释有多样性。答案无对错之分。
(v)        测验中有伪装和社会赞许的反应。
(vi)        人格测验关系隐私问题。
                 第六章  态度测验法
社会心理学领域多用此测验法。
一.态度的性质及态度量表的公用。
1.基本性质。
斯宾塞(Spencen)第一次用此词。
Combell:态度是针对一组社会事物而产生的具有一致性的反应群。
三个层面:1.认知(尤其是评价性认知)
          2.情感性。
          3.行为倾向。
态度有方向性;也有强弱之分;有多面性;有三层面一致性。
2.态度量表:由一组相互有关联的陈述句组成,一组态度语或项目。陈述句的方向,强度是有区别的。
明确的目的,测题质量.数量是好的态度量表的决定因素.
       3.功用
(1)        衡量一宣传工具影响人们态度的程度.(或政治预测,市场调查,偏好)
(2)        评估教育的成果
       二.等距量表法
1.根据研究主题,搜集符合的态度语100~200句.其中反对及赞成的比例1:1.(或1/3反对,1/3中立,1/3赞成).按反对到赞成份5~7组.
主义:语句通顺,简单;没有歧义,每句句子对主体有清晰的态度.
公认的事实不要放在测验中,无鉴别力.
2.请50~60人对反对至赞成的句子分组,至少7组(客观,对主体明确的人)
3.对每名态度语做次数分布表和累积百分比表
4.画累积百分比图
5.找出(又值小的句子,并且在0~11组的分布合理.
1~4→3,5~7→4,8~11→3
三.利克特量表法(Likert)
1.针对一个研究主体,收集有关资料,编制成态度语(包括肯定的态度和否定的态度语).回答分五或六等题目及答案由肯定至否定得5,4,3,2,1分.
总加量表
特点1)假定每一题都有相同得量值(因为题目要求同质性)
  (2)被试对题目得态度强度可以尽量分出等级.
2.编制方法
(1)项目的制订  题目性质相同
              (若对不同质题目的态度与对研究内容的态度一致,则也可选用)
              不少于20个
(2)预测和评分  选一样组做预测,看题目是否编得理想
  (预先测验)      (a值:内在一致性)
(3)项目分析    分析题目的鉴别力
              被试题目得分由高到低排列,取前后各25%人.
              一个题目高分中)(同意人数/高分组人数)-(低分组中)(同意人数)/低分组人数)=鉴别指数
              鉴别指数:0.2以下淘汰,0.3以上通过.0.2~0.3修改
四.哥特曼量表法
1.构造原理
项目少(不超过10个),效果较好的一种量表,结构复杂.
每一题程度上有不同
eg:--战场中的柑桔
        经常(a)     有时(b)      只有一次(c)   从来没有(d)     不予回答(e)
(1)        心脏脉搏跳动很快
(2)        胃有下沉感
(3)        感到虚弱或晕眩
(4)        胃感到不适
(5)        出冷汗
(6)        呕吐
(7)        全身颤抖
(8)        尿撒在身上
(9)        膀胱失去控制
(10)        有僵硬感觉
(2),(3)题中   a.b.c 一分 ;d.e  零分
其它题中    a.b零分  ;c.d.e 一分
去掉第(5)题
恐惧程度由弱到强:1~2~7~4~10~3~~6~9~8
一道题目:(理论上)
表(略)
2.步骤
(1)        设计句子,及五或六种反应态度
(2)        选一个代表性样组进行预测
(3)        把题目按分数由上到下(从最赞成到最不赞成)排列
3.缺点。
只注重单向性,不注意设计项目。题目。
                            第七章  兴趣测验
一.1915.迈纳(Miner) -- 不标准化的
1927        斯特朗(Strong)
           1939  库德(Kuder)
        高中,高中以后。职业兴趣才稳定下来
(15岁~18岁)因为找被试有年龄限制。
    可通过(i)兴趣表达,(ii)对行为进行观察,(iii)进行能力测验(iv)兴趣问卷,四个方法来了解个体的兴趣。
   (综合以上三种方法,是最常用的)
     只能说明有兴趣,未必胜任。
        二.《斯特朗~坎贝尔兴趣问卷》
1.        评卷(I)浏览
         (II)一般职业框架(转换成七分)
         低于34,此方面兴趣很低
         35~42         低
         43~57        平均
         58~65         高
         高于66        极高
        (III)对照常模
        (IV)做一般解释,也可再进行特殊分析
2.信度0.80
  效度极好
三.库德职业兴趣调查表
强迫选择
有48个大学专业量表
信度0.90
另外还有"个人匹配"。可以深入了解一个人的兴趣
         四.自我指导问卷
职业类型测验 ~ 人格特点
职业搜索表
先测兴趣特征,再根据人格特点查找兴趣
再写职业码。查指南。
现实型(R),研究型(I),艺术型(A)
社会型(S),企业型(E),传统型(C)
eg:心理 AIC
图(略)


                             第八章 测量的误差
稳定性(一致性)
准确性
一.        误差形式
(i)        随机误差
(ii)        常定误差(系统误差)--只影响准确性,而不影响稳定性
(iii)        抽样误差
               二.误差的来源
               1.测验内部引起的误差(编制过程种,测题本身存在的误差。)
题目取样时,题量少,或无代表性
其他编制过程。Eg:句子意义不明确,题目太难,测验时间设定不对
                2.测验过程中引起的误差
a.        物理环境
b.        主试的情况(尤其对儿童会有影响)
步骤,说明被试是否清楚
儿童,或有情绪障碍的人需先交流
c.        意外干扰eg:团体测量中。
d.        计分过程中eg:不客观,尺寸掌握不同
                3.来自于被试本身的误差
                 图(略)


                能力高的人不太会产生焦虑;能力不自信
                求胜心切的人会产生较高;缺乏自信,适应性不强,情绪不稳定的人易高焦虑
                很少参加测验的人,对程序不熟悉易高焦虑
                测验成绩对被试而言很重要。易高焦虑
第九章.测量的信度
信度与随机误差的关系:信度大,误差小
一.        信度的定义
实测分数=真分数+误差
X=T+E
信度:真分数/实测分数(真分数不可能测得,只能通过对误差的推测来估计)
判断信度系数的高低:(能力测验,信度需0.90,人格(态度)测验,0.80)
一.        估计信度的方法
1.        稳定系数(重测信度) 成人 隔2,3月至半年
皮尔逊积分相关公式   儿童 隔1,2周至半个月
r=(∑X1X2/N-#*#)/S1*S2 跨时间的一致性
2.复本信度(等值系数)
跨形式的一致性。时间间隔不要太长。
3.内在一致性。
  跨题目的一致性
  克伦巴赫a系数:
(i)        分半信度:以奇偶数分半
r校正=(2*r分半)/(1+r分半
(ii)        库德--理查逊估计法
K-R 20公式
Rkk=(k/(k-1))*((1-∑PiGi)/Sx2) --适用于二极性的答案
(iii)        a=k/(k-1)*(1-∑Si2 /Sx2) --适用于二级以上的答案
内在一致性优点:只须做一次测验,信度比以前两种方式高。注:测验是同质性的或有分量表才可用。
4.因素分析。
5.评分者信度(主观题)
三.影响信度的因素。
1.不同测验范围与信度
   分数分布越大(误差越小),信度高
   eg:6~12岁,信度0.95,其中,10岁,信度<0.95
   所以被试年龄多,信度易高。
2.测验长度与信度
   题目多,信度高
   n=rnn(1-r11)/r11(1-rnn)  
   r11 原信度  rnn 目标信度
斯皮尔曼--布朗公式  K:改变以后的长度与原长度之比
                       rxx:原长度
   r=Krxx /1+(k-1)rxx
3.测验难度和信度
   分数分散的分布越广,信度越高
四.测量的标准误差
   尤其适用于解释个人分数
   标准误差,误差分数分布的标准差。
   实践中,以一组被试两次测验的得分代替一个被试多次测量的得分。
   Se=St*(1-rtt)1/2
  Eg:韦式测验  Se=St*(1-rtt)1/2 =3.35
  在95%的置信水平上,被试的区间。
  3.35*1.96=6.6
  若得分100,在[100-6.6,00+6.6]区间1概率为95%,也可用标准误差判断一名被试两个测验的差异
第十章 效度
信度只从测量角度评定测验
效度:测测验的特性的程度,测测验是测什么特性。
                                        &1.效度的概述
一.        什么是效度
一个测验的结果必须符合测验的目的。有效性效度相对信度更重要。
实测分数=真分数+误差(随机) 必要条件:信度,效度
效度:实测分数中与目的有关的真分数占实测分数的比例
二.        信度与效度的联系
三.        影响效度的误差来源
1.测题本身(最主要的来源)
   测题长度,编排方式
2.实施过程中
3.被试的反应
四.效度的性质
   对效度的评价 高,中,低
   效度通过推测得到
                                         &2.准则关联效度或效标效度
eg:智力水平的效标可以是:学习成绩,教师评语,以后的成就
  效标:相对的,
        受时间的考验
  分:同时性
继时性 eg:将来的工作成就
  效度系数(测验分数与准则的相关程度)
1.        相关法
a.        积差相关法 两分数要求连续
图(略)


b.二列相关法(一组分数连续,另一组不连续)
c.多元相关法(有多等级)
2.        区分法(小规模不易看出有差异,大规模易看出有差异)
3.        命中率
图(略)


注意:以上三种方法都要求效标的可靠性
&3.内容效度
一.        包含主要方面
各方面的题目要有比例,有一定难度
学业成就测验尤其注重内容效度
二.        考验内容效度的方法
1.        专家判断
缺陷  (i)无量化指标
(ii)判断不一致
(iii)由于教育思想不同,所以判断内容范围时不一致)
    2.统计分析法(克伦巴赫提出)
根据相同的内容范围,编两套测题,对被试测试,再进行相关处理(类似复本心信度)
    3.再测法
两次测验,后一次测验分数明显提高,则内容效度高(中间有教学)
    4.经验法
测验分数随年龄增长而提高,内容效度高
  三.内容效度和表面效度的关系
被试或外行人从题目看出要测的内容。两者之间不要求同步。表面效度不是一种客观指标,但会影响被试动机,从而影响内容效度。学习成就,职业测验,兴趣测验的表面效度高,人格测验表面效度要低。表面效度降低只要改变措词。
  四.提高内容效度的方法
编制命题双向细目表
图(略)
                                           &4.结构效度
一.        概述
1954念提出
按一定理论编制测验,测验结果证明了理论,则有结构效度
二.        考验结构效度的方法
1.        测验内方法
研究测验的内部结构,来界定测验的结构范围
(i)        借用内容效度(结构效度与之有直接关系)
(ii)        考察测验的同质性
一个因素中的应是同质性的,不同因素,之间不能是同质性的。
(iii)        分析被试对题目的反应过程外来影响因素越小,结构效度越高
2.        测验间方法
研究几个测验(同类)间的相关,来考察是否测同一特质。
(i)        相容效度
求一个新测验与一已有测验的相关(若无已有测验,用部分有关系的测验代替)
(ii)        会聚效度和区分效度(1960坎贝尔提出)
要求:测同一特质的变量有很高相关,并且,测不同特质的变量有很低相关,特别适合于人格测验。多种特质--多种方法矩阵
           3.准则关联效度研究
对准则的预测水平越高,效度越高,主要看测验分数可否区别不同的人。
Eg:Barron巴龙,自我强度量表
           4.其他变它证据
随自然事件的发生,测验结果应有所变化
           5.实验操作
看是否受训练的影响。Eg:学业成就--训练有影响。智商-- 训练无影响。非训练测题。
证明了预期,则有效度
           对效度的总结
(i)        任何测验,都二要效度证据。不同测验,偏重于不同种类的效度,实际运用中,多用准则关联效度,内容效度只需说明。
(ii)        三种效度有不同作用。
结构~:帮助我们运用分数去解释人的不同心理特质。
准则关联~:了解分数是否可以有效估计某种行为表现
内容~:帮助决定分数是否代表测验结果。
(iii)        效度分析通常是编完测验后做,但效度的思想已知影响编制过程。效度比信度更重要
第十一章 测验的实施与计分
    &1.测验的准备
一.        测验者的准备
主试的准备。经过严格的训练与考核,熟悉指导语。
二.        测验环境的准备
1.        房间的选择;2。桌椅安排。(不能太大,易分散主义;不能太小,不易施展开来。一般的光线,温度,对儿童,引起注意分散的物品拿走)。位置远离喧闹,不准有人进出。(主试与被试中不可有一方站着,椅子太高或太低影响视线,桌子太小,倾斜都不能做测验。不要坐沙发,转椅,应是直靠椅背的高度适中,桌面足够大,不要太宽)
3.测验材料的准备
4.参加测验的人员
父母,班主任不可做主试
三.被试的准备。
放在被试最佳心理,生理状态
1.        选择的时间(无吸引他们的活动的时间,心理情绪稳定,生理状态良好的时候)
2.        生理的准备(在测验时无急迫的生理需要)
3.        心理的准备,亲密关系的建立
(i)        先介绍自己(姓名,职业)
(ii)        问一些一般的信息,使他高兴
(iii)        不直接地讲一些"目的"。(避免提"作业")
(iv)        对大致的一些任务作介绍(所需时间,将有的活动,测验的难度,鼓励他们对不明确的地方立即提一些问题)
&2.测验的实施
一.作记录
1.        记录要隐蔽
2.        记录要真是
二.如何对待被试的要求
1.        如果被试没有听清题意,要求重复,一般允许,但记忆测验不能重复
2.        如果被试要求修改回答,一般允许,但若规定只记第一时间的反应,则不允许更正。
三.对主试的要求。
1.        主试必须集中注意力
2.        不能对被试的回答有所暗示
3.        适当强化被试的行为(适当鼓励)
4.        鼓励被试的回答
5.        对磨棱两可的答案,主试先重复回答,再让被试解释。若这类答案无论如何理解都错,则不需追问。
6.        对计时题,题目说完就按下表
7.        计分严格按照手册要求
                                          &3.测验的计分
一.年龄的计算法
测验日期--出生年月
注:借位。有30日,12个月。。。
二.原始分计算法
1.0,1(对,错)计分法
2.多级计分法
三.原始分换算为标准分数(以年龄分,以年级分,以百分位。。。来表示)
                                           第十二章。测验的项目分析
可以分:质的分析。 专家对项目内容,形式进行分析
        量的分析。 采用统计方法来测定项目的品质。
        包括难度分析与鉴别力分析。
                                                  &1.项目的难度
一.        难度:测题的难易程度
难度分析 在能力测验中,指:对测题难易程度作标定
         在非能力测验中,指:对内容通俗性和流行性程度作分析在题目范围之内,做回答的人的估计难度的指标。
1.        通过率--通过的百分比越高,题目越容易
(i)        二值记分测题:0,1计分
P=R/N(R:通过人数,N:总人数)
(ii)        非二值记分的测题
P=#/#max #实际的平均分 # max若都得满分,所得得平均分。
但,先要做修正以排除"猜"得机率
即:再用校正公式 CP=(KP-1)/(K-1)(K代表"K择一)
选项数目不一样,不可直接比较两题难度,要做校正。
        (iii)  分组法
                当被试样本很大,把分数从高到低排列取高分组,上限27%人;低分组:下限27% P=(PH+Pz)/2(PH,Pz可用P=R/N 或P=#/#max 等得)
      2.项目难度的等距量表
(通过率反映出的难度不等距)
二.测验难度的确定和分数的分布
  通过率越接近0或1,就无鉴别力;越接近0.5,越有区分力。
  但每道题都是50%,一方面不太可能做到;另一方面,题目间的相关会很高。所以一般,把测验的平均难度控制在0.5,而每道题可在0.3~0.7中波动
  若选择的人数少,参选的人多,则P可以很小,难度高一些,eg可在0.05,当从100人中取5人时)
   分数分布是常态的,测题难度就恰当。
反之, 图(略)


                                      &2.项目的鉴别力(区分度)
1.        鉴别力:测题对于不同水平的被试反应的区分程度和鉴别能力。
2.        鉴别力估计方式:
(1)        项目效度分析:主要依据效标,来考察测验中的反应与效标的相关
(i)        可用相关系数
(ii)        用鉴别指数:分数从高到低排列,对半分,分高分组,低分组。
小样本时,D= PH - Pz  指数越高,鉴别力好。
大样本时,用两端来挑高分组,低分组 27%为最佳
(2)        有的测量效标难找,就用总分做效标,将每道题的分数与总分做相关
相关高;鉴别力也高;相关低,鉴别力不够
计算方法:(i)点二列相关系数
            rpbi=#p-#g/St(pg)1/2
            #p答对的人的总分平均数(g=1-p)
            #g 答错的。。。。。。。。。。。。。
            St标准差
            P为难度值
               条件:测题0;1记分,总分连续
               (ii)二列相关
               条件:测题与总分都是连续的值,测验又认为分成两类
                rb=#p-#q/St(pg/y)1/2
                (iii)积差相关
(3)        方差法 --看离散程度
一道题目,离散程度大,有区分度。
3.难度与鉴别力的关系
通过率为1或0,无鉴别力
通过率为0.5,鉴别力为1。
通过率为0.7,鉴别力最大值为0.6(书P124)
                        &3.项目分析实例
一.        步骤
1.        选取有代表性的样组,按规定程序预测
2.        批出分数。按总分高到低排序,高分组,低分组各27%
3.        同一测题,高分组,低分组通过人数比率PH ,Pz
4.        分别求出难度,鉴别力
5.        比较高分组,低分组在每题答案上的反应。
6.        根据统计结果修改测题      
二.        实例
题号   组别          选答人数       正确答案         难度     鉴别力
         A   B   C  D  未答                     p        rb  D
1    高分组   5   92   1  2    0        B             .71      .52  .42
低分组   22  50  12  16   0                 
2      高     58  10  15  16   1        A             .42      .33  .32
        低     26  21  15  36   2
3      高     17  15  28  28   12       D             .31      .-.04 -.06
        低     25  11  19  34   11      
4      高     1   44  14  36   5        C             .12       .08  .04
        低     1   56  10  28   5      
1.        首先看鉴别力
1,        2题号,3,4题淘汰或修改
2.难度(0.35~0.65之间最好,总难度要居中)
   就难度而言,4个题都可使用
3.选答人数
   异常:
(i)        正确答案无人或很少有人选,选的人数少于其他答案选的人;选错的人过多
(ii)        高分组选正确答案的人少于低分组的,高分组选错人多
(iii)        某一选项无人选择
(iv)        未答人数较多
4.修改
&4.准则参照测验的项目分析
以上的项目分析都是针对常模参照(与常模对照)测验的。
1.        准则参照测验是测接受训练/教育的与不接受的人或接受前后一个人的差别。无常模,但有人为制定的标准。
准则参照测验的难度取决于作为准则的东西。如果准则要求不高,难度可降低;标准高,难度就大。鉴别力同样看准则,准则要求的内容,鉴别力即使低,也要。
具体方法:
   按成绩分组,达到标准的一组,未达到的一组;计算两族人对每题的差异。
   差异:P=(PH  + Pz )/N
   鉴别力=RH/NH-Rz/Nz  N人数。R达到标准
2.        教育效果敏感指数(训练效果)

实例:
学生                        试题
                  1     2     3     4     5                  
                 前后   前后  前后  前后  前后
A               +-   -+  ++  ——  +-
B               ++   -+  ++  ——  +-
C               -+   -+  ++  ——  +-
D               -+   -+  ++  ——  +-
E               ++   -+  ++  ——  +-
F               ——   -+  ++  ——  +-
S1=0.5  S2=1  S3=0 S4=0  S5=-1
S∈[-1,1]大于0就有鉴别力,越大越好
                                  &5速度测验的项目分析
有人以答完此题的人数为指标,不考虑此题为做的人
也有人延长时间,但这忽略了速度因素的影响。
至今,未有很好的分析方法。
                                   第十三章 量表和常模
&1.标准化样组
预测的样本可以较好地代表全域,则其为"标准化样组"抽样:
1.        选样本时,要考虑到与测量有关地变量。Eg:智力测验时,年龄要注意;地域;性别;父母学历;家庭经济状况
若全域中的小团体差异较大,则要分别制定常模
eg:人格测验分男,女
2.        样组规模要适当,有条件的化,越大越好。
3.        为了克服误差,抽样方法很重要
根据性质和任务决定。
不能像调查一样"愿者上钩"
以"概率抽样"将系统误差减小到最小,误差大小事无就可知。
(i)        简单随机抽样
(ii)        分层抽样。优点1)抽样的分布反映总体的分布(2)分层抽样误差比(i)小;或误差一样,但花费较(i)少。
(iii)        整群抽样。
随机抽几个整体(单位团体),其中的每个人都要进入调查得到的均数离整体较(i)更远,所以为了避免此缺陷。样本要大一些。一般,采取分层抽样的方法(再在每一层,可用整群抽样或简单随机抽样。
                             &2.测验的原始分数和导出分数
一.        原始分数(p136)
分数可以是任意的,没有意义
修正  Xc=R+O/K
R:正确答对的题数
O:被忽略的
K:选项数
二.        量表分数
既有一定的参照,又有一定的单位。转换后的分数称为:"导出分数"。
1.百分量表
注:(i)原始分数转换成量表分时,非线性。
原始分布成正态,百分量表分呈长方形。
           (ii)百分量表是等级量表,不能作加减运算。
       2.标准分数(Z分数)
要做运算时可用。是等距量表,把原始分与平均分的差以标准差来表示。
Z=(x-#)/S 注:原始分数的分布必须是常态的。是一种线性转换
优点:
(i)        可以做进一步统计分析,加减等运算
(ii)        可以对两个以上的分数作比较
缺点:
(i)        计算,统计原理较复杂,不易使外行看懂,不能普及
(ii)        有负值,运用起来不方便;单位可能过大
(iii)        若原始分有问题,无法校正
       3.常态化
          原始分数~百分比数~Z分数
三.        标准分数的变化
1.7分数
以50为均数,10为标准差。T=50+10Z
2.标准九
1,2,3,4,5,6,7,8,9
分为九个等级,5为均数,2为标准差
相应百分比:4%,7%,12%,17%,20%,17%,12%,7%,4%
3.发展量表
年龄量表,年级量表
a.智龄。
三.剖面图
使人们对测验结果一目了然。
                                    第十四章 编制测验的方法
&1.测验目的的确立和材料的选择
  一.测验目的的确立
1.        把目标具体化
2.        测验的对象确立(团体/个体)
3.        测验的用途(善查/诊断。。。)
4.        类型(常模参照/标准参照)
5.        被试的文化背景
  二.制定编制计划(蓝图)
   考虑测验内容,技能,重要程度(比重)
  三.测验材料的选择
   原则:1.取样材料丰富,函概各放面
         2.材料有普遍性,对全部被试公平
   不同测验还有不同原则。材料有趣(尤其对幼儿)
  四.测验形式的选择
                                         &2.测题编制技术
一.命题的一般原则
1.        测题内容有代表性
2.        测题难度有一定的分布范围
3.        测题的文字简明,避免用深奥的词(避免双重否定)
4.        各测题之间要相互独立
5.        正确答案只有一个(人格,创造力测验除外)
6.        测题内容不能超出被试的团体水平
7.        所提问题避免社会禁忌或个人隐私
策略:
(1)        先假定被试采取肯定态度,编题
(2)        假定问题,无所谓好坏
(3)        指出该行为不是异常的,而是普遍的
8.        测题数目比正式题目要多一倍,便于筛选
二.测题格式的种类
1.        自由反应型
(1)        是非题
猜对的可能大,因为标准化测验中不用
注:
(i)        不能包含暗示,"所有""都"。。。有否定暗示
(ii)        一题只能包含一个概念
(iii)        题目表述简洁,用正面陈述,不要用反面陈述或双重否定
(iv)        选择"是""否"数量差不多
(v)        测题不能太少,至少30~50题
     (2)  选择题
包含:词干(词句或不完整的陈述句),选项(4~5各)每题数目一致。可考查,记忆,鉴别,推理。。。
缺点:编几个选项有难度,其间有关联
注:
(i)        选项4~5各,且每题的数目一致
(ii)        错误选项不要太明显,错误选项,高分组很少有人选,低分组有较多人选,错误选项被选到的概率要差不多。
(iii)        不要把选项放在词干当中
(iv)        各选项在形式上要已知(eg:都是图形,或数字符号。。。)
(v)        选项间不应相互重叠。
(vi)        选项中相同的词可放在词干中。
(vii)        选项中正确答案的位置随机排列。
(3)匹配题
(i)        几个题目内容形式上一致
(ii)        知道语中讲明匹配的依据
(iii)        配对项目不要太多,最多十对。
(iv)        同一项目不要印得分开来。用于测概念或事实间的盥洗1
(4)排列题
依据大小,时间。。。,将项目重新排列
      (5)最好理由题
(6)联想型  
评判难把握。
                      &3.预测和测题分析
一.预测
目的:为了对测题进行修正
注:
(i)        预测对象即以后正式测验要测的被试。人数不宜太多,也不能太少。一般,智力测验要30人以上,学业成就测验要370人左右。
(ii)        预测与正式测验的程序是一样的
(iii)        预测的时间可以放长(速度测验例外)
(iv)        详细记下被试的反应,记下完成的时间。记下可能产生误解的题目。
二.测题分析(项目分析)
难度
鉴别力。区分等级越多越好
聚类分析。
把相似的内容归为一类。
因素分析
                                         &4.测题的选择,编排和测验的标准化
步骤:
1.确定取舍标准
原则:(1)根据鉴别力  (2)再选难度适中的题目,特别难与特别容易的也要选一些(人格测验等降低难度要求) (3)测验长度也有要求1小时左右,测验长度也取决于被试的年龄
2.        编排原则与方法:
一般在开头有非常容易的题目
题目从容易到难,在测题最后放最难的题目。
编排形式:(i)并列直进式 -- 有分测验
          (ii)混合螺旋式 -- 无分测验,纯粹按难度 (优点,被试不感到枯燥)
3.        测题性能的复核
再做一次预测
4.        编制复本 为了增加实用性
在难度上不能与原来有差别
"蛇"形排列。把所有题目按难度排好,标题号。
Eg: A版 1 3 5 …
   B 版 2 4 6…
复本再做预测及分析。
5.        标准化
(i)        内容方面的标准化 eg:A,B版题目等值。
(ii)        实施上标准化:规定统一指导语及时间限定。
(iii)        评分时标准化
&5.测验基本特征的鉴定
信度,效度,量表,常模及指导手册
                                        第十五章 总结
心理测量的不足(失真)
1.        编制者依据的理论是否可以解释所要测量的心理特性
2.        确定反应心理结构的行为样组有局限,不够全面
3.        预测的鉴定建立在概率论与统计上
4.        实施过程中的客观影响不能反映被试的真是水平或态度。