抽样与测量

来源:百度文库 编辑:神马文学网 时间:2024/04/28 19:43:16
第一部分:抽样
一、抽样的基本概念
抽样,就是从总体中抽取样本的过程。抽样的目的和作用在于科学地挑选总体的部分作为总体的代表,以便通过对这局部的研究,取得能说明总体的足够可靠的资料,准确地推断总体的情况,从而认识总体的特征或规律性。为了使统计推断正确可靠,抽取的样本对于总体来说必须具有代表性。
⒈ 概率抽样与非概率抽样
抽样方法基本分两大类:概率抽样与非概率抽样。
遵循随机化原则的抽样称为概率抽样。不是按照随机化原则进行的抽样称为非概率抽样。概率论研究证明,要使样本在性质上对总体最有代表性,抽样时就需遵循随机化原则,即抽样完全按随机的方式进行,总体中每一个研究对象被抽取到的机会必须是均等的,即有同等被抽取到的可能性。这样总体中原来多的部分被抽取到的机会就多,原来少的部分被抽取到的机会就少,抽取的样本就能很好地代表总体。总体中每一个对象被抽取的概率是已知的,概率抽样的最大优点,是能用概率计算的方法,客观地评价研究结果的精确度,并且可以按照课题所要求的精确程度,去考虑样本容量和具体的抽样方法。因此,在准备着手抽样研究时,应该理解概率抽样的意义,尽可能采用。
⒉ 抽样误差与抽样偏差
因为在抽样研究中,只取总体中的一部分作为直接研究的对象,然后根据样本结果去推算总体的一般情况,而这样的推算与总体的实际有着偏差,这种偏差称为抽样误差。例如,抽样调查学生利用网上资源进行学习的能力时,如果主要是抽取了在家庭里有电脑,平常上网时间较多的学生组成样本,则样本的平均能力就会高于总体的平均能力;如果主要是抽取了较少机会接触电脑和不具备上网条件的学生组成样本,则样本的平均能力就会低于总体的平均能力。这样的误差是不能完全避免的,但是所抽样本对总体的代表性越好,抽样误差就越小。
抽样偏差则完全不同。当一个样本未能代表它所要代表的总体时,偏差就进入了。偏差可能是由多种原因造成的。只要使用了非随机抽样,或者随机抽样使用的总体源有偏差时,抽样偏差就会发生。
抽样偏差是一种歪曲,这种歪曲是由选择或形成样本的方式引起的,所以样本对于总体就不再有代表性。
概率抽样与非概率抽样两者的最大差别在于,在使用概率抽样时,我们能够比较精确地给出样本的抽样误差,能够在相当的程度上确定样本对总体的代表性;而在使用非概率抽样时,我们无从知道样本的抽样误差,无法帮助我们判定哪一个样本具有代表性,哪一个样本不具有代表性。即使我们碰巧得到了一个颇具代表性的样本,我们据此得出的结论也无法推断到总体。
⒊ 抽样研究的优点
采用抽样进行研究较直接对总体研究有下述优点:
经济、省力、省物;
能提早汇总研究资料,及时利用研究结果;
较适用于研究对象分散的课题;
研究对象数量有限,获取资料的手段灵活多样;
从某种意义上讲,有时比总体研究更能提高研究的质量。
二、概率抽样的方法
概率抽样应满足的要求是:
随机性——总体中的所有个体都有同样被抽出的机会。
可行性——抽样的方法在实际中是可实施的。
信息性——抽得的样本尽可能反映出分析时所期望的各种信息。
概率抽样包括有简单随机抽样、系统抽样(等距抽样)、分层抽样(类型抽样)和整群抽样等方法。
1.简单随机抽样
若总体中每个个体被抽到的机会是均等的(即抽样的随机性),且在抽样取走一个个体之后总体内成分不变(即抽样的独立性),这种抽样方式称为简单随机抽样。如下图所示:
简单随机抽样一般用下述三种方法:
抽签法。把总体中的每一个个体都编上号码,并做成签,充分混合后从中随机抽取一部分,这部分所对应的个体就组成一个样本。
查表法。查随机数表,确定从总体中所抽取个体的号码,则号码所对应的个体就进入样本。随机数表可随意从任何一区、任何一个数目开始,依次向各个方向顺序进行。
计算机造数法。用电子计算机编造随机数程序,把随机数作为总体中抽出个体进入样本的号码。
上述三种抽样方法是基本抽样方法,它虽然最符合随机原则,随时可用,但它十分费事,效率不高。仅适用于总体单位数较少,范围也很有限的情形,要进行大规模的抽样、编号、抽签或查随机数表都是很困难的。
2.系统抽样(等距抽样)
系统抽样方法实际上是等间隔法的机械抽样。它把总体中所有个体按一定顺序编号,然后依固定间隔取样,间隔的大小视所需样本容量与总体中个体数目的比率而定,起始数字必须是随机决定的。等距抽样又有直线等距抽样,对称等距抽样和循环等距抽样三种。这种方法与简单随机抽样相比,方便、易学、易做,当总体按一定顺序排定后,第一个样本一经确定,其他样本也随之确定。但是,这种抽样方法在名单排列中,如果存在周期性部分,则会造成偏差。因此,在等距抽样间距确定以后,选择起点时,应根据掌握的信息,尽量避开总体可能存在周期的点。
系统抽样具体方法如下:
(1)设总体共有N个单位,现需要从中抽出n个单位作为样本。先将总体的N个单位按与总体特征标志无关的标志进行排队。
(2)确定取样间隔,将N划分为n个单位相等的部分,每部分间隔为
(3)决定起点,抽样起点的选定有多种方式,通常是在第一部分顺序为1,2,3,…,i…,K个单位中随机取一个单位i作为抽样的起点。对于总体单位N是奇数时,也可按R=(K+1)/2算出R值,就按某一部分的第R个单位作为抽样起点。对于总体单位N是偶数时,则按R=(K+2)/2算出起点位置。
(4)在第一部分中,随机以i为起点抽出第一个样本后,继续在第二部分中抽出第i+K单位为样本;如此类推,在第n部分则抽取第i+(n-1)K单位为样本。
若以R为起点,同理顺序地抽出第R+K直到R+(n-1)K单位为样本。
这样一共抽出了n个单位组成样本,而且每个样本的间隔都是K,所以称这种抽样方法为等距抽样。
[例]现有180名学生,要利用系统抽样法从中抽取15名学生作研究样本,其方法如下。
先将学生按与学生学习成绩无关的标志编号,假设按学生座位顺序把学生编为1-180号,然后按下述步骤抽取:
(1)确定间隔距离
(2)决定起点R=(K+2)/2=(12+2)/2=7,即决定从第一部分的第7号单位作为第一个样本。第二个样本为7+12=19号单位;如此类推,抽出的15个样本为:
(7),(19),(31),(43),(55),(67),(79),(91),(103),(115),(127),(139),(151),(163),(175)。
3.分层抽样(类型抽样)
分层抽样是先把总体按一定标志分成不同类型或层次,然后从各种不同类型中随机抽取若干单位组成样本。如下图所示。
分层抽样在各层中抽取的样本也可看成总的样本数在各层的分摊,它又有三种方法:
等比例抽样。即各层所抽样本数占各层总体单位数的比例相等。
按各层的离散情况分配样本。某层的离散程度大,则该层多分摊一些样本。
最优分配。既考虑到各层的单位数的多少,又考虑到各层的离散情况。
由于同质性总体比异质性总体抽样误差小,因此,分层抽样的方法,可以得到更大程度的代表性,同时,还可以减少抽样误差。但此法的分层标准不易掌握,手续较繁。
分层抽样的具体方法如下:
设总体由N个单位组成,现在需要抽取出一组容量为n的样本,其步骤如下:
1.把总体按主要标志划分为R组,使
2.然后从各组中的Ni中,用单纯随机抽样方法抽取ni个单位构成样本,使
3.由于分层是按主要指标分组,各组的单位数不同,而分层抽样通常是按各组单位数占总体单位数的比例来抽出样本,哪一组单位多就应该多取样,单位数少则少取样,并要保证如下关系:
所以,各组的样本数应为   。
[例] 某年级学生共180人分为四个班,其中甲班N1=40人,乙班N2=50人,丙班N3=45人,丁班N4=45人,现要抽取20%作为样本,则每班应抽取的样本单位数按如下步骤算出:
1.确定样本单位数n=N×20%=180×20%=36人;
2.每班的样本单位数分别为
则样本容量
3.整群抽样
整群抽样是先将各单位划分为若干群(组),然后以群为单位从中随机抽取一些群,对抽中的群的所有单位进行调查。如下图示。
例如,某地要了解各校学生的学习情况,可在该校随机抽取几个班级,对抽中的班级的全部学生进行调查。但是,整群抽样在总体中不是抽取几个个体,而是随机抽取整群为单位进入样本。此种抽样在小范围内无实际意义,其抽样误差大,对总体的代表性差。由于总体中各个个体间存在差异,因此所得到的样本与总体间也有一定的差异,这个差异即抽样误差。
三、非概率抽样
在不能实行概率抽样的情况下,采用非概率抽样法。
1.有目的、有判断的抽样
少数研究应当在理解总体与个体的基础上抽样,或以研究目的为基础抽样。尤其是开始设计问卷的时候。研究者可能选择一些观点差异悬殊的人,来检验问题的设计是否恰当。虽然这种调查结果不能代表任何有意义的总体,但会有效地发现问卷设计中的缺失。
⒉ 随意抽样法
随意抽样法是指研究者按自己的意愿或可能,去抽取最接近、最有可能进行研究的对象为样本的抽样方法,它是一种非概率抽样的方法。例如,一个教师或一位专职研究人员准备实施一个教学实验,常常无法寻找随机抽取的样本进行研究,只能选择可能进行实验研究的对象,如自己任课的班级或有关系的学校。
这种抽样就具有随意性。它的缺点是,由于总体中每一个对象被抽取的概率是未知的,研究者一般不能说样本对于较大的总体具有何种程度的代表性,限制了把研究成果推广到样本范围之外的可能。而且,无法计算抽样误差。
⒊ 定额抽样法
定额抽样从对总体性质的了解开始,在某一总体中考虑具有某种属性的人数所占的比例,然后从具有此种属性的人中搜集数据,并按各类人在总体中的比例赋予它的适当的比重。如此收集数据,从理论上讲应当能够代表总体。此种方法存在的问题是:定额的比例必须精确,但由于最新的关于总体性质变化的信息并不容易得到,而造成抽样中的偏差。
尽管非概率抽样存在许多不足,但非概率抽样在教育技术研究调查中的应用却并不少见。非概率抽样的最大优势在于它的简单易行与价廉。 当然,在实际研究中,既要尽可能按随机化原则抽样,又不能机械地套用上述抽样方法而要求对课题的特点和客观条件作具体分析,将几种抽样方法结合起来使用。
第二部分:测量
一、测量的概念及其要素
在教育技术研究中,我们经常需要测定各种变量。测量是按规则赋值的过程,要赋值就必须有赋值的对象、赋值的规则、赋值的标记和赋值的符号。这些都是测量的基本要素。
⒈ 对象——指我们所感兴趣的,要研究的事件或物体。
⒉ 标记——指被测量对象的某种特征记号,如性别、年龄、反应时间、学习成绩等。
⒊ 符号——指代表对象具有某种特征的程度的符号,如考试分数、品质等级等。
⒋ 规则——分派各种符号到各类事物上的标准和方法,如考试采用百分制,品质的等级标准等。
测量要素间的关系可用下图表示:
一般测量对象可以用集合来表示,例如,有一个对象集合A,包含有6个人,对象集合即为
现有测量对象的学习态度,并用集合B表示其特征,根据不同的法则,特征集合B有不同的表示方法。
第一种法则,规定凡态度十分认真者给予等级数字5,次之为4,……,态度极不认真者给予1。这种多元分配法则的特征集合B记为
第二种法则,规定凡态度认真者给予数字1,态度不认真者给予数字0。这种二元分配法则的特征集合B记为
依据第一种法则,其测量结果可用下图表示。
依据第二种法则,其测量结果可用下图表示。
二、测量的参照标准
要建立一个好的测量法则,必需使经过测量所获得的一系列数字(如考试得分)或符号(如品质或态度等级)能够得到科学解释和评价,能够真正得到有意义的使用。这就必须把测量法则建立在一定的参照标准上,并以此标准来判别测量结果的高低或优劣。因为,要科学地、客观地解释和评价测量的结果,必须解决测量所得的符号、数字的可比性和可加性,而测量只有在统一的量度单位和参照标准的基础上才具有可比性。常用的参照标准有三种:
1.目标参照标准
目标参照标准又称绝对性评定。它是以某一些具体目标作为评定的标准,然后根据受试者对预定的各项目标达到的数量和质量的情况进行衡量,按其达标程度评定得分,即分派数字或符号。例如,考试成绩,通常采用百分制形式进行评定。
2.常模参照标准
常模参照标准又称相对性标准,它是以某一研究对象的集体平均水平作为评定的标准(常模),对照此标准,然后判断在这集体中每一个别对象所处的相对位置,按其所处位置评定得分,即分派数字或符号。通常采用优、良、中、差或abc的形式进在评定。
3.自我参照标准
自我参照标准又称自我性评定,它是以研究对象自身在某一时期或状态的特征作评定的标准,通过前后对照或横向比较(不同状态比较),判断其特征变化情况,并根据特征的变化程度评定大于、等于或小(少)于某标推。
三、测量量表的类型
量表是指根据特定的法则,把数值分派到受试者、事物或行为上,以测量其特征标志的程度的数量化工具。
在测量中,我们按照一定的法则把数字、符号分派到测量对象中。然而,这些数字、符号能提供什么信息,除了决定于参照标准外,还决定于测量的尺度,测量尺度是构成测量法则的重要因素。
测量的尺度就是指在测量过程中,按照法则所分派的符号、数字所能代表的事物某种特征的程度水平。一般分为四种不同水平的测量尺度,即类别、等级、等距、比率尺度。相应地运用四种不同类型的量表进行测量。即类别量表、等级量表、等距量表和比率量表。
类别量表:只给出不分次序的类别、所测的一切只是分成两个或更多的类别,而这些类别只表明某一或某几种特征的不同,如个体的性别。
顺序量表:除了表明性质的不同,还根据高低、多少等特征排出次序。尽管测量值的顺序确定了,但还不能确定各测量值之间的距离可比关系,如对学校的态度。
等距量表:不仅给出了顺序,还确定了等距的单位。量表上某一部分测得的分类所反映的差异,与其他任一部分测得的分数都是相等的,如温度。
比率量表:除了等距,量表还含有真正的零点,表示测得的信息一点也没有,如校园网建设的经费开支。
在这几种量表中,往往都要用数字来表示,根据尺度水平的不同,这些数宇分别显示不同的功能。其中,最简单的量表是类别量表,它没有什么顺序,只是对个体进行简单的分类。个体的性别就是在类别量表中所要测量的变量。比率量表是4种量表中最高水平的层次,它包含的信息最多。4种测量量表在表5-3中予以总结。
四、量表测量的质量指标——信度和效度
量表测量的结果是否能达到目的,是否能正确反映客观事实,通常以信度和效度这两个质量指标来衡量。
1.信度。信度就是测量可靠性的度量,它是鉴定测量的结果一致性和稳定性的。比如用同一个量表测量同一被试,前后的结果是否一致,这便是信度问题。
2.效度。效度就是测量的有效性的度量,它是评价测量质量的一个重要指标,测量效度就是指测量的结果是否能真正反映测量的目标和意图。值得注意的是,效度是一个相对于一定目标的相对性概念,即使是相同的测量结果,随着目标不同,其效度也随之而异。要提高测量的效度,在编制量表时,要避免题意不清或要求不明确而造成学生误解。
信度与效度,二者既有联系又有区别,信度高效度不一定高,效度高则信度必定高,换句话说,可信的不一定有效的,有效的则必是可信的。以尺量布,量了几次结果都一样,证明其信度高,但尺子若不符合标准,测量无效;若尺子是标准的,测量又有效,则无论测多少次,结果必定可信。在进行测量时,我们要尽量减少误差,使测量既有效又可信。
五、里克特量表
量表的种类很多,其中里克特(Likert)量表是现代调查研究中被普遍采用的一种测量量表,它的基本形式是给出一组陈述,这些陈述都与某人对某个单独事物的态度有关(例如,对某个教学软件教学效果所持的态度)。要求调查对象表明他是“强烈赞同”、“赞同”、“反对”、“强烈反对”或“未决定”。当然,根据需要,有时词语可以略有不同(如把“赞同”改为“同意”)。
里克特量表有积极性陈述和消极式陈述两种类型的陈述方式:
如果答案选择是:完全同意;同意;不一定;不同意;完全不同意。积极性陈述选择“完全同意”的赋值为5,“同意”的为4等等。消极式陈述评分则相反,即对“完全不同意”的给5。
使用里克特量表,在做答后,把分数相加就可得出总分。因此,里克特量表有时也称求和量表(Summated scales)。
根据安德森(Anderson,1981)的论述,如果设计者遵从了以下八个步骤,就能制定出令人满意的李克特量表,这八个步骤是:
把态度作为对象时,所写出来的陈述要么是积极的,要么就是消极的。
请评判员检查已写好的陈述。评判员应从设计该量表的人员中选择。他们应检查每个陈述,并将其分为积极的,消极的,或二者都不是的陈述。
去掉绝大多数评判员认为既非积极的亦非消极的陈述。
把留下来的陈述记在一张纸上,不必考虑顺序,加上合适的使用说明和答案选择。使用说明指出被试人如何表明他们对每个陈述的看法,如完全同意,就以SA作标记。如同意,就以A作标记,如看法不一致就以NS作标记,不同意以D作标记,完全不同意以SD作标记。使用说明也可以指出该量表的目的,并提醒人们:回答没有正确与错误之分。到此,李克特量表的初稿就制定好了。
在打算使用李克特量表的总体中抽样,把这个初稿在被试样本中试用。为了逐个地或成批地采集有关这些陈述的有意义和可靠的数据,应采用比陈述的数据大几倍的样本含量。
计算对每个陈述所作的回答与量表总分之间的相关值。
删去在统计上与量表总分相关性不显著的陈述。收入在量表最终定稿中的每个陈述都必须与量表总分相关。这就是内部一致性的李克特准则(Likert’s Criterion of Internal Consistency)。
定出该量表的最后审定稿。
按这八个步骤,就可以制定出传统的里克特量表。多年来,经过李克特量表的开发者和用户的各种修改,在答案的选择上,后来的量表有采用两种、三种、四种、六种和七种答案选择。
现在通过一个例子说明李克特量表的使用。将远程教育学习资源的利用情况制定程李克特量表,采用四点量表来评定每种资源形式使用的多少和发挥作用的大小,即1-4分别为极少、较少、较多、极多四个等级。如下表所示。
学习资源利用情况的调查量表
六、语意差别量表
语意差别测量(奥斯古德、萨奇、泰尼邦Osgood,Suci,Tannenbaum,1957)是一次性集中测量被测者所理解的某个单词或概念含义的测量手段。针对这样的词或概念设计出一系列双向形容词量表,请被测者根据对词或概念的感受、理解,在量表上选定相应的位置。下面是语意差别量表的式样。
语意差别量表的计分有不同的方式,重要的是要使计分富有意义并保持一致。通常分数越高,态度或理解就越积极。
一种赋值的方法是按同一方向将各对形容词都列出来,通常是按从低到高或从否定到肯定的方向排列。形容词的位置(不管左边还是右边是否定性的)是固定不变得,如果否定性形容词在左边,则肯定性形容词在右边,从左到右的计分顺序是0,-1,-2,-3,-4,-5,-6(或任意7个连续的数字)。-3,-2,-1,0,+1,+2,+3的排列顺序也可以使用,尽管它最后的总分可能是负数。
七、量表编制建构的基本步骤
1.编拟预试问卷
在预试问卷的编制或修订上,应根据研究目的、相关文献数据与研究结构等方面加以考虑,如果有类似的研究工具,可根据研究当时的实际情形,加以修订、增删;如果是自己重新编制问卷,问卷内容应依据研究结构的层面,加以编制。
2.预试
预试问卷编拟完成后,应实施预试,预试对象的性质应与将来正式问卷要抽取的对象性质相同,如研究对象为中学生,则预试的受试者也应为中学生,预试对象人数以问卷中包括最多题项分别为40题、35题、25题,则预试对象,最好在120位至200位中间,如果样本较为特殊,在预试人数的选取上可考虑再酌减一些。
3.整理问卷与编号
问卷回收后,应一份一份检查筛选,对于数据不全或不诚实填答的问卷,应考虑将其删除;对于填答时皆填同一性答案者,是否删除,研究者应考虑问卷题项本身的内容与描述,自行审慎判断。
筛选完后的问卷应加以编号,以便将来核对数据之用;之后再给予各变量、各题项一个不同代码,并依问卷内容,有顺序的键入计算机。
4.项目分析
项目分析即在求出每一个题项的“临界比率”(critical ratio),简称CR值,其求法是将所有受试者在预试量表的得分总和依高低排列,得分前25%至33%者为高分组,得分后25%至33%者为低分组,求出高低二组受试者在每题得分平均数差异的显著性检验(多数数据分析时,均以测验总分最高的27%及最低的27%,作为高低分组界限),如果题项的CR值达显著水准(α<.05或α<.01),即表示这个题项能鉴别不同受试者的反应程度,此为题项是否删除首先考虑的。
5.因素分析
项目分析后,为检验量表的结构有效度(Construct validity),应进行因素分析。所谓结构效度是指态度量表能测量理论的概念或特质的程度。因素分析目的即在找出量表潜在的结构,减少题项的数目,使之变为一组较少而彼此相关较大的变量,此种因素分析方法,是一种“探索性的因素分析”。
在实际教育技术研究中,量表有效性建构有时需要进行2~3次因素分析,因为部分量表再第一次因素分析时,因素层面所涵括的题项内容差异太大,纳入同一层面,解释较不合理,因而可能需要删除部分题项,由于删除了题项,量表的效度要在重新建构。如果量表不采用结构效度检验方法,研究者亦可考虑采用其他效度分析法,如“内容效度”、“专家效度”、“效标关联效度”等。
6.信度分析
因素分析完成后,继续要进行分析的是量表各层面与总量表的信度检验。所谓信度(Reliability),就是量表的可靠性或稳定性。
7.再测信度
如果要继续求出量表的再测信度,要以正式量表对同一组受试者前后测验两次,根据受试者前后两侧测验分数得分,求其积差相关系数。再测信度又称稳定系数,反应量表的稳定与一致性程度,一般而言,间隔时间愈长,稳定系数愈低。
至于最后定稿的正式量表题项数,应该为多少题最为适宜,实无一定而绝对的标准。就一般情形而论,若该份量表是测量一种“普通的”或多重向度的变量,其题数在20~25题,即已足够;若要测量的是特定的变量,以7~10题为宜;若每个量表包括不同因素层面之子量表时,每个子量表(因素层面)所包括的题项以3~7题较为适宜。
现将以上量表编制建构的流程用下图表示:
参考资料:
《教育技术研究方法》 李克东 主编  北京师范大学出版社
《教育研究方法》(美)威廉维尔斯曼 著  袁振国 主译  教育科学出版社
《学校教育研究方法》 叶澜 主编  教育科学出版社