经典测量理论(CCT)一直占据测量理论的统治地位,却存在误差分离过于笼统、“严格平行测验”很难在实际情境中实现等问题。针对经典测量理论存在的问题,20世纪70年代初,克伦巴赫(Cronbach)等人提出了概化理论(Generalizability Theory,GT)。概化理论将经典测量理论的内容和运用范围进行了扩展和延伸。
在概化理论中,测量情境关系由测量目标(object of measurement)和测量侧面(facet of measurement)构成。测量目标,即测验中所要描述的特性,不仅仅是受测者的某种潜在特质,也可以是测验题目或评分者的某种特性。测量侧面则是影响和制约测量目标的各种因素和条件,包括测量工具、测量环境、测量时间等。测量侧面又可分为随机侧面(random facet)和固定侧面(fixed facet)。随机侧面中,侧面各水平是从所有可能的水平中随机选取;固定侧面的各水平则是固定不变的。在概化理论模型中,至少需要包含一个随机侧面才能进行推广或概化。在概化理论中,将CTT中的“信度”转化为概化系数Eρ⊃2;或可靠性指标φ系数,概化系数关注的是测量的相对误差,可靠性指数则关注的是绝对误差。
概化理论研究过程由两大部分组成,即G研究和D研究。G研究是指在观测全域上,根据测量设计对测量目标、所有侧面以及它们之间的交互作用的方差协方差分量进行估计。在这个研究中,需要研究者明确测量对象和测量目标、测量侧面和观测全域以及它们的关系,还包括对测量设计和测量模式的确定。D研究则是在G研究基础上,通过改变测量侧面结构、测验模型等来考察概化系数和可靠性指数的变化,从而为有效控制误差、提高测验精度提供参考。其中,需要根据测量目的确定概化全域,也就是确定测验结果推广的侧面,以及各侧面推广的范围。然后根据确定的概化全域,在各侧面条件样本水平上重新估计G研究中各因素的效应和交互作用的方差分量,获得特定概化全域上的整个测验的概化系数和可靠性指数。通过多次反复,获得不同概化全域上的系数指标,比较这些系数的估计精度,从而确定最佳的测量设计方案,将G研究中的结果概化到新的全域上。
由于在实际的测量中,常会涉及到一个测量目标同时具有多个全域分数的问题。比如一个测验包括多个分测验,这些分测验的分数就可理解为同一测量目标所具有的多个全域分数。于是在单变量概化理论的基础上发展出了多元概化理论,多元概化理论在继承了单变量概化理论的思想基础上,还提供了测验目标、测量侧面等因素更为详细的方差协方差分量的信息,具有更为广泛的使用范围。
-------------------------------------------------------------------------------
任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。并用“全域分数”(Universe Score)代替“真分数”(True Score)�,�用“概括化系数,�G系数”(Generalizability Coefficent)代替了“信度”(Reliabilty)。
概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。测量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素,称为测量侧面(Facets of Measurement)。如学生阅读能力测验,�其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧面。这里对学生阅读能力的测量是在双侧面情境的条件下进行的。测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。因此,进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。比如,把阅读理解题定为对科技说明文,这时,所测的特质就不再是一般的阅读理解能力,而是特定的对科技说明文的理解能力了。这样,测验所得的分数就不能再推广到原来那么宽广的范围了。
概化理论强调,测量目标是具体的,并不是绝对固定不变的。因而全域分数也就不固定,可以有多种。一方面,当固定侧面时,侧面本身会转化为测量目标的一部分(如对一般阅读理解能力的测量转变为对科技说明文的测量),测量目标要局限化;另一方面,当测量中考察目的与应用需要改变时,测量目标对象就可能完全转移。比如,当作文考试结果是要对考生作判断时,测量目标就是考生的作文能力,若要把评分严与评分宽的评分者区分开,评分者的能力就成了测量目标,也即测量目标就完全发生了转移。显然,测量目标不同时,标志测量目标的分数也就不同。测量目标在具体关系条件下的分数叫全域分数。这样,有时对同一批测量资料来说,当测量工作的具体关系变化时全域分数也会变。即同一测验资料就可能有多种全域分数。
概化理论把全域分数方差对总变差的比称为为概括力系数(简称G系数)。而总方差可以分成全域分数方差(δ2 (p)和误差分数方差(δ2(δ)),如果测验是常模参照性测验,则G系数E2ρ是评价测验稳定性程度的最佳指标: 即: E2ρ=(δ2(p))/[ δ2(p) +(δ2(δ))] 若该测验是标准参照性测验,则其依存性j指标是测验稳定一致性的最好指标。 j=(δ2(p))/[ δ2(p) +(δ2(△))] 上两式中,误差方差δ2(δ)可能是很多项的和,如上例中考生的阅读理解能力的方差是标志测量目标的方差,即为全域分数方差记为(δ2(p)),而试题、评分者及三个主效应间的交互作用方差(共有7种方差成分)都不应包括在全域分数方差之中,作为误差方差(δ2(δ))的一部分,是构成总方差的成分之一。由此可见,当全域分数方差不变,而误差分数方差增大时,概括力系数值降低,信度降低。反之,当全域分数方差增大,而误差分数方差不变,则概括力系数增大,信度提高。所以,随着测量情境关系的变化,测量目标与侧面的变动,概括力系数即信度也就会不同。同一批资料就可能有多种不同含义与取值的概括力系数。一般说来,增大概括力系数的方法有两种:第一种是,固定测量侧面(如固定试题)。第二种是增加侧面所包含的水平数(如增加试题或评分者数目)。 [1] 概化理论是用方差分析的方法来全面估计出各种方差成分的相对大小,并可直接比较其大小。虽然真分数理论也可以分别地估出某一方差成分的大小,如代表试题侧面的内部一致性系数,代表评分者侧面的评分者信度等,正因为是单独估出的,这些值之间不能直接比较,也只有对主效应作估计,而不能对交互作用进行估计。而概化理论却能做到这一点。它既能估计出主效应,也能估计出交互作用效应,并能对各估计值的大小进行直接比较。在概化理论中,理论估出各方差成分相对大小的过程,叫概化理论的概括分研究阶段或称G-研究阶段。 概化理论并不内静止地分析各种误差来源,还要在G-研究的基础上,通过实验性研究,进一步考察不同测验设计条件下的概括力系数的变化状况,如固定侧面或增加侧面水平下的变化状况,从而探求到最佳的控制误差的方法,作出最佳的设计决策,从而改进测验的内容、方式方法提供了有价值的信息。这一阶段称作决策研究或称D-研究阶段。 GT在研究测量误差方面有更大的优越性,它能针对不同测量情境估计测量误差的多种来源,为改善测验,提高测量质量有用的信息。其缺陷是统计计算相当繁杂,如果借助一些统计分析软件可以解决这一问题。GT理论目前在我国还处于实验研究阶段,在面试、考核等主观性测评中有一些应用。
网友评论