题库是以一定的教育测量理论为依据,按照一定测试目标编制、收集的有相当数量和较高质量、附有试题性能参数(属性)、并经过分类编码的考题的有序集合。国际上对题库各项指标的研究始于80年代,心理测量学家在建立题库的理论上提出许多模型与参数化的计算方法,探索了各种测量理论上的模型在测试实践中的应用。在题库的众多指标中,题目或试题的难度始终是影响学生能力评估的关键所在[1]。
在教育测量与评价中,题目或项目的难度是指被试完成题目或项目任务时所遇到的困难程度,是反映试题质量的重要指标,如果不能解释为什么某个问题要更难,则说明命题者根本不清楚测量的目的何在[2],而且,难度影响着试题的区分度,从而影响测验的信效度[3]。因此,对题目难度的把握是科学化命题的重要环节[4],也是实现题库测评功能的前提保障。
本研究旨在通过梳理相关文献,总结发现有关试题难度评价研究的各类成果,最终形成一套比较完善的以难度为核心的题库测量学指标体系。
[if !supportLists]一、[endif]影响难度的因素
根据心理学中的刺激——反应理论,外界客体(试题)给主体(被试学生)一个刺激,主体做出一定的客观反应。主体做出的客观反应的大小受主观和客观两方面因素的影响。主观因素主要包括:学生的知识、能力水平、情绪、动机水平等。客观因素主要是试题本身的各种属性,例如难度、知识点等。在大规模教育考试中,考生的心理状态、考生水平等被试因素可以看作定值,即控制被试变量,只探查试题本身对试题难度的影响[4]。本文主要讨论影响试题难度的客观因素的测量。
1.1影响难度的客观因素
通过对已有的文献梳理,本文认为可以从三个维度来描述影响题目的客观因素。
[if !supportLists](1)[endif]内容难度
内容难度是指来自所评价、考查内容方面的难度。主要包括的难度因素有:知识点的多少、知识含量、知识点在教学中的地位、教学时间长短、知识的综合程度。
[if !supportLists](2)[endif]刺激材料难度
刺激材料难度是指实体的文字组织、措辞,提供的信息方面的难度。主要包括的难度因素有:阅读量,题目文字量,题干叙述长短,情景经验,背景知识,问题情景的熟悉性或复杂性,条件的充分性,信息的干扰性,隐蔽性,歧义性,不透明性,提示度,模糊度,问题的表达方式,信息的呈现方式,图标的复杂程度,题目的猜测度。
[if !supportLists](3)[endif]任务难度
任务难度是指北师解答试题,完成任务产生反应或形成答案时面临的难度。主要包括的难度因素有:数学过程的复杂程度,运算度,知识点的认知水平要求,关键能力层次要求,目标层次,解答要求的详细水平,推理要求,推理转折次数,结论的开放性,试题结构,分步设问情况,分布设问的阶梯性。
本文中列出的难度因素还需专家的进一步讨论确定。根据每个学科特点确定影响不同学科题目难度的因素。在确定影响因素的基础上,还需要进一步确定每个影响因素的难度等级和每个等级的划分标准,方便实际操作中标注难度等级。
[if !supportLists]二、[endif]难度的预估方法
难度预估方法分为事前标注和事后标注两种。事后标注主要指题目通过实际测试后,根据测试数据算出来的难度系数。在大规模题库建设中,不太可能将每道题目进行测试后计算难度系数。
事前标注主要是指在题目未经实际测试,通过人或计算机的估计而得出的难度系数。目前事前标注方法主要有构建评估量表法,认知负荷测评模型,认知任务分析,多元回归分析法,人工神经网络模型(基于CTT或IRT),基于层次分析法的模糊综合评价等方法。本文认为对于大规模题库建设来说,比较实用的有两种事前难度标注方法,一是构建评估量表法,二是多元回归分析。
2.1构建评估量表法
构建评估量表法是以一定的理论和经验总结为基础,构建指标体系,检验信效度,再应用工具得出数据结果。针对大规模题库建设,本文提出如下的操作步骤:
[if !supportLists](1)[endif]确定影响题目难度的因素和因素水平与权重
[if !supportLists](2)[endif]构建评估量表和评估标准
评估量表由专家制定,选择有代表性的题目构成量表,并且制定出标准答案。专家撰写每种难度因素的评估标准,以供参考学习。
[if !supportLists](3)[endif]学习难度因素评估标准
专家对难度因素评估标准进行讲授,编辑老师参加学习。
[if !supportLists](4)[endif]进行测试
学习完成后使用评估量表对编辑进行测试。
[if !supportLists](5)[endif]数据统计与分析
收集测试结果,分析数据。这里的数据分析方法使用肯德尔和谐系数,主要目的是检测编辑对于题目难度因素的标注是否与专家的标准一致。
[if !supportLists](6)[endif]结果反馈
通过测试的编辑可以上岗进行难度标注。未通过测试的编辑需要继续学习然后再进行测试。直至合格为止。
这种方法优点是操作较为简单。缺点是耗费人力较大,时间长了编辑学习的标准容易遗忘,从而导致难度标注不准确。
2.2多元回归分析法
多元回归分析法是使用多元回归模型对题目难度进行标注,可以实现半自动化的标注。具体操作步骤如下:
(1)确定影响题目难度的因素和因素水平
(2)构建评估量表
评估量表由专家制定,选择有代表性的题目构成量表,并且制定出标准答案。
[if !supportLists](4)[endif]测试
[if !supportLists](5)[endif]数据收集与分析:根据测试数据建立多元回归模型
[if !supportLists](6)[endif]模型检验与确定
由于回归模型本身的限制,此方法只适用于影响因素与题目难度之间具有线性关系的题目。如果是非线性,则需要用到更为复杂的神经网络分析,操作步骤与此基本相同,只不过模型更为复杂。
[if !supportLists]三、[endif]小结
本文提出通过文献梳理,将传统的难度指标进行了细分,细分为了三个大的维度和许多难度因素,通过对每个难度因素的标注,经过数学模型计算得出最终难度的方法。克服了传统的题库建设中将难度作为单独指标进行标注,在多人协作中往往出现因每个人理解不同而导致难度标注不一致,进而影响题目信效度的情况。
本文提出了事前难度标注的两种方法,构建量表法和多元回归模型。两种方法各有利弊,对于大规模题库建设来说,前期可以使用构建量表法进行难度标注。当数据积累到一定量时,可以使用多元回归模型或者神经网络模型进行自动标注。
参考文献
[1]罗玛, 王祖浩. 教育考试中试题难度的测评研究——影响因素、评估方法及启示[J]. 教育测量与评价:理论版, 2016(9):52-57.
[2]Stenner, A.J., Smith, M. & Burdick, D.S.. Toward a Theory of Construct Definition [J]. Journal of Educational Measurement,1983,20(4).
[3]鲁庆云,宋乃庆. 我国数学试题难度影响因素的研究综述[J]. 数学通报,2009,48(4).
[4]杜明荣. 高中物理试题难度的影响因素研究[D].重庆:西南大学,2008.
_jP��y�
网友评论