美文网首页
中国教育评价改革与国际教育评价发展趋势

中国教育评价改革与国际教育评价发展趋势

作者: 张勇APII | 来源:发表于2018-01-19 12:41 被阅读0次

    中国教育评价改革与国际教育评价发展趋势

    ——兼谈国内教育评价改革经验

    在教育评价改革的意义和价值上有这么一句关键的话: “教育质量评价具有重要的导向作用,是教育综合改革的关键环节。”这句话点明了教育评价改革的重要性,以及它的功能。另外,“考试是选才,评价就是育才。”,从2014 启动教育质量综合评价改革以来,经历三年多改革的实验,有一种情况越来越清楚,简单来说,当招生、决策、管理、考核、教研、教学都是以评价结果为依据时——也即都以数据和事实为基础、以评价为依据时,教育评价改革才算真正得到落地,也真正发挥出其本来的功能和目的。

     谈到教育评价改革,就无法回避教育评价发展的历史沿革。也许,我们在梳理教育评价发展史中,可以寻找到这一轮教育评价改革的基本走向、理论与技术方案等。

     从19世纪后半期到20世纪30年代,是教育测验发展阶段,历时80多年;20世纪30年代后,逐渐进入了教育评价的发展历史时期。

    我们看一下,从1845年尝试开始了试卷测验,距离现在有160多年,这个时间并不是发展很长。1903-1915年人类历史上有几个很重要的测验研究走向了基本定型——智力测验、人格测验、成就测验,为什么专门提这个呢,因为在此之前人类没有学科试卷和心理测验量表,在这15年中大量试题和部分心理测验量表开始出现,所以在整个19世纪末期到20世纪初期,与我们所能看到的和今天的评价改革并不相同。在1916年后,智力测验、成就测验、人格测验三种测验在这个时期达到了基本成熟阶段。为什么今天专门把它拿出来说一下呢?那是因为我们今天所用的主要测量工具和评价改革基础思想的萌芽,无一例外都出现在历史上这一段时期。我们看一下,我们国家2015年颁布的考试制度改革意见,提出了“两依据一参考”的模式,我们回顾下它的历史萌芽,智力测验导致了后来能力测试的发展,成就测验的发展导致了后来学业水平考试和学业评价,人格测验导致了后来综合素质评价。

    在20世纪30年代开始,教育评价的概念被提了出来,教育测验时代就基本过去了。在40年代,全球主要教育国家走入了教育评价年代。

    在这里有个问题需要强调一下,那就是在当下的教育评价改革实验当中,经常会遇到把测验(考试)、评价基本不分的局面。但是从教育评价发展史上,可以看出来它们是前后两个历史时期的承接并不是并行发展。换句话说,在20世纪30年代,教育测验的年代已经基本接近尾声,随之走入了教育评价年代。教育评价起源比较晚,主要来源于1933年到1940年美国“八年研究”,当时提出教育评价概念的是美国教育专家R.Telyer(泰勒),他非常了不起,他在这个八年研究基础上又提出了一个对现在和未来都影响深远的“泰勒原理”,也称为“泰勒模式”,更多的人把它称为“评价原理”。现代教育评价学的诞生就是“泰勒原理”上,由它诞生并发展形成。

    根据教育评价的历史发展,我们也可以回顾一下,我们看一下它的基本发展轮廓和趋势。根据美国教育评价学者林肯和巴龙的研究,认为从20世纪初至20世纪八十年代人类一共发展了四代教育评价。

    第一代教育评价叫“测量”,这个时期主要追求测量结果的客观化、标准化。这个特征目前仍然是我们国家努力的主流方向之一。目前正在进行的大量题库建设,都在为追求测量的客观化、标准化而努力。这个时期的主要标志——也是我们国家现在还在努力研究的——测量技术与手段大量应用,这在测量时期非常重要,直到今天我们所用的教育学、心理学的测量方法基本都产生于这个历史时代。在这个时期发生了很多事情,简单说有几个关键的能力测验基本走向成熟,人格测验开始走向成熟,更重要的是1923年美国出版了第一个标准化成绩测验《斯坦福成绩测验》,这个成绩测验基本奠定了后来的学业测验和学业水平考试的基础。这三个测验拿到今天,正是我们国家教育评价改革目前所确定的学业评价、综合素质评价、能力评价的源头。

     第二代教育评价是“描述”,主要是20世纪30年代至20世纪50年代。(我们看,这几个时代每个时代的周期都是15年到20年左右,发展非常迅速)这个时期大家应该不陌生,这个时期主要注重对测验结果的描述,也是我们今天大量老师所做的事业,对每一个测量结果进行描述——对每一次测验的结果进行描述、或描述性分析,对每次作业进行描述性分析。描述用来干嘛呢?用来描述教育活动是否达到了预期的目标以及达到程度如何。这就是我们经常运用的手法——今天我们老师用的测验包括所谓的分析评价手段,基本上停留在第二代教育评价上。在这个时期也产生了很多教育评价方式、方法,就不过多介绍了。这里值得关注的就是“泰勒模式”,一共八大条,我们今天所运用的测量评价方式包括出题、试题试卷的分析评估,包括对学生、老师的评价等,都源自这个模式及其发展,这个模式是最基本的也是到目前为止最完善的一个模式。

    第三代教育评价叫“判断”,这个时期主要是20世纪50年代至70年代末,近20年。在这个历史时代,“价值判断”是这个时期的特点。这个时候专家和学者的主要工作是参与制定一定的价值判断标准。为什么是这个价值判断标准呢?“描述”针对于目标而言,描述是具有统一性的,而学生是多元化的、个性化的,所以在判断学生价值上就出现了冲突。在研究这种判断标准上,追求了对学生认知的多元化——这就导致了必须以多元化的价值标准来判定学生的发展。这个时期是教育评价史上关键性的转变时期,我们今天教育改革触及的三大名词,一叫多元、二叫个性、三叫全面化,其中多元和个性是产生于在这个历史时期,也就是在这个历史时期要研究一定的价值判定——如何叫多元、如何叫个性的标准。这个历史时期,也是教育评价历史上星光璀璨的历史时期,产生了大量的跨世纪的人物,这些人奠定了今天我们所用的成熟的各种教育评价的、教育考试的方式和方法。里面出现了各种各样的人物,这就不一一介绍了。其中最关键的有这么两个,其中一个是美国学者斯塔弗尔比姆(Stufflebeam,D.L.),把过去的教育评价从教育评定(就是管理角度)的思考下做了突破,提出了“评价最重要的意图不是为了证明而是为了改进”,这个观点也是影响我们国家今天教育评价改革的一个重要观点;同时他还提出了以决策为中心的CIPP评价模式,通过找出“实际是什么”与“应该是什么”之间的差异来为决策者服务。另外一个是斯克瑞文(M.Scriven),除了既定的教育评价目标以外,目标的扩张化或是目标游离这个也是时期提出来的。大家对这个可能比较陌生,我们的综合素质评价为什么提倡“写实记录”,而且不限定所规定的记录,就是人类现在的教育目标并非能涵盖所有学生的个性。这个历史时期,我们知道,像国际上“SAT”、“ACT”这些标准化考试等等走向成熟化。

     在20世纪80年代,主要是80年代初期,出现了一本书叫“第四代教育评价”,这本书的出现宣告了第四代教育评价——“建构”时代的开始。这个“建构”教育评价的观点包括它的方法,跟以往年代的教育评价有着非常大的不同,所以在当时教育评价界产生了一场大地震。第四代教育评价提出了这样几个教育观点,它不认为用管理的思想来评价学生和老师是优化的,同时它不认为在不尊重学生和老师的情况下——评价在不经过他们参与的情况下是合格的,评价的有效性应该是参与评价各方的共同“协商”,从这三点打破了教育评价以往的常规思想。主张全面参与、共同协商、积极回应的价值观点看待教育评价,也就是共同建构。这个也有人认为这个是教育评价史上的一场革命。它从教育评价方法和模式上走向了一个从单向评定,到通过积极的回应和协商达成共识,这是教育评价的一个巨大的历史性进步。简单说,评价老师要对老师进行回应和协商,评价学生要对学生进行回应和协商——就是它不仅仅以测量和被调查的数据或事实为判断或探索性依据,必须有积极的回应——出现了不理解的问题、有不同看法的问题,必须积极协商而建构共识,而这个共识才是教育评价的目的所在。这个观点也是当今国际学术界共同提出的观点,也正是这个观点导致了欧美、日本等教育主要国家出现了一个职业叫“教育咨询师”,老师和老师之间、老师和学生之间建立了一个共同的回应、协商的交互机制。

     大家看到的“ACTS学业评价”和“ICTS综合素质评价”,现在被教育基层、高层共同认可、积极响应的一个关键的原因,就是对老师、学生评价后遇到的问题,学生、家长、教师等参与后的积极解读和响应——也即通过对ACTS或ICTS评价报告单的解读这一媒介,参与评价的各方都能得到交流、互动,能就不同的问题和困难通过积极的“协商”和“回应”,达成共同建构,这是采用了第四代教育评价思想、理论和方法。

     还有我们国家在推进教育质量综合评价上,有一条是“对关键的指标和内容进行分析诊断,分项给出评价结论,提出改正建议,形成教育质量综合评价报告”,这句话很明确要求建立一种回应和协商机制,明确评价的目的,所以这个在我国现在进行教育评价改革上还是很重要的。

     从2000年以后,尤其2009年一个标志性的事件发生,就是最早建立“SAT考试”两大组织之一——哈佛大学,哈佛大学校长做了400多个高校的联合签名,阐述一个重要的观点叫做“反SAT运动”。这个“反SAT运动”实际上是反标准化考试。但这个反标准化考试,并不是否定它,而是认为标准化考试已经不足以承担对学生评定和预测。我们知道全球主要教育国家的标准化考试就是标准化能力测试,那么由哈佛大学校长这么呼应以后,全球主要教育国家开始采用了包括“学业水平考试+能力测试+综合素质评价”——这样一种三位一体化的综合评价。所以说在第四代教育评价以后,教育综合评价就开启了以从过去以心理测验这种量化研究为主,到量化研究与质性研究并重,到学生的认知、能力、素养增长,包括各种潜能挖掘、全面综合发展的研究时代——我们称之为“第四代教育评价后”或“第五代教育评价”。

    我们国家这次教育评价改革明确提出了这么几句话:以人为本,强调全面、综合和个性化发展,这个和国际上关于教育评价的发展追求综合评价完全是一致的。所以说第四代教育评价之后,教育综合评价时代要开始,我们国家这次教育评价改革的目标,不落后于国际上主要教育国家的发展。但与国际上同步未必是个好事情,因为好多东西需要我们自己去探索去实验,不是我们拿来学就可以了。

     所以教育评价整个的发展形成了这么一个轮廓,从追求测量工具、目标达成、到多元化价值标准判断、到形成共同建构,再到走向综合评价。这次我们国家教育评价改革的基本理论就是建构理论,逐渐走向综合评价,这是我们看到今天种种改革背后都是采用个性、多元化模式。在这种情况下导致了一些概念也发生了翻天覆地的变化。

     我这里简单说明现在比较容易混的几个基本概念,一个是测验、一个是评价、一个是考试,这几个概念已经在国家推进的教育评价改革上、在学者的研究中已经开始发生了转化分化。

    第一我们看测验,过去的测验,我们叫TEST,和考试是同一个词。过去参加测验、考试没有实质性的区分,一个是阶段性的,一个是综合性的终结性的。但是在这个年代测验已经基本划分:测验、测量和“计划”。我们看测量(Measurement)这个英文单词,它就是获取数字的意思。测验是有目标的,有清楚的目标和看达成目标程度;而测量不是,测量是通过被测者本身的维度来进行各种测试和测量,获得客观的数据。所以整个测量的发展,包括测验的分化发生了很大的变化。

    考试的英文单词也是“TEST”,和测验也是同一个单词,但考试的目标不同。从上个世纪30年代以后,考试发生了变化,基本上是三大类:一类是“成就测定”,第二类叫“评估”,第三类叫“预估”。我们国家这次高考改革中的统一考试——语数外三科实际上已经是能力测试了,能力测试不是过去的那种学科考试,也不是用来测定和评估的,而是用来预估学生未来发展的,所以考试这种变化与过去有着重大差别。最大的差别是对数据处理发生了改变,数据处理之后,是进行测定还是评估、预估,在评估基础上进行选择、还是在预估未来发展上做出选拨,这是完全不同的情况。世界上主要国家提供的是这样的考试平台:一种是学业水平考试,它就是根据学生过去学习成绩进行淘汰;第二种就是评估——选择,这种是根据学生已经形成的显性能力状态做出评估性判断,对应这个的国际上有个专业的考试“ACT”,中国大量的考试包括下一步的职业高中采用的就是一种选择性评估——一般都是显性能力评估,职业技能考试考的就是显性能力;第三种就是预估机制,对学生进行选拔,主要是对潜在能力做出预测和诊断性的测试,对应这个的是美国的SAT考试。这三种考试与过去有很大的区别,评价也是。

    评价这个名词比较含糊。国家在这次教育评价改革上明确的提出决策性评价改革——也即2015年正式启动的质量监测;到了2013年,启动了一个教育质量综合评价改革,也称作认定性评价,主要是提供管理、鉴定两种基本功能;所以在应用上把教育评价进行了分化。我们在今后的评价当中会反复碰到这些:一个是决策性评价(教育质量监测),一个是认定性评价(教育质量管理、鉴定性评价),再一个是服务性评价(诊断、甄别还有教学育人服务)。

    服务性评价的改革估计得在2020年之后了,教育质量监测(决策性评价)和教育质量综合评价(认定性评价)改革在2018年基本落地(基础教育改革这么多名词,大家很难理解,但是这个没办法的事情)。提高教育质量和教育决策,关键在于提高教育目标,提高教育目标的前提是提高内涵,提高内涵一个是把过去的单要素扩展成多要素,一个是把过去的低要素扩展成高要素,所以教育会越来越复杂,教育对人的综合素养、人脑思维能力要求越来越高。这次教育评价改革本身就是一个巨大的系统工程,它除了自身和过去很大不一样的地方——也是要建立指标体系、评价标准、方式方法,还有科学运用评价结果;但是还要协同教学改革、课程改革、育人改革、考试招生制度改革,必须达成互相配套,否则就会失败。这种综合性改革的难度很大,我们在研究怎么推进教育评价改革,对这个也有心理准备;在复杂的改革上,失误非常多。在这点研究上我们与成都市教育局和教科院的思想不谋而合,所以迅速的推进成都市教育质量综合评价改革的发展。至2016年10月27号,教育部在成都市实验区召开了全国中小学教育质量综合评价改革实验工作现场交流会,对成都市中小学教育质量综合评价改革取得的成就给予了肯定。

    我们的认识要把教育质量综合评价改革落地,必须要坚守国家的制度、意见,不能偏离它,既不能少也不能多,这是教育评价改革的第一原则:国家原则;第二个,特别重要的原则是现实原则,就是教育评价及其结果,老师一定得用起来,老师能接受、学生和家长能接受,对学生的成长和学习有直接作用,如果没有这些,看起来再好的教育评价在中国都没有办法落地,因为中国是从上往下一统的国家,它不像美国和欧洲这样的国家,高级官员和学生和家长面对面,我们教育部长局长们不可能与学生、家长、教师去面对面,所以它必须基层和高层接受一体化,这个难度就比较大。现实显得格外的重要,如果偏离了现实基础,老百姓不理解、教师不理解、学校不用等等,这肯定要失败。第三个就是符合科学原则,尽量不要创造,而是把已经成熟的方式方法拿来使用。

    我们公众教育科学研究院,一是直接参与了国家中小学教育质量综合评价改革——为教育部中小学教育质量综合评价改革实验区提供专业支持与技术服务,二是以中小学教育质量综合评价改革实验为基础,做了服务性评价的改革的尝试。现在的教育目标和之前的教育目标完全不同,它关注教育的目标和结果,同时关注过程与方法、情感与价值等,它关注学科素养,所谓学科素养就是把知识、技能、观念、方法提炼为能力,把情感、价值、态度、提炼为品格——这个就是教育活动和过程,所以教育目标不再仅是结果目标,导致了现在的教育质量评价改革得实现三个向度目标,三维目标就是来源于此。这是非常严重的技术挑战。我们现在各地学业测试仍然建立在“双向细目表”的分析上,做出来的还是一个结果的判断——一个知识点加上一个语境,然后这个项目反映了什么特质。过去的双向细目表分析,也就是停留在目标描述年代——第二代教育评价;但是现在不行,已经不是一个简单的双基测量——不再是建立在双向细目表的分析之上,而是要求建立在“三维目标”基础之上。为什么有些调查问卷和记录,对数据处理也不是过去简单的算术加法和排列,因为牵扯了划分出了多种属性知识,多种属性的不同特质,所以对统计学、分析学的依赖,包括对大数据的依赖越来越重。而且对过去的基于简单的评定,对学生这种学习和成长的标准化的区分,也不再是过去的甄别概念;对数据的确立和诊断,在量化研究上和过去不同。而且教育目标在深度和广度的变化,测量也发生变化,过去的测量比较简单,就是一个认知目标,用认知目标来指导理论实践;不好用时,再加个全域分数理论就是概化理论;要是讲究能力的话,就把IRT项目反应理论给用起来,求一个论证结果就可以了。现在不行,现在变成三维目标了,把教育的认知、过程、活动都作为目标,所以这个挑战非常大;不光这个,包括综合素质评价这个挑战,综合素质评价的要害,一个叫自然主,义一个叫表现主义,以达成理解和解释,做因果性和探索性分析......,这些技术难题需要一一解决。我们国家现在评价改革也已经走到了对制度提出要求,要求制度突破、技术突破这个程度,比过去以前突破难度大。

     几年的教育评价改革发展发现,教育评价改革的深层问题凸显出来。我个人认为,一个是观念和思想比较落后,差不多主流还停留在70年以前,这个可能还需要一段培育时间;另一个很严重的问题就是人才稀缺,我们国家到现在还没有教育评价专业,是很大的问题。没有这个专业、没有这个职业,行业也不存在;再一个就是制度落后。这些问题正是阻碍教育评价发展改革的关键性的问题。所以国内教育评价改革还有很长一段路要走,很多制度性、技术性、观念性的困难需要一一解决,不会太快,但不会太落后,差不多这个情况。

    相关文章

      网友评论

          本文标题:中国教育评价改革与国际教育评价发展趋势

          本文链接:https://www.haomeiwen.com/subject/bjyooxtx.html