教育测评行业及其痛点分析

作者: 张勇APII | 来源:发表于2018-10-23 13:15 被阅读0次

“公众学业智能云服务平台”的所处行业分析及痛点

公众学业智能云服务平台，是为K12教育领域提供基于AI的学生学习测评、教师教学测评、学校教研测评乃至区域教学管理测评服务，及改进服务的云服务平台。

公众学业智能云服务平台，主要为学生、学校提供形成性、过程性、诊断性测评服务，及学习改进、教学改进、教研改进服务。

该服务提供主要是基于ACTS学业评价技术，ACTS学业评价技术乃中国教育学会特别推荐、被教育部中小学教育质量综合评价改革实验所采用的评价技术，改进技术与服务已获得国内学术界、公立教育界的广泛认可与赞许。

一、行业分析

公众学业智能云服务平台所处为教育测评行业，教育测评业为国内刚刚发育的一个新兴行业。

按照国际教育发展惯例和中国教育改革政策，教育测评业于2002年教育部发布改革文件、于2014年开始投入大规模实验、于2018年正式启动，将于2020年迎来一个高速发展的历史时期，其市场总额度将在千亿以上。

因为教育测评业在国内还处于萌芽状态，故无法分析教育测评业的企业及其竞争关系。我们只能从国际教育测评、专业发展、国家政策方向等角度作出分析。

（一）教育测评业的国际发展

在国际上，教育测评的发展走过了这样一条历史突进：观察 →测量 →测量与质性研究并重 + 给出诊断和意义以及价值判断。

总起来说，人类教育评价到目前经历了3个较大的历史时代：观察历史时代，测量历史时代，评价历史时代。观察历史时代，是大约公元前400年至1840年前后，主要是通过观察人的行为和察看人的认知（写作）；测量历史时代，是大约1845年前后~1940年前后，这个时代的主要特征是追求测量的客观性、标准化——也即追求数据的客观性；这个时代的主要任务是做各种试题试卷、量表、问卷等；评价历史时代，大约是1940年后至今，这个时代的主要特征是把测量数据如何分析、应用，这个时代的主要任务是: 如何利用数据去分析诊断、去做过程考察、去发现知识是如何形成的、能力是如何养成的——也即去发现和利用数据、事实背后的意义和价值。

评价历史时代又分为：测量时期（第一代教育评价）、描述时期（第二代教育评价）、判断时期（第三代教育评价）、建构时期（第四代教育评价）、综合时期（第五代教育评价）。

目前，在欧美国家教育测评已发展到第五代教育评价——综合评价。

（二）教育测评业的国内发展

教育测评业在我国发展较晚，至2013年我国教育测评在主流上仍处于第二代教育评价历史时期。也就是我国的教育测评仍处于“测量（测验、考试）+描述”阶段。

从2002年到2013年，教育部分别发布《关于积极推挤中小学教育评价与考试的通知》、《教育部关于推进中小学教育质量综合评价改革的意见》以来，中国教育界才有了教育评价的观念。

1、应试的主要技术原因——“双基”考试

“测量”主要追求测量结果的客观化、标准化。这个特征目前仍然是我们国家努力的主流方向之一。目前正在进行的大量题库建设，都在为追求测量的客观化、标准化而努力。

“描述”，主要注重对测验结果的描述，也是我们今天大量老师所做的事情，对每一次测验或考试的结果进行描述、或描述性分析，用来描述教育活动是否达到了预期的目标以及达到程度如何——也即我们常说的“双基”考试。

“双基”考试是在测评技术上造成中国应试现状的主要原因，我国考试评价制度要改的就是这个“双基”考试——改变应试教育。

2、教育评价与考试改革——从应试到发展

在过去一百年里，我国一直采用欧美上个世纪40年代的教育测评理论和技术（真分数理论和概化理论——第二代教育评价）。

2013年教育部发布《教育部关于推进中小学教育质量综合评价改革的意见》，并在全国建立了三十个教育评价改革实验区，于2014年正式启动中小学教育质量综合评价改革实验——管理性和考核性评价改革实验。于2015年正式颁布《国家义务教育质量监测方案》——正式启动决策性评价。

国家启动教育质量监测及综合评价改革实验，其目的就是扭转教育应试化（“双基”测评），走向教育发展（多元、个性、全面综合发展）——建立基于三维目标（或学科核心素养）的学业评价、能力评价、德智体美实践的综合素质评价，开始实施形成性、过程性、诊断性教育测评。

基于第二代教育评价理论的“双基”测验和考试，只能做终结性描述，做不了形成性、过程性、诊断性评价，无法对教育改进真正做出有效可靠的实施——也即做不了教育发展。这一轮国家教育评价改革，就是要从“双基”测验和考试，转向基于三维目标或核心素养的学业评价——形成性、过程性、诊断性评价。

（三）教育测评的专业发展

在国际上，教育测评理论共有如下：1）产生于上个世纪三四十年代的真分数理论和概化理论（分别测量知识和技能）；2）产生于上个世纪六七十年代的项目反应理论（测量一般能力）；3）产生于上个世纪八九十年代的多维项目反映理论（测量多重能力或学科能力）和认知诊断理论（测量“知识+技能”）；

目前在国际上教育测评的发展主要集中于多维项目反映理论和认知诊断理论。其中，多维项目反映理论于上个世纪九十年代开始于欧美国家实施，认知诊断理论于二十一世纪开始走入推广。

根据2002年教育部发布的《关于积极推挤中小学教育评价与考试的通知》、和2013年教育部发布《教育部关于推进中小学教育质量综合评价改革的意见》，目前国家这一轮教育评价改革，也正是在专业从真分数理论和概化理论转向多维项目反映理论和认知诊断理论。

（四）国内教育测评业的发展

目前在国内教育测评业处于萌芽期，还没有具体形成一个明确的教育测评行业。自2014年以来，以北京师范大学和公众教育为首，推动国内教育测评业务以来，逐步形成这样一个格局：北京师范大学主要以项目反映理论为主，面向教育部和各省教育厅提供教育质量监测；公众教育主要以认知诊断理论为主、多维项目反映理论为辅，面向各地市、县区教育局和全日制学校提供中小学教育质量综合评价和服务性评价。

于2014年以来，乘教育评价改革之东风，国内涌起了大致4000家从事教育测评的企业及研究中心（院、所）。这些企业及研究中心，主要来源于三类：1）过去做网阅的企业；2）教辅材料企业；3）教育厅局或各地教研室退休人员或离职人员。

教育测评，不同于其他行业。一套能提供有效可靠测评服务的测评技术系统，是由“题库（或试题试卷解析队伍）+数据处理系统（统计+分析+数据挖掘）+评价系统（评定+甄别+诊断）+解读系统（理解意义）+应用系统（价值产生）”组成。其中最为困难的就是建模和算法，而一套测评技术系统的建模和算法一般由几十个数据模型和数十个算法构成。而这些模型和算法，还得要经历至少五年期的实测调试和验证。

所以，教育测评具有高度专业性+实证性，有一个漫长的研发+实测期（国际上一套成熟可用的考试或评价系统，研发+实测期一般为10年）；一旦一套系统成熟，推广则十分迅速——因为考试和评价具有标准统一性和权威性。

目前在教育测评市场抢滩的这些企业，绝大多数不具备真正的教育测评能力（暨不具备专业能力，更不具备实现技术能力）。

而新高考改革将于2020年落地，教育评价与考试同构，这将导致新型教育评价的大发展。

这将在未来的2~5年内呈现一个发展的矛盾（或瓶颈口）——高速发展的教育测评市场需求，与测评服务供给之间，出现求大于供的情况。

二、行业痛点分析

中国教育到目前仍是一个行政计划体制，其改革是自上而下。因为教育测评业的发展，也将是从教育质量监测（决策性评价）+中高考改革，到中小学教育质量综合评价（管理性和考核性评价），再到服务于学生学习改进和学校教研教学改进的评价（服务性评价）。

这一场改革，可以说是史无前例的一场从根本上的改革。其基本痛点如下：

1、观念和思想变革：

我们国家在主流上仍停留在欧美四五十年代的教育测评观念、思想和常识上，这可能需要一段时间去革新国家主流教育的认知。

2、人才稀缺：

我们国家到现在还没有教育评价专业，是很大的问题。没有这个专业、没有这个职业，行业也不存在。

3、制度落后：

我们知道一项改革，首先应该是制度驱动，但国家至今还没有形成与新型教育评价配套的相关制度。

4、测评技术落后：

从测评、数据处理、评价的技术角度而言，我国仍然停留在欧美国家上个世纪的四、五十年代的理论与技术水平上。

我们知道，观念、思想、人才、制度等，随着国家加大改革推进力度，尚有待可解决。但，测评技术的落后，解决起来非常困难——需要一个近10年的发育时期。

（一）从“测量”走向“评价”

我国目前在主流上仅有“测量”（测验和考试）的观念、思想和常识，而还没有建立起“评价”的观念、思想。

测量，追求测量的客观性、标准化——也即追求数据的客观性；这个的主要任务是做各种试题试卷、量表、问卷等。而评价，把测量数据如何分析、应用，这个的主要任务是: 如何利用数据去分析诊断、去做过程考察、去发现知识是如何形成的、能力是如何养成的——也即去发现和利用数据、事实背后的意义和价值。

从“测量”到“评价”的观念、思想和常识的建立需要一段时间。

（二）考试升级——从“双基”走向“三维”

这是非常严重的技术挑战！我国现在各地学业考试仍然建立在“双向细目表”的分析上，做出来的还是一个结果的判断——一个知识点加上一个语境（题型）。双向细目表分析，也就是停留在目标描述年代——第二代教育评价；

但国家教育评价改革的要求，已经变为：不再是一个简单的双基测量——不再是建立在双向细目表的分析之上，而是要求建立在“三维目标”（或学科素养）基础之上。对数据处理也不是过去简单的算术加法和排列，因为在测量上划分出了多种属性知识（多种不同特质），所以对统计学、分析学的依赖，包括对大数据的依赖越来越重。

这就要求，我们国家的考试与测验要全面升级——从“双基”到“三维”，也就要求我国的测验与考试从真分数理论和概化理论走向认知诊断理论。

（三）从“终结”走向形成、过程和诊断

过去的“双基”测验和考试，只能给出一元化数据（一种知识分数）——即一个总分判定学生的学习优劣；而不具备基于多元化数据（多种不同属性的分数）的形成性和诊断性分析、评价。

教育部发布的《教育部关于推进中小学教育质量综合评价改革的意见》，则明确提出“将定量评价与定性评价相结合，注重全面客观地收集信息，根据数据和事实进行分析判断，改变过去主要依靠经验和观察进行评价的做法。将形成性评价与终结性评价相结合，注重考查学生进步的程度和学校的努力程度，改变单纯强调结果不关注发展变化的做法。将内部评价与外部评价相结合，注重促进学校建立质量内控机制，改变过于依赖外部评价而忽视自我诊断、自我改进的做法。”，以及“对评价内容和关键性指标进行分析诊断，分项给出评价结论，提出改进建议，形成学校教育质量综合评价报告。综合评价报告要注重对学校优势特色和存在的具体问题的反映，不简单对学校教育质量进行总体性的等级评价。”

“教育评价的主要目的不是为了证明，而是为了改进”，则成为这一轮教育评价改革的核心——改进，就要建立在形成性、过程性、诊断性的测评基础之上。

三、行业痛点的产品与服务解决

公众学业智能云服务平台，是基于ACTS学业评价理论、技术开发的云服务平台。

ACTS，是Ability and Competence Test System（学业素质与能力评价系统)英文单词的缩写。ACTS学业评价技术以教育目标分类学、认知建构理论、多元智能理论等国际应用广泛的教育理论为基础，以认知诊断理论和多维项目反映理论为应用，借鉴国际最新的测量评价发展趋势，通过构建一个以“知识、技能、能力”为显性维度，以“方法、过程、策略”以及“情感、价值、态度”为隐性维度的三维多元多层测量评价技术模型，以多元、分项、多维的方式来测量、评价、诊断和甄别学生在“三维目标”上所取得的成绩、存在的问题和原因以及未来发展的潜力，从根本上解决了当前学科教育评价不能诊断、不能反映课程目标和标准，以及评价不与国际接轨的问题。

公众学业智能云服务平台，主要为学生、学校提供形成性、过程性、诊断性测评服务，及学习改进、教学改进、教研改进服务。从根本上实现了解决考试升级（从“双基”到“三维”）、从“终结”到“形成、过程、诊断”、从“测量”到“评价”的行业痛点问题。

教育测评行业及其痛点分析

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读