“人工智能在普通高考网上评卷中的应用研究”成果公报
发布时间:2020-07-30

  标识

  安徽省教育招生考试院国家教育考试科研规划 2017 年度重点课题负责人  

  (何屹松、高级工程师)主持完成了“人工智能在普通高考网上评卷中的应用研究”(课题编号 GJK2017017)。课题组主要成员徐飞、刘惠、孙媛媛、竺博、储 林林。  

  正文

  一、内容与方法

  1、概述 “人工智能在普通高考网上评卷中的应用研究”是国家教育考试科研规划

  2017 年度重点课题(课题编号 GJK2017017)。该课题自 2017 年 12 月 4 日批准立 项以来,课题组围绕既定目标,通过深入细致地研究,在人工智能参与网上评卷 的系统研究、技术实现、应用创新等方面取得重要进展,尤其在人工智能辅助网 评质量监控模式创新、人工智能评分与网上评卷系统融合应用、定标方法研究等 方面均取得重要阶段性成果,在 2018、2019 年安徽省普通高考网上评卷中实现 突破性应用。

  2、主要研究内容 传统意义上的网上评卷是以扫描后的答题卡切分图像为基础,组织评卷教师

  以网上阅卷方式进行。而计算机智能评分技术,则是一种在对扫描后的答题内容 进行转写识别、内容分析和关键特征提取的基础上,运用人工智能的方法,自动 对考生答题内容进行评分的全新应用。本课题主要研究目标包括:

  (1)基于文本分析结果,对中文作文、英语作文、文科综合简答题、数学 填空题、英语改错题等进行作答文本异常作答的发现和报警,实现对空白作答、 套作、雷同作答的发现和检出,并结合评分结果分析,突出计算机智能评分的质 检辅助功能。

  (2)加强对人工智能评分技术的方法研究,建立一套科学的对定标集专家评分样本的选取机制,建立并完善对智能评分结果的评价机制,使计算机智能评测结果能够达到与人工专家相当的水平,在真正意义上能够替代一评或部分替代 人工评阅。

  (3)结合图文识别、自然语义理解、智能评测技术等最新研究成果,综合 教育考试理论研究和评价方法,形成一套完整的、实用化的、人机结合的智能网 上评卷解决方案,初步实现“改进评分方式,加强评卷管理,完善成绩报告”的 既定目标,为未来大规模考试阅卷系统的升级做出有益尝试。

  (4)探索实施人机结合的智能网上评卷系统的标准化流程,在千兆局域网 条件下,通过相关数据接口,实现对 1000 万级别的扫描图像和计算机智能评测 结果的访问和应用,既充分发挥人工阅卷在学科先导、教师评阅、专家仲裁和社 会接受程度方面的特点,又充分发挥计算机人工智能的高效率、高准确度和高可 靠性的特点,以人机结合的方式全面加强对评分过程的大数据分析,从而进一步 保证阅卷质量。

  3、主要研究方法 力求通过实验验证、数据分析等方法,围绕人工智能技术与网上评卷技术

  融合应用的总体目标,以每年普通高考网上评卷为重要时间节点,分步推进课题 研究工作,解决好应用过程中需要面对的接口定义、网络和硬件系统部署、软件 系统升级更新等一系列技术问题。同时,加强对包括字符、公式、图形在内的转 写识别、智能评分等核心算法的研究,提升人工智能在识别精度和评分准确度方 面的能力,扩大人工智能在多科目、多题型上的处理能力,以期在实际应用过程 中,能够形成可以固化和推广的应用成果。

  二、结论与对策

  2016 年初,启文教育与科大讯飞股份有限公司成立联合实验室,安 徽省教育招生考试院积极参与了人工智能评测技术在考试中的应用等前瞻性课 题研究。2016 年 10 月下旬,我省首次进行了基于 2016 年高考英语作文扫描图 像的计算机智能评分实验验证,对人工智能结合网上评卷工作有了一个直观认 识。随后在 2017 至 2019 年连续三年的普通高考网上评卷期间,我省将人工智能 评分作为网上评卷辅助质量监控的重要方法,积极实施了相关应用,取得良好预期。

  1、智能评分有着极高的效率

  2017 年高考评卷期间,我省以离线方式,同步对语文作文和英语作文进行计算机智能评分,并将评分结果应用到网评质量监控上。这一过程与网评时间同步,6 月 12 日开始进行语文作文和英语作文扫描图像的数据交接,并获得由专 家进行评分的定标样本的图像及分数,至 6 月 16 日上午提交转写结果和评测数 据,4 天时间完成两个科目近 85 万余份答题的手写体转写识别(文档化)和智 能评分,并对语文作文 17762 份空白答题、235 份三种类型高相似度异常作答情 况,以及英语作文 24455 份空白答题、1469 份三种类型高相似度异常作答情况 予以检出,对部分人机评分大分差样本进行了质检反馈,其成本之低、效率之高 和智能化程度之高是人工所无法比拟的。

  2、智能评分具有良好的评分准确性 人工智能评分其要点可以概括为两个方面:一是对考生答题内容进行文字

  (含公式、图形等)识别,转换成文本;二是基于深度神经网络建模的评分模型 训练和多维度计算机智能评分。目前,基于全连接的卷积神经网络(Fully Connected Convolutional Neural Networks)的图像文档版面分析理解和文字 识别技术核心算法,使得计算机智能阅卷评分系统已经形成了一套完整的图片输 入端到文字输出端的识别处理方案,对中文汉字和英文字符的识别率能够达到与 人工识别结果相当的水平。而在多维度评分方面,可将待评样本按照特定算法进 行特征向量提取,并对定标集数据样本进行同样的特征提取,然后以定标样本的 专家评分作为目标,通过基于注意力编解码机制的循环迭代神经网络(Attention based Encoder-Decoder Recurrent Neural Networks)建模,形成基于当次考试 的精准的评分模型,从而进行计算机智能评分。

  从安徽省 2017 至 2019 连续三年对语文作文和英语作文实施计算机智能评 分的实际结果看,智能评分结果与最终报道分的评分一致率约在 95%和 92%左右, 达到了一个较高的水平,说明智能评分具有很好的评分准确性。另外更为重要的 是,由于评卷教师在长时间高强度的评分过程中,极易身心疲惫,一定程度上会 影响评卷教师对评分尺度的把握和全程一致性的把控,甚至于出现打保险分的现 象,而计算机智能阅卷系统就不会受到情绪、身心状态、个人喜好等主观因素的影响,始终采用统一的标准进行评分,从而也在更大程度上保证了评分的客观公正性。

  3、智能评分具有较为完备的辅助质检功能 实际应用中,智能评分可以对空白答题进行自动检出,避免因评卷教师误操作键盘而导致空白题有分的情况发生;可以对作文内容与抄写试卷题干内容或 默写范文库现象进行高相似度文本检出,提交学科组予以重点核查和质量监控; 可以对考生之间高相似度作答情况进行文本检出,提交学科组予以审核确认,对 抄袭现象或有组织舞弊现象形成震慑;可以将智能评分作为辅助质检参考,与人 工评分进行后台比对,并对差值较大的考生答题情况,提交学科组重新进行审核 认定评分,保证评卷质量。所有这些,对丰富和形成多样化的评卷质量监控体系, 起到积极促进作用。

  4、智能评分对加强评卷管理具有十分重要的现实意义 现有的网上评卷组织模式对评卷结果的质量评价很难做到准确的、有科学性的定量分析。计算机智能评分系统的应用已经很好地解决了这一业界难题。管 理部门和学科评卷点之间对评卷质量的监控和评价,能够通过人工智能评分系统 所具备的第三方质量评价的显著特点,超越现有网上评卷技术规范所提供的基于 统计测量学原理的技术手段和方法,上升到通过计算机智能评分来逐一对比计算 人工评分的准确程度,对整个评卷过程,以及评卷教师对评分标准的把握程度具 有量化分析能力,这对评卷教师的专业水准和责任心不仅仅是一种评价,更多的则是一种约束。

  5、智能评分对改进评分方式具有十分重要的长远意义 从某种意义上来说,计算机智能评分系统可以通过不断数据挖掘和自主学习,变得越来越聪明,使其在某种程度上能够超过一般评卷员的评分水平,进而 达到专家评分的高度。因此,完全可以考虑在社会化考试等相对低利害性的考试 中,用计算机智能评分,替代多评模式下的人工一评评分,甚至可以直接替代某 些高可信度分数段内的人工评分。而在高利害性考试中,人们更加关注的是针对 每个评分样本的评分准确性,计算机智能评分能否从研究走向应用,能否从后台 走向前台,能否从辅助质检走向替代一评,都必须回答评分准确性的问题。因此, 分析和研究人工智能评分的核心算法,分析和研究人工智能评分和网上评卷组织管理模式的融合应用机制,分析和研究定标集样本的选取方法对评分准确度的影响因素,使其在理论层面上更具科学性,在技术层面上更具操作性,在应用层面 上更具规范性,其重要性和迫切程度都是无需多言的,也必将在学业水平考试和 新高考改革的实践过程中发挥出越来越重要的作用。

  三、成果与影响 课题研究以应用为导向,取得了两个方面的重要成果:

  1、通过“评卷辅助平台”,实现了计算机智能评分系统与网上评卷系统之 间的融合应用。

  (1)新一代智能网上评卷系统的技术实现 新一代智能网上评卷系统以现有阅卷组织管理模式为基础,主要包括:答题卡扫描系统、智能评分系统和网上阅卷系统三个部分。这里主要论述智能评分系 统和网上阅卷系统的融合问题,融合后的系统结构示意图如下:

  

      该方案的核心是在保留原有网上评卷系统和人工智能评分系统各自主体功 能和操作方式不变的情况下,通过“评卷辅助平台”进行系统升级,将新增功能嵌入到原有系统当中,以平滑过渡的方式构造新一代智能网上评卷系统,为后期拓展应用以及系统的进一步融合和升级奠定基础。

  评卷辅助平台为 WEB 架构,采用 JAVA 面向对象语言开发,关键业务数据的 传输和存储均进行加密处理。硬件方面,主要由数据库服务器、文件服务器、应 用服务器和网络设备组成。网上评卷系统和人工智能系统之间不能进行直接访 问,需各自与评卷辅助平台进行连接,完成数据交换。评卷辅助平台包含“数据 交换子系统”和“监控、统计、处理子系统”两个部分,其中:数据交换子系统 通过 Web service 接口技术,提供数据交换服务;监控、统计、处理子系统对交 换过程进行监控,对数据进行处理、统计、分析、决策。

  与评卷辅助平台相对应,原有网上评卷系统需进行相应升级后才能满足新一 代智能网上评卷系统的应用需要。基于上述技术方案,对新增功能采用服务引擎 方式进行设计。服务引擎主要完成网上评卷系统与评卷辅助平台的交互,包括上 传已扫描完成的考生图像信息、接收人工智能系统的辅助定标样卷及分数、上传 人评最终成绩、接收复核数据(包括人评与机评评分差值较大的考生数据、抄袭 题干、抄袭范文、空白卷有分的考生数据、相似考生数据等)、上传复核反馈结 果等。服务引擎设计遵循新增模块不能影响原有系统主体结构、新增功能不修改 或少修改原有功能的设计思路,既保证原有网上评卷系统稳定运行,又确保新增 业务(如人工智能辅助网上评卷质量控制)能够以实时在线方式应用。

  (2)新一代智能网上评卷系统的技术特点

  新一代智能网上评卷具有 5 个方面的特点:一是系统的独立性。评卷辅助平 台通过对数据接口的定义和网络访问的控制,保证其自身的独立性,使其既不依 赖于特定的人工智能系统,又不依附于特定的网上评卷系统,可与国内现行主流 的网上评卷系统、人工智能评分系统对接,开放而兼容。二是数据交互的灵活性。 扫描图像数据通过评卷辅助平台提供给人工智能评分系统,人工智能评分系统的 计算机自动评分结果又通过评卷辅助平台提供给网上评卷系统,数据的导入导出 交换能力安全高效,过程可追溯,日志可审计。三是在线控制的实时性。安徽省2018 年在高考网评过程中实现了对高考语文作文题和英文作文题评分结果的定 时定点比对,人工评分结果和计算机智能评分结果可以随时在系统控制端进行实 时动态分析,对人机大分差样本、超写题干等异常答题样本等情况进行精准质检反馈,质量监控的针对性极大提高。四是对离线方式的包容性。2018 年安徽省增加了对语文简答题、文科综合能力测试简答题、数学证明题的智能评分和实验 验证,方法是通过评卷辅助平台将机评结果导入网评系统当中,经过监控、统计、 处理子系统和服务引擎进行质检反馈,结果显示对多科目、多题型的辅助质量监 控高效有序。五是系统的可扩展性。通过评卷辅助平台这种中间双向介入模式, 可以将人工智能评分系统的评分结果作为一评直接提交给网上评卷系统,为智能 评分替代人工一评提供了更好的解决方案,也为人工智能评分技术在非高厉害性 考试阅卷组织管理中的推广应用提供了思路。

  2、采用“人机结合+分段补充”定标集挑选策略,提升人工智能评分的评 分准确性。

  在计算机智能评分实施过程中,待评样本的评分结果往往会因为定标样本 的选取不同而存在一定差异,这种差异可能是整体上的,也可能是个体上的,其 实质反映的是评分结果的可信度与准确性。如何建立起一套科学的、满足智能评 分需要的定标样本选取机制是考试管理机构必须考虑的问题。2019 年,安徽省 省运用了对定标集选取方法的最新研究成果,采用“人机结合+分段补充”定标 集挑选策略,以提升评分结果的准确性,尤其是高分段作文的评分一致性。

  最初人工挑选定标卷的方法,是由学科评卷专家在随机抽样的基础上,选 取一定数量的评卷样本,进行专家评分,并以此作为定标集。这种方法由于样本 数量不充分,以及不能保证所选样本的分数分布等情况,得到的评分结果往往只 能作为一种参考。

  实际常用的是人机结合挑选定标卷的方法,即:在学科评卷专家抽样挑选 样卷的基础上,结合人工智能研判挑选样卷的方式,增加样卷数量,共同形成定 标集样本,并进行专家评分。需要说明的是,在进行人工智能研判挑选样卷时, 会预设一定的选取原则,这种原则是在计算机完成对所有待评样本的机器识别转 写后,对待评样本进行分类,同时考虑到考生的地域覆盖、水平等级等因素,从 所有待评样本中,筛选出具有一定代表性的样本,组成定标数据集合。这种人机 结合挑选定标卷的方式较人工挑选定标卷的方式,形成的定标集会具有更多的代 表性,但是依然存在同样的问题,就是在不能保证足够数量和分数分布的情况下, 其评分结果与最终报道分相比,在一致率、同档样本数量等性能指标方面,仍有可提升空间。

  最新研究成果是采用“人机结合+分段补充”的定标集选取策略,即:在原 有人机结合挑选样卷 500 份,并进行专家评分的基础上,按照相应分数段设定相 应定标样本比例的原则,采用基于聚类的方法从足够数量的已进行过人工双评的 作文中,选取有代表性的定标样本进行增补,使定标集样本总量达到 1000 份(或1500 份),使定标集样本的分数分布具有更多的代表性。这种聚类,采用基于 Transformer 双向编码器表示(BERT)方法,将作文内容抽象表示为语义向量, 然后基于语义向量计算不同样本之间的相似度,以此作为聚类的基础。方法上采 用 k 均值聚类算法(K-means),经过多轮次的迭代计算更新后,形成 K 个聚类中 心(K 的取值通常为 20-30 之间),然后计算每个对象与各个种子聚类中心之间 的距离,把每个对象分配给距离它最近的聚类中心。再从 K 个类中,每类平均选 取 500/K( 或 1000/K )篇作文,并且保证补充抽取的样本的评分分布与预设的 补充目标比例相同。这种对定标样本分段补充的方法,能够更有针对性的扩大定 标样本集合的覆盖范围,充分体现主题覆盖、不同水平样本覆盖等诸多因素,最 大限度满足实用性要求。这里我们就语文作文定标,给出的相应分数段及其比例 的参考值是:

  分值区间:[0, 30]  (30, 36]  (36, 40]  (40, 45]  (45, 50]  (50, 60]

  样本比例:    6%       10%       14%       24%       24%      22%

  四、改进与完善

  1、加强人工智能技术本身以及在评分评卷工作中的应用研究 现有蓬勃发展的图像识别技术和字符识别技术,使人工智能参与各类考试的

  评测应用成为可能,但是,一旦到了应用层面,人们所关心的就不仅是结果如何, 而是新技术所涉及的全部内容。例如,我们经过对比发现,就答题而言,考生在 方格内书写作文和在开放区域内书写作文、在有下划线的区域内答题和在开放区 域内答题,其转写识别的精度都是不尽相同的,前者会高于后者。在对开放区域 内的公式、符号以及数学证明题、计算题等答题内容的识别率,也还存在待提升 空间,这些都是摆在管理者面前需要考虑的问题。在评分准确度方面,我们经过 对比发现,在人机大分差的样本中,尤其是机器分大于人工分的样本中,人工评分的准确度要高于智能评分,而对于经智能评分系统检出的抄写题干、相似作答等异常样本,其分数经复核评分后无一例外都是向下修正的。因而,在人工智能 全面参与高利害性的考试阅卷过程中,依然有更多的关键技术需要突破。

  2、加强人工智能结合网上评卷的规范性研究 现有网上评卷技术标准一直遵循的是 2008 年颁布的《国家教育考试网上评卷技术暂行规范》和《国家教育考试网上评卷统计测量暂行规范》。随着人工智 能技术以及其它新技术的突破,将会有更多企业参与到教育考试及其评卷工作中 来,也必将对现有网上评卷技术服务商提出更多更高的要求。作为管理部门,我 们的着眼点是应用,是对阅卷方式的改进,以及这种改进的意义,从而增强对阅 卷质量、效率、成本、科学性等方面的全面把控能力。为此,克服现有网评系统 中的固有弊端,加强对人工智能辅助网上评卷的规范性研究,将会成为一个非常 紧要的研究课题。安徽省在 2018、2019 年高考阅卷过程中对人机结合的智能化 网上评卷实施流程进行了积极探索,首先增加的是人工智能辅助网上评卷质量监 控功能,第二步将要实现的是在评卷过程中对考生异常答题信息的动态提示,包 括对教师阅卷界面的调整等,第三步需要研究的是人机融合后对网上评卷组织管 理模式的改变。力求经过不断实践创新,形成可复制、可推广的成功经验。

  3、加强对考生成绩分析评价研究 人工智能评分在对考生原始图像答题信息进行转写识别、并以文档形式保存考生答题内容后,具备了对考生成绩进行分析的基础。同样,我们可以通过人工 智能的方法,将课程标准、知识结构、答题要点、解题思路、评分参考、专家结 论等引入进来,构建考生成绩分析评价模型,对每位考生进行更有针对性地分析, 明确告知考生具备了哪些学科能力,又存在怎样的学习问题,变考试分数为成绩 报告,在更高层面上体现考试的价值和功能。还可以在此基础上,通过对全部考 生的答题信息进行大数据分析,为教考研究提供更多素材,对促进教育改革起到 积极地推动作用。

  五、成果统计一览表

课题组成果统计一览表