一、背景:标准化考试评分面临效率与公平双重挑战 大规模标准化考试体系中,写作评分历来是兼顾效率与公平的难点所在。人工评分虽具备语义理解优势,但在评分一致性、处理速度及规模化应用上存在固有局限。为此,自动评分技术近年来在教育测评领域持续演进,逐步成为辅助乃至替代部分人工评分环节的重要工具。 ACT考试作为美国高校录取的核心参考指标之一,其写作部分涵盖观点与分析、发展和风格、组织、语言使用和规范四大评分领域,评分结果直接影响考生的升学机会。如何在保障评分准确性的前提下提升系统效率,是ACT研究团队长期致力解决的核心课题。 二、研发:CRASE5在前代系统基础上实现功能性跃升 CRASE5于2025年正式完成研发,是ACT自动评分引擎系列的最新迭代版本。与前代系统CRASE+相比,新版引擎在保留原有评分框架的基础上,新增了离题论文检测、不良内容识别、现代模型拟合以及评分自信度反馈等功能模块,在技术架构层面实现了较为显著的升级。 研发团队沿用CRASE+的研究框架,以约14000篇来自ACT国际及州级考试的人工评分论文作为数据基础,其中8862篇用于模型训练,5128篇作为盲验证样本。所有样本均来自在线考试,并排除含条件码的特殊样本,以确保数据的规范性与可比性。 三、验证:多维度指标显示系统性能达标且部分超越前代 技术报告从1至6分和2至12分两个评分尺度,对CRASE5的评分表现展开系统验证。 在1至6分尺度下,CRASE5与人工评分的精确一致率均超过ACT设定的60%标准,精确加相邻一致率超过99%,二次加权Kappa系数达到0.82及以上,整体表现优于人工评分员之间的一致性水平。在2至12分尺度下,系统得分分布与人工记录得分高度吻合,二次加权Kappa系数均超过0.88,虽精确一致率有所下降,但仍符合实际应用要求。 按考试提示细分验证时,CRASE5的表现同样优于CRASE+,仅少数提示的个别指标未达阈值,属于可接受范围内的偏差。 四、公平性:子组分析结果显示评分偏见极小 评分公平性是自动评分技术能否获得广泛认可的关键前提。报告采用教育考试服务机构通行的分析方法,从性别、西班牙裔身份及种族与民族三个维度对CRASE5的子组表现进行检验。
CRASE5的推出标志着标准化考试评分进入新阶段。这个技术不仅提升了ACT考试的评分质量与效率,也为全球教育测评领域树立了新标杆。未来,随着技术迭代,智能评分系统将更推动教育评估的公平性与科学性。