ACT发布CRASE5技术报告：评分一致性提升，异常内容识别能力增强

一、背景：标准化考试评分面临效率与公平双重挑战大规模标准化考试体系中，写作评分历来是兼顾效率与公平的难点所在。人工评分虽具备语义理解优势，但在评分一致性、处理速度及规模化应用上存在固有局限。为此，自动评分技术近年来在教育测评领域持续演进，逐步成为辅助乃至替代部分人工评分环节的重要工具。 ACT考试作为美国高校录取的核心参考指标之一，其写作部分涵盖观点与分析、发展和风格、组织、语言使用和规范四大评分领域，评分结果直接影响考生的升学机会。如何在保障评分准确性的前提下提升系统效率，是ACT研究团队长期致力解决的核心课题。二、研发：CRASE5在前代系统基础上实现功能性跃升 CRASE5于2025年正式完成研发，是ACT自动评分引擎系列的最新迭代版本。与前代系统CRASE+相比，新版引擎在保留原有评分框架的基础上，新增了离题论文检测、不良内容识别、现代模型拟合以及评分自信度反馈等功能模块，在技术架构层面实现了较为显著的升级。研发团队沿用CRASE+的研究框架，以约14000篇来自ACT国际及州级考试的人工评分论文作为数据基础，其中8862篇用于模型训练，5128篇作为盲验证样本。所有样本均来自在线考试，并排除含条件码的特殊样本，以确保数据的规范性与可比性。三、验证：多维度指标显示系统性能达标且部分超越前代技术报告从1至6分和2至12分两个评分尺度，对CRASE5的评分表现展开系统验证。在1至6分尺度下，CRASE5与人工评分的精确一致率均超过ACT设定的60%标准，精确加相邻一致率超过99%，二次加权Kappa系数达到0.82及以上，整体表现优于人工评分员之间的一致性水平。在2至12分尺度下，系统得分分布与人工记录得分高度吻合，二次加权Kappa系数均超过0.88，虽精确一致率有所下降，但仍符合实际应用要求。按考试提示细分验证时，CRASE5的表现同样优于CRASE+，仅少数提示的个别指标未达阈值，属于可接受范围内的偏差。四、公平性：子组分析结果显示评分偏见极小评分公平性是自动评分技术能否获得广泛认可的关键前提。报告采用教育考试服务机构通行的分析方法，从性别、西班牙裔身份及种族与民族三个维度对CRASE5的子组表现进行检验。

CRASE5的推出标志着标准化考试评分进入新阶段。这个技术不仅提升了ACT考试的评分质量与效率，也为全球教育测评领域树立了新标杆。未来，随着技术迭代，智能评分系统将更推动教育评估的公平性与科学性。