国际高校素质教育“打分”机制测评是个技术活

光明日报| 2020-11-12 15:29:58

对学生进行全面的评价并在此基础上进行人才选拔，是国际上诸多高校招生录取的共同趋势。综合评价是一个经常被提及的概念，实际上就是对学生能否满足大学学习来进行全面考查。既然要对学生进行综合评价，就必然涉及不同的测评方式、测评主体和测评结果之间的差异。

近年来大量研究表明，这些综合性的测评结果比单一的考试成绩更能够预测学生的未来成就。因而，很多世界知名高校在进行人才选拔中，都非常注重这些多元化的测评结果，包括学生特长、标准化考试成绩、平时表现、兴趣爱好、情感、价值观、课外活动等。

但是，如何让这些不同维度的特质在科学、公平的基础上可用、可比，则是一个极其复杂的难题。一些国家的高校结合办学定位和人才培养模式进行了一些探索，形成了各有特色并具有重要借鉴意义的经验。

1.测评是个技术活

目前，国际上考试测评行业发展的一个重要趋势就是为测评者提供各种人性化的服务，以满足学习者学习和终身发展的需要。例如，在全球化时代，受教育者和各类人才的国际流动更加频繁。他们在不同时间、不同地区参加测评，然后带着这些测评结果在不同国家或地区、不同时间点来替代使用成为一种当下的迫切需要。国际上的一些大规模教育测评项目，如经济合作与发展组织推出的国际学生评估项目(PISA)，每三年就要针对全球近80个国家和地区的15岁学生进行阅读、数学、科学等方面的测试。PISA所用的试题有很多套而且并不完全相同，但是其公布的测评结果可以直接进行比较，这对测评技术而言无疑是一个巨大的挑战。

在高校人才选拔所依据的大规模标准化考试中，同样也存在类似情况，如美国的学术能力测试(简称SAT)和大学入学考试(简称ACT)，两者都是美国很多大学人才选拔所要求的重要测试。SAT由美国大学理事会委托教育考试服务中心举办，SAT主要考查学生在大学学习所需的阅读、写作、数理等方面的技能，尤其是批判性思维能力。该考试每年提供7次考试机会，学生可以依据自己的情况，报名参加其中任何一次或者几次考试，并且自行决定用哪次考试的成绩去申请大学。ACT由专业化的考试公司主办，每年举行6次，与SAT一样，主要作为大学新生选拔和奖学金发放的依据。ACT考试包括五个部分：英语、数学、阅读、科学以及作文(选考)。与SAT不同的是，ACT关注学生对中学课程知识的掌握情况，更加突出对学科能力的考查，这些基于学科的能力和大学学习所需的能力紧密地结合在一起，受到了公立大学的欢迎。

SAT、ACT均实施一年多次考试，这给学生提供了多次考试机会，在一定程度上缓解了复习备考的压力，但却对考试质量提出了非常高的要求。其中最关键的是，各次考试的难度需要尽可能保持一致。否则，试卷难度时高时低，就会带来考试的科学性、公平性方面的一系列问题。然而，在考试之前就命制出难度完全一样的多套试卷是几乎不可能的。对此，SAT和ACT的开发者设计了一整套测量与评价技术来对考试成绩进行一定的处理，以消除不同次考试试题难度的影响，从而使得各次考试难度能够保持一致性和基本稳定。在这个过程中，等值就是一项常用的考试技术，广泛应用于一些国际性的大型教育考试与评价项目中。

在SAT和ACT之间还面临一个至关重要的问题，那就是两者成绩之间如何建立联系。原因很简单，美国很多高校在招生时会要求学生提交这两个考试的任何一个成绩。从选拔的结果来看，同一所大学所录取的新生中，提交SAT和ACT考试成绩的考生各占一定比例。而如前文所述，SAT和ACT在知识与能力考查目标上存在较大差异，可以说，它们作为两个不同的测评工具，天然就不具备考试技术上的可比性。那又如何保证这两个性质不同的考试可以相互比较甚至替代呢?这同样涉及科学性和公平性的问题。对此，这两个考试的主办方美国大学理事会和ACT公司通力合作，通过对同时参加这两个考试学生的追踪和对比研究，从成绩使用的角度来公布出一份SAT与ACT的分数转换表，以明确这两个考试结果之间的对应关系。例如，在满分1600的SAT中得1490-1520分，就相当于在满分36的ACT中得34分。这样一份转换表，实现了不同测评在结果使用上的等效，为高校的人才选拔和测试者都提供了极大的便利。

2.及时修正的统计模型

很多欧美国家的高校在进行人才选拔时，一般会要求学生提供综合性的申请材料，包含一系列能够证明自己学习能力的测评结果。其中一些是过程性评价的结果，比如学生在学习过程中的班级排名、阶段测验成绩、GPA、校本评价结果等。在澳大利亚、新西兰等国家，则还包括日常教学过程中任课教师对学生的学业表现进行的综合判断，涉及专题学习、实验技能、日常课程学习状况。这些方面的测评结果是学生在校期间学习状况最直接的表现，不但反映了学生在校期间各学科的学习状况，更可以反映出学生在不同学习阶段间的成长变化情况。

教育领域的研究表明：在整个学习过程中，相比较而言，最了解学生的是任课教师，最能体现学生水平的是能够反映长期表现的学校评价结果，相比之下，任何一次性的终结性考试都必然存在测量误差。因此，在学习过程中的各种评价，理应在高校的人才选拔中占有一席之地。但是，不同学校的学校评价结果之间缺少可比性，因为校本评价在对象、测评工具、群体上均存在极大差异，倘若盲目使用，则会造成不公平的现象。

为了解决上述难题，英联邦的一些国家和地区引入了一种新的机制来对校本评价结果进行校正。这种机制的核心是一种“统计模型”——基于学生的平时成绩、老师对学生各方面的评价，以统一考试的结果为基准，建立相应的统计模型来调整校本评价的结果，并把它统一到同一把量尺上，最后再纳入学生的综合评价中。这样做则能在根本上确保不同教师、学校、地区所做出的评价结果之间具有可比性。

这种统计方法调整的基本思路是：测评的组织机构通过建立相应的统计模型，用终结性评价结果来校验过程性的评价。参照各学生在统一测评中的成绩来对校内评价进行修正，以达到消除校际之间评分差异的目的。在这个过程中，如果某学校的校内表现低于与其在终结性评价中水平相当学校的表现，该校的评价结果就会被适当调高，相反则会被调低。需要强调的是，尽管调整后学生的评价结果会发生变化，但其在学校中的排位不会变。这种统计分析方法的优点是多方面的：维持了评价结果在学校之间的可比性，以确保评价的公平;促使评价结果在年与年之间的稳定性，提升了测评的信度、效度和精度;搜集数据回馈学校，进一步优化校本评价的开展，提升学校和老师的评价素养。

3.多元录取的新趋势

不同国家的高校在使命、类型、办学层次、人才培养目标上呈现多元化的特点，这对高校的人才选拔产生了深远的影响。不同类别高校的选拔标准也各具特色。在高等教育多样化的美国，至今仍有数百所高校在人才选拔时不强制要求学生提供标准化考试成绩。除此之外，美国的其他高校一般都要求学生在申请时提供多种材料，以表明自己能够胜任大学阶段的学习。一般而言，美国高校的招生委员会会对学生的申请材料进行详细审核。总体来看，影响录取与否的因素较多，重要性也不一样，按重要程度排序的话则分别为：在中学开设的大学预备课程(AP)成绩、高中课程的强度(选课的数量和难度)、SAT或ACT成绩、中学全部课程的成绩(GPA)、入学申请书的写作。其他因素还包括中学年级排名、中学升学指导老师的推荐信、学生展示的兴趣、教师推荐信、面试、课外活动等。可以看出，以上这些因素中很多都是综合评价的结果，涉及对考生全方位的考查。因此，高校在具体的选拔过程中，通常会将上述综合评价的结果进行加总并按照一定的方法折算为学业指数。

学业指数的核心在于将学生学习中的表现进行量化处理，形成可以用以客观比较的数值。在具体操作上，年级排名通常转化为对应的分数，计算方法是：把学生排名乘以2减去1，然后除以当年年级总人数的2倍，这样会得到一个小于1的数值，最后依据这个值在提前制定的表上即可查到对应的分值，这个分值就可以与其他标准化考试的成绩相加，得到总的学业指数值。在选拔过程中，不同高校会对学业指数设置一定的等级要求。如达特茅斯学院和宾夕法尼亚大学把学业指数分为9等，第9等表示最好，分值为230分以上，第1等表示最差，分值在180分以下。

另外，美国其他一些高校也存在类似的情况，艾奥瓦州的部分高校也会采用计算“录取指数”的方法来对申请者进行评价。“录取指数”由标准化考试成绩、GPA、排名以及所修的核心课程等几部分组成。在计算过程中，高中排名和GPA这两个过程性评价的结果分别乘以相应的系数来进行加总，高中排名一般取其百分位再乘以1，GPA通常是乘以20。总体来说，美国大学的招生做到了对学生的综合评价，一方面是标准的多元，包含了学习成绩、兴趣、面试表现、课外活动等多方面的因素。另一方面，即使在同一个成绩维度下，也通过把校本成绩、统一考试成绩、标准化考试成绩进行综合的方式来实现。

韩国的大学十分重视学生的综合表现，具体包括高中学习成绩、是否担任过干部以及参加社团活动、竞赛、科学作品展览等情况。从2002年起，韩国大学入学考试不再计算总分，而是把各科考试成绩按照一定比例转换为9个等级，高校录取时参考其高考成绩分数等级和日常的综合成绩进行综合评定。韩国高校的选拔标准也因此呈现出多样化的特点。高校在拟定录取标准时，至少有4种方案：仅根据高中在校的成绩和综合表现、高中在校成绩加上“大学修学能力考试”成绩、高中在校成绩加上高校考查成绩、前3项均考虑。除此之外，高校还可根据学校与专业的特点确定不同标准的权重。韩国教育与人力资源部规定，各高校均可对综合生活记录簿、大学修学能力考试、大学自备考核、面试、非教学科目资料、微机科目等六类资料进行自由选择和组合来选拔学生。其中，综合生活记录簿是以韩国教育与人力资源部训令为依据而制定的表格，要求尽可能地把应该记录的学习活动全部记录在其中，包括获奖经历、资格证书获得情况、特别活动情况、社会服务活动等。

英国政府一直积极倡导各种证书考试在高校选拔中的作用，但最近一段时间以来，很多高校的录取政策体现出了从主要依据学生证书考试成绩向注重对学生进行综合评定的变化趋势，逐步形成“证书+综合评价”的高校录取选拔制度。具体而言，英国高校在选拔时强调学生的A-levels证书或同等证书的成绩，同时，通过学校的推荐意见、个人陈述、学习过程中的测评结果、单独举行的考试或者联考(一般只有选拔性高校特定专业才需要)、面试等手段对申请人进行综合测评，然后再决定是否录取，是无条件录取还是有条件录取。这一模式为不同测评结果的使用提供了根本性的制度保障。(章建石)