如何让学业测评的结果更有效——基于潜变量的调节模型研究

引用本文

刘徽, 张朋, 潘晶晶. 如何让学业测评的结果更有效——基于潜变量的调节模型研究. 华东师范大学学报(教育科学版), 2018, 36(3): 87-98+169. DOI: 10.16382/j.cnki.1000-5560.2018.03.009.

LIU Hui, ZHANG Peng, PAN Jingjing. How to Make the Results of Academic Evaluation More Valid: Research on Adjustment Model Based on Latent Variable. Journal of East China Normal University (Educational Sciences), 2018, 36(3): 87-98+169. DOI: 10.16382/j.cnki.1000-5560.2018.03.009.

基金项目

国家社科基金教育学重大招标课题"适应新高考要求的普通高中学业水平考试与综合素质评价实施策略研究"（VHA150003）；浙江大学中央高校基本科研业务费专项资金资助课题"教学设计与课堂学习研究"（DCL001）

Contents Abstract Full text Figures/Tables PDF

如何让学业测评的结果更有效——基于潜变量的调节模型研究

刘徽 ¹, 张朋 ², 潘晶晶 ²

¹ 浙江大学教育学院, 杭州 310028;
² 浙江大学数学科学学院, 杭州 310021

基金项目：国家社科基金教育学重大招标课题"适应新高考要求的普通高中学业水平考试与综合素质评价实施策略研究"（VHA150003）；浙江大学中央高校基本科研业务费专项资金资助课题"教学设计与课堂学习研究"（DCL001）

摘要：高考作为选拔性学业测评，其效度大小取决于能否区分学生在问题解决时所表现出的迁移能力的强弱。而学业测评的原始得分并不能很好地反映学生实际的能力水平。能力是一个潜变量。为使学业测评的结果更有效，本研究构建了基于潜变量的调节模型，以能力满分学生作为参照，依据试题的难易程度为学生的原始得分重新加权，由此得到每个学生的能力得分。将基于潜变量的调节模型运用于11所高中联考的数据分析中，此次联考共有9008名高一学生参加，涉及10门学科。研究发现：（1）相较原始得分，调整后的能力得分更趋于正态分布；（2）能力得分相对于原始得分更为稳定；（3）从总体上看，原始得分与能力得分具有高相关性；（4）从个体上看，学生的原始得分和能力得分之间有较大的差异。

关键词：学业测评高考改革效度迁移能力潜变量

How to Make the Results of Academic Evaluation More Valid: Research on Adjustment Model Based on Latent Variable

LIU Hui ¹, ZHANG Peng ², PAN Jingjing ²

¹ College of Education, Zhejiang University, Hangzhou, 310028, China;
² School of Mathematical Sciences, Zhejiang University, Hangzhou, 310021, China

Abstract: The validity of Gaokao(Chinese college entrance examination), a selective test of academic evaluation, depends on its identification of the variability of students' transferable ability in problem-solving. However, the raw score in academic evaluation does not reflect the actual level of students' ability, which is a latent variable. In order to make the results of academic evaluation more valid, this study constructs a moderated model based on latent variable by treating a student with full score in ability as a reference. Raw score of a particular question is re-weighed according to the difficulty of the question. The moderated model based on the latent variable was applied to the data analysis of an 11-school-league examination, with a total of 9, 008 high school students participating in 10 subjects tests. The results show that:a) the adjusted score is more normal than the raw score; b) the ability score is more stable than the raw score; c) the total score has a high correlation with the ability score; d) individually, there is a big difference between the raw score and the ability score.

Key words: academic assessment reform of Gaokao validity transfer ability latent variable

一、问题提出

改革往往因为其艰巨性，让人们习惯于从小处入手，满足于局部的零打碎敲。然而人们会发现，这些零散的、细小的变革很快就会被湮没和遗忘，因此整体性的范式变革是必须的。“范式变革对我们来说是不熟悉的，具有更大的挑战性。每一种范式都有其标志性的特征，并服务于它存在的世界。”(赖格卢特，詹卡诺普, 2015, 第15页)工业时代向信息时代的转型必然要求教育发生一场范式层面上的革新。哈佛大学的埃尔莫尔(Richard F. Elmore)教授曾把教育改革比作一块又大又厚的橡皮，橡皮可以随着我们的拉扯不断变形，但是如果没有突破一个临界点就松手，它就会在那一瞬间恢复原样，就像什么都没发生过(富兰, 2009, 序)。教育改革的这个临界点是什么，不同的人有不同的解释。但是几十年的改革经验告诉我们，“高考是教育的指挥棒”，它是牵一发而动全身的关键所在。不得不承认的是：当下中国教育的现实是“考什么教什么”，而不是“教什么考什么”。因此可以说高考改革是教育范式革新的一个临界点，这也许与中国重视考试的文化传统有关。清末之所以会废科举，其中一个重要促成因素是若不废科举，学堂根本无法真正兴起。戊戌以后，清廷促办学堂，然而无论是官府还是民间均不积极配合或响应，“各省各府各州县奉旨广设学堂二年于兹矣，其已设者十仅一、二，询其迟迟之故，则曰无款无田”(关晓虹, 2013, 112页)。究其原因，不得不说和科举这个“指挥棒”有莫大的关系。“士之伏案埋头，笃志励学者，仍日以应试为务，不乐于从事学堂。”(关晓虹, 2013, 第112-113)“金陵于近年来，官私立学堂不为少矣。……顾当科场时，师生相率而下场，官立学堂一律停课。学堂与科举势不两立盖如此。”(关晓虹, 2013, 第113页)

当前，国家也把高考改革放在一个十分重要的位置上。2014年9月，国务院颁布的《国务院关于深化考试招生制度改革的实施意见》(以下简称《实施意见》)提出，在上海和浙江启动新高考改革的试点工作。在总结试点经验的基础上，还将于2018年扩大试点范围，增加北京、天津、山东和海南四个省份。新一轮高考改革被业界评论为“1977年我国恢复高考以来最为全面系统的一次考试招生制度改革，具有里程碑的意义”(董秀华，王薇，王洁，2017)。

《实施意见》中提到高考改革的方向是“体现科学高效，提高选拔水平”。也就是说，要提高选拔人才的效度。众所周知，效度指的是测量工具或手段能够准确测出所需测量品质的程度。学业测评的效度则是指能够有效地反映学生的能力和水平的程度。高考是一种特殊的学业测评，那么什么是高考的效度？高考与会考(或称普通高中学业水平考试，简称“学考”)不同，会考是达标性学业测评，要求反映学生已经具备的基本知识和能力，而高考作为选拔性学业测评，要求有更高的区分度。区分度指的是测评能够在多大程度上区分所要测评对象的品质，甚至可以这样说，对于高考来说效度的高低在很大程度上取决于区分度的高低。但这里还有一个关键问题是“我们要测评的品质是什么”。作为基础教育和高等教育的联结点，高考的重点并不在于对学生过去三年高中学习结果的检测，而是指向对学生未来发展能力的预测。“归根到底，招生不是对学生过去成绩的奖励，而是对未来社会的投资。招生的终极目标，不是挑选高中成绩的拔尖者，而是选拔未来能够改变世界的优秀人才。与其说大学招生人员像是游泳比赛的裁判——根据计时器的数字就可以做出评判，不如说他们更像是跳水比赛的裁判——根据选手的动作难度和表现进行综合评分。”(秦春华，2017)

因此，高考在很大程度上是考查学生未来解决问题的潜在能力，这就涉及对“问题解决”的理解。这里的问题指的不是question，而是problem，它起源于希腊语problema，意思是障碍或阻力。“问题常常呈现出困局，并且也常常是难题。”(乔纳森, 2015, 第2页)问题的解决往往没有现成的结论或方案，需要调动相关的专家思维方式，灵活运用所学的知识，这不仅是未来学生进入高校需要的能力，也是他们走上社会真正需要的能力。然而，当前高考在考查这方面的能力上相对还是薄弱的。“在测量人的知识水平、智力水平，以及注意力、思维的稳定性、深刻性和意志力方面，高考的有效性已经得到了证明，但其在测量思维的发散性、批判性和综合性方面的能力还比较低，也几乎无法有效测量学生是否以及在多大程度上将知识转化为能力、将知识转化为方法、将知识转化为品格。正因为如此，才会存在普遍的‘高分低能’现象。”(袁振国，2017)

此次高考改革关注对学生问题解决能力的测评。《实施意见》中明确提到“着重考查学生独立思考和运用所学知识分析问题、解决问题的能力”。上海和浙江发布的高考综合改革实施方案，即《上海市深化高等学校考试综合改革实施方案》和《浙江省深化高校考试招生制度综合改革试点方案》中也都提及要适应经济社会转型的需要，考查考生运用所学知识独立思考与分析问题、解决问题的能力，选拔拔尖创新人才。2017年9月24日，中共中央办公厅、国务院办公厅印发《关于深化教育体制机制改革的意见》，强调学生关键能力的培养，包括认知能力、合作能力、创新能力和职业能力。这四种关键能力归根结底指向的也是创造性地解决实际问题的能力。在2018年1月23日召开的全国教育工作会议上，陈宝生部长再次强调“新高考”要考查学生运用所学知识分析问题、解决问题的能力。可见，问题解决能力是今后一段时间内培养人的方向，也是在各类评价(包括高考)中要考查的重要方面，未来高考将继续沿着这一方向改革。

事实上，强调培养问题解决的能力是世界教育改革的趋势，这是时代转换对教育提出的要求。强调“记住专家得出的结论”与强调“学习专家解决问题的方式”是工业时代和信息时代教育的最大区别。工业时代的教育更多地强调“专家结论”，学校教育的目的就是传授大量的专家结论，由学科专家收集、浓缩和整理编成教材，然后教师分学科分体系地忠实教授给学生，最后的评价也是看学生掌握了多少专家结论，这种教育模式被称为“教授主义(instructionism)”(Papert, 1993, pp.138-139)。然而专家结论的可迁移性很小，它对学生未来解决真实的问题到底能起到多大的作用，并没有可靠的证据能加以证明。这是因为工业时代的大部分工作对创新性地解决问题并没有非常高的要求，学生未来完全可以通过在岗位上的学习迅速胜任工作。从这个角度来看，工业时代的教育是一种“粗糙”的教育，而信息时代则要求一种更“精准”的教育，因为面对人工智能的挑战，仅有专家的结论而没有专家思维能力的人未来很有可能会失业(刘徽，2018)。联合国教科文组织在《反思教育：向“全球共同利益”的理念转变》这一报告中写道：“由于科学技术发展的步伐不断加快，预测新的专业和相关技能需求变得越来越困难。这意味着我们要确保个人具有更强的适应能力，能够最有效地掌握和应用职业适应能力。”(联合国教科文组织, 2017, 第60页)当前世界各国都在研究核心素养，核心素养的核心是“灵活解决真实情境中的问题”。而理论界热议的深度学习，其目标是“使学生获得成为一个具有创造力的、与人关联的、参与合作的终生问题解决者的能力和倾向”(富兰, 2016, 第10页)。可见，无论是政府还是专家都意识到信息时代的教育必须着眼于“问题解决能力”的培养。

在学校教育中，培养问题解决的专家思维就是要养成一种“迁移”的能力。迁移是指“把在一个情境中学到的东西迁移到新情境的能力”(布兰思福特, 2013, 第45页)。学校教育的时间是有限的，加之知识的更新日新月异，学生如果仅学到了课本上的知识，那么这些知识可能对他们的未来影响甚微。因此，学生只有学会迁移，才能使所学知识具有生长力。“教育工作者希望学生能把学习从一门课中的一个问题迁移到另一个问题，从一学年迁移到另一个学年，在学校与家庭之间以及从学校迁移到现场。迁移假设使人们相信，拓宽人的教育面要比简单‘训练’他们从事特定任务要好得多。”(布兰思福特, 2013, 第45页)

可以说，教学生学会迁移是学校教育教学的主要目标，因此，学业测评特别是选拔性学业测评(如高考)的测试重点应该是学生的迁移能力。“学校教育的最终目标是要帮助学生把从学校所学到的知识迁移到家庭、社区和工作场所等日常场景，……迁移测量对评估学习经验的质量至关重要。”(布兰思福特, 2013, 第45-65页)威金斯和麦克泰也认为迁移能反映学生对知识的深度理解，让学生具备运用知识的能力，“迁移，即对理解的反映，是指能熟练地解决核心任务中的真实挑战的能力” (威金斯, 麦克泰, 2017, 第87页)。杨向东(2017)在架构“基于核心素养的评价框架”时也以迁移水平为标准。威金斯和麦克泰还根据“是否提供线索”和“是否有现成的解决方案”两个标准划分了四种迁移水平。水平一，远迁移，需要自己寻求线索，形成解决方案；水平二，近迁移，有一定的线索，但需要自己形成解决方案；水平三，小迁移，有一定线索，需要自己找到已有的解决方案；水平四，零迁移，有现成的解决方案，只需要做简单的替换就可以(威金斯，麦克泰, 2017, 第45页)。因此，迁移水平的高低不是取决于任务本身的难易程度，而是要看学生独立完成的程度，学校教育的最终目的是帮助学生未来在没有教师指导的情况下独立完成任务。学业测评的效度主要看试题能否准确反映学生的迁移能力，因此，威金斯和麦克泰让教师问自己两个问题——问题一：“当学生还未真正掌握或理解问题涉及的内容时，是否有可能在学业测评中仍然表现良好”；问题二：“当学生已经掌握了问题涉及的内容时，是否有可能在具体的学业测评中却表现不好”(威金斯，麦克泰, 2017, 第210页)。问题一指学生并不理解但却可以答对题，原因在于学业测评考的是“识记”而非“理解”，明明是一道难题，但是因为学生已经反复练习过，将出题者设想的“远迁移”变成了“零迁移”；问题二也很有可能出现，即学生理解了内容，却因为别的原因在评价中表现并不好，比如审题错误或计算错误等。

而当前中国教育存在一个很大的问题，就是为了“应试”，套模板、刷试题、背样文“流行”于学校和校外培训机构中。这实质上都是在提供现成的解决方案，让学生做简单的替换，努力帮助学生达到“零迁移”。如前所述，高考的效度主要是看区分度，而这个区分度指的就是对学生迁移能力的区分度。因此，学业测评试题内容的改革成为一个热点，将来高考出题的趋势是指向问题解决的方向，会重点考查学生的迁移能力。但这项改革任务艰巨，对出题者的要求甚高，需要有一个循序渐进的过程。除了改进试题本身外，还有另外一个被忽视的问题，那就是学业测评结果的数据本身也包含了很多信息。

我国对学业测评结果数据的研究相对来说是不足的，对学业测评结果进行分析和调整的改革一般体现在赋分上。纵观40年的高考改革，赋分这方面的改革是最薄弱的。总体来看，当前的高考仍是以原始分赋分，将各个科目的原始分数相加得到总分，再对高考总分进行排序，由高到低依次择优录取。这从国际上看也是罕见的，目前各国的学业测评基本上都对分数进行了处理。其实，20世纪八九十年代我国也曾有过一场规模比较大的赋分实验，即“标准分”运动。1989年6月27日，在广东等省进行标准分实验的基础上，国家教育委员会颁布了《普通高等学校招生全国统一考试标准化实验规划》，先后有海南、河南、陕西、广西、山东、福建等地区加入，这次实验主要涉及3项标准化改革任务，即命题标准化、考试实施标准化、分数解释标准化。分数解释标准化就是指对原始分数进行统计处理，将其转换为标准分Z，高考成绩＝500+100Z。标准化改革任务的前两项(命题标准化、考试实施标准化)进展顺利，并且在这些年一直不断取得累积性的进步，然而第三项(分数解释标准化)却经历了“多年试验后似乎退到了原点”的命运，自2001年开始，河南、山东、陕西、福建、广西、广东相继退出，目前只有海南还在坚持用标准分(章建石，2016)。

新一轮高考改革也对赋分进行了探索，这是当前改革饱受争议的部分。《实施意见》明确提出：“改进评分方式，加强评卷管理，完善成绩报告。”在浙江和上海的方案里都对选考科目作了等级赋分，但在实际操作中遇到了许多问题，主要集中在以下几点：

1.等级赋分降低了选考科目的价值。此次高考改革强调增加选择性，其中选考科目集中体现了选择性，并与未来进入高校所学的专业高度相关，因此，理应提高选考科目对于录取的价值。然而，在浙江省的方案中，选考成绩共分为21级，以正态分布为参照，将得分比例设置为1%、2%、3%、4%、5%、6%、7%、8%、7%、7%、7%、7%、7%、7%、6%、5%、4%、3%、2%、1%、1%，其中第1级为100分，第21级作为起点赋分计40分，相邻两级之间的分差均为3分。而上海市的方案中则分为11级，分别占5%、10%、10%、10%、10%、10%、10%、10%、10%、10%、5%，其中，A+为满分70分，E计40分，相邻两级之间的分差均为3分。也就是说，在浙江方案中，选考科目最好的学生和最差的学生只差60分，而在上海方案中，仅仅差30分。在语文、数学、外语仍保持150分原始分的情况下，造成的结果是这3门科目成为决定学生总成绩的关键，再加上文理不分科后降低了数学的难度，突出了语文和外语两门学科成绩的重要性，所以有研究者担忧“新高考改革可能会带来‘理科萎缩’现象”(潘昆峰，刘佳辰，何章立，2017)。

2.等级赋分的前提难以保证。等级赋分的前提是人群等质，只有这样，体现相对位次的分数才是有意义的，才具有等质性和可比性；否则就和原始得分一样，存在着意义上的不同，就像“1美元+1英磅+1元人民币”一样不可累加。但事实上的确存在着参加考试人群不同质的现象，主要有以下两方面原因：(1)所选科目不同。大多数高校对选考科目并没有特定要求。在2017年上海市37所本科高校招生的1096个专业中，没有对选考科目提出任何要求的专业占60%。2017年浙江省招生高校的所有专业中，提出选考科目要求的也仅占46%，其中要求为1门的占5%，2门的占8%，3门的占33%(董秀华，王薇，王洁，2017)。假设一个专业没有指定全部的选考科目，一个学生选择“物理+化学+生物”，另一个学生选择“技术+化学+生物”，那么很有可能选择技术学科的学生会占优势，因为选择物理的学生面对的竞争更为激烈。因此，选考科目不同，就很难进行比较。正因为如此，一些学生避考竞争激烈的科目。物理选考人数过低已经引起了关注。浙江省也适时对原高考方案进行了调整，2017年11月出台了《浙江省人民政府关于进一步深化高考综合改革试点的若干意见》，其中提到：“当选考某科目某次考试赋分人数少于保障数量时, 以保障数量为基数进行等级赋分。保障数量按国家相关学科人才培养需求确定。针对当前学生选考科目实际，率先建立物理选考科目保障机制。”(2)一科多考。浙江省的高考改革方案中规定外语和选考科目每科可报考2次，选用其中一次作为最终成绩。一科多考虽然科目相同，但前后两次考试的区分度会影响等级赋分，更重要的问题是它不能保证参加考试的学生人数和水准相同。假设同一考生参加同一科目的两次考试，他(或她)发挥的实力相同，但完全有可能因为同批次考生的基数以及整体水准有别而被赋予不同的分数(崔海丽，2017)。

3.等级赋分比例难以保证。浙江和上海都规定了每个等级的百分比，但在实际操作中却碰到了“归整困难”，很少有一个分数正好处在某个累计的百分比位置上。文东茅等根据新高考政策，以浙江省“九校联考”数据为样本进行了模拟分析。按浙江省的等级赋分，地理100分的人数比例应是4.67%，而划到95分的累计百分比可能是3.4%，划到94分的累计百分比是5.8%，即使按就近原则取5.8%，和原定的4.67%也有差距(文东茅，2015)。

4.等级赋分会影响选考科目的区分度。从“九校联考”的模拟数据来看，等级赋分对不同科目的区分度有不同的影响。比如，物理学科的每个等级之间的原始分差异大约是5-7分，这就意味着考90分和97分的学生最后的等级赋分均为100分，这样实际上是降低了区分度，考97分学生的7分优势就不存在了，而化学学科的每个等级之间的原始分差异大约是2-3分，那么等级赋分会扩大差距。“在原始分的区分度(标准差)较大的情况下，等级赋分有可能缩小原始分的差距(如物理)，在原始分的区分度较小的情况下，等级赋分则会扩大原始分的差距(如化学)。如何控制选考和学考科目的区分度，将会是考试机构必须面临的挑战。”(文东茅，2015)

综上所述，作为一种选拔性的学业测评，高考需要能有效地区分出学生解决问题时迁移能力的高低。在当前的“应试”文化下，除了对试题本身进行改进外，还可以对学业测评结果进行分析。如前所述，原始得分并不能完全反映每一个学生的迁移能力。迁移能力实际上是隐藏在原始得分中的一个潜变量，即指不能被直接精确观测或虽能被观测但尚需通过其他方法加以综合的指标(Skrondal，Rabe-Hesketh, 2004, p.13)，人们需要使用一定的手段才能将之发掘出来。不论是标准化赋分还是等级赋分，尽管在实际操作中的确存在着一些问题，但这些对原始得分进行调整的尝试，会让学业测评结果朝向更科学更公平的方向前进，也是对教育改革的有益引导。如何让学业测评结果更有效是值得认真探讨的问题。无论是标准分还是等级赋分，本质上都只是一种对原始得分的排序，还没有深入到试题的层面对考生能力进行考查。而事实上，只有结合每一道试题来分析学业测评的结果，才能有效公正地挖掘出学生的潜在能力。比如，一份考卷中的题目难易程度不同，同样考80分，学生A做对的都是相对容易的题目，学生B做对的是更多相对较难的题目，显然学生B的能力要比学生A更强，但分值上并不能体现这一点。一份考卷中的题目类型相异，一般来说，主观题(如论述题)的分值较高，客观题(如选择题)的分值较低。而在出试卷时，出题者会考虑每一个题型中都要有难题和易题，学生C做对了一道3分的选择题难题，但因为审错了题(这类失误学生常有，比如把简单的题目想复杂了等)，答错了一道10分的论述题易题，而学生D则正相反，结果是，学生C得到3分，学生D却得到了10分。显然，分值并不能反映他们的能力。学生E其他难题都做对了，但有一道难题却因为各种原因失手了，而学生F侥幸猜对了几道选择题。因为没有考虑到各试题之间的关联性，我们就不能排除这些偶然因素。因此，如果不深入试题对学业测评结果进行细致地分析和调整，就无法反映学生真实的迁移能力。

事实上，当前国际上一些大型测试都开始使用以基于潜变量的调节模型为基础的统计手段对原始得分进行调整，比如国际学生评估项目(Programme for International Student Assessment，PISA)、国际数学与科学趋势研究(Trends in International Mathematics and Science Study，TIMSS)、国际阅读素养进展研究项目(Progress in International Reading Literacy Study，PIRLS)、美国国家教育进展评估(National Assessment of Educational Progress，NAEP)。PISA除了使用项目反应理论外，还配合使用了潜在回归模型(latent regression model)，对试题信度、效度和区分度进行精准评估，在这个基础上判定每一个学生的潜在能力(OECD，2017)。项目反应理论是目前国际上进行大型学业测评时最为常用的。项目反应理论假设学生答对题目的概率是学生潜在能力和题目难度的logistic函数，它由参数a和b控制。项目反应理论可以发现原始得分背后的学生能力值，并且将所有学生的能力值调整成为服从均值为0、标准差为1的标准正态分布的数值(Baker, 2001, p.1-10)。然而，项目反应理论在分析能力这个潜变量时也存在一系列问题。首先，通过项目反应理论计算出学生的能力分数，在进行标准化正态分布转换后得到能力Z分数，再通过公式T=a+bZ转化为以a为均值b为标准差的正态分布，得到每一个学生的能力值分数，即T。这里的参数a和b，或者由学科专家依据经验主观确定，或者由数据估计得到。因此学生能力值T更多地具备相对意义，可以进行排名，但绝对分值意义不大。其次，项目反应理论一般假设试题之间相互独立而没有考虑它们之间的相关性，这会导致其能力估计值有偏差。最后，项目反应理论是针对标准化试题提出的方法，标准化试题一般都是客观题，且每道题的分值相同，因此它不容易处理包括不同类型、不同分值题目结构的复杂的试卷。本研究希望通过对学业测评的数据进行更为深入细致的分析，构建一个调节模型，从而更科学地反映能力这个潜变量，以使学业测评的结果更加有效。

二、研究方法 (一) 研究对象

研究选取了浙江省11所重点高中(包括浙江省淳安中学、浙江省富阳中学、浙江省缙云中学、浙江省兰溪市第一中学、浙江省临安中学、浙江省浦江中学、浙江省桐庐中学、浙江省萧山中学、严州中学、浙江省永嘉中学、杭州市余杭高级中学)在2016年11月的联考成绩作为样本。此次联考共有2016年9月入学的9008名高一学生参加，涉及语文、数学、英语、物理、化学、生物、历史、地理、政治、技术这10门学科(见表 1)，我们运用基于潜变量的调节模型进行分析。

表 1 样本基本信息

(二) 研究思路

本研究的总体思路是：以一个满分学生(存在或虚拟)作为参照，依据试题的难易程度以及相互关系给学生的原始得分重新加权，由此得到每个学生的能力得分。如前所述，选拔性考试的效度主要看区分度，而区分度和难度密切相关。因为选拔性考试更关注中上段学生的区分度，所以一般来说，难题更具有区分度。这里提到的难度是从学生作答的情况来看的，答对的人越少，题就越难，答对的人越多，题就越易，从易到难反映出学生的迁移能力从小到大，答对难题往往说明学生能够独立思考解决方案(当然前提是出卷者不能出偏题，偏题和难题不同)。因此，给每道题加权的原则是难题赋予高权重，易题赋予低权重。

如图 1所示，假设学生的潜在能力呈现标准正态分布，当试题较难时，潜在能力大于1的学生才能够回答, 得分均为1分；反之，潜在能力小于1的学生得分为0。灰色部分表示能够正确回答问题的学生的潜在能力。这些学生的能力从1到正无穷分布, 虽然无从观测具体数值, 但是可以估算出这些学生潜在能力的均值, 也就是能力大于1的条件数学期望，位于X轴上的右边那条短线所在位置。而没有正确回答此问题的学生潜在能力介于负无穷到1之间，以学生能力落在这个区间的条件均值替代。同理，如图 2所示，当试题较易时，能够正确回答的学生能力介于-1到正无穷之间，以灰色表示，同样用正态分布的条件数学期望来估计无法观测的学生潜在能力, 位于X轴上的左边那条短线位置。比较两张图中的X轴短线区间可以发现, 当题目较难时，能够答对的学生的平均潜在能力远远大于相对应的正确回答较易题目的平均学生潜在能力。

图 1 学生能力分布图(难题)

图 2 学生能力分布图(易题)

(三) 研究步骤

'具体步骤如下：

第一步：得出潜变量变换形式

主要通过试题的不同难度对原始得分重新加权，得出潜变量变换形式。因为客观题和主观题的处理方式略有不同，故分开论述。

(1) 客观题

客观题(如选择题、判断题)的答案是一个二分类变量X(答对为1，答错为0)，每道题答对的概率由学生答题的样本频率来估计，即

$ \begin{array}{l} P\left({X = 1} \right) = {p_1} = \frac{{{\rm{该题目答对学生数}}}}{{{\rm{该题目总学生数}}}}\\ P\left({X = 0} \right) = {p_0} = 1 - {p_1} \end{array} $

答对的概率p₁越大表明题目越简单，假设产生变量X的机制是由一个连续的潜在能力变量Z控制的，即X=1当且仅当Z>q=Φ^(-1) (p₀)，其中Z为标准正态随机变量，Φ是标准正态分布的分布函数，q是标准正态分布在p₀上的分位数。由此，我们计算X=0(Z < q)以及X=1(Z≥q)条件下的标准正态分布的数学期望，得到潜变量变换形式：

$ U = \left\{ \begin{array}{l} {e_0}, {\rm{}}\;\;{\rm{if}}\;\;Z < q\\ {e_1}, {\rm{}}\;\;\;{\rm{if}}\;\;Z \ge q \end{array} \right. $

其中，

$ \begin{array}{l} {e_0} = E\left\{ {Z|Z < q} \right\} = \frac{{{\rm{exp}}\left({ - \frac{{{q^2}}}{2}} \right)}}{{\sqrt {2\pi } {p_0}}}\\ {e_1} = E\left\{ {Z|Z \ge q} \right\} = \frac{{{\rm{exp}}\left({ - \frac{{{q^2}}}{2}} \right)}}{{\sqrt {2\pi } {p_1}}} \end{array} $

答对的概率p₁和条件数学期望e₁成反比，e₁和e₀也成反比。可以看出，当题目难度越大时，p₁就越小，此时e₁越大，e₀也越大(接近于0，注意e₀是负数)，也就是说，难题赋予的权重大。而当题目难度越小时，p₁就越大，此时e₁越小，e₀也越小(远离0)，也就是说，易题赋予的权重小。

(2) 主观题

主观题(如论述题)可以看成是多分类次序变量，如得分有K级，记X满足

$ P\left({X = k} \right) = {p_k}\;\;1 \le k \le K, {\rm{ }}\sum\limits_{(k = 1)}^K {{p_k}} = 1 $

假设X是由潜在变量Z产生的，即

$ X = k{\rm{}}\;\;{\rm{if}}\;\;{q_{(k - 1)}} \le Z < q\_k, \;\;1 \le k \le K $

其中Z为标准正态随机变量，${q_k} = {\mathit{\Phi} ^{(- 1)}}(\sum\limits_{(l = 1)}^k {{p_l}}), {\rm{ }}1 \le k \le K - 1, {\rm{ }}{q_0} = - \infty, {q_K} = + \infty . $

潜变量表示形式为：

$ U = \left\{ \begin{array}{l} {e_1} = E\left({Z|Z < {q_1}} \right), \;\;\;{\rm{if}}\;\;Z < {q_1}\\ {e_2} = E\left({Z|{q_1} \le Z < {q_2}} \right), \;\;{\rm{if}}\;\;{q_1} \le Z < {q_2}\\ {e_k} = E(Z|{q_{(k - 1)}} \le Z < {q_k}{\rm{ }}), \;\;{\rm{if}}\;\;\;{q_{(k - 1)}} \le Z < {q_k}\\ {e_K} = E\left({Z|{q_{(K - 1)}} \le Z} \right), \;\;{\rm{if}}\;\;{q_{(K - 1)}} \le {\rm{ }}Z \end{array} \right. $

其中，

$ {e_k} = \frac{{{\rm{exp}}\left({ - \frac{{q_{k - 1}^2}}{2}} \right) - {\rm{exp}}\left({ - \frac{{q_k^2}}{2}} \right)}}{{\sqrt {2\pi } {\rm{ }}{p_k}}}k = 1, 2, \ldots, K{\rm{ }} $

类似于客观题，主观题得分的每一等级依照答题对错人数的比例被赋予不同的权重，从低到高依次对应从大到小的能力得分。一般而言，题目难度小时，低等级得分的学生人数比例较小而高等级得分的学生人数比例较大；题目难度大时，低等级得分的比例较大而高等级得分比例较小。相对来说，低等级得分和高等级得分对应的能力在题目容易时比在题目难时都更小。因此，一个学生在难的主观题上得到高分比在易题上得到同样分数会得到更多的能力赋分。

第二步：换算潜变量得分U

根据每个学生每道题的得分换算出他(或她)在此题上的潜变量得分U。在换算潜变量得分U时有一个调整，U有正负值。无论难易，答对得正值，答错则得负值。如图 1所示，答对难题正值更大(相对易题反映的能力离平均值0更远)，负值也更大(相对易题反映的能力离平均值更近)。如图 2所示，答对易题，其正值相对更小，负值相对也更小。值得注意的是，答错易题会得到一个很小的负值，会大大拉低总分，然而答错易题和答错难题的原因不同，很可能是与能力无关的因素造成的，考虑到这个问题，在换算时作了调整，即U只取正值，答错时不再用负值做惩罚，只是加0。对客观题来说，做错得0分，做对得分，易题做对得分少，难题做对得分多；对主观题来说，将完全不会做的赋值为0，其他不变。

第三步：锚定参照学生计算得分

创建一个虚拟的学生作为参照系，该学生的所有题目都回答正确，因此，他(或她)的潜变量得分U是最高的。将客观题和主观题作同分值处理，再乘以U就得到了加权的学生能力分值，然后将这个能力分值变换到100分。以该虚拟学生为参照，作同比例变换至(0, 100)之间，得到所有学生的最终能力得分。换言之，所有学生的能力得分实际上就由与参照学生的相似程度来决定，和参照学生相似程度越高的学生能力得分越高, 和参照学生相似程度越低的学生其能力得分越低。

三、研究结论 (一) 相较原始得分，调整后的能力得分更趋于正态分布

图 3为语文、数学、英语学科成绩的原始得分直方图和能力得分的对比直方图，图 4是所有学科总成绩的原始得分直方图和能力得分的对比直方图。不难发现，原始得分的分布是左偏的，其平均值小于中位数。而基于潜变量的调节模型调整后的能力得分的分布则更接近正态分布，调整了间距。

图 3 语文、数学、英语的原始得分直方图和能力得分直方图

图 4 总成绩的原始得分直方图和能力得分直方图

(二) 能力得分相对于原始得分更为稳定

以11所学校中X中学的一个班学生的成绩为例，选取语文、数学、英语、物理4门学科，将此次学业测评的结果与前一次学业测评的结果进行纵向比较。从表 2可以发现，4门学科的能力得分相关系数都比原始得分相关系数要高，其中语文和物理尤为明显。语文前后两次学业测评的原始得分相关系数仅为0.181，这也说明语文学科相对来说原始得分的不稳定性很高，而能力得分相关系数可以达到0.335，物理也从原始得分相关系数的0.262调整至0.409。这证明了能力得分相对原始得分更具有稳定性，也在一定程度上说明基于潜变量的调节模型挖掘出了能力这一潜变量。

表 2 与前一次学业测评的相关系数

(三) 从总体上看，原始得分与能力得分具有高相关性

研究发现，调整后的能力得分与原始得分具有高相关性，基本都在0.7以上。其中，生物、政治、数学、化学这4门学科的相关系数非常高，分别为0.950、0.933、0.912、0.900；物理、历史、技术、地理次之，分别为0.896、0.893、0.885、0.820；而语文、英语相对较低，分别为0.780和0.714(见表 3)。

表 3 各科原始得分与能力得分的相关性

(四) 从个体上看，学生的原始得分和能力得分有较大的差异

尽管从总体上看，每门学科的原始得分与能力得分具有高相关性，但是反映到学生个体水平上却有较大差异。以X学校一个班的学生数学学业测评结果为例，图 5是原始得分排名和能力得分排名的散点图，说明两者还是基本一致的。但如图 6所示，具体到每一个体上，原始得分与能力得分的名次差距是各不相同的。以0为基线，恰好在基线上的学生说明原始得分与能力得分的名次没有差异，基线以下得负分的说明能力得分名次比原始得分名次低，最大差距的名次是15名，也就是说，调整成能力得分后名次下降了15位。基线以上反之，最大的差距是10名，也就是说调整成能力得分后名次上升了10位。

图 5 原始能力和能力得分排名散点

图 6 原始得分排名和能力得分排名差距散点图

四、讨论 (一) 科学地对待测评结果，增强学业测评的有效性，以反映学生的能力水平

当前，许多学者都在呼吁评价的改革，如辛涛等认为推动核心素养指导的考试评价，需要调整评价理念、确定评价依据、丰富评价内容、注重测评新技术(辛涛，姜宇，2017)。的确，我们需要从多个方面来改革评价，但在当前甚至未来很长一段时间内，高利害的考试依然存在，要保证其效度，就不仅要从出题上把关，还要分析学业测评的结果。

如前所述，高考作为一种选拔性的学业测评，其效度在很大程度上取决于区分度。而原始得分往往呈现左偏的形态，这是因为出题者会控制难度。以100分为例，一般会把平均分落在60-75分这个区间内，要让大部分学生达到及格分数60分，出题者会出一些难度较小的“送分题”，哪怕明知道这些试题的区分度不高。在左偏情况下，高分段的分数区间被压缩，学生成绩之间的方差降低，能力强和能力中等的学生之间的界限就模糊了，实际上不利于优秀人才的选拔。而基于潜变量的调节模型调整了分数间距，使之呈现正态分布的形态，从左偏到正态，实际上拉大了高分段的间距。当然，几乎所有体现相对排序的赋分方式最后得出的成绩分布基本上是偏正态的，包括标准化赋分和等级赋分方式。基于潜变量的调节模型与两者相比有以下优势：第一，它并不只是通过对数据简单的线性转换达到正态分布，即就单次单门考试而言，标准化赋分和等级赋分是不改变考生位次的，只是对间距进行调整，而基于潜变量的调节模型通过挖掘测评结果对学生的能力水平进行排序，位次就是有变化的；第二，基于潜变量的调节模型得出的能力得分是连续性分值，因此不存在“归整困难”这类问题，从而可以避免等级赋分的比例难以保证的尴尬；第三，基于潜变量的调节模型的基本逻辑就是考虑试题的难度和区分度，因此，也不存在等级赋分因为不同学科不同场次测试人群的不同而引起试卷本身的区分度改变的问题。

而基于潜变量的调节模型与项目反应理论相比，则表现出以下优势：第一，基于潜变量的调节模型擅长处理被赋予不同分值的各种题型，适合当前采用非标准化试题的中国学业测评。基于潜变量的调节模型从考虑试题本身难度出发，而突出试题本身的难度，刨除因为不同类型的试题分值不同造成的影响，能更公平地体现学生的能力。第二，由于考虑到了试题与试题之间的相关性，基于潜变量的调节模型可以对分值进行调整。如学生E虽然在一道难题上出现失误，但因为其他难题都做对了，基于潜变量的调节模型会自动调整，降低这一偶然失误对其能力得分的影响，让考试能更稳定地反映学生的能力水平。

(二) 体现学业测评的公正公平性，鼓励学生发展专长

首先，基于潜变量的调节模型可以协调不同学科的学业测评结果。智能与智能之间存在着几种常见关系，即瓶颈效应、补偿效应和催化效应，其中瓶颈效应是指某些智能之间是相互冲突、相互抑制的(加德纳, 2008, 第26页)。当前高考改革强调选择性，但仍保留语文、数学、外语为必考科目，这里言语智能(与语文和外语相关)和数理逻辑智能(与数学相关)往往就具有瓶颈效应。举例来说，一个语文成绩很好的学生，很有可能数学成绩很差，那么仅数学一门学科的成绩就可以将其总成绩拉低。历史上这样的案例数不胜数，比如1917年康白情考了国文和英文第一，数学0分，1929年钱钟书同样也是国文和英文考了第一，数学15分，所幸当时录取机制十分灵活，结果两人分别被北大和清华破格录取。信息时代越来越需要有专长的人才，因此，未来高考要进一步推进选择性改革，比如可以根据不同专业的需求对不同学科(包括语文、数学、外语在内)进行选考或加权，或在自主招生时有相应适合偏科学生的政策。而基于潜变量的调节模型也可以在一定范围内缓解偏科的情况，因为将原始得分的左偏分布调整为能力得分的正态分布，在扩大高分段间距的同时，也缩短了低分段的间距，这样就可以在一定程度上缓解由某一门学科成绩决定总成绩的不公平现象。

其次，基于潜变量的调节模型可以协调同一学科内多次不同的学业测评结果。如前所述，一科多考的制度有助于改变一考定终身的现象，但是的确可能因为不同批次的考生基数和整体水准不同，而使得反映相对性的等级赋分遭人质疑。项目反应理论可以通过锚题来打通两次选考，但锚题库一般只适合于标准化测试，当前虽然也有研究者呼吁要建设题库，但短时间很难建成，而且题库也不一定适合所有学科。而基于潜变量的调节模型因其以能力满分的学生而非以平均分为参照，计算出的能力得分就不是相对分值，而是具有绝对分值的性质，从而使两次选考结果更具有可比性。能力得分的这种绝对分值性质不仅适用于一科多考，也增强了不同学科间的可比性，弥补了等级赋分作为相对分数的缺陷。

(三) 引导教学改革方向，避免过度刷题，真正为迁移而教

评价会引导教学改革的方向。当前存在着辅导班参考书遍地、师生热衷于刷题的怪象，许多师生认为刷题是最直接的应考方式。的确，任何学习都需要练习，迁移能力的提高也需通过不断变换问题情境来达到抽象水平。刷题尽管也是一种练习方式，但它往往并不指向能力的提高，而仅是为了可以快速识别试题，在脑中找到曾经做过的试题模式，作一些简单的替换，也就是“零迁移”。因此，许多教师在课堂上并不愿意花功夫让学生真正理解知识，而是机械地让学生刷题，而这恰恰是与培养核心素养、提高学生的迁移能力背道而驰的。基于潜变量的调节模型将学生的能力得分与答对答错的人数相关联，这样可以降低刷题带来的“好处”，引导师生少走“捷径”，而去真正理解知识，学会运用知识，提高迁移的能力。基于潜变量的调节模型通过统计方法凸显了考试的区分度，体现了难题的价值。有人或许会担心，放大难题的价值会加重学生的学业负担。正相反，当试题量大且偏易时，学生更容易被导向刷题，因为只有足够的熟练才能应付大题量的考试。基于潜变量的调节模型挖掘的是学生的迁移能力，换言之，指向的是知识的深度而非广度。所谓深度指的是引导学生灵活地运用所学的知识解决问题，而这并没有超出课程标准。目前造成学业负担加重的重要原因是在不断扩展学习的广度(严格来说，是被动学习的范围，而非真正的学习广度)，比如，奥数几乎成了所有学生的必修课，这些额外的学习大大增加了学生的学业负担。基于潜变量的调节模型能引导学校真正为迁移而教，因为只有这样才能激发学生的学习兴趣，引发他们进行深度学习，为未来解决真实问题打下基础。像刷题这种重复性的被动学习让许多学生丧失了对学习的兴趣，体会不到学习的意义，所学的知识在考完试后基本上就忘记了，对未来解决问题的帮助也很小。

硕士研究生杨佳欣和徐玲玲参与了讨论，为此文提出了宝贵的修改意见，在此一并致谢。

参考文献

布兰思福特. (2013). 人是如何学习的: 大脑、心理、经验及学校(扩展版)(程可拉等译). 上海: 华东师范大学出版社.

崔海丽. (2017). 暂缓实施"一科两考", 稳步推进高考改革. 教育发展研究, (12), 30-37.

董秀华, 王薇, 王洁. (2017). 新高考改革的理想目标与现实挑战. 复旦教育论坛, (3), 5-10.

富兰. (2016). 极富空间:新教育学如何实现深度学习. 重庆: 西南师范大学出版社.

富兰等. (2009). 突破(孙静萍, 刘继安译). 北京: 教育科学出版社.

关晓虹. (2013). 科举停废与近代中国. 北京: 社会科学文献出版社.

加德纳. (2008). 多元智能新视野(沈致隆译). 北京: 中国人民大学出版社.

赖格卢特, 卡诺普. (2015). 重塑学校——吹响破冰的号角(方向译). 福州: 福建教育出版社.

联合国教科文组织. (2017). 反思教育: 向"全球共同利益"的理念转变?(联合国教科文组织总部中文科译). 北京: 教育科学出版社.

刘徽. (2018-01-03). 启动真实性变革. 中国教育报, (005).

潘昆峰, 刘佳辰, 何章立. (2017). 新高考改革下高中生选考的"理科萎缩"现象探究. 中国教育学刊, (8), 31-36.

乔纳森. (2015). 学会解决问题: 支持问题解决的学习环境设计手册(刘明卓译). 上海: 华东师范大学出版社.

威金斯, 麦克泰. (2017). 追求理解的教学设计(闫寒冰, 宋雪莲, 赖平译). 上海: 华东师范大学出版社.

文东茅, 鲍旭明, 傅攸. (2015). 等级赋分对高考区分度的影响——对浙江"九校联考"数据的模拟分析. 中国高教研究, (6), 17-21.

辛涛, 姜宇. (2017). 基于核心素养的基础教育评价改革. 中国教育学刊, (3), 12-15.

杨向东. (2017). 核心素养测评的十大要点. 人民教育, (2), 41-46.

袁振国, 秦春华, 等. (2017). 高校招生能力建设七人谈. 华东师范大学学报(教育科学版), (1), 11-29.

章建石. (2016). 一项公平与效率兼备的高考改革为什么难以为继?——标准分制度的变迁及其折射的治理困境. 北京师范大学学报(社会科学版), (1), 31-41.

Baker F.. (2001). The basics of item response theory. Washington: Office of Educational Research and Improvement.

Papert S.. (1993). The children's machine:Rethinking school in the age of the computer. New York: Basic Books.

Skrondal, A., Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multilevel, longitudinal, and structural equation models. Crc Pres.

OECD. (2017). PISA 2015 Technical Report. Derived from: http://www.oecd.org/pisa/sitedocument/PISA-2015-technical-report-final.pdf.