试题难度已有多种标定方法,大致分为事后标定和事前标定两大类。目前得到广泛运用的是事后标定法中的通过率法。该方法虽然简单易行,数量指标也严格确定,但有着诸多的弊端(邵志芳,余岚)[1]。事后标定的弊端促使研究者们开始注意到问题本身的特征和解决过程,进而提出进行了一些事前标定的方法。例如,Newell和Simon(1972)提出了问题搜索空间描述法[2];邵志芳等(1992,1996)对概念难度和问题难度进行了研究[3, 4];辛自强(2003)在综合前人研究的基础上提出了关系-表征复杂性模型[5]。还有学者(张义泉,许远理,1997;许远理,李亦菲,朱新明,1998)介绍了利用认知负荷测评模型来对问题难度进行评估的方法[6, 7]。该模型采用了四个指标来评价问题解决难度:工作记忆中语句的数量、工作记忆中激活的产生式的数量、工作循环的次数和条件匹配的数量。
数学心理学家们和数学教育工作者开展了数学问题难度的标定研究。Mayer(1981)提出,任何应用题都可以描述为由不同类型的命题(包括赋值命题、关系命题和问句命题)组成的模版[8],可以由这些不同命题的不同回忆难度来推断应用题的难度。汪际(1990)则提出,认知目标的层次(分为识记、理解、应用、分析、综合和评价等6个层次)、试题的内容和试卷的长度等因素影响了试题的难度[9]。张传伟(2005)认为,数学问题的难度由三个维度——知识度、运算度和模糊度所决定[10]。姚孟臣(1993)在高等数学题库建设中,确定了6个项目(是否常见、题目类型、运算步骤、覆盖面、技巧性和认知层次)共20个类目进行难度预测,并建立了预测方程[11]。徐建乐(1996)认为,影响试题难度的关键因素是:试题的抽象性、试题的综合性和试题条件的隐蔽性[12]。
近些年来,邵志芳等运用认知任务分析技术,提出了基于CTA的试题事前难度评定的框架体系[13]。邵志芳和余岚(2008)通过对高等数学试题解答过程的全面分析,设计了对试题进行事前难度评定的实施程序和评价体系。根据数学试题的特点,该体系包括了5项指标:要素数量、要素辨识难度、原理数量、原理辨识难度和认知负荷。结果表明,该评价体系在高等数学试题中有着良好的信度和效度[1]。郑毅(2008)采用该评价体系对上海市2007年高考数学试题(理科卷)进行了事前难度分析,并采用言语报告法评估试题所需的认知负荷,进一步证实了该评价体系的信度和效度[14]。李二霞和邵志芳(2009)在此评价体系的基础上,提出了问题的解决难度、基准难度和难度指数等标定试题难度的多项指标;难度指数概念的提出更使不同试卷难度间的数量化比较成为可能[15]。
本研究选用了近三年(2007~2009)来的上海市中考及高考数学试题,采用该评定体系进行事前难度评定,以期对连续三年中(高)考数学试题进行难度间的比较,完善认知任务负荷指标的评定程序。
二、方法本研究的材料为上海市2007~2009年中(高)考数学试题及标准答案。
评定者共6名。均为华东师范大学心理学系人类智能心理学方向硕士研究生,熟悉CTA的评定程序与原则。其中2007年中考数学试题及2007、2008年高考数学试题均由其中相同的3名评定者评定(由于评定者相同,本研究中我们把该组3套试题称为A组试题),而2008、2009年中考数学试题及2009年高考试题则由相同的4名评定者评定(称为B组试题)。其中有1名评定者参与所有6套试题的事前难度评定。
本研究对认知任务分析的指标体系中的认知负荷评定指标做了以下改进:在对每道试题的认知负荷进行评定时,其中的一些认知成分(比如概括,推理,思维,决策等)较为抽象,难以进行准确客观的评价,且有相当部分可以解释为要素辨识难度或原理辨识难度等指标,因此本研究采用了3个相对独立的指标:(1)注意:能从题目中快速准确地选择出解题所需的信息的难度以及对微小细节的洞察能力;(2)记忆:主要是在解决某个问题的过程中将所有信息灵活有序地加以运用的难度;(3)表象:主要表现为将题目的描述形式转化为可直接进行解题的数学量形式或几何形式的难度。为了便于不同年份的试题之间进行难度比较,我们对A组试题的认知负荷进行了重新评定,评定者为B组试题的4名评定者,从而保证了指标体系的统一。
本研究沿用由李二霞和邵志芳(2009)对试题的基准难度(Base Difficulty, 以下简称BD)及难度指数(Difficulty Index,DI)界定的方法:BD =要素数+原理数+要素辨识难度(每小项赋值为1) +原理辨识难度(每小项赋值为1) +认知负荷(赋值为1)= 2 × (要素数+原理数) + 1。DI = (SD -BD)/BD,就是本研究中所称的某试题的难度指数。DI是一个相对数指标,故可以在不同试题之间和不同试卷之间进行难度比较。
同为中(高)考数学试题,但不同年份间的题目数量可能会有所不同。在本研究中,2009年高考数学试题和前两年的高考试题题数相比多了2道试题。而考试时间仍是两个小时,因此在这种情况下,将整套试卷的总难度与各道试题的平均难度结合起来考察。在本研究中,我们对每套试卷(含试题数以n表示)也设计了一系列难度指标:试卷解决难度(Test Solution Difficulty,TSD=ΣSDn);试卷基准难度(Test Base Difficulty,TBD=ΣBDn),以及试卷难度指数(Test Difficulty Index,TDI=(TSD -TBD)/TBD)。ΣSDn表示一套试卷中的每道试题的解决难度SD之和,同理ΣBDn指一套试卷中的每道试题的BD之和。
本研究的程序是:(1)每位评定者都熟悉试题事前CTA的程序以及评分规则。(2)对每套试题及标准答案进行详细分析,并查阅中学数学教材,讨论确定各题在解题过程中所涉及到的原理和公式,并对要素条目进行清晰罗列。(3)各评定者根据上述指标对每套试题单独进行评分,给出从试题表面信息中辨识出原理及其组成要素的难度,评价解题过程中对于各种认知能力的需求程度。
三、结果 (一) 评定者间一致性根据对上海市2007~2009年中高考数学试题事前难度CTA评定的数据,分别计算评定者们对6份试卷评定的肯德尔和谐系数,结果显示:3名评定者对A组试题(2007年中考试题,2007、2008年高考试题)各题前4项指标之和的肯德尔和谐系数分别为0.9772,0.9663,0.9560;4名评定者对A组试题认知负荷评定的肯德尔和谐系数分别为0.9555,0.9295,0.9603;4名评定者对B组试题(2008、2009年中考试题,2009年高考试题)难度(SD)评定的肯德尔和谐系数分别为0.9819,0.9652,0.9871,均达到极其显著水平(p<0.01)。可见本研究中所有评定者对试题评定有着较高的一致性。事前难度CTA的良好信度得到了再次检验。
(二) 六份试卷难度评定结果根据评定者评定的每道试题的SD和BD,分别求出各套试题中每道试题的平均(SD -BD),进而得出每道试题的难度指数(DI)。表 1为2007~2009年中考数学试题(各25题)和2007-2008年高考数学试题(各21题)以及2009年高考数学试题(23题)的难度值。
| 表 1 2007~2009年中、高考试卷的试题难度(平均数±标准差) |
从表 1可以看出,近三年的中考试题平均解决难度(SD)呈逐年下降趋势,但BD波动不大,这样,(SD -BD)与SD一样呈现下降趋势,能够对同类试题之间难度进行比较的DI亦呈现逐年下降趋势。这说明近三年的上海市中考数学试题存在着难度下降的趋势,BD变化不大则意味着3套试题的问题空间规模没有明显变化。
由于2009年高考数学试题比往年增加了2题,在每题平均难度之外,计算整份试卷的总难度等指标(结果见表 2),可以看出从试卷总难度指标上同样可以得出与表 1相同的结论。
| 表 2 2007~2009年中、高考试题的试卷难度指标 |
为了进一步比较近三年来中(高)考试题的难易程度,对近三年的中(高)考试题的SD,BD,(SD -BD)及DI分别进行方差分析,结果见表 3。
| 表 3 2007~2009年中、高考试题难度的方差分析 |
由表 3可以看出,近三年的高考数学试题难度虽然有波动,但是未达到显著差异水平。而近三年的中考数学试题难度差异显著,体现在DI在3套试题中差异显著,根据逐对检验,可知2007年中考试题难度高于2008年(p = 0.009)和2009年(p < 0.001)。
四、讨论由表 1可以看出,近三年的高考试题SD和BD呈现出“偏难→偏易→偏难”的波动,而SD -BD和DI则呈现一定的上升趋势(2007和2008年试题的这两项指标相差很小),这说明2009年高考数学试题离其最基本形式距离拉大,考生会觉得题型陌生。从本研究的结果看,不论在BD,SD,DI还是在(SD -BD)上,2009年高考试题较2007和2008年有较大幅度的提高。整份试卷的总难度指标,尤其是TDI指标(表 2)也表明了这一点。事实上,考生及老师们也表示2009年高考试题较往年偏难。如果事先用本研究所用的CTA方法调整难度,可能在一定程度上减少这种波动。
2008年试题较2007年试题在BD和SD上略有下降(2007年BD:18.33±8.08,SD:28.21±13.80;2008年BD:16.57±6.05,SD:26.50±13.07)。2008年高考数学试卷立足基础,源于教材,大多数试题以常见背景、简单问题、常规方法呈现,贴近学生认知的实际情况,很多试题直接源于教材,这就降低了试卷的难度。
而对于中考数学试题的分析表明,DI在年份间有显著差异,其余难度指标虽没有显著差异,但是也体现出逐年下降的趋势。DI是一个我们认为能够在同类试题间进行难度大小比较的指标,这说明2007年中考试题较后两年难度大,考生觉得题型陌生。BD指标的差异不显著,意味着试题规模差异不大,可能是由于不同年份试题编制之初所依照的基本框架并没有显著的改变,也没有明显改变试题所考察的知识范围。实际上,2007年中考数学试题(甚至整套试卷总体难度指标)的BD与之后两年差异很小,但是之后两年的SD和(SD -BD)逐年降低,导致DI的明显下降。公开媒体也报道,不少数学工作者表示,在素质教育的背景下,中考的功能会更偏向学业水平考试,总的趋势是降低难度,侧重基本知识的灵活运用。这与我们CTA评定的结果相一致。
从理论上说,根据DI似乎还可以比较中考试题和高考试题的难度。不过,由于两者涉及的知识体系有很大的差异,在CTA评定中的参照系统或评定尺度可能存在显著差异。在此问题解决之前,暂时不能做上述比较。
为了更好地控制难度,很多心理测量学家还试图通过建构一定的认知设计系统(cognitive design system)来生成高效度的测验。Embretson(1998)就将这种思想用于抽象推理测验,取得了较好的结构效度[16]。Embretson等甚至还倡导根据认知心理学原则自动生成测试项目(automatic item generation)[17]。这也是CTA评定试题难度的发展方向。
五、结论(1) 评定者对试题的评定均呈现极其显著的一致性,进一步验证了CTA方法的信度良好;
(2) 上海市高考数学试题难度在近三年中呈现“偏难→偏易→偏难”的波动趋势,而上海市中考数学试题难度在近三年中则呈现逐年下降趋势。
| [1] | 邵志芳, 余岚. (2008). 试题难度的事前认知任务分析. 心理科学, 31(3), 696-698. |
| [2] | Newell A & Simon HA. Human problem-solving. Englewood Cliffs, NJ: Prentice Hall, 1972 |
| [3] | 邵志芳, 杨治良. (1992). 影响概念难度的两个基本因素. 心理科学, (6), 8-12. |
| [4] | 邵志芳, 刘永芳, 钟毅平. (1996). 关于问题难度的实验研究. 心理科学, (5), 278-281. |
| [5] | 辛自强. (2003). 关系-表征复杂性模型的检验. 心理学报, 35(4), 504-513. |
| [6] | 张义泉, 许远理. (1997). 认知负荷测量模型简介. 信阳师范学院学报(哲学社会科学版), 17(4), 59-62. |
| [7] | 许远理, 李亦菲, 朱新明. (1998). 评价问题难度的一种新方法——认知负荷测量模型. 心理学动态, (2), 7-11. |
| [8] | Mayer RE. (1981). Frequency norms and structural analysis of algebra story problems into families, categories and templates. Instructional Science, 10, 135-175. DOI:10.1007/BF00132515 |
| [9] | 汪际. (1990). 浅谈试题的难度分析及控制. 贵州师大学报(自然科学版), 2, 77-79. |
| [10] | 张传伟. (2005). 论数学问题难度的静态因素. 数学教学研究, 1, 4-7. |
| [11] | 姚孟臣. (1993). 数量化方法在试题难度预测中的作用. 数理统计与管理, 12(2), 20-28. |
| [12] | 徐建乐. (1996). 数学试题难度的指标体系及量化. 中学数学教学, 3, 9-12. |
| [13] | 邵志芳. 认知任务分析在考试中的应用. 中国科技论文在线(http://www.paper.edu.cn). 2007(2) |
| [14] | 郑毅. 2007年上海市高考数学(理)试题难度事前认知任务分析. 硕士论文(上海: 华东师范大学), 2008 |
| [15] | 李二霞, 邵志芳. (2009). 试题难度多项指标的认知任务分析. 心理科学, 32(6), 1342-1344. |
| [16] | Embretson SE. (1998). A cognitive design system approach to generating valid tests: application to abstract reasoning. Psychological Methods, 3(3), 380-396. DOI:10.1037/1082-989X.3.3.380 |
| [17] | Embretson SE & Yang X. Automatic item generation and cognitive psychology. In Rao CR (Ed), Handbook of Statistics, Vol. 26 (Psychometrics). pp747-768. Elsevier B.V., 2007 |