文章快速检索     高级检索
  华东师范大学学报(教育科学版)  2010, Vol. 28 Issue (3): 38-49  
0

引用本文  

张雨强, 崔允漷. 义务教育阶段学生科学学业成就评价框架的初步开发. 华东师范大学学报(教育科学版), 2010, 28(3): 38-49.

基金项目

本文受教育部“新世纪优秀人才支持计划”、教育部人文社会科学研究青年基金项目(07JC880007)资助
义务教育阶段学生科学学业成就评价框架的初步开发
张雨强 1, 崔允漷 2     
1 教育部基础教育课程研究曲阜师范大学中心,曲阜 273165;
2 华东师范大学课程与教学研究所,上海 200062
摘要:义务教育阶段科学学业成就监测是新课程改革的重大研究课题。它是客观公正地评价义务教育新课程科学教育改革的整体效果、科学全面地检测学生学习水平的重要工具,也是新课程科学教育改革课程决策的重要参考依据。全面深入地分析与借鉴PISA、TIMSS、NAEP等国际性学生评价项目,吸收认知目标分类理论、教育测量与评价理论的最新成果,厘清新课程科学学业成就监测的设计理念,梳理评价维度,整体设计评价框架,并初步开发试题编制模型与质量保证技术,能为新课程科学教育评价改革提供参考。
关键词义务教育    科学    学业成就评价    评估框架    试题编制    

学生学业成就监测是新课程改革的重大研究课题。义务教育阶段新课程全面实施已经4年,检验新课程实施效果已经是迫在眉睫的重大课题,而学生学业成就监测无疑是有效途径之一。中小学生对新课程的适应性如何,其学业成就究竟怎样,等问题亟需澄清。其中,如何开发学业成就评价的整体框架、如何全面客观地评价学生的学业成就,是引起高度关切的社会话题,更是充满挑战性的专业技术问题。本文在研究三大国际性学生评价项目最新进展的基础上,以义务教育阶段的科学领域为例,针对以上问题进行了初步探讨。

一、科学学业成就评价的国际经验

国际学生评估项目(Program for International Student Assessment, PISA)、国际数学与科学趋势研究(Trends in International Mathematics and Science Study, TIMSS)、美国国家教育进展评估(National Assessment of Educational Progress, NAEP)是国际知名的学生评价体系,在运行机制、评价项目、报告形式等方面各具特色,前两者更是因参与范围广、技术含量高、跨国比较性强受到专业研究人员与社会公众关注。PISA是经济合作与发展组织(Organisation for Economic Co-operation and Development, OECD)成员国合作项目,目的是评价15岁学生为终身学习者与建设性公民的准备情况;TIMSS是国际教育成就评价协会(International Association for the Evaluation of Educational Achievement, IEA)组织的数学与科学学习趋势的全球性研究;NAEP则是美国国家教育数据中心(National Center for Education Statistics, NCES)负责运行的全国性评价系统,旨在通过监测学业成就趋势来衡量全国教育目标的达成与否。

(一) 评估体系的整体设计

PISA、TIMSS的评价内容由国际专家合作确定并可以进行跨国比较,NAEP的最大不同是对于全国实践的调适性;PISA对于“课程产出”与科学素养的更多关注是其最大特点,NAEP、TIMSS则关注与学校课程密切相关的学业成就。三大评估体系在评价内容、认知过程、评价框架术语、试题内容、试题形式等方面均有明显差异。

表 1 三大评估体系的整体比较
(二) 科学评估框架

评估框架大都遵照“课程内容+认知水平”的二维设计,但对内容维度、认知水平的具体规定不同;为判断学生为真实生活世界所做准备情况,PISA还特别设计了情境维度,而TIMSS中也设计了科学探究维度。

(三) 题型与题量

三大评估体系基本都根据学生反应类型把题型分为选择——建构反应。这与根据学生认知水平(见表 2中的“认知过程维度”)的类型划分从不同侧面诠释了试题编制蓝图。

表 2 三大评估体系的科学评估框架比较
表 6 TIMSS2007不同内容领域中的目标百分比
表 3 NAEP和PISA不同题型的题目数量和百分比
表 4 不同科学领域内NAEP与PISA试题的题目数量和百分比
表 5 TIMSS2007不同认知领域中的目标百分比

下面以TIMSS2007技术报告为例,重点说明不同题型、不同内容领域、不同认知水平的试题在整个科学评估系统中的分配情况(表 789)。

表 7 TIMSS2007科学评估中不同类型试题的题量与分数分布情况
表 8 TIMSS2007科学评估4年级不同内容领域中各种试题的题量分布情况
表 9 TIMSS2007科学评估4年级内容领域与科学探究中不同认知水平试题的分数分布情况
(四) 三大评价项目科学评估的经验

1.评估框架的研制与发布

由独立的专业评价机构组织,评估框架汇集了大量测量专家、学科专家、课程专家、一线教师等的集体智慧;提前公布评估框架,广泛征求广大研究者的专业建议,为评估框架修订预留足够空间;同时期待社会公众的积极反馈,应对社会问责。NAEP2009科学评估框架于2006年初颁布,预留3年时间,TIMSS2011框架于2009年9月颁布。反观我国义务教育科学课程学业成就评价框架几乎是未经公示就直接进入实测阶段,这不能不说是对国际惯例的忽视。

2.重视认知发展、教育测量与评价理论的指导

重视认知心理学的支撑作用,积极吸收认知目标分类的研究成果;测量专家高度参与评价框架开发,在与学科内容专家、课程专家、有经验的一线教师的合作中,为学业成就监测框架的开发提供专业支持。

3.评估框架开发技术

从“课程内容+认知水平”2个维度开发评价框架,注重学习内容与学习目标水平的交叉;能更好地设计评估框架、指导试题编制实践,更能为课堂教学提供新思路。PISA更是增加了情境维度,从三维视角来开发科学评估框架。

4.评价技术与方法革新

引进新型评价手段,如计算机交互性作业等,注重与传统纸笔测试相结合;编制新型试题,如开放型试题、建构型试题等,重视高级思维能力培养与评价。

5.评价样例开发与反馈信息收集

大量开发评价试题样例并提前公布,使将要参加评价的师生等有足够的了解与应对时间;杜绝了“防教师”、“防学生”的评价偏执倾向;同时可以收集更多的反馈信息,以便及时调整评价工具。

6.学业成就比较与解释的多样化途径

采取“纸笔测验+问卷调查”,注重背景信息调查;探寻不同背景的学生群体之间学业成就差异解释的别样路径,也能为不同亚群体的相关分析与比较研究提供研究视角。

二、义务教育科学学业成就评价开发的整体设想 (一) 框架设计理念

科学教育的宗旨是培养学生的全面科学素养。《全日制义务教育科学(3~6年级)、(7~9年级)课程标准(实验稿)》、义务教育阶段的分科科学课程标准是开发4、8年级科学学业成就评价框架的依据。现行各科国家课程标准中,对学生通过完成规定的课程、教学内容和活动所应获得的学习成果等未明确描述。既没有对学生的学习行为进行具体描述,同时也没有制定出与行为目标相对应的表现水平标准,因而不能直接将课程目标用来作为学生学业评价(特别是纸笔考试)的测量目标。而制定相应科目的学业成就评价标准,是对课程标准的进一步补充和完善,同时会进一步促进课程标准、教学评价的完善。

图 1 科学学业成就评价框架的设计理念

不但要评估学生对双基的掌握情况,还要评估其实际问题解决能力以及终生学习所必需的知识与技能。因此,测评体系制定与工具开发时,应把基础知识技能和有关STS情境问题融合起来。我国提出STS教育理念由来已久,但STS情境具体涵盖哪些方面还没有明确阐述,如何把知识和情景结合也没有参考标准,目前考试题目依然根本没有走出“重知识、轻能力”、“从书本来到书本中去”的模式。可以参考PISA2006科学评估经验设置问题情境。

表 10 PISA科学评估中的问题情境
(二) 整体评价框架

义务教育阶段科学学业成就评价是大规模的外部评价。应针对全国范围内义务教育阶段关键学年的学生进行取样,获取他们在科学课程中的整体学习情况,从而给国家科学教育提供决策参考。整体框架初步设想如下:

表 11 义务教育阶段科学学业成就评价框架设想

义务教育学生科学学业成就评价可由独立的权威性专业机构来组织。由于我国人口众多,不可能对每一个八年级学生都进行测评,所以宜采用分层抽样的方法。进行评价的目的不是对学生个体成绩进行比较,也不是对学校进行排名,而是把评价对象作为一个群体或亚群体(具有相似背景的学生可以划为一个亚群体)进行全面评估,为国家提供描述性信息,作为课程决策的科学依据。评估方法除了进行传统的笔试之外,还可以借鉴NAEP进行实践考查,借鉴PISA进行背景问卷调查,以全面了解影响学生学业成就的因素。而进行周期性评估可以进行横向和纵向比较,发现不足之处,进而改善课程与教学。

(三) 评价维度

综合评价框架开发的国际经验,根据布卢姆认知目标分类及修订版以及其它教育目标分类研究成果,结合我国理化生、科学课程等初高中课程标准中的目标水平,确定过程维度;并把它分为认知过程、技能习得、情感养成3个二级维度,又分别限定了二级维度的不同学习水平。根据《全日制义务教育科学(3~6年级)、(7~9年级)课程标准(实验稿)》确定内容维度,也可进一步开发二级、三级维度。

表 12 科学学业成就评价的维度
三、科学学业成就评价的试题编制 (一) 试题编制模型的开发

根据Gale H. Roid与Thomas M. Haladyna的学习目标与试题模型,结合布卢姆认知目标修订版,可以初步开发出三维试题编制模型(图 2,仅以认知领域展示)。三个维度分别是内容维度、过程维度、反应类型维度。其中,内容维度可以参照不同的学科课程标准进行细化(也可参考布卢姆认知目标修订版分为事实性、概念性、程序性、元认知知识;Roid等分为了事实、概念、原理),根据试题答案的产生方式把反应类型分为选择与建构反应,而认知过程维度则分为记忆、理解、应用、分析、评价、创造等6种水平。

图 2 试题编制三维模型

三维模型的使用方法如下:任取空间一点M(Xn, Yn, Zn),就代表某一道试题。其中Xn代表该试题对应的内容标准,Yn代表该试题所对应的认知水平,Zn则代表该试题的类型。

布卢姆认知目标分类学建立于心理学领域内,这也决定了其局限性:通过不可观察的智力过程(intelligence processes)的形式来表述学习目标,而不是通过给学习者呈现的可观察的任务特征来表述。Seddon的研究也显示了,大约只有35.5%的研究者认为布卢姆认知目标分类学能够很好地用以对题目类型进行划分,而其余大部分被调查者都觉得,布卢姆认知目标分类方法很难在命题实践中直接运用。其次,布卢姆认知目标分类主要用于题目的回顾性分析,题目一旦编制完成,可以运用目标分类学对题目进行分类。但并未给测验与试题编制者提供更多指南,帮助他们去选择内容、以及把内容转化为测量各种思维的试题。三维模型在一定程度上可以克服其局限性。

(二) 试题编制框架与细则开发

课程开发中有三个核心关键词,即“课程标准”、“表现标准”、“评价标准”。这三个关键词涉及的一个核心问题就是:如何从国家层面的“课程标准”演化到学生学习层面的“表现标准”,再如何由学生学习层面的“表现标准”丰富为指导评价实践的“评价标准。

1.试题编制框架

图 3 试题编制框架(根据表现期望编制试题和解释学生反应)

2.试题编制细则

试题编制可以分为5个步骤:确定评价内容、确定认知要求、开发表现期望、细化表现期望、编制具体试题。第一步是从横向上确定评价的广度,即评价什么;第二步是从纵向上确定评价的深度,即评价到什么水平;第三步是根据纵横的广度与深度两个维度交叉,制定出具体的二维矩阵,梳理出评价标准;第四步是根据评价标准,来细化评价标准的层次(等级)与赋分情况,并给出案例;第五步就是根据细化后的评价标准来编制试题。

3.不同认知过程水平的样例开发

表 13 不同水平的认知过程案例
(三) 试题质量保障工具开发

1.表现标准开发

以《全日制义务教育化学课程标准(实验稿)》中“认识燃烧的条件及防火灭火的措施”的课程内容为例,可以开发出如下的表现标准(学业成就评价标准)。

表 14 内容标准界定与表现标准开发

2.试题编制实例

柳州市融水县鼓楼屯全部是连片式木质房屋,今年4月3日下午发生120年未遇的特大火灾。请回答下列问题(柳州2006中考):

(1) 发现火势较大,有蔓延的可能,应马上打什么电话号码报火警?

(2) 如果你是救火现场指挥者,从灭火的原理考虑,应将灭火人员至少分成两支队伍开展工作,布置他们做什么?并请解释原因。

(3) 如果你被困在火灾区里,应采取哪些自救措施?请说出其中两点。

(4) 如果你是灾后重建的设计者,重建房屋时,为防止再次发生特大火灾,应注意的问题之一是什么?

3.基于课程标准的试题分析工具

评估文本(试题编制指南、试卷与试题等)必须与国家课程标准相匹配,这样才能保证学业成就评价是基于课程标准的测查。遵循“课程目标+目标要求”设计了试题分析二维工具。其中,“课程目标”维度主要参照《全日制义务教育科学(3~6年级)、(7~9年级)课程标准(实验稿)》(其它学科亦然)关于三维目标的规定;而“目标要求”主要参照《全日制义务教育化学课程标准(实验稿)》(物理课标类似)对学生学习目标的行为限定。

表 15 基于课程标准的试题质量判断

4.基于布卢姆认知目标的试题分析工具

对于某题目M,其反应类型是确定的(当然也可以编制成其它题型),若M对应了多种类型的知识(x)与多个水平的认知过程(y),则该题表示为M(x, y)。如2(2, 3)、4(3, 2)。

表 16 基于布卢姆认知目标分类修订的试题质量判断

对比我国《全日制义务教育化学课程标准(实验稿)》对认知性学习目标三级水平规定,以及布卢姆认知过程维度6级水平规定,可以看出:第一,认知性学习目标的最高水平横跨了从“理解”到“判断”5个行为动词,这对应了布卢姆认知过程维度的“理解”、“应用”、“分析”、“评价”的4个水平。第二,而布卢姆认知目标分类的“创造”水平,则很难在初中化学课程标准中找到相应的认知性学习目标(但《普通高中化学课程标准(实验)》中有“设计”、“解决”等认知性学习目标)。

Scott, E.(2003). Comparing NAEP, TIMSS, and PISA in Mathematics and Science[EB/OL].2-5. http://nces.ed.gov/timss/pdf/naep_timss_pisa_comp.pdf,2009-9-9.
Kansky, Robert(2006). NAEP, PISA & TIMSS: A Brief Comparison [EB/OL]. http://www.trianglecoalition.org/pdf/naeppisatimss1.pdf, 2009-10-10.Neidorf, T.S., M. Brinkley, K. Gratis, and D. Nohara (May 2006). Comparing Mathematics Content in the National Assessment of Educational Progress (NAEP), Trends in International Mathematics and Science Study (TIMSS), and Program for International Student Assessment (PISA) 2003 Assessments. Technical Report, National Center for Education Statistics, US Department of Education Institute of Education Sciences, 1-43. Scott, E.(2003). Comparing NAEP, TIMSS, and PISA in Mathematics and Science[EB/OL]. http://nces.ed.gov/timss/pdf/naep_timss_pisa_comp.pdf, 2009-9-9.笔者据此整理。
Ina V.S. Mullis, Michael O. Martin, Graham J. Ruddock, Christine Y. O’Sullivan, Alka Arora, Ebru Erberber(2005). TIMSS 2007 Assessment Frameworks. TIMSS & PIRLS International Study Center, Lynch School of Education, Boston College, 41-43. WestEd, Council of Chief State School Officers, National Assessment Governing Board. Science Assessment and Item Specifications for the 2009 National Assessment of Educational Progress(Prepublication Edition), 2-10. WestEd, Council of Chief State School Officers, National Assessment Governing Board. Science Framework for the 2009 National Assessment of Educational Progress(Prepublication Edition), Ⅴ-Ⅸ. OECD(2009). PISA 2006 Technical Report, 30-31. OECD(2006). Assessing Scientific, Reading and Mathematical Literacy: A Framework for PISA 2006, 20-28.赖小琴:《国际学生评价TIMSS和PISA的比较与反思》,《广西教育学院学报》2008年第2期。笔者据此整理。
转引自黄慧娟等:《关于三项著名国际学生评价项目的比较》,《福建师范大学学报》2004年第4期。
转引自黄慧娟等:《关于三项著名国际学生评价项目的比较》,《福建师范大学学报》2004年第4期。
ohn F. Olson, Michael O. Martin, Ina V.S. Mullis(2008). TIMSS 2007 Technical Report TIMSS & PIRLS International Study Center, Lynch School of Education, Boston College.21.
ohn F. Olson, Michael O. Martin, Ina V.S. Mullis(2008). TIMSS 2007 Technical Report TIMSS & PIRLS International Study Center, Lynch School of Education, Boston College.21.
ohn F. Olson, Michael O. Martin, Ina V.S. Mullis(2008). TIMSS 2007 Technical Report TIMSS & PIRLS International Study Center, Lynch School of Education, Boston College.28.
ohn F. Olson, Michael O. Martin, Ina V.S. Mullis(2008). TIMSS 2007 Technical Report TIMSS & PIRLS International Study Center, Lynch School of Education, Boston College.28.
John F. Olson, Michael O. Martin, Ina V.S. Mullis(2008). TIMSS 2007 Technical Report TIMSS & PIRLS International Study Center, Lynch School of Education, Boston College.37.
OECD (2006).Assessing Scientific, Reading and Mathematical Literacy: A Framework for PISA 2006.27.
Gale H. Roid & Thomas M. Haladyna(1982).A Technology for Test-Item Writing.London :Academic Press INC.LTD.161-171.
Gale H. Roid & Thomas M. Haladyna(1982).A Technology for Test-Item Writing.London :Academic Press INC.LTD.162.
张雨强, 冯翠典:《美国NAEP科学课程评价试题编制研究》,《全球教育展望》2007年第10期。
Anderson, L.W. & Krathwohl, D.R. et. al. (Eds., 2001). Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom’s Taxonomy. of Educational Objectives(Abridged Edition).New York : Longman.38-62, 63-92.安德森等编著, 皮连生主译:《学习、教学和评估的分类学:布卢姆教育目标分类学修订版(简缩本)》,《华东师范大学出版社》2008年版,56-80。作者补充了大部分案例。
崔允漷、夏雪梅:《试论基于课程标准的学生学业成就评价》,《课程·教材·教法》2007年第1期。