概言之,自从人类开办了学校,就开始了学生评价。学生评价历史悠久,源远流长,其发展轨迹大致可以划分成三个时期,即考试制度时期、教育测验时期和学生评价时期。
一、考试制度时期中国发明了考试,考试的故乡在中国。孙中山曾经说过:“英国行考试制度最早,美国行考试才不过二三十年,英国的考试制度就是学我们中国的。”①
1. 战国时期的《学记》考试制度的历史可以追溯到奴隶社会。早在我国奴隶社会的西周时期(公元前11世纪——公元前771年),就建立了“考校”与“考选”的制度。战国时期的教育名篇《学记》详细阐述了当时的考试制度:“比年入学,中年考校。一年视离经辨志,三年视敬业乐群,五年视博习亲师,七年视论学取友,谓之小成。九年知类通达,强力而不反,谓之大成。”这段文字表明,中国古代早就形成了一套完整且规范的考试制度。
(1) 规定明确的修业目标
学生修业目标分为“小成”和“大成”两个阶段,并且把“知类通达,强力而不反”列为学生完成修业的最高标准。
(2) 规定明确的修业年限
学生修业年限为九年,前后分为七年和二年两个阶段。第一阶段“合格者”方可进入第二阶段学习,直至全部考试合格才准予毕业。
(3) 规定严格的考试频率
在修业九年期间,每隔一年只考查学生一次,而不是每年考试、每月考试、每周考试或随意考试。控制考试次数或降低考试频率可以减少考试泛滥对学生学习的干扰,可以让学生充分合理地安排学习时间,培养和发展自己的兴趣、爱好、特长和志向,可以督促教师随时提高教学质量,而不是等到考试以后才发现教学中存在的问题。更重要的是,可以提高考试的权威性和严肃性,确保社会、学校、教师、学生和家长对考试的敬畏和重视。这个道理非常浅显。如同有人经常问道:奥运会为什么如此受人尊崇?奥运会奖牌的含金量为什么如此高?答案是:因为奥运会每4年只举办一次。相对运动员的运动生命而言,4年时间是那么漫长,那么遥远和那么煎熬,运动员的最佳竞技状态和颠峰时期很难延续4年以上。
(4) 规定严格的考试内容
考试内容既要考查学生“离经辨志”、“知类通达”等学业成就,还要考查学生“敬业乐群”、“博习亲师”等道德操守。前者强调学生掌握学业知识的能力,后者侧重学生人格养成、社会实践的能力。众所周知,教育的根本任务是培养一个完整的人,而不是单纯培养一个人的知识掌握,因此考试内容不仅应该考查学生的知识,而且应该考查学生的品行、能力等诸多方面。
2. 隋唐以后的科举制度科举制度起源于隋朝,经过唐朝的发展以及宋朝、元朝、明朝和清朝的演变,逐步形成了一套行之有效的、相当完善的考试制度。
(1) 实施学校常规考试
初唐时期,国子监建立了常规的考试制度,不仅举行旬试、月试、季试、岁试和毕业考试,而且确定了平时考试、学年考试和毕业考试相结合的考试制度,这在学校考试史上具有里程碑式的意义。
(2) 举行逐级选拔考试
科举考试大致分为地方考试、省级考试和中央考试三种类型。考生首先参加县试,然后参加府试。通过的考生被称为“童生”,有资格参加由各省学政(或称学道、学台)主持的院试。院试录取者称为“生员”,即俗称的“秀才”。在省城举行的省级考试称为乡试,乡试录取者称为举人。第一名举人称为解元。举人可于第二年进京参加在礼部举行的中央考试,即会试。会试录取者称为贡士或中式进士,第一名称会元。会试后,凡贡士或中式进士均参加殿试。殿试是科举制度中最高一级的考试。殿试后,按三甲(三等)公布成绩和放榜,一甲三人称“进士及第”,二甲若干人称“进士出身”,三甲若干人称“同进士出身”。一甲第一名称状元,一甲第二名称榜眼,一甲第三名称探花,合称三鼎甲。如果乡试、会试、殿试均考取第一名,即解元、会元和状元获得者,俗称“连中三元”。殿试以后,无须再经吏部考试,可以直接授官。
(3) 采用多种考试方法
(a) 帖经
亦称“帖文”或“试帖”,类似现在的填空题。由主试者将经书任揭一页,任取其中一行,将左右两边蒙上,然后裁纸为帖,遮盖其中三个字或五个字,要求考生将被遮盖字写出来。
(b) 墨义
类似现在的简答题。由主试者从经书中提出若干问题,要求考生根据书中原文内容进行笔答,无须解说。如:
试题:“子谓子产②有君子之道四焉,所谓四者何也?”(试题大意是:孔子评论子产说:他有君子的四种道德。是哪四种呢?)
(c)策问
类似现在的政论题。由主试者根据当时政治、经济、文化、军事、生产等现状,提出亟待解决的问题,由考生发表见解,作出书面回答。如:
朝鲜为中国藩属宜如何保守论。③
中国近讲求富强之术当以何者为先。④
(d) 诗赋
类似现在的作文题。主试者要求考生当场写作诗赋一篇,主要考查考生的文学修养和文学创作能力。
(e) 口试
类似现在的口试题。由主试者面对面向考生提问,要求考生当场口头回答问题,或者由主试者将考题制成考签,由考生任意抽取,经若干时间准备后,作出口头回答,主试者可以视考生回答情况继续追问或补充提问。
到了清朝末年,由于政治日趋腐败,科举制度日趋没落,防止科场舞弊的一系列措施流于形式,不但没有革除科举制度的痼疾,反而使它有了进一步恶化。尽管统治者对舞弊的处分特别严厉,但是科举制度本身的诸多诟病,导致舞弊成风,愈演愈烈。文章本无定式,可是八股文规定了繁琐的定式,逐渐演变成一种官僚式文体,最后成了一切僵死文字的总代表。
1903年,袁世凯、张之洞等人上书,要求废除科学制度,确定废除科学制度的具体步骤和最后期限,并提出了按科递减的方案。1905年,光绪采纳袁世凯“推广学堂必先停科举”的奏议,决定从1906年起,所有乡试、会试和各省岁科考试一律停止。这标志着,有着一千三百多年历史的科举制度终于被废除,有着七百多年历史的八股文也寿终正寝。
虽然中国的科举制度废止了,但是自由报名、公开考试、平等竞争、择优选拔等考试原则,以及帖经(填空题)、墨义(简答题)、策问(政论题)、诗赋(作文题)、口试等多样化的考试方法一直延续至今,并且得到了西方国家政府与学校的推崇和采用。明万历十年(公元1582年),意大利传教士利玛窦把我国的科举制度传入欧洲,被西方人称为“先进的选拔人才的制度”。此后,世界各国不断进行考试改革,以期实现考试的科学化和现代化。如今,考试制度已经成为一个重要的研究领域,称“考试学”(examinational science)。
二、教育测验时期19世纪中期是心理测量形成、发展和盛行的时期,教育测验应运而生。教育测验大量吸收了心理测量的基本原理和技术,努力追求学生成绩评定的客观标准。教师普遍扮演了“教育测验技术员”角色,他们采用各种量表测定学生的知识记忆或某些特质。进入20世纪后,教育测验步入高速发展的阶段,被称为“测验时代”。教育测验的发展经历了两个阶段:第一,测验量表的推广;第二,标准化测验的推广。
1. 测验量表1864年,英国教师费希尔(George Fisher)深感学生成绩的评定缺乏客观标准,因为仅仅凭教师的主观判断,无法做到公平和公正。于是,他收集了学生书法、拼字、算术、语法、作文、历史、自然、图画等学科成绩的样本,并依据一定的标准,编制了《量表集》,以此作为评定学生成绩的参照标准。《量表集》采用5分计分制,费希尔为5分、4分、3分、2分和1分配备了相应的样本。教师评定学生时,可以参照《量表集》提供的样本,给出相应的分数。
1897年至1898年期间,美国学者莱斯(Joseph Rice)对三万多名小学生进行了拼字测验,旨在检验拼字教学时间对教学效果的影响程度。莱斯公布了20个学校16000名学生的拼字测验成绩。结果表明,在8年中每天花45分钟与每天花15分钟进行拼字练习的学生测验成绩并没有显著差异。当时,尽管这个结果遭到许多人的反对,但它引起了人们对教育测验的普遍关注,推动了教育测验问题的研究,莱斯由此也被称为教育测验的创始人。
20世纪初,桑代克(Edward Lee Thorndike)等人深受费希尔的影响,把心理测量和统计的基本原理和方法运用于教育,使教育测验走上了科学化的道路。桑代克是教育测验的代表人物,认为:“凡是存在的东西必然有其数量,凡是有数量的东西必然能够度量。”⑤ “凡是存在着的东西,都是以某种量的形式而存在。彻底的信识不仅包括质的方面,也包括量的方面。”⑥
此后,教育测验的重点定格在各种测验量表的编制方面。目前,许多国家还在继续使用测验量表。在美国州教育厅的网站上,可以很容易地查阅到一些学科的测验量表以及评分规则。现在,这些测验量表也被称为“参照作业样本”,其中包括了表示各个等级的学生作业样本,便于教师、学生和家长把学生的作业与“参照作业样本”进行比较。
2. 标准化测验19世纪末20世纪初,美国教育界大力推崇教育测验的理论与方法,掀起了一场“科学测验运动”,在各门学科采用教育测验,如算术测验、阅读测验等,其直接结果和最大成果就是大规模地推行标准化测验(standardized test)。
标准化测验的目的是提高测验的准确性、可靠性和可比性。它要求测验的每一个环节都要达到标准化,包括测验题目的标准化、施测过程的标准化、评分和计分的标准化以及评价结果解释的标准化。在施测时,让全体考生在相同的测试环境里,回答同样的测验题目。由于测验题目、施测条件、评分和计分都是“标准化的”,因此就提高了评价结果的准确性和可靠性,不同学生、不同班级、不同学校或不同地区之间的分数也就有了可比性。
到了20世纪30年代,“客观试题”(亦称“选择性反应题”)开始风靡,显示出客观、公正、容易批改、计分方便等优势,如选择题(多项选择题)、正误判断题(是非题)、匹配题(配对题)、完型填空题、排序题等。最初,标准化测验的编制与阅卷主要采用人工方式。随着计算机技术的介入,编制和阅卷工作开始依靠题库和机器。最近几年,由于文档扫描技术和计算机驱动的文件管理系统的问世,处理书写答案和计分已经达到相当准确、高效的水平,美国在州一级的物理、化学、社会学的标准化测验中,已经开始尝试引进简答题。
多少年来,人们过度且盲目地推崇标准化测验,把目光聚焦在它的优势方面,从而忽略了它的弊端。大家总是认为,标准化测验具有很高的“分辨率”,能够精确地判断学生的学业水平。然而,在推行过程中,其优势和缺陷逐渐显现出来。应该说,标准化测验有别于传统的考试制度,其科学性达到了前所未有的高度,不是传统的的考试方法可以比拟的。在测定学生的学习结果的过程中,它将数学方法渗透到各个环节,发挥着特殊的作用。然而,标准化测验并不是一个“分辨率”很高的的测量工具,它比较适合数学、物理、化学等学科,而美术、音乐等学科比较适合采用定性分析的方法。
其实,“客观试题”也没有常人想像的那样完美无缺,其客观性也值得怀疑。所谓“客观”,仅仅是指评分时的“客观”,因为客观题只有一个标准答案或一个最佳答案,学生选择的答案只能非对即错。绝对客观是不存在的。在编制客观试题的过程中,根本不可能达到绝对客观的要求。考查哪些内容?编制多少试题?如何表述试题?设置什么干扰项(模棱两可的错误答案)?在思考和判断此类问题时,必然反映出试题编制者的个人倾向、个人意向、个人经验或个人观点。况且,无论考生水平如何(甚至一窍不通),只要他们借助猜题手段,都可以获得一定的分数。多项选择题备有A、B、C、D四个选项,考生的猜中率可以达到25%;正误判断题只有正误两个选项,考生的猜中率可以高达50%。在测试期间,谁也无法阻止考生的猜题行为,考生最后获得的成绩并不“客观”,它没有真实反映考生的实际水平,因为其中一部分是考生的实际成绩,另一部分是考生猜题的成绩。此外,“客观试题”难以考查学生的能力、情感、态度、兴趣等,只能判断出学生学业的大致水平。
(三) 学生评价时期1930年以后,进入了学生评价时期,其代表性事件是“八年研究”和替代性评价革命。在这期间,教育测验还是一个重要的评价工具,但不再是唯一的评价工具,教师也不再是纯粹的“教育测验技术员”。
1. “八年研究”“八年研究”(the Eight-Year Study),亦称“三十校实验”。1933年—1940年,美国进步教育协会以杜威的教育理论为依据,就中等教育与大学的关系问题开展了一项调查研究活动,因历时八年,故得名。“八年研究”不仅对美国教育产生了重大影响,而且奠定了学生评价的理论基础,促进了学生评价实践的发展,使学生评价成为改进教育、教学、课程与管理的手段之一。
1942年,艾金发表了题为《“八年研究”的历程》的研究成果报告,第一次使用了“教育评价”(educational evaluation)这个专业术语,详细阐述了评价原理和方法,并以全面发展学生的才能为主要目标,悉心设计出一系列有别于教育测验的评价方法。当时,“教育评价”这个专业术语的内涵比较狭隘,近乎“学生评价”的同义词,还没有涉及到教师评价、课程评价和学校评价。这个报告的主要思想可以概括如下:⑦
·教育是一个使受教育者的行为方式发生变化与改进的过程,学生评价要测定受教育者在教育的作用下达成教育目标的程度。
·教育不是单纯地传授知识,学生评价也不是单纯地测定学生掌握知识的程度,应该从人的全面发展的角度,对学生的智能、思想、志趣、理想、健康等作出全面的评价。
·学生评价不仅要测定学生个人的发展程度,而且要测定影响学生发展的各种因素,如教师、课程、教材、学校等的因素。
·学生评价不仅包括纸和笔的测试,而且包括一系列新的方法。
·学生评价应从原先单测知识的教育测验方法,转变为综合运用各种有效的方法。
《“八年研究”的历程》被誉为“划时代的教育评价宣言”,其提出的评价原理和方法不仅在美国被广泛采用,而且很快传至世界各地,被许多国家竞相采用。
2. 替代性评价革命20世纪80年代末至90年代,美国掀起了一场替代性评价革命(alternative assessment)。替代性评价革命,亦称“替代性评价运动”或“寻找替代标准化测验的运动”,旨在设计出能够替代标准化测验的评价方法。
当时,美国教育界普遍感受到,在学生评价过程中,仅仅采用标准化测验已经无法满足现实的需要。标准化测验不应像过去那样,继续占据学生评价的主导地位,必须改变过分依赖标准化测验的状况,转而开发和使用更加科学有效的评价方法。
在替代性评价革命期间,出现了许多新的学生评价方法,如真实性评价(authentic assessment)、表现性评价(performance assessment)、学习档案袋评价(portfolio evaluation)、学生参与式评价(student-involved assessmen)等。尽管这些方法的着眼点有所不同,但它们都在试图克服标准化测验的缺陷。替代性评价的主要特征包括:不仅鉴别和选拔学生,而且诊断和促进教与学;不仅评定学生学习和掌握基础知识和基本技能的程度,而且评定学生综合运用多门学科基础知识和基本技能的能力;不仅评定学生的博学,而且评定学生智力、社会、情感、身体等多方面的潜能和素质,如创新能力、实践能力、社交能力、团队精神、情感、习惯等。
这里,比较一下标准化测验的试题与替代性评价的试题。我们可以发现,标准化测验试题比较适合考查学生对知识的掌握,替代性评价试题不仅考查学生对知识的掌握,而且考查学生对知识的综合运用以及创新能力、实践能力、团队精神、合作态度等。
标准化测验试题:请用直线对下列省份与省城进行匹配。
江苏省 济南市
江西省 杭州市
山东省 福州市
福建省 南昌市
浙江省 南京市
替代性评价试题:请为当地编制一本简易的旅游手册,内容包括历史、地理、旅游景点、交通工具等信息。
随着替代性评价革命的深入和发展,人们逐渐感受到:替代性评价倡导的学生评价理念,确实视野开阔,令人眼睛一亮,与之相配套的学生评价方法确实弥补了标准化测验的某些不足。然而,最近几年,一些教师开始对替代性评价方法提出了一连串的批评,如:替代性评价方法比较耗财,比较费时,对教师要求太高,难以确保评价结果的客观和公正,等等。
四、结语可见,学生评价的发展轨迹是一个不断传承和创新的过程。考试制度、教育测验和学生评价始于不同时期,但是它们都一直延续至今,并各具特色。最早问世的考试制度并没有因为教育测验的出现而突然消亡,教育测验也没有因为学生评价的兴起而戛然而止。
在漫长的发展过程中,考试制度、教育测验和学生评价并驾齐驱,不断完善。它们之间不是后者取代前者的关系,而是外延不断扩大和内涵不断丰富的过程。与考试制度和教育测验相比,学生评价的方法更加多样,学生评价的范围也更加宽泛。
当然,我们也不无遗憾地发现:我国发明了考试,曾遥遥领先于世界几千年。但是现代意义上的“教育测验”和“学生评价”却先后发韧于英国和美国,我国仍然处于引进和借鉴他人研究成果的阶段。这个历程与我国从强盛到衰弱的发展历史基本吻合,与世界科学、技术、经济、文化的重心从欧洲逐渐移向美国的发展态势也基本吻合。如今,中国和平崛起,再创华夏辉煌,我国应该在考试制度、教育测验和学生评价以后的“后学生评价时代”有所作为。