面向课堂教学场景的大模型应用效应评价研究

doi:10.16382/j.cnki.1000-5560.2026.06.003

摘要/Abstract

摘要：

课堂教学是人才培养的主要渠道，在智能技术迅猛发展的背景下，大规模预训练语言模型已逐步渗透至教育场景，成为驱动教学范式转型的关键技术变量。然而，当前大模型在教育领域的应用效能存在显著异质性，且评估维度多局限于技术性能层面，其教学适切性与目标达成度亟待实证检验。本研究构建了“价值引导-知识建构-思维发展”三维评估模型，采用对比实验设计，对6款主流大模型（含国内外各3款）生成的中小学多学科（语文、数学、外语、理科综合、文科综合）课堂教学文本进行系统评估，并与专家教师设计的教学内容开展对比分析。研究发现：（1）在价值引导维度，教师教学呈现显著的德育主导型特征，国内大模型表现为均衡价值引导模式，在核心价值观各维度表现均衡，而国外大模型则呈现差异化价值导向特征，虽在社会责任等维度表现突出，但在国家认同、文化传承等方面存在结构性缺失；（2）在知识建构维度，教师表现出高度的课程内容聚焦性，而大模型则展现更强的知识延展性，尤其在跨学科知识网络构建方面具有显著优势；（3）在思维发展维度，大模型在促进高阶思维（包括复杂问题解决、知识迁移与创新思维）方面效果显著，而教师教学在陈述性知识掌握和情境化学习体验方面更具优势，但存在思维定势风险。研究旨在为教育实践者科学合理应用大模型、赋能课堂教学提质增效提供参考，为人工智能时代重构“人机协同”的新型教育范式、推动教育高质量发展提供了重要的实证依据。

关键词: 课堂教学, 大模型, 效果评价, 价值引导, 知识建构, 认知共同体.

Abstract:

Classroom teaching serves as the primary channel for talent cultivation. Against the backdrop of rapid intelligent technology development, large-scale pre-trained language models have gradually permeated educational scenarios, becoming a key technological variable driving the transformation of teaching paradigms. However, the current application effectiveness of large models in education exhibits significant heterogeneity, with evaluation dimensions mostly limited to technical performance aspects, while their pedagogical appropriateness and goal attainment urgently require empirical verification. This study constructs a three-dimensional evaluation model of “value guidance-knowledge construction-cognitive development,” adopting a comparative experimental design to systematically evaluate teaching texts generated by six mainstream large models (including three domestic and three international) across multiple K-12 subjects (Chinese, mathematics, foreign languages, integrated sciences, and integrated humanities), and conducts comparative analysis with expert teachers’ parallel lesson teaching records. The findings reveal that, first, in the value guidance dimension, teacher-led teaching demonstrates significant moral education-dominant characteristics, domestic models exhibit balanced value guidance with consistent performance across core value dimensions, while international models show differentiated value orientation—excelling in dimensions like social responsibility but displaying structural deficiencies in national identity and cultural inheritance. Second, in knowledge construction, teachers demonstrate high curriculum content focus, whereas large models exhibit stronger knowledge extensibility, particularly showing significant advantages in constructing interdisciplinary knowledge networks. Finally, in cognitive development, large models prove significantly more effective in promoting higher-order thinking (including complex problem-solving, knowledge transfer, and innovative thinking), while teacher-led teaching excels in declarative knowledge mastery and situated learning experiences but risks cognitive fixation. The study aims to provide references for educational practitioners to scientifically and rationally apply large models to empower classroom teaching improvement, offering important empirical evidence for reconstructing a new “human-machine collaborative” educational paradigm and promoting high-quality educational development in the AI era.

Key words: classroom teaching, large models, effect evaluation, values, knowledge construction, intellectual community

宋宇, 周爱民, 郝昊, 范梦雅. 面向课堂教学场景的大模型应用效应评价研究[J]. 华东师范大学学报(教育科学版), 2026, 44(6): 43-55.

Yu Song, Aimin Zhou, Hao Hao, Mengya Fan. Research on the Effect Evaluation of Large Model Applications in the Field of Classroom Teaching[J]. Journal of East China Normal University(Educationa, 2026, 44(6): 43-55.

图/表 7

表 1

表 2

思维发展编码介绍"

编码大类	编码含义与界定	思维培养功能
知识识记（Prior knowledge）	指个体对标准化知识、既定事实、常规习俗及他人言说的复现能力。其核心在于信息的准确提取与再现，对话内容高度依赖教材或既有知识体系，具有明确的正误判断标准。该层级仅涉及信息的存储与检索，无需个体对内容进行加工或建构，表现为对既有知识的复制性输出	夯实认知基础——引导学生准确获取并系统储存核心信息、基本概念与既定事实，掌握学科基本方法与规范，为高阶思维活动提供坚实的知识储备与认知工具
观点表达（Subjective Expression）	指个体基于自身经验与主观认知所形成的思想外显过程。教师通过开放性提问引导学生分享个人经历，鼓励其对事物表达个性化见解。该过程强调个体认知的独特性与自主性，不要求提供客观依据或理论支撑，体现的是个体对经验的直接反映与主观建构	激发个性化表达——鼓励学生基于个人经验与情感，真实、清晰地表达主观见解与观点，培养自我觉察能力与独立思考意识，使思维过程外显化、个性化
分析阐释（Elaboration）	指个体对信息进行解构、解读与评估的思维过程。其核心在于将抽象或复杂的知识内容分解为可理解的构成要素，并通过逻辑分析揭示其内在含义。教师在此过程中引导学生对知识进行层次化拆解，使其从理论形态转化为可感知、可理解的具体内容，体现的是个体对信息的加工与转化能力	深化分析理解——引导学生对复杂问题进行结构化拆解与逻辑推演，提升演绎推理与批判性思维能力，在层层深入的分析中实现对知识的深度理解与内化
比较归纳（Coordination）	指个体在不同信息之间识别关联、提炼共性并形成系统性认识的思维能力。教师通过提问与对话，引导学生在庞杂的知识体系中寻找内在逻辑，比较异同，进而归纳出具有普适性的规律与方法。该过程体现了认知从具体到抽象、从分散到系统的整合与建构	建构系统认知——培养学生从多维度、多视角审视问题的习惯，提升全局性思维与系统思考能力，通过比较、分类、关联等方式，自主发现并归纳事物运行的内在规律
迁移创新（Speculation）	指个体将已有知识迁移至未知情境，实现问题解决与知识创造的认知能力。其核心在于突破既有经验的局限，通过逻辑推演与合理预测，在已有信息基础上探索新的可能性。该过程不仅涉及知识的跨情境应用，更体现了个体在认知边界上的拓展与突破	激发迁移与创造——支持学生打破学科与情境的边界，灵活调动已有知识经验解决新颖或复杂问题，在探索与实践中发展创新意识、批判精神与知识迁移能力
拓展建构（Uptake）	指个体在既有讨论基础上，对观点进行深化、延伸或扩展的认知活动。其本质是对已有认知成果的再加工与再创造，通过深入挖掘、多维延展，推动思维的纵深发展。教师引导学生在此过程中实现从理解到重构的认知跃迁，体现了个体在知识建构中的主体性与创造性	培养反思与元认知——引导学生在倾听他人、参与协作中汲取多元视角，通过观点碰撞与自我审视，不断反思、修正并丰富自身认知结构，提升元认知能力与社会性思维能力

表 2

表 3

基于课堂教学场景的大模型提示词设计示例"

学科	主题	学段	课标要求	教学环节设置	教学形式	生成教学文本片段
语文	精卫填海	小学四年级	在短文阅读、语言积累和运用过程中，发现、感受语言的表现力和创造力。在语文学习过程培养联想想象、分析比较、归纳判断等认知能力	导入-新授-巩固-应用	提问-回答-反馈/评价的对话式教学形式	老师：炎帝的小女儿名字叫做女娃学生：炎帝之少女名曰女娃老师：女娃到东海游玩，不幸在海里溺水而亡，再也回不来了，于是化为一只惊卫鸟女娃游于东海学生：逆而不返，故为精卫老师：于是精卫常常衔着西山的树枝和石子来填塞东海。把东海填平学生：尝衔西山之木，迟以堙于东海老师：你们可真厉害，你们自己还有谁想要来挑战吗？想吗想好，那接下来请看好老师的合作要求。同桌合作，一人说句意，另一人说出相应的句子，可以吗？好，现在开始吧
语文	登鹳雀楼	小学二年级	诵读、记录课内外学到的成语、谚语、格言警句、儿歌、短小的古诗等，感受中华优秀传统文化，养成自主积累的习惯
数学	图形的基本运动-平移	小学五年级	能从平移、旋转和轴对称的角度欣赏生活中的图案，能借助方格纸设计简单图案，感受数学美，形成空间观念			老师：好，有想法了就举起你的小手。特别好。我们一起来看一看。好，金瑞，请你来学生：我发现做平移运动后的图形所有的点都平移了相同的长度，而且是朝着同一个方向平移的，不会说一些点向左，一些点向右老师：嗯你观察得很仔细，总结得非常到位，很棒。我们一起来看一看。同学们看。这些图形做平移运动之后。对应点的连线是一样的，而这个相同的长度我们就叫做平移的距离。刚才金瑞说他们都会朝同一个方向平移，而这个方向就是？学生：平移的方向老师：同学们看，刚才我们通过研究啊一下，就发现了原来图形做平移运动有这两个性质。好，下面请你结合平移距离，平移方向再完整。准确地说一说这3个图形做了怎样的运动，开始学生：我发现长方形向左平移了6格。我发现平行四边形向上平移了4个
数学	乘法的初步认识	小学二年级	在解决生活情境问题的过程中，体会数和运算的意义，形成初步的符号意识、数感、运算能力和推理意识
外语	Animals	小学五年级	种植与养殖，热爱并善待生命	导入-新授-巩固-应用	提问-回答-反馈/评价的对话式教学形式	老师：This time, can you tell me what does the cat saying of them? 学生：The elephant is strong and clever 老师：The cat says elephant is strong and clever. Yes. Why did the cat first mention the elephant? 学生：Because elephant is the cat's favorite animal 老师：Bingo, because elephant is a cat’s favorite animal. What about dog? What does he think? 学生：Dog thinks an elephant is too big and heavy
外语	Festivals	小学三年级	了解常见节假日，增强文化体验
文综	新中国初期的外交	初中八年级	认识这一时期取得的政治、经济、外交、国防、科技等成就及其具有的开创性、奠基性意义			老师：对那我们大家来谈谈对外交的认识学生：我觉得外交就是指的是过双方合作，然后促进国家经济的发展，促进祖国的经济发展，也就是外交的最终的目的是维护国家的发展老师：好，非常好。还有没有其他同学谈谈？学生：然后外交也为社会主义建设创造了不同的环境。老师：也就是说一个非常成功的国家的外交可以推动什么呀？对社会的发展学生：突出外交应该有实力，实力决定外交
文综	公民的基本权利	初中八年级	懂得公民的基本权利和义务，正确行使公民权利，自觉履行公民义务
理综	植物体的结构层次	初中七年级	绿色开花植物体的结构层次包括细胞、组织、器官和个体，高等动物体的结构层次包括细胞、组织、器官、系统和个体			老师：这是绿色开花植物的6大器官，根、茎、叶、花、果实和种子。下面我们来看一下他们既有哪些功能？各位器官既有哪些功能？好，请同学们看一下这条连线题，自己思考一下应该连哪一个，他们的器官和功能连起来。连好了没有？连好了，我们来看一下根连的是哪一个学生：吸收水和无机盐老师：对，吸收水和无机盐的吗？茎呢？学生：可以运送水和无机盐等物质老师：运送水和无机盐等物质，叶呢？学生：叶可以进行光合作用和制造有机物
理综	碱的性质研究	初中九年级	以盐酸、硫酸、氢氧化钠和氢氧化钙为例，通过实验探究认识酸、碱的主要性质和用途

表 3

表 4

表 5

表 6

图 1

参考文献

	崔允漷,等. (2024). 中国基础教育课程改革学术话语体系的自主建构. 华东师范大学学报(教育科学版), 42 (11), 154- 170.
	丁培耕, 刘智威, 王金桥. (2024). 多模态人工智能大模型综述及展望. 无线电工程.
	林小红, 钟柏昌. (2024). 人工智能教育大模型赋能综合素质评价: 理念、模型与展望. 开放教育研究, 30 (6), 72- 78.
	卢宇, 余京蕾, 陈鹏鹤. (2024). 基于大模型的教学智能体构建与应用研究. 中国电化教育, (7), 99- 108.
	宋宇, 杜蕾, 王晶莹, 范梦雅. (2026). 思维导向的科学课堂师生互动分析. 教育发展研究, 46 (02), 44- 51.
	王一岩, 吴国政, 郑永和. (2024). 生成式人工智能赋能教育信息科学与技术研究: 新机遇、新趋势、新议题. 现代远程教育研究, 36 (6), 46- 54.
	杨文阳, 杨益慧. (2024). 聚焦可解释性: 知识追踪模型综述与展望. 现代教育技术, 34 (5), 53- 63.
	杨宗凯, 王俊, 吴砥, 陈旭. (2023). ChatGPT/生成式人工智能对教育的影响探析及应对策略. 华东师范大学学报(教育科学版), 41 (07), 26.
	袁振国. (2024). 重塑未来——教育数字化之于教育强国建设的突破性意义. 教育研究, 45 (12), 4- 12.
	赵睿卓,等. (2024). 大语言模型评估技术研究进展. 数据采集与处理, 39 (03), 502- 523.
	郑永和, 周丹华, 张永和, 田雪葳, 王晶莹, 郑一. (2023). 计算教育学视域下的ChatGPT: 内涵、主题、反思与挑战. 华东师范大学学报(教育科学版), 41 (07), 91- 102.
	钟启泉. (2011). “三维目标”论. 教育研究, 32 (9), 62- 67.
	钟启泉. (2022). 基于“跨学科素养”的教学设计——以STEAM与“综合学习”为例. 全球教育展望, 51 (01), 3- 22.
	Alexander, R. J. (2017). Towards Dialogic Teaching: Rethinking Classroom Talk (5th ed. ). Dialogos UK Ltd.
	Bloom, B. S. (1956). Taxonomy of educational objectives: the classification of educational goals: Handbook 1: Cognitive domain. D. McKay.
	Howe, C., & Abedin, M. (2013). Classroom dialogue: A systematic review across four decades of research. Cambridge journal of education, 43 (3), 325- 356.
	Howe, C., Hennessy, S., Mercer, N., Vrikki, M., & Wheatley, L. (2019). Teacher–student dialogue during classroom teaching: Does it really impact on student outcomes?. Journal of the learning sciences, 28 (4-5), 462- 512.
	Jeon, J., Lee, S., & Choe, H. (2023). Beyond ChatGPT: A conceptual framework and systematic review of speech-recognition chatbots for language learning. Computers & Education, 206, 104898.
	Ouyang, F., Wu, M., & Gu, J. (2024). Using multilayer network analysis to detect the collaborative knowledge construction characteristics among learner groups with low, medium, and high levels of cognitive engagement. Computers & Education, 223, 105173.
	Piaget, J. (1977). The development of thought: Equilibration of cognitive structures. Viking Press.
	Song, Y. (2024). Enhancing classroom dialogue productiveness: Exploring the potential of artificial intelligence. Routledge.
	Song, Y., Huang, L., Zheng, L., Fan, M., & Liu, Z. (2025a). Interactions with generative AI chatbots: unveiling dialogic dynamics, students’ perceptions, and practical competencies in creative problem-solving. International Journal of Educational Technology in Higher Education, 22.
	Song, Y., Wang, J., Chen, Y., Zhang, J., & Xu, C. (2025b). Exploring the potential of adopting an interactive mixed-reality tool in teacher professional development: Impact on teachers’ self-efficacy and practical competencies of dialogic pedagogy. Computers & Education, 238, 105390.
	Urban, M., Děchtěrenko, F., Lukavský, J., Hrabalová, V., Svacha, F., Brom, C., & Urban, K. (2024). ChatGPT improves creative problem-solving performance in university students: An experimental study. Computers & Education, 215, 105031.
	Vygotsky, L. S. (1978). Mind in society: The development of higher psychological processes. Harvard university press.

编码名称	课标关键词	编码缘由与释义
政治理论与思想教育	马克思主义中国化、习近平新时代中国特色社会主义思想、社会主义核心价值观、爱国主义教育、革命传统教育、政治思想、思想品德教育、毛泽东思想、革命精神等	涉及政治理论、国家指导思想和意识形态教育，强调对国家政治理论的理解和认同
道德与法治教育	道德与法治、法治素养、德智体美劳全面发展、德育为先、思想品德、道德规范、法治观念、习近平法治思想等	关注个人道德发展和法治意识的培养，强调法律和道德规范在个人成长中的重要性
文化传承	中华优秀传统文化、社会主义先进文化、革命文化、中华文化认同感、中华人文精神、传统美德、文化自信等	强调文化传承的重要性，包括中华传统文化、革命文化和先进文化的教育和传播
国家意识与民族精神	中华民族共同体意识、民族自尊心、民族凝聚力、民族自豪感、民族尊严、国家利益、民族气节等	涉及对国家和民族的认同感、归属感和自豪感的培养，强化国家意识和民族精神
社会发展与责任	社会公德、社会责任感、社会和谐、社会责任、社会贡献、社会公德、集体意识、德智体美劳全面发展的社会主义建设者和接班人等	关注个人在社会发展中的角色和责任，强调对社会的贡献和参与

类别	均值%（标准差%）							多重比较	均值差（I-J）	F	p	Partial η²
	国际			国内			教师
	ChatGPT	Claude	Gemini	DeepSeek	智谱清言	通义千问	教师
政治理论与思想教育	4.72 (9.59)	4.05 (8.07)	4.85 (9.89)	4.10 (8.84)	4.35 (8.09)	4.46 (8.13)	8.34 (8.50)	国际-教师	−3.80**	60.66	<.001	.968
政治理论与思想教育	4.72 (9.59)	4.05 (8.07)	4.85 (9.89)	4.10 (8.84)	4.35 (8.09)	4.46 (8.13)	8.34 (8.50)	国内-教师	−4.04**	60.66	<.001	.968
道德与法治教育	11.33 (6.61)	12.70 (8.38)	12.12 (10.59)	15.12 (8.88)	13.85 (8.83)	12.38 (8.99)	16.12 (8.26)			5.653	.068	.739
								\	\

文化传承与创新	25.09 (11.42)	23.29 (9.47)	26.74 (13.21)	27.77 (11.66)	24.14 (11.14)	24.32 (10.76)	26.47 (11.16)	\	\	0.214	.816	.097
国家意识与民族精神	6.05 (6.32)	5.65 (7.06)	5.59 (6.19)	5.51 (6.71)	5.90 (6.60)	6.32 (6.20)	8.76 (4.86)	国际-教师	−3.00**	32.463	.003	.942
国家意识与民族精神	6.05 (6.32)	5.65 (7.06)	5.59 (6.19)	5.51 (6.71)	5.90 (6.60)	6.32 (6.20)	8.76 (4.86)	国内-教师	−2.85**	32.463	.003	.942
社会发展与责任	52.81 (16.05)	54.31 (16.02)	50.70 (17.64)	47.50 (15.12)	51.77 (16.88)	52.52 (16.59)	40.32 (10.28)	国际-教师	12.30*	10.841	.024	.844

组别	实体密集度	关系类型密集度	平均最短路径长度
ChatGPT	1.61	0.22	2.70
Claude	1.63	0.19	2.75
Gemini	1.74	0.27	2.21
DeepSeek	1.96	0.23	2.28
智谱清言	1.83	0.23	2.76
通义千问	1.60	0.20	2.96
教师	1.19	0.52	1.75

类别	均值%（标准差%）							多重比较	均值差（I-J）	F	p	Partial η²
类别	ChatGPT	Claude	Gemini	DeepSeek	智谱清言	通义千问	教师	多重比较	均值差（I-J）	F	p	Partial η²
知识识记	27.45 (7.40)	29.37 (7.64)	41.63 (10.08)	31.13 (11.80)	27.83 (6.19)	33.06 (7.93)	46.95 (17.02)	GPT-Gemini	−14.18**	4.987	<.001	.336
								GPT-教师	−19.50*
								Claude-Gemini	−12.26*
								Gemini-智谱	13.80**
								智谱-教师	−19.12*
观点表达	6.49 (4.74)	9.25 (6.38)	7.71 (4.54)	6.68 (6.54)	7.35 (6.28)	6.91 (5.81)	16.58 (10.51)	GPT-教师	−10.09***	3.555	.004	.211
								Claude-教师	−7.33**
								Gemini-教师	−8.87**
								DS-教师	−9.90**
								智谱-教师	−9.23**
								千问-教师	−9.67**
分析阐释	13.42 (3.23)	10.81 (3.19)	8.77 (2.86)	10.35 (3.37)	12.86 (2.94)	10.28 (2.84)	6.57 (4.17)	GPT-Claude	2.61*	6.482	<.001	.327
								GPT-Gemini	4.65***
								GPT-DS	3.07*
								GPT-千问	3.14*
								GPT-教师	6.85***
								Claude-教师	4.24**
								Gemini-智谱	−4.09**
分析阐释	13.42 (3.23)	10.81 (3.19)	8.77 (2.86)	10.35 (3.37)	12.86 (2.94)	10.28 (2.84)	6.57 (4.17)	DS-教师	3.78**	6.482	<.001	.327
								智谱-教师	6.29***
								千问-教师	3.71**
比较归纳	12.08 (2.38)	11.88 (3.45)	10.03 (3.68)	9.31 (3.51)	14.63 (2.86)	13.43 (4.65)	6.67 (3.95)	GPT-教师	5.41***	7.064	<.001	.346
								Claude-教师	5.21***
								Gemini-智谱	−4.60**
								Gemini-千问	−3.40*
								Gemini-教师	3.36*
								DS-智谱	−5.32***
								DS-千问	−4.12**
								智谱-教师	7.96***
								千问-教师	6.76***
迁移创新类	14.06 (3.20)	13.66 (3.20)	8.62 (2.71)	15.77 (4.66)	14.89 (4.49)	10.42 (2.81)	5.04 (5.59)	GPT-Gemini	5.44**	12.115	<.001	.476
								GPT-千问	3.64*
								GPT-教师	9.02***
								Claude-Gemini	5.04**
								Claude-千问	3.24*
								Claude-教师	8.62***
								Gemini-DS	−7.15***
								Gemini-智谱	−6.27***
								Gemini-教师	3.58*
								DS-千问	5.35**
								DS-教师	10.73***
								智谱-千问	4.47**
								智谱-教师	9.85***
								千问-教师	5.38*
拓展建构类	26.50 (5.22)	25.04 (4.00)	23.24 (5.93)	26.76 (7.77)	22.45 (3.70)	25.90 (5.26)	18.20 (10.28)	\	\	1.957	.099	.173

[1]	吴砥, 吴河江. 通用大模型教育应用的潜在风险及其规避——基于技术伦理的视角[J]. 华东师范大学学报(教育科学版), 2024, 42(8): 64-75.
[2]	宋宇, 许昌良, 朱佳, 柴少明. 面向思维培养：基于精准标注技术的智能化课堂教学分析及应用[J]. 华东师范大学学报(教育科学版), 2023, 41(8): 79-89.
[3]	荀渊. ChatGPT/生成式人工智能与高等教育的价值和使命[J]. 华东师范大学学报(教育科学版), 2023, 41(7): 56-63.
[4]	于述胜. 教育史学科建立时期的中国问题解读舒新城中国教育史研究的学术理路[J]. 华东师范大学学报(教育科学版), 2007, 25(4): 87-95.
[5]	黎琼锋, 王坤庆. 引导选择:让教学成为丰富的价值世界[J]. 华东师范大学学报(教育科学版), 2005, 23(4): 9-16.
[6]	刘志军. 试论课堂教学质量评价标准的建立[J]. 华东师范大学学报(教育科学版), 2002, 20(2): 35-41.