2025-10-23
引用格式:姚昊, 刘思成. 新高考改革对县中教师工作状态与学生素养提升的影响研究: 基于A省大规模教师问卷调查数据[J]. 中国考试, 2025(10): 13-22.作 者姚昊,同济大学高等教育研究所助理教授。刘思成,华东师范大学教育学部在读硕士生。摘 要:在新高考改革全面落地实施的背景下,基于A省高中教师的23436份问卷数据,本研究探讨了新高考改革对县中教师工作状态和学生素养提升的影响。研究发现,面对新高考改革,县中教师和学生在教学工作投入、科学和人文素养提升等方面表现出积极变化,相较于非县中具有更好的提升效果;进一步分析发现,县中开设的选科组合数目普遍低于非县中,省级示范性高中的选科组合数高于普通高中;而组合数量对学生素养提升起到正向调节作用,同时也会增加教师的教学负担,对其教学投入度与适应性产生一定的负向影响。研究建议相关部门重视县中发展,实行精准化、差异化支持策略,科学配置选科组合,完善教师激励与薪酬补偿机制。关键词:新高考改革;县域普通高中;县中教师;教师工作状态;学生素养 一、问题提出高考改革是一项事关千家万户的系统性工程,牵动着教育公平、人才选拔、社会流动等一系列核心议题。作为推进教育现代化、实现育人方式变革的重要抓手,新高考改革已成为自恢复高考以来最具深度与广度的一次综合性制度重构。2014年9月,上海、浙江作为首批新高考改革试点省份启动改革,至2025年7月,河南、陕西、山西、四川、云南、宁夏、青海、内蒙古等第五批8个省份的新高考正式实施,全国已有29个省份实施新高考改革,标志着这项改革进入全面落地与纵深推进的关键阶段。新高考改革以增强学生选择性、提升招生科学性和推动素养教育为导向,逐步构建以自主选科模式为核心的考试招生新机制,重塑高中阶段教育的组织方式与课程结构[1]。新高考改革的深入实施不仅对学生发展路径与学校课程体系产生重大影响,也对教师队伍的工作状态与职业适应提出了新的挑战与要求。在走班教学成为常态、科目组合日益多元、课程管理与教学方式深度重构的背景下,教师的教学组织能力、专业适配能力和对新高考改革的适应能力成为影响教育评价改革推进的关键变量。截至2024年,全国2846个县级行政区中,排除市辖区与县级市等行政单元后,共有1301个县[2],全国普通高中约1.58万所[3],其中县域普通高中(以下简称“县中”)占比过半,且在校生近六成在县中[4]。作为我国基础教育体系中数量庞大、覆盖面广的重要组成部分,县中在教育资源、师资结构、课程供给与管理能力等方面一直处于相对弱势地位。在新高考改革全面铺开、教学组织方式深度调整的背景下,县中面临的制度响应能力与资源承载水平之间的错位问题愈发明显。作为改革政策的基层执行主体,县中要在有限的资源条件下完成复杂的教学组织与课程管理任务;在选课走班推行的过程中,县中还面临师资结构与课程组合匹配度不足等问题,教师承担的教学任务更趋多样化与碎片化,专业适配与教学工作压力也随之增加。因此,围绕新高考改革情境下县中教师工作状态展开多层次调查分析,深入探讨提升其适应力的实践策略,不仅是破解县中改革瓶颈的关键切入点,也成为当前教育研究领域亟待解决的问题。尽管当前已有相关研究对新高考改革的理论向度、实践路径、教师角色、学生选科行为等展开分析,也有文献关注到县中在改革中的结构性困境,但对于县中教师这一特定群体在新高考改革中的工作状态以及县中学生在新高考改革中的素养表现,仍缺乏系统的调查研究。基于此,本文依托A省23436名高中教师的大规模调查数据,系统探讨新高考改革在县中的实施现状,深入分析改革对县中教师工作状态与学生素养的具体影响,并通过对县中与非县中实施差异的比较,剖析其背后的机制与成因,以期为县中教育改革的推进提供理论支持与实证依据,助力决策者与一线教育工作者更好地应对新高考改革带来的机遇与挑战。二、文献综述(一)新高考改革对县域高中教育资源供给提出严峻挑战新高考改革以增强学生选择权、推动个性化发展为核心目标,对我国高中阶段教育结构与运行方式进行了系统重塑。然而,在政策实际推进过程中,县域高中成为承压最显著的群体之一。相关研究发现,县中应对新高考改革存在诸多问题。例如,县域高中办学条件不足使其难以适应改革需要,随着改革推进加剧了经费短缺、教师数量不足、教学质量不高等问题,其现有模式难以应对学生健康成长、成才育人、选课走班等新要求;此外,县中教师对新高考认同性不足等问题也使县中在发展过程中形成了生态型困境[5-6]。从新高考改革对县中育人影响的角度看,改革后采用“3+3”高考模式降低了县域高中毕业生进入顶尖大学的可能性[7];另有研究发现,新高考改革对县中育人方式的积极影响有限,改革存在政策执行宽松、物质资源约束、管理过于集中等问题[8]。(二)新高考改革增加了教师数量需求及适应压力新高考改革对教师的影响主要聚焦于教师的数量与结构、情绪情感反应、工作量与适应性等方面。从教师数量与结构角度看,新高考改革中走班教学对高中教师的数量与能力有着更大的需求,并产生教师压力增大、教师学科结构难以满足要求以及教学工作考核评价机制不完善等问题[9]。针对新高考改革给教师带来适应性变化的相关研究发现,高中教师在工作和生活中对新高考产生消极情绪,同时也存在利益相关者互不理解等问题,形成改革阻碍[10]。基于浙江省新高考改革情境的质性研究发现,受访教师在改革推进中产生了担忧、焦虑与压力感等消极情绪,并通过集体沉默、回避与教研组宣泄等方式表达不满[11]。还有研究发现,在教育改革实践过程中,教师在学校管理、教学信念和实践、教师专业精神和培训计划等方面的认知参与、社会互动和情感体验等都发生急剧变化,并对教师的职业认同和工作适应性产生不利影响[12]。在教师的工作量与压力方面,新高考改革在综合素质评价、课程教材改革、选课走班、学生发展指导、考试方式、非教学事务等六个维度均增加了教师工作量[13];在此背景下,教师能否有效调适工作压力成为其改革适应能力发展的关键变量。从整体来看,教师职业压力水平偏高,教师压力管理亟须强有力的制度保障与组织干预[14]。(三)新高考改革在扩大学生科目选择自由度的同时催生新型应试策略新高考改革在育人目标上强调尊重学生个体差异与发展潜能,并试图通过提升科目选择自由度及引入综合素质评价机制等措施,推动学生培养方式由“统一性、应试导向”转向“多样性、素养导向”[15],具体影响表现在学生的科目选择、专业选择、知识技能、心理健康与综合素养等方面。在“选考—选学—选才”整体联动体系下,学生在学科选择、专业预期与职业规划三者之间的关系被前置到高中阶段。有研究发现,教育结构功能发生深刻转型,新高考基于学生成长和成才的需求形成了自主选考选课选学的育人新格局,从而引导学生实现学科兴趣和职业规划的统一、个人成长和立德树人的统一[16];还有研究指出,新高考改革有助于学生实现专业选择权,尤其对处境不利学生影响更为明显[17]。刘海峰等研究发现,高中生对高考选科制度与结果基本满意,并认为新高考改革的选科有利于大学专业的选择和职业发展,但也存在部分学生选科焦虑的问题[18];进一步研究发现,高中生对新高考改革的政策认同能够显著促进其素养发展,且该过程存在学校支持的中介效应[19]。李传宗对大学生调查研究发现,新高考生源大学生的专业兴趣显著高于传统高考生源学生,且高考改革产生的专业匹配中介作用可以显著提升学生的专业兴趣[20]。然而,也有研究提出不同观点,认为新高考改革虽然通过赋予学生更多科目组合选择促进了学生培养多样化、多元化,但是并没有改变高中应试教育的立场,并在教育实践中出现了功利化选科、套餐化教学等新形态弊病[21]。综上,目前关于新高考改革影响的研究虽已涉及教师工作状态与学生发展等核心议题,但仍存在三个方面的不足:一是现有研究较少区分县中与非县中学校、不同类型学校在改革实施过程中的具体差异,尤其缺乏基于大样本实证数据的系统比较分析,难以通过比较揭示县中群体的实际情况;二是已有研究多从单一主体(教师或学生)视角展开,未能有效整合教师工作状态与学生素养发展两大核心变量,难以全面把握新高考改革的整体影响效果;三是当前研究对新高考改革影响教师与学生发展的具体作用机制探讨较为有限。因此,本研究基于A省23436份高中教师调查问卷数据,通过组间差异分析、回归分析、调节效应检验等方法,从实证研究的角度就新高考改革对县中教师工作状态和学生素养的影响效应进行深入分析。本研究提出以下四个问题:1)新高考改革背景下县中教师和非县中教师的工作状态及学生素养表现如何,二者之间是否存在显著差异?2)学校对新高考改革的相关支持(如选科指导与教师培训)能否显著影响县中与非县中教师的工作状态及学生素养发展?3)县域内不同类型学校之间的支持效果是否存在差异性?4)学校对新高考改革的支持是否会通过某些调节机制作用于教师工作状态和学生素养培养?深入探究上述问题,对于新高考改革背景下优化县中教育环境、提升县中教师工作状态和学生素养培养具有重要的理论与现实意义。三、研究设计(一)数据来源以A省高中教师作为研究对象,在2023年进行全省高中教师问卷调查。首先,基于A省16个不同地(市)的高中学校数量和在校生规模分布进行分层随机抽样,并发放问卷,最终回收有效样本量为23436份。其次,基于A省调研发现,A省“县级市”相对于“县”而言已达到经济较为发达水平,其高中学校不具备典型的县中特征,因此排除“县级市”举办的高中,选取县级政府举办的普通高中作为县中研究样本,非县中包括地级市高中与县级市普通高中。最后,确定县中教师12578人(占比53.7%),非县中教师10858人(占比46.3%);其中男性教师12066人(占比51.5%),女性教师11370(占比48.5%);公办高中教师17988人(占比76.8%),民办高中样本5448人(占比23.2%)。(二)变量选择与设计1.被解释变量学生素养包括科学素养与人文素养,通过问卷调查方式获取数据,共两道题目,采用李克特四点计分,1代表明显下降,4代表明显上升。通过教师回顾性评价方式,依据教师对新高考改革实施前后学生素养水平的变化进行判断,得分越高表示教师感知到新高考改革后学生相关素养提升程度越明显。教师工作状态主要包括教师的教学投入度、适应性以及教师对工作量增加的感知程度共三个因素。其中,教学投入度通过单一题目测量,采用李克特五点计分,具体题目为“实施高考综合改革后,我认为我的教学投入度更高了”。教师适应性借鉴陶蕾等开发的教师适应性量表[22],从认知、知识、能力、压力等四个维度评价教师对新高考改革的适应性,采用李克特五点计分方法。本研究中,量表的内部一致性信度良好(Cronbach's α=0.892),验证性因子分析(CFA)指标为:RMSEA=0.072, CFI=0.994, TLI=0.981, SRMR=0.015,均达到常用参考标准,表明该量表信效度良好。教师工作量感知情况通过自评方式测量,题目为:“您感知高考综合改革对您日常工作量是否增加,如果增加了,具体增加量为 %”。2.解释变量核心自变量为学校针对新高考改革对教师与学生的支持度,用以反映学校在具体实践层面对教师与学生提供的资源支持。题目共有2道,主要采取是否作答,其中1代表学校开展了相应的针对性指导或培训,0代表学校未开展相关工作。题目分别为“学校有无关于高考综合改革进行学生针对性指导?”“学校有无针对高考综合改革进行教师的专项培训或专题性的研讨支持?”3.控制变量为减少遗漏变量带来的偏差,本研究基准回归中控制了多项可能影响教师工作状态和学生素养的变量,包括教师层面的性别、教龄、职称、学历、是否为班主任、是否有行政职务、是否有走班教学经验等因素,学校层面的学校类型(包括民办/公办、省级示范性高中/普通高中)、学生规模与班级数量等因素。同时,在异质性分析部分,本研究进一步将学校类型(省级示范性高中/普通高中)作为分组变量,以检验学校支持在不同类型学校中是否存在影响效应的异质性。(三)分析方法1.差异分析为了比较县中与非县中在新高考改革后教师工作状态和学生素养的差异,本文采用了差异分析方法。具体而言,通过独立样本t检验,对县中与非县中学校在教师工作投入、工作量感知、适应性、对新高考改革的支持度及学生素养和提供的选科组合数等方面进行差异检验,以确定不同类别学校在各指标上的差异显著性。2.基准回归模型为检验学校针对新高考改革是否进行指导,培训对教师工作投入度、教师工作量感知、教师适应性及学生素养(科学素养与人文素养)的影响,构建以下基准回归模型:Y=β0+β1Supporti+β2Xi+ε(1)公式(1)中,Y是因变量,包括教师工作投入度、教师工作量感知、教师适应性及学生素养,Support是解释变量,代表学校针对新高考改革的支持。β0是常数项,β1是在控制其他变量情况下,学校针对新高考改革的指导与培训对因变量的影响效应。控制变量Xi包括上文中所提及的教师层面与学校层面的控制变量;ε为随机误差项。3.调节效应模型已有研究发现,伴随新高考而来的选课走班制对教师工作量与学生素养均会产生一定的影响[13,19]。新高考改革中的选课走班制通过增加学生的科目自主选择权,直接引起学校选科组合数量的变化。选科组合数量不仅直观反映了学校课程结构和教学组织模式的多样性程度,也能够间接衡量学校资源配置水平与教师教学工作的复杂程度。为进一步探讨学校对新高考改革的支持是否通过这一因素产生调节效应,进而影响教师的工作状态和学生素养,本研究在基准模型的基础上引入了交互项,以构建调节效应模型,从而探究选科组合总数在学校支持与因变量之间的调节作用。具体调节效应模型设定如下:公式(2)为调节效应模型,其中增加调节变量Zi以表示学校开设的选科组合总数;通过引入交互项Supporti×Zi检验选科组合总数是否在学校支持与因变量之间产生调节作用,以进一步分析新高考改革政策影响的作用路径。四、实证分析结果(一)样本教师群体的总体情况本研究中,教师的教学投入度平均值为3.92,处于较高水平。教师对学生科学素养与人文素养的评价均值分别为3.08与3.06,说明教师普遍认为改革后学生素养有所提升。在新高考改革背景下,教师普遍感受到工作强度增加,平均工作量感知增幅为37.97%。在改革支持措施方面,90.16%的学校开展了教师培训,94.07%的学校对学生开展了选科指导。教师群体中,具有走班教学经验的人占比14.02%,担任班主任的占比33.74%,有行政职务的占比12.52%。从基本特征来看,男性占51.39%,平均教龄为16.67年,学历总体以本科及以上为主。(二)新高考改革下县中与非县中学生素养与教师工作状态的差异性分析分析新高考改革下县中教师工作状态与学生素养的表现差异。相关题项包括两大维度五个具体变量,其中学生素养包括科学素养和人文素养,教师工作状态包括教师工作投入、教师工作量、教师适应性,具体结果见表1。由表1可知,在学生素养方面,教师对县中学生综合素养评价反而较非县中提升更高。通过分析问卷数据发现,县中学生科学素养提升均值为3.113,人文素养提升均值为3.097;非县中学生科学素养提升均值为3.039,人文素养提升均值为3.014,两者之间存在显著差异(p<0.001)。这说明新高考改革后,县中和非县中的学生科学素养和人文素养均有所提升,但县中学生的提升幅度更大。教师工作状态方面,县中教师相对非县中教师对新高考适应性相对更高。在适应高考综合改革的能力方面,县中教师对高考综合改革的总体适应性得分均值为3.849,非县中教师的得分均值为3.818,两者差异显著(p<0.001)。此外,非县中教师的工作量相对县中教师工作量更大,但教学投入度方面县中教师更高。新高考改革后,县中和非县中教师普遍认为工作量有所增加。县中教师认为工作量平均提升了37.032%,非县中教师认为工作量平均提升了39.053%,两者差异显著(p<0.001)。进一步分析表明,这一现象在很大程度上与学校提供的选科组合数量有关,见图1。数据显示,县中省级示范性高中的选科组合数量为5.587,县中普通高中的选科组合数量为5.455;而非县中省级示范性高中的选科组合数量则达到7.235,非县中普通高中的选科组合数量为5.333。选科组合数量总体呈现省级示范性高中明显高于其他类型学校的特征,反映出不同类型学校在资源配置和课程设置上存在不均衡现象。选科组合数量较少在县中学校中成为一个重要特征,这在一定程度上降低了课程安排和管理的复杂性,教师的适应成本和教学压力相对较低,进而能够更有效地整合教学资源,减少教师走班教学带来的管理负担,从而维持教学质量的相对稳定。(三)学校新高考改革支持情况对教师工作状态与学生素养的回归分析对教师工作状态的回归分析可知,不管是县中还是非县中,学校支持可以显著提升教师的工作状态,但影响程度略有差异。在县中,学校支持对教师工作投入的影响系数为0.282(p<0.01),对工作量感知的影响为-4.616(p<0.01),对适应性的影响为0.305(p<0.01),均为显著正向影响。这说明学校提供的培训和指导能够显著提升县中教师的工作积极性和投入度,减少其工作负担感受,并提高其适应新高考改革的能力。在非县中,学校支持对教师工作投入的影响系数为0.249(p<0.01),对工作量感知的影响为-4.175(p<0.01),对适应性的影响为0.283(p<0.01),同样表现出积极影响,但影响程度整体略低于县中教师。总体来看,学校对新高考改革的支持在提升教师工作投入、适应性与减少教师工作量感知方面具有显著效果,特别是对县中教师的提升作用更为明显。对学生素养的回归分析可知,两类学校为学生提供关于新高考改革方面的指导能够显著促进学生的科学与人文素养发展,其中人文素养方面的提升效果尤为显著。学校支持对县中学生的科学素养影响系数为0.211(p<0.01),对人文素养影响为0.245(p<0.01),均为显著正向影响。非县中学生的科学素养和人文素养受学校支持的影响系数分别为0.180(p<0.01)和0.185(p<0.01),也表现出显著正向影响。(四)学校支持对教师工作状态与学生素养回归的异质性分析研究进一步从学校类型(省级示范性高中/普通高中)角度对回归结果进行异质性分析,各组回归均加入控制变量并使用chow检验对组间系数差异进行检验,结果见表2。在学校支持对教师工作投入的提升效果上,非县中省级示范性高中表现出较为明显的优势,回归系数为0.323,显著高于其他类别高中(通过chow检验,下文表同),说明非县中示范性学校在新高考改革的推动下,具备更强的资源整合能力,可以通过丰富的支持措施有效增强教师的工作积极性。在学校支持对教师适应性提升的影响方面,非县中省级示范性高中的适应性提升效果同样优于县中,说明非县中该类型学校的教师能够在学校的相应支持下,更快适应新的教育变革。而在普通高中,县中教师的适应性提升效果相对更为突出。从县中内部比较则发现,学校支持对普通高中教师适应性提升方面的影响更为明显。此外,省级示范性高中的学校支持对教师工作量减少的影响效果均显著,其中非县中的减负效果略优于县中。而在普通高中层面,县中学校通过优化资源配置和有效的工作负担管理,使得教师的工作负担减少幅度较非县中明显更大。在县中内部的比较结果则显示,学校支持对县域内普通高中教师的工作量减少的影响程度相对优于省级示范高中。在学生科学与人文素养的提升方面,县中学校整体表现优于非县中学校。这一结果表明,虽然县中学校教育资源较非县中而言相对匮乏,但通过新高考改革中的资源集中配置和学校针对性的支持,县中学校能够有效提升学生素养,尤其是在县域普通高中产生了更强的边际效应。在县中内部进行比较可以发现,普通高中的支持对学生科学与人文素养提升效果方面均优于省级示范性高中,这一结果可能与普通高中学生的基础相对薄弱有关。在学校的支持下,普通高中学生可能因此呈现更为显著的进步。同时,普通高中可能倾向于将相对有限的资源进行更为集中的配置,因此教师和学生的专注度可能相对更高。同时,相较于省级示范性学校,普通高中在选科组合的开设上更为有限,从而为学生提供了更有针对性的课程选择,进而能够在特定科目组合下显著提升其学生素养。针对这一现象,下文将通过进一步的实证分析对其进行解释。(五)学校选科组合数量的调节效应为进一步探究选科组合数量在学校支持对教师工作状态和学生素养影响中的调节效应,研究在前述回归模型的基础上加入“选科组合数和学校支持”的交互项,结果见表3。结果发现,在控制其他变量后,学校支持对教师工作投入、适应性及学生科学素养和人文素养均表现出显著的正向影响,而交互项在不同维度中的作用存在显著差异。首先,在教师工作投入度和适应性回归结果中,交互项的系数为负。这表明,选科组合数量在学校支持与教师工作投入及适应性之间存在显著的负向调节效应,即选科组合的增多削弱了学校支持对教师工作投入度和适应性的正向影响。可能的原因是,较多的选科组合意味着教师需承担更加多样且复杂的教学任务,并需要进行频繁的跨科目协作与资源调配,这直接增加教师的备课、授课及管理任务负担,也降低了教师对学校改革支持措施的积极响应。相较之下,交互项在学生科学素养和人文素养回归中的系数为正,且在1%的显著性水平下显著(系数均为0.012,p<0.01),表明选科组合数量能够显著提升学校支持对学生素养所产生的正向影响。这表明随着选科组合的增加,学校的支持更能有效提升学生的科学素养和人文素养,其原因在于选科组合数量的增加为学生提供了更多个性化的选择路径,增强了课程设置的多样性,更能充分发挥学校所提供的支持措施的作用,学生能够充分利用多样化的选科机会,提升个体学习的积极性,进而有效促进其科学素养与人文素养的提升。五、结论与建议第一,新高考改革在县中与非县中均产生了积极影响,教师工作状态和学生素养提升的多个维度上存在明显的差异性。县中学生在科学素养和人文素养方面的提升幅度明显高于非县中学生,县中教师对新高考改革的支持度和适应性也均高于非县中教师,即县中教师对新高考改革带来的变化和挑战持更为积极的态度。这一结果可能与县中选科组合数量较少、教学安排更为集中有关。课程集中化降低了排课和管理复杂度,使教师能更专注于教学,减少了因改革带来的压力。相较之下,非县中学校选科结构复杂度高,教师工作强度更大,教学效能易受干扰。第二,学校层面的改革支持对教师和学生具有显著的正向作用,尤其在县中体现得更为明显。无论是针对教师的培训,还是面向学生的指导,均显著提升了教师的教学投入度和对改革的适应能力。大部分受访教师所在学校开展了系统的改革培训和选科指导,改革支持力度总体较强。在不同类型学校中,普通高中教师对学校支持的依赖程度更高,支持措施的边际效应更大,改革推动力更为显著。第三,选科组合数量对教师工作状态与学生素养提升均产生调节作用。选科组合越多,学生个性化发展空间越大,素养提升幅度越显著,但同时增加了教师的教学组织负担,削弱了其工作状态的提升效果。县中学校普遍采用选科组合集中策略,有利于教学资源配置与课程管理优化,短期内对提升教学效率具有积极作用。然而,组合数量过少可能压缩学生的选科自由度,限制其职业兴趣与学术潜能的发展空间,存在一定的长期隐忧。根据本研究结果,对县中教育教学提出以下三点建议。第一,相关管理部门应重视县中发展,实施差异化精准支持。县中在教师适应性和学生素养提升方面虽有成效,但整体仍面临资源短缺与支持能力不足等现实困境。因此,建议根据县域经济发展水平与学校办学层次,进行精准分类,实施分层次、分阶段的支持措施,在省级政府统筹下,由地方政府因地制宜推进,形成“基础保障”与“专项扶持”的政策组合,推动区域集团化办学和城乡结对帮扶,促进优质学校与薄弱县中的资源流动与互补。第二,优化选科结构,兼顾效率与多元。县中在选科组合方面采取精简策略,将有限的教育资源集中在核心学科领域,短期内确实有效提升了教学质量。然而,从长远来看,则可能限制学生的多元发展。因此,建议优化县中选科组合结构,在资源条件允许的前提下,依托区域教育资源共享机制与数字化教学资源,逐步丰富学科选择。第三,完善教师激励与薪酬补偿机制,提升教师适应能力。新高考改革通过选课走班模式重塑了教学管理体系,这在提升教育质量的同时,也显著增加了教师的工作复杂性与压力,若缺乏合理补偿,教师工作投入度将受到削弱。为此,建议地方政府和学校探索薪酬补偿与工作负担挂钩的动态补偿机制,根据教师承担的选课走班课程数量、跨班级教学频次与个性化辅导时间,设立相应的补贴措施,合理量化教师的实际工作负担,确保教师获得与付出相匹配的薪酬回报。
2025-10-09
原创 中国考试 中国考试 2025年09月24日 14:44 北京 引用格式:李峰, 郭嘉悦, 胡新雨, 等. 大语言模型辅助情境化命题模式探索: 以创造性思维测评为例[J]. 中国考试, 2025(9): 76-86. 作 者李 峰,北京师范大学人文和社会科学高等研究院、中国基础教育质量监测协同创新中心副教授。郭嘉悦,北京师范大学统计学院在读硕士生。胡新雨,北京师范大学统计学院在读硕士生。张佳慧,北京师范大学中国基础教育质量监测协同创新中心副教授(通信作者)。 摘 要:随着大语言模型在教育领域中的广泛应用,如何利用其提升命题质量和效率已成为重要课题。本研究基于PISA 2022创造性思维测评框架,聚焦科学问题解决,探索利用大语言模型辅助生成情境化任务的技术路径。研究以781篇科普文章为材料,采用篇章映射技术与提示词工程,调用大语言模型生成题目,并经人工筛选与修订后组织实施测验。对于1156份学生作答数据和17份出声思考记录的检验分析显示,题目具有良好的区分度、拟合度与内部效度。研究表明,大语言模型可有效提升情境化命题效率,但其生成的题目仍需依赖人工审校与优化。研究结果可为区域素养测评和过程性评价中的自动化命题提供技术参考。 关键词:创造性思维;大语言模型;情境化命题;简答题2020年5月,OpenAI发布了GPT-3,参数量达到1750亿,成为当时使用规模最大的语言模型,并在零样本学习任务上取得了突破。大语言模型(Large Language Models)从此进入快速发展和广泛应用阶段,并随着ChatGPT的推出进一步普及。大语言模型的快速进展为教育测评带来了新的可能性,已有不少研究验证了大语言模型在编程、线性代数、英语、医学、网络安全、阅读理解测验开发中的潜力。 作为驱动科技创新和社会发展的关键能力,创造性思维(creative thinking)已成为全球教育改革与质量评价的关注焦点。我国教育部印发的《义务教育课程方案和课程标准(2022年版)》及《普通高中课程方案和语文等学科课程标准(2017年版2020年修订)》均强调要提高学生的创新意识与创新精神[1-2]。国际教育评估领域近年来同样重视创造性思维的测量与比较,PISA 2022首次将15岁学生的创造性思维能力纳入评估范畴,提出结合真实或具体问题情境的“小创造力”(little-creativity)测量,关注学生在日常生活和学习中的创造性表现,评估其在真实或具体问题情境中的创造性反应[3]。 本研究聚焦PISA 2022创造性思维测评框架中的科学问题解决领域,以青少年科普杂志为材料来源,采用篇章映射(passage mapping)技术,使用大语言模型辅助生成创造性思维测评的情境化试题。在此基础上,通过分析真实的学生作答数据和出声思考资料,评估试题质量,从而探讨大语言模型辅助命题在创造性思维测评和情境化题目开发中的技术路径。 一、研究背景 (一)大语言模型辅助命题的进展 目前,大语言模型辅助命题已在多个学科领域取得积极进展。通用模型如GPT-3.5、GPT-4、ChatGPT与Bard(谷歌开发的对话式AI助手,现名为 Gemini)等在题目与测量目标的契合度、语言表达质量、认知层级覆盖、题目区分度等方面表现突出。不少研究认为其生成的题目与学习目标匹配度较高,但在相关性指标上略低于人工命题[4]。GPT-4与GPT-3.5在语言流畅性、逻辑通顺与语法正确性方面优于人工命题,尤其在计算机教育与阅读理解中表现明显[5-6]。虽然大语言模型命制的题目可涵盖理解、应用、创造等多个认知层级,但部分题目存在效度问题[7]。在医学教育、数学与阅读理解等多个领域,其生成的题目有较好的区分度[8-9],但涉及逻辑验证任务时,部分存在错误[10]。不同领域的研究者根据不同学科的知识特点与命题需求,探索了大语言模型辅助命题的路径和效果。其中,数学与科学教育、阅读理解以及医学教育是当前研究较为集中的三个领域。 在数学与科学教育领域,大语言模型能够较好地生成不同认知层级的题目,并在语言质量与干扰项设计方面优于人工命题,但在逻辑推理与程序执行类任务中仍存在不足。有研究基于教科书内容摘要,使用ChatGPT生成数学测试题,结果显示其测量学指标与教材原题基本相当,在中等难度题目的区分度方面甚至略优于原题[11]。在科学教育中,有研究发现GPT-3.5能够生成化学和生物学的高阶思维问题,其中涉及布鲁姆分类法中“评价”层级的题目表现尤为良好,题目复杂性与人工命题结果基本一致[12]。在计算机教育中,有研究依据Python课程模块与学习目标,使用GPT-4自动生成651多选题,与449道人工命题相比,在语言清晰度、正确答案唯一性和高质量干扰项编制方面均表现更佳,且题目内容与246个学习目标一致[5]。然而,在涉及程序执行逻辑验证的题目中约有三分之一题目存在逻辑性错误[10]。 阅读理解命题是大语言模型应用的另一个重要场景。多项研究表明,大语言模型能够生成覆盖多个认知层级的阅读理解题目,具备一定的区分度和信度;而通过模型微调(fine-tuning),可显著提升其在专业领域题目生成的质量与技能分布合理性。例如,有研究基于学院托福考试项目(TOEFL Institutional Testing Program)的三篇阅读理解文章,使用GPT-3.5生成了30道选择题,题目覆盖从分析到创造等多个认知层次,信度达到中等水平,但仅有三分之一的题目符合效度要求[7]。另一项针对1607名八年级学生作答数据的测量学分析显示,GPT-3.5生成的阅读理解题目具有良好的区分度,干扰项设计有效[9]。在探索从文本数据中生成问题的最佳方法时,有研究选取斯坦福问答数据集(Stanford Question Answering Dataset),分别对 distilBERT(Distilled Bidirectional Encoder Representations from Transformers)与LLaMA(Large Language Model MetaAI)模型进行微调,结果表明生成题目与基线题目的平均相似度超过60%,其中有30%的问题相似度达到70%[13]。在大学英语六级(CET-6)阅读理解题生成任务中,经过微调的模型在微技能分布、信度和拟合度方面接近人工命制的真题[14]。此外,在简答题生成方面,未经微调的BERT适用于通用型阅读理解题目,而微调后的BERT在生成专业性质题目时表现更好[15]。 在医学教育领域,大语言模型能够明显提升命题效率,生成的题目区分度普遍较高,但也存在个别选择题干扰项质量不高以及相关性指标有待提高的问题。例如,有研究基于高血压案例,利用ChatGPT生成了10道选择题,经专家评审后,其中两道题目被直接用于99名四年级医学生的考试,虽然个别干扰项质量有限,但仍表现出较高的区分度[8]。在循证医学领域,有研究使用ChatGPT生成15道题目,其中6道区分度达到可接受水平,研究者还利用OpenAI的GPT Builder平台,实现了基于学习目标的高度自动化命题,教师可快速生成基于临床案例的多选题[16]。还有研究基于本科医学教材,在医学研究生入学考试中利用ChatGPT在20分钟25秒内生成50道题,仅为人工用时的十分之一,除相关性略低外,其余指标表现良好[17]。 综上所述,从技术路径看,基于大语言模型的辅助命题主要包括两类。一类以提示词工程为核心,通常结合教材内容、学习目标或具体学科案例进行命题。为减少模型“幻觉”问题,此类方法多采用教材摘要、课程模块或阅读材料作为输入,通过大语言模型生成涵盖不同认知层级的选择题与简答题,在适切性、语言清晰度和区分度等方面表现良好。另一类是在完成预训练的大语言模型基础上,引入领域数据进行微调,以提升模型在专业知识掌握、术语理解和学科特异性逻辑推理等方面的能力。经过微调的模型在生成阅读理解简答题、专业性学科测试等任务中表现优于未微调模型,并与基准题目具有较高相似度。 (二)情境化命题 美国教育评价专家Wiggins最早提出真实性评估(authentic assessment)概念。他批评当时对标准化测试的使用方式过于片面且评价指标单一,认为尽管标准化测试具有效率优势,但真正的评估应当切实考查能力,这需要模拟真实情境中的挑战并完成典型任务,唯有如此才能促进学生的终身学习,并确保国家在教育方面取得进步[18-19]。 真实性评估包括场景化评估(scenario-based assessment,SBA)和情境化任务(contextualized tasks)两种常见形式。SBA强调真实情境中的复杂问题解决,典型应用包括医学领域的病人访谈与咨询模拟、商业领域的视觉海报制作、法律领域的客户会议准备及案件处理等[20],PISA的合作问题解决类测验较为接近SBA。情境化任务是在引入简化后的真实情境、相关材料及学科信息的同时,力求保留其核心特征的真实性。相较于SBA,情境化任务更侧重于在真实性和操作性之间取得平衡,PISA的阅读和创造性思维测验更接近情境化任务。真实性是情境化任务设计的关键。Cumming和Maxwell指出,若情境设计仅看似真实或刻板模拟,反而可能导致任务脱离实际应用情境,进而损害测评效度[19,21]。Constantinou通过分析英国应用数学(Functional Mathematics)考试中的527道情境化题目,提出强化真实性的四个原则:1)深度情境化,即将所有问题嵌入连贯的叙事背景中;2)情境平衡,即确保情境与课程目标一致;3)情境不可预测性,即避免模式化和可预测的情境设置;4)情境目的性,即确保情境对学生具有实际意义,而非仅表面关联[20]。 真实性是情境化任务设计的主要挑战之一。Tout和Spithill在总结PISA数学素养题目开发面临的挑战时指出,其核心难点在于寻找真实可信且能够被全球15岁学生理解并引发兴趣的数学情境。在命题实践中,情境化题目开发的一种常用方法是从现实生活情境入手,将其发展为完整的测试单元。然而,真实情境往往较为复杂,其中涉及的数学公式、数量信息及计算过程并不适合学生在考试环境中处理。此外,筛选和改编真实情境与任务需要投入大量的人力和时间成本[22]。另一种常用方法则是从特定数学概念或内容领域入手,尝试将其嵌入真实的任务背景中。然而,这种方法容易出现传统的课程式文字题,与现实世界的关联性与真实性不足。Tout和Spithill指出,尽管许多国家提交给PISA的题目倾向于采用后一种方法,但这类题目却很少在PISA的正式调查中被采用[23]。 从现实生活情境入手发展完整测试单元时,需要采取多种措施确保任务的情境化质量。PISA数学素养命题的实践经验表明,情境材料的审查应重点关注情境的真实性程度、阅读量的合理性、语言表述的清晰简洁、情境内容对目标群体的适切性与相关性、题干对材料核心信息的聚焦程度[23]。此外,PISA命题人员还广泛采用视觉辅助材料(如插图、图表与照片等),以降低阅读负担,增强任务的真实感受,提升学生对试题的参与度和兴趣[23]。 (三)创造性思维的概念与测评 创造力测评通常采用最佳表现测验,侧重考查个体的潜能上限。其代表性工具是托兰斯创造性思维测验(Torrance Tests of Creative Thinking),被广泛应用于测量发散思维的流畅性、灵活性、独创性和精细性[24]。我国已开发出多种本土化的测验工具,如《中学生创造性思维能力自评量表》和《中学生创造性思维量表》等[25-26]。这类测验题目相对固定,如发散思维测验可能要求“将四个图形组合成有意义的新图形”,而聚合思维测验则可能要求“找出每一题中与前面四个词或者三个词都有联系的一个词语”等[25]。 与此不同,PISA 2022将创造性思维设为独立评估领域,延续其素养导向的测评理念,强调在真实情境中生成并应用创意,将创造性思维定义为“能有效生成、评估和改进想法,以提出有创意和有实效的解决方案、知识产出或表达”的能力[3]。从创造过程的角度构建了产生多样化想法、形成创意、评估与改进想法三个维度,并基于此开发了书面表达、视觉表达、科学问题解决和社会问题解决四个领域的测试题目。 以PISA官方发布的样题“未来自行车”为例,该题目由三个任务构成,围绕15岁学生所熟悉的真实日常生活场景展开,通过多样化想法—形成创意—评估改进的任务序列,引导学生经历相对完整的创造性思维过程,考查学生改良自行车结构、优化防盗功能等日常生活中所需要的实用性创新能力;其评分主要关注学生能否提出具有新意且符合实际情境的解决方案[27]。 比较而言,传统创造力测验的题目固定、便于操作,但在任务真实性与外部效度方面存在局限;PISA创造性思维测评突出素养导向,在贴近学生生活和学习的情境中考查创意生成与应用能力,强调创造过程、实际意义与真实情境,但对命题人员要求较高,题目开发难度较大。 二、研究过程与方法 总体而言,现有研究已初步验证了大语言模型在多个学科领域辅助命题的可行性,并显示出其在提升命题效率、覆盖认知层级和生成语言质量方面的优势。然而,相关研究多集中于客观题或结构化任务,针对素养导向的简答题,尤其是创造性思维测评的命题研究仍相对匮乏。情境化命题虽强调任务真实性以及学生相关性,但情境材料的筛选仍高度依赖于人工判断,存在效率低、主观性强等问题,尚未形成可复制的高效流程。鉴于此,本研究尝试将篇章映射技术与大语言模型生成能力相结合,以创造性思维测评为应用场景,按照命题材料准备、试题生成与修订、施测与数据采集、结果分析的研究流程,从命题技术路径与测评质量检验两个方面开展探索。 (一) 题目命制 1.测评框架以PISA2022创造性思维测评框架为蓝本,结合八年级学生认知特点形成反映创造性思维过程的三维测评框架,见表1。 2.材料收集 科学问题解决涉及产生新见解、设计实验探索假设以及开发新方法。在本研究中,学生需针对一个开放性问题生成多个不同想法或解决方案,或提出一个原创性想法[3]。为确保情境材料的真实性与科学相关性,本研究选取知名青少年科普杂志《万物》(How It Works 中文版)作为素材来源。该杂志内容丰富、表达生动,覆盖环境生态、工程机械、太空探索、物理化学、生物医学等多个领域。研究采用该杂志2016年1月至2024年8月间出版的104期共781篇文章作为情境材料。 3.篇章映射 为评估情境材料是否适合考查创造性思维,本研究借鉴了阅读理解测验开发中的篇章映射技术。该技术通过结构化分析文本、识别关键信息及其逻辑关联,可评估篇章适配性、提取重要信息及其组织方式,并为题目开发提供建议[28-29]。在此基础上,研究通过Python3编程调用阿里云通义千问大模型Qwen2.5API(max_tokens=4096,temperature=0.2),以提示词对781篇材料进行遍历。具体而言,要求大模型针对每篇材料,依据其是否适合命制实验室发明创造、基于观察的假设生成、工程问题解决、数学与数据分析等方面的创造性思维题目[5],生成三个独特且新颖的小题命题内容;若材料不适合,则返回“无”。 4.材料审查 调用Qwen2.5API(max_tokens=4096,temperature=0.2)对情境材料进行审查,评估其内容完整性(是否提供每道题目命制所需的全部信息)和情境适切性(是否贴近我国八年级学生熟悉的生活、学习、社会、科学场景)。随后,将篇章映射的结果和情境审查的结果进行系统整理,最终筛选出17篇材料,均满足三道小题具备命题内容、信息完整且情境适切的要求,可用于后续命题开发。 5.题目生成 由于缺少可用于微调的创造性思维样题,本研究按照“目标—要求—返回格式—警告”的体例设计提示词进行命题。编程调用GPT-4o、Qwen2.5、DeepSeek-R1和Grok-3四种在文本生成、长链条推理方面表现良好的大语言模型(max_tokens=4096,temperature=0.6),要求其根据篇章映射标定的命题内容,针对每篇材料从产生多样化想法、形成创意、评估和改进想法三个维度命题。四种大语言模型共用时26分钟,生成68道各含三道小题的题目,每个题目含题干、小题、答案及解析、考查内容、考查能力等,字数在1000~1500字之间。 6. 题目筛选与修改 尽管命题所用材料均为科普类文章,且已通过大语言模型进行情境适切性筛选,但部分材料及相应题目仍存在知识结构超出八年级学生认知水平、情境远离学生日常生活或不适于进行创造性思维题目开发等问题。因此,需要对17篇材料及相应题目进行人工审题。具体来说,由课题组人员基于知识结构匹配度,排除9篇材料及相应题目,如涉及热感技术的喷墨打印机、涉及空气动力学的滑翔机飞行等;基于生活贴近度,排除3篇材料及相应题目,包括介绍土耳其加泰土丘早期人类聚落遗址、机械表内部结构和迪士尼特技机器人;基于创造性思维考查适配度,排除介绍插头基本结构的1篇材料及相应题目。 筛选后,共保留《钥匙怎么开门》《热气球》《鸵鸟的构造》《怎样测量硬度》4篇材料及相应题目,继续从情境设定是否贴近学生生活、是否考查与科学问题解决相关的创造性思维等角度进行综合分析。以《鸵鸟的构造》为例,各个大模型生成的题目侧重点不同。例如,GPT-4o命题将情境设定于北方动物园,可能会导致南方学生的参与感和熟悉感不足;Grok-3将任务置于科普展览中,要求学生布置鸵鸟展区并通过三种方式展示鸵鸟的结构与功能,强调创造性思维中的视觉表达而非科学问题解决;DeepSeek-R1聚焦观察鸵鸟的骨骼模型,要求学生对鸵鸟的高速奔跑提出三种解释性假设,并进行科学推理,体现了科学探究的特点,但更贴近科学素养而非创造性思维;Qwen2.5要求学生根据鸵鸟构造提出三种能够解决日常生活中运动、交通等问题的创造性设计,题目贴近生活,可有效考查创造性思维中的科学问题解决。综合比较,在情境贴近度、与测量目标的匹配度等方面,Qwen2.5生成的题目略胜一筹,被最终采纳。按照上述原则,本研究对四个大语言模型基于4篇材料生成的题目进行了系统分析和比较,各篇材料最终采纳的题目及所属大语言模型情况见表2。鉴于实际测试的时间限制,对4道题目(分别标注为Q1、Q2、Q3、Q4)下的小题进行了删减,每道题目仅保留2个小题。Q1和Q2的两个小题分别考查产生多样化想法和形成创意;Q3和Q4的两个小题分别考查产生多样化想法和评估与改进想法。同时,针对部分题目补充了必要的背景信息。例如,在Q1中补充了鸵鸟的生理结构信息,在Q2 中补充了莫氏硬度的知识。各题目简要说明见表2。 7.题目配图 为降低学生阅读负担、增强任务真实感,本研究参考PISA使用插图、图表与照片等视觉形式的经验[23],根据题干内容,加入配图帮助学生理解题目。为贴近教材或杂志的配图风格,在Gemini 2.0 Flash的对话窗口中输入图形信息和线稿风格图片的要求,生成配图后插入题目,形成正式试题。 (二) 题目测试与数据采集 为缩短测试时间并减少对学校教学秩序的影响,研究采用分组测试。学校一的学生完成测验一(Q1、Q2两个题目),学校二的学生完成测验二(Q3、Q4两个题目),单次测试时间控制在15分钟以内。测试在北京市某区两所教学质量中上等的学校八年级学生中进行,采用纸笔形式,以班级为单位施测。测试前,主试向参测学生详细说明测试目的、时间安排和作答要求,鼓励学生独立思考并尽可能多地完成题目,同时强调禁止在测试中进行任何形式的讨论交流。为了解学生的创造性思维过程,研究采用出声思维法补充收集数据,即在测试结束后,主试在每个班级随机选取2~3名学生进行结构化访谈,引导其回溯并阐述思考过程。所有访谈均在受访学生知情同意后进行录音。 (三) 数据分析 测试共回收有效试卷1156份,测验一为597份,测验二为559份。测验题目均为简答题,采用多级评分体系进行评分设计。分别从测验一和测验二中随机抽取约50份答卷进行预评分,以Q1A为例,该题要求学生基于鸵鸟的特征提出三项创意设计。依据创意的数量、可行性及其与鸵鸟特征之间的关联度,对22类学生答案进行归类整理,最终形成7个计分等级的评分方案。类似地,基于作答的完整性、合理性、数量及创新性,为其他题目分别制定了3~8点计分等级的评分方案。对全部1156份试卷正式赋分后,对频数极低或经验项目特征曲线(empirical item characteristic curve)几乎重合的计分等级进行合并与重编码,Q1A合并为3级计分,其余各题也被调整为3~5级不等的计分等级。 所有题目评分等级范围在0~4级之间,其中Q2A为0~4级计分,Q4A为0~3级计分,其余题目均为0~2级计分。0分对应未作答、答非所问或内容无效;1分表示作答内容初步相关但存在不完整或不合理之处;2分反映作答基本完整且具有一定合理性;3分要求内容较为丰富、合理且覆盖多项要素;4分表示作答内容非常完整、条目丰富,且具备明显的可行性和规范性。 将学生作答数据按计分结果整理为表格,采用经典测验理论(Classical Test Theory, CTT)与项目反应理论(Item Response Theory, IRT)对测验一与测验二分别进行题目难度、区分度、单维性、项目参数和拟合度分析。所有分析均以R4.4.3完成,主要使用psych、bruceR与mirt等R包进行。 对收集的17份出声思考访谈录音进行文字转录与内容整理,围绕命题是否有效测量创造性思维进行分析。首先,对原始语料进行清洗,删除口语化的填充词(如“啊”“嗯”等),剔除重复和无关语句,统一表达风格;其次,逐一提取学生思考内容中的语句片段;最后,根据题目所对应的测评维度,从产生多样化想法、形成创意、评估与改进想法三个方面对语句片段进行标注与分类。 三、研究结果 (一)基于CTT的数据统计 表3详细展示了所有题目的测量学指标。测验一题目难度在0.204~0.487之间,整体难度偏大。按总分将学生进行高低分组,分别计算两组在各题目上的平均得分,取得分差值并除以该题满分,得到区分度指数。测验一各题区分度均超过0.4,其中Q1B、Q2B区分度超过0.7。测验二题目难度在0.284~0.431之间,区分度均超过0.3,其中Q3A接近0.8。 (二)单维性检验 对测验一进行探索性因子分析,KMO值为0.588,接近可接受水平;Bartlett球形度检验显著(χ²= 353.32,p<0.001)。第一因子特征根为1.896,方差解释比为47.4%。测验二的KMO值为0.671,超过可接受水平;Bartlett检验显著(χ² =260.65,p<0.001),第一因子特征根为1.891,方差解释比为47.3%。尽管题目数量限制单维度检验中特征根比值法的使用,但根据两个测验中第一因子方差解释比接近50%判断,第一特征根均居主导作用,符合IRT单维性假设。 (三)基于IRT的分析 对测验一和测验二分别采用R的mirt包构建分步计分模型(partial credit model),进行参数估计。结果显示,大部分题目能够有效反映学生能力差异,Q3B、Q4A、Q4B的难度参数覆盖广泛能力区间,但也存在部分题目参数间隔较小、计分等级高而难度低的情况(如Q1B、Q2B)。以加权的残差均方(infit mean square)为拟合指标,测验一和测验二中各题目的项目拟合统计值infit值分别在0.746~0.847和0.717~0.872之间,均接近或符合infit取值应在[0.75,1.25]之内的拟合标准[30]。测验一和测验二的测验信息量峰值均在θ=0.8附近,学生能力分布的峰值均在0.2~0.3之间,基本对称,但测验一学生能力分布左侧出现了一个明显的次峰,整体呈轻度左偏趋势。 (四) 出声思考的分析 在产生多样化想法方面,参加测验一访谈的11位学生中,有4位能在Q1A中提出三种想法或设计,2位提出两种,3位提出一种,另有2位未能提出有效想法;所有学生均能够说明自己的想法如何受到鸵鸟特征的启发。对于题目Q2A,有3位学生能提出三种方案,2位提出两种方案,5位提出一种方案,1位未明确提出方案。参加测验二访谈的7位学生中,2位在Q3A中提出三种方案,4位提出一种方案,1位未作答。在题目Q4A中,有4位学生能提出三种方案,1位提出两种方案,1位提出一种方案,1位未作答。整体来看,大多数学生能够围绕题目情境提出两种及以上不同构想,表现出一定的发散性思维能力。 在产生创意方面,访谈数据显示,参加测验一的11位学生中,有9位能在Q1B中提出与日常生活经验紧密相关的创意展示方式,如演讲、体验式介绍等,2位未作答。Q2B中,有10位学生提出了创意展示方式,包括PPT、实验演示等,1位未作答。这表明大多数学生不仅能够提出创意,还能说明其展示方式的具体操作流程。 在评估与改进想法方面,测验二的7位学生中,有5位在Q3B中提出了与题目高度相关的改进方案,主要聚焦气囊泄漏问题进行分析,并结合物理知识说明改进步骤,2位未作答。Q4B中,7位学生中有6位提出了智能门锁的改进方案,涉及近场通信(Near Field Communication)、脱网唤醒等技术,1位未作答。整体而言,多数学生能够基于已有经验提出针对性强、具可操作性的优化建议。 四、结论与讨论 本研究在篇章映射技术筛选的科普材料基础上,进一步开展系统性审查,依托大语言模型生成测评题目,并通过多轮筛选与人工修订,持续优化题目质量。随后,采集学生的作答数据与出声思考记录,运用经典测验理论与项目反应理论对数据进行深入分析与检验。研究涵盖材料准备、题目生成与修订、测试实施及数据分析等关键环节,系统探讨了大语言模型在辅助创造性思维情境化命题中的应用潜力与现实挑战。具体研究发现主要包括以下四个方面。 第一,大语言模型辅助生成的题目展现出良好的区分度。测量学分析初步验证了大语言模型辅助命题的效果。从CTT角度看,多数题目区分度较高,和已有研究结果一致[9,11,16],但学生整体得分偏低,反映出题目难度较大,这可能与其不熟悉任务内容有关。在IRT分析中,所有题目的infit值均接近或处于可接受范围内,显示题目拟合良好。此外,测验信息曲线显示,测验对中等及以上能力水平的学生有较高的信息量,部分题目在高能力区域的信息贡献较为明显。 第二,高质量的情境材料仍是素养题目开发的关键。正如Tout和Spithill所指出,开发素养测试题目的关键在于选取真实可信且易于学生理解的情境[23]。本研究中,作为情境来源的781篇科普文章最终仅生成4个有效题目,材料利用率仅为5‰。未来,工作重点仍是高质量情境化任务的开发[20,23],应大力拓展材料来源,以丰富的真实材料涵盖学生熟悉的日常生活、社会现象与跨学科场景,从而提升任务的相关性与吸引力。同时,引入检索增强生成技术(retrieval-augmented generation)[31],对情境材料中超出学生知识结构的内容进行识别与筛选,以提升材料筛选效率和题目适配度。 第三,大语言模型生成的初始题目仍需依赖人工优化。本研究证明,大语言模型能够快速生成创造性思维题目的草稿,显著提升命题效率,但生成的题目仍需经过人工筛选与修订。与已有研究结论一致,并非所有模型都能准确生成符合测量目标的题目[7]。尽管目前仍存在局限,但出声思考访谈分析显示,学生在人工优化后的题目中普遍表现出良好的发散性与聚合性思维,表明测验具有较好的内部效度。 第四,综合使用大语言模型技术提升命题质量。未来,应进一步优化提示词工程,探索更系统的任务链设计;采用多智能体协作机制,在篇章映射、材料审查、题目生成与筛选修改等关键环节中实现分工协同,提升命题流程的自动化水平与生成题目的质量。同时,结合不断积累的学生作答数据,探索通过微调模型提升题目生成质量的可行性;引入多模态大语言模型,结合图像生成与情境理解能力,开发更加真实、丰富的情境化测验任务。 参考文献略。
2025-10-09
2025年09月26日 09:05 北京 引用格式:黄琰, 黄熙婷, 陶绮. 促进深度学习进阶的同伴互评模型的实证研究[J]. 中国考试, 2025(9): 87-98.作 者黄琰,贵州师范大学教育学院副教授。黄熙婷,贵州师范大学教育学院在读硕士生。 摘 要:同伴互评作为教育评价改革的一种创新性探索,对深度学习的促进效果常受限于学生被动参与、单向交互及形式化等因素。本研究依托ICAP认知参与理论构建同伴互评模型,主要包括同伴互评流程、深度学习进阶、多方协同支持三个核心环节;并以“微格教学训练”课程为例,采用认知网络分析法可视化分析应用前、中、后期三个阶段以及不同组别学习者的认知差异。研究发现,教学模式应用后学生的深度学习能力呈整体上升趋势,但不同阶段的认知差异显著,高分组转化速度更快且高阶学习特征更突出。研究据此提出促进深度学习进阶的策略建议,为推动高校教育评价改革提供实践参考。关键词:深度学习;同伴互评;学习进阶;ICAP理论;认知网络分析深度学习能力是个体有效应对复杂问题以达成高阶学习目标的综合能力。近年来,教育部先后发布《关于深化本科教育教学改革全面提高人才培养质量的意见》《关于一流本科课程建设的实施意见》《深化新时代教育评价改革总体方案》等多个文件,强调高校课程学习深度的重要性,将探索促进学生全面发展的多元化评价方法列为重要任务[1-3]。同伴互评作为一种强调深度参与、深层次交互的形成性评价方式,能激发学生高阶思维、提升学习投入度[4],促进深度学习的有效发生[5]。然而,在实际教学应用中,学生之间存在较大差异且学习进程迥异,同伴互评常以被动参与或单向交互为主[6],静态的理论无法诠释学习发展规律。学习进阶秉承螺旋式发展理念,面向学生最近发展区的进阶梯度,由浅入深的能力目标设定,能刻画出学习进阶起点到终点之间复杂的发展历程[7],为清晰呈现深度学习的进阶脉络、破解同伴互评现有困境提供新的思路。 基于此,本研究依托学习进阶理论分析深度学习行为层次,构建促进深度学习进阶的同伴互评模型,回答“高校课堂如何有效开展同伴互评”的问题,以期为高校课堂教学评价的改革与发展提供参考。 一、研究基础 深度学习作为教育高质量发展的核心驱动,与浅层学习相对应。不同于浅层学习阶段的观察、记忆、理解等低阶能力,深度学习要求学习者进一步运用分析、综合、评价、创造等高阶能力。从同伴互评、学习进阶两个维度探索与揭示学习过程中低阶能力到高阶能力的转变规律,可以为实施模型的构建提供多重依据。 (一) 同伴互评:促进能力转变的方式 同伴互评是一种对学习同伴作品或成果进行评分评语的形成性评价方法[8],要求学习者模拟专家思维深度参与互动[9],不仅要对同伴表现及其作品进行批判性分析与评价,还要提出创造性的修改建议,并在反思和自主思考中重构自身知识结构以实现迁移应用[10]。 同伴互评对深度学习具有明显的促进作用。在评价同伴过程中,学生会调节自己的学习行为,有助于进一步发展深度学习能力[11]。近年来,有关同伴互评的理论探讨、影响因素探究、技术应用及评价效果等多项研究均证实了同伴互评对教育教学效果的积极影响。例如,同伴互评可以促进学习者深度参与课堂活动[12];实现学生自主导向评价,帮助形成元认知策略及自主调节学习活动[5];通过交流反馈优化学习成果,推动学习者的知识从浅层理解向深层建构跃迁[13]。可以看出,同伴互评与深度学习在素养要求方面具有一致性,即都要求学生具备较强的专注力、反思策略、批判思维与创造能力等。在学习目标方面,强调高阶学习目标的达成,如对知识的深度理解和迁移、对内容的批判性理解及创新创造等;在学习过程方面,注重知识间的关联与整合,以构建具有迁移意义的知识图谱[5];在能力维度方面,深度学习能力涵盖个人认知、自我监管和人际协调等三大维度的六项能力[14]。此外,深度学习能力具备较强的可塑性、发展性、复杂性等特征,其纵向发展需要进一步的理论探索与完善。 为真正实现评中学,开展同伴互评需要考虑多方面因素。第一,精准理解评价标准是实现高质量同伴互评的关键前提。学习者要从学习材料中提炼新知识并与已有知识体系建立联结,从而促进新知识的深层建构[15],这个过程并非一蹴而就,而是需要多轮训练。第二,评价任务是对教学目标的转化[16]。设计互评策略、把控互评流程、构建互评环境等任务可以保障评价的顺利开展,并促进学习者高阶思维发展[17]。第三,技术的支持可以提升评价效率,如应用智能平台能够突破时间和物理空间限制,实现更灵活与即时的同伴互评[11]。第四,多方协同可营造高质量同伴互评环境,以保障深度学习进阶。教师评价作为自主评价与同伴互评的重要补充,能够在一定程度上帮助学生快速了解自身不足[18],因此,同伴互评仍需重视教师的引领作用,可将教师反馈融入同伴评价、自评反思等环节,确保完整性和公平性。第五,互评过程的分析与反馈可采用多种方法,如按照评语类型对互评语料进行编码[19],分析行为频率与模式[11],从而获得同伴互评的结果差异。张涛等通过编码互评数据,采用滞后序列分析和认知网络分析(epistemic network analysis, ENA)探索了不同阶段学习者批判性思维的发展特征[20]。周平红等研究发现,认知网络分析可以描绘互评过程中的学生认知网络结构,从而直观呈现不同阶段、各类学习者的差异以及过程性思维变化证据[21],为规避评价过程的抽象性与内隐性、实现动态演化轨迹的可视化提供有效途径。 (二) 学习进阶:显化学习的发展流程 学习进阶理论由美国国家研究委员会(United States National Research Council, NRC)于2007年正式提出,是对学习者在某一时间跨度能力或素养依次进阶、逐级深化的思维方式描述[22],包括进阶起点与终点、进阶维度、成就水平、表现期望以及测评工具五个要素[23]。该理论认为,随着学习的推进,学习者思维将纵向地从操作较少的低阶层次向操作复杂的高层次发展[24],知识建构表现出从简单信息储存、知识整合逐步提升至逻辑推断、协同推断的递进过程,学习成果也呈现梯度性提升,从基础的记忆保持到灵活应用,再到跨情境迁移,最终实现知识共创的深化轨迹。基于学习进阶,Chi等提出的 ICAP 理论(ICAP theory of cognitive engagement)将学习分为四个递进层次,即被动学习(passive)、主动学习(active)、建构学习(constructive)和交互学习(interactive)[25]。 ICAP理论从可操作性角度对学生内部认知参与外显活动行为进行界定,区分学习者在学习过程中的认知投入程度[26],为后续多项研究提供理论基础与参考。例如,王天华等基于ICAP理论构建了面向高阶思维能力培养的大学英语阅读教学模式[27];张敏霞等将ICAP理论应用于在职教师学习投入度评估,揭示了教师在线学习情境中的认知投入结构特征与前、后两阶段的演化规律[26];张思等将学习者的学习参与行为划分为被动、主动、建构和交互四种类型,进行了对个体知识建构和集体知识建构结果的分析[28]。对比相关研究发现,ICAP理论中的四个进阶层次可以对应同伴互评中潜在学习行为的变化过程,即从被动倾听开展无意义互评到主动思考完成互评,再到发现问题认真互评,最后实现与同伴协同设计并开展批判性互评。基于此,本研究以初始深度学习能力为进阶起点,最终深度学习能力为进阶终点,依据ICAP理论将学习者深度学习能力的进阶水平由低至高分为被动学习、主动学习、建构学习和交互学习四个层次,以显现同伴互评过程中学习者深度学习能力的发展过程。 二、构建同伴互评模型 基于同伴互评促进深度学习进阶的关键要素梳理,以同伴互评流程为抓手,多方协同支持为保障,深度学习进阶为核心导向,构建促进深度学习进阶的同伴互评模型(以下简称“同伴互评模型”),以保障同伴互评中学生深度学习能力逐层进阶和深入,具体见图1。 (一)同伴互评流程以“互评基础—初练优化—再练反思”的同伴互评流程为抓手,激发深度学习进阶,唤醒学习者在互评活动中的主体意识。在互评基础环节,学生要参与互评规则的培训和练习,具体包括解读并清楚评价量规、明确训练任务、掌握互评基础,并通过两轮训练活动提升互评能力。在初练优化环节,学生要在课堂中开展技能练习,包括与同伴协作互鉴、根据评价量规评定对方训练情况,并在课后结合教师反馈与建议迭代优化技能训练内容。在再练反思环节,学生要结合同伴设计优势与合理建议开展第二轮训练及组内互评,并在课后吸纳同伴互评与教师评价内容,利用反思框架开展自评反思,以深化学习层次。 (二)深度学习进阶 以“进阶起点—进阶过程—进阶终点”的深度学习进阶流程为牵引,显化深度学习发展。鉴于学生进阶起点各异,以初始深度学习能力为进阶起点,以深度学习阶段水平为基准,确立深度学习进阶过程,即根据ICAP理论中被动学习、主动学习、建构学习、交互学习由浅至深的四个深度学习进阶层次水平,对应深度学习能力中个人认知、自我监督、人际协调三个维度分别设置阶段水平,以最终深度学习能力为进阶终点,以此刻画学生深度学习能力的发展轨迹。 (三) 多方协同支持 以“多元主体—个性资源—适切平台”多方协同支持为保障,支持深度学习进阶。统筹以学生互评为主与智能评价为辅的人机协同评价、促进双方开展深度学习活动的同伴互评、启发训练效果内化的自评反思等方式,通过多元评价主体激发学生深度学习的自主性与积极性;整合能够引导学生明确评价任务且与训练内容高度匹配的互评案例、可规范学生互评过程并显化训练成果的评价量表、能深化学生元认知的反思框架等个性化资源,支持同伴互评的高质量开展;甄选确保客观智能反馈的评价平台、洞察学生深度学习情况的在线互评问卷、囊括优秀范例资源提供学习参考的学习平台,为学习者深度学习进阶提供支持与保障。 三、教学实践设计和结果分析 深度学习能力进阶发展可通过合理的同伴互评流程激发,需以多方协同支持为保障,其整个过程具有持续性、强交互性等特征。本研究选择“微格教学训练”课程开展实践应用,从实证分析视角探索同伴互评模型应用促进深度学习能力进阶发展的过程与初步成效。 (一)选择研究对象选取G大学2022级教育技术学本科生作为研究对象,共46人(男19人、女27人),所有参与者均无结构化促进深度学习进阶的同伴互评经验。以学生在上一学年的加权平均成绩作为依据,将前50%学生划为高分组,后50%学生划为低分组。加权平均成绩是将学生所有科目的原始成绩融入学分权重后计算得出,而原始成绩由各科教师综合学生课堂表现、平时作业、课程考核及考试情况评定。 (二)确定研究工具 1.深度学习能力测量研究采用沈霞娟等开发的《深度学习能力测评量表》[14]测量学生的初始深度学习能力及16周教学后的深度学习能力。该量表基于Zeiser等发布的深度学习能力测评量表[29],并结合国内多项深度学习能力研究成果进行了本土化调适,适配我国大学生深度学习能力测量。量表共包括30题,含三大维度六项能力,其中个人认知维度包含批判性思维能力与创造性思维能力,自我监督维度包含自主学习能力和学习毅力,人际协调维度包含协作能力和沟通表达能力。信度分析发现,量表总体Cronbach's α系数为0.951,六个因素的 Cronbach's α系数区间为0.795~0.917,说明信度良好;六个因素对应的因子载荷均大于0.4,属于可接受范围。验证性因子分析发现,模型拟合指数SRMR=0.039(<0.08),RMSEA=0.046(<0.08),TLI=0.923(>0.9),CFI=0.913(>0.9),说明模型拟合度较好,具有良好的结构效度。 2.同伴互评数据及编码原则在同伴互评过程中,学生随堂评语是学习结果最直接的体现[30],因此可以通过学生评语推断其学习参与行为,进而判断其深度学习层次。本研究将学生活动过程中产生的随堂评语数据与基于ICAP理论的深度学习层次进行匹配,设计包括12类认知元素的同伴评语中深度学习认知编码表,具体见表1。编码表主要包括与同伴互评文本相关的四个深度学习层次。一是被动学习,指学生按照评价量规的内容进行评价并反思自身不足,具体包括学生互评中的非评价内容、无关描述及被动记录。二是主动学习,指学生提供完整评价并找出同伴的现实问题,具体包括说明性描述、提出真实问题,以及结合互评任务的迭代性增加的联系同伴表现。三是建构学习,指学生梳理同伴问题并为其提供改进建议,同时结合个人问题进行反思,主要包括联系理论总结、分析同伴意图和提出改进方法。四是交互学习,指学生将自己与同伴视为共同体,思考并反思总结组内问题,主要包括视同伴为整体、解释可能原因、反思团队设计三类认知元素。教育技术学领域的专家与研究者共同审查后一致认为,该编码表能够有效分析学生的评语数据。 (四) 设计教学实践流程 1.设计教学流程基于同伴互评模型的教学流程包括设计教学互评基础、微格初练优化反思、微格再练互评反思、迁移反思深度学习四个主要阶段,分别对应ICAP理论中的被动学习、主动学习、建构学习与交互学习四个深度学习层次,具体见图2。具体而言,在设计教学互评基础阶段,教师讲解教学技能要点并开展互评培训,学生在学习教学技能的基础上使用案例练习互评要点与流程;在微格初练优化反思阶段,教师组织第一次教学训练,学生在AI微格静音仓中开展训练,在评价量表指引下完成三角色(听课者、授课者、评价者)和三任务(听课、授课、自评互评),借助在线问卷完成互评与自评,训练后结合自评、互评与教师反馈优化教学设计;在微格再练互评反思阶段,教师总结第一次训练情况并组织第二次教学技能训练,学生再次训练并开展互评和自评;在迁移反思深度学习阶段,教师总结两次训练情况,学生对标技能讲解内容,完成自评反思笔记,促进学习迁移反思。 2. 教学实践与编码 依据教学流程设计为期16周的教学实践,开展“理论学习+微格初练+微格再练”的迭代训练活动,轮次训练活动遵循教学流程中的四个主要环节。为结合时间维度分析学习者深度学习能力的动态发展过程,将模型应用划分为应用前期(1~5 周)、中期(6~10周)、后期(11~16周)三个阶段。在教学实践前、后都测量了学习者的深度学习能力,并采集了学习者在各阶段微格训练过程中的评语和反思记录,结课后进行结构化访谈。 认知网络分析数据包含两种类型。一种是参与者的同伴互评内容,通过在线问卷收集学生三个阶段训练后的互评文本,由于研究主要关注互评评语体现的深度学习能力要素整体认知网络,因此将句子作为最小分析单元,经过数据清洗得到1472条文本数据(42368个字);另一种是学生课后反思内容,提取其中能表征与他人协作、反思团队教学设计等与深度学习相关的句子,经过预处理后得到144条文本数据(4317个字),共1616条文本数据。对上述两种会话数据依据编码表进行统一编码。首先,由两名经过专业编码培训的课程助教对编码不一致的文本进行讨论并达成共识;其次,随机抽取20%的数据进行预编码,经检验确定两名助教的编码具有较高一致性(Cohen's α=0.862,p<0.001);最后,两名助教协商解决编码不一致的问题,并均分完成剩下的数据编码。编码结束后,对编码数据进行认知网络分析,将学生在同伴互评过程中深度学习要素的共现情况与网络结构特征进行可视化处理,从而观察学生深度学习的进阶过程。 数据分析与处理主要采用SPSS和ENA Web工具。 (四)结果分析 1.深度学习能力得到有效提升将深度学习能力测量数据进行配对样本t检验,结果见表2。由表2可知,学生的深度学习能力在教学实践前后具有显著(t=3.534,p=0.001)提升,同时在个人认知、自我监督、人际协调三个具体维度都有显著提高。2.深度学习的进阶差异显著第一,三个阶段的深度学习呈现进阶发展趋势。结合时间维度分析前、中、后三个阶段的认知网络结构,呈现学生深度学习能力的进阶发展过程,具体见图3。图中节点分别对应12个深度学习认知要素,节点大小反映元素频率高低,连线的粗细与饱和度代表元素间的关联程度。为分析不同阶段的认知网络特征,统计频率≥10%的节点与连线系数≥0.15的认知要素连线,见表3。具体而言,前期的同伴互评以被动学习与主动学习认知要素为主;中期时被动学习认知要素减少,主动学习与建构学习认知要素增加;后期呈现更多的交互学习认知要素。结合认知网络质心分布情况探究三阶段学生深度学习的差异,见图4。图中三个虚线方块分别表示三阶段的平均认知网络质心,虚线框代表质心位置在95%水平上的置信区间。由观察可知,三阶段学生深度学习能力投影到二维空间的认知要素散点分布存在较大差异,质心位置也相对较远。 对不同阶段的认知网络质心位置变化情况进行差异性t检验,见表4。由表4可知,认知网络的变化过程在X轴、Y轴均存在显著差异(p<0.01)。通过认知网络叠减进一步分析三个阶段的认知网络差异。相较于前期集中于被动学习与主动学习,中期更多体现建构学习要素(CA、CR),中期-前期的频次叠减值分别为7.45%、16.67%,AD与CR要素的连线明显增强,连接系数达 0.26;相较于中期,后期表现为更多的建构学习要素(CA、CR)与交互学习要素(IW、IE、IR),后期-中期的叠减值分别为2.48%、10.99%、10.28%、7.8%、5.32%。 第二,高分组学习者的高阶学习特征显著。结合配对样本t检验与认知网络分析可知,不同组别的学习者其深度学习情况不同,见表5。结果发现,在深度学习能力及三个维度上,高分组显著提升(p<0.05),低分组有提升但不显著(p >0.05)。由不同组别的质心位移可见,在相同时间内,高分组从低、中阶向高阶深度学习能力转化的速度更快。进一步分析不同组别学习者的认知网络叠减值发现,高分组学习者表现出更多高阶要素,如CR、IR的叠减值(高分组-低分组)分别为11.4%、6.9%,即具有更多高阶深度学习特征。低分组学习者的低阶要素较多,如PN、AD的叠减值(低分组-高分组)分别为12.3%、8.3%。随着课程进行,高分组在中期出现高阶要素之间更强的连接,如CR的叠减值(高分组-低分组)为13%;低分组在后期虽然出现CR、IE等高阶要素,但连接较弱,其连线系数为0.03。四、结果讨论与启示 本研究通过实验研究方式验证了同伴互评模型的有效性,可以得出以下三个方面的结论及启示。 (一) 同伴互评可以促进学生深度学习水平明显提升 同伴互评可以促进学生深度学习水平显著提升,这与已有相关研究的结论相似。通过前、中、后三个阶段的深度学习认知网络、质心位置计算与统计学差异分析发现,不同阶段学生深度学习的认知差异显著。结合认知网络叠减可知,学生深度学习能力整体呈低阶向高阶转化的趋势。其中,前期主要是被动学习、主动学习的低阶水平,学生的学习认知主要停留在初级阶段,未表现出深层认知;中期的学习水平从主动学习进阶为建构学习,学习者可以结合同伴真实表现情况分析教学设计意图,并提供改进建议,但高阶学习认知要素的节点较小,与其他要素联系较弱;后期有关建构学习、交互学习的高阶学习认知明显,学习者在联系课程理论知识、分析教学活动设计意图并提出改进方法的基础上,可以与同伴共同总结训练误区及其原因,反思团队教学设计并提出后续完善方向,进而形成学习共同体。此外,同伴互评三个阶段的认知网络在时间序列上的变化,呈现了学生在学习过程中的深度学习变化过程。深度学习能力认知网络结构由最初被动学习、主动学习为主的低阶学习逐渐转向以建构学习、交互学习为主的高阶学习,学习者深度学习能力呈现由低阶向高阶的进阶式发展规律。同伴互评让学习者的知识建构突破浅层建构层面,到达高阶认知获得的深层建构层面[31],由此说明同伴互评模型在教学应用中的效果明显。 (二) 高分组学习者更具深度学习能力的进阶优势 通过分析两类学习者深度学习认知网络差异发现,高、低分组学习者在三个学习阶段中的认知要素侧重点不同,这与许玮等的研究结论[32]一致。高分组更关注建构学习、交互学习的高阶认知要素,低分组表现出更多被动学习、主动学习等低阶要素。高分组在中期展现出建构学习、交互学习等高阶认知要素并保持稳定增长,低分组在后期才表现出高阶认知要素,但各要素间的连接不强。同伴互评对高分组深度学习能力发展和进阶的促进作用更显著。 结合访谈内容发现,高分组对学习任务规划更清晰,他们在完成初次训练后能及时、有效地通过同伴评语及自我反思进行学习效果审视,与同伴协商不足并达成改进的共识,并将其纳入再次训练的重点学习目标。低分组更多的是被动地完成课程任务,易受到同伴之间的关系、同伴参与评价的态度影响,前期对训练场景与技术的适应较慢,认为课程任务量超过自身接受程度而产生消极情绪,深层次的学习参与屈指可数。 (三) 研究局限与启示 本研究存在一些局限,主要表现为两个方面:一是研究对象的样本量较少,缺乏对照组,未能排除成熟、测试效应等干扰变量;二是教学实践过程中同伴关系、评价态度、任务烦琐等因素影响学生互评结果,导致部分学生未能完全表现出深层次的学习投入。未来可以从三个方面进行深化研究:一是进一步扩大样本量和实践周期,引入对照组或采取准实验设计,以更精准追踪深度学习进阶的持续性;二是探究不同分组形式(如异质、认知风格、动态分组等)及互评任务中认知负荷调控策略对深度学习的影响;三是充分发挥人工智能技术优势,探求更加客观和个性化的人机协同评价机制。 为促进学生向高阶深度学习的实质性转化,同伴互评模型可从以下三个方面进一步完善。 第一,在以学生为主体的同伴互评活动中,应充分利用教师或高水平学习同伴的引领作用。在设计阶段,可以采用匿名与随机分配等方式消除人际因素对评价的消极影响,还可以引入双向互动活动提升学生评价责任感[8],以进一步优化评价指标适配学生学习活动。在实施阶段,教师应实时跟进并提供及时、精准的动态反馈[11];同时还应加强对低分学习者在任务计划与实施过程中的监督,并及时提供技术支持以帮助他们完成深度学习进阶。在总结阶段,可以通过高低配对分组开展总结与反思活动,让低分学习者了解并借鉴高分学习者的学习方法与策略,加速其进阶过程。 第二,搭建内部驱动与外部规范共同发挥作用的评价体系。基于ICAP理论打造学生深度学习的“被动学习—主动学习—建构学习—交互学习”可视化路径,可通过同伴互评活动中的行为表征外化学生深度学习进阶情况,从而促进学生进行意义建构并实现真实性学习。具体而言,制订适宜的同伴互评量规、提升评价过程的外部规范、构建自评反思框架并形成自我审视的内部驱动等举措,都可以帮助学生在理解并实施评价指标的同时开展省思。 第三,践行多元协同的人机协同评价方式。在数字化环境中,教学实践中教师、学生、同伴协同的多元主体参与成为可能。随着人工智能技术的迅猛发展,结合人类智慧与人工智能精度算法开展人机协同的评价方式可以保障同伴互评的多元与公正[33]。通过批判地使用生成式人工智能工具,学生可以开展个性化学习效果评估及智能反馈[34]。 参考文献略。
2025-06-09
2025年高考英语全国卷试题深入贯彻党的二十届三中全会精神和全国教育大会精神,落实《教育强国建设规划纲要(2024—2035年)》要求,坚持立德树人,强化育人导向,注重五育并举,考查基础知识和基本技能,增强试题开放性,注重情境设计,加强创新能力考查。试题命制依据高校人才选拔要求和国家课程标准,结合各地高中英语教学的实际,通过精心选材、科学设题,考查学生综合语言运用能力,正向引导基础教育英语教学。一、落实立德树人,强化高考育人导向2025年高考英语试题通过情境化设计,将价值引领渗透于关键能力、学科素养和思维品质的考查中,深度融合社会主义核心价值观与中华优秀传统文化。试题选材既立足中国大地,展示文化自信,又放眼全球,强化人类命运共同体意识,引导学生养成家国情怀和全球视野,完善道德品格,实现德智体美劳全面发展。1.涵养家国情怀,坚定文化自信试题通过精心选材和情境设计,让学生在答题过程中感受中华文化的独特魅力与当代中国的发展智慧。全国一卷阅读D篇聚焦微塑料污染这一全球性环境问题,特别介绍中国科研人员提出的解决方案,展现中国科学家解决现实问题的务实精神,也传递了生态文明建设的中国方案。全国二卷语法填空语篇通过一名定居中国的美籍女士对其在浙江乡间晾衣后感受到“阳光的味道”的经历和充满感情的描述,展现中国人善用自然之力创造诗意栖居的生活智慧。全国一卷语法填空语篇介绍的围棋主题艺术展则巧妙融合传统文化、人工智能与当代艺术,是中国传统文化中的哲思与智慧与现代科技结合的全新呈现。这些语篇从不同视角构建起对中国智慧的立体诠释,在考查语言能力的同时,启发学生对中华文明的深入思考,引导学生增强国家认同和家国情怀,坚定文化自信。2.关注全球议题,拓展国际视野试题选取的语篇材料话题丰富,涉及气候变化、粮食危机、微塑料污染、交通领域碳排放等全球性问题,引导学生从人类命运共同体的视角深入思考问题。全国二卷阅读D篇通过将食材边角料加工成美味佳肴的案例,生动阐释了节约食物和物尽其用的可持续发展理念。全国一卷阅读A篇探讨交通运输领域的碳排放问题,通过数据对比和利弊分析指出未来能源改革的方向,强调加快绿色能源的发展。这些语篇材料通过“指出问题—分析问题—探索方案”的逻辑方法论,引导学生在阅读中培养全球视野,提升逻辑推理能力,强化对全球性问题的认知,培养人类命运共同体意识。3.培育道德品格,启迪生命成长试题选材围绕“人与自我”“人与社会”和“人与自然”三大主题,贴近学生的学习和生活实际,通过独特的视角,帮助学生了解多元化的个人、社区和学校生活,引导学生思考生命的意义与价值,树立积极向上的人生态度。全国二卷阅读B篇讲述开设在儿童医院中的学校如何帮助患者在住院期间心怀梦想、继续进行课业学习,体现对弱势群体的关怀和教育的温度。全国一卷读后续写语篇讲述作者在一次家庭聚会中与兄弟产生嫌隙,之后通过一番思想斗争决定主动登门道歉的故事,诠释了承担责任与宽容的可贵品质。全国二卷阅读第二节语篇介绍全家人一起参与志愿服务的好处,揭示家庭在道德教育中的示范作用以及奉献精神的多重价值。这些材料从不同角度启迪学生认识到个人行为对社会的积极影响,滋养仁爱之心与担当之志,为青少年扣好人生第一粒扣子注入精神力量。4.倡导五育并举,促进全面发展试题注重五育并举,选择有关运动健康、艺术审美、社会服务等主题,引导学生德智体美劳全面发展。全国二卷完形填空语篇中的老奶奶通过健身和在网上分享心得重燃生命热力,诠释银发族突破年龄桎梏的勇气,展现体育运动对身心健康的促进作用。全国二卷阅读A篇描述了四个历史悠久、风景各异的英格兰小镇,引导学生感受自然与人文景观的融合之美。全国一卷听力材料介绍用绘画提醒海滨城市居民关注气候变化的项目,彰显美育的实际意义和价值。全国一卷阅读第二节语篇讲述一位大学咖啡馆员工工作勤恳,为学生顾客竭诚服务的故事,体现劳动的价值,传递勤勉敬业的劳动教育真谛。这些材料通过介绍真实的人物与故事,构建全面发展观的具象化表达,启发学生理解五育并举的深层内涵,思考全面发展对个人成长及社会进步的作用。二、注重考查基础,促进思维品质发展2025年高考英语试题依据高校人才选拔要求和普通高中英语课程标准,聚焦学生核心素养的全面提升。通过科学设计,注重对基础语言知识和基本语言技能的考查,促进学生思维品质的培养和发展,为高校人才选拔提供全面立体的评价依据,助力外语教育高质量发展。1.依据课程标准,注重考查基础知识和基本技能普通高中英语课程标准强调学生要进一步学习和运用英语基础知识和基本技能。2025年高考英语试题强调对语音、词汇、语法、语篇、语用等语言知识的内化掌握和恰当运用,注重考查语言基本技能及综合运用能力。高考英语试卷结构与往年保持一致,包括听力、阅读、语言运用和写作四个部分。其中听力和阅读第一节考查在理解语篇的基础上,结合语境获取具体信息、理解主旨要义、进行逻辑推断、辨析观点态度等能力。阅读第二节考查理解文章基本结构、把握上下文逻辑关系的能力。语言运用部分主要考查在阅读基础上准确运用词汇和语法结构的能力。写作部分则通过设置不同情境,考查运用书面语言完成日常交际任务的能力以及在阅读理解基础上合理创造内容并进行准确、连贯表达的能力。以全国二卷阅读C篇为例,该短文从一个室内植物网店销售火爆说起,介绍绿植对人们情绪和思维影响的相关研究,倡导栽培室内植物的健康生活。短文结构清晰,语言难度适中,各小题考查正确理解数据含义、辨识研究结果内容、根据上下文信息推断作者意图和总结概括全文主旨要义的能力,完全符合课程标准对语言能力考查的要求。2.创新情境设计,引导学生思维品质培养与发展试题通过创新试题情境设计,引导学生培养和发展批判性、探究性和创新性等思维品质。通过精心选材引导学生从知识接受者转变为问题探索者和解决者,为选拔具备优秀思维品质的人才提供依据。在材料选择方面,所选语篇的题材、体裁、难易度各具特色,从不同角度考查学生批判性思维和创新性思维能力,引导学生思维能力的提升。全国一卷阅读第三个语篇以交通方式变迁为切入点,通过分析车轮上的生活对传统生活方式的冲击,启发学生运用批判性思维反思城市规划中的可持续发展理念。全国二卷阅读D篇通过回收使用食材边角料制作精美菜肴的案例,引导学生思考变废为宝的创新路径。在题目设置方面,试题运用多视角、多立场的语篇材料和开放性答题要求,考查学生的批判性思维和创新性思维。全国一卷写作第一节以班级英语报要增设栏目为情境,要求学生从给出的两个栏目做出选择并说明理由,对学生的批判性思维和逻辑思维、跨文化沟通和语言表达等能力进行综合考查。短文续写试题分别设置了通过主动道歉挽回兄弟情谊和向外国同学解释中文姓名含义的情境,语篇内容和段首句提供了较大的想象空间,学生可以充分调动发散思维和创新思维,对前文情节进行展开和叙述。这种开放性试题设计能够深入考查学生的批判性思维和创新性思维能力。
2025-06-08
2025年高考物理全国卷贯彻全国教育大会精神,落实《教育强国建设规划纲要(2024—2035年)》相关部署要求,依托中国高考评价体系,坚持守正创新,加强基础考查,引导学生夯实未来发展根基;注重综合性、应用性、探究性的考查,强化对学生关键能力、学科素养和思维品质的考查,激发学生崇尚科学、探索未知的兴趣,提升人才选拔质量。一、加强基础考查,引导学生筑牢发展根基“基础不牢,地动山摇”,只有掌握了本质的、基本的规律,才可能融会贯通、灵活运用。2025年高考物理全国卷严格依据高校人才选拔要求和高中课程标准,以定性和半定量的方式为主,进一步加强基础考查。试卷注重考查高中物理核心的、基础的内容,突出考查学生对基本概念、基本原理的理解和运用。在考查基础知识的同时,创新试题的设问方式,引导学生了解试题呈现形式是多样的,但其背后考查的物理原理是相同的,促进学生重视基本原理的学习,达到触类旁通、一通百通。第18题以电子在匀强磁场中运动设置情境,考查学生对洛伦兹力等基本物理概念的理解和灵活运用。本题的情境虽然简单,学生也较为熟悉,但设问角度比较巧妙,若学生不仔细读题,在刷题导致的惯性思维下可能将该题理解错误,这种创新设问有利于引导学生认真思考,具体问题具体分析,减少机械刷题,破除惯性思维。第19题以图像的形式呈现气体的三个状态,学生需要正确提取图像中的关键信息,并运用理想气体状态方程这一基础知识进行解答。第20题考查学生对简谐波基本性质的理解和掌握,情境贴近生活和教材,有利于引导教学回归课标、回归课堂。二、加强综合性考查,引导学生培养科学思维物理问题的解决通常需要多种物理知识和物理思想的协同。2025年高考物理全国卷更加注重考查学生综合运用物理知识解决问题的能力,通过丰富问题情境的设计,优化试题的设问角度,助力培养学生科学思维。第17题以匀强电场中电子的运动创设情境,问题具有半开放性,需要充分考虑在不同初始条件下电子的运动情况,考查学生推理论证的能力。第21题以导体在磁场中的运动为情境,考查的必备知识涉及电磁感应、圆周运动和交变电流等不同模块的内容,促进学生将不同模块的内容融会贯通,形成整体的知识结构。第25题选择学生熟悉的模型,着重考查了运动过程中能量动量的转化,并且在最后通过巧妙的设问,考查学生对物理过程的理解程度;最后一问可以通过运动学进行求解,但计算较为复杂,而从整个物理过程中的能量变化角度进行分析,题目就变得容易求解,有利于引导学生注重选择解决问题的角度,促进学生科学思维的发展。三、加强应用性考查,引导学生学以致用生产生活中随处可见物理原理的实际运用,大到国家重器,小到生活实际。2025年高考物理全国卷更加注重应用性考查,精心选取联系实际的情境,考查学生面对实际问题时的抽象建模和逻辑推理等关键能力,引导学生在面对生产生活中的复杂情境时,学会抓住主要因素进行分析,并合理运用相关知识和原理解决实际问题。运动学是高中物理学习过程中最先接触到的知识,而匀变速直线运动是学生在高中阶段学生最熟悉的运动模型之一,第14题以我国最新的CR450动车组列车的运动为情境,考查了运动学中匀变速运动。万有引力定律是航天工程的基础,第15题以我国通导技术试验卫星“天都一号”为对象,定性考查了万有引力定律和开普勒定律,引导学生理解物理学基本原理在科技前沿中的重要作用,同时展现了我国航天领域的伟大成就,增强科技自信心和民族自豪感,引导学生树立科技报国的远大志向。能量守恒是物理学中非常重要的思想,第16题以撑竿跳高运动为情境,考查学生对运动过程中能量转换的理解,体育元素的有机融入也有利于激发学生参与运动的兴趣,促进学生全面发展。撑竿跳高运动中的物理过程实际上是非常复杂的,本题忽略了许多次要因素,抓住主要因素进行设问,考查学生是否真正理解其中的物理过程,同时也引导学生学会从复杂的情景中,抓住主要矛盾,抽象出简单的物理模型解决实际问题。第24题以电容式键盘为情境,考查了平行板电容器中的基本知识,有利于引导学生运用物理概念、规律认识和理解生产生活中的现象。四、加强探究性考查,引导学生注重实验能力培养实验是科学发展的基础。实验教学是培养学生物理学科素养的重要途径和方式,有助于学生探究能力的培养和学科素养的形成。2025年高考物理全国卷注重设置探究性的实验情境,考查实验的基本方法和基本技能,引导学生经历实验过程,体会概念和规律的形成过程,促进学生物理观念的形成。第22题利用橡皮筋开展系列实验,将探究弹簧弹力与形变量的关系、探究两个互成角度的力的合成规律两个实验的方法相结合,考查了测量仪器的使用、实验数据获取和处理,要求学生灵活运用已有的实验方法解决新问题,引导学生重视基本实验的学习,促进学生动手做实验。第23题以教材中的非线性电阻元件为背景,通过实验展示非线性电阻元件的性质,在探究伏安特性曲线时,通过层层设问引导学生理解电流表内接和外接时对实验测量的影响,让学生知其然,更知其所以然,引导学生学习过程中关注科学探究的过程和方法,并学会对结果进行反思和总结。