2024-09-30
一、引言自2022年11月30日ChatGPT正式发布以来,生成式人工智能在短短不到两年的时间内,实现了从开放式文字对话交互到文生图、文生视频,再到多模态交互的人机互动技术的飞速突破,其发展速度远超人类对其的思考与应对速度。这种强烈的不确定性和未知性,促使人类愈发重视人工智能的迭代及其引发的社会变革。教育,这个历来被视为慢变量且最为稳定的领域,如今却被广泛认为是最直接、最快速受到人工智能影响乃至冲击的领域之一。因此,秉持理性开放、客观严谨的态度,结合唯物史观视角,审视和分析人工智能与教育变革的真实发展水平,以及二者之间的内在关联和作用机制,将为人工智能赋能教育高质量发展提供基础性的观点和视角。二、理性看待当前生成式人工智能发展的水平以ChatGPT为代表的生成式人工智能凭借其强大的自然语言处理能力,通过开放式对话的方式完成信息检索、问题解答、内容创作、代码生成等复杂任务,其能力越发接近人类智能,甚至是对人类智能的扩展和部分替代。目前的“智能涌现”得益于数据的丰富、算力的提升、开源环境的活跃和多模态大模型的优化等的共同推动。但究其本质,它并不是一个新技术,仍然是人工智能发展过程中的阶段性产物,尚未在技术层面上发生突破性的质变。人工智能发展的历史虽然不长,但如果要客观评估当前人工智能发展的真实水平和未来趋势,需要将当前技术爆发的奇点置于人工智能发展历史和科技革命的脉络中去思考,才能勘破人工智能对教育的影响与挑战。(一)人工智能发展的三个阶段1950年,著名的图灵测试标志着人工智能的伊始。1956年,达特茅斯会议正式提出了“人工智能”这个概念,标志着人工智能学科的诞生。历经近70年的发展历程,人工智能学科内部的研究领域经历了多次分化与融合。在历经了因应用不充分、算力受限以及资助匮乏所导致的两次著名的“人工智能寒冬”之后,如今,该学科再次迎来了突飞猛进的发展阶段。按照智能程度来划分,可将人工智能分为计算智能、感知智能和认知智能三大阶段。第一个阶段是计算智能(Computational Intelligence)阶段(1950年—2000年),即机器对信息进行存储和计算。第二个阶段是感知智能(Perceptual Intelligence)阶段(2000年—2021年),即机器通过传感器捕获到物理世界的信号,理解一些直观的物理世界,高效地完成“看”和“听”的相关工作。第三阶段是认知智能(Cognitive Intelligence)阶段(2022年至今),即机器具备了像人类一样的思考和学习能力,并且能够自主做出决策并采取行动。这一阶段主要是以ChatGPT的发布为标志。但科学界普遍认为,人工智能尚未到达到这一阶段,目前仍处于探索初期。(二)人工智能发展的三个趋势在人工智能发展的历程中,主要存在两条路径:一条是通过符号推理,以模型学习驱动的数据智能,称为“符号主义”(Symbolicism),主张人工智能应该模仿人类的逻辑方式获取知识。另一条是通过神经网络,以认知仿生驱动的类脑智能,称为“连接主义”(Connectionism),奉行基于大数据和训练学习知识,主张模仿人类的神经元,用神经网络的连接机制实现人工智能。在人工智能发展的历程中,符号主义与连接主义两大流派经历了兴衰交替的过程,每次的兴盛都是不同的技术路线和发展模式发挥了重要的推动作用,不仅塑造了人工智能的理论基础和技术实现方式,也反映着科学家们在理解和模拟人类智能方面的不懈努力。随着人们对人工智能认知的成熟度越来越高,“连接主义”的发展路径进步速度将会越来越平缓,而“符号主义”将会再次兴盛。即便是连接主义的代表人物杨立昆、李飞飞、Geoffrey Hinton等人也都表达过当前的技术路线无法制造有感知能力的AI的观点。基于此,本文初步判断人工智能未来发展有以下三大趋势:一是从认知大模型向多模态大模型演进。传统的AI模型专注于处理来自单一模态的信息,主要侧重于理解和生成自然语言。而多模态大模型可以处理文本、图像、音频、视频和代码等多种数据类型,以促进内容合成任务的完成并整合多种信息源。人类智能和学习进化是天然多模态的,人拥有眼、耳、口、鼻、舌、肢体,人工智能的学习也可以更加还原人类学习多感官触发的真实情境。二是从通用大模型向“大小联动”深化应用。AI模型的算力增长、算法效率优化呈现新“摩尔定律”,模型性能随着模型规模、数据规模和算力规模等因素的增大而提升,呈现出幂律分布的特征,已成为大模型走向行业深度应用、创造价值的实际阻碍。小模型可以通过知识蒸馏从大模型中学习。同时,小模型又可以反哺大模型,提升大模型的训练精度。因此,大小模型协同联动,才是降低训练成本和应用成本,提升灵活性、适用性和效率的有效方法。三是从语言智能到具身智能(Embodied AI)实体转向。在现有的大模型应用中,多是在原有流程中嵌入AI工具,使其效率提高,并没有在底层逻辑和原生层面上产生具有创新价值的应用。脱虚向实的转向,为开发和应用拥有自主性和自适应性的人工智能体(AI Agent)提供了机会。要想创建一个能够在真实世界中工作的人工智能体,仅在文字环境中训练是不够的,必须具备对真实世界物理属性的感知能力。以GPT-4o为代表的生成式人工智能技术,不仅可以实现数字空间和物理空间的人机交互,而且还能提供情绪价值,这也表明情感计算是人工智能未来研究的重点方向之一。(三)人工智能发展的现实水平:通用人工智能与人类智慧仍有质的差别当前,人们对人工智能可以提供情绪价值、认知机制、协同价值的交互水平的惊叹,主要源于人们对它初始的预期较低,仍停留在固定、机械的机器人对话或Alpha Go人机围棋大战阶段。事实上,现阶段人工智能的真实发展水平距离通用人工智能还很远,仍与人类有很大差距,有质的差别,特别是在高阶认知和社会情感方面。朱松纯院长在2024年全国两会“委员通道”接受采访时指出,“通用人工智能的‘通用’,在学术上有特定的含义。一般来说,在日常的物理和社会场景中,人工智能要满足三个基本条件:第一,它必须能够完成无限的任务,而不是像过去那样只能完成人定义的有限几个任务;第二,要在场景中主动地、自主地发现任务,做到‘眼里有活’;第三,它要有自主的价值来驱动,而不是被动地被数据所驱动”。当前,尽管ChatGPT、Claude-3、文心一言、讯飞星火等生成式人工智能应用在国内外被公认为较为成功,但它们仍未完全达到通用人工智能的标准,也不具备与人类等值的能力。它在数据处理、记忆、基于组合的创造力、速度和精确度等基础认知方面远超人类,但缺乏人类的情感理性、价值体系、认知和推理能力以及从0到1的创新创造力。大模型在模拟真实世界方面,不管是通过外部信息编码,还是依靠内在的第一性原理(即尺度定律,Scaling Laws),都有显著的不足,表现在强烈依赖数据、模型不可解释、缺乏常识理解等方面,如果能在未来几年内解决这些问题,那么大模型的智能水平有望进一步提升,从而更好地融入社会应用。三、生成式人工智能在教育变革中的技术限度目前,生成式人工智能虽然仍属于弱人工智能,但是它的迭代速度和表现水平已经远远超出我们原来的预期。从教育的视角出发,分析生成式人工智能的技术限度,将打破以往技术发展与教育变革研究的宏大叙事或微观论证的局限性,以复杂性思维来科学分析、理性质疑人工智能影响教育的当下与未来。发展人工智能、训练大模型与教育孩子具有同构性。本文将着重以教育的要素和环节为逻辑脉络,从结构对比、逻辑对比、符号编码、内容分析、交互机理、培养模式六个方面展开论述。(一)结构对比:大模型与大脑所谓人工智能,实质上是对人脑组织结构与思维运行机制的模仿,是人类智能的物化。让人类的心智在计算系统中重现,对大脑的模拟是其中的关键。GPT-3的大语言模型已经具有1750亿个参数,GPT-4则达到1.8万亿个参数,一次的训练成本为6300万美元。在语言智能的发展过程中,模型功能越来越强,泛化能力越来越好,任务解决能力也就越强。大模型试图通过不断增加参数的数量,来实现最大可能地模拟人类大脑的神经元,以此实现接近人类智慧的复现。但人类大脑中有数以亿计的神经元,神经元之间还有连接的突触,人脑大概有800~1000亿个神经元,它们之间的连接突触数目在100万亿。神经元通过电信号相互通信,组成了复杂的网络,直至今天,人类也未完全了解其运行原理。冯·诺意曼早在《计算机与人脑》中就提出,“同样容积的神经元比人造元件能完成更多的运算,能同时处理更多的信息,记忆容量也大得多,每个神经元的准确度较低,但其综合后的可靠性比较高”。也就是说,如果人脑是有机联结的,那么人工智能就是机械联结的,其内在的丰富性和复杂度不可同日而语。按照计算机学科的发展趋势,再过几年,大模型的参数就有可能达到人脑百万亿级的规模。根据幂律定律可知,合理地分配模型参数和训练数据大小,可以在有限的预算内或者预期的计算速度内,尽可能获得效果优良的模型。但模型参数与模型智能程度不是简单的线性关系,大模型和人脑的感知、认知、推理、创新的机理并不一样。因此,一味地追求模型参数并不能实现完全模拟人类智慧的性能,也未必是大模型未来的发展趋势。(二)逻辑对比:概率推理与概念推理概率推理和决策理论为人工智能系统提供了重要的思维方式和决策依据。通过建立贝叶斯网络和使用强化学习等技术,人工智能系统能够利用过去的经验和观察结果进行决策,提高决策的准确性和效率。因此,目前基于概率推理的人工智能存在先天的技术局限。一方面,人工智能基于概率推理,人类智慧基于概念推理,二者之间有质的区别。概率推理是基于已有的信息和数据进行计算,由此获得最大的可能性。概念推理,属于形式逻辑,是基于概念——这一人类思维活动的抽象符号化产物,通过语言表示对某些实体或现象的理解、归纳或分类,反映人们对于事物的认知和理解的高阶思维形式。在计算机语言没有突破冯·诺意曼结构和二进制逻辑时,它把所有的运算存储最后都变成一种加减的关系,仍然是在低阶维度上的无限展开。生成式人工智能尚未突破概率推理的计算模式,只不过是在大数据、大算力、大模型的支撑下,加之人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)使得机器根据不确定的信息做出决定时,进行的推理实现了最大概率的可能性和最接近人类思考的结果。大模型无法运用一套算法解决各种问题,人工智能只能应对确定性指令。但人脑可以面对不同问题场景,可以同时执行不同任务,任意切换,从而应对不确定性。由此可见,人工智能目前停留在逻辑推理、概率推理、因果推理的低阶思维阶段,尚无法展现高维的人类智慧。另一方面,生成式人工智能很难突破线性的、片段的因果逻辑链,也无法根据多样性的社会文化与伦理,实时生成真实、具体的实践内容。但这并不代表它生成的内容不具有创造力,恰恰是由于缺乏逻辑体系、伦理规范的约束和实践检验而“太富创造力”,经常导致“知识幻想”的情况发生。从工程实践的角度来看,生成式人工智能完全可能会产生我们意想不到的智慧。但从知识生成的实效性来看,生成式人工智能的知识创造是通过对过去的大数据进行训练实现概率推理,仿佛是“用后视镜在开车”。麦克卢汉曾将“后视镜效应”生动地解释为“借助固有的经验解决问题的方法,透过后视镜看现在,我们倒退着步入未来”。这与人类真实的教育场景还有着本质差别。孩子的教育、人类的学习,都是在真实的师生互动或实践劳动的情境中,边行动、边建构中培养素养,是对人类智慧结晶的科学知识体系和当下现实生活中不断产生的新经验的结合。(三)符号编码:语言编码与隐性知识语言是人类特有的一种符号系统,是以语音为物质外壳,以语义为意义内容的词汇材料和语法组织规律的体系。语言本身就是一种编码。因此,教育的内容能否被编码和解码,成为“可说”与“不可说”的关键区分。1958年,迈克尔·波兰尼在《人的研究》一书中最早提出,人类的知识分为显性知识和隐性知识(也称缄默知识)两种,通常被描述为知识的,即以书面文字、图表或数字公式加以表述的,只是一种类型的知识;还有一种知识是不能系统表述的,像我们在做某事的行动中所拥有的知识。他指出,与显性知识相比,隐性知识的重要特征在于:第一,就是能通过语言、文字或符号进行逻辑的说明;第二,就是不能通过学校教育、大众传媒等进行传递;第三,不能加以“批判性反思”。由此可见,以自然语言理解与处理、机器学习为核心的人工智能的发展,其核心在于可编码、可建构逻辑的语料及其数据信息。大语言模型的智能正是基于语言文字可以被记录、编码、传播的显性知识,但作为另一种类型存在的隐性知识却被忽略了。因为各种类型的编码在内涵表达和意义建构上都具有一定的局限性,文本表达的有限性限制着多模态大模型的智能程度的发展,由于多次编码及其转化会使信息多重过滤和衰减。正如维特根斯坦所言,“语言给思想穿上了衣服,从这件衣服的外表形式人们不能推断出它所遮盖的思想的形式”。语言是人类思维和交流的工具,但语言的表达能力是有限的,无法完全捕捉和描述现实世界的复杂性。语言既是思维的脚手架,也是思维的桎梏。而在人类的学习和进化发展中,往往是隐性知识所占比例更大,意义更为重要,也更具挑战性,如分辨光谱上的颜色、用手感觉材料的颗粒度等非语言类的知识与技能。人工智能面对原理类知识、程序类方法、价值类知识的力不从心;面对生成性教学、情感性教学、实践性教学的无能为力。这类知识和教学不易“言传”,更适合“身教”,只有在做中学,在丰富、复杂、精密的多感官互动中学,才能在身、心、脑、体之间建立真正的联结。另外,即使把经验用语言文字表达出来,但对于接受者来说,它也失去了大部分情境信息和背景信息。当接受者以自己的角度来理解时,它已经丧失了所有的精微之处(相对于表达者而言)。因此,以大语言模型为底层核心技术的人工智能,其实只是注入了人类可以用语言文字或者其他符号编码、计算的显性知识,其基于自监督的语言模型无法获得关于真实世界的知识,其本质是“压缩”。(四)内容分析:海量数据与高质量数据尽管科学研究领域和市场行业人员对于人工智能领域的诸多问题尚未达成明确的共识,但对数据质量是下一阶段大模型能力涌现的关键似有共识。在大模型的生产关系中,数据是生产资料,算力是生产力,算法是生产工具。以ChatGPT为代表的生成式人工智能是劳动密集型、技术密集型和资本密集型技术与产业的结合。原因就在于绝大部分的算力都用在预训练上,主要用于数据收集与清洗;除此之外,细颗粒度、高质量的数据标注也是人力集中的重要工作,而大量的基础工作都是为了高质量数据的获取。关于数据量(Training Tokens)和模型参数量(Parameters)对于模型的影响,OpenAI于2020年曾通过扩大模型参数的方式,提升了大模型的智能水平。但最终被DeepMind得出的结论改变,即在有限算力资源的情况下,更多、更好的训练数据比一味提升模型参数规模更重要。在我们的传统认知里,普遍认为我国在人工智能发展的新浪潮中具有海量数据的比较优势。但现实并非如此,特别是在教育领域里,高质量的可用数据问题更为突出。虽然我们有着全世界最大规模的教师和学生数量,并且他们还会在日常的教育教学管理中源源不断地产生新的数据,但实际上目前可用的高质量数据主要来自书籍、新闻、科学论文等静态沉淀的专业文本。这些数据对于大模型的优化和深化应用,如从大模型走向行业垂类模型,是远远不够的。因为互联网可获取的免费公开数据缺乏深度和精度,无法满足专业性强、精准度高的教育垂类模型。虽然我国已经拥有了海量的教育大数据,包括多模态的教学数据,但其中高质量、结构化、可计算的有效数据并不多。主要问题在于,数据标准不全面和不统一、数据采集覆盖面窄、模型构建专业性不足、应用服务单一机械(主要聚焦于适应性教学、题库类)、开放共享尚未形成和隐私保护有待完善等。特别是教学环境、教学过程中的标准和数据,这些标准的缺失都极大地限制着教育大数据的发展和积累。因此,挖掘已有数据背后的价值,加强未来数据管理,明确行业标准,建立数据使用规则,确保大模型训练有充足、准确的专业数据,才是生成式人工智能赋能教育的基本前提。(五)交互机理:强化反馈与教学互动在信息处理上,基于人类反馈是大模型“智慧”提升的关键所在。人类反馈强化学习是生成式人工智能领域的新训练范式,它通过人类反馈来指导智能系统的行为。过去几年,各种大语言模型(Large Language Model,LLM)根据人类输入提示(Prompt)生成多样化文本,主要是依赖上下文的逻辑和概率推理,因此,存在一定的偏误性。但通过RLHF,在一般文本数据语料库上训练的语言模型能和复杂的人类价值观对齐,让生成式人工智能更具“人性化”。正是人类智慧的反馈与调优,使得人工智能更接近人类智慧。课堂教学也是一个有目的、有方向的、完整有序的复杂信息传递系统,教学反馈作为贯穿教学过程的必要环节,教师可通过时时反馈以调整优化教学策略,从而适应学生的学习行为。对于教学反馈而言,准确性、针对性、指导性、激励性、适时性、多样性、交互性是其核心特征。由此可见,教学反馈与RLHF具有同样的执行机理。(六)培养模式:多模态输入与全面发展在信息输入上,多模态的信息类型是输入有效性和丰富性的前提条件。通过结合不同类型的数据,大模型可以更好地理解和预测复杂的现实世界问题。目前,大多数模型都是通过训练单独的模块,将不同模态转化为语言文本,然后将它们拼接在一起以达到近似多模态,不足之处在于没办法在多模态空间进行深层复杂推理。而原生多模态则在技术上更进一步,具有处理不同形式数据(语言+听力+视觉)的能力,一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。正如教育领域中的具身学习理论,基于视觉、听觉、感觉、触觉等多感官的信息输入和学习者、技术、环境三者之间多模态交互的学习环境,实现大脑多区域的激活,通过深度学习的发生以达到最佳的学习效果。对于大模型的训练亦如培养模式的价值取向,即选择素质教育还是应试教育的问题。如果选择单一维度、单一模态的“刷题”强化训练,大模型在某些方面的智能会在短期内快速提升,但很快到达瓶颈。如果选择全面发展、多模态的素质教育,那么大模型的迭代速度较之前者会慢一些,但是智能程度的上限则会更高。因为通识是专识的基础,恰恰先发展通用认知能力,才有可能发展专业认知能力,大模型也是如此。教育领域更要谨防高分低能的“书呆子”大模型进入应用市场。四、以人工智能撬动教育变革人工智能不仅是科学问题,也是教育问题,更是社会问题。如果人类文明想要传承发展,那么主动面对人工智能是我们必须走出的一步。但总体而言,人们对于人工智能的影响,存在高估短期效果、低估长远效果的倾向。因此,必须从当前采取措施,客观理性地看待人工智能的发展并作出研判。当下,第三波人工智能的兴起不是来自学术界,而是来自企业界的催促和市场化的倒逼。从本质来看,这并不是人工智能领域发生了新的技术突破,而是随着教育数字化的普及和转型,时代发展的必然趋势和旺盛需求所催生的结果。(一)人工智能对教育的影响从长远来看,人工智能对教育发展的影响,应优先重点考虑以下三个方面:一是价值理性。今天的教育者或许无法精准预测未来复杂交织的影响因素,特别是人工智能这个正在巨变的因素,促使群体智慧、人工智能、社交网络对人们决策的影响更为深度地融入了我们的生活。人工智能的能力主要来自人工智能学习的人类大规模数据,数据中有能帮助我们解决问题的关键线索和事实,也有人类社会中的偏见、歧视、敌对和仇恨。人工智能在没有伦理安全、道德框架约束时,学习人类数据的同时也学习了人性的弱点,人工智能向人类提供服务时,也潜移默化地隐含了偏见等。因此,有意识地培养受教育者形成适应未来社会的价值观和是非判断能力,使其无论面临多么复杂难测的境遇,都能用坚定的价值理性作出独立判断,并妥善地加以应对。二是伦理道德。要重视建构机器智能高度发展后的社会伦理道德体系。目前,人工智能大模型在未来扮演的角色主要是三种:工具、伙伴或者敌人,不同的社会文化对它的定位也不尽相同。日本的“人工智能原则”强调,未来人工智能可能扮演社会的准成员,甚至是人类伙伴的角色;并规定,如果未来AI发展到准成员或人类伙伴阶段,它们需要遵守人类社会的伦理道德规范以及为人工智能制定的伦理道德规范。而在西方科幻电影和小说中,人工智能扮演了很多反派角色,是人类的敌人。人工智能大模型在未来究竟扮演何种角色,如何与人类和自然和谐共处,更好地辅助人类,都应率先思考。碳基生命的奥秘解密和在此原理基础上建立的人造智能体(硅基生命)是否会演化成为具有自主价值和生命成长性的机器体,也应该成为未来人工智能关注的方向。我们应该持有开放的态度,坚守人工智能为人类社会发展服务的初心,将其建立在人类伦理道德规约之下。同时,人类伦理道德体系也须随着文明形态的变化而实现相应的进步。教育的首要责任就是通过培养未来社会的合格公民,为建设面向智能社会的伦理道德体系发挥重要作用。三是人才培养。在未来的智能社会中,人工智能体与人类、自然、社会是否能够和谐共生,不是取决于人工智能,而是取决于人类对待人工智能的认知与态度是否能够加速演化。因此,教育要转向对受教育者创新思维等高阶能力的培养。未来社会需要大量具备人机协同能力的高水平人才,创新思维、计算思维和情感能力等高阶能力将成为人类的关键竞争力。为了应对人工智能时代新的挑战,各国应重新审视学校教育体系的价值,反思应“培养什么人”以及“如何培养”的问题。人们认识到,与以往任何历史时期相比,当下都更需要凸显人的价值和凝聚人的力量,以抵御不安和恐惧,区分人与机器、人与人工智能的差别。面对充满不确定性的后真相世界,教育不应只关注教会学生什么,而应帮助他们摆脱“工具人”,塑造“完整人”,激发他们的主体性和内驱力,培养他们独立思考和可持续发展的自主学习力。“五育”并举,全面发展,都与人的情感紧密相关。因此,培育机器智能无法具备的社会情感等是未来教育的关键内容和目标。从中短期来看,人工智能给教育带来了六个方面的影响。一是影响培养目标。为应对人工智能带来的长远挑战,教育要根据未来社会需要调整人才培养目标,以发展学生的核心素养为导向,培育学生终身发展和适应社会发展所需的正确价值观、必备品格和关键能力。二是影响学习方式。人工智能可以助力实现个性化的学习路径,提供智能化助学辅导,还可以通过虚拟现实技术和增强现实技术为学习者营造更逼真的学习情境,模拟那些无法在真实世界呈现的科学实验,等等。三是影响教学方式。通过人工智能,人类可以消解大规模教学和因材施教在实践中的两难困境,兼顾促进教育公平和提升教育质量,促进实现更好的教与学。四是影响师生关系。以前教师是课堂上的学术权威,而现在的学生使用ChatGPT、Sora等工具,即时获取的知识可能比教师能提供的还多。当师生关系不再单纯围绕知识传授而构建时,如何更好地发挥引导、激励和示范作用,如何重新诠释言传身教、保持师道尊严,对教师来说是一种挑战。五是影响教育内容。教材中的机械记忆内容将大幅度减少,给深度学习、认知创新和实践性学习留出了空间。另外,要注意防范通用人工智能潜在的意识形态风险。预训练数据蕴含的意识形态偏向将潜移默化地影响受教育者。六是影响教育管理。教育管理中的人工智能应用已相对成熟,技术促进了教育管理高效化、精细化、科学化,在我国各地已形成诸多优秀案例,积累了丰富经验。同时,还需要继续探索教育管理数据的集成应用,提升数据治理水平,并加强数据安全监管。(二)教育如何积极应对人工智能的挑战当下,生成式人工智能的诞生,已经将技术作用的对象从人的体力向人的脑力转移,从人的身体向人的智慧、意识延伸。人类作为主体性存在的独有特征——思维方式都将受到挑战。我们必须重新思考教育,使其向促进人类意识的觉醒和技能的提升转型,以此维护人类的价值与自由。当前,生成式人工智能依靠数据驱动的实现方法是不是最优路径,有待进一步确认。大模型基于概率推理的天然技术缺陷和资源损耗的制约,一味地追求参数的增多及模型变大是没有价值的。当数据驱动的红利消耗殆尽时,是否存在第三条道路,是否会产生新的研究范式或技术路线。对此,我们应该持有质疑和理性的态度。从大处着眼,从小处着手。在教育生态体系的复杂元素中,从以下三个问题入手最为紧要,也最具指导意义。第一,当我国传统教育优势将被人工智能大幅削弱时,更应注重学生哪些素养与能力的培养?第二,随着生成式人工智能技术的发展,如何处理新型的师生关系?第三,人工智能改变了知识生产和传播的方式,在此背景下,教学模式与教育信息化时代有何质的不同?1.注重学生的高阶思维培养人工智能时代,育人目标和模式从知识本位、学科本位走向素养本位,即查即用类知识的习得将更多由人工智能辅助完成。学生接受的不仅仅是海量的确定性信息,更是真假难辨、良莠不齐的生成式内容,这对提高学生的数字素养与技能这一未来必备的基本素养提出了要求。如果说信息化时代,我们要求学生要有发现问题和解决问题的能力,那么人工智能时代,我们则要求学生具有提出问题的能力,甚至要提出有质量、有逻辑、开放性的问题。提出好的问题,才是人类与人工智能良好协作的开始。目前,生成式人工智能生成的内容大概是人类常识的均值水平,如果想让它接近或达到峰值水平,则需要良好的提示词(Prompt)。这其中就蕴含了比较、分析、应用、迁移、综合、评价等高阶思维,而传统的记忆、检索、计算等初级思维则逐渐被人工智能替代。科技将人的一部分功能强化、延伸,就会相应地导致另一部分功能的弱化、萎缩,造成人类智慧懒惰(Intellectual Laziness)。脑神经科学和相关实验多次证明,历史上的技术和工具在不断地塑造着人类的大脑,脑神经元之间的突触连接会根据我们的思维习惯重新组合,互联网时代让信息过剩、生成式人工智能让知识不断创造,但是人类的思考会变得浅薄。互联网和多元刺激的富媒体可以让大脑的前额叶区不断兴奋,但是负责深度思考的海马体却在此过程中未被激活,这就会鼓励人类个体的智慧懒惰,因为好奇心和探索的愿望是需要鼓励和奖赏的,而“走捷径”是人类与生俱来的本性,这可能会使人类经历集体降智。当下,人工智能给我们带来的巨大威胁并不是代替人类的工作,而是人类会陷入人工智能的强大功能“陷阱”,习惯于机器提供的解决方案,而放弃自主思考。人类一旦习惯了轻松获得,不再进行独立思考,完全把思考交给机器,交给人工智能,那将是对人类最大的威胁所在。因此,教师需要回归教育初心,擅用互动启发式教学法,更加注重师生之间、生生之间的问答互动,重点在于学生的思维发展、情感发展与道德发展,而不仅仅是课堂教学流程上的效率提高或者教学内容的容量增大,避免其误用导致教育内卷的加剧。这就要求教师不断提高数字素养与技能,了解生成式人工智能的内容生成和输出的基本原理,在教育教学中客观理性地对待和适度应用。当下,我们再谈“互动启发式教学法”,是智能时代对教学法的一种复归。这是对中西方教育理念的一种创新性实践。苏格拉底提倡的“问答式”教学,是指他在教授某个知识点时,并不是直接告诉学生,而是先向学生提出问题,让学生回答,如果学生回答错了,他也并不直接纠正,而是提出另外的问题引导学生思考,从而一步步地得出正确的结论。苏格拉底将其称之为“产婆术”,其教学法则是为思想接生,是引导人们产生正确的思想。孔子在《论语·述而》中的“不愤不启,不悱不发。举一隅不以三隅反,则不复也”,强调了其启发式教学的思想和方法。朱熹在《论语集注》中对此解释为“愤心求通而未得之意,悱者,口欲言而未能之貌。启,谓开其意。发,谓达其辞。”在朱熹看来,愤悱之境是认知水平,而启发则是开意达辞的方法。简言之,我国优秀传统文化中的启发式教学,更注重在学生主动思考的基础上进行问答式的教学。当生成式人工智能走进教育现场时,融合中西文化精髓的“互动启发式教学法”,更加注重“启”和“互动”,即通过师生双向有效提问的互动方式,启发学生进行深度学习,培养学生的高阶思维。其特征是问题化、强交互、强反馈,只有真正触发学生深度思考的问题并及时给予正向反馈,才能刺激大脑皮层,促进大脑活跃。而当学生完成某个预期目标后,大脑会产生奖励系统,同时分泌多巴胺、去甲肾上腺素、内啡肽,让学生从精神上感受到愉悦和快乐。学生自主学习的真正发生,是脱离物质奖励和功利目的的单纯的学习专注,具体包括三个特点:第一,教师的启发工作必须建立在学生积极思考的前提下,学生的思考可以通过学生提出问题的方式来体现;第二,从传统课堂教学中的教师单向提问为主,转变为多主体交互、多轮次问答的师生、生生教学互动;第三,教师的教学设计目标要合理,遵循“最近发展区”原理,并强调及时的正向反馈。互动启发式教学法并不是某一种具体的教学方法的代名词,而是一种教学理念,一种教学的指导思想,它可以体现为一种教学方法,也可以是多种教学方法的整合。2.着力构建新型师生关系教师如何适应新型教学关系中的角色,教师如何开展人机协作教学,以及如何关注师生的数字道德问题等,都是构建新型师生关系的重要内容。通过将优秀教师的素质结构进行解构,并将这些素质通过预训练模型赋能机器,力求打造与优秀教师“同质”的虚拟教师。传统“以教为主、以师为主”的师生关系会被弱化甚至消失,同时“以学为主、以生为主”的新型师生关系会逐渐产生。单向传输的二元主体的师生关系,将转变为多向互动的“师—机—生”三元主体关系,形成新的育人生态,将“机”视为新主体的原因就在于,其智能性、交互性的不断发展迭代了传统机器教学的机械化、程序化。教师将从“知识的守门人”转变为“学习的编舞者”。首先,应更加注重对学生情感、态度、价值观的引导。未来新型的师生关系需要更具有情感性和互动性,未来的人类教师需要学会和机器共处,让“机师”为我所用,需要更具有亲和力和共情力,能够走进学生的心灵世界,需要将教育变成“艺术”。其次,逐渐成为知识生产者、学习促进者和成长引导者。教师将越来越起到导师般的作用,引导学生寻找正确的学习目标、科学的学习方法与高效的学习路径,提醒或约束他们形成自律的学习习惯,为学生的综合实践与社会体验提供情感支持。让人师与“机师”的协作在各自优势发挥的基础上充分展开。人师的优势主要包括对学生社会情感能力的支持,教师自身的世界观、人生观与价值观对学生的影响与塑造,对不同领域的知识进行跨学科交叉融合的能力等。智能技术相比以往信息技术所特有的智能优势,可以解决学习者学习需求差异化的识别困境、认知障碍内隐性的辅助困境和学习路径多样化的适配困境,使得精准教学的实现成为可能。因此,“机师”的优势在目前主要集中于知识的大量储备、近乎无限量的计算和对解决问题范式的记忆,并且在交互过程中永远“耐心”且个性化地对待每个学生。3.创新探索智能时代教学模式的变革如何科学认识当前人工智能技术的发展及其对教育的影响,需要教育界进行深入研究。目前的技术还没有成熟到可以系统、全面、准确地应用于教学当中,过度强调人工智能技术在教育教学微观环境中的应用,恐怕还为时尚早。教师首先要认识到当前技术的局限性。相对于人类智慧而言,生成式人工智能目前并没有关于“能力界限”的判断,对于无法回答的问题,它会依据概率给出答案,这其中可能往往包含着错误信息。师生都需要安全、有效和恰当地使用人工智能,教育应帮助每个学生为用好生成式人工智能技术或未来其他技术做好准备。在这种情况下,教师应该注重引导学生加强对生成式人工智能技术的本质认知与初步应用,强调在理性判断的前提下与新技术“接触”。再者,人工智能教育较之教育信息化教学,有着质的差别。在教学中,师生与生成式人工智能的思维链式对话是与过去的计算机辅助教学和使用数字化教育资源平台等完全不一样的体验。它在教育主体、资源供给、内容生产、交互方式上都有质的不同,但并不是在教育教学流程中某个环节的效率提高、某个资源的供给丰富,而是在教育信息化基础上的一次迈向教育数字化、智能化的系统性跃迁,是驱动教育在底层逻辑上的创新和对教育本质的更好实现。例如,教师在教学过程中,可以通过生成式人工智能技术产生一些必要的图文故事或视频等内容开展探究活动,提升其教学设计能力与教学组织能力,增强课堂互动性,但并不是把新技术作为一种主要教学手段。人工智能技术是深化教育数字化转型中的过程性路径和重要的驱动力,因此,要加快数字时代的教育新形态“五新”体系的转型与应用,它蕴含公平、包容、可持续、终身化的教育理念,塑造“人人皆学、处处能学、时时可学”的高质量个性化终身学习体系;构建以数据驱动大规模因材施教为核心的教学模式;创新素养导向、能力为重的教育内容;推进管理精细化、服务精准化、决策科学化的教育治理。通过智能技术突破现有路径依赖,真正系统性地赋能教育变革,实现教育高质量发展。来源|《电化教育研究》2024年第8期作者|王学男(1984—),中国教育科学研究院数字教育研究所副研究员,博士,主要从事教育学原理、教育政策研究。李永智为通信作者,中国教育科学研究院院长。(免责声明:本文转载于《中国教育科学研究院官网》,版权归属于原作者,文中观点与本栏目无关,如涉侵权,联系立删!)
2024-09-10
原创 中国考试 中国考试 2222024年08月26日 16:57 北京引用格式:刘建达, 崔婷婷. 乡镇英语教师测评素养调查[J]. 中国考试, 2024(8): 51-59.作 者刘建达,男,广东外语外贸大学外国语言学及应用语言学研究中心教授。崔婷婷,女,广东外语外贸大学外国语言学及应用语言学研究中心在读博士生。摘 要:建设教育强国和高质量教育体系要求教师具备良好的测评素养。调查乡镇教师测评素养现状,探寻乡镇教师测评素养发展路径,对提升乡镇学校教育教学水平具有重要意义。本研究采用定量和定性相结合的方法,通过问卷调查、访谈调查、课堂观察和文本分析对粤西地区乡镇英语教师的测评素养状况进行调查研究。结果表明,乡镇英语教师的整体测评素养较为欠缺,亟须从沟通测评结果、制定评分标准及评分程序、评估题目质量、开展课堂评估、提供促学反馈等方面加以提升,建议从加强培训和增强备课科组的测评意识等方面逐步提高其测评素养。关键词:语言测评素养;乡镇学校;英语教师;语言测评活动2020年,中共中央、国务院印发《深化新时代教育评价改革总体方案》,强调应重视结果评价,强化过程评价,探索增值评价,健全综合评价[1]。《义务教育英语课程标准(2022年版)》指出,教师应落实“教—学—评”整体育人观念,将教学评价贯穿于教与学的全过程[2]。相关要求表明,教师应具备较高的测评素养,承担起教学者和测评者的双重角色[3]。教师应明确评价的作用与原则,根据评价目标选择合适的评价内容与评价方式,充分发挥评价促教促学的功能。然而,相关调查发现,乡镇教师面临个体评价精神封闭、课堂评价文化失落、评价政策传达失语、评价课程培养缺位等问题[4]。在这种情况下,教师即便意识到评价的重要性,也难以将以评促学的理念落到实处。基于这一问题,同时也是为了贯彻国家“十四五”规划提出的“深入实施乡镇教师支持计划”的要求[5],开展乡镇教师测评素养现状调查,探索其测评素养的提升路径,具有重要的现实意义。有鉴于此,本研究以英语学科为例,对粤西地区乡镇教师测评素养状况开展调查研究,以期为后续研究和全面提升乡镇教师测评素养提供借鉴与参考。一、语言测评素养研究回顾1991年,Stiggins提出测评素养(assessment literacy)的概念[6]。从此,不断有学者对教师测评素养进行系统性研究[7-8]。近10年来,教师测评素养更成为测试与教学领域的关注热点,相关研究主要集中在测评素养的构成[9-10]、测评素养测量工具的开发与验证[11-12]、教师测评素养的现状[13-14]、教师测评素养的发展路径[15]等方面。有学者认为,教师测评素养包含教学内容知识、测评原理、测评技术知识、测评实践技能、测评理念(包括认知和情感因素)、实践语境等[16-17]。语言测评素养(language assessment literacy)则具有语言学科的独特属性[9],与教师的语言知识紧密相关,同时具备建构性、交互性和应答性等学科特征[18]。在内涵界定的基础上,人们试图开发教师测评素养测量工具,其中影响力较大的包括课堂测评素养列表(Classroom Assessment Literacy Inventory, CALI)[19]、语言测评素养培训需求问卷(Assessment Training Needs of LanguageTeachers)[20]、利益相关方测评素养问卷(Language Assessment Literacy Needs of Different Stakeholder Groups)[21]等。国内外有关研究表明,一线教师普遍存在测评概念理解模糊、测评结果解释能力不足、测评实践能力薄弱等问题[22-23]。专项培训是提升测评素养的有效途径,但其效果受培训周期、培训大纲、任务设计等因素的影响[24];掌握现代技术有助于实施有效评估和反馈[25],参与命题和题库建设等相关的测评活动以及对测评实践进行积极反思均有助于提升测评素养[26-27]。国外的有关研究起步较早,也为国内教师测评素养研究搭建了初步的理论框架和研究范式。目前,国内有关理论研究以通过书评引介新理念[28-29]和述评国内外教师测评素养研究为主[30-32],实证研究则以调查本土教师(主要为高校教师)的测评素养现状为主。相关研究表明,我国外语教师的整体测评素养处于初级水平,存在分数解释能力差、不善于根据教学目标选择合适的测评任务、难以提高学生在课堂评价中的参与度等问题[17],教师的评价意识和评价反馈质量也有待提升[33-34]。随着教师测评素养内涵的不断拓宽,有关研究重点关注的测评场景(assessment context)也逐渐从标准化测试转向形成性评价和课堂评估[14, 35]。从社会文化的视角出发,对不同文化背景、教育环境和测评场景下的教师测评素养进行本土化研究也在不断地为教师测评素养赋予新的内涵[36-38]。然而,国内现有研究对象的覆盖面不足,缺乏对不同学段和不同地域教师测评素养的现状调查与需求分析;同时,研究方法以量化为主,缺少实地质性研究,所采用的理论框架多为先验性框架,未必能切实反映实际情况[7]。因此,本研究拟采用问卷、访谈、课堂观察和文本分等多种方法探究以下问题:1)我国乡镇英语教的测评素养现状如何;2)乡镇英语教师的日常言测评活动有哪些;3)如何有效提升乡镇英语师测评素养。二、研究设计与方法(一)调查对象本研究于2021年11月至2022年2月开展,研究对象选自粤西地区的16所乡镇学校。124名英语教师参加问卷调查,其背景信息见表1。6人(包括英语教研组组长A、英语教师B与C、教务主任D、校长E和教育局教研员F)接受半结构化访谈,3名不同年级的英语教师接受课堂观察并提供教学材料。(二)研究工具采用问卷法、访谈法、课堂观察法和文本分析法对教师的测评素养现状及问题进行探究,借助SPSS25和Nvivo10软件对量化数据和质性数据进行分析。1.调查问卷问卷分为两部分:第一部分为背景信息调查,第二部分编译自CALI。CALI包含7个素养标准,每个标准下设5道题目,共35题。题型为多项选择题,教师需选择一项正确答案。本研究保留CALI框架与核心概念,但对情景、人名、知识内容进行本土化改编,使其更适合乡镇中学英语教学情景。由于问卷为多项选择题,故采用KR-20公式对其内部一致性信度进行检验,得出r=0.56,略高于Mertler将其用于在职教师测评素养研究的信度[39]。由于问卷包含多个维度,故采用McDonald’s omega信度检验方法[40-41]再次确认其信度,得出ω=0.898>0.8,说明具有较好的信度。2.课堂观察量表CALI主要聚焦测评理论和测评知识,具有一定的局限性,未能很好地体现语言测评素养对形成性评价的要求[42]。为更翔实地刻画乡镇英语教师的语言测评素养现状,课题组还改编了赵雪晶开发的教师测评素养观察量表[43],对英语教师在课前、课中和课后的评价活动进行观察,其中课前观察为重点。课前测评活动包括明确测评目标和制订相应测评计划。课前观察关注教师在授课前能否运用自评量表、测评任务等工具进行一定的学情诊断、选用的测评任务的质量是否过关等。课中测评活动主要包括介绍学习目标和测评目标、收集测评信息、提供测评反馈。课中观察重点记录教师在教学过程中收集学生学习信息的方式,如课堂观察、口头提问、随堂小测、同伴互评等。在观察提供测评反馈的情况时,重点关注教师如何向学生提供反馈、如何解释评分标准、如何反馈考试结果等。课后的测评活动主要包括作业布置、作业批改和试卷批改。课后观察主要关注教师布置作业的类型、质量及作业批改方式(如提供原始分数、等级分数或书面批语等)。3.半结构化访谈访谈话题聚焦日常教学,在明确常见测评场景(如布置作业、命制周测、修改作文等)后,围绕“在测评中遇到的困难”和“自身有何培训需求”两大主题展开,并根据回答进一步追问。对访谈内容进行文本转写后,依据扎根理论,对基础数据进行编码和归纳分析,提炼出教师常见的测评场景和测评困难、主要培训需求及提升培训积极性的方法。三、结果与讨论(一)问卷调查结果本次问卷调查共回收有效问卷113份,回收率为91.12%。数据分析表明,粤西乡镇英语教师的整体测评素养得分均值为12.92分,仅为满分(35分)的36.91%,测评素养总体上较为薄弱,详见表2。江进林曾对250位高校英语教师的测评素养进行诊断,得分均值为16.71分,为满分的47.74%,据此认为高校英语教师测评素养偏低[13]。相较之下,粤西乡镇英语教师测评素养的缺失则更为严重。为探究粤西乡镇英语教师的测评素养在不同维度上是否存在显著差异,课题组首先对相关英语教师在第一至七项素养标准上的得分结果进行方差同质性检验,得出F(6,782)=3.47,p=0.002,故采用Kruskal-Wallis检验探究各项素养标准的得分是否存在统计学上的差异。数据分析结果显示,H(6)=70.98,p=0.000,表明英语教师在7项素养标准上的得分存在显著差异。为进一步探究哪些素养标准的得分存在显著差异,课题组进行了事后分析(post-hocanalysis),检验7项测评素养标准得分的平均值在成对比较中是否存在显著差异,见表3。结合表2的数据分析可以看出,教师在素养标准三(实施测试、评分,并解释分数)上得分最高,显著高于在素养标准一、素养标准四、素养标准五和素养标准六上的得分;教师在素养标准四(运用测评结果评估学生、规划教学、开发课程等)、素养标准五(开发有效的评分标准)和素养标准六(向学生、家长或相关人员报告测评结果)上则得分较低。其中,在素养标准六上得分最低,显著低于除素养标准五以外的其他素养标准的得分;在素养标准五上的得分则显著低于素养标准三和素养标准七的得分。以上数据分析表明,粤西乡镇中学英语教师尽管具有一定的测评实施和评分能力,但在运用测评结果进行决策、对分数进行解释报告以及制定测评标准等方面的能力非常薄弱,而按照《中学教育专业师范生教师职业能力测评标准(试行)》中关于教学评价能力的相关要求[44],这些能力恰恰是不可或缺的。此外,课题组以性别、教龄、年龄和是否接受过语言测评培训为自变量,探究其对教师整体素养水平的影响。数据分析结果显示,各组得分不存在显著差异。鉴于CALI的局限性,为更翔实地刻画教师在日常测评活动中体现的测评素养状况,课题组选取3位不同年级的英语教师,针对其课前、课中和课后的测评活动进行观察,发现3个主要薄弱点。第一,在课前阶段,3位教师未能很好地确定评估目标并制订有效的评估计划。例如,由于教材内容较多,七年级教师A难以把握教学重点,加之对PPT制作较为生疏,其教学安排、教学目标和评估目标多参照网上课件资料。相比之下,九年级老师C较为年轻,善于制作PPT,但通常不会列出教学目标和评估目标。八年级教师B在授课前会列出本节课的具体教学目标和评估目标,但授课时未作解读,不利于学生课后自评。为进行课内评估,教师C经常直接从练习册中选取填空题和选择题放入课件,但由于未经改编,相关题目的质量往往不够理想。第二,在课中阶段,教师未能清晰介绍学习目标和测评目标,未及时收集测评信息并提供促学反馈。在为期一周的观察中,课堂观察、口头提问和听写是3位教师评估学生学习成果最常用的方法,学生自评和同伴互评等其他评价方式则被忽视。3位教师有时会提供书面练习,更多时候则是采用口头提问的方式。回应教师口头提问的通常是坐在前排的学生,其他学生则缺乏回答积极性。另外,在一对一提问中,教师通常只关注正确答案,忽视对错误答案的反馈,如下例:教师A:You please, what is your answer tothis question?学生1:(摇摇头。) 教师A: Deskmate, what is your answer?学生2: 应该是C教师A: Is it C? Anyone else?学生3: 应该是 B,因为那个 smells fresh 一般是用来说空气新鲜的。教师A: Yes. Good! The correct answer is B.The air smells fresh. Let’s move forward to the nextexercise.第三,在课后阶段,教师批改作业时对主观题的评分较为苦恼。因学生人数多(每个班级约50人),作文批改周期长达一个月。教师B反映,很多情况下,当教师完成作文批改并将结果反馈给学生时,学生已忘记所写内容,致使作文评改效果很差。另外,虽然教师在命制日常试卷(周测、月测、期中考试等)时并没有感到困难,但命题质量不高。教师往往并不了解各类题型的命题原则与方法,尤其是选择题干扰项的设计原则和作文主题的设计技巧。选择题干扰项经常是无效干扰,作文的话题常常偏离学生日常生活,如“请你谈谈脱贫攻坚应该采取何种措施”。(二)访谈结果课题组通过课堂观察和半结构化访谈来调查粤西乡镇英语教师开展日常测评的情况。结果表明,在备课阶段,教师不太关注测评目标和测评计划的制定,而是直接进入挑选测评任务的环节。同时,被观察的3位教师也未能开展学生自评或者同伴互评。对此,他们的解释是,乡镇学生的水平不足以支持自评或互评,更何况教学安排紧张,难以实施多元化评价。教师E:(课堂评估)这些对于我们农村学校来讲,好像很难做到这个啊……可能这个大城市比较多吧,因为我们每次去听课都会有这方面的评估。教师F:我们这边是农村学校,跟大城市那边老是去培训班的(学生)有差距。教师D:因为他们好像错的地方(作文互评时)还是比较难找出来。教师E:(学生水平较低的话),我们主要是为了完成教学内容而已,时间很紧。在授课阶段,测评活动以口头提问为主,较为单调。课后的测评任务主要是批改作业和日常小测。日常教学中,挑题组卷远多于命题组卷。为此,设计培训内容时,如时间有限,应优先讲授题目质量分析方法;同时,也不能忽视测评方式的选择、考卷质量的评估、试题的命制、测评软件的使用、评分标准的设定、促学评价的实操案例等方面。正如3位教师所反映的:教师D:设计题目啊?一般都不是自己设计。我们一般都是针对性地找和这个内容有关的题目,让他们操练而已。教师E:月测的话,好像是教研室啊,校长室那边,他去外面找一些题来考。教师F:(评分标准)没有,都是个人根据自己的主观意识来判断的吧。如果是大型考试的话,我们就会商量。教师E:自评表几乎每个学期都一样。同伴评估我们没有实施过,但是我听你说了之后也觉得蛮好的。总之,粤西乡镇英语教师的测评素养现状不太理想,突出问题包括:不善于运用测评结果、不善于开发有效的评分标准、不善于向利益相关方报告测评结果。课堂观察与教师访谈显示:教师未能很好地确定评估目标,未能制定有效的评估计划,未能较好地收集测评信息以提供促学反馈;认为主观题评分难度较大,且不熟悉常见题型的命题原则。教师对学生自评、同伴互评等测评方式虽有一定兴趣,但因种种原因,态度较为保守,未曾付诸行动。(三)原因分析教学中出现这种“有心无力”的情况,原因主要有两个。第一,教师测评素养相关的课程培训供给不足。首先,教师的测评素养并未得到足够重视,未纳入教师专业素养结构,不属于教师资格证认定的必要条件,相关的职前教育或职后培训供给不足[13];其次,教师培训活动(如新教师培训、骨干教师培训等)大多聚焦纯粹的教学,极少涉及测评[22];再次,本研究显示,仅有52.5%的教师学过与测评相关的课程,且是否学过相关课程对教师测评素养水平并无显著影响,表明现有测评课程不足以帮助教师应对复杂的测评实践;最后,地域不同也导致培训资源存在差异。乡镇教师难以接触到高校等机构提供的教师发展资源,难以接触到新的测评理念和方法,也较少有系统学习过语言测评的教师或职前教师到乡镇地区任教或实习。第二,班级规模、学生水平、测评氛围等因素对教师测评素养具有重要影响。首先,班级人数多,使得教师难以在45分钟的课堂上开展分组活动或其他较为复杂的测评活动,也影响教师提供促学反馈的意愿和质量。特别是在批改作文时,若要为每位学生提供详细的批改反馈,需耗费巨大的时间精力,因此乡镇英语教师存在不愿布置作文或作文批改周期过长等问题。其次,受学生能力水平和学习态度的影响,教师认为乡镇学校的学生难以开展自评和同伴互评。最后,备课科组的测评文化也会显著影响教师测评素养的发展。访谈中,有教师表示,他们愿意开展学生自评,且课堂上采用备课科组统一制定的自评量表。但是,也有研究表明,年轻教师对在课堂上融入同伴互评等形成性评价感到焦虑,担心这会导致自己在教学进度和教学效果上落后于其他教师[45]。(四)提升路径建议乡镇教师语言测评素养薄弱,需从多方面加以提升。第一,应为乡镇教师提供针对性强的培训资源。乡镇学校教师人数少,学生人数多,课程压力重。因此,不宜大量增加教师的培训负担。可以采用信息技术,以录制短视频的形式开展教师培训,方便教师利用碎片化时间进行学习。培训主题应重点关注沟通测评结果、制定评分标准及评分程序、评估题目质量、开展课堂评估、提供促学反馈等方面。值得注意的是,掌握现代技术有助于实施有效评估和反馈[25],而乡镇学校老教师占比较大,其信息素养相对较低,应注意加强信息技术培训。针对形成性评价难以开展这一问题,应在培训中补充课堂评价的实操案例。第二,鼓励备课科组建立良好的测评氛围。教师的测评活动受所在备课科组影响较大,如学生导学案是否包含自评量表、月考作文评分是否开展双评等,很大程度上是由备课科组决定的。因此,若难以开展全员培训,可对学科带头人、备课科组长等进行先期培训。此外,引导备课科组重视测评的一个有效方法是将测评融入科研课题或教学评比。职称评定与科研成果和教学奖励有着较为紧密的关联,如将测评知识转化为科研成果或教学奖励,会有助于提升教师学习和应用测评知识的积极性。同时,引导教师积极对测评实践进行反思,为教师提供参与命题和题库建设等相关测评活动的平台和机会,对提升教师的测评素养也会大有裨益。四、结束语本研究对粤西乡镇英语教师语言测评素养的状况进行了调查研究,并提出了相关思考和建议。当然,本研究也存在一定的局限性,乡镇英语教师的样本取自粤西地区,研究结果的代表性较为有限。未来可以对我国中西部更广泛地区的乡镇英语教师测评素养作进一步调研。同时,后续可以将研究对象拓展至其他利益相关者,特别是负责选购学生试卷和配套学习材料的相关人员,要关注学生试卷和配套学习材料的质量。同时,开展城乡英语教师测评素养对比研究对于揭示影响英语教师测评素养发展的多方面因素也具有一定意义。参考文献略。
2024-09-04
原创 本刊编辑部 教育科学研究 2024年09月04日 16:01 北京引文信息荆鹏,吕立杰.新时代中小学科学教育的内涵特征、现实审思与赋能逻辑[J].教育科学研究,2024(8):5-12.作者荆 鹏 东北师范大学教育学部 博士生吕立杰 东北师范大学教育学部 教授 博士生导师摘要知识经济的迅猛发展对科学教育的育人质量提出了更高、更新的要求,赋予科学教育新的时代内涵。新时代中小学科学教育作为提高全民科学素质最关键、最基础的工作,是国家创新驱动发展战略的重要支撑,具有跨域交融、知行合一、协同共育等主要特征。近年来,我国科学教育的质量和成效稳步提升,但仍面临评价导向的二维离散、人文精神的底蕴流失、数字技术的介入失衡、参与主体的人本抽离等现实问题。进行全要素、全流程、全链条的科学教育深化改革,做好科学教育的“减法”;统筹促进大科学教育格局形成,做好科学教育的“加法”,是“双减”背景下基础教育阶段一体化推进教育、科技、人才高质量发展的重要举措。关键词科学教育;科学素养;课程改革;基础教育基金项目本文为 2022 年度教育部哲学社会科学研究重大课题攻关项目“‘双减’背景下基础教育课堂形态与高质量发展研究”(22JZD047)的成果之一。目录速览一、新时代中小学科学教育的内涵与特征(一)新时代中小学科学教育的内涵(二)新时代中小学科学教育的特征二、新时代中小学科学教育的现实审思(一)藩篱与羁绊 :科学教育中评价导向的二维离散(二)分离与对立 :科学教育中人文精神的底蕴流失(三)迷思与崇拜 :科学教育中数字技术的介入失衡(四)表象与窠臼 :科学教育中参与主体的人本抽离三、新时代中小学科学教育的赋能逻辑(一)减法逻辑 :革新科学教育理念和育人模式(二)加法逻辑 :统筹促进大科学教育格局形成科学教育是提升国家科技竞争力、培养创新人才、提高全民科学素质的重要基础。党的十八大以来,借力创新驱动发展战略和人才强国战略,科学教育迈入新的发展阶段。2023 年 5 月,教育部等十八部门联合发布的《关于加强新时代中小学科学教育工作的意见》(下文简称《意见》)指出,要着力在教育“双减”中做好科学教育加法,一体化推进教育、科技、人才高质量发展。[1] 同年 6 月,教育部办公厅印发《基础教育课程教学改革深化行动方案》(下文简称《方案》),将“科学素养提升行动”列为本次课程教学改革行动的重点任务之一。科学教育作为让学生理解科学与参与科学、涵养科学精神品质以真正提升科学素养 [2] 的教育教学活动,在促进学生全面发展和推进社会主义现代化教育强国建设中可释放巨大能量。因此,厘清新时代中小学科学教育的内涵特征与实践偏狭,探寻科学教育提质增效的赋能逻辑,对促进我国中小学科学教育高质量发展以及科技强国、教育强国、人才强国建设具有重要现实意义。一、新时代中小学科学教育的内涵与特征(一)新时代中小学科学教育的内涵科学教育是发生在师生之间真实生活世界中的社会活动,不应将其窄化为单一地、理论化地、体系化地传授书本知识。当前,知识经济的迅猛发展对科学教育的育人质量提出了更高、更新的要求,赋予了其新的时代内涵。换言之,科学教育不能停留在科学知识灌输和应试教育上,而要着眼于教育过程的价值取向、目标指向和实践导向,全要素、全流程、全链条地深化改革,培养服务中国式现代化建设的新时代人才。新时代中小学科学教育是一项通过科学技术知识及其社会价值的教学,以提高学生科学素养为目的的系统性教育工程。具体而言,一是面向新时代国家发展的重大战略需求。基础教育阶段是“孵化”学生科学世界观、创新素质和科学观念的决定性阶段,这一阶段应注重培养学生的科学素养、创新精神、实践能力和社会责任感,以契合新时代对现代化人才的迫切需求。二是指向形成创新人才培养的大科学教育格局。新时代中小学科学教育的实施应遵循《意见》等政策部署,贯彻落实立德树人根本任务,并与相关工作同向同行、有机衔接,形成育人合力。三是帮助学生适应未来不确定性的世界,促进其核心素养发展。在数字化时代,技术更迭不断刷新人们的认知视野,但同时个体被技术裹挟的风险急剧上升。这就要求,科学教育应寻求个体知识建构与现实生活的有意义关联,在了解学生认知发展和尊重学生个体差异的基础上,帮助学生树立终身学习观念和实现全面、均衡、和谐发展。(二)新时代中小学科学教育的特征新时代中小学科学教育是“双减”背景下基础教育阶段一体化推进教育、科技、人才高质量发展的重要举措,对支撑建设科技强国、教育强国、人才强国意义重大。[3] 新时代中小学科学教育需要教师用“教育的”方式教科学,学生用“科学的”方式学科学,是对传统意义上科学教育的内涵深化和外延拓宽,旨在形成创新人才培养的新格局。面对国家创新驱动发展战略对人才的迫切呼唤,是否有利于全面提升学生科学素养、有利于统筹推进形成大科学教育格局、有利于推动立德树人根本任务的实现,应成为衡量新时代中小学科学教育育人效能的重要尺度,具体有以下三项特征。1. 跨域交融 :内容的统整性教学内容的统整性是新时代中小学科学教育的重要特征。这是因为,科学领域内的知识密切联系与交叉,而非孤立存在,同时,科学问题日趋呈现综合性和复杂性,需要学习者兼具更完整的知识图谱。科学教育内容的统整性有两个特征 :一是系统性,即科学教育旨在通过课程设计、转化和实践应用等方式为学习者构建系统性、进阶性的知识场域。这有助于促进学生深入理解科学的内在逻辑和规律,培养学生迁移运用知识解决问题的能力。二是跨学科性,即科学教育应模糊学科间的内容边界,打破学科壁垒,对不同领域的科学内容进行有机整合,倡导用跨学科思维去发现、解决及反思现实问题。2. 知行合一 :方式的科学性新时代中小学科学教育应遵循儿童的认知发展规律,在提升学生科学素养的过程中兼顾实践理性与理论理性。一方面,科学教育强调知行合一,即将科学知识与实践探究相结合,引导学生主动参与实践活动,学思结合、激趣引智 ;另一方面,科学教育注重教育方式的科学性,即遵循儿童认知发展规律和尊重个体差异,通过选择适切的教学手段和资源,以科学本质教育为立足点,持续深化学生对科学的理解,有效促进学生科学素养的全面提升。 3. 协同共育:要素的联通性下好科学教育这盘大棋,需要凝聚多元主体力量以保障政策方案集成发力、职能部门协同落实、育人资源有效 整合的大 科学 教育格局形成。一方面,科学教育需深化顶层设计与注重实施效能,确保教育过程中各要素间实现共享共通、各学段教育体系有机衔接,以及学校主阵地与社会大课堂多元主体协同,释放科学教育的育人新潜能。另一方面,科学教育的协同共育强调不同主体间的联通性和协作性,注重对家庭、学校、社会等多方面的育人资源进行有效整合,以形成资源共享和优势互补。二、新时代中小学科学教育的现实审思近年来,政府和社会各方对科学教育日渐重视,中小学科学教育工作的质量水平稳步提升。《中华人民共和国 2023 年国民经济和社会发展统计公报》数据显示,2023年我国公民具备科学素质的比例达到14.14%[4],相较 2005 年 1.60% 提高了12.54%。国家义务教育质量监测数据显示,我国学生科学学业表现整体良好,中等及以上水平学生人数占比约八成,但就另一维度而言,学生科学学习自信心不强,学习方法尚待改善,仅有近两成学生期望长大后从事科学相关职业。[5] 因此,也要清醒地认识到,我国中小学科学教育工作涉及面广、系统性强、挑战性大,总体基础薄弱, [6] 在教学实践过程中仍面临着诸多现实阻碍。(一)藩篱与羁绊 :科学教育中评价导向的二维离散教育评价是学校教育实践的重要组成部分,对学校教育实践具有显著的导向作用。[7] 当前,科学教育的评价存在诸多实践误识与价值偏倚,主要表现在以下三个方面。其一,评价“应试化”与素养发展的离散。长期以来,“以考促教”“以考促学”“教学围着考试转”等应试教育观念根深蒂固,使得科学教育的评价流于形式、限于经验。这种评价方式容易导致科学教育的功利化,即师生过度关注分数,而忽略对学生综合能力和科学素养的培养。其二,评价“标准化”与个体差异的离散。过于依赖单一的考试评价方式,未能全面关注学生学习过程中所表现出的个体差异性,在一定程度上阻碍了学生的个性发展。其三,评价“浅表化”与价值观念的离散。现有评价模式难以实现从社会责任、人文精神等多个维度全面评估科学教育对学生价值观念的塑造效果。(二)分离与对立 :科学教育中人文精神的底蕴流失 科学教育要培养全面发展的人,就需要在发展学生科学素养的同时,培养其人文素养。著名科学教育家贝尔纳(John Desmond Bernal)于 1939 年首次提出科学教育的人文化这一议题, [8] 其认为科学与人文相互对立的局面亟须打破,代之以科学教育的人文化。遗憾的是,受传统的事实与价值二分观念的影响,在教学实践中,科学教育和人文精神之间存在着观念鸿沟,甚至两者存在分离与对立。长期以来,片面的、狭隘的科学教育文化观使教学一味聚焦科学概念、公式和偏难怪问题的求解,忽视了情感态度、社会责任等人文内涵,进而在文化自信、人文设计方面缺失严重 [9]。缺失人文含蕴的科学教育培养出的是“单向度”的人,也即所谓的“半人教育”。这种人文精神缺失、异化的科学教育,更像是一种机械训练,背离了新时代科学教育的育人初心,不能称之为有意义的教育。事实上,虽然科学和人文的生成背景、关注对象以及涵盖内容各异,但在底层的逻辑理路上,其互补耦合,具有共同的价值指向。现阶段,我们迫切需要在科学教育中赓续优质的人文精神,从构建积极健康的科学教育价值观出发,坚持科学教育与人文精神的交融与统一,探寻人文精神落后于科学教育发展的革新坐标。(三)迷思与崇拜 :科学教育中数字技术的介入失衡 近年来,数字技术的持续迭代升级为科学教育注入了新动能、提供了新养料、带入了新循环,与此同时,传统科学教育生态也因此产生剧烈扰动。一是体现在数字化传播时代的科普生态尚未形成。当前,科学教育在数字技术的冲击下仍存在体制机制不健全、治理规则不完善、顶层设计与实施脱节等问题,“重课本轻媒体”“重教学轻宣传”的现象普遍。同时,科学教师队伍数字素养有待提升,不少教师对数字技术不屑用、不愿用,致使设备技术在场,但功效未发挥的现象频现。二是体现在数字技术的介入防范机制还需完善。随着以虚拟现实、人工智能等为代表的数字技术进入科学教育教学实践,可触、可感、可视、可听的课程资源打破了传统的物理空间场域,为实现资源的流动、共享与互通提供了可能,但科学教育数字化支撑服务体系欠佳,使学生频繁无序地在现实和虚拟空间穿梭。这样的“两栖活动”使学生深陷“镜像世界”难以实现深度学习和科学意义建构。例如,不少学校已用数字化设备代替了真实实验仪器,若在教学中不加以规范引导,易导致学生错误地认为,科技创新就是在既定步骤操作下“按部就班”地解决问题,忽视了实验现象的不确定性和实验结果的多样性 ;过度依赖数字技术或异化为由原来的教师“灌”演变为机器“灌”,使学生失去了科学建模、推理和论证的过程,以及在探究实践中具身体悟的机会,进而无法有效培养其批判性思维和问题解决能力。(四)表象与窠臼 :科学教育中参与主体的人本抽离 儿童的思维和行动总是有一种内在的组织或结构,是与他所处的发展阶段的特点相联系的。[10]但当下科学教育对于“因材施教”在实际教学中的运用仍旧存在着局限与偏差,有悖于学生的认知发展规律和以人为本的育人初衷,主要表现在以下两个方面。首先,从横向的角度来说,科学教育的对象是规模化的。在同一学段内,学生的认知发展水平呈现出显著的非均衡性。然而,在面向规模化教育对象的班级授课制中,教学往往陷入标准化、线性化、同质化的困境。在此模式下,教师大多依据同样的基准和原则教学,难以满足学生个性化需求。此外,还有少数教师将科学教育狭隘地视为培养未来的科学家和专业人才的手段,强调资优生的培养,而忽视了全体学生科学素养发展的目标。其次,从纵向的角度来看,科学教育的体系化设计安排和不同阶段的衔接关注欠佳。学生在不同年龄段的学习方法、逻辑方式、认知水平等方面差异明显。尽管目前我国科学课程的设计也融入了学习进阶理念,但对学习进阶的研究还处于起步阶段,顶层设计和微观调控仍然无法满足本土学生的实际需求, [11] 有待进一步从理论和实践角度进行积极探索。三、新时代中小学科学教育的赋能逻辑在“双减”大力推进、全面实施科学普及工作和“提高全民科学素质行动”的时代背景下,进行全要素、全流程、全链条的科学教育深化改革,探寻科学教育的赋能逻辑,是构建优质基础教育生态的必然要求。 (一)减法逻辑 :革新科学教育理念和育人模式 1. 消弭窄化的科学教育观念现代教育观念是由一系列涉及教育不同层面、不同方面的思想观念和价值观念有机构成的复杂系统。[12] 科学教育中不同层面的观念支配着各项教学活动,进而形成了不同的科学教育实践形态,影响整个教育制度运行和育人实效。消弭窄化的科学教育观念,需要构建与时代发展相适应的高质量科学教育体系,这是科学教育在现代化道路上从容前行的先决条件和适应“双减”新形势的必然选择。因此,既要从历史发展脉络中深化对科学教育本质观的理解,又要在当代语境下深刻洞见科学教育的价值理念流变。这是因为,一方面,发展性是科学的一项典型特征。这也在某种意义上决定了科学教育内涵并非一成不变,需要我们持续从知识内容、实践形态、价值理念等多个维度对中小学科学教育予以审视,以期在科学发展的脉络中揭示科学教育教学活动、学习活动的本质意涵。另一方面,科学教育与社会、文化、政治、经济等各个方面密切关联,其既包含生物学、物理、化学等自然科学领域,同时指涉人文精神的涵育,以及世界观、人生观、价值观的培养。因此,科学教育教学实践要求教育者具备敏锐的价值洞察意识,聚焦对科学的本质理解和科学教学研究的方法论,以及积极寻求教学实践与社会现实、文化脉络及伦理道德的深度联结,以最大限度发挥科学教育在创新人才培养方面的现实价值。 2. 聚焦科学教育的参与主体聚焦科学教育的参与主体就要弘扬人的生命自觉,秉持为学生全面发展服务的科学教育价值取向。《义务教育课程方案和课程标准(2022年版)》提出,要遵循学生身心发展规律,凸显学生主体地位,关注学生个性化、多样化的学习和发展需求。[13] 新时代的科学教育教学场域中,师生角色的权力转移是“学为中心,教为学服务”理念的体现,聚焦参与主体即是将讲授、自学、实践、讨论、归纳有机结合,以持续推动教与学范式的变革。就此而言,一方面要发展学生的认知性动机。为此,需要创造良好的科学教育生态,营造宽容的科学文化氛围,激发儿童对科学探究的兴趣,鼓励其敢于发问、善于提问。另一方面要培养学生的成就动机。受“首轮效应”的影响,学生对知识的理解、接受程度差异显著,培养学生的成就动机需要教师掌握脑科学、心理学等多学科的基础理论,深入了解学生的认知发展规律、思想动态及心理需求。在此基础上,教师应不断创新和优化课堂教学策略,实施个性化指导,通过针对性引导和启发来有效激活和强化学生的成就动机。 3. 削减科学教育的形式负担在某种意义上,形式负担作为教育系统“内卷化”的集中映现,在深刻影响教育生态健康发展的同时,亦成为有效落实“双减”政策与推进科学教育高质量发展的重大现实阻隔,有必要在更深层次厘清科学教育的目标导向、内容要素与教学方式,以探索削减科学教育中形式负担的可行性路径。其一,明晰育人目标指向,回归科学教育本质。应以促进学生科学素养发展为宗旨,摒弃割裂式、碎片化、填鸭式的教育模式,依据学生全面发展这一育人目标精心设计教学活动,秉持以人为本、因材施教的价值理念。其二,因应社会发展需求,优化科学教育内容。在遵循儿童认知发展规律基础上体现进阶要求,依据科技发展趋势、经济结构调整以及全球性问题的变化进行科学教育内容的优化调整,保持科学教育的时效性和前瞻性,以帮助学生适应未来世界。其三,释放数字技术潜能,创新科学教学方式。在数字时代,充分发挥数字技术在科学教育中的新优势、新动能,是丰富科学教与学形态、提高教学效能的有效路径。例如,应用数字技术创设真实课堂境脉、调用多模态科学学习资源、采用样态多元的教学活动方式,为学生知识建构、认知发展,以及实现深度学习提供有效助力。 4. 缩小科学教育的地域差异科学教育优质均衡发展始终与教育强国建设的历史进程同频。然而,教育资源总量扩张的内卷化与优质教育资源的垄断化,发达地区教育资源产能的持续溢出与欠发达地区教育资源供给的持续短缺等主要矛盾, [14] 阻碍了目前科学教育的高质量发展。如何化解这些矛盾,并通过制度化、系统化的措施实现评估从关注表层数量指标到关注深层质量指标的转变,是扎实推进科学教育工作的关键议题。一是要强化宏观调控。加大对科学教育资源的投入力度,将科学教育项目和有形资源重点向乡村和中西部地区倾斜,从经费投入、师资培训、质量测评等方面着手,提高科学教育资源的覆盖率和均衡度。二是要推进数字化建设。除了鼓励教师应用技术赋能教学外,还可以积极推动线上教育资源的开发和共享,通过建设优质的科学教育智慧平台,为各地学校提供丰富的教学资源,弥补地域之间的教育资源差异。三是要协同多方参与。地方政府应制定明确的科学教育发展规划,并引导社会各方共同参与科学教育事业。例如,学校与企业要建立紧密的合作关系,外延科学教育的场所 ;社会组织可筹办丰富多样的科学教育活动,为学生提供更多的学习机会和展示平台。用好社会大课堂,是科学教育均衡发展的有效举措,通过多方力量协同共育,有效弥合地域间发展断层。(二)加法逻辑 :统筹促进大科学教育格局形成 1. 提升科学课程的转化实效 不同课程要素结合构成一定的课程形态,不同形态的课程彼此衔接、相互支撑 , 形成具有学段特点、区域特色的课程体系。[15] 提升科学课程的转化实效,需要对科学课程再次进行系统设计、统筹规划,使国家课程方案在地方、学校科学课程实施中减小势能落差。《方案》聚焦基础教育高质量内涵式发展,为推动国家课程方案转化落地绘制了新图景。在对科学课程进行转化的过程中,要充分考虑新时代的人才培养目标,关注从理想课程到文本课程再到课堂教学的课程层级间的转化。[16] 具体而言,一方面要建立引领科学课程转化实施的区域性规划大格局。各级地方教育行政部门要健全循证决策机制、课程实施监管机制,切实因地制宜、因校制宜地构建科学课程实施的区域蓝图和校本方案,保障科学课程转化的连贯性、系统性和实效性。另一方面要合理规范应用数字技术,多维度提升科学课程转化效能。可使用人工智能、大数据等新一代数字技术,加速优质科学课程资源共建共享平台建设、打破课堂教学的时空界限,以及不断完善教、学、评的各环节要素的动态监测与精准反馈机制,确保科学课程转化实施的高质量、高效能。2. 增进人文精神的浸润效果正如杜威(John Dewey)所言,教育应该从人文主义的科目和自然主义的科目之间密切的相互依存关系出发。[17] 整体而言,在科学教育中渗透人文精神应秉持适度、适时、适切的原则,厘定“融点”、丰盈“融法”、重视“融效” [18]。一是科学教育的目标要彰显科学的文化价值,重视培养学生对科学的热爱,对社会的责任感,以及对人类文明的认同意识。二是科学课程的教材要反映科学的人文旨趣。充分认识教材在课程建设中的基础性地位和能动作用,以研制科学课程教材修订标准、建立科学课程教材监管和评价制度为突破口,强化人文精神在科学课程教材中的体现,确保科学课程教材的“文化底蕴”。三是科学教育的过程要注重科学精神的培育。在教学实践中,教师要转变教育教学方式,采用启发式、探究式、项目式等教学模式,重视引导学生探究实践,让学生在做中学、用中学、创中学,不断探索在科学探究中渗透科学精神培养的有效路径。3. 加强教师队伍的专业建设中小学科学教师作为校内科学教育教学范式革新的关键角色,是决定校内科学教育质量的核心要素。加强教师队伍的专业建设,创新科学教师队伍专业发展培养模式,需要牢牢把握“强教必先强师”的逻辑理路,将加强科学教师队伍专业建设视为中小学科学教育高质量发展的重要驱动,进一步细化培养方案、创新培养协同机制,以推进科学教师教育一体化建设。首先,以高质量科学教师供给为培养目标细化培养方案,着力构建高水平的培养标准。这就要求在扩大科学教育专业招生规模的基础上,依据培养端与用人端实然现状进行持续优化、细化、实化人才培养方案,在科学教师准入定编、督导评价等多个流程中从严从实从细,致力于选拔和培养一批具有高专业素养的科学教师。其次,着力发展教师数字素养,重塑科学教师学科素养的现代性。基于科学教学的特征属性,应依据国家《教师数字素养》行业标准制定落实科学教师数字素养的提升方案,可通过开展跨区域跨学校跨学段研训、建立研修共同体,积极实施面向科学课堂、以实践探究为导向的针对性培训,探索全面提升科学教师数字素养的可行性路径,加速推进科学教育数字化转型。最后,创新培养协同机制,着力构建科学教师教育一体化发展体系。进一步深化师范院校、地方政府、中小学三方科学教师协同培养机制,全过程、全要素地打造科学教师人才链,构建以科学教师终身学习为目标指向,融合理论深化、技能迭代与教育创新的综合性、一体化培养发展体系。4. 延拓科学教育的实践场景以学生为中心的学习环境提供了互动的、鼓励性的活动,能满足个人独特的学习兴趣和需求,使学生在不同复杂程度下学习并加深理解。[19] 因此,科学教育的教学实践场景不能囿于科学课堂,而应 从注重“教的浇灌”转变为关注“学的给养”,为学生提供丰富多样的实践机会,促进学生的全面发展。具言之,一是强化部门间协作,统筹各方主体形成规范高效的协同联动机制。加强配套政策供给以支持主体有效协同,打破教育管理部门、学校、社会组织等多元教学实践主体的壁垒,着力推动家校社协同共育的大科学教育格局形成。二是顺应数字化发展,以数字技术赋能打破科学教育教学时空界限。数字 技术的持 续迭代升级,为实现更加公平与包容的科学教育提供了现实可能。例如,通过大数据、人工智能等技术,可打破传统教学的时空界限,为学生科学学习提供个性化诊断、定制化内容推送与全天候辅导。三是用好社会大课堂,推进优质科学教育资源与校内外场景的互动。一方面,要用好校内科学教育的主阵地,将优质的社会资源“引进来”,如,开展“科学家(精神)进校园”、设立流动科技馆等系列活动;另一方面,在条件允许的范畴下,要充分用好社会大课堂,加强高校、科研院所、科技企业、场馆等科学教育实践场地的开发,优化科学教育资源布局,带领学生“走出去”,引导学生在现实环境中建构科学知识,体悟科学精神、工匠精神和创新精神。5. 丰盈科学教育的评估范式教育评价是对教育实践的价值定义和价值赋值,既是一种科学的认识活动,也是一种价值的评价活动,应是合规律性与合价值性的统一。[20] 科学学习的复杂性、阶段性及其影响的滞后性,决定了科学教育的评价方式需要在理论与实践中持续完善。正如《义务教育科学课程标准(2022年版)》指出,应以课程目标和学业质量标准为依据,构建素养导向的综合评价体系,发挥评价与考试的导向功能、诊断功能和教学改进功能。[21] 也即是说,科学教育评价应超越给学生“贴标签”的伪科学方式,避免主观臆断和应试化,转向围绕科学教育的育人目标、特征属性,积极探索构建指标科学、样态丰富的综合评价体系。一方面,要围绕科学教育育人目标,形成规范科学的评价指标体系。为此,应厘定评价的目标主体、对象和模块,进而明晰评价的维度划分和权重比例,尤其是重视科学推理、科学论证、创新思维等高阶能力,以及社会情感能力、学习动机等非认知能力的评估。另一方面,要依据科学教育特征属性,建立样态多元的评价体制机制。就评价主体而言,应充分发挥学校、教师、学生、社会等多元主体参与科学教育评价的能动性,从不同层面揭示科学教育的真实境况,增强评价的公正性与客观性。就评价方式方法而言,要基于科学教育的探究性、跨学科性等特征属性,设计丰富的评价方式,综合利用定性评价与定量评价,传统纸笔测评与过程性、表现性、发展性评价相结合等方法,确保评价结果的信效度。例如,对学习者采用同伴互评、自我反思、成果物化、小组汇报等形式,重视在探究实践中的过程性评价 ;对科学教师采用课堂观察、同行互评、专家督导等方式 ;对教育管理部门和学校可采用内外部综合评估。就评价反馈而言,要关注背景变量信息,重视影响学生科学学习因素的复杂性,从学业和非学业发展两个维度科学理性分析评价结果,进而基于学生个体差异和依据评价结果改进、优化科学教育实践,最大限度发挥评价促进学生素养发展的反哺效能。参考文献(本文刊于《教育科学研究》2024年第8期。如有媒体或其他机构转载,请规范引用、注明出处。)编辑 | 陈 娜复审 | 何文洁终审 | 鲍丹禾
2024-08-14
原创 中国考试 中国考试 2024年08月14日 15:01 北京引用格式:王正青, 杜丽玮. 国际基础教育质量监测的数字化转型:实践路径、支持保障与经验借鉴[J]. 中国考试, 2024(8): 89-110.作 者王正青,男,西南大学教育学部教授。杜丽玮,女,西南大学教育学部在读博士生。摘 要:当前世界各国基础教育质量监测主动适应数字发展潮流,纷纷走上数字化转型之路。部分发达国家以数字化测试为手段创新监测形式,以数字素养为对象拓宽监测内容,以数字化诊断为载体建立早期预警系统,并以数字化系统为工具进行常态化监测,全链条推进数字化转型。在推进转型的过程中,各国从战略规划、教师数字素养、技术支持、组织建设等多方面建立起支撑保障体系。立足我国基础教育质量监测实际,在推进数字化转型过程中应健全多元监测主体,优化监测流程,开发与利用新型数字监测工具,并有效规避智能技术潜在风险。关键词:基础教育;质量监测;数字化转型;智能化监测;国际趋势基础教育是国民教育体系的基石,开展质量监测是世界各国提升基础教育质量的通行做法。根据联合国教科文组织的调查数据显示,全世界已有148个国家和地区开展了基础教育质量监测[1]。其中,美国国家教育进展评估(National Assessment of Educational Progress, NAEP)构建了全国评估和州评估相结合的基础教育质量监测体系,加拿大各省(地区)形成学校-省级-国家国际四级基础教育质量监测体系[2],欧盟各国则从学校外部评估、内部评估和学生学业成就评估三个层面构建了基础教育质量监测体系[3]。随着大数据、云计算、人工智能、区块链等新技术在教育领域的广泛应用,各国基础教育质量监测积极顺应时代潮流,主动走上数字化转型之路。我国教育部印发的《国家义务教育质量监测方案(2021年修订版)》指出,要充分运用人工智能与大数据、脑科学等领域前沿技术方法,开展计算机网络测试、人机交互测试等,引领义务教育质量监测的方法创新[4]。基于此,本文重点梳理世界各国推进基础教育质量监测数字化转型的行动路径、支持保障及主要经验,以期为推动我国基础教育质量监测改革与迭代升级提供借鉴参考。一、国际基础教育质量监测数字化转型的实践路径当前,各国主要通过引入数字化测试、培养数字素养、加强数字化诊断、构建数字化系统等方式,全面创新监测形式、拓宽监测内容、建立早期预警、搭建监测基座,进而实现全链条推进教育质量监测的数字化转型。(一)以数字化测试为手段创新监测形式数字化测试是基础教育质量监测实现数字化转型的重要形式,其具备快速、灵活、准确等特点,能够为有效把握教育质量提供及时监测与反馈。目前欧洲一些国家正将数字技术融入国家考试,其中捷克、丹麦、爱沙尼亚、法国、瑞士、挪威等10个欧洲国家已在初等教育阶段的国家考试中使用了数字技术;保加利亚、法国、意大利、立陶宛、波兰、瑞典、芬兰等20个欧洲国家在高中教育阶段的国家考试中使用数字技术[5]。在采用新技术支持教学实践的数字化转型背景下,数字化测试为基础教育质量监测提供了新路径,具体包括以下三种类型。一是建立数字化考试系统。以芬兰为例,该国面向即将进入大学的高中毕业生举办全国性入学考试,并从2016年秋季开始逐渐转向数字化考试,科目涉及地理、哲学和德语,并于2019年春季实现科目全覆盖。为帮助学生适应数字化考试,芬兰入学考试委员会(Matriculation Examination Board)开发数字化课程考试系统Abitti,提供包括设计考试、编写测试题目、施考、评估等四项主要内容的完整考试流程[6]。丹麦建立Testogprøver和Netprøver两大考试系统,用于中小学生数字化考试[7]。二是扩大数字化测试范围。数字化测试不仅适用于以升学为目的的终结性评价,也适用于阶段性评估其他能力或课程。例如,立陶宛运用数字技术开展数学和科学素养的过程性测评;泛加拿大评估项目(The Pan-Canadian Assessment Program)借助数字工具对加拿大八年级学生的阅读素养、数学素养和科学素养进行阶段性评估。三是推动测试转向自适应形式。澳大利亚全国读写与计算能力评价项目(National Assessment Program-Literacy and Numeracy)是针对三、五、七、九年级学生开展的全国性年度评估计划。该项目于2022年转为数字化测试,采用自适应测试方式,具有自动评分、反馈垂直等值、个性化报告等功能[8]。法国通过自适应测试在线平台,评估六年级学生的读写能力和计算能力,以及六年级和九年级课程中明确规定的全部核心能力。(二)以数字素养为对象拓宽监测内容数字素养是使用数字技能、数字媒体时所需的相关认知、技能、态度、行为的能力,被欧盟委员会列为终身学习的八项关键能力之一。《欧洲公民数字素养框架》(European Digital Competence Framework for Citizens)将快速发展的数字社会中公民所需的知识、技能和态度分为五个素养领域,即信息和数据素养、沟通与协作、数字内容创建、安全防范、解决问题[9]。在数字技术赋能基础教育质量监测的转型过程中,数字技术不仅是提升监测质量的手段,也成为数字化环境中监测学生知识技能运用及情感发展的重要内容[10]。一是在学校课程中融入数字素养内容。各国中小学课程普遍增加了提升学生数字素养与技能的内容,并开设计算机科学、信息通信技术和数字素养等课程。这类课程通常单独开设,或是融入其他学科以实现跨学科整合。其中,保加利亚、捷克、希腊、波兰、葡萄牙、冰岛等11个国家在初等教育阶段单独开设了提升学生数字素养的必修科目;捷克、爱尔兰、西班牙、法国、意大利、瑞典、立陶宛等10个国家将数字素养整合进其他必修科目中[5]。二是在大型教育质量监测项目中增加数字素养内容。国际阅读素养进展研究项目(Progressin International Reading Literacy Study, PIRLS)自2016年开始转向数字化评估,并启动基于计算机的在线阅读评估(ePIRLS),其多模态文本为读者提供丰富生动的交互体验,注重评估读者文本整合能力、获取和使用数字信息的能力[11]。经济合作与发展组织(OECD)在其主导实施的PISA2021测评项目中,将计算思维增加到数学素养测评中,PISA2025“在数字世界中的学习”(learning in the digital world)测评更加关注学生使用计算工具进行知识建构和问题解决的能力。此外,国际计算机和信息素养研究(International Computer and Information Literacy Study, ICILS)、国际数学与科学趋势研究项目(Trends in International Mathematics and Science Study, TIMSS)均将数字技能评估作为关键指标。(三)以数字化诊断为载体建立早期预警系统早期预警干预和监测系统(early warning intervention and monitoring system)是一个循证的、数据驱动的决策机制,其核心是根据学生学业表现和行为指标帮助教育工作者系统识别有辍学风险的学生,实现早期预警与诊断干预。目前,美国、波兰、立陶宛、德国、印度、澳大利亚等国家均根据自身教育制度和风险状况建立了早期预警系统。以美国为例,其早期预警干预和监测系统的工作流程包括七个步骤(图1),分别是组建早期预警团队并明晰职责、使用预警数据工具、识别风险学生、分析预警风险原因、匹配和提供干预措施、动态监测风险学生与调整干预措施、评估与完善早期预警系统流程[12]。该系统运行过程中由第三至六步组成一个循环周期,在预警数据工具的支持下,通过不断循环“识别-分析-干预-调整”四个步骤,可以保障整个预警干预和监测的动态性、灵活性、有效性。以数字化诊断为载体建立早期预警系统需要考虑以下两个问题。一是确定早期预警指标(early warning indicators)。预警指标是早期预警干预和监测系统的核心,用于识别有学业风险或面临其他潜在风险的学生。例如,挪威以学生的平均学分绩点、出勤率、学业表现作为早期预警指标;立陶宛将学生的出勤率、学业表现作为早期预警的重要指标;美国构建ABC基础教育早期预警指标,包括出勤率(attendance)、行为事件(behaviour)和课程表现(course performance)[13]。二是将数据分析(data analytics)、机器学习(machine learning)、生成式人工智能(artificial intelligence generated content, AIGC)等新技术应用于基础教育早期预警干预和监测系统。以机器学习的两种算法为例,包括基于树形结构进行分类和回归的决策树算法,和基于构建多个决策树进行分类或回归的随机森林算法。这两种方法的预测有效性均较高。有学者调查来自墨西哥的670名中学生的数据发现,在70多个预测因素中,回归树在预测最终的辍学率方面具有较高的准确性[14];另一项以韩国165715名高中生为样本的大数据分析发现,将出勤率、行为事件和课程表现作为辍学预测的关键指标时,随机森林算法也具有较高的预测精度[15]。(四)以数字化系统为工具进行常态化监测各国普遍建立教育管理信息系统、学生信息管理系统、州级纵向教育数据系统(state longitudinal data system)等,通过收集学生学业跟踪数据、掌握教育动态信息、利用数据可视化和数据分析报告等方法进行教育数据分析。教育管理信息系统分为宏观和微观系统,共同推进教育高质量发展。一是创建宏观层面的教育管理信息系统。大多数国家在教育数字化转型过程中优先完善数字资源。例如,美国率先在州层面开发纵向教育数据系统,旨在集中管理与深度分析全州的学生、教师和学校等数据,从而促进教育改革与学生发展,同时构建了学生学习投入监测体系[16]。其他国家陆续建立教育管理信息系统,如爱沙尼亚的教育信息系统(education information system)和考试信息系统(examination information system)、韩国的国家教育信息系统(national education information system)、意大利的教育信息系统(sistema informativo dell’istruzione)等。截至2023年,OECD大多数成员国/组织已经建立了教育管理信息系统[7]。二是建立微观层面的学生信息管理系统,管理、记录、跟踪、报告学生的个人信息、课程信息、教师信息、成绩单、出勤状态等,同时访问数字学习内容。例如,拉脱维亚的不少学校通过私营公司建立学习管理系统e-klase,为学生和家长提供成绩报告单、教师评价单、课程学习动态,搭建家长与教师的沟通平台[17];智利的大多数学校通过学生信息管理系统记录学生的入学率、出勤率、学业表现等数据[17]。二、国际基础教育质量监测数字化转型的支持保障世界各国在推进基础教育质量监测的数字化转型过程中,形成了以战略规划、教师素养、技术支持、组织建设等为主体的保障体系,旨在引领发展方向、确保同步优化、保障稳步推进、实现有效运行。(一)制定战略规划,引领数字化转型方向OECD和欧盟基于全球教育数字化转型的现实背景制定了数字教育发展战略。2017年,OECD推出走向数字化项目(going digital project),以两年为一阶段,制定数字化转型政策并持续推进数字化转型。2021年6月,OECD发布《2021年数字教育展望:推动人工智能、区块链和机器人的前沿》(Digital Education Outlook 2021: Pushingthe Frontiers with Artificial Intelligence, Blockchain and Robots),将准确性(accurate)、可获取性(accessible)、可操作性(actionable)和可问责性(accountable)的早期预警4A框架作为重要政策内容,以发挥数字技术在构建早期预警系统和早期预警指标上的优势[14]。2023年12月,OECD发布《2023年数字教育展望:迈向高效数字教育生态系统》(Digital Education Outlook 2023: Towards an Effective Digital Education Ecosystem),对各成员国/组织如何塑造或可能塑造其数字生态系统进行比较和主题分析,阐述在建立数字教育质量监测与评估方面的挑战及未来方向,具有指导意义。欧盟委员会发布了《数字教育行动计划(2021—2027)》[Digital Education Action Plan(2021—2027)],其主要目标包括提高数字能力和技能、运用数字技术进行教与学、利用教育数据分析教育质量,为基础教育质量监测的数字化转型提供政策指引[18]。面对数字技术促发的教育质量监测升级新契机,一些国家结合本国实际制定数字教育评估与发展规划,强化数字教育顶层设计。据统计,德国、法国、比利时、爱尔兰、奥地利等16个欧盟成员国出台数字化能力战略,将数字教育列入国家教育质量保障与评价体系中[19]。以爱尔兰为例,该国教育与技能部于2022年4月发布《2027年学校数字战略》(Digital Strategy for Schools to 2027),将“支持数字技术丰富教学、学习和评估”作为三大关键目标之一,强调以数字技术和在线平台支持小学及中学阶段的持续性评价和形成性评价,突出教育技术对基础教育质量监测的推动作用[20]。(二)提升教师数字素养,夯实转型基础教师数字素养是基础教育质量监测数字化转型的基础。有研究指出,通用数字能力(generic digital competence)、数字化教学能力(digital teaching competence)和专业数字能力(professional digital competence)是教师数字技能和素养的重要构成元素[21]。因此,各国通过构建教师数字能力框架、促进教师数字素养发展、开展教师数字素养评价等方式,保障基础教育质量监测数字化转型的有效落实。一是构建教师数字能力框架。2017年《欧盟教育工作者数字胜任力框架》(European Frame⁃work for the Digital Competence of Educators)提出,教育工作者应在评价领域具备三种基本能力:1)评价策略,即使用数字技术对学生开展形成性评价和总结性评价,以提高评价形式和评价方法的多样性和适用性;2)分析证据,指生成、筛选、批判性分析学生的活动、表现和进步的数字证据;3)反馈与规划,指使用数字技术为学生提供及时反馈,并根据反馈信息调整教学策略,提供有针对性的帮扶,从而确保数字化教育质量监测的实施成效[22]。在教师数字能力框架指导下,爱沙尼亚、克罗地亚、立陶宛和塞尔维亚等国的教育工作者已使用数字技术开展学生评价。二是促进教师数字素养发展。各国都高度重视对教育工作者信息素养和数据素养的培训,以期推动基础教育质量监测数字化的顺利实施,保障数字化监测的可持续发展。例如,韩国的知识泉(knowledge spring)平台、奥地利的digi.folio平台、法国的Réseau CANOPÉ平台、意大利的Scuola Futura平台等,都为教师数字素养提升搭建了高效的学习平台。同时,组织教师参与培训也是促进教师数字素养发展的重要方式。以波兰开展的数字素养发展培训活动为例,该活动由数字波兰项目中心(Centrum Projektów Polska Cyfrowa)与教育部(Ministry of National Education)联合举办,旨在支持教师数字化教学能力发展与评价学生学业进步表现,活动期间至少有7.5万名教师接受培训[5]。三是开展教师数字素养评价。例如,捷克、爱沙尼亚、西班牙、葡萄牙等国提供针对教师数字素养评价的TET-SAT在线自我评价工具。爱沙尼亚的数字镜像(DigiPeegel)、奥地利的数字检查(Digi.checkP)、芬兰的Opeka等在线评价工具都可以用于教师的数字素养自我评价,从而帮助他们指导学生使用数字技术进行自我评价或同伴评价。(三)提供技术支持,确保改革稳步推进各国从加强实践应用指导、搭建数字化技术平台、开发数字化应用工具等方面,为基础教育质量监测数字化转型提供技术支持。一是重视数字技术的实践指导。例如,芬兰数字化考试系统Abitti提供有关数字化考试管理的说明和指导,旨在确保学校通过开放源代码的Linux操作系统实施高中阶段的数字化考试;美国出台学生学业进步测评技术指南,系统阐释实施学业进步评估的具体操作步骤。此外,随着生成式人工智能的广泛应用,英国、美国、日本等国家相继发布关于在教育中使用生成式人工智能的指南,其中日本于2023年发布《初等中等教育阶段生成式AI使用暂行指南》,引导学校在教学与评估中谨慎使用生成人工智能,以适应不断变化的教育需求[23]。二是搭建教育质量监测数字化技术平台。以芬兰为例,该国教育评估中心(Finnish Education Evaluation Centre)自2014年开始逐渐转型,到2017年全面实现数字化评估,并通过专有数字评估平台Koda对三年级和九年级学生进行评估。2022至2024年间,芬兰开发新型学习成果数字化评估平台DigiOTA,主要用于评估学生的基础教育阶段学习成果[24]。此外,意大利的下一代教室(next generation classrooms)和下一代实验室(next generation labs)等项目在实施过程中,不仅为基础教育质量监测搭建了数字化技术平台,而且提供了数字技术工具支持。三是开发教育质量监测数字化应用工具。例如,法国已有Cedre、LSE、Socle CE1、SocleSixième等多种用于评估中小学生数学和读写能力的数字评估工具。为了支持抽样学校选择合适的工具对学生的数学和法语技能进行评估,法国国民教育和青年部还专门开发ASP数字工具[7]。新西兰开发了在线教学与学习评估工具(e-asTTle),旨在评估中小学生在阅读、数学、写作等方面的学业表现,并通过一系列可视化评估结果为教师、家长、学校管理人员提供及时的个性化反馈。(四)完善组织机构,协同多方力量投入各国通过成立专门质量监测机构、设立数字协调员岗位、促进多主体协同合作等方式,为基础教育质量监测数字化转型提供组织保障。一是成立基础教育质量监测机构。以美国为例,联邦教育部鼓励州教育机构申请获得创新评估示范机构(Innovative Assessment Demonstration Authority, IADA)授权,发挥数字化评估优势并改进全州评估。自2016年以来,路易斯安那州、马萨诸塞州和北卡罗来纳州等先后加入IADA,并获得在公立学校建立和运营创新评估系统的资格[25]。此外,美国部分私立、公立中学共同组成非营利性组织——素养成绩单联盟(Mastery Transcript Consortium, MTC),旨在通过素养成绩单的数据可视化处理方式评估高中生的学业成绩及活动表现等综合能力[26]。此外,意大利的国家教育和培训系统评估研究所、芬兰的教育评估中心等也都成为本国基础教育质量监测数字化评估的管理机构。二是设立数字协调员岗位。数字协调员负责为教育工作者提供使用数字化教学资源及教学工具、维护数字化管理平台、协助教育质量数字化监测等多方面的指导与支持。以爱尔兰为例,大多数规模较大的中学都会配备一名数字协调员,通常由ICT教师或专门从事数字教育的教师担任,旨在为教育工作者利用数字技术进行学业质量监测提供技术指导,并将此作为助力学校教育数字化发展的重要方式,推动教育质量监测常态化。三是发挥多元主体协同作用。组织协调多部门共同参与、互相配合,能够提高教育质量监测效率,提升教育质量监测成效。以澳大利亚为例,新南威尔士州的学校数字战略强调政府、学校、教师和家长等多元主体共同参与数字教育的重要性,通过明确多元主体角色定位,完善学生学业发展数据记录,实现多元主体共同推进基础教育质量提升[27]。三、国际基础教育质量监测数字化转型的经验借鉴当前,我国智能化测评已在学生能力和知识水平评估、人格与心理健康评估、教学过程评估等方面取得初步进展,基础教育质量监测逐渐实现与数字技术的融合发展[28]。然而,智能化监测工作还存在不少薄弱之处,如各级监测主体的职能定位模糊、数字化专业能力建设不足[29-30],教育监测环节的数据分析技术较为单一[31],数字监测工具的开发与应用投入不足,监测结果的智能化使用不充分等[32]。基于此,本文借鉴各国基础教育质量监测数字化转型经验,从基础教育质量监测主体、监测环节、监测工具、监测结果四个方面提出改进建议。(一)健全多元监测主体参与机制,加强专业能力建设基础教育质量监测是一项全方位、全过程工作。在数字技术赋能教育质量监测背景下,首先应完善多元主体协同机制,加强监测主体的专业化建设,确保监测科学、有序、有效实施。一是优化教育质量监测组织管理。建立与完善监测工作网络,履行监测机构职责,建立督政、督学、评估一体化机制,形成强有力的组织支撑体系,强化各级监测网络在数字时代的内涵建设。同时,深入推进管办评分离,发挥第三方监测机构和社会公众作用。二是完善多元主体协同监测机制。政府、学校、家庭、社会等多元主体在数字化转型中扮演不同角色,共同推进教育质量监测常态化、机制化。首先,应明确各级政府机构、家庭、学校、社会等不同主体在基础教育质量监测数字化发展进程中的职责定位;其次,应综合分析数字化进程中影响学生发展的各种因素,根据影响因素的多样、综合、交互等特点[33],建立全方位、完整的基础教育质量监测体系,构建协同育人格局。三是加强和提升监测主体的专业能力。提升监测主体的数字能力是推进基础教育质量监测的有效保障。可通过开设数字能力专题培训、丰富数字能力学习资源、构建数字能力测评框架、搭建数字能力交流平台、开展数字能力研修活动等,助力监测主体的专业发展,提升其数字沟通、数据获取、数据分析、数据挖掘等能力。教育质量监测主体要探索人机协同的教育评价机制,有效利用人工智能算法对教育全过程进行数据分析,从而使监测结果更加科学、可信[31]。(二)优化基础教育质量监测环节,发挥数据分析功用2020年9月,中共中央、国务院印发《深化新时代教育评价改革总体方案》,提出改进结果评价、强化过程评价、探索增值评价、健全综合评价等教育改革要求[34]。为更好落实教育评价改革总体要求,基础教育质量监测既要转变监测理念,也要合理利用数字技术完善各监测环节。一方面,可利用虚拟现实、增强现实、混合现实、在线学习、智慧学习、区块链等技术创新评价方式,使以终结性评价为主导的横向静态评价逐步转变为以过程性为主的动态评价[32]。另一方面,应合理应用大数据、云计算、人工智能等技术完善增值评价体系,构建全方位增值评价模型。同时,还应利用数字技术健全学业质量监测、体质健康监测、美育监测、劳动教育监测、德育监测等数字化监测体系,形成德智体美劳综合素质评价模式。教育数据挖掘、数据分析等新兴数据分析技术在课堂教学评价、学生学业表现、情感发展等方面发挥监测、预测、诊断、改进等作用。通过预测、聚类、回归分析等技术,借助复杂算法进行数据挖掘,可以发挥精准诊断功用,提高监测结果的可信度[30]。建立和完善我国基础教育早期智能诊断机制,首先,建立多层级的评价资源数据库,包括学生数据系统、教师数据系统、学校数据系统等。其次,充分利用数据库,从多维度、多层次、多模态跟踪获取学生课程表现、学习行为、个人发展及相关因素的数据,促使教师以此为依据展开过程性评价。最后,教师根据过程性评价结果,识别和标记风险状况,继而分析影响学生学业表现与个人发展等方面的因素,对教学内容与方法进行动态调整与改进,以提高教与学的质量。(三)利用新型数字监测工具,推进智能化测评应用在基础教育质量监测过程中,大数据分析和人工智能技术等工具可以提高监测的精确度和有效性,更好地追踪学习者的认知状态,为教育教学质量改进与提升提供决策依据。一是发挥数字化测评优势,扩大数字化测评范围。当前,我国义务教育质量监测具备一定的数字化基础,实现了新型数字工具辅助演唱测试、体育测试、作文自动化评分等功能,尤其是能够运用数字技术处理体育与艺术等学科领域中表现性测评产生的非结构化数据,从而呈现可视化教育质量监测结果。步入数智时代,我国应继续发挥数字化测评优势,总结体育与艺术等学科领域的信息化测评经验,在此基础上探索与挖掘德育、劳动等领域的信息化测评方式,尝试开发相应的测评系统,实现学生综合素质的科学评价。二是开发新型数字监测工具。21世纪必备的通用性能力包括批判性思维及问题解决能力、沟通及协作能力、创造力及创新能力,这些能力是批判性思维、逻辑思维、元认知和创造性思维等高阶思维能力的重要体现[35]。有研究通过情境判断测验(situational judgement tests)、内隐联想测验(implicit association tests)、条件推理测验(conditional reasoning tests)等对学生非认知能力进行评估,发现非认知能力是预测学生早期学业成绩和调整学习行为的重要因素[36]。鉴于我国已研发了基于多任务情境的创造力测评、复杂问题解决能力测评、人机交互的科学探究能力测评、审辩思维能力测评等工具[32],在数字化转型背景下,要继续开发适用于基础教育质量监测的新型数字监测工具,重视高阶思维能力和非认知能力等关键能力的测评。这一过程可通过建立多层级研发团队、提高数据分析优势、构建数字测评模型等方式来实现。(四)加强数字监测结果运用,规避智能技术潜在风险基础教育质量监测结果在驱动教育决策与评估、诊断教育问题、改进学校教育教学、引领教育质量提升、促进个体个性化发展等方面发挥着重要作用。数字技术为基础教育质量监测赋能的同时,也要注意规避数字技术发展带来的潜在风险。一是强化基础教育质量监测结果运用。国家层面的义务教育质量监测结果在数据开放、共享与安全机制建设方面尚处于起步阶段,数据资源与分析结果尚未实现互通互联和资源共享[32]。加强数字技术赋能基础教育质量监测结果运用可以从三个方面开展工作。首先,连通监测数据结果呈现平台。将省级、市级和区县教育质量监测平台中可开放获取的数据汇总呈现于国家质量监测平台,增强监测数据的可用性、共享性、公开性和透明度。其次,组织专家团队系统且持续地培养各层级数据分析人员,提升相关人员的数据分析能力与数据可视化能力,深入挖掘监测结果的多种应用价值。最后,推进基础教育质量监测结果在不同层级的运用。将义务教育质量监测结果运用真正落实至学校与学生个体,同时以数字技术为基础,以可视化、可读性为监测结果呈现形式,掌握学生动态发展数据,优化教育教学过程,最终实现教育教学质量的全面提升。二是规避智能技术潜在风险。数字技术驱动基础教育质量监测的同时,也会带来监测结果数据的隐私和安全风险、算法风险等问题。基于此,首先,应构建层级分明的监管体系,优化基础教育质量监测数据风险的协同监管,建立数据隐私和安全保障机制,完善教育数据规范,规避基础教育质量监测在数据采集、存储、传输、分析、使用等环节的隐私安全泄露风险。其次,应建立算法风险评估和管理机制,抵御算法歧视和滥用,摒弃教育质量监测数据计算“暗箱操作”,推动算法公开透明,促进公平公正。参考文献略。
2024-08-07
原创 刘益东 中国考试 2024年07月31日 北京引用格式:刘益东. AI教育革命加快拔尖创新人才培养与评价[J]. 中国考试, 2024(8): 1-11.作 者刘益东,中国科学院自然科学史研究所研究员。摘 要:AI大爆发对社会各个方面产生巨大冲击,并在教育领域引发AI教育革命,在人类历史上可能首次实现精英教育普惠化,这为我国加快拔尖创新人才培养、早日实现教育强国目标提供了新的机遇。本文围绕如何通过AI教育革命加快拔尖创新人才培养与评价展开探讨:一是明确学习者向一流教师学习,从以教师为中心向以学习者为中心转变;二是建立客观化的AI测评系统,推动学历教育向能力教育转变;三是建立组织保障体系,从集中式学校形态转变为分布式“主题名师+AI助教”网络形态与集中式学校形态并存,让学习者有更多选择,让一流教师充分发挥作用。甄选主题名师,研发AI助教,让一流学者主导拔尖创新人才自主培养,有助于早日建成教育强国。关键词:AI教育革命;精英教育普惠化;主题名师;一流人才;教育强国2019年中共中央、国务院印发的《中国教育现代化2035》提出,到2035年,我国要迈入教育强国行列[1]。如何高标准、严要求地建成教育强国,是科教界面临的重大挑战。近两年AI大爆发对社会各个方面产生巨大冲击,在教育领域引发AI教育革命,可谓百年未有之教育大变局,将在人类历史上首次实现精英教育普惠化,为在短时间内建成教育强国提供了新机遇。在此形势和背景下,如何加强拔尖创新人才的培养与评价,是摆在我们面前的重要议题。笔者认为,AI教育革命的核心是实现精英教育普惠化,推动我国从人口大国向人才强国跃升,实现人口红利向人才红利转变。关于AI教育革命,当前人们讨论最多的是AI在传授知识方面发挥的重要作用,如GPT-4o所展现的教授数学的能力令人印象深刻,AI助教将越来越多地参与教学活动。实际上,AI对教育的影响主要体现在两个方面:一是AI助力教学,可以做到一对一、因材施教、私人定制,大幅提升知识传授的效率与品质;二是AI评价学习者的能力,由于AI掌握所有学科知识,可以系统准确地测试出学习者的有关能力,给予定级,真正实现从学历教育向能力教育的转变。AI教育革命将从教学及教学效果评价等方面全面推动精英教育普惠化的实现,其变革范围之广、程度之深、进度之快,前所未有,从根本上改变培养、评价拔尖创新人才的方式方法,让我国的世界一流学者主导一流人才自主培养,集中力量办大事,切实加快教育强国建设。为此,本文探讨如何通过AI教育革命加快拔尖创新人才培养与评价:一是在观念诉求上,学习者向一流教师学习,这是从以教师为中心转变为以学习者为中心的根本所在,AI教育让学习者不再受制于所在学校的师资限制。二是AI测评系统化、客观化,推动学历教育向能力教育转变。AI能力测评客观准确,直接反映学习者的能力水平;提高学习者能力成为核心目标,学生为先、实效为王,一流大学、一流学科将重新洗牌。三是在组织保障上,从目前单一的集中式学校形态转变为分布式“主题名师+AI助教”网络形态与集中式学校形态并存,让学习者拥有更多选择,让一流教师充分发挥作用。本文所述一流教师(学者、人才)、一流成果、一流学科、一流大学均指世界一流。一、向一流教师学习:从以教师为中心转变为以学习者为中心的根本所在(一)“钱学森之问”与“二流教育陷阱”为什么我们的学校总是培养不出杰出人才?这是著名的“钱学森之问”。对此,已有大量解释,如我们的教育过于注重知识积累、过窄的专业教育、过强的功利主义、过弱的文化底蕴、缺乏创新教育、缺乏好奇心与想象力的培养等,这些分析都有道理,但是忽视了一个更为重要的原因——一流教师的匮乏。实际上,即使是发达国家的学校,相比毕业生数量而言,培养出的杰出人才也很少。可见,“钱学森之问”不仅针对国内教育,在发达国家乃至世界范围内同样适用,此为广义“钱学森之问”,即为什么众多学校培养出的杰出人才却如此之少?笔者认为,除天赋异禀的学生为数不多之外,最重要的原因是大部分学生都没有机会向一流教师学习;向二、三流教师学习的结果是在学习知识的同时,形成了二、三流的知识结构、思维方式、学习习惯和价值观,再也没有机会成为一流人才了,也可以说是学“夹生”了。特别是研究生教育,如果硕士生导师、博士生导师是二三流学者,研究生基本就无法成为一流人才,这也是武汉大学原校长刘道玉强调“真正的人才都是自学成才的”[2]的原因。笔者将这一现象称为“二流教育陷阱”和“夹生学习陷阱”[3]。需要强调的是,就培养杰出人才而言,二流教育也许已成为最大阻碍,因为它看上去无害,迷惑性较强。一方面,二流大学的教授也有不少在国际顶级刊物发表论文,有一定知名度,使得学生误以为这就是顶级教育;另一方面,二流大学的量化指标往往很好,如自然指数(Nature Index)世界大学50强排名中二流教育名列前茅,鱼龙混杂。与此同时,教育内卷化又强化了二流教育。在吉尔茨(Clifford Geertz)看来,内卷化是指一种社会或文化模式在某一发展阶段达到一种确定的形式后,便停滞不前或无法转化为另一种高级模式[4]。国内长期“五唯”盛行,以发表SCI论文、国际顶刊论文为目标,据此胜出者占据学界高位。这些中材大用者的最大短板是做不出原始创新,做不出世界一流工作,甚至出现劣币驱逐良币的情况,严重阻碍教育强国建设[5]。教育内卷化凸显“二流教育陷阱”“夹生学习陷阱”的巨大危害。2021年3月,由斯坦福大学、莫斯科国立高等经济学院、美国教育考试服务中心(ETS)以及北京大学、清华大学和印度的合作大学共同发起的Supertest测试报告发布,结果显示在经过大学阶段学习后,中国学生的批判性思维能力和学术技能水平均出现下降,在中美俄印大学生中垫底[6]。显然这与多年来以效仿西方学术为荣、擅长迎合式国际合作、安于在科学上做西方的“外包工”、缺乏批判精神有一定关系。二流人才的特点是擅长精致的跟踪跟进。汪品先院士指出:“从外国文献里找到题目,买来外国仪器进行分析,然后将取得的结果用外文在国外发表,这当然是我国科学的进步,但也可以说这是一种科学上的外包工。”[7]破解“钱学森之问”的根本解决方案,是以学习者为中心,让学习者向一流教师、一流学者学习。博士级智能AI(GPT-5等)即将问世,此举尤为必要。(二)何谓一流教师、一流学者好的教育包括好的知识传授与好的研究引导:前者依靠擅长讲课与启发的教师,如创办可汗学院(Khan Academy)的萨尔曼·可汗(Salman Khan);后者依靠擅长研究和激励的学者,如培养出79位院士的叶企孙。通过口碑、精品课、公开课等,可以比较容易地确定哪些教师是擅长讲课的一流教师;但是,在长期“五唯”和官本位的环境下,在国内很难用“帽子”、头衔、名气去衡量一位学者的真实学术水平。甄别出擅长研究的一流学者,需要一套新的标准与方法。首先,术业有专攻。专家、学者(统称学者)是某一主题的专门研究者。笔者提出,用“主题学者”来界定在某一主题研究领域居于国际前沿、在国内名列前茅的学者。研究主题分为一级主题、二级主题、三级主题。例如,“创新”是一级主题,“技术创新”是二级主题,“人工智能创新”“纳米技术创新”是三级主题。通常,只有开山鼻祖覆盖一级主题,如约瑟夫·熊比特(Joseph Schumpeter)开辟了“创新”研究领域。一流学者、资深学者覆盖二级主题,如成为“技术创新”的专家、权威,他们往往也同时聚焦于一两个三级主题。主题学者之所以研究水平高,一是由于自己术业有专攻、长期积累钻研,二是经常参加相关学术活动、学术会议,有主题共同体、学术共同体的支持,凝聚个人智慧与集体智慧。其次,主题学者在某一主题探究中(通常是二级主题)做到在国际上与众不同,在国内名列前茅。高端主题学者则被称为“主题名师”,是在国际上与众不同、在国内达到首屈一指或最好之一、广受认可或应该广受认可的杰出学者。主题名师在国际上该主题领域居于前沿或引领发展,包括三类学者:一是作出原始创新成果者,如诺贝尔奖、图灵奖、国家自然科学奖一等奖、陈嘉庚科学奖的得主等;二是系统精深者,如“三农”问题专家温铁军;三是奇艺绝学者,如古文字通才李学勤。系统精深者、奇艺绝学者须经横向比较,出类拔萃。主题名师处于国际学术前沿,掌握最新进展,参与前沿推进乃至引领发展,在拔尖创新人才的培养中发挥关键作用,可谓集中主题名师的力量办培养拔尖创新人才之大事。最后,转变教育观念至关重要。从以教师为中心转变为以学习者为中心,核心是强调向一流教师与一流学者(统称主题名师)学习,强调通过AI、互联网等信息技术赋能主题名师,让更多的学习者得到主题名师的引导,实现精英教育普惠化。长期以来,教育从教师的角度出发——教师要有课讲、有研究生带,即使教师并不那么优秀;学习者则希望向一流教师学习,向主题名师学习。以学习者为中心与精英教育普惠化是相互支持、高度一致的。精英教育普惠化的实质是实现教育面前人人平等、优质教育资源人人有份,这是继法律面前人人平等之后人类社会的又一次巨大进步。表1列出以教师为中心与以学习者为中心两种教育模式的区别。可以看到,两者在多个方面存在明显差别。二、AI测评客观化:推动学历教育向能力教育转变迄今为止,讨论AI对教育的影响时,人们大多考虑AI如何提升知识传授、课堂教学、实验实习等方面的效率与品质,考虑如何因材施教、一对一私人定制等。AI的这些影响还是比较温和的,只是量变;而AI对学习者的能力测评能做到系统全面、客观准确,才是对教育(特别是高等教育)的颠覆性冲击,将从根本上改变现行教育体系和学校形态。AI测评主要包括教学成效测评和毕业生能力测评。前者已有所实践,如通过自动评分、抄袭检测、预测分析、评估分析和项目分析等应用对教育评估产生影响。自动评分节省了教师时间,并确保了评估的一致性和客观性[8]。毕业生能力测评是对教学总效果的测评,出具学习者能力测评证书,是对学习者能力的直接反映。而学历学位证书从某种程度上只是借助毕业院校的声望和校友群体的成就,间接反映毕业生的能力。一旦AI能力测试能够做到全面系统和客观准确,在用人单位那里,AI能力测评证书必然替代学历证书和学位证书。当然,这需要AI进一步有序发展,需要AI能力测评系统不断完善,还需要避免AI风险,方能彻底实现。从目前AI爆发式发展的趋势来看,上述设想几年之内就可能变成现实。以往,在某些技能领域,能力证书(如外语水平证书、职业资格证书等)的含金量胜过学历证书和学位证书。在一些领域,能力测评是用人单位招聘员工的主要依据。例如,美国的力扣(LeetCode)平台为全球程序员提供专业的IT技术职业化提升途径,使用该平台的应聘者已经遍布各大公司和众多优秀创业团队。该平台题目资源充足,能够帮助企业寻找、培养技术人才。力扣在线面试工具为企业提供技术面试、能力评估、招聘等全方位专业化服务。随着AI等信息技术的发展,智能化技术在教育评价领域的研究与应用已初步展开,AI和教育测量研究的结合催生了智能化测评这一新兴领域。智能化测评将AI应用于能力评估、人格评估、课程风险评估、学习过程评估等评价任务中,提高了评估的效率和准确性。智能化测评整合多维度信息,对学生个体进行全面评估,有力地推进了我国智能化教育发展。智能化测评结果的准确性与可解释性是最重要的评价指标——准确性要求尽可能降低测评的误差,可解释性是测评结果可以被理解的程度,要能够清楚解释测评分数是如何得到的[9]。随着人工智能快速发展,智能化测评的水平与质量将大幅度提高。目前,AI已通过图灵测试,智能水平节节攀升。斯坦福大学以人为本人工智能研究院(Institute for Human-Centered AI)发布的《人工智能指数报告2024》(Artificial Intelligence Index Report 2024)指出,AI在图像分类、基础阅读理解、视觉推理和自然语言推理等基准测试上超越了人类的表现,但仍然难以应对高级数学问题等复杂的认知任务[10]。这表明,人工智能将不断发展,继续缩小与人类的差距。可以预见,再过两年左右,GPT-5、GPT-6等问世,AI将实现对学习者能力(包括基础知识、专业知识、实验技能、学习能力、批判能力、研究能力、跨学科研究能力、创新能力、交往能力、合作能力、领导能力等)全面准确、可解释的测评。AI不仅可以测评学习者的技能水平,还可以测评其知识素养、研究能力、领导能力等;相较于学历学位证书,AI能力测评所反映的能力要全面准确得多。教育测评与教学关系密切,两者相辅相成。迄今为止,教育测评领域已发生三次范式变革。第一次是20世纪五六十年代大规模推进的“测评学习”(assessment of learning),即测评是对学习和教学外在的、刚性的评价;第二次发生于21世纪,在课堂、区域、国家等层面,许多国家积极倡导“以评促学”(assessment for learning),即测评要有助于教学改进,能够促进教育质量的提升;第三次则发生于三年疫情防控期间,大规模线上和线下教学与学习的混合式教育环境快速形成,“学评融合”(assessment as learning)迅速兴起,成为个性化学习的有机组成部分,能够进行实时的学习反馈和调整,适应以学习者为中心的教育生态转型[11-12]。三次教育测评范式变革,都是为了促进教学、提升教育质量,引发教育供给侧改革。AI测评对教育更大的冲击发生在需求侧,即AI测评的系统化、客观化导致用人单位招聘标准与方式的深刻变化,可谓需求侧改革,即用人单位不再看重学历学位证书,而更看重能力证书。因此,学习者求学的目的就是提升能力,提升学习、创新、发现问题、解决问题等各种能力。如此,求教于名师就成为头等大事,就如同运动员的目标是提高体能与成绩,拜师金牌教练就是头等大事。从以教师为中心到以学习者为中心的转变绝非易事,因为以学习者为中心的核心是让学习者向一流教师学习。这一转变受限于一流教师稀缺,优质教育资源集中在少数顶尖大学;由于与高校庞大的行政体系和教师体系的利益相冲突,即使借助AI、互联网、虚拟技术等信息技术和开放教育资源及教学方式创新,所谓以学习者为中心也只能是表面的、非实质性的,学习者的核心诉求(向一流教师学习、优质教育资源人人有份)仍然无法实现。只有AI测评实现对学习者能力系统化、客观化的评定,选人用人主要依据AI能力测评结果而非毕业院校等级及学历学位证书,教育改革才能冲破重重阻力,实现需求侧改革,真正实现以学习者为中心,让更多的学习者向一流教师学习,实现精英教育普惠化。可以说,AI教育革命带来的教学方式变革和教育质量提升仅为量变,只是诱致性变革,对现有教育体系的影响较为有限;唯有AI测评的成功与推广才为质变,才是强制性变革,才会对教育体系与教育评价产生颠覆性影响,才能极大加快我国教育强国建设的进程。高校教学包括两部分。一是本科教育,其课程、实验、实习等可以通过公开课、精品课、慕课等开放教育资源与AI助教加以完成。借助AI助教(如可汗学院的Khanmigo),可以实现个性化学习、虚拟实验与实践探索等。有了优质教育资源和合理的教学辅导及一流教师的点拨,本科生可以在一定程度上不受本校师资的限制,可获得较多向一流教师学习的机会。二是研究生教育,其教学涉及前沿研究,公开课与AI助教只能满足部分学习需求,指导硕士生、博士生的工作仍然主要由主题学者、主题名师提供承担,一流教师需求量较大,是真正阻碍实现精英教育普惠化的瓶颈,也是构建“主题名师+AI助教”网络所要解决的首要难题。三、组织保障:构建“主题名师+AI助教”网络,实现精英教育普惠化“主题名师+AI助教”网络构建涉及四个要素:一是主题名师的甄选与认定,二是辅助主题名师工作的AI助教的研制,三是以AI测评作为学习者能力的评价工具,四是优质的开放教育资源的支持。(一)主题名师的甄选与认定主题名师是一流人才。以成果论英雄,一流人才就是做出一流成果的杰出人才。一流成果包括三类:一是原始创新成果,二是系统精深、蔚为大观的硕果,三是冷门绝学的奇艺秘技。三类成果均可谓标志性代表作。系统精深、奇艺绝学者往往易于判定,较难认定的是原始创新成果。有关原始创新的论述已有很多,但对原始创新的定义往往比较模糊。按百度百科给出的定义,原始创新是“前所未有的重大科学发现、技术发明、原理性主导技术等创新成果”[13]。据此定义,许多新成果都可被认为或自认为是从0到1的原始创新。实际上,原始创新是取得突破性进展,进而开辟新领域、引领新方向的重大创新,是源头活水,是从0到1,但这个“1”须为新领域、新方向。我国“973”计划基础研究共性重大问题战略研究组认为,原始创新是指开拓新领域、引领新方向和孕育新学科的重大创新[14]。对原始创新的这种理解是国际学术界的共识[15]。原始创新主要有三个特点。其一,完成原始创新包括三个环节,即做出—发表—承认。在得到承认之前,它不是原始创新,只是普通成果,甚至有可能是一个“错误”。其二,依据权威大奖认定原始创新固然有效,但仍有三点不足,即获奖时间滞后、大奖覆盖面窄(不少交叉学科、新兴学科等并未设置大奖)、我国学者在国际上缺少公平获奖机会(尤其在人文社科与交叉学科领域)。其三,做出原始创新者与擅长发表国际顶刊论文者(除少数重叠外),不是一回事,是“两条道上跑的车”。原始创新是拥有卓越创造力的一流人才的作品,曲高和寡。一流人才在“五唯”环境中可能属于弱势群体,他们十年磨一剑,追求重大突破、重大发现,不会把在国际顶级期刊上发表论文作为首要工作,有时会因不屑于或不擅于凑论文、拼关系、争帽子而被边缘化,正如徐匡迪院士指出:“中国颠覆性技术被投票‘投’没了。”[16]为克服通过权威大奖认定原始创新的不足,笔者提出依据“原创成果四要点”来认定原始创新,以避免一次性同行评议存在的主观性、同行相轻等弊端。原创成果四要点包括:1)突破点四要素,包括突破什么、怎么突破、突破开辟的新领域、新方向以及能用一句话概括核心贡献;2)发表同题系列论文论著或专利清单;3)获奖、转载、引用、受邀报告等学界好评;4)国际国内同类工作的盘点比较及优势。这相当于经历了长期的同行评议,公平公正、高效合理。真正的原创成果,特征鲜明,高下立判。认定与盘点原创成果包括三点:1)注明原始创新是开辟新领域、引领新方向的重大创新,杜绝包装假冒;2)填报原创成果四要点,使原始创新成果表述规范,有据可查;3)原创成果包括A+和A两类:A+类已获得权威大奖,如国家自然科学奖一等奖、陈嘉庚科学奖及国际权威大奖,用获奖理由和成果简介展示即可;A类已得到学界好评,能够展示原创成果四要点,优势一目了然[15]。基于对原始创新的定义和认定,笔者提出认定主题名师的“1+N”甄别法——以“1”为主,以“N”为辅,让主题名师一目了然。其中,“1”是一件标志性代表作,包括原始创新成果或系统精深、蔚为大观的硕果或冷门绝学的奇艺秘技,特征鲜明,辨识度高;“N”能够反映名师在该研究主题领域获得的成就、荣誉等,如获奖、获得项目资助、在专业学术团体中任职、获得荣誉头衔等,这些均与研究主题直接相关,能够辅助说明主题名师的学术贡献、影响与地位。(二)研制AI助教,加快实现精英教育普惠化AI助教是AI赋能教育领域的热点。2018年,网龙率先推出AI助教;此后,学霸君的智能教育机器人Aidam、爱乐奇的AI助教、百度的小度安全AI助教等相继推出[17]。在国际上,可汗学院较早致力于利用AI探索个性化教育。自2022年8月,可汗学院与GPT-4合作,利用GPT-4能力为教学者提供教学资源辅助,整合GPT-4推出AI助手Khanmigo。Khanmigo帮助学生掌握各种学科和技能——可以充当虚拟导师,可以解释概念,还可以提供提示并检查答案[18]。2024年5月,微软和可汗学院宣布建立多元合作伙伴关系,微软将协助可汗学院为美国所有K12教育者免费提供Khanmigo for Teachers。这款AI助教节约了教师备课时间,让老师们专注于最重要的事情——与学生互动并提供支持[18]。显然,可汗学院开发的AI助教集成了一流教育资源,使用AI助教,学习者实现了向一流教师学习的愿望。然而,在师生互动环节还不能实现与一流教师互动,因为一流教师毕竟是稀缺的。目前“AI助教+教师”中的教师多是普通教师。也就是说,并没有考虑如何使研制的AI助教与一流教师相互配合。尽管在AI助教层面实现了精英教育普惠化,但作为一个整体,“AI助教+教师”仍不能实现学习者向一流教师学习。因此,今后需要研发与一流教师(主题名师)相互配合的AI助教。要与一流教师(主题名师)互动、问答,需要解决五个问题,以克服一流教师稀缺的问题。一是建立互动数据库。AI助教应收集学习者与一流教师真实互动及对话集锦,形成内部数据库并实时更新。就像积累围棋名局棋谱一样,高质量的内容(包括常见问题)积累越多,其效能越强。学习者提问与数据库内容重合或接近时,通过AI助教可实现相当于与一流教师的互动。二是实时联网,利用AI的强大功能,让学习者与一流教师实现对话或虚拟对话。学习者提出的问题,要么从互动数据库或网上得到答案,要么在网上等待回答。AI的作用是搜索、匹配问答,包括拆解问题、组合问题、整合答案。三是师生匹配。利用聚类分析等方法,将知识结构、专业诉求、研究方向、思维方式、职业规划等方面较为类似的学习者组织起来,与一流教师进行匹配。在AI、互联网、虚拟技术等信息技术的助力下,一位一流教师可以指导许多学习者。四是改进模型。关于信息技术在教育教学领域中的应用已经有多种模型,如SAMR模型、TIM模型、TPACK模型等,均是解决技术支持下改进教学方法的工具。为实现精英教育普惠化,需要在此基础上,考虑AI等技术支持下向一流教师学习所需要的教学方法,提出相应的模型。五是训练AI替身。让一流教师拥有自己的AI替身,是解决精英教育普惠化的根本方案,目前已有初步探索。例如,美国塔夫茨大学教授、哲学家丹尼尔·丹尼特(Daniel Dennett)使用自己关于各种哲学主题的数以百万字的材料训练、建立了自己的AI替身。该AI替身的一些问答表现已与丹尼特本人无异[19]。随着AI技术不断发展,AI替身与学者本人的思维已越来越接近。由于可以得到本人及时核验、校对、改进,教师、学者的AI替身的质量日益提高,优于AI创制的虚拟教师、虚拟学者。(三)“主题名师+AI助教”网络将成为AI教育的主流组织方式实现精英教育普惠化,除了需要解决主题名师甄选、AI助教研发、优质开放教育资源的支持、AI测评客观化等问题,还需要教育组织方式的变革。目前,在互联网、人工智能、数字技术、虚拟技术等的应用推动下,高等教育组织方式出现新趋势。早在1997年,管理大师彼得·德鲁克(Peter Drucker)宣称,30年内庞大的校园即将作古,大学将无法生存,其原因包括传统大学运作成本过高、教育模式缺乏灵活性、不能满足终身学习的需求、在线教育和远程学习变得更加普及和便捷以及市场需求的变化和全球化的影响[20]。慕课引发人们对大学未来形态的思考。例如,戴维·斯特利(David Staley)提出平台大学、微学院、人文智库、游学大学、博雅学院、接口大学、人体大学、高级游戏研究院、博识大学和未来大学十种“明日大学”的模型[21]。朱永新教授强调,今天的学校会被未来的学习中心取代[22]。余胜泉教授提出,未来将出现一些从根本上重新设计的学校,教育通过网络实现不受地理位置和主体限制的教育功能,形成需求个性化、资源协同化、角色多样化的自组织形态的学习社区[23]。劳伦斯·布罗克利斯(Laurence Brocliss)在《牛津大学史》一书中指出,在新技术的影响下,牛津大学迟早会变得多余,网络教育取代高校只是时间问题[24]。湖南师范大学校长刘仲华院士认为,师生关系将逐渐由传统的权威服从转变为独立平等,以师生为主的二元主体关系将被“教师—学生—AI”的新型多元主体的交互结构取而代之;技术革命正在重新定义学校,只要具备课程、测量、评估三个要素,有对学习者和学习成果的统一标准评价,任何地方都可以称为学校[25]。精英教育普惠化需要线下线上结合,这需要克服新的挑战。早在疫情防控期间,线上教学就已暴露出一些问题。例如,在纯粹的在线环境中,学生缺乏自我组织能力,难以保持注意力,容易产生无聊、孤独感;教师的困难则主要是缺乏在线环境的特定沟通能力,不能正确使用计算机等各种教学工具等。因此,需要为在线教学创建合适的物理环境,重新设计课程的具体内容,也可以引入小组活动来激励和吸引学生,鼓励协作学习[26]。“主题名师+AI助教”是以人为本的系统,AI助教只起辅助作用。人工智能解决方案具有结构性地改变大学行政管理和教学的潜力,高等教育教学需要重新考虑教师的角色。人工智能解决方案为全民教育提供了新的机会,同时促进了终身学习。教育应以人为中心,而不是以技术为中心;尽管人工智能取得了飞速发展,完全依赖技术却是危险和错误的[27]。因此,“主题名师+AI助教”网络以主题名师为主,以AI助教为辅;AI助教的功能是充分利用AI、互联网、虚拟技术与开放教育资源等,让更多学习者得到求教主题名师的机会。博士级智能AI即将问世,越来越多的工作岗位被AI替代,精英教育普惠化迫在眉睫。需要指出的是,精英教育普惠化的形式多种多样,本文提出的“主题名师+AI助教”只是其中一种。其优势在于利用新标准、新方法及时甄选出主题名师,其意义表现在四个方面:一是破“五唯”、立新标,确立一流人才的新标准,甄选出主题名师;二是让主题名师担任培养拔尖创新人才的主持人,让精英培育精英,精英教育普惠化;三是让主题名师担任一流学科的学术带头人,加快一流学科建设;四是让主题名师提供一流的知识服务,大幅提高智库水平。智库咨询应该对接术业有专攻的杰出专家,而非对接机构;让主题名师提供相关主题领域的咨询与建议,可以显著提升知识服务水平。四、主要结论与政策建议本文探讨AI大爆发与AI教育革命有可能在人类历史上首次实现精英教育普惠化,加快拔尖创新人才培养与评价,为早日实现教育强国目标提供了新机遇。围绕如何通过AI教育革命实现精英教育普惠化,得出四项主要观点或结论。第一,让广大学习者向一流教师学习是从以教师为中心转变为以学习者为中心的根本所在,AI教育革命可实现精英教育普惠化,使学习者愿望成真,同时成为拔尖创新人才培养的新方式。第二,AI测评系统化客观化,推动从学历教育向能力教育转变,提高学习者能力成为核心目标。AI能力测评结果将替代学历学位证书,成为选人用人的主要依据,这将对高等教育体系与大学形态产生颠覆性影响,一流大学、一流学科或将重新洗牌。第三,目前单一的集中式学校形态将转变为分布式“主题名师+AI助教”网络形态与集中式学校形态并存,让学习者拥有更多选择,让一流教师充分发挥作用。第四,目前先进的AI助教实现了AI助教层面的精英教育普惠化,但仅有“AI助教+教师”还不够,只有“主题名师+AI助教”网络才能攻克这一难关。运用“1+N”甄选法可以及时甄选、认定主题名师;通过建立互动数据库、实时联网、采用聚类分析等方法与一流教师进行匹配,改进模型,训练一流教师的AI替身等,研发与一流教师(主题名师)配合的AI助教,以克服一流教师稀缺的问题。在政策实施层面,笔者建议抓好四个方面的工作:第一,利用新标准、新方法及时甄选出主题名师,实现破“五唯”、立新标;第二,让主题名师担任培养拔尖创新人才的主持人,让我国的世界一流学者主导一流人才自主培养,集中主题名师的力量办大事,提升人才培养质量,实现精英教育普惠化;第三,让主题名师担任一流学科的学术带头人,加快一流学科建设;第四,让主题名师提供一流的知识服务,大幅提高智库实力与水平。总之,AI教育革命与精英教育普惠化将从根本上改变拔尖创新人才培养、评价的方式方法,切实加快教育强国建设进程,助力我国早日实现从人口大国到人才强国的跃升。参考文献略。