教育考试研究详情 - 天津市教育考试研究所

刘贵华：新时代教育考试评价的创新取向

摘要：创造性思维、创新能力是21世纪全球人才必备的核心素养。重知识性轻创造性、重公平性轻科学性的考试评价模式亟须改革，新时代教育考试评价凸显创新取向尤为重要。在测评对象上要转变理念，从关注少数天才转向全体学生；在测评内容上要从外显的知识转向内隐的品质；在测评方式上要利用大数据、人工智能等手段，从简单单一的评价转向综合多元评价；在测评用途上要从对学习的评价转向促进学习和成长的评价；在测评生态上要从局部改革转向系统协同。

关键词：考试现代化；考试评价；创造性思维；创新能力；创新取向

引言

党的二十大报告，通篇贯穿习近平新时代中国特色社会主义思想，描绘了全面建设社会主义现代化国家、实现第二个百年奋斗目标的宏伟蓝图，是我们党开启新时代新征程的政治宣言和行动纲领。报告中指出，教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑，必须坚持科技是第一生产力、人才是第一资源、创新是第一动力，深入实施科教兴国战略、人才强国战略、创新驱动发展战略，开辟发展新领域新赛道，不断塑造发展新动能新优势。教育是国之大计、党之大计。报告从“实施科教兴国战略，强化现代化建设人才支撑”的高度，对“办好人民满意的教育”作出专门部署，凸显了教育的基础性、先导性、全局性地位，彰显了以人民为中心发展教育的价值追求，为推动教育改革发展指明了方向。

　　创新是教育高质量发展的核心要素。抓住了创新，就抓住了牵动教育高质量发展全局的“牛鼻子”。党的二十大报告第一次将教育、科技、人才进行整体谋划，第一次将科教兴国战略、人才强国战略、创新驱动发展战略置于相互促进和相互支撑的动态关系中，第一次将尖端科技和高端人才培养的自立自强摆在更加突出的战略位置。根据相关研究，2021年中国在全球创新指数（GII）中排名提升至第12位，但在全球人才竞争力指数（GTCI）中排名第37位。全球人才竞争力与全球创新排名之间的差距，在一定程度上反映了我国拔尖创新人才供给的短板。

　　评价是牵引教育变革、推动教育创新的指挥棒。在教育、科技、人才“三位一体”格局中，评价贯彻始终，教育评价、科技评价和人才评价改革牵一发而动全身，始终发挥着指挥棒作用。党的二十大报告提出，深化教育领域综合改革，完善学校管理和教育评价体系。学校教育到底是促进还是抑制创新人才培养，在很大程度上取决于考试评价的导向作用。根据2021年经济合作与发展组织（OECD）首次进行的社会情感能力测评结果，15岁学生的创造性和好奇心显著低于10岁学生。我国也有研究发现，大学生的创新创业能力呈现随年级升高而下降的趋势。为何随着受教育年龄的增长，学生们的创造性反而降低了？凡此种种，我们该反思什么？改革开放以来，我国的考试评价改革一刻也没有停歇，取得了巨大成就，高考在立德树人、选拔人才、引导教学上发挥了重要作用，可以说，高考在推进教育公平、建设和谐社会、办好人民满意的教育中发挥了压舱石和助推器作用。公平性和科学性是考试评价两大价值追求，新时代对于创新人才培养提出了迫切需求，考试评价制度在加强科学性、创新性方面的改革势在必行。

测评对象：从少数天才到全体学生

创造不是少数天才儿童的专利，所有学生都具有创造性，都应得到重视和培养。基础教育学校应是创新人才的蓄水池、储备库，对创新素养的测评应是面向各级各类学校的全体学生。当下的大学生普遍缺少创新精神，很重要的原因在于早期创新素养培养的缺失，而青少年时期是创新素养培养的关键期。诺贝尔奖获得者Heckman长达40年的追踪研究表明，在早期教育上每投资1美元，可获得17.07美元的回报，其中4.17美元是对个体成长的回报。早期培养的缺失还导致创新人才的数量和质量都不能满足社会发展需要。世界经济论坛在未来职业报告中，将创造性排在第四次工业革命最需要的10种能力中的第3位，同时创造性也是21世纪人才的必备技能之一。目前，全世界的幼儿园、科研机构和大型企业都普遍将创造性培养作为共同目标。创造性作为一种高阶思维，长期以来被认为是一种遗传才能或高智商人才拥有的品质。因此，面向大部分人的考试评价并没有给予应有的重视，只有在天才儿童识别或拔尖创新人才选拔中才会考虑。现代学校制度产生于200多年前的工业革命时代，它要培养的不是具有创造性的人，而是能够遵守规则的熟练工人，因而其考试评价也不会把创造性作为评价重点。

　　评价的导向作用体现在评价什么学校就会重视什么，而对创造性评价的忽视，会使儿童内化创造性不重要的观念。然而，创造性评价一旦成为关涉切身利害的外部压力，儿童又会倾向于规避风险，不再像以前那样拥有活跃的创造性和发散性思维，评价成为阻碍甚至扼杀创新的重要因素。这也是导致创造性难以测评的重要原因之一。为降低学生的风险规避行为而真正测评其创造性，评价应更加侧重于学习过程而不是学习结果或个人特质，侧重于发展和改进而不是成就，侧重于增强学生自我评价能力而不是依赖教师或外部评价。

　　从创造性测评的发展来看，认知心理学和社会心理学的发展，使创造性评价逐渐从最初的心理测量拓展到创造发生的社会情景和环境。创造性不再是少数人才具有的天赋能力和个性特质，而是在特定社会互动环境中生成、具有可教性和可测量的心理品质。PISA2021对创造性思维的界定，就将其分为“大创造”和“小创造”，而后者是学生发展中经常出现的心理活动和认知活动。PISA的创造性思维测量强调的也不是个体的内在天赋，而是普通个体在创造性思维上的可塑性。当前，教育考试评价亟须转变评价理念和对创造性的认识，扩展评价对象的范围，从面向少数天才儿童到面向全体学生，把创造性作为评价学生发展的关键维度。

测评内容：从外显知识到内隐品质

进入21世纪，随着知识经济和全球化、数字化和智能化的加速发展，人才需求和人才素养结构发生重大转变。OECD的一项研究表明，未来在其成员国家中有14%的工作岗位将可能实现完全自动化，其他32%的工作岗位也会发生显著改变。容易被自动化和数字化替代的工作通常是重复性的简单劳动，知识含量较低，而未来工作对于创造性思维和创新能力的需求将更加凸显。21世纪技能所要求的，除学科能力外，更看重创造力、求知欲、思辨能力、抗逆力、适应力、自我调控能力、责任感、合作能力、冲突解决能力、多角度看待问题能力等非认知能力，然而，目前的公开考试很难实现对上述能力的考核。

　　创造性与个体的情感和道德等内隐心理品质的关系更为密切，情绪智力和情绪能力对于创造性具有显著促进作用。进行创造意味着走出舒适区，直面随之而来的困难和挑战，这就需要具备较强的情绪能力，以管控心理压力的影响。挫折和磨难有时会激发个体迸发出创造力，从而创作出不朽的惊世之作，这在文学艺术领域尤为明显。因此，对创造性的评价必须重视非智力因素的作用，关注社会情感能力等内隐的心理品质。

　　测评分学科知识学习结果的教育考试评价制度，与建立在跨学科知识上的创造性思维和创新能力具有内在冲突。创新能力不依赖于具体的知识领域，很难以具体的认识学习结果和行为表现来测评。侧重于知识学习结果的考试评价之所以会扼杀创造性思维，就在于它更强调对知识的死记硬背。脑科学的研究表明，简单重复训练不利于大脑前额叶的激活，反而会形成思维定式，抑制创新思维。对于创造性思维和创新人才来说，情商与智商同等重要。教育考试评价要从过去仅关注以知识为核心的外显性行为表现，转变为对内隐的心理品质的评价。

测评方式：从简单单一到综合多元

创新的影响因素包括个体、群体、组织和社会环境等多个层面，创新能力和创造性思维是在解决问题的过程中表现出来的，与重视知识学习成绩的结果评价不同，创造性思维的评价更依赖于形成性的过程评价。PISA2021对创造性思维的测评就从发散思维、创意表达和反思改进3个方面，将其分为书面表达、视觉表达、社会问题解决和科学问题解决4个领域进行评价，并考虑课堂创造性思维的个体因素、社会因素和学业进阶。显然，传统的单一评价模式不能适应创造性思维和创新人才的评价。

　　创造性是一个多维度的复杂概念，对创造性的评价主要从创造过程、个体特征、创造产品和外部压力4个方面展开。然而，目前对创造性的评价仍然偏重认知层面，测评方式主要是发散思维测评、自评问卷或者创造结果的主观评价技术等，测评的方式相对简单和单一。由于创造性主要体现在学习过程中，记录学习动态的视频和语言就显得极为重要。视频分析和自然语言的文本分析技术发展为创造性评价提供了可能。2014年OECD在全球范围内启动的全球教学洞察（GTI）视频研究项目，就是利用视频分析获得的多维度数据对各个国家或地区的课堂教学特征及类型进行更加精准地测定和描述。对这些视频数据的研究不仅可以了解教师的课堂教学行为，而且还可以准确把握学生的发展情况。同时，对于学生自然语言的文本分析也可以揭示他们的创新倾向、学习态度和创造能力等。多维综合的数据分析是创造性评价的必然要求。

　　测评和评价是建立在事实数据的基础之上的，数据采集和数据分析技术的进步为创造性思维和创新人才评价提供了现实条件。借助多模态的大数据，评价者可以更加准确全面客观地对创造性思维和创新能力进行“画像”。这些多模态的大数据包括学生个体的脑结构、脑功能的脑影像数据、基因数据，视频图片文字等过程性数据，长时段的学习追踪数据，以及跨领域的家庭、学校和社会背景数据。人工智能技术不仅可以从海量数据中提取最有价值的评价信息，而且还可以根据预测模型对于学生发展给予更为适切的指导。大数据、人工智能在教育考试评价中的应用，能够改变过去简单单一的评价模式，发掘过去被忽视的“黑箱”，降低多元综合评价的成本，使创造性思维评价成为常态。

测评用途：从对学习的评价到为了学习的评价

中国高考评价体系将立德树人、服务选才、引导教学确立为考试评价的核心功能。在课堂教学和学业成就评价中，“对学习的评价”（assessment of learning）常常掩盖“为了学习的评价”（assessment for learning），而后者的缺失正是考试评价的危机。“对学习的评价”主要体现为终结性的结果评价，而“为了学习的评价”主要体现为课堂教学中的形成性过程评价，二者相互促进，不可或缺。有研究表明，形成性评价可以提高学生的终结性评价成绩，它对后进生的提升效果更为明显。如Black和Wiliam的一项研究表明，采用形成性评价可以将学生的标准化考试成绩提高30%以上或者使SAT成绩提高100分；如果应用到TIMSS国际测评中，则可以将42个参与国家中处于中等水平的一些国家提高到前5名[11]。为促进学生创造性思维和创新能力发展，应高度重视课堂教学中的形成性评价。

　　对处于不同教育阶段的学生而言，“为了学习的评价”应引导教育教学关注不同的重点：在学前阶段，应坚持趣味性，在形成性评价中注重视频图片数据的采集，以适切的评价增强幼儿的好奇心和创新性；在小学阶段，应坚持创新性，通过评价进一步增强学生对学习和探究的兴趣；在初中阶段，应坚持适切性，根据学生处于叛逆期的特殊心理发展阶段，因势利导地开展教育教学指导；在高中阶段，应坚持基础性，通过评价引导学生在学术性或职业性方面为未来奠定基础；在大学阶段，应坚持创造性，通过评价增强学生创新创业能力，在学术研究和实践中形成创新品质。

测评生态：从局部改革到系统协同

《深化新时代教育评价改革总体方案》提出“改进结果评价，强化过程评价，探索增值评价，健全综合评价”的要求，应从系统和生态的视角推进“四个评价”的落实。当前，“四个评价”仍面临诸多挑战，如结果评价中的成绩等值、标准设定和分数表达问题，过程评价中的形式化、主观性和公平性问题，综合评价中忽略能力结构层次的简单加总问题，增值评价中的学生发展“天花板”问题，这些问题都制约着新时代教育评价系统和生态的构建。

　　“双减”政策与教育评价改革是党中央着力重塑基础教育生态的两大抓手，其核心目标是拔尖创新人才的培养。创新需要“留白”，“双减”就是要为创新留下空间。根据认知过载理论，信息越多和学习负担越重，就越分散注意力，越会依赖长时记忆，进行重复和无效的学习，而不会接受挑战和改变，从而产生生产率悖论（学得越多，创新越少）。考试评价制度必须与基础教育改革相互适应。不改变考试评价的指挥棒和紧箍咒，就无法落实“双减”政策；而不依托“双减”政策，考试评价改革也只会流于形式。

　　此外，考试评价改革还要与社会需求和国际趋势相适应。2000年以来，国际大型教育评价项目对各国教育政策产生显著影响。从评价框架上看，国际大型教育评价项目大体上形成了以学科知识掌握水平、未来必备的核心素养和学习发生的社会环境为核心的评价框架。IEA组织的TIMSS、PIRLS、ICCS、ICILS等测评项目更多地是测量课程知识的学习结果，而OECD组织的PISA更多地是测量知识在实际生活中的应用，也即关键核心能力或素养。同时，PISA项目也比较重视影响学业成就的教师、学校和家长等因素。OECD成员国家基于未来国际竞争的需要，已将创造性思维和创新能力作为大规模国际评价项目的重点。我国考试评价制度改革应关注和借鉴国际大规模评价项目的评价理念、框架和技术，推进我国考试评价制度现代化。

来源 | 《中国考试》2023年第1期

　　作者 | 刘贵华（中国教育科学研究院副院长、教授）