首页    >    教育资讯    >    教育考试研究详情

教育测量在教育评价中的角色

2018-03-02

教育评价是教育实践活动不可或缺的组成部分。不管是全国教育质量的监控、学校课程的建设、教师水平和效率的分析,还是学生学习情况的掌握,都离不开教育评价的介入。在教育这样一个复杂的开放性系统中,学习、评价、反馈和控制是四个必备的功能。教育评价作为其中的重要组成,对于保证教育系统的健康和成长起着非常关键的作用。

教育系统中的评价活动是非常复杂的。教育评价在教育理论和实践中的表现形式也是多种多样的。正确认识教育评价在教育系统中的内涵、范围、组成与方法具有重要的理论和实践意义。然而,许多教育研究和实践工作者常常将教育评价单纯地理解为教育测量,从而将教育评价活动简单地与教育测量的研究范畴相等同。由于教育评价和测量学的理论框架都是源于西方,这种理解上的偏差不可避免地具有语言障碍上的原因,即如何辨析敏育评价(Educational Evaluation ) 和教育测量(Educational Measurement)在语义上的异同。但是,更具有意义的则是如何从学科的角度来理解两者的关系,以促进两个学科的进一步发展。基于这种理解,本文不准备在语义上对教育评价和敏育测量进行辨析,而是将要着重分析作为她立学科的教育测量学与教育评价在研究的问题、范畴以及方法等方面的交叉和不同,并在这种分析的基础上讨论教育测量学在教育评价中所应扮演的角色。

测量是科学研究的基础。从方法的角度来讲,现代意义上的科学的发展是建立在两个基础之上的即实验方法的引入与测量技术的进展。实验方法使得系统化分析研究对象成为可能,从而实现对无关变异和客观规律的分离,达到科学知识的不断积累。测量技术的进展则使得研究人员能够更为精确地界定科学理论中的概念和研究命届,量化研究现象,从而使得数理逻辑思维的方法在科学研究中的应用成为可能。从深层意义上讲某学科领域中测量技术的进展直接决定该学科领域在人们传统意义上所谓的科学程度维度上的坐标。

长期以来,教育或者心理测量研究工作者一直沿用20世纪40年代美国著名心理测量学家史蒂文斯(Stevens)对测量的界定,即测量是“按照规则给客体和事件赋予数字”。受当时哲学思潮的影响,史蒂文斯对测量的这一界定在今天看来具有比较明显的操作主义和表征主义的特征,因而不可避免地带有操作主义和表征主义的局限。这种局限性主要表现在:(1)按照该定义,测量活动根本在于制定规则。测量活动被归结于某种规则下的一系列具体操作。这种做法的一个直接后果是将所要测量的客体或者事件的某种属性 (Attribute)与测量该属性的具体操作相等问。(2)在缺乏客观评判标准的情况下,这种做法有可能导致测量活动背离对客体和事件的某种属性的实际特征(Property)和结构关系(Structural relation) 的确定。(3)该定义颠倒了所要测量的客体和事件的属性特征或结构与数字系统的关系,将数字系统视为独立于客体和事件属性的实际特征或结构关系之外的存在。实际上,要保证按照规则给客体和事件赋予数字的正确性和科学性,必须要首先建立数字系统与所要测量的客体和事件的某种属性的实际特征或结构关系具有同构性。然而,要建立这两者之间同构性,必须首先发现所要测量的客体和事件的某种属性的实际特征或结构关系的性质。从这一意义上讲,测量活动是“发现( discover)”所要测量的客体和事件在某种属性上的量化关系(numerical relationship),而不是通过数字系统来表征这种量化关系。那么,测量的基本内涵是什么呢?具体来讲,测量是通过某种合适的工具或者仪器( instrument)确定客体在某种属性 (attribute)上的量( magnitude)的过程。客体在这种属性上的量通常是通过数值(numerical value)来表示的。而该数值则是在某一特定量表系统(scale system)中,比较客体在这种属性上的量与其它类似的量的量化关系(numerical relationship)而确定的。比如,我们用米尺确定某个人的身高是175厘米。这里,身高是我们所要测量的属性,而这个人是测量的客体。所使用的测量工具或者仪器是米尺。175 厘米是我们通过测量确定的此人在身高这属性上的量。而该数值的确定是通过在国际标准长度系统中,通过比较此人在身高这一属性上的量与单位长度(在此处是厘米)的关系而决定的。一般来讲,测量活动包括五大因素,即测量对象或者客体、所要测量的属性、测量仪器、量表系统以及在该量表系统中蕴含的测量单位。通常,量表系统以及测量单位是明确包含在测量仪器之中的。因此,测量仪器不仅提供了确定客体在所测量的属性上的量的标准还蕴含了一种特定的结构(structure)。这种结构的确定是建立在通过经验研究发现所要测量的该种属性所具有的量化关系(numerical relationship)的基础上的。然而,在敬育或心理测量中,由于所要测量的属性的独特性,测量活动通常具独特的特征。

(一)教育测量学的基本框架 

从学科本质上讲,教育测量学涵盖了三个基本问题:测验的编制、测验分数特征的分析、测验及测验分数的科掌使用。对这三个问题的研究构成了教育测量学的基本理论框架。由于有关心理或教育测量学的文献资料浩如烟海,限于篇幅,这就使得教育测量学在研究测验工具的编制时不得不涉及四个根本方面:(1)对所要测量的心理建构的界定;(2)对测量剌激的相关性、代表性以及对测量剌激的反应的认知过程的分析;(3)对基于测量剌激而设计的测验题目的质量分析;(4)对合理的计分框架的分析与开发。根据所要测量的建构的性质不同,界定心理建构或者可以参照以往的相关研究,或者设计新的实证研究,或者依据领域专家的评判,或者进行有针对性的领域分析(Domain analysis)。比如,敬育测量中较多涉及到对学生在某年级的某一学科领域的学业成就的测量。这里,学业成就是所要测量的潜在心理建构。在正确解决测量剌激的相关性和代表性问题之后,需要对基于测量剌激而设计的测验题目进行分析。概括来讲,题目分析是根据测验试测时所收集到的数据,针对所编制的题目进行的有关题目的测量学特征(Psychometric property)分析。该阶段的分析至少包括三个方面:(1)验证所设计的题目是否正确反映了所界定的建构的维度;(2)估计所设计的题目的难度、鉴别力等参数对题目的公平性分析,即除了所要测量的建构之外,测验题目不应该受任何其它因素的影响。对该问题的回答需要进行题目偏差分析(Item bias analysis)。如果所测量的建构是多维的,相应的计分框架必须正确反映这种多维性。根据特定情况下对测验分数的应用,对多维建构条件下的计分方法可以采用分析式的方法,即对被试在每个维度上的反应进行计分,也可以采用综合式的方法,即综合被试在每个维度 上的反应,对被试在所要测量的建构的整体水平进行计分。

(二)教育评价的基本框架 

与教育测量学不同,教育评价似平并没有一个统一的、得到公认的理论框架。虽然这表明教育评价的复杂性,但是在某种程度上它也表明教育评价还处在学科发展的初期、距离成熟的学科还有相当的距离。划分教育评价的维度有很多。例如,按照评价人员的来源,教育评价可以划分为内部评价,即评价人员隶属于所要评价的机构,和外部评价,即评价人员独立于所要评价的机构。按照是否具有既定目标,教育评价可以划分为目标定向评价,即针对既定目标展开评价,和目标游离评价,即没有预定评价目标,评价目标在评价过程之中逐渐形成。虽然这种种分类有助于我们理解教育评价的某些方面但是对于我们形成关于教育评价的整体认识帮助不大。因此在接下来的讨论中,我们采取一种不同的方式对教青评价的框架进行分析。教育评价可以从两个角度来加以分析。一个角度是教育评价的对象或者客体,另一个角度是评价时所专注的教育对象的成分。两者的综合可以帮助我们理解教育评价的整体框架以及可能涵盖的范畴。教育评价的对象大体上包括四类,即人员(personnel)、机构(institution)、材料(material)与方案(program)。抛开对评价人员的职责是否应该包括价值评判的争论,价值观念的影响在教育评价中其实是无时无刻不存在的。价值观念的影响不仅仅表现在对评价结论的认同的影响,还表现在对评价问题的提出,对不同评价目标的重要程度的排序,对信息收集方案的选择,对评价结果等方面的影响。因此价值观念的不同将直接导致教育评价模式和过程的不同,导致对同一结果的不同诠释。对任何事物,井不存在所谓的绝对的、单一的“正确的价值”。

(三)教育测量在教育评价中的角色

以上的分析应该比较清楚地表明教育测量和教育评价的区别。从根本上讲,教育测量是对各种客体在某个或者多个属性上的特征的描述(description)。其强特性在于测量是一种量化的描述,即运用数字系统来对教育客体的属性的量加以描述。相比之下,仅有对教育对象的描述是不能称其为教育评价的。教育评价必须包含在某种标准之下对教育对象的价值或者特征的评判,价值在教育评价中不仅可以成为评价的对象,还可以成为教育评价的过滤嚣。

(四)结语

教育评价在教育活动中的普遍性来自于评价在人类活动中的普遍性,是人类对自身活动和行为的反思和内省,是人类意识能动性的自然反映。教育评价的研究水平和实践与教育活动和系统的健康发展息息相关。有鉴于教育研究者对于教育评价与教育测量理解上的差异。本文从学科的角度对两者在内涵、研究的问题、范畴以及方法等方面的交叉和不同进行了分析,并在这种分析的基础上讨论教育测量学在敬育评价中所应扮演的角色,希望能抛砖引玉,促进教育评价研究在我国的进一步发展。

  



出处:杨向东. 教育测量在教育评价中的角色[J]. 全球教育展望, 2007, 36(11):15-25.

(文章有调整和删减)