基于Rasch模型的中学教师教学实施能力测评工具的设计及优化

发表时间:2021/8/3   来源:《中小学教育》2021年4月第10期   作者:王巧丽
[导读] 有效的测评对提升教师课堂教学实施能力具有实质性意义

        王巧丽
        浙江省杭州市杭州中学 浙江 杭州 310002
        [摘要]:有效的测评对提升教师课堂教学实施能力具有实质性意义。本研究以Rasch模型及“四基石”方法为指导,在文献研究及实践的基础上建构了教师课堂教学实施能力学习进程,以此作为理论框架指导设计教师教学实施能力测评量表。运用量表对样本进行试评、初测和再测,重在利用SPSS、Winstep软件对初测结果进行统计分析评估量表并对量表进行优化;最后运用正式量表进行再测,主要用Winstep软件对数据进行Rasch建模,通过信度、拟合度、Wright map、评分等级结构、一维性等指标检验量表的评估效果,同时借助SPSS软件辅以评分者信度。基于Rasch模型对教师专业发展具有重要实际意义。
        [关键词]:Rasch模型,教学实施能力,测评工具,优化
        一、引言
        提升教师课堂教学实施能力是提高教育质量的关键。教育部在2002年颁布的《中小学教师队伍建设“十五”计划》明确提出建立和完善教师考核、督察制度,提高教师工作管理水平,制定科学、有效、可行的评估考核办法和考核指标体系,把考核结果作为聘任、奖惩的重要依据。[1]教师课堂教学实施能力的评估主要是评分者从一定的视角,制定评分标准对教师课堂行为表现进行评价的过程。通过评价了解、记录教师的课堂教学表现,判断教学行为的优缺点,从而有针对性提出矫正、促进的策略和培养方式;同时,教师也可以对自己的教学行为进行反思,找出自己的弱点,明确自己努力的方向,促进自身的专业发展。
        Rasch测量模型属于项目反应理论,成为当前国际上比较流行的测评方法,在心理学、医学、教育学等领域应用较多,而在国内很少用来测评教师的教学能力。因此,本研究试图利用Rasch测量模型的优势,尝试优化测评量表及分析测评结果。
        二、Rasch测量
        本文主要用到Rasch模型中的等级量表模型(Rating scale model)。该模型适用于Likert评分量表。利用Rasch公式将测评数据进行数学建模来分析教师的教学实施能力,其主要优点如下:第一,被试和项目放在一个等距的量尺上进行比较;第二,被试能力评估和项目难度互不影响,从而避免了经典测量理论( Classic Test Theory,CTT)受被试和项目的影响;第三,通过数学模型计算得到被试的能力和项目的难度,结果更具客观和准确。[2]Rasch模型采用最大似然法将教师在教学实施能力指标上的反应模式进行估算、预测,得到教学课堂教学实施能力(Bn)和能力指标难度(Di)。研究中,借助模型软件(如Winstep)对测量的原始数据进行Rasch建模,得到测评数据进行分析。
        测评的开发和实施采用的方法论主要参考Wilson(2005)以Rasch及项目反应理论为基础所提出的测量建构“四基石”模型(如图1所示)。[3] 
     
        三、研究过程                    
        (一)建构学习水平
        基于Fischer(1998)动态技能理论(Dynamic?Skill?Theory),[4]即人类技能(即在特定情境中的有组织行为的能力)发展遵循一定的模式,但每个人都通过自己独有网状结构的发展,所有技能的发展呈现出独特又复杂的轨迹,而各技能的发展又几乎是彼此独立的。借鉴伯林纳(Berliner,1988)提出的专家型教师一般发展的五阶段理论,[5]及Berliner(1988)所提出的教师发展阶段理论。参考Schneider(2011)等人以PCK为视角研究。[6]结合实践经验以及学科的特征,本研究构建了教师教学实施能力学习进程的五个水平(如图2)。
        
        (二)测评量表设计
        通过文献研究,结合具体教学实践,深入分析课堂教学实施能力各要素的实证、特征和发展规律,根据图2教师教学实施能力学习进程,分别对教学基本功、目标与任务、知识与内容、过程与方法、资源与环境五大方面共16个要素进行水平描述,编制了教师课堂教学实施能力评价量表。量表的优化共经历了两个过程:
        初次优化,运用该量表进行试评,将得到的数据进行评分者内部一致性检验,并通过访谈,收集量表修改的建议,结合文献分析做初步修改,主要有增加水平、增加要素、调整要素位置、合并维度、优化表述,最终量表由原来的五大方面变成四大方面,共20个要素。
        再次优化,选取评价样本,将初次优化后的量表对教师进行初测,统计数据,根据Rasch建模分析做进一步修改:(1)增加零水平,即当教师未达到水平1时处于水平0;(2)修改要素,板书技能改成板书呈示;(3)进一步优化表述。
        最终得到的量表(部分见表1)包括教学基本功(形象教态、语言表达、板书呈示、课堂组织、课堂应变、学科功底),目标与内容(教学目标、教学内容),方法与过程(教学方法、教学思路、教学时间、课堂讲解、课堂提问、学法指导、评价反馈),资源与环境(教材教具、媒体技术、情境创设、课堂氛围、课堂参与)四大方面,共20个能力要素,每个要素相互独立又有联系,构成了完整的教师课堂教学实施能力评价系统。评分标准采用的是Likert 5级评分标准。此外,还设计了零水平,但是处于零水平不代表教师没有能力,而仅仅是教师的课堂教学实施能力未达到水平1。评价过程需要评分者仔细观察教学录像,确保客观、公正。
        (三)数据分析

        本研究的测评主要分一下三步:(1)量表试评:选取浙江省7位中学化学教师的课堂教学实录作为研究样本,对评分者进行访谈,将访谈的过程录音并记录,并提炼关于量表的建议,初步优化量表;(2)量表初测:采用初步优化后的量表测评68位浙江省某师范大学大四化学师范生和浙江省高中化学教师共68节课堂教学实录,运用Winstep软件对数据进行Rasch建模,通过信度、拟合度、Wright map、评分等级结构、一维性等指标检验量表的评估效果,并根据测评结果进一步优化量表;(3)量表再测:采用教师课堂教学实施能力量表(终稿)评价78位教师的课堂教学实录,做同初测的数据分析,同时借助SPSS软件辅以检验项目内部一致性、评分者信度等,评价优化后的量表具有较好的效果。
        四、研究结果
        (一) 评分者信度
        在对评分者的信度进行检验时,共选取三名评分者,均是化学学科教学的研究生,并具备一定的教学经验,对教学实施能力认识较深。根据教师教学实施能力评价量表对其他两位评价者进行培训,并从再测的样本中随机选取10个样本进行评分。运用SPSS统计分析测评结果,采用Rwg来检查评分者的内部一致性。分析结果显示,Rwg均在0.9以上,表明评分者内部一致性信度较高,进一步说明了该量表的评分标准清晰。由于评分者信度很高,其余视频由研究者进行评分。
        (二)总体统计
        在再测中,Cronbach's α系数为0.992,表明量表的内部一致性信度相比于初测(0.986)有所提高。此外,用Winstep软件第二次测得关于课堂教学实施能力的总体统计如表2,被试的平均能力分数略高于项目的平均难度,为1.32,相比于初测(-1.37)项目的难度有所降低。被试和项目的误差与初测误差相差不大,都在可接受范围内。在表2中,无论是Infit还是Outfit的MNSQ和ZATD的拟合均接近理想值,表示实际测量数据与理想模型能很好的拟合。被试的分离度(12.15)较初测(7.39)有所提高,而项目的分离度(2.27)较初测(2.90)有所下降,但总体上被试和项目都能被很好地区分。被试的信度(0.99)与初测(0.98)相差不大,项目的信度(0.84)比初测(0.89)略有降低。因为信度=分离度^2/(1+分离度^2),由于再测中同一水平不同项目分布相对集中,项目分离度有所下降,因此项目的信度稍微下降。总体而言,在被试及项目样本不是非常大情况下得到这样的信度值,表明项目信度还是可以的。

        (三)项目-被试图
        项目-被试图(Wright map)把被试和项目放在同一把等距的刻度尺上,直观、形象地反映了被试能力的高低和项目的难度分布,以及两者之间的对应关系。在初测中(如图3),最中间的竖线是logit刻度尺,刻度尺上的M、S和T分布表示平均水平、1个logit和2个logit。刻度尺的左侧是68个被试,每一个“#”代表一定数量的被试,描述了被试的能力从低(底部)到高(顶部)的分布。刻度尺的右侧是20个项目的不同水平的分布,每个数代表某个项目的某个门槛,如“8.2”,“8”代表项目8(即教学内容),“2”代表门槛2(如图3中所注)。在门槛“2”以下,即水平1,门槛“2”与“3”之间即水平2,以此类推。由于“地板效应”,低于水平2的都是水平1,所以水平1在Wright map中消失了。项目的难度由下到上逐渐增大,则教师能力从水平1到水平5增强。
        从图3中可以直观看出教师的课堂教学实施能力和能力要素难度的对应情况,大多数被试都有与之能力相对应的项目,该项目能较好的反应被试的能力。从整体上看,被试的能力分布较广,项目的每个水平之间都有一定的空隙,即其难度能较好的区分。根据理论设计,同一水平的教师的各项课堂教学能力都尽可能的处于同一水平。通过初测显示,量表整体设计良好,但是个别项目的难度与同一水平的其他要素难度相差较大,还需要做如下改进:(1)适当降低项目17、3和16的难度,增加项目5和14的难度,使其较好地与其它项目处在同一水平;(2)在水平的描述上更具体,可操作性;(3)适当考虑每个指标的难度,使其在每个水平上的分布更加集中;(4)增加零水平,即当被试未达到水平1时被评为零水平,使得具有少许教学能力水平但没有达到水平1的教师可以被测量。
        图4显示再测的课堂教学实施能力的项目-被试图,通过对比图4可以看出,优化后的量表所显示的教学实施能力5个水平的难度单调递增,各水平之间的区分是比较清晰、明确的,不同项目的相同水平是具有一致性的。此外,这些项目水平在能力刻度上分布广,充分涵盖不同能力水平,且不同水平分布较为均匀。可见,修改后的量表相比于初测其效果有了明显地改进。

        (五)拟合度
        项目拟合(fit)反映的是测评过程中课堂教学实施能力要素的实际难度与理想模型的拟合程度,拟合越好,模型对所要测量特质的估计越准确。在再测中,“课堂教学实施能力”的项目拟合值如表3所示,项目的难度从-1.40到2.08,共3.48个logit分,与初测(4.08个logit分)相比难度跨度略减小,但相对还是比较稳定。项目的难度误差在0.27~0.30之间,与初测(0.25~0.28)相比相差不大。大部分项目的拟合值都在可接受范围内,只有3-板书呈示和4-课堂组织的加权拟合和未加权拟合超出拟合范围。
        Winstep还可以直观的通过气泡图(Bubble chart)来反映项目的拟合程度。横坐标是拟合指数Infit的ZSTD值,纵坐标是项目的难度(Measure)。初测中(如图5),有6项加权拟合和7项未加权拟合超出置信区间(-2~+2),还有几个项目在边界上,这些要素误差较大,需要进一步改进,使其尽可能分布在置信区间内。在再测中(如图6),可以直观地看出有3项在置信区间边界,只有1项在区间外,相比于初测拟合程度有很大的提高。

   

        (七)一维性
        测量结构的一维性是Rasch模型的基本前提和假设之一。在图中横坐标表示项目的难度,左纵坐标表示主要变量(即课堂教学实施能力)与另一个潜在变量的关系系数,右纵坐标表示的是某相关系数所对应的项目数。图中的字母(A、a、…)表示20个课堂教学实施能力要素,一般情况下,项目分布在-4~4之间较好,在这个范围内说明这些要素属于一维结构。从图10“课堂教学实施能力”再测一维性检验可以看出,大部分项目(教学实施能力要素)在-0.4~0.4之间,有2个项目在临界之处,4个项目超出其范围,相比于初测(如图9,有1个项目在临界处,6个项目超出范围)项目的一维性有所改进。
        
        综上对测评的质量检验可知,量表的水平描述清晰,有利于评分的一致性;评分等级结构设计合理,能将不同水平的教师区分;项目的拟合效果较好,表明真实测定的结果与理想模型能较好的吻合;项目的设计大体上具有一维性,符合Rasch模型的特征。总之,测量工具具有较好的信、效度。
        五、总结与展望
        本研究以Rasch测量理论和“四基石”模型为指导,采用定量的方法,通过开发教师课堂教学实施能力评价量表,基于视频分析对化学教师的课堂教学实施能力进行测评,运用Rasch测量模型以及Winstep、SPSS软件对测评结果进行分析,不断优化量表。总结如下:
        1.基于Rasch模型的测量的效果
        经过Rasch分析结果显示被试和项目具有较高的信度;被试和项目的难度分布较广泛,随着水平的增加,水平的难度递增,且水平之间能较好的区分;评分的拟合情况较好;每个评分等级结构较好,分布均匀;评分项目基本上具有一维性。总之,Rasch能较好的检验测评工具的信、效度,还能对测评工具的修改和优化提供全面、详细的证据,使本研究中修改后的量表优于初测的量表,此量表可以应用在课堂教学质量评估、教师招聘面试、教师资格考试面试、教学技能比赛等。
        2.教师课堂教学实施能力量表的实效
        教师课堂教学实施能力评价量表包括20个能力要素,每个要素包含低(水平1)到高(水平5)五个水平,我们对每个要素的每个水平进行了详细的描述(共100个描述),以此作为评分标准。通过SPSS软件对评分者内部一致性Rwg分析表明评分具有较好的一致性,通过Rasch分析也表明量表具有较好的信效度。结果表明对要素的水平描述有利于评分者把握较一致的评分标准,提高量表的信效度。
【参考文献】
[1] 教育部.中小学教师队伍建设十五计划[Z]. 2005-12-07.
[2] 韦斯林, 柳秀峰, 王祖浩.基于Rasch理论的计算机模型教学测验的设计与应用[J]. 中国电化教育, 2014(7): 139-144.
[3] 韦斯林, 柳秀峰, 王祖浩.基于Rasch理论的计算机模型教学测验的设计与应用[J]. 中国电化教育, 2014(7): 139-144.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: