徐勇
湖北经济学院 430205
摘要:本文构建了线上学习平台的学情特征数据结构,通过超参数优化后的XGBoost算法学习个体的学情特征数据与考核结果间的内在关联,从而构建了能实现学生线上课程学情预警的模型。该模型准确性高收敛快,泛化性能可靠。
一、引言
线上教学模式因疫情原因日益凸显其作用。但不同于线下教学中任课教师、院校以及学生之间密切的联系,线上教学面临最大的问题就是很难直观地、持续性地监督学生的课程学习状态。这就导致无法对有学情隐患的学生给出及时的预警,间接增加了学生课程考核最终不合格的风险。
通过人工智能技术去学习个体的学情特征与课程考核结果间的内在关联,从而构成分类预测模型,实现对个体的课程预警。换言之,通过对已完成线上课程考核的个体采样,搜集其多样化的学情特征,再以其考核结果及格与否为标签(1代表合格,0代表挂科),通过机器学习算法研究学情特征与标签间的内在关联,从而形成预测标签的模型。
二、学情特征及度量
结合常见的线上学习平台后台数据结构,提出以下用以研究的学情特征。教育基础:一般性地域赋值为1,特殊地域或群体比如西部穷苦地区或少数民族地区因教育事业相对发展滞后,影响学生积累的教育基础,故赋值为0。学业现状:考虑学生最近一学期的学业总体情况。若各科目考核成绩均分高于70分,赋值为1,否则赋值为0。其它学情特征均为数值型特征。所有学情特征及其度量如下表一所示:
![](/userUpload/41(3685).png)
针对已经课程考核的学生采样,采样数量为5000,即5000位学生的学情数据。获得每个样本的学情特征及课程考核的结果,得到可用于Python软件分析的DataFrame,如表二所示:
![](/userUpload/42(3541).png)
三、分类模型及预测性能
在获得数据后,首先进行必要的预处理。考虑到特征间的量纲和数据类型不同,首先对除标签以外的数据进行规范化。继而选取适当的机器学习算法来学习学情特征与标签间的对应关系。这里采取目前被业界广泛认可的XGBoost算法。该算法的实施首先需要设置部分超参数。将数据集分割为训练集、验证集和测试集,其中训练集用来学习数据的特征,而验证集用来调参防止过拟合的现象,测试集用来评估算法的泛化性能。不同于过去采取网格搜索、随机搜索等繁琐的方法,这里采用贝叶斯优化的方法获取最优超参数。最终超参数设置为:n_samples=10000,n_features=50,n_informative=50,n_estimators=2000,eta=0.05,subsample=0.5, colsample_bytree=0.5。由于算法或评估程序的随机性,或者数值精度的差异,算法多次运行结果可能会有所不同。经100次运行取平均结果,得到训练集平均的准确率为96.8%,即有4840个样本的预测标签和实际标签吻合。对于训练集和测试集,对应的学习曲线如下图1所示:
![](/userUpload/43(3384).png)
图1:训练集和验证集的学习曲线
图中横轴代表迭代次数,纵轴代表算法中设置的学习误差的度量,这里用的是损失函数的对数值。由图1看出,随着迭代次数的增加,训练集和验证集的误差都快速地收敛。更确切地说,在大约500次迭代时二者就收敛了。其中训练集误差趋于0,而测试集误差趋于0.1左右,说明对数据的泛化性能不错。
参考文献:
1、基于梯度提升树的飞机机身对接状态识别 蔡畅等 浙江大学学报(工学版)
2019 第7期 P1274-1281
2、采用单类随机森林的异常检测方法及应用 张西宁等 西安交通大学学报 2020
第2期 P1-8
3、面向高维特征和多分类的分布式梯度提升树 江佳伟等 软件学报 2019 第30卷 第3期 P784-798
4、基于XGBoost 的特征选择算法 李占山等 通信学报 2019 第40卷 第10期
P101-108
5、XGBoost启发的双向特征选择算法 王丽等 吉林大学学报(理学版) 2021 第
59卷 第3期 P627-634
6、基于CNN-XGBoost的短时交通流预测 叶景等 计算机工程与设计 2020 第
41卷 第4期 P1080-1086
(本文受到湖北省教育科学规划一般课题“基于人工智能和多级学情特征的线上课程分级预警机制研究(项目号:2020GB044)”、湖北省教育厅科学研究计划项目“基于人工智能和学情特征的线上课程预警机制研究”(项目号:B2020113)的资助)
作者简介:徐勇 出生年月:1980年1月 性别:男,民族:汉族,
籍贯:湖北省武汉市人,职称:副教授,学历:博士,研究方向:统计学教育学