安徽财经大学 安徽蚌埠 233030
摘要:近年来,随着计算机、互联网等技术的发展成熟和广泛应用,大数据的应用价值日渐显现。各地高校早已建立起完善的校园一卡通系统,其具有让大学生在校内刷卡消费的功能,适用于包括校内的餐饮、超市等场所,记录大学生在校园里的各项开支和消费总金额,形成了一个校园一卡通消费数据库。本文应用大数据技术对一定时期内校园一卡通记录的学生食堂消费信息进行分析与研究,统计分类学生的消费水平和判定其家庭经济状况,可为学校奖助学金评选提供数据信息,从而有利于进一步完善贫困大学生奖助学金制度。
关键词:大数据;消费水平;校园一卡通系统;奖助学金
目前,微信、支付宝等扫码支付虽然很普及,但在大学校园里,一卡通依然是学生去食堂就餐的主要支付手段。校园一卡通系统具有身份识别和电子钱包等功能,可实现对学生的身份认证和消费统一管理,其用数据记录了学生的消费活动。随着大数据技术的发展和应用,高校开始重视对校园一卡通的数据挖掘与分析,以作为有关部门的学生管理提供真实而有效的数据支撑[1]。基于大数据技术分析校园一卡通的消费数据,可总结学生的消费情况,特别是消费水平,能够判定出学生的家庭经济状况。通过将学生的消费水平分类而建立消费水平判断模型,可为贫困生认定提供判定依据[2],进而对奖助学金评选提供参考数据。
1.数据库的构建
本研究的数据来自于安徽财经大学某一学院的本科生校园一卡通食堂消费信息,选取2019年9月的校园食堂就餐刷卡数据信息的选取、处理和分析。
1.1数据选取与处理
由于选取的数据信息有数万条,其信息量庞大,为不增加一卡通数据库的压力,且能满足数据分析和数据挖掘的需求,数据分析过程不与一卡通系统数据库直接建立关系,而是通过sol数据库建立数据仓库[3]。
首先将所选学生的消费信息制成一个文件,上传到Hadoop中的HDFS分布式文件系统,统计各学生9月的食堂消费次数、每次平均消费金额、其他消费等数据。然后使用Hive或者Spark-sol进行数据的处理,在Hive中建立分区表,将文件加载到分区表中,利用HQL语句将数据提交到MapReduce集群进行分析计算,将结果导出成新的文件。最后进行数据的可视化工作,将会更直观地分析研究每位学生的消费情况。
1.2数据模型建立
(1)概念模型。按照学生消费的时间、地点、商家、金额等字段,去除无意义数据以及无用的字段,并对清洗后的数据进行数据转换[4],集成建立起的数据库包括:基本信息、消费信息、一卡通系统终端数据,数据挖掘的关键性能指标是食堂消费流水。
(2)物理模型。经过规划设计研究数据库的结构、字段、索引、存储等,而建立物理模型。其目的是为数据库的构建提供合理的物理结构,以字段名称、数据类型、数据长度和注释来分类,从而方便分析各位大学生的消费数据信息。
(3)逻辑模型。经过对学生的基本信息、消费流水、消费终端信息等数据进行分类储存、数据简化、同属类别归并,建立逻辑模型。其目的是用于划分数据维度。逻辑模型包括三个板块:一是,持卡人信息,包括姓名、学号;二是,消费信息,包括刷卡人信息、消费金额、消费类型、消费时间和终端号;三是,终端信息,包括终端名称和终端号。
2.数据挖掘
2.1数据清洗与转换
通过对校园一卡通的消费数据进行数据清洗,抽取出分析所需的字段,再通过数据清洗与转换将抽取出的数据进行处理转换为用于数据挖掘的形式,以此作为分析大学生消费水平的基本数据。
2.2数据压缩与合并
本研究选取安徽财经大学某一个学院本科生一个月的一卡通食堂消费数据。为保证数据的准确性和便于分析,将数据中可压缩的、可合并的、含噪声的以及可删除的字段进行数据清洗与数据合并,通过约减相关性保持数据原貌,达到尽可能地减少数据量的目标[5]。在特定应用场景下,按照不同的关键词进行数据合并,在分析学生的消费水平时,选取学号作为关键词进行数据合并。
3.基于大数据的学生消费水平分析与研究
K-means聚类算法是聚类分析中应用最广泛的聚类算法之一,是一种发现给定数据集k个簇的算法[6]。
3.1聚类分析
(1)建立学生消费评价指标。按照学号、消费总次数和平均单笔消费金额来建立。由于这两项指标的量纲和数量级不同,为了便于决策评价,先对原始数据进行极差规格化变换处理。
(2)建立极差规格化后评价指标。极差规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差是极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。经过规格化变换后,数据矩阵中的每个变量的最大数值为1,最小值为0,其余数值取值均在0-1之间;并且变换后的数据都不再具有量纲。
(3)建立聚类分析模型。聚类数目由A、B、C、D四类构成:A类:消费次数低于均值,但平均消费金额远高于均值;B类:消费次数处于均值,平均消费金额高于均值水平;C类:消费次数高于均值水平,平均消费金额低于均值;D类:消费次数低于均值,且平均消费金额也低于均值。
(4)经过聚类统计和分析,得出结果。包括得到各类的中心结果以及各类的类内元素与中心的距离和学生消费水平的分类结果。
3.2消费水平判定
根据距离判别分析原理,应用马氏距离作为判别距离[7-8],针对大学生在校食堂消费情况建立消费水平距离判别的分析模型,利用该模型判定其消费水平。
设G={X1,…,Xn}T为n维总体,其中各个样本具有p个指标:X={x1,…,xp}T。当总体G的均值向量μ以及协方差矩阵Σ已知时,则样本X到总体G的马氏距离为:d2(X,G)=(X-μ)T∑-1。若μ和Σ未知时,则用其估计量代替。一般利用多个总体的距离判别法和采用误判概率回代法评价判别准则,以聚类分析时选用的两个消费指标作为判别因子。通过此模型可对学生消费情况进行判别,根据判别的数据将其归类,最后得到对各学生的家庭经济状况判定结果。
判定结果:A类的学生较少在食堂吃饭,并且单笔消费金额高,可认定其家庭经济状况富裕;B类的学生常在食堂吃饭,单笔消费金额较高,可认定其家庭经济状况良好;C类的学生也常在食堂吃饭,单笔消费金额处于均值水平,可认定其家庭经济状况一般;D类的学生每天都在食堂吃饭,且单笔消费金额低,每餐都十分节省,可认定其家庭经济状况较贫困。
4.总结
本研究通过对选定对象一个月的食堂消费数据信息为研究样本。为保证研究结果的准确性,首先对选择的数据进行处理,然后形成用于研究的数据库。为方便分析研究,利用常见的研究模型优化处理数据库信息。基于大数据技术的数据挖掘,得到有效的学生校园一卡通食堂消费数据。通过聚类算法把学生的食堂消费分类,得到每一类学生消费的基本特征,应用马氏距离进行消费水平判别,区分出家庭经济状况富裕、良好、一般和贫困四个等级,以此区分可作为奖助学金评选的参考依据,更有利于进一步完善高校的贫困大学生奖助学金制度。
参考文献
[1]张艳分,卢小清等.基于大数据平台的大学生校园行为探析[J].中国教育信息化,2019(01):39-42.
[2]张林.基于差分隐私保护技术的高校贫困生认定系统设计[J].计算机技术与自动化,2017(03):151-156.
[3]田雨露.基于校园一卡通系统的决策支持和数据分析研究[D].北京化工大学,2018年.
[4]万晓燕.基于聚类划分的大数据处理方法研究[J].智库时代,2019(39):280-283.
[5]潘晓英,赵倩,赵普.时空属性关系标签的频繁轨迹模式挖掘[J].计算机工程与应用,2019(10):83-89.
[6]陆近,郭跃近.一种含噪声处理的K-means聚类算法[J].计算机应用于软件,2015(10):265-268.
[7]张华平.常用判别分析方法的综合比较[J].统计与决策,2015(22):77-78.
[8]邹晨紅,袁满.模糊综合评判的系统聚类算法研究[J].吉林大学学报:信息科学版,2018(05):441-448
项目名称:基于大数据的学生消费水平分析与研究——以安徽财经大学为例(项目编号:S201910378490)。该项目是2019省级项目和创新训练项目,指导老师:孙玉涛。