丁兰
中南林业科技大学涉外学院 湖南长沙 410000
摘要:论文分析了教育大数据的概念和应用现状,初步设计了教育大数据系统技术架构,提出了系统各层级的方法、工具选择意见。探讨了教育大数据几种典型应用场景,对促进教育大数据的推广应用,充分发挥教育大数据对教学管理决策、教师教学及科研创新等方面的支撑作用具有重要意义。
ABSTRACT:The concept and application situation of education big data is analyzed, of which, the technology architecture is designed, the selection opinions of every layer’s methods and tools are given. The classical application scenarios of education big data is discussed, which has great significance for the promotion and application of education big data, and the improvement of the support effects for teaching manage management decision, teaching and scientific research.
关键词:教育大数据 技术架构 应用
Keywords:Education Big Data, Technical architecture, Application
大数据技术是当前信息领域的发展新趋势[1]。《中国制造》、《促进大数据发展行动纲要》、《国家信息化发展战略纲要》等均提出实施国家大数据战略,要求突破大数据处理等核心技术[2,3]。随着我国在2015年正式启动“互联网+”和大数据战略,发展和应用教育大数据逐步成为促进我国教育领域深化改革的重要推动力[4]。如何利用大数据技术推动教育事业不断向前发展,已成为当前教育界非常重视的课题,值得深入研究探讨。
一、教育大数据概念
教育大数据是指在整个教育活动过程中所产生的以及根据教育需要采集到的,一切可以用于教育发展并可创造巨大潜在价值的数据集合,体量大、种类多、价值高、产生及处理速度快,具备典型的大数据特征。教育大数据来源于教育管理过程、教学活动及科研创新过程等。
经过多年信息化建设,各高校建设了办公、财务、教务、科研、人事、学籍管理等多种多样的信息系统,采集存储大量各种数据,为教学、科研活动顺利完成及学校安全管理提供有利支持,但是随着教育改革的深入推进及教育信息化的快速发展,教育大数据呈爆炸性增长,一些难以适应形势发展的弊端逐步展现出来,如数据采存管缺乏统一标准,数据共享困难[5];数据分散在各单位,缺乏统一管理平台;缺乏综合处理分析工具,数据分析自动化程度低;数据的利用和挖掘程度较低;数据管理缺乏专门的职能机构与人才队伍等。
应充分利用大数据技术,设计教育大数据管理与分析平台架构,将高校各领域、部门的数据进行集中、规范与融合,在此基础上设计开发大数据统计分析和数据挖掘工具,消除数据割裂的局面,充分发挥大数据分析挖掘数据的优势,实现基于全方位、全阶段、海量数据的挖掘分析,最大化提高信息处理和分析效率,充分发挥数据对教学效果、科研能力与教学管理等方面提升的支撑作用。
二、教育大数据架构设计
教育大数据架构根据教学、科研、管理等过程中采集的数据类型的不同,使用不同的数据存储模式和处理方式,对于实验室监测等实时性要求较高的数据,采用基于Spark框架的内存计算模式,提高处理时效,对于人员档案、图书信息数据等实时性要求不高的数据,采用基于Hadoop框架的离线批处理架构[6]。
教育大数据架构总体分为6层结构,主要包括大数据资源层、大数据存储处理层、大数据分析层、大数据应用管理支撑层、大数据访问层及大数据应用服务层[7],如图1所示。

图 1 教育大数据技术架构
2.1 数据采集与预处理
数据采集层主要需要实现对多类异构数据源的采集与预处理,负责将教学、科研等过程产生的各类结构化、半结构化和非结构化数据通过离线和实时采集等方式进行归集汇总。数据的采集分为离线数据的批量采集和实时数据的流式采集。离线数据的批量采集采用Hadoop平台作为计算和存储引擎,使用Sqoop工具通过ETL的方式进行数据的采集,并实现HDFS与MySQL、PostgreSQL、MongoDB等传统数据库之间的导入导出。实时数据的实时采集采用Flume与Kafka结合的方式完成。
2.2 数据存储
数据存储层根据数据的不同特点,选用PostgreSQL及Oracle等存储结构化数据(如学生选课数据、图书借阅数据等);选用MongoDB存储文档数据,采用分布式图数据库Neo4j存储图形数据,选择 HBase或HDFS 数据库存储其他半结构化和非结构化数据。按照数据应用主题进行分类存储,形成教学效果评估、教师评价、科研管理、教学管理等相关主题数据仓库,为下一步数据查询、联机分析处理(OLAP)和数据深度挖掘分析提供基础。
2.3 数据处理
数据处理层处理教育相关各类数据,根据数据特点及处理实时性要求,可采用实时处理、批处理及交互式查询等方法。选用Hadoop平台结合hive进行批处理。使用Spark Streaming工具进行实时处理。选用Presto作为交互式查询工具。
2.4 数据分析
数据分析层用于分析高校各类数据,可选择选择Apache Kylin、Mllib及Graphx作为统计分析、深度学习及图计算数据挖掘的工具。利用海量基础数据,可以从不同维度挖掘教学计划与实际教学效果之间的差距和问题、科研项目指标参数变化与科研管理之间的潜在关联关系、学生状态与安全事故之间的关系等,实现教学效果的影响指数预测、教学科研任务完成预测、事故发生可能性预测、教学质量稳定性趋势预测等。
2.5 数据访问与应用
数据访问层是数据与高校各部门、各领域应用之间的桥梁,可提供RPC、Web Service、Restful API、SQL以及命令行等接口,从数据分析层获取所需数据。数据应用层是教育各领域应用的集合,如教学效果评估、经费预算管理、科研项目管理、师生健康管理、校园实时监控等。
2.6 数据运维管理
数据运维管理平台是整个大数据系统运维管理及升级扩展的基础。具备数据设计、采集、存储、应用、销毁等数据全生命周期管理功能,能够实现事前管理、事中控制、事后稽核与审计的全方位数据质量管理和安全管理。
三、教育大数据典型应用展望
3.1校园数据管理
大数据系统核心模块接入校园网络,通过网络抽取现有各领域信息系统中采集或产生的各类数据。利用大数据技术提供的数据存储、交换、仓储、处理、分析与可视化工具,进行各领域数据的采集、清洗、筛选、解析、归一、融合、存储、分析和展示以及数据移动和备份等,实现多学科综合过程中复杂数据传递和转换,最大限度避免数据精度损失,提供纯净可用的数据,打破领域间、部门间信息壁垒,消除校园内部信息孤岛,促进数据共享功用,提高校园数据使用价值。
3.2 智慧校园建设
利用大数据、物联网、云计算等技术,对现有教学信息系统软硬件及其他教学资源的进行有效整合,建设智慧校园生活平台、智慧教室、智慧图书馆等,丰富教学模式,改变管理者、教师、学生沟通交流方式,提升教学效果,提高教育资源利用效益。例如,学生通过智慧校园生活平台查询了解自习室、图书馆、食堂等区域的信息,合理安排学习和生活时间;学生利用智慧教室选择喜欢的课程和老师,教师通过电子白板图文并茂、声像结合地展示教学内容,并与学生做好互动交流;通过智慧图书馆,师生可以远程查询书籍资料信息,并进行下载或者在线阅读。
3.3 学生行为分析
通过大数据平台从各业务系统抽取学生基本信息、课堂学习、课外学习、校园生活、社团交友等数据,并对这些数据进行分类汇聚,基于个性心理学和学习分析理论等方法理论,构建学生行为分析模型,获取学生学习偏好和能力水平,进而提供差异化、个性化的教学辅导服务、学习方向推荐、宿舍分配、社团推荐、以及贫困生辅助认定等[9]。
3.4 学校管理辅助决策
基于大数据平台,对历年高校基本情况报表进行提取、清洗及整合,形成决策分析数据仓库,为领导决策及信息发布提供及时、准确、一致的统计数据,为课程设置、学科建设、人才培养引进及科研管理等重大决策提供数据支撑。例如,结合学校招生数据和学生学习成绩、社团情况、毕业设计、社会发展等数据,分析掌握学生生源、培养方式及将来发展的关系,科学决策调整招生及培养方式。结合与其他高校的教学效果、科研成果等数据的综合对比,分析在教工人才结构、学科设置、科研管理模式方面的差异,辅助调整人才培养引进及学科设置等策略。
3.5 教学效果分析评估
过去教学效果评估主要依靠教师自评、同事互评、学生评教等方式进行,评估结果受同事关系、师生情感、学生兴趣爱好等主观因素影响较大,难以真实全面地反映教师的教学水平及付出。依托大数据平台,对学生学习过程和师生教学互动的数据进行挖掘和关联分析,可以让管理者对教师的教学效果、教学水平进行科学客观的评价,对于提升教学效果、和谐同事及师生关系具有重要意义。另外,对相关学生和老师进行个性行为“画像”,根据教师性格特点、能力特长等进行任课老师选取、学生班级分配,并针对每一名学生提供个性化的教学和管理,促进教学效果持续提升。
3.6 科研创新分析评估
对科研成果数据、项目管理数据、科研团队信息等进行关联分析,评估科研项目的投入产出与进展状况,分析预测科研团队的成长率,为管理者对项目和团队决策投资预算、重点关注、政策倾斜等提供依据。另外通过挖掘分析科研项目管理历史数据,为科研项目管理提供依据,对项目进度进行预测,对于不能按照计划完成的项目,及时进行延期预警及干预,提高科研项目管理水平。
3.7 师生健康管理
利用RFID、NFC等技术手段,收集师生进出办公室、教室、食堂、校门、超市、图书馆及健身房等情况数据,掌握师生锻炼、生理心理健康状况,建立人员工作、生活习惯模型,进行关联及聚类分析,结合人员档案资料、科研成果、教学效果、学习成绩、心理测评等数据,进行生理心理疾病及危险行为预测预警,及时给出健康管理意见建议。
3.8 发现知识
通过海量异构多源教学、科研、管理数据以及相关事故案例的汇总、分析和比较,对教学、科研及管理等过程进行分析建模,开展关联度分析、时间序列分析、分类分析、聚类分析等处理,挖掘教学、管理及科研创新等维度的相关隐性知识,推动教育管理及教学方法理论研究,促进教学效果、科研效益及管理水平提升。
四、结语
教育领域各信息系统在长期教学、管理及科研过程中积累了海量数据,对教育管理决策、教学方法研究及科研创新等具有重要意义,本文分析了教育大数据的应用现状,初步设计了教育大数据系统技术架构,对大数据在教育领域的应用进行了展望,下一步应加强大数据、云计算、人工智能、物联网等技术的具体应用研究,提高教育信息化、智能化水平。
参考文献
[1]何友,朱扬勇,赵 鹏,等.国防大数据概论[J].系统工程与电子技术.2016,38(6):1300-1305.
[2]张 浩,秦 威,鲍劲松.制造业大数据[M],上 海:上海科学技术出版社,2016.
[3]李 杰.工业大数据:工业4.0时代的工业转型与价值创造[M].北京:机械工业出版社,2015.
[4]戚万学,舍恩伯格.真正的处理在数据分析上.社会科学报, 1451期,第5版,2017。
[5]闫素霞,班秀萍等.高校在大数据环境下如何开展数据分析和应用[J] .河北北方学院学报(自然科学版).2018,34(1):55-57.
[6] 姚鹏飞.装备试验大数据应用架构研究[J].舰船电子工程.2019,39(1):10-13.
[7]王建军,向永清,何正文.航天器试验大数据系统实现与典型应用[J] .计算机测量与控制.2019,27(4):254-257.
[8]王红梅.智慧校园中大数据及云计算技术的应用[J] .无线互联科技.2017,22:145-146.
[9]李有增,曾 浩.基于学生行为分析模型的高校智慧校园教育大数据应用研究[J] .中国电化教育.2018,378(7)39-44.
作者简介:丁兰(1983— ),女,中南林业科技大学涉外学院语言文化学院讲师,研究方向:跨文化交际,英语语言学与教学管理。