文本分类技术及其教育应用

发表时间:2020/11/24   来源:《教学与研究》2020年第22期   作者:王洪鑫
[导读] 文本分类是在给定的分类体系下,根据文本的特征将已有文本分配到一个或多个特定类别的过程。
 
        王洪鑫
        (鲁东大学教师教育学院  山东烟台  264000)
        摘要:文本分类是在给定的分类体系下,根据文本的特征将已有文本分配到一个或多个特定类别的过程。本文首先对文本分类的定义、关键技术和实现方法做了论述,然后从资源组织与检索、情感倾向分析、作文跑题检测三个方面对文本分类技术在教育中的应用进行探讨。
        关键字:特征选择;文本分类;文本表示
一.引言
        伴随着人工智能时代的来临和教育信息化平台的推进,人类也迎来了信息爆炸的时代。学习者通过学习产生的各种文本数据,体现了学习者的学习行为和学习风格,是研究学习投入与诊断干预的重要数据来源。而如何从海量文本数据中提取这些潜在有用的信息就成为教育者急需解决的问题。文本分类技术是自然语言处理领域的一个分支,能够在节省大量人力资源的基础上,高效的对文本数据进行自动归类以便教育者分析,为解决上述问题提供了新思路。
二.文本分类的定义及关键技术
        文本分类是指借助计算机使用一定的区分标准自动的将文本分门别类,它不仅是自然语言处理问题,也是一个模式识别问题。所以,研究文本分类问题不但可以推动自然语言研究的发展,对人工智能技术的研究也有重大意义。在前几年处于一个信息大爆炸的时代,研究正面临着如何从众多用户那里获取文本信息,而对文本信息进行分类可以有效解决文本信息的混乱问题,可以迅速地定位文本类型,在如今的时代,文本类型仍然是最常见的一种数据形式,像用户评论、新闻、电子邮件等。有关文本信息的分类基本过程一般包括:文本预处理,构建分类模型,分类与评估,具体流程如图1所示。
        图1 文本分类流程图
(一)文本预处理
        预处理包括文本表示和特征选择。目前文本表示主要采用的是向量空间模型(VSM),在此模型中每个文本被表示为高维词条中的一个向量。近年来,有学者认为VSM不涉及词语语义,因而多采用一些考虑语义的文本表示方法,弥补了传统的向量空间模型在语义关联上的不足,如潜在语义索引LSI模型。文本特征选择是根据某一原则从原始特征中选择最有区分能力的特征词。对文本进行特征选择主要有两个原因:降低文本的特征维数,提高处理和存储速度。
(二)构建分类模型
        文本分类是一种典型的有监督的机器学习问题,首先根据预先分好标签的文本集合特点,找出适合的分类模型或者分类器。深度学习不但可以准确的表达对象的具体特征,且可以自动而高效的从海量数据中获取信息,典型算法包括:CNN卷积神经网络和LSTM长短时记忆网络。


(三)分类与评估
        文本分类比较常用的评估方法有Precision、Recall和Fβ -measure 等。F-measure 值是平衡召回率和准确率的一个指标。
三.文本分类的教育应用
(一)资源组织与检索
        伴随着云计算、物联网以及大数据等技术的发展,网络学习资源规模爆发式增长,资源发布的随意性也大大增强,网络资源的可信度和纯净度降低,质量难以得到保障。基于深度学习技术的文本分类方法能够克服传统的资源组织与检索过程中语义特征提取困难和文本表示问题,采用分布式表示的方法,借助深度神经网络来自动获取文本数据的特征表达能力。将检索内容分类别存放,可根据自己需求高效而准确的去获取资源。
(二)情感倾向分析
        文本情感倾向性分析,是指对学习者的态度、观点、情绪等主观信息的挖掘,对数据中的情感态度进行分析是一个提取学习者意见的过程。情感倾向分析在教学评价当中具有重要作用。在目前的课程教学中,除了集中评教系统,各种论坛网站也包含了学生在特定阶段的情感特征,这些文本成为分析学生隐含情感信息的重要数据来源,可充分利用心理学、统计学和现代技术手段采集学生的反馈信息,在此基础上分析学生的情感倾向,对于及时调整教学、把控教学质量具有显著意义。
(三)作文跑题检测
        对机器评分系统来说,当输入一篇通过复制、背诵、词汇堆砌得来的“优秀”文章时,系统不做跑题检测,就会给该作文一个高分,这种评分行为影响了机器评分的公正性。因此,跑题检测对于作文自动评分的鲁棒性具有重要意义。作文跑题是指作文偏离题目所要求的主题而偏向其他无关主题,例如题目要求写关于读书生活的文章,而学生写的是关于食品安全的文章,就认定该作文跑题。目前作文跑题检测常用的方法包括有监督和无监督的跑题检测,无监督的判定方法是通过计算文档之间的相似度来检测是否跑题,有监督的检测方法需要事先对大量作文进行人工标注,然后选取合适的算法进行模型的训练,通过训练好的模型来筛选剩余的未标注论文。
四.结束语
        文本分类能对大量的信息进行高效的处理和深度综合利用,其高效便捷性使得它在互联网的普及和网络信息爆炸式增长的当今时代成为不可缺少的重要工具。本文知识对文本分类的定义、关键技术以及教育应用做了一些探讨,但是文本分类在教育中的应用十分广泛,远不及文中列出的这些内容。
参考文献:
[1]Bing Liu,Minqing Hu,Junsheng Cheng. Opinion Observer: Analyzing and Comparing Opinions on the Web [C].In Proc. of the 14th Int. Conf. on World Wide Web,2005.
[2]孟天乐.朴素贝叶斯在文本分类上的应用[J].通讯世界,2019,26(01):244-245.
[3]张钫炜.基于评价系统的评论类文本情感倾向性分析[J].语言文字应用,2018(02):138-144.
[4]曲强,崔荣一,赵亚慧.基于LDA和word2vec的英文作文跑题检测[J].计算机应用研究,2019,36(02):415-419.
[5]庞观松,蒋盛益.文本自动分类技术研究综述[J].情报理论与实践,2012,35(02):123-128.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: