陈猛
中共河南省委党校信息管理部 郑州 450000
摘 要 本文构造一种集成贝叶斯分类器用于舆情文本分类,目的是对数据量大、突发性强的舆情信息进行自动分类分析,对训练样本做样本分词和去停用词处理后,将训练样本集分为N个样本子集,对每个子集训练贝叶斯分类器,并集成各个基分类器,对舆情文本进行分类,能够取得较高的分类准确率。
关键词 舆情分析;集成分类器;文本分词
1 引言
在信息时代,传统媒体和自媒体发布大量新闻,同时网民在互联网上对各种现象和热点问题发表海量意见,形成有别于传统舆情的网络舆情。在一件突发事件后,社会大众通过网络了解事件,发表评论,进而形成观点,影响事件走向,而舆情分析能够对舆情数据挖掘处理,得到有用知识,辅助正确决策,其作为“风向标”的作用显得格外重要。
然而,互联网存在隐蔽性、发散性、虚拟性的特点,网络舆情也存在自由性、交互性、突发性、数据量巨大的特点,依靠人工识别很难应对。网络舆情分析可通过自动抓取技术和分类、聚类等数据挖掘算法,实现文本分类、敏感信息监测、舆情主题追踪等功能,为掌握网民思想动态提供依据[1]。
文本分类是使用数据挖掘中的分类算法训练样本集中的文本来构建分类器,然后使用该分类器确定待分类文本所属类别。目前的文本分类算法有基于规则文本分类和基于统计的文本分类。基于统计的文本分类是利用统计学原理,根据文本中字词在各类别中出现的频率来对未知文本进行分类。由于基于统计的文本分类预处理过程较基于规则的文本分类简单,且实践中分类效果较好,所以基于统计的文本分类在舆情分析中应用较多。本文提出一种集成贝叶斯分类器用于舆情文本分类的模型,该模型用到样本分词和去停用词处理,贝叶斯分类器,集成分类等知识。
2 模型中使用的技术
2.1 中文分词
与英文由分割的单词组成不同,中文文本由字词组成,且中间没有空格分割,为提取中文文本中的特征项,需要对文本进行中文分词。例如“郑州大学公共管理学院迎新晚会” 分词的结果就是“郑州大学 公共管理学院 迎新 晚会”。中文文本分类预处理需要首先对中文文本分词,也就是由计算机按照一定算法自动对文本进行切分,使得文本中字词之间有空格分割。分词算法多种多样,本文模型中用到的分词方法是字符串匹配算法中的正向最大匹配算法。
正向最大匹配算法是按照正向顺序将文本中的内容逐一与分词词典中的词条进行匹配。其基本思想是:假定词典中有N个词,词的最大长度设定为m,首先根据标点符号把中文文本分割为短语,从短语D的最左边开始,取m个字赋值给Q,如果通过比对,Q在词典中,那么就从D中删除掉Q并输出Q,也即切分出词Q。如果Q不在词典中,那么去掉Q中的自后一个字再进行比对,重复该过程,直到找到匹配的词。当D切分完之后继续切分下个短语。可举例如下:已知句子“郑州市发改委副主任介绍”,词最大长度设为5
当前处理文字 匹配 分词结果
郑州市发改 否
郑州市发 否
郑州市 是 郑州市
发改委副主 否
发改委副 否
发改委 是 发改委
副主任介绍 否
副主任介 否
副主任 是 副主任
介绍 是 介绍
分词结果:{“郑州市”,“发改委”,“副主任”,“介绍”}
2.2停用词处理:
在文本数据处理过程中有些字词会被过滤掉,这些字词就是停用词。针对一项文本挖掘工作,需要人工整理出一系列没有什么实际含义,不能标识特征需要过滤的字词,组成一个停用词表。像一些功能词和一些限定词,如“我们”“你们”“那里”“这些”,还有一些介词,如“在上面”,“在旁边”。
这些词没有实际含义,也很少反映出文档的相关程度,反而会增加计算量,降低分析的效率。建立停用词表的目的就是要将分词后的文档与停用词比较,从而将停用词从文档中删除掉,减小特征提取的计算量,更好完成分析。
2.3 朴素贝叶斯算法分类文本
朴素贝叶斯分类器是基于统计学贝叶斯理论构建的分类器,它假设一个指定类别中各属性的取值是相互独立的,从而有效减少所需要进行的计算量。
假定在文本分类中,每个文本样本均是一个n维特征向量d={d1,d2,……dn},描述特征(A1,A2,……An)的具体取值,其中n表示特征的个数;C= {C1,C2……Cm}为全部类别集合[2]。则文本d属于Ci的后验概率为:
(公式2.2)
其中对于所有类别Ci都是相同的,为简化计算可以忽略。而由条件独立性得
公式2.2可以简化为
(公式2.3)
Ci的先验概率P(Ci)很容易计算,P(d1|Ci), P(d2|Ci)…… P(dn|Ci)的值也可以通过统计dk 在Ci 类文本中出现的概率来计算获得。最终根据具有最大后验概率的Ci值对文本分类。
4算法基本思想
本文提出的集成贝叶斯分类器用于舆情文本分类模型,框架图如下图:
初始时先对训练文本集进行分词预处理,然后根据人工设置的停用词表去除停用词,接下来对训练文本集拆分,分成K个训练文本子集,在每个子集上训练贝叶斯分类器,利用K个贝叶斯分类器加权投票对测试文本进行分类。接下来在一定时间间隔或事件触发时,更新训练文本集,将发布时间超过时间阈值的文本移出训练集,加入新发布的文本作为训练文本,并对新的训练文本进行预处理,重复分类过程。
算法如下:
ECB ( D, E) // 其中D: 训练文本数据; E:基分类器集合;
方法:
(1)对D中的训练文本数据进行分词预处理
(2)对D中的训练文本数据去除停用词。
(3)对训练文本集拆分,分成K个训练文本子集,在每个子集上训练贝叶斯分类器,构成基分类器集合E。
(4) while (t>T) { //时间间隔超过阈值T
将发布时间超过时间阈值的文本移出训练集,加入新发布的文本作为训练文本;
并对新的训练文本进行预处理;
对训练文本集拆分,分成K个训练文本子集,在每个子集上训练贝叶斯分类器,构成基分类器集合E。}
6总结
为对舆情信息进行自动分类分析,本文提出的模型先对训练样本做样本分词和去停用词处理,然后将训练样本集分为N个样本子集,对每个子集训练贝叶斯分类器,并集成各个基分类器,对舆情文本进行分类。因为朴素贝叶斯分类器分类文本速度快,但分类准确率仍需改进,如何将该模型应用到实践还是一个值得研究的问题。
参考文献
[1] 刘玉国. 基于内容的互联网舆情信息挖掘关键技术研究,情报杂志,2009,11:52-54
[2] 孙笑微, 李晓毅.基于Boosting的BAN组合分类器. 数学的实践与认识, 2009,3:018.