舆情监控中的情绪分析与观点识别研究

发表时间:2020/6/2   来源:《科学与技术》2020年3期   作者:石昊霖1 常何缘2 冯紫阳3 王梓沣4
[导读] 近年来我国的互联网事业蓬勃发展,但网络舆情对政治生活秩序和社会稳定的影响与日俱增
         近年来我国的互联网事业蓬勃发展,但网络舆情对政治生活秩序和社会稳定的影响与日俱增,网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪,引发群众的违规和过激行为,进而对社会稳定构成威胁。加强对网络舆情的及时监测、有效引导,以及对网络舆情危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。
一、研究综述
         以网络舆情为关键字在中国知网数据库中检索所有字段,共搜集到文献14434篇。国内对于网络舆情的放眼在2003年开始渐露苗头,在2010年进入高峰期,且在当前仍是一个较受欢迎的研究课题。本项研究的现实意义主要有:实现自动化的网络舆情情绪分析和观点识别,对于舆情引导可以及时提供预警,以利于更加有效地去导控网民情绪。而理论意义则包括基于新媒体的发展程度获悉互联网传播渠道。项目研究目标则是通过爬虫、词频分析、关键词筛选等手段自动分析网络舆情中的网民传递出的情绪,并识别当事人、利益相关者、意见领袖等各方的舆情观点。
(一)核心概念
         1.社会热点事件
         社会热点事件,就是指在日常生活中发生的涉及公众切身利益的重要事件,其关注度高、社会影响力大,是产生舆情的必要因素。社会热点事件经过传统媒体与新媒体的推动引发舆情,而舆情的发酵又推动着社会热点事件的解决。
         在新媒体时代,社会热点事件更多的是通过微博、微信、朋友圈等互联网社交平台引发民众讨论从而形成热点话题。由于传播信息的时效性比传统媒体更强,互联网社交平台成为了当下社会热点事件发酵地。
         2.网络舆情
         网络舆情,就是对社会热门问题持有不同看法的网络舆论,是社会舆论的一种表现形式。也是公众以互联网为载体对现实生活中某些热点、焦点问题发表具有较强影响力、倾向性的言论和观点。社会管理需要不断关注网络舆情动向,并及时正确引导网络舆论方向,保证社会的长治久安。然而各种渠道的信息庞杂,只靠人工方法进行甄别无法应对海量信息。因此,研发精确有效的情绪分析系统,实现对舆情信息的自动处理,对维持社会稳定有着非常重要的意义。
         3.情绪
         情绪是指多种感觉、行为、思想等要素综合产生的生理及心理状态,主要是指对外界刺激所产生的心理反应,如喜悦、悲伤、愤怒等。情绪与人的自然性需要相联系,具有情景性、暂时性和明显的外部表现;情感则和人的社会性需要相联系,具有稳定性和持久性。
表1 情感词举例表


         4.情绪分析
         情绪分析又称作细粒度类别的情感分析,是在现有的粗粒度二分类分析工作基础上,从人类心理学角度出发,多维度地,描述人的情绪态度。比如“无耻”是贬义词,而它更精准的解释是憎恶和厌烦,由于情绪分析可以快速掌握大众的情绪走向、预测热点事件舆情发展甚至民众的诉求都有很重要的作用。
         5.观点识别
         观点是指从一定的立场或角度出发,对事物或问题所持的看法。目前学术界对于观点句的判断没有统一的标准,需要在具体的研究背景下,根据研究内容自己理解并判断。在对文木进行情感分析之前,往往需要判断这些文本中哪些是观点句,然后对这些观点句进行情感倾向分析。目前,观点识别大都采用机器学习方法。 
(二)选题价值
         网络社交平台作为现代生活简单快捷的代表,其便捷、快速的特性,推动了网络舆情的快速发展,网络社交平台舆情已成为网络舆情中最具影响力的传播途径,逐渐成为汇聚民意的重要途径。而公安机关担负着维持社会稳定的重任,所以公安机关要实时掌控网络舆情,对网络社交平台的舆情监控是必不可少的。目前公安机关针对网络社交平台的舆情监控技术还有待完善。
         网络社交平台具有内容文字简短,传播速度快,交互方式多样化等特点,信息极易通过网络得到迅速传播甚至发展为舆情事件。公安机关若不能及时发现这些问题并作出应对措施,就会失去最佳的矛盾解决时机。因此,公安机关对网络舆情的情绪分析与观点识别具有现实意义与研究价值。
二、数据采集和处理
         目前较主流的网络爬虫主要是基于Python平台。Python平台的开源性和多功能模块对于本实验的数据处理有着天然的优势,搭配现有的情感词典可对正负情绪进行赋分,并可进行机器学习,提高实验精度。
(一)实验环境搭建
         公安舆情情绪分析程序应该单独进行架设,避免和其他应用混合使用。
         1.运行平台:普通PC机;操作系统Windows 10。
2.技术平台的配置要求:Python 3.70(基础平台)+Sublime Text 3(编译器);加载包括requests(接口测试)、bs4(解析网址、提取制定数据)、jieba(中文分词)、gensim(自然语言处理)等库。
         3.终端机需要安装完备的杀毒软件和防火墙,确保系统的稳定性与安全性。
4.固定IP地址的网络,网络在10M以上的互联网线路,保证网络爬虫的顺利爬取。
(二)文本数据的爬取及预处理
         1.网络爬虫自动爬取在线评论
         网络爬虫是搜索引擎的关键技术,网络爬虫捕抓到的页面是搜索引擎的重要资源,因此网络爬虫的好坏直接影响搜索引擎的质量。网络爬虫主要功能是通过访问互联网,自动沿着网页页面上的超链接搜查各类型的文档。
         网络爬虫的工作流程:
         (1)将 DNS模块中的原始 WEB 页面种子文件导入待爬取URL库中。
         (2)将初始URL 作为入口,爬虫从待抓取的URL库中获得该输入。
(3)对URL进行解析,根据解析出来的Web服务器地址、建立连接、发送请求以及接收数据。
(4)将网络爬虫爬取到的网页数据存储到原始网页库中,然后再提取出链接信息放入到URL库中。
(5)再从URL库中将剩余的待抓取的URL继续放到URL队列中,不断循环保证整个系统的递归进行,直到满足URL库为空的条件。

图1 网络爬虫的基本流程
         2.数据清洗
         数据清洗是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。主要包括一致性检查、无效值和缺失值的处理。由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。
         本文实验中的一致性检查主要包括评论的语句完整性等,而无效值是指用户的昵称、等级、头衔等论坛社交属性信息,缺失值则包含用户评论时的错别字、专业术语等。
(三)中文分词
         中文分词就是将一句中文切分成单独的有实际含义的中文词汇。其标准定义就是指将连续的中文序列按照一定的规范重新组合成词序列的过程。如“苹”、“果”连起来才是一个词。“这是一个苹果”正确的分词结果为:这/是/一个/苹果,所以在对汉语文本信息进行处理时必须要先进行中文分词处理。
         本文采用的是本文采用的中文分词系统是python中文分词组件jieba。其基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,同时采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的隐马尔科夫模型,使用维特比算法。
         (四)情感词典构建
         目前国内的主流情绪词典为知网知识系统。其官方定义为:是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之问以及概念所具有的属性之间的关系为基本内容的常识知识库。2007年10 月 22 日,知网发布了情感分析用词语集(beta 版),该词语集最大的特点在于作者根据词语情感倾向将其分为了6 类,分别为正面评价词语、负面评价词语、正面情感词语、负面情感词语、主张词语以及程度级别词语。
表2 知网情绪词典情感词数目表


 
图2  本次实验所采用情感词典(部分)
(五)观点识别
         本文在识别网络舆情各方观点时,所用的研究方法为基于LDA模型对所爬取事件评论信息进行词频分析。LDA模型是一种主题模型,它可以将每篇文档的主题按照概率分布的形式给出。使用LDA模型可以便于我们从海量的用户评论信息文本中,根据统计模型,自动提取出由关键词。可直观得出大量无规则的评论信息中,哪些词语出现的频率最高,通过网民评论中的高频词来识别网民群体的主流观点。
三、建模与拟合
(一)事件简介
         2019年10月12日,李心草的母亲陈美莲发帖称,9月9日凌晨,她收到警方消息称,在昆明理工大学就读的19岁女儿李心草在盘龙江醉酒溺水,2019年9月11日,李心草的遗体被打捞上岸。10月12日,昆明市公安局盘龙区分局成立工作组对该情况进行核实。10月13日上午,昆明盘龙区检察院在回复网友的提问时透露,该院在国庆假期前已提前介入此案,现在仍在持续跟进。2019年10月14日晚,昆明警方微博通报李心草死亡事件最新调查进展,对李心草死亡事件立案侦查,一查到底。2019年10月31日,昆明市公安局盘龙分局发出的鉴定意见通知书显示:李某草的死亡原因为溺死。搜集全网舆情情绪立场信息后,可以得出情绪立场的发展趋势,也作为本实验的验证数据。

图3  情绪立场趋势
         (二)实验过程
         1.筛选爬虫源
         在天涯论坛官网筛选关于李心草事件的帖子,准确的确定所有爬虫源,进行目标网页的搜寻。全面的获取网友关于李心草事件的评论,以准确的识别网民关于此事件的情绪分布。

图4 目标网页
         2.数据测试
         首先,选择一个帖子,通过网络爬虫爬取网页用户评论20条,用以模块测试。对爬取的用户评论文本数据进行预处理,进行数据清洗,删除一些冗余、无用语料,包括论坛用户签名、昵称、等级等文字信息。将处理好的文本数据导入到中文分词模块,进行语句的词性、词级划分,之后通过情感词典对分词后的词组进行情感赋值,并得出语句总体得分。通过网络爬虫模块,以所选定的网址链接作为爬虫源,以所有网民用户的评论信息作为目标源,爬取网页用户关于李心草事件的评论时间与具体内容。


图5 数据爬取

图6 部分文本情绪分析代码
         3.数据修正
         在初步对模型进行训练后,分析结果,对明显偏离的语句进行标注,对相关情感词的分值进行修正,以提高正式实验的精度。比如原始赋值中“威风”为0.97168,表现为正向情感。但在评论“知法犯法,你这个官做的可真威风啊。”中,表现为讥笑、嘲讽情绪,明显为负面情感,故将该词删除。
         4.正式实验
         在对部分词进行赋值修正并更新模型后,选取上述6个网页,爬取100条用户评论,重复以上步骤进行再次实验。

图7 部分实验结果
(三)实验分析

图8 通过EXCEL处理实验数据
         通过Excel对事件的情绪赋分进行数据拟合,取情绪分±5分以内的值为中立态度,排除明显偏离整体区间的无效值。根据实验结果可看出,对于李心草事件半数以上网民保持中性情绪及立场,占比为54.10%。32.71%的用户持负面情绪,要求政府、公安部门及早公布事件的进一步调查结果。正面情绪占比13.29%,认为该事件只是一起意外事件,相信政府可以妥善处理。

图9 情绪立场分布
         (四)观点识别
         通过LDA模型对李心草事件的热点评论进行词频统计,利用词性分布去除掉“之”、“也”、“李心草”等无用词汇后,我们得到了如下统计图,据图例分析“视频”、“警方”、“调查”等词汇占据评论的主要地位,反映出在这次事件中,大部分网民较为理智,但渴望着警方快速发布官方公告对视频做出解答,这也与我们上述的实验结果遥相呼应。

图10  LDA词频处理

图11 词频统计
(五)辅助决策
         在舆论热度不断激增的环境下,警方需要做出如下应对措施:
         1.及时调查网民关注重心,由于大量网民对于李心草是否属于意外死亡存疑,所以警方需就李心草是否自杀、是否受到威胁等主动展开全面调查以便提供充足证据打消网民的猜疑。
         2.尽快公布权威视频,通过词频分析可知,要求警方公布视频是李心草事件评论中的主流观点,大量网民希望看到还原真相的视频。所以,警方及时通过官方权威渠道公布与事件相关的完整视频,以应对网民的质疑并平复其情绪。
         3.处理虚假信息,基于沉默螺旋效应,在网络舆情事件发展过程中立情绪网友极易受到他人言论影响而改变自己的观点。本实验分析出了保持中性情绪的网民超过半数。为了不让刻意抹黑、别有用心者有可趁之机,针对网络中不实的信息及时进行辟谣与更正显得尤为重要。

(六)有效性和可靠性
本系统的主要功能包括爬取天涯论坛用户关于事件的评论文字、进行中文分词、情感词典赋分、整句赋值等功能。通过拟合得出公式为y =0.2187x + 11.375(y为情绪语句得分,x为得分降序后的语句编号),取情绪得分-25分到-15分为极端负面评论,可以看出其占比达到30.6%,结果证实了本文所研究的舆情监控情报分析模块可以有效分析网民的情绪分布具有一定的实用性、有效性。
图12  评论情绪得分数据拟合

结语
        
         由于互联网社交平台处于高速发展阶段,有关部门对于互联网信息监控的需求也会不断提出。本文对互联网社交平台文本数据的情绪分析方法进行了初步探讨,取得了一定的效果,已可初步分析网民情绪并识别观点,但仍有改善之处。有以下几个方面可以进一步深入研究:
         构建覆盖更广的情感词典。互联网中网络新词的不断涌现,其中大部分词语往往都带有感情色彩,而这些词语多为己有情感词典未包含的,但在情感倾向判别中却有着重要地位。由此可知,在把情感词作为特征选择方法的情况下,只有当情感词典中所包含的情感词越多,覆盖面越广,才能更有助于情感倾向的判断。
         特殊句型的正确识别。某些时候,文本内容中无明显的情感特征标志,当作者运用一些特殊的修辞手法,比如比喻、借代、夸张、反复、引用等,来表达自身情感时,计算机往往不容易正确识别。这涉及到自然语言的语义理解,故可对大量语料统计分析,找出更多特殊句型存在的标志,有利于分析上下文的情感极性,以获得更高的准确率。
参考文献

[1]中国互联网络信息中心.第44次中国互联网络发展状况统计报告[R].北京:CNNIC,2019
[2]武文婷.基于微博的公安舆情监控系统研究与实现[D].长春:吉林大学,2014
[3]李然.文本情绪分析综述[J].计算机研究与发展,2018
[4]刘爽.基于大数据的情绪分析方法研究[R].曲阜:曲阜大学,2018
[5]吴旭东.基于WEB数据挖掘技术的公安舆情监控系统的设计与实现[R].上海:上海交通大学,2014   
[6]王来华.舆情研究概论[M].天津:天津社会科学出版社.2003 7.
[7]苏鹏冲 孙治国 温俊伟.网络舆情管控研究[M].现代计算机专业版.2017.(28)7-10.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: