刘涛
(湖南财政经济学院 湖南 长沙 410205)
摘要:当前网络舆情信息高度发展,快速准确的分析网络舆情信息、获取数据结果成为了我们获取信息的重要来源。正确的掌握和使用舆情分析技术是我们对网络舆情信息进行分析的必要条件。本文通过对聚类算法分析、语义分析、深度学习三个方面的舆情分析技术进行综述,以此方便大家对不同舆情分析技术的了解、学习和掌握,推动舆情分析技术深入发展。
关键词:舆情分析;聚类算法分析;语义分析;深度学习
引言:
互联网因其时效性强,交互性好等特点,已经成为人们日常获取信息的重要途径,在传统网络媒体上每天都会新增大量的新闻的基础上,Web2.0网站如新浪微博、 天涯社区、猫扑、豆瓣的出现,使广大用户拥有了多样化的个人观点网络发布平台。其中一些涉及到国计民生、群众切身利益的突发性的新闻话题,往往会引起广大用户的深度关注,许多引人深思的社会现象,比如“玛莎拉蒂案”、“绿地集团高管至女下属怀孕”都是首先在互联网上出现的,互联网已经具有了巨大的引导舆论、影响受众的能力。在这种情况下,网络舆情已经成为社会舆情的重要组成部分,对社会的影响力越来越大。
舆情分析就是根据特定问题的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程。在互联网如此发达的今天,网络舆情分析已然成为了我们获取信息的重要来源。这项技术一方面可以帮助网民更加准确有效的从每天新增的海量的互联网网页中获取到自己感兴趣的信息,帮助网民用最少的时间了解到自己感兴趣的事件的整个发展过程,解决互联网信息爆炸,通过搜索引擎等检索工具返.回的信息冗余度过高的问题。另一方面对于相:关的政府部门、企业等,网络舆情分析可以及时发现、跟踪、监控网络媒体上突发性的重大新闻事件,提供决策支持和服务,帮助相关政府部门、企业及时启动应急处理、危机公关,化解网络舆论危机,维护社会稳定。
一、舆情分析系统的基础理论
1、舆情分析的概念及分类
舆情分析就是根据特定问题的需要,针对这一问题对舆情进行深度思维加工、分析和研究的过程,并得到相关的结论。
对舆情的分析要明确事件或者话题本身所处于的阶段,一般我们可将其分为引发期、酝酿期、发生期、发展期、高潮期、处理期、平息期和反馈期这几个阶段。其次,我们在分析某一舆情热点之前应对其进行科学的类型界定,我们一般将热点事件分为突发自然灾害事件、生产安全事故、群体性事件、公共卫生事件、公权力形象、司法事件、经济民生事件、社会思潮及境外涉华突发事件等。
2、舆情分析的基本框架
数据爬虫:明确舆情分析的目的和需求后,帅选数据来源渠道获取用户舆情数据。
文本清洗和预处理:规范用户随意、多样化的表达,清楚文字中夹杂的无用数字、字母和符号。清洗噪音数据,根据需要对数据进行重新编码。
分词:把一段中文文本分割成一个个单独的词汇,方便对文本重点和高频词的掌握。
词频和关键词:词频就是一个词汇在文本中出现的字数,通常我们认为,出现的次数越多就说明这个词在该文本中越重要,那么这个词就越有可能是该文本的关键词。
语义网络分析:帅选统计出高频词以后,以高频词两两之间的共现关系为基础,将词与词之间的关系数值化处理,再以图形化的方式揭示词与词之间的结构关系。
情感分析:对用户舆情进行情感分析,主要是分析具有情感成分的词语所蕴含的情感极性和情感的强烈程度,以此来判别用户的情感状况。
二、基于聚类技术的舆情分析
1、经验模态分解(EMD)
对演化过程进行 EMD 分解,形成演化过程的趋势成分、周期成分、突发成分和随机成分,通过对各成分进行分析与建模,实现网络舆情的演化分析与建模。
EMD分解方法是基于三个条件来进行的:⑴数据至少有两个极值,一个最大值和一个最小值;⑵数据的局部时域特性是由极值点间的时间尺度唯一确定;⑶如果数据没有极值点但有拐点,则可以通过对数据微分一次或多次求得极值,然后再通过积分来获得分解结果。
该方法的本质是通过数据的特征时间尺度来获得本征波动模式,然后分解数据。通过找出原数据序列X(t)所有的极大值点并用三次样条插值函数拟合形成原数据的上包络线;同样,找出所有的极小值点,并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线,上包络线和下包络线的均值记作ml,将原数据序列X(t)减去该平均包络ml,从而去得到一个新的数据序列。
效果:
通过 EMD分解得到的各成分物理含义明显,有助于分析网络舆情的演化规律,同时具有较好的趋势预测效果,适合进行演化建模。EMD方法在理论上可以应用于任何类型的信号的分解,因而在处理非平稳及非线性数据上,具有非常明显的优势,适合于分析非线性、非平稳信号序列,具有很高的信噪比。
2、引入时间机制
在时间序列上进行K-means聚类研究,得到聚类中心,又依此对聚类中的词频统计进行时序加权处理,使统计所得关键词更具有代表性。通过对时间聚类法和时序加权统计法所得关键词的分析,得到了舆情演化的趋势。
时间聚类法:首先求出时间片内所有数据和初始化的随机数据的距离,找出距离每个初始数据最近的原始数据,然后计算初始数据和最近原始数据的距离均值,不断迭代两个公式,直到聚类中心Uj不再变化,即得到最终的聚类中心。
.jpg)
注:其中Ci为距离每个初始数据最近的原始数据;Xi为原始数据;T为时间序列;U为随机数据,Uj为聚类中心。
效果:降低了聚类的维数,减少了噪声,提高了聚类的准确度,增强了演化分析的可信度。
三、语义文法分析
首先是支持网络舆情精准分析的语义文法的设计,建立从形式文法符号到网络舆情语义的一个映射,然后以本体作为指导,利用语义文法将无结构的网络舆情文本转化成结构化的网络舆情语义表示。该方法包括两部分:一是可执行的网络舆情分析语言Eipoaal;二是网络舆情精准分析系统Ipoaas。
我们使用Eipoaal来定义网络舆情分析所需的本体、模板常数、语义文法模式和语义动作,它是为实现网络舆情精准分析而设计的通用编程语言,可满足对不同领域、不同结构的舆情文本的处理需求,具有一定的通用性。
效果:基于语义文法的网络舆情精准分析方法可操作性强,系统执行效率高,可以满足对不同结构、不同处理粒度的网络舆情文本的处理需求,具有十分强的通用性,该方法无论是处理长文本还是短文本都是有效,它生成的结果不仅可读性强, 而且便于对数据的进一步的处理。
利用 SVM算法对句子进行倾向性分析,发现部分情感词之间存在的修饰关系,当情感词之间相互修饰时,他们所表现出来的情感倾向就不是单个词所代表的了[6]。之后利用依存句法分析描述出各个词语之间的依存关系,从而获取舆情信息。
效果:在同样的测试样本下,利用 SVM 结合依存句法分析,对句子倾向性分析有了很大的改善。同时该分析方法也受限于领域情感词典和语料的局限,还得利用一些方法或者规则去发现句子中的新词,以及建立更广泛的领域语料库。
结束语:
通过对聚类算法分析、语义分析、深度学习三种大的方面的舆情分析技术的综述,我们可以看出,面对不同的数据信息来源和不同的问题研究方向,正确的选择分析方法是必要的。每种分析方法都有他独特的效果,瘦脸的掌握和正确的选择不同的分析方法将有助于我们更加快速正确的获取舆情信息。深入的了解并改进舆情分析方法是推动舆情分析技术进一步发展的重要举措。
参考文献:
[1]谢修娟,李香菊,莫凌飞. 基于改进K-means算法的微博舆情分析研究[J].计算机工程与科学,2018.
[2]2015. 徐雅斌,李艳平,郑 芬. 基于 MapReduce架构的网络热点话题发现.华中科技大学学报, 2012.