郭彦芳
重庆工业职业技术学院 重庆市 401120
摘要:大数据技术的兴起,使其在各行各业得到普遍应用,而网络监控能够对海量数据通过分析检测方法进行远程控制处理。本文主要对网络监控中大数据的检测方法进行了分析。
关键词:大数据技术;网络监控;分析检测
一、引言
大数据主要有4V特点:容量大、多样性、速度快、价值高。大数据不仅仅是网络动态中大量数据的集合,它也具有一定的应用价值,在网络监控中的应用主要有几个领域:政府网络、企业市场、网络危机公关、社会化服务。
二、网络监控技术
网络监控又叫做远程监控,即通过计算机或客户端在较远的距离里控制另一台计算机。网络监控是一种使用了多种信息传输、监视、管理和集成来实现信息、资源和任务共享的技术,是建立在现代计算机通信技术、网络技术、控制技术和其他科技技术的一种新型应用[1]。当与其他的计算机联网之后,将通过服务器和交换机进行数据信息交换。这种监控改变了传统的监控模式,实现了一个实时、快速、全面、高效的监控服务模型。
三、网络监控中大数据的检测方法
监控系统当中的原生大数据库必须进行处理,从中抽取对研究有利的部分,常用的处理步骤有采集收纳、导入预处理、统计分析、数据挖掘。将互联网采集技术和网络监控技术进行结合,能够更有针对性地采集网络数据,从而通过数据内容的检测分析,发现隐藏在海量数据中的有效价值。下面介绍两种数据分析检测方法。
(一)基于主题词库的文本检测
此文本检测主要采用了信息检索范畴中广泛使用的数学分析模型—数值平滑技术。主要出现在以统计概率为处理模型的系统中,用于避免估计问题和数据稀疏问题。由人为建立的主题词库以历史经验为基础,包含一定的估计和揣摩成分,设定的关键词在内容、数量以及事件的发生概率上与数据分析员的经验、理解、看法和总结存在巨大联系,使用经验性数据会不可避免地降低数据分析的准确性。数值平滑技术提高了自动化数据分析结果的准确性,非常适合以人的理解为基础的概率性问题和判断输出。
该方法使用多模式字符串匹配算法。在大数据技术中心,HBase存储系统一对多的数据模型问题是分析检测系统的基础环节,完整的检测过程需要解决一个关键性难题,如何对采集内容快速检测是否与主题词库表匹配的关键词。高效的文本检测方法应该是对检测内容的单次扫描,并能够快速准确返回所有匹配的关键词,只有这样的检测模式才可以满足不断增长的海量数据分析利用需求。在分析检测过程中,将使用BM算法作为主要的字符串查找算法,该算法高效且容易理解,同时在一般的字符串查找过程中,该算法比KMP算法在速度上快3-5倍。BM算法在处理模式串的过程中,使用模式串前后位置的比较,尽可以多的向后移动比较串,从而起到模式串跳跃式的匹配过程,这种方式非常适合对海量数据的快速处理。
(二)基于词频统计的分析检测
监控系统能否自主发现社交网络的主题和热点事件是检测过程的一个难题,其使用自然语言处理技术,通过对文本的分词,提炼每一个用户发言的词干,并统计对这些词干的全局频率变化,进行基于词频的分析检测[2]。自然语言处理技术的关键是文本内容的词法分析。除了在自然语言处理中分词的准确性,分词的速度和性能也是一个重要的指标。目前,由于汉语分词的特殊语言结构,需要一种特殊的分词方法工具集。
分析检测系统使用当前流行的中文分词算法—MMSeg算法,是一种基于最大匹配算法的中文分词识别系统。基于该算法提取用户在社交网络发言中出现的所有词汇。在进行自动化的文本处理时,主题就是词频变化较大的短语,通过发现一定时期的词汇变化,确定较稳定的词汇组。如果在检测过程中发现有新的的词汇加入词汇组,即表示在网络上有一个新的主题出现,该词汇将在后续的文本处理过程中进一步统计其频率的变化。被监控的主题是否需要进行下一步的舆情预警,取决于一定周期内词频的统计情况。词频统计模型采用一种常用的加权方法TF-IDF,该方法是一种统计词语权重的数学算法,常用于信息检索和文本挖掘,用来评估文字内容的重要性。
四、结束语
网络监控系统的数据管理是一个数据挖掘和价值发现的过程,远超于传统对数据的存储和查阅。在大数据环境下构造并且建立一个完整的网络监控系统,是现代网络监控技术发展的必经之路。
参考文献
[1] 费思源.大数据技术在配电网中的应用综述[J].中国电机工程报,2018,38(01):85-96.
[2] 刘源.智能化技术下的计算机网络监控系统设计[J].电子技术与软件工程, 2019(10).
作者简介:郭彦芳,女,讲师,研究方向:大数据技术应用。