许炜 邢雷 陈叶军
武警山西省总队参谋部? 山西 太原 ??030012?
摘要:随着我国互联网技术的快速发展,大数据技术在各个行业领域中的应用也变得越来越广泛,同时也便利了人们的日常生活与工作。为了能够更进一步的发挥出互联网技术的实际效能,对大数据进行采集与处理成为了当前社会各界所关注的重点,基于此,下文将对互联网大数据采集与处理的重点技术展开分析。
关键词:互联网;大数据采集;处理技术
在数字经济时代,数据已经成为关键生产要素,发挥数据的生产要素作用,有利于促进国民经济高质量发展。挖掘数据信息能够驱动各行各业的变革并进行升级改造,国民经济和产业的进展会通过数据的应用体现出指数效应。
1 大数据含义
随着互联网技术的不断发展,大数据已经逐渐影响人们的学习和生活,所谓大数据,是指数据相对较为庞大,无法通过计算机软件有效的获取。IBM曾经提出大数据的4个特征:(1)数据量庞大,达到PB等级。(2)存在视频、图片以及日志等多样化的文件形式。(3)具有较快的处理速度。(4)具有高质量的数据。在大数据处理过程中,通过数据分析挖掘技术,可以挖掘数据的价值。
2 移动互联网大数据结构
(1)数据采集存储层。其中数据采集包括统一批处理模式数据和数据流数据。分开来来讲,统一批处理模式数据是通过数据连接器进行数据采集的;而数据流数据是通过Kafka的消息系统进行实时数据采集的。数据采集后就需要继续进行数据存储,其中非结构化数据就可以通过直接采集,可以有效的节省数据采集后转换的时间。
2)数据分析层。数据分析处理层是为数据提供分析的功能,可以将数据进行分布,再一一处理,数据分析层可以将每个数据块一一对应每个计算任务,并自动进行计算节点的调节,使可靠性和扩展性得到了保障。
(3)进行数据处理层.数据处理层是对数据进行关键性分析的层面,该层面针对重要信息进行挖掘,其中最主要使用的是算法模型引擎,该功能可以对不同数据进行分析和确认,在使用算法模型引擎后,可以解决很多系统中具有实时性的统一性的数据。
3 互联网大数据采集
基础支撑层大数据采集,主要目的是为数据平台的建立提供物联网、数据库等技术,而智能感知层大数据采集,主要是进行数据识别、数据传输以及数据感知等。运营商通过合理处理互联网大数据,便可以根据用户需求变化情况,及时做出反应,更好地满足用户的数据需求。互联网之中,时时刻刻产生着大量数据信息,主要以互动信息、日志、视频等形式存在,虽然为用户提供了一定的便利,但给运营商的数据采集带来了沉重的压力。
首先,多源数据获取方面存在着一定的问题。大数据有着动态性、多元异构的特征,虽然单个用户的信息价值不高,但整合多个用户的信息之后,便可以提高信息的整体价值。但就现阶段来说,大数据采集过程中,多元化数据的采集难度非常大,给供应商造成了严重的影响。其次,数据实时挖掘的难度较大。信息化时代背景下,数据信息处理过程中已经应用了关联分析、聚类分析手段,但采取模拟分析方法,不能获取实时数据。最后,海量异构管理方面存在着一定的问题。
互联网之中的异构数据信息非常多,一些异构数据缺乏注册结构,价值参差不齐,为提高数据质量,必须对关键数据进行异构分析,但其难度相对较大。
4 互联网大数据的处理的重点技术
4.1 数据整合技术
整合就是把抓取来的网页内容与各个公司之间建立对应关系。对于每一个公司来说,可以用一组关键词来对该公司进行描述,同样的,经过dp处理之后的网页内容,也可以用一组关键词来进行描述。因此,整合就变成了两组关键词之间的匹配。对于网页内容的分词结果来说,存在着两个特点:(1)分词结果的数量很大;(2)大多数的分词对描述该网页内容来说是没有贡献的。因此,对网页的分词结果进行一下简化,使用词频最高的若干个词汇来描述该网页内容。经过简化之后,两组关键词的匹配效率就得到了很大的提升,同时准确度也得到了保障;经过整合之后,抓取来的网页内容与公司之间就建立了一个对应关系,就能知道某个具体的公司有着怎样的数据了。
4.2 流处理
对那些实时数据进行处理,交互式的数据处理方法相对与流式而言更加灵活多变,易于控制,处理的结果也更加方便进行读取,常见的应用实例是一些服务器的实时日志信息采集,网络上PB级数据的处理时间缩短到秒级,所以要求对这些实时数据的处理能够更加迅速和准确,这些是流数据处理的核心处理方法和目标。由于当下电子设备的技术革新和普遍应用,更多的图像和音视频信息出现在信息源当中,由于其自身就能够表现出数据特点和事物联系。图数据耦合的特性对图的规模日益增大达到上百万甚至上亿节点的大图数据计算提出了巨大的挑战,于此同时,一些图片数据源的关键字查询技术和图片的存储挖掘技术之间都有着共通之处,图数据的处理系统要对不同的图数据进行正确的分割和计算,运用写好的互联网模型来批量处理现在的大数据,这种技术已经在网络安全和公共安全领域已经运用的十分广泛。
4.3 海量异构数据处理
随着互联网事业的不断发展,其逐渐产生了海量的异构数据,根据数据的特点分析发现,其具有数量庞大、类型多、价值密度低以及处理速度快等特点,要求在秒级的时间内,对数据进行分析,并且产生相应的分析结果。如果处理时间相对较长,则会逐渐降低信息的价值,针对大数据的处理问题,需要对其模块进行设计,其主要包括下列模块:(1)处理模块。(2)集成模块。(3)文件系统模块。(4)数据库模块。(5)易用性模块。(6)接口数据访问层。针对互联网数据的处理问题,需要在数据处理系统中安装探测模块。互联网企业通常根据处理时间,将数据划分为在线信息、近线信息以及离线信息。其主要是根据消耗的时间来进行划分。对于秒级信息的处理,通常是采用流处理技术,通过适当的处理技术分析,可以强化对I/O系统的应用。
5 大数据发展展望
各种处理大数据的方法和技术在进行不断地革新,国内外的各类互联网企业也在对大数据处理的专业化架构技术进行研发。对开源系统进行优化,增大开发的规模,降低开发成本,强化开发的专业化程度,数据处理的模式多样化程度增加,有利于大数据在物联网环境下的良性发展。大数据的处理可以通过机器深度学习挖掘的进行实现,所以机器的深度学习是现在大数据信息分析的基础,将一些碎片化的信息结构整合成一个完整的数据源,来反应信息表达事物的全貌,增加大数据挖掘的深度。可视化技术不仅仅是数据分析的关键技术也是展现通过数据挖掘产生的数据结果的重要手段,通过强可视化辅助决策可以对大数据分析的准确性、有效性和对于人们能否及时获得决策信息非常重要。可以预见,将来大数据平台会以一种前所未有的方式改变着各行各业。
6 结束语
综上所述,互联网的大数据采集与处理和信息计算方式息息相关,如何提高信息计算方法和机器建模的数据挖掘手段,对于提高数据采集的质量和速度都有着重要的意义,面对越来越复杂的数据,仅仅依靠一种数据处理方式也是远远不够,只有针对不同的数据类型,数据产生途径和数据特点进行分类处理,合理地综合运用各种不同地信息处理方式,才能够有效地处理数据。
参考文献:[1]窦伊男.基于网络智能的互联网大数据采集和应用[J].软件和集成电路,2020(09):64-65.
[2]徐宏伟,分布式互联网数据采集关键技术研究与应用.四川省,四川浪潮信息技术有限公司,2020-06-12.
[3]杨晓雁,申澳.关于互联网大数据处理研究的分析[J].计算机产品与流通,2020(06):126.
[4]苏文伟,耿贞伟.互联网大数据采集与处理的重点技术[J].电子技术与软件工程,2019(10):10.