王迪 胥海东
河南中烟工业有限责任公司黄金叶生产制造中心,河南 郑州 450000
摘要:大数据几乎是每个IT人都在谈论的一个词汇,不单单是时代发展的趋势,也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据,不单单可以进行智能化的决策,还可以在竞争激烈的行业当中脱颖而出,所以对于大数据的战略布局让越来越多的企业引起了重视,并重新定义了自己的在行业的核心竞争。文中通过对大数据的概念、大数据分析、大数据关键技术、大数据特点、大数据安全、大数据作用以及大数据防护等方面介绍了其中的核心技术、方案设计及应用。
关键字:大数据;信息安全;防护
1.大数据的概念
大数据的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的"4个V"之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对大量数据进行分析,获得有巨大价值的产品和服务,或深刻的认知,最终形成变革之力。最重要的不是如何定义大数据,而是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。
2.大数据关键技术
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储和管理、大数据分析和挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
大数据采集:数据是指通过传感器数据、RFID射频数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。
数据存取:关系数据库、非关系数据库等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理 (natural language processing简称NLP)是利用电脑等工具对人类所持有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人一机一人系统。处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解。
统计分析:假设检验、差异分析、相关分析等。
数据挖掘:分类、估计、预测、相关性分组、聚类、可视化、复杂数据类型挖掘(图形图像,视频,音频等)。
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
3.大数据安全问题
3.1网络攻击的显著目标
在网络空间中,大数据不仅意味着海量的数据,也意味着更复杂、更敏感的数据,这些数据会引起更多的潜在攻击者,成为更吸引力的目标。
3.2隐私泄露风险
网络空间中的数据来源涵盖非常广阔的范围,如社交网络、电子邮件等,大量数据的聚集不可避免的加大了用户隐私泄露的风险。一方面,大量数据的汇集,包括大量的企业运营数据、客户信息和个人隐私。这些数据的集中存储增加了数据泄露的风险。另一方面,一些敏感的数据的所有权和使用权并没有明确的界定,很多基于大数据的分析都未考虑到其中涉及到的个体的隐私问题。
3.3对现有的存储和安全措施的挑战
大数据存储带来新的安全问题。大数据将复杂多样的数据存储在一起,例如开发数据,客户资料和经营数据存储在一起,可能会出现违规的将某些生产数据放在经营存储位置的情况,造成企业安全管理不合规。
大数据的大小影响到安全控制措施能否正确运行。对于海量的数据,常规的安全扫描手段需要耗费过多的时间,已经无法满足安全需求。安全防护手段较为滞后,大数据安全防护存在漏洞。
3.4大数据技术被应用到攻击手段中
在企业用数据挖掘和数据分析等大数据技术获取商业价值的同时,黑客也正在利用这些大数据技术向企业发起攻击。黑客最大限度的收集更多有用的信息,比如社交网络、邮件、微博、电话和家庭住址等信息,为发起攻击做准备,大数据分析让黑客的攻击更准确。
4.大数据下的防护思路
基于云计算架构的大数据,数据的存储和操作都是以服务的形式提供。目前,大数据的安全存储采用虚拟化海量存储技术来存储数据资源,涉及数据传输、隔离、恢复等的问题。
通过修复系统漏洞、正确设计开发和安装系统来预防安全事件的发生;通过定期检查来发现可能存在的系统脆弱性;通过教育等手段,使用户和操作员正确使用系统,防止意外威胁;通过访问控制、监视等手段来防止恶意威胁。采用的防护技术通常包括数据加密、身份认证、访问控制、授权和虚拟专用网(VPN)技术、防火墙、安全扫描和数据备份等。
4.1.解决大数据的安全存储
4.1.1.数据加密。在大数据安全服务的设计中,大数据可以按照数据安全存储的需求,被存储在数据集的任何存储空间,通过SSL(安全套接层)加密,实现数据集的节点和应用程序之间移动保护大数据。在大数据的传输服务过程中,加密为数据流的上传与下载提供有效的保护。应用隐私保护和外包数据计算,屏蔽网络攻击。
4.1.2.分离密钥和加密数据。使用加密把数据使用与数据保管分离,把密钥与要保护的数据隔离开。同时,定义产生、存储、备份、恢复等密钥管理生命周期。
4.1.3.使用过滤器。通过过滤器的监控,一旦发现数据离开了用户的网络,就自动阻止数据的再次传输。
4.2.大数据应用安全策略
随着大数据应用所需的技术和工具快速发展,大数据应用安全策略主要从以下几方面着手:
4.2.1.防止APT攻击。借助大数据处理技术,针对APT安全攻击隐蔽能力强?、长期潜伏、攻击路径和渠道不确定等特征,设计具备实时检测能力与事后回溯能力的全流量审计方案,提醒隐藏有病毒的应用程序。
4.2.2. 用户访问控制。大数据的跨平台传输应用在一定程度上会带来内在风险,可以根据大数据的密级程度和用户需求的不同,将大数据和用户设定不同的权限等级,并严格控制访问权限。而且,通过单点登录的统一身份认证与权限控制技术,对用户访问进行严格的控制,有效地保证大数据应用安全。
4.2.3.整合工具和流程。通过整合工具和流程,确保大数据应用安全处于大数据系统的顶端。整合点平行于现有的连接的同时,减少通过连接企业或业务线的SIEM工具的输出到大数据安全仓库,以防止这些被预处理的数据被暴露算法和溢出加工后的数据集。同时,通过设计一个标准化的数据格式简化整合过程,同时也可以改善分析算法的持续验证。
4.3.大数据管理安全策略
通过技术来保护大数据的安全必然重要,但管理也很关键。大数据的管理安全策略主要有:
4.3.1 建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。
4.3.2 规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。
5.结束语
大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
参考文献
[1]大数据时代 人大经济论坛. 2015
[2]三张图告诉你大数据安全方案设计 36大数据. 2014