冯海芳
阿里健康科技(中国)有限公司 北京市 100102
摘要大数据安全核心涉及Hadoop为中心的平台安全和敏感数据保护。本文结合基础电信企业大数据安全实践,从鉴权、多租户管理、数据分级分类保护等方面,阐述了一种构建大数据平台安全和敏感数据保护的思路。
关键词大数据平台安全;数据安全;数据脱敏
引言:遵从《网络安全法》、《电信和互联网用户个人信息保护规定》、欧盟 GDPR 等关于个人信息保护的规定, 加强大数据安全保障,使得数据资产安全和用户合法权益得到保障,对促进大数据业务健康有序发展具有重要的现实意义。大数据安全覆盖了大数据平台、业务全流程和数据全生命周期。通过强化大数据平台安全的防护技术,结合数据安全特有的防护措施,打造完善的大数据安全保障体系,面向构建大数据权属性、保密性、完整性、可用性和可溯源的能力,实现大数据的“可管、可控、可信”,从而推动实现大数据产业合规、科学的良性发展。本文通过对大数据实践案例的梳理解析,阐述了一种大数据平台安全保护的框架和思路,希望为大数据安全实践提供参考。
1、大数据敏感数据的分级
大数据敏感数据根据应用场景可划分为 B 域系统、O 域系统、M 域系统和信令、DPI 系统四类,按照数据内容可划分为 A、B、C、D 四类。A 类数据指与用户身份相关的数据,如可以表明用户人实体人份、用户的基本资料、自然人身份、网络身份等相 关的信息。B 类数据指与用户服务衔接内容信息,如用户订购的服务内容、业务内容等。C 类数据是指由用户服务衍生出来的相关数据,即用户服务内容发生的应用数据,如消费账目 记录、服务记录、订购记录、业务往来记录等。D 类信息指企业在运营管理的过程中产生的数据,如企业管理数据、网络运维数据、与合作伙伴的合作信息、企业业务信息等。对以上 信息进行细分,可分出更多的敏感信息内容,如 C1-1 信息为消费账目记录信息中的一部分具体内容,及具体的账目服务日记 等。这类数据被定义为详单信息,可对应具体用户的主叫号码 及归属地、被叫号码及通话时长等字段。
大数据类型较多,常见的有原始数据、脱敏数据、标签数
据、群体数据等,这些大数据的安全与敏感级别不同,因此开放度也不同。其中原始数据属于安全与敏感度级别最高的数据, 其次为脱敏数据,它是指对大数据网络明天的大数据敏感属性进行模糊、脱敏、加密、加扰、转化之后的数据,识别和处理难度较大,需要应用逆向推算、枚举推算等技术进行分析。脱敏技术是提高大数据安全的重要举措。要增加大数据的安全性与敏感性,必须对数据进行匿名操作与脱敏处理,按照相关的安全与敏感级别实施分级管理。由此可见大数据敏感数据分级是降低大数据敏感风险的重要方法。
2大数据平台安全的特征和能力建设
2.1大数据平台自身安全特征与基线组件
大数据技术正在向各行各业渗透,而作为大数据分布式处理系统的典型代表,Hadoop已成为业界的事实标准。业界的大数据平台基本上涵盖了用户、网络等多个层面的海量数据。从大数据平台体系的安全出发,平台安全防护技术主要是围绕大数据平台各类基础设施及应用组件,面向可信任、可用性、可追溯、保密性和健壮性5个维度的组件安全技术要求,针对每一个安全基线控制点,提供基线描述、检测步骤及判定依据,从而实现基础安全配置及技术管控手段的安全能力增强。
大数据平台本身组件均来自于开源体系,其企业版在安全防护上有所增强,但相对于传统单部件和数据库安全的管理要求来说,开源组件的安全防护脆弱性需要在平台安全能力建设中提前进行重点管理,并在安全技术保障方面进行强化。根据NISTSP1500-4规范中对大数据架构的描述,大数据平台安全的基线和相关能力建设主要聚焦在大数据采集应用组件和大数据处理组件方面。
2.2大数据平台安全防护
平台安全防护数据采集端所需采集的数据源主要包括文件、数据库表和消息等。采集方式通常有周期性的离线采集和流式的实时采集两种方式。数据流入大数据平台的过程中要通过认证健全、关键数据源安全管控、采集数据传输安全、临时数据限制管控、日志记录和告警等措施来保障安全性,且整个数据采集过程要纳入4A系统进行统一管控。
2.2.1数据采集认证鉴权
数据采集时要根据不同的采集方式使用不同类别的鉴权,具体如下。
(1)通过部署Kerberos认证服务来实现用户身份的验证,通常Kafka这类组件采集采用这种认证方式。
(2)通过账号密码、随机短信和动态口令等传统的认证方式嵌套进大数据采集的环节实现身份的验证。
(3)限制采集系统的IP地址和端口号等,确保合规的IP和端口才可以采集相关数据。为了进一步确保访问安全,可采用基于SDN/NFV技术推出的名叫ArcstarUniversalOneVirtual的overlay虚拟网络服务,为企业用户提供快速、灵活、低成本的overlayVPN服务,提供多种方式的连接服务及增值业务。
1.2.2HDFS平台安全与认证
HDFS安全的核心是认证和授权。认证是用于确保某个用户是自己声称的用户;授权是用于用户确保只能操作自己有权限的实体(如HDFS文件、Hbase表),对于没有权限的实体不能操作。在此基础上增加其它方式,如HDFS透明加密、HDFS快照等进行安全防护。
HDFS原生的用户认证体系安全性相对脆弱,而作为成熟的企业版商用软件提供服务,健壮用户安全认证体系是极其重要的。目前在业界项目中实现的用户安全认证主要有3类。
(1)基于AccessID和SecurityKey的认证:即为每个用户分配一组或多组AccessID和SecurityKey,用户使用其进行大数据系统访问,目前主流的大数据服务AWS、ODPS、BCID都采用这种用户认证方案。
(2)Kerberos认证:Kerberos认证是一种基于可信任第三方的网络认证协议,Hadoop原生自带支持
Kerberos认证能力。其主要优点就是代码开源,但使用比较繁琐,性能开销大,而且在跨集群的联邦认证方面性能效率相对偏低。
(3)兼容AccessID与SecurityKey和Kerberos认证,两者相互结合,实现AccessID与SecurityKey认证机制和Kerberos在支持场景上的配合和互补,这种方式在业界大数据项目中较为常见。
2.2.3多租户安全
大数据平台需同时支持满足内部及外部的多种应用需求,存储不同介质和不同类型的数据,但每个租户的数据需要相互隔离,不同租户可运行不同类型的作业(如分析与报表查询、流处理等)且互不干扰,保证不同业务能够在大数据平台上安全稳定运行。此外,要给租户创建或者分配相应的资源,分配范围为大数据管控的Hadoop集群上的资源,创建相应Hadoop用户(包括用户名、秘钥等信息),分配存储容量,设置相应HadoopHDFS上的属主目录;分配Hadoop用户对应的资源信息,包括目录访问、计算资源队列等;分配模型管理中对应的模型层次或者域给租户,并区分读、写权限。
2.2.3.1多租户场景下能力要求
(1)资源以租户为单位进行的计划和分配。
(2)租户的资源消费能够被测量和统计。
(3)租户直接的资源必须支持隔离(逻辑隔离和静态资源隔离),一个租户对资源的消耗运行和操作对于其他租户必须是无感、无扰和没有侵入性的。
2.2.3.2租户资源使用支持安全要求
多租户环境下,租户下的账号及角色均由大数据平台运营者创建和管理,租户管理员通过给账号(普通操作员)分配角色的方式分配权限。大数据平台对租户的管理范围概括如下。
(1)业务租户定义:包括对应的功能权限、内部成员、可以使用的服务和可以使用的资源。
(2)租户管理:完成租户的注册、创建、审批、注销、角色和权限的管理。
(3)租户权限管理:包括工具权限、数据权限、资源权限。通过授权完成权限和用户的绑定,所有权限先申请后使用。
(4)租户下的普通操作员可分配不同的角色,不同角色拥有的权限不同,如设计者可以完成数据资产建模,开发者可以在数据集成上做数据采集以及计算过程的开发。
3数据安全防护与创新
3.1敏感数据分级分类
结合内外部应用及场景,将敏感数据资产的安全管理范围划定为B域系统、O域系统、M域系统和信令/
DPI系统,相关数据可整合划分为4大类。
(1)(A类)用户身份相关数据:自然人身份表示、网络身份标识、用户基本资料和实体身份证明等关联信息。
(2)(B类)用户服务和内容数据:用户订购服务内容等信息。
(3)(C类)用户服务和衍生数据:用户服务内容使用数据,如业务订购关系、服务记录、消费信息和账单等。
(4)(D类)企业运营管理数据:企业管理数据、业务运营类数据、网络运维数据和合作伙伴数据等。
针对这4大类数据细分第2梯次分类、第3梯次分类,比如“C1-2服务记录和日志”中明确定义服务详单及信令的对应数据为主叫号码、主叫归属地、被叫号码、开通时间和时长等多个字段。
3.2动态数据脱敏
动态数据脱敏(DDM),即在访问敏感数据时进行脱敏,通常用来解决内部生产环境需要,根据不同情况对同一敏感数据读取时进行不同级别脱敏的问题,可使身份访问管理(IAM)、静态数据屏蔽、加密等技术无法单独解决的问题状况得到改善。
数据脱敏场景包括前端展示、外部接口调用和投诉处理后台查询等。不同用户仅能看到不同的敏感数据处理后的脱敏结果。开发测试环节,分析报表自助取数的结果在分析人员面前将呈现不同脱敏结果。具体方法概括如下。
(1)动态脱敏可以依据数据访问用户名、IP、客户端类型和访问时间戳,甚至业务用户等多重身份标识输入进行脱敏访问控制。
(2)动态脱敏对生产数据库中返回的数据可以配置屏蔽、加密、隐藏和掩码等多种策略。
3.3数据匿名处理与敏感信息保护
数据匿名处理与敏感信息保护主要是对敏感数据进行风险分析,对其准标识符 进行 K 匿名、等价匿名等数据匿名化处理,确保在数据挖掘分析打标签的过程中最大程度的消除敏感信息泄露风险。K 匿名算法是数据业务中为保护用户的位置信息而形成的算法,该算法实质上是对数据加噪后,在数据的价值可用性和用户敏感数据保护间寻找平衡的策略算法 , 避免了数据脱敏过度导致的数据价值量丧失的问题,又解决了敏感数据在准标识符关联挖掘分析层面的攻击链敏感数据泄露问题。Noah 算法机制中,所有记录在匿名化时采用相同的泛化规则,即在满足 K 匿名要求前提下, 算法提供可用性最优的泛化规则。其既可支撑超大规模数据集中快速生产匿名处理策略,又能保证匿名泛化策略的最优规则,对有潜在泄露风险的敏感数据进行匿名化算法处理(首次算法需要进行机器学习),经过机器学习后的匿名处理规则存储在大数据高速内存库中,后续租户再挖掘分析时可以实现实时高速的数据自适应敏感数据风险处理功能,从而实现数据匿名在敏感数据保护过程中的实时服务调用。
敏感数据清除也是提高大数据安全的重要方法之一。为了防止大数据使用记录泄漏,在使用完毕后需要对敏感数据彻底清除。常规的数据清除法攻击者可对清除数据进行恢复,采用数据覆盖法利用新数据覆盖原始数据,之后再采用数据清除软件清除,就可以彻底清除敏感数据。覆写技术采用的是二进制数据存储法,在原始数据上覆盖上毫无规律的 0、1,存储在硬盘上的原始数据信息编码就会混乱,破坏了数据文件的完整性。它就好比碎纸机,是最具安全的大数据敏感数据清除法之一。根据敏感数据的保密级别,覆写技术软件覆写常用逐位覆写、跳位覆写、随机覆写等不同模式,覆写的次数越多,则敏感数据清除的安全性越高。此外,数据清除还用消磁、盘体销毁的方式。消磁需要借助消磁机来实现,消磁后的硬盘或磁带表面磁性颗粒方向发生了改变,数据书序排列也方发生了改变, 原有的数据就会失去价值。消磁清除可通过保修进行恢复,敏感数据有一定的恢复概率,盘体销毁会生产污染。因此覆写技术是安全性最高的大数据消除技术。
4结束语
大数据平台安全与敏感数据保护已在业界众多创新实践项目中落地商用和逐步的验证。基础设施安全防护和敏感数据保护越来越成为万物连接物联网未来的安全核心部分。随着技术的不断发展,大数据安全面临的不仅仅是大数据平台本身的安全及敏感数据防护,未来借助机器学习和人工智能等技术,利用好大数据中海量的信息实现全网安全态势感知能力,将成为端管云数字化服务和行业转型的关键环节。
参考文献:
[1]马晓亭,梁俊荣.大数据环境下图书馆敏感数据保护方法研究[J].图书馆学研究,2016(21):50-55.
[2]马晓亭.大数据环境下图书馆敏感数据的识别与保护[J].图书馆论坛,2017(04):129-136.
[3]王晓周,乔喆,白雪,王馨裕.大数据安全与敏感数据保护技术应用实践[J].电信工程技术与标准化,2019(11):60-63+92.