刘四旗,陈亮,屈会聪,何跃麟
山东协和学院,山东 济南 250109
摘要 随着大数据和网络的快速发展,金融贷款中的用户数据正面临着隐私泄露的巨大风险,建立完整有效的用户信息隐私数据保护方法迫在眉睫。基于金融反欺诈行业中的信息泄露问题,对用户隐私数据进行分类,并利用区块链的时间戳记录数据存储、Hash函数对数据进行匿名化操作、非对称加密RSA算法对发送信息进行加密数字签名等方法,构建不同的隐私数据保护方案。
关键词:区块链;隐私保护;金融;加密算法
一、前言
截止到2019年2月,国内社交网络用户规模已经达到了9.2亿。但近些年来,由于数据 挖掘与云计算等技术的发展普及,社交网络在为用户提供丰 富个性化服务的同时也存在着大量数据存储导致的隐私泄 露问题,用户的个人信息安全正遭受着前所未有的挑战。因此设计一套安全、高效的社交网络隐私数据保护方案是目前信息安全领域的研究重点之一。
“中本聪”(Satoshi Nakamoto)在其论文《比特币:一种点对点电子现金系统》(Bitcoin:A peer-to-peer electronic cash system)中首次提出了一种以区块链(blockchain)为底层技术的比特币(Bitcoin)数字货币,并实际运行了“挖矿”过程,以此证明了论文中提出的比特币理论体系。比特币开创了去中心化数字货币的先河,比特币系统基于区块链这一特殊类型的分布式数据库,通过挖矿激励机制与货币发行之间的关联,再利用共识机制实 现交易的确认和比特币在数据库上的安全转移,在不借助任何第三方可信机构支持的前提下,实现了相互间不需要信任的人与人之间货币的交换。
二、区块链与隐私保护
随着计算机技术和互联网的普及,隐私泄露逐渐成为网络互动中的一大安全漏洞,个人隐私保护问题越来越受到人们的关注和担心。维基百科将隐私定义为个人或团体将自 身或自身属性隐藏起来的能力,从而能够选择性地表达自己。而在网络环境中,隐私更多的是一种信息和数据的象征,可以用来确认特定的个人(或团体)的身份和特征。 但这样的信息和数据是个人不愿暴露的敏感内容,例如患者的患病数据、个人的位置信息以及财务状况等等。胡昌平等人对学术社交网络中的隐私问题进行了量化分析,并得出个人标识性信息是最易泄露的隐私。姚瑞欣等人则将社交网络中的隐私问题分为三类,分别是个体身份泄露、连接泄露和内容泄露。
目前,已有大量关于隐私保护方面的研究。研究中主要的技术方案有以下几种:通过隐藏或不收集用户的身份敏感信息或数据,允许用户提交且不暴露自己身份的匿名隐私保护技术、利用数据干扰和查询限制策略的基于关联规则的隐私保护技术以及分布式环境下基于安全多方计算的数据服务协同过滤的隐私保护方法,类型包括发布隐私保护、存储隐私保护、挖掘隐私保护和访问控制技术等等。而在社交网络中,孙悦认为隐私保护主要是针对原始的网络数据进行一些人为操作,如增删或修改一部分,使攻击者无法获取用户的敏感信息,避免信息的泄露。
上述的隐私保护技术都经过了长期的研究与发展,形成了较为成熟的技术和应用框架。而用区块链技术来进行隐私保护的研究并不多,在普通人用户信息保护方面应用的研究则更是凤毛麟角。
区块链技术从本质上来说,就是一个去中心化的数据库,它是从比特币底层核心技术和基础架构中衍生出来的,是一种由分布式数据存储、点对点传输、共识机制、加密算法等计算机技术组成的新型应用模式。它能够利用数字摘要对数据进行校验,能够在不同节点、位置和平台共享和交互数据并防止篡改,同时能 生成公开秘钥和专用秘钥进行隐私安全保护。
国内外学者对于区块链在隐私保护问题上的研究还十分有限,大多是停留在理论阐述方面,或是缺少具体的场景应用实现。刘雅辉等人提出,隐私保护技术需要考虑匿名性、数据访问控制、移动定位隐私保护以及数据库个人隐私保护等方面的需求。由于区块链技术具有共识机制、Hash函数、密码学加密算法等功能和 去中心化、永久记录、便于审计等特点,正好可以用来保护 隐私数据,使其具备完整性、可限制性以及审计性等需求。因此,本文以区块链技术为基础,分析挖掘当前社交网络中暴露的隐私问题,针对相应问题设计一种基于区块链的隐私保护机制。
三、用户数据保护
当前对于用户个人基本信息的隐私保护核心就是要保护隐私数据与该确定用户之间的关系。从某种程度上讲,隐私数据可以被任何人访问与读取,而攻击者却不能把隐私数据同某个特定的用户相对应,就难以造成用户的隐私泄露。所有用户数据均会被存储在后台,集中数据的每条记录都与现实生活中的一个用户实体相对应,这些数据都存在一定的隐私性。因此,本文基于此,利用区块链技术,将单个用户个人基本信息中的一些数据进行Hash 函数化,解决隐私数据与个人之间的对应关系。
区块链类似一个链表结构,每一个区块代表着一个用户。区块的区块头拥有一个哈希函数元信息作为唯一标识符,同时依靠指向前一个区块的哈希值指针依次连接形成了区块链结构。由于指针的指向性,区块链内存储的信息难以被篡改。区块的区块体存储着所有的用户个人信息数据或其分享社交数据,所有的信息数据都是经过Hash函数转化后形成的加密数据形式。Hash函数是一种能够将任意长度的输入值变换为固定长度的输出值的不可逆的单向密码体制,在给定一些输出值的情况下计算正确的输入值在计算上是不可行的。如果输入值改动哪怕一个字母,随后转换出来的Hash都将产生不同的值,因此可以保证用户数据的唯一 性和完整性。此外,区块链能够将整个用户个人数据分成小的数据块(如性别数据块、年龄数据块等),每一个小的数据块有相对应的Hash值,相邻的两个数据块Hash值可以合并成一个较大的数据块(如性别+年龄),该字符串又会形成一 个新的Hash值。依次往上运算,可以得到越来越多新一级的数据块及 Hash 值,最终必然形成一棵倒挂的树,成为 Merkle树。Merkle树就是存储hash值的一棵树,增加了区块数据的安全性。基于区块链的用户个人隐私数据保护即是将社交网络中存储下来的用户个人基本数据通过区块链中的Hash函数进行匿名化处理,并加载到区块链上。单个用户包含姓名、性别、年龄等数据,通过区块链技术转化为Hash值,并进行串联,如姓名+性别Hash值。每一个区块对应一个用户基本数据,区块头中的Hash值是该用户的唯一标识符,区块体中的Hash值是用户的基本身份信息。
四、结束语
总结来说,将金融风控行业中加入区块链技术后,在用户资料、用户分享等过程中只能获取到用户的Hash地址,且难以通过该地址推断出用户的具体身份信息,这在一定程度上保护了用户的个人基本信息隐私。同时,结合非对称加密签名技术(如RSA算法)保护交流双方隐私。所有存放在区块链上的用户信息都使用了加密技术、Hash函数进行了加密保护,降低了攻击节点访问个人数据并泄露的可能性。同时去中心化的特点保证了所有参与到区块链社交网络中的用户只能在彼此之间进行加密解密,除此之外均无法获得任何明文消息。因此,本文通过上述实验得出,区块链作为社交网络隐私数据保护方法的技术是可行的。
参考文献
[1] 王雪芬,赵宇翔,朱庆华.社交媒体环境下的用户隐私关注研究现状[J].情报学报,2015,34(12):1322-1334.
[2] 宋文略.社交网络数据的隐私保护研究[D].南京:南京大学,2011.
作者简介:刘四旗(2000-),男,山东聊城人,计算机科学与技术方向