基于DHT的分布式存储系统数据一致性的研究与实现

发表时间:2021/7/1   来源:《建筑科技》2020年11月下   作者:陈亮
[导读] 随着科技技术发展速度不断加快,各领域生产经营建设信息化水平进一步提升。通过使用传统集中式存储方式,无法切实满足数据存储扩张及并发访问等要求。因此为从根本上提升信息数据实际利用效率,还需要配合使用基于DHT的分布式存储系统,切实保障系统运行期间的可靠性。

国电南瑞科技股份有限公司   陈亮

摘要:随着科技技术发展速度不断加快,各领域生产经营建设信息化水平进一步提升。通过使用传统集中式存储方式,无法切实满足数据存储扩张及并发访问等要求。因此为从根本上提升信息数据实际利用效率,还需要配合使用基于DHT的分布式存储系统,切实保障系统运行期间的可靠性。基于此,本文以分布式存储系统发展性状态切入点,提出基于DHT的分布式存储系统数据一致性内容、建立起的各类模式与协议,以期为相关工作人员提供理论性帮助。
关键词:DHT;分布式存储系统;数据一致性
        前言:随着社会主义市场经济逐渐趋向于信息化方向发展,原有数据存储模式已无法满足含量数据存储要求。通过使用DHT技术设计出分布式存储系统,能够从根本上提升数据实际利率,充分发挥出数据在指导各领域生产经营建设期间的积极作用。
        1、基于DHT的分布式存储系统
        1.1DHT概念
       DHT又被称之为一种分布式存储方式,与依照种子特征码返回种子信息网络相似。DHT系统可以在不需要服务器的情况下,使每个客户端负责一个小范围的路由,存储一小部分数据,从而实现DHT网络的寻址与存储。在DHT网络实际运行过程中,可以在不用连接服务器的情况下也能够然后下载数据,完全不需要用户干预。
        1.2分布式存储系统
        原有企业存储多数为集中存储形式,存储系统内部主要包括磁盘阵列柜以及存储网络[1]。其中,磁盘阵列柜内部由磁盘及控制器组成,可以借助存储网络服务器连接。存储的共享数据可以在磁盘阵列柜室内进行备份。
        由于当前各类信息数据呈爆炸式增长,原有存储服务器无法切实增强数据应用水平,在数据安全性及可靠性等方面存在较大问题,需要重点研究分布式存储技术与分布式存储系统。
        分布式存储系统与云存储系统主要就是将服务器内部磁盘技术中的分布式软件作为数据存储资源池,为数据提供全分布式与全局资源共享,确保一台服务器可以使用该数据中心获取到其他服务区存储资源,实现数据公开共享目标。
        1.3数据一致性
        为有效解决大数据技术下的数据一致性问题,通常采用数据复制方式,以从根本上提高数据的可靠性与可用性[2]。在分布式系统内部,一份数据往往包含多个副本,需要在系统设计过程中,采用合理方式维护副本数据的一致性。
        在使用数据复制系统过程中,数据副本放置在不同地点、同步数据变化,可以使节点数据保持一致。但当一个部分发生更新后,随后的操作会更新传输到其他部门内,已实现全局同步目标。就目前来看,始终维持数据一致性的成本过高,需要结合当前分布式存储系统运行要求,适当约束数据一致性。
        注重构建起数据一致性模型,依照不同系统的数据一致性提出的各类要求,设置进程与分布式存储系统约定。在进程遵守约定规则访问分布式存储系统期间,可以获得正确结果。如约定规则受到破坏,则无法保障访问结果的正确性。
        2、分布式存储系统研究现状
        随着大数据与云计算技术的广泛普及,信息种类增多、数量巨大,需要更大规模的数据存储空间。由于传统文件存储系统可扩展性、易用性不足,难以从根本上提升数据资源利用率[3]。而通过结合P2P技术设计出分布存储系统,能够更加适应动态网络环境,满足海量数据存储与用户并发访问要求,从根本上提高了数据传输期间的可靠性。
        分布式存储系统中的云计算理念于2006年首次提出,使得云计算技术与商业模式改变紧密联合在一起。经过统计数据表明,云计算服务增长速率比传统it行业增长速度高达6倍,平均涨幅为26%。云计算技术将会成为未来影响it行业的重要所在,使分布式存储系统的内部功能进一步实现。



        3、分布式存储系统数据一致性研究重点
        3.1分布式存储系统数据一致性特征
        在分布式存储系统数据一致性目标实现过程中,需要每一条逻辑数据拥有多个部分,分别存储在物理分布多台机器上,不同进程以及共享数据的并发进行合理操作[4]。在建立数据与执行模型过程中,需要允许数据并发进程能够同时更新数据,并依照一致性从弱到强的顺序,不断优化以数据为中心的一致性模型结构。
        为推动分布式存储系统数据一致性研究工作有序开展,需要借助DHT存储与查询策略,构建起云计算存储平台,有效解决集中式存储系统的瓶颈效应问题。借助DHT路由策略,对海量大数据进行高效存储与查询。配合使用索引数据分离机制,实现数据的高效查询与数据均衡目标。
        经过实际研究发现,分布式存储系统也使得数据一致性目标实现的难度更大,数据分片机制使数据获取时的效率明显下降,因此需要结合DHT机制,构建起一致性维护模型,有效支持分布式存储系统解决数据一致性问题。
        3.2分布式存储系统数据一致性内容
        分布式存储系统的数据一致性可分为多个角度剖析。第一,用户及开发者角度。用户与开发者更加关注系统数据利用水平与系统更新情况;第二,服务器较多。此种情况需要重点关注手机更新操作以及系统对更新操作提供的一致性保障,对分布式存储系统的一致性效果提出了更高要求。
        首先,在客户端一致性。分布式存储系统具备强一致性、弱一致性、最终一致性特征。最终一致性还会引发多个变体,如因果一致性问题、客户端及存储系统交互变体等;
        其次,服务器端一致性。服务器端一致性主要包括节点总个数、更新时需要确认的更新节点个数、读取数据时的数据节点个数等。在分布式存储系统实际运行过程中,通常会具有一定的容错性,需要做好数据一致性与分区容错性的平衡处理工作;
        最后,在系统开发过程中,还应当结合cap理论。大型分区容错系统只能够满足一致性与可用性其中一个要求。要从根本上提升系统时间运行期间的可用性,还需要合理放低一致性要求,确保开发出的分布式存储系统能够更好满足客户多元化应用要求。
        3.3分布式存储系统数据一致性模型构建
        在研究分布式存储系统数据一致性过程中,已经出现了较为成熟的理论模型,构建起了以数据中心为构架的模型体系。
        建立起严格一致性模型[5]。要求对数据的任何操作都要返回最近一次对该数据的读写所赋予的值。在该模型构建过程中,需要设置一个绝对的时钟。由于受到网络延迟等因素影响,因此该模型的建立难度十分大。
         建立起顺序一致模型。该模型的严格程度有所下降,需要在建立期间严格依照一定顺序执行,每个进程内部程序规定操作程序必须与全局操作程序保持一致。在模型建立过程中,可以不考虑时间因素的影响。
        建立起因果一致模型。该模型具有潜在的因果关系,可以在每个节点上保持相同顺序,并且操作在多个节点上的顺序可以不同。
        总结:总而言之,集中式存储数据的方式难以推动社会信息化发展进程,需要配合使用分布式存储系统与云存储系统,采用合理方式提高数据一致性。建立起针对存储相应节点的失效模型,然后提出系统存储与一致性维护的副本策略。构建起分离的分布式存储模式,对索引及数据存储进行混合一致维护,确保数据能够始终处于一致性。同时,在开展小规模分布式实验后,还需要搭建起DGS环境,对所有数据恢复模块的相关性能与节点性能进行测试,并给出相应的指标。
参考文献:
[1]王禹. 分布式存储系统中的数据冗余与维护技术研究[D].华南理工大学,2011.
[2]李鑫. P2P分布式存储系统认证技术的研究与实现[D].电子科技大学,2013.
[3]蔡林. 大规模分布式存储系统副本管理研究与实现[D].电子科技大学,2011.
[4]唐先萍. 基于P2P分布式存储的OLAP查询技术研究与实现[D].电子科技大学,2012.
[5]钱益舟. 基于云技术的分布式实时数据库高性能数据存储检索机制的研究[D].浙江大学,2012.

 

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: