摘要:在如今的IDC机房中,大多数数据存储都是采用集中式存储设备,集中式存储设备采用的均是RAID技术,虽然RAID比较成熟,但是随着大数据时代的到来,传统的数据存储方式并不能满足现在的需要,难于对海量的数据进行安全、可靠、快速的存储,并且不同厂家存储在新能和兼容性存在较大差异。本文章首先分析传统存储技术,随后就分布式存储的优缺点进行简要分析。
关键词:分布式存储技术;RAID技术;存储虚拟化
一、传统存储技术分析
RAID技术是当前大多数商业存储系统的基础,随着科技技术的不断创新和发展,基于RAID技术的存储系统也开始出现了局限性,慢慢的不能满足未来业务的对存储的需求。
1、RAID数据重建困难
RAID技术最大的痛点莫过于重建过程十分漫长。制造商不断趋向于制造单存储且容量更大的磁盘,迫于市场的压力,所制造的磁盘价格更低廉并且容量更大,现在已经有1TB、2TB、4TB甚至10TB的容量并逐年持续增加。
但问题也随着而来,当使用大容量磁盘来做RAID,不幸的是,一个磁盘产生故障后,RAID需要几个几个小时甚至十几个小时乃至数天来完成对数据的重建,更加致命的是,在重建过程中要是有第二块或者第三块盘故障,那将对整个存储系统造成毁灭性打击,所带来的损失是不可以预估和不可接受的。
2、RAID备份盘增加TCO
往往一个存储系统需要几块热备盘。如果没有磁盘故障,他们将一直处于空闲状态,空间不会被拥有存储数据,这增加了额外的系统成本,提高了TCO(Total Cost of Ownership) 总体拥有成本。
3、RAID高度依赖高昂的硬件
RAID要求在一个RAID组中,需要使用大小一致、转速一样、类型相同的磁盘,最好是统一生产厂家统一批次的磁盘。如果更换其他硬盘,将会严重影响存储系统的容量和性能,这使得RAID在硬件上非常挑剔。
此外,企业大多数是选用昂贵的硬件组件,比如控制器最少为两个控制器,有的甚至达到四控制器,这显著增加的了系统的成本,如果RAID的控制器熟了不够,将不能保证存储的稳定性,还将成为单点故障。
4、数据量增长对RAID组的正面挑战
每一个厂家对自己RAID组的设计都有一定的限额,当RAID组无法再增加时,存储系统也走到了尽头。RAID系统达到临界值后,即使增加投入,存储系统也无法增加,有的存储系统可以增加磁盘框,但数量也是有限的,并且新增加的磁盘框也会增大现有存储控制器压力,所以,在增加一部分容量的同时,已牺牲了一些存储性能。
5、RAID可靠性模型并已经不在被看好
RAID组可由多少不同组合模式构成,目前常见的组合方式为RAID5+n和RAID6,他能保证一块盘或两块盘有故障时系统还可用。但不能保证两块盘之后数据还可靠,这是RAID的最大缺陷。
在RAID重建之结束之前,存储的整体IO性能大大简单,客户端在资源请求时很有可能无法满足。
二、什么是分布式存储技术
分布式技术当前主要包括分布式存储、分布式数据库、分布式运行平台等。而分布式存储作为分布式技术实践的基础设施平台,在信息系统快速部署方面,可以提供更快的部署能力、业务系统可用性以及高效的管理维护性、提高资源的利用率。
分布式技术是IT基础设施领域现在最常被谈论的新技术之一,可整合同构和异构的多存储设备,形成分布式存储体系。形成数据分布,存取和管理集中的大存储概念。最终将存储形成一个服务,供数据中心中的业务系统进行使用。业务系统不需要考虑存储架构,备份,灾备。只需要使用存储服务,挂接存储即可,从而达到最大化利用资源的目的。而分布式存储是将应用程序与操作系统解耦合,为后续的分布式数据库及运行平台提供了一个可靠的运行平台。所以,分布式存储是分布式技术大家族中的其中一个基本层面的技术,用于提供对分布式资源的集中管理,形成一种大存储服务交付给用户。
分布式存储的基本原理:它将不在使用传统的存储结构,而是把存储功能抽象化,将存储资源抽象化、池化,以服务的形式提供给业务使用,业务可按照使用量动态分配资源。通过软件形式进行部署,不再依赖于存储硬件设备,通过软件定义,可管理来自不同厂商的所有的物理和虚拟存储资源,并按需进行自动配置。
三、分布式存储结构模型
1、访问接口层
此层主要由各种管理接口和数据接口构成,管理接口主要提供与自服务门户、管理门户、流量计算及资源调配;而数据接口则通过协议转换提供不同的接口类型,如对象接口、HDFS、文件接口、块接口等。
2、软件定义存储层
软件定义存储层是分布式存储系统中相当重要的一层,通过软件对存储资源进行池化和统一存储管理,对存储设备冗余性、可靠性等指标进行相关的策略配置,并且动态对资源进行配置,不会因规划而导致资源的浪费或不足;同时,此层通还具有去重、快照、数据复制以及压缩加密等功能。
3、存储适配层
存储适配层主要多种接口协议构成。可以通过各种不同的协议接口完成对存储设备的访问,如SNIA 定义的 SMI-S 协议和 CDMI 接口访问,异构存储设备之间可通过标准化协议接口进行访问,如S3协议,并且存储适配层也支持第三方专有的访问接口。
4、存储资源池
存储资源池包含了SAN存储的高新能和NAS的高扩展新,并且支持兼容SAN和NAS的对象存储,这些都是存储资源池的重要组成部分,作用是为软件定义存储层进行统一的管理和统一调度,外部应用通过访问接口层中的数据接口获取存储资源。
四、目前业界的分布式存储的技术路线
国内外解决方案主要包括IBM,Dell,华为等公司的分布式存储解决方案的一些关键特性。同时还包括公司目前已经使用的stornext解决方案,做一个深入研究和评估。
开源分布式文件系统研究:主要包括GFS、HDFS、Lustre、FastDFS、PVFS、GPFS、PFS、Ceph和TFS等,通过对其设计理念、架构、特性并结合电网应用需求进行研究。
研究分布式存储的管理,多用户(租户)权限管理、存储管理等技术解决方案;
分布式文件系统研究:包括支撑异构多存储设备的部署和管控方式。适合公司分布式存储体系的文件系统。
研究分布式存储的接入层主要技术要点,分析存储为业务系统提供的接入基础;
充分结合部分业务,研究分布式存储的数据加密存储、加密传输,存储采取冗余手段和版本管理,数据恢复和灾难备份的安全类技术核心。
五、分布式存储优势及特点
如上图所述,对原有的基于SAN存储网络集中访问后端磁盘阵列的架构,进行了完全的颠覆,主要实现了对分布式的存储设备进行了集中的部署和管理,这样可以大大减少IT维护,并能全面提升存储访问的效率,并且由于系统所用存储分布于每一台成员服务器上,部署更加方便与快捷,数据的安全性与冗余性也得到了保障。
分布式存储可以在管理维护、投资成本、应用性能等各个方面对现有集中式存储进行提升,有如下优势:
1、方便了管理与维护
软件定义层各服务间采用标准的编程接口来进行存储配置,完全满足客户端和应用程序对存储资源的需求,数据调用的整个过程无需人工干预。这种智能服务器特征极大的降低了运维管理员对其配置的复杂的,同时也降低了管理成本。
存储虚拟化的另外一大特点就是聚合异构存储,存储资源可整合到统一的存储池中,存储系统中不会因为不存在热备盘,而导致存储容量浪费,存储虚拟化还可以实现数据异构存储,假如硬件出现故障是,可实现数据的无缝迁移,方便维护。
分布式存储的另外一个优势在于异构存储,可实现不通厂家存储接入,可实现统一管理和统一分配,为存储虚拟化提供全面的存储资源,可从全局进行存储资源管理,建立统一视图。
2、减少了投资成本
分布式存储可将存储功能软件化,实现软硬件解耦和,降低设备采购成本,此方式将传统存储的功能特性(如快照、精简配置以及去重等)提升到软件层次,存储功能的实现将不依赖于厂商自身的存储设备,以实现存储特性与存储硬件的解耦。因此用户可以通过利旧或使用服务器本地硬盘就可构建大规模分布式存储;同时,分布式存储将存储功能软件化,可以支持第三方软件的无缝接入,支持用户的自定义开发。另外,分布式存储没有专用的存储组件,如FC网络、HBA卡等,减少了能耗、冷却需要,并节省了存放设备空间。
3、满足了性能要求
分布式存储采用分布式数据路由,数据分散存放,实现全局负载均衡,不存在集中的数据热点,大容量分布式缓存;采用集群管理方式,不存在单点故障,灵活配置多数据副本,不同数据副本存放在不同的服务器和硬盘上,单个节点故障不影响业务的使用,只要系统检查到某个节点故障之后,就会自动进行数据重建,并且重建不会影响业务使用,因为没有普通存储机头,扩容几乎不受限制。
分布式存储技术有如下特点:
1、集群可扩展性
这里的“可扩展”概念不是狭义的,包括集群规模、集群容量、集群访问带宽。
2、集群可靠性
从用户的角度出发,数据的完整是第一位的,尽可能保证数据不丢失。并且要保证数据在写入的过程中,数据从客户端到硬盘存储的整个过程不会因为其他意外环境造成数据不完整或者缺失,数据分布于整个集群的存储池中,硬盘出现故障之后,可实现并行重建,从建效极高。
3、数据安全性
当服务器在宕机或者突然断电情况下,数据还能不丢失,并且副本内的数据可以自动恢复和自动平衡。总而言之,数据安全性既要保证集群的可靠和数据的安全,又要保证在集群扩大之后,运维难度也不会增加。
参考文献:
[1]孙振正,龚靖,段勇,雷俊智.面向下一代数据中心的软件定义存储技术研究[J].电信科学,2014(01).
[2]赵伟.软件定义存储模型的研究及实现[D].北京,华北电力大学,2017.
[3]孙志刚.软件定义数据中心的基础理论研究[J].科学与财富.科技创新与应用,2018(29).