新闻中心
您的位置:首页 > 新闻中心 > 技术研讨

部署重复数据删除不得不知道的事

时间: 2013-9-9 8:28:20 | 浏览: 1754 | 更多关于《技术研讨

作者:清水 编译     出处:计世网

重复数据删除技术已经引起了厂商和IT管理者的高度关注,人们寄希望以此来减少大多数数据中心遇到的数据急剧增长所带来的困难。但是部署这一新技术时,需要从各方面考虑清楚。



大约在十年前,重复数据删除技术(Data Deduplication)就开始浮出水面,而只是最近它才成为一项主流技术。在接下来的几年里,重复数据删除技术可能会像今天的时间点拷贝和RAID技术一样常见。


重复数据删除是一种激动人心的概念,因为它能够大幅降低存储及移动数据的成本。许多厂商在介绍自身产品优点的同时,夸大了其他替代产品的缺点,这使得潜在的客户不由得犯疑:“我该不该部署重复数据删除技术?该把它用在何处?什么产品最适合我的环境?”

我们还是来客观地分析一下这项技术以及每种方案各自的优缺点,以免IT管理员、IT经理和CIO们盲目相信厂商们营销时的一套说法。

重复数据删除是如何工作的?

重复数据删除技术基于数据压缩的概念和方法,包括重复数据集删除及其他技术。重复数据删除借鉴了数据压缩采用的寻找冗余信息这一概念,但所处理的数据量大大增加。重复数据删除要处理的数据达到TB级或PB级,而不是压缩技术的KB级。

所有重复数据删除解决方案都会寻找数据中的冗余信息,无论是在文件级、对象级还是子对象块级。早期的重复数据删除技术着眼于文件,旨在消除重复文件。目前市场上仍存在这些方法,称为单实例存储(single instance storage)。最近的改良版技术可以针对多种类型的数据寻找重复数据,找出长度不一的重复部分。

重复数据删除的工作方式通常是先分析数据,为某部分信息计算出简写或惟一的标识。子文件级或块级的重复数据删除技术通常把数据细分成几段,用于进行重复数据删除。每段数据都有指纹印,使用密码散列来查看这部分信息之前有没有存储过。只要存在相同部分的数据,就用原始数据的索引来替换,因而节省了空间。计算简写指纹索引的数学算法称为“密码散列”(cryptographic hash)。目前有许多散列算法,包括MD5和SHA-256,另外还有其他专用算法。

何时考虑部署?

通过消除冗余数据来节省成本能够在整个数据中心引起连锁反应。若能推迟购买新的存储系统,或者扩展现有存储系统的实际容量,就有望节省成本。由于使用物理存储系统的数量减少了,因而电力、冷却和场地等方面的要求也随之减小,这就进一步节省了成本。另一个潜在的优点就是可以减少通过局域网、广域网和存储网络传输的数据量,从而减少了对网络设备的需要,并降低了带宽需求。

一旦了解了重复数据删除技术,就比较容易知道何时部署解决方案、部署到何处及怎样部署。不是所有数据都很适合采用重复数据删除技术,得到的好处也不尽相同。因而,用户在考虑是否部署重复数据删除时,应该提出这样几个问题:

● 我该何时对数据进行重复数据删除?

● 我该在何处对数据进行重复数据删除?

● 市面上有什么样的方案可以选择?

我们还需要考虑有关架构方面的问题:该对所有数据进行重复数据删除,还是只要对部分数据进行这种处理?我该在存储数据时进行重复数据删除,还是以后再进行这种处理?在选择总体架构之前,应分析及了解所有这些问题,然后再选择一家厂商。  

需要关注的问题

消除冗余数据的想法听上去有风险。新技术通常都会带来一些额外风险,但随着产品的不断改进,问题也会随之得到解决。重复数据删除背后的许多理念在数据压缩领域运用了几十年了,已经是成熟的技术了。

一些新技术都会重新映射数据,并改变数据的物理布局,比如磁带驱动器的逻辑块寻址、RAID、时间点拷贝和复制。最初,有许多这样的技术被认为有风险,但是随着这些技术的日渐成熟,以及厂商们拿出了性能可靠的产品,这些技术便逐渐得到了采用及接受。近十年来,重复数据删除技术一直不断进步,目前的产品存在的风险非常小。

一些用户希望将重复数据删除与归档和法规遵从存储产品一起部署,他们目前面临的问题是,符合标准的归档产品是否支持重复数据删除技术。尽管政府的法规通常要比技术滞后好多年,但仍可以预料,正如WORM磁带驱动器和WORM磁盘存储设备逐渐得到监管部门的接受一样,重复数据删除技术也会逐渐得到接受。

部署在何处?

了解了部署方面的选择后,下一个问题通常是使用虚拟磁带库(VTL)还是使用磁盘到磁盘(D2D)设备。决定利用备份软件中重复数据删除技术的企业可能仍想使用VTL或D2D设备,以便加快备份和恢复速度。

对许多D2D和VTL产品来说,重复数据删除是作为一项附加功能提供的。有几家厂商提供的重复数据删除用于主存储系统,另一些厂商提供了可把普通硬件变成D2D设备的软件,还有一些厂商把重复数据删除技术内含在备份应用软件中。

最终,重复数据删除有望成为一项服务,可能用于整个数据中心的许多不同地方。到那时,IT管理员和架构师必须设计出能够在效益最明显的地方使用重复数据删除的解决方案。数据备份过程通常是重复数据删除技术用得最多的地方。

由于这个原因,大多数厂商把精力集中于在备份过程对数据进行重复数据删除,这是由于这一过程涉及数量众多的重复数据。尽管一些备份应用软件在最初的完全备份后会使用增量备份,但仍存在着相当多数量的重复数据,而重复数据删除还能减少这些数据集的存储需求。

由于重复数据删除会带来处理上的开销,因此,针对备份或归档数据部署重复数据删除技术很常见,而针对主存储系统来部署的却很少。因而,提供重复数据删除技术的产品大多与备份和归档联系在一起,包括备份应用软件和基于磁盘的备份及归档平台,如NAS设备或VTL。

选择使用D2D设备还是使用VTL取决于IT环境,包括所用的其他存储系统、所用物理磁带的数量及其他因素。如果IT环境已在磁带方面做了大量投入,而且主要使用块存储系统,那么,部署VTL常常能收到比较好的效果。相比之下,如果IT环境没有在磁带驱动器或存储介质方面进行大量投入,又使用大量的文件或NAS存储,那么,D2D设备可能比较合适。

如何部署?

决定了怎样部署重复数据删除及部署在何处后,仍需要为何时使用重复数据删除做出重要决定。一个选择是,数据在发送到备份设备时进行重复数据删除,这种实时或流式重复数据删除被称为“在线处理”(in-line)重复数据删除;另一个选择是以后再对数据进行重复数据删除,这种以后进行的通常被称为“后处理”(post-process)重复数据删除。

对于期望尽量缩短数据备份时间的管理员来说,最佳选择通常是使用后处理方法。这种方法具有加快数据备份速度、缩短备份窗口的优点。但缺点是,它要占用额外的存储空间。也就是说,备份数据需要传送到临时保存区,目的是为了加快备份过程; 一旦这一步完成,再重新检查数据有无重复部分,在以后的“后处理”时间段删除重复数据。

除了备份后进行重复数据删除,另一种办法是,当数据传送到备份设备时,进行“在线式”重复数据删除。这种方法的优点是,不需要额外的存储空间;另外,一旦数据经重复数据删除处理后存储起来,这个过程就完成了,数据可能复制到异地存储系统上。因而,如果使用在线处理重复数据删除方法,就能缩短完成整个备份过程(包括复制到异地存储系统)的时间。

产品比较与选择

从架构方面来说,重复数据删除有几种方法。重复数据删除也许内含在备份应用软件中,也许通过存储设备来实现。选择产品时,首先要考虑的就是了解这些架构之间有什么区别。

提供给客户的重复数据删除功能绝大部分结合了软硬件。重复数据删除在计算数据的散列值时,要耗用大量的CPU和内存资源。硬件设备需要就存储容量、输入/输出性能和可用计算功能做出决定。因而,与基于硬件的解决方案相比,基于软件的系统在选择合适数量的CPU、内存和存储容量等方面通常具有更大的灵活性。

许多IT用户喜欢购买集成的软硬件,充分发挥硬件模式便于部署及支持的优点。另一些用户则更喜欢用通用硬件上的软件,觉得这种方法更灵活。很难说两种模式孰优孰劣,各有优缺点。

重复数据删除能够显著减少备份数据所需要的磁盘空间数量,同时保留了基于磁盘的备份设备较之磁带大幅提升性能的优点。因而,只要IT环境希望控制与备份及归档有关的存储成本,同时为数据保护提供很高的服务级别,都应该考虑部署重复数据删除。

目前对数据进行重复数据删除方面有诸多选择。一些产品允许通过NAS协议或D2D设备,把其系统用做备份目标,提供了在传统备份场景之外对数据进行重复数据删除的灵活性。其他产品专门用来与VTL结合使用,旨在帮助VTL在成本上与传统的备份到磁带系统相比具有竞争力。

随着时间的推移,重复数据删除会成为与多种产品类型和部署场景一同提供的一项功能。最终,重复数据删除会逐渐进入到多种存储产品中。重复数据删除技术可能会在几年内部署到存储备份或归档数据的大多数产品中。下一步就是在主存储中运用重复数据删除技术,同时又不影响性能。

未来几乎所有的数据在存储或传送时都会进行重复数据删除处理。到那时,IT部门应该认真评估本公司在成本、性能和数据保留等方面的目标,之后再选择怎样部署重复数据删除、部署在何处。只有慎重选择,大大小小的IT部门才能够用更低成本获得更高性能。

http://www.lt-info.net

深圳市临同信息技术有限公司欢迎您!