重复数据删除论文(共5篇)
重复数据删除论文 篇1
0 引言
云计算[1]是近几年最热门的互联网技术,同时也是发展最为迅速的互联网服务模式。随着云计算重心的迁移以及大数据的兴起,存储即服务(Storage-as-a-Service,Saa S)作为云计算的支撑技术迅速发展,同时单独的云存储服务(cloud storage)在商业上也得到广泛的应用,比如Drop Box、Google Drive等。
云存储服务的推广,业界很快发现围绕个人数据的可用性和安全性是云存储服务推广的最大障碍。用户对于云存储服务提供商的可用保障和安全保障能力心怀疑虑,从而阻碍了用户将更多的数据和业务转移到云平台上。
如今现有的加密云存储系统,主要有如下几类:使用用户私钥加密数据,但这样无法消除重复数据,对于不同用户的相同文件,因为私钥不同, 加密出来的文件不一样, 例如E (Ka, f )→Ca≠Cb←E(Kb, f ),当Ka≠Kb。也有使用系统分配密钥加密文件的,这样做到了消除重复数据,但是众多客户端使用相同密钥,难以抵抗伪造客户端的攻击。对此,文献[2]设计了一套能消除重复数据的加密云存储系统。系统中使用消息自加密确保存储系统中没有重复数据;使用带认证的加密协议确保密钥的安全签发与传输;使用高级加密算法确保数据的安全性。本文在介绍该系统的基础上,通过在系统中加入RS纠删码提出了一套可消除重复数据的加密云存储系统,分析了数据的安全性和完整性保护性能。
1 系统概述
如图1 所示,文献[2]提出的系统由代理服务器、密钥服务器、存储服务器组成。代理服务器主要负责数据资源计算部分以及用户请求的处理;密钥服务器主要负责分发文件加密密钥;存储服务器主要负责数据在冗余备份条件下的存储。其运作流程如下:
用户(User)通过终端将数据文件f (file)上传至该系统。代理服务器(Proxy Server)可以视为存储服务器的客户端,收到文件后计算出文件f的信息摘要h =H( f),然后通过OPRF协议[3],和密钥服务器(Key Server)通信获取文件加密密钥K =Hmac(Ks,H(f ))。本次通信结束,密钥服务器没有得知需要加密的消息h ,而代理服务器也不曾拥有密钥服务器的密钥,同时若两条消息相同h1=h2,则能通过HMAC算法保证在同一个密钥Ks下生成的消息摘要是相同的
接下来,代理服务器使用K为密钥加密文件得到加密后的文件Cf=E(K, f ),然后使用用户私钥Ku加密文件密钥K得到加密后的文件密钥Cu=E(Ku, K) 。代理服务器首先会查询存储服务器上是否已经存在文件Cf,若是存在则无需再次存储Cf,只需要存储用户对应的文件密钥Cu;若是不存在,则代理服务器将Cf和Cu作为一组用户数据送到存储服务器(Storage Server)上,由于Cu只是文件密钥加密文件,数据长度有限,故直接以3 备份方式存在数据库中;而Cf是加密后的用户数据,大小和用户上传文件直接正相关,是占据存储空间的主要部分,故使用纠删码(Erasure Code)中性能稳定的RS码编码后存储,编码后不仅能均衡单个存储节点存储压力和网络通信负担,还能使数据有一定的容灾能力。如图中采用的RS编码生成2 个数据块(D1, D2) 和1个编码块(C1) ,3 块分别存储于不同存储节点,单一节点上的数据损坏或者丢失并不会影响用户数据的完整性。
若用户想要获取云存储端的个人数据,则代理服务器发送获取用户文件的命令到存储端,存储服务器则从各个节点读取数据,通过RS译码还原出加密文件密钥Cu=RS(D1,D2,C1),然后将加密文件Cf和加密文件密钥Cu一起返回代理服务器;代理服务器使用用户私钥Ku解密加密文件密钥Cu得到文件密钥K =D(Ku,Cu),再使用K解密文件Cf得到文件f =D(K ,Cf);最后将解密后完整的文件f发送至用户。
2 数据的隐私性分析
在分析数据隐私之前,先介绍下MLE (Message-Locked Encryption)[4],简单来说即利用消息M本身产生密钥K ,比如使用常用的MD5、SHA得到K =H(M) ,然后使用该密钥加密消息本身生成密文C=E(K,M)。使用MLE能和不加密的系统一样,很容易实现消除重复数据,因为对应已经指定的消息M生成的密钥K是一定的;但是当用户文件集比较小的时候,攻击者可以通过暴力破解加密文件,造成用户隐私泄漏。而在本系统中,特地设立密钥服务器来加强MLE中的K ,通过散列消息认证码K =Hmac(Ks,H(M ) )使得文件摘要变得不可预测,同时结合OPRF协议[3]将服务器密钥Ks和消息摘要H(M) 泄漏概率降至最低。而在系统其它过程中只要用户私钥没有被窃取,攻击者即使拿到了加密文件,也面临的是破解AES加密的问题,就现在来说几乎是不可能的。
3 数据的容灾性分析
在设计的系统中,容灾性是由冗余备份所提供的。而本系统中冗余备份是由RS编码实现,而RS编码的纠错性能早已有深入的研究[5]:将k个源数据包冗余编码为n(n>k) 个编码包,只要有还有k个完整的包就能恢复出完整的源数据。假设使用RS(n,k,t) 编码,那么码率为r =k/ n ,假设存储中单位长度的数据(数据块)出错概率为p且互不影响,令q =1-p ,原数据长为k个单位长度,那么能顺利将数据读取出来的概率为∑ti=0Cniqn -ipi。对比数据存储时未处理、3 备份和RS(15,8,3)编码,得到下表:
从上表容易看出,当数据块出错概率为p =1 /100 时,RS编码冗余备份可以在更高的恢复概率下降低3备份所造成的存储空间浪费。
4 结束语
如何确保云存储系统中数据的安全性和隐私性是云计算面临的难题。本文介绍一种基于摘要算法、加密算法、加密协议的能消除重复数据的加密云存储系统:针对重复数据过多,使用MLE的方式消除重复数据;然后通过设立一个密钥服务器,并利用OPRF协议通信来弥补MLE的缺陷,更好的保护用户隐私的安全。最后使用纠删码对用户数据进行备份,提高存储效率的同时提升数据的容灾能力。适合部署在如今纷杂的个人云存储平台上。
参考文献
[1]Peter Mell,Timothy Grance.NIST Special Publica-tion 800 -145:The NIST Definition of Cloud Computing-[S].Natio nal Institute of Standards and Technol ogy,Se-ptember 2011.
[2]Keelveedhi S,Bellare M,Ristenpart T.Dup LESS:ser-ver-a ided encryption for deduplicated storage[C].Pres-ented as part of the 22nd USENIX Security Symposium(USENIX Securit y 13).2013.
[3]C AMENISCH,J.,N EVEN,G.,AND SHELAT,A.Simul-atableadaptive oblivious transfer[J].In EUROCRYPT 2007(B arcelona,Spain,May 20–24,2007),M.Naor,Ed.,vol.4515of LNCS,Springer,Berlin,Germany,pp.573–590.
[4]Bellare M,Keelveedhi S,Ristenpart T.Messageloc-ked e ncryption and secure deduplication[M].Advances in Cryptology–EUROCRYPT 2013.Springer Berlin Heidel-berg,2013.
[5]Peterson W W,Weldon E J.Error-correcting codes[M].MIT press,1972.
重复数据删除论文 篇2
删除重复数据的几个方法
。用rowid方法
据据oracle带的rowid属性,进行判断,是否存在重复,语句如下:
查数据:
select * from table1 a where rowid !=(select max(rowid)
from table1 b where a.name1=b.name1 and a.name2=b.name2......)
删数据:
delete from table1 a where rowid !=(select max(rowid)
from table1 b where a.name1=b.name1 and a.name2=b.name2......)
2.group by方法
查数据:
select count(num), max(name) from student --列出重复的记录数,并列出他的name属性
group by num
having count(num) >1 --按num分组后找出表中num列重复,即出现次数大于一次
删数据:
delete from student
group by num
having count(num) >1
这样的话就把所有重复的都删除了,
3.用distinct方法 -对于小的表比较有用
create table table_new as select distinct * from table1 minux
truncate table table1;
你果真需要重复数据删除技术吗 篇3
在上述变化的过程中,重复数据删除深受众多企业的喜爱,但它却并非适合每个人。对企业而言,需要结合自身实际情况与需求,选择即适合同时性价比又高的解决方案。
每个IT决策者都想要或需要重复数据删除技术吗?事实上,虽然重复数据删除技术能节省后端存储,但它并非适合每个人。
重复数据删除技术又叫智能压缩或单一实例存储,这种方法通过消除冗余数据以减少存储要求。存储介质上其实仅仅保留数据的一个独特实例。取代冗余数据的是指向独特数据副本的指针。
比如说,一个普通网络可能含有同一后台镜像的100个实例,该镜像的大小是1MB。如果该文件备份或存档起来,所有100个实例都予以保存,这就需要100MB的存储空间。而借助重复数据删除技术,其实只要存储一个实例,每个后续实例仅仅指向一个已保存副本。在这个例子中,原先需要100MB存储空间,现在只需要1MB。
换句话说,重复数据删除技术可以省钱。如果重复数据删除节省40%的后端存储,它也可以减少40%的数据保护解决方案的总存储费用。真实应用中,说到预算和规划,能节省40%已算相当多了。
三种类型 各有利弊
重复数据删除技术主要有三种类型,虽然每种类型各有其优缺点,但它们在企业的存储环境都有一席之地。前两种均可以用于同类中最佳的解决方案。
客户机端重复数据删除技术是指,数据先经过重复数据删除处理,然后传送给数据保护解决方案;这种技术利用客户机来处理有关文件、字节和比特的元数据,然后通过网络来传送。客户机承担更多的任务,但是它为网络减轻了压力。不过,这种技术给客户机施加的负担会影响在该客户机上运行的应用程序。只有网络资源有限,客户机又有多余的内存和处理器能力来处理这个额外过程,才可以使用客户机端重复数据删除技术。
服务器端重复数据删除技术是指,客户机通过网络传送所有数据,所有数据传送完毕后,进行处理,删除重复数据。虽然这种方法的确通过网络传送更多的数据,但是它为客户机免除了任何额外负担。如果你的数据保护解决方案旨在承担这项重任,那么这项技术适合大多数重复数据删除情况。不过,如果不是旨在承担这个重任,你又没有合适数量的磁盘、内存和处理器能力,这会让你的数据保护解决方案不堪重负。
嵌入式重复数据删除技术是指,数据传送到数据保护解决方案时,将额外的设备添加到提供重复数据删除功能的IT基础设施。这项技术减轻了客户机的开销,也减轻了服务器进行重复数据删除处理的负担。虽然这似乎集两者之众长,但需要相当大的投入,来购置连接到存储区域网络(SAN)的新设备。该解决方案不仅很花钱,而且对大多数公司来说,大材小用。通常来说,不借助额外的嵌入式设备,提供重复数据删除功能的普通数据保护解决方案每晚最多就能处理5TB数据。
何时不需要重复数据删除
那么,什么情况下不需要重复数据删除技术呢?这就要三方面来考虑这个问题了:
首先,成本。为了使用重复数据删除技术,系统会需要更多的内存、处理器能力、可能速度更快的磁盘,都会让系统成本急剧上升,因而使得使用重复数据删除技术不划算。
其次,磁带。如果所有数据都要迁移到磁带上,那么不需要重复数据删除技术。重复数据删除只在磁盘上切实可行,因而磁带不需要重复数据删除。
第三,数据占用空间。如果数据占用空间很小,不到10TB,那么考虑到底是否需要重复数据删除时,还要兼顾成本。由于磁盘成本在下降,存储阵列里面的一抽屉磁盘也许就能在不借助重复数据删除的情况下处理重任。
重复数据删除是一项非常酷的技术,但它并非适合每个人。在你考虑升级或启用重复数据删除技术之前,找个客观公正的人咨询一下,对方会给出合理的建议,帮助你物色到不仅技术上合理、经济上也合理的解决方案。
链接
重复数据删除必不可少?
在过去的10年,重复数据删除(指消除数据重复副本的方法)由改变游戏规则的新颖技术变成了存储系统必不可少的功能。
观察人士表示,别指望重复数据删除从硬驱删除的数据量方面出现任何突破性增加。目前,重复数据删除通常能达到的数据缩减比是7∶1或10∶1。将来的改进会来自对数据进行重复数据删除速度方面的提升和整个企业使用标准的重复数据删除系统。由于重复数据删除在硬件而不是在软件里面进行,并在速度比今天的NAND闪存更快的非易失性内存(如PCM)里面进行,速度会因而提升。Shetti预测“每个非易失性内存控制器都会内置重复数据删除技术。”他还指出,不像磁盘驱动器,重复数据删除不会引起非易失性内存驱动器上出现碎片。
内置重复数据删除是指数据经过重复数据删除处理后加以存储,它减少了将数据从主存储器存储到备份和复制副本的需求。Pure Storage称,其内置重复数据删除让闪存阵列得以存储多达5至10倍的数据。
观察人士还预计重复数据删除的应用范围会从传统上用于备份扩大到其他应用环境以及更多的计算和存储设备。戴尔公司称,其计划把收购Ocarina后获得的重复数据删除技术集成到EqualLogic和Compellant产品系列中,“首先,我们会把它与压缩技术一起用于快照之类的数据,然后用于更常访问的数据和文件。”戴尔存储部门产品营销执行董事Travis Vigil说。
惠普存储部门的产品营销主管Sean Kinney预测,统一的重复数据删除平台会大行其道,企业可以将这种平台用于所有的应用和存储。这不仅有望减少企业购买的存储系统数量,还有望降低许可、培训和管理方面的成本。(文/编译:沈建苗)
重复数据删除论文 篇4
作为一个经常处理友情连接seo人员来讲如果有专用管理连接的软件会比较好,但我是用excel来管理了,这样会经常碰到重复的数据了,如果数据多了我们一条条找是很麻烦的,下面我们一起来看看如何删除重复数据吧,希望本文章对各位同学会带来帮助,
1、我先打开我工作中的一个excel工作表,如下图所示我们会看到表的 第2行和第7行,第3行和第6行内容完全相同: 2、选中表中的所有记录,包括A与B标题了,要不之后会看不到标题了, 3、选中之后我们点击菜单栏上的“数据”菜单→“筛选→高级筛选” 如下图所示。 4、在弹出的高级筛选对话框中我们选中“将筛选结果复制到其他位置”一项,然后接着点击“复制到”选择框后面的范围按钮来选择一块区域以存放筛选后的数据 ,记住不要与原数据放在一块了,这样可能出问题了。 5、然后我们找到选中“选择不重复的记录” 再点击“确定”按钮即可。
部署重复数据删除不得不知道的事 篇5
大约在十年前,重复数据删除技术(DataDeduplication)就开始浮出水面,而只是最近它才成为一项主流技术。在接下来的几年里,重复数据删除技术可能会像今天的时间点拷贝和RAID技术一样常见。
重复数据删除是一种激动人心的概念,因为它能够大幅降低存储及移动数据的成本。许多厂商在介绍自身产品优点的同时,夸大了其他替代产品的缺点,这使得潜在的客户不由得犯疑:“我该不该部署重复数据删除技术?该把它用在何处?什么产品最适合我的环境?”
我们还是来客观地分析一下这项技术以及每种方案各自的优缺点,以免IT管理员、IT经理和CIO们盲目相信厂商们营销时的一套说法。
重复数据删除是如何工作的?
重复数据删除技术基于数据压缩的概念和方法,包括重复数据集删除及其他技术。重复数据删除借鉴了数据压缩采用的寻找冗余信息这一概念,但所处理的数据量大大增加。重复数据删除要处理的数据达到TB级或PB级,而不是压缩技术的KB级。
所有重复数据删除解决方案都会寻找数据中的冗余信息,无论是在文件级、对象级还是子对象块级。早期的重复数据删除技术着眼于文件,旨在消除重复文件。目前市场上仍存在这些方法,称为单实例存储(single instance storage)。最近的改良版技术可以针对多种类型的数据寻找重复数据,找出长度不一的重复部分。
重复数据删除的工作方式通常是先分析数据,为某部分信息计算出简写或惟一的标识。子文件级或块级的重复数据删除技术通常把数据细分成几段,用于进行重复数据删除。每段数据都有指纹印,使用密码散列来查看这部分信息之前有没有存储过。只要存在相同部分的数据,就用原始数据的索引来替换,因而节省了空间。计算简写指纹索引的数学算法称为“密码散列”(cryptographic hash)。目前有许多散列算法,包括MD5和SHA-256,另外还有其他专用算法。
何时考虑部署?
通过消除冗余数据来节省成本能够在整个数据中心引起连锁反应。若能推迟购买新的存储系统,或者扩展现有存储系统的实际容量,就有望节省成本。由于使用物理存储系统的数量减少了,因而电力、冷却和场地等方面的要求也随之减小,这就进一步节省了成本。另一个潜在的优点就是可以减少通过局域网、广域网和存储网络传输的数据量,从而减少了对网络设备的需要,并降低了带宽需求。
一旦了解了重复数据删除技术,就比较容易知道何时部署解决方案、部署到何处及怎样部署。不是所有数据都很适合采用重复数据删除技术,得到的好处也不尽相同。因而,用户在考虑是否部署重复数据删除时,应该提出这样几个问题:
我该何时对数据进行重复数据删除?
我该在何处对数据进行重复数据删除?
市面上有什么样的方案可以选择?
我们还需要考虑有关架构方面的问题:该对所有数据进行重复数据删除,还是只要对部分数据进行这种处理?我该在存储数据时进行重复数据删除,还是以后再进行这种处理?在选择总体架构之前,应分析及了解所有这些问题,然后再选择一家厂商。
需要关注的问题
消除冗余数据的想法听上去有风险。新技术通常都会带来一些额外风险,但随着产品的不断改进,问题也会随之得到解决。重复数据删除背后的许多理念在数据压缩领域运用了几十年了,已经是成熟的技术了。
一些新技术都会重新映射数据,并改变数据的物理布局,比如磁带驱动器的逻辑块寻址、RAID、时间点拷贝和复制。最初,有许多这样的技术被认为有风险,但是随着这些技术的日渐成熟,以及厂商们拿出了性能可靠的产品,这些技术便逐渐得到了采用及接受。近十年来,重复数据删除技术一直不断进步,目前的产品存在的风险非常小。
一些用户希望将重复数据删除与归档和法规遵从存储产品一起部署,他们目前面临的问题是,符合标准的归档产品是否支持重复数据删除技术。尽管政府的法规通常要比技术滞后好多年,但仍可以预料,正如WORM磁带驱动器和WORM磁盘存储设备逐渐得到监管部门的接受一样,重复数据删除技术也会逐渐得到接受。
部署在何处?
了解了部署方面的选择后,下一个问题通常是使用虚拟磁带库(VTL)还是使用磁盘到磁盘(D2D)设备。决定利用备份软件中重复数据删除技术的企业可能仍想使用VTL或D2D设备,以便加快备份和恢复速度。
对许多D2D和VTL产品来说,重复数据删除是作为一项附加功能提供的。有几家厂商提供的重复数据删除用于主存储系统,另一些厂商提供了可把普通硬件变成D2D设备的软件,还有一些厂商把重复数据删除技术内含在备份应用软件中。
最终,重复数据删除有望成为一项服务,可能用于整个数据中心的许多不同地方。到那时,IT管理员和架构师必须设计出能够在效益最明显的地方使用重复数据删除的解决方案。数据备份过程通常是重复数据删除技术用得最多的地方。
由于这个原因,大多数厂商把精力集中于在备份过程对数据进行重复数据删除,这是由于这一过程涉及数量众多的重复数据。尽管一些备份应用软件在最初的完全备份后会使用增量备份,但仍存在着相当多数量的重复数据,而重复数据删除还能减少这些数据集的存储需求。
由于重复数据删除会带来处理上的开销,因此,针对备份或归档数据部署重复数据删除技术很常见,而针对主存储系统来部署的却很少。因而,提供重复数据删除技术的产品大多与备份和归档联系在一起,包括备份应用软件和基于磁盘的备份及归档平台,如NAS设备或VTL。
选择使用D2D设备还是使用VTL取决于IT环境,包括所用的其他存储系统、所用物理磁带的数量及其他因素。如果IT环境已在磁带方面做了大量投入,而且主要使用块存储系统,那么,部署VTL常常能收到比较好的效果。相比之下,如果IT环境没有在磁带驱动器或存储介质方面进行大量投入,又使用大量的文件或NAS存储,那么,D2D设备可能比较合适。
如何部署?
决定了怎样部署重复数据删除及部署在何处后,仍需要为何时使用重复数据删除做出重要决定。一个选择是,数据在发送到备份设备时进行重复数据删除,这种实时或流式重复数据删除被称为“在线处理”(in-line)重复数据删除;另一个选择是以后再对数据进行重复数据删除,这种以后进行的通常被称为“后处理”(post-process)重复数据删除。
对于期望尽量缩短数据备份时间的管理员来说,最佳选择通常是使用后处理方法。这种方法具有加快数据备份速度、缩短备份窗口的优点。但缺点是,它要占用额外的存储空间。也就是说,备份数据需要传送到临时保存区,目的是为了加快备份过程; 一旦这一步完成,再重新检查数据有无重复部分,在以后的“后处理”时间段删除重复数据。
除了备份后进行重复数据删除,另一种办法是,当数据传送到备份设备时,进行“在线式”重复数据删除。这种方法的优点是,不需要额外的存储空间;另外,一旦数据经重复数据删除处理后存储起来,这个过程就完成了,数据可能复制到异地存储系统上。因而,如果使用在线处理重复数据删除方法,就能缩短完成整个备份过程(包括复制到异地存储系统)的时间。
产品比较与选择
从架构方面来说,重复数据删除有几种方法。重复数据删除也许内含在备份应用软件中,也许通过存储设备来实现。选择产品时,首先要考虑的就是了解这些架构之间有什么区别。
提供给客户的重复数据删除功能绝大部分结合了软硬件。重复数据删除在计算数据的散列值时,要耗用大量的CPU和内存资源。硬件设备需要就存储容量、输入/输出性能和可用计算功能做出决定。因而,与基于硬件的解决方案相比,基于软件的系统在选择合适数量的CPU、内存和存储容量等方面通常具有更大的灵活性。
许多IT用户喜欢购买集成的软硬件,充分发挥硬件模式便于部署及支持的优点。另一些用户则更喜欢用通用硬件上的软件,觉得这种方法更灵活。很难说两种模式孰优孰劣,各有优缺点。
重复数据删除能够显著减少备份数据所需要的磁盘空间数量,同时保留了基于磁盘的备份设备较之磁带大幅提升性能的优点。因而,只要IT环境希望控制与备份及归档有关的存储成本,同时为数据保护提供很高的服务级别,都应该考虑部署重复数据删除。
目前对数据进行重复数据删除方面有诸多选择。一些产品允许通过NAS协议或D2D设备,把其系统用做备份目标,提供了在传统备份场景之外对数据进行重复数据删除的灵活性。其他产品专门用来与VTL结合使用,旨在帮助VTL在成本上与传统的备份到磁带系统相比具有竞争力。
随着时间的推移,重复数据删除会成为与多种产品类型和部署场景一同提供的一项功能。最终,重复数据删除会逐渐进入到多种存储产品中。重复数据删除技术可能会在几年内部署到存储备份或归档数据的大多数产品中。下一步就是在主存储中运用重复数据删除技术,同时又不影响性能。