数据隐私保护(精选12篇)
数据隐私保护 篇1
大数据是近年来的一个新生概念, 但对人们对其已经不陌生。在当今社会, 大数据技术有其历史性的战略意义, 它不仅掌握着庞大的数据信息, 更能够对这些数据进行专业化处理。假如将大数据比喻成一种产业的话, 那么对数据的加工能力就是该产业实现盈利的关键。不过, 大数据也存在着许多安全隐患, 而最大的隐患就在于可能会泄漏用户的个人隐私。对于这点, 大数据还需要加强安全措施, 保护用户隐私。
1 大数据时代下隐私的新特点
1.1 大数据时代下的隐私为数据化隐私
在大数据时代下, 隐私也有其独特的特点。与传统的隐私不同, 大数据时代下的隐私最大的特点就是隐私的数据化, 也即是说隐私是以个人数据的形式而出现的。所谓“个人数据”, 指的就是被识别或可识别的自然人的任何信息。对于人们的个人隐私来说, 数据是其在网络环境中的唯一载体。而相较于以往人们认知中的网络数据而言, 大数据的规模更加庞大, 是一种具有“4V”特征的数据集合, 这说明了大数据的真实可靠性, 同时也代表着可以对个人进行全方位识别。例如近年来所流行的一个词汇“人肉搜索”, 指的就是利用大数据对个人隐私数据进行识别的一种行为。
1.2 大数据时代下的隐私具有更大化的价值
无论以目前实际情况而言, 还是就本质角度来看, 个人隐私都正从一种用户的个人独占资源而逐渐转变为可利用的资源。在大数据时代下, 个人隐私已然成为了一种新型商品, 它可以被买卖, 且具有较高的价值。其实, 个人隐私数据被买卖泄漏的例子在日常生活中非常多见, 例如很多人们都会时不时地接到一些推销电话或广告短信等, 而商家之所以会知道用户的电话、姓名及需要, 就是因为通过某种渠道而购买到了用户的个人信息。
1.3 大数据时代下隐私的泄漏途径更加隐匿
大数据的出现无疑方便了人们的工作和生活, 它最大的魅力就在于数据的多维性及数据之间的关联性和交叉性, 这让一些原本看起来毫无关联的信息变得具有了紧密的联系, 而利用这样的关系, 再借助一些相关工具, 有心者很容易就能挖掘出很多让人意想不到的隐私信息。例如有些狗仔队就经常会根据明星在博客上所发布的图片而推断其住址, 这无疑大大侵犯了明星的个人隐私权。这种现象是非常令人震惊和恐怖的, 因为人们往往根本还没意识到自己是在哪里不小心泄漏了自己的个人信息, 个人信息就已经全面暴露在了别人的目光下。可以说, 大数据时代让人们变成了一个透明体, 时时刻刻都处于隐私可能被暴露的状态下。
2 大数据时代下隐私的安全问题
2.1 网站和软件中的强制性条款导致隐私泄漏
目前网络上一些网站在注册时, 或是一些应用程序在安装时, 都会强制性地出现一些用户地理位置、个人信息、网络通信及日志数据等内容的许可条款, 用户如果不接受这些条款, 就无法注册网站或是使用程序。而作为商家, 虽然给予了用户这方面的知情权, 却并未给予其选择权, 用户往往为了一些必要的服务而不得不接受隐私泄露这一事实。
2.2 用户自我泄露隐私数据
随着网络通信的日渐发达, 人们越来越热衷于使用微信、微博等社交工具, 因为这些社交工具能够将天南海北志趣相投的人聚集起来, 以使人们认识更多的同好、和更多的同好进行交流。然而, 虽然社交工具丰富了人们的日常生活、方便了人们的交友, 但却也潜在着许多暴露个人隐私信息的危险。许多用户都会毫无顾忌地在社交网站上发布自己的个人信息, 如购物内容、手机型号、个人照片甚至家庭住址等等, 这无疑是将自己的隐私赤裸裸地泄露在大众面前。
2.3 企业由于利益驱使而主动挖掘用户隐私
现如今, 大数据技术已经在各行各业中得到了广泛运用。例如在制造业中, 可以利用大数据来对采购量及合理库存量进行分析, 可以对客户的需求全面了解以掌握市场动向, 或是直接利用互联网建立网上平台, 从而更加精准地了解客户的喜好。然而, 随着隐私数据所能够带来的价值和利益越来越大, 越来越多的企业开始想尽办法挖掘用户更多的个人隐私, 这造成了用户隐私的大面积泄漏。
3 大数据时代下隐私的保护措施
3.1 加强隐私保护机构建设
目前, 美国、俄罗斯、日本等发达国家已经设立了比较完善的隐私保护机构, 用于专门保护包括网络隐私在内的各种隐私内容。这些隐私保护机构既起到了宣传教育和普法的作用, 又具有着执法功能。而就我国来看, 虽然目前也有一些机构负责隐私保护事务, 如国务院、公安部、工信部等等, 然而却相对缺少专门的隐私保护机构, 因此也无法满足当前人们对大数据隐私保护的迫切需求。
3.2 引导企业合理利用隐私数据
对于大数据隐私保护问题而言, 堵不如疏, 越是强制性地禁止企业及相关组织利用隐私数据, 它们越是会为了利益而暗地里进行使用;而如果不强制性地禁止这一行为, 反而对其加以合理引导的话, 则会达到双赢的局面。因此, 国家应当尽快完善相关法律, 明确隐私数据的可使用范围, 划分隐私安全等级, 允许在保障用户安全的基础上适当使用隐私数据获取一定的利益, 这也是促进国家经济发展的一项有效举措。
3.3 加强隐私保护宣传教育
由于很多个人隐私都是用户自己在没注意的情况下主动泄漏出去的, 所以若想加强隐私保护, 还需要加强人们的隐私保护意识。国家和社会上的有关组织应当要加大对隐私保护的宣传, 使人们了解隐私泄露可能会带来的危害, 提醒人们不要随意在网络上发布自己的个人信息, 从而在根源上切端隐私来源。
4 结语
综上所述, 大数据技术改变了人们的生活, 使世界发生了翻天覆地的变化, 但其隐私保护问题却是不容忽视的, 无论是国家、企业还是个人, 都必须要重视这方面问题, 加强对隐私的保护, 以防隐私数据泄露。
参考文献
[1]陈克非, 翁健.云计算环境下数据安全与隐私保护[J].杭州师范大学学报 (自然科学版) , 2014, 06:561-570+558.
[2]成春香, 张伟, 徐涛.一种基于云存储的数据安全与隐私保护系统[J].北京信息科技大学学报 (自然科学版) , 2013, 02:87-90+96.
数据隐私保护 篇2
互联网的广泛普及给人们的日常生活带来了极大的便利。人们只要在有网的地方通过电脑或手机等工具就可以及时获取世界各地发生的新闻信息。同时也可以观看自己喜欢的电影和电视剧等,也可以听自己喜欢听的歌,和自己想交流的人进行即时互动等等。总之,互联网改变了人们生活的方方面面。但与此同时,互联网的广泛普及也带来了众多的网络安全问题。网络安全问题极大地影响着人们的上网体验,更为重要的是极大地损害了人们的利益如经济利益、政治利益、个人名誉等。导致网络安全问题的原因有很多,主要有以下几种:网络恶意攻击;网络自身及网络管理还不够健全;一些软件在设计上存在漏洞;一些恶意网站故意设置陷阱;网络内部工作人员故意做出一些不良的行为。同时,网络用户在上网的时候人为的误接收病毒文件有很大可能会导致网络安全的出现。
2.2隐私保护问题
数据共享应用中的隐私保护措施 篇3
关键词:数据共享;应用;隐私保护
中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2011) 11-0000-02
The Privacy Protection Measures in Data Sharing Application
Miao Hanjun,Chen Haoliang
(Wuhan International Trade University,Wuhan430205,China)
Abstract:In today's computer networks are increasingly developed,the information environment of the network has gradually deepened,data sharing is an irreversible trend of the times.In the process of data sharing,information security has become a key research topic.Among them,the data sharing in the network data services,privacy protection is the core content.This article describes the basic concepts of data sharing and its security needs,analysis of the work planning and control,protection of the privacy and security structure of the application.
Keywords:Data sharing;Applications;Privacy
随着计算机局域网技术的发展,越来越多的计算机用户开始从单机向多机网络系统过渡。过去困扰用户的数据重复输入、数据资源得不到共享的问题,随着网络技术的应用找到了解决问题的途径。但是在网络环境下也出现了许多单机遇不到的问题。例如,数据资源能否达到最大限度的共享,如何缓解因共享数据而带来的运行冲突,它是关系到网络系统高效正常运转的关键。
一、数据共享及其安全需求
数据共享,是指每个管理信息系统所处理的数据,能够被别的管理信息系统所使用,这个层次的共享是最主要的共享方式,不同的管理信息系统可以通过各种网络实现小到一楼一院,大到全国各地的数据共享。利用通用管理信息系统实现异构信息系统数据共享,主要是帮助解决异构信息系统无法直接数据对接的问题,比如A和B两个异构信息系统之间无法实现数据对接,那么,可以通过通用信息系统实现“A-通用系统-B”方式的系统对接,从而实现A、B之间的数据共享。由于通用信息系统不是一个简单的数据对接转换器,它除了帮助完成异构信息系统数据共享对接之外,还能进行相当功能的数据处理,因此,在实现“A-通用系统-B”方式的过程中,通用管理信息系统会逐步积累A、B系统的有关数据,那么,到一定程度,通用管理信息系统必然会实现A、B的某些业务要求,于是,通用管理信息系统就分别演变成了实现A业务的管理信息系统和实现B业务的管理信息系统,在这种情况下,A和B两个异构系统都很可能被通用管理信息系统所取代,数据共享方式遂演变成了实现A业务的通用管理信息系统一一实现B业务的通用管理信息系统,这就是通用管理信息系统的强大生命力。
数据共享工程的核心是数据,因此共享工程核心安全需求就是保护数据的安全。实现共享数据安全不能简单地应用已有的信息安全策略和技术,而需要结合工程的实际,构建新的安全策略模型。数据共享工程包括管理中心、数据的提供方和数据的共享使用方。参与数据共享工程的各方由于身份和对待数据的目的不同,有着各自不同的安全需求。工程的管理中心是数据共享实现的核心单位,负责制定共享规则、组织共享实现、维护共享系统的安全运行。数据提供方指权威数据的合法持有者,即拥有数据所有权的实体;共享使用方指需要共享数据的用户,包括专业研究机构、国家决策部门、普通大众等,并且需要对共享数据使用者按照用户安全级别的不同限制其共享的数据范围。需要说明的是,数据提供方和共享使用方是针对某一数据而言的,在整个共享工程中,数据的提供方同时也可以是另一数据的共享使用方。
(一)保密性需求
数据的提供方作为数据的合法持有者,在共享过程中以服务者的身份出现,向共享使用方提供数据。基于数据的重要性,数据提供方要根据服务对象的不同而考虑数据的保密性,按照共享使用方不同的保密等级提供相应等级的数据,以防止数据泄密或扩大限制级数据的共享范围。如某一地区的矿产资源类型数据,作为一种基础地理数据是可以广泛共享的,但关于某种资源的详细储量和品质的数据信息,就是受到严格保密的,必须限制共享范围,只能在少数的共享使用方之间共享。
(二)完整性需求
数据的共享使用方,进行数据共享时最关心的是共享数据的完整性,即共享的数据是完整的而且数据来源是可靠的。假如共享的数据不是完整的,意味着共享使用方没有得到自己需要的服务,这样将不仅严重影响共享工程的效率,而且可能会给共享使用方带来严重的问题。如某一研究课题,需要北京地区多年来的同期气象数据作研究,然而他通过共享平台所能得到的数据不是完整的数据,这将可能影响研究结果的正确性,或者他通过共享得到的数据并非气象数据提供方提供的,而是被他人篡改后含有病毒的数据,共享使用方使用这样的数据后,不仅无法实现研究目的,还有可能使信息系统感染病毒,引发灾难性的后果。
(三)可用性需求
构建数据共享工程的主要目的是促进数据交流,充分利用数据。作为工程的管理中心,除了对数据的保密性、完整性有安全需求外,最关心的是工程的可用性。数据的可用性是非常必要的,缺乏可用性保障的共享工程,数据的提供方无法提供服务,共享使用方得不到所需的数据,共享工程将毫无意义。保证系统的可用性,才能保证数据共享的效益。同时,系统可用性的基础是数据的保密性和完整性,所以数据共享工程的可用性需求同时也是对数据的保密性和完整性需求。
二、数据共享与规划控制
目前开发的管理信息系统中采用了当前国内外流行的Novell局域网,指定一个计算机为服务器,配有较大容量的共享硬盘,通过网卡和电缆线连接若干台计算机(称为工作站)构成一个网络系统。网络系统中的硬件设置分散在各个职能部门,网上的应用软件既可以对局部的数据进行处理,又可以对全系统中的数据共享(全局数据)进行处理。整个网络利用服务器的共享硬盘及连接的若干工作站实现数据共享和数据交换的目的。在网络运行环境下应用程序一般处于两种状态:独占状态和共享状态。在网络独占状态下,应用程序以排他方式打开数据文件,使用期间拒绝其他用户对数据文件进行访问。一种情况是该应用程序虽然是在网络环境中,但它完全是以一种单用户方式,在程序运行期间所涉及的数据文件均以独占方式打开,不存在数据共享和并发控制问题。一般只需在主程序中加上SETEXCLUSIVEON语句。再一种情况是应用程序一般处于共享状态,只是对数据文件进行整理(PACK)、索引(INDEX)、删除(DEL.ETE)等时,为了保证数据的一致性,系统要求必须以独占方式打开数据库文件;例如,在程序中加上独占打开数据库的命令:USE(数据库名/EXCLUSIVE,在网络中系统便拒绝其他用户对该库进行读写操作,但使用后最好马上关闭或释放(USE或UNLOCK)。
在网络共享状态,每一个应用程序各自独立运行,经常会发生两个以上的应用程序同时对一个共享数据库进行访问,出现了冲突问题。为了保证系统中数据的完整性,系统提供了文件锁(FLOCK)和记录锁(RLOCK),当一个工作站的应用程序访问数据库时,首先要判定数据库是否被其他应用程序占用。如果有用户在使用,就必须等待,否则上锁程序进入使用状态。两个用户程序各自独立运行时,在某一时间段同时要对数据共享资源进行访问(写操作)。用户1先封锁资源,进行访问操作,用户2处于等待状态,直到用户1释放资源为止。上锁技术的基本思想是:某工作站的用户在使用某一数据库时,先上锁再使用。使用后开锁并允许其他用户使用。如果上不了锁则说明有其他用户正在使用该数据库,必须等待。文件锁和记录锁的方式,在网络环境下访问共享数据库时经常被使用。注意,在共享方式下允许其他用户读数据,但不允许写数据。
三、隐私保护
在实际应用中,大量的数据中可能包含用户的个人隐私信息,例如银行信用卡数据、网络注册数据和手机通话过程等,对这些数据的共享可能会侵犯用户的隐私。调查显示,绝大多数的网站用户不愿提供真实信息,担心网站对这些信息进行数据共享会侵害个人隐私。对很多公司而言,共享什么知识在数据收集时也是不确定的,用户很难知道公司如何利用包含个人隐私的数据。因此,如何确保数据共享过程中不泄露或尽量少地泄露隐私信息,已成为数据共享的一个重要研究方向。W3C提出的P3P(Platform For Privacy Preferences)标准允许网民控制个人资料在网络上的公开程度。事实上,为了保护用户的隐私,有学者早在2000年就提出隐私保护数据共享的新算法。常用的隐私保护算法主要包括数据预处理法、基于关联规则的方法和基于分类的方法等多种。数据预处理法是人们较早使用的方法,主要思想是在数据预处理阶段删除数据中最敏感的某些字段,例如姓名和证件号码等。或者在数据集中随机添加、修改和转换某些字段的数据,这些数据起到干扰作用,从而避免隐私泄露。上述方法比较简单,但也可能影响共享结果。基于关联规则的方法首先在数据集中共享关联规则,然后通过预先设定的学习方法或人工方法区分敏感规则和非敏感规则,根据敏感规则可以删除其中的部分敏感项或者给予较低的权重。基于分类的方法是建立一个没有隐私泄露的分类规则,用于区分包含隐私的信息和不包含隐私的信息。对于每条数据,该方法尝试使用一些字段代替敏感字段,再进一步计算这种替换对于数据集本身的影响,从而找出一种尽量少泄露隐私,又不破坏数据集完整性的方案。上述几种方法都可以起到保护隐私的作用,但后面两种方法的扩展性更强,实际效果更好,是比较实用的算法。此外,还有其他的隐私保护方法。例如根据不同的安全级别对数据进行分类和限制,仅允许用户访问授权的安全级别或使用加密技术对数据编码。还有一种方法叫匿名法,它通过泛化数据标识符防止隐私数据泄露。
四、数据共享的安全结构
数据共享工程安全防护三级架构图数据共享工程的安全防护采用三级架构模型,在共享工程门户配置跨中心(网)的身份认证,在数据中心(网)内配置统一身份管理的身份认证实现用户单点登录,数据中心(网)和数据节点采用分级访问控制策略实现所属数据资源的授权管理。共享工程门户、数据中心(网)、数据节点分别采用相应策略的入侵检测、防火墙、病毒防护、安全审计等系统与网络安全防护措施。数据中心(网)与数据节点利用数据分级分类原则设定数据安全属性,采用数据库安全、数据加密、数据备份与恢复等技术实现数据安全保护。
数据共享服务安全体系主要由身份认证、访问控制、审计等安全功能子系统来保证,并辅以其他常用如防火墙、杀毒、入侵检测等常规安全模块。在搭建安全体系结构完毕之后,共享服务运行的情况将会是这样的:参与共享数据的组织机构和用户需要在全局的身份管理部门注册,以便用于身份认证和授权管理。活动的用户(正在进行共享数据访问的用户主体称为活动的用户)需要通过身份认证后才能进入相关的存有共享数据的服务主体,获得对目的数据(用户欲访问的共享数据称为目的数据)的操作授权,并且在用户进行对目的数据的操作前通过系统对他的权限验证。共享数据在网络中传输时,要视其重要程度采用不同强度的加密手段保证其机密性和完整性。在这一系列的动作中,全局系统和各数据中心都需要做相关的审计,并且将审计的结果按一定的规则交付相关部门。系统框架的功能及特点如下:
身份认证子系统负责参与数据共享的用户注册,在用户访问操作前,对其进行身份认证,确保共享访问的合法性,避免非法共享。
访问控制子系统由分层授权管理部分和分散在各个子系统的权限验证模块组成,负责用户对数据进行操作的授权管理,权限验证模块负责对已授权用户的验证权限,用户在被访问系统内的操作权限验证由子系统内部验证完成。
审计子系统有总审计和设在各个子系统的审计代理构成,负责对访问者进入系统后的操作和系统自身运行状况的审计,为事后调查和恢复提供依据。审计在系统中独立存在,不受其他系统的干扰。
该框架采用多层次安全策略,系统总体和子系统的安全策略相互协调但又相互有区别,多层次的安全策略可以根据需要分别制定。采用全面的安全保护措施,为数据共享服务的顺利进行提供可靠的安全平台。
五、结束语
无论是哪种类型的Web应用,数据共享的工作过程中通常会涉及保密数据,将保密数据的传输过程是很危险的。用户访问的大量Web应用都位于共享的环境中,信息应用处理的安全性很重要时,在数据从客户端传送到服务器,或者从服务器传送到客户端之前进行隐私保护措施具有极高的现实意义。加密与隐私保护确实会给应用增添额外开销,因此我们要求加密的信息越少越好。
参考文献:
[1]张敏.外包存储环境下数据共享的安全方案研究[D].电子科技大学,2010
[2]王会波.安全存储与云存储安全[J].信息安全与通信保密,2010,12
[3]沈昌祥.云计算安全[J].信息安全与通信保密,2010,12
大数据隐私安全保护 篇4
关键词:大数据,隐私,保护
1 大数据时代的来临
大数据时代已到来。什么是大数据?大数据,英文为Big Data。关于大数据研究机构Gartner给出了这样的定义。大数据是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。简单来说,就是大数据可以将人们在网络上留下的信息数据收集、处理和分类,并反馈给人们。为什么说大数据时代来临了?如今网民数量增加,人们上网时间增长,留下的信息数据越来越多,网络可以将这些信息都收集起来,形成巨大的数据网。人人都在这个数据网中,人人都活在大数据时代下。大数据时代的来临也带来了隐私安全问题。细想一下,处于网络时代,人们的生活离不开网络,一旦人们在网上浏览信息、购买物品等,这些都会留下个人信息,而网络将这些信息以数据的形式记录下来,并将这些数据再反馈到你平常浏览的网站中,有时一些网站如淘宝会收集这些信息并进行数据分析,这样下次再登陆淘宝网站时就会推送你感兴趣的东西。大数据会一点一点收集个人的数据,并能很清楚地了解人们。
2 大数据时代对隐私安全的影响
大数据时代人人如同在玻璃房中,人们的隐私与安全变得岌岌可危。试想一个人在网络上留下大量信息,如果网站对这些信息保密不严,会导致犯罪分子沿着这些蛛丝马迹找到这个人的现实生活信息,如他的名字、地址、联系方式等,那么这个人的生命安全就有危险。虽然这只是一种假设,但却有真实存在的类似案例,又或者说即使这样的人不多,人们在网上留下的痕迹,就足以使个人隐私遭到侵害。比如在一些社交网站中,如新浪微博、微信等,这些网站或平台都有个人主页的设置,在网络刚刚时兴时,人们还对在网络留下真实信息有所顾忌,但在这几年随着网络的发展,人们越来越放得开,不再顾忌自己的真实姓名等一些真实信息的透露。再者浏览这些社交网站时,网站会记录人们浏览的痕迹,比如曾浏览的某位明星的动态就会记录在你个人的用户账号上,并随着留下的痕迹越来越多,可以分析出来你喜爱的明星、喜爱的事物、平常的兴趣等,甚至加上对时间的分析,可以分析出你喜欢的东西是这一段时间还是较为长久的兴趣。再有随着网上购物的发展,一些支付平台作为第三方也在记录着人们的真实信息。比如支付宝、蚂蚁花呗等APP。人们在网上购买物品,通过第三方支付平台转账,这些平台会绑定你的银行卡、信用卡,这样它就会记录你的财产信息,有时甚至会要求实名认证,这样你的姓名、性别、身份证号和籍贯也被记录下来。现在随着电子科技的发展,一些手机或客户端还会记录你的指纹信息,这些指纹信息则会被记录在这些电子科技公司当中。再加上随着时代的发展,网络技术会越来越发达,就无隐私可言了。在大数据的记录下,人人都是透明的。
那么记录的数据到底保存在哪呢?这些数据掌握在软件等电子科技公司的手中。比如百度、阿里巴巴、苹果等,甚至一些小网站上。信息数据掌握在这些公司手中,一些大公司或集团或许会将数据保守好,但一些小型网站会轻易被金钱收买,用数据换取利益,甚至还有一些强势企业公开表明愿意共享手中的数据。这在普通百姓层中没有引起轩然大波,因为人们还没意识到,那些数据正是由自己的信息所累积的。
网络时代同时为人们搭起了社交之桥,人们可以通过一根网线聊天、认识朋友。同样诈骗集团和犯罪分子也会通过网线来获取利益。他们会装作你的朋友与你交谈,诈取你的财产,犯罪分子甚至约你在现实中见面,这会威胁到你的人身安全,他们所掌握的信息都是从大数据中获取。通过购买或盗窃一个人的网络记录,来分析一个人的真实状态,大数据威胁到的不只是隐私还有人身财产安全。
3 保护自己的隐私安全的措施
一部分人已具备隐私意识,可以减少自己的隐私在网上透露。在上网时,人们应对自己的隐私有清楚认识,并着重注意自己的隐私有没有在不经意间透露。以下是在大数据时代下隐私安全保护的措施。
3.1 及时清除信息记录、Cookies记录
在上网时不可避免会有一些足迹留下并被采集,虽然无法完全阻止,但是可以减少自己隐私被曝光。简单的做法就是清楚网站的Cookies记录,虽说网站背后的科技公司会将数据记录在自己的公司设备当中,但清除Cookies会阻碍部分信息外露。上网之后将自己的信息足迹删除可以有效避免一些追踪手段。我们网上的足迹多为浏览网页、下载资料、观看视频或者聊天信息。例如我国的聊天软件巨头腾讯QQ,之前腾讯软件上的聊天记录可以一直帮你保存记载,自己可以调取观看,但现在腾讯QQ将聊天记录的时限限制在1~2天。导致无法调取之前的记录,除非开通记录漫游来调取聊天记录。但是虽然在表面上无法查看我们之前的聊天记录,但腾讯公司却一直记录着。很多隐私腾讯主机都知道,但这些在一定程度上无法避免。腾讯主机有程序保护,但我们的电脑上没有相关程序保护,所以要及时清除记录,减少信息泄露。或者在使用公用电脑时,清除上网记录,他人就无法找到相关信息了。
3.2 减少社交网站上个人信息填写
现如今,社交网站也是数据收集的地方之一。目前,社交网站的流行与发展,越来越多的人已不在意自己真实信息透露。但正是由于社交网络的发展,人们越来越不能把守自己的真实信息,这导致人人都处于暴露的状态下。这或许是大数据时代和网络时代到来的必然,但网民们仍要有保护自己隐私的意识,比如在新浪微博的个人主页上,应慎重填写信息,将一些信息虚拟化,这会更好地保护自己的隐私。社交网络上的个人信息会被很多陌生人查看,所以要有意识地保护自己,不留过多的重要的真实信息。
3.3 避免向陌生人透露自己的信息
网络是个复杂的地方,网线对面的陌生人无法判断出好坏,这就需要人们在网络上进行人际交往的过程中,首先要建立一道保护墙,防范网络对面的陌生人,学会保护自己,如果透露过多的信息,你的人身财产安全将会受到伤害。所以,不要透露自己的真实信息给陌生人,要对陌生人有防范意识。
3.4 规范网上信息隐私相关法律条约
上述三个措施都是从自身做起保护隐私与安全,但随着网络与大数据的发展,要想真正要保护人们的隐私安全,最根本的还是要建立健全网络数据信息的保护制度,只有规范制度,才能有效阻止信息数据泄露。这些制度不仅要针对每个网民,还要重点针对掌握大数据的企业集团,强制性要求这些集团签订隐私保护条约,为人们上网提供法律保护。将网络数据的保存流通都要做好相关规定,明确标注犯法行为,从根源上保护人们的隐私。
4 结语
数据隐私保护 篇5
在CRM数据库中,每一条记录都可能包含了隐私信息,这些信息可能关系到客户,也可能关系到你的销售队伍和商业运作。 在一个的商业环境中,客户隐私信息会涉及到社保卡号码,信用卡信息和家庭住址等。 而在的商业环境里,隐私信息可能包含了数百万美元的采购历史记录,销售团队的佣金、销售目标、销售战略等商业机密信息。
在一个单一数据库中存集大量信息的优点在于它能针对每一名客户与公司之间的关系为你提供一个清晰的全貌,助你回顾过去并规划未来。
但是否有必要让所有的CRM用户,比如销售代表、支持人员、顾问和库房人员,都能像你的C层管理人员那样拥有访问所有数据的权限呢? 答案显然是否定的。
有时候,让员工看到其它同事的佣金信息并不是件好事。 而让顾问看到所有的客户数据也要冒上他在为你的竞争对手工作时泄露数据的巨大风险。现实中由于员工跳槽而带走客户数据的事已是屡见不鲜。
在一定程度上保护客户隐私信息并不代表要去完全限制用户访问,或强迫他们在每次使用系统时征求许可。 相反,建立一套基于角色的结构能确保在控制隐私的同时不会影响员工的工作效率。
角色扮演
顾名思义, 基于角色是指管理人员依照用户在企业内部所扮演的角色来限制或允许他们对信息的访问。 建立一套基于角色的安全流程需要针对不同用户来设立许可权限,从而确保每一名用户只能访问到与他的岗位职责相关的信息。
比方说,某家公司决定只让高级市场人员访问与近期一场市场活动有关的特定客户数据。 或者只让副总裁访问销售佣金数据。
这种基于角色的功能还可以被进一步延伸,比如按照销售区域来划分访问权限,这样销售代表只能看到属于自己区域范围内的信息记录。
大部分的CRM应用中都自带了这类功能,公司可以按照自身的需要来酌情使用。 软件公司TechExcel的发言人Jason McNally表示,简单地去封锁信息传输或者email记录其实并不管用。
“只让员工无法向外部发送记录起不了什么作用,”他说道,
“任何在屏幕上显示的信息都能被复制粘贴到另一个文件中。他们甚至能够将客户数据截图保存下来。在员工跳槽转投竞争对手的时候,这些数据依然能够被带走。”
量体而裁
一家公司如何进行访问权限设置要视很多因素而定,其中包括公司文化,Salesforce.的产品市场总监Al Falcione说道。
“有些公司的系统很开放。 他们拥有透明的数据共享模式,不仅能让员工访问,而且还能让客户访问,”他说道。 “他们不在乎每个人都能访问这些信息。”
那些不愿使用基于角色的安全措施的公司普遍认为这种做法会破坏员工之间的协同。 如果销售队伍能浏览部分数据记录而市场部门不能,那么这两个部门之间的工作交流就会产生阻碍。
但Herve Pluche则认为,大部分公司一开始还是会倾向于保守的方法。 随着时间的推移,他们才会慢慢放宽限制,允许更多的协同。
“关键是要建立一套良好的方针和设置,对信息访问采取恰当的限制,”他说道。 “在开始时谨慎一些并没有错,因为一旦你的数据在公司内部全面流通,那么今后很可能就覆水难收。”
有些公司采取基于角色的安全保护措施的原因仅仅是为了防止给销售代表的信息过量。
“有时候,较少的信息反而能增加效率,”Salesforce.com的Al Falcione说道,他将CRM的全部数据比作是一家在线购物站点,用户可能会因为太多的数据而眼花缭乱,哪怕他们知道自己想要找的是什么信息。
“信息泛滥很容易就让人感到不知所措,”他补充道。 “因此,这类安全措施对控制隐私并没有帮助,让用户访问他们所需要的信息才能提高他们的工作效率。”
灵活性,不可失
实施一套基于角色的安全保护并不会给管理上带来多大的麻烦,它只需在系统内设立一些规则。 Falcione建议让一名享有最高权限的管理员来管理所有的需求和变化,而不是将管理权限拆分给几个部门的主管。
在确保数据安全的同时,你也要兼顾到操作的灵活性,TechExcel的Jason McNally说道。 灵活性和安全性其实也与数据的输入方式有关,销售代表和其它员工输入的数据要得当。 那种不管三七二十一先快速上传数据,然后再来分类到正确栏目的做法可能会造成大问题。 在那些数据被正确分类前, 用户可能会在共用栏目(比如备注栏)访问到它。
总的来说,基于角色的安全保护应当参照大公司的客户数据隐私规范,NeoCase的Herve Pluche说道, 公司需要将现有的商业流程与合规要求匹配起来,并采取现有实践作为切入点。 这样,管理人员才会以新的眼光来看待隐私保护措施。
数据安全保护浅析 篇6
关键词:数据安全;数据保护;加密
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)22-5163-02
1 概述
数据作为信息的载体,决定了其具有非常重要的作用。一则标题为“美媒:阿里掌控中国电商数据命脉 政府或干预赴美上市”的文章,引起了更多的人对于数据重要性的关注,文中“美国CNBC网站指出,阿里手执的“大数据(Big Data)”,可能成为其赴美上市一大障碍。”非常直观地表明了其中缘由。数据安全内涵和外延都非常丰富,包括数据本身和数据防护两方面。
2 数据本身的安全保护
对于数据本身的安全主要是确保这样的四要素:机密性、完整性、身份验证、不可抵赖。
2.1 机密性
确保数据的机密性可以采用成熟的加密技术来实现对数据的主动保护。目前加密技术主要有对称加密技术和非对称加密技术两种。
对称加密技术采用对称密码编码技术,其特点是文件使用的加密密钥和解密密钥相同,该方法也称之为对称加密算法。这种对称加密技术使用起来简单快捷,密钥较短,且破译难。目前该技术除了数据加密标准(DES)外,另一个是国际数据加密算法(IDEA),它比DES的加密性能要好,而且对计算机功能要求也没有那么高。
非对称加密技术与对称加密技术的不同点在于其需要两个密钥,即公开密钥(publickey)和私有密钥(privatekey)。公开密钥与私有密钥是成对出现,如果用公开密钥对数据进行加密,那么只有用对应的私有密钥才能解密;反之如果用私有密钥对数据进行加密,那么只有用对应的公开密钥才能解密。因为加密和解密使用的是两个不同的密钥,所以这种算法叫作非对称加密算法。
2.2 完整性
数据的完整性是指一个数据集合完全、正确和一致的程度。HASH(摘要算法)及HMAC(HASH改进版)是目前使用比较多的两种验证数据完整性的算法。这两种算法的原理是发送方和接收方通过比较各自的MAC值来判断数据的完整性。
2.3 身份验证
对访问数据的用户进行身份验证也是确保数据安全的一个重要措施。数字签名、数字证书、公约基础设施PKI等都是该措施实施的一些重要技术。
3 数据安全的防护
对于数据防护方面的安全可以从两方面进行入手:一是制度执行方面,根据数据防护的需求,建立相应的保护机制来规避部分风险;二是技术支撑方面,通过计算机应用的开发,建立符合数据防护需要的平台确保数据安全。
3.1 建立数据保护制度
任何单位或组织都有内部信息,相关信息的保护在遵循法律及有关规定的前提下,必须建立相应的数据保护制度。数据保护制度可以从以下几个方面进行规范:
1) 根据数据的密级确定知悉数据的对象;
2) 根据数据的密级确定检查频次及保存期限;
3) 对重要数据采取分段管理,由不同管理对象负责片断信息;
4) 对重要数据不得并入互联网,数据使用后及时销毁;
3.2 采取数据防护技术
在数据存储过程中,计算机肩负着非常重要的作用,为了防止计算机中的数据发生意外,产生不必要的损失,常见的数据保护技术如下:
1) 硬盘加密。通过对硬盘进行加密,防止未经授权的用户对于数据的访问。
2) 数据库加密。通过数据库存储加密等途径实现数据库数据存储保密和完整性要求,让数据库以密文方式存储并在密态方式下工作,确保了数据安全。
3) 数据备份。数据备份目的是防止因系统意外导致数据丢失,通过将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质。
4) 双机容错。双机容错有效保证用户数据的可靠性和系统的持续运行,对于大数据量连续处理系统来说,这种数据管理方式是必不可少的。
5) 异地容灾。在不同地点建立数据备份系统,将系统数据实时备份到异地服务器中,可以通过异地备份的数据进行远程恢复,也可以在异地进行数据回退。
4 总结
数据挖掘的隐私保护研究 篇7
(一) 基本概念
1数据挖掘
数据挖掘的定义很多, 表达方式各不相同。从技术角度看, 数据挖掘是从大量的、不完全、有噪声的、模糊的、随机的实际数据中, 提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程;从商业角度看, 数据挖掘是一种崭新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理, 从中提取辅助商业决策的关键知识, 即从一个数据库中自动发现相关商业模式。
数据挖掘是从数据库中知识发现中的一部分, 而知识发现是将原始数据转化为有用知识的整个过程。当数据挖掘成为普及的涵盖面更广的术语时, 数据挖掘与知识发现之间的界限就不是那么明确了。事实上, 在现如今大多数场合中, 这两个术语的使用是不加以区别的, 本文也不区分。知识发现是一个多步骤的过程, 典型的知识发现过程包括以下几个步骤:
(1) 数据抽取与集成 (抽取各个数据源的所需数据, 进行合并处理)
(2) 数据预处理与清洗 (对数据再加工, 消除噪声等)
(3) 数据选择与变换 (选择相关数据, 统一成适合挖掘的形式)
(4) 数据挖掘 (用智能的方法提取数据模式)
(5) 模型评估 (根据需要, 识别表示知识的真正有趣的模式)
(6) 知识表示 (使用可视化等各种知识表示技术, 向用户提供所挖掘的知识)
2数据挖掘中的隐私
不同的环境下对隐私的定义不同。数据挖掘中涉及的隐私主要有: (1) 个人隐私, 一般指的是用户的一些能够识别用户身份的标识, 如姓名、年龄、家庭住址、电话号码等, 或者是用户某些行为产生的信息, 例如购物信息, 医疗信息等; (2) 公共隐私, 两个或多个机构, 企业为了共同的利益, 他们合作进行挖掘, 在挖掘过程中都不愿意将自己的某些信息泄露给他方。
隐私保护的主要目标是使用某种方法对原始数据进行处理, 使得私有数据和知识在挖掘之后仍然是私有的。不但要在开始时对某些信息进行保护, 而且对挖掘过程中产生的敏感规则也要进行保护, 还要考虑挖掘产生的结果是否会包含某些重要的隐私信息。
(二) 数据挖掘的隐私保护分类
1999年, Rakesh Agrawal在KDD99中提出将数据挖掘的隐私保护将作为未来的研究重点之一, 此后, 数据挖掘的隐私保护得到了发展, 许多方法不断的涌现。从不同的角度对数据挖掘的隐私保护方法的分类也不同。2004年, Vassilions S.Verykios和Elisa Bertino等人从数据分布、数据修改、数据挖掘算法、数据及规则的隐藏及隐私保护技术五个角度对现有的较为典型的隐私保护数据挖掘算法进行了分类。
1. 数据的分布方式
根据数据的分布情况, 可以分为集中式数据和分布式数据的隐私保护技术, 其中分布式数据的隐私保护技术又分为水平分割和垂直分割的隐私保护技术。水平分割主要是指数据按记录分布于多个机构或组织, 垂直分割主要指数据按属性分布于多个机构或组织。
2. 数据修改
为了确保原始数据中的隐私信息不被泄露, 原始数据在被公开之前要进行一定的修改、伪装, 数据修改方案需要和隐私保护策略相结合。常用的数据修改方法主要有一下几种:
(1) 值替代方法:即将原始数据的属性值替换为一个新的值, 或者用一个符号替代一个已存在的值, 以此来保护敏感的数据和规则;
(2) 聚集的方法:将多个详细的数据进行合并或者抽象为更高层次的数据;
(3) 取样方法:即抽样, 在数据集中抽取样本数据;
(4) 交换方法:记录值之间的交换;
3. 数据挖掘算法
目前数据隐藏技术都是在不同的挖掘算法中进行考虑的, 不同的挖掘算法应用的隐私保护技术不同, 例如:决策树算法、关联规则算法、聚类分析等挖掘算法。
4. 隐私保护的对象
这主要是指对原始数据的隐藏还是对隐含规则的隐藏。通常隐藏规则比伪装原始数据要复杂很多, 有时通过保护敏感的隐含规则, 往往能同时起到保护重要原始数据的目的。
5. 隐私保护技术
指修改数据所采用的技术。主要有以下几种:
(1) 基于启发式的隐私保护技术:仅修改一些特定值, 而非所有数值, 以减少挖掘效果的偏离;
(2) 基于密码学的隐私保护技术:利用密码学方法来对数据进行加密, 典型的是多方安全计算 (SMC) 方法, 参与计算的各方只能获得自己所提供的输入数据以及最终结果, 对其他参与者的数据一无所知;
(3) 基于重构技术的方法:将数据进行变换后, 再对原始分布进行重构。
(三) 数据的分布方式
1. 集中式数据分布
(1) 聚类的隐私保护
该算法主要采用对原始数据进行几何变换, 例如平移、缩放和旋转等方法以实现对数据的保护。
Stanley R.M.Oliveira先后提出通过几何变换和旋转变换 (RBT) 来变换数据的方法。后一种方法解决了前一种方法对维数的限制。
RBT算法首先要将数据视为m行n列的矩阵D, 行数据为数据记录, 列数据表示属性, 并定义一个变换矩阵:
, 随后进行数据规范化, 数据匿名化, 数据变换。其中数据变换主要是以下三步:1、将数据集D的属性任意两两配对, 设为任意一对属性对, 其中Ai和Aj分别表示D的第i列和第j列数据的转置所组成行矩阵。属性个数n为偶数时, 组成n/2对, n为奇数时, 组成对属性对。令, 其中'Ai和'Aj分别表示数据'D第i列和第j列数据的转置所组成的行矩阵;2、预先给定两个均大于0的阈值α1和α2, 求解θ的范围θ1≦θ≦θ2, 使得θ满足D (Ai-'Ai) ≧α1, D (Aj-'Aj) ≧α2;3、θ随机取[θ1, θ2]中的一个值, 重新计算Sij′=R·Sij。依次计算每一对属性值对, 最终得到变换后的数据D′。
此算法是基于旋转变换的等距变换, 因此在变换前后挖掘结果相同。但是因为旋转角度θ旋转范围是根据要求的最低的隐私保护度来确定的, 所以当对隐私保护的要求较高时, 算法有可能无法取得合适的旋转角度。
(2) 分类的隐私保护
Chang Li Wu, Moskowitz I S.提出了吝啬降级法。其中降级是指从敏感级或隐私级降低到可以公布级即低级别。算法通过产生一个称之为参变量基础集的方法来实现数据的降级。用参数θ∈[0, 1]来取代敏感数据。同时对于降级前和降级后的数据值的熵进行计算, 是二者的差值同数据库变化前后置信度的降低程度比较, 从而得出这种对数据库的修改是否是可以接受的, 也即是否对数据库的影响是最小的。
(3) 重构技术
重构技术主要分为数值型数据的重构技术以及二进制数据与分类数据的重构技术。对于数值型数据的重构典型的方法是Rakesh Agrawal的数据离散化方法与值变形方法, 通过添加随机偏移量来修改原始数据, 然后用重构原始数据的分布;对于二进制数据与分类数据的重构技术, Alexandre Evfimievski利用了统一随机化技术对部分数据进行修改的关联规则算法。即将一个交易发送给服务器前, 客户端取走每一个项时将以概率p替换为原先在交易中没有的新项, S.J.Riziv等人利用贝努力概率模型提出了一种成为MASK的算法。其使用的数据库是固定长度的0, 1序列组成的, 算法对所有原始数据按照贝努力概型进行变换, 即设原始数据为X={Xi}, Xi=0或1, 使用变换函数Y=distort (X) , 其中Yi=Xi Xor ri, ri是服从贝努力分布的一个随机变量, 即取1的概率为p, 取0的概率为1-p。但是此算法对数据变换耗费的时间和空间较大。
2. 分布式数据分布
(1) 数据垂直分布
垂直分布数据, 数据是按属性分布在各个站点, 在此条件下可以通过发现项集的支持计数来进行数据挖掘。因此, 如果数据的某个项集的支持计数可以被安全地计算, 则通过检查计数和预先设定的阈值比较, 就可以知道该项集是否是频繁项集。Jaideep Vaidya提出了一种不向对方公布向量的计算标量积的方法。其依据是一个n元线性方程组, 方程组的个数小于n, 那么结果是不确定的。通过这样的方法可以达到保护隐私的目的, 还能保证各方只能得到全局的频繁项集和关联规则。对各站点将其拥有的属性构成一个n维系数矩阵, 通过产生随机的n个数R1, R2, …, Rn, 使之与其拥有的属性线性组合, 通过交换计算结果得到规则。
(2) 数据水平分布
数据水平分布是数据按着记录分布在各个站点, 对其进行隐私保护, 就是要各个站点在不必知道其他站点的具体记录信息的情况下就可以计算出全局的关联规则。针对各参与方既想联合进行数据挖掘又不愿意泄漏各自的信息, 由此产生了半可信第三方, 即遵守事先约定的协议, 合作的多方只向第三方发送和接收数据, 第三方对这些数据进行计算, 并将最终结果传给合作的各方。
(四) 算法的评估
目前还没有一个能针对各种数据集, 各种挖掘算法的有效的隐私保护策略, 当前算法都是针对特定的数据集, 特定的挖掘算法研究设计的, 对于在什么情况下用什么样的算法应该从以下几点考虑:
1. 保密性
方法研究的是对数据挖掘的隐私保护, 首要考虑的是对隐私数据保密的程度。目前的算法中不能保证做到完全保密, 每个算法的保密性都是有限的, 根据不同的保密需要选择不同的隐私保护方法;
2. 挖掘效果
指对隐私数据进行处理后, 数据挖掘的结果是否可用。若经过处理后, 得到的数据挖掘的结果是错误的, 或者不能反映真实的情况, 那么原来的数据失去了价值, 挖掘做了无用功, 相应的隐私保护处理也就失去了意义。因此在考虑保密性的同时, 数据挖掘的结果还要相对准确;
3. 算法复杂度
算法复杂度是衡量所有算法的一个标准, 当然对于隐私保护也不例外。在考虑算法的有用性的基础上也要考虑算法的可行性, 应使算法的复杂度尽可能的低, 这是在设计方法时的一个重要目标。
(五) 结束语
本文从数据分布的角度介绍、分析了数据挖掘隐私保护的几种算法, 每类隐私保护技术都有不同的特点, 在不同的需求下各个技术的应用范围不同, 但是没有一个可以通用的算法, 算法的可扩展性不强, 各个算法的各项性能也不是都很好, 所以接下来寻找通用的算法, 和改进算法的各方面性能是需要进一步研究的。
摘要:随着数据量的增大, 数据挖掘技术应用不断扩大, 如何在挖掘过程中不泄露私有信息或敏感知识, 同时能得到比较准确的挖掘效果, 已经成为数据挖掘研究中的一个热点课题。文章从数据分布的角度结合挖掘算法对目前几种关键的隐私保护方法进行了介绍、分析, 给出算法的评估, 最后分析总结了数据挖掘隐私保护未来的研究方向。
关键词:数据挖掘,隐私保护
参考文献
[1]刘颖.数据挖掘领域的信息安全问题_隐私保护技术浅析[J].计算机安全.2007, 7.
[2]陈晓明, 李军怀, 等.隐私保护数据挖掘算法综述[J].计算机科学.2007, Vol.34No.6.
[3]陈芸, 张伟.隐私保护数据挖掘方法的研究[J].微计算机信息, 2006, Vol.22No.73.
[4]Vassilios S.Verykios, Elisa Bertino, Igor Nai Fovino, Loredana Parasiliti Provenza, Yucel Saygin, Yannis Theodoridis.State of the art in Privacy Presserving Data Mining[A].ACM SIGMO Record[C], March2004, Vol.33, No.1.
大数据安全挑战与隐私保护 篇8
大数据的发展使得监视变得更容易、成本更低廉也更有用处。当我们更多的个人信息被采集和存储下来,大数据的弊端也就显现出来了。大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状。我们将分析它是如何加深对我们隐私的威胁的,同时还将面对一个新的挑战,即运用大数据预测来判断和惩罚人类的潜在行为,我们的隐私和倾向受到很不良的影响。
1 大数据的来源及分析应用
1.1 大数据的来源
网络的应用发展、科学研究的需要、存储器价格的下降和容量的巨大提升、计算机仿真等,使得我们收集到前所未见的庞大数据集[2],大数据的来源主要包括如下几个方面。
1)社交网络:随着社交网络不断发展,更多的数据以图作为基础模型进行表达更为自然,而且这些数据的是极其庞大的。大型和超大型社交网络的处理是手工分析方式无法完成的,在过去的二十年中,社交网络分析领域的快速发展,很大程度得益于计算机计算能力的提升和各种数据挖掘方法的发展。
2)电子商务系统的数据:电子商务用户数量和交易数量随着物流的快速发展都相当惊人。淘宝为了处理这些大规模的数据,自行开发了海量数据库系统ocean base。
1.2 大数据分析应用
为了及时了解数据相应的变化,不断优化和改进,不仅仅要治标而且要治本,使同类的问题不再出现;持续监控和反馈,不断寻找能从最根本上解决问题的最优方案。我们必做的就是深入的分析数据[3],使这些数据更好的被应用。
我们不仅需要通过数据了解现在发生了什么,更需要利用数据对将要发生什么进行预测,以便在行动上做出一些主动的准备(如图1)。例如,通过预测商品的销售量预先采取行动,对商品进行及时的调整。
1)大量的交易历史信息由商业组织积累而成,企业的各级管理人员希望从这些数据中分析出一些模式以便从中发现商业机会,通过趋势分析,甚至预先发现一些正在涌现出来的机会。比如,美国的一位父亲,女儿只有16岁,却收到了孕妇用品商场的促销券。愤怒的父亲找到商场讨公道,没想到女儿真的怀孕了。原因是这家商场建立了一个数据模型,选了25种典型商品的消费数据,构建了怀孕预测指数,能够在很小的误差范围内,预测到顾客的孕情,从而及早抢占市场。
2)图分析和网络分析可用于产品直销、组织和个体行为分析、潜在安全威胁分析等领域[4]。图分析和网络分析规模的增长,从几何角度看,图的节点和边都不断增长。此外,公安机关发现,犯罪分子还通过对获取信息的整合,提高其含金量卖出更高的价格。比如,A从电信服务商获得了一个人的姓名和手机号码,B通过4S店得到了同一个人的姓名和车牌号,C在医院获得了这个人的身份证号和家庭住址,那么通过信息交易或者交换,这个人的完整信息很可能就会彻底暴露给犯罪分子。而这一切,正是大数据所擅长的分析、整合、数据碰撞。
2 大数据引发的安全挑战
科学技术是一把双刃剑,在被称为“大数据”的网络时代的收集和储存能力面前,未来的每一个人,在执意的搜索面前,都无所遁形,大数据所引发的安全问题同样引人注目。
大数据时代,外部数据商挖掘个人信息是不可能被屏蔽的。如今,用户所产生的实时数据均不同程度地被各社交网站开放,数据提供商很方便收集一些数据[5],涌现了一些专门从事监测数据的市场分析机构。市场分析机构之所以能以非常高的精度锁定个人,挖掘出个人信息体系,他们是通过人们在社交网站中写入的信息、智能手机显示的位置信息等多种数据组合得出的。据市场分析机构统计,他们可以识别出95%的用户,仅通过分析4个用户曾经到过的位置点。用户隐私安全问题堪忧,就如前CEO斯科特麦·克尼利(Scott McNealy)说:“你没有隐私,忘记这事吧……”。
全球最大的电子邮件营销公司艾司隆(Epsilon),曾在2011年4月初发生了史上最严重的黑客入侵事件,引发许多主要的企业客户名单以及电子邮件地址因此外泄,这些受害企业包括了摩根大通、第一资本集团、万豪饭店、美国银行、花旗银行及电视购物网络等。
大数据对个人信息获取渠道拓宽需求引发的另一个重要问题:安全、隐私和便利性之间的冲突。消费者受惠于海量数据:更低的价格、更符合消费者需要的商品、以及从改善健康状况到社会互动顺畅等生活质量的提高。“棱镜门”事件爆发后,尴尬的奥巴马辩解道:“你不能在拥有100%安全情况下,同时拥有100%隐私和100%便利。”。总统先生说出这样的话,说明目前我们对大数据引发的安全挑战还没有效的遏阻。
3 大数据的隐私保护方法
随着世界开始迈向大数据时代,社会也将经历类似的地壳运动。我们想要保护隐私[6],就需要数据处理对政策和我们的行为承担更多的责任。下面是大数据稳私保护的几种方法。图2为大数据隐私保护方法结构图。
3.1 隐私保护方法之一——个人许可到让数据使用都承担责任
未来的隐私保护法应当区分用途,包括不需要或者只需要适当标准化保护的用途。对于一些危险性较大的项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或者减轻潜在伤害。这将激发数据的创新性再利用[1],同时也确保个人免受无妄之灾。例如,一家公司出售了一项以驾驶员坐姿为特定识别符的汽车防盗技术。然后,它对收集到的信息进行了分析,预测驾驶员的注意力状态(如昏昏欲睡、醉酒以及生气),以此向周围其他驾驶员发出警报以防发生交通事故主。根据目前的隐私规范,他可能需要新一轮的告知与许可,因为这样使用信息是未经驾驶员授权的。但是如今,在数据使用者的责任承担体系下,他们就会评估预期用途的危险性。如果发现危害性很小,他们就可以着手实施预定计划并实现提高驾驶安全性的目标。
将责任从民众转移到数据使用者很有意义,也存在充分的理由,因为数据使用者比任何人都明白他们想要如何利用数据。他们的评估(或者由他们所雇用的专家制定的评估)避免了商业机密的泄露。也许更为重要的是,数据使用者是数据二级应用的最大受益者,所以理所当然应该让他们对自己的行为负责。
3.2 隐私保护方法之二——个人动因和预测分析
大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志[7]。简单地说,就是个人可以并应该为他们的行为而非倾向负责。在大数据时代之前,这是明显而基本的自由权利。毕竟,我们的法律体系就是这样规定的:通过评判人们过去的行为使之为其行为承担责任。然而,有了大数据,我们就能预测人的行为,有时还能十分准确。这诱使我们依据预测的行为而非实际行为对人们进行评定。
通过保证个人动因,我们可以确保政府对我们行为的评判是基于真实行为而非单纯依靠大数据分析。从而,政府只能依法对我们过去的真实行为进行追究,而不可以追究大数据预测到的我们的未来行为;或者,在政府评判我们过去的行为时,也应该防止单纯依赖大数据的分析。例如,在对两家涉嫌操纵价格的公司进行调查时,我们完全可以借助大数据分析先作出大概判定,然后监管机构再以传统手段立案和进行调查。不过,当然不能只因为大数据分析预测它们可能犯罪,就判定其有罪。
大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判,而不是借助“客观”数据处理去决定他们是否违法。只有这样,我们才是把其当作人来对待——当作有行为选择自由和通过自主行为被评判的人。这是从大数据推论到今天的无罪推定原则。
3.3 隐私保护方法之三——击碎黑盒子,大数据算法师倔起
日前,计算机系统做出决策的方式是基于程序明确设定所需遵循的规则。这样,如果它们的决策出错(这是不可避免的),我们就可以回过头来找出计算机做出错误决策的原因。“为什么外部感应器遭遇空气湿度激增的情况时,智能飞行系统使飞机以5度的角度上升?”等。现在的计算机编码能被解码、检查,并且可以解读其决策依据——无论多么复杂,至少对于懂得如何解码的人不存在问题。
然而。有了大数据分析,这种追踪会变得愈发困难。对人们而言,进行预测分析的计算机系统往往过于复杂,根本无法理解。但当计算机按程序设置明确执行一系列指令时,情况就不一样了。例如1954年早期,在IBM将俄文译成英文的翻译程序中,人们就能轻松理解一个单词译成另一个单词的原因。但是,对于谷歌利用几十亿页的翻译数据开发出的翻译系统,当其将英文单词“light”译成“光”而不是“重量轻”时,就不可能清楚地解释如此选择的原因,毕竟这个预测分析是基于海量数据和庞大的统计计算之上的。在这些背景下,我们能看到大数据预测、运算法则和数据库有变为黑盒子不透明、不可解释、不可追踪,因而我们对其信心全无。为了防止这些情况的出现,大数据将需要被监测并保持透明度,当然还有使这两项得以实现的新型专业技术和机构。它们将为许多领域提供支持,在这些领域里社会需要检测预测结果并能够为被其错误引导的我们提供弥补方法。
大数据将要求一个新的人群来扮演这种角色,也许他们会被称作“算法师”。他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师,即外部算法师和内部算法师!
3.4 隐私保护方法之四——反数据垄断大享
数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场,这些创新就实现不了。随着我们管理上的转变[1],我们相信,大数据的不利影响将会得到控制。然则,随着尚未成熟的大数据产业的不断发展,另一个重要的挑战将会是如何保护极具竞争力的大数据市场。我们必须防止21世纪数据大享的崛起,它相当于19世纪强盗大享的现代翻版,那些强盗大享曾垄断了美国的铁路、钢铁生产和电报网络。
为了管理这些新兴行业,美国制定了适应性很强的反垄断条例。
最初是在19世纪为铁路行业制定的,后来又被应用到了掌管商业信息的其他公司,从20世纪最初十年的国家收银机公司(National Cash Register),到20世纪60年代的IBM、70年代的施乐公司、80年代的AT&T、90年代的微软和今天的谷歌。这些公司所开辟的技术成了经济结构中“信息基础设施”的核心组成部分,所以为了防止它们垄断,法律的支持必不可少。
反垄断法遏制了权力的滥用。然而令人惊奇的是,这些条例能从一个领域完美转移到另外一个领域,并且适用于不同类型的网络产业。这种不带任何偏袒的强有力的规章非常实用,因为它提供的是一个平等的竞争平台,一开始便没有任何优劣之分。因此,为了促进大数据平台上的良性竞争,政府必须运用反垄断条例。而且,就像世界上一些大型的数据拥有者那样,政府也应该公布其数据。
4 结束语
大数据也和其他领域的新技术一样,给我们带来了的安全与隐私问题。另外,它们也不断对我们管理计算机的方法提出挑战。正如印刷机的发明引发了社会自我管理的变革,大数据也是如此。它迫使我们借助新方法来应对长期存在的安全与隐私挑战,并且通过借鉴基本原理对新的隐患进行应对。我们在不断推进科学技术进步的同时,也应确保我们自身的安全。
摘要:当下,全球数据资源呈现爆发式和多样化的急剧增长,催生了大数据(Big Data)。大数据引发的个人信息安全已全面爆发,产生的威胁、侵害和影响,已经远超越我们的范畴,信息安全与隐私泄露给我们带来了严重的困扰。该文分析了大数据带来的安全挑战及隐私保护所面临的关键方法,并指出大数据在引入安全问题的同时,也是解决隐私安全问题的有效手段。
关键词:大数据,安全,隐私,保护
参考文献
[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.
[2]周傲英.数据密集型计算-数据管理技术面临的挑战[J].中国计算机学会通讯,2009,5(7):50-53.
[3]覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与Ma-p Reduce的竟争与共生[J].软件学报,2012,23(1)32-45.
[4]林子雨,赖永炫,林琛,等.云数据库研究[J].软件学报,2012,23(5):1148-1166.
[5]王意洁,孙伟东,周松,等.云计算环境下的分布存储关键技术[J].软件学报,2012,23(4):962-986.
[6]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):50-57.
浅析大数据安全与隐私保护技术 篇9
关键词:大数据,安全,隐私保护
随着社会信息化和网络化的发展, 逐渐开始进入大数据时代。在大数据时代下, 信息和数据的分析处理都会变得比以前更加繁杂, 管理起来也更加麻烦。目前的大数据发展仍旧面临着众多问题, 最受大众关注的就是安全与隐私问题。随着互联网的发展, 人们的一举一动都会在商家那里进行记录, 例如购物习惯、好友联络情况等等。根据相关的调查报告发现, 即使泄露的数据是无害的, 也会对客户造成一定程度上的损害。因此, 如何保护用户的隐私, 是大数据在安全方面应当首先注重的问题。
1 大数据概念
1.1 大数据来源和特征
大数据所指的是具有庞大规模, 并且较为复杂, 难以使用现有数据管理工具或数据处理技术进行处理的数据集。因此, 大数据通常具备大规模、高速性和多样性的特点。根据大数据的来源不同, 可以分为人、机、物3类。
人指的是人们在互联网中活动以及使用互联网时所产生的各类数据, 数据类型包括文字、图片、视频等;机指的是各类计算机系统所产生的数据, 大多数是通过文件、数据库、多媒体等形式存在, 还有审计、日志等自动生成的数据;物指的是各类科技设备所收集的数据, 例如摄像头的数字信号。
1.2 大数据分析目标
根据目前我国的使用情况, 大数据已经在科学、医药、商业等各个领域开始广泛应用, 在用途方面也各有区别, 具体可以分为3类:获得知识与推测趋势、分析掌握个性化特征、辨识真相。
在进行数据分析之前, 首先要获得大量的知识, 并利用知识进行分析。在大数据中有着大量的原始信息, 这些信息具备一定的真实性。通过大数据进行分析, 能够避免数据中所产生的误差, 挖掘出更深层次的规律, 通过这些规律, 可以对自然或社会现象进行预测。
个体活动除了能够反映出群体特征之外, 还有着鲜明的个性化特征。这些特征各不相同, 企业通过长时间、多方面的数据积累, 能够对用户的行为进行分析。基于用户的需求, 更好的为用户提供个性化的产品和服务。
错误的信息在数据中没有任何意义, 甚至会带来负面影响。网络中信息的传播较为便利, 所以一旦出现网络虚假信息, 则会带来极大的危害。例如在2013年4月24日, 美联社的Twitter账号被非法盗取, 并发布了总统奥巴马受到恐怖袭击的虚假消息, 即使消息在短时间内被控制, 但是美国股市仍受到虚假信息的影响, 引发了短暂的跳水。大数据的来源渠道较为广泛, 信息多样化, 通过大数据可以在一定程度上辨别信息的真伪。目前人们已经开始通过大数据对信息的真伪进行分析, 确保数据的准确性[1]。
2 大数据带来的安全挑战
2.1 大数据中的隐私保护
根据调查表明, 当大数据处理不当时, 会对用户的隐私造成极大的损害。根据所需保护内容的不同, 可以分为位置隐私保护、标识符匿名保护、连接关系匿名保护等等。大数据对面临的安全挑战除了个人隐私的泄露之外, 还有对人们状态和行为的预测。通过客户的数据记录, 能够发现用户的政治观点、消费习惯等等。
很多企业认为通过匿名处理, 当去除了用户信息的标识符后, 便可以进行信息的公开发布。但即使通过匿名信息, 也有一定的规律可循, 通过数据中的某些信息, 可以精确的定位到个人。目前在用户数据的收集、存储、管理和使用上都没有相应的规范制度, 监督制度也不够完善, 基本上需要通过企业的自律对大数据进行管理, 而用户则难以对自身隐私信息的使用情况进行了解。在商业化应用中, 用户应当有权利决定如何处理自己的信息, 让用户可以对自身的隐私进行控制保护。
2.2 大数据的可信性
在大多数的观点中, 都认为大数据可以说明事物的规律, 数据本身就是事实。但在实际操作中, 如果不对数据进行精确的分析和整理, 数据也会有欺骗性。数据可信性的威胁之一是伪造的数据, 一旦数据出现错误, 则会导致错误的结论。一旦数据的应用场景明确, 则有可能会有人根据场景特点刻意制造数据, 使分析者得出错误的结论。大部分伪造的信息都掺杂在大量的信息中, 导致难以对信息的真伪进行鉴别, 从而导致最后的错误结论。由于网络的散播性较强, 虚假信息的转播也越来越容易, 速度越来越快, 会产生严重的后果, 而通过信息安全手段对所有的信息进行检验的可行性也较小。
大数据可信性威胁的另一方面是数据在传播的过程中会逐步失真。其中一个原因是进行人工数据采集时, 可能会有误差的出现, 由于在进行数据收集时产生了失真和偏差, 影响到了最后结果的准确性。另一方面, 造成数据失真的原因还有可能是版本变更。在数据传播的过程中, 实际情况已经有了一定的改变, 原本收集到的数据难以表现出实时信息。
基于此, 在使用大数据之前首先要保证数据来源的真实性, 并对数据的传播过程、加工处理过程进行严格控制, 提高数据的可信性, 避免因数据错误导致的错误结果[2]。
3 大数据安全与隐私保护技术
3.1 数据溯源技术
在此之前, 数据溯源技术的应用仅仅在数据库的领域之中, 随着科学技术的不断发展, 在大数据的安全与隐私保护中也开始应用这项技术。数据溯源技术中最基本的就是标记法, 其作用主要是对数据的来源和数据的计算方法进行记录。通过对来源数据进行标记, 不仅能够对最后的分析结论进行检验, 还能够让分析者在最短的时间内对信息的真实程度进行判定。另一方面, 在文件的恢复过程中, 数据溯源技术也可以得到良好的应用。
3.2 数据水印技术
数据水印技术是在既不影响数据使用, 也不影响数据内容的情况下, 将标识信息通过一些较为隐秘的方式嵌入到数据载体中。这种技术一般都是应用在媒体版权保护上, 在文本文件和数据库上也有一定的应用。但是在多媒体载体上和在文本文档以及数据库上的应用有较大区别。在数据水印技术的分类上, 可以分为强健水印类和脆弱水印类。强健水印类的应用基本上在数据起源的证明上, 能够对创作权等进行有效的保护。而脆弱水印类大多应用于数据真实性的证明。随着目前大数据的发展, 数据水印技术还需要不断的进行完善。
3.3 身份认证技术
身份认证技术指的是通过用户以及所使用设备的行为数据的收集和分析来获得行为特征, 并通过这些特征对用户以及所用的设备进行验证, 并确认身份。在身份认证技术的发展上, 将大大降低被恶意入侵攻击的可能性。不仅减轻了用户的负担, 也统一了多种系统之间的认证机制。
3.4 数据发布匿名保护技术
根据结构化数据的分析, 数据发布匿名保护技术在数据安全与隐私的保护过程中占有重要地位。根据目前的研究状况, 此技术还有待完善, 需要不断的进行深入研究。在目前的数据发布匿名保护技术的理论中, 大部分的背景环境都是在静态的、一次性的对数据进行发布。但是这样的方式有着一定的局限性, 一些特殊的属性难以被检测出来。而且在实际的过程中, 数据的发布往往是多次连续的。在如此复杂的大数据环境下, 想要将数据发布匿名保护技术进行应用, 会面临着一定的困难。在攻击者的角度, 可以根据不同的途径和不同的发布点来获取信息, 从而窃取到用户的信息。因此在这一方面, 相关的研究人员应当投入更多的精力对数据发布匿名保护技术进行研究, 提高其安全性。
3.5 社交网络匿名保护技术
社交网络所产生出的数据是大数据的重要来源之一, 这些数据中包含着用户的大量隐私信息。在社交网络匿名保护技术中, 攻击者可能会通过其他的信息对匿名用户的身份进行确定, 尤其是对于用户之间是否有联系关系的判断。由于社交网络具备聚集特性, 因此会对关系预测造成一定的影响[3]。
4 结语
大数据不仅为人们的生产生活带来了便利, 另一方面, 大数据环境也带来了一定的安全挑战。随着时代的发展, 人们越来越意识到隐私信息的重要性, 逐渐将信息安全放在首位。但根据目前的发展状况而言, 还有很长的道路要走。想要做到真正意义上的数据安全, 必须要对大数据环境中的漏洞进行分析, 针对性的进行安全与隐私保护技术的发展。通过数据溯源技术、数据水印技术、身份认证技术、数据发布匿名保护技术、社交网络匿名保护技术等进行深入研究。除此之外, 还要建立相应的法律法规, 对大数据环境进行全面保护。
参考文献
[1]冯登国, 张敏, 李昊.大数据安全与隐私保护[J].计算机学报, 2014 (1) :246-258.
[2]应钦.大数据安全与隐私保护技术探究[J].硅谷, 2014 (10) :72, 52.
小议大数据时代的安全隐私保护 篇10
1.1 大数据的相关介绍
大数据 (big data) 是近几年来新兴的概念之一, 主要指的是某些大量的以及非结构化的数据, 随着近些年来迅猛发展的传感技术、社会网络以及移动设备等多方面因素, 使得目前的数据量是大规模的迅速增长, 并且相应的数据类型以及之间的关系也变得越来越复杂化和多样化, 根据IBM的统计, 现在世界上每天大约产生250亿亿字节的数据。也就是说现在的大数据是相当庞大且迅速发展的, 加之广泛的来源以及多样的种类, 与传统的数据相比, 必须要不断去在众多的数据中挖掘出有价值的信息, 同时, 又要在急剧增加的数据量当中, 对现有存在的数据进行有效的技术处理。
1.2 大数据的来源及特征
我们说大数据是相当复杂和规模庞大的, 因此大数据一般来说具有大规模 (Volume) 、高速性 (Velocity) 和多样性 (Variety) 这几个特点, 对于大数据的来源其中一种自然是来自于人, 也就是我们用户, 当我们在通过互联网进行各类数据处理的时候会产生的数据, 在一种是来自于计算机、移动设备等信息存储而产生的数据, 比如日志和文件等的自动生成, 还有一种就是来源于各类数字设备所采集到的数据, 比如医疗领域的各项体征和科学领域的大量数据等。
1.3 大数据的技术框架
大数据的处理主要涉及到对数据的采集、管理、分析与展示等。首先要同数据进行采集和预处理, 进而通过大数据应用的核心流程就进行数据分析, 不同的层次可以分为计算架构、查询以及数据分析和处理, 之后对数据解释, 主要是能更好的让数据分析的结果被用户所使用, 主要是可视化和人机交互的技术。除此之外, 还要考虑到数据为中心的整个处理过程, 要对大数据的应用有虚拟机集群的优化研究。
2 大数据的安全隐私保护
事实上, 我们说的大数据的隐私保护问题并不是通常意义上的隐私, 本质上来说, 更应该是一种数据的隐私保护问题, 这些数据的隐私通常是指这些数据的拥有者所拥有的信息不愿意被披露或者数据所表征的特性。因此我们在大数据的完整生命周期内, 一定要保护隐私的敏感数据不被泄露, 目前来说, 大数据的存储、计算等都有可能使得隐私存在安全隐患。在大数据的安全隐私保护中有许多的关键技术起着至关重要的保护作用。
2.1 数据发布匿名保护技术
在大数据时代, 数据的发布匿名保护仍然是实现隐私保护的核心关键技术与手段, 并且要不断的发展与完善。在大数据的发布匿名保护问题是尤其复杂的。攻击者可以从不同的渠道去获取数据, 而并非同一发布来源, 例如在Netflix应用中, 人们发现攻击者可通过将数据与公开可获imdb相对比, 从而识别出目标在Netflix的账号。
2.2 社交网络匿名保护技术
在高速发展的信息时代, 社交网络已经成为了大数据的重要来源, 带来便捷的同时, 也带来了隐私的安全隐患, 正是由于社交网络的有图结构特征, 使得匿名保护技术与结构化数据有明显的区别。社交网络的匿名保护需求主要是为用户的匿名与属性匿名进行标识, 当数据发布时隐藏相应的属性信息, 也要隐藏用户之间的关系, 但是攻击者往往是利用各种节点的属性来识别节点中的身份信息。因而, 在未来的匿名保护技术中要重点考虑到供给者公开的信息以及用户之间关系的连接, 社交网络的集聚特性对于关系预测方法的准确性具有重要影响, 社交网络局部连接密度增长, 集聚系数增大, 则连接预测算法的准确性进一步增强。因此, 未来的匿名保护技术应可以有效抵抗此类推测攻击。
2.3 数据水印技术
数字水印是指将标识信息以难以察觉的方式嵌入在数据载体内部且不影响其使用的方法, 多见于多媒体数据版权保护。也有部分针对数据库和文本文件的水印方案。数据是无序性且动态的, 因而在数据库和文档中添加水印的方法很多也各不相同。文件的水印可以分为基于文档结构的微调水印, 基于文本内容的水印, 以及基于自然语言的水印等。针对大数据的高速发展与产生, 更要考虑到特性的不足, 要不断的提高水印的技术。
2.4 数据溯源技术
随着物联网技术的不断推广与发展, 数据集成之后就要记录数据的来源以及传播和计算的过程, 这样才有利于后期的挖掘以及决策奠定基础。数据溯源 (Data Provenance) 技术在很早以前就有应用, 并且在很多领域得到了应用, 溯源的基本方法就是标记, 对数据进行标记。在数据仓库中进行查询和传播, 同时, 数据溯源也可以应用到文件的溯源与恢复中, 溯源技术在未来一定会在信息安全的领域发挥出更大的作用, 对于大数据的安全隐私保护起到至关重要的保护作用。
除了以上的这些关键技术, 还有如角色挖掘技术, 通过基于角色的访问控制 (RBAC) 也是当前广泛使用的访问控制模型, 用户指派角色对用户进行授权, 来解决问题, 还有如风险自适应的访问控制等。
3 结语
总之, 大数据时代在改变着人们的生活, 同时也带来了一些挑战, 其中个人隐私的保护问题便是最大的挑战之一。信息时代的我们, 只要使用网络, 就会存在着个人隐私不被保护的风险, 除了个人用户之外, 企业等信息发布也会有隐私的泄露, 因而, 我们要在大数据时代带来便捷的同时, 最大范围的产生使用效用, 同时, 也要最小化关于隐私的泄露。当然, 这是一段复杂而漫长的过程, 仍需要众多学者不断的深入研究!
参考文献
[1]冯登国, 张敏, 李昊.大数据安全与隐私保护[J].计算机学报, 2014 (1) :246-247.
[2]刘雅辉, 张铁赢, 靳小龙, 程学旗.大数据时代的个人隐私保护[J].计算机研究与发展, 2015 (1) :231.
StoreOnce简化数据保护 篇11
为此,惠普推出了全新备份、恢复与归档解决方案StoreOnce备份系列产品,以帮助用户保护其日益增长的数据,并简化数据管理。据介绍,StoreOnce同时支持横向扩展和纵向扩展的体系架构,用户可以通过选择StoreOnce VSA软件定义备份解决方案或小型StoreOnce设备起步,之后可根据需要随时添加容量或节点。StoreOnce有多种不同型号选择,分别面向企业数据中心、中型数据中心,以及小型和远程办公室,满足不同用户的需求。StoreOnce另一个重要的特点是采用重复数据删除技术即可在整个企业中进行联合重复数据删除,可以选择在应用端、备份服务器端和目标端进行重复数据删除。
惠普存储负责人介绍说,StoreOnce对于企业来说,其价值主要在于降低成本、减少风险和增加灵活性。降低成本表现在三方面:通过自动备份和灾难恢复,减少对IT维护人员的需求;消除远程站点对磁带的需求,同时消除了对磁带保存环境的苛刻要求;降低远程分支机构的备份对带宽的需求。据介绍,某省交警的视频监控系统采用StoreOnce后,使备份速度比之前快6倍,需要备份的容量减少50%,从而节省了存储成本,IT人员也比之前多了2.5倍的时间。
浅谈大数据时代的隐私保护策略 篇12
大数据引发的个人隐私安全、企业信息安全乃至国家安全问题
(一) 大数据引发个人隐私安全问题
在大数据时代, 个人信息正以超乎想象的速度被采集, 避免外部数据采集者对个人隐私信息进行分析处理是不可能的。目前, 即使采用了匿名化的信息采集方式, 通过对个人信息、位置信息、操作信息等多种数据组合分析, 每个人的行为痕迹能够被完全显现出来。 “棱镜门”事件爆发后, 尴尬的奥巴马辩解道:“你不能在拥有100%安全的情况下, 同时拥有100% 隐私和100% 便利。”
(二) 企业迈进大数据时代, 信息安全面临多重挑战
近年来, 电子邮件营销公司、财团, 酒店、银行、网络公司等数据拥有量大的企业都因为信息泄露而遭受过重大损失。
大数据来袭, 众多企业不仅要学习如何挖掘自身企业内部的数据价值, 还应该根据自身业务发展布局数据采集、分析、使用, 使数据的价值最大化。同时还要统筹安全部署, 考虑如何应对网络攻击、数据泄露等安全风险, 并且建立相关预案。当企业用数据挖掘技术获取独特的商业价值时, 黑客也利用大数据分析技术获取自身所需的信息。正如Gartner论断的那样:“大数据安全是一场必要的斗争”。
(三) 国家安全将受到信息战与网络恐怖主义的威胁加大
大数据也将为网络恐怖主义提供新的资源支持。大数据挖掘技术能够从很多看似不相关的数据源中挖掘出更多的国家机密信息, 这也吸引了网络恐怖主义组织的注意力。
在机械化战争时代, 世界各国所面对的是刀枪大炮的攻击。而在信息时代, 安全环境发生了质的变化。不管是战争时期还是和平年代, 信息已经作为一国最重要的战略资源而成为了首要的被打击目标, 特别是在和平年代, 全球性的经济活动使得各个国家在石油和天然气、水、电、交通、金融、商业和军事等方面都高度融合并依赖信息网络, 也就更加容易遭受来自网络的攻击。同时保护他们免受攻击已超出了军事职权和能力的范围, 需要从国家角度出发来面对这些问题。
大数据时代的隐私保护策略
针对大数据时代所带来的隐私保护安全问题隐患, 单纯从提升技术水平的角度出发已经不能解决根本问题, 还应该从法律法规、行业规范以及国家安全等方面入手。
(一) 技术为先
目前主要的数据隐私保护技术有:访问控制、数据加密、数据匿名、数据映射等。在大数据时代, 即使数据经过严密的匿名化去除了用户信息的标识符, 但通过对多个数据库的挖掘, 仍然可以精确定位到个人。因此大数据时代的隐私保护技术除了数据发布匿名保护技术以及社交网络匿名保护技术以外还有数据溯源技术、数据水印技术、身份认证技术。这些隐私保护技术贯穿大数据生存的采集、分析、使用三个阶段。技术是一把双刃剑, 最重要的是看它被握在谁的手中。隐私保护与数据挖掘也是如此, 随着数据挖掘技术的进步, 对应的隐私保护技术也应得到学术界、企业界的高度重视。建立数据采集、数据分析、数据应用过程的统一的数据保护体系能够最大限度地保护隐私信息。
(二) 法律先行
隐私保护需要多方入手, 让数据拥有者不仅仅能够在数据产生、分析、使用过程中提高隐私保护意识, 还能够在隐私泄露后的追偿能够有依据, 因此立法保护个人隐私成为必然。一些国家政府纷纷立法保护公众隐私。美国是制定于此相关法律法规较早的国家, 大多数欧盟国家队个人隐私保持谨慎的态度, 制定了严格的法律, 限制企业在进行商务活动时采集、买卖和利用个人信息。
大数据时代的隐私保护出现了新的特点, 谁拥有大数据, 谁掌控大数据, 大数据的生命周期到底有多长, 如何使用大数据是最需要回答的问题, 这也是隐私保护立法需要解决的问题。我国目前对于个人隐私保护的法律制度还不够完善, 在电子商务、电子银行、身份认证等方面还处于初级阶段。但仍然没有一部专门针对个人隐私的法律。
大数据时代的隐私保护立法不仅仅需要专业法律人员的参与, 还需要听取大数据技术人员的建议, 能够从技术角度解决的问题就从技术角度出发, 同时还需要加强监管, 尤其是对大数据拥有企业的监管, 需要企业在数据使用过程中避免二次挖掘等不依赖数据拥有者的情况。
(三) 标准主导
对企业来说, 大数据时代的隐私保护不仅仅是指保护所采集数据本身, 还包括企业自身生产经营过程中所产生的隐私信息。自觉维护行业规则以及软件开发规则, 不采集分析不需要的各类信息, 不随意发布用户授权的各类数据是所有企业都应遵循的行业标准。
在大数据时代, 收集用户信息的目的是为了给用户提供个性化服务。但是由于缺乏统一的行业规范, 当前的信息采集仅仅在安装应用时在技术层面上告诉用户所需要的权限, 并没有告诉用户什么时候会访问个人信息、访问了个人信息、什么时候上传信息、上传时是否会对用户进行提醒等。
我国大数据行业标准规范现在已经开始进入发布阶段。2015 年11 月6 日, 贵阳市人民政府、中国标准化研究院、中国投资协会、中国新兴产业大数据信用服务中心、金电联行 (北京) 信息技术有限公司, 清华大学数据科学研究院和德勤华永会计师事务所在北京共同签署《大数据标准化五方合作框架协议》。这是自2015 年9 月5日国务院印发《促进大数据发展行动纲要》以来, 大数据行业的标准首次建立。
(四) 国家安全, 打防结合
个人、法人等对隐私保护的需求在很大程度上还只是对于信息的保护, 而国家政府对数据安全的需求在很大程度上决定这个国家政府在未来的几十年内是否能够拥有全新的经济增长点以及最强的国家战略防御能力。未来我国的国家信息安全战略, 不仅要对传统信息安全中的短板问题进行解决, 还更应该与时俱进, 将大数据列为重要着力点, 加强顶层设计和政策引导。
我国开始了利用大数据进行反恐的行动。“天网监控系统”是利用设置在大街小巷的大量摄像头组成了监控网络, 是公安机关打击街面犯罪的一项法宝。在恐怖事件发生之前, 通过对历史上恐怖事件的发生规律, 判断大概在什么时间、什么场合需要特别警戒。在恐怖事件发生之后, 通过对可疑人员、可疑账号、可疑组织的监控追踪, 快速抓捕恐怖分子。
结语
总之, 隐私保护在大数据时代是必不可少的, 需要拿出切实可行的法律、技术、管理措施, 并严格遵照执行。同时, 广大民众以及企业法人也应该养成保护个人隐私信息的意识和习惯, 用技术和法律的手段捍卫自己的合法权益。