隐私数据保护技术

2024-06-17

隐私数据保护技术(共11篇)

隐私数据保护技术 篇1

众所周知,当今社会已然进入了大数据时代,这种大数据的发展和推广应用确实在很多领域都表现出了理想的价值,并且这种大数据还和社会中的很多人存在着密切的联系,人们普遍或多或少的会受到大数据的影响。但是在大数据的应用过程中,相关数据信息的隐私性却需要引起足够的关注,如果大数据信息安全性遭到侵害,造成数据信息泄露的话,相应的数据隐私也就会带来较大的隐患,因此,基于大数据应用中的隐私保护技术进行深入研究和探索,切实提升大数据隐私保护效果也就显得极为必要。

1 大数据及其隐私保护概述

1.1 大数据概述

大数据其实也就是指数据集包括超大的容量,涉及到的数据信息内容较为繁杂,能够提供的参考内容和价值也较大,并且针对这些数据信息进行分析和处理也就难以采用传统方式进行,需要应用先进的数据分析和统计系统软件进行操作。基于大数据的应用来说,其具备以下四个方面的基本特点:

1.1.1 规模较大

主要就是指大数据集中涉及到了较多的数据信息内容,这种体量大的特点也是大数据最为基本的一个表现;

1.1.2 多样性明显

大数据集中涉及到的数据信息还存在着明显的种类繁杂性特点,这种繁杂的种类也就表明大数据能够提供更多的参考价值;

1.1.3 高效性

主要就是指在针对大数据进行应用处理过程中表现出了明显的速度快特点,其能够满足于当前社会各方面对于这种数据处理的基本要求;

1.1.4 真实性高

对于大数据集的应用和分析来说,还需要切实保障其具备理想的真实性和可靠性,只有数据是真实的,才能够体现出相应的价值效果。从当前大数据的应用中来看,其在很多方面都得到了有效地应用,尤其是对于数据信息的多层次、全方位的处理分析来说,更是能够表现出多种应用效果,也能够为相关行业的进步提供支持,对于企业的发展来说同样具备着较强的价值和意义。

1.2 隐私保护

在大数据应用和推广过程中,密切关注隐私保护是比较重要的一个环节,但是对于这种隐私保护工作来说,其执行的复杂性和困难程度还是比较高的,因为大数据技术的应用主要就是为了充分挖掘相应的数据信息来促使其为人们提供较为全面的参考,保障大数据集应用的价值最大化;但是在这种数据挖掘过程中,数据隐私保护也就受到了一定的影响,很难做到两者间的平衡处理,这也就成为了当前大数据应用中需要解决的一个难点问题。从现阶段的具体应用过程中来说,数据挖掘中确保数据满足于隐私保护的要求又是比较基本的一个方面,因此,相应的隐私保护工作也就需要在大数据中得到较好的执行。基于此,当前国内外相关机构对于这种大数据隐私保护工作进行了深入的研究和探索,但是从取得的效果上来看,还是处于起步阶段,很多工作并没有得到较好的处理,也存在着很多的缺陷和问题,但是同时也得到了一定的成效,尤其是从具体的技术层面来看,很多隐私保护技术的应用也发挥出了一定的效果,提升了大数据技术的应用实效性。

2 大数据隐私保护技术应用

2.1 基于数据失真的隐私保护技术

对于大数据应用中的隐私保护技术应用来说,数据失真技术的应用能够表现出理想的应用效果,其主要就是针对具体的数据集进行扰动处理,进而也就能够将原始数据进行相应的改变,导致攻击者难以获取原始数据信息,保障数据集的安全性。基于这种数据失真隐私保护技术的应用进行分析可以发现,该技术的应用要求是比较高的,首先对于大数据应用人员来说,必须要促使扰动后的数据仍然具备着相应的信息保留效果,能够通过这些数据的分析和处理获取相应的目的,即保障大数据技术的应用依然具备着可行性,能够发挥出相应的作用和价值;而对于攻击人员来说,则需要通过扰动避免其通过大数据集来获取各种信息,尤其是要避免其通过失真后的数据恢复成原始数据,这也是隐私保护的基本要求所在。由此可见,这种基于数据失真的隐私保护技术需要从扰动处理入手进行重点探究,促使其能够表现出最佳的应用价值。

2.2 基于数据加密的隐私保护技术

对于大数据应用中涉及到的隐私保护处理来说,做好加密工作也是比较常见的一种手段,针对这种数据加密技术进行的研究也是比较多的,尤其是对于数据传递中的通讯工作来说,更是需要切实高效地执行加密处理。从这一方面来看,这种数据加密隐私保护技术主要就是针对于分布式结构进行推广应用,尤其是对于分布式数据挖掘、几何计算以及安全查询等操作来说,这种加密处理更是必不可少的。在现阶段的数据加密处理工作中,其存在的加密手段也是比较多的,相对应的各种数据加密软件也是层出不穷,基于这种加密方式的处理必须要结合大数据应用的基本特点和要求进行系统全面的分析,确保其能够满足于大数据应用的各方面需求,避免其影响到大数据技术的应用价值。当然,对于这种加密处理工作来说,首先还是需要重点从加密的可靠性入手进行评判,确保任何加密软件的应用都能够在适合于自身数据传递和应用的基础上,提升其安全水平,避免在该加密应用过程中出现轻易被破解的问题,进而也就能够有效提升这种加密技术应用的实际价值。

2.3 基于限制发布的隐私保护技术

对于大数据应用过程中存在的各种安全隐患和问题来说,其对于隐私保护造成威胁的主要途径还涉及到了原始数据的外泄,这也就要求人们应该针对大数据集的发布进行严格的控制和审查,避免出现关键信息内容的发布,把好发布关也就能够为隐私保护打好基础。具体到相应的数据信息发布限制中来看,其主要就是结合数据信息内容的特点进行分类,分析哪些数据可以被公布,哪些数据涉及到了隐私内容,需要进行保护,禁止发布,进而也就能够起到隐私保护效果。在当前的具体研究中,该方面的技术手段应用最为典型的体现就是数据匿名化,这种匿名化处理不仅仅是指针对数据信息的涉及人员姓名进行隐匿,对于一些关键数据和敏感数据同样需要进行隐匿处理,这也就需要人们针对具体的数据信息进行全面了解,研究其发布后可能造成的威胁和安全影响,进而将这些安全隐患扼杀。针对这种基于限制发布的隐私保护技术手段来说,还需要促使其能够较好结合相应的权限优化配置进行处理,促使不同的管理权限人员具备不同的数据获取内容,这一点在相应的数据发布中也应该得到相应的体现,即针对不同类型和级别的人群发布不同的信息,促使其能够在保障自身正常工作的基础上,避免影响到数据的安全性和隐私性,这同样考验着相关数据分析和管理人员的处理能力。

2.4 基于身份认证的隐私保护技术

在大数据的应用过程中,做好隐私保护工作还可以从参与者的角度进行控制和安全防护,这种安全防护手段主要就是身份认证处理,即给予参与者不同的大数据应用权限,促使其在数据信息的获取的内容上存在明显的差异性,如此也就能够较好提升其数据信息的被保护效果。这种身份认证的应用必须要通过设计恰当的验证结构和程序进行处理,构建恰当合理的身份认证程序和机制,针对不同人员进行有效区分,避免低等级权限的人员获得不应获取的信息,并且还应该针对黑客攻击进行有效地防护,避免其轻易被黑客破坏掉这种身份认证程序,这也是基于安全性考虑的一个重要内容。

3 结束语

综上所述,对于大数据隐私保护技术的应用来说,其必要性是极为突出的,这种必要性也就需要从各个方面采取恰当的设置和控制手段加强数据的保护和控制,其完善和优化的目标主要就是当前存在的各种漏洞和缺陷,进而避免数据信息的不安全外泄,充分提升其应用的安全性和价值效果。当然,这些措施和技术手段的落实都需要首先加强对于专业技术人员的培训和指导,提升专业管理人员的能力,促使其能够对于大数据进行有效管理,尽可能避免出现各种管理漏洞和偏差。

参考文献

[1]王璐,孟小峰.位置大数据隐私保护研究综述[J].软件学报,2014(04):693-712.

[2]刘向宇,王斌,杨晓春.社会网络数据发布隐私保护技术综述[J].软件学报,2014(03):576-590.

[3]范永健,陈红,张晓莹.无线传感器网络数据隐私保护技术[J].计算机学报,2012(06):1131-1146.

[4]刘雅辉,张铁赢,靳小龙,程学旗.大数据时代的个人隐私保护[J].计算机研究与发展,2015(01):229-247.

[5]黄刘生,田苗苗,黄河.大数据隐私保护密码技术研究综述[J].软件学报,2015(04):945-959.

[6]方滨兴,贾焰,李爱平,江荣.大数据隐私保护技术综述[J].大数据,2016(01):1-18.

隐私数据保护技术 篇2

1大数据的内涵

大数据就是一种获取规模、存储规模、管理规模以及分析规模等,此类规模均远远超出传统数据库软件能力范围的数据集合。大数据具有十分显著的特征:

(1)数据规模极其庞大,并且与日俱增。

(2)数据的类型多种多样,较为常见的有视频、音频、图片、文本等。

(3)数据等流传速度非常快。

大数据视野对隐私权保护 篇3

摘 要:大数据作为一种技术,属于事实的范畴,而隐私属于人的价值范畴。自近代科学技术的迅速发展以来,科技与价值就是对立统一的。大数据与隐私权就是科技与价值关系的典型一例。本文从大数据的特点、数据信息方式等方面来探讨大数据与隐私的对立统一关系,解析大数据如何威胁隐私。

关键词:大数据;隐私;保护

中图分类号:F713.8 文献标识码:A 文章编号:1673-2596(2016)09-0096-03

如今大数据的应用已经不局限在某个领域。一些机构使用大数据知识,从各种数据中挖掘有价值的联系。尤其是,在被掌握的数据和数据来源之间,大数据能用来减少信息的不对称性:大数据研究机构能从个人和其他代理中获得信息。

但是从个人的角度来说,隐私是维持或确保信息不对称性的能力,换句话说,个人用隐私权来限制他人窥探自己的信息。因此,大数据的初衷和隐私是潜在地或者说是根本上的对立。因此,如何处理他们之间的关系成为十分重要的问题。一般来说,大数据增加了数据的量和范围,隐私就会逐渐减少。虽然隐私有适当的界限,但是人们一般都会认为:在大数据环境下自己的隐私已经没有那么多了。

隐私有许多方面的涵义,例如,谷歌就把隐私定义为“不被他人注意或干扰的自由的状态”和“在公众关注下的自由状态”。从这种观点看,隐私似乎与监视、不想被注意以及干扰有关。

此外,应该注意的是,隐私可以被自愿地牺牲,例如,在牺牲隐私的结果所带来的利益大于隐私的牺牲的情况下,许多人还是愿意选择利益而不是隐私。不过,这种牺牲的界限或尺度是不可能被完全把握的。人们交往产生的信息可以被许多方式使用和挖掘,然而,许多使用的方式是侵害隐私的。

本文将审查对隐私问题关注的两种不同的观点。第一种,分析大数据的五个“v”的特点,利用大数据的本身性质来保护隐私。第二种,分析减少信息不对称性的不同方式:链接数据、从本地扩散到全球、相关被收集的数据、对话的推测以及其他使用数据的不同方式。因此,本文将考察隐私的概念和大数据与隐私之间的张力。

一、大数据是非对称性数据

大数据的特点为数量大(volume)、速度快(velocity)、真实性(veracity)、多样化(variety)和价值性(value)。①下面我将一一分析。

(一)数量大

一些机构组织以隐私原则为基础,仅仅最小限度地收集需要的信息的量。最小限度量的标准是基于“当满足一个特殊目的或实现一个特殊功能是没有必要时,信息是不能被使用或公开”的观点。②因此,信息的数量是评判隐私的参数。

关于个人或机构的数据量在现实的数据源或交叉数据源中是不均匀的。当对你班级的同学进行谷歌搜索,你会发现,一些人点信息都没查到,但是有些却发现有很多信息条目。与此类似,现实中任何一个机构组织,其数据量也是不均匀的,不管是脸书(Face book)、推特(Twitter)还是内部的信息。数据量的不均匀性来源于不同媒介的使用,无论是传统媒体还是新媒体。例如,企业经常发布公共关系的新闻,这些新闻不经意就暴露了关键职员的姓名和信息。又如,像推特和脸书这样的社交媒体能提供个人在做什么,在哪里,何时等信息。

数据信息量的不均匀意味着变量和检测机器的数量是不平均的。变量越多,就能构建更多的模型,例如行为的时间连续性模型。此外,如果在数据中有更多的变量,那么目标就更容易被了解和理解。使用更多变量能提供事件,个人或机构的更完整的描述。收集到个人和组织更多的数据意味着需要更多的数据分析,而分析数据又必须有更多的数据,这样才能更完整把握目标,因此,会不断增加对个人的监视或监测。假设减少了数据需求,也就能在一定程度上保护隐私。然而,更少的数据意味着我们需要描述的事物只能以更少数据进行分析,这不利于我们对事物分析推理。如果数据仅仅是几个方面的变量,那么事物的分析也仅仅是在这几个变量的基础上进行的。

(二)速度快

据统计,目前全世界大约90%的数据是在过去两年中产生的。因此,速度快这个特征对产生大量数据具有实质性的影响。数据的产生是一个连续不断的过程。例如一个顾客不满意的交易,顾客可能立刻发推特抱怨,推特就是额外产生的数据。一般来说,速度越快,产生数据的量越大。数据速度是与反馈速率和个人数据来源速率有关的。例如,在推特中,一条推特被发布,然后被无限转发。又如,利用大数据技术,企业能收集许多物联网的不同数据。不同的东西产生信息的速率是不同的。

速度的不同对隐私有什么影响?人们关注高速度的数据,会利用这些数据做片面性的决定。此外,一些信息将被更快地公开和散布。在结果被完全预测之前,信息可能被散布出去。结果,在执行限制散布数据之前,有害的数据可能早已被泄露。劳伦斯·戈斯汀和詹姆斯·霍基建议,允许个人掌控自己的数据。然而,允许个人拥有这个的控制权力会影响数据的速度和有效性。据此,追求更快的增长速度和希望控制或降低速度的数据源之间存在一个张力。由此产生的研究问题与途径有关。这些途径为了促进个人隐私数据的管理,包括人们管理自己数据的范围以及保护隐私的努力。深入研究可以探索隐私管理系统的仪表盘、智能系统和隐私保护系统,这些系统旨在帮助我们管理和控制自己的数据。

(三)多样性

多样性指的是关于个人或代理的有效数据的不同类型。被掌握的数据多样性也是隐私的一个重要参数。

数据类型的多样性能产生更多的变量,这些变量被用来分析组织或个人。讽刺的是,数据的多样性导致更多的数据需求。因为数据类型多样化,数据分析机构就能找出数据间的差异,就需要更多的数据。结果,信息之间的差异导致了更多的和不同类型的数据。

此外,数据类型能被转换。例如,有些数据是结构性的,有些确实非结构性的。一些评论家注意到,结构性数据有驱逐非结构性数据的趋势。③假设这是正确的,为了对大数据有一个基本的理解和使用,那么尝试从非结构性数据转为结构性数据是十分重要的。目前,人工智能已经把注意力放到文本中的情绪监测,所凭借的就是非结构数据的分析,以试图理解和掌握作者的整体思想。例如,运用基于机器技术的方法,通过分析文字、句子或者整个文件目录,情感能被分析出来。一些研究者尝试从非结构性数据中梳理出结构,对个人而言,这是一种错误的意图。

(四)真实性(和可靠性)

真实性指的是大数据的精确性,但是常常忽略了可靠性。例如,推特内容可以被百分之百的抓取,但是我们关系的仍然是它的可靠性。真实性的不平均和可靠性的缺乏意味着数据在质量上的不统一。因此,真实性的不平均可能导致可以被描述的推测或推断受到限制。此外,数据库的真实性和可靠性也可能影响数据使用的范围,即使很好地使用高真实性和高可靠性的数据库也一样。

隐私的另外一种定义是针对负面检测或非法泄露:“个人的数据或信息有不被政府、团体或个人非法宣称、公开调查、秘密检测或者未授权泄露自由。”④但是数据真实性或可靠性低会导致错误的推断。有一种普遍的观点认为,如果你有必须藏着的东西,那么你就心有所畏。然而,如果数据不准确或不可靠,这种观点就是有问题的。如果信息没有了真实性,每个人的信息都会被隐藏,因为被揭露信息不真实。

因此,通过数据库的文件来确保信息的真实可靠性这种方法是应该受到指责的。连续监测系统可以被用来检查数据,一判定数据的合理性和准确性。只能系统能分析数据内容,以发现是否有新出现的不正常关系和众包能被收集。

二、拼接数据

拼接数据指把通常不在一起,但放在一起就能提供价值的数据拼接在一起。例如,两个或更多未分类的项目,当把它们放在一起,能创造出新的分类。不同数据所增加的量和类型可能造成这样一种可能性,不同属性的数据会因为放在一起研究而变得有用,这样就会使隐私妥协。另外,大数据“湖”能提供相似的环境,多重相异的数据库可能在这“湖”中相互连接。随着收集数据速度地增长,隐私数据可能被抓取和更广泛的利用。

作为隐私保护的一部分,研究者可以模拟当拼接在一起会侵犯隐私的变量集。从这些模型中,数据能被检测以判定这些变量或关系量是否被执行来限制数据的使用。此外,这些模型能支持在大数据湖中不同数据库的越权使用。

三、名声检测系统及其相邻系统

梅里安姆·韦伯斯特把隐私定义为“远离陪伴或监视的状态或能力”。⑤这个定义暗示着,检测或监视是受到隐私的限制的。最近,被设置为分析网页上更广泛信息来源的系统已经能够自动监测名声。很典型地是,名声监测系统连续不断地监测网络上和其他数字资源,并收集关于个人或企业的信息。这样做,他们能找到个人所关心的名声的威胁。这些威胁可能存在于本地范围也可能在全球范围。

另外,用这样的系统捕捉到的名声数据作为个人或组织的基准是不合理的。例如,被用来监测高层管理名声的系统也很有可能被用来监测竞争对手的名声。为了这些目的和意图,具体的管理者和产品都是系统的参数。然而,造成的结果是,系统持续不断监测其他相邻组织的数据。因此,特别是在公司企业,隐私权和其他权利成为一个令人担心的问题。

四、从对话和不同形式数据中推理

为了达到一些目的,数据经常被公开。结果,隐私与这样的人相关,这些人怀着某种目的,认为信息就是用来为目的服务。例如,当推特建立时,它经常向使用者提问“你现在在干嘛”。然而,在2009年,推特把问题改变为“发生了什么”。推特是用来和朋友或者国外其他人交流的。但是,推特数据却逐渐地用来捕捉直接或间接的,隐藏在对话中的知识内容,公开推特信息,这已经与原来的目的背道而驰。

利用推特数据,研究者已经开始调查更广阔的事件或项目,包括食物中毒,政治事件,疾病传播,书的销量等等。虽然推特能作为一些参考,但是他们确实有违数据初衷。因此,我们也许会问,这些使用者的行为是否符合道德,是否侵犯了隐私。可能最好的类比是谈话,如果某些人偷听你的谈话并用这些信息去实现自己的目的,难道会没有人介意吗?

五、其他新问题

技术产生大数据,并带来了隐私问题。最近,一个纽约的参议员称可穿戴式的健康追踪器是“隐私的噩梦”。⑥同时,其他重要的大数据来源是被移动设备收集的位置信息。这样的数据能被用来跟踪个人在做什么,在哪里做什么等等。由于推特和其他数据,位置信息能被用来做其他事。例如,如果我有移动电话的位置信息,我可能用这些信息来判断哪里建设基础设施。

由于技术推动人们不断去监测有用的数据,这势必触及隐私权力的界限。例如,把摄像机安在警察局、警察车尾,相机可以实时了解交通情况。有些相机扫描执照,然后能识别并判断这辆车是不是偷的。⑦另外一个例子,黄貂鱼电话追踪器可以被军队、警察和其他人作为一种捕捉位置信息的方法,即使电话不开机使用。这些技术的使用和信息的储存成为了社会上的一种竞赛。因此,这些技术的未来很可能像技术问题一样,成为一个法律问题。

六、结论

科技是一把双刃剑。技术与价值是近代以来十分突出的问题。大数据与隐私之间的张力,本质上还是人的问题。如何在大数据时代保护好隐私权是当今重要课题。大数据本身的特点,或者说数据的本来目的,就是与隐私相互对立的。选择数据利益还是个人权利价值,在人文科学领域还是一个难题。

注 释:

{1}P. Zikopoulos et al., Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data ,McGraw-Hill, 2012,page3.

{2}HHS.gov. Minimum Necessary Requirement 【EB/OL】.www.hhs.gov/ocr/privacy/hipaa/understanding/coveredentities/minimumnecessary.html.

{3}Gostin L O, Hodge J G. Personal privacy and common goods: a framework for balancing under the national health information privacy rule.[J]. Minnesota Law Review, 2002, 86(6):1439-1479,page6.

{4}Dictionary.com.【EB/OL】.http://www.dictionary.com/browse/privacy?s=t.

{5}Merriam Webster.【EB/OL】www. Merriam-webster.com/dictionary/privacy.

{6}H. Walker, “Senator Warns Fitbit IsA ‘Privacy Nightmare and Could Be‘Tracking Your Movements,” BusinessInsider, 10 Aug. 2014; www.businessinsider.com/senator-warns-fitbit-is-aprivacy-nightmare-2014-8.

{7}J. Phillips, “Smile! Your Cars onCamera: We Ride Along to Learn Whatthe Cops Know About You,” Car andDriver, Dec. 2011; www.caranddriver.com/features/smile-your-cars-oncamera-we-ride-along-to-learn-whatthe-cops-know-about-you-feature.

参考文献:

〔1〕王璐,孟小峰.位置大数据隐私保护研究综述[J].软件学报,2014,25(4):693-712.

〔2〕冯利芳,崔文花,沈瀛,等.我知道你是“谁”——大数据拷问隐私[J].成功营销,2013(5):76-80.

〔3〕薛孚,陈红兵.大数据隐私伦理问题探究[J].自然辩证法研究,2015(2):44-48.

〔4〕李传军.大数据时代的政治现象[J].研究方法与反思,2016(03).

浅析大数据安全与隐私保护技术 篇4

关键词:大数据,安全,隐私保护

随着社会信息化和网络化的发展, 逐渐开始进入大数据时代。在大数据时代下, 信息和数据的分析处理都会变得比以前更加繁杂, 管理起来也更加麻烦。目前的大数据发展仍旧面临着众多问题, 最受大众关注的就是安全与隐私问题。随着互联网的发展, 人们的一举一动都会在商家那里进行记录, 例如购物习惯、好友联络情况等等。根据相关的调查报告发现, 即使泄露的数据是无害的, 也会对客户造成一定程度上的损害。因此, 如何保护用户的隐私, 是大数据在安全方面应当首先注重的问题。

1 大数据概念

1.1 大数据来源和特征

大数据所指的是具有庞大规模, 并且较为复杂, 难以使用现有数据管理工具或数据处理技术进行处理的数据集。因此, 大数据通常具备大规模、高速性和多样性的特点。根据大数据的来源不同, 可以分为人、机、物3类。

人指的是人们在互联网中活动以及使用互联网时所产生的各类数据, 数据类型包括文字、图片、视频等;机指的是各类计算机系统所产生的数据, 大多数是通过文件、数据库、多媒体等形式存在, 还有审计、日志等自动生成的数据;物指的是各类科技设备所收集的数据, 例如摄像头的数字信号。

1.2 大数据分析目标

根据目前我国的使用情况, 大数据已经在科学、医药、商业等各个领域开始广泛应用, 在用途方面也各有区别, 具体可以分为3类:获得知识与推测趋势、分析掌握个性化特征、辨识真相。

在进行数据分析之前, 首先要获得大量的知识, 并利用知识进行分析。在大数据中有着大量的原始信息, 这些信息具备一定的真实性。通过大数据进行分析, 能够避免数据中所产生的误差, 挖掘出更深层次的规律, 通过这些规律, 可以对自然或社会现象进行预测。

个体活动除了能够反映出群体特征之外, 还有着鲜明的个性化特征。这些特征各不相同, 企业通过长时间、多方面的数据积累, 能够对用户的行为进行分析。基于用户的需求, 更好的为用户提供个性化的产品和服务。

错误的信息在数据中没有任何意义, 甚至会带来负面影响。网络中信息的传播较为便利, 所以一旦出现网络虚假信息, 则会带来极大的危害。例如在2013年4月24日, 美联社的Twitter账号被非法盗取, 并发布了总统奥巴马受到恐怖袭击的虚假消息, 即使消息在短时间内被控制, 但是美国股市仍受到虚假信息的影响, 引发了短暂的跳水。大数据的来源渠道较为广泛, 信息多样化, 通过大数据可以在一定程度上辨别信息的真伪。目前人们已经开始通过大数据对信息的真伪进行分析, 确保数据的准确性[1]。

2 大数据带来的安全挑战

2.1 大数据中的隐私保护

根据调查表明, 当大数据处理不当时, 会对用户的隐私造成极大的损害。根据所需保护内容的不同, 可以分为位置隐私保护、标识符匿名保护、连接关系匿名保护等等。大数据对面临的安全挑战除了个人隐私的泄露之外, 还有对人们状态和行为的预测。通过客户的数据记录, 能够发现用户的政治观点、消费习惯等等。

很多企业认为通过匿名处理, 当去除了用户信息的标识符后, 便可以进行信息的公开发布。但即使通过匿名信息, 也有一定的规律可循, 通过数据中的某些信息, 可以精确的定位到个人。目前在用户数据的收集、存储、管理和使用上都没有相应的规范制度, 监督制度也不够完善, 基本上需要通过企业的自律对大数据进行管理, 而用户则难以对自身隐私信息的使用情况进行了解。在商业化应用中, 用户应当有权利决定如何处理自己的信息, 让用户可以对自身的隐私进行控制保护。

2.2 大数据的可信性

在大多数的观点中, 都认为大数据可以说明事物的规律, 数据本身就是事实。但在实际操作中, 如果不对数据进行精确的分析和整理, 数据也会有欺骗性。数据可信性的威胁之一是伪造的数据, 一旦数据出现错误, 则会导致错误的结论。一旦数据的应用场景明确, 则有可能会有人根据场景特点刻意制造数据, 使分析者得出错误的结论。大部分伪造的信息都掺杂在大量的信息中, 导致难以对信息的真伪进行鉴别, 从而导致最后的错误结论。由于网络的散播性较强, 虚假信息的转播也越来越容易, 速度越来越快, 会产生严重的后果, 而通过信息安全手段对所有的信息进行检验的可行性也较小。

大数据可信性威胁的另一方面是数据在传播的过程中会逐步失真。其中一个原因是进行人工数据采集时, 可能会有误差的出现, 由于在进行数据收集时产生了失真和偏差, 影响到了最后结果的准确性。另一方面, 造成数据失真的原因还有可能是版本变更。在数据传播的过程中, 实际情况已经有了一定的改变, 原本收集到的数据难以表现出实时信息。

基于此, 在使用大数据之前首先要保证数据来源的真实性, 并对数据的传播过程、加工处理过程进行严格控制, 提高数据的可信性, 避免因数据错误导致的错误结果[2]。

3 大数据安全与隐私保护技术

3.1 数据溯源技术

在此之前, 数据溯源技术的应用仅仅在数据库的领域之中, 随着科学技术的不断发展, 在大数据的安全与隐私保护中也开始应用这项技术。数据溯源技术中最基本的就是标记法, 其作用主要是对数据的来源和数据的计算方法进行记录。通过对来源数据进行标记, 不仅能够对最后的分析结论进行检验, 还能够让分析者在最短的时间内对信息的真实程度进行判定。另一方面, 在文件的恢复过程中, 数据溯源技术也可以得到良好的应用。

3.2 数据水印技术

数据水印技术是在既不影响数据使用, 也不影响数据内容的情况下, 将标识信息通过一些较为隐秘的方式嵌入到数据载体中。这种技术一般都是应用在媒体版权保护上, 在文本文件和数据库上也有一定的应用。但是在多媒体载体上和在文本文档以及数据库上的应用有较大区别。在数据水印技术的分类上, 可以分为强健水印类和脆弱水印类。强健水印类的应用基本上在数据起源的证明上, 能够对创作权等进行有效的保护。而脆弱水印类大多应用于数据真实性的证明。随着目前大数据的发展, 数据水印技术还需要不断的进行完善。

3.3 身份认证技术

身份认证技术指的是通过用户以及所使用设备的行为数据的收集和分析来获得行为特征, 并通过这些特征对用户以及所用的设备进行验证, 并确认身份。在身份认证技术的发展上, 将大大降低被恶意入侵攻击的可能性。不仅减轻了用户的负担, 也统一了多种系统之间的认证机制。

3.4 数据发布匿名保护技术

根据结构化数据的分析, 数据发布匿名保护技术在数据安全与隐私的保护过程中占有重要地位。根据目前的研究状况, 此技术还有待完善, 需要不断的进行深入研究。在目前的数据发布匿名保护技术的理论中, 大部分的背景环境都是在静态的、一次性的对数据进行发布。但是这样的方式有着一定的局限性, 一些特殊的属性难以被检测出来。而且在实际的过程中, 数据的发布往往是多次连续的。在如此复杂的大数据环境下, 想要将数据发布匿名保护技术进行应用, 会面临着一定的困难。在攻击者的角度, 可以根据不同的途径和不同的发布点来获取信息, 从而窃取到用户的信息。因此在这一方面, 相关的研究人员应当投入更多的精力对数据发布匿名保护技术进行研究, 提高其安全性。

3.5 社交网络匿名保护技术

社交网络所产生出的数据是大数据的重要来源之一, 这些数据中包含着用户的大量隐私信息。在社交网络匿名保护技术中, 攻击者可能会通过其他的信息对匿名用户的身份进行确定, 尤其是对于用户之间是否有联系关系的判断。由于社交网络具备聚集特性, 因此会对关系预测造成一定的影响[3]。

4 结语

大数据不仅为人们的生产生活带来了便利, 另一方面, 大数据环境也带来了一定的安全挑战。随着时代的发展, 人们越来越意识到隐私信息的重要性, 逐渐将信息安全放在首位。但根据目前的发展状况而言, 还有很长的道路要走。想要做到真正意义上的数据安全, 必须要对大数据环境中的漏洞进行分析, 针对性的进行安全与隐私保护技术的发展。通过数据溯源技术、数据水印技术、身份认证技术、数据发布匿名保护技术、社交网络匿名保护技术等进行深入研究。除此之外, 还要建立相应的法律法规, 对大数据环境进行全面保护。

参考文献

[1]冯登国, 张敏, 李昊.大数据安全与隐私保护[J].计算机学报, 2014 (1) :246-258.

[2]应钦.大数据安全与隐私保护技术探究[J].硅谷, 2014 (10) :72, 52.

图书馆保护用户数据隐私权的策略 篇5

1.1间接立法,间接立法是指不是专门针对图书馆保护用户数据的立法,比如瑞典的《数据法》、法国的《数据处理、档案与自由法》、英国的《数据保护法》、美国的《电子通讯隐私法》、日本的《个人信息保护法》、韩国的《隐私法》等。我国至今没有对隐私权的专门立法,隐私权尚未取得作为一项独立人格权的法律地位,而是把隐私权涵盖于名誉权当中来对待,具体内容包含在《宪法》、《民法通则》、《银行管理暂行条例》、《商业银行法》、《执业医师法》、《刑法》、《人民检察院刑事诉讼规则》等法规之中。用户数据隐私在图书馆受到侵害时,只能依靠这些间接规定来主张权利。

1.2直接立法。直接立法是指专门针对图书馆保护用户隐私制定专门法律。1978年,在美国图书馆协会和其他几个专业协会的推动下,美国第一部州立法《图书馆记录机密法》在佛罗里达州通过。到目前为止,在美国除夏威夷州和肯塔基州外,其他48个州和哥伦比亚特区都有专门的图书馆记录保密法。这类法律有两种形式:一种是明确保护图书馆用户的隐私:另一种是豁免图书馆公开数据或不适用于信息自由法。按照法律规定,用户利用公共图书馆所产生的注册和流通记录信息是机密。除非满足法定条款,否则图书馆不能向任何要求检查的机构或个人公开。

2自律保护

2.1行业指南。美国图书馆学会在专业伦理守则中规定:“保护每位读者的隐私权,对其查寻或获取的信息,咨询、借阅、征集及传递的资源均应予以保密”:英国图书馆学会在专业行为守则规定:“不得泄露或默许他人泄露任何委托的保密资料、信息或行政档案给第三者:同时也不可超越用户最初使用授权范围,将信息运用于其他方面”,还制定了对违反此守则的当事人的处分条款:日本图书馆学会在图书馆伦理纲领指出:“图书馆不得泄露利用者的秘密”,VRD2003年版的网上参考咨询服务质量文件中关于隐私权的保护规定:用户和专家间的通信必须处于完全隐私的环境中。《中国图书馆员职业道德准则》也规定:“维护读者权益,保守读者秘密。”

2.2制定政策。图书馆要制定完善的用户数据隐私权保护政策,并通过一定方式公之于众,使社会广为了解。主要内容包括:其一,收集数据的内容和目的。对敏感数据不予收集,并限于具体、合法的目的,收集和使用个人信息必须征得本人同意。其二,收集个人数据的方法,明确告知用户收集其个人数据的技术手段及其特点,使用户能理解和配合,并主动采取防范措施。其三,用户的拒绝权和选择权。用户的选择权应该是主动的,应该是在用户向图书馆网站提供个人数据之时或图书馆网站向用户收集个人数据时行使的。其四,用户个人数据共享。未经用户明确同意,图书馆不能向第三方提供用户数据,更不能以商业目的与其他人或组织共享用户个人数据。其五,用户数据的变更。图书馆对用户要求修改其数据的申请应及时处理,对于不能按用户要求修改的,要将不能修改的决定及其理由通知用户个人,并告知用户享有进一步反映问题的权利和相关途径。其六,免责条款。

2.3开展认证。数据隐私认证是类似于商标的网上隐私标志,它使得用户更易于识别那些遵守了个人数据收集和利用行为的图书馆,同时便于对图书馆就个人数据隐私权的保护状况作出评估。认证合格的图书馆将会受颁一种标志,即隐私权保护标志,这个标志可以张贴在自己网站的主页上。认证和取消认证是对应的,如果监督管理机构在评估中发现某图书馆违反了个人数据收集和利用的相关规定或遭到用户的投诉,将被警告,或被取消认证。

2.4完善管理。对用户数据的保护,图书馆要有健全和完善的管理制度与监督机制。比如,控制用户数的传播范围,使数量有限的图书馆员在工作之必要范围内接触和使用。又比如,以敏感性为标准对用户数据进行类型上的划分,确定密级和使用规则。

2.5技术防范。近年来保护数据安全的技术有了较大发展,图书馆可以灵活选用。其一,控制接触用户数据的技术,比如,口令技术和问题化技术。其二,控制使用用户数据的技术,这类技术能够防止对用户数据的打印、传播等。其三,保护用户数据完整性的技术,使数据不被修改或篡改。现在,一些专门针对数据隐私保护的技术已得到实用。比如,P3P是一种网络隐私权保护平台,可以有效提高图书馆对用户数据的控制力。

隐私数据保护技术 篇6

1 数据挖掘技术概述

数据挖掘又称为数据采矿,是通过相关算法在大量的数据中搜索并找出隐藏在其中各类信息的技术。数据挖掘在研究过程中主要借助了以下两方面领域的研究思想,首先是统计学的抽样以及估计与假设检验,通过在大量的数据中挑选出可能蕴含可用信息的数据,进而对数据中蕴含的信息进行假设和检验分析;其次是基于人工智能识别与计算机网络学习的搜索算法,通过对样本数据进行优化、计算和处理,进而得到所需信息[1]。然而,随着数据挖掘技术的日益发展,使得在发现知识和信息的同时,人们的隐私权也收到了严重的威胁。因此,数据挖掘工作者有必要也必须在进行数据挖掘的同时,做好数据源以及相关挖掘结果的隐私保护工作。

2 基于隐私保护的数据挖掘分类

不同的分类标准所对应的隐私保护的数据挖掘技术也存在较大差异,以基本策略为依据,可将基于隐私的数据挖掘方法分为:(1)数据扰乱法。通过在研究过程中对数据进行随机变换,或对数据进行离散与添加噪声,以达到对原始数据进行干扰的目的,其代表算法为MASK法;(2)查询限制法。通过对数据进行隐藏、抽样和划分,以达到尽量避免数据挖掘者拥有完整原始数据的目的,在此基础上,借助分布式计算或概率统计,获得所需的数据挖掘结果。但在利用查询限制法进行隐私保护时,经常存在一个问题,即所提供的数据全部为真实的原始数据,虽然不完整,但也会降低对隐私的保护效果。以隐私保护的结束为依据,可将相关的数据挖掘方法分为:(1)启发式技术。启发式技术又称为扫描技术,通过将数据挖掘的经验和相关知识移植到检查病毒的软件当中,进而查找出可能存在侵犯用户隐私的恶意程序或代码;(2)密码技术。密码技术是研究如何较为隐蔽地传递信息的一门技术,通过应用分组密码和流密码等相关技术,从而对陌生的数据访问请求进行拦截,以达到保护隐私的作用;(3)重构换以及格式变换和类型替换等方式对数据空间的结构和格式做出调整,在实现异构数据与多源数据有效融合的基础上,降低隐私数据被篡改或盗用的可能[2]。

3 基于隐私保护的数据关联规则挖掘分析

3.1 集中式数据隐私保护

集中式数据隐私保护的关联规则挖掘技术在隐私保护中的应用主要体现在源数据保护和规则隐藏两方面。在源数据的保护方面的数据挖掘技术主要包括了基于数据扰乱以及分布重构关联规则算法,即当前应用较为广泛的MASK算法,此算法通过对数据进行扰乱以及分布重构,来达到隐私保护关联规则挖掘的目的。具体方法为:通过将原始数据作为保密数据(保密目标),使其服从于未知分布U,引入一组扰动数据,令其分布特定分布R,并输入随机扰动后的数据;对随机扰动后的数据进行存储,另引入一组扰动数据,使其仍然服从于特定分布R,作用后,将原始数据U输出。在此过程中,加入随机扰动数据后,在降低了侵犯隐私行为成功的可能性的同时,也使得数据挖掘工作人员获得了其想要得到的目标数据[3]。

在规则隐藏方面,则主要体现在Alog系列的相关算法上,例如MinFIA以及MaxFIA和Native算法等,需要说明的是,各类算法所要隐藏的同一数据库中的不同敏感规则,其彼此间是相互独立的,其大都通过借助降低置信度以及支持度来达到对相关数据挖掘规则进行隐藏的目的。近年来,关于集中式数据隐私保护的规则隐藏方面的研究颇受关注,相关的规则隐藏方法还包括:(1)数据替代法,通过以随机数据代替原始数据,以达到降低隐藏规则中项目支持度与可信度的目的,此外,对数据挖掘后所残留的非敏感性规则还具有较小的影响,进而从整体上提高所挖掘的数据的质量;(2)删除项与增加项的结合。通过将删除项和增加项进行随机结合,从而使原有规则的支持度发生变更,此方法的好处在于,所产出的规则相异度与规则丢失率能够得到有效降低,从而达到对目标数据进行保护的目的。

3.2 分布式数据隐私保护

分布式环境中,用户隐私关联规则挖掘的关键在于对全局频繁项集进行计算,同时,加强对加密技术的应用,以确保相关数据关联规则的隐私保护方法主要包括了安全交集大小运算、安全求并集运算以及安全与运算等算法。而分布式数据的隐私保护主要包括两方面,分别为水平分布下隐私保护的关联规则挖掘与垂直分布下的隐私保护关联规则的挖掘。

在水平分布的隐私保护关联规则挖掘方面,除了需要对结果进行正确挖掘外,还需要对实施保护的相关开销以及通信代价与安全强度进行计算。例如,可先运用数学方法对不同分布站点的数据进行变换,而后,恢复全局计数项集的支持度,以此,来搜索并发现数据挖掘时的全局频繁集,进而找出并确定关联规则[4]。在垂直分布的隐私保护关联规则挖掘方面,在同一时间内,以不同站点的数据为依据,对所有项集的计数进行计算,进而找出超过阀值的支持度全局频繁集,以达到对数据进行保护的目的。

4 结语

该文通过对数据挖掘的概念以及隐私保护的必要性进行分析,在对不同依据下数据挖掘的隐私保护方法进行分类的基础上,分别从集中式数据隐私保护和分布式数据隐私保护两方面对基于隐私保护的数据关联规则挖掘方法做出了全面的论述和分析。研究结果表明,源数据与隐藏规则保护方法能够较好地满足集中式数据隐私保护的要求,而以数学方法和全局频繁集算法为主的水平分布与垂直分布隐私保护能够更好地实现分布式数据的隐私保护。可见,未来加强对基于隐私保护的数据挖掘技术方面的研究,对于在保证用户隐私的前提下,提高数据挖掘效率,具有重要的历史作用和现实意义。

参考文献

[1]李学国,冯刚.面向社交网络隐私保护的数据挖掘方法研究[J].科技通报,2013,1(18):128-1 31.

[2]张海涛,黄慧慧,徐亮,等.隐私保护数据挖掘研究进展[J].计算机应用研究,2013,12(15):3529-3535.

[3]崔春英,乔蕊.基于隐私保持的分布式数据挖掘技术研究[J].电脑编程技巧与维护,2012,10(9):52-53.

隐私数据保护技术 篇7

随着计算机网络技术的飞速发展, 网络数据库中包含的数据量越来越大, 数据挖掘技术可以从这些大量的数据中提取有价值的信息, 这就必然涉及到隐私数据的问题, 如何保护数据库中的私人的或敏感的信息是信息安全领域的重大课题。隐私保护数据挖掘是对传统数据挖掘技术的扩展, 通过修改数据来屏蔽敏感信息, 如何修改数据以及如何从修改后的数据恢复出数据挖掘的结果是其中的关键问题。隐私保护数据挖掘要保证不能对任何人透露机密数据, 即使是运行数据挖掘算法的服务器也不应该得到这些机密数据。所以说隐私保护数据挖掘的最终目的是在数据挖掘中获得有用的信息并确保个人的隐私安全。

1 隐私保护技术分类

隐私保护数据挖掘现在已经得到了广泛的研究, 大部分隐私保护技术都是使用某种形式的原始数据转换来达到隐私保护的目的, 通常将它们分为以下三类:

1.1 随机化方法

随机化方法是当前隐私保护数据挖掘研究中的一种非常流行的方法, 它是基于随机应答技术的隐私保护方法, 该方法是通过预先设计的分布函数产生随机数噪音来掩盖真正记录的值, 添加的噪音数据要足够大, 这样就不容易恢复出被掩盖的记录值。随机化方法存在着安全与可用性的矛盾, 因此, 使用该方法需要在隐私保护和知识发现之间找到平衡。随机化方法主要包括随机噪声扰动和随机响应方案。

1.2 匿名化方法

匿名化方法的目的就是为了隐藏数据或者数据来源来保护隐私数据。它的代表方法是k-匿名, 这种方法用于预处理要求公布的数据后, 整个数据集中记录各属性值的组合形式至少会出现k次, 也就是说, 对任何记录都至少存在k个相同记录, 而该记录在这k个记录中是不可辨识的, 这样攻击者就不能判断出该记录的隐私属性所属的具体个体是哪个, 从而实现了对隐私数据的保护。k值越大, 披露风险越小, 匿名程度越高, 从而信息丢失也就越多。在此基础上还提出了改进的 (a, k) -匿名方法, 对k-匿名方法的实现过程进行了优化, 提高了隐私保护能力。

1.3 分布式方法

分布式数据挖掘是针对分布式环境特有的计算规律和特点, 为了减少挖掘的通信损耗和提高挖掘的效率而进行的数据挖掘。分布式隐私保护数据挖掘方法主要解决的问题是根据提供的私有输入共同进行挖掘任务, 这些挖掘任务可以是由互相不信任的双方甚至是竞争对手之间来共同完成。因此, 保护隐私就成为分布式数据挖掘中最为大家关注的问题之一。分布式隐私保护数据挖掘方法主要有两种:水平分布条件下的隐私保护数据挖掘和垂直分布条件下的隐私保护数据挖掘。

2 隐私保护数据挖掘关键技术

2.1 单个数据记录挖掘

这种技术主要用于隐私保护数据挖掘的预处理阶段, 其主要特点是对数据进行分别处理, 使得挖掘者不知道单个数据记录的准确信息, 从而达到单个数据记录的隐私保护。

2.1.1 随机响应

随机响应技术是以保护数据提供者的隐私为目的, 它的基本思想是, 数据提供者发布原始的扰动数据, 其中包括一些真实的信息和一些虚假的信息, 以防止攻击者获得原始数据。随机响应技术通常用于处理分类数据, 并提供响应模型信息。

2.1.2 数据阻塞

数据阻塞技术是采用不发布某些特定的数据从而进行隐私保护, 它与其他的提供修改数据的技术是不同的。以数据表为例, 数据阻塞技术就是将数据表中的某个特定的值用一个不确定的符号来替换, 这样就实现了原始数据的隐藏保护。

2.1.3 数据扰动

数据扰动技术是将真正的敏感数据转换为未知的数据后对数据进行分析处理。该方法不重建原始数据值, 仅仅是重新分布数据, 也就是说, 数据扰动是把原始数据中的每个属性值都按照所给定的概率转换为该属性域中的其它值。

2.2 隐私保护技术的集中式数据集挖掘

2.2.1 基于重建技术的关联规则挖掘

采用随机运算符变换原始数据, 随机运算符比使用统一的随机化方法保护隐私数据更为安全, 它降低了从随机化数据推导出原始数据的概率, 同时还要控制隐私漏洞的发生, 并能够根据修改后的数据发现关联规则。

2.2.2 基于随机响应技术的分类挖掘

通过比较参数的设定值和随机数之间的大小, 来决定是否需要通过改变原始数据的顺序来实现对原始数据的变换, 以起到保护隐私数据的目的, 并且通过对信息增益比例概率估计值的计算, 在伪装后的数据上构造出决策树。

2.3 隐私保护技术的分布式数据挖掘

2.3.1 垂直分布数据关联规则挖掘

在数据的垂直分布环境中, 同时利用各个站点的数据计算出所有项集数, 并找出支持度大于阀值的全局频繁项集, 其中的项集支持度可以通过密码学中的安全计算代表子项集标量积方法得到。

2.3.2 水平分布数据关联规则挖掘

在数据水平分布的环境中, 运用项集转移概率矩阵这一数学方法对各个站点数据进行变换, 之后对全局计数项集支持度进行恢复, 进而找出挖掘过程中所需要的全局频繁项集, 并找出全局关联规则。它既能很好地完成数据挖掘, 也更加有效地保护了各用户的私有数据。

3 结束语

近年来, 隐私保护数据挖掘技术在很多领域得到了广泛的应用, 人们对其进行了大量的学术研究。本文重点分析了数据挖掘隐私保护的相关技术, 如何将这些技术应用到实际的数据挖掘中是必须要重视的事情。由于隐私保护技术涉及到多个学科的发展, 因此隐私保护数据挖掘技术仍有许多问题需要进一步的研究。隐私保护技术的标准化是隐私保护数据挖掘未来发展的一个重要问题。

摘要:随着计算机信息技术的快速发展, 网络数据库的规模越来越庞大, 数据的存储形式也是多种多样的。数据挖掘技术可以从大量的数据中提取有价值的信息, 隐私保护是数据挖掘中重点研究的问题之一。隐私保护数据挖掘近年来得到了快速发展, 但它仍然面临着许多挑战。本文重点研究了隐私保护数据挖掘的相关技术, 对今后研究中存在的问题和方向进行了探讨。

关键词:隐私保护,数据挖掘,信息安全,分布式

参考文献

[1]汤琳, 何丰.隐私保护的数据挖掘方法的研究[J].计算机技术与发展, 2011, 21 (4) :156-159

大数据隐私安全保护 篇8

关键词:大数据,隐私,保护

1 大数据时代的来临

大数据时代已到来。什么是大数据?大数据,英文为Big Data。关于大数据研究机构Gartner给出了这样的定义。大数据是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。简单来说,就是大数据可以将人们在网络上留下的信息数据收集、处理和分类,并反馈给人们。为什么说大数据时代来临了?如今网民数量增加,人们上网时间增长,留下的信息数据越来越多,网络可以将这些信息都收集起来,形成巨大的数据网。人人都在这个数据网中,人人都活在大数据时代下。大数据时代的来临也带来了隐私安全问题。细想一下,处于网络时代,人们的生活离不开网络,一旦人们在网上浏览信息、购买物品等,这些都会留下个人信息,而网络将这些信息以数据的形式记录下来,并将这些数据再反馈到你平常浏览的网站中,有时一些网站如淘宝会收集这些信息并进行数据分析,这样下次再登陆淘宝网站时就会推送你感兴趣的东西。大数据会一点一点收集个人的数据,并能很清楚地了解人们。

2 大数据时代对隐私安全的影响

大数据时代人人如同在玻璃房中,人们的隐私与安全变得岌岌可危。试想一个人在网络上留下大量信息,如果网站对这些信息保密不严,会导致犯罪分子沿着这些蛛丝马迹找到这个人的现实生活信息,如他的名字、地址、联系方式等,那么这个人的生命安全就有危险。虽然这只是一种假设,但却有真实存在的类似案例,又或者说即使这样的人不多,人们在网上留下的痕迹,就足以使个人隐私遭到侵害。比如在一些社交网站中,如新浪微博、微信等,这些网站或平台都有个人主页的设置,在网络刚刚时兴时,人们还对在网络留下真实信息有所顾忌,但在这几年随着网络的发展,人们越来越放得开,不再顾忌自己的真实姓名等一些真实信息的透露。再者浏览这些社交网站时,网站会记录人们浏览的痕迹,比如曾浏览的某位明星的动态就会记录在你个人的用户账号上,并随着留下的痕迹越来越多,可以分析出来你喜爱的明星、喜爱的事物、平常的兴趣等,甚至加上对时间的分析,可以分析出你喜欢的东西是这一段时间还是较为长久的兴趣。再有随着网上购物的发展,一些支付平台作为第三方也在记录着人们的真实信息。比如支付宝、蚂蚁花呗等APP。人们在网上购买物品,通过第三方支付平台转账,这些平台会绑定你的银行卡、信用卡,这样它就会记录你的财产信息,有时甚至会要求实名认证,这样你的姓名、性别、身份证号和籍贯也被记录下来。现在随着电子科技的发展,一些手机或客户端还会记录你的指纹信息,这些指纹信息则会被记录在这些电子科技公司当中。再加上随着时代的发展,网络技术会越来越发达,就无隐私可言了。在大数据的记录下,人人都是透明的。

那么记录的数据到底保存在哪呢?这些数据掌握在软件等电子科技公司的手中。比如百度、阿里巴巴、苹果等,甚至一些小网站上。信息数据掌握在这些公司手中,一些大公司或集团或许会将数据保守好,但一些小型网站会轻易被金钱收买,用数据换取利益,甚至还有一些强势企业公开表明愿意共享手中的数据。这在普通百姓层中没有引起轩然大波,因为人们还没意识到,那些数据正是由自己的信息所累积的。

网络时代同时为人们搭起了社交之桥,人们可以通过一根网线聊天、认识朋友。同样诈骗集团和犯罪分子也会通过网线来获取利益。他们会装作你的朋友与你交谈,诈取你的财产,犯罪分子甚至约你在现实中见面,这会威胁到你的人身安全,他们所掌握的信息都是从大数据中获取。通过购买或盗窃一个人的网络记录,来分析一个人的真实状态,大数据威胁到的不只是隐私还有人身财产安全。

3 保护自己的隐私安全的措施

一部分人已具备隐私意识,可以减少自己的隐私在网上透露。在上网时,人们应对自己的隐私有清楚认识,并着重注意自己的隐私有没有在不经意间透露。以下是在大数据时代下隐私安全保护的措施。

3.1 及时清除信息记录、Cookies记录

在上网时不可避免会有一些足迹留下并被采集,虽然无法完全阻止,但是可以减少自己隐私被曝光。简单的做法就是清楚网站的Cookies记录,虽说网站背后的科技公司会将数据记录在自己的公司设备当中,但清除Cookies会阻碍部分信息外露。上网之后将自己的信息足迹删除可以有效避免一些追踪手段。我们网上的足迹多为浏览网页、下载资料、观看视频或者聊天信息。例如我国的聊天软件巨头腾讯QQ,之前腾讯软件上的聊天记录可以一直帮你保存记载,自己可以调取观看,但现在腾讯QQ将聊天记录的时限限制在1~2天。导致无法调取之前的记录,除非开通记录漫游来调取聊天记录。但是虽然在表面上无法查看我们之前的聊天记录,但腾讯公司却一直记录着。很多隐私腾讯主机都知道,但这些在一定程度上无法避免。腾讯主机有程序保护,但我们的电脑上没有相关程序保护,所以要及时清除记录,减少信息泄露。或者在使用公用电脑时,清除上网记录,他人就无法找到相关信息了。

3.2 减少社交网站上个人信息填写

现如今,社交网站也是数据收集的地方之一。目前,社交网站的流行与发展,越来越多的人已不在意自己真实信息透露。但正是由于社交网络的发展,人们越来越不能把守自己的真实信息,这导致人人都处于暴露的状态下。这或许是大数据时代和网络时代到来的必然,但网民们仍要有保护自己隐私的意识,比如在新浪微博的个人主页上,应慎重填写信息,将一些信息虚拟化,这会更好地保护自己的隐私。社交网络上的个人信息会被很多陌生人查看,所以要有意识地保护自己,不留过多的重要的真实信息。

3.3 避免向陌生人透露自己的信息

网络是个复杂的地方,网线对面的陌生人无法判断出好坏,这就需要人们在网络上进行人际交往的过程中,首先要建立一道保护墙,防范网络对面的陌生人,学会保护自己,如果透露过多的信息,你的人身财产安全将会受到伤害。所以,不要透露自己的真实信息给陌生人,要对陌生人有防范意识。

3.4 规范网上信息隐私相关法律条约

上述三个措施都是从自身做起保护隐私与安全,但随着网络与大数据的发展,要想真正要保护人们的隐私安全,最根本的还是要建立健全网络数据信息的保护制度,只有规范制度,才能有效阻止信息数据泄露。这些制度不仅要针对每个网民,还要重点针对掌握大数据的企业集团,强制性要求这些集团签订隐私保护条约,为人们上网提供法律保护。将网络数据的保存流通都要做好相关规定,明确标注犯法行为,从根源上保护人们的隐私。

4 结语

大数据安全与隐私保护 篇9

1 大数据时代下隐私的新特点

1.1 大数据时代下的隐私为数据化隐私

在大数据时代下, 隐私也有其独特的特点。与传统的隐私不同, 大数据时代下的隐私最大的特点就是隐私的数据化, 也即是说隐私是以个人数据的形式而出现的。所谓“个人数据”, 指的就是被识别或可识别的自然人的任何信息。对于人们的个人隐私来说, 数据是其在网络环境中的唯一载体。而相较于以往人们认知中的网络数据而言, 大数据的规模更加庞大, 是一种具有“4V”特征的数据集合, 这说明了大数据的真实可靠性, 同时也代表着可以对个人进行全方位识别。例如近年来所流行的一个词汇“人肉搜索”, 指的就是利用大数据对个人隐私数据进行识别的一种行为。

1.2 大数据时代下的隐私具有更大化的价值

无论以目前实际情况而言, 还是就本质角度来看, 个人隐私都正从一种用户的个人独占资源而逐渐转变为可利用的资源。在大数据时代下, 个人隐私已然成为了一种新型商品, 它可以被买卖, 且具有较高的价值。其实, 个人隐私数据被买卖泄漏的例子在日常生活中非常多见, 例如很多人们都会时不时地接到一些推销电话或广告短信等, 而商家之所以会知道用户的电话、姓名及需要, 就是因为通过某种渠道而购买到了用户的个人信息。

1.3 大数据时代下隐私的泄漏途径更加隐匿

大数据的出现无疑方便了人们的工作和生活, 它最大的魅力就在于数据的多维性及数据之间的关联性和交叉性, 这让一些原本看起来毫无关联的信息变得具有了紧密的联系, 而利用这样的关系, 再借助一些相关工具, 有心者很容易就能挖掘出很多让人意想不到的隐私信息。例如有些狗仔队就经常会根据明星在博客上所发布的图片而推断其住址, 这无疑大大侵犯了明星的个人隐私权。这种现象是非常令人震惊和恐怖的, 因为人们往往根本还没意识到自己是在哪里不小心泄漏了自己的个人信息, 个人信息就已经全面暴露在了别人的目光下。可以说, 大数据时代让人们变成了一个透明体, 时时刻刻都处于隐私可能被暴露的状态下。

2 大数据时代下隐私的安全问题

2.1 网站和软件中的强制性条款导致隐私泄漏

目前网络上一些网站在注册时, 或是一些应用程序在安装时, 都会强制性地出现一些用户地理位置、个人信息、网络通信及日志数据等内容的许可条款, 用户如果不接受这些条款, 就无法注册网站或是使用程序。而作为商家, 虽然给予了用户这方面的知情权, 却并未给予其选择权, 用户往往为了一些必要的服务而不得不接受隐私泄露这一事实。

2.2 用户自我泄露隐私数据

随着网络通信的日渐发达, 人们越来越热衷于使用微信、微博等社交工具, 因为这些社交工具能够将天南海北志趣相投的人聚集起来, 以使人们认识更多的同好、和更多的同好进行交流。然而, 虽然社交工具丰富了人们的日常生活、方便了人们的交友, 但却也潜在着许多暴露个人隐私信息的危险。许多用户都会毫无顾忌地在社交网站上发布自己的个人信息, 如购物内容、手机型号、个人照片甚至家庭住址等等, 这无疑是将自己的隐私赤裸裸地泄露在大众面前。

2.3 企业由于利益驱使而主动挖掘用户隐私

现如今, 大数据技术已经在各行各业中得到了广泛运用。例如在制造业中, 可以利用大数据来对采购量及合理库存量进行分析, 可以对客户的需求全面了解以掌握市场动向, 或是直接利用互联网建立网上平台, 从而更加精准地了解客户的喜好。然而, 随着隐私数据所能够带来的价值和利益越来越大, 越来越多的企业开始想尽办法挖掘用户更多的个人隐私, 这造成了用户隐私的大面积泄漏。

3 大数据时代下隐私的保护措施

3.1 加强隐私保护机构建设

目前, 美国、俄罗斯、日本等发达国家已经设立了比较完善的隐私保护机构, 用于专门保护包括网络隐私在内的各种隐私内容。这些隐私保护机构既起到了宣传教育和普法的作用, 又具有着执法功能。而就我国来看, 虽然目前也有一些机构负责隐私保护事务, 如国务院、公安部、工信部等等, 然而却相对缺少专门的隐私保护机构, 因此也无法满足当前人们对大数据隐私保护的迫切需求。

3.2 引导企业合理利用隐私数据

对于大数据隐私保护问题而言, 堵不如疏, 越是强制性地禁止企业及相关组织利用隐私数据, 它们越是会为了利益而暗地里进行使用;而如果不强制性地禁止这一行为, 反而对其加以合理引导的话, 则会达到双赢的局面。因此, 国家应当尽快完善相关法律, 明确隐私数据的可使用范围, 划分隐私安全等级, 允许在保障用户安全的基础上适当使用隐私数据获取一定的利益, 这也是促进国家经济发展的一项有效举措。

3.3 加强隐私保护宣传教育

由于很多个人隐私都是用户自己在没注意的情况下主动泄漏出去的, 所以若想加强隐私保护, 还需要加强人们的隐私保护意识。国家和社会上的有关组织应当要加大对隐私保护的宣传, 使人们了解隐私泄露可能会带来的危害, 提醒人们不要随意在网络上发布自己的个人信息, 从而在根源上切端隐私来源。

4 结语

综上所述, 大数据技术改变了人们的生活, 使世界发生了翻天覆地的变化, 但其隐私保护问题却是不容忽视的, 无论是国家、企业还是个人, 都必须要重视这方面问题, 加强对隐私的保护, 以防隐私数据泄露。

参考文献

[1]陈克非, 翁健.云计算环境下数据安全与隐私保护[J].杭州师范大学学报 (自然科学版) , 2014, 06:561-570+558.

基于位置服务的隐私保护技术综述 篇10

【关键词】位置服务;隐私保护

0.引言

基于位置的服务(Location Based Services,LBS),是指通过移动终端和移动网络的配合,确定移动用户的实际地理位置,提供位置数据给移动应用程序,实现各种与用户位置相关的服务。如查询离自己最近的银行,周边的饭店有哪些,路线导航等。尽管LBS为移动用户提供了极大的便利,但用户隐私信息在LBS中存在着严重的威胁。首先,服务器必须提前获取用户的位置信息才能为用户提供相应的服务,而此服务系统并不能保证服务器的可靠性,一旦服务器被攻击,用户的位置信息将被非法泄露和使用。其次,攻击者可能通过连续监测用户的查询信息挖掘出用户的其他隐私信息,包括用户身份、生活习惯等。因此,如何保证用户隐私的安全性成为基于位置服务中亟待解决的问题。针对以上问题,国内外不少研究人员提出了许多相关的方案和算法,本文将简单介绍目前较为成熟的隐私保护技术。

1.隐私保护技术

现有的隐私信息保护技术主要包括两类:一类是保护用户的身份信息,避免将请求服务的用户的身份信息提供给服务器;另一类是保护用户的真实位置信息,即服务器获取到的只是用户所在位置的模糊区域或者错误信息。主要技术包括虚拟位置技术、K-匿名技术、空间模糊技术、混合区域技术、位置共享技术、位置坐标变换技术等。

当用户请求位置服务时,虚拟位置技术为了隐藏用户的真实位置信息,将用户的真实位置信息同多个伪造的虚假、错误地址信息一起同时发送给服务器。服务器返回所有位置信息的查询结果后,用户自行判断确定正确的查询结果。此技术不需要借助第三方服务器,可在用户端自动完成虚假地址的生成,但多位置信息的伪造和发送对地址生成伪造算法、服务器的请求处理速度和空间大小提出了较高要求。

K-匿名技术通过引入第三方的匿名服务器防止用户身份信息和位置信息的暴露,当用户请求LBS服务时,先把位置信息发送给匿名服务器,匿名器将用户的位置坐标扩大为一个具有K-匿名性质的区域,即区域面积上不小于一定值,并且其范围内包括至少k个用户。因此,即使攻击者获取了用户的位置信息,也不能从k个用户中识别出该用户。虽然此方法匿名效果较好,但匿名服务器的负载较大,易出现阻塞、崩溃的问题,另外,匿名服务器一旦被攻击,用户位置信息将会被泄漏。

空间模糊技术的主要思想是在用户发送位置信息之前,通过降低位置信息的准确性达到位置隐私保护的目的。典型的模糊技术使用包括用户所在位置的圆形区域替代用户的准确位置。其优点是适用于分布式环境,不需要使用第三方代理,但是用户位置准确度的下降有可能会降低位置服务质量。因此如何均衡服务质量和位置精度成为空间模糊技术的首要考虑因素。

混合区域技术定义了一种特殊的空间区域——混合区域。在混合区域中,用户不能发送和请求任何位置服务,但是在混合区域外,用户可以提出服务请求和接收服务信息。为了保护用户身份信息,用户一旦进入混合区域,用户身份就用假名代替,并且和其他用户的假名混合在一起。由于用户进入混合区域前使用某一个假名,出混合区域时使用其他假名,并且在混合区域中没有进行任何通信,增加了将用户前后使用的假名进行关联的难度,避免了被攻击者跟踪的可能性,从而保护了用户的隐私信息,适用于轨迹隐私保护。保护用户轨迹隐私的主要方法是切断用户的多个位置的连续性,或者是增加连接用户多个位置的难度,目前尚处于起步阶段。随着道路导航、线路查询等位置应用的兴起,轨迹隐私保护是今后的一个热点研究方向。

位置共享技术是将用户的精确位置信息利用模糊或者转换等手段进行分割,使其生成一系列精确度逐级下降的位置信息后,由多臺服务器进行分布存储以共享用户位置信息。另外,此模型对LBS应用程序实行授权访问服务器的制度,LBS应用对从不同服务器上获取的多个位置信息进行融合,构造出精确度较为有限的用户位置信息以提供服务。而恶意攻击者即使攻击了多个服务器,也无法获取用户的准确位置信息。基于共享的分布式位置隐私保护模型在保证LBS应用程序服务质量的同时,有效地保障了用户的位置隐私安全。

位置坐标变换技术通过引入第三方可信平台防止用户真实位置信息的暴露。当用户请求位置服务时,位置服务器在定位用户的位置坐标后,并不把其直接发送给程序服务器,而是先将其发送给第三方平台,由平台采用相关算法对用户的真实坐标进行变换并生成虚假坐标后再提供给程序服务器以获取相关服务。此方法使得程序服务器无法获取用户的真实位置信息,但是增加了位置服务器的时间和运算开销。

2.总结

针对基于位置服务带来的用户隐私安全问题,国内外学者对用户隐私保护开展了大量相关研究,提出了很多有用的技术和算法。本文对目前较为成熟的隐私信息保护技术进行了初步总结和讨论。随着通信技术和定位技术的成熟和发展,基于位置服务将会在诸多行业得到更广泛的应用和推广,包括无线公交、网络社交、基于位置的数据挖掘等。用户在享受基于位置服务带来的便利的同时,将会对自身的隐私问题更加关注,这给基于位置服务中的隐私安全研究带来新的挑战。在今后的研究中,一方面要针对位置服务的具体应用分析特定的安全隐患和可能受到的攻击来设计对应的隐私保护技术,一方面要考虑语义地址和连续运动轨迹的隐私信息保护技术和方法。 [科]

【参考文献】

[1]贾金营,张凤荔.位置隐私保护技术综述[J].计算机应用研究,2013,30(3):641-646.

[2]杨朝晖,李善平,林欣.LBS中面向k-匿名服务资源约束的匿名度调节算法[J].浙江大学学报:工学版,2011,45(7):1154-1160.

[3]魏琼,卢炎生.位置隐私保护技术研究进展[J].计算机科学,2008,35(9):21-25.

[4]庄致,李建伟.加强位置隐私保护的策略[J].计算机工程与设计,2010,31(5).

数据挖掘的隐私保护研究 篇11

(一) 基本概念

1数据挖掘

数据挖掘的定义很多, 表达方式各不相同。从技术角度看, 数据挖掘是从大量的、不完全、有噪声的、模糊的、随机的实际数据中, 提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程;从商业角度看, 数据挖掘是一种崭新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理, 从中提取辅助商业决策的关键知识, 即从一个数据库中自动发现相关商业模式。

数据挖掘是从数据库中知识发现中的一部分, 而知识发现是将原始数据转化为有用知识的整个过程。当数据挖掘成为普及的涵盖面更广的术语时, 数据挖掘与知识发现之间的界限就不是那么明确了。事实上, 在现如今大多数场合中, 这两个术语的使用是不加以区别的, 本文也不区分。知识发现是一个多步骤的过程, 典型的知识发现过程包括以下几个步骤:

(1) 数据抽取与集成 (抽取各个数据源的所需数据, 进行合并处理)

(2) 数据预处理与清洗 (对数据再加工, 消除噪声等)

(3) 数据选择与变换 (选择相关数据, 统一成适合挖掘的形式)

(4) 数据挖掘 (用智能的方法提取数据模式)

(5) 模型评估 (根据需要, 识别表示知识的真正有趣的模式)

(6) 知识表示 (使用可视化等各种知识表示技术, 向用户提供所挖掘的知识)

2数据挖掘中的隐私

不同的环境下对隐私的定义不同。数据挖掘中涉及的隐私主要有: (1) 个人隐私, 一般指的是用户的一些能够识别用户身份的标识, 如姓名、年龄、家庭住址、电话号码等, 或者是用户某些行为产生的信息, 例如购物信息, 医疗信息等; (2) 公共隐私, 两个或多个机构, 企业为了共同的利益, 他们合作进行挖掘, 在挖掘过程中都不愿意将自己的某些信息泄露给他方。

隐私保护的主要目标是使用某种方法对原始数据进行处理, 使得私有数据和知识在挖掘之后仍然是私有的。不但要在开始时对某些信息进行保护, 而且对挖掘过程中产生的敏感规则也要进行保护, 还要考虑挖掘产生的结果是否会包含某些重要的隐私信息。

(二) 数据挖掘的隐私保护分类

1999年, Rakesh Agrawal在KDD99中提出将数据挖掘的隐私保护将作为未来的研究重点之一, 此后, 数据挖掘的隐私保护得到了发展, 许多方法不断的涌现。从不同的角度对数据挖掘的隐私保护方法的分类也不同。2004年, Vassilions S.Verykios和Elisa Bertino等人从数据分布、数据修改、数据挖掘算法、数据及规则的隐藏及隐私保护技术五个角度对现有的较为典型的隐私保护数据挖掘算法进行了分类。

1. 数据的分布方式

根据数据的分布情况, 可以分为集中式数据和分布式数据的隐私保护技术, 其中分布式数据的隐私保护技术又分为水平分割和垂直分割的隐私保护技术。水平分割主要是指数据按记录分布于多个机构或组织, 垂直分割主要指数据按属性分布于多个机构或组织。

2. 数据修改

为了确保原始数据中的隐私信息不被泄露, 原始数据在被公开之前要进行一定的修改、伪装, 数据修改方案需要和隐私保护策略相结合。常用的数据修改方法主要有一下几种:

(1) 值替代方法:即将原始数据的属性值替换为一个新的值, 或者用一个符号替代一个已存在的值, 以此来保护敏感的数据和规则;

(2) 聚集的方法:将多个详细的数据进行合并或者抽象为更高层次的数据;

(3) 取样方法:即抽样, 在数据集中抽取样本数据;

(4) 交换方法:记录值之间的交换;

3. 数据挖掘算法

目前数据隐藏技术都是在不同的挖掘算法中进行考虑的, 不同的挖掘算法应用的隐私保护技术不同, 例如:决策树算法、关联规则算法、聚类分析等挖掘算法。

4. 隐私保护的对象

这主要是指对原始数据的隐藏还是对隐含规则的隐藏。通常隐藏规则比伪装原始数据要复杂很多, 有时通过保护敏感的隐含规则, 往往能同时起到保护重要原始数据的目的。

5. 隐私保护技术

指修改数据所采用的技术。主要有以下几种:

(1) 基于启发式的隐私保护技术:仅修改一些特定值, 而非所有数值, 以减少挖掘效果的偏离;

(2) 基于密码学的隐私保护技术:利用密码学方法来对数据进行加密, 典型的是多方安全计算 (SMC) 方法, 参与计算的各方只能获得自己所提供的输入数据以及最终结果, 对其他参与者的数据一无所知;

(3) 基于重构技术的方法:将数据进行变换后, 再对原始分布进行重构。

(三) 数据的分布方式

1. 集中式数据分布

(1) 聚类的隐私保护

该算法主要采用对原始数据进行几何变换, 例如平移、缩放和旋转等方法以实现对数据的保护。

Stanley R.M.Oliveira先后提出通过几何变换和旋转变换 (RBT) 来变换数据的方法。后一种方法解决了前一种方法对维数的限制。

RBT算法首先要将数据视为m行n列的矩阵D, 行数据为数据记录, 列数据表示属性, 并定义一个变换矩阵:

, 随后进行数据规范化, 数据匿名化, 数据变换。其中数据变换主要是以下三步:1、将数据集D的属性任意两两配对, 设为任意一对属性对, 其中Ai和Aj分别表示D的第i列和第j列数据的转置所组成行矩阵。属性个数n为偶数时, 组成n/2对, n为奇数时, 组成对属性对。令, 其中'Ai和'Aj分别表示数据'D第i列和第j列数据的转置所组成的行矩阵;2、预先给定两个均大于0的阈值α1和α2, 求解θ的范围θ1≦θ≦θ2, 使得θ满足D (Ai-'Ai) ≧α1, D (Aj-'Aj) ≧α2;3、θ随机取[θ1, θ2]中的一个值, 重新计算Sij′=R·Sij。依次计算每一对属性值对, 最终得到变换后的数据D′。

此算法是基于旋转变换的等距变换, 因此在变换前后挖掘结果相同。但是因为旋转角度θ旋转范围是根据要求的最低的隐私保护度来确定的, 所以当对隐私保护的要求较高时, 算法有可能无法取得合适的旋转角度。

(2) 分类的隐私保护

Chang Li Wu, Moskowitz I S.提出了吝啬降级法。其中降级是指从敏感级或隐私级降低到可以公布级即低级别。算法通过产生一个称之为参变量基础集的方法来实现数据的降级。用参数θ∈[0, 1]来取代敏感数据。同时对于降级前和降级后的数据值的熵进行计算, 是二者的差值同数据库变化前后置信度的降低程度比较, 从而得出这种对数据库的修改是否是可以接受的, 也即是否对数据库的影响是最小的。

(3) 重构技术

重构技术主要分为数值型数据的重构技术以及二进制数据与分类数据的重构技术。对于数值型数据的重构典型的方法是Rakesh Agrawal的数据离散化方法与值变形方法, 通过添加随机偏移量来修改原始数据, 然后用重构原始数据的分布;对于二进制数据与分类数据的重构技术, Alexandre Evfimievski利用了统一随机化技术对部分数据进行修改的关联规则算法。即将一个交易发送给服务器前, 客户端取走每一个项时将以概率p替换为原先在交易中没有的新项, S.J.Riziv等人利用贝努力概率模型提出了一种成为MASK的算法。其使用的数据库是固定长度的0, 1序列组成的, 算法对所有原始数据按照贝努力概型进行变换, 即设原始数据为X={Xi}, Xi=0或1, 使用变换函数Y=distort (X) , 其中Yi=Xi Xor ri, ri是服从贝努力分布的一个随机变量, 即取1的概率为p, 取0的概率为1-p。但是此算法对数据变换耗费的时间和空间较大。

2. 分布式数据分布

(1) 数据垂直分布

垂直分布数据, 数据是按属性分布在各个站点, 在此条件下可以通过发现项集的支持计数来进行数据挖掘。因此, 如果数据的某个项集的支持计数可以被安全地计算, 则通过检查计数和预先设定的阈值比较, 就可以知道该项集是否是频繁项集。Jaideep Vaidya提出了一种不向对方公布向量的计算标量积的方法。其依据是一个n元线性方程组, 方程组的个数小于n, 那么结果是不确定的。通过这样的方法可以达到保护隐私的目的, 还能保证各方只能得到全局的频繁项集和关联规则。对各站点将其拥有的属性构成一个n维系数矩阵, 通过产生随机的n个数R1, R2, …, Rn, 使之与其拥有的属性线性组合, 通过交换计算结果得到规则。

(2) 数据水平分布

数据水平分布是数据按着记录分布在各个站点, 对其进行隐私保护, 就是要各个站点在不必知道其他站点的具体记录信息的情况下就可以计算出全局的关联规则。针对各参与方既想联合进行数据挖掘又不愿意泄漏各自的信息, 由此产生了半可信第三方, 即遵守事先约定的协议, 合作的多方只向第三方发送和接收数据, 第三方对这些数据进行计算, 并将最终结果传给合作的各方。

(四) 算法的评估

目前还没有一个能针对各种数据集, 各种挖掘算法的有效的隐私保护策略, 当前算法都是针对特定的数据集, 特定的挖掘算法研究设计的, 对于在什么情况下用什么样的算法应该从以下几点考虑:

1. 保密性

方法研究的是对数据挖掘的隐私保护, 首要考虑的是对隐私数据保密的程度。目前的算法中不能保证做到完全保密, 每个算法的保密性都是有限的, 根据不同的保密需要选择不同的隐私保护方法;

2. 挖掘效果

指对隐私数据进行处理后, 数据挖掘的结果是否可用。若经过处理后, 得到的数据挖掘的结果是错误的, 或者不能反映真实的情况, 那么原来的数据失去了价值, 挖掘做了无用功, 相应的隐私保护处理也就失去了意义。因此在考虑保密性的同时, 数据挖掘的结果还要相对准确;

3. 算法复杂度

算法复杂度是衡量所有算法的一个标准, 当然对于隐私保护也不例外。在考虑算法的有用性的基础上也要考虑算法的可行性, 应使算法的复杂度尽可能的低, 这是在设计方法时的一个重要目标。

(五) 结束语

本文从数据分布的角度介绍、分析了数据挖掘隐私保护的几种算法, 每类隐私保护技术都有不同的特点, 在不同的需求下各个技术的应用范围不同, 但是没有一个可以通用的算法, 算法的可扩展性不强, 各个算法的各项性能也不是都很好, 所以接下来寻找通用的算法, 和改进算法的各方面性能是需要进一步研究的。

摘要:随着数据量的增大, 数据挖掘技术应用不断扩大, 如何在挖掘过程中不泄露私有信息或敏感知识, 同时能得到比较准确的挖掘效果, 已经成为数据挖掘研究中的一个热点课题。文章从数据分布的角度结合挖掘算法对目前几种关键的隐私保护方法进行了介绍、分析, 给出算法的评估, 最后分析总结了数据挖掘隐私保护未来的研究方向。

关键词:数据挖掘,隐私保护

参考文献

[1]刘颖.数据挖掘领域的信息安全问题_隐私保护技术浅析[J].计算机安全.2007, 7.

[2]陈晓明, 李军怀, 等.隐私保护数据挖掘算法综述[J].计算机科学.2007, Vol.34No.6.

[3]陈芸, 张伟.隐私保护数据挖掘方法的研究[J].微计算机信息, 2006, Vol.22No.73.

[4]Vassilios S.Verykios, Elisa Bertino, Igor Nai Fovino, Loredana Parasiliti Provenza, Yucel Saygin, Yannis Theodoridis.State of the art in Privacy Presserving Data Mining[A].ACM SIGMO Record[C], March2004, Vol.33, No.1.

上一篇:视觉冲击力下一篇:西北风