隐私数据挖掘

2024-10-01

隐私数据挖掘(精选12篇)

隐私数据挖掘 篇1

随着计算机和网络信息技术的发展, 人们产生和搜集的数据大大增加, 各行各业的历史数据量猛增。怎样从这些数据中获得有用的知识、信息, 对数据分析提出了新的要求。数据挖掘刚好可以解决此问题, 可以利用这些数据, 得到有用的数据信息或结果, 从而帮助决策者制定更好的决策, 但是与此同时产生了一个重要问题那就是信息的泄露。各行业, 各企业单位既想获得数据挖掘的有用结果, 又不想将自己拥有的某些数据信息泄露给他方或他人。因此, 如何在有效的数据挖掘中保护隐私数据已经成为一个重要问题。

(一) 基本概念

1数据挖掘

数据挖掘的定义很多, 表达方式各不相同。从技术角度看, 数据挖掘是从大量的、不完全、有噪声的、模糊的、随机的实际数据中, 提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程;从商业角度看, 数据挖掘是一种崭新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理, 从中提取辅助商业决策的关键知识, 即从一个数据库中自动发现相关商业模式。

数据挖掘是从数据库中知识发现中的一部分, 而知识发现是将原始数据转化为有用知识的整个过程。当数据挖掘成为普及的涵盖面更广的术语时, 数据挖掘与知识发现之间的界限就不是那么明确了。事实上, 在现如今大多数场合中, 这两个术语的使用是不加以区别的, 本文也不区分。知识发现是一个多步骤的过程, 典型的知识发现过程包括以下几个步骤:

(1) 数据抽取与集成 (抽取各个数据源的所需数据, 进行合并处理)

(2) 数据预处理与清洗 (对数据再加工, 消除噪声等)

(3) 数据选择与变换 (选择相关数据, 统一成适合挖掘的形式)

(4) 数据挖掘 (用智能的方法提取数据模式)

(5) 模型评估 (根据需要, 识别表示知识的真正有趣的模式)

(6) 知识表示 (使用可视化等各种知识表示技术, 向用户提供所挖掘的知识)

2数据挖掘中的隐私

不同的环境下对隐私的定义不同。数据挖掘中涉及的隐私主要有: (1) 个人隐私, 一般指的是用户的一些能够识别用户身份的标识, 如姓名、年龄、家庭住址、电话号码等, 或者是用户某些行为产生的信息, 例如购物信息, 医疗信息等; (2) 公共隐私, 两个或多个机构, 企业为了共同的利益, 他们合作进行挖掘, 在挖掘过程中都不愿意将自己的某些信息泄露给他方。

隐私保护的主要目标是使用某种方法对原始数据进行处理, 使得私有数据和知识在挖掘之后仍然是私有的。不但要在开始时对某些信息进行保护, 而且对挖掘过程中产生的敏感规则也要进行保护, 还要考虑挖掘产生的结果是否会包含某些重要的隐私信息。

(二) 数据挖掘的隐私保护分类

1999年, Rakesh Agrawal在KDD99中提出将数据挖掘的隐私保护将作为未来的研究重点之一, 此后, 数据挖掘的隐私保护得到了发展, 许多方法不断的涌现。从不同的角度对数据挖掘的隐私保护方法的分类也不同。2004年, Vassilions S.Verykios和Elisa Bertino等人从数据分布、数据修改、数据挖掘算法、数据及规则的隐藏及隐私保护技术五个角度对现有的较为典型的隐私保护数据挖掘算法进行了分类。

1. 数据的分布方式

根据数据的分布情况, 可以分为集中式数据和分布式数据的隐私保护技术, 其中分布式数据的隐私保护技术又分为水平分割和垂直分割的隐私保护技术。水平分割主要是指数据按记录分布于多个机构或组织, 垂直分割主要指数据按属性分布于多个机构或组织。

2. 数据修改

为了确保原始数据中的隐私信息不被泄露, 原始数据在被公开之前要进行一定的修改、伪装, 数据修改方案需要和隐私保护策略相结合。常用的数据修改方法主要有一下几种:

(1) 值替代方法:即将原始数据的属性值替换为一个新的值, 或者用一个符号替代一个已存在的值, 以此来保护敏感的数据和规则;

(2) 聚集的方法:将多个详细的数据进行合并或者抽象为更高层次的数据;

(3) 取样方法:即抽样, 在数据集中抽取样本数据;

(4) 交换方法:记录值之间的交换;

3. 数据挖掘算法

目前数据隐藏技术都是在不同的挖掘算法中进行考虑的, 不同的挖掘算法应用的隐私保护技术不同, 例如:决策树算法、关联规则算法、聚类分析等挖掘算法。

4. 隐私保护的对象

这主要是指对原始数据的隐藏还是对隐含规则的隐藏。通常隐藏规则比伪装原始数据要复杂很多, 有时通过保护敏感的隐含规则, 往往能同时起到保护重要原始数据的目的。

5. 隐私保护技术

指修改数据所采用的技术。主要有以下几种:

(1) 基于启发式的隐私保护技术:仅修改一些特定值, 而非所有数值, 以减少挖掘效果的偏离;

(2) 基于密码学的隐私保护技术:利用密码学方法来对数据进行加密, 典型的是多方安全计算 (SMC) 方法, 参与计算的各方只能获得自己所提供的输入数据以及最终结果, 对其他参与者的数据一无所知;

(3) 基于重构技术的方法:将数据进行变换后, 再对原始分布进行重构。

(三) 数据的分布方式

1. 集中式数据分布

(1) 聚类的隐私保护

该算法主要采用对原始数据进行几何变换, 例如平移、缩放和旋转等方法以实现对数据的保护。

Stanley R.M.Oliveira先后提出通过几何变换和旋转变换 (RBT) 来变换数据的方法。后一种方法解决了前一种方法对维数的限制。

RBT算法首先要将数据视为m行n列的矩阵D, 行数据为数据记录, 列数据表示属性, 并定义一个变换矩阵:

, 随后进行数据规范化, 数据匿名化, 数据变换。其中数据变换主要是以下三步:1、将数据集D的属性任意两两配对, 设为任意一对属性对, 其中Ai和Aj分别表示D的第i列和第j列数据的转置所组成行矩阵。属性个数n为偶数时, 组成n/2对, n为奇数时, 组成对属性对。令, 其中'Ai和'Aj分别表示数据'D第i列和第j列数据的转置所组成的行矩阵;2、预先给定两个均大于0的阈值α1和α2, 求解θ的范围θ1≦θ≦θ2, 使得θ满足D (Ai-'Ai) ≧α1, D (Aj-'Aj) ≧α2;3、θ随机取[θ1, θ2]中的一个值, 重新计算Sij′=R·Sij。依次计算每一对属性值对, 最终得到变换后的数据D′。

此算法是基于旋转变换的等距变换, 因此在变换前后挖掘结果相同。但是因为旋转角度θ旋转范围是根据要求的最低的隐私保护度来确定的, 所以当对隐私保护的要求较高时, 算法有可能无法取得合适的旋转角度。

(2) 分类的隐私保护

Chang Li Wu, Moskowitz I S.提出了吝啬降级法。其中降级是指从敏感级或隐私级降低到可以公布级即低级别。算法通过产生一个称之为参变量基础集的方法来实现数据的降级。用参数θ∈[0, 1]来取代敏感数据。同时对于降级前和降级后的数据值的熵进行计算, 是二者的差值同数据库变化前后置信度的降低程度比较, 从而得出这种对数据库的修改是否是可以接受的, 也即是否对数据库的影响是最小的。

(3) 重构技术

重构技术主要分为数值型数据的重构技术以及二进制数据与分类数据的重构技术。对于数值型数据的重构典型的方法是Rakesh Agrawal的数据离散化方法与值变形方法, 通过添加随机偏移量来修改原始数据, 然后用重构原始数据的分布;对于二进制数据与分类数据的重构技术, Alexandre Evfimievski利用了统一随机化技术对部分数据进行修改的关联规则算法。即将一个交易发送给服务器前, 客户端取走每一个项时将以概率p替换为原先在交易中没有的新项, S.J.Riziv等人利用贝努力概率模型提出了一种成为MASK的算法。其使用的数据库是固定长度的0, 1序列组成的, 算法对所有原始数据按照贝努力概型进行变换, 即设原始数据为X={Xi}, Xi=0或1, 使用变换函数Y=distort (X) , 其中Yi=Xi Xor ri, ri是服从贝努力分布的一个随机变量, 即取1的概率为p, 取0的概率为1-p。但是此算法对数据变换耗费的时间和空间较大。

2. 分布式数据分布

(1) 数据垂直分布

垂直分布数据, 数据是按属性分布在各个站点, 在此条件下可以通过发现项集的支持计数来进行数据挖掘。因此, 如果数据的某个项集的支持计数可以被安全地计算, 则通过检查计数和预先设定的阈值比较, 就可以知道该项集是否是频繁项集。Jaideep Vaidya提出了一种不向对方公布向量的计算标量积的方法。其依据是一个n元线性方程组, 方程组的个数小于n, 那么结果是不确定的。通过这样的方法可以达到保护隐私的目的, 还能保证各方只能得到全局的频繁项集和关联规则。对各站点将其拥有的属性构成一个n维系数矩阵, 通过产生随机的n个数R1, R2, …, Rn, 使之与其拥有的属性线性组合, 通过交换计算结果得到规则。

(2) 数据水平分布

数据水平分布是数据按着记录分布在各个站点, 对其进行隐私保护, 就是要各个站点在不必知道其他站点的具体记录信息的情况下就可以计算出全局的关联规则。针对各参与方既想联合进行数据挖掘又不愿意泄漏各自的信息, 由此产生了半可信第三方, 即遵守事先约定的协议, 合作的多方只向第三方发送和接收数据, 第三方对这些数据进行计算, 并将最终结果传给合作的各方。

(四) 算法的评估

目前还没有一个能针对各种数据集, 各种挖掘算法的有效的隐私保护策略, 当前算法都是针对特定的数据集, 特定的挖掘算法研究设计的, 对于在什么情况下用什么样的算法应该从以下几点考虑:

1. 保密性

方法研究的是对数据挖掘的隐私保护, 首要考虑的是对隐私数据保密的程度。目前的算法中不能保证做到完全保密, 每个算法的保密性都是有限的, 根据不同的保密需要选择不同的隐私保护方法;

2. 挖掘效果

指对隐私数据进行处理后, 数据挖掘的结果是否可用。若经过处理后, 得到的数据挖掘的结果是错误的, 或者不能反映真实的情况, 那么原来的数据失去了价值, 挖掘做了无用功, 相应的隐私保护处理也就失去了意义。因此在考虑保密性的同时, 数据挖掘的结果还要相对准确;

3. 算法复杂度

算法复杂度是衡量所有算法的一个标准, 当然对于隐私保护也不例外。在考虑算法的有用性的基础上也要考虑算法的可行性, 应使算法的复杂度尽可能的低, 这是在设计方法时的一个重要目标。

(五) 结束语

本文从数据分布的角度介绍、分析了数据挖掘隐私保护的几种算法, 每类隐私保护技术都有不同的特点, 在不同的需求下各个技术的应用范围不同, 但是没有一个可以通用的算法, 算法的可扩展性不强, 各个算法的各项性能也不是都很好, 所以接下来寻找通用的算法, 和改进算法的各方面性能是需要进一步研究的。

摘要:随着数据量的增大, 数据挖掘技术应用不断扩大, 如何在挖掘过程中不泄露私有信息或敏感知识, 同时能得到比较准确的挖掘效果, 已经成为数据挖掘研究中的一个热点课题。文章从数据分布的角度结合挖掘算法对目前几种关键的隐私保护方法进行了介绍、分析, 给出算法的评估, 最后分析总结了数据挖掘隐私保护未来的研究方向。

关键词:数据挖掘,隐私保护

参考文献

[1]刘颖.数据挖掘领域的信息安全问题_隐私保护技术浅析[J].计算机安全.2007, 7.

[2]陈晓明, 李军怀, 等.隐私保护数据挖掘算法综述[J].计算机科学.2007, Vol.34No.6.

[3]陈芸, 张伟.隐私保护数据挖掘方法的研究[J].微计算机信息, 2006, Vol.22No.73.

[4]Vassilios S.Verykios, Elisa Bertino, Igor Nai Fovino, Loredana Parasiliti Provenza, Yucel Saygin, Yannis Theodoridis.State of the art in Privacy Presserving Data Mining[A].ACM SIGMO Record[C], March2004, Vol.33, No.1.

[5]Chang Li Wu, Moskowitz I S..Parsimonious downgrading and decisions trees applied to the inference problem.In:Proceedings of the1998New Security Paradigms Workshop, 1998.82-89.

隐私数据挖掘 篇2

摘要:

大数据时代下信息技术发展异常迅猛,发展至今在社会各领域获得了广泛的普及,极大便利了人们日常生活与工作,但同时也给人们带来了相应的困扰,其中最为明显的就是网络安全问题。因此,如何在大数据时代下解决好网络安全问题,保护好人们的隐私数据不被泄露成为众多相关学者与相关研究人员重点关注、研究的一个问题。而要想解决这一问题就必须深入分析其背后成因,在此基础上采取针对性策略予以应对。文章从大数据的内涵分析着手,探讨大数据时代下的网络安全与隐私保护问题,并针对这些问题提出切实可行的应对策略。

关键词:

大数据时代的隐私绑架 篇3

[中图分类号]:G20 [文献标识码]:A

[文章编号]:1002-2139(2016)-15--01

最近几年,大数据轰轰烈烈的频繁的出现在我们的视野中,数据之于信息社会就如同在工业革命时代煤炭跟石油为时代进步提供了力量与源泉,大数据为我们提供了创新的机遇跟挑战。但是我们在拥抱大数据的时候,在享受大数据给我们的生活,生产和思维方式带来巨大变革的时候,我们个体的隐私是否同样受到了巨大的威胁?

我们身处信息社会,在无处不在的移动互联网中,我们的每一次鼠标的点击,每天上网的浏览痕迹都被一个我们无法触摸的黑箱记录。我们的购物习惯被淘宝,被亚马逊监视,浏览网页的习惯被谷歌被百度监视,而微博似乎知道我们的一切,我们今天吃了什么,看了什么,去哪里玩。当这些信息,这些数据足够多的时候,他便可以拼凑出在虚拟世界中的真实的自己,你的喜好,你的动向,都会被预测出来,就像是生活在一个透明的玻璃屋中,我们的隐私都被第三只眼窥视。

在大数据环境中,我们自己有意识的对隐私进行保护似乎显得微不足道,或许你刻意隐藏了包含自己姓名,证件号,信用卡号等数据的个人信息,而忽略了其他的不包含个人信息的数据,比如你一个月的水电费,网费,你在超市的购物清单等你意想不到的生活细节,这些表面上并不是传统的个人数据,但是如果经过大数据的集中处理,这些信息就可以把藏在背后的你给挖出来。比如在美国跟欧洲使用的智能电表,它会每六秒采集一个事实数据,这样一天收集到的数据比过去传统电表收集的数据还要多。因为每个用电设备都有自己独特的负荷特征,比如热水器不同于电视,他们与led灯又不同,所以对个人能源使用情况数据进行采集处理,就能暴露一个人的日常生活习惯,医疗条件,甚至是信用评估和是否从事非法行为这样的个人信息,细思极恐。

在大数据时代,不是因为有你存在才有数据,而是因为有了数据你才存在。

我们是怎样在无意中公开自己的隐私的呢?从Twitter跟Facebook的一组数据可以略见一斑。截止2011年3月,Twitter每天发送的微博量达到1.7亿条,每天产生的用户数据在12TB,仅2013年12月,Facebook用户单击赞的次数达到27亿次,上传3亿张照片,也许你会觉得这么多数据跟我有什么关系,我还是在网络中隐身匿名地存在着,但是你有没有想过,当有足够的数据聚集,在网络世界中,我们就是透明的,无论如何都做不到完全的匿名化。你在微博发表的喜怒哀乐的状态,各种表情的照片等信息被企业采集处理的过程中这些消息跟情绪变成了一种可测量的数据,被公司利用进而推销产品。美国一家target公司,给一个正在读高中的女生寄了婴儿服和婴儿床的优惠券,她的父亲很气愤的去找公司经理说:我女儿还是高中生,你们是在鼓励她怀孕吗?而几天后经理打电话给父亲道歉时,这个父亲的语气变得平和一些,他说:我跟我的女儿谈过了,她的预产期是八月份,我完全没有意识到这件事情的发生。原来target公司注意到,妇女会在怀孕三个月左右的时候买很多无香乳液,在五个月左右时候会买一些钙镁锌等营养品,公司大约找到20种相关物,利用这些相关物跟妇女最近购买习惯给顾客进行“怀孕趋势”评分,这些相关关系能够比较准确地预测预产期,这样他们就能在孕期的每个阶段给客户寄去相应的优惠券。

无论政府还是企业,都在我们不知情的情况下采集了我们日常生活方方面面的数据,并且进行了数据共享以及一些我们未知的应用,这是很恐怖的。不过,虽然政府跟企业拥有采集我们个人信息的能力,让我们感到些许的不安,但是我们面临一种更严重的情况,那就是通过大数据来预测我们的行为。

好莱坞科幻电影《少数派报告》通过三个超自然人的预测,把将要实施犯罪行为的嫌疑人跟被害者的名字刻在两个小球上,警方在犯罪嫌疑人还没实施犯罪时候就可以将其抓获。罪犯在实施犯罪前就受到了惩罚,但是他们什么都没做。而在现实生活中,大数据充当了科幻电影中超自然人的角色,在美国很多城市采用了“预测警务”,也就是通过大数据分析来决定哪一条街道,哪一些个人需要更加严密的监控,这么做的原因也仅仅是系统指出他们更有可能犯罪。我们以后可能会因为“将做”而受到惩罚,而不是“所做”。如果大数据分析完全准确,那么我们未来的社会会被精准的预测,在未来我们将会失去选择的权利,而且会按照预测去行动,我们将失去自由意志,我们在人们真正犯罪之前对他进行惩罚否定了人的自由权利,我们永远不会知道受惩罚的人是否会真正犯罪,我们的预测也永远无法得到证实。

大数据隐私安全保护 篇4

关键词:大数据,隐私,保护

1 大数据时代的来临

大数据时代已到来。什么是大数据?大数据,英文为Big Data。关于大数据研究机构Gartner给出了这样的定义。大数据是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。简单来说,就是大数据可以将人们在网络上留下的信息数据收集、处理和分类,并反馈给人们。为什么说大数据时代来临了?如今网民数量增加,人们上网时间增长,留下的信息数据越来越多,网络可以将这些信息都收集起来,形成巨大的数据网。人人都在这个数据网中,人人都活在大数据时代下。大数据时代的来临也带来了隐私安全问题。细想一下,处于网络时代,人们的生活离不开网络,一旦人们在网上浏览信息、购买物品等,这些都会留下个人信息,而网络将这些信息以数据的形式记录下来,并将这些数据再反馈到你平常浏览的网站中,有时一些网站如淘宝会收集这些信息并进行数据分析,这样下次再登陆淘宝网站时就会推送你感兴趣的东西。大数据会一点一点收集个人的数据,并能很清楚地了解人们。

2 大数据时代对隐私安全的影响

大数据时代人人如同在玻璃房中,人们的隐私与安全变得岌岌可危。试想一个人在网络上留下大量信息,如果网站对这些信息保密不严,会导致犯罪分子沿着这些蛛丝马迹找到这个人的现实生活信息,如他的名字、地址、联系方式等,那么这个人的生命安全就有危险。虽然这只是一种假设,但却有真实存在的类似案例,又或者说即使这样的人不多,人们在网上留下的痕迹,就足以使个人隐私遭到侵害。比如在一些社交网站中,如新浪微博、微信等,这些网站或平台都有个人主页的设置,在网络刚刚时兴时,人们还对在网络留下真实信息有所顾忌,但在这几年随着网络的发展,人们越来越放得开,不再顾忌自己的真实姓名等一些真实信息的透露。再者浏览这些社交网站时,网站会记录人们浏览的痕迹,比如曾浏览的某位明星的动态就会记录在你个人的用户账号上,并随着留下的痕迹越来越多,可以分析出来你喜爱的明星、喜爱的事物、平常的兴趣等,甚至加上对时间的分析,可以分析出你喜欢的东西是这一段时间还是较为长久的兴趣。再有随着网上购物的发展,一些支付平台作为第三方也在记录着人们的真实信息。比如支付宝、蚂蚁花呗等APP。人们在网上购买物品,通过第三方支付平台转账,这些平台会绑定你的银行卡、信用卡,这样它就会记录你的财产信息,有时甚至会要求实名认证,这样你的姓名、性别、身份证号和籍贯也被记录下来。现在随着电子科技的发展,一些手机或客户端还会记录你的指纹信息,这些指纹信息则会被记录在这些电子科技公司当中。再加上随着时代的发展,网络技术会越来越发达,就无隐私可言了。在大数据的记录下,人人都是透明的。

那么记录的数据到底保存在哪呢?这些数据掌握在软件等电子科技公司的手中。比如百度、阿里巴巴、苹果等,甚至一些小网站上。信息数据掌握在这些公司手中,一些大公司或集团或许会将数据保守好,但一些小型网站会轻易被金钱收买,用数据换取利益,甚至还有一些强势企业公开表明愿意共享手中的数据。这在普通百姓层中没有引起轩然大波,因为人们还没意识到,那些数据正是由自己的信息所累积的。

网络时代同时为人们搭起了社交之桥,人们可以通过一根网线聊天、认识朋友。同样诈骗集团和犯罪分子也会通过网线来获取利益。他们会装作你的朋友与你交谈,诈取你的财产,犯罪分子甚至约你在现实中见面,这会威胁到你的人身安全,他们所掌握的信息都是从大数据中获取。通过购买或盗窃一个人的网络记录,来分析一个人的真实状态,大数据威胁到的不只是隐私还有人身财产安全。

3 保护自己的隐私安全的措施

一部分人已具备隐私意识,可以减少自己的隐私在网上透露。在上网时,人们应对自己的隐私有清楚认识,并着重注意自己的隐私有没有在不经意间透露。以下是在大数据时代下隐私安全保护的措施。

3.1 及时清除信息记录、Cookies记录

在上网时不可避免会有一些足迹留下并被采集,虽然无法完全阻止,但是可以减少自己隐私被曝光。简单的做法就是清楚网站的Cookies记录,虽说网站背后的科技公司会将数据记录在自己的公司设备当中,但清除Cookies会阻碍部分信息外露。上网之后将自己的信息足迹删除可以有效避免一些追踪手段。我们网上的足迹多为浏览网页、下载资料、观看视频或者聊天信息。例如我国的聊天软件巨头腾讯QQ,之前腾讯软件上的聊天记录可以一直帮你保存记载,自己可以调取观看,但现在腾讯QQ将聊天记录的时限限制在1~2天。导致无法调取之前的记录,除非开通记录漫游来调取聊天记录。但是虽然在表面上无法查看我们之前的聊天记录,但腾讯公司却一直记录着。很多隐私腾讯主机都知道,但这些在一定程度上无法避免。腾讯主机有程序保护,但我们的电脑上没有相关程序保护,所以要及时清除记录,减少信息泄露。或者在使用公用电脑时,清除上网记录,他人就无法找到相关信息了。

3.2 减少社交网站上个人信息填写

现如今,社交网站也是数据收集的地方之一。目前,社交网站的流行与发展,越来越多的人已不在意自己真实信息透露。但正是由于社交网络的发展,人们越来越不能把守自己的真实信息,这导致人人都处于暴露的状态下。这或许是大数据时代和网络时代到来的必然,但网民们仍要有保护自己隐私的意识,比如在新浪微博的个人主页上,应慎重填写信息,将一些信息虚拟化,这会更好地保护自己的隐私。社交网络上的个人信息会被很多陌生人查看,所以要有意识地保护自己,不留过多的重要的真实信息。

3.3 避免向陌生人透露自己的信息

网络是个复杂的地方,网线对面的陌生人无法判断出好坏,这就需要人们在网络上进行人际交往的过程中,首先要建立一道保护墙,防范网络对面的陌生人,学会保护自己,如果透露过多的信息,你的人身财产安全将会受到伤害。所以,不要透露自己的真实信息给陌生人,要对陌生人有防范意识。

3.4 规范网上信息隐私相关法律条约

上述三个措施都是从自身做起保护隐私与安全,但随着网络与大数据的发展,要想真正要保护人们的隐私安全,最根本的还是要建立健全网络数据信息的保护制度,只有规范制度,才能有效阻止信息数据泄露。这些制度不仅要针对每个网民,还要重点针对掌握大数据的企业集团,强制性要求这些集团签订隐私保护条约,为人们上网提供法律保护。将网络数据的保存流通都要做好相关规定,明确标注犯法行为,从根源上保护人们的隐私。

4 结语

隐私数据挖掘 篇5

【IT168 信息化】

近日,看到一篇关于互联网个人隐私的报到《个人隐私:互联网新金矿》文中指出,现阶段的互联网已经发现了新的金矿。互联网它在也不是过去仅仅满足于大众化信息发布,更多的是一种精确营销。

互联网给我们带来大量的信息,提供了大量的机会,互联网的崛起,也成为推动企业的发展重要手段。但互联网发展的同时,个人信息安全也将受到很严重的威胁。资料显示,据《华尔街日报》近日做的调查显示,全美最大的50家网站在每个访问者的电脑上平均安装了64种追踪技术。“收集客户的信息和行为方式,是很多互联网公司都在做的事情。即使现在没做,将来也会做。”对互联网技术素有研究的魏章(化名)告诉记者,新型的网络追踪技术正在让个人隐私无所遁形,而出卖客户信息则成为互联网新的生财之道。而某些数据中间商所掌握的分析技术正在改变互联网的面貌。

追踪技术的背后是大量的数据分析

作为一个网站来讲,如果是门户或者垂直网站每天都会有大量的用户访问,如果记录下每一个用户的操作行为习惯,我们可以称之为一条数据,每天数以百万的数据如何才能转换成准确的信息?正如文中所说,目前来讲,网站上植入了追踪文件,通过追踪上网者,可以得到用户的年龄、邮政编码、性别,还有大概的个人收入、婚姻状况、有无子女、住宅情况等信息。如何把这些数据转换成信息,背后离不开一套数据分析系统的支持。

据了解,追踪公司使用cookies通常是为了构筑一份特定电脑访问网页的浏览记录;Flash cookies除此之外,可以重装用户删除的常规cookies,这就意味着他们可以在用户试图避开线上追踪时打开后门;而最新的技术“灯塔”能够通过记录更为细微的网上行为,如所打文字等,得到更多的用户信息。

每一个用户的操作习惯都会被记录,当形成一条有效的信息以后,就会通过数据分析系统进行统一的分类,把用户所要关心内容,进行有效的整理,通过系统一系列的算法,把访用户划分在在一大类,然后,通过相应的广告计划,推广相应的精确营销。然而看似一套简单的逻辑行为,背后确需要一套很复杂的系统来支撑。笔者认为,从IT的角度来看,如果没有一套系统来来支撑整个后台,那么,这个所谓的“互联网金矿”很难挖掘。

1、数据库

数据库是支撑企业后台业务发展的核心,如果没有数据库,追踪用户的数据就同有放置的位置。网站旁大的数据量也就会流失。目前主流的并且能够支持这种大容量的数据库主要早ORACLE、MYSQL等等。

2、数据分析软件

数据分析软件通常也就是指我们如何把数据转换成信息的一套系统,过去做这样的的分析软件通常是在数据仓库里,把数据进行有效的分类、管理后,通过数据的抽取、转换等让数据按照一定的维度,展现出所要的信息,对于用户行为追踪技术,如果没有一套数据分析软件,我们就无法分析到用户要关心哪些内容,达不到精确营销的效果。

虽然,数据分析软件比较适合于企业,但目前还存在许多的不足,现有的数据分析软件对于不同的数据,在分类、抽取,还存在很多的欠缺,本身互联网的数据非常旁大,面对数据分析的质量将会提出很大的考验。

3、强有力的硬件平台支持

《个人隐私:互联网新金矿》文中指出,“当用户登录eBay几秒钟之后,其行为细节的资料就可能已经登上了西雅图初创公司BlueKai的拍卖台。每天BlueKai都要售出像这样大约5000万份关于个人浏览习惯的资料,价格最便宜是每份0.1美分,拍卖随时都可以发生。”面对这样的信息量,需要有一个强大硬件平台支持,如果没有快速、稳定的平台支持,面对大量的交易信息,直接引来的就是不停的宕机。因此,建立稳定的硬件平台支持同样也非常关键。

“通过互联网追踪技术获取消费者数据应该是一种比较新的趋势,数据中间商出售经过分析整理后的用户信息,目前还没有法律明文规定这一行为是违法的,也不能将其简单认定为侵犯了用户的隐私权。”首都师范大学政法学院石国亮教授认为。

通过数据挖掘创造更大的价值

互联网的诞生,催生大量的数据,如果能够把这些数据利用起来,将会创造出无限的价值,但正如我们所料,我们究竟如何来利用这些有效的数据?面对每天日益增长的数据,如何做好数据的管理、分析显然是每一个CIO以及企业领导所要关注的。但究竟怎么来做,现有的技术或者现有的数据分析工具显然,很难满足我们的需求。以国内著名的三大门户为例,虽然每天的用户流量很多,但没有了解真正的用户需求。

然而,如果通过用户行为的分析,准确把握出整个用户的行为习惯(我们暂且不去评论其它因素),通过对于用户的行业分析,准确找用户的需求,在进行精准营销,那么效果更加好。在在精准营销的背后需要就需要IT系统也就是我们的数据分析系统的支持,如果没有这样一套系统,无法实现。但从目前的现状来看,能够达到满足企业需求的数据系统在国内应用的还很少,而且涉及到个人信息安全因素的影响,国内暂时对于网站用户的行为的分析还没有得到大规模的应用。

大数据视野对隐私权保护 篇6

摘 要:大数据作为一种技术,属于事实的范畴,而隐私属于人的价值范畴。自近代科学技术的迅速发展以来,科技与价值就是对立统一的。大数据与隐私权就是科技与价值关系的典型一例。本文从大数据的特点、数据信息方式等方面来探讨大数据与隐私的对立统一关系,解析大数据如何威胁隐私。

关键词:大数据;隐私;保护

中图分类号:F713.8 文献标识码:A 文章编号:1673-2596(2016)09-0096-03

如今大数据的应用已经不局限在某个领域。一些机构使用大数据知识,从各种数据中挖掘有价值的联系。尤其是,在被掌握的数据和数据来源之间,大数据能用来减少信息的不对称性:大数据研究机构能从个人和其他代理中获得信息。

但是从个人的角度来说,隐私是维持或确保信息不对称性的能力,换句话说,个人用隐私权来限制他人窥探自己的信息。因此,大数据的初衷和隐私是潜在地或者说是根本上的对立。因此,如何处理他们之间的关系成为十分重要的问题。一般来说,大数据增加了数据的量和范围,隐私就会逐渐减少。虽然隐私有适当的界限,但是人们一般都会认为:在大数据环境下自己的隐私已经没有那么多了。

隐私有许多方面的涵义,例如,谷歌就把隐私定义为“不被他人注意或干扰的自由的状态”和“在公众关注下的自由状态”。从这种观点看,隐私似乎与监视、不想被注意以及干扰有关。

此外,应该注意的是,隐私可以被自愿地牺牲,例如,在牺牲隐私的结果所带来的利益大于隐私的牺牲的情况下,许多人还是愿意选择利益而不是隐私。不过,这种牺牲的界限或尺度是不可能被完全把握的。人们交往产生的信息可以被许多方式使用和挖掘,然而,许多使用的方式是侵害隐私的。

本文将审查对隐私问题关注的两种不同的观点。第一种,分析大数据的五个“v”的特点,利用大数据的本身性质来保护隐私。第二种,分析减少信息不对称性的不同方式:链接数据、从本地扩散到全球、相关被收集的数据、对话的推测以及其他使用数据的不同方式。因此,本文将考察隐私的概念和大数据与隐私之间的张力。

一、大数据是非对称性数据

大数据的特点为数量大(volume)、速度快(velocity)、真实性(veracity)、多样化(variety)和价值性(value)。①下面我将一一分析。

(一)数量大

一些机构组织以隐私原则为基础,仅仅最小限度地收集需要的信息的量。最小限度量的标准是基于“当满足一个特殊目的或实现一个特殊功能是没有必要时,信息是不能被使用或公开”的观点。②因此,信息的数量是评判隐私的参数。

关于个人或机构的数据量在现实的数据源或交叉数据源中是不均匀的。当对你班级的同学进行谷歌搜索,你会发现,一些人点信息都没查到,但是有些却发现有很多信息条目。与此类似,现实中任何一个机构组织,其数据量也是不均匀的,不管是脸书(Face book)、推特(Twitter)还是内部的信息。数据量的不均匀性来源于不同媒介的使用,无论是传统媒体还是新媒体。例如,企业经常发布公共关系的新闻,这些新闻不经意就暴露了关键职员的姓名和信息。又如,像推特和脸书这样的社交媒体能提供个人在做什么,在哪里,何时等信息。

数据信息量的不均匀意味着变量和检测机器的数量是不平均的。变量越多,就能构建更多的模型,例如行为的时间连续性模型。此外,如果在数据中有更多的变量,那么目标就更容易被了解和理解。使用更多变量能提供事件,个人或机构的更完整的描述。收集到个人和组织更多的数据意味着需要更多的数据分析,而分析数据又必须有更多的数据,这样才能更完整把握目标,因此,会不断增加对个人的监视或监测。假设减少了数据需求,也就能在一定程度上保护隐私。然而,更少的数据意味着我们需要描述的事物只能以更少数据进行分析,这不利于我们对事物分析推理。如果数据仅仅是几个方面的变量,那么事物的分析也仅仅是在这几个变量的基础上进行的。

(二)速度快

据统计,目前全世界大约90%的数据是在过去两年中产生的。因此,速度快这个特征对产生大量数据具有实质性的影响。数据的产生是一个连续不断的过程。例如一个顾客不满意的交易,顾客可能立刻发推特抱怨,推特就是额外产生的数据。一般来说,速度越快,产生数据的量越大。数据速度是与反馈速率和个人数据来源速率有关的。例如,在推特中,一条推特被发布,然后被无限转发。又如,利用大数据技术,企业能收集许多物联网的不同数据。不同的东西产生信息的速率是不同的。

速度的不同对隐私有什么影响?人们关注高速度的数据,会利用这些数据做片面性的决定。此外,一些信息将被更快地公开和散布。在结果被完全预测之前,信息可能被散布出去。结果,在执行限制散布数据之前,有害的数据可能早已被泄露。劳伦斯·戈斯汀和詹姆斯·霍基建议,允许个人掌控自己的数据。然而,允许个人拥有这个的控制权力会影响数据的速度和有效性。据此,追求更快的增长速度和希望控制或降低速度的数据源之间存在一个张力。由此产生的研究问题与途径有关。这些途径为了促进个人隐私数据的管理,包括人们管理自己数据的范围以及保护隐私的努力。深入研究可以探索隐私管理系统的仪表盘、智能系统和隐私保护系统,这些系统旨在帮助我们管理和控制自己的数据。

(三)多样性

多样性指的是关于个人或代理的有效数据的不同类型。被掌握的数据多样性也是隐私的一个重要参数。

数据类型的多样性能产生更多的变量,这些变量被用来分析组织或个人。讽刺的是,数据的多样性导致更多的数据需求。因为数据类型多样化,数据分析机构就能找出数据间的差异,就需要更多的数据。结果,信息之间的差异导致了更多的和不同类型的数据。

此外,数据类型能被转换。例如,有些数据是结构性的,有些确实非结构性的。一些评论家注意到,结构性数据有驱逐非结构性数据的趋势。③假设这是正确的,为了对大数据有一个基本的理解和使用,那么尝试从非结构性数据转为结构性数据是十分重要的。目前,人工智能已经把注意力放到文本中的情绪监测,所凭借的就是非结构数据的分析,以试图理解和掌握作者的整体思想。例如,运用基于机器技术的方法,通过分析文字、句子或者整个文件目录,情感能被分析出来。一些研究者尝试从非结构性数据中梳理出结构,对个人而言,这是一种错误的意图。

(四)真实性(和可靠性)

真实性指的是大数据的精确性,但是常常忽略了可靠性。例如,推特内容可以被百分之百的抓取,但是我们关系的仍然是它的可靠性。真实性的不平均和可靠性的缺乏意味着数据在质量上的不统一。因此,真实性的不平均可能导致可以被描述的推测或推断受到限制。此外,数据库的真实性和可靠性也可能影响数据使用的范围,即使很好地使用高真实性和高可靠性的数据库也一样。

隐私的另外一种定义是针对负面检测或非法泄露:“个人的数据或信息有不被政府、团体或个人非法宣称、公开调查、秘密检测或者未授权泄露自由。”④但是数据真实性或可靠性低会导致错误的推断。有一种普遍的观点认为,如果你有必须藏着的东西,那么你就心有所畏。然而,如果数据不准确或不可靠,这种观点就是有问题的。如果信息没有了真实性,每个人的信息都会被隐藏,因为被揭露信息不真实。

因此,通过数据库的文件来确保信息的真实可靠性这种方法是应该受到指责的。连续监测系统可以被用来检查数据,一判定数据的合理性和准确性。只能系统能分析数据内容,以发现是否有新出现的不正常关系和众包能被收集。

二、拼接数据

拼接数据指把通常不在一起,但放在一起就能提供价值的数据拼接在一起。例如,两个或更多未分类的项目,当把它们放在一起,能创造出新的分类。不同数据所增加的量和类型可能造成这样一种可能性,不同属性的数据会因为放在一起研究而变得有用,这样就会使隐私妥协。另外,大数据“湖”能提供相似的环境,多重相异的数据库可能在这“湖”中相互连接。随着收集数据速度地增长,隐私数据可能被抓取和更广泛的利用。

作为隐私保护的一部分,研究者可以模拟当拼接在一起会侵犯隐私的变量集。从这些模型中,数据能被检测以判定这些变量或关系量是否被执行来限制数据的使用。此外,这些模型能支持在大数据湖中不同数据库的越权使用。

三、名声检测系统及其相邻系统

梅里安姆·韦伯斯特把隐私定义为“远离陪伴或监视的状态或能力”。⑤这个定义暗示着,检测或监视是受到隐私的限制的。最近,被设置为分析网页上更广泛信息来源的系统已经能够自动监测名声。很典型地是,名声监测系统连续不断地监测网络上和其他数字资源,并收集关于个人或企业的信息。这样做,他们能找到个人所关心的名声的威胁。这些威胁可能存在于本地范围也可能在全球范围。

另外,用这样的系统捕捉到的名声数据作为个人或组织的基准是不合理的。例如,被用来监测高层管理名声的系统也很有可能被用来监测竞争对手的名声。为了这些目的和意图,具体的管理者和产品都是系统的参数。然而,造成的结果是,系统持续不断监测其他相邻组织的数据。因此,特别是在公司企业,隐私权和其他权利成为一个令人担心的问题。

四、从对话和不同形式数据中推理

为了达到一些目的,数据经常被公开。结果,隐私与这样的人相关,这些人怀着某种目的,认为信息就是用来为目的服务。例如,当推特建立时,它经常向使用者提问“你现在在干嘛”。然而,在2009年,推特把问题改变为“发生了什么”。推特是用来和朋友或者国外其他人交流的。但是,推特数据却逐渐地用来捕捉直接或间接的,隐藏在对话中的知识内容,公开推特信息,这已经与原来的目的背道而驰。

利用推特数据,研究者已经开始调查更广阔的事件或项目,包括食物中毒,政治事件,疾病传播,书的销量等等。虽然推特能作为一些参考,但是他们确实有违数据初衷。因此,我们也许会问,这些使用者的行为是否符合道德,是否侵犯了隐私。可能最好的类比是谈话,如果某些人偷听你的谈话并用这些信息去实现自己的目的,难道会没有人介意吗?

五、其他新问题

技术产生大数据,并带来了隐私问题。最近,一个纽约的参议员称可穿戴式的健康追踪器是“隐私的噩梦”。⑥同时,其他重要的大数据来源是被移动设备收集的位置信息。这样的数据能被用来跟踪个人在做什么,在哪里做什么等等。由于推特和其他数据,位置信息能被用来做其他事。例如,如果我有移动电话的位置信息,我可能用这些信息来判断哪里建设基础设施。

由于技术推动人们不断去监测有用的数据,这势必触及隐私权力的界限。例如,把摄像机安在警察局、警察车尾,相机可以实时了解交通情况。有些相机扫描执照,然后能识别并判断这辆车是不是偷的。⑦另外一个例子,黄貂鱼电话追踪器可以被军队、警察和其他人作为一种捕捉位置信息的方法,即使电话不开机使用。这些技术的使用和信息的储存成为了社会上的一种竞赛。因此,这些技术的未来很可能像技术问题一样,成为一个法律问题。

六、结论

科技是一把双刃剑。技术与价值是近代以来十分突出的问题。大数据与隐私之间的张力,本质上还是人的问题。如何在大数据时代保护好隐私权是当今重要课题。大数据本身的特点,或者说数据的本来目的,就是与隐私相互对立的。选择数据利益还是个人权利价值,在人文科学领域还是一个难题。

注 释:

{1}P. Zikopoulos et al., Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data ,McGraw-Hill, 2012,page3.

{2}HHS.gov. Minimum Necessary Requirement 【EB/OL】.www.hhs.gov/ocr/privacy/hipaa/understanding/coveredentities/minimumnecessary.html.

{3}Gostin L O, Hodge J G. Personal privacy and common goods: a framework for balancing under the national health information privacy rule.[J]. Minnesota Law Review, 2002, 86(6):1439-1479,page6.

{4}Dictionary.com.【EB/OL】.http://www.dictionary.com/browse/privacy?s=t.

{5}Merriam Webster.【EB/OL】www. Merriam-webster.com/dictionary/privacy.

{6}H. Walker, “Senator Warns Fitbit IsA ‘Privacy Nightmare and Could Be‘Tracking Your Movements,” BusinessInsider, 10 Aug. 2014; www.businessinsider.com/senator-warns-fitbit-is-aprivacy-nightmare-2014-8.

{7}J. Phillips, “Smile! Your Cars onCamera: We Ride Along to Learn Whatthe Cops Know About You,” Car andDriver, Dec. 2011; www.caranddriver.com/features/smile-your-cars-oncamera-we-ride-along-to-learn-whatthe-cops-know-about-you-feature.

参考文献:

〔1〕王璐,孟小峰.位置大数据隐私保护研究综述[J].软件学报,2014,25(4):693-712.

〔2〕冯利芳,崔文花,沈瀛,等.我知道你是“谁”——大数据拷问隐私[J].成功营销,2013(5):76-80.

〔3〕薛孚,陈红兵.大数据隐私伦理问题探究[J].自然辩证法研究,2015(2):44-48.

〔4〕李传军.大数据时代的政治现象[J].研究方法与反思,2016(03).

隐私数据挖掘 篇7

1 系统需求分析

隐私保护数据挖掘系统是一个应用于集中式数据的隐私保护数据挖掘的工具软件。系统整体包括两个独立运行的子系统:隐私保护与数据挖掘子系统。系统主要分两步完成隐私保护数据挖掘工作,如图1所示。

关系数据库中的数据表是系统的处理对象。其中,隐私保护子系统对需要保护隐私的数据表进行隐私保护,得到隐私保护输出表,并保存到数据库。输出表包含多个配套的辅助信息表和一个经隐私保护后得到的改造后的新数据表。数据挖掘子系统根据辅助信息表对新数据表进行数据挖掘,得到数据挖掘结果。

1.1 隐私保护子系统需求分析

隐私保护子系统的需求分析如下:

1)执行算法

系统执行用户预先设定好的隐私保护算法,并将隐私保护输出表保存到数据库中。

2)指定需要保护隐私的数据表(以下简称原表)输入数据库

用户根据系统界面提示,指定原表输入数据库并建立连接。

3)选择原表

系统中显示原数据库中的数据表,用户从数据表中选出原表。如果找不到原表,用户可以返回,重新指定输入数据库。

4)设定算法

用户为数据库中的每个原表中的字段选择隐私保护算法的算法,未选择算法的字段将不会受到保护。用户可以为保护算法指定算法参数。如果没有指定,保护算法使用默认参数。

5)设定参数

系统显示算法参数的说明及当前值,用户对参数值进行修改。如果用户给定的参数值不合法,系统给出错误原因,并要求用户重新设定参数。

6)指定输出数据库

用户根据界面提示指定输出数据库并建立连接。

1.2 数据挖掘子系统需求分析

数据挖掘子系统的功能需求如下:

1)执行算法

系统执行用户设定好的数据挖掘算法,并将挖掘结果保存在结果文件中。

2)指定数据库

用户根据界面提示指定数据库并建立连接。

3)选择数据表

系统列表显示数据库中的数据表,用户从数据库中选出要挖掘的数据表。如果没有,用户可以返回并重新选择数据源。

4)设定算法

系统列表显示系统中存在的数据挖掘算法和原表中的全部字段,用户选择相应的算法,并选出应用该算法的字段。如果选择的字段不适用于所选择的算法,系统出现错误提示,并要求用户重新选择字段。

5)给定参数

系统显示算法参数的当前值及说明。如有必要,用户对参数值进行修改。如果用户输入的参数值不合法,系统提示错误及原因,并要求用户重新输入参数。

6)选择结果文件

用户从系统文件目录中新建或选择保存结果的文件。

2 隐私保护数据挖掘系统详细设计

2.1 隐私保护子系统

1)数据访问包

数据访问包是对数据库的访问方法。本文设计的系统使用开放式数据库互联(Open Database Connectivity)技术实现对数据库的访问。开放式数据库互联的工作依赖于数据库制造商提供的驱动程序,在开放式数据库互联的DLL下安装不同数据库的驱动程序,开发人员可以访问不同数据库的资源。

本系统使用MFC语言实现,开发工具为VC6.0。MFC引入了ODBC接口的封装类,这些类封装了很多的ODBC接口,通过这些类提供的接口,开发人员不用使用ODBC接口,就可以对数据库的进行大部分操作,这大大简化了编程过程,提高效率。

2)算法接口

所有的隐私保护算法组件都通过统一的算法接口与用户界面进行交互。算法组件的保存格式为dll文件,其导出函数必须符合下述格式:

extern”C”CAlg*PASCALEXPORT CreateAlg(void)

CAlg为算法基类,具体算法必须声明为算法基类的派生类并给出所有接口函数的实现。导出函数用来生成一个具体算法的对象,并返回该对象的指针。

算法基类包括的接口函数有:

·InitAlg(CDatabase*source,CString name,CString ob):算法初始化。给定算法的输入信息:source参数为使用该算法的数据库指针;name参数为使用该算法的数据表表名;ob参数记录了使用该算法的字段名,如果有多个字段,中间以空格隔开。如果算法不适用于指定的数据表或字段,函数返回相应的提示信息。

·GetPara(CListCtrl&list):获取参数信息。将算法的参数信息付值给list,其第一列必须为各个参数的取值,其他各列为各参数的说明,具体个列数和内容有具体算法决定。

·RunAlg(CDatabase*result):执行算法。按照设定好的输入信息和参数信息执行该算法,结果保存在result所指示的数据库中。

·SetPara(CListCtrl&list):设置参数信息。从list中读取各算法参数的取值,list的格式与GetPara方法中付值时的格式相同。如果list中的参数值不合法,函数返回错误原因。

2.2 数据挖掘子系统

1)数据访问包

与隐私保护子系统一样,这里略去。

2)算法接口

所有的隐私保护算法组件都通过统一的算法接口与用户界面进行交互。算法组件的保存格式为dll文件,其导出函数必须符合下述格式:

CAlg为算法基类,具体算法必须声明为算法基类的派生类并给出所有接口函数的实现。导出函数用来生成一个具体算法的对象,并返回该对象的指针。

算法基类包括的接口函数有:

·InitAlg(CDatabase*source,CString name,CString ob):算法初始化。给定算法的输入信息:source参数为使用该算法的数据库指针;name参数为使用该算法的数据表表名;ob参数记录了使用该算法的字段名,如果有多个字段,中间以空格隔开。如果算法不适用于指定的数据表或字段,函数返回相应的提示信息。

·GetPara(CListCtrl&list):获取参数信息。将算法的参数信息付值给list,其第一列必须为各个参数的取值,其他各列为各参数的说明,具体个列数和内容有具体算法决定。

·RunAlg(CString Fname):执行算法。按照设定好的输入信息和参数信息执行该算法,结果保存在Fname所指示的文件中。

·SetPara(CListCtrl&list):设置参数信息。从list中读取各算法参数的取值,list的格式与GetPara方法中付值时的格式相同。如果list中的参数值不合法,函数返回错误原因。

3 系统的实现

系统主要包括隐私保护予系统和数据挖掘子系统两大部分。

在隐私保护子系统的实现时,用户根据系统的界面提示,设置输入相关信息。然后系统根据用户设置的信息执行算法。隐私保护子系统设计并实现了概率转移、独立噪音和分割扰乱三个隐私保护算法。

隐私保护子系统根据用户输入输出数据表,执行算法得到相应的信息表和干扰后的数据表。这些结果表将集中存放在用户指定的数据库中。

在隐私保护子系统的实现时,用户根据系统的界面提示,设置输入相关信息。然后系统根据用户设置的信息执行算法。数据挖掘子系统主要设计有三种数据挖掘算法:ID3、k-means、和Apriori。

数据挖掘子系统根据用户的输入输出数据表,执行算法后得到的挖掘结果。用户指定这些结果保存在结果文件中。结果文件的格式如下:

1)ID3算法

文件类型:文本文件

用类似XML的文档格式描述得到的决策数。

2)k-means算法:

文件类型:文本文件

每行对应数据表中的一个元组,每行有两个数值,第一个为元组代号,第二个为该元组所在聚簇的代号。

3)Apriori算法

文件类型:文本文件

每一行是一条关联规则,关联规则的输出格式为:

(取值@字段,……)>>>(取值@字段,……)

摘要:随着网络安全问题受到越来越多的关注,隐私保护数据挖掘问题已经成为数据挖掘领域中的研究热点。该文设计与实现了一个隐私保护数据挖掘系统,系统的算法可以帮助用户完成一些简单的隐私保护数据挖掘工作。在实际系统应用中,用户可以根据实际需要加入新的算法来完成隐私保护数据挖掘工作。

关键词:隐私保护,数据挖掘,数据变换

参考文献

[1]丁小刚,黄伟伟,柏文阳.关联规则隐藏算法的研究[J].计算机应用研究,2006(6):28.

[2]张鹏,童云海,唐世渭,等.一种有效的隐私保护关联规则挖掘方法[J].软件学报,2006(17):1764.

数据修复成隐私炸弹 篇8

今天, 我们的生活离不开电脑U盘、硬盘和手机存储卡, 大到公司资料, 小到个人隐私, 一旦硬盘被盗或数据被拷贝, 都可能带来无可挽回的损失。即便是已被删除的资料或个人隐私, 也有专业公司从事数据修复工作, 但是在修复的过程中极有可能造成隐私的泄露。

点评:就像看心理专家, 事先都要先签订保密协议, 数据修复也一样。通过签订保密协议的方式来约束数据维修店和维修工的行为, 是保护消费者隐私的一种最基本做法。

电脑数据是一种虚拟财产。消费者关于这方面的维权意识较为薄弱, 而维修员甚至还不知道泄露硬盘上的数据或隐私实则已是侵权。目前, 国家在虚拟财产的监管还较为空白, 因此签订保密协议可以说是保护自身隐私不泄露最直接最行之有效的办法了。

隐私数据挖掘 篇9

数据挖掘技术可以从海量的数据中获得许多隐含的、有价值的信息,这些信息可以用于商业领域或者是科学研究。近几十年来,针对数据挖掘的研究取得了很多可喜的成果。但是,数据挖掘极易被滥用而存在不安全的因素。其中,滥用数据挖掘导致个人隐私和敏感信息的泄露问题尤其得到人们的关注。由此出现了基于隐私保持的数据挖掘技术(privacy preserving data mining,PPDM),其目标是不泄露敏感的知识和隐私数据,同时又能得到准确的挖掘结果。实际应用中,大量的数据分别存放在多个相对独立的站点,所以保持隐私的分布式数据挖掘技术的研究更具有实际的意义。

2 隐私保持的分布式数据挖掘概述

数据挖掘的目标是从大数据集中提取隐含的、未知的、潜在有用的信息。分布式数据挖掘模型假定所有的数据源都分布在多个结点上。其算法是在各结点共享数据的情况下,有效的对分散的数据资源进行开采。由于过去主要目的集中于效率,大部分算法都没有考虑安全问题。

分布式数据挖掘中的隐私保护问题较集中式环境更为复杂。在分布式环境中,各分布结点(distributed participant,DP)均为部分数据持有者,在向数据中心汇总前必须确保自身数据的私有性;同时在进行分布结点的协作计算时,各结点间也要防止相互间的信息泄露。

最简单的不共享数据的开采方法是在各站点上独立运行挖掘算法,然后将所有结果进行归纳总结。然而,该方法由于以下几点原因常常失败:

(1)一个实体集中的数据被划分成多块分散在各站点上。各结点数据挖掘算法不能跨结点发现整体的数据关系。

(2)相同的数据项被复制成几份分散在各结点上。实施数据挖掘时这些相同的数据项被同时考虑。

(3)一个站点的数据可能来自同样的群体。因此,在一个站点上不能挖掘出重要的基于地理和人口分布的群体特征。

目前,影响数据挖掘广泛应用的原因之一是存在竞争的各个部门或企业担心自身敏感信息泄露不愿意共享数据。各行各业既希望通过数据挖掘技术得到自己所需要的知识,同时也希望竞争对手不能挖掘出自己想隐藏的信息。隐私保持的分布式数据挖掘目标是通过各个站点共享的数据中挖掘出有价值的知识,同时保证每个站点的敏感数据和知识不被其他站点获取的。因此基于隐私保持的分布式数据挖掘技术在实际中应用更为广泛。基于隐私保护的分布式数据挖掘主要应用在如下领域:

(1)医疗领域,尤其是对流行性疾病的爆发的识别。许多组织(如保险公司、卫生组织、医院等)都收集有相应的数据,由于隐私保护的限制使得这些组织不能共享数据,甚至是政府部门(如美国疾病控制中心)的协作。这些组织的建立本身都是为了保障全民及个人的卫生与健康。有些考虑实际上可能超越了对私人信息的隐私保护,他们可能不愿意发布各自对治疗过程。因此,有必要即保障私人的信息,又对各数据收集的站点进行保密。

(2)营利性公司间的合作。这些公司可能是合作伙伴,但也可能是竞争对手。他们既需要保持各自的商业机密,同时也想通过分布式数据挖掘得出更多的共同的信息。

(3)多国合作。如各国在跨国犯罪、反恐等方面的合作。

3 基于隐私保持的分布式挖掘技术

根据不同数据的分布情况、不同的开采模型、所需保护的隐私限制,基于隐私支持的分布式数据挖掘有不同的解决方案及难易程度。主要采用以下两种方法:数据扰乱和多方安全计算方法。

3.1 数据扰乱

数据挖掘的任务是从大量数据集中挖掘出有效的知识和模型。数据扰乱方法的主要思想是:在不需要访问数据精确值的条件下仍然可以挖掘出正确的模式。R.Agrawal和R.Srikant首先提出采用离散化的方法扰乱原始数据,具体方法是对原始数据加上服从某种分布的随机数据,扰乱后的数据认为不泄露原始数据的信息。然后通过Bayes法则重构原始数据的近似分布。

数据扰乱技术多用于集中式数据集的挖掘。近年来也有不少学者研究将该技术用于分布式数据挖掘。文献[2]中提出一个分布式匿名数据扰乱方法(anonymous perturbation method,APM)的方法应用于隐私保护数据挖掘中。在APM方法中采用数据中心DC生成随机数列并分发的到各个站点,扰乱过程在各自站点分别完成。在整个扰乱过程中,随机数信封包以及私有数据在信道以及分布结点中均为加密的形式存在。另外,信封包的数据在执行操作后,均有对应签名以确认正确的操作者和操作行为。APM方法有效地解决了定义的隐私约束问题,在高密度共谋攻击下具有较高的鲁棒性。

数据扰乱方法的特点是实现简单,缺点是由于是对扰乱后的数据进行挖掘,无法得到精确的挖掘结果,有时需要在隐私保护的程度和挖掘结果的正确性之间做出折衷。

3.2 多方安全计算方法

安全多方计算(Secure Multi-Party Computation,SMC)主要是解决一组相互不信任的参与方保护隐私的协同计算问题,两方或者更多的参与方在分布的站点上都拥有一个输入,能通过网络共同完成某个计算任务,得到可靠的运算结果,同时又能保证各自的数据的安全性和隐私性。Lindell.Y和Pinkas.B在文献[3]中首次将多方安全计算理论应用到保持隐私的分布式数据挖掘中,提出了使用加密方法建立水平分布数据的决策树,将对最佳分类属性的寻找转化为安全多方计算问题,有严格的隐私性要求,除了最后的输出结果,不泄露其他任何信息。

通过多方安全计算,分别隐藏多个不同站点的私有数据,保持隐私;在此基础上进行分布式开采,取得与集中式数据开采效果一致或近似的模型或模式,理想的SMC技术几乎是“零”泄露,但由于计算涉及多方及密码工具的使用,该类隐私保护数据挖掘算法均具有较高的通信代价和计算代价,算法可扩展性差,需要处理大量信息的数据挖掘工作时,算法效率会变得很低。黄毅群等人结合数据干扰技术,提出了一种现实的多方安全计算模式,基本思想是大部分数据集都是正常站点,通过减少通讯量来改善算法的效率,通过加入干扰来提高算法的安全性。与文献[6]仅采用“安全和”的方式保持原始数据的隐私相比,由于文献[5]加入了干扰技术,即使在出现合谋的情况下,算法也很安全。

4 隐私保持数据挖掘技术的评价标准

衡量基于隐私保持的分布式数据挖掘技术的成功标准除了数据挖掘结果的准确性和通讯开销外,还包括信息的安全性和分布性等问题,每个方面都有衡量标准。具体而言,有以下几方面:

(1)挖掘结果的准确性(quality of results):在考虑保护隐私的同时,必须保证数据挖掘结果的正确性。所开采的模型或模式与已知的集中式数据挖掘相同或相近。因此,必须研究出与现有集中式数据挖掘(centralized data mining)有限定误差范围内的基于隐私保持的分布式数据挖掘算法。例如,规定对于基于隐私保持的分布式聚集模型,至少95%的项集都要落在k-means聚集模型中。

(2)计算开销(computational cost):?许多标准的通讯测量方法,如最差情况的运行时(worst-case running time)通常不适用用于数据挖掘。虽然在实际运行中,要求开发的算法能够在最坏运行时或最少空间的情况下运行,但一般来说,极少或不会存在由数据产生的这种情况。因此,只讨论相对于现有数据挖掘算法的通讯开销。

(3)通讯开销(communication cost):有两种测量通讯开销的方法:一种是传输的所有信息的位数(total bits)。另一种是信息量(number of messages)。这些都是与数据的多少和分布有关。同样,是基于完成相同任务的集中式数据挖掘的通讯开销进行比较。

(4)安全强度(security provided):没有绝对的安全,任何加密方法都有漏洞;另外,从其它渠道获得的信息也可能导致私有数据的泄漏。不同的问题有不同的安全要求。因此,需要评估由给定算法的所提供的安全强度(difficulty of breaching security)。例如,某站点支持的规则是否达到了数据加密的标准(DES-data encryption standard);如果1/2的数据已知,那么,其它所有数据都将被泄露出来。

5 结语

基于隐私保持的分布式挖掘技术涉及到数据挖掘、分布式数据挖掘、隐私、信息安全、通讯等多个方面的问题和相关技术。其目标是找到有效的分布式开采算法,其效果既能与集中式开采一致或近似,又能使分布于不同站点的数据保持隐私。在基于多方安全计算的方法中,算法的效率一直是没有解决的问题,以后的研究方向可以考虑将基于扰动的方法与多方安全计算的方法相结合,降低计算时间和通信开销以提高算法效率。

参考文献

[1]R.Agrawal and R.Srikant.Privacy-preserving data mining[C].In Proceedings of the 2000 ACM SIGMOD Conference onManagement of Data,pages 439-450,Dallas,TX,May 14-192000.ACM.

[2]马进,李锋,李建华.分布式挖掘中基于扰乱的隐私保护方法[J].浙江大学学报:工学版,2010,44(2):276-258.

[3]Lindell.Y,Pinkas.B.Privacy preserving data mining[A].In:Advances in Cryptology-CRYPTO 2000,Proceedings of the20th Annual International Cryptology Conference,LNCS1880[C].2000:36-54.

[4]Du W,et al.A Practical Approach to Solve Secure Multi-PartyComputation Problems[M].New Security Paradigms Work-shop 2002.Virginia Beach,Virginia,USA,2002.9:127-135.

[5]黄毅群,卢正鼎,胡和平,等.分布式异常检测中隐私保持问题研究[J].电子学报,2006,34(5):796-799.

隐私数据挖掘 篇10

关键词:数据挖掘,隐私保护,数据扰动

1 引言

数据挖掘旨在从海量数据中发现人们难以察觉却又感兴趣的知识。一般的数据挖掘技术都假定数据是可以直接得到的,这在实际中并不一定成立。实际中出于隐私保护的需要,有可能需要在得不到精确数据的前提下进行挖掘,即需要进行隐私保持的数据挖掘[1]。

隐私保持的数据挖掘目前已经成为数据挖掘研究的热点之一。它的首要任务是开发在得不到精确数据的前提下进行挖掘的方法。分类是数据挖掘的重要研究内容之一。目前已有的隐私保持的分类挖掘方法主要有两类。一类是基于安全多方计算的方法,另一类是基于数据扰动的方法。本文针对基于数据扰动的方法进行研究。

2 算法过程

本文方法的基本思想是:生成一组与原始数据独立同分布的数据作为扰动后数据。由于扰动后数据与原始数据独立,因此从扰动后数据得不到关于原始数据详细内容的信息,仅能得到原始数据的统计特性,这样就保护了隐私数据。另一方面,由于扰动后数据与原始数据同分布,因此数据挖掘算法可以直接应用于扰动后数据,不需要对算法进行改造。

本文方法用于集中式数据库时,用扰动后数据来代替原始数据,将其提供给数据挖掘人员便可以了。本文方法也适用于水平型分布式数据库。这时,数据分布式存储在多个节点上,每个节点仅存储有一部份样本,但每个样本都是完整的。每个数据节点独立的生成新数据并公开,数据挖掘人员只需将各节点数据汇总便可进行挖掘。

生成与原始数据独立同分布数据的困难之处在于,原始数据往往是高维的,而且各维之间并不独立。在本文方法中,首先不考虑各维间的联系,分别对各维进行统计并生成新数据,随后利用数值的大小顺序关系重构各维之间的联系。通过这一方法解决了高维数据难以生成独立同分布数据的问题。

3 算法分析

3.1 隐私性和有效性

隐私性要求对隐私数据提供足够的保护,要求无法从扰动后数据得到原始数据。在本文方法中,扰动后数据是独立于原始数据的,因此它仅仅保留了原始数据的统计信息,在某个具体样本的取值上与原始数据没有任何联系,因此无法从某个扰动后样本得到其对应的原始样本的值。本文方法对隐私数据提供了很好的保护,满足隐私性要求。

有效性是指算法运行要有小的时间复杂度和通信开销。本文方法中,设一共有n个m维样本,生成一个随机数需要的时间复杂度为O(G),则完成一维的分布函数的统计并生成新数据所需时间复杂度为O(nG),完成全部m维需要O(mnG)的时间复杂度,完成各维数据之间关系的重构需要分别对原始数据以及新数据进行排序,并重新排列新数据,这需要O(mn log(n)的时间复杂度。因此总的时间复杂度为O(mn(log(n)+G))。

本文方法中,挖掘过程在本地完成,仅在得到样本数据时需要通信。设一共有n个m维样本,在最坏情况下,数据全部没有存储在本地,全部需要下载,这时的通信开销为O(mn)。

3.2 准确性

准确性要求最终可以得到准确的挖掘结果,要求使用隐私保持的挖掘方法所得结果与不考虑隐私保持,直接在原始数据上使用普通的挖掘方法所得结果相近。

采用实验方法来证明本文方法的准确性。使用参考文献中的数据进行实验,该数据包含9个属性,共有5个不同的分类函数(F1~F5)。5个分类函数都将样本分成两类。训练样本一共1000000个,测试样本一共5000个。

实验:假设数据存储在水平型分布式数据库中,考察样本在各节点上分布不均衡,即各节点拥有的样本数不同时,本文方法生成的决策树的分类精度。当样本分布不均衡时,使用扰动后数据生成决策树的精度。在该实验中,各节点上的样本数目满足给定方差的正态分布。从图中可以看出,当方差增大时,即样本分布越来越不均衡时,本文方法所得决策树的精度没有明显的变化趋势,即本文方法不受样本分布不均衡程度的影响。

综上,实验证明,本文方法并不局限于某种特定的分类算法,各种常用的分类算法都可以直接应用于本文方法扰动后的数据并得到高精度结果;当本文方法应用于水平型分布式数据库时,所得结果精度随着节点个数的增加而下降,但该方法对于节点个数的增加并不敏感,在节点个数很多的情况下依然会有相当好的效果;当本文方法应用于水平型分布式数据库时,所得结果精度不受样本分布不均衡程度的影响。

4 结语

在现有的基于数据扰动的隐私保持的分类挖掘方法中,分类算法必须经过改造方可应用于扰动后数据,而且不同的分类算法,不同的扰动方法都有不同的改造方法,这使得目前此类方法使用很不方便,难以在实际中推广应用。本文针对这一问题,提出了一种新的基于数据扰动的隐私保持的分类挖掘方法。在该方法中,普通的分类算法可以不加修改直接应用于扰动后数据,从而解决了现有方法使用不方便,不便于推广应用的问题。

本文方法通过生成并公开一组与原始数据独立同分布的新数据的手段来达到对原始数据进行扰动的目的。由于新数据是独立于原始数据生成的,因此它仅仅保留了原始数据的统计信息,在某个具体样本的取值上与原始数据没有任何联系,从某个新数据上得不到其对应的原始数据的取值。从而很好的保护了隐私数据。另一方面,新数据与原始数据同分布,保持了原始数据的统计特性,因此,普通的分类算法可以不加修改便直接应用于新数据。实验表明,使用本文方法生成的分类器,与不考虑隐私保持,直接在原始数据上生成的分类器具有相近的精度。

参考文献

[1]Elisa Bertino,Igor Nai Fovino,Loredana Parasiliti Provenza.A Framework for Evaluating Privacy Preserving Data Mining Algorithms.Data Mining and Knowledge Discovery,2005,11(2):121- 154.

[2]陈红亚.基于文本挖掘的主动信息服务[J].情报杂志,2004(10).

大数据不是侵犯隐私的挡箭牌 篇11

大数据分析的倡导者允诺了巨大的利益。其中有些利益——帮助公司决定你在网上看到哪个广告,推荐你看报纸上哪篇文章以及建议你下一本书读什么。另一些利益则意味着彻底的变革——让孩子进入高中,避免早产儿感染以及保护我们的自然资源和帮助我们更有效的应用电力。

我们被告知要想获得这些利好就要放弃很多基本的隐私原则。一些大数据的支持者把透明度、选择权、精确性、最小数据以及其他保护都作为行不通的内容取消。而另有一些人认为为了基本隐私原则而设下条条框框是得不偿失的。

对于这些原则的放弃已经造成一些公司对于个人数据采取“先到手再处理”的态度。他们在出卖消费者的某些数据,其中有一些甚至是在法律上的擦边球。通过这些数据,可以推测一个人如果诈骗经验是否与之合伙做生意会存在风险,或者一个人是否有资格加入某些特定的俱乐部,享受约会服务,进入学校以及其他项目。另有一些对于大数据的收集与应用则是为了对消费者的诸如其健康状况、性取向或者宗教信仰等敏感方面进行推测。

数据经纪人、营销者以及其他在大数据上一拥而上的公司在忽略了基础的隐私原则时其实也给自己带来了危险。对于敏感数据的意外曝光或者大量使用会给消费者带来危害,也是对法律的粗暴践踏。新的法律或许对此有所帮助。但是我们现在最应该做的也是能解决的根本挑战就是帮助消费者控制住他们最私密的信息外泄。在此,我呼吁所有的数据经纪人都能参与其中,共同努力,我将之称为对您名字的回收。

这个概念很简单:通过对消费者的友好在线服务的创建,回收您的姓名将帮助消费者发现数据经纪人是如何收集和使用数据的,允许她在经纪人将其信息卖给特定的营销目的做出选择。并能为其提供纠正错误信息的机会,这也可以帮助带来更具实质意义的决定。

这一规划的另一部分在于对敏感数据处理的进一步细化。进行这些数据经纪人可以为消费者提供更大的透明度和更强有力的关注与选择

用户界面同样是个关键。它应该对用户更友善,并且这个产业应该可以提供一站式服务,以便消费者可以搞懂数据经纪人们使用的工具,同时让消费者有机会在如何使用他们的数据这个问题上做出选择。

另一个重要的挑战来自信用报告的技术。纳入个人信用状况的数据收集和综合的过程,让太多的美国人容易出错。所以说行业内的“争议解决”系统未能解决许多纠纷 - 尤其是在消费者有着相同或相似的名称时候。这也必须开发新的技术工具,帮助消费者更容易地获取并理解他们的信用报告,并给消费者带来更好的界面来帮助他们跨机构纠正信用信息。

还必须考虑到物联网带来的隐私挑战。许多连接的设备都没有用户界面,消费者可能根本没有意识到他们正在使用的设备处于联网之中,更不用说发现数据正在被发送到第三方。这就要求工程师和技术人员必须确保连接的设备从一开始就建立在保护隐私的,仅收集必要的为保障设备功能而需要的最少数据,并建立一个消费者容易明白的仪表板来解释设备对于数据的收集,以及谁可能会看到或者使用数据。

展望未来,透明度、选择、访问和其他被纳入大数据分析的基本隐私原则都是非常重要的。这要求科技方面的公司和研究部门作出必要的,以达到对消费者隐私的尊重并因此实现消费者的信任,最终达到让大数据发挥潜力,从而在根本上符合所有人利益的一个系统。

来源:http://adage.com

2016年数据隐私安全不容忽视 篇12

在2016年的隐私问题上, 无论是个人信息还是商业数据, 都有机会成为头条新闻, 并改变人们与科技及数据公司的互动方式。从加密到无人机, 再到个人信息, 这些都是未来一年必须关注的热点。

当谈到数据保护, 保护对象无论是个人电子邮件还是公司的资产负债表, 都不是一件容易的事。事实上, 在2016年, 隐私将是个人、企业和政府中最容易引发冲突的领域之一。

这里有个很好的例子, 是关于西方伙伴中关系密切的美国和欧盟。

欧洲大多数企业主要采用美国互联网供应商提供的网络服务, 2016年开始, 其经营就会处在法律的边缘地带, 因为目前还没有具体的法律框架涵盖关于跨太平洋收集和存储个人信息的行为。这是因为在不久之前, 欧洲审判法院 (ECJ) 推翻了欧盟和美国之间长达27年的“安全港”协议。

如果不尽快达成新协议, 所有云供应商将被迫在每个国家存储所有数据, 如此一来, 广受欢迎的服务, 如Gmail, Instagram和Facebook用户可能受到严重影响。事实上, 是否只有个人电子邮件或社交媒体受到影响, 跨境流动的公司数据是否有内幕, 这些都值得研究。

在这样的背景下, 建议个人、IT经理和首席执行官应在未来一年内正视3个具体问题:加密技术、无人驾驶技术, 以及考虑在欧洲建立一个新的隐私协议。这些问题至关重要, 并且不应被遗忘。

加密战争

所谓的加密战争开始于20世纪70年代, 当时美国政府试图将密码算法列为军需品。

直到1996年, 美国政府禁止非法出口任何超过40位加密方式。在1991年之前, 政府和大型公司都是加密技术的唯一真正用户。但随后程序员同时也是加密初创公司Silent Circle的创始人菲利普·齐默尔曼 (Philip Zimmermann) 发布免费的隐私软件 (PGP) , 它可以编码普通电子邮件。由于PGP的解码方式非常强大, 以至于齐默尔曼在免费发放这些软件后被美国政府以“非法出口军火”的罪名起诉, 美国司法部对齐默尔曼开展了为期3年的刑事调查。

近两年, 在大西洋两岸的执法机构已表示对使用“零知识”加密算法的担忧。零知识服务允许用户用他们自己生成的密钥对数据和通信进行加密, 服务供应商无法打开。大型高科技公司, 如苹果和谷歌已经开始允许用户使用私人加密密钥加密他们的i OS和Android移动设备。

苹果和谷歌辩解称, 如果没有用户的合作, 他们将无法打开设备的数据。

虽然奥巴马政府早些时候表示, 他们不会颁布针对加密的禁令, 但最近发生在巴黎、圣贝纳迪诺和加利福尼亚州的恐怖袭击事件引发新的思考, 提议互联网公司和电信运营商在持有法院命令的情况下可以破解加密内容。

辩论的核心是政府如何处理通信数据越来越被加密这一事实。

2014年, 美国曾经有一个密钥托管的想法, 要求所有供应商有一个“备用钥匙”, 并由政府指定的可信的第三方托管。科技公司强烈拒绝这个提议, 认为这样会制造一个“管理噩梦”, 用户也将拒绝它。

现在, 英国正在制定一套新的法律, 实际上是针对零知识加密的禁止, 而英国首相戴维·卡梅伦 (David Cameron) 在巴黎恐怖袭击后说, 不应该存在“我们无法读取”的通信手段, 与此同时, 澳大利亚已经禁止密码学研究。

但是大多数的技术和安全专家一直警告人们关于“后门”的执法风险, 认为它们的存在会被犯罪分子利用, 使他们访问到关键数据。许多服务, 包括Black Phone和Silent Circle, 将在他们服务器所在的国家如瑞士等继续提供完全零知识加密的服务。

欧盟新隐私指令

最近, 欧洲议会批准新的欧盟隐私指令, 这是一套非常全面的隐私保护规则, 用以保护欧洲大陆用户的隐私。与“安全港”规则相同, 新指令对数据公司收集、存储和处理方面进行了限制。它同时明确要求用户同意与第三方共享数据, 即使数据在技术上是“聚合”和“匿名”的。

由于目前欧洲没有统一的法律, 各国都自己立法规定青少年上网的年龄, 大部分欧盟国家都规定13岁以下的儿童在使用网络时需获得监护人的同意。现行欧盟隐私法规要求13岁以下儿童需得到父母许可才能使用脸谱或其他聊天服务, 而为保护更多少年的个人信息安全, 新规将当前各国13岁的上网年龄门槛提高至16岁。这也意味着, 数以百万计的16岁以下青少年, 无论何时想要登录社交网站或是邮箱, 只要是使用涉及个人信息的网络服务, 都必须征求父母同意。社交媒体公司认为这将加大网站管理的难度。

上一篇:基层公共卫生下一篇:治疗前列腺癌用药有方