隐私模型

2024-08-25

隐私模型(共4篇)

隐私模型 篇1

引言

随着信息技术的发展和经济全球化的不断加深, 电子商务作为一种新的商业模式也获得了飞速的发展。电子商务是在基于网络之上的一种具有全球性战略意义的经营管理手段和营销方式, 它通过搭建一个虚拟市场, 贸易双方在其上进行交易, 实现了整个贸易过程的电子化。突破了贸易各方在时间和空间上的障碍, 降低了交易成本, 提高了交易效率。然而, 随着电子商务的爆发式增长, 传统的电子商务数据管理的架构, 已经不能满足海量数据管理、多种数据类型兼容、以及更好地用户体验的需求。首先, 电子商务的建设成本和维护成本较高, 需要不断对电子商务网站的硬件和软件进行投资和维护, 满足对电子商务网站的功能和性能需求;其次, 电子商务网站的建设需要多种级别较高的信息人才;再次, 为了保证用户对电子商务网站高效率的体验, 电子商务网站需要满足网站用户交易业务高峰时对系统的高性能需求, 这对资源配置要求较高, 资源利用率不高;最后, 由于多个电子商务网站建设采用的技术标准和水平不一, 难以在电子商务合作伙伴之间进行资源共享。

云计算概念的提出为电子商务系统的建设问题提供了解决方案。云计算能够整合利用互联网上一系列的服务、软件和基础设施, 为用户提供随时随地、按需、便捷地访问共享资源池的计算模式[1]。通过引入云计算, 将为众多电子商务企业的发展提供全新的技术基础和服务模式, 尤其是中小电子商务企业将获得更廉价的资源、更广阔的发展机遇和更完善的服务。然而, 云计算模式在向电子商务提供高效、灵活和低廉的资源同时, 也带来了新的安全问题和隐私保护问题, 而这些问题成为电子商务云计算发展的最大障碍。由于云上的资源对所有用户共享, 如果用户的所有数据都在云上进行存储和处理, 用户的数据存在被非法窃取的风险, 造成不可估量的损失[2]。因此, 隐私保护问题是影响云电子商务发展的一个关键问题。

一、云计算隐私保护问题

1.1隐私的定义

隐私保护研究是信息安全领域的一个分支, 与其它分支不同的是, 由于隐私具有很大程度的主观性, 不同用户对隐私的理解不同, 很难给隐私下一个统一的定义。随着时代和人们观念的变化, 隐私的内涵也不断发生改变。隐私最初被广泛接受的定义由美国法学家沃伦 (Samuel D·Warren) 和布兰德斯 (Louis D·Brandeis) 于1890年在《哈佛法律评论》发表的一篇文章《论隐私权》中提出, 主要指自然人自身所享有的与公众利益无关并不愿他人知悉的私人信息[3]。

随着时代的发展, 隐私泄露和隐私信息收集的方式不断发生变化, 隐私的含义也随之发生了变化。最初, 隐私信息的获取手段通过窃取信息的载体来获得, 隐私保护的方式为信息载体的物理保护、通信保密等方式。在计算机时代, 信息的存取方式发生了很大的改变, 人们使用数据库对数据进行统一的管理, 使得隐私数据的获取更加便捷和容易, 隐私保护的方式发展到计算机安全领域, 如操作系统的安全、数据库的安全管理等等。随着网络时代的来临和Internet的飞速发展, 信息共享实现了真正的便捷化和全球化。针对网络环境的开放性、虚拟性、交互性、匿名性等特点, 隐私保护的技术和手段也得到快速发展, 形成以预警、攻击防护、响应和恢复为特点的网络安全管理体系。而云计算的出现使得对数据的隐私保护需求达到了一个前所未有的程度, 由于数据和应用没有固定不变的基础设施, 也没有固定不变的安全边界, 数据拥有者无法对自身的数据进行绝对的控制, 目前还没有有效的方法能够对云环境下的隐私信息进行保护。目前, 隐私的定义逐渐发展为人们对自己隐私信息的保护能力和对已公布的隐私信息拥有一定程度的控制能力。研究新的隐私保护技术, 以适应云计算环境的隐私保护需求, 是目前亟待解决的问题。

1.2电子商务的隐私问题

一般来说, 用户隐私信息由用户身份识别信息、用户敏感信息和用户的可用数据组成[4]。在电子商务环境下, 用户隐私信息具体表现在如下几个方面:

1) 用户的身份识别信息。用户的独立身份识别信息是指唯一确定该用户身份的一条或一组信息。包括用户的身份证号、经过用户实名认证的用户号、信用卡号、姓名与生日的组合信息等等。

2) 用户敏感信息。该类信息不能确定具体用户, 它代表一类人所共同具有的特征。如年龄、收入水平、性别、职业等等。如果在某种受限的环境下, 通过多组信息组合可能会识别用户的身份。

3) 用户在电子商务网站的活动历史信息。如用户与商家之间的沟通信息、访问电子商务网站产生的使用记录行为、用户购买的商品信息, 浏览和关注的商品信息、用户对购买商品的评价信息、在网页上停留的时间等等。这些信息如果被长时间刻意收集和分析, 可能会识别用户的身份[5]。

以上信息涵盖了用户在电子商务网站活动的各个方面, 任何数据都有可能泄露用户的身份。而在电子商务活动中, 除了黑客们进行非法的数据窃取和篡改操作以外, 电子商务网站经常会有意或无意中侵犯到用户的隐私权。电子商务网站收集用户信息并对用户个人信息进行数据挖掘与分析处理, 从而获取用户的购物习惯或购物偏好, 实现“量身定制”的个性化、多样化的用户要求。然而, 用户信息的获取与处理必然会涉及用户的隐私权问题。由于上述活动涉及电子商务网站的管理职能及对读者个人信息的常规使用, 以及隐私的主观性特点, 控制和防止因这种使用而造成隐私侵权的困难比较大。

1.3云计算电子商务的隐私问题

在云电子商务环境下, 企业的基础设施建设成本、人力成本、技术成本将会得到大大地降低, 然而用户决定采用新技术时, 隐私安全性是具有决定性的因素之一。云计算平台的隐私安全威胁来自两个方面, 一个是来自传统安全领域的威胁, 如云计算平台的主机系统层、网络层和Web应用层等层次存在的隐私安全威胁, 这类安全问题在信息安全领域已得到较为充分的研究, 并具有比较成熟的产品;另一类是由于云计算的服务计算方式和全新的资源管理模式带来新的隐私安全问题[5], 具体描述如下:

1) 云计算服务计算模式引起的用户数据隐私泄露。云计算模式下, 用户的数据存放在云端, 云服务商对其进行管理, 便相应获得了该数据的优先访问权, 内部特权用户、黑客很可能利用它非法获取用户隐私数据。目前, 还不存在完善的监管制度, 对云服务商的行为进行监督, 让用户确信其数据被正确地使用。例如, 用户数据是否被盗卖给其竞争对手、用户使用习惯隐私是否被记录或分析、用户数据是否被正确存储在其指定的国家或区域, 以及用户不需要的数据是否已被彻底删除等等问题[6]。

2) 虚拟化技术引起的隐私泄露。云计算采用虚拟化技术管理资源, 云服务平台中的资源以虚拟、租用的模式提供给用户, 不与固定的物理资源绑定。云计算的多租户资源共享模式使得多个虚拟资源很可能会被绑定到相同的物理资源上。黑客会利用虚拟化软件中存在的安全漏洞, 非法获取用户的隐私数据[7]。

3) 云计算的服务模式引起的隐私安全问题。云计算发展的趋势之一是IT服务专业化, 即云服务商在对外提供服务的同时, 自身也需要购买其他云服务商所提供的服务。用户所享用的云服务间接涉及到多个服务提供商, 多层转包无疑极大地提高了问题的复杂性, 进一步增加了隐私数据泄露的风险。

为了使用户能够尽快接受云计算这种全新的计算模式和资源共享方式, 云电子商务提供商在让用户体验云计算带来的便捷、低成本等优势的同时, 应将首先保护用户数据和应用的隐私安全问题。因此, 用户数据安全与隐私保护的需求属于云计算产业发展无法回避的核心问题。

二、云电子商务隐私保护模型

云电子商务服务提供商和用户之间可以通过使用服务等级协议 (SLA) 来约定云服务的质量[8]。SLA是云服务提供商与用户之间就服务的质量、性能等方面所达成的双方共同认可的协议或契约, 它是存在于云服务提供商与用户之间并独立于两者的一项非常重要的第三方协议[9]。通过SLA, 可以对云供应商的服务方式和服务质量起到有力的监控和约束作用, 并对云消费者提供了重要的服务保障。目前, SLA中并未涉及到隐私方面。本文提出一个基于SLA的隐私服务保护模型, 实现电子商务云服务提供商与用户之间就服务的隐私方面的约定以及对服务涉及到的隐私泄露方面的监控。

2.1隐私保护模型的提出

基于SLA的云电子商务隐私服务保护模型如图1所示, 通过引入提供云隐私服务的可信第三方, 作为用户与云电子商务提供商之间的中介, 实现服务双方的隐私保护服务级别的协商, 并且对云服务提供商的服务进行隐私服务级别监控, 当提供的云服务达不到协议的隐私保护级别时, 能够根据协议规定采取惩罚措施。

模型由三个部分组成:云服务查询模块、云服务隐私协商模块和云服务隐私保护监视模块。云服务查询模块根据用户对云服务的种类和隐私保护级别的需求, 查找到匹配的云提供商, 并将查询结果返回给用户。用户和云提供商通过云服务隐私协商模块对云提供商提供的隐私服务级别进行协商, 如果协商通过, 服务双方将签订协议, 云服务隐私协商模块确认协议。当服务双方达成协议后, 云电子商务服务商为用户提供云服务。在服务过程中, 云服务隐私保护监视模块实时监听服务的隐私泄露情况, 一旦所提供的服务达不到协议规定的隐私保护级别, 模块将向用户报告相关信息, 并根据协议规定采取相应的惩罚措施。

2.2云服务查询模块

云服务查询模块通过云服务目录收集每个云服务的功能和方法, 用户访问云服务查询模块来查询所需的云服务。目前还不存在公共的集成目录服务, 用户需要访问每个云服务提供商, 以获取其提供的云服务信息。这既不便于用户比较和选择合适的云服务, 也不利于云服务提供商推广自己的服务。集成的云服务目录管理服务为用户和云服务提供商之间的交流和服务提供了一个公共的平台, 满足了服务双方的需求。

在本文的隐私保护模型中, 云服务查询模块的主要功能如下:

●向用户提供满足功能需求的云服务查询。云服务提供商将其提供的服务类型、性质, 内容等发布到云服务目录中, 用户通过云服务查询模块来查询所需的云服务。

●提供了云服务隐私保护级别的查询。云服务查询模块通过两种方式对云服务的隐私保护级别进行维护。第一, 云服务提供商在向云服务查询模块发布服务信息时, 还需对云服务的隐私保护级别进行描述, 这形成了云服务隐私保护级别的初始描述信息;第二, 云服务提供商在向用户提供云服务时, 隐私服务监视模块将云服务的隐私保护的客观评价信息传递给云服务查询模块, 对云服务的隐私保护级别进行实时更新, 保证云服务隐私保护级别的准确性。

●维护用户的隐私需求信息。由于隐私的主观性, 难以对隐私下一个统一的定义, 这使得用户无法对服务的隐私需求进行准确的描述。云服务查询模块采集、分析和记录用户对隐私保护的需求, 当用户进行查询时, 能够自动匹配用户隐私保护需求, 将同时满足功能和隐私需求的云服务提供给用户。

2.3云服务隐私协商模块

用户选择了云服务提供后, 通过云服务隐私协商模块与云服务提供商之间签订隐私保护协议。云服务隐私协商模块的功能如下:

●作为可信第三方, 是用户与云服务提供商之间进行沟通的中介, 负责隐私保护协议条款的商定。

●服务双方就隐私协议的具体内容达成一致后, 负责协议的签订与保存, 并将协议传给隐私服务监视模块。

隐私保护协议的隐私条款应该能够涵盖电子商务领域涉及的所有隐私相关内容和隐私服务协商的规则, 有效地表达用户对隐私保护的需求以及云服务提供商对隐私保护的实现程度。目前许多国家隐私方面的立法参照公平信息实践 (fair information practices) 。FIP是经济合作与发展组织 (OECD) 由1980年制定的一项保护个人隐私指导方针制定的纲领。《关于隐私保护与个人资料跨国流通的指针的建议》中规定了以下八个条款:限制收集原则、数据质量原则、目的明确原则、使用限制原则、安全保护原则、公开原则、个人参与原则、责任原则。这些条款可以作为隐私保护协议中具体条款的参照[10]。

2.4云服务隐私保护监视模块

云服务隐私保护监视模块从云服务隐私协商模块接收隐私保护协议, 并从中获取云服务隐私保护评估标准, 在云服务的进行过程中, 对云服务的隐私泄露情况进行监视, 获取评估标准中各项参数的值, 对云服务的隐私保护情况进行综合评价。

在云服务进行中, 一旦发现用户隐私泄露情况, 立即根据隐私保护协议的规定采取相应措施, 有效地保护用户的隐私不受侵犯。同时, 将对该云服务的评价情况传到云服务查询模块, 对该云服务的隐私保护级别信任度进行更新。

2.5云电子商务隐私保护模型的工作原理

基于SLA的云电子商务隐私保护模型能够实现用户与对云电子商务提供商之间的云服务隐私保护级别的协商, 并且对服务的用户隐私保护情况进行实时监控, 使用户既能够享用云服务带来的便捷和低成本的优势, 又能保证用户隐私不受侵犯。隐私保护模型的具体工作步骤如下:

1) 用户向云服务查询模块发出服务请求, 云服务查询模块根据用户请求的服务内容和对服务的隐私保护级别要求进行搜索, 并将查询匹配的结果返回给用户。

2) 用户从查询返回列表中选择适合的电子商务云服务商, 并将选择结果发给云服务隐私协商模块。

3) 云服务隐私协商模块向用户和云电子商务服务商发出协议草书, 协议双方通过云服务隐私协商模块进行隐私保护条款的协商。如果双方达不到一致意见, 用户将放弃该选择, 转向2) 。

4) 协商通过后, 双方签订正式协议, 并将之发给云服务隐私协商模块备案管理, 云服务隐私协商模块核定通过后, 协议正式生效, 并将该协议传给云服务隐私保护监视模块, 云服务商可以向用户提供服务。

5) 在服务进行中, 云服务隐私保护监视模块对服务的隐私泄露情况进行监控, 对用户隐私信息的泄露情况进行纪录、分析和评价, 评价的结果传到云服务查询模块。

6) 如果云服务的隐私保护级别达不到协议的要求, 云服务隐私保护监视模块将根据协议规定采取相应措施, 并将情况向双方通报。

三、结论

本文提出了一种云电子商务隐私保护模型。该模型通过引入可信第三方作为用户与云电子商务服务提供商之间的中介, 用户的隐私泄露情况能够被实时监控, 从而使用户能够有效地控制自己的隐私信息。下一步工作将研究模型实现涉及到的关键问题, 如隐私保护协议中SLA隐私条款的制定, 云服务隐私保护监视模块的实现方法。当然, 云电子商务环境下用户隐私的保护问题不能只依靠技术来解决, 政府需要加强立法规范, 从法律上对云计算环境下用户隐私权进行保护。云电子商务服务提供商也应该建立健全的隐私保护制度, 并加强对内部的管理, 才能够使云电子商务得到飞速的进展。

摘要:云计算是继分布式计算、网格计算等技术的一种新的计算模式, 它的实质是对计算资源、存储资源等资源的按需提供与使用。本文讨论了云计算环境下电子商务的发展机遇, 以及在隐私保护方面的挑战, 提出一种云电子商务隐私保护模型, 提供对云电子商务服务提供商与用户之间就隐私保护的约定以及对服务涉及的隐私泄露的监控的功能, 从而能够有效地保护在云电子商务环境下用户的隐私信息。

关键词:云计算,电子商务,隐私保护

参考文献

[1]张逢喆, 陈进, 陈海波.云计算中的数据隐私性保护与自我销毁[J].计算机研究与发展, 2011, 48 (7) .

[2]毛剑, 李坤, 徐先栋.云计算环境下隐私保护方案[J].清华大学学报 (自然科学版) , 2011, 51 (10) .

[3]邓仲华, 朱秀芹.云计算环境下的隐私权保护初探[J].图书与情报, 2010, 4.

[4]David S.Allison and Miriam A.M.Capretz.Furthering the Growth of Cloud Computing by Providing Privacy as a Service[C].Proceedings for Information and Communication on Technology for the Fight against Global Warming, Toulouse, France, 2011:66-78.

[5]Pearson S.Taking account of privacy when designing cloud computing services[C].Proceedings of the 2009 ICSE Workshop on Software Engineering Challenges of Cloud Computing.Washington DC, USA:IEEE Computer Society, 2009:44-52.

[6]冯登国, 张敏, 等.云计算安全研究[J].软件学报, 2011, 22 (1) :71-83.

[7]Tharam, D., Chen, W., Elizabeth, C.Cloud computing:issues and challenges[C].Proceeding of 24th IEEE International Conference on Advanced Information Networking and Applications AINA, 2010:27-33.

[8]高云璐, 沈备军, 孔华锋.基于SLA与用户评价的云计算信任模型[J].计算机工程, 2012, 38 (7) :28-30.

[9]David S.Allison, Miriam A.M.Capretz, etc.Privacy Protection Framework with Defined Policies for Service-Oriented Architecture[J].Journal of Software Engineering and Applications, 2012, 5:200-215.

[10]William Bonner.Locating a Space for Ethics to Appear in Decisionmaking:Privacy as an Exemplar[J].Journa of Business Ethics, 2007, 70:221-234.

隐私模型 篇2

随着网络交易的普及,消费者的个人隐私遭到了前所未有的威胁,消费者在网络上不可避免地泄露了大量的个人信息,如:身份证号码、信用卡信息和交易记录等。一方面,企业可以通过获得消费者的个人信息,对客户数据进行分析,从而发现商业趋势和提高交易成功率;另一方面,消费者却普遍担心商家可以利用互联网技术监视其活动,并在不知不觉的情况下收集消费者的个人资料。消费者对个人隐私保护的态度在很大程度上将影响消费者在电子商务和网络交易中的行为,最终影响消费者对电子商务的采纳。研究表明,文化和制度因素将对消费者网络隐私关注和网上交易行为起着关键作用[1,2,3]。与美国消费者相比,中国的消费者可能会面临更多的网络隐私问题,如网络安全设施的欠缺、国家文化上的差异以及法制的不健全,即缺乏对消费者隐私保护相关的立法和执法等。

本文提出一个消费者网络隐私关注和行为意向影响因素的概念模型,强调在具体的文化和制度情境下研究消费者隐私关注和行为意向之间的关系。针对本文的研究目的和具体的情境因素,将网络隐私定义为“在互联网上消费者对个人信息保护和控制的权利”。从理论角度看,研究可以为现有网络隐私和电子商务领域的理论研究提供新的思路。从实践角度看,从文化和制度的视角对网络隐私问题的研究更有利于对中国具体情境因素的认识,从而加深对中国消费者网络隐私问题的理解。

2 概念模型的建立

在考察消费者对隐私的态度时,西方学者常引入“隐私关注”的概念用以测量消费者对信息隐私的态度。隐私关注(privacy concerns)的定义经常出现在信息系统研究方面的文献中,即“消费者对控制、收集和使用其个人信息的关注”[4]。许多研究表明,消费者隐私关注对其网上购物意向有明显的影响[5]。

现有文献也从不同角度对网络隐私关注与行为意向的影响因素进行了研究。从组织和社会层面来看,消费者对隐私的关注主要受到文化和制度因素的影响,如法律和规章制度、人的基本信念和社会价值观念等等。如Martinsons通过对中国电子商务发展和消费者采纳意愿的案例分析,得出结论认为,在完善的法律和制度保证下,消费者更愿意使用网上交易的原因,但中国的社会和经济的根本关系是“以关系为基础的”[6]。从个人层面来看,消费者对隐私的关注主要受到个人特性因素的影响,如年龄、性别、职业和受教育程度等等;另外,消费者对网络安全风险的感知,如身份盗用、搜索引擎等,也对网络隐私关注和其行为产生影响。如Malhotra等的研究结果表明网络隐私风险感知是网络隐私关注和网络隐私行为意向之间的中介变量[3]。

通过对相关文献的分析,本文以理性行为理论(theory of reasoned action,TRA)为基础,提出了一个消费者网络隐私关注与行为意向影响因素的概念模型。模型中共有6个变量,其中包括网络隐私关注、网络隐私行为意向、文化因素、制度因素、消费者个人因素和网络隐私风险感知,如图1所示。

3 影响因素分析

3.1 文化因素

随着互联网的发展和其在不同文化背景下的异质性,文化已经越来越受到在信息系统研究领域学者们的重视。目前,已有一些学者们在对网络隐私相关的研究中分析了文化因素的影响。在大多数的相关研究中,使用了Hofstede文化理论中的3个维度:权力距离感、不确定性规避、个人主义或集体主义倾向。Cockcroft和Heales利用Hofstede理论来描述文化维度,并研究了文化因素对隐私关注的影响[7]。除了Hofstede理论的文化维度,也有学者考虑到各国特有的文化属性,如Park通过比较美国和韩国消费者对网络隐私的态度,分析了在文化因素的调节下隐私政策和互联网隐私需求之间的一致性[8];Shin等人通过实证研究了中国文化特征下:孔子思想(儒家思想)、集体主义、关系3个文化维度对信息共享行为的产生影响[9]。

由于受到儒家思想的影响,中国传统文化和道德观念中有反对“自我”意识和“隐私”保护的倾向,人们普遍对隐私的意识淡薄。研究发现,受儒家思想影响的社会更强调人与人的和谐关系,个人也更愿意分享他们的信息。如《论语》第七章表示:“君子坦荡荡,小人长戚戚”,就是说明君子应当有宽广的胸怀,容纳各种事件,不计个人利害得失;而心胸狭窄,时常忧愁,局促不安,就不可能成为君子。Naumov和Puffer使用Hofstede理论中对中国和美国的文化特质进行了对比,如表1所示[10]。中国文化具有低“个人主义”,高“集体主义”的特征,高“集体主义”强化了集体和国家利益高于个人利益的观念,所以消费者在互联网上毫无顾忌地提交个人信息,如出生日期,手机号码,甚至身份证号码。

然而,中国文化的另外一些特征却会增加了消费者对网络隐私的关注。一方面,中国文化注重人与人之间的“关系”,人们对“关系”的认识可能会阻碍其在互联网上给不熟悉的商家或个人共享信息,Martinsons认为正是中国所具有的“关系”型文化使得中国消费者很难在一个可信任的体制约束下进行交易[6];另一方面,中国文化也具有高“权力距离感”和高“不确定性规避”的特征,如表1所示。权力距离感是指民族文化的一个维度,它是不同国家人们对如何对待他们之间不平等这一基本问题的一系列的不同回应。中国文化的高“权利距离感”与电子商务“平等交易关系”的本质属性显然背道而驰,所以网络用户在使用政府网站或者一些更“权威”的网站往往不那么担心自己的隐私,而对一些信誉稍低的网站的态度则相反。在高“不确定性规避”的文化中人们对不确定性和变化抱有一种焦虑的态度,他们会采取很多措施来事前防范和避免不确定性,因此,中国消费者可能会对网络交易的不确定性和个人信息安全有较高的焦虑,从而更加关注对个人隐私的保护。

综上,这些文化维度对消费者网络隐私关注与行为意向产生了不同影响,特别是中国特有的文化属性使得网络隐私问题变得更加复杂。虽然受到传统文化的影响,人们普遍对隐私不太重视,但在互联网和网络交易的虚拟情境下,各文化维度对消费者网络隐私关注以及行为意向会产生多大的影响?与其他国家相比,我国消费者网络隐私关注的总体程度如何?笔者认为,通过跨文化的实证研究来考察各文化维度的重要性是今后研究的方向。

3.2 制度因素

制度因素包括政府层面的约束,如消费者隐私保护法律、互联网安全管理规章等;企业组织层面的约束,如互联网行业自律公约、企业的网络隐私政策等。相比其他西方国家,中国社会普遍更强调对国家和集体财产的保护[6],所以消费者私人财产和个人隐私权常常被人们所忽略。近年来,伴随着网络产业的蓬勃发展,这种现象尤为明显,典型的就是网络或短信运营商擅自使用和出售消费者个人信息。中国消费者协会最近的一项调查表明,“擅自出售通过互联网获得的消费者个人信息”已经成为消费者权益保护的重要问题[11]。政府机构和企业迫切需要采取相关行动保护消费者的个人信息,降低消费者对个人隐私的忧虑,进而促进网上交易的发展。

从政府层面来看,政府通过以法律规章为主的形式来保护消费者的网络隐私。研究表明,在政府监管较弱的情境中,消费者对隐私的关注较强[1]。因此,政府有必要制定相应的法律规章对消费者网络隐私进行保护。虽然,我国有针对个人隐私保护的相关法律法规,如宪法第四十条关于个人隐私权保护的规定,“中华人民共和国公民的通信自由和通信秘密受法律的保护”;刑法中也有对单位出售或者非法提供公民个人信息的相关处罚规定。然而在网络隐私权的保护问题上,目前我国基本还处于无法可依的状况。涉及这一问题的只有信息产业部发布的《互联网电子公告服务管理规定》中提及“电子公告服务提供者应当对上网用户的个人信息保密,未经上网用户同意不得向他人泄露”。网络的特殊性要求法律对网络隐私权的保障不仅是停留在一般原则性的笼统规定,而是要提供具体可行的操作规则,在细节上体现出对公民隐私权的关怀,这还需要国家制定专项法规,使电子商务中的个人信息保护处于有法可依的状态。

从行业和企业组织层面来看,行业自律公约或企业隐私政策旨在帮助消费者了解互联网行业和商家如何收集和使用他们的个人信息。为了减少消费者的隐私关注,提高网络交易的使用率,商业组织必须提供安全的交易环境,禁止电子商务企业未经许可披露用户注册资料或者以其他方式用于商业目的。然而,我国电子商务中个人信息保护策略严重滞后,不仅缺乏有效的行业公约,也没有建立广泛承认的在线隐私政策体系。有研究发现,与英文网站相比,中文网站的隐私协议内容普遍不够完善[12]。随着电子商务的发展,越来越多用户的个人信息被记录在企业的数据库中,如果企业缺乏有效的隐私保护措施,消费者就会增加对网络隐私的顾虑,进而不愿意与企业进行网上交易。

目前,我国对网络隐私的保护还远远落后于世界先进国家,为了满足人们对私有空间的需求,同时也为了营造一个良好的电子商务交易环境,就必须对消费者网络隐私给予足够的重视。一方面,建立起有关网络隐私权保护的法律法规体系;另一方面,采取政策引导下的行业自律模式。政府制定法律法规,主要是为消费者网络隐私提供强制性的保障措施,可以减少消费者隐私关注,增强消费者信心;企业的行业自律和隐私政策则可以依照不同的产业和商业行为,有弹性地调整其内涵,为消费者提供更佳的保障。

3.3 个人因素

很多学者研究了消费者的性别、年龄、收入水平和受教育程度等个人特性因素对隐私关注的影响。例如,Zukowski的研究发现,某些个人特性如年龄、受教育程度和收入对隐私关注都有明显影响,而互联网使用经验则对其没有影响[13]。所以,在研究消费者网络隐私问题时,除了文化和制度因素,也必须考虑到中国互联网用户的人口学特性,如互联网络信息中心(CNNIC)发布的第23次中国互联网络发展状况统计报告表明:截至2008年底,中国网民规模达到2.98亿人,10~19岁网民所占比重增大,成为中国互联网最大的用户群体,而且互联网也日益向低学历人口普及[14]。

目前,电子商务企业越来越注重市场细分,网络供应商应该对消费者的个人特性给予更多的重视。只有充分了解不同性别,不同年龄层次,不同教育水平的消费者对网络隐私的态度和行为意向,企业才能够制定出切合实际的隐私保护政策,满足不同用户对网络隐私安全的需求。

3.4 风险因素

随着消费者逐渐将互联网视作交易的渠道,网络安全和个人隐私对消费者网络购物的决策就会产生更大影响。Cockcroft[7]等的研究表明,消费者对网络隐私的关注会增加其对隐私风险的感知。大部分网络隐私风险来自于个人身份信息的泄露(身份证号码、信用卡号和银行帐号等)。身份盗用作为一种典型的网络犯罪已经被很多学者重视,如Milne分析了身份盗用产生的风险与在线消费者隐私保护行为的关系,并说明不仅身份盗贼是在线身份盗用的罪魁祸首,企业组织和政府同样不知不觉地发布消费者的个人信息[15]。如本文3.1节提到的,正是由于“关系”的存在,消费者的个人信息被频繁作为商品在市场上进行“兜售”。据CCTV报道,从某些网络商家手中花100元就能够得到1 000份消费者的个人信息,其中包括姓名、手机号码和身份证号码等,这无疑严重地侵犯了消费者的个人隐私[11]。

另外,相关法律和制度的不完善也促成了某些网络隐私风险。例如,中国网民都很熟悉的一个名词“人肉搜索引擎”,就是指利用网民来寻找特定的人或事。近年来“人肉搜索引擎”导致被搜索者的姓名,身份,家庭地址等个人资料在网络上被广泛公布,因其侵犯了隐私权,加深了消费者对个人隐私的忧虑,部分网民的生活甚至受到了极大干扰,不得不通过法律途径解决,其实这正反映出我国隐私保护的法律体系相对落后。

显然,网络隐私风险是多方面的,不仅仅包括诸如身份盗用等的网络安全问题,还包括由法律和制度上的漏洞带来的风险。减少网络隐私风险不仅仅是一个技术问题,更重要的是需要政府和企业采取必要的措施来防止各类网络隐私风险,从而减少消费者对隐私和信息安全的忧虑。

4 结语

本文提出了一个网络隐私关注与行为意向影响因素的概念模型,包括文化因素、制度因素、个人因素和风险因素,并通过分析中国特有的文化和制度情境,讨论了一些网络隐私关注和行为意向的关键影响因素。当前对消费者网络隐私的理论研究主要源于美国和其他西方国家,而不同国家在文化和制度情境上的差异将影响这些源自西方的理论和概念在中国的应用。因此,我们不能忽视我国具体的文化和制度背景,对现有的理论模型进行改进并验证。对本文提出的各变量进行详细的维度分析,并通过实证研究对各变量之间的关系进行检验是下一步的研究重点。

总之,对消费者网络隐私的保护需要政府、企业和消费者的共同努力。本文正是基于此目的,将文化和制度因素与消费者个人特征变量结合起来,对消费者网络隐私关注与行为意向的影响因素进行了分析,希望本文提出的概念模型可以为网络隐私问题的研究提供一些新的思路。

摘要:随着电子商务的发展和网络交易的普及,消费者网络隐私成为了电子商务发展的核心和关键问题。提出了一个网络隐私关注与行为意向影响因素的概念模型,包括文化因素、制度因素、个人因素和风险因素,并针对中国特有的文化和制度情境,对网络隐私关注和行为意向的关键影响因素进行了分析。

隐私模型 篇3

在现代信息社会中, 网络的迅速发展使得越来越多的数据实现了共享, 其中很多数据含有用户的隐私 (敏感) 信息。有些数据虽然自己可以保证隐私信息不会被泄露, 但是, 在有些情况下, 这些数据可以和其它数据相关联, 关联后的数据可能会暴露其隐私信息。例如:有两组数据, 选民和其医疗记录, 选民的数据是公开的, 其医疗记录的数据是不公开的, 但选民的数据和医疗记录的数据之间有共享的属性, 包括邮政编码, 出生日期和性别。通过这两批数据中属性关联的记录, 每一条医疗记录就可以唯一地对应到一个选民, 这就破坏了医疗记录的隐私性。因此在发布这些数据前, 需要对这些数据进行隐私保护。有一种数据隐私保护模型K-anonymity[1], 该模型用K值来定义数据隐私的程度, 即给定一K值, 对数据记录集合中的任一属性值, 若包含该属性值的记录条数均大于或等于K, 则说明该数据记录是K-anonymity的。考虑到数据挖掘是对大量数据进行操作以找出对用户有用的信息, 而数据隐私保护也是对大量数据进行操作, 但是要把信息适量隐藏。因此数据挖掘和隐私保护有某些相似性。本文根据数据挖掘思想, 提出了扩展泛化定义, 并在此定义基础上提出了EGA算法来保护隐私数据, 使得泛化后的数据在达到隐私保护条件的同时更好地保持了原有的信息, 而且对在泛化过程中不需要泛化的属性进行剪枝, 这样就提高了算法的运行效率。并且EGA算法对敏感属性为离散值和连续值时的情况均能处理。

1 相关工作

当前对数据隐私的保护基本上分为两类。一类是在保证最终数据的统计特性或分类特性不变的情况下, 用概率或统计学的方法对数据进行隐私保护, 如在数据挖掘中用随机化 (randomize) 方法保护隐私[5], 即对一些敏感属性的值加上一些随机的数值, 但是这些修改后的数据对整个数据的统计分布和敏感属性的概率分布无太大影响。但这种方法的缺点是只能作用于一些特定的数据集。另一类是根据K-anonymity模型[1]达到隐私保护的目的。常用的方法是将一些比较敏感、具体的信息用不具体的信息来代替, 即信息的泛化 (generalization) 。如DataFly[8]和μ-Argus[6]系统。基于K-anonymity的算法有BUGA算法[2]和遗传算法[7]。但BUGA只能处理连续属性, 并且在泛化后会丢失较多信息, 遗传算法只能用来解决分类 (classification) 方面的隐私保护问题, 而且运行效率较低。

2 相关问题及定义

考虑一个数据拥有者想共享个人数据R (D1, …, Dn, C) 。一条数据记录有如下形式:<V1, …, Vn, cls>, 其中, vi是属性Di的一个值, cls是属性C中的一个类别。假设R同外部数据记录E共享某些属性, 记为R*E。如果根据R*E中的值很特殊, 那么根据它就可以在极大的概率下推断出一条对应到现实生活中的具体记录。因此, 数据持有者需要保证, 对每一个在R*E中的值, 在R中都有一些记录与之对应, 这些记录的条数大于或等于某个最小值。这样就防止了通过R*E中的值来破坏R中数据的隐私性。

定义1 (匿名权 (Anonymity) ) 虚标识符 (virtual identifier) , 记为VID, 是被R和E共享的一组属性的集合。a (vid) 表示在R中属性为VID, 值为vid的记录条数。VID的匿名权, 记为A (VID) , 是对在VID上任意vid的最小的a (vid) 值。如果A (VID) >K, 那么即认为R满足匿名权条件<VID, K>, 其中K为数据持有者的指定值[2]。

如何让R满足给定的匿名权条件呢?本文采用以下方法:把VID属性中较具体的值用不具体的值代替, 例如:R中含有“地址”一列, 有一条记录在这一列上的值为“南京”, 则可以把“南京”用“江苏”代替, 这样信息仍然正确, 但是对数据使用者来说已经不具体了。可以把具体的值和相对来说不具体的值组成一棵VID等级树。为此, 引入如下定义:

定义2 (VID等级树) 一棵树, 其叶子结点由数据集合中的敏感属性值组成, 树中每个结点的父结点包含的信息要比其子结点少, 除叶子结点以外其它结点的值由数据提供者给出。

定义3 (扩展泛化 (Extend Generalization) ) 一条扩展泛化, 记为{ci}->p, i=1, 2, …n, 在VID等级树中, p为ci的父亲结点。若一个vid包含某个在ci中的值, 则记为vid (ci) 。∑vid (ci) 为含包含ci的vid记录个数。对给定的k值, 扩展泛化只需要将∑vid (ci) =k个vid用p将相应的ci替换掉。

对连续属性的泛化:先划分区间, 使之变为离散属性。本文采用最简单的方法来划分区间。

如, 假设有一连续属性R, 其值分布在区间[1-99) 内, 我们将其划分为等量的10个子区间:r1=[1-10) , r2=[11-20) , …, r9=[90-99) , 划分好后, 即可将数据库中各个记录的属性R的值映射到各个子区间中。

上例中, 是在理想情况下划分区间的一种简单方法。在实际应用中, 不同的连续型属性的数据用上述方法划分区间是不合适的, 因此可以在代码中实现根据统计学中的某一分布对数据进行划分的函数, 同时在程序运行时传入实际数据的具体特性, 以便程序选择合适的划分区间方法。

3 EGA算法

先看下例, 假定数据集的VID={Relationship, Race, Workclass}, 采用K-anonymity模型, 给定k=3。

表1中前三列{Relationship, Race, Workclass}为数据集的VID属性, a (vid) 列为记录条数, 最后一列{C}为记录的分类, 如“0Y4N”表示4条值为{c1, b2, a3}的记录中有0条记录属于分类Y, 4条记录属于分类N。由表1数据可知, A (VID) =a (d1, c2, e3) =2<3, 不符合匿名权条件, 所以需要扩展泛化。a (d1, c2, b3) =4, a (d1, c2, e3) =2, 图1的VID等级树中有一条泛化规则{b3, e3}->g3, 根据扩展泛化定义, 只需要将∑vid (b3, e3) =3条vid中的b3, e3用g3替换掉就行了, 这样应用扩展泛化后数据变为:a (d1, c2, b3) =3, a (d1, c2, g3) =3 (一条{d1, c2, b3}变为{d1, c2, g3}, 两条{d1, c2, e3}变为{d1, c2, g3}) 。

同时, 由上例可知, 数据的隐藏程度是根据给定K-anonymity的K值和等级树来判定的。泛化的等级树是在算法运行前由数据提供者指定, 这可使得算法作用后的数据集可以很好地被人们理解。

在泛化过程中, 可能有多个属性均可泛化并满足匿名权条件, 但是泛化哪个属性可保证损失的信息最少呢?为此, 提出EGA (Extended Generalization Algorithm) 算法。

EGA算法采用TEA索引树[2]作为数据结构, 在索引树中的每个结点N中, 存有其所有子结点的个数, 记为C (N) 。为了保证在泛化过程中损失的信息最少, 根据定义3, 对一个段 (segment) 采用如下算法:

扩展泛化算法 (EGA) :

设有一扩展泛化G:{ci}->p, i=1, 2, …n, G的一个段S={s1, s2, …, st}, {s1, s2, …st}⊆{c1, c2, …, cn}, 对给定的k值:

记V@k={s|s∈S∧C (s) @k}, @∈{<, =, >}

C (V@k) =∑C (s) , s∈V@k, 特别地, 若V@k=Φ, 则令C (V@k) =0, @∈{<, =, >}

记|V|为集合V中元素的个数

① 从S中得出V<k, V=k, V>k。

② 对每一个s∈V<k, 将段S中的s用p替换。

③ 对S中相同的元素合并。

④ 若C (V<k) =0, 表明S已满足匿名权条件, 算法结束;否则转5。

⑤ 若C (V<k) +C (V=k) +C (V>k) <k* (|V<k|+|V=k|+|V>k|) , 则用p将所有s∈S替换, 算法结束;否则转6。

⑥ 若C (V<k) +C (V>k) ≥k* (|V<k|+|V>k|) , 则从V>k中取出一元素v, v满足:对任意的v′∈V>k, C (v) ≤C (v′) 。将段S中所有属于V<k的节点s, 用p将s替换掉。并将新的p结点的C (p) 加上C (v) -k;将段S中的节点v的C (v) 置为k。返回第①步。

对第③步合并的解释:因为V<k中元素个数可能大于1, 在第②步执行完成后, S中所在V<k中的节点都已变为p, 所以需要把这些节点合并, 合并的时候也要累加这些节点的C (p) ) 。

4 实 验

4.1 实验方案

我们采用算法BUGA (Bottom-up Generalization Algorithm) [2]与算法EGA作比较。采用公开的Adult数据[3], 它有6个连续属性, 8个离散属性;分类标签有两个:<=50K, >50K;共有45222条记录, 实验时将所有记录分为两部分:前30162条用于训练, 后15060条用于测试。测试数据集选取其中8个属性:{workclass, education, martial-status, occupation, relationship, race, sex, native-country}作为VID用于泛化。泛化前和泛化后数据信息的损失可以用构造一棵C4.5决策树[4]来查看。

4.2 实验结果及分析

表2是针对不同K值得出的实验结果, 第一列是不同的K值, 第二列是使用BUGA算法得出的分类错误率, 第三列是使用EGA算法得出的分类错误率, 第四列是EGA算法比BUGA算法减少的分类错误率。表3是针对不同的K值所需的运行时间, 第一列是不同的K值, 第二列是BUGA算法的运行时间, 第三列是EGA算法的运行时间, 第四列是EGA算法与BUGA算法的运行时间之差。程序运行平台为Pentium IV 1.8G, 512M RAM, 程序用Visual C++6.0实现。

由表2知, 对Adult数据集, EGA产生数据的错误率比BUGA产生数据的错误率要小, 这是因为扩展泛化并不是把等级树中所有的子结点泛化为其父结点, 而是对部分子结点泛化, 只要满足匿名权条件泛化即停止。由表3中知, 在K值较小的情况下, EGA算法运行时间比BUGA稍长, 这是因为为了尽可能地保留更多信息, 在泛化过程中加入了少许计算, 并且对连续属性的处理也要占用一些时间。但是, 在K值较大的情况下, EGA反而要比BUGA快。这是因为EGA算法在运行过程中舍弃了不需要进行泛化的属性。在K值较小时, 对属性的泛化进行几次迭代后即可满足匿名权条件, 因此不需要进行泛化的可能性很小, 但当K值变大时, 经过多次迭代后属性不需要泛化的可能性就很大了, EGA算法舍弃了这些属性, 运行速度必然要快。因此, 给定相同K值, EGA在保证数据隐私的条件下, 更好地保留了原有数据的信息, 降低了数据的错误率。

5 小 结

本文对数据隐私保护问题进行了研究。基于K-anonymity模型, 首先提出了扩展泛化和等级树定义, 并对连续属性进行区间划分来支持泛化。然后采用索引树, 提出了一种称为EGA的扩展泛化算法, 动态地合并索引树中节点, 并且能够在运行过程中及时舍弃不需要进行泛化的属性, 因此可以最大程度地泛化数据, 并使得算法具有较高的运行效率。实验结果也证实了上述结论。

今后的研究将着眼于如何对数据进行增量式泛化以及算法在电子商务等方面的实际应用。

参考文献

[1]Sweeney L.k-anonymity:a model for projecting privacy.International Journal on Uncertainty, Fuzziness and Knownledge-based Systems, 2002:10 (5) :557570.

[2]Wang Ke, Yu Philip S.Sourav Chakraborty:Bottom-Up Generalization:A Data Mining Solution to Privacy Protection.ICDM2004:249256.

[3] Hettich S, Bay S D.The UCI KDD Archive.http://kdd.ics.uci.edu., 1999.

[4] Quinlan R J.C4.5:Progams for Machine Learning.Morgan Kaufmann, 1993.

[5] Agrawal R, Srikant R.Privacy preserving data mining.In SIGMOD, 2000.

[6]Hundepool A, Willenborg L.μ-andτ-argus:software for statistical dis-closure control.In Third International Seminar on Statistical Confidenti-ality, Bled, 1996.

[7]Iyengar V S.Transforming data to satisfy privacy constraints.In SIGK-DD, 2002.

隐私模型 篇4

在事务型数据中,每条记录都是从一个很大的集合中选取任意的项目组合而成。事务型数据,如超市数据、RFID数据、网络检索日志、网上购物数据,在很大程度上都与我们的生活息息相关。这些事务型数据为数据挖掘提供了丰富的资料,如关联规则挖掘。通过对事务型数据的挖掘分析,我们能够得到诸如用户习惯行为、推荐系统、个人搜索倾向等信息。然而,事务型数据在发布之前,必须进行必要的隐私保护。

例1.Bob去超市买了一些东西,包括面包、牛奶、饼干、红酒、牛肉、冰淇淋、灯泡和家用妊娠试纸。假设Bob所买的一些物品出现在他的购物袋上(如面包、牛奶、灯泡),并且和他的邻居Alice乘坐在同一辆公共汽车上。Bob不想让Alice知道自己买的东西(如家用妊娠试纸)。如果超市发布它的交易记录,并且只有一条记录包含面包、牛奶和灯泡,那么Alice能够立即通过这条记录判断出Bob购买的所有东西。

在上述例子中,数据发布者公布了包含用户特性的事务型数据。每一条事务记录都是由任意的项组合而成。对于数据的接收方,攻击者(如Alice)希望能够辨认出一些特有的事务记录。攻击者拥有一些背景知识,即已知一些项目,如果只有少数几条事务记录包含这些项目,那么攻击者就可以得到数据发布者所不愿意透露的信息。

文献[2]提出km-匿名模型来保护数据隐私。km-匿名模型假设攻击者已知事务型数据中长度为m的项,我们要防止攻击者从k条事务记录中区分出特定的记录。也就是说,对于长度小于等于m的项目集,数据集中至少要有k条记录包含这些项目集。

传统的数据匿名化方法有三种:概化、隐匿和扰乱。概化是指用更一般的值来替代原有的值(如用饮品来替代牛奶和啤酒);隐匿表示将原有的记录项删除,最终用户将看不到原始的信息;扰乱是指将一些数据失真(如添加噪声、交换数据),但某些数据或者数据属性保持不变。

例2.对于图1 (a) 的原始表,在22-匿名条件下,使用文献[1]的匿名方法,需要隐匿项{b, d},如图1 (b) ;通过扰乱的方法,需要添加3条记录,如图1 (c) 。

分别对图1 (b) 和图1 (c) 的表进行关联规则分析,我们发现隐匿后的数据可用性低于通过扰乱后的数据可用性,数据可用性的具体定义将在下文给出。

在本文中,我们基于km-匿名模型提出新的 (k, m, l) -匿名模型,不同于文献[2],我们使用扰乱的方法来实现数据匿名化。我们使用字典树的数据结构对不满足 (k, m, l) -匿名模型的项目集启发式的添加记录。通过大量实验,验证这种贪心的匿名算法,在大多数情况下能够最大限度的减少数据失真。我们定义了新的信息损失度和数据可用性的度量标准,并将关联规则数据挖掘方法应用到匿名模型之中,保证匿名算法的有效性与数据的可用性。

(a) 原始表 (b) 隐匿后的表 (c) 扰乱后的表

2、相关定义

定义1 (p项目集) .设U={I1, I2, …, Im}为事务型数据D中m个不同项目组成的集合,其中的每一项目Ik (k=1, 2, …, m) 相当于一个属性。D={T1, T2, …, Tn}为事务型数据的n条事务记录,D中的每条事务记录Ti (i=1, 2, …, n) 相当于任意属性的集合,Ti哿U。项目集中项目的个数称为项目集的长度,如果项目集的长度为p,则称为p项目集,p项目集相当于攻击者的背景知识。

定义2 (km-匿名模型) .在事务型数据D中,如果p (1≤p≤m) 项集的出现次数不少于k次,则称D满足km-匿名模型。

定义3 (p项目树) .对事务型数据D中的各项定义偏序关系,并将所有p项目集插入字典树中,则称这棵字典树为p项目树。

定理1.对包含n个项目的项目集排序后建立字典树,在最坏情况下,字典树上的结点数为2n-1;对于p项目树,字典树上的结点数为。证明:在最坏情况下,排序后的项目集中每一项都与之后的项有关系,对于1项目集,结点数为Cn1,对于2项目集,结点数为Cn2,…,对于p项目集,结点数为Cnp,字典树上的总结点数为Cn1+Cn2+…+Cnp+…+Cnn=2n-1,对于p项目树,字典树上的结点数为

性质1.在项目树中,设从根结点到叶结点B的项目集为C,如果C不满足km-匿名条件,那么至少需要添加k-Count (C) 条包含项目集C的记录,才能使C满足km-匿名,Count (C) 表示包含项目集C出现的记录数。当项目集C满足km-匿名时,C的所有子集也满足km-匿名条件。

性质2.在项目树中,设从根结点到叶结点B的项目集为C,如果C不满足km-匿名条件,通过添加伪项目集T’, T’是由项目集C和偏序关系在结点B之后的兄弟结点组成,添加的伪项目集T’不会影响之前的满足条件。

定义4 ( (k, m, l) -匿名模型) .向事务型数据D中添加记录,要求添加的记录长度不大于l,如果添加记录后的事务型数据D’满足km-匿名,那么称D’满足 (k, m, l) -匿名模型。

例3.图1 (a) 为原始表,在22-匿名条件下,图1 (c) 为扰乱后的表,添加的新记录长度不大于3,因此图1 (c) 满足 (2, 2, 3) -匿名模型。

定义5 (信息损失度) .通过扰乱的方法,设原始事务型数据D的记录数为N,扰乱后的事务型数据D’的记录数为N’,那么扰乱的信息损失度为 (N’-N) /N。

例4.图1 (a) 为原始表,总共有6条记录,在22-匿名条件下,图1 (c) 为扰乱后的表,添加了3条新记录,因此扰乱的信息损失度为3/6。

定义6 (数据可用性) .使用数据挖掘方法(如FP-growth算法)对原始事务型数据和匿名化处理后的事务型数据分别进行关联规则分析,得到的频繁项目集数目分别为M和M’,如果其中有N个频繁项目集是一致的,那么数据可用性为N/M。

例5.在支持度为20%的情况下,图1 (b) 的数据可用性为5/6,图1 (c) 的数据可用性为6/6;在支持度为10%的情况下,图1 (b) 的数据可用性为7/19,图1 (c) 的数据可用性为19/19;在支持度为1%的情况下,图1 (b) 的数据可用性为7/19,图1 (c) 的数据可用性为19/19。

3、匿名化算法

本文使用扰乱技术,通过贪心的添加噪声(新记录)的方法来实现数据匿名化。首先对事务型数据D中的各项定义偏序关系,之后建立m项目树,对于不满足km-匿名的项目集添加伪项目集,生成匿名后的事务型数据D',最后对D'进行关联规则数据挖掘。

3.1 数据预处理

借鉴Eclat算法[3]的思想,使用垂直数据表示,即每个属性值保存包含该属性的记录编号。使用贪心的方法,让包含记录数越多的属性的偏序值越小。

3.2 建立m项目树

根据偏序值从小到大遍历所有属性,对于当前属性,根据其包含的每一个事务记录编号,选取偏序关系大于当前属性的属性作为候选属性,在候选属性中生成所有的m项目集,并将所有的m项目集插入项目树中。

项目树使用字典树的数据结构,每个结点通过项目的索引保存项目树的下一个结点。

由于项目树的结点十分巨大,将所有p项集都生成到项目树中是不现实的,由于树结构的可分割性,使用分而治之的思想,可以在项目树生成足够多的结点后就进行下一步操作。

3.3 添加伪项目集

遍历项目树,对不满足km-匿名的项目集,通过生成候选项目集的方式,逐条添加伪项目集,使得项目树满足 (k, m, l) -匿名。KMLAnonymity (root) //输入项目树的根结点

3.4 对匿名后的数据集进行关联规则分析

频繁项目集是关联规则挖掘的前提,使用FP-growth算法[4对匿名后的数据进行关联规则分析,判断数据的可用性。

4、实验分析

算法实验平台采用Intel?Pentium?Dual 2.20GHz处理器,099GB内存,操作系统为Windows XP,使用C++语言编程实现。数据集使用IBM数据生成器(http://www.almaden.ibm.com/cs/projects/)生成,该数据集中有记录数83547条,共50种不同的属性,所有记录的平均长度为5。使用本文的匿名算法分别对数据集进行信息损失度、数据可用性和运行时间的分析。

图2中,随着攻击者背景知识 (m) 的增加,数据的信息损失度也急剧的增加,这是因为满足较短的m项集只需要添加少量的记录,当m增加时,由定理1可知,项目树上的结点数呈指数型增加,信息损失度的增加也在所难免。

图3中,当攻击者的背景知识 (m) 为2, 3时,数据可用性接近100%,与信息损失度较小相一致。随着m值的增加,信息损失度也急剧的下降。当支持度为5%-10%之间时,信息损失度较大。当支持度为1%以下时,信息损失度基本在50%左右,这说明添加的记录数平均了原有数据的相关信息,特别突出的项目集减少了。但是当支持度较低时,原有数据的相关信息还是有所保留。

5、总结

本文提出新的 (k, m, l) -匿名模型,通过扰乱的方法,对事务型数据添加噪声,以满足匿名模型,保护个人的隐私信息。本文将关联规则数据挖掘方法应用到匿名模型之中,并定义了信息损失度和数据可用性的度量标准。通过仿真实验和对匿名前后事务型数据的关联规则分析表明,本文的算法可安全且高效地实现事务型数据发布的隐私保护,同时保证发布数据的可用性较高。

算法效率的进一步提升和对事务型数据的进一步研究是本文的下一步工作。

摘要:事务型数据发布时的隐私保护是隐私保护数据发布研究的一个热点。本文针对事务型数据发布的隐私保护问题, 以km-匿名模型为基础, 提出一种新的 (k, m, l) -匿名模型, 并设计出基于该模型的匿名算法, 算法通过添加噪声的扰乱方式实现数据匿名化。基于真实数据集的仿真实验和对匿名后事务型数据的关联规则分析表明, 本文的算法可安全且高效地实现事务型数据发布的隐私保护, 同时保证发布数据的可用性较高。

关键词:隐私保护,k-匿名,数据扰乱,关联规则挖掘,数据可用性

参考文献

[1].Y.Xu, K.Wang, A.W.C.Fu, and P.S.Yu.Anonymizing transaction databases for publication.In Proc.of the 14th ACM SIGKDD, August2008.

[2].M.Terrovitis, N.Mamoulis and P.Kalnis.Anonymity in unstructureddata.Technical Report, Hong Kong University, 2008.

[3].M.J.Zaki, S.Parthasarathy, M.Ogihara, and W.Li.New algorithms for fastdiscovery of association rules.In Proc.of the 3rd Int'l Conf.on KDD andData Mining (KDD'97) , Newport Beach, California, August 1997.

上一篇:设计方法论下一篇:供热安全技术