社交数据

2024-11-07

社交数据(通用10篇)

社交数据 篇1

庞大的数据开始侵入社会的每个角落,我们已经进入了“大数据时代”。据IDC的调研资料显示,我们生活空间中的数据每年以50%的几率增长,几乎每两年就会两倍以上的数据出现。互联网的诞生,改变了传统的信息传播模式,实现了信息的个人创造与共享,每个人都成为了数据的制造家。Wolframresearch的CEO史蒂芬·沃尔夫姆发表主题为“个人分析”研究的文章,展示了他自1989年以来的电子邮件的收发数据资料,并通过图示化的数据阐释了不同时间段的生活作息习惯以及工作模式。著名的IT风险投资人约翰·杜尔(John Doerr)提出了SOLOMO (Social+Local+Mobile)的概念,即社交与本地化与移动的结合,是基于LBS技术的弹性社交模式,目的是实现社交内容与信息高度以及地理信息的高度融合。

网络社交群体

“大数据时代”带来的网络社交平台丰富多样,弱化了群体形成的障碍, 使两个单独个人之间建立连接的几率有了大幅度的提高,并且极大地增加了群体成员交流四维度——时间,空间,工具,以及内容的自由度,使得大数据时代的群体呈现出典型的“小世界网络”特征——联系紧密的小型群体(即内部联系紧密的次级网络);关系疏松的大型网络(即通过高度高度联结的个体间的联系组成彼此间松散联结的网络)。

无论是以何种价值创造作为目标的网络社交群体,都需要在群体成员间特异性与一般性之间寻找某种平衡。这点海德(F.Heider)的“P-O-X理论”给予形象的阐释,即认知对象与两个认知主体三者之间存在着平衡的状态。他认为归属于群体的人们有实现平衡与和谐的期望,并且倾向于通过最小的努力来实现这种平衡,并且用户做出最初选择的时候,他们就会比较倾向于那些和自己有着相同或者类似观点的群体社区,以使后来的实现群体认知平衡的努力限度达到最小。基于“P-O-X平衡理论”,网络社交群体形成需要三个准则:可信服,有效性,与认同感。

可信服是要明确地告诉群体成员的参与者,特别是贡献者为什么要这样做。承诺是社交网站的核心内容,因其能够说服消极参与的浏览用户成长为贡献型的用户积极参与群体交流,而符合用户内心真正需求的承诺更有吸引力。为了最大限度的发动用户,最有效的策略就是降低用户加入的难度,让其感觉诺言的兑现是如此的简单;其次要能够为用户带来明显的个人价值;另外,社交网站的“小世界网络”的关系模型告诉我们可以先将用户群体进行细分,鼓励他们加入小型次级网络,因“小型群体在达成并维护一致和共识上更有效”,然后再发展高联结度的“大使”。

有效性描述的是用户互动的可能性与活跃性。社交平台的设计必须要适合用户的行为,并且能够帮助用户完成自己想做的事情。虽然网络社交作为新工具降低了人们沟通交流的障碍,但是并没有改变社会人的群体生活的典型特征,即小型群体的成员之间更容易达成共识并和谐相处,并且小型网络具有加强与过滤信息的功能。然而大型网络联系的松散特征对“群众智慧”实现的功劳不如忽视,因分散布局的不相连接群体更有利于成员寻找到更好的答案,其重要的功能是收集来自不同用户的知识或者直觉判断,但是却无须达成共识。

认同感是参与该群体活动的用户就自身的责任与义务大成的共识,即产生信服的用户参与互动之后,群体对其的期望以及自身的预期收获。约定是关于用户的自我期望与群体对其的期望, 并且要在群体成员间达成共识性的“无言”约定,群体其他成员作为整体的行为或者反应的期待,更多地体现出成员间的社会性联系,并且成员之间的关系越密切那么之间的互动也相对较多,随之而来的是达成共同协议的复杂度的增加。

网络社交平台的创建

1.“第一眼价值”的实现

用户的社交平台的使用周期包括察觉,注册,回访,与情感依赖四个阶段。社交网站使用过程呈现出“鸡尾酒派对”的现象——进入网站,浏览内容,发现价值信息,而后加入“交谈”,其他动态吸引你的视线。“熟悉的信息源触发的情况更容易使人们做出快速的反应”,社交网站需要为用户提供第一眼价值,因为用户在进入网站到发现价值信息之间能够花费的时间非常短暂。运营成功的社交网站要在用户达到页面短时间内告诉用户社区的目标并 成功的说服用户留下来。开放灵活的信息架构,清晰地导航,有价值的内容展示,还有极具亲和力的视觉设计——尽量图示化的信息显示,明确的视觉信息指示控件操作方式,各类信息间权衡显示,这些都是满足用户的“第一眼价值”需求的设计原则。

2.“贡献型”用户的培养

社交网站的用户群体,依据其在网站内的活动轨迹,可以被划分为四类: 主动发起话题的活跃用户群;就别人的话题发表个人看法的积极参与用户群; 转发并共享某话题及其评论的分享用户群;无所事事的浏览用户群。社交类网站的成功运营必须要包含贡献型用户, 即最大限度的培养活跃用户,至少也应鼓励用户成为积极参与者。影响社交网站“贡献型用户”培养的最主要的因素在于贡献行为执行的难度:首先决定于网站的权限设置,有些网站在用户没有得到价值信息之前就限制了用户对某些内容的阅读权限,这无疑是阻碍了用户的深度参与;其次,社交网站作为“外部记忆源”的主力军,必须要能够帮助用户最快的时间到达记忆的存储目标位置,从而增加了其利用结余时间进行内容贡献的欲望。

3.建构“高效率交互式记忆”

人们倾向于只记忆信息的来源, 而忽略信息本身内容,并且还非常擅长从周围人特别是亲属和朋友那里索取日常生活中所需要的信息,认知心理学家将该种模式定义为“交互式记忆 (Transactive Memory)”。运营成功的社交网站具有“高效率交互式记忆”的特征,即专业(Specialization),协同(Coordination),信任(Trust)。“专业”是指群体内部独立个人所具有区别于其他成员的专业的知识;“协同”所阐释的是群体内部形成的关于成员专业知识的源记忆;“信任”描述群体成员对彼此专业知识准确性的信任。

具有针对性的社交网站比较容易吸引专业贡献型的用户,因为用户能够比较直观便捷的完成自我定位,是稀有信息资源的贡献者,还是稀有信息资源的分享者或转发者。如果是覆盖信息类别比较杂乱的社交网站,可以鼓励用户形成特色社区,或者提供高效的导航系统与筛选途径,再或者对用户关注外的可能激发用户参与或者对用户有价值的信息进行适当的推荐。信任是成员间交流的前提,同时也是高效率交互式记忆形成的基石和维系的纽带,也是网络社交平台成功运营的关键。网络社交平台搭建时需要为用户有效便捷的“个人名片夹”创建体验,鼓励用户将个人资料展示在个人名片夹上,尽量把那些可以作为其所贡献内容的价值评价依据的信息内容进行重点强调;通过身份标签或者整体排名等方式将其在群体中的活跃性直观的展示给其他成员,节省他们的归纳评估的时间,以激发成员对个人名片夹的信息更新主动性。

大数据时代新型群体交往方式背后蕴藏的需求特征并没有改变,人们依然期待着自我价值的实现,渴望自我情感的表达。人类根本的心理需求将继续成为新时代互联网社交平台构建的依据与理论来源。

摘要:大数据时代的社会呈现出更加鲜明的后PC时代特征,并孕育出绚丽多彩的交往工具与平台。基于网络平台构建的社会群体具有典型的“小世界网络”特征,即关系紧密的小型群体,与关系疏散的庞大群体。基于对新型社交群体特征的阐释,深入探讨群体交往的形成要素以及交往平台的如何构建。

社交数据 篇2

摘要:在计算机网络越来越普及的社会中造就信息传播的便利性提高,也让社交网络渐渐发展成为虚拟社群形态,从早期的电子布告栏(BBS)到现在的社交网站(SocialNetworkSites),都可以让人们密切讨论与互动。本文将主要探讨基于数据挖掘模型的社交网络关联预测分析,并对相关技术进行阐述。

关键词:数据挖掘;社交网络;关联预测

在社交网络上,依据先前国外学者Viswanath,Mislove,ChaandGummadi和NguyenandTran都是针对theNewOrleans地区社群使用者发布数据来研究使用者发布的关系,而台湾地区针对使用者社群发布的分析多以问卷方法居多,故本研究欲使用直接抓取页面数据与卷标的方法,观察使用者社群网站上发布行为,利用先前用学者所提数据呈现方式,结合关键词标记方式来了解使用者在社群网络上的发布关系。而其中社群人数拓展最快速就是微信平台,利用了社交网络的特性让使用者能更有效率的在网络上找到有关系的亲朋好友,将这世界的每个人、每个群体透过各种关系快速的串连起来[1]。

1数据挖掘模型的概述

当要对HDFS读写数据时,档案将被切割成小的64MBBlock,NameNode将告知每个DataNode,切割后的block是存放在哪,DataNode将负责做本地端档案的block数据对应,并且同时DataNode将对其他DataNode进行数据复制备份的动作。Hadoop系统的容错率和可扩充性来自于DataNode,当DataNode出错意外关机,其它节点上的数据将依然存在,且当需动态增删系统的运算量,只需增加DataNode节点或停止DataNode运作。在进行社群资料收集与前处理之前,要先了解一下信息撷取与信息过滤的不同之处。在社群网站上随机寻找开放目录上的使用者,而后进行下载该使用者发布数据的动作是谓信息撷取;而将使用者涂鸦墙上大笔数据写进本地端的HDFS系统后,并通过预先设定的一些筛选条件式和过滤方法,剔除杂乱的数据,变成对本研究有用的信息,以利后续卷标计算与关键词计算,这个过程就叫信息过滤[2]。

2基于数据挖掘模型的社交网络关联预测分析

关键词分析部份则是针对个人涂鸦墙页面和使用者自订信息页面进行关键词标记,其关键词来源是使用者自订信息页面上含的运动、音乐、书籍、电影、电视、游戏、宗教、政治八组关键词。相关度计算是利用本研究所提相关度公式来进行个人涂鸦墙页面、使用者自订信息页面和模拟页面间的关联运算,利用页面间所含的关键词,计算出仿真页面与使用页面间的相关度。并在相关度计算阶段把社群发布分析与关键词分析的结果做个交叉分析。之后对此分析结果进行研究评估。使用者自订信息页面有让使用者自己标记自己兴趣的分类项目,分为大四大类自订选项,其自订选项下,包含子项目让使用者自订标记自己的兴趣,而该表的使用者自订分类项目就是本研究挑选关键词的依据,本研究挑选运动、音乐、书籍、电影、电视、游戏、宗教、政治这八个字作为关键词标记投掷的项目,在此就不考虑同义不同字、字面背后意涵等问题,只考虑第一层的字义[3]。

3社交网络关联预测的相关技术与应用

社交网络分析一直以来都是个热门的话题,所有团体成员彼此之间社交关系的集合就是这个团体的社交网络,而透过社交网络分析可以了解团体成员之间的互动,这分析可应用在各种与人有关的领域上。在学校里,学生之间小团体的组成及班级中领导人物与被孤立者的存在,一直都是教育者相当关心的部份。在团体精神治疗中,成员之间的交流情况是分析治疗成果的指标之一。在网络社群中,了解使用者群体之间的互动可以帮助厂商开发更人性化的网络产品。人格特质分析也是个热门的话题,每个人的行为都有一套固定的行为模式,而分析这行为模式就是所谓的人格特质分析,这分析也可应用在各种与人有关的领域上。在学校里,不同类型的学生需要不同方式的教育。在公司面试上,公司透过分析应征者的.人格模式来录取所需要的人才[4]。然而,一般心理学使用的社交网络分析与人格特质分析都是透过纸笔测验,使用大量的人力去取得人际互动的信息,考虑团体成员间友好的互动关系,并使用方向性的连结来表达人们之间的互动关系。目前使用计算机视觉技术的社交网络分析系统,仅考虑人们同时出现频率当作亲密程度的指针,而且使用无方向性的连结来表示人们之间的互动关系。因此,我们使用拥有计算机视觉技术的多摄影机系统,透过分析人们之间的互动行为,互动行为包含互动的对象、所表达的肢体语言与情绪信息,根据分析所有的互动得到团体内所有成员之间的社交态度,而这就是这团体的社交网络。除了友好的互动关系之外,我们还考虑了厌恶的互动关系,并且使用方向性的连结来表达人们之间的互动,这让我们的社交网络分析能更贴切现实的互动情况。通过分析一个人所有的社交互动行为,可以得知此人的行为拥有何种倾向,而这行为模式就是这个人的人格特质。

总之,我们可以根据观察分析人们的互动行为,得到与人们观察得到的结果大同小异的社交网络分析,证明我们能透过计算机视觉技术取得贴近现实的社交网络分析,并且比起一般心理学的社交网络分析省下许多不必要的人力。

参考文献:

[1]王云驰,邓倩妮.关联信息在社交网络中传播的竞争模型[J].微型电脑应用,2015,(3):22-24.

[2]魏爽,高华玲.利用数据挖掘方法进行社交网络关联预测[J].电脑知识与技术,2015,(12):46-48.

[3]李阳,王晓岩,王昆,沙瀛.基于社交网络的安全关系研究[J].计算机研究与发展,2012,(S2):124-130.

面向大数据的校园社交平台 篇3

课程格子是一款面向校园、基于课程表的移动社交产品,目前已经突破1300万注册用户。课程格子在帮助学生们了解课程安排的同时,还可以展开各种社交功能:除编辑创建课程表外,可以添加课程笔记、评价老师;与同学打招呼、聊天,认识更多新朋友;查看其他学校的课程安排,更容易蹭课;校园社区格子BBS,支持匿名发表内容,提供更多隐私保护等。李天放介绍说,在课程格子之前,没有类似的商业模式可以借鉴,因此很多功能都得靠自己研发,“必须要找到自己的方向”。课程格子有两个特色,一个是同学们很方便添加课程表后那种“WOW”的体验,一个是校园社交BBS。

其中,校园社交BBS是课程格子目前重点打造的特色功能。为什么BBS社区反而回归了90后的校园?李天放解释说,现在的90后反而更喜欢匿名社交,因为对于90后大学生来说,有的时候做自己很累,因此需要一个匿名的地方,展开校园社交。在内容审核方面,由于课程格子是开放注册,但只有提供实名认证的VIP用户才可以匿名发帖,因此BBS里不会出现比较乱的内容。

课程格子通过“课程表”这个校园的刚需吸引学生用户注册,提供便捷的用户体验,让用户在30秒即可定制自己的课程表,获得“WOW”的用户体验,再通过校园BBS黏住用户,吸引用户不断回头全用课程格子。“可能学生一周只有一半的时间在使用课程表,但使用校园BBS的可能性高达八九成。”李天放说。

接下来,课程格子准备提供校园O2O功能,作为课程表、校园社交BBS的下一步。

宋师伟新近加入课程格子,成为公司的CTO,课程格子的研发实力得到了强化。目前,课程格子有30余名员工,全部从事产品开发。虽然课程格子的下一步是校园O2O,但从李天放与宋师伟的背景来看,课程格子的目标远远不止于校园O2O,李天放的目标是要做一家市值超过10亿美元的公司。课程格子团队在大数据与云计算领域的深厚实力,将是课程格子长期的核心竞争力。

社交数据 篇4

1 大数据时代与社交网络

1)大数据时代

大数据是一定时期内数据集的收集,这种数据庞大而复杂,导致很难用目前已掌握的数据库管理工具或者传统的数据处理应用程序来处理。这些挑战包括采集、保管、存储、搜索、共享、调动、分析和可视化[1]。通常以4个V来体现大数据的特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),分别从量、速、类和值四个方面来进行定义。

2)大数据时代的社交网络

与传统互联网相比,大数据时代下的社交网络开始显现其鲜明特征,微信、微博等自媒体已经悄然无声的融入我们的生活,发微信、刷微博、浏览朋友圈成为我们拿起手机就自然而然去做的事情,这慢慢发展成我们一种新的生活方式。据英国《金融时报》2015年3月19日报道,2014年底,微信用户数量同比增长41%,至五亿人,突显这款中国社交媒体应用在移动互联网领域的广大地盘。微信火爆的背后很大程度上是由于它的实时语音聊天、图片分享功能能让我们及时分享自己的动态并与好友互动。当我们在写微博、发照片时都可以添加自己的位置信息,依靠地理位置信息聊友的社交软件也日渐风靡,地理位置信息也逐渐成为当下社交网络中不可或缺的信息资源。虽然标示功能让我们在社交网络中有了更加逼真的交流,但是将自己形同透明地暴露在公众的视野之中。近些年,“人肉搜索”不绝于耳,每当有大事件或者公众关注度较高的事件发生时,当事人的所有信息总是能很快地被公之于众,这就是大数据的功劳。数据关联是用户在大数据时代给互联网使用提出的更高要求,但同时也为一些心存不轨的人提供了更便利的条件,个人安全令人担忧。

2 社交网络隐私保护的现状

1)个人信息泄密

2013年棱镜门事件的爆出,让各国人民突然意识到原来我们一直生活在美国大片中。个人信息的自我放逐大多是从“注册”开始,这里只需要我们交出自己的手机号或者电子邮箱,然后各种商家的优惠信息接踵而来,我们也开始在网上更多的暴露自己的信息。每当接到各种诈骗短信或者电话时,却忘了在何时把自己给出卖了。但是,我们中的大部分人,已经在新环境下"被习惯"了,注册就是需要个人信息来验证,电商支付安全性令人忧心,也还是无法停止网上购物。自我放逐的信息,收不回来,也难以停止。

2)数据库的自身缺陷

数据库运行在操作系统之上,所以数据库的安全依靠操作系统的安全。最常用的就是利用应用系统、数据库的漏洞进行SQL注入。一旦SQL注入成功,可以直接获得整表或大批量数据[2]。

3 大数据下社交网络隐私侵权的新威胁

1)账号被盗风险加剧

账号安全是用户对社交网络最基本的要求。2011年12月CSDN用户数据库被攻击导致600多万用户邮箱账号和对应明文密码泄露;2012年6月美国职业社交网站Linked In同样造成650多万用户账号泄露;而在国内的一些大型社交网站如人人网、天涯论坛等均有被黑客攻击导致用户密码泄露甚至篡改的情况[3]。此外,有很多人用同一个账号登陆不同的应用,一旦有一个账号泄露,由于大数据的关联,更加剧了其他账号被盗的风险。

2)隐私安全问题更加显著

隐私安全问题是大数据时代带给用户的最大信息安全威胁,同时也是限制大数据发展的最大障碍。当用户在社交网络中发布自己的个人心情、晒出自己照片,在微博、微信里和好友进行互动的同时,用户的心情、照片、位置坐标甚至每时每刻的状态都在很大程度上被数据化了。大数据时代下,数据的规模性以及关联性更强、更大,虽然收集商在分析、共享用户个人信息的同时进行了脱敏处理,但是随着数据来源的增多以及数据量的爆炸性增长,那些原本看起来毫无联系,相互分离的数据就能够通过一定的关联匹配起来,这也使得之前所做的脱敏的安全效果受到影响。

3)用户个人信息控制减弱

与传统的社交方式相比,在大数据环境下,个人在社交网络的暴露的信息均可能被访问、收集,通过对不同平台中信息的整合,从而进行挖掘,产生出用户的信息关联体系。大数据时代下的大数据分析可以得出1+1>2的信息。

4 社交网络隐私侵权的原因分析

1)社交用户主体保护意识的淡薄

目前社交网站的隐私泄露、用户个人的安全意识不强等非技术性的因素,已经成为商业公司收集、利用网民隐私的重要来源[4]。陕西师范大学的李冰在对人人网用户的一次社交网络隐私安全的在线调查中发现[5],有58.86%的人填写了自己的真实个人资料,70.89%的用户觉得自己在社交网络中或者正在使用的网站有泄露自己隐私的风险,只有7.47%的人阅读了人人网的相关隐私说明,有39.5的人只知道有这个说明的存在却从没关心或阅读过。由此可见,用户在社交网络中乐于公开分享个人的生活信息,却很少关心个人隐私是否泄露或者网站是否有相应的保护对策。

2)非法数据买卖利益的驱动

2015年4月14日,全国首个大数据交易所——贵阳大数据交易所正式挂牌运营并完成首批大数据交易[6]。然而,非法数据的私下交易却早已经十分广泛,因为其廉价的成本及高额的回报,使得一些非法交易大行其道,收集商或者一些网络管理员违反相关规定,甚至直接将用户个人隐私信息不经过处理直接出售。

3)相关法律保护的缺失

2000年信息产业部颁布的《互联网电子公告服务管理规定》第12条规定:电子公告服务提供者应当对上网用户的个人信息保密,未经上网用户同意不得向他人泄露,违反此规定的,由省、自治区、直辖市电信管理机构责令改正;给上网用户造成损害或者损失的,依法承担法律责任。2009年《刑法修正案》虽然确定了侵犯个人信息罪,但对个人隐私侵犯的行为定义不全面,使得实际操作性较差。《个人信息保护法》从起草至今已经历时12年却依然没有出台,我国在个人隐私信息安全领域仍没有一部专门、权威的法律。但在一些发达国家,早在有关数据资产方面形成了专门的法律体系。更有甚者,在如何数据资产化的方面也已开始探讨,比如法国出台的数字经济纳税条例,就是对享有公民免费数据的互联网企业增加一些税种。

5 社交网络应对隐私安全的对策

1)提升用户的信息安全素养

用户对个人信息的保护应该是一个自我控制、选择以及防卫的综合体系。用户在社交网络中应选择性的公开自己的活动,养成良好的个人信息保护意识,使得别有用心者不能依据所公开的信息对个人安全造成威胁。不同的社交网络应使用不同的密码,并应该及时更换绑定新的手机号。

2)提高大数据安全防护技术

用户可以通过技术手段加强个人信息的安全保护,科使用专门的数据库防火墙技术,防范SQL注入攻击,建议增加底线防护机制,通过使用数据记录行数阀值控制的技术,在最邻近数据库的位置部署数据库防火墙,即使攻击方法穿透了网络、主机、应用,但是一旦超过一定阀值(如100行),所有的访问行为将立即进行阻断、拦截[7]。首先能做到规避大规模数据的泄密灾难。

3)完善相关个人信息安全法律法规

网络安全中有一句经典名言“三分技术,七分管理”,再安全的技术脱离了管理也不会安全。政府部门需要对信息的保护范围和措施上从法律层面做出定义和监管,2012年12月28十一届全国人大常委会第三十次会议审议通过的《关于加强网络信息保护的决定》,该文件明确规定了国家保护能够识别公民个人身份和涉及公民个人隐私的电子信息。任何组织和个人不得窃取或者以其他非法方式获取公民个人电子信息,不得出售或者非法向他人提供公民个人电子信息①。该决定明确了各方职责,以法律形式保护公民个人及法人信息安全,重点解决了我国网络信息安全立法滞后的问题。加强网络信息保护的立法,正是在一步步探索大数据时代的安全边界,对于进入大数据时代的公民隐私保护以及维护国家安全和社会公共利益,都有着积极意义。

大数据带给人类生活的益处是多方面的,但大数据相比传统互联网,也在给网络安全带来更多威胁,给用户隐私带来更大挑战。我们在不知不觉的成为大数据的“俘虏”,将多样化的社交网络中的各类隐私公之于众。数据共享是大数据的现实价值,但隐私保护又关系到公民个体和国家整体的安全。如何把握好大数据的安全边界、平衡大数据使用和隐私保护是我们必须思考与解决的问题。

参考文献

[1]张艳欣,康旭冉.大数据时代社交网络个人信息安全问题研究[J].兰台世界,2014,5(5):24-25.

[2]郑木德.新形势下网络个人信息安全及保护策略研究[J].网络安全技术与应用,2014,5(5):160-162.

[3]新浪科技.多家公司卷入“密码门”事.[DB/OL].http://tech.si-na.com.cn/z/code_crisis/.2015,5.

[4]董青梅.社交网络对于个人隐私的挑战[J].行政与法,2014(9):4-5.

[5]李冰.国内SNS社交网站隐私安全问题及对策研究[D].陕西师范大学,2012.

[6]光明网.大数据时代的数据买[DB/OL].http://news.gmw.cn/2015-04/23/content_15454570.htm,2015,5.

社交数据 篇5

自从益普索SMX(Ipsos专门的社交媒体实践)的启动以来,我们一直专注于如何构建和协调社交媒体数据,以使之对于客户而言更加相关、易消化、及时、价格实惠。更具体地说,我们一直专注于协调社交媒体数据和以调查为基础的数据,以便形成能够优化成本和提高洞察速度的数据混合体。我们称之为“并行智能”(side-by-sideintelligence)。它让我们能够应用社交媒体洞察,以支持多个领域的发现,如产生有关创新、创新性发展、市场结构的新见解。

社交媒体数据在品牌资产管理中的力量

对于大多数老牌品牌而言,品牌资产不会出现快速变化。正是由于这一事实,我们面临两大挑战:

1.很多客户经常质疑品牌资产追踪的价值,尤其是在品牌资产追踪费用高昂、报告缓慢、呈回顾性之时;

2.期待社会化媒体数据能够代替以调查为基础的跟踪调查的客户,发现社交媒体数据与调查数据并不相关,或并不依赖于市场中的表现。

重要的是,要了解社会数据和调查数据来自于不同的来源,而且它们也并非有意相一致。虽然你可以对社交媒体数据做拟合,使之与已知的业务度量(如销售量)相一致,但却并没有什么价值,因为这些数据的预测性不会超过一个或两个星期。

因此,我们更倾向于使用社交媒体数据来探索整体周期性品牌资产数字下的洞察。调查数据提供了基准和可靠的代表性洞察,而社交媒体数据可跟踪资产随时间推移的驱动因素的有意义变化。我们可以通过将在社交媒体数据中观察到的变化付诸以调查为基础的驱动因素分析,来得到洞察。

BHT社交媒体数据的结构化

我们所采用的结构,利用的是我们从以调查为基础的品牌资产模型的所得。然后,我们设置框架,将社交媒体数据进行编码,以匹配从基于调查的资产深入研究中所获得的品牌资产措施和驱动因素(例如,匹配诸如我们的“态度资产”、“市场效应”、“资产诊断框架”和“情感上的映射”等措施,以及定制意象的选择、个性以及反映客户的特定市场的形象编码)。

调查数据驱动因素分析与社交媒体调查结果之间的这种类型的匹配方式,为社交媒体数据提供了一个对品牌重要的是什么的相关结构。这就创建了一个快速一致的跨市场比较和延展的过程。从而,可以避免从头开始每一项新的社交媒体研究的成本,而且还提供了一个与我们的客户更为熟悉的内容相匹配的洞察结构,即透过基于调查的反馈的镜头,而垦有更大的控制和目标代表性。

并行智能

利用洞察的两大来源,以提供速度更快、价格更优惠的品牌指导(可扩展,由具有代表性的基于调查的洞察支持),并行智能提升了品牌健康跟踪。通过进行超越数量和情感的社会分析,并将其编码至(我们的或客户的)经过验证的框架,通过使其更具可操作性和战略性,我们增加了社交媒体数据的价值。

品牌健康跟踪和社会智能正共同迎来一个品牌资产计划的新时代,可提供动态、快速、内容丰富的洞察,帮助开启我们对消费者认知和品牌联想的理解,这是前所未有的。

专注于增量:社会化的真正力量

我们知道,社交媒体数据并非总能容易地匹配或取代以调查为基础的洞察的可靠性。那么,如果是这样的话,在此背景下,究竟如何该正确地使用社交媒体数据呢?我们认为,应该把重点放在随时间变化的趋势上。即注重通过社会化聆听所发现的增量。社交媒体数据具有不够充分的代表性,并不“等同于”调查数据,这并没有问题,只要我们在社会结构和“样本框架”中保持一致。我们想要社交媒体数据告诉我们一些新的、不同的东西。当我们追踪经编码的社会化聆听数据的增量,我们可以填补调查波次之间的差距,预测发展趋势,发现单单进行传统的研究所难以获得的新洞察。我们还可以为客户提供可操作的早期预警数据,这样他们就可以以消费者的速度作出更为明智的决策。

去年秋天,我们察觉到我们为一家领先的快速消费品客户在社会化方面追踪的关键资产属性,出现了一个突然而显著的提升。“顾客价值”度量的意外飙升,让我们思考其是否能够告诉我们从调查追踪所获得的相对稳定的KPI(实际上呈现下降的趋势)所无法告知的情况。经过进一步的检查,我们发现,社交媒体数据中的正收益的增加,实际上是与一个自有品牌竞争对手相关的评论显著提升的结果。在存有疑问期间,由于竞争对手雄心勃勃的广告战和折扣的结果,单条评论中包含两个品牌的社交评论的数量增至三倍。在几个小时的时间里,我们能够看到,消费者认为,竞争品牌的表现在不同的质量方面,始终远远低于他们的期望。与此同时,这些消费者也重申了他们对我们客户的产品的支持和赞誉,即承认该品牌作为该品类的领导者和大多数第一选择。

只有通过社交媒体数据和调查数据之间的并行比较,我们才能够找出最终揭示隐藏的市场动态的差异。孤立地看,仅社交媒体数据本身,只能表明品牌运行状态良好。而单独的调查数据并不能捕捉到细微的动态,这可能对品牌的创新和传播工作产生深远的影响。

结论

在新常态下,人们表达和消费会影响购买决策的源源不断的在线内容,我们的客户对快速、可靠、易消化的商业智能的需要,比以往任何时候都多。而另一方面,我们需要知道,通过参考具有代表性的以调查为基础的洞察(已经经过实际销售验证),是否会或如何回应社交关注。在这两个方面,并行智能定能不负众望。

社交数据 篇6

互联网空间为用户产生新的社交方式提供了极大的可行性。1960年,社交网络的概念第一次在美国伊利诺斯大学提出。之后,成立了第一个社交网站,即“Six Degrees.com”。2002年之后,各种诸如Link In之类的社交网站遍地开花,给该领域带来了一次重大的革命,极大地丰富了社交网络。今天,社交网络受到极大的欢迎,它给用户提供了大量的交流工具。无论时新成员的加入,还是成员之间建立新的联系,整个社交网络都会得到增长。在分析这些社交网络的时候,预测成员之间的关系成了最主要的一个问题是。

社交网络分析包含一个子领域,即关联预测。做关联预测的时候,需要对一系列的关联进行推理和评估。而这些关联相对于那些已经存在的观测和关联来说,可能不是十分的明显,有的相甚至还不存在。

一般来说,关联预测包括了以下几个领域:1)关联存在预测,即预测任意两个节点之间是否存在联系。2)对节点之间的关系进行分类。3)关系回归。

1 研究目的和数据

本文的目的是预测社交网络中高可能性的朋友关系。这可以为社交网站在发现成员之间的关系上提供很大的帮助。使用的数据采集自Flickr社交网站。Flickr拥有庞大的社交网络,包括了数百万的用户和大量的图片。该网站有大量的朋友关系数据,包括评论、群体成员信息、朋友建议、最喜爱的照片点击以及访问的限制等。

数据包括一个训练文件和一个测试文件。训练文件包含了7,237,983条记录。这些记录由两列数据组成,分别表示第一个人和第二个人的唯一ID。每条记录的意思是第一个人是第二个人的朋友。测试文件由3列数据组成,包含了8960条记录。前两列数据和训练文件的一样,分别表示第一个人和第二个人。第三列表示对第一个人是否是第二个人的朋友的预测,其值为0或者1:0表示第一个人和第二个人不是朋友关系,1表示两者是朋友关系。

2 研究方法

本文采用ROC曲线来计算预测至的正确性。ROC是一个强大的模拟工具,广泛用于医学决策、心理学、通信等领域[2]。

首先,为了了解ROC评估情况以及数据类型,先产生一系列的数据并计算结果。第一步,将预测列的值设为0到1之间的一个随机数,用这些数得到的ROC值约为0.435。第二步,将测试文件的预测列一半设为0,另一半设为1,得到的ROC值约为0.46。第三步,将预测列所有的值都设为0,得到ROC值为0.5。第四步,将预测列的所有值设为1,得到ROC值为0.5。根据最后两步的结果可以看出,测试文件的结果为0和1的记录的数量是一样的。

研究表明,将那些ROC值不佳的预测列的值进行交换,即0设为1、1设为0,可以获得较好的ROC值。在此提出假设,将ROC值为0.468的预测列的数值进行颠倒后应该可以得到较好的ROC值。通过计算,ROC的值为0.532。这证明了假设的正确性。这个结果表明两个预测列的值是互补的,其和为1。在前面提到的测试文件中的8690个记录中,4345个的值为1,另外4345个的值为0。

2.1 一般模型测试

接下来,利用几个模型来帮助发现成员之间的朋友关系[36]。用A表示第一列,B表示第二列,A和B的朋友关系预测值为第三列。训练文件的第一列和第二列是存在朋友关系的。A是B的朋友,那么据此可预测B是A的朋友,如图1所示。通过研究测试文件,发现四百多成员满足这个条件。

另外一个用来预测关联的方法基于以下准则:如果节点对(A,C)和(A,B)存在朋友关系,那么节点对(B,C)之间存在关联的可能性就很高,如图2所示。据此计算得到的ROC值为0.43

下面这个模型中包含三个节点,存在一个路径。猜测路径的起始点和终点存在着朋友关系,如图3所示。即如果A和B存在朋友关系,且B和C存在朋友关系,那么很有可能A和C存在朋友关系。通过这个模型计算的ROC值为0.495。

如图4所示模型,假设节点对(A,B),(B,C),(C,D)存在着朋友关系,那么节点对(A,C)和(A,D)也很有可能存在朋友关系。利用这个模型计算得到的ROC值为0.524。

接下来,利用所有这些方法预测所有的关系。最终得到的ROC值为0.78。

2.2 利用回归进行预测

很多的研究都是在用几个因素来产生最佳值来达到特定的目的。利用统计学,可以通过几个回归算法来实现。在回归计算中,通过一些独立的自变量来推算因变量的值。此即是大多数研究的主要目标。

回归方法取决于研究因素的类型。逻辑回归是一个特殊的回归类型,它用于因变量值为二选一或多选一的情况[7,8]。

需要确定一个X的集合和一个独立变量的关系的问题即是多变量问题。在分析这类问题上,有很多的数学方法。逻辑回归就是一个可以用来描述X集合和一个双态变量或多态变量Y关系的数学模型。双态变量只有两种值,一般用二进制数来表示,其值要么是1,要么是0。

回归最重要的就是找到因变量Y和预测值集X1,X2,……Xk的关系。事实上,回归技术就是要设法确定Y和观测变量X集合的一个关系Y=f(X1,X2,……Xk)。最简单的一种解就是一个线性关系:

在评估方法的帮助下,通常用一个实例就可以将系数α确定下来。当然了,这对因变量和观测变量有一些条件限制,例如:假定模型的线性特性,观测的独立性,因变量分布的规则性以及因变量变化的稳定性等。可想而知,由于线性模型对条件的限制,它并非能总是有效地应用与各种情况下。对于不同情况,需要选择合适的数据模型。

有时因变量是一个双态变量,而影响因变量的预测变量却是数值型的。在这种情况下,用等式(1)表示的线性模型就不合适了。因为(1)的左边只能是0或者1,而在理论上来讲,右边的取值范围为-∞到+∞。逻辑回归就是解决这类问题的一个方法。此方法中,等式左边被转化为一个数值变量,分三步进行:

(i)将(1)中的Y替换为Pr[Y=1]。显然,概率的值可以为0至1之间的任意数。

(ii)采用让步比计算。概率p=0.9可以表示为9:1,或者OR=p/(1-p)=0.9/0.1=9。显然,如果p=0,OR=0,如果p=0.5,OR=1。

(iii)取OR的自然对数作为新的因变量,这样新的因变量取值范围就变成了-∞到+∞。这里将ln(p/(1-p))称为logit(p)。得到的新模型就是:

为了推算出(2)中的系数,要用到长度为n的随机样品,包括因变量和预测变量的值。故而,对于观测变量的n个观测结果之和,就有J个不同的样品(j=1,2,……,J),这样对于预测变量的第j个样品,就有mj个观测结果,其对应的Y=1的概率为:

系数的似然函数对数β=(β0,β1,……βk)为

这里yj表示第j个样品的观测结果之和。为了找到通过最大化(4)中关于β最大值得到的最大似然值,需要下面含有k+1个变量的关于β的k+1个方程:

关于β0,β1,……βk的方程(5)是非线性的。需要用数字迭代的方法来求解。

在前面,通过所有的预测模型得到了ROC的值为0.78。对不可预测的状态和不能加以假设的部分采用二进制逻辑回归的方法,得到的ROC为0.89。

3 实验结果

实验结果如表1所示。从表中可以看出,逻辑回归是对于前面的假设中的数据进行0值和1值预测的合适模型。

4 小结

使用了各种模型方法进行数据预测,从结果可以看出最好的方法就是综合各个假设,使用逻辑回归模型。从8690个数据的结果来看,使用该模型进行预测的正确率约为90%。这可证明该模型为二值预测的最好模型。然而,这个模型还不能完全地正确预测。为了使预测结果更准确,可以考虑在计算时对各个模型引入权重系数。

摘要:如今,社交网络服务的使用越来越多,像Facebook这样的社交网站成了继雅虎、MSN等大型门户网站和谷歌等搜索引擎之后最受欢迎的网站。预测社交网络中人与人之间的关联成了分析社交网络的一大难题。论文目的是通过对现有的网站数据准确地预测朋友关系。通过使用数据挖掘的方法,预测的准确度达到约90%。

社交数据 篇7

一、大数据时代与社交网络

1.大数据时代。简单来说, 大数据就是那些通过标准数据库技术高效处理的规模巨大、形式复杂的数据。数据被称之为大, 它需要具备三个关键的属性, 那就是大规模、高速率和多样性。大规模指的是数据规模大, 人们无时无刻不在手机、电脑上产生大量数据, 如今Facebook注册用户已经超过10 亿, 每月上传的照片也已经超过10 亿张, 每天生成300TB以上的日志数据[1]647;高效率指的是数据时效性特别强, 需要快速存储和处理, 系统会根据每个用户当下的需求来实时地改变网络广告的投放策略, 用户也希望以更快的速度从网络中提取信息;多样性是指表达数据的形式多种多样, 既有文字类结构化数据, 也包括图片、音频、视频等其他形式的非结构化数据, 社交网络中的数据多以非结构化为主。

2.大数据时代的社交网络。大数据的蓬勃发展给社交网络带来了机遇和挑战, 社交网络在大数据时代呈现出新的特点。

首先, 社交网络上非结构化信息日趋增多。腾讯公司2011年1 月推出的微信聊天应用程序截至2013 年1 月注册用户量已经突破3 亿[2], 语音聊天、图片分享等功能获得了用户的极大青睐;让照片说话的社交应用“啪啪”, 用音频来介绍照片背后的故事, 声音的魅力吸引了众多用户;此外, 其他社交网络也加入了语音、视频交流的功能。音频视频等非结构化信息给用户提供了全新的交互体验, 但是从另一方面来讲也在社交网络上透露了更多的个人真实信息, 而数字化信息的便捷复制性也使得个人对自身信息的控制能力大大减弱。

其次, 移动地理位置信息应用日渐风靡。从2010 年开始我国社交网络进入“Check In”时代, 用户在写微博、发照片时可以加入地理位置信息, 依靠即时地理位置信息交友的移动应用在国内也逐渐风靡, 地理位置信息成为当下社交网络中个人信息资源的重要组成部分。虽然地理位置信息让用户在社交网络上有了更真实的用户体验, 但是大量信息暴露在大众视野之下, 其安全性堪忧。

此外, 资源互联性增强是大数据时代社交网络变化的另一大特点。好友可以访问用户已绑定的其他社交应用上的资料, 用户也可以将其他网站上的信息链接到自己常用的社交网络上。陌陌用户可以访问好友绑定在新浪微博、腾讯微博、人人网上的信息, 啪啪用户的更新信息可以链接到个人新浪微博里, 微信朋友圈支持从QQ空间、腾讯微博等其他移动社交网络里链接来的信息。数据互联是社交网络运营商应对大数据时代用户更高沟通需求的必然选择, 但是也为别有用心者挖掘用户个人信息体系提供了便利, 个人信息安全堪忧。

二、大数据时代社交网络中个人信息安全面临的挑战

大数据的核心就是预测[3]16, 社交网络运营商只有在掌握海量数据的基础上, 通过科学软件进行用户分析、产品分析, 预测市场走向, 挖掘出有巨大的价值的产品和服务, 才能够在大数据竞争中处于不败之地。但是大数据这把双刃剑在方便用户社交和商家预测分析的同时, 使个人信息安全在新时代新形势下面临着前所未有的威胁和挑战。

1.账户被盗风险加剧。用户账户安全, 是人们对社交网络的基本要求。与传统互联网环境相比, 大数据环境中人们拥有了更多的社交网络账户, 为了便于记忆, 通常人们用同一个邮箱或者手机号在多个社区之间申请认证服务;为了便于用户操作, 网络运营商之间也加强合作, 用户可以用一个社交网站账户登录多个网站享受相关会员服务。大数据环境下数据关联性强, 一个社交账户被盗, 其他网站的账户安全也岌岌可危。账户资料作为商家的重要资产, 也是犯罪分子垂涎的对象, 账户安全问题在大数据环境下更加严峻。

2.隐私安全问题堪忧。隐私安全问题是大数据时代带给个人信息安全的最大威胁, 也是制约大数据发展的最大障碍[4]。人们在社交网络上发布心情、分享照片, 在微博和聊天软件里和朋友进行互动, 我们的情绪、我们的地理位置、我们的日程在一定程度上已经数据化了。虽然人们乐于在网上分享自己的个人信息, 但是当大家意识到社交网络在默默记录和收集自己方方面面的数据时, 相信很多人都不会认为这是一件令人高兴的事情。在现阶段, 社交网络中实施大数据战略的公司并没有阐明其个人信息数据的真正用途, 这是导致用户不信任的原因所在。与传统互联网时代不同, 大数据环境下数据的关联性更强, 虽然运营商在共享和分析客户个人数据时进行了匿名处理, 但是随着数据来源的增多和数据量的增加, 那些看起来互不相干、相互分离的数据能够通过一定的关联物匹配起来, 从而使预先的匿名化无效。这种个人信息可以被重新识别出来风险, 使用户的隐私安全问题将日益提上监管部门、立法部门和其他相关机构的日程之上。

3.用户个人信息控制权减弱。与传统环境相比, 现在人们对个人信息的控制权明显降低了。传统环境下信息传播模式代价高, 用户对自己的个人信息还保持有微弱的控制权。但是在当今大数据时代, 个人在社交网站上的信息很容易被访问、收集和传播, 通过对不同社交网络中个人信息进行整合分析, 很容易建立包括目标人履历、喜好、朋友圈以及信仰等信息在内的信息体系。数字信息的易复制性和长期保存性, 使那些对我们不利的污点信息也很容易被别有用心的人获取, 从而造成我们对个人信息控制权的减弱。

三、大数据环境下保护社交网络中个人信息安全的对策

保证用户个人信息安全是社交网络在大数据时代继续发展的前提条件, 账户被盗、资料丢失、隐私被敲诈等等问题, 让我们意识到, 必须从国家、行业和用户等各个层面来应对大数据环境中社交网络出现的问题, 以发挥大数据在企业创新、服务用户上的优势。

1.个人信息安全法律法规同步跟进。大数据技术在我国还是新生事物, 行业内部在不断地摸索中努力和前进, 面临着相关法律法规缺失、不能有效维护用户个人信息安全等问题。《信息安全技术、公共及商用服务信息系统个人信息保护指南》作为个人信息保护方面的最高国家标准于2013 年3 月1 日开始实施, 它对大数据时代如何合理利用个人信息给予界定, 以指导和规范利用信息系统处理个人信息的活动。但国家标准、行业标准的法律效力远远不能保护群众个人信息安全, 而散落在其他法律条款中的针对信息安全保护的规定也无法满足当下群众追求信息尊严和信息控制权的需求, 因此大数据时代要想有利保护个人信息安全, 最重要的还是确立个人信息保护的基本法律制度, 尽快出台《个人信息保护法》刻不容缓。

2.完善社交网络服务行业自律公约。良好的行业规范和行业自律公约, 是一个行业蓬勃发展的重要条件。社交网络企业要想在大数据时代的背景下走得更长远, 就要努力构建本行业的通用规章, 维护用户信息安全, 建立客户信任感, 从大数据中获得持久利益。

第一, 改变秘密收集用户信息的现状。尊重用户知情权, 向其告知企业商收集用户个人信息的情况, 给予用户是否授权运营商收集和利用自身信息数据的权利, 并在服务条款里阐明个人信息数据的使用方式和使用期限。

第二, 努力寻求社交网络个人信息拥有者、数据服务提供商以及数据消费者之间共同认可的行业自律公约, 保证数据共享的合法性, 使第三方在使用社交网络数据时保证用户个人信息的隐私和安全, 以营造安全的数据使用环境。

3.提高大数据安全防护技术。在大数据环境下, 要保护社交网络中的个人信息安全, 除了法律法规和行业自律的约束外, 安全有力的防护技术也是至关重要的, 它能在一定程度上从源头上保证个人信息的安全。

首先, 加强大数据技术和信息安全技术的融合。面对不断膨胀的数据量和多种多样的客户端应用, 行业内应当利用大数据更高更广的视角来判断和监测网络安全, 将大数据技术与安全技术有机融合, 尽可能地提前发现系统存在的安全隐患, 不断更新病毒和钓鱼软件特征, 使用户在运用社交网络时有一个良好的个人信息防护空间。

其次, 努力更新完善匿名技术。大数据分析技术和大数据预测技术为社交网络运营商开展精准营销服务的趋势已经势不可挡, 业界要努力寻找更专业的算法来完善匿名技术, 以解决数据分析应用与用户隐私之间的矛盾。

4.提高用户的信息安全素养。提高信息安全素养是社交网络用户在大数据时代主动保护个人信息安全的有力措施。具体来说, 信息安全素养包括信息安全意识、信息安全知识、信息伦理道德和信息安全能力等具体内容[5]82。信息安全知识的丰富, 有助于人们了解木马、钓鱼网站的特性特点, 从而提高信息安全意识, 明确信息安全在大数据时代的重要性, 以及了解保护个人和他人信息安全的职责和义务, 遵守信息法律伦理, 并在一定程度上具有防范计算机网络犯罪和病毒攻击、及时备份重要资料的信息安全能力。提高用户的信息安全素养, 可以从以下几个方面努力。

第一, 要有数字化节制意识。理性地应用社交网站和移动社交应用, 运用社交网络时要权衡得失, 眼光长远, 在网络上分享真实照片、个人行踪、即时地理位置等信息时要有节制意识, 并且有效设置陌生人访问权限, 把个人信息控制在自己所尽可能驾驭的范围之内。

第二, 降低账户信息的可理解度。社交网络用户应当避免使用姓名的拼音或者缩写加生日的方式来申请和设置社交网络账号密码, 避免用同一个邮箱同一密码申请多家网络应用, 同时也应当避免通过社交网络或者手机传送网络账号密码。

第三, 主动接受信息安全教育。相关调查显示, 参加过信息安全培训课程的用户信息安全意识较强, 保护个人信息的安全能力也较为突出[6]61。在大数据时代, 用户应仔细阅读社交网络运营商的安全隐私协议, 熟悉相应的隐私设置方式, 主动防护自身的信息安全。

此外, 在大数据环境下, 用户还应当及时更新电脑和智能移动设备的安全防护软件, 避免在公共WIFI条件下登录网络应用、使用移动支付, 以免威胁个人的信息安全和财产安全。

社交网络中的个人信息作为大数据时代的一大金矿, 是多方关注的焦点。新时代, 也要求我们提高信息安全素养, 加强大数据安全防护技术, 并以立法和行业自律为保障来捍卫个人信息的安全。

摘要:从大数据背景出发, 分析了大数据时代社交网络的新特点, 指出个人信息安全面临着账户被盗、侵扰隐私、失去个人信息控制权等问题, 并从法律法规、行业自律、安全技术以及个人安全素养方面提出了相应对策, 以保证大数据时代社交网络中的个人信息安全。

关键词:大数据时代,社交网络,个人信息安全

参考文献

[1]李国杰, 程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊, 2012 (6) .

[2]微信.http://t.qq.com/p/t/244301088926765.2013-1-15.[2013-8-3]

[3]维克托·迈尔-舍恩伯格, 肯尼思·库克耶.大数据时代:生活, 工作与思维的大变革[M].浙江人民出版社, 2012.

[4]Jeff Bertolucci.Privacy Concerns:Big Data's Biggest Barrier?http://www.informationweek.com/big-data/news/big-data-analytics/privacy-concerns-big-datas-biggest-barrier/240156861.2013-6-18.[2013-8-3]

[5]罗力.国民信息安全素养评价指标体系构建研究[J].重庆大学学报, 2012 (3) .

社交数据 篇8

1 目前我国大数据时代社交网络内涵

大数据时代顾名思义, 就是根据标准的、规范的信息技术处理海量的数据信息, 这些海量的大数据来自于人们日常生活中使用的电脑、电视、手机、平板电脑等各种电子终端设备, 上网痕迹是最主要的数据信息来源, 将这些信息数据进行统一整合可以发现数量是十分庞大的。例如:我们日常生活中常常用到的社会网站INS, 其已经在全球范围内广泛应用, 注册的用户就已经达到十几亿, 而且每一分、每一秒都有人在上面上传自己的日常照片、个人日志等内容丰富的信息数据。又如:国内无人不知的QQ、微信等社交APP更是随处可见, 人们在利用这些社交软件进行信息分享的同时, 浏览过的信息都已经存在于数据库中[2]。

2 大数据时代社交网络主要特点

2.1 非结构信息化

随着大数据时代的到来, 社交网络非结构式的信息逐渐增多, 例如:微信APP的广泛应用, 截止到目前为止, 我国微信用户已经过亿, 微信不仅能够利用文字来进行交流, 还能够使用音频、语音等功能进行沟通, 随着微信软件的不断换代更新, 在微信朋友圈发小视频、发表长篇日志都已经成为了现实, 微信汇集QQ和短信的功能和优势, 并且将二者有机的结合在一起, 这种非结构信息模式给广大用户了带来了新的体验。与此同时, 这种便捷也给人们的日常生活带来了一系列问题, 由于微信、微博等都是实名制注册, 账号不是邮箱就是手机号, 这在一方面增强了用户使用的安全性, 另一方面也很容易出现个人真实信息的外泄情况, 给人们的社交网络个人信息安全带来了很大的问题。

2.2 定位功能增强

大数据时代的到来, 使我国社交网络进入了大融合、大发展时期, 尤其是“Check in”广泛流行于人们的日常生活中, 很多人在使用社交软件的过程中, 发表日志、照片、说说、朋友圈等都有定位功能, 用户可以通过选择自己的地理信息位置, 从而让身边的人都知道你现在在什么位置, 这也是大数据时代社交网络内容的重要组成部分。定位功能增强虽然在一定程度上满足了广发用户的需求, 同时也将更多的个人信息暴露在众人面前, 给了不发分子可乘之机, 导致整个社交网络安全性和可靠性较低[3]。

2.3 实现资源共享

大数据时代社交网络能够实现资源共享, 人们既可以从身边好友分享的资料中获取资源, 也可以从社交网络推荐的新闻中获取最新资讯, 还可以将其保存、收藏, 随时随地的进行查看, 这能够满足人们信息的需求, 但同时还会给社交网络发掘个人信息带来方便, 很容易将个人信息泄露。

3 大数据时代社交网络个人信息存在的安全问题和解决路径分析

虽然经过多年的发展, 在大数据时代背景下, 我国社交网络个人信息已经得到了一定的成效, 并且有了实质性的突破, 但在实际发展的过程中, 社交网络个人信息仍然存在诸多亟待解决的问题, 具体表现如下:

(1) 在大数据时代社交网络下个人信息存在账户信息被篡改、账户余额被盗、银行卡号泄露、手机号、联系地址被盗取、个人隐私暴露等;同时社会网络技术水平较低、相关法律法规不健全、市场监管能力较低等问题突出。 (2) 解决路径分析:首先, 使用社交网络的用户自身应该提高隐私意识和保护意识, 在使用定位系统的过程中应该设置相应的访问权限和可见权限, 不能所有人都能访问, 只有身边熟悉的朋友才能查看, 陌生人是不能查看的。同时在填写个人信息尤其是银行卡信息的过程中, 要查看是否能够保密, 不能随意填写涉及到自身利益的信息。其次, 社交网络运营商以及工作人员应该提高自身责任意识和专业化水平, 工作人员应该严格进行监督和检查, 一旦发现恶意软件可能侵害用户信息应该给予及时的制止, 这样才能避免个人信息遭到泄露[4]。最后, 国家和市场都应该完善相应的监督和管理法律法规, 这样才能对社交网络起到相应的约束作用, 利用现代化科学技术来防范个人信息安全遭到威胁的问题, 这也是最有效的方法之一, 能够从源头上打击不法分子。

4 结语

综上所述, 社交网络作为大数据时代到来的显著标志, 它极大的丰富了人们的日常生活, 同时也带来了个人信息安全泄露等一系列问题, 因此只有国家逐步提高管理和监督水平, 真正做到与时俱进、开拓创新, 在实践的基础上创新, 在创新的基础上实践, 才能从根本上提高社交网络个人信息的安全性和稳定性, 为广大用户营造一个健康、和谐的上网环境。

摘要:近年来, 随着我国互联网计算机技术的飞速发展, 人们生活质量和生活水平的不断提高, 大数据时代的到来使人们的生活发生了翻天覆地的变化, 社交网络时代给人们生活带来好处的同时, 也给社交网络个人信息安全带来了一系列问题。本文针对大数据时代社交网络个人信息安全问题的现状, 提出几点有效的措施和建议, 从而提高社交网络个人信息安全性和可靠性。

关键词:大数据时代,社交网络,个人信息,安全问题,有效策略

参考文献

[1]张艳欣, 康旭冉.大数据时代社交网络个人信息安全问题研究[J].兰台世界, 2014, 5 (5) :24-25.

[2]刘小霞, 陈秋月.大数据时代的网络搜索与个人信息保护[J].现代传播 (中国传媒大学学报) , 2014, 5 (5) :126-128.

[3]郑木德.新形势下网络个人信息安全及保护策略研究[J].网络安全技术与应用, 2014, 5 (5) :160-162.

社交数据 篇9

互联网在人类生活中的应用日益深入, 大量商务及社交活动都在网络上进行, 商务及交流方式的转变促使了客户关系管理理念与技术的变革。

传统的客户关系管理主要针对客户交易记录及个人信息进行数据挖掘, 了解用户的需求并为其进行更好的服务, 然而这样的方法在社交网络时代并不适用。2009年, 美国学者提出了社会化客户关系管理 (Social CRM, 简称SCRM) 的概念, 客户与企业沟通的媒介发生了改变, 企业应该打破围墙, 倾听用户在社交媒体中的声音, 更好地开发与利用这些存在于网络之中、急剧膨胀的信息资源成为一个重要议题。

在这样的背景下, Web数据挖掘技术得到迅猛的发展, 其应用的广泛性同时也加速了技术与理论的发展与革新。有学者探讨了Web内容挖掘在企业电子商务网站中的应用, 及其对市场营销、客户关系管理以及信用评价领域的现实意义;还有学者研究了应用Web数据挖掘技术于捕获网络档案信息资源提供个性化服务的具体措施;更多的学者从技术的角度对信息采集代码与方案进行了优化、信息处理算法进行了改进。

在社交网络时代应用Web数据挖掘技术于SCRM, 挖掘出海量信息中的价值显得尤为重要, 文章在前面学者研究的基础上, 结合社交媒体用户数据收集为例, 探究了Web数据挖掘技术在SCRM中的具体应用, 为正在使用SCRM的企业提供参考。

2 Web数据挖掘技术

在Web数据挖掘出现前, 数据挖掘的技术就已在CRM中得以广泛地应用, 它通过从数据源中探寻有用的模式或知识进而挖掘出信息可利用价值。数据挖掘用到的理论与技术非常丰富, 包括信息检索、可视化、概率统计、机器学习、人工智能等。

随着环境的变化, 网络上的数据变得更加难以收集, 信息的种类多样, 面对海量数据人们对其价值的需求仍在不断增强, 这也促使了Web数据挖掘的流行。Web数据挖掘并非传统数据挖掘的应用, 而是对前者的继承与发展, 它涵盖了数据挖掘技术的理念与技术, 并在此基础上发展了新的算法与任务。

Web挖掘过程与数据挖掘过程比较相似, 不同之处在于Web数据挖掘的数据项收集是项艰巨而复杂的工作, 且后期数据处理用到的具体技术与数据挖掘有较大区别。Web数据挖掘的应用范围十分广泛, 包括市场营销、销售与客户关系管理等。

根据挖掘过程中所针对的对象分类, Web数据挖掘可以被分为Web使用挖掘、Web结构挖掘和Web内容挖掘。文章将从Web使用挖掘收集客户特征、Web结构挖掘识别“重要”客户、Web内容挖掘处理抱怨三个方面介绍Web数据挖掘技术于SCRM的应用。

3 Web数据挖掘技术在社会化客户关系管理中应用

3.1 Web使用挖掘收集客户特征

Web使用挖掘是自动发现和分析模式, 这些模式来自于收集的点击流和相关数据或用户与一个或多个网站互动的结果。其主要目的是捕获、建模并分析用户与网站之间的交互行为模式。一般可以得到的用户频繁访问的页面、对象或者资源。用挖掘的数据来源主要是使用记录数据、内容数据、结构数据以及用户数据。

使用记录数据是被Web和应用服务器自动收集的日志数据, 它很具体地表现了用户在不同页面中的跳转、连接行为。每条日志记录可能包含的信息很多, 包括HTTP服务器访问请求的时间与日期、用户客户端的IP地址、所请需求的资源的地址等。

当收集到客户所处社交网络中的这些半结构化的数据后, 就可以有针对性地分析客户对话题的参与程度、传播话题的频率, 进一步可以分析用户更倾向于哪类形式的网络交互及其交互的习惯, 包括浏览、评论、购物等事务经常发生时间段等。

电子商务网站淘宝网利用Web数据挖掘分析得到网络消费者在每周二登陆账号、浏览商品并下单的频次显著高于其他时间, 并将此信息公开给淘宝商家辅助其做出经营策略。为了迎合消费者的购物心理及习惯, 淘宝上大多数商家都会选择在每周二进行商品上新, 或者做促销活动, 以吸引消费者购买。这就是一个利用Web使用挖掘收集用户特征的典型案例。

网络时代, 消费者面对的信息渠道众多, 通过Web数据挖掘, 发现用户性格及习惯上的特征有助于企业发起用户感兴趣的话题与互动, 从众多同类信息中脱颖而出, 与客户建立深层次互动, 留下良好而深刻的印象。

3.2 Web结构挖掘识别重要客户

Web结构挖掘是在表示Web结构的超链接中找出有用的信息, 包括这些网站之间的拓扑结构, 网站质量及重要程度等, 一般会以网站的链入链接数量及与之相连的网站质量等指标来衡量。

类似的, 企业可以通过这种技术来分析出客户在社交网络中所处的位置及其重要性。企业可以按照自己的需求来设计爬虫, 捕获所需要的信息。以新浪微博为例, 收集带有“户外”和“80后”标签的微博账号, 抓取其之间的连接关系。将每一位用户抽象成一个节点, 他们之间的关注关系抽象为节点之间的连边, 这样就可以抽象出一张网络。在这张网络中可以揭示热爱户外运动, 年龄在30岁左右的这样一个群体之间的联系。每个节点在网络中都占据着特殊的位置, 可以分析出周围的连接数量庞大的中心节点, 这样的节点在网络中影响较大, 其所传递的信息或观点能够在网络中迅速地扩散与传播, 我们认为这样的节点在网络中相对更重要。

在社交媒体的框架下, 过去简单按客户购买记录的方式判断客户重要性已不再适用。社交网络上, 不同客户在网络中所处节点的位置也是一种资本。在考虑客户重要程度与关系维护的投资时, 需要加入该因素再衡量, 通过Web结构挖掘找出客户关系网络中需要高度关注的重要客户。

3.3 Web内容挖掘处理抱怨

Web内容挖掘主要是从网页内容中收集、分析及提炼有用信息, 这里涉及到的技术更为复杂与宽泛。

在社交网络中要对用户的评论、博文、回帖等内容进行挖掘用户的观点或态度, 不仅具有技术挑战性, 也对客户关系管理具有很大的实际意义。因为在社交网络背景下, 用户抱怨的发泄渠道与以往不同, 他们可以在短时间内通过Twitter、Facebook、微信、微博等社交媒体传达自己情绪。企业不能再向过去一样等待着客户通过电话、邮件等方式主动向企业反馈信息, 而需要主动、实时地分析与跟踪客户们对产品与服务的看法。

这里可以运用Web内容挖掘技术来面向社区收集非结构化数据, 进行观点挖掘, 把握客户意见。其中的技术较为复杂, 现在已经有比较强大的工具可供企业直接使用, 比如Google Alerts、Spy、Social Mention等工具就可以收集新闻、网页、博客、微博、视频等不同渠道的关于企业评论的信息。

这里以Social Mention为例。简单介绍内容挖掘在SCRM中的应用。企业可以根据自身需求, 在检索框中直接输入关键词, 可以选择搜索的范围, 点击回车就可以得到所有规定范围内提及过该词的文本所在网页如图1所示。当然, 这样检索出来的数据是比较全的, 但噪音也比较大, 需要进行筛选、分词及语义分析。在检索结果页面的左边呈现有很多直接分析出来的信息结果, 可以给企业提供一定的参考。

这样有助于企业及时地了解客户看法, 全面地收集用户抱怨, 更好地应对社交网络中的负面舆论, 面向社区与个人迅速响应并反馈, 从而改进产品与服务质量。

4 总结

文章从Web使用挖掘、Web结构挖掘及Web内容挖掘三个方面介绍Web数据挖掘技术在SCRM中的应用。这里探讨的三个方面不能割裂开来看待, 它们之间是相互配合与协同的关系。

比如通过Web结构挖掘分析出哪些客户是非常有影响力的节点后, 结合Web使用挖掘, 有针对性地向重要客户们推荐商品, 设计有趣的互动, 通过个性化的服务与丰富的体验加强与客户之间的合作关系, 延长客户保持的时间, 并让这些重要节点成为企业的猎犬, 然后运用Web内容挖掘及时掌握用户们对产品、服务及活动的反馈信息, 包括其态度、情绪、积极性等等, 进而改进体验, 有利于形成良性循环。

互联网与社交媒体的出现给企业带来了机遇与挑战, 企业重视并应灵活运用信息技术手段更好地在社交网络时代下保持进行客户关系管理。

摘要:随着互联网在人类生活中应用的日益深入, 大量商务及社交活动都在网络上进行, 如何挖掘出海量信息中的价值成为人们关注的话题, Web数据挖掘技术在这样的背景下得到了迅猛的发展。与此同时, 社交媒体的出现让社会化客户关系管理 (SCRM) 应运而生, 为此, 探讨了Web数据挖掘技术于SCRM的应用, 分别从Web使用挖掘收集客户特征、Web结构挖掘识别重要客户、Web内容挖掘处理抱怨三个方面进行了阐述, 为企业提供一定的参考。

关键词:Web数据挖掘,社会化客户关系管理,SCRM,社交媒体

参考文献

[1]Paul Greenberg.Social CRM Comes of Age[Z].Sponsored by Oracal.

[2]李霞.Web内容挖掘在企业电子商务网站的应用研究[J].网络财富, 2015, (5) :130.

[3]张倩.应用Web数据挖掘技术捕获网络档案信息资源的个性化服务研究[J].档案与建设, 2008, (7) :15-18.

[4]郭世龙, 王晨升.主题爬虫设计与实现[J].软件, 2013, 34 (12) :107-109.

[5]王铮, 张君玉.Web用法挖掘数据采集方案的优化设计[J].中国科学院研究生院学报, 2008, 25 (4) :445-451.

[6]孙静.数据挖掘中基于最小遗憾度的偏好感知算法[J].计算机应用与软件, 2015, 23 (5) :59-64.

[7]J.Srivastava, R.Cooley, M.Deshpande, and P.Tan.Web Usage Mining:Discovery and Application of Ussage Patterns from Web Data[J].SIGKDD Explorations, 2000, 1 (2) :12-23.

社交数据 篇10

社交网络平台信息交流形成庞大数据,对这些数据进行分析和预测,发现有价值的信息,使社交平台根据用户偏好,以主推特定广告等方式受益。中国制造2025规划提出,制造业要向智造业转化,企业的转化不仅需要CRM、ERP、SRM等相关软件组合应用,更多的是对资源优化、流程优化。资源优化就包含企业社交关系的优化。近年来,企业对社交网络的需求越来越强烈[1]。企业通过分析和处理网络中的大量数据,整合消费者关系、市场关系,并对企业供应关系进行分析,以优化企业业务流程和有效制定市场策略。利用社交网络理论,对企业网络建模,为业务提供战略性指导,对供求关系、客户关系、地域关系等建立对应关系图数据库,通过对图数据库的查询、增加、修改和删除,管理企业动态交互性信息。利用网络平台,企业关系网络可对用户管理、企业关系中的供求关系管理,以图数据的形式展示企业关系、公布企业动态,使企业信息交互性更强,消除企业内部与外部信息不一致的情况,与员工分享工作任务和战略决策,为企业推荐优秀的合作伙伴。

1 系统总体设计

1.1 系统功能及流程

ENFORCE(企业社交网络平台)系统用户分为企业用户和平台管理员两种角色,企业用户分为认证用户和未认证用户。经过身份验证的用户,可以选择企业并获得该企业数据,能够对这些数据进行维护。未认证用户只能浏览这些数据。

企业管理员可进行企业信息维护、员工维护、数据中心、企业展厅和信息交流5大功能管理。

企业信息维护指企业关系建立、查看、解除、发出关系申请、拒绝申请查看等信息维护;员工维护功能包括查询、增加、删除企业员工;数据中心功能有企业关系图展示、企业供应关系展示、企业热点图展示;企业展厅主要展示企业生产、经营、证书、获奖等信息;信息交流平台可提供企业员工内的信息交流,也可提供企业间的信息交流。

平台管理员同样可实现5大功能,各部分功能主模块与企业管理员相同。数据中心增加了爬虫功能,将爬取的网络公开数据进行清洗、匹配、去重和格式化后显示。企业管理员可以增、删、改、查平台上的所有企业和用户,同时对优秀厂商进行推荐,具备邮件管理功能。

1.2 系统框架设计

系统使用者权限不同,界面不同,可操作内容也不同,为满足不同用户群体登录后实现所需功能,系统框架采用MEAN设计,采用Java语言实现。由于企业关系网络一般由许多以制造商为核心的星形网络构成,交互密切,为了更好地表现企业与企业、企业与员工的关系,数据库采用Neo4j图数据库。

MEAN框架较为流行,它实现了MVC模式思想,将界面显示和业务逻辑分离,利用模型化的开发思路优化界面与服务关系,实现服务的复用性。可通过控制器分发业务逻辑,根据不同用户显示不同界面,实现不同功能。将界面和业务逻辑分离简化了系统的后期维护。

ENFORCE系统主体架构设计如图1所示。

AngularJS是前端开发JS框架,克服了HTML在构建动态网页应用上的不足,方便实现动态数据的显示和处理[2]。基于MVC模式,HTML是视图,JS是控制器,通过数据视图双向绑定方式实现动态数据处理,利用控制器实现服务处理。AngularJS通过bower安装Bootstrap开源插件后,可方便实现html的前端显示界面美化。Bootstrap是基于HTML、CSS、Javascript开发的,可适用多种设备,是快捷的Web前端开发框架。

ExpressJS和Node.JS共同实现Web应用服务器端开发,通过http发出请求,对返回的JSON数据进行分析处理,将结果传回前端Angularjs控制器,实现页面动态显示。

为了公开服务接口,利用JAX-RS简化REST应用实现服务处理。基于JAX-RS实现的框架应用程序可以方便地部署到Tomcat上。

根据平台中用到的数据特性,将单一、无关系连接的信息存于MySQL数据库,对存在关系的数据采用Neo4j数据库存储。Neo4j数据库是非关系型数据库,以图的形式存储数据,又称为节点,每个节点具有各自的属性,节点和节点之间可以建立关系,如职工节点,它的属性有姓名、地址、电话、邮箱、创建日期等属性。企业节点有企业名称、地址、商品、创建日期、邮箱、电话、传真等,职工与企业建立归属关系。

2 MEAN架构下ENFORCE系统实现

根据ENFORCE系统用户特点,考虑软件代码重用性,设计具有最小冗余的组织结构。MVC模式是MEAN架构中各层的主要实现模式,是基于请求———响应模式的应用方式。

2.1 视图层模式

AngularJS框架实现了视图层技术,并利用HTML和JS实现数据的双向绑定。为了解决中文乱码问题,需要在html头部加入<meta http-equiv="ContentType"content="text/html;charset=UTF-8"/>语句,在对应的js中则通过创建一个Module对象实例来实现数据与模型之间的数据绑定。

2.2 业务处理层模式

业务处理通过MEAN架构中的node.js实现,采用Express应用框架,其中app.js文件是启动文件,也就是Express执行的入口文件,是一个总的路由接口。在app.js文件中,require用于加载express、path等模块,以及routes路由文件夹下的所有js文件,通过app.use()实现路由控制。在具体的路由文件中,router.get('路由名',function(req,res,next){})生成一个路由实例来捕获访问主页的GET请求,导出这个路由并在app.js中通过app.use()加载路由,当访问某个页面时调用相应的路由并将结果返回到浏览器。

服务定位器:在ENFORCE系统中的routes文件夹下,所有的js文件由该系统的路由实现。routes文件夹由用户创建,便于管理路由文件。Express封装了多种http请求方式[3],常用的是get和post,app.get()和app.post(),一般有两个参数:①请求的路径;②处理请求的回调函数。回调函数中的参数req和res,代表请求信息和响应信息,通过处理req.query或req.params获得前端传递进来的数据,对数据进行封装后通过http.request向后台服务发出请求。此请求符合超文本传输协议,在回调函数中可以通过捕捉状态码,判断处理返回的内容。请求方法一般有GET、POST、PUT、DELETE,分别对应资源中的查询、修改、增加、删除4个操作。HTTP与后台交互时需传递URL地址,URL地址用于描述一个网络资源。通过回调函数返回JSON格式数据,并将其返回到前台控制端,最终用于前台数据显示。

服务处理:利用JAX-RS简化REST服务开发,REST服务基于HTTP协议[4]。通过JAX-RS标注来实现相应的Web资源,一个POJO java类封装为Web资源,通过http请求中的GET、POST、PUT、DELETE动作,对应于REST服务中的查询资源、修改资源、增加资源、删除资源。通过服务接口实现服务的重用性。@Path标注资源或者方法的相对路径,@Produces、@Consumes标注方法支持或返回MIME类型[5]。

2.3 数据库设计

根据数据交互性,系统采用Neo4j图数据库和MySQL关系型数据库存储数据,利用关系数据库存储独立性较强的数据。由于关系型数据库不支持类似“主机厂的供应商的供应商”这种复杂数据库查询,所以对交互性、复杂性并且动态变化的数据利用图数据库进行存储。图数据库能够高效存储、管理、更新数据的内在关系,并可进行复杂的多层操作[6]。图数据库的基本要素是节点、属性和关系[7]。节点代表实体且包含多个属性,关系连接对应的节点,用于表达对象之间的关系。图数据库的连接操作只需要一个起始节点就可实现查询功能。图数据库查询语言是Cypher,它具有灵活性强、表达能力强的特点,本系统中,企业与企业间的供应关系、企业员工的隶属关系、企业之间的多供应商关系、产品的部件依属关系、企业资质等均采用图数据库存储。

如图2所示,双格上部为标签,下部为属性,企业以名称作为索引,员工以用户登录名为索引,并保证是唯一的。节点之间的关系以星形形式显示。

3 结语

MEAN架构将视图表现层、控制层和模型层完全分离,利用JS和CSS完美结合,建立标准化的客户端界面组件。通过控制层和模型层实现HTTP协议数据传输,将界面和逻辑处理分离,使用户有更好的体验。通过封装化的控制器简化了程序员设计和处理逻辑工作量。

参考文献

[1]杨涛.企业社交网络的理论及实践研究[J].中国高新技术企业,2015(17):162-163.

[2]陈涛.基于AngularJS和Bootstrap聊天室的设计与实现[J].电脑知识与技术,2015(9):91-92.

[3][美]ETHAN BROWN.Node与Express开发[M].北京:人民邮电出版社,2015.

[4]黄华东.Java环境下REST风格Web服务的开发方法[J].科技信息,2008(15):68-69.

[5]谢玉开.基于JAX-RS的面向资源架构应用研究[D].杭州:浙江理工大学,2011.

[6]王余蓝.图形数据库NEO4J与关系数据库的比较研究[J].现代电子技术,2012(20):77-79.

【社交数据】推荐阅读:

社交网站07-21

社交场合10-14

社交信息10-15

社交焦虑10-19

社交+05-28

社交体育06-08

社交心理06-16

社交活动07-11

社交技能09-26

社交口才10-07

上一篇:工程管理软件下一篇:计算机艺术