网络用户行为挖掘(共9篇)
网络用户行为挖掘 篇1
1 平台背景
随着互联网发展起来的社交网络对人类社会活动的方式、效率等产生了深远影响, 在社交网络基础上形成了移动社交网络 (Mobile Social Network) 。在移动社交网络的发展中, 用户的需求也发展到了一个新的阶段, 体现为对贴心服务和个性化服务的追求, 他们希望在任何时间、任何地点、任何设备上体验个性化服务, 因此移动互联网的发展要以用户为中心, 以提供个性化服务为终极目标[1]。
个性化服务的核心工作之一是如何通过移动用户的消费信息有效发现用户的行为模式, 进而根据用户个性化的喜好, 更好的提供有价值的服务信息[2]。本文针对传统粗糙集理论在属性约简时必须将数据全部放入内存, 导致在进行移动用户社交大数据时无法有效处理问题, 提出基于Map Reduce的移动数据粗糙集并行约简方法, 同时以Hadoop开源平台为基础, 构建了移动用户行为模式分析平台, 最后通过实验验证了平台的有效性与可用性。
2 平台框架设计
本文提出的基于Hadoop的用户行为分析模型框架, 主要由5个层次构成:资源层、存储层、控制层、分析层和展现层, 具体功能如下所述:
2.1 资源层。
资源层的对象分为两类, 一类是对用户各种移动业务访问数据的存储, 包括用户位置信息、终端设备类型、访问IP、网址/特征信息等等[3]。
2.2 存储层。设计存储层结构主要考虑两个方面:海量设备状态数据的高效存储和用户行为分析中访问效率问题。
2.2.1采用Hadoop分布式文件系统 (HDFS) 构建一个高度容错性的系统, 基于流数据模式访问并能处理超大文件 (1T以上) , 提供高吞吐量的数据访问。2.2.2使用列式存储的HBase数据库, 所有的待分析用户访问状态数据文件都以HFile文件形式存储在HDFS文件系统上。能够提供高并发读写操作, 并且列都可以动态增加, 列为空就不存储数据, 节省存储空间。
2.3 控制层。
控制层采用Map Reduce并行运算模式, 将用户行为分析过程划分为多个Map Reduce作业, 以廉价的X86服务器构建Hadoop集群, 对每个作业分为Map和Reduce两个阶段, 同时构建Zookeeper负责协调控制服务, 利用Hive的强大统计汇总、点对点查询和大数据分析功能, 用HQL语句进行采集信息的各类分析操作。
2.4 分析层。
首先, 通过移动数据粗糙集并行约简方法进行移动社交大数据的预处理, 然后利用多元回归分析、贝叶斯网络和判别式法等智能分类算法进行用户行为特征的提取, 依据行为特征曲线分析结果, 经用户行为推理机根据行为分类规则进行自动判断[4]。同时, 通过Sqoop接口将行为分类规则存入用户行为知识库。
2.5 展现层。对移动互联网下用户行为进行分类, 对于每一类行为分别进行快速的图形化展现, 同时进行各种应用推荐。
3 平台关键技术:基于Map Reduce的移动数据粗糙集并行约简
在对移动社交数据进行处理时, 将全部的属性看做一个完整的集合, 但这些属性在分析不同的行为目标时, 如上网时长的分布规律, 用户使用某种移动套餐的可能性等, 并不是所有属性都是必要的, 可以将属性的约简归结为属性的选择问题, 即在保持属性集合用户行为分类能力不变的情况下, 如何选取最有代表性的属性。因此, 以粗糙集理论为基础, 在Map Reduce框架下实现粗糙集约简方法的并行化改进。
在构建基于Hadoop平台移动社交数据属性约简时, 它的平台核心是HDFS和Map Reduce, 其中HDFS为海量的原始数据提供了列式存储, Map Reduce通过编写Map和Reduce两个函数过程实现数据的分析处理。本文提出的粗糙集并行约简方法执行过程如下:
3.1 获取原始移动社交数据集, 包含n个属性 (n=j+l, 其中条件属性j (j<n) 个, 决策属性l (l<n) 个) 。
3.2 采用分布式文件系统HDFS进行列式存储, 将完整的数据集进行自动划分处理, 这些分解的数据块存放在一组数据节点中。
3.4 在Reduce阶段, 合并不同数据块中计算获得的某个属性局部等价关系, 获得该属性的完整等价类。
3.6 在Reduce阶段, 合并获得每个候选属性集的完整重要度。
3.7 进行属性约简, 根据不同行为分析的目标, 获得相应的最优候选集。
4 平台的实验分析
本平台的实验环境是选取了5台虚拟机进行搭建, 采用Linux Ubuntu操作系统12.04的64位版本, 构建完全分步式的Hadoop集群, 通过内网的一个DNS服务器, 指定5台虚拟机所对应的域名。每台虚拟机, 1G内存, 系统硬盘2G, 外接硬盘16G。
实验的数据来源是运营商的CDR话单和上网详单, 以及相应的字段说明 (例如基站位置、通话类型等) , 具体CDR话单包括:主叫、被叫、通话时间、通话类型、通话位置信息、通话时长、服务类型, 通话费用上网详单包括:手机号码、上网时间、网址URL、持续时间、流量、上网套餐类型。
4.1 属性约简验证 (表1)
4.2 用户行为模式影响因素分析。
将居住地点数据进行规范化处理后转化为0-55个数字, 通过与归一化处理后的上网时长信息进行分析后, 发现上网时长与某些特定居住地点存在一定的相关性, 本分析中几个有峰值出现的地点分别是21———代表学校区域、40———代表咨询公司区域。
年龄与选择服务类型的关系分析, 显示高年龄段人群仅对移动通信的基本服务感兴趣, 中青年龄段人群对上网服务和增值服务使用较多。
摘要:伴随移动社交网络的快速发展, 如何为用户提供贴心和个性化的服务是电信运营商密切关注的问题, 要实现个性化服务的核心工作之一就是通过移动用户的消费信息有效发现用户的行为模式, 但传统的单机模式下的分析平台已无法有效处理当前的移动大数据, 本文针对传统粗糙集理论属性约简方法进行了并行化改造, 提出基于Map Reduce的移动数据粗糙集并行约简方法, 同时以Hadoop开源平台为基础, 构建了移动用户行为模式分析平台, 最后通过实验验证了平台的有效性与可用性。
关键词:用户行为模式,属性约简,Hadoop,Map Reduce
参考文献
[1]梁鹏, 张岩.移动数据业务用户行为模式研究[J].中兴通讯科技.2005 (4) :24-27.
[2]陆嘉恒.Hadoop实战[M].北京:机械工业出版社, 2012.
[3]张利军, 李战怀等.基于位置信息的序列模式挖掘算法[J].计算机应用研究, 2009, 26 (2) :4-11.
[4]朱晨杰, 杨永丽.基于Map Reduce的BP神经网络算法研究[J].微型电脑应用, 2012, (28) :9-15.
网络用户行为挖掘 篇2
调查背景
2009年中国电子商务领域热闹非凡,电子商务企业加速发展,并不断拓展供应链;越来越多的传统企业开始涉足电子商务,如中粮集团推出我买网;大量的资本不断涌入,例如京东商城的再度融资券,CNNIC数据显示,2009年,网络购物用户规模为1.08亿人,网络购物使用率继续上升前达到28.1%;2009年中国网络购物市场交易规模达到2500亿,较2008年翻番增长。
调研方法说明
调查时间:2010年2月12日——2010年3月2日
调查范围:覆盖新浪网、搜狐网、网易、凤凰网、中华网、千龙网、tom、Donews、派代等网站
问卷数量:有效问卷4385份
有效问卷用户地域分布:含香港、台湾在内的33个省市自治区、314个地市
后期处理:对问卷数据进行必要清洗,提出无效问卷
调查目的了解互联网用户网络购物行为
探究用户网络购物满意度状况
电子商务网站分类说明
根据运营的特征,本调查将电子商务网站划分为三类(不包含B2B网站)
平台性质的电子商务网站,以淘宝为典型代表,不存在仓储、物流等服务,仅仅提供一个平台让更多的人在其中开店;
服务性的电子商务网站,以当当、叮咚商城为典型代表,有自己的仓储、物流等。品牌型电子商务网站,销售自己品牌旗下产品,一般为企业官网建立的电子商务网站,例如凡客诚品。
研究发现
调查发现,一方面2009年新增互联网网购的用户增长速度放缓,另一方面,越早接触网购的用户消费力越强,所以维护老客户对于提高网站盈利相当重要。
平台型电子商务网站质量把控环节堪忧,服务性电子商务网站的服务质量有待提升,品牌型的企业官网由于产品国语单一,相对而言适合做精品形象展示店或者做B2B的电子商务平台。
网络购物用户日渐成熟,网购诉求点不仅仅集中在“价格便宜”上,网络给生活带来的便利性已经被认可。此外,满意度对现有瓦昂够客户未来购物增加的影响明显,满意度越高则未来网购消费金额越高。
1.1新增网购用户状况
网络购物用户增长速度放荒,三级市场潜力大
网络购物新增用户增长放缓:调查显示,从2005年至2008年,新增网络购物用户呈逐年上升趋势,2009年开始下降。2005你那与2006年网购用户增长速度最快:数据显示,2005年、2006年新网购用户增幅在45%以上,而随着网购用户规模的扩大,新网购用户增长率降低。三级市场与一二级市场同步增长,市场潜力大:调查表明,电子商务的发展改变了传统一二三级市场存在的逐级过渡、梯度明显的状况。由此来看,三级市场同样具有巨大的市场潜力。
1.2网购行为调查——购买因素
“价格便宜”观念深入人心,网络购物便利性受关注
价格便宜观念深入人心:调查显示,七成以上的消费者因价格便宜选择网购。这一方面说明网络购物价格便宜的观念深入人心,网络渠道的成本优势明显。
另一方面,网站之间利用价格优势争夺用户,会导致网站利润降低,陷入价格站的恶性循环。所以对于电子商务网站来说,避开纯粹的价格导向趋势,通过品牌、服务、提高用户体验等建立核心竞争力,以利于行业的健康成长。
网购便利性是主要的购买动力:数据显示,网络购物的优势如不受时空限制等也吸引了不少用户网购,且与价格便宜的比例差距较小,这反映了网购用户还认识到了网络购物的其他优势。
网购行为调查——网购产品
互联网用户网购产品丰富,服装/鞋帽/箱包最受欢迎
万瑞数据调查显示,服装、鞋帽、箱包最受欢迎:一方面可能由于这类产品整体利润较高,通过网络到达终端用户过程中减少了渠道环节,比较容易以价格优势来吸引消费和,所以相对容易开展电子商务。另一方面,从消费者角度来看,可能网购用户对服装、鞋帽、箱包、图书音像类产品的质量相对容易判断,质量风险较小。
网购产品种类丰富:数据显示,目前网络购物不单集中在服装、鞋帽、箱包及图书领域,其以你个渗透到人们生活的各个环节,所以在各个领域均有涵盖。从这个角度来看,在各细分产品种类领域都可以展开电子商务活动。
网购行为调查——网购频次
越早接触电子商务的用户网购频次越高
互联网用户网购较频繁:调查显示,越早接触电子商务的用户,网购次数越频繁。这可能是由于早先接触电子商务的用户已经培养了网购习惯。而对于电子商务来说,往往是再次或者多次购买才肯那个实现网站的盈利。从这个层面来看,维护老客户与将新增客户培养成老客户,刺激消费频次,对于电子商务网站盈利来说相当重要。
培养用户频繁网购习惯至少需要3年:数据显示,2009年新增用户初次试探网购,频繁购物用户占比较少,用户网购行为不稳定。而05、06年不同购买频次用户分布差距较小,用户的网购行为较为稳定,并且频繁购物的用户占比都超过了40%。由此推断,培养用户频繁网购习惯至少需要3年。
网购行为调查——网购金额
大宗消费占主导,越早接触网购的用户消费力越突出
网购大宗消费占主导:从2009年网购总消费金额来看,流程以上的用户消费超过1000源,其中超过3000源的达到30.2%。数据发现,越早接触网购的用户消费金额越高,这可能与其消费频次较多、已形成网购习惯有关。尤其是2005年以前只2006年的各自用户中,2009年网购消费超过3000元的都在30%以上,在2007~2009年中,大宗消费用户占比 逐步降低。由此推断,早先接触网购的用户消费力更强。
网购行为调查——网络支付
支付方式多样化,线上支付安全性最让用户担心
支付方式多样化,三种方式占主导:万瑞数据显示,虽然支付方式多样化,但大部分的调查对象选择第三方支付平台网上支付、网上银行直接支付与货到现金支付这三种。针对没有选择第三方平台与网银支付的用户调查显示,用户最担心在线支付的安全性。
网购行为调查——最长购物网站
用户网购网站高度集中,卖场型网站人气胜于专卖店型
网络购物网站高度集中:万瑞数据显示,用户最常购物的网站中,仅淘宝一家就垄断了七成以上的用户。这可能是以下几个因素造成的:其一,淘宝的产品线全,价格相对较低,在网购更重视款式价格的阶段更容易吸引客户。其二,淘宝的品牌优势非常明显,很多网购消费者,尤其是二、三线城市的网购群体对淘宝外的其他电子商务网站缺乏认知,加上淘宝网商家多,各个柜台可提供特色服务。另外,以淘宝为代表的C2C网站发展早,几句人气。而垂直类的B2C服务不到,价格优势也不突出。虽然紧急你那拓展产品供应链,但前期市场定位行为了用户先入为主的印象,也一定程度上影响了网络用户的消费习惯。
1.3网购消费金额变化
近6成用户未来一年网购消费金额将增加
网络购物市场消费将大幅度增长:万瑞数据显示,73.9%的调查对象表示2009你那购物金额出现增长,减少的用户仅占12.1%。接近六成的用户表示2010年网购金额肯那个比2009年增加。据CNNIC数据显示,2009年网购市场消费金额达到了2500亿,随着用户的成熟,消费频次与金额的增加,未来一年电子商务市场网购金额还将达到一个新的高度。
网购消费金额变化——不同用户网购消费对比
增加网购消费金额的用户占主流,电子商务网站维护用户要有针对性
网购用户消费金额继续增加:调查显示,在09年网购消费增加的用户中,接近2/3的表示2010年可能会比2009年增加消费金额,而比08年网购减少的用户中,2010年购物减少的比例高于其他两类用户。万瑞数据认为,这个结果可能是由于用户消费体验号则继续增加消费,而用户体验不好则减少消费甚至不再次消费。所以对于电子商务网站来说,需要改善用户体验,并且分析用户消费数据状况,以制定只能对性的策略。对增加消费的用户刺激再次获多次消费;而对于消费减少的用户则退出适当的用户关怀策略,以避免用户的流失。
满意度状况及对消费的影响
2.1不同类型网站满意度对比——整体满意度对比
服务性电子商务网站满意度最高
万瑞数据调查显示,服务性电子商务网站的整体满意度高于平台型电子商务网站和品牌型电子商务网站。相比之下,品牌型电子商务网站可能受起步较晚,经验稍欠缺等影响,整体满意度略低。
细分指标满意度对比——平台型
产品质量满意度偏低,产品种类丰富程度认可度高
平台型电子商务网站在产品质量指标方面的满意度情况地域其他指标。
细分指标满意度对比——服务型
服务性电子商务网站产品上架速度需要提升
服务性电子商务网站在新产品或者缺货产品的上架速度方面需要提升。
2.2不同类型网站问题调查——平台型与服务型
平台型网站产品质量控制问题突出,服务性网站则在服务方面欠缺
产品无法体验是整个互联网电子商务平台存在的共同难题:虽然有试穿等一些网络技术出现来弥补,但是网络虚拟对于真人感受来说还是有差距的。
平台型电子商务网站整体存在的问题较服务型网站突出:这可能是由于平台型网站提供的是专卖店的平台,只能从入驻的环节来控制,而很少能渗透到供应链环节来规范每一家专卖店的产品质量,所以,产品质量方面良莠不齐的现象突出。
服务性网站在物流环节、客服响应等服务环节仍有欠缺:服务型网站便于从产品供应链环节上开始控制,如果产品质量不过关则影响整个平台的信誉。
不同类型网站问题调查——品牌企业官网
企业官网适合做“精品形象店”的战士窗口,客服质量需提升
品牌型企业官网质量可靠,但产品单一:调查显示,产品质量可靠是品牌型企业官网产品的最大优势,活得71.6%的调查对象认可,但产品不丰富不容易吸引更多的用户。由此来看,企业官网较适合作为网络宣传和新品动态展示、与消费者互动的窗口,并以精品形象点或者与网友沟通互动平台的形象,呈现在消费者面前。品牌型官网整体体验不佳,尤其在支付方面更需提高。虽然官网的售后服务保障性受到永固认可,但是服务的质量需提升。
2.3满意度对未来购物的影响
满意度高低对2010年网络购物的增加或者减少影响明显
网络用户行为挖掘 篇3
摘 要:随着信息技术的迅猛发展,校园一卡通已成为高校数字化校园建设的重要组成部分。基于校园一卡构建用户行为分析系统,能够帮助学校掌握学生校内的学习、消费及作息行为。本文就校园一卡通用户就餐消费这一特定行为展开讨论,并对学生消费、食堂运营状况及营销策略等问题开展数据挖掘与分析,最后就一卡通行为分析系统的研究意义、研究价值进行了归纳与总结。
关键词:校园一卡通;用户行为分析;数据分析;数据挖掘
中图分类号:TP315文献标志码:A 文章编号:1673-8454(2014)09-0047-03
前言
校园一卡通是集数据共享、身份认证、金融消费等多项功能于一体的信息集成系统,以辽宁医学院(下文简称:辽医)为例,我校一卡通系统包括就餐、消费、考勤、考试报名、图书借阅等多个业务系统。校园一卡通为师生提供优质、高效信息化服务的同时,系统自身也积淀了千万条流水记录,学校透过这些业务记录可掌握用户在校园内的日常生活与学习行为。
一、高校一卡通持卡用户总体消费行为分析统计
以辽宁医学院一卡通系统为例,学校共有POS消费机167台,这些POS消费机部署于学校食堂、超市、洗浴等多个服务领域,笔者们选取了辽医近3个月68万条一卡通消费流水记录作为学生消费、就餐行为的样本数据进行分析与数据挖掘,并从中得出该校学生持卡基本消费情况。其中一卡通用户刷卡消费统计分析情况如图1所示。
从图1可得出学校持卡用户的总体消费情况:
(1)食堂的就餐行为占整个用户的刷卡交易行为的74.5%,可见食堂就餐是一卡通持卡用户交易最频繁、交易量最大的消费行为,因此,高校后勤部门应强化对学校食堂的管理,满足用户的就餐需求。
(2)超市刷卡消费行为占有很大比例,以辽宁医学院为例,超市刷卡消费行为占总刷卡交易量的17.6%,通过对学校超市营业品种、营业额的专项调研,发现学校超市总体消费水平偏低,热卖商品主要为方便面和香肠,反映出高校学生群体的超市消费只是就餐行为的补充,学校食堂在容积率、菜品内容、营业时间等尚不能满足用户实际需求,导致很多用户选择方便食品果腹。
(3)一卡通用户在洗浴、美发、干洗等消费活动中刷卡率较低,这说明用户在洗浴、美发及洗衣等服务中很少持卡消费,从实际调研也发现在这些服务领域中,用户需频繁地换衣脱衣,携带一卡通卡片或一卡通手机都极不方便,从而影响了这些服务店铺的刷卡消费。
二、大学食堂就餐峰值、容积率分析统计
食堂就餐峰值是指食堂在一天营业过程中所呈现的最多就餐人数;食堂实际容积率是指食堂在一定时期内平均每天接纳就餐人数。高校用户刷卡行为主要集中在食堂用餐环节,因此通过分析持卡用户的食堂刷卡记录就不难推算出学校食堂容量是否合理,食堂设备资源是否存在闲置浪费。如图2所示为高校食堂就餐峰值曲线图,图3为高校食堂实际容积曲线图。
其中高校食堂就餐峰值曲线图抽取了辽医食堂三个月的刷卡交易数据作为曲线图数据源,由于食堂节假日期间,大多呈半营业甚至歇业状态,为保证数据测量的准确性,样本数据中剔除了节假日,就餐峰值每个测量点的时间间隔设置为10分钟,每个就餐峰值的测量点是将同一时段的90个工作日测量值平均加权后得到。 通过对图2就餐峰值曲线图的分析得知,食堂用餐高峰主要集中在一天当中11点50至12点时段,每天的早晚就餐时段内,并未出现明显就餐峰值。从数据曲线可以得出学生的早餐用餐情况不佳,许多学生没有吃早点的习惯,同时结合图表1的方便面刷卡行为,我们认为学校内有相当一部分学生在宿舍内吃泡面解决早餐问题;通过对学校食堂员工和在校学生进行的问卷调查,也得到了同样结论。高校食堂晚间营业时段内未出现明显的峰值曲线,可见高校学生晚上用餐没有出现拥堵的用餐情况,刷卡行为少于中午时段表明很多学生选择了校外就餐。从图3高校食堂实际容积曲线图可以看到,几乎每个工作日食堂的累计刷卡频次都超过万余人次,从数据上可以看到,学校食堂能够容纳万人规模的用餐活动,但结合食堂就餐峰值曲线图来看,食堂在工作时段内呈现出冷热不均的营业状态,其中以午间用餐刷卡频次最高,很多POS机在10分钟内突破300次交易量,如此大的刷卡交易行为可以预见学校食堂午间用餐时段内会出现打饭档口排队拥堵的现象,由此也会引发就餐环境凌乱、消防逃生通道拥堵等一系列问题。为此,课题组提出建议:学校可在非高峰期内推出特价菜、精品菜来引导学生错峰就餐消费。
三、食堂、超市假日消费行为数据挖掘
高校学生消费群体在工作日与节假日期间的消费行为有较大差异。为了更好地研究高校用户在节假日消费行为和消费心理,课题组提取了2013年9月1日至2013年11月17日期间20个双休日,针对高校学生群体的刷卡消费行为进行数据统计,并与工作日期间发生的消费行为数据做了如下对比,如表所示。
1.消费规律
从高校食堂超市假日消费行为统计来看,可得出以下规律:
(1)节假日食堂刷卡交易行为明显少于平时的刷卡情况,食堂生均消费金额却远大于常规工作日;
(2)超市节假日刷卡交易频次远远超过常规工作日刷卡次数,且超市生均刷卡交易金额远大于平时;
(3)持卡用户在假日食堂就餐行为中没未出现明显营业峰值。
2.学校相关部门改进措施
从上述提炼的几条规律可以看到,高校假日消费与平时有着显著不同,学校后勤部门根据节假日用户消费行为的特点按照如下几方面改进:
(1)鉴于节假日学生群体的就餐行为较少,食堂可适当地轮休,关闭部分售饭档口,减少工作人员,节约人力开支;
(2)节假日学生作息时间不规律,食堂应适当延长营业时间,为学生提供中高档菜品,适应学生群体的节假日消费行为特点;
(3)超市应在周末备足货源,为学生提供优质服务,干洗、数码冲印、洗浴、美发等服务业也是假日消费几项重要支出,因此上述行业应延长节假日的营业时间,为学生消费群体提供更好的优质服务。
四、用户行为分析系统在高校的应用前景及意义
随着大数据时代的到来,高校依托一卡通业务系统的基础数据开展针对持卡用户的行为分析有着重要的现实意义和广泛的应用前景。首先,通过对一卡通用户行为分析的研究,将一卡通原有业务流水缺失的数据结构与数据内容补充完整,极大提升了现有校园一卡通数据质量;其次,丰富了高校用户行为分析的研究手段,依托一卡通业务数据基础利用先进的信息技术抽取、分析统计数据与过去调查问卷的传统研究方法相比具有样本数据量大、统计数据真实、可信度高等特点;再次,基于一卡通系统的用户行为分析系统统属于一卡通系统的二次开发与应用,用户行为分析系统通过数据仓库将一卡通几个独立的业务信息数据库整合集成,实现了数据共享,拓展了系统的应用范围;最后,一卡通用户行为分析系统能够有效提升学校的信息化管理水平,一卡通用户行为分析系统通过对校园一卡通的业务流水信息的数据挖掘,可掌握学生就餐、消费、图书借阅、上课、出入宿舍的活动规律,帮助学校提升后勤、教务、图书馆等多个部门的管理水平。
参考文献:
[1]李坤伦,罗郁,李院春,孙勇.基于公共数据库的校园一卡通系统数据库集成研究[J].现代计算机(专业版),2011(11):66-68.
[2]周学刚.校园一卡通多平台数据集成技术研究[D].哈尔滨工程大学,2011.
[3]吴慧韫,王河堂.一卡通挖掘学生异常行为[J].中国教育网络,2011(5):67-68.
[4]周晶晶,付爱英,鲁喆.一卡通变身校务决策“情报员”[J].中国教育网络,2011(8):51-52.
[5]陆悠,华泽,盛浩,奚雪峰.基于用户及其行为社会属性的信任测度模型[J].计算机科学,2013(1):127-131.
[6]董莉芬.基于用户行为分析的精准营销探讨[J]. 电信技术,2013(4):67-69.
[7]李文峰.基于主题模型的用户建模研究[D].北京邮电大学,2013.
(编辑:杨馥红)
endprint
摘 要:随着信息技术的迅猛发展,校园一卡通已成为高校数字化校园建设的重要组成部分。基于校园一卡构建用户行为分析系统,能够帮助学校掌握学生校内的学习、消费及作息行为。本文就校园一卡通用户就餐消费这一特定行为展开讨论,并对学生消费、食堂运营状况及营销策略等问题开展数据挖掘与分析,最后就一卡通行为分析系统的研究意义、研究价值进行了归纳与总结。
关键词:校园一卡通;用户行为分析;数据分析;数据挖掘
中图分类号:TP315文献标志码:A 文章编号:1673-8454(2014)09-0047-03
前言
校园一卡通是集数据共享、身份认证、金融消费等多项功能于一体的信息集成系统,以辽宁医学院(下文简称:辽医)为例,我校一卡通系统包括就餐、消费、考勤、考试报名、图书借阅等多个业务系统。校园一卡通为师生提供优质、高效信息化服务的同时,系统自身也积淀了千万条流水记录,学校透过这些业务记录可掌握用户在校园内的日常生活与学习行为。
一、高校一卡通持卡用户总体消费行为分析统计
以辽宁医学院一卡通系统为例,学校共有POS消费机167台,这些POS消费机部署于学校食堂、超市、洗浴等多个服务领域,笔者们选取了辽医近3个月68万条一卡通消费流水记录作为学生消费、就餐行为的样本数据进行分析与数据挖掘,并从中得出该校学生持卡基本消费情况。其中一卡通用户刷卡消费统计分析情况如图1所示。
从图1可得出学校持卡用户的总体消费情况:
(1)食堂的就餐行为占整个用户的刷卡交易行为的74.5%,可见食堂就餐是一卡通持卡用户交易最频繁、交易量最大的消费行为,因此,高校后勤部门应强化对学校食堂的管理,满足用户的就餐需求。
(2)超市刷卡消费行为占有很大比例,以辽宁医学院为例,超市刷卡消费行为占总刷卡交易量的17.6%,通过对学校超市营业品种、营业额的专项调研,发现学校超市总体消费水平偏低,热卖商品主要为方便面和香肠,反映出高校学生群体的超市消费只是就餐行为的补充,学校食堂在容积率、菜品内容、营业时间等尚不能满足用户实际需求,导致很多用户选择方便食品果腹。
(3)一卡通用户在洗浴、美发、干洗等消费活动中刷卡率较低,这说明用户在洗浴、美发及洗衣等服务中很少持卡消费,从实际调研也发现在这些服务领域中,用户需频繁地换衣脱衣,携带一卡通卡片或一卡通手机都极不方便,从而影响了这些服务店铺的刷卡消费。
二、大学食堂就餐峰值、容积率分析统计
食堂就餐峰值是指食堂在一天营业过程中所呈现的最多就餐人数;食堂实际容积率是指食堂在一定时期内平均每天接纳就餐人数。高校用户刷卡行为主要集中在食堂用餐环节,因此通过分析持卡用户的食堂刷卡记录就不难推算出学校食堂容量是否合理,食堂设备资源是否存在闲置浪费。如图2所示为高校食堂就餐峰值曲线图,图3为高校食堂实际容积曲线图。
其中高校食堂就餐峰值曲线图抽取了辽医食堂三个月的刷卡交易数据作为曲线图数据源,由于食堂节假日期间,大多呈半营业甚至歇业状态,为保证数据测量的准确性,样本数据中剔除了节假日,就餐峰值每个测量点的时间间隔设置为10分钟,每个就餐峰值的测量点是将同一时段的90个工作日测量值平均加权后得到。 通过对图2就餐峰值曲线图的分析得知,食堂用餐高峰主要集中在一天当中11点50至12点时段,每天的早晚就餐时段内,并未出现明显就餐峰值。从数据曲线可以得出学生的早餐用餐情况不佳,许多学生没有吃早点的习惯,同时结合图表1的方便面刷卡行为,我们认为学校内有相当一部分学生在宿舍内吃泡面解决早餐问题;通过对学校食堂员工和在校学生进行的问卷调查,也得到了同样结论。高校食堂晚间营业时段内未出现明显的峰值曲线,可见高校学生晚上用餐没有出现拥堵的用餐情况,刷卡行为少于中午时段表明很多学生选择了校外就餐。从图3高校食堂实际容积曲线图可以看到,几乎每个工作日食堂的累计刷卡频次都超过万余人次,从数据上可以看到,学校食堂能够容纳万人规模的用餐活动,但结合食堂就餐峰值曲线图来看,食堂在工作时段内呈现出冷热不均的营业状态,其中以午间用餐刷卡频次最高,很多POS机在10分钟内突破300次交易量,如此大的刷卡交易行为可以预见学校食堂午间用餐时段内会出现打饭档口排队拥堵的现象,由此也会引发就餐环境凌乱、消防逃生通道拥堵等一系列问题。为此,课题组提出建议:学校可在非高峰期内推出特价菜、精品菜来引导学生错峰就餐消费。
三、食堂、超市假日消费行为数据挖掘
高校学生消费群体在工作日与节假日期间的消费行为有较大差异。为了更好地研究高校用户在节假日消费行为和消费心理,课题组提取了2013年9月1日至2013年11月17日期间20个双休日,针对高校学生群体的刷卡消费行为进行数据统计,并与工作日期间发生的消费行为数据做了如下对比,如表所示。
1.消费规律
从高校食堂超市假日消费行为统计来看,可得出以下规律:
(1)节假日食堂刷卡交易行为明显少于平时的刷卡情况,食堂生均消费金额却远大于常规工作日;
(2)超市节假日刷卡交易频次远远超过常规工作日刷卡次数,且超市生均刷卡交易金额远大于平时;
(3)持卡用户在假日食堂就餐行为中没未出现明显营业峰值。
2.学校相关部门改进措施
从上述提炼的几条规律可以看到,高校假日消费与平时有着显著不同,学校后勤部门根据节假日用户消费行为的特点按照如下几方面改进:
(1)鉴于节假日学生群体的就餐行为较少,食堂可适当地轮休,关闭部分售饭档口,减少工作人员,节约人力开支;
(2)节假日学生作息时间不规律,食堂应适当延长营业时间,为学生提供中高档菜品,适应学生群体的节假日消费行为特点;
(3)超市应在周末备足货源,为学生提供优质服务,干洗、数码冲印、洗浴、美发等服务业也是假日消费几项重要支出,因此上述行业应延长节假日的营业时间,为学生消费群体提供更好的优质服务。
四、用户行为分析系统在高校的应用前景及意义
随着大数据时代的到来,高校依托一卡通业务系统的基础数据开展针对持卡用户的行为分析有着重要的现实意义和广泛的应用前景。首先,通过对一卡通用户行为分析的研究,将一卡通原有业务流水缺失的数据结构与数据内容补充完整,极大提升了现有校园一卡通数据质量;其次,丰富了高校用户行为分析的研究手段,依托一卡通业务数据基础利用先进的信息技术抽取、分析统计数据与过去调查问卷的传统研究方法相比具有样本数据量大、统计数据真实、可信度高等特点;再次,基于一卡通系统的用户行为分析系统统属于一卡通系统的二次开发与应用,用户行为分析系统通过数据仓库将一卡通几个独立的业务信息数据库整合集成,实现了数据共享,拓展了系统的应用范围;最后,一卡通用户行为分析系统能够有效提升学校的信息化管理水平,一卡通用户行为分析系统通过对校园一卡通的业务流水信息的数据挖掘,可掌握学生就餐、消费、图书借阅、上课、出入宿舍的活动规律,帮助学校提升后勤、教务、图书馆等多个部门的管理水平。
参考文献:
[1]李坤伦,罗郁,李院春,孙勇.基于公共数据库的校园一卡通系统数据库集成研究[J].现代计算机(专业版),2011(11):66-68.
[2]周学刚.校园一卡通多平台数据集成技术研究[D].哈尔滨工程大学,2011.
[3]吴慧韫,王河堂.一卡通挖掘学生异常行为[J].中国教育网络,2011(5):67-68.
[4]周晶晶,付爱英,鲁喆.一卡通变身校务决策“情报员”[J].中国教育网络,2011(8):51-52.
[5]陆悠,华泽,盛浩,奚雪峰.基于用户及其行为社会属性的信任测度模型[J].计算机科学,2013(1):127-131.
[6]董莉芬.基于用户行为分析的精准营销探讨[J]. 电信技术,2013(4):67-69.
[7]李文峰.基于主题模型的用户建模研究[D].北京邮电大学,2013.
(编辑:杨馥红)
endprint
摘 要:随着信息技术的迅猛发展,校园一卡通已成为高校数字化校园建设的重要组成部分。基于校园一卡构建用户行为分析系统,能够帮助学校掌握学生校内的学习、消费及作息行为。本文就校园一卡通用户就餐消费这一特定行为展开讨论,并对学生消费、食堂运营状况及营销策略等问题开展数据挖掘与分析,最后就一卡通行为分析系统的研究意义、研究价值进行了归纳与总结。
关键词:校园一卡通;用户行为分析;数据分析;数据挖掘
中图分类号:TP315文献标志码:A 文章编号:1673-8454(2014)09-0047-03
前言
校园一卡通是集数据共享、身份认证、金融消费等多项功能于一体的信息集成系统,以辽宁医学院(下文简称:辽医)为例,我校一卡通系统包括就餐、消费、考勤、考试报名、图书借阅等多个业务系统。校园一卡通为师生提供优质、高效信息化服务的同时,系统自身也积淀了千万条流水记录,学校透过这些业务记录可掌握用户在校园内的日常生活与学习行为。
一、高校一卡通持卡用户总体消费行为分析统计
以辽宁医学院一卡通系统为例,学校共有POS消费机167台,这些POS消费机部署于学校食堂、超市、洗浴等多个服务领域,笔者们选取了辽医近3个月68万条一卡通消费流水记录作为学生消费、就餐行为的样本数据进行分析与数据挖掘,并从中得出该校学生持卡基本消费情况。其中一卡通用户刷卡消费统计分析情况如图1所示。
从图1可得出学校持卡用户的总体消费情况:
(1)食堂的就餐行为占整个用户的刷卡交易行为的74.5%,可见食堂就餐是一卡通持卡用户交易最频繁、交易量最大的消费行为,因此,高校后勤部门应强化对学校食堂的管理,满足用户的就餐需求。
(2)超市刷卡消费行为占有很大比例,以辽宁医学院为例,超市刷卡消费行为占总刷卡交易量的17.6%,通过对学校超市营业品种、营业额的专项调研,发现学校超市总体消费水平偏低,热卖商品主要为方便面和香肠,反映出高校学生群体的超市消费只是就餐行为的补充,学校食堂在容积率、菜品内容、营业时间等尚不能满足用户实际需求,导致很多用户选择方便食品果腹。
(3)一卡通用户在洗浴、美发、干洗等消费活动中刷卡率较低,这说明用户在洗浴、美发及洗衣等服务中很少持卡消费,从实际调研也发现在这些服务领域中,用户需频繁地换衣脱衣,携带一卡通卡片或一卡通手机都极不方便,从而影响了这些服务店铺的刷卡消费。
二、大学食堂就餐峰值、容积率分析统计
食堂就餐峰值是指食堂在一天营业过程中所呈现的最多就餐人数;食堂实际容积率是指食堂在一定时期内平均每天接纳就餐人数。高校用户刷卡行为主要集中在食堂用餐环节,因此通过分析持卡用户的食堂刷卡记录就不难推算出学校食堂容量是否合理,食堂设备资源是否存在闲置浪费。如图2所示为高校食堂就餐峰值曲线图,图3为高校食堂实际容积曲线图。
其中高校食堂就餐峰值曲线图抽取了辽医食堂三个月的刷卡交易数据作为曲线图数据源,由于食堂节假日期间,大多呈半营业甚至歇业状态,为保证数据测量的准确性,样本数据中剔除了节假日,就餐峰值每个测量点的时间间隔设置为10分钟,每个就餐峰值的测量点是将同一时段的90个工作日测量值平均加权后得到。 通过对图2就餐峰值曲线图的分析得知,食堂用餐高峰主要集中在一天当中11点50至12点时段,每天的早晚就餐时段内,并未出现明显就餐峰值。从数据曲线可以得出学生的早餐用餐情况不佳,许多学生没有吃早点的习惯,同时结合图表1的方便面刷卡行为,我们认为学校内有相当一部分学生在宿舍内吃泡面解决早餐问题;通过对学校食堂员工和在校学生进行的问卷调查,也得到了同样结论。高校食堂晚间营业时段内未出现明显的峰值曲线,可见高校学生晚上用餐没有出现拥堵的用餐情况,刷卡行为少于中午时段表明很多学生选择了校外就餐。从图3高校食堂实际容积曲线图可以看到,几乎每个工作日食堂的累计刷卡频次都超过万余人次,从数据上可以看到,学校食堂能够容纳万人规模的用餐活动,但结合食堂就餐峰值曲线图来看,食堂在工作时段内呈现出冷热不均的营业状态,其中以午间用餐刷卡频次最高,很多POS机在10分钟内突破300次交易量,如此大的刷卡交易行为可以预见学校食堂午间用餐时段内会出现打饭档口排队拥堵的现象,由此也会引发就餐环境凌乱、消防逃生通道拥堵等一系列问题。为此,课题组提出建议:学校可在非高峰期内推出特价菜、精品菜来引导学生错峰就餐消费。
三、食堂、超市假日消费行为数据挖掘
高校学生消费群体在工作日与节假日期间的消费行为有较大差异。为了更好地研究高校用户在节假日消费行为和消费心理,课题组提取了2013年9月1日至2013年11月17日期间20个双休日,针对高校学生群体的刷卡消费行为进行数据统计,并与工作日期间发生的消费行为数据做了如下对比,如表所示。
1.消费规律
从高校食堂超市假日消费行为统计来看,可得出以下规律:
(1)节假日食堂刷卡交易行为明显少于平时的刷卡情况,食堂生均消费金额却远大于常规工作日;
(2)超市节假日刷卡交易频次远远超过常规工作日刷卡次数,且超市生均刷卡交易金额远大于平时;
(3)持卡用户在假日食堂就餐行为中没未出现明显营业峰值。
2.学校相关部门改进措施
从上述提炼的几条规律可以看到,高校假日消费与平时有着显著不同,学校后勤部门根据节假日用户消费行为的特点按照如下几方面改进:
(1)鉴于节假日学生群体的就餐行为较少,食堂可适当地轮休,关闭部分售饭档口,减少工作人员,节约人力开支;
(2)节假日学生作息时间不规律,食堂应适当延长营业时间,为学生提供中高档菜品,适应学生群体的节假日消费行为特点;
(3)超市应在周末备足货源,为学生提供优质服务,干洗、数码冲印、洗浴、美发等服务业也是假日消费几项重要支出,因此上述行业应延长节假日的营业时间,为学生消费群体提供更好的优质服务。
四、用户行为分析系统在高校的应用前景及意义
随着大数据时代的到来,高校依托一卡通业务系统的基础数据开展针对持卡用户的行为分析有着重要的现实意义和广泛的应用前景。首先,通过对一卡通用户行为分析的研究,将一卡通原有业务流水缺失的数据结构与数据内容补充完整,极大提升了现有校园一卡通数据质量;其次,丰富了高校用户行为分析的研究手段,依托一卡通业务数据基础利用先进的信息技术抽取、分析统计数据与过去调查问卷的传统研究方法相比具有样本数据量大、统计数据真实、可信度高等特点;再次,基于一卡通系统的用户行为分析系统统属于一卡通系统的二次开发与应用,用户行为分析系统通过数据仓库将一卡通几个独立的业务信息数据库整合集成,实现了数据共享,拓展了系统的应用范围;最后,一卡通用户行为分析系统能够有效提升学校的信息化管理水平,一卡通用户行为分析系统通过对校园一卡通的业务流水信息的数据挖掘,可掌握学生就餐、消费、图书借阅、上课、出入宿舍的活动规律,帮助学校提升后勤、教务、图书馆等多个部门的管理水平。
参考文献:
[1]李坤伦,罗郁,李院春,孙勇.基于公共数据库的校园一卡通系统数据库集成研究[J].现代计算机(专业版),2011(11):66-68.
[2]周学刚.校园一卡通多平台数据集成技术研究[D].哈尔滨工程大学,2011.
[3]吴慧韫,王河堂.一卡通挖掘学生异常行为[J].中国教育网络,2011(5):67-68.
[4]周晶晶,付爱英,鲁喆.一卡通变身校务决策“情报员”[J].中国教育网络,2011(8):51-52.
[5]陆悠,华泽,盛浩,奚雪峰.基于用户及其行为社会属性的信任测度模型[J].计算机科学,2013(1):127-131.
[6]董莉芬.基于用户行为分析的精准营销探讨[J]. 电信技术,2013(4):67-69.
[7]李文峰.基于主题模型的用户建模研究[D].北京邮电大学,2013.
(编辑:杨馥红)
网络用户行为挖掘 篇4
本文在前人研究的基础上, 利用微软公司提供的BI (SQL Server Business Intelligence Development Studio) 工具, 对从数据堂[9]提取的波士顿大学计算机科学技术学院1994年11月到1995年5月份的http请求日志进行了深入的挖掘分析, 提取出用户访问最多的一些网站及其内容、从不同的时间粒度得出访问相对集中的时间段等相关信息, 进而为科学管理学校网络资源、优化网络配置、引导学生更好的学习提供有力支持。
1 数据预处理
本文所采用的数据集有三个特点:①日志文件并非常用的txt文件, 而是由包含用户名、机器名、日志产生的时间三个字段 (这三个字段唯一确定一个日志文件) 且由空格隔开的文件。②数据集非常大:9633个日志文件, 共1, 143, 839条记录。每一个日志记录则由机器名、上网时间、用户ID、访问网址、响应时间及文件大小六个字段组成。其中, 时间格式为Unix时间戳。③数据记录不完整。在日志记录中, 部分数据存在残缺、格式不正确的问题。因此, 我们在对数据进行分析前, 还需要对数据进行预处理。
1.1 数据变换
日志文件中所有的时间都是Unix时间戳的形式, 为了便于观察和处理, 我们需要编写一个时间戳转换函数先对其格式进行相应的处理, 转换为美国波士顿大学当地的系统时间。如Unix时间戳797704525采用时间戳转换函数转换后为:1995-04-13 00:35:25.000。
同时, 对于那些域名的后缀中存在缺失、后缀名不正确的情况, 我们在存入数据库之前也需要采取数据变换的手段将其统一格式。如对于后缀缺失项, 我们将其填充为NULL。
1.2 数据清理
由于部分记录存在网址格式不正确、域名后缀缺失及域名后缀格式不正确等问题而导致无法存储到数据库的问题。因此, 我们还需要通过编写程序对这样的数据进行处理。具体清理过程如表1所示:
1.3 数据建模
为了对数据进行存储分析, 建立了一个名为datamining的数据库, 包含两张表:t_log和t_record, 分别用来存储用户上网的日志文件和所有的上网行为记录项。其相应字段说明如下:
同时, 为了便于分析, 建立如图1所示的多维数据集及挖掘结构。
由于本文的目的在于分析校园网用户访问网络资源和时间段的情况, 以及单个用户的网络行为特征, 因此, 我们有必要对建立的多维数据集进行相应的处理。常用的方式有上卷、下钻、切片和切块。本文重点介绍了采用上卷和切片的方法对用户的上网行为进行分析。
上卷:通过1个维的概念分层向上攀升或者通过维规约, 对数据多维数据集进行聚集。上卷操作实现维的简化操作, 可将指定维的幅度缩小或删除指定维。在本文中, 按照月份维度对数据集进行上卷操作, 便可得到每个季度不同用户的上网时长。如图2所示:
从上图我们可以很明显的看出, 各个用户在不同月份的上网时长、同一用户在不同月份的上网时长。如对animal用户, 其在2月份的时候, 在线时间最长, 4月份次之, 而1月份上网时长最少。同时, 这也大致符合所有用户的一个上网规律。
切片:对立方体上的1个维度进行选择, 形成1个子方.如对用户浏览行为维表进行切片, 可以获得用户某一具体浏览行为的上网情况。如我们要查看用户animal访问的文件内容有哪些。我们就可以对多维数据集在animal和时间粒度上进行切片。切片结果如图3所示:
从以上图表我们可以很清楚的看出, animal用户在该日志中访问最多文件类型是gif。其次是html和xbm, 而对诸如text、txt、zip等文件的访问则很少。同理, 我们还可以对其访问的文件大小进行切片, 找出占用资源较多的文件类型。此外, 我们还可以很方便的根据其访问网址的前缀, 即所使用的网络协议对其进行分类。大致可以分为file、http、ftp、news、whttp、rhf、gopher等。
通常而言, 页面响应速度是衡量一个网络好坏与否的一个关键因素。在带宽一定的情况下, 访问网络文件的类型, 也就是文件的大小直接影响到网络页面的响应速度。为了进一步优化网络, 本文对文件的类型、响应速度与时间进行了挖掘。挖掘的模型采用了目前较成熟的Autoregressive Tree Models for Time-Series Analysis (时序分析的自动回归树模型) 。模型如下所示:
这是一个线性回归模型, 其中p表示自动回归模型的长度, 记为AR (p) , N (μ, σ2) 是一个期望为μ, 方差为σ2的正态分布, θ= (m, b1, ……bp, σ2) 也是这个模型的一个参数。自回归树模型 (ART) 是一个分段线性回归模型, 它的边界由决策树算法定义, 而其叶节点则由包含线性自回归模型的决策树算法生成。决策树的分割变量从先前的时间序列变量P中选取。每一个非叶子节点的都由一个与变量P相关的函数产生的一个布尔值判别。
2 实验结果及分析
因为数据量太大, 故只选取了1995年1月前半个月的数据、常见的十三种文件格式进行了分析, 其结果如图4所示。从图中我们可以看出, 在1月2日、7日、11日的0时, 1月3日6时, 1月12日7时这几个时段内, 校园网络不是很顺畅, 页面的响应速度很慢。可能是由于网络当中存在大量的下载或访问量过大所引起的, 因此, 这个时候我们需要对校园网络进行相应的调整, 或加大带宽, 或分时段对访问量过大的数据协议进行控制, 从而优化校园网络。
3 结束语
采用数据挖掘的方法从海量的数据中提取出对有价值的信息, 并为决策提供有力的依据和支持, 已经成为几乎所有领域解决重大决策问题时的一个重要手段。本文精心选取了包含大量有效数据的数据集, 应用Autoregressive Tree Models for Time-Series Analysis (时序分析的自动回归树模型) 对数据进行建模, 结合ssas数据挖掘工具, 采用上卷、下钻、切片等多种方法对多维数据集进行了深入的挖掘, 为网络管理与优化提供了科学依据。
参考文献
[1]Luigi Lancieri.Internet User Behavior:Compared Study of the Access Traces and Application to the Discovery of Communities[J].IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART A:SYSTEMS AND HUMANS, 2006, 36 (1) .
[2]Tsuyoshi Murata, Kota Saito.Extracting Users Interests from Web Log Data[C].Proceedings of the 2006 IEEE/WIC/ACM InternationalConference of Web Intelligence (WI 2006 Main Conference Proceedings) (WT 06) , 2006.
[3]Bettina Berendt, Bamshad Mobasher, Myra Spiliopoulou, et al.Measuring the Accuracy of Sessionizers for Web Usage Analysis[R].KDD’99 Workshop on Web Usage Analysis and User Pro_ling WEBKDD’99.San Diego, CA, ACM.Springer, LNCS series, 1999.
[4]Martin Arlitt.Characterizing Web User Sessions[R].Internet and Mobile Systems Laboratory HP Laboratories Palo Alto HPL-2000-43, 2000.
[5]Maristerlla Agosti Giorgio Maria Din Nunzio Web Log Mining:A Study of User session[C].UNIVERSITY OF PADUA Department ofInformation Engineering.10th DELOS Thematic Workshop on Personalized Access, Pro le Management, and Context Awareness in Digi tal Libraries Corfu, Greece, 2007.
[6]董富强.网络用户行为分析研究及其应用[D].西安:西安电子科技大学, 2005.
[7]吴勇.网络环境下用户行为研究与实现[D].南京:南京理工大学, 2007.
[8]张静.基于统计方法的用户上网行为模式的数据挖掘[J].计算机与信息技术, 2008 (2) .
网络用户行为挖掘 篇5
微博是21世纪以来新兴的一种基于WEB 2.0的信息发布和共享平台。自首个微博平台Twitter 2006年诞生后4年内,其用户数量就已达到7500万[1]。更有数据显示,中国国内的著名微博平台,新浪微博,自2009年8月,也仅用了不到4年的时间,就已突破了3亿注册用户[2]。在微博中,用户可以方便的通过共享见闻、发布评论、位置签到等方式随时发布个人状态,也能通过关注其他微博用户及时获取各种资讯、八卦和好友动态等。由于其独特的功能设计和易用性,微博得以在短时间内取得重大成功。
微博采用了独特的单向关注模式,用户可以有选择的关注他们感兴趣的用户,建立单向的收听关系。此外该平台也吸引了大量的社会精英、媒体机构和普通大众等各类人群,形成了独特的社区结构。微博中社交关系可以看作是一种现实世界社交关系在虚拟世界的扩展。Java等人[3]通过研究分析,将微博用户关注的用户为三类人群:信息源、好友圈子和信息获取者。而由此形成的社交网络由此也就具有了重要的发掘价值。
本文将基于微博的社交网络中面向挖掘某个机构相关的用户群体,如学校的学生,某时尚品牌的消费者等等。针对该问题,文章将采用基于社交网络距离和社区发现两种方式来进行挖掘。本文的创新点也在于通过社交发现和分析用户兴趣度,在微博社交网络中有针对的挖掘与某一机构相关的用户群体。
本文小节1界定与目标机构相关的用户的具体定义;小节2介绍实验数据的采集范围和基本情况;小节3介绍用户对目标机构兴趣度的计算;小节4通过基于社区发现的方法发现与目标机构存在现实联系群体的步骤;小节5总结全文。
1 与机构相关的用户
在微博平台中,用户之间通过一条条单向的关注关系相互连接,这些连接的拓扑结构反映了这张社交网络中节点的性质。用户在微博社交网络中与目标机构的相关性可以有许多表现形式,本文主要关注以下两类用户:
第一,对目标机构的兴趣度较高的用户。在微博平台中,用户的关注和被关注情况都是可以获取到的。用户的关注关系一般代表着出用户的信息获取倾向,即能体现用户的兴趣。因此在社交网络中,根据一个用户是否关注、以及关注了多少与目标机构相关的用户,都能够有效的评价用户对目标机构的兴趣度。此外,用户的发布微博内容虽然也能体现用户与机构的兴趣度,但由于关于如何获取和辨别与目标机构相关的微博是另一个较为复杂的问题,本文中不予讨论,仅关注在社交网络中体现于目标机构足够兴趣度的用户。
第二,微博社交网络中与目标机构在现实世界中有联系的群体。由于用户在微博中会存在众多好友、同事的社交关系,这些好友关系的共同特点是彼此之间通常是双向关注。通过挖掘不同的好友,并结合社区发现算法,我们可以找到相关的某个与目标机构较为密切的群体,这些群体往往在现实世界中有较强的联系,如学校的学生,社团的成员等等。
2 数据采集
2.1 采集范围
为了挖掘目标机构的相关用户,实验中利用Twitter API接口采集了与目标机构相关的社交网络关系。采集对象主要包括以下三类用户:
目标机构的官方账户,微博平台中挑选出的一批由目标机构及其子机构创建的账户,这些账户的粉丝将作为发掘目标机构的相关账户的主要来源。
第一层粉丝,指所有官方账户的粉丝的集合,但不包含官方账户;
第二层粉丝,所有第一层粉丝的粉丝构成的集合,不包含官方账户和第一层粉丝。(图1)
2.2 数据规模
本系统选取了某一亚洲高校作为测试机构,从微博平台Twitter中选取了49个官方账户,并利用Twitter提供的开放API接口依次爬取49个官方账户对应的一层账户和第二层账户信息和官方账户和第一层账户的关注用户。获取的数据如下:
经过统计,爬取到的数据集形成了一个有23,967,287条边,8,213,899节点的有向图,该图中经过双向边提取,得到了一个有7,406,463条边,2,843,189节点的双向好友关系图。
3 用户对机构的兴趣度
微博用户一般是在兴趣的驱动下去关注其他用户的,因此,一个用户是否关注,且关注了多少官方账户一定程度上体现了用户对某个机构的兴趣度。本文定义用户的兴趣度如下:
其中,li是指用户ui在有向图上到达任一官方账户的的最短距离,dij指用户ui到达官方账户uj的最短距离;Uo指所有官方账户的集合。该指标将综合衡量每个用户到所有官方账户的距离,通过计算,绝大多数第二层粉丝的兴趣度已经很低,目标机构的第三层以上的粉丝的相关性可以忽略不计。很显然,如果计算所有第一层和第二层用户的NScore,则NScore的可能的最大值为|Uo|,即某一个第一层用户关注了所有的官方账户;最小值为0.25,即某个只能通过2步距离到达某个官方账户,却无法通过有限次关注到达其他官方账户。NScore基于每一个第一层和第二层粉丝到所有官方账户的距离的累加,能够有效的通过用户的拓扑结构反映用户对目标机构的兴趣大小。通过计算,整个网络中所有第一层和第二层用户的NScore分布如下:(图2)
可见,第一层和第二层用户中,大多数的用户的NScore值都相对较低,且服从长尾分布,绝大多数的用户的NScore均小于10,但也有一定数量的用户的NScore值较高,能达到30以上,通过比对用户基本信息,包括地理位置、用户名、个人简介等,一般用户的NScore在19以上时,用户的信息能够体现出与目标机构的明显的相关性,这些用户也是在所有相关粉丝群中,与目标机构最为相关的群体。
4 机构相关社区
4.1 社区发现概述
社区发现的目的,是对给定的社交关系网络,发掘出其中的具有较高密度或关联性的社交圈子。这里的社交圈子是社交网络图中点的集合,特点是圈子内部点间联系密切,与其他社区联系则相对较少。
常用的社区发掘算法[4]有最小切割法[5]、层次聚类法、Girvan-Newman算法[6]、模度值最大化算法(modularity)[7]等。最小切割法试图通过将一个图分成预定数量的大小相仿的子社区,同时使得社区间的边数最少。该方法较为简单易行,但具有很大的局限性,仅适合发掘特定结构的关系图,发掘结果的通用性较差。层次聚类算法,即通过传统的层次聚类的方法,将每个节点视作一个社区,并依次合并最相似的社区,最终形成一个树形结构。
在所有社区发掘算法中,M.Newman提出的基于模度值最大化的快速社区发现算法是较为有效的一种算法,该算法提出了模度值的概念,来衡量社交关系图中节点间是否有明显社交结构,并采取贪婪策略不断和合并各个子社区,以来寻找使整个社交关系图的模度值最大的社区划分。此外,概算法的另一优点是执行速度较快,在有n个点和m条边中图中,其最坏的时间复杂度为O((m+n)*n)。在处理较大规模数据时较其他算法具有明显的优势。本文也正是基于这一原因在本节选取该算法。
4.2 与目标机构相关的社区发掘
本节是基于如下的假设,某一个官方账户在现实社会中常常会具有大量相关的成员,这些成员在现实生活中上形成了一个相对稳固的社交圈子,其中,会有相当一部分会在微博社交网络上继续关注该机构的官方账户,并将其与其他成员的部分社交关系带到微博平台中。许多目标机构相关的成员在微博中即使没有关注官方账户,也可以通过其好友的社交关系来评估该用户的与目标机构的关系。这些有着共同好友关系的且对目标机构有较高兴趣度的社区就是我们需要挖掘的相关社区。
由于社交发现算法是一项复杂度较高的计算过程,而且原网络中也存在着大量的噪声,为了提高数据的计算速度和准确度,本文首先对双向关系图进行两步压缩。
首先进行初次压缩,将图中所有粉丝数大于10000的节点及其相关的边删除,这些节点往往是媒体机构或社会名人,而且往往引入了大量的无关的第二层粉丝,形成了噪声数据。然后,对经过初次压缩的社交关系图进行二次压缩,具体方法是依次删除关注官方账户数量小于T1的第一层粉丝及相关的边,然后再删除关注第一层粉丝数量小于T2的第二层粉丝及相关的边,T1和T2在实验中分分别取2和3,T1取值一般小于T2,以保证对第二层粉丝的过滤更为严格。二次压缩的思想是去掉图中那些对目标机构兴趣度较低的用户,以减少数据爬取过程中的引入的噪声用户,例如一个学校的学生的好友群中,既有同伴同学,也会有父母亲朋等,后者易形成噪声数据。经过压缩后用户关系网的大小为:
经过两次压缩后,实验社交网络已经达到了适宜的大小,对该图应用模度值最大化算法后,得到了一系列社区关系图,社区聚类的大小分布如图3:
可以看出,数据的中得到的社区大部分的大小都小于400,这些社区经观察,大多为噪声社区,社区内部的成员的用户兴趣度(NScore)值均比较低。出去这些大小较小的社区外,实验也得到了一些体积较大的社区,包含的成员的数量在500-5500左右。
4.3 相关社区的评估
为了评估社区的相关性,实验还收集了社区发现关系图中所有用户的基本信息,包括地理位置、用户名和个人描述等,此外,实验还分别计算了每个用户的对目标机构的兴趣度,并将每个社区内用户按照兴趣度降序排列,并计算每个社区的评价指标如下:
即实验计算每个社区兴趣度最高的N个用户兴趣度平均值,来评估每个社区的相关度,试验中N选取40。下表描述了实验得到的相关社区和几个不相关社区的描述:
由于目标机构的官方账户的数量为49个,社区A中由于具有36个官方账户,其R@N值明显高于其他社区,且通过用户个人描述,也能从该社区中发现较多目标机构的成员;社区B中也包含了一定数量的官方账户,且兴趣度最高的人群的用户信息也能体现出明显的相关性,但较社区A次之;社区C和社区D的相关性则更低,仅一部分用户具有一定相关性;社区E中则较难发现相关用户,而且该社区用户的整体兴趣度均较低。
此外,通过观察,每个社区的成员中均会有大量的兴趣度很低的用户,社区用户按兴趣度降序排列后,其分布曲线依然是呈明显的长尾分布,但是得到的社区中,每个社区中兴趣度最高的部分用户的兴趣度分布却非常不同。这个现象表明了社交网络中目标机构在两层社交关系中会与多个社区相连通,而每个社区又会分别在各自的社交范围内进一步延伸,引入一些各自社区中的噪声节点。对每个社区区分噪声节点的方法是根据每个社区的用户兴趣度设定阈值进行过滤。但每个社区的过滤阈值应当有所不同,一般来讲,通过社区的R@N值,并结合其用户信息,基本上可以确定与目标机构在现实中有较强关联的几个社交圈子,对相关社交圈子可设定较为宽松的阈值,而其他不能体现明显相关性的社区则设定相对严格的阈值,仅获取兴趣度最高的部分用户即可。
5 结论
本文主要描述了一种新的在微博社交网络中发掘与某一机构相关的用户群体的方法,文章主要定义了两类与机构相关的用户,分别是对目标机构有较强兴趣度的用户和在社交网络中体现相关社交圈子中的用户。对于两种不同的用户,文章分别利用用户社交网络拓扑结构,计算用户与目标机构的兴趣度。并利用社区发现方法并集合每个社区的R@N指标来发现与目标用户的社交圈子,通过比较用户的相关信息和用户兴趣度,能够有效的发现相关圈子,并从中获取相关用户。
参考文献
[1]《Twitter活跃用户数已达1.4亿将在日积极扩张》.http://net.chinabyte.com/247/12312747.shtml
[2]新浪微博注册用户突破3亿每日发博量超过1亿条》.http://news.xinhuanet.com/tech/2012-02/29/c_122769084.htm
[3]Java,A.,Song,X..Why we Twitter:Understanding microblogging usage and communities.WebKDD/SNA-KDD'07Proceedings of the9th WebKDD and1st SNA-KDD2007workshop on Web mining and social network analysis.ACM New York,NY,USA.2007:56-65
[4]M.E.J.Newman.Detecting community structure in networks.Eur.Phys.J.B,2004,38(2):321-330
[5]维基百科,community structure,http://en.wikipedia.org/wiki/Community_structure
[6]M.Girvan and M.E.J.Newman.Community structure in social and biological networks.Proc.Natl.Acad.Sci.USA,2002,99(12):7821-7826
网络用户行为挖掘 篇6
用户行为监测数据挖掘是一项系统工程,工程师需要不断分析数据特征,构建对应的模型并进行检验,从而获取用户行为特征。工程师挖掘用户行为监测数据时,可以某个问题为中心,建立对应有效的模型,并应用实际现象对该模型的可行性和有效性进行检验,不断发现、解决该模型的不足之处,之后解决该问题。随着科学技术的不断发展,用户对地图可视化的要求越来越高,需要更先进的地图可视化系统设计思想来满足其发展要求,而自适应地图可视化系统的应用可有效解决该问题。自适应地图可视化系统可通过改变自身的特征来满足用户的个性化需求。国内外关于自适应地图可视化方法和模型的研究较多,但是关于自适应可视化系统对用户行为方面的研究较少,使得该系统无法对用户模型进行实时更新。现对Apriori算法在ACVi S中用户行为监测数据挖掘中的应用情况进行研究。
1 自适应可视化系统运行机制
自适应可视化系统是将自适应理论与地图可视化系统结合自一起,产生新型的地图可视化系统。用户在应用该系统时,该系统可根据各个用户不同的需求和行为特征来重新构建自身的系统模式,以满足用户的需求。
自适应可视化系统主要有内容显示模块、色彩和符号模块、用户界面模块,各个模块相互独立,且可以通过不同模块组合方式来形成不同的电子地图产品。从自适应可视化系统运行机制来看,该系统可分为以下几个模块:(1)用户、场景信息获取模块。用户使用该系统时,会将其基础信息和场景信息输入该系统中,系统数据库保存该数据后,根据该数据进行模型构建。(2)场景和用户行为监测模块。该模块主要通过用户使用键盘和鼠标等外部设备的情况来监测场景和用户行为。场景和用户行为的监测模块是自适应可视化系统模块中重要的部分,需要建立保存用户性别、姓名、职业等信息的用户基础信息数据库,并建立保存用户使用该系统行为数据的动态数据库,为用户行为特征的分析提供可靠数据,从而为优化自适应系统服务奠定基础。(3)界面、色彩以及符号模板库。获取场景、用户模型中相应的界面、色彩以及符号模型时,可利用模型匹配算法来实现,界面、色彩以及符号模板库直接将对应的界面、色彩以及符号模板保存下来,或使用关联数据库、文件数据库等方式,从而为自适应可视化系统的运行提供可用数据。(4)自适应推理控制模块。该模块主要通过综合分析场景、用户基础信息以及场景、用户监测信息来改变系统的特点。该模块可数据化场景、用户的基础信息和行为,并在特征数据库中寻找与该数据相近、相符的场景、用户模型,并应用对应的模块库。(5)自适应调用输出模块。该模块主要通过调整界面的效果来展示系统最终自适应结果。图1表示自适应可视化系统模块的运行机制。
2 用户行为监测
2.1 用户行为监测
在自适应可视化系统模块中,主要通过监测用户与外连设备的互动情况来获取用户行为数据,如用户键盘按键的使用、鼠标的移动等。用户在使用该系统的过程中,通常会通过外连设备来下达指令,而系统直接通过使用键盘和鼠标消息来运行对应的操作函数。其中钩子应用程序可对键盘、鼠标消息进行控制,可决定该消息是否送至目的地,该项技术即为钩子技术。钩子技术通过控制Windows API函数来取得该消息。钩子应用程序可对这些消息进行监控,从而获取用户使用该系统的行为数据,包括用户的个性化需求、熟练程度等。
2.2 用户行为数据库以及数据挖掘
微软基础类库可提供用户使用外连设备的情况,如键盘和鼠标消息等。在构建系统时,可在用户操作消息中增加用户操作行为的捕捉函数,如键盘、鼠标操作消息种类和消息次数等,这些消息经由微软基础类库被映射至该捕捉函数中,从而获取用户通过外连设备与系统的互动情况。用户在进行系统操作时,该操作消息数据值会随之发生对应的变化,之后被保存在数据库中。用户行为数据挖掘的主要内容有行为聚类、行为顺序规律、行为频率、行为停留时间。行为聚类是将用户相似的行为归为一类,每组的行为具有一定的共性。行为顺序规律是用户行为之间的先后顺利,行为频率、停留时间是用户某项行为的操作次数和某项行为停留的时间。前三种数据的挖掘比较负责,需要应用行为关联规则进行数据挖掘。目前,关联规则数据挖掘通常应用Apriori算法进行。
Apriori算法属于层次算法,其是一种挖掘关联规则的频繁项集算法,频繁项集即为支持度大于最小支持度的项集。其进行频繁项集的挖掘主要包含候选集生成和情节的向下封闭检测两个阶段。Apriori算法在在两阶段频集思想递推算法的基础上形成的算法,其关联规则可分为布尔、单层、单维关联规则。Apriori算法具有的性质为:任何非频繁的(k-1)-项集都不可鞥呢是频繁k-项集的子集。如果(k-1)-项集事务占事物总数的百分比≤最小支持度阈值,则该项集与k-项集占事物总数的百分比将小于最小支持度阈值。Apriori算法主要依据最小支持度来找出频繁项集,之后根据最小信任度来确定强关联规则,在此过程中,Apriori算法可直接通过数据硬盘来处理数据。例如,对6位顾客购买超市商品的行为进行研究,顾客记为R1、R2、R3、R4、R5、R6,购买的商品有水、饼干、牛奶、糖果、话梅、面包,记为a、b、c、d、e、f,每位顾客买东西的详情见表1。阈值为3/10,为了便于计算,乘以数据库事物获得最小支持计数2。步骤:扫描数据获得各项支持计数集合,每个元素第一个分量由项目形成频繁项集L1={(a:3),(b:4),(c:1),(d:4),(e:4),(f:2)};L1连接L1运算,产生候选2-项集,M2={(a,b:1),(a,c:1),(a,d:3),(a,e:1),(a,f:0),(c,b:0),(d,b:1),(e,b:3),(f,b:2),(c,d:1),(c,e:0),(c,f:0),(d,e:2),(d,f:1),(e,f:2)},频繁项集L2={(a,d:3),(d,b:2),(e,b:3),(f,b:2),(d,e:2),(e,f:2)};L2连接L2运算,产生候选3-项集,M3={(a,b,c:0),(a,b,d:1),(a,b,e:0),(a,b,f:0),(b,c,d:0),(a、c、d:1),(b,c,f:0),(c,d,e:0),(c,d,f:0),(b、d、e:1),(b、e、f:2),(a、d、e:1)},则频繁项集L3={(b、e、f:2)}。该关联规则主要对评价指标的联系程度进行评价,从而获得项目之间的关系。
但是应用Apriori算法时,其产生的候选集数量较多,可能需要多次重复扫描数据库。对此,工程师可对Apriori算法迭代过程和生成新的候选集方面进行改动,从而优化该算法。在在自适应可视化系统中,时间可反映用户兴趣的变化情况和用户对某项操作的兴趣。对此,可在Apriori算法中增加用户某行为操作持续时间和用户使用自适应可视化系统的持续时间,△WA=>B=σDdays·time·Association(A=>B),σ<l,△WA=>B指关联规则,Association(A=>B)指权重。这两个参数的增加可有助于关联规则用户模型的建立,而该系统可通过用户模型来改变自身的特点以满足用户个性化需求。用户使用自适应可视化系统的时间越长,系统的数据越完整,构建的用户模型的适用性将越来越强。总之,通过对用户行为数据库关联规则的挖掘,可得到用户适用自适应可视化系统的个性特点,用户通过外连设备发送操作消息时,该系统根据用户模型可对用户的行为进行预测,从而为用户提供更适宜的服务。
3 结束语
用户行为特征的分析是在定量分析关联规则多用户的行为数据的基础上,定性分析用户的行为,从而获得有价值的信息,为优化服务提供依据。在自适应可视化系统中应用改进过的Apriori算法,可有效改善该系统的用户模型构建,优化用户行为数据库数据的收集,但是该方法仍存在不足,需要加强研究。
参考文献
[1]谢超,陈毓芬,王英杰.Apriori算法在ACVi S中用户行为监测数据挖掘中的应用研究[J].测绘学报,2010.
[2]丁丽.基于Apriori算法的用户行为数据挖掘研究[J].科技通报,2013.
网络用户行为挖掘 篇7
Web技术的飞速发展和Web信息的迅猛增长使得Web不再仅仅是一个信息共享和发布平台。如何在用户的Web活动中挖掘获取有价值的信息和隐含知识, 并以此提供智能化、语义化、个性化的信息服务已经成为研究热点。
随着信息化教育的发展, 数字化校园和网络教育逐渐成为人们足不出户完成教育和学习的关键领域, 各种类型的教育软件和网站层出不穷, 用户在自由浏览教育网站信息的同时出现了海量的具有潜在价值的日志信息。如何把这些教育数据转变成教育决策和教育教学活动优化等有用信息和知识, 便是E-Learning用户行为模式挖掘的意义所在。
1 Web数据挖掘
1.1 Web数据挖掘及Web用户行为模式挖掘
Web数据挖掘 (Web Data Mining) 是数据挖掘技术在Web上的应用。Web挖掘是集数据挖掘、信息检索和信息抽取多种技术于一体的研究领域。Web数据挖掘的发展源于数据挖掘, 但是Web挖掘的研究对象囊括了很多传统数据挖掘技术很难处理的数据:图像、视频、声音及网页之间的各种链接等。这些数据具有海量、异构、非结构化等特性, Web挖掘就是针对这些数据特点而进行研究并获取潜在有用信息的过程。
行为模式是指用户操作过程中所体现出来的某种规律性[1]。用户行为模式挖掘是在Web日志挖掘 (Web usage mining) 基础上的应用研究, 以网络日志为研究对象。Web日志挖掘是指从用户的访问记录中提取感兴趣内容的挖掘模式。在用户浏览Internet信息的过程中, 服务器会记录用户访问及其与客户端之间的交互信息 (包括访问的页面、时间、用户ID等信息) 并被记录在日志文件中, 包括3种类型的日志文件:Server logs、Error logs、Cookie logs。Web用户行为模式挖掘正是对这3种日志文件进行挖掘, 从而发现相似用户群体、访问模式、频繁路径等知识。
1.2 Web行为模式挖掘
目前, Web行为模式挖掘研究领域主要包括:形式化描述网络访问行为、自动获取行为特征以及发现行为规律, 研究的数据主要包括URL页面请求、页面间链接的拓扑结构、注册用户特征等[2]。常用的研究方法主要有统计分析、关联规则分析、聚类分析和频繁序列模式分析[3]。
(1) 统计分析是指获取用户行为的统计信息, 如访问时间、频率等[4]。
(2) 关联规则分析可获取用户页面访问行为间的关系。
(3) 聚类分析是指通过聚类将特征相似用户的访问行为特点归并分组。
(4) 频繁序列模式分析可以获取用户访问习惯、爱好及趋势等[5]。
通过这些分析方法获得的数据在页面导航、应用和产品推荐及公共教育服务系统的开发方面有着十分重要的作用。
1.3 用户行为模式挖掘工作流程
结合Web应用的需求, 针对用户行为模式的特点, 参照Web日志挖掘的方法和流程, 建立了用户行为模式挖掘模型, 其工作流程如图1所示。
1.3.1 数据准备
Web挖掘过程中的数据采集和预处理阶段, 旨在收集Web服务器的访问日志文件, 生成挖掘数据源, 主要包括数据清洗、用户唯一性识别和完善访问路径等。通过这些可以有效地过滤掉一些类似用户访问传输协议、错误请求和短时间内多次重复的干扰信息, 从而提高数据的纯净度、准确度和可信度。
1.3.2 用户行为建模
早期的Web应用大多以静态网页的形式呈现, 现在越来越多的应用系统转变为基于平台的, 并逐步发展成为具有实时交互性和开放性的Web服务模式。人们发现在应用这些服务系统的过程中, 理解用户与系统交互行为对于网络系统性能的提高、站点的重构以及个性化、多元化服务等具有重要意义[6]。同时, 大量实践也表明, 用户行为在时序、聚集、依赖等方面确实存在强一致性的行为特征[7]。
传统的建模方法和仅基于Web日志的访问路径建模方法缺乏对用户行为模式的动态语义信息描述, 为了解决这些建模方式存在的问题, 我们采用一种新的基于网页元数据的建模方式。根据Web用户行为的分层特性, 行为模式可分为URL访问、活动、会话3个层次。
基于分层的行为模型在用户访问序列信息的基础上增加了访问内容的局部主题、关键字等信息, 这样的行为模型不仅有助于对用户行为的分析和理解, 而且为新的网络服务系统构建提供了良好的支持。
1.3.3 用户频繁行为序列模式挖掘
用户行为序列模式挖掘是在用户行为序列模型的基础上, 根据网络行为的一般规律, 在目标用户群中通过序列模式挖掘方法, 获得频繁的、普遍的、潜在的行为序列规律。这种行为序列描述了该用户群体在网络环境下一定程度上的共性行为特征, 为后期的个性化行为预测提供了必要的支持[8]。
针对行为序列数据的特点, 对现有序列模式挖掘算法适用场合进行分析, 我们选择出一种合适的访问行为频繁序列模式挖掘算法———PreFixSpan算法。根据访问行为序列特点, 发现此算法比较适合行为序列模式挖掘。这主要是因为: (1) 行为序列的每个元素都是单向的, 便于序列投影; (2) 以活动为单位的序列模式很长, 使用此算法才能提高挖掘效率。
PreFixSpan算法是一种深度优先搜索算法, 其基本思想是使用频繁前缀划分搜索空间和投影序列数据库, 并搜索相关序列, 检查前缀子序列, 将其相应的后缀子序列投影到数据库中。该算法同时采用分治的策略, 不断产生更多个更小的投影数据库, 然后在各投影数据库上进行序列模式挖掘。
假设用户分为一个组, 根据PreFixSpan算法得到频繁序列模式为:
其中, groupid为用户组的标识, 具有唯一性。si是该组内频繁行为序列, ti为si的支持度。
1.3.4 用户行为模式聚类
Web用户访问模式聚类就是根据用户访问的公共特性进行聚类。通过聚类形成多于一个的用户簇, 这样每个簇中的用户都具有共同特性。通过对上述Web日志挖掘数据的获取, 提取用户的访问特性。
当前, 用户网络行为分类研究还处于初级阶段, 可将用户的网络行为简单分为交互行为、浏览行为、查询行为、协同行为等。然而现实生活中, 用户的网络行为模式大多是这些行为的综合。聚类技术根据被分析对象间的相似性将相同或相似的对象集划分在同一类中。根据行为序列模式在时间轴上的变化特点, 通过以序列相似性为基础的序列聚类算法对行为序列模式聚类, 实现行为序列模式类别划分。
(1) 序列相似性计算。因为网络用户行为存在着自主性和不确定性的特点, 使得用户的访问行为发生的时间有很大的差异, 普通的基于时间序列的欧几里得距离及其变形的序列相似性计算算法难以满足需要, 因而, 此处使用一种基于序列投影压缩的相似度计算方法。
以网络活动序列为例, 假设有两条活动序列si, sj, 且si= (ai1, ai2, …, ain) , sj= (aj1, aj2, …, ajm) , n≤m。则相似度计算公式如下:
sj’为sj投影压缩后的变形, t为sj’的长度, 即t=|sj’|
(2) 序列聚类算法。在行为序列相似度计算的基础上, 进行行为序列聚类, 可以采用基于K-中心聚集的序列聚类算法。
输入:行为序列集D, 预设的簇数k。
输出:k个簇的集合, 使得所有对象与其最近中心点的相异度总和最小。
方法: (1) 从序列集D中随意选取2k个序列, 组成k个初始簇, 则每个簇就包含了两个序列; (2) 将剩余的每个序列进行序列相似性计算, 寻找与初始序列的投影压缩最相似的簇; (3) 添加序列到该簇; (4) 反复迭代执行, 直到簇的大小不再发生变化。
2 Web行为模式挖掘在E-Learning系统中的应用
2.1 E-Learning系统
E-Learning是指通过因特网或其它数字化内容进行的学习与教学活动, 它充分利用现代信息技术所提供的、具有全新沟通机制和丰富资源的学习环境, 实现一种全新的学习方式, 这种学习方式将改变传统教学中教师的作用和师生之间的关系, 从而根本改变教学结构和教育本质[9]。目前市场上的E-Learning供应商大致分为3类:平台技术供应商、课程资源供应商和平台兼资源共同发展的供应商。E-Learning系统应用也经历了从最初的在线学习阶段, 到在线学习+学习管理阶段, 再到在线学习+学习管理+培训管理阶段, 最终发展成为现在的在线学习+学习管理+培训管理+知识管理阶段。
2.2 Web行为模式挖掘与E-Learning系统
基于Web用户行为模式的数据挖掘在E-Learning方面的应用, 就是指一个将来自各种E-Learning网络教学平台的日志文件所包含的潜在有用的数据转换为有用信息的过程, 这些有用信息可为教师、学生、家长、教育研究人员、教育管理人员以及E-Learning软件系统开发人员所利用, 以了解学生及其所受教育的情况, 并据此采取有针对性的管理和教学优化措施[9]。
E-Learning用户行为模式挖掘过程如下: (1) 收集网络E-Learning系统服务平台用户使用数据; (2) 数据预处理; (3) 用户行为建模; (4) 用户频繁序列模式分析和行为序列聚类, 如图2所示。
实验发现, 将用户行为模式挖掘算法和流程应用在E-Learning系统的分析和挖掘, 具有很好的效果, 可以获得一些有用的数据, 进而为教育教学工作服务。
通过用户行为模式挖掘, E-Learning系统的建设者可以清楚地了解用户的需求, 建立“以用户为中心的”网络结构体系, 针对不同用户的需求“量身定做”课程设置, 使E-Learning教育系统的优势最大化, 同时提高用户满意度;网站管理者可以利用系统向用户推送一些可能有兴趣的新知识;当用户关注到下一个知识点时, 系统会建议并提供一些在学习新知识时可能会用到的知识点和相关信息, 针对不同用户的个性化学习, 定制个性化信息, 即通过用户行为模式挖掘, 建立、调整用户的喜好, 使用户能够以自己的方式来访问, 从而实现服务的个性化。不仅如此, 通过用户行为模式挖掘可以让网站的设计者不再完全依赖专家的定性指导来设计网站, 而是根据访问者的信息来修改网站的结构, 设计网站的外观, 找出优化网站组织结构的策略, 节省用户的访问时间, 节约网站的开支;通过挖掘结果还可以分析用户浏览学习的历史资料, 预测用户的需求趋势, 评估需求倾向的改变, 提高E-Learning服务系统的核心竞争力。通过Web用户行为模式挖掘知识、规律和信息, 及时调整系统课程设置和专业设置, 满足广大用户的需求, 留住现有用户, 吸引更多用户。
3 结语
Web行为模式挖掘是在Web数据挖掘基础上发展起来的一门综合技术, 主要致力于从网络海量的、异构的、多维的信息资源中寻找有潜在价值的知识。E-Learning在我国经过十几年的发展, 其模式也在不断改变, 从单纯的在线学习发展到在线学习与在线管理相结合的模式。随着网络教育的发展, 科学安排在线学习及管理模式非常重要, 将Web行为模式挖掘运用于E-Learning系统中, 能有效地帮助网站开发者和网站管理者了解用户, 依据用户的偏好合理布局、改变管理模式以及调整发展战略, 以达到扩大影响、吸引用户和为广大用户服务的目的。
参考文献
[1]戴英霞, 连一峰, 王航.系统安全与入侵检测[M].北京:清华大学出版社, 2002.
[2]GUO L, XIANG X, SHI Y C.Use Web usage mining to assist online E-Learning assessment[C].IEEE International Conference on Advanced Learning Technologies, 2004.
[3]朱志国, 邓贵仕.Web使用挖掘技术的分析与研究[J].计算机应用研究, 2008, 25 (1) .
[4]XING D, SHEN J.Efficient data mining for web navigation patterns[J].Information and Software Technology, 2004, 46 (1) :55-63.
[5]许欢庆, 王永成.基于用户访问路径分析的网页预取模型[J].软件学报, 2003, 14 (6) :1142-1147.
[6]HOLLFELDER S, ORIA V, OZSU M T.Mining user behavior for resource prediction in interactive electronic malls[C].2000IEEE International Conference on, 2000.
[7]连一峰, 戴英侠.基于模式挖掘的用户行为异常检测[J].计算机学报, 2002, 25 (3) :325-330.
[8]郑庆华, 刘均, 田锋, 等.Web知识挖掘:理论、方法与应用[M].北京:科学出版社, 2010.
[9]葛道凯.E-Learning数据挖掘:模式与应用[J].中国高教研究, 2012 (3) :8-14.
网络用户的信息行为研究综述 篇8
1.1 含义的研究
网络用户是指在科研、教学、生产、管理、生活以及其它实践活动中需要和利用互联网、局域网等网络获取和交流信息的个人与团体[1]。目前, 对于用户信息行为的含义, 比较成熟的主要是针对传统用户信息行为, 主要有以下3种:
⑴在动机支配下, 用户为了达到某一特定的目标的行动过程[2]。⑵在认知思维支配下对外部环境做出的反应, 是建立在信息需求和思想动机基础上, 历经信息查寻、选择、搜集各过程, 并为用户吸收、纳入用户思想库的连续、动态、逐步深入的过程, 如明确信息需求实质、选择适当的信息系统、制定正确的检索策略[3]。⑶人类运用自己的智慧, 以信息为劳动对象而展开的各种信息活动, 即人类的信息查询、采集、处理、生产、使用、传播等一系列过程[4]。
参照以上定义, 网络用户信息行为, 就是指网络用户在信息需求和思想动机的支配下, 利用网络工具, 进行网络信息查寻、选择、吸收、利用、交流和发布的活动。
1.2 类型的研究
根据网络用户产生信息需求到吸收利用信息的一系列过程, 将网络用户信息行为分为信息需求行为、信息查寻行为、信息浏览行为、信息选择行为、信息利用行为等。
⑴信息需求行为。用户的信息需求是产生信息行为的原动力。⑵信息查寻行为。查寻行为在所有信息行为的研究中占主导地位。曹树金、胡岷等学者对国外的网络信息查寻行为研究进展进行了探讨, 发现克洛巴斯等学者已经构建出了行为意图模型, 该模型能更好地解释人们对电子信息资源的利用[5]。⑶信息浏览行为。用户的信息浏览行为可以直接地评价网络信息资源的利用程度。林珊如学者通过实证研究, 提出了一个浏览行为的多面性概念架构和浏览行为的影响因素[6];邓小昭学者总结了浏览行为的方式、目的、优点与局限[7]。⑷信息选择行为。信息选择行为即是依据一定的判断标准对查寻到的信息进行选择。信息选择的判断标准主要有相关性和适用性。⑸信息吸收与利用行为。这方面的研究成果较少。鲁安民学者认为信息行为蕴含着信息吸收, 信息吸收是信息行为的延伸和升华。他探讨了信息吸收的基本形态和本质, 分析了信息行为并建构了它与信息吸收之间的关系, 分析了影响用户信息行为与信息吸收的因素[8]。
2 研究视角
2.1 不同网络用户的信息行为
针对特定网络用户信息行为的研究成果有:⑴学术性用户上网的主要目的是查找专业信息, 主要是使用互联网的发送电子邮件、查询图书馆目录等功能, 他们对高质量的数字信息资源需求比较大[9];⑵大学生以信息获取行为为主, 而信息发布、交流、咨询的行为较少[10];⑶研究生上网的主要目的是查寻专业信息, 其获取信息的首选方式是数字图书馆, 其次是网络搜索引擎, 且对数字图书馆提供的信息服务评价普遍比网络信息资源高[11]。
2.2 网络用户信息行为的心理学研究
葛园园学者应用精神分析学说中的核心理论, 从用户信息需求的本能分析、人格三重结构与用户个性分析、潜在信息需求分析、唯乐原则与用户信息行为倾向等4个方面, 揭示其内在本质关联性, 期望为用户心理研究开辟一块崭新的天地[12]。
2.3 网络用户信息行为的方法研究
国外的网络用户信息行为研究方法主要是问卷调查法和搜索引擎日志分析法。研究成果如A.Spink等学者利用搜索引擎Excite的查询记录来分析用户的提问式长度、检索词的分布、相关反馈的利用以及用户图像信息需求的表达等[13]。而国内主要是采用实证分析方法, 研究成果如巢乃鹏学者采用实证研究的方法, 详细分析了用户的信息查询行为, 对影响用户信息查询行为的因素进行了分析, 并构建了我国网络用户信息查询行为的模型[14]。王建勇等学者通过对我国“天网”中英文搜索引擎的查寻日志进行分析得出用户查寻行为的分布特征及启示[15]。
摘要:网络用户信息行为, 就是指网络用户在信息需求和思想动机的支配下, 利用网络工具, 进行网络信息查寻、选择、吸收、利用、交流和发布的活动。
基于用户行为的网络数据过滤方法 篇9
目前, 网上购物、网上股票交易和网络游戏等互联网应用日益流行, 而在互连网应用中用户需要账户信息来表明身份。不用说在网上购物和网上股票交易中使用的帐户, 即便是在网络游戏中的帐户, 其拥有的虚拟物品也可以通过一些方式进行交易, 因此, 网络上的帐户信息就具有了非常高的经济价值。木马类程序由于可以窃取各种网络应用的帐户信息, 从而被很多居心不良的人采用各种技术手段进行传播, 这给用户带来了很大的威胁。从网上公布的数据来看, 受木马侵害的计算机近两年增长很快。查杀木马程序、拦截网络数据、防止用户的重要信息泄露已成为网络安全研究领域急需解决的问题。
1 相关工作
利用特征码查杀木马是目前主要的防御木马技术之一, 该技术将木马看成一种特殊病毒, 事前提取木马的特征码放在病毒库中, 在扫描系统查杀病毒的同时也查杀木马。特征码技术对已知的病毒和木马非常有效, 目前被国内外防病毒软件广泛使用。但该技术对未知木马却难以有效识别, 而且目前有很多专门制作木马的工具, 老的木马比较容易以一种新的形态出现, 原有的特征码就不一定能起作用。多态[1]和加壳[2]技术的使用给木马的查杀更加增添了难度, 因此, 利用特征码查杀技术无法给用户提供完全的保护。
网络数据过滤是防御木马的一项强有力的补充技术, 这项技术在主机防火墙中已得到广泛使用。主机防火墙根据规则来过滤网络数据, 规则可由用户直接设置, 也可由软件自动生成。规则的自动生成通常是这样:在一个安装了主机防火墙的计算机上, 用户运行一个新的网络应用程序, 系统会弹出一个窗口, 提示某个程序正在发送网络数据, 由用户选择是否允许该应用的网络数据通过。如果用户作出了正确的选择, 就可切断木马客户端与服务端的数据通信, 防止用户机密信息的泄露;否则可能会影响正常的网络应用或放行了木马程序的网络数据。存在的另一个问题是网络数据过滤时往往需要人工的干预。
国内外的研究人员已经从行为分析角度来防御木马, 主机防火墙如卡巴斯基已经运用了行为检测法。目前技术上都集中在对木马行为的分析上[3,4,5,6], 通过拦截修改注册表、修改启动项、修改系统文件等的疑似木马行为达到防御木马的目的。由于正常软件的安装卸载很多时候需要修改注册表等, 因此使用行为检测法的系统往往也需要用户的干预。
也有利用进程合法性来判定网络数据合法性的方法。如通过监测发送数据到外网80端口的进程是否为常见的浏览器进程来判断网络数据是否合法, 但只能用来检测Http-Tunnel[7]。还有预先将所有可信的网络应用程序名称和路径存放到指定数据库中, 通过监控所有通信端口, 并把端口与它相对应的应用程序关联起来, 如果应用程序在数据库中, 则说明通信合法, 否则就可能是非法[8], 但一个明显的问题是可信应用程序库怎样建立, 由普通用户建立显然不合适, 由开发人员预先建立又缺乏适应性。
2 基于用户行为的网络数据过滤
本文描述的方法属于行为检测范畴, 但将分析角度从木马转换到了用户, 分析用户操作行为与网络数据的关系, 利用用户是否操作过对应进程来判定网络数据的合法性。
2.1 基本原理
客户—服务器交互是构成所有网络应用的基础, 网络应用软件本质上有两个角色:客户端和服务器。由于大多数情况下用户使用的网络应用软件是客户端软件, 以下先基于客户端来讨论, 对服务器的讨论在2.3节中进行。
分析目前的网络客户端应用软件可以发现, 网络数据的产生与用户的操作行为有密切的关系。用户要先操作应用程序, 然后才产生网络数据。在用户的操作中, 按下回车键和点击鼠标左键是两个关键的操作, 这两个操作意味着用户真正发出指令, 应用进程收到指令后才发送网络数据。例如用户要访问某个网站, 在浏览器的地址栏输入对应的网址 (或IP地址) 后再按回车键可以访问, 或者用鼠标左键点击地址栏中已有的网址也能访问。用户在使用其它网络客户端应用软件时也有类似的特点, 而木马程序在发送网络数据时是不需要也不会去要求用户操作的。
用户的操作是针对某个进程的, 而网络数据是某个进程发送或接收的, 本文使用“进程”将用户的操作与网络数据收发两者关联起来, 形成网络数据过滤规则:用户操作过的进程允许网络数据的收发。
2.2 技术实现
本文描述的原型系统是基于Windows 2000操作系统实现的。
本文描述的原型系统使用了多个进程, 需要实现进程间的通信, 进程间通信的技术有很多, 共享内存映射文件技术是常用的一种。一般先在一个用户进程中使用CreateFileMapping函数创建一个命名的共享内存对象, 然后在需要通信的进程中使用OpenFileMapping函数获取到该共享内存对象的句柄, 再利用该句柄调用MapViewOfFile函数把这个对象映射给一个指定存取类型的内存指针, 通过该指针就可进行访问共享内存对象[9]。
原型系统使用键盘和鼠标钩子技术完成键盘鼠标消息捕获。钩子是操作系统消息处理的一种机制, 通过安装一个钩子函数让系统在消息处理时自动调用, 从而在钩子函数中可以监视系统的消息队列, 在这些消息到达目标窗口之前对这些消息进行处理。操作系统支持多种类型的钩子, 不同类型的钩子能够截获不同的消息。本系统要监视所有的窗口消息, 必须安装全局钩子, 而全局钩子要被所有应用环境调用, 因此对应的钩子函数必须在动态链接库中实现[10]。
原型系统还使用了SPI技术实现网络数据包的过滤, 使用驱动程序技术捕获进程退出消息, 实现进程退出的监控, 将这些技术组合应用实现了用户正常操作与网络数据收发之间的关联, 并以此为基础来过滤网络数据。
系统先进行初始化工作, 创建名为MySharedMem的共享内存, 安装全局键盘鼠标钩子函数、进程监控程序和网络数据过滤程序。然后各部分通过共享内存进行通信, 相互协作完成基于用户正常操作的网络数据过滤。下面是对各部分的详细描述。
(1) 键盘鼠标钩子函数的作用
是将用户操作过的进程对应标识号 (PID) 添加到共享内存中。键盘鼠标钩子捕获键盘输入的回车键和鼠标的左键点击, 并通过GetWindowThreadProcessId函数获取当前活动窗口对应的PID, 并在共享内存映射文件中搜索该PID是否已经存在, 如果存在则忽略, 否则将该PID加入到共享内存映射文件中, 这样, 就构建了一个PID的集合, 集合中的所有PID对应的进程都是用户操作过的。
(2) 进程监控的作用
是把终止运行的进程对应PID从共享内存中及时删除。进程监控主要通过函数PsSetCreateProcessNotifyRoutine注册一个回调函数来实现, 微软在DDK文档明确说明这个函数只能在核心态使用, 因此这部分功能是通过驱动程序来实现。在驱动程序的入口函数DriverEntry中将进程监控函数注册为一个回调函数, 当有进程创建或退出时系统会自动调用进程监控函数, 在进程监控函数中首先通过参数bCreate判断是进程创建还是退出消息, 在本系统中只监控进程的退出消息。如果是进程退出消息则创建MySharedMem共享内存的映射, 映射成功后通过参数PId得到退出的进程标识号, 并在共享内存映射中搜索该进程号是否存在, 存在则将它从共享内存映射中删除。
回调函数中包含有共享内存映射的过程, 这个过程不能在驱动程序入口函数DriverEntry中完成, 也不能在IRP请求派遣函数中实现, 原因在于驱动程序的例程执行有一个“上下文”的问题。上下文指的是线程 (和进程) 的执行环境, 包括物理内存页面与虚拟内存地址的对应关系、句柄转换、分派器信息、堆栈以及通用和浮点寄存器的设置。内核模式的例程运行的上下文有三种可能性:系统进程上下文、特定用户线程 (和进程) 上下文或任意用户线程 (和进程) 上下文。驱动程序的入口函数DriverEntry总是运行在系统进程的上下文中, 其它函数可能运行在各自不同的上下文中, 在其它函数中建立的共享内存映射在回调函数中往往是没有意义的。
进程监控函数的关键代码如下。
if (!bCreate) //判断是否是进程退出消息。
{
RtlInitUnicodeString (§ionNameUnicodeString, L″[KG-*3BaseNamedObjects[KG-*3MySharedMem″) ;
InitializeObjectAttributes (&objectAttributes,
§ionNameUnicodeString,
OBJ_CASE_INSENSITIVE,
(HANDLE) NULL,
(PSECURITY_DESCRIPTOR) NULL) ;
status=ZwOpenSection (§ionHandle,
SECTION_ALL_ACCESS,
&objectAttributes) ;
if (!NT_SUCCESS (status) ) return status;
status=ZwMapViewOfSection (sectionHandle, //映射
(HANDLE) -1,
&virtualAddress,
0L, //zero bits
PAGE_SIZE, //commit size
NULL, //section offset
&viewsize,
ViewShare,
0,
PAGE_READWRITE) ;
if (!NT_SUCCESS (status) )
{
ZwClose (sectionHandle) ;
return status;
}
_itoa (PId, pids, 10) ;
pos=strstr (virtualAddress, pids) ;
if (pos!=NULL) //判断共享内存映射中是否有这个进程号。
{ //将已退出的进程的PID从共享内存文件中删除, 具体代码略。
……
}
}
(3) 网络数据过滤程序的功能
是根据共享内存中的PID数据过滤网络数据。网络数据过滤使用了SPI技术来实现, 通过DLL的形式建立新的服务提供者, 并插入到原有的服务链中, 让系统在调用原有的服务提供者之前先调用新插入的服务提供者, 并在入口函数WSPstartup中通过修改派遣函数表, 将需要拦截的WSPSend、WSPRecv、WSPSendto和WSPRecvFrom等派遣函数的入口各自指向新插入的服务提供者对应的函数, 这样, 网络应用程序在收发网络数据时就会调用插入的服务提供者中对应的替代派遣函数, 从而达到拦截网络数据的目的[11]。在替代的派遣函数中, 通过参数表中的LPWSATHREADID 类型参数ThreadID获取到网络数据对应的线程号, 再通过NtQueryInformationThread函数获取到对应的进程PID, 在共享内存映射文件中查找是否存在这个PID, 如果存在则调用服务链中下一个分层服务对应函数继续网络数据传输, 否则直接返回 (丢弃网络数据) 。替代的WSPSend函数的关键代码示例如下, 其它替代函数的代码与此类似。
//获取未公开的NtQueryInformationThread函数的地址。
NtQueryInformationThread= (PROCNTQIT) GetProcAddress (
GetModuleHandle (″ntdll″) ,
″NtQueryInformationThread″) ;
if (!NtQueryInformationThread) return 0;
//利用NtQueryInformationThread函数查询线程对应的基本信息 (含进程号) 存入类型为THREAD_BASIC_INFORMATION的变量TBInf中。
status=NtQueryInformationThread (lpThreadId->ThreadHandle,
ThreadBasicInformation,
&TBInf, sizeof (TBInf) , 0 ) ;
PID=itoa ( (long) TBInf.ClientId.UniqueProcess, Str, 10) ;
Pos=strstr (pszMySharedMapView, PID) ; //在共享内存映射文件中查找指定进程号。
if (Pos=NULL)
return; //在共享内存映射文件中没有对应进程的ID号,
//直接返回 (丢弃网络数据) 。
Else
//调用服务链中下一个分层服务对应函数继续网络数据发送。
return nextproctable.lpWSPSend (s, lpBuffers, dwBufferCount, lpNumberOfBytesSent, dwFlags, lpOverlapped, lpCompletionRoutine, lpThreadId, lpErrno) ;
2.3 其它讨论
与客户端相对应的是网络服务器, 如数据库服务器、Web服务器等。网络服务器与客户端不同, 往往随着系统启动而启动, 需要先接收客户端的请求然后才做出响应。如果直接使用前文描述的网络数据过滤方法就会影响现有的网络服务, 解决办法是将网络服务对应的端口号预先添加到另一块共享内存中, 在网络数据过滤时通过端口号来判断是否为相应的网络服务数据, 如果是则放行即可。限于时间关系, 本文描述的原型系统没有具体去实现。
有些网络客户端应用程序运行后在用户还未操作时就会发送网络数据, 如常用的浏览器软件运行后可自动打开默认主页、QQ聊天软件运行后可自动登录, 使用本文介绍的网络数据过滤方法后就会受到影响。对浏览器和QQ聊天两个软件的影响可以通过用户手动操作来消除, 但无疑会影响到其它一些软件的正常使用。笔者目前正在研究将用户操作与新进程的创建进行关联, 研究完成后将会解决这个问题。
3 结果和结论
本文提出并实现了一种基于用户操作行为的网络数据过滤方法, 该方法通过进程号将用户的关键操作行为与网络数据收发进行了关联, 以进程为粒度单位来判定网络数据的合法性, 用户操作过的进程才允许网络数据的收发, 不需要人工干预就可以过滤网络数据, 实践证明可成功拦截有单独进程的木马 (如NetSpy、冰河和Nethief等) 通信数据。
虽然本文介绍的方法无法拦截利用线程插入等技术实现的基于信任程序 (如IE) 的网络通信, 也无法拦截使用了API HOOK技术的木马数据。但该方法从原理上来说有不怕木马程序变形的特点, 传统的有单独进程的木马不论怎样演化, 都无法避免网络数据被拦截, 本文方法的应用将在很大程度上杜绝有单独进程的木马的存在及演化。木马技术正在向系统内核渗透, 防御修改系统内核的RootKit将会更加棘手[4,12,13], 结合现有的防御技术并不断发展新的技术才能对用户信息进行更好的保护, 本文提出一种思路供同行参考。