用户行为模式(精选10篇)
用户行为模式 篇1
手机卖场等社会渠道已经成为运营商和手机厂商争夺新用户户的的主主战战场, 研究用户在手机卖场的行为模式, 并据此制定营销措施, 无无论论对对于于运营商还是手机厂商都非常有意义。
移动通信市场已经进入3G飞速发展的阶段, 手机无疑成为运营商吸引用户的利器, 尤其是三家运营商3G网络制式不同, 导致用户购买手机时就已经明确了对运营商的选择倾向。从时下的情况来看, 中国联通有80%的手机销售/用户发展来自于社会手机卖场, 中国电信则正在尽力将手机销售渠道社会卖场化, 社会渠道已经成为运营商/手机厂商争夺新用户的主战场。因此, 分析用户进入手机卖场之后的行为模式以及决策影响因素无论对于手机厂商还是运营商都非常有意义。
共性:寻找品牌手机和把玩真机
在信息爆炸的互联网时代, 用户获得手机信息的途径非常多, 因此来卖场之前, 大部分用户就已经做了功课。用户来手机卖场的主要目的, 就是真切地看到真机、把玩真机, 以获得对于手机外型、材质、手感等方面的直观感受。同时, 向现场的销售人员询问了解相关手机的配置、性能、功能特点等方面的详细信息, 以及促销优惠信息。因此, 用户在手机卖场一个普遍的行为模式就是, 视线大部分时间会停留在手机真机或者模型机上, 且喜欢在走动中随意把玩, 感觉手机的外型、手感、材质等。
由于用户来手机卖场主要是看手机、买手机, 因此用户会习惯性地寻找手机品牌专柜, 相反对运营商专柜则会视而不见。而在寻找品牌手机专柜的过程中, 用户会有意无意地留意到墙上的大幅手机广告。
看机型和综合型用户
根据是否注意到卖场宣传形式, 大体可将用户分为看机型用户与综合型用户。
看机型用户走进手机卖场以后, 基本不看卖场内的各类宣传, 他们的视线一直在各类真机/模型机上来回转换。同时会认真看模型机旁边的价格标签或信息标签, 也会从柜台上取可带走的宣传单张细看, 但是较少与现场的销售人员主动交流。只是在对某款手机感兴趣的时候, 才会简单询问一两个问题, 或者要求销售人员拿真机出来感觉外观和材质。
综合型用户对卖场内的各类宣传形式都会留意到, 但最为关注的是真机/模型机以及现场的销售人员。他们进入卖场后首先会观察有无促销海报, 有现场促销的专柜是他们最先光顾的地方;在柜台前也会留意墙面广告及柜台上摆放的各种宣传物料;在把玩真机/模型机的时候会主动与销售人员进行充分沟通, 从手机配置到各方面的性能特点以及售后服务、优惠套餐等各类问题面面俱到。一般来说, 这类用户由于沟通充分, 从而获得的信息也较为全面, 更容易在决策过程中进行比较。
随波逐流型最易施加影响
根据用户进手机卖场前目标是否明确、是否容易受到卖场各种外在因素影响这两个维度, 可以把手机卖场的用户分为三种类型:意志坚定型、随波逐流型和价格敏感型。
意志坚定型用户
这类用户进卖场之前就已经有了清晰的目标, 不会因为现场促销宣传或者其他因素而改变想法。他们一般对手机的功能要求比较高, 计划购买的大部分是3000元以上的高档手机。他们逛手机卖场的目标很明确, 一般只会关注预期购买手机的柜台。
当然这部分用户也并非完全不受任何因素影响, 手机本身以及真机演示、尝试操作速度是否达到期望、功能的完善性等, 以及销售员的介绍都非常关键, 即使他们牢牢锁定某款手机, 也会因以上原因而改变主意。
从现场销售和目标用户识别来看, 这类用户一般只看某一个或者某几个品牌柜台, 当销售人员询问要买什么样的手机时, 一般能说出手机的系列名称甚至是具体型号。
随波逐流型用户
这类用户去卖场之前已经有了初步购买范围, 对手机的品牌、型号有一定的计划, 但较易受到销售人员和现场宣传的影响。由于目前相当一部分用户对于智能手机不是特别了解, 因此这类用户在手机用户中占相当大的比例。
该类用户对手机的要求一般不是太高, 计划购买的大部分是2000元左右的中档手机, 且追求高度性价比。因此, 他们逛手机卖场的特点是首先会把所有的柜台都逛一遍, 观察符合自己需求的手机, 并详细询问和对比, 选择性价比高的手机。但是, 他们在对比时经常会犹豫不决, 同时心理价位会因销售人员的介绍而上下浮动, 会看心理价位以上的手机。
通常来说, 这部分用户是销售人员最喜欢的用户, 因为他们最容易施加影响。对这类用户, 销售人员需要针对他们关心的方面进行推介, 销售人员需要及时帮助用户下定决心。
价格敏感型用户
这类用户去卖场之前对计划购买手机的价格范围有明确限定, 同时非常容易受现场优惠促销的影响而改变主意。但无论如何都不会超出自己的心理价位。该类用户对手机的品牌、功能、外观等要求不高, 一般情况下计划购买的大都是1000元左右的中低档手机。他们逛手机卖场的特点是, 会把所有的柜台都逛一遍, 但是只会考虑自己心理价位以内的手机。
这类用户非常容易辨别。当销售人员询问要买什么样的手机时, 一般会说出自己的心理价位, 且属于中低档位手机;而且会反复询问优惠和促销信息, 对价格非常敏感。
由于这类用户只要求手机具备大众化功能, 且只考虑自己心理价位以内的手机, 因此, 手机销售人员可以从以下几个方面对其施加影响:价格与促销优惠、手机本身具备的主流功能、性价比对比等, 销售员服务的主动性及对相关促销优惠政策的解释也能够有效影响用户的购买决策。
不同分类方式的考虑角度不一样, 从而会从不同的方面对运营商或者手机厂商的手机销售有一些启示。第一种分类方式有助于运营商或手机厂商在手机卖场布置时考虑突出用户所关心的宣传要素;第二种方式有助于手机卖场的销售人员从用户的行为、询问的问题以及相关的反应迅速对用户进行归类, 相应地调整其推介方式, 从而提升现场的销售能力。
好产品改变用户行为 篇2
技术转变以场景为载体
什么是好产品?怎样改变用户的行为?以阅读为例,最初人们需要一本本抄在纸上;后来,印刷术的出现让阅读变得更加便捷;而今天,电子阅读又让人放下了纸质读物,转而投向屏幕。技术在不断改变我们的生活。
但是,光有技术是不够的,还要有场景的应用。比如现在很流行的虚拟现实,其实早在几十年前就有,但现在人们想通过眼镜的方式,让其走进千家万户。可对普通消费者来说,这也只是一个技术革新的展示,人们不可能每天都戴着眼镜行走在大街上,产品很难真正地大规模应用于生活场景,不现实。
技术要改变世界,需要场景来作为载体。今天乘坐地铁,大家会发现周围变得越来越安静,人们都沉浸在自己手机里的小屏幕。如果一个技术不能真正使用在生活场景中,那对普通消费者来说就是无用的,因为无法改变他们的行为。
当有足够多的用户改变了自己的行为,就会形成群体性习惯,当人数达到一定的程度后,就可以改变世界。所以好产品不容易,需要让旧习惯变为新习惯,不管时代怎么变化,市场总在那里,就看你怎么让新的习惯产生。
用户习惯成就好产品
只有让用户形成了使用习惯的产品,才能称之为好产品。以三星为例,在功能机时代我们经常去印度调研,想着什么样的产品能给这个市场带来创新。当时有一个现象,印度的生活环境很差,很多地方不通电,天黑以后也没有路灯,很多人回家都只能通过手机屏幕那一点微弱的光亮照明。了解到这一情况后,我们就想能不能在手机上增加一个功能,不再用屏幕,而是其他更省电的方式,随后,就在手机上增加了手电筒的功能。这是一个非常小的改变,但这个改变推动了新的行为,养成一个新的习惯,一旦形成习惯,我们的市场就取得了很大的成功。
现在OPPO卖得很火,可在两年前他们也曾挣扎过。从R系开始,OPPO找到了自己的方向。大家都知道,早前OPPO有一款摄像头可以翻转的手机,市场反响很不错,而现在的“充电5分钟通话2小时”也是可以改变用户习惯的一款产品。
OPPO的技术并不复杂,很多手机厂商都可以做到,但只有OPPO找到了这一点。对用户来说,谁改变了自己,就更容易跟着谁。
当然,很多人谈改变市场,产品走得快,但产能跟不上,没有人用你的产品,怎么会有新习惯代替旧习惯的行为产生。所以产能也是至关重要的一环。
好产品到底能带给用户什么改变。有人说,产品体验就是你在使用过程中所产生的一个感受,这很正确,也很主观,但对厂家来说却并不可控。企业需要的是可控的反馈,想要达到这一点,首先自己要明白产品想给消费者传递什么样的感受。这样,在他使用产品后,才会感受到你所想表达的东西。真正的用户体验从使用前就开始显现,因为在设计的时候,企业已经为消费者做出了所有的设想。
如何培养用户习惯
用户习惯的养成不是一朝一夕的,需要长时间一步一步地培养。如果你经常网购,你一定知道每年有几个日子可以疯狂扫货:“双11”是天猫淘宝的狂欢节,6月18日是京东的周年庆。这两个活动都是经过多年的经营,才达到不用宣传,用户都会知道的效果,甚至有用户会等待购物狂欢节的到来。相比一下唯品会、聚美优品,很少有消费者记得他们的购物狂欢节是什么时候。所以,在产品制造出来之后,还需要培养,才能让用户形成习惯。
持续培养
持续培养并不等于一个活动做一年,一个产品卖几年,而是要在同一个时间点去举办相同的活动,通过产品的迭代进化使用功能。人类的记忆是满足遗忘曲线的,所以要定期地刺激用户的记忆,维持用户的活跃度。
巩固成果
固化不等于每次都做相同的事情,而是要让用户有相似的感觉,但每次都要有新鲜感。持续培养和巩固成果是一套组合拳,缺一不可。想通过持续和固化让用户养成习惯,就必须制定产品运营规范和规律,这样做有两个好处:
通过一次性完成一个周期所需要的产品设计,日后每次运营的开展都更高效;对于用户,可以明确认知、养成用户习惯,用户只要进入产品,就看到这个特定节日的内容,慢慢地让用户培养习惯。
时刻检查数据变化与反馈
数据是调整运营计划一个很好的依据,在产品上市期间需要一直观察数据变化,及时地做出调整。做数据分析的时候,需要活动前后和活动往期做对比,这样才能分析出培养效果。当然,竞争对手也是很好的伙伴,你的成功有一半是由竞争对手成就的,所以需要时刻观察竞争对手的动态然后做出差异化的准备。
一个好的产品未来能不能持续走下去,需要了解用户,改变行为,而不是简单地把一个新的技术推给用户就结束了,要以体验的创新来实现长远的创新,进而实现技术的转化。
用户行为模式 篇3
随着互联网发展起来的社交网络对人类社会活动的方式、效率等产生了深远影响, 在社交网络基础上形成了移动社交网络 (Mobile Social Network) 。在移动社交网络的发展中, 用户的需求也发展到了一个新的阶段, 体现为对贴心服务和个性化服务的追求, 他们希望在任何时间、任何地点、任何设备上体验个性化服务, 因此移动互联网的发展要以用户为中心, 以提供个性化服务为终极目标[1]。
个性化服务的核心工作之一是如何通过移动用户的消费信息有效发现用户的行为模式, 进而根据用户个性化的喜好, 更好的提供有价值的服务信息[2]。本文针对传统粗糙集理论在属性约简时必须将数据全部放入内存, 导致在进行移动用户社交大数据时无法有效处理问题, 提出基于Map Reduce的移动数据粗糙集并行约简方法, 同时以Hadoop开源平台为基础, 构建了移动用户行为模式分析平台, 最后通过实验验证了平台的有效性与可用性。
2 平台框架设计
本文提出的基于Hadoop的用户行为分析模型框架, 主要由5个层次构成:资源层、存储层、控制层、分析层和展现层, 具体功能如下所述:
2.1 资源层。
资源层的对象分为两类, 一类是对用户各种移动业务访问数据的存储, 包括用户位置信息、终端设备类型、访问IP、网址/特征信息等等[3]。
2.2 存储层。设计存储层结构主要考虑两个方面:海量设备状态数据的高效存储和用户行为分析中访问效率问题。
2.2.1采用Hadoop分布式文件系统 (HDFS) 构建一个高度容错性的系统, 基于流数据模式访问并能处理超大文件 (1T以上) , 提供高吞吐量的数据访问。2.2.2使用列式存储的HBase数据库, 所有的待分析用户访问状态数据文件都以HFile文件形式存储在HDFS文件系统上。能够提供高并发读写操作, 并且列都可以动态增加, 列为空就不存储数据, 节省存储空间。
2.3 控制层。
控制层采用Map Reduce并行运算模式, 将用户行为分析过程划分为多个Map Reduce作业, 以廉价的X86服务器构建Hadoop集群, 对每个作业分为Map和Reduce两个阶段, 同时构建Zookeeper负责协调控制服务, 利用Hive的强大统计汇总、点对点查询和大数据分析功能, 用HQL语句进行采集信息的各类分析操作。
2.4 分析层。
首先, 通过移动数据粗糙集并行约简方法进行移动社交大数据的预处理, 然后利用多元回归分析、贝叶斯网络和判别式法等智能分类算法进行用户行为特征的提取, 依据行为特征曲线分析结果, 经用户行为推理机根据行为分类规则进行自动判断[4]。同时, 通过Sqoop接口将行为分类规则存入用户行为知识库。
2.5 展现层。对移动互联网下用户行为进行分类, 对于每一类行为分别进行快速的图形化展现, 同时进行各种应用推荐。
3 平台关键技术:基于Map Reduce的移动数据粗糙集并行约简
在对移动社交数据进行处理时, 将全部的属性看做一个完整的集合, 但这些属性在分析不同的行为目标时, 如上网时长的分布规律, 用户使用某种移动套餐的可能性等, 并不是所有属性都是必要的, 可以将属性的约简归结为属性的选择问题, 即在保持属性集合用户行为分类能力不变的情况下, 如何选取最有代表性的属性。因此, 以粗糙集理论为基础, 在Map Reduce框架下实现粗糙集约简方法的并行化改进。
在构建基于Hadoop平台移动社交数据属性约简时, 它的平台核心是HDFS和Map Reduce, 其中HDFS为海量的原始数据提供了列式存储, Map Reduce通过编写Map和Reduce两个函数过程实现数据的分析处理。本文提出的粗糙集并行约简方法执行过程如下:
3.1 获取原始移动社交数据集, 包含n个属性 (n=j+l, 其中条件属性j (j<n) 个, 决策属性l (l<n) 个) 。
3.2 采用分布式文件系统HDFS进行列式存储, 将完整的数据集进行自动划分处理, 这些分解的数据块存放在一组数据节点中。
3.4 在Reduce阶段, 合并不同数据块中计算获得的某个属性局部等价关系, 获得该属性的完整等价类。
3.6 在Reduce阶段, 合并获得每个候选属性集的完整重要度。
3.7 进行属性约简, 根据不同行为分析的目标, 获得相应的最优候选集。
4 平台的实验分析
本平台的实验环境是选取了5台虚拟机进行搭建, 采用Linux Ubuntu操作系统12.04的64位版本, 构建完全分步式的Hadoop集群, 通过内网的一个DNS服务器, 指定5台虚拟机所对应的域名。每台虚拟机, 1G内存, 系统硬盘2G, 外接硬盘16G。
实验的数据来源是运营商的CDR话单和上网详单, 以及相应的字段说明 (例如基站位置、通话类型等) , 具体CDR话单包括:主叫、被叫、通话时间、通话类型、通话位置信息、通话时长、服务类型, 通话费用上网详单包括:手机号码、上网时间、网址URL、持续时间、流量、上网套餐类型。
4.1 属性约简验证 (表1)
4.2 用户行为模式影响因素分析。
将居住地点数据进行规范化处理后转化为0-55个数字, 通过与归一化处理后的上网时长信息进行分析后, 发现上网时长与某些特定居住地点存在一定的相关性, 本分析中几个有峰值出现的地点分别是21———代表学校区域、40———代表咨询公司区域。
年龄与选择服务类型的关系分析, 显示高年龄段人群仅对移动通信的基本服务感兴趣, 中青年龄段人群对上网服务和增值服务使用较多。
摘要:伴随移动社交网络的快速发展, 如何为用户提供贴心和个性化的服务是电信运营商密切关注的问题, 要实现个性化服务的核心工作之一就是通过移动用户的消费信息有效发现用户的行为模式, 但传统的单机模式下的分析平台已无法有效处理当前的移动大数据, 本文针对传统粗糙集理论属性约简方法进行了并行化改造, 提出基于Map Reduce的移动数据粗糙集并行约简方法, 同时以Hadoop开源平台为基础, 构建了移动用户行为模式分析平台, 最后通过实验验证了平台的有效性与可用性。
关键词:用户行为模式,属性约简,Hadoop,Map Reduce
参考文献
[1]梁鹏, 张岩.移动数据业务用户行为模式研究[J].中兴通讯科技.2005 (4) :24-27.
[2]陆嘉恒.Hadoop实战[M].北京:机械工业出版社, 2012.
[3]张利军, 李战怀等.基于位置信息的序列模式挖掘算法[J].计算机应用研究, 2009, 26 (2) :4-11.
网络环境下用户的信息搜寻行为 篇4
21世纪的社会无疑是一个大数据的时代,网络信息搜寻已逐步替代手工信息搜寻成为一个炙手可热的学科,网络环境下,用户的信息搜寻行为有许多种,本文主要通过介绍用户的信息搜寻行为,包括信息信息检索、信息浏览和信息询问,并分别对这些行为进行解释,阐述了信息搜寻行为的概念,为下面的论述做铺垫。接着列出信息搜寻的途径,深刻了解网络环境中信息搜寻与传统信息搜寻的区别;然后分析了影响用户信息搜寻行为的因素,主要从三个方面入手,个体因素、环境因素和成本因素,分别对他们进行阐释,最后得出结论,研究网络环境中用户的信息搜寻行为的意义是能让用户在这个大数据时代更好的获取所需要的信息。
用户信息搜寻行为概述
网络环境是一个非常复杂的环境,充斥着许多良莠不齐的信息,纷繁复杂,怎么在众多的信息中以最快的速度找到自己需要的并且有价值的信息,是用户信息搜寻行为的关键。按搜寻的内容划分,主要的信息搜寻行为有:购物网站的信息搜寻、学术网站的信息搜寻(CNKI等)、交友网站的信息搜寻、娱乐网站的信息搜寻、服务性网站的信息搜寻等。信息搜寻行为可以分为三种:信息检索、信息浏览、信息询问,这三种行为通常在一个搜寻过程中出现。信息检索一词在情报学中通常是指消费者对计算机情报检索系统的检索。所以,威尔逊把将信息检索行为专门定义为“信息用户(消费者)在与计算机系统交互作用时的各种行为表现”。信息浏览即选择有价值的信息进行浏览,信息询问即对不了解的信息进行询问。这三个过程通常是按顺序发生在信息搜寻行为中的。
信息搜寻行为的概念
为了对用户信息搜寻行为进行更深入的研究,首先要从信息搜寻行为的概念开始。信息搜寻行为是指有意识地激活记忆里所储存的知识或在周围环境中获得信息的过程(Engel,BlaekwellnadMinard,1986)。许多学者都对信息搜寻行为下了定义:廖以民认为“所谓信息搜寻行为就是因信息需求所产生的外在的有计划的或无计划的搜寻行为”。AbdelmajdiBouaZza认为“信息搜寻行为就是信息利用,也即利用信息来满足个体的信息需求的行为”。
网络环境下信息搜寻的途径
网络环境下信息的搜索途径主要有人际网络、数据库系统、社会媒体。网络是一个大型的信息检索系统,一个信息组织工具,一个沟通的渠道。
人际关系具有一定的局限性,因为我们所在的交际圈只是社会中很小的一部分,但是如果能利用好人际关系,也会给信息搜寻带来很大的帮助。人际关系主要包括社交网络,交友平台等,用户可以通过互动式问答来搜寻需要的信息。
数据库系统是一个庞大的系统,容纳了许多知识,用户可以通过信息检索行为快速的搜寻到需要的信息。大数据时代的数据库系统,无疑是信息存储量最大的数据库系统,当然也需要有效的数据挖掘技术,这样才会更方便有效的利用数据库。
社会媒体具有广泛的用户参与性,用户可以交流、协作、分享以及传播等,比如微博极大化地丰富了社会媒体。这不同于大众传播媒体,通过传统的电视、广告和报纸传播信息。社会媒体包括的博客、共享文档等。已有调查报告对种社会媒体的使用进行了调查,包括:协作式协作工具、会议工具、在线调度与会议安排工具、社交网络、图片或视频共享工具、微博、社会标签和书签。调查显示,用户利用社会媒体进行信息搜寻行为的频率正在逐步提高,用户可以通过一系列的社会媒体,搜索到有价值的信息。
信息搜寻行为的影响因素
网络环境下信息搜寻行为是由信息需求而产生的,终止于有价值信息的出现。信息搜寻过程是一个非常复杂的过程,它受很多方面的影响,Widdows(1999)的研究表明“用户的需求、兴趣与情绪状态不仅决定用户是否进行信息搜寻,而且还影用户如何对待和处理信息”。下面就几个有代表性的影响因素进行分析:
个体因素:不同的用户会有不同的信息需求,在不同的需求驱使下,会进行不同的信息搜寻行为。具体的个体因素包括:受教育程度、收入水平、性格、态度等方面。用户因为个体差异,所以会有不同的信息搜寻行为。不同的个体,也会有不同的价值观,用户搜寻信息,往往与他们的价值观相联系,符合价值观的信息即认为是有价值的信息。
环境因素:用户处在不同的环境中,往往会有不同的信息需求,则会产生不同的信息搜寻行为。环境因素具体包括:时间、地点、可利用的信息资源等。环境因素可以对信息搜寻行为造成直接影响,也可以造成间接影响。例如,用户所在的环境是一个信息资源相对匮乏的环境,那么他的信息搜寻行为与资源丰富的相比,就会明显受到环境的限制,这是环境对信息搜寻行为造成的直接影响。然而,用户如果处于一个相对聒噪的环境,他的信息搜寻行为与安静环境相比,信息搜寻能力会明显下降,受到了外部环境的影响,导致心理状况发生变化,也会间接地影响到用户的信息搜寻行为。
搜寻成本因素:信息的搜寻成本是影响用户信息搜寻行为的关键因素。搜寻成本的度量离不开搜寻时间,信息搜寻时间是指用户从信息检索行为开始到获得检索结果的一段时间,其间所付出的费用就是信息搜寻成本。信息搜寻成本具体包括:时间、精力、金钱等。
本文主要探讨了网络环境下用户的信息搜寻行为,介绍了信息搜寻行为的概念,主要把信息搜寻建立在网络环境下,以网络环境为基础探讨用户的信息搜寻行为,相比传统的信息搜寻,更加突出了互联网时代大数据的特征。网络环境下用户的信息搜寻途径有许多,研究不同用户的不同信息搜寻行为,有助于我们对网络的完善,有助于工作者对各种类型数据更好的加以处理,让用户能更好的搜寻到有价值的信息。
用户行为模式 篇5
1、移动互联网用户群特征分析。
由艾瑞2009年国内手机网民调研数据研究得出手机网民年龄、月收入及学历的用户群分布:从年龄角度,移动互联网用户群整体呈现年轻趋势,18-24岁用户是其最大用户群,占50.7%,25-30岁占24.4%,30岁以上占19.4%。与2008年相比18-24岁用户数下降了14.8%,而24-30岁及30岁以上用户数呈现上升趋势;从收入角度,用户月收入主要集中在1000-3000元,占51.7%(含1000元以下),3000元以上高收入用户群由2008年的4.8%增长至2009年的10.6%,由此可得出移动互联网业务已在高端收入人群中产生巨大影响;从学历角度,用户学历主要是高中(含以下)占61.3%,该群体主要是中学生,因自我支配时间较零散,不能像传统互联网用户一样长时间上网,只能通过手机满足上网需求。其次是大学本科(含大专)占37.2%,比2008年增长2.5%。最后是硕士及以上学历占1.5%,比2008年增长1.1%,可得出移动互联网的逐步普及,将吸引越来越多的高学历人群。综上分析得出:移动互联网用户集中在两个群体,一类是学生及青年白领,其特点是收入不高、学历较低、上网时间零散,对那些资费不高的娱乐型业务有需求,使用频率趋于稳定。另一类是硕士以上高学历、高收入中年用户群,因其注意力及时间有限,对获取的信息和业务质量有较高要求,资费相对很高但内容精准的高端业务可满足其需要。
2、移动互联网用户行为的消费特征分析。
随着国内移动互联网的普及,用户数逐年上升。移动互联网用户典型行为特点主要有:(1)上网时间碎片化:不同于传统互联网用户上网时间集中,移动互联网用户上网行为穿插于日常琐碎的时间里,除此以外,用户上网获取的信息、使用体验、消费行为也呈碎片化。(2)获取信息表面化:用户通过手机等终端接入移动互联网,因终端操作系统及界面不具有强大的交互性功能,获取的信息通常是表面化的。(3)应用具有目的性:典型移动互联网用户在使用信息类服务业务时多数有明确指向,在带宽资源稀缺、资费相对昂贵及终端交互性限制的情况下,用户期望能够在有限的时间里获得所需信息。(4)使用频率稳定:在产品质量达到一定程度的前提下,通过移动互联网上网的用户使用频率是稳定的,这表明成熟的移动互联网产品大多具有较强用户黏性。(5)使用行为即时:用户可能因一时的猎奇心理或突发的社会事件即时去寻找相关信息,但这种用户需求是随机、即时的,所以在此基础上很难挖掘到有用的信息。
3、移动互联网用户行为的影响因素分析。
本文所研究的是指通过接入移动互联网去实现移动互联网数据业务使用的完整过程。移动互联网业务创造了一种全新个性化服务理念,可针对不同用户群体及用户偏好,为其量身定制差异化业务,随时随地将信息传递给用户。移动互联网兼具移动通信和传统互联网优势,但也存在某些因素影响用户选择使用业务产品。首先是感知风险,包括经济、功能、时间及心理风险等。其中影响用户使用移动互联网的关键因素是经济、功能和时间因素。经济风险的产生可能与产品本身有关,比如某网页浏览流量耗费异常或业务应用在未告知需付费的情况下所导致的用户货币损失。用户对产品的实际使用预期过高或因使用移动互联网产品而耗费过多的风险都将影响用户的体验效果。其次是感知娱乐,它对用户使用意愿产生重要影响,用户在使用产品过程中若能满足好奇心和愉悦感,用户就愿意在此类型产品上花费金钱时间。最后是网络质量,高质量的网络接入能让用户获得好的娱乐感知,好的网络质量能减少用户的风险感知,增强用户黏性。
二、目前移动互联网产品特点及市场状况分析
1、目前移动互联网产品特点。
目前移动互联网处于普及初期,业务产品不仅具高时效、高体验、高定制性,且产品市场与用户需求的适配时间缩短。因此在某些市场环境下,移动互联网产品有较强用户需求引导特征。产品内容日益丰富的同时,用户注意力和时间却是有限的,为了在竞争中扩大用户规模,获得更多用户注意力和上网时间,这需要深入研究用户行为和移动互联网产品之间的关系,以便于开发出符合用户需求的产品。根据提供方式和信息内容的不同,可将移动互联网业务分成公众信息类、个人信息类、电子商务类、娱乐服务类等。相关统计数据表明:目前移动互联网用户使用率最高的四类移动互联网产品是移动IM、手机浏览器、手机游戏和手机音乐。其中手机游戏是用户接受度最高和付费意愿最高的应用产品。移动IM次之,用户使用率为32%。使用比率相对集中的是手机浏览器、手机音乐、手机阅读等现在流行的休闲生活服务类产品。
2、目前移动互联网市场状况分析。
(1)移动互联网用户规模现状。WAP上网是当前移动互联网应用的主要方式,在整体产业规模方面,易观国际统计数据表明:2009年中国移动互联网用户规模达到21282万人。2003年至2009年间用户数经历了先减后增的过程,经历了2007年的最低值,用户规模重新扩增至2004年的一半水平。由此可得出活跃用户数变化幅度大,在移动增值业务发展初期,用户是怀着新奇的态度去接触移动互联网业务,随着用户需求多样化及现有业务同质化,用户在选择移动互联网产品时更加慎重,造成活跃用户规模减少。(2)移动互联网收入规模现状。尽管2006年至2007年移动互联网活跃用户数在减少时,但期间市场收入规模却在增加。2009年国内移动互联网市场收入规模达到388亿元,较2007年增幅达到228%。可看出国内移动互联网市场收入是呈逐年上升趋势。(3)移动互联网业务产品市场规模比例。移动互联网业务产品市场除基本数据业务SMS信息占比超过50%,其他移动增值业务中WAP、CRBT业务所占份额较大。现阶段IVR、BREW等市场规模很小,随着移动网络质量的提升,越来越多的用户将选择使用方便即时的移动互联网业务。
3、移动互联网用户行为与产品类型之间的关系分析。
通过对移动互联网用户行为特点和市场状况的研究分析,得出用户行为与产品类型之间的相互关系:(1)用户需求多样化。与传统互联网用户热衷于媒体和网游不同,移动互联网用户更注重信息服务与交流沟通。用户选择范围还扩大至手机银行、移动搜索等生活服务性强的领域。(2)应用体验整合化。目前国内移动互联网产品质量存在差异,种类和产品定位不断细分,资费不透明,用户在丰富的产品面前不易选择。用户的注意力和时间是有限的,他们期望以较少的业务获取成本来满足多元化需求。多数用户使用固定品牌的产品,以延续已有的应用体验并尝试新产品,从而明确自己的产品定位,降低体验成本和感知风险。(3)上网行为碎片化。因现有移动终端的交互性限制,上网时间、获取的信息碎片化也很明显。用户使用移动互联网是利用琐碎时间,易受外部环境干扰,所以单次通信时间较短。用户关注和获得的信息也不够全面,应用体验易脱节。服务运营商可对内容进行组织整理、提供给用户精准的信息。(4)网络带宽及资费的合理化。用户目前对移动增值业务不满意的地方是资费不透明,网速不快及应用体验不佳。服务运营商可联合移动互联网产业链上相关环节在网络带宽和资费设计方面做出改进。
三、基于用户行为的移动互联网业务产品营销模式构建
基于移动互联网用户业务使用行为及产品市场现状的理解,移动互联网业务产品的营销可围绕客户生命周期各阶段来展开。但用户在业务产品每一发展阶段的认知、接触渠道、使用体验等方面存在差异,因此可供服务运营商选择的高效营销模式也存在差异。移动互联网中的营销模式大致有无线营销、病毒营销、同道营销、位置营销、互动体验营销、草根营销模式等。通过用户行为及市场规模现状的分析,尝试构建以下几种移动互联网业务营销模式。
1、同道营销模式。
同道模式是两个以上拥有不同关键资源的企业通过战略联盟交换或联合彼此资源合作开展营销活动的模式。比如移动证券、移动支付等跨行业融合型业务。同道模式能让合作联盟中的成员以较少成本获得大的营销效果。相对地,在获得合作增效时也会因合作伙伴的偶然失误而承担更大风险,为了将风险降至最低,运营商可优先考虑选择优质品牌合作,尽可能发挥最大的品牌叠加效应。
2、互动体验营销模式。
此模式是指通过用户试用并及时收集用户的意见,使用户能够实际感知产品的品质及价值,促使用户购买的一种营销。随着移动互联网快速发展,用户交互界面日趋复杂,为了和同质业务区分开,必须在用户体验方面差异化。该模式发展方向是互联网—互动—整合,服务运营商可与网络运营商进行战略合作,通过移动互联网、手机短信等渠道直接与用户进行互动,从中把握用户需求,最终反馈到产品研发、生产过程中。此模式适用于大多数移动互联网业务。
3、草根营销模式。
草根模式利用如SNS社区、微博网站推广移动互联网业务。早期用户通过网络发表针对某移动互联网业务的体验感受,给正在选择的用户接受移动互联网业务起到正面作用。草根关键是其引导用户主动参与创造移动互联网内容及应用产品。移动IM、手机微博适合开展草根营销。尽管草根营销对业务产品推广具有较大的影响力,但对品牌的支撑度不足,草根推广业务易偏离营销目标,因此不适合品牌定位在高端用户群体的业务。
随着三大运营商的重组及3G网络建设的逐步完善,国内已全面迈入宽带移动互联网时代,移动互联网产业链上相关环节正通过不同的方式积极参与到上下游用户需求的整合过程中,并且围绕自身核心竞争力扩大自己在移动互联网市场上的份额。在开放的市场环境下,服务运营商应建立新的移动互联网时代发展战略,选择合适的业务营销模式,合理运用自身优势,建立起共赢的产业联盟机制,共同推进移动互联网产业的发展壮大,为未来的4G时代打好基础。
参考文献
[1]卢赫.国内外移动互联网发展现状及问题分析[J].现代电信科技,2009,(7):28-31.
[2]郭莹莹.移动互联网业务持续使用影响因素的研究[D],北京邮电大学,2010:28-29.
[3]栾慧.2009年移动互联网用户行为调研数据分析[R].互联网周刊,2009.
[4]李安民,陈晓勤等.移动互联网商业模式概论[M].上海三联书店,2010.
[5]武学斐.影响用户接受移动互联网的关键因素分析[D].北京邮电大学,2008:71-72.
用户行为模式 篇6
Web技术的飞速发展和Web信息的迅猛增长使得Web不再仅仅是一个信息共享和发布平台。如何在用户的Web活动中挖掘获取有价值的信息和隐含知识, 并以此提供智能化、语义化、个性化的信息服务已经成为研究热点。
随着信息化教育的发展, 数字化校园和网络教育逐渐成为人们足不出户完成教育和学习的关键领域, 各种类型的教育软件和网站层出不穷, 用户在自由浏览教育网站信息的同时出现了海量的具有潜在价值的日志信息。如何把这些教育数据转变成教育决策和教育教学活动优化等有用信息和知识, 便是E-Learning用户行为模式挖掘的意义所在。
1 Web数据挖掘
1.1 Web数据挖掘及Web用户行为模式挖掘
Web数据挖掘 (Web Data Mining) 是数据挖掘技术在Web上的应用。Web挖掘是集数据挖掘、信息检索和信息抽取多种技术于一体的研究领域。Web数据挖掘的发展源于数据挖掘, 但是Web挖掘的研究对象囊括了很多传统数据挖掘技术很难处理的数据:图像、视频、声音及网页之间的各种链接等。这些数据具有海量、异构、非结构化等特性, Web挖掘就是针对这些数据特点而进行研究并获取潜在有用信息的过程。
行为模式是指用户操作过程中所体现出来的某种规律性[1]。用户行为模式挖掘是在Web日志挖掘 (Web usage mining) 基础上的应用研究, 以网络日志为研究对象。Web日志挖掘是指从用户的访问记录中提取感兴趣内容的挖掘模式。在用户浏览Internet信息的过程中, 服务器会记录用户访问及其与客户端之间的交互信息 (包括访问的页面、时间、用户ID等信息) 并被记录在日志文件中, 包括3种类型的日志文件:Server logs、Error logs、Cookie logs。Web用户行为模式挖掘正是对这3种日志文件进行挖掘, 从而发现相似用户群体、访问模式、频繁路径等知识。
1.2 Web行为模式挖掘
目前, Web行为模式挖掘研究领域主要包括:形式化描述网络访问行为、自动获取行为特征以及发现行为规律, 研究的数据主要包括URL页面请求、页面间链接的拓扑结构、注册用户特征等[2]。常用的研究方法主要有统计分析、关联规则分析、聚类分析和频繁序列模式分析[3]。
(1) 统计分析是指获取用户行为的统计信息, 如访问时间、频率等[4]。
(2) 关联规则分析可获取用户页面访问行为间的关系。
(3) 聚类分析是指通过聚类将特征相似用户的访问行为特点归并分组。
(4) 频繁序列模式分析可以获取用户访问习惯、爱好及趋势等[5]。
通过这些分析方法获得的数据在页面导航、应用和产品推荐及公共教育服务系统的开发方面有着十分重要的作用。
1.3 用户行为模式挖掘工作流程
结合Web应用的需求, 针对用户行为模式的特点, 参照Web日志挖掘的方法和流程, 建立了用户行为模式挖掘模型, 其工作流程如图1所示。
1.3.1 数据准备
Web挖掘过程中的数据采集和预处理阶段, 旨在收集Web服务器的访问日志文件, 生成挖掘数据源, 主要包括数据清洗、用户唯一性识别和完善访问路径等。通过这些可以有效地过滤掉一些类似用户访问传输协议、错误请求和短时间内多次重复的干扰信息, 从而提高数据的纯净度、准确度和可信度。
1.3.2 用户行为建模
早期的Web应用大多以静态网页的形式呈现, 现在越来越多的应用系统转变为基于平台的, 并逐步发展成为具有实时交互性和开放性的Web服务模式。人们发现在应用这些服务系统的过程中, 理解用户与系统交互行为对于网络系统性能的提高、站点的重构以及个性化、多元化服务等具有重要意义[6]。同时, 大量实践也表明, 用户行为在时序、聚集、依赖等方面确实存在强一致性的行为特征[7]。
传统的建模方法和仅基于Web日志的访问路径建模方法缺乏对用户行为模式的动态语义信息描述, 为了解决这些建模方式存在的问题, 我们采用一种新的基于网页元数据的建模方式。根据Web用户行为的分层特性, 行为模式可分为URL访问、活动、会话3个层次。
基于分层的行为模型在用户访问序列信息的基础上增加了访问内容的局部主题、关键字等信息, 这样的行为模型不仅有助于对用户行为的分析和理解, 而且为新的网络服务系统构建提供了良好的支持。
1.3.3 用户频繁行为序列模式挖掘
用户行为序列模式挖掘是在用户行为序列模型的基础上, 根据网络行为的一般规律, 在目标用户群中通过序列模式挖掘方法, 获得频繁的、普遍的、潜在的行为序列规律。这种行为序列描述了该用户群体在网络环境下一定程度上的共性行为特征, 为后期的个性化行为预测提供了必要的支持[8]。
针对行为序列数据的特点, 对现有序列模式挖掘算法适用场合进行分析, 我们选择出一种合适的访问行为频繁序列模式挖掘算法———PreFixSpan算法。根据访问行为序列特点, 发现此算法比较适合行为序列模式挖掘。这主要是因为: (1) 行为序列的每个元素都是单向的, 便于序列投影; (2) 以活动为单位的序列模式很长, 使用此算法才能提高挖掘效率。
PreFixSpan算法是一种深度优先搜索算法, 其基本思想是使用频繁前缀划分搜索空间和投影序列数据库, 并搜索相关序列, 检查前缀子序列, 将其相应的后缀子序列投影到数据库中。该算法同时采用分治的策略, 不断产生更多个更小的投影数据库, 然后在各投影数据库上进行序列模式挖掘。
假设用户分为一个组, 根据PreFixSpan算法得到频繁序列模式为:
其中, groupid为用户组的标识, 具有唯一性。si是该组内频繁行为序列, ti为si的支持度。
1.3.4 用户行为模式聚类
Web用户访问模式聚类就是根据用户访问的公共特性进行聚类。通过聚类形成多于一个的用户簇, 这样每个簇中的用户都具有共同特性。通过对上述Web日志挖掘数据的获取, 提取用户的访问特性。
当前, 用户网络行为分类研究还处于初级阶段, 可将用户的网络行为简单分为交互行为、浏览行为、查询行为、协同行为等。然而现实生活中, 用户的网络行为模式大多是这些行为的综合。聚类技术根据被分析对象间的相似性将相同或相似的对象集划分在同一类中。根据行为序列模式在时间轴上的变化特点, 通过以序列相似性为基础的序列聚类算法对行为序列模式聚类, 实现行为序列模式类别划分。
(1) 序列相似性计算。因为网络用户行为存在着自主性和不确定性的特点, 使得用户的访问行为发生的时间有很大的差异, 普通的基于时间序列的欧几里得距离及其变形的序列相似性计算算法难以满足需要, 因而, 此处使用一种基于序列投影压缩的相似度计算方法。
以网络活动序列为例, 假设有两条活动序列si, sj, 且si= (ai1, ai2, …, ain) , sj= (aj1, aj2, …, ajm) , n≤m。则相似度计算公式如下:
sj’为sj投影压缩后的变形, t为sj’的长度, 即t=|sj’|
(2) 序列聚类算法。在行为序列相似度计算的基础上, 进行行为序列聚类, 可以采用基于K-中心聚集的序列聚类算法。
输入:行为序列集D, 预设的簇数k。
输出:k个簇的集合, 使得所有对象与其最近中心点的相异度总和最小。
方法: (1) 从序列集D中随意选取2k个序列, 组成k个初始簇, 则每个簇就包含了两个序列; (2) 将剩余的每个序列进行序列相似性计算, 寻找与初始序列的投影压缩最相似的簇; (3) 添加序列到该簇; (4) 反复迭代执行, 直到簇的大小不再发生变化。
2 Web行为模式挖掘在E-Learning系统中的应用
2.1 E-Learning系统
E-Learning是指通过因特网或其它数字化内容进行的学习与教学活动, 它充分利用现代信息技术所提供的、具有全新沟通机制和丰富资源的学习环境, 实现一种全新的学习方式, 这种学习方式将改变传统教学中教师的作用和师生之间的关系, 从而根本改变教学结构和教育本质[9]。目前市场上的E-Learning供应商大致分为3类:平台技术供应商、课程资源供应商和平台兼资源共同发展的供应商。E-Learning系统应用也经历了从最初的在线学习阶段, 到在线学习+学习管理阶段, 再到在线学习+学习管理+培训管理阶段, 最终发展成为现在的在线学习+学习管理+培训管理+知识管理阶段。
2.2 Web行为模式挖掘与E-Learning系统
基于Web用户行为模式的数据挖掘在E-Learning方面的应用, 就是指一个将来自各种E-Learning网络教学平台的日志文件所包含的潜在有用的数据转换为有用信息的过程, 这些有用信息可为教师、学生、家长、教育研究人员、教育管理人员以及E-Learning软件系统开发人员所利用, 以了解学生及其所受教育的情况, 并据此采取有针对性的管理和教学优化措施[9]。
E-Learning用户行为模式挖掘过程如下: (1) 收集网络E-Learning系统服务平台用户使用数据; (2) 数据预处理; (3) 用户行为建模; (4) 用户频繁序列模式分析和行为序列聚类, 如图2所示。
实验发现, 将用户行为模式挖掘算法和流程应用在E-Learning系统的分析和挖掘, 具有很好的效果, 可以获得一些有用的数据, 进而为教育教学工作服务。
通过用户行为模式挖掘, E-Learning系统的建设者可以清楚地了解用户的需求, 建立“以用户为中心的”网络结构体系, 针对不同用户的需求“量身定做”课程设置, 使E-Learning教育系统的优势最大化, 同时提高用户满意度;网站管理者可以利用系统向用户推送一些可能有兴趣的新知识;当用户关注到下一个知识点时, 系统会建议并提供一些在学习新知识时可能会用到的知识点和相关信息, 针对不同用户的个性化学习, 定制个性化信息, 即通过用户行为模式挖掘, 建立、调整用户的喜好, 使用户能够以自己的方式来访问, 从而实现服务的个性化。不仅如此, 通过用户行为模式挖掘可以让网站的设计者不再完全依赖专家的定性指导来设计网站, 而是根据访问者的信息来修改网站的结构, 设计网站的外观, 找出优化网站组织结构的策略, 节省用户的访问时间, 节约网站的开支;通过挖掘结果还可以分析用户浏览学习的历史资料, 预测用户的需求趋势, 评估需求倾向的改变, 提高E-Learning服务系统的核心竞争力。通过Web用户行为模式挖掘知识、规律和信息, 及时调整系统课程设置和专业设置, 满足广大用户的需求, 留住现有用户, 吸引更多用户。
3 结语
Web行为模式挖掘是在Web数据挖掘基础上发展起来的一门综合技术, 主要致力于从网络海量的、异构的、多维的信息资源中寻找有潜在价值的知识。E-Learning在我国经过十几年的发展, 其模式也在不断改变, 从单纯的在线学习发展到在线学习与在线管理相结合的模式。随着网络教育的发展, 科学安排在线学习及管理模式非常重要, 将Web行为模式挖掘运用于E-Learning系统中, 能有效地帮助网站开发者和网站管理者了解用户, 依据用户的偏好合理布局、改变管理模式以及调整发展战略, 以达到扩大影响、吸引用户和为广大用户服务的目的。
参考文献
[1]戴英霞, 连一峰, 王航.系统安全与入侵检测[M].北京:清华大学出版社, 2002.
[2]GUO L, XIANG X, SHI Y C.Use Web usage mining to assist online E-Learning assessment[C].IEEE International Conference on Advanced Learning Technologies, 2004.
[3]朱志国, 邓贵仕.Web使用挖掘技术的分析与研究[J].计算机应用研究, 2008, 25 (1) .
[4]XING D, SHEN J.Efficient data mining for web navigation patterns[J].Information and Software Technology, 2004, 46 (1) :55-63.
[5]许欢庆, 王永成.基于用户访问路径分析的网页预取模型[J].软件学报, 2003, 14 (6) :1142-1147.
[6]HOLLFELDER S, ORIA V, OZSU M T.Mining user behavior for resource prediction in interactive electronic malls[C].2000IEEE International Conference on, 2000.
[7]连一峰, 戴英侠.基于模式挖掘的用户行为异常检测[J].计算机学报, 2002, 25 (3) :325-330.
[8]郑庆华, 刘均, 田锋, 等.Web知识挖掘:理论、方法与应用[M].北京:科学出版社, 2010.
[9]葛道凯.E-Learning数据挖掘:模式与应用[J].中国高教研究, 2012 (3) :8-14.
GPRS用户行为特征分析 篇7
关键词:数据分析,GPRS网络,信令监测,用户行为特征
0 引言
随着移动通信和互联网的技术的结合,移动互联网业务成为当今世界发展最快、市场潜力最大、前景最诱人的业务,截止到2012年9月底,全球移动互联网用户已达15亿[1]。在移动互联网技术中,GPRS技术是一种基于GSM系统的无线分组交换技术,提供端到端的、广域的无线IP连接。作为现有GSM网络向第三代移动通信演变的过渡技术,它在许多方面都具有显著的优势,如传输速率高、费用低廉等。以GPRS为技术支撑,可以实现诸如电子邮件、电子商务、移动办公、网上聊天、基于WAP的信息浏览、PDA终端接入、综合定位技术等功能。目前中国移动GPRS网络已覆盖全国所有省、直辖市、自治区,网络遍及240多个城市。为更好支撑市场精细化营销工作,并同时对数据网络进行优化,各大省市移动运营商对GPRS信令监测系统建设的要求越来越高。
GPRS网络逻辑体系结构如图1所示[2]。Gn接口是GPRS网络信令监测工作中起关键作用的接口之一,对其进行监测将有效实现各大省市运营商的目标。
目前国内对Gn口的信令分析处于百家争鸣的状态,如杨斌提出的与七号信令监测系统相结合的Gn接口信令监测系统[3],还有王东提到的通过对GTP控制面和数据面相结合的研究[4],以及文献[5]中提出的集群式的GPRS核心网业务安全监测系统。本文采用的是一种专门用来解析GPRS信令面数据的系统,可以通过对信令数据进行解析和处理,并通过后续数据用户行为分析来达到信令监测的目的。
1 GPRS信令数据采集
1.1 系统部署位置
本文所实现的信令监测系统名称为GPRS信令解析系统,它是一个专门用来分析GPRS信令数据的典型协议解析系统。它提供了针对不同版本GPRS信令的分析机制,包括针对控制面流量的报文解封装、控制面消息分类处理、用户状态维护、信息分类统计和消息结果上报等等。在核心网的骨干链路,为了能够采集到用户完整的上下线信令,我们将系统部署在Gn接口GGSN (网关GPRS支持节点)一侧。部署的拓扑结构如图2所示:
其中在SGSN (GPRS服务支持节点)和GGSN部署的报文镜像设备,是通过分光器或其他方式镜像出现网真实报文数据,通过特定协议的封装后(如通用路由封装协议),将报文传输到GPRS信令解析系统所在的服务器。系统通过解析这些报文,可以实时的将用户真实的上下线情况反映在系统所产生的记录中,这些记录可存到本地的服务器,也可通过网络传输到远端数据处理中心进行分析。
1.2 系统功能模块
功能模块是系统逻辑功能的抽象概述,和真正的系统并不一定是一一对应的关系。本文介绍的GPRS信令采集系统模块如图3所示。
报文解析与分类模块负责从服务器网卡上接收报文,经过处理后将符合要求的报文传给GTP (GPRS隧道协议)消息处理模块进行协议分析。解析出来的用户和网络信息先放入发送缓存队列,由结果上报模块从队列中取出并发送给其他数据关联模块进行后续的处理。在处理信令交互的过程中,系统也产生大量的本地记录,主要是通过定时轮询机制来触发统计的记录。下面对各个模块进行简要描述
M1:报文解析与分类模块
该模块负责解析报文、并对报文进行分类,为后续处理做准备。当流量输入系统后,该模块负责判断是否为所需要的报文,如果不是则丢弃。对于所需报文,则按照协议格式进行解包、并按协议消息类型对报文进行分类,提取关键信息,统计相关内容,为下一阶段处理做准备。
M2:消息处理模块
该模块按照相关协议中不同消息类型进行协议状态维护及流转。先将不同消息类型的报文内容,提取存入相应的数据结构,然后依照协议状态,在哈希表中建立相应的状态或流转至下一状态。
M3:哈希表维护模块
系统采用哈希表来维护移动用户上下线的状态,而该模块负责哈希表中各个表项的添加、删除等操作。此外还负责哈希表之间的状态转移操作。作为协议状态的缓冲表,必须有一个专门的功能模块负责维护,否则系统无法对哈希表进行管理操作。
M4:轮询模块
该模块的主要功能是定时轮询哈希表,对表中存储时间大于超时时间的表项进行更新或删除。该模块的设立,主要是为了应对一些特殊情况的出现。这些情况一般会导致用户上下线的流程不能正常结束,这样在哈希表中就会多出一些“坏死”的状态。增加轮询模块后,对于这种“坏死”表项,轮询模块会对其进行更新和清除,避免了哈希表无限增大的问题。
M5:资源管理模块
该模块负责系统中内存资源和Socket资源的分配和回收,相对于直接由操作系统负责资源分配与回收的传统机制,该方法有更强的针对性和更好的合理性。
M6:结果上报模块
从缓冲队列中将用户上线、更新、下线的结果取出,按照预设的信息格式,将结果封装成报文发送至其它对接系统。
M7:信息统计汇聚模块
对系统中各个阶段的统计数据进行汇聚,并按类别定时导出,从而实现以状态维护和累计统计为主的系统处理功能。如汇聚累计在线人数,累计上线、下线人数等。
M8:系统日志记录模块
该模块记录系统所产生的所有行为,并按照某种规范表达出来。可以通过该日志为系统进行排错,或者根据这些信息调整系统的某些参数。该模块为系统诊断提供了参考依据。
1.3 系统记录输出
用户一旦完成上下线会话,系统都将生成相应的会话记录,由于本文只分析用户的会话行为特征,因此下面只列出用户的上下线记录的格式和内容,如表1所示。
2 GPRS用户行为特征分析
目前,GPRS信令采集系统已帮助各大省市运营商达到了流量采集的目的。在系统准确完成对真实网络的流量采集后,对这些数据进行分析也是信令监测工作的重要内容。本文主要是对系统所监控区域的在2012年3月份的输出数据而进行的分析。
用户会话的过程是指用户在上网时进行一次上线和下线的过程,其会话行为是用户最基本的上网行为,它能够反映用户的上网特征,如在线时长的变化和上网频繁度。通过对用户会话行为进行分析,将有助于探清用户产生的网络流量在数量、时间和空间上的分布,也有助于分析用户在上网时间或网络内容等方面的需求,分析结果可以为运营商的网络优化和服务定制提供有力依据。
2.1 在线人数随时间变化
GPRS信令采集系统统计记录的频率为5分钟,即将一天的时间分为288个时间点,通过对这些时间点的数据进行分析,我们能够揭示移动互联网在线人数随时间的变化规律。
通过对系统产生的大量统计记录进行对比,发现所观测的在线人数变化在一个月内的四个星期基本保持一致,选取其中的一周(2012年3月5号0点至2012年3月12号0点)在线人数变化绘成分布如图4所示。
由图4可知,一周之内用户的在线人数随时间的变化趋势基本相似,但是周末的在线人数和工作日略有不同。
工作日和周末出现在线会话数最大和最小的时刻基本相同,最大出现在19点30分附近,而最小出现在凌晨5点附近。在线人数从晚上23点之后处于减少的状态,且一直持续到凌晨5点。而在白天,从凌晨5点到中午12点,在线人数一直处于递增的状态,在中午12点半左右达到局部的最大值,但随后在线人数又出现小幅度的下降。从下午2点左右一直持续到晚上19点半,又出现在线人数增加的情况。可以看出在线人数的这种变化趋势,和人们的日常生活作息有极大关联,如今GPRS网络已成为人们日常生活获取娱乐和新闻的重要手段,因此不难理解这种变化趋势:从晚上22点到次日5点,无疑是人们睡觉休息的时间,人数必然会减少。从早上7点开始,会话数快速增加,说明人们日常工作的开始。到中午12点出现一个小高峰,有可能是因为人们利用午餐休息时间用手机进行上网娱乐,下午的低谷说明人们正忙于各自的工作。而晚上22点的在线人数高峰,是因为人们在睡前可能再次用手机上移动互联网进行新闻浏览。
可见,人们的日常作息影响着移动网络的流量,而我们在对网络流量进行监控后,针对负载的变化而采取相应的控制,以确保网络的稳定运行。
由图还可以知道,虽然工作日和休息日的在线人数变化趋势基本相似,但是在数量上还是存在差异。周末凌晨的时候比工作日同一时间段的人数多,可能是因为GPRS用户更倾向于在周末熬夜休闲或工作。而在白天,周末的用户数比平常的用户数少,可能是因为用户多用其他方式接入到互联网居多。
为了更进一步的分析在线人数在一天的内的变化趋势,本文把此周的工作日和周末各数据点分别算出平均值,对比工作日和周末的一天内在线人数的变化如图5所示。
对比可知,休息日相对于工作日变化幅度较小。在凌晨5点的最低点,工作日平均在线人数为504291,而休息日的平均在线人数为521274。在晚上19点30分的最高点,工作日平均在线人数为784639,休息日平均在线人数为781152。下表是对工作日和休息日的统计量进行描述,并且计算了他们之间的Pearson相关性。在统计学中,Pearson相关性是用来检查两个变量X和Y之间是否有相互关系(主要是线性相关),它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础上发展起来的。两个变量之间的Pearson相关系数定义为它们的协方差与它们方差积的商,即:
Cov(X,Y)是X与Y的协方差:
分别是X、Y的方差
由上述的定义可知相关系数的取值范围在[-1,1]的区间内,系数大于0则说明变量存在正的相关关系,小于0则表示存在负的相关关系。当相关系数接近1时,说明两个变量之间存在较强的相关性。
通过数据处理,算出工作日和休息日的相关系数如表2所示。
可以看出,工作日的变化幅度较休息日大,但是均值比休息日小,从Pearson系数可知它们的相关性很强,因此它们的变化趋势相近。
2.2 用户上下线随时间变化
我们以5分钟为粒度一天划为288个时段,然后统计每个时段内用户的上下线情况。监测用户的上下线情况有助于我们进一步了解用户的总体行为规律。
由于一周内每天的变化趋势都相似,因此任意选取某天内用户的上下线情况绘成分布如图6所示:
可以看出,上下线的人数也随着时间变化有着相应的规律,上下线人数在凌晨4点到5点间达到低谷,从凌晨5点到上午9点左右上下线人数均有上升的趋势,其中上线的人数较多。在上午10点左右,上下线人数均达到最大值,说明此时用户的上下线活动非常频繁,随后上下线人数趋于稳定。直到晚上20点,下线的用户数比上线的用户数较多,这也与在线人数分布相符合。
为了更清楚地分析上下线人数和在线人数之间的关系,现将在线人数、上线人数和下线人数进行数据标准化,绘出它们的分布如图7所示:
由图7可知,在晚上10点半到凌晨4点的时段在线人数是逐渐下降的,且下降幅度越来越小,上线人数和下线人数也呈下降趋势,且下线人数稍高于上线人数,这说明此时段很多用户开始准备休息。4点到6点期间,在线人数趋于稳定,此时也是一天中在线人数最少的时刻,同时,上下线人数大小也基本保持一致,两条曲线保持重合,数值也是全天中最小值。这说明此时段大部分用户已经休息,而有少部分用户仍然在通宵工作或娱乐。从6点到12点的时段,在线人数大幅度上升,一直达到极大值,且上升幅度先增大再减小,上线人数与下线人数也在上升,上线人数一直稍高于下线人数,这说明此时段用户陆续开始一天的工作和娱乐;6点到9点的时间段内上下线人数与在线人数同时大幅度增加,但上下线人数增加领先于在线人数的增加,此时段人们多在上班的路上,8点到9点期间上下线人数达到最大,在线人数仍然在继续增加,但增加幅度开始逐渐减小,此时段恰好大部分用户刚开始上班,同时也说明会话中存在着大量的短连接,即用户上线后很快下线,关于这个情况会有后续分析。
中午12点到晚上21点的时段,在线人数虽有波动,但变化不大,曲线没有较大起伏,上下线人数曲线一直处于重合状态,对在线人数基本无影响。另外,下午12点到16点,虽然在线人数没有大的变化,但是用户上线人数与下线人数比较少,可推断是因为此时段是上班时间,用户的上下线减少,在线用户中存在较多长会话。下午16点到19点左右,在线人数变化较小,但上线人数与下线人数变化较大,达到一天中极高值,这可能是下班期间,用户在回家的路上用手机上网而导致,人数无大变化说明存在较多的短会话。晚上19点到21点,在线人数保持平稳,但上下线人数较之前减少,此时间是用户吃完晚饭进行晚上工作或娱乐的时间段,因此上下线情况较为稳定,可推断有较多的长会话。晚上21点之后,在线人数逐渐减少,且下降幅度越来越大,下线人数稍高于上线人数,且上下线人数差值也越来越大,这说明大部分用户陆续开始休息。
2.3 用户在线时长分析
根据GPRS隧道协议,本文中定义的用户在线时长为:从GPRS信令采集系统接收到用户的创建响应报文(即用户成功创建PDP上下文)开始计时,到接收到删除响应报文为止的时间间隔[6],在线时间的单位为秒。
通过对一天之内的用户在线时间做统计发现,用户的短连接次数较多,而长的在线时间较少,图8是以5分钟为时间粒度,描绘出用户的在线时长分布图。
图8中,为更清楚的展现会话数与在线时长的对应关系,横坐标与纵坐标均取以10为底的对数值。我们可以看出,会话数与在线时长的分布属于重尾分布,随着在线时长的增加,会话数在不断减少。其中在线时长大部分集中在短的时间段内,说明会话中存在着大量的短会话。也存在多达几天的在线时长,但是这种情况相对较少。表3是计算出的用户在线时长占比表。
3 结论
本文通过分析由GPRS信令采集系统获得的真实移动网络数据,得到了网络所在地的用户会话行为特征规律。文章分别对在线人数、用户的上下线人数、用户的在线时长以及各个指标之间的相关性进行分析。得出了以下结论:移动用户的上网习惯与日常生活规律密切相关,工作日与休息日的在线与上下线分布规律都相同;移动会话多为短连接,在线时长与会话数呈重尾分布,这对运营商进行流量控制具有积极的意义。
参考文献
[1]中国互联网络信息中心(CNNIC).第30次中国互联网络发展状况统计报告[Z].北京:中国互联网络信息中心(CNNIC), 2012. ??CNNIC.The 30th statistical report on internet development in China[Z].Beijing:CNNIC,2012.(in Chinese)
[2]文志成.GPRS网络技术[M].北京:电子工业出版社,2005. WEN Z C.GPRS Network Technology[M].Beijing: Publishing House of electronics industry,2005.(in Chinese)
[3]杨斌.移动通信网中GPRS中Gn接口的信令协议分析[D].重庆:重庆大学,2003 YANG B.The Gn Interface Protocol Analysis In GPRS Of Mobile Communication Network[D].Chongqing: University Of Chongqing,2003.(in Chinese)
[4]王东.GTP协议的安全威胁以及防护方案研究[D].北京:北京邮电大学,2010 WAND D.Threats On The GTP Protocol And The Protection Design[D].Beijing:Beijing University of Post and Telecommunications,2010.(in Chinese)
[5]吴祖光,邹仕祥,徐子平,叶乐,黄标.GPRS隧道协议研究与GPRS模拟环境实现[J].军事通信技术,2012,33(1): 76-80. WU Z G,ZOU S X,XU Z P.GPRS Tunneling Protocol and Implementation of GPRS Simulation Environment[J]. Journal of Military Communications Technology,2012,33 (1):76-80.(in Chinese)
用户行为模式 篇8
关键词:电子商务,鼠标行为,异常检测,身份认证,特征向量
1 引言
随着互联网的发展,电子商务已经成为人们日常生活不可缺少的部分。然而由于网上交易和网络支付平台的迅速兴起,网络支付安全体系尚不健全,网络购物人数不断增加,各种消费欺诈、用户信息泄漏问题频出[1,2]。网络交易中用户的身份验证普遍采用数字证书的方法[3],但是数字证书使用的用户名、密码等信息易泄露,这种方法并不能很好地解决用户身份可信的问题。
本文研究了通过用户行为模式进行身份认证的方法,提出利用鼠标行为认证的方法,对电子商务中用户购物行为的安全性加以保障。在以往的案例中,对用户行为的建模研究多运用于个性化推荐等方面[4],旨在提升用户的网购体验。本文的方法以电子商务活动中用户的购物行为所产生的鼠标行为数据为研究对象,根据用户特有的鼠标行为进行抽象建模,固化合法用户的鼠标行为模式,进而通过模式匹配判断新的购物行为是否属于异常行为。该策略无需辅助设备,可直接部署使用,不存在硬件设备的时效性和携带不便问题,便于优化用户操作体验。
2 基于鼠标行为的异常行为检测方法
2.1 异常行为检测原理
用户在电子商务网站实施的操作是多样化的:登录网站,浏览选购商品,加入或清空购物车,提交或取消订单等。在讨论用户异常行为时,类似于清空购物车,取消订单等的行为,对用户的钱财不会造成损失。所以本文选择了对用户利益可能有实质性伤害的有序行为,即要购买某个商品必须操作的流程,进行分析。
可以把这些流程抽象成一个类似自动机的模型。自动机有状态集,初态,终态,输入字符和转移函数,在某个状态下,输入某个字符,根据转移函数就转移到相应的状态[5]。图1 表示了抽象的类自动机模型。该“类自动机”可以表示为5-元组D=(Q, ∑, δ, q0, F),其中:
(1) Q是非空有穷集合,称为状态集。图1 中用圆角矩形表示,每个圆角矩形表示一种状态。
(2) q0是开始状态,就是说类自动机在还未处理输入的时候的状态。图1中初始状态为“未登录”状态。
(3) F是终止状态集合(F⊆Q)。图1 中终态有两种,即两种判断结果状态:正常与异常状态。
(4) ∑ 是抽象符号的有限集合。图1中,∑={0,1}。字符1抽象表示满足一定的条件,0表示不满足该条件。
(5) δ 是状态转移函数。
在此模型中,当输入字符为0 时,即该阶段的鼠标行为特征向量不匹配时,则当前状态直接转移到终态集中的异常状态,判断出当前用户行为是异常的。只有每次输入的抽象字符是1,即每个阶段的鼠标行为特征向量都匹配时,才能最终转移到终态集中的正常状态,判断出当前用户的行为是正常的。综上所述,检测异常行为的过程就是运行该“类自动机”的过程。
运行上述“类自动机”过程中,最重要的环节是判断每个阶段的输入符号为1 还是0,即每个阶段的鼠标行为特征向量是否匹配,具体地可以这样操作:利用该阶段时用户的鼠标行为数据,通过数学运算得到鼠标行为特征值,并利用基于欧式距离的K-Means聚类算法生成当前用户鼠标行为特征向量,并与之前根据训练阶段所采集的鼠标行为数据分析生成的正常用户行为特征向量,进行匹配,超过一定的阈值,则可以判断出当前行为属于异常行为,否则为正常行为。整个过程如图2 所示。
2.2 鼠标行为特征向量定义和匹配
考虑到在一般的电商网站中,很少或基本不会进行双击操作,所以主要采集鼠标单击和移动两种操作产生的数据。单击时采集数据项有:网站页面序号,X、Y轴坐标值,时间戳,其中网站页面序号这个数据项代表了用户购物的状态,表示用户进行到登录、浏览、下单等几个阶段中哪一步。使用上述数据项,通过数学计算可得到单击时间间隔,单击范围分布等。在采集移动鼠标数据时,需要预先设定一个采样率[6]。移动时采集数据项包括:网站页面序号,X、Y轴坐标值,时间戳。通过这几项数据,后续可以计算出移动速度,加速度,移动角度值等特征属性。
K-Means聚类算法是一种迭代的聚类算法,该算法事先设置K值,算法的结果是将数据划分为K个簇集和相应簇心。每个簇集的簇心就是该簇集中所有数据的均值,物理意义就是簇集中数据的行心[7]。
鼠标行为特征向量的设计,可以利用上述采集到的特征属性值和K-Means聚类算法。考虑到应用环境为电子商务购物网站,在购物过程中每个状态跳转都可以定义独特的特征向量。具体地,如在图1 中从“未登录”状态转移时,考虑到每个用户的手速和操作习惯等不同,可以把单击时间间隔均值及其标准差作为特征向量的一部分;另外,单击区域也因人而异,可将采集到的大量单击点坐标,通过基于欧氏距离的K-Means聚类算法,得到最密集簇的簇心坐标作为特征向量的一部分。其余的状态转移时设计的特征向量类似于上述内容,故不再赘述。
特征向量的匹配,则需要计算特征向量间的距离。考虑到特征向量中的各个特征分量的数量级和单位不同,可以先对特征向量中的各个特征分量做归一化处理,然后求特征向量之间欧式距离。若该距离超过一定的阈值,则可以判断出待测的特征向量异常,检测流程直接跳转至异常状态,拒绝该用户的后续操作。具体如图3所示。
3 实验结果分析
实验有6名用户参与,采集这些用户在购物网站中产生的鼠标行为数据,生成行为特征向量,使用上节所述的检测方法进行用户身份的识别。实验中采用Failed Acceptance Rate(FAR,漏检率)和Failed Rejection Rate (FRR,误检率)[8]两个指标进行效果分析。最终实验结果如表1所示,从表中数据可以得出:该方法的平均FAR为10.50%,FRR为9.72%,说明系统可以较好地识别用户,检测出异常的用户行为。
4 结论
本文针对电子商务中频繁的用户身份冒用现象,给出了利用用户鼠标行为特征进行用户身份认证,进行用户行为异常检测的方法。该方法不需要额外的硬件辅助,只需要在购物网站中嵌入代码采集用户鼠标数据就可以对用户身份进行识别。同时用户鼠标行为特征信息区别于传统的用户名密码信息,具有独特性、不易模仿性和不易盗取性,运用到电子商务用户身份认证领域,具有一定的实用价值。
参考文献
[1]胡伟雄.电子商务安全与认证[M].北京:高等教育出版社,2010.
[2]中国互联网络信息中心.第31次中国互联网络发展状况统计报告[DB/OL].(2013-01).http://news.xinhuanet.com/tech/2013-01/15/c_124233840.htm.
[3]朱玲玲.网络安全中的用户身份认证机制[J].中国科技信息,2006,1(1):46-47.
[4]吴胜兵.Web数据挖掘的应用与研究[M].南昌大学,2007.
[5]Hopcroft J E,霍普克罗夫特,Motwani R,et al.自动机理论,语言和计算导论[M].机械工业出版社,2004.
[6]Pusara M,Brodley C E.User re-authentication via mousemovements[C]//Proceedings of the 2004 ACM workshop on Visualization and data mining for computer security.ACM,2004:1-8.
[7]Machine learning:An artificial intelligence approach[M].Springer Science&Business Media,2013.
用户行为链背后的大数据实效营销 篇9
在大数据时代,要真正实现精准营销并非易事,对传播媒介来说有很高的要求。该如何利用大数据为广告主带来商业意义上的“实效”呢?
奇虎360首次提出了“大数据实效营销”的概念,并一举推出“360实效平台”、“360聚效平台”以及“360来店通”三款重磅产品,以及第三方数据实效评估维度——“中国实效指数”,开始向实效营销的蓝海迈入崭新而稳健的一步。
“行为链”精准描绘用户
互联网营销瞬息万变,越来越多的传统品牌开始把营销阵地转向互联网,尤其是大数据浪潮来袭,整个营销行业开始朝着实效趋势转变。如何才能真正做到实效?
企业借助大数据搜索,虽然可以获得一些用户信息,但是也难免出现偏差,比如,“宅男搜索女士服装,不代表有实际生活需求”,如果企业以这样的判断标准势必会影响销售结果,企业拥有这样的样本数据无法反映目标消费群体的特征,“实效”将大打折扣。互联网企业都提出不同的数据链接导向。比如,百度搜索数据可以构成“需求链”,阿里购物记录可以构成“购买链”,腾讯的通讯记录可以构成“社交链”,奇虎360则提出了“行为链”。
360的“行为链”是指依托于360旗下PC端、移动端和智能硬件等全线产品,以及海量的用户基础,可实现PC、无线、现实生活坐标等多触点的数据搜集。这些数据涵盖了浏览、搜索、下载、购买、到访等行为,从而可以刻画出地域、年龄、性别、职业、收入等在内的用户画像,并分析出用户的精准兴趣点,勾勒出更加真实的用户画像,使得大数据的样本更加贴近用户本来面目。通过行为链可更加精准地筛选目标消费人群,能够精准洞察目标人群与整合用户数据,使之成为精准营销的先决条件。奇虎360高级副总裁于光东表示:“360在PC端拥有4.6亿用户,手机端用户超过6.4亿,市场渗透率93.9%,行为链在营销应用层面代表的是每一个广告客户在后台和用户之间产生的互动。360所拥有的全行为链数据未来会向所有客户全面开放,这是360大数据一个非常重要的影响力。”
大数据为实效提供保障
360之所以具备大数据实效营销能力,因为360拥有总计超过6亿的互联网用户,日均处理数据50TB,行为数据链更具多样性,这恰恰是广告主需要的。360会通过大数据实效平台,将数据免费开放给广告主查询,甚至联合第三方监测机构做详细的分析报告。广告主可以通过这些数据不断满足用户的商品和服务需求。
360大数据实效平台,真正帮助广告主精确定位了目标受众,从而既能对目标受众进行更深入的研究分析,又可以实现精细、精准的定向投放。同时,360大数据实效平台还能够依托第三方的权威平台,实现更客观公正的效果评估,这些环节形成闭合式的链条,将为广告主创造真正意义上的实效营销。
在于光东看来,360的大数据实效营销平台则为品牌营销的创新与实效提供了基石保障。“只有使大数据样本更加贴近用户本来面目,才能让品牌广告主具有全局准确的了解,进而助力营销决策,为品牌营销做出创新的解决方案。”基于此,360公司联合中国艾菲推广委员会共同推出了第三方数据实效评估维度——“中国实效指数”,该指数将提供市场全面实时监测和广告实效分析,将成为品牌主、营销代理机构、媒体、数字营销机构等极具价值的实效评估参考依据。
当前,包括通用汽车、宝洁、肯德基等众多知名品牌,已纷纷将营销重点放到大数据实效营销上。依托于超过6亿的互联网用户、渠道力量优势与大数据优势,360紧紧围绕用户、品牌、媒体三个方面,正在重新塑造互联网营销生态体系。
互联网用户异常行为检测 篇10
入侵检测[1] (Intrusiondetection) 作为一种主动的防御技术被期望实现对网络攻击的全方位检测。ADAM[2], MADAMID[3]和MINDS是采用关联规则的经典算法。ADAM算法主要使用单层关联规则挖掘模式寻找连接记录各属性之间的关联关系, 使用多层关联规则挖掘模式来发掘IP地址的高层抽象的关联规则, 随后将设计全程变量记录某些特征属性的统计值, 但是算法是对已知攻击特征的理解和分析, 并不能为发现新的入侵特征提供支持。MADAMID算法利用挖掘到的频繁模式进行特征构造, 使用分类学习算法进行入侵检测。但是, 所构造的特征只是有限的几个统计模式, 没有构造出新的特征和未知的模式。MINDS使用无监督技术, 对每个网络连接设置一个值, 用来反映每个连接的异常度, 对标记很高异常度的网络连接进行关联模式分析发现异常行为, MINDS存在需要训练集进行分类和只分析数据的头部而没有分析负载数据的问题。由于传统的基于关联规则技术的入侵检测算法是对全部历史数据进行等同学习, 不能准确反映网络的行为特征, 另外, 网络数据具有海量、数据持续到达等特点, 上述算法进行关联模式挖掘需多次扫描数据信息, 无法适应网络数据流信息的特征。
基于前面的分析, 入侵检测系统 (IDS) 行为度量存在如下不足:传统的IDS主要是监测用户的系统行为日志, 根据用户的行为/事件的输入/输出进行监测或预警。其典型的异常行为监测模型基于系统调用序列异常模式和参数的检测方法[4]。这类方法的主要缺陷为:一方面没有全面地对行为进行度量, 通常只注重网络访问者用户系统行为, 而忽视对网络行为的监测;另一方面基于监控系统行为日志的异常行为监测实时性不高, 并且存在较高的误判率。当前的入侵检测是一种后置检测, 缺乏动态适应性。因此本文提出行为的定义, 对网络行为进行异常分析, 针对不同的应用场景采用基于向量空间和语义的行为异常检测算法。仿真实验表明与传统的入侵检测方法相比, 本文方法有较好的环境适应性和较低的误判率。
1 异常检测总体框架
异常检测的对象一般是本机当前的一段行为序列, 记为q, 通过一定的方法, 来判断序列q是否存在异常。在判断过程中可以利用的资源有本机的历史行为序列h, 以及本机所在网络环境的群体行为序列集合c。异常检测作为一种模式判定应用, 往往存在一定的误判, 因此需要从多角度对行为进行检测, 综合做出判断, 以降低误判的几率。为了达到这个目标, 本文提出了一种二维异常检测框架来实现综合判断目标。一方面, 将本机上的当前行为序列和该机上的历史行为序列进行模式匹配, 检测其在纵向的时间维度上是否存在异常;另一方面, 将本机上的当前行为序列和该机所在环境的群体行为序列进行模式匹配, 检测其在横向的群体维度上是否存在异常。最终, 将两个维度上的判断按照统一的参数模型融合起来, 做出综合的异常判断。具体过程如图1所示。
网络行为定义:社会学中[5]认为, 行为是人类在生活中表现出来的生活态度及具体的生活方式, 它是在一定的物质条件下, 不同的个人或群体, 在社会文化制度、个人价值观念的影响下, 在生活中表现出的行为的基本特征, 或对内外环境因素刺激所做出的能动反应。因此, 网络中用户的行为可以由4个基本要素构成, 即网络行为承担者、行为环境、行为目的、行为动作, 具体描述如下。
1) 行为的承担者。
网络中用户的承担者的发起者包括两个要素:发起者的ID, 发起者受体的ID可以用二元组P= (ID, ID') 进行描述。
2) 行为的网络环境。
用户行为的网络环境包括网络行为发生的时间、用户行为所涉及的通信协议、周围用户的状态和用户客户端本身所运行的进程。因此, 用户行为的网络环境可以描述为四元组:E= (HT, CP, PR) , 其中:HT表示网络行为发生的时间;CP为用户行为所涉及的通信协议集合, P= (P1, P2, …, Pn) ;PR为用户的进程集合, PR= (PR1, PR2, …, PRn) 。
在本文提出的模型中, E= (HT, CP, PR) 。
3) 行为目的。
网络中用户行为目的是指用户根据自身的需要, 借助计算机网络作为中介, 预先设想的行为目的。在现实的计算机网络中, 可以映射为用户所需要获取的资源和服务, 可以用如下序列描述M= (S1, S2, …, Sn, π1, π2, …πm) 。其中S1, S2, …, Sn为用户想要获取的服务, π1, π2, …, πm为用户想要获取的资源。
4) 行为的操作序列。
用户行为的操作序列定义为O= (a1, a2, …, an) 。
行为的4元组为 (P, E, M, O) , 该4元组使用下面论述的向量空间归一化操作, 可以映射到n维空间中的一个n维向量。
2 基于向量空间的检测方法
不同的网络环境中对行为预期要求的严格程度不同, 对计算速率要求也不一样。例如生产型信息系统所在的网络中, 要求用户的输出必须落到预期的输出范围内, 而且对实时性要求很高。根据文献[6]中所述, 对生产型信息系统本文采用基于向量空间的检测方法。
在建模阶段, 每段文本都被看作一个词元集合, 通过统计词频 (term frequency) , 其被转换为一个词频序列。在本文中, 网络行为序列有着和文本相似的结构, 其中以行为作为维度来构筑向量空间, 行为序列是分析的对象, 将被映射到空间中形成对应的行为向量。
当网络行为序列被映射为向量空间中的行为向量后, 我们就可以进入匹配阶段来计算行为序列之间的相关度了。顺理成章地, 向量的空间距离是衡量行为向量两两之间的相关度的合理指标。实际应用发现, 在空间距离匹配体系里, 序列的长度往往会影响到相关度的衡量。例如, 两个本来很相似的行为序列, 其中一个序列由于记录的时间较长而比另一个序列长了好几倍, 从而映射为行为向量后, 每个行为维度上的取值都比另一个序列按比例高了好几倍, 其在空间中的表现就是这两个行为向量方向相近, 但是长短差了很多, 如果直接用空间距离来表征相关度, 就会显示这两个序列相关度很低, 而带来很大的误差。因此, 在计算空间距离前, 一般需要对向量进行归一化, 可以解决向量因为长度不一而在匹配上带来的误差。归一化之后, 由于向量之间的空间距离和两者之间的夹角是正相关的, 而向量夹角又是与向量点积正相关, 所以一般选用向量点积来表征向量的匹配度Sim:
其中, Vq, Vh分别表示两个向量。通过模式匹配算法得到当前序列和历史序列之间的匹配度Sim (q, h) 以及当前序列和群体序列集之间的匹配度Sim (q, c) 之后, 我们通过融合算法将两者进行结合, 得到总的匹配度, 以做出异常决策。在这里, 融合过程本质上是一个插值过程, 选用比较流行的线性插值法即可, 其形式为:
其中参数a可以通过训练方法来确定。
3 基于语言空间模型的检测方法
对于普通的网络环境, 异常检测的计算应该符合通用性原则, 根据文献[7]所述, 基于语言空间的异常行为模型具有通用性的计算特点, 因此通用网络环境, 本文采用基于语言空间模型的检测方法, 本方法的建模方法以行为作为基本单位对序列进行频率统计, 并按照倒文档频率行为进行信息量加权。同时, 相较于空间向量模型的建模过程, 本方法在建模对象和建模上存在两点不同。在建模对象上, 本方法只针对以序列或序列集为特征的某个主体进行建模, 在本框架中, 只对本机历史序列h和群体序列集c进行建模。在物理意义上, 与空间向量模型中不同的是, 序列在本方法中的建模结果不是一个空间向量, 而是一个统计概率模型。以本机历史序列h为例, 其中每一个行为t在模型中都有一个对应的产生式概率p (t|h) , 也即在以序列h为特征的本机主体发生行为t的概率为p (t|h) 。同理, 群集行为集c的建模结果为p (t|c) 。
值得注意的是, 在序列h或是序列c中没有出现的行为t, 原则上p (t|h) 或是p (t|c) 的值是0, 但为了计算的合理性, 都对其做一定程度的平滑, 用一个很小的概率θ来代替0。这些θ值一定程度上会影响到模式匹配时的相关度计算, 因此我们在本方法中采用先融合、后匹配的顺序, 通过融合算法, 将θ值的数目尽可能减少, 以提高计算的准确度。为了达到上述目的, 这里采用Bayes插值的方式来进行融合, 其表达式为
其中, Tt│h为事件t在历史序列h中的频率, Len (h) 为历史序列h的长度, 而p (t|h) 为Tt│h/Len (h) , a为插值参数, 可以通过训练确定。
通过融合算法得到统一的产生式模型p (t|hc) 后, 就可以通过匹配算法计算相关度了。在产生式模型里, 对于当前的行为序列q, 以模型h、c产生该序列q的概率p (q|hc) 作为相关度表征, 表示成公式为
其中Tt│h为ti行为在q里发生频率, p (ti|hc) 为模型hc产生行为ti的概率。在本匹配算法里, 当前序列q里的行为ti若在历史序列h和群体蓄力集c里都很少发生, 说明本行为不是很正常, 若q含有的不正常行为越多, 则该序列是异常的可能性则越大。
4 实验仿真
本文的仿真实验主要模拟具体的应用场景及用户之间的交互行为。随着信任模型研究的增多, 为了评估信任模型在P2P (点对点) 环境、Adhoc和普适计算环境中的效果, 本文通过不同的场景来验证本文提出的方法的有效性、效率和环境适应性。
本文通过Net Logo模拟软件仿真了一个网络环境来对本文的提出的用户行为预测模型及其算法进行性能分析, 试验环境为Intel core双核2.66 GB, 内存2 GB, Win7平台上使用Net Logo对网络环境中的实体行为进行仿真。表1为实验参数。
1) 实验中实体有2种角色, 分别为普通用户和服务器, 服务器对用户行为的评估的和用户自身对行为的评估独立进行, 不受到其他用户的影响;
2) 实验中设定了个体最小相似度为λ=0.7, 如果相似度小于0.7就认为当前行为和个体可信行为不相似;
3) 行为预测评估模型中的n1、n2、N分别初始历史行为的数量和群体行为的数量以及网络环境中的实体数目, 上述参数的设定与具体的网络应用场景有关。
通过对网络用户的行为的度量, 来判断该行为是否是攻击行为, 从而进一步确认该网络访问者是否是可信的。下面说明了个体可信行为特征库可信行为数量的增加对行为判断正确率的影响。设在Δt时间内, 系统检测了用户的可信行为有x (t) 个, 恶意行为有y (t) 个, 设该群体中的已经判断为恶意用户的比例为α, 那么MR (恶意行为成功检测率) 可以描述为
本文模型和文献[7-8]中提到的传统的入侵检测机制进行比较, 图2和图3是根据群体中被感染的个体百分比来来进行MR的比较。
从模拟的结果来看, 本文方法比传统的方法更能有效地检测出恶意行为, 从而能更有效地保护网络中的用户群体。
参考文献
[1]罗守山, 温巧燕, 杨义先.入侵检测[M].北京:北京邮电大学出版社, 2004:47-48.
[2]BARBARA D, COUTO J, JAJODIA S.ADAM:A tested for exploring the use of data mining in intrusiondetection[J].SIGMOD, 2001, 30 (4) :l5-24.
[3]STOLFO S J, LEE Wenke, CHAN P K, et a1.Data mining based intrusion detectors:An overview of the Columbia IDS project[J].SIGMODRecord, 2001, 30 (4) :5-14.
[4]ITU-T Recommendation X.509.Information technology.Open systems interconnection.The directory:Public-key and attribute certificate frame works[S].
[5]王瑞鸿.人类行为与社会环境[M].上海:华东理工大学出版社, 2002:1-12.
[6]BUDANITSKY Alexander, HIRST Graeme.Semantic distance in word net:An Experimental, Application-oriented evaluation of five measures[EB/OL].[2013-02-18].ftp://ftp.cs.utoronto.ca/pub/gh/Budanitsky+Hirst-2001.pdf.
[7]WUU L C, HUNG C H, CHEN S F.Building intrusion pattern miller for Snort net work intrusion detection system[J].Journal of Systems and Software, 2007, 80 (10) :1699-1715.
【用户行为模式】推荐阅读:
Web用户行为模式05-16
用户上网行为06-06
用户浏览行为08-01
网络用户行为挖掘06-01
用户移动行为论文06-11
用户资源使用行为08-14
用户行为习惯分析报告10-22
用户用电行为分析技术07-21
中国笔记本电脑市场用户消费行为调查报告09-25
健康行为模式08-24