用户行为推荐

2025-01-30

用户行为推荐(共10篇)

用户行为推荐 篇1

1 个性化服务推荐

1.1 研究背景

“经营规模化, 服务个性化”是广电运营网络追求的理念, 广电业务的发展, 逐步向给用户提供个性化服务的方向发展。所谓个性化信息服务是指能够满足用户的个体信息需求的一种服务, 即用户可以按照自己的目的和需求, 在某一特定的功能和服务方式中, 自己设定信息的来源方式、表现形式、特定功能及其他的网上服务方式等, 如电视上开机画面的个性化、应用菜单的个性化;在数字电视的平台上, 今后的内容也是像互联网一样是一种海洋, 用户自己是找不到的, 但是我们可以给他推荐, 基于用户的搜索、点播、下单、选台等操作习惯, 挖掘家庭用户的偏好, 使之享受个性化的服务。

北京歌华、杭州华数、青岛有线、深圳天威等有线电视运营商依托双向数字电视网络, 在家庭电视终端上积极开展高清电影、点播互动、电视购物等数字家庭服务新业务, 提供家庭用户在使用基本音视频服务的同时获取灵活的、个性化的媒体服务和信息服务, 提升了百姓媒体化、信息化生活的品质。当前运营商在获取家庭用户需求、聚合服务资源、个性化服务智能推荐等方面不能适应融合业务运营和精确化管理的要求, 因此非常有必要进行家庭操作行为分析与个性化服务智能推荐方面的技术研究, 利用研究成果, 结合电视购物、音视频点播等典型应用实践个性化服务推荐, 有利于发掘新的业务增值点, 加速推进新业务, 从而为广电运营商带来新的经济增长点, 提高广电运营商的竞争力, 在现有条件及环境下推动广电行业发展。

1.2 技术需求

广电运营商逐渐为用户提供了一个融合通信、信息服务和增值业务的多业务环境, 向家庭用户提供个性化服务正成为广电运营商努力的目标。当前运营商在获取用户需求、聚合服务资源、智能推荐等方面不能适应融合网络数字家庭服务运营的要求, 因此家庭用户操作行为分析与个性化服务智能推荐技术研究需要在以下几个方面开展工作。

一是家庭用户个性化需求获取方法研究工作, 目前在融合网络环境下家庭服务模式和业务形态多种多样, 在满足用户不断提高的个性化服务需求方面, 首先需要获取数字家庭用户在服务功能、服务属性 (如价格、品牌、质保等) 和服务质量 (如反映时间、可靠性等) 等方面的需求, 因此需要研究家庭用户个性化需求的获取方法挖掘用户的需求。

二是服务资源聚合方法与技术研究工作, 家庭服务资源种类繁多, 在了解了用户的个性化需求后, 需要为用户提供相关的服务资源, 因此需要对服务资源的关联关系、语义关联关系等因素进行聚合分析, 为用户的智能推荐提供技术支持。

三是数字家庭智能推荐技术与系统研究工作, 对用户感兴趣的服务资源进行智能推荐是为用户提供个性化服务的重要手段, 因此需要研究智能推荐技术并开发相关系统为用户提供智能推荐服务。

1.3 研究现状

服务资源关联聚合与个性化服务方面面向用户提供个性化服务是运营商保留用户、巩固与开拓市场的重要手段。面向用户个性化的智能推荐技术已成功应用于互联网领域, 包括基于内容的过滤技术、协同过滤技术、基于知识的推荐技术, 学术界刚开展Web服务组合推荐理论研究, 综合考虑用户对Web服务和质量的均衡需求。电视领域开展了基于显性用户特征的节目推荐系统的研究。目前服务关联与聚合研究主要集中在对服务组合的正确性和系统开销的减少两方面, 没有专门针对家庭服务领域的服务资源关联与聚合研究。现有以服务功能为主线的服务关联和聚合方法不能适应家庭服务领域中服务资源目录的动态发展性和用户多层次需求的要求。

中国电信正处在向现代综合信息服务提供商转型的时期, 实施精确化管理则是实现中国电信战略转型的关键措施之一。而对IP网络及移动网络用户行为分析, 是互联网业务精确化管理的任务之一, 也是面向用户实施针对性营销的前提和保证。通过对互联网用户行为的深入分析, 如:用户在手机上浏览了什么新闻和小说, 通过搜索引擎搜索了什么关键字, 在购物网站上购买了什么产品等。根据这些信息我们即可以进行业务的内容分析、业务热点分析以及用户偏好分析, 可以了解用户的真正需求, 充分利用网络资源, 开发有吸引力的增值业务, 提升用户对网络的依赖性和忠诚度, 进而构建更好的盈利模式。

杭州华数、北京歌华等广电运营商在推广个性化服务时, 通常希望实现的推荐方式有:

(1) 基于社区位置的推荐, 电视终端基于社区位置 (五级地址与机顶盒号绑定) , 挖掘用户兴趣爱好, 向用户推荐社区相关服务, 如社区内促销活动。

(2) 基于消费行为的推荐, 根据详单或订单, 按照消费行为进行关联推荐。

(3) 基于搜索习惯的推荐, 根据搜索关键词和内容进行关联推荐。

(4) 基于直播收视率的推荐, 杭州华数拥有终端采集软件, 能够采集直播 (时段) 收视和点播数据, 获得停留时间收视率, 以便基于收视情况进行粗略的推荐。

另外, 围绕家庭推荐, 颗粒度粗、方向性弱, 如家庭由若干个人组成, 家庭成员由于外出、出租户短期逗留、家里来客等原因无法固定家庭成员, 进而操作电视的家庭成员年龄性别、年龄、喜好等个人特征难以断定。基于操作行为的家庭用户偏好分析与服务推荐是一个难题。

2 技术研究方法

2.1 研究目标

根据网络融合和业务融合情况下家庭用户个性化服务的需要, 研究家庭用户操作行为分析与个性化服务智能推荐技术, 构建家庭用户偏好分析与服务推荐模型, 研发家庭用户操作行为分析与服务推荐系统, 重点实现对电视购物、音视频点播等数字内容服务的智能推荐, 为推动家庭服务向个性化方向发展提供有效技术手段。

2.2 研究内容与关键技术

(1) 家庭用户操作行为分析技术

应用集成OLAP技术、聚类分析技术、关联挖掘技术等用户行为分析技术, 研究家庭用户操作行为分析方法, 对家庭用户行为特征和偏好进行分析。

(2) 个性化服务智能推荐技术

研究个性化服务智能推荐技术, 研究基于个人偏好的服务推荐算法和基于关联规则的协同过滤推荐算法, 实现基于操作行为分析的家庭用户个性化服务推荐方法。

(3) 家庭用户偏好分析与服务推荐模型

研究基于操作行为的家庭用户偏好分析与服务推荐模型构建方法, 建立家庭用户行为分析模型、群组及内容关联模型、服务推荐模型、效果评估模型。

(4) 家庭用户行为分析与服务推荐技术

应用家庭用户操作行为分析与服务推荐方法与模型的研究成果, 重点研究面向电视购物、音视频点播等数字内容服务的家庭用户行为分析与服务推荐技术实现方案。

(5) 家庭用户行为分析与服务推荐系统

研发家庭用户行为分析与服务推荐系统, 研发与集成环境相适应的个性化服务智能推荐功能接口, 并结合电视购物、音视频点播等典型应用实践个性化服务推荐服务。

2.3 研究方法

根据该研究的预期目标、研究内容, 该技术的研究方法将着重进行关键技术实现方法、分析模型构建方法、系统研发、技术集成验证等方面的工作。研究拟采取的技术路线如图1所示。

(1) 总体方案研究

通过以电视用户为核心的新型文化与生活综合服务如电视购物、视频点播等业务的服务模式分析, 家庭用户操作行为与推荐模式分析, 开展总体方案设计, 提出各项关键技术和支撑原型平台的总体功能要求, 为各项工作的开展提供总体指导。

(2) 关键技术研究

应用集成OLAP技术、聚类分析技术、关联挖掘技术等用户行为分析技术, 研究家庭成员行为分析方法, 实现对家庭用户行为特征和偏好的分析;研究个性化服务智能推荐方法, 研究基于用户偏好的智能推荐算法, 基于关联规则的协同过滤推荐算法, 实现对家庭成员的个性化服务推荐。

(3) 分析模型构建

建立家庭用户行为分析模型, 实现对家庭用户行为特征和偏好的分析;建立群组及内容关联模型, 实现对群组相似度和内容资源相似度的分析;探索合理的推荐模式和方法, 建立服务推荐模型, 并通过建立效果评估模型, 利用样本数据来验证行为分析与服务推荐模型的有效性。

(4) 软件系统研发

根据家庭用户行为分析与服务推荐技术方案以及家庭用户偏好分析与服务推荐模型, 研发家庭成员行为分析与服务推荐系统, 研发与集成环境相适应的个性化服务智能推荐功能接口, 实现对家庭成员用户操作行为的分析与用户兴趣关联服务的推荐, 重点实现对电视购物、音视频点播等数字媒体内容的服务推荐。同时利用软件系统, 进行技术验证与优化, 根据验证及评测效果, 调整、优化模型方案, 完善支撑技术, 实现特征分析、服务推荐等配套支撑软件封装, 支撑研究可持续发展。

(5) 技术集成验证

综合关键技术、模型研究成果及系统平台研制成果, 利用已有的资源和条件开展系统实验与典型应用现场试验, 验证系统平台的安全性、可靠性及可扩展性, 根据实验验证及测试效果, 调整、优化系统方案和关键技术, 为实现有线电视个性化服务、开展实际应用提供技术支撑。

其中, 家庭用户行为分析与服务推荐原型软件系统技术框架包括获取层、数据层、应用层和访问层四层, 每层分别实现特定技术功能, 如图2所示。

家庭用户行为分析与服务推荐软件系统整合OLAP技术、聚类分析技术、关联挖掘技术、智能推荐技术, 通过对家庭用户操作行为分析及对特定范围数字内容的服务推荐, 实现家庭用户特征与偏好分析、内容热点分析、群组及内容关联分析和综合评估分析, 可形成基于操作行为的家庭用户行为分析与个性化服务推荐, 为全面掌握家庭用户的个性化服务需求提供有效的分析依据。

2.4 应用价值

挖掘家庭用户潜在的消费习惯和兴趣, 实现个性化的服务策略推荐, 满足用户个性化和综合性业务需求, 有利于刺激用户的消费冲动, 带来新的经济增长点, 反过来, 用户体验的满意程度的反馈有利于发掘新的业务增值点、加速推进新业务, 在现有条件及环境下推动广电行业发展。

(1) 挖掘海量行为数据存在的潜在未知的知识, 辅助管理层决策

业务运营支撑系统中的拥有所有用户的基本资料、使用记录、计费详单、账单等海量复杂的行为数据, 可以将这些数据集中起来, 建立一个整合的、结构化的数据模型, 在此基础上对数据进行标准化、抽象化、规范化分类和分析, 通过数据仓库对用户数据进行联机分析和数据挖掘, 为业务运营管理层提供及时的决策信息, 为业务管理部门提供有效的反馈数据。

(2) 满足不同用户群的不同需求, 使服务提供向个性化方向发展

不同用户群对家庭服务业务的需要不一样, 消费能力也不同, 运营商需要按照不同用户群组, 推出不同的资费套餐, 以对不同用户群提供最优惠的资费来进行用户关系管理。推出合理的资费套餐, 对用户而言, 对使用频率最多的业务降低了资费, 也就是享受了优惠;对运营商而言, 对不同用户群提供资费优惠吸引了新老用户, 是用户关系管理的良好手段。此外, 由于针对不同用户群对不同业务设定不同的资费, 并没有降低业务的平均收益, 反而会由此吸引更多的新用户而增加总收益。

(3) 促进交叉销售, 为企业带来更多的商业利润

交叉销售是发现现有用户的多种需求, 并通过满足其需求而实现销售各种相关服务或产品的营销方式。运营商需要对已有的用户进行交叉销售。数据挖掘技术可以帮助运营商寻找影响用户购买行为的因素, 使运营商科学地制定营销策略, 从而向用户进行合理的交叉销售获取更多的利润。

3 小结

家庭用户操作行为分析与个性化服务智能推荐技术研究是面向家庭用户的个性化服务定制与消费需求, 研究家庭用户操作行为分析与个性化服务智能推荐方法, 通过家庭用户的操作行为习惯, 获取家庭用户的消费需求, 挖掘家庭用户个性化喜好, 依据用户间和/或服务资源间的相似度, 向家庭用户推荐其感兴趣的关联服务内容, 进而提高家庭用户的满意度与忠诚度, 为满足家庭用户个性化服务需求提供有效技术支撑。

在用户行为中寻找灵感 篇2

让产品融入用户行为

好产品往往能够完美地融入到用户行为中去,并以一种用户能够理解的方式来支持这种行为。那究竟如何把握用户行为、如何以行为为中心展开设计呢?

1.硬件尺度

硬件尺度主要是指人体特征参数,用户和产品通过行为发生关系,落实到产品设计上是使用过程中身体部位与相关操作部位的对应,是人体特征与产品特征的吻合。

人体特征参数包括人体各部分的尺寸、活动半径、肌肉力量、运动形态等静态和动态的参数,是人机工程学最基础和最常用的学科内容。人体特征参数的不同严重影响着人作用于产品的行为方式。

同一款椅子,由于用户人体身高、腿长等特征参数的不同,人的坐姿、坐的时间长短和行为会有很大的变化,针对人体特征参数的不同引起的不同行为在许多设计中都得到了体现,比如可调节座椅的设计,或者软性座椅的设计。

2.软件尺度

软件尺度是指人的情绪因素。情绪与用户使用产品的目的通常没有直接关系,但情绪的变化会影响使用产品时的行为。

人在焦虑的时候,思路会变窄,仅仅集中于问题直接相关的方面,但有时却会有意想不到的结果出现,例如“急中生智”就很形象地描述出情绪对于行为的影响。情绪能控制身体肌肉,通过化学神经递质改变大脑的运行方式,进而影响操作行为。

美观的物品使人感觉良好,这种感觉反过来又使他们更具创造性地思考。但影响人类情绪的因素有很多,包括天气、光线、气温这些自然因素,同样包括音乐等人为因素。有研究人员做过一个试验,在商店中播放不同类型的音乐来调查人们购买红酒的行为变化,结果发现,是否播放音乐或者不同类型的音乐不太会影响人们购买红酒的数量,但是却对购买红酒的品质有较大的影响,特别是当播放爵士乐时,能够为红酒销售创造更多的利润。

3.习惯尺度

很多设计师都有一个理念,那就是认为“用户行为不可逆”,这虽然是一种过于武断和不太正确的理论,但是从另一个方面说明了用户习惯的重要性。

我们现在使用的Qwerty键盘是一个典型的基于用户习惯的设计案例,是劣势产品战胜优势产品的典型代表。最初,打字机的键盘是按照字母顺序排列的,这种全机械结构的打字工具,如果打字速度过快,某些键的组合就很容易出现卡键问题。

美国人肖尔斯将最常用的几个字母安置在相反方向,最大限度放慢了人们的敲键速度,以避免卡键。这种以放慢敲键速度为目的的键盘排列方式却延续至今,最主要的原因还是习惯的力量,对大多数人来讲,重新学习一套规则来提高打字速度没有太多实质性的意义,改革的成本很高。

4.潜意识尺度

潜意识也称无意识,它能对人的性格和行为施加压力和影响,一些看来微不足道的事情,如梦、口误、笔误都是大脑潜在意识决定的。

对于潜意识的认识和其在设计中的应用,是以行为为中心的设计需要重点关注的内容。就如同冰山理论所描述的那样,人类潜在的绝大部分意识对表层的意识和行为产生着影响,同样的,用户的潜在需求和潜意识的行为为产品设计提供了广阔的空间,对人类潜意识行为的关注能够创造看似简单却耐人寻味的产品,从而将人的潜意识认知外在化,引起强烈的认知,这种深层次的、反思的认知能创造深刻和持久的用户体验。

日本设计师深泽直人在演讲《意识的核心》中通过大量产品设计实例分析了产品设计中对于潜意识关注应用所产生的魅力。人们常常会把牛奶盒或水瓶往相似形状的凹槽里放,因为它们形状的吻合激发了人们的潜意识行为。

深泽直人十分崇尚直觉的设计,也就是不需要思考的思想,他认为设计要在无意识中发现灵感,作为设计者,要比非设计人员更多地发现生活中的潜意识行为和需求。当人们被问到需要什么样的设计时,他们往往会说不知道,但是有一天当他们看到某样东西时,却会说“啊,就是这个”,这是因为之前他们的潜意识没有被激发,而设计师就是要挖掘用户的潜意识行为和需求来设计产品。

如何做到以用户行为为中心?

1.理清行为背后的本质需求

理清行为背后的本质需求,往往会产生意想不到的想法,能够极大地扩展设计思路。

我们在对牙刷进行改良设计的时候,一般会从牙刷的形状、材料以及色彩等传统思路去考量,但是我们需要的真的是牙刷这种东西么?我们只是需要某种产品能够让口腔变得干净罢了。当认识到牙刷的本质功能是清洁口腔时,我们会思考“未来的口腔护理是怎样的?”是延续传统的“刷”,还是采取其它行为方式。例如“喷”、“嚼”,这样一来,设计思路就绝不会限制于牙刷这个物体本身,以用户本质需求为导向,基于用户行为,能产生新的解决方式。

2.行为有时候需要适应技术

在以行为为中心的设计中,我们承认必要的时候人类行为需要适应技术,希望产品的设计是为了有效地支持用户的行为,而不是仅仅服从用户的意愿。

人们确实是在适应技术,以行为为中心的设计不仅了解这一点,而且还可以很好地利用这一点。很多时候你必须先学习工具和技术,然后你就会理解所要进行的活动了,比如射击,你必须先理解枪支的结构和特点才能掌握这项运动的精髓,成为一个优秀的射击手。

科学家创造技术,设计师将技术转化为产品,用户适应技术。大部分时候就是这样的一个流程。例如,人从适应用鼠标操控计算机,到适应用手触控操作这种方式,人一直随着技术的发展改变用户行为,很难说触控方式是最好的人机交互方式,未来这种方式仍然会改变,人们将继续去适应技术。

这并不是要否定用户中心的思想,用户行为都是与人有关的,所以那些支持用户行为的系统和技术,通常也能很好地支持从事这些行为的人,因此我们仍然能够利用之前在以用户为中心的设计中积累的知识和经验。

3.用设计引导行为

以用户行为为中心的设计,并不是一定要求设计师观察行为,然后设计产品去迎合人们的行为。虽然大部分情况下如此,但还需要我们在适当的时候、适当的地点通过特定的设计来引导用户行为,以达到某种目的。设计对行为的引导可以是消极的也可以是积极的,这种引导可以从生理和心理两个层面去认识,概括来讲主要包括约束和刺激两种方法。

约束

要避免选择错误,最好的办法就是给用户唯一选择。同样地,要引导用户行为可以通过产品制造约束。如果用户能容易地看出并解释物理结构上的限制性因素,用户在使用之前就知道哪些操作是合理的,那么就可以有效地避免误操作。

比如门把手的设计,如果去掉明显的把手,不提供拉的可能性,那么用户就可以明白这个门是通过推来打开的,当然很多门会写上“推”或“拉”的文字,这同样是帮助人理解的设计,但此时这个门的使用方式需要进行两个层次的理解,就其本身而言并不是一个很好的设计,不仅增加了成本,也增加了用户理解的负担。

nlc202309011108

锁和钥匙的设计目前来讲很混乱,有的锁是顺时针旋转才能打开,有的则是逆时针,单从钥匙的旋转方向来讲就为用户造成了理解上的负担,如果放开约束,用户不论从哪个方向都能打开锁,或者能够让用户明白正确的使用方法,那才是好的设计。

通过约束性的设计来引导用户行为在公共空间设计中非常常见。比如盲道的设计,通过路面的突起为盲人提供一种空间上的约束,良好地引导盲人行走。事实上,很多正常人在特殊情况下也会利用盲道来行走,比如在专心发短信的时候,这也许是一种有意识的行为或者是一种潜意识的行为,设计师如果观察和理解了这一点,也许能创造更多的设计。

公共空间中座椅的设计一直以来就是设计师们关注的话题。大家都会发现,公园或者广场的长椅利用率很低,一般设计为三人或四人使用的长椅经常只有一个人坐在上面,尽管很多人徘徊、找不到座位,他们也不愿意同其他人坐在一起,为什么呢?因为很多人需要私密的空间,他们对陌生人会有本能的排斥,而传统长椅的形式让他们觉得同其他人过于亲密,尽管长椅能够为三到四个人提供足够坐的空间。如果将长椅木条的横向排列改成纵向的,或者仅仅是在长椅上加一些小的隔断,事情就大为改观,同样长度的长椅利用率便会上升。

刺激

前面已经讨论过“美观的物品更好用”,通过产品形态、色彩、材质甚至是声音等来刺激用户,激发思考,从而引导用户行为朝着预定的方向改变。

通过激发用户心理从而改变用户行为的产品历史悠久,风铃便是一个很好的例子。夏天炎热,在没有空调和风扇的日子里。人们因为燥热而变得烦躁,行为上也表现得好动不安,在这种情况下人的工作效率和热情会明显降低,并会导致更多的失误。而小小的风铃,通过轻盈、通透明亮的外观以及悦耳清新的声音使人心绪变得安宁,行为举止也显得优雅从容许多。

日本建筑师坂茂设计的卷筒卫生纸是用设计引导用户行为的一个绝佳例子,它事实上包含着约束和刺激两个层面的引导。这种卷筒卫生纸中间的芯是四角形的,卫生纸因此卷成了类似的方形。若是平常的圆形纸筒,在使用时,只要轻轻一拉,就可以很顺地抽下纸张,而在抽取卷在四角形纸管的卫生纸时,一定会因为产生阻力而发出“喀哒、喀哒”的声音,拉起纸来不是那么畅快。这个设计的特别就在于它造成的不便,四角纸筒产生的阻力以及所发出的并不那么悦耳的声音刺激着用户,引起思考,激发他们潜在的节约资源意识,将用户的行为朝着良性的方向引导。另外,方形纸筒由于节约了纸筒之间的间隙,能有效地降低制造和运输成本。

将卷筒纸的芯改成方形这样一个看似简单的设计改良,能够带来巨大的变化,它深刻地体现着设计师批判性的思考,设计就是具有这种对于生活的批判性,并且这种性质来源于对人类行为的观察和反思。

归根结底,用户和产品的关系是通过行为发生的。一定意义上,设计实际上是行为的设计,当用户的行为反映为对物的支持需要,或者当用户的行为与设计师的意图发生某种程度上的差异时,事实上就构成了人与产品的一种新关系,将这种关系物化的结果就是新设计的出现。

好产品

克莱斯勒300的精细化

克莱斯勒集团耗费了10亿美元研发、改良克莱斯勒300,推出“如意款”,从设计、性能和做工品质方面都试图做到更精细、更不循常规。3.6L Pentar V6搭配ZF 8变速箱,同时将美式粗犷与东方化精细美学巧妙融合,克莱新勒希望借此回归中国高端车市场。

柔软屏幕

LG率先将“塑料电子屏”应用在了电子书上,希望以此颠覆整个电子书设备市场。由于采用了塑料电子墨水基板,所以你可以单手抓握弯曲它,重量仅14克,也只有玻璃基板的二分之一,可弯曲角度提高到了40度,更接近纸张的触感和阅读效果。

手腕上的智能机

我们手上的设备正变得越来越智能化和通用化,比如手表。I’m Watch公司的I’m Color智能手表,可以通过蓝牙连接Android及iOS系统智能手机,在手表上访问社交网站、邮箱、查看天气预报、浏览相册等应用,还能接收短信、接听电话等。

两块屏幕的平板

两块5.5英寸IPS电容触摸屏,每块都可以达到1024×480的分辨率,索尼在Tablet系列平板上尝试异型的翻盖设计,打破了目前Android平板的设计思路局限。索尼Tablet P是目前唯一一款采用折叠式设计的平板电脑,可以最大程度还原笔记本的使用习惯。

用户行为推荐 篇3

关键词:P2P网络,推荐,用户行为,信任模型

P2P网络模型和C/S网络模型相比有着资源的高利用率、网络可扩展性强、高性价比、网络健壮性好以及隐私保护好等优点,正成为研究的热点问题之一。但是,P2P网络的随意性与不稳定性以及P2P网络的安全问题都是P2P网络应用亟待解决的问题。建立信任评价模型就是主要的应对方法之一。

1 相关工作

基于推荐的信任模型通常要求用户在每次获取服务后对服务质量进行评价,并根据这些评价计算出反映服务提供者质量的信任值。文献[1-2]在计算在考虑所有用户对于同一个服务提供者的评价,从而得到一个反映其总体表现的全局信任值。文献[3-4]将用户对服务提供者的评价保存在本地,从而形成一个局部信任值。当本地没有相应评价记录时,再通过收集其他用户的局部信任值,最终获得一个推荐信任值。此外,很多模型还引入了声望值来反映用户评价的客观性[5]。然而在现有的信任模型在计算信任值的时候,并未反映出节点背后不同用户行为对于信任评估的影响。

针对这一问题,本文在基于推荐的信任模型基础上,通过在时间域上对用户的信任的进行建模以及引入推荐相似度等手段,有效避免了恶意节点的欺骗行为。

2 信任模型

基于推荐与用户行为的信任模型分为三个部分:直接信任度计算、推荐信任度计算以及基于用户评价相似度及用户异常行为匹配的参数调整。在三部分的计算过程中,为了准确的衡量节点之间的信任,本文提出的模型采用以下参数对交互行为进行描述:

1)服务满意程度S(x)

服务满意程度反映了寻求服务一方对提供服务一方行为的满意程度。它通常由被服务方在服务结束后提交,满意程度取值区间为(-1,1)。在P2P商务网络中双方进行的是对等交易,这时通常需要双方都对对方交易中的行为进行评价。

2)服务次数N(x)

服务次数是指双方发生交互的次数。它反映了服务双方相互熟悉程度。以文件下载服务为例,请求节点从响应节点处下载文件的次数越多,表示交易双方越熟悉,直接信任和间接信任也就越准确。

3)推荐准确因子A(x)

推荐准确因子反应了推荐过程中节点的准确程度。通过引入推荐准确因子,可以刺激节点积极地正确给出信任评价,从而提高欺骗行为的代价。

4)影响因子I(x)

影响因子反映了节点已完成交互的重要性,大数据量下载、大额交易等都应该赋予高的影响因子。

5)风险因子R(x)

风险因子反应了当前交互的风险。大数据量下载、大额交易、可能携带计算机病毒等都应该赋予高的风险因子。

本文模型的总体结构如图1。

下边分别对关键问题进行具体介绍:

2.1 直接信任度计算

直接信任度是节点根据自身直接交互经验而得出的对其他节点的信任程度。以节点x为例,本文采用的直接信任度计算公式如下:

其中α,β,γ都是权重因子,0≤α,β,γ≤1;N(x)为信任计算方与节点x的交互次数;Si(x)为第i次交互的满意度;Ii(x)为第i次交互的重要性;tnow-ti为当前时间减去交互时间后的区段数;R(x)为当前交互的风险因子;P(i)为第i次交互的惩罚因子,且:

直接信任度是非常重要的信任指标。当直接信任度DT(x)及交互次数N(x)均大于预设时,系统可无需计算推荐信任度直接进行交互。

2.2 推荐信任度计算

推荐信任度是当节点之间没有交互记录、交互次数过低或者直接信任度均达不到预设时所采用的方法。仍以节点x为例,此时,系统通过向网络广播的方式咨询其他节点关于节点x的信任度,假设节点k返回节点x的信任度为Rk(x),则推荐信任度的计算公式为:

其中M(x)为返回推荐的节点总数;A(k)为推荐节点k的准确性因子;其他参数与公式(1)相同。

当计算完所有候选节点的直接信任度DT与推荐信任度RT后,按照以下公式对候选节点进行排序:

其中c1与c2为预设系数。

排序完成后依次对候选节点进行连接交互。

2.3 考虑用户行为的参数调整机制

基于用户行为的参数调整机制分为基于用户评价相似度的调整机制以及基于异常行为匹配的参数调整机制。

2.3.1 基于用户评价相似度的调整机制

基于用户评价相似度调整机制的主要目的是计算出合适的准确性因子A(k)。该机制需要节点通过记录参与推荐节点的推荐次数、推荐时间以及推荐正确次数进行计算,其具体的计算公式为:

其中α,β都是权重因子;L(k)为节点k参与推荐的次数,为节点参与推荐次数的平均值;I(j)为参与推荐事件的重要程度;M(j为第j次推荐的匹配函数,具体公式如下:

其中θ1>θ2>0。

准确性因子的调整主要由2部分构成,与一般的评价相似度的调整机制不同,本文的评价相似度并不直接计算,而是通过调整机制的第二部分体现。具体调整包括:

1)在交互行为后,如系统采用了推荐信任,则通过公式5调整参与推荐的相关节点的准确性因子。

2)在一定时间间隔后,随机选择近期历史记录中评价满意且直接信任度高的节点以及评价差的节点,通过向网络广播的方式咨询其他节点关于这些节点的信任度;再通过公式5调整网络节点的准确性因子。该调整中,I(j)将被强制为1。该部分调整可以看作是准确性因子的主动调整。

可以看出,通过调整机制的第二部分事实上在通过用户评价的相似性调整准确性因子,同时可以保证一定的节点推荐平均次数并分散了相似度计算的过程。

2.3.2 异常行为匹配的参数调整机制

异常行为匹配的参数调整的机制通过调节风险因子R(x)发挥作用。具体的办法是当交互发生欺诈等行为时,将节点的历史评价信息及参与推荐的典型节点信息保留(即典型的高信任推荐和不信任推荐节点及相关信息)。当通过交互类型,交互量等调整风险因子时,同时将当前交互对象的历史信息、评价信息等与记录中的恶意节点进行信息比对,根据出现类似情况的次数增加风险因子。

3 仿真与试验分析

本文采用查询周期模型进行了仿真。在每个仿真周期内,网络中的节点随机地发出一个文件查询请求,并收到拥有文件节点的响应,然后采用本文提出的信任模型下载文件。模拟网络由100个节点组成,总共包含500种文件;每个节点初始随机分配50个文件;同时节点分为4种类型:好节点、正常节点、差节点、恶意节点,不同的类型无效文件的比例不同,恶意节点会提供虚假推荐。仿真共进行200周期,同时每轮进行1次准确性因子主动调整。图2对比分析了采用本文信任模型的P2P网络交易成功率以及仅采用推荐信任模型的P2P网络交易成功率。

从图2中可以看出,与基于推荐的信任模型相比,本文提出的同时考虑用户行为的信任模型具有更优的性能。

4 小结

本文针对现有信任模型对于用户行为不能准确描述的问题,提出了在推荐模型基础上,通过用户评价的相似性调整准确性因子,采用异常行为匹配调整风险因子,最终取得了良好的仿真结果。本文提出的模型不仅在信任评估效果明显,在用户偏好分析方面也具备一定的潜力。但是本文模型在主动性准确性因子调整的策略以及异常行为建模等方面的研究还有待进一步深入。

参考文献

[1]KAMVAR S D,SCHLOSSER M T.EigenRep:reputation managementin P2P networks[C].Proc of the 12th International World Wide Web Conference Budapest.New York:ACM Press,2003:123-134.

[2]XIONG Li,LIU Ling.PeerTrust:supporting reputation based trust for peer-to-peer electronic communities[J].IEEE Trans on Knowledgeand Data Engineering,2004,16(7):843-857.

[3]魏星.一种基于推荐的P2P网络信任管理模型[J].计算机仿真,2010,27(12):103-105.

[4]李雯,谢冬青,吴勇.P2P环境下基于历史及推荐的信任模型[J].计算机应用研究,2008,25(3):915-919.

基于用户浏览行为的文献链接分析 篇4

〔关键词〕文献链接分析;用户浏览行为;引文分析;聚类

〔中图分类号〕G203 〔文献标识码〕B 〔文章编号〕1008-0821(2009)04-0150-03

Analysis of the Literature Links Based on Users Browsing BehaviorsWang Li

(Institute of Scientific & Technical Information of China,Beijing 100038,China)

〔Abstract〕Taking the literatures co-browsing phenomenon as the research object,analysis of literature links gives three basic assumptions,andtries to dig the objective relationship among literatures by using for reference from citation analysis.Analysis of literature links can be used widely and simply.Influenced by browse motivation,information ability and information environment,the credibility of analysis results depends on the accumulation of source data.Clustering technology used in analysis processes is very important.Only by adopting the appropriate means of mathematical statistics and analyzing a large amount of data,can we reduce errors effectively,and come to meaningful conclusions.

〔Key words〕analysis of the literature links;users browsing behaviors;citation analysis;clustering

人们在日常生活中经常根据朋友同事的推荐做出选择,这一思想运用到信息推荐中产生了协同过滤技术。协同过滤技术一经出现即在推荐系统中得到广泛应用,虽然面临若干不足,但其算法不断改进,迄今为止仍然是最成功的信息过滤技术之一。笔者认为这种成功主要源于协同过滤技术的基础思想,即人们在获取信息的过程中,人际关系可能是一个比数据库或其他信息资源更为重要的渠道。甚至有研究显示,“人们倾向于向朋友或同事求助的程度,比向其它信息资源如数据库或文件资料求助的程度要多出5倍。[1]”

从信息传播的角度看,协同过滤利用的是社会网络现象,然而人与人之间的这种行为上的相似性折射出信息之间的相似性。能否将社会网络转化为信息网络,进而研究信息之间的关系?基于这一想法,本文提出利用用户浏览行为建立文献链接网络,以文献间的“同浏览”现象为研究对象,借鉴引文分析的思想和方法,采用数理统计的手段挖掘文献之间的隐性关系。

1 基于用户浏览行为的文献链接网络

用户查找文献的过程代表用户一次比较完整的浏览行为,是由一组复杂而有序的操作构成的,本文借用计算机网络技术里的会话概念,称之为一个会话单元。对于一个典型的B/S结构的文献服务系统来说,一个会话单元产生的基本数据包括鼠标点击、键盘输入、页面停留时间、网页跳转等等,数量庞大,且杂乱无章。去繁就简,将文献作为最低层的数据节点,用户在多篇文献之间的浏览跳跃行为可以用网状图表示,如图1所示。

其中,每一个节点表示1篇文献,简单的连线则表示因“同浏览”而建立的文献链接关系,忽略了浏览过程中的先后顺序。

图1 一次用户浏览行为反映的文献链接关系表

每一个会话并不是孤立的,图1仅仅描述了一个会话单元。搜集多个会话数据,对若干个链接关系图进行叠加处理,可以形成一个复杂的文献链接网络,如图2所示。

图2展示了3个会话单元叠加形成的文献链接网络,直线上标注的数字表示2篇文献之间建立链接的次数,如文献D1与文献D2之间的连线标注“2”,表示2篇文献之间有2次因“同浏览”建立起来的联系。显然,该数字越大表示文献间的联系越密切。随着用户行为不断发生,这个文献链接网络将逐渐收敛,揭示利用率高的核心文献,并呈现出若干相对稳定的文献群落。 图2 文献链接网络 2009年4月第29卷第4期现?代?情?报Journal of Modern InformationApr.,2009Vol.29 No.42009年4月第29卷第4期基于用户浏览行为的文献链接分析Apr.,2009Vol.29 No.42 文献链接分析

文献链接分析受协同过滤技术的启发,认为“人与人行为上的相似性折射出信息之间的相似性”,并且这种相似性在足够多的数据支持下将逐渐逼近文献间的客观关联。以此为基本思想,文献链接分析以文献间的“同浏览”现象为研究对象,希望利用数学及统计学的手段揭示文献间的内在规律。

基于用户浏览行为建立的文献链接网络与引文的链状结构极其相似,因而文献链接分析可以直接借鉴引文分析的理论和方法[2-4]。

2.1 文献链接分析的基本假设

将用户浏览文献的行为采用简单的“有/无”来描述,可以构造出一个m×n阶的关于用户——文献浏览情况的矩阵R(见图3)。R=r11r12…r1n

r21r22…r2n



rm1rm2…rmn图3 用户——文献浏览情况矩阵

其中,m行表示m个会话单元,n列表示n篇文献,矩阵中的每个元素rij表示在第i次会话中用户是否浏览了第j篇文献,取值为0或1。注意,这里采用“会话”的概念将同一用户的若干次浏览行为区分开,以一个会话单元为观察周期,只有在同一个观察周期内发生的浏览行为才称作“同浏览”。

基本假设一:文献之间的“同浏览”关系反映了文献内容上的相关性。

在图3所示的用户——文献浏览情况矩阵R中,行可以用文献集合D={d1,d2,…,dn}来表示,在某个具体会话单元中包含的文献集合 则是D的子集,对于该集合中的任意一篇文献j(j∈Ds),rsj=1。这时,可以用函数fs(i,j)表示集合Ds中任意2篇文献(i,j∈Ds)在内容上的相关性。

基本假设二:将每一次“同浏览”行为揭示出的文献耦合程度视为一样,并记为一个计量单位。

根据基本假设一,在某个具体会话单元中文献i和j之间的相关性用fs(i,j)表示。如果两篇文献在同一次会话单元中被用户浏览,则认为它们之间有一个由于有共同浏览者而存在的文献耦合联系,fs(i,j)=1;反之,fs(i,j)=0表示不存在同时浏览这2篇文献的用户。

基本假设三:文献之间的耦合度具有简单的可加性。

在图3所示的用户——文献浏览情况矩阵R中,列可以用会话集合S={s1,s2,…,sn}来表示。定义文献i的浏览集合为Si,则Si是S的子集,rki=1(k∈Si)。同理,定义文献j的浏览集合为Sj,如果Si、Sj集合间存在N个相同元素,则表示在N次会话单元中用户同时浏览了文献i和文献j,根据可加性,得到两篇文献的联系为N个单位。

如果将文献i和文献j之间的联系记为Cij,则Cij=∑ms=1fs(i,j)(s∈S)。经过简单加合得到的绝对数量结果可用来度量文献间的耦合强度。

通过3个基本假设,图3所示的用户——文献浏览情况矩阵R可以转化为表示文献关联的n阶方阵C(见图4)。C=c11c12…c1n

c21c22…c2n



cn1cn2…cnn图4 文献关联矩阵

其中,行与列都表示文献,矩阵中的每个元素Cij表示文献i和j之间的耦合强度,通过对用户浏览行为的汇总统计得到。

2.2 聚 类

通过“同浏览”关系建立的文献耦合强度可以反映文献间的亲疏关系,这是文献聚类的基础。然而图4中展示的Cij是经过简单加合得到的绝对数量结果,是不稳定的,将随着用户行为的不断发生而变化,笔者采用欧氏距离算法对其进行处理。

首先,可以将给定的文献集合{d1,d2,…,dn}表示为n维空间,文献i和k间的耦合强度Cik可以看作文献i在第k维的坐标,同样,Cik也可以转化为文献j在第k维的坐标。利用欧氏算法公式,可以用∑nk=1(Cik-Cjk)2得到文献i和j之间的距离,记为sim(i,j)。如果sim(i,j)越小,那么文献i和j之间的相关度越高。

通过文献间的相关度计算,可以将给定文献集合进一步划分为若干个文献群,这是一个聚类的过程,相关算法很多[5-8],本文不再赘述。聚类的结果可以采用可视化方式展示出来,直观描述各个文献群的分布情况,以及文献间的亲疏关系。

3 文献链接分析的特点

文献链接分析具有适用面广、简单易用的特点。

适用面广主要体现于统计素材的易获取性。文献链接分析观察用户浏览行为,研究“同浏览”这种普遍存在的现象。对于图书情报单位的传统文献服务来说,统计数据(如:读者借阅历史)主要来源于流通工作;对于一个典型的文献服务系统来说,用户查找文献的过程则详细记录在系统日志中,可以借用相关工具软件筛选出有用数据。可见,只要存在文献服务,就会记录下用户的浏览行为,进而展开文献链接分析。

文献链接分析借用了引文分析的研究方法,通过简单易懂的统计手段和比较成熟的聚类技术挖掘文献间隐含的客观关联,分析方法简单。通过文献链接分析发现的文献群不是根据图书情报人员对文献特征的判断来发现的,而是在使用过程中自然形成的,可直接应用于实际工作。分析结果通过统计数据的积累可能无限逼近文献的客观联系,同时也带有用户查找文献过程中的普遍特征,在资推荐源、优化搜索引擎、辅助知识挖掘等应用场合中具有较高的参考价值。

4 文献链接分析的局限

用户浏览行为是特定信息环境下用户自由心智的体现,由用户主观驱动,直接受当时的信息环境以及用户信息能力的制约。基于浏览行为建立的文献链接网络受这些因素的影响,必然难以完全准确的反应文献之间的客观联系。概括起来,影响分析结果准确度的主要因素包括浏览动机、信息能力,以及行为发生时所处的信息环境。

用户浏览动机复杂多样,当他抱有明确目的发起一次检索活动时,该过程中涉及的文献具有极强的内容相关性;如果用户只是漫无目的的浏览,在浏览过程中就很容易转换注意力,那么基于该过程建立的文献链接可能是虚假的,即在当前的浏览文献集合中,某篇文献被浏览的行为不一定反映着该文献与其他“同浏览”文献内容相关。文献浏览过程中存在的这种随机现象直接影响文献链接分析方法的应用和效果。

用户信息能力的差异表现为获取文献在质和量上能否满足需求。简单的说,即使2个用户有完全相同的信息需求,他们在查找文献的过程中,在判断哪些文献与需求相关时,也可能产生极大的差异。

同样,信息环境的差异直接影响着用户查找文献的效率。检索系统是信息环境中最重要的部分之一。显然,面对同样的文献集合,发出同样的查询指令,不同性能的检索系统可能带给用户不同的搜索结果。

5 结 语

本文提出的文献链接分析以文献间的“同浏览”现象为研究对象,在3个基本假设的基础上展开,充分借鉴了引文分析法的思想和方法,希望利用数学及统计学的手段揭示文献间的内在规律,应用于信息服务的实际工作中。

需要注意的是,该分析方法对用户浏览过程中的随机现象不加区分,认为所有“同浏览”行为都是等价的,因而只是简单的赋予了一个相关度计量单位。这种单纯的计量方式虽然有效的简化了分析过程,但是在用户浏览动机、使用环境等多种因素的影响下,很难有效发掘文献之间的客观联系,一定程度上降低了分析结果的准确度。因此,文献链接分析结果的可信度主要取决于来源数据的积累量。同时,分析过程中采用的文献聚类技术也十分重要。只有采用合适的数理统计手段对足够多的数据进行处理分析,才能有效缩小误差,从而得出有意义的结论。

参考文献

[1]Rob Cross,Andrew Parker,Steve Borgatti.用社会网络分析(Social Network Analysis;SNA)改进知识的创新与共享[EB/OL].http:∥www-900.ibm.com/cn/services/strategy/estrategy/socialnetwork.html#analysis(Accessed Sep.25,2008)

[2]丁学东.文献计量学基础[M].北京:北京大学出版社,1993.

[3]陈光华,江玉婷,庄雅蓁,等.引文分析研究发展现况[EB/OL].http:∥www.lis.ntu.edu.tw/~khchen/writtings/pdf/bookshelf1997.pdf(Accessed Sep.25,2008)

[4]洪光宗.从引文分析看网络结构挖掘[J].图书馆学研究,2006,(12):45-47,49.

[5]王剑辉,姜龙滨,杨姝.网页文献的快速模糊聚类[J].长安大学学报:自然科学版,2007,27(2):107-110.

[6]钟伟金,李佳,杨兴菊.共词分析法研究(三)——共词聚类分析法的原理与特点[J].情报杂志,2008,(7):118-120.

[7]李慧,刘东苏,任志纯.文献聚类技术及其评价函数[J].情报杂志,2004,(7):17-18.

GPRS用户行为特征分析 篇5

关键词:数据分析,GPRS网络,信令监测,用户行为特征

0 引言

随着移动通信和互联网的技术的结合,移动互联网业务成为当今世界发展最快、市场潜力最大、前景最诱人的业务,截止到2012年9月底,全球移动互联网用户已达15亿[1]。在移动互联网技术中,GPRS技术是一种基于GSM系统的无线分组交换技术,提供端到端的、广域的无线IP连接。作为现有GSM网络向第三代移动通信演变的过渡技术,它在许多方面都具有显著的优势,如传输速率高、费用低廉等。以GPRS为技术支撑,可以实现诸如电子邮件、电子商务、移动办公、网上聊天、基于WAP的信息浏览、PDA终端接入、综合定位技术等功能。目前中国移动GPRS网络已覆盖全国所有省、直辖市、自治区,网络遍及240多个城市。为更好支撑市场精细化营销工作,并同时对数据网络进行优化,各大省市移动运营商对GPRS信令监测系统建设的要求越来越高。

GPRS网络逻辑体系结构如图1所示[2]。Gn接口是GPRS网络信令监测工作中起关键作用的接口之一,对其进行监测将有效实现各大省市运营商的目标。

目前国内对Gn口的信令分析处于百家争鸣的状态,如杨斌提出的与七号信令监测系统相结合的Gn接口信令监测系统[3],还有王东提到的通过对GTP控制面和数据面相结合的研究[4],以及文献[5]中提出的集群式的GPRS核心网业务安全监测系统。本文采用的是一种专门用来解析GPRS信令面数据的系统,可以通过对信令数据进行解析和处理,并通过后续数据用户行为分析来达到信令监测的目的。

1 GPRS信令数据采集

1.1 系统部署位置

本文所实现的信令监测系统名称为GPRS信令解析系统,它是一个专门用来分析GPRS信令数据的典型协议解析系统。它提供了针对不同版本GPRS信令的分析机制,包括针对控制面流量的报文解封装、控制面消息分类处理、用户状态维护、信息分类统计和消息结果上报等等。在核心网的骨干链路,为了能够采集到用户完整的上下线信令,我们将系统部署在Gn接口GGSN (网关GPRS支持节点)一侧。部署的拓扑结构如图2所示:

其中在SGSN (GPRS服务支持节点)和GGSN部署的报文镜像设备,是通过分光器或其他方式镜像出现网真实报文数据,通过特定协议的封装后(如通用路由封装协议),将报文传输到GPRS信令解析系统所在的服务器。系统通过解析这些报文,可以实时的将用户真实的上下线情况反映在系统所产生的记录中,这些记录可存到本地的服务器,也可通过网络传输到远端数据处理中心进行分析。

1.2 系统功能模块

功能模块是系统逻辑功能的抽象概述,和真正的系统并不一定是一一对应的关系。本文介绍的GPRS信令采集系统模块如图3所示。

报文解析与分类模块负责从服务器网卡上接收报文,经过处理后将符合要求的报文传给GTP (GPRS隧道协议)消息处理模块进行协议分析。解析出来的用户和网络信息先放入发送缓存队列,由结果上报模块从队列中取出并发送给其他数据关联模块进行后续的处理。在处理信令交互的过程中,系统也产生大量的本地记录,主要是通过定时轮询机制来触发统计的记录。下面对各个模块进行简要描述

M1:报文解析与分类模块

该模块负责解析报文、并对报文进行分类,为后续处理做准备。当流量输入系统后,该模块负责判断是否为所需要的报文,如果不是则丢弃。对于所需报文,则按照协议格式进行解包、并按协议消息类型对报文进行分类,提取关键信息,统计相关内容,为下一阶段处理做准备。

M2:消息处理模块

该模块按照相关协议中不同消息类型进行协议状态维护及流转。先将不同消息类型的报文内容,提取存入相应的数据结构,然后依照协议状态,在哈希表中建立相应的状态或流转至下一状态。

M3:哈希表维护模块

系统采用哈希表来维护移动用户上下线的状态,而该模块负责哈希表中各个表项的添加、删除等操作。此外还负责哈希表之间的状态转移操作。作为协议状态的缓冲表,必须有一个专门的功能模块负责维护,否则系统无法对哈希表进行管理操作。

M4:轮询模块

该模块的主要功能是定时轮询哈希表,对表中存储时间大于超时时间的表项进行更新或删除。该模块的设立,主要是为了应对一些特殊情况的出现。这些情况一般会导致用户上下线的流程不能正常结束,这样在哈希表中就会多出一些“坏死”的状态。增加轮询模块后,对于这种“坏死”表项,轮询模块会对其进行更新和清除,避免了哈希表无限增大的问题。

M5:资源管理模块

该模块负责系统中内存资源和Socket资源的分配和回收,相对于直接由操作系统负责资源分配与回收的传统机制,该方法有更强的针对性和更好的合理性。

M6:结果上报模块

从缓冲队列中将用户上线、更新、下线的结果取出,按照预设的信息格式,将结果封装成报文发送至其它对接系统。

M7:信息统计汇聚模块

对系统中各个阶段的统计数据进行汇聚,并按类别定时导出,从而实现以状态维护和累计统计为主的系统处理功能。如汇聚累计在线人数,累计上线、下线人数等。

M8:系统日志记录模块

该模块记录系统所产生的所有行为,并按照某种规范表达出来。可以通过该日志为系统进行排错,或者根据这些信息调整系统的某些参数。该模块为系统诊断提供了参考依据。

1.3 系统记录输出

用户一旦完成上下线会话,系统都将生成相应的会话记录,由于本文只分析用户的会话行为特征,因此下面只列出用户的上下线记录的格式和内容,如表1所示。

2 GPRS用户行为特征分析

目前,GPRS信令采集系统已帮助各大省市运营商达到了流量采集的目的。在系统准确完成对真实网络的流量采集后,对这些数据进行分析也是信令监测工作的重要内容。本文主要是对系统所监控区域的在2012年3月份的输出数据而进行的分析。

用户会话的过程是指用户在上网时进行一次上线和下线的过程,其会话行为是用户最基本的上网行为,它能够反映用户的上网特征,如在线时长的变化和上网频繁度。通过对用户会话行为进行分析,将有助于探清用户产生的网络流量在数量、时间和空间上的分布,也有助于分析用户在上网时间或网络内容等方面的需求,分析结果可以为运营商的网络优化和服务定制提供有力依据。

2.1 在线人数随时间变化

GPRS信令采集系统统计记录的频率为5分钟,即将一天的时间分为288个时间点,通过对这些时间点的数据进行分析,我们能够揭示移动互联网在线人数随时间的变化规律。

通过对系统产生的大量统计记录进行对比,发现所观测的在线人数变化在一个月内的四个星期基本保持一致,选取其中的一周(2012年3月5号0点至2012年3月12号0点)在线人数变化绘成分布如图4所示。

由图4可知,一周之内用户的在线人数随时间的变化趋势基本相似,但是周末的在线人数和工作日略有不同。

工作日和周末出现在线会话数最大和最小的时刻基本相同,最大出现在19点30分附近,而最小出现在凌晨5点附近。在线人数从晚上23点之后处于减少的状态,且一直持续到凌晨5点。而在白天,从凌晨5点到中午12点,在线人数一直处于递增的状态,在中午12点半左右达到局部的最大值,但随后在线人数又出现小幅度的下降。从下午2点左右一直持续到晚上19点半,又出现在线人数增加的情况。可以看出在线人数的这种变化趋势,和人们的日常生活作息有极大关联,如今GPRS网络已成为人们日常生活获取娱乐和新闻的重要手段,因此不难理解这种变化趋势:从晚上22点到次日5点,无疑是人们睡觉休息的时间,人数必然会减少。从早上7点开始,会话数快速增加,说明人们日常工作的开始。到中午12点出现一个小高峰,有可能是因为人们利用午餐休息时间用手机进行上网娱乐,下午的低谷说明人们正忙于各自的工作。而晚上22点的在线人数高峰,是因为人们在睡前可能再次用手机上移动互联网进行新闻浏览。

可见,人们的日常作息影响着移动网络的流量,而我们在对网络流量进行监控后,针对负载的变化而采取相应的控制,以确保网络的稳定运行。

由图还可以知道,虽然工作日和休息日的在线人数变化趋势基本相似,但是在数量上还是存在差异。周末凌晨的时候比工作日同一时间段的人数多,可能是因为GPRS用户更倾向于在周末熬夜休闲或工作。而在白天,周末的用户数比平常的用户数少,可能是因为用户多用其他方式接入到互联网居多。

为了更进一步的分析在线人数在一天的内的变化趋势,本文把此周的工作日和周末各数据点分别算出平均值,对比工作日和周末的一天内在线人数的变化如图5所示。

对比可知,休息日相对于工作日变化幅度较小。在凌晨5点的最低点,工作日平均在线人数为504291,而休息日的平均在线人数为521274。在晚上19点30分的最高点,工作日平均在线人数为784639,休息日平均在线人数为781152。下表是对工作日和休息日的统计量进行描述,并且计算了他们之间的Pearson相关性。在统计学中,Pearson相关性是用来检查两个变量X和Y之间是否有相互关系(主要是线性相关),它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础上发展起来的。两个变量之间的Pearson相关系数定义为它们的协方差与它们方差积的商,即:

Cov(X,Y)是X与Y的协方差:

分别是X、Y的方差

由上述的定义可知相关系数的取值范围在[-1,1]的区间内,系数大于0则说明变量存在正的相关关系,小于0则表示存在负的相关关系。当相关系数接近1时,说明两个变量之间存在较强的相关性。

通过数据处理,算出工作日和休息日的相关系数如表2所示。

可以看出,工作日的变化幅度较休息日大,但是均值比休息日小,从Pearson系数可知它们的相关性很强,因此它们的变化趋势相近。

2.2 用户上下线随时间变化

我们以5分钟为粒度一天划为288个时段,然后统计每个时段内用户的上下线情况。监测用户的上下线情况有助于我们进一步了解用户的总体行为规律。

由于一周内每天的变化趋势都相似,因此任意选取某天内用户的上下线情况绘成分布如图6所示:

可以看出,上下线的人数也随着时间变化有着相应的规律,上下线人数在凌晨4点到5点间达到低谷,从凌晨5点到上午9点左右上下线人数均有上升的趋势,其中上线的人数较多。在上午10点左右,上下线人数均达到最大值,说明此时用户的上下线活动非常频繁,随后上下线人数趋于稳定。直到晚上20点,下线的用户数比上线的用户数较多,这也与在线人数分布相符合。

为了更清楚地分析上下线人数和在线人数之间的关系,现将在线人数、上线人数和下线人数进行数据标准化,绘出它们的分布如图7所示:

由图7可知,在晚上10点半到凌晨4点的时段在线人数是逐渐下降的,且下降幅度越来越小,上线人数和下线人数也呈下降趋势,且下线人数稍高于上线人数,这说明此时段很多用户开始准备休息。4点到6点期间,在线人数趋于稳定,此时也是一天中在线人数最少的时刻,同时,上下线人数大小也基本保持一致,两条曲线保持重合,数值也是全天中最小值。这说明此时段大部分用户已经休息,而有少部分用户仍然在通宵工作或娱乐。从6点到12点的时段,在线人数大幅度上升,一直达到极大值,且上升幅度先增大再减小,上线人数与下线人数也在上升,上线人数一直稍高于下线人数,这说明此时段用户陆续开始一天的工作和娱乐;6点到9点的时间段内上下线人数与在线人数同时大幅度增加,但上下线人数增加领先于在线人数的增加,此时段人们多在上班的路上,8点到9点期间上下线人数达到最大,在线人数仍然在继续增加,但增加幅度开始逐渐减小,此时段恰好大部分用户刚开始上班,同时也说明会话中存在着大量的短连接,即用户上线后很快下线,关于这个情况会有后续分析。

中午12点到晚上21点的时段,在线人数虽有波动,但变化不大,曲线没有较大起伏,上下线人数曲线一直处于重合状态,对在线人数基本无影响。另外,下午12点到16点,虽然在线人数没有大的变化,但是用户上线人数与下线人数比较少,可推断是因为此时段是上班时间,用户的上下线减少,在线用户中存在较多长会话。下午16点到19点左右,在线人数变化较小,但上线人数与下线人数变化较大,达到一天中极高值,这可能是下班期间,用户在回家的路上用手机上网而导致,人数无大变化说明存在较多的短会话。晚上19点到21点,在线人数保持平稳,但上下线人数较之前减少,此时间是用户吃完晚饭进行晚上工作或娱乐的时间段,因此上下线情况较为稳定,可推断有较多的长会话。晚上21点之后,在线人数逐渐减少,且下降幅度越来越大,下线人数稍高于上线人数,且上下线人数差值也越来越大,这说明大部分用户陆续开始休息。

2.3 用户在线时长分析

根据GPRS隧道协议,本文中定义的用户在线时长为:从GPRS信令采集系统接收到用户的创建响应报文(即用户成功创建PDP上下文)开始计时,到接收到删除响应报文为止的时间间隔[6],在线时间的单位为秒。

通过对一天之内的用户在线时间做统计发现,用户的短连接次数较多,而长的在线时间较少,图8是以5分钟为时间粒度,描绘出用户的在线时长分布图。

图8中,为更清楚的展现会话数与在线时长的对应关系,横坐标与纵坐标均取以10为底的对数值。我们可以看出,会话数与在线时长的分布属于重尾分布,随着在线时长的增加,会话数在不断减少。其中在线时长大部分集中在短的时间段内,说明会话中存在着大量的短会话。也存在多达几天的在线时长,但是这种情况相对较少。表3是计算出的用户在线时长占比表。

3 结论

本文通过分析由GPRS信令采集系统获得的真实移动网络数据,得到了网络所在地的用户会话行为特征规律。文章分别对在线人数、用户的上下线人数、用户的在线时长以及各个指标之间的相关性进行分析。得出了以下结论:移动用户的上网习惯与日常生活规律密切相关,工作日与休息日的在线与上下线分布规律都相同;移动会话多为短连接,在线时长与会话数呈重尾分布,这对运营商进行流量控制具有积极的意义。

参考文献

[1]中国互联网络信息中心(CNNIC).第30次中国互联网络发展状况统计报告[Z].北京:中国互联网络信息中心(CNNIC), 2012. ??CNNIC.The 30th statistical report on internet development in China[Z].Beijing:CNNIC,2012.(in Chinese)

[2]文志成.GPRS网络技术[M].北京:电子工业出版社,2005. WEN Z C.GPRS Network Technology[M].Beijing: Publishing House of electronics industry,2005.(in Chinese)

[3]杨斌.移动通信网中GPRS中Gn接口的信令协议分析[D].重庆:重庆大学,2003 YANG B.The Gn Interface Protocol Analysis In GPRS Of Mobile Communication Network[D].Chongqing: University Of Chongqing,2003.(in Chinese)

[4]王东.GTP协议的安全威胁以及防护方案研究[D].北京:北京邮电大学,2010 WAND D.Threats On The GTP Protocol And The Protection Design[D].Beijing:Beijing University of Post and Telecommunications,2010.(in Chinese)

[5]吴祖光,邹仕祥,徐子平,叶乐,黄标.GPRS隧道协议研究与GPRS模拟环境实现[J].军事通信技术,2012,33(1): 76-80. WU Z G,ZOU S X,XU Z P.GPRS Tunneling Protocol and Implementation of GPRS Simulation Environment[J]. Journal of Military Communications Technology,2012,33 (1):76-80.(in Chinese)

用户行为推荐 篇6

关键词:电子商务,鼠标行为,异常检测,身份认证,特征向量

1 引言

随着互联网的发展,电子商务已经成为人们日常生活不可缺少的部分。然而由于网上交易和网络支付平台的迅速兴起,网络支付安全体系尚不健全,网络购物人数不断增加,各种消费欺诈、用户信息泄漏问题频出[1,2]。网络交易中用户的身份验证普遍采用数字证书的方法[3],但是数字证书使用的用户名、密码等信息易泄露,这种方法并不能很好地解决用户身份可信的问题。

本文研究了通过用户行为模式进行身份认证的方法,提出利用鼠标行为认证的方法,对电子商务中用户购物行为的安全性加以保障。在以往的案例中,对用户行为的建模研究多运用于个性化推荐等方面[4],旨在提升用户的网购体验。本文的方法以电子商务活动中用户的购物行为所产生的鼠标行为数据为研究对象,根据用户特有的鼠标行为进行抽象建模,固化合法用户的鼠标行为模式,进而通过模式匹配判断新的购物行为是否属于异常行为。该策略无需辅助设备,可直接部署使用,不存在硬件设备的时效性和携带不便问题,便于优化用户操作体验。

2 基于鼠标行为的异常行为检测方法

2.1 异常行为检测原理

用户在电子商务网站实施的操作是多样化的:登录网站,浏览选购商品,加入或清空购物车,提交或取消订单等。在讨论用户异常行为时,类似于清空购物车,取消订单等的行为,对用户的钱财不会造成损失。所以本文选择了对用户利益可能有实质性伤害的有序行为,即要购买某个商品必须操作的流程,进行分析。

可以把这些流程抽象成一个类似自动机的模型。自动机有状态集,初态,终态,输入字符和转移函数,在某个状态下,输入某个字符,根据转移函数就转移到相应的状态[5]。图1 表示了抽象的类自动机模型。该“类自动机”可以表示为5-元组D=(Q, ∑, δ, q0, F),其中:

(1) Q是非空有穷集合,称为状态集。图1 中用圆角矩形表示,每个圆角矩形表示一种状态。

(2) q0是开始状态,就是说类自动机在还未处理输入的时候的状态。图1中初始状态为“未登录”状态。

(3) F是终止状态集合(F⊆Q)。图1 中终态有两种,即两种判断结果状态:正常与异常状态。

(4) ∑ 是抽象符号的有限集合。图1中,∑={0,1}。字符1抽象表示满足一定的条件,0表示不满足该条件。

(5) δ 是状态转移函数。

在此模型中,当输入字符为0 时,即该阶段的鼠标行为特征向量不匹配时,则当前状态直接转移到终态集中的异常状态,判断出当前用户行为是异常的。只有每次输入的抽象字符是1,即每个阶段的鼠标行为特征向量都匹配时,才能最终转移到终态集中的正常状态,判断出当前用户的行为是正常的。综上所述,检测异常行为的过程就是运行该“类自动机”的过程。

运行上述“类自动机”过程中,最重要的环节是判断每个阶段的输入符号为1 还是0,即每个阶段的鼠标行为特征向量是否匹配,具体地可以这样操作:利用该阶段时用户的鼠标行为数据,通过数学运算得到鼠标行为特征值,并利用基于欧式距离的K-Means聚类算法生成当前用户鼠标行为特征向量,并与之前根据训练阶段所采集的鼠标行为数据分析生成的正常用户行为特征向量,进行匹配,超过一定的阈值,则可以判断出当前行为属于异常行为,否则为正常行为。整个过程如图2 所示。

2.2 鼠标行为特征向量定义和匹配

考虑到在一般的电商网站中,很少或基本不会进行双击操作,所以主要采集鼠标单击和移动两种操作产生的数据。单击时采集数据项有:网站页面序号,X、Y轴坐标值,时间戳,其中网站页面序号这个数据项代表了用户购物的状态,表示用户进行到登录、浏览、下单等几个阶段中哪一步。使用上述数据项,通过数学计算可得到单击时间间隔,单击范围分布等。在采集移动鼠标数据时,需要预先设定一个采样率[6]。移动时采集数据项包括:网站页面序号,X、Y轴坐标值,时间戳。通过这几项数据,后续可以计算出移动速度,加速度,移动角度值等特征属性。

K-Means聚类算法是一种迭代的聚类算法,该算法事先设置K值,算法的结果是将数据划分为K个簇集和相应簇心。每个簇集的簇心就是该簇集中所有数据的均值,物理意义就是簇集中数据的行心[7]。

鼠标行为特征向量的设计,可以利用上述采集到的特征属性值和K-Means聚类算法。考虑到应用环境为电子商务购物网站,在购物过程中每个状态跳转都可以定义独特的特征向量。具体地,如在图1 中从“未登录”状态转移时,考虑到每个用户的手速和操作习惯等不同,可以把单击时间间隔均值及其标准差作为特征向量的一部分;另外,单击区域也因人而异,可将采集到的大量单击点坐标,通过基于欧氏距离的K-Means聚类算法,得到最密集簇的簇心坐标作为特征向量的一部分。其余的状态转移时设计的特征向量类似于上述内容,故不再赘述。

特征向量的匹配,则需要计算特征向量间的距离。考虑到特征向量中的各个特征分量的数量级和单位不同,可以先对特征向量中的各个特征分量做归一化处理,然后求特征向量之间欧式距离。若该距离超过一定的阈值,则可以判断出待测的特征向量异常,检测流程直接跳转至异常状态,拒绝该用户的后续操作。具体如图3所示。

3 实验结果分析

实验有6名用户参与,采集这些用户在购物网站中产生的鼠标行为数据,生成行为特征向量,使用上节所述的检测方法进行用户身份的识别。实验中采用Failed Acceptance Rate(FAR,漏检率)和Failed Rejection Rate (FRR,误检率)[8]两个指标进行效果分析。最终实验结果如表1所示,从表中数据可以得出:该方法的平均FAR为10.50%,FRR为9.72%,说明系统可以较好地识别用户,检测出异常的用户行为。

4 结论

本文针对电子商务中频繁的用户身份冒用现象,给出了利用用户鼠标行为特征进行用户身份认证,进行用户行为异常检测的方法。该方法不需要额外的硬件辅助,只需要在购物网站中嵌入代码采集用户鼠标数据就可以对用户身份进行识别。同时用户鼠标行为特征信息区别于传统的用户名密码信息,具有独特性、不易模仿性和不易盗取性,运用到电子商务用户身份认证领域,具有一定的实用价值。

参考文献

[1]胡伟雄.电子商务安全与认证[M].北京:高等教育出版社,2010.

[2]中国互联网络信息中心.第31次中国互联网络发展状况统计报告[DB/OL].(2013-01).http://news.xinhuanet.com/tech/2013-01/15/c_124233840.htm.

[3]朱玲玲.网络安全中的用户身份认证机制[J].中国科技信息,2006,1(1):46-47.

[4]吴胜兵.Web数据挖掘的应用与研究[M].南昌大学,2007.

[5]Hopcroft J E,霍普克罗夫特,Motwani R,et al.自动机理论,语言和计算导论[M].机械工业出版社,2004.

[6]Pusara M,Brodley C E.User re-authentication via mousemovements[C]//Proceedings of the 2004 ACM workshop on Visualization and data mining for computer security.ACM,2004:1-8.

[7]Machine learning:An artificial intelligence approach[M].Springer Science&Business Media,2013.

互联网用户异常行为检测 篇7

入侵检测[1] (Intrusiondetection) 作为一种主动的防御技术被期望实现对网络攻击的全方位检测。ADAM[2], MADAMID[3]和MINDS是采用关联规则的经典算法。ADAM算法主要使用单层关联规则挖掘模式寻找连接记录各属性之间的关联关系, 使用多层关联规则挖掘模式来发掘IP地址的高层抽象的关联规则, 随后将设计全程变量记录某些特征属性的统计值, 但是算法是对已知攻击特征的理解和分析, 并不能为发现新的入侵特征提供支持。MADAMID算法利用挖掘到的频繁模式进行特征构造, 使用分类学习算法进行入侵检测。但是, 所构造的特征只是有限的几个统计模式, 没有构造出新的特征和未知的模式。MINDS使用无监督技术, 对每个网络连接设置一个值, 用来反映每个连接的异常度, 对标记很高异常度的网络连接进行关联模式分析发现异常行为, MINDS存在需要训练集进行分类和只分析数据的头部而没有分析负载数据的问题。由于传统的基于关联规则技术的入侵检测算法是对全部历史数据进行等同学习, 不能准确反映网络的行为特征, 另外, 网络数据具有海量、数据持续到达等特点, 上述算法进行关联模式挖掘需多次扫描数据信息, 无法适应网络数据流信息的特征。

基于前面的分析, 入侵检测系统 (IDS) 行为度量存在如下不足:传统的IDS主要是监测用户的系统行为日志, 根据用户的行为/事件的输入/输出进行监测或预警。其典型的异常行为监测模型基于系统调用序列异常模式和参数的检测方法[4]。这类方法的主要缺陷为:一方面没有全面地对行为进行度量, 通常只注重网络访问者用户系统行为, 而忽视对网络行为的监测;另一方面基于监控系统行为日志的异常行为监测实时性不高, 并且存在较高的误判率。当前的入侵检测是一种后置检测, 缺乏动态适应性。因此本文提出行为的定义, 对网络行为进行异常分析, 针对不同的应用场景采用基于向量空间和语义的行为异常检测算法。仿真实验表明与传统的入侵检测方法相比, 本文方法有较好的环境适应性和较低的误判率。

1 异常检测总体框架

异常检测的对象一般是本机当前的一段行为序列, 记为q, 通过一定的方法, 来判断序列q是否存在异常。在判断过程中可以利用的资源有本机的历史行为序列h, 以及本机所在网络环境的群体行为序列集合c。异常检测作为一种模式判定应用, 往往存在一定的误判, 因此需要从多角度对行为进行检测, 综合做出判断, 以降低误判的几率。为了达到这个目标, 本文提出了一种二维异常检测框架来实现综合判断目标。一方面, 将本机上的当前行为序列和该机上的历史行为序列进行模式匹配, 检测其在纵向的时间维度上是否存在异常;另一方面, 将本机上的当前行为序列和该机所在环境的群体行为序列进行模式匹配, 检测其在横向的群体维度上是否存在异常。最终, 将两个维度上的判断按照统一的参数模型融合起来, 做出综合的异常判断。具体过程如图1所示。

网络行为定义:社会学中[5]认为, 行为是人类在生活中表现出来的生活态度及具体的生活方式, 它是在一定的物质条件下, 不同的个人或群体, 在社会文化制度、个人价值观念的影响下, 在生活中表现出的行为的基本特征, 或对内外环境因素刺激所做出的能动反应。因此, 网络中用户的行为可以由4个基本要素构成, 即网络行为承担者、行为环境、行为目的、行为动作, 具体描述如下。

1) 行为的承担者。

网络中用户的承担者的发起者包括两个要素:发起者的ID, 发起者受体的ID可以用二元组P= (ID, ID') 进行描述。

2) 行为的网络环境。

用户行为的网络环境包括网络行为发生的时间、用户行为所涉及的通信协议、周围用户的状态和用户客户端本身所运行的进程。因此, 用户行为的网络环境可以描述为四元组:E= (HT, CP, PR) , 其中:HT表示网络行为发生的时间;CP为用户行为所涉及的通信协议集合, P= (P1, P2, …, Pn) ;PR为用户的进程集合, PR= (PR1, PR2, …, PRn) 。

在本文提出的模型中, E= (HT, CP, PR) 。

3) 行为目的。

网络中用户行为目的是指用户根据自身的需要, 借助计算机网络作为中介, 预先设想的行为目的。在现实的计算机网络中, 可以映射为用户所需要获取的资源和服务, 可以用如下序列描述M= (S1, S2, …, Sn, π1, π2, …πm) 。其中S1, S2, …, Sn为用户想要获取的服务, π1, π2, …, πm为用户想要获取的资源。

4) 行为的操作序列。

用户行为的操作序列定义为O= (a1, a2, …, an) 。

行为的4元组为 (P, E, M, O) , 该4元组使用下面论述的向量空间归一化操作, 可以映射到n维空间中的一个n维向量。

2 基于向量空间的检测方法

不同的网络环境中对行为预期要求的严格程度不同, 对计算速率要求也不一样。例如生产型信息系统所在的网络中, 要求用户的输出必须落到预期的输出范围内, 而且对实时性要求很高。根据文献[6]中所述, 对生产型信息系统本文采用基于向量空间的检测方法。

在建模阶段, 每段文本都被看作一个词元集合, 通过统计词频 (term frequency) , 其被转换为一个词频序列。在本文中, 网络行为序列有着和文本相似的结构, 其中以行为作为维度来构筑向量空间, 行为序列是分析的对象, 将被映射到空间中形成对应的行为向量。

当网络行为序列被映射为向量空间中的行为向量后, 我们就可以进入匹配阶段来计算行为序列之间的相关度了。顺理成章地, 向量的空间距离是衡量行为向量两两之间的相关度的合理指标。实际应用发现, 在空间距离匹配体系里, 序列的长度往往会影响到相关度的衡量。例如, 两个本来很相似的行为序列, 其中一个序列由于记录的时间较长而比另一个序列长了好几倍, 从而映射为行为向量后, 每个行为维度上的取值都比另一个序列按比例高了好几倍, 其在空间中的表现就是这两个行为向量方向相近, 但是长短差了很多, 如果直接用空间距离来表征相关度, 就会显示这两个序列相关度很低, 而带来很大的误差。因此, 在计算空间距离前, 一般需要对向量进行归一化, 可以解决向量因为长度不一而在匹配上带来的误差。归一化之后, 由于向量之间的空间距离和两者之间的夹角是正相关的, 而向量夹角又是与向量点积正相关, 所以一般选用向量点积来表征向量的匹配度Sim:

其中, Vq, Vh分别表示两个向量。通过模式匹配算法得到当前序列和历史序列之间的匹配度Sim (q, h) 以及当前序列和群体序列集之间的匹配度Sim (q, c) 之后, 我们通过融合算法将两者进行结合, 得到总的匹配度, 以做出异常决策。在这里, 融合过程本质上是一个插值过程, 选用比较流行的线性插值法即可, 其形式为:

其中参数a可以通过训练方法来确定。

3 基于语言空间模型的检测方法

对于普通的网络环境, 异常检测的计算应该符合通用性原则, 根据文献[7]所述, 基于语言空间的异常行为模型具有通用性的计算特点, 因此通用网络环境, 本文采用基于语言空间模型的检测方法, 本方法的建模方法以行为作为基本单位对序列进行频率统计, 并按照倒文档频率行为进行信息量加权。同时, 相较于空间向量模型的建模过程, 本方法在建模对象和建模上存在两点不同。在建模对象上, 本方法只针对以序列或序列集为特征的某个主体进行建模, 在本框架中, 只对本机历史序列h和群体序列集c进行建模。在物理意义上, 与空间向量模型中不同的是, 序列在本方法中的建模结果不是一个空间向量, 而是一个统计概率模型。以本机历史序列h为例, 其中每一个行为t在模型中都有一个对应的产生式概率p (t|h) , 也即在以序列h为特征的本机主体发生行为t的概率为p (t|h) 。同理, 群集行为集c的建模结果为p (t|c) 。

值得注意的是, 在序列h或是序列c中没有出现的行为t, 原则上p (t|h) 或是p (t|c) 的值是0, 但为了计算的合理性, 都对其做一定程度的平滑, 用一个很小的概率θ来代替0。这些θ值一定程度上会影响到模式匹配时的相关度计算, 因此我们在本方法中采用先融合、后匹配的顺序, 通过融合算法, 将θ值的数目尽可能减少, 以提高计算的准确度。为了达到上述目的, 这里采用Bayes插值的方式来进行融合, 其表达式为

其中, Tt│h为事件t在历史序列h中的频率, Len (h) 为历史序列h的长度, 而p (t|h) 为Tt│h/Len (h) , a为插值参数, 可以通过训练确定。

通过融合算法得到统一的产生式模型p (t|hc) 后, 就可以通过匹配算法计算相关度了。在产生式模型里, 对于当前的行为序列q, 以模型h、c产生该序列q的概率p (q|hc) 作为相关度表征, 表示成公式为

其中Tt│h为ti行为在q里发生频率, p (ti|hc) 为模型hc产生行为ti的概率。在本匹配算法里, 当前序列q里的行为ti若在历史序列h和群体蓄力集c里都很少发生, 说明本行为不是很正常, 若q含有的不正常行为越多, 则该序列是异常的可能性则越大。

4 实验仿真

本文的仿真实验主要模拟具体的应用场景及用户之间的交互行为。随着信任模型研究的增多, 为了评估信任模型在P2P (点对点) 环境、Adhoc和普适计算环境中的效果, 本文通过不同的场景来验证本文提出的方法的有效性、效率和环境适应性。

本文通过Net Logo模拟软件仿真了一个网络环境来对本文的提出的用户行为预测模型及其算法进行性能分析, 试验环境为Intel core双核2.66 GB, 内存2 GB, Win7平台上使用Net Logo对网络环境中的实体行为进行仿真。表1为实验参数。

1) 实验中实体有2种角色, 分别为普通用户和服务器, 服务器对用户行为的评估的和用户自身对行为的评估独立进行, 不受到其他用户的影响;

2) 实验中设定了个体最小相似度为λ=0.7, 如果相似度小于0.7就认为当前行为和个体可信行为不相似;

3) 行为预测评估模型中的n1、n2、N分别初始历史行为的数量和群体行为的数量以及网络环境中的实体数目, 上述参数的设定与具体的网络应用场景有关。

通过对网络用户的行为的度量, 来判断该行为是否是攻击行为, 从而进一步确认该网络访问者是否是可信的。下面说明了个体可信行为特征库可信行为数量的增加对行为判断正确率的影响。设在Δt时间内, 系统检测了用户的可信行为有x (t) 个, 恶意行为有y (t) 个, 设该群体中的已经判断为恶意用户的比例为α, 那么MR (恶意行为成功检测率) 可以描述为

本文模型和文献[7-8]中提到的传统的入侵检测机制进行比较, 图2和图3是根据群体中被感染的个体百分比来来进行MR的比较。

从模拟的结果来看, 本文方法比传统的方法更能有效地检测出恶意行为, 从而能更有效地保护网络中的用户群体。

参考文献

[1]罗守山, 温巧燕, 杨义先.入侵检测[M].北京:北京邮电大学出版社, 2004:47-48.

[2]BARBARA D, COUTO J, JAJODIA S.ADAM:A tested for exploring the use of data mining in intrusiondetection[J].SIGMOD, 2001, 30 (4) :l5-24.

[3]STOLFO S J, LEE Wenke, CHAN P K, et a1.Data mining based intrusion detectors:An overview of the Columbia IDS project[J].SIGMODRecord, 2001, 30 (4) :5-14.

[4]ITU-T Recommendation X.509.Information technology.Open systems interconnection.The directory:Public-key and attribute certificate frame works[S].

[5]王瑞鸿.人类行为与社会环境[M].上海:华东理工大学出版社, 2002:1-12.

[6]BUDANITSKY Alexander, HIRST Graeme.Semantic distance in word net:An Experimental, Application-oriented evaluation of five measures[EB/OL].[2013-02-18].ftp://ftp.cs.utoronto.ca/pub/gh/Budanitsky+Hirst-2001.pdf.

[7]WUU L C, HUNG C H, CHEN S F.Building intrusion pattern miller for Snort net work intrusion detection system[J].Journal of Systems and Software, 2007, 80 (10) :1699-1715.

网络用户的信息行为研究综述 篇8

1.1 含义的研究

网络用户是指在科研、教学、生产、管理、生活以及其它实践活动中需要和利用互联网、局域网等网络获取和交流信息的个人与团体[1]。目前, 对于用户信息行为的含义, 比较成熟的主要是针对传统用户信息行为, 主要有以下3种:

⑴在动机支配下, 用户为了达到某一特定的目标的行动过程[2]。⑵在认知思维支配下对外部环境做出的反应, 是建立在信息需求和思想动机基础上, 历经信息查寻、选择、搜集各过程, 并为用户吸收、纳入用户思想库的连续、动态、逐步深入的过程, 如明确信息需求实质、选择适当的信息系统、制定正确的检索策略[3]。⑶人类运用自己的智慧, 以信息为劳动对象而展开的各种信息活动, 即人类的信息查询、采集、处理、生产、使用、传播等一系列过程[4]。

参照以上定义, 网络用户信息行为, 就是指网络用户在信息需求和思想动机的支配下, 利用网络工具, 进行网络信息查寻、选择、吸收、利用、交流和发布的活动。

1.2 类型的研究

根据网络用户产生信息需求到吸收利用信息的一系列过程, 将网络用户信息行为分为信息需求行为、信息查寻行为、信息浏览行为、信息选择行为、信息利用行为等。

⑴信息需求行为。用户的信息需求是产生信息行为的原动力。⑵信息查寻行为。查寻行为在所有信息行为的研究中占主导地位。曹树金、胡岷等学者对国外的网络信息查寻行为研究进展进行了探讨, 发现克洛巴斯等学者已经构建出了行为意图模型, 该模型能更好地解释人们对电子信息资源的利用[5]。⑶信息浏览行为。用户的信息浏览行为可以直接地评价网络信息资源的利用程度。林珊如学者通过实证研究, 提出了一个浏览行为的多面性概念架构和浏览行为的影响因素[6];邓小昭学者总结了浏览行为的方式、目的、优点与局限[7]。⑷信息选择行为。信息选择行为即是依据一定的判断标准对查寻到的信息进行选择。信息选择的判断标准主要有相关性和适用性。⑸信息吸收与利用行为。这方面的研究成果较少。鲁安民学者认为信息行为蕴含着信息吸收, 信息吸收是信息行为的延伸和升华。他探讨了信息吸收的基本形态和本质, 分析了信息行为并建构了它与信息吸收之间的关系, 分析了影响用户信息行为与信息吸收的因素[8]。

2 研究视角

2.1 不同网络用户的信息行为

针对特定网络用户信息行为的研究成果有:⑴学术性用户上网的主要目的是查找专业信息, 主要是使用互联网的发送电子邮件、查询图书馆目录等功能, 他们对高质量的数字信息资源需求比较大[9];⑵大学生以信息获取行为为主, 而信息发布、交流、咨询的行为较少[10];⑶研究生上网的主要目的是查寻专业信息, 其获取信息的首选方式是数字图书馆, 其次是网络搜索引擎, 且对数字图书馆提供的信息服务评价普遍比网络信息资源高[11]。

2.2 网络用户信息行为的心理学研究

葛园园学者应用精神分析学说中的核心理论, 从用户信息需求的本能分析、人格三重结构与用户个性分析、潜在信息需求分析、唯乐原则与用户信息行为倾向等4个方面, 揭示其内在本质关联性, 期望为用户心理研究开辟一块崭新的天地[12]。

2.3 网络用户信息行为的方法研究

国外的网络用户信息行为研究方法主要是问卷调查法和搜索引擎日志分析法。研究成果如A.Spink等学者利用搜索引擎Excite的查询记录来分析用户的提问式长度、检索词的分布、相关反馈的利用以及用户图像信息需求的表达等[13]。而国内主要是采用实证分析方法, 研究成果如巢乃鹏学者采用实证研究的方法, 详细分析了用户的信息查询行为, 对影响用户信息查询行为的因素进行了分析, 并构建了我国网络用户信息查询行为的模型[14]。王建勇等学者通过对我国“天网”中英文搜索引擎的查寻日志进行分析得出用户查寻行为的分布特征及启示[15]。

摘要:网络用户信息行为, 就是指网络用户在信息需求和思想动机的支配下, 利用网络工具, 进行网络信息查寻、选择、吸收、利用、交流和发布的活动。

汽车用户再购行为及对策分析 篇9

根据世界各国乘用车市场发展的经验,可将乘用车市场根据千人保有量的数值划分成三个阶段:千人保有量在20辆以下称为起飞期;千人保有量在20-250辆之间为普及期,以100辆为界,普及期又分前后两期,前期增长迅速,后期销量增速放缓,购车需求由新购需求转向增换购需求;千人保有量一旦超过250辆,乘用车市场将会进入复数保有期,在这个时期,汽车销量基本稳定,千人保有量变化不大,汽车销售主体将主要由增换购用户构成。

当今中国处于乘用车市场发展阶段的普及期,城市级别不同,发展快慢不同。2014年相关数据表明,很多一、二线城市的千人保有量已过百辆,也就是说,这些城市已经率先进入了普及后期,此后,增换购需求将在这些城市持续增多,再购用户将成为这些城市未来汽车市场的主要购车人群。

仅看换购的情况,中国从2003年汽车普遍走入大众家庭,到2009年销量达到766万辆,迎来了汽车市场的第二轮高速增长期,按照新车购买者首次换购周期规律(7年之内换车比例为37.8%)计算,未来三年,将迎来一个大的换购高峰,预计换购需求会占到总需求比重的25%左右。

此外,当前的一些政策也将助推增、换购需求进一步增长。限购政策频出,新购消费被抑制。鉴于空气质量、城市交通的双重压力,城市限购趋势日益严峻,且有向二、三线城市蔓延的倾向。为了解决交通、停车等问题,很多城市频频出招,至今限购城市已达八个,这些都抑制住了大量的新购消费。

单独二胎的放开,也有望影响未来的汽车市场。很多家庭为了二胎,会考虑换一台汽车,或者多买一辆车来满足出行需求,具体表现为,一线城市有限购压力,较多用户会选择换购,而没有限购压力的城市则导致换购和增购用户均有所增长。

因此不难看出,在未来的这个汽车市场中,增换购用户逐渐成为市场的主力人群。那么他们和首购用户相比有哪些典型特征?他们的汽车需求有哪些不同?他们喜欢哪些车型和品牌?什么样的营销方式对他们最为有效?便是很多厂家和经销商想要了解的问题。下面,我们将一一进行叙述。

再购用户群体特征

仍以男性为主,但增购女性比例占比大。这是因为,在2009年及以前,男性在汽车用户中占绝对主体,比例占到总体购车人群的75%以上,近5年以来,女性用户比例在不断攀升,也只占到可总体比例的30%,男性在汽车保有用户中的高比例,造成换购用户仍主要以男性为主;此外,也正因为汽车保有用户中以男性为绝对主体,大多家中的第一辆车是给一家之主的男性所用,所以增购车辆往往是给妻子购买,造成增购用户中女性比例较高。

已婚,中年男性,多为私营业主和公司管理层。与首购用户相比,再购用户年龄要大些。调查数据显示,增换购用户35岁以上的比例高,占到总体比例的55%左右,而首购用户35岁以上的比例仅占42.3%。从用户所在的单位类型上看,再购用户中个体户和经营业主的比例较高,在外资、合资企业工作的比例低于首购用户,两个群体在党政机关和事业单位中的比例差别不大,但是职位有高低之分,一般来说,首购用户以一般员工为主,在管理岗位的较少,而再购用户中大多已身处管理岗位,甚至很多人已经做到公司高管的位置。

家庭收入明显高于首购用户,从事经营和利润率较高的行业。调查数据显示,增、换购用户和首购用户的家庭收入在20万以上的比例分别为54.2%和35.4%。从行业来看,再购用户更多从事建筑业、房地产业、住宿餐饮业和批发零售业等经营和利润率较高的行业,受经济影响较大,因此,当经济状况不好时,换购和增购的行为更容易受到影响。

再购用户的购车特征

如果我们把汽车需求分为基本需求、体验需求和彰显需求三个方面,那么相比于基础类需求,再购用户更加重视体验类需求和彰显类需求。“消费者在不同的消费情境下和不同的生命阶段中会有不同的优先需要”,在第一次购车时,用户主要还是解决出行的工具性需求,人们更多关注的是安全、质量、价格、使用成本等基本需求,而二次购车时,人们在满足基本需求之外,对体验类需求和彰显类需求要求的会更多一些。这是由于增换购的特性决定的,有研究证明,人们在换购的时候,总是会以前车为基准,大方向是比前车更好,相对于前车,对车的需求更细、更多、更全面,增购车辆也是这样。由于他们关注的需求点不同,从而导致人们在首购和再购时的重视因素也有所不用,相比之下,再购用户对于能够彰显品位的品牌和车身大小,对于能够带来良好体验感觉的空间、舒适性、动力性等都有较多的要求。

再购用户对产品的认识更加理性,需求更加明晰。北京的贾先生,2007年刚结婚的时候买了一辆标致206,因为喜欢标致的品牌,车子刚买的时候也还好,平时老婆上班有班车,这辆车仅供自己上下班代步使用,可是一年之后老婆怀孕,之前那辆车就明显觉得空间不够用了。这时他需要换辆车,决定换车后,他迅速理清思路,他说他当时需要的是这样一辆车:家庭代步车辆,要省油,因此要买轿车;空间比之前的车要大,可满足一家三口出行需要;考虑到老婆有时偶尔会开,要选自动挡;此外外观要好看,品牌为合资品牌。在这些条件的筛选下,他最终选择了轩逸,这个车很好的满足了他的所有需求。当时问他为什么没换个更大的车,他说因为自己两年后还有增购计划,这次换购只是为了满足当前的需求,两年后等孩子再大些,家里会再增购一辆中级大小的SUV,方便带孩子去郊游。由此可见,再购用户因为对车有较多认识,因此在选购车辆的时候会更多的从实际需求出发,购买适合自己在某个阶段所需要的那辆车。

nlc202309021326

再购用户对4S店依赖较弱,他们较多依赖以往用车经验和汽车专业网站获取信息。首购用户的购车流程一般是这样的,首先他们会根据资金多少设定购车预算,根据预算、结合身边人的推荐信息,初步筛选出一些车型。之后,消费者会在网上对这个价格范围内的所有车型进行比较和评估,并通过身边有经验的亲戚朋友深入了解这些车型的口碑、性能和外观设计等信息,最终筛选出心仪的两至三款车型;第三个环节就是去4S店体验,看外观、体验车辆的舒适性、了解价格和促销信息,最终确定购买。而再购用户的购车流程却大不相同,他们已经有了较多的用车经验,对各个价位、品牌汽车的情况已经比较熟悉,一般来说,给他一个预算,他就会在短时间内框定几款备选车型,因此对于他们来说,一旦决定购买,要做的事情只有两个,对既选的车型进行比较和去4S店砍价购车。比较车型时,他们也更喜欢在网上搜寻信息,对比各种具体的配置和参数,浏览网上论坛上大家的意见,最终选定车型,而4S店多是用来询价和最终购车的场所。

再购用户的具体购车偏好

中高级三厢轿车仍是再购首选。再购用户购车仍以三厢车为主,但与首次购车相比车辆级别有明显提升。有调查机构曾专门就“您准备增购或换购汽车吗?”进行过一次网络问卷调查,结果显示,从有购车意向的车主再购车时所选择的车型级别来看,再购车辆高端化趋势非常明显。这跟首次购车的级别偏低也有关,首购用户中A级及以下轿车比例占到近八成左右,所以再购时,很多人会选择在三厢车内部升级的模式,从之前的小级别升级为高级别,因为之前的车确实太小了。这样选择的结果就是导致增换购的轿车用户中B级及以上比例上升到50.6%左右,中高级三厢轿车成为再购用户的首选车型。

除了级别,价位、变速箱、排量和配置都要求升级。首购和再购用户在预算上差别很大,70.1%的首购用户购车预算在15万以下,这时的他们刚刚步入社会,手头资金有限;而当他们再购车时,事业大多上了一个台阶,手头的可用资金富裕了一些,自然要提升预算,这时,65.3%的用户预算在15万以上。

在变速箱选择上,再购用户较多会选择自动挡。数据显示,有74.3%的再购用户会选择自动挡,而首购用户选择自动挡的比例为53.4%。他们之所以如此偏好自动挡有三个原因,第一从车辆供给的角度来看,级别和价位较高的车辆自动挡的选择多;二是再购时,“升级”的概念无所不在,人们普遍都觉得自动挡更高档;第三个原因是,很多首次购车用户之所以选择手动挡是要练手,“怕不开手动挡之后不会开”,这个理由在再购时当然已不复存在,且在体验过手动挡在交通高峰时的艰辛之后,自然也就放弃手动挡了。

再购用户对排量的选择也同样发生了变化。大部分用户首购时多选择“1.6L以下”和“1.6L-2.0L”,而他们再购车辆时,选择1.6L以下的比例骤减,选择“1.6L-2.0L”的比例也从50.5%下降至38.1%,而选择“2.0L-3.0L”则从11.4%上升至42.9%。因为再购车主收入高了,对车辆空间、动力开始有了更高的要求,大车身、高动力必然要求汽车搭载大排量的配置。

对比首购和再购用户选择不同车型版本的选择时,会发现选择中等配置依然是受访者选择的主力,但选择低配车型明显下降。其中,他们比较关注的配置有舒适类、安全类和动力性的配置等。当然,这也跟再购用户有较多的用车经验有关。刘先生就是这样,他说再购和首购相比,最大的区别就是有用车经验之后对配置要求会更高一些。比如路边停车时,每次停完车都需要手动把后视镜折一下,防止被路边的车刮到,那么再购车时,就会对太阳镜自动折叠功能有要求;又比如第一辆车是手动调节座椅,买的时候觉得无所谓,但是每当冬天用手拉动拉杆座椅调节拉杆被静电狠狠的电到的时候,都会想下次买车一定要求座椅是能够电动调节的。

偏好中高端品牌、偏好德系品牌。中国消费者的品牌忠诚度并不高,三成用户再购时出于尝新的心理需求,会主动选择另外一个品牌,此外,其他品牌新车型和促销力度的吸引,以及对原有品牌和产品或多或者的不满,都在不同程度上导致了品牌迁出。那么,当用户再购车辆时,他们都迁入到了哪些品牌呢?哪些品牌更能吸引再购用户呢?

中低端品牌迁出率较高,中端和高端品牌迁入率较高。郭先生,是北京一家公司的高管,年底打算再购一辆车,他说:“我现在经济收入比以前好了很多,在公司也做到了高管的位置,因此再买车肯定会考虑一些面子需求,还会考虑一些商务上的需求,要跟自己的地位匹配的上,所以对品牌要求很高,必须是高档的、豪华品牌”。对于郭先生这样的商务人士,汽车已经不仅仅是代步工具那么简单,必须符合其身份地位,豪华品牌是他们的首选。郭先生的例子随处可见,人们在再购汽车时,品牌也要求“升级”,人们期望品牌也能越买越好,因此中高端品牌成为再购首选。

从车系来看,德系更受再购用户欢迎,日系品牌迁出率较高。日系车依其靠省油、人性化设计等确实吸引了不少年轻的首购用户,但是“铁皮薄”、“不安全”和价格近年来走较低的路线,都影响到了用户的再购选择,因此再购时他们更多会选择外观大气、敦实的德系品牌。

对SUV车型偏好明显。调查数据显示,首购用户选择轿车、SUV和MPV的比例分别为79.6%、17.1%和3.3%,而再购时选择以上三种车型的比例分别为65.4%、28.8%和5.8%。两组数据对比不难看出,再购用户对SUV车型偏好明显。近年来SUV车型持续升温,各品牌经销商对SUV车型持续吹捧,自然让SUV车型成为许多再购车主的新选择。

这主要是因为SUV产品的独特性给再购用户带来了特别的享受,很好的满足了他们多方面的需求。在产品层面,SUV座位高、视野好、空间大、外观好看,这些产品特点能够很好的吸引许多第一辆车买的是轿车尤其是小级别轿车的车主;在用途层面,SUV除了日常家用之外,也能适合休闲旅游用,满足了很多再购用户已经结婚生子,有带孩子外出、郊游等方面的需求;在心理层面,从轿车到SUV还能带来一种新鲜感和新的驾驶感觉。因此,SUV受到了再购用户的追捧就不难理解了,且可以预料的是,SUV会随着人们生活方式的休闲化、二胎政策的继续推进,将继续火爆汽车再购市场。各品牌厂商想要在再购市场上站稳脚跟或一鸣惊人,必须推出一两款有竞争力的SUV车型。

针对再购用户的营销策略

各厂家和经销商应充分重视再购这一用户群,并根据其用户特征、购车偏好等制定区别于首购人群的一套营销策略,向他们提供更专业和更人性化的服务以满足他们的需求,汽车经销商也需强化销售人员的培训,让销售人员对再购人群的群体特征和产品需求等了然于心,从而对其进行有针对性的推荐和营销。在营销时,应主要以下几点:

首先,必须清楚了解再购用户的用车历史和购车需求。包括:之前家里的车辆的拥有情况、此次购车是增购还是换购、增换购的原因,以及想要满足的主要需要等,只有了解到这些背景资料,才能有可能对其进行针对性的推荐和营销。

第二,强调“升级”和“高端化”概念。再购用户在买车时无时无刻不在跟自己以前的那辆车相比较,因此突出当前产品针对于前车的优势很重要;并且人们在增换购时,“升级”的概念无所不在,包括级别、价位、品牌、排量、配置等,因此“升级”和“高端化”的概念一定要通过营销话语体现出来并灌输到位,要尽量满足人们再购时的心理需求,让他感觉这辆车确实在很多方面都是比之前那个车好,且有“升级”和“高端化”的感觉。

第三,多介绍内涵指标,尤其是针对安全性、舒适性和操控性等指标多做介绍和宣传。相比于一些质量、使用成本等指标,再购用户对舒适性、舒适性和操控性等更关注,可以尝试在这几个方面的营销话语上多下功夫,提出几个能够打动用户的配置很重要。此外,如果车的性能好,尽量安排试乘试驾,换购车用户都有用车经验,只要车好,他能感觉得到!

用户用电行为分析技术研究 篇10

近年来,在电力用户分类方面已经有一部分学者展开了相关的研究,冯晓蒲[1]等基于传统行业划分, 对用户进行聚类分析研究,但其不足之处在于忽略了用户间不同的用电方式;王璨[2]等主要从用户价值体现方面进行分类,不足之处在于划分方式过于宏观; 李培强[3]等从变电站负荷出发,采用均值聚类方法进行用户用电的分类,该方法效果较好;阮文骏[4]等也针对电价进行研究,但并未把用户分类差别考虑在内。

本文首先分析和整合了用户用电量的相关数据, 然后基于云计算的聚类算法进行用户个性化分类研究;并在此基础上设计模型进行非介入式用电负荷分解与识别研究,以期挖掘出用户类型,帮助电网公司制定相应的需求相应,达到节能减排的目的。

1用户电量数据分析与整合

1.1用户电量数据分析

以现在的小区为例,用户的用电信息历史数据主要包含以下类型:家庭地址、单元门号等家庭基本数据信息;电表序号、居民用电量以及电量抄记日期等用户用电信息采集数据;天气、温度等相关环境数据; 家电类别、用电量与用电时长等家居数据。假设有100万户家庭,仅仅一天产生的数据量就高达将近60GB的数据。本文希望能采用数据挖掘技术,从这些存储的海量数据中把其中更高价值的知识挖掘出来。

1.2用户电量数据整合

在整合用户电量信息数据时,本文以用电量为指标,建立了用电基本数据表、用电设备表以及用户信息表,分别从用电时长、用电家居信息以及用户数据方面存储并整合采集到的用户电量信息数据,为数据挖掘的开展提供数据基础[6]。用电基本数据表包括电表序号、设备ID、用电时长以及总用电量,据此可以建立数据仓库模型;用电设备表内容主要由设备ID、设备类型以及生产厂家等,便于对用户需求的进一步分析;用户信息表主要用来存储用户基本信息, 其中的用户ID号与用电基本数据表中的电表序号相对应。

2用户个性化分类研究

2.1用户用电框架分析

本文在对用户用电信息数据进行个性化分类时, 采用的是云计算与聚类算法并行的技术。在聚类算法中,本文选自了非常经典的K-means划分方法,在大规模数据聚类中,该算法具有高效的特点[5]。本文在对用户用电行为进行分析时,主要采用下图所示的框架图,包含以下三个模块的内容:数据采集、数据处理以及行为分析。数据采集主要是采集不同地点用户不同设备的用电信息数据;数据采集结束之后集中传输到云数据处理,进行数据的存储和管理,奠定最后分析用户用电行为的数据基础。

2.2基于云计算的聚类算法研究

传统的K-means算法步骤为:选取数据集中的数据赋给初始的聚类中心;计算样本点与聚类中心之间的欧式距离,进行获取该样本点的所属类别;重新计算聚类中心;重复上述两个步骤,直至准则函数收敛。而基于云计算的K-means算法更有助于大规模数据的开发和并行处理,不仅更可靠,而且还具备高效和扩容能力强的特点。其中的云计算平台是由分布式文件系统以及计算模型组成,通过前者可以把海量的信息数据存储在数据库中,后者可以提供类SQL接口对数据进行高效分析。重新标记阶段是新中心店坐标的获得阶段,并在云计算平台的文件系统中更新阶段,并继续迭代至算法收敛。

3非介入式用电负荷分解与识别研究

3.1模型设计

本文设计的非介入式电力负荷分解模型主要用来完成两项任务:用电设备工作状态的检测和辨识; 按照设备或设备类分解负荷总耗电量。根据以上需求,设计用电负荷分解模型如下:

其中,式(1)和(2)分别是在t时刻的用电总负荷的有功总功率以及无功总功率,式(3)中变量表示电器的工作状态,是布尔型变量。值得注意的是,在该模型中,式(1)和(2)的PL(t)和QL(t)都是已知量,是由实际中实测得到的;用电负荷分解的目标是每个用电设备的有功功率和无功功率;工作状态监测和辨识的目标是用户每个用电设备的工作状态标志; 用电负荷分解的目标以及工作状态监测和辨识的标志均为未知量;用电设备在t时刻仅能表现出一种工作状态,还有总负荷不存在用电设备的情况,所以式(3)的约束条件必须要满足该模型才能成立。

3.2分解与识别原理

对模型求解是为了估计用电设备功率和辨识用电设备工作状态。当已知用电设备工作状态时,常用分解法和差量估计法估计用电设备的用电功率,其中分解法是由公式直接估计每种用电设备的用电功率, 差量估计法是在满足一定条件的基础上,由单位时间内的负荷功率变化量对用电设备的用电估计进行估计。辨识用电设备工作状态时,要明确LS是由何种工作状态产生的,还要确定在当前的用电总负荷中确实有LS集合的一个子集存在。对于不同类型的LS, 其处理思路和方法往往有所不同,本文暂不赘述。

4模拟结果与分析

4.1指标定义

在对检测性能进行评价时,本文选用了以下指标:在估计用电设备的用电功率时,用到了功率检测绝对误差、功率监测相对误差以及功率监测绝对值, 这些每一项指标都分为有功功率误差以及无功功率误差;在辨识用电设备工作状态时,用到了用电设备的准确辨识率、漏检率、错检率以及用电设备工作状态赚准确辨识率。

4.2模拟结果分析

本文选定某小区的600户用户作为实验数据来源,首先采集了用户的用电信息数据,然后运用并行K-means算法完成用户的分类。根据用电规律来看, 共可分为五类如下表所示,分别命名为空置房用户(A类)、老人家庭(B类)、上班族家庭(C类)、 老人+上班族家庭(D类)以及商业用户(E类),其中A类用户的特点是用电量较低,波动不明显;B类用户的特点是白天用电量稳定,用电量下降趋势出现时段较早;C类用户的特点是有明显的波峰和波谷的用电量,夜晚用电量较多而且用电量下降趋势出现时段较晚;D类用户的特点是B、C两类用户特点的综合;E类用户全天都处在较高用电量的状态。

5结束语

在云计算平台基础上探讨了并行K-means算法, 综合提出多个电力特征,通过特征权重的计算,对用电用户进行分类,发现所用聚类算法达到了90%以上的准确率。从模型出发分析了模拟结果,能很好地把不同用电设备处在何种工作状态辨识出来,适用于用户电力负荷的分解,证明基于云计算的聚类算法的用户用电行为分析模型是行之有效的。

摘要:本文首先分析、整合了用户电量数据,然后对用户用电框架进行分析整理,并基于云计算的聚类算法对用户用电数据进行研究,得出了用户用电分类的特征选择以及权重计算。然后基于分类特征进行了非介入式用电负荷分解与识别研究,从分解与识别原理着手设计了模型,从模型出发分析了模拟结果,证明基于云计算的聚类算法的用户用电行为分析模型是行之有效的。

上一篇:大学的善治下一篇:公路工程合同