用户兴趣建模

2024-09-17

用户兴趣建模(共7篇)

用户兴趣建模 篇1

0引言

随着信息技术的发展,人类已经进入到信息过载时代,如何在海量信息中选择用户想要的信息,已经成为一个棘手问题。推荐系统可根据用户兴趣爱好为用户产生个性化的推荐,从而帮助用户迅速获取感兴趣的信息。用户兴趣建模是推荐系统的核心,能够构建准确的用户兴趣模型,从而为用户产生准确的推荐,是推荐系统的关键。

1用户兴趣模型

推荐系统的主要目的是帮助用户找到感兴趣的信息。 能否为用户产生准确的推荐,关键在于用户兴趣建模的准确程度。目前有多种用户兴趣建模方法[1,2],不同的建模方法会构建出不同的兴趣模型。现有用户兴趣模型可以分为3类:1根据模型所适应的用户类型,可以分为通用兴趣模型与特定兴趣模型。也有学者称之为静态兴趣模型和动态兴趣模型;2根据用户兴趣爱好的稳定性,可分为长期兴趣模型和短期兴趣模型;3根据用户行为的获取方式,可分为显式兴趣模型和隐式兴趣模型。在基于显示的建模方法中,Carroll等[3]认为,通常情况下,用户大多不愿意主动进行额外的付出(例如对商品进行评价,或者收藏某类商品等),即使他们知道自己将从中能获得好处。 这样会使系统收集到的用户信息数据集比较小。隐式反馈[4,5]是建立在观察和追踪用户行为的基础上,系统可以通过对数据集的观察,或者追踪用户访问商品时留下的信息,便可以对用户兴趣进行预测,这种方式的优点在于大大减少了用户的主动参与,而且得到的用户数据集比较充实。本文以隐式反馈方式的建模方法来展开论述。

2考虑兴趣偏移的模型

在现实生活中,用户的兴趣常常发生变化,而且引起兴趣变化的原因是多种多样的,甚至是隐藏的。Lam W, Mostafa J等[10]认为引起用户兴趣变化的主要原因有以下3点:

(1)移动多变环境的影响。用户兴趣受到现实世界中所处周围环境的直接影响,随着用户所处环境的变化,用户之前的兴趣可能瞬间消失,也可能瞬间产生新的兴趣。

(2)新兴事物的影响。随着新事物被发现,个性化推荐系统针对的领域也可能会发生变化,而且可能会造成用户兴趣发生新的变化。

(3)网络信息的影响。受到Internet网页上各种信息的影响,用户兴趣可能会集中到更特定的某个方面,也可能会扩张到新的事物领域。这种兴趣变化,对有些用户来说,可能很快就会发生,但是对于某些用户来说,这一过程可能发生的比较缓慢。

3兴趣偏移相关处理方法

由于用户的兴趣随时可能发生变化,最新阶段的样本才能反映出用户的当前兴趣,这就是用户兴趣建模过程中不可避免的兴趣偏移。目前,学者们针对兴趣偏移处理方法的研究主要有如下两类:

第一类:检测兴趣发生偏移点。不断地让系统监视用户兴趣,一旦用户兴趣发生了偏移,那么兴趣模型就采取相应的策略进行调整,从而让调整后的模型适应用的户新兴趣。

第二类:不检测兴趣发生偏移点。系统不用关心用户兴趣是否发生偏移,而是让用户兴趣模型不断进行调整, 一直随着用户兴趣的变化而不断变化。用户兴趣建模常用模型如表1所示。

4基于兴趣偏移的常用模型

4.1基于时间窗口的兴趣模型

面对含有海量项目的电子商务网站,Widmer和Ku- bat认为用户只对最近访问的项目感兴趣,对用户最后行为的观察能更准确地反映出用户当前的兴趣。因此,对用户兴趣进行建模时只需要考虑用户最近一段时间内的数据记录,其余时间的数据可以不予采纳[11]。时间窗口法就是针对用户最近一段时间的信息进行建模。如图1所示,这类模型都具备一个固定大小的观察时间窗口,而且该窗口随着时间的流逝不停地向前移动。在对用户兴趣进行挖掘的过程中,仅仅需要考虑当前窗口内的数据,落在窗口后面的数据则可以认为是用户以前的兴趣,可以不予以考虑。在Grabtree和Soltysiak[12]设计的模型中,通过当前窗口的K个记录来挖掘用户兴趣。这种模型通过设定一个固定大小的当前窗口观察用户兴趣,抛弃以前的用户数据,而通过局部数据对用户兴趣识别会导致兴趣识别不准确。

针对忽略观察窗口之前数据而导致用户兴趣识别难确定的问题,Mitchell等[13]设计的模型可以对那些具有重要价值的历史数据进行学习。这种方法不但有效弥补了有价值历史数据的缺失,而且可以通过有用的历史数据挖掘出用户的长期兴趣。

4.2基于遗忘的兴趣模型

Koychev和Schwab[14]认为用户的兴趣消减与人类的自然遗忘规律相似。他们提出了一个基于遗忘曲线的兴趣模型(Forgetting Model),如图2所示。这种方法基于如下假设:距离现在越远,数据越不能反映用户当前兴趣。 Koychev等定义了一个线性遗忘函数w=f(t),根据时间来观察数据的重要性。

Maloof和Michalski[15,16]提出了基于遗忘窗口的兴趣模型,该模型中的遗忘函数可以使用户的评分记录值随着时间的推移而降低,而且利用部分记忆学习算法找到那些用户产生兴趣的旧项目。该算法的缺点是不能利用用户当前的兴趣评分对未来兴趣作出预测。

目前,心理学家对于人类兴趣有两个普遍认同的观点:1和人类记忆一样,人对某一事物的兴趣会随着时间的推移而逐渐被遗忘;2遗忘的速度随时间推移而逐渐变慢,并且遗留下来的兴趣变得越来越稳定。

在这两个观点的基础上,Cheng和Qiu等[17]提出了一个指数形式的遗忘函数,通过函数计算结果来得到用户评分处理的权值。利用该权值对用户的历史评分数据进行衰减处理,从而构建用户兴趣模型。

4.3基于长期和短期的兴趣模型

在相当长时间内,利用遗忘模型对用户兴趣进行衰减处理较容易被人们理解和接受。但在短时间内,如果用户兴趣发生偏移,该模型处理不了。针对这种情况,一些学者研究出一种混合兴趣建模的方法,即为一个用户同时建立长期兴趣(Long-Term Interest)和短期兴趣(Short- Term Interest)模型,如图3所示。构建该混合模型的核心就是处理好用户的两类兴趣,即用户的长期兴趣和用户的短期兴趣。混合兴趣模型依靠用户的历史数据来挖掘用户稳定的、波动范围小的长期兴趣,依靠最近的数据来挖掘用户个性化的、波动范围大的短期兴趣。

Billsus等[8]提出了一种基于混合式模型对用户兴趣和偏好进行预测。在该模型中,他们利用最近观察到的用户评分信息来构建短期兴趣模型,利用长期观察到的用户评分构建用户的长期兴趣模型。在混合模型的基础上, Widyantoro和Ioerger等[18]提出了一种利用用户正反面反馈信息的混合兴趣模型。通过用户长期兴趣模型和短期兴趣模型分别求出权值。

在此基础上,Widyantoro和Ioerger等[19]提出了新的混合兴趣模型,为用户的长期兴趣和短期兴趣分别构建了一个描述器。Chen和Gao等[20]提出了一个动态多层次的用户兴趣模型。Li和Yang等[21]使用两个日志文件来分别记录用户的长期兴趣和短期兴趣,从而构建自己的混合模型。Kim和Chan等[22]提出的混合模型将用户的兴趣划分出相应的等级,根据权值进行度量。

4.4基于自适应的兴趣模型

Cetintemel和Franklin等[23]为了准确表示用户的复杂兴趣,利用兴趣特征矢量来表示用户的兴趣特征,该兴趣矢量会随着用户访问的网页进行自适应地动态调整。 虽然该模型可以反映出用户当时的兴趣,但有可能忽略用户的一些长期兴趣。

Koychev等[24]提出了一个新的学习算法。该算法从过去的样本数据中搜索那些与当前环境关系最密切的数据,从中找到用户的长期兴趣。目前,已经有很多学者对用户兴趣的检测进行了大量研究,在学习用户兴趣的过程中,不断地进行检测,一旦检测到发生兴趣偏移,就对该学习算法进行调整来适应新的兴趣。兴趣偏移检测模型框架如图4所示。

4.5基于性能指标的兴趣模型

Klinkenberg和Ralf等[25]提出了一个基于错误率、准确率和召回率的模型。该模型通过对P值的检测来判断用户兴趣是否发生了偏移。当召回率低于P值,或者错误率高于准确率时,系统就认为此时用户的兴趣发生了偏移。该模型实现起来相对简单,它不需要构造复杂的算法,只需要通过权值对比即可,且该方法可以直接检测到用户兴趣的偏移点,系统可以方便地对用户兴趣进行调整。但是,该模型对权值的依赖性较大,而且P值是固定的,因此P值选取会直接影响到该算法的准确性。

4.6基于检测的兴趣模型

Grabtree和Soltysiak等提出基于时间窗口聚类的兴趣模型。该模型在t时刻对用户浏览过的内容首先进行关键字的提取,然后对这些关键字聚类,得到的每一个簇代表用户的一种兴趣,然后在t+1时刻同样对用户浏览的信息进行同样的处理,最后比较用户在t时刻和t+1时刻兴趣簇的差别,对用户兴趣是否发生偏移进行判断。 Lam和Mukhopadhyay等[26]提出了一个基于分层学习的兴趣模型。该模型分为两个层次:第一层,由机器学习算法构成,用来学习用户的兴趣;第二层,由贝叶斯分类器构成,用来检测用户兴趣是否发生偏移。

5结语

针对用户兴趣进行建模是构建个性化推荐系统的核心,而处理用户兴趣的偏移则是用户兴趣建模的核心。在构建个性化推荐系统的过程中,首先应该结合实际应用对该系统和目标用户进行具体分析,然后采用适当的用户兴趣建模方法,在尽可能节省系统资源的前提下,及时处理用户兴趣偏移,发挥系统的最佳性能。对用户兴趣进行建模,然后识别用户兴趣,针对不同的用户兴趣类型为目标用户产生相关推荐。关于推荐系统与移动环境的有效结合,是下一步研究工作重点。

摘要:对兴趣模型研究现状与进展进行归纳与总结,提出代表性的兴趣模型,从模型思想、关键技术和优缺点等方面进行分析,探讨兴趣模型研究热点、难点、不足和有待解决的问题,为兴趣建模分析和数据挖掘等研究提供参考。

关键词:兴趣模型,数据挖掘,建模,综述

基于云计算的用户兴趣建模 篇2

近年来, 云计算由一个计算机领域的专有名词逐渐变成普通人, 特别是网络参与者, 熟知的一个新兴概念。国内外各大IT相关企业 (如Amazon.com、Oracle、IBM、瑞星和奇虎等) 争相推出了云计算相关产品, 也有许多中小型企业从中获益。作为一种基于互联网的新型计算方式, 云计算在一定程度上结合了丛集运算和网格运算的优势, 既注重高效能又着力于提高资源的利用率, 偏向于少量而多次的运算[1]。

云计算不仅仅具备计算能力, 它也是一个庞大的数据中心, 这就可以为个性化推荐系统中用户兴趣建模提供完备的数据来源。用户兴趣建模是个性化服务技术的关键, 决定了个性化服务系统的性能优劣[2], 而如何获取丰富的反映用户偏好的信息 (如用户浏览内容、浏览行为、基本信息、显式反馈和订单信息等) 一直以来是研究人员和开发人员难以突破的问题[3]。

用户兴趣建模的方法很多, 包括向量空间模型、Navie Bayes、神经网路、遗传算法等[4]。本文提出一种基于云计算的用户兴趣模型, 充分利用云中符合条件的偏好数据, 采用树状向量空间模型来表示, 通过用户资料中的兴趣喜好创建兴趣模型, 根据用户的反馈和从云中获取的数据自适应地修改兴趣模型。本文主要研究该模型在电子商务平台中的应用, 为其提供个性化技术支持。

二、用户兴趣模型的表示

1. 云计算

2007年10月, Google和IBM开始在美国的一些大学推广云计算计划, 旨在降低分布式计算技术在学术研究方面的成本, 并为他们提供设备和技术支持。因为云计算是基于网络的, 而网络一般被表示成云朵的形状, 这种新的计算方式因此而得名。云计算主要是通过互联网上异构、自治的服务网络为个人和企业提供按需索取的计算, 也就是说云的计算能力就像日常生活中使用的水和电一样, 用户按使用量向服务提供商付费。通过这种方式, 一些中小型企业和个人可以大大缩短软件开发的周期, 运营成本也将大幅降低。云计算可以提供“基础设施即服务 (Iaa S) ”“平台即服务 (Paa S) ”和“软件即服务 (Saa S) ”三个层次的服务。云计算提供在线商业应用时, 软件和数据均可存储在其数据中心[5]。本文主要利用云计算数据中心存储用户偏好信息, 并获得结构化的主题与特征信息数据, 再使用本地服务器完成用户兴趣建模过程, 构建用户兴趣模型, 系统结构如图1所示。

用户偏好原始数据是无结构的有噪声的数据, 利用云计算去除数据噪声, 运算得到结构化的主题和特征项信息, 也就是说建模过程中主要运算负荷由云计算完成。本地资源主要用来提取用户偏好数据和将结构化数据构建成兴趣模型。

2. 项目的表示

在电子商务平台中, 有许多供用户选择的商品, 这也是最终要推荐给用户的项目。因此, 每个具体的商品被看做是一个项目, 由若干个特征项来表示一个商品项目。本文设定一个向量V (, …, , …, ) 来表示, 其中ti表示特征项, mi表示对应的权重, 通过以下公式 (1) 计算得出:

其中, N (mi) 表示在整个电子商务平台项目所涉及的特征项中mi出现的次数, N表示的是所有项目的特征项的总记数。

3. 用户兴趣的提取与表示

用户的兴趣采用兴趣模型树来表示, 共三层, 顶层是用户的概述, 第二层是项目信息, 涵盖了所有表示该项目的特征项, 而最底层是所有项目有关的特征项信息, 是对商品项目的进一步细化。整个兴趣模型中既有父子关系节点, 也有兄弟关系节点, 这满足了本系统区分单个用户不同兴趣类别的要求。

根据以上分析, 采用三层树来表示用户兴趣模型。根节点表示用户标识和兴趣类别, 用户标识是每个电子商务参与者都具备的用户ID, 用以唯一确认单个用户, 兴趣类别用以区分用户的活跃兴趣和稳定兴趣。第二层节点表示用户的兴趣主题, 这是一个和商品项目息息相关的层次, 在很多时候, 一个主题代表t, 具体通过公式 (2) 计算得来:

其中, Ti-T0表示兴趣树更新的时间与该主题项加入兴趣树时时间相差的秒数, 并对差去对数。Si用来区别活跃兴趣和稳定兴趣。

第二级非根节点, 也就是叶子节点, 它代表用以描述用户特定兴趣项的特征项, 每个主题项Ii (i=1, 2, …n) 都包含若干个特征项IiCj (j=1, 2, …m) , tj表示对应特征项的描述, wj表示特征项所具备的权重, 也就是表示主题项时所占的比重, 可通过公式 (3) 计算得出:

Ct (o) 表示用户在电子商务平台注册的就是一个商品项目, 同时, 一个主题可以有很多主题特征项。第三层节点表示用户某个兴趣主题下的特征项, 多个特征项用以表示单个主题, 这些特征项是由系统统一确立的。

用户兴趣模型的具体结构如图2所示。

对单个用户来说, 系统共有两棵树表示用户兴趣模型, 分别是活跃兴趣树 (AIT, Active Interest Tree) 和稳定兴趣树 (SIT, Steady Interest Tree) 。AIT表示用户短期的且不稳定的兴趣, 有时候可能只是一种随意的喜好;SIT表示长期的且稳定的偏好, 一般不会改变。这一特性通过兴趣树根节点中的兴趣类别来区分。

不管是AIT还是SIT, 都有两级非根节点:第一级非根节点代表用户的偏好类别, 也是对用户的偏好的分类, 采用一组主题项 (I1, I2, …, In) 来表示, 每一兴趣类Ii对应的Si表示用户该主题项加入兴趣树的时间长度, 初始值为零, 需要在系统运行过程中不断更新, 更新时间间隔为时, 所填写或选择的信息中特征项IiCj出现的次数, Ct (p) 表示在用户已成功购买的项目和用户偏好反馈中特征项IiCj出现的次数, Ct (d) 表示用户所浏览过的商品项目中特征项IiCj出现的次数, a, b, c分别表示不同的权值, 0≤a, b, c<1, 且a+b+c=1。相对而言, 用户已成功购买的商品和反馈中的信息可以更加准确地表示用户的兴趣喜好, 所以, b比a和c的值要大。

三、兴趣模型的建立和更新

1. 基于云计算的相似度

某项目是否符合用户偏好通过相似度计算来判断, 具体来说, 就是去计算商品项目特征值向量与用户兴趣模型的主题向量的相似度, 也就是计算两个向量的夹角。由于计算量大, 规模较小的电子商务平台很难完成这一计算, 所以该过程通过云计算的Iaa S完成。计算向量相似度的方法有很多种, 本文采用常用的cosine来实现, 具体如公式 (4) 所示:

其中, V表示主题项向量, C表示商品项目特征值向量, n为向量的维数, wi和vi分别为两个向量的第i维的权重。

2. 用户兴趣模型的建立算法

在创建用户兴趣模型时, 主要是建立AIT和确定初始阀值, 计算同样通过云计算的Iaa S完成。具体算法描述如下:

输入:用户注册时提交的兴趣和偏好信息, 非结构化数据。

输出:AIT, 结构化数据。

第一步从用户注册时提交的兴趣和偏好信息中提取所有主题项Ii和对应的特征项tj, 通过云计算用公式 (3) 计算每项的权值wj, 得到初始AIT的主题项向量组 (I1, I2, …, In) 。

第二步从用户信息数据库中获取用户ID, 结合步骤1得到的主题向量组 (I1, I2, …, In) , 构建AIT。

第三步从电子商务平台的商品项目库中选出N种商品, 表示成向量的形式, 用公式 (1) 计算特征项的权值, 构建商品向量组 (P1, P2, …, PN) 。

第四步用公式 (4) 计算商品向量组中向量与用户兴趣主题向量组中向量的相似度, 根据计算的相似度结果和系统要求产生的推荐项目数确定初始阀值。

第五步算法结束。

初始状态下并不产生SIT, 用户被看做是系统中的新用户, 所有的兴趣偏好都看做是暂时的和不稳定的兴趣, 当兴趣主题在AIT中存在的时间达到一定量的时候, 该兴趣主题才会被当作是用户的稳定兴趣偏好, 加入SIT, 并在AIT中删除该主题。也就是说, 某一兴趣主题项不可能同时存在于AIT和SIT中。

3. 兴趣模型的更新

随着用户活跃度的增加, 发生了一些购买和浏览行为, 兴趣偏好也会发生一定的变化, 活跃兴趣和稳定兴趣将逐渐被区分开来。用户兴趣模型根据用户的反馈信息和行为可进行自动更新, 主要包括AIT、SIT和阀值的修改, 该过程同样通过云计算的Iaa S来完成。

兴趣模型自动更新的过程主要是依据用户对推荐商品的评判, 大体来说, 在推荐过程中可能发生下表所示的四种情况:

其中, N+是指用户感兴趣但系统并没有推荐, 这些项目很难直接获取, 在系统中暂时不进行考虑。N-主要是指用户不感兴趣系统也并未推荐, 这是理想情况。在这里, 系统主要考虑R+和R-对兴趣模型和阀值的影响, 这些信息可由用户对推荐结果的显式反馈提供, 更新算法描述如下:

输入:用户对推荐结果的显式反馈, AIT (SIT) 。

输出:更新后的AIT和阀值。

第一步用公式 (4) 计算商品特征值向量 (P1, P2, …, Pk) 与兴趣主题特征值向量 (I1, I2, …, In) 的相似度。

第二步将相似度大于阀值的商品推荐给用户。

第三步用户对推荐的商品做出显式反馈, 得到R+和R-。

第四步用公式 (5) 修改用户兴趣模型:

公式中的VSM (up') 表示更新后兴趣模型, V (R+) 表示满足用户偏好的商品项目向量, VSM (up') 表示原兴趣模型, η和ω是表示相应权值的参数。

第五步调整阀值:

(1) 若Count (R+) /[Count (R+) +Count (R-) ]≥60%且Count (R+) 小于用户请求的推荐数量, 则THR=THR×0.9。

(2) 若Count (R+) /[Count (R+) +Count (R-) ]<60%且Count (R+) 大于用户请求的推荐数量, 则THR=THR×1.1, 若修改后新阀值大于1则回退该修改, 阀值THR不变。

(3) 否则阀值不变。

第六步算法结束。

该算法假定用户会对所产生的推荐结果做出显式反馈, 如果用户未进行该操作, 或只对极少部分推荐结果进行评价, 将影响到兴趣模型的自动更新算法效率。

四、总结

用户兴趣模型的建立和更新是个性化服务的基础和关键, 直接关系到个性化推荐的效果。本文以目前广泛流行且发展形势强劲的电子商务平台为依托, 充分利用云计算所提供的运算和数据处理能力, 提出采用基于云计算的用户兴趣模型表示和更新机制, 根据用户在系统注册时提供的初始兴趣偏好建立兴趣模型, 利用用户对推荐结果的反馈实现兴趣模型的自动更新。由于充分利用了云计算的Iaa S, 该模型可以应用到软硬件资源非常有限的中小电子商务企业中, 让个性化服务不再是Amazon、Google和淘宝等大型电子商务平台的专利, 对个性化服务在各级电子商务平台的应用具有较大意义。

参考文献

[1]陈康, 郑纬明.云计算:系统实例与研究现状[J].软件学报, 2009, 20 (5) :1337-1348.

[2]应晓敏, 刘明, 窦文华.一种面向个性化服务的无需反例集的用户建模方法[J].国防科技大学学报, 2002, 24 (3) :67-71.

[3]林霜梅, 汪更生, 陈弈秋.个性化推荐系统中的用户建模和特征选取[J].计算机工程, 2007, 33 (17) :196-198.

[4]Esposito F, Licchelli O, Semeraro G.Discovering Student Models in e-learning Systems[J].Journal of Universal Compter Science, 2004, 10 (1) :47-57.

基于聚类的隐式用户兴趣建模 篇3

Internet的迅速发展使得人们从未像现如今一样能够轻易获取数量如此庞大的信息,一方面数量丰富的信息极大地满足了人们对知识的渴望,另一方面海量涌现的信息使人们无法直接得到自己真正感兴趣的信息。用户兴趣建模正是在这样的背景下产生的。用户兴趣建模旨在通过分析用户在互联网上访问数据的历史信息以及行为信息,并以此来为用户建立能够表达其兴趣的模型,再根据用户兴趣模型,希望能够为其提供个性化、针对性的信息服务。

近年来,为用户建立兴趣模型引起了研究人员的关注。Li等[1,2]使用信息融合的方法为用户建立兴趣模型,Lu等[3]使用基于模糊集合论的聚类算法为用户建立兴趣模型,Webmate基于网页信息使用向量空间模型表示用户的兴趣[4],Mobasher等通过分析用户访问的URL建立兴趣模型[5]。这些方法使用一些静态的数据为用户建立兴趣模型,虽然比较容易实现,但是不能表达用户兴趣的动态变化。在用户兴趣模型的时效性问题上,Widme等认为用户最近浏览的信息最能表达用户兴趣,因此可只依据用户最近浏览的信息为其建立兴趣模型[6]。Koychev等根据自然遗忘规律为用户建立兴趣模型,较远的浏览历史给予较低的权值,较近的浏览历史则给予相对高的权值[7]。Widyantoro等分别建立了长期兴趣模型与短期兴趣模型,各自体现用户的长期兴趣以及短期兴趣[8]。然而,上述方法对于大型网站中用户访问的大规模数据难以进行有效分析与利用,并于此基础上,进一步建立兴趣模型。本文提出利用一种层次聚类算法高效分析用户访问日志,为每一个用户建立兴趣模型,同时,由于该聚类算法支持增量式聚类,因此可以动态反应用户兴趣的变化。

2 用户兴趣模型

2.1 用户兴趣模型的定义

关于用户兴趣模型,目前还没有一个统一的定义,一般来说,为了达到对不同用户提供有针对性的服务这个目标,必须要获取用户的兴趣、习惯等用户信息,并对这些用户信息进行描述,构建出描述用户特点的用户兴趣模型,这一过程也就是用户兴趣建模。用户兴趣模型一般具有如下几个特点:

(1)包含了能够表达一个用户兴趣、偏好的所有信息;

(2)一切能够改进用户与系统之间交互的信息;

(3)和具体的应用环境有密切联系,随着应用领域的不同,用户兴趣模型具有不同的表现形式。

用户兴趣建模一般分为显式用户兴趣建模与隐式用户兴趣建模。所谓显式信息,就是由用户明确提供的信息。例如:用户注册时填写的职业信息,兴趣爱好等等。通过这些显式信息,系统可以对用户的知识背景,兴趣爱好有一个概念化的了解,并据此为用户兴趣建立模型。由于显式挖掘需要用户主动参与,这很大程度上降低了可用性,并同时带来系统噪音,为了保证挖掘结果的准确性以及提高用户接受度,一般采用隐式用户兴趣建模方法。通常来说,隐式构建用户模型有三个步骤。即首先收集用户信息,然后根据用户信息对用户进行建模,进而在构建用户模型的基础上提供个性化的服务策略和服务内容,同时进行模型的更新。

2.2 基于关键词向量的用户兴趣模型

在用户兴趣建模的过程中,可以对某一个用户的全部访问文档进行聚类,以发现某些模式或规律。一般来说,用户兴趣由若干个兴趣领域组成,如果对用户的访问文档进行聚类,则同一类中的文档代表用户的一个兴趣领域,于是产生了利用文本聚类技术进行用户兴趣建模的思想。

在此,定义一个用户的兴趣集合I={I1,I2,…,In},其中,Ii代表用户的一个兴趣领域,由一组表示兴趣的关键词组成,如图1所示。

由图1可见,通过对某一个用户访问文档进行聚类,并用关键词描述每一个簇,可以更精确地表示用户的兴趣信息,本文主要采用文本聚类的方法建立用户兴趣模型。

3 基于BIRCH聚类算法的用户兴趣建模

本文主要对用户的访问文档进行聚类,从而发现用户感兴趣的若干领域,并用关键词向量表示用户的每一个兴趣领域,形成用户兴趣模型,这要求聚类算法必须满足如下几个条件:

(1)聚类速度快;

(2)支持增量式;

(3)能够处理噪声数据。

通过对各种聚类算法的调研,可以发现,BIRCH[9]算法较好地满足了上述几个条件,分析如下:

(1)BIRCH使用CF树生成新数据分配到某一个簇中,CF树是一种类似于B树的数据结构,由于这种数据结构的引入,新数据的分配无需与全部已经形成的簇进行比较,节省了时间,使得BIRCH算法的聚类速度较快。

(2)由于新加入的数据并不需要与之前已完成聚类的每个数据进行比较,因此BIRCH算法具备了增量式聚类的特性,事实上,如果稍加修改,BIRCH算法可以完全支持数据的增量式聚类。

(3)BIRCH算法能够很好地处理噪声数据,对于一些孤立点可予以清除,以保证良好的聚类效果。

由以上分析可知,BIRCH算法的特点满足了用户兴趣建模的若干要求,因此,本文采用BIRCH算法进行文本聚类,并完成用户兴趣模型的建立。BIRCH算法是一种通用的聚类算法,而相对于文本聚类来说,则需要对BIRCH算法进行具体的应用,下文将详细介绍如何将BIRCH算法应用到文本聚类中。

3.1 DC的定义

首先介绍如何表示一篇文档,在本文的算法中,一个文档(Di)被表示为。其中,i是文档的标示,为这个文档的特征向量,中,n是文档中特征向量的个数,wij是第j个特征的权重,采用TF/IDF的方法计算得到。

接下来,定义一个文档簇的表示,将其称为Document Cluster(DC),每个DC都是三元组,存储了一个文档簇的信息,包括:

(1)簇内文档的数目;

(2)簇内文档的标示集合;

(3)该簇的特征向量。

定义1 DC:给定一个簇中的N个文档{D1,D2,…,DN},DC可定义为如下的三元组:,其中,N是簇中文档的数目;I是簇中文档的标示集合;则是这个簇的特征向量,并且xj=Σi∈Iwij,该式中的wij是文档向量的第j个特征值。

定义2 DC和:令代表两个独立的文本簇,那么由这两个文本簇合并而成的新的文本簇

定义3 DC相似度:给定两个文档簇,那么DCa与DCb之间的相似度sim(DCa,DCb)定义如公式(1)所示:

根据定义3,可以直接推导出两个文档簇之间的余弦计算公式,如公式(2)所示:

至此,不仅定义了一个文档簇的表示,而且同时定义了两个文档簇的合并以及如何定量计算两个文档簇之间的相似程度。

3.2 DC-Tree

DC-Tree是算法中进行文本聚类的一个重要数据结构,由BIRCH算法中的CF-Tree演变而来,是一个类似B树的数据结构,用于指导文档分配到合适的文档簇中。

3.2.1 DC-Tree定义

DC-Tree是一个由四个变量约束的树形结构,结构形式为(B,M,S1,S2)。在该结构中,B是一个非页节点,最多含有B个条目,每个条目形如(DCi,Childi),其中,I=1,2,…,B,Childi是指向该节点第i个儿子节点的指针,而DCi是第i个儿子节点所代表文档簇的DC;M是一个节点最少含有M个条目;S1、S2则是两个介于[0,1]之间的阈值。

在DC-Tree中,一个非叶节点代表一个簇,并且这个簇是由该节点的子节点构成的;而一个叶节点形如(DCi,Doci),其中,Doci是一个指向实际文档的指针,且将该实际的文档称为文档叶节点,以便与叶节点做以明确区分。

图2是一个DC-Tree的例子,在这棵DC-Tree中,B=3,M=2,树的高度为2。

在树的建立过程中,有两个阈值会被用到:

(1)阈值S1。为了避免并不相似的文档被分配到同一个簇中,引入了阈值S1。在插入新文档的过程中,S1可用来决定新插入的文档是否能够传递到树的下一层中。如果当前节点的某一个条目与新插入文档之间的相似度大于S1,则新插入的文档将会传递到该条目指向的子节点中;否则,该文档将作为一个文档叶节点而插入到当前节点中。

(2)阈值S2。为了节省插入时间,如果某一个待插入文档与文档叶节点的相似度足够大并且大于S2,则可以将该文档与相应叶节点进行合并,合并操作在定义2中予以描述。

在本文中,经过实验分析,S1与S2分别取值为0.3和0.8时,效果较好。

3.2.2 插入节点

现在介绍插入一个文档到DC-Tree的算法。注意,一个文档首先被封装成一个DC条目E(E只含有一个文档)。

(1)从根节点开始,E依次与节点中各个条目计算相似度,并挑选出最为相似的条目。如果二者之间的相似度大于S1,则E递归进入相应的子节点中,否则,E将以一个文档叶节点的身份插入到当前节点中,如果当前节点已满,则需要分裂当前节点。

(2)当E递归到达DC-Tree的一个叶节点以后,考虑与E最为接近的条目Li,如果二者之间的相似度大于S2,则进行二者的合并,否则E就将其添加到该叶节点中,如果该叶节点已满,则需要分裂这一叶节点。

(3)当E被插入到某一个节点之后,需要更新从根节点到该节点的路径上的所有的节点的条目的信息。

3.2.3 分裂节点

为了将新文档添加到一个已经包含了B个条目的节点中,就必须将这B+1个条目划分为两个节点。划分的准则是:一个节点中的条目之间的相似度要最大,而两个节点之间的相似度要最小。最简单的方法是,可以穷举所有划分的可能情况,然后选择其中最好的一种,然而这种划分的数目可能会很大,大约会达到2B-1,所以实际应用中可采取一种近似方法,方法过程如下:

(1)计算B+1个条目中任意两个条目之间的相似度,选择相似度最小的一组条目做为种子Seed1,Seed2。

(2)如果所有条目都重新分配,则结束;否则,如果一个Group中的条目已经少得只能将剩余的条目全部分配到该Group中才能满足最少M个条目的条件,则将剩余的条目分配到这个Group中。

(3)对于没有分配的每一个条目E,计算其与Seed1和Seed2的相似度,再将该条目分配到与之更为相似的Seed对应的Group中。

3.2.4 识别兴趣簇

前文已经介绍了如何将一个文档插入到DC-Tree中,通过逐个将文档集合中的所有文档插入到DC-Tree中,可以建立整个文档集合对应的DC-Tree,这个DC-Tree是文档之间“集合”性质的于结构上的直观体现。每一个节点中的文档集合可以看作是一个文档簇,根节点代表了文档集合中所有的文档,而文档叶节点则代表了某单一文档,因此这是一种层次结构,而BIRCH算法也是层次聚类中的一种。

然而DC-Tree中的每个节点并不能代表一个自然的文档簇,例如:某个节点中的文档可能由两个文档簇组成,而其下的两个子节点恰好能够代表两个文档簇。这就需要兴趣簇识别,也就是其内各文档具有较高相似度的簇的识别。

要实现兴趣簇识别,首先需要一些簇评价的指标。假设一个簇内有N篇文档,N篇文档由d维词向量表示,则可定义N个d维数据的质心X0,半径R以及直径D,公式如下:

其中,R是各个文档向量到质心的平均距离;D是簇内各成对文档之间的平均直径。这两个指标可以用来对簇的质量进行评价。

兴趣簇的识别过程如下:从DC-Tree的根节点开始进行广度优先搜索,如果判定某个节点所代表的簇为兴趣簇,则不再对其子节点进行遍历,由此输出最终的聚类结果。

4 面向Myspace的用户兴趣建模系统

4.1 系统简介

Myspace公司是一家全球化的网络技术公司,是全球著名交友网站。如何能够更好地为用户提供各种个性化服务一直是其最高追求目标。为此,Myspace公司期望能够根据用户的访问记录建立用户模型,描述用户兴趣,借此对兴趣相似的用户进行聚类,并形成兴趣群组或者实现对用户进行页面推荐、好友推荐等各类智能型的应用,具体有如下要求:

(1)系统输入。数据规模为150 000 000条访问记录,数据内容包括用户ID、用户IP、访问日期、访问链接。访问链接指向的具体内容可直接从互联网上下载。

(2)系统输出。分析用户行为,根据访问链接对应的文本,进行兴趣建模。

(1)能够定时更新用户兴趣模型以适应用户兴趣的动态变化。

(2)根据输入的用户ID,给出该用户的兴趣描述。

(3)将用户兴趣模型应用在如下两个领域:按照用户兴趣自动聚合,形成兴趣相关群组;向用户和聚合后的群组推荐会感兴趣的信息,包括好友和内容。

综合上述介绍的各种技术,文中实现了一个针对Myspace网站的用户兴趣建模系统。

4.2 系统架构

系统架构如图3所示。

系统分为两部分,分别是数据预处理和用户兴趣建模。数据预处理包括日志过滤、网页爬取、正文抽取、文档过滤和建立索引等几个步骤;而另一部分用户兴趣建模的核心思想则是对某一个用户的访问文档进行聚类,并使用关键词向量来表示各个类别,此关键词向量即对应用户某个兴趣领域的文字描述。图4为系统中一个用户兴趣模型的示例,可见,兴趣1的关键词暗含了用户的兴趣在于互联网领域,而兴趣2的关键词则表示了用户在军事领域(具体于伊拉克战争方面)的兴趣。

5 结束语

本文使用BIRCH聚类算法,基于用户访问日志进而获取用户访问文档,并建立了用户兴趣模型。该用户兴趣模型使用不同的关键词向量来表示用户兴趣,具有描述粒度精细、随用户兴趣迁移而实时更新等特点。基于Myspace用户访问日志,实现了一个建立用户兴趣模型的实用系统,经验证,该系统高效可靠,可以满足Myspace公司为用户建立隐式兴趣模型的目的。

下一步的研究工作将围绕如何根据已经建立的用户兴趣模型为用户推荐个性化的信息、实现好友推荐以及同兴趣用户群组的自动构建等工作。

摘要:随着Internet的迅速发展,人们必须面对信息爆炸的现实。描述了一种关键词向量的方式表达用户兴趣。将BIRCH聚类算法应用于用户访问的网络文档上来建立用户兴趣模型。基于Myspace用户日志,又实现了一个用户兴趣建模系统,该系统验证了提出方法的有效性。

关键词:用户兴趣建模,BIRCH,聚类

参考文献

[1]ZHUGE H,LI Y Y.Learning with an active e-course in theknowledge grid environment[J].CONCURRENCY AND COMP-UTATIONPRACTICE EXPERIENCE,2006,18(3):333-356.

[2]ZHUGE H,LI Y,BI J,et al,KGCL:a knowledge-grid-basedcooperative learning environment.Advances in Web-Based Le-arning.FONG J,CHEUNG C,LEONG H,et al.Springer Berl-in Heidelberg,2002,2436:192-202.

[3]LU F,LI X,LIU Q,et al.Research on personalized e-lear-ing system using fuzzy set based clustering algorithm[C]//Pro-eedings of the 7th international conference on Computational S-cience,Part III:ICCS 2007,2007:587-590.

[4]CHEN L,SYCARA K.WebMate:a personal agent for browsingand searching[C]//Knowledge Acquisition,1998:132-139.

[5]KANG M,CHO D.Adaptive web site construction using ART[C]//Industrial Electronics,2001.Proceedings.ISIE 2001.IEEEInternational Symposium on,2001,1:247-249.

[6]WIDMER G,KUBAT M.Learning in the presence of conceptdrift and hidden contexts[J].Machine Learning,1996,23(1):69-101.

[7]KOYCHEV I,SCHWAB I.Adaptation to drifting user's inter-ests[C]//Proceedings of ECML2000 Workshop:Machine Learn-ing in New Information Age,2000:39-46.

[8]WIDYANTORO D H,IOERGER T R,YEN J.Learning userinterest dynamics with a three‐descriptor representation[J].J-ournal of the American Society for Information Science and Te-chnology,2001,52(3):212-225.

用户兴趣建模 篇4

0 引言

个性化推荐是当前信息化服务社会发展的趋势, 通过研究不同用户的兴趣, 主动提供用户最需要的数据, 就能很好地解决信息日益膨胀却又无法满足个性化需求的矛盾。其中用户兴趣模型是个性化推荐的核心和关键技术, 一个良好的用户兴趣模型可以为个性化推荐服务提供更有力的支持[1]。

1 研究背景

用户兴趣模型不是对个体的一般性描述, 而是一种具有面向算法、特定的数据结构、形式化的描述。现在一般的用户兴趣建模方法还存在很多不足之处, 主要表现在以下两个方面: (1) 大多数方法忽略了Web页面对用户兴趣表达的重要性; (2) 更新用户兴趣模型所采用的方法有些过于强调用户兴趣的即时性, 忽略了持久性;有些过于注重时间因素, 忽略主动发现用户新的兴趣[2]。由此可见, 采用过去传统的兴趣建模方法很难准确的识别用户的兴趣。因此, 必须另外想办法。

2构建兴趣模型

一般用户的兴趣分为两种即长期兴趣和短期兴趣, 长期兴趣是由用户的倾向性引起, 相对稳定, 与本人的成长经历、学历、人生观、价值观等因素关联, 长期兴趣在相当长的一段时间内保持稳定, 变化很慢。例如经常关注历史方面的信息, 那么历史可以看做用户的长期兴趣。而短期兴趣相对变化较快, 主要受当前环境条件刺激而产生, 容易消逝。例如关注某商品的促销信息, 那么该商品可以看做是用户的短期兴趣。

目前捕捉用户兴趣的方式无非两种:一是显式获取, 即通过用户主动提供自己的兴趣来获得个性化数据;二是隐式获取, 即通过用户访问WEB的相关反馈信息来更新个性化数据[3]。当然两种方式都存在一定的缺陷, 采用显式构建兴趣模型和隐式更新兴趣模型相结合的方式相对更为合理准确[4]。

显式构建兴趣模型主要根据用户注册信息获得用户长期兴趣数据, 而隐式更新兴趣模型则主要根据用户浏览WEB的内容和行为 (如日志、cookies等) 获得用户短期兴趣数据, 分析用户的偏好, 根据用户对推荐的反馈, 通过训练和测试来更新和优化用户兴趣模型, 如图1所示。

2.1 兴趣向量的建立

根据用户注册信息 (包括:性别、年龄、学历、居住地、职业、收入、兴趣爱好等) 构建一个向量。C={C1, C2, …, Ci, …, Cn}, 其中Ci (1≤i≤n) 为用户兴趣种类名称, C为用户兴趣集合, n为用户兴趣种类。

2.2 兴趣模型的表示

研究发现, 目前用户兴趣模型的表示方法主要是基于关键词的特征项表示法。因为特征词在语义上存在歧义, 所以在某些时候就影响了用户兴趣表示的准确度。为了提高用户兴趣模型表示的精度, 改进和优化已经建立的用户兴趣模型, 可以采用基于概念的方法来表示用户的特征项[5]。

利用知网 (英文名称为How Net, How Net的描述对象是一个以汉语和英语的词语所代表的概念, 用来揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[6]) 对特征词进行概念映射的具体做法是查询知网How Net获得与该特征词相对应的概念, 完成概念映射。

对于文档中存在多重语义和有歧义的特征词可以计算它们之间的共现频率。共现频率的定义为:设特征词x和y出现在文档D中的同一个句子, 即认为两者共现, 词间共现率为

公式中:fdxy为特征词x和y共现的句子数;fxd为特征词x的词频, fyd为特征词y的词频。

计算两者的共现频率的方法是根据事先设置好的两个概念之间的关系的词频, 选择其中隶属度大的那个特征词所对应的概念作为最后的概念。而对于文档中存在知网How Net中未标注的新词, 最简单直接的做法是直接保留其作为特征概念, 加入概念向量。

3 更新兴趣模型

通过挖掘用户浏览的记录 (包括日志、cookies等) 来更新用户兴趣模型, 此过程自动在后台进行分析, 不需要用户参与。主要分为数据采集与预处理、特征项的提取与计算、文档的向量表示、兴趣的自动分类等几个过程。

3.1 数据的采集与预处理

基于网络中的用户访问页面的详细记录生成兴趣模型的数据原型, 系统自动记录用户访问的请求, 数据放在文本文件中。接下来要对网页进行预处理, 主要有两类:一是用户历史访问的Web文档;二是每个类别的训练文档。网页的预处理方法包括网页净化、自动分词等技术。

3.2 特征项的提取与计算

从训练集文档中选取一定数量的特征项T1采用X2统计量的特征选取方法。特征项T1权重计算方法为Wik=TFik*IDFik。其中X2代表X2统计量, Wik代表特征项T1的权重, TFik代表特征项i在文档k中出现的频率, IDFik代表该特征项T1的反比文本的频数[7]。

3.3 文档的向量表示

由于用户兴趣是用文档特征项来表示的, 所以可以根据用户对某文档的动作来适应调整。根据向量空间模型 (Vector space model, VSM) 分别将训练集文档和用户访问日志文档表示成第一向量和第二向量。

3.4 兴趣的自动分类

采用KNN (k-Nearest Neighbor algorithm) 分类算法[8]来计算用户浏览过的Web文档与训练集中的文档的相关度, 再将Web文档归入到相应的兴趣类别中。根据建立用户兴趣模型时考虑的浏览文档的时间长短来评价其相关性, 调整兴趣模型中特征出现的权重。由于相关文档中包含了用户感兴趣的信息, 所以可以通过对相关文档集的学习来更新用户兴趣模型。当用户浏览文档D的时间达到一定阙值时, 该文档就被认定为相关文档。

用户兴趣模型更新的方法如下:

W'=αW+βD+γB公式2

如果文档和用户兴趣不包含某个特定的特征项, 该特征项对应的权值即为0。α代表更新前的用户兴趣模型的重要程度, 其取值范围是0~1。β的值代表相关文档对用户兴趣的相关程度, 由于只考虑文档对用户是否相关, 所以β值始终为1。γ的值可以用0, 0.5, 1表示, 用来区分用户浏览行为对该文档产生的权值影响。

4 实验结果分析

首先抽取用户客户端浏览器缓存中的Html网页数据, 一共采集35天的数据。然后用上述方法对这些数据进行处理, 得到35天内用户每天浏览的网页所对应的文本信息, 并建立VSM向量模型, 用来表示各个文本的特征, 删除词频低于某个阙值 (事先设定好) 的关键词。最后对剩下的关键词进行分析, 计算出每个主题关键词对应的最终权值, 并且根据用户浏览该网页日期和所对应文本特征项的词频作出分析图形, 如图2所示。

例如, 分析图中“电影“和“春晚”两个主题, 都是从用户浏览的Web页面中抽取出来的, 并且能代表浏览Web页面的特征内容。在今年1月23日到2月14日的时间段之内, 它们的词频变化是不一样的。因为用户在1月23日到2月4日之间较多浏览了关于“春晚”的信息, 不在这个时间段内, 用户就很少浏览“春晚”的相关信息了, 所以只能说明用户在这段时间内对该主题比较感兴趣, 可以称之为短期兴趣;而“电影”则在整个35天的时间段内都出现过, 并且词频变化不是很大, 所以可以确定是用户的长期兴趣。

5 结束语

用户兴趣建模方法主要研究基于用户的浏览行为来有效获取用户的兴趣, 利用Web挖掘设计用户兴趣模型的建立和更新优化的相关方法。目前该模型已在校园网内部得到了有效的验证。结果表明, 应用该模型后推荐服务的准确率达到80%, 并且随着使用时间的增长, 推荐服务的准确率还在逐渐提高。

参考文献

[1]Jiawei Han.Data Mining:Concepts and Techniques, Third Edition[M].北京:机械工业出版社, 2012.

[2]南京邮电大学.基于用户浏览行为的用户兴趣建模方法.中国发明专利:CN 101770520A, 2010-7-7.

[3]王洪伟, 邹莉.考虑长期与短期兴趣因素的用户偏好建模[J].同济大学学报 (自然科学版) , 2013 (6) :953-960.

[4]周晓兰, 王随平.WEB文本挖掘中用户兴趣模型的建立和更新[J].湘潭师范学院学报 (自然科学版) , 2006 (3) :34-36.

[5]薛翠芳, 郭炳炎.汉语文本特征词的抽取方法[J].情报学报, 2000 (3) :242-247

[6]孙春葵, 李蕾, 杨晓兰等.基于知识的文本摘要系统研究与实现[J].计算机研究与发展, 2000 (7) :874-881

[7]南京邮电大学.基于用户浏览行为的用户兴趣建模方法.中国发明专利:CN 101770520A, 2010-7-7.

[8]Jiawei Han.Data Mining:Concepts and Techniques, Third Edition[M].北京:机械工业出版社, 2012.

[9]赵蒙, 宋俊德, 鄂海红.一种社会化标签系统的用户兴趣建模方法[J].软件, 2013, 34 (12) :136-138.

[10]黄弋石, 梁艳.手写识别建模数学方法研究[J].软件, 2013, 34 (8) :13-15.

用户兴趣建模 篇5

1 移动环境下个性化推荐用户兴趣建模的意义

1.1 理论意义

个性化推荐系统有不同类型的手段, 但是无论采取哪种手段, 其最终的目的都是要知道用户的兴趣是什么。只有这样才能根据不同用户采取和手机信息, 建立适合不同用户的兴趣建模。

1.2 应用意义

我国不仅拥有最大的移动通信市场, 而且拥有最多的移动用户, 移动的运营商会在原本基本业务的基础上, 针对用户的不同需求, 额外开通可以让用户选择的移动业务。这种方式就叫做移动增值业务。在移动环境非常有利的大背景下, 移动增值业务有很大的发展空间[1]。提高数据增值业务过程发展中的质量已经成为很重要的问题。因此, 在此过程中要根据不同用户的需求和兴趣爱好, 向用户提高有用和有价值的信息, 个性化推荐系统作为新的营销手段顺势而生。

2 用户兴趣建模的步骤

2.1 要搜集用户信息

所要搜集的用户信息包括用户的基本个人信息、在移动环境下所浏览的网页记录。搜集这些信息能够帮助服务端更快地了解用户的兴趣。

2.2 要建立用户的兴趣模型

用户的兴趣模型也分为很多种类, 所以要根据用户的不同兴趣, 建立相对应的用户兴趣模型[2]。

2.3 要学习用户兴趣模型

在用户兴趣模型的基础上, 来分析用户的需求。针对不同用户的需求, 向用户提供他们所需要的服务。

2.4 要适时更新用户模型

因为所有用户的兴趣都不可能是一成不变的, 新事物的诞生会诱导用户有新的兴趣和爱好, 适时更新用户模型。

3 基于位置服务的用户兴趣迁移规律分析

针对用户建模提供的不同数据, 做必要的改变。周边的世界都是不断发展变化着的, 人类也是在不断前进着的。因此, 要根据用户兴趣建模反馈出的问题, 及时改进和更新用户的兴趣。目前, 通过反馈机制, 把用户的最新爱好增加到建模中[3]。它既包括对信息的直接增补, 又包括根据调权衡整后的信息进行增补。

直接对信息进行增补是对获取的用户反馈的信息直接添加到用户的模型中。这种更新知识简单地添加了新的信息, 并没有删除用户模型中旧的无用的信息, 这就很容易在推荐阶段导致推荐的错误性。很可能会把用户不喜欢或已经不感兴趣的东西又重新推荐给了用户。并且伴随着时间的推移, 模型的规模也在不断扩大, 又出现了存储空间以及模型维护这一系列问题。

在根据权衡调整之后增补信息的话, 不仅能够将用户的新信息、新的兴趣爱好添加到用户的模型中, 而且还可以通过调整旧的无效的信息, 进行相应的删除。这样就能准确地把用户新的兴趣爱好推荐给用户。所以, 在一定程度上能够缓解直接把信息填补上带来的问题和麻烦。

4 根据不同用户的需求进行建模

如图1所示。

通过对以上用户定制彩铃的信息加以分析, 可以看出不同用户的兴趣爱好也是不相同的。对内部的关联信息进行整合和分析, 分析出用户的相关兴趣。再根据用户的最新信息, 为用户提供新的需求。移动环境下用户的个性化需求是不相同的。只有服务终端能够及时准确地推荐用户们感兴趣的信息, 才能满足不同用户的不同需求。

5 移动环境下的用户信息

在移动环境的大背景下, 搜集来的用户信息主要分为两大种类:一类是用户自身的基本信息;一类是用户下载自己所使用的业务信息, 俗称用户的行为信息。以移动网络为例用户的基本信息主要包括的内容, 如表1所示。

表格用用户的ID作为识别用户的唯一标识, 每个用户只有一个ID, 用户的ID和手机号码是直接绑定的。通过手机号码可以直接标识被服务器完整记录。用户在任何一个页面浏览的历史记录都会被终端服务器完整地记录。其中, 包括用户看过的视频、下载过的APP、听过的歌曲及玩过的游戏等等。这样就能更加准确地掌握用户的喜好以及用户最近的信息, 根据这些变化, 为用户提供更多的个性化服务。而表中用户所在的品牌信息, 能够为个性化推荐提供一个重要的依据。

这些页面信息主要来源于WAP以及相关SP的服务器。这些服务器详细地记录了客户的浏览记录, 从这些记录中能够得到页面更加详细的内容。从表格中的地址、字节数、时间和滚动条, 能够更加清晰地定位用户的最新兴趣, 防止因为用户的兴趣发生改变, 个性化推荐的服务能够及时满足用户的需求。只有服务器的终端服务和用户的兴趣爱好相符合, 兴趣建模才发挥了真正的价值。

6 对用户兴趣建模的期翼

文章通过对移动环境下个性化推荐用户兴趣建模进行分析。对个性化推荐用户兴趣建模的不同步骤进行详细分析, 并对移动环境下个性化推荐用户兴趣建模进行总结。用户建模考虑的因素也是各不相同的。因此, 建模时要根据建模的情景选择合适的信息, 不同用户间需求的不同, “因地制宜”及时选择用户真正感兴趣的内容。

7 结语

通过对移动环境下个性化推荐用户兴趣建模, 能够更加清楚地明白用户的需求, 通过对用户兴趣建模, 可以分析和挖掘用户的兴趣信息, 以此更好地为用户提供服务。在这个过程中, 需要注意的是用户的兴趣可能会随着时间的推移发生改变, 因此我们要及时调整, 适时更新。

摘要:当今的热点方向之一就是移动环境下的个性化推荐, 而个性化推荐的基础和核心是用户兴趣建模。本文对基于移动环境下个性化推荐用户兴趣建模进行探讨。

关键词:移动环境,个性化推荐,用户兴趣

参考文献

[1]刘滨强.移动环境下的个性化推荐用户兴趣建模研究[D].北京:北京邮电大学, 2009 (2) .

[2]谢海涛.移动个性化信息服务系统的进化机制研究[D].北京:北京邮电大学, 2012 (4) .

用户接入工程费用量化建模研究 篇6

用户接入工程指接受电力用户用电申请,根据用户用电容量、用电性质和电网现行情况及规划要求,确定可行的供电方案,组织电源接入工程(又称外部供电工程)的设计、施工,对用户受电工程(又称内部电气工程)进行审查和验收,签订供用电合同,最后到装表以及送电的全过程[1,2]。

用户接入工程包含了两个工程:电源接入工程和用户受电工程。电源接入工程是用户接入工程相关的电力能源设备及资产分界点至电力系统的同一点所登记的公用供电设备间的工程及由于用户的申请容量而导致的上一级电压等级需要建设、改造的工程。用户受电工程是为了达到用电者的电能需要而建设的接入和分配电力能源的电气设备的新建及改(扩)建工程,它是一种处于产权分界点的电能接收侧电力设备建设工程[1]。

1 用户接入工程现状

目前,中国电能的需求每年都有所增长,电能的供需矛盾较为严重,且用户所需电压等级、输送功率等都出现了分化,供配电网络建设的投资保持较快的增长,用户接入工程的需求非常旺盛[3,4]。随着我国的电力体制改革不断深入,对技术人员的知识水平和电力工程造价的控制水平都提出了更高的要求[5]。用户接入工程在供电企业业务中所占的地位日益突出,逐渐地成为了一项能满足我国各个经济部门以及居民生活用电的一项重要工程,同时对相关电力企业生存、发展、繁荣都有极具意义的推动作用。用户接入工程的质量是否可靠,深深影响着用户的用电容量、用电时间、经济效益以及供电企业的经济效益甚至社会效益。由于工程的建设能为相关电力企业带来较大的利润,电力企业间对于用户接入工程项目的抢夺也日趋激烈。

目前我国的用户接入工程存在着流程的环节较多、时间较长、收费的透明度较低、缺乏相应的监察和考核机制等缺陷[6],同时由于用户接入工程所需费用的变化因素较多,以及许多技术上存在着相对落后的问题。我国的用户接入工程的管理体系在对工程造价管理的有效评估上存在着许多不足[7],既不能及时反馈其造价管理的相关信息,也不能及时改进工程造价的管理。因此无论是竞标方还是招标方,在对用户接入工程的费用进行评估时都应慎之又慎,招标方应对自由竞价的竞标方进行综合评定,只有在保证估价准确性的基础上才能进一步考虑经济性[8,9]。没有一个绝对准确的模型可以相当精确地计算出未开始施工的电力工程的具体费用,为此需要从众多已完成的用户接入工程提供的经验及数据,通过计算机软件来构建一个相对准确的费用量化模型来对未开工的电力工程造价进行预估,得出合理、科学的电力工程预算价格[10]。

2 模型建立

2.1 线性相关性

要证明三个变量之间存在线性相关性,则需要对三个变量进行相关性校验。采用Pearson相关性系数法校验线性相关性[11]。

Pearson相关系数法可以用来衡量两数据集合是否在一条线上(是否具有线性关系)。线性程度用计算出的Pearson相关性系数来判定。

相关性系数计算公式如公式(1)所示:

公式(1)中:r为相关性系数,XI为数据组1中的数据(X1,X2,X3,…,Xn),YI为数据组2中的数据(Y1,Y2,Y3,…,Yn),N为数据组中参与计算的数据数量。

通常认为,相关性系数是0.8~1.0时为极强相关,系数是0.4~0.8时为强相关,系数是0.3~0.6时为中等程度相关,系数是0.2~0.4时为弱相关,系数低于0.2的,则认为是极弱相关或不相关。校验结果如表1所示,表中显示了各变量之间的相关性系数和显著性检验单尾概率P值。供配电工程配变容量与总金额的相关性系数为0.901,说明二者具有很大的相关性。供配电工程电缆长度与总金额的相关性系数为0.231,说明二者具有弱相关性(但仍具有相关性)。供配电工程配电容量和供配电工程电缆长度的相关性系数为-0.157,这说明两者并没有什么相关性,是两个独立存在、互不影响的变量。

(p.u.)

2.2 利用软件构建模型

线性回归分析是基于最小二乘法(Least Square Method)原理进行研究的,是在统计假设下的最优线性无偏估计。已知工程配变容量、工程电缆长度为自变量[12],总金额为因变量,将上述所有23组用户接入工程费用数据输入SPSS软件中建立用户接入工程费用量化模型。

通过量化模型得到的多元线性回归分析的命令语句及注释如下:

2.3 建模结果

建立的多元线性回归方程如公式(2)所示:

公式(2)中:Y为总金额(元);X1为供配电工程配变容量(k VA);X2为供配电工程电缆长度(m)。

3 算例分析

3.1 用户接入工程数据

已知用户接入工程数据如表2所示。

3.2 结果误差分析

对工程中每一组数据进行误差分析:表3展示了该模型的计算费用、误差率、计算费用与实际费用的差值(误差值)。从表中可以看出:两个误差稍大的数据组为第4组数据和第10组数据,误差率分别为-26.28%和-27.62%,均处于正常范围内,不需要从模型中剔除。

误差最小的数据组为第12组数据,误差率仅为0.01%。

从误差率中可以看出,11组数据误差均在正常范围内,有的误差甚至非常之小,因此模型是准确的。

将第2组数据代入所建立的模型,得到的计算费用为472 380.540元,误差率达到了476.07%,因此第2组数据不符合该模型,聚类分析的结果是正确的。

由表中数据可得,模型的误差率绝对值平均值并不高,在12.6%,模型是比较精确的模型。误差绝对值的平均值为501 004.09元,总的计算费用为96 782 364元,平均计算费用为4 207 928.87元,总的实际费用为103 633 280元,平均实际费用为4 505 794.78元。总的计算费用略低于总的实际费用,平均计算费用也略低于实际费用,说明该模型计算出来的费用大体上略低于实际费用,但并没有太大的误差。

同样的方法可以得到,实际费用的标准差为3 315 124元,计算费用的标准差为3 250 603元,误差绝对值的标准差为516 925.1元。实际费用的标准差略大于计算费用的标准差,二者的值很相近,说明模型的离散程度与实际情况相符,进一步说明了模型的准确性。

由以上数据可以判断出,误差在可接受的范围内,用该方法构建接入工程的费用量化模型是可行的,且该模型具有准确性。

4 结语

本文利用回归分析的最小二乘法成功构建了用户接入工程的费用量化模型。通过对结果进行检验验证,所有模型中数据组的计算结果与实际费用均较为接近,模型具有可靠性和准确性,说明通过过往数据对工程费用建立模型的预测方法具有一定的可行性[13,14]。

用户兴趣建模 篇7

随着社会经济的发展和人们生活水平的提高, 居民用户大功率家电 (如空调、电热水器等) 在数量和容量上都在逐年增加, 成为形成电网高峰负荷乃至尖峰负荷的重要原因, 给电网安全运行带来了挑战。同时, 随着居民用户家电智能化程度的不断提高[1], 通过先进的通信及控制技术, 使得居民用户与电网实时互动成为可能。通过对居民用户智能家电的合理安排和优化运行, 可以有效减少用电费用, 降低居民用户用电负荷峰值[2], 有望成为电力需求侧管理的重要发展方向。

居民用户智能用电优化的主要目标是在保障居民用户的舒适性前提下, 降低居民用户的电力消费成本[3]。这一目标的实现, 是以智能家电、智能电表、智能交互终端、智能插座、智能控制等硬件装置和用电消费任务管理等软件系统为基础的[4]。目前, 针对居民用户的用电消费任务管理问题, 已有许多专家开展了相关研究。文献[5]提出了一种居民用电优化管理系统的架构, 并给出了居民用电交互作用流程;文献[6]研究了居民用户绿色能源问题, 提出了基于居民用户用电负荷能效对比的绿色能源用电管理系统;文献[7]着眼于居民用户用电信息获取, 提高居民用户用电负荷的可操作性和居民用户需求响应3个方面, 提出了一种新的居民用户能源用电管理系统, 这些工作从居民用户整体出发, 研究了居民用户用电负荷的管理方法。另外, 有些学者对用电负荷之间的协调优化也进行了研究。文献[8]基于预先设定的用电负荷优先级别, 提出了协调用电负荷用电时间的居民用户能源管理算法;文献[9]考虑用电成本和用户用电舒适度, 研究了优化电动汽车和居民用户混成自动电压控制 (HAVC) 系统用电的问题;文献[10]以减少用电费用和尖峰用电量为目标, 提出了居民用户能源管理系统的框架和家电负荷用电时间优化方法。

实现居民用户用电智能优化是居民用户参与电力需求侧管理的重要前提。一个优秀的智能优化方案能够调整智能家电的运行时间段, 降低居民用户用电负荷及费用, 最终对降低电网的负荷峰值、平稳电网用电负荷波动作出贡献[11]。为达到这一目的, 需要电力公司根据负荷预测结果和电网运行状况, 发布未来一段时间的电价给用户, 用户根据电价和自身的用电需求, 优化安排未来一段时间的用电行为。本文给出了居民用户用电行为和约束的数学描述, 在实时电价和分时电价的机制下, 提出了居民用户用电优化方法, 可以有效减少用电费用, 降低居民用户用电负荷峰值。

1 居民用户智能用电模型

1.1 智能家电用电特性

一般来讲, 除了必需的生活用电需求, 居民用户希望在电价低时段使用家电。对于必需的生活用电需求, 例如用户想下午下班到家后能有热水洗澡, 那热水器必须在用户到家之前把水加热到设定的温度值;对于非生活必需的用电需求, 例如夜间电价较低时段, 人们可能会安排电动汽车充电。从这一点考虑, 对于居民用户智能家电的用电特性, 用户需要设定每个智能家电的持续用电时长、希望的用电时段以及单位小时智能家电的耗电量。

另外, 对于一些智能家电的用电特性, 需要考虑在用电过程中可以根据实际需求临时中断用电任务。例如:正在充电的电动汽车在电价较高时停止充电, 待电价降到可接受的程度后继续充电, 这类智能家电称为可中断负荷。同时, 也存在一些智能家电在用电任务一旦开始后就不能中断或者是用户不想其中断, 例如已经开始进入煮饭模式的电饭锅, 无论电价如何变化都不能中断其煮饭行为, 这类智能家电称为不可中断负荷。

1.2 智能用电特性建模

假设每小时分成n个时间段, 即每个时间段为60/n min, 一天分为24n个时间段。例如:把每小时分成6个时间段, 则每个时间段为10 min, 每天分为144个时间段, 即时间段s=1, 2, …, 144。理论上n越大, 则每个时间段越短, 模型精度越高, 但计算量也越大。因此, 实际中n的数值要综合多种因素来决定, 如60/n的选取要能描述智能家电的运行模式。例如:空调是间歇性用电负荷, 以“运作—中断”为一周期, 因此选取的60/n应能描述这一“运作—中断”周期过程, 即“运作—中断”周期的时长应为60/n的整数倍。另外, 有些智能家电的运行时间是固定的, 不一定是60/n的整数倍, 因此实际操作时, 可选用最接近的整数倍值。例如:定时限的洗衣机一次工作时长为38min, 当选取每个时间段为10min时, 则算法中洗衣机的总运行时长应设为4×10min。

智能家电集合用A表示, 对于任一属于A的智能家电a, 其一日内的用电情况可用向量Da来表示:

式中:da, s为智能家电a在第s个时间段的用电量, s=1, 2, …, 24n。

为简单起见, 本文假设智能家电每小时的耗电量是固定的, 用Ca表示。那么对于智能家电a, 若其在第s个时间段工作, 则有

若其在第s个时间段不工作, 则有

对智能家电用电进行优化, 就是在考虑整个居民用户用电需求的情况下, 优化智能家电a在所有时间段的耗电量Da。对于居民用户, 其总用电量需求为:

2 居民用户智能用电优化方法

居民用户智能用电优化的目的就是在保证完成用户要求的任务前提下, 通过合理安排智能家电在可接受的时间范围内运行, 使得居民用户的整体用电费用最小。其目标函数为:

式中:ps和Ds为时间段s的电价和电量。

电价机制可采用目前较为常用的分时电价或实时定价[12,13]。实际情况下智能家电的运行是由人的意愿来决定的, 其用电时间有一定范围限制, 即其运行起始时间和结束时间是有限制的。本文用λstart和λend分别表示智能家电允许的最早起始和最晚结束运行时间段, tstart和tend分别表示智能家电的实际起始运行时间段和实际结束运行时间段, N表示智能家电完成某一任务所需的总运行时间段数量。

对智能家电a, 其运行约束包含等式约束和不等式约束。

等式约束:

不等式约束:

如图1所示, 分别为智能家电a1所允许的最早起始运行时间段和最晚结束运行时间段, 而实际上智能家电a1是从ta1, start开始运行的, 在经过个时间段完成任务后于结束运行。

从图1中可以看出, 智能家电a1完成任务的过程中, 没有任何中断发生, 但有些智能家电运行过程允许中断。例如:电动汽车充电在电价突然升高时可以中断工作, 等电价降到合理的范围后再重新投入工作。如图1中智能家电a3从时间段投入工作, 经过个时间段后在未完成任务的情况下于时间段中断工作。而后在ta32, start新投入工作, 经过个时间段后于时间段完成任务而结束运行。

当然, 智能家电工作过程频繁的中断和重启也是不允许的, 一般对中断的次数有一定的限制。本文用TD表示最大允许的中断次数, Td表示实际的中断次数, 则考虑智能家电中断时的约束条件如下所示。

等式约束:

不等式约束:

式 (12) 和式 (13) 给出了智能家电的用电时间限制范围, 即用户可接受的用电任务最早起始和最晚结束时间。对于可中断用电负荷, 允许其在用电时间限制范围内多次启停。该模型中考虑了用电负荷的中断次数, 但是完成一项任务时, 用电中断相同的次数所实际经过的时间可能不同。

3 算例分析

本算例利用某居民用户的用电安排优化来验证所提出的方法。一日分为144个时间段, 表示为s=1, 2, …, 144。智能家电的用电数据, 如最早起始时间段、最晚结束时间段、最大允许中断次数等如表1所示。

表1中, 电动汽车1 (EV1) 充电时间范围为00:00—08:00和19:00—24:00, 电动汽车2 (EV2) 充电时间范围00:00—13:00和17:00—24:00;电冰箱虽然运行时长为全天, 无需优化用电时间, 但其用电量会累加到每个时间段上, 是用户实际支付电费的一部分;将家电分为连续用电、可中断用电两类, 如洗衣机属于可中断用电类, 而电水壶、电视机、吹风机、电脑等则属于连续用电类。在实际中, 连续用电、可中断用电家电的划分以及可中断用电家电的最大允许中断次数可由用户自行决定。

优化用电任务, 实质是要合理安排用电任务的时间, 即决定用电任务的中断次数和起始时间段。本文采用遗传算法来求解用电任务优化问题[14]。应用遗传算法求解时, 遗传编码代表的就是所有用电任务的中断次数和用电起始时间段, 其由二进制数值串构成。对允许中断次数为TD的用电任务, 最多包含TD+1个起始时间段。优化问题中用电任务的各种约束, 在遗传算法实现中可以处理成惩罚函数的形式。本算例中, 遗传算法中种群数量设为200, 最大允许迭代次数设为500, 交叉操作概率为0.95, 变异操作概率为0.25。

3.1 电价机制对用电安排优化影响分析

图2所示为该家庭在不同电价机制下采用智能用电优化方法得到的各时段负荷分布, 包括随机用电 (见图2 (a) ) 、实时电价机制下用电优化安排 (见图2 (b) ) , 以及分时电价机制下用电优化安排 (见图2 (c) ) 。图3所示为不同用电安排方案的用电费用比较。分时电价具体时间段分布和对应电价见附录A表A1, 实时电价曲线见附录A图A1。

比较图2和图3可知, 在实时电价和分时电价作用下, 居民用户通过调整智能家电的用电起始及用电结束时间限制, 增加家电的用电时间段范围, 对用电任务进行优化安排, 可降低总用电费用。而且可以看到, 实时电价下居民用户的用电费用更低。

同时, 由图2 (a) , (b) , (c) 可见, 在实时电价和分时电价下, 居民用户峰值负荷明显小于随机用电情况下的峰值负荷, 但由于优化目标是用电费用最低, 因此, 实时电价下的峰值负荷转移效果不如分时电价下的峰值负荷转移效果。

3.2 用电行为对用电安排优化的影响分析

居民用电行为即智能家电的最早起始时间段、最晚结束时间段、最大允许中断次数等设置的不同会对用电安排优化造成影响。下文将仿真分析在实时电价机制下居民用电行为对用电费用的影响。

首先分析最早起始时间段、最晚结束时间段的影响。在表1的基础上, 把用电负荷的最早起始时间段和最晚结束时间段分别向前和向后移动一个时间段, 计算不同的用电费用 (若某一用电负荷的最早起始时间段已是时段1或者最晚结束时间段已是时段144, 则不做改变) 。图4所示为每次改变最早起始时间段和最晚结束时间段后的用电费用。

由图4可知, 随着用电负荷允许用电时间段空间越来越大, 居民用户的总用电费用越来越小。但是, 允许用电时间段空间越大, 使得用户可以把更多的用电任务放到电价更低的时段, 可能会造成大量用电负荷集中于电价较低时间段工作, 从而导致形成新的负荷尖峰, 如图5所示。

在允许最早、最晚运行时间段改变80个时间段后, 几乎所有用电负荷的用电任务都集中于时段1至20和时段127至144之间, 因为这两个时段区的电价最低。但过度集中用电, 使得该用户在时段1和时段127等时间段出现负荷尖峰。

用电负荷的最大允许中断次数也是影响用户用电安排和最终用电费用的因素之一。针对可中断用电负荷的最大允许中断次数, 设计了用电负荷最大允许中断次数, 如表2所示。

根据表2中的几种情形, 仿真计算了实时电价机制下用户的用电费用, 如图6所示。可知, 情形1由于不允许用电负荷中断发生, 所以用电费用最高。而随着用电负荷允许中断次数的增加, 用电费用将逐渐减少, 但至情形3后, 再增加允许中断次数时用电费用保持不变, 这说明情形3的中断次数已使得用电任务分布足够灵活且用电费用最小, 故无需再增加中断次数。

允许智能家电用电过程中发生中断可以给用电时间安排带来灵活性, 从而减少用电费用。因此, 如果用户在一段时间内认为用电费用较高, 在不影响用电舒适度的情况下, 适当调整智能家电的最大允许中断次数, 可以实现降低用电费用的目的。

4 结语

本文研究了居民用户智能用电建模及优化仿真方法。针对智能家电的用电特征, 提出了可中断和不可中断两种用电模型。为优化智能家电的用电安排, 提出了以用电费用最小为目标的智能家电用电安排优化模型。该模型考虑了智能家电的用电起始时间和用电结束时间限制、智能家电的最大允许中断次数等。

仿真算例表明, 所述方法既降低了家庭的用电费用, 又减小了用电量峰值。基于算例结果, 比较了不同用电安排方案的用电负荷—时间分布情况, 分析了智能家电的用电起始时间和用电结束时间限制、智能家电的最大允许中断次数对用电费用和用电负荷—时间分布情况的影响。

【用户兴趣建模】推荐阅读:

用户兴趣模型08-05

用户偏好05-10

用户数据05-28

基于用户06-01

用户基础06-15

燃气用户07-09

宽带用户07-30

用户安全08-01

用户粘性08-08

用户故障08-08

上一篇:海域使用现状下一篇:“三点到位”教学思想