个性化用户兴趣模型

2024-11-03

个性化用户兴趣模型(共8篇)

个性化用户兴趣模型 篇1

0 引言

用户兴趣模型是实现搜索引擎个性化服务的起点, 也是搜索引擎个性化服务的基础和核心。用户兴趣模型的质量直接关系到个性化服务的质量, 用户兴趣模型与用户的检索需求相结合可以更加逼近用户“真实”的信息需求, 通过对检索结果进行过滤和筛选, 可以提高搜索引擎的搜索精度。

1 现有用户兴趣模型的不足

信息过滤技术是对个体对象进行信息筛选、过滤, 信息过滤更注重用户的长期兴趣需求。早期的用户模型是信息过滤技术中的一个核心问题, 当时的用户模型是用来建立个性化人机界面的。个性化人机界面是一个接口部分, 它提供用户与系统的交互接口, 个性化人机界面与用户进行交互, 在交互的过程中学习用户的行为, 并学习用户对事务进行处理的经验, 以对用户将要出现的新行为或新动作做出反应。

当前, 通用的信息检索系统对用户本身的个性需求没有给予较大的关注, 它们大多通过改进当前的检索模型、优化信息处理过程等方面的工作来提高检索的准确性。这类搜索引擎系统中没有考虑到用户的检索行为、历史, 用户也不能方便地发现其最新兴趣偏好点。用户兴趣模型是用来描述用户潜在兴趣需求的模型, 其主要功能是捕获用户查询需求及其兴趣偏好, 同时记录、管理用户兴趣偏好。在信息查询系统中引进用户兴趣模型, 有助于为用户提供个性化的信息查询服务, 以实现自适应信息搜索。由于用户兴趣模型可以定位用户的信息需求, 因此可为用户提供主动的个性化信息服务。

现有的个性化服务系统在某些方面已经取得了较满意的效果, 比如服务的个性化、智能化、自适应性等, 但仍然存在一些不足之处:①个性化程度不高;②用户兴趣描述文件可存放在服务器端、客户端或代理端;③用户的兴趣可划分为近期兴趣和长期兴趣;④用户模型中对用户兴趣信息的学习效率较低;⑤用户兴趣模型更新较慢。

2 个性化搜索引擎中的用户兴趣模型

2.1 用户兴趣模型的基本结构

不同知识结构的用户对文档相关性的判断和对检索结果的要求是各不相同的, 即使同一个用户, 在不同的时期其兴趣的侧重也是不同的。用户兴趣模型是为用户提供个性化服务信息检索或信息过滤系统的核心组成部分, 它能够获取每个用户不同的信息需求, 跟踪用户的兴趣与行为, 因此对每个用户需要分别建立用户描述文件, 也即个性化服务文件, 该文件用来保存用户的兴趣偏好。

目前, 发掘用户兴趣主要有两种方式:显式获取和隐式获取。显式获取是指用户主动提供自己的兴趣偏好, 进而获取用户的个性化向量;隐式获取是通过用户访问的相关信息来更新用户的个性化向量。一般的个性化系统采用显式和隐式相结合的方式建立用户兴趣模型, 即在用户主动提供的显式个性化向量的基础上, 通过用户浏览的网页和用户对搜索引擎检索结果反馈的信息建立和更新用户的兴趣向量, 并通过对用户的浏览行为进行观察, 更新用户兴趣模型。考虑到用户短期兴趣和长期兴趣的不同, 在建立的用户兴趣模型中, 应该根据用户短期兴趣和长期兴趣来不断更新用户的兴趣模型。用户兴趣模型的基本框架如图1所示。

由图1我们可以看到, 用户兴趣模型的基本结构主要包括以下几个方面:

(1) 用户兴趣的量化。首先要将用户对搜索引擎检索结果的反馈信息和用户的页面浏览行为进行量化处理, 以便后续的定量处理。

(2) 信息预处理和特征量的提取。对定量后的用户兴趣量进行各种处理、例如各种噪声点的处理, 去除无用的信息等。

(3) 建立短期用户兴趣模型。根据提取到的用户特征量建立用户兴趣模型, 该用户兴趣模型根据用户短期的兴趣信息, 建立相应的短期用户兴趣模型。

(4) 建立长期用户兴趣模型。对获得的用户兴趣、用户的兴趣量进行更新和优化, 利用Web数据挖掘中的各种挖掘方法挖掘用户更深层次的兴趣偏好。对用户兴趣模型进行更新, 得到用户最终的长期兴趣模型。

2.2 用户兴趣模型的特征提取

文档表示向量中词条ti的选取及其权值Wi*的评价称为特征提取。特征提取是利用向量空间模型进行信息检索的关键步骤, 特征提取采用何种策略算法以及策略算法的优劣将会直接影响到用户检索查询的效果。其权值W*i的评价需要大量样本文档, 这些样本文档依据特征项对文档内容贡献大小经过多次统计而完成。各词条在不同的自然语言文档中所呈现出的频率分布是不相同的, 可根据各词条的频率特性用统计的方法进行特征提取。从基于VSM的用户兴趣偏好目标表示可了解到:用户兴趣关键字pi及文档词条ti的确定、兴趣偏好权重及词条权重的计算是用户兴趣偏好库建立的关键。目前较常用的一种方法是基于词频统计的TF-IDF算法。

基于词频统计的TF-IDF算法是一种基于文本的Web内容挖掘方法。在TF-IDF算法中规定, 文档词条的重要性正比于词条的文档内频数, 反比于训练文档集中出现该词条的文档频率, 进而可以构造词条权值评价函数:

undefined

W*ti为文档D中词条ti的权值, tfi表示词条ti在文档D中出现的频率, idfi为反转文档频率 (文档集合中含词条ti的文档的数目) , 其中:

undefined

其中, N为用于进行特征提取的全部训练文本的文档总数, ni是在样本文档集合中词条ti至少出现一次的文档个数。将式 (2) 代入式 (1) 中, 可得到式 (3) :

undefined

从式 (3) 中我们可以看到, tfi的值和 W*ti的值成正比;ni值和W*ti值成反比。也即是说, 此算法可以保证整个文档中低频率的词条也可能具有较高的权值。

2.3 用户兴趣模型的建立

初次使用系统时, 检索系统中的用户模型是非常简单的, 用户可以在分类信息中大致选择自己的兴趣偏好, 系统根据用户所选择的结果形成不同的用户个性化向量, 并用这些个性化向量来表示用户的各种不同的兴趣偏好。

用户兴趣模型可以由以表示用户兴趣的关键字为主题的对象组成, 每个对象都有一个权重值, 权重值越高, 表明该用户对该关键字的信息越感兴趣。其中, 每个关键字对象的权重值的计算方法已经在上一节中作了详细说明。根据兴趣模型的基本框架, 可以将用户的兴趣分为偶然兴趣和稳定兴趣或者短期兴趣与长期兴趣。

将用户兴趣关键词对关键词ti的兴趣度定义为关键词在文档中出现的频率, 即Wi* (d) , 也就是用户对该关键词对象的偏好程度。假设用户对某一个关键词对象可能是偶然兴趣也可能为稳定兴趣, 将偶然兴趣即短期兴趣表示为U (Tshort) , 将稳定兴趣即长期兴趣表示为U (Tlong) , 则可以将Web用户的兴趣共同表示为:

undefined

其中, T表示关键词的集合, 大小为n, Tshort表示短期兴趣的关键词集合, Tlong表示长期兴趣的关键词集合, 则兴趣集合为:

undefined

根据用户对单个关键词词条偏好程度的不同, 可以定义兴趣集合中某个词条ti的兴趣度为:

undefined

其中, ti∈T, ti (short) ∈Tshort, ti (long) ∈Tlong, {x, y|x>0, y>0, x+y=1}。

2.4 用户兴趣模型的更新优化

在用户使用系统的过程中, 系统不断地记录用户的使用情况、分析记录的使用情况, 从而不断地修改、完善用户兴趣模型。用户兴趣模型的更新方法可分为兴趣交集淘汰法和兴趣合集归并法两种。两种方法都把用户当前反馈的兴趣向量作为当前的兴趣向量, 而兴趣模型中存储的兴趣向量作为历史兴趣向量, 并将当前获取的用户兴趣向量与历史兴趣向量进行对比。

在一般的用户兴趣模型中, 需要考虑到偶然兴趣 (短期兴趣) 和稳定兴趣 (长期兴趣) 。偶然兴趣一般为用户当前的兴趣, 当用户偶然兴趣信息积累到一定的程度, 就转化为稳定兴趣, 因此, 我们将稳定兴趣作为用户长期存储的历史兴趣, 这样可以形象地描述用户的兴趣偏好特点。

用户兴趣模型的更新优化可以按照如下3个步骤来完成:

2.4.1 获取用户的偶然兴趣

按照规则将偶然兴趣向量添加到用户的最新兴趣向量中, 并剔除较老的用户兴趣向量。

2.4.2 偶然兴趣向稳定兴趣的转变

对于偶然兴趣向量中相对重要的关键词及兴趣度 (权重值) , 把超过一定阈值的兴趣向量转换成用户的稳定兴趣向量, 如式 (7) 所示:

undefined

其中, 阈值为Thresh, 阈值常取均值和标准方差之和, 即Thresh =μ+σ。

2.4.3 更新稳定兴趣

随着时间的推移, 逐步淘汰掉用户不感兴趣的兴趣向量 (关键词) 。通过用户兴趣模型的更新过程, 可以得到更加符合用户需求的用户兴趣模型, 这样也就为系统的智能支持提供更多的帮助。另外, 用户兴趣模型随着时间的推移在不断发生着变化, 可以引入机器学习过程, 对用户的操作记录、反馈信息等进行学习, 不断地更新用户兴趣模型, 从而得到更加稳定、更适合用户的兴趣偏好模型。

3 基于用户兴趣模型的个性化搜索引擎

个性化搜索引擎的关键技术在于用户兴趣模型和个性化检索结果的显示。先从用户界面上的用户交互过程中不断获取用户的兴趣偏好, 然后构建用户兴趣模型, 并对用户兴趣模型进行不断地更新优化, 将用户兴趣模型得到的用户所关注的信息传送给搜索引擎, 使得搜索引擎能检索出用户感兴趣的信息。同时, 搜索引擎对检索到的信息与用户的兴趣模型进行对比, 以获取用户感兴趣页面的排名, 再按照用户对页面感兴趣的程度进行排序, 并将页面个性化地显示出来。其工作原理如图2所示。

参考文献

[1]李伟超, 付永华.一种改进的基于浏览行为的用户兴趣模型[J].电信科学, 2011 (5) .

[2]吴晓, 吕爽, 李丹宁.个性化搜索引擎中用户兴趣模型的研究[C].第三届全国信息检索与内容安全学术会议, 2007.

[3]刘建波.基于Agent的用户兴趣模型的研究[D].沈阳:沈阳工业大学, 2005.

[4]林鸿飞, 扬元生.用户兴趣模型的表示和更新机制[J].计算机研究与发展, 2002 (7) .

[5]郭新明, 弋改珍.基于向量空间模型的用户兴趣模型研究[J].咸阳师范学院学报, 2009 (6) .

[6]COLE CHARLES.Intelligent information retrieval:Part IV.Tes-ting the timing of two information retrieval devices in a naturalisticsetting[J].Information Processing and Management, 2001 (1) .

[7]LEE D L, CHUANG H, SEAMONS K.Document ranking and thevector-space model[J].IEEE Software, 1997 (2) .

[8]徐科, 崔志明.基于搜索历史的用户兴趣模型的研究[J].计算机技术与发展, 2006 (5) .

[9]单蓉.一种基于用户浏览行为更新的兴趣模型[J].电子设计工程, 2010 (4) .

[10]李峰, 裴军, 游之洋.基于隐式反馈的自适应用户兴趣模型[J].计算机工程与应用, 2008 (9) .

[11]周晓兰.Web数据挖掘中用户兴趣模型设计[J].湘潭师范学院学报, 2009 (2) .

个性化用户兴趣模型 篇2

最新资料表明,当前网络上公开可索引到的网页已经超过115亿。而且网络上众多的搜索引擎如Google,Yahoo等交叉索引的网页重复率估计达到28.8%。网站www.pewinternet.org的研究表明有44%的用户只使用一种搜索引擎,48%的用户使用2-3种搜索引擎,只有7%的用户使用3种以上。而元搜索引擎(Meta Search Engine,MSE)是基于搜索引擎的搜索引擎,是在公开使用的搜索引擎(称为成员搜索引擎)基础上建立起来的可以同时或并行查询多个搜索引擎并对返回结果进行处理的搜索工具。元搜索引擎能整合各个公用的搜索引擎,充分利用这些著名搜索引擎的排名机制对其返回结果进行处理,从而提高用户的搜索效率。

按运行平台分,元搜索引擎有桌面型和网络型两种。桌面型元搜索引擎是一种客户端元搜索工具,可以在充分保护隐私的情况下挖掘用户个性化的搜索需求,本文认为这是优先发展桌面元搜索引擎的最好理由。用户兴趣模型是个性化服务的基础和核心,它不仅是用户个体的兴趣描述信息,而且是一种面向算法的、具有特定数据结构的和形式化的用户行为描述。相应地,用户兴趣建模是指从有关用户兴趣和行为的信息(如浏览内容、浏览行为、背景知识等)中归纳出可计算的用户兴趣模型的过程。

二、兴趣分类参考模型

兴趣分类参考模型主要用于区分用户的不同兴趣类别。可以采用开放式目录管理系统ODP(Open Directory Project)的分类层次结构来组织表示用户所有可能具有的广泛意义上的兴趣,由此定义的兴趣具有等级层次的结构特性(这是一种树型结构),即上层(兴趣父类)是对下层(兴趣子类)的共同属性的概括。在用户兴趣参考模型中,可以使用ODP分类层次中的某一层的所有类别作为对兴趣的分类描述。并把该层之下的后代子类作为它的特征词。

三、用户兴趣模型

用户兴趣模型也用与兴趣分类参考模型相似的树型结构来表示,这样可以适应用户兴趣的时变性和局部关注性,本文把这种用户兴趣模型称为用户兴趣树,显然,用户兴趣树只有部分兴趣类别和部分特征词。为形式化描述用户兴趣模型,引入以下定义。

接着我们比较了各类术语的平均相似度,如上图1所示。图中显示在术语集中与音乐相关的术语的平均相似度比计算机网络与通讯相关的术语的平均相似度稍低,而比信息处理相关的术语的平均相似度要高。这与表2所示的数据是相符合的,因此表明算法1在映射术语的兴趣类上是有效的。

七、结论

本文在引入兴趣分类参考模型的基础上,建立了用户兴趣树,并把它形式化为用户兴趣向量;然后定义了兴趣类、兴趣特征词集和兴趣集,基于这些概念,本文提出了一个简单有效地实现用户查询到兴趣类的映射算法。最后给出了该算法有效性的实验结果。

基金项目:江西省科技厅2006年科技攻关项目(赣科发计字(2006)185号)。

(作者单位:井冈山大学信息科学与传播学院)

基于用户兴趣的混合推荐模型 篇3

随着网络技术的发展以及机器学习、数据挖掘等知识发现技术的出现, 推荐系统应运而生, 它根据用户的兴趣爱好, 推荐符合用户兴趣爱好的对象。推荐系统模拟商店销售人员向用户提供商品推荐, 帮助用户快速找到所需商品, 顺利完成购买过程, 可以有效保留用户, 提高电子商务系统的销售能力, 重建客户关系。目前电子商务推荐系统主要有两种方法, 一是基于内容过滤的推荐方法, 二是基于协同过滤的推荐方法。

基于内容过滤的推荐方法, 为每个用户建立兴趣模型 (profile) , 根据用户以往的购买历史和访问数据, 提取用户的兴趣特征集合, 形成用户的兴趣模型。基于内容过滤的系统如:Personal WebWatcher[1], CiteSeer[2], WebMate[3], WebPersonalizer[4]等。基于内容过滤的系统其优点是简单、有效, 缺点是难以区分资源内容的品质和风格, 而且不能为用户发现新的感兴趣的资源。

基于协同过滤的推荐方法, 其出发点在于任何人的兴趣不是孤立的, 应处于某个群体所关心的兴趣当中, 因此可以根据相同或相近兴趣的用户对相应信息作出的评价进行推荐。基于协同过滤的系统如: WebWatcher[5], GroupLens[6], SiteSeer[7]等。基于协同过滤系统的优点是能为用户发现新的感兴趣的信息, 缺点是存在稀疏性问题和可扩展性问题。

本文提出一种基于用户兴趣的混合模式推荐方法, 该方法首先根据用户的购买数据和浏览行为, 形成用户的兴趣模型, 并按商品与用户兴趣模型的相似度进行推荐;然后, 根据相似兴趣的用户其特征向量也相似的原则将用户进行分类, 按照用户特征相似度进行推荐;再根据用户评价的相似度, 将评价一致或者相似的用户分为一类, 利用用户间的评价进行推荐;最后对推荐的贡献进行加权求和, 形成最终的推荐。该推荐方法综合考虑来自两个类别的影响, 能动态调整用户类别以及相应地修改各类参数, 以提高推荐系统的准确性。

2 用户兴趣模型的表示机制

要实现个性化的推荐服务, 首先必须搜集用户的个人信息, 建立用户兴趣特征模型。用户兴趣模型建立的主要依据是用户感兴趣的文本以及用户对于文本的关注程度, 用户对文本内容兴趣的程度不同, 其对用户兴趣模型的贡献也不同, 用户兴趣模型是感兴趣的文本以及兴趣强度的函数[8,9], 即:

Μodel-Use=f (<D1, g1>, <D2, g2>, , <Ds, gs>)

其中Di表示示例文本集, gi是对Di的兴趣强度, s是文本数, i=1, 2, 3, …, s.

用户兴趣模型的基础是示例文本的特征表示, 用户对于文本的关注可大致归结为对概念的关注, 兴趣强度越大, 说明该文本所体现的概念对于用户的兴趣相关程度越大。用户对于文本的关注强度可以根据显式方式获得, 即通过用户明确的反馈获得, 也可以通过隐式方式获得, 即收集用户的访问模式来确定。兴趣强度设定为如下函数:

gi=g (Di, Bi, U)

其中0≤gi≤1, U表示用户;Di表示访问的HTML页面或者文本;i表示文本编号;Bi表示访问模式的类型, i=1, 2, …, s; gi表示用户关注强度。

Bi∈{Bookmark, Save, BrowseTime, BrowsePage, Feedback, …}, Bookmark表示将页面加入书签的动作;Save表示保存页面; BrowseTime表示浏览的时间因素; BrowsePage浏览指定页面的动作, 如滚动或点击; Feedback表示对于给定的要求, 用户给予的反馈。

设用户的示例文本的特征向量为Di= (ti1, ti2, …, tik) , 这里是潜在语义空间的k维向量;用户U对于示例文本Di的兴趣强度为gi=g (Di, Bi, U) , n是示例文本数目, 则用户兴趣模型为:

User-Vector=i=1ngiDi= (i=1ngit1i, i=1ngit2i, , i=1ngitki) = (u1, u2, , uk)

3 混合模式推荐模块的构建与修改

3.1 混合模式推荐算法的流程

整个推荐分为两个模块, 即内容过滤推荐模块和协同过滤推荐模块, 其基本流程是:首先将用户当前访问序列、用户购物历史数据和Web日志等内容进行预处理, 提取出用户兴趣的主题向量和特征向量, 经过数据处理建立基于内容过滤的推荐模块;再根据用户兴趣特征、用户评分数据和当前访问序列等数据, 建立基于协同过滤的推荐模块, 提取用户的最近邻和当前访问序列的最近邻;然后综合两个推荐模块进行加权求和运算, 对产品信息库中的产品, 与混合推荐模型进行相似度计算 (即推荐处理) , 生成top-N推荐访问序列, 通过Web服务器将序列推荐给用户, 并获得用户对推荐序列的反馈信息, 自适应的调整推荐模型和阈值, 以获得最佳的推荐质量。

基于用户兴趣的混合模式推荐算法的基本流程如图1所示。

3.2 基于内容过滤推荐模块的建立

(1) 数据处理流程

首先将用户U当前访问序列转变为兴趣主题向量, 连同从用户历史购物数据和Web日志中抽取的特征向量进行加权和运算, 得到初始推荐模型, 再计算初始向量和当前访问序列之间的相似度, 最后为每一个兴趣主题设置最优的初始相似度阈值。

数据处理的流程如图2所示。

(2) 基于内容过滤的推荐模型

初始推荐模型向量是由兴趣主题向量、从用户购物历史数据中抽取的特征向量以及从Web日志中抽取的特征向量进行加权和运算得到的, 设权重分别为a, bc, 则有:

Ρf0 (Q) =aΡ0 (Q) +bΡ1 (Q) +cΡ2 (Q)

式中Q表示兴趣主题, Pf0 (Q) 表示用户兴趣主题Q的初始推荐模型向量, P0、P1和P2分别是它的3个分向量。P0 (Q) 是主题向量, P0 (Q) = (P01, P02, …, P0w) , P0i表示第i个词wi的权重;P1 (Q) 是从用户购物历史数据中抽出的特征向量, P1 (Q) = (P11, P12, …, P1w) , P1i表示wi的权重;P2 (Q) 是从Web日志中抽出的特征向量, P2 (Q) = (P21, P22, …, P2w) , P2i表示wi的权重。

3.3 基于用户协同过滤推荐模块的建立

选取登录次数较多和浏览文本较多的用户参与用户聚类, 便于从总体上考虑产品信息内容与用户兴趣之间的关系, 兼顾产品信息的范围。用户聚类模块可以根据聚类的内容不同而分为用户的内容类和用户的合作类。

(1) 用户的内容类

用户的内容类依据用户兴趣之间的相似度进行确定, 本文选择用夹角余弦的方法, 用户的兴趣相似度为simC (U, V) =cos (U, V) , UV表示用户, U= (u1, u2, …, uk) , V= (v1, v2, …, vk) 。

根据用户特征向量之间的相似度, 将其进行聚类, 使兴趣相近的用户归入一类, 便于处理, 同时对于新产品信息文档, 通过判断其类别归属, 获得应该推荐的用户清单。假定所要求的分类数为K, 用户数为P, 两个用户之间的相似度采用夹角余弦公式, 两个类之间的相似度为两类之间最不相似的用户特征向量相似度:

simC (Cr, Ct) =minUCr, VCtsimC (U, V)

分类中采用完全联接的基本思想在于使同一类中用户兴趣的相似度较大, 而不同类之间的用户兴趣的相似度较小。

具体分类算法如下:

①设分类数为L, 初始时刻L=P, 即P个用户各成一类, Ci={Ui}。

②若LN则结束退出。

③寻找两类之间相似度最小的两类Ci, Cj.

④合并Ci, Cj, 删除Cj, 计算新类与其它类的相似度, 转L=L-1。

当达到预先给定的类别数N时, 分类停止。由此获得N个用户类{C1, C2, …, Cn}, 由于是基于用户兴趣内容进行的分类, 故称为用户的内容类 (content class) 。

(2) 用户的合作类

基于内容所作的分类即通过内容的相似度进行分类, 其好处是能够发现和用户已有兴趣相似的信息, 但如何发现新的感兴趣的信息, 还要通过合作方式获得, 即通过用户间的评价相似度来确定对于信息的感兴趣程度。基于合作方式的用户类别作为用户内容类的某种程度上的兼类, 称之为合作类 (collaborative class) , 仿照内容类的划分方法, 进行合作类的划分。

定义用户之间的评价相似度为:

simD (U, V) =DUVmin (g (D, B, U) , g (D, B, V) ) UV

式中U, V分别表示用户评价的文本集合, ‖U‖和‖V‖分别表示其评价的文本数量, g (D, B, U) 和g (D, B, V) 分别表示用户UV的兴趣强度函数, D表示访问的HTML页面或者文本, B表示访问模式的类型。

通过相似性的度量得到目标用户的最近邻后, 下一步则需要产生相应的推荐。设用户U的最近邻集合用NNu表示, 则用户U对项目i的预测评分Pu, i可以通过用户U对最近邻集合NNu中项目的评分得到, 计算方法如下:

Ρu, i=R¯u+nΝΝusim (U, Ν) (Rn, i-R¯n) nΝΝu (|sim (U, Ν) |)

式中sim (U, N) 表示用户U与用户N之间的相似性, Rn, i表示用户N对项目i的评分, R¯uR¯n分别表示用户U和用户N对项目的平均评分。

通过上述方法预测用户对所有未评分项目的评分, 然后选择预测评分最高的前若干个项目作为推荐结果。

3.4 混合模式推荐模型的建立

对于产品信息库中对产品进行描述的信息文本D, 获取其在语义空间的特征表示, 首先计算D与用户U兴趣的相似度, 即文本特征向量与用户特征向量的相似度simU (U, D) ; 然后计算与用户的内容类的相似度, 即计算内容类的类别特征向量与文本特征向量的相似程度simCE (U, D) ;其次计算与用户合作类的相似度simDE (U, D) , 最后综合计算文本D与用户U的相似度。

这里类别特征向量为:

L= (i=1Ld1iL, i=1Ld2iL, , i=1LdkiL) = (l1, l2, , lk)

L为类别, ‖L‖为类别的用户数, dij为第i个用户的第j个特征分量。

simU (U, D) =simU (pf, D) =cos (pf, D) , 表示根据用户兴趣模型pf与文本D的相似度。

simCE (U, D) =cos (C, D) , 表示用户所在的内容类别C与文本D的相似度。

simDE (U, D) =1Li=1Lg (D, Bi, Ui) , 表示用户所在的合作类对文本D的兴趣强度。

最终的综合相似度sim (U, D) 为下面公式所示:

sim (U, D) =αsimU (U, D) +βsimCE (U, D) +γsimDE (U, D)

式中αβγ为可调节的权重参数, 表明在匹配过程中, 用户兴趣模型相似度、用户的内容类类别兴趣相似度、用户的合作类兴趣强度对推荐系统的贡献程度, α+β+γ=1 (0≤α≤1, 0≤β≤1, 0≤γ≤1) 。若β=0, γ=0, 则为基于内容过滤的推荐模型;若α=0, 则为协同过滤的推荐模型。

4 实验结果及分析

4.1 实验数据集和评价指标

本文采用MovieLens站点 (http://movielens.umn.edu/) 提供的数据集来测试混合模式推荐算法。从用户评分数据库中选择12000条评分数据作为实验数据集, 实验数据集中共包含245个用户和1106部电影, 其中每个用户至少对20部电影进行了评分, 评分值为从1到5的整数, 数值越高, 表明用户对该电影的偏爱程度越高。

整个实验数据集需要进一步划分为训练集和测试集, 为此引入划分系数x表示训练集占整个数据集的百分比, 我们选择的电影数据集的稀疏等级为:

1-12000245×1106=0.9557

评价推荐系统推荐质量的度量标准主要包括统计精度度量方法和决策支持精度度量方法两类。本文采用平均绝对偏差MAE (Mean Absolute Error) 和文本检索系统中的综合评价指标F-measure作为度量标准。平均绝对偏差MAE通过计算预测的用户评分与实际的用户评分之间的偏差度量预测的准确性, MAE越小, 推荐质量越高;文本检索系统中的综合评价指标F-measure综合考虑了精确率和召回率对推荐系统的影响, F-measure值越大, 对应的推荐效果越好。

4.2 实验结果及分析

首先查看在不同的训练集测试集比例即拷虑在不同数据稀疏程度的情况下, 两种方法的MAE性能比较, 最近邻用户数值设置为30, 实验结果如图3所示;然后查看在一定训练集测试集比例即稀疏程度不变、最近邻集大小不同的情况下, 两种方法的MAE性能比较, 考虑最近邻集大小的不同对算法性能的影响, 实验结果如图4所示。

从图3和图4可以看出, 基于用户兴趣的混合模式推荐方法的平均绝对偏差MAE数值比基于用户协同过滤推荐方法的MAE数值也要小, 混合模式推荐算法的MAE曲线也处于基于用户协同过滤算法的MAE曲线下方, 混合模式推荐方法的推荐效果优于基于用户协同过滤推荐算法的推荐效果。在数据稀疏程度不同的条件下, 随着训练集数据的增多, 两者之间MEA值的差距在逐渐缩小, 说明混合模式推荐效果的优势随着训练集的增多而缩小;在数据稀疏程度相同的条件下, 随着最近邻集数量的增加, 推荐效果将会下降, 说明在较小的最近邻数值范围内就可以得到较为准确的预测值。

为了比较基于用户兴趣的混合模式推荐方法与基于内容过滤的推荐方法的性能, 将2002年的数据作为训练集, 2003年、2004年和2005年的数据作为测试集, 两种方法在F-measure指标的实验结果如图5所示。

从图5可以发现, 不论是基于内容过滤的推荐方法还是基于用户兴趣的混合模式推荐方法, 其综合评价指标F-measure随着时间的推移逐渐提高, 说明两种推荐方法随着系统的运行, 其综合性能都能得到提高, 系统具有一定的机器学习能力;同时, 混合模式推荐方法的F-measure曲线位于基于内容过滤推荐方法对应折线的上方, 说明混合模式推荐方法的推荐效果优于基于内容过滤推荐方法的推荐效果。

5 结束语

基于用户兴趣的混合模式推仅方法综合考虑用户的阅读习惯和兴趣, 同时也利用了用户之间的评价所体现出来的兴趣一致性, 不但能够根据用户的历史资料来推荐相似的信息, 而且能够通过相似兴趣用户的推荐来获取新的信息, 实现兴趣的扩充和转移, 推荐质量得到了显著提高。本文只是针对推荐系统中用户信息和商品信息的处理这一小部分作了分析和探讨, 提出的方法也有一定的局限性, 在实际应用中可能会存在一些问题, 下一步工作可以从信息获取、推荐质量与推荐实时性平衡等方面展开。

参考文献

[1]Mladenic D.Machine learning for better Web brows-ing[A].Rogers S, Iba W.AAAI 2000 spring sym-posium technical reports on adaptive user interfaces[C].Menlo Park, CA:AAAI Press, 2000:82~84.

[2]Bollacker K D, Lawrence S, Giles C L.Discoveringrelevant scientific literature on the Web[J].IEEEIntelligent Systems, 2000, 15 (2) :42~47.

[3]Chen L, Sycara K.WebMate:a personal agent forbrowsing and searching[A].Sycara K P, WooldridgeM.Proceedings of the 2nd international conferenceon autonomous agents[C].New York:ACM Press, 1998:132~139.

[4]Mobasher B, Cooley R, Srivastava J.Automatic per-sonalization based on Web usage mining[J].Commu-nications of the ACM, 2000, 43 (8) :142~151.

[5]Joachims T, Freitag D, Mitchell T.WebWatcher:atour guide for the World Wide Web[A].Georgeff MP, Pollack E M.Proceedings of the internationaljoint conference on artificial intelligence[C].SanFrancisco:Morgan Kaufmann Publishers, 1997:770~777.

[6]Konstan J, et al.GroupLens:applying collaborativefiltering to usenet news[J].Communications of theACM, 1997, 40 (3) :77~87.

[7]Rucker J, et al.Siteseer:personalized navigation forthe web[J].Communications of the ACM, 1997, 40 (3) :73~75.

[8]曹毅, 贺卫红.基于向量空间模型的信息安全过滤系统[J].计算机工程与设计, 2006, 27 (2) :224~227.

个性化用户兴趣模型 篇4

关键词:个性化推荐,用户兴趣模型

1 引言

Internet从产生至今不过20多年的时间, 但目前Internet上的信息量相当于人类过去100年产生的信息总量, 已经成为一个全球性信息服务中心。随着其规模和覆盖面的迅速发展, 在提供越来越多信息服务的同时, 其结构也变得越来越复杂, 这反而降低了信息利用率, 带来信息过载问题。面对统一的界面和内容, 人们很容易迷失在Internet的“信息海”之中。为了解决Internet信息过载问题, 基于Web推荐系统应运而生。

推荐系统分为非个性化推荐系统和个性化推荐系统[1]。非个性化推荐系统向所有用户提供同样内容的推荐, 而个性化推荐系统按照用户的浏览习惯和兴趣, 为用户提供动态的浏览建议, 这样就可以过滤掉无用信息, 并根据用户的兴趣订制推荐。个性化推荐系统因具备这种优势, 被越来越广泛地研究和应用。

目前大部分高校就业网站提供信息的方式就是堆积海量的用人单位需求信息, 用户只能借助分类浏览、搜索等通用网站工具来查找他们所感兴趣的信息, 这需要用户对所要查找的信息 (如招聘时间、用人单位名称、需求岗位的详细信息等等) 有非常清楚的了解。面对每天频繁更新的大量需求信息, 用户不能有效地利用网站信息资源。为高校就业网站提供个性化推荐系统, 让用户更便捷、高效地利用就业网站是十分必要的。

个性化推荐系统实现个性化推荐要经过用户建模、项目匹配和推荐输出三个阶段。用户建模是获取和维护与用户兴趣、需求和习惯相关知识的过程, 其结果是产生一个能够表示出用户特有背景知识或兴趣的用户模型。用户建模是个性化推荐系统实现个性化推荐的主要知识源, 其获取用户兴趣的能力很大程度上决定了推荐是否成功。

用户兴趣获取方式一般包括显性方式和隐性方式两种。显性方式是通过用户主动描述来获取用户的兴趣, 这种方式简单而且直接, 有助于加快学习算法的速度, 但它要求用户明确兴趣并花费相应的时间和精力。隐性方式不需要用户参与, 是系统在用户的使用过程中从用户的访问路径、访问过的文档集合等特征自动完成的, 会包含很多冗余和无效信息, 这将大大增加学习过程的时间。这两种用户兴趣获取方式各有利弊, 把两者相结合取长补短才是最好的方法, 因此本文在研究现有用户兴趣建模方法后, 针对高校就业网站信息源及用户对象的具体特点, 提出一种针对就业网站个性化推荐系统的建模方法, 此方法能有效的为用户对象进行推荐。

2 用户兴趣模型的分析和建立方案

2.1 高校就业网站个性化推荐系统特点

针对不同的信息源特点, 推荐系统的侧重也各不相同, 目前讨论最广泛的有搜索引擎系统、电子商务系统和图书馆推荐系统。对于高校就业网站个性化推荐系统, 信息来源就是用人单位的需求信息, 主要包括学生专业、学历、个人素质的基本要求, 信息源十分规范。

基于Web的推荐系统的用户对象无论在年龄、学历还是兴趣爱好等各方面都有着很大差异, 需要考虑的用户对象范围十分广泛, 而高校就业网站的用户对象有较明确的年龄范围、学历层次和专业背景, 用户对象群体相对稳定。

2.2 用户兴趣模型的建立方案

根据以上对高校就业网站个性化推荐系统信息源及用户对象特点的分析, 本文对用户对象静态及动态信息进行有机结合, 提出基于用户对象显性兴趣和隐性兴趣的建模方法。

用户兴趣模型刻画的是用户信息从提交到注销这段时间里用户信息需求的一体化描述, 包括动态进行更新以精确反映用户的兴趣倾向。用户兴趣模型可以形象地描述成一个3元组P[2]:P={S, F, Ψ}

其中, S={S (0) , S (1) , …S (i) , …S (n) }, F={F (1) , F (2) , …F (i) , …F (n) },

Ψ:S×F→S, {S (i+1) = (Ψ (S (i) ) , F (i+1) ) , i=0, 1, …, n}

这里, S是该用户兴趣模型在系统使用过程中产生的全部状态集;F是系统为该用户模型采集到的全部反馈信息集, 其作用是驱动更新过程;Ψ是该用户模型的更新函数。其中, S (0) 是该用户模型的初始状态, S (i) 是经过i次更新后的用户兴趣模型, F (i) 表示系统第i次反馈的用以更新P (i+1) 的信息。这个形式化描述反映了用户兴趣模型处于不断地更新状态, 及时的反映了用户的兴趣倾向。

根据实践经验, 我们将用户登录时必须输入的基本信息作为显性兴趣的采集来源。通过每学期就业工作总结, 我们发现学生专业、生源所在地、学历、性别以及是否担任过学生干部等方面的差异很大程度决定学生兴趣倾向。例如用户对本专业就业信息选择倾向大于其他专业用户对此的需求, 而对于相同专业学历层次的高低会影响需求信息的选择倾向, 博士高于硕士, 硕士高于本科生。就我校情况分析, 生源所在地信息也是学生兴趣倾向的一个重要指标, 一方面学生对于全国一线城市及各省会城市有地区倾向, 另一方面对生源所在地有一定的地区依赖, 这也很大程度上决定了学生兴趣倾向。

但是以上并不是绝对的, 有时也会出现一些不符合显性兴趣甚至与显性兴趣相反的情况, 近年来教师编制紧张, 出现硕士甚至博士抢占本科生基础教育市场的现象, 有一些行业对专业的限制越来越模糊, 跨专业择业现象越来越多。这些现象表明, 一些用户在某段时间内对某些需求信息感兴趣, 在令一段时间将兴趣转向其他需求信息, 所以不能忽略用户需求信息的变化。隐性兴趣把用户浏览某网页的时间、浏览该网页的次数作为隐性兴趣信息的来源, 隐性兴趣能更准确、更真实地反映用户当前的兴趣倾向。

我们设定DI (dominate interesting) 为显性兴趣特征向量, RI (recessive interesting) 为隐性兴趣特征向量, 确定用户兴趣模型为αDI+ (1-α) RI, 其中α∈[0, 1], 该参数可以调节显性兴趣和隐性兴趣对用户模型的影响程度。

每学期开学, 我们都会组织应届毕业生登录就业网站采集显性兴趣倾向信息, DI={专业}∪{生源所在地}∪{学历}。隐性兴趣倾向信息RI={搜索关键字}∪{访问行为}。较复杂。访问行为由用户在一定时间段内访问的网页集和对各个网页感兴趣程度组成[3], 而用户对某一网页的感兴趣程度, 则要依据用户对该网页的访问次数和访问时间来决定。设用户访问页面page (i) 的访问次数为f req (page (i) ) , 第j次访问page (i) 的时间为time (p age (i) , j) , 用户对象对页面page (i) 的兴趣度为i nte (page (i) ) , 那么用户访问页面page (i) 的访问时间为假设用户本次查询页面列表中共访问了N个页面, 构成本次用户访问页面集T, T中所有页面的总访问时间可以看成一个数列, 计算该数列的平均值μ和标准方差σ, 然后用高斯归一化公式[4]处理, 根据3-σ规则, 数列中的每个数字落入[-1, 1]区间内的概率为99%, 然后再通过平移操作使inte (page (i) ) 的值最终落在[0, 1]上。用户对页面的感兴趣程度可以计算为:

需要注意的是, 在这里对time (page (i) , j) 有个说明, 用户对象在实际浏览中会出现两种特殊状态:一种是用户驻留时间太短。当用户打开一个页面却发现不感兴趣, 立刻关闭;另一种是用户驻留时间太长。当用户打开一个页面, 其驻留时间远远超过正常浏览时间, 造成系统对该页面反馈度远远小于1。这两种情况严重影响系统分析页面感兴趣程度的结果, 于是把系统设置两个阀值:最小浏览时间Min-time和最大浏览时间Maxtime。根据一般规律, 把Min-time设定为10秒。根据Claypool等人对75个用户2000多次访问的驻留时间进行记录[5]可知, 用户在绝大部分访问中驻留时间小于3分钟, 设定Ma x-time为3分钟 (即180秒) 。

对于用户访问时间小于Min-time的页面, 在算法中视为无效操作, 不予考虑;对于用户访问时间属于[Min-time, Max-time]的页面, 则保持其访问时间原值;对于用户访问时间大于Max-time的页面, 则其访问时间赋值为Max-time。

3 结语

用户兴趣模型是推荐系统产生个性化推荐的主要知识源, 用户兴趣模型的建立是个性化推荐系统的基础, 也是实现个性化推荐的关键。如何针对不同应用领域特征建立科学高效的用户兴趣模型、如何对信息特征化以及优化推荐算法是我们研究的方向。

参考文献

[1]吴丽花、刘鲁, 《个性化推荐系统用户建模技术综述》, 2006, 25 (1) :55-62.

[2]黄希全, 数字图书馆推荐系统中用户偏好的建模方法《, 情报杂志》, 2006 (1) :28-3 0.

[3]袁薇, 搜索引擎系统中个性化机制的研究《, 微电子学与计算机》, 2006 (2) :68-75.

[4]庄越挺、潘云鹤、吴飞《, 网上多媒体信息分析与检索》, 2002 (9) :59.

个性化用户兴趣模型 篇5

1 移动环境下个性化推荐用户兴趣建模的意义

1.1 理论意义

个性化推荐系统有不同类型的手段, 但是无论采取哪种手段, 其最终的目的都是要知道用户的兴趣是什么。只有这样才能根据不同用户采取和手机信息, 建立适合不同用户的兴趣建模。

1.2 应用意义

我国不仅拥有最大的移动通信市场, 而且拥有最多的移动用户, 移动的运营商会在原本基本业务的基础上, 针对用户的不同需求, 额外开通可以让用户选择的移动业务。这种方式就叫做移动增值业务。在移动环境非常有利的大背景下, 移动增值业务有很大的发展空间[1]。提高数据增值业务过程发展中的质量已经成为很重要的问题。因此, 在此过程中要根据不同用户的需求和兴趣爱好, 向用户提高有用和有价值的信息, 个性化推荐系统作为新的营销手段顺势而生。

2 用户兴趣建模的步骤

2.1 要搜集用户信息

所要搜集的用户信息包括用户的基本个人信息、在移动环境下所浏览的网页记录。搜集这些信息能够帮助服务端更快地了解用户的兴趣。

2.2 要建立用户的兴趣模型

用户的兴趣模型也分为很多种类, 所以要根据用户的不同兴趣, 建立相对应的用户兴趣模型[2]。

2.3 要学习用户兴趣模型

在用户兴趣模型的基础上, 来分析用户的需求。针对不同用户的需求, 向用户提供他们所需要的服务。

2.4 要适时更新用户模型

因为所有用户的兴趣都不可能是一成不变的, 新事物的诞生会诱导用户有新的兴趣和爱好, 适时更新用户模型。

3 基于位置服务的用户兴趣迁移规律分析

针对用户建模提供的不同数据, 做必要的改变。周边的世界都是不断发展变化着的, 人类也是在不断前进着的。因此, 要根据用户兴趣建模反馈出的问题, 及时改进和更新用户的兴趣。目前, 通过反馈机制, 把用户的最新爱好增加到建模中[3]。它既包括对信息的直接增补, 又包括根据调权衡整后的信息进行增补。

直接对信息进行增补是对获取的用户反馈的信息直接添加到用户的模型中。这种更新知识简单地添加了新的信息, 并没有删除用户模型中旧的无用的信息, 这就很容易在推荐阶段导致推荐的错误性。很可能会把用户不喜欢或已经不感兴趣的东西又重新推荐给了用户。并且伴随着时间的推移, 模型的规模也在不断扩大, 又出现了存储空间以及模型维护这一系列问题。

在根据权衡调整之后增补信息的话, 不仅能够将用户的新信息、新的兴趣爱好添加到用户的模型中, 而且还可以通过调整旧的无效的信息, 进行相应的删除。这样就能准确地把用户新的兴趣爱好推荐给用户。所以, 在一定程度上能够缓解直接把信息填补上带来的问题和麻烦。

4 根据不同用户的需求进行建模

如图1所示。

通过对以上用户定制彩铃的信息加以分析, 可以看出不同用户的兴趣爱好也是不相同的。对内部的关联信息进行整合和分析, 分析出用户的相关兴趣。再根据用户的最新信息, 为用户提供新的需求。移动环境下用户的个性化需求是不相同的。只有服务终端能够及时准确地推荐用户们感兴趣的信息, 才能满足不同用户的不同需求。

5 移动环境下的用户信息

在移动环境的大背景下, 搜集来的用户信息主要分为两大种类:一类是用户自身的基本信息;一类是用户下载自己所使用的业务信息, 俗称用户的行为信息。以移动网络为例用户的基本信息主要包括的内容, 如表1所示。

表格用用户的ID作为识别用户的唯一标识, 每个用户只有一个ID, 用户的ID和手机号码是直接绑定的。通过手机号码可以直接标识被服务器完整记录。用户在任何一个页面浏览的历史记录都会被终端服务器完整地记录。其中, 包括用户看过的视频、下载过的APP、听过的歌曲及玩过的游戏等等。这样就能更加准确地掌握用户的喜好以及用户最近的信息, 根据这些变化, 为用户提供更多的个性化服务。而表中用户所在的品牌信息, 能够为个性化推荐提供一个重要的依据。

这些页面信息主要来源于WAP以及相关SP的服务器。这些服务器详细地记录了客户的浏览记录, 从这些记录中能够得到页面更加详细的内容。从表格中的地址、字节数、时间和滚动条, 能够更加清晰地定位用户的最新兴趣, 防止因为用户的兴趣发生改变, 个性化推荐的服务能够及时满足用户的需求。只有服务器的终端服务和用户的兴趣爱好相符合, 兴趣建模才发挥了真正的价值。

6 对用户兴趣建模的期翼

文章通过对移动环境下个性化推荐用户兴趣建模进行分析。对个性化推荐用户兴趣建模的不同步骤进行详细分析, 并对移动环境下个性化推荐用户兴趣建模进行总结。用户建模考虑的因素也是各不相同的。因此, 建模时要根据建模的情景选择合适的信息, 不同用户间需求的不同, “因地制宜”及时选择用户真正感兴趣的内容。

7 结语

通过对移动环境下个性化推荐用户兴趣建模, 能够更加清楚地明白用户的需求, 通过对用户兴趣建模, 可以分析和挖掘用户的兴趣信息, 以此更好地为用户提供服务。在这个过程中, 需要注意的是用户的兴趣可能会随着时间的推移发生改变, 因此我们要及时调整, 适时更新。

摘要:当今的热点方向之一就是移动环境下的个性化推荐, 而个性化推荐的基础和核心是用户兴趣建模。本文对基于移动环境下个性化推荐用户兴趣建模进行探讨。

关键词:移动环境,个性化推荐,用户兴趣

参考文献

[1]刘滨强.移动环境下的个性化推荐用户兴趣建模研究[D].北京:北京邮电大学, 2009 (2) .

[2]谢海涛.移动个性化信息服务系统的进化机制研究[D].北京:北京邮电大学, 2012 (4) .

个性化用户兴趣模型 篇6

随着互联网的不断发展与普及,Internet渗透到了人们生活的各个领域,成为影响日常生活的最重要信息源。但随着网络资源以指数般速度增长,用户时常置身于浩如烟海的信息中,无法充分利用Internet的潜在资源,出现了“信息过载”和“信息迷向”问题[1]。因此,如何根据用户的需要及时获取相关信息成为充分利用Internet的一个挑战性问题,如何帮助用户根据个人兴趣爱好检索相关的网络信息,成为近年来信息检索领域中研究的一个重点。

目前的搜索引擎只适用于短暂的随机性查询,一般是利用用户提供的关键字进行搜索,返回系统认为相关的文本。因此存在着一些问题:第一,基于关键字的信息检索不能全面反映用户兴趣,没有保存和维护功能;第二,简单的关键字匹配往往输出大量文档,真正相关的文本很少。因此建立一个有效的用户兴趣模型,为用户提供更为有效的帮助是非常必要的。

研究中通常把对用户检索的偏好和兴趣描述称为用户个性化兴趣建模,建立准确有效的用户个性化兴趣模型,是实现个性化信息检索的核心和关键。用户个性化兴趣模型的构建主要包含两点:首先要建立用户个性化模型,较好地反映用户兴趣爱好,为用户查找和推荐相关的信息;其次是要随着用户兴趣的变化,兴趣模型能适应性的改善[2]。

本文提出的基于潜在语义索引的用户兴趣模型,利用LSI技术对用户感兴趣的文本信息进行文本结构分析和语义分析,用特征词和文本之间的语义关系作为用户兴趣主题的一种体现方法,将符合约定条件的文本信息提交给用户,并在相关的反馈机制上不断改进和完善用户兴趣模型,从而可以有效地根据用户的兴趣检索相关信息,提高信息检索的效率。

1 潜在语义索引技术

潜在语义索引[3](Latent Semantic Indexing)是一种概念检索方法,可以解决文档中词的多义和同义现象。该方法构造出文本的词频矩阵X,利用奇异值分解技术(Singular Value Decomposition)对矩阵X进行分解,减少频数矩阵的维数并保留最重要的行,得到一个X的近似矩阵XK,以此来表达出特征词与文档之间的语义关系。利用潜在语义索引方法可以将原来大规模的文档词频矩阵用一个维数较低的矩阵来表示,在这个过程中可能会损失一些信息,但是可以保证所损失的仅仅是原来词频矩阵中非常不重要的部分内容[4]。

1.1 词频矩阵的构建

在潜在语义索引中,一个文档集合可以表示为一个m×n的文档词频矩阵X,这里n表示文档库中的文档数;m表示文档库中包含的所有不同的词的个数。X表示为:

X=aij(i=1,2,…,m;j=1,2,…,n) (1)

aij值非负,表示索引项i在文档j的权重值。aij值的确定通常考虑两个方面,即使用局部加权策略和全局加权策略分别来评价特征项在某一文档中和整个文档集中的相对重要性。

1.2 奇异值分解

按照奇异值分解技术,任意一个矩阵X(t*d)都可以分解为以下形式:

X=TSDT (2)

其中T,D的各列正交且长度为1,即TTT=1,DDT=1;S是奇异值的对角矩阵,即S=diag(λ1,λ2,…,λt),λ为对角矩阵中的特征值。这里分解得到的三个矩阵都是满秩矩阵。SVD的优点在于利用较小的矩阵做到最优的近似。如果S对角线上的元素均以按大小排序,则选取前k个最大的奇异值,其余的设置为0,如此得到的矩阵运算结果为Xk,用它去近似原始矩阵X,这个秩为k的新矩阵在最小平方意义上是最接近X的。在S中引入零以后,可以通过删除相应的行和列来化简S,获得新的对角矩阵S0。同时删除TD中相应的列,分别获得阵T0和D0,则可以得到下面的简化模型:

Xk=T0S0D (3)

在LSI中,不是仅仅使用特征词的出现信息,而是从文本中提取出隐含的语义结构信息。用Xk近似表示原有的词频矩阵X,实际上就是用Xm维特征空间的前k个主分量方向来近似原来矩阵中的m维特征词空间。前k个主分量方向解释了数据矩阵中的大多数变化,它可以消除特征词中的同义或多义的现象。主分量法的直观解释就是:由原始特征词的加权所构成的单个向量可以非常好的近似由大得多的向量集合所起得效果。在LSI中就是通过SVD技术来估计主分量向量,把原来的X矩阵简化为Xk矩阵,这里k可以远远小于m。此简化损失的信息是很少的。一方面消减了原词频矩阵中包含的“噪声”因素,更加体现出词和文档之间的语义关系;另一方面使词、文档向量空间大大缩减,可以提高文档过滤的效果。

2 基于LSI的用户兴趣模型

2.1 模型构建过程

通过对现有的用户模式构建方式的研究,结合潜在语义索引技术,本文提出了一种基于潜在语义索引技术的用户兴趣模式构建机制,构建过程如图1所示。

首先由用户提供相应兴趣主题的示例文本集,对样本文档进行分词、消除停用词处理后,生成出每篇文档中的特征词,将一个兴趣主题类别中所有文档的特征词统一为原始特征词集,计算出每个特征项表达该兴趣主题的权重值,并按权重值大小排序,按设定的阈值取适当的特征项数作为用户在该兴趣主题的信息表示,这样用户模板可以用一个文档词频矩阵来表示。其算法步骤为:

输入:每个兴趣主题的样本文档C(dj)和设定的特征项个数num。

输出:能够反映用户兴趣的特征词库和词频矩阵。

步骤:

①从训练文本集中依次取得每个文本,调用分词程序将其分词,并去除停用词。

②调用特征提取算法,提取出文档特征项。

③计算特征项的权重值,按照设定的num值取相应特征项数构建成特征词集。

④根据特征词集,为每篇文档生成一个映射(关键码,值)。关键码为特征词,值为该特征项在文本集中的权重值。

⑤生成每个文本的特征向量,构建出文档—词频矩阵。

词频矩阵X建立后,利用奇异值分解技术得到相应的矩阵T,S,D。其中,TD分别是矩阵X的奇异值对应的左、右奇异向量矩阵;矩阵Y的奇异值按递减排列构成对角阵S,取TD最前面的k列构建成k-秩近似矩阵Xk=T0S0D。其中S0是由S中前k个对角线元素组成的对角阵,T0和D0分别是TD的前k列组成。这一部分的具体算法如下。

输入:词频矩阵X,设定K值。

输出:近似矩阵Xk,以及T0,D0和S0。

步骤:

①输入X,调用奇异值分解程序,得到词频矩阵的左右奇异向量矩阵和对角阵。

②根据设定的k值,取左右奇异矩阵和对角阵的前k列,得到k-秩近似矩阵Xk

③输出索引矩阵Xk,以及它的左右奇异向量矩阵T0,D0和对角阵S0。

在这个算法中,关键是K值的确定。K被称为降维因子,其值的大小有很大的主观性, K过大会使运算量加大, K过小则会失去一些有用的信息。参考着因子分析的相应概念,在研究中一般使用下面的不等式确定K的值[5]:

λi表示S0中的特征值,λj表示S中的特征值,θ为包含原始信息的阈值。实际中往往需要通过多次的试验,选取对文档集合操作效率最好的θ值和K值。一般对于非常大的文档集合,k取100-300比较适合[6],中文文档集合LSI与英文文档集合LSI的取值范围基本上相同。

2.2 文本的匹配与过滤

利用LSI进行文本过滤,其理论基础是利用LSI方法在文档集中潜在的语义关系基础上构造了一个索引项—文档空间,具有相似主题的文档在空间中对应的位置点相距很近[7],用户的兴趣主题模型是由通过降维后的词频文档矩阵来表示的,通过奇异值分解得到的k个正交因子在一定程度上隐含了该兴趣主题的语义信息。过滤系统进行文本过滤的时候,将新的文档映射到LSI语义空间中,计算兴趣主题文档集中的文档向量与新的文档向量之间的相似值,如果该值大于设定的阈值则该文档是用户所需要的;反之,则是用户不感兴趣的。

设新的文档表示为一个m×1维文档向量d,投影到Xk空间后,根据下面的公式可以转换为D0中一行向量:

d′=dTT0S (5)

d即为新文档在LSI空间的映射向量,由此可用来计算其与兴趣主题的相关度。通常采用余弦公式计算新的文档向量与兴趣主题中的相关文档集之间的相似度。设用户的主题兴趣模主题为M,分别计算d′和矩阵Xk中的各个列向量xi的夹角余弦值,则获得一个n维向量

R=[cos(d′,xi)],(i=1,2,…,n) (6)

m维向量d′和Xk矩阵之间的相似关系可由n维向量R的大小表示出。可采用1-范数方法计算出向量R的大小,即可得到新文档d和兴趣主题模型M之间的相似度。计算公式如下:

设定一个兴趣阈值α∈(0,1),如果RR>α,则页面d属于用户感兴趣的文档,对其进行索引并提交用户;否则页面d不属于用户感兴趣的主题而被过滤掉。通常α需要由反复的试验确定最佳的取值,也可以由用户进行人为的调节来控制过滤的效果。

2.3 模型的更新完善

用户的兴趣随时间的推移是在不断变化着的,因此有必要获取用户的反馈信息,及时地修改系统参数,对用户的兴趣模型进行更新,从而不断调整和完善用户兴趣模型,更好地反映用户的兴趣变化。对一个已经存在LSI数据模型,如果需要加入新的文档和索引词,最直接的办法是重新建立词频矩阵然后进行SVD计算。但是SVD分解的计算量是非常大的,重新进行SVD分解将需要更多的计算时间,更大的问题是在实际运算中由于内存的限制而无法完成这样巨大的运算。所以在实际应用中,LSI模型的更新一般采用folding-in算法来实现[8]。folding-in算法能够在己经存在的潜在语义空间中加入新的文档和索引词而不影响现有文档和索引词的结构。首先对每个新的即将加入潜在语义模型中的文档进行预处理,将其转换成k维空间中的向量。设新的文档向量为d,则其在k维空间中的向量d′按下式计算:

d′=dTT0S (8)

与此类似向潜在语义模型中加入新的特征项时,先将其表示为一个1×n词语向量为t,然后在K维空间中将向量t进行转换,转换公式如下:

t′=tD0S (9)

每个加入模型的新文档向量均附加到D0的列上,每个新加入的词语向量附加到To的行上。通过folding-in算法可以在原有的语义空间的基础上,在加入新的文档和索引词的时候不用重新进行耗时的奇异值分解计算。由于加入大量索引词的时候会导致k维语义空间中的语义信息的减少,使得查询、过滤性能下降,因此该算法要求初始文档集要足够大。当然如果新加入的文本和索引特征项过多时也应当重新进行SVD计算,重新构建新的语义空间。

3 实验分析

3.1 实验数据的处理与计算

本文以实验来分析用LSI构建用户兴趣模型的有效性。实验如表1所示,设定有10篇文档和8个特征项构成的文档词频矩阵M。从表1中可以看出这10篇文档主要是数据库和数据挖掘两个方面的内容。

利用MATLAB软件编出处理程序,对矩阵M进行奇异值分解得到M=USVTU是一个10×8的矩阵,它的每一行是相对特定文档的权向量,S是每个主分量方向特征值的8×8对VT角阵,8×8的VT的各列提供了数据的新共轭基,即为主分量方向。S矩阵的对角元素为:S=(33.5302,31.3644,9.1859,7.9789,6.4280,4.7773, 2.3952, 1.4402)

S中的元素可看出,前两个主分量(33.5302, 31.3644)包含了数据中的主要信息量,由公式可得:

因此,如果取前两个主分量生成一个二维主分量空间来表示文档,可以保留原始文档信息量的90.55%。由此可以得到10篇文档在二维主分量空间中的分布情况,如图2所示。这两个主分量方向是原来8维特征项空间中数据最分散的方向,也是具有最大方差的方向。可以看出,在第一个方向中突出了描述数据库一类的文档,第二个方向中突出了描述数据挖掘一类的文档。当把文档投影到由前两个主分量方向所决定的平面时,不同类别的文档分布在不同的方向上,文档间的角度差异可以作为相似度的一个测量指标。

3.2 实验数据的分析

假设有两篇待测试的文档d1和d2,其文档向量在上述的8维空间中可表示为:

d1:(0,10,0,0,0,0,1,0) d2:(0,0,0,0,0,0,7,0)

文档1主要包含了数据库方面的词语,文档2只含有数据挖掘方面的词语。我们将两篇文档映射到LSI空间中,得到文档在语义空间中的向量值:

d1′:(0.0999,0.1233) d2′:(0.0035,-0.0845)

可以看出在二维主分量空间中,两篇待测文档所位于的位置与相应的类别相符合,还可以分别计算出两篇文档与示例中文档的相似关系,如表2所示。

由此可以将待测试的文档判断为相应的类别。由试验分析可以得出,潜在语义索引技术可以模拟特征项与文本之间的语义关系,匹配出包含不同相同特征词的相似文档,能够有效地提高信息检索的效果。

4 结束语

为用户提供个性化信息服务是网络时代发展的产物,其技术关键在于如何描述和更新用户的兴趣模型,寻求更为有效的文本与兴趣模型的匹配算法。本文提出的基于LSI的用户模型构建方法,以特征词与文本之间的语义关系作为文本相关度的测量尺度,通过在LSI语义空间中的转换与计算,对信息进行过滤和提交,并利用相关反馈机制不断改进模型以跟踪用户兴趣变化,从而提高信息检索系统的推荐效果。实验结果表明这种方法很有前途,较传统的关键词词形匹配方法在效率方面有显著的改进。但是利用LSI方法构建用户兴趣模型进行信息检索尚处于初步试验阶段,如何利用机器学习方法自动获取用户的兴趣和相关反馈信息以及如何从语法和语义的角度探讨用户兴趣模型的形成和应用等,都需要进一步研究。

摘要:用户兴趣模型的表示是信息检索的核心技术之一。利用潜在语义索引的方法构建了一种用户兴趣模型,通过计算文本与模型的匹配程度,将满足约定条件的文本推荐给用户,并利用相关反馈信息更新用户的兴趣模型。最后通过实验验证了该方法的有效性,实验表明该模型可以很好地提高用户信息检索的效率。

关键词:信息检索,用户兴趣模型,潜在语义索引

参考文献

[1]王岚,翟正军.Web使用挖掘在网络环境下的个性化信息服务[J].现代电子技术,2007(2):100-103.

[2]张敏.基于Web的个性化信息检索关键技术研究[J].计算机时代,2006(3):37-38.

[3]Deerwester S,Dumais S T.Indexing by Latent Semantic Analysis[J].Journal of the American Society of Information Science,1990(2):391-407.

[4]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002:252-254.

[5]张秋余,刘洋.使用基于SVM的局部潜在语义索引进行文本分类[J].计算机应用,2007,27(6):1382-1384.

[6]Bo-Yeong Kang,Dae-Won Kim,Sang-Jo Lee.Exploiting conceptclusters for content-based information retrieval[J].Information Sciences,2005,170(2):443-462.

[7]Jinxi Xu,W Bruce,Croft.Improving the effectiveness of informationretrieval with local analysis[J].ACM Transaction on information sys-tem.2000,18(1):79-112.

个性化用户兴趣模型 篇7

关键词:支持度阈值,路径选择兴趣度,页面浏览兴趣度,综合兴趣度

一、引言

数据挖掘是指从大量的数据中挖掘或发现隐藏在数据中的知识。随着WWW的快速发展, Web已经成为信息制造、发布、加工和处理的主要平台。通过对Web用户的浏览行为进行挖掘可以发现许多有价值的信息, 如用户喜欢通过哪种方式, 哪种链接进入想要的网页, 用户喜欢点击哪些类型的链接, 喜欢查阅哪些方面的信息等。挖掘出来的信息可以广泛应用Web个性化服务、系统改进和个性化推荐等方面。Web挖掘[1,2]是通过数据挖掘技术来分析与网站相关的信息, 从而从这些信息中发现有用的模式。模式发现的目的是利用各种挖掘方法[3]从Web日志中挖掘出数据背后的用户访问规律。每个人上网都有自己的习惯和方式, 因此Web挖掘需要深入分析研究用户浏览行为和浏览兴趣, 从中挖掘出有用的信息, 再建立用户浏览路径发现模型。网上的网页具有网络拓扑结构, 可以根据拓扑路径找出用户的兴趣浏览路径的规律。Apiori算法是Agrawal提出的用于发现频繁路径的算法, 很多学者也提出了很多用于从Web日志中挖掘浏览模式的挖掘算法。文献[4]提出了最大向前序列法, 根据用户折返的特性形成若干浏览子序列, 文献[5]提出了参考长度法, 根据用户在网页上停留的时间形成浏览子序列, 文献[6]根据用户的浏览频度和网站的结构提出了支持-偏爱度概念, 并应用支持-偏爱度挖掘用户浏览偏爱路径。这些算法主要是根据浏览频度或者浏览时间来分析用户的浏览行为来发现用户浏览模式, 没有完全考虑用户浏览的兴趣或目的。本文中将网站的结构和内容以及用户的浏览行为相结合来定义用户的访问兴趣, 然后根据用户的访问兴趣挖掘用户的兴趣浏览模式。

二、基于用户浏览兴趣的路径发现模型

首先找不同背景、不同年龄的人, 让他们浏览网页, 从所有的网页中选择比较有代表性的, 对其进行研究。在选定的站点中, 经过很多人的点击浏览, 会留下大量的日志文件。我们先通过日志文件中的信息, 整合网页被访问的次数, 也相当于路径选择, 用一个n*n的矩阵将这几个网页之间的访问路径和次数记录下来, 命名为wnn, n代表要用研究的网页数, w[i][j]代表从网站i到网站j的次数。

当然, 用户浏览兴趣支持度有个限度, 即用户浏览兴趣支持度阈值。当实际用户路径选择兴趣和页面浏览兴趣的综合小于这个阈值, 就要放弃这个路径。通过求出路径选择兴趣度和页面浏览兴趣度的乘积, 便可以和这个阈值比较, 决定路径是否属于用户浏览兴趣路径集Interestpath, 那么路径选择兴趣度用公式表示就是:

其中sk代表某网页x到本网页任一个连接所到达的网页k的访问次数, 分母表示网页x到所有连接的总次数的平均数, 充分体现了用户选择k连接的兴趣度。

对于页面浏览兴趣度, 需要知道页面浏览兴趣矩阵Inn, 且将页面浏览兴趣划分为几个等级, 用数字表示, 数字越大代表页面浏览兴趣越大。I[i][j]表示从i页面到j页面后, 在j页面的兴趣和。页面浏览兴趣度的公式可以表示为:

其中Ik表示从页面x到该网页上某个链接k上的浏览兴趣和, 而分母表示网页x上所有连接页面的浏览兴趣总和的平均数。

将用户路径选择兴趣度和页面浏览兴趣度之积为综合路径兴趣度:

先求出某个页面到其余所有页面的路径选择兴趣度和与页面浏览兴趣度和, 再单独求出这个页面与其他某个页面的综合兴趣度。若这个路径的综合兴趣度大于阈值, 说明这两个网页之间的路径是备选的用户兴趣路径, 并将这些符合条件的路径放入2项集中。因为有的用户路径不仅仅只有这么长, 需要尽可能找出最长的兴趣路径, 且这条最长路径中的每一段都满足条件。然后对二项集中的路径进行合并, 如:路径<1, 3>, <3, 5>满足条件, 这两条子路径就可以合并, 得到的三项集<1, 3, 5>也是满足条件的。根据二项集的顺序将所有路径逐个查找有无可以合并的路径, 如果有不能合并的路径, 就放入Interestpath中。虽然他们不能再合并, 但还是满足条件的用户需求路径。接着对三项集、四项集……进行合并, 两个k项集路径是否合并, 看一个路径的后k—1位是否等于另一个路径的前k—1位。若相等, 则可以合并, 若不等, 则不可合并。一直到最后只有一个最长需求路径, 不能再合并, 把他放入Interestpath中。

三、分析

实验数据是以调查10个网页为例, 找一定数目的实验主体, 在这10个网站之间按着自己的兴趣和习惯点击, 然后通过查看其Web浏览日志, 获取路径选择的次数和兴趣选择的程度。

设浏览兴趣支持度阈值为2。

第一行:对于路径<1, 2>, (7/ (41/4) ) * (10/ (79/4) ) =0.345<2所以<1, 2>不满足条件, 而路径<1, 3>, (20/ (41/4) ) * (50/ (79/4) ) =4.95>2, 所以路径<1, 3>是浏览兴趣字路径;

第二行:同上, 浏览兴趣子路径有<2, 4>, <2, 6>;

第三行:浏览兴趣子路径有<3, 6>;

第四行:浏览兴趣子路径有<4, 7>;

第五行:无浏览兴趣子路径;

第六行:浏览兴趣子路径有<6, 5>;

第七行:浏览兴趣子路径有<7, 8>;

第八行:浏览兴趣子路径有<8, 9>;

第九行:浏览兴趣子路径有<9, 6>;

第十行:无浏览兴趣子路径。

2项路径集包括<1, 3>, <2, 4>, <2, 6>, <3, 6>, <4, 7>, <6, 5>, <7, 8>, <8, 9>, <9, 6>。

将2项路径集合并为3项路径集。<1, 3>与<3, 6>合并为<1, 3, 6>, <2, 4>和<4, 7>合并为<2, 4, 7>, <2, 6>和<6, 5>合并为<2, 6, 5>, <3, 6>和<6, 5>合并为<3, 6, 5>, <4, 7>和<7, 8>合并为<4, 7, 8>, <7, 8>和<8, 9>合并为<7, 8, 9>, <8, 9>和<9, 6>合并为<8, 9, 6>。3项集有<1, 3, 6>, <2, 4, 7>, <2, 6, 5>, <3, 6, 5>, <4, 7, 8>, <7, 8, 9>, <8, 9, 6>, <9, 6, 5>。

将3项路径集合并为4项路径集<1, 3, 6, 5>, <2, 4, 7, 8>, <4, 7, 8, 9>, <7, 8, 9, 6>, <8, 9, 6, 5>, 而<2, 6, 5>和<3, 6, 5>不能和其他2项路径集合并, 放入Interestpath中。

将4项路径集合并为5项路径集<2, 4, 7, 8, 9>, <4, 7, 8, 9, 6>, <7, 8, 9, 6, 5>, 而<1, 3, 6, 5>不能和其他4项路径集合并, 放入Interestpath中。

将5项路径集合并为6项路径集<2, 4, 7, 8, 9, 6>, <4, 7, 8, 9, 6, 5>。

将6项路径集合并为7项路径集<2, 4, 7, 8, 9, 6, 5>, 最长兴趣路径放入Interestpath中。

最后得到的兴趣路径集Interestpath有元素<2, 6, 5>, <3, 6, 5>, <1, 3, 6, 5>, <2, 4, 7, 8, 9, 6, 5>。

四、结论

发现用户的浏览模式是现阶段Web日志挖掘的主要目标。利用Web日志挖掘结果, 企业可以更好地组织已有资源为用户提供个性化服务。本文使用一种用户兴趣行为获取机制来获取用户的访问日志。在分析用户行为的基础上, 根据用户的兴趣设计了基于路径选择兴趣和网页浏览兴趣的Web日志挖掘算法。实验结果表明, 该算法能够准确地反映用户的浏览兴趣。

参考文献

[1]涂承胜, 陆玉昌.WEB使用挖掘技术研究[J].小型微型计算机系统, 2004, 7 (25) :1177-1184.

[2]Margaret H.Dunham著.数据挖掘教程[M].北京:清华大学出版社, 2005.

[3]韩家炜, Kamber M.数据挖掘概念与技术[M].范明, 孟小峰, 等译.北京:机械工业出版社, 2001.

[4]M.Chen M.S, Park J.S.Data mining for Path traversal Pattems in a Web environment[C].Proceedings of the16th International Conference on Distributed ComPuting Systems.USA:IEEEComPuter Soeiety, 1996:385-392.

[5]B.Mobasher and J.Srivastava.Data preparation for mining World Wide Web browsing patterns[J].Journal of Knowledge Information Systems, l (l) (1999) :2-9.

个性化用户兴趣模型 篇8

信息在开放和互动的网络环境中增长越来越快,同时也出现了信息过剩,知识难获取的状况。个性化搜索引擎针对不同的用户,利用其背景知识、兴趣特征等多种信息,对其检索词和检索结果进行分析和提炼后再呈现给用户,提高检索结果的精准度和用户的满意度,节省用户在检索结果处理上所花费的精力。用户兴趣模型是用来获得、存储、管理用户需求及其兴趣特征,描述用户潜在的需求及兴趣的模型,它不仅仅是用户兴趣的一般描述,而是面向算法、具有特定数据结构、形式化的知识,它是个性化检索的关键。由于用户兴趣模型建立之初缺乏完整的用户描述,系统所获取用户兴趣信息的相关度和准确度低等因素,所以最初建立的用户兴趣模型不能完全反应用户的兴趣需求;而且用户兴趣随环境和时间的变化会不断地发展变化,表现在模型中就是用户兴趣产生了漂移;长久不用的兴趣知识会造成数据冗余,不仅会浪费存储空间,增加计算的复杂度,而且新更新的知识与之前的类似知识会产生冲突。所以用户兴趣模型的更新在个性化检索系统中尤为重要,它决定了系统对用户的适应度,也决定了系统的服务质量。本文在阐述用户兴趣模型更新机制后,基于艾宾浩斯遗忘原理提出了一种新的用户兴趣模型更新机制。

1 用户兴趣模型更新机制

用户兴趣更新是指在用户兴趣模型建立之后,对模型增加新获取的用户兴趣知识或者删除过时不用的用户兴趣知识。更新用户兴趣模型可以降低模型的信息存储量,减少模型中的数据冗余,简化计算复杂度,并提高计算的精度;即使更新的用户兴趣模型能够使个性化检索系统更好的适应用户,提高服务质量。一些建模方法可以基于模型表示技术的特点来更新,如机器学习通过归纳和分析方法来更新、神经网络通过增加和删除无效的神经元来更新、遗传算法通过遗传优化染色体来更新;也有一些模型需要系统和用户一起来更新模型,如基于主题、关键词列表以及空间向量表示法就可以通过修改用户兴趣关键词或者关键词权重的方式来更新,因为本身这些模型兴趣数据的获取就有来源于用户的部分,用户所提交的数据也占据了模型的很大比例。但是所有模型的更新都要涉及到两个方面:用户兴趣漂移和更新用户兴趣模型,但是上面所介绍的用户兴趣的表示技术却不能包含上面的两个方面,他们只有把那两个方面都做好的基础上才能基于自己的特点来更新用户兴趣模型。有关用户兴趣漂移研究较多,其中包括漂移概念研究、兴趣变化规律研究、兴趣漂移模型研究、兴趣漂移机制研究以及兴趣跟踪研究等。1986年Schlimmer和Granger第一次建立了可以更新的用户兴趣模型STAGGER,这是一个逐渐的学习系统,它能够动态的追踪用户的变化,基于贝叶斯网络将用户兴趣分为感兴趣和不感兴趣两种,通过增加新的属性节点和调整兴趣之间的链接权重来更新用户兴趣模型。1994年Mitchell等使用一种软件助手来安排会议,这种软件采用机器学习方法来获取用户对会议安排的兴趣,学习方法使用至少包含180个样本的时间窗来快速的适应用户的兴趣,这180个样本由新产生的用户兴趣样本与之前存储在模型之中的旧样本一起组成,这种机制主要基于这些样本带来的测试来决定用户兴趣是否发生了偏移。1995年Moloof和Michalski提出基于遗忘部分兴趣的渐进遗忘机制来更新用户兴趣模型,这种更新机制是选择在兴趣描述边界的案例,然后将现在对用户兴趣的相关度小的或者独立的样本移除用户兴趣模型。这种方法用基于时间的遗忘机制将一些超过时间阈的部分用户兴趣模型移除,从而实现更新用户兴趣模型。1996年Widermer和Kubat提出的FLORA系统引入了遗忘技术,这种遗忘技术是通过可调节的窗口来实现的,所谓遗忘就是删除达到遗忘阈的用户兴趣数据,窗口大小和遗忘频率是假设的,基于这种假设对模型做启发式的动态更新。1997年Widermer提出了基于元学习方法更新用户兴趣模型的方法,这种方法假设用户的背景知识以及用户现在感兴趣的知识能够预测用户下一次要检索的知识,而且提出了2级学习机制,1级是用元学习方法检索用户兴趣漂移,1级是将用户的背景知识和现有兴趣知识信息用在学习过程中。经证明使用2级学习机制可以很好的对用户兴趣模型进行更新。1998年Harrie、Sammut以及Horn使用元学习方法识别潜在的用户背景,这种方法假设用户兴趣在相当长的时间内是稳定的,它使用批处理学习机制与粗集方法来检测用户兴趣的漂移。1998年Grabtree和Soltusiak通过监控用户浏览WEB网页和使用电子邮件的习惯来做为更新用户兴趣模型的依据,并使用粗集方法来检测用户兴趣的更改,他们的研究表明用户兴趣可以通过测量用户兴趣度在一段时间内的相似度来查看兴趣是否发生了改变。1999年Billsus和Pazzani引入智能Agent来更新用户兴趣模型,首先要将用户兴趣分为长期和短期两类,短期兴趣模型只要通过观察用户最近的行为就能做出更新与否的决策,但是从长期兴趣模型需要逐渐的来更新。2000年Ivan Koychev改进了时间窗方法,它使用一种标记测试来感测用户的兴趣漂移,然后通过调整时间窗的窗口大小,目的是最大化的提高对最近用户兴趣数据分类的准确性。同年Ivan Koychev提出了另外一种渐进遗忘机制,并给出了遗忘函数W=f(t),他将每一个样本都赋予一定的权重,权重的大小随着时间会不断变化,当达到一定的权重阈值时候,这个用户兴趣就要更新。2003年Abreu在虚拟地图的应用中引入遗忘机制,并使用E D方法改进了遗忘机制在用户兴趣模型中的更新效果。2007年Yalcin指出了单独的VSM无法更新用户兴趣模型,所以他们引入了Learn++算法来支持兴趣漂移,综合的VSM可以很好的适应用户兴趣的变化。2008年Yingrong li定义了一种UChoo的方法来更新用户兴趣模型,UChoo方法也是定义对每个兴趣样本都定义了以个权重描述,这个权重描述使得最近的用户兴趣比时间长久的用户兴趣更重要一些,反映在权重上值就更大一些。

2 基于艾宾浩斯遗忘的更新机制

假设用户兴趣模型已经建立起来,这时候不需要用户提供兴趣知识,系统使用机器学习方法可以获取用户的兴趣信息。但是系统并不知道用户的兴趣是不是改变了,如果改变了新获取的用户兴趣数据该怎么与原来的用户兴趣数据融合在一起;系统对那些过时的,用户不在感兴趣的样本该怎么处理才能达到最好的服务效果。之前学者们大多都通过时间窗方法和遗忘机制来解决这个问题。因为用户兴趣模型是通过用户描述文件(User Profile)来表示用户兴趣知识的,而用户描述文件中的用户兴趣是以分类的方式聚集在一起的。如果将用户的兴趣分为长期兴趣和短期兴趣两种,短期兴趣由于影响因素比较的多,更新比较快,时间窗方法将是一种比较好的解决方式,时间窗方法应用的基础是用户兴趣是以用户最近浏览序列来体现的,通过浏览序列以及浏览内容可以看出用户兴趣是否发生了变更。长期兴趣一般比较稳定,虽然也存在着影响因素,但是衰减比较的慢,学者们更多的是采用遗忘机制来更新长期兴趣。

2.1 艾宾浩斯遗忘原理

更新是用户兴趣模型的重要功能,模型只有一直获取用户的兴趣数据,才能保证系统对用户的适应性,正因如此模型的数据量才会不断地增大。根据帕累托法则,20%的重点信息能够产出80%的决策结果,所以只需要保留重要的,与用户下一次检索密切相关的信息,这样就可以把长久不用的兴趣信息更新掉,从而减小模型的信息储存量。用户的兴趣是否被模型更新取决于与之联系的事件的数目、它所涉及的内容与用户的相关度、时间以及现在所能表现用户当前兴趣的准确度等因素。对用户兴趣模型来说,相对于获取用户兴趣数据是主动,用户兴趣的更新则是被动的。也就是说模型能够主动去选择是否获取并存储用户的某一兴趣,而不能选择去更新用户的某一兴趣,因为系统很难判断当前的用户兴趣是否产生了漂移,也不知道获取的信息将怎么替代过时的信息。用户兴趣模型更新的这些特点与人脑的遗忘机制很相似。人脑总是只保存最有意义和最经常使用的那部分数据,大量的次要信息在长时间不使用后会被慢慢遗忘,这种遗忘的机制使得大脑总是能适应不断增长的信息处理工作,更快地提取到最有价值的那部分数据。德国心理学家赫尔曼.艾宾浩斯(Hermann Ebbinghaus)认为遗忘的速度在记忆紧接着的过后最快,然后慢慢放缓,直到遗忘的停止。但此时记忆的内容不到原先的30%。他认为“记忆与遗忘是时间的函数”心理学研究认为,并根据实验结果绘成遗忘曲线,即著名的艾宾浩斯遗忘曲线。如图1所示。

从图1可以看出人的遗忘是有规律的,遗忘的进程并不是均衡的,而是先快后慢的方式,可以认为在遗忘最快的那段时间大脑中所保留的知识称为短期记忆,遗忘到最后剩余的不足30%就几乎是稳定的长期记忆了。心理学研究表明,人的兴趣对应于记忆也可分为长期兴趣和短期兴趣。兴趣的衰减同记忆一样也是时间的函数,但是衰减的时间并不一致,衰减的规律也有所区别,但是大致是相同的。本文则基于艾宾浩斯遗忘原理给出假设,在前人研究的基础上给出自己对兴趣漂移的观点。

2.2 用户兴趣漂移

检测用户兴趣漂移是用户兴趣模型更新重要的一个环节,因为如果兴趣发生漂移,当前所获取用户的兴趣知识跟用户描述文件里存储的知识就是相同的,如果加入就会产生数据冗余,增加了用户描述文件的存储量,同时也增加了对用户下一次检索而做的兴趣计算的复杂度。只有在判定用户的兴趣发生了变更,才能去更新用户描述文件。本文介绍了之前学者们对用户兴趣漂移做出的研究,学者们提出的研究都很有建树,同时也加快了用户兴趣漂移研究的进程。笔者发现前人的研究都集中在了用户兴趣的预测,但忽略了预测的验证。依据艾宾浩斯的遗忘曲线我们可以得到记忆的遗忘是有规律的,对应于记忆的衰减也是符合规律的,而且在正常状况下,这种规律将是一种递减函数。基于这样的假设笔者提出基于艾宾浩斯遗忘规律的前验用户兴趣漂移。获取当前的用户兴趣之后加入到用户描述文件之中,如果新生成的兴趣衰减曲线符合系统设置的阈值,那么表明兴趣并没有发生漂移,这里我们使用渐进遗忘机制,就是将描述用户兴趣的关键词赋予权重,权重的大小由衰减函数随着时间计算得出。如果发现新生成的兴趣衰减函数不符合常态,已经超出了系统设定的阈值,那么可以判定用户的兴趣发生了漂移。这个时候我们将重新为用户的新兴趣建立用户兴趣描述文件。

2.3 更新用户兴趣模型

用户兴趣模型的更新需要分为两种方式:修改兴趣权重和重建用户描述文件。前者是用户的兴趣发生了衰减,但是并未发生漂移,后者是用户兴趣发生了漂移。对于更新用户兴趣模型的研究,大多学者都在自己研究的基础上提出了样本数量的问题,样本数量决定了用户兴趣在整个模型中的地位,同时也决定了用户兴趣的性质。也就是量变会引起质变。显然本文提出的这两种更新方式都是很宏观的,没有具体的给出更新数量。现在的更新的研究可以分为三种:全部更新,新的兴趣知识全部加入到用户兴趣模型,过时的兴趣知识全部删除;部分更新,也就是渐进遗忘机制,将当前兴趣模型加入的同时,将处于兴趣另一个边界的兴趣知识,也就是时间隔得最久的知识更新掉;全部加入,同时保留用户的全部兴趣知识。显然第一种和第三种都不符合本文的意向,想要=应用于实际也不太现实。对于第二种部分更新的方式,有学者采用黄金分割法,也有学者采用线函数,还有20/80的方法来分。两外基于时间窗方法的研究者在自己的试验中也给出了相应的更新数量,Ivan Koychev就得出了130的最优值,但是这些也只是基于在个人系统的研究数值。本文基于学者们的研究成果,提出基于遗忘百分比的更新。也就是根据遗忘曲线上的遗忘百分比,将模型中的兴趣知识相应的更新。这种方法的优点是简单易行,但是基于每个人的兴趣衰减规律的基础上的。因为艾宾浩斯提出的遗忘曲线是在统计大量不同人的遗忘数据之后生成的一种曲线,从而这种曲线具有共性的群体规律,此遗忘曲线并不考虑接受实现个人的个性特点,而是寻求处于平衡点的遗忘规律。因为我们的生理特点、生活经历不同,可能导致我们有不同的兴趣习惯、兴趣特点。我们要根据每个人的不同特点,寻找到属于自己的兴趣衰减方式。

3 结论

本文在分析艾宾浩斯遗忘原理的基础上,提出对应的用户兴趣遗忘机制,并基于前人研究的基础上,基于艾宾浩斯遗忘规律从用户兴趣漂移和更新用户兴趣模型两个方面的提出前验用户兴趣漂移和基于遗忘百分比的更新算法。艾宾浩斯遗忘曲线只是时间的函数,对于其他的影响因素并没有涉及,本文也只是基于兴趣时间来更新用户兴趣模型。

摘要:用户兴趣更新是指在用户兴趣模型建立之后,对模型增加新获取的用户兴趣知识或者删除过时不用的用户兴趣知识。本文基于艾宾浩斯遗忘规律,对用户兴趣漂移和更新用户兴趣模型分别提出前验用户兴趣漂移和基于遗忘百分比更新的算法,这两个算法共同组成了用户兴趣模型的更新机制。

关键词:艾宾浩斯,遗忘,用户兴趣模型,兴趣漂移,更新

参考文献

[1]Koychev I,Lothian R.Tracking.Drifting concepts by time window optimisation[M].Research and Development in Intelligent Systems XXII.2006.

[2]Abreu,A,Correia,L.An hybrid aping approach with place forgetting[J].42nd IEEE Conference on Decision and Control.2003.Proceedings.

[3]Yalcin.A,Erdem.Z,Gurgen.F.Ensemble based incremental SVM classifiers for changing environments[J].22nd international symposium on Computer and information sciences.2007.

[4]Yingrong Li,Yang Wei,Anastasiya Kolesnikova,Won Don Lee.A New Gradual Forgetting Approach for Mining Data Stream with Concept Drift[J].International Symposium on Information Science and Engieering.2008.

[5]宋丽哲,牛振东,余正涛,来瀚涛,董祥军.一种基于混合模型的用户兴趣漂移方法[J].计算机工程.2006.

[6]郭新明,弋改珍.混合模型的用户兴趣漂移算法[J].智能系统学报.2010.

[7]Koychev.I,Schwab.I.Adaptation to Drifting User's Interests.In proc.of ECML2000Workshop:Machine Learning in New Information Age.2000.

[8]Mladenic D.Text-learning and Related Intelligent Agents.IEEE Intelligent Systems1999.

[9]Conlan.O,Wade.V,Bruen.C,Grgan.M.Multi-model metadata driven approach to adaptive hypermedia services for personalized eLearning[J].Adaptive hypermedia and adaptive web-based systems.100–111.Springer,Berlin.2002.

上一篇:过氧化氢灭菌下一篇:现代教学