用户兴趣模型

2024-08-05

用户兴趣模型（共9篇）

用户兴趣模型篇1

1 引言

随着网络技术的发展以及机器学习、数据挖掘等知识发现技术的出现, 推荐系统应运而生, 它根据用户的兴趣爱好, 推荐符合用户兴趣爱好的对象。推荐系统模拟商店销售人员向用户提供商品推荐, 帮助用户快速找到所需商品, 顺利完成购买过程, 可以有效保留用户, 提高电子商务系统的销售能力, 重建客户关系。目前电子商务推荐系统主要有两种方法, 一是基于内容过滤的推荐方法, 二是基于协同过滤的推荐方法。

基于内容过滤的推荐方法, 为每个用户建立兴趣模型 (profile) , 根据用户以往的购买历史和访问数据, 提取用户的兴趣特征集合, 形成用户的兴趣模型。基于内容过滤的系统如:Personal WebWatcher[1], CiteSeer[2], WebMate[3], WebPersonalizer[4]等。基于内容过滤的系统其优点是简单、有效, 缺点是难以区分资源内容的品质和风格, 而且不能为用户发现新的感兴趣的资源。

基于协同过滤的推荐方法, 其出发点在于任何人的兴趣不是孤立的, 应处于某个群体所关心的兴趣当中, 因此可以根据相同或相近兴趣的用户对相应信息作出的评价进行推荐。基于协同过滤的系统如: WebWatcher[5], GroupLens[6], SiteSeer[7]等。基于协同过滤系统的优点是能为用户发现新的感兴趣的信息, 缺点是存在稀疏性问题和可扩展性问题。

本文提出一种基于用户兴趣的混合模式推荐方法, 该方法首先根据用户的购买数据和浏览行为, 形成用户的兴趣模型, 并按商品与用户兴趣模型的相似度进行推荐;然后, 根据相似兴趣的用户其特征向量也相似的原则将用户进行分类, 按照用户特征相似度进行推荐;再根据用户评价的相似度, 将评价一致或者相似的用户分为一类, 利用用户间的评价进行推荐;最后对推荐的贡献进行加权求和, 形成最终的推荐。该推荐方法综合考虑来自两个类别的影响, 能动态调整用户类别以及相应地修改各类参数, 以提高推荐系统的准确性。

2 用户兴趣模型的表示机制

要实现个性化的推荐服务, 首先必须搜集用户的个人信息, 建立用户兴趣特征模型。用户兴趣模型建立的主要依据是用户感兴趣的文本以及用户对于文本的关注程度, 用户对文本内容兴趣的程度不同, 其对用户兴趣模型的贡献也不同, 用户兴趣模型是感兴趣的文本以及兴趣强度的函数[8,9], 即:

$\begin{array}{l} Μ o d e l - U s e \\ = f (< D_{1}, g_{1} >, < D_{2}, g_{2} >, \dots, < D_{s}, g_{s} >) \end{array}$

其中Di表示示例文本集, gi是对Di的兴趣强度, s是文本数, i=1, 2, 3, …, s.

用户兴趣模型的基础是示例文本的特征表示, 用户对于文本的关注可大致归结为对概念的关注, 兴趣强度越大, 说明该文本所体现的概念对于用户的兴趣相关程度越大。用户对于文本的关注强度可以根据显式方式获得, 即通过用户明确的反馈获得, 也可以通过隐式方式获得, 即收集用户的访问模式来确定。兴趣强度设定为如下函数:

$g_{i} = g (D_{i}, B_{i}, U)$

其中0≤gi≤1, U表示用户;Di表示访问的HTML页面或者文本;i表示文本编号;Bi表示访问模式的类型, i=1, 2, …, s; gi表示用户关注强度。

Bi∈{Bookmark, Save, BrowseTime, BrowsePage, Feedback, …}, Bookmark表示将页面加入书签的动作;Save表示保存页面; BrowseTime表示浏览的时间因素; BrowsePage浏览指定页面的动作, 如滚动或点击; Feedback表示对于给定的要求, 用户给予的反馈。

设用户的示例文本的特征向量为Di= (ti1, ti2, …, tik) , 这里是潜在语义空间的k维向量;用户U对于示例文本Di的兴趣强度为gi=g (Di, Bi, U) , n是示例文本数目, 则用户兴趣模型为:

$\begin{array}{l} U s e r - V e c t o r = \sum_{i = 1}^{n} g_{i} D_{i} \\ = (\sum_{i = 1}^{n} g_{i} t_{1}^{i}, \sum_{i = 1}^{n} g_{i} t_{2}^{i}, \dots, \sum_{i = 1}^{n} g_{i} t_{k}^{i}) = (u_{1}, u_{2}, \dots, u_{k}) \end{array}$

3 混合模式推荐模块的构建与修改

3.1 混合模式推荐算法的流程

整个推荐分为两个模块, 即内容过滤推荐模块和协同过滤推荐模块, 其基本流程是:首先将用户当前访问序列、用户购物历史数据和Web日志等内容进行预处理, 提取出用户兴趣的主题向量和特征向量, 经过数据处理建立基于内容过滤的推荐模块;再根据用户兴趣特征、用户评分数据和当前访问序列等数据, 建立基于协同过滤的推荐模块, 提取用户的最近邻和当前访问序列的最近邻;然后综合两个推荐模块进行加权求和运算, 对产品信息库中的产品, 与混合推荐模型进行相似度计算 (即推荐处理) , 生成top-N推荐访问序列, 通过Web服务器将序列推荐给用户, 并获得用户对推荐序列的反馈信息, 自适应的调整推荐模型和阈值, 以获得最佳的推荐质量。

基于用户兴趣的混合模式推荐算法的基本流程如图1所示。

3.2 基于内容过滤推荐模块的建立

(1) 数据处理流程

首先将用户U当前访问序列转变为兴趣主题向量, 连同从用户历史购物数据和Web日志中抽取的特征向量进行加权和运算, 得到初始推荐模型, 再计算初始向量和当前访问序列之间的相似度, 最后为每一个兴趣主题设置最优的初始相似度阈值。

数据处理的流程如图2所示。

(2) 基于内容过滤的推荐模型

初始推荐模型向量是由兴趣主题向量、从用户购物历史数据中抽取的特征向量以及从Web日志中抽取的特征向量进行加权和运算得到的, 设权重分别为a, b和c, 则有:

$Ρ f_{0} (Q) = a Ρ_{0} (Q) + b Ρ_{1} (Q) + c Ρ_{2} (Q)$

式中Q表示兴趣主题, Pf0 (Q) 表示用户兴趣主题Q的初始推荐模型向量, P0、P1和P2分别是它的3个分向量。P0 (Q) 是主题向量, P0 (Q) = (P01, P02, …, P0w) , P0i表示第i个词wi的权重;P1 (Q) 是从用户购物历史数据中抽出的特征向量, P1 (Q) = (P11, P12, …, P1w) , P1i表示wi的权重;P2 (Q) 是从Web日志中抽出的特征向量, P2 (Q) = (P21, P22, …, P2w) , P2i表示wi的权重。

3.3 基于用户协同过滤推荐模块的建立

选取登录次数较多和浏览文本较多的用户参与用户聚类, 便于从总体上考虑产品信息内容与用户兴趣之间的关系, 兼顾产品信息的范围。用户聚类模块可以根据聚类的内容不同而分为用户的内容类和用户的合作类。

(1) 用户的内容类

用户的内容类依据用户兴趣之间的相似度进行确定, 本文选择用夹角余弦的方法, 用户的兴趣相似度为simC (U, V) =cos (U, V) , U和V表示用户, U= (u1, u2, …, uk) , V= (v1, v2, …, vk) 。

根据用户特征向量之间的相似度, 将其进行聚类, 使兴趣相近的用户归入一类, 便于处理, 同时对于新产品信息文档, 通过判断其类别归属, 获得应该推荐的用户清单。假定所要求的分类数为K, 用户数为P, 两个用户之间的相似度采用夹角余弦公式, 两个类之间的相似度为两类之间最不相似的用户特征向量相似度:

$s i m_{C} (C_{r}, C_{t}) = \min_{U \in C_{r}, V \in C_{t}} s i m_{C} (U, V)$

分类中采用完全联接的基本思想在于使同一类中用户兴趣的相似度较大, 而不同类之间的用户兴趣的相似度较小。

具体分类算法如下:

①设分类数为L, 初始时刻L=P, 即P个用户各成一类, Ci={Ui}。

②若L≤N则结束退出。

③寻找两类之间相似度最小的两类Ci, Cj.

④合并Ci, Cj, 删除Cj, 计算新类与其它类的相似度, 转L=L-1。

当达到预先给定的类别数N时, 分类停止。由此获得N个用户类{C1, C2, …, Cn}, 由于是基于用户兴趣内容进行的分类, 故称为用户的内容类 (content class) 。

(2) 用户的合作类

基于内容所作的分类即通过内容的相似度进行分类, 其好处是能够发现和用户已有兴趣相似的信息, 但如何发现新的感兴趣的信息, 还要通过合作方式获得, 即通过用户间的评价相似度来确定对于信息的感兴趣程度。基于合作方式的用户类别作为用户内容类的某种程度上的兼类, 称之为合作类 (collaborative class) , 仿照内容类的划分方法, 进行合作类的划分。

定义用户之间的评价相似度为:

$s i m_{D} (U, V) = \frac{\sum_{D \in U \cap V} m i n (g (D, B, U), g (D, B, V))}{∥ U ∥ ∥ V ∥}$

式中U, V分别表示用户评价的文本集合, ‖U‖和‖V‖分别表示其评价的文本数量, g (D, B, U) 和g (D, B, V) 分别表示用户U和V的兴趣强度函数, D表示访问的HTML页面或者文本, B表示访问模式的类型。

通过相似性的度量得到目标用户的最近邻后, 下一步则需要产生相应的推荐。设用户U的最近邻集合用NNu表示, 则用户U对项目i的预测评分Pu, i可以通过用户U对最近邻集合NNu中项目的评分得到, 计算方法如下:

$Ρ_{u, i} = \bar{R}_{u} + \frac{\sum_{n \in Ν Ν_{u}} s i m (U, Ν) \cdot (R_{n, i} - \bar{R}_{n})}{\sum_{n \in Ν Ν_{u}} (| s i m (U, Ν) |)}$

式中sim (U, N) 表示用户U与用户N之间的相似性, Rn, i表示用户N对项目i的评分, $\bar{R}$ u和 $\bar{R}$ n分别表示用户U和用户N对项目的平均评分。

通过上述方法预测用户对所有未评分项目的评分, 然后选择预测评分最高的前若干个项目作为推荐结果。

3.4 混合模式推荐模型的建立

对于产品信息库中对产品进行描述的信息文本D, 获取其在语义空间的特征表示, 首先计算D与用户U兴趣的相似度, 即文本特征向量与用户特征向量的相似度simU (U, D) ; 然后计算与用户的内容类的相似度, 即计算内容类的类别特征向量与文本特征向量的相似程度simCE (U, D) ;其次计算与用户合作类的相似度simDE (U, D) , 最后综合计算文本D与用户U的相似度。

这里类别特征向量为:

$\begin{array}{l} L = (\sum_{i = 1}^{∥ L ∥} \frac{d_{1}^{i}}{∥ L ∥}, \sum_{i = 1}^{∥ L ∥} \frac{d_{2}^{i}}{∥ L ∥}, \dots, \sum_{i = 1}^{∥ L ∥} \frac{d_{k}^{i}}{∥ L ∥}) \\ = (l_{1}, l_{2}, \dots, l_{k}) \end{array}$

L为类别, ‖L‖为类别的用户数, dij为第i个用户的第j个特征分量。

simU (U, D) =simU (pf, D) =cos (pf, D) , 表示根据用户兴趣模型pf与文本D的相似度。

simCE (U, D) =cos (C, D) , 表示用户所在的内容类别C与文本D的相似度。

$s i m_{D E} (U, D) = \frac{1}{∥ L ∥} \sum_{i = 1}^{∥ L ∥} g (D, B_{i}, U_{i})$ , 表示用户所在的合作类对文本D的兴趣强度。

最终的综合相似度sim (U, D) 为下面公式所示:

$\begin{array}{l} s i m (U, D) \\ = α \cdot s i m_{U} (U, D) + β \cdot s i m_{C E} (U, D) + γ \cdot s i m_{D E} (U, D) \end{array}$

式中α、β、γ为可调节的权重参数, 表明在匹配过程中, 用户兴趣模型相似度、用户的内容类类别兴趣相似度、用户的合作类兴趣强度对推荐系统的贡献程度, α+β+γ=1 (0≤α≤1, 0≤β≤1, 0≤γ≤1) 。若β=0, γ=0, 则为基于内容过滤的推荐模型;若α=0, 则为协同过滤的推荐模型。

4 实验结果及分析

4.1 实验数据集和评价指标

本文采用MovieLens站点 (http://movielens.umn.edu/) 提供的数据集来测试混合模式推荐算法。从用户评分数据库中选择12000条评分数据作为实验数据集, 实验数据集中共包含245个用户和1106部电影, 其中每个用户至少对20部电影进行了评分, 评分值为从1到5的整数, 数值越高, 表明用户对该电影的偏爱程度越高。

整个实验数据集需要进一步划分为训练集和测试集, 为此引入划分系数x表示训练集占整个数据集的百分比, 我们选择的电影数据集的稀疏等级为:

$1 - \frac{12000}{245 \times 1106} = 0.9557$

评价推荐系统推荐质量的度量标准主要包括统计精度度量方法和决策支持精度度量方法两类。本文采用平均绝对偏差MAE (Mean Absolute Error) 和文本检索系统中的综合评价指标F-measure作为度量标准。平均绝对偏差MAE通过计算预测的用户评分与实际的用户评分之间的偏差度量预测的准确性, MAE越小, 推荐质量越高;文本检索系统中的综合评价指标F-measure综合考虑了精确率和召回率对推荐系统的影响, F-measure值越大, 对应的推荐效果越好。

4.2 实验结果及分析

首先查看在不同的训练集测试集比例即拷虑在不同数据稀疏程度的情况下, 两种方法的MAE性能比较, 最近邻用户数值设置为30, 实验结果如图3所示;然后查看在一定训练集测试集比例即稀疏程度不变、最近邻集大小不同的情况下, 两种方法的MAE性能比较, 考虑最近邻集大小的不同对算法性能的影响, 实验结果如图4所示。

从图3和图4可以看出, 基于用户兴趣的混合模式推荐方法的平均绝对偏差MAE数值比基于用户协同过滤推荐方法的MAE数值也要小, 混合模式推荐算法的MAE曲线也处于基于用户协同过滤算法的MAE曲线下方, 混合模式推荐方法的推荐效果优于基于用户协同过滤推荐算法的推荐效果。在数据稀疏程度不同的条件下, 随着训练集数据的增多, 两者之间MEA值的差距在逐渐缩小, 说明混合模式推荐效果的优势随着训练集的增多而缩小;在数据稀疏程度相同的条件下, 随着最近邻集数量的增加, 推荐效果将会下降, 说明在较小的最近邻数值范围内就可以得到较为准确的预测值。

为了比较基于用户兴趣的混合模式推荐方法与基于内容过滤的推荐方法的性能, 将2002年的数据作为训练集, 2003年、2004年和2005年的数据作为测试集, 两种方法在F-measure指标的实验结果如图5所示。

从图5可以发现, 不论是基于内容过滤的推荐方法还是基于用户兴趣的混合模式推荐方法, 其综合评价指标F-measure随着时间的推移逐渐提高, 说明两种推荐方法随着系统的运行, 其综合性能都能得到提高, 系统具有一定的机器学习能力;同时, 混合模式推荐方法的F-measure曲线位于基于内容过滤推荐方法对应折线的上方, 说明混合模式推荐方法的推荐效果优于基于内容过滤推荐方法的推荐效果。

5 结束语

基于用户兴趣的混合模式推仅方法综合考虑用户的阅读习惯和兴趣, 同时也利用了用户之间的评价所体现出来的兴趣一致性, 不但能够根据用户的历史资料来推荐相似的信息, 而且能够通过相似兴趣用户的推荐来获取新的信息, 实现兴趣的扩充和转移, 推荐质量得到了显著提高。本文只是针对推荐系统中用户信息和商品信息的处理这一小部分作了分析和探讨, 提出的方法也有一定的局限性, 在实际应用中可能会存在一些问题, 下一步工作可以从信息获取、推荐质量与推荐实时性平衡等方面展开。

参考文献

[1]Mladenic D.Machine learning for better Web brows-ing[A].Rogers S, Iba W.AAAI 2000 spring sym-posium technical reports on adaptive user interfaces[C].Menlo Park, CA:AAAI Press, 2000:82~84.

[2]Bollacker K D, Lawrence S, Giles C L.Discoveringrelevant scientific literature on the Web[J].IEEEIntelligent Systems, 2000, 15 (2) :42~47.

[3]Chen L, Sycara K.WebMate:a personal agent forbrowsing and searching[A].Sycara K P, WooldridgeM.Proceedings of the 2nd international conferenceon autonomous agents[C].New York:ACM Press, 1998:132~139.

[4]Mobasher B, Cooley R, Srivastava J.Automatic per-sonalization based on Web usage mining[J].Commu-nications of the ACM, 2000, 43 (8) :142~151.

[5]Joachims T, Freitag D, Mitchell T.WebWatcher:atour guide for the World Wide Web[A].Georgeff MP, Pollack E M.Proceedings of the internationaljoint conference on artificial intelligence[C].SanFrancisco:Morgan Kaufmann Publishers, 1997:770~777.

[6]Konstan J, et al.GroupLens:applying collaborativefiltering to usenet news[J].Communications of theACM, 1997, 40 (3) :77~87.

[7]Rucker J, et al.Siteseer:personalized navigation forthe web[J].Communications of the ACM, 1997, 40 (3) :73~75.

[8]曹毅, 贺卫红.基于向量空间模型的信息安全过滤系统[J].计算机工程与设计, 2006, 27 (2) :224~227.

[9]林鸿飞, 杨志豪, 赵晶.基于内容和合作模式的信息推荐机制[J].中文信息学报, 2005, 19 (1) :48~55.

用户兴趣模型篇2

【关键词】网络信息；混合型用户兴趣模型；二层树状结构

1.存在问题

用户兴趣模型是个性化信息过滤系统实现个性化的关键。目前的个性化信息过滤系统都不能很好的为用户提供个性化服务。分析其原因，用户兴趣模型主要存在以下问题：

（1）描述用户对半结构化的Web数据的兴趣，现有的方法采用一个多维向量或者一组向量来表示。实验证明，这种表示模型不能完全描述出用户的真正兴趣所在，而且独立的向量也给兴趣的更新带来不便。

（2）现有的系统大多要求用户清楚地表述他们的兴趣，然而有时让用户准确而清楚地描述他们的信息需求是相当困难的，因为用户往往对模糊而好奇的东西会产生比较浓厚的兴趣。

（3）现阶段很多系统都假设用户兴趣很少改变，但这与事实情况并不相符。当用户兴趣模型与用户的实际兴趣不一致时，查准率和查全率必然低。

2.模型建立

为了解决现有用户兴趣模型不能区分短期和长期兴趣的问题，本文提出了一种混合用户兴趣模型，将用户兴趣模型分为短期兴趣模型和长期兴趣模型，短期兴趣模型中存储用户的近期兴趣，长期兴趣模型中存储用户的长期偏好。同时提出了基于时间向量的二层树状结构来表示用户兴趣模型，节点采用加入时间因素的向量空间表示法表示，然后通过层次和划分结合的聚类算法把用户兴趣特征项聚类成不同的主题。

系统通过收集用户浏览过的网页，除去不感兴趣的页面，得到用户感兴趣的页面。把用户感兴趣的页面进行预处理后，采用树状向量空间表示，并进行聚类分析得到用户的兴趣度，同时收集用户的浏览行为，调整用户的兴趣度，由此建立短期兴趣模型。系统通过用户初次使用时填写的注册信息建立短期兴趣模型，当用户的某一短期兴趣加入时间间隔达到一定程度，则认为该兴趣为用户的长期兴趣，把此兴趣加入用户的长期兴趣模型中，并在短期兴趣模型中删除此兴趣。用户的兴趣模型采用基于优化时间窗兴趣漂移的遗忘机制进行更新。

3.基于时间的二层树状空间向量模型表示

用户兴趣模型表示是对从网页中抽取的元数据（特征值）进行量化，以结构化的形式描述和存储用户兴趣信息，用户模型的表示决定了模型反映用户真实信息的能力和可计算能力，也在一定程度上限制了建模方法和模型更新算法的选取，同时是决定算法简繁优劣的重要因素之一，用户兴趣模型表示是建立用户兴趣模型的重要工作。

用户通常对多方面的内容感兴趣，并且其兴趣不断变化。用户的一些长期兴趣很少发生变化，而短期兴趣却会经常发生变化。这就要求用户模型既能够考虑到用户的长期兴趣演变，也能够迅速捕获短期的兴趣变迁，表达用户当前的兴趣。鉴于此，本系统需要能区分不同时期兴趣的用户兴趣模型表示方法。本系统要求系统响应时间短，而处理的数据量大，分析现有的用户模型表示方法，向量空间模型能将文本和查询简化为易于数学处理的特征项及权值集合的向量表示，但是向量空间模型不能区分用户的长短期兴趣，所以在向量空间模型的基础上进行了扩展，在其中加入时间向量来表示用户兴趣模型。但同时只采用加入时间向量的空间向量表示法并不能区分用户的不同兴趣类别，易造成用户兴趣混乱，故此本课题参考网易搜索引擎的“开放式目录（ODP）”管理方式，把用户兴趣模型表示成二层树类结构，上层父概念类是对下层所有子类的共同属性的概括，而下层子概念类则是从不同角度对上层父概念类加以细化，所有子节点之间形成平等的兄弟关系，这能满足本系统能区分不同兴趣类别的要求。

综上所述，本系统通过基于时间向量的二层树状结构来表示用户兴趣模型，第一层节点表示用户的兴趣主题，一个主题可以有很多主题特征项，第二层节点表示用户某个兴趣主题下的特征项，兴趣主题和特征项采用加入时间因素的向量空间模型表示，这样的二层树状结构模型既具有特征项和权值表示用户兴趣类的特点，也具有类型层次结构模型的层次性，同时还能通过特征项主题加入时间的不同来区分短期和长期兴趣。

因此整个模型树分为两级节点：第一级节点代表用户的兴趣类别，用一组兴趣主题词（I1，I2，…，In）来代表用户的n个兴趣类别，每一兴趣类 Ii 根据用户兴趣度的高低赋予一定的权值Wi，且记录加入时间Si。因此用户的兴趣可以表示为（（i1，w1，s1），（i2，w2，s2），…，（in，wn，sn））的加权矢量形式。第二级节点，即叶子节点，它代表用户某一兴趣类别下的特征项，以加入时间因素的向量空间表示成（T，W，S）形式。

在向量空间模型中加入时间向量S（s1，s2，...，si，...，sn），记录新的特征项加入的时间，表示用户对某一特征项的兴趣持续程度。这样每个用户兴趣特征项D由一个三元组（T，W，S）构成。其中，T为特征项，W为特征项的权重，S为特征项的时间参数。得到的每个网页表示为一个规范化特征矢量P（d）={（t1，w1，s1），…（ti，wi，si），…（tn，wn，sn）}。当把一张网页加入短期兴趣模型时，首先通过Web网页预处理表示成向量形式P（d）={（t1，w1，s1），…（ti，wi，si），…（tn，wn，sn）}，其加入短期兴趣模型的时间表示为S。文档的加入时间以绝对时间表示，如从2000年1月1日零点到当前时间的秒数，进行程序设计时，使用一个long型变量来表示时间参数。

为了适应用户兴趣的变化，把用户兴趣分为长期兴趣和短期兴趣，对应的也就用两棵兴趣树来分别表示。基于时间的树状模型能够准确地描述用户兴趣所在，根据树状模型的第一级节点，就可以大概地知道用户的兴趣类型，及其对每一兴趣类的兴趣度高低。由于用户兴趣类型是根据对用户浏览的内容页面进行聚类分析所得，每一兴趣类的主题词采用概化的方法在相应聚簇的特征向量中归纳得到，每一兴趣类的权值通过权值计算公式计算得到，所以这样得到的兴趣模型能够满足兴趣模型的准确性和完整性要求。树状模型的第二级节点是加入时间因素的向量空间模型表示的特征项，这样就能通过加入特征项的时间判断此特征项是长期兴趣还是短期兴趣，而且能通过特征项的权值判断用户对此特征项感兴趣程度。

4.总结

现有的信息过滤系统存在不能有效提取用户兴趣、用户兴趣变化得不到及时反馈等问题，究其原因是没有很好地平衡系统准确性、适应性以及用户负担之间的矛盾。本课题拟从统计学习、人工智能相结合的角度研究网络提取系统的关键问题，关注如何在提高系统的准确度和稳定性的前提下，最终达到向用户提供高效率的个性化检索的目的。该系统的研究将促进网络信息提取技术的发展，提高现有的信息过滤技术。

【参考文献】

[1]张卫丰，徐宝文.基于WWW缓冲的用户实时二维兴趣模型.计算机学报，2004，27（4）：461～470.

[2]邵志峰，李荣陆，胡运发.基于中图分类法的用户兴趣模型研究.计算机应用与软件，2007，24（8）：85～86.

用户兴趣模型篇3

随着互联网的不断发展与普及,Internet渗透到了人们生活的各个领域,成为影响日常生活的最重要信息源。但随着网络资源以指数般速度增长,用户时常置身于浩如烟海的信息中,无法充分利用Internet的潜在资源,出现了“信息过载”和“信息迷向”问题[1]。因此,如何根据用户的需要及时获取相关信息成为充分利用Internet的一个挑战性问题,如何帮助用户根据个人兴趣爱好检索相关的网络信息,成为近年来信息检索领域中研究的一个重点。

目前的搜索引擎只适用于短暂的随机性查询,一般是利用用户提供的关键字进行搜索,返回系统认为相关的文本。因此存在着一些问题:第一,基于关键字的信息检索不能全面反映用户兴趣,没有保存和维护功能;第二,简单的关键字匹配往往输出大量文档,真正相关的文本很少。因此建立一个有效的用户兴趣模型,为用户提供更为有效的帮助是非常必要的。

研究中通常把对用户检索的偏好和兴趣描述称为用户个性化兴趣建模,建立准确有效的用户个性化兴趣模型,是实现个性化信息检索的核心和关键。用户个性化兴趣模型的构建主要包含两点:首先要建立用户个性化模型,较好地反映用户兴趣爱好,为用户查找和推荐相关的信息;其次是要随着用户兴趣的变化,兴趣模型能适应性的改善[2]。

本文提出的基于潜在语义索引的用户兴趣模型,利用LSI技术对用户感兴趣的文本信息进行文本结构分析和语义分析,用特征词和文本之间的语义关系作为用户兴趣主题的一种体现方法,将符合约定条件的文本信息提交给用户,并在相关的反馈机制上不断改进和完善用户兴趣模型,从而可以有效地根据用户的兴趣检索相关信息,提高信息检索的效率。

1 潜在语义索引技术

潜在语义索引[3](Latent Semantic Indexing)是一种概念检索方法,可以解决文档中词的多义和同义现象。该方法构造出文本的词频矩阵X,利用奇异值分解技术(Singular Value Decomposition)对矩阵X进行分解,减少频数矩阵的维数并保留最重要的行,得到一个X的近似矩阵XK,以此来表达出特征词与文档之间的语义关系。利用潜在语义索引方法可以将原来大规模的文档词频矩阵用一个维数较低的矩阵来表示,在这个过程中可能会损失一些信息,但是可以保证所损失的仅仅是原来词频矩阵中非常不重要的部分内容[4]。

1.1 词频矩阵的构建

在潜在语义索引中,一个文档集合可以表示为一个m×n的文档词频矩阵X,这里n表示文档库中的文档数;m表示文档库中包含的所有不同的词的个数。X表示为:

X=aij(i=1,2,…,m;j=1,2,…,n) (1)

aij值非负,表示索引项i在文档j的权重值。aij值的确定通常考虑两个方面,即使用局部加权策略和全局加权策略分别来评价特征项在某一文档中和整个文档集中的相对重要性。

1.2 奇异值分解

按照奇异值分解技术,任意一个矩阵X(t*d)都可以分解为以下形式:

X=TSDT (2)

其中T,D的各列正交且长度为1,即TTT=1,DDT=1;S是奇异值的对角矩阵,即S=diag(λ1,λ2,…,λt),λ为对角矩阵中的特征值。这里分解得到的三个矩阵都是满秩矩阵。SVD的优点在于利用较小的矩阵做到最优的近似。如果S对角线上的元素均以按大小排序,则选取前k个最大的奇异值,其余的设置为0,如此得到的矩阵运算结果为Xk,用它去近似原始矩阵X,这个秩为k的新矩阵在最小平方意义上是最接近X的。在S中引入零以后,可以通过删除相应的行和列来化简S,获得新的对角矩阵S0。同时删除T和D中相应的列,分别获得阵T0和D0,则可以得到下面的简化模型:

Xk=T0S0D (3)

在LSI中,不是仅仅使用特征词的出现信息,而是从文本中提取出隐含的语义结构信息。用Xk近似表示原有的词频矩阵X,实际上就是用X中m维特征空间的前k个主分量方向来近似原来矩阵中的m维特征词空间。前k个主分量方向解释了数据矩阵中的大多数变化,它可以消除特征词中的同义或多义的现象。主分量法的直观解释就是:由原始特征词的加权所构成的单个向量可以非常好的近似由大得多的向量集合所起得效果。在LSI中就是通过SVD技术来估计主分量向量,把原来的X矩阵简化为Xk矩阵,这里k可以远远小于m。此简化损失的信息是很少的。一方面消减了原词频矩阵中包含的“噪声”因素,更加体现出词和文档之间的语义关系;另一方面使词、文档向量空间大大缩减,可以提高文档过滤的效果。

2 基于LSI的用户兴趣模型

2.1 模型构建过程

通过对现有的用户模式构建方式的研究,结合潜在语义索引技术,本文提出了一种基于潜在语义索引技术的用户兴趣模式构建机制,构建过程如图1所示。

首先由用户提供相应兴趣主题的示例文本集,对样本文档进行分词、消除停用词处理后,生成出每篇文档中的特征词,将一个兴趣主题类别中所有文档的特征词统一为原始特征词集,计算出每个特征项表达该兴趣主题的权重值,并按权重值大小排序,按设定的阈值取适当的特征项数作为用户在该兴趣主题的信息表示,这样用户模板可以用一个文档词频矩阵来表示。其算法步骤为:

输入:每个兴趣主题的样本文档C(dj)和设定的特征项个数num。

输出:能够反映用户兴趣的特征词库和词频矩阵。

步骤:

①从训练文本集中依次取得每个文本,调用分词程序将其分词,并去除停用词。

②调用特征提取算法,提取出文档特征项。

③计算特征项的权重值,按照设定的num值取相应特征项数构建成特征词集。

④根据特征词集,为每篇文档生成一个映射(关键码,值)。关键码为特征词,值为该特征项在文本集中的权重值。

⑤生成每个文本的特征向量,构建出文档—词频矩阵。

词频矩阵X建立后,利用奇异值分解技术得到相应的矩阵T,S,D。其中,T和D分别是矩阵X的奇异值对应的左、右奇异向量矩阵;矩阵Y的奇异值按递减排列构成对角阵S,取T和D最前面的k列构建成k-秩近似矩阵Xk=T0S0D。其中S0是由S中前k个对角线元素组成的对角阵,T0和D0分别是T和D的前k列组成。这一部分的具体算法如下。

输入:词频矩阵X,设定K值。

输出:近似矩阵Xk,以及T0,D0和S0。

步骤:

①输入X,调用奇异值分解程序,得到词频矩阵的左右奇异向量矩阵和对角阵。

②根据设定的k值,取左右奇异矩阵和对角阵的前k列,得到k-秩近似矩阵Xk。

③输出索引矩阵Xk,以及它的左右奇异向量矩阵T0,D0和对角阵S0。

在这个算法中,关键是K值的确定。K被称为降维因子,其值的大小有很大的主观性, K过大会使运算量加大, K过小则会失去一些有用的信息。参考着因子分析的相应概念,在研究中一般使用下面的不等式确定K的值[5]:

λi表示S0中的特征值,λj表示S中的特征值,θ为包含原始信息的阈值。实际中往往需要通过多次的试验,选取对文档集合操作效率最好的θ值和K值。一般对于非常大的文档集合,k取100-300比较适合[6],中文文档集合LSI与英文文档集合LSI的取值范围基本上相同。

2.2 文本的匹配与过滤

利用LSI进行文本过滤,其理论基础是利用LSI方法在文档集中潜在的语义关系基础上构造了一个索引项—文档空间,具有相似主题的文档在空间中对应的位置点相距很近[7],用户的兴趣主题模型是由通过降维后的词频文档矩阵来表示的,通过奇异值分解得到的k个正交因子在一定程度上隐含了该兴趣主题的语义信息。过滤系统进行文本过滤的时候,将新的文档映射到LSI语义空间中,计算兴趣主题文档集中的文档向量与新的文档向量之间的相似值,如果该值大于设定的阈值则该文档是用户所需要的;反之,则是用户不感兴趣的。

设新的文档表示为一个m×1维文档向量d,投影到Xk空间后,根据下面的公式可以转换为D0中一行向量:

d′=dTT0S (5)

d即为新文档在LSI空间的映射向量,由此可用来计算其与兴趣主题的相关度。通常采用余弦公式计算新的文档向量与兴趣主题中的相关文档集之间的相似度。设用户的主题兴趣模主题为M,分别计算d′和矩阵Xk中的各个列向量xi的夹角余弦值,则获得一个n维向量

R=[cos(d′,xi)],(i=1,2,…,n) (6)

m维向量d′和Xk矩阵之间的相似关系可由n维向量R的大小表示出。可采用1-范数方法计算出向量R的大小,即可得到新文档d和兴趣主题模型M之间的相似度。计算公式如下:

设定一个兴趣阈值α∈(0,1),如果R或R>α,则页面d属于用户感兴趣的文档,对其进行索引并提交用户;否则页面d不属于用户感兴趣的主题而被过滤掉。通常α需要由反复的试验确定最佳的取值,也可以由用户进行人为的调节来控制过滤的效果。

2.3 模型的更新完善

用户的兴趣随时间的推移是在不断变化着的,因此有必要获取用户的反馈信息,及时地修改系统参数,对用户的兴趣模型进行更新,从而不断调整和完善用户兴趣模型,更好地反映用户的兴趣变化。对一个已经存在LSI数据模型,如果需要加入新的文档和索引词,最直接的办法是重新建立词频矩阵然后进行SVD计算。但是SVD分解的计算量是非常大的,重新进行SVD分解将需要更多的计算时间,更大的问题是在实际运算中由于内存的限制而无法完成这样巨大的运算。所以在实际应用中,LSI模型的更新一般采用folding-in算法来实现[8]。folding-in算法能够在己经存在的潜在语义空间中加入新的文档和索引词而不影响现有文档和索引词的结构。首先对每个新的即将加入潜在语义模型中的文档进行预处理,将其转换成k维空间中的向量。设新的文档向量为d,则其在k维空间中的向量d′按下式计算:

d′=dTT0S (8)

与此类似向潜在语义模型中加入新的特征项时,先将其表示为一个1×n词语向量为t,然后在K维空间中将向量t进行转换,转换公式如下:

t′=tD0S (9)

每个加入模型的新文档向量均附加到D0的列上,每个新加入的词语向量附加到To的行上。通过folding-in算法可以在原有的语义空间的基础上,在加入新的文档和索引词的时候不用重新进行耗时的奇异值分解计算。由于加入大量索引词的时候会导致k维语义空间中的语义信息的减少,使得查询、过滤性能下降,因此该算法要求初始文档集要足够大。当然如果新加入的文本和索引特征项过多时也应当重新进行SVD计算,重新构建新的语义空间。

3 实验分析

3.1 实验数据的处理与计算

本文以实验来分析用LSI构建用户兴趣模型的有效性。实验如表1所示,设定有10篇文档和8个特征项构成的文档词频矩阵M。从表1中可以看出这10篇文档主要是数据库和数据挖掘两个方面的内容。

利用MATLAB软件编出处理程序,对矩阵M进行奇异值分解得到M=USVT。U是一个10×8的矩阵,它的每一行是相对特定文档的权向量,S是每个主分量方向特征值的8×8对VT角阵,8×8的VT的各列提供了数据的新共轭基,即为主分量方向。S矩阵的对角元素为:S=(33.5302,31.3644,9.1859,7.9789,6.4280,4.7773, 2.3952, 1.4402)

由S中的元素可看出,前两个主分量(33.5302, 31.3644)包含了数据中的主要信息量,由公式可得:

因此,如果取前两个主分量生成一个二维主分量空间来表示文档,可以保留原始文档信息量的90.55%。由此可以得到10篇文档在二维主分量空间中的分布情况,如图2所示。这两个主分量方向是原来8维特征项空间中数据最分散的方向,也是具有最大方差的方向。可以看出,在第一个方向中突出了描述数据库一类的文档,第二个方向中突出了描述数据挖掘一类的文档。当把文档投影到由前两个主分量方向所决定的平面时,不同类别的文档分布在不同的方向上,文档间的角度差异可以作为相似度的一个测量指标。

3.2 实验数据的分析

假设有两篇待测试的文档d1和d2,其文档向量在上述的8维空间中可表示为:

d1:(0,10,0,0,0,0,1,0) d2:(0,0,0,0,0,0,7,0)

文档1主要包含了数据库方面的词语,文档2只含有数据挖掘方面的词语。我们将两篇文档映射到LSI空间中,得到文档在语义空间中的向量值:

d1′:(0.0999,0.1233) d2′:(0.0035,-0.0845)

可以看出在二维主分量空间中,两篇待测文档所位于的位置与相应的类别相符合,还可以分别计算出两篇文档与示例中文档的相似关系,如表2所示。

由此可以将待测试的文档判断为相应的类别。由试验分析可以得出,潜在语义索引技术可以模拟特征项与文本之间的语义关系,匹配出包含不同相同特征词的相似文档,能够有效地提高信息检索的效果。

4 结束语

为用户提供个性化信息服务是网络时代发展的产物,其技术关键在于如何描述和更新用户的兴趣模型,寻求更为有效的文本与兴趣模型的匹配算法。本文提出的基于LSI的用户模型构建方法,以特征词与文本之间的语义关系作为文本相关度的测量尺度,通过在LSI语义空间中的转换与计算,对信息进行过滤和提交,并利用相关反馈机制不断改进模型以跟踪用户兴趣变化,从而提高信息检索系统的推荐效果。实验结果表明这种方法很有前途,较传统的关键词词形匹配方法在效率方面有显著的改进。但是利用LSI方法构建用户兴趣模型进行信息检索尚处于初步试验阶段,如何利用机器学习方法自动获取用户的兴趣和相关反馈信息以及如何从语法和语义的角度探讨用户兴趣模型的形成和应用等,都需要进一步研究。

摘要：用户兴趣模型的表示是信息检索的核心技术之一。利用潜在语义索引的方法构建了一种用户兴趣模型,通过计算文本与模型的匹配程度,将满足约定条件的文本推荐给用户,并利用相关反馈信息更新用户的兴趣模型。最后通过实验验证了该方法的有效性,实验表明该模型可以很好地提高用户信息检索的效率。

关键词：信息检索,用户兴趣模型,潜在语义索引

参考文献

[1]王岚,翟正军.Web使用挖掘在网络环境下的个性化信息服务[J].现代电子技术,2007(2):100-103.

[2]张敏.基于Web的个性化信息检索关键技术研究[J].计算机时代,2006(3):37-38.

[3]Deerwester S,Dumais S T.Indexing by Latent Semantic Analysis[J].Journal of the American Society of Information Science,1990(2):391-407.

[4]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002:252-254.

[5]张秋余,刘洋.使用基于SVM的局部潜在语义索引进行文本分类[J].计算机应用,2007,27(6):1382-1384.

[6]Bo-Yeong Kang,Dae-Won Kim,Sang-Jo Lee.Exploiting conceptclusters for content-based information retrieval[J].Information Sciences,2005,170(2):443-462.

[7]Jinxi Xu,W Bruce,Croft.Improving the effectiveness of informationretrieval with local analysis[J].ACM Transaction on information sys-tem.2000,18(1):79-112.

用户兴趣模型篇4

关键词：VPN业务用户连接方案远程登录

1 概述

随着企业信息化发展的逐步深入，以及电信运营商针对企业实际需求的产品和服务的持续推进，VPN（虚拟专用网络）业务在不少企业中的应用越来越广泛。在VPN网络的部署和维护中，存在着操作过于复杂，维护升级困难等问题，此外，如何保证VPN连接的安全性与数据的完整性，也是摆在业界面前的一个亟待解决的问题。本文在现有VPN技术的基础上进行创新与优化，构建了一种远程登录虚拟专用网络构架，该构架充分结合了第三层网络层IPSec技术以及第二层L2TP技术，通过数据的透明传输来实现NAT/PAT穿越。从而以相对简单的VPN结构实现了通讯安全性目标，支持数据的完整有效传送，具有比较好的理论价值和实践意义。

2 远程登录VPN体系结构

远程接入VPN的体系结构设计要考虑的因素包括：是否便于管理、是否节约费用、是否具有可移植性和高可用性、是否有利于ISP进行计费流量控制以及用户管理等。

结合以上的需求，本文所设计的远程用户连接模型将实现以下的通信过程（如图所示）:

①用户所在的远程接入终端与企业intranet中的网关集中器实现有效连接，在图中，表现为ISP网关A与各类企业异地远程用户终端之间的服务请求应答和连接建立过程。②连接建立之后，企业intranet中的网关集中器经由Internet，实现与远程目标服务器的连接，在图中，表现为目标服务器与网关A之间构建了一条隧道维护数据通路，如果数据流超时，则系统将遵循算法自动绕过NAT/PAT，同时穿越防火墙，实现加密数据的有效传送。③目标地址服务器接受企业intranet中的网关集中器的请求之后，作为响应，从企业intranet中寻找目的地址并向客户提供服务。

在上图所示的基于VPN的远程用户连接体系结构图中，总公司服务器与客户个人PC就是两个意欲构建安全连接的终端，客户端的主机系统涵盖了客户上网办公所使用的各类移动设备，也包括办公人员的个人PC，还包括企业的异地远程分公司。这个VPN构架的核心部分是网关A访问集中器，此模块实现了客户端的连接以及参数模式安全控制，同时实现了NAT穿越。

3 L2TP部分的设计

3.1 连接过程设计

本文所设计的客户连接过程为：①由远程客户端发起呼叫，请求连接公司内部的登录服务器。②公司内部的登录服务器在受到来自客户端的请求后，将其转发给ISP访问集中器（网关A）进行进一步的处理。③ISP访问集中器（网关A）结合所受到的代理请求，从中抽取出客户端和连接服务器两者的IP地址。④ISP访问集中器对终端服务器的代理请求的合法性经检测，若通过了检测，则进一步调用L2TP的验证用户进程，对客户端进行认证。⑤假若用户通过了认证，则发起VPN连接，VPN连接包括两方面，一是网关A到远程目标服务器的IPSec连接，二是客户端到网关A的L2TP连接。

3.2对等体间的隧道建立

ISP访问集中器（网关A）和客户端之间构成了L2TP对等体。网关A在确认受到的是来自远程客户的合法请求后，便开始发起客户端认证进程，这一过程通过调用链路控制协议LCP来完成。随后网关A使用回拨技术向远程用户端发起连接，主要的模式保证了用户终端到网关服务器的安全性，避免客户端受到伪装攻击，进一步确保了流量可控性。在网关A的回拨过程中，通过CHAP或PAP来实现客户端和服务器间的相互认证，认证成功后，开始建立基于VPN的从ISP访问集中器到客户端的连接。

3.3 会话建立维护

通过上一步对等体间的隧道建立，接着还需构建一个便于数据传输的会话，在会话建立维护中，首先发送一条ICRQ消息（呼入请求消息）。假若系统目前有可用资源，则新会话被允许建立。此时，客户端的ICRQ消息便会受到来自网关A的响应，即呼入应答(ICRP)消息。客户端受到响应之后，再发出ICCN（呼入连接）消息。ICCN表明远程客户端此时在进行会话建立。在此期间，网关A和远程客户端之间交换如下参数：代理LCP、指定的服务以及实际连接速度。

4 隧道连接部分的设计

4.1 隧道建立过程

在隧道建立阶段，主要包括以下的步骤:①ISP访问集中器向远端客户服务器发起连接请求。②触发IKE协议“a”阶段，ISP访问集中器向远端客户服务器之间协商策略，接着调入策略处理模块。③建立共享的密钥机制本文所设计的系统采用Diffie Hellman协议。④在以上步骤建立的安全连接上，开始触发设备验证。⑤触发IKE协议“b”阶段，在建立的安全连接上，在ISP访问集中器向远端客户服务器之间间协商不同于先前的参数和密钥。⑥IKE协议“b”阶段结束，建立数据连接，传输数据报文。⑦周期性地对Hell消息进行检验，长期空闲的或者到期的连接将被结束。

4.2数据报处理流程

结合安全关联数据库和安全策略数据库信息进行数据报处理，具体工作流程为:首先进行数据报输出，通过对安全策略数据关联数据库的查询，确定具体的安全策略，再通过对安全关联数据库查询，确定是否有效，如果安全联盟有效，则将数据报封装，并抽取相应参数。假若安全策略尚未建立，则将以IKE建立连后再查看安全策略数据。此外，为了保证报文封装的完整性，需要引入Hash算法，对不是认证数据的包进行哈希计算，以保证ICV值的完整性。

4.3加密/解密过程

通过封装模块来调用加密解密模块，实现数据的加密和解密。加密解密模块同时结合密钥管理模块的算法函数库，进行具体的加/解密操作，共同实现VPN加密与解密处理。此处，将数据封装模块视为统一的一个系统接口，远程连接模型的主控制模块不直接调用完整性验证单元和加解密单元。数据分组首先被封装模块读取出来，通过加解密算法，把并将需要加解密的内容和SA的密钥传输至加解密单元。通过调用加密算法函数，得到经过加密的信息，再通过数据封装单元封装成新的数据。

5系统安全控制

系统完成身份认证是通过调用用户管理模块实现的，通过调用API，在需要进行授权时，从属性证书目录服务器中，通过身份证书和属性证书的关联，取出属性证书，对已签名的属性证书按照策略进行检查，从通过检查的属性证书中获取相关的角色信息，完成以后，结合角色信息和其权限之间的对应关系，采用具体策略检查访问的目标，允许或拒绝访问的结果最终由API向系统返回。访问控制流程描述如下所示：

①资源访问请求由用户客户端引发，给应用校验代码提交请求，用户PKC证书包含在该请求里。

②安全支撑平台收到来自校验代码的权限校验请求。

③用户PKI证书的有效性提交给安全支撑平台进行校验。

④根据用户PKC和PMI发布点，安全支撑平台获取用户属性证书。

⑤根据用户属性证书，策略实施点生成并发出决策请求。

⑥根据策略，策略决策点判断该请求，返回判断结果。

⑦根据返回的决策结果，策略实施点决定是否进行访问，并返回其决定的结果。

⑧假若用户未能通过校验，则返回拒绝页面；通过校验则向资源发送访问请求。

⑨在用户所在的客户端以页面形式显示访问结果。

6结束语

支持用户远程登录的VPN是由一系列相互配合的协议组成的，结合实际的应用需求也有着具有针对性的实际方案，在具体应用时，可以结合实际的客户需求采取合理的配置方案。本文结合企业移动办公需求，设计了基于优化L2TP和IPSec协议的用户连接方案，一方面可以提高了网络的安全性，另一方面能够保证客户端程序简单易用，此外还可以支持服务提供商的流量控制检测。本文的构架模型具有比较好的理论意义和实践价值。

参考文献：

[1]釜晓，宇魏鸿等译.Steven Brown著[M].构建虚拟专用网.北京人民邮电出版社2011.8.

[2]周永彬等译，CarltonR Davis著[M].IPSecVPN的安全实施清华大学出版社.2012.1.

[3]王惠芳，徐开勇.网上密钥分配协议分析. [J]西安电子科技大学ISDN国家重点实验室，通信学报，2011.3.

用户兴趣模型篇5

用户兴趣模型是实现搜索引擎个性化服务的起点, 也是搜索引擎个性化服务的基础和核心。用户兴趣模型的质量直接关系到个性化服务的质量, 用户兴趣模型与用户的检索需求相结合可以更加逼近用户“真实”的信息需求, 通过对检索结果进行过滤和筛选, 可以提高搜索引擎的搜索精度。

1 现有用户兴趣模型的不足

信息过滤技术是对个体对象进行信息筛选、过滤, 信息过滤更注重用户的长期兴趣需求。早期的用户模型是信息过滤技术中的一个核心问题, 当时的用户模型是用来建立个性化人机界面的。个性化人机界面是一个接口部分, 它提供用户与系统的交互接口, 个性化人机界面与用户进行交互, 在交互的过程中学习用户的行为, 并学习用户对事务进行处理的经验, 以对用户将要出现的新行为或新动作做出反应。

当前, 通用的信息检索系统对用户本身的个性需求没有给予较大的关注, 它们大多通过改进当前的检索模型、优化信息处理过程等方面的工作来提高检索的准确性。这类搜索引擎系统中没有考虑到用户的检索行为、历史, 用户也不能方便地发现其最新兴趣偏好点。用户兴趣模型是用来描述用户潜在兴趣需求的模型, 其主要功能是捕获用户查询需求及其兴趣偏好, 同时记录、管理用户兴趣偏好。在信息查询系统中引进用户兴趣模型, 有助于为用户提供个性化的信息查询服务, 以实现自适应信息搜索。由于用户兴趣模型可以定位用户的信息需求, 因此可为用户提供主动的个性化信息服务。

现有的个性化服务系统在某些方面已经取得了较满意的效果, 比如服务的个性化、智能化、自适应性等, 但仍然存在一些不足之处:①个性化程度不高;②用户兴趣描述文件可存放在服务器端、客户端或代理端;③用户的兴趣可划分为近期兴趣和长期兴趣;④用户模型中对用户兴趣信息的学习效率较低;⑤用户兴趣模型更新较慢。

2 个性化搜索引擎中的用户兴趣模型

2.1 用户兴趣模型的基本结构

不同知识结构的用户对文档相关性的判断和对检索结果的要求是各不相同的, 即使同一个用户, 在不同的时期其兴趣的侧重也是不同的。用户兴趣模型是为用户提供个性化服务信息检索或信息过滤系统的核心组成部分, 它能够获取每个用户不同的信息需求, 跟踪用户的兴趣与行为, 因此对每个用户需要分别建立用户描述文件, 也即个性化服务文件, 该文件用来保存用户的兴趣偏好。

目前, 发掘用户兴趣主要有两种方式:显式获取和隐式获取。显式获取是指用户主动提供自己的兴趣偏好, 进而获取用户的个性化向量;隐式获取是通过用户访问的相关信息来更新用户的个性化向量。一般的个性化系统采用显式和隐式相结合的方式建立用户兴趣模型, 即在用户主动提供的显式个性化向量的基础上, 通过用户浏览的网页和用户对搜索引擎检索结果反馈的信息建立和更新用户的兴趣向量, 并通过对用户的浏览行为进行观察, 更新用户兴趣模型。考虑到用户短期兴趣和长期兴趣的不同, 在建立的用户兴趣模型中, 应该根据用户短期兴趣和长期兴趣来不断更新用户的兴趣模型。用户兴趣模型的基本框架如图1所示。

由图1我们可以看到, 用户兴趣模型的基本结构主要包括以下几个方面:

(1) 用户兴趣的量化。首先要将用户对搜索引擎检索结果的反馈信息和用户的页面浏览行为进行量化处理, 以便后续的定量处理。

(2) 信息预处理和特征量的提取。对定量后的用户兴趣量进行各种处理、例如各种噪声点的处理, 去除无用的信息等。

(3) 建立短期用户兴趣模型。根据提取到的用户特征量建立用户兴趣模型, 该用户兴趣模型根据用户短期的兴趣信息, 建立相应的短期用户兴趣模型。

(4) 建立长期用户兴趣模型。对获得的用户兴趣、用户的兴趣量进行更新和优化, 利用Web数据挖掘中的各种挖掘方法挖掘用户更深层次的兴趣偏好。对用户兴趣模型进行更新, 得到用户最终的长期兴趣模型。

2.2 用户兴趣模型的特征提取

文档表示向量中词条ti的选取及其权值Wi*的评价称为特征提取。特征提取是利用向量空间模型进行信息检索的关键步骤, 特征提取采用何种策略算法以及策略算法的优劣将会直接影响到用户检索查询的效果。其权值W*i的评价需要大量样本文档, 这些样本文档依据特征项对文档内容贡献大小经过多次统计而完成。各词条在不同的自然语言文档中所呈现出的频率分布是不相同的, 可根据各词条的频率特性用统计的方法进行特征提取。从基于VSM的用户兴趣偏好目标表示可了解到:用户兴趣关键字pi及文档词条ti的确定、兴趣偏好权重及词条权重的计算是用户兴趣偏好库建立的关键。目前较常用的一种方法是基于词频统计的TF-IDF算法。

基于词频统计的TF-IDF算法是一种基于文本的Web内容挖掘方法。在TF-IDF算法中规定, 文档词条的重要性正比于词条的文档内频数, 反比于训练文档集中出现该词条的文档频率, 进而可以构造词条权值评价函数:

undefined

W*ti为文档D中词条ti的权值, tfi表示词条ti在文档D中出现的频率, idfi为反转文档频率 (文档集合中含词条ti的文档的数目) , 其中:

undefined

其中, N为用于进行特征提取的全部训练文本的文档总数, ni是在样本文档集合中词条ti至少出现一次的文档个数。将式 (2) 代入式 (1) 中, 可得到式 (3) :

undefined

从式 (3) 中我们可以看到, tfi的值和 W*ti的值成正比;ni值和W*ti值成反比。也即是说, 此算法可以保证整个文档中低频率的词条也可能具有较高的权值。

2.3 用户兴趣模型的建立

初次使用系统时, 检索系统中的用户模型是非常简单的, 用户可以在分类信息中大致选择自己的兴趣偏好, 系统根据用户所选择的结果形成不同的用户个性化向量, 并用这些个性化向量来表示用户的各种不同的兴趣偏好。

用户兴趣模型可以由以表示用户兴趣的关键字为主题的对象组成, 每个对象都有一个权重值, 权重值越高, 表明该用户对该关键字的信息越感兴趣。其中, 每个关键字对象的权重值的计算方法已经在上一节中作了详细说明。根据兴趣模型的基本框架, 可以将用户的兴趣分为偶然兴趣和稳定兴趣或者短期兴趣与长期兴趣。

将用户兴趣关键词对关键词ti的兴趣度定义为关键词在文档中出现的频率, 即Wi* (d) , 也就是用户对该关键词对象的偏好程度。假设用户对某一个关键词对象可能是偶然兴趣也可能为稳定兴趣, 将偶然兴趣即短期兴趣表示为U (Tshort) , 将稳定兴趣即长期兴趣表示为U (Tlong) , 则可以将Web用户的兴趣共同表示为:

undefined

其中, T表示关键词的集合, 大小为n, Tshort表示短期兴趣的关键词集合, Tlong表示长期兴趣的关键词集合, 则兴趣集合为:

undefined

根据用户对单个关键词词条偏好程度的不同, 可以定义兴趣集合中某个词条ti的兴趣度为:

undefined

其中, ti∈T, ti (short) ∈Tshort, ti (long) ∈Tlong, {x, y|x>0, y>0, x+y=1}。

2.4 用户兴趣模型的更新优化

在用户使用系统的过程中, 系统不断地记录用户的使用情况、分析记录的使用情况, 从而不断地修改、完善用户兴趣模型。用户兴趣模型的更新方法可分为兴趣交集淘汰法和兴趣合集归并法两种。两种方法都把用户当前反馈的兴趣向量作为当前的兴趣向量, 而兴趣模型中存储的兴趣向量作为历史兴趣向量, 并将当前获取的用户兴趣向量与历史兴趣向量进行对比。

在一般的用户兴趣模型中, 需要考虑到偶然兴趣 (短期兴趣) 和稳定兴趣 (长期兴趣) 。偶然兴趣一般为用户当前的兴趣, 当用户偶然兴趣信息积累到一定的程度, 就转化为稳定兴趣, 因此, 我们将稳定兴趣作为用户长期存储的历史兴趣, 这样可以形象地描述用户的兴趣偏好特点。

用户兴趣模型的更新优化可以按照如下3个步骤来完成:

2.4.1 获取用户的偶然兴趣

按照规则将偶然兴趣向量添加到用户的最新兴趣向量中, 并剔除较老的用户兴趣向量。

2.4.2 偶然兴趣向稳定兴趣的转变

对于偶然兴趣向量中相对重要的关键词及兴趣度 (权重值) , 把超过一定阈值的兴趣向量转换成用户的稳定兴趣向量, 如式 (7) 所示:

undefined

其中, 阈值为Thresh, 阈值常取均值和标准方差之和, 即Thresh =μ+σ。

2.4.3 更新稳定兴趣

随着时间的推移, 逐步淘汰掉用户不感兴趣的兴趣向量 (关键词) 。通过用户兴趣模型的更新过程, 可以得到更加符合用户需求的用户兴趣模型, 这样也就为系统的智能支持提供更多的帮助。另外, 用户兴趣模型随着时间的推移在不断发生着变化, 可以引入机器学习过程, 对用户的操作记录、反馈信息等进行学习, 不断地更新用户兴趣模型, 从而得到更加稳定、更适合用户的兴趣偏好模型。

3 基于用户兴趣模型的个性化搜索引擎

个性化搜索引擎的关键技术在于用户兴趣模型和个性化检索结果的显示。先从用户界面上的用户交互过程中不断获取用户的兴趣偏好, 然后构建用户兴趣模型, 并对用户兴趣模型进行不断地更新优化, 将用户兴趣模型得到的用户所关注的信息传送给搜索引擎, 使得搜索引擎能检索出用户感兴趣的信息。同时, 搜索引擎对检索到的信息与用户的兴趣模型进行对比, 以获取用户感兴趣页面的排名, 再按照用户对页面感兴趣的程度进行排序, 并将页面个性化地显示出来。其工作原理如图2所示。

参考文献

[1]李伟超, 付永华.一种改进的基于浏览行为的用户兴趣模型[J].电信科学, 2011 (5) .

[2]吴晓, 吕爽, 李丹宁.个性化搜索引擎中用户兴趣模型的研究[C].第三届全国信息检索与内容安全学术会议, 2007.

[3]刘建波.基于Agent的用户兴趣模型的研究[D].沈阳:沈阳工业大学, 2005.

[4]林鸿飞, 扬元生.用户兴趣模型的表示和更新机制[J].计算机研究与发展, 2002 (7) .

[5]郭新明, 弋改珍.基于向量空间模型的用户兴趣模型研究[J].咸阳师范学院学报, 2009 (6) .

[6]COLE CHARLES.Intelligent information retrieval:Part IV.Tes-ting the timing of two information retrieval devices in a naturalisticsetting[J].Information Processing and Management, 2001 (1) .

[7]LEE D L, CHUANG H, SEAMONS K.Document ranking and thevector-space model[J].IEEE Software, 1997 (2) .

[8]徐科, 崔志明.基于搜索历史的用户兴趣模型的研究[J].计算机技术与发展, 2006 (5) .

[9]单蓉.一种基于用户浏览行为更新的兴趣模型[J].电子设计工程, 2010 (4) .

[10]李峰, 裴军, 游之洋.基于隐式反馈的自适应用户兴趣模型[J].计算机工程与应用, 2008 (9) .

用户兴趣模型篇6

本文利用粗糙集决策理论及模糊概念, 针对不同兴趣之间的具有相似性的特点, 设计兴趣向量模型, 并利用权威文档建立兴趣向量数据库的方法, 化计算文档兴趣向量值为计算文档与基本文档之间的兴趣向量值, 在兴趣分类的基础上, 提出了兴趣向量模型, 并且利用文档-词汇矩阵、奇异值分解、粗糙集决策等知识, 设计了一个生成兴趣向量基本数据库的方法, 通过实验表明, 可有效提高信息搜索的效率和质量。

一、个性兴趣库的生成过程

用户个性化兴趣向量的生成过程主要经过选择基本文档库、生成文档词汇矩阵、生成文档符号矩阵和生成兴趣矩阵等4个步骤。其中第一步骤主要任务是选择针对不同兴趣爱好最权威、最有代表性的文档出来, 投入基本文档库备选;第二步是选取特定的词汇, 对各文档进行向量化, 找出文档的基本特性;第三步是寻找并且矩阵化不同文档之间的关系;最后利用模糊理论, 找到文档和兴趣之间的相关性矩阵, 从而完成用户特征兴趣模型的建模过程。

(一) 利用网页链接完成文档集的准备

首先我们收集一定数量的文档数据集, 作为建立兴趣向量库的基础素材。假设对于Ci类兴趣, 有m个文档, 选取n个关键词语, 建立词语-文档矩阵M, 矩阵的每一行代表一个文档, 每一列代表词语在文档中的出现的频率, 即M= (mij) , mij表示第j个词语在第i个文档中出现的频率。

根据链接信息定义权威文档和信息中心 (hub) 文档, 权威文档是指里面包含某专门主题的最值得信赖的内容, 信息中心 (hub) 文档包含权威文档的许多链接。纯文本搜索引擎是用来创建用户查询后得到的根部网页集。根部网页集包含从抓取集中扩展的200个地址集。根部网页集扩展包含这200个地址本身为出链和入链的扩展。通过不断进行权重更新, 就可以确定出权威页面和资源中心页面。图1展示了从文档最基本集向文档基本扩展集的扩展过程。

纯文本搜索引擎的根集并不包含所有与查询相关的权威页面和信息中心页面资源, 通过扩展根集, 基本集可能包含根集中没有的权威和信息中心页面资源。基本集中包含足够多的与查询相关的权威和信息核心页面资源, 为了找到权威和信息中心资源, 反复更新权重是必需的, 其过程如下:

1. 如果I是基本集中的文档, I的权威权重为αI, I的信息中心权重为hi, 且αI和hi都初始化为1。

2. αI和hi用下面的公式更新

αI=∑hj (j是i的入链接)

Hi=∑αj (j是i的出链接)

3. 正交化处理, 使得αI和hi的平方和为1

4. 重复2, 3, 直到权威权重和信息中心权重重合。

从相重合的权威权重和信息中心权重中, 找到最佳权威和信心中心资源。

事实上不同兴趣的文档相关性不大, 之间的共性也不多, 本文认为对于不同类型的兴趣Ci, 应该分别选择不同最基本集和收集不同的基本扩展集文档。

(二) 建立基本兴趣向量数据库

1. 准备原始数据

首先收集完兴趣集合C, 并且根据兴趣之间相关度划分集合ICi (0≤i≤n) , 然后可以根据统计结果选定每一类兴趣ICi (0≤i≤n) 的特征词汇向量VOi (0≤i≤n) , 最后还要收集表达一类兴趣的文档, 作为BH文档库。

由于g函数对XH文档库的判断很大程度上依赖于BH文档库, 基本文档对于表达的兴趣必须具有权威性和代表性, 参考文献[6]提出了一个选取基本文档的方法, 最终针对每类兴趣集合ICi (0≤i≤n) 选取一定量的文档BHi (0≤i≤n) 与之对应, 而且BH=BH1∪BH2...∪BHn。

2. 建立文档-词汇矩阵 (Term-Document)

设当前正处理第i类兴趣类集合ICi (0≤i≤n) , 那么对于文档集合BHi, 建立一个文档-词汇矩阵DMi, 矩阵的行列分别代表BHi中的每一个文档和词汇向量VEi中每个词汇在文档中出现的频率。

同理, 对于任何xh∈XHi, 可以统计VOi词汇向量的各关键词在文档xh中出现的频率, 得到文档-词汇向量XP (XP向量中的每一元素代表VOi中一词汇在文档xh中的出现频率) 。

3. 奇异值分解矩阵DM

对n个矩阵DMi (0≤i≤n) 进行奇异值分解, 分解DMi得到DMi=Pi×Di×QiH, 再选择k≤r (r是S的秩) 构造秩为k的近似矩阵DMik=Pik×Dik×QikH, 从而降低了文档-词汇的空间维数[8], 使得原来比较稀松的词语-文档矩阵变得稠密, 而且不同的词语在不同文档中的相对比重发生改变, 词语能更典型的描述文档的特性。以下称此矩阵为扩展文档-词汇矩阵。

同理, 同样对于任何xh∈XHi, 在得到文档-词汇向量XP后, 可以通过公式变换Dxp=XP×Vik×Sik-1, 将XP转化成奇异值分解后的文档-词汇向量的形式。以下称之为扩展文档-词汇向量。

如此以来, 本文就得到了n个不同兴趣类的扩展文档-词汇矩阵。

4. 利用粗糙集理论, 构造决策表

给n个扩展文档-词汇矩阵分别建立一个决策表, 以DMi (0≤i≤n) 为例说明。

DTi=表示一个决策表, 其中闭域U是由扩展词语-文档矩阵中文档{x1, x2, K, xm}组成 (m是文档集合BHi的元素个数) , 条件属性集C由词语-文档矩阵M的1个词语{t1, t2, K, tl}作为条件属性构成, 决策属性集Diu={d1, d2, …, dk} (k是兴趣集合ICi的元素个数) , 其中每一个元素代表一种兴趣, 其取值限于0和1, 分别表示该文档在符合或者不符合该项兴趣。如Di1={0, 0, 1, 0, 1}表示编号为“1”的文档符合第3、5类兴趣要求, 当不满足第1, 2, 4类兴趣。该取值在获取基本文档集BH时就已经确定。

5. 文档相关度

对于任意xh∈XHi, 判断其是否具有CHA (Xij) 的特性, 是通过文档相关度值来确定。首先集合Xij (0≤j≤k) 中的文档在扩展文档-词汇矩阵DMi中所对于的行是一个向量, 记为DXij。

同时依据第2、3步, 求出文档xh的扩展文档-词汇向量DXP。

再计算Dxij和Dxp的相关度值;

相关度值越大, 表示两文档相似度越大, 一般来讲, 可以选择一个常数β (0≤β≤1) , 当R≥β时, 可以近似认为文档xh与Dxij相关, 从而文档xh具有兴趣ICij。

(三) 新文档P值处理

如图2所示, 任意xh∈XHi, 分别计算它与集合Xij (0≤j≤k) 中每一个文档元素Xijl的相关度Rl=Sim (xh, Xijl) l=1, 2, 3, 4, ……, 取定义MAXR=MAX (R1, R2, R3, ...) , 当MAXR≥β时, 可以认为文档xh有兴趣ICij, 定义P向量的第j分量值为1, 否则认为xh不具备兴趣ICij, 定义P向量的第j分量值为0即可。

同理计算xh与集合Xi*中其他元素的关系, 填充P向量的全部k个分量值。此时P即为文档xh在兴趣集合Xi上的兴趣值。可以再计算xh于其他兴趣集合Xj的P向量, 为了区别表达, 本文记文档xh与兴趣集合Xi计算的P向量为Pi, 则集合P*={P1, P2, P3, ..., Pn}记为文档xh的全兴趣向量矩阵值。

二、实验过程及结果

(一) 选取文章

选取个性化搜索引擎论文90篇, 计算机论文10, 其他论文10篇。

(二) 选取关键词

统计部分个性化搜索引擎论文, 统计出单词8764个, 去掉虚词、高频词和低频词, 从中选取特征词366个。

(三) 建立文档-词汇矩阵

选取80篇个性化搜索引擎论文, 分别计算关键词在其中出现的频率, 构建文档-词语矩阵M= (Mijj) , Mij表示第j个词语在第i篇文章中出现的频率。

(四) 奇异值分解

对上面生成的文档-词语矩阵进行奇异值分解, 并且选取k=24, 从而得到扩展的文档-词汇矩阵Mk。

(五) 实验数据比较

分别选取个性化搜索引擎论文、计算机论文、其他论文各10篇, 对第四步得到的结果分别进行相似性计算, 结果如下表1所示:

三、结论

当然本兴趣向量模型还可以进行更新和改进:

(一) 如图3所示, 其中fi (u, d) 其值为0或1, 而实际上, 文档与兴趣之间也存在一个相关度, 可以使用介于0~1之间的数值表示。

(二) 可以使用模型概念网络理论对图3结构建模, 如此即可计算出每一篇文档相对于兴趣的模糊值, 从而更好的提供给个性化搜索引擎排序或者计算文档与用户兴趣相关度。

摘要：本文设计出一个兴趣模型, 该兴趣模型由兴趣概念、词汇、文档、兴趣向量和向量计算函数等五元组来模型化兴趣, 同时收集了一定量的权威文档, 分别计算出它们针对某兴趣的兴趣向量, 并以此兴趣向量为基础, 组建基本兴趣数据库, 以后对任何新文档的兴趣判断都转化为新文档兴趣向量与基本数据库中兴趣向量的相似值判断, 从而解决了文档兴趣类型和兴趣值的问题。实验表明, 该模型提高了用户的检索效率和质量。

关键词：模糊理论,模糊概念网络,粗糙集,兴趣模型

参考文献

【1】L.A.ZADEHFuzzy setsasa basisfor a theory of possibility[J]Fuzzy Sets and Systems19781 (1) :3～28

【2】D.LUCARELLA R.MORARA Fuzzy information retrieval system[J]Journal of Information Science199117 (2) :81～91

【3】PAWLAK Z.Rough sets[J]International Journal of Computer Sciences198211:341～356

【4】AZAR.Y FIAT.A.ETAL Spectral Analysisfor Data Mining[A]Proceed-ings of the Thirty-Third Annual ACM Symposium on Theory of Computing[C]2001:619～626

【5】http://www.cs.berkeley.edu/~nikraves/bisc/sig/internet/msglaz2.htm[EB/OL]

【6】陈敏曹阳一种www搜索引擎的设计与实现[J]计算机工程与应用200207:148～149

【7】CHRISTOS H PAPADIMITRIOU Latent Semantic Indexing:A Probabilistic Analysis[A]In Proceedings of ACM Symposium on Principles of Database Systems[C]1997

用户兴趣模型篇7

近年来各种资源信息库大量涌现, 面对这些海量资源, 用户常常因很难快速找到自己感兴趣的资源而茫然, 久而久之用户就失去了对这些资源信息库的使用兴趣。所以一个优秀的资源信息库除了有大量的优质资源信息外, 还必须提供一个让用户能快速而精确地找到自己所需资源的优秀搜索引擎, 这也是每个资源信息库提供者越来越关注的焦点。但目前很多资源信息库采用的搜索方法大多是关系库基础上的SQL查询, 如采用了很多通配符和Like查询, 一次搜索得到的结果可能有成千上万条, 但其中有用的却很少。

以某教育资源库为例。搜索”小小的船”, 返回的结果有37条, 其中15条和“小小的船”关联不大, 而结果显示时却出现在比较靠前的位置;搜索“幼儿心理”, 返回的结果有739条, 首页显示的50条中, 与幼儿心理相关的一条也没有;搜索“一年级数学”, 返回2815条, 首页分析中看不出结果与“一年级数学”有什么关系。这样的搜索精度必然会导致许多花费了大量金钱和智力的优质资源由于缺乏好的信息检索方法而深藏库中无人识。

目前, 针对个性化推荐系统的研究方兴未艾, 个性化推荐是指根据用户的兴趣和特点, 向用户推荐用户感兴趣的信息。对应的基本原理是根据用户兴趣模型寻找与用户兴趣模型匹配的信息, 或者寻找具有相近兴趣的用户群而后相互推荐浏览过的信息[1]。典型的个性化推荐系统有斯坦福大学的LIRA和Fab、麻省理工学院的Letizia、加州大学的Syskill&Webert和NewsDude、卡内基·梅隆大学的WebWatcher、Personal WebWatcher和WebMate、AT&T实验室的PHOAKS和Referral Web、德国国家研究中心的ELFI、NEC研究院的CiteSeer、明尼苏达大学的GroupLens、Imana公司的SiteSeer、AgentSoft公司的InfoFinder、清华大学的Open Bookmark[2]、复旦的个性化数字图书馆[3]等。此外, 很多电子商务站点也采用了个性化推荐技术, 向用户推荐满足用户兴趣的商品[4], 如Amazon、eBay、Best Buy、CDNOW、当当网上书店等。这些个性化推荐的研究的应用领域往往针对文本、图书资料、电子商务等, 而针对教育资源库的个性化推荐的应用研究目前并不存在。

本文试图对这方面进行探讨, 借鉴个性化推荐的实现原理, 通过对用户兴趣和资源信息分别进行建模, 然后将两者模型进行匹配, 寻找与用户兴趣模型匹配的信息, 实现了基于用户兴趣模型匹配的教育资源精确检索算法, 并对实现教育资源的个性化推荐提出了解决思路。

1 基于用户兴趣模型匹配的资源检索算法的设计

每个用户在使用资源信息库时都有自己特定的信息需求, 这些信息需求表现为信息过滤条件, 对资源流进行过滤, 就可以把资源流中符合需求的内容提取出来进行服务, 这种做法就叫作资源信息检索。信息检索或过滤, 实质是建立用户兴趣模型和信息资源模型的匹配, 匹配程度高的比匹配程度低的更接近用户的兴趣。

1.1 用户兴趣模型

用户兴趣模型可以用向量进行表示:

I= (I1:W1, I2:W2, …, In:Wn)

其中Ik表示用户兴趣关键字, Wk表示关键字的权重, 一般认为放在前面的关键字有较高权重。用户兴趣关键字的语义通常和用户搜索的信息领域和信息资源的模型相关。以上海教育资源库[5] (以下简称SHERC) 为例:用户可能对含有特定关键字的资源有兴趣, 也可能对特定作者提供的资源有兴趣。

1.2 信息资源模型

信息资源模型可以用向量进行表示:

R= (R1:W1, R2:W2, …, Rm:Wm)

其中 m为用于信息资源搜索的维度。Rk为可以描述资源内容的属性或资源项, 在SHERC中Rk就是资源库中描述资源的各个数据字段, 每个字段由一些词构成。 Wk为资源项的权重, 表示Rk代表资源R的程度。如在SHERC中的“标题”蕴涵更重要的意义, 因此更能代表该资源, 而Description能代表的程度较低。

1.3 用户兴趣模型和资源模型的匹配

用户兴趣模型和资源模型的匹配程度采用相关性进行度量, 相关性的计算方法可以表示如下:

假设用户查询的兴趣模型向量I为 (I1, I2, …, In) , 某资源的信息资源模型向量R为 (R1:W1, R2:W2, …, Rm:Wm) 。Dkj 为Ik出现在Rj中的频度, j=1, …, m。则该资源与兴趣的相关度d表示为:

$d = \sum_{j = 0}^{m}$ (W $j \times \sum_{k = 0}^{n}$ Dkj)

用上述相关度算法对资源记录集进行查询过滤, 得到相关资源记录集 (相关度d>0的所有资源记录的集合) , 并对该记录集按相关度进行排序, 用户兴趣和资源相关程度高的排在前面。

2 基于用户兴趣模型匹配的资源检索算法的实现

下面以SHERC为例介绍以上算法的实现过程, 该系统的数据库环境是Oracle 10g, 资源的可用资源项有标题 (title) 、作者 (author) 、学科 (subject) 、关键字 (keyword) 、描述 (description) 等五项。

2.1 用户兴趣模型表示 (界面设计)

用户兴趣模型简单表示如图1所示。

由一个文本输入框和一组单选按钮组成, 文本输入框由用户输入兴趣关键字, 单选按钮表示关键字逻辑词and和or。

2.2 资源项权重设计

基于以下三个理由:标题最能代表信息资源;用户可能对特定的作者创作的资源感兴趣;目前关键字的抽取没有统一规范, 其内容可以来自标题、作者、学科、描述。我们将SHERC的资源项权重设计如下:

标题>作者=学科=关键字=描述

搜索的内容, 按关键字从标题、作者、学科、描述中搜索, 搜索的结果按查询的关键字和信息资源匹配的程度进行排序, 相关程度高的资源显示时排在前面。

2.3 系统实现

主要实现步骤如下:

Step1 利用Oracle数据库机制建立全文索引, 建立keyword+author+subject+description的联合索引KeyIndex, 并利用触发器实现导入和更新。

Step2 构建关键字搜索的查询条件:

(1) 将从Title查询信息记录的匹配相似度加权, 权重因子为10。

(2) 将I1, I2, …, In按用户提交的逻辑词分开, 信息的相似度按它们的和进行计算。举例如下:

3 结论

本文借鉴个性化推荐的实现原理, 通过对用户兴趣和资源信息分别进行建模, 然后将两者的模型进行匹配, 将资源信息按匹配度由高到低进行排序, 匹配度越高的排在越前面, 实现了基于用户兴趣模型匹配的教育资源精确检索算法。该工作是实现教育资源个性化推荐的第一步, 如果系统通过自动记录用户的查询行为, 分析并自动记录用户的查询习惯, 建立用户兴趣模型, 然后根据用户兴趣模型寻找与用户兴趣模型匹配的信息, 或者寻找具有相近兴趣的用户群浏览过的信息, 系统就能够为每个用户或每类用户提供个性化资源推荐服务。当然该思想还可以应用在门户网站信息个性化推荐服务等方面。

摘要：随着各种资源信息库的大量涌现, 让用户从海量的资源信息库中找到自己感兴趣的资源成了每个资源信息库提供者迫切需要解决的问题, 提出一种通过对用户兴趣模型与信息资源模型的匹配度比较从而实现资源精确检索的算法, 并在相关系统中进行了实现。该算法对实现资源信息的个性化推荐也具有很好的借鉴价值。

关键词：用户兴趣模型,模型匹配,个性化推荐

参考文献

[1]曾春, 邢春晓, 周立柱.个性化服务技术综述[J].软件学报, 2002, 13 (10) :1952-1961.

[2]云飞, 夏燕, 葛家翔, 等.基于中图法分类用户群的协同过滤机制的应用[J].计算机研究与发展, 2004:478-483.

[3]匡月.混合推荐技术在数字图书馆的研究与应用[D].复旦大学, 2007.

[4]林鸿飞, 杨元生.用户兴趣模型的表示和更新机制[J].计算机研究与发展, 2002 (7) .

[5]上海教育资源库 (SHERC) .2008-01-14.http://www.sherc.net.

[6]oracle-text white book.http://www.oracle.com.

[7]Oracle-Text Application Developer′s Guide 10g Release 2 (10.2) .http://www.oracle.com.

用户兴趣模型篇8

随着Internet的迅速发展, 越来越多的信息不断加入网络, 使得网络上存在大量的数据。面对如此缤纷复杂的Web空间, 如何从中快速、准确的发掘所需信息已经成为人们所关注的一个重要问题。虽然用户可以依赖于各种搜索引擎检索相关的信息, 但是要想找到用户确需的信息, 还有很大的距离。近年来出现的Web信息推荐系统为此提供了解决方案。特别是基于XML的Web数据挖掘对解决这个难题提供了有效手段。而推荐系统中最重要的部分就是如何准确高效的获取用户兴趣模型, 为用户提供最大程度符合要求的推荐服务。

1 XML与Web挖掘技术

Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中, 从中抽取隐含的、以前未知的、具有潜在应用价值的信息。根据挖掘的对象不同, 可以分为3类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘。

X M L是一种中介标示语言, 是用来创造标记语言 (如HTML) 的元语言, 可提供描述结构化资料的格式, 是一种类似于H T M L的描述数据的语言。X M L简化了定义文件类型的过程、编程和处理SGML文件的过程和WEB上的传送和共享, 使得在网络上使用SGML语言更加“简单和直接”。一个正规的XML文档包含三部分:可选的序言 (PROLOG) ;文档的主体 (BODY) 及可选的尾声 (EPILOG) 。

基于X M L的W E B数据挖掘, 不仅可以很好地兼容原有的W E B应用, 而且可以更好地实现W E B中的信息共享与交换。XML可看作一种半结构化的数据模型, 可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来, 实施精确的查询与模型抽取。

1.1 XML在Web挖掘中的应用

XML在三层架构上为数据处理提供了好的方法。使用可升级的三层模型, XML从存在的数据中产生出来, 使用XML结构化的数据可以从商业规范和表现中分离出来。数据的集成、发送、处理和显示模型见图1。

1.2 基于XML的WEB挖掘的处理过程

Web数据挖掘是利用数据挖掘技术, 自动地从WEB文档以及服务中发现和抽取信息的过程, 可以将WEB数据挖掘分为四个步骤进行:

(1) 确定业务对象。清晰地定义出业务问题, 认清数据挖掘的目的是重要的一步。

(2) 数据准备。WEB数据挖掘的数据来自两个方面:一方面是客户的背景信息, 主要来源于客户注册信息;另外一部分数据主要来自浏览者的点击流 (Click-stream) , 人们主要用这部分数据考察客户的行为表现。再进行数据预处理, 从发现的网络资源中自动挑选和预处理得到专门的信息。

(3) 数据挖掘。从网络资源中发现普遍的模式。模式发现阶段是数据挖掘的核心, 也是技术难点所在。它的任务就是利用挖掘算法从数据集中挖掘出有效的、新颖的、潜在的、有用的及用户可能感兴趣的、最终可以理解的信息和知识。

(4) 模式评价。对挖掘出的结果, 即普遍模式进行确认或解释。模式分析主要是为了从模式发现算法找到的模式集合中筛选出有趣的模式, 确定有意义的、有效的、有用的模式, 提供易于理解的方式或可视化工具。

2 用户兴趣模型的建立和更新

用户兴趣建模为用户提供个性化信息服务, 是信息推荐系统的核心, 它代表每个用户的不同信息需求。

目前普遍采用的建立用户兴趣模型的显示获取和隐式获取方式都还存在一定的缺陷:以关键字方式提供用户兴趣的, 用户经常不能准确表达自己的兴趣;从目标样本文档提取用户兴趣的不能全面发现用户的兴趣;用户主动方式建立兴趣的不能自动更新用户的兴趣。因此本文采用显示和隐式相结合的方式建立用户兴趣模型。先通过用户注册时填写用户兴趣的信息建立起粗略的用户兴趣模型 (此部分是可选择的, 如果用户认为耽误时间或者怕麻烦等原因也可以不填) , 然后系统根据用户的浏览内容和浏览行为自动构建准确的用户兴趣模型, 并通过对搜索结果的反馈信息更新用户兴趣。这样可在用户没有明确参与的情况下, 建立并更新用户兴趣。建立用户兴趣模型的框架图如图2所示。

用户持久的突出兴趣是他的稳定兴趣, 用户随机变化的突出兴趣是他的偶然兴趣。当网络日志达到一定规模后, 日志中用户的突出兴趣逼近于用户的稳定兴趣。从而用户的访问WEB的动机能够反映出用户的兴趣。用户主动提供自己的兴趣不够客观, 还需静态获取用户兴趣, 用户访问网页时的相关反馈信息及用户浏览网页的行为, 能真正反映用户的兴趣。

2.1 用户兴趣模型的建立

用户初次注册进入系统时, 系统为用户提供一个可选择的部分, 用户可在分类信息中选择大致的兴趣所在, 系统根据用户的初始兴趣, 建立一个稍有针对性的用户兴趣初始模型。但由于用户的兴趣是时刻变化的, 一般用户也不可能准确提供其兴趣类别以及感兴趣的程度, 还有其他诸如觉得浪费自己时间, 怕麻烦等选择不填的原因, 因此只依靠用户输入信息来建立模型是不够的。还要利用用户留在服务器上的信息 (日志文件) 及通过观察用户的行为来建立和更新用户兴趣模型。

本文采用基于XML的资源描述框架 (Resource Description Framework, RDF) 来表达用户描述文件, 并利用数据库系统来存储用户模板文件。系统把用户的兴趣当作一个向量进行处理。

用户兴趣集C由用户所有的兴趣类别构成, 表示为:{c1, c2, …, cm}, 其中ci (1≤i≤m) 为用户感兴趣的兴趣类别名称, m表示用户兴趣类别总数。兴趣类特征词集T (ci) 由类ci中的特征词构成, 表示为:{tl, t2, …, tn}, 其中ti (1≤i≤n) 表示特征词名称, k为特征词总个数。在构造用户模型时, 兴趣数m不宜取得过小, m过小会使过滤的准确率降低;m也不宜取得过大, 因为取得过大会增加过滤的负担, 使存储用户兴趣模型的空间增大。

选取一组适合表示用户兴趣的特征词集 (T1, T2, …, Tn) , 其次根据关键词Ti在用户浏览过的网页文件中重要程度求出权值Wi (i=1, 2, …, n) , 然后把用户兴趣类向量用一个加权特征词向量来表示。

用户兴趣模型由表示用户兴趣的以关键字为主体的一些对象组成, 每个对象都有一个权值信息, 权值越高, 表明用户对这个关键字方面的信息越感兴趣。用户兴趣组成元素及其逻辑结构如图3所示。

用户的偶然兴趣集记为U (Cshort) , 稳定兴趣集记为U (Clong) 。用户的兴趣可以用户短期兴趣和长期兴趣来共同表示为:U (T) =U (Cshort) +u (Clong) 。兴趣集C=Cshort∪Clong。

2.2 用户兴趣模型的更新

在用户的使用过程中, 系统不断修正用户兴趣模型。偶然兴趣以用户当前的兴趣为主, 每个特征词都添加了时间属性。当偶然兴趣中的信息积累到一定的程度, 将其转化为稳定兴趣, 因此稳定兴趣存储了长期以来用户的主要兴趣, 可以更好地描述用户的兴趣特征。另外, 用户最近多次访问的词条往往最能代表用户最近的兴趣, 把长时间没有更新的词条去掉, 也不会影响用户的兴趣特征。

用户兴趣模型的更新过程分三步:

第一步更新偶然兴趣。加入用户的最新兴趣和剔除最老的兴趣。

其中:new_value是用户兴趣模型中关键字的新的权值;r是关键字所在结果的相关度 (relevance value) ;o是用户对关键字所在结果文档采取的操作类型的对应权值;k是关键字所在结果的关键字序列的序号对应的权重;n是本次任务所返回的所有文档数;old_value是用户兴趣模型中关键字的旧权值;D是一个调节常量。

第二步偶然兴趣向稳定兴趣转化。将偶然兴趣中相对比较重要的特征词及兴趣度超过一定阈值的兴趣类转成稳定兴趣。将结果的关键字分组, 同一组中的关键字认为是关系同等密切的, 以后的关键字离的越远, 关系就越疏远。当两个对象关系紧密到一定程度系统将它们组词, 形成新的对象。算法如下:

其中:related_value是该结果文档的某个关键字和原关系的新的权值, r是关键字所在结果的相关度 (relevance value) , d是该关键字和原关键字之间的距离所对应的权值, 同一组的话, d=1;否则就是和这一组距离的倒数, old_related_value是原关键字对象中该关键字旧的关系值, D是一个调节常量。

第三步更新稳定兴趣。随着时间的推移, 逐渐淘汰用户不感兴趣的主题, 偶然用户的主要兴趣和爱好。所有的权值都随着时间的变化而减小, 这一过程一般安排在有效任务执行完后系统空闲时进行, 其算法如下:

其中:new_value是新的权值, old_value是老的权值, Mdate是上一次增加到现在的天数, D是调节常数, 也就是过期天数。

通过优化学习, 用户兴趣模型会更好地为系统的智能推荐提供资料, 对分类信息进行修改和优化, 弥补其不作之处。

3 结论

本文介绍了一种基于XML的Web信息推荐系统中用户兴趣模型的建立方法, 它弥补了现有的用户兴趣模型建立的缺点, 采用动态静态结合, 显式隐式结合的方法快速建立和更新用户兴趣。使得信息推荐系统能更好的为用户提供最大程度满足用户需要的服务。本模型也可应用在站内导航推荐系统及电子商务推荐系统中。有了准确的用户兴趣, 就可以运用协调过滤算法完成相关信息的推荐。

摘要：本文主要介绍了基于XML的Web挖掘中用户兴趣模型的建立方法, 该方法采用静态与动态相结合, 对客户端用户web log、cookies及Web收藏夹记录做分析, 建立静态用户兴趣模型, 并根据用户的浏览行为及反馈等动态的更新该模型。很好的解决了以往推荐系统中显式获取用户主动选择兴趣不准确, 更新不及时等缺点;又弥补了隐式获取中用户兴趣捕获的不完整。

关键词：XML,Web挖掘,推荐系统,用户兴趣模型

参考文献

[1]蔡猷花, 张岐山.Web使用模式挖掘及其在电子商务领域的应用.科技管理研究.2005.

[2]Norman W.What is XML[EB/OL].http//www.sml.eom/pub/a/98/10/guide0.html.

[3]王侠, 李报春.XML语言的特定及其与JAVA技术相结合.辽宁税务高等专科学校学报.2003.

用户兴趣模型篇9

1.1 UE平衡配流模型发展研究

Wardrop (1952) 提出了用户平衡 (UE) 和系统最优 (SO) 的概念, 标志着交通网络平衡概念从描述转为严格的数学模型。然而, 直到1956年Beckman等人提出了用于描述UE原理的一种数学规划 (MP) 模型;20年后在1975年才由Le Blanc等将F—W算法用于求解这个模型获得成功, 从而形成了现在的使用解法。

Be ckm an提出的描述UE问题的模型, 通常称为Be ckm an变换式, 具体模型公式如下:

该模型基于以下假设:1) 网络是强连通的;2) 路段特性函数正的、连续且分离。

而实际中, 道路特性及出行者选择行为特性并不是确定和统一的, 是时刻在变化的。因此, 后续研究者将出行者对路径旅行时间估计作为随机性变量考虑, 出现了如基于logit分布的随机用户平衡配流模型 (Che n和Alfa, 1991;Davis 1994) , 考虑路网OD点之间交通需求与时间的相关性的动态交通分配模型, 考虑路网能力可靠性的PUE (probability us e r e quilibrium) 配流模型 (许良和高自友, 2003) , 综合考虑了路网需求弹性、路网用户选择随机性的多类型弹性需求随机用户平衡分配模型等 (刘海旭等, 2003) 。

此外, 在路阻函数方面, 刘海旭、蒲云等 (2003) 做出了基于出行质量的随机用户平衡分配模型 (综合考虑了出行时间最小和出行时间可靠性最大之间的平衡) 。随着智能交通技术的发展, 先进的出行者信息系统 (ATIS) , 给出行者提供了实时、可靠的信息。张玺 (2013) 等, 考虑了路网需求的随机性和出行者基于信息系统的认知更新过程, 提出一个基于认知更新的随机动态分配模型。

1.2 UE平衡配流模型算法

1.2.1 启发式算法

在将F—W算法用于求解Beckmann变换式之前, 许多学者一直在探讨用模拟和近似的方法求解交通平衡分配问题, 这些方法通常称为非平衡分配算法, 包括:全无网络分配法 (Allor Nothing) , 也称为最短路径法, 运用AON网络加载机制进行平衡分配模拟;容量限制分配法, 相对最短路径分配法来说, 更多的考虑了路段上流量与路段阻抗的关系, 通过不断更新路段阻抗, 反复调用AON网络加载过程, 试图达到平衡状态的一种分配方法;增量加载分配法, 主体思想是将OD量分成n等分, 利用全有全无加载机制, 逐次加载每份流量, 并在每次加载完后, 重新修改路段阻抗;逐次平均分配法, 是一种界于增量加载法和平衡分配法之间的一种迭代算法, 其基本思想是不断调整已分配到各路段上的交通量而组件达到或接近平衡解。

1.2.2 F—W算法

Frank和Wolfe于1956年首先提出用于求解线性约束的二次规划问题的一种线性化算法。该方法属于可行方向法的一种。由于F-W法在每次迭代都必须求解一个线性规划 (LP) 问题, 在一般的实际问题中会因为计算量过大而不实用。但是, 由于交通分配问题的特殊性, 这个LP问题能变换为一次AON网络加载, 因此F-W法特别适合于UE规划求解, 在其基础上最终形成了目前较为广泛适用的一种严格又实用的解法。

F-W算法理论上的最大缺陷是收敛性不好, 特别是在最优解附近可行方向逐渐与目标函数的最速下降方向 (即负梯度方向) 正交, 这样导致收敛的缓慢。为此许多研究都致力于改进F-W算法的收敛特性, 大致改进思路分为3类:方向加速策略、步长加速策略、流量更新策略。

2 UE平衡配流模型拓展及平衡分配算法

2.1 弹性需求模型及算法

弹性需求模型:认为OD量在分配过程中是可变的, 与OD对之间的最小阻抗有关。

当网络中出行起讫点之间的拥挤程度增加时, 出行量会相应减少。可用一个函数来描述这种关系:

式中, Ds (·) 是出行需求函数, urs是起讫点rs之间的路径最小阻抗。

弹性需求分配模型目标函数:

弹性需求状态的约束条件:

2.2随机平衡分配SUE模型及算法

SUE分配模型:认为出行者在不拥有完备的交通信息下对路段阻抗有着不同的估计, 该阻抗可被视为分布于出行者群体上的一个随机变量, 这修正UE分配的基本假设, 即出行者拥有完备的交通信息, 而且能够依据这些信息做出正确的决策。

2.2.1 SUE分配模型

(1) SUE分配模型

SUE模型是由She ffi和Pow e ll (1982) 提出的, 具体数学形式如下:

2.2.2 SUE分配模型的计算算法MSA算法

SUE分配是无约束极小值问题, 对于一般的无约束极小值问题可以用下降方向沾求解。但足对于SUE模型确定下降方向和迭代步长不是容易之事, 原因在于:1) 在每次选代中都需要执行一次随机网络加载得到一组附加的路段流量来确定目标函数的下降方向, 但路段流量有时并不能被精确计算 (如导致由此取得的下降方向可能不是真正的下降方向) 尽管在总体上是下降的;2) 由于目标函数相当复杂, 使得迭代步长不可能如一般问题那样利用一维搜索求最优值。但是MSA算法可以避免上述困难, 结合随机网络加载机制, 成功求解SUE问题。

2.3 一般化的UE模型及算法

一般化的UE模型:认为路段阻抗函数以及需求函数是不可分离的, 修正UE规划及其弹性需求形式中路段阻抗函数和需求函数可分离的条件。

由此, Prager (1954) 在建模中考虑了双向道路中对交通流之间的相互影响。Dafermos (1971, 1972) 提出研究基于不分离的一般化特性函数的交通分配模型, 这种模型也适用于多模式、多车种或者多类别用户等多类别平衡分配问题。Roth (1965) 第一个研究了多类别用户分配问题。针对我国机非混行的特点, 陈森发等 (1993) 、刘安等 (1996) 、四兵峰等 (1999) 、刘法胜 (1999) 等均讨论了多种交通方式的混合平衡分配问题, 这些研究基本上都是对国外已有成果的拓展研究。

2.3.1 一般UE模型

以下为一个具有代表性的一般UE模型Dafermos (1982) :

约束条件:

其中Ω是由弹性UE模型相同约束条件决定的, 一般UE模型即使弹性UE的一般化。

2.3.2 对角化算法

一般化UE模型最有效的算法是对角化算法来。对角化算法也叫非线性Jacobi算法、松弛算法。对角化算法在整体框架上是迭代的, 每次迭代需要求解一个完整的UE规划, 而求解UE规划的算法一般也是一个迭代过程, 因此它具有迭代嵌套结构, 对于大型的交通网络需求需要付出巨大的计算量, 尽管相对于同类算法它是较优的。

3 结论

随着智能交通技术的发展, 乘客获得道路信息的渠道越来越多越来越全面, 深刻影响了乘客的选择行为。因此, 除上文介绍的用户平衡分配模型之外, 除了应该考虑交通需求的是随机变化性, 还应考虑路网上需求与时间的相关性, 因此还发展除了动态平衡分配模。由此可见, 用户平衡配流模型会发展得越来越全面, 配流结果更加的符合实际情况;另外由于交通技术在发展, 出行者行为影响因素越来越复杂, 模型因此需要不断更新。

摘要：用户平衡分配模型在交通规划及城市交通网络设计中占据重要作用, 网络上流量分配结果的准确性对交通决策问题起着关键性作用。用户平衡分配模型的关键部分是对路网用户的行为选择描述的准确性, 因此在基本的用户平衡模型上, 发展出了较多更能描述实际情况的用户平衡拓展模型。因此本文重点介绍了用户平衡分配模型、其拓展模型及其算法。

关键词：用户平衡分配模型,用户平衡分配拓展模型,算法

参考文献

[1]任刚著.交通管理措施下的交通分配模型及算法.东南大学出版社[M].2007.

[2]刘海旭, 蒲云.基于行程质量的用户平衡分配模型[J].中国公路学报, 2004.

【用户兴趣模型】推荐阅读：

用户兴趣建模09-17

用户需求模型06-05

用户偏好05-10

用户数据05-28

基于用户06-01

用户基础06-15

燃气用户07-09