短期学习兴趣(精选3篇)
短期学习兴趣 篇1
摘要:协同过滤算法已被成功应用于许多领域, 但遇到了可扩展性和精度低等问题。目前提出了许多改进算法, 但它们均忽略了用户长短期兴趣对推荐的不同影响, 针对这个问题, 介绍一种基于查询推荐技术的用户兴趣模型, 它能够区分用户长短期兴趣且为用户做出更加精确且不同推荐。
关键词:个性化,动态化,长、短期兴趣
0 引言
随着互联网的发展, 搜索引擎已经成为人们获取信息的主要手段之一。目前搜索引擎采用的主要交互方式是:用户自主输入查询, 搜索引擎根据用户输入的查询提供检索结果。但是, 大多数时候用户输入的查询不能精确表达其意图。一方面, 用户输入的查询通常较短—平均只有两三词;另一方面, 很多搜索引擎含有歧意、意图模糊等问题;此外, 用户之所以要搜索就是因为对要检索话题知之甚少甚至毫无概念, 这时候用户很难构造好查询。研究文献[2]表明, 只有25%的查询能清晰表达用户的意图。
至此, 协同过滤技术已成功用于电子商务、科学研究等众多领域。然而, 基于协同过滤的推荐系统却遇到了两大基本挑战: (1) 如何有效地提高协同过滤算法的可扩展性; (2) 如何提高用户的推荐的质量性。为了解决这两个基本挑战, 近年来, 出现了多种改进策略, 但其前提是用户的兴趣爱好是不变的, 即用户兴趣不具有动态性与时效性, 因此, 这些方法不能反映用户兴趣随时间的变化。然而, 被推荐的“商品”和用户的兴趣往往都具有时效性。
针对上述问题, 文献[1-2]提出了时间加权的协同过滤算法, 考虑了时间对推荐质量的影响。然而, 这些算法并未有效的清晰区分用户的长期兴趣和短期兴趣, 只是单纯地认为用户的兴趣随着时间的流逝而逐渐递减, 即某个用户感兴趣的“商品”最可能和他近期访问过的“商品”相似。然而, 用户往往根据自己以前的购买经验, 选择与以前购买过的“商品”较为接近的那些新“商品”进行购买, 即用户当前感兴趣的资源与其早期感兴趣的资源相关性很大。从本质上讲, 这种情况往往发生在作为用户长期兴趣的两个资源上, 这样的用户兴趣不能随时间的推移而衰减。例如, 一个用户的长期兴趣是喜欢看NBA, 他往往也会看新最新的NBA。而且, 用户的短期兴趣更加具有时效性, 有可能随着时间的推移而逐渐降低甚至消失, 也有可能随着时间的推移而逐渐增加甚至转变为长期兴趣。因此, 如果能有效识别出用户的长、短期兴趣, 在预测用户最感兴趣的“商品”时加以考虑, 区分不同兴趣对推荐的不同影响, 那将有可能进一步提高推荐精度与质量, 并且, 此推荐系统会更加深受“消费者”的喜爱。
1 相关工作
1.1 分词
分词是文本处理的一个基础性工作, 其基本实现原理有三点: (1) 基于Trie树结构实现高效的词图扫描, 生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) ; (2) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合; (3) 对于未登录词, 采用了基于汉字成词能力的HMM模型, 使用了Viterbi算法。因此, 本文利用python自带的“结巴”分词实现对用户查询词及商品类别的分词处理。
1.2 TF-IDF模型
TF-IDF是一种统计方法, 用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加, 但同时会随着它在语料库中出现的频率成反比下降。同时, TF-IDF加权的各种形式常被搜索引擎应用, 作为文件与用户查询之间相关程度的度量或评级[3]。
1.3 相似度本文主要利用余弦公式计算相似度, 这里, 本文给出计算余弦相似度的公式:
1.4线性拟合
步骤4:return a, b, r
输出:Y=a X+b
2 数据的处理
2.1 用户查询词的处理
用户的查询词格式如下:用户Ui= (用户ID, 用户查询词Cij, 查询词的时间戳Tij, 返回文档Rij) , 譬如: (183.196.149.97, 达芙妮凉鞋, 2013/6/2012:06:59AM, http://www.taoxie.com/activity/197/index.aspx) 。其中, 对用户的查询词分词后的结果为: (达芙妮凉鞋) 。
2.2 商品分类的处理
商品的分类共有两级目录, 商品的分类格式如下:GDij= (GDi1, GDi2) ;如: (男装, 羽绒服) ; (男装, 毛衣) ; (女鞋馆, 长靴) … (参考天猫网上对商品的分类信息) 。同样, 对商品的两级分类目录, 分别实现分词。分词后的结果为: (男装羽绒服) ; (男装毛衣) ; (女鞋馆长靴) 。
3 兴趣模型与推荐
3.1 长期兴趣
首先根据模型TF-IDF将已经分好词的用户Ui的查询词Cij与分好词的商品分类GDij转换成词包, 然后将两者的词包值进行余弦相似度sim计算, 将查询词Cij“归类”到最大sim值所对应的商品分类GDij下。这样, 用户Ui的查询词Cij都可找到在商品分类信息中的“归属”:GDij= (Ci1, Ci2, …Cin) 。然后, 设定阈值Y, 若此分类GDij中查询词的数量n/用户Ui所有查询词数量N大于阈值Y, 则此商品分类GDij作为用户Ui的长期兴趣。反之, 做为用户Ui的“待定兴趣池”, 并将此GDij类别推荐给用户。
3.2 短期兴趣
在集合“待定兴趣池”下:第一步:对每一个GDij类别下的所有查询词的Tij进行逐项相减。如:P1=Ci2-Ci1…Ps=Cs-Cs-1…Pn=Cn-1-Cn-2。这样, 我们便可以得到每一个GDij类别下查询词Cij的时间差集合Pi= (P1, P2, …, PS, …, Pn) 。同理, 我们得到“加速度”集合ti= (p2-p1, p3-p2, …, ps-ps-1, …, pn-1-pn-2) ;第二步:以“0-n (n为集合ti内的元素个数) ”为横坐标, 以集合ti内的数据为纵坐标共得到若干图像Hi。然后, 对图像Hi进行线性拟合, 得到关于这些图像的线性拟合的直线:Y=a X+b;第三步:根据拟合出的直线, 预测出图像Hi的每一个Yi的值。即用户下次查询时出现的“可能值”。然后, 对这些“可能值”Yi进行降序排序, 再采用“TOP-N”的方法得到若干可能性最大的“可能值”。最后, 对这些“可能值”所对应的集合ti的元素个数ni比较大小, 最大ni值所对应的GDij类别及为用户的短期兴趣。
并将GDij此类别推荐给用户。
3.3“冷启动”策略
3.3.1 新用户的“冷启动”对于新用户而言, 推荐系统中拥有他的信息为0, 故而无法利用用户的相关数据来发现他的兴趣爱好。本文根据谢利夫、阿希以及米尔格拉姆提出的“从众”心理学理论, 假设新用户具有“从众”心理, 喜欢热门的“商品”。因此推荐系统中采用“热门商品”的推荐策略, 将当前推荐系统中被访问次数最多的N个“商品”推荐给用户。
3.3.2 新商品的“冷启动”对新商品的文件描述进行分词处理, 与商品的分类分别做余弦相似度计算, 找出最大sim值所对应的商品分类, 即可认为新商品属于此类别下。若同时用户的长期兴趣为此类别, 则为此用户推荐此新商品。
4 实验结果
为了验证此模型与算法的有效性, 本文从数据堂下载的数据, 该数据是天猫搜索查询日志库设计为包括约3个月 (2008年6月开始) 的分网页查询需求及用户点击情况的网页查询日志数据集合) 。为进行中文搜索引擎用户行为分析及用户偏好分析的研究者提供的研究语料。而分类数据是根据天猫网站对商品的分类, 共140个两级分类。实验平台是WIN7, CPU为i74核, 内存4G, 硬盘500G, 采用语言编写程序。
其中随机抽取某用户从2013/6/1 12:01:07 AM-2013/8/31 11:00:5 AM内的共426条查询词记录进行实验。实验时, 选取阈值Y=0.4 (经过大量实验表明, 阈值Y=0.4为最优) 。
首先, 确定了阈值Y, 根据本文提出的模型与算法, 我们便可以筛选出此分类GDij中查询词的数量n/用户Ui所有查询词数量N大于阈值Y的若干分类GDij, 并且, 将此分类作为用户Ui的长期兴趣。
通过删选, 我们首先得到用户的“待定兴趣池”, 在此“待定兴趣池”中, 我们根据本文提供的用户的短期兴趣模型, 得到图1。
图像若干 (其中横坐标为集合ti的元素个数, 纵坐标位集合ti内的值) 。对这些图像做线性拟合与“TOP-N”处理, 便可以得到用户的短期兴趣。
最终得到的推荐结果为:rec_short_interests (用户短期兴趣所对应的商品分类) =['天猫', '运动', '馆', '篮球鞋'];rec_long_interests (用户长期兴趣所对应的商品分类) =['男装', '大牌', '上', '新']。
5 结论
文献[1, 2]中提出基于的时间加权的协同过滤算法, 虽然考虑了时间对用户兴趣的影响。然而, 这些算法并未清晰区分用户的长期兴趣和短期兴趣。但在本文中提出的模型与算法却能区分用户的长短期兴趣, 从而能够为用户提供更加精确的推荐。
参考文献
[1]Tomoharu I, Kazumi S, Takeshi Y.Modeling user behavior inrecommender system based on maximum entropy[C]//Proceedings of the 16th International Conference on World Wide Web.Canada:World Scientific Publishing Co.Pte.Ltd., 2007:1281-1282.
[2]郑志高, 刘京.时间加权不确定近邻协同过滤算法[J].计算机科学, 2014, 8.
[3]黄昌宁, 赵海.中文分词10年回顾[J], 2007, 5.
短期学习兴趣 篇2
首先,我们需要确定自己的学习目标,明确学习的需要和意义。比如,如果我们的工作需要用到英语,那么学习英语就是我们必须努力的方向。如果我们想提升自己的专业技能和水平,那么可以选择参加相关的课程或培训。
其次,我们应该考虑如何安排自己的学习时间。我们可以根据自己的工作和生活情况,制定一个可行的学习计划。例如,每天抽出一个小时的时间进行学习,或者利用周末等闲暇时间集中进行学习。同时,我们还需要坚持学习,不能轻易放弃,只有坚持下去,才能看到自己的进步和收获。
另外,我们还可以选择一些有效的`学习方式和方法,提高学习效率和效果。比如,可以通过阅读书籍、文章等扩展自己的知识面;利用互联网资源,观看在线教育视频或参加网络课程等;寻找优秀的导师或同行,进行交流和互动,提高自己的学习动力和积极性。
最后,我们需要持续地评估和调整自己的学习计划。学习计划是动态的,我们需要及时地反思和调整自己的计划,及时修正和改进自己的学习方式和方法。只有不断反思和调整,才能够真正地实现自己的学习目标和意愿。
短期学习计划 篇3
首先要明确自己需要学习什么,为什么要学习,以及想要达到哪些学习目标。这可以帮助我们更有效地制定学习计划,并保证计划的实用性和适用性。
2.评估自己的学习能力和时间。
我们要评估自己的学习能力、学习习惯和学习时间。这样我们就能更好地规划学习任务和时间表,并知道哪些主题需要更多时间和精力。
3.制定 SMART 原则的计划。
SMART 原则指的是具体 (Specific)、可衡量 (Measurable)、可实现 (Attainable)、有意义 (Relevant) 和时限性 (Time-bound) 的计划。根据 SMART 原则,我们要制定具体清晰、能够量化、可实现的`计划,并确保这些计划与我们的学习目标相关联,并且在明确的时间段内完成。
4.实施计划后持续评估。