分类推荐(共6篇)
分类推荐 篇1
摘要:网络的虚拟性导致信任关系难以建立, 交易决策困难。个性化推荐系统可以处理信任评估中的主观因素, 提高交易预测的准确性。基于协同过滤的思想建立一个模糊信誉管理系统, 突出对一手信息的处理与个性化共享。在一般节点上, 采用二层的模糊推理逻辑适应人类的思维习惯, 并通过对最近邻可靠值属性的调整定制信任评估;通过超级节点计算和汇总商品分类的信誉值、推荐力等全局变量, 依据幂律分布规律设计取值的模糊化函数。最后通过示例说明了系统应用的可行性。
关键词:电子商务,协同过滤推荐,信誉系统,信任评估,模糊推理
0 引言
当今世界愈发开放和紧密相连, 消费者因为具备了无所不在的接触渠道拥有了丰富的选择。但是, 面对殷勤的产品或服务提供商, 买方并不总是能够乐享竞争创造的好处, 最迫切的需要是建立个性化的推荐系统。保证推荐个性化实现的途径为:获取用户的特征—发现用户间及用户与信息间的相关性—整合多源信息—计算信誉值—建立和维护信任关系。
要做到个性化, 研究者提出推荐系统要能够处理信任评估的主观性和复杂性。Bharadwaj等人设计了一个电影推荐系统, 通过一个评分预测比较过程, 即把自己已经评价过的电影让邻居预测, 然后比较自己的评分与邻居的预测来计算相似度, 作为信任邻居的权重[1]。但是在电子商务交易网络中, 两个用户同时涉及多次相同商品的交易情况很少, 导致信息稀疏无法得到预想的结果。Chang等人设计的电子环境下的推荐算法不但考虑了用户在历史交易中的评价, 而且将交易商品所属的类别作为背景进行相似度的计算, 从而得出不同类商品历史交易信息对用户推荐的贡献权重[2]。但是这种相似度计算的结果会由于交易各方在商品类归属方面的分歧存在较大差异。其他处理主观信息的方法还包括度量评价向量间的距离[3]、利用社会网络[4]、信任图推理[5]、模糊推理记录邻居可靠值[6]等。本文设计了一个二层模糊推理逻辑, 用于适应人类的思维习惯, 通过调整邻居的可靠值实现推荐系统的个性化。
识别用户特征最直接的信息源是一手信息, 处理好一手信息是个性化推荐系统的关键。尽管所有关于信誉和推荐的研究都承认一手信息最重要, 却往往缺乏如何将一手信息纳入到推荐系统的考虑, 本文从以下几个方面强化对一手信息的存储、处理和维护:
①一手信息要可由用户定制纳入推荐系统的计算, 不能简单留给用户自行处理;
②承认一手信息 (用户评价) 存在非理性, 一方面应允许用户保留自己的信息, 即便是其中可能存在偏见, 另一方面, 系统要设计一定的机制, 保证这种偏差不要进入推荐系统, 影响系统提供信息的客观性;
③在保证全局信誉信息客观公正的前提下, 允许个性相似的代理之间相互采纳推荐, 即使信息存在偏差;
④将一手信息用于比照推荐代理的特征, 以便做出观点相似度的预期。
1 FRMS-CF模型
为了方便说明, 我们称获信代理y为RQA (Reputation Queried Agent) , 求信代理x为TA (Trusting Agent) , 那些响应查询请求提供信息的代理节点为推荐代理RA (Recommending Agent) 。为了实现个性化的推荐, 本文基于协同过滤的思想建立了模糊信誉管理系统FRMS-CF (Fuzzy Reputation Management System with Collaborative Filtering) 。
模型计算RQA的综合信誉值OTV (Overall Trust Value) 的公式如下:
其中, 内生信任TI由一手经验获得, 外生信任TE由推荐信息获得, 外生信任中, 又进一步区分为来自最近邻的推荐信任和来自其他代理的推荐信任, WI、WF、WE分别是这三类信息的影响权重。
1.1 个性化信任评估的模糊逻辑
FRMS-CF系统采用二层模糊逻辑推理评估获信代理信任值的关系见图1所示。
可靠性AC (Agent Credibilty) 是最近邻代理的一个关键属性, 定义为:在特定交易情景下, 推荐代理可以提供与求信代理一致观点的可能性, 其取值范围为[0, 1]。对于新加入的推荐代理, 买方代理为它分配一个中等的可靠值0.5, 以应对“冷启动问题”[7]。
可靠值用于记录代理间的相似性, 是一种关系属性, 从求信代理的角度来看, 推荐代理是否有能力提供推荐也是非常重要的, 隐含着推荐代理的经验与知识处于被判断中。所以, 另一个关键属性是推荐力RP (Recommending Power) , 用于衡量在特定情景下推荐代理关于此类交易观点的说服力。在匿名制的电子商务环境下, 系统无法通过实体世界的专业背景对推荐力做出判断, 依靠累积所有将该推荐代理作为最近邻的求信代理设定的可靠值, 系统可以在同商品类中比较相对推荐力的大小, 取得相应的模糊值。
AC与RP的推理结果为中间变量—推荐可信度RC (Recommending Credibility) , 用于综合反映在特定情景下, 求信代理对推荐代理关于获信代理推荐的信任度。
推荐信任值RTV (Recommending Trust Value) 是指在特定交易情景下, 推荐代理给出的关于获信代理最近的综合评价。获信代理的信誉值FRV (Filtering Reputation Value) 是一个全局变量, 在FRMS-CF系统中分商品类归集计算。按照择优选择机制, 信誉值呈幂律分布[8], 即少数的卖方代理完成大量的交易并获得较高的信誉值, 而大量的代理交易数量并不多。因此, 信誉值的模糊化计算见式 (2) , MaxFRV (S) 是该商品类的最大信誉值。
消费者需要一个容易理解的信任评估机制, 模糊逻辑正好可以提供一种基于自然语言的推理规律, 便于用户根据对交易的一般规律的经验与直觉对其进行维护。
在使用模糊推理引擎之前, 需要先定义模糊隶属函数。为了简化起见, 我们对于每一个变量用五个三角形模糊集定义其隶属函数。如果有必要的话, 也可以换成梯形、高斯、指数或钟形的函数形式来进一步精炼模型。详细定义的模糊集如图2所示。每个模糊数用三个元素来标识, {tm1, tm2, tm3}, 其中, tm1≤tm2≤tm3, 分别对应该模糊数三个端点的横轴坐标值。所有变量在输入推荐引擎之前要进行规范处理, 将取值范围统一到[0, 5]区间。
1.2 评价修订
信誉系统的核心是信誉值的计算, 交易评价是数据来源的基础。FRMS-CF采用相关性、承诺、清晰和影响 (CCCI) 方法[9]对卖方代理的交易绩效进行评价。CCCI方法的思路是, 从承诺的履行状况、标准的清晰度和标准的相对重要程度三个方面分析预期交付与实际交付之间的差距从而获得对交易全面、准确的评价。
感性消费与评价是电子商务不可回避和忽视的问题, 由此导致的评价偏差将严重影响信誉系统的信任评估的客观性。前述的CCCI方法可以一定程度地提高评价的理性、公正和完整, 此外FRMS-CF还在信誉计算前插入了修订买方代理评价的过程, 用以校正具有显著特征的偏差行为, 如取消职业差评师的评价, 调整代理的倾向性低估或高估的评价。
调整后的评价输入全局信誉计算公式, 详见文献[10]。
1.3 关于推荐代理的信息更新
评价是提示用户偏好的重要信息, 这里讨论可靠值与推荐力两个关键属性的更新。
可靠值通过比较评价与交易前的参照推荐两者间的差距判断是否观点一致, 一致性函数见式 (3) 。系统还引入了一个可容忍偏差的阈值ε, 用于允许最近邻间观点存在由随机因素导致下的差异, AC的更新函数见式 (4) , ω为加速因子。
其中,
系统采用两个不同的函数对AC值进行调整。一方面, 可靠值的增加速度低快高慢, 兼顾了新增最近邻迅速收敛可靠值和高可靠值用户获取更多信任的难度增加的两种系统要求;另一方面, 信誉值的下降速度高快低慢, 隐含了对不一致观点的惩罚, 也可以避免周期性的不诚实行为[11]。这种函数设计方式符合获得信任比失去信任的难度要大得多的一般认识规律。
其中:
最近邻列表或“黑名单”的变动和可靠值更新会通知节点所在子网的超级节点, 累积对应推荐代理相关背景下的可靠值, 如果推荐代理被投入“黑名单”, 则我们给修改后的可靠值赋值为 (-2.5) 。
推荐力RP是一个全局变量, 呈幂律分布, 它的模糊化函数为:
2 系统示例
以下通过“女装”类下商品的信任交易过程来说明模型在两种情形下的运用。第一种是所谓的“冷启动”问题, 即一个新的代理进入网络;第二种情形是买方和推荐代理都存有关于卖方的信息。求信代理是买方, 获信代理是卖方。表1是买方对FRMS-CF系统中一些初始值的设定, 针对不同的信任值区间应预先设定用户策略, 以便系统未来提供便于理解的决策建议。
2.1 情形1
假设TA没有关于卖方的一手信息, 向网络发出查询请求也得到很少的响应, 依预设定的策略建议用户做出不交易的决策, 但可以利用获得的信息完善本地资料, 为未来决策做准备。
(1) 信任评估
以下是TA对某个卖方特定商品/服务的信任评估过程:
步骤1获取商品/服务的历史交易信息和卖方的商品类信誉。
全局信誉查询消息格式:ReputaionRequest[买方ID, 卖方ID, 交易物, 情景]
卖方响应消息格式:AgentResponse[卖方ID, 交易物, 情景, 信誉值]
推荐响应消息格式:RecommendationResponse[推荐代理ID, 卖方ID, 交易物, 情景, 交易ID, 时间, 评价, 评语]
返回最近的若干交易记录, 放入临时最近邻列表。可设定返回的最大记录数, 为方便描述, 这里假设返回了3条推荐信息, 同时获得的卖方商品类信誉值, FRV=4.6。
步骤2获取推荐代理的最新评价RTV。
信任查询消息格式:TrustRequest[买方ID, 推荐代理ID, 卖方ID, 交易物, 情景]
信任响应消息格式:TrustResponse[推荐代理ID, 卖方ID, 交易物, 情景, 推荐信任值, 评语]
为了方便描述, 以下我们称三个推荐代理为RA1, RA2, RA3, 则
步骤3获取推荐代理的推荐力评价。
推荐力查询消息格式:PowerRequest[推荐代理ID, 情景]
推荐力响应消息格式:PowerResponse[推荐代理ID, 情景, 推荐力]
根据返回的消息, 可以得到三个推荐的推荐力评价值分别为
步骤4设新加入的临时最近邻的可靠值AC为2.5。
步骤5将可靠值AC与推荐信任值RP输入第二层模糊逻辑, 计算推荐可信度RC, 推理算法示意见图3所示。对变量RC去模糊化, 得到RC=2.9。
注:名称中包含有‘T恤’字样的产品很多, ‘××T恤’表示由卖方代理6565经营的特定产品
步骤6将推荐可信度RC, 推荐信任值RTV和卖方商品类信誉FRV输入第一层模糊逻辑, 计算模糊信任值FT, 去模糊化, 得
步骤7依次输入其他推荐的信息, 求取他们的TV值, 得到RA3在第二层推理后, 其推荐可信度只有所以, 不再进入第一层推理过程, 系统在综合信任评估时将不再考虑他的意见。
步骤8计算OTV。因为情形1是TA没有关于卖方的一手信息, 所以只能依赖于推荐信息, 且各信息源的权重相等, 对TV值简单平均, 得到OTV=4。
(2) 可靠值更新
由于没有实际的交易发生, 用上述评估的结果作为交易评价, 更新最近邻的相关属性。
步骤1获得已参考的所有推荐代理评价的标准偏差。已参考的信息是指在信任评估阶段计算时采用过的信息, 由于推荐可信度过低而不纳入计算的那些推荐代理的评价不包括在内。
步骤2依次根据所定义的一致性函数, 比照用户定义的容忍度阈值, 确定需要调高或调低可靠值的推荐代理。
推荐代理RA1、RA2的一致性函数计算得到的结果超出了容忍度阈值1, 则它们的可靠值应调低, 而RA3的一致性结果为0, 即完全与TA意见一致, 则调高它的可靠值。
步骤3根据式 (4) , 推荐代理的新可靠值为:
选取此次信任评估阶段临时加入最近邻列表中的AC值超过2.5的推荐代理加入正式最近邻列表。每一次信任评估产生一个对应的临时最近邻列表, 无论是否有交易实际发生, 在更新可靠值之后, 用户都可以随时选择将其清空以减少存储空间的占用, 当然用户也可以选择不清空, 以备后面的交易查看。
2.2 情形2
假设买方及其最近邻拥有关于卖方特定背景下的信息, 且买方发出查询请求, 增加临时最近邻, 以获取更多的信息。
(1) 信任评估
在处理临时最近邻的推荐信息方面, 与情形1中描述的过程没有差别, 我们将重点针对一手和最近邻信息的处理详细加以说明。
步骤1获取商品/服务的历史交易信息和卖方的商品类信誉。
获得卖方的商品类信誉值 (FRV=4.6) , 返回的若干交易记录, 放入临时最近邻列表, 设为RA'1, RA'2, …, RA'M。
步骤2获取推荐代理的最新评价。
返回的临时最近邻的最新评价与搜索的交易物-‘××T恤’直接相关, 而最近邻的最新评价则可能有以下三种情况:
情况1:最近邻存有与卖方6565关于‘××T恤’的交易记录;
情况2:最近邻没有与卖方6565关于‘××T恤’的交易记录, 但存有与卖方6565在类似情景 (‘女装’) 下其他交易物的交易记录;
情况3:最近邻没有与卖方6565关于‘××T恤’的交易记录, 也没有与卖方6565在类似情景下的其他交易记录;
在情况1下, 与情形1中描述的类似, 直接返回最新的推荐信任值及相应交易物的最新评价与评语;在情况2下, 则返回最新推荐信任值及最近交易商品/服务简况和评价、评语。因为, 在FRMS-CF系统中, 推荐代理的推荐信任值并不仅仅针对特定交易物, 而是关于若干类似情景交易的综合评价。在情况3下则不返回任何交易信息, 提示信息不可参考, 因为系统假定非相似情景下的信任信息之间无相关性。通过该步骤获得临时最近邻的推荐信任值和最近邻的推荐信任值
步骤3获取推荐代理的推荐力评价。
通过该步骤获得临时最近邻的推荐力和最近邻的推荐力
步骤4赋值最近邻的可靠值并设新加入的临时最近邻的可靠值为2.5。
步骤5将可靠值AC与推荐信任值RP输入第二层模糊逻辑, 计算推荐可信度RC。
步骤6将推荐可信度RC, 推荐信任值RTV和卖方商品类信誉FRV输入第一层模糊逻辑, 计算模糊信任值FT, 去模糊化。
步骤7依次输入其他最近邻 (包括正式和临时的) 的信息, 求取他们的TV值。
步骤8计算OTV。
分别对最近邻和外部推荐信息获得的信任值以可靠值为权重求加权平均, 得到TVF=4.65, TVE=3, 从本地存储中获得一手信息TVI=4.5, 再结合用户预定义的信息源权重计算得到:
参照用户预设定的策略表, 确定策略为选择“高价值, 产品和服务的质量大多可以达成清晰标准, 可以信任对方提供的支付手段, 如钱款直接进入对方账户的方式”为特征的交易。
(2) 可靠值更新
与情形1相同, 系统自动执行关于最近邻的信息更新操作。此外, FRMS-CF还提供了手动调整可靠值的机会。系统可以忽略那些持不一致观点的推荐代理, 筛选并屏显可靠值刚被调高的最近邻的评语, 并显示出对应评价的规范化的一致性函数值, 即用户参照自然语言评语, 判断推荐代理与自己的一致性程度, 相应调整规范化的一致性函数值, 完全一致的情况下, 赋值为0, 完全不一致则赋值为1, 系统将根据调整后的值重新计算可靠值ACnew。
3 结语
P2P网络环境下, 通过本地信息的计算、存储、处理等智能的利用, 代理会被激励提供更真实和详尽的一手信息以及更频繁的数据维护。本文基于协同过滤的思想建立了模糊信誉管理系统, 强化了一般节点对一手信息的处理能力, 提高了信誉系统的网络社交功能。利用二层模糊逻辑, 用户可以容易地理解和维护推理规则, 设计的可靠值更新函数用于调整最近邻的观点权重, 帮助实现信任评估的个性化;承认一手信息本质上存在的非理性, 将用户评价与全局信誉分别处理, 兼顾了推荐的个性化和系统信息提供的客观性。进一步的研究将基于真实交易平台的数据验证方法的效率。
参考文献
[1]Bharadwaj K K, Al-Shamri M Y H.Fuzzy computational models for trust and reputation systems[J].Electronic Commerce Research and Applications, 2009, 8:37-47.
[2]Chang J S, Wong H J.Selecting appropriate sellers in online auctions through a multi-attribute reputation calculation method[J].Electronic Commerce Research and Applications, 2011, 10:144-154.
[3]李景涛, 荆一楠, 等.基于相似度加权推荐的P2P环境下的信任模型[J].软件学报, 2007, 18 (1) :157-167.
[4]Despotovic Z, Aberer K.P2P reputation management:Probabilistic estimation vs.social networks[J].Computer Networks, 2006, 50:485-500.
[5]Lee S, Sherwood R, Bhattacharjee B.Cooperative peer groups in nice[C]//Proc.IEEE Conf.Computer Comm. (INFOCOM 03) , IEEE CS Press, 2003:1272-1282.
[6]Schmidt S, Steele R, Dillon T, et al.Fuzzy trust evaluation and credibility development in multi-agent systems[J].Applied Soft Computing, 2007, 7:492-505.
[7]Schein A I, Popescul A, Ungar L H, et al.Methods and metrics for coldstart recommendations[C]//Proc.of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2002) , August, Tampere, Finland, 2002:253-260.
[8]Barabási A L, Albert R.Emergence of scaling in random networks[J].Science 286, 1999:509-512.
[9]Hussain F K, Chang E, Dillon T S.Trustworthiness and CCCI metrics for assigning trustworthiness in P2P communication[J].Intl.J.Comput.Syst.Sci.Eng, 2004, 19 (4) :95-112.
[10]刘凤霞, 王双成.Reputation Model for C2C Commerce with Filtering Merchandise Categories[C]//电子商务与电子政务国际学术会议 (ICEE2011) , 2011, 8:7119-7122.
[11]Schmidt S, Steele R, Dillon T, et al.Applying a fuzzy trust model to ecommerce systems[R].International Workshop on Web Semantics, Sydney, 2005.
分类推荐 篇2
日语的单词按照它的意义、形态和语法职能可以分为以下十二品词:
以ウ段假名结尾---------------动
词
有词形变化,可做谓语
(用言)
以イ结尾-----------------------形 容 词 以ダ(デス)结尾----------形容动词
独立词
可做主语(体言)--------------------------名
词
代
词 数
词
日语单词无词形变化
不能做主语 附属词
可 做 定 语-----------------连体词 可 做 状 语-----------------副
词 可做接续语------------------接续词 可做感叹语------------------感动词
有词形变化-----------------------------助动词 无词形变化-----------------------------助
词
分类推荐 篇3
协同过滤推荐系统是电子商务网站普遍运用的技术, 主要目的是为了吸引顾客增加销售额。将协同过滤应用于图书馆日常管理工作中, 目的是希望通过推荐系统推荐给读者其感兴趣的图书和文献, 帮助读者更好地使用图书馆资源, 同时也能提高图书馆馆藏资源的利用率。在原有研究的基础上提出一种改进的推荐算法——基于分类的协同过滤算法, 解决了新读者的初始评分问题, 根据读者的借阅历史对读者进行分类, 结合相关影响因子的分析, 改进读者相似度的计算公式, 可以有效解决协同过滤推荐系统存在的冷启动及系统扩展性问题。
2 协同过滤推荐系统
2.1 协同过滤推荐系统的原理
协同过滤系统 (Collaborative Filtering) 也有学者称为“协同推荐系统 (Collaborative Recommendation) ”。系统假设具有相似兴趣特征的用户将会采用相似的行为。系统的原理是通过用户的注册信息、历史记录来提取用户的行为特征, 接着根据这些特征在用户群中寻找相似邻居, 最后依据相似邻居的借阅行为向该用户进行推荐。协同过滤系统是最早, 也是目前得到最广泛应用的推荐系统。
在协同过滤推荐系统中, 用户对产品的评分通过计算近邻用户对其评分而得到。对于近邻用户的计算, 协同过滤推荐系统采用了很多方法来计算。这些算法中, 大都基于用户对共同喜爱产品的评价。其中, 最常用的方法是夹角余弦方法和Person相关性。根据算法是否需要学习已有数据, 可以分为基于近邻和基于模型两类算法。
基于近邻的算法利用用户之前的评分数据, 对用户未评价的对象给出一个平均评分。基于模型的算法利用收集用户的打分数据进行学习并构建用户行为模型, 然后对某个产品进行预测打分。
2.2 协同过滤推荐系统的优缺点
协同过滤推荐系统的优点是不依赖于推荐对象本身的内容, 能够推荐多种介质, 甚至包括虚拟对象。同时, 协同过滤推荐的个性符合度较高, 而且还可以帮助用户发现新的兴趣。缺点是冷启动问题, 即对于新产品、新用户, 系统得不到产品所获得的评价, 也得不到新用户的兴趣爱好、行为记录, 因此新产品得不到推荐, 新用户无法获得满意的推荐产品。同时, 随着用户数量的增加、产品的增加导致计算量过大, 信息过滤的效率不高。因此, 协同过滤推荐系统适用于用户规模相对稳定、产品数量相对固定的系统。
2.3 协同过滤推荐系统有助于充分开发图书馆资源
图书馆的建设不应该仅考虑不断地扩充图书文献资源, 被动地等待读者自己进行选择, 而应该以读者为中心, 整合各种信息资源和手段, 主动为读者提供信息服务, 这样既有利于帮助读者找到感兴趣的图书文献, 又能大大提升图书馆各类资源的利用率。因此, 构建协同过滤图书推荐系统是十分必要的。
3 基于分类的协同过滤算法
读者由于专业的限制、兴趣的导向, 往往更多地关注于某一个或几个领域, 对该领域内的图书加以评论, 而对其它领域内的图书很少问津。据此行为特征, 将图书分成若干个不同类型, 只对读者感兴趣的一个或几个类别的图书由读者进行比较过滤推荐。这样, 可以大大减少参与推荐的图书数目和读者数目, 从而可以有效地克服数据稀疏性和系统可扩展性的问题。
3.1 图书的初始评分值问题
由于图书文献数量巨大, 不是每本图书都有机会得到读者的评分。同时, 每天都有新书经加工后进入数据库, 这些新书无法获得读者的评价, 导致数据稀疏性问题。这里采取图书的初始评分法来解决这一问题。即在新书进行编目和分类加工时, 给新书一个初始评分, 以解决数据稀疏性问题。
而对于系统已保存的大量未获评价的图书, 在推荐系统实施之前, 可以由系统主动赋予分值。根据图书的流通次数、流通频率、借阅时长, 系统计算出一个推荐分值。如公式1所示:
其中, v0表示评分的基数, 可以设定为-0.5;n表示近两年的流通次数, 当n>10时, n/10取值1;t表示平均借阅时长, 单位为天, 当t>20时, t/20取值1。
通过以上两步举措, 可以保证在推荐系统实施之前, 所有推荐对象图书都可以获得一个初始评分。
3.2 图书和读者的分类
利用《中图法》, 对待推荐的图书进行分类。这里的图书分类不同于著录工作中的分类, 无需进行细致的类目分析, 只须根据图书的分类号将其纳入相应的二级类目中即可。一本图书在分类时可能不仅仅归属于某一类目, 有时会同属于某两类或多个类目。
根据读者评价过的图书, 判断这些图书的类别, 可以进一步把读者划分在某一类或某几类中。表1列出了已经分类的读者列表, 从表中可以判断读者所属类别。
表2是从借阅数据中抽取的部分信息, 根据读者评价过的图书、喜爱的图书, 来判断读者的分类。
3.3 读者相似度的影响因子
在现实情况下, 读者的身份、职称、年龄等不一而同;有的读者评分时偏向于积极评价, 因此分值偏高, 有的读者评分时偏向于审慎评价, 因此分值偏低;一些读者给出的评价比较公正客观, 而一些读者给出的评价随意性较大。不同读者给出的评分值对其他读者的影响度是不同的, 比如研究生导师评价较高的图书显然会对其研究生有重要推荐价值。可见, 读者的推荐能力是不同的。
有鉴于此, 对读者的推荐能力进行加权处理, 以便正确反映读者的推荐能力, 提高推荐的精确度。
(1) 读者身份
按照常理, 本科生、研究生、讲师、副教授、教授对某专业图书的推荐能力是逐渐提高的。因为他们对某专业的研究时间、科研水平也是逐渐提高的。所以, 读者相似度的第一个影响因子w1用读者的身份来表示。
w1表示读者身份的加权系数, k1, k2, k3, k4逐渐提高, 教授的加权系数为1, 表示教授的影响力最大, 推荐能力最强。
(2) 评价过的图书数量
当读者对某一领域内的图书大量阅读并给出评价, 说明该读者在此领域的研究时间增加、知识掌握全面、经验值提高, 给出的评价也更具有影响力。因此, 用读者评价过的图书数量作为读者相似度的第二个影响因子w2。
(3) 评价的准确度
当一本图书被较多的读者借阅后, 得到较多评价时, 它会有一个平均评分值。而这个平均评分值也是最接近该图书的真实评分。这样, 当一位读者对图书的评分越接近平均评分值, 说明该读者对图书评价的准确度越高, 其推荐力也越强。因此, 评价的准确度可以作为读者相似度的第三个影响因子w3。
其中, i表示读者评价过的某本图书, B表示读者评价过的图书的集合, vi表示读者对图书i的评分值, -vi表示i获得的平均评分值, Max和Min分别表示i所获得的最大评分值和最小评分值, n表示读者评价过的图书数量。
综上所述, 影响读者相似度的因子可以用如下公式表示:
其中, α1+α2=1。
3.4 算法流程
(1) 图书和读者的分类
按照《中图法》的分类方法, 以二级类目为不同的类别种类, 将图书分别划分到所属类别。对于属于交叉学科的图书, 将其分别归类于同属的类别。
对于读者的分类, 可以依据读者的评分来进行划分。读者评分值高、评价数多的几种图书类别通常代表了读者的兴趣爱好, 可将读者归入相应的类别。而读者评分值低、评价数少的类别基本不在读者的兴趣范围, 读者不属于这些类别, 对于这些类别的图书不予推荐。读者由于专业、兴趣和时间的限制, 往往固定于某几个知识领域的图书, 因此同一读者的分类以2-3种为好。过多的分类会造成运算量大, 推荐精确度低等问题。
确定了目标读者a的所属类别后, 对该类别的读者进行分析, 对于读者评分数小于阈值的读者予以屏蔽, 留下有效读者。
(2) 相似度的计算
在基于分类的协同过滤算法中, 某一类别中的图书之间相关性很强, 读者对某类图书的评价等价于读者对该类图书的评价总和, 即
其中, va, k表示读者a对某一类别ck的评价, j表示类别ck中的某一种图书, va, j表示读者a对图书j的评价。
如果某本图书同时属于多个类别, 那么对该类别的评价则应进行加权计算, 如公式6所示:
其中, pj, k表示图书j属于图书分类ck的概率, 其满足, 即图书j分属各个类别的概率之和应为1。
读者之间的相似度计算采用皮尔逊相关系数算法计算。计算读者a、b的相似度如下:
其中, M表示读者a, b共同评价过的图书类, -va, -vb分别代表a, b所评价过的图书类的平均评分值。根据相似度的大小, 确定读者a的最近邻居集U。
(3) 生成推荐结果
在读者a的最近邻居集所属的图书类别中, 预测这些图书类对读者a的可能评分值。根据修正的余弦相似性 (Adjusted Cosine) 算法, 考虑读者相似度的影响因子, 对预测评分值提出如下公式:
其中, pa, k表示读者a对图书类k的预测评分值, 表示a, b对图书类的平均评分值, U表示a的最近邻居集, w'a, b表示读者a、b相似度的修正值, w''a, b表示a、b相似度的影响因子。
进一步的, 得到a对图书类k的预测评分值pa, k之后, 读者a对图书j的预测评分值可以通过公式9得到:
其中, wk表示图书j属于类k的概率, R表示j所属类的集合。通过计算得出读者a的预测评分值最大的前几项推荐图书, 推荐给读者。
4 结语
伴随着互联网技术的广泛应用, 现代图书馆正向数字型图书馆方向发展, 加上原始的馆藏资源不断增加。面对如此巨大的信息资源, 读者需要某种手段来帮助他们找寻对自己有用的信息。文章提出的基于分类的图书推荐系统, 就是在这方面做努力, 希望能帮助读者找出符合需求的馆藏, 得到个性化的推荐服务。
摘要:随着社会的发展, 图书馆图书的总量呈数量级增长, 人们面对大量的图书和文献资料变得无从选择, 而传统的图书检索技术并不能向读者提供主动式、个性化的检索结果。推荐系统是一种智能化系统, 它把用户对目标对象的选择、评价等大量信息通过特定的算法进行处理, 根据处理结果形成推荐列表向用户进行推荐, 以此提供决策参考。文章将就基于分类的协同过滤图书推荐系统展开研究和探讨。
关键词:协同过滤,基于分类的协同过滤,推荐系统
参考文献
[1]谢琳惠.推荐系统在高校数字图书馆的应用[J].现代情报, 2006, (11) :72-74.
[2]Resnick P, Iakovou N, Sushak M, et al.Group Lens:An open architecture for collaborative filtering of netnews.Proc 1994 Computer Supported Cooperative Work Conf[J].North Carolina:Chapel Hill, 1994:175-186.
[3]刘建国, 周涛, 汪秉宏.个性化推荐系统的研究进展[J].自然科学研究进展, 2009, 19 (1) :1-15.
[4]曾庆辉, 邱玉辉.一种基于协作过滤的电子图书推荐系统[J].计算机科学, 2005, 32 (6) :147-150.
[5]孙守义, 王蔚.一种基于用户聚类的协同过滤个性化图书推荐系统[J].现代情报, 2007, (11) :139-142.
[6]Sarwar B, Karypis G, Konstan J, et al.Item-based collaborative filtering recommendation algorithms[C].Proc 10th International WWW Conf.New York:ACM Press, 2001:285-295.
[7]Lee TQ, Park Y, Park YT.A time-based approach to effective recommender systems using implicit feedback[J].Expert Systems with Applications, 2008, 34 (4) :3055-3062.
[8]Chen YL, Cheng LC.A novel collaborative filtering approach for recommending ranked items[J].Expert Systems with Applications, 2008, 34 (4) :2396-2405.
国际贸易分类(推荐) 篇4
1、进口贸易。进口贸易是指将其他国家的商品或服务引进到该国市场销售。
2、出口贸易。出口贸易是指将该国的商品或服务输出到其他国家市场销售。
3、过境贸易。过境贸易是指A国的商品经过C国境内运至B国市场销售,对C国而言就是过境贸易。(注意:由于过境贸易对国际贸易的阻碍作用,目前,WTO成员国之间互不从事过境贸易。)
二、按商品的形态国际贸易可划分为
1、有形贸易。有形贸易是指有实物形态的商品的进出口。例如,机器、设备等商品的进出口。
2、无形贸易。无形贸易是指没有实物形态的技术和服务的进出口。例如:专利使用权的转让、旅游、金融保险企业跨国提供服务等。
三、按生产国和消费国在贸易中的关系国际贸易可分为
1、直接贸易。直接贸易是指商品生产国与商品消费国之间的贸易不通过第三国来进行买卖商品的行为。
2间接贸易。间接贸易是指商品生产国与商品消费国通过第三国进行买卖商品的行为,间接贸易中的生产国称为间接出口国,消费国称为间接进口国,而第三国则是转口贸易国,第三国所从事的就是转口贸易。
四、按贸易内容国际贸易可分为:服务贸易、商品贸易、加工贸易、一般贸易.五、按贸易参加国的数量国际贸易可分为:双边贸易和多边贸易
1、双边贸易是指两国之间通过协议在双边结算的基础上进行的贸易。
分类推荐 篇5
关键词:软件网络,服务,自动分类,服务推荐
SOC是一种针对分布式系统的新型计算模式,是软件领域的研究热点,SIC在应用开发模式构造的过程中倡导以服务和服务组合为基础,改变了软件系统的生产、运行及使用方式,软件环境更加开放协同,服务种类日渐丰富,应用领域不断扩展,以服务为中心的互联网形成。软件结构对软件质量有着重要的影响,在服务软件(SOS)逐渐成为主流的背景下,有必要对SOS结构技能型研究,对其中的知识进行挖掘,只有这样才能够更好实现对SOS开发的指导。国内外众多学者对SOC软件领域中的服务发现和服务组合十分关注,但服务分类信息则相对缺少,不利于服务资源的管理和服务检索,传统的手工服务分类方式显然不能满足要求,这就需要对服务自动分类和服务推荐进行分析。
1 SOS与服务自动分类分析
1.1 SOS自动分类
社区结构是复杂网络一种介于微观和宏观之间的网络特性,在现实世界中,众多复杂网络都有着社区结构性质,相关研究表面,网络的鲁棒性、高速传播性等功能特性与网络的社区结构特征有着密不可分的关系。网络社区结构检测是揭示这一关系的重要基础,对于复杂网络来说,其主要采用图来进行表示,因此,Kernighan-Lin算法、普分割法等计算机领域中的图分割算法都能够在复杂网络结构社区检测中应用,但需要住的是,传统的图分割算法一般需要已知网络社区数目,或者将网络划分为规模一致或相近的子图,要想实现上述两点要求是比较困难的,这也使复杂网络领域出现了一些新的社区发现方法,例如加权或无权网络社区发现方法、层次算法和最优化算法等等。本文以复杂网络社区发现方法为基础,划分SOS社区,实现大量SOS聚类,从而实现服务聚类。
本文将模块度Q作为评价指标,分析的网络为加权网络,用去模块度Q对社区划分质量进行评价。评价算法公式如下:
其中Q代表模块度,weii代表两个端点都位于社区i的边,其边权与总边权的比例,wai代表一个或一个以上端点位于社区i的边,其边权与总边权的比例。
1.2 服务自动分类分析
LHF方法以SCA算法为基础来进行API服务的分类,用O(N2s)来表示其时间复杂度。
2 服务推荐
2.1 SOS2S结构特征分析
为了更好的推荐服务和构建SOS,需要对SOS使用服务的使用模式进行分析。本节主要采用度数中心度(DC)指标来分析SOS2S基本结构特征,为后续工作提供指导。
首先需要对二部图中点的度数中心度和事件的度数中心度进行定义,前者指的是该节点所隶属事件数,后者指的是该事件拥有行动者数。而对于服务来说,其度数中心度能够描述服务参与的SOS数,反过来SOS度数中心度能够描述使用的服务数。从而对SOS及其使用服务模式进行反映。通过SOS度数中心度则能够知道推荐服务及SOS的构建。
具体来说,先分析SOS度数中心度数值的分布,确定大多数SOS度数中心度的范围,定义为[A,B],以100个SOS为例,如果有90个以上的SOS使用的服务数都比10小,那么我们可以将[A,B]设定为[1,10],形成构成SOS服务数的范围,对于新开发的SOS来说,其使用的服务数很可能在这个范围之内。
2.2 服务推荐实现
上文中提到,研究SOS服务使用模式至关重要,从SOS2S中能够得到服务-服务网络中也包含了服务使用模式,其中任意路径都是潜在的SOS,因此只需要以一定规则为基础对服务-服务网络进行遍历就能够实现新SOS的构建。度数中心度最大的一个或多个服务即平台服务也是许多SOS重要的构成单元。进行SOS2S的投影操作,这就能够得到相应的服务-服务网络,以此为基础,为SOS构建的用户实现服务推荐。在开发SOS的过程中,对服务使用场景进行划分:
(1)用户为选择任何服务;
(2)用户选择单个服务;
(3)用户选择两个或两个以上服务,选择服务个数记为n。不同服务使用场景提出不同的推荐方法,采用服务推荐算法来实现。
3 应用与工具开发的实例分析
武汉大学研发了一个软件服务注册管理平台S2R2,其有着语义互操作性特点,对互联网软件服务理论、方法和技术标准进行研究,以此为基础,对软件服务资源管理、基础设施平台和相关技术进行开发,能够实现软件服务注册的统一管理,能够实现已经注册的软件服务的管理,以此来方便用户的服务查找。
S2R2平台主要由服务注册子系统、管理子系统、语义查询子系统及本体注册管理子系统组成,主要涉及到的服务包括Web服务、API服务等。将LFG方法在mashup应用注册和服务查询等模块中应用,这就能够实现API服务的自动分类,同时支持API服务推荐[4]。用户在平台注册mashup应用之后,输入应用使用的API,此时S2R2平台后台服务会通过相关算法为其推荐可能类别的服务。
LFH方法不仅可以在API服务进行分类,但并不局限于API,只要存在SOS,就可以获取服务与软件之间的构成关系,从而利用LFH算法实现服务、软件大粒度服务的自动分配,同时能够实现服务的推荐。
4 结论
综上所述,本文提出了一种基于软件网络的服务自动分类和服务推荐方法,主要以LFH方法为主,这种方法能够在一般SOS与服务之间关系网络中应用,在实践中取得了良好效果,对于服务管理、推荐、组合等有着积极的意义,对于SOS开发有着重要的指导作用。
参考文献
[1]自动化技术、计算机技术[J].中国无线电电子学文摘,2011(05):167-246.
[2]潘伟丰,李兵,邵波,何鹏.基于软件网络的服务自动分类和推荐方法研究[J].计算机学报,2011(12):2355-2369.
[3]谢琪.基于协同过滤与Qo S的个性化Web服务推荐研究[D].重庆:重庆大学,2012.
分类推荐 篇6
微博作为新兴的一种社交网站, 正逐渐被人们接受和使用, 但它同样面临与其他SNS相同的问题。为了能更加合适地向用户推荐他们所需要的信息, 本文提出了一种基于文本分类的智能微博的推荐方法, 该方法基于KNN算法, 引入用户反馈机制对分类结果进行不断改进, 以获得高效的信息推荐功能。
1 文本分类
文本自动分类是指将给定的文本由计算机自动地将其归为预设的某个类别。主要有两种方法:基于统计的方法和基于机器学习的方法。本文主要描述后者。
基于机器学习的文本分类方法过程如图1所示。
基于机器学习的文本分类主要包括两个阶段:a) 训练。使用预先分好类的文本集合进行分词, 分析各个类别的特征, 提取出各类别的特征项集合, 形成分类器;b) 分类。将待分类文本进行分词, 提取特征项, 根据训练阶段得到的各类别特征项集合对其进行分类。基于机器学习的文本分类方法主要包括文本表示、特征选取、分类算法等组成部分。
1.1 文本表示
文本表示就是将人类可读懂的文本用计算机能够识别的结构化数据来表示, 从而方便计算机进行处理, 这里的结构化数据的形式依赖于分词的结果。常用的文本表示模型主要有布尔模型、向量空间模型和概率模型:
(1) 布尔模型 (Boolean Model) 。布尔模型的思想比较简单, 关键词出现则表示为1, 没有出现则表示为0, 在具体查询中通过逻辑运算符与 (AND) 、或 (OR) 、非 (NOT) 等进行查询判断。布尔模型的理论基础是集合理论和布尔运算, 被广泛用于信息检索和数据库的查询语句构建中。
(2) 向量空间模型 (Vector Space Model) 。向量空间模型是目前被广泛运用的文本表示模型。在向量空间模型中, 文本由一组特征词及特征词的权重来表示。这里表示特征词不是简单的出现与否, 而是通过计算得出的权重。建立一组n维规范化正交关键词组成的向量空间, 每个文本都可表示为该空间中的一个n维向量, 每个维度的向量值即为该维特征词在对应文本中的权重。因此文本的相似度问题就转变成向量之间的距离问题。两个向量之间的距离可用公式 (1) 计算得出。
其中, 待分类向量为q={Y1, Y2, …, Yn}, 目标向量为p={X1, X2, …, Xn}, Xi与Yi分别表示向量q和p中特征词i的权重值。
(3) 概率模型 (Probabilistic Model) 。概率模型主要运用于基于概率统计的分类方法中, 比如朴素贝叶斯分类法。概率模型以数学统计理论为基础, 通过计算词的概率值来估算文本的相关性概率。
其中, 向量空间模型是主流的方法, 准确度也较高。使用向量空间模型的关键是要对训练集合中的文本提取特征项, 选取出各个类别的特征项集合, 构建特征向量空间。
1.2 特征选取
中文文本分词后产生的词条数目通常很大, 需要筛选出最能反应类别特征的词作为向量空间模型的特征项, 否则向量空间模型的维度太大, 后续文本分类的开销将会很大, 影响系统效率。筛选特征项时, 主要方法是通过计算各特征词的权重, 综合比较分析选择最适合的词作为某一类别的特征项。
常用的特征权重计算方法有布尔权重、词频权重、TF-IDF、TFC及LTC等:
(1) 布尔权重。这是最简单的一种权重计算方法, 特征词在文本中出现则权重为1, 否则权重为0。该权重没有考虑词在文本中出现的次数, 区分能力较弱。
(2) 词频权重。直接以文本中词出现的频率, 也就是特征词在文本中出现的次数占文本总词数的比重作为该特征词的权重。
(3) TF-IDF (Term Frequency-Inverse Document Frequency) 权重。即词频—逆向文档频率权重。其中TF就是上面提到的词频权重, 是该特征词在文本中出现的频率。IDF即逆向文档频率, 其值是对文档频率的倒数取对数获得。其主要考量是语料库中出现某一特征词的文件和类别越多, 说明该词区别不同类别和不同文本的能力就越弱。
(4) TFC (TF-IDF Cosine Normalization) 权重。在TF-IDF基础上考虑了文本长度的影响, 其值是将TF-IDF进行归一化处理后得到的。
(5) LTC (Log TF-IDF) 权重。在TFC权重方法的基础上, 不直接利用词频, 而使用词频的对数, 减小词频差异对权重的影响。
1.3 常用文本分类算法
目前常用的分类算法有:朴素贝叶斯算法、支持向量机法、TFIDF算法、KNN分类法等。
(1) 朴素贝叶斯算法。该算法将文章看作独立的单词集合, 通过训练集, 由贝叶斯理论得到每个单词在不同类别的概率大小。假定有m个类C1, C2…Cm, 给定一个待定分类的文本X, 朴素贝叶斯算法将预测X在条件X下具有最高后验概率的类。即:待定分类的文本X属于类Ci, 当且仅当
其中P (Ci) 是独立于X的先验概率, 也就是训练集合中一个文本属于类别Ci的概率。P (X|Ci) 是已知一个文本属于类别Ci的情况下, 文本X的似然概率。
(2) 支持向量机。该算法通过寻找合适的核函数, 构造最大距离超平面, 将非线性样本空间映射到线性空间, 使不同类别分别位于超平面的两边, 而且距离最大。支持向量机算法对于解决两类分类问题具有很好的效果。
(3) TFIDF算法。TFIDF算法将每个单词作为文本的一个特征项, 将每篇文档看做由单词的TF-IDF因子组成的向量tvec= (wi1, wi2, …, win) , 其中wik为单词tk (k的取值范围为1~n, n为单词总数) 在文档中的TF-IDF权重。同时, 该算法将训练集中属于同一类的所有文档的向量加起来, 得到每个类cj (cj∈C, C为所有类别的集合) 的特征向量cvec= (wj1, wj2, …, wjn) 。进行分类预测时, 计算待分类文档的特征向量tvec和每个类的特征向量cvec之间的相似度距离, 相似度距离最大的类向量cvec所属的第j类就是待分类文档最可能属于的类别。相似度距离计算公式如公式 (4) 所示。
其中dist (tvec, cvec) 即是公式 (1) 。
(4) KNN算法。KNN算法是NN (Nearest Neighbor) 算法的改进, 主要思想是:将待分类文本看做一个特征向量, 然后在训练集中所有文本的特征向量中找到该向量的K个近邻。在这个K个近邻中属于某一分类的数量最多, 则认为待分类文本也属于这一分类。KNN的优势在于可以随时添加新的训练文本进行分类预测, 便于根据用户反馈不断进行调优。
为了选择合适的分类算法用于SNS的发布订阅框架中, 我们对上述几种分类算法进行了测试。因为朴素贝叶斯算法中的先验概率和后验概率都不方便得到, 因此仅测试了TFIDF算法、KNN算法和SVM算法。测试所用数据为从网易中分频道抓取的数据, 共12类, 每类1000篇文档。每类取800篇文档作为训练语料, 200篇作为测试语料。计算三种分类算法分类的准确度和对每篇待分类文档的平均处理时间。
可以看出, SVM算法的分类准确度最高, 但是平均处理时间也最长。TFIDF算法的处理速度最快, 但是分类准确度最低。KNN算法分类准确度和平均处理时间都适中, 而且考虑到KNN算法可以随时添加新的训练文本进行分类预测, 便于根据用户反馈不断进行调优。
2 智能微博推荐中基于用户反馈的文本分类算法
智能微博推荐中选用的文本分类算法是基于KNN算法的一种改进算法。KNN算法的基本流程如图2所示。具体步骤为:
(1) 根据特征项集合 (特征项数目记为N) 将训练集中的所有文档表示为N维向量。
(2) 新的文本到达后, 同样根据特征项集合表示为N维向量, 记为Xvec。
(3) 在训练集的所有文档向量中根据公式 (4) 寻找与新文本最相似的K个。其中K并没有固定取值, 可根据系统实际情况进行调整。一般在几百到几千之间。
(4) 在 (3) 中找到的K个向量中, 依次计算每个类别的权重。计算公式为公式 (5) 。
其中Xvec为待分类文档的特征向量, sim (Xvec, di) 为按照公式 (4) 计算的向量相似度, bool (di, Cj) 为一个bool函数, 当di属于类别Cj时, 函数值为1, 否则为0。
(5) 比较所有类的权重, 将待分类文本分到权重最大的那个类别中。
无论一个算法多么优秀, 都有可能产生误判的情况。而由网站运营方进行人工纠错成本太大, 结合SNS社区互动性强, 用户可参与度高的特点, 在传统KNN算法上加以改进, 将用户在实际使用中的反馈信息也考虑进分类算法中, 利用用户的人工智慧帮助系统不断提升分类准确度。具体步骤如下:
(1) 获取一个初始训练集合 (训练集合中文档的数量记为M) 。
(2) 根据特征项集合 (特征项数目记为N) 将当前训练集中的所有文档表示为N维向量。
(3) 新的文本到达后, 同样根据特征项集合表示为N维向量, 记为Xvec。
(4) 在训练集的所有文档向量中根据公式 (4) 寻找与新文本最相似的K个。
在 (3) 中找到的K个向量中, 按照公式 (5) 依次计算每个类别的权重。
(5) 比较所有类的权重, 将待分类文本分到权重最大的那个类别中, 就可以将该文本推荐给订阅了该类别的用户。
(6) 用户判断该文本分类是否准确, 如果准确则回到步骤 (3) 处理新的文本。否则, 由用户标注正确类别, 并反馈给系统。
(7) 系统将用户进行纠错后的文本加入到训练集合中, 得到新的训练集合 (此时训练集合中文档的数量为M+1) 作为当前训练集合。重复步骤 (2) 。
3 测试结果
接下来测试本文中提出的消息自动分类推荐机制的准确度和响应速度。测试数据集为谭松波的中文文本分类语料库和自主抓取的门户网站分频道数据。测试结果如图3所示。
图3中, 横坐标为测试规模, 纵坐标为结果准确度。可以看出, 引入用户反馈之后, 分类准确度比传统KNN算法提高了约20%, 达到80%以上, 基本达到实用水平。
4 结束语
【分类推荐】推荐阅读:
医疗废物的分类及分类要求08-29
初一数学应用题分类汇总(分类全)10-03
Discuz!如何开启使用HTML、主题分类、分类信息07-06
三年级应用题分类问题行程问题分类复习10-04
分类依据07-15
景观分类07-16
流量分类07-18
音乐分类07-20
分类处理10-14
模型分类10-15