关键词搜索

2024-10-25

关键词搜索(精选9篇)

关键词搜索 篇1

关键词搜索技术是互联网时代广告和推销的一种常用手段。目前百度和google搜索引擎都推出了关键词搜索业务, 成为许多公司进行网络广告营销和市场扩展的有力手段。而且如果这种业务扩展是跨语言、跨文化的活动, 则必然涉及到翻译。

1 文献研究

在关键词搜索技术对翻译的作用方面中国国内现在研究较少。2013年9月在中国知网上外国语言文化文献库中搜索“搜索”这个词汇, 相关研究论文也不过11篇, 其中还有一篇术语计算机专业的论文。葛艺 (2013) 年王勇对搜索引擎在翻译中的应用的研究, 搜索引擎的功能主要有:1) 搜索参考文献, 2) 查找对应的译文, 3) 检验译文的准确地道。但是这三个功能并不全面。王连江 (2013) 年解释了一下关键词搜索中的各种逻辑关系和技巧。他提出了关键词搜索的首要功能是进行翻译选词, 保证选词的正确性/恰切性。并举了一些非常生动的例子, 给予翻译者以很大启发。而朱明炬和谢少华 (2003) 搜索引擎的发明和发展历史, 并介绍说英文版的中国日报 (http://language.chinadaily.com.cn) 创建了一个汉英对照的词库, 可以查各种汉语新词。不过他们称使用搜索引擎来查词费时费力, 而且不一定能成功, 所以只能在没有办法的情况下使用。随着互联网的发展, 这种情况已经发生了变化。他们还提到了使用搜索结果来选词。从返回结果数, 网页所在国别等来甄别词语的正确性和地道与否。对于他们而言, 搜索引擎还对于查阅词汇的搭配非常有用。周杰 (2007) 在知网搜索“互联网翻译”或者“搜索引擎翻译”时, 相关研究论文不足10篇。朱宪超和朱德荣 (2007) 甚至不是翻译研究人员, 而是翻译公司的译员, 他们从每天的翻译实践出发, 举实例说明如何通过搜索引擎查词。赵会军 (2007) 通过举实例说明网络搜索引擎可以帮助查阅词汇, 还说明通过一般统计法和区别网站法以及区别语义法等方法来进行选词和甄别。秦美娟 (2011) 、张宝红 (2010) 、吴耀武 (2010) 等都是从举出实例出发, 说明如何使用网络搜索引擎来辅助翻译实践。而本文的研究将涉及到搜索引擎在新型翻译任务及其困境、搜索引擎对翻译实践和理论的相关影响出发, 扩展国内有关搜索引擎在翻译实践和理论研究中的作用等方面的视角, 从而促进国内翻译实践和理论的发展。

2 关键词搜索对翻译实践的影响

2.1 涉及到关键词搜索的新型翻译任务

在国际翻译领域内, 关键词已经成为翻译的一种特殊业务形式, 作为译者, 我曾遇到过以下两种方式。第一, 列出关键词列表, 要求译员将这些关键词进行本地化操作, 之所以称为“本地化操作”, 是因为客户的要求并非仅仅是将这些关键词进行翻译, 而是要将每个关键词都翻译成数个关键词, 包括primary keyword, secondary keyword 1, secondary keyword 2, secondary keyword 3, 并在百度搜索上查出这些译词的本地月度搜索量, 以期找出具有最大广告效应的关键词 (即“目标关键词”) , 可以让因特网用户经过搜索而轻易找到客户的网页。其目的不是为了将关键词列表翻译成目标语言, 而是在目标语言中形成一个新的具备最大网络广告效应的关键词列表。

第二, 另外列出文本中的关键词, 并将文本中的关键词都进行了突出显示, 要求译者将整个文本翻译成目标语言。当然, 不言而喻的是, 译者需要保留突出显示的词汇, 也就是说, 源语中被突出显示的词汇, 按照客户的要求, 应该在译语中进行保留。在这种情况下, 译者就会遇到各种翻译决策问题, 比如在译语中这些词汇是否要或者能够仍然保留词汇形式, 或者在译语中可否灵活处理这些突出显示的词汇, 将其分散成句子形式等等。

2.2 关键词翻译的常见困难

2.2.1 与第一种翻译任务相关的翻译困境

关键词列表的本地化操作, 首先涉及到的还是词汇本身的翻译。如果目标语言中所直接对应的词汇, 比如学校、专业、或考试的名称等等, 并不能产生足够大的流量, 那么, 就不能构成客户心目中的关键词。但是, 关键词的构成都是名词本身, 除了直接翻译之外, 没有任何其他可取的翻译或“本地化”方式, 因此就会形成一个无法翻译的困境, 客户的任务也就无法完成。

2.2.2 与第二种翻译任务相关的翻译困境

在实际翻译过程中, 英汉关键词翻译中常见的翻译困难如下:其一, 单复数造成的困难。英语单词的单复数形式在汉语中没有语法或词尾变化标记, 而在英语关键词的搜索中却经常出现单数和复数名词同时出现的情况。在这种情况下, 能否将英语单数和复数名词都翻译为同一个汉语词汇?那么少了的关键词该怎么办?如果将复数词汇加上汉语的语法标记“多个”“一个以上”等, 那么在汉语中这些表示复数的词汇“多个”等在通常情况下并不是关键词。这就造成了翻译上的两难困境。那么, 这个问题的解决, 就构成了关键词翻译中的一大课题。举个例子说, best hotel in Beijing, 和best hotels in Beijing, 如果都翻译成“北京最好的酒店”, 则关键词就会因而缺少一个。不仅如此, “北京最好的酒店”也因此在含义上有了模糊性, 究竟是北京最好的那家酒店, 还是可从中选择的北京的那些一流的酒店?再比如, “Our central New York hotels are the best hotels you can find in New York”, 翻译成“我们的纽约中央酒店是您能找到的纽约最好的酒店。”整个句子的翻译就有了歧义, 汉语读者很容易听成是单数的意思, 也就是说, 纽约中央酒店是一家酒店, 是纽约最好的酒店。这正好和英语句子含义相反。而上个例子“best hotels in Beijing”如果翻译成“多个北京最好的酒店”, 则不仅“多个”一般不会出现在中文的关键词中, 而且词序有点别扭, 正常的更流畅的语序应该是“北京多个最好的酒店”。不过即使如此, “最好”和“多个”在文意上的冲突, 让这个本应“流畅”的词汇仍然显得僵化而别扭。

其二, 有些客户将原文中的关键词也进行了加亮显示, 要求译员将关键词翻译出来;译员如果遵守“忠实”的原则, 则须在目标语文章中尽可能保持关键词的完整。这样做的后果, 就是关键词本身带上了类似“专有名词”的特征, 而在很大程度上失去了灵活组词和造句的功能。比如, top central New York hotels, 其中top不是关键词的一部分, 而是一个独立的形容词;而central New York hotels, 则本身从一个灵活组词的词汇, 变成了一个在很大程度上禁止灵活组词的词汇, 那么整个词汇翻译过来就会变成“一流的纽约中央位置的酒店”, 这个词汇的可读性本身会有点问题, 因为一般而言是“地处纽约中央位置的一流酒店”。于是, 就会出现僵化的目标语句子。

其三, 还有一个特征是词汇的重复。比如, Our central New York hotels are the best hotels you can find in New York, 翻译成“我们的纽约中央酒店是您能找到的纽约最好的酒店。”也就是说, “our central New York hotels”在源语中被突出显示, 属于客户所强调的关键词, 必须在目标语中重现。那么, 词汇的重复就成了必然。虽然在汉语中词汇的重复不违背语法, 但是词汇重复所形成的强调效果却会影响到汉语句子的可读性和流畅性。比如, 以上句子如果按照流畅性原则进行翻译, 则可能会译成:“我们为您推荐的处于纽约中央位置的各家酒店, 是您所能找到的纽约最好的。”

2.3 关键词搜索技术对关键词翻译实践的启发

关键词翻译中, 关键词的搜索量是一个决定性的因素。要将关键词在google或百度等搜索引擎上进行关键词搜索量的查询, 以此来确定所翻译成的关键词是否在目标语中有足够的广告效应, 这对客户而言意义重大。

关键词搜索技术的相关参数会影响到关键词翻译中的选词问题。首先, 单复数在英语文化中非常重要, 并且是关键词设置中的一个重要变化参数, 如上述的best hotel in Beijing和best hotels in Beijing的差别。如果是为英文站点做优化的话, 必须记住关键词的单复数形式, 因为搜索引擎对单复数形式是区别对待的。某些关键词的单复数形式, 每天搜索的次数相差10倍之多。同时, 某一词的单复数形式的搜索结果也大相径庭。 (1) 因此, 根据对全球用户在google上使用的关键词分析, 在关键词的汉译英中, 如果对中国的产品实行单一英语命名法, 就不符合网络推销的原则。在单复数方面, 如果是两件以上的东西或连体, 就应使用复数, 如chairs, cabinets等——事实说明, 复数beds的搜索率远高于bed (2) 。

其次, 关键词优化技术中, 有一条是不能忽略关键词的同义词和近义词。这就要求译员根据搜索量的大小来扩展关键词的同义词和近义词并从中进行选择。比如, 一物多译的情况下, 如桌子可以翻译成desk也可以翻译成table, 但是, 根据搜索分析结果, 更多人使用desk进行搜索, 因此关键词“桌子”如果要翻译成英语, 就应选择desk。再如, 要了解英语受众的思维习惯, 比如衣柜是armoire, chest, 书柜是bookcase, 碗柜是dressers, sideboard, cupboards, 而食品柜是buffet。不能将所有的柜子都翻译为cabinet。英语受众会比较注重用途, 他们会在google上广泛采用bedroom furniture和dining furniture进行搜索。他们也会比较注重材质, 比如pine, oak, walnut等。选词要大众化, 红木有人会翻译为rosewood, 但google中发现绝大多数人用mahogany进行搜索。有些词可以具体化, 比如古典, 可以具体化为19thcentury, antique country, vintage, old, 而非只有classical。 (3)

其三, 关键词优化技术, 要求使用表明客户身份的词汇, 比如sell, wholesale, for sale, auction, imported, stores, buy等。其八, 要记住英语受众可能会很喜欢的形容词, 穿插到各产品中去, 比如exotic, unusual, inspired, unique等等。这些关于汉译英关键词的翻译技巧, 很好地阐释了以搜索量为检验标准的翻译准则。

3 关键词搜索技术对翻译理论的影响

3.1 关键词搜索技术对传统翻译标准的超越

在传统翻译理论中, “忠实性”是翻译最基本的要求。但是, 在关键词的翻译或本地化过程中, “忠实性”似乎已经变成了一个相对而言不相关的因素。这一点可以从关键词列表的本地化任务中可以看出来。客户列出在源语中取得了最大搜索量的众多关键词, 要求译者生成新的、能在目标语中产生最大搜索量的关键词列表, 其中涉及到的步骤包括词汇翻译、所选目标语词汇的google或百度的月均本地搜索量、根据搜索结果而更换或保留目标语词汇、 (如果更换) 选择新的目标语词汇、查询所选目标语词汇的google或百度搜索量、根据搜索结果而更换或保留目标语词汇等。这个过程循环反复, 直到最合适的目标语关键词出现。根据笔者的关键词翻译实践, 源语中产生了最大搜索量的关键词, 如果直接翻译 (因为关键词绝大多数是名词, 所以直接翻译无法避免) , 有很多在目标语中根本就不可能产生任何的搜索量。这个时候, 根据忠实性原则进行的翻译, 对客户根本毫无意义。

“流畅性”是另一个基本翻译标准。关键词优化技术中, 有一个是错位关键词, 即和约定俗成的词汇语序不一样的关键词。比如, 当每个人都在使用“搜索引擎优化”这个关键词的时候, 我们也可以使用“引擎优化搜索”或者“优化搜索引擎”等读起来不一定通顺的关键词。由于网络流量成了关键词翻译或者说本地化的标准, 只要能产生大量流量, 则翻译过程中目标词汇的“流畅性”似乎也已经变成了一个不太相关的因素。

以“最大搜索量”为目标的关键词翻译, 超越了传统翻译理论中对“忠实”和“流畅”的要求。由于网络营销工具的介入和影响, 翻译, 有时候, 必须将受众放到第一位, 以求最大化接触和影响受众。

3.2 关键词搜索技术对翻译任务设置和说明的影响

虽然单复数在英语文化中非常重要, 并且是关键词设置中的一个重要变化参数, 但是到了中文环境中, 单复数的变化已变成不相关的参数 (irrelevant) 。也就是说, 两个关键词已经变成了一个关键词, 因为汉语中“北京最好的酒店”这个词已经涵盖了单复数的含义。那么, 在翻译任务中, 如果将关键词就如同论文的关键词一样地单独列出, 并且要求译员翻译, 则会导致上文所提到的关键词翻译的困难。

在这种情况下, 单复数所造成的关键词翻译的困难, 就不能用任何传统的翻译策略或方法进行解决, 包括“忠实性”原则等。这时, 就需要译员有更开阔的视角, 从关键词搜索技术的角度出发, 结合传统的翻译技能, 来对原文资料有所取舍或者有意调整。也就是说, 在一个机制健全、运转高效的国际翻译公司中, 译员可以对客户进行建议, 将单复数所区分的关键词加以合并, 也就是说, 可以将关键词的数目减少, 或者再寻找一个同义词或近义词、或者关键词的拆分或组合、或者连字符等所形成的关键词。这就赋予了译员更大的能动性和主动性, 使其参与到翻译任务的设计中。

这一点, 也可以从上文所提到的第二个常见翻译困难来说明:即客户将原文中的关键词都进行了加亮显示, 并且要求译员将关键词加以翻译, 以便他们的潜在客户可以通过搜索而迅速找到他们, 从而尽可能地产生最大流量。根据传统的翻译标准, 如上文所论述, 译员会自觉地认为将加亮显示的关键词转化成专有名词进行翻译才符合“信”的翻译标准, 或者误认为将加亮显示的关键词一字一句地进行翻译, 并尽可能在目标语的造句行文中加以保留, 才能帮助客户实现其在网上宣传自己的目的 (promotion) 。但是, 根据关键词搜索技能, 关键词的拆分和组合, 也是很重要的一个手段。有时, 尽管产品就是一个词汇, 但是用两个关键词也能搜索到。比如, 当分别使用“笔记本”和“电脑”进行搜索时, 都能找到与“笔记本电脑”有关的页面。因此, 将关键词进行拆分和组合, 也是正确的方式。也就是说, 即使客户将原文中的关键词进行加亮显示, 并要求译员尽可能忠实原文, 译员也可以将加亮显示的关键词进行拆分和组合, 因为这样才更符合客户优化网站、加大流量的目的。这样, 传统的“意译”和“直译”之分就没了意义。比如, 上文所说的“central New York hotels”, 如果翻译成“纽约中央酒店”, 或者“中央纽约酒店”等, 则意义不明确, 因为“纽约中央酒店”很可能被理解一家酒店, 从而复数变成了单数, 而一般词汇变成了专门词汇;而“中央纽约酒店”不是一个符合汉语语法的词汇。这样的意义和直译, 不仅不符合传统的“信”的翻译标准, 而且行文僵化, 也不符合“达”的标准。但是, 这些词汇并不一定就不是合适的搜索关键词;因为关键词搜索技术中有一项是“错位关键词”。所谓“错位关键词”, 是指和约定俗成的词语组合不一样的关键词, 比如当大家说“搜索引擎优化”时, 可以将这个关键词进行错位组合, 换成类似“优化引擎搜索”或者“引擎优化搜索”或者“优化搜索引擎”等。这样, 关键词搜索技术就使得涉及到关键词的文章翻译的标准发生了严重的紊乱。究竟什么才是好的译文?不再是“信、达、雅”, 也不再是“功能对等”, 而是最大化地吸引网络流量, 进行网络营销。

4 结束语

涉及到关键词搜索优化的翻译任务形成了一种非常特殊的翻译形式, 其目的不是为了将关键词列表翻译成目标语言, 而是在目标语言中形成一个新的具备最大网络广告效应的关键词列表。

摘要:在全球化时代的跨语言网络营销过程中, 关键词搜索成为了营销的一个重要手段;跨语言关键词搜索的盛行, 使得关键词翻译成为了一种新型的翻译任务。作为推广宣传类材料翻译中最新出现的一个现象, 关键词翻译对翻译行业不仅提出了新的任务类型要求, 还形成了语言转换过程中的某些困境。该文对涉及到关键词搜索的推广宣传类材料的翻译特征、内容和困难, 以及对翻译技巧和策略的启示, 进行了仔细的介绍和分析。在此基础之上, 关键词搜索技术对传统的翻译标准也提出了新的挑战, 不仅超越了“信, 达, 雅”的范畴, 更超越了功能对等的范畴, 赋予了译者更大的能动性和更重要的角色。

关键词:关键词搜索技术,对翻译行业的影响,对传统翻译标准的超越

参考文献

[1]葛艺.搜索引擎对英汉成语翻译的审校作用[J].鸡西大学学报, 2013 (5) :81-83.

[2]王连江.论网络在翻译选词中的应用[J].重庆三峡学院学报, 2013 (2) :104-107.

[3]朱明炬, 谢少华.充分利用搜索引擎, 准确地道英译词语[J].上海科技翻译, 2003 (1) :60-63.

[4]周杰.互联网搜索引擎辅助翻译研究[J].外语电化教学, 2007 (10) :63-66.

[5]朱宪超, 朱德荣.搜索引擎网络查词技巧[J].中国科技翻译, 2007 (8) :35-37.

[6]赵会军.商务翻译中基于网络搜索的词语筛选[J].上海翻译, 2007 (2) :32-34.

[7]董燕举, 白宇, 蔡东风.基于Web的中英术语翻译获取方法研究[J].沈阳航空工业学院学报, 2010 (4) :56-60.

[8]秦美娟, 杨文坤.Google搜索引擎在英语教学与研究中的应用[J].深圳信息职业技术学院学报, 2011 (6) :54-57.

[9]张宝红, 张斌.网络搜索引擎与意译专有名词的汉译日[J].科教文汇 (上旬刊) , 2010 (6)

[10]吴耀武.搜索引擎在翻译实践和翻译研究中的应用[J].河南科技学院学报, 2010 (5) :49-53.

关键词搜索 篇2

关键词设置是账户设置的重要部分,在一定程度上决定了搜索营销的成败,关键词设置包括关键词选择、关键词匹配、关键词出价、关键词着陆页设计和关键词否定等。下面以笔者账户为例谈谈具体操作步骤。

一、策略部分

确定关键词之前先明确搜索营销的具体情况,公司对PPC广告的预期是既要有一定的点击量,又要形成一定的转化。推广费用方面,每天的费用上限为300元。

因此,我需要用有限的300块钱换来一定的流量和销售转化。流量方面,网盟投放是主要来源;转化方面,搜索竞价是主要渠道。二者的费用比例为6:4 或7:3,这里之所以要设定一个变化区间,是为了缓冲由于流量波动带来的影响,最大化利用好推广费用。下一步是确定核心关键词,我主要考虑以下两大方面因素:

搜索意向

搜索推广的关键词是用户需要的直接反映,只有提交反映网友强烈购买意向的关键词才能提高转化率。

在反映网友意向的关键词类别中,我选择了价格类关键词作为搜索推广的主要关键词,基于如下因素:

1.根据百度数据研究中心数据,用户购买时商品时重点关注的内容包括商品信息(商品质量、价格和优惠),网站功能信息(购买过程中遇到的付款、订单处理),网站服务信息(物流快递和自提发货)等。

2.艾瑞调研数据显示,58.1%的中国用户认为价格因素是其网购的首要原因。

3.网站整体上除了商品价格和质量之外,物流配送、网站功能、客户服务等方面还不具备明显竞争力。

4.价格类关键词不会由于流量规模小而限制推广进行。

市场情况

1.产品价格。在手机网购体验中,绝大部分用户手机选择价格区间在1000-之间。在这个价格区间的用户对价格的敏感度更大。

2.产品类别。我统计了淘宝和量子的销售数据、京东手机频道一周销售排行榜和页面机型排序、中关村的手机排行榜数据,得出以下结论:诺基亚 E63/5233/5230等老机型,C5/C6/N8等新机型以及2730/N1280等低端机型销售势头良好,Android阵营的摩托ME525、 HTC的渴望系列、三星 GT-S5830、索爱MT15i等手机也大受欢迎,苹果iPhone4更是炙手可热的产品。(由于我们只卖行货手机,所以忽略水货)。在众多热卖的手机型号中,诺基亚的塞班系统的产品正在走下坡路,流量必然会有所下降;Android手机的开发性和易用性正逐步被广大用户认可,流量趋势必然会有所上升,

这些流量的波动会影响以后推广的具体设置和策略。

3.手机颜色需求是另一个卖点,女性用户对白色外壳比较关注。

基于搜索意向和市场情况,核心关键词思路已经明确:从价格的角度出发,提交有关价格和促销优惠方面的关键词,这些关键词要围绕热门手机产品,也要结合业务利润需要。

二、执行部分

1. 确定核心关键词

基于这两份名单(一份是热门手机产品、一份是采购提供的高毛利手机产品),确定了推广机型以及关键词方向。

2. 关键词扩展

用到的工具有baidu关键词工具、谷歌keyword tool、搜索联想词、搜索相关推荐、竞争对手产品页面meta等。外还有一些自制的关键词小工具,用来扩展长尾词。

3. 关键词去重

扩展后的关键词需要去重,用到的工具有两个:一个是Excel中的关键词去重选项,另一个是百度推广助手和谷歌Adwords编辑器的去重功能。

4. 关键词分组

在关键词扩展和去重之后,就已经形成了一系列的核心关键词。然后围绕每个核心关键词再进行扩展和去重操作。以下是我一个广告组的部分关键词。

5. 关键词匹配

匹配是关键词设置非常重要的环节。精确匹配的关键词大概是1800多个,词组匹配的关键词将近200个。这样的关键词匹配配比首先可以保证流量质量,其次可以利用关键词插入功能提高通顺度,而且不会因为精确匹配的限制影响目标预算内的流量。

6. 关键词出价

出价是另一个重要设置。通常我会先设置一个非常低的价格,比如上图百度账户中,我先设置0.1元的广告组出价,等过几天账户质量度稳定之后再统一调整为最低出价。由于账户关键词规模大,预算内的流量目标完全可以用最低CPC实现。等测试一段时间,再结合转化和流量调整出价。

7. 关键词URL

在关键词着陆页设计中,大部分的关键词设计的是搜索产品列表页,类似于促销类关键词如果公司有活动会设置到促销活动页面。

8. 否定关键词

添加否定关键词否定关键词旨在提高用户搜索请求和账户推广吻合度,用在广泛匹配和词组匹配中。否定关键词包括:水货类、投诉类、仿货和山寨类、二手类、其他机型排除类(比如对词组匹配的三星5230手机关键词,需要否定掉诺基亚这个关键词)、手机资源类、手机应用类等。

9. 关键词流量估算

关键词设置的最后一步就是大体估算流量。

关键词搜索 篇3

[关键词]初始兴趣混淆理论;网络商标侵权;关键词搜索;清晰地标记

[中图分类号]D923.43[文献标识码]A[DOI]10.3969/j.issn.1009-3729.2015.06.014

随着网络技术的发展,在线购物产业在国内外都呈现爆炸式增长,随之而来的商标权纠纷也呈现出新的特点。初始兴趣混淆理论是一种在售前就对侵权行为加以规制的理论,其在欧美的应用表明,该理论对于惩治网络商标侵权是卓有成效的。我国《商标法》采纳了初始兴趣混淆理论,部分法院也运用该理论对相关案件做出了判决。研究初始兴趣混淆理论对于规范我国的网络商标侵权有着重要的意义。2015年7月,加州旧金山美国第九巡回上诉法院在审理“Multi Time Machine,Inc.v.Amazon.com,Inc.;Amazon Services,LLC”案(下文简称为“MTM v.Amazon案”)时,以初始兴趣混淆理论为依据,判决亚马逊网上商城提供虚假搜索结果的行为违反了商标保护法的相关规定(Multi Time Machine,Inc.v,Amazon.com,Inc.;Amazon Services,LLC,792 F.3d 1070),推翻了美国加州中心地区地方法院认为亚马逊不侵权的决定,从而发展了初始兴趣混淆理论。该案提醒各大在线零售商在提供相关搜索结果时,可能会对他人商标权构成侵权。对我国来说,初始兴趣混淆理论在司法实践中虽有所应用但并不成熟,因此对“MTM v.Amazon案”进行评析,将有助于我国更好利用初始兴趣混淆理论解决网络商标侵权纠纷。

一、“MTM v.Amazon案”的基本案情Multi Time Machine,Inc.(简称为MTM)是一家成立于1992年、专门从事手表制造和销售的公司,其名下有MTM、MTM Special Ops、 MTM Military Ops等不同的手表品牌。MTM公司的产品仅通过自己的分销商和零售商直接销售给客户,未授权亚马逊销售其产品。同时,MTM公司也与各个零售商签订协议,要求零售商仅在自己的门店内销售产品,不得在其他地方销售产品。

在亚马逊提供的各类产品中,包含有MTM公司竞争者制造的手表。当亚马逊的用户搜索“MTM Special Ops”时,在网页的搜索框之下会出现“MTM Special Ops”的短语,在该短语之下紧接着是“Related Searches:MTM Special Ops”的文字,在三次出现“MTM Special Ops”的商标之后,网页显示了搜索结果,其中包括MTM公司竞争者的产品,并附有竞争者的公司名称。消费者不能通过搜索结果直接购得产品,只能点击一个特定的搜索结果进入“产品信息”的界面才能进行购买。一旦进入“产品信息”界面,消费者就会得知该特定产品的品牌名称,如“Luminox”。但是,在网页顶部的搜索框内,仍然会显示“MTM Special Ops”,亚马逊的任何网页界面中均没有显示“亚马逊不销售MTM公司的产品”,而类似亚马逊公司的Buy.com、Overstock.com都会清晰地在网页中显示没有任何搜索结果与“MTM Special Ops”相匹配。

在亚马逊的搜索结果中,之所以会出现MTM公司竞争者的产品信息,是因为亚马逊使用了一种基于消费行为的搜索技术(Behavior Based Search technology,简称为BBS技术),此技术并不是预先设定好的程序,而是基于消费者的操作行为而进行的相应分析。当有足够多的消费者搜索了关键词X又查找购买了产品Y时,虽然X、Y可能并不明显相似,但是搜索X的消费者将会收到含有Y的搜索结果。因为产品的相关性(关键词搜索)和推荐产品(BBS技术)混同在了一起,所以没办法区分某个特定的搜索结果到底是基于BBS技术还是基于传统的关键词匹配搜索。

基于以上案情,MTM公司认为亚马逊有关MTM产品的搜索结果造成了MTM公司产品与其竞争对手Luminox公司产品的混淆,或者使得消费者认为MTM公司与Luminox公司存在一定的联系,构成了初始兴趣混淆。MTM公司的产品因此而流失了一定的销量,MTM公司于是诉亚马逊违反了《兰哈姆法》,侵犯了其商标权。美国加州中心地区地方法院法官 DEAN审理该案时不认为亚马逊侵权,于是宣布不受理该案(Multi Time Machine,Inc.v.Amazon.com,Inc.;Amazon Services,LLC,926 F.Supp.2d 1130)。之后,MTM上诉至第九巡回上诉法院,第九巡回上诉法院认为亚马逊存在故意制造混淆的嫌疑。

郑 州 轻 工 业 学 院 学 报 ( 社 会 科 学 版 )2015年第6期金玉利:初始兴趣混淆理论在电商关键词搜索侵权判定中的运用——“Multi Time Machine,Inc.v.Amazon.com,Inc.;Amazon Services,LLC”案评析二、第九巡回上诉法院的审判情况

第九巡回上诉法院认为本案的争议焦点在于:在线零售商(亚马逊)对MTM公司竞争者产品的陈列方式是否有造成实质混淆的可能性。第九巡回法院判决其构成了实质性混淆,但是也有一位法官在判决书中提出了相反意见。

1.上诉法院的意见

第九巡回法院基于上述焦点做出了不同于地区法院的分析和判断。根据《兰哈姆法》的规定,商业中使用涉案标志并造成了产品来源的混淆,就构成商标侵权,混淆的其中一个类别就是初始兴趣混淆。初始兴趣混淆是指消费者在购买产品之前对产品的来源产生混淆,是一种对产品最初产生购买兴趣时的混淆,但在实际购买时对产品的来源并没有产生混淆。

那么亚马逊的行为是否有构成混淆的可能性呢?上诉法院在审理该案时考虑了以往判例(Network Automation,Inc.v.Advanced sys.Concepts,Inc.,638 F.3d 1137,1145;AMF Inc.v.Sleekcraft Boats,899 F.2d 341,348-49)中形成的8个因素,俗称Sleekcraft因素,即标志的显著性强度、商品的相似性、标志的相似性、实际混淆的证据、营销渠道、消费者的注意程度、被告的意图和扩张的可能性。在“Network Automation,Inc.v.Advarced Sys.Concepts,Inc.”案中,法院进行了进一步阐述:在网络商业环境下,消费者会对标记或未标记的广告标志产生混淆,清晰地标记将消除混淆的可能性(Network Automation.Inc.v.Advanced Sys.Concepts,Inc.,638 F.3d 1137,1145)。具体到本案,亚马逊对搜索结果标记有“MTM Special Ops”,并在之下显示出竞争者的产品,而其他在线零售商都清晰地在网页中显示没有任何搜索结果与“MTM Special Ops”相匹配。清晰地标记将消除混淆的可能性,亚马逊的页面搜索结果却没有任何信息提示说亚马逊不提供MTM产品,属于没有“清晰地标记”,这增加了消费者混淆的可能性。

上诉法院进而结合本案对Sleekcraft因素作了分析。由于Sleekcraft因素具体到个案,其每个因素的轻重程度不同,具体到本案来说,其相关的因素有标志的显著性强度、商品的相似性、被告的意图、实际混淆的证据、消费者的注意程度5个要素。一是MTM产品的商标具有显著性,且显著性程度较强。二是亚马逊的网站售卖手表,MTM生产、销售的产品也是手表,商品有相似性。这意味着当亚马逊的消费者搜索“MTM Special Ops”时,会被导航到列有Luminox等生产的手表的界面,即使后来他们对产品的来源没有产生混淆,但是在购买之前确实对他们造成了混淆。三是亚马逊是否存在制造混淆的意图,法官交由陪审团决定。四是实际混淆的证据。MTM公司提交了一位消费者造成了混淆的证词,但地区法院认为该证据不充分,且含有传闻证据的成分,因此不认可、不采信。在这点上,上诉法院认为这对亚马逊比较有利,但是这并不表示不存在实际混淆的可能性。实际中,确实存在一部分用户在同一天最初搜索手表“MTM Special Ops”,最后却购买了竞争者的手表。由此,陪审团发现一些混淆的证据。五是消费者的注意程度。当商品过于贵重时,消费者的注意程度会提高,但是依然存在混淆的可能。MTM的手表价位一般在200~2000美元,因此消费者并不存在较高的注意度。从亚马逊提交的一部分证据中,可以看出在搜索“MTM Special Ops”的当天Luminox的销量比较高,这可以被解释为:刺激一些意图购买军式手表的消费者,花较少的比较产品的时间,就购买了Luminox的手表,从而对MTM公司的产品造成了一定的影响。综上,法院认为,亚马逊对网站搜索结果的陈列方式增加了消费者混淆的可能性。同时,亚马逊对MTM公司商标的使用,属于商业性使用。但是上诉法院并没有通过法律最终确证构成初始兴趣混淆的可能性,而是认为要通过具体的事实来判定其是否构成混淆。不过,上诉法院的最终判决还是推翻了地区法院的判决。

2.少数派法官的意见

对于第九巡回上诉法院的判决,该法院的Silverman法官则持反对意见,认为如果仅仅因为没有清晰地标注不出售某种商品,就构成商标权侵权是不合理的。为证明自己的意见,该法官举了一个例子:顾客在餐厅点单时要可口可乐,而服务员告诉他只有百事可乐,依据此案判决是否就可认定餐厅的服务员构成了对可口可乐的侵权呢?这显然是荒唐的。因此,该法官提出反对意见,主张维持原判。虽然Silverman法官持反对意见,但其所举的例子与案件中的网络界面有所不同。在网络界面中,文字的排列方式造成的混淆与口语表达交际造成的混淆,其性质是不同的。Silverman法官认为:依据未明确表示,就判定构成商标权侵权是不合理的,但Silverman忽视了网站界面文字表述和排布的特殊性,本案的焦点应当是网站对信息的陈列方式会不会构成混淆,而未明确标记是证明陈列方式构成混淆的一大因素,增加了混淆的可能性,因而极可能构成混淆。因此,笔者认为,Silverman法官的反对意见并不合理。

三、案件启示

美国第九巡回上诉法院在审理“MTM v.Amazon案”时,将“未清晰地标记”“网站的陈列方式”等也作为混淆的考量因素,超越了此前的Sleekcraft因素,对初始兴趣混淆理论来说,是一定程度上的扩张。目前,在中国的司法实践中,虽存在网站作为被告方被诉商标侵权的情况,但是真正与“MTM v.Amazon案”实质相似的案件还未出现。随着电子商务的飞速发展,第三方网站对商标权人的侵害存在潜在的可能性,借鉴美国初始兴趣混淆理论解决此类问题,不失为一种有效的预防手段。

1.初始兴趣混淆理论的新发展

在“MTM v.Amazon案”中,亚马逊最终被判败诉。这种最初兴趣混淆的混淆者来自于第三方(在线零售商),而不是直接提供商品的商家(厂商);同时未明确标注相关信息导致混淆的第三方网站行为构成商标权侵权。这与此前的案例是不相同的,是初始兴趣混淆理论的一种新情况。

在传统的商品交易中,商品信息主要由厂商提供,由第三方(例如超市等)提供商品信息的较少。随着网络电商的发展,厂商需经第三方(电商)的平台发布其商品信息,此时便由第三方实际处理商品信息。如果第三方随意处置厂商的商品信息,不仅会对提供商品的商家、消费者造成损害,还会出现损害其他商家的情况。例如,在“MTM v.Amazon案”中,第三方电商平台亚马逊就损害了MTM公司的商标权。同样,法国也有涉及第三方的商标侵权案,如“Google France案”是欧洲涉及关键词广告商标侵权纠纷的重要案例。当网络用户在被告 Google页面的搜索框里输入关键词“Louis Vuitton”后,结果页面右侧显示出销售仿制原告路易威登公司商品的网站链接。[2]值得注意的是,虽然都是第三方商标侵权案件,但是“MTM v.Amazon案”的第三方是购物网站,相当于第三方的商家;而“Google France案”中的第三方是网络搜索平台,其本身并不从事销售商品服务,最多作为广告宣传。

如前文所述,美国此前也出现过在网络环境中的商标侵权的纠纷[6],法院明确表示清晰地标记将消除混淆的可能性,但该判定并不等同于未清晰地标记便增加混淆的可能性,即没有对“未标记”或“未清晰地标记”的情况作出不利的阐释。在本案出现之前,“法无规定即自由”,不能基于“未清晰地标记”对未清晰标记方作出不利解释。

而现在,“MTM v.Amazon案”确立了新的判例,亚马逊在网页上未清晰标注其不出售MTM的产品,法院基于此认为这增加了混淆的可能性,即法院确立了因网站未清晰标记而增加了混淆的可能性从而极易构成混淆的判例,这种新情况无疑使“混淆”的考虑因素增加了,是对初始兴趣混淆理论适用范围的扩张。这种新情况在一定程度上提高了对在线零售商的要求:所提供的商品信息须是准确、清晰的标注信息,不得造成消费者混淆;若因未清晰标注导致第三方的商标权被侵权,应当承担相应的责任。

2.我国相似司法案例的处理

目前,我国学界对引入初始兴趣混淆理论做了诸多探讨。[3]在我国司法实践中,也有案例涉及初始兴趣混淆理论。随着网络购物的发展,诸多类似问题的产生需要初始兴趣混淆理论对商标权网络侵权加以规制,尤其是“MTM v.Amazon案”中出现的第三方(在线零售商)的侵权混淆性如何确定,值得我们思索。在传统的商标侵权案件中,商标的侵权行为一般涉及相似产品制造者或服务提供者,很难想象两个经营不同业务的企业会产生商标权侵权纠纷。其实,在我国的相关案件中,也有网络公司作为第三人参与诉讼的。例如,在“北京沃力森信息技术有限公司诉八百客(北京)软件技术有限公司案”中,在百度网站上以“XTOOL”为关键词进行搜索时,第一项搜索结果系标题为“八百客国内最专业的xtool”的链接,该链接指向八百客公司的网站。由于“XTOOL”是沃力森公司的注册商标,因此,沃力森以八百客侵犯商标权为由进行了诉讼。法院在审理时运用了初始兴趣混淆理论,判决八百客公司侵权,而北京百度网讯科技有限公司作为第三人参与了诉讼。法院判决百度公司在本案中已尽合理的注意、审核和提醒义务,并没侵害沃尔森公司的注册商标专用权[(2009)海民初字第26988号;(2010)中民终字第2779号]。该案中百度的角色与“MTM v.Amazon案”中的亚马逊有一定的相似性,但又有所不同。百度与亚马逊虽都作为第三方平台提供商品信息,但百度提供虚假信息是基于沃力森公司的原因,其本身尽到了注意义务,不存在共同侵权的情况;而亚马逊并没有MTM产品的销售许可,而是自身提供虚假信息。因此,两个案件有一定的区别。

针对“北京沃力森信息技术有限公司诉八百客(北京)软件技术有限公司案”,有学者指出,如果百度公司自身提供了虚假的广告,按照我国广告法,工商部门可以对其进行罚款、吊销营业执照等处罚。但广告法保护的对象是消费者,而不是商标权人,这就意味着,广告不得含有虚假内容是广告服务商和广告主对消费者的一项义务,而不是针对其他市场竞争主体(包括商标权人)的义务。也就是说,按照广告法,如果百度公司提供的广告内容中包含有虚假信息,应当承担相应的行政责任,但不构成商标权侵权行为。[4]如果是在线零售商提供虚假信息(并不是广告),那就需要通过初始兴趣混淆的商标法理论加以规制,认定其为商标权侵权行为比较合理。

3.初始兴趣混淆理论新发展对我国的借鉴意义

对于中国来说,目前还没有出现类似的案件。但是淘宝、京东、亚马逊等在线零售商正以锐不可当的形势发展,日后,必定会产生新型的网络商标权侵权纠纷。为应对此情况,研究初始兴趣混淆理论对中国的商标法司法实践大有裨益。在判断是否构成混淆的可能性时,美国的Sleekcraft因素,以及未清晰标识则增加混淆可能性的考量因素,值得我国借鉴。

(1)我国《商标法》的混淆理论适用范围较窄,应扩展至第三方

目前,2013年我国修订的《中华人民共和国商标法》(简称为《商标法》)引入了混淆要件。《商标法》第57条第2款规定:未经商标注册人的许可,在同一种商品上使用与其注册商标近似的商标,或者在类似商品上使用与其注册商标相同或者近似的商标,容易导致混淆。从法条上来看,混淆要件还仅仅局限于“同一种商品上使用与其注册商标近似的商标,或者在类似商品上使用与其注册商标相同或者近似的商标”。也就是说,如果商标不存在相同或近似的情况,则不会再考虑后一“容易导致混淆的”要件。这就把初始兴趣混淆的一部分利益(本案中出现的情况)排除在外。例如,亚马逊作为在线零售商,其与MTM的商标显然不相似,且两者的经营范围也存在很大差异,因亚马逊的不当行为(由未清晰标注而产生混淆的陈列方式),导致MTM与其竞争对手的产品产生了混淆。依照中国的法律,显然是无法保护MTM公司的利益的。

依据目前我国的《商标法》,MTM与其竞争者商标侵权关系受到混淆理论的规制,由亚马逊引起的混淆却无法适用混淆理论。同样,之前学者提出的通过《广告法》来规制也行不通。[4]因为,亚马逊的这种陈列方式,根本就不是广告,仅仅是一种对产品的罗列,无法受到《广告法》的规制,因而不适用《广告法》。如果出现第三方平台提供信息致使其他商家商标权受损时,极有可能会出现该商家权利无法保障的情况。第三方作为实际操作商品信息的平台,法律法规需要对其相关行为加以规制。我国《商标法》的保护不应仅仅局限于两个厂商之间,应当将混淆理论的适用范围拓展至第三方。

(2)第三方侵权难以定性,应引入新参考要件

如上所述,针对“MTM v.Amazon案”这种情况,目前中国的法律还无法规制。因此,需要尽快引入初始兴趣混淆理论,尤其是其判例中的新发展,规制在线零售商,以适应网络购物的飞速发展,保障商标权人的合法权益。

在将第三方纳入混淆理论的框架体系之后,对于如何对第三方进行混淆性的考量,我们可以借鉴美国判例中形成的对标记的分析参考,将对标记的考量作为是否构成混淆的判定标准:第一,清晰标记的商品所提供的情况,不构成混淆;第二,未标记或未清晰标记的,则提高了混淆可能性,商家可能存在蓄意模糊商品来源的故意,从而构成消费者的最初兴趣混淆。

四、结语

在“MTM v.Amazon案”中,亚马逊公司在提供的有关MTM搜索结果中未清晰地标记,增加了混淆的可能性,该搜索列表被判定为虚假的搜索结果,违反了商标保护法的相关规定。加州旧金山美国第九巡回上诉法院利用初始兴趣混淆理论进行分析,该分析有别于以往的案件,提高了“未清晰地标记,提高了混淆可能性”的新情况。在该新情况中出现的法益,依据我国目前的法律还无法得到保护。相比美国,我国混淆理论适用范围较窄,应当扩展第三方;同时,在“MTM v.Amazon案”中确立的混淆考量因素也值得我国借鉴。随着电商的发展,我国应当发展初始兴趣混淆理论,以应对更为复杂的商标纠纷情况。

[参考文献]

[1]孔祥俊.商标与不正当竞争法——原理和判例[M].北京:法律出版社,2009:262.

[2]刘文琦,刘琰.关键词广告中搜索引擎服务商的商标侵权责任——以中、欧、美比较法研究为视角的分析[J].电子知识产权,2012(11):86.

[3]朱红彦.初始兴趣混淆理论在新类型商标侵权中的适用[J].福建法学,2012(1):34.

关键词搜索 篇4

目前舆情发现的方法研究可以基本归为两大类,一类是基于规则的文本内容关键词识别的方法【1,2】,一类是基于统计的机器学习文本分类方法【3~6】。第一类方法能够最大限度的在舆情未扩散之前的挖掘出网络中明显直接的舆情信息,但由于语义方面的局限性使得舆情信息的挖掘不够充分,第二类方法一般需要在一定数量的相关舆情记录出现后才能被挖掘,舆情信息的挖掘较为全面。目前有很多舆情监控系统采用这两类方法相结合的方式进行舆情监控[7,8]。

对于第一类方式,较为普遍,简单而有效的一种方式是预存储一些行业恶劣情感词库,比如高校教育行业里可设定自杀、罢课、贪污,猥亵等恶劣情感词,然后对从网络中抓取到的文本数据进行关键词字串正则匹配,匹配成功则过滤出一条舆情记录同时将匹配的关键词替换成高亮文本返回给用户。该方法虽然可行,但正则表达式的算法完成一篇文档的过滤需要对关键词集中每一个关键词进行循环匹配,时间主要消耗在循环调用、字符串匹配和文本高亮替换之上,算法效率较为低下,在一定程度上影响了舆情发现的时效性。该文提出基于搜索引擎的关键词查询过滤方法,能够最大限度的利用索引查询的高效性,把批量舆情信息过滤时间控制在较短时间内,较好的解决了恶劣舆情过滤的实时高效问题。

1 基于搜索引擎的关键词舆情过滤算法设计

在这一节中,先介绍搜索引擎背后的基本原理,然后详细介绍基于搜索引擎的关键词舆情过滤算法的设计与实现。

1.1 索引与布尔代数

搜索引擎能够在毫秒时间内检索到成千上万的相关结果,其关键原理是索引和布尔代数运算。最简单的索引的结构是用一个很长的二进制数表示一个关键词是否出现在每篇文献中,有多少篇文献就有多少位数,每一位对应一篇文献,1代表相应的文献有这个关键词,0代表没有。比如“南华大学”的二进制数是010010001100001…,表示第二、第五、第九、第十、第十五篇文献包含这个关键词,“论坛”的二进制数是010001001000000…,检索同时包含“南华大学”和“论坛”的文献时,将这两个二进制代数进行AND布尔运算,就可以找到第二、第九篇文献满足要求。实际应用中的搜索引擎的索引是一个只记录了等于1的位数的一张大表:表的每一行对应一个关键词,而每一个关键词后面跟着一组数字,是包含该关键词的文献序号。计算机做布尔运算是非常快的,目前最便宜的微机都可以在一个指令周期进行32位布尔运算,一秒钟进行数十亿次以上。

1.2 舆情过滤算法设计

基于搜索引擎的关键词舆情过滤算法充分利用索引进行布尔运算所带来的高效性进行设计。其设计思路及流程如图1所示。先从爬虫抓取完成队列中获得已经下载好的网页文档,利用HTMLParser对其进行结构解析以获得URL、标题、作者、正文、发表时间等属性信息,然后将这些属性构成的文档对象插入数据库采集记录表,插入成功则获取插入记录的自增标识ID,然后进入分词索引程序,将需要分词的属性比如标题,正文进行分词,然后连同标识ID一起分别作为一个Lucene文档的域进行索引,索引完成之后即可对其进行过滤查询。将标识ID和用户设定的恶劣情感词集组合成布尔查询字符串之后对索引库进行检索,若能检索到唯一一条记录,则表明刚才索引的那篇文档中包含有该用户关心的舆情信息,最终反馈给用户。以上是该过滤算法设计的基本思路流程,以下将对此过程中的关键问题进行详细介绍。

1.2.1 唯一标识ID的生成

唯一标识ID的生成方式有多种,只须满足系统全局唯一标识一篇文档的要求,因此可以通过程序生成全局唯一标识符。在实现石鼓舆情监控系统的过程中,因为要采集每一篇文档的结构化数据,因此唯一标识ID是通过数据库采集记录数据插入后返回主键ID得到的,如图2中采集记录表主键采集记录ID。我们利用网络爬虫对某些特定监控类型网站进行下载后做结构化解析,每个网页文档经过解析将得到如图2数据表所示的标题、作者、URL、发表时间、正文等元素信息,然后将此文档元素信息插入采集记录表和回复记录表(没有回复则不插入回复记录表),插入成功后程序将获得此记录的自增类型主键采集记录ID。此ID将成为后续进行索引的一个唯一标识域。

1.2.2 索引的建立

使用开源库lucene建立索引。上一步生成的唯一标识ID须作为索引的一个文档存储域。如无特殊要求,则可将文档解析出来的全部文本作为另一个域进行分词并索引。本舆情监控系统将之前解析出的标题、正文、回复内容作为索引域进行分词后,连同采集记录ID、URL、作者一起进行索引。

为了保证文本分词后预存储的所有恶劣情感词仍旧还作为一个完整词出现在索引表中(如果待索引文本中包含预存储的恶劣情感词),需要将这些预存储的恶劣情感词加入分词器的用户自定义词典,分词器则不会将某情感词分解成两个或多个词项了。这样会保证后续的关键词检索不遗漏结果。本系统采用中科院分词系统ICTCLAS50,可将恶劣情感词加入词典文件userdict.txt中。

1.2.3 舆情关键词查询过滤

索引表建立之后,则可循环将所有用户设定的恶劣情感词集合和唯一标识ID构造布尔查询字符串对索引表进行检索。构造的查询字符串实则是一个布尔算术表达式。比如查询串“采集记录ID AND (跳楼OR罢课OR贪污OR猥亵)”,该表达式即可从刚索引的那篇文档中找到是否含有一个或多个恶劣情感词的记录,有则返回该记录文档,没有则返回零个文档。查询表达式中,所有恶劣情感词之间是或OR关系,它们形成一个整体与采集记录ID是与AND关系,形成的布尔运算要先检索到满足采集记录ID等于指定值的索引文档,然后在此文档中检索OR查询串中包含的至少一个情感词。本系统中如果查询返回了一条记录文档,则将该记录中匹配的关键词高亮后反馈给用户并入库。

1.3舆情过滤算法的实现

由于舆情监控系统面对的是浩瀚信息的互联网,因此海量数据的处理效率是制约系统性能的关键因素。将该算法实现在基于生产者-消费者的多线程结构之上可大大提高系统性能,如图3所示。

将该算法的关键流程分拆到各个线程中分别实现,线程控制数据缓存池中数据流的走向,各线程本身的并发运行交由线程池进行统一管理。这样增大了系统的吞吐量,提高了系统资源的利用率,也大大的提升了系统的运行效能。

2 实验结果对比分析

开发环境:Windows XP操作系统,英特尔酷睿双核T6600 @2.20GHz处理器,4G存,Java JDK1.7,MySql5.5,Myeclipse9.0,lu- cene3.0。服务器环境:Windows Server 2003,4核Intel? Xeon? CPU E5506 @2.13GHz,16G内存,Tomcat7.0。

本系统算法的实验分别基于三类网站进行观察分析。第一类是以大量回复内容为主的某BBS论坛网站,第二类是以大文本正文为主的新浪新闻网站,第三类是以小文本为主的腾讯微博(不要回复评论内容)。得到的实验结果与在程序中使用正则表达式和在数据库中使用SQL正则表达式两种方式做对比分析(这两种情况同样是在多线程架构之上进行试验)。同时计算基于搜索引擎的过滤算法的查准率和查全率。因为本算法在完成一篇文档的查询过滤时,由于唯一标识ID的作用,每次只在特定的一篇文档中查询过滤,检索结果最多是返回一条记录,因此采用平均查准率和查全率来衡量,分析N篇文档时的定义如下:

使用基于搜索引擎的舆情过滤算法在恶劣情感词数量和索引库大小两个因素作用下监控100篇文档从下载到查询过滤结束的运行时间结果,同时计算它们的平均查全率和平均价查准率,并实验得到在java程序中使用正则表达式的运行时间,在mysql中使用SQL正则表达式的运行时间。绘图得到如图4,5,6。平均查全率和平均查准率如表1。

分析图4,5,6,三大类型网站的实验图大同小异,成水平状态的4条曲线是基于搜索引擎的过滤算法的运行时间图,他们基本保持平稳但有随着恶劣情感词个数增加呈稍微上升趋势,当索引库增大时,运行时间会有相应增加,但涨幅很小。基于Java正则和sql正则的运行时间曲线都随着恶劣情感词个数增加基本呈线性增加趋势,恶劣情感词的数量决定了他们的循环次数,当恶劣情感词较少的时候(10个左右),性能会优于基于搜索引擎的过滤算法,但当词数增加时,特别是词数较多时,则没有丝毫性能优势。而从工程上来看,由于要适应于多个用户,关键词数往往在几十甚至上百个以上。另外,基于sql正则的方法运行效率整体上比基于java正则有微弱优势。基于以上分析,基于搜索引擎关键词过滤算法能很好的适应于各大类型网站,且能取得良好的运行效率,达到恶劣舆情信息的发现实时高效的目标。

在发表微博这种短文本时随意性较大所致[9]。新浪新闻的查全率和查准率为三者中最高也与新闻介质本身规范性较强有关[10]。因分析表1,三大类型网站的平均查准率较高,平均查全率都偏低,腾讯微博的查全率和查准率都是三者中最低,这可能是用户此,基于搜索引擎过滤算法的查全率有待提高。

3 总结

搜索引擎怎么分析关键词 篇5

搜索引擎的横空出世,让我们更容易使用互联网,十年前的信息爆炸言论现在已经基本停息,这些都归功于搜索引擎,因为信息再多,已经有搜索引擎帮我们分类整理,我们想要的时候只要输入相关的关键词就能够找到相应的信息,就不会再存在那种信息爆炸式的状态,找一个信息会把一个人折磨的半死!网站推广可见搜索引擎的贡献和作用是多么的巨大!

我们平时找信息都是通过输入数据来获得,也就是我们常说的关键词,搜索引擎对于输入的关键词是如何工作的,是直接通过这个词来找,还是要把这些词分开,进行相关的比对再从数据库中找,然后再根据这次词来进行排名,很多人对这个工作原理还不是很清楚,笔者因为在SEO优化行业工作多年,对于搜索引擎的分词原理也有了一定的了解,下面就把我的理解写下来跟大家讨论一下!

一:首先就是分词,这是搜索引擎都要做的工作,网站推广因为我们在搜索框里面输入的词有时候是短语,有时候就是一个完整的句子,很少是用词组来直接搜索的,所以搜索引擎在正式工作之前要把输入的短语或者句子进行切分,然后把这些字符串变成词组的组合,不能够再分割了,然后在通过预处理的数据库进行查询和比对,把符合这些词的数据返回给用户,这个分词其实和页面分词差不了多少!

二:去掉停止词,所谓停止词都是一些没有实际意义的词,比如一些啊,哦等等语气词,这些词往往会在搜索的时候被输入搜索框里面,此时搜索引擎在正式和数据库比对的时候会把这些没有意义的停止词取消然后保证搜索的准确性!

三:如何处理指令,对于搜索引擎处理搜索命令式,会把很多默认的词组变成一个短语来进行搜索,这样能够保持较高的准确性,比如你在搜索框里面输入xx减肥xx网站,此时实际上被执行的命令是减肥网站,而不是全部的xx减肥xx网站返回结果,但是往往会返回一些单独的这些词的内容,比如单独的减肥内容等等!另外指令执行的时候还要粗粒各种高级的搜索命令,比如特定的标识符,如加减号等等!

四:对输入词的矫正,因为汉字很多都有谐音,有时候写词组还很容易出现错别字,这时候搜索引擎往往也能够返回正确的结果来,这就是因为搜索引擎在分词的过程中,将一些错别字给矫正过来了,而且在返回的结果页面的上方还会出现纠正后的正确词组出来!如图:

五:分类区分对待,不同的词语会不同的对待,网站推广这是搜索引擎的一个独特功能,如果你搜索的一般的关键词,那么返回的结果就是一般的网页,而如果你搜索的是新闻热词或者明星关键词时往往返回的就是相关的新闻源,所以搜索引擎在这方面的智能是相当高的!

智能搜索引擎发展现状及关键技术 篇6

1 引言

随着信息技术的迅速发展和Internet的广泛普及, 信息搜索成为广大网络用户获取互联网信息的主要手段。在网络上信息量成几何级数的增长, 人们将怎样在网络上搜索自己需要的信息。传统的搜索引擎技术在日益庞大的信息量面前逐渐显得力不从心。在这样的状况下, 智能搜索引擎技术应运而生, 也成为当前搜索引擎技术发展的主要方向。

2 搜索引擎发展历史及现状

目前公认的第一代搜索引擎是以Yahoo为代表的人工目录分类导航检索的网站搜索, 它开始了互联网搜索的时代。这是最为传统的搜索引擎, 主要缺陷在于检索结果的相关性差, 检索结果杂乱无章且数量庞大, 与用户所想检索的结果差异太大, 无法做到较为精确的检索。

第二代搜索引擎是以Google为代表的, 基于关键词和特殊算法的搜索, 是依靠机器抓取的、建立在超链分析基础上的大规模网页搜索, 相较于第一代搜索引擎提高了查准率、查全率和检索速度。但是仍然不能满足网民的检索需求, 用户在信息检索过程中有仍存在查全率、查准率低, 检索多媒体信息的能力差等。

由此可见, 第一、第二代搜索引擎使用的技术难以满足用户快速准确查找信息的需求。造成这种情况的本质在于搜索引擎对要检索的信息仅采用机械的关键词匹配来实现, 无法对所检索的内容进行处理和理解达到智能检索的目的。将信息检索从基于关键词层面提高到基于知识 (或概念) 理解层面, 是解决问题的根本和关键。正是基于此需求, 近年来研究人员一直致力于改进Pagerank算法 (在孟涛的文章中有较全面的综述) , 由此来提高搜索结果的质量。

从第一代搜索引擎到第二代搜索引擎是质变过程, 而到第三代搜索引擎则是量变与质变的结合, 不仅提升了检索技术, 还向着智能化的方向发展。自从进入第三代搜索引擎, 全球都在不断探索和完善搜索引擎技术, 经过多年的探索和市场历练, 现今已露端倪。这一端倪包括两个趋势:一是以Goog le为主要代表技术驱动型理念, 还包括雅虎、搜狐等;二是以J wm guagua (精武门呱呱) 为主要代表的服务驱动型理念。以上两种类型的理念体现了第三代搜索引擎的智能化、人性化特征, 不再局限于机械的关键词检索, 可以直接对用户输入的检索词进行语义分析整合, 满足了用户更快、更准、更方便的查询需求。

3 智能搜索引擎的关键技术

智能化搜索引擎具有信息服务的智能化、人性化特征, 可以为用户提供更快、更准确的搜索服务, 一般包括人工智能、模式识别、语义分析、神经网络等智能搜索。目前面对这用户对搜索引擎的要求不断提高, 要求智能搜索的技术在不断更新, 相关的算法不断的优化。现在的搜索引擎主要还是以文字内容为基础, 其主要方法有两种:一是基于词典匹配, 该方法是将待分析的汉字与事先造好的词典中的词条进行匹配, 在待分析汉字串与词典中已有的词条匹配则成功, 或切分出一个单词。词典匹配方法计算较为简单, 其准确度较大程度上取决于词典的完整性和更新情况;二是基于统计方法, 该方法需要分析大量的文字样本, 计算统计出字与字相邻出现的概率, 几个字相邻出现越多形成一个词的可能性就越大。基于统计的方法优势是对新出现的词反应更快速, 也有利于消除歧义。以上两种方法各有优劣, 实际应用中则是混合使用两种方法来达到快速高效, 又能识别生词、新词, 消除歧义。

而为了更好的应用以上两种方法, 并要求智能引擎能够进行自然语言理解和处理关键词的含义, 机器学习和数据挖掘技术的发展显得至关重要。目前机器学习逐渐成为人工智能研究的核心之一, 它的应用已经遍及人工智能的各个领域。数据挖掘又可称为数据库中的知识发现, 指的是从存放数据库、数据仓库货其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程[5]。

4 结束语

Internet的信息量爆炸性递增, 搜索引擎在用户和信息源之间架起了沟通的桥梁, 为人们迅速、方便地获取有效信息提供检索服务, 起到信息导航的目的。当前的智能化搜索引擎能够实现信息服务的智能化、人性化、高效化, 为用户检索互联网信息提供了方便, 其发展是一个长期的过程。目前的搜索引擎主要提供基于文字内容的信息检索服务, 而对于进一步提高检索结果的相关、个性化检索服务、支持多媒体检索、支持自然语言检索、增强检索界面的友好程度等还有非常多的工作需要去做, 搜索引擎要真正地实现智能化并不仅仅局限于概念上那么简单。但是我们要坚信, 在科学技术的不断发展和推动下, 一些高性能的满足不同需求的搜索引擎将会不断被开发出来。

参考文献

[1]浅析第三代搜索引擎的发展[J].包瑞.晋图学刊, 2010年第4期 (总第119期) .

[2]第三代搜索引擎的研究现状及其发展趋向探析[J].张立彬1, 杨军花1, 杨琴茹2.情报理论与实践, 2008 (5) :785—789.

[3]搜索引擎的未来发展[J].韩进军, 安园园.医学信息学杂志, 2007 (5) :431—434.

基于结构语义的XML关键字搜索 篇7

近几年XML关键字搜索受到了广泛关注, 它与文本搜索的最大不同点是:普通文本关键字检索时, 不需要考虑结构信息;而XML文档在进行关键字查询时, 应该尽可能地返回某些包含关键字以及大量结构语义信息的结果给用户。所以, 对XML文档进行关键字查询的关键问题在于如何找到并返回给用户一些紧凑的充满语义的返回结果。先前的研究大多是基于SLCA的方法[2,3,5], 它返回一组被称为SLCA的结点, 即: (1) 标签中或者后代结点的标签中包含所有关键字; (2) 没有任何一个后代结点是SLCA。SLCA方法的缺陷是可能会丢失一部分有意义的结果, 例如在一个XML文档中, 一篇文章引用了另一篇文章, 并且两篇文章的标题中都包含了所有关键字, 那么SLCA方法只能找到更低的那个文章结点。

针对现有方法的缺点, 本文提出了一种新的有效的模型。通过聚类算法把一些语义相近的关键字结点聚到一起, 比寻找所有不同关键字结点之间的LCA更加有实际意义。主要贡献有:

· 针对关键字搜索, 提出XML文档树上任意两点之间的语义距离, 综合考虑了关键字结点之间的路径距离和LCA的高度。

· 定义了每个结果中关键字结点的结构熵的概念, 用来表示每个结果的优秀程度。

· 基于提出的语义距离模型, 给出了四个聚类算法, 并进行了实验分析。

1 相关研究工作

现有XML关键字搜索的研究大部分都是基于LCA提出。XKSearch[2,3]、XSEarch[5]和XRANK[6]是其中最有名的几个。XKSearch定义SLCA为搜索的目标, 一个SLCA结点满足: (1) 标签中或者后代结点的标签中包含所有关键字; (2) 没有任何一个后代结点是SLCA。另外, XKSearch还提供了几个高效的计算SLCA的算法。文献[3,5]在考虑LCA之外都考虑了结点的语义。文献[3]定义MLCA的概念, 文献[5]定义了互连关系 (Interconnection Relationship) 的概念, 而实际上两者都与SLCA的本质相同。

2 概念定义

首先我们讨论文档中任意两结点之间的语义距离 (Semantic Distance) 。显而易见每个结点到它自身的语义距离为0。我们在一棵XML文档树中任意取两个结点ab, 可以得到它们的结构信息有两点:一是它们的相对位置, 二是它们之间的路径。因为它们之间的距离是个相对的概念 (也就是ab的距离等于ba的距离) , 所以我们所能应用的只有它们的相对位置。观察下面一组图的变化如图1、图2所示。

假设ab之间的路径长度为4 (距离4个线段) , 则它们在XML树中的相对位置如图1所示有五种可能性。其中 (a) 和 (e) , (b) 和 (d) 是等价的, 所以我们只分析 (a) 、 (b) 、 (c) 三幅图。如果我们把ab间的语义距离定义为它们之间的路径长度, 那 (a) 、 (b) 、 (c) 三幅图的语义距离相同, 但显然不应该如此。从层次上来看, (c) 图中ab处于同一层次, 从 (c) 到 (b) 到 (a) , ab的层次差距越来越大;而从结构上来看 (c) 是一棵平衡树, 越往左则树越失衡;从用户的角度来看, (c) 应该比 (b) 和 (a) 更加容易接受, 因为其中的关键字结点间的关系最“近” ( (c) 、 (b) 、 (a) 中分别是堂兄弟、爷爷的兄弟、爷爷的爷爷) 。所以我们认为 (c) 图中ab的语义距离最近, (b) 次之, (a) 最远。可以从现实生活中的一个例子看出如此定义的合理性。图2是部分SigmodRecord的XML文档的DTD示意图, 其中每个article有个titile, 每个issue也有title。很明显, 从语义上来讲, 对于任一个article, 它与同属于一个articles的另一个title的距离要比与issue的title之间的距离近。

容易发现, 对于XML树中的任意两点, 设彼此的路径距离为l, 那么可以构成 (l+1) 幅这样语义距离逐渐减小再逐渐增大的顺序图。为了体现这样的语义关系, 我们构造一个XML文档中任意两结点之间的语义距离函数:

定义1 语义距离 设XML树中任意两点ab, ab的LCA为c, 令ca的路径距离为la, cb的路径距离为lb。则a, b之间的语义距离d (a, b) = (la2+lb2) /2。

显然, d (a, b) 在路径长度一定的情况下, 层次相差越大语义距离越远。返回结果的时候, 总是想把结构语义相近的结点放到一起。假设任意一个返回结果中有多个关键字结点, 我们称这些关键字结点的集合为一个簇:

定义2 最小连通树 一个结点集合S的最小连通树Tmct (S) 被定义为以S中所有结点的LCA为根, 以descendant (S) 中的所有结点为叶子的树。其中descendant (S) 为所有S中不包含后代的结点。

一棵最小连通树Tmct (S) 就是一个返回结果, 设S中有t个关键字结点n1, …, nt, 那么显然可以使用Tmct (S) 上这t个关键字结点之间的平均语义距离d¯ (S) =1i, jtd (ni, nj) /n来表示该结果上所有关键字结点之间的紧凑程度, 平均语义距离越小, 则结果越优秀。另外, 每个结果中所包含的关键字结点个数对结果的评判显然也有影响, 包含的关键字越多则结果越优秀, 所以, 我们定义了任意一个关键字结点簇的结构熵的概念来综合考虑这两点。

定义3 结构熵 设S为任一个包含有t个关键字结点的簇, Tmct (S) 为S的最小连通树, 设S中任意一个结点niTmct (S) 的根的路径长度为li, 则S的结构熵E (S) 被定义为:E (S) =d¯ (S) / (n-1)

从定义3可以看出, E (S) 的大小充分体现了我们对结果的评判, 对于任意一个结果, 包含的关键字结点越多, 结构越紧凑, 则E (S) 越小。我们可以将定义3的公式继续化简, 得到:

d¯ (S) =i=1tli2/n (1)

容易发现, 当一个簇只包含一个关键字结点时, 熵最小为零, 此时的结果最紧凑, 但几乎不包含任何信息量。由此可以发现熵并不是越小越好, 所以我们在进行提取结果的算法之前定义一个熵的阈值, 并且认为所有对应的熵小于该阈值的结果都是结构足够紧凑的。在此前提下, 我们算法的目的是求得所有紧凑的结果中包含信息量最多者。

3 XML关键字搜索的算法

主要思路是:首先管理员设定一个结构熵的阈值, 开始时所有的结点自身形成一个簇, 然后我们使语义距离相近的结点不断的聚到一起形成簇, 每个簇的熵开始增大但必须保证新生成簇的熵小于阈值, 直至簇和簇之间不能再合并为止, 算法示意图如图3所示。

每次合并后熵都必须重新计算, 运算量极大。这里提出一个多层次压缩的方法, 使得每次熵的计算复杂度变为O (1) 。每次合并完成后, 将每个s簇的信息压缩成一个四元组 (entropy, lca_code, path_sum, node_count) , 其中:entropy是簇中所有结点的熵;lca_code是簇中所有结点的lca的编码;path_sum是簇中所有结点到LCA的路径长度的和;node_count是簇中结点的个数。两个簇合并时, 通过两个簇的四元组和O (1) 时间计算出新簇的四元组, 详细证明略。

3.1 Naïve算法

Naïve算法是一个想法最简单直接的算法。假设在某一次聚类时系统中已有n个簇, 首先要找两个语义上最近的簇 (两个结合后熵最小并且小于阈值的簇) , 将它们合并;接着再从剩下的n-1个簇中重新找两个语义上最近的簇;当算到没有两个簇能够聚在一起的时候结束算法。因为在n个簇里找两个最近的需要n (n-1) /2次比较, 并且得到n-1个簇, 所以算法复杂度T (n) =T (n-1) +n (n-1) /2。因为最终返回给用户的簇的个数一般被认为是一个常数, 所以需要运行O (n) 次, 即最终的复杂度是O (n3) 。

3.2 Semi-Naïve算法

我们改进了Naïve算法, 使得复杂度从O (n3) 降为O (n2·logn) , 假设在某一次执行合并时, 系统中已有n个簇。

首先计算任意两个簇合并后的熵, 若是小于熵的阈值, 则将两者都取出成为一个pair, 如此得到O (n2) 个pair, 再将所有的pair按照熵从小到大进行排序。将第一个pair的两个簇合并, 对于后面的pair, 检查其中的两个簇是否已有簇已被合并:如果两个簇都已被合并, 则考虑下一个pair;如果其中有一个簇被合并, 则将剩下的一个也合并到同样的大簇中;如果两个簇都没有被合并, 则将两者合并。

在选择合并的pair时, 我们遵循一个原则, 就是尽量选择熵最小的, 所以首先将第一个pair中的两个簇合并是明显的。在后面选择pair时, 先前合并生成的簇我们暂不考虑加入对比。假设有两对簇 (C1, C2) 和 (C1, C3) , 并且E (C1∪C2) <E (C1∪C3) , 我们首先将C1和C2合并, 是因为对于任意一个其它的簇C3, 有E (C1∪C2∪C3) 大于单独C1或C2和C3的并集的熵。当遇到 (C1, C3) 后, 因为C1已经和C2聚合了, 并且熵要小于C1和 C3聚合后的熵。另外因为C3和其它所有的簇聚合后的熵都小于E (C1∪C3) , 所以我们尝试把C3也聚到C1∪C2中, 这样就省略了C3和其它的簇比较的时间。

两两比较n个数需要O (n2) , 将O (n2) 个pair排序需要O (n2·logn) , 每一轮合并花费O (n2) , 并且最少将n个簇聚成n/2个, 所以总共时间花费是O (n2·logn) 。我们发现Semi-Naïve算法运行的时候, 一般在常数次轮就可以结束, 所以时间瓶颈是在排序。

3.3 Top-Down算法

如果已知簇的熵的阈值, 对于文档树中的任意一个结点, 我们可以以它为中心, 画出一个结构框, 凡是在此框外的结点都不能跟当前中心结点聚为一类, Top-Down算法正是基于这样一个中心聚类的思想, 省去了很多不必要的比较。

假设文档树高度为h, 在根据用户输入的关键字按文档序 (前序遍历) 到文档中查询返回结点的时候, 不是形成一个结果结点集, 而是如图4所示的h个列表。并且在一次性遍历的过程中把每个结点编码 (Dewey编码) 按顺序抛入相应层次的列表, 其中第i层存放的都是相应深度的关键字结点。

据图4, 从其中任意一个结点往左或者往右遍历, 所经历的每一个结点和自己的语义距离都是越来越远 (非递减) 。假设熵的阈值为ω, 那么对于同一层的结点, 我们只需要往左右遍历一直到找到某个结点与中心结点的熵大于ω就可以了;而对于上层和下层的信息, 因为我们不知道它们每个结点与中心结点的位置信息, 所以只能逐个扫描它们。但通过观察发现, 每一层的结点从左到右与中心结点的距离有两种模式:一是非递减, 这种情况发生在这一层的最左边一个结点是中心结点的祖先或后代, 或者在中心结点的祖先或后代结点的右边时;第二是先减小再增大, 这种情况发生在有部分结点在中心结点在该层中的祖先或后代结点的左边时。因为我们没法确定当前是哪种情况, 所以只能使用二分法先找出跟中心点的祖先或后代的位置, 再往两边比较。另外并不是所有层都需要如此处理, 假设某一层中存在中心结点的祖先或后代, 并且与中心结点的层次差距是l。它们的熵要小于等于阈值, 所以有l2/2≤ω, 从而l2ω。也就是只需要比较上下floor (2ω) 层即可。

为了缩小中心点的尝试范围, 我们按照从左往右, 从上往下的顺序选取中心点。也就是从第一层的第一个结点开始, 往右选择。当一层的结点全部聚完后再从下一层的最左一个结点开始, 一直到最下层的最右边一个结点。这样选取中心点的好处是每一次只需要比较中心点右边以及下面的一些结点。正是因为这样的遍历顺序, 该算法被称作Top-Down算法。当取出这些结点后, 我们使用Semi-Naïve的方法进行聚类, 聚类完毕后将含有中心结点的簇作为一个成功的聚簇返回, 并将其中所有结点从层次结构中删除。

因为熵的阈值是个常数, 所以一般情况下每个中心点挑选出来的聚类候选集也应该是常数, 它们的聚类需要O (1) 。挑选出任意一层的候选集结点需要O (logn) , 所以Top-Down算法的总的时间花费为O (n·logn) 。因为前面的常数项 (每一次聚类的花费) 比较大, 所以在我们的实验中发现大多数情况下它更接近于O (n2) 。

3.4 Top-Down Dirty算法

实验中发现, 有很多XML文档如 (DBLP, SigmodRecord等) 的层次比较少, 结构单一, 在关键字查询时, 它的有用数据绝大多数集中在某几类的结点上。比如图5中所示的某个DBLP的文档片断。设关键字为“Michael, Jones”, 树中带有斜体字的结点为关键字结点。若令结构熵的阈值为4.0, 则框起来的部分为每个结果簇的最小连通子树。从图5中我们可以看到所有的关键字结点都在同一层, 并且两个结点的熵只有两种可能性:4.0和4.5。也就是说对于图4中的这些关键字结点, 要是阈值低于4.0, 那么最终就是每个结点一个簇;如果阈值大于4.5, 那么最终就聚成一个类;而如果阈值在4.0到4.5之间, 那么聚类结果就如图4一样。如果我们对于文档的该层结点按照从左到右的顺序设定中心点, 并且对于每一个中心点, 依次将后面的结点合并进来, 直到簇的熵超过阈值为止, 效果与Semi-Naïve算法等同。

Top-Down Dirty是一种“quick and dirty”的算法。使用户输入的关键字过滤完整个XML文档后得到的关键字结点集合的结构与Top-down算法相同, 并且选择中心点的方式也是从左至右, 从上至下。但是对于每一个中心点它的聚类过程不一样, 在找到一个合适的结点后, 中心点立即和该结点聚到一起称为一个中心簇, 然后中心簇再以同样的方式去寻找周围结点, 直到所有的周围结点 (中心结点的聚类候选集) 都被比较完为止。所以, 寻找周围结点的过程就是一个合并的过程。

从理论上来讲, Top-Down Dirty算法的时间复杂度也是O (n·logn) , 但是对于图5中所展示的这种文档层次比较少, 大多数关键字结点集中在同一层的XML文档:对于其它层次的关键字结点, 因为总数是个常数, 所以它们总共的扫描时间是O (logn) ;而对于绝大多数关键字结点所在的那一层, 每一个结点往后扫描和往下扫描的时间复杂度都是O (1) , 所以总的算法复杂度是O (n+logn) , 等于O (n) 。另外, 通过我们的实验比较发现, 在结构良好的XML文档情况下, Top-Down Dirty算法的返回结果也是很理想的。

4 实 验

实验包括: (1) 比较在同一距离阈值下四个聚类算法的效率和结果; (2) 观察四个算法的效率和结果随着熵的阈值变化而产生的变化; (3) 对比不同文档上四个算法的效率和结果。实验的硬件环境是一台CPU频率2.8GHZ、内存2G的PC;软件运行环境是Windows XP、JDK1.6和Tomcat6.0, 所用的XML解析器是Xerces。用作实验的数据集是DBLP (文档大小127M, 结点总数6332225) 和Treebank (文档大小82M, 结点总数3829511) [12]。两个文档都足够大, 可以提供更加准确的实验结果;其结构有很强的可比性, DBLP的DTD“宽且平”, 结构很规整, 树的高度也不大 (最大深度为6, 平均深度为2.9) , 而Treebank则没有DTD, 结构很复杂, 树高也相对较大 (最大深度为36, 平均深度为7.9) 。

首先我们为每个数据集建立一个单词表, 其中包含有在XML文档中出现的一些单词, 每个单词的出现频率在5 000到15 000之间。我们的做法是每次随机从单词表中选出几个单词作为关键字, 对XML文档进行搜索, 反复运行四十次, 再取结果的平均值作为实验结果。

在实验中我们实现了后三个算法: (1) 三个算法的效率从高到底依次是:Top-Down Dirty, Top-Down, Semi-Naïve; (2) 对于三个算法的搜索结果, Semi-Naïve和Top-Down的结果一样, 而Top-Down Dirty的结果与它们不同; (3) 可以发现随着结构熵的阈值从小到大变化, 三个算法的结果数量都越来越少, Semi-Naïve算法和Top-Down算法的效率也越来越低, 但Top-Down Dirty算法的效率基本不变; (4) 在两个数据集中, Semi-Naïve算法的效率相近, 而Top-Down算法和Top-Down Dirty算法的效率在DBLP中比在Treebank中高, 说明后两种算法的效率会受XML文档树拓扑结构的影响; (5) 结果在DBLP文档集的实验中, Top-Down Dirty算法表现得最好, 它的效率比Top-Down算法高出很多, 验证了3.4节中所讨论的Top-Down Dirty算法所适应的XML文档情况。

5 总结和未来工作

提出一种基于结构语义距离的XML关键字搜索方法, 设计了四种算法。我们拟提供一定的用户反馈机制, 来让用户不断修正熵的阈值, 直至找到需要的搜索结果。

关键词:XML,关键字搜索,算法

参考文献

[1] Hristidis V, Papakonstantinou Y, Balmin A.Keyword proximity search on XML graphs[C]//ICDE, 2003.

[2] Xu Y, Papakonstantinou Y.Efficient Keyword Search for Smallest LCAs in XML Databases[C]//SIGMOD, 2005.

[3] Li Y, Yu C, Jagadish H V.Schema-Free XQuery[C]//VLDB, 2004.

[4] Hristidis V, Koudas N, Papakonstantinou Y, et al.Keyword Proximity Search in XML Trees[C]//IEEE Transactions on Knowledge and Data Engineering, 2006.

[5] Cohen S, Mamou J, Kanza Y, et al.XSEarch:A Semantic Search Engine for XML[C]//VLDB, 2003.

[6] Guo L, Shao F, Botev C, et al.XRANK:Ranked Keyword Search over XML Documents[C]//SIGMOD, 2003.

[7] Liu Z, Chen Y.Identifying Meaningful Return Infor-mation for XML Keyword Search[C]//SIGMOD, 2007.

[8]Bhalotia G, Hulgeri A, Nakhe C, etal.Keyword searchingand browsingin da-tabase using BANKS[C]//ICDE, 2002.

[9] Florescu D, Kossmann D, Manolescu I.Integrating Keyword Search into XML Query Processing.In WWW, 1999.

[10]Fuhr N, Grojohann K.XIRQL:A Query Language for Information Re-trieval in XML documents[C]//SIGIR, 2001.

[11] Schmidt A, Kersten M L, Windhouwer M.Querying XML documents made easy:Nearest concept queries[C]//ICDE, 2001.

关键词搜索 篇8

关键词:垂直搜索引擎,主题爬虫,中文分词,Lucene,搜索结果个性化

引言

据不完全统计, 在农业领域现有各种网站近2万多个, 涉及农、林、牧、渔、水利、气象、农垦、乡镇企业、及其它农业部门, 在这些海量的信息中, 如何搜索一个准确的信息是大家非常关注的问题。在农业信息化的年代, 越来越多的农业相关的信息出现在各大网站, 很多农民朋友对大部分的农业门户网站并不熟悉, 且检索技巧不高, 加上通用搜索引擎返回的搜索结果数量巨大, 与主题相关性差的现实情况, 通用搜索引擎越来越难以满足农民朋友的检索需求。建立一个农业领域垂直搜索引擎, 让农民朋友快速、简捷、高效地获取分布在网络上的农业信息资源成了一项比较有意义的工作。

一、基于Lucene的农业类搜索引擎的体系结构设计

1.1基于Lucene的农业类搜索引擎整体体系结构。

在搭建基于Lucene的农业类搜索引擎的主要功能模块包括:主题爬虫模块、索引模块、检索模块以及搜索结果在线聚类模块[1]。其中索引模块和检索模块都在Lucene中有比较好的封装块, 针对Lucene对中文不能很好支持的缺点, 只需要提出更好的分词模块进行替换即可。本文主要的功能模块有数据采集模块、清洗分词索引模块以及前台的个性化展现模块。

数据采集模块通过改进的主题爬虫抓取农业主题相关的数据, 通过对解析出的URL进行主题相关性判断, 使得主题爬虫的准确率得到提高同时也减少了无效的抓取;数据清洗索引模块都是在Lucene框架中完成, 作为一个优秀的全文检索框架, 在最后的搜索结果个性化展现模块, Lucene中对检索功能的实现, 没有考虑个性化的需求, 根据文档的真实权重即td*idf来表示文档的重要性并按重要性将检索的结果集进行展现, 考虑到搜索引擎存在的一些问题, 将查询得到的结果集进行适当的处理如聚类也是提高用户体验的非常有用的一种途径。

1.2基于Lucene的农业类搜索引擎关键技术。

影响搜索引擎性能的主要因素有爬虫设计技术、中文分词技术等。接下来对这些关键技术进行简单的介绍。

1.2.1主题爬虫工作原理。

通用爬虫的工作原理是为了尽可能多的搜集网络上各种主题的信息, 设置爬虫按照一定的爬行策略进行爬行, 比如深度优先算法、广度优先算法等, 对爬得的网页通过分析网页的链接关系继续提取URL放入处理链表, 直到访问完所有的链接。它的目标是尽可能全、快的爬取网络上的资源, 同时按照一定的策略更新已经搜集的旧信息, 避免无效链接和死链接[2]。

表1对两种类型的爬虫从目标、爬行策略、页面分析技术、各自的优缺点、是否定期回访等方面进行了比较。

1.2.2中文分词技术。

分词技术指对文本进行分割为合理的词语或者单词序列, 在英文中, 词与词之间存在着空格, 使得分词比较容易执行, 在Lucene中提到的单字词切分主要就是针对英文提出的。中文分词技术从算法的角度可以分成三类, 基于字符串匹配的分词 (机械分词) 方法, 基于理解的分词方法和基于统计的分词方法。随着人工智能和机器学习中一些算法的成熟, 神经网络、遗传算法、决策树方法等被用在中文分词中[3]。

1.2.3查询服务。

现在的搜索引擎从用户输入关键字到得到返回结果的主要过程是:1) 在以基于关键字查询为主的搜索引擎中, 用户通过输入若干个关键字或者一小段文本进行查询;2) 搜索引擎通过对用户输入的查询信息进行分词、去除停用词等处理步骤, 得到有意义的检索关键字集, 通过与索引库中索引进行匹配, 对每个关键字匹配得到的文档集求交集, 即为最终应该返回的结果。这种交集型处理的方法是基于用户希望搜索尽可能多的包含指定关键字的文档。3) 通过一定的排序算法, 将上一步得到的文档进行排序。

二、多策略农业主题爬虫设计

2.1多策略农业主题爬虫的算法描述。

U R L决策器, 对页面分析出来的所有链接中, 首先按照host判断是否在所给定的8000多个中, 若不是则将该链接加入人工审核链中;若是, 继续判断path部分假如能在站点树中找到则加入处理链, 若不能则按照下面的判断方法判断是否主题相关。算法的流程图见图1。

1) 若当前URL为一级目录。判断是否与根结点相同:相同, 且已经存在则不用添加;若不同, 判断是否在已经收集的农业门户网站集中, 若存在于门户网站集中创建一个单独的树形结构, 由另外的线程进行抓取。

2) 若该URL是二级目录的形式, 首先对host部分根据步骤1) 判断, 若已存在则继续对path1进行主题相关性判断。

判断的方法:树形结构中的每个结点都有一个关键字数组, 每个数组中的值这样规定:对锚进行分词, 统计关键词的次数, 每个结点的关键字集合分别来自各个直接子节点的关键字集。显然根结点的关键字是整棵树中关键字集的并集。对当前URL的锚信息分词后的关键字信息与根结点的关键字集用向量空间的方法计算相似度, 满足一定的阈值, 则将该URL插入。

3) 对于URL的长度大于二级目录的可以用步骤2) 相同的方法进行处理。

4) 影响U R L优先级的主要参数有所在的树形结构的层级和主题相似度值。优先级显然是与相似度成正比。所在层级越低则越先加入处理链, 原因越是靠近叶子结点的URL若先下载的话, 该页面包含的链接信息比较少, 则能提供给根结点的关键字越少, 对后续页面与主题相关性计算的帮助也越小。假如网站的深度为A, 规定从根结点开始的各层的值分别是是调节系数。通过实验来设置a和b的初始值。

5) 每次执行完URL的插入操作后, 根据URL的优先级值将URL插入到URL等待链。

为了能够方便地处理链接和主题相关度的计算, 需要使用5个URL链, 每个链保存着统一处理状态的URL[4]。之所以采用链表的形式, 便于按照网页的优先级值对各个URL链进行排序, 特别是对处理链进行排序, 可以优先爬去与主题相关的网页, 这样设计使得爬虫的终止条件不唯一, 且保证了重要的网页优先被抓取。图2为网页抓取过程这些状态的切换流程。

2.2算法分析。

多策略农业主题爬虫从理论上来看, 具有如下几个特点:多种策略、可控制性、较小的网络开销、较小的实现代价。另外, 在计算网页重要度的时候, 通过考虑链接所在的层次作为该链接重要度的一个指标, 充分利用了链接层次与网页重要度的潜在信息。

通过分析以上特点, 理论上来说该算法具有一定的可行性。结合实验主要分析两个方面:一方面是该算法在维持主题相关性方面的效果, 即所抓取的网页是否是与主题有较高的相关性;另一方面, 评价该算法对重要网页的挖掘能力, 即首先用一种较客观的方法Page Rank算法或者Hits算法获得每个主题下所有网页重要性列表, 这两种算法都是通过分析网页之间的链接结构来计算网页重要度的, 所得到的每个主题对应的重要网页列表, 作为评价爬虫挖掘重要网页能力的依据。实验测试部分将在下一步展开。

三、对Lucene中文分词算法的扩展及其实现

本文提出了用二元语法模型和Viterbi算法实现的中文分词模型, 该方法首先将预切分文本分割成元句子的形式, 然后将每个元句子切分成原子的形式, 对每个元句子切分得到的原子根据二元语法模型, 匹配词典得到所有可能的切分路径, 然后调用相应的未登录词识别模块, 采用Viterbi算法求得概率最大的切分结果。最后通过随机抽取的语料进行测试, 结果表明该方法是有效的。

3.1分词算法原理。

1) 将待处理文本切割成元句子 (指两个切割标志之间的文本) 的形式;2) 对单个元句子分割成原子成分, 对各个原子成分和该原子的标记分别存放在两个数组;3) 对步骤2得到的盛放原子成分的数组进行初步处理, 得到除未登录词之外的切分形式;4) 对步骤3得到的结果用viterbi算法求出最佳切分路径, 调用未登录词识别模块;5) 若判断得到当前未登录词是人名, 则调用人名识别模块;若判断得到当前未登录词是地名, 则调用地名识别模块;若判断得到当前未登录词是组织名, 则调用组织名识别模块。6) 对处理结果进行词性标注等处理后返回。中文分词部分算法总体流程图见图3。

3.2算法详细步骤。

算法涉及到的类主要有Seg Graph.java, Tagger.java、Unknow Word Org.java, Unknow Wor_d Place.java、Unknow Word Person.java、Unknow Word Transperson.java等。Seg Graph.java主要实现步骤在前三步, Tagger.java是主要的控制类, 在步骤3的基础上对不同种类的未登录词分别调度不同的算法来识别, 其中Unknow Word Org.java、Unknow Word Place.java、Unknow Word Person.java、Unknow Word Transper_son.java分别是组织名、地名、中国人名、外国人名的识别模块[5]。

对单个元句子分割成原子成分, 对各个原子成分和该原子对应的标记分别存放在两个数组;对可能包含数字 (可能是整数或者小数) 、单个英文字符、汉字以及一些特殊字符如Ⅷ等分别进行判断。对元句子中的每个字符首先获取该字符的类型, 然后判断是否是英文字符、索引、整数或者小数、汉字等等, 将得到的这些类型的原子依次放入数组atom[], 将该原子所对应的类型标记分别存入数组atom POS[]。

对得到的原子成分进行初步处理, 得到除未登录词之外的切分形式, 形成分词后得到分词网络End List seg Graph。主要步骤如下:首先进行原子分词, 接着进行全切分即找出原子之间所有可能的组合。该过程使用的算法由两个循环来实现:第一层遍历整个原子集合;第二层在找到一个原子时, 不断把后面相邻的原子和该原子组合到一起, 访问词典看它们能否构成一个有意义的词组。全切分得到的结果为:“使/使用;用/用户;户;满/满意;意”, 将之转化为相应的有向无环图。使用维特比viterbi算法对有向无环图进行求解。当N=2时, 得到的“使/用户/满意”和“使用/户/满意”。

在实际的应用系统中单个词的概率值都比较小, 将各个词的概率相乘最终得出的概率趋于零, 使得最终难以比较各个切分结果的概率。常用的处理方法是用概率的负对数来代替概率本身, 词的概率的对数是负数, 取反则变成了正数, 通常将这个正数称作该词的“费用”。在用viterbi算法求最佳切分路径时, 只需找到总费用最小的路径。

四、总结

本文对搜索引擎以及垂直搜索引擎相关技术进行系统的研究, 特别是垂直搜索引擎的主题爬虫技术、中文分词技术以及搜索结果的在线聚类技术进行了详细的理论阐述、算法研究。简要介绍了Lucene中的中文分词技术, 随后提出了一种基于二元语法模型和维特比算法的中文分词算法。这种算法是对普通一元语法模型和最大概率法的改进, 通过维特比算法求最佳切分路径。通过分析搜索引擎在个性化方面存在的一些问题和目前的研究现状, 通过分析现有的文本聚类算法特别是比较适合在线搜索结果聚类的两种算法, 在实验阶段, 通过比较两种算法在聚类效果以及聚类标签描述方面的能力, 通过改变聚类文本集的大小设置三组实验。实验证明, STC算法和Lingo算法在处理小数据量时都能满足需求, 但是随着数据量的增大, 两种算法在某些方面有待改进。

参考文献

[1]Tanudjaja F, Mui L, Persona:A contextualized and Personalized Web Search.35th Annual Hawaii International Conference on System Sciences, 2002.

[2]刘艳华, 徐勇.不同搜索引擎在农业领域的应用效果对比[J].农业网络信息.

[3]周鹏, 吴华瑞, 赵春江, 等.基于Nutch农业搜索引擎的研究与设计[J].计算机工程与设计, 2009 (03) :56.

[4]郭来德, 刘辉林, 刘兰哲, 等.农业信息搜索引擎设计与实现[J].河北工程大学学报 (自然科学版) , 2007 (03) :33-34.

关键词搜索 篇9

面向语义网的语义搜索引擎可以分为三种方式:首先,是常规的基于关键词技术对网络语义数据进行重点处理的搜索引擎技术;其次,是建立在以本体为重要组成部分的中心式语义数据数据处理技术的搜索引擎;最后,是以本体作为背景,对网络中的数据信息进行分析、推理并提供相应的数据处理能力的搜索引擎技术。这三种形式的基于语义搜索引擎技术都这有各自的数据处理功能和特点,具体分析如下:

第一种关键词技术的语义搜索引擎可以对网络中的相关概念性信息、三元组以及语义标签进行分析处理,通过匹配关键词的方式来获得相应可能的语义数据,作为响应用户的查询请求,这种搜索引擎技术以google最具有代表性,此外在语义文档上通过建立倒排索引和单独建立针对本体文档的N-GRAM索引,可以使用户更加快速的查询定位到相应的语义文档。第二种搜索引擎技术则是以实体为主要的搜索引擎处理单元,并提供给用户相应的需求单元,用户获得的通常是通过关键词技术得来的实体集合。而第三种语义搜索引擎技术是包含实体,同时还可以实现语义的集成,是一种综合性的新型语义搜索引擎关键技术。

2 面向语义网的语义搜索引擎关键技术的特点

2.1 面向语义网的语义搜索引擎技术是更高层次描述方式

语义网技术集成了当前网络终端用户的情境模型和搜索引擎结构中的语义网技术应用,是对目前的WWW网络制式的进一步扩展,是促进计算机和人类之间更加紧密合作的一项新型人机智能化应用技术。语义网技术通常采用多层次形式表示框架XML,并在其中加入文档模式来表示文档结构,但就XML本身来讲,是不具有描述结构本身语义功能的,如果不对XML语义的元素解析,计算机是无法读懂信息内容的。因此,语义网技术中基于语义搜索引擎技术的更高层次的描述语言——RDF就可以定义相关元素的语义,也就是常说的具有三元组集特性,语义网中集合了XML和RDF就实现了语义网络的人工智能,可以进行相关事件的简单推理。另外,完整的语义网还需要一个标准的概念体系,也作本体(Ontology)。而本体实际上是需要RDF子集的OWL进行描述的,XML、RDF和Ontology三者之间构成了完整的计算机引擎分析系统的基础,是语义搜索引擎更具智能化的重要组分。

2.2 面向语义网的语义搜索引擎是三种引擎技术相互关联的统一整体

语义网的语义搜索引擎技术是将用户情境模型和搜索引擎技术相结合在一个系统结构中的,通过语义网和本体技术对用户情境模型收集到的信息进行处理,然后对情境信息进行结构和特征方面的形式化描述,转化成可以被计算机理解的形式,最后在搜索引擎使用终端进行呈现和使用。也就是说,面向语义网的语义搜索引擎关键技术在于实现实体之间对情境信息完成语义理解,并根据已知本体的情境信息进行推理,对搜索引擎找到的搜索结果进行过滤、选择和推荐,以满足用户的查询需求。通常情况下,用户端的搜索关键词都具有某种联系,通过语义网技术我们可以明确不同用户使用搜索引擎过程中关键词的这种内在关联,当用户进行关键词检索时,语义网中的RDF就可以描述这种关系,并采用OWL对这种关系进行解释说明,达到明确关键词之间关联的目的,再通过三元组的形式将这种关联存储在本体中,以不同的意义标识嵌入到相关网页内容中,从而实现相关关键词内容信息的快速查询和呈现。简而言之,面向语义网的语义搜索引擎关键技术实际上是包含关键词之间关联内容的统一整体。

2.3 面向语义网的应用搜索引擎关键技术的精准性

在用户使用搜索引擎进行信息资料的检索过程中,系统的情境管理分配的信息链接,也就是用户检索历史信息,都可以作为扩展搜索引擎的叙词表,并根据用户选取的最终检索结果进行跟踪、定位、过滤和积累。对于检索关键词之间的关联信息,需要将一些独立的关键词信息从结果中过滤出去,只吸收和包含关键词又包含相关内容关系的信息反馈给用户,从而实现搜索引擎检索结果的精简和准确,为用户提供真正需要的信息资料。

2.4 面向语义网的应用搜索引擎中的标引技术应用

对用户使用搜索引擎的未来情境要进行一系列的复杂推理,需要通过检索历史在本体技术上建立证明树,并产生相应的可在网络中进行查询的语义标记描述,将用户的情境和对应的信息库的范围尽量放大,从而提取并贮存用户未来可能需要的情境信息,也可以在此基础上适时为用户推荐相关可能需要的信息资源。此外,还要善于管理和利用公共领域的本体资源,加强语义网的语义搜索引擎对于自然语言的解读能力,再通过本体技术和语义网技术对相关信息进行统一规范整理,建立起相似类目的使用规则和资源体系,实现信息资源库构建和搜索引擎标记技术的统一,为用户提供更好的信息资源和检索体验。

3 面向语义网的语义搜索引擎关键技术的应用

3.1 用户检索情境模型的建立与搜索引擎相结合

通过收集用户的检索爱好,包括:习惯、目标、心理、性格、行为、问题、专业、交流和文学创作以及工作内容等方面的综合信息,建立起适用于用户的个性化动态情境模型,对用户的兴趣、长期计划、目标进行动态关注,并进行相应的信息存储、描述和推荐,将搜索引擎技术同情境模型相结合既可以实现搜索引擎的个性化定制,又可以建立起以用户为中心的信息资源库,满足用户各项检索需求。

3.2 面向语义网的语义搜索引擎情境管理器模型的代理技术应用

由于搜索引擎的用户群体广泛,涉及的问题十分复杂,范围广,数据信息庞杂,每时每刻计算机都要通过交互作用来获取用户的情境信息,因此,必须加强情境管理器的配置和管理。通过应用不同的代理技术可以分摊情境管理器的压力,诸如采用情境接收器代理、情境文献知识代理、查询信息代理和集成服务代理,通过设置语义网的交互协议,可以根据用户使用的喜好提出更加合理的建议,在语义网协议管理的条件下可以实现代理的自适应性,实现搜索引擎技术的个性化定制服务和智能化集成应用。

4 结束语

上一篇:高职前厅课下一篇:量化绩效薪酬