搜索技术

2024-05-17

搜索技术(共12篇)

搜索技术 篇1

1 搜索引擎的分类

1.1 基于目录的搜索引擎

基于目录的搜索引擎先收集信息然后分类, 比较典型的是Yahoo和Magellan。它提供由网页作者呈送的因特网资源的链接集合, 同时对这些资源做出评价并组织成主题目录。不同的目录式搜索引擎使用不同的选择标准来挑选所录用的链接资源, 它包括两种基本类型:一种是比较专业的, 供科研人员使用的学术性专业目录;另一种就是为普通大众和商业服务的商业目录。所以, 用户在使用时要根据需要选择最适合自己的类型。当你想查找的主题范围较大, 你又想浏览其他相关网站时, 就可以选择目录式搜索引擎。

1.2 基于机器人的搜索引擎 (robot-based search engine)

基于机器人的搜索引擎开始于一组已知的文档, 用它们的超文本链接确定新的检索点, 然后用索引机器人一个一个为这些新的检索点上的新文档做标记, 最后将这些新文档添加到索引数据库。以后搜索引擎可以用这个索引数据库去回答用户的提问。这种搜索引擎之所以叫机器人搜索引擎是因为它检索信息不是靠人工, 而是机器化, 用一种叫“蜘蛛”的计算机程序在网中爬行为用户提供检索服务。常用的基于机器人搜索引擎有ALTAVISTA等。如果用户要检索特定的网站或主题范围小的时候, 使用机器人搜索引擎是非常恰当的。

1.3 基于客户的搜索引擎

基于客户的搜索引擎用Web客户器中的周游软件, 它们利用已知的文档去检索www上的其它相关文档并传送, 然后用文档中的超文本链接找到更多的文档, 直到满足要求。它主要是针对客户方, 可改善用户界面, 重要的是它具有实时性, 搜索到的资料比较新;缺点是搜索速度慢, 网络负载和服务器负载都太大。

1.4 元搜索引擎

元搜索引擎 (META Search Engine) 接受用户查询请求后, 同时在多个搜索引擎上搜索, 并将结果返回给用户。它主要是改进用户界面, 用不同方法对它接收到的相关文档进行过滤, 重复信息要删除。这种搜索引擎设计简单, 但网络的负载太大, 典型的元搜索引擎有METACRAWLER等。

1.5 分布式搜索引擎

分布式搜索引擎首先要创建分布式索引服务器, 用来交换中间信息, 且查询可以被重新定向。当其中一个检索服务器没有满足查询请求的信息时, 它可以请其它服务器帮忙, 将查询请求发送到具有相应信息的检索服务器。所谓分布式就是将索引数据库划分到几个分布的数据库中, 这样每个数据库就变得小了, 但所有搜索引擎覆盖的范围变大, 而且信息重复率低。由于分布式搜索引擎采用了分布式系统, 所以它也具有了可扩充的优点, 但它需要多个索引数据库协同工作, 实现较困难。

2 搜索引擎的工作机理

搜索引擎又称网络检索引擎, 其英译名为Search en-gine, robot, worm, 广义上是指一种基于WWW的信息查询系统。一个网络搜索引擎一般由信息采集器 (Spider或Crawler) 、索引数据库 (Index database) 和检索索引库的检索软件 (Search engine software) 和用户接口4部分组成。

2.1 搜索器

Spider主要负责访问各种站点, 在互联网中漫游, 发现和搜集信息, 取回Web主页的信息。运行Spider时, 它可以利用很少的起始页码将网络上的信息读回, 还可访问网页链接的其它网页, 直至遍历整个网站。搜索器的功能是在互联网中漫游, 发现和搜集信息。它不仅要又快又多地搜集各种类型的新信息, 还必须定期更新旧信息, 以避免死链接和无效链接。搜索器搜集的信息类型多种多样, 包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术, 以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。

2.2 索引器

索引器的工作是建立一个包含关键信息的索引库以备查询。索引器的策略很大程度影响了搜索引擎的效率与准确性。索引器的功能是理解搜索器所搜索的信息, 从中抽取出索引项, 用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观索引项与文档的语意内容无关, 如作者名、URL、更新时间、编码、长度、链接流行度 (Link Popularity) 等等;内容索引项是用来反映文档内容的, 如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项 (或称短语索引项) 两种。单索引项对于英文来讲是英语单词, 比较容易提取, 因为单词之间有天然的分隔符 (空格) ;对于中文等连续书写的语言, 必须进行词语的切分。索引表一般使用某种形式的倒排表 (Inversion List) , 即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置, 以便检索器计算索引项之间的相邻或接近关系 (proximity) 。索引器可以使用集中式索引算法或分布式索引算法。索引的质量很大程度上决定了一个搜索引擎的有效性。

2.3 检索器

检索软件负责提供用户使用搜索引擎的接口。检索软件的主要工作包括以下4个方面: (1) 接收、解释用户的搜索请求; (2) 查询索引库; (3) 计算网页搜索请求的关联度; (4) 提供排序后的搜索结果返回。检索器的功能是根据用户的查询在索引库中快速检出文档, 进行文档与查询的相关度评价, 对将要输出的结果进行排序, 并实现某种用户相关性反馈机制。

2.4 用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎, 高效率、全方位地从搜索引擎中得到有效、及时的信息。用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制, 如逻辑运算、相近关系、域名范围、长度等等。

3 搜索引擎存在的问题

目前的搜索引擎普遍在用户界面、搜索效果、处理效率几个方面存在不足。

(1) 过分强调查全率, 忽视了查准率的提高。当前, 主流搜索引擎 (如Google) 一般都是采用机器人自动检索技术, 它的主要缺点就是搜索的准确率相对较低。搜索引擎检索结果重复率高、搜索到的网页打不开等是当前搜索引擎技术的主要问题。

(2) 搜索引擎的查询接口标准问题。由于目前对于用户查询接口的定义没有通用的标准, 各种搜索引擎给出的实现方式很不统一, 如有的搜索引擎使用自然语言查询接口, 有的是逐次检索方式, 还有的是逻辑查询语法结合各种限制选项等。用户如果使用不同的搜索引擎, 就不得不采用不同的检索策略, 增加了用户检索的负担。同时现有搜索引擎的查询接口使用上的方便性和用户友好性都有待进一步改进。目前一些公司和机构正在考虑制定查询选项的标准, 同时, 元搜索引擎技术研究的广泛深入也为解决这方面问题提供了一条可行的途径。

(3) 搜索引擎工作检索机能满足不了用户需求。由于网络资源的膨胀和上网用户的普及, 主流搜索引擎的日处理检索请求量非常庞大, 一个优秀的搜索引擎必须要有相当高的处理速度。目前存在的主要问题是数据更新速度慢, 难以实行动态查询, 查询响应时间也较长。因此, 搜索引擎为了提高运行效率、缩短请求反应时间、可以采取包括查询请求处理缓存、建立索引、磁盘读取和网络文件系统优化等措施。

4 搜索引擎技术研究热点及其发展趋势

4.1 搜索引擎的智能化程度

所谓提高搜索引擎的智能程度也就是提高搜索引擎对用户检索提问的理解能力。自然语言智能答询的出现在一定程度上克服了关键词检索和目录查询的缺点, 通俗的说就是自然语言理解。它主要是建立一种能够给出像人那样理解、分析并回答自然语言的结果的计算机模型。自然语言理解能够使网络交流更加人性化;同时使查询变得更加方便、直接、有效, 从而提高检索效率。智能搜索引擎技术具有很好的发展前景, 功能将会更强大和完善。

4.2 检索的准确性和效率

由于网络信息过于繁杂, 一个搜索引擎不可能搜集到用户所能想到的所有相关信息, 即使信息主题收集得比较全面, 由于主题范围太宽, 很难将各主题都做得精确而又专业, 使得检索结果垃圾太多。因此建立开放的精细分类体系, 采用更有效的分词技术和排序规则是提高信息查准率的有效手段。这样以来, 垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一席之地, 比如像股票、天气、新闻等类的搜索引擎, 具有很高的针对性, 用户检索的准确性和效率也较高。此外, 还需要去掉检索结果中的冗余信息。

4.3 P2P对等网络搜索技术

P2P所包含的技术就是使联网用户共享所有用户硬盘上的文件、目录乃至整个硬盘。P2P搜索技术有很多传统目录式搜索引擎不能比拟的优点, 它可以使用户能够深度搜索文档, 而且这种搜索不用通过Web服务器, 也可以不受信息文档格式和宿主设备的限制。P2P对等网络搜索技术的进步将对提高搜索服务的质量和拓展服务功能有着非常重要的意义。

摘要:讨论了搜索引擎的分类和工作机理, 探讨了搜索引擎存在的问题、搜索引擎技术研究热点及其发展趋势。

关键词:搜索引擎,信息检索

参考文献

[1]褚亚萍, 张华, 杨汝清.搜索引擎的现状及分析[J].计算机与现代化, 2001 (5) .

[2]杜文芝.网络搜索引擎的现状及发展趋势[J].现代情报, 2001 (5) .

[3]李研, 陈新中.基于Web挖掘的智能门户搜索引擎的研究[J].计算机工程与应用, 2002 (4) .

[4]张兴华.搜索引擎技术及研究[J].现代情报, 2004 (4) .

搜索技术 篇2

ASP

ASP(Active Server Pages: Web 服务器端动态网页开发技术)被用于基于微软的网络服务器中。使用 ASP 开发的网页,一般后缀名为。asp。只要避免在 URL 中使用符号“?”,大多数搜索引擎都能够支持用 ASP 开发的动态网页。

Cold Fusion

如果你使用的是 Cold Fusion,那么你就需要在你的服务器端重新对其进行配置,使其能够将一个环境变量中的符号“?”用符号“/”代替,并将替换后的数值传给 URL。这样一来,最后到达浏览器端的就是一个静态的 URL 页。当搜索引擎对该转换后的文件进行检索时,它不会遭遇“?”,因而可继续对整个动态页的索引,从而使你的动态网页对搜索引擎仍然具有可读性。

Apache 服务器:

Apache 是最流行的 HTTP 服务器软件之一。它有一个叫做 mod_rewrite 的重写模块,即 URL 重写转向功能。该模块能够使你将包含环境变量的 URL 转换为能够为搜索引擎支持的 URL 类型,

对于那些发布后无须多少更新的网页内容如新闻,可采用该重写转向功能。

建立静态入口:

在“静动结合,以静制动”的原则指导下,还可以通过对网站做一些修改,尽可能增加动态网页的搜索引擎可见度。如将动态网页编入静态主页或网站地图的一个链接中,以静态目录的方式呈现该动页面。或者为动态页面建立一个专门的静态入口页面(gateway/entry),链接到动态页面,然后将静态入口页面递交给搜索引擎。

对一些重要的、内容相对固定的页面制作为静态网页,如包含有丰富关键词的网站介绍、用户帮助,以及含有重要页面链接的网站地图等。网站首页尽量全部采用静态形式,并将重要动态内容以文本链接方式全部呈现,虽然增加了维护工作量,但从 SEO 的角度看是值得的。也可以考虑为你的重要动态内容创建静态的镜象网站。

付费登录搜索引擎:

当然,对于整个网站都采用与数据库相连的内容管理系统(CMS)发布的动态网站而言,提高搜索引擎可见度的最直接办法就是进行付费登录,直接提交动态网页到搜索引擎目录,或做关键字广告,保证网站被搜索引擎收录。

搜索技术 篇3

关键词:搜索引擎;智能搜索引擎;图书馆

一、图书馆建立智能搜索引擎的必要性分析

随着各个高校规模的不断扩大,高校收藏的图书、文献资料的量越来越庞大,但是其传统的搜索引擎所具有的功能是比较简单的,仅仅只能对书名、作者、年份等信息来进行搜索,读者往往需要从成千上万条搜索结果中去挑选自己所想要的结果,搜索体验较低。因此,运用智能搜索引擎,能够为读者提供专业性强、针对性强的搜索服务,同时还能够在内容上进行分类,对搜索结果根据检索的关键词进行相关性排序,能够大大节约读者检索的时间,提升高校图书馆的利用效率。

二、智能搜索引擎的优势

智能搜索引擎具有很多传统搜索引擎不具备的优势:其一,与互联网的网页数量相比,图书馆的书籍文献资料要少得多,因此将每一本书当做一个页面来采取PageRank算法来进行搜索,能够大大减少检索的时间。其二,图书馆中的信息一般都是由图书馆的工作人员通过手动录入的,每一本书的相关信息是比较全面的,因此在搜索结果中不会出现作弊的现象,例如重复关键词。在这种情况下,能够减少一些不必要的设计,建立起搜索引擎是相对简单的。其三,图书馆用户对信息的检索要求并不复杂,所给出的关键词的集中度比较高,搜索引擎的接受度比较高。

三、搜索引擎技术在现代图书馆智能搜索中的应用

(一)图书馆智能搜索的PageRank算法的设计

1、个性化PageRank算法设计的基本思路

PageRank在互联网网页的搜索应用中,是通过蜘蛛(Spider)从互联网中获得网页,再以不同网页之间相互链接的次数作为依据,来对一个网页的相关性进行评价。PageRank在互联网网页搜索中的核心,是先把所有与关键词相关的网页进行初始化评分,再根据不同网页间链接次数的多少,把整体PageRank值在不同页面间流动,在经过多次的迭代和多次的反复之后达到一个平衡的位置,再以PageRank值的高低来排序。在这种模式下,与关键词相关性最高的结果一般会呈现在搜索界面上,但是PageRank值在分配的过程中没有考虑用户的个人喜爱以及历史浏览。因此,在图书馆搜索引擎的设计中使用PageRank技术,要充分考虑用户的个人信息、喜好,来进行PageRank评分,这种PageRank评分不仅要和书籍相关联,还要和用户的个性化需求相互匹配,在具体的算法设计中可以参考传统的PageRank算法,再将用户个性化的要求加入进来,进行PageRank迭代,并对搜索结构进行个性化的排序。

2、历史评价及分类PageRank的计算

历史评价和网页的人气值具有非常高的相似度,很容易计算出来,一般情况下,只是需要以用户浏览此书籍的次数为依据,就可以给出附加PageRank值。在这种算法下,是将所有的用户看成了一个整体。而分类PageRank的计算过程是相对复杂的,她需要对专业书籍专业分类的情况进行评价,可以采取与上述用户浏览书籍次数的多少来进行给出个性化的PageRank值。由于每一本书都有自己独特的分类方式,在处理分类中相关分类间的关系,可以通过PageRank值来传递。以用户所选定的分类特征为依据,将其作为PageRank源,再在各个分类之间让PageRank值迭代,再以用户的需求选择来匹配相关性最高的分类图书,可以聘请学校各个专业的学科人士来处理,以他们的专业意见为标准,来分配比较合理的阻尼系数,同时,这些阻尼系数还可以根据用户的历史浏览记录来进行一定的优化,进而使得所搜索的结果能够更好地满足用户的需求。

3、建立数组型PageRank

不同的用户有不同的需求,因此,在设计过程中,不能将PageRank值作为一个单一的情况来处理,而要注重搜索引擎的分类化与搜索引擎的个性化。将PageRank值进行优化处理,建立一个数组,当然,这个数组是可以设计成一个多维的数组,其中包含有传统的PageRank值、个性化的PageRank值、历史评价的PageRank值、分类化的PageRank值等。图书馆智能搜索引擎,需要以用户的需求为依据,对这一多维数组中的各项PageRank值进行加权组合处理。用户在进行信息搜索的时候,可以根据自己的需求来进行有优先原则的搜索,使得所返回的搜索结果能够体现用户的不同特征的需求,进而使得用户在最短的时间获得自己所需要的信息。

(二)高校图书馆系统采用智能搜索引擎的改进措施

1、图书馆数据库的改进措施

目前,各个高校的图书信息查询系统还需要对现有的数据库进行完善。需要增加一些新的数据库,来保存书籍文献资料的检索相关性信息,这里面包含了现代书籍资料的电子化,学科分类、参考文献、出版社、发表时间等信息的录入。另外,还需要在图书馆传统数据库中添加一些新的字段来保存相关的PageRank值,建立和用户相关的数据库用来保存用户的个性化需求及用户的浏览历史记录,进而为对书籍文献资料的相关性统计分析奠定基础,进而得出关键词的相关性结果。

2、图书馆搜索引擎的改进措施

在传统搜索中,用户通过书名、作者、发表时间、出版社等信息来进行检索,搜索的结果需要SQL语句作为支持,而要实现前文所述的智能搜索,便需要对这种搜索引擎进行改进。首先,搜索引擎要对用户检索时所输入的关键词或关键字进行自然语言分析,进而更加准确地理解用户所需要的信息,甚至,還要对用户的语言习惯偏好进行深入分析,例如,繁体字以及少数民族的文字等。同时,要加入对PageRank值进行迭代的功能,这样使得搜索引擎可以根据用户所提供的关键词来以PageRank值为依据来对返回的搜索结果进行排序,使得搜索结果更加符合使用者的需求。

3、构建用户信息反馈系统

传统搜索仅仅是对用户的信息搜索结果的简单罗列,即用户向搜索引擎提供所需要检索的关键词,搜索引擎在其数据库中检索相应的信息,并呈现给用户。而智能搜索引擎在图书馆的应用,需要对搜索结果页面的搜索结果进行排序,而要使得这种排序更加满足用户的需求,就需要根据用户的习惯、爱好、知识背景等信息,来重新分配PageRank值,提升用户检索的便捷性与有效性。

四、结束语

目前,我国很多高校在数字图书馆的建设还处于起步阶段,而智能搜索引擎技术具有人机接口智能化、信息服务功能个性化、跨平台多文档处理等诸多传统搜索不具备的优势。将其应用于数字图书馆的建设,具有重要的现实意义。随着搜索引擎技术的不断发展以及人们对信息检索的需求的发展,搜索引擎的更新迭代速度将会更快,有必要加强对搜索引擎技术的研究。

(作者单位:西安思源学院)

参考文献:

[1] 罗志尧,周群芳.论搜索引擎在现代图书馆中的应用[J].高教与经济,2014,No.6604:19-21.

[2] 余艳.搜索引擎原理剖析及其技术发展[J].图书馆学刊,2013,01:58-60.

搜索引擎技术探究 篇4

面对着海洋似地互联网数据,用户要查询到自己所需要的信息,如同在大海里捞针,而搜索引擎技术的出现恰好解决了这一难题。搜索引擎技术目前已经成为研究开发的热点领域。

一个成功的优秀的搜索引擎能够对互联网上的信息经过特定的检索策略,对各类信息进行搜集、挖掘和归类整理,并能够分析用户的要求,按照用户的要求和个人习惯进行组织安排,从而达到用户快速检索信息的目的。

1搜索引擎的分类

搜索引擎按工作方式一般可分为三种:全文搜索引擎、目录索引搜索引擎和原搜索引擎。

1.1全文搜索引擎:全文搜索引擎是目前广泛应用的名副其实的主流搜索引擎,国外最具代表性的是国内著名的百度(Google)。它的工作原理是索引程序通过对文章中的每一个词进行扫描,对每一个词建立相应的索引,并指明出现的位置和频率,一旦检索,它就类似于通过新华字典中的检索表来查字的过程,根据事先建立的索引进行查找。

从搜索过程又可细分为两种,一种是拥有检索程序,俗称“机器人(Robot)”或 “蜘蛛(Spider)”程序,能自行建立网页数据库,其搜索结果直接从自己的数据库中调用;另一种则租用其他搜索引擎的数据库,然后按自定的格式排列搜索的结果。

1.2目录索引:目录索引中最具代表性的雅虎,它是将网站分门别类地存放在相应的目录中,是按目录分级列表链接。 查询时,按分类目录找到需要的信息。

1.3元搜索引擎:元搜索引擎就是通过专门的检索界面,在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作,其过程是:通过先对请求进行预先处理,转换为底层可以处理的格式,然后再向上递交,最后汇总各搜索引擎的检索结果,将其进行各种处理后,将结果返回。其优点是返回结果的信息量全面,充实;缺点是不能够充分利用所选用搜索引擎的功能,使用户需要做更多的筛选。

几种非主流形式:

集合式搜索引擎:是由用户从提供的数量有限的引擎中进行筛选。它可以集合一些搜索引擎的特点,容易准确的找到目标内容。

免费链接列表(Free For All inks, 简称FFA) :一般只简单地滚动链接条目,只有少部分有简单的目录,不过规模和Yahoo等目录索引来比起来要小得多。

2搜索引擎技术的发展动态

2.1不断融合的发展方向

目前,各类搜索引擎不是并行发展, 而是一个逐步融合,完善的过程。元搜索引擎就是一个典型的例子。机器人搜索引擎的优点是具有非常大的信息量,人力资源耗费的很小,但是精确度却不高,而目录式搜索引擎的优点恰恰相反,具有有效准确的信息,而唯一的缺点是信息量比较小,维护目录耗费巨大的人力资源,但是元搜索引擎却综合了上述两者的优点。

2.2文本信息挖掘技术

它是将数据挖掘的思想运用到文本信息处理中的一项技术。它涉及到文本各方面的技术,包括文本的分类、索引、聚类、查询匹配等各项技术,现在引入了人工智能的处理方式、数据挖掘技术等新的思路,在Web个人浏览工具中存在着更广泛的应用。而基于Web的文本信息挖掘技术大大提高了用户查询匹配的精度,文本分类的准确度以及文本索引对文本描述的全面性。

2.3 Robot技术

Robot技术大大可以代人长时间工作,可以为人更好的工作,但它的盲目性也给网络带来了困扰,灵活性也不高,降低了搜索信息的难度,随着分布式处理技术的出现和发展,Robot技术现在向分布式发展,改变了以往的集中性,也就是各个Robot之间协同合作共同工作,1个Robot只采集特定区域的信息,这样Robot采集信息速度提高了。同时也可以对Robot的路径选择、运行周期等实施控制,也降低了盲目性。

另外,随着网络应用的增多,现在出现了搜索FTP、Use Net的Robot,搜索的范围更宽了。

2.4移动代理技术

在现有的WWW和客户机/ 服务器(C/S)环境下,搜索引擎面临2个瓶颈。第一是在C/S的计算模式下,系统需要将检索的信息下载到本地存储并进行处理, 从而造成了网络资源的拥堵和浪费。而Robot也并不是实时跟踪目标变化情况, 因为要到达降低网络负载,只能进行定期检测。出现了信息更新慢,搜索结果过期。 另外互联网又是一个超大规模异构的分布式数据库系统,所包含的数据是半结构化。搜索引擎的文本信息处理的就是将这些不规范的数据信息进行结构化处理。为了解决这一问题,此时就需要建立半结构化数据模型来描述互联网上的数据和使用结构化数据抽取技术。

移动代理技术是一种分布式计算技术,是一种指在异构互联网环境中的主机之间具有移动能力的、能够自主运行的、 按照要求完成指定任务的计算机程序。在该模式下,客户端机向服务器提交的不是简单请求,而与服务器紧密联系,进行数据(包含代码)的预取,实现自适应调整机制、管理作用域范围内的等。移动对象可以代表用户,按“程序围绕数据”的原则, 在服务器间自主移动,完成数据处理的任务。该模式的应用程序可以大大节省网络,提高服务速度,并能智能化地自主异步执行,能够模拟人类行为和关系。

3总结

搜索技术 篇5

2011-05-30 21:35:37 来自: 我会考上!!(不许扯我后腿!我要长大!)http://pLINKer(cnpiec LINK service)在线数据库检索系统,并正式开通运行。cnpLINKer即“中图链接服务”,目前主要提供约3600种国外期刊的目次和文摘的查询检索、电子全文链接及期刊国内馆藏查询功能.并时时与国外出版社保持数据内容的一致性和最新性.点评:只提供了外文检索的功能,但是无法得到全文。个人认为不是很理想。3.专家个人主页搜索引擎

http://hpsearch.uni-trier.de/ 搜索专家们的主页,各位可以看看,具体的好处我还要进一步的挖掘各位也可以提一些建议。4.InfoSeek http://kikw”这个cnki常用密码进行搜索,然后搜索到的资源还是很多,至少感觉比百度强。就是缺少快照。但是也不错!他的功能还要进一步挖掘!6。Lycos http://

多功能搜索引擎,提供类目、网站、图象及声音文件等多种检索功能。目录分类规范细致,类目设置较好,网站归类较准确,提要简明扼要。收录丰富。搜索结果精确度较高,尤其是搜索图像和声音文件上的功能很强。有高级检索功能,支持逻辑条件限制查询。

点评:在搜索其他的国外免费资源的时候我发现还是比较好用,但是对于学术资源的搜索,我觉得至今还没有挖掘出他的潜力。7.http://

Google在同一水平的搜索引擎。是Amazon.com推出的,Web result部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。现在还是Beta,不过试用后感觉很好,向大家推荐一试,不过缺憾是现在书本内搜索没有中文内容。8。http://vivisimo.com/

推荐一个很有特色的搜索引擎 http://vivisimo.com/,cmu的作品,对搜索的内容进行分类,这样可以有效地做出选择,比较有特色。可实现分类检索,检索速度也很好,如EBSCO 密码几分钟就可找一大堆.http://search.epnet.com/

技术变革:搜索市场的营销蝶变 篇6

8月18日上午9点30分,距“2009百度技术创新大会”正式开幕还有30分钟,能容纳2000人的中国大饭店会议厅已经座无虚席,最终,还有上百人站着听完了百度创始人兼CEO李彦宏的主题演讲。而在这里面除了技术发烧友外,谋求在搜索营销方面突围的企业广告主占了绝大比例。

百度也不负众望。在2009百度技术创新大会的“搜索营销”分论坛上,技术创新为搜索营销开辟了全新的变革空间,提升ROL、目标更精准、效果更显著、成本更低廉,这一切都随着百度发布的一系列新营销辅助工具而变得易如反掌。除了业已露面的全新凤巢广告系统外,百度还正式向外界发布了百度司南、百度统计等全新产品。同时,“框计算”(BoxComputing)技术理念的推出将对营销产生积极影响,引起业界的强烈关注。

百度此举引起如此瞩目关注,与当下的中国“互联网化”的广泛普及密不可分,目前,中国搜索引擎用户规模达2.46亿人之多,全年中国网页搜索请求量累积达1500亿次。毋庸置疑,中国正成为全球第一大搜索引擎市场,全面进入“搜索引擎”时代,也开始全面吸引企业的市场拓展费用流入。随着信息的海量化,搜索引擎的普遍应用将是互联网产业持续发展的必然趋势,与此同时,搜索引擎所产生的精准有效的营销价值越来越受到企业的认可再所难免。尤其是在经济萧条时期,搜索引擎已成为广告主获取最大投资回报率的营销利器之一。

产品:彰显营销效果

每年的百度技术创新大会都会吸引一大批技术大腕的捧场,百度司南、百度统计等创新型产品的落地,让广告主的期待没有落空。一位广告主人士表示:“这些新产品可以有效改善营销效果,总算没有白跑一趟。”

“司南”是百度最新的广告决策支持系统,它基于百度积累的海量网民行为数据和行为分析技术,能帮助广告主在网络上找到更多、更合适的潜在用户,使广告投放更加精准有效。百度商业应用产品市场部高级总监王湛在接受记者采访时表示,百度覆盖了中国95%以上的网民,“司南”可以为广告主进行营销提供参考。客户可以针对自己感兴趣的人群的行为特征,直接选择在百度上投放搜索推广、精准广告、关联广告等形式的推广,也能了解到关注自己品牌的人群对不同行业和不同品牌的关注度,制定相关的市场竞争策略,针对目标受众人群制定自己的产品策略和推广计划,起到事半功倍的效果。

与“司南”对网民行为的分析比,百度统计更提供了流量统计、来访分析、搜索引擎关键字分析、访客分析、有效用户量、流失量等多种统计分析相关服务,还可以人性化地把需要分析的东西直接固化成分析报告,通过百度统计和百度推广的紧密绑定,能有效地帮助站长管理网站,优化推广效果,是网站运营和广告主广告投放的有效依据。

互联网使得传统的广告传播模式发生彻底的改变,对于消费者不想接受的信息,永远也不会到达他们。大多数时候的产品广告属于他们并不想主动接收的信息,而大多数网络广告是他们认定为“骚扰”型的强迫广告,其命运往往是随看即关。网络使得消费者不仅改变了媒体消费习惯,也改变着消费行为。网上搜寻产品信息已经不是一种时尚,而是生活的必需,他们通过搜索引擎去找东西,不像广告的广告在此频频出现。

可以说,搜索引擎逐渐成为消费者自觉的媒体形式,他们积极主动地应用此媒体,发起搜索行为,寻找感兴趣的品牌信息,作为自己的消费参考同时分享传播他们认为有兴趣或重要的信息。与传统的大众传播媒体相比,这个新型媒体具有超常的目标使用群(是使用者而不是受众)——在搜索引擎上,目标使用群明确表明了他们的消费需求,因此,这使得与之相匹配的广告效果事半功倍。

突破:技术驱动搜索营销蝶变

“我们可以把用户搜索的行为按照偏好度进行分门别类,目前已有100个以上的分类,可以满足大部分客户的营销需要和目标用户群的锁定。事实上,在过去,百度销售人员会见客户都会带着商业运营部门人员,帮助客户做投放前的决策,而客户往往在谈及用户数据时,两眼放光。”王湛表示,因为这的确可以帮助客户优化投放和提升营销效果。司南恰恰扮演了这样一个角色。随着司南产品的推出,广告主客户可轻易实现。而这恰恰是技术驱动搜索营销变革的蝶变。

与其他营销方式比,搜索本身通过关键词更能锁定用户的兴趣和需求倾向,“司南”的目的即是将隐性的用户需求显形化,帮助广告主更直观地捕捉用户需求,比如汽车行业的客户可以轻松地了解到有购车打算的人群对车型和价位的喜好,电子商务的客户可以知晓有网上购物习惯的人群最感兴趣的品牌,IT企业可以轻松地把握采购人员对各品牌的倾向程度。

在“百度司南”、“百度统计”推出前,凤巢广告系统已成为百度创新驱动搜索营销变革的典范。百度商业运营副总裁沈皓瑜表示,新的风巢系统,要求广告只有是真正符合用户搜索的关键词,而且真正是用户喜欢并认可的信息,才能够被予以好的推广和展现。“凤巢推出时,考虑到过渡,并未采取强制策略,但客户主动应用的比例持续增长,4个月的时间内,有近10万客户使用了升级版的凤巢系统。如果效果不好的话,客户会主动放弃。这也证明了该系统获得了几乎所有客户的认可。”

美国eMa rketer CEO GeoffreyRamsey曾说过:“When ROI is amarketing goal,search delivers ito”(当ROI成为营销目标时,搜索引擎能够实现这个目标)。百度的实践证明了这一点,搜索引擎营销能够帮助广告主精准地锁定目标人群,不仅能有效促进销售,也能极大地提升品牌,鱼和熊掌兼得,并且使营销效果变得越来越透明和可衡量。

同时,互联网不是一个传统意义的大众媒体,而是一个可以不断创造媒体的互动传播平台。消费者在互联网上具有双重身份,既是使用者也是传播者。在这个平台上,消费者拒绝强迫性广告形式的不断弹出,却青睐、热衷并传播着自己感兴趣的产品信息的主动搜索。因此,可以预计,搜索引擎营销必将会成为广告主整合营销中的必要环节,线下与线上的营销活动结合将成为一种趋势,因为搜索满足了品牌同用户深度互动的需求。

价值:第三方机构肯定搜索营销

技术创新对营销的推动,受到业界的关注。第三方机构MillwardBrown发布的《中国搜索引擎价值研究报告》,充分肯定了搜索引擎的营销价值,同时也为企业进行搜索引擎营销提供了依据。他们认为,搜索营销的ROI中,应该包括曝光,而不仅仅是点击和转化率,这样才是更准确地衡量其有效性。

《中国搜索引擎价值研究报告>调研结果表明,在搜索结果页面投放的广告,其价值不仅仅在于吸引点击,这些广告同样可以有助于品牌建设。报告指出,搜索营销可以有效提升品牌认知度,吸引用户进一步了解品牌,提升对品牌的好感度,并使用户表现出更高的购买意愿。尤其是百度在搜索营销创新上的努力,将让搜索营销的价值更为突出。

报告显示,80%的用户在搜索产品时并没有明显倾向,通过在搜索结果页面投放广告,可以有效引导他们对品牌的意向。Millwa rdBrown还建议,基于用户对于搜索引擎的高黏度,快消品牌和奢侈品牌的广告主应加强SEM,作为品牌建设的工具。

搜索引擎优化技术研究 篇7

随着互联网的发展, 网络已成为我们生活和工作的重要组成部分, 网民数量急剧增加, 网络资源丰富多样。对于开发人员而言, 增加网站的访问量、获得客户资源, 是建设网站尤其是企业类网站的初衷。事实表明, 一个设计优秀的网站, 用户对网站的访问量上有六到八成的访问是通过搜索引擎自然检索而访问的。每个企业都想将自己的产品在搜索引擎中排在同类产品的前面, 以便更多的潜在客户点击访问。通过各种方法对网站的搜索引擎优化可以使得网站的自然排名提前。

2 搜索引擎的定义 (Definition of search engine)

搜索引擎是一个对互联网上的信息资源进行搜索整理[1,2], 对数以亿计的网页中的每一个文字 (即关键词) 进行索引, 建立索引数据库, 提供用户查询的系统。当用户在搜索引擎中输入某个关键词进行探索时, 搜索引擎通过复杂的算法分析, 将包含了用户输入的关键词的网页都搜索出来。将这些搜索出来的网页按照一定的顺序依次排列。当用户需要通过网络了解某一方面的信息时, 只需要在搜索引擎中输入自己需要查找的内容, 搜索引擎就可以方便的帮用户搜索到结果, 而且搜索引擎也为信息提供者提供了一种高效的发布途径。常用的搜索系统有谷哥 (Google) 、百度 (Baidu) 、雅虎 (Yooho) 等。

搜索引擎通过探测器在互联网上抓取网页, 并对这些网页进行存储、分类、整理、压缩, 再根据搜索引擎的算法对网页进行编目与索引, 并在这个过程中对网站进行质量评估, 将有价值的网页进行索引, 质量差的网页排除。当用户通过搜索引擎进行搜索时, 搜索引擎根据一定的标准将搜索到的结果显示给用户, 在搜索结果的排名中, 搜索引擎会最有价值的推荐在首位, 较次的排在其他, 以此类推。

3 搜索引擎优化的定义 (Definition of search engineoptimization)

搜索引擎优化, 又称为SEO, 即Search EngineOptimization, 它是一种通过分析搜索引擎的排名规律, 了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。搜索引擎采用易于被搜索引用的手段, 对网站进行有针对性的优化, 提高网站在搜索引擎中的自然排名, 吸引更多的用户访问网站, 提高网站的访问量, 提高网站的销售能力和宣传能力, 从而提升网站的品牌效应。可以简单的将搜索引擎优化理解为一种让某产品或某服务在百度、谷歌、雅虎等搜索引擎中获得良好的排名而赢得更多的潜在客户的技术, 它是进行网站推广、提高网站排名的重要手段之一。

搜索引擎优化公式:SEO=∫CLOCK=∫C1+L2+K3+O4, 其中, ∫是一个积分符号, C=content (内容) , L=link (链接) , K=keywords (关键字) , O=others (其他因素) , 数字表示重要程度。因此, SEO就是一个长期的对“时间”积分的过程, 内容是首要核心, 其次是合理、有效、丰富的内部链接和PR值高的外部链接。PR (PageRank) 值是用来标识网页的等级和重要性, 是搜索引擎排名运算法则 (排名公式) 的一部分。PR分1-10个等级, PR值检查链接该网站的网站个数以及链接该网站的网站是否优秀, 这个值越高说明网站越重要, 在搜索排名中就会靠前。另外关键字是影响网站自然排名的第三个因素。影响搜索引擎自然排名的因素还包括域名、网站架构、服务器、排版等其他因素的影响, 因而对搜索引擎的优化设计是多方面的。

4 搜索引擎优化技术 (Search engine optimizationtechnology)

搜索引擎加强了企业与客户的沟通, 搜索引擎的优化技术有以下几个方面:

4.1 主题要明确, 内容要丰富

在设计制作网站之前, 要清晰设定网络的主题、用途和内容。根据不同的用途来定位网站特性, 可以是销售平台也可以是宣传网站, 网站主题须明确突出, 内容丰富饱满, 以符合用户体验为原则。对于一个网站来说, 优化网站的主题与实际内容才是最为重要的。一个网站需要有鲜明的主题, 丰富的与主题相关的内容, 专注于某些领域的变化的, 及时更新。

4.2 引出链接要人气化

搜索引擎判断网站的好坏的一个标准是外部链接的多少以及所链接的网站质量。创建有人气化的、有意义的引出链接, 提高链接广泛度, 既能提高在搜索引擎的排名, 同时也可以起到互相宣传的作用。研究表明:当一个网站的链接PR值达到4-6, 那么这个网页的访问量比较好;当链接PR值达到7以上, 那么网站的质量与知名度都很优秀了。如果一个网页被其他网页链接得越多, 那么该网页越有可能有最新和最有价值的高质量网页。

尽可能增加与行业网站、地区商务平台和合作伙伴网站之间的链接, 被PR高的网站引用能更快地提高本站的PR, 同时开发人员可以在访问量较大、PR值较高网站上发表与网站主题以及业务相关的信息, 用户在别的网站看到这些信息, 进而访问该网站, 即通过外部链接来提高该网站的访问量。

4.3 关键词设定要突出

网站的关键词非常重要, 它决定网站是否能被用户搜索到, 因此在关键词的选择上要特意注意。关键词的选择必须突出, 遵循一定的原则, 如:关键词要与网站主题相关, 不要一味的追求热门词汇;避免使用含义很广的一般性词汇;根据产品的种类及特性, 尽可能选取具体的词;选取人们在使用搜索引擎时常用到与网站所需推广的产品及服务相关的词。5至10个关键词数量是比较适中的, 密度可为2%—8%。要重视在标题 (Page Title) 、段落标题 (Heading) 这两个网页中最重要最显眼的位置体现关键词, 还须在网页内容、图片的alt属性、META标签等网页描述上均可不同的程度设置突出关键词。

4.4 网站架构层次要清晰

网站结构上尽量避免采用框架结构, 导航条尽量不使用FLASH按钮[3]。首先要重视网站首页的设计, 因为网站的首页被搜索引擎检测到的概率要比其他网页大得多。通常要将网站的首页文件放在网站的根目录下, 因为根目录下的检索速度最快。其次要注意网站的层次 (即子目录) 不宜太多, 一级目录不超过两个层次, 详细目录也不要超过四个层次。最后, 网站的导航尽量使用纯文字进行导航, 因为文本要比图片表达的信息更多。

4.5 页面容量要合理化

网页分为静态网页与动态网页两种, 动态网页即具有交互功能的网页, 也就是通过数据库搜索返回数据, 这样搜索引擎在搜索时所费的时间较长, 而且一旦数据库中的内容更新, 搜索引擎抓取的数据也不再准确, 所以搜索引擎很少收录动态网页, 排名结果也不好。而静态网页不具备交互功能, 即单纯的信息介绍, 搜索引擎搜索时所费时间短, 而且准确, 所以愿意收录, 排名结果比较好。所以网站要尽量使用静态网页, 减少使用动态网页。

网页容量越小显示速度越快, 对搜索引擎蜘蛛程序的友好度越高, 因而在制作网页的时候要尽量精简HTML代码, 通常网页容量不超过15kB。网页中的Java.script和CSS尽可能和网页分离。应该鼓励遵循W3C的规范使用, 更规范的XHTML和XML作为显示格式。

4.6 网站导航要清晰化

搜素引擎是通过专有的蜘蛛程序来查找出每一个网页上的HTML代码, 当网页上有链接时就逐个搜索, 直到没有指向任何页面的链接。蜘蛛程序需要访问完所有的页面需要花费很长的时间, 所以网站的导航需要便于蜘蛛程序进行索引收录。可根据自己的网站结构, 制作网站地图simemap.html, 在网页地图中列出网站所有子栏目的链接, 并将网站中所有的文件放在网站的根目录下。网站地图可增加搜索引擎友好度, 可让蜘蛛程序快速访问整个站点上的所有网页和栏目。

4.7 网站发布要更新

为了更好的实现与搜索引擎对话, 将经过优化的企业网站主动提交到各搜索引擎, 让其免费收录, 争取较好的自然排名[4]。一个网站如果能够进行有规律的更新, 那么搜索引擎更容易收录。因而合理的更新网站也是搜索引擎优化的一个重要方法。

5 结论 (Conclusion)

企业网站为了提高在电子商务中的竞争力会使用很多网络推广的方法, 针对不同的搜索引擎进行合理的搜索引擎优化是网站维护中的重要工作。在搜索引擎中会经常更新对网站排名的规则, 而规则的改变也会影响到网站的排名, 使得网站的排名发生变化。所以在网站的维护中应该根据搜索引擎排名算法的变化而更新自己网站的搜索引擎优化, 以适应变化。

参考文献

[1]Bing Liu, 著.俞勇, 等, 译.WEB数据挖掘[M].北京:清华大学出版社, 2009.

[2]赖雯雯.浅议电子商务网站的搜索引擎优化[J].科技创新导报, 2011, 21:21.

[3]刘芳.电子商务网站营销初探[J].中小企业管理与科技, 2011, 24:282.

网站信息搜索技术与技巧 篇8

关键词:网站信息,搜索技巧,检索工具,搜索引擎

在网络时代, 网络的信息海量存在, 人们已经渐渐习惯在网络上看新闻, 查资料, 找答案。网上信息资源具有如下几个特点:1、信息资源非常丰富, 覆盖面广;2、提供信息资源的方式多样;3、价格低廉, 有时甚至是免费的;4、涉及的内容和用户广泛, 有时甚至可以直接进行交流;5、网上的内容一般是非正式和自由发表;6、信息内容海量、分散、无序, 难以控制;7、信息的可靠性、真实性、合法性无法得到保证。在浩如烟海的网络资源中, 如何快速准确地找到自己想要的资料, 这需要使用一定的技术与技巧。

在网络中检索网络信息的一般方法是浏览网页, 偶然可以发现感兴趣或是有价值的信息, 然后顺着相关链接而继续浏览相关的网页内容, 这种检索方法随意性很大, 有时看了大量的网页, 还是没能找到你需要的资料, 所以这种方法效率很低, 除非是无目的地上网浏览, 否则, 大多数人都会利用检索工具来帮助查找自己所需的资料。所谓的检索工具, 一般可以分成三类:1、目录型检索工具 (主题指南) ;2、搜索引擎;3、网络导航等。人们根据自己所找的资料的性质不同可以选择不同的检索工具来帮助自己搜索所需的资料。下面分别阐述各种检索特点和优缺点。

一、目录型检索工具

为了帮助Internet上用户方便地查询到所需要的信息, 人们按照图书馆管理书目的方法设置了网上目录。网上目录一般以主题方式来组织, 大主题下又包括若干小主题, 这样一层一层地查下去, 直到查到比较具体的信息标题。这就是目录型检索工具, 也称主分类站点目录, 专题目录, 主题指南, 站点导航等, 它是按等级排列的主题类索引, 排列的方法有字母顺序法、时间顺序法、地点法、主题法等等, 或者各种方法综合使用。它是将网络信息资源搜集后, 以某种分类法进行整理, 并和检索法集成在一起的检索方式。它能让用户通过主题浏览Web站点列表、检索相关信息。

网络目录一般采用人工方式和机器自动处理方式结合进行, 在效率和效果上求得平衡。目录型检索工具的使用方法是:1、选择目录大类中的项目, 然后一步步地缩小范围;2、用一个含义较广的关键词 (如科学、教育技术、高职高专等) 查询, 然后继续点击更详细的标题;3、如果一个目录不能给你合适的结果, 可以用另一个试试。通常目录间会有很大的差别。

目录型检索工具的优点是:1、目录结构人工选择;2、学术性强;3、分类浏览直观, 适合新手;4、适合目的不明确的检索;5、降低了检索结果不相关的可能性;6、同一主题下的信息相对集中。缺点是:1、数据库的规模相对较小, 检索到的信息数量有限, 收录不全面;2、更新、维护速度或周期慢, 死链较多;3、分类体系不一定为用户熟悉。综上所述, 目录型检索工具一般适合于查找综合性、概括性的主题概念, 或是对检索准确度要求较高的课题。常用的目录型检索工具有:国内:中文雅虎http://cn.yahoo.com/;搜狐:http://dir.sohu.com/;"所有Soyou"http://www.soyou.com.cn等, 国外:http://www.yahoo.com;http://www.galaxy.com;http://www.vlib.org等。

二、搜索引擎

搜索引擎 (search engine) 是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息, 在对信息进行组织和处理后, 将处理结果信息显示给用户, 是为用户提供检索服务的系统。搜索引擎使用自动索引软件来发现、收集并标引网页, 建立数据库, 从使用者的角度来看, 搜索引擎以Web形式提供给用户一个检索界面, 供用户输入检索关键词、词组或短语等检索项;通过浏览器提交给搜索引擎后, 搜索引擎就会返回跟用户输入的内容相关的信息列表, 从而代替用户在数据库中找出与提问匹配的记录;返回的结果会按一定的相关度排序输出。搜索引擎又称网络资源的关键词索引, 强调的是检索功能。

搜索引擎优点是: (1) 信息新颖, 数量巨大。搜索引擎的最大的优点是在WWW上的综合覆盖面大, 信息新颖。 (2) 可检索到部分高质量、专指性强的信息。利用搜索引擎还可以检索到部分高质量的学术期刊和论文, 其中有些刊物和论文仅以电子版发行。搜索引擎最擅长检索那些处于"灰色地带"、不易归类的主题以及一些专指性很强的词汇。 (3) 可检索到相关性高的信息。搜索引擎能够将其认为相关性高的检索结果排列在前。此外, 不同的搜索引擎具有不同的检索功能和特色。总体来说, 在用户需要进行范围广泛的查询, 而且有时间筛选检索到的大量信息的情况下, 搜索引擎具有极高的价值。

搜索引擎缺点是: (1) 信息质量不高。这是搜索引擎的主要缺点。检索到的资料缺乏权威性, 缺乏像书刊出版社一样的审查录用机构对资料的质量把关, 资料不准确, 过时等, 搜索引擎对检索到的资料不提供任何解释, 也不提供任何质量方面的标识。 (2) 信息内容重复。搜索引擎的检索结果中还经常重复出现同一信息资源的不同部分。 (3) 费时费力。与商业性联机检索数据库相比较, 利用搜索引擎检索常常要花费大量时间进行搜索、浏览、筛选, 因此比较费时费力。此外, 搜索引擎通常仅限于检索WWW上的信息, 检索其他信息则需要考虑使用其他检索工具。

由此可见, 搜索引擎比较适合于检索特定的信息及较为专、深、具体或类属不明确的课题。

搜索引擎代表:1、Google:http://www.google.com;2、百度:http://www.baidu.com/;3、天网:http://e.pku.edu.cn。

搜索引擎通过描述资源信息的特征来定位索引的资源, 使用方法如下:1、通过关键词索引 (所有词条、术语、词条的组合) , 这是最普遍最常用的一种方法。2、通过网页标题索引。3、通过资源的定位 (URL) 索引。4、通过网站的属性索引。5、通过文档的类型 (Filetype) 索引等等。下面以搜索引擎Google为例, 根据不同检索的方法, 说说相关的搜索技巧。

在没有任何限定情况下, Google自动分解输入的检索词。

例如检索:梅县教师进修学校, 该词组会被自动分解为:梅县、教师、进修、学校四个词, 四个词的任意组合的短语 (术语) 都被认为是检索词, 并进行检索。当然, 同时包含这四个词的相关网页会排在最前面, 然后再根据相关关系的紧密程度来排列。

实际使用过程中我们可以活用Google搜索技巧。

1、使用双引号。

使用双引号表示强迫搜寻完整词组, 在想要进行确定短语搜索, 而不进行自动关键词拆分的时候使用。范例:在检索框中输入:"国庆旅游", 将以 (国庆旅游) 四个字, 作为完整的关键词来查询, 不再拆分关键词组。

2、使用「+」或「空格」。

当想要查询两个关键词都包含的网页时使用。范例:在检索框中输入:C语言课程设计或C语言+课程设计, 就可以找到有关C语言课程设计相关资料的极大值。注意使用「+」时不可以有空格。

3、使用「-」。

当想要缩小搜索范围, 从关键词1检索结果中取出含有关键词2的部分资料时使用。范例:拖拉机-游戏, 这时就不会出现拖拉机游戏、网上拖拉机等不相关的网页资料。注意使用时在「-」号之间要先空一格。

4、使用「OR」。

当要查询与关键词1与关键词2的相关数据时使用, 使用方法是:「关键词1」+「空格」+「OR」+「空格」+「关键词2」。范例:四级OR CET4, 会按照「四级」→「CET4」→「四级CET4」这样的检索词顺序显示检索结果。注意使用时OR一定要大写。

5、使用「site」。

当要查询单一网站中的资料或是限定查询资料的网页国籍时使用。使用方法是:「关键词」+「site」+「:」「网站名称」or「国别」。范例:MPA site edu.cn, 表示在教育网中查找有关MPA的网页资源。注意使用时在查询的网站前面不可加上「http」以及「www」的网址部份连结的网页。

6、使用「inurl」。

当想要更精确定位在网页中的资料, 针对特定连结做搜寻时使用。使用方法是:「inurl」+「:」+「关键词1」+「空格」+「关键词2」。范例:inurl mp3神话, 检索出所有资源URL中含有mp3、网页中还有"神话"的网页资源。注意使用时「inurl」后面续接的关键词不可以有空格。

7、使用「intitle」。

当要查询特定标题网页中的资料时使用。使用方法是:「intitle」+「:」+「关键词1」+「空格」+「关键词2」。范例:intitle:免费软件下载, 将检索出所有资源网页Title中含有免费软件下载的网页资源。注意使用时「intitle」检索语与关键词间不可以有空格。

8、使用「filetype」。

当要查询特定类别的文献资料时使用。使用方法是:「filetype」+「:」+「档案类型」+「空格」+「关键词1」。范例:filetype:DOC高校教师继续教育, 检索出所有资源内容包含"高校教师继续教育"的Word文档资源。注意使用此检索方式之前, 确定其网的文献资源的扩展名。

9、利用google的一些特色服务, 查询特殊的信息结果, 例如:

货币转换;计算器;股票查询;英汉互译;天气查询;邮编区号;手机号码;定义等。

综上所述, 当需要在网络中查找所需资料时, 适当采用一些搜索技术去帮助搜索, 可以比较快速准确地定位到你想要查找的资料, 起到事半功倍的效果。

参考文献

[1]谭启慧, Google搜索引擎功能及其使用技巧[J].科技情报开发与经济, 2007 (15) .

[2]邹小筑, 搜索引擎的选择与使用技巧, 图书馆研究, 2002.第5期

[3]李艳梅, 浅议搜索引擎google, 现代情报, 2003.7

[4]李育嫦;搜索引擎中完善关键词检索功能的探索[J];图书与情报;2003年05期

搜索引擎排序技术的优化 篇9

随着互联网的不断发展和日益普及, 网上的信息量在爆炸性的增长。当用户大致上知道自己要关心的内容, 但不清楚哪里能够找到相关信息 (即不知道哪些URL能给出这样的信息) 的时候, 搜索引擎能够为用户提供一个相关内容的网址及其摘要的列表, 由用户一个个试探看是否为自己需要的。搜索引擎通常指的是一种在Web上应用的软件系统, 它以一定的策略在Web上搜集和发现信息, 在对信息进行处理和组织后, 为用户提供Web信息查询服务。如下图1, 搜索引擎通常会提供一个网页界面, 让用户向浏览器提交一个词语或者短语q, 然后很快返回一个可能和用户输入内容相关的信息列表L。

这个列表中的每一条目代表一篇网页, 至少有3个元素:标题 (以某种方式得到的网页内容的标题) , URL (该网页对应的“访问地址”) 和摘要 (以某种方式得到的网页内容的摘要) 。通过浏览条目上的这些元素, 用户对相应的网页是否真正包含他所需的信息进行判断。

2 Google采用的Page Rank技术原理

2.1 Page Rank概念

众所周知, 目前Google搜索引擎是现在世界上最流行的搜索引擎, 也是最成功的搜索引擎。Google的排名运算法则主要使用了两个部分, 第一个部分是它的文字内容匹配系统, 也就是网页的相关性。Google使用该系统来发现与搜索者键入的搜索词相关的网页;第二部分也是排名运算法则中最重要的部分, 就是Google的专利网页级别技术 (Page Rank) 。

Google的核心技术称为Page Rank, 即网页级别。Page Rank技术能够快速的计算出网页的级别 (Rank) 。这个级别的依据是:当从网页A连接到网页B时, Google就认为"网页A投了网页B一票"。Google根据网页的得票数评定其重要性。然而, 除了考虑网页得票数 (即链接) 的纯数量之外, Google还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重, 并且有助于提高其他网页的“重要性”。为了得到更好的搜索结果, 尤其是使搜索引擎自动抵制那些基于对详细等级标准页面 (入口页) 内容的分析而自动生成的网页, 链接人气值的概念开始被开发了。因此, 一般地, 如果从其他网页链接到一个网页的数量越多, 那么这个网页就越重要。与链接人气值向比较, Page Rank的概念并不是简单地根据入站链接的总数。

Page Rank的原理类似于科技论文中的引用机制:谁的论文被引用次数多, 谁就是权威。在互联网上, 链接就相当于“引用”, 在B网页中链接了A, 相当于B在谈话时提到了A, 如果在C、D、E、F中都链接了A, 那么说明A网页是最重要的, A网页的Page Rank值也就最高。即越是重要的文件链接一个文件, 则这个文件就越重要, 但那些入站链接并不是被平等计算的。首先, 如果其他高等级的文件连接到它, 那么根据Page Rank的规则, 此文件的等级也高。如此, 在Page Rank概念中, 文件的等级由与它连接那些文件的等级决定的。它们的等级再由与他们连接文件的等级决定。因此, 文件的Page Rank由其他文件的Page Rank总递归之和确定。总而言之, Page Rank的等级是由整个网的连接结构决定的。

2.2 Page Rank算法描述

Lawrence Page和Sergey Brin在个别场合描述了Page Rank最初的算法。这就是PR (A) = (1-d) +d (PR (T1) /C (T1) +...+PR (Tn) /C (Tn) ) 式中:

PR (A) :网页A页的Page Rank值;

PR (Ti) :链接到A页的网页Ti的Page Rank值;

C (Ti) :网页Ti的出站链接数量;

d:阻尼系数, 0

于是可知, 首先, Page Rank并不是将整个网站排等级, 而是以单个页面计算的。其次, 页面A的Page Rank值取决于那些连接到A的页面的Page Rank的递归值。PR (Ti) 值并不是均等影响页面PR (A) 的。在Page Rank的计算公式里, T对于A的影响还受T的出站链接数C (T) 的影响。这就是说, T的出站链接越多, A受T的这个连接的影响就越少。PR (A) 是所有PR (Ti) 之和。所以, 对于A来说, 每多增加一个入站链接都会增加PR (A) 。最后, 所有PR (Ti) 之和乘以一个阻尼系数d, 它的值在0到1之间。因此, 阻尼系数的使用, 减少了其它页面对当前页面A的排序贡献。

3 搜索引擎的优化

3.1 优化Page Rank

虽然Page Rank技术在实践的检验中被认为是很成功, 但不代表Page Rank就不存在不足之处。从根本上说, Page Rank只是一种基于bake-link的算法, 它不能给页面的具体分类提供任何帮助, 细化检索范围。有分析统计表明, 用户平均察看返回结果不超过2页。据此, 笔者认为Google可采用某种反馈机制实现根据用户的需求、行为的反馈进行检索结果的Page Rank值的重新组织排序, 使一些较准确的、满足用户要求的记录, 能较为全面的显示在检索结果前面部分, 从而为用户提供更为有效的信息服务, 提高客户满意度。针对用户信息行为特征以及Page Rank技术的优点, 本文建议采用一种基于C/S模式的行为反馈再排序机制。如图2所示:

该机制在Server端继续运行Page Rank, 在Client端建立一系列跟踪反馈器, 记录下用户的所有行为操作并进行反馈, 根据这些行为操作, 系统可进行再次的行为分析描述, 产生与用户需求密切相关的特征量以及附加Rank值。最后, 系统根据收集的行为特征量, 进行再次的文本匹配, 产生一系列检索结果项, 同时Page Rank系统会在对附加Page Rank值进行Page Rank值复合的基础, 实现结果项的重排序, 使准确、有效、满足用户需求的记录项能充分全面地集中地显示在前面位置, 从而使用户能更容易地获得所需的各种信息。

3.2 添加个性因子

上面我们所说搜索引擎排名与Page Rank的关系是搜索引擎结果Ranking (排名列表) 是“Page Relevance” (页面因子) 与“Page Rank”因素综合承继的结果

Ranking= (Page Relevance) x (Page Rank)

但是这样的排名方式是同样的搜索引擎对不同的任何人输入同样的查询值都会返回相同的结果, 但是我们每个人查询的目的都不同, 很有可能自己所关心的内容在前面2页都没有返回。这样就导致搜索效率的低下和用户的流失。作者认为可以在排名技术上再加上新的因子, 即除了页面因子和Page Rank值之外有一个新的因子来对排名进行一定的影响, 即针对用户行为来制定个性化搜索服务的相关因子。本文暂时命名为个性因子 (Personality) 。即把上述的公式扩展为:Ranking= (Page Relevance) x (Page Rank) x (Personality) , 本文假设对个性因子值的确定可以有个初步的假设公式为:Personality= (times) +relevance) , 而之所以采用加的方式, 因为若用户对某一个网页进行点击很多的次数时, 即使该网页的其他判定值不是很高, 但是由于该用户足够喜欢该网页, 搜索引擎没有理由不为这个用户把该网页放在第一位。这样得出一个合理的排序值是由若干方面的因素综合而成的, 排序算法的关键在于确定这些因素并求解, 最终依据系统需求形成一个综合的值供查询时排序显示。

4 总结

随着互联网上信息量和信息种类在不断增加, 并且上网人数剧增以及网民成分的变化, 搜索引擎要覆盖所有的网上信息查找需求已出现困难, 因此各种主题搜索引擎, 个性化搜索引擎, 问答式搜索引擎等纷纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用, 但随着互联网的发展, 我们相信它们的生命力会越来越旺盛。而为了进一步满足个人的需要, 个性化的服务将会是一种必然的趋势, 通用的检索系统不可能满足不同背景、不同目的和不同时期的查询请求。我们衷心的希望在不久的将来出现交互式个性化的新型搜索引擎技术的出现为用户的信息检索带来更大的帮助。

摘要:搜索引擎面临的一个主要问题就是如何使得用户所关心的网页能在搜索后的结果能够排序靠前或者说是重要的网页能够获得较好的排序位置。这个就涉及到本文所提到的搜索引擎技术中的一种——搜索结果排序技术。本文提出了一种在原有的排序机制中加入新的排序因子, 即个性因子。这是根据个人的查询习惯来影响查询结果的排序情况。

关键词:搜索引擎,排序技术,PageRank,个性因子

参考文献

[1]蔡国民, 王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报 (自然科学版) , 2006, 27 (5) :17-19.[1]蔡国民, 王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报 (自然科学版) , 2006, 27 (5) :17-19.

互联网无线搜索技术探析 篇10

很多专家认为技术创新才是用户需求的最根本动力,是一个公司基业长青的长久保障。我们以百度为例进行分析。百度目前拥有超过1万名工程师。在李彦宏看来,互联网发展至今灵魂依然未变,技术创新永远是这个行业的核心驱动力,庞大的工程师队伍成为百度技术创新的底蕴,云计算、语音、图像、自然语言理解等一系列技术会成为百度引领产业的关键。

在移动互联网时代,百度能否保住入口地位?李彦宏表示,无线搜索已经迅速崛起成为无线互联网第二大应用,百度的市场份额正在继续扩大。李彦宏透露,百度以搜索框和浏览器为核心的手机客户端产品,1年时间日活跃用户就超过了千万。百度个人云正式开放注册4个月,用户数目已经突破3000万,云存储文件总量突破10亿,首次实现了基于用户的前向收费。百度资金团队在去年12月成功发行了15亿美金的债券。未来将继续加大对基础技术的投入,强化产品布局和创新,重点培养优秀人才。

2 移动互联网技术的作用

很多互联网创业者想要“让人们最平等便捷地获取信息,找到所求”,要做到这一点不是非常容易。尤其在互联网时代到来之前,大家要去图书馆才能找到各种各样的资料和信息,如果距离图书馆很远,比如偏僻的农村,去一趟图书馆不容易,可能要走几天路程。所以,在互联网时代到来之前,大家都是生活在一个不平等的世界里,尤其在信息获取方面是不平等的。如何让大家获取信息的方式更加平等一些,互联网技术的发展,让我们看到了希望。

尤其在过去几年,互联网技术发展非常大,我们看到智能手机的普及使得一切都变得更加便捷。基本将要实现“让人们最平等便捷地获取信息,找到所求”,现在,不仅是能够搜索信息,而且能够找到服务,可以在移动终端、手机、平板电脑,各种各样新的终端上,不仅是获取信息,而且能够完成任务、完成工作。所以我们不仅在帮助人们搜索信息,获取信息,而且能够帮助人们实现他们想要实现的目标,这就是我们能看到的变化。

过去我们生活在桌面的时代,从那个时代发展起来的,从桌面到移动,我们还是需要搜索框,敲进去关键词去搜索你想要的信息,但是当一些公司开始做移动终端平台的时候,手机突然一下发展起来之后,人们就发现手机搜索很不一样,因为屏幕更小,人们在手机上敲字、打字更难,手机上有话筒、摄像头,大家可以用图像、可以用语音、可以用视频来作为搜索的输入信息,这样就可以了解用户,知道用户的使用偏好。所以,很多信息是之前桌面时代所不具有的,而在移动时代是有的,通过这些信息能够更好地为用户提供服务。

3 无线搜索技术

根据实现方式的不同,移动搜索可分为短信搜索和WAP搜索两种类型。短信搜索就是发送短信到特定的SP来查询信息,SP将发送查询结果到用户手机上,用手机搜索引擎,就会搜集到你想要的任何信息,手机用户只要通过编辑短信,发出关键字到手机搜索引擎服务代码,就可以搜索到所需信息。WAP的全称是“无线应用协议”,它提供了通过手机访问互联网的途径。WAP搜索就是用户通过手机登录相关搜索网站由网站给出相关链接。

我们要吸引用户更多地去使用移动搜索。因为现在移动搜索尤其是移动互联网处在初级发展阶段,有时候用户不知道该怎么用百度的移动服务,甚至不知道移动服务,所以我们要让用户对移动服务熟悉起来,知道在手机上能做什么,知道移动搜索能做什么。很多搜索引擎公司希望用户能够形成依赖度,然后我们就能够实现货币化了。我觉得手机搜索的货币化未来是有非常光明的前景,因为可能性是无穷无尽的,我们可以这样来设想。在中国有五亿互联网用户,每天都是有数十亿的搜索次数。我们有一个庞大的体系。

4 结束语

目前无线搜索还是一个新兴的产业,伴随着手机终端的日益普及,围绕着手机终端应运而生的各类实用信息的查询功能则被源源不断地开发出来。我们要跟上网络时代的脚步,满足网络通信时代的需要。

参考文献

[1]鲁义轩.手机搜索暗潮涌动地方运营商与SP先行试水[J].通信世界, 2006年27期.

[2]张亮.智者生存之道主流智能手机搜索线[J].数字通信, 2006年09期.

[3]刘聪.手机搜索的淘金之旅[J].中国新通信, 2006年08期.

[4]Mobile Ad hoc Networks.http://www.ietf.org/html.char-ters/Ad hoc network-charter.html.May, 2000.

[5]IETF, Network Mobility (NEMO) ;http://www.ietf.org/html.charters/nemo-charter.html) .

[6]J.Border et al., “Performance Enhancing Proxies Intended to Mitigate Link-Related Degradations, ”RFC3135, June2001.

[7]D.C.Feldmeier et al., “Protocol Boosters, ”IEEE JSAC, vol.16, no.3, Apr.1998, pp.437-44.

[8]米志超, 郑少仁.无线战术互联网控制器通信协议的设计与实现[J].解放军理工大学学报, 2000年第1卷第6期.

搜索技术 篇11

当日现场异常火爆,听课大学生约300人,主要来自北京大学、清华大学、北京邮电大学等知名高校的计算机专业院系。记者发现,新生代技术人群对IT企业走进校园开讲技术相当追捧。

搜索引擎虽然已是覆盖最广泛的互联网应用,知名高校的计算机专业学生对其背后的技术却知之甚少。一方面是因为搜索引擎涉及跨学科的专业知识,另一方面,随着互联网用户搜索体验、需求的提升,搜索技术也在快速演进。此次,百度技术公开课为学生提供了一次难得的了解搜索引擎技术的机会,杨震原的讲授让同学们听得津津有味,在课后的开放式互动环节中,中文分词策略、数据库调用方式、server负载均衡、用户行为挖掘等问题也成为大学生们关注的焦点。

搜索引擎技术分析与研究 篇12

随着互联网技术的不断发展, 网上的信息也迅速增长, 搜索引擎已经成为网上检索信息的非常重要的工具, 是互联网上最重要的应用之一。搜索引擎主要以网页的形式与用户交互, 根据用户提出的请求对网络节点遍历查找以找到匹配的信息。国内主流搜索引擎有百度、谷歌、雅虎及搜狐等, 其侧重点有所不同。

2 搜索引擎的分类

搜索引擎按照其工作方式主要分为三类, 分别是全文搜索引擎、目录索引类搜索引擎、元搜索引擎。全文搜索引擎, 如百度、谷歌等, 从互联网上提取网站信息而建立数据库, 根据用户给出的查询要求检索数据库, 找到匹配的记录, 然后将排序后的结果返回给用户。目录索引类搜索引擎, 如雅虎、搜狐等, 仅仅是按目录分类的网站链接列表, 用户通过逐级点击访问。元搜索引擎没有自身数据库, 在接受用户搜索请求后, 通过其他搜索引擎查询信息并将结果返回给用户。

搜索引擎的种类还有通用搜索引擎、垂直搜索引擎等。百度、谷歌、雅虎及搜狐等搜索引擎都属于通用搜索引擎。通用搜索引擎的目标是尽可能大的网络覆盖率, 它已经成为了人们在互联网上搜索信息必不可少的工具。然而, 尽管搜索引擎能够搜索出大量的信息, 但是在这些搜索结果中既有精华也有无效信息、重复信息。核心问题在于:搜索引擎仅仅是做关键字匹配, 而忽视了用户请求所代表的含义, 不能提供基于语义的检索。基于自然语言的智能搜索, 搜索过程是内容概念相互关联的匹配, 为用户提供更加全面、个性化和精准的搜索结果。人们对搜索引擎的专业性要求的不断提高使传统搜索引擎已经无法满足用户的多样化需求, 垂直搜索引擎的诞生弥补了这一不足。垂直搜索引擎是搜索引擎的一个分支, 搜索的信息更加行业化、专业化, 是对每类专门信息的整合。垂直搜索引擎的搜索范围不同于通用搜索引擎, 通用搜索引擎适合于各类信息的搜索, 而垂直搜索引擎是对某行业信息的专业搜索。通用搜索引擎的搜索结果往往需要用户在搜索之后对信息进行进一步筛选, 而垂直搜索引擎则能为用户提供有效的信息。

3 搜索引擎的工作原理

搜索引擎的工作可以分为四个阶段:抓取网页、建立索引数据库、搜索匹配的网页及结果排序。网络爬虫是搜索引擎中的一个重要程序, 为搜索引擎从万维网上下载网页存放于数据库中。它利用网页中的超文本链接, 通过URL从一个网页爬行到另一个网页, 在下载时利用广度优先搜索 (BFS) 和深度优先搜索 (DFS) 来遍历网页, 用Hash表记录下载页面的URL, 以免重复下载。搜索引擎为下载的网页建立索引数据库, 进行一系列的预处理工作, 待用户输入查询关键词后, 在索引数据库中查找匹配的网页, 对查询结果排序后反馈给用户。

4 搜索引擎的发展趋势

随着网络信息量的迅猛增长和用户需求的日益复杂, 仅仅依靠传统搜索引擎已经无法满足人们的需求, 搜索引擎正朝着智能化、移动搜索等方面发展。

4.1 基于大数据分析的智能搜索引擎

大数据时代, 数据规模化、数据类型多样化, 不仅要求搜索引擎能快速响应, 而且也对其具备大数据处理和分析能力提出了要求。用户使用传统搜索引擎的过程中往往要与之进行多次交互, 使结果更加逼近用户的最终目标, 效率较低。智慧搜索将搜索技术和人工智能相结合, 能够通过大数据分析洞察其含义, 对查询表达式做语义扩展, 从而更加准确地获得搜索结果, 提高搜索效率[1]。同时, 大数据环境下的搜索引擎是对跨领域、跨学科的海量信息资源的搜索, 需要将用户的查询问题转换成独立搜索引擎可接受的形式, 并向它们发送请求, 然后对各独立搜索引擎反馈的结果进行去重、合并、排序等处理, 最后将结果提交给用户。

4.2 移动搜索引擎

移动搜索是传统搜索引擎在移动终端的延伸, 是搜索引擎新的发展趋势。随着智能手机的普及, 移动网络的流量迅速增长, 需要在搜索能力上不断提高。移动搜索引擎主要分为基于浏览器的、基于短信的和基于手机应用程序的[2]。移动搜索的优势主要体现在:不受时间和地点的限制, 从而更加便捷;多采用垂直搜索技术, 因而搜索结果更加精准。

5 结语

随着人们对网络信息资源检索需求的不断增加, 对搜索引擎提出了高精度、个性化、交互性及智能化等功能需求, 搜索引擎技术随之不断改进, 有效地提高了互联网信息资源的利用率, 充分发挥了资源共享的作用。

参考文献

[1]顾君忠, 陈民.基于大数据分析的智能搜索引擎[J].软件产业与工程, 2015 (1) .

上一篇:思品教学方法的选择下一篇:网络质量监测系统