搜索引擎技术及趋势

2024-11-18

搜索引擎技术及趋势(共5篇)

搜索引擎技术及趋势 篇1

随着因特网的迅猛发展、WEB信息的增加, 用户要在信息海洋里查找信息, 就像大海捞针一样, 搜索引擎技术恰好解决了这一难题 (它可以为用户提供信息检索服务) 。目前, 搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。

搜索引擎 (Search Engine) 是随着WEB信息的迅速增加, 从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计, 全球目前的网页超过8亿, 有效数据超过9T, 并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息, 必然会“大海捞针”无功而返。

搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息, 对信息进行理解、提取、组织和处理, 并为用户提供检索服务, 从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务, 搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索引擎的关键技术进行简单的介绍, 以起到抛砖引玉的作用。

1. 搜索引擎系统分类

按照信息搜集方法和服务提供方式的不同, 搜索引擎系统可以分为三大类:

(1) 目录式搜索引擎:

以人工方式或半自动方式搜集信息, 由编辑员查看信息之后, 人工形成信息摘要, 并将信息置于事先确定的分类框架中。信息大多面向网站, 提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能, 所以信息准确、导航质量高, 缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:、、、Go Guide等。

(2) 机器人搜索引擎:

由一个称为蜘蛛 (Spider) 的机器人程序以某种策略自动地在互联网中搜集和发现信息, 由索引器为搜集到的信息建立索引, 由检索器根据用户的查询输入检索索引库, 并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预, 缺点是返回信息过多, 有很多无关信息, 用户必须从结果中进行筛选。这类搜索引擎的代表是:Alta Vista、Northern Light、Excite、Infoseek、Inktomi、、、;国内代表为:“天网”、悠游、Open Find等。

(3) 元搜索引擎:

这类搜索引擎没有自己的数据, 而是将用户的查询请求同时向多个搜索引擎递交, 将返回的结果进行重复排除、重新排序等处理后, 作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全, 缺点是不能够充分使用所使用搜索引擎的功能, 用户需要做更多的筛选。这类搜索引擎的代表是Web Crawler、Info Market等。

2. 性能指标

我们可以将WEB信息的搜索看作一个信息检索问题, 即在由WEB网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率 (Recall) 和精度 (Pricision) 衡量一个搜索引擎的性能。

召回率是检索出的相关文档数和文档库中所有的相关文档数的比率, 衡量的是检索系统 (搜索引擎) 的查全率;精度是检索出的相关文档数与检索出的文档总数的比率, 衡量的是检索系统 (搜索引擎) 的查准率。对于一个检索系统来讲, 召回率和精度不可能两全其美:召回率高时, 精度低, 精度高时, 召回率低。所以常常用11种召回率下11种精度的平均值 (即11点平均精度) 来衡量一个检索系统的精度。对于搜索引擎系统来讲, 因为没有一个搜索引擎系统能够搜集到所有的WEB网页, 所以召回率很难计算。目前的搜索引擎系统都非常关心精度。

影响一个搜索引擎系统的性能有很多因素, 最主要的是信息检索模型, 包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。

3. 主要技术

一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。

(1) 搜索器

搜索器的功能是在互联网中漫游, 发现和搜集信息。它常常是一个计算机程序, 日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息, 同时因为互联网上的信息更新很快, 所以还要定期更新已经搜集过的旧信息, 以避免死连接和无效连接。目前有两种搜集信息的策略:

●从一个起始URL集合开始, 顺着这些URL中的超链 (Hyperlink) , 以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL, 但常常是一些非常流行、包含很多链接的站点 (如Yahoo!) 。

●将Web空间按照域名、IP地址或国家域名划分, 每个搜索器负责一个子空间的穷尽搜索。

搜索器搜集的信息类型多种多样, 包括HTML、XML、Newsgroup文章、FTP文件、字处理文档、多媒体信息。

搜索器的实现常常用分布式、并行计算技术, 以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。

(2) 索引器

索引器的功能是理解搜索器所搜索的信息, 从中抽取出索引项, 用于表示文档以及生成文档库的索引表。

索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关, 如作者名、URL、更新时间、编码、长度、链接流行度 (Link Popularity) 等等;内容索引项是用来反映文档内容的, 如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项 (或称短语索引项) 两种。单索引项对于英文来讲是英语单词, 比较容易提取, 因为单词之间有天然的分隔符 (空格) ;对于中文等连续书写的语言, 必须进行词语的切分。

在搜索引擎中, 一般要给单索引项赋与一个权值, 以表示该索引项对文档的区分度, 同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。

索引表一般使用某种形式的倒排表 (Inversion List) , 即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置, 以便检索计算索引项之间的相邻或接近关系 (proximity) 。

索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时, 必须实现即时索引 (Instant Indexing) , 否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能 (如大规模峰值查询时的响应速度) 有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。

(3) 检索器

检索器的功能是根据用户的查询在索引库中快速检出文档, 进行文档与查询的相关度评价, 对将要输出的结果进行排序, 并实现某种用户相关性反馈机制。

检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。

(4) 用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎, 高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法, 以充分适应人类的思维习惯。

用户输入接口可以分为简单接口和复杂接口两种。

简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制, 如逻辑运算 (与、或、非;、-) 、相近关系 (相邻、NEAR) 、域名范围 (如.edu、.com) 、出现位置 (如标题、内容) 、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。

4. 未来动向

搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术, 所以具有综合性和挑战性。又由于搜索引擎有大量的用户, 有很好的经济价值, 所以引起了世界各国计算机科学界和信息产业界的高度关注, 目前的研究、开发十分活跃, 并出现了很多值得注意的动向。

(1) 十分注意提高信息查询结果的精度, 提高检索的有效性

用户在搜索引擎上进行信息查询时, 并不十分关注返回结果的多少, 而是看结果是否和自己的需求吻合。对于一个查询, 传统的搜索引擎动辄返回几十万、几百万篇文档, 用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途, 包括使用智能代理跟踪用户检索行为, 分析用户模型;使用相关度反馈机制, 使用户告诉搜索引擎哪些文档和自己的需求相关 (及其相关的程度) , 哪些不相关, 通过多次交互逐步求精。二是用正文分类 (Text Categorization) 技术将结果分类, 使用可视化技术显示分类结构, 用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容类聚, 减少信息的总量。

(2) 基于智能代理的信息过滤和个性化服务

信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型 (如Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、用户模型 (如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤 (包括兴趣过滤和不良信息过滤) , 并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力, 从而提供个性化的服务。智能代理可以在用户端进行, 也可以在服务器端运行。

(3) 采用分布式体系结构提高系统规模和性能

搜索引擎的实现可以采用集中式体系结构和分布式体系结构, 两种方法各有千秋。但当系统规模到达一定程度 (如网页数达到亿级) 时, 必然要采用某种分布式方法, 以提高系统性能。搜索引擎的各个组成部分, 除了用户接口之外, 都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现, 以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上, 以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索, 以提高检索的速度和性能。

(4) 重视交叉语言检索的研究和开发

交叉语言信息检索是指用户用母语提交查询, 搜索引擎在多种语言的数据库中进行信息检索, 返回能够回答用户问题的所有语言的文档。如果再加上机器翻译, 返回结果可以用母语显示。该技术目前还处于初步研究阶段, 主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天, 无疑具有很重要的意义。

5. 学术研究

目前搜索引擎领域的商业开发非常活跃, 各大搜索引擎公司都在投巨资研制搜索引擎系统, 同时也不断地涌现出新的具有鲜明特色的搜索引擎产品, 搜索引擎已经成为信息领域的产业之一。在这种情况下, 对搜索引擎技术相关领域的学术研究得到了大学和科研机构的重视。如Stanford大学在其数字图书馆项目中开发了Google搜索引擎, 在Web信息的高效搜索、文档的相关度评价、大规模索引等方面作了深入的研究, 取得了很好的成果。

NEC美国研究所的Steve Lawrence和C.Lee Giles 1998年和1999年连续两年在《自然》和《科学》杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会议TREC也从1998年开始增加了Web Track课题, 以考察Web文档与其它类型文档在检索性质上的不同之处, 并将测试在大规模的Web库 (如100G字节) 上进行信息检索的算法性能。

由美国Infornotics公司主办的搜索引擎国际会议从1996年开始, 每年举行一次, 对搜索引擎技术进行总结、讨论和展望, 参加者有著名的搜索引擎公司、大学和研究机构的学者, 对搜索引擎技术起到了很好的推动作用。另外像IEEE主办的国际万维网会议、人机交互会议已有越来越多关于搜索引擎技术研究的文章发表。

国内先后有北京大学、清华大学、国家智能研究中心等高校和研究单位对搜索引擎技术开展研究, 并开发出了几个较好的系统。如由北京大学计算机系网络研究室开发的“天网”中英文搜索引擎 (http://pccms.pku.edu.cn:8000/gbindex htm) , 在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平, 为国内用户提供了很好的互联网搜索服务, 受到了用户的好评

6. 搜索引擎分类

搜索引擎按其工作方式主要可分为三种, 分别是全文搜索引擎 (Full Text Search Engine) 、目录索引类搜索引擎 (Search Index/Directory) 和元搜索引擎 (Meta Search Engine) 。

(1) 全文搜索引擎

全文搜索引擎是名副其实的搜索引擎, 国外具代表性的有Google、Fast/All The Web、Alta Vista、Inktomi、Teoma、Wise Nu等, 国内著名的有百度 (Baidu) 。它们都是通过从互联网上提取的各个网站的信息 (以网页文字为主) 而建立的数据库中, 检索与用户查询条件匹配的相关记录, 然后按一定的排列顺序将结果返回给用户, 因此他们是真正的搜索引擎。

从搜索结果来源的角度, 全文搜索引擎又可细分为两种, 一种是拥有自己的检索程序 (Indexer) , 俗称“蜘蛛” (Spider) 程序或“机器人” (Robot) 程序, 并自建网页数据库, 搜索结果直接从自身的数据库中调用, 如上面提到的7家引擎;另一种则是租用其他引擎的数据库, 并按自定的格式排列搜索结果, 如Lycos引擎。

(2) 目录索引

目录索引虽然有搜索功能, 但在严格意义上算不上是真正的搜索引擎, 仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词 (Keywords) 查询, 仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project (DMOZ) 、Look Smart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

(3) 元搜索引擎 (META Search Engine)

元搜索引擎在接受用户查询请求时, 同时在其他多个引擎上进行搜索, 并将结果返回给用户。著名的元搜索引擎有、、等 () , 中文元搜索引擎中具代表性的有。在搜索结果排列方面, 有的直接按来源引擎排列搜索结果, 如Dogpile, 有的则按自定的规则将结果重新排列组合, 如Vivisimo。

除上述三大类引擎外, 还有以下几种非主流形式:

1) 集合式搜索引擎:如Hot Bot在2002年底推出的引擎。该引擎类似META搜索引擎, 但区别在于不是同时调用多个引擎进行搜索, 而是由用户从提供的4个引擎当中选择, 因此叫它“集合式”搜索引擎更确切些。

2) 门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务, 但自身即没有分类目录也没有网页数据库, 其搜索结果完全来自其他引擎。

3) 免费链接列表 (Free For All Links, 简称FFA) :这类网站一般只简单地滚动排列链接条目, 少部分有简单的分类目录, 不过规模比起Yahoo等目录索引来要小得多。

由于上述网站都为用户提供搜索查询服务, 为方便起见, 我们通常将其统称为搜索引擎。

搜索引擎技术及趋势 篇2

一、搜索引擎优化的行业发展趋势

1、单纯的seo技巧、跟踪搜索引擎算法变化的意义越来越小。

seo本身的技术性越来越低,但它对相关从业人员的综合能力和技术的依赖程度越来越高。从目前网上关于seo的探讨来看,基本都是以前的方法。seo没有秘籍,越朴实的原则,越实用,做到极致就是绝招。

2.经验与工具结合(长尾关键词分析)

a.再好的经验,也无法分析海量关键词。海量关键词至少基于百万级数量级。经验再强,分析的范围和综合程度是有限的。无从对一个行业进行全网性的搜索行为分析。也无法对海量关键词的竞价进行管理。

3.seo与sem结合。

竞价与seo结合。根据不同关键词的实际情况,综合公司的各种和资源进行平衡。那些那类是必须竞价的,那些是可以seo的。SEO和SEM 在不同时间段的定位也会不一样。

4.seo与产品设计、体验结合。

如果不与产品结合、不予用户体验结合。那样的seo策略是短视、愚蠢的策略。最终会站到搜索引擎的对立面。对于大型网站,这方面优势更明显,他们不仅能执行seo策略,而且他们本身的网站大都本身对用户也是有价值的、即使搜索引擎不存在,他们的网站也会有一定的用户基础。

5.seo与各种手段结合、开放平台。

seo除了与刚才说的sem结合外,还会跟edm,口碑营销甚至目前很火的微博概念结合。搜索引擎不断在改变,seo人员的策略也在变。在点石北京大会上,很多嘉宾对于这方面做了很多的阐述。

6.seo服务提供结构越来越垂直化、专业化

越来越多的seo/sem公司开始专注某一个行业,打造自己的核心竞争力。

7.seo高度服务越来越宽,低端服务的路越来越窄。

部分有实力的seo服务公司专业成为行业的营销机构,开发自己的工具平台,为大型网站提供顾问、综合解决方案,搜索引擎营销投放优化方案等。对于

大型企业和网站方面,seo的接受度和市场规模越来越大。整个市场对seo的认可度也较好。但给大网站提供服务,需要品牌。所以一部分拥有品牌的搜索引擎营销公司将会有更好的发展。

而单纯提供关键词排名服务的,随着搜索引擎算法的不断调整,市场份额的更加集中。这条路越走越窄,甚至走到跟搜索引擎本身竞争排名的尴尬局面。

8.更多seo优秀者进入大公司,担任产品、营运、市场职位。在更大的平台展现自己的价值。

二、2010年搜索引擎优化的一些预测

1.seo会比现在还火、还重要。

百度广告位置调整后,整体而言自然搜索变得越来越重要。sem的市场扩大同时,必然seo也会跟随扩大。不管搜索引擎市场份额如何变化,免费的自然搜索优化永远会存在,而且会占据一定的市场份额比例。

2.国内会出现一些比较好用的seo/sem工具

大型网站的搜索引擎营销对工具的依赖性加强。越来越多的机构购买或者直接使用第三方的工具来投放广告。对于那些提供seo/sem工具机构来说,会暂时出现一些暴利:一些工具光使用费一年动辄就一二十万。

3.谷歌在中国继续边缘化、搜索份额还会下降。

谷歌会一直下降,直到对做中文网站的站长可有可无。谷歌adsense政策变化在站长的重要性甚至超过谷歌的排名算法变化。

4.外部链接的作用会被削弱、站内链接会越来越重要。

搜索引擎会越来越聪明,越来越多加入行为因素。比如点击量、跳出率等。由于链接泛滥,搜索引擎也会重新调整他们的权重,更关注网站的内涵和本身的品质。

5.竞价会更残酷和激烈、导航站竞争越来越激烈。

搜索引擎的现状及发展趋势探讨 篇3

搜索引擎 (Search Engines) 是指在WWW中能够主动搜索信息、组织信息并能提供查询服务的一种信息服务系统。搜索引擎主要通过网络搜索软件或网站登录方式将WWW上大量网站的页面信息收集到本地, 经过加工处理后建成数据库, 从而能够对用户提出的各种查询请求作出响应, 提供用户所需要的信息地址。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务, 因此搜索引擎也被称为“网络门户”。

2 搜索引擎的发展现状

现代意义上的搜索引擎鼻祖是1990年由蒙特利尔的麦吉尔大学学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie。随着Ieternet的快速发展, 出现了专门用于检索信息的Robot程序, 该程序能自动地不断重复地在网络上检索信息, 这种行为很像一只蜘蛛在Ieternet上爬来爬去, 所以又称为Spider程序。

1994年7月, 世界上出现了最早的真正意义上的搜索引擎——Lycos。同年4月, 美国斯坦福大学的两位博士生David Filo和美籍华人杨致远共同创建了Yahoo!, 并成功地使搜索引擎的概念深入人心, 从此搜索引擎进入了快速发展的时期。

自1998年开始, 出现了一个搜索引擎空前繁荣的时期。随着Google的出现, 第二代搜索引擎诞生。它们不仅拓展了搜索引擎的生存空间, 而且还极大的提高了搜索的质量和效率。

经过多年的探索和市场“历练”之后, 全球第三代搜索引擎呈现出两个发展方向:一个是以Google为主的“技术驱动型”理念;一个是以Jwmguagua (精武门呱呱为主的“服务驱动型”理念。第三代搜索引擎是智能搜索引擎, 呈现出多元化、智能化、个性化的发展趋向。

3 搜索引擎的发展趋势

3.1 向智能化方向发展

智能化是网络信息检索未来的主要发展方向。随着网络用户对检索精确度和效率的不断提高, 越来越多的搜索引擎重视自身在检索功能和检索服务上的智能化程度, 将涌现出智能搜索引擎。智能搜索引擎可以通过自然语言与用户交互, 最大限度地了解用户的需求, 它能为用户提供了一个真正智能化的、个性化的信息过滤和推送服务。因此, 智能搜索引擎成为今后搜索引擎的发展趋势。

3.2 向个性化、特色化方向发展

个性化是指各网络检索工具注重内容的特色化和服务的个性化。个性化的核心是跟踪与分析用户的搜索行为, 充分利用这些信息来提高用户的检索效率, 并为用户提供全程帮助和服务, 使得个性化搜索更符合每个用户的需求。搜索引擎的个性化还体现在提供特色的服务和功能。

3.3 向多媒体化方向发展

未来的搜索引擎将在技术上更加成熟, 在搜索内容上向多媒体化发展。视频、音频等多媒体信息的检索数据量高速增长, 多媒体搜索引擎的发展迫在眉睫。同时, 搜索引擎在向用户提供检索结果时仍可以向多媒体方向发展, 使得检索结果形式多样化、生动化, 更好地满足用户的需求。向多媒体化方向发展是搜索引擎发展的又一个新趋势。

3.4 向功能多样化方向发展

首先表现在可以检索的信息形态多样化, 如文本、声音、图像、动画;其次表现在搜索引擎已不仅仅是单纯的检索工具, 正在向其他服务范畴扩展, 提供站点评论、天气预报、新闻报道、股票点评、各种黄页 (如电话号码、航班和列车时刻表、地图等) 、免费电子信箱, 以多种形式满足读者的需要。

3.5 向商业化方向发展

随着互联网上信息服务和电子商务的发展, 用户基数的不断增长, 为电子信息的增值服务提供了广阔的空间。在这里汇集了最新的思想、最先进的技术和最大的潜在市场。搜索引擎已经不仅仅是一门技术, 一门服务形态, 而且成为一项产业, 它的商业利益成为推动系统完善和扩展的主要动力, 网络信息的检索与利用由公用性转向商业化。

3.6 向专业化方向发展

由于用户千差万别, 对信息搜索往往有不同的要求。综合性的搜索引擎收录的范围太广、太大、无法满足某一特定的需求。而垂直性专业搜索引擎则可解决这一难题。垂直性专业搜索引擎只面向某一特定的领域, 专注于自己的特长和核心技术, 能保证对该领域的信息的收录齐全与更新迅速。

3.7 向可视化方向发展

可视化信息检索是把文献信息、用户提问、各类检索模型以及利用检索模型进行信息检索的过程, 展示在一个可视化空间中, 并向用户提供信息检索服务。可视化搜索避免繁琐的操作过程, 使用户更直接、方便、快速、高效地获取信息和知识。随着网络技术的不断发展, 以及XML、RDF、GRID在信息中的应用, 可视化检索将成为搜索引擎新的发展方向。

摘要:搜索引擎是人们使用Internet信息资源的重要工具, 是人们获取网络信息资源的重要渠道。对搜索引擎的发展现状进行了概述, 并指出了未来搜索引擎的发展趋势。

关键词:搜索引擎,信息检索,发展现状,发展趋势

参考文献

[1]孙桂华.谈谈网络搜索引擎的发展及使用技巧[J].农业图书情报学刊, 2009, (6) :49-51.

[2]陈雅芝等.信息检索[M].北京:清华大学出版社, 2006:378-414.

搜索引擎技术及趋势 篇4

“搜索引擎”作为互连网上提供信息服务的一种工具,现在几乎已经妇孺皆知。互联网上的第一代搜索引擎出现于1994年前后,以AltaVista,Yahoo和Info seek为代表,搜索结果的好坏通常用反馈结果的数量来衡量,或者说是“求全”。造成这种情况的原因主要是这些搜索引擎的处理能力和网络带宽等方面的限制。1998年,以Google为代表的第二代搜索引擎出现在互联网上,其主要特点是提高了查准率,或者说是“求精”。它不仅考虑搜索关键词,还考虑页面间的链接关系,然后对整个网络的链接结构进行分析和迭代计算,从而对页面进行分区。第二代搜索引擎在技术和商业上都获得了巨大的成功,然而商业竞争和信息环境的变化仍在推动着它们不断创新和发展。当前所谓的第三代搜索引擎主要增加了互动性和个性化等技术,为用户使用搜索引擎获取信息提供更好的体验。

21世纪是信息时代,随着信息科学技术的不断发展,网络已成为人们生活中的重要组成部分,网上信息呈几何级数增长,面对众多繁杂无序的信息,如何快速、准确、经济地查找到所需要的信息,成为了人们迫切需要解决的问题。

1 搜索引擎概念及其工作原理

1.1 搜索引擎的定义

搜索引擎又称检索引擎、查询引擎,其英文译名为Search Engine, 广义上是指一种基于Internet上的信息查询系统,包括信息存取、信息管理和信息检索;狭义上是指一种为搜索Internet上的网页而设计的检索软件。

一般情况下,搜索引擎是指www上的搜索引擎,它实际上是一个专用的www服务器。搜索引擎(Search Engine)利用网络自动搜索技术,对互联网各种资源进行标引,并为检索者提供检索。

1.2 搜索引擎的基本原理

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。一般的搜索引擎主要由搜索器、索引器、检索器、用户接口四部分组成。用户通过用户接口(图中的Web浏览器)使用搜索引擎时,接触到的是其“前端”。用户输人查询条件后,通过检索器(如Web服务器处理)访问网页索引数据库,检索相匹配的记录,列出找到的站点索引,并通过浏览器把检索结果返回给用户。如图1所示。

搜索引擎的工作原理,可以看作三步:①从互联网上抓取网页;②建立索引数据库;③在索引数据库中搜索排序。

(1)从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

(2)建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

(3)在索引数据库中搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几个月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。

2 搜索引擎面临的挑战

面对瞬息万变的环境,搜索引擎如果在技术上不创新进取,从信息服务质量的角度讲,现在看来不错的,将来很可能会落伍。不进则退,在搜索引擎领域体现得很明显。这里主要讨论目前搜索引擎所面临的挑战。

2.1 Web的发展

(1)信息仍在大量增加

Web自产生以来,其信息量一直以几何级数的形式递增,近两年来尤其如此。这主要有两方面的原因:首先是Web2.0的用户和以前的有所不同,他们正在由单纯的信息消费者向生产者与消费者双重身份转变;其次是Deep Web的发展。

Web信息的大量增加,使得搜索引擎面临严峻的挑战。任何技术都有它的适用范围,超出这个范围,其性能将严重下滑。以搜索引擎的检索页面集为例,粗略地说,当页面总数没有超出某个阈值时,搜索引擎工作良好,一旦页面总数超过这个阈值,搜索引擎的查询结果质量将急剧下降,用户往往在查询返回结果的前10位、前20位甚至前50位都找不到一个自己想要的结果。这一点在目前的几大搜索引擎上都已经初现端倪,相信他们肯定已经为此绞尽脑汁。

(2)信息更新加快

Web上不但新信息涌现速度很快,信息变化速度也非常快。以网页中的链接为例,根据Alexandros Ntoulas等人的研究结果,每星期将有26%的新链接产生,一年之后,将只有25%的原有链接仍然存在。Google等搜索引擎的成功在于正确地分析了页面间的链接关系,为了保持这种成功,搜索引擎必须不断地跟踪链接结构的变化,或者说不断地刷新自己所保存的相关信息。就以每周26%的新链接为例,这样的链接更新速度要求搜索引擎至少每周重新计算一次所有页面的Ranking值,否则便不能及时地、恰如其分地反映Real Web上的当前状况,失去搜索引擎所必需的时效性(timeliness)和时新性(freshness)。

(3)信息表现形式多种多样

随着网络速度的提高,Web上的多媒体信息也急剧增加,因此人们对多媒体信息的检索需求也就随之而来。传统的信息检索主要集中于文本的检索,在多媒体方面的研究并不是很多。需求的发展使得目前各大搜索引擎都不断推出自己的多媒体素材搜索产品,让用户可以在庞大的素材库中进行检索。然而,目前对这些多媒体素材库的使用,大多还是标注、分类等方法,缺乏对图像、音视频内容的直接检索。搜索引擎如何自动分析音视频的内容,允许用户按内容进行检索,甚至在抓取音视频素材时按内容进行,这些问题将在今后较长一段时间内构成挑战,成为搜索引擎所要迫切解决的问题。

(4)SEO正在蓬勃发展

SEO目前已经成为一个新兴互联网行业。SEO是Search Engine Optimization的缩写,其中文意思是搜索引擎优化。人们利用工具或其他手段使目标网站符合搜索引擎胡搜索规则从而获得较好的网站排名。无止境地追求更高排名是SEO们的目标,因为他们知道,如果想让用户在烟波浩渺的Web上发现自己,获得一个很高的排名无疑是一种非常有效的方法。

客观地说,SEO的这种追求是很自然的,因为经济利益的诱惑实在是太大了。只有让用户认识自己才能有电子商务。“搜索引擎优化”正是让大量用户认识自己的一种有效手段。

2.2 用户需求的发展

(1)更准、更全、更新、更快

经过十几年的技术发展和市场成熟,搜索引擎正日益渗透到人们日常生活的方方面面,人们对信息的获取越来越依赖搜索引擎。在全世界网民中,搜索引擎的使用率仅次于电子邮件而位居第二。随着对搜索引擎的使用不断走向深入,网民的要求也在提高。从产品层面来看,准、全、新、快仍然是用户对搜索引擎最基本的四个要求,而且用户希望搜索引擎在这些方面能做得更好。

目前而言,围绕这几个问题,各大搜索引擎服务商都在做许多细致的工作,以力求趋向完美解决。比如“准”方面,需要更准确地理解用户需求,需要不断地更新Ranking算法,同时又要严格控制好垃圾网页的干扰;“全”指的是全面,尽可能地把互联网中“有价值”的网页都索引下来,满足最大用户群的需要;“新”要求搜索引擎的抓取非常高效,能够把最新的东西及时提取出来,同时还要不断更新已抓取信息;第四点是“快”,不仅要让用户感觉速度很快,还要保持最大的系统稳定性。“搜得准、搜得全、搜得新、搜得快”是一个综合的服务过程,任何一个环节出了问题,都有可能导致用户满意度的下降。

(2)使用更加方便和容易

随着技术的发展,人们希望搜索引擎无处不在,在任何时间、任何地点,要寻找信息时都可以使用搜索引擎。而随着搜索引擎的逐步普及,越来越多的使用者(他们中很大一部分对计算机和网络了解不多)希望搜索引擎的工具性进一步加强,最好在不觉察的情况下使用搜索引擎服务。

(3)搜索个性化

搜索引擎的一个经验就是,用户很多时候并不确切地知道自己想要什么样的结果,除非你把结果放在他的面前。所以用户在使用搜索引擎时,很多时候相同表象的内容却意味着不同的需要。搜索引擎必须理解用户的意图和需求,才能非常到位地提供相关、准确的信息。要理解用户的意图,首先要理解用户的行为和习惯,对不同人的查询做不同的处理,反馈给用户个性化的内容;其次要理解用户查询时的上下文背景,包括时间、地点、语义等。个性化的搜索,意味着向更加精确搜索结果的方向又迈进了一步。

2.3 网络的发展

(1)网络终端形式更加丰富

目前各种客户端搜索工具的发展,使得用户可以不到搜索引擎的网站,而是直接在工具终端搜索所要查询的信息。随着网络终端形式越来越丰富,很多应用找到了自己的位置,如手机电影;也有一些应用随着网络终端形式的发展而不断拓展。那么作为网络第二大应用的搜索引擎,也应该与时俱进,不断拓宽应用之路。

(2)网络速度的提高

随着基础建设的发展和技术水平的提高,网络速度一直在不断提高。网速的提高对于搜索引擎的影响主要在两个方面:首先极大地促进了页面搜集的速度,能够使搜集的页面集合更全,覆盖率更高,同时使页面集合的更新更快,信息时新性更强;另一方面是在搜索结果的使用上,可以使用户更快地打开页面,下载自己需要的信息,包括CAJ文件、图像文件、音视频文件等,给用户更好的应用体验。网络速度的提高提供了以上的可能性,而搜索引擎必须把这种可能变为现实。另外,搜索引擎还要抓住机会,比如随着IPv6的发展,大力推进多媒体信息的搜索和使用。

(3)无线网络的发展

互联网有从有线网络向无线网络发展的趋势。随着无线通信技术的发展,无线传输速率、覆盖面和稳定性得到很大提高,3G的应用将进一步扩大这个趋势。摩根斯坦利(Morgan Stanley)2006年4月初发布了一份106页的名为《全球互联网趋势(Global Internet Trends)》的调查报告中说明互联网的发展趋势已经从PC互联网转向移动互联网;而规模远超过PC用户群,并且没有经过深度发掘的手机和消费电子设备,已经成为了主导互联网发展的主角。

2.4 来自非技术方面的挑战

(1)知识产权的问题

Web上的知识产权保护是一个很复杂的问题,不仅搜索引擎公司觉得麻烦,用户也很矛盾:一方面认为合法的知识产权理所当然应该受到保护,另一方面也希望自己能够更方便地获得更多权威的、有价值的信息。

事实上,Google公司不止一次地受到侵权起诉,Google使出浑身解数,也不过与原告打个平手而已。国内的百度公司也因为提供mp3下载而屡屡为人诟病。知识产权的问题虽然最终要靠通过相应的法律解决,但某种程度上的技术处理,可以减轻侵权的压力。

(2)所在国法律

搜索引擎庞大的搜罗万象的能力并非总是它的优势,有时正是因为在这一点上违反了所在国的相关规定而遭到封锁。比如“网页快照”是Google非常好的一项功能,但在中国内地因为与相关法规抵触而被封锁,而该项功能的封锁,使得它的不少用户不得不转向其竞争对手的产品。类似这种问题,是搜索引擎本地化时首先要考虑的问题。

(3)网络诚信问题

网络诚信不只是搜索引擎发展中所遇到的难题,而且也是整个互联网发展中的一个非技术瓶颈。

“点击计费”是目前主流搜索引擎商普遍采用的广告收费模式,他们通过广告点击率向广告主收取费用,其广告收费=有效点击次数*广告投放价格,其中有效点击次数是指排除点击欺诈后的次数。点击欺诈自互联网诞生之际就出现了,成为全球搜索引擎商们的一大心病。点击欺诈在中国更是泛滥到无法收拾的地步:靠点击广告甚至已经成为一个行业!点击欺诈告诉我们,网络诚信远远没有预期的那么好。

3 搜索引擎的发展趋势

随着互联网技术的不断发展以及网民对互联网使用的不断熟练,未来几年中,搜索引擎技术将在以下几个方面重点发展:

(1)搜索尽可能多的信息。

尽管信息爆炸,尽管“99%的信息对99%的人没有用处”,但从整体来看,用户对信息的追求是无止境的,他们永远希望能占有全部的信息。

(2)搜索引擎专业化。

即为面向某一行业、某一主题和某一地区的信息而建立的垂直搜索引擎是未来发展的方向,为有专业需要的人提供专业化的解决方案永远是正确的。

(3)搜索功能智能化。

搜索引擎的智能化体现在两个方面,一是对搜索请求的理解,二是对网页内容的分析。其中通过对用户的查询计划、意图、兴趣方向进行推理、预测并为用户提供有效的答案是这种系统的支柱技术。自然语言搜索能力作为智能化的一个体现,是目前相对易于开发的技术。

(4)搜索服务个性化。

搜索引擎个性化的核心是通过跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。通过搜索行为分析技术提高搜索效率的途径主要有两种:“群体行为分析”和“个性化搜索”。

(5)支持多媒体搜索。

随着网络技术的发展,未来的互联网是多媒体数据的时代。开发出可查寻图像、声音、图片和视频的多媒体搜索引擎是一个新的方向。

4 结束语

随着信息化社会的推进,搜索已成为网络生活中组织和控制网络信息资源的有效工具,利用搜索引擎加速信息流通及整和有用知识,提高信息利用率,已成为广大用户的共识。我们应更好地利用搜索引擎,实现信息服务的人性化、高效化,为用户检索信息提供更大的便利。

参考文献

[1]李光辉.电子商务的研究[J].信息技术,2007(1).

[2]李振星.搜索引擎专业化智能化研究[D].北京航空航天大学博士学位论文,2003.

[3]孙德建.网络信息检索与搜索引擎技术[M].长春:吉林科学技术出版社,2001.

[4]余少云.如何利用搜索引擎获取信息资源[J].网络安全技术与应用,2005(11).

[5]王林.搜索引擎的原理和发展[J].图书馆理论与实践,2004,(4).

智能搜索引擎发展现状及关键技术 篇5

1 引言

随着信息技术的迅速发展和Internet的广泛普及, 信息搜索成为广大网络用户获取互联网信息的主要手段。在网络上信息量成几何级数的增长, 人们将怎样在网络上搜索自己需要的信息。传统的搜索引擎技术在日益庞大的信息量面前逐渐显得力不从心。在这样的状况下, 智能搜索引擎技术应运而生, 也成为当前搜索引擎技术发展的主要方向。

2 搜索引擎发展历史及现状

目前公认的第一代搜索引擎是以Yahoo为代表的人工目录分类导航检索的网站搜索, 它开始了互联网搜索的时代。这是最为传统的搜索引擎, 主要缺陷在于检索结果的相关性差, 检索结果杂乱无章且数量庞大, 与用户所想检索的结果差异太大, 无法做到较为精确的检索。

第二代搜索引擎是以Google为代表的, 基于关键词和特殊算法的搜索, 是依靠机器抓取的、建立在超链分析基础上的大规模网页搜索, 相较于第一代搜索引擎提高了查准率、查全率和检索速度。但是仍然不能满足网民的检索需求, 用户在信息检索过程中有仍存在查全率、查准率低, 检索多媒体信息的能力差等。

由此可见, 第一、第二代搜索引擎使用的技术难以满足用户快速准确查找信息的需求。造成这种情况的本质在于搜索引擎对要检索的信息仅采用机械的关键词匹配来实现, 无法对所检索的内容进行处理和理解达到智能检索的目的。将信息检索从基于关键词层面提高到基于知识 (或概念) 理解层面, 是解决问题的根本和关键。正是基于此需求, 近年来研究人员一直致力于改进Pagerank算法 (在孟涛的文章中有较全面的综述) , 由此来提高搜索结果的质量。

从第一代搜索引擎到第二代搜索引擎是质变过程, 而到第三代搜索引擎则是量变与质变的结合, 不仅提升了检索技术, 还向着智能化的方向发展。自从进入第三代搜索引擎, 全球都在不断探索和完善搜索引擎技术, 经过多年的探索和市场历练, 现今已露端倪。这一端倪包括两个趋势:一是以Goog le为主要代表技术驱动型理念, 还包括雅虎、搜狐等;二是以J wm guagua (精武门呱呱) 为主要代表的服务驱动型理念。以上两种类型的理念体现了第三代搜索引擎的智能化、人性化特征, 不再局限于机械的关键词检索, 可以直接对用户输入的检索词进行语义分析整合, 满足了用户更快、更准、更方便的查询需求。

3 智能搜索引擎的关键技术

智能化搜索引擎具有信息服务的智能化、人性化特征, 可以为用户提供更快、更准确的搜索服务, 一般包括人工智能、模式识别、语义分析、神经网络等智能搜索。目前面对这用户对搜索引擎的要求不断提高, 要求智能搜索的技术在不断更新, 相关的算法不断的优化。现在的搜索引擎主要还是以文字内容为基础, 其主要方法有两种:一是基于词典匹配, 该方法是将待分析的汉字与事先造好的词典中的词条进行匹配, 在待分析汉字串与词典中已有的词条匹配则成功, 或切分出一个单词。词典匹配方法计算较为简单, 其准确度较大程度上取决于词典的完整性和更新情况;二是基于统计方法, 该方法需要分析大量的文字样本, 计算统计出字与字相邻出现的概率, 几个字相邻出现越多形成一个词的可能性就越大。基于统计的方法优势是对新出现的词反应更快速, 也有利于消除歧义。以上两种方法各有优劣, 实际应用中则是混合使用两种方法来达到快速高效, 又能识别生词、新词, 消除歧义。

而为了更好的应用以上两种方法, 并要求智能引擎能够进行自然语言理解和处理关键词的含义, 机器学习和数据挖掘技术的发展显得至关重要。目前机器学习逐渐成为人工智能研究的核心之一, 它的应用已经遍及人工智能的各个领域。数据挖掘又可称为数据库中的知识发现, 指的是从存放数据库、数据仓库货其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程[5]。

4 结束语

Internet的信息量爆炸性递增, 搜索引擎在用户和信息源之间架起了沟通的桥梁, 为人们迅速、方便地获取有效信息提供检索服务, 起到信息导航的目的。当前的智能化搜索引擎能够实现信息服务的智能化、人性化、高效化, 为用户检索互联网信息提供了方便, 其发展是一个长期的过程。目前的搜索引擎主要提供基于文字内容的信息检索服务, 而对于进一步提高检索结果的相关、个性化检索服务、支持多媒体检索、支持自然语言检索、增强检索界面的友好程度等还有非常多的工作需要去做, 搜索引擎要真正地实现智能化并不仅仅局限于概念上那么简单。但是我们要坚信, 在科学技术的不断发展和推动下, 一些高性能的满足不同需求的搜索引擎将会不断被开发出来。

参考文献

[1]浅析第三代搜索引擎的发展[J].包瑞.晋图学刊, 2010年第4期 (总第119期) .

[2]第三代搜索引擎的研究现状及其发展趋向探析[J].张立彬1, 杨军花1, 杨琴茹2.情报理论与实践, 2008 (5) :785—789.

[3]搜索引擎的未来发展[J].韩进军, 安园园.医学信息学杂志, 2007 (5) :431—434.

上一篇:新闻视角下一篇:应用型大学创业教育