中文智能搜索引擎技术

2024-10-15

中文智能搜索引擎技术(精选5篇)

中文智能搜索引擎技术 篇1

0引言

随着互联网的快速发展,网络信息量不断增加。面对数量庞大,种类多样的信息,一般搜索引擎无法为用户提供准确的检索结果,开发新的搜索引擎势在必行。智能搜索引擎不仅要提高信息检索准确性和全面性,还要满足用户个性等搜索信息需求。搜索引擎与智能代理相结合的智能化搜索引擎技术能够比较好的实现这一目标。

1搜索引擎

1.1搜索引擎基本原理

搜索引擎由信息搜集系统、文件处理系统、索引系统和检索系统组成。

信息搜集系统通过网页抓取程序(spider)在网络中顺着网页的超链接抓取网页,搜集文档的基本信息并下载至搜索引擎本地,然后将文档和其基本信息分开,并保存到原始文档数据库和文档信息数据库中。

文件处理系统负责将需要索引的文件转换成具有统一编码格式的文本文件。信息搜集系统从网络上下载文件,保存到本地供索引器索引。文件文本格式种类繁多,如纯文本文件、html格式文件、word文件、pdf文档等,文本格式相同的文件,字符编码方式也不尽相同。文件的异构性要求文件处理系统将各种不同格式的类文本文件转换成纯文本文件。

索引系统将程序收集到的文件进行处理,建立索引库和索引。相关处理还包括去除重复网页、分词(中文)、判断网页类型、分析超链接,计算网页的重要度、丰富度等。

检索系统通过用户输入的关键词从索引数据库中找到与关键词匹配的网页,并按照文档得分的高低依次显示在用户浏览器中。

1.2传统搜索引擎的局限性

面对浩如烟海的网络信息,用户想要通过一般搜索引擎获取准确和全面的信息较困难。其局限性表现在:

(1)信息检索方式单一。搜索引擎一般提供网站分类查询和关键词全文检索两种方式,这两种方法均容易造成信息丢失,不能全面检索用户需要的信息;不能对用户输入的关键词进行词意分析和词意扩展。如今信息的多样化要求搜索引擎不仅 要检索出 文档,还要检索 需要的图片、视频、音频等。

(2)不能个性化制定。传统搜索引擎提供相同的界面和检索策略,不能提供用户信息定制,不同用户输入相同的查询条件返回的结果相同。不同领域的用户对同一个关键词的搜索返回的检索结果应该不一样,智能搜索引擎能根据用户专业背景和网页浏览历史检索出用户需求的信息。

(3)对信息的标引深度不够。搜索引擎检索的结果往往只提供线形的网址和包括关键词的网页信息,或者返回过多的无用信息,特别是对特定文献数据库的检索更显得无能为力[1]。

(4)信息更新能力低。搜索引擎信息收集和查询是两个分离的过程,缺少有机结合。网络信息资源呈分布式、动态、快速增长,搜索引擎的集中化架构不能跟上文档的扩张速度,也就不能有规律地及时更新数据库,用户检索到的结果可能不是最新信息。

2智能搜索引擎

智能搜索引擎应摆脱传统搜索引擎的局限性,更加智能化,更具主动性,提供多元化的检索方式,为用户提供个性化制定,检索出满足用户个性需求。

2.1智能搜索引擎主要特征

(1)智能性。智能化搜索引擎网络蜘蛛通过自主启发式学习选择最有效的搜索策略和最佳时机,在特定站点或者整个因特网搜集和整理信息。智能化搜索引擎可以将多个引擎的搜索结果进行整合,作为一个整体存放到数据库中。

(2)个性化。智能化搜索引擎提供个性化制定服务,用户注册基本信息,如年龄、专业背景、工作方向等,通过分析用户基本信息及平时浏览网页的记录制定出用户兴趣模块,检索出来的信息和用户兴趣相关,不同兴趣的用户输入同一个关键词返回的结果可能不同。

(3)多元化。智能化搜索引擎有多元化的检索方式,提供基于大众的搜索分析,基于自然语言、关键词、概念和上下文,通过相关反馈技术检索可选择查询路径。对关键词进行词意扩展和词意派生,实现准确的分词,从而更加准确地把握用户的搜索需求。

(4)协作性。智能化搜索引擎能通过各种通信协议和其它智能代理进行信息交流 ,并可以相互协调共同完成复杂任务[2]。

2.2智能搜索引擎技术

要实现智能化搜索引擎,当前要特别加强对汉语分词技术、短语识别技术、同义词处理技术、知识库与推理机应有技术和人机对话智能技术的研究。

智能化搜索引擎对语义的理解主要体现在以下两个方面:一是对用户输入的关键词的理解;二是对网页信息内容的理解。传统搜索引擎对关键字的识别是较机械的匹配方式,容易造成信息不准确和丢失。智能化搜索引擎可对用户输入的关键词进行语义理解,并返回用户想要的信息。自然语言语义理解的技术主要有4种:1汉语分词技术。中国文化博大精深,语句是由各种词语按照一定的语序组成的。汉语对词语的划分相对英文来说复杂得多,汉语词语可以是由一个字或者多个字组成。汉语分词技术主要有基于字典、词库匹配的分词、基于词频度和基于知识理解的分词,通过这些方法准确把握用户输入关键词的含义;2短语识别技术。短语是由词语所构成的,是句子中基本的识别单位,在汉语句法分析和语义分析中具有重大意义。用户搜索有时需要对关键词加一定的修饰词,前者就是词语,后者为短语。需要通过短语识别技术对关键词进行正确的分词,从而准确理解用户的查询需求;3同义词处理技术。包括基于词汇字面相似度算法、基于词素的语义相似度算法以及基于《同义词词林》、《知网》等语义词典的语义相似度算法。主要依靠人工方式构造同义词库等辅助词库,利用搜索引擎主动联想技术实现对同义词的联想,准确把握用户关键词语义;4知识库构建技术。知识库包含各种词典,词典按其功能不同可分成定义词词典、同名词词典、派生词词典等,词典按词的确定性又可分成系统词典与用户词典。这些词典构成了一个庞大而复杂的知识库。

人机接口智能化主要有以下技术:1人机交互界面技术。智能化搜索引擎界面具有智能化、多元化、个性化等特点。其技术主要包括搜索请求提交技术、搜索结果表现技术、搜索向导技术、搜索行为分析技术。其中,搜索行为分析技术是个性化搜索的关键技术,它通过分析用户的浏览记录和搜索习惯 来提高搜 索效率;2关联式综 合搜索。将图片、新闻等 各种有关 联的信息 呈现在同 一界面上,用户搜索时只需查询一次,即可在同一界面得到各种有关联的查询结果。

随着云技术的出现,智能搜索引擎将全球服务器当作一个云系统,从而极大提升从数据库中提取信息速度。云技术的成熟能够有效提升搜索引擎的算法速度,提高智能搜索引擎的运行速度[3]。

3结语

智能化搜索引擎技术的发展首先应该解决目前搜索引擎的局限性,然后再添加智能搜索。智能搜索引擎应该在以下几个方面寻求发展:提供友好的查询界面;多元化的检索方式;强大的自然语言理解技术;丰富的知识库;考虑按时间、地域顺序输出检索结果,以便用户选择所需的最新信息;查询结果文摘动态生成;结果自动综合分析和评分[4]。

随着搜索引擎技术的发展,智能化搜索引擎变得更多元化、亲切、个性化,广泛融入进人们的生活,为用户提供更准确、符合需求的搜索信息。

参考文献

[1]刘冰,马晓丽,胡风华.搜索引擎智能化及其在知识库系统中的应用[J].软件导刊,2009.8(8):138-139.

[2]朱素媛,马溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报,2003,8(26):657-661.

[3]林勇.计算机搜索引擎智能化技术研究[J].煤炭技术,2013,6(32):175-177.

[4]吴丹.搜索引擎的智能化研究[J].情报理论与实践,2002(4):293-295.

中文智能搜索引擎的设计与实现 篇2

计算机技术和互联网技术迅速发展, 造成的互联网络泡沫迅速膨胀, 给搜索结果精确程度带来了巨大的挑战。想要把如此庞大而又复杂的网络环境中对自己有用的信息提炼出来, 必须使用搜索引擎来完成。想要很方便的构建一个根据自己的需要而专门定制的搜索引擎, 可以通过本设计所使用的Lucene.net。本文阐述了较为简单的中文智能搜索引擎的开发过程的关键问题, 对目前的搜索以及编程方面的新技术进行了研究。

1 开发环境

中午智能搜索引擎采用微软提供的.NET是一种面向Web服务的开发平台, 由.NET企业服务器、框架、Web服务等几部分组成, 可以提供较为全面的解决方案。因此在本系统的开发中, 采用ASP.NET作为本设计的开发工具。我们选择了微软公司的.NET作为开发平台。同时, 选择C#作为开发语言, 使用Microsoft Visual Studio.NET 2005作为开发平台;使用Microsoft SQL Server 2005作为后台数据库。使用Ajax程序对搜索引擎系统进行优化, 可以实现浏览器页面的局部刷新功能。Lucene作为一个高性能的信息检索工具库, 能够为搜索引擎应用提供一个工具包, 同时配合Lunene.net完成, 它可以嵌入到程序中为程序提供关键词搜索功能, 也可以用来对文档建立索引。

2 Lucene.net构建搜索引擎原理

搜索引擎的工作过程分为3个步骤:一是抓取网页, 二是建立索引数据库, 三是搜索索引数据库。在全文搜索中, 在程序之中预先定义一个或者一定地址范围内网站, 由程序中的Spider程序模块从这个预先定义的网站开始采集网页资料, 并且沿着这个 (或这些) 网站上的链接进行跳转, 并循环该过程。Spider采集的网页, 首先要进行程序分析过程, 根据预先给定的算法运算后, 其结果添加到索引数据库中。而用户日常平时进行的全文搜索引擎, 呈现给用户的仅是一个检索的界面。其工作过程是, 首先根据用户检索的内容提相符的所有的相关网页, 最后按照预先设定的规则, 将得到的网页列表结果显示出来。由于存在各种各样的搜索引擎, 它们预先设定的规则以及索引数据库不尽相同, 因此用户看到的最后搜索结果也因而不同。

根据预先设定的初始网页, Spider程序可以自动的访问网络, 对这个页面进行访问, 并且能够提取该网页上的所有URL。而且, Spider程序还能够依次跳转到URL所对应的其他页面, 继续提取这个二级页面上的URL, 最后不断的重复这个过程, 直到达到其程序限定的级数停止[1]。Spider程序爬出的所有网页都经过分析索引程序对其进行分析, 程序会提取网页页面的相关信息, 这些信息包括网页的网址, 网页内容的所使用的编码类型, 网页代码头中所包含的网站关键字等等一系列信息。然后根据提取的这些相关信息构造网页索引数据库, 并采用预先设定的排序算法对其进行排序, 因此当用户进行搜索时, 搜索程序会检测用户所输入的关键词, 然后根据这个关键词查找服务器后台的索引数据库, 将所有符合这个关键词的相关网页都提取入栈。最后, 页面生成系统将调用包含了查询到的网页的栈, 提取栈内网页的地址和含有高亮关键词部分的页面摘要内容整合成一个页面呈现给用户。由于每个搜索引擎的网页索引数据库不同, 而且搜索引擎只能搜到数据库里储存过的内容, 所以用户在不同的搜索引擎下进行搜索, 所得的结果也不会完全相同。

3 搜索引擎的设计与实现

3.1 搜索引擎模型

模型包括爬虫、索引生成、查询及系统配置部分。爬虫包括:网页抓取模块、网页减肥模块、爬虫维持模块。索引生成包括:基于文本文件的索引、基于数据库的索引。查询部分有Ajax、后台处理、前台界面模块如图1所示。

3.2 数据库设计

本课题包含一张用于存放抓取回来的网页信息如表1所示。

3.3 模块设计与实现

该模型按照功能划分了3个部分, 一是爬虫抓取网页部分, 二是从数据库建立索引部分, 三是从前台页面查询部分。从一个或几个初始网页开始, 获得初始网页上的URL, 并加入队列, 直到满足系统限定的诸如域名空间或者是网页抓取级数的的停止条件。实际应用中主要以绝对地址和相对地址来的形式来表现获取到的URL。一个准确的、无歧义的Internet资源的位置, 包含域名 (主机名) 、路径名和文件名叫做绝对地址[2]。但是相对地址只是绝对地址的一部分。得到的信息包括网页标题、内容、链接、抓取时间等, 然后将这些信息经过系统程序算法的筛选, 保存到数据库中。程序计算后去掉多余的HTML标签、Javascript等多余信息, 如果不经过处理就会使搜索变得不精确。

想要爬虫程序能继续运行下去, 就得抓取网页上的其它URL, 所以要用正则将这个网页上的所有URL提取出来放到一个队列里。通过多线程技术用同样的方法, 依照队列次序继续抓取网页。

Lucene提供了Document, Field, Index Writer, Analyzer, Directory五个基础类对文档进行索引。一个Document对象由多个Field对象组成。Document用来描述包括HTML页面、电子邮件或者是文本文件等类型的文档[3]。如果用数据库记录来理解每个Document对象, 那么每个Field对象就是记录对应的某个字段。Analyzer类是一个有多个实现的抽象类。在索引文档之前, 需要先由Analyzer进行分词处理。可以针对不同的语言和应用选择适合的Analyzer。Analyzer把分词后的内容交给Index Writer建立索引。

方便用户查询是所有搜索引擎的目标。在查询页面输入用Lucene的搜索引擎中, 需用到Lucene提供的方法, 可从所建立的索引文档中得到结果。

在配置网页爬虫程序时, 预先将一个一个有效的URL输入在控制面板里, 然后由这个URL开始依照级别遍历相关的链接, 然后在网页数据库里经这些连接存贮下来, 然后就由索引生成程序读取, 对每条记录生成索引记录, 存放于生成的索引库文件里。生成索引需要调用Lucene.Net类[4]。索引生成后可以直接在查询页面上输入关键字, 对系统生成的索引库的查询, 并反馈信息, 还可以精确定位到信息的出处。

4 结语

在这个网络泡沫迅速膨胀时代, 网络中有成千上亿个网页, 仅仅通过人工方式对网页进行收集和整理的工作量的巨大难以想象的。所以通过智能搜索来收集网络上的网页资料, 由系统建立索引数据库来代替庞大的、不可能完成的人工操作。用户在浏览网页需要搜索相关内容的时候, 就会通过选择关键词进行搜索, 智能搜索引擎就需要为用户显示包含该关键词的所有网页呈现给用户, 程序需要根据索引数据库中所存储词条与关键词的相关度进行排序。这个过程需要一系列的复杂的算法进行大量计算, 从而将用户需要的信息显示在反馈的网页上面, 这样用户就能快速的得到检索结果。

摘要:大数据时代网上信息量快速增长, 智能搜索系统可以帮助用户快速定位查询的资源。文章主要探讨了搜索引擎的原理, 阐述了使用Lucene与Ajax实现智能搜索的方法。对Lucene的搜索引擎模型、数据库设计、模块设计进行了详细分析, 对Lucene.net构建搜索引擎原理的关键问题进行了研究。

关键词:Lucene,异步更新,Ajax,搜索引擎

参考文献

[1]刘东君, 李德泉, 周勇, 等.基于Lucene的非结构化文档全文检索系统研究与实现[J].软件导刊, 2013 (10) .

[2]艾丽娟.智能搜索引擎发展现状及关键技术[J].电子技术与软件工程, 2013 (10) .

[3]兰蔚巍, 李海生.浅谈智能搜索引擎技术及其发展趋势[J].科技信息, 2010 (28) .

智能搜索引擎发展现状及关键技术 篇3

1 引言

随着信息技术的迅速发展和Internet的广泛普及, 信息搜索成为广大网络用户获取互联网信息的主要手段。在网络上信息量成几何级数的增长, 人们将怎样在网络上搜索自己需要的信息。传统的搜索引擎技术在日益庞大的信息量面前逐渐显得力不从心。在这样的状况下, 智能搜索引擎技术应运而生, 也成为当前搜索引擎技术发展的主要方向。

2 搜索引擎发展历史及现状

目前公认的第一代搜索引擎是以Yahoo为代表的人工目录分类导航检索的网站搜索, 它开始了互联网搜索的时代。这是最为传统的搜索引擎, 主要缺陷在于检索结果的相关性差, 检索结果杂乱无章且数量庞大, 与用户所想检索的结果差异太大, 无法做到较为精确的检索。

第二代搜索引擎是以Google为代表的, 基于关键词和特殊算法的搜索, 是依靠机器抓取的、建立在超链分析基础上的大规模网页搜索, 相较于第一代搜索引擎提高了查准率、查全率和检索速度。但是仍然不能满足网民的检索需求, 用户在信息检索过程中有仍存在查全率、查准率低, 检索多媒体信息的能力差等。

由此可见, 第一、第二代搜索引擎使用的技术难以满足用户快速准确查找信息的需求。造成这种情况的本质在于搜索引擎对要检索的信息仅采用机械的关键词匹配来实现, 无法对所检索的内容进行处理和理解达到智能检索的目的。将信息检索从基于关键词层面提高到基于知识 (或概念) 理解层面, 是解决问题的根本和关键。正是基于此需求, 近年来研究人员一直致力于改进Pagerank算法 (在孟涛的文章中有较全面的综述) , 由此来提高搜索结果的质量。

从第一代搜索引擎到第二代搜索引擎是质变过程, 而到第三代搜索引擎则是量变与质变的结合, 不仅提升了检索技术, 还向着智能化的方向发展。自从进入第三代搜索引擎, 全球都在不断探索和完善搜索引擎技术, 经过多年的探索和市场历练, 现今已露端倪。这一端倪包括两个趋势:一是以Goog le为主要代表技术驱动型理念, 还包括雅虎、搜狐等;二是以J wm guagua (精武门呱呱) 为主要代表的服务驱动型理念。以上两种类型的理念体现了第三代搜索引擎的智能化、人性化特征, 不再局限于机械的关键词检索, 可以直接对用户输入的检索词进行语义分析整合, 满足了用户更快、更准、更方便的查询需求。

3 智能搜索引擎的关键技术

智能化搜索引擎具有信息服务的智能化、人性化特征, 可以为用户提供更快、更准确的搜索服务, 一般包括人工智能、模式识别、语义分析、神经网络等智能搜索。目前面对这用户对搜索引擎的要求不断提高, 要求智能搜索的技术在不断更新, 相关的算法不断的优化。现在的搜索引擎主要还是以文字内容为基础, 其主要方法有两种:一是基于词典匹配, 该方法是将待分析的汉字与事先造好的词典中的词条进行匹配, 在待分析汉字串与词典中已有的词条匹配则成功, 或切分出一个单词。词典匹配方法计算较为简单, 其准确度较大程度上取决于词典的完整性和更新情况;二是基于统计方法, 该方法需要分析大量的文字样本, 计算统计出字与字相邻出现的概率, 几个字相邻出现越多形成一个词的可能性就越大。基于统计的方法优势是对新出现的词反应更快速, 也有利于消除歧义。以上两种方法各有优劣, 实际应用中则是混合使用两种方法来达到快速高效, 又能识别生词、新词, 消除歧义。

而为了更好的应用以上两种方法, 并要求智能引擎能够进行自然语言理解和处理关键词的含义, 机器学习和数据挖掘技术的发展显得至关重要。目前机器学习逐渐成为人工智能研究的核心之一, 它的应用已经遍及人工智能的各个领域。数据挖掘又可称为数据库中的知识发现, 指的是从存放数据库、数据仓库货其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程[5]。

4 结束语

Internet的信息量爆炸性递增, 搜索引擎在用户和信息源之间架起了沟通的桥梁, 为人们迅速、方便地获取有效信息提供检索服务, 起到信息导航的目的。当前的智能化搜索引擎能够实现信息服务的智能化、人性化、高效化, 为用户检索互联网信息提供了方便, 其发展是一个长期的过程。目前的搜索引擎主要提供基于文字内容的信息检索服务, 而对于进一步提高检索结果的相关、个性化检索服务、支持多媒体检索、支持自然语言检索、增强检索界面的友好程度等还有非常多的工作需要去做, 搜索引擎要真正地实现智能化并不仅仅局限于概念上那么简单。但是我们要坚信, 在科学技术的不断发展和推动下, 一些高性能的满足不同需求的搜索引擎将会不断被开发出来。

参考文献

[1]浅析第三代搜索引擎的发展[J].包瑞.晋图学刊, 2010年第4期 (总第119期) .

[2]第三代搜索引擎的研究现状及其发展趋向探析[J].张立彬1, 杨军花1, 杨琴茹2.情报理论与实践, 2008 (5) :785—789.

[3]搜索引擎的未来发展[J].韩进军, 安园园.医学信息学杂志, 2007 (5) :431—434.

智能技术在搜索引擎中的应用 篇4

关键词:智能技术,搜索引擎,应用分析

搜索引擎是根据一定的策略、运用特定的计算机程序来搜索互联网上的信息, 在对信息进行组织和处理后, 将处理后的结果显示给用户, 是为用户提供检索服务的系统。而智能技术在搜索引擎中的实际应用也越来越广泛, 不断有新兴的智能技术出现, 搜索引擎也不断地结合这些智能技术来进行自身的变革和发展, 这是一个渐进的过程。文章将详细介绍两种智能技术在搜索引擎中的应用。

1 搜索引擎的分类

全文搜索引擎是最标准的搜索引擎, 国外的主要代表是Google, 而国内的主要代表则是百度。全文搜索引擎的主要原理是在互联网中检索与所查目标相匹配的内容, 继而建立数据库, 按序排列并且将其展示给用户。

目录搜索引擎较本质来说, 其实不能算是真正的搜索引擎。只是将网站链接目录分类, 用户并不需要输入关键字, 根据目录就完全可以找到想要的信息。目录索引最具代表性的就是Yahoo和新浪索引。

元搜索引擎在接收用户的搜索请求后, 可以在各个搜索引擎上同时搜索, 随后将结果显示给用户。这一种搜索引擎的国内代表是搜星搜索引擎。

2 相比网络信息检索传统搜索引擎的缺点

传统搜索引擎作为用户在互联网进行信息检索的一个重要途径给广大用户提供了相当大的便利, 随着互联网的迅速发展, 用户对搜索引擎又提出了搜索速度更快, 搜索效率更高等诸多的要求, 正是用户的这些需求刺激着搜索引擎的快速发展。传统搜索引擎越来越满足不了用户的需求, 主要存在以下几点不足: (1) 搜索引擎从互联网搜索的各种网页水准不一, 存在着根本没用或者暂时性的网页, 这严重加大了用户检索信息的困难程度并且严重影响了检索速度。 (2) 主流搜索引擎大多采用关键词来进行检索, 由于用户水平的差异, 极少数可以总结出关键词或关键词组, 以至于用户搜索不到想要的内容从而加大了检索难度。 (3) 每个搜索引擎覆盖的范围虽然不小, 但与庞大的互联网相比, 简直是九牛一毛。 (4) 检索的结果不准确, 不唯一, 搜索结果为零或者为数万的情况时有发生。 (5) 不能智能搜索, 传统搜索引擎就难以满足用户深层次的需求。

3 智能技术的运用

由于传统引擎的各种缺点, 用户越来越渴望更好用更便捷的搜索方式出现。在这种刺激下智能技术在搜索引擎中的应用大量出现, 这使得搜索引擎须具有一定的智能化和理解能力, 当前主要有以下两大智能技术:

3.1 网对网技术

(1) 顾名思义, 网对网技术就是网络和网络对应起来的意思。这其中又要提到两个概念了, 是两个单词。第一个单词我们都相当熟悉了——internet。我们常说的互联网, 就是这个单词。而在这里, 这个单词指的是一个信息网络, 也就是我们所说的网络中的信息网。我们想要搜索什么东西时, 将它输入在搜索引擎中, 引擎就会在这个网络库中进行查找, 找到相关信息, 然后呈现在我们面前。而另一个词可能就有一些陌生了———innernet。表面上看起来与internet很像, 英文词典中并没有这个词, 我们在这里叫它内联网。内联网是和看起来更像数据库的internet比起来, 更像是人类大脑的一个信息网络, 这里面不仅仅有我们生活和工作中所用到的各种各样的信息, 更重要的是信息之间繁杂又紧密的联系。就像我们在生活中和他人交流, 提到“小伙伴”这个词, 我们会想到其他与之有联系的词汇, 比如“朋友”、“同学”等等, 同样的, 当我们提到“师父”, 我们的大脑也会迅速的联想到“师门”、“师生”这样的相关词汇。我们所说的内联网, 它所着重的, 也是信息与信息之间这样息息相关的联系。Internet和innernet都是知识的网络, 互联网时代的信息社会发展日新月异, 因此无论是哪个网络, 其内的信息都是不断变化着的。

(2) 人们将这个技术运用在搜索引擎中, 大大的提高了搜索引擎的实用性。作为内联网的innernet和internet联结起来, 运用信息之间存在的各种各样的联系, 将用户输入进搜索引擎中的话语中复杂的联系正确的分割开, 然后各自拓展出一些对人们而言有用的信息, 将internet中庞大、杂乱的信息进行有序化的筛选和整理, 最终将信息呈现在人们的眼前。这大大的提高了搜索引擎的可操作性, 缩短了人们不断删改语句来配合internet的时间, 自然也就提高了用户的工作效率。

3.2 Web数据挖掘技术

(1) 数据挖掘作为一门交叉学科, 其原理比较复杂, 可以从庞大的数据中将更有用、更有新意的数据挖掘出来, 而Web挖掘, 便是将数据挖掘和Web发展联系起来。Web数据挖掘有三种不同的挖掘形式, 即内容挖掘、结构挖掘和使用记录的挖掘。

(2) 内容挖掘指的是从Web文档中或是描述中进行挖掘, 在网页中进行数据挖掘, 其中包括数据有文本、超链接、图像和视频等等, 而半结构化的数据和无结构的文本便是主要的挖掘对象。

(3) Web结构挖掘则是通过网页中的超链接, 发现其中信息之间的结构及其紧密或稀疏的联系。在我们平时的上网中, 我们只能看到一个个的网页, 打开浏览或者关闭。但是在这些页面的背后, 其实隐藏着无数个结构链接。Web数据挖掘就能够通过这些结构上的链接, 发现页面与页面、数据与数据之间的联系, 随后对它们进行分类, 以便为用户提供含有相似信息的更多页面, 帮助用户完善自己想要在搜索引擎中得到的信息。

(4) Web使用记录的挖掘则是较之前两个, 让我们感觉更加熟悉的, 至少“使用记录”四个字使我们上网过程中能够看到的。当我们点击一下搜索引擎的输入框想要输入文本时, 搜索引擎会自动下拉出我们前几次使用时所查询的内容, 以便我们重复查看相似内容的信息。搜索引擎有时也会为我们推荐一些内容的信息, 这些信息也会是我们所感兴趣的一些内容, 是搜索引擎结合了我们之前的使用记录, 为我们提供感兴趣的相类似的内容。这些都是Web使用记录挖掘在搜索引擎中的实用例子, 但并不是全部。搜索引擎会从用户的访问痕迹中挖掘出很多有意义的数据, 包括数据端、服务器端和代理端的数据。而其获得这些数据的途径又分为KDD和专业化追踪, 通过这些方法和深度的挖掘, 使搜索引擎更加“智能”的了解用户的兴趣和需要。

4 结束语

搜索引擎是我们工作、学习和生活中必不可少的实用性技术, 正如一个调查中所显示的, 85%的人都是通过搜索引擎获取到他们所需要的信息和所喜爱的网站, 可见搜索引擎对于人们而言的重要性。随着智能技术在不断的更新, 人们的生活变得越来越智能, 对搜索引擎的要求也会随之越来越高, 因此不断利用新的技术完善和提高搜索引擎的智能性, 是用户的选择, 也是时代的选择, 是搜索引擎在现在和未来的发展中必然的趋势, 且将一直持续下去。

参考文献

[1]陈勇跃, 张玉峰.智能技术在搜索引擎中的应用[J].情报杂志, 2004, 02:2-3+6.

[2]杨占华, 杨燕.数据挖掘在智能搜索引擎中的应用[J].微计算机信息, 2006, 12:244-246.

[3]朱素媛, 马溪俊, 梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报 (自然科学版) , 2003, S1:657-661.

中文智能搜索引擎技术 篇5

当前搜索引擎数据库检索和应用性差, 不利于用户使用;排序技术指标单一, 查找到的信息有效性低;信息分类类目和标准不统一, 导致界而友好性低;自身搜索技术不成熟, 误检率高, 不利于电子商务使用。

搜索引擎主要由搜索器、索引器、检索器和用户接口四部分组成。搜索器一般采用一种被称为Spider的网络自动跟踪索引程序。索引器的功能是理解搜索器所索引的信息, 从中抽取索引项、建立起自己的物理索引数据库。检索器的功能是根据用户的查询在索引库中快速检索出文档, 进行文档与查询的相关度评价, 对将要输出的结果进行排序, 并实现某种用户相关性反馈机制。用户接口的作用是输人用户查询, 显示查询结果, 提供用户相关性反馈机制。

目前搜索引擎根据构建时的不同策略, 大致可以分为三种模式:一、建立在分类基础上的搜索引擎, 优点是准确率比较高, 不足是查全率不是很好。二、建立在索引文档基础上的搜索引擎, 优点是搜索网络信息效率高, 查全率好于第一种, 但查准率不及第一种;三、建立在概念的基础上, 突破了传统搜索引擎中相对比较简单的基于关键词的匹配, 它借助数据字典扩展条件, 通过模式的提取和识别抽象化搜索条件与文档之间的联系, 这种搜索引擎的查准率较差, 而查全率是三者中最高的。

利用人工智能先进技术重新设计搜索引擎, 使搜索引擎更具智能化, 使检索结果更能反映用户的需求, 这类搜索引擎称为智能搜索引擎。把信息检索从目前基于关键词层面提高到基于知识层面, 是解决问题的根本和关键。

二、智能检索技术的分析研究

1. 网络Robot的智能技术分析研究

网络Robot是一种软件, 它完成任务必须具备一定的智能, 可以概括为以下几个方面:

(1) 提取网页中的有效链接

智能Robot从分析一组指定的URL开始, 按照电子商务的电子词典对文档的相关性进行判断提取超链, 滤去不适宜的文档, 降低索引的混乱程度, 满足条件的超链按照标题或单词建立索引并产生本地数据库, 使搜索结果更加纯净。

(2) 识别访问过的链接, 剔除广告等无意义的链接

智能Robot排除掉那些在目标URL中已被访问过的URL;由于WWW的巨大规模, 为避免R o b o t搜索得太深, 从而回不到原处的情况发生, 必须对搜索的深度进行限制;剔除图像、音频、视频等无法进行索引的文档。

(3) 确定搜索策略

Robot的搜索策略是指当Robot搜索到一个文档后, 下一步应当转移到哪个文档的方法问题。它主要有以下几种搜索策略: (1) I P地址搜索策略。它实现的方法是先赋予Robot一个起始的IP地址, 然后根据I P地址递增的方式搜索本I P地址段后的每一个W W W地址中的文档。优点是搜索全面, 缺点是不适宜大规模的搜索。 (2) 深度优先搜索策略。它是从起始节点出发, 一直搜索到那些不包含任何超级链接的文件为止, 然后再返回某一文档, 再继续选择该文档中的其他超级链接。优点是便于发现新的站点, 但信息面增长相对慢一些。 (3) 广度优先搜索策略。它是先搜索完一个W e b页面中所有的超级链接, 然后再继续下一层的搜索, 直到最底层为止。它能够很好地解决搜索面的问题, 缺点是对于深层W e b文档要花很长的时间才能到达。

我们采取深度与广度相结合的策略来采集文档, 满足条件的文档放到搜索数据库并建立索引数据库, 针对链接内容发生变化, 采取迅速、及时的更新机制, 建立的索引库供检索数据使用。

2. 搜索条件的获取和智能分析研究

通常搜索引擎支持最多的是关键词搜索和在此基础上的逻辑运算, 在初步搜索结果中再搜索和限制条件较为复杂的高级搜索, 这种简单的用户信息获取方式势必直接影响着搜索结果的准确性和相关性。目前, 由于各类电子商务站点使用的搜索引擎都是基于关系数据库的检索引擎, 它无法处理在用户看来是非常普通的常识性知识, 更不能处理个性化知识、区域性知识以及专业性知识等。造成上述种种信息检索困难的原因在于搜索引擎缺乏知识处理能力和理解能力, 对要检索的信息仅仅采用机械的关键词匹配来实现。智能搜索引擎检索的内容应该是知识而不是信息, 它对查询条件的智能分析主要包括以下两种:

(1) 提取查询条件中的有效成分, 包括词汇和逻辑关系。

(2) 建立电子商务知识库来获取关键词的同义词、近义词及相关词, 如计算机、电脑和微机是同义关系, 建立概念之间复杂的语义关系及常识上的联系, 如相机与胶卷存在常识上的联系。根据语义关系和常识性联系对用户查询进行相关性联想, 提供引导用户进行下一步查询的线索。这样一步步地在与用户交互过程中诱导用户“表达”出他真正想找的东西, 从而实现对查询的智能导航。

三、结论

互联网智能搜索是一个新兴的极具魅力的研究领域, 它不但为商务主体提供了迅速接人Internet搜索自己所需商品的智能技术, 而且也免除了交易双方对象寻找进行交易所耗费的大量时间和精力。搜索引擎主要向专题性智能搜索引擎发展是今后的发展趋势, 专题性搜索引擎索引器因为涉及领域小、信息量相对少, 所以完全可以在自动分类标引的过程中加人人工智能技术, 提高信息的查询质量。

参考文献

[1]孙炜:中文搜索引擎开发利用策略研究.科技情报开发与经济.2005 (1) .230~231

[2]吴茵茵:不同搜索引擎在网络影响因子分析中的比较研究.情报科学.2005 (3) :43~35

上一篇:党的纯洁性提升路径下一篇:运动功能恢复