搜索引擎系统

2024-06-20

搜索引擎系统（精选12篇）

搜索引擎系统篇1

1. 引言

目前,政务网和大型企业的内网建设已具有一定规模,虽然大多数单位都已认识到信息安全的重要性,部署了防火墙、IDS/IPS等设备,但对于信息监管的效率仍旧较低,很难从海量的网络信息中发现敏感信息,尤其缺少对单位内部信息泄漏的有效监控、取证、审计的能力。

与互联网相比,企业内网有其独特之处:1、内网中大量的信息公开网站和业务系统大都采用或即将采用B/S模式,因此内网流量中超过80%的流量为HTTP协议的数据流量。2、内网中有大量的孤岛信息,由于很少有链接指向这些地址,如个别单位未经审批私自开设网站等,因此监管部门不易发现和管理。3、企业内部使用的系统,往往是由总公司统一部署,总部自然具有垂直管理的权限,能够直接从数据库获取所有的信息。

当前业界普遍采用的信息审计系统,大多采取关键字匹配或数据挖掘技术,这些都要求有强大的计算环境支撑,普通的服务器难以承受上百万条记录的信息审计,常常出现执行超时等情况。

针对上述特点和问题,本文提出一种基于搜索引擎的网络流量信息审计系统,尝试改变传统单一依赖关系型数据库的局面,引入开源的sphinx搜索引擎技术,提高了对文本信息的分析速度,丰富了信息审计功能。通过改进信息审计系统结构,在探针和审计服务器之间增加了高速缓冲阵列,有效减少前后端系统的同步压力,提高了整个系统的效率。

2. 系统结构

本系统由流量采集和协议还原引擎、高速网络缓存和信息审计引擎构成,如图1所示。与传统信息审计引擎不同,没有在进行流量采集的同时进行关键词的匹配,而是经过协议识别、过滤、还原为页面快照后,由信息审计引擎执行信息索引,由于这一步的速度相对较慢,为了避免由模块间同步带来的性能损失,在高速信息采集后,增设了一级高速网络缓存,用于暂时存放文本信息,并产生任务队列,便于后端慢速的搜索引擎抓取信息。

3. 关键技术分析

3.1 流量采集手段

根据管理的需求和信息类型不同,监管部门和业务提供单位可采取不同的数据采集方法,目前主要有旁路镜像、网站爬虫和服务器探针三种数据采集技术。它们的特点如下:

1)旁路镜像技术适合在网络节点处部署,通过端口镜像或分光,从核心交换机和路由器获取流量,能在不影响原有设备的传输和性能的前提下,精确记录所有报文的流量信息,是一种高效、安全的布控方式和手段;

2)爬虫技术适合对信息发布站点、留言板等信息公开场所实施信息审计。通过指定一组URL列表,网络爬虫自动抓取所有的网页,以网页快照的方式展示和存档。但对于一些孤立的站点很难实施自动采集;

3)服务器探针是直接安装在各种Web服务器上的软插件,监听服务器上的所有http通信,能够有效的获取通过压缩、加密等手段保护的HTTP通信。

在本系统中结合三种方式的优点,以旁路采集为基本手段,将网络流量还原为页面快照,利用爬虫对采集中发现的孤岛站点地址进行主动探测。而服务器探针则可以通过行政手段,强制安装在由总公司统一管理的服务器上,直接对其服务器甚至后台数据库监控。

3.2 HTTP协议还原

协议还原是指对获取的数据按照TCP/IP的标准进行重组和剖析,根据不同端口对应的协议分别进行还原,包括协议命令和协议传输的内容(如Web网页),将满足应用功能的数据交给应用功能部分(如网页的文本化信息)。HTTP协议由R FC1945(HTTP1.0)和R FC2616(HTTP1.1)标准定义,采用请求/响应模型。通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息。这两种类型的消息是用ASCII文本携程,每行以一个CR LF符结束,最后一行有一个额外的CRLF符。由一个起始行,一个或者多个头部行和附加的消息体组成。

请求消息的第一行包括方法字段、URL字段和HTTP版本字段,方法字段包括GET、POST、HEAD等方法。头部行中常用的字段如HOST,指定请求资源的主机地址,和前面的UR L字段共同组成完整的UR L。响应消息的第一行包括HTTP字段、Status_code字段等,如状态200表示处理成功,403表示没有找到指定的页面等。

请求消息和响应消息都可以包含实体信息,实体信息一般由实体头域和实体组成。实体头包括Content-Type、Content-Length等字段,分别表示实体内容的类型和长度。对于请求数据来说,可以认为数据内容以GET、POST、HEAD、HTTP开头的即为起始数据片。对于请求信息结束的一定方法有两种情况:若请求信息中含有content-length域,则可根据其值依次取出规定数目的内容,即可确定结束数据片:若请求信息中不含有content-length域,则可以以两个CRLF作为结束标志。对于响应数据来说,在设计时可以认为数据内容为“HTTP”的即为起始数据片。对于响应信息结束的判定方法同样也有两种情况:若响应信息、中含有content-length域,则可根据其值依次取出规定数目的内容,即可确定结束数据片;若响应信息中不含有content-length域,则可根据该数据片是否设置了FIN标志来确定。而后判断实体内容的数据类型,通过判断“content-Type”“charset”等域信息,我们可以判断该数据包传送的信息类型,采用什么编码方式。如“content-Type:text/html”“charset=gb2312”可以确定为文本信息,采用gb2312编码方式。

为提高处理效率,避免重复处理相同的页面数据,我们建立白名单,记录已经访问过的网址。在分析HTTP头时将GET请求的URL保存在白名单中,若后面发现有请求相同URL的会话,则不再对该会话后续的响应信息做处理。

3.3 高速网络缓存

协议还原后产生了大量的页面数据,文献中提出将数据保存成TXT或HTML类型的文件。然而根据Google在2010年的统计数据表明,不含图片、脚本、CSS等内容的网页平均大小仅37.31KB,频繁文件存储会带来过多的I/O操作,严重影响系统性能。为了提高处理速度,应该让尽可能多的工作都在内存中完成,我们构建了一个高速的网络缓存,主要利用了Memcached和Starling两款开源软件来实现。

Memcached是一个高性能的分布式内存对象缓存系统,基于C/S结构,允许不同主机上的多个用户同时访问这个缓存系统,它通过在内存里维护一个统一的Hash表,以key-value的形式存储和获取各种格式的数据,客户端使用memcache协议进行通信。该协议十分简单,基本的操作仅两条:set、get,并且支持多种语言接口。Starling是一个支持memcache协议的队列服务器,同样为C/S模式,支持多用户访问,实现效率非常高。很多著名网站如新浪、Twitter等,都在其产品中广泛使用了这两款软件,以应对巨大的访问量。

由于这两款软件都是将数据完全放在内存中,避免了磁盘读写瓶颈,因而能够到达很高的处理速度。我们用Memcached作为页面快照存储,用Starling存储key序列,协议还原引擎采取如下步骤存储数据:

1)协议还原引擎经过IP分片重组、流重组、协议识别、协议过滤、还原后,得到原始的HTML数据流和post数据集,保存在http_content结构体中,并将该结构体序列化;

2)以源IP地址、目的IP地址、源端口号、目的端口号为元素,计算出一个16bit的HASH值,作为key;

3)连接Memcached服务器,发送set命令,将key和http_content存储;

4)连接Starling服务器,发送set命令,将key添加进任务队列;

5)调度系统定时从缓存中取出一组key和http_content,进行索引和存档,并及时清理过期的数据。

可见前端在保存数据期间并不需要考虑与后端的同步问题,降低了系统模块间的耦合度,提高了系统的灵活性。随着流量信息的增长,当审计系统的处理能力无法满足需求时,只需简单的增加审计服务器就能够提高处理缓存数据能力,不需要考虑各种同步等问题。

4. 基于搜索引擎的信息审计系统

4.1 sphinx搜索引擎

页面数据流含有大量的文本信息,传统的处理方式是对采取关键字匹配的方式对流量进行监控。这种方式受匹配算法的影响,随着关键字数量的增加匹配性能递减。而搜索引擎在对海量文本信息的查询和统计方面,有着先天的强大优势。大多数搜索引擎基于倒排索引原理,以词作为索引的Key值,对非结构化的自然文档内容进行分词、索引,这是关系型数据库无法做到的,因此搜索引擎有着极高的关键字查询速度。

Sphinx开源搜索引擎是由俄国人Andrew Aksyonoff开发,支持从包括My Sql、Postgre SQL等数据库、XML数据文件中获取检索数据,提供PHP、Python、Perl、C++等语言的API接口,具有良好的搜索性能。Sphinx本身不支持中文分词,目前主要采用Lib MMSeg实现中文分词。现在国内已有对二者进行整合和优化的中文搜索引擎Coreseek,我们将基于该引擎构建信息审计系统。

4.2 海量数据流准实时查询系统

随着系统的运行,不断有新的数据加入,当索引增长到一定规模后,就会影响到搜索效率。因此,需要定时对索引进行维护。由于Sphinx进行索引重建的时间通常远远多于合并索引的时间,我们采用“存档索引+增量索引”模式来实现准实时更新索引。对应的Mysql数据库系统也采用类似的管理模式,使用如下任务调度策略:

1)调度进程从队列缓存中循环取出一组页面快照Key(100条);

2)调度进程根据页面快照Key,从数据缓存中读出页面快照和会话信息,写入后台Mysql数据库的增量表和主表中。主表用于永久存储抓到的页面,按100万条(平均页面文件通常不超过40k,共需约40G)记录进行分区,保证数据库查询性能。

3)调用sphinx对数据库增量表进行抓取,更新增量索引。Sphinx的增量索引与数据库增量表成对应关系,以统一的HASH ID作为全库的主键。经测试Sphinx建立索引的速度大约为6.5MB/s,从而可以设置约10秒更新一次增量索引。

4)经验表明,当Sphinx增量索引的文档数超过38万后,进行索引更新的时间将大增。因此根据数据的增长速度,间隔一段时间(几小时或1天)进行一次合并索引操作,保证My SQ L增量表的记录数只有数万条至十几万条,以加快Sphinx增量索引的更新速度。在进行合并操作时,必须暂停向增量表写入新的数据,并且在合并完成后,立即清空增量表。

经测试,在Xeon 2.4GHz CPU,4G内存的服务器上,3000万条索引记录的条件下,平均查询时间低于0.1秒,最新的流量数据30秒内便能反映在查询结果中。

另外,企业数据库中存有大量的信息,大型企业往往部署有多级业务系统,有时并不能从网站页面上进行全面的信息审计。在条件许可的情况下,直接使用Sphinx读取数据库,不但可以有效实现对论坛、留言系统等的信息审计,而且避免了无关信息的干扰,提高了执行效率。

5. 结束语

本文提出一种基于搜索引擎的信息监控和审计系统,通过改进流量获取和协议还原系统,能够有效采集网络中大量的HTTP协议信息,结合搜索引擎独有的文档索引功能,较好的解决了传统信息审计系统面对海量数据查询效率低下的问题,实现准实时的信息监控功能。【下转第117页】通过建立三级结构,系统具有良好的弹性,随着网络规模和流量的增加,可以简单的进行扩展以提高系统的处理能力,为今后的进一步研究提供了良好基础。

参考文献

[1]协议流量监测[EB/OL].http://www.cert.org.cn/.

[2]Sphinx[EB/OL].http://sphinxsearch.com/.

[3]姜卓彦.大流量主干网络中实时网络监测[D].电子科技大学,2005(19).

[4]陈志军,王丹.支持内容分析的网络监视器的设计与实现[J].沈阳航空工业学院学报.2004.21(5).

[5]吴刚,王旭仁,张信杰.高速邮件监控审计研究[J].计算机工程与设计,2010,31(6),1195.

[6]Web metrics:Size and number of resources[EB/OL].http://code.google.com/intl/zh-CN/speed/articles/web-metrics.html.

[7]Memcached[EB/OL].http://memcached.org/.

[8]Starling[EB/OL].https://github.com/starling/starling.

搜索引擎系统篇2

搜索功能的目的是帮助用户寻找到自己所需的信息，这与导航的目的其实是一样的，都是为了解决用户信息获取的需求，或者可以说搜索功能是对导航系统的一个补充，弥补因导航系统的限制而无法快速获取信息的问题，

导航系统的设计需要在深而窄及宽而泛之间取得一个平衡点，偏向于任何一端都会带来不良的影响，事实上这就是一种博弈的过程，是否胜利取决于设计师是否真正了解用户，

而不管导航系统如何在深而窄及宽而泛之间取得平衡点，必定会舍弃某些方面。

搜索系统则可以弥补导航系统在设计上的缺憾，可以帮助用户绕过导航快速到达目的地。这在结构复杂的网站中尤其重要。

然而搜索系统并非是所有网站的必配品，在网站中加入搜索系统意味着需要加大对网站的投入，而一个好的搜索系统需要的投入更是庞大。这些投入对那些结构简单信息单薄的企业网站是否值得，这些企业网站只需要一个设计良好的导航即能解决用户的信息获取需求，搜索系统只是个额外的装饰品。

在决定是否需要搜索系统之前，先试着重新审视导航系统的设计。

让系统默认搜索支持PDF文档篇3

Foxit PDF IFilter是Foxit pdf工作室推出的一款搜索插件，用户并不需要使用Foxit pdf阅读器即可使用该插件。下载并安装Foxit PDF IFilter以后，在控制面板中找到“索引选项”一项（若用户的控制面板中无法找到此项，可以选择界面上方的“查看方式/小图标”显示全部选项）。接下来点击“修改”按钮（如图1），选择自己存放PDF文档所在的分区，确认之后关闭“索引位置”对话框。

如果用户没有固定存放PDF文档的分区，可以忽略此步，但由于系统为所有的磁盘分区建立索引需要耗费太长的时间，因此建议大家将自己的PDF文档都保存在同一个分区下。

再返回“索引选项”对话框，依次打开“高级/高级选项”对话框，并切换到“文件类型”选项卡，找到“pdf”扩展名的项目，将该项目设置为“为属性和文件内容添加索引”（如图2）。

设置完成后关闭“索引选项”，当用户在该分区下的Windows窗口的搜索框中以某个关键词执行搜索操作时，很快就可以搜索到内容符合搜索条件的PDF文档了。

搜索引擎系统篇4

1 知识管理的特点

知识管理是知识经济时代的必然产物, 知识管理专家Yogesh Mathotra认为:“知识管理是在日益加剧的不连续环境变化的情况下服务于组织适应、生存和能力等关键问题的活动。其实质在于信息技术处理数据的能力及人们创造和创新能力有机配合的组织过程”[1]。知识管理是对知识的一种全新管理理念, 知识管理不同于信息管理, 知识管理更加注重知识的应用和创新。知识管理主要有以下几方面特点[2]。

(1) 知识经济的到来是建立在现代化信息技术的基础之上, 没有信息技术和网络技术的支持, 知识的作用得不到体现。

(2) 知识管理的作用不仅仅是对已有知识的共享和使用, 而是通过知识的交流和沉淀, 实现知识的创新并用于实践, 实现知识的价值。

(3) 知识管理扩大了人们可利用知识的范畴, 它不仅关注显性知识, 更重视隐性知识的收集和共享。知识管理的作用之一就是实现了隐性知识向显性知识的转化。

(4) 知识管理的各个环节都离不开人, 知识管理的作用只有通过人的参与才能得以体现, 人是知识创新的动力和源泉。

2 知识管理系统分析

知识管理系统 (Knowledge Management System, KMS) 是实施知识管理的有效工具, 是为保持某行业领域内的竞争优势而用来管理领域知识的综合系统[3]。Alavi等人将知识管理系统定义为一个支持并注重知识的创新、存储、检索、流转和应用的信息系统[4]。

根据应用领域的不同, 知识管理系统结构有所区别, 但基本实施过程通常包括知识获取、知识提炼、知识存储、知识共享、知识应用和知识创新[5]。

知识获取:知识获取是知识管理过程的基础和前提, 知识的来源包括系统内部和外部。

知识提炼:知识提炼是指对获取的知识进行进一步的处理, 主要利用一些数学的方法对知识进行过滤和挖掘, 并对一些不确定的知识进行推理、判断和分类。

知识存储:知识存储是指将提炼后的知识以一定的组织形式存储到相应类型的知识库中, 以方便日后的管理和使用。

知识共享:知识共享是指利用搜索或推送等技术手段在系统内部实现知识的交换和讨论, 方便用户对知识库存储知识的访问。

知识应用:知识应用是指利用获取的知识来解决用户在实际工作中所遇到的困难和问题, 是知识管理概念应用价值的体现。

知识创新:知识库中的知识需要不断的更新以满足业务需求。知识创新是指通过人员的实践, 在原有知识的基础上产生出新方法、新理念、新思想的过程。

3 搜索引擎技术

搜索引擎通常由搜索模块、索引模块、检索模块三部分组成, 如图1所示。不同的搜索引擎会根据自己实际需要进行模块的变化和扩展, 但都建立在这三个基本模块的基础之上[6]。

3.1 搜索模块

搜索模块的主要工作是在网络中漫游, 以便发现和搜索信息。搜索模块通过一个称为网络爬虫的程序从种子站点开始在网络中自动爬行。首先读取网页的内容, 找到在该网页中的链接地址, 然后通过链接地址再发现下一个网页, 一直循环下去。目前爬行策略分为两种:一种是按照深度优先、宽度优先或者启发式方式发现新的网页链接;另一种是将网络中的网页信息按照IP地址或者域名划分为几个子域, 然后多个爬虫程序并行爬行各个子域中的网页。

在应用中, 可根据具体的应用背景对爬取网页的类型和范围进行控制, 以提高信息发现和更新的速度。

3.2 索引模块

文本索引模块的主要功能是处理和分析非结构化文档, 索引器从原始文档中抽取索引项, 用于表示文档, 并生成文档集合的索引表。

3.3 检索模块

检索模块的主要功能是根据用户输入的查询请求在索引库中快速检索出文档, 进行文档与查询的相关度评价, 并对将要输出的结果进行排序。

在应用中, 可采取一些措施来提高搜索引擎的性能以方便用户, 例如查询扩展处理、智能代理、信息分类和摘要等。

4 采办知识管理系统设计

4.1 系统架构设计

采办知识管理系统按照采办业务需求分为知识资源层、知识产生层、知识处理层、知识应用层和知识汇聚层五个层次, 其结构如图2所示。

各层主要功能如下。

(1) 知识资源层。

知识资源层是知识管理系统的知识来源, 也是知识管理系统建设的基础。知识资源层涵盖采办过程所涉及的各个领域, 并覆盖各种类型的知识, 包括显性知识和隐性知识。

(2) 知识产生层。

知识产生层也就是知识生命周期的流转过程, 实现方便有效的沉淀知识资源、提炼加工知识资源、建立知识点间的关联, 促进知识交互过程的创新行为。

(3) 知识处理层。

知识处理层主要涉及到对知识资源的整理和价值分析, 通过建立有效的知识分类, 进行有价值的知识挖掘, 通过知识评价促进知识的新旧轮转和淘汰。

(4) 知识应用层。

知识应用层强调与采办信息化训练与研究平台中各个子系统业务的集成, 促进业务和流程的执行效率, 并通过有效的知识获取和交互渠道, 实现自主的知识学习。

(5) 知识汇聚层。

知识汇聚层通过建立统一和个性化的知识门户, 促进知识的集成, 这种知识汇聚不仅能够汇聚知识资源层的知识资源, 还能够展示各个子系统业务/流程的知识。

4.2 管理功能设计

采办知识管理系统总体功能包括基础管理功能和业务管理功能两部分, 其功能组成如图3所示。

基础管理功能为平台各子系统提供基础的数据管理服务, 在这里不做赘述。各业务管理功能模块实现功能如下。

(1) 采办知识库。

知识库是知识管理系统的基础, 知识库能为用户提供良好的知识共享环境并能动态地对其中的知识进行实时的更新和维护, 是知识管理系统成功实施的关键。采办知识管理系统建成结构合理、内容丰富的采办知识库, 为平台各类训练系统的教学和训练提供知识体系、知识推送、知识订阅、知识协作、知识支援、知识学习和知识创新环境的支撑。采办知识库主要包括课程知识库、教材专著知识库、案例知识库、研讨知识库、研究论文知识库、采办试题知识库、采办法律法规知识库等专业知识库。

(2) 采办知识门户。

采办知识门户为采办人员提供一种自主学习环境, 也是一种知识的共享和应用机制。该模块建立了多个专业领域的知识门户, 包括发展需求论证专业知识门户, 采办费用管理和训练专业知识门户、采办项目管理专业知识门户等, 集中汇聚本专业领域的知识, 形成有效的知识群, 能够为相关岗位的工作人员提供第一手的、全面的知识支撑环境。

(3) 采办知识研讨厅。

采办知识研讨厅模块旨在建立采办知识共享和交互机制, 这同样也是挖掘隐性知识的需要。采办知识管理系统按专业设立项目管理、质量管理、合同管理、价格管理等领域的论坛和社区, 并建立合适的研讨管理机制, 一方面为采办专家和教员与学员进行互动提供支持, 另一方面为采办人员搭建基础的知识交流、研讨环境。

(4) 采办专家咨询。

采办专家咨询是指当采办人员遇到急需解决或困惑的问题时, 可以在线向专家提问, 或借此通过其它联系方式同专家取得联系进行咨询求助。采办专家咨询模块建立采办专家名录, 搭建方便的专家咨询环境, 支持专家隐性知识挖掘, 并在知识挖掘基础上, 进行知识梳理, 知识沉淀。该模块建立知识支援机制、促进知识协作和交流, 并充分利用和挖掘采办专家和相关领域人员的隐性知识资源来解决问题, 促进隐性知识向显性知识的转化。系统建立了专家知识库, 用户通过访问专家知识库, 了解专家的学科专业和经历经验等信息, 可以有针对性地向专家获取相应的知识, 加速了隐性知识向显性知识的转化。

(5) 采办知识搜索。

采办知识搜索作该系统的一项基础服务, 主要为采办用户提供知识检索功能。采办知识搜索能够实现查询关键词的自动查询扩展优化, 并对返回的搜索结果进行聚类分析。采办知识搜索更加注重搜索结果的准确率, 加快信息的查找速度, 使采办人员能够在最短的时间内找到自己所需的信息, 加速系统内知识的流转、共享和创新。

(6) 采办知识应用。

采办知识管理系统建立多种知识应用手段, 包括知识推送、知识订阅、知识推荐、知识点评等。基于多种应用手段, 该系统将采办知识库中的海量知识活动起来, 自动推送给所需要的人, 使知识的价值最大化。

4.3 知识搜索引擎需求

采办知识搜索引擎为知识汇聚、知识发现、知识聚类、知识门户的构建等提供支持, 通过搜索引擎技术完成知识管理的使命。知识搜索引擎建立在明确的知识来源基础之上, 根据用户的身份与请求, 回馈最准确恰当的知识, 为特定用户提供搜索服务, 更加强调知识的准确性和标准性, 强调通过互动机制, 如评价、交流、修改、维护等进行搜索结果的自我学习, 以达到知识搜索的智能化。

采办知识管理系统建设的重要意义在于通过对采办相关知识的有效管理, 加速知识的流转和使用, 促进隐性知识向显性知识的转化, 从而提高了采办工作效率。从图2采办知识管理系统模型中可看出, 采办知识搜索引擎作为系统知识应用的一种基础服务, 在采办人员和所需知识之间起到了桥梁作用, 是发挥采办知识作用的催化剂。

通过项目前期对采办人员进行的调研和需求分析, 采办知识管理系统目标用户对知识搜索引擎方面的需求集中体现在以下两个方面。

(1) 搜索结果的查全率 (Recall) 和查准率 (Precision) 。

查全率和查准率是目前最常用的搜索引擎检索质量评价标准[7]。查全率是指系统在进行某次检索时, 检索出的相关文档数量与系统中所有相关文档数量的比率, 反应了系统检索的全面性;查准率是指检索出的相关文档数量与检索出的所有文档总量的比率, 反应了系统检索的准确性。

目前大多数搜索引擎采用基于关键词匹配的检索模式, 用户在进行检索时往往只输入少量的关键词进行查询。由于采办人员的经验不足等原因, 往往输入的关键词不能真正体现用户的查询意图, 再加之中文词语的多义性, 一个词语在不同的语境中会表现出不同的含义, 导致了检索结果中充斥着许多与用户意图无关的结果, 影响了搜索引擎的性能。

(2) 搜索结果的结构化呈现。

搜索引擎为采办用户查找信息提供了便利, 但随着数据的激增, 搜索引擎也暴露出许多不足, 其中一个重要的原因就是搜索结果通常以一个线性列表的形式进行呈现, 缺乏清晰的结构, 用户必须逐个浏览返回的查询结果, 不仅给用户带来不便, 也削弱了搜索引擎的使用价值。

5 结语

文章分析了采办知识管理系统中关键技术的相关概念和特点, 详细描述了设计的采办知识管理系统的层次结构和相关模块的功能, 最后对采办知识搜索引擎的功能、特点进行了描述, 总结了目标用户对搜索引擎的功能需求。

参考文献

[1]樊治平.知识管理研究[M].沈阳:东北大学出版社, 2003:21.

[2]姜媛.移动通信运营企业知识管理系统研究[D].北京:北京邮电大学, 2009.

[3]Vizcaino.A multi-agent model to de-velop knowledge management system[C].Proceedings of the 40th AnnualHawaii International Conference onSystem Science, 2007.

[4]AlaviM, Leidner DE.Knowledge man-agement and knowledge managementsystem[J].Conceptual foundations andresearch issues.MIS Quarterly, 2001, 25 (1) :107-136.

[5]李绪成, 王保, 杨建安.知识管理研究[J].情报杂志.2005, 1:114-117.

[6]丁宬杰.搜索引擎技术的研究与发展[D].上海:上海交通大学, 2006.

搜索引擎系统篇5

也许是因为目前豆瓣正经历着架构的改变的原因吧，豆瓣的搜索系统也变得很有意思，比如搜索周杰伦：

搜索：周杰伦

www.douban.com/search?q=周杰伦

豆瓣条目搜索：周杰伦

www.douban.com/subject_search?search_text=周杰伦

书籍搜索: 周杰伦

book.douban.com/subject_search?search_text=周杰伦&cat=1001

电影搜索：周杰伦

movie.douban.com/subject_search?search_text=周杰伦&cat=1002

音乐搜索：周杰伦

music.douban.com/subject_search?search_text=周杰伦&cat=1003

将书籍、电影、音乐从综合搜索里淡化后，综合搜索里的结果基本上被小组垄断了，豆瓣小组的庞大数目开始在这里显现出来，

电脑资料

条目搜索是个隐蔽的功能，因为并没有在页面上的某个地方显示出来，只能通过修改Url结构来打开，搜索的条件也很限制，仅限书名、影名、唱片名。在做了这样的条件限制后，搜索结果也要相对的精确许多，也许没多久后豆瓣可能真正推出这个功能来。

虽然从Url结构上看，书籍、电影、音乐三者的搜索是位于各自站点下面的，但事实却并非如此。1001这个数值对应的是书籍搜索，1002对应的是电影搜索，1003则是对应的音乐搜索，当需要改变搜索类型时并不需要去修改前面的book、movie、music这三个子域，只需要改变后面的数值即可，也就是说将book、movie、music这个三直接换成www，只要后面的数字不变，结果也是一样的，唯一改变的就是头部的导航，也就是说使用二级域名的搜索时只是为了显示不同子站的头部。

新豆瓣的三个子站的搜索Url结构还有另外一种：

书籍搜索: 周杰伦

book.douban.com/search/周杰伦

电影搜索：周杰伦

movie.douban.com/search/周杰伦

音乐搜索：周杰伦

music.douban.com/search/周杰伦

当然，这三个Url结构就没法再改变二级域名而不改变搜索结果了。

搜索引擎系统篇6

相信很多朋友都已经用上了WindowsVista，它的搜索功能极为强大，除了可以在开始菜单的搜索框直接搜索之外，如果按下“win+F”组合键打开搜索浏览器，并且切换至高级搜索模式，那么可以手工指定搜索位置、日期、大小、名称、标记、作者等条件，这样可以在更短时间内定位搜索目标。

其实，我们还可以进一步提高Windows Vista的搜索效率。这里以VistaSP2为例进行说明：

技巧一：快速更新搜索结果

实际工作中，我们可能经常需要在某个固定路径下搜索不同格式的文件，但如果每次都重新设置搜索条件，确实也是相当的麻烦。其实，我们可以创建多个不同的搜索结果文件，以后直接双击即可更新搜索结果：

例如在完成对于“.zip文件格式的搜索之后，单击工具栏上的“保存搜索”按钮，此时会弹出“另存为”对话框，文件名和保存路径可以自行指定，至于保存类型则不用更改，保存之后我们可以得到一个扩展名为“search-ms”的文件，以后直接双击该文件，即可获得最新的搜索结果，比起重新搜索，效率自然高出不少。

如果希望更换搜索格式，可以用记事本打开搜索结果文件，找到“operator=“oontains”value=”.zip”。将其中的“.zip”更改为“.rar”。保存生效后退出。以后，只需要直接双击“名称.zip.search-ms”这个搜索结果文件，可以发现搜索结果内容已经发生了变化。

技巧二：同时搜索两种格式的文件

只要对搜索结果文件稍作改造，即可同时搜索两种格式的文件：

例如需要同时搜索.pdf或.jpg两种不同格式的文件，仍然首先在“名称”框输入“.pdf.jpg”，注意这里请以英文半角的空格进行分隔。单击工具栏上的“保存搜索”按钮，确认之后会获得相应的XML文件。用记事本打开这个搜索结果文件，按下“Ctrl+H”组合键打开替换对话框，将“andCondition”替换为“orCondition”，保存更改之后退出。双击这个修改后的搜索结果文件，可以看到搜索结果中已经同时包含两种不同格式的文件，如果需要搜索其他的格式，可以按照同样的方法进行更改。

技巧三：启用自然语言

我们知道，谷歌、百度都提供了“或”的搜索功能，可以同时使用两个以上的关键词进行搜索，其实WindowsVista也有这样的功能，只不过默认设置下被禁用而已。

搜索引擎系统篇7

互联网从产生、技术积累到飞速发展的近十年里,给现代社会的科研、教育、工业、经济、生活等方方面面带来了无法估量的影响。随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越成为人们上网浏览时的重要工具,用以在浩瀚的网站页面的海洋中迅速地找到自己所需的信息。从用户的角度来看,当前的搜索引擎主要存在信息检索质量不高、检索方式单一、个性化服务问题、搜索引擎对信息的标引深度不够、信息收集与检索的分离等几个方面的不足。

2 智能搜索引擎功能特点

智能搜索引擎的人机接口和网络蜘蛛高度智能化,可跨平台工作、处理多种混合文档、支持多种语言搜索,并能根据用户的兴趣、爱好、特性、定题需求,不断实时推荐、推送相关的信息、知识,定制个性化页面等,表现出较大的智能性、主动性、交互性、人性化特征。使其用户范围从具有良好信息检索素质的专业人士,扩展为无任何检索技能背景的普通用户。

2.1 智能型的自然语言技术

智能型的自然语言技术包括“自然语言搜索”和“动态关联词、联想词提示”技术。内建完整的“布尔逻辑运算组合”的搜索条件和“邻近搜索”功能,配合“智能型快速响应模式”,有效提高搜索速度和精确度。用户可灵活选择欲搜索的数据库,配合“中文同音”、“中英文近似概念”、简繁转换”、通配字符搜索”、词组搜索”和“多字段平行检索”等多项智能搜索功能,从而更加高效、便捷获取有用信息。

2.2 灵活的检索机制

提供多重模板设计功能,可按照用户自身需求轻松修改搜索结果的显示画面;并可依据不同的搜索方式,套用可获得不同的搜索结果的模板文件。提供“机动权值排序机制”、“阶层式分类目录”、“动态关联词、联想词提示”等功能,向用户提供更友好的搜索界面,增加搜索结果的适用性。

2.3 强大的索引功能

采用“多线式资料获取机制”、“平行索引模式”、“动态文件分析技术”及“实时差异式索引更新技术”等多种功能,有效提高文件与数据库的索引速度,大幅降低索引等候时间和更新周期。提供“多重索引数据库”架构及“群组式分类目录”功能,缩短资料索引时间,灵活整合文档资料。

3 知识库系统的原理

3.1 知识的定义

知识是人类对客观世界的认识,通常知识是先由底层数据经过分类、归纳、综合等处理过程而得到的上层信息,这种信息再经过解释、比较、推理得到我们所获取的知识,这种过程主要是在语义的层面来进行的。

3.2 知识的类型

3.2.1 过程型知识

传统的数据处理中程序就代表着系统解决问题所需要使用的知识。这种知识的表示类型称为过程型知识。过程型知识针对特定的问题,根据具体的处理步骤用一系列过程来表达,所以执行效率非常高,但它也存在以下三个缺点:(1)不易表示大量知识,而且知识难于理解和修改。(2)只适合表达那些完全正确的知识,稍有含糊的知识就难于用程序表达。(3)只适合于处理完整、准确的数据。综上所述,过程性知识表示对需要解决的问题要求比较苛刻,因而大大地降低了它的适用性。

3.2.2 描述型知识

描述型知识是用描述的方式来表示的知识。描述型知识把用于解决问题的知识与程序编制方面的知识有效的分开,具有知识表示清晰明确、易于理解、可读性好等诸多优点,同时知识之间联系简单,增加了知识的模块性,大大地降低了修改和扩充知识的难度。但描述型知识表示在解决问题时需要重复查找适用的知识,导致知识量越多则处理效率就越低。描述型知识表示在知识的可维护性、独立性,以及知识库的通用性和适应性等方面都很有优势。

3.2.3 元知识

元知识是关于知识的知识。元知识可分为以下三类。第一类是有关怎样组织、管理知识的元知识。第二类是有关利用知识求解问题方向的元知识。第三类是有关从知识源中获取知识的知识。

3.3 知识的表示

知识表示是指知识在计算机内部的存储和组织,是数据结构和解释过程的结合。数据结构用于知识的形式化描述,而解释过程则用来说明知识的现实含义。知识的表示方法主要有一阶谓词逻辑表示法、产生式表示法、语义网络表示法和面向对象的知识表示方法等。

3.3.1 一阶谓词逻辑表示法

谓词的一般形式为P(x1,x2,…,xn),其中,P是谓词;x1,x2,…,xn是个体(常量、变元或函数)。谓词逻辑适用于表示事物的状态、属性、概念等事实性的知识,也可以用来表示事物间确定的因果关系,即规则。例如:“书在课桌上”可以描述成:ON(book,desk)。谓词逻辑是一种形式语言,是目前能够表达人类思维活动的一种最精确的语言,它与人类的自然语言比较接近,因此一阶谓词逻辑表示方法是最早使用的一种知识表示方法。它具有简单、自然、精确、灵活、容易实现等优点。但它也存在着以下四个缺点:(1)难于表示过程和启发式知识;(2)知识库难于管理;(3)由于是弱证明过程,当事实的数目增大时,在证明过程中可能产生组合爆炸;(4)表示的内容与推理过程分离,推理按形式逻辑进行,工作效率比较低。

3.3.2 产生式表示法

产生式表示法又称为产生式规则表示法它是依据人类大脑记忆模式中各种知识之间的大量存在的因果关系,以“IF-THEN”的形式,即产生式规则表示出来的。它的基本结构包括前提和结论两部分:前提(IF部分)描述状态,结论(THEN部分)描述在状态存在的条件下所做的某些动作:

前提状态→结论动作或IF状态THEN动作

整个产生式的含义是:如果前提被满足,则可推出结论或执行所规定的操作。例如:IF(动物为胎生&哺乳喂养)THEN(该动物为哺乳动物)。产生式表示法具有自然性好,便于推理的优点,且有利于对知识的增加、删除和修改。另外,产生式表示法既可以表示确定性知识,又可以表示不确定性知识;既有利于表示启发式知识,又可方便地表示过程性知识;既可表示领域知识,又可表示元知识。但是产生式表示法不能表达具有结构性的知识,工作效率不高;而且在求解复杂问题时容易引起组合爆炸。

3.3.3 语义网络表示法

语义网络是一种通过概念及其语义关系来表示知识的一种网络图。一个语义网络就是一个带有标志的有向图。其中,有向图的节点表示各种事物、概念、动作、状态、属性等;有向弧表示它所连接的节点间的某种语义联系,每个节点可以包含若干个属性。一个最简单的语义网络形式是一个形如(节点1,弧,节点2)的三元组。图1即是它的一个有向图表示,通常称为一个基本网元。例如:青花瓷与瓷的语义网络表示如图2所示。

语义网络表示法具有灵活、自然、易于实现、善于表示结构性知识等优点。语义网络表示法的局限性主要表现在它对知识表示的非严格性,这使得有可能存在二义性,而且存在知识处理的复杂性。

3.3.4 面向对象的知识表示方法

按照面向对象方法学的观点,一个对象的形式可定义为四元组〈对象〉::=(ID,DS,MS,MI)。其中ID代表对象标志符,DS代表数据结构,MS代表方法集合,MI代表消息接口。这种方法可以将知识抽象为对象的内部状态和静态特征属性进行封装和隐藏,而知识的处理方法表示为对内部状态和特征属性的操作,并由消息接口与外界发生联系。它既可以实现灵活的推理机制,又使知识的修改操作局限在对象的内部,容易实现知识库的一致性和完备性。近年来随着面向对象技术的深入发展,面向对象的知识表示方法逐渐广泛应用于专家系统中。

3.4 知识库

知识库是关于某一领域的陈述性知识、过程性知识和策略性知识的集合。知识库中不但包含了大量的简单事实,还包含了规则、过程型知识和策略性知识。从存储知识的角度来看,以描述型方法来存储和管理知识的机构叫做知识库。从使用知识的角度来看,知识库是由知识和知识处理机构组成。

3.5 知识库系统

3.5.1 知识库系统的体系结构

知识库系统包括知识的获得、利用和管理三个方面,。知识库、推理机及存贮器是知识库系统的三个组成要素。知识库系统的核心组成部分是知识库和推理机构。

知识库系统的体系结构如图3所示。

3.5.2 推理机构

利用知识,解释输入的数据或事实,推导出用户所需的结论;并根据要求,说明得出结论的依据,用于进行这种推理控制的模块称为推理机构。推理过程如图4所示。

推理机构应具备以下四个功能:

1)知识库中新知识的获取功能。

2)推理机构与知识库相互独立功能。

3)知识库中信息交换及知识扩充功能。

4)知识库与待解决问题之间的协调功能。

4 基于知识库系统的智能搜索引擎

目前的搜索引擎具有关键词检索和目录查询的缺点,为了克服这些缺点,应该采用自然语言理解技术来进行自然语言智能答询。这样就可以将信息检索从目前基于关键词的层面提高到基于知识(或概念)的层面,对知识有一定的理解与处理能力,可以实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。下面就是当前智能搜索引擎基于知识库系统所采用的一些自然语言理解技术。

4.1 智能分词技术

关键词查询的前提是将查询条件分解成若干关键词。对英文而言,一个单词就是一个词,但中文词之间的关系却复杂得多,主要问题是中文词与词之间没有界定符,需要人为切分,但人为的切分有很大的灵活性和操作性,往往容易产生词义失真。除此之外,汉语中存在大量的歧义现象,对几个字分词可能有好多种不同的结果,而且,简单的分词往往会完全曲解甚至误解用户查询的真正意图,造成误检和漏检。因此,可以利用语义知识库进行总结,获得每个词出现的概率以及词与词之间的关联信息,就可能有效地排除各种歧义,大幅度提高分词的准确性,从而准确地表述查询请求和文档信息。

4.2 同义词处理

汉语词语之间复杂性的另一个方面是同义词的问题,同一个词组往往有许多不同的意思,处理同义词的一种方法是在语义知识库中人工构造同义词表,对专用领域的搜索引擎,这种方法是非常有效的。另外一种方法是从语义知识库中自动取得同义词关系,给出一个查询的关键词,搜索引擎能主动“联想”到与其同义或意思相近的词。

4.3 短语识别技术

用短语描述查询请求的情况很常见,但是因为汉语词组的复杂性,所以在中文搜索引擎中,我们不能象英文词组一样简单的将中文短语分离成词组。譬如查询条件“新乡的大学”,“新乡”和“大学”存在一定的关系,但如果不将“新乡”和“大学”联合起来作为一个短语查询,那么除了选出关于“新乡的大学”的文档之外,还将查出有关“新乡”和“大学”的冗余文档。因此,短语识别是智能化搜索引擎亟待的一个重要问题。

4.4 智能搜索代理技术

以提供主动服务为主的智能搜索代理技术,能够将信息主动推送到用户面前,免去了用户被动搜索的困扰。搜索的是活动窗口而不是某一个关键词的主导概念,增强了相关性提供的链接除网络信息外,还包括客户端的本地内容、相关社区中的同类用户及相关内容的百科全书、参考资料等。

5 结束语

智能化搜索引擎能够实现信息服务的人性化、高效化,为用户检索互联网信息提供了极大的便利。在应用需求和相关科学技术的推动下,智能搜索引擎技术正逐步发展起来,它将会越来越好地为人们的生活服务。

摘要：该文对智能搜索引擎进行了分析及综合评价。在此基础上,着重讨论了知识库系统以及它在智能搜索引擎中的应用。

关键词：智能搜索引擎,知识库系统

参考文献

[1]殷雪松,徐斌.WWW网络搜索引擎介绍[J].大学图书馆学报,1998,16(4):254-255.

[2]吴丹.搜索引擎的智能化研究[J].情报理论与实践,2002(4):293-295.

[3]李研,陈新中.基于web挖掘的智能门户搜索引擎的研究[J].计算机工程与应用,2002(4):132-133.

[4]张兴华.智能搜索引擎的机理,实现技术及发展趋势[J].现代情报,2003,23(12):66-68.

[5]沈一栋.知识工程[M].北京:科学出版社,1992.

[6]朱习军.智能决策支持系统的知识库结构及知识表示研究[D].济南:山东科技大学,2000.

[7]黄梯云.智能决策支持系统[M].北京:电子工业出版社,2001.

[8]罗燕琪,陈雷霆.专家系统中知识表示方法研究[J].电子计算机,2001(4):28-31

搜索引擎系统篇8

1 桌面搜索引引擎概述

用户在使用桌面搜索引擎的过程中可以直接找到本地磁盘上的相关资料, 整个过程快捷、迅速, 这也使得桌面搜索引擎受到了用户的青睐。尽管手机端的搜索软件与PC端的搜索软件在功能上存在着很大的共性, 但是本质上还是存在很大的区别, 特别是对于安卓手机而言, 其底层是基于Linux, 这与PC端的Windows平台有着必然差异性。目前在安卓当中的搜索软件主要分为两类即系统自带搜索工具以及第三方开发软件。以安卓的快速搜索框为例, 它可为用户提供一个单独的搜索框, 用户经过搜索框可以查询系统内部文件如通讯录、应用程序等;而第三方搜索软件的功能较安卓自带的搜索框则更为全面, 以RE管理器来看, 它的搜索功能以及交互界面则更为人性化, 特别是在root条件下可以直接对系统内部文件进行操作, 这也是安卓搜索框不具备的。

2 基于安卓系统的桌面搜索引擎的设计

2.1 Lucene搜索引擎框架

对于安卓系统的桌面搜索引擎而言Lucene搜索引擎框架是实现搜索功能的重要部分, 它具备了强大的全文搜索功能, 其系统结构与源码组织具体如图1所示:

从图1中可以清晰看出Lucene系统框架主要是由三部分组成即为结构封装、索引核心一级对外接口, 在整个框架当中又以索引核心最为重要。在进行设计过程中需要将外部抽象层置于框架当中以此来控制耦合性。而在局部细节设计过程中都需要遵循上述原则让框架的扩展性得到保证且易于理解。从查询方面来看Lucene的功能较为全面, 主要体现为以下方面:

(1) 布尔查询。在查询过程中可将分类复杂查询转变为布尔查询并构成一个子句的集合。

(2) 通配符查询。可在词条中应用多个通配符以及单个通配符来进行查询。

(3) 项查询。项查询可将多个简单的单元素词进行整合从而串联为复杂查询。另外Lucene还支持范围查询、权重查询以及模糊查询。

2.2 桌面搜索引技术分析

除了基本的框架外还需要相关技术才能够实现让搜索引擎的功能充分发挥效用, 其中分词技术便具有关键性作用。对于汉字信息而言分词就是从字、词、句方面对汉字信息进行相关处理从而更为合理地对相关信息进行处理。在中文分词过程中又涉及到了以下方法:

(1) 词典分词方法。将汉字串与词典中的词条进行一一对应的适配, 若适配成功即成功识别一个词汇。

(2) 理解分词方法。较机械式的词典分词方法显然理解分词方法更为智能, 利用计算机模拟功能来对相关语句进行“理解”从而达到“识别”目的。当然其中还涉及到了一系列的句法、语法判断, 经过综合性分析最终才能完成分词。由于中文结构、语法较为复杂就给理解分词方法的具体实施带来了一定的阻碍, 为了让其能够良好实施还需要进一步完善。

(3) 统计分词方法。统计分词方法的实施实质上是基于以下公式:F (A:B) =P (A, B) /[P (A) P (B) ]。其中P (A, B) 是AB出现概率, 而P (A) 、P (B) 则表示A、B单独出现的概率, 通过上述处理即可以从某个方面来判断A、B之间的关联程度, 其中可设定一个区间, 当函数落于该区间内时即判断A、B构成了一个词汇。为了让该方法得到进一步完善可将N元文法模型置于其中来避免词汇歧义。

3 结语

上文对以Lucene搜索引擎框架并结合分词技术对基于安卓系统的桌面搜索引擎的设计进行了阐述, 当然在实际设计过程中还需要对分词方法以及框架引擎进一步完善从而让搜索引擎的功能更为全面, 让用户得到更好地体验。

摘要：目前市场上主流的移动端智能系统主要为Android以及ios, 由于Android的开源性使其受到了多数手机厂商的欢迎并逐渐形成了一个阵营, 而他们所面对的则为一家独大的苹果, 而在用户体验被越来越重视的情况下如何将UI制作地更为人性化则成为了摆在手机厂商面前的重点问题。作为UI的重要组成桌面搜索引擎对于用户体验而言具有重要的意义, 本文对基于安卓系统的桌面搜索引擎的设计进行了分析并提出了相关的建议, 供以参考。

关键词：安卓系统,搜索引擎,设计

参考文献

[1]孙友仓.一种基于Web Service的信息搜索引擎机制[J].山西大学学报 (自然科学版) , 2010 (02) .

[2]黄轶文.搜索引擎原理与快速开发应用[J].科技信息, 2010 (36) .

搜索引擎系统篇9

关键词：知识,知识库,知识库系统,智能搜索引擎

1 引言

近年来知识库系统(KBS)成为数据库系统、人工智能、知识工程等领域研究的热点,知识库的研究取得了重大进展。知识库系统是由知识库、推理机、知识管理系统、知识获取子系统和人机交互界面等五部分组成。其中知识库和推理机是知识库系统的核心部分。知识库技术是知识型人工智能应用系统的基础,它使计算机应用系统有了更多的智能,如智能搜索引擎的开发。

2 知识库系统的原理

2.1 知识的定义

知识是人类对客观世界的认识,一般来说,知识是先由底层数据经过一系列加工,如分类、归纳、综合等处理过程而得到的上层信息,这种信息再经过解释、比较、推理得到我们所获取的知识,这种过程主要是在语义的层面来进行的。抽象地说,知识是由有名论域内容和有名论域内容之间关联的符号表示的。

2.2 知识的表示

2.2.1 一阶谓词逻辑表示法

谓词的一般形式为P(x1,x2,…,xn),其中,P是谓词;x1,x2,…,xn是个体(常量、变元或函数)。谓词逻辑适用于表示事物的状态、属性、概念等事实性的知识,也可以用来表示事物间确定的因果关系,即规则。例如:“书在课桌上”可以描述成:ON(book,desk)。

谓词逻辑是一种形式语言,是目前能够表达人类思维活动的一种最精确的语言,它与人类的自然语言比较接近,因此一阶谓词逻辑表示方法是最早使用的一种知识表示方法。它具有简单、自然、精确、灵活、容易实现等优点。但它也存在着缺点:它难以表达不确定性知识和启发性知识,推理方法在事实较多时易于出现组合爆炸,且推理过程冗长、效率低等。

2.2.2 产生式表示法

产生式表示法又称为产生式规则表示法,是人工智能中应用最多的一种知识表示方法。它的基本结构包括前提和结论两部分:前提(IF部分)描述状态,结论(THEN部分)描述在状态存在的条件下所做的某些动作:

整个产生式的含义是:如果前提被满足,则可推出结论或执行所规定的操作。例如:IF(动物为胎生&哺乳喂养)THEN(该动物为哺乳动物)。

产生式表示法具有非常明显的优点:自然性好,便于推理,且有利于对知识的增加、删除和修改。另外,产生式表示法既可以表示确定的知识,又可以表示不确定性知识;既有利于表示启发式知识,又可方便地表示过程性知识;既可表示领域知识,又可表示元知识。

产生式表示法的局限性在于它不能表达具有结构性的知识,且由于求解过程是一个匹配—冲突消解—执行反复进行的过程,工作效率不高;另外,在求解复杂问题时容易引起组合爆炸。

2.2.3 语义网络表示法

语义网络是一种通过概念及其语义关系来表示知识的一种网络图。一个语义网络就是一个带有标志的有向图。其中,有向图的节点表示各种事物、概念、属性、动作、状态等;有向弧表示它所连接的节点间的某种语义联系,每个节点可以带有若干属性。一个最简单的语义网络形式是一个三元组:(节点1,弧,节点2)。图1即是它的一个有向图表示,通常称为一个基本网元。例如:小白鼠与鼠的语义网络表示如图2所示。

语义网络表示法具有灵活、自然、易于实现、善于表示结构性知识等优点。

语义网络表示法的局限性主要表现在它对知识表示的非严格性,不能保证不存在二义性。并且存在知识处理的复杂性。

2.2.4 面向对象的知识表示方法

近年来随着面向对象技术的深入发展,面向对象的知识表示方法逐渐广泛应用于专家系统中。从广义上讲,对象可以理解为客观世界的任何事物。按照面向对象方法学的观点,一个对象的形式可定义为四元组〈对象〉::=(ID,DS,MS,MI)。其中ID代表对象标志符,DS代表数据结构,MS代表方法集合,MI代表消息接口。这种方法可以将知识抽象为对象的内部状态和静态特征属性进行封装和隐藏,而知识的处理方法表示为对内部状态和特征属性的操作,并由消息接口与外界发生联系。它既可以实现灵活的推理机制,又使知识的修改操作局限在对象的内部,容易实现知识库的一致性和完备性。此外,由于对象属性的独有,可以把整个系统抽象为类,每一个对象即为子类,这样不但实现了多学科专业知识的层次划分,还有效地降低了系统的开发难度。

2.3 知识库

知识库是关于某一领域的陈述性知识、过程性知识和策略性知识的集合。在该集合中各类知识通过一定的表示方法表示,并建立相互之间的联系。它与数据库的区别是知识库中不但包含了大量的简单事实,还包含了规则、过程型知识和策略性知识。

从存储知识的角度来看,以描述型方法来存储和管理知识的机构叫做知识库。从使用知识的角度来看,知识库是由知识和知识处理机构组成。

2.4 知识库系统

2.4.1 知识库系统的体系结构

知识库系统是这样一个系统,它能用计算机所存储的知识对输入的数据进行解释,生成作业假说并有对其进行验证的功能。知识库系统中的知识,是该系统在自身进行推理过程中所利用的信息,而不是提供给系统使用者的信息。因此,知识库系统与数据库系统不同之处就在于,它并非向用户提供检索的信息,而是提供根据输入的数据信息使用知识进行判断分析的结果。

知识库系统的核心组成部分是知识库和推理机构。知识库是以一致的形式存储知识的机构,推理机构则是为了使用知识库内的知识执行推理的控制机构。

知识库系统的体系结构如图3所示:

2.4.2 推理机构

推理机构应具备以下几个功能:

(1)知识库中新知识的获取功能。

(2)知识库与待解决问题之间的协调功能。

(3)知识库中信息交换及知识扩充功能。

(4)推理机构与知识库相互独立功能。

3 知识库系统在智能搜索引擎中的应用

智能搜索引擎技术是基于目前Internet上信息的无组织、异构、分布和动态的特点提出的,用于解决信息检索中“信息过载”和“资源迷向”等问题,实现Internet信息个性化主动服务。

为了克服关键词检索和目录查询的缺点,应该用自然语言理解技术进行自然语言智能答询。它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。

下面就是当前智能搜索引擎在知识库系统中所采用的一些自然语言理解技术。

(1)智能分词技术。关键词查询的前提是将查询条件分解成若干关键词。对英文而言,一个单词就是一个词,但中文词之间的关系却复杂得多,主要问题是中文词与词之间没有界定符,需要人为切分,但人为的切分有很大的灵活和操作性,往往容易产生词义失真。此外汉语中存在大量的歧义现象,对几个字分词可能有好多种不同的结果,而且简单的分词往往会完全曲解甚至误解用户查询的真正意图,造成误检和漏检。因此,可以利用语义知识库进行总结,获得每个词出现的概率以及词与词之间的关联信息,就可能有效地排除各种歧义,大幅度提高分词的准确性,从而准确地表述查询请求和文档信息。

(2)同义词处理。汉语词语之间复杂性的另一个方面是同义词的问题,同一个词组往往有许多不同的意思,处理同义词的一种方法是在语义知识库中人工构造同义词表,对专用领域的搜索引擎,这种方法是非常有效的。另外一种方法是从语义知识库中自动取得同义词关系,给出一个查询的关键词,搜索引擎能主动“联想”到与其同义或意思相近的词。

(3)短语识别技术。用短语描述查询请求的情况很常见,但是因为汉语词组的复杂性,所以在中文搜索引擎中,我们不能象英文词组一样简单的将中文短语分离成词组。譬如查询条件“河南的大学”,“河南”和“大学”存在一定的关系,但如果不将“河南”和“大学”联合起来作为一个短语查询,那么除了选出关于“河南的大学”的文档之外,还将查出有关“河南”和“大学”的冗余文档。因此,短语识别是智能化搜索引擎应当解决的一个重要问题。

4 结束语

“知识库系统”是人工智能的一个重要分支,是近年来发展起来的一门综合性的新兴学科。随着计算机科学和人工智能技术的迅速发展,知识库系统将在智能搜索引擎中得到广泛应用。

参考文献

[1]罗燕琪,陈雷霆.专家系统中知识表示方法研究[J].电子计算机,2001.

[2]G Kellogg.From Data Management to Knowledge Management[J].Computer,1996.

[3]张晓刚,李树明.智能搜索引擎技术的研究与发展[J].计算机工程与应用,2001.

搜索引擎系统篇10

关键词：搜索引擎,知识库,智能化

1 目前搜索引擎存在的不足

搜索引擎通常依赖于自动建立的摘要, 该摘要一般取自Web页的主题或前几行内容形成, 不一定能够反映实际情况。根据这种索引数据检索出来的结果将出现偏差, 不能很好地满足用户的检索需求。搜索引擎对要检索的信息仅仅依靠采用机械的词语匹配来实现, 缺乏知识处理能力和理解能力。

1.1 检索方式单一

搜索引擎一般提供分类浏览的查询方式和关键词的全文检索, 不能实现概念检索, 不能从文献的多个方面对检索提问进行限制, 只能就某一关键词或者概念进行笼统的检索。

1.2 个性化服务问题

搜索引擎提供相同的界面和检索策略, 不提供用户的信息定制, 任何人输入相同的查询条件返回的结果必定相同。搜索引擎提供拉PULL服务方式, 即用户输入检索要求, 系统返回大量包含关键词及其相应地址列表的页面, 不能根据用户的一贯兴趣模式和一定的专业领域主动反馈有用的信息, 无法实现推PULL服务方式。

1.3 搜索引擎对信息的标引深度不够

目前, 搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页信息, 与人们对它的预期存在较大的距离, 或者返回过多的无用信息, 或者信息丢失, 特别是对特定的文献数据库的检索显得无能为力。

1.4 信息收集与检索的分离

搜索引擎进行信息的收集和查询是两个分离的过程, 缺少有机的结合。系统无法根据用户的检索要求进一步提供相关信息, 用户不能依据有关提示进行理性的检索, 操作比较机械。

2 智能搜索引擎功能特点

智能搜索引擎的人机接口和网络蜘蛛高度智能化, 可跨平台工作、处理多种混合文档、支持多种语言搜索, 并能根据用户的兴趣、爱好、特性、定题需求, 不断实时推荐、推送相关的信息、知识, 定制个性化页面等, 表现出较大的智能性、主动性、交互性、人性化特征。使其用户范围从具有良好信息检索素质的专业人士, 扩展为无任何检索技能背景的普通用户。

2.1 智能型的自然语言技术

智能型的自然语言技术包括“自然语言搜索”和“动态关联词、联想词提示”技术。内建完整的“布尔逻辑运算组合”的搜索条件和“邻近搜索”功能, 配合“智能型快速响应模式”, 有效提高搜索速度和精确度。用户可灵活选择欲搜索的数据库, 配合“中文同音”、“中英文近似概念”、“简繁转换”、“通配字符搜索”、“词组搜索”和“多字段平行检索”等多项智能搜索功能, 从而更加高效、便捷获取有用信息。

2.2 灵活的检索机制

提供多重模板设计功能, 可按照用户自身需求轻松修改搜索结果的显示画面;并可依据不同的搜索方式, 套用可获得不同的搜索结果的模板文件。提供“机动权值排序机制”、“阶层式分类目录”、“动态关联词、联想词提示”等功能, 向用户提供更友好的搜索界面, 增加搜索结果的适用性。

2.3 广泛的整合支持能力

支持多种文档格式的检索, 如HTML、Text file、Ms Office File、Ms Project File、XML、Adobe Acrobat、DynaDoc等, 可高效搜索各种类型的文档资料。支持Oracle、SQL Server、Informix、Sybase、Access、MySQL等大型关系型数据库, 并提供“多字段平行检索”功能, 可跨资料表、信息字段进行全文检索。

2.4 强大的索引功能

采用“多线式资料获取机制”、“平行索引模式”、“动态文件分析技术”及“实时差异式索引更新技术”等多种功能, 有效提高文件与数据库的索引速度, 大幅降低索引等候时间和更新周期。提供“多重索引数据库”架构及“群组式分类目录”功能, 缩短资料索引时间, 灵活整合文档资料。

3 智能搜索引擎在知识库系统中的应用

3.1 知识库系统

3.1.1 知识库系统的体系结构

知识库系统包括知识的获得、利用和管理3个方面, 知识的获得就是取得新的知识信息并使其体系化, 知识获得也称为机器学习, 知识的利用就是推理。知识库、推理机及存贮器是知识库系统的3个组成要素。其中推理机构能模拟决策者的思维过程, 并根据决策者的需求, 通过提问会话与分析问题, 应用有关规则引导决策者选择合适的模型。知识库系统也是一种软件系统, 与通常的软件一样, 需要像程序设计语言、编辑与编程序等系统开发支援环境, 但知识库系统又与一般的科学计算和事务处理软件不一样, 它是一种智能软件系统, 所以需要人工智能领域所特有的支援环境, 知识表示语言就是这种支援工具之一。知识库系统的核心组成部分是知识库和推理机构。知识库是以一致的形式存储知识的机构, 推理机构则是为了使用知识库内的知识执行推理的控制机构。

3.1.2 推理机构

利用知识, 解释输入的数据或事实, 推导出用户所需的结论;并根据要求, 说明得出结论的依据, 用于进行这种推理控制的模块称为推理机构。推理机构应具备以下4个功能: (1) 知识库中新知识的获取功能; (2) 推理机构与知识库相互独立功能; (3) 知识库中信息交换及知识扩充功能; (4) 知识库与待解决问题之间的协调功能。

3.2 应用

目前Internet上信息具有无组织、异构、分布和动态的特点, 这样就造成了在信息检索中的“信息过载”和“资源迷向”等问题, 为了解决这些问题, 我们就需要具有实现Internet信息个性化主动服务功能的智能搜索引擎。目前的搜索引擎具有关键词检索和目录查询的缺点, 为了克服这些缺点, 应该采用自然语言理解技术来进行自然语言智能答询。这样就可以将信息检索从目前基于关键词的层面提高到基于知识 (或概念) 的层面, 对知识有一定的理解与处理能力, 可以实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。

下面就是当前智能搜索引擎在知识库系统中所采用的一些自然语言理解技术。

3.2.1 智能分词技术

关键词查询的前提是将查询条件分解成若干关键词。对英文而言, 一个单词就是一个词, 但中文词之间的关系却复杂得多, 主要问题是中文词与词之间没有界定符, 需要人为切分, 但人为的切分有很大的灵活性和操作性, 往往容易产生词义失真。除此之外, 汉语中存在大量的歧义现象, 对几个字分词可能有好多种不同的结果, 而且, 简单的分词往往会完全曲解甚至误解用户查询的真正意图, 造成误检和漏检。因此, 可以利用语义知识库进行总结, 获得每个词出现的概率以及词与词之间的关联信息, 就可能有效地排除各种歧义, 大幅度提高分词的准确性, 从而准确地表述查询请求和文档信息。

3.2.2 同义词处理

汉语词语之间复杂性的另一个表现是同义词的问题, 同一个词组往往有许多不同的意思, 处理同义词的一种方法是在语义知识库中人工构造同义词表, 对专用领域的搜索引擎, 这种方法是非常有效的。另外一种方法是从语义知识库中自动取得同义词关系, 给出一个查询的关键词, 搜索引擎能主动“联想”到与其同义或意思相近的词。

3.2.3 短语识别技术

用短语描述查询请求的情况很常见, 但是因为汉语词组的复杂性, 所以在中文搜索引擎中, 我们不能象英文词组一样简单地将中文短语分离成词组。譬如查询条件“新乡的大学”, “新乡”和“大学”存在一定的关系, 但如果不将“新乡”和“大学”联合起来作为一个短语查询, 那么除了选出关于“新乡的大学”的文档之外, 还将查出有关“新乡”和“大学”的冗余文档。因此, 短语识别是智能化搜索引擎亟待解决的一个重要问题。

3.2.4 智能搜索代理技术

以提供主动服务为主的智能搜索代理技术, 能够将信息主动推送到用户面前, 免去了用户被动搜索的困扰。搜索的是活动窗口而不是某一个关键词的主导概念, 增强了相关性。提供的链接除网络信息外, 还包括客户端的本地内容、相关社区中的同类用户及相关内容的百科全书、参考资料等。

4 结束语

任何实际技术总是在应用需求和相关科学技术的推动下逐步发展起来的, 智能化搜索引擎能够实现信息服务的人性化、高效化, 为用户检索互联网信息提供了极大的便利, 其发展是一个长期的过程。目前的搜索引擎主要提供基于文字的信息检索服务, 而对于语音、图像的检索还有大量的工作要做, 搜索引擎真正地实现智能化并不简单, 但是我们相信技术的进步将会给用户带来更好的信息检索工具。

参考文献

[1]殷雪松, 徐斌.WWW网络搜索引擎介绍[J].大学图书馆学报, 1998 (4) .

[2]吴丹.搜索引擎的智能化研究[J].情报理论与实践, 2002 (4) .

[3]李研, 陈新中.基于Web挖掘的智能门户搜索引擎的研究[J].计算机工程与应用, 2002 (3) .

决胜搜索引擎篇11

如今，越來越多的银行意识到网络营销的重要性，纷纷采用各种手段加强网络影响力。由于没有注意到搜索引擎营销的力量，一些传统银行的市场份额正被新兴的小银行所蚕食。美国银行则早就看到了这一点。在与银行相关的搜索引擎搜索结果中，美国银行总是排在搜索结果的首位。

2005年是美国银行搜索引擎营销的转折点。也就是从那时起，美国银行开始真正重视如何让搜索引擎结果最优化。于是它对网站结构、内容以及任何可能阻碍其搜索排名的因素进行了深入的研究。其时，他们遇到了一个难题，就是如何为房贷、储蓄和支票、信用卡、保险及小企业业务等八大业务设计一个综合全面的搜索引擎营销计划。鉴于每个业务都有各自的网站和在线营销的目标，比如房贷业务的目标是找到销售线索，而储蓄业务则是要吸引更多的注册用户。与此同时，不同业务之间也存在交叉，比如一个房贷业务的消费者也有可能需要信用卡和商业保险。所以，在付费搜索方面，美国银行会将一个关键词与两个与之相关的业务连在一起。同时，他们也会对各业务之间做一个平衡，以促使他们实现自己的销售目标。随后，美国银行还对网站进行了优化，比如增加了关键词的密度和一些补充内容，以做到在购买的每个环节都能吸引搜索者。

搜索引擎系统篇12

搜索引擎经过几年的发展和摸索, 越来越贴近人们的需求, 不断地应用于人们生活的各个领域。在互联网音视频节目监测系统中, 搜索引擎扮演了重要的角色, 它可以在浩瀚的网络中搜索出视听节目的站点。互联网音视频节目监测系统中的搜索引擎主要是对互联网上视听节目信息进行发现、解析、存储、索引、查询, 甚至直接下载, 最后用户根据搜索引擎的搜索结果, 在系统中方便的对互联网上的视音频节目进行监控。

2 搜索引擎在互联网音视频节目监测系统中的重要作用

搜索引擎在互联网音视频节目监测系统中主要作用可以从以下两点进行论述。

(1) 搜索视音频网页:在互联网监测音视频节目监测系统中, 搜索引擎的作用就是在网络上搜寻视音频网页, 网络上的数据是不断更新的, 种类也各种各样, 因此对搜索引擎的要求就大大的提高了。搜索引擎首先负责的就是将网络上的各种MP3、ram、avi等视音频节目的具体信息搜索下来, 包括网页地址、浏览量、用户评论、作者信息等。

(2) 在系统中将网页呈现给用户:网络上的视听网页被搜索出来后, 必须要将所有的网页呈现在系统用户的面前, 这也是在系统中应用搜索引擎的最终目的。互联网音视频节目监测系统可以说是一个用户接口, 用户通过这个接口能看到搜索引擎所搜索到的所有的视音频节目信息。

从上面的介绍中可以了解到, 搜索引擎在互联网音视频节目监测系统中有举足轻重的作用, 它是监测系统的门户, 为系统提供第一手的数据资料。搜索引擎的各个方面贯穿于系统的各重要部分中。互联网音视频节目监测系统就是专门用于搜索视音频节目的搜索引擎, 不过所不同的是这个搜索引擎搜索出所需要的视听节目网页后, 并在监测系统中对这些节目进行监视, 并对违法乱纪、危害青少年的视听节目进行封堵, 以达到净化网络的目的。

3 系统搜索引擎的基本原理

互联网音视频节目监测系统中所运用到的搜索引擎的原理, 可以分为三步:即从互联网上抓取视音频节目网页→将节目信息存入数据库并建立索引→在节目索引数据库中搜索信息, 并按特定方式展现出来。

该搜索引擎是由搜索器、索引器、检索器和用户接口等四个部分组成, 其主要运行如图1所示。

系统通过搜索器在互联网上抓取视音频节目网页, 然后通过索引器的运行建立节目的索引数据库, 最后用户通过接口能够使用检索器在节目索引数据库中搜索到符合自己要求的信息并进行展现。

3.1 搜索器

搜索器即通常所说的网络爬虫, 其功能是在互联网上爬行, 发现和搜集所需要的视听节目信息。搜索器通常是一个计算机程序, 日夜不停地运行, 它要尽可能多、尽可能快地搜集各种类型的新信息, 同时为了应对互联网上信息更新速度快的特点, 还要定期重新爬行, 以发现新的页面以及失效连接。

在系统中, 搜索器搜集的信息类型多种多样, 其中包括各种类型的网页、文章、FTP文件、字处理文档、多媒体信息。该系统中搜索器搜索的目标是用户所关心的视音频节目。

3.2 索引器

系统中的索引器功能是理解搜索器所搜索的视音频信息, 从中抽取出索引项, 用于表示文档以及生成文档库的索引表。

在互联网音视频节目监测系统中, 由于海量的信息数据, 因此必须实现即时索引, 否则无法跟上视音频节目信息量急剧增加的速度。索引算法对索引器的性能有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量, 而在本系统中应用到的索引器, 其主要是利用搜索引擎更好地查找到所需要的视音频节目信息。

3.3 检索器

检索器的主要功能是根据用户的查询在索引库中快速检出所需要的节目信息, 并进行信息与查询的相关度评价, 对将要输出的结果进行排序, 实现某种用户相关性反馈机制。

3.4 用户接口

用户接口的作用是输入查询请求、显示查询结果并提供用户相关性反馈机制。在本系统中, 整个前台系统就是一个用户接口, 用户可以在此系统中查看自己所需要的信息, 并能利用系统中的查询功能, 输入相应的信息, 就可以查找到所需要的视音频节目信息。系统中设计了人性化的搜索查询页面, 其主要目的是方便用户使用搜索引擎, 高效率、多方式地从搜索引擎中得到有效、及时的信息。系统中用户接口的设计和实现, 采用人机交互的理论和方法, 以充分适应用户的思维习惯。

用户输入接口可以分为简单接口和复杂接口两种。

本系统既提供用户输入查询串文本框的简单接口;也提供可以让用户对查询进行限制的复杂接口, 如逻辑运算 (与、或、非;、-) 、相近关系 (相邻、NEAR) 、域名范围 (如.edu、.com) 、出现位置 (如标题、内容) 、信息时间、长度等等。系统中充分利用了这个两种接口的优点以便于将最精确、最合理的数据呈现在用户面前。

4 系统搜索引擎的基本组成

4.1 系统爬虫

互联网音视频节目监测系统中爬虫的作用是为搜索引擎抓取大量的数据, 其抓取的对象为互联网上的传播视听节目的网页。爬虫程序的抓取方法都是顺着网页的链接关系进行爬行的。

互联网音视频节目监测系统爬虫的运行过程如图2所示。

图2便是互联网音视频节目监测系统爬虫程序的运行过程, 在爬虫开始的时候, 需要给爬虫输送一个URL地址列表即系统中所称的种子站点库, 种子站点库中的URL地址便是爬虫的起始位置, 爬虫从种子站点库开始, 逐个网页开始爬行, 一直不断地发现新的视听站点和节目, 在爬虫爬行过程中不断地从网页中发现新网站的URL加入到种子站点库, 如此反复下去。

在系统中, 爬虫在下载网页的时候, 会去识别网页的HTML代码, 在其代码的部分, 会有META标识。通过这些标识, 可以告诉爬虫本网页是否是视音频节目站点, 并判断此页需不需要被抓取, 还可以告诉爬虫本网页中的链接是否需要被继续跟踪。例如:表示本网页不是视听站点, 不需要被抓取, 但是网页内的链接需要被跟踪。

由于现在视听网站的内容不断的在变化, 因此爬虫也需不断的更新其抓取网页的内容, 这就需要网络爬虫按照一定的周期去扫描网站, 查看哪些页面是需要更新的页面, 哪些页面是新增页面, 哪些页面是已经过期的死链接。

一般来说, 在系统中网络爬虫在更新视听网站内容的时候, 不用把视听节目站点重新抓取一遍, 对于大部分的站点页面, 只需要判断网页的属性 (主要是更新日期) , 把得到的属性和上次抓取的属性相比较, 如果一样则不用更新。

爬虫是搜索引擎中非常重要的一部分。而本系统中的爬虫尽可能多、尽可能快地给索引部分输送网页, 为系统的搜索引擎提供强大的数据支持。

4.2 分析系统

分析系统主要完成的任务有视听节目信息的抽取、视听站点网页查重、中文分词等。

4.2.1 视听节目信息的抽取以及网页结构化

对于分析系统来说, 基础和首要的工作是分门别类地从半结构化网页中抽取出有价值的能够代表视听节目网页的属性, 如:节目的名称、节目的描述等。

从图3中可以直观的了解网页结构化的过程, 在系统中网页结构化的目标是针对系统搜索的需要, 将半结构化的HTML网页中的数据按照文件、标题、正文标题、正文、正向链接等属性依次抽取, 最后打包出一个视听网页对象。

在理解结构化网页的目标后, 加上对HTML语法的特点, 以及搜索引擎对视音频节目站点的实际需要, 为这种分析原始网页的过程制定了如下“两步走”的方法。

(1) 建立HTML标签树:系统为了能更好的描述视听网页内容的组织结构, 就将网页中的标签按照出现的顺序依次整理出来并用适当的结构记录。网页中的标签主要作用就是利用HTML的语法对网页的全部内容进行存放。由于标签之间的嵌套关系, 因此整理结果自然是一个树状结构, 把整理一个网页中的标签得到的树状结构称为该网页的“标签树”。

(2) 得到正文:在视听网页中得到完整正文相对于一般的HTML网页要较简单一些。首先视听节目网页中所关心的视听信息都有特定的格式, 这就代表了已经有明显的标签标识出正文, 因此在互联网音视频节目监测系统中, 可以不像普通的HTML文件一样进行投票得到正文, 只要能够将视听节目的标签找出来就可以了。

视听节目网页结构化的过程首先通过标签树进行分析得到文本对应的标签, 然后再得到正文, 这样就完成了结构化的任务, 达到了网页结构化的要求, 将网页上有价值的信息进行保留, 并丢弃无用的信息。同时, 也节约了大量的存储, 不再是存储原始的网页, 而是存储一个结构化了的网页, 这样就省去了系统的存储空间, 大大节省了资源, 更有效的提高了系统的检索效果。

4.2.2 视听节目网页查重

在系统中网页去重技术就是判断一个视听文件内容是否存在抄袭、复制另外一个或多个视听节目文件的技术。

在现在的互联网络中, 网页上的内容是可以互相转载的, 一个好的视听节目肯定会在不同的网络中进行转载, 视听网站上的节目可以以链接的形式在各种不同的网站上进行转载, 因此网页的重复总体可以归结为如图4所示的4种类型。

从图4中可以看出, 视听节目网页重复的形式是多种多样的, 而重复网页的存在意味着这些节目站点就要被搜索引擎多处理一次。并且在搜索引擎的索引制作中可能会在索引苦力索引两份相同的视听站点。当用户用系统进行查询时, 在搜索结果列表中就会出现同一网站的同一个视听节目信息。所以无论从搜索引擎的效率还是系统使用的便捷度来说这些重复网页的存在都是害处极大的。

为了消除那些重复网页带来的不便, 为此需要进行网页查重, 网页查重一般被分为三个步骤:即特征抽取;相似度计算和评价;消重。

(1) 特征抽取:在互联网音视频节目监测系统中所用到的网页查重第一步进行的就是特征抽取。也就是将视听节目网页内容进行内容分解, 由若干组成文档的特征集合表示, 然后对网页进行特征比较并计算相似度。

(2) 相似度计算和评价:特征抽取完毕后, 就需要进行特征对比, 可以根据网页的内容, 输入词汇, 然后根据词汇过滤一些关键特征, 即一个节目中特别高和特别低频的词汇往往不能反映这个节目的本质。因此通过文档中去掉高频和低频词汇, 并且计算出这篇文档的唯一的Hash值, 那些Hash值相同的文档就是重复的。还有一个办法就是抽取多个特征进行比较, 因为在视听节目中文字信息是比较少的, 大部分都是音频信息, 所以在处理的时候一般都是通过词汇进行比较计算相似度的。

(3) 消重:系统网页查重的目标是要进行网页消重, 以便消除那些重复网页给系统带来的不便。对于删除重复内容, 搜索引擎考虑到众多收录因素, 所以使用了最简单的最实用的方法。先被爬虫抓取的页面同时很大程度也保证了优先保留原创网页。但是因为互联网音视频节目监测系统的特殊性, 所以在此系统所用到的搜索引擎进行网页消重的时候也会考虑到网页的版权、寿命等问题。

4.2.3 中文分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。通过近几年web2.0等互联网传播技术的发展, 互联网上的视听信息也在急剧膨胀, 在这海量信息中, 各类信息混杂在一起, 通过引用分词技术, 就可以使机器对于海量信息的整理更准确更合理, 检索效率会大幅度的提高。

目前系统的中文分词主要应用于信息检索方面, 基于关键词 (Keyword) 来匹配结果。采用基于字符串匹配的分词方法。这种方法又叫做机械分词方法, 它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配, 若在词典中找到某个字符串, 则匹配成功。

系统使用的分词系统, 都是把机械分词作为一种初分手段, 通过利用各种其它的语言信息来进一步提高切分的准确率。系统将分词和词类标注结合起来, 利用丰富的词类信息对分词决策提供帮助, 并且在标注过程中又反过来对分词结果进行检验、调整, 从而极大地提高切分的准确率。

4.3 索引系统

可以将索引系统形象的说成是搜索引擎的数据大本营, 在这里存储并索引了从网络上下载的数以亿计的视听节目网页。在索引系统中会用到很多技术, 在互联网音视频节目监测系统中, 应用到的关键技术就是基于ORACLE的全文检索技术。

传统的检索方式存在两个大问题:一是检索结果排序不理想二是只能对标题进行检索。这些问题都没有考虑到用户的需求和文档本身的内容, 因此在系统中使用了一种全新的检索方式对文档的全部信息进行检索, 比如:标题、正文等, 这种技术也就是通常所说的全文检索技术。

互联网音视频节目监测系统所用到的全文检索技术细化了视听信息检索的粒度, 并实现了对网络上的视听节目进行多角度, 多侧面的检索。用户只需提供一个或者多个检索关键词, 就可以检索出视听节目的详细信息如:节目名称、节目的URL、节目所在的网站域名、以及节目的一些详情信息等, 将结果更形象的展现在用户面前, 这都是全文检索技术的功劳。

4.4 查询系统

查询系统主要是在接收用户的查询请求后, 通过检索、排序及摘要提取等计算, 将计算结果组织成搜索结果页返回给用户, 它直接面对的是用户。在此系统中, 通过爬虫、分析系统、索引系统将网络上的视音频节目信息进行下载、整理, 并形成一个强大的视音频节目数据库和海量信息, 因此必须通过查询系统更快、更准、更稳的找到所需要的节目信息。

监测系统所搜集到的信息都是网络上的视音频信息, 随着网络的发展和视听网站的增多, 网络上的视听信息数以万计的在增长, 因此对监测系统中的查询系统提出了很高的要求。为了能更方便用户找到视听节目的站点, 系统中设计了很多的查询条件, 比如:按照站点、域名或者更新时间进行查询, 这些查询条件可以是单项的也可以是重叠的, 查询条件设置的多, 查询出的结果就越符合要求。

监测系统中用户向搜索引擎发出查询, 搜索引擎接受查询并向用户返回资料。因为监测系统并不是大量用户在使用的, 所以即使有几个用户同时在线进行查询, 它可以按照每个用户的要求检查自己的索引, 在极短时间内找到用户需要的视音频资料, 并返回给用户。目前, 普通的搜索引擎返回主要是以网页链接的形式提供的, 通过这些链接, 用户便能到达含有自己所需资料的网页。在本监测系统中, 系统直接以列表的形式将视听节目的名称、节目链接、站点名称及其链接、发布时间等各方面的信息制作成表格, 更形象的展现在人们面前。

为能更好的将查询结果展示在用户面前, 系统中特别设计了查询结果排序功能, 可以按照时间或者节目数量等对查找到的站点进行排序, 这种功能的实现, 使用户在海量信息面前应付自如, 充分展现出查询系统的优点。

5 结束语

伴随着网络的不断发展, 网络上的视音频节目不断增加, 互联网出现到现今, 信息量可以说成密指数的增长, 搜索引擎能从大量信息中找到所需的信息, 提供给用户。因此, 搜索引擎的发展直接决定了互联网音视频节目监测系统的性能。目前如何发现更多的视听网页、如何正确提取视听网页内容、如何下载动态网页、如何提高抓取速度、如何识别网站内容相同的网页等都是搜索引擎需要进一步改进的问题。

互联网音视频节目监测系统要在合理的时间限度内, 以较少的网络资源、存储资源和计算资源的消耗获得更多的与视音频相关页面.就必然对搜索引擎在提高链接价值预测的准确性、降低计算的时空复杂度, 以及增加搜索引擎本身的自适应性等方面有所发展, 有所突破。

邮购以上资料请通过邮局汇款, 款到后即邮寄资料及发票。电话:010-86092062转816传真:010-86092040转810汇款请寄:北京2116信箱发行部邮编:100866 http://www.gbds.com.cn广播电视标准在线订购下载http://www.abp.gov.cn

摘要：本文主要介绍了搜索引擎技术在互联网音视频节目监测系统中的应用, 深入阐述了系统搜索引擎的基本原理和组成, 指出了搜索引擎在系统中的重要作用。

【搜索引擎系统】推荐阅读：

核电企业搜索引擎系统08-22

全文搜索引擎10-19

视频搜索引擎05-12

搜索引擎实现05-23

语义搜索引擎05-26

移动搜索引擎06-01

农业搜索引擎06-12

垂直搜索引擎06-20