智能搜索引擎技术论文

2024-12-29

智能搜索引擎技术论文(共10篇)

智能搜索引擎技术论文 篇1

0引言

随着互联网的快速发展,网络信息量不断增加。面对数量庞大,种类多样的信息,一般搜索引擎无法为用户提供准确的检索结果,开发新的搜索引擎势在必行。智能搜索引擎不仅要提高信息检索准确性和全面性,还要满足用户个性等搜索信息需求。搜索引擎与智能代理相结合的智能化搜索引擎技术能够比较好的实现这一目标。

1搜索引擎

1.1搜索引擎基本原理

搜索引擎由信息搜集系统、文件处理系统、索引系统和检索系统组成。

信息搜集系统通过网页抓取程序(spider)在网络中顺着网页的超链接抓取网页,搜集文档的基本信息并下载至搜索引擎本地,然后将文档和其基本信息分开,并保存到原始文档数据库和文档信息数据库中。

文件处理系统负责将需要索引的文件转换成具有统一编码格式的文本文件。信息搜集系统从网络上下载文件,保存到本地供索引器索引。文件文本格式种类繁多,如纯文本文件、html格式文件、word文件、pdf文档等,文本格式相同的文件,字符编码方式也不尽相同。文件的异构性要求文件处理系统将各种不同格式的类文本文件转换成纯文本文件。

索引系统将程序收集到的文件进行处理,建立索引库和索引。相关处理还包括去除重复网页、分词(中文)、判断网页类型、分析超链接,计算网页的重要度、丰富度等。

检索系统通过用户输入的关键词从索引数据库中找到与关键词匹配的网页,并按照文档得分的高低依次显示在用户浏览器中。

1.2传统搜索引擎的局限性

面对浩如烟海的网络信息,用户想要通过一般搜索引擎获取准确和全面的信息较困难。其局限性表现在:

(1)信息检索方式单一。搜索引擎一般提供网站分类查询和关键词全文检索两种方式,这两种方法均容易造成信息丢失,不能全面检索用户需要的信息;不能对用户输入的关键词进行词意分析和词意扩展。如今信息的多样化要求搜索引擎不仅 要检索出 文档,还要检索 需要的图片、视频、音频等。

(2)不能个性化制定。传统搜索引擎提供相同的界面和检索策略,不能提供用户信息定制,不同用户输入相同的查询条件返回的结果相同。不同领域的用户对同一个关键词的搜索返回的检索结果应该不一样,智能搜索引擎能根据用户专业背景和网页浏览历史检索出用户需求的信息。

(3)对信息的标引深度不够。搜索引擎检索的结果往往只提供线形的网址和包括关键词的网页信息,或者返回过多的无用信息,特别是对特定文献数据库的检索更显得无能为力[1]。

(4)信息更新能力低。搜索引擎信息收集和查询是两个分离的过程,缺少有机结合。网络信息资源呈分布式、动态、快速增长,搜索引擎的集中化架构不能跟上文档的扩张速度,也就不能有规律地及时更新数据库,用户检索到的结果可能不是最新信息。

2智能搜索引擎

智能搜索引擎应摆脱传统搜索引擎的局限性,更加智能化,更具主动性,提供多元化的检索方式,为用户提供个性化制定,检索出满足用户个性需求。

2.1智能搜索引擎主要特征

(1)智能性。智能化搜索引擎网络蜘蛛通过自主启发式学习选择最有效的搜索策略和最佳时机,在特定站点或者整个因特网搜集和整理信息。智能化搜索引擎可以将多个引擎的搜索结果进行整合,作为一个整体存放到数据库中。

(2)个性化。智能化搜索引擎提供个性化制定服务,用户注册基本信息,如年龄、专业背景、工作方向等,通过分析用户基本信息及平时浏览网页的记录制定出用户兴趣模块,检索出来的信息和用户兴趣相关,不同兴趣的用户输入同一个关键词返回的结果可能不同。

(3)多元化。智能化搜索引擎有多元化的检索方式,提供基于大众的搜索分析,基于自然语言、关键词、概念和上下文,通过相关反馈技术检索可选择查询路径。对关键词进行词意扩展和词意派生,实现准确的分词,从而更加准确地把握用户的搜索需求。

(4)协作性。智能化搜索引擎能通过各种通信协议和其它智能代理进行信息交流 ,并可以相互协调共同完成复杂任务[2]。

2.2智能搜索引擎技术

要实现智能化搜索引擎,当前要特别加强对汉语分词技术、短语识别技术、同义词处理技术、知识库与推理机应有技术和人机对话智能技术的研究。

智能化搜索引擎对语义的理解主要体现在以下两个方面:一是对用户输入的关键词的理解;二是对网页信息内容的理解。传统搜索引擎对关键字的识别是较机械的匹配方式,容易造成信息不准确和丢失。智能化搜索引擎可对用户输入的关键词进行语义理解,并返回用户想要的信息。自然语言语义理解的技术主要有4种:1汉语分词技术。中国文化博大精深,语句是由各种词语按照一定的语序组成的。汉语对词语的划分相对英文来说复杂得多,汉语词语可以是由一个字或者多个字组成。汉语分词技术主要有基于字典、词库匹配的分词、基于词频度和基于知识理解的分词,通过这些方法准确把握用户输入关键词的含义;2短语识别技术。短语是由词语所构成的,是句子中基本的识别单位,在汉语句法分析和语义分析中具有重大意义。用户搜索有时需要对关键词加一定的修饰词,前者就是词语,后者为短语。需要通过短语识别技术对关键词进行正确的分词,从而准确理解用户的查询需求;3同义词处理技术。包括基于词汇字面相似度算法、基于词素的语义相似度算法以及基于《同义词词林》、《知网》等语义词典的语义相似度算法。主要依靠人工方式构造同义词库等辅助词库,利用搜索引擎主动联想技术实现对同义词的联想,准确把握用户关键词语义;4知识库构建技术。知识库包含各种词典,词典按其功能不同可分成定义词词典、同名词词典、派生词词典等,词典按词的确定性又可分成系统词典与用户词典。这些词典构成了一个庞大而复杂的知识库。

人机接口智能化主要有以下技术:1人机交互界面技术。智能化搜索引擎界面具有智能化、多元化、个性化等特点。其技术主要包括搜索请求提交技术、搜索结果表现技术、搜索向导技术、搜索行为分析技术。其中,搜索行为分析技术是个性化搜索的关键技术,它通过分析用户的浏览记录和搜索习惯 来提高搜 索效率;2关联式综 合搜索。将图片、新闻等 各种有关 联的信息 呈现在同 一界面上,用户搜索时只需查询一次,即可在同一界面得到各种有关联的查询结果。

随着云技术的出现,智能搜索引擎将全球服务器当作一个云系统,从而极大提升从数据库中提取信息速度。云技术的成熟能够有效提升搜索引擎的算法速度,提高智能搜索引擎的运行速度[3]。

3结语

智能化搜索引擎技术的发展首先应该解决目前搜索引擎的局限性,然后再添加智能搜索。智能搜索引擎应该在以下几个方面寻求发展:提供友好的查询界面;多元化的检索方式;强大的自然语言理解技术;丰富的知识库;考虑按时间、地域顺序输出检索结果,以便用户选择所需的最新信息;查询结果文摘动态生成;结果自动综合分析和评分[4]。

随着搜索引擎技术的发展,智能化搜索引擎变得更多元化、亲切、个性化,广泛融入进人们的生活,为用户提供更准确、符合需求的搜索信息。

参考文献

[1]刘冰,马晓丽,胡风华.搜索引擎智能化及其在知识库系统中的应用[J].软件导刊,2009.8(8):138-139.

[2]朱素媛,马溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报,2003,8(26):657-661.

[3]林勇.计算机搜索引擎智能化技术研究[J].煤炭技术,2013,6(32):175-177.

[4]吴丹.搜索引擎的智能化研究[J].情报理论与实践,2002(4):293-295.

智能搜索引擎技术论文 篇2

信息时代,企业的业务运营和IT系统结合得越来越紧密。面对各种服务器、网络设备、存储设备、软件产生的浩如烟海的数据资料和日志,是否有一种类似于Google、百度的搜索引擎,能够帮助企业从海量数据中,通过关键词搜索,简单快速地得到所需资料,从而实现对复杂IT系统的更好管理?今天,我们的答案是肯定的:Splunk就是这样一种专门设计给企业使用的IT搜索引擎。

IT系统专用

搜索引擎

Splunk的设计与使用概念就像是Google搜索引擎一样,企业一旦安装Splunk的IT Search Engine之后,IT人员就可以通过浏览器使用Splunk,对企业的各种IT 数据进行关键词搜索,快速得到所需的资料。Splunk的软件能自动收集各种服务器、网络设备和软件产生的资料与日志。此外,Splunk本身还具有计算能力,可以将搜索结果立即做运算处理,产生各种报告、图表与警示,还可以设定Splunk进行排程定时搜索,并将结果以E-mail告警的方式通知IT管理者。

Splunk的IT搜索引擎设计打破了过去传统的IT管理方式,突破了以往各种IT管理工具如IBM Tivoli、HP OpenView,、CA UniCenter的使用方式,它以简单易懂的关键词搜索方式,帮助IT人员寻找与解决IT企业面对的各种问题。此外,使用者不仅可以通过Splunk进行IT搜索,还可以通过它的SplunkBase与API,来开发多种应用工具。“Splunk将成为未来企业IT管理的主要工具,我们非常看好这款产品的应用前景,目前在市场上没有同质产品的竞争者。”Splunk的代理商、台湾精诚集团中国区总经理杨启新告诉记者。

企业智能运营利器

“多年来服务企业客户的经验,使我们深刻了解企业在IT管理上常会遇到的问题,也知道企业IT管理人员需要哪些方面的帮助。Splunk IT搜索引擎是目前IT管理工具中最富弹性、可跨越不同平台与IT架构,真正做到横向整合的IT管理工具。它不但可以搜索并实时分析流动中的数据,做到实时响应、实时呈现图表与分析信息,也能同时深入分析历史数据与趋势动态,可以节省企业所需的资源,提升运营效益。”杨启新表示。

自从两年前引进Splunk产品以来,精诚集团已经在中国台湾地区发展了150多个企业用户,并逐渐在中国大陆市场打开局面,赢得了安利(中国)、广东江门移动等客户。

“运营智能比商业智能更上一层,可以协助企业对IT运维或业务量进行实时监控与分析,迅速做出响应,有效协助企业加快应对瞬息万变市场的脚步。Splunk的智能运营平台让IT管理者可以同时实现实时监控与历史分析,颠覆了过去大家对于IT数据分析查找的刻板想法,不仅可以协助企业实时检视营运指标,提升IT管理效率,帮助企业缩短应变的时间,也能运用Splunk内建的报表系统产出分析报表,协助企业经营团队在最短时间内做出正确决策,有效提升企业竞争力。” 精诚集团IT搜寻引擎实验室计划主持人林宗瀛表示。

智能搜索引擎技术论文 篇3

一、协同过滤推荐的主要方法

协同过滤推荐技术目前在实际应用中的实现方法主要包括下列几种:

1. 基于用户的协同过滤推荐法。

该方法是在已有信息基础上寻找相似用户, 每次预测都计算所有用户之间的相似度。

2. 基于Web日志的协同推荐系统。

该方法是指采用记录用户浏览历史的Web日志进行计算生成推荐, 根据相似用户群体的兴趣信息来提供个性化推荐。

3. 基于模型的协同过滤方法。

该方法是在已有的信息基础上建立用户评价级别模型, 根据该模型并使用一定的技术去识别信息项目之间的关系, 然后利用这些关系去进行用户喜好程度预测。

4. 基于项目的协同过滤推荐法。

该算法通过先计算已评价项目和待预测项目的相似度, 以相似度作为权重, 得到预测项目的预测值, 基于项目的协同过滤推荐根据用户对相似项目的评分预测该用户对目标项目的评分。

二、协同过滤技术的算法分析

基于用户的协同过滤是个性化推荐中应用最为广泛的方法。算法先使用统计技术寻找与目标用户有相同喜好的邻居, 然后根据目标用户的邻居的偏好产生向目标用户的推荐。

1. 过滤算法。

协同过滤的推荐系统主要可分成三个步骤:

(1) 输入资料表示。将用户过去的利用行为及兴趣用一个m×n的矩阵R来表示。

(2) 相似社群的建立。它是协同过滤推荐系统中最重要的一个步骤, 可以计算出用户间的相似程度, 并作为将来推荐的依据。

(3) 产生推荐。从社群成员中衍生出对目标用户的前n项推荐产品。

评价值即可以是0, 1这种二进制数, 也可以是0-9这种分级。

2. 确定邻居。

基于用户的协同过滤技术实现的推荐系统的核心是为一个需要推荐服务的目标用户寻找最相似的“最近邻居”集 (Nearest-neighbor) 。

3. 产生推荐结果。

目标用户的“最近邻居”集产生后, 可计算两类结果:用户对任意项的兴趣度的预测值和Top-N形式的推荐集。

4. 兴趣度计算。

首先, 把事件依赖性的统计定义扩展到规则兴趣度定义上来。Piatetsky-Shapiro首先把事件依赖性的统计定义扩展到规则兴趣度定义上来, 提出了PS方法。

式中的N, |A&B|, |A|, |B|分别表示数据集D中元组的总数, 同时满足A和B的元组数, 满足A的元组数, 满足B的元组数。

三、协同过滤的特点分析

在协同过滤技术所采用的多种方法中, 基于用户的协同过滤推荐能够通过用户间的相互协助、根据用户对项目的评价的相似性对用户进行分类, 所得到的推荐结果是比较精确的。

四、存在问题及解决办法

1. 稀疏问题。

在用户与项目矩阵中, n和m的维数都是很大的, 也就是说任何一个现实的推荐系统, 所面对的用户数和项目数都是很多的。很多情况下, 每个用户都只会对其中很少的项目做出评价, 整个用户与项目矩阵是非常稀疏的, 一般都在1%以下。

2. 冷开始问题。

传漾科技:智能数字营销引擎 篇4

传漾科技创始人及CEO

曾于2000年创建Babel网络多媒体技术有限公司;也曾在分众传媒旗下宽通广告任总经理,深耕于富媒体营销、垂直广告网络平台、精准营销体系的革新和推广;拥有丰富的互联网行业经验及敏锐的行业产品洞察,在业界享有盛名;现为传漾科技创始人及CEO,致力于带领传漾成为提供全方位服务的高效商业智能引擎。

以技术驱动数字营销行业,将中国海量的受众信息数据整合清洗和挖掘,并进行多维分析定向,精准锁定目标和潜在受众,满足不同的客户需求。以技术终结数字孤岛,从而迈入后精准时代。

传漾科技整合创新技术与优质媒体搭建领先的智能数字营销平台,目前已经拥有1000+优质媒体资源,以及超6亿的独立Cookies,海量数据覆盖中国80%以上的网民。我们以技术驱动数字营销行业,将中国海量的受众信息数据整合清洗和挖掘,并进行多维分析定向,精准锁定目标和潜在受众,满足不同的客户需求。以技术终结数字孤岛,从而迈入后精准时代。

2012年传漾科技将旗下平台深入整合,升级DSP平台(Demand Side Platform需求方)和SSP平台(Supply SidePlatform供应方),以开放的态度面对互联网广告行业变革,全力营造一个开放性的融合的广告生态系统,并在此基础上驱动核心产业链延伸,深耕无线互联网广告,率先打通PC+Mobile用户数据通道,成为第二代数字广告行业代表,进一步推动中国互联网广告行业发展。

传漾科技成立于2009年,至今短短三年时间,目前分别在上海、北京、广州、成都、重庆、武汉、长沙、西安、厦门、台北等重点城市成立分公司和办事处,员工超过400名。已经服务了近百家国内外高端品牌,如迪奥、三星、诺基亚、百事可乐、惠普、IBM、高露洁、华硕、联想、一汽大众等。传漾科技一直致力于网络广告技术平台和营销平台的创新突破,通过垂直的媒体资源和广告优化技术服务广大客户,让数字营销变得更智能、更快捷、更精准、更高效!

【2012营销风向标】

Q:2011年的营销感悟是?请用一句话说明。

A:传漾科技坚定不移地在智能数字营销领域里以技术研发为核心并使之产品化、平台化。

Q:对业界近期哪个营销案例或技术有深刻印象?为什么?

A:印象最深刻的是传漾科技近期设计研发并执行投放的三星手机i929网球游戏——与李娜一起挑战ACE球推广活动。三星i929智能手机是李娜代言的首款三星电子产品,传漾科技领先行业趋势,通过HTML5技术,衔接智能手机特有的属性,以ACE球为互动元素,直接在手机浏览器中实现与李娜发球互动。操作简便,互动性强,既充分展现出三星i929手机极速双核的特性,也增加了广告趣味性,用户打开手机网页后就能直接参与此次活动,无需繁琐地下载安装程序,属于业内领先。

Q:您所处的行业在2012年会出现哪些新的挑战或机会?

A:移动互联网的发展是今年的营销拐点,包括之前传统互联网公司都将进入这样的领域。作为传漾来说,我们的优势是在传统互联网方面。作为一家技术驱动的广告公司,我们在技术端有着丰富的积累,因此能很轻松地将互联网的技术复制到移动互联网,新产品的问世也有效解决了在移动互联网广告监测的缺失。通过互联网积累的数据和移动端获取的数据,双向打通,为品牌广告主提供了全程监测服务,为广告主提供更为精准的广告投放。

智能技术在搜索引擎中的应用 篇5

关键词:智能技术,搜索引擎,应用分析

搜索引擎是根据一定的策略、运用特定的计算机程序来搜索互联网上的信息, 在对信息进行组织和处理后, 将处理后的结果显示给用户, 是为用户提供检索服务的系统。而智能技术在搜索引擎中的实际应用也越来越广泛, 不断有新兴的智能技术出现, 搜索引擎也不断地结合这些智能技术来进行自身的变革和发展, 这是一个渐进的过程。文章将详细介绍两种智能技术在搜索引擎中的应用。

1 搜索引擎的分类

全文搜索引擎是最标准的搜索引擎, 国外的主要代表是Google, 而国内的主要代表则是百度。全文搜索引擎的主要原理是在互联网中检索与所查目标相匹配的内容, 继而建立数据库, 按序排列并且将其展示给用户。

目录搜索引擎较本质来说, 其实不能算是真正的搜索引擎。只是将网站链接目录分类, 用户并不需要输入关键字, 根据目录就完全可以找到想要的信息。目录索引最具代表性的就是Yahoo和新浪索引。

元搜索引擎在接收用户的搜索请求后, 可以在各个搜索引擎上同时搜索, 随后将结果显示给用户。这一种搜索引擎的国内代表是搜星搜索引擎。

2 相比网络信息检索传统搜索引擎的缺点

传统搜索引擎作为用户在互联网进行信息检索的一个重要途径给广大用户提供了相当大的便利, 随着互联网的迅速发展, 用户对搜索引擎又提出了搜索速度更快, 搜索效率更高等诸多的要求, 正是用户的这些需求刺激着搜索引擎的快速发展。传统搜索引擎越来越满足不了用户的需求, 主要存在以下几点不足: (1) 搜索引擎从互联网搜索的各种网页水准不一, 存在着根本没用或者暂时性的网页, 这严重加大了用户检索信息的困难程度并且严重影响了检索速度。 (2) 主流搜索引擎大多采用关键词来进行检索, 由于用户水平的差异, 极少数可以总结出关键词或关键词组, 以至于用户搜索不到想要的内容从而加大了检索难度。 (3) 每个搜索引擎覆盖的范围虽然不小, 但与庞大的互联网相比, 简直是九牛一毛。 (4) 检索的结果不准确, 不唯一, 搜索结果为零或者为数万的情况时有发生。 (5) 不能智能搜索, 传统搜索引擎就难以满足用户深层次的需求。

3 智能技术的运用

由于传统引擎的各种缺点, 用户越来越渴望更好用更便捷的搜索方式出现。在这种刺激下智能技术在搜索引擎中的应用大量出现, 这使得搜索引擎须具有一定的智能化和理解能力, 当前主要有以下两大智能技术:

3.1 网对网技术

(1) 顾名思义, 网对网技术就是网络和网络对应起来的意思。这其中又要提到两个概念了, 是两个单词。第一个单词我们都相当熟悉了——internet。我们常说的互联网, 就是这个单词。而在这里, 这个单词指的是一个信息网络, 也就是我们所说的网络中的信息网。我们想要搜索什么东西时, 将它输入在搜索引擎中, 引擎就会在这个网络库中进行查找, 找到相关信息, 然后呈现在我们面前。而另一个词可能就有一些陌生了———innernet。表面上看起来与internet很像, 英文词典中并没有这个词, 我们在这里叫它内联网。内联网是和看起来更像数据库的internet比起来, 更像是人类大脑的一个信息网络, 这里面不仅仅有我们生活和工作中所用到的各种各样的信息, 更重要的是信息之间繁杂又紧密的联系。就像我们在生活中和他人交流, 提到“小伙伴”这个词, 我们会想到其他与之有联系的词汇, 比如“朋友”、“同学”等等, 同样的, 当我们提到“师父”, 我们的大脑也会迅速的联想到“师门”、“师生”这样的相关词汇。我们所说的内联网, 它所着重的, 也是信息与信息之间这样息息相关的联系。Internet和innernet都是知识的网络, 互联网时代的信息社会发展日新月异, 因此无论是哪个网络, 其内的信息都是不断变化着的。

(2) 人们将这个技术运用在搜索引擎中, 大大的提高了搜索引擎的实用性。作为内联网的innernet和internet联结起来, 运用信息之间存在的各种各样的联系, 将用户输入进搜索引擎中的话语中复杂的联系正确的分割开, 然后各自拓展出一些对人们而言有用的信息, 将internet中庞大、杂乱的信息进行有序化的筛选和整理, 最终将信息呈现在人们的眼前。这大大的提高了搜索引擎的可操作性, 缩短了人们不断删改语句来配合internet的时间, 自然也就提高了用户的工作效率。

3.2 Web数据挖掘技术

(1) 数据挖掘作为一门交叉学科, 其原理比较复杂, 可以从庞大的数据中将更有用、更有新意的数据挖掘出来, 而Web挖掘, 便是将数据挖掘和Web发展联系起来。Web数据挖掘有三种不同的挖掘形式, 即内容挖掘、结构挖掘和使用记录的挖掘。

(2) 内容挖掘指的是从Web文档中或是描述中进行挖掘, 在网页中进行数据挖掘, 其中包括数据有文本、超链接、图像和视频等等, 而半结构化的数据和无结构的文本便是主要的挖掘对象。

(3) Web结构挖掘则是通过网页中的超链接, 发现其中信息之间的结构及其紧密或稀疏的联系。在我们平时的上网中, 我们只能看到一个个的网页, 打开浏览或者关闭。但是在这些页面的背后, 其实隐藏着无数个结构链接。Web数据挖掘就能够通过这些结构上的链接, 发现页面与页面、数据与数据之间的联系, 随后对它们进行分类, 以便为用户提供含有相似信息的更多页面, 帮助用户完善自己想要在搜索引擎中得到的信息。

(4) Web使用记录的挖掘则是较之前两个, 让我们感觉更加熟悉的, 至少“使用记录”四个字使我们上网过程中能够看到的。当我们点击一下搜索引擎的输入框想要输入文本时, 搜索引擎会自动下拉出我们前几次使用时所查询的内容, 以便我们重复查看相似内容的信息。搜索引擎有时也会为我们推荐一些内容的信息, 这些信息也会是我们所感兴趣的一些内容, 是搜索引擎结合了我们之前的使用记录, 为我们提供感兴趣的相类似的内容。这些都是Web使用记录挖掘在搜索引擎中的实用例子, 但并不是全部。搜索引擎会从用户的访问痕迹中挖掘出很多有意义的数据, 包括数据端、服务器端和代理端的数据。而其获得这些数据的途径又分为KDD和专业化追踪, 通过这些方法和深度的挖掘, 使搜索引擎更加“智能”的了解用户的兴趣和需要。

4 结束语

搜索引擎是我们工作、学习和生活中必不可少的实用性技术, 正如一个调查中所显示的, 85%的人都是通过搜索引擎获取到他们所需要的信息和所喜爱的网站, 可见搜索引擎对于人们而言的重要性。随着智能技术在不断的更新, 人们的生活变得越来越智能, 对搜索引擎的要求也会随之越来越高, 因此不断利用新的技术完善和提高搜索引擎的智能性, 是用户的选择, 也是时代的选择, 是搜索引擎在现在和未来的发展中必然的趋势, 且将一直持续下去。

参考文献

[1]陈勇跃, 张玉峰.智能技术在搜索引擎中的应用[J].情报杂志, 2004, 02:2-3+6.

[2]杨占华, 杨燕.数据挖掘在智能搜索引擎中的应用[J].微计算机信息, 2006, 12:244-246.

[3]朱素媛, 马溪俊, 梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报 (自然科学版) , 2003, S1:657-661.

智能搜索引擎技术论文 篇6

电子病历或EMR (Electronic Medical Record) 是医护人员通过计算机、健康卡等电子设备取代以前手写纸张病历, 对就诊患者进行诊疗的全过程进行记录、保存、传输、管理和重现的, 数字化的患者医疗记录文档。电子病历文档具有及时获取、方便永久保存、重复调用、知识关联等特征, 是医疗卫生服务机构对门诊、住院患者或保健对象实施临床诊疗、健康指导与干预等医疗卫生及健康服务工作时的数字化助手。

医护人员、患者或其它获得授权的人, 在需要了解患者的医疗与健康资料时, 可从电子病历文档中及时获得完整、准确的相关信息和准确的相关释义, 在需要时还可以最大限度地得到详细、准确、全面的, 与某种病患相关的知识。医护人员、患者或其它获得授权的人也可以通过电子病历文档提供的相关信息和知识, 研究疾病发生、发展和变化规律, 在对患者或居民人群的健康状态需要做出调整时, 做出及时、准确的提示, 并给出最优方案和实施计划[1、2]。

此外, 电子病历文档系统还可以借助或结合其他科学和数字工具对患者的病情进行提示和警示, 对医护人员提供临床决策支持, 并通过连接医疗知识库及其他辅助功能, 对医疗、卫生、护理、健康、疾病预防等各个相关服务领域提供科学研究、药品研发、医疗器具开发等所需的技术信息支持。

随着我国城市化进程和医疗卫生信息化建设的加速, 许多城市包括深圳市的区域电子病历文档库中的数据和信息都以前所未有的海量规模加速增长, 这给数据和信息的检索, 对文档进行修改、合并与更新等日常操作和维护工作都带来了巨大不便。因此, 开发智能化搜索引擎对于普及、促进和提高深圳市区域电子病历文档的应用水平具有重要意义。

2智能化搜索引擎

搜索引擎是一种能够以一定的策略、对数据源内的数据资源进行自动或人为收集、整理与归类, 形成一个可查询的大型数据集, 并提供检索服务的特定软件程序。使用搜索引擎能够帮助人们从不同形式的数字化信息空间, 快速搜寻到人们所需数据, 以及对数据进行汇集、提取、组织、处理和展示, 起到信息导航作用[3、4]。

搜索引擎的发展迄今已经进入第四个阶段:从采用页面分析技术的第一代搜索引擎Lycos和Yahoo, 到使用链接分析技术的第二代搜索引擎Google都算不上智能化搜索。而以Google通过改进Pagerank等技术实现的语义分析技术为标志的第三代搜索引擎, 才带领我们进入智能化搜索时代。目前正在开发的第四代搜索引擎将能够融合个性化数据、人际关系数据和进行跨媒体搜索匹配以实现更具智能化和效率更高的搜索。

智能化搜索引擎是结合了人工智能技术的新一代搜索引擎。它允许用户使用自然语言进行信息检索, 能够根据用户请求, 更加方便地从所搜索的数据资源中搜寻到对用户更确切的、更有价值的信息。具有智能化、人性化, 便利化的特征。智能化搜索引擎除了提供传统的快速检索、相关度排序等功能之外, 还能为搜索用户提供诸如角色登记、用户兴趣自动识别、信息化过滤、关联信息推送和内容语义理解等功能。现在比较有影响的智能搜索引擎有国外的Wolfram Alpha、Ask jeeves、Powerset、Google等。国内做得较好的则有百度、搜狗等。这些智能化搜索与一般的搜索相比具有下述特点[4、5]:

1、具有跨平台和处理半结构化或非结构化文档的能力。它可以支持在多种平台上进行多语言搜索, 能够支持用户使用中文输入查询英文信息。它既能处理HTML、又能处理XML文档以及其他类型如Word文档的信息等。

2、提供便捷交互过程来方便对于所需信息进行检索, 甚至能够提供导航服务引导用户很快找到下一步查询的线索入口, 并在交互过程中为用户检索提供可能的选项、详细的修正、改进或补充, 或通过与用户的进一步交互, 启发和引导用户更加明确原先的意图, 以快速找到他所真正需要的信息。

3、利用知识 (概念) 检索技术来明确、缩小和定位搜索范围, 减少对无用信息范围的检索。

4、通过支持全文检索与条件检索来满足不同层次的搜索需求。

5、提供更加综合全面的搜索结果。由于智能搜索的综合知识库内的知识框架更全面、更合理和综合性更强, 加上采用了以知识库为基础的语义分析, 在检索过程中利用了基于概念的检索。再通过运用灵活的常识性联想功能, 并辅之以人工智能、自然语言处理、语料库等方法, 能够通过对用户的意图, 分析自动生成更准确的索引摘要和综合性更强的检索结果。

3电子病历智能化搜索引擎技术要点[5,6,7,8]

电子病历智能化搜索引擎设计与开发的成功关键取决于综合运用多种技术构建出一个便于进行人机对话, 能够在自然语言理解的水平上充分理解医疗术语和诊疗常规用语, 能够方便搜索、汇聚、转换和展示搜索结果, 并具有很好的实用性的系统。这就要求综合运用下述知识和技术, 并在理论和现实之间进行合理取舍、搭配与协调:

1、利用计算机自然语言理解研究成果和机器翻译技术将电子病历中的医疗术语翻译和转变成为用户可以通过其母语进行搜索、收集、修改、转换和展示等处理的结果。

2、利用搜索引擎技术与语言学知识的结合, 借助语义理解技术开发检索词专用词典或是通过全文扫描和对词间关系的分析, 达到搜索引擎对搜索词语在语义层次上的正确理解。

3、正确的汉语语义识别知识与分词技术。能够运用汉语语义学知识综合分析词语之间的各种特定搭配, 再结合汉语语法分析, 正确地切分各种相关词语中的各个短语词, 同时有效地兼顾关键词与它们之间的关系, 从而更加准确地匹配及表述查询请求和搜索结果文档信息。

从实用的层面上而言, 目前可以借助统计学手段并参考语料库资料和分析结果, 根据各个相关词语出现的概率以及词与词的关联信息, 再配合使用正向和逆向最大匹配法进行详尽分类, 以减少歧义、提高分词的准确性。

4、准确的同义词、反义词与近义词辨别处理。日常医疗用语的词语非常丰富多彩, 用来精确表述现实情况中的各种各样的、千差万别的病情及其各种不同变化中所蕴含的细微差别。为了准确地区分、理解、表述和还原这些区别和不同, 有必要仔细了解、体会并构造相应同样丰富的同义词、反义词与近义词库等辅助词库。只有能够做到自动地、准确地提取同义词、反义词与近义词关系, 搜索引擎才能够被赋予良好的“联想”功能, 才能够大大提高信息搜索的灵敏度和匹配度。

5、便捷的人机交互界面。要求综合运用搜索请求提交、结果展现评价、向导和行为分析等方面现有的技术, 构造一个方便快捷的搜索交互界面。其中搜索请求提交技术由多语言查询、编码转换、模糊语义及精确语义查询以及采用自然语言的搜索请求提交界面技术等构成。搜索结果展现评价技术包括搜索结果的展示、准确性及相关性的母语评价等技术。搜索向导技术则涉及界面设计。而搜索行为分析技术则主要通过跟踪分析用户搜索行为, 进行群体行为分析和个性化搜索来提高用户的搜索效率。

6、搜索知识表达与知识库。使用语义网络和知识库技术来对区域电子病历中所涉及的知识进行语言表达和存储, 以便使用计算机处理。在知识库中按本体论、语言和常识三个层面组织知识:本体论层定义、解释各种词语的基本语义以及概念之间复杂的语义关系;语言层定义词语的同义词、反义词、近义词, 常用习惯词语的层次关系等;常识层定义一些词语在日常使用环境下的语境关联关系等, 例如发热与感染, 便血与消化道出血等。

搜索知识库通过对上述三个层面的词语进行集聚、分析、判断、提取、概括和重组之后, 形成并保存已获取的知识。并将其作为后继分析、概括的依据和基础。一个好的知识库应该能够通过人工训练、机器学习和自组织技术, 在使用中不断改进对于知识的操作, 在数量上不断自我增长, 质量上不断循环优化。知识库的成熟与丰富与否是智能化检索成败的关键因素之一。

7、区域电子病历文档库。它是一个巨大、不断变化的数据资源存储空间, 内部包含有各种结构化和非结构化的医疗诊治数据和信息。它提供了搜索操作所需的全部检索内容空间, 是知识库形成和发展的基础。

8、智能搜索通过搜索知识库把用户的搜索问题提高到知识 (概念) 的层面, 然后利用这个知识 (概念) 检索数据库来获得搜索结果。实现智能搜索的关键取决于如何有机结合电子病历文档库和搜索知识库, 成功地分词, 辨别、处理同义词, 再根据知识库分析关键词, 明确概念和语义, 确定用户真实用意;然后对文档库进行知识 (概念) 层次的检索, 提交搜索结果, 对用户问题给出多方解答, 并提示搜索相关问题;同时, 在操作过程中不断对文档库进行分析、提取和概括, 以实现知识库的扩充和自我增长。

4智能化搜索引擎设计与实现

深圳市区域电子病历智能化搜索引擎总体架构如图1。

其中图左为后台处理部分, 自下而上由区域电子病历文档 (数据资源) 库、分析与索引服务器、索引信息库和搜索知识 (策略) 库构成, 主要为智能化搜索提供信息与知识 (策略) 资源的支持。

图右为前台检索与展示部分。自上而下为用户交互界面, 搜索提交, 搜索引擎和结果提交与展示系统。搜索引擎首先对检索字符串进行分词和词义辨识, 以提高对于词义的语义学概念的理解程度, 提高检索的正确性。然后遍历索引信息库, 找出与关键词匹配的信息, 并将检出的结果信息进行排序、存入缓存器, 最后显示给用户。

5区域电子病历智能化搜索的新应用

在深圳市区域电子病历文档 (数据资源) 库中使用智能化搜索技术之后, 提高了搜索效率、所获得的搜索结果的相关性也更好。下一步还准备尝试提供下述新功能[4、5、9]:

1、主动推送关联或类似数据或信息。通过自动聚类、关联、联想等技术手段将关联数据或信息主动推送到用户面前, 给用户提供更多的搜索选择项, 帮助其有效地再发现自己的真实搜索需求, 或者更快地聚焦到他本来所希望获得的理想搜索目标或结果。

2、自动摘要功能。对整篇文章进行自动概念提取, 形成各种摘要等。

3、个性化数据推送服务。包括个人自主订阅推送、个性轨迹分析推送等。分别通过分析、统计和评价用户以往常用的搜索关键词、访问过的主题库名, 所做的书签 (或收藏夹) 以及使用时长、频度等附加信息进行自动分析, 形成一个分类搜索体系, 并据此提供自主订阅数据推送或个性化数据推送等服务。

4、跨结构或跨媒介搜索。能够通过统一界面和单一搜索提问对区域电子病历文档中的数据以数字、文字、图形图像等多种媒介形式并存的, 结构化和非结构化数据等进行有效搜索, 并获得以多种媒介形式存在的、关联的搜索结果。

参考文献

[1]2010中国大型医院电子病历-简版[R].计世资讯2010, 12:2-12.

[2]国家卫计委.电子病历系统功能应用水平分级评价方法及标准 (试行) [R].2011, 11.

[3]智能搜索引擎建设[OL].[2012].http://wenku.baidu.com/link?url=17Xy Rz Ffc0f Rs Myybzt9u OQp Suct SQ9834s_Do WWTj Hd9Ly AVa PEg a Jh245v G8i IUfs MRd DKd R7v GJFhi NN_SA41v Pe M0ILKj9y Jvryykj O

[4]傅欣.第三代搜索引擎的智能化趋势研究.现代图书情报技术[J], 2002, 6 (97) :28-30.

[5]罗昶.第四代搜索引擎—主题搜索引擎的设计与实现[D].北京大学学士毕业论文, 2001, 06:2-44.

[6]史忠植, 何清, 贾自艳, 等.智能搜索引擎GHunt[R], 中国科学院计算技术研究所.2004:2-25.

[7]徐耀.基于Agent的智能化搜索引擎系统[D].北京化工大学硕士学位论文, 2006:1-51.

[8]吴欣茹.垂直搜索引擎的设计与实现[D].西北工业大学硕士研究生论文, 2006:2-60.

基于本体的领域智能搜索技术研究 篇7

搜索引擎的工作原理与传统的二次文献检索相同,都是先收集资源,整理加工以提供检索入口,然后用户通过提供的检索入口进行检索。

目前搜索引擎正向着领域化、智能化的方向发展。领域化智能搜索为特定领域的信息服务提供了更安全、便捷的方式。同时,随着信息量的急剧增加,从维护内部网的安全、访问方式、信息处理便宜性的角度考虑,在特定领域网中如何进行快速搜索及信息处理也成为了一个亟待解决的问题。特定领域内部网搜索引擎的研究和开发,对于维护国家安全、提高工作效率具有深远的战略意义。

1 目前主要采用的搜索技术

目前,搜索引擎一般提供的是关键词的全文检索和分类浏览的查询方式,检索方式单一。分类目录浏览常常检索到很多无关的信息,查全率、查准率不高;关键词检索仅仅是机械的词语匹配,缺乏知识处理能力和理解能力,信息检索质量不高。此外,数据库检索功能和应用上的局限性、排序技术指标单一、分类目标体系缺乏规范、信息加工深度不够,这些都严重影响着搜索引擎的发展。因此,必须增加检索途径,加强网络信息资源的科学标引和组织,推动网络资源标准化进程,积极推进搜索引擎的发展。

元搜索引擎要比传统搜索引擎的性能要好,但由于搜索引擎是建立在传统搜索引擎的基础上,因此,传统搜索引擎所存在的查询精度低的问题在元搜索引擎中同样出现。由于用户查询信息一般都是基于某个特定知识领域进行信息检索,因此,在局限于某一特定知识领域或某一特定主题的情况下进行原始信息的收集,可以大大提高信息检索的精确度,从而出现了基于领域的搜索引擎技术,并且这种搜索引擎由于在特定主题的限定下进行数据的搜集与检索,要求搜索引擎具有智能化的特性,能够识别所搜索的网页是否与其主题相关,并且在搜索的过程中,能够沿着与主题最相关的链接进行搜索。从而使得这种基于领域的搜索引擎具有相当的智能化的技术,形成基于领域的智能搜索引擎。

利用人工智能先进技术重新设计搜索引擎,使搜索引擎更具智能化,检索结果更能反映用户的需求,这类搜索引擎称为智能搜索引擎。把信息检索从目前基于关键词层面提高到基于知识(或概念)层面,是解决问题的根本和关键,智能搜索引擎基于语义层面的检索形式,是建立在大规模的知识库基础上,用一个强有力的推理机,根据用户所提供的表达检索要求进行分析,然后形成检索策略进行搜索。具有领域化和智能化的特点。

2 领域与概念

领域是指一组具有相似或相近软件需求的应用系统所覆盖的功能区域。领域工程是为一组相似或相近系统的应用工程建立基本能力和必备基础的过程,它覆盖了建立可复用软件构件的所有活动。概念是领域抽象的直接结果。本体是一种概念体系且本体通常与领域相关。对于软件系统来讲,本体包括构造该软件所需要的概念词汇以及词汇之间相互关系的约束。本体的目标是捕获相关领域的知识、信息,提供对该领域知识的共同理解。概念是现实对象在某一或某些属性领域空间上的投影,任何本体都不能描述复杂现实对象的全部属性,只能根据领域来刻画其某些侧面。如圆柱体从不同角度可刻画出椭圆、矩形、圆顶矩形等形状,本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础,可以在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和继承。相对于元模型而言,本体是领域相关和超领域描述的,这种形式化的描述可成为遗留软件系统中可重用和共享的组件。

3 基于本体的语义检索模型

系统按照层次划分为三个部分:数据层、中间层和表示层。

数据层主要解决本体的建立和存储问题。本体的建立是针对特定领域的,因此需要领域专家的参与,依照一定的本体建立规范方法,并且要借助一定的辅助工具,本文采用Protégé工具。建立本体目前大多采用的依然是手工的方式。在web环境中,ontology主要以RDF文件或者OWL文件的形式存储,这些文件也可以由相关专家根据标准的格式以XML基本语法手工编辑,也可以由Pmotégé等工具自动导出生成。

仿真系统模型总体结构如图所示。

中间层允许用户以自然语言输入查询请求(可以是一个词语或者是一个语句),通过一系列的自然语言处理技术,结合ontology进行语素、句法、语义等的分析,最终将用户的请求,表达为一个模板化的查询表达式。这里所谓模板化,是指这种表达式符合系统内部对于信息资源的描述模式,是系统内部的应用可以识别和处理的形式。

利用ontology中的概念和关系,对网页资源进行预处理,并以特定的格式存储。根据用户的检索要求,从大量的信息中找到满足用户要求的信息,并对检索结果按照与用户请求的相关性大小进行排序后返回给用户。要从大量的信息中查找所需的信息,如果不对文本进行任何处理,仅仅通过字符串匹配,效率肯定十分低下。数据库系统之所以具有较高的检索性能,其原因就在于对于数据的表示模型进行了事先的规定,也就是具备良好的元数据管理机制。

中间层作用就是从非结构化的信息中提取出有用信息,并根据领域本体的概念类型模板抽取出信息实体,从而将这些非结构化的文本信息转化成具有一定结构的信息实体。在这里,基于ontology构建实体库和实体索引库,是借鉴了传统的元数据思想。元数据事实上是数据的模板,而这里,基于实体库的建立,也是参照由ontology描述的实体的模板,是关于实体的概念,关系和属性的一种特殊的元数据模板。

表示层给用户提供操作的交互界面。主要是对RDF、RDFS、OWL等相关文件的解析和推理。将以一般文件存储的本体信息资源从文件中读取出来,存储在特定的模型中处理。

随着互联网上信息爆炸式的增长,互联网为人们提供了一个信息的海洋,在增加了用户信息量的同时也增加了用户查找准确信息的难度。搜索引擎的出现在一定程度上缓解了这种压力,但随着信息的海量增长,传统概念的通用搜索引擎已不能满足特定用户群对其相关领域中专有信息检索的特定需求。特定领域内的信息搜索已经逐渐成为互联网搜索的重点。

通过对上述情况的分析,在基于本体技术的基础上讨论了如何建立一个智能搜索引擎模型并对其进行测试研究。

参考文献

[1]王幕东.搜索引擎的发展状况与使用技巧[J].情报理论与实践,2001(4).

[2]邓志鸿,唐世渭,张铭等.Ontology研究综述[J].北京大学学报(自然科学版),2002,38(5).

[3]李曼,王大治,杜小勇等.基于领域本体的Web服务动态组合[J].计算机学报,2005,28(4).

[4]邓志鸿,唐世渭,杨冬青.面向语义集成——本体在web信息集成中的研究进展[J].计算机应用,2002,22(1):15-17.

[5]周琦钰.搜索引擎的发展概况与趋势[J].湖南第一师范学报,2006,6(2).

[6]余以胜,张玉峰.基于本体论的知识库系统研究[J].情报杂志,2003(6).

中文智能搜索引擎的设计与实现 篇8

计算机技术和互联网技术迅速发展, 造成的互联网络泡沫迅速膨胀, 给搜索结果精确程度带来了巨大的挑战。想要把如此庞大而又复杂的网络环境中对自己有用的信息提炼出来, 必须使用搜索引擎来完成。想要很方便的构建一个根据自己的需要而专门定制的搜索引擎, 可以通过本设计所使用的Lucene.net。本文阐述了较为简单的中文智能搜索引擎的开发过程的关键问题, 对目前的搜索以及编程方面的新技术进行了研究。

1 开发环境

中午智能搜索引擎采用微软提供的.NET是一种面向Web服务的开发平台, 由.NET企业服务器、框架、Web服务等几部分组成, 可以提供较为全面的解决方案。因此在本系统的开发中, 采用ASP.NET作为本设计的开发工具。我们选择了微软公司的.NET作为开发平台。同时, 选择C#作为开发语言, 使用Microsoft Visual Studio.NET 2005作为开发平台;使用Microsoft SQL Server 2005作为后台数据库。使用Ajax程序对搜索引擎系统进行优化, 可以实现浏览器页面的局部刷新功能。Lucene作为一个高性能的信息检索工具库, 能够为搜索引擎应用提供一个工具包, 同时配合Lunene.net完成, 它可以嵌入到程序中为程序提供关键词搜索功能, 也可以用来对文档建立索引。

2 Lucene.net构建搜索引擎原理

搜索引擎的工作过程分为3个步骤:一是抓取网页, 二是建立索引数据库, 三是搜索索引数据库。在全文搜索中, 在程序之中预先定义一个或者一定地址范围内网站, 由程序中的Spider程序模块从这个预先定义的网站开始采集网页资料, 并且沿着这个 (或这些) 网站上的链接进行跳转, 并循环该过程。Spider采集的网页, 首先要进行程序分析过程, 根据预先给定的算法运算后, 其结果添加到索引数据库中。而用户日常平时进行的全文搜索引擎, 呈现给用户的仅是一个检索的界面。其工作过程是, 首先根据用户检索的内容提相符的所有的相关网页, 最后按照预先设定的规则, 将得到的网页列表结果显示出来。由于存在各种各样的搜索引擎, 它们预先设定的规则以及索引数据库不尽相同, 因此用户看到的最后搜索结果也因而不同。

根据预先设定的初始网页, Spider程序可以自动的访问网络, 对这个页面进行访问, 并且能够提取该网页上的所有URL。而且, Spider程序还能够依次跳转到URL所对应的其他页面, 继续提取这个二级页面上的URL, 最后不断的重复这个过程, 直到达到其程序限定的级数停止[1]。Spider程序爬出的所有网页都经过分析索引程序对其进行分析, 程序会提取网页页面的相关信息, 这些信息包括网页的网址, 网页内容的所使用的编码类型, 网页代码头中所包含的网站关键字等等一系列信息。然后根据提取的这些相关信息构造网页索引数据库, 并采用预先设定的排序算法对其进行排序, 因此当用户进行搜索时, 搜索程序会检测用户所输入的关键词, 然后根据这个关键词查找服务器后台的索引数据库, 将所有符合这个关键词的相关网页都提取入栈。最后, 页面生成系统将调用包含了查询到的网页的栈, 提取栈内网页的地址和含有高亮关键词部分的页面摘要内容整合成一个页面呈现给用户。由于每个搜索引擎的网页索引数据库不同, 而且搜索引擎只能搜到数据库里储存过的内容, 所以用户在不同的搜索引擎下进行搜索, 所得的结果也不会完全相同。

3 搜索引擎的设计与实现

3.1 搜索引擎模型

模型包括爬虫、索引生成、查询及系统配置部分。爬虫包括:网页抓取模块、网页减肥模块、爬虫维持模块。索引生成包括:基于文本文件的索引、基于数据库的索引。查询部分有Ajax、后台处理、前台界面模块如图1所示。

3.2 数据库设计

本课题包含一张用于存放抓取回来的网页信息如表1所示。

3.3 模块设计与实现

该模型按照功能划分了3个部分, 一是爬虫抓取网页部分, 二是从数据库建立索引部分, 三是从前台页面查询部分。从一个或几个初始网页开始, 获得初始网页上的URL, 并加入队列, 直到满足系统限定的诸如域名空间或者是网页抓取级数的的停止条件。实际应用中主要以绝对地址和相对地址来的形式来表现获取到的URL。一个准确的、无歧义的Internet资源的位置, 包含域名 (主机名) 、路径名和文件名叫做绝对地址[2]。但是相对地址只是绝对地址的一部分。得到的信息包括网页标题、内容、链接、抓取时间等, 然后将这些信息经过系统程序算法的筛选, 保存到数据库中。程序计算后去掉多余的HTML标签、Javascript等多余信息, 如果不经过处理就会使搜索变得不精确。

想要爬虫程序能继续运行下去, 就得抓取网页上的其它URL, 所以要用正则将这个网页上的所有URL提取出来放到一个队列里。通过多线程技术用同样的方法, 依照队列次序继续抓取网页。

Lucene提供了Document, Field, Index Writer, Analyzer, Directory五个基础类对文档进行索引。一个Document对象由多个Field对象组成。Document用来描述包括HTML页面、电子邮件或者是文本文件等类型的文档[3]。如果用数据库记录来理解每个Document对象, 那么每个Field对象就是记录对应的某个字段。Analyzer类是一个有多个实现的抽象类。在索引文档之前, 需要先由Analyzer进行分词处理。可以针对不同的语言和应用选择适合的Analyzer。Analyzer把分词后的内容交给Index Writer建立索引。

方便用户查询是所有搜索引擎的目标。在查询页面输入用Lucene的搜索引擎中, 需用到Lucene提供的方法, 可从所建立的索引文档中得到结果。

在配置网页爬虫程序时, 预先将一个一个有效的URL输入在控制面板里, 然后由这个URL开始依照级别遍历相关的链接, 然后在网页数据库里经这些连接存贮下来, 然后就由索引生成程序读取, 对每条记录生成索引记录, 存放于生成的索引库文件里。生成索引需要调用Lucene.Net类[4]。索引生成后可以直接在查询页面上输入关键字, 对系统生成的索引库的查询, 并反馈信息, 还可以精确定位到信息的出处。

4 结语

在这个网络泡沫迅速膨胀时代, 网络中有成千上亿个网页, 仅仅通过人工方式对网页进行收集和整理的工作量的巨大难以想象的。所以通过智能搜索来收集网络上的网页资料, 由系统建立索引数据库来代替庞大的、不可能完成的人工操作。用户在浏览网页需要搜索相关内容的时候, 就会通过选择关键词进行搜索, 智能搜索引擎就需要为用户显示包含该关键词的所有网页呈现给用户, 程序需要根据索引数据库中所存储词条与关键词的相关度进行排序。这个过程需要一系列的复杂的算法进行大量计算, 从而将用户需要的信息显示在反馈的网页上面, 这样用户就能快速的得到检索结果。

摘要:大数据时代网上信息量快速增长, 智能搜索系统可以帮助用户快速定位查询的资源。文章主要探讨了搜索引擎的原理, 阐述了使用Lucene与Ajax实现智能搜索的方法。对Lucene的搜索引擎模型、数据库设计、模块设计进行了详细分析, 对Lucene.net构建搜索引擎原理的关键问题进行了研究。

关键词:Lucene,异步更新,Ajax,搜索引擎

参考文献

[1]刘东君, 李德泉, 周勇, 等.基于Lucene的非结构化文档全文检索系统研究与实现[J].软件导刊, 2013 (10) .

[2]艾丽娟.智能搜索引擎发展现状及关键技术[J].电子技术与软件工程, 2013 (10) .

[3]兰蔚巍, 李海生.浅谈智能搜索引擎技术及其发展趋势[J].科技信息, 2010 (28) .

智能搜索引擎技术论文 篇9

成功的必备要素就是要有成熟的团队、技术基因和企业文化,其中最重要的就是有一支善于作战的团队。上海传漾网络科技有限公司由行业领先的资深团队创建于2009年,在短短的2年时间里,传漾从起初不足10人发展到如今已近400人,在规模不断扩大的同时,业绩更是在持续飙升。传漾公司成立不到半年即完成第一轮融资,今年初又完成第二轮融资,除此之外,传漾科技在业界还获得多项殊荣,成为行业领军者。

传漾今年不到六个月就入职了208人,这极大地考验了团队的管理与协作能力。由于组织架构不断变大,层级变多,事情也变得复杂起来。这也是传漾从初创期转向高速增长期的特定阶段。传漾能否在这个阶段保持并能提升管理效率,决定了能保持多久的高速增长期。准备充分不充分,不仅仅是能力,最重要的是符合传漾企业文化的纯粹心态和真诚的沟通!徐鹏先生特别感谢传漾的员工,他们一直对待工作兢兢业业,对待团队忠贞团结,把团队壮大与业绩提升当做自己的使命,时刻与传漾同进退共发展。管理层员工积极为新人作出好的榜样,正是因为这样,传漾才能以更开放的心态包容,融合了更多优秀的人才。

徐鹏坚信,好的团队是成功最坚实的基石。传漾的团队是互补、互信和互动的。投资圈内的人曾经说过,在中国选项目不如选团队。多数成功和失败案例都证明在中国选对商业模型不如看准一个优质的团队,尤其是团队领导层。好的团队即使短时间有可能会误入歧途,但长期小看,成功只是时间问题。

良好文化氛围是企业成长的沃土

传漾团队通过这两年互相配合实战,形成了传漾独特的团队文化。很多人说企业文化只是一些口号,其实质是空虚的,徐鹏则认为:企业文化从本质上说就是团队成员一起创造的!团队的心态、素养、信念与操守决定了企业文化。

谈到企业文化,徐鹏的话多了起来,他说自己为创造良好的文化氛围花费了很多心思,希望传漾的员工在公司里可以找到归属感和职业成就感。徐鹏多次对员工说:“传漾能做多大不是领导者自己决定的,是由传漾团队里每一个成员决定的!在传漾识大体,懂取舍,拼执行才是正道。”这就是传漾最朴实、最坚实的企业文化观:开放、纯粹、求真、务实、使命感、分享与共荣。

徐鹏还强调“公司里任何一个人都要在工作中进行不断的自我剖析。任何一个团队的发展和完善,无一不是在不断创新的自我剖析、自我批判和自我扬弃的过程中形成新的自我,同时还要勇于直面自己的缺点与不足之处,不管是身居要职还是一名普通的员工。只有善于自省、自新才能不断提高完善自我。”

谈及许多公司存在的“情绪污染”问题,徐鹏说:“人应当善于控制自己的情绪,自制而不骄妄。领导要不以自己的好恶来判断人才的标准,要宽容放平心态妥善处理好部门内部的情绪波动。和谐的氛围可以给公司带来无穷的发展动力。”

传漾技术驱动的定位符合资本市场对互联网企业的认同

一个没有技术底蕴的公司即使再有钱也很难烧出好的技术和产品。徐鹏介绍说:“传漾的天使投资人兼技术带头人王建岗先生使得传漾有了最基本的必备条件:启动资金和技术核心储备。互联网界有句话:技术是必须要有的,但光有技术也是不行的。技术必须要有好的团队来运营,并得到资本的助力才能无往不胜。”目前公司“技术驱动”的定位是得到资本市场认同的,所以传漾也会坚持做下去。

作为以技术为支撑的互联网企业,传漾的管理体系会更加注重数据管理,会更加注重财务分析,制定游戏规则,实现从管人向管规则的转变。规则有两个方面,一是激励机制,二是运营机制。数据最能体现问题。传漾目前的客户数量和质量还有很大的提高空间,所有这些都需要定下心来,一步步达成。

担责任 求业绩 不糊涂

责任二字重于泰山,执行效率是企业的生命线。在传漾大家庭里,徐鹏既是创始人,也是董事会授权的首席执行官,负责公司的整体运营。公司里每位员工都有不同的授权和角色定位,既是领导也是下属、既是服务者也是被服务者。明确不同角色的定位,不同角色承担不同的责任,不给失败找借口。其实任何理由,都是下意识的推诿。敢于承担责任,才是成功之道。

当记者问及徐鹏如何看待业绩时,他直白地说:“销售部门没有业绩只谈管理,那是空中楼阁”。涉及具体执行,徐鹏很有经验:“公司销售领导不能坐在办公室里等业绩,要亲临一线了解、指导,促成客户下单,细致帮助下属做好决策。运营部门、产品部门充分及时有效地给到销售部门支撑。必须在公司的流程要求和客户服务的满意度上做好平衡。就整体而言,只有客户部门、渠道部门、运营部门、广告支持部门、技术部门的通力协作,公司业务的飞速发展才能得到保证。”

对于如何做到恒一专注,徐鹏强调:热爱一件事,就把它做到极致。要做好时间计划,今日事今日毕。苦行僧般的恒一专注,正是成功人士和企业家所必须具备的素养。徐鹏不断告诫员工要“有计划,有决断,不糊涂。”他说:“世上能成事的人都是敢想敢做的!很多一线上的事要敢于决断、善于沟通,这两点都必不可少!任何事情决断必然有风险,时时优柔寡断比决断错误还可怕!”当员工犹豫不决时,徐鹏的建议就是:少虑多行!“想得越多并不会产生任何好处,而且想得越负面,事情就会变得越负面。路就在脚下,相信自己,坚持自己的判断,信任自己所在的团队。”

艰苦奋斗:让梦想照进现实

在传漾的历程中,第一年是艰苦奋斗年,徐鹏先生定性为坚守,这个时间点最具创新性,传漾有了自己的运作模型;第二年业绩在反复困境的煎熬中打开了局面,徐鹏先生定义为无悔,这个时候业绩增长并没有带动运营效率增长;第三年徐鹏先生定义为梦想,也是最需要突破创新的一年。

传漾目前碰到的问题只能靠自己来解决,把积压的问题、难解决的问题、新的问题创新型的解决。依靠技术和智慧,增加创新型的媒介投放模型,然后流程规范化、模型标准化、投放平台化。优先把需要解决的重要问题一一落实。

智能搜索引擎技术论文 篇10

随着互联网网站页面的激增和用户队伍的不断壮大, 搜索引擎越来越成为人们上网浏览时的重要工具, 用以在浩瀚的网站页面的海洋中迅速地找到自己所需的信息。从用户的角度来看, 当前的搜索引擎主要存在信息检索质量不高、检索方式单一、个性化服务问题、搜索引擎对信息的标引深度不够、信息收集与检索的分离等几个方面的不足。

2 智能搜索引擎功能特点

智能搜索引擎的人机接口和网络蜘蛛高度智能化, 可跨平台工作、处理多种混合文档、支持多种语言搜索, 并能根据用户的兴趣、爱好、特性、定题需求, 不断实时推荐、推送相关的信息、知识, 定制个性化页面等, 表现出较大的智能性、主动性、交互性、人性化特征。使其用户范围从具有良好信息检索素质的专业人士, 扩展为无任何检索技能背景的普通用户。

2.1 智能型的自然语言技术

智能型的自然语言技术包括"自然语言搜索"和"动态关联词、联想词提示"技术。内建完整的"布尔逻辑运算组合"的搜索条件和"邻近搜索"功能, 配合"智能型快速响应模式", 有效提高搜索速度和精确度。用户可灵活选择欲搜索的数据库, 配合"中文同音"、"中英文近似概念"、简繁转换"、通配字符搜索"、词组搜索"和"多字段平行检索"等多项智能搜索功能, 从而更加高效、便捷获取有用信息。

2.2 灵活的检索机制

提供多重模板设计功能, 可按照用户自身需求轻松修改搜索结果的显示画面;并可依据不同的搜索方式, 套用可获得不同的搜索结果的模板文件。提供"机动权值排序机制"、"阶层式分类目录"、"动态关联词、联想词提示"等功能, 向用户提供更友好的搜索界面, 增加搜索结果的适用性。

2.3 强大的索引功能

采用"多线式资料获取机制"、"平行索引模式"、"动态文件分析技术"及"实时差异式索引更新技术"等多种功能, 有效提高文件与数据库的索引速度, 大幅降低索引等候时间和更新周期。提供"多重索引数据库"架构及"群组式分类目录"功能, 缩短资料索引时间, 灵活整合文档资料。

3 知识库系统的原理

3.1 知识的定义

知识是人类对客观世界的认识, 通常知识是先由底层数据经过分类、归纳、综合等处理过程而得到的上层信息, 这种信息再经过解释、比较、推理得到我们所获取的知识, 这种过程主要是在语义的层面来进行的。

3.2 知识的类型:过程型知识、描述型知识和元知识。

3.3 知识的表示

知识表示是指知识在计算机内部的存储和组织, 是数据结构和解释过程的结合。数据结构用于知识的形式化描述, 而解释过程则用来说明知识的现实含义。知识的表示方法主要有一阶谓词逻辑表示法、产生式表示法、语义网络表示法和面向对象的知识表示方法等。

3.3.1 一阶谓词逻辑表示法

谓词的一般形式为P (x1, x2, …, xn) , 其中, P是谓词;x1, x2, …, xn是个体 (常量、变元或函数) 。谓词逻辑适用于表示事物的状态、属性、概念等事实性的知识, 也可以用来表示事物间确定的因果关系, 即规则。例如:"书在课桌上"可以描述成:ON (book, desk) 。谓词逻辑是一种形式语言, 是目前能够表达人类思维活动的一种最精确的语言, 它与人类的自然语言比较接近, 因此一阶谓词逻辑表示方法是最早使用的一种知识表示方法。它具有简单、自然、精确、灵活、容易实现等优点。

3.3.2 产生式表示法

产生式表示法又称为产生式规则表示法它是依据人类大脑记忆模式中各种知识之间的大量存在的因果关系, 以"IF-THEN"的形式, 即产生式规则表示出来的。它的基本结构包括前提和结论两部分:前提 (IF部分) 描述状态, 结论 (THEN部分) 描述在状态存在的条件下所做的某些动作:

前提状态→结论动作或IF状态THEN动作

整个产生式的含义是:如果前提被满足, 则可推出结论或执行所规定的操作。产生式表示法具有自然性好, 便于推理的优点, 且有利于对知识的增加、删除和修改。另外, 产生式表示法既可以表示确定性知识, 又可以表示不确定性知识;既有利于表示启发式知识, 又可方便地表示过程性知识;既可表示领域知识, 又可表示元知识。但是产生式表示法不能表达具有结构性的知识, 工作效率不高;而且在求解复杂问题时容易引起组合爆炸。

3.3.3 语义网络表示法

语义网络是一种通过概念及其语义关系来表示知识的一种网络图。一个语义网络就是一个带有标志的有向图。其中, 有向图的节点表示各种事物、概念、动作、状态、属性等;有向弧表示它所连接的节点间的某种语义联系, 每个节点可以包含若干个属性。语义网络表示法具有灵活、自然、易于实现、善于表示结构性知识等优点。语义网络表示法的局限性主要表现在它对知识表示的非严格性, 这使得有可能存在二义性, 而且存在知识处理的复杂性。

3.3.4 面向对象的知识表示方法

按照面向对象方法学的观点, 一个对象的形式可定义为四元组〈对象〉::= (ID, DS, MS, MI) 。其中ID代表对象标志符, DS代表数据结构, MS代表方法集合, MI代表消息接口。这种方法可以将知识抽象为对象的内部状态和静态特征属性进行封装和隐藏, 而知识的处理方法表示为对内部状态和特征属性的操作, 并由消息接口与外界发生联系。

3.4 知识库

知识库是关于某一领域的陈述性知识、过程性知识和策略性知识的集合。知识库中不但包含了大量的简单事实, 还包含了规则、过程型知识和策略性知识。从存储知识的角度来看, 以描述型方法来存储和管理知识的机构叫做知识库。从使用知识的角度来看, 知识库是由知识和知识处理机构组成。

3.5 知识库系统

3.5.1 知识库系统的体系结构

知识库系统包括知识的获得、利用和管理三个方面。知识库、推理机及存贮器是知识库系统的三个组成要素。知识库系统的核心组成部分是知识库和推理机构。

3.5.2 推理机构

利用知识, 解释输入的数据或事实, 推导出用户所需的结论;并根据要求, 说明得出结论的依据, 用于进行这种推理控制的模块称为推理机构。推理机构应具备以下四个功能:

(1) 知识库中新知识的获取功能。

(2) 推理机构与知识库相互独立功能。

(3) 知识库中信息交换及知识扩充功能。

(4) 知识库与待解决问题之间的协调功能。

4 基于知识库系统的智能搜索引擎

目前的搜索引擎具有关键词检索和目录查询的缺点, 为了克服这些缺点, 应该采用自然语言理解技术来进行自然语言智能答询。这样就可以将信息检索从目前基于关键词的层面提高到基于知识 (或概念) 的层面, 对知识有一定的理解与处理能力, 可以实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。下面就是当前智能搜索引擎基于知识库系统所采用的一些自然语言理解技术。

4.1 智能分词技术

关键词查询的前提是将查询条件分解成若干关键词。对英文而言, 一个单词就是一个词, 但中文词之间的关系却复杂得多, 主要问题是中文词与词之间没有界定符, 需要人为切分, 但人为的切分有很大的灵活性和操作性, 往往容易产生词义失真。

4.2 同义词处理

汉语词语之间复杂性的另一个方面是同义词的问题, 同一个词组往往有许多不同的意思, 处理同义词的一种方法是在语义知识库中人工构造同义词表, 对专用领域的搜索引擎, 这种方法是非常有效的。

4.3 短语识别技术

用短语描述查询请求的情况很常见, 但是因为汉语词组的复杂性, 所以在中文搜索引擎中, 我们不能象英文词组一样简单的将中文短语分离成词组。

4.4 智能搜索代理技术

以提供主动服务为主的智能搜索代理技术, 能够将信息主动推送到用户面前, 免去了用户被动搜索的困扰。搜索的是活动窗口而不是某一个关键词的主导概念, 增强了相关性提供的链接除网络信息外, 还包括客户端的本地内容、相关社区中的同类用户及相关内容的百科全书、参考资料等。

结束语

智能化搜索引擎能够实现信息服务的人性化、高效化, 为用户检索互联网信息提供了极大的便利。在应用需求和相关科学技术的推动下, 智能搜索引擎技术正逐步发展起来, 它将会越来越好地为人们的生活服务

参考文献

[1]殷雪松, 徐斌.WWW网络搜索引擎介绍.大学图书馆学报, 1998.

[2]吴丹.搜索引擎的智能化研究[J].情报理论与实践, 2002.

[3]李研, 陈新中.基于web挖掘的智能门户搜索引擎的研究[J].计算机工程与应用, 2002.

[4]张兴华.智能搜索引擎的机理, 实现技术及发展趋势[J].现代情报, 2003.

上一篇:高校财务控制下一篇:安卓游戏