知识搜索引擎

2024-08-02

知识搜索引擎(通用9篇)

知识搜索引擎 篇1

1 概述

据相关统计, 制造业的信息化水平远远落后于生产规模的发展。传统制造业企业的数据每年以150%的速度增长, 其中80%以上的数据以文件、邮件、图片等非结构化的数据存放。传统制造业企业经过多年运作, 积累了大量企业内部的规章制度、项目文档、操作规程等的经验和知识, 这些知识没有统一的组织和管理, 散落在企业的各个角落无法被互联网搜索利用。迅速地检索和利用企业迅猛增长且不能被互联网搜索引擎检索到的企业数据成为目前制造业企业的迫切需求。

2 知识搜索引擎研究现状

2.1 国外研究成果

由于从传统的搜索引擎如谷歌或雅虎不能响应需要的有用、准确、可靠和优质的人力资源肌肉骨骼相关的医疗流程, 病理知识和实践经验。

Tien Tuan Dao等人介绍一种先进的面向人类肌肉骨骼系统的网络资源 (HMSR) 的个性化知识搜索引擎。他的个性化搜索引擎允许不同的用户远程访问到有用的、准确的、可靠和优质的HMSR的信息供他们学和医疗用途。

2.2 国内研究成果

国内的许多学者对相关知识搜索引擎实例进行比较。如:王春晓等人对百度“知道”、新浪“知识人”、雅虎“知识堂”三个知识搜索引擎的类目设置、页面设置、搜索方式、提问方式、搜索结果和相关协议等方面进行比较分析, 并提出了完善知识搜索引擎的相关建议。

此外, 相关学者还探索了知识搜索引擎在一些领域的运用。如:周春对知识搜索引擎在教学中的应用进行了展望;巫喜红把知识搜索引擎应用在设计类课程的教学中, 取得了良好的效果。

3 面向制造业知识搜索引擎

面向制造业的搜索引擎的系统架构和运行方式吸收了信息检索系统设计中许多有价值的经验, 也针对万维网数据和用户的特点进行了许多修改, 如下面所示的搜索引擎系统架构。其核心的文档处理和查询处理过程与传统信息检索系统的运行原理基本类似, 但其所处理的数据对象即万维网数据的繁杂特性决定了搜索引擎系统必须进行系统结构的调整, 以适应处理制造业数据和用户查询的需要。

企业知识搜索引擎, 主要是索引和检索部分采用Lucene工具包, 其系统框架如图2所示, 它主要由解析器、抽取器、检索器、搜索器、采集器等组成。

1) Crawler爬虫抓取

面向制造业的知识搜索引擎派出一个能够在制造企业内网上抓文件的程序, 这个程序通常称之为Crawler。搜索引擎从已知的数据库出发, 就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎会跟踪网页中的链接, 访问更多的制造业网页, 这个过程就叫爬行, 这些新的网址会被存入数据库等待抓取。

2) 抽取器

面向制造业的知识搜索引擎它先对爬虫所抓取的文件进行结构化数据抽取关键词, 然后对抽取的数据进行知识分类, 并把数据分类的结果放进知识库里。

3) 索引器

面向制造业的知识搜索引擎它主要把抽取器的知识库里数据分解、分析, 并以巨大表格的形式把中文分词存入索引数据库。

4) 检索器

面向制造业的知识搜索引擎主要是基于lucene检索, 它是性能的java全文检索工具包, 使用的是倒排文件索引结构, 同时对索引数据库的数据进行一定的用户行为分析, 进行高效的检索, 受到了手机移动终端与浏览器的亲睐, 应用十分广泛。

5) 采集器

面向制造业的知识搜索引擎主要采集制造企业的资源库, 包括一些企业的技术档案库、科技成果库、数字资源库。并且该搜索引擎也收集了一些个人文档。该采集器同样也有许多的系统支持如:协同办公系统、邮件系统工作票系统等等。功能十分的强大与全面, 与其他系统的兼容性十分的好。

4 搜索性能比较

为了说明制造业知识搜索引擎的搜索性能的优越性, 该文选择通用搜索引擎Google、windows自带搜索对五个具有制造业代表的关键词:采购、车床、原材料进行搜索, 同时使用本搜索引擎进行同样的搜索, 对两个系统结果集的前100个页面进行了主题相关度评价, 分别从查准率和搜索时间上与通用搜索引擎进行了对比。

实验结果表明, 面向制造业的知识搜索引擎具有明显的主题倾向性, 结果的查准率优于通用搜索引擎。但是系统在搜索速度上远不如商业搜索引擎。

5 结束语

本文设计的面向制造业知识搜索引擎是优于通用搜索引擎的, 它基本满足了对制造业数据、信息搜索的需求。该搜索引擎可以帮助地制造业产业实现对相关信息的检索, 对制造业信息化发展有很大的帮助作用

摘要:该文结合制造业知识的特点, 介绍了基于Lucene的面向制造业知识搜索引擎基本架构。从查准率和搜索时间上与通用搜索引擎对具有制造业代表的关键词进行搜索的比较, 证明面向制造业知识搜索引擎可以提高制造业信息数据的利用效率。

关键词:知识搜索引擎,Lucene,制造业

参考文献

[1]李永春, 丁华福.Lucene的全文检索的研究与应用[J].计算机技术与发展, 2010, 20 (2) :12-15.

[2]彭陶, 马张华.Web2.0环境下的知识搜索引擎发展研究[J].图书馆学研究, 2011 (11) .

[3]王春晓.知识搜索引擎比较分析[J].图书馆学研究, 2009 (1) :47.

[4]周锦程.基于Lucene的全文检索系统的研究与实现[J].计算机技术与发展, 2011, 21 (3) :67-71.

[5]任惠静.基于Lucene的面向主题搜索引擎的索引技术的研究[J].电脑知识与技术, 2010 (4) .

[6]孙建.基于Lucene的知识搜索引擎的设计与实现[J].安徽电气工程职业技术学院学报, 2011 (01) .

[7]王文钧, 李巍.垂直搜索引擎的现状与发展探究[J].情报科学, 2010 (3) .

[8]Malaysia.Development of Search Engines using Lucene:An ExperienceMasnizah Mohd

[9]Antonopoulou E, Karetsos ST, Maliappis M, Sideridis ABWeb and mobile technologies in a prototype DSS for major field crops[J].Compute Electron Agric 2010;70:292-301.

[10]Hamdi MS.SOMSE.a semantic map based meta-search engine for the purpose of web information customization[J].Appl Soft Com pute, 2011;11 (1) :1310-21.

知识搜索引擎 篇2

对于淘宝店铺,自然搜索流量最重要的一部分,如何获取更多的免费流量,是很多卖家都很关注的话题。下面分享一些淘宝卖家搜索知识:

1、所有搜索引擎的排序算法,都是最保密的,无论是Google、Baidu,还是淘宝搜索。我不可能告诉大家具体的算法,更何况算法每个月都有调整,或大或小。今天很有用的因素,下个月可能就会有一些变化。

2、作为搜索负责人,我不建议卖家把过多的精力放在搜索优化上,商家应该专注于商业本身。做好自己的客户服务,产品优化,才是本质。我希望达到卖家服务好了客户,搜索自然会带给卖家更多的流量。然而,搜索这么重要一个流量入口,卖家又应该了解搜索,但这么多搜索的消息,到底应该了解哪些?到哪里去了解?这篇文章就是回答这些问题的,分享给大家。掌握了这些知识,卖家就不需要整天盯着搜索变化了,也不用管那些不知道是真是假的小道消息。

了解搜索功能:淘宝搜索有很多功能,这些功能虽然是给消费者用的,但卖家应该了解,有助于避免应有的流量损失。淘宝搜索结果页的功能分成了三部分,一部分是导航功能,一部分是筛选功能,一部分是宝贝结果。宝贝结果主要是关注排序原则,后面会做介绍。这里主要介绍导航功能和筛选功能。

导航功能里有下拉提示、相关搜索、类目导航、属性导航,以及一些提示信息。下拉提示,可以告诉卖家,用户经常会如何输入关键词,以及经常搜索的关键词是什么。下拉提示还会显示有多少个商品,表明这个关键词下的竞争有多激烈。相关搜索是算法根据用户行为推荐出来的相关词,帮助用户细化其搜索需求,这两个功能的提示信息,都可以作为卖家在设置标题的参考。

类目导航和属性导航,用户点击率非常高,对于有些关键词,系统还会直达到某个类目。以前很多人问我为什么搜索某个词默认找不到他的商品了,后来发现类目放错了。也有卖家跟我讲:这个宝贝类目就应该是A,淘宝的类目自己没有A只有B。我给的建议是:把相关分类的建议在淘宝论坛中做反馈,同时看看类似商品其他卖家怎么放的,如果他们放错了,你也跟着错一下好了,至少暂时能解决问题。

商家若希望类目属性导航不影响自己的流量,则需要对类目和属性认真填写,包括品牌、型号、款式、尺码、颜色„„有时候卖家朋友问我到底应该怎么设置属性和类目,我不好回答,很多行业很专业,我肯定没有商家清楚。但还是那个简单的办法,卖家可以参考其他商家如何设置。有些热门品牌没有在导航中得到展现,暂时的解决办法也是需要在帮派中给类目运营小二提,让类目小二先确认是正确品牌,搜索会通过算法识别来决定哪些品牌会被展现。以后争取都靠系统算法识别出来。

对于筛选功能,商家可以参考的会更多。有价格柱状图,可以看出用户经常选的价格区间,对卖家的商品定价有帮助;旺旺在线、正品保障、7天无理由退换货、折扣促销等,都是用户点击特别多的筛选项,所以想办法让你的商品出现在这些筛选后的结果中;“所在地”用户也很关注,目前会参考邮费模版中的地区,看看地区设置是否正确;还有不同类目下,会有不同的筛选方式,例如女装、母婴等。原则是,不要让自己的商品漏掉了应该有的属性,导致让用户看不见。

另外,搜索会经常推出一些新的搜索功能,对商家也很有帮助。例如:2012年底推的爱旺达功能,用户可以搜索详情页的功能,知识导购的功能。还有店铺搜索的一些列功能。及时了解这些新功能,订阅或者查看搜索的新信息。之后会有专门的介绍哪里能获取搜索的新信息。

物理中的数学知识全搜索(上) 篇3

一、集合知识在高中物理中的主要应用

1 力的范围

例1 把一个120 N 的力分解为两个分力,下列分解可能的是()

A 50 N 60 N

B 70 N 60 N 

C 70 N 120 N

D 130 N 120 N 

解析 力的合成是分解的逆运算,把两个分力合成,然后看这个被分解的力是否属于这个全闭区间,如果属于就是正确选项,否则就是错误的,据此可知 BCD 正确.

点评 合力的范围蕴涵着简单的集合思想.

2 影的形成

影是光的直线传播最好的表现.当光源不再是点光源,而是线光源或者是面光源的时候,就会在光阑后面形成不同的影区,影子的交集就是本影,本影的补集就是半影,据此人们发明了无影灯,在手术室有着重要的应用,所谓无影灯就是消除了本影的面光源.日食和月食中的全食和偏食也是集合思想的体现.

二、一次函数知识在高中物理中的主要应用

1 路端电压与干路电流的关系

路端电压与干路电流的关系是U=ε-Ir,路端电压与干路电流是一次函数关系,直线的斜率等于电源的内阻r= tan θ,如图1所示.

2 光电子的最大初动能

光电子的最大初动能的表达式是12mv2 m =hν-W,对于一种确定的金属,它的溢出功W是一个定值,光电子的最大初动能12mv2 m 与入射光的频率是一次函数关系,无论如何,直线的斜率总是普朗克常量h= tan θ.如图2所示.

三、抛物线知识在高中物理中的主要应用

1 st图像

匀变速直线运动的位移公式是s=v0t+12at2,物体的位移与时间是一元二次函数关系,图像是过原点的抛物线,如图3所示.

2 平抛运动的轨迹方程

平抛运动的曲线是抛物线,其轨迹方程是抛物线形式:y=g2v20x2.这是水平位移x=v0t和竖直位移y=12gt2相互联立,消去中间参数时间t后得到的.如图4所示.

例2 排球场总长18 m ,网高2 m ,运动员在3 m 线正上空击球(方向垂直于底线),如图5所示.假设球做平抛运动,问在什么高度处击球,无论速度为多大,球总要出界或触网?解析 我们知道除时间以外,其他量均与初速度有关,那么符合题意的只有一种可能,就是对方底线和球网上边缘在同一条抛物线上.

根据轨迹方程y=g2v20x2,得h-2h=32122,解得h=213 m .

在这个高度,速度大一点必然出界,小一点必然触网.

点评

轨迹方程是一个鲜为人所注意却很实用的结论.

四、数列知识在高中物理中的主要应用

1 等差数列

(1) 匀变速直线运动,在连续相等的时间(t)内的位移构成等差数列,即:

sⅡ-sⅠ=sⅢ-sⅡ=…=at2,公差就是at2.

(2) 匀变速直线运动的速度构成等差数列,中点时刻的速度是始末速度的等差中项vt2=v0+vt2.这就是平均速度也等于速度平均的道理.

例3 在测定小车做匀加速直线运动的实验中,选出了如图6所示的一条纸带,图中标出了5个计数点,量得s1=30 mm ,s4=48 mm ,试求:

(1) 小车的加速度.

(2) 计数点0与1之间的平均速度.

(3) 计数点0处的瞬时速度.

(4) 计数点1处的瞬时速度.

解析 (1) 根据数列的通项公式,得s4=s1+(4-1)at2,则小车的加速度a=0.6 m/s 2.

(2) 由于t=0.1 s ,根据平均速度的定义,v1=s1t=0.3 m/s .

(3) 由于v1=vt2,再根据速度公式vt2=v0+a×t2,得v0=0.27 m/s .

(4) vt2是v0和v1的等差中项,即vt2=v0+v12,则v1=0.33 m/s .

点评 认清匀变速直线运动的数学规律,就能驾轻就熟,顺利地解决问题.

2 等比数列

原子核的衰变,就是一个典型的等比数列,它的公比是12,根据数列的通项公式可得半衰期公式m余=m原12tτ,其中m余就是质量为m原的原子核经历时间t以后衰变(半衰期为τ)所剩下的质量.

例4 一小瓶含有某种放射性同位素的溶液,它每分钟衰变6000次,将它注射到一个病人的血液中,经过15 h ,从病人身上取出10 cm 3的血样,测得每分钟衰变2次.已知这种同位素半衰期为5 h .试根据上述数据,计算人体血液的总体积.

解析 设放射性同位素原有质量为m0,15 h 后剩余质量为m,人体血液的总体积为V cm 3,由每分钟衰变次数与其质量成正比可得mm0=0.2V6000.再由半衰期公式得m=m012tτ,其中tτ=155=3,联立以上几式可解得V=3750 cm 3.

点评

这是一个放射性同位素在医学方面的应用,是一个典型的 STS 问题.

五、不等式知识在高中物理中的主要应用

1 平方平均数不小于算术平均数

令位移中点的速度为vs2,两次使用一个有用的推论,v2s2-v20=2as,v2t-v2s2=2as,两式相等得,vs2=v20+v2t2.不难发现位移中点处的速度是初速度和末速度的平方平均数.并且根据平方平均数不小于算术平均数的不等式关系,可以进一步知道做匀变速直线运动的物体,不论是匀加速直线运动,还是匀减速直线运动,总有位移中点处的速度大于中点时刻的速度:v20+v2t2≥v0+vt2=vt2.

2 放缩法的应用

所谓放缩法就是把原来的数值有目的地进行放大或者缩小,它是一种很常用的数学方法,具体地说,就是恰当地使用不等式从而解决问题的方法.

例5 将一个质量为m的物体放在粗糙桌面上,现给物体施加一个水平恒力F,此时物体的加速度为a,如果将力增大到2F,则物体加速度为()

A a

B 2a

C 大于2a

D 小于2a

解析 设物体所受滑动摩擦力为f,根据牛顿第二定律,F-f=ma,2F-f=ma ′ ,再把第二式用放缩法缩小,2F-f>2F-2f=2ma,所以a ′ >2a.

点评 学习物理就要实事求是,而不能主观臆断.

3 算术平均数不小于几何平均数

这个不等式是a+b2≥ab,当且仅当a=b时取等号.换句话说,“和”一定,“积”有最大值;“积”一定,“和”有最小值.

例6 如图7所示,电路的最大电阻是多少?

解析 电阻R0被滑片分作两部分,设下半部分阻值为Rx,则该电路的等效电阻为RAB=Rx×[R+(R0-Rx)]Rx+[R+(R0-Rx)]=Rx×[R+(R0-Rx)]R+R0,分子上的“和”是一个定值R+R0,那么其“积”必有最大值.

当Rx=R+(R0-Rx),即Rx=R+R02时,R(AB) max =R+R022R+R0=R+R04.

点评 本题得到的是一个很重要的结论,即在“串并”式电路中,当两并联支路的电阻相等时,总电阻最大,最大阻值等于R+R04.

知识搜索引擎 篇4

1 研究方法及数据来源

信息可视化技术(Information Visualization)是科学计量学的一个新兴领域,科学知识图谱[2,3](Scientific knowledge mapping,简称知识图谱)是信息可视化技术的一个分支,该技术在信息技术的推动下,综合应用了数学、图形学、信息可视化技术、计算机科学等学科的理论和方法。2004年,美国德雷克塞大学信息技术学院陈超美教授(Chaomei Chen)基于引文分析理论,应用Java语言开发了CiteSpace信息可视化软件,成为近几年来在美国信息分析中最有特色和影响力的可视化信息软件。本文利用CitespaceⅡ软件通过合理设置引用(citation)、共被引(co-citation)及共被引系数(co-citation coefficient)的阈值,绘制出较直观的、容易理解的搜索引擎研究领域的知识图谱。

本文的数据来源是美国科学信息研究所(ISI)网络数据库Web of Science 的科技信息检索工具《科学引文索引》(SCI-Expanded),通过主题词“search engine”共检索到2,387篇有关搜索引擎的文献,其时间区间为1999—2010年,每条记录内容包含作者、机构、摘要、关键词、年份、期(卷)及参考文献等。下面从搜索引擎领域的文献着手,通过信息可视化技术,考察近十几年来搜索引擎领域的主要研究内容和发展趋势。

2 分析与结果

2.1 国际搜索引擎领域的学术研究概况

首先统计了1999~2010年搜索引擎领域2387篇文献的历年发文数。国际上有关搜索引擎的论文逐年增长,1999年共发表103篇SCI论文,2009年为303篇,增长近3倍。表明该领域的研究正在不断加强,有望发展为国际上学术研究的热点。

2.2 搜索引擎研究热点国家(地区)

从事搜索引擎研究的作者分别来自四大洲的62个国家或地区,通过对研究国家的统计,可以反映不同国家在该领域研究的状况。各大洲作者的被引频次依次为美洲984、欧洲543、亚洲396、大洋洲100,统计数据表明各地区研究的不平衡。搜索引擎研究的热点国家主要位于北美、西欧和东亚三个当前世界经济发展繁荣的地区。在所有作者中,来自美国的作者被引频次最高,达到866次,占总数的36.28%,充分显示出美国在搜索引擎研究领域的核心地位,其他依次是英国、中国、德国、日本、加拿大等。图1显示了他们彼此之间的关系。表1列出了该研究领域各国(地区)所处的位次。

2.3 搜索引擎最具影响力的作者

一篇论文被引次数的多寡,是该篇论文在学术界产生的影响和占有之地位的客观测度[4]。据统计被引两次以上的作者共有6543位,前五位作者为搜索引擎研究领域最具影响力的权威专家(见表2)。英国科学家塞沃尔(THELWALL,M)是被引频度(30)最高的专家,中心度为0.1,中心度表示合作者的多少,合作者越多,中心度越高,他从情报学的视角系统阐述了链接分析的理论、方法与应用。该方法应用广泛,主要体现在网络信息检索、网络计量学、数据挖掘、Web结构建模等方面。链接分析算法已经显现出了巨大的商业价值,是谷歌的核心算法之一。斯平克博士(SPINK,A)是匹兹堡大学信息科学领域的教授,她着重于理论与应用研究,模拟人类信息行为、网络研究以及互动认知信息检索等方面的研究。詹森(JANSEN,BJ)是宾夕法尼亚大学教授,《搜索引擎研究与框架》是其代表作。朱迪特巴尔伊兰教授的研究领域是信息计量和信息检索,其代表作有“Search Engine Results over Time-A Case Study on Search Engine Stability”。侯赛因(OZMUTLU,HC)和赛达(OZMUTLU,S)教授研究用户内容查询,应用遗传算法和Dempster-Shafer理论,成功开发了根据用户设计高效信息检索算法的搜索引擎,代表作有“Using Monte-Carlo simulation for automatic new topic identification of search engine transaction logs”。

2.4搜索引擎研究核心期刊

检索文献的网络分析表明,被引用的相关期刊共1070种,其中被引用不少于2次的有414种。期刊被其他期刊引用越多,说明该期刊的影响力越强,依据被引频次高低和相互联系,绘制出搜索引擎领域的核心期刊知识图谱(见图3),处于核心地位的期刊和其它期刊的联系越多,影响力越大;被引频次越高,名次越靠前。该领域的十大核心期刊可见表3。作为全球最权威的顶级期刊之一,“NATURE”在搜索引擎研究领域被引频次(310)最高、中心度(0.6)最大,是该领域最具影响力的核心期刊;“SCIENCE”、“LECTURE NOTES IN ARTIFICIAL INTELLIGENCE”、“INFORMATION PROCESSING & MANAGEMENT”三种期刊仅次于“NATURE”,影响力处于第二核心等级;“NUCLEIC ACIDS RESEARCH”、“ONLINE INFORMATION REVIEW”“BMC BIOINFORMATICS”、“BIOINFORMATICS”、“JOURNAL OF INFORMATION SCIENCE”、“ACM TRANSACTIONS ON INFORMATION SYSTEMS”6种期刊影响力弱于前四种期刊。

2.5 搜索引擎研究内容

将检索得到的2387条文献数据导入CiteSpace II软件中,网络节点选为参考文献(reference)和主题词,调节相应的阈值。经过CiteSpace II软件的分析和处理,得到了搜索引擎领域研究内容的知识图谱,如图4所示:

从该图谱中可以看到,搜索引擎研究的专题聚集特征较为明显。对2387篇文献涉及的研究内容进行细分:在2387篇论文当中,(1)关于搜索引擎原理的有433篇,搜索引擎的基本原理是搜索引擎技术继续发展的基础,搜索引擎是一种在网络环境进行信息检索的软件,其研究范围不仅涉及到本身的技术组成,还包括所处的网络环境的特点[5],因此,只有深入研究两者的特点及联系,才能提升对搜索引擎深入发展的清晰思路。(2)关于搜索引擎类型与功能的有426篇,元搜索引擎和垂直搜索引擎(专业搜索引擎)是研究的一大热点。传统搜索引擎存在许多无法克服的缺点,如:查询结果无法覆盖全部网络信息、检索结果没有针对性、准确率低、检索结果重复性高等。元搜索引擎没有自己的爬虫程序,它通过检索界面接受用户的查询请求,在检索时调用多个其他独立的搜索引擎,将查询的结果经过去重后以统一的格式集中显示,这种方式增加了检索的范围,检索结果覆盖率显著增加,起到了整合网络资源的功能。垂直搜索引擎专门用来查询某一学科或主题的信息,将网页库中的某类信息进行一次整合,经过去重、分类、索引等技术处理,最终以非结构化的方式和结构化的方式返回给用户。目前研究的热点是结构化信息提取的算法、垂直网络蜘蛛的设计等。(3)关于搜索引擎发展趋势的有252篇,随着人工智能技术的发展,搜索引擎最新的研究逐渐走向智能化、个性化、专题化、集成化。如被定义为基于语义的搜索引擎kngine[6],该系统尝试理解句子含义,但是与人脑的认知技能还有很大差距,这方面的工作有待突破。(4)关于搜索引擎应用的有79篇,搜索引擎在互联网发展的今天越来越显示出来“新门户”的特点。目前,搜索引擎在商业和其它领域的应用已经达到了相当的规模,巨大的商业价值及应用前景不断刺激着搜索引擎向其他领域渗透。如搜索引擎在电子商务中的应用、在图书馆个性化信息服务中的应用、在科技查新中的应用、在教学中的应用等等。搜索引擎以其独有的优点,如搜索速度快,范围广,时效性强等,在不同领域中扮演了越来越重要的角色。(5)有关搜索引擎的算法有49篇,其中所论及的网页索引、分类、排序、去重等算法都是提高搜索引擎质量的重要技术。网页索引技术一般采用倒排索引,Glimpse[7]认为倒排索引技术在大型文本数据库中进行快速查找有很好的综合性能。目前该技术分三种类型:即完全倒排索引、倒排文件索引和块地址索引,设计高性能的网页索引算法是当前的研究热点之一;由于网页正文的游离性和网页结构的复杂性,所以网页分类非常复杂,Furnkranz、Slattery、Joachim等人提出的分类算法从不同角度提高分类性能,但也存在明显缺陷;Page和Sergey Brin提出的PageRank算法[8]是经典的网页排序算法,目前在该领域的研究多集中于对算法的改进,还没有形成重大理念突破;为提高搜索引擎的检索效率,减轻用户负担,识别和消除返回结果中存在大量重复网页是一个有效途径,目前该领域主要的算法有Charikar的Simhash算法、Broder等的Shingle算法和I-Match算法等。(6)关于搜索引擎评价的有35篇。全面、客观、公正地评价搜索引擎系统,不仅为用户选择搜索引擎提供科学依据,而且可以促进搜索引擎技术的提高,Angel L提出了8条标准[9];H.Vernon Leighton和J.deep Srivastava将查准率和查全率引入搜索引擎评价标准[10];Bell提出了以用户为中心的评价标准[11]等等,基于评价标准建立在不同的指导原则上,因此至今还没有形成一个客观、统一的评价标准。笔者认为,统一的评价标准的确立有助于该领域健康快速的发展。其他研究内容还涉及:搜索引擎的知识产权问题、检索结果的组织技术、检索界面设计等等。从论文研究内容的分布看,综合性研究论文的数量远远超过专门领域的研究论文数,说明搜索引擎的研究还有待进一步向深层次发展。

2.6 研究搜索引擎的学科

搜索引擎是一种对互联网上的信息资源进行搜集、整理、标引、存储,然后供用户查询的系统,所以具有综合性和挑战性[12]。检索到的文献分别从不同的角度对搜索引擎进行了研究(如图4)。目前,主要从事搜索引擎研究的学科是计算机科学(Computer Science),如图5,该领域发表的文章有609篇,占全部文献的1/4,充分反映了该学科研究搜索引擎的学科优势;其次是信息科学和图书馆学(Information science and library science),发表文章399篇,占16.7%,该领域从信息本身的特点以及文献之间的关系来研究搜索引擎,具有得天独厚的优势,当前,搜索引擎中许多算法思想来自于信息科学和图书馆学,例如:pagerank算法、超链分析等;第三大领域是人工智能(Artificial Intelligence),发表文章有277篇,占12.6%,是当代搜索引擎研究的焦点领域,通过数据挖掘,将隐性知识转化为显性知识,致力于开发智能搜索引擎和个性化搜索引擎;其他学科有:电子学、生物化学、分子生物学等等。可见,搜索引擎研究不仅与计算机科学有关,还涉及信息科学与图书馆学、电子工程学以及分子生物科学等学科。其研究成果同样可应用于各领域。总之,搜索引擎研究是计算机科学与其他学科相互交叉、渗透和融合的综合性学科。

3 研究结论与展望

3.1 结论

综上所述,以搜索引擎领域的2387篇SCI论文为研究对象,第一,考察了研究该领域的热点国家,从以上分析可以看出美国在论文数量和影响力上,都有无可争议的巨大优势;中国在论文总量上位居第三,但总体质量(被引次数)上略为落后,国际交流上略为逊色,总体来说,美国和西欧在该领域的贡献较大,在各个方面都领先于其他国家和地区。第二,考察了刊载这些论文的学术期刊和研究搜索引擎的学科分布,表明该领域是计算机科学与信息科学、图书馆学、电子工程学等学科相互交叉、相互渗透和相互融合的综合学科,但搜索引擎研究的主体领域属于计算机科学。刊载该领域文献的期刊共有1070种,其中被引用不少于2次的有414种。第三,运用动态网络分析CiteSpace软件对搜索引擎研究状况、研究群体进行了可视化分析,总的来看,美国的高校研究者重视和IT行业的合作,将理论研究产业化,实践又反过来推动理论的创新。

3.2 展望

第一,智能搜索引擎的开发。用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看查询结果是否和自己的需求相吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。怎样使搜索引擎更加简约地查询到用户需求的信息,是今后智能搜索引擎研究开发的方向。第二,加强和多学科合作研究。搜索引擎是一个综合性的研究课题,只有和各学科合作取长补短,才能使该学科迅速发展。第三,重视交叉语言检索的研究和开发。交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。

知识搜索引擎 篇5

随着互联网网站页面的激增和用户队伍的不断壮大, 搜索引擎越来越成为人们上网浏览时的重要工具, 用以在浩瀚的网站页面的海洋中迅速地找到自己所需的信息。从用户的角度来看, 当前的搜索引擎主要存在信息检索质量不高、检索方式单一、个性化服务问题、搜索引擎对信息的标引深度不够、信息收集与检索的分离等几个方面的不足。

2 智能搜索引擎功能特点

智能搜索引擎的人机接口和网络蜘蛛高度智能化, 可跨平台工作、处理多种混合文档、支持多种语言搜索, 并能根据用户的兴趣、爱好、特性、定题需求, 不断实时推荐、推送相关的信息、知识, 定制个性化页面等, 表现出较大的智能性、主动性、交互性、人性化特征。使其用户范围从具有良好信息检索素质的专业人士, 扩展为无任何检索技能背景的普通用户。

2.1 智能型的自然语言技术

智能型的自然语言技术包括"自然语言搜索"和"动态关联词、联想词提示"技术。内建完整的"布尔逻辑运算组合"的搜索条件和"邻近搜索"功能, 配合"智能型快速响应模式", 有效提高搜索速度和精确度。用户可灵活选择欲搜索的数据库, 配合"中文同音"、"中英文近似概念"、简繁转换"、通配字符搜索"、词组搜索"和"多字段平行检索"等多项智能搜索功能, 从而更加高效、便捷获取有用信息。

2.2 灵活的检索机制

提供多重模板设计功能, 可按照用户自身需求轻松修改搜索结果的显示画面;并可依据不同的搜索方式, 套用可获得不同的搜索结果的模板文件。提供"机动权值排序机制"、"阶层式分类目录"、"动态关联词、联想词提示"等功能, 向用户提供更友好的搜索界面, 增加搜索结果的适用性。

2.3 强大的索引功能

采用"多线式资料获取机制"、"平行索引模式"、"动态文件分析技术"及"实时差异式索引更新技术"等多种功能, 有效提高文件与数据库的索引速度, 大幅降低索引等候时间和更新周期。提供"多重索引数据库"架构及"群组式分类目录"功能, 缩短资料索引时间, 灵活整合文档资料。

3 知识库系统的原理

3.1 知识的定义

知识是人类对客观世界的认识, 通常知识是先由底层数据经过分类、归纳、综合等处理过程而得到的上层信息, 这种信息再经过解释、比较、推理得到我们所获取的知识, 这种过程主要是在语义的层面来进行的。

3.2 知识的类型:过程型知识、描述型知识和元知识。

3.3 知识的表示

知识表示是指知识在计算机内部的存储和组织, 是数据结构和解释过程的结合。数据结构用于知识的形式化描述, 而解释过程则用来说明知识的现实含义。知识的表示方法主要有一阶谓词逻辑表示法、产生式表示法、语义网络表示法和面向对象的知识表示方法等。

3.3.1 一阶谓词逻辑表示法

谓词的一般形式为P (x1, x2, …, xn) , 其中, P是谓词;x1, x2, …, xn是个体 (常量、变元或函数) 。谓词逻辑适用于表示事物的状态、属性、概念等事实性的知识, 也可以用来表示事物间确定的因果关系, 即规则。例如:"书在课桌上"可以描述成:ON (book, desk) 。谓词逻辑是一种形式语言, 是目前能够表达人类思维活动的一种最精确的语言, 它与人类的自然语言比较接近, 因此一阶谓词逻辑表示方法是最早使用的一种知识表示方法。它具有简单、自然、精确、灵活、容易实现等优点。

3.3.2 产生式表示法

产生式表示法又称为产生式规则表示法它是依据人类大脑记忆模式中各种知识之间的大量存在的因果关系, 以"IF-THEN"的形式, 即产生式规则表示出来的。它的基本结构包括前提和结论两部分:前提 (IF部分) 描述状态, 结论 (THEN部分) 描述在状态存在的条件下所做的某些动作:

前提状态→结论动作或IF状态THEN动作

整个产生式的含义是:如果前提被满足, 则可推出结论或执行所规定的操作。产生式表示法具有自然性好, 便于推理的优点, 且有利于对知识的增加、删除和修改。另外, 产生式表示法既可以表示确定性知识, 又可以表示不确定性知识;既有利于表示启发式知识, 又可方便地表示过程性知识;既可表示领域知识, 又可表示元知识。但是产生式表示法不能表达具有结构性的知识, 工作效率不高;而且在求解复杂问题时容易引起组合爆炸。

3.3.3 语义网络表示法

语义网络是一种通过概念及其语义关系来表示知识的一种网络图。一个语义网络就是一个带有标志的有向图。其中, 有向图的节点表示各种事物、概念、动作、状态、属性等;有向弧表示它所连接的节点间的某种语义联系, 每个节点可以包含若干个属性。语义网络表示法具有灵活、自然、易于实现、善于表示结构性知识等优点。语义网络表示法的局限性主要表现在它对知识表示的非严格性, 这使得有可能存在二义性, 而且存在知识处理的复杂性。

3.3.4 面向对象的知识表示方法

按照面向对象方法学的观点, 一个对象的形式可定义为四元组〈对象〉::= (ID, DS, MS, MI) 。其中ID代表对象标志符, DS代表数据结构, MS代表方法集合, MI代表消息接口。这种方法可以将知识抽象为对象的内部状态和静态特征属性进行封装和隐藏, 而知识的处理方法表示为对内部状态和特征属性的操作, 并由消息接口与外界发生联系。

3.4 知识库

知识库是关于某一领域的陈述性知识、过程性知识和策略性知识的集合。知识库中不但包含了大量的简单事实, 还包含了规则、过程型知识和策略性知识。从存储知识的角度来看, 以描述型方法来存储和管理知识的机构叫做知识库。从使用知识的角度来看, 知识库是由知识和知识处理机构组成。

3.5 知识库系统

3.5.1 知识库系统的体系结构

知识库系统包括知识的获得、利用和管理三个方面。知识库、推理机及存贮器是知识库系统的三个组成要素。知识库系统的核心组成部分是知识库和推理机构。

3.5.2 推理机构

利用知识, 解释输入的数据或事实, 推导出用户所需的结论;并根据要求, 说明得出结论的依据, 用于进行这种推理控制的模块称为推理机构。推理机构应具备以下四个功能:

(1) 知识库中新知识的获取功能。

(2) 推理机构与知识库相互独立功能。

(3) 知识库中信息交换及知识扩充功能。

(4) 知识库与待解决问题之间的协调功能。

4 基于知识库系统的智能搜索引擎

目前的搜索引擎具有关键词检索和目录查询的缺点, 为了克服这些缺点, 应该采用自然语言理解技术来进行自然语言智能答询。这样就可以将信息检索从目前基于关键词的层面提高到基于知识 (或概念) 的层面, 对知识有一定的理解与处理能力, 可以实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。下面就是当前智能搜索引擎基于知识库系统所采用的一些自然语言理解技术。

4.1 智能分词技术

关键词查询的前提是将查询条件分解成若干关键词。对英文而言, 一个单词就是一个词, 但中文词之间的关系却复杂得多, 主要问题是中文词与词之间没有界定符, 需要人为切分, 但人为的切分有很大的灵活性和操作性, 往往容易产生词义失真。

4.2 同义词处理

汉语词语之间复杂性的另一个方面是同义词的问题, 同一个词组往往有许多不同的意思, 处理同义词的一种方法是在语义知识库中人工构造同义词表, 对专用领域的搜索引擎, 这种方法是非常有效的。

4.3 短语识别技术

用短语描述查询请求的情况很常见, 但是因为汉语词组的复杂性, 所以在中文搜索引擎中, 我们不能象英文词组一样简单的将中文短语分离成词组。

4.4 智能搜索代理技术

以提供主动服务为主的智能搜索代理技术, 能够将信息主动推送到用户面前, 免去了用户被动搜索的困扰。搜索的是活动窗口而不是某一个关键词的主导概念, 增强了相关性提供的链接除网络信息外, 还包括客户端的本地内容、相关社区中的同类用户及相关内容的百科全书、参考资料等。

结束语

智能化搜索引擎能够实现信息服务的人性化、高效化, 为用户检索互联网信息提供了极大的便利。在应用需求和相关科学技术的推动下, 智能搜索引擎技术正逐步发展起来, 它将会越来越好地为人们的生活服务

参考文献

[1]殷雪松, 徐斌.WWW网络搜索引擎介绍.大学图书馆学报, 1998.

[2]吴丹.搜索引擎的智能化研究[J].情报理论与实践, 2002.

[3]李研, 陈新中.基于web挖掘的智能门户搜索引擎的研究[J].计算机工程与应用, 2002.

[4]张兴华.智能搜索引擎的机理, 实现技术及发展趋势[J].现代情报, 2003.

知识搜索引擎 篇6

互联网从产生、技术积累到飞速发展的近十年里,给现代社会的科研、教育、工业、经济、生活等方方面面带来了无法估量的影响。随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越成为人们上网浏览时的重要工具,用以在浩瀚的网站页面的海洋中迅速地找到自己所需的信息。从用户的角度来看,当前的搜索引擎主要存在信息检索质量不高、检索方式单一、个性化服务问题、搜索引擎对信息的标引深度不够、信息收集与检索的分离等几个方面的不足。

2 智能搜索引擎功能特点

智能搜索引擎的人机接口和网络蜘蛛高度智能化,可跨平台工作、处理多种混合文档、支持多种语言搜索,并能根据用户的兴趣、爱好、特性、定题需求,不断实时推荐、推送相关的信息、知识,定制个性化页面等,表现出较大的智能性、主动性、交互性、人性化特征。使其用户范围从具有良好信息检索素质的专业人士,扩展为无任何检索技能背景的普通用户。

2.1 智能型的自然语言技术

智能型的自然语言技术包括“自然语言搜索”和“动态关联词、联想词提示”技术。内建完整的“布尔逻辑运算组合”的搜索条件和“邻近搜索”功能,配合“智能型快速响应模式”,有效提高搜索速度和精确度。用户可灵活选择欲搜索的数据库,配合“中文同音”、“中英文近似概念”、简繁转换”、通配字符搜索”、词组搜索”和“多字段平行检索”等多项智能搜索功能,从而更加高效、便捷获取有用信息。

2.2 灵活的检索机制

提供多重模板设计功能,可按照用户自身需求轻松修改搜索结果的显示画面;并可依据不同的搜索方式,套用可获得不同的搜索结果的模板文件。提供“机动权值排序机制”、“阶层式分类目录”、“动态关联词、联想词提示”等功能,向用户提供更友好的搜索界面,增加搜索结果的适用性。

2.3 强大的索引功能

采用“多线式资料获取机制”、“平行索引模式”、“动态文件分析技术”及“实时差异式索引更新技术”等多种功能,有效提高文件与数据库的索引速度,大幅降低索引等候时间和更新周期。提供“多重索引数据库”架构及“群组式分类目录”功能,缩短资料索引时间,灵活整合文档资料。

3 知识库系统的原理

3.1 知识的定义

知识是人类对客观世界的认识,通常知识是先由底层数据经过分类、归纳、综合等处理过程而得到的上层信息,这种信息再经过解释、比较、推理得到我们所获取的知识,这种过程主要是在语义的层面来进行的。

3.2 知识的类型

3.2.1 过程型知识

传统的数据处理中程序就代表着系统解决问题所需要使用的知识。这种知识的表示类型称为过程型知识。过程型知识针对特定的问题,根据具体的处理步骤用一系列过程来表达,所以执行效率非常高,但它也存在以下三个缺点:(1)不易表示大量知识,而且知识难于理解和修改。(2)只适合表达那些完全正确的知识,稍有含糊的知识就难于用程序表达。(3)只适合于处理完整、准确的数据。综上所述,过程性知识表示对需要解决的问题要求比较苛刻,因而大大地降低了它的适用性。

3.2.2 描述型知识

描述型知识是用描述的方式来表示的知识。描述型知识把用于解决问题的知识与程序编制方面的知识有效的分开,具有知识表示清晰明确、易于理解、可读性好等诸多优点,同时知识之间联系简单,增加了知识的模块性,大大地降低了修改和扩充知识的难度。但描述型知识表示在解决问题时需要重复查找适用的知识,导致知识量越多则处理效率就越低。描述型知识表示在知识的可维护性、独立性,以及知识库的通用性和适应性等方面都很有优势。

3.2.3 元知识

元知识是关于知识的知识。元知识可分为以下三类。第一类是有关怎样组织、管理知识的元知识。第二类是有关利用知识求解问题方向的元知识。第三类是有关从知识源中获取知识的知识。

3.3 知识的表示

知识表示是指知识在计算机内部的存储和组织,是数据结构和解释过程的结合。数据结构用于知识的形式化描述,而解释过程则用来说明知识的现实含义。知识的表示方法主要有一阶谓词逻辑表示法、产生式表示法、语义网络表示法和面向对象的知识表示方法等。

3.3.1 一阶谓词逻辑表示法

谓词的一般形式为P(x1,x2,…,xn),其中,P是谓词;x1,x2,…,xn是个体(常量、变元或函数)。谓词逻辑适用于表示事物的状态、属性、概念等事实性的知识,也可以用来表示事物间确定的因果关系,即规则。例如:“书在课桌上”可以描述成:ON(book,desk)。谓词逻辑是一种形式语言,是目前能够表达人类思维活动的一种最精确的语言,它与人类的自然语言比较接近,因此一阶谓词逻辑表示方法是最早使用的一种知识表示方法。它具有简单、自然、精确、灵活、容易实现等优点。但它也存在着以下四个缺点:(1)难于表示过程和启发式知识;(2)知识库难于管理;(3)由于是弱证明过程,当事实的数目增大时,在证明过程中可能产生组合爆炸;(4)表示的内容与推理过程分离,推理按形式逻辑进行,工作效率比较低。

3.3.2 产生式表示法

产生式表示法又称为产生式规则表示法它是依据人类大脑记忆模式中各种知识之间的大量存在的因果关系,以“IF-THEN”的形式,即产生式规则表示出来的。它的基本结构包括前提和结论两部分:前提(IF部分)描述状态,结论(THEN部分)描述在状态存在的条件下所做的某些动作:

前提状态→结论动作或IF状态THEN动作

整个产生式的含义是:如果前提被满足,则可推出结论或执行所规定的操作。例如:IF(动物为胎生&哺乳喂养)THEN(该动物为哺乳动物)。产生式表示法具有自然性好,便于推理的优点,且有利于对知识的增加、删除和修改。另外,产生式表示法既可以表示确定性知识,又可以表示不确定性知识;既有利于表示启发式知识,又可方便地表示过程性知识;既可表示领域知识,又可表示元知识。但是产生式表示法不能表达具有结构性的知识,工作效率不高;而且在求解复杂问题时容易引起组合爆炸。

3.3.3 语义网络表示法

语义网络是一种通过概念及其语义关系来表示知识的一种网络图。一个语义网络就是一个带有标志的有向图。其中,有向图的节点表示各种事物、概念、动作、状态、属性等;有向弧表示它所连接的节点间的某种语义联系,每个节点可以包含若干个属性。一个最简单的语义网络形式是一个形如(节点1,弧,节点2)的三元组。图1即是它的一个有向图表示,通常称为一个基本网元。例如:青花瓷与瓷的语义网络表示如图2所示。

语义网络表示法具有灵活、自然、易于实现、善于表示结构性知识等优点。语义网络表示法的局限性主要表现在它对知识表示的非严格性,这使得有可能存在二义性,而且存在知识处理的复杂性。

3.3.4 面向对象的知识表示方法

按照面向对象方法学的观点,一个对象的形式可定义为四元组〈对象〉::=(ID,DS,MS,MI)。其中ID代表对象标志符,DS代表数据结构,MS代表方法集合,MI代表消息接口。这种方法可以将知识抽象为对象的内部状态和静态特征属性进行封装和隐藏,而知识的处理方法表示为对内部状态和特征属性的操作,并由消息接口与外界发生联系。它既可以实现灵活的推理机制,又使知识的修改操作局限在对象的内部,容易实现知识库的一致性和完备性。近年来随着面向对象技术的深入发展,面向对象的知识表示方法逐渐广泛应用于专家系统中。

3.4 知识库

知识库是关于某一领域的陈述性知识、过程性知识和策略性知识的集合。知识库中不但包含了大量的简单事实,还包含了规则、过程型知识和策略性知识。从存储知识的角度来看,以描述型方法来存储和管理知识的机构叫做知识库。从使用知识的角度来看,知识库是由知识和知识处理机构组成。

3.5 知识库系统

3.5.1 知识库系统的体系结构

知识库系统包括知识的获得、利用和管理三个方面,。知识库、推理机及存贮器是知识库系统的三个组成要素。知识库系统的核心组成部分是知识库和推理机构。

知识库系统的体系结构如图3所示。

3.5.2 推理机构

利用知识,解释输入的数据或事实,推导出用户所需的结论;并根据要求,说明得出结论的依据,用于进行这种推理控制的模块称为推理机构。推理过程如图4所示。

推理机构应具备以下四个功能:

1)知识库中新知识的获取功能。

2)推理机构与知识库相互独立功能。

3)知识库中信息交换及知识扩充功能。

4)知识库与待解决问题之间的协调功能。

4 基于知识库系统的智能搜索引擎

目前的搜索引擎具有关键词检索和目录查询的缺点,为了克服这些缺点,应该采用自然语言理解技术来进行自然语言智能答询。这样就可以将信息检索从目前基于关键词的层面提高到基于知识(或概念)的层面,对知识有一定的理解与处理能力,可以实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。下面就是当前智能搜索引擎基于知识库系统所采用的一些自然语言理解技术。

4.1 智能分词技术

关键词查询的前提是将查询条件分解成若干关键词。对英文而言,一个单词就是一个词,但中文词之间的关系却复杂得多,主要问题是中文词与词之间没有界定符,需要人为切分,但人为的切分有很大的灵活性和操作性,往往容易产生词义失真。除此之外,汉语中存在大量的歧义现象,对几个字分词可能有好多种不同的结果,而且,简单的分词往往会完全曲解甚至误解用户查询的真正意图,造成误检和漏检。因此,可以利用语义知识库进行总结,获得每个词出现的概率以及词与词之间的关联信息,就可能有效地排除各种歧义,大幅度提高分词的准确性,从而准确地表述查询请求和文档信息。

4.2 同义词处理

汉语词语之间复杂性的另一个方面是同义词的问题,同一个词组往往有许多不同的意思,处理同义词的一种方法是在语义知识库中人工构造同义词表,对专用领域的搜索引擎,这种方法是非常有效的。另外一种方法是从语义知识库中自动取得同义词关系,给出一个查询的关键词,搜索引擎能主动“联想”到与其同义或意思相近的词。

4.3 短语识别技术

用短语描述查询请求的情况很常见,但是因为汉语词组的复杂性,所以在中文搜索引擎中,我们不能象英文词组一样简单的将中文短语分离成词组。譬如查询条件“新乡的大学”,“新乡”和“大学”存在一定的关系,但如果不将“新乡”和“大学”联合起来作为一个短语查询,那么除了选出关于“新乡的大学”的文档之外,还将查出有关“新乡”和“大学”的冗余文档。因此,短语识别是智能化搜索引擎亟待的一个重要问题。

4.4 智能搜索代理技术

以提供主动服务为主的智能搜索代理技术,能够将信息主动推送到用户面前,免去了用户被动搜索的困扰。搜索的是活动窗口而不是某一个关键词的主导概念,增强了相关性提供的链接除网络信息外,还包括客户端的本地内容、相关社区中的同类用户及相关内容的百科全书、参考资料等。

5 结束语

智能化搜索引擎能够实现信息服务的人性化、高效化,为用户检索互联网信息提供了极大的便利。在应用需求和相关科学技术的推动下,智能搜索引擎技术正逐步发展起来,它将会越来越好地为人们的生活服务。

摘要:该文对智能搜索引擎进行了分析及综合评价。在此基础上,着重讨论了知识库系统以及它在智能搜索引擎中的应用。

关键词:智能搜索引擎,知识库系统

参考文献

[1]殷雪松,徐斌.WWW网络搜索引擎介绍[J].大学图书馆学报,1998,16(4):254-255.

[2]吴丹.搜索引擎的智能化研究[J].情报理论与实践,2002(4):293-295.

[3]李研,陈新中.基于web挖掘的智能门户搜索引擎的研究[J].计算机工程与应用,2002(4):132-133.

[4]张兴华.智能搜索引擎的机理,实现技术及发展趋势[J].现代情报,2003,23(12):66-68.

[5]沈一栋.知识工程[M].北京:科学出版社,1992.

[6]朱习军.智能决策支持系统的知识库结构及知识表示研究[D].济南:山东科技大学,2000.

[7]黄梯云.智能决策支持系统[M].北京:电子工业出版社,2001.

[8]罗燕琪,陈雷霆.专家系统中知识表示方法研究[J].电子计算机,2001(4):28-31

知识搜索引擎 篇7

关键词:搜索引擎,知识库,智能化

1 目前搜索引擎存在的不足

搜索引擎通常依赖于自动建立的摘要, 该摘要一般取自Web页的主题或前几行内容形成, 不一定能够反映实际情况。根据这种索引数据检索出来的结果将出现偏差, 不能很好地满足用户的检索需求。搜索引擎对要检索的信息仅仅依靠采用机械的词语匹配来实现, 缺乏知识处理能力和理解能力。

1.1 检索方式单一

搜索引擎一般提供分类浏览的查询方式和关键词的全文检索, 不能实现概念检索, 不能从文献的多个方面对检索提问进行限制, 只能就某一关键词或者概念进行笼统的检索。

1.2 个性化服务问题

搜索引擎提供相同的界面和检索策略, 不提供用户的信息定制, 任何人输入相同的查询条件返回的结果必定相同。搜索引擎提供拉PULL服务方式, 即用户输入检索要求, 系统返回大量包含关键词及其相应地址列表的页面, 不能根据用户的一贯兴趣模式和一定的专业领域主动反馈有用的信息, 无法实现推PULL服务方式。

1.3 搜索引擎对信息的标引深度不够

目前, 搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页信息, 与人们对它的预期存在较大的距离, 或者返回过多的无用信息, 或者信息丢失, 特别是对特定的文献数据库的检索显得无能为力。

1.4 信息收集与检索的分离

搜索引擎进行信息的收集和查询是两个分离的过程, 缺少有机的结合。系统无法根据用户的检索要求进一步提供相关信息, 用户不能依据有关提示进行理性的检索, 操作比较机械。

2 智能搜索引擎功能特点

智能搜索引擎的人机接口和网络蜘蛛高度智能化, 可跨平台工作、处理多种混合文档、支持多种语言搜索, 并能根据用户的兴趣、爱好、特性、定题需求, 不断实时推荐、推送相关的信息、知识, 定制个性化页面等, 表现出较大的智能性、主动性、交互性、人性化特征。使其用户范围从具有良好信息检索素质的专业人士, 扩展为无任何检索技能背景的普通用户。

2.1 智能型的自然语言技术

智能型的自然语言技术包括“自然语言搜索”和“动态关联词、联想词提示”技术。内建完整的“布尔逻辑运算组合”的搜索条件和“邻近搜索”功能, 配合“智能型快速响应模式”, 有效提高搜索速度和精确度。用户可灵活选择欲搜索的数据库, 配合“中文同音”、“中英文近似概念”、“简繁转换”、“通配字符搜索”、“词组搜索”和“多字段平行检索”等多项智能搜索功能, 从而更加高效、便捷获取有用信息。

2.2 灵活的检索机制

提供多重模板设计功能, 可按照用户自身需求轻松修改搜索结果的显示画面;并可依据不同的搜索方式, 套用可获得不同的搜索结果的模板文件。提供“机动权值排序机制”、“阶层式分类目录”、“动态关联词、联想词提示”等功能, 向用户提供更友好的搜索界面, 增加搜索结果的适用性。

2.3 广泛的整合支持能力

支持多种文档格式的检索, 如HTML、Text file、Ms Office File、Ms Project File、XML、Adobe Acrobat、DynaDoc等, 可高效搜索各种类型的文档资料。支持Oracle、SQL Server、Informix、Sybase、Access、MySQL等大型关系型数据库, 并提供“多字段平行检索”功能, 可跨资料表、信息字段进行全文检索。

2.4 强大的索引功能

采用“多线式资料获取机制”、“平行索引模式”、“动态文件分析技术”及“实时差异式索引更新技术”等多种功能, 有效提高文件与数据库的索引速度, 大幅降低索引等候时间和更新周期。提供“多重索引数据库”架构及“群组式分类目录”功能, 缩短资料索引时间, 灵活整合文档资料。

3 智能搜索引擎在知识库系统中的应用

3.1 知识库系统

3.1.1 知识库系统的体系结构

知识库系统包括知识的获得、利用和管理3个方面, 知识的获得就是取得新的知识信息并使其体系化, 知识获得也称为机器学习, 知识的利用就是推理。知识库、推理机及存贮器是知识库系统的3个组成要素。其中推理机构能模拟决策者的思维过程, 并根据决策者的需求, 通过提问会话与分析问题, 应用有关规则引导决策者选择合适的模型。知识库系统也是一种软件系统, 与通常的软件一样, 需要像程序设计语言、编辑与编程序等系统开发支援环境, 但知识库系统又与一般的科学计算和事务处理软件不一样, 它是一种智能软件系统, 所以需要人工智能领域所特有的支援环境, 知识表示语言就是这种支援工具之一。知识库系统的核心组成部分是知识库和推理机构。知识库是以一致的形式存储知识的机构, 推理机构则是为了使用知识库内的知识执行推理的控制机构。

3.1.2 推理机构

利用知识, 解释输入的数据或事实, 推导出用户所需的结论;并根据要求, 说明得出结论的依据, 用于进行这种推理控制的模块称为推理机构。推理机构应具备以下4个功能: (1) 知识库中新知识的获取功能; (2) 推理机构与知识库相互独立功能; (3) 知识库中信息交换及知识扩充功能; (4) 知识库与待解决问题之间的协调功能。

3.2 应用

目前Internet上信息具有无组织、异构、分布和动态的特点, 这样就造成了在信息检索中的“信息过载”和“资源迷向”等问题, 为了解决这些问题, 我们就需要具有实现Internet信息个性化主动服务功能的智能搜索引擎。目前的搜索引擎具有关键词检索和目录查询的缺点, 为了克服这些缺点, 应该采用自然语言理解技术来进行自然语言智能答询。这样就可以将信息检索从目前基于关键词的层面提高到基于知识 (或概念) 的层面, 对知识有一定的理解与处理能力, 可以实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。

下面就是当前智能搜索引擎在知识库系统中所采用的一些自然语言理解技术。

3.2.1 智能分词技术

关键词查询的前提是将查询条件分解成若干关键词。对英文而言, 一个单词就是一个词, 但中文词之间的关系却复杂得多, 主要问题是中文词与词之间没有界定符, 需要人为切分, 但人为的切分有很大的灵活性和操作性, 往往容易产生词义失真。除此之外, 汉语中存在大量的歧义现象, 对几个字分词可能有好多种不同的结果, 而且, 简单的分词往往会完全曲解甚至误解用户查询的真正意图, 造成误检和漏检。因此, 可以利用语义知识库进行总结, 获得每个词出现的概率以及词与词之间的关联信息, 就可能有效地排除各种歧义, 大幅度提高分词的准确性, 从而准确地表述查询请求和文档信息。

3.2.2 同义词处理

汉语词语之间复杂性的另一个表现是同义词的问题, 同一个词组往往有许多不同的意思, 处理同义词的一种方法是在语义知识库中人工构造同义词表, 对专用领域的搜索引擎, 这种方法是非常有效的。另外一种方法是从语义知识库中自动取得同义词关系, 给出一个查询的关键词, 搜索引擎能主动“联想”到与其同义或意思相近的词。

3.2.3 短语识别技术

用短语描述查询请求的情况很常见, 但是因为汉语词组的复杂性, 所以在中文搜索引擎中, 我们不能象英文词组一样简单地将中文短语分离成词组。譬如查询条件“新乡的大学”, “新乡”和“大学”存在一定的关系, 但如果不将“新乡”和“大学”联合起来作为一个短语查询, 那么除了选出关于“新乡的大学”的文档之外, 还将查出有关“新乡”和“大学”的冗余文档。因此, 短语识别是智能化搜索引擎亟待解决的一个重要问题。

3.2.4 智能搜索代理技术

以提供主动服务为主的智能搜索代理技术, 能够将信息主动推送到用户面前, 免去了用户被动搜索的困扰。搜索的是活动窗口而不是某一个关键词的主导概念, 增强了相关性。提供的链接除网络信息外, 还包括客户端的本地内容、相关社区中的同类用户及相关内容的百科全书、参考资料等。

4 结束语

任何实际技术总是在应用需求和相关科学技术的推动下逐步发展起来的, 智能化搜索引擎能够实现信息服务的人性化、高效化, 为用户检索互联网信息提供了极大的便利, 其发展是一个长期的过程。目前的搜索引擎主要提供基于文字的信息检索服务, 而对于语音、图像的检索还有大量的工作要做, 搜索引擎真正地实现智能化并不简单, 但是我们相信技术的进步将会给用户带来更好的信息检索工具。

参考文献

[1]殷雪松, 徐斌.WWW网络搜索引擎介绍[J].大学图书馆学报, 1998 (4) .

[2]吴丹.搜索引擎的智能化研究[J].情报理论与实践, 2002 (4) .

[3]李研, 陈新中.基于Web挖掘的智能门户搜索引擎的研究[J].计算机工程与应用, 2002 (3) .

知识搜索引擎 篇8

在现今社会中用户习惯通过搜索引擎来解决一些生活中的难题, 然而很少有人思考搜索引擎所提供的知识在多大程度上是有用的。在本文中, 作者将探讨这样一个问题:普通人与搜索引擎的组合是否在某些领域, 能够解决一定程度上的难题?换言之, 作者希望了解不具备完整领域知识的普通人在拥有搜索引擎工具后, 其在某些特定任务中能力可以在何等程度上接近一个领域专家的水准。作者将用“可用度”来描述通过搜索引擎获得的专业知识在解决实际问题时的可用性。

本项目研究的结果将对问答系统的发展起到积极作用。基于全自动的问答系统 (如AnswerBus、维基百科) 目前尚只能回答简单的问题, 对于复杂具体的问题就捉襟见肘。而对基于社会化网络的问答系统[1] (如百度知道、腾讯问问、Quora等) 而言, 其中许多问答者并非精通专业知识, 结果也未必理想。那么, 是否可以通过搜索引擎的帮助, 根据人的常识来选取搜索引擎的结果、找到解决方案?这也就是本文研究的背景之一。

作者将采用类似于图灵测试的方法来比较专家和拥有搜索引擎的普通人在完成特定领域任务上的差距。采取此方法原因有二, 一是受到了图灵测试的启发, 作者认为通过人的智能与电脑的大信息量结合, 通过人的判断, 就能较为高效地解决大量问题, 甚至超过部分领域的专家;二是通过图灵测试中的实验方法, 可以更好得控制变量, 提高实验结论结果的准确性, 并且具有可操作性。

本文结构如下:在第二节作者将介绍图灵测试的基本情况, 然后在第三节作者介绍本文提出的“类图灵测试”的设计与实现, 然后在第四节中作者对于实验数据进行了分析。最后一节是实验小结。

2. 图灵测试

图灵测试探讨机器在什么情况下“拥有人的智能”。图灵测试是在1950年由著名的“计算机之父”阿兰·图灵 (Alan Turing) 设计的实验。具体实施方案是一个人在与被测试者 (一个人和一台机器) 隔开的情况下, 通过一些装置 (如键盘) 向被测试者随意提问。问过一些问题后, 如果测试人不能确认被测试者的答复哪个是人、哪个是机器的回答, 那么这台机器就通过了测试, 并被认为具有人类智能[2]。在当今世界的图灵测试比赛中, 最佳的谈话机器人也很难瞒过人类。也有研究者提出在一个限定的领域或者任务中来进行图灵测试[4]。在国内也有研究者对这个问题进行研究。陆汝钤[5]提到过人工智能能达到人类多少程度的问题, 但是发现许多机器永远不会做到的特质, 像和蔼、美丽、创新精神以及幽默感等。

作者设计的测试方法可以称之为“类图灵测试”, 整体实验框架与图灵测试类似, 但是不同的在于其中一组不是计算机, 而是“计算机+人”, 也就是拥有搜索引擎工具的普通人, 而另一组是拥有领域知识的专家。作者通过比较这两组在完成任务上的差异来分析搜索引擎的可用度问题。

3. 实验设计

在实验阶段, 作者选择了英语作为主要研究领域、以分组别完成英语问卷的方式, 展开设计“类图灵测试”的实验。

实验总人数即样本总体约为120人, 剔除异常数据后 (如实验个体交白卷与全选同一选项) 收集到问卷100份。其中分为A、B、C三个组别, A、B两组实验人员是来自某校初二学生, A组允许使用计算机网络检索而B组则不能, C组是专业组, 即来自我校的大二学生, 各个组别中分别随机抽样15份作为样本进行试验。

实验工具方面, 英语问卷难度处于大学英语专业六级水平, 题目分20题单选题 (占50%) 以及20空的阅读题 (占50%) , 满分为100分。

先选取A、B两组实验人员, 分发实验用英语问卷让其完成。抽样统计两组人员的问答情况得出搜索引擎对于英语能力的提升程度。随后, 我们再取以上A组实验人群的数据, 将B组人员换成的专业组C组, 给他们做同样的问卷, 收集整理数据进行抽样统计, 通过分析正确率和分布情况以及“伪专家”可回答的问题类型做统计。

4. 数据分析

4.1 数据总体分析

首先分析总体情况:

设定业余组, 即未通过搜索, 为A组;搜索组, 即业余人员通过搜索引擎参与问卷的为B组;专业组为C组。调查结果的总体分布如下:

在均值方面, C组为70.50分, A组与B组数据分别为55.67分和72.67分, 可得B组的均值为最高、超过专业组C组均值, 其中前者最高分为92.5分、后者最高分达到95分, 意味着在搜索引擎的帮助下, 业余组在某领域的解决问能力有可能超过专业组。

横向分析方差, C组为215.36, A组和B组的数据分别为188.27和267.38, 比较A组和B组, 搜索引擎帮助下的非专业测试者虽然总体提高, 但成绩方差较小。根据结果推测造成这种结果的原因在于业余组的实验人群对于搜索引擎利用能力方面水平不一, 造成成绩上的提升也不相同, 这表示, 在人与搜索引擎合作中, 并没有专业组稳定, 对于网络信息筛选与渠道选择有较大影响。

4.2 数据分布分析

作者纵向比较, 研究数据中各样本的分布情况。标记区间1为≥85、区间2为75~85、区间3为60~75、区间4为45~60、区间5为<45, 分别得到下列数据。

专业组的分数分布从区间1到5分别为17%、29%、37%、13%、4%, A组数据:7%、13%、20%、40%、20%, B组数据:40%、13%、34%、13%、0%。专业组分数主要处于60~75分段、75~85分段占大部分, 业余组搜索前分数处于45~60分段, 图形曲线都接近正态分布, 而B组搜索后分数竟然达到85及以上分段, 分布巅峰高于专业组, 显示在搜索引擎的帮助下, 业余人员在高分段人数上超过了较专业人员、但两者的总体平均水平相近。

进一步分项比较单选和阅读的错误率状况分布。由于都是20题, 标记错题0~4个、5~8个、9~12个、13~16个、17~20个分别为区间1、区间2、区间3、区间4、区间5。单选方面, 区间1到区间5业余组A错题数分布为:0%、20%、40%、33%、7%, 业余组B错题数分布为:20%、46%、27%、7%、0%, 查看其趋势, 分数分布提升了一个分段, 意味着搜索引擎能对此类题目的正确率有显著提高。

在阅读方面, 区间1到区间5业余组A错题数分布为:0%、6%、63%、25%、6%, 业余组B错题数分布为:26%、27%、27%、20%、0%, 查看其趋势, 分数从主高错误数 (9~12个错误) 变得更平均, 提升不如单选显著。

就结果而言我们推断:首先由于选择题的题干较短, 只需搜索出相关的知识点或生词就能够很好地解决问题;而阅读题的信息量较大、生词和词组之间的联系较为紧密, 所以即便是知道解释, 也难以从整体上去理解、进而得出正确答案, 其次来说, 在语言学方面, 对于段落语义的理解, 知识层面更深奥, 难以通过单词拼接完成整篇文章的主体把握, 需要专业知识与经验融入理解, 才能更好地解决难题。

4.3 实验结果分析

根据以上结果, 作者得到以下推断:

1) 就总体而言, 借助因特网, 普通人解决问题的能力 (就英语学习方面) 的水平是完全可以达到甚至超越专业人员的水平的。

2) 就个体而言, 鉴于检索与筛选能力的参差不齐, 不同的个人之间借助因特网解决问题的能力水平有较大的差异。

3) 因特网或者搜索引擎对普通人解决问题能力水平的提升作用, 在更简单理性的问题上更显著, 相比之下更复杂感性、更需要个人理解的实际问题上提升的作用不那么明显。

5 实验小结

本文中作者研究了非专业人员在有与没有计算机网络的帮助下解决同一问题的能力以及前后的差别, 然后将上述两者得到的实验数据同时与专业人员的数据进行比对。通过各方面分析, 作者发现计算机网络对于非专业人员而言计算机网络能够显著地提高其解决问题的能力。除此之外, 这样的“普通人+计算机网络”的组合在一定条件下, 相比专业人员更能胜任对于专业领域知识的工作。

本文研究的课题也有一些局限性。本实验只对英语这一专业进行了研究, 样本容量还是不够大, 问卷的相对难度、题量的把握还有待商榷, 得出的结论只能是浅层次的。在下一步工作中, 作者还考虑引入第四组人群, 即精通信息检索专业的实验人群, 得出数据再与专业组人群进行比对。同时, 作者还会将本文中所提及的“专业领域”的范围进行扩大, 进一步针对计算机专业、数学专业、经济学专业等等其他专业进行研究。

摘要:本文研究搜索引擎对于普通人解决实际问题能力的增益程度。作者通过类图灵测试的方法, 以初中生与大学生为实验对象进行英语能力的测试, 分析使用搜索引擎之后对于解决问题的能力所带来的提升幅度。本文的结果说明, 对于实验领域的各个单项任务而言, 搜索引擎能带来测试者较强的能力提升, 这或许可以成为社会型网络的一个应用之法。

关键词:搜索引擎,图灵测试,解决问题

参考文献

[1]Gazan R.Social Q&A[J].Journal of the American Society for Information Science and Technology, 2011, 62 (12) :2301-2312.

[2]Turing A M.Computing machinery and intelligence[J].Mind, 1950, 59 (236) :433-460.

[3]Results Loebner Prize 2012[EB/OL], http://loebner.net/Prizef/2012Contest/Scoring-2012.html

[4]Feigenbaum E A.Some challenges and grand challenges for computational intelligence[J].Journal of the ACM (JACM) , 2003, 50 (1) :32-40.

知识搜索引擎 篇9

机器学习方法是解决模式识别[1]和故障诊断等诸多领域中分类器建模的核心技术。在具有完备先验领域知识或者具有覆盖整体样本分布训练样例的情况下,可以借助基于解释学习策略或归纳学习策略(如基于决策树学习的ID3[2],ASSIS-TANT[3]等)的各种机器学习方法,实现分类器的建模。但是在实践中大量存在的一类问题是:由于研究对象模式的复杂,受实际条件的限制,在初始阶段,一方面不可能提供足够数量的各类样本,另一方面所提供的样本也不可能充分覆盖各批次整体样本分布,并且样本很有可能含有噪声。在这种缺少充分覆盖各种模式的各类训练样本的情况下,很难形成完备的先验知识体系,基于知识的逻辑推理就会受到限制,进而导致基于传统解释或者归纳策略所构建的分类器,其泛化能力较差。因此,以此类问题为目标的机器学习模型,必须引入知识发现机制,来解决知识发现问题。该问题可进一步抽象为如下命题:已知一组不完备(不完整且可能包含错误)的领域知识B,一组不完备的训练样本集合D(部分覆盖且可能包含差错)和一个候选假设空间H。分类器的任务就是在H中寻找一组能够最佳拟合D和B的一般假设。该问题域与其它相似问题的主要区别在于:(1)分类器在前期的训练阶段缺少完备领域知识和覆盖整体样本分布的训练样本;(2)在建立一般假设的过程中,不仅要满足训练样本,同时还要满足领域知识。

基于随机搜索技术的经典遗传算法及其改进算法,是解决该类知识发现问题的有效途径。典型工作如分层遗传算法(HGA)[4],变长度染色体遗传算法(messy GA)[5],并行遗传算法[6],协同多群体遗传算法[7]等。这些改进算法的优点是:在处理同批次样本的知识发现问题时,其寻优精度较高。但其不足之处在于:(1)在样本不能充分覆盖各种模式的情况下,所获得的解极有可能遗漏对分类最有效的某些特征,并最终导致分类器的泛化能力较差;(2)在数据特征集规模较大的情况下,对于问题的求解存在无效搜索问题,而且其运算时间也较长。

本文提出了一种基于先验知识引导下的遗传搜索知识发现方法(以下简称PKGGA-KDD),该算法在种群初始化和构造变异函数的过程中,引入先验知识引导项,以此引导进化的方向,最终获得同时覆盖先验领域知识和训练样本的满意解,提高分类器的泛化能力。

1 先验知识引导下的基于遗传搜索的知识发现方法

1.1 遗传编码及先验知识引导下的种群初始化

(1)遗传编码

记原始特征集合下的实例空间X,

其中,对于,有

式中:xi为N维特征向量,N为属性数,M为实例总数,i=1,2,…,M。

对xi∈X进行二值化编码,得二进制位串GA编码空间,

该空间上的个体位串结构为:

其中,aij∈{0,1}。

(2)先验知识引导下的种群初始化

定义设为最佳特征子集,根据先验领域知识,包含某特征的经验概率记为λj,则称λj为该特征的知识引导系数,两者为一一对应关系。

当知识引导系数λj→0或λj→1时,表示该系数对应的某特征极可能不包含或者极可能包含在中。这里需要指出的是,λj的值由经验得来,其值需要通过多次运算来确定该参数的合理取值大小。

设GA初始种群矩阵为:

种群矩阵P(0)中染色体为:

其中,pij=1,0表示第i(i=1,2,…,m)个染色体的第j(j=1,2,…,n)个属性包含或不包含在新的特征子集中。

现利用先验知识对P(0)中的各个染色体pi进行初始化,具体操作如下:

式中,μij为对应每个基因位产生的均匀随机变量,且μij∈(0,1)。

1.2 先验知识引导下的变异操作

本文采用的变异策略是:根据先验领域知识,构造一个变异函数,使得染色体的各个基因具有不同的变异概率。其基本原则是:当λj→0或λj→1时,λj所对应特征的变异概率较小;当λj→0.5时,λj所对应的特征其变异概率较大。

记第G代某染色体pi的基因pij的变异概率为f(pij),pm为经典遗传算法的变异概率,定义如下的变异函数(如图1所示):

对于给定的染色体位串pi=pi1,pi2,…,pin,其在先验知识引导下的变异操作如下:

生成的新个体为p'i=p'i1,p'i2,…,p'in。其中,ηij是对应每个基因位产生的均匀随机变量,ηij∈[0,1]。

1.3 PKGGA-KDD算法基本流程

先验知识引导下的基于遗传搜索的知识发现修正算法基本流程如下:

(1)设定种群规模m,交叉算子pc,变异算子pm,以及最大进化代数Gmax;

(2)根据式(2)生成一个满足初始种群矩阵P(0);

(3)若当前进化代数G小于Gmax,执行步骤(4),否则执行步骤(8);

(4)分别计算当前种群中的各个染色体的适应度;

(5)以交叉算子pc对下一代种群中的各个染色体进行交叉操作,生成新个体;

(6)随机选择新产生个体的某基因pij,利用式(3)和(4)计算该基因位置的变异概率,并根据式(5)执行变异操作;

(7)将新一代的染色体种群存入新种群矩阵,返回步骤(3);

(8)输出最终结果,算法终止。

2 实验及结果分析

实验以汽车变速箱新产品在线故障诊断系统的分类器为例。该分类器对变速箱新产品的检测结果共有四类,分别为:无效(Invalid)、无故障(OK)、报警(Alarm)和故障(NO)。本文以CH5M1A型变速箱1档振动信号数据进行实验。CH5M1A型变速箱1档的结构信息如表1所示,选用的样本信息如表2所示。

在实验过程中,CH1作为训练样本集,CH2,CH3和CH4作为测试样本集,分别采用经典遗传算法和本文的PKGGA-KDD方法进行对比试验。其中两者的交叉算子Pc和变异算子Pm的初值分别取0.8和0.12,两者均采用单点交叉法,并且其最大进化代数均为300代,种群规模均为50。利用这两种方法所获得备选特征子集分别为S和S*,如表2所示。S和S*的分类效果对比如表3所示。

如表4所示,分类器分别利用S和S*对同一批次的变速箱进行检测,结果表明:S和S*两者分类效果相差不大。但对不同批次变速箱进行检测的结果表明:S*的分类效果明显优于S,随着不同批次的样本数目的不断增加,其差距就越明显。另外,如表2所示,S*的规模明显小于S。

3 结语

经典遗传算法在处理命题一时,所发现的知识泛化能力较差,为了解决此问题,本文提出了一种先验知识引导下的基于遗传算法的知识发现方法。利用该方法能够获得同时覆盖先验领域知识和训练样例的满意解,并且随着各批次样本数目的逐渐增加和上述过程的不断进行,分类器的泛化能力将不断得到提高,这对于解决实际工程中的故障检测问题,具有较为广阔的应用前景。

参考文献

[1]张学工.模式识别[M].北京:清华大学出版社,2010.

[2]Emekci F,Sahin O D,Agrawal D,et al.Privacy preserving decision tree learning over multiple parties[J].Data&Knowledge Engineering,2007,63(2):348 361.

[3]Waheed A,Adeli H.A knowledge-based system for evaluation of superload permit applications[J].Expert Systems with Applications,2000,18(1):51 58.

[4]王小平,曹立明.遗传算法理论、应用与软件实现[M].西安:西安交通大学出版社,2002.

[5]Safari A,Shayanfar H A,Jahani R.Optimal Unit Commitment of Power System Using Fast Messy Genetic Algorithms[J].Technical and Physical Problems of Engineering,2010,3(2):22 27.

[6]侯广坤,骆江鹏.一种理想并行遗传算法模型[J].软件学报,1999,10(5):557 559.

上一篇:鸭流感病毒病下一篇:建设活动