搜索引擎核心技术介绍(精选6篇)
搜索引擎核心技术介绍 篇1
谈到网页搜索引擎时,大多数人都会想到雅虎,的确,雅虎开创了一个互联网络的搜索时代。然而,雅虎目前用于搜索网页的技术却并非该公司原先自己开发的。8月,雅虎采用了Google(www.google.com)这家由斯坦福大学学生创建的风险公司的技术。理由非常简单,Google的搜索引擎比雅虎先前使用的技术能更快、更准确搜索到所需要的信息。
让我们自己来设计、开发一个强劲、高效的搜索引擎和数据库恐怕短时间内在技术、资金等方面是不可能的,不过,既然雅虎都在使用别人的技术,那么我们是不是也可以使用别人现成的搜索引擎网站呢?
剖析编程思路
我们可以这样设想:模拟一个查询,向某个搜索引擎网站发出相应格式的搜索命令,然后传回搜索结果,对结果的HTML代码进行分析,剥离多余的字符和代码,最后按所需要的格式显示在我们自己的网站页面里。
这样,问题的关键就在于,我们要选定一个搜索信息准确(这样我们的搜索才会更有意义啊)、速度快(因为我们分析搜索结果并显示需要额外的时间),搜索结果简洁(便于进行HTML源代码分析和剥离)的搜索网站,由于新一代搜索引擎Google的各种优良特性,这里我们选择它为例,来看看用PHP怎样实现后台对Google(www.google.com)搜索、前台个性化显示这一过程。
我们先来看看Google的查询命令的构成。进入www.google.com网站,在查询栏中输入“abcd”,点击查询按钮,我们可以发现浏览器的地址栏变成:“www.google.com/search?q=abcd&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=”,可见,Google是通过表单的get方式来传递查询参数并递交查询命令的。我们可以使用PHP中的file函数来模拟这个查询过程。
了解File函数
语法: array file(string filename);
返回值为数组,将文件全部读入数组变量中。这里的文件可以是本地的,也可以是远程的,远程文件必须指明所使用的协议。例如: result=file(“www.google.com/search?q=abcd&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=”),该语句将模拟我们在Google上查询单词“abcd”的过程,并将搜索结果以每行为元素,传回到数组变量 result中,
因为这里读取的文件是远程的,所以协议名“”不能缺少。
如果要让用户输入搜索字符进行任意搜索,我们可以做一个输入文本框和提交按钮,并将上文中的被搜索字符“abcd”用变量替换:
echo '; //没有参数的form,默认提交方式为get,提交到本身
echo '; //构造一个文本输入框
e cho '; //构造一个提交查询按钮
echo ';
if (isset( keywords)) //提交后PHP会生成变量 kwywords,即要求下面的程序在提交后运行
{
urlencode( keywords); //对用户输入内容进行URL编码
result=file(“www.google.com/search?q=”. keywords.“&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=”);
//对查询语句进行变量替换,将查询结果保存在数组变量 result中
result_string=join(“ ”, result); //将数组$result合并成字符串,各数组元素之间用空格粘和
... //进一步处理
}
? >
上面的这段程序已经能按用户输入内容进行查询,并将返回的结果合成一个字符串变量$result_string。请注意要使用urlencode()函数将用户输入内容进行URL编码,才可以正常地对输入的汉字、空格以及其他特殊字符进行查询,这样做也是尽可能逼真地模拟Google的查询命令,保证搜索结果的正确性。
搜索引擎核心技术介绍 篇2
Meta元标签位于网页源代码之间,它是用来在HTML文档中模拟HTTP协议的响应头报文.Meta的属性有两种:name和http-equiv.对于搜索引擎优化人员来说,我们只重点关注Meta的name属性.
Meta的name属性主要用于描述网页,对应于网页内容,以便于搜索引擎机器人查找和分类.其中,对于SEO来说最重要的是Description(站点在搜索引擎上的描述)、Keywords(分类关键词)和Robots(机器人对具体页面进行索引的情况),所以应该给每页完善Meta值.之前,Meta部分的内容对搜索引擎优化的最终效果能起到很大作用,很多SEO人员在Meta的Keywords和Description部分泛滥堆积关键词来获得好的关键词排名,造成很多并不能给用户提供有价值信息的网页在搜索结果中排名很靠前,此举已经给用户的搜索体验造成了极大的伤害.后来,这种排名作弊行为被搜索引擎察觉,在其新一轮的算法更新中,搜索引擎淡化了Meta的Keywords和Description部分信息在排名因素中的权重.
虽然Meta部分的信息没有以前那么重要,其对排名效果影响并不那么大,但是搜索引擎仍然会把其作为评定网页质量的一个因素,所以我们应该尽可能完善每个页面的Meta值.接下来我们就介绍以上三个meta值的书写方法:
1、Keywords
Keywords的具体网页源码表现形式为:.Keywords向搜索引擎说明你的网页的关键词.每个页面的源代码Keywords的content部分填写1-3个关键词,关键词之间请以半角逗号分来.Keywords部分的关键词应从当前页面的主要展示内容信息中提炼而来.
2、Description
Description具体网页源码表现形式为:.Description告诉搜索引擎你的站点上的页面的主要内容.Description的content部分文字内容最好控制在100个字符左右,行文流畅.Description部分的内容应该是具体页面主要展示信息的简洁而强有力的概述.
3、Robots
Robots的具体网页源码表现形式为: .
Robots的content部分文字可以填写的内容为:all、none、index、noindex、follow和nofollow.对于Robots的content部分填充内容有如下说明解释:
设定为all:文件将被检索,且页面上的链接可以被查询
设定为none:文件将不被检索,且页面上的链接不可以被查询
设定为index:文件将被检索
设定为follow:页面上的链接可以被查询
设定为noindex:文件将不被检索,但页面上的链接可以被查询
设定为nofollow:文件将不被检索,页面上的链接可以被查询.
一般来说,大部分网站并没有太多的内容禁止搜索引擎机器人索引,Robots的通用写法都是:.如果想对Robots做一些个性化的设置,可以参照上面的相关说明来完善Robots的content部分内容.
核心团队介绍 篇3
正如世上没有两片完全相同的两片树叶一样,也没有完全相同的两个人。正是性格迥异的我们组成了这个鲜活、富有创造力的团队,共同创下骄人的成绩,下面,就让我来一一揭开他们的神秘面纱。
文理兼通——团队的“领头羊”
生于70年代末,在学生生涯,一路顺利,02年毕业于重庆大学给水排水专业,获工学学士学位。接下来的7年于厦门水务集团奉献自己的火热青春,先后任业务技术部主管、工程师,项目负责人,主要负责厦门岛内给水技术工作,海沧区、同安区给水与排水管网规划、设计、施工工作,专业和管理技能双丰收。工作之余,钻研企业管理之道,并于2010年成功取得厦大MBA学位,也一举通过了建设部注册公用设备工程师的认证。
文理兼通,09年将自己的创业梦付诸实践——携兄创立了公司,作为团队的领头羊,主管公司的整体架构、战略发展、市场导向等工作。工科严谨、细致的思想贯穿到日常的管理中,他期望能带领这个团队走的更好、更远!
务实,脚踏实地——统筹技术全局
生于70年代中期,深深的印上了那个时代的烙印——务实,脚踏实地。因而,92年成为厦大计算机系的一名高材生。96年毕业后,便顺利进入了中国军工厂8420厂,从事电子硬件行业的技术工作,因能力出色,在这里步步高升。这里哺育了他——打下了坚实的硬件基础,扩宽了知识面和管理视角。
2001年因国企机制改革进入安防系统行业,成为厦门最早开发楼宇安防系统的技术团队成员之一,多年的研究开发经验,不仅熟悉软件系统发展例程,而且熟悉微电子集成电路的制作过程,技术变得很全面,对软、硬件有着自己独到的认识。
06年敏锐洞察到智能箱柜的前景,开发出第一代智能信报箱,09年与弟进入该行业掘金。现负责公司技术部工作,牢牢把握箱柜系统的前沿,不断推陈出新,同时注意与高校技术的互动。
聪明——软件技术的奇葩
05年7月毕业于厦大信息与计算科学专业后,便做起了自己专业相关的工作,真正将所学的理论运用到实际工作中,05年-12年先后就职于英华计算机信息咨询服务有限公司(技术部)和厦门斯隆电子科技有限公司(研发部)。在这短短几年,他却有丰富的项目经验。如:
对讲机写频软件的编写(基于VB 6.0);
对讲机芯片程序的编写(基于汇编语言,单片机编程);
PC机客户端程序的编写(基于C# 2008/2010);
WinCE工业电脑程序的编写(基于C#2008);
ASP.NET网站的代码编写和部署(基于C# 2008);
WCF服务的代码编写和部署(基于C# 2010)。
上述的成绩是与他的聪明和专业特长分不开的。他不仅精通各种编程语言(汇编,VB,C#,ASP,JAVA),精通数据库的管理和运用.(SQL SERVER;SQ Lite;Access等),精通 Socket通讯串口通讯,WCF 服务调用,窗口消息传递等通讯手段,而且能独立设计并完成一套软件,有较强的软件架构设计能力,学习能力强。
12年加入我司技术部,负责软件技术方面的工作,为公司软件技术方面的工作立下赫赫战功,被誉为我司软件技术的奇葩。
业精于勤——电子技术的主导
2000年毕业于沈阳东北大学机电一体化毕业,本科毕业后先后就职于以下公司:
2001---2006,在厦门顶尖电子任开发主管的职务,主要负责公司单片机软件开发,新进人员培训,以及配合业务新客户开发的工作。对各种IC的开发熟悉,对认证和硬件的开发也有比较多的经验,另外对功能规划有前瞻性的理解。
2006---2009,于台湾松翰科技有限公司任资深工程师,主要是配合代理商开发新客户,另外开发公司新的IC的应用模块,客户的新产品,培训代理商客户的工程师,规划公司程序的架构.2009---2012,在厦门蒙发利电子任资深工程师,主要是按摩产品创新开发,以苹果为平台, 以蓝牙和Wifi为传输介质,开发苹果周边无线设备。
2013加入我司研发团队担任工程师,主要负责公司电子终端的测试开发及文档的整理。
他的技术的高度专业性是与平日的勤奋分不开的,这也充分诠释了他一路顺利走来的主要原因。当然也离不开他严谨细致的工作态度,清晰明了的开发习惯以及良好的沟通能力、学习能力。
少说,多做,勤思——机械技术的核心
08年毕业于集美大学机械设计制作及其自动化专业,获工学学士学位。
于同年7月加入了厦门恒耀金属有限公司,3年的工作中,先后任技术部组长、项目负责人,主要负责车用紧固件的设计、制造及协调解决生产中遇到的问题。
后从2012年2月~2012年11月在厦门鼎贞实业有限公司工作,主要负责流水线液体包装机械的设计。
2013年4月,加入我司,为技术部补充了年轻的血液,任机械技术经理、产品工程师、负责公司机械方面的工作。
严谨细致——财务采购外贸样样通
得益于教师妈妈的严格家教,读书时便养成了严谨细致的习惯。后毕业于上海海事大学国际会计(中美合作)专业,获得美国圣马丁大学学士学位。
这种态度也一直指导我的职业生涯。毕业后就职于厦门一家生产型企业,于该公司担任出纳员工作,因能力出色,细心负责,被提升成总经理助理,负责原材料的采购工作。
2012年初至今,就职于我司。主要负责财务采购兼做外贸的工作。严谨细致的工作态度不断为我的工作增光添彩。在这里,不断提高了自身工作能力,而且较好的锻炼了英语听说读写能力,能与外国客户自由交流。
细心、责任心、耐心——生产管理的能手
2003月7月毕业于厦门集美轻工业学校
2003.7-2011.9主要从事于电子与电气方面工作,从未偏离自己的职业轨道,先后做过电子维修,电气助理工程师等,积累了丰富的经验;
2011.9月加入我司,从焊接、调试技术到生产管理一路走来,伴随他的除了丰富的经验,更多的还是他的是细心、责任心、耐心,他的成功得到了上司的认同、同仁的赞赏,为我们每一个同仁树立了榜样。
多彩的人生经历——市场部的开拓者
坚韧、豪爽、热情、爱心,一个带有浓郁西本文化的女孩儿。
03年-07年就读于兰州理工大学机械设计制造及其自动化专业。大学期间,努力学好专业知识,获二等奖学金、镇泰助学金。同时提升自己的其他技能,获得英语四级证书、CAD制图证书、计算机二级证书。她丰富多彩的工作经历使他的人生多姿多彩。
07-08年从事工程品质(QE)工作
第二年到第六年从事销售类工作,从销售助理到销售主管,带领7人团队负责工程部产品的销售及技术支持!引人注目的是:期间,她与朋友合作创业,主营无尘产品的销售,与多家知名光电公司合作,如TDK、福建华科、厦门京东方、福建嘉达光电、宏发子公司宏远达等光电企业合作。
工作之余,她仍不忘加强自己的技能,参加英语口语培训、参加厦门马拉松全程赛、参加志愿者活动。
13年加入了我司市场部,凭借自己得天独厚的性格优势和多彩的从业经历为公司的市场开拓工作创下佳绩!
踏实上进——行政制度行为的督导
2007-2011年就读于西南科技大学汉语言文学专业,从小养成的踏实上进的习惯一直陪伴她的学习生涯。在校期间,获得国家奖学金,院级奖学金,取得CET-6证书,计算机二级证书等。这种习惯也一直延续到她的工作中,毕业后的将近两年时间内,先后在两家公司从事人事行政的工作,主要负责整个公司人员的招聘、培训、劳动关系、薪资福利等模块的工作。在工作中,我兢兢业业,做好本职工作,同时积极组织公司的运动会、博饼、尾牙等活动,锻炼了自己的沟通协调和组织能力。
搜索引擎核心技术介绍 篇4
现在,英特尔公司正与 15个国家的教育部合作实施英特尔®未来教育网络核心课程项目,这些国家是:美国、澳大利亚、巴西、智利、中国、埃及、法国、印度、爱尔兰、韩国、墨西哥、俄罗斯、沙特阿拉伯、土耳其和英国。
英特尔®未来教育项目网络核心课程的特点 :
课程通过网络学习与面授结合的方式,让学员充分体验21世纪自主合作的学习过程,品尝信息化环境中探究与应用的乐趣。
·鼓励教师把计算机当作研究、发布和交流的工具,发展学生的 21 世纪技能,自我介绍《英特尔®未来教育网络核心课程介绍》。
·鼓励教师以项目学习为载体,整合以学生为中心的多种教学策略。
·鼓励教师以框架问题为突破口,培养学生的高级思维能力。
·鼓励教师关注不同学生的学习需求,用精心设计的支持材料和多元评价方法加强教学的有效性。
·在培训中将 Web2.0等先进技术整合到自己的教学中。
·网络课程平台提供大量丰富的资源支持培训。
·通过在培训过程中学习使用多种合作、交流互动的技术手段,学员不仅能完成单元作品集的开发,还能大大培养和提高远程学习的习惯和能力。
英特尔®未来教育项目网络核心课程的适用群体
由于网络核心课程拥有丰富的学习资源并且采取混合式(面授加远程)的培训方式,学习进程长(连续2-3个月),学习方式多样(除阅读外还有书面交流、博客反思、递交作业等),因此特明确以下条件,供报名者与推荐者慎重考虑:
1)本人具有自主学习的能力与兴趣;
2)具有基本的信息技术能力和流畅的打字能力;
3)在学校担任非信息技术学科的教学工作;
4)本人有志于教育教学改革,对信息技术与课程整合的发展有深入研究的兴趣;
5)学校和家庭都有较好的电脑设备和上网条件;
6)本人确保每周有6-8小时的网上学习时间,能坚持利用业余时间参加二个月以上的基于网络的远程学习;
7)本人自愿参加培训。
英特尔®未来教育项目网络核心课程的基本内容
本课程强调的一个基本问题为“如何最有效地运用技术来支持和评价学生的学习”。教师作为课程设计者,在课程设置的8个模块中探究这个问题,并创建一个技术融合其中、以学生为中心的、建立在课程标准之上的单元教学设计。
8个模块设置如下:
模块1:用项目进行教学
主题:基于项目的学习和单元设计
关键活动:
l理解单元作品集及其组成部分
搜索引擎核心技术介绍 篇5
建设网站的时候不仅仅要考虑到网站的支持平台、站点结构的设置、版面的布局、实现的功能以及后台操作的简洁适用性,更要在编写代码的时候就合理地进行网站优化元素的部署与分配来提高权重,这样,既能保证在各搜索引擎中占有较大数量的页面收录,排名上获得优势,网站能顺利推广,还有利于后期SEO的处理,节省网站的后期维护和优化的成本,缩短排名提升的时间,提高搜索引擎友好性。本文从有利于搜索引擎SEO的基本技术出发,介绍具有普遍性却常常被网站制作者和网站重构师忽略的优化细节。
1 DIV+CSS网站编码要简洁明了
网站制作中要使用DIV+CSS技术设计网页,table布局灵活性受限,且只能遵循和的嵌套,垃圾代码很多。DIV+CSS技术能更好的控制页面布局,表现和内容分离,大大缩减页面代码,浏览速度快,使“蜘蛛”更轻易的抓取内容并增加收录。DIV+CSS技术应用相对灵活,可以用
甚至标签制作菜单和图片列表,且自适应技术能完全满足浏览用户的交互需要。
2 网页title的设计
网站中的每个页面的title应同中求异,不要有完全相同的。每进入一个层级,本页面的内容放到最前面,后面是网站的名称,中间的加上一些路径。一般首页title写法是“总标题-关键词”,内页title写法常见的是“栏目名称-总名称”.如:“”和“”.而且,不要频繁修改title,这样会降低信用度,不能保证以后搜索引擎的正常收录。虽然各搜索引擎对于权重的计算和分配不同,但这是SEO必须做的最基本内容。
3 keywords和description设置
现在各大搜索引擎纷纷降低了keywords和description设置的权重值,但本人仍认为有必要设置,必须保证每个页面的关键词和描述都是不同的。如“
”、“< m e t aname=”description“ content=”武汉**公司是集设计、生产、制作、安装、售后服务为一体的现代化工业门生产企业。“/>”关键词设置四至五个最适宜。首页keywords写法:在首页的keywords中加入总名称、栏目名称和一或两个主关键词;栏目keywords写法“:栏目名称,栏目关键字,栏目分类列表名称”.一般网站每个页面的关键词中前几个不一样,后几个可以是主关键词,两者加起来不宜过多,适量即可。
4 javascript与css文件采用外部调用
不要把脚本代码和样式文件内嵌在网页代码中,并且尽量减少脚本文件的个数,这样利于网页的加载速度,可以通过百度SEO建议工具进行检查,也有利于搜索引擎的抓取。
5 尽量使用文字链接
不要用flash、图片、javascript等显示和装载重要的内容或链接。
搜索引擎目前并不识别和抓取这些内容里的文本,它们既影响网页打开速度,更不利于收录。能用css样式实现的就不用图片,用图片的话就要必须加上“alt”属性或尽量加上标签。
6 网站页面静态化(或伪静态)
搜索引擎对动态网页如asp、php等的网页收录效果比较差。伪静态的好处:不管是asp、php、jsp、。net等动态程序,都需要读取调用数据库内容,才能显示数据,这样速度就会变慢。影响用户浏览。伪静态就是动态的生成html文件,提高搜索引擎友好性,便于抓取和收录。
7 面包屑导航Breadcrumb Navigation
面包屑导航的作用是明确提示访问者目前所在的位置以及如何返回。不要让浏览用户迷路,帮助他们找到回家的路。体现网站架构层级,能够帮助用户快速学习和了解网站内容和组织方式,从而形成很好的位置感。提供返回各个层级的.快速入口,方便用户操作,提高用户体,并合理利用关键字,实现SEO优化。Google已经将面包屑导航整合到搜索结果里。
8 做好网站内部链接
内部链接可以方便“蜘蛛”抓取,加快网页收录、优化网站排名、PR传递、提升用户体验。各个页面之间相互链接,以及产品或新闻、文章页面之间的“上一篇”“、下一篇”进行链接。url如果与内容相似,更利于搜索引擎的收录及排名。如该页面是关于seo的,可以定为“seo.html”.死链接不利于优化,应定时用工具检查内部链接,并制作404页面。
9 恰当的使用权重标签
在“”标签中,权重依次递减,应适当安排关键词。
应尽量靠近标签,越近越好,以便让搜索引擎最快的抓取主题。
10 做好网站地图sitemap
搜索引擎核心技术介绍 篇6
相关理论主要有,NEC美国研究所的SteveLawrenee和C.LeeGiles从19和l9起连续在《自然》和《科学》杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会议TREC也从年开始增加了WebTrack课题,以考察Web文档与其他类型文档在检索性质上的不同之处,并将测试在大规模的Web库(如100G字节)上进行信息检索的算法性能[2]。由美国Information公司主办的搜索引擎国际会议从l9开始每年举行一次,对搜索引擎技术进行总结、讨论和展望,对搜索引擎技术起到了很好的推动作用。此外还有EIEE主办的国际万维网会议、人机交互会议等。然后就是在Berners-Lee提出了语义网的设想,相关专家和学者开始将语义网思想运用到搜索引擎中,提高和优化Boulos,MagedN.Kamel[3]的“AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine”,D-LibMagazine[4]的“ALVIS-SuperpeerSemanticSearchEngine”,Schenkel,Ralf;Theobald,Anja;Weikum,Gerhard[5]的“SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine”,YufeiLi;YuanWang;XiaotaoHuang[6]的“A”等关于语义搜索的文章。
相关技术主要有:l990年蒙特利尔的McGill大学学生AlanEmtage、PeterDeutsch、BillWheelan开发了一个自动索引因特网上的匿名FTP网站文件的程序,它就是Archie(ArchieFAQ),搜索引擎的首例。然后到目录式搜索引擎雅虎,关键字搜索引擎Google。现在国外已经在Mozilla浏览器的pre-Nglyauot版本和Netscpae浏览器的.407或.45+版本大量采用RDF技术,实现了智能浏览,帮助浏览网页的用户提供其他与其浏览内容有关的信息。美国FourthoughtInc公司是专为企业知识管理应用提供XML解决方案的软件供应商和咨询公司,开发了4Suite,它是XML、RDF和知识管理应用的一个开放源码平台,并在其知识管理解决方案中,实现从XML数据抽取RDF数据、并在RDF基础上提出一种简洁的语义搜索功能[7]。斯坦福大学、微软和W3C共同开发的TAP也是基于SemanticWeb的语义搜索引擎。
2.2国内相关研究
在技术方面,国内先后有清华大学、北京大学、国家智能研究中心等高校和研究机构对搜索引擎技术开展研究,并开发出了几个较好的系统。如由北京大学计算机系网络研究室开发的“天网”中英文搜索引擎,在系统规模及系统性能方面达到了国外中型搜索引擎系统的技术水平。Google作为第二代智能全文式搜索工具,可以对网页的全文进行检索。百度是目前最大的中文搜索引擎,使用超链接分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。我国从起在863计划中把语义Web技术与Ontology,列为“十五”期间计算机技术的重大课题之一。国家自然科学基金项目《基于本体论和语义Web的产品信息基础结构》,以本体论为指导,以XML形式化描述基于知识的产品信息模型数据,在语义Web上建立产品信息基础结构[8]。宋峻峰[9]提出的基于本体的信息检索模型采用描述逻辑构造本体,利用本体对文档进行了语义标注,生成文档的逻辑视图和用户信息需求的逻辑视图,实现了检索过程中真正的语义匹配,是真正的语义检索。郭少友教授提出和设计的“以文档为中心的上下文检索研究”也属于语义检索的范畴。
3语义技术应用到搜索引擎的可行性分析
3.1语义技术与信息存储技术的结合
目前,RDF数据的存储基本上有两种方案,XML/RDF文件的形式存储是一种可行的方式,但是考虑到对于大量的事实数据,考虑到可扩展性,查询方式,效率等诸多的因素,以RDF数据库或者关系数据库来存储RDF事实数据库是一种比较好的选择。
3.2语义技术与检索技术的结合
通过对用户查询关键词的语义匹配和语义相关性扩展,最后形成符合特定知识本体语言的查询语句实现语义检索,例如:
SELECT?a,SELECT(http://127.0.0.2/Milan#动物,松鼠)
但是这样的形式比较复杂,因此可以在语义检索中设计一个Agent,用来分析用户输入的关键词,查询Agent接收用户输入的关键词,并将它传递给匹配Agent,根据知识本体和语
义词典对这些关键词进行比较分析,并构造出适合该检索的新的检索式或者查询语句,并且将该检索式返回,这个过程实现语义匹配过程。但是有的时候为了进一步获得更多的信息,还需要根据知识本体或者语义词典对输入的查询语句进行相关的推理,推理的`过程有很高的智能化,例如在检索的过程中,发现没有松鼠这个关键字,但是松鼠是喜欢吃松子的,所以当检索到松子的时候,这个页面有可能也是关于“松鼠”这个关键词的相关页面,同时推理机制也会根据情况构造出新的检索式:
SELECT?a,WHERE(http://127.0.0.2/Milan#坚果,松子)
3.3语义技术在数据库搭建中的应用
我们知道数据库构建的过程中是有很多表或者集合组成,传统的描述仅仅是描述其关键字字段或者其属性值,利用相似度算法进行机械的匹配查询,满足一定的相似度就对该条记录做读取、删除等操作。
王珊教授等研究了基于本体的关系数据库语义检索,分析和研究单个关系数据库上基于本体的语义检索问题,其中指出,关系数据库主要有两部分组成,一部分是元数据(Meta-data)也称为模式(Schema)如数据类型名,表的属性名,表名,主键及外键[10]。另外一部分是真正的数据,关键数据库的元数据描述了其存储数据之间的简单语义关系,由于关系模型描述能力的限制,并不能完全的描述数据库之问丰富的语义关系。关系数据库的查询语句使用的是结构化查询语句SQL进行的,这是一种精确的查询语句,查询条件是精确的,同时查询结果也是精确的,由于关系数据库仅仅只能表现数据库中有限的语义关系,所以其查询的语义性也是有限的,而本体则能进一步的描述关系数据库的语义。
随着本体跟语义网的技术的不断发展和应用,基于本体的关系数据库也逐渐成为研究的热点。关系数据库的语义可以分为两级语义,一级是元数据级别的语义,另外一级是数据级的语义,利用不同语义级别可以实现不同的语义检索。文献指出本体通过对数据库进行两种级别的语义描述,分别可以从元数据或者数据中抽取,识别出概念,然后对本体中已经存在的概念进行映射,或者根据本体的学习技术,构建出一个新的本体[10]。也可以直接使用已有的本体中的概念来描述元数据的数据,这两种方法都称为本体标注。本体标注也是关系数据库语义检索的基础技术。本体标注就是把本体和数据联系到一起,以便建立基于本体的语义索引[11]。
3.4元数据标引技术
利用元数据技术对网络信息资源进行标引,有利于信息资源的描述,同时也可以缩小网络信息资源的异构特点,根据元数据的标准对网络信息资源进行统一的标引,这样对信息的描述更详尽,同时也可以体现各个相关数据之间的语义特点。目前比较通用的是DC,利用DC的著录格式对网络信息资源进行著录与表示,其不但能详尽的描述信息资源的特点,同时也可以体现出描述各项之间的语义关系。因此将元数据引入到网络信息资源标引技术中,有利于改善网络搜索引擎。
3.5语义技术在分词算法中的应用
常用的分词算法主要有正向最大匹配法、逆向最大匹配法、专家系统分析法、高频优先法、全自动词典切词法、扩充转移网络分词法、神经网络等分词方法。但是以上所有的分词方法都会存在一定的错误率,所以我们要在分词算法中引入语义技术,以便提高分词的准确性。这种思维方式就是根据汉语的特点以及其自身的规律,可以考虑从汉语的构词规则如笔画来试图解决这样的问题,这是一种新的自动分词研究方向。另外再对数据或者信息资源进行处理和标引时,在使用受控语言和自然语言的同时,还可以运用其他的人工构造语言,像程序设计语言,逻辑语言,数学公式等。这几种人工语言跟自然语言一样,他们都有一套自己的完整的语法规则与相当数量的符号组成,我们可以根据他们的特点,对其组成规律进行总结,并且并入到语义字典中,并利用本体对其相互关系进行描述。
为了便于计算机对汉语进行自动分词处理,就需要对现在的分词语法方法做以下三方面的改造:一是要在待分词的汉语文本的词与词之间增加适当的间隔符,即设立分词标志,这样通过设立的分词标志,可以方便地对文本进行分词处理,大大提高效率;二是要对汉语的词语进行明确界定,即规定什么是“词”,这样主要可以解决两方面的问题,单字词与字元素之间的区别以及短语或者成语与词(词组)之间的区别;三是要制定完整的汉语书写规则。这些都是应该在汉语文本生成之前完成,并且从技术实现的条件来看是可行的,这样就省去了很大一部分精力对预处理文本进行分词[12]。
4结论
基于语义技术的搜索引擎平台的搭建是一门新兴的研究课题,它旨在解决如何让信息用户在海量的信息中,精准地找到自己需求的信息,在构建的过程中,可以将语义技术运用到信息的描述、信息的存储、信息的检索以及信息的输出过程中。国内外也有了一定的研究成果,并且也构建了一些语义技术的搜索引擎平台,但是大部分还是处于试验阶段,很多的关键技术难题还没有攻克。笔者认为,数字资源的语义描述,中文的分词技术,还有语义的检索方式和输出排序是目前需要进一步研究的重点。
参考文献:
[1]Berners-LeeT.SemanticWebRoadMap[EB/OL].[-10-23].http://www.w3.org/designissuee/semantic.
[2]Mikeusehold,Michalgruninger.TheWebSearchEngineReview[J].IGCA199,,93-96.
[3]Boulos,MagedN,Kamel.AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine[J].Technology&HealthCare,(11):33-41.
[4]ALVIS.SuperpeerSemanticSearchEngine[J].PreviewD-LibMagazine,20O4(6):10-12.
[5]SchenkelRalf,TheobaldAnja,WeikumGerhard.SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine[J].InformationRetrieval,(12):521-545.
[6]YufeiLi,YuanWang,XiaotaoHuang.ARelation-BasedSearchEngineinSemanticWeb[J].IEEETransactionsonKnowledge&DataEngineering,(2):273-281.
[7]黄大鹏.基于语义Web的搜索引擎研究[D].西安:西安理工大学,2004.
[8]杨秋芬,陈跃新.ontology方法学综述[J].计算机应用研究,(4):24-25.
[9]宋俊峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报(自然科学),2005,41(2):189-197.
【搜索引擎核心技术介绍】推荐阅读:
搜索引擎排序技术11-14
中文智能搜索引擎技术10-15
搜索引擎技术及趋势11-18
百度搜索引擎技术分析05-20
全文搜索引擎10-19
视频搜索引擎05-12
搜索引擎实现05-23
语义搜索引擎05-26
移动搜索引擎06-01
农业搜索引擎06-12