主题搜索

主题搜索（共7篇）

主题搜索篇1

随着互联网和电子商务的飞速发展,越来越多的信息出现在网络上。据中国互联网络信息中心(CNNIC)统计结果显示:截止2008年6月底,中国的域名注册总量为1485万个,网站数量已达到191.9万个,年增长率为46.3%。在如此众多的每时每刻都在变化和更新的网站中,如何把所需的信息找寻出来,应用到实践中,为减少或避免初上网者在信息检索过程中走弯路,加快获取信息的步伐,本文将对网络信息主题搜索过程中的搜索策略做优化研究,以达到更准确、更好地获取所需信息的目的。

1 关键词优化

随机取一篇网页的源文件(例如通过浏览器的“查看源文件”功能),可以看到其中的情况纷乱繁杂。除了从浏览器中能够正常看到的文字内容外,还有大量的HTML标记。根据天网统计,网页文档源文件的大小(字节量)通常大约是其中内容大小的4倍。另外,由于HTML文档产生来源的多样性,许多网页在内容上比较随意,不仅文字不讲究规范、完整,而且还可能包含许多和主要内容无关的信息(例如广告、导航条、版权说明等)。

关键字、关键词和关键短语是Web站点在搜索引擎结果页面(也称为SERP)上排序所依据的词。根据站点受众的不同,可以选择一个单词、多个单词的组合或整个短语。为简化起见,本文将使用关键词这个术语表示以上三种类型。有关关键词的重要概念有关键词位置和关键词密度。关键词位置是指关键词出现在页面文件的哪个部分及先后顺序,这对网页出现在SERP页面中排名影响近来逐步降低。关键词密度(Keyword Density)也叫关键词频率(Keyword Frequency),所阐述的实质上是同一个概念,它是用来量度关键词在网页上出现的总次数与其他文字的比例,一般用百分比表示。相对于页面总字数而言,关键词出现的频率越高,那么关键词密度也就越大。简单地举个例子,如果某个网页共有100个词,而关键词在其中出现5次,则可以说关键词密度为5%。

关键词的优化对整个网络主题的搜索起到重要作用,以下是一些基本策略:

(1)通过数据挖掘算法,尽可能找出与关键词相关的词,除了找出主题直接相关的词,也要找出与其相联系的词

(2)要多对社会行为习惯做研究,从用户的角度出发,找出符合现时流行的相关关键词,使得找到的关键词符合社会习惯。

(3)除了给出与主题相关的通用性词汇外,还要紧密结合关键词相关的专业领域,提出专业术语词汇。

(4)不要用意义太平凡的词。为了准确找到需要的信息,搜索用户倾向使用具体词汇及组合寻找信息(尤其是二词组合),而不是使用那些大而泛的概念。此外,使用意义太泛的关键词,也意味着更多的网络信息呈现,难以精准选择。

2 搜索引擎优化

主题相关的关键词优化完成后,就是如何利用关键词进行搜索,这个主要由搜索引擎来完成。搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。搜索引擎主要有以下搜索方式:全文索引、目录索引元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎等。

所谓搜索引擎优化(Search Engine Optimization,SEO),也就是根据上述搜索方式,使得站点和网页设计的方式方法适合该类搜索引擎的主题搜索原则(即搜索引擎友好),从而得到搜索引擎的收录并在用户的检索结果中排名靠前。目前不少SEO设计者对此理解过于狭隘,于是出现了SEO行业为了争夺首页有限的10个排名而各使奇招的现象,但是笔者认为SEO搜索引擎优化的最终目的不是网站排名靠前,而是良好的用户体验,这也是SEO的生存之道。结合个人体会,主要有以下的优化策略:

(1)了解域名对SEO影响有多大。从实践中会发现,域名对于网站的排名的影响很微小,但也并不能忽略不计,选择常用的域名应该按com-net-cn-com.cn次序。

(2)理解SEO中最重要的是什么。搜索引擎的发展应该更偏向于对内容相关性、专业性的考核和判断,更注重网站内容的原创性和时效性。所以,SEO最重要的就是做关键词分析、关键词定位、网站内容编辑和部署。

(3)领会搜索引擎收录站点的依据。一般情况,网站正常,不违规的站点都是会被收录的。不收录往往是站点本身的问题,比如全站采集、SEO作弊等。虽然某些作弊的方式可以在短时间内快速提高排名,但这种做法最直接的后果就是网站被封,导致整个SEO行业恶性发展,用户将因为搜索体验变差而对SEO行业产生反感。所以SEO没有捷径,努力更新网站,写软文是必要的。

(4)学习SEO该从哪里开始。简单的代码可以看懂基本就可以做SEO。一般新手应该采用开源的网站程序,自己做几个小站,学会基本的SEO操作方式如:关键词定位、关键词分析、标签书写等等。三个月下来观察自己站点在搜索引擎的表现,总结经验发现问题,基本可以对SEO把握五分。

(5)搜索引擎收录一个网站大概需要的时间。其实这个问题只能说个大概,笔者做的网站正常都是一个月以内,有的更快,只要一天。这其中需要做多发外链。

SEO是未来网络营销最重要的部分,因为它确实可以帮助网站优化,这种优化方便各种使用者,行业前景看好。目前情况下,大型网站如B2B行业网站、B2C电子商务网站的SEO需求比较旺盛。相对于企业网站,大型网站对SEO的投资回报率更高。

3 网页评分策略

搜索引擎利用关键词在各类网页中进行搜索,实际上就是对各种网页进行操作,面对浩如烟海的网页,如何提高命中率和节省时间,这是个值得研究的问题。关于对网页的优化主要是通过网页引用计数和网页等级评分来实施的。

3.1 引用计数(Hit number)

搜索系统的搜索器在搜集网页的时候,在任何一个网页数据库中都有一个引用该网页的其他网页的总数,这个数称为命中数(Hit Number)。系统搜集器每当搜索到一个新的网页时,就会逐一检查这个网页的所有引用链接,如果发现这些链接里面存在指向已经访问过的网页,那么这个已经访问过的网页的Hit Number将会被自动地加1。由上分析可见,当搜索器已经搜索过的网页数量足够大的时候(极限情况是整个网络),Hit Number也就越大,这就表示该网页被其他网页引用得越多,因此根据引用计数评估这个网页的重要程度。该类网页无论是在搜索器搜索网页方面,还是在检索器最后给用户返回结果方面,都应该放在优先排名和处理的位置。

但是,如果只是比较两个网页各自的引用计数,有时候并不能评估出这两个网页谁更重要。例如存在两个网页,它们在互联网上都只是被引用了一次。其中一个网页是显示了一份已经过期的personal resume,该网页被一个求职网站所拥用,除了求职者本人外可能没有其他人关注;另一个网页显示的是当日发生的重大国内新闻,被雅虎网站所引用,无时无刻不被世界各地操持不同语言的数以千万计的人浏览。这时就不能根据两个网页的引用计数是一样(都是1),就得出两个网页在互联网上同等重要的结论。

根据以上分析,在评估网页的重要性时,需要找到更加深入的指标来评估网页的重要性,这就是下节用到的网页评分。

3.2 网页评分

搜索引擎搜索到一个网页被另一个网页链接的时候,并不只是简单地将被链接的网页的Hit Number值加1,而是将链接该网页的链接数作为权值,同时将该链接网页的重要程度也考虑进来,就可以得到改进后的网页评分。最早提出网页评分的计算算法的是Google。通过研究和实践的总结,Google的排名运算法则主要使用了两个部分,第一个部分是它的文字内容匹配系统。Google使用该系统来发现与搜索者键入的搜索词相关的网页;第二部分也是排名运算法则中最最重要的部分,就是Google的专利网页级别技术—Pagerank的作用。从上述可以得知,Google对不同网站首页的评价方式,其实,同一个网站的页面评价也是不一样的。首先,首页的权重是大于一级页面的,一级页面的权重相对地大于二级页面的,以此类推。当然,也有个别的例子存在,那就是首页的图片过多,或者结构不够好的话,文字比较多的一级页面的权重高了。因为Google是按照从首页进行抓取的,依次到二级三级页面上,所以,如果首页的页面的信息无法被搜索引擎识别的话,那么Google就依次到二级页面或者更下的页面进行爬行。一般的网站还是首页的权重相对地占据优势的。

4 结语

主题搜索策略优化是一个较复杂的问题,在此只是对其相关的基本策略进行了研究,有关权威网页、中心网页以及网页链接优化等问题还需进一步研究,通过综合运用不同主题搜索优化策略可以达到主题搜索的准确、快速。

摘要：针对日新月异的互联网的发展特点,分析了网络主题搜索的基本概念和策略,重点对关键词及其权值的配置策略、搜索引擎的优化方法和网页的评分机制等进行了研究,对网络主题的搜索策略的优化会有一定借鉴作用。

关键词：主题搜索,策略,关键词,搜索引擎,网页评分,优化

参考文献

[1]Danny Sullivan.Fifth Annual Search Engine Meeting Report,Boston,MA,Apr.2000.

[2]CNNIC.中国互联网络发展状况统计报告.北京:2001,1.

[3]雷鸣,王建勇,赵江华,单松巍,陈葆珏.第三代搜索引擎与天网二期.北大学报,2000.

[4]北京大学计算机系网络与分布式实验室.天网中英文搜索引擎概要设计书,2000:4-8.

[5]Krishna Bharata,Andrei Brodera,Monika Henzingera,Puneet Kumara,and Suresh Venkatasubramanianb,The Connectivity Server:fast access to linkage information on the Web.

主题搜索篇2

藏文字作为一种古老的文字,文献资源丰富,不仅我国藏族地区使用,尼泊尔、不丹、印度、蒙古等国也有一部分人使用。藏文信息化工作一直得到国家高度重视,1997年颁布了藏文编码字符集国际标准,2003年颁布了国家扩充集标准( 扩充集A) , 2007年微软公司发布了全球范围内第一个全面支持藏文的Windows Vista操作系统。同时藏文字处理的发展也取得了一定成绩,如键盘布局、字体、输入法、编码等。随着互联网的普及和藏文信息处理技术的发展,藏文网站数量和规模发展都非常迅速,而藏文Web信息提取等应用系统缺口却比较突出。主题爬虫能够迅速获取网络上特定主题的大量信息,满足对某一主题的个性化服务的需求,如旅游、信息安全、政府相关政策情报智能检索、藏文网络舆情分析等的研究,它对藏文Web数据挖掘具有重大价值。王兰成[1]通过分析URL链接关系对网页的主题相关性进行了判定研究。李传席[2]根据本体的自适应性对中文Web信息抽取方法进行了研究。崔其文[3]根据领域本体的树状层次,从路径距离、语义的重合度以及深度等方面对语义相似度的计算作了研究。

1 藏文预处理

1. 1 藏文字和藏文网页识别与转换

藏文字是由基本字符及其通过纵向叠加组成的,藏文中的 “音节分割符”确定藏语的基本单位。藏文字的编码方式主要有以下三种: 一为小字符集法或动态组合法,其利用1SO/ IEC10646藏文小字符集( 基本集) 动态组合表示藏文,这种编码是藏文信息化的主流趋势。二为以藏文不带元音的字丁和元音分开编码,最后通过它们的组合方式实现藏文显示,是用西文字符集( ASCll) 的某段码位进行编码。三为国内的基于GB2312的藏文编码方式,其以藏文带元音字丁为编码单位,采用码位互不相同,以整字方式编码的大字符集编码。依据藏文的组字方法,每少于7个字符就有一个音节点。基于ASCll的藏文编码采用单个字节对藏文字符进行编码,所以有些编码采用多字库实现码点到字符( 字丁或者辅音字母组合) 的一对多的映射关系。由此可以根据在藏文Web中,字体采用 < font face = ″: Arial″ > < / font > 或字体样式采用 { font-family: Arial; } 等特征进行判断,其中font face,font-family属性值也可以为: Tibetan Machine Web、Tibetan Machine Web1等。

本文根据藏文的编码特征[4],设计藏文网页识别算法如下:

判断出网页编码后,按各编码的映射表进行转换,转换为国际标准藏文的编码进行保存。

1. 2 藏文分词

分词和词性标注( 词处理阶段) 方面,虽然还没有真正成熟的实用系统,但已经取得了一定的研究成果。关于藏文分词方法方面,有人用基于规则的方法进行分词,有人用统计的方法即基于马尔科夫模型进行统计。由于藏语虚词的丰富性和多样性[5,6],利用ontology来建虚词的知识库效果更好,比如虚词规则搭配、虚词的功能分类、虚词的兼类库等。因此,本文采用本体构建规则库进行分词。

2 面向领域本体构建

本体: 以一种明确的、形式化的方式给出构成各领域的词汇和关系及其外延规则,表示领域概念及其之间的关系,成为人、机器、应用程序对概念语义共同理解的媒介,在应用间实现知识的共享和重用[7,8]。本体能够表现词和词之间的复杂关系,是一个大型关系网词表,它比现有资源描述方法能够表达更丰富的关系。它首先对领域概念进行分类层次的划分,再对概念间关系进行描述。领域本体是某一领域的共享概念模型的形式化的明确说明。领域指的是对某一科目分类划分后的范围。它统一管理显性知识,促进知识的获取和共享,解决Web中信息孤岛问题。在语义Web中,大多数轻量级本体充当网页的分类器和标识器。

本文设计了本体管理模块,避免普通定题爬虫策略普遍存在的局部最优的缺点。模块中除了本体构建和通过相似度算法计算文本的主题相关性外,还预留了本体更新模块,以便以后通过机器学习进化原始本体的权值和相似度值,达到改进主题搜集性能的目的。本研究结合斯坦福大学医学院开发本体的七步法和How Net( 知网) 通用本体构建方法来设计领域本体。

第一步确定知识ontology的专业领域和范畴,西藏地区比较热点的信息有旅游、行政区域管理、信息安全等领域。它们的共同点涉及到地名实体。因此,本文先构建一个小型的地名实体本体,实现多领域的共享。

第二步调查是否存在已有ontology复用的可能性。藏文信息化发展起步较晚,还处于自然语言处理初级阶段,现在虽有一些领域词典出现,但语义层面的研究还很少。在此研究中,作者先构建一个简单的地名实体本体,为信息安全研究或旅游信息收集使用。

第三步列出ontology中的重要术语,此时需要收集领域内的信息词,包括尽可能多的概念、关系和属性。领域本体定义如下:

五元组O = { C,R,Hc,fun,instances} ,其中概念顶层为:

其中以山南地区各县为例:

第四步定义类和类的等级体系。通常采用自顶向下法, 由最大概念开始,然后细化概念。如县下面是乡和村:

R = { brother-of,sub Class-of,kind-of,instance-of,attributeof} 。

brother-of表示概念的同义词和语义接近的概念词,subClass-of表示子类关系,kind-of表示包含关系,attribute-of表示属性关系。

第五步定义类的属性,属性关系主要用于推理。

第六步概念实体的属性限制。

第七步创建实例。

最后可以得到如图1所示的本体内部关系与层次图。该图采用Jena RDF进行解析。

3 基于领域本体的藏文 Web 信息抽取策略

3. 1 总体结构模块

本文设计了基于本体的定题搜索策略,如图2所示模型, URL种子库开始形成抓取队列,不为空时下载存到临时数据库中,判断为藏文网页的进行去噪处理,然后转换为统一藏文编码,提取出其中出现的URL地址。因为藏文Web比起中文Web数量上还是偏少,因此我们对尽量多的URL进行链接抓取。接下来对文本内容进行语义相关度判断,此处主要采用领域本体的关联和相关度算法进行语义判断,当计算机的值大于某一阈值的时候,认为此类网页为主题相关的,在数据库中保存其元数据和网页,作其他应用研究的基础。大于阈值的URL增加其子链优先级,否则降低子链优先级。最后当URL为空结束抓取。

3. 2 网页去噪去重

( 1) 网页去噪。不论是属于哪种类型的藏文网页,都包含有许多噪声信息,如广告、版权、导航条、网站目录等。HTML文档主要有头部和主体两个区段,文本主题相关信息通常在 < body > … < body > 段里,其中的hr、address、BGSOUND、del、 map、bgsound、< input > 、 < textarea > 、< select > 、< applet > 、< blockcode > 、form、< code > 、isindex、 < object > 、BASEFONT、 < blink > 、< button > 等修饰的标签直接去掉。并对以下两种链接情况直接过滤: 1剔除URL字符串中包含‘?’、‘#’、‘ = ’,‘( ’ 的链接。包含这些字符的网页是一些脚本语言动态产生的,或是动态网页的查询结果,也有是较长广告URL中的符号,通常不进行爬行; 2锚文本中包含等的链接。

( 2) 网页去重。为每个文档计算出一组摘要,若两个文档拥有一定数量的相同摘要,则认为这两个文档的内容重叠性较高,也即二者内容是转载的[9]。如MD5算法等均可以实现去重算法。若两个去噪网页通过MD5算法计算结果相同,则确定网页重复,不再进行保存和处理。

3. 3 基于语义的相关度判断

采用领域本体概念词典进行语义相关度判断。利用已建立好的领域本体概念层,首先识别并合并brother-of类名。然后采用水平整合的方法来将具有关联的词项统一起来。用向量的形式来表示统一后的文档,向量格式如下:

Vector: { ELEMENT1,ELEMENT2,…,ELEMENTi,…,ELEMENTn} 。

式中ELEMENT为如下格式:

{ [类名集( 包括同义词、等价的类名集合、领域本体库中权值关联的词) ],在文档中出现的次数}

相似度定义: 给定两个向量V1和V2,其中一个向量为训练文档,假设经过发掘等价类名、合并类名,建立映射关系,两个向量如下:

{ [F1S1,F1St1],[F1S2,F1St2],[F1S3,F1St3],…,[F1Si, F1Sti],[F1D1,F1Dt1],…,[F1Dm,F1Dtm]} { [F2S1,F2St1], [F2S2,F2St2],[F2S3,F2St3],…,[F2Si,F2Sti],[F2D1, F2Dt1],…,[F2Dn,F2Dtn]}

其中,F1Sk和F2Sk( 1≤k≤i) ,是映射关系确定的两个文档中的对应等价类名集合,即为统一本体定义的同义词、等价类名、权值关联词的一个词项。F1Stk和F2Stk( 1≤k≤i) 是两文档中有关联词项对应在各自文档里出现的次数。F1Dk和F2Dk( 1≤k ≤m) 是两个文档中相互没有映射关系的词项。F1Dtk和F2Dtk( 1≤k≤m) 是对应的两个文档中无关联词项在各自文档中出现的次数。定义两个向量间的相似度为:

Similarity( vector 1,vector 2)

根据Similarity ( vector1,vector2) 的值来判断主题相关的程度。

3. 4 实验结果

本文测试环境为Heritrix + Lucene,使用Html Parser、Http Client等开源包,实现了一个简单主题爬虫器。因为藏文网页相对汉文网站数量偏少,实验尽量收集了所有链接进行主题判断,搜索深度小于等于7。按照本文策略,选择了有关西藏山南桑耶寺的藏文网站进行测试,采用了一个小型的山南行政区域管理本体,收集了15个常用的URL作为种子,并把其对应的网页作为原始语料,测试超过100个网页。

实验结果能够判断出90% 的藏文网站,但显示时还是会有少量网站是乱码现象,需要手动进行字体修正,才能正确显示, 此现象的原因有可能是因为编码采用了常用字体外的个别类型字体。和基于关键词的藏文网页信息爬取进行比较发现,准确性提高了5% ,查全率提高了9% ,原因是引入了小型本体后,与关键词有关联的词语,如“西藏第一座寺庙”等词汇也是指桑耶寺,通过本体库里概念的关联和相似度计算后,有更多的主题相关信息Web被发现。表1展示了爬取主题为山南桑耶寺相关内容的后台数据库部份信息。但由于语料库较小以及本体构建还处于很基础阶段,这些数据只是对以后的藏文主题网页提取研究提供一些参考。

4 结语

本策略重点是对主题类型网页的研究,针对链接类型的网页,仅仅是获取了它的URL链接和判断部份优先级,图片类型的网页处理方法文中并没有进行考虑。通过本体概念将关键词映射到语义概念层,从语义层对网页进行关联词的相关度计算, 找到了一种发现主题相关性网页的方法。在实验中能够实现某个领域的搜索,但其语料数据较少、本体构建有限,提高查全率和查准率还有待进一步深入研究。

摘要：针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。

主题搜索篇3

1.1 网络爬虫体系结构

网络爬行是指搜索引擎从网络上查找并搜集网页的过程, 其目标是尽可能快速、有效, 多量的搜集与用户需求相关的有用网页及网页间的链接结构。网络爬虫, 是在H T T P协议访问标准下, 跟随网络链接遍历网络空间信息的程序[1]。一个典型网络爬虫体系结构主要由五个模块组成, 待爬行URLs队列 (URLs Frontier) , DNS解析器, 爬行模块, 解析模块, 是否爬行判断模块[2]。

如图1所示, 网页抓取技术是搜索引擎的重要组成部分, 搜索引擎能够从网页采集资源信息主要靠爬虫的工作。

1.2 基于HMM ( (Hidden Markov Model, 隐马尔可夫模型) 的主题页面抓取策略提出背景

目前通用的抓取策略各有其不足, 基于超链图评价的方法存在“主题漂移”的问题[3], 通常认为, 在爬行主题网页页面抓取过程中, 与主题内容相关的网页就包含着指向相关主题网页的链接。然而这一认知忽略的事实是, 互联网中同样存在这样一种情况:爬虫接触的一级页面可能看似不包含给定主题, 但其二级页面中却有可能包含与给定主题相关度极高的内容或链接, 这样就造成了一些主题爬虫丢失了抓取更多主题相关网页的机会。而启发式主题网页抓取策略同样存在“主题近视”的缺点[3], 即在距离页面集较近时搜索性能良好, 一旦页面信息缺失全局性布局则无法完全完整表现w e b整个信息出现“近视”问题。基于此, 提出了一种基于H M M的主题网页抓取技术。

2 HMM在主题网页抓取中的应用

2.1 基于HMM的主题网页抓取策略

H M M模型, 是马尔科夫链的一种, 因为其状态不能直接观察, 所以叫做“隐”马尔科夫模型。它事实上是由具有一定状态数的隐马尔科夫链和显示随机函数集构成的[4], 如图2所示。近年来H M M的应用范围非常广泛, 而这里主要应用H M M的学习特征, 通过训练, 在了解用户浏览习惯的基础上, 返回令其满意的主题相关页面信息。

依图2所示, 构建基于H M M的主题网页抓取模型:λ= (S, O, A, B, π)

隐含状态S:S={Q0, Q1…, Qn+1}, 该状态集中的每个数据Qi表示到达主题页面一定距离的状态值, 此距离用i表示, i=0时, 表示为主题页面。

可观测状态集合O:O={O1 O2…Om}, 该状态集中的每个数据O i表示隶属模式类别为i的页面。

初始状态概率矩阵π:π={P (Q0) , P (Q1) , P (Qn-1) }, 表示隐含状态在初始时刻t=1时的概率矩阵。

隐含状态转移概率矩阵A:A=[a ij]n×n, 该矩阵描述了H M M各个状态之间的转移概率。

观测状态转移概率矩阵B:B=[b ij]n×m, b ij表示Q i状态生成观察值Oj的概率。

2.2 HMM主题网页抓取方法的具体实现

使用H M M模型进行网页抓取的策略思想是:首先获得用户访问主题相关的网址队列, 由网络地址优先值的高低来确定网络爬虫下一步抓取的网页, 然后判断是否重复下载, 若不重复则通过文本预处理等手段进行网页分析, 用H M M参数进行主题相似度计算, 若主题相关则将该网页页面保存至主题网页库中。具体抓取流程如图3所示。

H M M模型系统主要由用户浏览模式学习模块和主题爬行模块两大模块组成, 具体描述如下:

(1) 用户浏览学习模块

用户浏览学习模块主要由浏览搜集网页阶段和H M M训练学习阶段两个阶段组成。

为便于分析用户浏览过程, 构造如图4所示图形, 颜色节点为目标页面, 其他数字节点为浏览网页, 箭头描述网页引用关系。在浏览过程中, 主要进行网页搜集, 将用户访问主题相关的网页浏览的内容及网址搜集起来, 形成U R L队列。

训练学习阶段, 利用H M M模型训练学习特点, 通过训练集对其参数进行训练。训练集为先前收集的所有浏览过的主题相关网页, 按照k均值的聚类方法, 以目标网页为聚类中心, 构建每个网页的向量空间模型, 得出观察状态集合:{page1 (P2) , page2 (P3) , page3 (P0) , page4 (P1) , page5 (P0) }, 初始时刻t的状态值为经验估计值, 使用Baum-Welch算法对H M M的参数进行优化, 通过不断地迭代, 使各个参数逐渐向更为合理的优化值[5]。这样训练的目的是为了增强模型预测的准确性, 避免抓取用户可能不感兴趣的页面。

(2) 主题爬行模块

在该模块, 使用向量空间模型法对已抓取的页面进行分析, 判断其是否与主题相关。网页内容的相关度计算步骤描述为:首先主题爬虫抓取到网页C后确定一组特定的主题向量;其次经过处理提取C的向量空间模型;最后利用余弦相似度函数计算网页与主题相关度。

其中qi是主题网页的向量空间模型权重;gi是队列中某网页经过预处理后的向量空间模型权重, 其计算公式如下所示:

在公式2.22中, i代表某一词条, fi为i在文档中出现的次数, fd为文档中词的总数, N为文档总数, Ni为所有文档中i出现的次数。i在文档中出现的频率用tfi表示, 逆文档频率表示为idfi。

若网页与主题不相关则公式2.21计算的余弦值小于δ, 否则为相关页面。

在H M M模型中可以用参数预测爬虫爬行时某网页链接指向目标网页的可能性, 公式如下:

在搜索引擎广泛使用的今天, 有关于搜索引擎技术的研究越来越深入, 目前网络爬虫抓取主题页面的应用中存在“主题近视”问题和“主题漂移问题”。本文论述了在此背景下应用基于H M M模型解决这一问题的主题网页抓取技术, 重点讨论了该模型的抓取策略应用过程, 在一定程度上提高了主题页面抓取的精度。

摘要：计算机网络技术的飞速发展, 对于搜索引擎技术也提出了更高的要求。文章主要以垂直搜索引擎的主题网页抓取策略为研究内容, 从提高主题网页抓取的准确度和效率出发, 引入隐马尔科夫模型, 并重点讨论了该模型具体应用策略和过程, 该模型的应用方法不仅分析了网页内容, 还考虑网页上下文链接距离结构, 在一定程度上提高了主题页面抓取的精度。

关键词：HMM,垂直搜索引擎,主题页面

参考文献

[1]NAJORK, MARE, AND ALLAN HEYDON.HighPerforrmance Web Crawling[C].Technical Report173, Compaq Systems Research Centef, 2001.

[2]TOUFIK BENNOUAS AND FABIEN DE MONTGOLFIER.Random Web Crawls[C].In Proceedings of the 16th international conference on World Wide Web (WWW’07) , 2007, 451-460.

[3]彭涛.面向专业搜索引擎的主题爬行技术研究[D].吉林大学.2007.6.2-10

[4]朱克峰.基于隐马尔科夫模型的人脸认证算法研究[D].北京交通大学.2009.

[5]杜世平.多观测序列HMM2的Baum-Welch算法[J].生物数学学报.2007 (04) :685-690

主题搜索篇4

及时准确的情报信息是一个行业制定科学决策、赢得竞争优势的基础。信息搜索是快速获取互联网中情报内容的关键技术。因此, 面向行业的主题搜索技术[1,2,3,4,5]已成为信息搜索领域的研究热点。

通常互联网上的主题页面容易成团出现, 页面中的链接也常与主题相关, 它们的分布规律可总结为Hub/Authority特征, 以及Linkage/sibling locality特征等[6]。Hub页面是指向相关主题页面的一个中心页面;Authority页面是关于某一主题有价值的页面。一个Hub页面往往指向多个Authority页面。被某一主题页面链接到的页面趋向于拥有同一主题 (Linkage Locality) ;对链接到某一主题的页面而言, 它所链接到的其他页面也趋向于和这个主题相关 (Sibling Locality) 。

基于页面的这些分布特征, 当前主题搜索领域多采用基于链接结构的搜索算法, 或基于页面内容的搜索算法。林海霞等[1]引入并行分布式计算思想改进Best-First算法作为主题蜘蛛搜索算法;余旸等[2]利用词条相关性算法描述词间距离, 构建基于链接结构分析的主题搜索模型;王珏等[3]综合页面内链接及其上下文进行并行分块处理作为主题爬虫算法;夏亮等[4]设计的主题爬虫采用链接文本相关度算法和主题信息值遗传恢复的算法相结合的主题优先抓取算法, 搜索主题页面。但是, 在这些搜索策略中, 由于URL (特别是种子URL) 的语义匮乏, 难以预测搜索方向, 降低了搜索性能。

因此, 本文提出一种基于主题语义URL的搜索方法, 把主题树与种子URL集映射起来, 利用主题文本扩充URL语义, 在搜索之前更准确地预测搜索方向及范围, 提高了搜索的效率与收获率。

1 搜索模型设计

URL的主题语义是衡量种子链接库中URL质量的重要指标, 可以利用它的主题语义引导爬虫高效、准确地采集目标页面。本文提出如图1所示的搜索模型 (TUMISM) 来解决问题。该模型由预处理、网页采集、分析和链接培育等四部分组成。

(1) 预处理部分包括初始种子链接库和主题树的构建, 最初由人工完成, 此后, 种子URL由种链培育器选育, 并在采集前按第3节所述方法学习完成主题与URL映射。

(2) 网页采集由爬虫承担, 爬虫根据URL列表 (包括种子URL和新选育的URL) 抓取相关主题网页。

(3) 分析部分由页面分析器、链接分析器和内容分析器组成。页面分析器负责分析网页的结构, 抽取、分离网页链接与内容, 分别作为链接分析器和内容分析器的输入;链接分析器完成链接重要度计算与选择;内容分析器通过计算页面内容与主题的相关度 (即页面重要度) , 将相关度超过一定阈值的主题页面存入原始信息库, 否则丢弃之。

(4) 链接培育由种链培育器完成, 根据链接重要度与页面重要度来自动选育新URL种子, 输送到种子链库及待抓取URL队列。

2 重要数据结构

TUMISM模型中涉及主题树与种子链接2个重要数据结构, 详细说明如下。

2.1 主题树

根据预选主题词的蕴含关系, 将其组织成如图2所示的主题树。从任意主题结点到树根的边集称为一条主题路径, 主题路径上的文本视为URL的语义。主题路径上的每条边都赋以权重we, 作为启发因子引导爬虫按确定方向搜索相关主题页面。we值越大, 子结点所映射的URL集越被优先抓取。首次搜索时, we值由人工经验指派, 此后根据URL集的重要度自动调整。在分析页面时, URL主题文本参与页面相关度计算, 并保存相关度高于某阈值的页面内容。

主题结点的数据结构设计如图3所示。

其中, Tag作为结点编号, 取整数值;Td用于保存主题文本;Wi用来记录结点入边的权重;Pn、Cn分别为指向其父结点及首个子结点的指针。

2.2 种子链接

假设系统中要保存的种子链接表的模式为Ls, 定义Ls= (a1, a2, a3, a4) 。其中, 属性a1用于存储URL串;a2作为URL所属主题的标志, 保存主题树上对应主题结点的编号Tag, 用作URL语义标签, 可在主题树上获得一条由结点Tag到树根的主题路径TPtag, TPtag上的主题文本用作种子URL语义;a3是一个开关属性, 用作URL的搜索标志;a4代表链接的重要度, 决定映射到同一主题的种子链接的搜索顺序, 取值为0~1之间。

3 主题与URL映射

3.1 主题与URL映射原理及规则

如图4所示, URL与主题 (如Aj、Bk) 的映射, 通过为模式Ls的元组属性a2分配对应主题的编号 (Tag) 来实现。图4 (b) 中, 链向拥有相同主题页面的URL集称为种链云团 (Cl) 。主题与URL映射过程完成后, Cl自动形成。所有Cl及游离URL构成种子链库。映射过程遵循如下规则:

(1) 所有URL都与根主题R相关, 但映射时仅对游离URL分配R的编号;

(2) 当某URL与多个主题相关, 则将其优先映射到最相关的主题上;

(3) 若某URL与多个主题的相关度相同或接近时, 将其映射到离根远的主题上。

3.2 链接与主题相关度评测

链接与主题的相关度W (l, t) , 可由其链向的页面与主题的相关度来反映。Menczer等的研究评估了Best-First、Page-Rank搜索策略的优劣, 他们在53个主题规模上来衡量搜集到的网页的相关度, 其实验发现Best-First算法性能优于Page-Rank算法[7]。本文采用Best-First算法[1], 该算法以主题文本dt与页面文档dp进行余弦相似度计算, 来判断页面与主题的相关性Sp, t, 其值用式 (1) 计算:

计算W (l, t) 时, 还考虑了链接l所映射主题t的激励因子boost, 它表示主题的重要性程度, 由t在主题树上的位置决定, t越接近叶子其主题含义越明确, 重要性越强。W (l, t) 按式 (2) 计算:

3.3 种链云团重要度评价

种链云团Cl的重要度W (Cl, t) , 取Cl中W (l, t) 的算术平均值, 用式 (3) 计算。其中, 表示主题与Cl的映射关系。

3.4 主题树边的权重计算

主题树上边e的权重we用式 (4) 计算, 用于预测搜索方向, 搜索指定范围的页面。

其中, W (Cl, t) 是子树根结点所映射的Cl的重要度;wst为子树根出边权重的算术平均值, 由式 (5) 计算。

其中, E为子树根的出边集。

4 链接分析

当页面分析器分析网页结构, 抽取、分离网页链接后, 链接分析器利用父链接的重要度wpl、链接的页面位置权重wl.pos、锚文本a等因素, 综合评价页面出链l的重要度wl。考虑页面Hub/Authority、Linkage/sibling locality特征而引入wpl, 其值按式 (6) 计算:

其中, U为种子URL集, 当父链接pl∈U时, wpl取值为W (pl, t) , 否则取值为Spl, t。Spl, t (令pl=l) 按式 (7) 计算:

其中, α为调整因子, 表示页面内容相比于链接的重要性。

wl.pos视链接出现在标题、摘要、正文等位置分别赋予不同权值r、s、t, 且满足0<t<s<r<1。锚文本a对链接的重要性贡献Sa, t用式 (1) 计算。最后wl用式 (8) 来评价:

5 种链培育

种链培育器负责选育新种子URL, 自动训练种链库及筛选新链接到URL抓取队列。当页面重要度Sp, t及新的出链l的重要度wl输入后, 依式 (7) 调整, 计算l与主题的相关度Sl, t。给定阈值β和γ, β表示页面中的URL可选作种子链接的下限值, γ表示与主题无关的可丢弃链接的上限值, β和γ取任意参数值。

种链培育器选育种子URL的算法描述如下:

6 实验及分析

6.1 实验条件及准备

实验环境:单台PC机, Pentium (R) 4 2.80GHz的CPU, 1.5GB内存, 7200转速300GB硬盘;Windows XP专业版操作系统, Tomcat6.0应用服务器, IE7.0浏览器, My SQL5.0数据库系统;因学校50多个部门网站由本校自主建设, 课题组可方便地采集真实数据, 以验证实验结果的可靠性, 另外, 校园网访问教育网外的速度也有限, 故将爬虫采集范围限定在校园网内;选取10个相关链接作为初始URL种子, 以“高等教育”、“科学研究”、“科研成果”、“人才培养”、“招生就业”、“学科建设”等词构建主题树, 首次运行前, 由人工完成主题与URL映射。

在上述实验环境下, 由于实验中初始种子URL数为10, 出于对爬虫多线程抓取负载均衡的考虑, 将抓取线程数threads设为10。课题组在调查校园网时, 发现其链接深度基本不超过6层, 故抓取深度depth取值为6;大部分网页包含的链接数在50~100之间, 因此设置单页最大抓取链接数top N为80。

评价标准:由于主题搜索领域中定义“查全率”比较困难, 这一传统信息检索中常用的指标在衡量主题搜索性能时已不再适合。好的衡量方法应体现出它获得主题相关网页的水平, 同时又反映出运行时剔除主题无关网页的能力。因此本文采用与网页相关度函数密切相关的标准“收获率”[3]。即在全部下载网页 (d) 中, 收获率 (h) 为与指定主题相关的网页 (r) 所占的比例 (h=r/d) 。

6.2 实验结果及分析

考虑实验的随机性, 运行本文TUMISM搜索模块5次, 取实验中各指标的平均值作为最后实验结果数据, 如表1、表2所示。为验证实验数据的可靠性, 课题组对表1中的页面进行了人工判别;对表2中的总抽取链接数、主题相关链接数、新增种子链接数三个指标进行了人工统计, 这三个指标的比率统计如表3所示。

文献[3]中, 在与本文网络环境、实验条件大致相当的情况下, 也采用页面收获率作为评价标准, 对一个主题进行了抓取, 与本文TUMISM有如表4所示的对比实验结果。

注:基本主题爬虫, 即采用父页面与主题的相关度来预测子页面与主题的相关度, 并以此过滤页面链接的主题爬虫

文献[8]采用基于SVD的LSA方法对Log-Entropy、Log-IDF及TF-IDF三种权重函数的中文语义相关度的计算进行了研究, 在双字词下有如表5所示的实验结果[8]。

1) 从表1的实验数据来看

本文所设计的主题搜索方法收获率达62.5%, 已是比较高效的主题搜索方法。但由于单机运行, 以及机器配置、网速及繁忙情况、种子URL的选取、中文分词的复杂性、URL相关性计算的复杂性等原因, 网页抓取速度为57页/分钟。

2) 从表4的对比统计数据来看

本文搜索方法的收获率 (62.5%) 与文献[3]方法的收获率 (62.4%) 基本相当, 比文献[3]中基本主题爬虫的收获率 (20.5%) 提高了2倍多。但是, 本文方法的收获率是在没有对主题词进行同义词扩展的情况下获得的。因此, 通过扩展主题词描述, 可进一步改善本文算法, 将会获得更佳的搜索性能, 这也是未来的一项重要工作。

3) 从表2、表3的实验数据可看出

(1) TUMISM的总抽取链接数只有人工统计的56.4%, 表明在主题与URL映射之后, 剔去了大量无关链接, 搜索规模明显减小, 对搜索效率的提高贡献较大。

(2) 被抓取链接数少于总链接数, 是由于本文搜索方法对中间链接进行了去重处理, 并过滤掉了外网连接及已抓取链接, 它们也对搜索效率有一定的贡献;另外, 成功抓取的链接少于被抓取链接, 是因为遵循robots协议导致部分链接无法被抓取。

(3) 考察新增种子链接数, 68个链接中有43个与主题密切相关, 可作为种子链接。另有25个链接因为其页面中出现连续的干扰主题词等原因而入选。TUMISM选育新种子链接的准确率约63%。

(4) TUMISM与人工统计方法中主题相关链接数分别为4251和6906, 可知本文搜索方法的链接收获率为62%左右。

4) 从表1、表3中的实验数据对比来看

(1) TUMISM的页面收获率 (62.5%) 近似于的链接收获率 (62%) , 与独立考察5次实验的收获率统计数据相吻合。收获率统计如图5所示, 说明本文主题搜索方法设计的合理性与有效性。

(2) 表1中主题相关页面数与表2中TUMISM的主题相关链接数之比平均约为3, 也相应验证了互联网中页面的Linkage/sibling locality分布特征。

5) 从表5的实验结果来看

在LSA方法下的三种权重函数的相关性评分效果最佳为54.3%, 低于本文方法的收获率。

实验及分析表明, 本文所设计的主题搜索方法有效提高了主题爬虫的效率和收获率, 有较好的种子链接自动选育性能。

7 结语

本文设计的TUMISM信息搜索方法, URL与主题树相映射, 以主题文本扩充种子URL语义, 在搜索前更准确地预测搜索方向与范围, 引导爬虫快速滤去主题无关页面;综合页面重要度及链接重要度两个因素来自动选育新种子URL。实验表明, 它有效提高了主题爬虫的搜索效率及收获率, 自动选育种子URL的性能良好。但链接相关度计算所涉及因子的选择及主题词描述扩展方面有待继续研究。

参考文献

[1]林海霞, 原福永.一种改进的主题网络蜘蛛搜索算法[J].计算机工程与应用, 2007, 43 (10) :174-176.

[2]余旸, Zhangxi LIN, 夏国平.基于链接结构分析的主题搜索[J].北京工业大学学报, 2011, 37 (4) :614-618.

[3]王珏.基于URL及上下文的并行分块处理主题爬虫研究[D].上海:复旦大学, 2012.

[4]夏亮.主题搜索引擎网络爬虫搜索策略的研究与实现[D].北京:北京工业大学, 2010.

[5]Pant, F Menczer.Topical Crawling for Business Intelligence[C]//T Koch and I Solvberg.Proc.7th European Conference on Research and Advanced Technology for Digital Libraries (ECDL) , series Lecture Notes in Computer Science, Vol.2769.Berlin, 2003.

[6]Aggarwal C, AL-Garawi F, Yu S P.Intelligent crawling on the world wide web with arbitrary Predicate[C]//Hong Kong:Proc of the 10th International World Wide Web Conference, 2001.

[7]Menczer, G Pant, P Srinivasan.Topical Web Crawlers:Evaluating Adaptive Algorithms[J].ACM Transactions on Internet Technology, 2004, 4 (4) :378-419.

主题搜索篇5

关键词：搜索引擎,BP网络,人工智能

0 引言

互联网信息量巨大的今天, 传统搜索引擎对于信息检索的方式过于单一, 查准率和查全率都不尽如人意。元搜索引擎的出现在一定程度上弥补了传统搜索引擎查全率不足的问题, 本文在元搜索引擎的基础上使用BP网络对搜索结果进行主题相关性判断, 能够有效的提高查准率。网络中存在的大量的先进的农业信息不能够在农业生产中得到利用, 而开发农业主题的专业搜索引擎将有助于先进技术、最新信息在农业生产中的作用, 因此农业主题元搜索引擎具有非常大的现实意义与研究意义。

1 基于BP网络的农业主题元搜索引擎

1.1 搜索引擎总体设计

本文提出的基于BP网络的农业主题元搜索引擎的系统模型, 其利用元搜索引擎覆盖率高的优势, 结合BP网络的主题相关性判断, 提高了搜索准确率, 弥补了传统搜索引擎的缺陷, 也达到了个性化搜索的目的。该系统模型各个模块的主要功能如下。

(1) 搜索接口模块:该模块是为用户提供统一的搜索界面, 用户在该模块使用查询后自动调用成员搜索引擎按照用户的关键词进行搜索。

(2) 搜索结果处理模块:该模块对成员搜索引擎的搜索结果进行提取文本、去噪声、网页特征提取的工作。

(3) 主题相关性判断模块:调用BP网络对搜索结果进行二次判断, 如果主题相关, 则呈现给用户。

该搜索引擎的系统模型如图1所示。

1.2 搜索结果特征提取关键技术

搜索结果的形式为列表形式, 需要对搜索结果进行特征提取, 然后使用BP网络进行分类。特征提取关键技术包括网页纯文本提取、搜索结果提取、网页特征提取、多线程处理技术。

1.2.1 网页文本提取

从组成上来说, 一个网页包含了主题信息、网页格式、嵌入广告等信息, 大量的网页格式、广告等与网页主题无关的内容在一定程度上影响了主题相关性的判断, 因此在提取网页纯文本后不要对文本按照一定模式进行去噪处理。其主要处理代码如下:

//根据URL获取网页数据

//读取网页文本

//关闭Stream和WebRequest

//使用正则表达式进行去噪声处理

1.2.2 搜索结果提取

主流搜索引擎的搜索结果是页面列表的形式, 首先利用网页文本提取技术提取搜索结果文本, 然后利用正则表达式搜索结果的链接地址, 最后再次利用网页文本提取技术提取搜索结果的文本。

1.2.3 网页特征提取

网页只有经过特征提取进而编码才能够被BP网络所识别。网页特征提取的方法是依次判断网页文本是否包含主题词, 包含该主题词则1, 不包含置0。由此得到一个对应n个主题词的n维向量, 此即是该网页的特征。

1.2.4 多线程处理技术

为充分利用设备的计算性能、提高程序效率、实时响应用户行为, 本文采用多线程技术来并行完成对搜索结果的文本提取、特征提取、主题相关判断的工作。

多线程的主要代码如下:

其中, Web Deal With是进行文本提取、特征提取、主题相关判断、结果展示的函数。

1.3 基于BP神经网络的分类器

BP神经网络具有坚实的理论依据, 通用性非常强, 对于复杂样本非线性分类能力, 经过合理训练的BP网络可以完成各类型网页的分类工作。BP神经网络分类器的关键部分包括训练样本、样本特征、神经元的设计、初始权值、隐层层数、隐层结点数、激活函数。

构造BP神经网络分类器的第一步是收集样本数据, 样本数据选取的是否具有代表性将直接决定了BP神经网络的学习效果, 本文训练样本是从吉林省科技文献信息服务平台搜索到的179篇农业方面的论文和包括中国农科院在内的87个农业类网站, 用这两种样本分别代表农业技术和农业信息两种涉农网站类型。

特征就是某个物体区别于非同类物体所具有的性质的抽象, 训练样本特征的选取直接决定BP神经网络的分类效果, 因此选取的同时包含全面性、代表性两方面。农业类网站具有较强的专业性, 邀请农业方面的专家根据自身经验提取主题词更能够准确代表其特征, 因此本文通过邀请相关方面的专家提取了90个主题词作为神经网络的样本特征。

神经元的设计包括输入层神经元和输出层神经元的设计。本文使用农业专家提取的90个主题词作为样本特征, 则得出输入层神经元为90维特征向量[n1, n2, …, n90]。BP网络的输出层神经元个数在多数研究中跟分类数一致, 可以使用二进制编码来表示各类别。输出层神经元的个数y与目标类别数x的关系满足:

其中, y取刚满足上述表达式的最小正整数, t表示y维空间向量, t= (t1, t2, …, ty) , 这里的t1, t2, …, ty, 是二值随机变量。ti∈{0, 1}, 这些变量为t定义了2t种状态。本文需对搜索结果进行主题相关性判断, 共分为两类:A农业相关主题类和B其他类。所以我们参照上述公式有x等于2。所以, y值取1。

网络训练中用对应的二进制数组形式表示各类别样本的期望输出, 如表1所示。

BP网络的训练过程中, 训练样本分为A和B两类, 其期望输出分别对应为1和0。其识别阶段, 根据BP网络的输出结果将网页判定为与输出值最大的那个节点对应的类别。理论情况下使用1、0分别表示A、B两类, 但是实际运用中使用0.9、0.1分别表示A、B两类。

隐层具有从输入提取特征的作用, 隐层数两层即可。1987年, Lippman的研究成果指出, 有两个隐层, 就可以解决任何形式的分类问题。隐层选择的要是是在满足要求的情况下减少隐层数, 结合本课题的实际情况, 本课题使用一个隐层。

隐层神经元数目的选择通常根据经验和多次实验来确定, 现有的确定隐层数目的方法都没有充分的依据, 《神经元网络PC工具》就指出:“隐含层单元的选取是一种艺术”。本课题中输入层神经元90个, 输出神经元2个, 根据多次试验, 选取45个隐层神经元。

激活函数神经网络的核心, 激活函数包括阈值型、线性型和S型激活函数。S型激活函数可以将输出结果限制在一定范围内的特性, 跟S型激活函数相对应, 在输出层使用线性激活函数。因此, 我们在隐层选择S型激活函数, 对应的在输出层选择了线性激活函数。

2 实验与分析

2.1 系统的总体设计

系统的主要功能模块包括:BP网络训练模块、搜索结果数据提取模块、相关主题判断模块。

(1) BP网络训练模块:本文训练样本对BP网络进行训练。

(2) 搜索结果特征提取模块:在统一的用户界面下, 调用Google、Baidu等成员搜索引擎对关键词进行搜索, 对搜索结果网页进行特征提取, 其主要工作包括搜索结果提取、网页文本提取、网页特征提取。

(3) 相关主题判断模块:使用训练后的BP网络对提取完特征的网页进行主题相关性判断, 并将结果呈现给用户。

2.2 BP网络训练

根据训练样本的情况对训练样本进行二进制编码, 并将训练样本转化为二进制编码, 其编码格式如表2所示。

为了提高BP网络训练效果, 本文采用轮换学习的方式。首先将训练样本按类型均匀的分为A, B, C, D, E五组, 依次取其中的四组作为训练样本, 经过五次训练后, 进行综合分析得出其网络连接权W。表3为五次BP网络训练的统计数据。

由上图可见经过多次训练后, BP网络的训练次数和误差逐渐稳定, 可以用来进行网页分类。

2.3 实验结果

随机从专家提取的90个主题词中抽取10个关键词, 在系统中进行搜索实验, 其搜索结果的准确性实验结果如图2所示。

如图2所示, 通过BP网络对元搜索引擎进行主题相关性判断后, 搜索准确性明显优于传统搜索引擎。

3 结束语

本文提出基于BP网络的农业主题搜索引擎通过构造BP网络分类器提高了搜准率, 同时又引入多个搜索引擎搜索结果进而又提高了搜全率。为解决基于BP网络的农业主题搜索引擎在搜索结果处理过程时间消耗问题, 本文使用多线程技术提高了处理效率, 并且即时将处理结果显示给用户, 减少了用户的等待时间, 时间消耗问题在一定程度上的得到了解决。

参考文献

[1]陈杰.主题搜索引擎中网络蜘蛛搜索策略研究[D].浙江:浙江大学, 2006.

[2]刘玮玮.搜索引擎中主题爬虫的研究与实现[D].南京:南京理工大学, 2006.

[3]Nikolaos Tsantalis, Alexander Chatzigeorgiou, George Stephanides, et al.Design Pattern Detection Using Similarity Scoring[J].IEEE Transactions on Software Engineering, 2006 (32) .

[4]田景文, 高美娟.人工神经网络算法研究及应用[M].北京:北京理工大学出版社, 2006.

[5]王伟.人工神经网络原理-入门与应用[M].北京:北京航空航天大学出版社, 1995.

[6]张乃尧, 阎平凡.神经网络与模糊控制[M].北京:北京清华大学出版社, 1998.

主题搜索篇6

1.1 个性化搜索引擎

个性化搜索引擎既指界面的个性化, 也是内容的个性化。基于个性化推荐服务的搜索引擎隶属于个性化搜索引擎范畴。界面个性化是提供给用户一种定制搜素引擎的界面风格和布局能力, 并根据不用用户提供其预先定制过的界面;内容个性化是提供用户一种定制搜索结果的能力, 具有不用信息检索需求的用户在使用即便是相同的搜素词语, 也会得到不同的命中结果。显然这里强调的是内容的个性化, 实际意义较界面个性化更大。

1.2 网络爬虫

网络爬虫, 也称为蜘蛛程序 (Spider) 。网络爬虫是一个自动提取网页的程序, 是搜索引擎的重要组成部分。网络蜘蛛是通过网页的链接地址来寻找网页, 从网站某一个页面 (通常是首页) 开始, 读取网页的内容, 找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页, 这样一直循环下去, 直到把这个网站所有的网页都抓取完为止。如果把互联网当成一个网站, 那么Spider就可以用这个原理把互联网上所有的网页都抓取下来。

它在搜索引擎中占有重要的地位, 对搜索引擎的查全、查准都有影响, 决定了搜索引擎数据容量的大小, 而且网络爬虫的好坏直接影响搜索结果页中的死链接 (即指向的网页不存在) 的个数。

1.3 网络爬虫在搜索引擎中的地位

从上面的搜索引擎基本原理上可以看出网络爬虫是一种能够跟踪网络上超链接结构, 并不断进行网络资源发现与采集的程序。作为搜索引擎的资源采集部分, 网络爬虫的性能将直接影响到整个搜索引擎索引网页的数量、质量和更新周期。

2 基于主题爬虫的个性化搜索引擎技术

2.1 信息采集模型

主题爬虫是建立普通爬虫基础之上, 通过在网页的整个处理过程中增加模块实现个性化信息提取。这些模块包括主题确定模块、优化初始种子模块、主题相关度分析模块和排序模块等。 (参见图1)

图1中, 1爬虫模块取回网页。2调用相关度分析模块, 对网页进行相关度分析。3爬行模块根据分析的不同结果进行相应的处理。4爬行模块从数据库取出等待处理的URL继续工作, 循环到第一步, 直至没有新的URL。5对网页的重要程度进行排序。

主题的采集的关键是采集结果和主题的相似度计算。可以通过相关链接信息来预测待采集结果的相似度, 从而体现用户的个性化要求。

2.2 基于主题和用户个性化的爬行器

基于主题的爬行器是指选择性地搜寻那些与预先定义好的主题相关的页面的爬行器。和基于整个Web的爬行器相比, 它并不采集那些与主题无关的页面, 节省了硬件和网络资源, 保存的页面也由于数量少而更新快。它还可以很好地满足一些特定人群对特定领域信息的需求;而基于用户个性化的爬行器是一种轻量级的采集系统, 它的目标就是通过用户兴趣制导或与用户交互等手段来采集信息, 给用户提供个性化服务。

2.3 超链接结构的搜索策略

基于链接结构的搜索策略主要特点是利用Web结构信息指导搜索, 并通过分析Web页面之间相互引用的关系来确定页面和链接的重要性价值。超链分析技术是主题型搜索引擎所采用的一个重要手段, 下面将介绍几种重要的超链分析算法。

2.3.1 PageRank算法

PageRank算法是斯坦福大学 (Stanford University) 的Sergey Brin和Lawrence Page提出的.基本思想是:如果一个页面被许多其他页面引用, 则这个页面很可能就是重要页面;一个页面尽管没有被多次引用, 但被一个重要页面引用, 那么这个页面很可能也是重要页面;一个页面的重要性被均分并将传递到它所引用的页面中。其中页面的重要程度量化后的分数就是PageRank值。Google的搜索引擎用的就是PageRank算法。网络中的超链接结构可以表示为有向图G= (V, E) , 其中V是节点 (网页) 集, E是边 (当且仅当存在从页面i到页面j的链接时存在从节点i到节点j的边) 集.假设一个页面u, 存在T1, T2..Tn的链接网页;参数d代表“随机冲浪者”沿着链接访问网页的衰减因素, 取值范围在 (0, 1) 之间, 根据经验值一般取为0.85。C (Ti) 代表网页Ti链向其他网页的链接数量, PR (u) 定义为网页u的链接权值。PageRank值的计算公式如公式 (1) :

其中e为1/max, 即max为所有网页的总和, 每个网页初始分配的权值为总和的倒数。这种算法的特点指向一个网页的外部链接页的页面等级越高, 则该链接页面传递给该网页的页面等级值也就越高。因而, 一个网页即使只是在内容中偶然提到了一个和查询主题偏离的关键词语, 也会因其居高的页面等级值而获得一个比较高的排名, 从而影响了搜索结果的相关性与精准性。

2.3.2 HITS算法

HITS算法是由Cornell大学的J.Kleinberg提出的。Kleinberg将网页分为两类, 即hubs (中心级别) 和authorities (权威级别) 。authorities为具有较高价值的网页, 依赖于指向它的页面, 而hubs为指向较多authorities的网页, 依赖于它所指向的页面。HITS算法目标就是通过一定的计算方法以得到针对某个检索提问的最具有价值的网页, 即排名最高的authority。但该算法计算量比Page Rank大。且依赖于用户查询的, 实时性差。另外Authorities andhubs算法可能存在“主题漂移”和“主题泛化”的现象。因此, Authorities and hubs算法适合于宽泛主题的查询。

2.3.3

PageRank算法改进。对PageRank算法的改进, 可以通过引入面向主题的思想和对网页链接关系的重新计算来实现。首先, PageRank对页面的重要性发现起到重要作用, 但是它不是面向某一个主题的 (Query-Independence) 。这里对PageRank方法进行了改进:在链接关系的基础上, 加入一定的语义信息权重, 以使得所产生的重要页面是针对某一个主题的, 这就形成了SPageRank算法。SPageRank算法既利用了PageRank发现重要页面的优势, 又利用主题相关性。

2.3.4 主题相关性算法

搜索引擎的根源是传统的全文检索技术, 搜索引擎沿用了传统的信息检索模型。在传统的计算文档相似度的算法中, 以Salton教授提出的向量空间模型 (Vector Space Model) 应用最为广泛。向量空间模型基于这样一个关键假设, 即组成文章的词条所出现的顺序是无关紧要的, 它们对于文章的主题所起的作用是相互独立的, 因此可以把文档看作一系列无序词条的集合。页面主题相关度的计算有多种方法, 例如Naive Bayes、神经网络 (Neural Network) 、实例映射模型、向量空间模型 (VSM) 等。其中向量空间模型对训练文档的要求较低, 从少量的训练文档中就能提取出主要的目标特征, 而且计算简单、正确率较高, 比较适用于网络信息的发现。基于向量空间模型VSM的简单向量距离算法。该算法的基本思想就是计算图2中两个向量之间夹角的余弦值。VSM相似度计算公式如公式 (2) :

结束语

基于主题的个性化搜索引擎主要针对相关主题的采集, 为用户提供个性化信息服务。基于主题的采集的关键是采集结果和主题的相似度计算。可以通过相关链接信息来预测待采集结果的相似度, 从而体现用户的个性化要求。

参考文献

[1]高灵霞.基于主题爬虫的个性化搜索引擎技术分析[J].电脑知识与技术.2009 (32)

主题搜索篇7

根据本设计的实际情况, 我们对现有的遗传算法作了相应的改进, 改进后的遗传算法如图1:

(1) 初始群体的生成及初始化。

每个细部分类对应一个个体。实现时, 我们专门设计了一个页面, 系统管理员可以根据需要方便地利用此页面增加一个新的细部分类。因此, 个体的数量就是提供细部分类的数量。每个个体的基因是随机选择的, 它们可以有重复。

每个个体所拥有的独立搜索引擎序列的顺序也很重要, 它作为总的搜索结果排序的依据。如果某个独立搜索引擎排在第一个, 那么它的优先级最高, 输出时, 对应结果输出的优先级最高。

(2) 开始重组 (即杂交) 。

我们任意选取两个不同的个体, 然后:“杂交”它们的基因。先产生两个随机数 (随机数范围[1, 基因个数]) , 然后交换这两个随机数所对应的基因。

(3) 变异。

和自然界的现象一样, 变异的概率是不应该是很高的。但是过小的变异概率也是不合适的。很有可能通过变异, 某个个体发生跳跃性的改变。

上面我们提到, 适应函数是遗传算法的关键, 它是本设计不断“进化”的源动力。我们可用图2来表示它的重要性。

对于本设计来说, 数值化的计算适应函数的值是比较困难的, 因为衡量每个独立搜索引擎的性能参数多, 我们无法确切地知道它的具体数值, 即使知道了, 适应函数本身的定义也是困难的, 有可能适应函数本身是不确切的, 它不能准确地反映出个体的“适应性”。还有一点最重要, 就是这些参数是时时刻刻在变化的, 如果计算具体的函数值, 将给系统的更新、维护带来极大的困难。因此, 在本设计中, 我们取消了“适应函数值计算”这一步骤, 同时我们也取消了“满足适应条件”这一步骤, 取而代之的是“运行条件”。

在传统的遗传算法中, 如果个体不满足结果输出的条件, 则继续此算法的运行, 直到满足结果输出条件为止。但在本设计中, 我们并不知道正确的结果应该是什么样的, 具体的值是多少。也就是说, 这个结果是不确定的, 它跟用户的访问情况有关。现在, 我们通过“运行条件”使遗传算法运行下去, 这个运行条件可以由我们自己设定 (类似于数据库中的“触发器”) 。它实际上是变被动运行为主动运行。在这里, 运行条件是一个时间值, 只要达到一定的时间, 我们就促使遗传算法运行, 它更符合自然界生物进化的规律。

本设计的最终使用者是用户, 那么用户的评价是最重要的。如果用户对某一细部分类的搜索能力比较满意的话, 总体的访问量就会随之上去, 反之, 则会下降。总之, 客户的访问行为是元搜索引擎搜索能力优劣的“晴雨表”。那么, 如何知道客户的访问行为呢?我们可以在网页中编写一些代码, 来自动地将用户的访问行为记录在数据库中, 通过对其分析, 我们可以发现一些有规律的东西, 进而定义出相应的适应函数。在本设计中, 只要点击一次搜索结果, 那么相应的数据就会记录在数据库中。用户访问的Session (“ID”) 号、访问的大类别, 访问的细部分类, 点击的URL, 点击的时间记录在数据库当中。经过一定周期后, 如果对应的细部分类的点击次数增大, 那么说明此细部分类得到用户的认可, 说明其对应的独立搜索引擎序列较好。经过一定周期后, 如果对应的细部分类的点击次数减少, 那么说明此细部分类没有得到用户的认可, 说明其对应的独立搜索引擎序列不好, 有必要对其进行更改。

(5) 强行赋值。“强行赋值”是对现有遗传算法的一个改进。在变异后, 我们通过对用户查询日志的分析, 可以知道在每个细部分类中, 点击次数最多的对应独立搜索引擎的性能是最出众的, 它是最优的基因。我们把这个最优的基因赋予此个体的第一个基因。这样经过一段时间的调整, 所有个体的第一个基因是最优的, 再通过后面的杂交和变异, 整个个体向着优化的方向发展。

传统的遗传算法先通过适应函数的计算选择一部分基因, 然后再进行杂交、变异。而在改进后的遗传算法中, 我们先直接进行杂交、变异, 然后从每个个体中选择一个最优的基因进行强行赋值。这一步骤具有以下优点:

(1) 简化了算法运行的时间, 提高了系统更新效率。我们不用逐个计算各个基因的“适应值”。我们只需从每个个体中选择一个最优基因, 对于本系统来说是非常容易实现的。

(2) 它保证了最后基因序列的正确性。利用传统的遗传算法变异后, 有可能这个序列的第一个基因性能非常不好, 而第一个基因所对应的搜索结果首先显示在用户面前。而此步骤的运行则可以避免这种情况的发生。经过一段时间的运行, 每个个体的最优基因可以出现在个体的其它基因中, 使系统更快速的向着更优的方向发展。

总之, 结合本设计的实际情况, 通过对遗传算法的改进, 较好的实现了本系统的“进化”功能, 从而更好的提高了用户满意度。

摘要：浅析遗传算法在面向主题的元搜索引擎设计的改进及应用。

【主题搜索】推荐阅读：

主题搜索引擎10-12

搜索引擎价值型搜索03-11

搜索算法07-19

搜索方法07-20

搜索雷达01-18

本地搜索01-20

搜索技术05-17

搜索优化05-18

搜索工具08-07