主题搜索引擎(精选10篇)
主题搜索引擎 篇1
随着移动终端的普及, 互联网日益壮大, 网络中的信息总量呈指数增长。如果从如此大量的数据中获取有用的知识成为了人们面临的一个难题。在此背景下, 搜索引擎帮助人们检索信息, 成为了人们生活、学习的坚强后盾。
2011年上半年, 搜索引擎的使用者已经达到3.86亿, 比2010年整年的数量增长1153万人, 搜索引擎已经在人们的日常工作、学习和生活中扎根, 成为了不可或缺的一部分。
随着网络信息的不断增长, 搜索引擎也暴露了很多缺点, 比如, 返回的信息太过笼统, 分散, 不能很好的反应用户所关心的问题。垂直搜索引擎是具有搜索针对性的搜索引擎, 相比普通的搜索引擎, 更加智能化, 它以搜索主题为目标, 提高了搜索引擎的搜索相关度。
垂直搜索引擎与普通搜索引擎最大的不同在于有没有对主题进行判定。普通搜索引擎抓取网页时没有进行主题判定, 以量为目标;垂直搜索引擎是尽可能多抓取与主题相关性大的页面。本文主要研究垂直搜索引擎的核心, 即对主题相关页面的抓取方法。
垂直搜素引擎
垂直搜索引擎 (Vertical Search Engine) 是针对特定领域、人群或者某一需求, 进行某一方向或主题的信息查询。通常具有专、精、深的特点。与普通的搜索引擎相比, 它的受众主要是用户特定的兴趣或某一科学领域。它的搜索是为主题为单位开展的, 为用户提供某一主题的相关信息。
其主要特点可概括如下
1专业性;面向的是特定的领域。2针对性;搜素的信息都关于同一主题。3局部性;不会在整个互联网上进行搜索。
根据其特点, 我们在对垂直搜索引擎进行改良时, 可考虑使其尽可能多的搜索相关的网页, 尽可能少的搜索无关网页, 并且相关网页的相关性要越强越好。这可成为判断垂直搜索引擎优劣最直接的标准。
垂直搜素引擎系统架构
垂直搜索引擎和普通搜索引擎在系统架构上差别不大, 他们都分为信息采集和信息处理。
信息采集是有网络爬虫来实现的, 然后把采集到的信息判定主题、分析信息链接, 最后简历信息索引。
网络爬虫是web自动抓取程序, 它负责遍历互联网来抓取相关主题的web页面, 是搜索引擎最核心的部分。它的规模和功能大小基本决定了搜索引擎的搜索能力和适用范围。由于垂直搜索引擎中的网络爬虫用于抓取某一主题的相关页面, 所以也可称之为主题爬虫。
信息的判定主题是有主题判定算法来实现的;链接分析是通过分析页面之间的链接关系来确定网页之间的紧密程度和重要程度。建立索引是为了能更高效的多次访问web页面。当检索页面中的某个部分时也可通过索引尽快定位。
信息处理主要是面向用户的搜索给用户的反馈, 比如, 搜素缓冲、网页评价等。
垂直搜索引擎工作流程
(1初始化主题词词库和存放URL的数据库, 为主题爬虫抓取页面做准备。
(2) 主题爬虫访问互联网, 根据REP协议 (Robots Exclusion Protocol) 进行页面的采集
(3) 主题爬虫把采集的页面送传服务器, 服务器进行连接解析, 并建立索引。
(4) 文件内容解析, 讲提取的URL保存, 并交予主题爬虫进行下一次深度抓取。
(5) 使用主题相关性判定算法对已爬行的页面进行判定, 保留相关性较高的页面和连接。
(6) 对抓取网页中的重复内容和URL进行过滤
(7) 根据web页面的标题、时间和主题内容建立索引。
(8) 搭建服务器进行数据处理工作, 与用户进行交互。
垂直搜素引擎的改进研究
如何从主题Web页面中提取出相关性更高的信息, 是我们提高搜索引擎效率最直接的方法。从海量数据中判别出有效地信息的方法有以下几种
(1) 基于元数据的判别方法
其表现形式为:
即在页面中引入标签。HTML规范已经引入了meta的元数据标注, 以此来提高信息检索的效率和准确度。
(2) 基于链接标签数据的判定方法
当创建一个网页并添加超链接时, 实际上包含了该页面设计者对所链接的页面的认可, 则链接标签在网页的信息提取上起到了一定的作用。
网页中的超链接实际暗含了网页设计者对链接母页面与子页面关系的说明, 已经对子页面的信任, 一些非法的恶意链接除外 (这种链接毕竟是少数, 暂不考虑) 。
通过对链接中的属性、文本和上下文进行标签的主题相关性分析, 能够有效的判定这个页面的相关性, 从而给主题爬虫更多的信息查询相关页面。HTML中用于超链接的标签有
1) image
2) area
3) map
4) anchor
5) frame
这些标签都有src属性, 用于标注文本, 实现连接
(3) 基于链接结构分析的判定方法
研究表明, 由于Web网页中存在着许多的超级链接 (Hyperlink) 并且能从这些链接中挖掘出许多重要的与主题相关的信息, 所以常把这些研究这些超级链接的工作称作为结构分析 (Structure Analysis) , 或者叫超链分析。
基于连接结构的分析是指是指对web页面中超链接 (Hyperlink) 所产生的页面关联性的研究分析。假设页面A与页面B通过超链接关联, 且A是主题相关的页面, A指向B。在此假设之下, 我们可以分析得到:
1) 页面A与B是相关联的;2) 页面B也是主题相关的页面的可能很大, 或许主题相关性不如A, 或者跟A一样。
并不是所有的链接都是可靠的, 所在在分析第二点时有多种情况。有时候B页面纯粹是广告性质的链接, 或者是导航链接, 或者是欺骗性链接。但从总体上看, B所带来的主题相关性还是可以接受的。
4) 基于页面语义信息的判定方法
基于页面语义信息的判别可能在计算上更加繁琐, 花费的代价较高, 但比较而言从语义理解还是较好的页面主题相关性的判别方法。就应用的实际情况看, 主要有全文本扫描、布尔模型、向量空间模型等等这些在信息检索领域中较为经典的方法。
基于页面语义信息的判定方法已经归属于人工智能、机器学习相关的交叉学科方法, 语义理解与文本相比还是较智能化的方向。但它的实现会更加繁琐, 花费代价更高, 在实际应用中会有阻力。其经典方法主要有1) 全文扫描2) 布尔模型3) 向量空间模型
结论
在提高垂直搜索引擎的主题相关性方面, 主要的改进方法来源于基于链接标签数据的判定方法和基于链接结构分析的判定方法, 可以根据实际情况设定算法中的链接地址的依赖关系, 考虑相似相近词语, 重复链接, 相似链接等因素, 提高泛化能力, 使算法更加只能, 得到较好的准备率。以此同时, 也要对算法的时间复杂度进行分析。较短的时间也是我们的优化搜索的目标之一。
摘要:随着互联网的迅猛发展, 网络中的信息急剧增加。为了在海量的信息中快速定位信息, 搜素引擎应运而生, 并成为了互联网中不可缺少的一部分。人们通过搜索引擎得到的结果有时候并不尽人意, 基于主题的垂直搜索解决了这个难题, 本文主要对主题相关性判断方法进行研究, 使搜索引擎反馈出一个更合理、更相关的结果。
主题搜索引擎 篇2
【找】:搜索引擎垃圾就是不受搜索引擎欢迎的信息,尤指为了在搜索结果中获得好的排名而采用“欺骗”搜索引擎的方法,采用垃圾信息的网站一旦被搜索引擎发现,将会收到一定程度的惩罚,作弊严重的网站可能会永远被该搜索引擎拒绝收录,
--------------------------------------------------------------------------------
在早期的META标签检索为主的搜索引擎中,通过一定的“技术手段”,也就是用误导的方式获得在搜索引擎中好的排名有时是可以做到的,因此这种“网络营销技巧”也就广为流传。 直到最近,仍然有一些读者询问关于如何设计“桥页”之类的问题,其实这也不奇怪,现在已经出版的书籍和网上有关搜索引擎登录技巧的文章中,仍然有大量相关的内容,有些可能是在几年前写的,有些是没有实践经验的作者或者初学者参考以前的资料重新写成的,这些过时的信息仍然在影响着刚加入的网络营销实践者,而这些问题几乎没有任何中文研究文章,因此,很有必要对搜索引擎垃圾问题做一些说明。
不退阉饕擎对垃圾邮件的定义也有一定差别,例如google在举报的垃圾信息的表单(www.google.com/contact/spamreport.html)中列出了下列几项内容:
1)隐藏的文字或链接;
2)容易误解或堆积的词汇;
3)与google检索不匹配的网页;
4)伪装的网页;
5)欺骗性的网址重新指向;
6)专门针对搜索引擎的入门网页;
7)复制的网站或网页,
此外,google认为是垃圾信息的也包括其他一些方面,如用图片和无关的词汇填充网页、同样的内容出现在多个域名或次级域名的网页、链接了被认为是低质量的网站,以及容易与知名网站误导的网址(如 www.yahhoo.com)等。【参考资料来源www.searchenginewatch.com/searchday/article.php/2159061】
搜索仪Inktomi认为是垃圾信息的主要内容为:
1)隐藏的、欺骗性的、以及与网页内容不相关的文字;
2)META标签中的内容并非网页内容的真实描述;
3)没有明确的目的有意设计重新指向的URL;
4)利用程序使得在搜索结果中出现大量同样的网页;
5)有意设置让人误解的链接;
6)并不反映网站真实内容的入门网页或者隐藏的网页;
7)自动产生大量无关的垃圾链接。
主题搜索引擎 篇3
全球最纠结的中国经济
中国三十年来的改革开放,其实是摸着石头过河。前两天在微博上看到一个笑话,美国人在桥上走,突然看到桥下有人在过河,一边摸着河里的东西一边过河,美国人很奇怪地说:“你在摸鱼吗?”中国人说:“不是,我在摸石头过河。”美国人说:“你为什么不从桥上过呢?”中国人回答:“那不行,这不符合中国的国情。”我们明知道有大桥可以走,我们还是爱摸着石头过河,这种摸着石头过河解决容易问题的方法,应该说已经走到了尽头。容易解决的问题我们都解决了,剩下的都是难的,比如重工业化和环境污染的问题,已经到了难以忍受的地步,我们看到各种颜色的污水直接排入河流,甚至有些是饮用水的水源。
多年前,有人知道我要回国的时候,善意地提醒我,说你从美国回来,要做好思想准备,你吃的喝的东西,往往都是带毒的。我问怎么办呢,铁人王进喜有一句话,宁可少活十年,也要拿下大油田,我想回国的人基本上都做好了少活十年的思想准备,当然这是一句笑话。但是我听到,几个好朋友联合一个信得过的农户,定点为他们养猪养鸡种蔬菜,他们不在外面公开市场买吃的东西,完全自给自足。这看起来非常可悲,但如果讲商业模式的话,无疑又是巨大的商机,有的企业现在就专门做这种所谓的原始农业,为需要的阶层提供定点的、完全安全的食品,这里面的商机也就很大。
目前,中等收入和劳动力成本上升的矛盾,也逐渐显现出来。中国如何突破所谓中等收入陷阱,我有两个观点。一是我们首先要突破中等道德陷阱。如果我们整个国家道德水平,或者商业道德水平不能突破中等甚至偏下的状态,我们这个国家要突破中等收入陷阱这是不可能的,我还没有看到过一个国家能够有高等的收入、低等或者中等的道德水准。二是控制贫富差距。我们的收入不断地上升,但是这对企业的成本压力也越来越大,以前有一些人的观点,我们的核心竞争力是因为穷。因为穷,我们的劳动力成本低,然后把这种劳动力成本发挥到极致,这就是出口导向型经济最重要的支柱。现在我们不那么穷了,富人多了,老百姓还是很穷,我们如何把财富转移到穷人手里?我们的国家能够举国之力搞世界上少数国家能做的高科技,但同时我们的儿童要六十多个人挤在一辆只能乘坐9个人的面包车里面,这是什么样的一种差距?这种差距带来的矛盾会越来越激烈,而对我们企业带来的压力也会越来越大,这又是一个问题。
股市和金融市场,这一点大家体会尤其深刻,我们的股市是全世界今年以来,涨幅最差的股市之一,跌了10%左右。而我们的GDP,按照最近的统计应该是9.1%的增长。全世界应该还没有这样的国家,GDP以超高速持续发展,而这个股市全球排名倒数几名,所以这里面的矛盾是内在的。股市已经完完全全沦为一个圈钱的工具,但是这种模式却大行其道,给整个股市带来严重的伤害,而且有可能三五年都积重难返。还有房地产,大家都深有体会,房地产对经济的刺激和拉动,应该说是贡献最大的,但是现在这个局面又是对经济带来的阴影也是最大的。明年的经济会怎么样,很大程度上就取决于政府对于房地产政策的拿捏,到底坚持到什么程度。
国有企业和民营企业的关系,在有些领域也达到了难以调和的地步。比如说炼油,国有企业炼油亏损得一塌糊涂,另一方面民营企业根本拿不到原油,只能重新冶炼次等的油,而民营企业炼这样的次等油都还有钱赚,中石化、中石油还要亏损,所以这样一种矛盾也是越来越明显。
再比如汇率和出口拉动,美国参议院通过了一个法案,要求中国政府升值人民币,美国参议院要以超过2/3多数票通过这个直接针对汇率的提案,这就意味着在未来的一两年内,中国政府在这方面承受的政治压力会越来越大。虽然人民币在三五年里面已经有了相当大的涨幅,但是未来,不要说破六很难抵抗,甚至更低的水平也是可以预见得到的。种种结构性的内在问题,没有很好的解决方法。所以中国的经济,成为全球最纠结的市场之一。
新引擎往往伴着风险
我们内在结构有太多不合理和纠结之处,有人把这种情况叫做冰火两重天,这听起来似乎有点夸张。有的人反问楼市真的有泡沫吗?张五常就持这个观点,说泡沫应该是一碰即破的,如果真有泡沫,我们的楼市在重重打压之下还没有破,可见这又不是一个泡沫。所以楼市持续在高压下的坚挺,和我们股市的低迷又形成尖锐的对比。所以如果要去判断未来的经济走势的话,我个人的基本判断,我们发展的速度会明显放缓。悲观的观点认为中国的经济可能会进入一个滞胀阶段,我们事实上的经济发展,GDP会低于我们的通货膨胀,这当然是一种理解方法,我们9.1%的GDP增长,这里面有多少是通货膨胀的因素?
有的人认为,通货膨胀的比例甚至已经超过了我们的GDP。我们官方的数据,通货膨胀现在已经回落到5%左右,但是老百姓所能够感受到的通货膨胀应该是超过10%的。通货膨胀如果超过10%,GDP的增长9.1%,事实上我们的经济是在负增长,也就是我们可怜的GDP增长都是因为多发钞票得来的。所以在这种情况下,我们的GDP能不能维持到8%的原定水平,我个人还是持悲观的观点。传统的经济发展模式,比如出口导向型,已经遇到了巨大的瓶颈,不转型则面临绝境,必须要寻找新引擎。但新引擎往往伴随着巨大的风险,而且往往是在被逼无奈的情况下才被迫走这条路,也就是企业要革自己的命是非常不容易的。
有一家A股上市企业,叫汇通能源,原来这家企业做机械设备,其董事长是我的学生。4年前这个学生EMBA课程读完了,开始写论文,题目是写风能行业。我当时觉得很奇怪:“你一个做机械设备的企业为什么要写一篇关于风能的EMBA硕士论文?”他说:“我们正在寻求转型,寻找新的发展引擎,在风能这样一个国家鼓励的新领域能够大展拳脚。”当时我觉得他把这个作为可能的路径之一,但后来我慢慢了解到,原来他们是真的铁了心要往这个方面去转型。
今年4月份,我去了一趟呼和浩特。他们在内蒙古的第一个风能发电厂,真的投产了。但是这个转型谈何容易?要把原来生产机械设备的工厂全部关掉;还转做了房地产,不用房地产来进行中间的搭桥,转型恐怕还转不过去,把房地产赚的钱再转到风能行业。现在第一期投产了,最近他跟我说他们已经收到几千万元电费,看来运作得不错。
当然我祝他好运,但是我想说的是,即使是这样的转型风险也是巨大的。他从4年前开始布局,还算是赶了一个大早,有没有赶到早集呢?也未必,因为在开幕典礼上,内蒙古的发改委主任当着众人的面,就说请大家不要跟在他屁股后面,要他批更多的产能,已经没有办法批了。按照他的说法,风能在内蒙古已经达到饱和了。大家知道风能是一个所谓的垃圾电,它的比例不能太高,它和正常的发电是反过来的,正常的白天用电多,但是风是晚上大,所以风能发电晚上的电量大,有的时候有风有的时候没风,这个起伏又要靠传统的火力发电维持,所以又很容易碰到瓶颈。
新引擎重在商业模式的创新
如何实施转型呢?这也是难题所在。我认为新引擎可能在以下9大方面,当然,新的引擎,未必是在“铁公基”(即铁路、公路、基础建设)。我们在“铁公基”上面已经投入得够多了,4万亿基本上都是投到这里了。我曾经打过一个比方:我们就好像一棵植物很干了,然后一桶水不管三七二十一直接就浇上去。未来引擎一定是紧跟政策,“十二五”规划的七大新兴行业。如果你已经在这七大新兴行业了,祝贺你;如果就像我这位学生一样4年前已经开始在里面布局了,尚且还会受到新的政策或者新规划的制约;如果你还没有的话,我奉劝你,不要再想办法往里面挤了。因为已经太晚了,而且这些行业也没有大家想象的那么光鲜,比如光伏行业,目前整个行业已经陷入了非常难的困境。
即便有些行业受到国家鼓励,但是也不应该一头扎进去。选行业不如选商业模式,你抓住自己熟悉的行业去做,做熟不做生,这是一个颠扑不破的真理。如果说有捷径的话,那就是中国未来二十年将迎来品牌行业的提升。在中国有一个现象,品牌老化的速度比发达国家要快很多,很多年之前我的同事就总结了一个规律,各领风骚三四年,我们的品牌好一点就是十年八年。前一段健力宝出了很大的丑闻,说送给奥运冠军的金罐有可能只是包金而已,健力宝这样的企业曾经光鲜一时,而现在已经是比较落寞了。
这样的一种现象,其实就是品牌的持续投入不够。这方面王老吉给了我们很好的启发。当然我作为商学院教授,经常讲的一句话,还是“要看情况”。很多学生觉得很不过瘾,说教授你能不能告诉我一种不需要看情况我只要去做一定能成功的模式,我说对不起,一定要看情况。我注意到有的咨询公司,之前给王老吉做咨询做得很成功,做了很多培训,所以不管什么企业来,他给你做的培训都是一个宗旨——走高端。走高端做品牌固然是一种捷径,可以得到超额利润,但是不等于什么企业都要做高端。中国有些企业就扎扎实实做低端,还是有大的利润可赚。所以每个想转型的老板要考虑的是怎么样找到一条路径,既能够依托原有的商业模式,又能够获得更大的利益。
对于传统行业,我的观点是打通必要的产业链,打通不一定就要通吃,一个很流行的观点,就是叫垂直一体化。在光伏行业就有这个观点,说唯一的优势,就是成本领先,唯一能够获得成本领先就是靠打通产业链。哪怕在这个行业内也是条条大路通罗马,你也有别的方法可做,也有一些比较隐形的方式来打通产业链。比如我认为金融领域的创新机会就会大幅度地涌现,尤其是这一次温州中小企业倒闭潮以后。国家也意识到对金融的控制不能再像以前那么严格,这可能会是一个漫长的过程,但是整个共识在逐渐建立,非传统创新性金融机构会大量涌现,就看我们有没有能力去把握这样的机会。
比如说第三方理财,有一家叫诺亚财富的在纳斯达克的上市公司,就是抓住了监管的空当。券商要开一个新的营业点,那是难上加难,要有关部门审批很多道手续。而作为第三方理财的公司,他的扩张反而不受相关法规的约束,可以野蛮生长。当然大家还是要注意政策风险,但是我想表达的是,这是一个重大的机会。
另外一个机会,是向内需的转变。未来服务行业还是会独领风骚,这方面我再给大家举一个例子。
这家企业叫利安电子超市,从西安开始做小区里的虚拟超市,现在已经扩张到全国20来个省市。这个虚拟超市只需要一个人、一台电脑,往往就在物业里面设一个点,很多日常需要做的事情,都可以解决,比如交各种各样费用,电费、电话费、手机费等,还可以打印发票,还有卖各种票据,比如说火车票、飞机票、彩票。在电脑上还可以进行一般的电子商务买卖,比如直接让超市送蔬菜等,很多老年人不会在家自己操作,到他这个点说我要买什么东西,他可以直接给你完成,所以利安电子超市成为了很多社区的核心。这是一个非常成功的例子,把内需和电子商务相结合,又带有中国特色的商业模式。
快速突破你的边界
电子商务会持续地成为商业模式创新的沃土。这个机会不光是在移动互联网,实体和电商的结合,才是未来的突破点。像苏宁易购这类企业,在这方面就获得了长足的发展。从传统的战略观点看,左右互搏的问题是非常难解决的。实体店上千亿元的销售额与几十亿元的电子商务销售额两边怎么平衡、价格体系怎么样建立、互相的竞争怎么办、是不是中间有一道防火墙、在网上卖的型号就不在苏宁的店里卖等,这些问题都是很有挑战性的。但是一些企业在这方面已经走了出去,也有可能走得不顺,比如美特斯邦威,在线下做得很好,但是在线上试了一两年,现在感觉挑战非常大,就有所收缩。所以这不是一个坦途,但是必由之路。
在这个过程中,很重要的一点是快速突破你原有的边界。过去参加商界传媒的最佳商业模式中国峰会年会让我发现了两只潜力股:一个是京东商城,一个是麦考林。目前麦考林在纳斯达克上市了,京东也在紧锣密鼓的上市筹备过程中。我认为这两家企业商业模式成功的共同点都是快速地突破原有边界,像麦考林,在美国上市虽然遭遇了一些困难,但总体而言非常顺利。这是因为它的一个卖点很清楚,我是中国唯一的“一”,不是三网结合而是三个渠道结合的企业,我是中国唯一一个既有邮购又有网店、实体店的企业。美国人一听这个模式独一无二,难以模仿,我要投资,所以上市就非常顺利。
京东也是一样。2009年京东开始做百货,当时有不同的观点,京东的投资人也坚决反对做百货,但是刘强东说我一定要做,哪怕花1%的精力我也要做。事实上他不可能花1%的精力,这条路虽然艰辛,但现在来看是值得的。百货的毛利大大高过家电的,如果单纯靠家电的毛利盈利,那是猴年马月了。最近京东和当当打图书价格战无疑又体现了其战略思路,那就是快速地突破原有边界。我现在的优点是客单价很高,因为买家电都是几百甚至几千元这样的单子,但是我的客户数量还不够,所以我如果能够把在网上买书的人群抢过来,那这个机会就会大增。
在突破边界的过程中,需要提醒的一点是注重战略联盟,而不是收购。很多企业做了一些收购来突破边界,不仅成本比较高,而且你想要买的他不一定卖。在这个过程中,我们既要关注价值创造,又要关注利润的获取,缩短培育期。淘宝商场在这个方面给了我们很好的启示,把淘宝分拆为3家,提高门槛,当然后来也出现了重大的问题,但是我相信淘宝商城还能够控制局面,在上市这条路上可以走出更大的步子。关键点就是,我原来是免费的,等我到了一定的规模以后,怎么能够既创造价值又能够把这个价值掌握在自己手里。
主题搜索引擎 篇4
1.1 网络爬虫体系结构
网络爬行是指搜索引擎从网络上查找并搜集网页的过程, 其目标是尽可能快速、有效, 多量的搜集与用户需求相关的有用网页及网页间的链接结构。网络爬虫, 是在H T T P协议访问标准下, 跟随网络链接遍历网络空间信息的程序[1]。一个典型网络爬虫体系结构主要由五个模块组成, 待爬行URLs队列 (URLs Frontier) , DNS解析器, 爬行模块, 解析模块, 是否爬行判断模块[2]。
如图1所示, 网页抓取技术是搜索引擎的重要组成部分, 搜索引擎能够从网页采集资源信息主要靠爬虫的工作。
1.2 基于HMM ( (Hidden Markov Model, 隐马尔可夫模型) 的主题页面抓取策略提出背景
目前通用的抓取策略各有其不足, 基于超链图评价的方法存在“主题漂移”的问题[3], 通常认为, 在爬行主题网页页面抓取过程中, 与主题内容相关的网页就包含着指向相关主题网页的链接。然而这一认知忽略的事实是, 互联网中同样存在这样一种情况:爬虫接触的一级页面可能看似不包含给定主题, 但其二级页面中却有可能包含与给定主题相关度极高的内容或链接, 这样就造成了一些主题爬虫丢失了抓取更多主题相关网页的机会。而启发式主题网页抓取策略同样存在“主题近视”的缺点[3], 即在距离页面集较近时搜索性能良好, 一旦页面信息缺失全局性布局则无法完全完整表现w e b整个信息出现“近视”问题。基于此, 提出了一种基于H M M的主题网页抓取技术。
2 HMM在主题网页抓取中的应用
2.1 基于HMM的主题网页抓取策略
H M M模型, 是马尔科夫链的一种, 因为其状态不能直接观察, 所以叫做“隐”马尔科夫模型。它事实上是由具有一定状态数的隐马尔科夫链和显示随机函数集构成的[4], 如图2所示。近年来H M M的应用范围非常广泛, 而这里主要应用H M M的学习特征, 通过训练, 在了解用户浏览习惯的基础上, 返回令其满意的主题相关页面信息。
依图2所示, 构建基于H M M的主题网页抓取模型:λ= (S, O, A, B, π)
隐含状态S:S={Q0, Q1…, Qn+1}, 该状态集中的每个数据Qi表示到达主题页面一定距离的状态值, 此距离用i表示, i=0时, 表示为主题页面。
可观测状态集合O:O={O1 O2…Om}, 该状态集中的每个数据O i表示隶属模式类别为i的页面。
初始状态概率矩阵π:π={P (Q0) , P (Q1) , P (Qn-1) }, 表示隐含状态在初始时刻t=1时的概率矩阵。
隐含状态转移概率矩阵A:A=[a ij]n×n, 该矩阵描述了H M M各个状态之间的转移概率。
观测状态转移概率矩阵B:B=[b ij]n×m, b ij表示Q i状态生成观察值Oj的概率。
2.2 HMM主题网页抓取方法的具体实现
使用H M M模型进行网页抓取的策略思想是:首先获得用户访问主题相关的网址队列, 由网络地址优先值的高低来确定网络爬虫下一步抓取的网页, 然后判断是否重复下载, 若不重复则通过文本预处理等手段进行网页分析, 用H M M参数进行主题相似度计算, 若主题相关则将该网页页面保存至主题网页库中。具体抓取流程如图3所示。
H M M模型系统主要由用户浏览模式学习模块和主题爬行模块两大模块组成, 具体描述如下:
(1) 用户浏览学习模块
用户浏览学习模块主要由浏览搜集网页阶段和H M M训练学习阶段两个阶段组成。
为便于分析用户浏览过程, 构造如图4所示图形, 颜色节点为目标页面, 其他数字节点为浏览网页, 箭头描述网页引用关系。在浏览过程中, 主要进行网页搜集, 将用户访问主题相关的网页浏览的内容及网址搜集起来, 形成U R L队列。
训练学习阶段, 利用H M M模型训练学习特点, 通过训练集对其参数进行训练。训练集为先前收集的所有浏览过的主题相关网页, 按照k均值的聚类方法, 以目标网页为聚类中心, 构建每个网页的向量空间模型, 得出观察状态集合:{page1 (P2) , page2 (P3) , page3 (P0) , page4 (P1) , page5 (P0) }, 初始时刻t的状态值为经验估计值, 使用Baum-Welch算法对H M M的参数进行优化, 通过不断地迭代, 使各个参数逐渐向更为合理的优化值[5]。这样训练的目的是为了增强模型预测的准确性, 避免抓取用户可能不感兴趣的页面。
(2) 主题爬行模块
在该模块, 使用向量空间模型法对已抓取的页面进行分析, 判断其是否与主题相关。网页内容的相关度计算步骤描述为:首先主题爬虫抓取到网页C后确定一组特定的主题向量;其次经过处理提取C的向量空间模型;最后利用余弦相似度函数计算网页与主题相关度。
其中qi是主题网页的向量空间模型权重;gi是队列中某网页经过预处理后的向量空间模型权重, 其计算公式如下所示:
在公式2.22中, i代表某一词条, fi为i在文档中出现的次数, fd为文档中词的总数, N为文档总数, Ni为所有文档中i出现的次数。i在文档中出现的频率用tfi表示, 逆文档频率表示为idfi。
若网页与主题不相关则公式2.21计算的余弦值小于δ, 否则为相关页面。
在H M M模型中可以用参数预测爬虫爬行时某网页链接指向目标网页的可能性, 公式如下:
在搜索引擎广泛使用的今天, 有关于搜索引擎技术的研究越来越深入, 目前网络爬虫抓取主题页面的应用中存在“主题近视”问题和“主题漂移问题”。本文论述了在此背景下应用基于H M M模型解决这一问题的主题网页抓取技术, 重点讨论了该模型的抓取策略应用过程, 在一定程度上提高了主题页面抓取的精度。
摘要:计算机网络技术的飞速发展, 对于搜索引擎技术也提出了更高的要求。文章主要以垂直搜索引擎的主题网页抓取策略为研究内容, 从提高主题网页抓取的准确度和效率出发, 引入隐马尔科夫模型, 并重点讨论了该模型具体应用策略和过程, 该模型的应用方法不仅分析了网页内容, 还考虑网页上下文链接距离结构, 在一定程度上提高了主题页面抓取的精度。
关键词:HMM,垂直搜索引擎,主题页面
参考文献
[1]NAJORK, MARE, AND ALLAN HEYDON.HighPerforrmance Web Crawling[C].Technical Report173, Compaq Systems Research Centef, 2001.
[2]TOUFIK BENNOUAS AND FABIEN DE MONTGOLFIER.Random Web Crawls[C].In Proceedings of the 16th international conference on World Wide Web (WWW’07) , 2007, 451-460.
[3]彭涛.面向专业搜索引擎的主题爬行技术研究[D].吉林大学.2007.6.2-10
[4]朱克峰.基于隐马尔科夫模型的人脸认证算法研究[D].北京交通大学.2009.
[5]杜世平.多观测序列HMM2的Baum-Welch算法[J].生物数学学报.2007 (04) :685-690
主题搜索引擎 篇5
最近这段时间因几个客户的网站连续出现问题,被BAIDU进行降权,甚至被封杀。对于这些出现的问题,我非常的不理解。这些客户并没有进行恶意作弊,优化也是很正常的,是什么原因造成的这些问题?我对BAIDU的这一现象进行了分析。这个问题站在SEO的角度去想,主要是网站的自身原因。一个网站可能会因为结构的不合理性就会容易出现类似 的问题。那么如何提升你的站点对搜索引擎的权重?或者是如何解决降权或封站问题呢?今天我们将通过这篇文章与大家讨论研究。
对于出现搜索引擎对网站降权(搜索引擎封闭站点的某个页面,或减少收录量,这就是我们经常说的降权)或封站(搜索引擎不收录该站点,或者将该站点在搜索引擎中的所有页面删除)问题,主要是在于网站本身,刚才说到那两个客户都是出自一个网站设计人员,网站使用的程序基本相同。出现的问题也基本相同,BAIDU只收录网站的首页。而GOOGLE收录效果却良好。
解决这些问题根本上就是要先提升您的站点在搜索引擎中的权重,让搜索引擎认可您的站点。我总结了大概有六点问题:
一、精代码
很多网站都为了自己页面的美观华丽,为了实现一些复杂的功能而使用很多繁琐的程序来进行控制,而且在部署使用这些程序的时候,非常不注意这些程序的工整性,经常没有任何原则的随便胡乱插入,这样会让搜索引擎非常困惑,没有思路。所以为了搜索引擎能够更好的收录您的站点,请放弃那些花哨或一些不实用的功能吧。
二、改结构
网站的结构也就是说网站的整体框架。刚才说到的那两位客户,为了实现一些在线功能,一个页面出现了六个iframe。虽然搜索引擎都在进步,Google已经避免了此问题,但Baidu仍然不是很喜欢存在iframe的页面。
对于网站的内部链接情况,一定要本着清楚明白、保持链接通畅、尽量不要出现死链坏链情况。对于出现死链问题(如果是自己的服务器),可以重新制定错误信息。
定期使用Google Webmaster Tools或Xenu来检查自己的站点。
三、重质量
网站应当具有一定的质量,如果一个网站不能给用户提供有价值的信息和内容,会被搜索引擎大打折扣,搜索引擎也一样很注重网站内容、页面质量,内部链接、外部链接质量和网站最终页面质量。
内容质量,我原来也写过很多文章,对于网站优化来说,我个人认为网站的优质内容在优化中占据很大比重!既然内容很重要,我们应该怎样去创造优质内容呢?搜索引擎读取文章只能把网页中的内容分离,分别建立索引,然后通过分词等技术对内容进行机器编译。再后是用户使用引擎搜索相关关键词,搜索引擎提供内容。按照它对页面网站的权重、唯一性等将网站或相关页面提前或靠后,展示给用户。所以对于优质内容来说尽量使用原创内容。每个人的写作方式都是不同的,所体现出来的断词形式,也肯定不同,所以尽量保证内容的原创唯一性。
Baidu的贴吧、知道、词条,可以说是Baidu的几大产品中最有意义的,这几个产品创造了很多唯一独立内容,而且很多内容都是按照中国人的搜索习惯研制的。也可以说这几个产品为各大搜索引擎都提供了比较好的内容。
页面质量,指的是最终的终端页面质量,内容也算其一了。这里我还要提到一些网站不曾注意的但是很重要的方面。很多网站都有自己的新闻页面,这个页面可以说是终端页面了,但是站长都会忘记增加此类页面的关键词和一些最基本的meta标记,具体标记我不想说了,真的应该注意一下。但切记不要滥用。
搜索引擎的进步体现在不断的为用户提供更高质量内容,并且会更注重网站的时效性,搜索引擎会把最新的新闻相关内容提高到搜索引擎搜索结果前面,尤其是新闻搜索。这块做好之后,也可以给你的站点带来一些流量,一些客户。如何来优化网站实效性呢?如何让搜索引擎更快收录到我的新闻终端页面呢
首先要保证的是网站在搜索引擎中的权重,你的站点与搜索引擎必须要有个良好的“合作”关系,
让Spider们及时去关注自己的网站,甚至驻留Spider,这你就成功了!主要通过高质量外部资源来托起你的站点。网站页面本身应该注意代码简单,加入应有标记,保持良好链接。还有一点非常重要,那就是新闻页面的名称或目录。页面文件名来尽量使用NEWS071109.HTML或071109.HTML这样的名字,因为这些具有时间代表的文件名称是搜索引擎判断新闻的一个重要条件。对于专题来说搜索引擎也非常喜欢,因为他存在唯一性和时效性,对于目录性的专题来说,搜索引擎也比较喜欢。对于内容,该使用H1的地方一定要使用,并且重点词进行加粗等等。
四、轻优化
轻优化,你在做网站的时候,只要告诉你的设计人员SEO的几个大的原则(网络上有很多介绍SEO的文章,我在这里就不多说了),让他按照这几大原则去做就可以了。千万不要为了优化而优化,这样效果可能适得其反。也不要累积关键词,为了扩大自己外链而疯狂的增加链接。我有很多客户的网站都因此而付出了很大的代价,换来的是搜索引擎对网站的降权,才去找原因。
五、练内功
练内功,说到内功肯定要先说到网站的整体结构,有过SEO经验或营销型网站(从用户体验,到用户行为跟踪,再到最后销售为一体的网站)建设的人都知道,网站漂亮不是目的,目的是将网站的访问用户转换,让网站高效率被搜索引擎认可。而要做到这些,网站的结构是非常重要的。说的简单一些,网站结构就是让用户看到他想看的东西,让他能时刻找到想要的信息和产品,并随时找到你的联系方式。搜索引擎方面,让搜索引擎能够顺利通过页面的链接抓取到网站中的每个页面,具体方面如建立有效的链接导航,让每个页面都具备导航功能,能方便引擎,也能方便用户。建立网站地图,将重要的内容或目录在地图中体现。尽量使用HTML页面。
六、练外功
练外功,一个网站有了完美的结构,具备营销而让搜索引擎高度认可的条件后,这就够了吗?我要肯定的告诉你,这是不够的。
搜索引擎认可了,我们还要让它高度认可,这就需要外部链接了。外部链接也要注重质量。如果你的站点是一个新站点的时候,就不要在乎你的外部链接是否是高质量了。你只要找一些结构合理,不存在欺骗性,不存在过度优化的站点去交换链接好了。因为这些站点都是具备一定潜力的站点,有可能将来就会成为一个高权重的站点。
如果你的网站已经拥有了一些搜索引擎方面的权重,那你在选择外部链接的时候就应该注意一下了,绝对不能与被降权的站点进行链接交换和链接。还有一点,就是不要吝啬你的链接,适当去为一些低权重,高质量的网站进行链接。
处处留心,当你看到可以发布自己网站链接的地方一定要发布。但千万不要在那些贴满链接的留言本、论坛等地方发布。
多多加入目录,现在国内有很多非常好的中文目录,如好123,虽然存在收费,如果能加入还是加入的好。265等等很多这样的目录。好好利用。国外的DMOZ也不错,如果能加入国外的目录引擎也可以。
如何面对降权
面对降权要冷静分析,主要问题还是在与网站本身。所以要从网站开始,如果站点已经被降权了我们该怎么办
一般降权分为四种:
1、站点部份收录内容减少
2、网站首页被屏蔽
3、网站外部链接减少
4、网站全部页面删除。
站点收录内容减少,面对此问题,我们网站制作者应该考虑网的内部链接是否存在过失,是不是网站内出现过多死链。
网站首页被屏蔽,这类问题主要出现在BAIDU。这个问题解决比较简单,直接将服务器的主机头索引修改为其他页面。或将首页的文件名称重新修改。但是做这些的先决条件是这个页面没有进行过度优化。
网站外部链接减少,主要是因为你站点的外部连接质量不高,搜索引擎再进行调整的时候将你的外部那些“垃圾”链接删除。所以一定要注重高质量外部资源。
主题搜索引擎 篇6
关键词:搜索引擎,BP网络,人工智能
0 引言
互联网信息量巨大的今天, 传统搜索引擎对于信息检索的方式过于单一, 查准率和查全率都不尽如人意。元搜索引擎的出现在一定程度上弥补了传统搜索引擎查全率不足的问题, 本文在元搜索引擎的基础上使用BP网络对搜索结果进行主题相关性判断, 能够有效的提高查准率。网络中存在的大量的先进的农业信息不能够在农业生产中得到利用, 而开发农业主题的专业搜索引擎将有助于先进技术、最新信息在农业生产中的作用, 因此农业主题元搜索引擎具有非常大的现实意义与研究意义。
1 基于BP网络的农业主题元搜索引擎
1.1 搜索引擎总体设计
本文提出的基于BP网络的农业主题元搜索引擎的系统模型, 其利用元搜索引擎覆盖率高的优势, 结合BP网络的主题相关性判断, 提高了搜索准确率, 弥补了传统搜索引擎的缺陷, 也达到了个性化搜索的目的。该系统模型各个模块的主要功能如下。
(1) 搜索接口模块:该模块是为用户提供统一的搜索界面, 用户在该模块使用查询后自动调用成员搜索引擎按照用户的关键词进行搜索。
(2) 搜索结果处理模块:该模块对成员搜索引擎的搜索结果进行提取文本、去噪声、网页特征提取的工作。
(3) 主题相关性判断模块:调用BP网络对搜索结果进行二次判断, 如果主题相关, 则呈现给用户。
该搜索引擎的系统模型如图1所示。
1.2 搜索结果特征提取关键技术
搜索结果的形式为列表形式, 需要对搜索结果进行特征提取, 然后使用BP网络进行分类。特征提取关键技术包括网页纯文本提取、搜索结果提取、网页特征提取、多线程处理技术。
1.2.1 网页文本提取
从组成上来说, 一个网页包含了主题信息、网页格式、嵌入广告等信息, 大量的网页格式、广告等与网页主题无关的内容在一定程度上影响了主题相关性的判断, 因此在提取网页纯文本后不要对文本按照一定模式进行去噪处理。其主要处理代码如下:
//根据URL获取网页数据
//读取网页文本
//关闭Stream和WebRequest
//使用正则表达式进行去噪声处理
1.2.2 搜索结果提取
主流搜索引擎的搜索结果是页面列表的形式, 首先利用网页文本提取技术提取搜索结果文本, 然后利用正则表达式搜索结果的链接地址, 最后再次利用网页文本提取技术提取搜索结果的文本。
1.2.3 网页特征提取
网页只有经过特征提取进而编码才能够被BP网络所识别。网页特征提取的方法是依次判断网页文本是否包含主题词, 包含该主题词则1, 不包含置0。由此得到一个对应n个主题词的n维向量, 此即是该网页的特征。
1.2.4 多线程处理技术
为充分利用设备的计算性能、提高程序效率、实时响应用户行为, 本文采用多线程技术来并行完成对搜索结果的文本提取、特征提取、主题相关判断的工作。
多线程的主要代码如下:
其中, Web Deal With是进行文本提取、特征提取、主题相关判断、结果展示的函数。
1.3 基于BP神经网络的分类器
BP神经网络具有坚实的理论依据, 通用性非常强, 对于复杂样本非线性分类能力, 经过合理训练的BP网络可以完成各类型网页的分类工作。BP神经网络分类器的关键部分包括训练样本、样本特征、神经元的设计、初始权值、隐层层数、隐层结点数、激活函数。
构造BP神经网络分类器的第一步是收集样本数据, 样本数据选取的是否具有代表性将直接决定了BP神经网络的学习效果, 本文训练样本是从吉林省科技文献信息服务平台搜索到的179篇农业方面的论文和包括中国农科院在内的87个农业类网站, 用这两种样本分别代表农业技术和农业信息两种涉农网站类型。
特征就是某个物体区别于非同类物体所具有的性质的抽象, 训练样本特征的选取直接决定BP神经网络的分类效果, 因此选取的同时包含全面性、代表性两方面。农业类网站具有较强的专业性, 邀请农业方面的专家根据自身经验提取主题词更能够准确代表其特征, 因此本文通过邀请相关方面的专家提取了90个主题词作为神经网络的样本特征。
神经元的设计包括输入层神经元和输出层神经元的设计。本文使用农业专家提取的90个主题词作为样本特征, 则得出输入层神经元为90维特征向量[n1, n2, …, n90]。BP网络的输出层神经元个数在多数研究中跟分类数一致, 可以使用二进制编码来表示各类别。输出层神经元的个数y与目标类别数x的关系满足:
其中, y取刚满足上述表达式的最小正整数, t表示y维空间向量, t= (t1, t2, …, ty) , 这里的t1, t2, …, ty, 是二值随机变量。ti∈{0, 1}, 这些变量为t定义了2t种状态。本文需对搜索结果进行主题相关性判断, 共分为两类:A农业相关主题类和B其他类。所以我们参照上述公式有x等于2。所以, y值取1。
网络训练中用对应的二进制数组形式表示各类别样本的期望输出, 如表1所示。
BP网络的训练过程中, 训练样本分为A和B两类, 其期望输出分别对应为1和0。其识别阶段, 根据BP网络的输出结果将网页判定为与输出值最大的那个节点对应的类别。理论情况下使用1、0分别表示A、B两类, 但是实际运用中使用0.9、0.1分别表示A、B两类。
隐层具有从输入提取特征的作用, 隐层数两层即可。1987年, Lippman的研究成果指出, 有两个隐层, 就可以解决任何形式的分类问题。隐层选择的要是是在满足要求的情况下减少隐层数, 结合本课题的实际情况, 本课题使用一个隐层。
隐层神经元数目的选择通常根据经验和多次实验来确定, 现有的确定隐层数目的方法都没有充分的依据, 《神经元网络PC工具》就指出:“隐含层单元的选取是一种艺术”。本课题中输入层神经元90个, 输出神经元2个, 根据多次试验, 选取45个隐层神经元。
激活函数神经网络的核心, 激活函数包括阈值型、线性型和S型激活函数。S型激活函数可以将输出结果限制在一定范围内的特性, 跟S型激活函数相对应, 在输出层使用线性激活函数。因此, 我们在隐层选择S型激活函数, 对应的在输出层选择了线性激活函数。
2 实验与分析
2.1 系统的总体设计
系统的主要功能模块包括:BP网络训练模块、搜索结果数据提取模块、相关主题判断模块。
(1) BP网络训练模块:本文训练样本对BP网络进行训练。
(2) 搜索结果特征提取模块:在统一的用户界面下, 调用Google、Baidu等成员搜索引擎对关键词进行搜索, 对搜索结果网页进行特征提取, 其主要工作包括搜索结果提取、网页文本提取、网页特征提取。
(3) 相关主题判断模块:使用训练后的BP网络对提取完特征的网页进行主题相关性判断, 并将结果呈现给用户。
2.2 BP网络训练
根据训练样本的情况对训练样本进行二进制编码, 并将训练样本转化为二进制编码, 其编码格式如表2所示。
为了提高BP网络训练效果, 本文采用轮换学习的方式。首先将训练样本按类型均匀的分为A, B, C, D, E五组, 依次取其中的四组作为训练样本, 经过五次训练后, 进行综合分析得出其网络连接权W。表3为五次BP网络训练的统计数据。
由上图可见经过多次训练后, BP网络的训练次数和误差逐渐稳定, 可以用来进行网页分类。
2.3 实验结果
随机从专家提取的90个主题词中抽取10个关键词, 在系统中进行搜索实验, 其搜索结果的准确性实验结果如图2所示。
如图2所示, 通过BP网络对元搜索引擎进行主题相关性判断后, 搜索准确性明显优于传统搜索引擎。
3 结束语
本文提出基于BP网络的农业主题搜索引擎通过构造BP网络分类器提高了搜准率, 同时又引入多个搜索引擎搜索结果进而又提高了搜全率。为解决基于BP网络的农业主题搜索引擎在搜索结果处理过程时间消耗问题, 本文使用多线程技术提高了处理效率, 并且即时将处理结果显示给用户, 减少了用户的等待时间, 时间消耗问题在一定程度上的得到了解决。
参考文献
[1]陈杰.主题搜索引擎中网络蜘蛛搜索策略研究[D].浙江:浙江大学, 2006.
[2]刘玮玮.搜索引擎中主题爬虫的研究与实现[D].南京:南京理工大学, 2006.
[3]Nikolaos Tsantalis, Alexander Chatzigeorgiou, George Stephanides, et al.Design Pattern Detection Using Similarity Scoring[J].IEEE Transactions on Software Engineering, 2006 (32) .
[4]田景文, 高美娟.人工神经网络算法研究及应用[M].北京:北京理工大学出版社, 2006.
[5]王伟.人工神经网络原理-入门与应用[M].北京:北京航空航天大学出版社, 1995.
[6]张乃尧, 阎平凡.神经网络与模糊控制[M].北京:北京清华大学出版社, 1998.
主题搜索引擎 篇7
1.1 个性化搜索引擎
个性化搜索引擎既指界面的个性化, 也是内容的个性化。基于个性化推荐服务的搜索引擎隶属于个性化搜索引擎范畴。界面个性化是提供给用户一种定制搜素引擎的界面风格和布局能力, 并根据不用用户提供其预先定制过的界面;内容个性化是提供用户一种定制搜索结果的能力, 具有不用信息检索需求的用户在使用即便是相同的搜素词语, 也会得到不同的命中结果。显然这里强调的是内容的个性化, 实际意义较界面个性化更大。
1.2 网络爬虫
网络爬虫, 也称为蜘蛛程序 (Spider) 。网络爬虫是一个自动提取网页的程序, 是搜索引擎的重要组成部分。网络蜘蛛是通过网页的链接地址来寻找网页, 从网站某一个页面 (通常是首页) 开始, 读取网页的内容, 找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页, 这样一直循环下去, 直到把这个网站所有的网页都抓取完为止。如果把互联网当成一个网站, 那么Spider就可以用这个原理把互联网上所有的网页都抓取下来。
它在搜索引擎中占有重要的地位, 对搜索引擎的查全、查准都有影响, 决定了搜索引擎数据容量的大小, 而且网络爬虫的好坏直接影响搜索结果页中的死链接 (即指向的网页不存在) 的个数。
1.3 网络爬虫在搜索引擎中的地位
从上面的搜索引擎基本原理上可以看出网络爬虫是一种能够跟踪网络上超链接结构, 并不断进行网络资源发现与采集的程序。作为搜索引擎的资源采集部分, 网络爬虫的性能将直接影响到整个搜索引擎索引网页的数量、质量和更新周期。
2 基于主题爬虫的个性化搜索引擎技术
2.1 信息采集模型
主题爬虫是建立普通爬虫基础之上, 通过在网页的整个处理过程中增加模块实现个性化信息提取。这些模块包括主题确定模块、优化初始种子模块、主题相关度分析模块和排序模块等。 (参见图1)
图1中, 1爬虫模块取回网页。2调用相关度分析模块, 对网页进行相关度分析。3爬行模块根据分析的不同结果进行相应的处理。4爬行模块从数据库取出等待处理的URL继续工作, 循环到第一步, 直至没有新的URL。5对网页的重要程度进行排序。
主题的采集的关键是采集结果和主题的相似度计算。可以通过相关链接信息来预测待采集结果的相似度, 从而体现用户的个性化要求。
2.2 基于主题和用户个性化的爬行器
基于主题的爬行器是指选择性地搜寻那些与预先定义好的主题相关的页面的爬行器。和基于整个Web的爬行器相比, 它并不采集那些与主题无关的页面, 节省了硬件和网络资源, 保存的页面也由于数量少而更新快。它还可以很好地满足一些特定人群对特定领域信息的需求;而基于用户个性化的爬行器是一种轻量级的采集系统, 它的目标就是通过用户兴趣制导或与用户交互等手段来采集信息, 给用户提供个性化服务。
2.3 超链接结构的搜索策略
基于链接结构的搜索策略主要特点是利用Web结构信息指导搜索, 并通过分析Web页面之间相互引用的关系来确定页面和链接的重要性价值。超链分析技术是主题型搜索引擎所采用的一个重要手段, 下面将介绍几种重要的超链分析算法。
2.3.1 PageRank算法
PageRank算法是斯坦福大学 (Stanford University) 的Sergey Brin和Lawrence Page提出的.基本思想是:如果一个页面被许多其他页面引用, 则这个页面很可能就是重要页面;一个页面尽管没有被多次引用, 但被一个重要页面引用, 那么这个页面很可能也是重要页面;一个页面的重要性被均分并将传递到它所引用的页面中。其中页面的重要程度量化后的分数就是PageRank值。Google的搜索引擎用的就是PageRank算法。网络中的超链接结构可以表示为有向图G= (V, E) , 其中V是节点 (网页) 集, E是边 (当且仅当存在从页面i到页面j的链接时存在从节点i到节点j的边) 集.假设一个页面u, 存在T1, T2..Tn的链接网页;参数d代表“随机冲浪者”沿着链接访问网页的衰减因素, 取值范围在 (0, 1) 之间, 根据经验值一般取为0.85。C (Ti) 代表网页Ti链向其他网页的链接数量, PR (u) 定义为网页u的链接权值。PageRank值的计算公式如公式 (1) :
其中e为1/max, 即max为所有网页的总和, 每个网页初始分配的权值为总和的倒数。这种算法的特点指向一个网页的外部链接页的页面等级越高, 则该链接页面传递给该网页的页面等级值也就越高。因而, 一个网页即使只是在内容中偶然提到了一个和查询主题偏离的关键词语, 也会因其居高的页面等级值而获得一个比较高的排名, 从而影响了搜索结果的相关性与精准性。
2.3.2 HITS算法
HITS算法是由Cornell大学的J.Kleinberg提出的。Kleinberg将网页分为两类, 即hubs (中心级别) 和authorities (权威级别) 。authorities为具有较高价值的网页, 依赖于指向它的页面, 而hubs为指向较多authorities的网页, 依赖于它所指向的页面。HITS算法目标就是通过一定的计算方法以得到针对某个检索提问的最具有价值的网页, 即排名最高的authority。但该算法计算量比Page Rank大。且依赖于用户查询的, 实时性差。另外Authorities andhubs算法可能存在“主题漂移”和“主题泛化”的现象。因此, Authorities and hubs算法适合于宽泛主题的查询。
2.3.3
PageRank算法改进。对PageRank算法的改进, 可以通过引入面向主题的思想和对网页链接关系的重新计算来实现。首先, PageRank对页面的重要性发现起到重要作用, 但是它不是面向某一个主题的 (Query-Independence) 。这里对PageRank方法进行了改进:在链接关系的基础上, 加入一定的语义信息权重, 以使得所产生的重要页面是针对某一个主题的, 这就形成了SPageRank算法。SPageRank算法既利用了PageRank发现重要页面的优势, 又利用主题相关性。
2.3.4 主题相关性算法
搜索引擎的根源是传统的全文检索技术, 搜索引擎沿用了传统的信息检索模型。在传统的计算文档相似度的算法中, 以Salton教授提出的向量空间模型 (Vector Space Model) 应用最为广泛。向量空间模型基于这样一个关键假设, 即组成文章的词条所出现的顺序是无关紧要的, 它们对于文章的主题所起的作用是相互独立的, 因此可以把文档看作一系列无序词条的集合。页面主题相关度的计算有多种方法, 例如Naive Bayes、神经网络 (Neural Network) 、实例映射模型、向量空间模型 (VSM) 等。其中向量空间模型对训练文档的要求较低, 从少量的训练文档中就能提取出主要的目标特征, 而且计算简单、正确率较高, 比较适用于网络信息的发现。基于向量空间模型VSM的简单向量距离算法。该算法的基本思想就是计算图2中两个向量之间夹角的余弦值。VSM相似度计算公式如公式 (2) :
结束语
基于主题的个性化搜索引擎主要针对相关主题的采集, 为用户提供个性化信息服务。基于主题的采集的关键是采集结果和主题的相似度计算。可以通过相关链接信息来预测待采集结果的相似度, 从而体现用户的个性化要求。
参考文献
[1]高灵霞.基于主题爬虫的个性化搜索引擎技术分析[J].电脑知识与技术.2009 (32)
主题搜索引擎 篇8
根据本设计的实际情况, 我们对现有的遗传算法作了相应的改进, 改进后的遗传算法如图1:
(1) 初始群体的生成及初始化。
每个细部分类对应一个个体。实现时, 我们专门设计了一个页面, 系统管理员可以根据需要方便地利用此页面增加一个新的细部分类。因此, 个体的数量就是提供细部分类的数量。每个个体的基因是随机选择的, 它们可以有重复。
每个个体所拥有的独立搜索引擎序列的顺序也很重要, 它作为总的搜索结果排序的依据。如果某个独立搜索引擎排在第一个, 那么它的优先级最高, 输出时, 对应结果输出的优先级最高。
(2) 开始重组 (即杂交) 。
我们任意选取两个不同的个体, 然后:“杂交”它们的基因。先产生两个随机数 (随机数范围[1, 基因个数]) , 然后交换这两个随机数所对应的基因。
(3) 变异。
和自然界的现象一样, 变异的概率是不应该是很高的。但是过小的变异概率也是不合适的。很有可能通过变异, 某个个体发生跳跃性的改变。
上面我们提到, 适应函数是遗传算法的关键, 它是本设计不断“进化”的源动力。我们可用图2来表示它的重要性。
对于本设计来说, 数值化的计算适应函数的值是比较困难的, 因为衡量每个独立搜索引擎的性能参数多, 我们无法确切地知道它的具体数值, 即使知道了, 适应函数本身的定义也是困难的, 有可能适应函数本身是不确切的, 它不能准确地反映出个体的“适应性”。还有一点最重要, 就是这些参数是时时刻刻在变化的, 如果计算具体的函数值, 将给系统的更新、维护带来极大的困难。因此, 在本设计中, 我们取消了“适应函数值计算”这一步骤, 同时我们也取消了“满足适应条件”这一步骤, 取而代之的是“运行条件”。
在传统的遗传算法中, 如果个体不满足结果输出的条件, 则继续此算法的运行, 直到满足结果输出条件为止。但在本设计中, 我们并不知道正确的结果应该是什么样的, 具体的值是多少。也就是说, 这个结果是不确定的, 它跟用户的访问情况有关。现在, 我们通过“运行条件”使遗传算法运行下去, 这个运行条件可以由我们自己设定 (类似于数据库中的“触发器”) 。它实际上是变被动运行为主动运行。在这里, 运行条件是一个时间值, 只要达到一定的时间, 我们就促使遗传算法运行, 它更符合自然界生物进化的规律。
本设计的最终使用者是用户, 那么用户的评价是最重要的。如果用户对某一细部分类的搜索能力比较满意的话, 总体的访问量就会随之上去, 反之, 则会下降。总之, 客户的访问行为是元搜索引擎搜索能力优劣的“晴雨表”。那么, 如何知道客户的访问行为呢?我们可以在网页中编写一些代码, 来自动地将用户的访问行为记录在数据库中, 通过对其分析, 我们可以发现一些有规律的东西, 进而定义出相应的适应函数。在本设计中, 只要点击一次搜索结果, 那么相应的数据就会记录在数据库中。用户访问的Session (“ID”) 号、访问的大类别, 访问的细部分类, 点击的URL, 点击的时间记录在数据库当中。经过一定周期后, 如果对应的细部分类的点击次数增大, 那么说明此细部分类得到用户的认可, 说明其对应的独立搜索引擎序列较好。经过一定周期后, 如果对应的细部分类的点击次数减少, 那么说明此细部分类没有得到用户的认可, 说明其对应的独立搜索引擎序列不好, 有必要对其进行更改。
(5) 强行赋值。“强行赋值”是对现有遗传算法的一个改进。在变异后, 我们通过对用户查询日志的分析, 可以知道在每个细部分类中, 点击次数最多的对应独立搜索引擎的性能是最出众的, 它是最优的基因。我们把这个最优的基因赋予此个体的第一个基因。这样经过一段时间的调整, 所有个体的第一个基因是最优的, 再通过后面的杂交和变异, 整个个体向着优化的方向发展。
传统的遗传算法先通过适应函数的计算选择一部分基因, 然后再进行杂交、变异。而在改进后的遗传算法中, 我们先直接进行杂交、变异, 然后从每个个体中选择一个最优的基因进行强行赋值。这一步骤具有以下优点:
(1) 简化了算法运行的时间, 提高了系统更新效率。我们不用逐个计算各个基因的“适应值”。我们只需从每个个体中选择一个最优基因, 对于本系统来说是非常容易实现的。
(2) 它保证了最后基因序列的正确性。利用传统的遗传算法变异后, 有可能这个序列的第一个基因性能非常不好, 而第一个基因所对应的搜索结果首先显示在用户面前。而此步骤的运行则可以避免这种情况的发生。经过一段时间的运行, 每个个体的最优基因可以出现在个体的其它基因中, 使系统更快速的向着更优的方向发展。
总之, 结合本设计的实际情况, 通过对遗传算法的改进, 较好的实现了本系统的“进化”功能, 从而更好的提高了用户满意度。
摘要:浅析遗传算法在面向主题的元搜索引擎设计的改进及应用。
主题搜索引擎 篇9
I SO主题图(Top i cMaps)作为一种知识组织、标引和定位的新兴技术,在组织管理和检索利用知识领域发挥着异军突起的作用。作为实现主题图管理知识的重要应用工具——开源主题图引擎(TM4J),自Kal Ahmed创建TM4J以来已升级到二代主题图索引,并发展成为一种开发主题图公用的核心支持平台。[1]为此,本文就其进行研究分析,抛砖引玉。
一、TM4J
(一)概况
开源主题图引擎TM4J是一个以Java语言编写的专门处理主题图信息的工具箱,或是说是专为主题图开发所提供了一个开源Java开发包。主要目的是创建一个能处理、修订TM API (主题图应用程序接口),管理持续存储内存和Ozone基于对象数据库的开源工具。为主题图数据处理,TM4J可支持基于内存、基于关系数据库以及面向对象数据库的不同存储;为使用Tolog语言查询主题图,分解XTM或LTM语法文件主题图,可使用Hibernate绘图工具为相关数据库主题图设计;为使用XTM语法文件改写主题图,可提供操作的工作界面。[2]TM4J具备含8个英特尔至强的E5335核和16G i B缓存,装有64b i t的L i nux 2.6.25操作系统,编码逾9000行,每个文件近有111个主题组(24.6个主题和22.5个二进制关联之间)。所有文件主题大多含有2到3个标识符。能够提供一套标准技术构建和分享知识,定义复杂的、变化的知识结构,并以元数据形式标识知识,解决了知识组织面临的存储、检索和共享问题。[3]不仅通过主题图API支持主题图数据检索,而且得到了多数开源主题图处理器的支持。官方网站(http://www.tm4 j.org/)刊有有关安装、研发和指令行工具等文件和信息。登录网址(http://sourceforge.net/projects/tm4j/f i les/)可下载试用。
(二)TM4J功能和特征
2004年,TM4J发行适用于老版本XTM1.0标准的097版。2006年,新一代主题图标准(主题图数据模式[IS0132502],XTM 2.0[IS0132503])颁布后应用到许多工程上。TM4J源版和编辑版具备有合并、计算和统计主题图的指令行,可存储于JAR文件(tmp3.jar)和执行)XTM,能提供适用于XTM DTD(XML主题图文件类型定义)编码的主题图入口、执行界面、出口界面,默认执行Java程序包。操控主题图及相关索引,最终可链接到普通的或XTM主题图。为保持TM4J097版结构,尤其在不支持TMDM论述时,使用TM4J的分术语“TM4J1”,在叙述重要结构变化的过程中,则用术语“TM4J2”。TM4J从1.0提升到2.0,即二代主题图引擎保持了TM4J新后端的设计原则,同时具有特点:①完全支持XTM规范;②具有扩展命令行主题图统计工具;③自动合并两个或多个主题图命令行工具;④用Hypergraph可视化工具可编制试验性导航界面;⑤把主题图存贮到面向对象的数据库Ozone之中;⑥导入、导出或交换)XTM和LTM格式文件;⑦执行tolog查询语言。[4]此外,能把小型XTM2.0文件合并为大型XTM文件,通过多种方式更新主题图引擎。
(三)TM4J的项目
TM4J的项目包括:
1) TM4J搜索引擎。一个以Java编写、提供Java API,支持Tolog查询语言、输入XTM和LTM语法的主题图搜索引擎。
2) TMNav。一个针对主题图浏览的Java/Swing桌面应用项目。通过直觉的、基于图形的用户界面,以链接方式支持TM4J后端主题图。导航时,用符合触摸图形文库标准的旋转GUI (Graphical User Interface)和动态图形GUI描述主题图,最终编制出主题图浏览器,编辑器和参照执行工具箱。
3) Panckoucke。一个为描述主题图而编制的文摘图文库,可把主题图中的数据“提升”为更符合专门语法规则的应用数据。除不受限制外,各种数据可用Java数据结构和XML方法来表述。
4) TM4Web。为了把TM4J引擎与网络应用框图整合在一起,TMWeb提供了一套编码和参照工具,也是一种创建、操作和发行主题图的开源工具。通过导航栏链接TM4J子项目,可提供核心主题图API+内存、持续存储、查询和分解等的连续性工具。
5)TMBrowse。一个浏览主题图桌面应用程序。通过Jakarta高速样式引擎可提交稳定的或动态的主题图框架,浏览主题图收藏的网络前端Velocity/Struts整合的参照行为。
6)Apache’s Cocoon和Structs。前者是一个基于Spring框架的围绕分离理念建立的构架,常作为数据抽取、转换、加载的工具或系统之间数据传输中转站。后者是一个用于开发Java Web应用程序的开源Web应用程序框架,也是Java界内最早的MVC (模型视图控制器)框架。通过Java Servlet API的使用和扩展,鼓励开发者采用(MVC)构架。[5]
二、TM4J TMDM界面、主题层和子系统
(一)TM4J TMDM界面各层结构关系图
TM4JTMDM界面的新处理系统包括①兼容层(compatibility layer):主题执行、主题执行和主题图执行;②基本层(Basic layer):基本主题、基本主题和基本主题图。③合并层(MergedTopicMapView):合并主题、合并主题图和合并主题图观看器。他们可以在已设计的不同主题层次内有效进行通讯。下面的解刨图揭示出主题层和子系统(见图1)[6]
(二)TM4J1兼容层(compatibility layer)
该层程序包(org.tm4j.topicmap.tm4j1)含主题图行为、主题行为、基本名称行为、变体行为(当前不执行)、时间行为、协会行为、成员行为、范围对象行为(文摘类别)和主题图对象行为(文摘类别)。每个主题图行为含有一个与合并主题图结合在一起的基本主题图。应合并主题的读取过程直接提交到合并层对象中,同时把写入存储的过程提交到基本层对象中。
(三)TMDM基本执行层(Basic implementation layer)(读写存取)
该层程序包(org.tm4j.topicmap.tmdm.basic)包含描述TMDM对象等级,如基本主题图、基本主题、基本主题题名、基本变体、基本事件、基本协会、基本协会作用、基本可控范围(文摘级别)、基本范围、基本可扩展范围(文摘级)和基本主题图结构(文摘级)。每级都可操作相应的TMDM界面。在ModeIViewControl ler设计中,包含有这种模式的层就意味着修订主题图的行动依赖于基本层,即仅发挥存储的作用。对于两种已合并的基本主题对象来说,只有在基本主题对象中添加一个参照,才有可能(直接)查询到合并基本主题题名的合并集。只有这种合并规则不存在时,基本层才能有效地描述主题图。这种基本主题图的构成行为才能有力地促进层合并。
(四)TMDM合并执行层(mergedmplementation laye)(只读获取)
该层程序包(org.tm4j.top i cmap.tmdm.merged)含有合并的主题图、合并的主题、合并的主题题名、合并的变体(当前不能执行)、合并的事件、合并的协会、合并的协会作用、合并的可扩展范围(文摘级)、合并的范围、合并的可扩展范围(文摘级)、合并的主题图结构(文摘级)和每级都有执行只读TMDM界面的性能等内容。在模式观看控制器(ModelViewController)设计中,含有一套可忽略合并规则的主题图内视图。每看到主题图发生变化时点击一个事件,已合并主题图就会相应更新。
(五)主题图事件监听器(Topic Map Event Lis-tener)
与TM4J1相比,TM4J2重大事件处理模式已经发生了根本性变化,尤其在事件处理模式方面重新进行设计。在TM4J1中,Java组件性质变化监听器或Java组件拒绝变化监听器在注册时正好与兴趣的特殊对象性质相反,这种性质一般由字符串的性质来决定。所以,新事件的处理模式并不适用字符串的参数,也不适用于枚举的常数。而且,每个主题图有唯一正确的事件监听器,其他的主题图中则不包含事件监听器。
三、合并主题图的执行
(一)观看合并主题图
在TMDM合并执行层中的模式浏览控制器(ModelViewControl ler)中含有一个主题图内视图。每看到的主题地图(即一个基本主题地图(Bas i cTop i cMap)发生变化时,已合并的主题地图会相应更新。更新期间,合并的主题图本身也许是一个针对下游接受者的行为。如击中了一个以前两个分离的合并主题图结构(MergedTopicMapConstructs),现在又合并在一起的事件。在实际应用中,也许就采用说明的方式相应地更新了自身的用户界面。通过合并层来观看是唯一的方式,只要能执行只读TMDM界面层,不必执行读写的TMDM界面层。
(二)描述合并主题图
在内部,每个合并的主题图结构(MergedTop i cMapConst ructis)被描述为独立的上游可读主题图结构(ReadableTopicMapConstructs)目录,与合并的主题图观看器(Me r gedTop i cMapV i ew)参照和合并的主题图结构中的答案组合在一起。大多数针对特殊合并主题图的补充标引信息都存储在合并的主题图浏览对象中,并附属在每个合并主题图的合并主题图结构内。其中一种索引是针对合并主题图结构的条目识别符或对象识别符,含有指引定位器到合并主题结构的地图。每次一种上游的可读主题图结构接受一个附加条目标识符的同时,相应地,合并的主题图结构就登记在附加标识符下的索引中。针对这种附加标识符,如果已经存在有一个款目,那么就会进行合并。同样,对象定位器要用同样的方式进行处理。目前,主题的合并与具体化性能同样不被执行。
(三)更新合并主题图
每种主题合并的叙述中,都有一个答案的TMDM定义的叙述等价答案的描述对象。如果两个对象在每一字段中相等,那么这些答案对象本身就相等。答案类字段的选择利用TMDM同等规则来指导。无论创建或是修订一个叙述,都要把一个正确的答案对象输入到一个合并主题图浏览对象中的正确索引中。如果在新的答案对象中索引中已经存在了答案对象,两种答案的叙述就是相等的,就会立即进行合并。如果一个合并主题合并,那么,所有与该主题的参照相关的对象都要更新。因此,为了追求某一特性,每个合并主题因都保留指向该合并主题的几套合并主题图结构;每一套都要针对一种特性。一旦进行合并,就要横跨几套结构,为了追求依赖合并主题图结构(MergedTopicMapConstructs)特性的标准也会相应更新。这也意味着为了反映能够轮流导致更多的合并性能的新价值,它们的答案也要发生变化。
四、结语
TM4J发展至今,已制订了合并优化“TMDM”后端协议和未合并优化“TMDM”后端协议。基于主题图在知识管理上表现出的灵活性和表现力,TM4J较好地实现了主题图组织和管理知识,有效地解决了分类法对文献进行归类中的不足,尤其在数字文献的主题整合和导航中,是未来替代传统分类工具标识和检索文献的理想工具。最近几年,我国对主题图的研究和各行业中的实验已逐渐增多,发表有大量关论文,有力促进了数字知识化管理研究。对TM4J有的的各个项目机制结构进行研究、引进和推广具有较大的现实意义和深远的历史意义。
参考文献
[1]Kal Ahmed,etal.ISO TM4J[S].
[2][OL],[2010-01-16].http://tmra.de/2008/ talks/pdf/207-226.pdf
[4]朱良兵.开源主题图引擎TM4J应用研究[J].现代图书情报技术,2006(10):66-70.
[5]同[2]
主题搜索引擎 篇10
藏文字作为一种古老的文字,文献资源丰富,不仅我国藏族地区使用,尼泊尔、不丹、印度、蒙古等国也有一部分人使用。藏文信息化工作一直得到国家高度重视,1997年颁布了藏文编码字符集国际标准,2003年颁布了国家扩充集标准( 扩充集A) , 2007年微软公司发布了全球范围内第一个全面支持藏文的Windows Vista操作系统。同时藏文字处理的发展也取得了一定成绩,如键盘布局、字体、输入法、编码等。随着互联网的普及和藏文信息处理技术的发展,藏文网站数量和规模发展都非常迅速,而藏文Web信息提取等应用系统缺口却比较突出。主题爬虫能够迅速获取网络上特定主题的大量信息,满足对某一主题的个性化服务的需求,如旅游、信息安全、政府相关政策情报智能检索、藏文网络舆情分析等的研究,它对藏文Web数据挖掘具有重大价值。王兰成[1]通过分析URL链接关系对网页的主题相关性进行了判定研究。李传席[2]根据本体的自适应性对中文Web信息抽取方法进行了研究。崔其文[3]根据领域本体的树状层次,从路径距离、语义的重合度以及深度等方面对语义相似度的计算作了研究。
1 藏文预处理
1. 1 藏文字和藏文网页识别与转换
藏文字是由基本字符及其通过纵向叠加组成的,藏文中的 “音节分割符”确定藏语的基本单位。藏文字的编码方式主要有以下三种: 一为小字 符集法或 动态组合 法,其利用1SO/ IEC10646藏文小字符集( 基本集) 动态组合表示藏文,这种编码是藏文信息化的主流趋势。二为以藏文不带元音的字丁和元音分开编码,最后通过它们的组合方式实现藏文显示,是用西文字符集( ASCll) 的某段码位进行编码。三为国内的基于GB2312的藏文编码方式,其以藏文带元音字丁为编码单位,采用码位互不相同,以整字方式编码的大字符集编码。依据藏文的组字方法,每少于7个字符就有一个音节点。基于ASCll的藏文编码采用单个字节对藏文字符进行编码,所以有些编码采用多字库实现码点到字符( 字丁或者辅音字母组合) 的一对多的映射关系。由此可以根据在藏文Web中,字体采用 < font face = ″: Arial″ > < / font > 或字体样式采用 { font-family: Arial; } 等特征进行判断,其中font face,font-family属性值也可以为: Tibetan Machine Web、Tibetan Machine Web1等。
本文根据藏文 的编码特 征[4],设计藏文 网页识别 算法如下:
判断出网页编码后,按各编码的映射表进行转换,转换为国际标准藏文的编码进行保存。
1. 2 藏文分词
分词和词性标注( 词处理阶段) 方面,虽然还没有真正成熟的实用系统,但已经取得了一定的研究成果。关于藏文分词方法方面,有人用基于规则的方法进行分词,有人用统计的方法即基于马尔科夫模型进行统计。由于藏语虚词的丰富性和多样性[5,6],利用ontology来建虚词的知识库效果更好,比如虚词规则搭配、虚词的功能分类、虚词的兼类库等。因此,本文采用本体构建规则库进行分词。
2 面向领域本体构建
本体: 以一种明确的、形式化的方式给出构成各领域的词汇和关系及其外延规则,表示领域概念及其之间的关系,成为人、 机器、应用程序对概念语义共同理解的媒介,在应用间实现知识的共享和重用[7,8]。本体能够表现词和词之间的复杂关系,是一个大型关系网词表,它比现有资源描述方法能够表达更丰富的关系。它首先对领域概念进行分类层次的划分,再对概念间关系进行描述。领域本体是某一领域的共享概念模型的形式化的明确说明。领域指的是对某一科目分类划分后的范围。它统一管理显性知识,促进知识的获取和共享,解决Web中信息孤岛问题。在语义Web中,大多数轻量级本体充当网页的分类器和标识器。
本文设计了本体管理模块,避免普通定题爬虫策略普遍存在的局部最优的缺点。模块中除了本体构建和通过相似度算法计算文本的主题相关性外,还预留了本体更新模块,以便以后通过机器学习进化原始本体的权值和相似度值,达到改进主题搜集性能的目的。本研究结合斯坦福大学医学院开发本体的七步法和How Net( 知网) 通用本体构建方法来设计领域本体。
第一步确定知识ontology的专业领域和范畴,西藏地区比较热点的信息有旅游、行政区域管理、信息安全等领域。它们的共同点涉及到地名实体。因此,本文先构建一个小型的地名实体本体,实现多领域的共享。
第二步调查是否存在已有ontology复用的可能性。藏文信息化发展起步较晚,还处于自然语言处理初级阶段,现在虽有一些领域词典出现,但语义层面的研究还很少。在此研究中,作者先构建一个简单的地名实体本体,为信息安全研究或旅游信息收集使用。
第三步列出ontology中的重要术语,此时需要收集领域内的信息词,包括尽可能多的概念、关系和属性。领域本体定义如下:
五元组O = { C,R,Hc,fun,instances} ,其中概念顶层为:
其中以山南地区各县为例:
第四步定义类和类的等级体系。通常采用自顶向下法, 由最大概念开始,然后细化概念。如县下面是乡和村:
R = { brother-of,sub Class-of,kind-of,instance-of,attributeof} 。
brother-of表示概念的同义词和语义接近的概念词,subClass-of表示子类关系,kind-of表示包含关系,attribute-of表示属性关系。
第五步定义类的属性,属性关系主要用于推理。
第六步概念实体的属性限制。
第七步创建实例。
最后可以得到如图1所示的本体内部关系与层次图。该图采用Jena RDF进行解析。
3 基于领域本体的藏文 Web 信息抽取策略
3. 1 总体结构模块
本文设计了基于本体的定题搜索策略,如图2所示模型, URL种子库开始形成抓取队列,不为空时下载存到临时数据库中,判断为藏文网页的进行去噪处理,然后转换为统一藏文编码,提取出其中出现的URL地址。因为藏文Web比起中文Web数量上还是偏少,因此我们对尽量多的URL进行链接抓取。接下来对文本内容进行语义相关度判断,此处主要采用领域本体的关联和相关度算法进行语义判断,当计算机的值大于某一阈值的时候,认为此类网页为主题相关的,在数据库中保存其元数据和网页,作其他应用研究的基础。大于阈值的URL增加其子链优先级,否则降低子链优先级。最后当URL为空结束抓取。
3. 2 网页去噪去重
( 1) 网页去噪。不论是属于哪种类型的藏文网页,都包含有许多噪声信息,如广告、版权、导航条、网站目录等。HTML文档主要有头部和主体两个区段,文本主题相关信息通常在 < body > … < body > 段里,其中的hr、address、BGSOUND、del、 map、bgsound、< input > 、 < textarea > 、< select > 、< applet > 、< blockcode > 、form、< code > 、isindex、 < object > 、BASEFONT、 < blink > 、< button > 等修饰的标签直接去掉。并对以下两种链接情况直接过滤: 1剔除URL字符串中包含‘?’、‘#’、‘ = ’,‘( ’ 的链接。包含这些字符的网页是一些脚本语言动态产生的,或是动态网页的查询结果,也有是较长广告URL中的符号,通常不进行爬行; 2锚文本中包含等的链接。
( 2) 网页去重。为每个文档计算出一组摘要,若两个文档拥有一定数量的相同摘要,则认为这两个文档的内容重叠性较高,也即二者内容是转载的[9]。如MD5算法等均可以实现去重算法。若两个去噪网页通过MD5算法计算结果相同,则确定网页重复,不再进行保存和处理。
3. 3 基于语义的相关度判断
采用领域本体概念词典进行语义相关度判断。利用已建立好的领域本体概念层,首先识别并合并brother-of类名。然后采用水平整合的方法来将具有关联的词项统一起来。用向量的形式来表示统一后的文档,向量格式如下:
Vector: { ELEMENT1,ELEMENT2,…,ELEMENTi,…,ELEMENTn} 。
式中ELEMENT为如下格式:
{ [类名集( 包括同义词、等价的类名集合、领域本体库中权值关联的词) ],在文档中出现的次数}
相似度定义: 给定两个向量V1和V2,其中一个向量为训练文档,假设经过发掘等价类名、合并类名,建立映射关系,两个向量如下:
{ [F1S1,F1St1],[F1S2,F1St2],[F1S3,F1St3],…,[F1Si, F1Sti],[F1D1,F1Dt1],…,[F1Dm,F1Dtm]} { [F2S1,F2St1], [F2S2,F2St2],[F2S3,F2St3],…,[F2Si,F2Sti],[F2D1, F2Dt1],…,[F2Dn,F2Dtn]}
其中,F1Sk和F2Sk( 1≤k≤i) ,是映射关系确定的两个文档中的对应等价类名集合,即为统一本体定义的同义词、等价类名、权值关联词的一个词项。F1Stk和F2Stk( 1≤k≤i) 是两文档中有关联词项对应在各自文档里出现的次数。F1Dk和F2Dk( 1≤k ≤m) 是两个文档中相互没有映射关系的词项。F1Dtk和F2Dtk( 1≤k≤m) 是对应的两个文档中无关联词项在各自文档中出现的次数。定义两个向量间的相似度为:
Similarity( vector 1,vector 2)
根据Similarity ( vector1,vector2) 的值来判断主题相关的程度。
3. 4 实验结果
本文测试环境为Heritrix + Lucene,使用Html Parser、Http Client等开源包,实现了一个简单主题爬虫器。因为藏文网页相对汉文网站数量偏少,实验尽量收集了所有链接进行主题判断,搜索深度小于等于7。按照本文策略,选择了有关西藏山南桑耶寺的藏文网站进行测试,采用了一个小型的山南行政区域管理本体,收集了15个常用的URL作为种子,并把其对应的网页作为原始语料,测试超过100个网页。
实验结果能够判断出90% 的藏文网站,但显示时还是会有少量网站是乱码现象,需要手动进行字体修正,才能正确显示, 此现象的原因有可能是因为编码采用了常用字体外的个别类型字体。和基于关键词的藏文网页信息爬取进行比较发现,准确性提高了5% ,查全率提高了9% ,原因是引入了小型本体后,与关键词有关联的词语,如“西藏第一座寺庙”等词汇也是指桑耶寺,通过本体库里概念的关联和相似度计算后,有更多的主题相关信息Web被发现。表1展示了爬取主题为山南桑耶寺相关内容的后台数据库部份信息。但由于语料库较小以及本体构建还处于很基础阶段,这些数据只是对以后的藏文主题网页提取研究提供一些参考。
4 结 语
本策略重点是对主题类型网页的研究,针对链接类型的网页,仅仅是获取了它的URL链接和判断部份优先级,图片类型的网页处理方法文中并没有进行考虑。通过本体概念将关键词映射到语义概念层,从语义层对网页进行关联词的相关度计算, 找到了一种发现主题相关性网页的方法。在实验中能够实现某个领域的搜索,但其语料数据较少、本体构建有限,提高查全率和查准率还有待进一步深入研究。
摘要:针对目前没有通用藏文搜索引擎的情况,提出一种基于领域本体的面向主题的藏文信息爬取策略。策略首先根据藏文和藏文编码的特点,判断出藏文Web并进行映射转换。然后通过构建领域本体,进行概念相似性计算,得到领域主题相关性网页。实验结果表明,该方法能够自动发现领域内的主题相关资源,并且比基于关键词的藏文网页信息搜索能得到更好的查全率和查准率,可以作为藏文Web语义搜索研究的参考。