主题相关性(精选7篇)
主题相关性 篇1
随着移动终端的普及, 互联网日益壮大, 网络中的信息总量呈指数增长。如果从如此大量的数据中获取有用的知识成为了人们面临的一个难题。在此背景下, 搜索引擎帮助人们检索信息, 成为了人们生活、学习的坚强后盾。
2011年上半年, 搜索引擎的使用者已经达到3.86亿, 比2010年整年的数量增长1153万人, 搜索引擎已经在人们的日常工作、学习和生活中扎根, 成为了不可或缺的一部分。
随着网络信息的不断增长, 搜索引擎也暴露了很多缺点, 比如, 返回的信息太过笼统, 分散, 不能很好的反应用户所关心的问题。垂直搜索引擎是具有搜索针对性的搜索引擎, 相比普通的搜索引擎, 更加智能化, 它以搜索主题为目标, 提高了搜索引擎的搜索相关度。
垂直搜索引擎与普通搜索引擎最大的不同在于有没有对主题进行判定。普通搜索引擎抓取网页时没有进行主题判定, 以量为目标;垂直搜索引擎是尽可能多抓取与主题相关性大的页面。本文主要研究垂直搜索引擎的核心, 即对主题相关页面的抓取方法。
垂直搜素引擎
垂直搜索引擎 (Vertical Search Engine) 是针对特定领域、人群或者某一需求, 进行某一方向或主题的信息查询。通常具有专、精、深的特点。与普通的搜索引擎相比, 它的受众主要是用户特定的兴趣或某一科学领域。它的搜索是为主题为单位开展的, 为用户提供某一主题的相关信息。
其主要特点可概括如下
1专业性;面向的是特定的领域。2针对性;搜素的信息都关于同一主题。3局部性;不会在整个互联网上进行搜索。
根据其特点, 我们在对垂直搜索引擎进行改良时, 可考虑使其尽可能多的搜索相关的网页, 尽可能少的搜索无关网页, 并且相关网页的相关性要越强越好。这可成为判断垂直搜索引擎优劣最直接的标准。
垂直搜素引擎系统架构
垂直搜索引擎和普通搜索引擎在系统架构上差别不大, 他们都分为信息采集和信息处理。
信息采集是有网络爬虫来实现的, 然后把采集到的信息判定主题、分析信息链接, 最后简历信息索引。
网络爬虫是web自动抓取程序, 它负责遍历互联网来抓取相关主题的web页面, 是搜索引擎最核心的部分。它的规模和功能大小基本决定了搜索引擎的搜索能力和适用范围。由于垂直搜索引擎中的网络爬虫用于抓取某一主题的相关页面, 所以也可称之为主题爬虫。
信息的判定主题是有主题判定算法来实现的;链接分析是通过分析页面之间的链接关系来确定网页之间的紧密程度和重要程度。建立索引是为了能更高效的多次访问web页面。当检索页面中的某个部分时也可通过索引尽快定位。
信息处理主要是面向用户的搜索给用户的反馈, 比如, 搜素缓冲、网页评价等。
垂直搜索引擎工作流程
(1初始化主题词词库和存放URL的数据库, 为主题爬虫抓取页面做准备。
(2) 主题爬虫访问互联网, 根据REP协议 (Robots Exclusion Protocol) 进行页面的采集
(3) 主题爬虫把采集的页面送传服务器, 服务器进行连接解析, 并建立索引。
(4) 文件内容解析, 讲提取的URL保存, 并交予主题爬虫进行下一次深度抓取。
(5) 使用主题相关性判定算法对已爬行的页面进行判定, 保留相关性较高的页面和连接。
(6) 对抓取网页中的重复内容和URL进行过滤
(7) 根据web页面的标题、时间和主题内容建立索引。
(8) 搭建服务器进行数据处理工作, 与用户进行交互。
垂直搜素引擎的改进研究
如何从主题Web页面中提取出相关性更高的信息, 是我们提高搜索引擎效率最直接的方法。从海量数据中判别出有效地信息的方法有以下几种
(1) 基于元数据的判别方法
其表现形式为:
即在页面中引入标签。HTML规范已经引入了meta的元数据标注, 以此来提高信息检索的效率和准确度。
(2) 基于链接标签数据的判定方法
当创建一个网页并添加超链接时, 实际上包含了该页面设计者对所链接的页面的认可, 则链接标签在网页的信息提取上起到了一定的作用。
网页中的超链接实际暗含了网页设计者对链接母页面与子页面关系的说明, 已经对子页面的信任, 一些非法的恶意链接除外 (这种链接毕竟是少数, 暂不考虑) 。
通过对链接中的属性、文本和上下文进行标签的主题相关性分析, 能够有效的判定这个页面的相关性, 从而给主题爬虫更多的信息查询相关页面。HTML中用于超链接的标签有
1) image
2) area
3) map
4) anchor
5) frame
这些标签都有src属性, 用于标注文本, 实现连接
(3) 基于链接结构分析的判定方法
研究表明, 由于Web网页中存在着许多的超级链接 (Hyperlink) 并且能从这些链接中挖掘出许多重要的与主题相关的信息, 所以常把这些研究这些超级链接的工作称作为结构分析 (Structure Analysis) , 或者叫超链分析。
基于连接结构的分析是指是指对web页面中超链接 (Hyperlink) 所产生的页面关联性的研究分析。假设页面A与页面B通过超链接关联, 且A是主题相关的页面, A指向B。在此假设之下, 我们可以分析得到:
1) 页面A与B是相关联的;2) 页面B也是主题相关的页面的可能很大, 或许主题相关性不如A, 或者跟A一样。
并不是所有的链接都是可靠的, 所在在分析第二点时有多种情况。有时候B页面纯粹是广告性质的链接, 或者是导航链接, 或者是欺骗性链接。但从总体上看, B所带来的主题相关性还是可以接受的。
4) 基于页面语义信息的判定方法
基于页面语义信息的判别可能在计算上更加繁琐, 花费的代价较高, 但比较而言从语义理解还是较好的页面主题相关性的判别方法。就应用的实际情况看, 主要有全文本扫描、布尔模型、向量空间模型等等这些在信息检索领域中较为经典的方法。
基于页面语义信息的判定方法已经归属于人工智能、机器学习相关的交叉学科方法, 语义理解与文本相比还是较智能化的方向。但它的实现会更加繁琐, 花费代价更高, 在实际应用中会有阻力。其经典方法主要有1) 全文扫描2) 布尔模型3) 向量空间模型
结论
在提高垂直搜索引擎的主题相关性方面, 主要的改进方法来源于基于链接标签数据的判定方法和基于链接结构分析的判定方法, 可以根据实际情况设定算法中的链接地址的依赖关系, 考虑相似相近词语, 重复链接, 相似链接等因素, 提高泛化能力, 使算法更加只能, 得到较好的准备率。以此同时, 也要对算法的时间复杂度进行分析。较短的时间也是我们的优化搜索的目标之一。
摘要:随着互联网的迅猛发展, 网络中的信息急剧增加。为了在海量的信息中快速定位信息, 搜素引擎应运而生, 并成为了互联网中不可缺少的一部分。人们通过搜索引擎得到的结果有时候并不尽人意, 基于主题的垂直搜索解决了这个难题, 本文主要对主题相关性判断方法进行研究, 使搜索引擎反馈出一个更合理、更相关的结果。
主题相关性 篇2
我多么希望你能伫足在开心快乐小岛上,即使被捕了,监禁到那儿也不错啊。可是,把你流放到苦难岛,我也是万般无奈,是下下策啊。每天数学、科学、英语、语文、历史社会……都拿出自己的撒手锏――考宝,为了不让它们自相残杀,我无可奈何提前在半路上将你拦截,流放到苦难岛,由我自己监督。不过,我一定不会让你觉得孤单无聊,我会想方设法为你变出点玩意儿来,算是给你微不足道的补偿吧。还好,不会太久,不出四年,你一定会重新回到开心快乐小岛,开心幸福地过每一天,无拘无束,自由自在,没有人再来干涉……时间啊,拜托你,先委屈一下吧!
在这四年里,我要充实地和你一起度过。因为,只有这四年,你是真正地属于我,属于我的人生。我在这苦难岛上,要刻苦追随师傅,四年后,我要走向那为我敞开的北大或者清华,也许还要十年八年的修炼,我还会走向哈佛或者麻省或者剑桥……那时,你会感到欣慰,嘿嘿,那时的四年根本是小事一桩,换来今天的成果,无怨无悔。同时,也许你也会后悔,哎呀,当时为什么怕苦,不在苦难岛上再多呆一年呢?也许,我会变成正义的伏地魔,无人可以媲美……是的,未来真的不可预料。不过,我现在在苦难岛边缘走一步,就代表着我离梦想越来越近。我不会辜负你这四年辛勤的等待!
跟你苦心婆费聊了这么久,你或许有了些头绪了吧!你不会怪我了吧!好了,我要迈出我郑重的第一步,我们四年酸甜苦辣之旅开始了!
主题相关性 篇3
关键词:空间向量模型;网页标题;主题相关度;布尔模型;主题爬虫
中图分类号:TP393文献标识码:A文章编号:1007-9599 (2010) 16-0000-03
Rearch on the Topic Correlation Algorithm based on Page Title
Zhao Deping1,Cai Lijing2,Li Peng2,Liu Yang2
(1.School of Science,Shenyang Jianzhu University,Shenyang110168,China;2.Information College of Shenyang Jianzhu University,Shenyang110168,China)
Abstract:First of all,this paper give the concept of topic-focused crawler;then introduces the two calculation models of the topic relevance algorithm,including Boolean model and vector space model;through the analysis of the two models,a topic relevance algorithm-based page title and vector space model relative.Though testing and analysizing,the algorithm has good practicability,focased crawling system which is based on the the algorithm can take a high degree of Web pages relevant to the topic,greatly improving the efficiency of a web crawler.
Keywords:Vector Space Model(VSM);Page tile;Topic correlation;
Boolean model;Topic-focused crawler
随着网络上海量信息的爆炸式增长,通用搜索引擎面临着索引规模,更新速度和个性化需求等多方面的挑战[1-2]。面对这些挑战,适应特定主题和个性化搜索的主要网络爬虫应运而生[3-4]。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点。
通用网络爬虫的目标就是尽可能多地采集信息页面,而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。这需要消耗非常多的系统资源和网络带宽,并且对这些资源的消耗并没有换来采集页面的较高利用率。主题网络爬虫则是指尽可能快地爬行,采集尽可能多的与预先定义好的主题相关的网页,主题网络爬虫可以通过对整个Web按主题分块采集,并将不同块的采集结果整合到一起,以提高整个Web的采集覆盖率和页面利用率。
一、主题爬虫的概念
定义1:网络爬虫是一个自动提取网页的程序,它为搜索引擎從Web上下载网页,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件[5]。
定义2:主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,对于主题网络爬虫来说,这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。
定义3:如果网页p中包含超链接l,则p称为链接l的父网页。
定义4:如果超链接l指向网页t,则网页t称为子网页,又称为目标网页。
主题网络爬虫的基本思路就是按照事先给出的主题,分超链接和已经下载的网页内容,预测下一个待抓取的URL及当前网页的主题相关度,保证尽可能多地爬行、下载与主相关的网页,尽可能少地下载无关网页。
二、主题相关度计算
主题爬虫的系统组成最初考虑是对页面的过滤,不像普通爬虫对所有页面的链接进行处理,先对页面与受限领域的主题相关度进行分析,只有当其主题相关度符合要求时才处理该页面中的链接,因为如果该页面和本领域比较相关,它所包含的链接和领域相关的几率也较大,这样提高了爬行精度,虽然会遗漏少数页面,但综合效果是令人满意的。因此,主题相关度的分析是主题爬虫设计的关键。
(一)主题相关度计算模型
垂直搜索引擎与通用搜索引擎最大的区别在于垂直搜索引擎是面向某个领域的,因而垂直搜索引擎的网络蜘蛛只采集与主题相关的网页,与主题无关的网页将被丢弃,将此类网络蜘蛛称为主题蜘蛛[6-8]。主题蜘蛛将网页下载到本地后,需要使用基于内容的主题判别方法计算该网页的主题相关度值,主题相关度低于某一阈值的网页被丢弃。主题相关度的计算方法有布尔模型和向量空间模型两种模型算法[10]。
1.布尔模型。在主题判别时,布尔模型是很容易实现的。在布尔模型[9]中,一个文档通过一个关键词集合来表示。同时,某个主题也以关键词集合的形式来表示。在判断文档与某主题的相关度的过程中,相当于是计算两个关键词集合的交集。对基于布尔模型的主题判别模型来说,交集中含有的元素越多,则认为与主题的相关度就越高。可以用文档D与主题关键词集合T之间交集元素的个数占集合T的比例来代表文档D的主题相关度
SIM(D),公式表示如下:
2.空间向量模型。向量空间模型[11](Vector Space Model)由Salton等人于20世纪60年代末提出,是一种简便、高效的文本表示模型,其理论基础是代数学。与布尔模型不同,向量空间模型把用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点(向量),而通过计算向量之间的距离来判定文档和查询之间的相似程度(例如,用它们之间夹角的余弦作为相似性度量)。然后,根据相似程度排列查询结果。在向量空间模型中,文档被形式化为n维空间中的向量,把关键词的个数n作为空间向量的维数,每个关键词的权值 作为每一维分量的大小,则主题用向量表示为:
A=(a1,a2,…,an),i=1,2,…,n,ai=wi
对于页面进行分析,统计关键词出现的频率,并求出频率之比,以出现的频率最高的关键词作为基准,其频率用xi=1表示,通过频率比,求出其他关键词的频率 ,则该页面对应向量的每一维分量为xiwi,页面主题用向量表示为:
用两个向量夹角的余弦表示页面的主题相关度:
(2.2)
指定一个阈值r,当cos<α,β>=r时就可以认为该页面和主题是比较相关的,r的取值需要根据经验和实际要求确定,如果想获得较多的页面,可以把r设小一点,要获得较少的页面可以把r设的大一点。
(二)布尔模型与空间向量模型分析
布尔模型的主要缺陷在于每个关键词的权重都是一样的,它不支持设定关键词的相对重要性,但是其优点也较为明显,它易于实现,计算代价较小。
向量空间模型最大优点在于它在知识表示方法上的巨大优势。在该模型中,文档的内容被形式化为多维空间中的一个点,以向量的形式给出。也正是因为把文档以向量的形式定义到实数域中,才使得模式识别和其他领域中各种成熟的算法和计算方法得以采用,极大地提高了自然语言文档的可计算性和可操作性。
通过对空间向量模型和布尔模型的介绍,我们知道现在垂直搜索引擎大多采用空间向量模型计算主题相关性。这样极大的提高到主题爬虫的效率,也极大的提高了垂直搜索引擎的应用效率,给客户带来了高效的查询效果。与在进行页面的主题相关度分析后,当其主题相关度符合要求时将处理该页面中的所有链接,但其中的链接指向的页面也可能有许多偏离了主题,这一点在网页的标题上就可以看出,现在大多数网页的标题已经很明显的给出了文本的主要描述对象,所以传统的空间模型策略没有注意到网页标题这个重要的角色。针对此提出了一种基于网页标题的空间向量模型主题相关度计算方法。
三、基于网页标题的空间向量模型主题相关度算法Relative
(一)什么是网页标题
通常浏览一个网页时,通过浏览器顶端的蓝色显示条出现的信息就是“网页标题”。
在网页HTML代码中,网页标题位于
标签之间。其形式为:其中“百度人物”就是这一网站的首页的标题。
网页标题是对于一个网页的高度概括,一般来说,网站首页的标题就是网站的正式名称,而网站中文章内容页面的标题就是这文章的题目,栏目首页的标题通常是栏目名称。当然这种一般原则并不是固定不变的,在实际工作中可能会有一定的变化,但是无论如何变化,总体上仍然会遵照这种规律[12]。
例如,现在会看到很多网站的首页标题较长,除了网站名称之外,还有网站相关业务之类的关键词,这主要是为了在搜索引擎搜索结果中获得排名优势而考虑的,也属于正常的搜索引擎优化方法。因为一般的公司名称(或者品牌名称)中可能不包含核心业务的关键词,在搜索结果排名中将处于不利地位。
(二)网页标题的重要性
以Google为例,Google会对其标题标签(meta title)中出现的关键字给予较高的权值。所以应当确保在网站的标题标签中包含了最重要的关键词,即应围绕最重要的关键词来决定网页标题的内容。不过网页的标题不可过长,一般最好在35到40个字符之间。在实际操作中,网页标题不宜过短或过长。太短无法完整的表达网页信息,太长不仅不利于用户识别,而且对搜索引擎来说也加大了识别核心关键词的难度;网页标题应概括网页的核心内容。搜索引擎在进行搜索的时候,搜索结果的内容一般是网页标题、网页摘要信息和链接,要引起用户的关注,高度总结了网页内容的标题至关重要。比如戴尔中国的网站www.dell.com.cn首页标题为“戴尔中国(Dell China)—计算机,笔记本电脑,台式机,打印机,工作站,服务器,存储器,电子产品及附件等”。戴尔的首页标题中不但涵盖了最重要的公司信息,而且还包括公司的主要产品,这就是核心关键词,当用“笔记本电脑”、“台式电脑”这些关键词在谷歌中进行搜索时,戴尔公司的网页都排在第一屏的前几条位置。
(三)Relative算法实现步骤和算法描述
Relative算法具体实现步骤如下:
1.对标题及正文的特征项的选取是通过分词后与主题集合匹配,并通过词频计算来得到与主题向量维数相等的标题向量和正文向量。
2.通过向量空间模型计算出主题和标题的相关度B。
3.通过空间向量向量模型计算主题与正文的相關度C。
4.主题与整个网页的相关度:A=4×B+C。
5.通过详细计算,设定相关度阈值为2,网页与主题的相关度A>2,则认为该网页与主题相关的。
算法4-1Relative
输入:主题集合文本a.txt,网页url
输出:主题相关度
(1)Get topic(String path)//根据路径获取主题文本集合
(2)Compulate topicweight(String topic)//求主题结合权重
(3)String titleStr =p.getURLtitle()//获取网页标题
(4)String bodyStr=p.getParagraphText()//获取网页文本
(5)String titleStrSeg=segment.segment(titleStr)//网页标题分词
(6)String bodyStrSeg=segment.segment(bodyStr)//网页文本分词
(7)Compulate title.length,body.length//计算标题向量长度和网页文本向量长度
(8)If(topic.length
(9){set topicweight,titleweight,bodyweight//设置权重
(10)}else{//如果主题向量长度大于标题向量长度
(11)set topicweight1,titleweight1,bodyweight1;}//设置权重
(12)Last compulate Relative//计算主题相关性
(13)Return relative;//返回结果
四、实验分析
根据系统设置首先是下载所有网页,而后判定主题相关性,与主题相关则放置在相关URL库中,不相关的网页则丢弃。通过本系统运行得出的主题相关网页具有很好的准确性。
(一)主题相关度阈值的选择
普通爬虫是根据设定的搜索深度,对所有链接进行处理,结果返回了大量无效的网页,而且增加了工作量。为了保证爬虫获取的网页能够尽量与主题相关,必须对网页进行过滤,将主题相关度较低的网页(小于设定的阈值)剔除,这样就不会在下一步爬行中处理该页面中的链接。一个页面的主题相关度如果很低,说明该网页很可能只是偶尔出现某些关键词,而页面的主题可能和指定主题几乎没有什么关系,处理其中的链接意义很小。本实验根据详细分析,设置阈值为2.即若计算主题相关度大于2,则认为是相关的,否则不相关。对于不相关的网页则丢弃。
(二)参数设置
1.设置线程数threads。实现按多线程技术可以提高页面的爬取速率,所以本系统设置了线程数量参数标识。
2.设置爬取深度depth。通过设置爬取深度参数可以确定主题爬虫爬取的深度。
3.设置种子站点starting site。通过设置种子站点,可以使主题爬虫选取从哪一个或者哪几个网页开始向下爬取网页内容。
(三)试验数据
根据需要抓取网页的数量级别和运行网络蜘蛛的服务器性能来分,网页的主题相关度判别可分为两种方式:一种是网页主题相似度判别在网络蜘蛛抓取网页之前判断,另一种是网络蜘蛛先将网页下载到本地后在进行主题相关度判断。如果网络蜘蛛的服务器性能较好同时抓取的页面数量级很小可采用第一种方式,相反,如果网络蜘蛛的服务器性能稍差或者要抓取的页面数量级别很大,则采用第二种方式,需要先将网页下载到本地上,然后在进行主题相关度判断,从而决定选择哪些网页和丢弃某些网页[13]。本文,基于系统性能考虑,同时为了提高主题相关算法的准确度,采用了第二种方式进行试验。所以,在这种情况下可以采用明细分工的策略,网络蜘蛛只负责抓取,而单独设计一个主题相似度判别模块专门对抓取下来的网页进行主题判别。
从表4-1可以看出相关与网页总数相比为32.2%。从数据上可以看到,网络蜘蛛从Web上爬取网页置于本地,通过计算得到,与主题相关的网页数仅占了1/3多一点。那就是说,如果不进行相关度判断的话,那么在查看这一主题内容时会出现2/3的无效网页,也就是会有2/3与主题无关的网页,对于用户的查询结果来讲,是无意义的。在此可以看出主题相关度计算的重要性。即是剔除了无效网页,使网页主题高度相关化,简化了用户查询的操作,提高了查询准确性。
从表4-2可以看出,多线程主题相关度效率会更高一些。
五、试验总结
基于网页标题的主题相关度计算,可以在Web上搜集与指定主题相关的页面。而且通过实验表明,该算法具有理想的性能,可以准确地爬行到高质量的网页。
而由于本实验是对得到的某个网页上的所有链接进行直接解析判断相关性的,所以可能会解析大量无用且不相关的网页,如导航链接、广告链接等等,所以要加以改进的就是要在分析相关度之前对得到的链接根据某种算法进行URL排序,使得在分析相关度时优先分析排在前面即质量高的网页。
参考文献:
[1]MURRAY B,MOORE A.Sizing the Internet[M].[S..l]:Cyveil-lance Inc,2000
[2]LAW RENCE S,G ILES L.Accessibility and distribution of information on the Web[J].Nature,1999,400,8:106-110
[3]CHO J,CARCIAM H.The evolution of the Web and implication for an incremental crawler[C].//Proc of the 26th International Conference on Very Large Databases (NVLDB-00),2000
[4]BREW INGTON B E,CYBENKO C.How dynamic is the Web [C].//Proc of the 9th International World Wide Web Conference,2000
[5]刘金红,陆余良.主题网络爬虫研究综述.计算机应用研究,2007,10
[6]向晖.基于Lucene的中文字典分词模块的设计与实现.现代图书情报技术,2006,8
[7]董小英,马张华.互联网信息资源的检索利用与服务.北京大学出版社,2003,7
[8]焦玉英.基于向量空间模型的专题文献过滤算法研究.情报学报
[9]姚琪.垂直搜索引擎系统的研究与设计.上海:上海交通大学,2008
[10]徐海.基于Lucene垂直搜索引擎的研究与实现.西安:西安科技大学,2009
[11]Gsalton,C.Buckley.Term Weighting Approaches in Automatic Text Retrieval.Information on processing and Management,1998,24,5:513-523
[12]ttp://baike.baidu.com/view/1066488.htm
主题相关性 篇4
在这种情况下,垂直搜索引擎应运而生,有效的解决了传统搜索引擎无法满足的市场要求。垂直搜索引擎,就是专为查询某一学科或主题的信息而产生的查询工具,其特点就是“专、精、深”。相对传统搜索引擎的海量信息化,垂直搜索引擎则显得更加专注、具体和深入。由于垂直搜索引擎索引的信息内容仅限于特定主题或专门领域,故其网络蜘蛛只搜集特定的主题信息,这就需要在采集数据时对网页的主题相关性作出判断。而基于超链接分析技术的HITS算法有助于与主题相关信息的采集,可以应用于垂直搜索引擎系统实现中,实现特定主题信息的采集,但此算法在某些情况下会导致对网页的主题相关性做出错误的判断。因此本文提出结合Web页面主题相似度的Hits改进算法,有助于网络蜘蛛对特定主题网页的精准化爬取。
1 基于共引用与共耦合关系Hits算法
基于共引用与共耦合关系算法是基于两种Web页面类型(即权威页面Authority和中心页面Hub)及其关系进行研究。权威页面(Authority)是指人们公认的在某一主题上内容权威的页面,中心页面是指很多指向权威页面的页面。对于这两种类型的网页提取可以通过循环执行以下两个操作来完成:
I操作(计算authority权值):
O操作(计算hub权值):
Hits算法[1]具体步骤:(1)将查询提交给传统的搜索引擎,从搜索引擎返回的页面中选取排名最前的一定数量d的页面构成根集合R;(2)添加所有指向R的页面和所有R指向的页面,扩充得到基础集B;(3)给基础集B中每个页面p定义一个非负的Authority值xp和非负的Hub值yp,这样基础集中所有页面的Authority权威值可表示为权威向量x,Hub中心值可表示为中心向量y。将所有的Authority和Hub的初始值均设为1,通过公式(1)、(2)求得每个页面的xp和yp,直到xp和yp恒定为止。最终返回一组具有最大Authority值和最大Hub值的页面。
若用n*n的邻接矩阵A表示基础集B,当页面p指向页面q,则A[p,q]=1,否则A[p,q]=0;则式(1)、(2)的矩阵形式为:
在每一步迭代后,进行规范化操作,|x|=|y|=1,则最后向量x和y分别收敛到矩阵ATA和AAT的主特征向量。
由于此算法在执行迭代计算时,并没有考虑网页文本内容,只要两个页面存在链接,则邻接矩阵的值即为1,这样HITS算法错误的将许多与主题无关的网页赋予了较高的权值,产生了主题漂移。结果使得对网页的主题相关性做了错误的判断。
2 改进的Hits算法
本文认为,在进行算法迭代计算时,应当考虑到页面本身内容与主题的相似度。因此本文提出,结合Web页面主题相似度对链接赋予合理权重的HITS改进算法。
2.1 页面语义主题相似度
VSM(向量空间模型)是用来计算文档相似度的模型,它是近年来使用较多且效果较好的一种检索模型。这种模型虽然带来了计算和操作上的方便,但是却损失了大量的文本结构信息。而这些信息在自然语言中也是至关重要的。另外,在权重和相似度的计算中也做了许多简化工作。所以计算出的权重未必能真实反映各项的重要性。因此本文结合向量空间模型理论及提取网页特征项来计算页面的相似度。
将用户的查询表达式定义为Q(q1,q2….qn),其中qj表示查询词Tj在查询表达式中的权值,通常用向量Q与D之间夹角的余弦值来求得Di和查询q之间的相似度
当夹角为0时相似度最高为1,表示文档与查询是最相关的。
由于Web文档的半结构化特征,一些索引项出现在特殊位置上,比如:标题、链接等标签出现在不同域。这些特殊位置内容代表了Web文档的重要信息,它们都有其各自的“语义”。因此,索引项出现的位置与其权重密切相关。而向量空间模型中采用tf-idf方法计算索引项时忽略了这些信息的重要性,导致输出结果精度不高。因此除了按传统的tf-idf算法,以文字在文档内部或文档间出现的频率来确定文字权重以外,还应考虑网页中文字出现的标记格式:
(1)链接在方便用户跳转浏览网页的同时,其链接文本
(2)网页标题是网页制作者对网页内容的主题扼要描述,通常网页标题内所包含的文字能代表网页的主题[2]:
(3)网页中的段落层次结构:
因此,本文提出可以提取HTML文档结构特征,加入网页特征因子对tf-idf算法进行改进。即:对于HTML文档不同标签的关键词赋予不等的权重因子。对于出现在
,
标签的关键词赋予较高的权重因子。假设关键词i的权重因子为t,则它在网页Vj中的权值为w'ij=twij。该文根据国内外参考文献及SEO关键词权重比例,在实验中具体权重因子的分配如表1所示。
在改进的算法中,特征项权重取决于二个因素:(1)文字在网页内与网页间的出现频率;(2)文字在网页内容中被作用的网页标记格式。采用这样的改进算法,如果一个文字在网页内多次出现,而在其他网页不常出现,同时,文字作用的网页标记格式重要性又高,此文字将会具有较高的权重。
网页特征项提取可以采用基于DOM的内容提取方法。HTML语言中的标记不是独立的,它们之间有一定的层次关系,可以通过DOM树表示。
2.2 改进的Hits算法描述
1)对基本集B中的每个网页p赋两个值:xp和yp,分别代表authority值和hub值,并赋初值:xp=1,yp=1(i=1,2,3,……,n);
2)计算网页p的语义主题相似度wp=similarity(q,p);
3)计算
4)对计算出的xp,yp进行标准化;
5)如果xp和yp没有收敛,则转向(3)。
3 实验及评价
3.1 实验设计
我们C#语言分别实现了hits算法和改进的hits算法,实验的操作系统为:Windows XP系统,开发平台为Visual Studio2005,开发工具为Lucene.net工具[3]包v1.9。实验中分别对主题java,abortion和movies的2034,1323和1506个页面进行实验。
3.2 实验分析比对
将实验中HITS算法得到的结果页面中前30个页面和改进的HITS算法得到的结果页面中前30个页面分别与主题进行比较,页面主题相关度比对如图1所示。
从实验结果可以看出,改进的hits算法返回网页的主题相关度更高。
摘要:迅速发展的Web给传统的搜索引擎带来了前所未有的挑战,面向特定主题或特定领域采集相关信息的垂直搜索引擎应运而生。在垂直搜索引擎中,网络蜘蛛的爬行策略和主题相关性判定算法是其核心。该文详细介绍了一种主题相关性判定算法-Hits算法,并在此基础上提出了一个改进的主题相关性判定算法,实验表明,改进的Hits算法提高了爬取网页的主题相关度,有助于网络蜘蛛爬取特定主题的信息。
关键词:垂直搜索引擎,网络蜘蛛,主题相关性,hits算法
参考文献
[1]Kleinberg J.Authoritative sources in a hyperlinked environment[C].Pro-ceedings of the9th ACM-SIAM Symposium on Discrete Algorithms.New Orleans:ACM Press,1997:668-677.
[2]Anastasios Tombros,Zeeshan Ali.Factors Affecting Web Page Similarity[C].European Conference on Information Retrieval2005.Spring-Verlag Berlin Heidelberg,2005:487-501.
攀登主题相关的初二作文600字 篇5
在我小的时候,便听说一位叫马云的企业家,创办了“淘宝网”,竟拥有近千亿的巨款!那时,我就想成为一位著名的企业家,赚许多钱,无忧无虑,想去哪儿就能去哪儿,过着幸福快乐的生活。但那时,我还仅仅是为了金钱。
长大后,我经常从电视上看到许多国家、地区的人民居住环境、条件极其落后,他们大都骨瘦如柴,吃了上顿没了下顿,眼睛里透露出深深的无奈与绝望。
生活中,我也经常看见一些孤苦伶仃的老乞丐,他们的子女不抚养他们,只得敲着破碗,“咿咿哇哇”地出来沿路乞讨,还得忍耐严寒酷暑。这样的生活还有什么意义呢?从此,我的梦想开始不仅仅为了金钱,为了个人的利益,而是给更多的需要救济的穷人、落后的地区送去温暖,送去希望。
我便开始攀登这座“梦想的高峰”。做一名企业家要有优异的成绩和敏捷的头脑。我便将语数外“同步推进”:把语文的基础知识打牢,博览群书,陶冶文学情操,丰富文学修养。认真学习数学,拓宽思维,举一反三;英语是我们打开世界的钥匙,多阅读,多听讲,为实现自己的梦想而严格要求自己吧!
主题相关性 篇6
比较传统基于Web的采集方法,基于主题的Web信息采集的最大特点就是在采集的同时对提取出来的URL链接进行主题相关性判断[1,2]。不下载网页而通过父网页的信息预测URL所指向网页与采集主题的相关度,然后按预测结果将“最有价值”URL加入待采集队列,并剔除不相关的URL,确保与主题相关度高的链接得到优先处理。基于内容分析算法的优点是具有较好的理论基础且计算简单,但由于这类方法忽略了链接结构信息,因而在预测链接价值的重要性方面存在一些不足。以PageRank[3]和HITs[4]为代表的基于链接结构算法,通过分析Web页面之间的相互引用关系来确定网页重要性,进而决定链接访问顺序,但忽略了页面与主题的相关性,某些情况下HITs会出现主题漂移问题,PageRank不适合于发现主题资源。
采用传统分析方法不能有效预测URL链接的真实价值。为提高链接价值预测的准确性,本文综合基于链接结构和网页内容的分析方法,从链接权威性和主题相关度两方面对链接进行主题相关预测。该研究对我国信息机构进行学科网络信息资源的深度建设具有重要意义和应用价值。
1 主题相关性及语义块链接
1.1 基于页面内容和链接标记预测URL主题相关性
为找到主题相关页面需从多个方面捕捉有用信息,以下网页属性特征对某个URL所指向页面的主题相关性判断提供帮助。
(1) 父页面信息
若父页面内容与主题相关度较高,则父页面所含的链接与主题相关度也可能比较高。
(2) URL地址及相关属性
一个反映主题的页面其URL中一般用到与该主题相关的主题词以区别于其它页面,URL标签中的title、name等属性对于链接的主题识别也有帮助。
(3) 锚文本信息
超链接中的标记文本对该链接所指向页面起概括描述作用。如<a href=”hyperlink”>军事</a>,所代表的页面主题可能是军事方面的,链接周围的上下文文档也可视作链接的描述文本。
(4) 兄弟链接预测
兄弟链接指同一个网页中且在同一个内容块的页面,若一个兄弟链接所指向的页面内容都与主题相关,则这个待爬行URL所指向的页面内容可能是主题相关的。
把链接及扩展链接锚文本作描述文本,并对链接的价值进行预测。在网页源文件中,链接锚文本指由链接标签<a>所包围的文字[5]。对于能够理解自然语言及掌握领域知识的用户,以锚文本提供的信息也足够判断是否需要点击链接打开目标网页;但计算机程序却不能准确判断链接所对应的目标网页主题,从而导致不会打开目标网页。当链接锚文本所表达的信息不能对链接所指向的网页主题信息内容做出有效预测时,提取链接锚文本本身之外的其他信息就显得至关重要。在一个Web页面中,出现在超链接周围的文本称为链接上下文,习惯上是按经验值从锚文本的左右取一定数量文本信息作为链接上下文。HTML代码形式为:文本1<a href=页面URL>锚文本</a>文本2。其中,文本1和文本2即为链接上下文。提取链接上下文的策略,可以把锚文本周围上下各固定数量的字符当作链接上下文或利用HTML DOM树进行提取,也可以将两种方法结合起来进行提取。
1.2 基于分块的主题链接上下文提取
主题型语义块文本信息一般较多,图片型和目录型语义块的文本信息量较少或不含文本信息。如果用相同链接上下文算法来提取不同类型语义块中的主题链接,可能造成文本提取过多而出现噪音或提取过少而使链接描述信息不够,对此我们使用不同的上下文提取策略。
(1) 主题型语义块中链接上下文提取
链接锚文本向前及向后的文本通常是对链接主题的补充。为保持文本信息均衡性,提取链接前后长度为n的文本与锚文本一同作为链接上下文信息,即:S=(W-n,W,Wn)。其中,W-n为锚文本前长度为n的文本,Wn为锚文本后长度为n的文本,W为锚文本信息。
在提取链接上下文时,首先在网页中定位到该链接,然后根据事先给定的阈值n来对锚文本周围的相关文本信息进行选取;锚文本周围上下如果有一方的文本长度少于n,不影响另一方的选取动作;当锚文本左右文本长度都小于n或双方选取文本长度已达到事先给定的阈值n时,则选取停止,最后将锚文本信息也添加到链接上下文S中。这种固定长度的提取链接上下文信息的处理方法,适合包含文本信息较多的主题型语义块中链接上下文的提取。
(2) 目录型和图片型语义块中链接上下文提取
以链接锚标签祖先节点为根节点的子树中包含的所有文本信息作为这个锚标签的链接上下文,并称这棵子树的根节点为聚合节点[6]。链接上下文和它对应的链接处在同一语义块中,因此聚合节点功能可看作把一个链接和对它有用的上下文聚合在一起。
同一个锚顺着HTML DOM树的根节点方向,存在很多个候选聚合节点。首先对网页预处理,然后综合利用网页中所含各种特征将网页构造成一棵布局标签树;其中的每个节点都是网页布局中的块,然后根据块的内容特征对分块进行识别合并,得到一个信息块的队列;最终根据分块的不同类型对块内链接采取不同的上下文提取方法。语义块链接上下文提取的算法描述如下:
① 输入目标网页,对网页P进行HTML代码预处理和简化,生成DOM树;
② 对网页分块,在分块基础上进行识别合并,初始化网页信息块队列(存放块内容和块类型标识);
③ 从信息块队列中取出一个分块,判断分块类型,如是主题型分块转到④;如是其他类型分块转到⑤;
④ 遍历分块中的链接,提取链接周围长度为n的文本,与链接Link和锚文本W存入链接队列L中;
⑤ 遍历分块中的链接,定位到链接的祖先节点,提取链接上下文,连同链接Link和锚文本W存入链接队列L中;
⑥ 从分块列表中删除当前分块,判断分块列表是否为空,如为空转到⑦;如非空转到③;
⑦ 结束。
以上计算是观察链接相关数据中是否包含主题词或同义词,但可能会漏掉许多相关页面。为提高主题采集查准率,在原有相关性计算模型基础上利用“知网”理论及语义分析计算方法[7],从语义上对主题相关性判定。具体是从词语的语义层次上,计算链接相关数据中词与主题之间的语义相似度来判定主题相关性,这样就能大大降低漏判相关页面的可能性。相关与否则通过阈值来决定,即大于等于阈值为相关,小于阈值为不相关。
2 基于语义和链接分析的主题相关性判定
众所周知,PageRank能有效帮助搜索引擎识别重要页面,并根据重要性程度排序检索结果。其基本思想来自传统文献计量学中的文献引文分析[3],即一篇文献被其他文献引用越多,则文献质量越高。PageRank值较好地反映网页之间的相互引用关系,缺点是没有对链接作区分,完全忽略了不同主题网页有不同重要度权值的问题。之后,一些研究者对该算法进行了改进,相关度不高的页面不一定质量不高,相关度很高的页面也不一定有高的质量。因此,在基于主题Web信息采集系统URL预测中需要相关性的判定,还必然涉及到网页重要度评判。即在链接预测过程中加入由链接关系所决定的链接重要程度,在降低相关性判定阈值的同时选进一些相关度不高但重要性高的链接作为预测,以此来提高查全率。在链接关系基础上加入锚文本信息权重,以使所产生的重要页面针对某一个主题,这就形成了NPR(New PageRank)算法。
分析PageRank算法:
每一个指向页面A的页面Ti,其重要度平权地传给此页面中每一个链接指向的页面,即只有1/C(Ti)的页面重要度传递给页面A。页面面向主题重要性值NPR应与链接的页面主题相关度高低及查询主题成比例。因此,修改式(1)为:
(2)
NPR(A)为A的NPR值,d为衰减因子。其中,A为给定的一个网页,假设指向它的网页有T1,T2,…,Tn,urlT1,urlT2,…,urlTn分别是网页指向A的链接,k1,k2,…,kn分别是网页中所含的链接数。一般地,如果有很多页面指向一个页面,那么这个页面的PageRank比较高,但NPR值不一定很高;如果有很多主题页面指向一个页面,则这个页面在很大程度上与主题相关;如果一个重要主题资源中心引用了一个页面,同样说明这个页面可能是比较重要的。因此,可以认为NPR就是在某个主题K下访问到本页面A的概率。
对于两个汉语词语T和W,如果T有n个义项(概念):t1,t2,…,tn;W有m个义项(概念):wl,w2,…,wm。T和W的相似度是各个概念的相似度之最大值,如式(3):
按式(3)计算两个概念之间的相似度,可以得到其对应两个词语之间的相似度。通过计算链接相关数据与主题之间的语义相似度可以得出该链接与主题的相似程度,进而可以判定链接与主题是否相关。这种基于语义相似度链接判定方法,判断相关性页面的准确性和漏判相关性页面数量都很高,使得判断为相关的页面过少,参加评判NPR值的页面数较低,从而会较大影响NPR值的准确性,导致相关主题页面查全率过低。因为在两个主题页面间可能存在着隧道现象[8],在采到前面一个主题相关页面时容易漏采隧道及后面的相关页面。我们结合语义分析,给出一个基于语义块的有提升的相似度算法,原理是当一个链接URL的SimS(url)值小于相关性阈值c时,随机产生一个提升因子P,当P大于等于提升阈值d时,此URL就获得一个重新评判相关性的机会,这次评判涉此URL的整个语义块,当重新评判值大于c时则用此值,表明这个URL链接到的页面是相关的,如果重新评判值仍小于c则认为这个URL链接的页面和主题无关。
这种提升方法减少了利用链接相关数据算法的漏判和对隧道现象的错判,但同时也增加了相关性页面的误判。该方法的另一个特点就是总能找到相关页面,而不会因为没有相关页面导致采集停止。因此,可以继续修正式(2)为:
(4)
3 链接与主题相关性判定方法比较
为对算法性能进行定量比较,从相同初始URL集合开始,分别使用宽度优先、基于语义相似度的链接判定、PageRank和NPR算法四种方法对数据进行采集。计算采集查准率和查全率须统计各种算法采集的页面是否与主题相关,为节省时间仍采用基于关键词的向量空间模型进行相关度计算,并通过阈值来判断是否相关。软件环境包括平台支撑软件、系统开发软件和开源软件包三类。平台支撑软件主要是JDK、数据库和应用服务器;系统开发软件包括Java开发工具Eclipse和网页制作工具Dreamweaver;软件开发包选用Lucene(http://apache.etoak.com/)和Heritrix(http://crawler.archive.org/),分别用于全文索引的生成和主题爬虫的改进。
方法比较采用查全率和查准率两个指标。其中查全率表示已爬行到的与主题相关的网页数占爬行范围内与主题相关的总网页数的百分比,查准率表示已爬行到的与主题相关的网页数占已爬行到的所有网页数的百分比。我们构造一个规模为20000的网页集合,选用军事信息作为测试主题,共收集军事主题网站20个,并加入40个无关网站作为测试页面集的数据源。观察四种方法的测试结果:① 算法查准率排名由低到高为PageRank(30%)、宽度优先(39%)、NPR(62%)、基于语义相似度链接判定(87%);② 算法查全率排名由低到高为PageRank(31%)、宽度优先(40%)、基于语义相似度链接判定(42%)、NPR(86%)。可见,PageRank方法的查准率和查全率较差,原因是其在采集过程中始终是泛主题化的,优先采集的均是基于普遍主题重要度的页面;宽度优先算法的查准率和查全率都要优于PageRank,原因是主题页面分布的Linkage Locality特征,即页面倾向于链接到与它主题相关的页面;基于语义相似度的链接判定算法表现出了较高的查准率,但查全率方面的表现不尽如人意,这主要是因为在相关性判断时过滤了某些相关网页,导致许多本应采集的页面没有采集;NPR算法结合了基于语义相似度的链接判定和PageRank算法,具有前者查准率高和PageRank能发现相关于主题重要页面的特点,并能对隧道进行有效的采集,因而采集的查准率和查全率都是较高的。
为更好地分析算法的动态性能,记录下每采集500个页面含有的主题页面数,计算其查准率,最后得出比对结果如图1所示。采集查准率的变化反映出各个算法的特性:① 宽度优先算法因初始是一些与主题相关度较高的种子URL,主题页面Linkage Locality特性又保证接下来采集的URL主题相关度,开始的采集查准率非常高,随着非相关URL加入其采集查准率就大大降低;② PangeRank算法表现出相对稳定的查准率,值大的页面往往是较优秀页面,但相对具体主题并不一定具有高相关性;③ 基于语义相似度链接判定算法变化率比较平稳,其主题相关度高,查准率一开始就很高;④ NPR算法在采集初始阶段查准率并不高,这是因为采集的主题页面数量不多,计算每个页面中NPR值并不准确,根据链接分析结果会同时采集一些与主题无关的页面。随着采集主题页面增多,系统通过不断迭代计算已采集的主题页面NPR值,采集到的无关页面数量逐渐减少,查准率逐渐提高并趋向稳定。
4 结 语
实验结果表明与预期一致:(1) 宽度优先算法代价最小,因为它没有做任何主题相关度的计算和比较;(2) PageRank算法需要计算每个页面的PageRank值,且在提取过程中需多次计算,因而算法代价高于宽度优先算法;(3) 基于语义相似度链接判定算法要计算链接中标记和锚文本相关度,虽信息量不大,但比宽度优先算法又为复杂一些;(4) NPR算法的时空代价较大,因在计算每页NPR值同时还要计算很多链接的相关性,较大地增加了算法的复杂性。但本文研究面向主题的信息采集,最终保存的只是与主题相关的页面,较传统泛主题的信息采集页面少得多;同时,搜索引擎的索引模块需对采集页面按关键字进行索引生成倒排文件,Web信息采集生成的索引文件十分浩大,而基于主题的索引文件相对非常小,极大地增加了资源占用率。另外,面向主题采集的NPR算法主要是在与主题相关的页面之间迭代,其迭代规模及次数相对PageRank算法非常小,一定程度上也可提高系统性能。实验结果证明虽然增加相关度的计算,NPR算法代价并不比PageRank高很多。NPR算法能提供更加精确的主题页面,其对我国信息机构进行学科网络信息资源的深度建设具有更好的实用价值。
摘要:面向主题的Web信息采集需判断提取的URL链接主题相关性。基于主题链接上下文提取,主题型语义块采用提取链接周围一定长度的文本,目录型和图片型语义块利用DOM树层次结构,对链接数据进行URL相关性判定;利用知网基于语义相似度的链接判定,给出一种综合内容和链接结构分析的URL主题相关性判定NPR算法,比较PageRank算法能提供更精确的主题页面。其成果对我国信息机构进行学科网络信息资源的深度建设有实用价值。
关键词:Web信息采集,语义分析,URL链接,主题相关性
参考文献
[1]刘运强.垂直搜索引擎的研究与设计[J].计算机应用与软件,2010,27(7):130-132.
[2]李盛韬,余智华,程学旗,等.Web信息采集研究进展[J].计算机科学,2003,30(2):151-157.
[3]曹军.Google的PageRank技术剖析[J].情报杂志,2002(10):12.
[4]王晓宇,周傲英.万维网的链接结构分析及其应用综述[J].软件学报,2003,14(10):1768-1780.
[5]Eiron N,McCurley K S.Analysis of anchor text for web search[G].SI-GIR,2003:459-460.
[6]Pant G.Deriving Link-context from HTML Tag Tree[C]//8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery,2003.
[7]刘群,李素建.基于《知网》的词汇语义相似度的计算[C]//台北:第三届汉语词汇语义学研讨会论文集,2002:23.
主题相关性 篇7
信息技术的快速发展与应用,使因特网成为信息传播、信息交流与信息共享的重要媒体。信息爆炸式的增长使web站点数目飞速增加,各个web站点的信息量及其复杂度在不断上升,web站点的信息内容也在不断变化。目前大多数网站的架构设计由设计人员构建,由网站信息编辑人员根据各自的经验和认知进行维护,导致网站信息结构混乱,难以发现和定位信息,缺乏灵活性。如何使网站信息结构更加合理,使网站信息内容更容易被搜索引擎收录,让网站能够发挥更大的功效,是网站管理者面临的重要挑战之一。
研究表明,虽然Internet上web页面的分布从整体上看是杂乱无章,但同一个主题的相关页面在web上分布是系统化的,对于同一个主题或相近主题的web页面而言,它们的分布具有主题关联性和Tunnel特性[1]。许多网页都有指向其他网页的链接,这些链接看似随意,但进一步研究后发现网页上放置的链接大部分链向与该网页主题相关的一些页面,即web上与同一主题相关的网页都趋于相互链接,由此形成web上的主题局部性特征[2]。因此,我们根据网站主题局部性特征,利用相关性判定方法,通过研究网站主题实现网站架构优化。
2 网站主题性特征
一个网站由多个网页和超链接组成,并且趋向于说明一个或多个主题。说明同一主题的页面较紧密地在此网站内链接成团,而主题团之间的链接却较少。为了探索网站内页面的主题团特征,余智华[3]对站点结构进行了分析,利用基于关键词的向量空间模型算法为每个页面分类,并在站点内部结构特征的基础上,对站点页面树按照自底向上进行主题聚类,聚的每一个类就是站点内页面的一个主题团。由网站内的主题团特征可知,一个网站由一个或多个主题组成,主题内各网页之间相关程度较高,主题之间的相关程度较低或不相关。基于网站的上述特征,建立面向主题相关的网站结构图如下所示:
图1表示由若干主题通过连接组成的网站,各主题之间可能存在一定的相关性(小于某个阈值)。节点代表网站包含的不同主题,边代表主题之间的相关性程度。设Rij表示相连2个节点i与j之间相关性。其中i,j=1,2,…,N表示网站规模,即主题节点总数。本文考虑为无向网络,Rij>Rji。上图中,节点的颜色反映该主题所包含信息量的情况,颜色越深表示其含信息量越大;边的粗细代表相连主题之间相关性的大小,若节点之间没有连接,表示两者的相关度为零。从上图得知,主题节点4包含的信息量最大,节点1与2之间的相关程度最高,即R12最大,而节点1与3之间,节点2与5之间则完全不相关。
网站优化能够使得网站主题更加清晰,便于网站的日常管理与更新维护。在现行网站运行情况下,若主题节点之间的相关度较高,则应该考虑合并网站主题节点,使其相关度在合理阈值范围之内;当出现新的web信息时,若此条信息与网站内各主题之间的相关性相同或都小于某个阈值时,应考虑新增主题节点。本文研究的网站优化方法是通过对现有网站主题节点之间、新增web信息与主题之间的相关性分析更新网站,使网站内各主题更加清晰、便于搜索引擎定位,更好的服务于信息需求。
3 网站优化方法研究
网站可以表示为以网站主题为顶点通过连接组成的拓扑结构。因此,网站优化问题可以转化成对一个具体图的优化问题。首先将相关概念定义如下:
定义1.主题:web文档集合所表达的主要信息,如:某电子商务网站有图书、影视、家电等主题。主题的特征项可以是一些关键词的集合,也可以是句子的集合,关键在于它传递了一个主要的信息,这个主要信息就是web文档集表达的主题。
定义2.主题相关度:网站内各主题之间的相关性程度。该相关性程度主要由主题的特征词表现,主题相关度应在合理阈值范围内,过大相关度的主题需要合并。用Rij表示主题相关度,i与j表示网站包含的不同主题,i,j=1,2,…,N为主题节点总数。
定义3.文档与主题相关度:web文档与主题之间的相关性程度。文档的关键词与主题特征词需进行相关度计算,在大于合理阈值的情况下,将文档归于此主题下,否则需要为网站建立新主题。用Riw表示文档与主题相关度,i代表网站内的不同主题,w表示web文档。
相关性分析是网站架构优化的重要方法,目前主题相关性研究主要集中于网络数据采集中主题相关性评价[4],主题相关性算法改进[5][6]等研究热点,其中页面主题相关性的判断方法有朴素贝叶斯方法、人工神经网络方法、实例映射模型、向量空间模型等多种,绝大多数都是采用向量空间模型来判断主题相关度[7]。本文用此方法来度量主题与主题、web网页与主题之间的相关程度,据此对网站进行架构优化。
3.1 无新增信息的网站架构优化方法
网站现有架构(即不考虑新增信息)的优化研究是网站架构优化的重要方面,主要利用网站内主题与主题之间的相关性分析方法。对于相关度过高的主题(大于合理阈值),选择合并主题,减少网络主题节点,使得网站主题更加清晰,实现网站架构优化。主要步骤如下:
(1)预处理阶段:首先需去除与主题无关的噪音内容;其次将描述主题的多个页面进行关键词的提取和加权,从而得到该主题的特征向量及向量的权重。对网站内多个主题进行上述处理,得到网站内各主题的特征向量及向量的权重。
(2)相关性计算。利用主题的特征词及其权重,利用公式1进行主题与主题之间的相关性度量。
undefined
其中,theme1、theme2分别表示主题1与主题2,W1k表示主题1的第K个特征向量的权重,W2k表示主题2的第K个特征向量的权重。利用上述公式进行主题之间相关程度度量,若主题之间相关度大于某个阈值,则考虑合并网站主题节点,进行网站优化。
3.2 新增信息的架构优化方法
网页文本由人工分类,其结果易受到个人知识结构及主观因素的影响。如果根据同一主题下的web网页内容具有最大相关性的特点,对新增的web网页,可以通过计算其与各主题的相关性,实现信息的自动归类,可以实现合理的减少或增加网站节点,达到优化网站结构的目的。Web网页与主题之间相关性度量的主要步骤如下[8]:
(1)首先需去除与主题无关的噪音内容。提取主题特征词,把特征词的个数n作为向量空间的维数,每个特征词的权值wi作为每一维分量的大小,则主题用向量表示为:
α=(a1,a2,…,an),i=1,2,…,n,ai=wi
(2)对于页面进行分析,统计关键词出现的频率,并求出频率之比,以出现频率最高的关键词作为基准,其频率用xi=1表示,通过频率比,求出其他关键词的频率xi,则该页面对应向量的每一维分量为xiwi,页面主题用向量表示为:
β(x1w1,x2w2,…,xnwn),i=1,2,…,n
(3)用两个向量夹角的余弦表示页面的主题相关度:
依据相关度的值是否大于特定阈值,可以判断web网页与网站内各主题之间相关性。当该web页面与网站内某个主题的相关程度较大时,若大于阈值,则该网页信息属于该主题;若果该web页面与网站内所有主题的相关程度都相同或都小于阈值,则需要建立新的主题,据此可以构建该网站的增新主题节点。
4 实例说明
该实例主要是为说明利用主题性特点通过相关性分析对网站架构优化的可行性。假设某电子商务网站目前共有5个基本主题,分别是图书、手机数码、家居、家电、户外休闲,用i分别代表上述主题(i=1,2,…,5),各主题之间可能存在一定关联,对于该网站的架构优化主要考虑以下两点:
(1)无新信息增加时主题节点优化
网站内各主题之间应具有较小的相关性,即其相关程度应该小于指定阈值,对于相关性较大的主题,应考虑合并主题节点。根据3.1节主要步骤如下:
首先对网站页面进行噪声处理;
其次提取描述主题特征的特征词,并计算该特征词的相应权重。本例中假定对网站内5个主题的10个特征词进行提权,用Tij表示表示第i个主题的第j个特征词,用wij表示第i个主题的第j个特征词的特征权重(i=1,2,…,5;j=1,2,…,10),如下:
i=1,2,…,5;j=1,2,…,10
利用公式1,得到各主题之间的相关度为如下:
R12=0.645;R13=0.387;R14=0.616;R15=0.600;R23=0.530;
R24=0.822;R25=0.734;R34=0.472;R35=0.658;R23=0.656;
最终,在设定阈值为0.75的情况下,由于主题节点2与4相关度较大,即手机数码和家电两主题具有较强的相关性。因此,将上述手机数码与家电两主题节点进行合并,得到新的节点为手机数码家电类,用i=6表示。图2表示优化前的主题网络图,从图中可知结点2与4相关性最大,而节点1与3之间相关性最小;图3为优化后的网络图,节点1与3的之间相关性较小,且节点6的信息量增大,用灰色表示。
(2)网站中出现新增信息
网站内的信息时刻发生变化,新的信息不断涌现。传统由人工分类的网页文本,浪费大量了人力物力,其结果易受到个人主观因素的影响。对于网站中新的web网页,利用web网页与主题之间的相关性进行分析计算,将其归类为相关度较高的主题下,实现网站信息的自动归类。若存在某个web网页与各主题节点相关度相同或都小于阈值的情况,则考虑增加主题节点,进行网站主题优化。本例假设该网站主题节点之间都存在相关连接,其相关性小于指定阈值且相差不大,用图4表示。参照3.2节,优化步骤如下:
对web网页与主题信息进行分析后,提取得到每个主题的6个特征词,用Tij表示表示第i个主题的第j个特征词,用wij表示第i个主题的第j个特征词的特征权重,i=1,2,…,5;j=1,2,…,6
同时,对新加入的web页面进行分析,统计关键词(tj)及出现的频率(xj)为:
tj=(品牌 价格 定价 组合 售后 规格)
xj=(0.10 0.20 0.60 0.20 0.80 0.10)
j=1,2,…,6
利用公式2,计算web页面与各主题的相关度,用Riw如下:
Riw=(0.694 0.687 0.700 0.697);
i=1,2,…,5
假设阈值为0.75,即当新加入网页与各主题之间的相关程度大于0.75时,即可认为此网页属于该主题的信息。由于本例结果中最大值为0.7且都小于该阈值,且web页面与各主题的相关程度无明显差异,即在目前网站架构的前提下,拟增加网站主题节点i=6,并根据计算所得的相关性,将该新节点与网站内其他主题节点进行连接,优化后的网站结构如图5所示,节点6与网站内其他主题都存在相关性,并且相对于其他节点信息量较小:
本算例从网站有无新增信息两个方面对网站进行优化研究,着重分析了网站主题节点的变化情况,优化后的网站架构更能清晰的反映网站内容。
5 结论
主题性是网站的重要特征,本文在建立面向主题的网站结构图基础上,利用相关性分析方法,对网站主题之间、web文档与主题之间的相关性进行度量,一方面能够实现在没有新信息增加的前提下,通过分析主题之间的相关性进行的网站优化;另一方面在新信息加入网站的情况下,实现信息自动归类或增加主题的目的。利用主题相关性特征对网站进行优化,有利于网站管理者对网站信息管理与维护,便于搜索引擎收录,使网站发挥其更大功效。
参考文献
[1]陈小海,周娅.基于主题相似度指导网络蜘蛛穿越隧道的爬行算法[J].计算机工程与科学,2009(31):126-128
[2]AGGARWAL C,AL-GARAWI F,YU P.Intelligent Crawling onthe World Wide Web with Arbitrary Predicates[C]//Proceeding ofthe 10th International WWW Conference,Hong Kong,May 2001
[3]余智华.WWW站点的分析与分类[D].中国科学院计算技术研究所,1999
[4]张兆中.基于HTML标记信息的主题相关性判定方法[J].淮阴师范学院学报:自然科学版,2005(3):240-242
[5]徐猛,胡平.基于VSM的网页主题相关性算法的研究[J].微计算机信息,2009(4):287-289
[6]何国斌,赵晶璐.Web页面主题相关性排序算法的研究[J].计算机工程与应用,2009(23):149-151
[7]汪涛,樊孝忠.主题爬虫的设计与实现[J].计算机应用,2004(24):270-272
【主题相关性】推荐阅读:
主题班会相关制度07-05
“遇见书-与书相关的事”主题征文启事10-07
开学第一课主题歌词 开学第一课相关介绍08-14
相关相关性发展问题07-13
表达相关性07-15
邻域相关性07-15
价值相关性07-16
频谱相关性07-20
认同相关性05-08
负相关性05-09