网页内容过滤

2024-06-09

网页内容过滤(精选8篇)

网页内容过滤 篇1

所谓网页采集无非是对我们浏览到的网页内容的采集, 包括其中的文本信息、图片信息和影像、声音、软件信息等, 采集者通过编写采集程序或者通过很多CMS系统本身具有的采集功能, 编写采集规则, 以获取所需内容。采集的方式总体上可分为截取和过滤两种, 即截取指定区域的HTML代码, 对该部分代码过滤其中不需要的内容, 如广告信息、版权信息、标签标记等, 以达到去伪存精的目的。采集的过程一般按照如下步骤进行:首先读取文章列表, 然后根据文章列表中的链接逐次读取文章内容, 并对文章内容进行过滤, 获取所需要的信息。

根据采集的方式和步骤, 我们可以从两个方面来进行防范:增加列表采集难度, 防范内容页面的采集。可以通过技术手段, 尽可能的把采集者堵在外面, 使之不能访问和读取被采集的页面。或者, 对被采集页面内容进行处理, 增加采集难度, 使采集者即便采到了数据, 采集到的信息也不可用或不能直接用。

1 判断来源, 杜绝访问

判断同一IP在一定时间内对本站页面的访问次数, 如果明显超过了正常人浏览速度, 说明该来源ip有采集的可能, 就拒绝此IP访问, 否则放行。这种方法实现起来不难, 在动态网站中可通过在页面头部增加一部分程序代码来实现, 静态页面可通过javascript代码实现。

该策略对防止采集非常有效, 但会严重影响搜索引擎蜘蛛对本站内容的收录, 对不过分依赖于搜索引擎的网站, 可以采用此种方法。

2 增加列表采集难度

信息的批量采集, 是从获取信息列表开始的, 从信息列表中的超链接, 继而采集二级页面内容, 因此封住了列表页的采集, 也就封住了对其他内容页的采集。一般采取的策略是改变列表方式, 尽量使之没有规律, 对方采集时难于获得正确的内容链接, 增加其采集难度。

2.1 打乱链接对应标签, 使链接无规律

如:在列表中有以下链接:

标题一

标题二

可改为:

标题一

标题二

在第二个链接中链接地址去掉了引号, 浏览器正常解析, 但对方写采集规则时就会有一定难度。

2.2 随机加入一些干扰链接, 增加对方采集出错率

例如在信息列表中穿插加入类似如下干扰链接:

随机文字标题

然后用跟其他内容页一样的模板创建网页文件aa.asp, aa.asp页面中标题和内容动态随机生成, 目的是让对方能够采集到, 因为有些采集程序对标题重复或空内容的页面是不采集的。然后在样式表中增加样式:

#notext{display:none;}

这样你所加的干扰链接在你的页面上就不会显示。但由于该链接及其对应的内容页面跟其他链接一样是正常的, 因此可以同时被对方采集过去, 而这些文章内容是毫无意义的代码, 这样增加了对方采集后编辑修改的工作量, 可以使对方知难而退。

3 内容页面的防采集策略

采集的最终目的是采集网页具体内容, 只采集到文章列表而采集不到内容或采集到的内容不符合要求, 这样的采集是没有意义的。可以从以下几个方面进行防范。

3.1 加密页面内容

通过Javascript对页面内容进行加密, 然后通过Javascript代码解密后输出, 这样, 采集到的内容便只能是一些不规则的加密后的代码, 没有任何意义, 通过这种方式可以有效的防止采集, 但会严重影响搜索引擎收录, 且降低页面加载速度, 适用于对搜索引擎要求不高, 重视版权信息的一些网站, 普通网站用的不多。

3.2 改文本内容为图像格式或pdf、swf等其他格式

这种方式是将网页正文内容通过一些转换软件或程序代码转换为图像格式或其他非html格式, 并在图片背景加以含有版权信息的水印, 通过这种方法形成的网页内容即使采集下来, 要去除版权信息也是非常困难的。如腾讯读书频道, 所有VIP阅读的部分都采取了这种方式。

这种方式可以有效地保护知识产权, 但仍然不利于搜索引擎收录, 对于一些不依赖于搜索引擎的站点, 可以采用。

3.3 设定浏览权限, 只允许登录后的用户才可以浏览网页内容

该种方法适用于动态网站, 但也会严重影响搜索引擎蜘蛛对其收录, 不过此方法防范一般的采集程序, 还是比较有效的。

3.4 把内容页面里的特定标记替换为"特定标记+随机的隐藏版权文字"

这是很多cms系统默认的防采集策略, 被采集过去的信息会随机的显示一些被采集网站的版权文字, 但这种方法对采集是完全放行的, 同时, 对方可以把采集过来的内容中的版权文字过滤掉或替换为其他信息。如果利用这种方式防范采集, 建议尽量设定更多的随即字符串, 以增加过滤难度。

3.5 内容页面代码无规则

现在的网站不管是动态网站, 还是静态网站, 一般是后台录入数据, 前台按照统一模板显示, 由于内容模板单一, html代码规律性强, 书写采集规则容易, 所以很容易被采集, 因此在创建模板时, 要尽量使代码规则不明显, 以增加采集难度。

3.5.1 利用重复标签

采集页面内容时, 一般包含被采集部分内容的标签作为采集标志书写采集规则, 因此可以增加一些重复标签进行干扰, 使采集程序无法正确定位采集内容而采集不到准确信息, 例如防止被采集的内容所在的标签为

, 那么可以在该标签的前面再增加一个或多个相同的标签以起到干扰作用。

3.5.2 多网页模板, 多种显示方式

如果条件允许, 可设计多种网页模板, 可以做到外观显示相同, 但网页内容中html标记不同, 如有的用div+css方式, 有的用table方式, 这样对方在采集时, 只能采集到一种模板对应的网页内容。

当然, 在同一个模板内, 也可以将防止被采集的内容所在的标签随机化处理, 以增加对方的采集难度。

4 结语

要做到完全的防范采集是不可能的, 防采集的各种策略都各有其优缺点, 只能根据自己的站点特点, 采取相应的策略, 或者多种防范措施并用, 尽大程度的进行防范。随着网络技术的发展, 增强版权意识, 遵守网络公德, 加强监督机制, 在自己站点上杜绝非法采集, 只要每一个站长朋友都能做到这一点, 那才是防采集的最有效策略。

参考文献

[1] (日本) 小泉修著, 王浩译.Web技术:HTTP到服务器端.科学出版社, 2004.

[2]吴伟光.数字技术环境下的版权法危机与对策.知识产权出版社, 2008.

[3]吴振丰.网站建设与管理.高等教育出版社, 2006.

网页内容过滤 篇2

2007-04-26 09:

42进入21世纪,人类社会正经历着从原子时代向数字时代的转变,新世纪的天是互联网的天,互联网正在全世界进行着越来越深刻的革命。互联网代表着一种崭新的信息交流方式,它使信息的传播突破了传统的政治、经济、地域及文化的阻隔,使信息传达的范围、速度与效率都产生了质的飞跃。互联网是由成千上万的网站组成,而每个网站都是由诸多网页构成,故网页是构成互联网的基本元素。我国这两年的网络发展非常快,网站数量也以倍率增长,然而网页的设计却不容乐观。除了一些大的专业网站在版面的编排上比较讲究之外,其他很少见到界面设计考究、美术创意优秀的中文网站。其实谈到网页设计就不能不说到网络视觉信息的编排及归类,这是网页设计的特点,也是身处于信息化、数字化的当今设计者所必须具备的基本素质。因为网络本身就是一个处理信息的巨型平台,设计者必须充分认识网络,了解网络的特征,才能使设计更加适合于网络上的传播。

一 网页设计中的视觉流程

网页是通过视觉元素的引人注目而实现信息内容的传达,为了使网页获得最大的视觉传达功能,使网络真正成为可读强性而且新颖的媒体,网页的设计必须适应人们视觉流向的心理和生理的特点,由此确定各种视觉构成元素之间的关系和秩序。因此,设计时应该研究各种视觉造型元素之间的距离、位置、面积和视觉流程的问题。

视觉流程的形成是由人类的视觉特性所决定的。因为人眼晶体结构的生理构造,只能产生一个焦点,而不能同时把视线停留在两处或两处以上的地方。人们在阅读一种信息时,视觉总有一种自然的流动习惯,先看什么,后看什么,再看什么。视觉流程往往会体现出比较明显的方向感,它无形中形成一种脉络,似乎有一条线、一股气贯穿其中,使整个版面的运动趋势有一个主旋律。心理学的研究表明,在一个平面上,上半部让人轻松和自在,下半部则让人稳定和压抑。同样,平面的左半部让人轻松和自在,右半部让人稳定和压抑。所以平面的视觉影响力上方强于下方,左侧强于右侧。这样平面的上部和中上部被称为“最佳视域”,也就是最优选的地方。

在网页设计中一些突出的信息,如主标题、每天更新的内容等通常都放在这个位置。当然视觉流程是一种感觉而非确切的数学公式,只要符合人们认识过程的心理顺序和思维发展的逻辑顺序,就可以更为灵活地运用。在网页设计中,灵活而合理地运用视觉流程和最佳视域,组织好自然流畅的视觉导向,直接影响到传播者传达信息的准确与有效性。所以在网页的编辑设计中,视觉导向是一个要点,网页的设计是一种创造,首先要立足信息的传达,但又要符合人们较为普遍的思维习惯,做到视觉流程自然、合理、畅快。成功的视觉流程安排,能使网页上的各种信息要素在一定空间内合理分布,能使页面上各信息要素的位置、间隙、大小保持一定的节奏感和美感。

二 网页设计的审美需求

网页设计是一门新兴的设计类和网络的交叉学科,近几年随着网络的发展而逐渐受到人们的重视,它本身以网络为载体,把各种信息以最快捷、方便的方式传达给受众,在这种标准的要求下,逐步产生了审美的需求。人们对美的追求是不断深入的,网页设计同样如此。网页不光是把各种东西放上去,能看就行,这是远远不够的!要考虑如何使受众能更好地和更有效率地接收网页上的信息。这就需要从审美的方面入手,制作出清晰、整体性好的页面。使人浏览起来心情愉快,接收信息也会更加容易。网页设计的审美需求是

对平面视觉传达设计美学的一种继承和延伸。两者的表现形式和目的都有一定的相似性,把传统平面设计中美的形式规律同现代的网页设计的具体问题相结合起来,运用一些平面设计中美的基本形式到网页中去,增加网页设计的美感和大众的视觉审美需求。

我们经常所说的如变化和统一、条理与反复、对比和调和、均齐与平衡等,对网页中文字、图形、色彩的设计都是十分有效的视觉规律。首先,网页的内容与形式的表现必须统一和具有秩序,形式表现必须服从内容要求,网页上的各种构成要素之间的视觉流程,能自然而有序地达到信息诉求的重点位置。在我们把大量的信息塞到网页上去的时候,考虑怎样把它们以合理的统一的方式来排布,使整体感强同时又要有变化。怎样使它们脉络清楚又富有清晰的视觉效果等等。这样使页面更丰富,更有生气,看起来就不感到枯燥。其次,突出主题要素,必须在众多构成要素中突出一个清楚的主体,它应尽可能地成为阅读时视线流动的起点。如果没有这个主体要素,浏览者的视线将会无所适从,或者导致视线流动偏离设计的初衷。网页设计中各构成要素在组合时,要注意其结构的轻重大小、虚实、多少等对比因素,加强视觉力度,以强化页面的整体吸引力。作为形式美的法则,随着时代的不同而不断发展进步,特别在生活节奏如此快的互联网时代,由于追求目标的变化,人们的审美观念也在不断地变化,但是美的本质是一样的,同时随着技术的发展,很多目前不容易实现的审美形式也逐渐被克服,突破带宽的瓶颈,就会给网页设计的自如发展带来一片新的天地。

三 网页中各构成要素分析

对于网页设计来讲,其信息内容的有效传达是通过将各种构成要素的设计编排来实现的。网页的构成要素包括文字、图形、图象、标志、色彩等造型要素及标题、信息菜单、信息正文、标语、单位名称等内容要素。

1.文字的编排与设计

文字作为信息传达的主要手段目前也是网页设计的主体,文字是网页中必不可少的元素,也是网页中的主要信息描述要素,所以网页中文字将占据相当大的面积,文字表现的好与坏将影响到整个网页的质量。网页文字的主要功能是传达各种信息,而要达到这种传达的有效性,必须考虑文字编辑的整体效果,能给人以清晰的视觉印象,避免页面繁杂零乱,减去不必要的装饰变化,使人易认、易懂、易读。不能为造型而编辑,忘记了文字本身是传达内容和表达信息的主题。

网页文字编排与设计,重要的一点在于要服从信息内容的性质及特点的要求,其风格要与内容特性相吻合,而不是相脱离,更不能相互冲突。如政府网页其文字具有庄重和规范的特质,字体造型规整而有序,简洁而大方;休闲旅游类内容网页,文字编辑应具有欢快轻盈的风格,字体生动活泼,跳跃明快,有鲜明的节奏感,给人以生机盎然的感受;有关历史文化教育方面的网页,字体编辑可具有一种苍劲古朴的意蕴、端庄典雅的风范或优美清新的格调;公司网页可根据行业性质、企业理念或产品特点,追求某种富于活力的字体编排与设计;个人主页则可结合个人的性格特点及追求,别出心裁,给人一种强烈独特印象。

在网页文字的编排与设计中,由于计算机给我们提供了大量可供选择的字体,导致字体的变化趋于多样化。这既为网页编辑提供了方便,同时也对编排与设计的选择能力提出了考验。虽然可供选择的字体很多,但在同一网页上,使用几种字体尚需精心编辑和考虑。一般来讲,同一页面上使用的字体种类最多只能有三四种。由于文本字体的显示是需要本地硬盘字体文件的支持的,所以在互联网上使用过多的字体是没有意义的。文字在视觉传达中作为页面的形象要素之一,除了表意以外,还具有传达感情的功能,因而必须具有视觉上的美感,能给人以美好印象,获得良好的心理反应。

2.图片的编排与设计

图片是文字以外最早引入到网络中的多媒体对象。网络可以图文并茂地向用户提供信息,成倍地加大了它所提供的信息量。而且图片的引入也大大美化了网络页面。可以说,要使网页在纯文本基础上变得更有趣味,最为简捷省力的办法就是使用图片。对于一条信息来说,图片对受众吸引也远远超过单纯的文字。

网络图片的特点:一个特点是图片质量不需很高。因为网络图片一般只显示于计算机的显示器上,受显示器最小分辨率的限制,即使图片的分辨率很高,颜色深度很大,我们的肉眼也经常无法把它和一幅处理过的普通图片区分开来。一般来说,分辨率为72dpi(dotperinch)是大多数图片最佳选择;另一个特点是,图片要尽量小。网络页面的图片用于网络的传输,受到带宽的限制,其文件尺寸在一定范围内越小越好。这也是适应信息高速公路的要求。文件的长度越小,下载的时间就会越短。

图片的位置、面积、数量、形式、方向等直接关系到网页的视觉传达。在图片的选择和优化的同时,应考虑图片在整体编辑计划中的作用,达到和谐整齐。要达到这样的效果,在页面图片的合理选用时,一要注意统一,二要注意悦目,三要注意突出重点,特别是在处理和相关文字编排在一起的图片时。

3.色彩的设计

网页在一定意义上说也是一种艺术品,因为它既要求文字的优美流畅,又要求页面的新颖、整洁,使用色彩可以产生强烈的视觉效果,使页面更加生动。而且,浏览者在浏览网页时,留下的第一印象就是页面的色彩设计,它的好坏直接影响阅读者的观赏兴趣。因此,色彩设计在网页设计中居于十分重要的地位。网页的色彩设计应把握以下几个方面:

首先是整个页面的色彩选择,确定一个主色调,可以有利于体现网站主题。我们现在看到的网页,一般以浅颜色为背景的居多,如浅灰色、浅黄色、浅蓝色、浅绿色。以浅颜色为底,柔和、素淡,配上深颜色的字,如黑色,读来自然、流畅,也有利于突出页面的重点,有利于整个页面的配色,更容易为大多数人认可和掌握。其他一些次要内容,如背景图片、线条适宜采用不抢眼的颜色,以免喧宾夺主。只有少量精心选择的元素,为了突出强调的需要,才采用明亮的色彩,这些彩色亮点就会产生强烈的视觉冲击,但如果用得太多了,就会形成一种均匀的噪声,而达不到强调的效果。

其次,在背景的色调搭配上一定要注意不能有强烈的对比,特别是同时使用色彩对立的颜色。大面积颜色适宜采用低比度,因为过于丰富的背景色彩会影响前景图片和文字的取色,严重时会使文字溶于背景中,不易辨识。所以,背景一般应以单纯为宜。如果需要一定的变化以增加背景的厚度,也应是在尽量统一的前提下的一种变化。例如在制用标题时,为追求醒目的视觉效果,可用比较深的颜色,配上对比鲜明的字体。实际上背景的作用主要在于统一整个网页的风格和情调,对视觉的主体起到一定的衬托和协调作用,一方面吸引网民的注意力,另一方面有助于体现网站的主题。

四 结 束 语

网页作为一种新的视觉表现形式,它的发展虽然没有多长时间,它兼容了传统平面设计的特征,又具备其所没有的优势,成为今后信息交流的一个非常有影响的途径。网页设计是一种综合性的设计,它所涉及的范围非常的广泛,包括消费者心理学、视觉设计美学、人机工程、哲学等诸多方面,当然也离不开一定的科学技术发展。在本文中只从视觉传达的角度进行了一些阐述与分析。好的网页设计除首先应考虑其内容

基于视觉热区的网页内容抽取方法 篇3

随着Internet的快速发展,网络上丰富的信息在给互联网用户带来便利的同时,也给用户带来困惑。用户即使通过搜索引擎,想在海量的信息库中快速准确找到自己需要的信息也不是一件容易的事情。原因在于网页除了正文内容外还掺杂了很多用户不需要的噪声数据,如导航链接、广告链接、版权信息以及与网页主题相关不大的推荐链接等。这些噪声数据的存在,影响了用户对主题内容的判断。因此,如何从包含大量噪音内容的网页中将正文信息精确、完整地提取出来成为众多研究者研究的课题。

1 相关研究与技术

在Web信息抽取领域,已经有大量的研究工作。Lixto[1]提供包装器编程语言与可视化平台帮助用户构建抽取程序。包装器归纳方法采用有监督学习来从一组手工标注的正例和负例中学习抽取规则,样例系统如IDE[2]。这两种方法,需要人的主观经验才能达到较为理想的效果,自动抽取正文内容程度不高。文献[3]利用DOM树提取网页信息,这是本文构成正文信息块的基础。微软亚洲研究院提出的VIPS(Vision-based Page Segmentation)算法[4]利用背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等视觉特征,通过制定相应的规则把页面分成了各个视觉信息块。但各视觉特征的权重不好把握。文献[5]计算出每个标签的位置信息,对页面进行分割,从该文可知标签位置信息是网页视觉的一个重要特征。文献[6,7]均充分利用网页的布局特征作为主题信息块抽取的重要依据,这种从网页布局角度出发,对Html标签进行分析的思想值得本文借鉴。

网页设计者在设计网页时一般把重要内容放在网页中心位置附近的区域,即网页视觉热区,次要与无关内容一般远离网页视觉热区,这也符合网页用户的阅读习惯。因此本文在文献[3,4]的基础上,充分借鉴文献[5,6,7]的思想,利用网页的布局特征和网页视觉热区来提取网页正文信息。

2 网页视觉热区抽取模型

2.1 网页布局技术

网页布局主要分为表格布局和CSS布局。表格布局利用html中的<table>标签和图片对网页进行布局,把页面结构和表现混杂在一起。采用CSS布局采用<div>标签,能实现Html网页结构与外观分离,使站点的访问及维护更加容易。虽说W3C推荐使用CSS布局,但由于表格布局使用较早,许多网站仍采用该技术。因此可推出网页信息块必然存在于<table>标签和<div>标签之间,在视觉上为一矩形区域,这是形成本文候选正文信息块的基础。

2.2 候选正文信息块

位于在<table>标签或<div>标签之间可能成为网页正文信息的区域,可利用文献[3]的DOM树获取<table>和<div>节点,这些节点可构成候选正文信息块。

2.3 网页视觉热区和网页视觉热区焦点

(1) 网页视觉热区

网页访问者在访问网页时,注意力必然集中在网页中某一区域,该区域被称为网页视觉热区。根据经验,网页视觉热区处于网页中间区域。

(2) 网页视觉焦点

即网页视觉热区的中心点。

(3) 数学定义

若网页的高度h与宽度w,根据经验可给出网页视觉热区焦点坐标为(w/2,h/2),视觉热区宽度为2w/3,高度为2h/3。网页视觉热区和网页视觉焦点如图1所示。

2.4 正文信息块数学抽取模型

设网页视觉热区hot焦点坐标为(x0,y0),视觉热区宽度为w0,高度为h0,则左上角点坐标为(x0-w0/2,y0-h0/2),右下角点坐标为(x0+w0/2,y0+h0/2)。设候选正文信息块Ci左上角点坐标为(xi,yi),候选正文信息块宽度wi,高度为hi,则右下角点坐标为(xi+wi,yi+hi)。 设视觉热区与候选正文信息块相交区域左上角点坐标为(minx,miny),右下角点坐标为(maxx,maxy),可以推出:

minx=max(x0-w0/2,xi) (1)

miny=max(y0-h0/2,yi) (2)

maxx=min(x0+w0/2,xi+wi) (3)

maxy=min(y0+h0/2,yi+hi) (4)

根据式(1)至式(4),推导出视觉热区与候选正文信息块相交区域面积为:

minx>maxxminy>maxy

area(hot,Ci)=0

否则:

area(hot,Ci)=(maxx-minx)×(maxy-miny) (5)

给出候选正文信息块重要度函数sig(hot,ci)=area(hot,Ci)/(wh0),sig(hot,ci)是该候选正文信息块和视觉热区相交面积与整个视觉热区面积的比,越大说明该候选正文信息块相对于视觉热区越重要,可作为正文信息的判别依据。

3 网页正文信息抽取算法

步骤1 输入网页,形成DOM树。候选正文信息集合C初始为空。

步骤2 利用DOM提供的属性offsetHeight和offsetWidth得出网页的高度h与宽度w,网页视觉热区hot焦点坐标为(w/2,h/2),视觉热区宽度为2w/3,高度为2h/3。利用文献[3]提取DOM树所有<table>标签和<div>标签所包含的区域加入到候选正文信息集合C中。

步骤3 根据DOM提供的属性offsetLeft、offsetTop、offsetWidth和offsetHeight,可推出新增的候选正文信息块Ci的左上角点坐标与右下角点坐标,根据第2.4节的数学模型计算出候选正文信息集合C中新增加的每个候选正文信息块重要度函数sig(hot,ci)=area(hot,Ci)/(wh0),当sig(hot,ci)=0将该候选正文信息块从候选正文信息集合C中直接删除,当sig(hot,ci)=1,说明候选正文信息块完全包含视觉热区,若其所包含的子标签均为段落标签(如 <p> 、 <br>等)则不需对该候选正文信息块进行分解,直接到步骤5,否则转到步骤4。

步骤4 提取需要进行分解的候选正文信息块的第一层所有子标签,将这些子标签所包含的区域加入到候选正文信息集合C中,转到步骤3。

步骤5 对候选正文信息集合C中的所有候选正文信息块按sig(hot,ci)的大小进行降序排列,sig(hot,ci)越大说明该候选正文信息块越重要。

4 基于视觉热区的网页内容抽取系统的实现

本文利用脚本语言Java Script结合DOM来实现基于视觉热区的网页内容抽取。具体实现如下:

实现步骤1输入待抽取的网页,获取网页的高度与宽度,确定视觉热区的焦点坐标、高度与宽度。网页高度h:document.body.offsetHeight

网页宽度w:document.body.offsetWidth

网页视觉热区hot焦点坐标为(w/2,h/2),视觉热区宽度为2w/3,高度为2h/3。

实现步骤2获取所有<table>标签和<div>标签,并将其加入到候选正文信息集合C中,计算出这些元素(从开始标签到结束标签的所有内容)的左上角点坐标与右下角点坐标。实现函数如下:

实现步骤3利用式(1)-式(5)计算出每个候选正文信息块重要度函数sig(hot,ci)。 接下来的实现步骤同本文第3节的步骤4-步骤5,最后抽取sig(hot,ci)值最大的候选正文信息块作为本网页的正文信息。

5 实验结果

随机抽取北京大学、清华大学、南京大学、南京师范大学等高校网站里的100篇网页进行测试。先根据本文算法获得的网页正文信息,然后通过人工判断抽取的正文信息质量,分为三个等级:(1)优:通过本文算法获取网页的正文信息与人的视觉判断一致; (2)满意:通过本文算法获取网页的正文信息基本与人的视觉判断一致,但多余或缺少部分信息;(3)差:通过本文算法获取网页的正文信息与人的视觉判断完全不一致,获得的是网页的噪音信息。并且使用准确率作为实验的性能测试参数,具体实验结果如表1所示。

从表1中可以看出,本文算法准确率达到了(71+23)/100=94%,说明本算法具有较高的抽取准确率和可用性。

与其他网页内容抽取方法相比,如文献[4,5,6,7]均需要大量的网页元素的特征,且这些网页元素特征量化主观性较强,不好把握。本文方法最大的优势在于只需网页元素的位置信息,数据计算量较小。只要先确定网页视觉焦点和网页视觉热区宽度与高度,然后利用DOM提供的属性获取每个候选正文信息块左上角点坐标和右下角点坐标,根据本文的候选正文信息块重要度函数就可以快速地计算出每个候选正文信息块的重要度,选取重要度最大的作为正文信息块。

6 结 语

本文对网页布局特征和网页视觉热区的正文信息抽取方法进行了研究,得出以下结论:

(1) 网页用户在访问网页时,注意力的焦点必然集中在网页中某一区域,该区域称为网页视觉热区。正文信息块必然占有视觉热区最大的一块区域,这是本文的出发点。

(2) 利用文献[3]得到候选正文信息块,在此基础上利用网页布局特征,将候选正文信息块事先确定的视觉热区相交,给出候选正文信息块重要度函数,通过该函数抽取正文信息。

实验结果表明本文算法的有效性,但视觉热区选择具有主观性,如何使视觉热区能根据不同网页自动调整,这需要进一步研究。

摘要:对网页抽取进行研究,提出一种新的网页正文信息提取方法,它利用网页布局特征与网页视觉热区来确定网页正文信息。首先选取网页的一部分区域作为网页视觉热区,通过文档对象模型得到候选正文信息块,在此基础上,给出候选正文信息块重要度函数确定网页正文信息。实验结果表明,该方法具有良好的性能。

关键词:布局特征,视觉热区,文档对象模型,候选正文信息块,重要度函数

参考文献

[1]Baumgartner R,Flesca S,Gottlob G.Visual web information extractionwith Lixto[C]//Proc.of the Intl.Conf.on Very Large Data Bases(VLDB’01),2001:119-128.

[2]Zhai Y,Liu B.Extracting Web Data Using Instance-Based Learning[C]//Proc.of the 6th Intl.Conf.on Web Information Systems Engi-neering(WISE’05),2005:318-331.

[3]Gupta S,Kaiser G,Neistadt D,et al.DOM-based Content Extraction ofHTML Documents[C]//proceedings 12th International World WideWeb Conference,2003.

[4]Cai D,Yu S,Wen J R,et al.VIPS:A vision-based page segmentation al-gorithm[R].Microsoft Technical Report,MSR-TR-2003-79.2003:10.

[5]陈翰生,曾剑平,张世永.一种基于位置信息的Web页面分割方法[J].计算机应用与软件,2009,26(7):155-159.

[6]韩先培,刘康,赵军.基于布局特征与语言特征的网页主要内容块发现[J].中文信息学报,2008(1).

基于内容的搜索引擎垃圾网页检测 篇4

随着网页数量的指数级增长,用户不得不通过搜索引擎获取有效信息,近几年搜索引擎已经成为网络信息检索的主要方式。据研究表明[1]:大多数用户只查看搜索引擎返回的前三页的搜索结果。因此,网站管理者会通过努力提高网站的质量,以达到提高网站在搜索结果中排名的目的。但是,有些网站则是通过一些“作弊”的方式来提升排名。更有甚者,有些网站管理者 “手动”或“自动”地制造一些“垃圾网页”,这些网页不是提供给用户有效的信息而仅仅是为了提升在搜索结果中的排名,以此提高网站访问量。

值得注意的是,“垃圾网页”不仅严重干扰了用户检索的有效信息,而且给搜索引擎公司造成了极大的资源浪费。据研究表明[2],搜索引擎在爬行网页、处理网页、索引网页、响应用户查询时在“垃圾网页”上的浪费,达到了各种资源的1/7。所以,对“垃圾网页”检测的相关研究具有现实意义。

1 “垃圾网页”的定义

首先,我们引用文献[3]对“垃圾网页”的定义:“任何企图欺骗搜索引擎网页排名算法以获得更高排名的网页”。

不同的搜索引擎在返回搜索结果时,采用不同算法计算网页在搜索结果中的排名,如Google[4]采用PageRank[5]算法计算网页的排名。也就是说,“垃圾网页”不是提高其质量,而是针对搜索引擎网页排名算法进行“作弊”,从而提高网页排名。

如图1所示,网页中包含了很多热门关键词,但是有用的信息却很少,显然是针对搜索引擎的垃圾网页。

2 基于网页内容的特征提取

虽然垃圾网页与正常网页在视觉效果上具有明显差别,但是却难以根据视觉特征进行检测。因此,我们根据网页内容,分析、提取垃圾网页的特征,并把检测垃圾网页看成一个分类问题[6],采用机器学习的方法对网页进行分类。

为了设计和评估本文的垃圾网页检测算法,基于尽可能选用Web中的“随机样本”以及网页在相关搜索结果排名靠前的原则,我们于2008年1月爬取了较具代表性的11470个中文网页。通过人工判别,数据集中共有垃圾网页570个(5%),正常网页10900个(95%)。

2.1 网页标题长度

搜索引擎对网页进行排名时,会给网页标题很高的权重,所以很多垃圾网页就针对这点,将大量与网页内容无关的关键词罗列在一起作为网页的标题,这种技术为“关键词堆砌”。

为了测试网页标题是否可以作为判定垃圾网页的特征,实验如下:提取数据集中每个网页HTML源代码 “<title>”标记中标题的长度,并计算其分布(如图2所示)。

图2由一个直方图和一个折线图组成。图中x轴代表网页标题长度值,左方的y轴与直方图相对应,即标题长度为x的网页数量占网页总量的百分比;右方的y轴与折线图相对应,即标题长度为x的网页中垃圾网页所占的百分比(垃圾网页的可能性)。直方图从标题长度为40的位置开始服从对数正态分布,随着标题长度的增加,垃圾网页的可能性也逐渐递增,虽然在110位置有一个噪点,但网页标题的长度大于120时其是垃圾网页的可能性就高于50%。可见,标题长度可作为判定垃圾网页的一个较好的特征。

2.2 网页压缩率

搜索引擎在计算网页文本与目标关键词相关度时,主要采用的是Salton和McGill于1973年提出的TF/IDF算法[7]。TF/IDF算法认为关键词在文档中的权重正比于其在文档中的出现频率,反比于所有文档中出现该关键词的文档数。根据此算法,垃圾网页可能通过在网页中大量重复同一关键词以获得更高的权重。

我们将网页压缩并计算其被压缩前后大小的比值以获取该特征,并将这个比值称为网页压缩率,计算数据集中每个网页的压缩率,得到结果如图3。可见,网页压缩率的分布服从正态分布,在0.31位置达到最高点,在压缩率小于0.10时,网页是垃圾网页的可能性大于60%,故网页压缩率也是判定垃圾网页的一个较好的特征。

2.3 其它特征

(1) 网页“<META>”标签

在HTML语言中,“<META>”标签被用来描述一个HTML网页文档的属性,通常会用到“name”属性里的“keywords”(网页关键词)和“description”(网页描述)两个参数。大多数搜索引擎的搜索结果排名和META标签中的内容有很大关系,以至于“META”标签在一个页面中的作用仅次于网页标题。所以很多垃圾网页的META标签的内容会与正常网页有很大区别。

为此,我们计算了数据集中每一个网页的“<META>”标签数量、“<META>”标签“name”属性值为“keywords”的“网页关键词”长度、“<META>”标签“name”值为“keywords”的“网页描述”长度等作为备选特征。

(2) 网页URL长度

垃圾网页一般是自动生成的,因此垃圾网页的URL会与正常网页具有显著的区别,为了提取此特征,我们把数据集中每一个网页的URL长度提取出来,将其作为备选特征。

(3) 网页长度

部分垃圾网页为了与大量关键词都“相关”,不仅大量重复某个关键词,而且将大量热门关键词加入到网页中,所以垃圾网页的长度可能与正常网页具有较大区别,也将网页长度作为备选特征。

(4) 常用词出现率

有些垃圾网页的内容就是从热门关键词词典中选择一部分,这种垃圾网页很可能出现常用词过少或过多的情况。针对这种行为,首先建立一个常用词词典,提取数据集中每一个网页的文本并进行分词,然后计算每个网页中的常用词数量与此网页包含的全部词汇数量的比值,将其作为备选特征。

(5) 停用词使用率

有些垃圾网页的内容就是随机选取的一些热门关键词,所以这些垃圾网页中的停用词的出现频率与正常网页的停用词出现频率有很大的区别,为了提取这个特征,我们计算了数据集中每一个网页的停用词数量与此网页包含全部词汇数量的比值,将其作为备选特征。

(6) 可视文本

为了提供给用户更多相关的搜索结果,搜索引擎在分析网页的时候往往将HTML标签里的部分关键词也收录起来(虽然这部分文本对用户是不可见的)。于是垃圾网页就可以将关键词堆砌到网页HTML标签里。为了提取此特征,我们计算了去除HTML标签后的网页文本长度(即可视文本长度),将可视文本长度与未去除HTML标签的网页HTML文本长度的比值作为备选特征。

(7) 链接文本数量

搜索引擎在计算网页排名的时候考虑到链接文本的因素。即如果网页A有一个指向网页B的链接,其链接文本为t,那么即使网页B中没有出现关键词t,搜索引擎也会认为网页B的内容是与t相关的。搜索引擎在计算网页排名的时候会考虑链接文本的情况。所以有些垃圾网页的存在就是为其他垃圾网页提供热门关键词的链接文本。所以,我们提取出网页中所有链接文本并计算其长度,将其长度值与网页所有文本长度值(包括链接文本)的比值作为此备选特征。

3 使用分类器检测垃圾网页

前一部分中我们计算了网页的若干特征分布,但这些特征不能单独作为检测垃圾网页的决定性规则,我们考虑将这些特征结合起来并对垃圾网页进行检测。

本文将垃圾网页检测看成一个分类问题,通过建立一个分类模型,根据网页内容计算其特征值,使用分类器将其归类到正常网页或者垃圾网页类别中。我们实验了以下分类方法:基于规则的分类方法[8]、基于朴素贝叶斯的分类方法[9]以及基于决策树的分类方法。通过对比试验结果(如表1所示),发现基于决策树的分类方法效果最佳。

以下主要关注基于决策树的分类方法,我们采用C4.5分类算法[10]建立分类模型。C4.5算法工作原理为:在给定训练数据集和相应的特征集后,此算法建立一个类似于流程图的树型结构,其中每个内部节点表示在一个属性上的测试,每个分枝表示一个测试的输出,算法使用称为信息增益的基于熵的度量作为启发信息,选择能够最好地将样本分类的属性作为树形结构中节点的“测试”或“判定”属性。

我们使用试验数据集中的网页训练分类器。由C4.5算法建立的决策树的一部分如图4所示,其主要分类过程为:测试此决策树的根节点所代表的网页属性值,然后根据各分支所代表的输出,选择输出到左边节点或者右边节点,然后重复此步骤,直至输出节点为一个类别。例如:如果一个网页的URL长度大于107,那么分类器就将此网页归类到垃圾网页的类别中;如果一个网页的URL长度小于等于107,并且Meta标签数量少于等于6,并且Meta标签“描述”长度大于48,并且网页长度大于13759,并且网页压缩率小于等于0.226,那么这个网页就被分类器归类到垃圾网页的类别中。

最后,我们采用了10-折交叉确认方法对本文的检测模型进行评估。10-折交叉确认方法思想为:将数据集中的数据随机分成10等份,并执行10次训练/测试步骤,每个步骤中都是使用9个等份作为训练分类器的数据,并使用剩余1个等份作为测试分类器的数据。由此,得到分类结果:11315个(占98.6%)网页分类正确;155个(占1.4%)网页分类错误。

综上,本分类器对正常网页具有很好的识别效果, 对垃圾网页也能进行较为准确的判别,可实际应用于搜索引擎中。

4 结 论

本文较为详细地分析了多种垃圾网页技术,讨论了几种可用于垃圾网页的内容特征,建立了基于决策树的检测模型并进行了实验,实验结果表明本文的垃圾网页检测方法是行之有效的。由于本文是基于网页内容的检测,而没有考虑网页的链接结构,故可以在以后的工作中考虑结合网页的链接结构对垃圾网页进行检测[11],以期获得更好的检测结果。

参考文献

[1] Jansen B,Spink A.An Analysis of web documents retrieved and viewed[C]//Proceedings of ICIC′03.Las Vegas,Nevada,USA,2003:65-69.

[2] Ntoulas A,Najork M,Manasse M.Detecting spam web pages through content analysis[C]//Proceedings of the 15th International Conference on World Wide Web.Edinburgh,Scotland,2006:83-92.

[3] Gyongyi Z,Molina H.Web spam taxonomy[C]//Proceedings of the 1st International Workshop on Adversarial Information Retrieval on the Web.Chiba,Japan,2005:39-47.

[4] Brin S,Page L.The anatomy of a large-scale hypertextual web search engine[C]//Proceedings of the Seventh International Conference on World Wide Web.Brisbane,Australia,1998:107-117.

[5]Bianchini M,Gori M,Scarselli F.Inside PageRank[J].ACM transac-tions on Internet Technology,2005,5(1):92-128.

[6]Fetterly D,Manasse M,Najork M.Spam,damn spam,and statistics:u-sing statistical analysis to locate spam web pages[C]//Proceedings ofthe Seventh International Workshop on the Web and Databases.Paris,France,2004:1-6.

[7] Stilton G,McGill M.Introduction to modern information retrieval[M].New York: McGraw-Hill Inc,1986.

[8]Eibe Frank,Ian Witten.Generating Accurate Rule Sets Without GlobalOptimization[C]//Proceedings of the Fifteenth International Confer-ence.San Francisco,USA,1998:144-151.

[9]John G H,Langley P.Estimating Continuous Distributions in BayesianClassifiers[C]//Proceedings of the Eleventh Conference on Uncertain-ty in Artificial Intelligence.Quebec,Canada,1995:338-345.

[10] Quinlan J.C4.5:programs for machine learning[M].San Francisco:Morgan-Kaufman Publishers Inc,1993.

网页内容过滤 篇5

随着互联网的快速发展,Web已经成为当前最大的信息库。由于Web页面使用的HTML标记语言,这就使得它和文本比较起来表现能力更强[1]。但同时这些网页信息中包含着大量的导航栏、广告链接以及推荐栏等,这些信息一般对于用户来说作用不大,特别是对于网页预处理来说,却起影响作用。如何准确的抽取到我们所需要的文本信息,给Web数据挖掘提供基础数据是现在研究的一个重点。

本文在文献[2]中提出的基于树形结构的基础上进行了改进,首先对网页进行分块,然后通过对一个网页中所有的块进行方差和阈值计算,找出最大的块,确定我们要抽取的文本信息。

1网页文本抽取方法

对于网页来说一般可以分为两类[3],一类是索引类型的网页,如http://www.hao123.com,主要提供的一些超链接信息,另一类就是正文类型的网页,包含有主题内容,在本文中我们主要处理这种类型的网页。

目前常用的网页文本内容抽取方法主要有基于正则表达式、基于网页DOM结构以及使用HTM-LParse[4]等。但各种方法都存在一些不足。由文献[5]可知,94.65%的网页所含有的词语少于500,并且这些词语出现的平均次数少于2.0,对于这样的网页特征词或者能反映文本特性的文本比较少,所以基于文档结构这种方法进行网页文本抽取就会存在一些问题,由于特征项比较少,不能够获得足够多的信息。

单纯使用正则表达式[6]进行网页文本内容抽取,需要考虑的情况比较多,往往很多无用的信息被抽取到,增加了要处理的文本信息量,这些无用的信息对Web挖掘的作用不大,但同时由于信息量的增加,必将影响计算的速度和准确性。

使用HTMLParser虽然很方便,但是不规则的网页效果较差,总是遗留大量的,对于这些标签需要进行特殊的处理。

2基于树形结构的网页正文内容抽取

针对以上常用的网页文本内容抽取方法中存在的问题,本文在基于树形结构的基础上进行了改进。

由于html是一种标记语言,通过查看网页的源码可以看出,里面有大量的标记,而整体是一个DOM树形结构[7]。我们通过定义一个树形结构体,把html转化成我们所需要的树形结构,在这个树形结构中按照块(一个html标签内的文本内容)来存储我们所需要的信息,最后通过对所有块进行方差计算,找出主要的信息块,抽取我们需要的信息。算法的具体操作如下。

2.1对一个网页进行分块处理

首先我们定义好一些存储信息的结构,以及相应的出栈、进栈等操作方法等。树形的结构定义如下:

对于把一个网页的内容通过分块的方法存储到所定义好树形结构当中。

具体的执行步骤为:

Step1:对于一个网页首先转化成字符串输入流。

Step2:插入<html>,同时查找<body>标签,把<body>标签插入到树结构当中。

Step3:查找”<”开始的标签,同时判断该标签的类型,具体标签见表1,对不同的标签进行不同的处理。

Step4:当找到”>”标记时,把两个标记之间的内容提取处理,存放到相应的结构当中(content字段当中)。

通过这种方式最后把一个网页存储到我们自己定义好的树形结构当中,为下一步的处理做好准备。

2.2选出主内容所在的块

通过上一步操作,把一个网页的文本经过处理以后存储到定义好的结构当中。还需要计算几个值,通过这几个值的计算最后确定我们需要抽取的信息。

总块方差:对于经过处理以后存储在树结构内容,按块为存储单位,根据块的大小,计算所有块的方差。

均方差阈值:这个数值主要通过实验来确定,当计算的总块方差大于该阈值时,才可以抽取该内容块的内容,经过实验测得当均方差阈值为0.79时,取得较好的效果。

对于主内容块的抽取主要通过以下两步来计算。

(1)将块分布两端(20%)中,最大和次大的两个块去除掉,此时的内容块中,最初的块是网页中最后的块,去除最大和次大的块的主要作用是将每个网页中copyright那一部分和其它较大的干扰部分,减少它们对主内容块提取的影响。因为很多网页中有不少的广告等冗余信息,并且在类似的网页中都会出现,所以对这些与数据挖掘中使用不是很大的数据通过计算删除掉它们,能够减少计算的复杂度。

(2)经过网页初始化操作以后,再计算总块方差,然后找出编号最大的块,通过与计算的方差比较,由实验测得当主块小于5时,我们认为是合理的,把里面的内容抽取出来,作为我们选择的信息。具体的流程图如下:

3 实验

3.1 实验结果

为了验证上述方法的有效性,本文采用Java语言编写程序对该方法进行了试验测试。首先从一些门户网站上收集一些网页,通过本实验的方法和人工提取的方法进行对比,实验结果如表2所示。

对于一个网页进行文本内容抽取前后的效果图如图2和图3所示。

3.2 结果分析

通过实验可以看出对于抽取的网页的正确率平均在96%,取得不错的效果。对于那些没有被正确抽取到的网页主要是网页的结构很不规整,或者网页中文本的内容太少,对于这样的网页的处理还需要进一步的改进和特殊处理。其中图2和图3是对一个网页进行文本内容抽取前后的对比,可以看出这种方法能够准确的抽取到我们所需要的文本主题内容,同时把一些无用的信息过滤掉。

4 结论

本文主要是通过对网页分块,然后通过对不同块的计算,最终确定我们要抽取到的信息主题,并通过试验进行了验证,对于主题型网页取得了不错的效果。但对于索引型网页的处理效果不是很理想,以后的工作中需要将语义的处理技术引入到信息抽取当中,通过语义的分析,会在准确性上有所提高。

摘要:网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法,具有简单、实用的特点。实验结果表明,该抽取方法准确率达到96%以上,有一定的实用价值。

关键词:结构树,信息抽取,网页分块

参考文献

[1]段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现.计算机科学,2007;34(6):210—213

[2]常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析.计算机工程与应用,2004;(16):129—132

[3]任玉,樊勇,郑家恒.基于分块的网页主题文本抽取.广西师范大学学报:自然科学版,2009;27(1):141—144

[4]桂林斌.基于HtmlParser抽取动态异构Web信息的研究与实现.计算机与数字工程,2009;37(7):161—164,206

[5] Wong Waichiu,Fu Ada Waichee.Incremental document clusteringfor webpage classification.Chinese University of Hong Kong,2000

[6]程岚岚.基于正则表达式的大规模网页术语对抽取的研究.情报杂志,2008;11:62—64,68

网页内容过滤 篇6

成果描述:本发明公开了一种从网页中抽取评论内容的方法和装置, 涉及信息处理技术, 通过建立评论页面的DOM树, 并选择符合评论区抽取规则的子树抽取出评论内容, 再利用评论记录间的结构相似性, 抽取出评论区中的评论记录, 利用包含评论内容的子树的差异性, 选择标准差最大的子树作为包含评论内容的子树, 最后选取稳定性最小的一条路径, 稳定性差绝对值最大的相邻节点中的子节点作为根节点, 这个子树就是要抽取的评论内容。

技术优势:由于利用了评论内容的无结构特性来进行提取, 并且不需要根据网页的模板进行复杂的配置, 并通过计算除去了噪声信息, 提高了从网页中抽取评论内容的效率和准确性。

网页内容过滤 篇7

计算机软硬件更新较快, 适时调整教学内容, 跟随计算机技术发展的步伐, 才能不与市场脱轨, 培养的学生才能更快地适应工作岗位。

1课程的现状与问题

传统教学内容包含: 网页制作基础知识、HTML语言基础、DreamWeaver网页制作工具介绍; 网页基本元素制作: 文本、图像、链接、多媒体、 插件、表单; 网页布局: 表格、div、框架 ; 网页高级操作 : 模板和库 、CSS样式、行 为等 ;动态网站制作 (以ASP开发为案例); 图像处理 (以fireworks为工具); 动画制作 (以Flash为工具)。

HTML5和Web3.0时代已经到来, 而《网页制作》课程教学内容与参考教材等相对滞后, 传统教学内容涵盖了大部分网页制作技术, 但在内容组织上存在以下问题:(1) 在HTML语言基础教学中, 仍以HTML4.0版本为主; (2) 网页基本元素制作内容中, 仍以Dreamweaver8或者DreamweaverCS4作为网页 开发工具 ;(3) 未将div与CSS有机结合 ;(4) 未考虑新的搜索引 擎优化技术 ; (5) 理论讲解 不够用 ,如内置行为的使用未结合JavaScript的讲解 (6) 动态网站制作部分一般以ASP为案例; (7) 图像处理、动画制作工具使用旧版本。

2课程内容更新

针对以上问题, 对《网页制作》教学内容提出几点改进。

2.1 HTML5替代HTML4.0

HTML 4.0中的几个元素已经被废弃, 有些元素在HTML5中已经被删除或重新定义。为了更好地处理现代的互联网应用, HTML5添加了很多新元素及功能。教学过程中, 一般使用可视化工具来制作网页, 学生缺乏对HTML的了解。在使用Dreamweaver工具前, 应将HTML做总体讲解, 以记事本等文本编辑器开发简单页面, 帮助学生理解HTML的各项元素。

2.2工具更新

软件的不断更新是计算机技术发展的一个显著特征, 随着计算机技术的更新, 旧的软件已不能适应时代要求。新的版本界面更友好、操作更人性化、功能也更全面。

网页制作过程中用到的工具包含: 网页设计工具、图像处理工具和动画处理工具。一般在教学中采用Adobe公司开发的Dreamweaver、Photoshop、Firworks和Flash等。这些工具版本一直在更新, 旧版本中, 有些功能已经废弃, 为适应新技术发展, 教学时所使用的开发工具应得到及时更新。适时更新开发工具也能提高学生的学习兴趣。

2.3 div与CSS相结合

使用div+CSS设计网页的优点显而易见。如何让学生能更好地掌握这项技术? 传统教学中, 教师注重CSS规则的讲解,未能将div与CSS紧密结合, 使得学生对div与CSS整体把握不够。解决办法: 实践过程中, 设计出合理的综合性案例,以div加CSS来布局页面, 尝试使用各种类型的CSS定义方法, 进而理解CSS各项规则, 掌握了div与CSS使用方法,CSS规则就可以得到灵活运用。

2.4 SEO技术融入

SEO (Search Engine Optimization, 搜索引擎优化), 是通过研究各类搜索引擎如何抓取互联网网页和文件, 研究搜索引擎进行排序的规则, 来对网页进行相关的优化, 使其有更多的内容被搜索引擎收录, 并针对不同的关键字获得搜索引擎更高的排名。从而提高网站的访问量, 最终提升网站的销售能力及宣传效果。

将SEO技术贯穿于整个教学过程, 如遵循建立站点的规则尽量避免中文、站点目录层次不宜超过3层、网页命名简单明了、网页布局采用div+CSS、网页头部信息设置关键字、说明, 在发布、维护阶段加入网站推广、优化域名与优化管理等。

2.5增加JavaScript

考虑网站在浏览过程中, 与用户交互多, Dreamweaver内置的行为已不能满足需求, 在《网页制作》教学内容中应增加基本的Javascript脚本语言教学, JavaScript是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言。同时也是一种广泛用于客户端Web开发的脚本语言, 常用来给HTML网页添加动态功能。

2.6动态网页制作语言选取

动态网页制作部分, 经常采用的教学案例有留言本、聊天室等。因Dreamweaver自带ASP相关控件, 无需深入了解ASP语言, 通过拖拽控件 即可自动生 成相关代 码 , 进行动态网页制作。这样容易造成学生脱离了Dreamweaver工具就没法自己制作动态网页的局面。所以加强动态网站制作基本步骤,学习基本的动态语言, 熟悉代码, 采用JSP或PHP等语言,进行多次练习, 举一反三, 达到掌握基本动态网页制作技术的目的。

3课程改革的应用

传统的教学内容中加入部分新内容, 根据由简单到复杂的认知规律重排内容, 改进的《网页制作》课程教学内容及学时安排建议如图1所示。

对每部分教学内容进行细分, 学习任务划分如表1所示。

将该课程教学内容应用于近几届学生, 发现教学效果显著, 通过学习, 学生能掌握网站搭建技术, 能熟悉HTML代码, 掌握各种网页制作技术, 对动态网站技术有一定的了解,能开发简单的动态网站, 能使图像处理工具对图像进行编辑,能使用动画处理工具进行动画制作。

在课时量充足的情况下, 可适量加入网站开发实训, 进一步锻炼学生的网站开发能力, 提升学生的综合素质。

4结语

网页是人们获取信息的重要载体, 《网页制作》是一门实用性很强的课程, 计算机技术更新换代快等特点要求教师关注Web技术发展, 不断探索, 根据需要适时调整教学内容与教学方法, 使课程教学内容能满足企业、行业发展需要。结合校企合作工程, 在教学过程中, 教师可以将企业恰当、真实的项目引入《网页制作》教学, 使学生体验网页制作工作过程, 激发学生的学生热情, 有效促进教学工作。

摘要:针对《网页制作》课程教学内容陈旧、跟不上行业发展等问题,结合Web技术的发展现状,提出了对《网页制作》课程教学内容进行改革的方案。

网页内容过滤 篇8

面对当今海量的互联网网页信息,不良信息也开始四处泛滥,于是人们开始探寻各种过滤信息的技术手段,以扼制不良信息的传播,保护特定人群不受恶意信息的侵扰,例如保护企业内员工不受购物、娱乐等信息侵扰而影响工作效率,保护青少年不受色情、暴力等信息毒害。前一阶段,全国整治互联网低俗之风专项行动办公室公布了近百家涉及传播淫秽色情和低俗内容的网页名单,其中不乏Google、新浪、搜狐等一些知名门户网页。

互联网不良信息泛滥的程度已经越来越严重、范围也越来越广泛,连正规经营的知名门户网页都无法避免,这一现状确实令人担忧。当传统的网页过滤技术无法再满足用户应用需求时,基于智能的过滤技术必将成为过滤技术未来发展的主要方向。

内容过滤是网络安全研究中的一个新课题,它的任务是从动态信息源中过滤掉不安全的信息。相比传统的过滤技术,新的自适应过滤技术不需要大量初始训练文本,同时在过滤过程中可不断进行自主学习来提高过滤精度,因此更适合于Web环境的过滤要求。

本文针对传统网页过滤系统的不足点,提出新一代多级网页智能过滤解决方案。

1. 网页过滤的相关研究

网络内容过滤在中国是一个新兴的市场,其主要涵盖了Web访问过滤和电子邮件过滤等。在网络安全中网络内容过滤称为内容安全。为了避免不良信息侵扰,人们常用人工审计和网页过滤是两种方式对互联网信息进行检索、过滤。一般来说,网页过滤技术包括URL过滤技术、关键词过滤技术、图像过滤技术、模板过滤技术等。URL过滤和关键词过滤是目前市场上较为成熟的过滤技术。

UR L过滤技术的原理非常简单:通过对互联网上各种各样的信息进行分类,精确地匹配URL和与之对应的页面内容,形成一个预分类网址库。在用户访问网页时,将要访问的网址与预分类网址库中的地址进行对比,以此来判断该网址是否被允许访问。URL过滤方法具有节约带宽,降低访问延迟,减少误判率的优点。但是,URL过滤方法也存在一定的应用限制。首先,URL网址库必须实时更新,否则难以应对每日新增的Web网页。其次,预分类的网址不但要数量庞大,还要具有非常高的分类精确度,否则会出现误判、漏判的可能。

关键词过滤技术是指在访问Web内容时,对内容进行实时扫描,根据已知的敏感关键字/词、图片和页面构成特点,分析是否含有禁止访问的内容。这是相对有效的控制方法,只要建立一个足够完全的关键字库就可以完全杜绝对不良信息的访问。但是,关键词实时分析过滤技术在遇到大量数据分析时可能会造成严重的网络延迟、误判漏判等问题,对系统资源和带宽资源都造成了一定的浪费。

文献[1]提出提高模板准确性的学习和过滤阈值优化的新方法。文献[2]在传统方法的基础上,设置加权的关键字矩阵词典,从关联规则出发,应用汉语语料库里的同类词定义,提出基于同类词权重均值的关联过滤算法。文献[5]提出了网页预处理的改进方法:基于DOM数结构的过滤器。文献[6]提出一种基于ISAPI过滤器的网页防篡改系统,本研究将采用多级过滤相结合的智能过滤方法。

2. 基于自然语言处理的多级网页过滤器的设计及关键技术

本研究主要从技术的角度,分析和解决网页过滤问题。基于内容的网页过滤器的原理是采用某个分类算法(如常用的KNN算法、贝叶斯算法、神经网络算法、SVM算法等)对已知的训练样本进行学习,提取训练样本的特征向量,构造二值分类器。然后运用此分类器,对新的文档进行判断,将判断的结果提交给用户,用户可对过滤结果进行评价反馈,系统再根据反馈对过滤器进行调整。

基于自然语言处理的多级网页过滤器结构,如图1所示。其中包括,黑/白名单过滤、指纹识别技术、意图检测技术、基于内容的网页过滤以及用户个性化过滤。基于内容的网页过滤包括文本内容和图像内容,本研究重点论述文本内容过滤。

2.1 黑白名单过滤

黑名单过滤是用户生成一个网页地址黑名单/白名单。阻止或者直接允许这些网址浏览。其中,IP黑名单是一个常用的垃圾网址过滤技术。用户手工维护一份垃圾网页的地址清单,系统过滤掉所有通过这些IP地址的网页。

2.2 指纹识别技术

所谓网页的指纹,就是网页内容中的一些字符串的组合,又称为快照。就是从类似、但不相同的信息中,识别已经被确认为垃圾网页的信息。如垃圾网页常包含下面的词汇:性服务、毒品。其实这就是垃圾网页的指纹,和反病毒技术的特征码识别的思想是共通的。反垃圾网页产品通过确认网页的指纹,完成对垃圾网页的识别。

当然,指纹检查的准确性依赖于垃圾网页的指纹库,反垃圾网页产品先给网页中出现的每一个字符赋予一个数值(这个数值的确定是按照特定垃圾的用词规律特点进行分类),再利用统计方法给这个网页计算出一个综合的数值。也可以根据是否与其他多次收到的网页相似来判定(多次收到相似的网页很可能就是垃圾网页)。指纹识别技术的缺点是要经常维护指纹库。

2.3 基于内容的网页过滤

基于内容网页过滤的是对网页内容(本系统主要针对文本格式的网页),利用自然语言处理技术,对网页内容进行语义表征,首先对网页内容进行分词、特征提取等预处理;然后,结合知识库对特征项扩展,根据权值形成向量,匹配数据库中相应类目的向量,计算两向量的相似度,从而判断网页的可信度[3]。同时,利用系统自学习功能分析可信网页和非可信网页的特征,智能调整相关主题关键词的权重,使针对垃圾网页过滤的准确率达到更高。

2.3.1 意图检测技术

现在有很多垃圾网页其标题和正文都与非垃圾网页一样。其中含有个URL地址,恰恰就是这个URL地址链接的内容是垃圾内容。意图检测这项技术就是可以对URL进行检查,看其链接的内容来判断此网页是否为垃圾网页。这种技术的优点是提高垃圾网页的识别率;缺点是要经常性地维护非法URL库。

2.3.2 分词、关键词提取和扩展

分词:由于中文句子不像英文那样在词与词之间有空格,为了获得句子的词语信息,需要对句子进行分词。目前词法分析技术已经比较成熟,很多分词程序的正确率可以达到95%以上。可以采用中科院所研究的汉语词法分析系统CTCLAS或者哈工大词法分词系统IR LAS。其中IR LAS采用全切分的方法,按照词长由大到小对中的词进行匹配,找出所有可能的分词,将每种可能都添加到切分词图中。

若存在分词歧义,全切分之后构成的词图是一个含有多条路径的图结构。其它用于分词的方法还有:正向最大匹配算法、逆向最大匹配算法、词频统计、有穷多层次列举、邻接约束、联想-回溯、专家系统、神经元网络等方法。本文利用哈工大的分词系统进行分词。

关键词提取和扩展:首先去除句子中的停用词。停用词是指文本中出现频率很高,但实际意义又不大的词,主要指副词、虚词、连词和语气词等。如“是”、“的”、“啊”、“呀”等。由于大多数停用词的使用频率很高,且携带的信息量很小,如果不加以过滤,会影响搜索速度。为提高句子处理的准确性,对句子进行词法分析后,通常将停用词过滤掉。去除停用词通常是使用停用词表,停用词表是把一些检索意义不大的词收集而编制的一张表。凡是出现在这个表中的词都作为停用词被过滤掉。

关键词扩展:句子中包含的词语往往较少,但是包含着丰富的语义信息。如果单靠从句子中抽取的关键词进行信息检索,一些不包含句子关键词的文档将被忽略掉,从而影响包含答案的候选网页的召回率和答案抽取的准确性。由于不同的句子类型其答案有不同的特点,在关键词扩展时考虑根据不同类型句子的答案来扩展。

在句子的类别确定后,可以根据类别的特征进行句子类别的关键词扩展。例如句子为:正规足球的体积多大?答案中会有“立方米、立方厘米”等词,这些词可以帮助搜索答案和提取准确答案。通过收集不同类型的句子,并分为不同的类别,根据不同类别句子的答案扩展关键词。

2.4 Mime filter技术

后台采用Mime filter技术对网页进行过滤,Mime过滤器是一个COM对象,当IE加载时会主动调用这个组件。使用Mime过滤器时必需实现IInternet Protocol Sink和IInternet Protocol接口。(注:urlmon.dll内部实现了IInternet Protocol和IInternet Protocol Sink接口)。

2.5 基于内容的网页过滤器执行过程和智能学习过滤的处理过程

基于内容网页过滤器执行过程:首先,协议分析。根据用户发出的协议(如HTTP)请求做出允许或禁止访问的判断。其次,用URL类去读取一个页面,取回所有的html源码,其次,查看html源码,找到这个html源码的规则,用正则表达式,匹配内容后保存。然后,用自然语言处理技术进行过滤。

另外,智能学习过滤的处理过程主要包括:(1)模型的训练。根据初始训练文本训练得到一个初始Profile。(2)模型的自适应学习。Profile不断通过反馈信息进行自适应学习,以提高模型的准确度,相应提高后续过滤的精度。Profile定义的准确性对过滤结果有着直接的影响。同时,过滤模型(计算特征权重和文档相似度)和反馈算法(自适应学习机制的基础)对于提高过滤结果的精度也很重要。

3. 测试与分析

基于上述方法和理论,采用B/S三层结构模式,在Java EE 6+My SQ L5.1平台上设计并开发了一个多级网页过滤系统。本部分将完成测试与分析。

首先,搭建测试环境,主要步骤如下:(1)安装数据库工具My SQ L5.1,导入设计好的数据库initialize.sql。(2)安装VS2005运行底层代码,生成Http Content Filter.dll文件。以后直接使用Http Content Filter.dll文件。(3)配置服务器(tomcat),运行前台代码。接着我们就可以使用前台管理了。(4)把Http Content Filter dll加载于浏览器,加载过程封装在文件“加载安装.cmd”。

其次,打开IE开始测试。(1)对内容测试关键词条目的输入,构建profile。基于自然语言处理的网页过滤器的主要功能测试数据,如表1所示,包括测试内容、测试数量、准确率。

测试数据分析:由上述统计结果可知,该网页过滤器的基本功能的实现性能相当稳定。但是,由于时间的限制我们还是没有做大量的测试,真正的稳定性需要在实践中证明。在前期的有限的测试中能达到如此完美的表现,同样表现出了系统的性能处于一个相当高的水平。同时,通过进行比对测试,以及反复的学习和训练,最后实现了一个功能全面的邮件过滤器,这充分说明,多级过滤方法相结合的垃圾网页过滤器是可行的、高效的。

4. 结束语

本文提出了基于自然语言处理的多级网页智能过滤,该系统能够很好地完成网页过滤,使用方便,可以针对不同的用户设置不同的安全策略:黑白名单、关键词过滤(包括网页Title,UR L关键字,正文内容)、日志查询与报表(包括访问记录、访问流量、报警信息)、对网页Web Mail实时监视、支持动态页面(如Java Script,ASP,PHP等)。利用自然语言处理技术,对垃圾网页的处理方式更加灵活和人性化,可以更准确的判断垃圾网页。该过滤器有好的可扩展性,满足企业管理需求,根据以后的需求,提供杀毒功能。

因此,网页过滤器也要与时俱进,不断发展,不断创新。如何有效控制这些非法信息的传播,最大程度的保障互联网环境的安全健康,做到“魔高一尺,道高一丈”,是信息过滤技术不断探讨的课题。

参考文献

[1]沈凤仙,朱巧明,刘粉香.改进的Web文本自适应过滤策略[J].计算机与现代化,2010,9:48-52.

[2]唐坚刚,魏然.基于权重均值的不良网页过滤算法研究[J].计算机工程与设计.2008,29(3):1088-1090.

[3]黄宣菁,夏迎炬,吴立德.基于向量空间模型的文本过滤系统[J].软件学报,2003,14(3):435-442.

[4]康海燕,李飞娟,苏文杰.基于问句表征的Web智能问答系统研究[J].北京信息科技大学学报,2011,26(1):76-81.

[5]梁党卫,彭文滔,边利亚.垂直搜索引擎中过滤器的设计与实现[J].计算机应用与软件,2009,26(12):149-151.

[6]龙夏,凌军,汤彪,等.基于ISAPI过滤器的网页防篡改系统[J].合肥学院学报(自然科学版),2010,20(03):41-43.

[7]Guerm azi Radhouane,H amm am iM oham ed,H am adouAb delma jid Ben.Web angels filter:A violent Web filtering engineusing textual and structural content-based analysis[C].Proceedingso f the 8th Industrial Conference on Data Mining.Leipzig,2008:268-282.

[8]Chau Michael Chen Hsinchum.A machine learningapproach to Web page filtering using content and structure analysis[J].Decision Support Systems,2008,44(2):482-494.

上一篇:完善我国农业补贴制度下一篇:利益目标