网页解析

2024-09-28

网页解析(共4篇)

网页解析 篇1

1 引言

长期以来, 文本分类 (Text categorization, TC) 都是自然语言处理的一个重要的应用领域。一直到20世纪80年代后期, 在文本分类方面占主导地位的TC系统还都是基于知识工程 (Knowledge engineering, KE) 的分类方法, 即由专业人员手工编写分类规则来指导分类, 把如何进行分类的专家知识以手工的方式添加到规则库中。从90年代开始, 人们才开始转向了机器学习 (Machine learning, ML) 的方法, 它是从预先分好类的文本中学习各个类别的特征, 从而生成一个自动分类器。

现在文本分类系统应用非常广泛, 从基于有限词汇的自动文本索引, 到文本过滤、词义消歧, 到自动网页分类, 甚至任何需要进行文本组织的应用都可以用文本分类来进行处理。

2 网页自动分类概况

2.1 网页/文本分类定义

自动文本分类系统, 要用到很多技术, 如文本表示、特征选取、分类器构成等。在此将对文本分类中用到的定义进行简要的解释。

文本分类是指按照预先定义的主题类别, 为文档集合中的每个文档确定一个类别。早期文档是通过人工分类, 其过程是首先由人类专家将它们分类, 然后被保存于适合的形式;本文所讲的文本分类是自动文本分类 (Automatic Text Classification, ATC) , 是指定文本和预先定义类之间的类属关系, 由计算机来自动完成那些原来为人们熟知的人工分类的操作过程。

2.2 网页与文本分类的区别

文本分类和页面分类归根到底都是对文本信息的分类, 都存在着文本信息的表示、分类信息的获取等。正是基于这样的共性使得我们可以借鉴文本分类中的技术来处理页面分类问题。但文本分类和页面分类又有所不同, 如:网页信息相对于文本信息更开放, 风格不固定;网页分类的类别比文本分类的类别更多, 为了便于用户浏览和选择, 一般要求类别有层次关系;网页的分类体系随着信息的变化会做一些变动, 并且很难有一个统一的标准。

目前, 绝大多数网页是采用超文本表示语言 (简称HTML) 编写的、半结构化的文本文件。HTML表示的网页具备一定的结构, 但其侧重于外观和版面安排问题, 而不是结构化和模型化数据, 因此只能把它们称为半结构化的数据。除了纯文本这些反映网页主体的内容, 网页本身还包含一定的标记和许多指向其它页面的链接。HTML标记语言包含了丰富的信息, 如<TITLE>、<H1>等标记都表明了其与众不同的信息, 超链接也提供了网页间内在关系的信息。充分利用这些链接或许可以为分类提供帮助, 并且通过对网页结构进行分析可以有效的提高分类性能。

3 基于支持向量机的分类方法

3.1 支持向量机的基本思想

分类器是网页分类的核心, 也是“分类”———这一传统的机器学习领域的研究重点, 目前已经得到了长足的发展。现在基于统计、规则等的大量分类器被应用到网页/文本分类中来。在文本分类方法中, SVM是公认的分类效果最好的算法之一。支持向量机的学习能力是独立于特征空间维数的, 决定分类面性质的只是训练样本中的支持向量部分, 这样, 分类器也可以很好在高维空间中得到应用, 因此适合于解决文本分类问题。

3.2 支持向量机训练算法

选择什么样的训练方法会极大的影响最后的分类效果。这里的训练方法是指如何在给定的条件下合理调整各种参数、利用各种资源来改进分类效果。下面从两个方面来讨论。

1.协同训练 (Co-Training)

协同训练是指根据两类不同的数据或相同数据的不同属性来相互协助提高分类性能的方法。在当前的互联网环境下, 有大量的网页可以用来分类, 但如果全部由人来给出他们的类别标签则是不现实的事情, 因此如何用没有标签的网页来帮助分类成为一个值得研究的课题, 并且已经取得了一些进展。这里就采用了协同训练的方法。

2.多分类情况下的训练方法

当处理多分类情况时可以有多种策略来训练分类器。这里有两种情况:

a.先合并后拆分b.ECOC编码

这里不在详细介绍。

3.3 基于支持向量机的中文网页分类

基本的“一对其它”SVM多类分类中, 每一类的识别被视为一个独立的两类分类问题。设所有网页为k类, 记为L={α1, α2, …, αk}。设属于类αi的网页个数为Ni, 对任何一类αi而言, 训练正例是该类所包含的全部网页, 而反例是在训练集中不属于该类的所有其它类的网页。即αi类的正例总数为Ni, 反例总数为

对于中文网页分类, 由于缺少各类别的样本分布信息, 无法指导叶结点的划分。设分类数目为m, 训练集为Z={C1, c2, …, Cm}, Ci表示第i类。我们设计如下算法来构造m-1个分类器。

算法1:

其中N (Z) 为集合Z中类别的数量, N (Ck) 为Ck类的训练样本数, S (Cj) 为Cj类的训练集合, SVMi+为第i个支持向量机分类器的训练正例集合, SVMi-为第i个支持向量机分类器的训练反例集合。

采用上述算法, 由于分类器的误差, 本属于前面类别的网页由于没有被相应的分类器正确识别, 会被误分到最后一个类别, 因此会使最后一个类别的精确率下降, 并影响其它类别的分类性能。为此我们提出改进的支持向量机算法来构造m个分类器。

算法2:

其中Z (i) 表示集合Z中的第i个类别元素。

上述算法中最后构造的分类器用于决策过程中的最后一个类别的识别。该分类器的训练正例为该类的训练数据, 训练反例为所有其它类的训练数据。该算法通过增加一个新的分类器, 来提高分类的性能。

4结束语

本文首先对文本 (网页) 分类技术作了较为全面的分析。着重介绍了相关概念及训练算法。并阐述了基于支持向量机的网页自动分类算法。网页分类已成为一项具有较大实用价值的关键技术, 可以建立自动的分类信息资源, 为用户提供分类信息目录。

摘要:本文从网页分类方面对万维网上的数据处理技术进行了分析, 对中文网页/文本分类技术进行了介绍, 阐述了基于支持向量机的网页自动分类算法。

关键词:文本信息,网页分类,向量机

参考文献

[1]周水庚, 关佶红, 俞红奇, 胡运发.基于N-gram信息的中文文档分类研究.中文信息学报, 2001, 15 (1) ;

[2]邹涛, 王继成, 黄源等.中文文档自动分类系统的设计与实现.中文信息学报, 1999, 13 (3) 。

[3]毛伟, 徐蔚然, 郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统.中文信息学报.2006, 20 (3) .

[4]牛强, 王志晓, 陈岱, 夏士雄.基于KNN的Web文本分类方法的研究.计算机应用与软件.2007, 24 (10) .

[5]杜长海, 吉根林.模糊聚类在中文文本分类中的应用研究.计算机工程与应用.2006, (8) .

[6]解冲锋, 李星.基于序列的文本自动分类算法.软件学报.2002.13 (4) :783-789.

[7]刘斌, 黄铁军, 程军.高文一种新的基于统计的自动文本分类方法.中文信息学报.2002, 16 (6) .

网页解析 篇2

sessionStorage与localStorage

Web Storage实际上由两部分组成:sessionStorage与localStorage。

sessionStorage用于本地存储一个会话(session)中的数据,这些数据只有在同一个会话中的页面才能访问并且当会话结束后数据也随之销毁。因此sessionStorage不是一种持久化的本地存储,仅仅是会话级别的存储。

localStorage用于持久化的本地存储,除非主动删除数据,否则数据是永远不会过期的。

为什么选择Web Storage而不是Cookie?

与Cookie相比,Web Storage存在不少的优势,概括为以下几点:

1. 存储空间更大:IE8下每个独立的存储空间为10M,其他浏览器实现略有不同,但都比Cookie要大很多。

2. 存储内容不会发送到服务器:当设置了Cookie后,Cookie的内容会随着请求一并发送的服务器,这对于本地存储的数据是一种带宽浪费。而Web Storage中的数据则仅仅是存在本地,不会与服务器发生任何交互。

3. 更多丰富易用的接口:Web Storage提供了一套更为丰富的接口,使得数据操作更为简便。

4. 独立的存储空间:每个域(包括子域)有独立的存储空间,各个存储空间是完全独立的,因此不会造成数据混乱。

兼容性如何?

接下来的各种测试是在以下浏览器中进行的:IE8、Firefox3.6、Chrome5、Safari4、Opera10,事实证明各个浏览器在API方面的实现基本上一致,存在一定的兼容性问题,但不影响正常的使用。

sessionStorage测试

本节主要针对sessionStorage的一些特性进行了测试,测试的重点在于各个浏览器对于session的定义以及跨域情况。测试方法很简单:打开页面A,在页面A中写入当前的session数据,然后通过页面A中的链接或按钮使用不同的方式进入下页面B,如果页面B中能够访问到页面A中的数据则说明浏览器将当前情况的页面A、B视为同一个session。测试的具体结果如表1:

表1 sessionStorage兼容性测试

原窗口target=“_blank”window.openctrl + click跨域访问IE8是是是是否Firefox3.6是是是否(null)否Chrome5是是是否(undefined)否Safari4是否是否(undefined)否Opera10是否否否(undefined)否

从表1中可以看出,处于安全性考虑所有浏览器下session数据都是不允许跨域访问的,包括跨子域也是不允许的。其他方面主流浏览器中的实现较为一致。

API测试

方法包括以下几个:

setItem(key,value)、removeItem(key)、getItem(key)、clear、key(index);

属性包括length、remainingSpace(非标准)。不过存储数据时可以简单的使用localStorage.key=value的方式。

测试地址为:varnow.org/pages/html5/web_storage/local/localStorage.html

测试结果另人满意,标准中定义的接口在各个浏览器中都已实现,此外IE8下新增了一个非标准的remainingSpace属性,用于获取存储空间中剩余的空间,

结果如表2:

表2 API测试

setItemremoveItemgetItemclearkeylengthremainingSpaceIE8是是是是是是是Firefox3.6是是是是是是否Chrome5是是是是是是否Safari4是是是是是是否Opera10是是是是是是否

此外关于setItem(key,value)方法中的value类型,理论上可以是任意类型,不过实际上浏览器会调用value的toString方法来获取其字符串值并存储到本地,因此如果是自定义的类型则需要自己定义有意义的toString方法。

事件

标准的事件为onstorage,当存储空间中的数据发生变化时触发。此外,IE8中新增了一个onstoragecommit事件,当数据写入的时候触发。onstorage事件中的事件对象应该支持以下属性:

The key attribute represents the key being changed.

The oldValue attribute represents the old value of the key being changed.

The newValue attribute represents the new value of the key being changed.

The url attribute represents the address of the document whose key changed.

The storageArea attribute represents the Storage object that was affected.

对于这一标准的实现,webkit内核的浏览器(Chrome、Safari)以及Opera是完全遵循标准的,IE8则只实现了url,Firefox下则均未实现。

测试地址为:varnow.org/pages/html5/web_storage/local/event.html

具体结果见表3。

表3 onStorage事件对象属性测试

keyoldValuenewValueurlstorageAreaIE8无无无有无Firefox3.6无无无无无Chrome5有有有有有Safari4有有有有有Opera10有有有有有

此外,不同的浏览器事件注册的方式以及对象也不一致,具体如表4。

表4 onStorage事件注册对象

事件注册对象备注IE8documentFirefox3.6document必须使用document.addEventListener注册,否则无效。Chrome5windowSafari4bodyOpera10window

 

缺陷与不足

Web Storage的缺陷主要集中在其安全性方面,具体体现在以下两点:

1. 浏览器会为每个域分配独立的存储空间,即脚本在域A中是无法访问到域B中的存储空间的,但是浏览器却不会检查脚本所在的域与当前域是否相同。即在域B中嵌入域A中的脚本依然可以访问域B中的数据。测试地址:varnow.org/pages/html5/web_storage/local/corss_domain_js_access.html

2. 存储在本地的数据未加密而且永远不会过期,极易造成隐私泄漏。也许需要像保存密码一样询问用户是在用私人电脑还是公共电脑来决定是否将数据保存在本地。

跨页面通讯示例

示例地址:varnow.org/pages/html5/web_storage/app/play.html

玩法很简单:选择 打开多个窗口,页面会自动打开并定位4个新窗口,小球会在多个窗口间运动,在小球运动的过程中可以拖动窗口或者打开新的窗口来控制小球进入新的区域。

网页解析 篇3

Peter Jipsen编写的ASCIIMath ML.js[1]脚本, 兼容La Tex语法, 实现表义到表现的转化。Design Science公司的网页公式引擎Math Player[2], 实现了网页上Math ML的显示。两者结合, 完美地实现了从字符串到公式的网页显示。

1 ASCIIMath ML语义符号

ASCIIMath ML的公式语义, 是一种基于ASCII码的线性字符串格式, 与Design Science公司的另一软件Math Type的公式表义语法基本一致。在安装了Math Type的MS Word中, 公式有焦点时, 按键Alt+即可在公式和语义串之间切换。

1.1 ASCIIMAth ML基本语义符号

(1) 定界符:同时也是与普通文本区分的标识符。公式内容界定在一对$…$或`...`中。

(2) 保留字:函数名如sin, 表达式如lim, 希腊字母如Pi, 特殊符号如infty。

(3) 括号:{}, 表示其中内容为一整体。如lim_{x->0}中x->0作为整体置于lim底部。

(4) 语义符:/表分式, _表上标, ^表下标, &表矩阵元素之间隔, \表矩阵元素换行。

(5) 转义符:, 表示其后字符 (串) 为保留字或特定含义, 如$表美元符, frac表分式。

(6) 其他数学符号:如+-表示±, !=表≠, oo表示∞, in表示等等。

1.2 ASCIIMAth ML的表形语义符号

见表1。

2 ASCIIMath ML的基本解析结果

2.1 ASCIIMath ML的辅助标签

ASCIIMath ML的辅助标签界定math对象中的单个字符, 或界定行、块内容。其结构标签见表1之语义。

(1) 单个ascii字母字符或保留字串 (a-z, A-Z及保留字) :< m i > . < / m i >

(2) 单个ascii数字字符 (0-9) :<mn> .</mn>

(3) 单个ascii其他字符 (+, -, =, <, >, #, %, ., :, ’, ”等等) :<mo>.</mo>

(4) 空格:<mspace width=”xxx”></mspace>

(5) 行.内容块定界符:<mrow>…</mrow>

2.2 ASCIIMath ML主要解析结果示例

ASCIIMath ML完成了ascii文本串的解析到Math ML之DOM对象树的创建, 它是表现 (Pretentatin) 所代表的公式二维结构在页面上的体现。表2列举了常见公式的解析结果。

在ASCIIMath ML的转换中, 首先引用自定义元素的名空间, 创建<math>对象, 为<math>内部子节点指定样式 (以<mstyle>的形式) , 然后是表2中实质性具体解析结果。

3 ASCIIMath ML的运行过程

在HTML文件的任意位置 (推荐在</body>和</html>之间) 添加:

<script type="text/javascript" src="目录/ASCIIMath ML.js"></script>

即可实现对ASCIIMath ML.js的引用。其运行过程为:

(1) 创建Ascii Math ML对象以及名字空间:

(2) 在文档的onload事件中完成ASCIIMath ML的初始化工作;

(3) 遍历DOM对象树, 查找公式表义的字符串, 创建对应的math对象;

(4) 由动态链接库形式的网页插件Math Player.DLL完成math标签对象的页面公式显示。

4结语

以文本串作公式源, 在客户端解析、显示, 较之图片, 易编、省开销、能重复利用, 还可实现公式的检索[3], 甚至语音播报[4]。该文对Ascii Math ML.js脚本 (以v2.01为范本) 在广泛使用的IE (6.0及以上) 平台上实现的表义到表现的转化功能进行分析, 以期在此基础上的进一步开发利用。

参考文献

[1]http://www.dessci.com/en/products/mathplayer/

[2]http://www.chapman.edu/~jipsen/mathml/ASCIIMathML.js

[3]王娣娣.论专利数据数学公式的代码化[J].中国发明与专利, 2014 (10) :69-70.

政府网站网页规划中的要点解析 篇4

关键词:政府网站,网页规划,要点,主题

随着社会的不断发展与进步, 信息化进入到生产生活的各个领域。政府的政务也开始逐渐走向公开化, 为了更好地体现政府“一切为人们服务”的宗旨, 政府开始建立属于自己的网站, 方便了政府和社会的沟通, 使政府更好地为人们服务, 但是, 一些政府在网站规划中还存在某些问题, 影响了政府信息的传达。

1 创意与风格

网页的创意与风格一般是都为主题和内容而服务的, 它一般包括网页色彩、布局、图片、文字等一系列页面元素。就目前的政府网站情况来看, 大多趋于形式化、模板化, 缺少鲜明的个性。

网页的创意与风格是网页规划最重要的部分。因此, 应该要注意解决好网站的创意与风格。创意从某种程度上来讲具有很强的主观性, 但并不是没有规律可循。政府网站的创意应该要紧紧联系本地区的地域文化、历史沿革等个性化的特点, 选取一些具有代表性的图片, 再根据特色选择富有韵味的文字、有视觉冲击的色彩等, 根据视觉效果进行加工处理, 力求展现地方特点。譬如西安市政府网站可以选取“世界第八大奇迹”秦兵马俑钟楼等有代表性的符号元素等等。

2 栏目布局与板式

良好的栏目布局与版式能够使政府信息传递得更加清晰合理且人性, 同时, 浏览网站的人也可以获得美的感受。有些政府的布局规划得有些方正和死板, 缺少灵性。对此, 我们可以从以下几个方面着手加以改进:第一, 版式线条处理。巧妙运用直线、曲线、弧形、矩形等多种组合方式, 丰富网站页面的表现力第二, 栏目布局。在之前的栏目布局基础上, 适当加以错位, 力求展现多样化的个性布局。第三, 页面尺寸的把握。处理好页面宽度和长度。第四, 构图比例。一般的黄金比例分割为0.618。但是在栏目布局中, 这个黄金比例并不是不可变化的, 应该根据具体情况加以调整。比如考虑视觉中心点来合理调节黄金比例, 增强页面美感。第五, 留白处理。留白是缓和页面紧张度和复杂度的重要手段, 因此, 在进行留白处理中, 力求最大程度上提高视觉效果, 减少沉闷感。第六, 视觉流程。一般来讲, 视觉流程有三个感知阶段组成, 即总体感知、局部感知、最后印象。在栏目布局规划中, 一定要遵循视觉流程, 明确浏览者的视线导向, 帮助浏览者轻松、快捷地浏览信息。

3 页面色彩与色调

和谐统一的色彩与色调能够使人们迅速掌握信息。因此政府网站在对网页的色彩与色调规划中, 一定要保证其和谐统一。目前一些政府网站一味追求视觉冲击, 采用过多的色彩, 造成色彩冲突, 整体效果不明显。所以, 在确定网页色彩与色调时一定要保证色彩的和谐统一。一般来讲, 先要确定主色调, 充分考虑网站的创意要求, 大胆使用红色以外的颜色;其次, 确定配色方案, 根据色彩规律, 以服务主色调为宗旨, 合理选择配色方案;最后, 正确使用色彩, 选择好主色调和配色方案后, 对色彩的使用要合理, 注意“总体协调、局部对比”。

4 文字字体与字形

文字是网站的主体部门, 占据网站的大部分面积。因此, 在对文字进行选择时, 综合考虑字体与字形, 让浏览者可以清晰地浏览信息。一般来讲, 政府网站的字体应控制在四种之内, 且为了浏览者的方便, 应该选择系统默认的字体;在文字的字号和间距处理中, 正文部分的文字一般采用9磅字号;间距应根据网页设计的具体情况来设定;在文字排列中, 根据具体情况分为双栏或多栏;文字的色彩不宜过多, 否则给人眼花缭乱的感觉。

5 媒体设计与运用

随着网络媒体的快速发展与应用, 图像、视频、动画等多种元素的使用极大丰富了网页的内容和表现力。因此, 政府网站在进行网页规划时, 一定要合理且充分地运用多媒体技术。具体来讲, 有以下几个方面:第一, 声音的运用。通过浏览不同政府的网站, 我们知道政府网站一般是不使用背景音乐的。因为政府网站的访问量大, 重复播放背景音乐会影响浏览者的心情, 因此, 只有在特殊情况下才会采用背景音乐, 比如重大节日。第二, 图片的使用。在网页规划中, 一般都会将图形和图像结合起来使用。对于图片的使用, 一定要紧紧围绕地方特色, 对图片进行处理加工, 展现地方特色。第三, 动画的使用。动画生动活泼、亲和力强因此, 在使用动画的时候, 不能一味追求新奇, 而是应该围绕主题思想, 动静结合。另外, 严格控制动画的数量, 注意不要影响整个页面的整体布局。

6 网络导航与改版

网络导航是政府网站最基本的功能之一, 一般分为站外导航和站内导航。站外导航应该要及时检查链接, 保持导航的活力, 一般采用地图式导航。在处理站内导航时, 严格遵循“三次点击规则”, 确保浏览者可以迅速找到相关信息。

网站改版是进行网站建设过程中必须经历的工作。政府网站在改版时, 要确保及时性和有效性, 同时确保之前网站浏览者的阅读习惯, 在原有的基础上做一些必要调整, 而不宜做大规模的调整。

7 结语

综上所述, 政府网站是各级地区的特色体现, 良好的网页规划可以帮助浏览者方面快捷地获取信息, 促进政府与人民群众的沟通与交流。因此, 在对政府网站网页进行规划的时候, 一定要处理好以上几个要点, 不断完善政府网站的建设, 让网站真正成为政府倾听群众呼声和保障人们群众的参与权、知情权、监督权的有效方式。

参考文献

上一篇:生理和心理论文下一篇:法理探讨