网页知识管理系统研究

2024-10-16

网页知识管理系统研究（精选4篇）

网页知识管理系统研究篇1

摘要：农业专业搜索引擎对特定主题的农业信息进行检索, 其信息量多、精确度低。针对此现状, 以开源搜索引擎Nutch为技术框架, 对大豆主题网页资源采集系统进行了研究与设计。以大豆信息为主题, 研究了主题相关度判别技术, 借鉴BM25F模型的分域思想、基于向量空间模型, 提出了大豆主题相关度判别算法。在Nutch中引入IKAnalyzer中文分词工具包, 实现了大豆主题相关度的判别。实验结果表明, 该算法能够显著地提高大豆主题网页资源采集的准确率。

关键词：网页抓取,大豆主题,主题相关度,农业,搜索引擎

0引言

农业信息化是推动农业现代化建设的重要内容, 信息技术在农业生产、经营和管理等领域的应用极大地推动了农业生产方式的转变, 促进了农业经济的发展。随着互联网的快速发展, 农业信息技术得到了广泛地应用, 农业信息网站的开发利用程度成为衡量农业信息技术应用程度的重要指标。

我国农业信息网站数量急剧增长。从2007年开始, 我国农业信息服务网站数量年增长近3 000个, 目前已逐步形成了以农业信息网为核心、集数十个相关农业专业网站为依托的农业信息化综合服务平台[1]。如何在该平台的海量数据中快速、准确地获取所需信息成为焦点。目前, “中国搜农”和“农搜”是比较成熟的农业专业垂直搜索引擎[2], 其搜索结果与通用搜索引擎相比具有信息量精简、精确度高等优点; 但针对某特定主题的农业信息进行搜索时, 仍存在着信息量多、精确度低等问题[3]。与此同时, 中国是大豆的故乡, 大豆曾经是中国在国际市场上最具竞争力的农产品, 可现在中国大豆正面临着新的挑战, 如大豆生产停滞、进口剧增、国际大豆市场价格频繁波动等[4]。因此, 构建大豆网页资源采集系统具有很重要的意义。

本文以大豆信息为主题, 研究基于Nutch开源架构的大豆主题网页资源采集系统。

1系统结构

1. 1 Nutch工作原理

Nutch作为一个通用搜索引擎[5], 包括爬虫、索引、搜索3部分, 其体系结构如图1所示。首先, 网络蜘蛛在控制模块的作用下, 从URL数据库中获取种子列表, 并以广度优先搜索 ( BFS) 的方式从互联网抓取网页, 同时解析网页、提取新的链接、更新URL数据库, 最终生成网页数据库; 然后, 索引模块对文档集合进行解析并建立索引, 生成链接数据库和索引数据库; 最后, 搜索模块对外提供接口, 实现查询功能。

1. 2基于Nutch的系统结构

Nutch是基于整个互联网的搜索引擎, 并没有主题相关度判别功能[6], 若要实现大豆主题网页资源采集的功能需要在其基础上加以修改。因此, 本系统在Nutch基础上添加大豆主题相关度判别模块, 过滤、筛选出与大豆主题相关的网页资源, 其结构如图2所示。

2主题判别关键技术的研究

2. 1主题相关度判别原理

主题判别是检索、匹配的过程, 直接影响搜索结果的准确度。判断某信息资源是否与主题相关, 这不仅依赖于检索模型, 而且依赖于主题词库, 其原理如图3所示。

2. 2大豆主题相关度的判别方法

1) 大豆主题词库。大豆主题词库是用来存储大豆相关关键词的专业词库, 是主题相关度判别的基础。它直接影响着采集信息与大豆主题的相关度, 决定着系统的精确性。本文将大豆主题词库结构按照类别设计成两层: 第1层为大豆主题词所属的类别, 将大豆相关信息分为流通领域、农业领域、现货价格、期货价格、大豆加工和相关品价格等类别; 第2层为每个类别所包含的大豆主题词, 其结构如图4所示。

2) 大豆主题判别方法。在大豆主题词库的基础上, 借鉴BM25F的分域思想, 利用向量空间模型实现大豆主题相关度的判别。首先, 利用向量空间模型计算各“域”主题相关度。每个“域”可以看作是t维特征空间中的一个数值点, 每个特征形成t维空间中的一个维度, 链接特征空间原点和这个数值点形成一个向量, 而Cosine相似性就是计算特征空间中两个向量之间的夹角, 这个夹角越小, 说明两个特征向量内容越相似; 反之, 内容越不相同[7]。Cosine相似度计算公式为

K为大豆主题词特征向量, kj为第j个大豆主题词对应的特征权值, Di为域文档, wj为文档Di的第j个特征单词对应的特征权值, 它代表单词反映文档的比重, 其值越大越能反映文档的内容, 计算公式为

其中, IDF代表逆文档因子, 反映的是特征单词之间的相对重要性。IDF代表了单词带有的信息量的多少, 值越高, 说明其信息量越多, 就越有价值。Wtf代表单词词频 ( 一个单词在文档中出现的次数, 其值越大能代表文档所反映的内容) 的变体。计算公式为

N代表文档集合中共文档个数; 而nk代表特征单词k在其中多少个文档中出现过, 即文档频率; Tf为词频; a为调节因子。研究表明, 取值为0. 4时效果最好, 该方法为增强型规范化Tf。

然后, 借鉴BM25F的分域思想, 判断大豆主题相关度。设某个文档可以分为F个域, 每个域的权重为WFk ，则文档Di的大豆主题相关度计算公式为

将Score ( K, Di) 与预设阀值进行比较, 其值大于等于阀值时认为与主题相关; 否则为不相关, 应舍弃。

3功能实现

3. 1引入IKAnalyzer, 实现中文分词

Nutch默认支持一元中文分词, 不能体现语义信息; 而中文分词的好坏直接影响文本提取的准确度, 因此必须拓展Nutch的中文分词功能。IKAnalyzer是一个开源的、基于java语言开发的轻量级的中文分词工具包。它采用了特有的“正向迭代最细粒度切分算法”, 具有60万字/s的高速处理能力; 采用了多子处理器分析模式, 支持: 英文字母、数字、中文词汇等分词处理; 支持用户词典扩展定义。本文引入IKAnalyz- er, 实现了中文分词, 提高检索的命中率, 运行结果如图5所示。

3. 2大豆主题判别实现

首先, 利用Html Parse对农业信息网页进行解析, 提取标题、Meta描述、内容等信息; 然后, 分别针对各部分采用向量空间模型计算大豆主题相似度, 并求带权和, 得到大豆主题相关度; 最后, 将该值与预设阀值进行比较。其流程如图6所示。

4结果分析

对采集系统的评价, 除了时间和空间等运行效率方面外, 更重要的是对采集结果质量进行评价。目前最为接受的评价标准是精确率和召回率。有

其中, R表示本次采集中相关文档的数量, uR为不相关文档的数量, T为整个文档集合。显然, 无法获得整个文档集合, 本文以精确率来衡量系统的性能, 采用Google搜索引擎对关键词“大豆转基因固氮”进行搜索; 同时, 再利用本系统进行搜索, 对两个系统收集结果的前100个页面进行主题相关度评价, 对比结果如图7所示。

对比分析可得, 该系统在搜索速度上不如商业搜索引擎; 但其具有较好的主题倾向性, 有效地提高了大豆主题网页资源采集的准确率。

5结束语

通过对主题相关度判别技术的研究, 借鉴BM25F模型的分域思想, 基于向量空间模型, 提出了大豆主题相关度判别算法, 基于Nutch架构, 引入IKAnalyzer, 实现了大豆主题相关度的判断。通过实验数据对比, 结果表明, 该算法有效地提高了大豆网页资源采集的精确率。

参考文献

[1]李文圃, 廖桂平.数据挖掘技术在农业信息网站中的应用研究[J].中国农学通报, 2012, 28 (06) :269-275.

[2]周国民, 樊景超, 张静.“农搜”系统的研发与应用[J].农业网络信息, 2009 (8) :14-16.

[3]刘相琴, 孟繁疆.大豆垂直搜索引擎的研究与设计[J].农机化研究, 2013, 35 (5) :200-203.

[4]喻翠玲.经济全球化下的中国大豆产业:价格、供给与贸易[D].武汉:华中农业大学, 2006.

[5]邵秀丽, 刘彬.基于Nutch的垂直搜索引擎的设计与实现[J].计算机工程与设计, 2011, 32 (2) :539-548.

[6]李耀芳, 张涛.基于Nutch的垂直搜索引擎系统[J].计算机系统应用, 2011, 20 (9) :193-196.

[7]张俊林.这就是搜索引擎核心技术详解[M].北京:电子工业出版社, 2012.

网页知识管理系统研究篇2

网站的安全受到多种因素的影响, 常见的如服务器所在的操作系统漏洞、部署的网站文件的漏洞等, 都会导致网站安全受到威胁, 严重时甚至导致站点瘫痪, 导致网站面目全非。对于一个网站, 其需要保护的核心便是是网页文件, 一个中小规模的网站的相关文件达到数百上千是很正常的, 如果通过管理员定期人工比对各文件的一致性也即是否被篡改, 从而来进行防护, 不但可操作性不强, 也不能达到及时有效保护的效果。许多网站管理员, 经常抱怨自己的站点即使经常做安全维护, 但站点的一些关键文件如index.html、inedx.asp、conn.asp以及js文件被修改, 被添加恶意链接。

1 国内外研究状况

当前大部分研究论文和产品文档中都会提到以下四种技术:

(1) 定时循环扫描技术 (即:外挂轮询) :使用程序按照用户设定的时间间隔, 对网站目录进行定时扫描比对, 如发现篡改, 就用备份进行恢复。

(2) 事件触发技术:使用程序对网站目录进行实时监控, 当有对文件的属性, 大小等修改时就进行检查是否是非法篡改。

(3) 核心内嵌技术 (即“数字水印”或“数字指纹”) :在用户提交访问网页的请求之后, 在服务器正式提交用户请求网页内容之前, 对网页进行完整性检查, 一般也是通过散列值对比的方式。

(4) 文件过滤驱动技术:采用系统底层文件过滤驱动技术, 拦截与分析IRP流, 此技术多见于Windows操作系统。

2 研究内容

我们的研究则没有针对以上任意一种特定技术, 而是从业务逻辑的角度对文件保护进行了研究, 内容包括监控、恢复以及告警, 主要内容如下:

2.1 对监控的研究

对监控的研究主要关注于两个方面:针对特定操作系统 (如Linux和Windows系统) 以及与平台无关的方法。

对于Windows操作系统而言, 在Windows实现文件监控有三种方法, 第一种是“虚拟文件系统驱动”方法, 如Windows下的Filemon。第二种方法是“HOOK API”方法, 即钩子技术。第三种方法是“消息机制”, 从Windows的文件通知消息获取系统的文件操作。

对于Linux系统而言, 像Linux文件系统安全监控软件Inotify-sync等, 可以使用Linux内核提供的Inotify特性, 让用户配置监控目录, 并且对不同的文件系统操作事件调用不同的事件处理脚本。

2.2 对恢复的研究

针对文件恢复, 单从恢复技术而言, 像常用的EasyRecovery这类专门的文件恢复软件功能特别强大。

它能恢复丢失的数据以及重建文件系统。主要是在内存中重建文件分区表使数据能够安全地传输到其他驱动器中。可以从被病毒破坏或是已经格式化的硬盘中恢复数据。但是从网站的文件文件还原角度来讲, 这类技术还是难以应用到网页文件防篡改系统中来。

2.3 对告警的研究

对于告警部分, 一般是形成日志来记录所造成的篡改以及恢复的情况, 以方便管理员查询, 可以通过电子邮件, 短信收发装置等远程通讯选择性地将结果通知管理员。

3 实现方案

综合以上三个模块的独立研究, 以及通过搜集各类产品进行功能, 价格的和设计原理的比较, 通过对国外和国内的产品特点认识。我们实现了本地网页防篡改的核心软件主要有如下三模块:

监测模块——利用计算MD5散列值来对要保护的文件内容进行实时的操作监测。

恢复模块——通过实时监测模块传入的参数决定对被改变的文件实施相应的恢复功能, 恢复可选择实时监控和定期扫描对已被非法修改的文件进行自动恢复和手动指定恢复模式, 并将所改变的文件属性及相关参数进行记录。

报警模块——具有告警信息显示, 同时形成篡改日志, 并将日志形成文件存储, 为用户日后查阅提供依据, 也通过电子邮件告知管理员。

软件将由使用者自主选择需要保护与监测的网页文件及文件夹, 软件自动扫描并对其进行消息摘要, 提供文件完整性保护, 保证页面被任意改变时可及时发现被篡改痕迹。在散列算法MD5得出文件摘要后对重要文件进行备份, 保存重要文件作为备份以供恢复时使用。软件允许使用者根据自身需要手动调整待扫描目录、文件摘要与备份存储路径, 以便对文件进行即时扫描检测。

当文件遭遇删除时, 管理者可以根据软件先前对文件的备份进行手动选择恢复, 也可以通过软件提供的界面快速恢复;当出现恶意文件时, 管理者可以根据提示进行快速删除;当正常文件被篡改内容时, 可以根据备份文件的协助进行修改恢复。这一切检测都可以通过软件自行设定检测频率, 当异常发生时, 会有提示信息及时反馈给管理人员以便其根据实际情况进行处理。

正常更新时, 只需要每次进行更新网页内容时同时更新消息摘要即可, 这样既保证消息摘要值的不定期动态更新, 提高系统的安全性, 又使系统的更新没有冗余操作, 简单易行。

此外, 我们通过研究核心内嵌技术, 实现了简单的过滤器, 一方面在动态网站的请求发生时, 截获用户的请求, 对篡改进行实时处理, 使被篡改的页面不被用户看到, 另一方面也集中对服务端的网站目录进行监控, 对发生的改变进行记录。这样做的好处是在测试时, 用户永远无法看到被篡改的页面, 而对于本地防护而言, 用户在浏览器端还是有可能看到被篡改页面的缓存。

4 结束语

随着信息化建设的不断发展和提高, 许多部门机构的业务数据都通过门户网站开展业务, 个人或小集体通过建站来进行产品宣传推广也往往通过网站的形式来发布信息。因此保护Web应用系统安全变得越来越广泛。在现有网站安全防护的基础上部署网页防篡改系统, 采用低成本有效的防篡改系统, 不仅可以多一层保障, 同时, 网页防篡改系统详细的日志信息也为我们日常的安全维护工作提供帮助。一旦发生安全事件, 防篡改系统还将为之后的调查取证工作提供有价值的线索和依据。

尽管网页防篡改系统能进一步提高网站的安全, 但仍然存在一些缺陷, 需要不断的研究实践加以改进。

摘要：目前, 从公司企业, 政府机关, 到个人信息发布, 采用网站的形式成本低而且非常方便。但是网站被篡改的现象也经常发生, 作者所在的校园网就会经常遇到页面被篡改, 如在正常页面中加入不法链接等篡改事件发生。通过国家互联网应急中心发布的网站篡改资料以及对一些门户网站的篡改检测, 发现网页被篡改现象依旧普遍存在, 这在近年的学术研究上是很大的热点。在实际经济活动中, 各种防篡改产品层出不穷, 但也存在价格千差万别, 产品安全性参差不齐的现象。通过对现有热门产品的使用研究, 对现有研究论文成果的总结, 归纳出网站防篡改中应该关注的三方面:对网站文件的监控, 对篡改的恢复以及告警, 同时提出对策和建议。

关键词：网页防篡改,监控系统,恢复,告警

参考文献

[1]陈小兵, 范渊, 孙立伟.Web渗透技术及实战案例解析[M].北京:电子工业出版社, 2012.4.

[2]Noah, Inotify, FAM, Gamin[EB/OL].http://www.noah.org/wiki/Inotify, _FAM, _Gamin, 2010.4.

[3]孔辉.一种网页防篡改系统的设计[D].北京:北京邮电大学, 2011.

[4]王茂昌, 黄甜, 王普彪, 赖培辉.网站安全性研究[J].安阳师范学院学报, 2011.

[5]赵莉, 邓峰.基于核心内嵌技术中安全散列函数的探讨[J].科技信息, 2012-12.

网页知识管理系统研究篇3

1 体系结构

本系统以XML网页为研究对象,根据用户的主题信息从样本XML文档中抽取出模式信息,然后根据模式信息从目标XML文档中抽取出数据。整个抽取系统由两部分组成,如图1所示。

模式抽取部分:它包括一个XML分析器和一个模式抽取器。XML分析器用来解析样本文档,模式抽取器从解析后的样本文档集中根据主题信息抽取出关于该类主题文档的一般模式信息;

数据抽取部分:由一个数据抽取器组成,它根据已得到的模式信息从大量目标文档中抽取出符合用户需求的数据。

本系统的研究基于如下假设:每一个所生成的模式只针对某Web数据源中的一类XML页面,每个目标XML文档上应该有用户感兴趣的数据区域,且每个文档上的对应区域具有基本的相同的结构,为每一个主题服务。

2 模式抽取

2.1 解析样本XML文档

关于XML解析技术,目前的争论非常之多,与许多其它技术问题一样,XML文档的处理需求有着很大的区别,不同的技术实现方案会适合不同的问题域。

基于树结构的XML解析技术是将结构完整的XML文档定义为一棵树,树是广泛应用的一种数据结构,将XML文档解析成树结构以后,许多成熟的算法都可以用来遍历、搜索、编辑XML文档树。

基于事件驱动的解析技术主要是围绕着事件源以及事件处理器来工作的。当事件源产生事件后,驱动事件处理器相应的处理方法,一个事件就获得了处理。当然在事件源调用事件处理器中特定方法的时候,会传递给事件处理器相应事件的状态信息,这样事件处理器才能够根据事件信息来决定自己的行为。这种方式需要的内存小,运行速度快。

本文使用的是Java中包JAXP带有的XML解析方法,它是基于SAX接口的,在这里对它的输出方式作了一点修改,解析后的XML文档每一条路径都是一个用字符串表示的标签集,不同标签用”.”分割,并且上一个标签是下一个标签的父节点,路径结束标志是#pcdata[0],它后面就是这条路径的叶子节点,即具体的数据值或属性值。表示成这种结构而不是真正树结构的优点是它具有节约空间,产生较少麻烦的GUI以及方便以后的模式抽取及数据抽取等优点。

2.2 样本集模式的抽取方法

2.2.1 主题信息

主题信息是由用户给出的,它表明了用户的需求,用户可以通过系统界面来和系统进行交互,主题是一个topic,它可以包含许多属性,为了抽取过程中尽可能地不遗漏信息,可以通过一个网上词库WordNet来查找主题词的同义词和近义词因为关于中文的网上词典大全还没有,故而在用户定义的主题词及其属性是都要用英文描述。

具体实现是用一个类UserElemets来描述用户主题信息,把主题词及其属性包括经WordNet查询后得出的它们的同义词,近义词等信息都存放在类UserElemets中,每一个主题信息都是这个类的一个对象。

2.2.2 单个样本页的描述接口

对于根据用户给出的主题信息随机选取样本网页,每个样本页面都具有包含用户感兴趣的数据区域(即与用户给出的主题信息相符合的信息),称这样的区域为UID,所谓“样本页描述接口”实际上是对样本页中所包含的UID的一种结构化描述,是对样本页的一种标记行为,单个网页描述接口的构造就是从这个样本网页中根据主题信息找出这样的UID,它包括路径以及相关的数据项信息,这样把样本网页中要提取的主题信息按照UID分组,得出每一个分组路径,以及这条路径所包含的有用信沪息。标一记为:

UID;{TopicInfor;UIDPATH;},(i=1,…,n)

n是所得到的UID;数量;

TopicInfor是这个UID;所包含的主题信息,它的一般方式为:

DataTape Value Frequency

其中DataType表示该样本页中出现的主题信息的数据类型;Value表示该主题信息在样本页中的具体值,它可以是主题值及其属性值,也可以是他们的近义词或同义词;Frequency表示该主题信息出现的次数。UIDPATHi表示统计出的该UID在样本页中出现的路径信息。

样本页的描述接口(DI)获取算法如下:

输入:用户给出的土题信息,解析后的样本网页d,的解析树;

输出:d,中的用户兴趣模式UID;{

Topiclnfor=null;

UIDPATHi=null:

先序遍历解析树;

while(遍历未结束){

if(解析树中某一个区域与UseElements相符){

Topiclnfor.DataType=DateTypeOf(ParseTree.Node[j]);

TopiclnforNalue=ContentOf(ParseTree.Node[j]);

Frequency++;

抽取出这个区域路径表达式UIDPATH j;

if(该土题信息已出现过)

{从该UID中读出其原有的UIDPATH;

UIDPATHi=UIDPATH 1+UIDPATHj;}

Else{

UIDPATHi=UIDPATHj:i++;

}}}

算法I样本页描述接口获取算法

2.2.3 样本网页集的模式抽取

本文提出的抽取算法属于归纳学习的范畴,它表示从例子设想出假设的过程,本系统中的Pattern Extractor实际上包括两部分功能,一个就是生成训练集合,它实际上由上节中UID中的UIDPATH;组成,而不包括TopicInfor,这样做的原因是对于单一的TopicInfor来说不可能指定标识符来帮助对其定位,结构相似性比较对于数量大大超过UID的TopicInfor来说又难以达到理想的效果,所以对主题信息的析取也就失去了意义,所以对TopicInfo的没有采用学习算法确定抽取规;另一个功能就是根据训练集合学习出抽取规则,然后结合主题信息,得到样本网页集的模式信息。

设随机提取n个样本页,每个样本页按上一节算法标记出m个UID,样本页中的对应UID的路径表达式组成的集合命名为UIDPATH;(i=1,2,…,m),则一个训练集合表示如下:

UIDPATHi={UIDpath1i,UIDpath2i,,UIDpathni}

其中UIDPATHni表示第n个样本页的第i个UID.则所研究的问题域当中存在m个训练集合。

抽取出的模式是一个二元组,表示为ExtractPatterns{ExtractRules,PatternTopicInfor},在具体应用时被表达成UID主题信息分开的两段式结构,而且UID的提取是在样本路径表达式的训练集合上学习得到的,而主题信息的获得只是通过得到的UIDPATH查找样本描述接口中的TopicInfor得到的。

模式抽取算法PEA(Pattern Extraction Algorithm)由两部分组成:第一部分是对样本集的UIDPATH规则抽取,它是一个典型的顺序覆盖算法,算法的核心部分是学习出抽取规则,算法首先产生一个假设去覆盖尽可能多的集合中的正例,然后从集合中删除被覆盖的正例,再在剩余元素的基础上产生另一个假设去覆盖尽可能多的集合中的正例,如此循环直至所有的元素被覆盖,最后算法返回假设的析取作为最后的抽取规则;第二部分是根据提取的UIDPATH规则,找出相应的TopicInfo,最终形成完整的模式信息。PEA算法如下所示:

输入:n个样本文档的的描述接口DI;

每个DI中包含的m个UID;

输出:抽取模式ExtractPatterns(ExtractRules,PatternTopicInforl;

算法2模式抽取算法

2.2.4 抽取模式的近一步的处理

抽取模式的生成并不是问题的结束,的目的是用得到的抽取模式去抽取样本页以外的其它Web页。这里将得到的抽取模式以文本文件的形式输出到用户界面,用户可以对生成的模式进行编辑以加入新的抽取需求。借鉴Perl语言中的正则表达式语法,引入提取子项操作和分隔操作来支持对更小的粒度进行的数据提取.提取子项操作的一般形式为subItem(leftchar,rightchar),其中的字符参数可以省略其一,当省略leftchar字符的时候,表示只提取数据项中rightchar字符左边的数据;当省略rightchar字符的时候,则刚好相反;当两个字符都不省略的时候,表示提取它们之间的数据的字符。

2.3 特殊和异常处理

由于Web页中数据类型复杂,特别是关于数值日期的表示不规范,因此在抽取时候字段属性多为字符串,抽取主题信息时要对这些进行规范化。

3 数据抽取

3.1 目标文档的预处理

在使用得到的抽取模式对目标文档进行数据抽取时,假设目标文档已经存在,而且与样本文档结构类似,属于同类网页。

首先对目标文档进行了预处理,也就是使用的XML分析器对目标XML文档进行解析。

3.2 数据抽取算法

数据抽取算法以从样本XML文档中抽取出的模式信息和解析之后的目标XML文档为输入,对解析后的文档输出与抽取出的模式进行模式匹配,这里采用结构匹配算法,若相匹配则抽取出目标文档中相关信息,提交给用户。数据抽取算法如下(见下页所示):

输入:解析后的目标网页TargetElements;

抽取出的模式ExtractPatterns;

输出:目标文档中符合用户土题的信息;

{从TargetElements读入目标文档解析树中的一条路径L1和这条路径所含的数据信息DataInfo;

输出这个L1及DataInfo;

i++;

}}

算法3数据抽取算法

4 信息抽取示例

在实际应用中,一般选择小样本(<5)来生成模式,这样可以降低复杂程度。通过实验,认为系统在对样本文档进行模式信息抽取过程中,操作简单,比较容易生成包裹器,在数据信息抽取过程中,如果目标文档与样本文档结构类似,且比较规则时,抽取的成功率较高。

摘要：该文提出了一种面向由XML描述的Web文档的基于用户主题信息的模式和数据抽取方法,它利用学习算法从样本文档中提取规则,然后使用匹配算法从目标文档中抽取出数据。该文使用一种改进的解析方法对XML文档进行解析,在模式抽取时使用了顺序覆盖算法从样本XML文档集中训练出模式。在数据抽取算法中,数据抽取算法从解析后的XML文档树中寻找用户所需的信息,它可以高效、准确地找到用户所需数据。

关键词：XML,数据抽取,文档解析

参考文献

[1]王建丽,丁振国.一种基于XML的Web数据挖掘技术[J].西安科技学院学报,2002,22(2):337-340.

[2]王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000(5):85-87.

[3]王继成,邹涛.基于Internet的信息资源发现挖掘技术与实现[J].计算机研究与发展,1999(11):1369-1374.

[4]徐振航,刘莉芹.基于XML的Web数据挖掘技术[J].计算机系统应用,2001(1):39-42.

[5]刘芳,胡和平.半结构化数据的模式发现[J].微型机与应用,2000(6):13-15.

网页知识管理系统研究篇4

随着移动设备的普及和Web技术的发展, 人们进入了移动互联网时代。根据中国互联网络信息中心发布的统计数据, 截至2014年12月, 中国手机网民规模达5.57亿, 较2013年底增加5672万人。网民中使用手机上网人群占比由2013年的81.0%提升至85.8%[1], 可见使用手机等移动设备浏览网页变得越来越普遍。

当前市面上的移动设备种类较多 (如智能手机、平板电脑等) , 而且屏幕的分辨率标准也各不相同, 未来还会有更多新的移动设备面世。对于一些实力比较强的公司, 可以针对电脑和移动智能设备开发不同版本的网站, 但是这种针对不同用户分别定制的做法耗时费力。并且对于多数网站来说, 为每种新设备及不同的分辨率创建其独立的版本是不切实际的。在这种形势下, 怎样让我们的网站尽量兼容各种类型的设备, 并确保优良的用户体验, 这将是越来越重要的问题[2]。

现有的网页生成工具大多还是采用传统的网页开发技术, 生成的页面只适用于电脑端, 具体表现在当用户使用不同设备访问同一网站时, 移动设备上显示文字等网页元素是细小而紧密, 用户不得不在移动设备屏幕上不停地滑动, 通过放大和缩小页面来查看网页内容, 横屏竖屏来回切换, 页面中提供交互的视觉元素则需要多次放大才能适合手指操作[3]。并且这些网页生成工具或是针对专业网页设计人员的开发工具, 或是外文开发的, 而且有些还是收费软件, 使用它们需要支付资金。对于非专业网页开发人员来讲, 要制作网页, 首先就要花费大量的时间去学习和实践开发技术;其次还需要花费大量的精力去熟悉开发环境[4]。

对于那些想拥有可适配不同终端设备的网页, 但是又不懂网页制作技术的用户来说, 这些工具在功能和技术的实现上都还有一定的局限性。本系统运用响应式设计技术, 屏蔽网页开发技术细节, 使用户能够以“所见即所得”的方式快速创建可以适配不同终端的网页。

1 网页生成系统设计

1.1 系统架构设计

网页生成系统主要由三部分组成:网页编辑模块, 网页管理模块, 用户管理模块。网页编辑模块主要负责网页的可视化编辑和发布, 网页管理模块主要是对已生成的网页进行增删改查, 用户管理模块主要是用户的个人账户信息管理。整个系统架构如图1所示。

1.2 系统功能设计

1.2.1 网页编辑模块

本模块主要以向导式的方式让用户“所见即所得”地编辑网页。编辑模块主要有两部分构成, 左边的引导区域和右边的编辑区域。页面主要由图片和文字两类元素组成。用户点击元素右上角的“编辑”按钮, 该元素即进入编辑模式。用户可以修改文字, 上传图片。当用户点击页面中其他地方时, 退出编辑模式, 并自动保存用户所做的最后一次修改。用户还可以添加和删除元素。如图2所示。

1.2.2 页面管理模块

本模块主要用于对已创建的页面进行管理。具体包括页面的修改、预览、发布和删除。每个页面都有三种预览方式, 可分别查看页面在电脑、平板和手机上的展现。用户选择发布页面后, 系统会自动生成一个二维码, 用户通过手机“扫一扫”分享自己的页面。如图3所示。

1.2.3 用户管理模块

网页生成系统根据用户权限把用户分为管理员与普通用户。管理员可以对系统中所有用户进行管理, 除了拥有普通用户的权限外, 还控制不同用户对网页生成系统的使用权限, 可以添加、删除用户和修改用户权限。普通用户只可进入自己的管理界面, 进行个人信息管理, 即账号和密码的管理, 用户可以在这里进行账号修改以及密码修改和找回。

2 关键技术

响应式网页设计, 是由Ethan Marcotte在2010年提出的名词, 指可以自动识别屏幕宽度、并做出相应调整的网页设计[5]。简单来说就是同一个网页自动适应不同大小的屏幕, 根据屏幕宽度, 自动调整布局。实现响应式网页设计主要用到以下三种技术。

2.1 弹性布局

所谓弹性布局就是不对浏览器的宽度作任何设定, 即非固定式布局, 因而可以适应不论是水平式的还是竖直式的终端设备[6]。将固定宽度 (px) 换为以“%”为单位的相对宽度, 这样就可以使网页适用不同分辨率的设备。同时将各个区域的位置设置为浮动, 一旦屏幕宽度变小, 无法展示多个元素时, 可以使一部分元素自动滚动到前面元素的下方, 而不会出现水平方向上的溢出, 保证页面相应宽度的变化, 不会出现横向的滚动条。

2.2 媒体查询

媒体查询是响应式设计的核心, 它根据条件告诉浏览器如何为指定宽度的视图渲染页面。媒体查询使我们不仅能针对某些特定的设备类型, 还能够对呈现设计的设备物理特性进行检验[7,8]。一个Media Query语句项由媒体类型和可选的用于检查媒体特性的条件表达式组成, 通过使用width、height和color这些媒体属性, 可以控制内容在不同设备下的输出而不需要改变内容本身。

2.3 液态图片

响应式Web设计的思路中, 图片如何显示是一个至关重要的问题。有很多同比缩放图片的技术, 其中有不少是简单易行的, 如使用CSS的max-width属性:img{max-width:10O%;}。只要没有另外规定图片的具体宽度, 页面上所有的图片就会以其原始宽度进行加载, 除非其容器可视部分的宽度小于图片的原始宽度[8]。上面的代码确保图片最大的宽度不会超过浏览器窗口或是其容器可视部分的宽度, 所以当窗口或容器的可视部分开始变窄时, 图片的最大宽度值也会相应的减小, 图片本身永远不会被容器边缘隐藏和覆盖。这种做法就好像把图片比作液体一样, 能够自由“流动”, 液态图片也由此得来。

3 系统实现

3.1 利用meta标签对viewport进行控制

在移动设备中, 浏览器将一个较大的虚拟窗口映射到移动设备的屏幕上, 这个虚拟的窗口即为viewport (默认的viewport宽度为980像素) 。当浏览器加载一个普通页面时, 会将页面以980像素的浏览器标准进行加载, 然后按一定的比例进行缩放以显示整个网页内容。缩放后页面上的所有元素都会缩小, 用户需要对页面进行手动的放大和平移才能够进行浏览, 这样的页面用户体验很差。在响应式设计当中, 由于采用了弹性布局的设计, 网页内容的宽度最大为100%, 即屏幕宽度, 这就需要阻止移动设备的浏览器自动调整页面大小, 使网页自动检测设备屏幕的大小, 网页内容自适应。具体实现方式是在页面的head标签中添加meta属性来控制viewport。如<meta name="viewport"content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no">[9]。其中各属性代表的含义如下:

(1) width=device-width:控制viewport的宽度, 可以指定固定的值或特殊的值, 如device-width设备宽度。

(2) initial-scale:设置页面的初始缩放值, 1.0代表初始化页面时不要对页面进行任何缩放的操作。

(3) maximum-scale:允许用户的最大缩放值, 1.0代表阻止页面放大。

(4) minimum-scale:允许用户的最小缩放值, 1.0代表阻止页面缩小。

(5) user-scalable:是否允许用户进行缩放, 值为"no"或"yes", no代表不允许, yes代表允许。

3.2 设置媒体查询

通过对媒体查询 (Media Queries) 的设置, 我们可以根据屏幕宽度、屏幕方向等各个属性来加载不同场景下不同的CSS文件以渲染页面的视觉风格, 从而实现在不同的设备上呈现给用户同样的Web网页[10]。具体实现方式有两种:

通过link标签设置:<link rel="stylesheet"type="text/css"media="screen and (max-width:680px) "href="cssstyle.css"/>示例代码代表当当前屏幕宽度小于680px的时候, 加载cssstyle.css文件来渲染页面。

CSS中直接设置:

3.3 利用Java Script实现交互效果

响应式设计在针对不同设备时, 有不同的交互功能。例如在电脑端网页会有顶部导航栏的设计, 但在移动设备中, 则需要将其转化为具有折叠效果的侧边栏[11,12,13]。利用Java Script技术, 隐藏导航栏, 只为用户提供一个按钮, 当用户点击时, 就会显示完整导航栏。这样可以使页面看起来整洁美观, 节省了屏幕空间, 用户还可以按需查看想要了解的内容。

4 测试

对本系统生成的页面, 在多种浏览器和不同的移动设备屏幕中进行了测试, 实验证明, 具有很好的兼容性。最终部分效果图如图4-6所示。

5 结语

【网页知识管理系统研究】推荐阅读：

JSP网页设计研究09-25

网页设计与制作课程的研究与应用论文09-02

网页制作与网站管理09-25

打开网页玩的网页游戏10-10

网页文字05-09

网页病毒05-21

网页作品05-23

网页篡改06-17