Web数据管理研究

2024-10-01

Web数据管理研究(精选12篇)

Web数据管理研究 篇1

随着互联网的出现,Web文档的信息抽取逐渐成为亟待解决的问题。一个Web文档就是一个网页,网页与纯文本的结构差别很大,主要表现为网页中存在大量的标记,这些标记将网页要显示的文本内容分隔开来。大量的标记为网页信息抽取提供了更多可利用的信息,从而可以开发各种不同于传统信息抽取的方法对网页进行信息抽取。

常见的动态网页是由相应数据库中结构化的数据值嵌入模版生成的。EXALG系统也是将动态网页中的模版推导出来,然后利用推导得到的模版来进行同类Web文档上数据抽取工作。该系统初看起来是一个很成功的模版推导系统,但经验证发现该系统还存在着一定的不足。本文正是在EXALG的基础上,提出了改进的抽取算法,即EXALG+算法。

1 数据类型定义

一个页面的模板和内容是由数据类型(Data Types)和数据值,也即数据实例(Instance)所构建而成的。数据格式是多种属性通过一种固定的序列进行排列而成。其中每种属性都可能是诸如字串,可选项或分离项等其它数据形式,由此,可以对数据类型作出递归定义。其中,分离项和可选项是数据抽取技术中通用的定义。

1.1 基本定义

定义1.1:基本数据类型由符号β表示。它描述了一个标记串,是一个页面文本的基本单元。在本文中,标记定义为一个单词(Word)或一个HTML的固有标签。

该数据类型的实例为各种标记(Token)所组成的字串,有dom(β)={s|s从属于string}。特别地,定义一个特殊的字串,记做Φ,表示为空字串的数据类型,也可以称之为NULL数据类型。

定义1.2:若T1,T2,…,Tn是数据类型,则序列集合也为数据类型。其中T1,T2,…,Tn至少有一个非空。称数据类型是由T1,T2,…,Tn以n维元组构造器构造而成的类型。

类型的一个实例为形如的一个元组,其中i1,i2,…,in分别为类型T1,T2,…,Tn所对应的数据实例。将实例i1i2,…,in称为元组的元组属性。

定义1.3:如果T为数据类型,则集合{T}也是一个类型。称集合{T}是由类型T通过集合构造器构造而成的类型,有dom({T})={e1e2,…,ei|e从属于dom(T)}。

类型{T}的实例为元素{e1,e2,…,em}的集合,其中,ei(1≤i≤m)均为类型T的一个实例。

由此,本文中将类型的实例称作“值”,将符号“<>”和“{}”称作类型构造器符号,将元组构造器和集合构造器统称为类型构造器,并通过记号“<>”和“{}”来区分。

1.2 分离项和可选项

一般来说,一个模板的建立主要由两种构造器以及构造器所使用的基本类型组成。这两种构造器一般分别为元组构造器和集合构造器。另外,在网页页面中同时还普遍存在着两种其它形式的类型构造器,分别为可选项和分离项两种类型构造器。

例如,在浏览Chinapub网站的时候看到的图书信息,这些书中有的是国内作者编著的书籍,有的是翻译过来的书籍。后一种书籍中会有“译者”这个选项,则其中“译者”就可以看作是可选项;而相应的国内作者所著的书籍中,有时候也会有中文版和外文版。如果在这本书籍的介绍页面当中仅可能出现一种版式,就是分离项的形式。

定义1.4:如果T为数据类型,则可选项(T)?也是一种数据类型,称为可选项类型。有dom((T)?)=dom(T)∪{Φ}={ei|ei∈dom(T)∪Φ}。并称数据类型(T)?是由类型T通过可选项构造器构造而成。

定义1.5:如果T1,T2都是数据类型,则(T1|T2)也是一种数据类型,有dom((T1|T2))=dom(T1)∪dom(T2)={axi|ali∈dom(T1),or a2i∈dom(T2)},称为分离项类型。其中(T1|T2)是由类型T1,T2通过分离项构造器构造而成。

每一种数据类型都可以用数据类型树来抽象表示,而且该树具有一定的层次结构,称这种用来表示数据类型的树为抽象模式树(Abstract Schema Tree,AST)。

1.2 页面生成模型

本节给出由动态页面产生模板的页面生成模型。如图1所示,一个值X,通过使用一个模板T而被编码到一个实际页面中。用λ(T,X)表示编码页面结果。

定义1.6:一个模式S的模板,即将S中的每一个的类型构造器τ映射到一个有序的标记串集合T(τ)中,同时有如下特性。

1)若τ是一个n维元组构造器,则T(τ)是一个标记串的序列,形如。其中Cτ1,…,Cτn+1为n+1个标记串。

2)若τ是一个集合构造器,则T(τ)是一个标记串。

为区分不同的模板,把模板T记做TS,用于表示该模板是为模式S作作的定义。也就是说,在编码函数λ(T,X)给定的时候,将模式S的实例X嵌入到模板T上,而此时,可以使用编码函数,对该实例X可以按下列方式嵌入。

第一,如果X是基本类型β,则λ(T,X)就作为x自身输出到页面上。

第二,如果X为n维元组的形式,形如,则λ(T,X)作为一个有序的标记串输出到页面上,形如C1λ(T,X1)C2λ(T,X2)…λ(T,Xn)Cn+1。其中,X是模式S中的类型构造器对应的实例,T(τ)=

第三,如果X是形如{e1,e2,…,em}τs的一个集合,则λ(T,X)为一个有序标记串输出到页面上,形如λ(T,e1)Sλ(T,e2)S…λ(T,em)。其中T(τs)=S。

第四,如果X是形如(X)?的可选项,λ(T,X)输出的实例为X或空字串Φ。

第五,如果X为形如X=(X1|X2)的分离项,则函数λ(T,X)为λ(T,X1)和λ(T,X2)二者其中的一个输出到页面上。

1.3 数据抽取

本文中的数据抽取是针对Web文档进行的,是一种根据网页的相似性结构自动找到网页中的数据并归纳出抽取规则的完全自动化的抽取方法。网页中的许多标记和文字的出现常常是频繁的,所以可以根据这些标记形成等价类,推导出生成网页的结构模板,并利用这个模板抽取需要的数据。

1.3.1 数据抽取定义

定义1.7:给定一个具有n个页面的集合P,其中Pi=λ(T,xi)(1

一般来说,从一个大的互联网站点给定的一个实际页面集合,在页面编码中,人工选择正确的模板和数据值时一般不会有任何疑问。而要达到的目标恰恰是解决实际网页的抽取问题,也即能够生成被“人”认为是正确的模板和数据值。

如上所述,为了将页面模板推导出来,可以将页面中的所有标记加以识别区分,判断标记是模板标记值还是数据值。将所有属于模板的标记区分出来后,再利用这些标记完成模板的建立和其后的数据抽取。因此,为了将数据标记和模板标记区分开来,可以利用页面中的标记的不变/变动特性来达到区分的效果。同一类网页所使用的模板是固定不变的,而变化部分则是嵌入到这些模板标记中的数据值,因此,通过分析网页中的标记是否具有变动性质就可以完成区分工作。但是,实际工作依然很困难。

第一,模板标记中的标记值和数据集合中的标记值可能相同,也就是会出现同样的标记扮演不同角色的情况。

第二,在页面中出现的可选项和分离项使得不变/变动的性质难以区分,从而使得模板推导更加复杂。

分离项可能具有多种表示方式,比如,“姓名”或“地址”就可能会出现由于语言习惯或地域的不同而使用不同的表示方式。同样的,日期的表示格式等也属于此类问题,而且表示方法更多:可以表示成“日期/月份/年份”或是“月份/日期/年份”等。

因此,在实际的模板推导中由于这些问题将会导致最终的推导结果出现很多不同可能的模板。此时与这些模板相对应的抽取出来的数据也就不尽相同。也就是所谓的存在冲突模式(Ambiguity Schema)。目前,已经证明了想要推导出一个无冲突的模式属于一个NP完全问题。因此,抽取问题的关键,在于如何找到一个更好的或者说最佳的模板用于数据抽取。

1.3.2 数据抽取原理

EXALG是由Arvind与Hector二人于SIGMOD2003提出的数据抽取系统。该方法使用了类似RoadRunner的模型,希望将生成Web文档的模板推导出来,然后再根据得到的模板,来抽取采用同样结构的Web文档中的相关数据值。

这两种方法的归纳方式不同。EXALG不是逐个比较两个网页中的标记,而是提出了出现向量(Occurrence Vector)和等价类(E-quivalence Class)的概念。通过统计最大最频繁的等价类和角色区分来推导模板。EXALG对于给出页面集合,可以发现页面中所隐含的模板,并通过模板将数据抽取出来。

根据Arvind二人提供的数据和他们发布的EXALG系统的实际使用情况,可以发现EXALG对于原来已有的其它方法来说有了很大的进步;而本文给出的抽取方法,对于抽取的数据在正确性和完整性方面做得更加完善。

本文的抽取方法,是受EXALG的启发得到,所以称之为EXALG+方法。它可分为两个阶段。在第一个阶段用于发现与生成输入页面的未知模板中相同的类型构造器相联系的标记的集合。在第二个阶段则使用上面生成的集合推导出模板。然后,推导得到的模板被用来抽取页面的编码值。以上两个阶段的工作完全由机器完成,是无需人工参与的过程。

第一个阶段,利用出现频繁程度作为向量,用来表示一个标记串在所有网页中的出现频率,并且利用原作者提出的等价类概念,即具有相同出现向量的标记串,聚集到同一个有序的标记串集合中。由于等价类中的所有标记串在相同模板的作用下,会产生同样的出现频率,因此,利用这种特点将所有合法的等价类寻找出来,然后将这些等价类中的标记串转换成最后的模板。

可以将HTML文档看作一棵DOM树。首先,将页面中所有相同的字串根据其DOM树路径位置的不同来区分其扮演的角色,将其称为特定标记串。然后,将所有扮演相同角色的特定标记串按其出现次数组成出现向量,然后将所有具有相同出现向量的特定标记串聚合在一起,形成一个等价类。在这一步骤中,可能会出现一些不合法的等价类,利用第三步将这些不合法的等价类去除。这些不合格等价类在被过滤掉的同时释放该类所包含的所有特定标记串,并将特定标记串中一些与页面意义不一致的个体过滤掉。这一步利用了当特定标记串出现在不同等价类的区间位置不同而具有不同的意义这一特性,可以把这些具有相同值的特定标记串进一步地区分开来,并反复形成新的等价类,过滤掉不合法的等价类,得到一个最频繁出现的等价类集合。到此为第一个阶段阶段,称为等价类生成阶段。本文的主要改进工作都是在这个阶段完成的。对应于这部分的模块称之为等价类生成模块(Equivalence Class Generation Module:ECGM)。随后,将这些等价类作为输出传送到第二个阶段的模板分析模块(Template Analysis Module),由这个模块产生最后的输出。其流程如图2所示。

第二个阶段,即模板建立和值抽取模块。该模块的输入是一个由第一个阶段生成的频繁等价类集合和一个使用标记串描述的页面集合,其输出是一个模板和一个对应页面值的集合。该模块由两个子模块组成,模板生成子模块和值抽取子模块。对于数据抽取技术,一旦获得了正确的模板之后,值抽取是一个非常直观的过程,在此不作赘述。

这些频繁等价类集合中,存在一个最重要的等价类,<1,1,…,1>,将其称为基本等价类。该等价类的特殊性在于,该集合中所有的标记串出现各个页面仅一次,比如常见HTML文档中的


等标记串组合均属此列。另外,一般来说等标记串通常是一个页面的开始标记串和结束标记串,因此,该基本等价类的页面的范围往往是最广泛的,模板构建模块即由此等价类开始构建模板。然后利用先深搜索方式,对于每个等价类的非空区间位置,判断是否为数据嵌入位置,或者该区间是否嵌入了另外一个等价类。如果该位置为数据嵌入位置,则跳转到该等价类的下一个非空的区间位置;如果该位置为一个等价类的嵌入位置,则进入嵌入等价类的非空区间再次进行判断,直到将所有的等价类的非空区间遍历完全,即可构造出一个完整的页面模板。

1.4 小结

文章给出了数据抽取过程中需要的基本定义,描述了数据抽取所基于的页面生成模型。同时给出了EXALG+这种数据抽取方法的基本流程,并给出了这种方法的抽取流程图。

参考文献

[1]Xi W P,Li X,Jiang K,et al.Information Extraction Technology for Web Forums[J].Computer Engineering,2005,31(4):34-37.

[2]Chinchor N,Marsh E.MUC-7Information Extraction Task Definition(version5.1)[C].Proceedings of the Seventh Message Understanding Conference,1998:210-221.

[3]宋静静,李振坤.基于Wrapper技术的Web数据处理系统研究[J].计算机应用研究,2004(12):298-300.

[4]李效动,股毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533.

[5]张绍华,徐林昊,杨文柱.基于样本实例的Web信息抽取[J].河北大学学报:自然科学版,2001(4):431-437.

Web数据管理研究 篇2

摘 要:数据库设计是Web系统设计中的核心内容之一,也是Web系统实现的基础,是在特定的数据库模式下来构建数据库应用系统,使之能较好地存储数据,满足用户的实际应用需求。数据库结构设计的优劣对应用系统的使用效率具有较大的影响。一个设计良好的数据库结构不但能很好的保证数据完整性与一致性,而且还可以有效的提高数据存储效率。

关键词:数据库设计;Web系统;数据库概念;逻辑设计

随着计算机技术的发展,特别是计算机网络技术的快速发展,网络成为了人们工作和生活不可或缺的一部分。网络技术的应用使得计算机之间通信、信息共享成为可能,而数据库技术在Web系统中的应用则为人们提供了数据存储、信息检索、信息分析等功能,从而使得工作更高效地进行。

在Web系统设计的过程中,数据库设计毋庸置疑占有重要地位,数据库设计是Web系统实现的基础,也是Web系统设计的关键环节之一,是在特定数据库模式下来构建数据库应用系统,使之能较好地存储数据,满足用户的实际应用需求。数据库结构设计的优劣对应用系统的使用效率有较大影响。一个设计良好的数据库结构不但能很好的保证数据完整性与一致性,还可以有效提高数据存储效率。同时在进行Web系统的数据库设计的时候,还要做到系统开销小、易于管理和维护,后续系统开发方便、快捷、易扩充等。笔者以高职院校课程成绩管理系统中的数据库设计为例进行分析研究。

1 课程成绩管理系统中数据库设计的方法与要求

数据库设计即是庞大的系统工程项目,也是多学科技术综合体现。通常有属性主导型和实体主导型两种方法,属性主导型主要是从归纳数据库应用的属性出发,在归并数据实体时维持属性间的函数依赖关系;实体主导型则先寻找对数据库应用有意义的`实体开始,通过定义属性来定义实体。高职院校课程成绩管理系统数据库设计是根据学院的实际情况要求,以数据库设计理论为依据,来设计数据库的全局逻辑结构和与用户的局部逻辑结构。既要结合高职院校教学运行需求的实际情况,也要充分考虑到学院规模和教学管理的发展变化状况及学院各职能部门的各级管理要求。系统中具体的实体主要有教师实体、学生实体、课程实体、班级实体和成绩实体等。

2 数据库编码设计

数据库编码设计是指对所需处理事务对象的代码化设计,以方便计算机进行信息处理。根据当前高职院校教学运行的实际情况,在进行编码的时候可以采用连续码、组群码等方法来进行。连续码主要是采用阿拉伯数字进行展开,连续编号,一项一个。如对学生的学号进行编码。组群码主要是用特定号码组来构成一个特定的项目群,使用连续数字代码来表示具体的项目的。如高职院校中的系部,就可以用01、02等来分别表示不同的系部,如01代表信息系,02代表建筑系等。学生学号编码可以采用九位代码进行标识,其中前四位代表入学年级,第五位代表学习层次,后四位代表学生注册报道系统中的顺序。如201411640,即表示该生为2014年入学的第1640个报道注册的大专学生。

3 数据库概念设计

概念设计是现实世界与计算机世界的中介,既独立于数据库的逻辑结构,也独立于数据库管理系统。高职院校课程成绩管理系统中涉及到的数据实体有:系统管理员、学生、教师、课程、班级、学生课程与成绩等。根据对系统功能模块设计分析和实体与属性的关系,课程与成绩管理系统的E-R图,见图1。

图1 课程与成绩管理系统的E-R图

4 数据库逻辑设计

基于上面分析,通过MySQL辅助图形化界面工具SQLyog来进行数据库设计,涉及到的数据表主要有以下六个:系统管理员表(Admin)(用户名,姓名,密码),主要用来存放系统管理员的基本信息;教师信息表(Teacher)(教师编号,教师姓名,教师密码,所属系部,职称,专兼职,其他信息),主要用来存放任课教师的基本信息;学生信息表(Student)(学生学号,姓名,密码,性别,籍贯,系部,专业,教学班,联系电话,电子邮箱),主要用来存放学生的基本信息;课程信息表(Course)(课程编号,课程名称,学分数,课程性质,开出系部),主要用来存放学期开设课程的基本信息;班级信息表(Class)(教学班编号,教学班名称,任课教师,课程,开课地点,开课时间段),主要用来存放课程教学班的基本信息;学生课程与成绩表(Enrol)(学生学号,教学班级,是否接受,成绩,学分),主要用来存放学生所选择的课程与成绩信息。

5 结 语

在基于Java EE的Web系统中,当数据库表设计好后,还要进行映射文件创建和持久化类创建,创建的映射文件扩展名为.xml,主要是通过Hibernate辅助工具自动生成。通过以上分析可知,此数据库设计不但可以很好的保证数据完整性与一致性,有效的提高数据存储效率,还能做到系统开销小、易于管理和维护,后续系统开发方便、快捷、易扩充等。

参考文献

[1]孙未未.数据库处理——基础、设计与实现[M].北京:电子工业出版社,2011.

对Web的数据库安全技术研究 篇3

关键词:Web数据库;安全技术;研究

中图分类号:TP311.13

计算机的网络技术日益壮大,因特尔技术发展的尤为迅猛,数据库在许多的领域中都有着广泛的使用,不过,随之而来却是有关数据库的安全问题。网络是开放的,也是十分不安全的,有许多不法分子利用网络技术非法入侵他人的计算机,窃取计算机中的重要信息与资料。对于Web的数据库来说,面对种种的非法入侵,要采取必要的安全措施,保护数据不被非法窃取。

1 Web数据库安全的定义

在我国,对数据库安全方面的定义简单来说,是指确保储存于数据库中的信息是完全保密的、可用的、一致的、完整的即可。信息必须具备保密性,存储于数据库中的信息是安全的不会被非法窃取;信息是可用的,要求储存于数据库中的信息对已经授权的用户都是可以使用的,不受自然因素以及人为因素的影响;数据应该具备一致性,信息应该以一个完整的实体存储在数据库中;数据还应该具备完整性,不能通过一些不正当的手段来修改破坏那些存储于数据库中的信息。另外,Web数据库在安全方面的技术主要有这几类:数据的完整性、身份的鉴别、安全审计、可信恢复、推理控制、信道的隐蔽等等。[1]

2 实现数据库安全的技术

2.1 访问控制。访问控制作为一种数据库信息安全手段具体表现在对信息的使用进行限制。可以有效的鉴别主体是否为合法操作,可以判断出主体是否具备对客体进行操作的权利,把主体与客体相互联系起来。只有得到相关的授权,用户才能对一些特定的信息资源进行访问和操作。访问控制主要包括基于角色、强制、自主的访问控制,以及最新提出的控制概念。强制的访问控制是通过相应手段来判断主体与客体的安全等级,通过比较来确定访问的权限;而对于自主的访问控制而言,它主要应用于要求用户身份和一些访问控制规则;最后一种是基于角色的访问控制,它是一种比较新颖的访问控制手段,通过对权限相同用户进行统一,使管理员对这些用户进行授权,从而使数据库的管理工作简化,非常方便实际。新提出的控制的概念是基于传统的控制方式,并在其基础之上扩展,加入了职责、授权、条件这三种因素,和易变性、连续性这两种属性。[2]

2.2 数据库的审计。数据审计功能是非常重要的一项功能,它是数据库安全性中必不可少的一部分,可以将用户执行与安全有关的操作全部记录于审计的日志之中。要是存储于数据库中的数据信息被人为的改变,有关人员可以根据审计日志中记载的内容追踪数据信息,追踪是谁是什么时间段内做了哪些事情,查找出破坏数据信息的元凶。

2.3 用户的鉴别和标识。用户的鉴别和标识是在最外层为数据库系统提供安全保障的,是进入数据库系统的一道门槛,要想进入系统,用户就必须出示通过标识了的身份以及名字,即认证密码、认证的身份、随机数的运算认证。身份认证用的最多是这样几类,第一类,是使用最频繁的口令加用户名的形式,这种形式很原始,安全系数不高,口令加用户名容易被其他人猜出来,或者是被非法的分子运用特殊的方法窃听出来,得到口令加用户名之后就可以伪造身份认证了,而系统是完全识别不出来身份认证是否是进行伪造的;第二类,是利用生物的特征进行识别的形式,人类的声音、指纹、虹膜等生物特征是唯一的,因此安全性很高,不过这种技术比较复杂,现如今所掌握的技术都还不够成熟,并且花费的费用很高,现在也只是一些机密部门在使用该技术;第三类,使软件和硬件相结合,用强双因子来逐一认证密码的正确性,这种方式具有很高的安全性。[3]

3 数据库安全技术的实际应用

3.1 数据库安全技术在校园里的应用。数据库安全技术在大学校园内应用广泛,例如校园一卡通。这种磁卡是以校园的网络为基础,在Web数据库中存入大量的学生、教师的信息,使用时只需要将磁卡放在读卡器上一刷即可。使用校园一卡通非常方便,在图书馆借阅图书时可以使用,在食堂就餐时可以使用,在校医院看病时可以使用等等。

校园一卡通中应用了Web数据库的多种技术,最常见的是身份验证和用户的鉴别与标识。当学生消费超过一定数额的时候,就必须报出事先设置好的安全密码,防止磁卡被他人捡去而故意消费,这样可以有效地保障持卡人的利益。这就是身份验证的应用;磁卡发给学生之前都是在教务处进行过身份统一的,即卡里存入对应学生的数据信息和学生照片,一个学生对应一张磁卡。学生在图书馆借阅图书的时候,借书的工作人员会在读卡器上读出磁卡的信息和学生照片,看是否与借书的学生一致,若一致即可借出,否则就不能借出。这就是用户的鉴别与标识的应用。

3.2 数据库安全技术在生活中的应用。基于BPL的安全模型可以应用于车站的管理系统之中。该系统中有主任、一般管理员、高级管理员以及售票人员。不同的角色有着各自不同的分工,高级的管理员可以给其他主体分配任务、权限和等级,其他的主体要配合执行所分配到的任务。系统中的客体,有字段、表格以及文件等等,都要被赋予一个标记,除了高级管理员外,其他主体都没有权利对客体的属性、权限等进行修改。主体要访问客体的时候,系统会自动比较两者的安全属性,进而判断是否能够进行访问。角色与角色之间不能越级执行任务。

3.3 数据库安全技术在医疗中的应用。到医院看病的时候,去挂号护士会给一张卡,找医生看病,医生会将诊断结果、开的药的信息都储存在卡里,一张卡即可完成看病、买药的所有手续,非常方便。拿神经科来说,医生的电脑使用的都是Windows的操作系统,每台电脑上都安装有神经网络的一套诊断系统。利用该系统为病患看完病后,医生就可以将诊断结果上传到神经网络系统之中,系统通过服务器将诊断结果上传到医院的总数据库中。以后医生在看病的时候,若是碰到类似的病患,查看医院的数据库即可找到参考的办法,快捷简单。在医院,内部人员可以在医院的网络中发布或者获得信息,但是对于非内部人员来说,就只能浏览医院的网站,无法改变网站上的数据。管理系统网络化,非常利于信息的管理与应用,大大缩短了办公时间,提升效率。

4 结束语

计算机网络技术在当今的社会中越来越重要,其自身也发展的越来越壮大,各行各业都离不开它,各个领域也都在向因特尔技术迈进,Web数据库的安全管理工作是非常重要的,涉及的范围广,包含的知识量多,所以,要深入的学习与研究和Web数据库相关的安全技术,力求更好的保护数据库中存储的数据信息,确保数据库系统整体运行正常,不出差错,这是非常重要的。

Web数据库的安全技术非常有深度和难度。如今,计算机技术日新月异且发展迅猛,人们就更要好好的学习、研究这门技术,让更多的学者一起去探索去研究,让更多的人能够了解它,能够掌握它。

参考文献:

[1]徐婷,杨欣荣;数据库安全技术的理论研究[J].科技情报开发与经济,2012(04):55-57.

[2]李瑞林.計算机数据库安全管理研究[J].制造业自动化,2012(05)(下):24-26.

[3]闫东亮,李世军.刍议计算机数据库的安全与管理策略[J].科技创新与应用,2012(24):33-35.

作者简介:刘红梅(1980.09-),女,湖南人,教师,本科,硕士,讲师,研究方向:计算机专业、计算机教学、师资队伍建设等。

作者单位:湖南铁道职业技术学院,湖南株洲 412001

WEB数据挖掘研究探析 篇4

WEB数据挖掘就是从大量的网络数据中发现隐含的规律性的内容, 提取并挖掘有用的知识。然而WEB上的数据以多种形式存在, 是一种介于结构化与半结构化之间的数据, 非常不利于进一步挖掘有用信息。当前, 随着许多WEB站点上的信息逐步采用XML规范, 给WEB数据挖掘带来了新的解决方法。

2 WEB数据挖掘面临的问题

面向WEB的数据挖掘要比面向单个数据仓库的数据挖掘要复杂的多, 主要是基于以下几点原因:

(1) 异构数据库环境。Web上的每一个站点就是一个数据源, 每个数据源都是异构的, 因而每一站点的信息和组织都不一样, 这就构成了一个巨大的异构数据库。 (2) 分布式数据源。Web页面散布在世界各地的Web服务器上, 形成了分布式数据源。 (3) 半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂, 没有特定的模型描述, 是一种非完全结构化的数据, 称之为半结构化数据。 (4) 动态性强。Web是一个动态性极强的信息源, 信息不断地快速更新, 各站点的链接信息和访问记录的更新非常频繁。 (5) 多样复杂性。Web包含了各种信息和资源, 有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。

3 WEB数据挖掘中的技术问题探析

3.1 非技术因素

在WEB数据挖掘中, 出于商业目的经常会对网站的某些方面提出一些分析, 比如:流量分析 (点击量) 、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。就这些方面作进一步分析, 我们可以从中找出真正与数据挖掘相关的的要素, 具体如下:

3.1.1 网页相关性分析

一些网页之间具有密切的关系, 假设很多人具有a.html-〉b.html-〉c.html这样的访问模式, 则我们可以认定a.html和c.html之间有一定的关系, 从而考虑是否在a.html上直接加上c.html的链接。

3.1.2 用户访问模式分析

一般规律下, 用户只要访问了网页其中的一页, 则可以断定他也要访问其他的网页即按不同的用户访问模式, 把网页分组得到一个一个的兴趣点。

3.1.3 用户归类

通过用户填写的信息把用户归入某一特定的类别, 然后可对同一类别中的用户提供相似的服务。

3.2 技术因素

WEB数据挖掘的技术因素主要有以下几点:

(1) 数据处理。如何得到分析和数据挖掘所用的数据, 主要采用两种方法, 一是直接使用Web Server的Log文件, 二是用网络监听的办法, 在数据包中提取出H T T P请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内, 供统计分析和数据挖掘使用。 (2) 统计分析。即在数据库的基础上, 针对不同的数据运行各种统计函数。 (3) 数据挖掘。数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据 (即我们通过数据处理得到的数据) 应用各种数据挖掘技术, 得到高层知识, 提供给用户作决策支持, 并利用这些知识动态生成网页, 为用户提供访问建议。 (4) 关联规则。从服务器会话中发现请求网页的相关性, 可用于优化网站组织, 实现网络代理中的预取功能等。 (5) 聚集。使用Usage Clusters把具有相似浏览模式的用户分成组, 可用于电子商务应用中market segmentation和为用户提供个性化服务, 使用page clusters按内容的相似性把网页分类, 可用于搜索引擎和Web assistance providers为用户提供推荐链接。 (6) 归类。根据用户的个人资料, 将其归入某一特定的类, 可使用决策树、Naive BayesianClassifiers等算法。

4 XML技术在WEB数据挖掘中的应用

4.1 XML技术简介

XML (e Xtsible Markup Language) 是SGML (Standard General Markup Language) 的一个子集, 近年来被IBM、Microsoft等公司大力推崇。和H T M L (H y p e rT e x t Markup Language) 类似, XML也是一种标示语言, 可提供描述结构化资料的格式, 它们都可以用于可视化和用户界面标准。

4.2 XML的主要应用

XML的应用主要分为文档型和数据型, 具体有以下6类:

(1) 自定义XML+XSLT=>HTML, 最常见的文档型应用之一。XML存放整个文档的XML数据, 然后XSLT将XML转换、解析, 结合XSLT中的HTML标签, 最终形成HTML显示在浏览器上。 (2) XML作为微型数据库, 这是最常见的数据型应用之一。一般可利用相关的XMLAPI (MSX MLDOM、JAVADOM等) 对XML进行存取和查询。比如在留言板的实现中, 就经常可以看到用XML作为数据库。 (3) 作为通信数据。最典型的就是Web Service, 利用XML来传递数据。 (4) 作为一些应用程序的配置信息数据。常见的如J2EE配置WEB服务器时用的WEB.XML。 (5) 其他一些文档的XML格式。如Word、Excel等。 (6) 保存数据间的映射关系。如Hibernate。

4.3 XML在WEB数据挖掘中的应用

以XML为基础的新一代网络环境是直接面对WEB数据的, 不仅可以很好地兼容原有的WEB应用而且可以更好地实现WEB中的信息共享与交换。XML可看作一种半结构化的数据模型, 可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来, 实施精确地查询与模型抽取。

当用标准的HTML无法完成某些WEB应用时, XML更能大显身手。这些应用大体可分为以下四类:需要WEB客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从WEB服务器转到WEB客户端的应用;需要WEB客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能WEB代理根据个人用户的需要裁减信息内容的应用。显而易见, 这些应用和WEB的数据挖掘技术有着重要的联系, 基于WEB的数据挖掘必须依靠它们来实现。

5 结语

XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据, 从而能描述搜集的WEB页中的数据记录。同时由于基于XML的数据是自我描述的数据, 不需要有内部描述就能被交换和处理, XML为组织软件开发者、WEB站点和终端使用者提供了许多有利条件。相信随着XML作为在WEB上交换数据的一种标准方式继续推广, 面向WEB的数据挖掘将会变得异常轻松。

参考文献

[1]韩家炜, 孟小峰, 王静等.Web挖掘研究.计算机研究与发展.2001.

[2]王静, 孟小峰.半结构化数据的模式研究综述.计算机科学[J].2001Vol.28.

JAVA与web数据课程总结 篇5

本学期主要为网络班讲授《JAVA与WEB数据库》课程,能综观教材内容,根据课程目标,对有关内容进行增减,切合实际、合理地制定授课计划,很好地完成了课程的教学任务。

Java是一门时下比较流行的语言,而《JAVA与WEB数据库》又是一个复杂体系。授课中就应把学科的系统知识传授给学生。所以在讲授中,在知识讲解上,既注意突出重点又要注意知识的系统性,使之枝繁叶茂。前期内容介绍了解Java Web应用的功能、主要技术、开发环境和运行环境,先让学生对本课程有个大致的了解。因为学生对java很陌生,提起Java他们只认为Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言,为了拓展学生对Java web的认识,课堂上使用eclipse工具进行软件开发,让学生明确JSP卓越的通用性、高效性和安全性。

教学中针对不同内容,采取不同授课方式:理论部分以课堂讲授为主,自己广泛查资料,授课中做到形象易懂;重点、难点主要是servlet、JSP等相关技术,每章内容讲授完毕都留有相应的作业,作业内容部分不是书本知识的简单重复,而是需要花费大量时间查阅资料才能搞清楚的,然后在下次课上让学生到前面来,阐述自己的观点,优秀者用平时成绩予以奖励,学生积极性很高,同时还能得到书本上所没有的知识,扩大学生学习视野,效果很好。大部分授课是在机房进行的,能给予学生充分的时间来练习理论的知识点,学生的动手能力得到很大提高,同时平时将一些程序开发题先布置给学生,让他们

上网查资料,利用课后时间完成程序开发,学生准备得很用心,这种考核方式达到了预期的效果,很受学生欢迎。

Web数据管理研究 篇6

关键词 web 数据挖掘 系统 设计

中图分类号:TP311.13 文献标识码:A

Web数据挖掘由于其优良的特性,被广泛的应用于电子商务和企业的决策中。目前,企业管理客户的主要方式就是通过web管理,企业针对客户的访问情况和访问历史,为不同的客户提供不同的个性化服务。Web还可以用作企业与客户间的交流工具,企业通过web实时与客户进行互动,以及时了解客户的喜好。Web由于具有较低的成本,在企业的推广中应用也很广泛。企业面临的最大问题是如何从web大量的信息库中提取有利于企业发展的信息。

1数据挖掘系统的概述

Web数据挖掘是指用数据挖掘的方法对用户访问信息、web页面内容、电子商务交易信息、用户注册信息、站点拓扑结构等方面的数据进行挖掘和分析,并找出有用的信息的过程。人们可以利用web挖掘发现有用的信息、为客户提供个性化的服务、改善站点的设计等等,web挖掘的方法可以分为结构挖掘、内容挖掘、使用挖掘三种方式。其中,web结构挖掘指的是从web的链接关系和组织结构中对知识进行推导的过程。Web中包含的有用的信息不仅仅是页面上的内容,其结构中也包含着大量有用的信息,需要对其结构进行推导才能发现。Web内容挖掘指的是对web页面的内容进行挖掘以找到有用的信息。Web使用挖掘指的是对客户在web服务器上进行访问的记录通过web日志等方法进行挖掘。

2web数据挖掘系统的设计

Web数据挖掘表现出显著的优势,因此,基于web的数据挖掘系统设计也必然能够更好满足企业推广一个用需求,而在设计数据挖掘系统的过程中也应当充分考虑每一个步骤,以确保设计的合理性。

3数据收集

Web数据挖掘需要挖掘的数据主要分两方面,即用户的活动使用信息以及web页面上包含的页面拓扑结构和文档。用户的活动使用信息主要表现为用户在企业网站的数据库的在线注册、交易信息、电子邮件查询、响应数据和活动信息,通常是记录的形式。Web页面上包含的页面拓扑结构和文档主要表现为web服务器的Cookies、日志文件和Error Logs。通常web服务器的日志文件中包括用户浏览网页的顺序和链接的点击顺序,例如用户使用的时间和日期、请求的类型和状态、主机的地址以及发送的字节数等。数据的收集过程就是从web服务器日志文件中提取有用的信息并对客户的活动信息进行分析的过程,产生的数据最终用来构建数据仓库。

4数据处理

点击流是数据挖掘的重要信息,但由于其数据繁多,对数据挖掘工作者也是一种挑战。使点击流的数据进入数据库主要通过几个方面的数据统计,即客户端、应用服务器、数据仓库、web服务器四个方面。客户端是指用户通过智能工具或浏览器等各种方式浏览企业的页面所产生的点击数据,构建数据库的过程就是对web服务器的数据进行预处理并转移到数据仓库和程序服务器中的数据分析过程。由于数据的量较大,要在大量的数据中提取有用的信息十分困难,因此,对数据进行预处理非常重要。对数据预处理的方法有字符大小写的转换和类型转换等,通过这些工具完成数据的转换,实现数据的预处理。数据处理的过程需要注意的问题有:首先,数据仓库必须采用大规模的并行处理机,以满足大量用户的需求。其次,数据转移的速率要高,可通过提高集成度或使用一些数据移动软件的方法提高数据的转移速率。

5挖掘模式

企业开发数据挖掘系统的主要目的就是应用数据挖掘的算法对数据仓库的数据集进行分析和挖掘,提取出有用的信息和模式为企业的决策提供依据。因此,选择一种有效的挖掘模式具有重要的意义,下面有几种可供选择的模式,第一,对用户的访问记录利用路径分析的方法进行分析。路径分析利用的是web的日志文件中用户的访问记录,并把用户的访问路径按时间的先后进行排序。第二,对频繁的页面集利用关联规则分析的方法进行分析,如对于两本不同的书A和B中的页面1和2,利用关联规则分析的方法得出(1,2)是频繁页面集,当用户浏览书A的页面1时,将书B的页面2加以缓存,从而提高web的缓存性能。第三,对相似的客户和页面利用聚类分析的方法进行分析。聚类分析包括客户聚类和页面聚类,主要分析具有相似性的客户,对其相似的爱好提供个性化的服务。第四,对可能存在的潜在客户利用分类和预测的方法进行挖掘。分类和预测方法是指通过对客户的购买商品和访问特征对客户加以分类,从而为潜在的客户开展促销活动并对销售情况进行预测。

6结束语

Web数据挖掘系统是目前较热门的研究课题,具有广阔的应用和发展空间,市场潜力巨大。基于web的数据挖掘系统与传统的数据挖掘系统相比具有能够使数据、接口和算法分离的优点,简化了算法库的开发。web数据挖掘系统主要研究的内容包括数据的预处理、收集和技术的开发。目前我国的数据挖掘技术与发达国家相比还有一定差距,仍需不断的发展和完善。

参考文献

[1] 李新金.Web使用挖掘在网络学习平台中的应用研究[J].浙江师范大学.2012,05(6):18.

[2] 刘天垒.基于Web的农业数据挖掘系统的研究与实现[J].中国农业科学院.2012,10(4):11.

Web数据库访问技术的研究 篇7

关键词:web数据库,ASP,JSP

随着Internet规模和用户的不断增加,Internet上的各种应用进一步得到开拓。Internet成为资源共享、数据通讯和信息查询的重要手段。数据库技术经过几十年的发展也日益成熟起来,丰富的数据模型和强大的数据管理功能,支持各类新的应用要求。Internet用户对信息的实时性、交互式、动态访问的需求日益增长。解决这一问题的方法之一就是将Web技术与数据库技术相互渗透,相互结合。

1 Web数据库体系结构

Web数据库系统是建立在浏览器/服务器(B/S)模型之上的。该模式在TCP/IP的支持下,以HTT P为传输协议,客户端通过Browse r访问WE B服务器以及与之相连的后台数据库。WWW浏览器负责信息显示与向服务器发送HTTP请求。Web服务器介于W eb浏览器与数据库服务器之间,负责接收用户服务,并作出响应。服务器将数据传送至要被处理的脚本或应用程序,并在数据库中查询数据或将数据投递到数据库中。最后,服务器将返回结果插入到HTML页面,传送至客户端以响应用户。从而实现在Internet的环境下对数据库的访问操作。使得Internet中的信息更丰富、使用更简便。其体系结构如图1所示。

2 Web数据库访问技术

一般有三种方法:一种是基于Web的中间件技术,在这种结构下,有许多中间件方案可以选择,公共网关接口(CGI),Web应用程序编程接口(Web API),ASP,JSP,Java Servlet等。这种方法是采用Web服务器端提供中间件来连接Web服务器与数据库服务器,中间件完成对数据库的访问,结果再由Web服务器返回给客户端的浏览器。其工作流程如图2所示。

另一种是把应用程序下载到客户端并在客户端直接访问数据库,访问Web数据库的客户端方法主要包括:Java Applet,ActiveX,Plug-in等,其中最典型的就是Java Applet。其工作流程如图3所示。

第三种方式综合了以上两种方法,既在服务器端提供中间件,同时又将应用程序的一部分下载到客户端并在客户端通过Web服务器及中间件访问数据库。

以下将逐一介绍和分析Web环境下的数据库访问技术,并对其性能做比较。

2.1 基于Web的中间件技术

2.1.1 C G I的方法

CGI(Common Gateway Interface,通用网关接口)。CGI是Web服务器与外部应用程序之间的标准接口。CGI是最早的Web数据库连接技术,几乎所有的Web服务器都支持CGI。可以用任何语言编写CGI程序,如C、C++、Delphi、Java、VB、Perl等。CGI程序的主要作用在于扩展Web服务器的功能,实现Web服务器与数据库服务器的连接,充当Web服务器与数据库服务器之间的网关,通过Web发来的操作转化为对数据库的操作,然后将结果以Web浏览器可以识别的形式返回。完成和浏览器进行交互作用。

如一个CGI程序可从某数据库服务器中获取数据,转换成HTML文档后发送给浏览器,也可将由浏览器获得的数据存储到数据库服务器中。这样客户端用户就可以方便地和Web服务器进行交互,实现数据处理。

CGI的缺点:CGI的应用程序一般都是一个独立的可执行程序,与Web服务器各自占据着不同的进程,而且一般一个CGI程序只能处理一个用户请求。每当有一个用户请求,就会激活一个CGI进程。当用户请求数量非常多时,大量的CGI程序就会大量挤占系统的资源,如内存、CPU时间等,造成CGI运行效率低下。CGI不提供状态管理功能,因而在Web服务器访问数据库过程中浏览器的每一次请求,都需要一个连接的建立与释放的过程,效率较低。极大的浪费服务器资源。另外CGI的功能有限、开发较为复杂,且不具备事务处理功能,这在一定程度上限制了它的应用。

2.1.2 基于服务器扩展的API

为了解决CGI的局限性,出现的另一种中间件解决方案是基于服务器扩展API的结构。专用服务器API方式中,最著名Microsof的ISAPI和Netscape公司NSAPI。服务器API方式以DLL(动态链接库)的形式存在,可以在被用户请求激活后长驻内存,等待用户的另一个请求,也可以在一个DLL里设置多个用户请求函数。此外,DLL应用程序与WWW服务器软件处于同一地址空间,每次调用时是在内存中运行相应的程序段,而不是像CGI那样需要启动新的进程,因此运行效率要高于CGI程序。是驻留在WWW服务器中的程序代码,其扩展WWW服务器的功能与CGI相同。

与CGI相比,API在性能上得到了很大提高,API应用程序与Web服务器结合得更加紧密,占用的系统资源也相对较少,而运行效率显著提高,但开发API程序比开发CGI程序要复杂得多。由于API与其相应的WWW服务器紧密结合的特性,这些API只能工作在专用Web服务器和操作系统上。

2.1.3 ASP(Active Server Pages)

ASP既不是一种语言,也不是一种开发工具,而是一种技术框架,利用它可以产生和执行动态的、互动的、高性能的WEB服务应用程序。

ASP属于ActiveX技术中的Server端技术。与在Client端的Script命令是由浏览器来解释执行实现动态网页的技术(如JavaApplet、VBScript、JavaScript等)不同,ASP中的命令和Script语句都是由服务器来解释执行的,执行结果产生动态生成的Web页面并送到浏览器。

当浏览器向WebServer请求调用ASP文件时,就启动了ASP。Web Server开始调用ASP,将被请求的.asp文件从头读到底,执行每一个命令,然后动态生成一个HTML页面并送到浏览器。通过ASP内置的对象、服务器组件(Server Component)可以完成非常复杂的任务,而且用户还可以自己开发或利用别人开发的服务器组件完成专门的任务。

由于ASP是在服务器端解释执行,可以不必考虑浏览器是否支持ASP;同时由于它在服务器端执行,开发者也不必担心别人下载程序从而窃取编程逻辑。

2.1.4 JSP(Java Server Page)

JSP是建立在Java体系上的,具有独立于平台,独立于服务器的特点。

Ja va是S un公司推出的一种面向对象的、分布式、移植性强、安全性高、稳定性好的程序设计语言,支持多线程控制,独立于平台的软件技术。

JDBC技术是Java Database Connectivity的缩写,它是JavaSoft公司设计的Java语言的数据库访问API。程序设计人员通过它可以方便的建立与数据库的连接,操纵数据库。

JS P综合了中间件和J av a的优点:前者的优点在于可以使程序访问异构的数据库,而不必对应用程序作出改动,后者的优点在于具有平台无关行,不需要为不同平台编写不同的应用程序。

JSP的工作方式为:客户端浏览器首先访问Web服务器,从Web服务器上下载Java小程序Applet的字节码文件,以及相关类和JDBC接口的字节码文件。然后和Web服务器脱离,Applet根据数据库服务器的地址、端口号、帐号和数据库服务器连接,进行交互操作。由于JSP技术有可操作性、可维护性、安全性、高效性等一系列优良特性,因此和其他中间件技术相比,有很大的优势。

2.1.5 Java Servlets

Jav a动态W eb技术的另一个重要分支是Java Servlets。Java Servlets是运行于Web服务器端的程序,能够象CGI脚本一样扩展Web服务器功能。它在初始化时装入Web服务器的存储空间,并成为服务器的一个组成部分。其工作过程是:当浏览器向服务器发出请求时,服务器将该请求传递给一个Servlet,该Servlet通过JDBC向数据库发出SQL请求并构造响应结果,然后通过服务器将结果传递回浏览器。

2.2 把应用程序下载到客户端在客户端直接访问数据库的方式

2.2.1 Java Applet

Java Applet,它的实现方式是通过Web浏览器把应用下载到客户端运行,在客户端直接访问数据库。其工作过程是:当Web浏览器从服务器上下载了包含有Java Applet的HTML页面时,如其中的JavaApplet调用了JDBC,则浏览器运行的Java Applet直接与指定的数据库建立连接,并向其提交SQL语句,Applet从数据库接受返回的结果并进行处理,将最后结果显示在浏览器上。

在客户机上运行Java Applet通过JDBC技术可以绕过Web服务器直接和数据库服务器连接,并直接把带有结果的HTML页返回客户机浏览器。

Ja va Ap ple t优点:体系结构中立,与平台和操作系统无关。动态运行,无须在用户端预先安装。当服务器端的Java Applet更新后,客户机端总是可以使用最新的版本。

2.2.2 Plug-in

Plug-in是由NetScape提出的标准,是一种接入浏览器程序的动态链接库(DLL),它采用了DLL方式,可以很好地解决与浏览器程序间的相互调用问题。

Plug-in作为网络能力的一种扩展,将大部分负荷加在浏览器程序上,这样就能正确地浏览很多数据类型,在浏览器端完成信息显示。特点是操作速度快,服务器和网络传输的负担轻。服务器仅需提供数据服务,网络只需将数据一次性传输。服务器的任务很少,网络传输的负担轻。

缺点:需要事先安装。用户如想使用,必须下载安装Plug-in程序。Plug-in与平台相关。不同的操作系统需要不同Plug-in。对于不同的Web浏览器,同样需要用相对应的Plug-in。如果用户准备使用多种数据类型,必须安装多个Plug-in程序。势必对管理带来压力。同时也占用占用客户端机器磁盘空间。更新困难。升级时,需要重新下载安装。

2.2.3 ActiveX

ActiveX是Microsoft为适应互联网而发展的标准。是为扩展Microsoft Web浏览器Internet Explore的功能而提供的公共框架。

ActiveX能被支持OLE标准的任何程序语言或应用系统所使用。IE浏览器可以作为容器,任何符合ActiveX标准的控件都可以嵌入到网页中,在浏览器中显示。

工作原理:Web浏览器发出请求;Web服务器接受到用户的请求,进行处理,并将用户所要的数据和ActiveX控件(第一次浏览时)传送给Web浏览器;ActiveX控件负责向Web服务器请求数据,并对数据进行处理,完成操作。

ActiveX控件安装的前提是必须经过用户的同意及确认。它具有Plug-in模式的所有优点。同时,ActiveX能被支持OLE标准的任何程序语言或应用系统使用,比Plug-in模式更灵活,使用更方便。

缺点:需要下载,占用客户端机器的磁盘空间。与平台相关,对不同的平台,必须提供不同的ActiveX控件。与浏览器相关ActiveX控件最初只适用于Microsoft Web浏览器。在其他浏览器使用时,须增加特殊的Pulg-in予以支持。存在信息安全隐患ActiveX具有访问客户端本地文件系统的能力,使得ActiveX可以具有强大的功能,但存在信息安全隐患。

3 结语

通过上面的介绍我们对不同的Web数据库技术实现方式和特点的了解。

则采用CGI方式服务器的负担重效率低,增加了网络传输的负担,但对各种平台兼容性好。

专用服务器API方式的优点是执行效率高,但其缺点就是与平台有关,一种专用服务器API程序只能在该种Web服务器上运行。

ASP由于是在服务器端解释执行,支持所有浏览器,编程逻辑不易被窃取。但是效率较低,且基本上只能运行于Microsoft的Windows系列平台之上,又限制了它的发展。

JSP与平台无关具有移植性强、安全性高、稳定性好、等众多优点。

Java Applet、Plug-in、ActiveX把应用程序下载到客户端并执行的方式,占用服务器的资源较少,服务器和网络传输的负担轻。但也有各自缺点,Plug-in与平台相关,移植性差。ActiveX控件体积过于庞大,用户浏览时进行下载速度较慢。支持ActiveX的平台还只限于Windows系列。

以上各种WEB数据库访问技术各有优缺点和适用领域。因此,在设计Web数据库应用方案时,应该根据实际环境要求选择合适的方法。

参考文献

[1]邵佩英.分布式数据库系统及其应用[M].北京:科学出版社,2009:283~295.

[2]葛平升.Web数据库技术应用研究与实现[D].西安:西北工业大学,2002:27~43.

[3]皇祯平,王万诚.对几种Web数据库访问技术的分析与研究[J].控制工程,2003,10(3):230~232.

[4]徐琨,刘志镜,来琳涵.Web数据库访问的中间件技术分析与研究[J].计算机工程与科学,2002,24(4):55~56.

[5]催政.三种常用Web数据库技术应用对比分析[J].中国科技信息,2005(17):9.

WEB数据挖掘技术及应用研究 篇8

一、网络营销和W E B数据挖掘技术的概念及类型

(一) 网络营销概述

网络营销是近几年来产生的一个新兴名词, 其是指企业在市场营销过程中利用计算机技术和互联网实现有效信息的获取、处理与利用, 在此基础上制定有效的市场营销策略, 从而实现市场营销工作。

通过网络实施营销可让企业降低运营成本, 提升企业的市场占有率, 降低了市场壁垒, 尤其对与中小企业而言可以利用低成本营销而平等的进入国内、国际市场。对于企业恶言, 网络营销增加了企业与客户之间的双向互动交流频率, 而对于消费者而言, 通过互联网平台不仅扩大了商品选择的空间个获得更加低廉的价格, 而且满足了更加便捷的购物需求。

(二) WEB挖掘概述

W EB挖掘属于是利用数据挖掘技术在获取W EB活动文档中的隐藏信息或者具有应用价值的潜在应用模式。W EB挖掘技术主要通过W W W资源、页面的超链接结构、W eb页面内容以及用户访问信息等数据信息, 利用归纳学习与统计分析方法获取数据对象间的内在特征。利用W EB挖掘可以发现更多的潜在的有趣应用模式或者其他隐藏信息资源, 并在信息过滤技术的辅助下让客户获得更高层次的规律与知识。

根据相关技术原理, 现将W EB挖掘技术分为以下三大类:

1. WEB结构挖掘。

W EB挖掘中的结构挖掘是指利用W eb组织结构之间的链接关系而计算出网页结构中的有用模式。在大量的W eb超链接信息中为W eb页面提供了相关联的结构与质量方面信息资源, 其能够集中反映出文档之间的引用、从属及包含关系, 另外通过分析W eb文档之间的超链接结构, 还可发现网页结构中的有用模式, 从而有利于找到权威页面。在W EB结构挖掘领域, 应用最多的算法是Page R ank和H IT S算法, 两者都是通过使用一定的计算方法而获得W eb页面之间超链接的质量, 例如:G oogle搜索引擎便是应用此类计算方法[1]。

2. WEB使用挖掘。

W EB挖掘中的使用挖掘是对网页中的相应站点数据和日志文件实施挖掘, 以此来追寻相应站点的访问者的行为模式。由于在网页资源中拥有大量的复杂、异质信息, 而每一个信息资源在服务器上都存在一个结构化的W eb访问日志, 当网页资源访问者提出请求之后服务器将自动将行动数据记录在访问日志上。因此, 分析不同的W eb站点的访问日志, 则有利人们掌握W EB结构以及客户的行为动态, 这样有助于提升网站的工作效率。

3. WEB内容挖掘。

W EB挖掘中的内容挖掘主要是收集有用的W eb信息资源 (如:数据、内容、文档等) 。W eb中含有不同在种类的信息资源, 目前网络信息资源的来源基本上都是来自于W W W信息资源之中, 这其中除了部分人们可以直接搜索、抓取以及实现服务的资源以外, 还有部分资源是无法被索引的隐藏数据, 因此便需要应用W EB挖掘技术将其挖掘出来。

二、网络营销中的W E B挖掘技术分析

(一) 路径分析技术

实施W eb数据挖掘, 其所需要的路径分析技术主要是通过对W eb服务器的日志文件中访问频繁的路径等其他相关路径信息进行判定, 利用这些信息再对网站及页面的设计结构进行不断的完善和改进。利用路径分析技术实现数据挖掘必须经过三个基本步骤[2], 即:首先通过浏览过程中产生的站点所形成的序列来构成原始路径;其次是获取最大引用序列;最后是确定最大引用序列。

(二) 聚类技术

对于W eb数据挖掘中的聚类技术, 其是将W eb访问信息数据中一些具有相似特征的数据项、访问者信息等进行集合, 然后运用隐式或显式等方式来对不同的类别资源进行描述。在实践操作中, 聚类分析在对数据分布分析时可单独作为一个相对独立的工具来集中观察、分析每一个类型的特点, 具体来说就是帮助企业通过分析客户数据库而发现一些不同的客户群, 并通过运用消费模式来描述出这些不同客户群的基本特征, 从而帮助企业能够更好的了解客户, 保障自己的服务能够最大限度的满足客户需求。

(三) 分类分析技术

在数据挖掘中利用分类分析技术可通过详细分析示例数据并准确描述不同类别或者建立分析模型, 然后在利用这个分析模型对其他数据进行细化分类。分类分析技术在网络营销中是使用较多的应用技术之一, 其能够利用分类自动推导而对相关数据进行相关的推广描述, 以此来预测未来的数据发展趋势。

(四) 关联规则挖掘技术

W EB挖掘技术中的关联分析主要是利用同一个事件中出现的不同项的相关性来挖掘其中所隐藏在数据之间的关联规则。在网络营销活动中, 关联分析主要是用于找寻客户对网站中各种文件之间访问现象的相互联系, 从而总结分析出客户购买行为的关联因素[3]。通过在W eb上实施数据挖掘, 以此来构建一个关联模型, 这样我们便可以更换的优化组织站点, 降低客户过滤信息频率, 并根据客户的购买行为而为客户提供一定的推荐服务。

三、W E B数据挖掘技术在网络营销中的具体应用

(一) 有利于确定网络营销目标

实施有效的市场营销活动前首要的工作是确定市场营销目标, 而这需要经过三个既定步骤———细化目标市场、选定目标市场、定位目标市场。在网络营销活动中, 企业确定目标市场前必须对于商品目标的应用、销售市场进行细分, 也就是考察商品的市场吸引力、企业自身的商品营销经验及未来发展目标等等, 通过上述细分之后确定商品目标市场, 最后在此基础上定位目标市场。如果企业在网络营销中应用W eb挖掘技术确定市场营销目标, 其可以迅速对客户数据进行综合分析, 并自动对各个层次的市场实施细分, 形成一个详细的目标市场分类数据资料库, 从而为企业定位目标市场提供真实、有效的数据依据。

(二) 构建市场营销情报系统

为了降低市场营销活动的风险, 在此之前一般都需要收集大量的市场营销信息来对目标市场进行细致分析。网络营销主要是通过Internet来获取大量的相关联信息资源, 利用W EB数据挖掘技术可收集大量有效的市场营销情报, 例如:对企业营销中所需要的政策法规、行业技术、市场环境、竞争对手、国际行情等动态信息进行全面收集整理, 并建立全面的营销情况系统, 这样有助于企业及时掌握市场、行业等发展新情况, 制定并执行具有针对性的营销策略, 保证企业在市场营销中拥有绝对的主动权[4]。

(三) 数据挖掘在客户关系管理中的应用

1. 延长客户驻留时间。

通过网络平台实施营销活动, 消除了销售企业与客户之间存在的空间距离, 在Internet平台上所有销售企业相对于客户而言都是一样的。商家为了能够让访问者尽量对在自己网站上驻留, 都需要通过技术手段分析访问者的浏览行为, 也就是掌握访问者的爱好或者需求, 这样有助于商家及时根据访问者的行为动态调整页面设计和推荐商品信息, 更新部分访问者敢兴趣的商品信息, 一方面能够满足访问者的需求, 更重要的是能够最大限度的延长访问者的驻留时间。

2. 挖掘潜在客户。

企业通过对W eb日志记录中的访问规律进行分析, 根据访问者的相关信息资源进行科学分类, 并确定访问者分类的关键属性及相互之间的关联。如果有新的访问者, 则可在W eb分类中识别出与已分类访问者之间存在的一些公共描述, 然后再对这些新访问者进行正确分类, 最后从新访问者的分类判断中决定是否将其作为潜在客户来对待[5]。如果将其作为潜在客户对象, 则可给予该客户提供一些个性化的特殊页面内容, 从而吸引客户的注意力, 激发客户的消费欲望。

(四) 促进优化站点设计

在超市中我们经常会发现他们将有关联的物品放在一起, 这样有助于提升商品的销售业绩, 而在网络营销中的W eb站点结构也是类似的, 在浏览模式的设计过程中需要依据大部分访问者的浏览习惯来安排、链接页面内容;若部分页面访问频率较大时则可适当增加页面链接, 这样方便访问者顺畅浏览页面;在访问较为频繁的页面上放置重要商品信息, 吸引客户的注意力及商品的影响力, 从而提升营销业绩。

四、结语

网络营销模式属于是现代市场营销进入数字化时代最有力的证明, 随着电子商务体系不断成熟, 网络营销必将成为未来社会营销领域中一种新的发展潮流与趋势。在网络营销活动中, W eb数据挖掘技术有助于企业预测市场发展趋势、客户消费动态, 进一步挖掘有价值的潜在商业信息资源, 从而帮助企业制定具有前瞻性的营销策略, 保障企业能够在激烈的竞争环境中把握有利发展机遇。目前, 国内外学术界对W eb挖掘技术展开了深入的研究, 虽然尚未形成一个成熟的理论与应用体系, 但是随着电子商务的不断发展, W eb挖掘技术必将拥有广阔的发展空间。

摘要:在互联网上储存有海量的数据, 而为了能够有效的管理与应用这些数据, 人们开始研究和推广应用数据挖掘技术, 尤其是在网络营销蓬勃发展的条件下, 为了能够捕捉更好的商机, 那就必须对大量的业务数据进行有效的管理与使用, 而此时WEB数据挖掘技术便成为网络营销发展的迫切需求。在本文研究中笔者将详细常熟网络营销的概述以及WEB数据挖掘技术的定义及基本类型, 探讨分析关于在网络营销中WEB数据挖掘的应用技术, 然后就WEB数据挖掘技术在网络营销中的使用方法提出几点拙见。

关键词:WEB数据挖掘技术,网络营销,应用

参考文献

[1]李岩.基于Web挖掘的专题性智能信息搜索工具关键技术研究[D].北京:北京科技大学信息工程学院, 2003.

[2]石磊, 王伟华等.Web挖掘技术在电子商务中的应用[A].信息时代—科技情报研究学术论文集 (第三辑) [C];2008.

[3]朱凌云, 赵韩, 高先圣.Web挖掘在网络营销中的应用研究[J].情报杂志, 2006.1.

[4]蔺莉, 潘浩.Web数据挖掘技术在电子商务中的应用[J].电脑知识与技术, 2010, (4) :816-818.

基于Web日志的数据挖掘研究 篇9

1 数据挖掘

1.1 系统结构

数据挖掘是一门交叉性和理论性很强的学科, 是从数据源的海量数据信息里发现知识的系统工程, 整个系统主要包括用户界面、模式评估、数据挖掘引擎、 数据库服务器、操作过程、数据源等组成, 其系统结构如图1所示。

其中数据挖掘引擎是最核心的部件, 用来执行相关的数据挖掘算法 (分类、聚类、相关分析等)。

1.2 数据挖掘过程

随着数据挖掘的潜力日益被发掘, 对于数据挖掘的相关研究越来越多, 数据挖掘技术在各个行业领域中被得到广泛的应用。当前, 数据挖掘的算法种类比较多, 但基本原理仍是相似的, 其算法的流程基本上差不多。其具体的工作流程如图2所示。

如图2所示, 数据挖掘的主要流程是: 从逻辑数据库中提取数据, 首先对其进行选择处理, 提取出被选择的数据, 然后对其进行预处理操作, 将处理后的数据进行转换, 利用数据挖掘技术对其进行处理, 抽取出合适的信息, 对其进行分析, 形成被同化的知识, 存放入知识库中。

2 Web 日志挖掘

2.1 挖掘理论

Web日志的挖掘主要是指对Web数据库中的数据进行提取, 从而得出使用者感兴趣的知识。当前的网络体系结构中的Web日志一般都存放在Web服务器的数据库日志文件里, Web日志主要是指用户访问Web页面时所进行的一系列的操作, 因此, 对于Web日志进行挖掘有其自身独有的特点。

(1) 操作对象关联性比较强

对于大部分数据挖掘所操作的对象, 彼此之间并没有结构上的关联, 对Web日志进行挖掘处理, 其操作的数据彼此之间关系比较紧密, 而这些关联信息之间还存在新的信息以供挖掘。

(2) 日志包含决策信息

在某个特定的时间段内对Web服务进行访问, 代表了某个用户群的特征, 这是一个共性的问题, 可以直接作为决策知识集, 能够从中找出相关用户的行为, 并对其进行操作上的预测。

(3) 数据量大

随着互联网规模的扩大, 对于日志文件来说, 可以说每时每刻都有新的数据信息补充进来。仅仅Google公布的数据显示, 每天其数据的索引量就超过了几百亿, 对于整个万维网来说, 其数据量更是一个无法估计的数字。

2.2 Web 日志挖掘过程

对于Web日志的挖掘, 与数据挖掘的过程略有所不同, 其原理是一致的。将Web日志的挖掘分为3部分, 分别是数据预处理、模式发现及模式识别。

由于Web日志的数据比较多, 一般都会存放在服务器的Web日志文件之中 , 这样对于日志信息的提取有了一个明确目标。经过数据预处理、模式发现和识别之后, 要将结果进行汇总, 并将以用户能够清晰地认知的形式展现出来, 从而可以与实际相结合, 需要注意的是, Web日志挖掘的最核心过程由专门的站点进行控制, 这样保证运行的效率。Web日志挖掘的过程如图3所示。

2.2.1 数据预处理

对于Web日志进行数据挖掘操作之所以比较困难, 其最主要原因是对于每一个网站系统来说, 其日志文件的存放格式都是不同的, 没有一个固定的结构模式, 由于每个系统所关注的焦点不同, 其记录的信息内容也存在着较大的差别, 因此, 无法对Web日志文件进行直接的挖掘处理操作, 需要进行数据的预处理, 对日志文件进行加工转换, 采用标准化的结构模式。

另外对Web日志文件, 其内部的数据信息可能存在着大量的冗余, 还有许多不相关的记录存在, 对这些数据进行删除处理, 可以有效地减少数据在处理时的时间, 从而提高数据挖掘的效率。

2.2.2 模式发现

对数据进行预处理之后, 系统就会以某种数据挖掘算法进行模式发现, 从而让用户需要的数据显示出来。当前最流行的模式发现是对用户的浏览方式的发现。不同类型的浏览 方式会有不同的特征。对浏览特征的描述主要有有序性、连续性、 重复性和极大性。对于Web日志挖掘的模式发现采用的主要方法主要有关联规则、序列模式发现及路径分析法等。

2.2.3 模式识别

模式的识别概括起来主要有对Web日志模式改进从而提高访问效率、发现导航模式、对用记进行建模等。

3 Web 日志挖掘算法

数据挖掘算法的种类比较多, 在本文根据Web日志的特点, 采用ID3决策树算法对其进行操作。

3.1 ID3 决策树算法

当前, 决策树算法已经在很多领域得到应用, 自从ID3决策树算法产生以后, 其应用的范围得到了进一步的扩大。对于决策树来说, 它的结构是树形结构, 每个结点作为一个类充当树的一个叶子。

当前ID3决策树的主要优点是分类的精确度高、噪声小、模式简单。其目标是通过数据中包含的某种规则, 以决策树的形式进行查找, 从而实现知识的发现。该算法的过程首先是生成决策树, 其次修订决策树, 直至得出最优的结果为止。

ID3决策树算法结束的条件是: 对所包含的样本数据都一一进行操作、对样本的操作其属性都无法再进行划分、或者 子集中无样本。

3.2 ID3 算法实现

利用ID3决策树算法进行Web日志的分析处理, 是一个比较不错的选择。整个系统的实现相对比较庞大, 在此给出其核心代码。

4 结语

对Web日志的数据挖掘进行了详细的研究分析, 当前的互联网中包含了海量的Web日志数据信息, 从中提取有用的知识对于网络使用者来说是迫切的要求。利用数据挖掘技术对其进行了分析。

摘要:针对当前Web日志数据信息越来越多的问题,传统的数据库管理系统无法对其进行有效的操作分析。采用数据挖掘技术对其进行研究,从数据挖掘的系统结构和数据挖掘的过程两个方面对数据挖掘进行描述;对Web日志挖掘的理论和过程进行了详细的分析;给出ID3算法的描述,并给出了部分核心的代码。

基于Web的数据挖掘技术研究 篇10

数据挖掘指从随机又模糊的庞大数据里,把那些潜在但很实用的信息、趋势或模式提取出来。

被视为新兴领域的Web挖掘,实质是数据挖掘的升级版。Web信息有着极为特 殊之处,这样在数 据挖掘上必须添加匹 配的新特 性。这些特性 包含:1在挖掘对 象上,Web挖掘的数据源全部是异构的;2 Web文档是机器理解不到或者没有结构、半结构的语义。

2Web挖掘特性

2.1缺乏智能化理解

Web中的数据的格式几乎都是HTML,与主题相关的信息往往 杂乱地在Web站点的目 录下散布 开来。因此,必须有非常强大的一个搜索引擎,通过对关键字查找,实现对超文本位置的定位。数据格式不尽相同,必须有一个智能化的系统对自然语言陈述的数据作理解。然而,当下自然语言理解的有关技术还不成熟,所以很难对所有数据都理解到位。另外,数据源冗余或极为矛盾等问题也对此产生影响。

2.2数据源过于庞大

Web对于有效的数据仓库和数据挖掘而言似乎太大了[1]。目前在计算上,Web数据已经达到用几百兆字节来表示的地步,并朝着更大单位来表示的趋势发展,有两点特别明显:

(1)动态性强。因特网时时刻刻都在变化、更新中,于是需要借用某些数据仓库技术,才能保留Web上已更新过的数据。

(2)多样性。过滤 后的Web数据包含4种:1以实型、整型为实例的数值型;2布尔型;3描述数据及分类数据;4邮箱地址、网址等仅为Web所有的数据型。新的数据类型有新的特征,原先的挖掘方式行不通,必须对原有方式作扩充、改进。

2.3用户目标极为模糊

在基于因特网下作数据挖掘,用户往往对挖掘主题认识很粗浅,说不出特别准确的目标。因此,数据挖掘系统必须具备学习机制及 智能化特 征,对用户的 兴趣不断 跟踪,才能详细、清晰地对挖掘结果做出阐述。它涵盖Web的结构、存取模式及动态查找,由此表明Web挖掘极具挑战性。

3Web挖掘分类

3.1基于内容的 Web挖掘

指在Web文件内容、描述信息中,取得潜在但实用的知识、模式的过程,分为文本挖掘、多媒体挖掘。

(1)文本挖掘。特指对文本文档的挖掘。在Web庞大文档里,可对内容作出分类别、总结、关联性分析及趋势分析等。

(2)多媒体挖掘。指对多媒体文档的挖掘,即对Web上图像、音视频预处理,利用挖掘技术对有意义的、潜在信息及模式作挖掘的一个过程。提取特征不同是多媒体与文本挖掘最不一样的地方。在挖掘时,对文件或者视频的键值表、文件名、颜色向量及类型等进行提取。

3.2基于结构的 Web挖掘

在结构上,Web包括超链接结构、树形结构及目录路径结构等[2]。这样,在结构上,可用有向图对Web进行表示,有向图中点对应的是页面,有向图中边对应的是超级链接。用此方法可得到站点的主页到任一定点的最短路径,也就是用较小代价获取最多文档。

(1)HITS算法。对一给 定的话题 进行搜索,往往不只期望获取相关联的Web页,还期望被检索出的页面质量高且具权威性。而Web不只包含页面,还包含超链接。超链接简单说就是一个页面向另一个页面指向。若作者先建立一个页面,接着又让该页面向另一页面指向,就可认为作者对另一页面持认可态度。同一页面,收集源自不同作者的不同注解,便能反映此页面的重要性,而且可非常自然地用作权威页面。可 是在链接 结构上,Web有一定的局限:1并非每个超链接都认可此寻找;2商业竞争中,不可能有Web页面与自家竞争的页面指向;3难有权威页面具备特别性描述。鉴于以上情形,研究者不得不提出另一种Web页面(俗名Hub页面)。一个Hub页面可代替一个或多个Web页面,提供的是集合性链接。同时,任何话题,Hub页面都向着最显眼的链接指向。

(2)PageRank算法。Web超链接有下列几种假设:1网页A的作者向网页B推荐;2网页A、B在主题相同时,超链接便把两个网页连接;3基于前两种,某页面数次被引用,说明此页面也许特别重要;4某页面虽然未被数次引用,但却被某重要页面引用,说明它也很重要。此算法便是针对上述4种情形做的专门研发。

3.3基于访问的 Web挖掘

网页点击数、浏览量、独立IP等是显示网站访问情形的核心指标[3]。可细致分析网站关联的LOG文件,取得关系访问情形的详尽数据,这种挖掘归属于静态访问,这对完善网站极为有益。譬如:对访问者来源细致分析,可使网站内容更有针对性;对在不同时段访问者人数的细致分析,可依据时段来更新,这种Web挖掘利用极为广泛。不只是静态研究,动态访问研究也很热门。

4Web挖掘研究方向

4.1搜索引擎挖掘

当下的搜索引擎几乎全是基于关键字,搜出的文档数量极大,高质量的内容却极少。加上某些文档跟话题是关联的,但关键词找不出来,这就使得搜索结果不全面。针对这种情形,某些专家提出用概念层或多义字的办法对文档进行搜索。

4.2日志挖掘

对日志文件(Web服务器)细致分析,会发现用 户访问网站所用的浏览模式,这对有效改进网站提供了信息。信息包含:对系统设计作改进、对导航功能作改善等。日志挖掘有3个阶段:1预处理数据;2挖掘数据;3分析模式。由于存在代理服务器及防火墙,使得日志数据难以准确,所以在第一阶段便必须做用户识别、数据净化、路径补充、会话识别工作。挖掘阶段指依据语义,将用户的会话作分割,形成一项项事务,利用挖掘算法,对识别结果作出规则、模式。

4.3XML结合 Web挖掘

4.3.1XML简述

XML由万维网协会设计,是特别为Web应用服务做的一个分支[4]。XML是一种典型的中介标识语言,它为结构化资料提供对应的格式。

半结构化是Web数据所有特征中最显著的一点,因为只有把半结构化对 应的抽取 技术作为 前提,才能面向Web做需求的数据挖掘。新生代的www环境把XML作为基础,它可直接 面向Web数据。一方 面兼容已 有的Web应用,另一方面对Web中的信息更好地交换、共享。XML可看作是半结构化下的数据模型,所以它能把属性(关系数据库)与文档描述一一对应,实施模型抽取、精确查询。

4.3.2XML应用

XML已经成为正式规范[5]。开发时,XML格式可当作数据标记。在三层架构情况下,用XML对数据处理是最好的方法。运用XML,设计员不仅能对文字、图形进行创建,还可对数据树、超链接结构、样式表、元数据等进行构建。

Web数据挖掘是非常复杂的一项技术,因XML的出现,使Web挖掘中遇到的问题迎刃而解。因为XML可以让来源不同的结构化数据轻松地结合在一起,让不兼容的多样数据库搜索变成可能。由于XML具备灵活性、可扩展性,因此对不同 类型应用 软件中的 数据XML都能描述,从而对Web中的各种 数据记录 也能描述;再加上XML下的数据全为自我描述,所以即使在内部描述数据完全缺乏时,处理、交换一样可实现。

4.4未来趋势

Web数据管理研究 篇11

关键词:学生管理成人学历教育管理系统

1.引言

随着科学技术的飞速发展,计算机和互联网已经成为社会各个领域不可缺少的一部分,并逐步深入到高校建设当中。成人学历教育具有其自身的特点,其教育对象多是在职从业人员,管理起来比较复杂,如果还是采用手工管理方式,则工作效率低。成人学历教育的学生管理现代化是目前成人教育管理的发展趋势,随着教育规模的扩大、信息需求的不断增加,对管理系统的要求也越来越高。利用计算机和网络对学生进行信息化管理具有传统手工管理无法比拟的优势,具有查询方便、检索快速、存储量大、保密性好、可靠性高等优点。本文基于成人学历教育学生管理的实际情况和面临的问题,设计并实现了基于Web的成人学历教育学生管理系统,使学生管理工作更加规范化和系统化,具有良好的应用前景。

2.成人学历教育学生管理系统的总体设计

成人学历教育学生管理系统主要采用B/S的三层结构:客户端、Web服务器和数据库服务器。系统总体方案如图1所示:

图1用户(系统管理员、学生或教师)在客户端浏览器输入信息,向Web服务器提出服务请求,比如教师请求查询某一学生的学籍信息,Web服务器接收到用户发出的请求后,通过数据库命令与数据库服务器建立连接,在数据库中查找该学生的学籍信息,然后数据库服务器将处理后的数据结果反馈到Web服务器,Web服务器再将结果传送到客户端,使教师看到该学生的学籍信息。

由于成人学历教育的学生数量大,地域比较分散,因此采用B/S模式的三层结构设计的学生管理系统是可行的,系统代价小,具有良好的开放性和可扩充性,更加适合成人学历教育的发展和要求。

3.成人学历教育学生管理系统的详细设计

根据成人学历教育学生管理系统的总体设计要求,该系统功能结构图如图2所示:

该模块实现用户信息管理和用户权限管理功能。在成人学历教育学生管理系统中,用户分为系统管理员、教师和学生。用户信息管理包括用户信息的增加、删除、修改和查询。用户权限管理指的是各类用户权限的设置。学生的权限是查询个人学籍信息、考试信息、成绩信息等。教师的权限是管理学生的个人信息、试卷管理、题库管理和成绩管理等。系统管理员是系统中权限最高的用户,拥有教师和学生的所有权限,并能够管理教师的信息。

(2)学籍管理模块

该模块实现学籍信息管理和学籍异动管理功能。学籍信息管理包括学生录取数据的导入、学籍信息的查询、学籍数据下载、学籍数据统计、毕业数据的上报和查询等。学籍异动管理是根据学籍管理规定对转学(转入、转出)、转专业、学生休学、复学、退学等学籍变动进行修改和查询等。

(3)教务管理模块

该模块实现学生考试管理和学生成绩管理功能。学生考试管理包括课程管理、班级管理、考试管理、题库管理等。学生成绩管理包括学生成绩的录入、删除、修改和查询。学生可以通过浏览器登录成人学历教育学生管理系统来查询自己的课程信息和成绩信息。

(4)系统管理模块

该模块实现数据备份和数据还原功能。系统管理员需要定期备份系统数据,以防止系统出现操作失误或系统故障导致数据丢失。当系统出现故障时,用备份过的数据实现数据还原,以保证系统的正常运行。

4.结束语

本文提出的基于Web的成人学历教育学生管理系统是顺应成人学历教育快速发展形式的产物,能够满足成人学历教育学生管理现代化的要求,系统操作简单使用、可靠性高、扩展性强,有效地解决了传统的人工管理带来的工作效率低的问题,能够为教师和学生提供良好的服务。

参考文献:

[1] 姚苏芮. 开放大学环境下学籍管理的思考[J]. 中国成人教育,2013(23).

[2] 唐玉芳,张永胜.基于.NET的学生信息管理系统的设计与实现[J]. 计算机技术与发展,2010(04).

[3] 胡芳.某成人高校教务管理系统的设计与实现[D]. 电子科技大学,2010.

[4] 孙妍. 高职高专院校成人教育学院学籍管理系统[J]. 电脑编程技巧与维护,2013(22).

语义Web数据的云存储研究 篇12

云计算,提供了一套高性能的分布式文件存储和计算系统,又被称为解决海量数据存储的最佳方案,文中借助研究一个开源的分布式存储和计算平台Hadoop以及其上的应用Hadoop Database(Hbase)完成海量RDF的存储实现。

Hbase[1]是一个开源的、面向列的分布式存储系统,是一个结构化数据的分布式存储系统”。Hbase在Hadoop项目上提供了类似于Bigtable的应用能力。它本身的设计特点非常适于存储海量RDF数据并提取现有知识和计算知识,是一个针对结构化数据可伸缩、分布式的动态模式数据库,能有效、可靠地管理分布在数千个服务器上的大规模数据[2,3,4]。

1 RDF数据和分布式存储介绍

1.1 语义网和RDF

在飞速发展的时代里,各种数据都趋于海量,如何能从海量数据里找到自己想要的数据,使计算机如何实现真正的智能化和自动化。虽然搜索引擎是现在最成功的一种尝试,但因为网络本身主要使用Html语言而产生的缺陷——作为一种面向表现的标记语言,它只定义了用来格式化数据显示的标记集,而缺乏明确说明数据含义的标记[5]。计算机只明白如何显示一个页面,但并不能真正地“理解”这个页面的信息。语义网致力于改变这种状况,它研究的重点就是如何把信息表示为计算机能够理解和处理的形式,即带有“语义”。在语义网的概念中,“语义”是核心,能够在人与计算机之间、计算机与计算机之间以无偏差的方式传递的信息,就是语义。语义网的基本思想是对互联网上任意的资源,进行结构化的描述并引入语义,使得计算机可以理解互联网上的信息。当然,计算机不可能像人一样进行思考,但是通过制定标准,使用标准描述信息的含义,计算机就可以根据标准进行自动分析和推理,将网络上的服务集成在一起,从而使自动化智能服务成为可能。

RDF则可以看成是一种Web上的知识表示语言,是谓词逻辑的一个特殊形式,它具有形式化的语义表述,计算机可以据此理解它所表达的语义信息。RDF是一个完备的形式化系统。随着语义网的发展,海量RDF数据的存储必将是要解决的基础课题。

1.2 云计算和Hbase

现在说的最多的技术莫过于云计算了,各个公司都在紧锣密鼓的布置自己的云计算平台,Google组建了GFS,Google的分布式文件存储系统,又在其上开发了Bigtable数据库,其目标是处理非常庞大的数据表。而开源项目Hadoop,也实现了与Google同样的功能,可以在上面开发各种分布式应用,Hadoop 中的分布式文件系统 HDFS 由一个管理结点(Name Node)和N个数据结点(Data Node)组成,每个结点均是一台普通的计算机。在使用上与熟悉的单机上的文件系统类似,同样可以建目录、创建、复制、删除文件、查看文件内容等。同样,Hbase是建立在HDFS上的数据库引擎,本文正是通过研究Hbase,并在其上研究和开发一种海量RDF存储的解决方案。

2 海量RDF数据和分布式存储的结合点实现

使用Hbase存储RDF数据,主要是利用Hadoop的分布式平台良好的可扩展性,只要加入足够的计算机数目,就可以得到容量和速度的大幅提高,适于建立一个云计算和存储平台,如果存储了海量的RDF数据,就可以在其上研究一些智能的推理和计算,从而为构建语义网奠定基础。

现在要存储上面两个文件的语义信息,第一步是将RDF映射到Hbase表。要存储文章和作者的RDF/XML描述,需要创建两个表,分别命名为Articles和 Authors。设计这些表时注意,需要支持关于作者从属关系的查询。

Articles表的行键来自文章的 DOI标识。这个模式拥有 3 个列族:info 用于标题、文章名称和发表日期等信息;authors 用于作者的 URI;affiliations 用于作者的从属关系。

Authors表的行键源自作者的 URI。例如,Jeffrey Dean 的URI转换为键 google_research_Jeffrey_Dean。这个模式包含两个列族:info 用于存储作者信息,例如姓名和主页;affiliations 用于存储作者的从属关系历史。

创建 Hbase表:与Hbase交互的方式有很多,例如shell。还有通过编写Java程序调用相应的接口实现,本次使用的与 Hbase 交互的方法是通过Rest API。

在数据库表中插入数据:使用上述两个RDF文件部分的信息填插入 Authors 和 Articles 表。

对每次插入执行 POST 请求,省略时间戳,因为 Hbase 分配默认时间戳。

至此,完成了RDF信息的分布式存储。现在,可以根据基本规则再做一些语义分析。例如,发现文章的作者从属于Google公司,那么文章也应该从属于Google公司,还可以做深层次的信息挖掘,总之,在Hbase上实现了海量的RDF存储。

3 结束语

本文提供一种RDF存储在大型分布式平台的一种解决方案。主要是在语义网快速发展的过程中,一些海量数据存储问题可以用云计算平台解决。并且以后在做相应的语义分析的时候可以利用MapReduce应用程序可以完成并行处理,利用“分而治之”的思路充分发挥云计算平台的强大计算能力。

参考文献

[1]王广芳.分布式操作系统[M].长沙:国防科技大学出版社,2000.

[2]钟富强,张琪,曹建文.计算机专业英语[M].南京:南京大学出版社,2003

[3]Bruce Eckel,候捷.Thinking in Java[M].2nd Edition.北京:机械工业出版社,2002.

[4]Birnam S.分布式Java2数据库系统开发指南[M].北京:清华大学出版社,2002.

上一篇:保姆式供应链服务下一篇:光电处理