Web访问信息挖掘

2024-09-12

Web访问信息挖掘（精选7篇）

Web访问信息挖掘篇1

摘要：文章立足于WEB数据挖掘技术, 就WEB访问信息挖掘技术如在在网购B2C站点中的应用展开研究。其主要应用有以下几方面:利用WEB访问信息挖掘发现导航模式、利用WEB访问信息挖掘改进B2C站点访问效率、利用WEB访问信息挖掘进行B2C站点商业智能发现。

关键词：电子商务,数据挖掘,WEB数据库

(一) 电子商务B2C站点对数据挖掘的需求

随着Web技术的发展, 各类电子商务B2C网站风起云涌, 建立起一个电子商务B2C网站并不困难, 困难的是如何使电子商务B2C网站有效益。要想有效益就必须吸引客户, 增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈, 客户从一个电子商务网站转换到竞争对手那边, 只需点击几下鼠标即可。电子商务B2C网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务B2C网站每天都可能有上百万次的在线交易, 生成大量的记录文件和登记表, 如何对这些数据进行分析和挖掘, 充分了解客户的喜好、购买模式, 甚至是客户一时的冲动, 设计出满足于不同客户群体需要的个性化网站, 进而增加其竞争力, 几乎变得势在必行。

(二) WEB访问信息挖掘概述

数据挖掘就是从大量的、不完全的、有噪声的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的知识的过程。它融合了数据库、人工智能、机器学习等多个领域的理论和技术。Web挖掘是数据挖掘在web上的应用, 是指从与web相关的资源和行为中抽取感兴趣的、有用的模式和隐含知识。一般地, Web挖掘可分为三类:Web内容挖掘、Web结构挖掘、Web访问信息挖掘。本文旨在研究WEB访问信息挖掘技术在电子商务B2C站点中的应用, 故只对WEB访问信息挖掘技术展开讨论。Web访问信息挖掘是对用户访问WEB时在服务器方留下的访问记录进行挖掘, 即对用户访问WEB站点的存取方式进行挖掘。挖掘的对象是在服务器上的包括Server Log Data等在内的日志文件记录。

1. WEB访问信息挖掘的数据源

由于WEB世界的分布性, 用户访问行为广泛的分布在WEB服务器、用户客户端和代理服务器中。在各个分布点的不同用户访问信息表征了不同类型的用户访问行为。挖掘工作必须针对数据的特点来决定相应的任务。用户访问信息简单归纳如下。

(1) 服务器存放:一般地, 在一个WEB服务器上, 服务器日志记录了多个用户对单个站点的用户访问行为。

(2) 客户方:一般地, 在客户端计算机上, 客户端的代理记录了单个用户对单个站点或单个用户对多个站点的用户访问行为。客户端的Cache记录了用户访问内容。客户端的BookMark也记录了单个用户对单个站点的访问偏好。

(3) 客户代理服务器:代理服务器记录了多个用户对多个站点的访问行为, 同时代理服务器内部的Cache记录了多个用户对多个站点的访问内容。

2. WEB访问信息挖掘的流程

数据挖掘在电子商务中的应用是一个将信息转化为商业知识的过程, 一般分为三个步骤:数据预处理、模式发现和模式分析。

(1) 数据预处理:为了提高数据挖掘过程的效率, 使数据挖掘的结果更合理, 用于挖掘的数据应该准确、简介且易于处理, 要经过数据预处理。数据预处理包括数据清理、用户识别、会话识别和路径补充、事件识别和格式化等处理, 形成用户会话或用户事务文件。

(2) 模式发现:模式发现是将数据转化成一个分析模型, 这个分析模型是针对挖掘算法建立的。建立一个真正的适合挖掘算法的分析模型, 是数据挖掘成功的关键。可用于Web数据挖掘的技术有路径分析、关联规则、分类分析、聚类分析、序列分析等。

(3) 模式分析:模式分析的目的是根据实际应用, 通过观察和选择, 将发现的统计结果、规则和模型转化为知识、再经过某种度量得到真正有价值的模式, 即我们感兴趣的模式, 以图形界面的方式提供给使用者, 模式分析常用的方法有信息过滤、可视化、联机分析等。

(三) WEB访问信息挖掘在B2C站点中的应用研究

电子商务模式从交易主体可以分为B2B、B2C、C2C。B2C模式在电子商务中的应用也越来越广泛。诸如凡客成品、京东商城、新蛋网等等, 这些B2C站点目前在线交易量都很大, 经营状态良好。但是WEB挖掘技术在这些B2C站点中的应用还没有体现出来。下面本文从几个方面提出了WEB访问信息挖掘在B2C站点中的应用。

1. 利用WEB访问信息挖掘发现导航模式

发现导航模式 (Discovering Navigation Patterns) 是WEB访问信息挖掘的一个重要的研究领域。用户的导航模式是指群体用户对B2C站点的页面浏览顺序。用户导航模式的主要应用在改进站点设计和个性化推销面。

(1) 改进B2C站点的结构设计:通过路径分析等技术可以判定出一类用户对一个B2C站点频繁访问的路径, 这些路径反映这类用户浏览B2C站点页面的顺序和习惯。因此得到的导航模式可以指导网站设计人员改进站点的设计结构, 吸引用户的访问。另外, 通过对Web Log的数据挖掘, 发现用户访问页面的相关性, 从而对密切联系的网页之间增加链接, 方便用户使用。

(2) 个性化行销:个性化推销时指识别出对某种产品或服务的可能购买者, 对其推荐相应的产品或服务。通过对客户访问信息的挖掘, 就能知道客户的浏览行为, 从而识别用户的忠实度、喜好、满意度, 了解客户的兴趣及需求, 动态地调整Web页面以满足客户的需要。

2. 利用WEB访问信息挖掘改进B2C站点访问效率

WEB服务器推送技术:面对广大用户改进WEB服务器性能一个重要的手段是使WEB服务器能够进行推送服务, 即当用户下载一个文档时, 相关的文档会被提前推送到PROXY上。对于一些网购B2C站点而言, 一般有一定规模的B2C站点都是有独立的机房和服务器, 这就要求B2C站点服务器的管理人员精通服务器的设置和应用, 更好的实现WEB服务器推送技术应用。

自适应B2C网站:利用聚类技术可以在发现一起被访问的WEB页面, 并把它们组织到一个组里, 以帮助用户更好地访问。自适应B2C站点的技术的最大优势是通过增加索引页来帮助用户进行访问, 从而该进访问效率。

3. 利用WEB访问信息挖掘进行B2C站点商业智能发现

商业智能是对商业信息的搜集、管理和分析过程, 目的是使企业的各级决策者获得知识或洞察力 (insight) , 促使他们做出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。为了更好地在电子商务环境下反映访问者的访问模式, 一个WEB挖掘模型的设计必须基于访问者的前一行为和购买行为以及商业过程跟踪等手段来实现。例如, 根据迁移和购买行为之间的内在关系, 可以利用路径修剪技术等发现高频WEB事务模式, 由此得到商业智能。

(四) 结语

尽管电子商务的数据挖掘是一个新的领域, 但是其发展已经形成了一套基本的流程、方法和技术。对电子商务过程中产生的数据进行挖掘, 有助于商家针对不同的产品制定相应的销售策略, 优化站点组织结构, 提高商务网站的工作效率, 有针对性地开展目标营销。总之, 电子商务的数据挖掘有效地支持了CRM、ERP和SCM等关键的商业流程, 是电子商务营销创新的重要手段。未来的电子商务的数据挖掘将朝着数据的集成化、挖掘方法的多样化、系统的智能化和客户服务的个性化方向发展。

参考文献

[1]赵焕平, 等.WEB数据挖掘及其在电子商务中的应用[J].福建电脑, 2008 (1) .

[2]冀俊忠, 等.B2C电子商务站点中知识发现的研究[J].北京工业大学学报, 2003 (6) .

Web日志频繁访问路径挖掘算法篇2

从海量日志中挖掘用户浏览网页的访问路径, 常见的方法有参考长度法等, 这些算法认为用户的浏览频度就反映了用户的访问兴趣。进一步的改进包括基于支持度-偏爱度的频繁路径挖掘算法, 但挖掘出的频繁模式不一定是用户浏览路径的子路径, 此外有些方法不能产生Web事物中连续的频繁访问路径。有些方法利用访问路径树挖掘频繁扩展子路径, 只需扫描一次数据库, 但存在不能挖掘出连续可重复的频繁访问路径的缺陷。

综述所述, 面对海量的Web日志, 如何快速准确地挖掘出日志中隐含的频繁访问路径是各类算法追求的目标。本文在研究访问路径树性质的基础上, 给出了高效精确的算法。

2、相关概念

则称路径p为频繁访问路径。其中是预先定义好的最小支持度。

定义2:若路径p=的前缀子路径q=是路径r=的后缀子路径, 则定义路径r与p之积r×p=, 否则r×p为空。一般而言r×p不等于p×r。路径集合与路径集合之积为中每条路径与中每条路径之积的结果集。

3、算法描述

3.1 构建访问路径树

Web日志事务数据库如表1所示, 对该数据库的记录逐条处理, 生成访问路径树, 如图1所示。

Web访问路径树除root节点外, 其余各节点均代表页面及该页面出现的次数, 分别用page和num表示。由Web访问事务数据库构建Web访问路径树的算法如下:

算法1:构建Web访问路径树

Web访问路径树有个性质, 既各条从树根到叶子节点的路径上各点的num值是递减的, 这是因为合成Web访问路径树的时候前缀相同的记录共享这些前缀节点。

3.2 生成最长前缀频繁子路径树

研究图1可以发现, 若将所有的最长频繁子路径合成为一个树, 则该树是图1的子图, 并且该图是原图的上半部分。例如, 若|D|*N=3, 那么图1所示的Web访问路径树的所有最长频繁子路径合成的图如图2所示, 不妨将该图称谓最长前缀频繁子路径树。先序遍历Web访问路径树, 删除num值少于|D|*N的节点所表示的子树, 即可生成最长前缀频繁子路径树, 如算法2所示。

算法2:构建最长前缀频繁子路径树

输入:Web访问路径树TP

输出:最长频繁子路径树fre TP

3.3 产生频繁访问路径集

先考虑单支最长频繁前缀子路径产生频繁访问路径集的过程, 例如图3中的路径P2P1P3P1, 频繁访问路径集合frequent PS初始值为空, 当前访问节点为P2, frequent PS1和frequent PS2为中间结果, 初始值均为空, frequent PS1i=frequent PS2i-1∪frequent PS3i-1表示第i步的frequent PS1等于第i-1步的frequent PS2并上第i-1步的frequent PS3。当某步骤中frequent PS2为空时程序结束。产生频繁访问路径集如算法3所示。

算法3:产生频繁访问路径集

输入:最长前缀频繁子路径树fre TP

输出:频繁访问路径集frequent PS

Web访问信息挖掘篇3

给出了一种新的从Web日志中挖掘访问模式的算法, 与通常使用的基于关联规则挖掘的序列模式挖掘技术相比, 它的优点是挖掘过程中不会产生庞大数量的候选模式, 而是直接挖掘出所有的Web访问模式, 这种算法命名为CSB (conditional sequence base mining algo-rithm) 。

序列模式挖掘的相关概念:

项目集 (Itemset) :各种项目组成的集合。序列 (Sequence) :不同的项目集的有序排列, 序列s可以表示为S=其中, Si (1≤i≤n) 为项目集, 也称为序列S的元素。一个序列包含的所有项目的个数称为序列的长度。一个长度为k的序列记为k-序列。设α=, β=, 如果存在整数1≤j1

2 一种新的挖掘访问模式

本文提出了一种有效的序列模式挖掘改进算法:CSB (Conditional Sequence Base mining algorithm) 基于条件序列的挖掘算法。CSB算法描述主要思想及执行过程:通过预处理从Web存取序列数据库中得到初始化条件序列InitCSB, 然后为基于条件的序列构造频繁事件队列及建立头表, 对基于条件的序列进行单独序列测试, 构造基于条件的子序列, 递归的进行挖掘基于条件的子序列, 最终得到SAP (the set of sqquential access patterns) 序列存取模式集合。

2.1 预处理阶段

第一步是基于Web存取序列数据库构造初始化条件序列。初始化条件序列的定义:a.初始化条件序列命名为Init-CSB, 是原始数据库的所有web存取序列的集合。b.基于条件的序列由一个事件ei和前缀序列Sprefix表示为

CSB (Sc) , Sc=Sprefix+ei。

2.2 为条件序列构造事件队列

为四步:

2.2.1 从CSB (Sc) 中找到条件频繁事件

2.2.2 创建头表Head Table。

2.2.3 构造事件队列

2.2.4 删除非频繁事件

定义3:所有条件频繁事件的支持度不小于最小支持度。

为了在CSB (Sc) 中找到条件频繁事件, 需要标识那些支持度不小于最小支持度的事件。

算法:ConstructEQ

输入:

1:Min Sup--最小支持度。

2:CSB (Sc) --基于条件的序列Sc。

3:E={ei|1≤i≤n}--CSB (Sc) 序列中的所有存取事件。

输出:

1:CSB (Sc) 的头表Head Table和事件队列eventqueues。

方法:

1:创建CSB (Sc) 的一个空头表HT。

2:对每一个属于E的事件ei, 如果ei的支持度大于MinSup, 将ei插入到HT。

3:对属于CSB (Sc) 的每一个条件序列:

a:对每一个在HT中的ei, 将这个序列中包含第一个项目标签的ei插入到ei队列。

b:删除这个序列中所有项目中的不在HT的事件。

4:返回CSB (Sc) 的头表HT和事件队列event queues。

Header Table

事例:如果Init-CSB={abdac, eaebcac, babfae, afbacfc}, 然后获得在最小支持度Min Sup=75%, Init-CSB=4的条件下, 一个事件要成为条件频繁事件它的计数最少为3。因此, 条件频繁事件为 (a:4) , (b:4) , (C:3) 。每一个存取事件表示为 (事件:计数) 。构造的事件队列a, b, c为如上图显示的从头表开始的箭头线。每个序列中的非频繁事件d, e, f都被删除。对于任何基于条件序列的子事件, 它的头表和事件队列都能使用Construct EQ算法构造出来。

2.3 构造基于条件的子序列

定义:CSB (Sprefix+ei) 被称为基于CSB (Sprefix) 条件子序列, 如果ei不为空。在CSB (Sc) 头表中的每一个存取事件ei, 构造基于CSB (Sc) 的CSB (Sc+ei) 的Construct Sub CSB算法。

算法:Construct Sub CSB

输入:

1:CSB (Sc) —基于Sc的条件序列

2:ei—CSB (Sc) 的头表中的一个给定事件

输出:

1:CSB (Sc+ei) —基于CSB (Sc) 的条件子序列。

方法:

1:初始化CSB (Sc+ei) 为空。

2:对每一个在CSB (Sc) 中的ei队列的项目, 将它的后缀序列插入到CSB (Sc+ei) 。

3:返回CSB (Sc+ei) 。

事例:在Fig.2中显示的Init-CSB, 我们获得了a的所有后缀序列CSB (a) , 所有基于Init-CSB的子条件序列的其中一个。结果显示在Fig.2。CSB (a) 包括{bac, bcac, ba, bacc}。

Header Table

2.4 基于条件序列的单个序列测试

如果CSB (Sc) 中的所有队列能够连接到一个单独的序列, 那么CSB (Sc) 挖掘算法会停止。这个单独的序列被用做最终的序列模式的一部分。否则, 将为CSB (Sc) 构造Sub-CSBs并且递归的进行挖掘。测试CSB (Sc) 中的所有序列是否能够连接成一个单独的序列的Test CSB算法:

算法:Test CSB

输入:1:CSB (Sc) —基于条件的序列Sc

2:HT—CSB (Sc) 的头表

输出:

1:测试结果—成功或失败标志。

2:Single Seq—CSB (Sc) 的单独的队列。

方法:

1:初始化Single Seq为空。

2:如果CSB (Sc) 为空, 返回成功标志和Single Seq为空。

3:对属于CSB (Sc) 的长度从1到最大值的所有序列:

a:如果属于CSB (Sc) 的每一个序列的所有项目都是相同的事件e。如果这些项目的总数量大于最小支持度乘于初始化序列的数量, 按照统计的数量创建e的新项目并插入到Single Seq。

b:否则, 返回失败标志, Sing Seq为空。

4:返回成功标志和单独的队列。

事例:在CSB (a) ={bac, bcac, ba, bacc}中, 每一个序列的第一个项目都能连接到一个项目 (b:4) , 但第二个项目不行。连接步停止并返回失败标志。在CSB (aa) ={c, c, cc}, 这个序列能连接到一个单独的序列c:3, 返回成功标志。

2.5 完整的CSB挖掘算法

一个Web存取序列数据库挖掘到序列存取模式的完整的CSB-mine

算法:

算法:CSB-mine

输入:

1:Min Sup—最小支持度。

2:WASDB={si|1≤i≤n}web存取序列数据库, si是一个web存取序列。

3:E={ei|1≤i≤n}—WASDB中的所有存取事件。

输出:

1:SAP-序列存取模式集合the set of sqquential access patterns。

方法:

1:初始化SAP为空。

2:通过预处理构造Init-CSB (CSB (Sc) , Sc为空) 。

3:使用Construct EQ去构造CSB (Sc) 的事件队列。

4:使用Test CSB算法测试CSB (Sc) 的单独序列。

a:如果测试成功, 将规则的项目连接到频繁序列FS=Sc+Single Seq插入到SAP。

b:否则, 对在CSB (Sc) 头表中的每一个事件ej, 使用Construct Sub CSB算法去构造CSB (Sc+ej) 。使Sc=Sc+ej返回到步骤3进行递归的挖掘CSB (Sc) 。

5:返回SAP。

事例:支持度为Min Sup=75%的完整的序列存取模式在Table1。

3 结语

我们提出的CSB挖掘算法将会应用到校园网web推荐系统, 为用户提供个性化服务, 并且让用户存取相关联的页面更有效和快捷。web推荐系统的目标是确定哪个页面会是当前用户下一步最有可能访问的。

参考文献

[1]Jiawei Han, Micheline Kamber著范明孟小峰译数据挖掘:概念与技术[M].北京:机械工业出版社, 2007.

[2]张娥等.Web使用模式研究中的数据挖掘[J].计算机应用研究, 2001 (3) .

Web访问信息挖掘篇4

互联网是由若干个计算机网络互相连接而组成的网络, 目前最大的互联网是因特网, 它由众多的计算机网络互相连接组成、覆盖全球的开放性网络, 广泛应用于社会经济、教育、文化传播等等方面。我国互联网的产生虽然比较晚, 但是经过几十年的发展, 依托于中国国民经济和政府体制改革的成果, 已经显露出巨大的发展潜力[1]。中国已经成为国际互联网的一部分, 并且将会成为最大的互联网用户群体。

随着社会的发展, 人们对网络信息的需求和依赖日益增强, 计算机网络已经悄然进入寻常百姓的生活, 渗透了衣、食、住、行、娱等各个领域。网络技术的高度发展, 为我们进行现代化建设提供了技术保障。然而, 网络应用中却存在着许多不安全因素, 其主要表现在信息泄漏、信息篡改、非法使用网络资源、非法信息渗透、假冒信息等等。本文就人们日常的网络访问行为中, 可能会导致信息安全问题的用户行为进行分析研究, 寻求一种安全、文明的访问行为。

1 计算机网络的信息安全隐患

计算机网络信息安全主要面临两类威胁, 一类是计算机信息泄漏, 另一类是数据破坏。由于计算机系统脆弱的安全性, 只要用计算机来处理、存储和传输数据就会存在安全隐患。近年来, 随着计算机网络信息泄漏和信息破坏事件不断上长的趋势, 计算机信息安全问题已经从单一的技术问题, 演变成为突出的社会问题, 因此, 计算机网络信息系统的安全与防范显得越发重要。

计算机网络的三个最重要功能是数据通信、资源共享和分布处理, 在这些环节当中, 都存在信息安全问题。信息安全是指利用网络管理控制和技术措施, 防止网络本身及网上传输的信息数据被故意地或偶然地非授权泄漏、更改、破坏, 或使网上传输的信息被非法系统辨认、控制, 即确保网上传输的信息数据的完整性、保密性、可用性受到保护[1]。目前, 在网络信息安全方面, 主要存在以下的安全隐患:

1.1 网络中存在的不安全因素

用户可以通过网络自由发布和获取各类信息, 因此, 网络的威胁也来自方方面面。在这些威胁中最主要的是在计算机协议或证书中存在的不安全性因素[3], 如计算机协议主要包括:FTP、IP/TCP协议、SSL、NFS、SET等协议, 这些协议中如果存在漏洞网络入侵者就能够根据这些漏洞搜索用户名, 可以猜测到机器密码口令, 攻击计算机防火墙。

数字证书则是通过标志交易各方身份信息的一系列数据, 提供了一种验证各自身份的方式, 用户可以用它来识别对方的身份。当一些恶意、非法的伪造数字安全证书被安装后, 网络信息就被完全暴露。而且, 网络用户对计算机及网络知识了解并不多, 一旦页面上出现的诸多提示, 往往是一路“确定”下去。

1.2 数据库管理系统的不安全

数据库管理系统是基于分级管理的理念而建立, 本身就存在缺陷。因此, 由于数据库的不安全因素的存在就会将用户上网浏览的痕迹泄漏, 用户在网上存储和浏览的信息, 通过这些用户的账号, 密码都会被泄漏, 这样就会大大威胁到用户的财产隐私安全。

1.3 计算机操作系统存在的不安全因素

计算机的整个支撑软件是它的操作系统, 电脑中的所有程序运行都靠支撑软件为其提供环境。一旦网络入侵者控制了操作系统, 那么用户口令就会被泄露, 用户在各个程序中残留的信息就会被入侵者截取。

2 获取网络用户信息的方式分析

智慧城市概念的提出, 伴随着网络帝国的崛起、移动技术的融合发展, 知识社会环境下的智慧城市是继数字城市之后信息化城市发展的高级形态。从内容上看, 信息化过程可分为信息的生产、应用和保障三大方面。信息的获取方式多种多样, 涉及到网络用户信息的方式有如下几种类型:

(1) 网络及系统漏洞:在传统安全防御技术中, 系统的后门因其隐蔽性而被人们所忽视, 作为网络协议和网络服务实现的载体, 网络操作系统本身负有不可推卸的责任, 在程序运行过程中存在的缺陷和漏洞在所难免。由于防火墙对这类入侵的拦截力度不足, 导致这类入侵行为可以堂而皇之经过防火墙而很难被察觉。

Cookie这种网络小甜饼是一些会自动运行的小程序。网站设计师使用它们来为你提供方便而高效的服务[2]。但同时通过使用这些小程序, 商业公司和网络入侵者能够轻易获得你机器上的信息。Java Java作为一种技术, 一直备受争议, 现实中有无数利用Java的漏洞成功入侵案例。

(2) 网络恶意攻击:通俗来说就是网络黑客攻击和网络病毒, 这两类问题是目前公认的网络安全公敌。随着计算机文化在社会各个阶层的渗透, 使得这类攻击变得越来越容易, 一旦发现有关目标机器的详细资料, 利用程序工具, 对目标机器的文件资料、配置进行阅读、拷贝、修改等等[4]。网络病毒传播利用用户访问自己的网站或下载文件资料的同时传播病毒, 以达到窃取信息的目的。

(3) 社交软件:有超过95%的网民正在使用的各类工具软件, 它的及时、便捷给大家带来方便的同时, 也给信息的泄漏带来可乘之机。如“微信三点定位”引发的热议, 折射出了公众对隐私暴露的不安。个人信息与隐私界定标准的模糊让人头疼, 用户亦因此不自觉地泄露个人信息。

(4) 用户习惯:当使用者在使用某网站的某些认证时, 每当有窗口弹出显示认证和授权时, 绝大多数人会毫不犹豫地按下“Yes”。这就好比你购买商品时, 售货员问:“把你钱包给我, 请相信我会取出合适数量的钱替您付款, 您说好吗?”你一定会斩钉截铁地回答:“No”这两种情况本质上完全一样。

3 网络访问行为调查分析

那些非法窃取在线信息和通讯的黑客入侵者以及试图保护信息安全的人们已经陷入一场军备竞赛。每年都会发生各种入侵攻击, 日益进化的网络技术导致安全行业努力利用现有工具抵抗攻击, 同时收集有关新威胁的情报[3]。用户也是这一问题的一部分, 他们粗心或者恶意的网络行为让入侵者有机可乘, 或者直接导致网络泄密。

通过对不同年龄段人群进行网络访问的行为调查, 共发放500份调查问卷, 内容涉及网络访问需求、访问类型、访问行为方式、具体问题的处理方式和一些网络安全基本知识, 回收到有效的问卷486份, 对问卷进行统计分析后, 得到了以下的网络访问行为的分析结果:

从不同群体对网络的需要比例来看 (见图1) , 网络速度是第一位的需求, 安全性要求摆在末位, 显示受访者的网络安全意识淡薄, 甚至把网络速度作为衡量网络使用效果、计算机质量好坏的判断依据。

针对不同受访群体的网络访问类型 (见图2) , 从统计结果来看, 社交软件是普遍使用较多的应用。据DCCI互联网数据中心联合360手机安全中心发布的《2015年Android手机隐私安全报告》显示, 要求读取设备信息以91%的比例高居首位, 占比76.8%的读取位置信息位居第二。无论是PC端还是手机移动终端, 使用相关软件时, 都应该进行相应的安全设置, 以保护个人信息与隐私的安全。

电子邮件在中青年人群应用较多, 需要注意的是当电子邮件中有附件时, 应使用下载附件的邮件阅读方式, 而非直接打开进行在线阅读的方式, 这样可以有效杜绝恶意软件的传播与在线运行行为。

根据不同人群对计算机及网络安全的关注情况来看 (见图3) , 老年群体的计算机及网络安全状态令人担心, 在这些措施当中, 依赖第三方安全管理软件进行计算机与网络的安全管理比重较大, 显示了网民对计算机与网络知识薄弱, 这样就存在着如何选择合适的第三方安全管理软件的问题。

更令人担忧的是, 网民普遍存在对计算机及网络相应的安全设置不明白、不清楚的现象, 没有设置好的计算机与网络软硬件环境, 这就意味着信息安全的第一道防线不攻自破, 此时更谈不上网络访问行为中的信息安全了。

从不同群体网络访问时遇到的问题比例来看 (见图4) , 网络骚扰信息、虚假信息较多, 而且成为普遍的现象。这些问卷显示, 在网络上下载一些软件后, 经常会自动弹出一些页面, 当用户不经意点击链接后, 可能跳转到欺骗网站、虚假页面等网络陷阱中去, 进而导致信息安全得不到有效保护, 甚至产生人生安全、财产损失等严重后果。

4 结论

计算机网络信息安全面临的威胁中, 除了管理层面的数据破坏所带来的问题外, 另一类是用户层面的计算机信息泄漏[4]。导致计算机信息泄漏的途径有很多。首先, 必须有一个安全可靠的计算机及网络环境, 在人们日常的网络访问行为中, 要学会进行必要的计算机及网络的相关安全设置, 及时下载系统及软件补丁, 安装杀毒软件和防火墙等安全管理软件, 营造良好网络访问环境;其次, 是在进行网络访问时, 要有真假信息的甄别能力, 网络信息量庞大, 学会辨别是非是信息安全、文明上网的有效举措;最后, 对于用户而言, 更为重要的是良好网络访问习惯的养成, 在正规网站下载软件, 遇到网页提示要认真看清读懂, 不随便在论坛及社交网站发布个人敏感信息, 树立牢固的信息安全防范意识, 保护好个人隐私。

摘要：网络技术的迅猛发展, 应用领域的不断扩大, 导致信息安全问题日益突出。信息安全正逐渐成为一个综合性的多层面的问题。它是指防止信息财产被故意的或偶然的非授权泄露、更改、破坏或使信息被非法系统辨识、控制。本文就人们日常的网络访问行为中, 可能会导致信息安全问题的用户行为进行分析研究, 寻求一种安全、文明的访问行为。

关键词：网络访问,访问行为,信息安全

参考文献

[1]蒋蔚.网络行为管理系统研宄及设计[D].浙江工业大学, 2012.

[2]杨宗长, 徐继生, 孙洪.Web访问者网络行为跟踪[J].计算机安全, 2004 (8) .

[3]Ross Anderson.齐宁 (译) .信息安全工程[M].北京:清华大学出版社, 2012.

Web访问信息挖掘篇5

近年,Web服务因其平台独立、松耦合等特性,其相关应用和研究得到了广泛的关注。而标签是含有一定信息量的相关性较强的短语或者词组,是互联网内容组织的一种方式,现在已被广泛的应用于Web服务的标记中。标签的简短性、强关联性使得它可以用作特征词,用于描述Web服务,以帮助人们快速准确的理解该Web服务; 也可以用于服务的分类和聚类,从而提高同类服务的发现[1,2],或是应用到如推荐系统中[3];同时可以用作参数添加到搜索引擎的排名算法中去,从而帮助提升搜索引擎排名性能[4,5]等。

现在已经存在一些系统可以自动的为Web服务提取标签,但是几乎所有的方法都主要基于WSDL文档[2,3,5,6]。WSDL文档虽然是描述Web服务最标准的资料,但是除去WSDL文档中type、message等固定类型包含信息之外,其他信息的数量和长度却很有限。WSDL文档中的描述信息一般以自然语言形式出现,能有效的说明和解释Web服务,但是WSDL中此类信息的平均长度较短[7]。WSDL文档中描述信息短和少,其他类型信息的固定性和有限性,使得当人们使用它作为信息源来进行Web服务标签挖掘时,方法和有效性都受到了一定程度的限制。Lijie Wang等人曾经利用互联网上的资源为Web服务扩展描述信息,但是扩展的描述信息只用于描述信息的增加[7]。

在本文中,设计实现了一个支持多信息源的Web服务标签挖掘系统,该系统利用搜索引擎得到服务相关的网页,结合WSDL和服务相关网页经过标签挖掘模块的挖掘,得到了最终的标签并将其显示在我们的网站( websuite. info) 上。

2 系统的设计与实现

本文中设计实现的Web服务标签挖掘系统的结构如图1所示。本系统从总体上分为三个层次,分别是界面展示模块、标签挖掘模块和信息获取模块。

信息获取模块主要是完成为本文中的支持多信息源的Web服务标签挖掘系统提供信息源,本文将与服务相关的网页作为标签挖掘的扩展信息源,信息获取部分是实现整个服务标签挖掘系统的基础,同时为标签挖掘模块提供数据; 标签挖掘模块是整个标签挖掘系统的核心,使用信息收集模块获取的WSDL文档和服务相关的网页,分别对这两种信息源进行特征提取、生成备选文本段等操作,再经过标签提取和分类整合等步骤,得到了最终的标签; 界面展示模块是成果显示部分,完成了将本标签挖掘系统得到的标签组合集成到服务搜索引擎中的功能,同时补充了诸如标签添加与删除、利用标签过滤搜索结果等功能。

2. 1 信息收集模块

在本文设计实现的Web服务标签挖掘系统中,信息收集分为两部分。第一部分是收集服务的WSDL文档,第二部分是从互联网上获取与目标Web服务相关的网页。

( 1) 收集服务的WSDL文档。在与项目相关的数据库中已经存储了WSDL文档,因为它被作为Web服务信息的一部分显示到网站( websuite. info) 上,所以项目组利用爬虫从各大服务搜索引擎和服务注册网站中爬取到该文档并存储到数据库中。

( 2) 服务相关网页收集。Web服务相关的网页通常包含该Web服务的访问地址,即该服务对应的WSDL文档中的URL或者ENDPOINT的URL。在本文中,以WSDL文档中的URL是否出现在网页中作为判定该网页与目标Web服务相关与否的依据。通过搜索引擎的搜索得到相关的网页。

2. 2 标签挖掘模块

从图1的支持多信息源的Web服务标签挖掘系统的结构图可知,标签挖掘模块主要分为两大部分: 第一部分是信息预处理,第二部分是标签生成。

2. 2. 1 信息预处理

信息预处理部分将完成对在信息收集部分得到的WSDL文档和相关网页的处理,以生成备选的可用于进行Web服务标签挖掘的文本。信息预处理主要分为三部分: 第一部分是从WSDL文档中抽取服务特征;第二部分是对收集到的网页进行过滤和提取有用信息; 第三部分是利用之前两部分得到的信息,生成标签挖掘的备选的文本段。

2. 2. 1. 1 WSDL 文档特征抽取

WSDL中的元素种类较多,通常包含如type、service、documentation、operation等种类的元素,如图2所示。在WSLD文档中,type元素定义了数据的简单和复杂类型,message元素是对输入和输出操作的简短介绍,operation元素即该Web服务要完成的功能,service name可以有效体现该服务的功能特性,里面的documentation( 即文本描述信息) 可以帮助人们快速理解和掌握该服务的应用规则等。

为了更全面准确的体现Web服务特征,本文中的Web服务标签挖掘方法将从service name( 服务名称) 、type( 类型) 、message( 消息) 、operation( 操作) 和documentation ( 文本描述信息) 5个部分进行内容抽取,该操作借助WSDL解析工具 - WSDL4J[8],即Web Service Description Language for Java Toolkit,是一个专门用来解析WSDL文件的JAVA接口。利用WSDL4J逐个对message等五个域进行解析,从而得到了这五个域所包含的内容。

对从WSDL文档中抽取出的内容进行一些基本的词法和语言处理,其过程如图3所示。

基本的词法和语言处理过程为按照一定的切分标准对WSDL的内容进行切分,再经过去停用词、提取词干、计算权重值等通用的文本处理办法,得到了从WSDL中提取出的特征项的文本资料。

在本篇文章中,采用TF - IDF作为计算单词权重值的方法。即

公式( 1) 中,tfk表示关键词k在文档中出现的频率,即:

公式( 2) 中,timesk和Nwords分别代表了关键词k在当前文档中出现的次数及该文档中单词总数。

此外,idfk为关键词k的倒文档频率( Inverse Document Frequency) ,计算公式为

在公式( 3) 中,Ndocuments表示数据集中文档的总数,Ncontain表示包含关键词k的文档的数量。

图 3 基本词法和语言处理过程

2. 2. 1. 2 网页信息处理

对网页信息的处理主要分成两部分: 网页过滤和网页文本抽取。网络过滤部分的主要作用是过滤掉重复的网页,然后进行内容的提取。在提取部分主要分为两块,一块是抽取指定标签下的内容,另外一块是将得到的内容按照一定的标准进行去重和分类。

网页过滤部分,我们从网页的内容和URL来判断两个网页是否重复,主要判断标准是部分相同或者完全相同。过滤收集到的网页,得到无重复的相关网页集合。

网页内容倾向于描述、解释性的自然语言。而网页中的这种描述性、解释性的自然语言一般以段落等形式出现( 在其他标签中出现的信息长度有限,价值不高) ,本文中,认为html中的段落一般为3大类标签:div、table( 含tr、td) 和p。

DOM( document object model DOM,文档对象模型) ,定义了如何获取、修改、添加或删除HTML元素。针对html中标签相互包含的结构,我们利用html Parser将网页解析成对应的DOM树并抽取目标标签下的文本内容( 这些内容便是我们需要的提取的文本内容) 。

抽取流程为首先,利用html Parser将HTML解析成DOM树,接着从树的根节点开始遍历,如果节点包含文本的长度少于三个单词则删除,如果该节点代表的标签不是目标标签中的任何一种,则跳过此处节点,否则抽取节点下的所有文本内容并保存起来,遍历下一个节点直至整棵树遍历完毕。抽取流程见图4所示。

在图4中,目标标签是指在本文中要抽取内容的目标标签( div、table和p) ; PTS是Page Text Segment( 网页文本段) 的缩写,即从服务相关网页中抽取出的网页文本内容。

内容抽取后,需要对得到的内容进行分类去重等操作。一般认为,如果一个文本段距离目标URL( 上文中提到的该Web服务的访问地址,即该服务对应的WSDL文档中的URL或者ENDPOINT的URL,本文中以该URL作为搜索服务相关网页的关键词) 越近,则这一段与目标服务的相关性越大[9]。具体的,如果一个文本段落含有目标URL,则为它赋予较高的权重,反之亦然。分类是指按照其是否包含目标URL,将其分配到不同的集合中去,而去重是指对于内容完全相同或者部分相同的PTS进行的处理。分类和去重过程如图5所示。

在图5 PTS的分类和去重流程图中,集合C是指包含目标URL的PTS集合,集合N代表着不包含目标URL的PTS集合。

2. 2. 1. 3 备选文本段生成

经过了前面的WSDL文档特征抽取和网页信息处理两部分,得到了从WSDL中抽取的Web服务特征信息和从相关网页中得到的文本PTS。本部分主要完成功能: 1网页PTS的处理; 2相似度计算; 3挑出候选标签挖掘文本。整个处理流程如图6所示。

( 1) 网页PTS的处理。由于网页和WSDL不同的结构特点,我们利用不同的方法从PTS中抽取特征,但是前部的处理步骤( 例如切词、去停用词、提取词干等方法相同) 跳过。权重值计算如公式( 4) ,公式( 5) 。

同上,为PTS中的每个单词计算权重,其中Weight*k代表加上了集合Weightset元素后得到的新的权重值。从属于包含URL的PTS的集合权重值较高。

( 2) 相似度计算。向量空间模型在自然语言处理[10]、信息检索和过滤[11]等领域有着广泛的应用。因为它忽略了每个文本文档中特征项出现的先后顺序,而且利用了几乎全部的文本内容,使得计算更加全面,所以本文采用它计算网页文本PTS和Web服务特征信息之间的相似度。

将文档集合中的所有文档和用户查询表示成n维空间的向量形式,将对文本内容的处理简化为向量空间中的向量运算。具体做法: 1表示: 将每个文本文档表示为一个n维的向量,每一维对应一个特征项( 在本文中即一个词汇) ,每一个特征项用ti表示,d = ( t1,t2,t3,…,tm) ; 2对于含有m个特征项的文本d = ( t1,t2,t3,…,tm) ,用权值wk表示特征项tk在文本d中的重要程度,简记为d = ( w1,w2,w3,…,wm) ; 3特征项对应权值的计算采用公式TF - IDF方法,即公式( 1) 和公式( 2) 。4相似度计算: 将每个文本文档表示为以特征项的权值为分量的向量,d = ( w1,w2,w3,…,wm) ,通过计算两个文本文档向量之间夹角的余弦来计算它们之间的相似度,见公式( 6) 。

通过计算从WSDL中抽取出来的特征值与从PTS中得到的单词的相似度,得到了各个PTS对应的值,按照超过50% 的相似度的标准留下的PTS则可以作为标签挖掘的备选文本。

2. 2. 2 标签生成模块

本文将从WSDL中提取的特征项,以及从备选文本段中得到的特征项作为服务的标签。标签生成的流程图如图7所示。

利用两个信息源得到的特征项作为标签,统计每个服务统计出现次数最高的K个值( 本文基于现实网站的呈现,选择了5个) 对应的特征项,作为部分信息和对应服务绑定显示,统计所有服务出现次数最多的K个值( 本文基于显示网站的呈现,选择了28个) 对应的特征项,在网站的主页上显示成标签云的形式。至此整个标签挖掘的过程完成。

2. 3 界面展示模块

基于语义化业务生成环境( 863计划项目) 的子模块,本系统针对项目中近2万个服务进行扩展了信息源的标签挖掘,得到的结果同时发布到了网站websuite. info上。

2. 3. 1 标签呈现

单个服务带有从其对应的WSDL文档中抽取的以及从网页中得到的标签,显示的效果如图8所示。

2. 3. 2 标签云

标签云是由所有服务的标签数量按照从高到低排列得到的。效果图如图9所示,标签字体的大小表示了该标签在所有服务中出现次数的多少,越大的则次数越多,反之亦然。

另外,系统还利用标签实现了诸如过滤结果的功能等,在这里不一一显示了。

3 结束语

本文针对目前Web服务标签挖掘技术普遍仅依赖WSDL文档和现有标签,或是利用了网页信息但是只做了初步处理的局限性,提出一种利用互联网的网页进行服务标签提取的方法。该方法通过对WSDL中URL进行搜索和反向链接的搜索,获得与目标Web服务相关网页; 再对该网页内容进行了较为充分的利用和处理: 利用DOM结构提取网页内容,包含目标URL的文本段,利用VSM计算与目标Web服务相似度,从而确定可供标签挖掘的候选文本段。通过网站呈现,可以看出我们的方法可以有效的为Web服务挖掘出更丰富、质量更高的标签。

Web访问信息挖掘篇6

1.1 Web数据挖掘技术的基本含义

Web数据挖掘技术是利用自己的基本职能挖掘网络上面的相关资源以及为企业找到企业感兴趣的、有用的信息资料。Web数据挖掘技术涉及到计算机技术的各个领域,可以采用多种数据挖掘方式找到对企业有用处的信息,一般在Web数据挖掘技术上面有两种类型,第一种类型是建立在统计模型的基础上来实现的,像是决策树、分类等。第二种类型是建立在人工智能模型的基础上实现的,主要包括神经网络、自然法则计算方法等。

1.2 Web数据挖掘技术的主要类型

(1)Web内容挖掘

企业可以通过使用Web数据挖掘技术在网络中找到自己想要的信息,对于后台交易进行实时的监控,防止有不法分子对交易内容的泄露,还可以通过使用Web数据挖掘技术浏览网络中的用户浏览记录,对于企业的网络安全系统进行审核与检测,防止企业内部网络安全系统出现漏洞企业还不自知的情况,加强了企业对于网络信息安全的防范。

(2)Web使用记录挖掘

Web使用记录挖掘技术是对网络数据的浏览记录进行挖掘,主要用于对于企业自身内部网络安全信息的监督与管理,还可以获取企业在同行业的竞争对手的信息,所谓“知己知彼,方能百战不殆”,企业可以通过Web使用记录挖掘技术进行一系列复杂的操作步骤,从最近的浏览记录中分析出是谁在关注企业,还可以了解对方的企业,从而对同行业的竞争对手的基本信息有一个详细的了解。但是每一个企业自身都有一个防止这种现象的发生的防火墙,因此企业也不能够太深入的去了解另一个企业的内部消息,像是客户资料、合同内容之类的,但是还是可以了解到一些企业内部没有表现出来的基本信息的,这样企业就可以指定相对应的战略手段,为今后的竞争打下良好的基础。当然,对方企业也可以通过Web数据挖掘技术进行反竞争情报活动,防止竞争对手的打探。但是,在做这些事情的前提都是要遵守国家对于网络技术有关的法律、法规,不能一意孤行地去破坏对方企业的防火墙系统,窃取其他企业的商业机密,造成无法挽回的局面。

2 我国企业在网络信息安全存在的问题

2.1 我国缺少网络信息安全技术方面的人才

自从我国加入了世界贸易组织以来,我国各行各业都面临着非常大的压力。随着互联网时代的不断进步,我国要想在国际上站稳脚跟,能够灵活的应变来自四面八方的压力,就只能积极的发展我国的计算机信息技术。只有在计算机信息技术领域占据了先机,这场没有硝烟的战争我们就算赢了一半。但是,根据目前的情况来看,我国在计算机网络信息技术方面还与其他国家相差很远,严重缺少在计算机网络信息安全技术方面的人才,只能去不断的学习其他国家的先进的计算机网络信息技术,在这个领域处处受制于人,也就相当于将我国企业的信息资料暴露在了其他国家的面前。因此,说21世纪的竞争是人才与人才,技术与技术之间的竞争一点也不为过[2]。

2.2 网络产品自身存在的安全技术漏洞

近几年来,我国大部分电子产品市场已经被其他国家的先进电子技术产品垄断,像是苹果、微软、英特尔等高级电子技术产品在我国已经屡见不鲜,苹果手机占据了我国手机通讯市场的半壁江山,微软、英特尔更是对我国的电子产品的中央处理器以及个人操作系统的市场造成了很大影响,以上的种种现象都严重的制约了我国的经济发展。当然,我国也不是没有想过要将电子市场夺回来,重新占据电子市场的龙头老大的位置。但是,根据我国目前的网络信息安全技术来看,距离预期的计算还有一定程度的距离,国民之所以会使用国外的电子信息安全技术并不是因为崇洋媚外的情结一类的,而是因为他们的网络技术在安全性能上面真的十分的优秀,能为我们的个人信息的安全提供了保障,不能说我国的网络信息安全技术不好,只是还没有达到别人的那个标准而已。由此可见,通过我国网络产品自身存在的安全技术漏洞就可以看出我国在网络安全技术上面的不足[3]。

3 网络信息安全防范与Web数据挖掘技术的整合

近几年来,随着网络犯罪的犯罪率的逐渐加大,给我国政府带来了危机,我国也开始重视起对于网络信息安全的防范,积极的将网络信息安全的防范与Web数据挖掘技术整合在一起,从而提高网络信息资料的安全性。Web数据挖掘技术可以通过四种主要的方式来提升我国网络信息的安全性能。首先,是网络信息安全与Web数据挖掘技术的关联原则,所有存在于网络中的数据之间都有一定程度的关联,而Web数据挖掘技术就是要将这种关联找出来,并交给企业研究分析,将其充分利用利用起来,找到威胁到自身经济发展的网络信息,像是其他企业的浏览记录,以及无关人员的非法入侵等现象,都可以通过Web数据挖掘技术找出来,找到问题之后,企业就可以根据企业自身的实际情况进行分析与改革,有效的规避风险、化解危机[5]。

其次,是Web数据挖掘技术对于网络信息的分类分析。首先要将所有的信息整合到一起之后分出几个类别,将不同的信息投放到不同的类别中,进行信息的整理,为以后的检索提供了便利,这项技术主要是依靠人工智能来完成的,毕竟资料的收集与整理还是一个非常精细的工作。第三,就是Web数据挖掘技术对于网络信息的聚类分析,将所有的数据划分成不同的小组,但是每一组别中的信息至少要有一点是相似的,在相似的同时还要有能够与其他信息区分开来的部分,从整体的角度对局部进行逐一的分析[6]。最后就是Web数据挖掘技术对于网络信息安全的孤立点分析,就是在所有的资料中将与其他资料有明显不同的资料整合出来,将这些资料在进行逐一的分析,找到最有利用价值的信息。

4 结论

综上分析可知,由于我国在网络信息安全技术上面还有很多不足,更要加强与Web数据挖掘技术之间的联系,将Web数据挖掘技术充分的融合在网络信息安全的防范中,将Web数据挖掘技术当企业网络信息安全中的一个不容忽视的环节,通过网络信息安全防范与Web数据挖掘技术的整合,从而提高我国企业的网络信息安全,为我企业的稳定发展提供了保障。

参考文献

[1]王岩.基于网络信息安全防范与Web数据挖掘技术整合的研究[J].信息安全与技术,2014.

[2]李楠.基于Web数据挖掘的网络信息安全防范分析[J].九江学院学报(自然科学版),2013.

[3]贾哲.分布式环境中信息挖掘与隐私保护相关技术研究[D].北京邮电大学,2012.

[4]周丹晨.面向网络化制造的资源共享服务平台构建原理与实施技术研究[D].四川大学,2004.

[5]王在富.基于WEB数据挖掘技术的书店电子商务系统的设计与实现[D].电子科技大学,2008.

Web访问信息挖掘篇7

网络现在在我国已经基本上得到了普及,其在人们的正常生活当中扮演着越来越重要的角色,同时在企业的日常生产经营活动中也具有不可或缺的作用。网络信息的飞速发展有力的催生了电子商务这一新的商务模式,而且不管是在国内还是在国外电子商务经济都取得了十分快速的发展,在这样的大背景下,网络信息的安全问题也日益凸显出来。

2 在网络防范信息安全中应用 Web 数据挖掘技术的意义

通过对网络当中比较模糊或者不齐全的一部分数据进行分析,从而能够将其中一些相对有价值的知识和信息挖掘出来,而且在这些信息和知识当中存在着一些人们事先不知道的内容,这就是所谓的数据挖掘。

基于网络信息安全防范与Web数据挖掘技术整合模型:其性质为一种综合分析工具,主要目的就是针对网络信息技术进行安全防范, 其主要包括几个方面的内容。

(1)过滤器。过滤器的作用就是对一些数据库中的相关数据进行抽取,在对这些数据进行分析比较的时候采用的是二义性的方式,这样信息的一致性就能够得到保证。

(2)挖掘综合器。挖掘综合器属于挖掘驱动的引擎装置,其目的就是以挖掘的要求作为根据,在算法库当中挖掘系统能够对恰当的方式进行选择从而实施挖掘。

(3) 作为Web数据挖掘技术关键部分的方法选择专家系统及知识库。数据挖掘系统在对挖掘算法进行选择的时候能够以客户的具体要求作为执行依据,最终将最为有效的挖掘算法选择出来。现在技术发展的越来越为成熟, 因此Web也需要促进自身内容以及规则的持续更新,最终保证系统智能型的提升。如图1所示。

3 基于网络信息安全防范与 Web 数据挖掘技术的实施

3.1 Web 数据挖掘的资源

主要有几个方面的内容存在于Web数据挖掘的资源当中。

Web服务器数据。互联网提供的最为丰富的服务就是Web服务,一旦用户针对一个页面进行访问,相应的服务器数据就会在Web服务器当中产生, 通常可以将这些数据划分为查询数据以及日志文件等两种。对Web数据挖掘技术进行使用的重要性数据来源就是服务器日志数据, 而且还可以将入侵线索从日志当中找出来,并且有针对性的采取相应的措施予以解决。

用户信息登记。在屏幕上客户通过对Web页面的运用对需要向服务器进行提交的信息进行输入,这些需要提交的内容就是用户登记信息。用户登记信息在Web数据挖掘当中一定要与访问日志集成,从而促进数据挖掘精确度的进一步提升,不断的综合日志信息以及用户登记信息,可以对用户的行为进行更好的了解,尤其是在维护网络安全的方面。能够有针对性的采取相应的防范措施。

代理服务器数据。通常情况下,网站的服务器日志只会将其中用户访问某个网站的情况记录下来。而代理服务器日志则能够将用户访问所有网站的情况记录下来。从某种程度上来讲,代理服务器是具备缓存功能的中介服务器, 该功能能够促进网页运行速度的加快,并且使Web服务器的网络流量减少, 最后其还能够以代理日志的形式存储大量的用户访问信息。

业务往来数据。由于具备业务往来的关系,因此很多网站内部以及网站之间都存在着数量较多的数据。而Web数据挖掘技术当中能够对这些业务往来的数据进行分析。

3.2 Web 数据挖掘的方法

通过对Web数据挖掘的有效利用, 将非正常的数据挖掘出来,这在网络信息安全防范当中是非常重要的一项工作, 其不仅要能够明确什么是信息安全威胁行为,什么是可疑行为,什么是正常行为,同时还要不断的促进网络信息安全防范的可操作性、有效性、合理性以及针对性的提升。在基于网络信息安全防范与Web数据挖掘技术的模型当中, 主要包括几种Web数据挖掘的方法。

关联规则。对存在于数据库中数据项之间的关系的相关描述就是所谓的关联规则。如果安全事件已经产生较多的积累数量,就能够将事件之间的关联特点充分的挖掘出来。比如可以利用数据挖掘将非正常访问以及正常访问网络的状况得出来,从而能够针对其中的非正常状况及时的采取相应的处理措施加以解决。

分类分析。在预先设定好的几个类当中将所有的个体分门别类分别归入,这就是所谓的分类。分类的主要作用就是通过对神经网络方法、机器学习方法以及统计方法的充分利用将分类模型构建出来,随后就可以在给定类别当中的特定类项当中对数据库中的数据进行映射,并且利用这个分类规则来分类其余数据库当中的各种记录。

聚类分析。采用划分成不同小组的形式针对一个数据集进行处理,不仅要保证在一个组别当中的点具有相类似的特征, 同时还要使其能够与其他的点有所区别。采用聚类分析的方式可以对稀疏以及密集的区域进行识别,从而将全局的分布模式寻找出来。

孤立点分析。孤立点分析又叫异类分析。与其他数据之间具有明显的偏离,也就是不会使一般行为或者模式得到满足的数据,被称作孤立点。异类分析包括两个方面的内容,也就是发现异类以及分析异类,人们往往可以在发现异类的时候可以找出若干真实的然而却无法预料的知识;而在分析异类的过程中人们又可以找到一些具有很大价值的数据。相关的研究表明,在网络信息安全管理方面挖掘孤立点具有较大的应用前景。

3.3 网络信息安全防范模型的应用

检测入侵。基于网络信息安全防范与Web数据挖掘技术的模型能够过滤、分析以及采集网络用户的行为信息,并且可以将警报及时准确的提供给系统的管理人员,这就是所谓的入侵检测。安全专家可以将一系列特征模式预先定义出来,入侵检测系统能够通过这种预先定义的模式对入侵进行识别。但是采用这种方法存在一定的不足,那就是如果没有及时的更新模式库,就很容易出现漏报警以及误报警的情况。

病毒预警。现在因特网在全球都已经得到了普及,然而计算机病毒随着宽带网的出现也在不断的发展着,旧有的杀毒技术在识别以及查杀病毒的时候只能以已经病毒的特征码作为根据,因此具有较大的滞后性。而Web数据挖掘技术则可以进行病毒预警 ,其能够对网络当中的异常连接行为进行实时监测,从而能够将病毒的踪迹找到,这样网络管理人员可以在大规模爆发病毒之前及时的采取措施,防止出现更大的损失。

安全评估。在信息安全等级保护管理工作当中信息安全风险评估具有不可或缺的作用,但是在实际的操作过程中,风险评价信息具有模糊性、分散性以及不确定性的困难。采用Web数据挖掘技术可以将安全风险评价信息充分的挖掘出来,然后进行分类,保证安全信息评估能够顺利的进行。

4 结束语

【Web访问信息挖掘】推荐阅读：

45-基于SSID的Web界面访问控制典型配置举例06-10

网站访问慢排查方法及解决方案WEB服务器07-20

Web服务器(Nginx)控制用户访问频率的解决方案07-11

远程访问05-18

访问机制05-20

访问日志05-27

角色访问05-27

配置访问09-17

异步数据访问05-20