Web医疗咨询数据

2024-05-28

Web医疗咨询数据(共4篇)

Web医疗咨询数据 篇1

摘要:论文介绍了现有的医疗保险系统数据模型的特点,构建了Web Services的医疗保险系统数据模型,解决了基于现有分布式体系结构的医疗保险系统难以实现信息共享和功能共享问题。

关键词:Web服务,医疗保险

0 引言

随着我国经济体制改革的不断深入,在城镇实行职工医疗保险已成为国家重点推进的改革之一。为了保障医疗保险改革的顺利实施,除了定政策、抓管理外,建立安全可靠、高效实用的医疗保险管理信息系统也是一项重要的工作。

当前医疗保险信息化建设存在的主要问题就是每个系统是独立的,如医疗保险中心管理信息系统和定点医疗机构管理信息系统之间是独立的,每个系统都有自己的一套数据库和数据格式,这就造成了系统间的数据无法共享,出现数据孤岛。而在Internet时代背景下产生的Web Services技术可直接将各种组织、应用程序、服务及设备连接起来,实现在不同平台以一致的方式交换和描述数据,为实现信息共享、互操作和集成提供了新的解决方案。

1 Web Services技术概述

1.1 Web Services概述

Web Services是一种用于应用程序集成的新技术,是一个建立互操作分布式应用程序的新平台。Web服务是一种自包含、自解释、模块化的应用,能够被发布、定位,并且从Web上的任何位置进行调用。Web服务可以执行从简单的请求到错综复杂的商业处理的任何功能。理论上讲,一旦对Web服务进行了部署,其它Web服务应用程序就可以发现并调用它部署的服务[1]。

图1给出了一个典型的Web Services架构框图。

1.2 Web Services的体系结构

Web Services的体系结构是基于三个角色之间的相互作用,Web Services是独立的、模块化的应用,能够通过因特网来描述、发布、定位以及调用。Web Services的体系结构是基于三个角色之间的相互作用:服务提供者(Services Provider)、服务请求者(Services Requestor)、服务注册处(Services Registry)。角色间主要有三个操作:发布(Publish)、查找(Find)、绑定(Bind)[3]。

图2中,Web Services提供者提供服务,Web Services请求者使用服务,它利用SOAP消息向Web Services提供者发送请求以获得服务;Web Services代理作为Web Services请求者和提供者的联系纽带,充当管理者的角色,一般是UDDI(universal description,discovery and integration,统一描述、发现和集成)[4]。

2 基于Web服务的医疗保险系统数据模型

2.1 现有的医疗保险系统数据模型

现有的医疗保险系统数据模型存在Client/Server和Browser/Server两种模式。在Client/Server模式中,医疗保险系统不具备网络化管理功能,系统主要实现的是提供医疗保险管理机构和医疗保险服务机构人员的日常业务、信息查询和统计,系统虽然也实现了提供参保人员进行相关信息的查询功能,但从提供的查询手段上讲,却非常单一和不方便,参保人员要亲自到医疗保险中心进行查询,这样既不方便参保人员,也增加了医疗保险管理机构工作人员的负担。

无论是C/S模式,还是B/S模式,这些分布式应用系统为紧耦合的应用系统,紧耦合系统要求大量自定义系统开销来进行通信,并要求系统之间有更多的了解。

现有的医疗保险系统数据模型如图3所示。从图可以看出,医疗保险中心和定点医疗机构分别使用一台服务器作为前置机。医疗保险中心的前置机接收定点医疗机构的前置机上传的参保人员的医疗费用数据,定点医疗机构通过前置机从医疗保险中心的前置机下载政策参数信息和参保人员的基本信息。系统之间数据传输速度慢,难以实现信息共享和功能共享。

从现有的医疗保险系统的数据模型来看,主要实现的是定点医疗机构、定点零售药店与医疗保险中心之间的信息传输,但是系统之间难以实现信息共享和功能共享,各个定点医疗机构要自己提供按照医疗保险政策制定的医疗保险费用结算系统。为了能够让定点医疗机构、定点零售药店与医疗保险中心协同一致地工作,更好地理解医疗保险中心的内容、功能以及属性,在现有医疗保险系统体系结构的基础上,提出并设计了一个基于Web Services的医疗保险系统数据模型。医疗保险管理信息系统采用基于Web服务的分布式体系结构,具有松耦合结构特点,系统中所有的组件都以服务的形式的出现。这些服务封装了行为,而将消息通信接口发布到网上,以便与其它服务协同工作。面向服务的体系结构使得应用程序可以根据需要,发现并集成网络可用的服务。

2.2 基于Web服务的医疗保险系统数据模型

在基于Web Services的医疗保险系统数据模型中,系统中所有的组件都以服务的形式出现,Web服务端(即医疗保险中心)将其提供的服务封装成一个个相对独立的Web服务,每个服务提供每类功能,这些服务封装了行为,而将消息通信接口发布到网上,以便与其它服务协同工作。而定点医疗机构通过绑定到HTTP的SOAP协议来访问医疗保险中心提供的服务。Web Services使用的XML语言可以用真正与平台无关的方式来描述任何数据,以跨系统交换数据,实现了松耦合应用程序。

医疗保险中心Web Server端是服务提供者,定义要生成和发布的Web服务的功能和流程,按照需要编写Web服务代码,然后生成接口文件(WSDL文件),把这些服务接口和自己相关的一些信息(都是XML的格式)通过SOAP注册到UDDI上,也就是注册到UDDI的注册库中。

在医疗保险中心Web Server中,利用Web服务的服务发布机制,可以将医疗保险系统中的各种对外接口通过服务(Service)的方式提供给定点医疗机构。

定点医疗机构是基于Web Services的医疗保险系统体系结构中的服务请求者。定点医疗机构就是通过UDDI查询服务地址再调用服务的个体,和服务提供者一样,是一个程序或者服务。

在基于Web Services的医疗保险管理系统的体系结构中,解决了医疗保险中心与定点医疗机构之间的异构平台、异构数据库之间的数据共享、功能共享问题。

定点医疗机构可以通过Internet访问医疗保险中心的Web服务器,便捷、准确地为医疗保险患者服务,及时地上传医疗数据。

Web Services技术解决了异构平台、异构系统之间的数据共享问题,定点医疗机构、药店或其它用户与医疗保险中心具有交互功能,可以共享医疗保险中心的数据,即使医疗保险中心使用了不同于他们的数据库。

3 结论

本文结合现有医疗保险系统存在的Client/Server与Browser/Server两种分布式数据模型难以实现信息共享和功能共享的问题,构建了基于Web Services的医疗保险系统数据模型。在该模型下,系统之间是松散耦合的,连接中的任何一方可更改执行机制,却不影响应用系统的正常运行。解决了基于现有分布式数据模型的医疗保险系统难以跨平台、跨数据库实现系统之间的信息共享和功能共享问题。系统之间能够实现信息共享、功能共享,通过对定点医疗机构的信息控制,通过严格的费用测算,达到管理控制定点医疗机构乱开药、乱收费的目的,为医疗保险制度的改革和医疗保险规划提供适用的信息和辅助决策手段,实现对医疗保险业务发展的分析、预测和决策管理的全面信息支持。

参考文献

[1]oseph Bustos,Karli Watson著.Beginning.NET Web Services using C#.清华大学出版社,2003.03.

[2]彭江平.Microsoft.Net的Web Services及其实现.应用技术,2002.04.

[3]柴晓路,梁宇奇.Web Services技术、架构和应用.电子工业出版社,2003.

[4]贾晓琳,闫焱,王立,覃征.企业级Web Service体系结构研究与部署.计算机应用,2003.06.

[5]李红星.基于Web Services技术的企业应用系统集成的研究.武汉理工大学硕士学位论文,2003.05.

Web数据挖掘综述 篇2

1 Web数据挖掘的概念

Web Mining (Web挖掘) 这个术语是由Etzioni于1996年首先提出来的。Web数据挖掘是数据挖掘技术在Web上的应用, 它利用数据挖掘技术从与WEB相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息, 涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域, 是一项综合技术。

2 Web数据挖掘的分类

作为WEB的对象, WEB数据包含了内容数据 (content data) 、结构数据 (structure data) 和日志数据 (usage data) 三种类型。因此, 根据WEB数据源类型的不同, Web挖掘可以分为:Web内容挖掘 (Web Content Mining) 、Web结构挖掘 (Web Structure Mining) 和Web日志挖掘 (Web Usage Mining) 。Web数据挖掘如图所示:

2.1 Web内容挖掘

是对Web页面数据 (包括文本、图像、音频、视频、多媒体和其他各种类型的数据) 的挖掘。Internet有各种类型的服务和数据源, 如:WWW、FTP、Telnet等, 现在有更多的内容如:政府信息服务、数字图书馆、电子商务数据及其他各种通过Web形式访问的数据库。

Web内容挖掘一般从两个角度进行研究:从用户的角度, 研究怎样提高信息质量和帮助用户过滤信息;从DB的角度, 研究怎样对Web上的数据进行集成、建模, 以支持对Web数据的复杂查询。

Web内容挖掘是从Web资源中发现信息或知识的过程。在创建个性化服务系统时, 人们通常应用Web内容挖掘对网页内容进行分析, 其中网页的自动分类技术在搜索引擎、数字化图书馆等领域得到了广泛的应用。

2.2 Web结构挖掘

Web结构挖掘的对象是Web本身的超连接, 包括页面内部的结构以及页面之间的结构。对于给定的Web文档集合, 运用引用分析方法找到同一网站内部以及不同网站之间的连接关系, 通过算法发现他们之间连接情况的有用信息。挖掘Web结构信息对于导航用户浏览行为、改进站点设计、评价页面的重要性等都非常重要。Web结构挖掘通常需要整个Web的全局数据, 因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。

2.3 Web日志挖掘 (Web usage Mining)

Web日志挖掘的对象是Web使用记录数据, 除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录, 因此Web使用记录的数据量是非常巨大的, 而且数据类型也相当丰富。通过挖掘相关的Web日志记录, 从中发现用户访问Web页面的模式;通过分析日志记录中的规律, 来识别用户的忠实度、喜好、满意度, 从中发现潜在用户, 增强站点的服务竞争力, 在电子商务领域有重要意义。

Web日志挖掘对源数据的处理方法可以分为两类, 一种是将Web使用记录数据转换并传递进传统的关系表里, 再使用数据挖掘算法进行常规挖掘;另一种是将Web使用记录数据直接预处理再进行挖掘。

Web日志挖掘技术通常可以应用到两个领域:当用来分析Web服务器的访问日志时, 可以利用挖掘得到的服务模型来设计适应性Web站点;当应用到单个用户时, 通过分析用户的访问历史来发现有用的用户访问模式。Web使用挖掘由于处理数据对象通常为用户的访问历史或服务器的访问日志, 无法得知数据对象代表的内容, 因此得到的结果一般比较粗糙, 但是由于该方法比较成熟而且实现起来也较内容挖掘简单, 在个性化系统中也得到了较广泛的应用。

3 Web数据挖掘的流程

Web挖掘的基本流程一般可以分成四个阶段:

3.1 数据采集

Web挖掘的数据源来自于Web页面上的信息、Web访问形式的数据库、Web页面内部的结构以及页面之间的结构信息以及Web服务器上的使用记录数据如服务器日志、用户会话信息、交易信息等。Web数据挖掘, 针对不同的采集对象, 需要应用不同的数据采集技术。

3.2 数据预处理

要保证Web挖掘结果的正确性的重要前提是对数据进行预处理。一般收集的数据都具有不一致性、冗余性、模糊性及不完整性, 需要对收集的数据进行必要的预处理, 清除“脏”数据, 准备正确、完整、干净的数据源, 通过挖掘算法, 获得真实有效的挖掘模式。数据预处理主要包括:

⑴数据清理:填充遗漏值, 平滑噪声数据, 识别离群点和删除噪声数据, 修正不一致数据;

⑵数据集成:将多个数据库或文件, 整合成语义完整的数据集, 监测和消除数值冲突, 消除重复和冗余的数据;

⑶数据转换:从数据中删除噪声, 给特定的属性构造新的属性;

⑷数据离散化:针对数值型数据, 讲一个连续的范围划分成多个区间。

3.3 模式挖掘

应用不同的Web挖掘算法或机器学习技术发现用户访问模式。常用的挖掘技术主要有以下几种:

⑴回归分析:主要用于了解自变量 (independent variable) 与因变量 (depemdent variable) 间的数量关系。主要目的:1) 了解自变量与因变量关系方向及强度。2) 以自变量所建立模型对因变量作预测。

⑵关联规则:分析发现数据库中不同变量或个体间之间的关系程度 (概率大小) , 用这些规则找出行为模型。关联规则中的两个重要参数是:支持度 (Support) 和可信度 (Confidence) 。Apriori算法, 利用循序渐进的方式, 找出数据库中项目的关系, 以形成规则, 是最具代表性的算法之一。

⑶聚类分析:是比较简单的一种分析方法, 统计学家通常应用聚类分析法来对数据做简化的工作及分类, 从而把相似的个体 (观测物) 归于一群。

⑷决策树分析:利用概率论的原理, 并且利用树形图作为分析工具 (用决策点代表决策问题, 用方案分枝代表可供选择的方案, 用概率分枝代表方案可能出现的各种结果) , 经过对各种方案在各种结果条件下损益值的计算比较, 为决策者提供决策依据。

⑸时间序列分析:从大量的时间数据序列中提取人们不知道的, 但是潜在有用、与时间相关的信息, 用于揭示其内在规律 (如波动的周期、振幅、趋势的种类等) , 进而完成预测行为, 指导未来决策。

3.4 模式评估

对挖掘得出的所有模式进行分析、评价、解释, 并将有趣模式转化为可直观表示的形式。

4 Web数据挖掘的主要应用

随着Internet技术的广泛应用, 分析和利用越来越丰富的网络信息成为研究的重要课题。目前, Web数据挖掘的研究重点已从理论转向应用, 在实际工作中, Web数据挖掘在以下领域广泛应用:

4.1 Web数据挖掘技术应用于电子商务中

对电子商务中的Web日志和和访问内容进行挖掘, 可以针对不同的客户提供个性化的产品、挽留老客户、发现潜在的新客户、改进站点设计方便客户浏览、向顾客推荐商品和引导客户购买商品。

4.2 Web数据挖掘技术应用于搜索引擎中

利用Web数据挖掘技术, 提高Web检索的速度和准确率, 更好的满足用户的个性化需求, 如:页面文本自动分类提高检索速度;对页面的权威度进行计算和排序, 使用户优先看到权威度高的页面;通过分析用户历史浏览信息发现用户兴趣偏好。

4.3 应用于知识服务中

利用Web挖掘技术, 从Web页面中获取基本知识元素 (如:概念、概念间的语义关系, 知识元、知识元间的关联关系) , 并构建面向特定领域的知识体系, 重组Web页面中的知识元素, 提供符合人们认知特点的知识服务。

4.4 Web数据挖掘技术应用于电子政务中

通过对电子政务站点数据进行定性和定量分析, 应用Web数据挖掘技术建立决策支持系统, 为高层管理者提供决策信息, 为政府重大政策出台提供决策支持。

5 结束语

Web数据挖掘技术已广泛应用于诸多领域, 如:电子商务、科学研究、电子政务、市场营销、金融投资、网络信息管理、教学管理、产品制造等。凡是涉及网络信息的数据和数据库, 都可以运用Web数据挖掘的技术和方法, 发现其中潜在的知识和信息, 为各行各业提供决策支持。Web数据挖掘技术必将在未来的Internet信息处理中发挥更大的作用。

摘要:随着Internet技术的快速普及和迅猛发展, Internet应用已深入到人类生活的各个角落, 如何开发和利用访问Web站点所产生的丰富的信息资源, 提高网站的性能, 更好地为用户服务、为决策者提供决策支持, 成为数据挖掘技术在Web领域研究的热点。本文综述了基于Web的数据挖掘概念、主要技术及分类、流程, 说明了Web数据挖掘的应用和研究方向。

关键词:Web数据挖掘,分类,流程

参考文献

[1]郑庆华, 刘均, 等, 著.Web知识挖掘:理论、方法与应用.北京:科学出版社.

[2]杜剑峰.Web数据挖掘-数据预处理.百度文库:http://wenku.baidu.com/view/97103bdf7f1922791688e817.html.

[3]谢邦昌, 朱建平, 来升强.Excel2007数据挖掘完全手册.清华大学出版社.

[4]毛国君, 段立娟, 等, 著.数据挖掘原理与算法.北京:清华大学出版社.

[5]黄晓斌.网络信息挖掘.北京:电子工业出版社.

浅析Web数据挖掘 篇3

一、数据挖掘的概述

Web数据挖掘[1], 是指从Web资源上抽取信息或知识的过程, 它是将传统的数据挖掘的思想和方法应用于Web, 从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。它以从Web上挖掘有用知识为目标, 以数据挖掘、文本挖掘、多媒体挖掘为基础, 并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术, 将传统的数据挖掘技术与Web结合起来。建立在对大量的网络数据进行分析的基础上, 采用相应的数据挖掘算法, 在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析, 最后做出归纳性的推理、预测客户的个性化行为以及用户习惯, 从而帮助进行对网站以及网页的改进。

二、数据挖掘的分类

一般来说, 目前根据挖掘对象的不同, Web数据挖掘可分为四类:Web内容挖掘、Web结构挖掘、Web访问信息挖掘、Web用户性质挖掘。

(1) Web内容挖掘

Web内容挖掘[2]是基于各种媒体的内容分析使得用户能够更加准确地搜索而进行的从Web文档内容或其描述中发现有用信息的过程。它主要包括文本挖掘和多媒体挖掘两类, 其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。这些数据一般由非结构化的数据 (如文本) 、半结构化的数据 (如HTML文档) 和结构化的数据 (如表格) 构成。对非结构化文本进行的Web挖掘, 称为文本数据挖掘或文本挖掘, 是Web挖掘中比较重要的技术领域。Web挖掘中另一个比较重要的领域是Web多媒体数据挖掘。其中关于Web内容挖掘的研究大体以Web文本内容挖掘为主。

(2) Web结构挖掘

Web结构挖掘[3]是利用Web的结构和拓扑信息设计更加准确的搜索引擎 (search engine) 。万维网是由分布在世界各地的Web站点组成的全球信息系统, 每个Web站点又是一个由许多Web页面构成的子系统, 而且Web页面并不是孤立存在的, 相关的文档之间通常由超链接联系起来。Web结构挖掘的对象就是Web上的超链接, 它的基本思想是将Web看作一个有向图, 顶点是Web页面, 页面间的超链接就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS (Hypertext Induced Topic Search) 、Page Rank、发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。这些算法一般可分为查询相关算法和查询无关算法两类。

(3) Web访问信息挖掘

即Web使用挖掘, 利用挖掘相关的Web日志记录, 来发现用户访问Web页面的模式, 通过分析日志记录中的规律, 可以识别用户的忠实度、喜好、满意度, 可以发现潜在用户, 增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量[4]是非常巨大的, 而且数据类型也相当丰富。

根据目的的不同, Web访问信息挖掘主要可分为5个方面。

a.个性挖掘针对单个用户的使用记录对该用户进行建模, 结合该用户基本信息分析他的使用习惯、个人喜好, 目的是在电子商务环境下为该用户提供个性化服务。

b.系统改进Web服务 (数据库、网络等) 的性能和其他服务质量是衡量用户满意度的关键指标, Web用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈, 以提示站点管理者改进Web服务器采取的各种策略, 例如:缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外, 可以通过分析网络的非法入侵数据找到系统弱点, 提高站点安全性, 这在电子商务环境下尤为重要。

c.站点修改站点的结构和内容是吸引用户的关键。Web用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依, 比如页面连接情况应如何组织、那些页面应能够直接访问等。

d.商务智能用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点, 用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤, Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机, 以帮助销售商合理安排销售策略。

e.Web特征描述这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况, 对用户访问情况进行特征描述。

(4) Web用户性质挖掘

Web用户性质挖掘是伴随着Web2.0的兴起而出现的。基于RSS、Blog、SNS、Tag以及Wi Ki等互联网软件的广泛应用, Web2.0帮助人们从Web1.0时代各大门户网站“填鸭”式的信息轰炸, 过渡到了“人人对话”, 每个普通用户既是信息的获取者, 也是信息的提供者。面对Web2.0新的发展, Web数据挖掘技术又面临着新的挑战。

如果说Web访问信息挖掘是挖掘网站访问者在各大网站上留下的痕迹, 那么Web用户性质挖掘则是要去Web用户的老巢探寻究竟。在Web2.0时代, 网络彻底个人化了, 它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网, 它一方面给予互联网用户最大的自由度, 另一方面给予有心商家有待挖掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析, 能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘正在进一步的研究中。

三、数据挖掘流程

数据挖掘的一般流程大体可分为五个阶段:确定业务数据对象、数据准备、数据挖掘、结果分析和知识的同化。

(1) .确定对象清晰地定义业务问题。挖掘的最后结构是不可预测的, 但要探索的问题应是有预见的, 所以在开始数据挖掘之前最基础的就是理解数据和实际的业务问题, 在这个基础之上提出问题, 对目标有明确的定义。

(2) .数据准备

a.数据的选择搜索所有与业务对象有关的内部和外部数据信息, 取一定数量的子集, 并从中选择出适用于数据挖掘应用的数据, 建立数据挖掘库。其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求, 就可以将数据仓库作为数据挖掘库。

b.数据的预处理由于数据可能是不完全的、有噪声的、随机的, 有复杂的数据结构, 就要对数据进行初步的整理, 清洗不完全的数据, 做初步的描述分析, 选择与数据挖掘有关的变量。研究数据的质量, 为进一步的分析做准备, 并确定将要进行的挖掘操作的类型。

c.数据的转换将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(3) .数据挖掘对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外, 其余一切工作都能自动地完成。根据数据挖掘的目标和数据的特征, 选择合适的模型。

(4) .结果分析和知识同化选择最优的模型, 解释并评估结果, 将评测后的结果反馈回知识库, 运用于实际问题, 并且要和专业知识结合对结果进行解释。其中, 使用的分析方法一般应作数据挖掘操作而定, 通常会用到可视化技术。

(5) .应用阶段将分析最终所得到的知识集成到业务信息系统的组织结构中去。

四、结束语

Web挖掘的形式和研究方向层出不穷, 但随着电子商务的兴起和迅猛发展, 访问信息挖掘必定会是未来Web挖掘的中最为重要的一个研究方向, 也就是说在这个领域将会持续得到更多的重视。

参考文献

[1]JiaweiHan, M.K.数据挖掘概念与技术[M].北京:机械工业出版社, 2004.

[2]邵峰晶, 于忠清, 王金龙, 孙仁诚.数据挖掘原理与算法 (第二版) [M].北京:科学出版社, 2009.67~37, 379~380

[3]Cooley R, Mobasher B, Srivastava J.Web mining:Information andpattern discovery on the World Wide Web.In:9th InternationalConference on Tools withArtificial Intelligence (ICTAI'97) , New-port Beach, CA, USA, 1997:558-567

Web医疗咨询数据 篇4

1 Web数据集成与挖掘

1.1 数据抽取与集成

因为Web数据具有多种特性, 比如具备多主体互动、跨媒体关联和强实时关联等, 让其在数据抽取与集成方面, 尤其是当前大数据背景下面临新的问题。伴随对网络应用的深入开发, 信息时代使得数据来源非常广泛, 并且使得Web数据的结构和类型变得多样化。大数据的复杂性令人难以想象, 而对其处理的第一步要能够科学合理的对这些数据实施抽取, 经过计算提取出有用的实体与关系。第二步就是要对数据进行集成, 在聚合与关联的双重作用下, 就可以应用统一的结构形式来规范存储的数据。

1.2 数据分析

大数据下的Web数据集成与挖掘最为基础的就是数据分析, 获得大数据就必须要对其进行分析, 否则这些数据就是一些垃圾信息, 因此可以说数据分析是大数据处理的关键点, 而大数据的实际价值往往取决于数据分析的过程, 数据分析涉及到多种因素, 比如算法, 这是信息时代实现大数据本身价值的重点。传统意义上的数据分析是对获取的海量的数据进行有目的和组织的收集、分析, 通过各种逻辑运算使其变为有用的信息的过程。

2 大数据背景下Web数据集成与挖掘的现状

2.1 极速增长的数据规模性

Web大数据时代遇到最大的挑战在于数据规模性极速增长, 如此巨量的数据规模使得数据抽取和集成、数据的分析和解释过程中遭遇巨大的困难, 一方面因为数据量过于巨大, 另一方面是因为其高度复杂性。这里说的复杂性主要指复杂的数据对象, 也指模式与类型的复杂性, 以及关联关系的错综复杂和质量的高低不同。此外大数据与其存储设备之间也发生了巨大的矛盾与挑战, 主要是过去数据库都是规定数据的高度一致性以及拥有相应的容错性, 这就造成了扩展性不强和系统适应性不足, 在当前大数据背景下在对音视频这些非结构化与半结构化的数据实施存储的过程中经常出现错误。成倍增长的数据规模性给传统存储造成了巨大的压力, 如果不能应对这一挑战, 那么必将不能适应时代的发展, 因此设计科学高效的分层分布存储成为了关键。

2.2 数据类型的多样性

当前伴随数据量成本的增长, 数据类型也开始从结构化数据不断向前进行创新和改革, 数据类型的多样性是当前发展的必然规律。一般主要方向为结构化、半结构化和非结构化这三种类型, 这三种数据类型对过去数据分析平台提出了更高的要求, 必须要进行变革。通常用数据库的角度观察, 挖掘算法的高效性与弹性, 这是能够完成数据挖掘目的的重要方式, 可是现在的算法依然仅符合常驻内存的小数据集, 这对之前的数据量来说比较符合, 但是对于当前更为重要的大型数据库中的数据来说要让其导入内存是一件非常难的事情, 伴随数据规模不断的扩大, 尤其是数据类型的多样性使得高效率的算法开始变为当前数据分析流程的主要问题。

2.3 大数据背景下Web数据处理的时效性

因为硬件因素的影响和数据规模的不断增大使得数据处理的时间变得特别长, 可是当前时代的快节奏性要求对数据处理的时效性越来越高。面对当前大数据时代信息量的不断增大, 要做到数据实时处理难度非常大, 而且要求数据流能够实现速度快以及能够适应数据量规模巨大的特性, 基于以上事实一般不会对所有数据实施永久性存储, 另一方面因为数据环境也处在持续变化过程中, 系统如果想要把握数据的全貌是一件非常难以实现的事情。数据流在大数据时代其理论研究和技术创新有着重要意义。

2.4 隐私保护

因为网络的普及和个人终端的快速发展, 公民个人信息和多种活动轨迹在网络中越来越多, Web数据的价值逐渐变的重要, 在这种背景下也给不法分子以可乘空间, 应用网络来窃取公民的个人重要信息或者侵害公民和国家的利益。大数据时代使得Web数据的安全越来越重要。面对网络大数据时代下公民个人隐私的保护, 成为当前人们的一个巨大挑战, 需要解决多种挑战和问题。

3 结束语

信息时代的到来给人类带来了巨大的便利, 也带来了巨大的挑战, 如何处理好大数据下的Web数据集成与挖掘, 成为当前人们节约时间、高效率工作的关键因素。大数据背景下深入研究和分析Web数据集成, 应对各项新的挑战, 让Web数据集成符合时代发展的规律。Web数据挖掘工作成为当前人们关注的热点, 但是要彻底迎接Web大数据的数据集成与挖掘依然有很远的路要走。

摘要:伴随技术的进步和互联网的不断发展, Web数据呈火箭爆发式增长, 在大数据时代Web数据集成与挖掘成为人们广泛关注的话题。本文讨论了如何应对当前大数据下Web数据在集成与挖掘方面数据规模、数据多样性、数据时效性以及数据的隐私保护方面的问题。

关键词:大数据,Web数据,集成与挖掘

参考文献

上一篇:金鱼的记忆下一篇:初中语文的诵读教学