领域知识数据挖掘

2024-09-20

领域知识数据挖掘（共9篇）

领域知识数据挖掘篇1

国家自然科学基金(以下简称基金)是国家创新体系的重要组成部分,在激励创新研究、支持和培养创新人才、促进科技进步方面发挥了重要的引领作用,获基金资助的规模和强度已成为衡量原始创新能力的重要指标之一。基金作为我国扶持基础性研究的重要途径和国家性投资,历来是各高校、科研单位激烈角逐的目标。基金申报的数量在逐年增加,2010年基金集中受理期间,已接收全国各类申请共114955项。2011年项目申请量更是呈现迅猛增长态势,截止到3月20日上午,基金委已收到1973个依托单位通过网络申报的项目申请147449项[1]。在申请量井喷式增长而基金相对资助率并没有同步增长的情况下[2],如何提高自身(某人或某单位)的中标率?基金资助是学科发展的方向标,科研水平的公平秤。国家重点扶持的学科方向是什么?全国范围内某专业科研能力比较强的单位有哪些?这些单位的优势学科是什么?我们如何从历年中标项目名单中找到这些问题的答案?

知识挖掘(Knowledge Mining,KM)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[3]。它源于全球范围内数据库中存储的数据量急剧增加,人们的需求已经不只是简单的查询和维护,而是希望能够对这些数据进行较高层次的处理和分析以得到关于数据整体特征和对发展趋势的预测。目前,挖掘方法主要有两大类:一是利用智能代理、信息过滤和信息化Web代理等解决繁重的数据收集处理任务;二是将非结构化或半结构化数据转换为结构化数据,即数据库的数据,用传统查询方式进行挖掘,主要包括基于关键词的挖掘、文字特征值的挖掘和样本的挖掘三种方法。这两类挖掘方法都基于检索词或主题词,简单而便捷,但无法挖掘信息之间的内在联系,挖掘结果只是包含有用户使用的检索词或关键词的文档,得不到其他相关信息。要解决这些问题,关键在于进一步开发基于知识和语义的挖掘方法[4]。本体(Ontology)是概念化的明确的规范化说明[5]。它是一种新型的元数据和知识表达方式,通过捕获相关领域的知识,提供相关领域公认的概念集,并给出这些概念及其相互关系的明确定义。因此,本体能把知识表达扩展到语义层次,可以有效克服关键词表达的缺陷。领域本体(Domain ontology)是专业性的本体,提供了某个专业学科领域中概念的词表以及概念之间的关系,或在该领域里在主导地位的理论。构建领域本体有利于对特定领域知识进行知识挖掘,实现特定专业领域概念的自动抽取、关系发现和知识获取,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持和知识服务。

本文在构建基于口腔医学领域本体的知识挖掘模型的基础上,以2004-2010年国家自然科学基金中标项目情况为例,对文本进行知识挖掘,分析基金资助的重点、热点,项目之间的关联,项目内容的时间变迁及重点、热点项目所对应的核心人物和核心机构等。研究步骤如下:

(1)收集口腔医学文献并做术语提取,以半自动化方式构建口腔医学领域本体;

(2)以概念为语言单位提取文本特征。比如“口”与“嘴”具有同义关系,通过计算语音的文本相似度,将两个词映射到同一概念。同理找出近义、从属等关系;

(3)将文本表示模型转换成概念转换模型;

(4)下载2004-2010年历年的口腔医学专业基金中标项目的相关数据包括:标题、学科方向、中标的作者、作者单位等信息,输入至数据库;

(5)用神经网络学习、朴素贝叶斯和本体推理结合的方法进行机器学习,挖掘出数据中所隐含的知识;

1)主题挖掘及主题关系挖掘;2)对不同主题自动分类并按年份进行时间分段追踪比较分析,有助于了解这些主题研究力量和内容的时间变迁;3)根据不同主题分析出研究相应项目负责人和研究机构的联系强度,可以确定该主题研究领域的核心人物和核心机构;4)统计分析具有相同主题的项目负责人群,可以了解这些主题研究领域在国内的分布和发展趋势;

(6)用准确率(返回结果中正确的比例)和召回率(表示所有正确结果中返回的比例)对知识挖掘的结果进行客观的评价。

影响基金申报命中率的因素除自身科研实力外,还涉及多方面因素,科学地分析这些影响因素,提出相应的对策,对提升基金项目申报质量,提高命中率具有重要的意义。《孙子兵法》有云“知己知彼,百战不殆”。对历年中标的总体学科方向进行知识挖掘,准确把握、正确预测项目资助的学科导向和发展趋势才能“知彼”;对所在高校中标项目的学科方向进行统计分析,挖掘自身学科优势才能“知己”。这种在学科资助导向的范围内,结合自身优势的前提下凝练的科学问题,提出的科学假设才能做到有的放矢、事半功倍。此外,通过对基金资助情况的分析,挖掘各高校的优势学科和各学科的知名院校,不仅可以检验学科发展的均衡性还能为研究生、博士生报考提供一定的参考依据。

参考文献

[1]2011年度国家自然科学基金项目申请数已逼近15万.科学时报.http://www.edu.cn.2011-03-21.

[2]华子春,王雨轩.基金相对资助率——反映国家自然科学基金竞争能力的一个新指标[J].中国科学基金,2009,23(1):50-55.

[3]Fayyad UM,Piatetsky SG,Smyth P.From data mining to knowledge discovery:an overview.In<advances in knowledge discovery and data mining>,1-34AAAI Press.1996.

[4]何晓兵.本体指导下的网络文献信息内容挖掘模型[J].图书情报工作.2010,24(54):45-49.

[5]Gruber TR.A translation approach to portable ontology specifications.Journal of Knowledge Acquisition,1993,2:71-92.

领域知识数据挖掘篇2

一、商标注册、专利申请及商标、专利转让中公证的作用

按照《商标法》第18条规定，商标注册实行申请在先的原则；但同一天申请时，申请人要使自己的商标获得注册，必须提供使用在先的证据，而这些证据一般都要经过公证。

在办理此类公证时，关键是要清楚认定使用在先的依据。笔者以为，认定商标的最早使用日期，应以申请人提供的最早使用该商标的产品生产日期为准。如果申请人不能提供原始产品，应以申请人与客户最早签订的此类产品合同为准。因为，通常供货合同会载明产品的外包装，其中就有商标方面的文字。对此合同，不能光听申请人的一面之词，公证员还必须同销售方取得联系，并得到销售方的证实。至于具体的出证方式，可采用公证书正文后面粘连 “谈话笔录”及相关产品包装或供货合同复印件的形式。这样，公证书的证据效力就大大增强了。

《专利法》规定对发明、实用新型和外观设计授予专利权的条件之一是应当具备新颖性，其主要内容是在申请日以前没有同样的发明、实用新型、相同或者相似的外观设计在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知。这样，当两个或者多个申请人同时或先后对同一发明、实用新型、相同或相似的外观设计申请专利时，在先使用或公开的发明、实用新型或外观设计才有可能被授予专利。在先使用或公开的证据，通常也需要公证。公证处可以根据相关部门对发明、实用新型或外观设计及其相关产品的鉴定，相关单位将发明、实用新型或外观设计投入生产、流通领域等事实，出具保全证据公证书。公证书的出具方式，与保全商标使用在先证据相同。

宁波某食品公司在申请其产品 “宁波汤团”包装袋外观设计专利时，因另一家公司3天前已提出同样的申请，国家专利局要求双方提交经过公证的使用在先的证据，该食品公司来到公证处寻求帮助。公证员对质监部门、检疫部门、制版和印刷公司及经办人调查取证后，采取公证书后粘连 “谈话笔录”及有各单位和经办人的加注文字的包装袋复印件的出证方式。现在，国家专利局已认定该公司对 “宁波汤团”包装袋外观设计使用在先。

另外，注册商标初步审定并公告后，专利权在被授予后，在规定时间内，其他人还可以提出异议，理由可以是自己的商标或专利使用或公开在先。对此证据的保全方式，与上面相同。

对商标、专利的转让合同公证，除了要看双方的权利义务是否明确对等外，主要是审查转让的商标权和专利权是否为转让方合法所有，合同中有无关于受让方保证使用转让方商标的产品的质量的条款等。

二、为知识产权的域外保护提供公证证明

一般来说，知识产权只有在权利取得国才有

效，不具有域外效力。但是，随着科学技术的迅速发展和国际经济、文化交流的日益广泛，对知识产权的地域性限制逐渐被突破，有关知识产权保护的双边或多边国际条约逐渐增多，从而使得一国确认或授予的知识产权在其他国家产生域外效力，或者为外国国民提供取得权利并获得保护的主体资格。我国已经加入的知识产权国际条约不下30个。从实际情况看，向他国提出保护自己知识产权要求的我国公民和企业越来越多。

公证为我国公民、企业申请知识产权的国际保护提供服务由来已久。司法部公律司1984年1月25日给中国贸促会法律事务部的《关于出具专利有关证明事宜的复函》中明确指出，“经与有关部门研究后认为，我国企业或个人向外国申请专利时，所需提供的有关文件的证明事项属于公证业务范围。根据我国公证机关统一行使公证职能的原则，应由公证处办理为宜”。这既为公证处办理专利等事务的公证提供了保障，又说明该项业务是传统业务。实践中，公证处可以提供以下两种服务方式：

一是证明知识产权证书或证明属实。有些国家对我国授予的知识产权予以自动保护，但必须履行登记手续。当我国公民、企业要求在这些国家保护自己的知识产权时，它们一般要求我国公民、企业办理专利证书、计算机软件登记文件、注册商标等知识产权凭证的公证。对于著作权，有的国家以出版或首次出版时加注 “著作权标记”为取得保护的前提条件。对于作品的出版或首次出版时加注 “著作权标记”的状况，一般也要经过公证。

二是为向国外申请专利、商标注册的我国公民、企业提供有法律意义文书的公证证明。例如，根据《保护工业产权巴黎公约》的规定，我国公民、企业向他国提出专利和商标注册申请时，可以要求优先权。但我国公民、企业必须提供要求优先权的声明，同时必须提供在第一国（我国）的第一次申请的证明。按照国际惯例，这类申明和证明都应当办理公证。《专利合作条约》和《国际商标注册马德里协定》还要求跨国申请人提供一系列的材料，如申请人的住址及守法情况、书面申请书、专利或商标图样等。这些材料，也应当办理公证。

三、为国际知识产权转让以及国际经济技术合作所涉及的商标权、专利权提供公证证明

知识产权可以成为国际转让合同的标的。对国际知识产权转让合同或涉及知识产权的国际技术转让合同，应当事人的申请，公证处可以在审查的基础上出具公证书。对合同的审查，首先要确认转让标的是否为转让方拥有合法所有权的知识产权；其次，享有著作权的国外作品不得含有侵犯中国国家利益、违背社会主义道德风尚的内容；最后，专利技术进口合同不得限制进口方对该专利的合法使用、转让，也不得限制进口方改进后的技术申请并拥有专利权。通过公证监督，应最大限度地维护我国公民、企业的合法权益。

此外，应当事人的要求，公证处也可只对国际技术转让合同中涉及的中方知识产权进行公证。

在中外合资、合作经营企业成立过程中，中外合资、合作双方应签订合资、合作协议，其中也可能涉及知识产权。这有两种可能：一是以工业产

权进行投资。对各方的工业产权，可分别要求各自所在国的公证机构予以证明；也可申请对协议本身进行公证。二是合资、合作企业使用其中一方的注册商标，或以本企业名义申请商标注册。对此，对外贸易经济合作

部、国家工商行政管理局于1995年7月13日印发《关于对外贸易中商标管理的规定》。其中第21 条规定：“合资、合作企业使用共同一方的注册商标时，均应在合资、合作协议中予以明确；合资、合作企业以本企业名义申请注册的商标，应当由合资、合作各方在提出申请前，签订经过公证的关于合资、合作关系结束后该商标归属的协议”。对合资、合作协议进行公证，是明确注册商标归属的有效方式。

四、对侵犯知识产权的行为，通过公证保全证据使之受到行政查处或司法追究，切实保护知识产权

知识产权具有人身权的内容，但它更多地体现为一种财产权。正是由于知识产权具有可观的经济价值，不择手段侵犯知识产权的行为才会屡禁不止、甚至愈演愈烈。现在，国家正在重拳出击盗版行为、侵犯商标权和专利权的行为以及其他扰乱社会主义市场经济秩序的行为。公证作为最有效的、最有说服力的保全证据方式，理应在其中发挥重要作用。

（一）对侵犯著作权、专利权和商标权行为的证据保全

在著作权领域，国家有关部门早就认识到公证的重要性。1994年8月26日司法部、国家版权局发出《关于在查处著作权侵权案件中发挥公证作用的联合通知》。该通知要求 “著作权行政管理部门在查处侵权行为时，要求申请人和有关当事人提供证据的，应当对证据进行证据保全公证。对于公证机构出具的有关证据保全的公证文书，著作权行政管理部门应当作为查处侵权案件时认定事实的根据。”对于公证处的具体工作，《通知》规定得很详细。首先，著作权证据保全公证由事实发生地公证处管辖。其次，公证机构在办理著作权证据保全公证时，有权根据当事人的要求和被保全对象的不同特点，采取购买或索取实物，现场拍照、摄像，询问证人，记录或录制证人证言等保全方式，全面、客观地反映真实情况。再次，在办证过程中遇到专业问题应注意听取当地著作权行政管理部门的意见；当然，著作权行政管理部门应积极予以协助。

我国《专利法》和《商标法》都规定了侵犯专利权和商标权行为的多种表现形式。公证员受理申请后，首先应确认合法专利权、商标权的存在，其次应分清申请人（专利权人、商标权人或专利、商标管理机关）诉称的侵权行为是否属实。如专利权方面，有些行为虽然给专利权人造成了损害，但不属于违法的行为，如专利法规定的合理使用、强制许可等。如果确属侵犯专利权、商标权的行为，可以予以证据保全。

（二）对不正当竞争行为的证据予以保全

我国《反不正当竞争法》规定了11种不正当竞争行为。公证处可以对假冒行为、虚假广告行为、毁人信誉的行为进行证据保全。具体的保全方式，有购买或索要产品、现场拍照、记录或录制证人证言、保全载有或播放虚假广告或毁人信誉言辞的报刊杂志、电台电视台节目或其他的载体等。此类公证申请人既可以是受到侵权损害的合法权利人，也可以是受这些不正当竞争行为欺骗而购买了相关产品、从而使自身人身权或财产权受到侵害的消费者。

（三）对计算机网络上侵犯知识产权的行为进行证据保全

因特网的飞速发展，将人类带入一个全新的时代。电子商务的发展、网上信息的发布，在给人类带来方便的同时，也侵犯了不少合法权利人的权利。对知识产权的侵犯，就是一个突出的方面。擅自披露他人享有著作权、专利权和商标权的作品或产品，甚至发布虚假信息，假冒他人的著作权、专利权和商标权；发布不真实的广告诱导消费者；散布毁人信誉的言辞等。

对网上的侵犯著作权的行为，由于网络内容很容易被刷新，所以，及时保全侵权证据是十分必要的。公证是非常有效的保

全方式。公证员受理这类公证的前提，是要懂得网络知识和具体的操作程序。在保全的过程中，应由当事人操作，公证员现场监督、记录，并将操作和打印过程及结果详细载于公证书中。如果内容很多，最好将保全结果压缩保存在软盘上。

数据挖掘领域中国专利申请简析篇3

关键词：数据挖掘,专利,申请人,领域

1 概述

随着信息技术的发展,海量信息的产生,数据挖掘技术得到了飞速发展。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的主要特点是所处理的数据是海量的,需要发现的关系是未知的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制,以及数据自身的维护等。随着概念树的提升,所有这些知识都可以在不同的概念层次上被发现,以满足不同用户、不同层次决策的需要。由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘系统。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

专利是反映科学研究成果的一个重要方面,为了了解数据挖掘领域在中国的专利申请情况,本文通过“中国专利文献检索系统”在中国专利数据库中,针对数据挖掘领域进行了检索,检索了该数据库截至2010年9月底公开的文本,并对检索结果进行了简要分析,从而为从事数据挖掘研发的单位、个人进行专利申请提供初步的参考。

2 专利申请概述

在中国专利数据库中共检索到涉及数据挖掘技术理论基础研究、以数据挖掘技术为主要技术手段的系统应用以及数据挖掘技术相关应用的专利申请共计约3500件,经过筛选分析,其中设计数据挖掘技术理论基础研究、以数据挖掘技术为主要应用手段开发的应用系统的专利申请共计约261件(这261件专利申请的申请日时间范围覆盖2002年至2010年3月),其余专利申请主要是涉及数据挖掘技术的相关应用,在这些相关应用的专利申请中,数据挖掘技术并不占据主导地位,一般仅涉及局部数据处理,因此,本文仅对上述与数据挖掘技术密切相关,涉及数据挖掘技术理论基础研究、以数据挖掘技术为主要技术手段的系统应用的261件专利申请进行分析。

3 申请领域分析

在相关的261件申请中,各领域专利申请数量及百分比分布如图1,图2所示。

其中,涉及数据挖掘技术理论基础研究的专利申请共计74件,占总申请量的44%;以数据挖掘技术为主要应用手段开发的应用系统的专利申请共计187件,占总申请量的56%,数据挖掘的潜在应用十分广泛,涉及科学研究、管理决策、商业经营、信息安全、医学应用、工业企业决策支持,甚至与专利信息相关的专利情报分析等各个领域,由图1-2可见,在这些领域大都有相关专利申请。

1)数据挖掘理论研究

涉及数据挖掘理论研究方面的专利申请共计74件,这些申请主要是针对数据挖掘技术本身的改进,具体涉及:数据挖掘常见方法研究,如分类、估计与预测、关联分析、聚类分析、时序模式分析、偏差分析等;数据挖掘主要算法研究,如决策树、神经网络、聚类、遗传算法、公式发现、统计分析等;以及涉及新技术中的网站数据以及文本数据的数据挖掘等。

2)商业和金融领域

涉及该领域的专利申请共计27件,占总申请量的16%,是各具体应用领域中申请量最多的,该领域也是当前数据挖掘技术的主要应用领域。所述27件申请具体涉及商业智能、数据审计、电子商务、物流、业务预测、金融风险管理、信用评估等子领域,其中特别是商业智能领域涉及专利申请最多。

3)医学领域

涉及该领域的专利申请量占总申请量的12%。数据挖掘在医学上的应用也很广泛,从分子制药到医疗诊断,以及药物合成方面,都可以利用数据挖掘的手段来提高效率和效益。本领域的专利申请也主要集中在医学的这些方面。

4)信息安全领域

涉及该领域的专利申请量占总申请量的5%,具体涉及网络检测攻击、信息安全审计、入侵检测、安全防御等方面。由于在信息安全领域,需要对获取的大量数据信息进行分析处理,从而发现系统中存在的漏洞或隐患,因此数据挖掘技术在该领域也具有广泛应用。

5)图像处理领域

涉及该领域的专利申请量占总申请量的2%。我们知道,在图像处理中通常会涉及大量的数据,而在大量的图像数据中找出相关信息,则需要数据挖掘技术。

6)在其他工业领域中的应用

涉及其他工业领域的专利申请共计36件,占总申请量的21%,具体包括制造业、道路交通管理、智能电网、智能家居、电信等领域。由于数据挖掘是对海量数据进行处理,其有一定的通用性,因此,一定程度上讲,数据挖掘可应用于任何行业或领域中,只要采集到合理的信息,积累足够多的数据,数据挖掘技术都可以被用于其中,并能得出更多有价值的数据信息或资料,为企业发展提供良好的数据基础。目前,人们利用信息技术生产和搜集数据的能力大幅度提高,各行各业都在进行标准化建设,包含数据信息、空间信息、多媒体信息等各种数据元的大型数据库被广泛地应用于商业管理、政府办公、科学研究和工程开发等,因此,人们不满足于一般的查询和各种报表的简单分析,而是需要从数据分析中直接面对有意义的结果,这些需求促进了数据挖掘在其他相关工业领域的广泛运用。

4 申请人分析

1)以国内和国外申请人分类

在所述261件申请中,涉及国内国外众多申请人,其比例分布如图3。

由图3可知,国内申请人占72%,国外申请人占28%,由此可见,我国在申请量上较外国申请占据优势。其中,国内/国外申请人的申请领域分布分别如图4,图5所示。

由图4-5可见,我国在数据挖掘领域的专利申请涉及领域比较宽泛,特别是在信息安全领域具有较高的申请量,而国外申请中在该领域目前未检索到相关专利申请,这主要与我国近十几年来,在信息安全,特别是网络安全领域的高速发展密切相关,其进一步促进了数据挖掘技术的应用,促进了该领域专利申请量的提升。

2)主要申请人分析

国内外申请人前10名(包括个人申请)分布如图6。

由图6可知,在数据挖掘领域的申请人中包括国际商业机器公司IBM、微软、西门子等世界知名企业,其中IBM、微软主要致力于商业智能领域的数据挖掘应用的专利申请,而西门子主要涉及医学领域的数据挖掘应用的专利申请。其中排名第一的是国际商业机器公司IBM,其在商业智能化领域占有主导地位。进入21世纪以来,商业智能化日益成为美国商业界的一个热门话题,但正是数据仓库和数据挖掘技术的出现,使得商业智能的实现才逐渐成为可能,能否真正地实现商业智能化已成为能否在竞争中立于不败之地的关键,数据挖掘技术正是构造智能决策支持系统,实现商业智能化的一个强有力的工具,因此IBM、微软等世界知名企业都投入了越来越多的资金开发数据挖掘的软件和硬件。

国内申请人前10名(包括个人申请)分布如图7。

由图7可知,在国内申请人中,电信通信领域相关企业、各主要大学、中科院占据主导地位,同时个人申请也占据较高比例,所涉及领域也较为宽泛。

5 对国内进行数据挖掘领域专利申请的一些建议

1)树立专利保护意识,开发具有自主知识产权的数据挖掘产品

IBM、微软、Oracle等公司投入了大量的资金进行数据挖掘的开发,他们均成立了专门的数据挖掘和商业智能部门并开发出了许多很好的产品(由上述专利申请信息分析可知,Oracle公司没有较多专门针对数据挖掘方面的中国专利申请,其主要是将重点放在了数据库本身的专利申请上),而在我国,从事数据挖掘以及相关应用开发的公司、院校、科研机构已有很多,我国的研究机构完全有能力开发出具有自主知识产权的数据挖掘产品。但由上述专利申请信息分析可知,虽然我国在数据挖掘领域具有申请领域宽泛、申请人类别多样的特点,但专利申请的总量并不是很多,很多机构或个人研究出学术成果之后,往往首先是发表文章而不是申请专利,这与目前我国专利保护体系还不够完善有一定关系,但也与很多人在专利保护方面意识淡薄有关,随着我国对专利申请的扶持和重视,国内研发机构应进一步增强专利申请的意识,多方面的进行专利申请,逐步构建出以本领域主要技术为核心、涵盖本领域各方面的专利保护壁垒,从而提高自身在市场上的竞争力。

2)关于专利申请文件撰写中的客体问题

专利法意义上的“技术方案”与我们通常意义上所说的“技术方案”有所不同,专利法第2条第2款规定:发明,是指对产品、方法或者其改进所提出的新的技术方案。专利法第25条第1款第(2)项规定:智力活动的规则和方法不授予专利权。

基于上述条款,涉及单纯算法的发明属于专利法第25条第1款第(2)项规定的智力活动的规则和方法,不属于专利法意义上的技术方案,只有满足以下两个条件的涉及算法的发明,才能属于专利法第2条第2款规定的技术方案:

(1)该算法应用到某一技术领域,并形成基于该算法的解决方案;

(2)基于该算法的解决方案采用了技术手段,并解决了该技术领域的技术问题,获得了相应的技术效果。

而在数据挖掘领域,数据挖掘算法是数据挖掘的核心技术,因此通常都要涉及相关算法,如果专利申请文件的撰写仅在于这些算法本身,则这样的发明通常属于上述所述的专利法第25条第1款第(2)项规定的智力活动的规则和方法,不能被授予专利权,而只有满足了上述条件(1)和(2)的涉及算法的数据挖掘领域的专利申请,才能属于专利法第2条第2款规定的技术方案。因此,申请人在撰写专利申请文件,特别是涉及数据挖掘算法的申请文件时,一定要充分考虑申请文件撰写的角度,考虑所申请的方案是否采用了技术手段,解决了技术问题并产生了技术效果,只有满足上述规定才有可能属于专利保护的客体,否则将不能被授予专利权。

基于上述原则,通常将数据挖掘技术运用于某些具体的工业领域而形成的应用系统和方法大多属于专利保护的客体,而对于应用于商业、金融领域的申请,由于经济领域的特殊性,因此如果其发明的实质在于商业规则本身,则这样的申请也不属于专利保护的客体,因此,在撰写申请文件时,一定要充分考虑以上限定,避免申请的专利由于客体问题而不能被授予专利权。

6 结束语

本文从中国专利申请的角度简要分析了数据挖掘领域专利申请的现状,试图能够对致力于数据挖掘领域的研究者提供一些专利申请的信息,使得更多的研究者能够将其研究成果转化为专利技术,进而促进数据挖掘技术在中国的研究和推广。

参考文献

[1]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.

[2]姚家奕.数据仓库与数据挖掘技术原理及应用[M].北京:电子工业出版社,2009.

全球个人位置数据应用领域解读篇4

我们正处于信息技术爆炸时代，带有GPS技术的移动电话就能使我们定位到几十米以内，我们能将个人位置数据与世界各地人民生活联系起来，并创建了一波新的业务和商业模型。在下一个十年，这场革命甚至将达到我们无法想象的地步。个人位置数据的质量、可访问性和数量将提高和扩大，延伸到很多行业，并将创造远超我们今天所看到的那些机遇。

不同于我们了解的其他领域，新的个人位置数据领域也不仅仅局限于单一领域，而是跨越电信、零售和媒体等许多行业。未来十年，这一领域提供了创造新价值的巨大潜力，我们估计将为应用服务提供商带来超过1000亿美元的收入，为个人消费者和企业最终用户带来高达7000亿美元的价值。要抓住这些价值需要正确的实施推动，包括足够投资，技术、基础设施、人员投入以及政府行动。

一、伴随手机用户的增长个人位置数据快速增长

在这部分分析中，我们通过在几个街区运用个人设备实时定位，研究了个人位置数据的定位精度，并在地球网格上用数字代码地图标示个人位置。早期的个人位置数据来源个人的信用卡和借记卡支付信息，通过在销售点(POS)固定位置终端识别个人身份和位置数据。类似的地方还有自动售卖机等地方。2008年，全球有900亿到1000亿这样的交易可链接到POS设备。在执法调查中也经常使用这些数据建立物理位置。

随着使用手机的人数增加，利用手机发射塔信号确定位置变得越来越普遍。这一技术可以识别全球近50亿人的位置。并且，智能手机的数量在一直增长。2010年，大约有6亿台设备在使用，预计以每年约20%的速度增长。启用GPS功能的智能手机，利用卫星确定位置的精度达到15米。许多智能手机也有wifi网络的功能，成为额外的位置数据来源。这些智能手机技术是使个人位置数据更准确，也使移动设备应用程序的开发人员更容易获得个人位置数据。

此外，正在开发GPS信号较弱的如楼宇间确定个人位置新技术。手机应用程序Shopkick，允许商家跟踪他们的客户，当他们的客户走进商店时，设备就会发出的声音。另一个案例是英国情报公司，通过被动监测识别个人手机发出的信号，跟踪商场或游乐园行人。

导航设备，移动信号发射塔跟踪和智能手机提供了大部分的个人位置数据。导航设备大量数据的主要来源是客户经常更新他们的位置。移动信号发射塔因为有众多手机用户，获得高容量的个人位置数据。智能手机是一个巨大的和快速增长的数据来源，因为大多数用户使用的应用程序需要跟踪它们的位置。根据我们的研究估计，2009年，全球生成的个人位置数据至少达到1拍字节，并以每年约20%的速度增长。

由于手机用户众多，亚洲在个人位置数据获取上处于领先地位。例如，中国2010年有8亿手机用户，比其他任何国家都要多。印度排名第二，有6.5亿手机用户。北美排名第三，有3亿用户。在发展中国家市场，手机用户特别是智能手机用户高速增长。2010年到2015年，我们预计中国手机数量将以每年13%的速度增长，其中智能设备以33%的速度增长。类似的趋势也将出现在印度。

二、使用个人位置数据应用程序的三个主要类别

我们已经确定了使用个人位置数据应用程序的三个主要类别。一类是为个人提供基于位置的应用程序和服务，包括基于位置服务智能路线，车用资通系统和移动电话。第二类是使用个人位置数据的组织，包括针对广告、电子收费、保险定价和应急响应等。三是位置数据总体的宏观层面使用，包括城市规划和智能零售商业。

在本节中，我们将举例描述每种类型的应用程序。然而在这样一个高度变化和创新的动态领域，我们的例子可能会不够详尽。

个人基于位置的程序和服务

1、智能路线，基于实时交通信息的智能路线是一种使用最频繁的个人位置数据应用程序。是可以接收交通事故、道路维修和拥挤区域等实时交通信息的更先进的导航系统。这些系统也能够给用户提供最新的兴趣点和天气信息。这些设备不仅可以避免拥挤，为司机提供建议路线，还能通过将位置信息回传给服务器，更准确的预测拥堵程度。随着智能手机普及率的增加，和免费的导航应用程序出现，智能路线程序的使用可能会进一步增加。相比2010年的20%，到2020年，将有70%的手机拥有GPS功能，装有GPS设备的汽车数量也将持续增长。

总之，我们估计智能路线带来的节约时间和燃油成本的全球潜在价值约为5000亿美元。这相当于节省司机200亿小时路上时间，或者为每个旅客每年节约10至15个小时以及约1500亿美元燃料消耗。将减少二氧化碳排放3.8亿吨，或者每年至少5%排放量。今天，在大多数发达国家数字地图数据和实时交通信息都是可用的。为保证智能路线是有效的，这些地图必须保持最新，这在一个公路网络和基础设施是不断变化的新兴市场中是最特别的挑战。此外，为了发挥其最大潜力，要通过需求增长，刺激所需的技术、基础设施的投资，包括获取实时交通信息必要的的硬件和输电塔等。

2、车用资通系统。在未来几年，越来越多的汽车将配备GPS和远程信息处理系统，提供个人安全和监控服务。例如已经投放市场的通用汽车(General Motors)安吉星服务，实时传送车辆位置和监控信息到中央监控网站。这类似于在卫生保健领域的远程健康监测系统，可以提醒司机们汽车何时需要修理和升级软件，或者在紧急情况下快速定位汽车。

3、手机定位服务。利用手机，还有其他基于位置的服务(LBS)快速发展并不断扩大范围。这些服务包括跟踪儿童、其他家庭成员和朋友的安全应用程序。还有找到用户兴趣点，并提供额外基于位置的移动信息服务。例如，在拥挤的城市中找到最近的干洗店、中国餐馆或最好的打车位置。在未来几年内，个人位置数据还将加入到如清道夫、军事模拟以及基于球员位置的移动游戏中。

这种移动LBS应用的盈利模式，混合了进入免费服务和应用程序的广告支持和其他收入，包括从餐厅、酒吧、和其他的兴趣点链接的赞助商。一些移动应用将嵌入功能广告或者需要支付一次性的下载费用，或需要持续下载。我们估计2020年，类似的服务将产生超过800亿美元的价值。这些价值会增加一些移动LBS服务提供商收的入，但是应用服务的消费者们会更多的享受到这些服务带来的价值。

组织应用个人位置数据

1、通过广告。移动广告是最常见的方式之一，组织可以从个人的使用位置数据创造价值。例如，当选择接收地理定位广告的消费者接近商店时，可能有一个最喜欢的商店的个性化广告出现在他们的智能手机里。或智能手机用户与朋友在酒吧或餐厅时，可能会收到饮料或食品优惠券。这种技术可以提供给用户最近的取款机位置，提供基于位置和时间的餐馆评论和基于智能手机用户的位置或目的地提供的各种特价商店信息。这种类型的广告在2010年仍处于起步阶段。然而，新的地理定位广告业务带来了令人印象深刻的销售和响应结果。与电视或印刷更传统的广告形式相比，这种广告有更高的相关性，因此更加能够提高实际的销售潜力。广告商似乎也是这样认为的，投入的也更多。

2、电子收费。当前的电子收费系统需要专门的技术以及大量的成本，但带有GPS功能的手机越来越普遍，可能会刺激收费应用程序的发展，降低系统的总成本。例如，手机可以定位车辆和收费站，进行手机支付，而且不再需要单独的应答器设备和其他票据支付账户。

3、保险定价。结合个人的位置数据和汽车远程信息技术，可以提供保险公司更准确和详细的个人行为数据，例如，是否为汽车投保了。这些信息将使保险公司的价格风险基于实际行为，而不是总体人口因素。因此，可以肯定的是，基于个人位置数据技术迅速提高，将帮助保险公司开发其他服务，并鼓励安全驾驶。例如，保险公司可以开始提供交通和天气状况的实时警报，高风险的停车区域，速度变化限制等。

4、应急响应。日益普及的个人位置数据，实时交通和GPS远程信息处理为执法人员、消防员和救护人员提供了更快和更有效的响应时间和范围。这些技术使紧急情况下紧急服务调度程序能够快速确定一个人的位置，确保人员可以尽快做出反应，在危险的环境中监控自己的安全。

宏观层面总体位置数据的使用

我们认为，总体分析城市规划和智能零售商业两种截然不同的决策领域都可以受益于个人位置数据。而且，我们相信，许多其他应用和商业模式也将通过这些技术受益。

1、城市规划。城市规划者可以大大受益于个人位置数据分析。可以通过分析包括道路和公共交通建设数据提高决策，缓解交通拥堵，服务发展规划。城市交通和发展规划者将越来越多地获得热点地区大量的高峰期和非高峰期交通热点、购物趋势信息，减少交通拥堵和污染物的排放。通过深入研究这些有价值的数据，城市规划者在设置交通信号灯和停车位时将做出更加明智的决定。新加坡的公共交通部门在基于个人位置数据规划交通需求上已经有十年经验。荷兰交通机构使用来自移动电话的个人位置数据预测交通堵塞。

2、智能零售商。零售商可以使用个人位置数据来创新购物模式，通过人口密度统计信息，迅速生成详细报告，分析消费者对那些商品感兴趣，采取相应促销和广告，推送产品购买链接，统计客户数量和购买历史。这种精细智能可以帮助改善从店内布局到营销业务的一系列决策。

3、一些新的商业模式。随着个人位置数据的可用性变得越来越好，其价值得到更广泛的认识。例如，波士顿市启动了称为路拱应用程序，利用个人位置数据来检测道路的坑坑洼洼程度。路拱使用智能手机内部构建的包括GPS和加速计技术，记录汽车的位置和路拱的大小。城市部门已经公开向用户征集测图方案，鼓励应用路拱程序。

三、个人位置数据创造的价值增长是实质性的

我们主要详细分析目前个人位置数据的应用，发现未来十年时间，这些应用程序有可能为服务提供商创造价值1000亿美元或更多价值。这个附加价值可能主要来自LBS导航硬件销售、移动LBS费用和广告收入。企业将开发出更多的应用服务，移动设备应用商店也准备好了销售和营销渠道，大大降低创新的新玩家的进入壁垒。

个人和企业用户将享受基于位置的应用程序带来的增殖，给他们带来的价值也将远高于给服务商带来的价值。我们相信，到2020年，个人位置应用程序将为用户创造高达7000亿美元的价值。超过70%的价值来自于通过使用GPS导航系统、移动LBS应用程序而节省的时间和燃料成本。剩下的30%来自于企业推送广告和销售产生的附加值。

而且我们采取了相对保守的方式估计用户获得的潜在价值，因为这些价值不包括通过方便用户而额外的效用价值。个人位置数据的功能性服务，如用户的应用程序为用户提供了所有的这些价值好处。如陌生的旅行者，可以通过这些程序快速找到商店和餐馆。熟悉的居民和朋友之间相互定位，很容易在晚上找到最受欢迎的夜总会和最短的行驶路线。此外，我们在估算时只涉及到了部分的应用程序，我们希望有更多创新用途的个人位置数据和商业模式继续出现。创造力和创新将进一步提高我们目前估计的潜在价值，更多的应用程序将显著提高个人位置数据带来的价值。世界各地的个人和组织将分享个人的位置数据的潜在价值，而新兴市场庞大的手机用户和快速增长带来的价值最显著。

四、实现个人位置数据的全部价值，一切障碍都将被克服

通过个人位置数据创建的潜在价值将取决于一系列技术、业务的改善和政府机构壁垒问题解决。这些问题和障碍包括一些大家都很熟悉的和一些更棘手的挑战。业务和政策制定者面临的挑战包括个人位置数据隐私和安全问题、技术创新和投资问题以及管理机构变革问题。

随着个人位置数据的数量和精度的增加，也会增加对隐私和安全的担忧。从拥有正确的收集、汇总、传播和使用个人位置数据用于商业目的移动运营商、平台所有者、应用程序开发人员和手机制造商到实际用户，法律通常是不健全的。在保护隐私的前提下国家允许企业自由使用这些数据。但也有市民想了解他们的隐私和个人位置数据的安全情况，而且对个人位置数据使用情况还不清楚。这就需要有一个框架，能够清晰地描述这些数据允许或禁止使用情况，这将有利于所有相关者。

很显然，与个人位置数据相关的技术将继续提高市场需求，并且世界各地的移动设备变得越发无处不在。根据我们的预测，这些数据将持续促进技术创新、基础设施投资和GPS移动设备的广泛应用。尽管对于当前许多应用程序，民用GPS精度似乎是足够的，但其他应用程序将需要更精细位置数据，如建筑物等。将来还会有技术挑战。例如，开发应用程序时必须警惕产生应用程序的附加错误。荷兰政府基于手机位置的密度，收集和分析高速公路拥堵数据，发现每小时都会突然出现和消失特定路段拥堵的奇怪现象。发现，在高峰时期，该公路附近每小时都有一列通勤铁路列车通过。

发展个人位置数据所有这些方面也给管理和决策者带来严峻挑战。商业领袖们应该已经在考虑利用这些数据带来潜在好处，特别是在营销领域提高运营效率和利用前文提到的商机建立商业案例。但他们也应该尝试通过新的业务模式获得最大价值。高管们应该与共同利益公共决策者制定有效的隐私政策，并清楚的传达给公众，提高个人位置信息数据的安全。私人和公共部门也可以加快发展基础设施和设备的协作利用，利用个人位置数据产生额外的价值。

对于政策制定者，对于这个快速发展领域的首要任务是适当的激励创新，包括建立最新的知识产权框架、突破潜在区域研发资金和基础设施建设。

未来十年，个人位置数据应用有潜力为个人消费者和组织提供超过8000亿美元的经济价值，在这个过程中将在许多领域催化创新企业的广泛发展。到2020年，通过节约时间和燃油成本，智能导航应用程序就可能为全球消费者提供约5000亿美元的价值。作为广告业新兴、高效的营销工具，2020年，将占全球广告支出总额的5%以上。管理和决策者需要通过共同努力，发挥出个人位置数据的全部价值潜力。

读书的好处

1、行万里路，读万卷书。

2、书山有路勤为径，学海无涯苦作舟。

3、读书破万卷，下笔如有神。

4、我所学到的任何有价值的知识都是由自学中得来的。——达尔文

5、少壮不努力，老大徒悲伤。

6、黑发不知勤学早，白首方悔读书迟。——颜真卿

7、宝剑锋从磨砺出，梅花香自苦寒来。

8、读书要三到：心到、眼到、口到

9、玉不琢、不成器，人不学、不知义。

10、一日无书，百事荒废。——陈寿

11、书是人类进步的阶梯。

12、一日不读口生，一日不写手生。

13、我扑在书上，就像饥饿的人扑在面包上。——高尔基

14、书到用时方恨少、事非经过不知难。——陆游

15、读一本好书，就如同和一个高尚的人在交谈——歌德

16、读一切好书，就是和许多高尚的人谈话。——笛卡儿

17、学习永远不晚。——高尔基

18、少而好学，如日出之阳；壮而好学，如日中之光；志而好学，如炳烛之光。——刘向

19、学而不思则惘，思而不学则殆。——孔子

领域知识数据挖掘篇5

随着社会的发展, 当今人类已经处于信息爆炸的时代, 经常会出现这样的情况“淹没在知识的海洋中, 却又忍受着信息的饥渴”。因此我们需要的不仅仅是海量的, 杂乱无章的数据, 我们更需要的是如何整理这些海量的数据、如何找出这些数据中的有用信息、如何有效利用这些数据。此时数据挖掘作为一种信息处理方式, 能够提取有效地信息, 从而越来越多的运用于各行各业。

数据挖掘 (DM) :与数据库中的知识发现 (KDD) 同义, 指从大型数据库中提取出有意义的、隐含的、先前未知并有潜在价值的信息或模型的非平凡过程。如今数据挖掘成功应用于生物技术、金融、银行、电子商务等领域。21世纪以来, 信息化进程在教育领域有了突飞猛进的发展, 特别是数字化校园建设和网络高等教育的大力推进, 教育领域已经部署了众多的软件系统, 这些系统中都存储着大量的数据, 如何利用这些教育数据, 使这些数据转变为有用的信息为教育者、学习者、管理者、教育软件的开发者、教育研究等提供参考。如何用数据挖掘先进的技术为教育领域提供服务, 越来越多的学者意识到了这一点, 已经开始了教育领域的研究。以下是本人通过统计和分析对教育数据挖掘所做的一些总结。

二、教育数据挖掘在国外的研究现状

自2005年起人工智能 (AAAI) 、人工智能教育应用 (AIED) 及智能导师系统 (ITS) 等国际会议开展了多次“教育数据挖掘”主题研讨会。2006年IIS会议的EDM工作组会议前言中, 教育数据挖掘 (EDM) 被定义为“将教育系统中的原始数据转换成有用信息的过程, 这个过程被用于提供设计决策和回答研究问题”。Romero’s & Ventura’s发表了关于1995-2005年国外关于教育数据挖掘的研究综述。EDM2008 (教育数据挖掘2008) 会议论文集对教育数据挖掘的定义为:教育数据挖掘是一个将来自各种教育系统的原始数据转换为有用信息的过程, 这些信息技术可为教师、学生及家长、教育研究人员以及教育软件系统开发人员所利用。2011年7月将在荷兰埃因霍温举办第四届教育数据挖掘国际会议, 并且已经成功创办了专门的电子期刊——教育数据挖掘杂志 (JEMD) , 2011年也成立了国际教育数据挖掘协会。

在学术论文研究方面, 在Science Direct外文期刊数据库和Google学术论文期刊中对2013年之前的文献以educational datamining为检索词进行检索, 剔除一些重复和联系不紧密的文章, 得到的论文数量如下所示:

可以看出国外对教育数据挖掘的研究在08年和09年较多, 其原因主要是EDM会议的召开促进了其发展。国内学者也越来越多的研究教育数据挖掘, 而且大多数的研究都集中在应用研究领域, 下面介绍一下国内学者在教育数据挖掘方面所做的研究。

三、教育数据挖掘在国内的研究现状

相对于国外而言, 国内关于教育数据挖掘的研究较晚, 从2002年开始才开始有所研究, 随着广播电视大学的开办和网络教育教学的发展, 国内关于教育数据挖掘的研究也开始关注网络教学, 2007年教育数据挖掘学术论文和学位论文的数量相对较多, 这说明我国对于教育数据的挖掘不仅从广度方面有了一定的进展, 研究的深度和综合运用方面也有了一定的突破, 从理论的研究转变为开始关注应用的研究。以下是本人在“中国知网”使用标准检索以“数据挖掘”和“远程教育”、“网络教学”、“网络教育”为检索条件, 检索论文的结果如下:

由此可以看出, 近几年学术论文的数量多于学位论文的数量, 研究的广度在不断扩大, 在教育领域的研究已有很大的扩展, 在研究的深度方面还需加强。

四、教育数据挖掘研究的内容和方法

教育数据挖掘的研究根据研究内容的性质可以分为:方法介绍和理论的描述性研究, 可行性分析研究, 案例分析和应用性的研究。

方法介绍和理论的描述性研究:研究的主要是教育数据挖掘理论的知识以及对教育数据挖掘方法的介绍。

可行性分析研究:对于网络教育系统来说, 网络教育课程中哪些板块可以使用数据挖掘技术挖掘出相应的信息, 以及对这些信息进行分析, 分析是否可以促进教育教学。

案例分析和应用性研究:对教学系统中一些可以应用数据挖掘手段进行数据分析, 从而对教学进行改进, 实际运用于教育教学中去。

根据国内2003-2013年的相关的论文做分析, 目前国内对于教育数据挖掘的研究对于理论和方法的描述性研究较多, 而对于一些案例分析和应用性的研究是相对薄弱的一些环节。教育数据挖掘方法可以分为五类:统计分析和可视化、聚类、预测、关系挖掘 (关联规则挖掘、序列模式挖掘、社会网络分析) 、文本挖掘。对2003年到2013年的论文进行分析, 其中较普遍的方法有以下几种:

1、预测。其表现在使用数据挖掘技术、历史数据和未来状况的假设, 预测如顾客对某报价有所反映的或购买某一产品的可能性等时间的结果。在教育领域, 比如用学生历史的学习记录和课后讨论的记录来预测学生是否能通过测试。

2、关联规则挖掘和序列挖掘。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。正如大多数数据挖掘技术一样, 关联规则的任务在于减少潜在的大量杂乱无章的数据, 使之成为少量的易于观察理解的静态资料。关联式规则多不考虑项目的次序, 而仅考虑其组合。在教育领域关联规则用来分析当一个学生学习了课程A后, 他还会学习课程B的概率和学习学习了课程A后还会学习那些内容的问题, 通过关联规则分析, 在课程设计时就可以设计相关的内容, 供学生学习, 同时也能优化教学和管理。序列模式挖掘旨在找出相关内容依照时间序列出现的内在模式, 可以用来分析学习者的学习趋势, 有利于针对不同层次的学生开展因材施教等。

3、文本挖掘。文本挖掘是指将数据挖掘技术应用在大量的文本集合上, 发现其中隐含的知识的过程。文本挖掘在教育领域体现在对学习论坛网站的留言信息以及问答和讨论区进行挖掘, 发现学生存在的问题, 然后进行课程的改进。

五、目前我国在教育数据挖掘方面存在的问题

最近几件教育数据挖掘在我国取得了一定的成就, 但也存在以下几点问题:

1、偏重理论的研究较多, 而对于应用研究相对缺乏

理论最终要为实践提供服务的, 但是我的对教育数据挖掘的理论研究较多, 却没有将理论运用于实际的教育教学当中, 研究之前大量的教育数据被浪费, 在研究之后这些数据仍旧没有被合理利用。

2、研究方法过于单调

研究的方法一般应用了文献研究法, 而用数据挖掘方法来进行实际的挖掘的比较少, 对教学系统中存在的大量的数据没有用数据挖掘的方法分析出数据, 而只是针对现有文献的一些归纳或者对已存在的教育数据挖掘方法的一些描述。分析此原因有可能是因为数据挖掘涉及的领域比较多, 而研究方法也普遍较难, 所以一般都用比较简单的方法进行研究。

3、研究的人员比较单一

目前, 研究教育数据挖掘的人员主要是一些高等院校的教育工作者、硕士和博士研究生等, 而对于一些中小学的教师来说数据挖掘相对比较难, 这样中小学的老师参与的也比较少, 而教育领域中缺了这些在一些奋战的教师们是不可以的, 他们拥有最丰富的经验却苦于相应的理论和指导, 所以教育数据挖掘在中小学缺乏实践的人才。

六、总结

教育数据挖掘在我国起步较晚, 但从之前的统计可以看出经过这几年的发展, 教育数据挖掘发展已经有了一定的进步, 而且研究者们已经开始关注应用的研究。对于存在的问题, 教育决策者们和教育实践者一起共同努力, 不断地改进, 使教育数据挖掘产生的数据应用于教学过程中, 这样才能对教学有帮助。

摘要：本文试图通过文献法以及统计分析法, 通过对数据挖掘在教育领域的应用方面的文献的研究, 分析数据挖掘在教育方面的发展现状和一些不足, 最后做出总结。

关键词：数据挖掘,国内,国外,教育

参考文献

[1]Jiawei Han, Micheline Kamber著.数据挖掘概念与技术[M].范明, 孟小峰, 译.北京:机械工业出版社, 2001.

[2]Heiner Cetl Preface in Workshop on Educational Data Mining at the 8th International Conference on Intelligent Tubring Systems Taiwan, 2006.

[3]Ryan Shaun Joazeiro de Baker, Tiffany Barnes, Joseph E Back (Eds.) .The1st International Conference on Educational Data Mining Proceedings[DB/OL].http://www.educationaldata mining.org/EDM2008/index.php?page=proceedings.

[4]Romero, Ventura.Educational Data Mining:A Survey from 1995 to2005[J].Expert Systems with Application, 2007 (33) :125-146.

[5]Baker, Yacef.The State of Educational Data Mining in 2009:A Review and Future Visions[EB/OL].http://www.educationaldatamining.org/JEDM/images/articles/voll/issuel/JEDMVollIssuel_BakerYacef.pdf.

[6]Kenneth C.Laudon and Jane P.Laudon, Management Information Systems, Pearson, 07 March 2011, Chapter6 Information systems Organizations and Strategy p.153.

领域知识数据挖掘篇6

客户关系管理 (Customer Relationship Management, CRM) 的概念起源于二十世纪八十年代初, 最早由美国的Gartner Group提出, 其核心思想是以"客户为中心", 提高客户满意度, 改善客户关系, 从而提高企业的竞争力, 最终实现企业利润最大化。CRM既是一种概念, 也是一套管理软件和技术。

客户细分 (Customer Segmentation) 是指按照一定的标准将企业的现有客户划分为不同的客户群, 并提供有针对性的产品、服务和营销模式的过程。客户细分是客户关系管理的核心概念之一, 是实施客户关系管理重要的工具和环节。

数据挖掘 (Data Mining, DM) , 又称为数据库中知识发现 (Knowledge Discovery from Database, KDD) , 它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程[1]。数据挖掘技术的迅速发展, 主要得益于目前全世界所拥有的海量数据资源, 以及将这些数据资源转换为有用的信息和知识的迫切需求。

1、客户细分的主要方法

客户细分的目的, 就是要更精确地回答谁是我们的客户, 客户有哪些实际需要, 企业应该去吸引哪些客户, 应该重点保持哪些客户, 应该如何迎合重点客户的需求等重要问题。胡少东将客户细分的方法分为基于客户统计学特征、基于客户行为、基于客户生命周期和基于客户价值相关指标四类[2]。刘英姿等将以客户为导向的细分方法分为人口统计细分、生活方式细分、行为细分和利益细分等四种[3]。

1.1 基于客户统计学特征的客户细分

客户统计学特征主要包括客户的年龄、性别、收入、地区、职业、职位、受教育程度、家庭成员数量等要素, 细分的依据就是客户的需求主要是由其社会和经济背景决定的。该方法简单易行, 客户易于辩认, 易于组织营销手段。然而经济和市场的全球化、全国化以及信息技术的迅猛发展, 逐渐削弱了客户与地理特征的关联性, 降低了这种细分方法的有效性。并且这些描述性的因素, 不足以预测客户未来购买行为。

1.2 基于客户行为的客户细分

基于客户行为的细分就是依据客户以往和现在的行为来预测将来的行为, 其实现是通过分析数据库中已有客户的消费行为模式来将客户分类。该方法通常只能适用于现有客户, 而无法对潜在客户进行定义和评价。即使对于现有客户, 它也难以反映客户的满意度、忠诚度等, 企业还得结合其它的数据分析工作来全面评估客户。基于客户行为进行客户细分的主要方法有RFM分析和客户价值矩阵分析。

1.3 基于客户生命周期的客户细分

客户的生命周期指一个客户和一个企业之间不同的关系阶段。由于客户和企业的关系是随时间不断地发展变化的, 处于不同关系阶段的客户有不同的特征和需求, 所以依据客户生命周期进行客户细分也就成为一种重要的细分方法。关系阶段划分比较有代表性的是Dwyer, Schurr和oh的研究, 他们提出了买卖关系发展的一个五阶段模型, 陈明亮以Dwyer等人的五阶段模型为基础, 将客户关系的发展划分为考察期、形成期、稳定期、退化期四个阶段, 称为四阶段模型[4]。这种细分方法能够使企业针对客户所处阶段进行有针对性营销, 促使客户向稳定期发展, 或者延长稳定期。该方法不足之处在于难以识别相同生命周期阶段的客户差异, 还需结合有关客户属性综合评估客户价值。

1.4 基于客户价值相关指标的客户细分

基于价值的客户细分的基础是客户为企业带来的盈利能力和价值, 主要方法有有:利润分类法和客户价值细分理论。利润分类法的依据就是大家都比较熟悉"二八法则", 即20%的客户带来80%的收入甚至超过100%的盈利。该方法较为简洁, 易于操作, 对企业来说, 最主要是要识别能带来绝大部分利润的20%的客户。客户价值细分理论选择了"客户当前价值"和"客户增值价值"两个维度指标。但是这两个细分维度的计算是以客户关系稳定为基本前提的, 但绝对稳定的客户关系是不存在的, 所以影响了细分的质量。很多人提出了对客户生命周期价值模型的扩展, 比如增加客户发展潜力和增加客户忠诚维度等等。

1.5 其它的客户细分方法

客户份额是指每个客户从本公司购买某一类商品的数量占该客户购满该类产品总数量的百分比, 其在市场信息中已经起到越来越重要的作用, 也可以作为客户细分的基础。

满意度是客户通过对一个产品的可感知效果与他的期望价值相比较之后, 所形成的愉悦或失望的感觉状态。基于客户满意度的客户细分体现了客户关系管理的精髓:一切关注客户, 一切以客户满意为中心。

对生活方式维度的研究也是源于一种假设--对客户了解得越多, 对他们就能采取越有效的营销手段。生活方式本身是一个系统的概念, 具体表现为从社会生活机制中衍生并发展起来的各种方式。

2、数据挖掘算法在客户细分中的应用

数据挖掘技术是一个新兴的多学科交叉应用领域, 在银行、电信、保险、交通和零售等商业应用领域都发挥着积极的作用。数据挖掘中的决策树、聚类分析和神经网络方法广泛应用于商业软件中, 它们在客户细分领域同样发挥着重要的作用。

2.1 决策树

当数据挖掘的任务是对记录的分类或者未知结果的预测时, 决策树方法是一个好的选择。决策树就是一个类似流程图的树型结构, 其中树的每个内部结点代表对一个属性值的测试, 其分支就代表测试的每个结果, 而树的每个叶结点就代表一个类别, 树的最高层结点就是根结点。从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。决策树可以很容易转换为分类规则。典型的决策树算法有ID3算法和C4.5算法。

2.2 聚类方法

当怀疑存在一些自然分组, 可以代表彼此之间有诸多共性的客户群体时, 就可以使用聚类方法。将一群物理的或抽象的对象, 根据它们之间的相似程度, 分为若干组, 其中相似的对象构成一组, 这一过程就称为聚类过程。

在客户细分的应用中, 聚类方法与大多数算法相比, 它更易于理解, 尤其当输入变量是数值型时, 这种算法效果比较好。聚类方法是一种无监督的方法, 不需要使用者具备相应的先验知识。但是得到的聚类结果算法无法自行解释, 只有依靠其它的方法来理解, 例如决策树方法。常用的聚类算法有K-means算法和模糊C均值 (FCM) 聚类算法。

2.3 人工神经网络

如果在分类和预测中模型的结果比了解模型的原理更为重要, 那么神经网络就是很好的选择。神经网络起源于生理学和神经生物学中有关神经细胞计算本质的研究工作。神经网络的优点是对噪声数据有较好适应能力, 并且对未知数据也具有较好的预测分类能力。当有成百上千个特征量要输入时, 神经网络效果就不是很好, 这时可以和决策树结合起来使用[5]。

2.4 其它方法

关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识, 市场购物篮分析方法就是一个典型的应用。该方法可以通过标记现有的客户已经拥有哪些产品群, 如果客户已经拥有该产品系列的一种或几种, 很显然, 他就是该系列其它产品的潜在客户, 这样可以对客户进行分类和预测。

粗糙集理论是一种新的处理模糊和不确定性知识的工具, 其主要思想就是在保持分辨能力不变的前提下, 通过知识约简, 导出问题的决策或分类规则。它由波兰数学家Pawlak Z于1982年最初提出的。近年来, 由于粗糙集在数据挖掘和人工智能等领域的有效应用而受到广泛关注。

云模型作为一种描述非确定性关系的数学方法, 最早是由李德毅等人提出, 它把模糊性和随机性相结合, 构成定性描述和定量描述间的互相映射。基于云模型的动态客户细分模型, 可以体现客户行为的不确定性和随机性特征。

3、总结

客户细分是客户关系管理的基础, 但是每种细分方法都有其优点和缺点, 没有绝对有效的细分方法可以满足企业全部的需求。企业应该根据实际的需要, 采用多种细分方法结合使用, 结合客户多种属性从多个维度进行客户细分将是客户关系管理的重要内容。随着客户数据库的丰富, 数据挖掘技术的发展, 企业遵循数据挖掘的标准流程, 最大限度利用客户数据, 选择适合的数据挖掘算法, 全面的评估客户, 并采取相应的客户策略, 达到吸引优质客户, 保持现有客户, 建立客户忠诚和提高客户满意度的目的。

参考文献

[1].朱明.数据挖掘.合肥:中国科学技术大学出版社, 2002

[2].胡少东.客户细分方法探析.工业技术经济, 2005, 24 (7) :66-69

[3].刘英姿, 吴昊.客户细分方法研究综述.管理工程学报, 2006, 20 (1) :53-57

[4].陈明亮.客户生命周期模式研究.浙江大学学报 (人文社会科学版) , 2002, 32 (6) :66-72

领域知识数据挖掘篇7

1 数据挖掘简介

数据挖掘(Data Mining)就是从随机的、不完全的、大量的、模糊的、有噪声的实际应用数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的知识和信息的过程。

1.1 数据挖掘方法

在数据挖掘中常用的分析方法包括：

1)分类(Classification)：首先从海量的数据中筛选出经过分类的信息训练集，在信息该训练集中采用数据挖掘技术进行分类，并且创建分类模型，对那些没有分类数据重新分类，其中那些类的个数是预先定义好的、并且是确定的。例如信用卡申请者，分类为高、中、低风险。

2)估计(Estimation)：估计与分类在机理上相类似，它们的区别是，估值处理连续值的输出而分类描述的是离散型变量的输出;估值的量是不确定的而分类的类别是确定数目的。具体来说，估值能够被看成是分类的上一步的工作，给定一些输入数据，通过估计操作，得到一些未知的具有连续变量的值，然后，根据分析预先设定的一些阈值，进行分类。例如：银行对与各个不同家庭贷款，运用估计，给各个客户打分。然后根据得到的阈值，将贷款级别分类从而进行差别待遇的放贷。

3)预测(Prediction)：一般来说预测是通过估值和分类起作用的，换而言之，通过估值或者分类得出模型，通过得出的模型能够对未知变量的预测。通过这种方式来看，预言并没有必要被分成一个独特的类。预言的目的是通过变量的分析，对未来变量的一种预测，这种预测是可以在未来得到验证的，也就是说，经过一段时间后，就可以知道得出的预言的准确性。关联规则和相关性分组决定哪些事情会在一起发生。例如：超市中客户在购买A产品的同时，经常会购买B产品，那么A=>B(关联规则)。

4)聚类(Clustering)：聚类是对要分析的记录进行分组，通过分析，把得到的相似记录放在同一个聚集里。分类和聚类的不同之处是聚集不需要训练集、不依赖于预先定义好的类。一般来说，数据挖掘分析的第一步操作就是聚集。例如，"在一个企业，某一种促销能够在那一类客户中得到最大的影响?"，对于这种命题，数据挖掘首先需要对企业所有的客户进行聚集，把所有的客户放在各自的聚集里，然后对得到的那些聚集进行分析，这样很容易就能得出结果。

5)描述以及可视化(Description and Visualization)是数据挖掘得出的结果的一种表达方式。

1.2 数据挖掘的过程

1)确定业务对象：清晰地定义出业务问题，认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的，但要探索的问题应是有预见的，为了数据挖掘而数据挖掘则带有盲目性，是不会成功的。

2)数据准备：(1)数据的选择，搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。(2)数据的预处理，研究数据的质量，为进一步的分析作准备。并确定将要进行的挖掘操作的类型。(3)数据的转换，将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

3)数据挖掘：对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外，其余一切工作都能自动地完成。

4)结果分析：解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定，通常会用到可视化技术。

5)知识的同化：将分析所得到的知识集成到业务信息系统的组织结构中去。

数据挖掘过程如下图所示：

2 采用数据挖掘技术提高金融业核心竞争力

知识特征是如今金融行业具有核心竞争力的标志，金融行业中核心竞争力主要表现为知识竞争力。那么增强金融行业企业核心竞争力的有效方法应该着力点在于挖掘金融企业内在的知识，尤其是隐性知识，从而可以采取与之对应的策略。从某种程度来说，数据挖掘的本质就是挖掘金融企业内在知识，因此，采用数据挖掘技术能够提高金融企业的核心竞争力。

1)分析企业内部知识

企业内部知识主要包含与企业管理经营有关的生产方式、组织结构、组织建立方式内部人际关系、人力资源以及战略等知识、以上的知识对于协调企业内部的各种经营活动有很大的意义。采用数据挖掘技术，金融企业管理者可以对企业内部各种离散的知识、信息进行采样、分析和管理，并基于采样分析的结果得出未来企业经营可能会出现的一些问题，这样就能够采取应对措施，以使得企业不断的得以进步。

2)挖掘金融企业外部知识

企业的外部知识一般来说是市场知识，这类知识是企业赖以生存的基础，没有或者缺乏市场知识，那么企业可能不能在市场上运作。市场知识还可以分为潜在的和现实的市场、竞争对手的情况、供应商信息和客户信息都是可能对企业造成影响的外部因素，市场知识对于一家企业的营销有重大的意义，有充分的市场知识使得企业容易制定正确的战略决策。数据挖掘技术可以通过对那些企业外部知识的收集分析，得出对企业发展有潜在重大影响或者有重大影响的外部环境信息，使金融企业能抓住市场的机遇，改变经营策略，使得企业能够持续发展。

3 数据挖掘技术在金融行业的应用

金融行业一般需要收集和管理大量复杂的数据，大部分金融机构和银行提供各种各样的投资服务(如理财基金)、信用服务(如个人信用卡、贷款)和银行服务(如个人存款)。由于信息的不对称性、交易的频繁性以及金融行业海量的数据信息，数据挖掘技术能够从上述信息中收集到有效的信息，从而帮助投资部门和管理部门进行有效的投资管理和监督，并且还能够帮助金融企业根据客户以往的信息预测未来，这就能够分析出潜在的信誉较差的客户，帮助金融企业采取必要的措施减少坏账和财产损失。

金融机构收集到的金融数据通常具有高质量、完整并且相对可靠，这就方便了系统化的数据挖掘和数据分析。对金融数据的数据挖掘通常有以下一些应用分析情况：

1)顾客信用政策分析和贷款偿还预测

顾客信用政策分析和贷款偿还预测对银行业务有着非常重要的意义。许多因索都会对顾客信用等级和贷款偿还评定和履行产生不同的一些影响。数据挖掘的方法，如属性相关评定和属性选择，能够有助于剔除不相关因索、识别重要因索。比如与贷款偿还风险相关的因索包括负债率、信用史、受教育水平、居住地区、偿还收入比、顾客收入水平、贷款期限和贷款率。通过分析顾客的偿还史可以发现，偿还收入比是主要的影响因索，受负债率和教育水平就不是，于是，通过这样的数据挖掘，银行能够根据上述规则制定贷款发放策略，有许多贷款申请曾经被拒绝，但是基本信息表面其风险是相对较低的顾客将能够获得审批。

2）为多维数据分析和数据挖掘设计和构造数据仓库

首先需要为金融数据和银行数据构造数据仓库，可以采用多维数据分析方法去分析这种数据的所有属性，企业可以通过按部门、按地区、按月或者其他一些因索，查看税收和债务变化，同时提供总和、最小、最大、平均值和其它一下统计信息。数据立方体、数据仓库、多表征和事件驱动的数据立方体、离群点分析、类比较和特征化都会在数据挖掘和金融数据分析中发挥很大的作用。

3)洗钱犯罪和其它金融领域各种犯罪的侦破

帮助洗钱犯罪和其它金融领域各种犯罪的侦破，并且把金融领域中数据库(如不同地区金融犯罪数据库以及个人、企业银行交易数据库)中的信息相互交叉集成，从而得到的数据可能对侦破工作有帮助。然后可以采用一些数据分析工具异常模式的检测，例如在一个月内某个人发生了大量现金转入或者转出流动。使用的工具包括分类工具(对高度相关属性分类并且过滤不相关的属性)、数据链接分析工具(识别不同活动和顾客之间的联系)、序列模式分析工具(刻画异常访问序列的特征)、可视化工具(用图形的方式按顾客群或者按时间显示交易活动)、离群点分析工具(检测异常资金转移量或其他行为)、聚类工具(将不同案例分组)。上述这些工具能够识别活动的重要模式和联系，帮助司法人员为详细调查提供进一步线索。

4)针对定向销售的顾客聚类和分类

聚类和分类的方法可用于顾客群识别和定向销售。使用多维聚类技术，可以识别对贷款偿有类似行为的顾客，使用分类识别可以影响顾客关于银行业务决策的最重要因索。这些可以帮助金融企业识别顾客群，把所识别的顾客群归类到一个合适的顾客群，从而进行引导和推动性的消费。

4 结束语

数据挖掘技术、数据仓库和决策支持系统都是目前数据分析领域的前沿科学。在金融领域，随着越来越多的金融机构开始使用管理信息系统以及信息的爆炸式增长，把数据挖掘技术应用到金融行业各个领域中，从而建立金融行业管理决策系统，这一定可以为金融行业各级领导部门的运营决策提供切实可行的优化金融资源、提高金融质量的依据，为金融机构在未来的发展中发挥重要的作用、提供更广阔的空间，使得金融行业在激烈的竞争中掌握主动，为金融行业的跨越式发展起到一个科学导向作用。

参考文献

[1]李嶶,李宛州.基于数据仓库技术的进销存系统的设计与实现[J].计算机工程与应用,2001(10):93-94.

[2]Jiawei Han.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[3]Inmon W H.数据仓库[M].机械工业出版社,2000.

[4]林字,等.数据仓库原理与实践[M].北京:人民邮电出版社,2003.

[5]张春阳,周继恩,刘贵全,等.基于数据仓库的决策支持系统的构建[J].计算机工程,2002(4):249-252.

[6]陈德军,盛翊智,陈绵云.基于数据仓库的OLAP在DSS中的应用研究[J].计算机工程与应用,2003(1):30-31.

[7]朱明.数据挖掘[M].合肥:中国科技大学出版社,2002.

领域知识数据挖掘篇8

随着网络技术的发展, 尤其是近年来电子商务、电子政务、网络银行等网络业务的快速发展, 计算机网络已成为我们日常生活中的一部分。与此同时, 日益严重的网络安全问题成为制约网络技术发展的一大障碍。目前解决网络安全采取的主要技术手段有防火墙、安全路由器、身份认证系统等, 这些安全产品大多数属于静态安全技术的范畴。静态安全技术对防止系统非法入侵起到了一定的作用, 但从安全管理角度来说, 仅有防御是不够的, 还应采用动态策略。入侵检测 (Intrusion Detection) 技术就是这样一种动态策略, 它能够对网络安全实施实时监控、攻击与反攻击等动态保护。

网络的大规模使用产生了海量的安全审计数据, 怎样收集、处理这些数据, 并从中识别出入侵行为是网络安全研究的核心问题, 因此入侵检测技术实质上可以归结为对安全审计数据的处理。而数据挖掘技术能发现隐藏在大量数据中的潜在知识, 将数据挖掘的技术引入到入侵检测中来, 可以使得系统在智能、准确性和扩展性方面有很大的提高[1,2]。

1 系统体系结构

Wenke Lee、Salvatore J.Stolfo等人提出了一种基于数据挖掘的实时入侵检测系统 (IDS, Intrusion Detection System) 。如图1所示。

整个体系结构包含了传感器, 检测器, 一个数据仓库以及一个模型生成器组件。这个体系结构不仅支持数据的收集、共享和分析, 还能够支持数据的归档以及检测模型的生成和分发, 而且与传感器数据格式和模型表示无关。其中传感器数据块包含任意数目的特征, 可以是连续或离散的, 数字或符号的。在这个结构体系中, 其模型可以是神经网络模型、规则集模型或概率模型[4,6]。为了处理这种异构性, 系统采用XML语言编码以便每个组成部分都能够方便的交换数据或模型, 同时结合了CIDF (Common Intrusion Detection Framework) 或IDMEF (Intrusion Detection Message Exchange Format) 在标准化方面的成果。各组成部分之间的数据和模型交换按照标准信息格式进行编码, 这有利于攻击信息的安全交换和分布式入侵的协作检测。该体系结构的最主要的优点在与它的高性能和可测性。近来数据挖掘技术的快速发展已从统计学、模式识别、机器学习和数据库等领域中得到了大量的算法, 其中的一些算法尤其适用于入侵检测, 如:分类、关联规则分析和序列规则分析等。

2 分类 (classification)

分类就是在已有数据的基础上, 通过学习, 构造一个分类函数或分类模型, 也称之为分类器[3]。该函数或模型能够把数据库中的记录映射到给定类别中的某一个, 从而应用于数据预测。分类的目的输出是离散的类别值。运用分类器检测入侵事件, 可以判断哪些代码是恶意的攻击, 从而采取措施, 避免不良的后果。从数学的角度来看, 分类是一个映射的过程, 分类器将未标明类别的二进制代码映射到不同的类别中, 用数学公式表示如下:

其中, A为待分类的代码集合, B为分类体系中的类别集合。构造分类器是进行分类的关键。分类器的构造方法有统计方法、机器学习方法和神经网络方法等。统计方法包括贝叶斯法和非参数法, 对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树和规则归纳法;神经网络方法主要是BP算法;现在又兴起了粗糙集的方法, 其知识表示是产生式规则。要构造分类器, 首先必须掌握每类若干样本的数据信息, 将这些数据分为训练样本集和测试样本集两部分, 然后经过训练、测试和算法应用3个阶段来构造代码分类器。在训练阶段, 分析训练样本集合中的数据记录的特征属性, 通过特征抽取, 总结出分类的规律性, 建立相应的判别公式和判别规则, 从而为每种类型标识生成精确的分类规则描述, 也就是分类的映射规则。在测试阶段, 利用这些分类规则对测试样本集合中的数据进行测试, 来检验分类规则的正确性和精度, 并根据测试结果, 修正分类的映射规则。在此基础上, 运用贝叶斯算法, 进行机器学习, 从而构造出代码分类器, 在遇到新入侵时, 就可以运用这个分类器对实际数据进行分类, 确定入侵的类别。一般来说, 测试阶段的代价远远低于训练阶段。

对分类模型进行评估主要用到下列指标:一是预测精度, 分类器正确预测新的或先前未见过的数据类的能力;二是学习效率, 产生和使用分类器的时间;三是健壮性, 给定噪声数据或具有空缺值的数据, 分类器正确预测的能力。这些指标较全面地反映了分类模型的性能。

3 关联规则 (Association Rules) 分析

关联规则挖掘的目的在于寻找数据库表中的多个特征之间的相互关系。假设有一个记录集合, 其中每个记录又是一个数据项集。我们把包含数据项集X的记录所占的百分比定义为支持度 (X) 。于是一个关联规则可用这样一个表达式表示:X→Y, [C, S]。这里X和Y都是数据项集, 而且X∩Y=Á, S= (X∪Y) 的支持度, 并称它为这个规则的支持度;C=S/ (X) , 这里 (X) 为支持度, 把C记为可信度。例如从表1可知:Service=Smtp→Src2Byte=200, [0.5, 0.25]。表示使用网络连接的服务为Smtp时, 用户有50%的次数使用到其的Src2Byte=200, 它在整个服务中占了25%。我们把那些用作数据项的约束形式的基本特征称为轴特征, 并把关联规则限制在那些包含了轴特征的输出规则上, 这样我们就不必分析所有的基本特征。

关联规则可以按不同的情况进行分类:

(1) 基于规则中处理的变量的类别, 关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的, 它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来, 对数值型字段进行处理, 将其进行动态的分割, 或者直接对原始的数据进行处理, 当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书”, 是布尔型关联规则;性别=“女”=>avg (收入) =2300, 涉及的收入是数值类型, 所以是一个数值型关联规则。

(2) 基于规则中数据的抽象层次, 可以分为单层关联规则和多层关联规则。在单层的关联规则中, 所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中, 对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机, 是一个细节数据上的单层关联规则;台式机=>Sony打印机, 是一个较高层次和细节层次之间的多层关联规则。

(3) 基于规则中涉及到的数据的维数, 关联规则可以分为单维的和多维的。在单维的关联规则中, 我们只涉及到数据的一个维, 如用户购买的物品;而在多维的关联规则中, 要处理的数据将会涉及多个维。换成另一句话, 单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布, 这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”, 这条规则就涉及到两个字段的信息, 是两维上的一条关联规则。

关联规则算法的挖掘主要有两个步骤[4]。

(1) 找出所有频繁项集。通过用户给定的最小支持度, 寻找所有频繁项目集, 即满足支持度的不小于min-sup的项目集, 当有频繁项目集可能具有包含关系时, 找出不被其他频繁项目集所包含的项集称作频繁大项目集 (Frequent Large Item Set) ;

(2) 由频繁项集生成关联规则。通过用户给定的最小置信度 (min-con) , 在每个最大频繁项目集中, 寻找置信度不小于min-con的关联规则。

4 序列规则 (Sequence Rules) 分析

序列规则和关联规则相似, 其目的也是为了挖掘出数据之间的联系, 它们的不同之处在于序列规则加入了时间的概念。序列模式挖掘有几个重要的参数, 如时间序列的持续时间, 事件重叠窗口和被发现的模式中时间之间的时间间隔。还可以在要挖掘的序列模式上指定约束, 方法是提供“模式模板”, 其形式可以是系列片段 (Serial Episode) , 并行片段 (Parallel Episode) , 或正则表达式。序列分析适用于发现分布式攻击和插入噪声的攻击。由于各种攻击方法的规模的扩大和时间持久, 序列规则分析变得越来越重要。

序列分析算法的功能是寻找序列模式。这些算法能够发现频繁发生的审计事件的基于时间的序列[5]。这些频繁模式为报警分析模型提供了临时统计量。本系统主要使用的是频繁片段 (Frequent episodes) 算法。频繁片段主要表示审计记录之间的模式, 这些模式说明了连续发生事件之间的关系。其定义如下:给定一个事件数据库D, 其中每个事务与一个时间戳相关, 一个区间[t1, t2]是指事务序列从时间戳t1开始并且结束于t2。区间长度定义为t2-t1。给定D中的一个项集A, 如果一个区间包含A且其中没有包含A的子区间, 则该区间称为A的一个最小发生区间。Support (X) 定义为包含项集X的最小发生区间的个数与D中记录数的比率。一条频繁片段规则定义为以下的表达式:

其中, Li (1≤i≤n) 和Rj (1≤j≤m) 为片断 (在D上给定时间区间内出现的事件的有序集合) , s是L1, L2, ..., Ln, R1, R2, ..., Rm的支持度, c是该规则的可信度, 并且每个发生区间的长度必须小于window。串行 (serial) 片段规则还要求L1, L2, ..., Ln, R1, R2, ..., Rm必须按照时间顺序依次发生。s, c如下式表示:

s0, c0是选定的最低支持度和最低可信度。

网络入侵很多是与时间紧密相关的, 因而原始报警也是与时间紧密关联的, 因此频繁片段模式在报警数据挖掘中就显得尤为重要。

5 结束语

入侵检测技术的研究是目前网络安全研究的热点, 针对现有的大多数入侵检测系统具有自适应性差、误报警率和漏报率高以及无法承载大量数据等缺陷, 本文介绍了基于数据挖掘的入侵检测系统结构模型, 阐述了数据挖掘算法在入侵检测系统中的应用。

入侵检测采用的技术有多种类型, 而基于数据挖掘技术的入侵检测技术成为当前入侵检测技术发展的一个热点, 但数据挖掘和入侵检测都是一个正在快速发展的领域, 因此有必要对此进行更深入的研究。

参考文献

[1]洪飞龙, 范俊波, 贺达.数据挖掘在入侵检测系统中的应用研究.计算机应用, 2004年12月

[2]吕锡香, 杨波等.基于数据挖掘的入侵检测系统检测引擎的设计.西安电子科技大学学报 (自然科学版) , 2004年8月

[3]罗可林, 睦纲等.数据挖掘中分类算法综述.计算机工程, 2005年1月

[4]张译, 刘衍珩等.基于关联规则的入侵检测系统.吉林大学学报 (信息科学版) , 2006年3月

[5]宋世杰, 胡华平等.基于序列模式挖掘的误用入侵检测系统框架研究.计算机工程与科学, 2006年第28卷第2期

领域知识数据挖掘篇9

1 数据挖掘技术

数据挖掘(Data mining)是指从大型数据中通过算法发现或提取有意义、有潜在价值、新颖的信息与规律等知识。Shapiro在1989年8月举行的第11届国际联合人工智能学术会议上,首次提出数据库中知识发现一词——数据挖掘技术。随后,很快吸引了大量数据库工作者转向数据挖掘的研究。

经历了20余年的发展,数据挖掘的算法日趋成熟,融合了模式识别、数字图像处理、数据库技术、信息检索、数理统计等众多技术。数据挖掘是一个复杂的过程,它是由多个流程组成的,随不同领域的应用这些流程会有所变化,一般的流程为问题定义、数据准备、数据转换、数据挖掘、结果评估、知识的发现和应用。这些流程的顺序并不是线性的,而且为了取得好的数据挖掘结果常常需要反复。数据挖掘的方法主要有概念描述、关联分析、分类、聚类分析、异常检测等。

2 数据挖掘在医学信息领域的重要意义

医学信息的形式多样,包括文字、图像、声音、视频等形式,它涵盖了生物信息学、药物信息学、医学图形信息学等学科,同时,具有隐私性、冗余性、不完整性、模糊性且带有噪声等特点。数据挖掘作为一种数据处理技术,从医学数据信息中寻找潜在的关系或规律,从而获得有效的对病人进行诊断、治疗,增加对疾病的预测准确性,实现疾病的早期发现,提高治愈率,为医学信息领域提供了新的方法[1]。

1)医学数据挖掘技术有助于提高数据分析效率,增加产生新知识的速度。医学数据库是一个庞大的信息库,有海量的数据,而且数据的形式多样,要在这样的数据信息中找到有价值的信息,采用传统的方法需要花费更多的时间。利用数据挖掘技术,可以分析数据的趋势变化和规律,减少数据冗余和重复性的影响,减少数据量,选择合适的算法制定规则还可以实现自动化分析。如数据挖掘技术分析电子病历中分散、非结构化数据,进行自动化的数据采集[2]。

2)医学数据挖掘技术可以提供知识的准确性和可靠性,提高疾病的治愈率。日常医疗中通常采用抽样的方法获取样本,结果导致往往只有一部分符合特定要求,存在样本的局部性并影响真实性。数据挖掘技术从数据的整体性出发,通过概率抽样、评估、假设验证等过程提取信息中的共性特征和个性差异,弥补了随机对照实验的不足。理论上还能够根据病人的个体差异,给出个性化治疗方案。如通过整合系统生物学与电子病历数据,医学数据挖掘技术为个性化医疗计划转变为临床实践提供机会。

3)医学数据挖掘技术可以用于预测建模,辅助临床诊断和推荐治疗措施。大量的研究和大数据的到来,使得大部分临床医生的知识转化变得非常困难,难以跟上最新的知识来指导临床诊断。数据挖掘预测建模,根据特定信息对离散数据进行预测。谷歌公司利用人们在网上检索的与流感相关的记录建立了数学模型,成功的预测流感传播和发生的地点。又如癌症早期诊断中,利用数据挖掘技术对癌症患者做出诊断和提出治疗方案。

3 数据挖掘在医学信息领域的应用

医学信息与数据挖掘都是快速发展的前沿研究,复杂多变的需求分析及医学信息数据的特点,使医学信息的数据分析迫切需要数据挖掘技术的支持。医学信息中的很多内容,如在医疗管理、疾病诊断和医学科研方面,都在数据库技术中找到了支持。

1)医疗管理。目前,随着数字化的普及,很多医院都建立了庞大的数据库,目前主要有医院信息系统(hospital information system,HIS),它分为管理信息系统和临床信息系统,管理信息系统主要处理诸如人事、财务和设备管理等医院内部管理方面的信息,临床信息系统主要处理患者相关信息。从数据库中运用数据挖掘技术,来分析和发现数据的各种信息,可以帮助医院决策者更好的制定管理策略[3]。按照数据挖掘的需求,进行关联分析、分类分析、聚类分析等挖掘算法,可进行医院费用分析、医疗质量管理、医用耗材管理、住院患者人群分类等。

2)疾病诊断。面对日益庞大的病案数据,仅依靠临床经验,容易出现诊断错误,针对临床数据库、医学图像等,数据库挖掘技术也发挥着重要的作用。

决策树算法帮助医生从大量数据中寻找规律,提高准确率。应用聚类算法、关联规则等还可以进行疾病诊断因素和疾病关联等方面的分析,如实现癌症的早期诊断和预防等。

医学图像随着医疗设备的发展,种类都越来越多,医学图像中蕴含这丰富的图像特征和规则信息,使用决策树、神经网络和关联规则等数据挖掘算法,可以辅助医生对病变区域进行分析,提高医学诊断的准确性和正确性。

3)医学科研。基因研究:数据挖掘技术与传统的统计分析,在数据分析的效率上有明显的优势。利用关联规则、聚类分析等有助于发现一组序列的差异及相似性,阐明多个序列间的关系,确定基因种类。

蛋白质结构预测:许多国家组建了蛋白质结构和功能数据库,为科研工作这提供丰富信息的同时,由于数据分散、存储媒介多、数据冗余等复杂性,使用数据库技术进行数据清理,追踪蛋白质数据序列,为蛋白质结构预测提供便利。

药物发现及设计:数据挖掘技术有助于增加新药发现和设计中的主动性并避免盲目性。利用数据挖掘技术对从庞大的化合物数据库中发现药物靶分子,对药物进行筛选、药物毒理学、药物副作用分析,从而降低药物开发的时间和成本[4]。

4 结论

医疗信息的数字化发展和医学研究工作者对高校处理和分析大数据的渴望为数据挖掘提供了广阔的研究空间,也显示了数据挖掘在医学信息领域的发展潜力。利用数据挖掘技术,将帮助医疗管理、临床疾病诊断和医学科研等。相信在不久的将来,数据挖掘在医学信息领域将取得突破性进展。

参考文献

[1]石晓敬.数据挖掘及其在医学信息中的应用[J].医学信息学杂志,2013(34):2-6.

[2]秦文哲,陈进,董力.大数据背景下医学数据挖掘的研究进展及应用[J].中国胸心血管外科临床杂志,2016(1):55-60.

[3]陈郁韩.数据挖掘技术在医院管理中的应用.中国医学装备,2014(1):62-65.