数据挖掘技术的概念(精选12篇)
数据挖掘技术的概念 篇1
摘要:继云计算、物联网和移动互联网后, 大数据成为信息和互联网行业的研究热点。本文通过文献调研法对大数据的概念和技术做了阐释, 并对其在各个行业的应用进行了简单评价, 以期对大数据的研究做出有益补充。
关键词:大数据,信息技术,数据处理
大大数数据据的的概概念念、技术及应用
20世纪中叶计算机的诞生标志着电子时代正式开始, 从此人类社会开始生产并存储各类型的数据。经过数次计算机技术革命, 单位面积所能存储的数据量大大提高。近年来, 由于WEB2.0应用的全面爆发, 网络参与者同时也成了网络信息的制造者, 由WEB2.0带来的大规模非结构化数据开始呈现出几何增长。因此, 麦肯锡公司在2011年的报告《Big Data:the Next Frontier for Innovation》[1]中, 对这种密集型数据爆炸的现象成为“大数据”时代的到来。
1 大数据的概念
大数据的概念并不是凭空出现的, 它的前身是海量数据。但两者之间有所区别。海量数据强调了数据量的规模之大, 并没有对其特性进行定义。而大数据的概念包含了大数据的体积、传播速率、特征等内容。虽然截至目前还没有对大数据有统一的定义, 但被广泛接受的定义为:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合[2]。大数据的特点一般归纳为四点:一是数据总量大, 目前大数据的最小单位一般被认为是10~20TB的量级;二是数据类型多, 包括了结构化、非结构化和半结构化数据;三是数据的价值密度很低;四是数据产生和处理的速度非常快。这四个特点又被称作大数据的4 V理念, 即:Volume, Variety, Value, Velocity[3]。
2 大数据的技术
依据大数据生命周期的不同阶段, 可以将与大数据处理相关的技术分为相应的三个方面:
2.1 大数据存储
从海量数据时代开始, 大规模数据的长期保存、数据迁移一直都是研究的重点。从20世纪90年代末至今, 数据存储始终是依据数据量大小的不断变化和不断优化向前发展的。其中主要有:DAS (Direct Attached Storage) , 直接外挂存储;NAS (Network Attached Storage) , 网络附加存储;SAN (Storage Area Network) , 存储域网络和SAN IP等存储方式[4]。这几种存储方式虽然是不同时代的产物, 但各自的优缺点都十分鲜明, 数据中心往往是根据自身的服务器数量和要处理的数据对象进行选择。
此外, 这两年数据存储的虚拟化从研究走向现实。所谓虚拟化, 就是将原有的服务器进行软件虚拟化, 将其划分为若干个独立的服务空间, 如此可以在一台服务器上提供多种存储服务, 大大提高了存储效率, 节约存储成本, 是异构数据平台的最佳选择。从技术角度来讲, 虚拟化可以分为存储虚拟化和网络虚拟化, 网络虚拟化是存储虚拟化的辅助, 能够大幅度提升数据中心的网络利用率和传输速率。目前IBM、浪潮、思科等公司纷纷发力虚拟化市场, 可以预见虚拟化会成为未来大数据存储的一个主流技术。
2.2 大数据挖掘
在大数据的处理技术中, 超大规模的数据挖掘一直是难点, 也是重点。面对上百TB, 甚至PB级别的异构数据, 常规的处理工具往往难以担当重任。需要考虑到的是大数据是个不断生长的有机体, 因此在挖掘过程中还要考虑到未来数据继续增长所带来的影响。
因此, 大数据的挖掘需要采用分布式挖掘和云计算技术。Google公司一直是分布式挖掘技术的领导者, 它研发了Map Reduce分布式挖掘工具[5], 英特尔公司在此基础上开发了Hadoop分布式挖掘工具。这两个工具都具有高效、高扩展、高可靠性和高容错率的特点, 并提供免费版本, 适用于各种类型的大数据挖掘。
2.3 大数据分析
从内容来说, 大数据的分析分为技术和方法两种类型。从技术上讲, 主要是分布式的数据分析和非结构化数据处理等。从方法上讲, 主要是利用常用的数理统计方法来进行数据分析, 例如使用可视化的数据分析工具。但两者是一个有机的整体。大数据处理的最终目的是为了将数据之间的关系以可视化的方式呈现在用户面前, 包括了处理的全部过程和展现的过程。在数据分析过程中, 不仅仅是需要计算机进行自动化的分析, 更需要人工进行数据选择和参数的设定, 两个是辩证的关系。
随着大数据行业的兴起, 产生了一个新的职业, 被称作数据科学, 而从事该行业的人员被称作数据科学家。这类科学家的一个特点就是能够艺术性地将数据进行可视化分析, 简单明了而且能够展现出数据之间的关联关系。
3 大数据的应用
麦肯锡在大数据的研究报告中指出, 大数据的应用已经渗透到每一个行业和业务职能领域, 逐渐成为了重要的生产因素[6]。按照专业领域划分, 信息技术、互联网行业、商业、遥感探测已经开始应用大数据技术来进行研究和生产效益;生物信息技术、科研情报所、图书情报领域已经对大数据展开了研究, 并进行了规划;其他专业和行业对大数据可能仍处于了解阶段, 但大数据的浪潮很快就会波及大部分的行业领域。
从大数据的应用效果来看, 总体趋势与上述的三类专业呈现出一致性。百度、淘宝等公司作为信息技术、互联网和商业领域的杰出代表, 已经对大数据开始了深度应用, 马云在卸任阿里巴巴CEO时更是阐述了大数据时代将改变互联网商业的面貌, 谁提前开始大数据的应用, 就可以获得未来行业发展的优势。大数据的普及需要一个过程, 首先从重点应用行业开始, 例如信息技术领域行业, 逐渐扩展到其他行业。美国已经由白宫颁布了大数据开发与利用的国家级战略, 由美国国防部和国土安全局牵头开展全面推广大数据的应用。我国目前对大数据的研究并不多, 应用更是缺乏。如果要推动大数据的应用, 应当由国家层面进行大数据的平台建设。在今年的国家自然科学基金和社会科学基金的课题指南中, 已经提出了很多设计大数据的课题, 相信在未来几年内国家会对大数据的研究、开发与利用提供政策和资金支持。
总而言之, 大数据的技术与应用还是处于起步阶段, 其应用的前景不可估量。各个行业应当把握时代脉搏, 充分认识到大数据所能带来的革命性改变, 只有这样才能够保持创新与进步, 从而站在行业的
参考文献
[1]Manyika J, McKinsey Global Insti tute, Chui M, et al.Big data:The next fron tier for innovation, competition, and produc tivity[M].McKinsey Global Institute, 2011.
[2]卢胜军, 王忠军, 栗琳.赛博空间与大数据双重视角下的钱学森情报思想[J].情报理论与实践, 2013, 36 (004) :1-5.
[3]Hirt C W, Nichols B D.Volume of fluid (VOF) method for the dynamics of free boundaries[J].Journal of computational physics, 1981, 39 (1) :201-225.
[4]Chirillo J, Blaul S.Storage Security:Protecting, SANs, NAS and DAS[M].John Wiley&Sons, Inc., 2002.
[5]Dean J, Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM, 2008, 51 (1) :107-113.
[6]郑玲微.大步跨入“大数据”时代[J].信息化建设, 2013 (1) .
数据挖掘技术的概念 篇2
应届毕业生求职网整理了数据库基本概念笔试题,供参考:
1:pctused and pctfree 表示什么含义有什么作用
2:简单描述table / segment / extent / block之间的`关系
3:描述tablespace和datafile之间的关系
4:本地管理表空间和字典管理表空间的特点,ASSM有什么特点
5:回滚段的作用是什么
6:日志的作用是什么
7:SGA主要有那些部分,主要作用是什么
挖掘信息资源 完善数学概念 篇3
〔中图分类号〕 G633.6
〔文献标识码〕 A
〔文章编号〕 1004—0463(2007)
08(A)—0045—01
数学概念认知结构的形成是一种内部心理活动,是将外部知识转化为内部知识的过程,这种内化行为是无人能替代的,只能依靠学习者自身。然而优良的学习信息环境有助于这种认知结构的形成和发展。在教与学的关系中,教师作为组织者、引导者,必需帮助学生营造和建立形成概念过程中的“信息场”,在完善数学概念中发挥促进者的作用。
创设问题情境建立“信息场”,促进数学概念的引入
问题是数学的心脏,教师要体现先行组织者的作用,将数学概念的形成过程转化成具有一定意义的系列问题,创设问题情境,形成问题“信息场”,把学生带入“信息场”中,通过解决问题探究概念的本质属性。
例如,无理数概念的引入过程如下:
(1)教师创设一个问题:在正方形OABC中,正方形的边长为1,求对角线OB的长。
(2)教师引导学生解决问题后提出新问题:什么叫有理数?有理数有什么特点?OB= 是否具有有理数的特点?
(3)在解决问题的过程中提出新问题:用反证法证明 不是有理数;把 表示成小数的形式;这个小数是循环小数吗?它是有限的吗?它具有什么特点?
(4)解决以上问题后,引入无理数的概念:无限不循环小数叫做无理数。并总结关于实数的概念系。
恰当的问题情境是引导学生走上“探索之路”的起点,能激发学生探索的动机。以概念为目标创设问题情境,教师要从概念背景的原认知结构中提出问题,解决问题之后再提出接近目标的新问题,将问题贯穿于发现概念的始终,防止学生的思维游离于教学目标之外。
运用感性材料和感性经验建立“信息场”,促进数学概念的形成
数学概念的形成主要依赖于对感性材料或感性经验的抽象概括,这种认知结构需要学习者通过对感性信息的加工去认识。如果感性材料和感性经验不足就会影响到概念的形成,教师需要提供使学生能够内化抽象知识的感性“信息场”。
例如,在教学“数列极限”的概念时,我首先让学生由一些形象、直观、感性的事例了解“无限趋近于”的含义。何谓“无限趋近于”呢?我们可以引用古书中“一尺之捶,日取其半,万世不竭”的例子,引出无穷数列:,, ,…, ,…以“愈来愈近”得出数列 的变化趋势,再把数列 的特征在数轴上表示出来。直观上,随着n的无限增大,表示数列项的对应点将和表示数0的点无限接近(距离趋近于0)。再从量化的角度让学生由?着的具体取值,求得相应的N,随着e的取值越小,即an与A的距离越小,N的值越大,当学生感悟到n>N时,|an-A|
在感性“信息场”中形成概念,主要是帮助学生经过辨析,从模糊的感性知识中抽象出一类具有共同本质属性的对象,而不是永远停留在感性经验之中。特别在提供感性材料时要注意区分某些词的日常含义与作为数学术语的特定含义。
运用已知概念建立“信息场”,促进数学概念的完善
数学概念的学习是不断建立和扩展认知结构的过程,它随着知识量的增加在原有认知结构的基础上形成容量更大、内容更丰富的新的认知结构。教师需要创造对原有认知结构的缺陷进行修补的动态环境,帮助学生建立这些程序性知识的“信息场”。
例如,“绝对值”概念的学习。最初,“绝对值”是在数轴和距离这两个概念的基础上建立起来的,“一个数a的绝对值就是数轴上表示数a的点与原点的距离”。学生在理解这个概念时,不仅必须对数轴与距离有深入的理解,还需知道数与形之间的对应关系,即两种不同数学结构之间的关系。在此基础上,对“绝对值”概念作延拓,将数轴上点到原点的距离拓展为两点间的距离,将“绝对值”与“算术根”联系起来,这样“绝对值”概念从有理数集推广到实数集。如果再从数轴上两点间的距离推广到平面上两点间的距离,数系从实数推广到复数,“绝对值”的概念就扩充为复数的模的概念。复数的模即为向量的长度,这样又产生了新的认知结构。由于原有知识观念在新的认知结构中的位置得到重新定位,彼此间的联系得到重新解释,教师必须帮助学生对知识进行组织,赋予一个知识点之间的外显或内隐的联系环境,从而形成一个相对完善的“绝对值”的认知结构。
在已知概念的“信息场”中,只有按照数学概念的层次结构,通过不断对知识的组织,才能使学生准确地掌握概念的发展过程,形成比较完善的数学认知结构。
数据挖掘技术的概念 篇4
1 概述
20世纪90年代后期,传统的数据库管理系统已不能适应企业管理的需要,新的数据库技术被迅速地研发出来,热点之一是以数据仓库技术为核心的商业智能(BI)。数据仓库的概念和建设在90年代初期已经有了较完善的阐述。数据仓库是以关系数据库、并行处理与分布式处理技术,以及联机分析处理等技术的发展为基础,为解决当前企业和组织中虽然拥有大量数据,但信息贫乏(难以利用)的现状而提出的,是一种对不同系统数据实现集成和共享的综合性解决方案[2]。发展至今,初步形成数据仓库技术体系,适应于业务智能化和决策支持系统,结构的设计由数据仓库应满足的应用而决定[1]。随着数据仓库技术的发展和应用,欧美发达国家越来越多的企业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。在传统数据密集型行业的全球性大企业如航空、铁路运输、邮政等己采用数据仓库作为决策支持。
国内许多企业已意识到数据仓库技术对企业决策可能能带来的利益[3],期望通过该技术的应用,提高市场竞争力,提升资产质量,防范经营风险,改进管理能力,提高企业效率。随着国家进一步增强信息化建设,许多行业如保险、金融、税务纷纷建立起数据仓库系统。一些厂商如Oracle、IBM、Sybase、CA、Informix等也在提供大型数据仓库解决方案。由于数据仓库技术体系尚不成熟,数据仓库的应用受到一定制约。数据仓库技术尚未达到数据库技术的成熟度和易用性,缺少特殊领域的商业逻辑与数据仓库技术集成,目前的分析型工作的OLAP和预测型工作的数据挖掘尚不能使数据仓库产品达到数据库产品的实用性。
2 数据仓库、数据集市与传统数据库
数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持经营管理中的决策制定过程。数据仓库用于支持决策,面向分析型数据处理,对多个异构的数据源有效集成并按照主题重组。把信息加以整理归纳,并及时提供给相应的管理决策人员,是建设数据仓库的根本任务。因此,数据仓库是一个动态的概念。由于数据仓库的数据组织较为庞大,而在实际中经常是按照使用部门建立某种映射,这种部门级的映射即数据集市,也称为部门级数据仓库。
数据仓库与传统数据库有很大区别。传统数据库的特点是面向过程、联机事务处理、不同的和分散的构成、内容可更改、关系型基础结构,终端用户是专业及操作人员。数据仓库的特点是面向主题、联机分析处理、集成的构成、内容不可更改、多维性基础结构,终端用户是管理人员、决策者。
原始数据从数据仓库流到不同部门中以支持这些部门的定制化使用,这些部门级的数据仓库就称为数据集市(Data Marts)。不同部门有不同的“主题域”,因而也就有不同的数据集市。数据集市与数据仓库的区别主要体现在面向的对象不同。数据仓库是面向整个企业,为整个企业提供所需的数据;数据集市则面向各个部门。
数据仓库的应用基本目标是:解决旧系统遗留问题;达到高度信息集成;利用新的平台和新的技术;从数据管理过渡到信息管理;提供一个平台和结构用以掌握历史数据和当前数据;为商务智能及联机分析系统提供平台;在运用信息方面更具竞争性。数据仓库为中、上层管理提供支持,通过层次型的信息共享,使信息更加流畅,突破不同体制的封锁状态,极大地改善管理层次中自上而下或自下而上的信息交流。
3 总体结构与建模技术
数据仓库是管理信息系统的“上层建筑”,即建立在事务处理数据源系统之上的集成和分析处理系统。数据仓库的结构是由多层叠加的系统构成的,如图1所示的金字塔结构。最下层是支撑整个数据仓库的基础,由它的数据源操作型事务处理系统组成。提取—转换—加载(ETL)程序从操作型事务处理系统中提取需要的数据,进行相应的转换,并将其传输到数据仓库的基础层(事实/维表)中。经过大量的针对事实/维表的总计/运算逐步生成新的层面,作为联机分析的基础。联机分析层主要依托于总计管理/方阵体系统。
在数据仓库中,数据源是数据仓库系统的基础,是整个系统的数据源泉。数据仓库中的数据来自于多种业务数据源,以不同的格式存在不同的数据库中,一般通过数据抽取软件将数据源抽取到数据仓库中。操作型数据源系统是获取事务的记录(形式的)操作型系统。要解决的主要是高性能与可用性。数据的提取、转换、加载(ETL)是一组处理过程。它将从操作型数据源中取得数据,加工后,存放数据仓库中。数据的存储与管理是整个数据仓库系统的核心。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(即“数据集市”,Data Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。数据仓库层包括基本数据、元数据和实体化体方阵———由事实表和维表经过系统的汇总、计算、链接后导出的多个多维立方体。数据表示层直接面向用户,进行数据组织、报表撰写和其他分析型应用提供直接查询操作的场所。
数据仓库所能进行的分析的类型、分析的细致程度、分析的效率以及响应时间取决于数据模型。目前,主流的数据仓库建模技术分为两种:实体关系建模(Entity Relationship Modeling)以及维度建模(Dimension Modeling)。实体关系建模要应用到范式的理论,目前在数据仓库的模型设计中一般采用第三范式。实体关系建模通常用于针对企业所有数据创建一个复杂的模型。维度建模针对相对独立的业务创建有针对性的分析模型。例如,销售信息可以创建为一个模型,库存可以创建为另一个模型,而客户账户也可以创建为另一个模型。每个模型捕获事实数据表中的事实,以及事实在链接到事实数据表的维度表中的特性。由这些排列产生的结构称为星型结构或雪花型结构,成为数据仓库的典型逻辑结构。
4 决策分析系统概念设计
决策分析系统的设计主要为了满足一般企业对于数据分析的需求,是一个基于管理体系架构的数据分析系统,涵盖多种数据分析模型,为企业的决策支持奠定基础。
决策分析是决策支持系统的主要工具。决策是一个从愿望提出、研究规划、实施以及过程评估和结果评估的持续过程[12],包括发现问题、确定目标、价值准则、拟订方案、分析评估、方案选择、试验证实及实施执行等八个阶段。决策支持系统是以信息技术为手段,应用管理科学、计算机科学及有关学科的理论和方法,针对半结构化和非结构化的决策问题,通过提供背景材料、协助明确问题、修改完善模型、列举可能方案、进行分析比较等方式,为管理者做出正确决策提供帮助的智能型人机交互信息系统。
一个高效的决策支持系统应该具有下述特征:
(1)半结构化决策支持,可由信息系统自动做出。
(2)数据库存取和建模的支持,把模型的或分析技巧的应用与传统数据访问或检索的功能结合起来。
(3)模型驱动,这是推动系统运行的关键因素;
(4)支持决策过程的所有阶段,包括情报、设计和选择等。
决策支持系统的概念结构包括四库(数据库、模型库、知识库、方法库)、问题处理系统(数据、模型、方法、知识管理系统)、交互环境系统、决策用户等。
数据仓库技术的应用是决策支持系统发展的一个新的方向,满足了高效决策支持系统的功能要求,尤其支持决策分析。因此,一个实用的基于数据仓库技术的决策分析系统设计如图2所示。
构建系统要自动化、模块化、人机界面的Web化、数据标准化等要求,涉及到:
(1)数据源分析。数据一般可以为两个类型,来自业务系统的实时数据和汇总数据。来自业务系统的实时数据是数据仓库的最重要的数据来源。但是,在这些数据进入数据仓库之前,必须经过清洗、抽取、转换、加载等多个工序的处理,使数据从适应业务系统OLTP的数据模式转换为适应分析系统的数据模式。而汇总数据则是决策支持系统更需要关注数据,所有数据文件进入操作层。
(2)业务分析。重点是能够准确反映业务的最新进展情况和提供业务流程各环节的统计分析数据,并对主要指标做出阐述。
(3)问题解决系统的复杂性判断。重点是确定决策需求和估计决策结果。这是检验系统效能的关键。
(4)中间表设计。包括主题设计、事实表设计、维表设计、维表与事实表融合。建立实体化视图,汇总相关度量数据。可从事实表库表名、对应的维、对应的维表、维表名等对主题设计中事实表与维表融合的对应关系予以说明。
(5)生成Cognos数据立方体。用Cognos BI的产品Impromptu、Transformer、powerplay等,将生成的统计分析所需要的原始数据,生成Cognos数据立方体,以实现最后的统计分析。
(6)数据立方体的应用。主要有两种方式,一种是发布到powerplay server上,这样多数据用户就可以通过Web方式进行统计和分析;另一种使用方法是用powerplay直接统计和钻探分析数据立方体。
(7)根据需求建模。主要是实体关系建模和维度建模。
(8)应用OLAP。在共享多维信息基础上快速分析,形成决策支持。
5 结语
数据仓库技术日益得到认识,而决策支持系统的发展十分迅速,基于数据仓库技术的决策分析将会得到企业甚至政府部门的关注。因此,拓展基于数据仓库技术决策分析系统的研究和应用,将会使数据仓库技术得到新的发展,也为使用者提供更多有价值的信息。
在研究数据仓库、数据挖掘的理论基础上,提出了基于数据仓库技术的决策分析系统概念设计,为数据仓库技术开拓了一个新的应用领域。
参考文献
[1]Inmon W H.Building the data warehouse.New York:John Wiley&Sons,1996.
[2]Berson A,Smith S,Thearling K.构建面向CRM的数据挖掘应用.北京:人民邮电出版社,2001.
[3]Inmon W H,Rudin K,Christopher K B.Data warehouse man agement.北京:电子工业出版社,2000.
[4]陆安生.数据仓库概述.网络与通信,2004,12:22-24.
资产重组--老概念中挖掘新内涵 篇5
来源:上海证券报网络版虽然前期因为ST纵横、ST国嘉、ST长控等一系列失败的重组案例存在,但是市场似乎并没有丧失对重组题材追捧的兴趣。不仅仅因为有四家上市公司国有股的转让已得到了财政部的批准,为重组题材的升温提供了政策上的保障,而且还在于资产重组题材正在发生着诸多变化。那么,如何看待当前的国有股转让获批以及重组题材的变化呢?
“国转民”的影响主要体现两方面
就目前获批的四家国有股转让的个股来看,有着这么一个特征,即这四家上市公司要么是已经实施重组的,要么是已持续亏损两年半的。就前者而言,已经实施过重组的个股,相当于生米已煮成熟饭,不予批准,说过不去,所以,已重组且更名的健特生物、方向光电自然拔得头筹。当然,对于此类个股,也仅仅是正个名而已,因为高管早已换成民营资本的人。而ST猴王虽然没有更名,但是上海国策也早已将ST猴王当成自己家的孩子,对该股没有少关心,也可归属于到实质重组股中。而唯一未重组的ST鑫光已亏损两年半,面临着退市的风险。
由此可见,“国转民”目前尚未形成趋势,仅仅是从两个方面入手的,即一是对已成事实的重组行为予以肯定,比如说方向光电、健特生物等;二是对深陷亏损泥潭的T族个股找一个能够重组的新东家,保障T族个股能够免于死亡的威胁,ST鑫光就是如此,而ST猴王则有着上述两方面的共同特征。由此可见,这两方面的特征并没有给重组题材带来新的变化,所以,此类个股并不建议投资者参与。但是,如果跳出上面的圈子的话,我们发现,目前资产重组题材的宽度与深度均得到了有效的拓展。重组题材的宽度在扩展
就重组题材的宽度而言,有两个特征:
一是重组题材的升级,即拓展了外资并购题材
加入世贸组织以后,外资进入已是我国经济发展的必然趋势,由此就使得资产重组概念的宽度拓展了。近期就有深宝恒向凤凰卫视有限公司、中国新闻发展深圳公司转让股权的公告;另外,深发展与浦发银行的澄清公告语焉不详,也给我们造成了银行业上市公司引进外资将水落石出的印象。此类题材尚有丰原生化与英国泰莱公司的合资、兰州铝业与法国铝业公司的合资等。值得关注的是,兰州铝业已形成了上升通道,由此该股目前价位不高,故仍有参与的价值。
二是重组题材由原来单个上市公司的重组变成了区域性上市公司集体式的重组
早期的上市公司大多集中在上海、深圳、成都等区域,而由于产业结构升级等诸多方面原因,老上市公司逐渐不能适应市场的新形势,已沦为亏损、微利一族,所以,上海、深圳两城市的资产重组行为是最为集中的。近来,有媒体报道了四川对22家亏损、微利上市公司进行突击式重组。而山东企业在今年年中也有集体到香港引资,意图引进新的战略投资者,以图改善与提高本地上市公司的质量,为地方经济添砖加瓦。日前,云南省也有借助资产重组的形式完善上市公司治理结构,使得证券市场的融资通道能够畅通无阻。9月9日媒体又报道了陕西省要对省内的上市公司进行大规模重组的信息。由此,也就使得目前上市公司的重组已不是单枪匹马,而是前呼后拥,沪深两市的重组动作蔚为壮观起来,而且力度也将加大,实质性重组的内容将不断增多。所以,对四川、山东、陕西等一些已形成上升通道的个股要予以关注,因为这意味着已有先知先觉机构提前介入此类个股。重组题材的深度在扩展
就重组题材的深度而言,有三方面的表现形式:
一是由资产置换式向多种形式并存的重组模式转化
我们知道,以前的重组大多是借壳方入主后,通过资产置换等形式使上市公司迅速恢复融资能力,然后再增发新股,最后用增发新股的真金白银收购借壳方的劣质资产,最终达到套现的目的,这正是ST纵横、ST国嘉、ST长控等重组失败的主要原因之一。而随着重组政策的细化和增发制度的严密,居心不良者通过证券市场的套现已难上加难。受此影响,重组题材发生了新的变化,一些不是亏损的微利股或者说日子过得挺滋润的上市公司也有了重组的冲动。较为典型者,有昆明制药与华立集团的重组,是为了打造产业链,利用重组方的经营思路提升上市公司经营者的水平,进一步提升上市公司的质量,这才是重组的真谛。丰乐种业近来的公告也显示,希望借助于潜在东家新立克公司的进出口业务方面渠道,以打开丰乐种业的销售范围,进而拓展上市公司的主营业务收入。有市场分析人士称,与其输血,不如造血。
二是行业内的产业整合
此题材在新疆屯河与天山股份的水泥产业的整合中就已初露端倪,在近期则有愈演愈烈之感,而且还带有国有产业资本的重组整合的模式。这在天津汽车与一汽集团的.汽车产业资本的重新布局上得到了最大的体现。中国石化、中国石油等企业开始对旗下的、目前在沪深两市挂牌交易的上市公司进行了大规模的资产重组,出让控股权是其中首选。由此我们看到了湖北兴化、石油龙昌、三星石化等个股纷纷成为重组的对象。近来,有媒体也报道了泰山石油正在寻找新东家的信息。由此就昭示了重组题材新的发展方向,即对于中国石化、中国石油这样的控股公司,正在进行战线收缩的内涵式重组模式。市场分析人士还根据今年半年报上市公司投资减少等特征,还给了此类重组一个结论性评价,叫回归主营。
三是券商也开始重视起自身的股东角色
以前券商进入上市公司十大股东中,主要是为了获取股票差价,当然,也有部分券商不得已才进入十大股东中,比如说配股余额的包销,但是,其结果仍然是一样的,即一到成本价上方,就会考虑清仓。而随着市场的成熟,进入上市公司大股东行列的券商们也不再仅仅将目光局限在二级市场差价的一亩三分地上,而是欲利用自己的信息、人力资源等优势,改造上市公司,让上市公司良性发展,这就是目前较为流行的“大投行”概念的主要内容之一。在前期,有平安证券与浙江广厦、南方证券与哈药集团。近日,天歌科技又传来了大鹏证券与和君创业共同发难,要改组董事会,且一下子就要更换四个董事,如此这样,也就昭示了目前资本的力量之所在,无论结果如何,都会对证券市场发展产生着巨大影响。
本版作者声明:在本机构、本人所知情的范围内,本机构、本人以及财产上的利害关系人与所评价的证券没有利害关系。
数据挖掘技术的概念 篇6
关键词:数据库;数据库原理;概念设计
一、引言
《数据库原理与应用》课程是我校计算机专业的一门专业课程。这门课程的主要教学目标是通过对具体的数据库管理工具SQLServer2008操作流程的分析和讲解,让学生在运用工具实现数据库创建和维护的过程中,逐步了解和掌握数据库的一些基础概念以及数据库设计的基本流程和方法。课程教学过程中的难点是让学生了解并认识如何才能合理地设计数据库,其中,概念设计是设计数据库的基础。也是关键,掌握好概念设计的方法和步骤,对学生进行课程后续内容的学习十分重要。笔者根据多年教学的经验,通过具体的实例,从概念设计的定义、目的以及过程对其进行分析。
二、概念设计的内涵及方法
对现实世界中事物的抽象为概念设计,在概念设计阶段,我们不关心具体使用的数据库管理工具,即DBMS。在设计数据库过程中,概念设计的最主要目的是将从需求分析阶段获得的数据,抽象出相关实体及其之间的联系,并利用实体关系图(E-R图)对各个实体以及相关实体间的关系进行描述。
概念设计的主要方法有:自顶向下、自底向上、自内向外和混合策略四种。其中比较常用的是自底向上的方法。概念设计的步骤通常为以下两步:①根据需求分析,将系统拆分为若干独立子系统,分别为每一个子系统进行概念设计,并描绘出相应的E-R图(即实体联系图);②集成子系统相关的E-R图,得到系统总的概念设计。本文将通过实例对设计过程进行阐述。
三、概念设计的具体实例
比如,设计一个学生信息管理系统。由于教学时间有限,对系统的设计只考虑学生、教师和课程信息的检索,因此,这里只将系统划分为两个子系统:学籍信息管理系统和课程信息管理系统。其中学籍信息管理系统需求实现的功能是学生基本信息的存储与检索;学生选课信息和课程的信息的存储与检索是课程信息管理系统最主要实现的功能。
在步骤一E-R图设计过程中,必须要明确两个基本的概念:实体,实体间的联系。实体即是客观存在并可互相区分的事物。它可以是人,可以是物,也可以指某些概念;实体间的联系指现实世界的事物间的联系,这种联系一般分为两类:一是实体内部各个部分的联系;二是实体之间的联系。在关系型数据库中,我们主要关心的是实体间的联系。这种联系主要有三种情况:1:1(一对一)、1:n(一对多)、n:n(多队多)关系。对用户需求进行分析时,根据需求中得到的数据流程图寻找出相应实体及其属性是ER模型设计的根本,其次就是要明确各个实体间的关系,继而描绘出E-R模型。
根据上述例子的需求可知,学生、班级、班主任、宿舍、教室为学籍系统的实体;学生、教师、课程、教室为课程管理系统的实体。这些实体的联系如下:①一个学生只能属于一个班,一个班级有多个学生。②一个班主任只带一个班,一个班只有一个班主任。③一个班级可在多个教室上课,一个教室有多个班级来上课。④一个学生学习多门课程,一门课程有多个学生学习。⑤一门课有多个教师讲授,一个教师可教多门课。⑥一个学生有多个教师授课,一个教师可以给多个学生授课。⑦一个教室可以进行多门课授课,一门课可在多个教室开展。
针对以上分析,分别设计出学籍管理子系统和课程管理子系统的E-R图(如图1、图2所示),由于篇幅问题,在图中省却了各个实体的属性的描绘。
各部分的E-R图设计好以后,接下来就是将所有的子系统E-R图进行集成,形成系统的总E-R图。由于在进行子系统E-R图设计时,对同一实体考虑的着重点可能会不同,因此这个阶段主要任务是解决各个分E-R图设计中的冲突问题,然后消除不必要的冗余,对E-R图进行修改和重构。常见的冲突主要有:命名冲突、属性冲突、概念冲突。命名冲突主要有同义异名和同名异义两种情况,如上例中在学籍系统中的班主任实体的编号属性和课程管理系统中的教师实体的教师编号属性,属于同义异名的情况,在E-R图集成过程中,可以将他们进行统一。属性冲突主要是指属性的取值范围或取值单位在不同的子系统中的定义不相同。概念冲突是指同一个概念在一处为实体,而在另一处则为联系。这两种冲突在上述例子中没有出现。
当解决所有冲突问题以后,接下来就是要把各个子系统中重复的数据或相同的属性进行合并,消除数据的冗余。譬如上例中的两个子系统中都对学生、教师和教室实体进行了定义,在总的E-R图描述中,可以将他们统一进行定义。还有就是在学籍管理子系统中的教室实体和班级实体的联系属于冗余,可以消除。因为在系统中课程是在相关的教室中开设,它们之间有着“开设”的联系,而学生可以选修课程,它们之间有着“选修”的联系,班级由若干学生组成,它们有着“组成”的联系,由此,我们可以间接地推导出教室与班级之间的联系。
经过以上步骤,学生信息管理系统最后综合得到E-R图(如图3所示)。
图3学生信息管理系统
(作者单位:广东省轻工职业技术学校)
参考文献:
[1]张露,马丽.数据库设计[J].安阳工学院学报,2007(4).
[2]段远志.数据库设计[J].南昌教育学院学报, 2005(4).
[3]李长海,郭颖,董广辉.浅析数据库设计[J].数字技术与应用, 2010(8).
[4]董军.学生成绩管理系统数据库设计[J].合作经济与科技,2013(11).
数据挖掘技术的概念 篇7
1 数据可视化的定义
我们一般理解的信息技术的可视化, 指的是将大量的具象和抽象的信息和数据转化为我们能够直观理解的图像和线条, 已达到容易理解的目的。在当今的大数据时代, 我们每天都会面临着大量的数据和信息要处理, 少量的数据我们可以分析出规律和结论, 但是对于大量的数据和信息我们不能在较短的时间内分析出数据变化的规律和得出一些结论。这是我们就要把大量的具象和抽象数据转化为我们能够一目了然的、可视化的线条变化趋势和图像, 通过这样的转化我们就能够清晰的得出结论。通过数据的可视化我们能够明了、直观的看到信息的变化, 也能指导操作员对计算机的信息的输入, 这样就可以实现人与计算机的交流以及提高对计算机的数据控制。在数据可视化的过程中, 我们可以将大量数据和信息的可视化表现形式设计成简单、易懂的形式, 这样能够提高分析判断的效率, 节省时间。随着计算机的处理能力越来越大, 信息技术的快速进步都为数据可视化提供了良好的基础, 同时也将可视化的形式变的多样化, 能为更多人所读懂。这样就能为工业生产和社会发展起到推动作用。
2 数据信息可视化的过程
在进行数据可视化的过程中, 一般都会经历四个阶段:首先是将大量的数据和信息进行简化以减少运算量, 提高处理速度;其次是将简化的数据和信息进行转化, 利用一定的符号来表达数据之间的关系和特点;然后在通过模拟将数据传递的过程进行监控, 再根据监控的信息来进行数据和信息的处理和计算, 为可视化做铺垫;最后在依据相应数据和信息的特点, 进行相应的建模, 通过建模来进行数据和信息的分析和处理, 从而得出数据和信息所表达的规律和结论。
3 增强视觉设计, 达到数据可视化的方法
数据的可视化就是将信息和数据所要表达的意思通过具象的图形和线条表达出来, 表达的形式可以是二维或多维的, 这样更有利于我们清除直观的看懂数据和信息的内容。进行可视化的方法如下:
3.1 对多维数据的视觉设计
在众多的数据和信息中也存在着非常多的多维数据, 将这些多维数据进行可视化是一个重点。已经存在着多种方法将这些数据进行视觉设计, 对于不同的数据类型选择不同的方法。这些方法基本上实现了多维数据的展现, 让用户能够从许多侧面对数据展开分析与理解, 通过人机交互过程后, 得到需要的可视化的结果。用户能够更加方便的对数据展开观察和分析, 从而获得有价值的信息, 这就为用户大大的减少了工作量, 提高了工作效率。
3.2 对层次关系的设计
在数据处理和分析的过程中, 层次关系最能一目了然的得出数据所包含的信息, 在设计这类数据的可视化时, 我们可以使用树形结构来进行描述。但是使用树形结构只能进行小数据量的描述, 不能进行大数据量的描述。因此, 我们在进行大数据时要考虑在尽可能小的空间中尽可能多的呈现数据的层次关系。
3.3 对文本数据的视觉设计
在数据处理和分析的过程中, 我们会遇到各种各样的文本信息, 同样文本信息的数量也是非常庞大的。在如此多的文本信息里面, 找到我们自己所需要的文本是非常困难的, 我们必须要设计一天非常明了的可视界面, 以方便我们快速的找到自己需要的文本信息。同时在设计单个文本信息时, 我们要突出文本信息的特点, 使它与其他的文本信息区分开来, 还要注重文本信息的视觉效果, 能够做到一目了然, 这样就能达到文本的可视化。
4 结论
随着信息和计算机技术的进步, 大量的数据只有通过可视化才能得到所需要的规律。首先阐述了大数据时代需要数据和信息可视化的原因, 并阐述了数据可视化的一些具体的步骤, 还将集中典型的数据形式进行了简单的阐述。对于不同类型的数据使用不同的可视化方法, 通过实践可以验证对于数据和信息的视觉设计能够很大程度上提高数据的可视化。数据的可视化能够提高生产效率, 节约生产时间, 能够对经济的进步做出推动。
摘要:在大数据的背景下, 随着信息技术的进步, 大量的数据只有通过可视化才能得到所需要的规律。首先阐述了数据可视化的背景, 并阐述了数据可视化的一些具体的步骤, 还将集中典型的数据形式进行了简单的阐述。对于不同类型的数据使用不同的可视化方法, 通过实践可以验证对于数据和信息的视觉设计能够很大程度上提高数据的可视化。
关键词:大数据,数据可视化,计算机
参考文献
[1]陈为, 张嵩, 鲁爱东.数据可视化的基本原理与方法[M].北京:科学出版社, 2013.
大数据的概念、特征及其应用探究 篇8
1 概述
目前, 学术界关于大数据的概念仍然存在分歧, 比较通用的大数据概念如下: 具备多种数据类型, 数据总量超过100TB, 且数据流具备高速实时性。 可以将大数据看作一个庞大的数据集合, 这个数据集合的规模远远超出了传统数据库软件可以处理的范畴, 大数据具有3V特征: 规模性 (Volume) 、 多样性 (Variety) 、 高速性 (Velocity) , 近年来, 学术界又在3V特征的基础上扩展出了4V特征: 价值性、 准确性、可变性、 真实性。
1.1 数据量大
互联网技术的发展, 降低了网络使用成本, 使用者的在网络上的任何一个行为都可能产生庞大的数据信息, 为了满足不同层次的使用者的需求, 网络上出现了很多多媒体信息, 包括图片、 视频、 音频等, 很多数据都发展成为以GB进行计算的大型数据。 一方面用户在网络上的活动将产生大量数据, 另一方面各种传感器数据越来越多, 现实世界中的数据被快速导入虚拟网络中。 除此之外, 网络中对于同一事物的描述性数据产生重复, 造成大量的数据重叠现象。
1.2 数据类型多样化
数据类型多样化也是大数据的重要特征, 大数据背景下的信息资源形式越来越多, 已经不再局限于单一的文本信息, 尤其是智能手机与平板电脑的使用, 增加了人们的网络接触几率, 很多信息可能是半结构化或者非结构化。 结构化的数据可以方便用户与计算机管理处理数据, 但随着传感器技术的快速发展, 网络中涌现出大量的非结构化数据, 大大增加了数据存储与处理的难度。
1.3 数据处理速度快
面对庞大的信息量, 传统的数据处理模式已经难以满足用户的使用需求, 很多数据具备较强的时效性, 因此, 针对不同的数据信息, 数据处理模式也会存在较大的差别, 这也是大数据与传统数据模式的主要区别。 数据处理的速度必须跟上数据增长的速度, 这样才能保证数据的时效性, 否则会对网络造成巨大的负担。 另外, 网络中的很多应用信息必须实时处理, 以火车订票为例, 该种类型的数据流具有很强的时效性, 如果用户响应时间超过3 秒钟, 就会造成用户体验下降。
1.4 价值密度低
数据价值密度低也是大数据的重要属性, 传统的结构化数据一般具备特定的用途, 因此每条数据的信息十分完整, 但数据的完整性给数据处理与存储造成巨大的负担。 非结构化数据有效克服了结构化数据的缺陷, 提高了数据价值密度。从大数据整体角度出发, 为了保证数据信息的完整性, 计算机会将数据的关联内容进行存储, 导致很多价值不高的信息被纳入处理范围, 直接降低了数据的整体价值, 造成数据信息的价值密度降低。
2 大数据技术核心问题
大数据技术与传统数据处理技术具有一定相似性, 数据处理流程过程也包括数据挖掘与检索、 数据存储、 数据分析、 数据显示等, 大数据技术需要根据用户的需求获取相关的应用信息, 之后对数据进行聚合处理, 以便于存储数据、 分析数据、 查询数据, 最后通过数据显示将客户需要的信息展现出来, 大数据的核心问题与数据处理流程具有一定关联性。
2.1 数据挖掘
数据挖掘技术的主要目的是从海量网络数据中发掘潜在的高价值数据。 数据挖掘技术是伴随计算机技术发展而来的, 需要通过统计学、 人工智能、 识别模式等多种方式来实现。 互联网上的数据十分驳杂, 数据质量直接影响了数据分析的结果, 数据挖掘技术可以有效控制错误数据的比例, 同时可以尽量排除无关数据。 数据挖掘技术的具体流程如图1所示。
2.2 数据分析
大数据技术的关键就是数据分析, 互联网上的数据资源十分丰富, 但很多信息不具备实际意义, 数据分析可以根据用户要求提取有用信息。 非结构化数据具有较高的使用价值, 其数据价值密度比传统结构化数据的价值密度高, 但现有的数据分析技术还不能快速处理非结构化数据, 一方面是非结构化数据增长、 更新速度快速; 另一方面是现有的分析技术具有局限性, 难以对非结构化语言进行有效处理。
2.3 数据显示
数据显示技术可以将分析处理后的有用数据传输给用户。传统结构化数据可以通过图表显示, 用户可以直接理解数据的含义, 但非结构化数据的类型十分复杂, 且数据之间具有较强的关联性, 用户难以通过图表理解非结构化数据。 针对非结构化数据的显示问题, 可以通过计算机图形学与图像处理技术实现数据可视化, 利用三维模型表示复杂的数据, 让数据更加直观, 便于用户理解。
2.4 实时处理
大数据技术的实时处理能力直接关系到数据的价值, 数据价值会随着时间不断降低。 实时数据处理是一个十分复杂的过程, 需要获取数据之间的关联性, 并找出数据之间的规律。 大数据环境下的信息具有较强的时效性, 很多数据需要在一秒或者更短的时间内得到结果, 传统的 “先存储后处理”模式已经难以满足大数据技术的需求, 数据实时处理能力已经成为大数据技术发展中的难点。
3 大数据技术应用
大数据技术的应用范围十分广泛, 包括科学计算、 社交网络、 网络金融、 互联网、 政府宏观调控、 移动数据等, 大数据技术的典型应用领域与特征如表1 所示。 下面将选取互联网应用、 电信应用、 金融应用以及政府应用等4 个方面进行阐述。
3.1 互联网
互联网信息技术是大数据与大数据技术发展的基础, 同时也是大数据技术应用的主要领域之一, 一方面互联网企业具有丰富的数据资源与强大的技术背景, 可以支撑大数据技术的发展, 另一方面大数据技术也是互联网的主要发展趋势, 可以促进互联网技术的发展。 除此之外, 互联网可以为大数据技术提供应用测试平台, 以淘宝、 百度、 Facebook为例, 这些公司可以为用户提供大数据技术的应用平台, 有效促进了大数据技术的发展。
3.2 电信
数据分析技术一直是电信运营商的核心竞争力, 电信运营商不可能放弃大数据的发展趋势。 目前很多电信运营商已经开始应用大数据技术, 包括客户分析与营销、 业务分级控制等, 这些服务都是基于大数据技术开发出来的。 除此之外, 电信运营商具备广泛的客户基础, 庞大的数据量需要大数据技术作为支撑, 很多电信运营商为了弥补自身的技术缺陷, 已经开始与互联网企业合作, 包括Orange与Facebook的合作等。
3.3 金融
相比于传统行业, 大数据技术在网络金融行业已经得到广泛应用。 很多网络金融企业已经利用大数据技术对客户交易行为进行分析, 目前已经开发出了基于大数据技术的金融分析设备, 包括用户交易行为录制设备等。 大数据技术在网络金融行业中的应用正在逐步扩散, 已经有网络金融公司开始利用大数据技术分析客户关注热点, 从而推测金融发展趋势。
3.4 政府
美国等西方发达国家的政府部门已经具备比较成熟的大数据技术。 美国国防部已经利用大数据技术监测搜集情报, 卫生管理部门利用大数据技术分析流行疾病。 除此之外, 联合国早在2009 年已经开始应用大数据技术监控全球各地的社会经济数据, 以便于对地区危机做出及时反应。 目前, 我国政府正在增加大数据技术的研究投入, 以便利用大数据技术掌控社会发展动态, 调控国家经济, 保证社会繁荣稳定。
4 结语
进入21 世纪以来, 我国的计算机信息技术与互联网通信技术已经取得了较大的成果, 网络的发展催生出大批的新兴网络文化, 网络文化带来了大量的信息数据, 人们在参与网络社会活动时产生的数据是人类文明的重要组成部分。 计算机信息技术与互联网通信技术催生出了新型的数据模式, 这些数据的类型更加多元化, 且数据量异常庞大, 传统的数据处理技术具有较大的局限性, 难以满足大数据处理需求。 目前, 我国大数据技术仍然处于理论阶段, 很多关键技术问题亟待解决, 包括数据挖掘、 数据存储、 数据处理、 数据分析等。 从大数据的概念以及大数据技术的核心问题出发, 详细阐述了大数据技术的应用方案, 并对大数据技术面临的挑战进行了分析。
摘要:随着计算机信息技术与互联网信息技术的快速发展, 计算机网络技术已经渗透进入各行各业, 网络上的信息资源呈现爆发式增长, 互联网信息技术的使用给我们的生活带来了极大的便利, 但互联网上的信息十分庞杂, 给使用者带来了巨大的困扰。大数据时代下的数据类型更加多样, 传统数据处理技术已经难以满足多元化数据的存储与分析, 大数据技术可以有效解决海量信息获取、存储、分析的难题。将深入地研究我国大数据技术的发展现状与面临的挑战, 提出针对性的发展策略, 为我国的大数据技术的发展提供参考。
关键词:大数据,数据类型,现状,挑战,应用
参考文献
[1]张兰廷.大数据的社会价值与战略选择[D].中共中央党校, 2014.
[2]彭宇, 庞景月, 刘大同, 彭喜元.大数据:内涵、技术体系与展望[J].电子测量与仪器学报, 2015, 04:469-482.
[3]陈健, 冀超君.大数据的应用及其发展趋势[J].山西科技, 2014, 02:95-96.
[4]黄永勤.国外大数据研究热点及发展趋势探析[J].情报杂志, 2014, 06:99-104+78.
[5]2015年大数据十大发展趋势预测[J].中国教育网络, 2015, Z1:36-37.
[6]张潼.互联网大数据发展趋势[J].重庆理工大学学报 (自然科学) , 2015, 10:3.
[7]戈悦迎, 陈禹, 谢耘, 金江军, 张荣昌.大数据及其未来发展趋势[J].中国信息界, 2013, 05:42-47.
数据挖掘技术的概念 篇9
在SQL Server的教学过程中发现这样一个问题:很多教材中要么没有提到数据复制技术,要么讲解得非常简单,只提到了操作步骤,对相关概念一带而过。其实数据复制技术非常重要,主要用于分布式数据库系统,现在哪个公司、企业、政府部门管理数据不用数据库?哪个数据库不要进行分布式的管理?这么重要的内容,没有一本好教材,就要有老师认真仔细的讲解。我去听过几位老师的课,都是先把复制的概念照书念一遍,然后就开始教学生配置的步骤。步骤学完了,学生还不明白到底数据复制是什么,为什么这么做,做了有什么用,自然,在以后的实际问题解决方法中也无法运用这个技术。其实老师在教学生操作前,应当要舍得花时间讲解概念,让学生知道为什么要学,学了有什么用,以便学生在日后的工作中能运用来解决实际问题。现在计算机系有一部分老师只重操作不重理论理解,完全照书教学,这样教出来的学生哪能找到工作?作为老师,讲清概念这是最基本的。通过多年的教学总结,对于“数据复制”概念的讲解,我也归纳出了我自己的讲解方案。
2 提出问题,引入新内容
先给学生提出如下问题,请学生讨论解决办法。
问题为:
学校的“student”数据库存放在教务处的SQL Server服务器上,服务器名为CAI。“student”数据库管理全校学生的所有信息,除了教务处外,学生处、各系部也经常要对此数据库进行相关操作(添加删除修改查询),所以学生处、各系部希望也能使用此数据库,并根据登录用户名的不同行使不同的操作权限。
怎么解决这个问题呢?
方案1:我们以前学过的“远程连接SQL Server服务器”操作。学生处、各系部远程连接到教务处的CAI服务器上,实现多部门共同使用同一个服务器。
分析利与弊:
利:学生处、各系部电脑上可使用CAI服务器上的“student”数据库,就像在教务处电脑上直接使用一样。
弊:一旦网络断开,这时学生处、各系部电脑将无法连接到教务处的服务器上。若这时有学生想来学生处或系部查自己的相关数据,则无法操作,只有等网络恢复连接才可继续。难道让学生去教务处查?一般的大学各处室不一定在同一栋楼,或相隔甚远,若是紧急的数据查询打印,远水救不了近火。
所以也就提出了新的问题:有什么方法可以在网络断开的同时也能保证学生处、各系部电脑中有student数据库?
由此提出方案2:将教务处CAI服务器上的student数据库复制到学生处、各系部的电脑上。(这里的“复制”指将student数据库的数据文件与日志文件复制)
利与弊:
利:确实可以让网络断开时学生处、各系部的电脑上有student数据库。
弊:学校各部门都拥有了一个student数据库,也就是说不止一个student数据库。若各部门都对自己服务器上的student数据库进行操作,将导致各数据库不一致。某同学在教务处的数据库中某科目成绩为50分,在系部的数据库中此科目为85分,到底哪个才是正确的?或都不正确??
由此看来方案2也行不通。那我们现在要做的就是找到这样一种方案,既在网络断开时能保证学生处、各系部的服务器中有student数据库可供操作,一旦网络连接时又能将这多个数据库自动更新,从而保持一致性……能达到以上要求的,就是数据复制技术。(这里也就成功的引入了复制技术,而且也顺便提到了复制技术的功能。)复制技术的功能就是将某个服务器上的某些数据复制到远程或本地的其他数据库服务器上,并且保证源数据与复制数据之间的同步更新,最终所有数据都有相同的值。运用复制技术,学生处、各系部的服务器复制了教务处服务器student数据库中的数据,并在规定的时间内让各服务器上的数据同步更新,保持一致。
3 复制的发布-分发-订阅模型
了解了数据复制的功能,接下来必须了解它的原理。不要将原理直接告诉学生,这种灌输式学习无法培养学生的自学与分析能力,我们应该带着学生慢慢分析,在分析时将新知识传递给学生。
分析一:学生处、各系部要复制教务处服务器中的数据,肯定要经过教务处服务器的同意,否则数据安全性就得不到保障。
由此得出要进行的操作:教务处必须定义为发布服务器。“发布”指的是向其他服务器提供可复制的数据。只有发布服务器才有权利发布数据,从而让其他服务器来复制数据。未定义为发布服务器将不允许其他服务器复制数据。
分析二:一个服务器中可能存在很多数据库,而我想要复制的只有student数据库。
由此得出要进行的操作:教务处服务器发布student数据库中的数据。教务处服务器虽已定义为发布服务器,但只能说明他有了发布数据的权利而已,数据没发布之前,任何服务器都无法复制到数据。这就好比出版社虽然有出版的权利,但若未出版任何一本刊物,人们也就订阅不到。所以,定义好发布服务器后,还必须指明发布哪个数据库中的哪些数据。只有发布了的数据,才被认为是已允许其他服务器复制的。注意:被发布的student数据库称为“发布数据库”。
分析三:数据发布好了,学生处、各系部就可以复制了。平常我们复制用得最多的是ctrl+c加ctrl+v,但这样的复制就是方案2提出的复制,复制到的数据与源数据不再存在联系,肯定不能同步更新,保持一致。到底如何复制呢?
由此得出要进行的操作:学生处、各系部订阅发布。事实上,教务处发布了student数据库中的数据后,学生处、各系部不是来复制数据,而是接收数据。这个接收数据的操作专业上称为“订阅”,有点类似于出版社发布了某刊物,读者通过订阅来得到刊物。读者订阅了刊物后,最终通过邮寄或快递等方法收到数据,同样类似的,学生处、各系部要接收到教务处的数据,也要靠某一对象来传送。这一对象就是分发服务器。,分发服务器在规定的时间内将发布服务器发布的数据分发给订阅服务器,从而保证多个服务器上数据的一致。所以,要进行数据复制操作,需要三个服务器:发布服务器发布数据,订阅服务器接收数据,分发服务器将发布服务器发布的数据分发给订阅服务器。这也是人们常说的发布-分发-订阅模型。不过现在又有了新的问题:哪个服务器来担当分发服务器的角色?事实上,SQL Server允许一台服务器扮演多种角色。如一个服务器扮演数据复制的三种服务器,那么它将把自己发布的数据由自己分发给自己的另一个数据库。只不过这种情况很少使用,在实际应用中用户决定是否让一台服务器扮演一个或多个角色在很大程度是基于复制系统性能的考虑。通常,为了提高分发服务器的效率,降低发布服务器的负载,忌用某一服务器既作发布服务器又作分发服务器的方法,而是取用专门的服务器承担分发服务器任务从而提高发布和分发的性能。基于这样的一些原因,我们可以使用教务处的另一服务器来作为分发服务器。(若教务处原只有一个服务器,请再安装一个。)
4 复制的操作步骤
根据上面的分析,我们可以将复制基本的操作过程归纳如下:
第一步:配置发布服务器与分发服务器。教务处student数据库所在的服务器定义为发布服务器(定义为发布服务器后,就有权利发布数据了),接下来另选一服务器为分发服务器。
第二步:创建发布。发布student数据库中的数据。
第三步:订阅服务器订阅发布。当然,学生处、各系部的服务器作为订阅服务器,必须准备一个数据库来接收教务处student数据库的数据,这个数据库可以是已有的,也可以新建。这个用来接收数据的数据库称为“订阅数据库”。
第四步:查看最终复制效果。做一些修改操作,在规定的时间过后查看是否保持数据一致。
当然,若以后要取消复制操作,还有最后一步:禁用发布或分发。
5 发布的类型
前面让学生了解了大略的操作过程后,就可以带领学生实践操作了。不过在实操过程中,在第二步“创建发布”时,有一个重要的操作:发布类型的选择。总共有快照发布、事务发布、合并发布这三种类型可供选择。这时候要认真对学生进行说明,让学生学会如何根据实际情况选择最合适的发布类型。快照发布就是在某一时刻对发布数据进行一次“照相”,生成一个描述发布数据库中数据瞬时状态的静态文件,最后在规定时间由分发服务器将其分发到订阅者服务器的订阅数据库中。所以快照发布是单向的,只能将发布数据库中的数据分发到订阅数据库。若我们举的这例选用的是快照发布,那么,即使你对学生处、各系部上的订阅数据库进行各种操作也没有用,在规定的时间内最终会被发布数据库的数据所取代,最终保持数据库数据的一致。所以在快照发布中,相当于对订阅数据库只有查询权利。可给学生总结一下只有满足下述条件时适合采用快照复制:1)数据主要是静态数据,不经常更改。2)一个时期内允许有已过时的数据复本。3)复制少量数据(在整个数据刷新为合理的情况下)。4)站点经常脱接,并且可接受高滞后时间。
若学生处、各系部希望能对数据库进行任何操作,且操作能保存并分发给发布服务器上的发布数据库,就必须选用合并发布了。区别于快照发布单向的从发布服务器向订阅服务器中分发数据的方法,合并发布允许发布服务器和订阅服务器同时对数据进行修改,而不管发布服务器与订阅服务器是否相互连接或断开,最后当所有或者部分服务器相连时便合并发生在各个服务器上的变化。所以合并发布是双向的,分发服务器可将发布服务器上的数据分发给订阅服务器,也可将订阅服务器上的数据分发给发布服务器。但这时也存在一个问题:冲突。当某数据在多个服务器被更新,合并时采用谁的呢?一旦你选用的是“合并发布”,订阅发布的配置过程中就有如图1的解决冲突的一项。当然,要更好的解决冲突,请做到以下三个重要方面:1)系统为要复制的表的每条记录确定标志字段。2)增加几个系统表以支持数据跟踪、提高同步效率以及冲突的检测、解决和报告。3)在出版者和订购者的服务器上的表上创建触发器,以便跟踪数据的变化。同样最后给学生总结出满足下述条件时最适合使用合并发布:1)多个订阅服务器需要在不同时刻更新数据并将这些更改传播到发布服务器和其它订阅服务器。2)订阅服务器需要接收数据,脱机更改数据,然后将更改同步到发布服务器和其它订阅服务器。
与快照发布与合并发布不同,事务发布复制的内容不是数据而是多条delete、update、insert语句或者存储过程。不少同学在实验时无法区分快照发布与日志发布,总觉得他们虽然复制的内容不同,一个是复制数据,一个是复制事务增量,但最终产生的效果是一样的。其实这样想的同学是没有理解概念。举个最简单的例子。将学生处服务器上的某同学成绩改为50分,教务处服务器上不改。规定时间后教务处服务器单向将数据分发给学生处服务器,学生处服务器上的修改操作相当于取消,该同学的成绩保持一致,为教务处服务器上的成绩。这是快照发布下的结果。若是事务发布呢?事务日志只是将发布服务器上发生的增量修改语句复制到订阅服务器。教务处服务器上不改,说明没有增量,那么将没有任何语句复制到学生处服务器。最终学生处服务器上该同学的成绩仍为50分,教务处上成绩为原来分,两个服务器上数据出现不一致。事务发布与快照发布还有一个重要区别:如数据更新频率较大且希望修改尽快分发到订阅服务器时常采用事务发布而非快照发布。所以一般满足下述情形时适合采用事务发布:1)希望发生增量更改时将其传播到订阅服务器上,通常在更新发生的几秒内进行。2)应用程序不能承受订阅服务器接收更改时的高延迟。3)订阅服务器通常可靠或频繁地连接到发布服务器。4)需要事务是原子事务(或全部应用于订阅服务器上,或者都不)。
6 结束语
SQLServer2000提供的复制是在数据库之间对数据和数据库对象进行复制和分发,并进行同步以确保其一致性的一组持术,就本质而言,复制是将一组数据源向多处目标数据复制数据的技术。本文重在向学生介绍数据复制技术中的重要概念,通过概念的理解让学生在操作过程和使用过程中更有创造力。
摘要:数据复制技术用于将某个服务器上的数据分发到远程或本地的其他数据库服务器上,并保证数据的同步更新。此技术主要用于分布式数据库系统,以保持数据的一致性。论文从教学观点结合实例简要介绍了SQLServer2000数据复制的功能,发布-分发-订阅模型的原理,三种发布类型的区别,重点对“数据复制”的教学方法进行了研究,从而对数据复制技术给出了最通俗易懂的解释,有利于学生知识的吸收和掌握。
关键词:发布,分发,订阅,快照,合并
参考文献
[1]彭林,余艳.SQLServer2000金典教程[M].北京:人民邮电出版社,2001.
[2]虞益诚,孙莉.SQLServer2000数据库应用技术[M].北京:中国铁道出版社,2004.
用户隐性知识挖掘概念辨析 篇10
随着WEB2.0理论研究与实践活动的不断深入, 图书馆界越来越关注其服务对象用户隐性知识对图书馆服务创新的作用和价值, 并在理论与实践方面进行了相关的研究与探索。但通过文献调研发现, 目前学术界对用户隐性知识、用户隐性知识挖掘等相关概念, 还缺少统一的认识, 还没有形成比较明确的定义, 这在某种程度上制约了图书馆界对用户隐性知识及挖掘的理论研究与实践推行。因此笔者在此, 就用户隐性知识挖掘的基本概念进行详细的探讨, 以期为今后的继续研究指引方向, 推动用户隐性知识及挖掘理论的有效进行。
什么是用户知识
“用户知识”一词源于企业管理中的“客户知识”, 尽管我国图书馆界于2005年已展开了有关“用户知识”的研究, 也取得了些许成就, 但迄今为止, 关于什么是用户知识, 学术界还未有一个统一、明确的定义。从所检索的文献来看, 刘冬梅对用户知识进行了初步探讨, 给出了一个广义的用户知识概念, 她认为, 与建立和保持高价值、高效率的知识链合作伙伴关系密切相关的信息都可视为用户知识, 即面向知识链的用户知识。蒋淑婉认为狭义的用户知识是指用户的个人信息, 即用户的身份、目标、兴趣、系统经验和背景知识等;广义的用户知识, 不仅指用户的个人信息, 还包括用户利用图书馆的各种行为模式。鲁大的张永杰认为用户知识是一个很广泛的概念, 它是在用户与图书馆交互过程中形成的, 是与图书馆资源和服务紧密相关的经验、知识和洞察力的组合, 它在不断地自我学习中持续更新。
综合分析上面的观点, 笔者发现大部分学者将用户知识的概念限定为用户与图书馆的交互过程中所产生的可被图书馆所利用的那部分个体知识, 却忽略了用户自身拥有却未能与图书馆发生直接或间接联系的那部分知识的价值。前者仅仅是用户个体知识体系的极小部分, 就如冰山的一角, 而后者在用户这一个体的整个生命活动中起着举足轻重的作用, 其中存在用户大脑中的专业技能、知识结构、研究能力和实践经验等知识不仅对用户自身的工作、学习和生活有很大的帮助, 而且也对其他用户具有一定的作用和价值。所以用户拥有却未与图书馆发生联系的这部分个体知识理应属于图书馆用户知识的重要组成部分, 图书馆应该加强对该类知识的挖掘和利用。
基于以上的论述, 笔者认为图书馆的用户知识是指一切依附于用户个体而存在的, 并可被图书馆直接或间接利用的一切信息和知识。它既包括图书馆用户的背景信息 (如性别、年龄、身份、教育背景、研究领域等) , 又包括利用图书馆的各种行为模式 (如用户使用图书馆资源与服务的相关记录) ;既包括用户的具体需求与偏好, 又包括用户对服务的实际感知、意见与建议;既包括用户在使用图书馆资源的技巧, 又包括用户自身拥有却难以被挖掘或利用的各种有价值的知识 (如用户自身拥有的实践经验、专业知识与研究能力等) 。
什么是用户隐性知识
隐性知识
在进行用户隐性知识的概念探讨之间, 我们还需要知道什么是隐性知识?“隐性知识”一词最早是由哲学家波兰尼提出的, 他将人类知识分为两大类, 一类是能够以正式的语言, 通过文字、数字、公式、图表等方式明晰表达的知识, 称之为显性知识, 这类知识可以通过书本、文件、手册、报告、技术文档、程序等工具记录下来, 供人类保存、传播、学习和利用。而另一类是难以用语言、文字、系统符号等方式明晰表达的根植于人类行为和潜在素质中的知识, 包括个人的需要动机、信仰观点、技巧经验、直觉灵感、心智模式等, 这类知识相对主观, 总是依附于人的大脑或技能中, 具有个体专有、动态无序、内隐模糊等特点, 一般很难被完整地描述与记录, 它需要人们用大量的信息和编码化知识来进行解释和梳理, 因此比显性知识更有价值。
用户隐性知识
基于用户知识的定义及构成的分析和对隐性知识的理解, 笔者认为用户背景信息和用户的各类研究性成果属于用户的显性知识, 用户需求信息和用户使用资源的经验技巧、自身拥有的成长经历、专业技能、工作经验、学习能力等属于用户的隐性知识。至于用户的行为模式和反馈知识到底属于哪一类还是不太好界定, 但可以肯定的是, 各种信息行为中蕴含着大量的诸如用户阅读偏好、检索习惯、需求变化等隐性知识, 用户的反馈知识中蕴含着用户对图书馆资源与服务的具体态度, 它们应属于用户隐性知识的范畴。因此用户隐性知识不仅指用户与图书馆交互产生的各种行为模式、反馈知识、用户需求和技巧经验, 还包括用户自身拥有的却未能被图书馆所利用的诸如个人经验、专业技能、科研能力等隐性知识。由于隐性知识总是依附于人的大脑或根植于人的行为之中, 笔者认为用户隐性知识就是以用户为载体, 可被图书馆直接或间接利用的一切具有现实或潜在价值的隐性知识。
什么是用户隐性知识挖掘
知识挖掘
挖掘, 原指向下挖以发掘, 现多引申为深度开发之意。这就要求挖掘的对象必须具有潜在的价值。知识作为知识经济时代的核心要素, 对其进行深度开发, 自然成了企业、组织乃至于个人的头等大事。那么到底什么是知识挖掘呢?
“知识挖掘”作为知识管理领域的一个重要概念, 受到了国内外相关领域研究者的高度关注。目前主要存在两种迥然不同的观点, 国外一致认为知识挖掘是按照既定目标, 运用数据挖掘技术与数据可视化工具, 从数据库中获取人们事先不知道的潜在有用的模式或知识的过程。从这一表述不难看出, 他们只是把知识当成了挖掘的结果, 却将结构化的数据而非知识作为挖掘的对象。这并不是真正意义的知识挖掘, 只不过是数据挖掘的升级而已。国内部分学者则基于“数据挖掘是对数据的挖掘”这一概念的理解, 对知识挖掘进行全新的定义, 即知识挖掘就是对“知识”的挖掘”。由于知识被分为显性和隐性, 因而知识挖掘既包括对显性知识的挖掘, 又包括对隐性知识的挖掘。笔者比较赞同这一观点, 它真正把数据挖掘与知识挖掘区分开来。
笔者认为知识挖掘就是以显性知识或隐性知识为对象, 从显性知识库或特殊载体人中识别或获取潜在有用的知识和模式的复杂过程。它是一种不同于数据挖掘的知识发现技术, 不仅挖掘显性知识之间的关联, 而且更加注重特殊载体人的知识的共享与创新。知识挖掘的实施主体多根据自身特点, 在运用数据挖掘、web挖掘技术方法的同时, 更加注重采用激励与补偿、协作与交流等软性化的方法, 借助知识地图、WEB2.0技术等对隐性知识进行有效的挖掘。
用户隐性知识挖掘
众所周知, 隐性知识大多以人为载体而存在, 却有部分隐含在各种显性知识之中。因此人们想当然的认为对“隐性知识”的挖掘就是对“显性知识中隐含的隐性知识”和“以人为载体的隐性知识”的挖掘。但是“对显性知识中隐含的隐性知识的挖掘”实质上属于“显性知识”的挖掘, 因为它挖掘的对象是显性知识, 其目的是识别出其隐含的隐性知识或信息而已。所以为了避免概念的混淆与交叉, 笔者认为隐性知识挖掘就是对以人为载体的隐性知识的挖掘, 这里的隐性知识是指存在于人的大脑或根植于行动之中的知识。由于隐性知识总是存在于用户的大脑或行为之中, 看不见摸不着, 需要通过外化、分享、转移等方式才能被释放出来, 因此对个体隐性知识的挖掘过程实质上就是实现个体隐性知识的外化、分享和转移的过程。
数据挖掘技术的概念 篇11
当然,大数据并不是新概念,在物理学,生物学等科学领域是早已存在的理论,只不过此前没有有效的手段获取和利用大数据。
随着互联网的发展,大数据的来源变得更为广泛,更重要的是人工智能技术的发展使得大数据的分析和处理变为可能,大数据的应用领域也得到了快速地推广。
看起来,未来应该是一个基于IT和互联网行业的新经济时代,传统金融行业也将被“信息革命”。那么,银行的机会在哪?以“吃利差”为主的银行如何去抢挖未来互联网上的“数据”金矿?
银行缺失非结构化数据
从银行目前最关心的小微贷说起。互联网公司阿里巴巴已经在利用大数据技术提供具体金融服务:通过掌握其电商平台和支付宝的各种信息数据,借助大数据分析技术自动判定是否给予企业贷款,全程几乎不用出现人工干预。
宇诚网络副总裁张东云告诉记者,对于银行来说,则需要雇佣大量的信贷员去实地调查有融资需求的小微企业:要了解企业的融资需求是不是真实可靠,要去审核企业的资产负债表,要拍照,甚至查电表、水表,而对于很多没有账目记载、没有规范化运营的小企业,客户经理们还需要耗费很大精力自己去重新搜集整理资金账本。
显然,如果银行要扩大自己的小微贷款范围,应对的是人力资源投入、运营能力、成本上升和整体效率下降的巨大挑战,即便是对于民生、包商这些长期研究和经营小微贷的股份制银行而言。
张东云认为,其实银行也积累了客户一些有价值的数据资源,甚至是互联网企业梦寐以求不具有的数据,比如实名身份信息、在强信用关系下的交易信息等。银行也都已经重视基于其上的商业价值挖掘。
问题在于,银行现在的数据大部分仅限于客户到银行服务站点之后的交易信息,使用相关产品的信息,但是对于交易背后业务的实际发生情况、客户的供应链、客户的日常关系、客户的偏好、客户在生活中在互联网上的行为轨迹、尤其是客户之间的互动联系,这些是银行原有的IT系统设计没有考虑的,也无法掌握的。
因而,银行在做小微贷业务时更多只能去参考商业圈、行业、地域为维度的较宏观经济因素,总的来说,没有细分到企业的非结构化数据积累,甚至背后都没有IT系统的统一支撑,业务被割裂了,对于信贷员从调查现场传回的照片等信息都不能通过互联网进行方便快捷的共享分析。
民生银行科技开发部总经理张金顺曾告诉记者,数据会成为未来银行的一种核心竞争力,这也是记者在接触一些国内各大银行相关人士时,发现已经被普遍接受的看法。
那么,银行该怎样去获得那些至关重要的非结构化数据?
SOCOMO构筑新的数据采集体系
还是从银行目前最关心的小微贷说起。银行最直接思考的一个方向是,能否在现有网银上承载商城业务,让客户登陆网银做些相关的交易或购买?让客户沉淀下有价值的数据?
网银联盟秘书长曾硕对这种想法泼了盆冷水。曾硕透露,现在中国五亿多的网民每天平均在网时长将近三个小时,而银行客户用网银的时间,每个月累计在一起的时间不会超过半个小时,做完事以后用户就退出去,绝不会在网银里面停留逛商城。
第二种方式是,和其他电商平台或网络融资平台合作。这种方式对于银行的不利在于,面临着脱媒的挑战。阿里巴巴和建行之前的合作搁浅,这就是主要的一个原因。
第三种方式是自建电商平台。对于银行来说,跨界太广,如何推广品牌、吸引用户流量很困难。
宇诚网络副总裁张东云告诉记者,银行具备的优势仍然在于原有的客户,关键是在于如何让这些用户与银行的相应服务挂钩:如何让银行服务全面深入融入客户的工作生活,如何让用户(用户之间)的各种商务信息能被银行的平台抓取。
互联网的重要特征是开放,银行想要发掘互联网的价值,唯有开放一条路可走。对此宇诚网络提出了SOCOMO的概念,即社会化、商业、移动的融合。简而言之,要以开放的社会化金融服务平台,为用户提供随时、随地、随行的全方位商业服务。
张东云认为,银行需要的不是第一代网银金融信息堆砌的网站界面,也不是第二代网银数以千计的功能点的交易菜单罗列,而是以“金融服务生活”为核心理念的互联网银行生态圈。
具体而言,互联网银行要改变传统网银的功能菜单导向为以客户核心需求为导向,把封闭的自助通道拓展为依托于互联网的开放的金融服务平台,从系统走向生态。秉承开放、创新、合作共赢的互联网精神,构建开放服务,打造社会化金融服务平台,与社会化资源充分糅合,依托开放的社会化互联网平台和云技术与移动互联技术、将金融服务融入生活场景,融入商务服务过程,将银行服务融入互联网生态。
在这个前提下,以客户为中心、深刻关注客户的交互方式及手段,以此建立全新的数据采集与分析体系。在Web2.0时代,大数据原本就应该是以人为核心,以人的关系为基础作信息生产、交换,从而产生的巨大信息爆炸,产生比现在更有价值的商业模式。
据记者了解,中信银行、宁波银行等已经开始了银行网上社区的建设,为中小企业、个人用户提供开放的服务平台,而交通银行的电子商城开始允许非该银行客户注册账户进行登录,并为其提供一系列相应的服务。
张东云表示,这种开放平台对银行带来的另一个巨大的好处是,如果建立了用户的银行ID和其他互联网ID的关联关系,将会让银行追踪到用户的互联网行为轨迹提供了技术上的可能。有了这个可能性,银行可以像现在互联网企业做的一样来挖掘用户行为数据背后的商业价值,况且,银行还掌握着这些实名制用户的在银行内的交易数据。
数据挖掘技术的概念 篇12
高中数学课本是数学知识最集中、最基本的载体, 是数学思想方法的生长点, 是高考试题的发源地.挖掘课本中概念、定义、公式、例习题的隐含条件是近几年来高考命题的趋势, 也是教者、学者们共同学习和研究的“基点”.课本中的概念、定义、公式是数学课本的“灵魂”, 只有通过对其隐含条件的挖掘, 才能使对课本知识由“懂”到“会”, 由“会”到“熟”, 由“熟”到“活”, 才能从中挖掘出亮点, 提炼出精品.下面笔者举例谈谈对课本中概念、定义、公式中隐含条件挖掘的一点实践.
1水落石出 吃透双曲线定义中的关键字眼挖掘1 课本中对双曲线的定义如下:
平面内与两定点F1, F2的距离差的绝对值是常数2a的点的轨迹 (其中|F1F2|>2a) .
这个定义中的关键字眼有两处, 一是绝对值, 二是|F1F2|>2a.
1) 当|F1F2|>2a时, 表示双曲线, 如果去掉定义中“绝对值”3个字, 则它只表示双曲线的一支;
2) 当|F1F2|=2a时, 表示直线F1F2去掉线段F1F2而得的两条射线, 如果去掉定义中的“绝对值”3个字, 则它只表示其中的一条射线;
3) 当|F1F2|<2a时, 它在平面上不表示任何图形.
例1 若点M到两定点A (-1, 0) 与B (1, 0) 的距离之差为2, 则点M的轨迹是 ( ) .
(A) 双曲线
(B) 双曲线的一支
(C) 以A为端点的射线
(D) 以B为端点的射线
此题错解比较多, 错误的原因是由于对双曲线的定义中的关键字眼没有深入理解, 只有对其真正理解了就很容易选出正确的选项D来.
2 穷则变, 变则通 搭建向量平移与函数图像平移的统一
挖掘2 课本中向量平移的概念如下:
设P (x, y) 是图形F上的任意一点, 按向量a= (h, k) 平移后得图形F′上对应点P′ (x′, y′) , 则
课本中有关平移的例题都是严格应用了这一公式, 下面对这一公式进行挖掘, 使之与函数平移统一起来, 为了便于理解, 不妨设h>0, k<0时, 图形按向量a= (h, k) 平移, 就可以理解为图形中的每一个点的坐标向右平移h个单位, 再向下平移|k|, 使向量平移与函数的平移统一起来, 让学生有“原来如此”的轻松.
例2 函数y=f (x) , 按向量a= (-2, 3) 平移后的函数解析式是.
分析 由点 (0, 0) 是向量a= (-2, 3) 的起点, 点 (-2, 3) 是向量a= (-2, 3) 的终点, 即按向量a= (-2, 3) 平移就向左平移2个单位, 向上平移3个单位, 得y=f (x+2) +3.
3见异思迁 展示等差、等比数列的几何背景
挖掘3 由等差数列的通项公式an=a1+ (n-1) d, 得an=nd+a1-d, 设c=a1-d, 即可以把an=dn+c视为是一个斜率为d, 自变量为正整数n的一次函数.显然:
1) 当d>0时, 数列{an}是递增等差数列;
2) 当d=0时, 数列{an}是常等差数列;
3) 当d<0时, 数列{an}是递减等差数列.
对等比数列{an}的通项公式an=a1qn-1, 变形为
1) 当0<q<1, a1>0时, an=cqn是减函数, 即数列{an}是递减等比数列;当0<q<1, a1<0时, an=cqn是增函数, 即数列{an}是递增等比数列.
2) 当q>1, a1>0时, an=cqn是增函数, 即数列{an}是递增等比数列;当q>1, a1<0时, c<0, an=cqn是减函数, 即数列{an}是递减等比数列.
3) 当q<0时, 数列{an}是摆动数列.
4) 当q=1时, 数列{an}是常数列.
通过上述的分析, 不仅对等差、等比数列的增减性有了深入的理解, 更重要的是展示了等差、等比数列的几何背景, 拓宽了知识面, 深化了数形结合思想.
例3 已知数列{an}的各项均为正数, 且公比q>1的等比数列, 数列{bn}为等差数列, 若a1=b1, a6=b6, 比较ai, bi, (i=2, 3, 4, 5) 的大小.
分析 因为a1>0, q>1, 所以数列{an}是指数型递增数列, 由a1=b1, a6=b6, 得an, bn.关于n的函数图像在自变量n=1, n=6处相交如图1, 由图易得ai<bi (i=2, 3, 4, 5) .
4 搬弄是非 弄清数学公式条件的充要性
挖掘4 1) 在直线方程一节中, 几种直线方程都有它的存在范围, 如已知两点A (x1, y1) , B (x2, y2) , 则AB所在直线的两点式方程为:
2) 在两直线位置关系一节中, 直线l1:A1x+B1y+C1=0与直线l2:A2x+B2y+C2=0垂直是
上述例子“举不胜举”, 这里不在一一赘述.
总之, 高考数学复习只有重“质”轻“量”的对课本中隐含条件挖掘, 才能使你在解读课本过程中体味既能“钻进去”, 又能“跳出来”的轻松.
【数据挖掘技术的概念】推荐阅读:
基于数据挖掘技术的客户关系管理11-13
数据挖掘关联技术05-19
数据挖掘技术综述06-09
数据挖掘技术分析08-01
数据挖掘技术概述09-29
基础数据挖掘技术11-15
数据挖掘技术的电子商务系统研究论文11-26
数据挖掘技术应用07-21
浅谈网络教学平台下的数据挖掘技术07-17
数据挖掘技术在航空发动机PHM中的应用12-01