知识发现技术

2024-09-27

知识发现技术(共9篇)

知识发现技术 篇1

随着企业间竞争的日益加剧, 企业不得不采取更加柔性、敏捷的战略, 来以客户为中心进行产品设计、研发、生产与服务, 使得以客户为中心的关系管理成为企业管理战略的新范式。企业识别出有价值的客户, 并将资源更多地投入到对该部分客户的保持上, 成为了客户关系管理的核心理念。显而易见, 识别出企业的价值客户, 成为了企业这种新范式战略成功实施的先决条件与关键步骤。

当前的企业已普遍地建立起管理信息系统, 可以收集到大量有关的客户数据。可以利用数据挖掘工具对这些客户数据进行分析与萃取, 可以提炼出价值客户的自然属性特征以及购买行为特性等隐含信息, 将这些有价值的信息在企业范围内传播、共享, 并用于营销策略的制定上, 从而完成了从繁杂的客户数据到特殊情境下的客户信息, 再到有价值的客户知识的转移过程。可以看出在这个过程中, 数据挖掘担当着客户知识发现的工具。实际上, 数据挖掘中的聚类分析、粗糙集、神经网络等具体方法已经被广泛应用到客户知识发现上[1,2,3]。本文侧重于利用数据挖掘中的判定树归纳法与RBF神经网络来进行客户知识的发现, 从而归纳出反映价值客户特征的客户属性, 并建立起价值客户的识别准则。这不仅为企业集中优势资源进行价值客户保持提供了科学的指导, 也为企业甄别性地获取新客户及将满足价值客户属性的潜在价值客户发展成为价值客户提供依据。

1 价值客户特征属性的归纳

以往关于价值客户的相关研究, 通常集中在价值客户的识别上, 客户的全生命周期价值 (即客户当前以及将来所产生的货币利益的净现值) 往往被作为参考的基准[4,5]。目前已有多种计算和预测客户全生命周期价值的方法[6,7,8], 但据此来进行价值客户识别大多无法归纳出反映价值客户特征的客户属性, 而这对于企业了解价值客户特征、甄别性地获取新客户以及将满足该类客户属性的潜在价值客户发展成为价值客户具有非常重要的指示意义。

本文利用数据挖掘中的判定树法对价值客户特征属性进行归纳, 挖掘出有益于企业营销的客户知识。该过程可以大体分为以下几个部分:构造客户数据集市;数据处理;目标类相关属性集的建立;构建分类模型。

1.1 构造客户数据集市

(1) 识别出企业的价值客户

企业的客户数据库通常将所有客户的交易记录及客户相应信息汇总在一起, 并没有将价值客户与非价值客户的数据进行相应地区分。因此, 有必要首先识别出数据库中哪些客户才是企业的价值客户。在学术研究及实践过程中, 通常以客户全生命周期价值作为识别企业价值客户的基准。因此, 本文选择生命周期已经结束的客户作为研究样本SC, 通过计算这些客户的全生命周期价值 (以下简记为CLV) 来进行客户价值的排序 (CLV的计算方法见式1) , 并根据某种规则 (如80/20法则) 确定出相应比例的企业价值客户。根据价值客户的识别结果, 在客户数据库中增加“价值客户”这样一个新的客户属性。

其中, t表示第t个时间单元, T为客户生命周期的时间长度, d为折现因子, P (t) 为客户在第t个时间单元为企业创造的利润。

(2) 建立客户的数据集合

从原有的企业客户数据库中抽取出与研究样本SC相对应的所有客户记录, 对缺省及异常数据进行相应的处理, 建立客户的数据样本集。由于企业数据仓库中的每位客户的信息都是由一系列客户属性所构成, 这些属性可能非常庞杂, 可将其大体分为客户的自然属性 (如姓名、性别、年龄、收入、联系方式等) 与客户行为属性 (如最近一次购买距今的间隔时间、购买频率、支付方式等) 两大类。

1.2 数据处理

(1) 客户属性的删除与概化:

对于具有大量不同值的某个客户属性, 若该客户属性没有定义概念分层, 或其较高层概念可用其他客户属性表示时, 应删除该客户属性;若该客户属性定义了概念分层, 可以用高层概念替换低层概念。

(2) 连续客户属性值的离散化

对于数值型的连续客户属性值, 首先根据客户属性值的大小进行排序, 然后设定相应的阈值将客户属性域划分为各个区间, 用区间的标号来代替实际的客户属性值。

1.3 目标类相关属性集的建立

如果利用所有的客户属性来进行类描述 (本文中, 新增的属性——“价值客户”作为目标类, 或称之为类标号属性) 显然是很繁琐的, 维数过多甚至会造“维数灾难”。因此, 可以利用属性相关性分析将与目标类不相关或弱相关的客户属性排除在类描述过程之外, 筛选出目标类的相关客户属性集。

属性相关分析的基本思想是计算某种度量, 用于量化属性与目标类的相关性。本文选择信息增益分析技术作为属性的选择度量, 选取具有最高信息增益 (或最大熵压缩) 的属性作为当前节点的测试属性, 使得对结果划分中的样本分类所需的信息量最小, 并反映划分的最小随机性[9]。其具体方法如下:设Ss个数据训练样本的集合, 每个样本的类标号均为已知。假定类标号属性具有m个不同值, 可对应定义m个不同类Ci (i=1, …, m) 。设S包含siCi类样本 (其中si是类Ci中的样本数) , 则一个任意样本属于类Ci的概率为si/s, 对一个给定的样本分类所需的期望信息可由下式给出:

设属性A具有v个不同值{a1, a2, …, av}。可用属性AS划分为v个子集{S1, S2…Sv};其中Sj包含S中的这样一些样本, 它们在属性A上具有值aj。若选A作为测试属性, 则这些子集对应于由包含集合S的节点生长出来的分枝。设sij是子集Sj中类Ci的样本数, 则由A划分成子集的熵或期望信息由下式给出:

其中项S1j++SmjS充当第j个子集的权, 并且等于子集中的样本个数除以S中的样本总数。期望信息 (熵) 越小, 子集划分的纯度越高。对于给定的子集Sj, I (s1j, s2j, …, smj) 由下式给出:

其中, sij|Sj|Sj中的样本属于类Ci的概率。

将在A上分枝所获得的信息增益定义为:

Gain (A) =I (s1, s2…sm) -E (A) (5)

Gain (A) 就是由于知道属性A的值而导致的熵的期望压缩。通过计算每个属性的信息增益, 选择具有最高信息增益的属性作为给定集合S的测试属性。另外, 可以设定相应的阈值 (可参阅文献[10]) , 将低于该阀值的冗余属性剔除, 从而建立起数据集合S的目标类的相关属性集。

1.4 构建分类模型

(1) 利用判定树归纳进行分类

判定树是一个树结构, 它的每个非叶节点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个叶节点代表类或类分布。如前所述, 在树的每个节点上使用信息增益度量选择测试属性。在选定测试属性后就可进行判定树归纳, 其基本算法是贪心算法, 以自顶向下递归的方式构造判定树。算法的基本描述如下:

①判定树以代表训练样本的单个节点开始。②若样本均在同一个类, 则该节点成为树叶, 并用该类标记。③否则, 根据信息增益选择能最好地划分样本的属性作为该节点的测试属性。④对测试属性的每个已知值创建一个分枝, 并据此划分样本。⑤算法使用同样的过程, 递归地形成每个划分上的样本判定树。当一个属性出现在一个节点上, 则在该节点的任何后代就不必考虑。⑥当下列三个条件中的任何一个成立时, 停止递归划分:a.给定节点的所有样本属于同一类;b.没有剩余属性可以用来进一步划分样本 (此时使用多数表决, 将给定的节点转换成树叶, 并用训练集中多数所在的类标记它) ;c.分枝没有样本 (此时以训练集中的多数类创建一个树叶) 。

(2) 由判定树提取分类规则

提取判定树表示的知识, 并以IF-THEN形式的分类规则表示。对从根到树叶的每条路径创建一个规则, 沿着给定路径上每个“属性——值”对形成规则前件 (“IF”部分) 的合取项。叶节点包含对是否为价值客户进行预测, 形成规则后件 (“THEN”部分) 。

2 基于RBF神经网络的CLV预测

由前面所述可知, 在价值客户特征属性的归纳过程中, 本文已完成了对生命周期已经结束的客户的CLV计算, 对于仍处于生命周期某阶段的客户甚至企业的新客户来说, 如何准确地预测其CLV呢?虽然根据判定树所提取的价值客户分类规则可以判断出这些客户是否为企业的价值客户, 但由于该方法受限于类标号属性值的离散化, 因此仍然无法准确地确定CLV, 而这是将价值客户或非价值客户进一步细分的根本依据。

因此, 本文提出了基于径向基神经网络 (简称RBF神经网络) 的CLV预测方法, 如图1所示。该方法将训练样本的CLV作为神经元的输出变量, 将判定树所归纳出的反映训练样本客户特征的客户属性作为神经元的输入变量, 通过对神经网络的训练, 使其具备预测CLV的功能。图中S1与S2为中间隐层与输出层的神经元数, 由于本论文仅将CLV作为输出变量, 因此S2的值为1。

3 价值客户特征属性归纳及CLV预测的示例

3.1 数据处理及训练数据集的构建

从某企业的客户数据库中选取生命周期已经结束的客户作为样本, 利用公式 (1) 进行CLV计算并进行排序, 将CLV最大的20%比例的客户视为企业以往的价值客户, 并将“是否为价值客户”记录在所增加的“价值客户”这样一个新的客户属性中。建立起关于这些样本客户的数据集市, 使其包含着类标号属性 (即“价值客户”属性) 及客户的以下具体属性:

客户的自然属性。包括5个具体的客户属性:姓名, 性别, 年龄, 收入, 联系方式。

客户的行为属性。包括2个具体的客户属性:购买频率, 现金或信用卡的支付方式。

对构建的数据集市进行数据预处理。由于姓名及联系方式属性存在大量不同值, 且无法进行概念分层, 故将它们剔除掉。对年龄、收入、购买频率属性进行离散化, 所划分的区间及对应的描述值分别为:

年龄。划分区间为:25岁及以下, (25岁, 45岁) , 45岁及以上;所对应的描述值分别为:青年, 中年, 老年。

收入。划分区间为:月收入800元及以下, (月收入800元, 月收入2000元) , 月收入2000元及以上;所对应的描述值分别为:低收入, 中收入, 高收入。

购买频率。划分区间为:1年购买2次及以下, (1年购买2次, 1年购买6次) , 1年购买6次及以上;所对应的描述值分别为:很少购买, 一般购买, 经常购买。

通过预处理得到广义关系表, 从中随机抽取20个客户数据元组组成训练数据集, 如表1所示, 其他客户数据元组作为测试数据集。

3.2 相关属性集的建立

类标号属性“价值客户”有两个不同的值 (即{是, 否}) , 因此对应两个不同的类 (m=2) , 假设与其相对应的类分别为C1、C2。从表1的训练数据集中可以得出C1有5个样本, C2有15个样本。利用公式 (2) 可得训练集分类所需的期望信息为:

I (s1, s2) = I (5, 15) =-5/20*log2 (5/20) -15/20*log2 (15/20) =0.811。

计算每个属性的熵, 如对于收入属性:

低收入:s11=0 s21=6 I (s11, s21) =0

中收入:s12=1 s22=7 I (s12, s22) =0.544

高收入:s13=4 s23=2 I (s13, s23) =0.918

由该属性划分成子集的熵为:E (收入) =6/20*I (s11, s21) +8/20*I (s12, s22) +6/20*I (s13, s23) =0.493, 因此这种划分的信息增益是:Gain (收入) =I (s1, s2) -E (收入) =0.318。类似地可以计算出按其它属性划分的信息增益:Gain (性别) =0.009, Gain (年龄) =0.086, Gain (购买频率) =0.24, Gain (支付方式) =0.163。将属性相关性的阈值设定为0.01, 则将与类标号属性弱相关的“性别”属性剔除掉, 就得到了相关属性集。

3.3 判定树及价值客户识别规则的产生

收入在属性中有最高的信息增益, 故将其作为判定树根节点的测试属性, 并对于每个属性值引出一个分支, 选择信息增益次高的属性为下一级节点的测试属性, 这样递归的构造出判定树, 经过剪枝, 最终如图2所示。

根据图2的价值客户的判定树, 从根到树叶的每条路径都可以创建一个规则, 总共可以建立价值客户识别的8条规则, 以下仅列出其中一条, 其它略。

IF收入=“高” AND支付方式=“信用卡” THEN 价值客户=“是”

针对训练数据集, 利用判定树方法建立起的价值客户识别规则可以对测试集中的客户进行价值识别。需要说明的是, 为了便于计算及描述, 示例中仅抽取了20个客户数据元组作为训练数据集, 而客户属性类别较多, 所以使得模型的识别误差较大, 这里仅仅作示范说明作用。在实际当中, 我们抽取了500个客户数据元组作为训练数据集, 利用判定树归纳出的价值客户识别规则对测试集中的420个客户进行了价值识别, 其准确率高达84%, 说明了该方法通过归纳价值客户特征属性来进行价值客户识别是比较有效的。

3.4 预测CLV的系统仿真

同样以上面500个客户数据元组作为训练数据集, 将相关属性集中的客户属性 (收入、购买频率、支付方式、年龄) 作为输入矢量中的4个变量, 计算出的CLV值作为输出变量, 高斯函数作为神经元的变换函数。通过对图1结构的RBF神经网络进行训练 (使用的软件为MATLAB6.0, 隐层神经元的数目选为自动确定) , 对测试集中的420条记录进行系统仿真检验, 结果CLV预测的相对误差仅为3.26%, 说明该CLV预测模型具有较高的预测精度。

4 结论

本文利用数据挖掘中的判定树归纳法对客户数据库进行分析, 提炼出价值客户的自然属性特征及购买行为特性等重要的隐含信息, 对于了解价值客户特性及分析其购买行为具有指示意义。与通过计算客户全生命周期价值来进行价值客户识别不同, 本文所建立起的价值客户识别准则方法便捷、表现形式直观, 并可以对可为该领域的相关研究提供借鉴。此外, 本文将判定树方法归纳出的客户特征属性及CLV分别作为径向基神经网络的输入、输出变量, 构建起准确预测CLV的模型, 实证结果表明模型具有较强的适用性及较高的预测精度。

摘要:采用数据挖掘中的判定树法归纳出反映价值客户特征的客户属性, 相应地建立起价值客户的识别规则, 并将提炼出的客户属性作为神经元的输入, 构建起基于径向基神经网络的CLV预测模型。最后结合实例对所构建的方法进行了应用说明, 为价值客户识别与特征描述及CLV的预测提供了一种新思路。

关键词:客户知识,价值客户,客户生命周期价值,判定树归纳,径向基网络

参考文献

[1]王红军, 陈庆新, 陈新, 郑德涛.基于效用分析的客户聚类方法研究[J].计算机集成制造系统, 2003, 9 (3) .

[2]邹鹏, 李一军, 叶强.客户利润贡献度评价的数据挖掘方法[J].管理科学学报, 2004, 7 (1) .

[3]胡理增, 薛恒新, 于信阳.以客户终身价值为准则的客户重要程度识别系统[J].系统工程理论与实践, 2005 (11) .

[4]REINARTZ W J, KUMAR V.The Impact of Customer RelationshipCharacteristics on Profitable Lifetime Duration[J].Journal of Mar-keting, 2003, 67 (1) .

[5]RUSTR T, LEMON K N, ZEITHAML V A.Return on Marketing:Using Customer Equity to Focus Marketing Strategy[J].Journal ofMarketing, 2004, 68 (1) .

[6]DWYER R F.Customer Lifetime Valuation to Support Marketing De-cision Making[J].Journal of Direct Marketing, 1997 (11) .

[7]BERGER P D, NASR N I.Customer Lifetime Value:MarketingModels and Applications[J].Journal of Interactive Marketing, 1998 (12) .

[8]陈明亮.客户全生命周期利润预测方法的研究[J].科研管理, 2003, 24 (4) .

[9]HAN J WI, KAMBER M.Data Mining Concepts and Techniques[M].San Mateo:Morgan Kaufmann Publishers Inc, 2001.

[10]张宁.顾客满意阈值及市场营销策略属性的离散估计[J].管理科学学报, 2002, 5 (3) .

知识发现技术 篇2

发现问题,并且提出问题是获得更多知识的前提,如果你已经掌握了这一步,那么你就已经成功了一半。

回首过去的那些科学家,发明家,他们中大多数成功的秘诀都是因为发现了问题,并且为之不断地奋斗努力,直至解决问题,牛顿因为对苹果熟了为什么下落这一个我们平常都不会注意的这个小小的问题而发现了地球有引力,弗莱明因为对一个青苔产生了问题而发明了青霉素,由此可见发现问题是成功的前提。

曾经有个人问过爱因斯坦这样一个问题“您成功的秘诀是什么?”爱因斯坦并没有立刻回答他的问题,而是对他说这样一件事“如果让我到堆满茅草的屋子里去找一颗豆子,我并不满足,仅仅只找一颗豆子,我会找两颗,三颗……。我可以告诉你,我成功的秘诀在于我会发扬这种找豆子的精神。

爱因斯坦的话告诉我们获得知识其实就是一个找豆子的过程,我们要将这种找豆子精神放在学习上,学习就是一个发现问题并去解决问题的过程。

我们去发现知识并不仅仅局限于提出一个问题,找到一个知识就满足了,而要善于去发现更多的问题与知识。

论知识发现与数据挖掘 篇3

关键词:空间数据挖掘;知识发现;方法

中图分类号:P208 文献标识码:A 文章编号:1007-9599 (2012) 09-0000-02

科技发展日新月异,网络技术的发展将整个世界联成一体,人们可以超越时空的概念,利用网络,相互之间进行信息交换、协同工作,这种信息交换与工作协同在方便了人们的同时必然造成信息与数据的无限扩张,会使人们在提取有用信息和知识时,如同大海捞针一样无力,面对大量的数据,传统的数据分析手段难以应付,导致越来越严重的数据灾难,为了有效解决这一问题,知识发现与数据挖掘技术开始出现。

一、特点及过程

(一)特点

作为一门新兴学科,知识发现具有极大的发展前途和有广泛应用前景,知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,知识发现不需要预先进行假设或者提出问题,就可以找到那些非预期的有用的或有潜在价值的信息,是一种有价值的搜寻过程。

数据挖掘也称知识挖掘,可以看成数据库中的知识发现,是从大量庞杂的数据中获取信息和知识的过程。数据挖掘其一开始出现的目的就是应用,因此数据挖掘的研究成果是很讲求实际的。数据挖掘技术不是简单的数据库的检索、调用,而是对数据进行全方位的统计、分析和推理, 以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

(二)过程

知识发现的内涵与知识挖掘,知识发现是从数据库中发现知识的整个过程,数据挖掘是具体这个过程的关键步骤,因此,知识发现与数据挖掘通常在使用时是不加区分的。一个完整的知识挖掘过程如下:

数据库→数据的准备→数据挖掘→知识评价→知识表示→知识库。

二、方法

知识发现与数据挖掘方法有很多,其中比较常见的有以下几种:

(一)空间分析法

空间分析法是一种总称,其利用一定的技术理论对空間的叠置、拓扑结构、图像以及距离好空间缓冲区进行分析,把探测性的数据分析与空间分析相结合,构成探测性的空间分析,聚焦数据,发现隐含在其中的特征和规律。

(二)统计分析法

统计分析法是一种通过对研究对象的规模、范围数量关系信息的分析研究,认识和揭示事物间的相互关系、变化规律和发展趋势,进一步进行对象评估、特征预测、规律统计,借以达到对事物的正确解释和预测的一种研究方法。

(三)聚类方法

聚类分析是基于物理特性的聚类或分类,根据一定的标准大型多维空间数据集,以确定相应的区域,数据被分为一组的一系列相互区分,发现法律数据集。作为统计学的一个分支,聚类分析无需背景知识可以直接发现有意义的空间聚类结构。

(四)遗传算法

遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,自适应地调整搜索方向,不需要确定的规则,能在搜索过程中自动获取和积累有关搜索空间的知识,并可通过自适应机制控制搜索过程以求得最优解。

(五)神经网络方法

这种方法利用神经元练成网络,通过这种形式使系统成为具有存储、联想等一些列的功能的自适应非线性动态系统。这种方法的优点是具有并行性、直观性和抗噪声性。

(六)模糊集理论

模糊集用模糊隶属函数确定的隶属度描述不精确的属性数据,重在处理空间数据挖掘和知识发现中不精确的概率。我们都知道模糊是一种客观存在,一个系统越复杂,精确化就越难,因此模糊性就越强。在根据模糊集理论,类型和空间实体分别作为模糊集合和集合元素。在空间数据挖掘中,模糊集可用作模糊决策、模糊评判、模糊聚类分析、模糊模式识别、计算置信度和合成证据等。

(七)粗集理论

粗糙集是上近似和下近似集组成,然后以此为基础来处理不精确,不确定和不完整的信息,智能数据决策的工具,更恰当地基于空间数据挖掘的属性不确定性。

(八)云模型

云模型是一种新的方法,它用自然语言值表示定性概念与其定量数据表示之间的不确定性转换模型,反应的是客观世界中的概念的随机性和模糊性,并将二者紧密集合,集成在一起构成定量与定性间的映射。

(九)决策树

决策树方法是,根据不同的特点,分类或决策树结构的集合,从而创造发现的规则和模式,仅仅意味着一个简单的产生规则和发现规律。

三、应用

知识发现与挖掘技术在信息发现与信息提供发面都有着重要意义。

(一)在信息发现中的应用

其在信息发现中的应用主要有以下几种:

1. Web 数据开采

随着网络的普及,互联网已经广泛的应用于人们生产生活的各个方面,可以说人们对此并不陌生,我们知道,人们所获取的信息大部分都要来自于因特网,而因特网的数据信息不仅庞杂,更是非结构的、无序的、动态的,要想在因特网上获取符合要求的信息,对用户来说十分困难,基于此,Web 数据开采作为一项已解决上述问题为目的的新技术被人们提了出来。Web 数据开采由信息采集、识别、分类构成其实现过程,就目前来说,它主要有网络智能体和智能信息捕捉器两种实现形式。所谓智能体就是一个具有控制问题求解机理的计算单元,智能体具有一定的智能型,可以模拟人类的行为和关系,可以自主运行并提供相应的服务。用户在智能体的神经网络技术引导下,可以很迅速的进入所需页面,通常情况下这些页面都是需要通过长时间的交互才能到达的。智能捕捉器以自动捕捉、采集和整理领域所需信息为目的, 其根据用户输入的对捕捉需求的定义进行查找,先查找到信息源登记表,然后根据信息源提供的信息粒度进行筛选找出信息源,再根据模型算法确定并选取最佳搜索路径,按逻辑式自动组织搜索关键字,还可以同时对应多个特定领域范围内的信息捕捉。

2.智能搜索引擎

面对无边的数据海洋,智能搜索引擎是很好的应用工具,智能搜索引擎的检索机制是关键词匹配原则,可以帮助用户更好的寻找信息资源。目前的搜索引擎还不完善,有着诸如不划分知识领域、知识量少等一些列问题,其搜索的效率并不高,因此人们开始着眼于智能搜索引擎的开发,智能搜索引擎很好的弥补了现行搜索引擎的不足。

3.多语种信息发现

多语种信息资源使人们在获取知识时的最大障碍,一直以来,地理和语言的障碍都使人们获取知识时产生一定的困难,随着科技的发展,人们研究出多语种信息发现,这可以很好的解决多语种障碍,使地球成为名符其实的地球村,实现信息数据资源的真正共享。多语种信息发现主要应用在多语种电子文档获取、翻译、检索方面。

(二)在信息提供中的应用

知识发现与数据挖掘技术在信息提供中主要应用在以下几个方面:

1.知识共享

知识共享是一個我们十分熟悉的词汇,这种共享发生在一个虚拟的团体中,这个团体的成员依靠网络相互联系、相互支持、资源共享一次可以更快更好的解决问题。

2.信息智能“推”

所谓信息智能推是指在信息的搜索过程中,机器通过关键词识别和预测用户的兴趣或偏好, 从而及时地、有针对性地向用户主动推送相关知识和最新信息,这样既可以减轻网络负担,也可以扩大用户范围。

3.其他

除了上述两种外还有个性化服务、互动式服务和语义交互,就不一一赘述了。

四、结束语

知识发现与知识挖掘作为新兴的研究领域,已经得到了广泛的应用,但是作为一项崭新的技术,知识发现与知识挖掘目前仍处于起步阶段,仍有很多研究难题有待解决,比如数据访问的效率和可伸缩性,发现模式的精炼等等,所以对它的研究将会一直持续下去,其应用前景也会更加美好。

参考文献:

[1]杨武,陈庄.数据库知识发现技术及应用[J].重庆工学院学报:自然科学版,2001,15(2):32-34

[2]韩惠琴,刘柏嵩.数字图书馆中的知识发现[J].情报学报,2001,20(3):16-19

[3]李德仁,王树良,史文中.论空间数据挖掘和知识发现[J].武汉大学学报?信息科学版,2001,26(6):491-499

[4]白石磊,毛雪岷,王儒敬.基于数据库和知识库的知识发现研究综述[J].广西师范大学学报:自然科学版,2003(1):136- 138

知识发现技术 篇4

● 问题提出:技术操作培训、技术课堂使用的方式哪个更重要

课堂中使用技术, 以及对技术以何种方式影响学习的探索早已不是新现象。1965年是美国公立教育的一个转折点, 法律批准投入资金建设学校技术设备。主机和小型计算机在一些学校投入使用, 最初大多数是为了行政目的, 如创建和维护数据库。在20世纪70年代, 微型处理器发明成功, 个人计算机及苹果设备变为学校里司空见惯的东西。20世纪80年代, 出现了计算机辅助教学。20世纪90年代早期, 美国大多数课堂都至少配备一台计算机。90年代末, 因特网改变了我们交流和搜索信息的方式。受未来派思想及商业利益的影响, 课堂中技术的使用情况成指数增长。随着新技术的出现, 一些专业进修以培训技术操作为重点, 研究怎样用技术替代传统学习。尽管很难争辩学习技术操作的必要性, 但这却掩盖了怎样以创新的方式应用技术积极影响学生学习的本质。

● 辩证看待技术对课堂的影响

20世纪80年代, 教育研究以技术对课堂的影响为重点。1999年, Schacter分析了五个大范围研究, 一是对参与计算机辅助教学的500个个体的研究的元分析, 二是对219个关于技术影响学习的研究的综述, 三是对明日苹果教室 (Apple Classrooms of Tomorrow) 所使用的交互技术五年的评估, 四是对来自18所小学的950名五年级学生以及290名教师的研究, 五是对由6227名四年级学生以及7146名八年级学生组成的全国性代表样本的仿真程序以及高阶思维技术的评估研究。尽管上述研究都得到了积极的结果, 但也有一些消极的、不确定的发现。例如, Schacter称教育技术的有效性受学生个性、软件设计、教师角色以及学生接触技术的渠道影响。而且, 在其中一个研究中, 利用技术设备玩学习类仿真游戏以及开发高阶思维能力的学生与没使用技术设备的学生相比, 其高阶思维的发展仅仅提早3~5周。并且, 美国国家教育进展评估 (National Assessment of Educational Progress assessments) 显示, 使用训练软件的学生与不使用训练软件的学生相比表现较差。最后, 在明日苹果教室, 学生的表现并不比对照组或者接触不到计算机的学生好。Schacter总结说, 当学习目标不清晰或者技术使用无重点时, 教育技术是低效或无效的。

反思Schacter的研究及结论, 结合整合技术的学科教学知识 (Technological Pedagogical Content Knowledge, TPACK) 的研究历史, 我们可以看出, TPACK研究作为探索技术积极影响课堂的方式, 是教育技术研究者探索这一领域的必由之路。

● TPACK历史回溯:从PCK到TPACK

1983年, 卓越教育国家委员会 (National Commission on Excellence in Education) 发表了题为《国家处于危机之中:改革势在必行》的报告, 揭示了当时美国教育存在的一些严重问题, 这篇报告作为教育改革的催化剂, 掀起了各地区乃至全国教育改革的浪潮。教育改革其中一个重点是教师教育。1985年, 著名学者、教师教育研究者舒尔曼 (Shulman) 出任美国教育研究协会 (AERA) 主席。反思教师资格认证制度, 舒尔曼 (1986) 提出教师应该将学科知识和教学法知识结合起来。为此他引进了学科教学知识 (PCK) 的概念, 即教师利用教学法将内容知识以学生易于理解的形式进行讲授。

舒尔曼关于PC K的研究引起了众多学术机构浓厚的兴趣, Thomas J.Cooney提到, 教师获取学科教学知识 (PCK) 的途径是教师教育的支撑点之一, 它应当成为教师教育研究的焦点。这一系列研究表明学科教学知识是教师从事教育教学活动的知识基础, 它在教师知识中处于统领性的核心地位, 它也从根本上决定了教师的专业性。因此, 教师专业发展必然以学科教学知识的习得与拓展为前提。围绕PCK及其对教师教育、教师专业发展的影响, 学者进行了很多研究, 并且致力于提高或者扩充舒尔曼的PCK理论, 包括2001年Pierson建议在现有的PCK模型中增加技术知识, 以更好地定义教师技术整合;2003年, MargerumLays以及Marx致力于发展教育技术中的PCK;2005年, Niess使用术语“TPCK”代指技术支持下的PCK;基于舒尔曼1987年的研究, 以及以Grossman1989—1990年对PCK主要成分的研究为基础, Niess通过增加技术知识改进了Grossman的研究, 并且提供了一个框架以描述教师TPCK的发展;大约在同一时间, Angeli和Valanides提出了信息与通信技术相关的PCK (ICT-TPCK) , 这是一个通过引入ICT (信息通信技术知识) 扩充了1986年舒尔曼以及1993年Cochran, De Ruiter, King的PCK研究的框架, 并且建议ICT-TPCK作为知识/能力的一种特殊部分, 按照五种不同知识基础 (内容知识、教学法知识、学习者知识、教学情境知识以及ICT知识) 的相互作用进行定义。也同样是在2005年, Koehler和Mishra引进他们的TPCK框架, 并且提出TPCK框架包含三个基本的知识领域, 即内容、教学法及技术, 并且包含四个交叉领域, 即PCK、TCK、TPK及TPCK;2007年, Mishra和Koehler将TPCK更名为TPACK, 目的是便于记忆与陈述。

● 教学法知识 (PCK) 关键性的重要发现

TPACK框架促进教师对内容知识 (CK) 、教学法知识 (PK) 以及技术知识 (TK) 交叉影响学生学习的思考与理解, 使教师认识到技术整合的目的是支持学生学习, 并非仅仅是传播教学内容。Koehler和Mishra总结说, 仅仅在教育过程中引进技术并不能确保技术整合, 这一点变得越来越清晰。新兴文化与我们自身工作的结合表明教学法知识在技术整合中扮演着重要角色。

研究人员对某所教育学院的两位经验丰富的教师进行个案研究, 两位教师均在其学科领域持有硕士文凭, 这保证其具备丰富且同等水平的内容知识。教学法知识是教与学的核心, 选择教育学院, 是因为教育学院的教师最有可能展现出教学法知识。研究人员在为期16周的学期内进行数据收集, 并在期中阶段对教师进行访谈, 讨论他们开设的网络课程的各个方面, 包括他们对技术以及教学法的使用, 以及他们取得的成功与面临的挑战。研究人员在教师们开设的网络课程中作为非参与性的观察者, 重点观察四个部分, 即教学大纲、新课、教学模块和讨论模块。随后采用主题内容分析方法 (thematic content analysis methods) 分析数据, 数据主要来源于采访、学习管理系统部分, 课程部分以及师生互动部分。根据TPACK模型以及数据分析结果确定代表每位教师技术知识、教学法知识、内容知识的圆形区域的面积以及各个区域重叠的程度。图1为两位教师网络课程的分析结果, 两位教师的内容知识水平相当, 起到对比作用。

在图1的左图中, 代表内容知识和技术知识的圆圈面积最大, 代表教学法知识的圆圈面积最小。尽管这位教师展现出丰富的技术知识, 但我们并没有找到三个知识领域重叠的区域, 即没有代表TPACK的区域。访谈中这位教师表示学生之间的互动很重要, 但观察发现讨论区仅作为单向的供学生们提出问题的交流工具, 而没有发挥促进互动与讨论的作用。虽然教师明显具备技术知识, 但却没有与教学法知识以及内容知识整合。相比之下, 右图中, 代表教学法知识的圆圈面积最大, 代表技术知识的圆圈面积最小, 但是代表教学法知识、内容知识及技术知识的圆圈区域之间有明显的重叠部分。这位教师技术知识有限, 但却与教学法知识和内容知识进行整合, 研究发现, 教师利用讨论区与学生们进行讨论, 讨论区发挥了教学作用以及评估作用。在采访以及教学大纲中, 她明确制定了对讨论区中应讨论的内容的期望以及思考怎样利用讨论区的数据评估学生的学习。

有人认为如果代表一位教师技术知识的圆圈面积很大, 那么这位教师代表TPACK的交叉区域的面积也会很大, 因此他就是一个优秀的技术整合者。然而我们发现, 教师所具备的技术知识不一定都能转化为TPACK发展所需要的知识。在我们研究TPACK发展最好的教师具有三个知识领域动态互动的意识, 并能清楚地阐明特定技术是如何支持特定教学法的。由此, 我们可得出结论:教学法知识是技术整合的必要基础。

● QM教师专业发展与TPACK的映射对比

研究人员对大学教师也进行了研究, 这主要集中于涉及网络教与学中以质量为核心的教师专业发展。这些教师初次开展网络课程时仅仅是将面授课程的教学材料挪到学习管理系统, 教学内容和教学方法并没有改变, 这并没有考虑到网络学习者的需求以及网络环境中课程设计和教学法的复杂性。经过对网络教学的初步尝试后, 教师们开始参与以网络课程质量为重点的专业发展。

QM (Quality Matters) 计划是一个在美国颇受重视的国际组织, 其工作主要是开展机构内协同和分享对网络课程质量的共同理解。这一组织制定的标准用于促进网络课程的开发、维护以及评述工作。它以教师为中心, 实行同行评议。其教师专业发展培训侧重于教师的能力, 要求教师将QM标准应用于他们的课程发展中, 该标准包括课程概述和介绍、学习目标、评估和测量、资源材料、学习者参与、课程技术及可访问性七个关键部分。研究人员在教师参与QM培训前后, 对其进行了采访, 并对其培训前后开展的网络课程、师生互动以及课程发展策略进行了评估, 结果显示所有的参与者都有积极的收获。来自本研究的多个数据源显示, QM培训帮助教师理解网络学习者的需求, 进而形成了对教学法、教学内容以及技术的整合观念。

尽管并没有明确向教师介绍TPACK框架, 但通过QM培训, 以及他们运用获得的知识对网络课程进行设计、改进, 研究人员发现他们的TPACK水平有所增长, 并且有些教师成长为经验丰富的网络教师。研究人员推测这可能是由于标准中的教学法元素与TPACK框架高度相关。为此, 研究人员将QM标准映射到CK、PK、TK、TPK、PCK、TCK、TPACK领域。这项映射工作的意义在于, 我们可以知道, 是否TPACK的所有区域都在标准中得以呈现。具体来说, 经过QM专业培训, TPACK的哪个领域受影响最大。

浅谈数据挖掘与知识发现 篇5

从20世纪80年代中后期, 数据挖掘和知识发现的方法、技术和系统, 从不同角度、不同领域和不同学科进行了研究和实践, 主要的学科有数据库、统计学和机器学习。我国近年来也紧跟国际潮流, 许多单位的研究小组开展了KDD的研究与开发工作, 我国各大科研科技资助项目都设立了KDD的研究课题。

二、动因

(一) 技术发展需要

1、信息系统的发展和决策支持系统发展的必然结果, 决策支持系统建立在数据仓库和数据挖掘之上:现在CRM也需要KDD技术。

2、克服数据丰富而知识贫乏, 数据大量积累和数据库的大量的建立, 数据每年成倍地增长, 人已无法分析这些数据, 但数据里隐含着有用的知识;但未被发现而已。美国数据挖掘开拓者Shapiro曾戏言:“原来曾希望计算机系统成为我们智慧的源泉, 但从中涌出的却是洪水般的数据”。

(二) 市场竞争的需要

1、从数据中找到知识、规律、模式来指导生产, 指导商业行为, 避免差错, 防止欺诈, 增强竞争力, 发现科学规律。数据挖掘完全是需求驱动的。

2、在世界走向信息化的今天, 充分利用企业的信息资源, 挖掘企业和所对应市场的运作规律性, 以不断提高企业的经济效益是先进企业的比由之路。世界有名的Gartner Group咨询公司预计:不久的将来先进大型企业会设置“统一数据分析专家”数据仓库和数据挖掘一定会扩展开来!

3、硬件→网络→数据 (信息系统) →信息→知识 (决策支持系统) 是必经之路, 有人甚至以“DW+DM=$aving”为题发表文章。

(三) 网络技术和应用的普及

1、国家级、部门级、行业级、企业级网络大量建设, 政府上网等, 为全局数据和信息的积累提供了环境和平台, 给分析、决策支持提供条件。

2、Internet网的普及, 电子商务的扩大, 电子政务开展, WWW成为最大的信息源, 需要尽快准确找到所需信息。

三、定义、过程、分类

(一) KDD定义

KDD是从数据集中识别出有效的、新颖的、潜在有用的, 以及最终可理解的模式的非平凡过程。

数据集:是一组事实F (如关系数据库中的记录) 。模式:是一个用语言L来表示的一个表达式E, 它可用来描述数据集F的某个子集FE, E作为一个模式要求它比对数据子集FE的枚举要简洁 (所用的描述信息量要少) 。过程:是指KDD是一个多阶段的过程, 包括数据准备、模式搜索、知识评价, 以及上述过程的反复求精;该过程是非平凡的, 是指整个过程是自动的、智能的 (如计算所有数据的总和、平均值都不能算作是一个KDD过程) 。有效性:是指发现的模式应用于新的数据时要具有一定的可信度。新颖性:要求发现的模式应该是新的、用户未知的或未预料到的。潜在有用性:是指发现的知识将来具有实际效用, 如用户根据发现的知识进行商业决策可以产生一定的经济效益。最终可理解性:要求所发现的模式容易被用户理解。

(二) 分类

根据数据采掘任务分, 数据采掘有如下几种:分类、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系 (或依赖模型发现) 、异常和趋势发现等等。

根据数据采掘的数据库或数据源分, 数据采掘有以下几种:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、以及万维网 (WWW) 。

根据数据采掘所采用的技术分, 数据采掘可大致分为:统计方法、机器学习方法、神经网络方法和数据库方法。

四、关联规则

在商业领域, 条码技术和数据库技术的发展使得零售机构收集、存储了大量的销售记录, 这些销售记录又称为篮子数据 (basket data) 。篮子数据保存了顾客在一次购买中所涉及的商品的详情 (如商品名称、价格、数量等) 。通过数据库管理系统提供的查询功能可以对篮子数据进行分析, 了解在过去一段时间内的商品销售情况。所发现的知识以 (一些商品) → (另一些商品) 的形式描述, 称为关联规则。指导货物的摆放, 货物定货或去掉, 在这样的应用背景下, 1993年R.Agrawal首次提出了大型数据库中的关联规则采掘的问题, 并给出了关联规则的一系列挖掘算法。

五、小结

人们通常把数据挖掘工具看得过份神秘, 认为只要有了一个数据挖掘工具, 就能自动挖掘出所需要的信息, 就能更好地进行企业运作, 这是认识上的一个误区。其实要想真正做好数据挖掘, 数据挖掘工具只是其中的一个方面, 同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力, 必须有一些数据挖掘方面的专家, 专门从事数据分析和数据挖掘工作。再同其他部门协调, 把挖掘出来的信息供管理者决策参考, 最后把挖掘出的知识物化。在国内的企业中, 还很少有决策人员认识到这一点。如果管理者没有这方面的意识, 数据挖掘和数据分析就很难发挥应有的作用, 很容易走向两个极端:一是认为数据挖掘没有用处;二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。

数据挖掘根据人们的特定要求, 从浩如烟海的数据中找出所需的信息来, 供人们的特定需求使用。2000年7月, IDC发布了有关信息存取工具市场的报告。1999年, 数据挖掘市场大概约为7.5亿美元, 估计在下个5年内市场的年增长率为32.4%, 其中亚太地区为26.6%。到2002年, 该市场会发展到22亿美元。据国外专家预测, 随着数据量的日益积累和计算机的广泛应用, 在今后的5-10年内, 数据挖掘将在中国形成一个新型的产业。

摘要:文章从四个方面的信息阐述了数据挖掘与知识发现:数据挖掘与知识发现发展状况和信息 (网站) 、数据挖掘与知识发现的基本概念、数据挖掘与知识发现解决问题的关键、数据挖掘与知识发现的技术、方法。

实践中发现是学习知识的最佳途径 篇6

一、在情境中发现

“让学生经常用数学的眼光看身边的事物,让他们对自然和社会现象的好奇心、求知欲不断旺盛成长,使学生对数学有一个较为全面、客观的认识,从而愿意亲近数学、了解数学、谈论数学,对数学现象保持一定的好奇心”,“让学生在生动具体的情境中学习数学”,“让学生在现实情境中体验和理解数学”是《数学课程标准》给我们广大数学教师提出的教学建议.生活中处处有数学,我们要关注学生的生活经验和学习体验,创设数学学习的情境,捕捉贴近学生的生活素材,选取学生生活中熟悉的人、事、物,采撷生活数学实例,挖掘生活中的数学原型,感受发现数学问题.如一年级小朋友上学的第一堂课就是《认识我们的校园》,带着他们到校园里走一走,看一看学校有几个大花坛,几块草坪,几棵树,几幢教学楼……学生通过数一数掌握了知识,学会了有序思考,发现数学就在他们身边,初步感知10以内的数.这样从生活中感受数学的存在,发现数学知识,学生学习数学自然产生亲切感,不但有利于形成似曾相识的接纳心理,而且把抽象的知识形象化,也有利于学生理解领会,同时运用所学知i识解释生活中的现象,更有利于培养学生实践能力.

二、在观察中发现

观察是人们认识世界的重要途径,是智力活动的基石,是自主探索的一种形式,外界大量的信息大多要通过观察输入大脑.因此要让学生养成观察的习惯,从观察中发现问题,从而提高思维的深刻性和灵活性.在教授梯形面积时我出示了这样一道题:图形(1)是一个上底6 cm,下底10 cm,高4 cm的梯形,如果把这个梯形的上底逐次增加1 cm,下底逐次减少1 cm,高不变.从中你能发现什么?

学生通过观察很快发现它们面积不变,轻松地总结出了其中的规律.整个观察过程不仅仅培养了学生学习的主动性,也极大地激发了他们学习数学的兴趣.

三、在比较中发现

有比较才有差异,通过差异比较,学生意识到自己的观点和其他同学不同时,他就会重新思考自己的观点、方法、结果,并加以调整,学生在差异中发现知识,激发思维.例如,在教授梯形面积时,大部分学生利用两个完全相同的梯形拼成了一个平行四边形,推导出了梯形面积公式.但也有学生只用一个梯形推导出面积计算公式,他是这样做的:先将梯形上、下底对折,沿折线剪开,也可以拼成一个平行四边形,平行四边形的底正好是梯形上、下底的和,高正好是梯形高的一半,因此梯形的面积S=(a+b)×h÷2.还有同学在他的启发下也举起手,他是这样做的:把梯形剪成两个三角形,梯形的面积是两个三角形面积之和即S=dh÷2+bh÷2=(a+b)×h÷2……学生们比划着,议讨着,课堂气氛顿时活跃起来.

在比较中学生发现了异同,提出了有创意的解决问题的方法,从而品尝到了成功的快乐,激发了学习数学知识的欲望.

四、在操作中发现

《数学课程标准》指出:“有效的数学学习活动不能单纯地依赖模仿与记忆,动手实践、自主探索、合作交流是学生学习的重要方式.”在教学中教师应提供更多的机会让学每名学生都动手参加实践操作,由此激发他们学习数学的兴趣.如在教授长方形面积时,我就先设疑:“是不是每个长方形的面积都等于长乘以宽呢?”然后要求学生分小组操作探究.从学具中任意取出几个面积是1平方厘米的小正方形,拼摆成不同的长方形,然后小组同学共同完成表格,把发现写在表格里面:

生,:我们小组共摆了3个不同的长方形,第一个长方形长是2 cm,宽是1cm,摆了2个小正方形,面积是2 cm2,用2 cm×1 cm=2 cm2;第二个长方形长是4 cm,宽是3 cm,摆了12个小正方形,面积是12 cm2,用4 cm×3 cm=12 cm2;第三个长方形是5 cm,宽是4 cm,摆了20个小正方形,面积是20 cm2,用5 cm×4 cm=20 cm2.我们小组发现:长方形的面积正好等于它的长乘宽.

生2:......

生3:......

在此基础上引导全班学生说出自己的发现:长方形的面积=长×宽.

同学们在操作中有了自己的发现非常兴奋,课堂气氛顿时活跃了起来,整个学习过程学生参与面广、学得主动、学得快乐.

知识发现技术 篇7

1 物流企业竞争情报问题的提出

从内部来讲,一是分散的全国网络,每个环节都是信息链上的节点,但内部往往不重视竞争情报活动,不重视信息流;二是技术和信息能力难以胜任对企业数据集市的价值挖掘;三是企业信息系统多是事务型系统,前瞻性、交互性和分析工具不足。

从外部来看,作为服务部门,物流企业能接触各行各业的上中下游,期间包含着大量的竞争情报信息源和运营数据,一部分是以显性存在,如生产能力及成本数据等;一部分是以隐性形态存在,如订货提前批次、库存消化周期等,这些隐性信息往往难以被挖掘,却是培育企业核心竞争优势的突破口。

2 知识发现在物流企业竞争系统中的应用

知识发现是从数据集市中提取隐含的、事先未知的、存在潜在效用并能被人理解的模式的过程,通过数据信息收集和预处理,将数据信息转换成特定格式进行挖掘、解释和评价,其基本功能包括信息分组(聚类和分类)、预报、关联分析、描述辨别、时间序列分析等功能。借助于知识发现技术可以帮助企业获取知识、共享知识和创新知识。

对物流企业来讲,知识发现和知识服务能在以下几个方面弥补企业竞争情报过程的不足。一是借助知识获取技术拓展情报信息来源。技术能充分挖掘隐性信息和知识,使物流企业能够掌握客户需求和市场变化,提升响应速度和服务质量。二是通过知识共享进行员工交互,有助于实现企业整体智能储备的扩散,包括人与人的交流、人与机器、人与网络的交流学习,员工的操作经验技巧通过共享机制转化为全体员工的知识;知识水平的提高也能提升员工的工作主动性。三是通过知识应用提升决策精度,对企业生产经营状态进行预判,为仓储、配送、库存管理等供应链系统提供解决方案。

3 基于知识发现的物流企业竞争情报系统构建

对物流企业而言,其内部的知识信息可分为三个层次:一是作业层,包括装卸配货、仓储保管、加工分拣、配送调度的表单文件、数据等,内容繁杂,格式不一,是最基础的业务操作层;二是管理层知识,包括线路优化、运力调度、物流中心调度、物流装备技术以及客户关系管理、人力资源、财务管理等内容,其理解和使用需要具备相应的专业技能和知识,是物流企业知识结构的中间层;三是经营战略层知识,包括经营目标、管理决策、系统规划、核心竞争力构建等,是最高层级的战略管理层。基于知识发现的物流企业竞争情报系统以系统规划为起点,以竞争情报的输出与评估为终点,具体的过程如下。(1)规划与定向。首先要明确企业情报需求、明确情报的收集范围、目标方向,并布局知识获取技术方法于网络节点中,提升信息获取的准确度。(2)情报搜集。根据目标需求获取尽信息内容,通过分组分类、文本检索对运营过程中产生的数据进行清洗、分类。(3)竞争情报分析。除依托企业智囊外,信息分析可以委托第三方专家系统,借助外脑从无序的信息中挖掘出有利用价值的情报。(4)竞争情报服务。企业竞争情报数据库中,分布着运力目标企业的历史经营状况、调配松紧数据、配送损毁率、城镇线路优化方案等各类有价值的信息情报,物流企业需要在服务上进行整合,为顾客提供从仓储到配送的一条龙的物流链系统解决方案,在知识共享模式下,加强与顾客的交流,更清楚地明确问题,从而解决因为业务单一或服务人员质量参差对企业造成的影响。(5)竞争情报反馈。通过竞争情报服务的反馈记录,可以对服务成效和人员工作进行合理评估,根据反馈的结果对产品和服务进行动态调整,使竞争情报的产品和服务能够适应目标客户的需求变动。同时,物流企业和目标客户企业之间的信息交互和知识交流,能够借助共享机制实现双方的共同成长,有助于双方实现长期合作或战略联盟机制,从而在自上而下的供应链全程成本最优、服务最好。

4 基于知识发现的物流企业竞争情报系统功能

通过梳理物流企业竞争情报运作过程,对系统功能模块进行模块化划分,大体可以划分为5个子系统:情报知识管理系统、情报知识存储系统、竞争情报分析系统、竞争情报服务系统和用户关系管理系统。五个功能模块自成一体又相互联系、密切配合,按照工作流程完成各自的工作职责,为企业经营决策提供支持。

4.1 情报知识管理子系统

该系统的主要功能分为知识管理和情报管理两个系统。前者主要负责对内部的显性知识和隐性知识进行发现、识别、标引和转化,形成具有条理化的知识信息存入知识库,如制造资源计划、运力规划策略、配送线路优化的数据信息可经过序化,发现规律性存储在知识系统;后者依托全国网络节点,将来自于外部企业实体、虚拟网络等不同渠道的信息进行合并、过滤、提取、自动分配等,如竞争对手的技术更新、新业务上线、市场波动等。

4.2 情报知识存储子系统

存储系统包含企业知识库、情报信息库、竞争情报数据库三个系统,都是建立在知识库技术的基础上,分别存储企业知识信息、情报信息和竞争情报成果。不同的信息来源及其表现形式各不相同,存储系统也需要对不同格式的数据信息兼容。此外,知识系统作为智能系统不仅存储情报信息,也存储与之相关的事件、日志、调用记录、来源线索、完成时间轴等相关信息,并通过模式识别、优化算法来识别需求,调用针对性强的情报信息,既降低了只是重复获取的成本,也加快了知识信息的共享流动和创新速度,然而,具备学习和推理演绎的功能特点,其维护和更新难度也较传统数据库大。

4.3 竞争情报分析系统

分析系统是物流企业竞争情报系统的核心部件,作为情报信息的“加工处理车间”,需要借助于分析工具和情报分析人员的通力合作,实现对信息的集成、重组和智能化,将竞争情报信息按照业务需求进行层次化,并转化为产品和结论。

4.4 竞争情报服务系统

EDI、ERP等信息系统和网络的普及,最大限度地减轻了信息传递的时滞,增强了网络节点间的沟通交流,使信息情报能够及时传递到情报人员和系统中,同时,服务系统的水平质量也直接关系企业产品服务的市场竞争力,因此,一套服务系统在充分考虑需求个性化的情况下,应该包括情报服务、内容维护管理以及竞争情报反馈三部分,也要考虑用户的需求及访问权限向用户提供分类浏览、多重检索、推送服务等功能。

4.5 用户管理系统

用户管理系统实现对企业竞争情报系统内资源的维护、规划、资源分配、权限管理和维护,从技术层面上保证企业全系统的正常运行。主要功能包括用户账户的创建和管理、用户访问权限设置、系统日志维护、系统通知等。

引用知识发现和知识管理技术来构建物流企业竞争情报系统构建,使物流企业能够更好发现运营过程中的数据价值和隐性知识,通过学习、共享、交流来提升企业的产品及服务质量,维持和创新企业的核心竞争力,有助于提升物流企业的核心竞争力。

摘要:本文在对物流企业竞争情报系统分析的基础上,将知识发现引入物流企业竞争情报系统建设,提出基于知识发现的企业竞争情报系统,这个系统包括5个子系统,即情报知识管理系统、情报知识存储系统、竞争情报分析系统、竞争情报服务系统和用户管理系统。

关键词:知识发现,物流企业,竞争情报

参考文献

[1]汪传雷,冯世鹏,叶春森.基于定超比标分析的物流企业竞争情报系统研究[J].中国市场,2012(28).

浅谈知识发现与统计学的异同 篇8

知识发现 (或数据库知识发现) 是一门新兴的边缘学科, 它汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统各学科的成果, 将对生产中积累的大量数据进行数据挖掘, 总结出蕴藏在其中的规律, 形成对企业有益的知识和规划, 为过程监控和管理提供素材。统计学可定义为数据收集, 组织, 分析以及呈现的学科, 它的目的是探索数据内在的数量和规律性, 以达到对客观事物的科学认识。随着知识经济和网络时代的到来, 无论是自然科学领域, 社会科学领域的研究, 还是国家宏观管理和企业生产经营管理, 甚至人们的日常生活, 信息需求量日益增多, 信息处理技术更加复杂, 作为信息技术支柱的统计方法越来越被广泛应用于各个领域。

2 知识发现和统计学的异同

2.1 相同点

知识发现和统计学都包括如下几个组成部分:

* 管理和分析数据的数据处理技术

* 对数据收集问题的理解

* 对统计学推导问题的理解

* 相关的数学知识

* 对实际数据分析的领悟能力

* 应用领域的洞察力

* 数据分析自动化

不同的统计学家会分别赋予以上7点不同的重要性。数据挖掘者和机器学习者都会对上述几个部分进行不同程度的强调。但是二者都认为数据分析必须实现自动化才行, 如果一个人可以利用用一种工具去处理大型的数据集, 那么他可以用同样的工具去处理大小适中的数据集, 这应该是可行的。正是因为这种思想才导致产生开发一套统计学专家系统的想法。但是我们并不期望当统计学专家系统都失效的时候数据挖掘者却可以很快成功。

2.2 不同点

1) 知识背景的不同。

知识发现和统计学有着不同的知识背景。他们都要处理并解决在数据收集和分析中存在着的各种问题。知识发现的历史起源并不悠久, 它是在人工智能、机器学习、信息系统管理以及数据库方法论的背景下产生的。知识发现的特点就是它的工作对象常常是大型数据集即我们必须收集海量的原始数据并对这些数据进行选择和预处理, 经过数据挖掘得出结果表达和解释并最终形成知识。与知识发现相比统计学却有着比较悠久的历史, 由于它长期的发展从而产生了许许多多的概率模型, 当我们处理一些相对较小的数据集时, 我们常常借助于统计学工具。无论是知识发现还是统计学都会用到计算工具, 然而他们所使用的计算工具却经常不同。知识发现或许现在已经进入了一个缓慢而且令人反思的阶段, 此时它急切的想吸取来自于统计学的数据分析经验。前人有句话:“统计是最成功的信息科学。那些忽略了统计学的人将受到惩罚, 他们自己将在实际中重新发现适合自己的统计方法。”[1]

当代的许多统计学家都是直接从数学转到统计学实践中去的, 我们要学习并掌握很多统计学工具, 如果照这样发展下去, 常常我们会慢慢地走进一条死胡同。大型数据库的处理技术使得我们不需要做任何事情, 这个观点还还将需要很长的时间去获得人们广泛的认可, 我们需要技术和工具去操作大型数据集, 但是仅仅依靠他们还远远不够。

2) 预期的不同。

事实上知识发现是在人工智能的背景下产生的。同样存在一些诱惑使得我们去做出一些极不寻常的承诺。人工智能这个术语听起来声誉好像不是很好, 这里有一位该领域的先驱者回忆的一段话:为人工智能而悲叹, 长期债券捆绑着一长串的不切实际的预期, 然而收益却少得可怜, 真是让人可笑。对于债券来说, 许多应用软件都不起作用, 最好的理由是:它们是一个十分棘手的问题而且一直都会是。

本质上说, 在很多人工智能小区我们对人工智能的能力和潜能过分地估计了, 他们并不象被厂商宣传的那样, 而恰好相反, 在很多情况下它们常常会失效, 但是我们要记住一点, 那就是常常不是科学家去宣传他们的研究成果是怎么的无所不能。感觉是一个障碍, 在有些情况下计算机和管理文化都是很有效的, 然而他们也是得到正确的规范和传述的主要问题所在, 可以说编制出一个符合标准的程序本质上就是一个很容易被人们忽视的的错误。这些评论和知识发现有点关系。以所谓的魔法来骗取人们的信任并以此为生在当今社会仍然是可能的, 至今还有一些管理人员仍相信魔法决定论, 他们仍然对诀窍会使问题得到好转深信不疑。

从可行的自动化方法到数据分析我们仍然需要很长的一段路要走, 无论是针对小型数据集还是大型数据集而言都是这样的。对于一个称职而且很专业的数据分析家而言, 要想编制出一套数据分析软件为以后的研究工作提供启发性的数据分析工具还将需要相当多的努力才行。现在在计算工作中的许多能够或者应该自动化的部分都还没有实现自动化, 或者是使用当前已有的软件并不能够输出我们所期望的结果。当今作为任何自动化系统核心的数据分析软件在很多方面都存在着诸多严重的缺陷, 我们对数据分析程序还抱什么期望呢?

3) 方法论的不同。

直到近期, 为占主导地位的商业数据建立预测模型的数据挖掘工具只是些不同版本得决策树。有的使用对数回归, 有的使用古典回归方法, 更有甚者使用神经网络结构模型。广义上说, 数据挖掘者很可能使用这个或那个决策树, 并在遇到问题的时候把他们当作为首要工具。然而那些统计学领域的工作者所使用的工具却十分丰富, 或许不包括决策树。当遇处理小型数据集的时候, 使用决策树的效果不是很好, 有一个因素就是决策树只利用了顺序性和连续性的的优点, 顺序关系和连续性表明了变量的连续性。当有足够多的数据以至于我们可以抛弃其中一部分信息的时候, 信息的部分丢失的后果不一定是很严重的。决策树的优点在于它对关系模式的约束很少。神经网络结构模型为我们提供了同样的灵活性, 我们可以从主流的统计模型中了解到。

用户必须对可以得到的大范围的神经网络作出选择, 同时当我们在对此类神经网络作出选择的时候, 有一些有限的经验是可以借鉴的。当前, 许多统计学家都喜欢停留在那些他们能够深入理解的, 能用图表 (功能图) 或者公式形式表示输出结果的统计工具上。

通过前人的努力, 我们拥有了一套新的方法论, 它建立在决策树的基础的。至少基于决策树的方法论能够为我们提供一个很有用的预测工具, 当研究工作一开始就遇到大型数据集, 而我们不能够用其它结构表示的情况下, 我们就用这种新方法。它们可能很快就可以突出为了建立预测模型的重要数据主要特点。当预测模型可以用图表或者是公式形式表达的时候, 它们向我们提出了一个很有用的线索。

3 数据库知识发现

3.1 知识发现的组成

在1996年的数据库知识发现国际会议上, 作出了对知识发现的描述:指从数据库中获取正确、新颖、有潜在应用价值和最终可理解的模式的非平凡过程。在这个描述中, 数据是一系列事实的集合, 模式是指用语言L来表示的一个表达式E, 它可用来描述数据集的特性, E所描述的数据是集合F的一个子集FE。过程是在KDD中包含的步骤, 如数据的预处理、模式搜索、知识表示及知识评价等, 非平凡是指它已经超越了一般封闭形式的数量计算, 而将包括对结构、模式和参数的搜索。

* 要先决定如何产生假设, 是让数据挖掘系统为用户产生假设, 还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘, 后一种称为验证型的数据挖掘。

* 选择合适的工具。

* 挖掘知识的操作。

* 证实发现的知识。

结果表达和解释 根据最终用户的决策目的对提取的信息进行分析, 把最有价值的信息区分出来, 并且通过决策支持工具提交给决策者, 因此这一步骤任务不仅是把结果表达出来, 还要对信息进行过滤处理, 如果不能令决策者满意, 需要重复以上数据挖掘过程。

3.2 数据库的优点和缺点

数据库最大优点就是:我们所采集到的数据结合在一起就组成了数据库, 即一个数据库资源。研究者在构建一个要用到所有数据的研究项目的时候就可以使用数据库。数据最大缺点就是:此类数据库可能会存在一些甚至更多的不足, 例如:他们可能有一些严重的错误;从数据采集或者是在预处理一开始就有偏差, 隐藏得的关键信息或许也经丢失了;有关关键变量的信息也丢失;高质量的数据信息里面参杂着一些劣质信息, 而这些劣质信息只有很少量的线索让研究者去把它们从高质量的信息中区分出来。这里我将提供一些例子向大家阐明这几点。

3.3 数据扭曲

即使是最初收集的数据的质量是可以接受的, 但是研究成果在发表过程中可能会引起数据扭曲。当我们把那些来自于已经发表的文章中的也经处理过的数据收集起来并放到数据库中去, 在这种情况下也同样可能发生数据扭曲。

而许多研究者在介绍其研究成果的却没有做到这点, 他们所给出的点都在一条直线上, 而没有任何偏差。因此当一个人看到象下表给出的数字的时候, 对他们来说, 要想知道它们是不是可以比较的确实很有难度。在A省的实验中使用了重对数模型, 而在B省的试验中使用的则是一个假设的概率模型。它受到和图2相类似的偏差的影响。

一个明显的数据库构建的例子就是很多不负责任的研究人员得出有关99%死亡率的相关信息, 在多数情况下, 回头去找原始资料是行不通的。要明确一点, 鉴于数据分析的不可靠性, 数据库最好是应该存储原始的数据, 并不是所估计的99%的死亡率, 或者是来自其它数据分析的结果。

许多国家的环保部门都在努力的收集有关物种数量和种群分布信息的数据。数据在种类和数量上面各不相同, 有的是为分类学目的偶然收集的, 而有的是来自于经过仔细挑选的地点的。使用统计学样本方法的数据是用来评估在一个广阔区域内的生物多样性, 以及对一些或者是所有有关消失物种的数据符合哪种模型进行预测。这些反映了不同类型的观测性数据和多种多样的试验标准之间的显著差异。不同类型的数据不可能具有相同的价值和相同的数量, 有些数据最后看来对于特定的目的是完全没有一点用处的。

4 结论

当然对知识发现和主流的统计学分析还存在着许多其它的观点和一些共同关心的问题, 这些我们都可以在有关统计学回归和分类模型的课程上了解到。变量的选择在数据挖掘中是一个问题, 它或许比在主流统计学分析中更棘手。由于各种变量的使用情况不同, 混淆变量的作用对于变量的阐述是个很严重的问题。

参考文献

[1][美]Mehmed Kantardzic著.闪四清, 陈茵等译.数据挖掘———概念、模型、方法和算法.[M].清华大学出版社, 北京:2003, 8.

[2]陈文伟, 黄金才.数据仓库与数据挖掘[M].人民邮电出版社, 北京:2004, 1.

[3][加Jiawei Han、Micheline Kamber著.范明译.数据挖掘概念与技术[M].机械工业出版社, 北京:2001, 8 (7) 周复恭、倪加勋.应用数理统计学[M].中国人民大学出版社.北京:1989.

知识发现技术 篇9

知识发现在此前的研究主要是而向一般的数据库系统, 现将平台转移到数据仓库上来, 可由于数据仓库本身具有与一般数据库不同的特点, 这就给基于数据仓库的知识发现的研究提出了许多新的问题。

1 数据仓库相关技术

1.1 数据仓库的基本特征

数据仓库的基本特征有以下四点:

(1) 数据仓库中的数据是面向主题进行组织的, 它与传统数据库面向应用相对应。主题是一个在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象, 每一个主题对应一个宏观的分析领域。

(2) 数据仓库的主题是集成的。它是从原有的分散的数据源中抽取来的, 数据源中的数据进入数据仓库之前, 要经过加工与集成、统一与综合。

(3) 数据仓库的数据是相对稳定的。它反映的是一段相当长的时间内历史数据的内容, 而不是联机处理的数据, 因而数据经集成后少有修改。

(4) 数据仓库的数据是随时间不断变化的.它的稳定是相对的, 并不意味着从数据集成输入数据仓库开始到最终被删除的整个数据生成周期中所有的数据永远不变, 数据仓库随时间的变化要增加新的数据内容。

1.2 数据仓库的实现

数据仓库的实现与应用是一项复杂的任务, 每个环节都需要相应的技术支持, 如, 在创建数据仓库系统时需要数据清理与转换技术, 在对数据仓库中的数据进行管理时需要多维数据存储组织、索引优化等技术的支持, 在利用前端工具进行分析处理时需要视图维护、视图选择等技术的支持[2]。

2 知识发现相关技术

2.1 知识发现的概念

知识发现是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些信息和知识可以存放在数据库, 数据仓库或其他信息库中, 是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。

信息化较早的铁路企业在信息技术发展中保留下来的一系列数据库是十分有用的, 这些数据库可能是关系、层次、网状、多媒体、文本数据库和电子表格等, 在这些异构数据库和遗产数据库上进行知识发现的关键是进行各种数据库间的清理与变换。

2.2 知识发现的实施

可以把知识发现视为数据库中的知识发现。首先, 需要定义问题。然后根据要求选择组建知识发现库, 挖掘库中的信息可以是从数据仓库中提取或从外部数据源中直接获取。其次, 建立挖掘库后, 需要对数据进行分析, 拟定初步的数据模型。最后, 根据某种兴趣度度量, 识别表示知识的真正有趣的模型, 如果模型和实际系统有较大的误差, 则模型需要重新修订, 直到较接近再对模型进行解释, 并作为辅助决策信息传递给管理部门。

2.3 知识发现的分类

从不同的视角看, 知识发现技术有几种分类方法:根据发现知识的种类分类;根据挖掘的数据库的种类分类和根据采用的技术分类[4]。

根据发现知识的种类分类:这种分类方法有:总结规则挖掘、特征规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、趋势分析、偏差分析、模式分析等, 如果以挖掘知识的抽象层次划分, 又有原始层次的知识发现、高层次的知识发现和多层次的知识发现等。

根据挖掘的数据库分类:知识发现基于的数据库类型有:关系型、事务型、面向对象型、主动型、空间型、时间型、文本型、多媒体、异质数据库和遗留系统等。

3 数据仓库和知识发现结合的必然性

数据仓库是面向决策分析的, 数据仓库从事务型数据中抽取并集成得到分析型数据后, 需要各种决策分析工具对这些数据进行分析和挖掘, 以便得到有用的决策信息。而知识发现技术恰恰具备从大量的数据中发现有用信息的能力, 于是知识发现就自然成为数据仓库中进行数据深层次分析的一种必不可少的手段。

知识发现往往依赖于经过良好组织和预处理的数据源, 数据的好坏直接影响着知识发现的效果。

综上所述, 数据仓库和知识发现的结合已成为必然趋势。数据仓库为知识发现提供经过良好预处理的数据源, 而知识发现又为数据仓库提供深层次数据分析的手段。目前, 许多知识发现平台都采用了基于数据仓库的技术。其中, 由DBMiner Technology公司开发的DBMiner平台和由中国科学院计算技术研究所开发的MSMiner平台就是两个典型的例子[5]。

4 数据仓库在知识发现中的典型应用

数据仓库和知识发现的结合使得从海量的数据中进行实时的和深层次的分析成为可能, 再加上相关领域的技术发展及相互协同, 基于数据仓库的知识发现技术必将成为一项十分诱人的实用技术。

目前, 对这一技术的应用研究主要面向以下三个典型的方面:

(1) 面向铁路企业决策支持系统 (mis) :多年来铁路企业积累了大量的数据, 并逐渐形成了多种独立的应用子系统, 这些子系统中的数据模式往往是异构的, 把这些离散的信息视为一个整体并从中挖掘出用于决策分析的信息存在着许多困难, 而数据仓库存储的是经过集成的数据, 具有企业范围内的全局模式, 使得为铁路高层次决策者服务的各种复杂分析成为可能。

(2) 面向Internet:近年来, WWW已经成为网络上的信息主体, 人们自然就产生了将WWW和数据仓库相互转换的要求。但由于Web上的数据多存储在HTML超文本文件中, 没有严格的结构及类型定义, 所以基于Internet的知识发现和基于一般数据库的知识发现相比具有其固有的特点: (1) 数据源是无序的、非结构化的; (2) 数据源之间可能存在冗余、不一致甚至矛盾 (3) 数据源具有很强的动态性; (4) 用户目标模糊。

(3) 面向图像信息系统:图像信息系统中存在着海量的数据, 人们所关心的是从这些原始的图像数据中挖掘出不能直接观测到的信息模式。

5 结束语

综上所述, 在现代社会中, 计算机软硬件的飞速发展, 以及数据采集设备和存储介质的层出不穷, 极大的推动了数据库和信息产业的发展, 使得大量数据和信息存储用于数据分析、事务管理和信息检索。知识发现的任务就是从存放在数据库、数据仓库中的大量数据中发现有用的信息。数据仓库技术是为了有效的把数据集成到统一的环境中以提供决策型数据访问的各种技术的总称。数据仓库技术的发展与知识发现有着密切的关系, 数据仓库的发展是促进知识发现越来越热的原因之一。知识发现也不一定需要建立在数据仓库基础上, 可以是数据仓库的一个逻辑上的子集, 而不一定非得是物理上单独的数据库。但以数据仓库为基础, 对于知识发现来说源数据的预处理将简化许多而且数据仓库可以很好地满足知识发现对数据量的巨大需求。

总之, 知识发现技术的应用前景广阔, 在未来更加激烈的市场竞争中, 拥有知识发现技术必将会赢得更多的商机。

摘要:综述了数据仓库基本特征、知识发现、知识发现的实施过程及其分类, 并结合当前数据仓库和知识发现的发展, 探讨了数据仓库和知识发现结合的必然性;最后列举了基于数据仓库的知识发现的典型应用。

关键词:数据仓库,知识发现,实化视图

参考文献

[1]史忠植.知识发现[M].北京:清华大学出版社, 2002.

[2]樊玮, 等.数据仓库与数据挖掘[J].中国民航学院学报, 1999 (5) :51-54.

[3]Jiawei Han Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社, 2004.

[4]张云涛, 龚玲.数据挖掘原理与技术版本[M].北京:电子工业出版社, 2004.

[5]孙微微.数据仓库与数据挖掘[R].华南农业大学信息学院计算机科学与工程系技术报告, 2004.

上一篇:放射学检查下一篇:资源环境审计问题