知识挖掘(共11篇)
知识挖掘 篇1
摘要:组织需要使用各种方式和途径来挖掘组织中所存在的隐性知识, 基于数据挖掘技术的隐性知识挖掘成为学术界和企业所共同探讨的热点领域。本文回顾了数据挖掘以及隐性知识的基础知识, 陈述了文献和企业中现有的隐性知识挖掘方法并对其分类, 旨在使今后的学者能够在此基础上开发出新的、更优的隐性知识挖掘方法。
关键词:隐性知识,数据挖掘,隐性知识挖掘方法
一、引言
隐性知识是指人们无法清楚地传达出来的知识, 这些知识存在于其头脑中, 只能通过具体的行动来表示。在对隐性知识管理的研究中, 如何使得隐性知识显性化是知识管理的重要研究内容之一。本文对数据挖掘、隐性知识的基础知识进行了梳理, 同时陈述了现有文献和企业中的隐性知识挖掘方法, 旨在使以后的学者能够在此基础上开发出新的、更优的隐性知识挖掘途径与方法。
二、隐性知识的转换
著名的英国学者波兰尼于20世纪60年代, 在其代表作——《个人知识》中, 首次对知识进行分类, 分为明晰和默会知识, 著名的日本学者——野中郁次郎 (Ikujiro Nonaka) 在其书——《创造知识的公司》中, 借鉴并发展了波兰尼所提出的知识分类方法, 将知识分类为隐性知识和显性知识。
Nonaka提出隐性知识的两个要素是认知和技术, 认知是指个人对外部状态的模拟和理解, 如信仰、范式、价值观, 技术是有关具体如何操作的知识, 指对具体问题的解决方案等。Nonaka从知识相互转化的角度阐述了隐性知识与显性知识转化的动态过程, 提出了著名的SECI模型 (隐性与显性知识转化过程:社会化、外在化、组合化、内隐化) , 为后续的研究提供了一个崭新的视角。
三、基于数据挖掘的隐性知识挖掘
(一) 数据挖掘及其应用
数据挖掘 (Data Mining) 是从大量的随机、不完全、模糊的数据中提取出隐含在其中的、事先不为人知但是具有潜在价值的知识和信息的过程。数据挖掘技术可以应用在许多领域, 诸如金融服务、电力供应业 (负荷预测) 以及市场营销和销售, 同时也能够应用于以产品发展为目的的领域, KDD还可用于工业、交通、电信、市场营销、保险等其他行业。
对数据挖掘技术的使用可以在大量未经筛选的数据中提取出可供学习的、有价值的知识和信息。在构建知识管理系统时, 普遍采用的数据挖掘方法如:分类、聚类、Web页挖掘和关联规则等。分类、聚类以及关联规则方法都是使用某种挖掘算法对企业内部知识归类, 方便员工进行搜索和文件管理;而Web挖掘技术则是通过对Web日志的挖掘总结出企业员工在工作过程中进行知识搜索的相关内容, 主要是有关哪个方面以及企业知识库中是否需要添加新知识和新信息以满足员工需求。
(二) 知识管理
为了适应市场竞争力的不断变化, 企业需要不断提高企业客户知识、加强企业员工对于知识的获取、创新以及共享, 随之便产生了基于IT技术的对数据和信息的管理, 即知识管理 (KM) 。有学者提出, 知识的处理以及利用主要包括如下三个阶段:第一, 知识库阶段;第二, 知识共享阶段;第三, 知识发现阶段。
在知识库阶段, 经过手工处理的知识进入到预先被定义的知识库中, 知识库阶段的技术主要是单机数据库和文件系统。数据共享阶段, 人们意识到自己需要哪种知识但没有该知识, 因此开始搜索知识。知识发现阶段出现了求知欲, 也产生了知识发现的希望, 这也许正是文本挖掘出现的内因。由上述三个阶段我们也可以得到如下结论:知识管理的整个进程都是与数据库技术密不可分的。
(三) 隐性知识挖掘方法列举
由于隐性知识对于企业的重要性, 学术界和企业都采用了许多不同的方法来进行隐性知识的挖掘。本文对隐性知识挖掘方法列举如下:
1. 基于案例的隐性知识挖掘方法
当前许多企业运用建立案例库的形式来留存在具体工作过程中处理事件所运用的隐性知识, 在新案例的处理过程中使用人工智能的案例推理取得了不错的效果, 该方法通过搜集大量的案例 (在实际工作过程中专家如何解决问题) , 采用建立映射关系 (专家解决问题到实际的知识领域) 以构成相对应的知识结构图, 或者通过关联分析的方法从案例中挖掘出隐性知识。
2. 基于Microsoft三种算法的隐性知识挖掘方法
基于Microsoft的隐性知识挖掘方法包括如下三种:基于Microsoft决策树算法的隐性知识挖掘方法、基于Microsoft线性回归算法的隐性知识挖掘方法、基于Microsoft神经网络算法的隐性知识挖掘方法。
Microsoft决策树算法是通过在树中创建一系列拆分来生成数据挖掘模型。Microsoft线性回归算法是Microsoft决策树算法的一种变体, 更加易于计算独立变量和依赖变量间的线性关系, 并使用该线性关系进行预测。Microsoft神经网络算法对输入属性的所有可能状态以及可预测属性的所有可能状态进行组合, 并通过使用定型数据来计算概率。
3. 基于其他算法的隐性知识挖掘方法
通过数据挖掘的其他算法, 如遗传算法、FP算法、Pairwise analysis等途径都能够实现对隐性知识进行挖掘。
4. 基于web的隐性知识挖掘方法
企业通常也直接针对企业员工的隐性知识共享与挖掘, 设计、开发或直接购买基于web平台的知识挖掘系统。目前应用尤为广泛的是基于e-learning的隐性知识外化方法, 隐形知识外化方法能够将知识持有者的知识外部化到知识库中, 企业中的知识组织者和教学设计者对知识进行组织, 进而使得知识探寻者能够学习知识库中的知识, 同时对学习效果进行反馈, 形成操作型的知识数据库。该方法能够很好地发挥e-learning和知识管理的优势, 有效地提升企业的学习能力和工作效率。
四、讨论与展望
在企业的知识构成中, 隐性知识占很大一部分, 对隐性知识的挖掘就显得尤为重要。本文梳理并讨论了基于数据挖掘技术的隐性知识挖掘的背景知识和现有文献以及企业中的隐性知识挖掘方法。企业应根据其自身状况, 针对不同种类的隐性知识并结合实际情况, 利用知识挖掘算法以及其他的分析途径, 开发企业内的知识挖掘系统或建立相应的平台, 同时加强员工分享知识的积极性。
参考文献
[1]张喜征, 陈博.基于案例的隐性知识挖掘研究[J].情报杂志, 2006, 25 (07) :8-9.
[2]芦昆.基于Web2.0的隐性知识外化研究[J].情报科学, 2008 (002) :247-251.
[3]严宁, 张翔, 张永忠.基于e-learning的企业知识管理模型[J].计算机应用与软件, 2010 (05) .
知识挖掘 篇2
【正文】
1 传统环境下的情报研究工作
情报研究工作在我国通常被称为情报分析研究或者情报调研,是指针对特定的领域或主题,收集、积累相关文献、数据,加以整理、分析和研究,最终根据用户的需要提出分析研究结果或报告的全过程。从工作内容的性质来看,它实际上包括情报收集和情报分析两部分,即情报→研究。在传统的文献信息环境下,我国的情报研究工作主要依托于图书馆或其他文献机构,是有其特定的历史背景的。在这种环境的限制下,一个情报分析研究人员或机构一般只限于对某一个或某几个主题领域进行研究。因为基于传统的文献信息环境和技术条件,我们无法获得及时而广泛的文献信息,也没有整理和加工大量信息的手段,更不能满足对信息进行深加工的分析和研究性要求。
但是,在新的IT技术和因特网环境下,情报研究工作已经突破传统的基于文献信息源进行编译、汇编、综述的工作方式,而大量运用网络信息资源和零次情报,并且引进文献计量、调查统计、逻辑分析和数学模型等新的研究分析方法,用户对其成果也更加要求研究性和预测性了。
发达国家的发展历程表明,情报研究工作对国家的发展具有重要的战略作用,是综合国力的重要体现。近年来,我国的情报分析研究机构针对国家的各方面决策与管理工作需求,开展了多层次的研究和服务,完成了很多重要的情报分析研究任务和课题,为提高我国的决策和管理水平发挥了重要作用。但是,相对于目前的社会发展状况,我们的情报研究工作也存在着诸多问题,这些问题如果不能迅速解决,将大大影响情报分析研究机构的发展。
1)情报工作的低效。主要表现为不能有效地利用网络获取信息,不能通过多媒体表达研究成果,特别是在对已有的情报研究成果和信息资源进行管理和共享等方面大大落后于现有信息技术水平,难以形成快速反应能力。例如,情报收集与积累仍没有实现从资料卡片向数据库的基本转变,使得一个情报分析研究机构内部同时或先后的不同课题之间尚不能正式实现对资料、信息和成果的共享和复用,不仅造成了资源和时间上的巨大浪费,更增加了研究人员协作和管理的.难度,从而使情报研究工作难以摆脱被人诟病的“小作坊”模式而形成真正的规模。
2)研究方式的落后。当今的经济、社会和科学课题已经日益融为一体,且研究内容日益细化和深入,但我们的情报研究工作由于环境和条件的限制,研究范围有很大的局限,资料编译和汇编工作仍然占据了我们的大部分工作内容,真正有一定研究深度的综述性报道比较少,就更谈不上利用各种新研究方法系统深入地进行分析工作了。此外,由于研究人员间缺乏资源共享,造成情报分析研究工作各自为战、因人而异,工作成果的稳定性和可信度降低,再加之其他信息机构日益激烈的竞争,这种情况严重地影响了情报分析研究机构的发展和用户对我们的支持。
2 实现对情报研究的知识管理
面对严重落后于时代的局面,情报分析研究机构的主要对策应该是,根据情报研究工作的特点和需求,把情报研究工作的网络环境和技术手段提高到目前先进的IT技术水平,更主要的是结合先进的知识管理思想来设计情报研究知识管理系统并贯彻新的情报研究工作模式。这也是许多情报研究用户依据知识经济的时代背景对情报分析研究机构提出的要求。20世纪90年代以来,在知识经济大发展的促进下,西方发达国家的管理学界很快地经历了从信息管理到信息资源管理,再到知识管理的观念转变。而企业界更是将知识管理理论
挖掘课本知识,促进学生深层思维 篇3
一、挖掘课本的化学方程式,促进学生深层思维
用学生关心、想知道或学生认为他们知道的东西来讲课,必须将基本知识纳入一定的有意义的情景中,体现教学的“人性化”和“亲和力”。真正做到“以人为本”,从学生已有生活经验出发,以学生的真实生活作为教学的起点。
如: 化学方程式Ca(ClO)2+CO2+H2O=CaCO3↓+2HClO有何价值?
设计问题:(1)属于什么反应类型?(2)反应为什么能进行?(3)能证明酸性强弱吗?(4)
反应有什么现象?(5)进一步通入CO2时又有什么现象?(6)漂白粉(漂粉精)漂白的原理;(7)提高漂白速率:改用比碳酸更强的酸(如醋酸、盐酸等);(8)漂白粉在空气中久置变质的原因;(9)保存漂白粉的方法:密封保存……等。
学生在教师的“问题”诱导下,把教材“裸露”知识变成思维“空白”结论:创设一种能促进学生自主学习和思维良好氛围,学生通过资料或上网查阅,自己规划学习的进程,体会学习材料的意义,促进学生深层思维,促进学习发展。
二、挖掘课本物质性质隐性知识,促进学生深层思。
近年中考和高考中出現了许多课本知识的变型延伸题,这类题是对课本知识的补充延伸和升华,加强考查同学们的思维力度、深度和解决间题的能力。这就要求我们不能只学习教材知识而要对课本隐性知识进行挖掘,才能加深知识的理解和巩固,灵活运用知识。
如:《金属钠》
教材知识:(1)原子结构:易失去1个电子,呈+1价,表现出活泼金属性。
(2)物理性质:色、态、硬度、熔沸点、导电性……
(3)化学性质:2Na+O2======Na2O2 ,2Na+2H2O====2NaOH+H2↑
(4)存在:化合态存在(盐类)
(5)用途………(略)
隐性知识:(1)4Na+O2======2Na2O (银白色变暗)
(2)Na2O+O2====2Na2O2 (颜色变化、固体质量增加)
(3)钠的保存:少量的保存煤油中(为什么?)
极活泼金属K、Ca、Na、Li等保存方法规律:选择不与金属反应、且密度比金属小的液态溶剂
(4)与酸反应:本质——先与酸反应……
(5)与盐溶液反应:规律——先与水反应……
(6)与碱溶液反应:规律——先与水反应……
教师在课堂上要对知识和问题的高期待与严要求,教材知识+拓展知识让学生对于课堂永不“安心”,不会让学生感到厌烦,而是让学生感到被挑战,促进学生深层思维
三、挖掘课本的实验,促进学生深层思维
化学是一门以实验为主的学科。通过挖掘课本实验教学,可以提高学生的实验探究能力,帮助学生形成牢固的化学基础知识和基本技能,同时训练了学生的观察能力、思维能力、创新能力。
如:乙酸和乙醇的酯化反应实验
反应原理:酸脱羟基醇脱氢生成水
CH3COOH+CH3CH2OH CH3COOCH2CH3+H2O
设计问题:(1)试剂加入顺序及操作 ?(2)浓硫酸的作用是?
(3)为了防止试管中液体在实验时发生暴沸,在加热前应采取的措施是?
(4)实验中加热盛有反应液试管的目的是?(5)收集酯的试管内盛饱和Na2CO3溶液的作用是? (6)导管末端不能浸入饱和Na2CO3溶液的原因是?(7)有人将b改为装置b′,该实验中使用球形管除起冷凝作用外,另有一个重要作用是?(8)提高乙酸的转化率,可采取的措施是? (9)反应结束后,振荡试管b,静置,观察到的现象是?(10)实验发现,当温度超过120℃时,得到的产物杂质增加,原因可能是?(11)某学生发现,实验制得的乙酸乙酯的产率偏低,其原因可能是?(12)实验室制取乙酸乙酯1 mL后,沿器壁加入紫色石蕊试液0.5 mL,这时发现石蕊层为三层环,其颜色由上而下是?原因是?
通过对课本实验挖掘,问题的设计,展示实验教学是开放的,为学生进入知识并与知识对话辅设多样的路径,教学形成一种将学习者“卷入”其中的能力。
四、挖掘课本插图,促进学生深层思维
图像是一种表情达意的载体符号,它如其他信息一样,,可以成为一种教学资源,教材特别注重通过插图来表达一些化学原理、化学现象等知识。在教学中,教师应当引导学生仔细
揣摩编者的意图,充分利用插图,去发现插图所传递的化学信息。
如:如原电池示意图,在教学中可引导学生观察插图中的细节,
并思考下列问题:①电子从哪里来,到哪里去?为什么?
问题②在锌片和铜片表面分别发生了哪些变化?
③ 电池的正极和负极分别是什么?判断依据是什么?
④ 溶液中的离子如何运动?
学生能顺利的发现插图中所蕴涵的知识:
①电子从锌极流出,流向铜极
②铜片上有大量的气体溢出
③从电子流向即可知锌是负极,铜是正极
④阳离子往正极移,阴离子往负极移
在此过程中,学生在问题的引导下,自然的对这些问题进行了思考,学生对原电池原理有进一步的认识,在此基础上进一步设置问题:原电池如何形成?电极材料有什么要求?电极一定要参加反应吗?问题的更深层次的探究,激发了学生更强烈的求知欲,培养了学生科学探究的素养。
网络知识挖掘与网络知识服务 篇4
网络知识挖掘是指利用数据挖掘技术, 自动地从异构数据组成的网络文档中发现和抽取知识, 从概念及相关因素的延伸比较上找出用户需要的深层知识的过程。
1 网络知识挖掘的发现技术
网上信息及其组织形式各不相同, 是一个庞大的、无序的异构型数据库, 大量信息在给人们带来方便的同时也带来了一大堆问题:信息过量、信息真假难以辨识、信息安全难以保证、信息形式不一致等问题, 难以统一处理。Data Mining (数据挖掘) 的目的就是有效地从海量数据中提取出需要的答案, 实现“数据-〉信息-〉知识-〉价值”的转变过程。对互联网上的信息进行挖掘比面向单个数据库的数据挖掘要复杂得多。网络知识挖掘是指利用数据挖掘技术, 自动地从由异构数据组成的网络文档中发现和抽取知识, 从概念及相关因素的延伸比较上找出用户需要的深层次知识的过程。目的是将用户从海量的、综合的网络信息源中解脱出来, 不考虑原始数据细节, 直接与数据所反映的知识打交道, 使处理结果以可读、精练、概括的形式呈现给用户, 使其主要精力真正能够用到分析本质问题, 提高决策水平上去。
1.1 路径分析
可以用许多曲线图解法来进行路径分析, 一个曲线代表了web页面间或者其他事物之间的一些联系。
1.2 关联规则
规则反映了数据项中某些属性或数据集中某些数据项之间的统计相关性, 基于规则中处理的变量的类别, 关联规则可以分为布尔型和数值型。关联规则用于发现数据项之间的联系, 在网络挖掘中发现某一用户的引用页面和服务器上多种页面之间的联系。
1.3 序列模式
序列模式挖掘是基于时间或者其他序列的经常发生的模式, 应用序列模式是为了发现一些交互模式, 如在一段时间内某一数据项后面跟着另一个数据项。很多数据都是这种时间序列形式的, 我们就可以用它来市场趋势分析, 客户保留和天气预测, Web访问模式预测等等。
1.4 聚类和分类
根据一些数据项的共同特征来对数据库进行分类。分类在数据挖掘中是一项非常重要的任务, 可以基于用户的一些人口统计信息和访问模式对访问某文档的用户进行偏好描述。目的是学会一个分类函数或分类模型, 该模型能把数据库中的数据项映射到给定类别中的某一个, 能对未来数据进行预测。聚类分析可以将有相似特征的用户或者数据聚集在一起, 按照相似性归成若干类别, 目的是使得属于同一类别的个体之间的距离尽可能的小, 而不同类别上的个体间的距离尽可能的大。聚类web日志的用户信息数据可以用来制定未来市场营销策略。
2 网络知识挖掘的类型
2.1 网络知识的挖掘
网络信息的数据挖掘不仅包括对网页内容本身的挖掘, 也包括其链接模式, 以及用户访问、存取、浏览、发布、操作等操作行为、访问行为所产生的信息的挖掘。有效地研究、挖掘、利用网络信息可以增强网站的吸引力, 有的放矢地吸引用户群, 更有效地利用网络资源。找出信息分布的规律, 发现信息内在的关联性, 挖掘隐藏在网络信息中的知识并形成模型。
2.2 用户知识的挖掘
对用户知识的挖掘是指用户访问网络是的信息和用户个人信息的挖掘。网站服务器会保留用户的访问记录, 记录关于用户访问的信息活动, 了解用户的信息需求, 从中得出用户的访问模式和访问兴趣, 从而改进网站的结构, 也可以用于为用户提供个性化的服务。
3 构建知识库
知识库的构造基于信息簇, 信息簇是信息源经过整合和重组转变而成。因此知识库就是将信息网织成各种关系的模式, 如数据知识库、程序知识库、系统知识库等。
数据知识库是由经过加工、组织的信息构成的具有知识挖掘功能的数据库。知识仓库就属于这类知识库。程序知识库是由程序、规则、培训教程, 操作标准等过程知识构成的知识库。目前还没有大规模的程序知识库出现, 专家系统应属程序知识库的范畴。系统知识库是一种高级知识库, 是信息分析、只是整合的产物, 可反映知识的复杂关系, 提供知识图表、竞争分析、国际形势等复杂知识产品。
作为信息资源的知识库, 要形成一定的规模且检索便捷。内容新颖, 能够不断地更新, 以保持数据的准确、全面和及时。如当今世界上最大的图书馆网络oc Lc把互联网上的信息经过系统化的整理, 通过主题词即可搜索;且oc Lc的worldcat数据库随时更新, 每年以200多万条记录的速度增长。
4 网络知识服务的特点
4.1 从检索到解决问题
传统信息资源的不均衡性和获取信息资源的困难性, 都随着网络信息环境的形成, 通过文献检索与传递服务在用户需求中正在逐渐弱化。信息用户日益关注的不是简单得到信息文献, 而是愿意从众多文献信息中获取对自己有用和能解决问题的信息内容。
4.2 信息需求社会化
信息需求分析随着我国信息产业的飞速发展, 利用信息服务的用户日益增多。在汹涌澎湃的信息浪潮中, 信息革命是处在不同经济地位、不同政治地位、不同文化层次的人们共同创造的。因特网是一个完全开放的平台, 其涉及内容广泛差异大。信息服务必须从面向部门的信息需求向面向社会的知识需求模式转变, 建立一种个性化知识服务体系, 针对不同用户的知识取向, 提供不同的知识服务。
4.3 需求知识的讨论与分享
在现代知识经济时代, 获取信息已不是困难的事情, 信息的分析和提炼才是关键问题, 能通过自己的分析思考提炼判断, 获取自己所需的知识。其中, 思考占有重要的位置, 通过思考, 分析提炼出有用的信息。通过与人的交流和探讨, 增加人们知识结构中知识元之间的连接, 激发创造性思维。因此知识服务应立足与为用户创造一种有利于创新思考的讨论和共享环境。知识工作者必须不断更新补充增加新知识, 并运用新知识来创造新能力, 保存竞争的优势。所以现在人们的共识就是:知识就是力量, 资源共享, 才可以创造出1+1大于2的能量。
5 网络知识服务
5.1 数字参考咨询服务
这种数字参考咨询服务, 是以图书馆参考咨询服务为基础, 通过先进的网络技术, 以全球信息资源为依托, 服务与全世界的用户。为全世界各地的用户提高全方位的服务和支持。按照咨询专家的专业分工服务, 以集成化的馆内外知识资源和技术为系统交流平台。通过专家根据自身知识和可以获取的资源生成答案并反馈给用户, 并保存答案文档系统中, 以备以后查询, 形成知识资源库。如:美国教育部资助的虚拟咨询台系统 (VRD) 是一个代表性的合作咨询项目, 它以80多个专家咨询网络为基础, 提供7*24小时服务。
5.2 知识学习服务
知识学习服务是指人们提供通过对已有显性知识的学习而产生属于自己的隐形知识的各种服务。由于人们学习方式和学习习惯有很大不同, 因此, 图书馆应根据不同类型的知识为用户提供不同的服务方式。主要表现为网络自主学习、网络远程教育、开放存取带来的知识利用率。
5.3 个性化知识服务
个性化服务是更高层次的智力技术服务活动, 通过使用多种数据分析技术, 根据兴趣用户的信息及时主动的推荐用户需要的知识信息, 并根据用户信息的反馈进一步提供有针对性的个性化服务。其最重要的特点是知识增值和智能重组, 将蕴藏于海量信息中隐形有用的信息知识, 给予整理、利用, 并以全新的可运用的形式个性化的显现出来, 满足客户个性化需要, 并最终形成专业知识库和知识仓库。
参考文献
[1]黄玉梅.高校图书馆的知识管理.情报资料工作, 2002.3
[2]陈兰.知识管理环境下图书馆信息质量服务模式.图书馆理论与实践, 2006.5
[3]刘莉莎等.图书馆知识合集与知识管理技术.高校图书馆工作, 2006.5
[4]陈光前等.图书馆开展知识服务的途径研究.图书馆理论与实践, 2008.5
图书馆隐性知识的挖掘与转化 篇5
〔关键词〕图书馆;隐性知识;流动转化;机制
〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2009)04-0039-03
Mining and Transformation of Library Tacit KnowledgeYao Songtao
(Library,Henan University,Kaifeng 475001,China)
〔Abstract〕The paper set up the basic strategy of library tacit knowledge mining and organization strategy based on the analysis of the meaning and characteristics of tacit knowledge;discussed on the flow-transfer and its countermeasures.From the perspective of management means and information technology,this paper will introduce reasonable incentive mechanism,communication mechanism and trust mechanism;established the high efficient mechanism to promote the flow-transfer,innovation and sharing of tacit knowledge.
〔Key words〕library;tacit knowledge;flow-transfer;mechanism
1 图书馆隐性知识的涵义
图书馆隐性知识包括个人隐性知识和集体隐性知识,个人隐性知识主要是指体现在馆员工作和服务过程中的工作经验和能力、服务态度和质量及其对人生事业的价值观念和立场,馆员个人的学历、知识结构、生活阅历、思维模式、人际关系、兴趣特长、理想愿望,以及在工作中发现问题解决问题的能力、学习新知识接受新事物的能力等。图书馆集体的隐性知识包括图书馆馆员们在工作中处理问题的共同的经验教训,长期以来约定俗成的工作方式方法,馆员之间和读者之间知识沟通和交流的机制,图书馆对内外环境和事件的应对能力和协调能力,图书馆对外服务的整体水平和信誉,图书馆内部的亲和力与凝聚力以及体现在全体馆员思想和行动中的共同的工作理念、道德信仰和精神风貌等[1]。
2 图书馆隐性知识的挖掘
隐性知识比显性知识更完善,更能创造价值,隐性知识的挖掘和利用是个人和组织成功的关键因素。图书馆隐性知识的挖掘包括两个方面:个人隐性知识的挖掘和组织隐性知识的挖掘。挖掘隐性知识主要是将各种内隐性知识尽量显性化,个人隐性知识的挖掘要求个人有意识地将自己尚未系统化的知识、经验、技能、技巧、乃至直觉、灵感等随时随地记录下来。图书馆组织隐性知识的挖掘要求图书馆采取各种各样的措施使组织的隐性知识显性化。
隐性知识的挖掘应该从激励机制与组织文化、管理手段、信息技术等层面展开。图书馆对于乐意共享自己的隐性知识的馆员,应该给予合理的激励与补偿(如物质奖励、荣誉鼓励);对那些刻意隐瞒、保留自己隐性知识的馆员,笔者认为合理的做法应该是:首先承认并尊重馆员个人的角色和个人知识资本的价值,并给予精神和物质上的鼓励,其次可以邀请他们参加相关任务团队,让他们在团队中发表意见、发挥能力并接受集体的熏陶和教育。通过这种形式,原来不愿意共享自己的隐性知识的馆员,多数会改变态度。这样,通过激励、引导,培育出诚信开放、共享互利的信用体系和文化氛围,隐性知识才能被很好地挖掘;合理的管理手段可以促进隐性知识的挖掘。图书馆可以参考很多企业和科研单位的师徒制、岗位轮换制等管理手段。师徒制使师徒之间形成较亲密的关系,实现面对面地观察、交流、学习,容易实现隐性知识的社会化过程。岗位轮换制通过这种“转移——学习——转移”的循环过程使得隐性知识在图书馆内部不断加速转移[2]。在图书馆管理实践中,管理者要结合实际,加强管理和引导;信息技术方面,图书馆可借鉴企业“知识地图”的做法,建立“图书馆知识地图”。“知识地图”的基本理念是:让需要吸收别人的隐性知识的个人、团队能方便及时地找到拥有所需隐性知识的专家,进行交流。如微软公司的知识地图中包含了137项显性知识及200项隐性知识,并且介绍了掌握这些知识的专家的情况,这样就建立了需要这些知识的软件开发人员和拥有这些知识的专家之间的联系。此外,图书馆要创造隐性知识宽松交流的环境,这对隐性知识的挖掘特别重要。
3 图书馆隐性知识的流动和转化
图书馆隐性知识的转化主要是指将图书馆的各类无法用语言、文字、图像等符号加以显性化的内隐性知识通过现场示范、面对面交流、观察模仿以及亲身实践等方式内化为人们心中的过程。
3.1 图书馆馆员个体之间隐性知识的流动和转化
图书馆馆员个体之间隐性知识的流动和转化是图书馆知识管理的基础和起点。图书馆馆员个体之间隐性知识的流动与转化主要有两种方式:(1)从隐性知识到隐性知识。馆员个体之间通过社会化方式交流难以显性化的经验、技能、诀窍等隐性知识,使之成为自己的隐性知识。(2)从隐性知识到显性知识。对馆员个体中可以显性化的隐性知识进行挖掘、整理,使之成为显性知识,在馆员个体之间进行交流和转化。比如:资深馆员帮带年轻馆员,可以使馆员迅速获得工作经验,同时也可从优秀的馆员身上学到很多东西。除此之外,同一部门的工作人员在平常的工作中经常接触,只要留心,即可从同行身上学到许多宝贵的知识和经验。对于不同部门的馆员,他们可以通过模仿其他部门人员的工作方式、工作态度,同样也可促成相互间隐性知识的转化。
3.2 馆员个体与图书馆群体之间的隐性知识的流动和转化馆员个体与图书馆相关部门群体之间的隐性知识是双向流动和转化的。(1)馆员个体的隐性知识向相关部门群体知识的流动和转化。可以将难以显性化的馆员个体拥有的隐性知识通过社会化方式交流,转化为部门群体的隐性知识。如图书馆某个部门的业务骨干通过演示、指导,让全部门的馆员来逐渐领会、感悟自己的工作经验和诀窍,使之成为整个部门群体的隐性知识。当然,也可以是部门的业务骨干将可以显性化的隐性知识经过整理和总结,显性化后交流和转化为部门的显性知识。(2)部门群体的隐性知识向相关的馆员个体知识的流动和转化。对难以显性化的部门群体拥有的隐性知识,如群体所掌握的隐性经验和技能,群体成员的默契和协作能力,可通过部门群体的影响和馆员个体的领会、感悟转化为个体的隐性知识。对可以显性化的隐性知识,可尽量编码化和显性化,使之成为部门的工作条例和规范,从而转化为馆员个体的显性知识。
3.3 部门与部门之间隐性知识的相互流动和转化
图书馆部门与部门之间的隐性知识也存在着流动和转化。一方面,对各部门所独自拥有的隐性知识,可以通过部门之间的协作与合作来相互影响对方,使各个部门独自的经验、技能、诀窍及默契与协作能力被其他部门所领悟和掌握,各部门之间相互交流和切磋,可以使对方隐性知识转化为本部门的隐性知识;另一方面,各个部门将自己可显性化的隐性知识进行整理总结成显性知识,在其他部门之间交流和传播,使之成为共有的知识,从而提高整个图书馆的整体工作能力和创新能力。
3.4 图书馆与图书馆之间隐性知识的相互流动和转化图书馆拥有各自的隐性知识,它们之间的隐性知识通过参观考察也相互流动和转化。(1)可以通过各馆的合作及协作来影响对方。各图书馆之间相互交流和切磋,能够使兄弟馆的工作经验和诀窍以及默契和协作能力被领悟和学习,从而转化成隐性知识。(2)对可以显性化的隐性知识经过挖掘、整理和概括总结,形成业务规范、工作规则和管理制度,在各馆之间进行交流,转化为显性知识[3]。
4 建立促进隐性知识流动、转化、创新、共享的高效机制
4.1 激励机制
图书馆隐性知识管理的重点是发掘图书馆员的潜能,即开发馆员的隐性知识,促进个体隐性知识的显性化。在这个过程中,激励就成为一种必要的手段。研究证明,在有适当的激励因素存在的情况下,知识的转移更为有效。如果馆员知道他们的隐性知识将被评估并得以实施,就会发挥出更大的潜能和主动性。因为只有他们意识到知识共享与自己的利益一致时,他们才会乐意共享自己的知识[4]。因此,需要建立适当的激励机制来促进图书馆隐性知识的共享,这可以从两个方面来实施,就是从物质和精神两个方面采取积极的激励措施来调动馆员的积极性,各馆可视具体情况制定相应的“隐性知识管理实施推动制度”,鼓励隐性知识的流动、转化、共享和创新。具体可通过设立“知识服务奖”、“创新奖”等方式对在促进隐性知识共享方面做出成绩的馆员给予精神和物质的激励,从而调动其开发隐性知识的积极性,促进馆员隐性知识的流动和共享。
4.2 交流机制
各种知识只有通过交流才能使其得到更广泛的认可和共享。任何一项创新都是交流沟通的结果。隐性知识的非编码性和难以获取性使得隐性知识的交流与转化存在诸多阻碍或困难。因此,必须采取以下相应措施来突破这种交流障碍:
4.2.1 搭建隐性知识交流的多种有效平台
图书馆应为馆员间隐性知识的交流搭建灵活有效的平台。(1)共享交流平台。建立和利用图书馆员专门的网页、网站、论坛等,方便图书馆员之间的交流。设立“馆员论坛、馆员在线、馆员天地”,鼓励馆员将自己的业务学习心得、积累的工作经验在上面发表,与大家共享。同时,也可利用NetMeeting等视频会议工具,通过宽带网络把视频信息传达到每个参会者的终端。如台湾大学图书馆的“馆员新知园地”、高雄第一科技大学图书馆的“馆员园地”等。(2)个体交流平台。每个馆员都应建立专用邮箱,申请专用MSN、QQ号,并在网上公布,使领导和工作人员、工作人员和工作人员之间可以及时地交流。在工作中有不懂的问题或遇到困难时可随时向其他人请教,而且还可通过视频工具使分处两地的人像面对面一样地进行交流,消除空间距离所造成的障碍。馆员之间可以相互间传递信息和发送资料,现阶段高校图书馆的馆际互借工作,就是通过这种方式实现交流的,取得了良好的效果。(3)建立知识网络。知识网络是图书馆内部和外部知识交流的媒介,是团队协作的桥梁。可以说,知识网络是确保知识交流和共享的关键要素。一般而言,大多数隐性知识只能面对面地直接交流,否则根本无法扩散和共享。而知识网络的建立使馆员之间基于网络的虚拟接触与面对面的直接接触对于隐性知识的传递共享同样有效。而且它可以很好地实现和提高馆员间知识沟通效率,从而保证知识共享和创新有效地进行。
4.2.2 知识社区
所谓“知识社区”是指员工自动、自发或半自动、半自发而组成的“知识分享”的团体,其凝聚的力量是人与人之间的交情及信任,或是共同的兴趣,而不在于正式的任务与职责。社区成员可自行决定是否要积极参与活动。因为大家加入的理由是乐于分享经验和知识,并互相教导和学习,进而从中得到相互的肯定和尊重。知识社区主要是馆员根据自己的兴趣爱好组织起来的,强调的是人和关系,群体中由于成员经常联系,拥有比较相同的态度、信仰和情感,互动之中有个人的感情、性格、能力等人格要素的投入,所以成员之间的信任度和依赖感都比较高,传递和交流隐性知识就比较容易[5]。知识社区是促进隐性知识传递和交流最有效的做法。图书馆应鼓励这类社区的形成,并支持社区所需要的资源,例如网络、布告栏、会议场所、文件制作及活动费用等。
4.3 信任机制
知识的独占使人们在工作的竞争中具有无形的优势,同时也是人们获得提升与受人尊重的重要条件。然而,隐性知识的分享则使这种优势受到威胁,因此隐性知识的共享是较有难度的。因此,图书馆应增进同事之间的互相信任,因为隐性知识是不可被强迫分享的,互相信任才是自愿分享技术、经验的基础。
4.3.1 创造馆员相互信任的氛围
图书馆应该建立馆员之间相互信任的知识共享文化。只有在相互信任的基础上,图书馆员才能自由地表达自己的思想,愿意将自己在工作实践中长期积累起来的经验、掌握的技能技巧等奉献出来。隐性知识的传递、交流更需要人与人之间的信任。
4.3.2 创造馆员相互宽容的氛围
图书馆对拥有特殊技能、才能的人才要有宽容的心态。对具有专业技能者,管理层必须学会有较大的宽容度。作为一个特定领域的专门人才,在个性上往往有其独特的方面,这也是他们创新发展能力的重要内在因素。才干越高的人,其缺点也往往越显著。有高峰必有深谷。要多看人优点,少看人缺点,要能容忍有独特才能的人的独特个性。
4.3.3 创造馆员崇尚创新的氛围
图书馆要建立民主氛围,允许有各种不同观点,允许成员提出自己的新思想,鼓励成员大胆联想,使每个成员的独创性和特殊才能得以充分发挥。一个和睦、融洽的团队环境,可以使创新者得到鼓励、支持和帮助,收到群策群力的效果。相反,人际关系不好,周围多是消极、挑剔、鄙视的目光,创新者容易丧失信心和勇气。
4.4 管理机制
传统的图书馆组织是按刚性管理的要求设计的,其组织内部的交流沟通有着很难跨越的层级鸿沟,这种组织模式阻断了馆员之间的交流,给隐性知识共享设置了障碍。而知识共享要求弱化参与者的等级观念,简单的层次结构可以使馆员较平等的传播和反馈知识,形成开放式的学习和成长型的知识共享机制。 因此,图书馆必须对现有组织结构进行改革,使图书馆组织结构扁平化、柔性化、网络化,加快知识的交流、转化、共享和创新。另外,还应尽快建立一种团队与等级制相结合的组织形式,以知识沟通的便捷性、业务关系的合理性、人员知识水平的适应性、管理活动的应变性为原则整合机构功能,以稳定的基础部门与灵活的工作小组相结合,建立馆内工作网、知识网和人际网,形成内部知识交流共享机制[6]。
4.4.1 团队工作
图书馆应提倡团队工作,打破部门之间的界限,将不同部门的人组织成一个团队完成一定的任务。团队人员之间紧密接触、密切配合,相互间交流思想和意见,熟悉对方的表情、手势、动作等,能最准确地理解对方,这样对隐性知识的传递和交流极为有利。
4.4.2 合作开展工作和项目
馆员和馆员合作共同开展工作或科研项目,也是隐性知识传递和交流的一种有效方式。这种形式属于问题解决导向型。大家为了达到共同的目的,相互间能坦诚相待,能虚心接受对方的意见,吸取对方有益的经验,能毫无保留地提出自己想法,有利于隐性知识的传递与交流。
参考文献
[1]杜也力.图书馆知识管理中的隐性知识与转化[J].图书馆理论与实践,2004,(2):22.
[2]谢婷.高校图书馆的隐性知识管理浅谈[J].运城学院学报,2007,(6):97-98.
[3]屠航.图书馆知识管理中隐性知识的流动转化及管理框架研究[J].情报理论与实践,2005,(1):27-29.
[4]桂晓玲.论图书馆隐性知识的挖掘策略[J].图书馆论坛,2006,(4):201-202.
[5]王广宇.知识管理——冲击与改进战略研究[M].北京:清华大学出版社,2004:22-23.
知识挖掘 篇6
一、图书馆隐性知识的概念、特征及重要性
图书馆的隐性知识是指存在于馆员个体和图书馆内各级组织中难以规范化、难以言明和模仿、不易交流和共享, 也不易被复制和窃取、尚未编码和显性化的各种馆员独具的隐性知识, 同时还包括通过流动与共享等方式从图书馆外部获得的隐性知识, 它具有难以交流性、规范性、独占性、隐藏性、指数增长性和分享性六大特征。
图书馆隐性知识是馆员个人和图书馆组织经过长期积累而拥有的高度个性化的难以形成统一格式的、不易用语言表达、不易被复制的内在化的知识。在实际工作中, 隐性知识往往比显性知识更完善、更具有创造价值, 这些隐性知识如果不能及时地显性化或者传递给别人, 将会是一种不可挽回的无形的损失。图书馆隐性知识是图书馆潜在的智力资本, 是图书馆创新和发展的源动力。注重图书馆隐性知识的开发是增强图书馆的核心竞争力、在知识社会中立于不败之地的法宝。图书馆隐性知识挖掘与共享的程度直接影响着图书馆的可持续发展。笔者在长期的探索与实践中, 认为“构建知识地图”不失为图书馆隐性知识挖掘与共享的有效途径之一。
二、“知识地图”的提出
知识地图的概念来源于地理学概念上的地图, 它是一张充满知识资源的地图。Davenport和Prusak认为:知识地图只是一种知识的指南, 告诉人们知识的所在位置, 显示哪些资源可以利用。知识地图的作用是:当人们需要某项专业知识时, 可以透过分布图的指引, 找到所需的知识。因此, 知识地图具有索引的功能, 能标示出组织知识的位置, 但是无法直接取得知识的内容[2]。李德琼在《图书馆常用隐性知识管理技术研究探析》一文中指出:知识地图 (K-map) 是用于帮助人们知道在哪能够找到知识的知识管理工具, 可以说是图书馆知识资源的导航系统。知识地图的作用在于帮助用户在短时间内找到所需的知识资源, 它显示整个图书馆知识资源的分布情况, 不管是分类还是查找, 知识地图都可以为用户提供满意的结果。它的最终目标是指向人、地点或者时间, 告诉用户在何时、何地能够找到所需的知识。其实质就是目录的总览。谢婷认为“知识地图”的基本理念是:让需要吸收别人的隐性知识的个人、团队能方便及时地找到拥有所需隐性知识的专家, 进行交流。
由此可见, “知识地图”是一种与地理上的行政规划地图、山川风貌地图、河流分布地图、军事地图等有同等效能的专业地图, 是一张充满知识资源的知识导航图。依据查阅方式可分为纸质版与电子版两种, 具有隐含性与索引性两大功能, 主要是显示本系统内专业知识的分布情况, 以供业内人士急需时在短时间内进行知识查阅或连线专家进行知识咨询。
三、“知识地图”构建步骤
在图书馆隐性知识挖掘与共享的过程中, 构建“知识地图”作为一种高效、便捷的方式, 大致要经过以下几个环节来完成。
1. 成立信息调研部。
图书馆领导可在积极商议、反复探讨、多方论证其可行性的基础上, 依据馆员职称、学历、专业等情况, 组建一支综合实力较强的调研梯队, 成立一个信息调研部。该部门的主要职责便是关注国内外图书馆学前沿信息, 研究国内外图书馆学发展动态以及各馆专家概况, 多渠道搜索知识资源, 尤其是隐性知识资源, 总结本馆工作概况、成果报告、经验体会等, 进行概括、归纳、总结、编辑, 使之高度概括化、系统化, 并以纸质或网络形式展示给一般工作人员, 以便工作人员能够随时向系统内专家进行咨询, 以指导工作人员的日常工作, 进而达到隐性知识的共享。
2. 多渠道获取隐性知识源。
(1) 通过Internet网络资源查询隐性知识源。信息调研部人员可通过Internet网络资源搜索国内外图书馆概况、特色资源以及知名专家情况等, 进行下载、编辑、组合, 使分散于多个图书馆的人力资源集中起来, 以备需要该方面知识的工作人员查询。
(2) 有针对性地联系、走访同类图书馆, 调研取经。图书馆可针对馆内一些疑难问题, 结合实际, 打电话咨询同类图书馆, 必要时可派信息调研部人员出外考察调研, 回来后及时总结, 形成调研报告, 使之成为知识地图的知识源之一。
(3) 采集馆内隐性知识。图书馆可采取多种措施, 鼓励馆员奉献自己的隐性知识, 学习他人的隐性知识, 进而增加自己的隐性知识。想方设法为职工提供一个相对宽松的工作氛围及学术交流的平台, 使馆员在奉献隐性知识时无后顾之忧。比如:可不定期地举办诸如“研讨会”、“经验交流会”、“本月概况小结会”、“阶段总结大会”、“我为图书馆建言献策”、“图书馆专题有奖征文”等一类活动, 鼓励职工将多年来的工作经验总结出来与大家交流, 之后分类、归纳、整理, 构建“知识地图”, 以备工作人员需要时查询, 从中总结经验、吸取教训, 少走弯路, 提高工作效率, 从而避免因人员退休或工作变更而造成的隐性知识的流失。也可以定期聘请一些国内外知名图书馆学专家来馆讲学, 做专题报告, 信息调研部人员负责将报告内容录制下来, 必要时可进行回放, 让馆员从中学习到新的隐性知识, 激发自身的隐性知识, 提高工作创新力度。
3. 绘制“知识地图”。
“知识地图”因查阅方式不同可分为纸质版与电子版两种;因内容与作用不同可分为专家档案区、馆员档案区、工作技能经验区、专题报告区、我为图书馆建言献策区等分区, 以提供更便捷的检索手段, 供不同层次的工作人员查询。信息调研部人员在广泛查阅Internet网上资源、联系走访同类图书馆、本馆举办多种活动后, 要积极主动地将有益的知识进行归纳、分类、整理和编排, 绘制纸质版和电子版的“知识地图”。纸质版以缩略图的形式放在隐性知识档案库内, 缩略图上不显示内容, 只显示大的结构与分区, 具体内容查询库内应有明确标识。电子版以知识导航的形式挂到图书馆网页上, 以备工作人员随时查询, 便捷点击, 获取知识资源。
4. 回访调查, 补充完善“知识地图”。
学习他人的目的是为了更好地提高和完善自己。同样, 工作人员在查询、吸收、借鉴别人的知识经验后, 往往可激活创新自己久藏在大脑内不为自己所知的隐性知识, 继而运用到自己的实际工作中, 形成一套新的经验。信息调研部人员要及时回访调查, 将工作人员的新经验、新隐性知识补充完善到“知识地图”中。此外, 信息调研部人员还要继续从Internet网上资源中搜索, 将各图书馆的新动态、新知识不断补充到“知识地图”中, 从而使“知识地图”日臻完善, 以发挥其最大效能, 达到隐性知识的增值。
隐性知识既是图书馆宝贵的智力资源, 又是图书馆的特色资源, 渗透到图书馆工作的各个环节。图书馆员的流动性很大, 任何一个拥有丰富知识的馆员的离开, 无疑都是图书馆的一大损失。构建“知识地图”, 可以把人和知识联系起来, 帮助人们在需要时迅速、快捷地获取知识资源, 这样既可以避免图书馆因人员流动而造成的不可估量的损失, 又可以推动图书馆的日常工作乃至图书馆的可持续发展。
参考文献
[1]李有明.图书馆隐性知识管理[J].科技情报开发与经济, 2007 (19) .
[2]Darenport TH, Prusak L.Working knowledge:How organizations manage What theyknow[M].Boston:Harvard Business School Press, 1998.
[3]李德琼.图书馆常用隐性知识管理技术研究[J].黑龙江史志, 2008 (18) .
用户隐性知识挖掘概念辨析 篇7
随着WEB2.0理论研究与实践活动的不断深入, 图书馆界越来越关注其服务对象用户隐性知识对图书馆服务创新的作用和价值, 并在理论与实践方面进行了相关的研究与探索。但通过文献调研发现, 目前学术界对用户隐性知识、用户隐性知识挖掘等相关概念, 还缺少统一的认识, 还没有形成比较明确的定义, 这在某种程度上制约了图书馆界对用户隐性知识及挖掘的理论研究与实践推行。因此笔者在此, 就用户隐性知识挖掘的基本概念进行详细的探讨, 以期为今后的继续研究指引方向, 推动用户隐性知识及挖掘理论的有效进行。
什么是用户知识
“用户知识”一词源于企业管理中的“客户知识”, 尽管我国图书馆界于2005年已展开了有关“用户知识”的研究, 也取得了些许成就, 但迄今为止, 关于什么是用户知识, 学术界还未有一个统一、明确的定义。从所检索的文献来看, 刘冬梅对用户知识进行了初步探讨, 给出了一个广义的用户知识概念, 她认为, 与建立和保持高价值、高效率的知识链合作伙伴关系密切相关的信息都可视为用户知识, 即面向知识链的用户知识。蒋淑婉认为狭义的用户知识是指用户的个人信息, 即用户的身份、目标、兴趣、系统经验和背景知识等;广义的用户知识, 不仅指用户的个人信息, 还包括用户利用图书馆的各种行为模式。鲁大的张永杰认为用户知识是一个很广泛的概念, 它是在用户与图书馆交互过程中形成的, 是与图书馆资源和服务紧密相关的经验、知识和洞察力的组合, 它在不断地自我学习中持续更新。
综合分析上面的观点, 笔者发现大部分学者将用户知识的概念限定为用户与图书馆的交互过程中所产生的可被图书馆所利用的那部分个体知识, 却忽略了用户自身拥有却未能与图书馆发生直接或间接联系的那部分知识的价值。前者仅仅是用户个体知识体系的极小部分, 就如冰山的一角, 而后者在用户这一个体的整个生命活动中起着举足轻重的作用, 其中存在用户大脑中的专业技能、知识结构、研究能力和实践经验等知识不仅对用户自身的工作、学习和生活有很大的帮助, 而且也对其他用户具有一定的作用和价值。所以用户拥有却未与图书馆发生联系的这部分个体知识理应属于图书馆用户知识的重要组成部分, 图书馆应该加强对该类知识的挖掘和利用。
基于以上的论述, 笔者认为图书馆的用户知识是指一切依附于用户个体而存在的, 并可被图书馆直接或间接利用的一切信息和知识。它既包括图书馆用户的背景信息 (如性别、年龄、身份、教育背景、研究领域等) , 又包括利用图书馆的各种行为模式 (如用户使用图书馆资源与服务的相关记录) ;既包括用户的具体需求与偏好, 又包括用户对服务的实际感知、意见与建议;既包括用户在使用图书馆资源的技巧, 又包括用户自身拥有却难以被挖掘或利用的各种有价值的知识 (如用户自身拥有的实践经验、专业知识与研究能力等) 。
什么是用户隐性知识
隐性知识
在进行用户隐性知识的概念探讨之间, 我们还需要知道什么是隐性知识?“隐性知识”一词最早是由哲学家波兰尼提出的, 他将人类知识分为两大类, 一类是能够以正式的语言, 通过文字、数字、公式、图表等方式明晰表达的知识, 称之为显性知识, 这类知识可以通过书本、文件、手册、报告、技术文档、程序等工具记录下来, 供人类保存、传播、学习和利用。而另一类是难以用语言、文字、系统符号等方式明晰表达的根植于人类行为和潜在素质中的知识, 包括个人的需要动机、信仰观点、技巧经验、直觉灵感、心智模式等, 这类知识相对主观, 总是依附于人的大脑或技能中, 具有个体专有、动态无序、内隐模糊等特点, 一般很难被完整地描述与记录, 它需要人们用大量的信息和编码化知识来进行解释和梳理, 因此比显性知识更有价值。
用户隐性知识
基于用户知识的定义及构成的分析和对隐性知识的理解, 笔者认为用户背景信息和用户的各类研究性成果属于用户的显性知识, 用户需求信息和用户使用资源的经验技巧、自身拥有的成长经历、专业技能、工作经验、学习能力等属于用户的隐性知识。至于用户的行为模式和反馈知识到底属于哪一类还是不太好界定, 但可以肯定的是, 各种信息行为中蕴含着大量的诸如用户阅读偏好、检索习惯、需求变化等隐性知识, 用户的反馈知识中蕴含着用户对图书馆资源与服务的具体态度, 它们应属于用户隐性知识的范畴。因此用户隐性知识不仅指用户与图书馆交互产生的各种行为模式、反馈知识、用户需求和技巧经验, 还包括用户自身拥有的却未能被图书馆所利用的诸如个人经验、专业技能、科研能力等隐性知识。由于隐性知识总是依附于人的大脑或根植于人的行为之中, 笔者认为用户隐性知识就是以用户为载体, 可被图书馆直接或间接利用的一切具有现实或潜在价值的隐性知识。
什么是用户隐性知识挖掘
知识挖掘
挖掘, 原指向下挖以发掘, 现多引申为深度开发之意。这就要求挖掘的对象必须具有潜在的价值。知识作为知识经济时代的核心要素, 对其进行深度开发, 自然成了企业、组织乃至于个人的头等大事。那么到底什么是知识挖掘呢?
“知识挖掘”作为知识管理领域的一个重要概念, 受到了国内外相关领域研究者的高度关注。目前主要存在两种迥然不同的观点, 国外一致认为知识挖掘是按照既定目标, 运用数据挖掘技术与数据可视化工具, 从数据库中获取人们事先不知道的潜在有用的模式或知识的过程。从这一表述不难看出, 他们只是把知识当成了挖掘的结果, 却将结构化的数据而非知识作为挖掘的对象。这并不是真正意义的知识挖掘, 只不过是数据挖掘的升级而已。国内部分学者则基于“数据挖掘是对数据的挖掘”这一概念的理解, 对知识挖掘进行全新的定义, 即知识挖掘就是对“知识”的挖掘”。由于知识被分为显性和隐性, 因而知识挖掘既包括对显性知识的挖掘, 又包括对隐性知识的挖掘。笔者比较赞同这一观点, 它真正把数据挖掘与知识挖掘区分开来。
笔者认为知识挖掘就是以显性知识或隐性知识为对象, 从显性知识库或特殊载体人中识别或获取潜在有用的知识和模式的复杂过程。它是一种不同于数据挖掘的知识发现技术, 不仅挖掘显性知识之间的关联, 而且更加注重特殊载体人的知识的共享与创新。知识挖掘的实施主体多根据自身特点, 在运用数据挖掘、web挖掘技术方法的同时, 更加注重采用激励与补偿、协作与交流等软性化的方法, 借助知识地图、WEB2.0技术等对隐性知识进行有效的挖掘。
用户隐性知识挖掘
众所周知, 隐性知识大多以人为载体而存在, 却有部分隐含在各种显性知识之中。因此人们想当然的认为对“隐性知识”的挖掘就是对“显性知识中隐含的隐性知识”和“以人为载体的隐性知识”的挖掘。但是“对显性知识中隐含的隐性知识的挖掘”实质上属于“显性知识”的挖掘, 因为它挖掘的对象是显性知识, 其目的是识别出其隐含的隐性知识或信息而已。所以为了避免概念的混淆与交叉, 笔者认为隐性知识挖掘就是对以人为载体的隐性知识的挖掘, 这里的隐性知识是指存在于人的大脑或根植于行动之中的知识。由于隐性知识总是存在于用户的大脑或行为之中, 看不见摸不着, 需要通过外化、分享、转移等方式才能被释放出来, 因此对个体隐性知识的挖掘过程实质上就是实现个体隐性知识的外化、分享和转移的过程。
知识挖掘 篇8
一、详细解读教科书的正文部分, 充分挖掘隐性知识
历史教科书虽然不是唯一的课程资源, 但它依然是学生“平时学习的主要依据, 也是复习的主要依据, 是课程标准的核心部分, “教科书的正文部分与《课程标准》中内容相一致的, 均是复习的基本要求”。纵观近几年南通中考的历史试卷, 我们不难发现绝大多数试题都出自于教材的正文部分。如商鞅变法, 如果只是让学生了解变法的背景、内容、作用的话, 是远远不够的。我们还应该让学生知道, 变法的阻力来自于哪里?变法的哪一个内容对当时社会性质的改变起至关重要的作用, 等等。再如美国南北战争中, 林肯政府颁布的《解放黑人奴隶宣言》规定“从1863年元旦起, 废除叛乱诸州的奴隶制”, 对于这一内容, 教师如果照本宣科, 不加阐释的话, 学生会以为美国从此全部废除了奴隶制度。
二、关注教材插图中的隐性知识
教材为我们展示了大量的插图, 这也为我们提供了较多的历史信息, 这些信息业可以补充教材正文叙述的不足。如“国际联盟”的成立, 正文部分只介绍了国联成立的时间和操纵国, 而在插图中, 标示了国联的总部。近年来, 南通中考对插图考查的力度在不断增加。2012年就考查了“汉代造纸工艺流程示意图”以及毕加索的名画《格尔尼卡》。所以我们对教材上的插图要有足够的重视, 充分挖掘插图中的隐性知识, 不可掉以轻心。这些插图不仅可以加深学生学习历史的兴趣, 也能促进学生对枯燥的历史知识的理解。如《赫鲁晓夫和美国总统肯尼迪的较量 (漫画) 》, 形象而直观的反应了当时美苏争霸的紧张的世界局势。《戈尔巴乔夫发表电视讲话》的插图中, 戈尔巴乔夫的面部表情, 非常形象的表达了戈尔巴乔夫对苏联当时发生的重大变化的心情。
三、重视活动课中的隐性知识
历史活动课的设置是新课改的重大突破, 是一种以学生经验与生活为核心的具有一定实践性的课程。它强调学生通过实践, 增强探究和创新意识, 学习科学研究的方法, 提高综合运用知识的能力, 从而达到提高学生综合素质的目的。但据我们所知, 大多数学校的历史教师把这一能很好促进学生发展, 能促进学生对学习历史产生兴趣和热情, 并能在实践中不断构建历史知识体系和培养能力的活动课, 当作可有可无的课外活动, 不加理会。2012年南通历史中考的最后一题最后一问, “百年中国, 世纪沧桑。改革开放以来, 特别是进入21世纪后, 我们的生活发生了巨大变化。请结合家庭生活变化的情况, 在‘我家的过去和现实’的社会调研提纲中任选两个项目做一比较”, 就是来自于人教版初中历史教科书的活动课。综上所述, 我们有足够的理由重视活动课, 挖掘其中隐性知识, 补充正文由于篇幅的限制而叙述不详, 改变学生的学习方法。如《追访历史新闻———哥伦布发现了“新大陆”》、《我看拿破仑》、《科学技术与未来》等等, 要求学生根据主题收集、整理有关历史、地理材料, 模拟新闻发布官、记者、学者、讲解员等角色, 举行一次班级或学校活动。这就要求学生对活动主题涉及的背景、经过、影响以及评价历史事件和历史人物的方法等内容进行搜集、整理和充分的了解, 并把了解的东西通过各种形式展示。这样的训练可以改变学生接受学习、死记硬背机械训练的学习状况, 督促学生主动参与、乐于探究、勤于动手, 培养学生搜集和处理信息的能力、分析和解决问题的能力以及交流和合作的能力。这一切正是新课程所提倡的。
四、在教材的其他部分的隐性知识同样不能忽视
《南通市新中考复习指导与自主检测》明确规定“导入框、楷体字、动脑筋、文献资料、练一练、活动与探究、自由阅读卡和活动课, 均不作为考试要求, 但可作为命题的背景和材料”。因此我们也不能忽视教材中这些部分的内容。在以往中考历史试题中, 在这些部分出的试题还真不少。中考试题《天工开物》采煤情景的插图和设问就来自于人教版教材的“活动与探究”。教材中的大量文献资料出现在试题中, 更是比比皆是。另外, 如一战的性质在教材的“动脑筋”中叙述的非常到位、准确。现代马拉松长跑则出现在“导入框”, 对于汽车工业的利与弊在“动脑筋”中, 同样讲述的一清二楚。
浅谈数据挖掘与知识发现 篇9
从20世纪80年代中后期, 数据挖掘和知识发现的方法、技术和系统, 从不同角度、不同领域和不同学科进行了研究和实践, 主要的学科有数据库、统计学和机器学习。我国近年来也紧跟国际潮流, 许多单位的研究小组开展了KDD的研究与开发工作, 我国各大科研科技资助项目都设立了KDD的研究课题。
二、动因
(一) 技术发展需要
1、信息系统的发展和决策支持系统发展的必然结果, 决策支持系统建立在数据仓库和数据挖掘之上:现在CRM也需要KDD技术。
2、克服数据丰富而知识贫乏, 数据大量积累和数据库的大量的建立, 数据每年成倍地增长, 人已无法分析这些数据, 但数据里隐含着有用的知识;但未被发现而已。美国数据挖掘开拓者Shapiro曾戏言:“原来曾希望计算机系统成为我们智慧的源泉, 但从中涌出的却是洪水般的数据”。
(二) 市场竞争的需要
1、从数据中找到知识、规律、模式来指导生产, 指导商业行为, 避免差错, 防止欺诈, 增强竞争力, 发现科学规律。数据挖掘完全是需求驱动的。
2、在世界走向信息化的今天, 充分利用企业的信息资源, 挖掘企业和所对应市场的运作规律性, 以不断提高企业的经济效益是先进企业的比由之路。世界有名的Gartner Group咨询公司预计:不久的将来先进大型企业会设置“统一数据分析专家”数据仓库和数据挖掘一定会扩展开来!
3、硬件→网络→数据 (信息系统) →信息→知识 (决策支持系统) 是必经之路, 有人甚至以“DW+DM=$aving”为题发表文章。
(三) 网络技术和应用的普及
1、国家级、部门级、行业级、企业级网络大量建设, 政府上网等, 为全局数据和信息的积累提供了环境和平台, 给分析、决策支持提供条件。
2、Internet网的普及, 电子商务的扩大, 电子政务开展, WWW成为最大的信息源, 需要尽快准确找到所需信息。
三、定义、过程、分类
(一) KDD定义
KDD是从数据集中识别出有效的、新颖的、潜在有用的, 以及最终可理解的模式的非平凡过程。
数据集:是一组事实F (如关系数据库中的记录) 。模式:是一个用语言L来表示的一个表达式E, 它可用来描述数据集F的某个子集FE, E作为一个模式要求它比对数据子集FE的枚举要简洁 (所用的描述信息量要少) 。过程:是指KDD是一个多阶段的过程, 包括数据准备、模式搜索、知识评价, 以及上述过程的反复求精;该过程是非平凡的, 是指整个过程是自动的、智能的 (如计算所有数据的总和、平均值都不能算作是一个KDD过程) 。有效性:是指发现的模式应用于新的数据时要具有一定的可信度。新颖性:要求发现的模式应该是新的、用户未知的或未预料到的。潜在有用性:是指发现的知识将来具有实际效用, 如用户根据发现的知识进行商业决策可以产生一定的经济效益。最终可理解性:要求所发现的模式容易被用户理解。
(二) 分类
根据数据采掘任务分, 数据采掘有如下几种:分类、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系 (或依赖模型发现) 、异常和趋势发现等等。
根据数据采掘的数据库或数据源分, 数据采掘有以下几种:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、以及万维网 (WWW) 。
根据数据采掘所采用的技术分, 数据采掘可大致分为:统计方法、机器学习方法、神经网络方法和数据库方法。
四、关联规则
在商业领域, 条码技术和数据库技术的发展使得零售机构收集、存储了大量的销售记录, 这些销售记录又称为篮子数据 (basket data) 。篮子数据保存了顾客在一次购买中所涉及的商品的详情 (如商品名称、价格、数量等) 。通过数据库管理系统提供的查询功能可以对篮子数据进行分析, 了解在过去一段时间内的商品销售情况。所发现的知识以 (一些商品) → (另一些商品) 的形式描述, 称为关联规则。指导货物的摆放, 货物定货或去掉, 在这样的应用背景下, 1993年R.Agrawal首次提出了大型数据库中的关联规则采掘的问题, 并给出了关联规则的一系列挖掘算法。
五、小结
人们通常把数据挖掘工具看得过份神秘, 认为只要有了一个数据挖掘工具, 就能自动挖掘出所需要的信息, 就能更好地进行企业运作, 这是认识上的一个误区。其实要想真正做好数据挖掘, 数据挖掘工具只是其中的一个方面, 同时还需要对企业业务的深入了解和数据分析经验。一个企业要想在未来的市场中具有竞争力, 必须有一些数据挖掘方面的专家, 专门从事数据分析和数据挖掘工作。再同其他部门协调, 把挖掘出来的信息供管理者决策参考, 最后把挖掘出的知识物化。在国内的企业中, 还很少有决策人员认识到这一点。如果管理者没有这方面的意识, 数据挖掘和数据分析就很难发挥应有的作用, 很容易走向两个极端:一是认为数据挖掘没有用处;二是开始认为数据挖掘是万能的。如此得到的结果往往与初始期望相去太远。
数据挖掘根据人们的特定要求, 从浩如烟海的数据中找出所需的信息来, 供人们的特定需求使用。2000年7月, IDC发布了有关信息存取工具市场的报告。1999年, 数据挖掘市场大概约为7.5亿美元, 估计在下个5年内市场的年增长率为32.4%, 其中亚太地区为26.6%。到2002年, 该市场会发展到22亿美元。据国外专家预测, 随着数据量的日益积累和计算机的广泛应用, 在今后的5-10年内, 数据挖掘将在中国形成一个新型的产业。
摘要:文章从四个方面的信息阐述了数据挖掘与知识发现:数据挖掘与知识发现发展状况和信息 (网站) 、数据挖掘与知识发现的基本概念、数据挖掘与知识发现解决问题的关键、数据挖掘与知识发现的技术、方法。
知识挖掘 篇10
本人以鲁迅先生写的《从百草园到三味书屋》一文中的第二自然段来谈谈对这方面的体会。
这一段是本篇文章中公认的重点段。说它是重点段,原因是多方面的。首先,该段的条理清楚,全段以“不必说”“也不必说”“单是”这三个词来连接;其次,该段重点写的地方,详写的地方一看便明,谁都知道是“单是”以后“泥墙根一带”的景物和事情。再次,作者在写景时,是从人的五种感官:耳、口、眼、皮肤、鼻上去感知景物,然后再用文字把它们展示出来。
基于以上几个特点,我在和学生一起学习本段时,就着重告知学生,本段给大家提供的写作技巧是写文章要讲条理或顺序,这条理分为空间、时间、逻辑条理,当然,这三种条理在一篇或一段文章中是以其中的一种条理为大的条理,即全文、全段或几段的条理,在其中又可以用其他条理来组织安排文字。如本段,它大的方面是按逻辑条理中先次后主的条理来安排文字的,这是值得借鉴的一点。
同时,通过对该文段的学习,我们也会体会到,描写景物先要以人的五种感官去感知事物。感知事物时,要抓住事物特征去感知。什么是特征?简言之,即此事物与彼事物不同的地方,这不同的地方多得很,不一定要面面俱到,哪个方面都去写,而要取决于中心。《以百草园到三味书屋》第二段主要写“泥墙根一带”的“趣味”。这一带的景物就有“无限趣味”,可见园中的趣味比比皆是,这样写就突出了中心。所以,作者在选择景物时,是选的“乐”景来写的,文字带有褒的色彩。这就告知我们,抓事物的特征时,一定要围绕中心去抓,注意用感情色彩去感知事物。这是值得借鉴的第二点。
学完本段后,我布置了一个写作练习:或是用“不必说……,也不必说……,单是……”来描写一个地方的景物;或者是用以上讲的三种条理中的一种来安排大的顺序,其中以另外的条理安排小的顺序来描写一个地方的景物,两题由学生任选一题来做。
基于数据挖掘技术的客户知识发现 篇11
随着企业间竞争的日益加剧, 企业不得不采取更加柔性、敏捷的战略, 来以客户为中心进行产品设计、研发、生产与服务, 使得以客户为中心的关系管理成为企业管理战略的新范式。企业识别出有价值的客户, 并将资源更多地投入到对该部分客户的保持上, 成为了客户关系管理的核心理念。显而易见, 识别出企业的价值客户, 成为了企业这种新范式战略成功实施的先决条件与关键步骤。
当前的企业已普遍地建立起管理信息系统, 可以收集到大量有关的客户数据。可以利用数据挖掘工具对这些客户数据进行分析与萃取, 可以提炼出价值客户的自然属性特征以及购买行为特性等隐含信息, 将这些有价值的信息在企业范围内传播、共享, 并用于营销策略的制定上, 从而完成了从繁杂的客户数据到特殊情境下的客户信息, 再到有价值的客户知识的转移过程。可以看出在这个过程中, 数据挖掘担当着客户知识发现的工具。实际上, 数据挖掘中的聚类分析、粗糙集、神经网络等具体方法已经被广泛应用到客户知识发现上[1,2,3]。本文侧重于利用数据挖掘中的判定树归纳法与RBF神经网络来进行客户知识的发现, 从而归纳出反映价值客户特征的客户属性, 并建立起价值客户的识别准则。这不仅为企业集中优势资源进行价值客户保持提供了科学的指导, 也为企业甄别性地获取新客户及将满足价值客户属性的潜在价值客户发展成为价值客户提供依据。
1 价值客户特征属性的归纳
以往关于价值客户的相关研究, 通常集中在价值客户的识别上, 客户的全生命周期价值 (即客户当前以及将来所产生的货币利益的净现值) 往往被作为参考的基准[4,5]。目前已有多种计算和预测客户全生命周期价值的方法[6,7,8], 但据此来进行价值客户识别大多无法归纳出反映价值客户特征的客户属性, 而这对于企业了解价值客户特征、甄别性地获取新客户以及将满足该类客户属性的潜在价值客户发展成为价值客户具有非常重要的指示意义。
本文利用数据挖掘中的判定树法对价值客户特征属性进行归纳, 挖掘出有益于企业营销的客户知识。该过程可以大体分为以下几个部分:构造客户数据集市;数据处理;目标类相关属性集的建立;构建分类模型。
1.1 构造客户数据集市
(1) 识别出企业的价值客户
企业的客户数据库通常将所有客户的交易记录及客户相应信息汇总在一起, 并没有将价值客户与非价值客户的数据进行相应地区分。因此, 有必要首先识别出数据库中哪些客户才是企业的价值客户。在学术研究及实践过程中, 通常以客户全生命周期价值作为识别企业价值客户的基准。因此, 本文选择生命周期已经结束的客户作为研究样本SC, 通过计算这些客户的全生命周期价值 (以下简记为CLV) 来进行客户价值的排序 (CLV的计算方法见式1) , 并根据某种规则 (如80/20法则) 确定出相应比例的企业价值客户。根据价值客户的识别结果, 在客户数据库中增加“价值客户”这样一个新的客户属性。
其中, t表示第t个时间单元, T为客户生命周期的时间长度, d为折现因子, P (t) 为客户在第t个时间单元为企业创造的利润。
(2) 建立客户的数据集合
从原有的企业客户数据库中抽取出与研究样本SC相对应的所有客户记录, 对缺省及异常数据进行相应的处理, 建立客户的数据样本集。由于企业数据仓库中的每位客户的信息都是由一系列客户属性所构成, 这些属性可能非常庞杂, 可将其大体分为客户的自然属性 (如姓名、性别、年龄、收入、联系方式等) 与客户行为属性 (如最近一次购买距今的间隔时间、购买频率、支付方式等) 两大类。
1.2 数据处理
(1) 客户属性的删除与概化:
对于具有大量不同值的某个客户属性, 若该客户属性没有定义概念分层, 或其较高层概念可用其他客户属性表示时, 应删除该客户属性;若该客户属性定义了概念分层, 可以用高层概念替换低层概念。
(2) 连续客户属性值的离散化
对于数值型的连续客户属性值, 首先根据客户属性值的大小进行排序, 然后设定相应的阈值将客户属性域划分为各个区间, 用区间的标号来代替实际的客户属性值。
1.3 目标类相关属性集的建立
如果利用所有的客户属性来进行类描述 (本文中, 新增的属性——“价值客户”作为目标类, 或称之为类标号属性) 显然是很繁琐的, 维数过多甚至会造“维数灾难”。因此, 可以利用属性相关性分析将与目标类不相关或弱相关的客户属性排除在类描述过程之外, 筛选出目标类的相关客户属性集。
属性相关分析的基本思想是计算某种度量, 用于量化属性与目标类的相关性。本文选择信息增益分析技术作为属性的选择度量, 选取具有最高信息增益 (或最大熵压缩) 的属性作为当前节点的测试属性, 使得对结果划分中的样本分类所需的信息量最小, 并反映划分的最小随机性[9]。其具体方法如下:设S是s个数据训练样本的集合, 每个样本的类标号均为已知。假定类标号属性具有m个不同值, 可对应定义m个不同类Ci (i=1, …, m) 。设S包含si个Ci类样本 (其中si是类Ci中的样本数) , 则一个任意样本属于类Ci的概率为si/s, 对一个给定的样本分类所需的期望信息可由下式给出:
设属性A具有v个不同值{a1, a2, …, av}。可用属性A将S划分为v个子集{S1, S2…Sv};其中Sj包含S中的这样一些样本, 它们在属性A上具有值aj。若选A作为测试属性, 则这些子集对应于由包含集合S的节点生长出来的分枝。设sij是子集Sj中类Ci的样本数, 则由A划分成子集的熵或期望信息由下式给出:
其中项
其中,
将在A上分枝所获得的信息增益定义为:
Gain (A) =I (s1, s2…sm) -E (A) (5)
Gain (A) 就是由于知道属性A的值而导致的熵的期望压缩。通过计算每个属性的信息增益, 选择具有最高信息增益的属性作为给定集合S的测试属性。另外, 可以设定相应的阈值 (可参阅文献[10]) , 将低于该阀值的冗余属性剔除, 从而建立起数据集合S的目标类的相关属性集。
1.4 构建分类模型
(1) 利用判定树归纳进行分类
判定树是一个树结构, 它的每个非叶节点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个叶节点代表类或类分布。如前所述, 在树的每个节点上使用信息增益度量选择测试属性。在选定测试属性后就可进行判定树归纳, 其基本算法是贪心算法, 以自顶向下递归的方式构造判定树。算法的基本描述如下:
①判定树以代表训练样本的单个节点开始。②若样本均在同一个类, 则该节点成为树叶, 并用该类标记。③否则, 根据信息增益选择能最好地划分样本的属性作为该节点的测试属性。④对测试属性的每个已知值创建一个分枝, 并据此划分样本。⑤算法使用同样的过程, 递归地形成每个划分上的样本判定树。当一个属性出现在一个节点上, 则在该节点的任何后代就不必考虑。⑥当下列三个条件中的任何一个成立时, 停止递归划分:a.给定节点的所有样本属于同一类;b.没有剩余属性可以用来进一步划分样本 (此时使用多数表决, 将给定的节点转换成树叶, 并用训练集中多数所在的类标记它) ;c.分枝没有样本 (此时以训练集中的多数类创建一个树叶) 。
(2) 由判定树提取分类规则
提取判定树表示的知识, 并以IF-THEN形式的分类规则表示。对从根到树叶的每条路径创建一个规则, 沿着给定路径上每个“属性——值”对形成规则前件 (“IF”部分) 的合取项。叶节点包含对是否为价值客户进行预测, 形成规则后件 (“THEN”部分) 。
2 基于RBF神经网络的CLV预测
由前面所述可知, 在价值客户特征属性的归纳过程中, 本文已完成了对生命周期已经结束的客户的CLV计算, 对于仍处于生命周期某阶段的客户甚至企业的新客户来说, 如何准确地预测其CLV呢?虽然根据判定树所提取的价值客户分类规则可以判断出这些客户是否为企业的价值客户, 但由于该方法受限于类标号属性值的离散化, 因此仍然无法准确地确定CLV, 而这是将价值客户或非价值客户进一步细分的根本依据。
因此, 本文提出了基于径向基神经网络 (简称RBF神经网络) 的CLV预测方法, 如图1所示。该方法将训练样本的CLV作为神经元的输出变量, 将判定树所归纳出的反映训练样本客户特征的客户属性作为神经元的输入变量, 通过对神经网络的训练, 使其具备预测CLV的功能。图中S1与S2为中间隐层与输出层的神经元数, 由于本论文仅将CLV作为输出变量, 因此S2的值为1。
3 价值客户特征属性归纳及CLV预测的示例
3.1 数据处理及训练数据集的构建
从某企业的客户数据库中选取生命周期已经结束的客户作为样本, 利用公式 (1) 进行CLV计算并进行排序, 将CLV最大的20%比例的客户视为企业以往的价值客户, 并将“是否为价值客户”记录在所增加的“价值客户”这样一个新的客户属性中。建立起关于这些样本客户的数据集市, 使其包含着类标号属性 (即“价值客户”属性) 及客户的以下具体属性:
客户的自然属性。包括5个具体的客户属性:姓名, 性别, 年龄, 收入, 联系方式。
客户的行为属性。包括2个具体的客户属性:购买频率, 现金或信用卡的支付方式。
对构建的数据集市进行数据预处理。由于姓名及联系方式属性存在大量不同值, 且无法进行概念分层, 故将它们剔除掉。对年龄、收入、购买频率属性进行离散化, 所划分的区间及对应的描述值分别为:
年龄。划分区间为:25岁及以下, (25岁, 45岁) , 45岁及以上;所对应的描述值分别为:青年, 中年, 老年。
收入。划分区间为:月收入800元及以下, (月收入800元, 月收入2000元) , 月收入2000元及以上;所对应的描述值分别为:低收入, 中收入, 高收入。
购买频率。划分区间为:1年购买2次及以下, (1年购买2次, 1年购买6次) , 1年购买6次及以上;所对应的描述值分别为:很少购买, 一般购买, 经常购买。
通过预处理得到广义关系表, 从中随机抽取20个客户数据元组组成训练数据集, 如表1所示, 其他客户数据元组作为测试数据集。
3.2 相关属性集的建立
类标号属性“价值客户”有两个不同的值 (即{是, 否}) , 因此对应两个不同的类 (m=2) , 假设与其相对应的类分别为C1、C2。从表1的训练数据集中可以得出C1有5个样本, C2有15个样本。利用公式 (2) 可得训练集分类所需的期望信息为:
I (s1, s2) = I (5, 15) =-5/20*log2 (5/20) -15/20*log2 (15/20) =0.811。
计算每个属性的熵, 如对于收入属性:
低收入:s11=0 s21=6 I (s11, s21) =0
中收入:s12=1 s22=7 I (s12, s22) =0.544
高收入:s13=4 s23=2 I (s13, s23) =0.918
由该属性划分成子集的熵为:E (收入) =6/20*I (s11, s21) +8/20*I (s12, s22) +6/20*I (s13, s23) =0.493, 因此这种划分的信息增益是:Gain (收入) =I (s1, s2) -E (收入) =0.318。类似地可以计算出按其它属性划分的信息增益:Gain (性别) =0.009, Gain (年龄) =0.086, Gain (购买频率) =0.24, Gain (支付方式) =0.163。将属性相关性的阈值设定为0.01, 则将与类标号属性弱相关的“性别”属性剔除掉, 就得到了相关属性集。
3.3 判定树及价值客户识别规则的产生
收入在属性中有最高的信息增益, 故将其作为判定树根节点的测试属性, 并对于每个属性值引出一个分支, 选择信息增益次高的属性为下一级节点的测试属性, 这样递归的构造出判定树, 经过剪枝, 最终如图2所示。
根据图2的价值客户的判定树, 从根到树叶的每条路径都可以创建一个规则, 总共可以建立价值客户识别的8条规则, 以下仅列出其中一条, 其它略。
IF收入=“高” AND支付方式=“信用卡” THEN 价值客户=“是”
针对训练数据集, 利用判定树方法建立起的价值客户识别规则可以对测试集中的客户进行价值识别。需要说明的是, 为了便于计算及描述, 示例中仅抽取了20个客户数据元组作为训练数据集, 而客户属性类别较多, 所以使得模型的识别误差较大, 这里仅仅作示范说明作用。在实际当中, 我们抽取了500个客户数据元组作为训练数据集, 利用判定树归纳出的价值客户识别规则对测试集中的420个客户进行了价值识别, 其准确率高达84%, 说明了该方法通过归纳价值客户特征属性来进行价值客户识别是比较有效的。
3.4 预测CLV的系统仿真
同样以上面500个客户数据元组作为训练数据集, 将相关属性集中的客户属性 (收入、购买频率、支付方式、年龄) 作为输入矢量中的4个变量, 计算出的CLV值作为输出变量, 高斯函数作为神经元的变换函数。通过对图1结构的RBF神经网络进行训练 (使用的软件为MATLAB6.0, 隐层神经元的数目选为自动确定) , 对测试集中的420条记录进行系统仿真检验, 结果CLV预测的相对误差仅为3.26%, 说明该CLV预测模型具有较高的预测精度。
4 结论
本文利用数据挖掘中的判定树归纳法对客户数据库进行分析, 提炼出价值客户的自然属性特征及购买行为特性等重要的隐含信息, 对于了解价值客户特性及分析其购买行为具有指示意义。与通过计算客户全生命周期价值来进行价值客户识别不同, 本文所建立起的价值客户识别准则方法便捷、表现形式直观, 并可以对可为该领域的相关研究提供借鉴。此外, 本文将判定树方法归纳出的客户特征属性及CLV分别作为径向基神经网络的输入、输出变量, 构建起准确预测CLV的模型, 实证结果表明模型具有较强的适用性及较高的预测精度。
摘要:采用数据挖掘中的判定树法归纳出反映价值客户特征的客户属性, 相应地建立起价值客户的识别规则, 并将提炼出的客户属性作为神经元的输入, 构建起基于径向基神经网络的CLV预测模型。最后结合实例对所构建的方法进行了应用说明, 为价值客户识别与特征描述及CLV的预测提供了一种新思路。
关键词:客户知识,价值客户,客户生命周期价值,判定树归纳,径向基网络
参考文献
[1]王红军, 陈庆新, 陈新, 郑德涛.基于效用分析的客户聚类方法研究[J].计算机集成制造系统, 2003, 9 (3) .
[2]邹鹏, 李一军, 叶强.客户利润贡献度评价的数据挖掘方法[J].管理科学学报, 2004, 7 (1) .
[3]胡理增, 薛恒新, 于信阳.以客户终身价值为准则的客户重要程度识别系统[J].系统工程理论与实践, 2005 (11) .
[4]REINARTZ W J, KUMAR V.The Impact of Customer RelationshipCharacteristics on Profitable Lifetime Duration[J].Journal of Mar-keting, 2003, 67 (1) .
[5]RUSTR T, LEMON K N, ZEITHAML V A.Return on Marketing:Using Customer Equity to Focus Marketing Strategy[J].Journal ofMarketing, 2004, 68 (1) .
[6]DWYER R F.Customer Lifetime Valuation to Support Marketing De-cision Making[J].Journal of Direct Marketing, 1997 (11) .
[7]BERGER P D, NASR N I.Customer Lifetime Value:MarketingModels and Applications[J].Journal of Interactive Marketing, 1998 (12) .
[8]陈明亮.客户全生命周期利润预测方法的研究[J].科研管理, 2003, 24 (4) .
[9]HAN J WI, KAMBER M.Data Mining Concepts and Techniques[M].San Mateo:Morgan Kaufmann Publishers Inc, 2001.