数据模型与决策mba

2024-07-25

数据模型与决策mba（精选6篇）

数据模型与决策mba 篇1

摘要：随着我国经济的不断发展，我国的MBA教育也取得了巨大的成绩。

论文从《数据模型与决策》这一课程的特点出发，深入分析了教学过程中出现的各种问题以及产生的原因。

在此基础上，从改进教学方法入手为提高该课程的教学效果提出了相应的对策建议。

Abstract：With the development of China’s economy, the education of MBA has made great achievements in China. From the analysis on characteristics of this curriculum, this paper analyzes deeply different problems and causes cccurring at the course of teaching this curriculum.On the basis of improving teaching methods, this paper is to put forward some suggestions to improve the teaching efficiency.

数据模型与决策mba 篇2

有限资源的合理配置与利用是管理学研究的中心。美国管理学家西蒙指出：管理就是决策。尽管决策的正确性不仅依靠科学，而且凭借经验与艺术，但随着决策难度和风险的增大，即使是以往认为主要靠经验、直觉和艺术的那些非程序化的决策，也往往要先经过一系列基于科学方法的信息收集和分析，然后在进行详细的可行性研究的基础上进行科学决策，《数据模型与决策》正是为管理决策提供科学方法的一门学科。

一、课程的发展历史与特点

1、课程的发展历史

《数据模型与决策》的萌芽，可以追溯到19世纪末至20世纪初，其中以泰勒提出的科学管理理论和爱尔朗提出的排队模型、哈瑞斯提出的经济批量采购模型等为典型代表。作为一门独立的学科，《数据模型与决策》产生于20世纪40年代。由于战争的需要，英国和美国招募了一批年轻的科学家和工程师，在军队将军的领导下研究战争中的问题，例如大规模轰炸的效果、搜索和攻击敌军潜水艇的策略、兵力和军需物质的调运等等，这些研究在战争中取得了很好的效果。战后，这些研究成果逐渐公开发表，其理论和方法被相继应用到经济计划和生产管理领域，并产生了良好的效果。1952年，美国运筹学会成立。50年代以后，随着信息技术的迅速发展，线性规划、动态规划等由于能够更加方便地求解而被进一步应用于实际管理系统的优化问题中。50年代末，美国已有约半数的大公司在自己的经营管理中应用这些方法，主要用于生产计划、物资储备、资源分配、设备更新等方面的管理决策[2]。

经过长期发展，《数据模型与决策》这门学科不仅在理论上具有了相当的深度和广度，而且其方法与信息技术相结合，形成了各种商业应用软件，使其具有更广泛的应用前景。我国从开始研究这门学科以来，也取得了巨大成就。随着统计学等课程内容的不断融合，其学科体系不断完善，全国各高等院校的管理类学科均将这门学科作为主干课程列入教学计划，全国MBA教学指导委员会也将其列为MBA教学的核心课程。

2、课程的特点

《数据模型与决策》是一门利用数学方法研究各种广义的资源利用、筹划与相关决策等问题的应用学科，是管理科学和现代化管理方法的重要组成部分，它主要运用数学方法研究各种系统的优化途径和方案，为决策者提供科学依据[3]。它具有以下几方面的特点：

1、决策的导向性。

它是一门为管理决策提供科学方法的学科。管理决策中的实际问题，既是管理科学产生的源泉，又是管理科学的应用对象。此学科的研究从一开始就有着强烈的决策导向性。例如，从我国春秋战国时期的田忌赛马，到企业经营管理过程中的人力资源分配、生产计划安排、运输方案和投资方案选择、不同环境下的决策技术等等，都是为决策者的管理决策提供科学依据。

2、方法的科学性。

它是根据管理问题的环境条件和决策要求，在企业拥有的有限资源的约束情况下，通过科学理论的指导，利用科学的手段和方法建立相应的数学模型，通过对决策目标和约束条件进行分析和求解，然后通过实际问题的检验并得到解决这一问题的最优方案，它是科学管理的重要方法之一。

3、系统的最优性。

它是以系统观为指导的一门技术科学，研究的是一个系统的组织管理的优化问题，目标不是单一问题的最优化，而是追求整个组织的系统最优化。例如，在生产计划安排时，由于受到自身拥有资源的限制，在追求企业利润最大化的计划安排中，有时会出现单一利润最大的产品在最优的决策方案中恰恰是要放弃生产的情况。可以说，整个管理科学方法的核心思想就是“整体优化”，而这正是系统观的精髓之一[4]。

4、学科的交叉性。

它涵盖的内容十分广泛，既有线性规划的内容，其中包括线性规划、整数规划、动态规划、目标规划、网络与图论等；也有非线性规划的内容，其中包括排队系统分析、马尔科夫分析和随机模拟分析等，它是一门综合经济学、管理学、高等数学、线性代数、战略管理、市场营销等多个学科的应用科学，这些学科相互交叉、相互渗透，从而形成了学科的交叉特性。

二、教学过程中存在的问题与原因分析

作者从2006年至2011年期间担任苏州大学商学院MBA学员的主讲教师，先后给1000名左右的MBA学员讲授这一课程，合计54学时。笔者通过近6年该课程的教学过程和教学效果的分析，总结和归纳出以下若干方面的问题及其产生的原因：

1、学员的学习兴趣不浓，学习积极性不高。

虽然我国的MBA教育取得了长足的发展，但由于学员来自国有、外资、民营企业以及私人业主等不同性质的企业，层次从基础管理者到中层管理者以及更高层次的高层管理者，但参加MBA学习的动机则完全不同，甚至有人认为参加学习的目的不是为了学习新知识和提高管理技能，更重要的只是为了结交更多的朋友和建立广泛的社交网络，从而学习兴趣不浓，当然对此门课程学习的积极性也不高。

2、学员的知识基础不牢固，学习成绩相差悬殊。

MBA学员的学科背景多样，尤其是文科专业毕业的学生的数学基础更差，尤其对线性代数和统计学知识掌握不深的同学而言，学习该课程时就感觉非常吃力。再加上有些同学的学习态度并不端正，因而在该课程的考试中，既有获得高分甚至满分的，也有很多不及格的，学习成绩相差悬殊。。

3、学员的重视程度不够，教学效果不佳。

在教学计划安排中，工商管理专业相关的学科一般都是采用的定性分析，而该课程强调的是在建立数学模型的基础上进行定量分析，从而为管理决策提供依据。因此，仅靠简单的死记硬背则不能解决问题，如果平时没有及时掌握构建数学模型的基本思想和建模思路，则对企业管理过程中出现的实际问题更是一愁莫展。另外，学员都是在职学习，有时由于工作和家庭的原因而不能按时到课学习，课后也没有需要花费更多的精力和时间及时掌握相关内容，老师的讲课无法取得预期的效果。

4、大多采用大班化教学，教学方式有待改进。

强调案例教学与师生互动是国际上商学院MBA教育的一大特点，也是给学员提供情景模拟和管理决策的一个有效方式。但由于师资力量有限以及为降低教学成本的考量，很多课程仍然采取大班化的教学方式。教师需要花费一定量的时间在定义解释、原理推导和手工演算等内容上，为了不影响教学进度，授课讲师虽然引用了大量的案例，但还是以老师讲授为主，同学参与讨论的机会并不多。因此，为了提高学员的科学决策能力，现有的教学模式还有待进一步改进。

三、提高课程教学效果的对策建议

为了提高运筹学课程的教学效果，增强学生利用理论知识解决实际问题的能力，课程主讲教师应该从以下几个方面入手，通过教学方法和手段的改进以提高该课程的教学效果，从而不断提高MBA学员的科学决策能力：

1、从经典的案例分析与实际用途出发培养学生的学习兴趣。

兴趣是最好的老师，它是激发学员学习主动性和积极性的原动力。教师可以从获得美国管理科学奖的典型案例出发，如美国石油公司确定和评价公司产品商业化的新战略、施乐公司缩短反应时间和改进维修人员生产效率的方案选择、宝洁公司重新设计生产和分销系统以降低成本和改进市场进入速度等决策案例，从而极大地激发学员的学习兴趣。另外还要通过对本土案例的收集和详细分析，针对国内企业经营管理过程中出现的问题，进行各种方案的比较分析，使学生亲身感受到学习本课程对未来成为有效管理者的重要性。

2、从科学的系统观出发，通过构建决策模型增强系统思维和创新能力。

MBA教育的一个主要宗旨就是为了提高学员的系统思维和创新能力，尤其是未来的管理决策者，在面对不确定性和各种外部风险时，必须提高系统思考、战略决策和创新能力。企业的持续发展不仅取决于企业内部的管理与创新能力，还取决于企业与外部主体（如供应商、客户、竞争对手、政府等）之间的合作关系。因此，在授课过程中，任课教师应该从科学的系统观出发，认真解读建立数学模型的基本思想和方法，强调系统思考在企业经营管理和战略决策中的重要性，使学员能不断地通过学习而实现自我超越。

3、课堂讲授与学生讨论相结合，培育学生的创新思维。

发散思维是一种没有一定的指向、范围、规则和约束的思维形式，它以某一事物或信息为起点，充分发挥人的想象力，尽可能多地构思出多种解决方案，即是一种由一到多的思维过程；而收敛思维恰好相反，它是一种利用已有的知识、经验等传统方法来解决问题的有一定的指向、范围、规则和约束的思维方式，即由多到一的思维过程。创新思维要求人们摆脱传统思想的框框, 努力打破传统的思维定势，它是一个发散与收敛相结合的思维模式。因此，在课程的教学过程中，要充分利用学生与老师之间的互动来激发学生的求知欲望和创新思维能力，并通过学生的分组讨论来集体探讨问题的解决方案，不断培育学生的创新思维。

4、与其他专业知识相结合，理论联系实际，不断提高解决实际问题的能力。

本课程属于一个交叉学科，融合了经济学、管理学、高等数学、线性代数、战略管理、市场营销等多学科的知识体系，主要目的是为了提高资源的配置和利用效率。因此，在教学过程中，应该结合相应的经济学和管理学理论知识和概念，理论联系实际，通过对资源基础理论、影子价格、机会成本、灵敏度分析、决策技术和随机模拟分析，使学生能融会贯通，从而提高学员利用所学理论与知识解决实际问题的能力。

5、充分利用现代信息技术，不断提高教学效果。

对管理专业的学员而言，本课程的内容和方法不是简单的数学建模与复杂的运算过程，以往在教学过程中偏重手工计算的方法已不再适应学科发展的现实需要。因此，在学生掌握基本的建立数学模型的基础上应该辅以相应的软件教学和应用，如Matlab, Execl, Lingo, Lindo等其他管理运筹学的软件，这样可以克服以往教学中满堂灌的弊端，使学生在已学会建立数学模型的基础上利用各种软件来进行计算和分析，不仅省去许多复杂的计算过程，而且还提高了研究和解决问题的速度与效率，从而不断提高本课程的教学效果。

摘要：随着我国经济的不断发展, 我国的MBA教育也取得了巨大的成绩。论文从《数据模型与决策》这一课程的特点出发, 深入分析了教学过程中出现的各种问题以及产生的原因。在此基础上, 从改进教学方法入手为提高该课程的教学效果提出了相应的对策建议。

关键词：MBA,数据模型与决策,教学方法

参考文献

[1]俞雪华, 苏州大学MBA教育发展现状与发展对策报告, 苏州大学MBA发展研讨会, 2011年8月12日

[2]Frederick S.Hillier, Mark S.Hillier, 《数据、模型与决策》, , 中国财政经济出版社, 2004年1月, 第二版

[3]徐玖平, 胡知能, 运筹学—《数据、模型与决策》, 科学出版社, 2006版

数据模型与决策mba 篇3

關键词：数据挖掘；数据仓库；教育管理；算法；VB

中图分类号：TP311.52 文献标识码：A文章编号：1007-9599 (2011) 03-0000-02

Education Management Decision Support System Based on Data Mining

Lin Lin

(Biochemical Engineering College of Union University,Beijing 10023,China)

Abstract:The paper theoretically expounds the concept of data mining,demonstrates the data mining in the education management decision support system of the core applications,introduces the education management decision support system of data collection, preprocessing,establish and maintain the DW,data mining algorithm choice,the specific content of decision tree algorithm,VB language program design,system testing,etc,discussed the system model in theory framework,rearch data mining and combining education management play a huge role,fnally,discussed the data mining technology in education management decision support system application prospect.

Keywords:Data mining;DW;Education management;Algorithm;VB

随着信息时代的快速发展，外界所带给我们的大量信息也越来越多。大量信息在给人们带来方便的同时，也带来了一大堆麻烦：信息过量难以消化，信息真假难以辩识，信息安全难以保证，信息格式难以统一。身处信息汪洋中的我们，如何才能不被信息淹没、如何从中及时发现有用的信息呢？是否存在着一种工具、一种方法或者一个手段使得身处“数据爆炸、知识匮乏”的我们，能够以一种轻松的状态来进行有效的管理决策呢？

数据挖掘技术是人们长期对数据库技术进行研究和开发的结晶，它为我们提供了一个非常优秀的工具。

一、数据挖掘技术

所谓数据挖掘就是指一个完整的过程，该过程就是从海量的随机应用数据中，提取分析隐含在其中的、人们事先并不知道的、但又具有内在联系的、有价值的信息数据，这些信息数据为决策提供必要的支持。

数据挖掘过程中详细各个步骤的大体内容如下六步：

1.确定主题：即做好需求分析，清晰地定义出问题，并对探索的问题具有可预见性。

2.数据的提炼：搜索与主题有关的数据信息，研究数据的质量，并确定将要进行挖掘操作的类型。

3.数据的转换：将数据转换成一个分析模型，这个分析模型是针对挖掘算法建立的。

4.数据挖掘：对所得到的经过转换的数据进行挖掘，除了完善从选择合适的挖掘算法外，其余一切工作要都能自动地完成。

5.结果分析：解释并评估结果，其使用的分析方法一般应视数据挖掘操作而定，通常会用到可视化技术。

6.知识的同化：将分析所得到的知识集成到业务信息系统的组织结构中去。

二、数据挖掘与教育管理决策支持系统

我们使用数据挖掘技术对我们所掌握的信息进行特定的“挖掘”，能够发现：广义知识、关联知识、分类知识、预测型知识、偏差型知识，能够在数据中寻找预测性的信息，能够为我们的管理提供“做出决策”的依据，能够有力的支持我们做出恰如其分的选择。

所谓教育管理，就是在特定的社会环境下，遵循教育的客观规律，对各种教育资源进行合理配置，以实现教育方针和教育目标的行为，教育管理是社会管理的一部分。在学校教育管理中，我们引进数据挖掘技术，正是想针对教育的海量数据进行有效的发掘，以期充分利用数据挖掘的长处，来发现这些海量数据中潜在的、长久以来未被发现的规则，能够对学生潜力做出数据挖掘，这就为学校的招生工作提供了一定程度的参考，并在学生入学后还可以分析其进步或者退步的可能原因是什么，解决学生教育导向的问题；还可以对学校管理层比较关心的问题进行挖掘。例如，在所有教职工中教师的比例有多大；一般意义上讲某位教师是否达到了学校的一般标准；能够对教师执教能力和教师人力资源优化做出分析，在教师招聘中为人力资源主管提供一般性的判断依据，对所应聘的教师做出其潜力及前景分析，以便能够辅助管理层做出更好的决策，优化教育管理，促进教育管理良性发展。

三、系统架构的搭建

我们将分以下几步来进行系统模型的设计及实现：

1对数据进行分析，建立数据仓库

数据主要来源是档案室现存的档案，包括教职工和学生的，还要动态的添加一些数据。如果能够得到教育院校的支持来丰富数据，那就更好。这个数据的要求是大量、真实、准确。

对于教职工的信息，主要有以下属性：编号、姓名、性别、民族、出生年月日、

政治面貌、工作时间、是否为班主任、是否为学校管理层、毕业院校、最高学历、

最高学位、最高职称、家庭经济条件、教学评估成绩、所获荣誉、所带班级荣誉、研究成果等等，越详细对我们进行数据挖掘就越好。如下表所示。

对于学生的信息，主要有以下属性：学号、姓名、性别、民族、出生年月日、政治面貌、专业、班级、入学时间、入学成绩、毕业去向、毕业成绩单、毕业论文名称、毕业论文成绩、毕业证书、毕业后十年状况（可选）、毕业后二十年状况（可选）、毕业后四十年状况（可选）、家庭条件、在校期间所获荣誉等等。

对每一个属性进行赋值初始化，如：性别，定义为字符型变量，M代表男，F代表女；又如：对教师的研究成果，是以字符来进行赋值的，涵盖了发表的论文、编著的书籍、科研成果等等，这些分别按照级别予以打分，进行累加，最后全部总和即为该教师的研究成果的成绩，然后对该成绩进行加权求值，按照求值分别赋以A、B、C等字符。对每一位教职工和学生进行赋值，并录入到数据仓库中。创建数据仓库的工具我们可以选择Microsoft SQL Server 。需要注意的是，SQL Server “企业管理器”中控制台根目录中SQL Server组名称应与其他名字一致，例如分析服务器是LINLIN2006，它也应该是LINLIN2006。

2决策树算法

决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。如图4-1，针对学生毕业成绩影响因素进行数据挖掘后的一棵决策树，从中我们看到，决策树的基本组成：节点、分支和叶子。

图4-1决策树

圖4-1中“入学成绩=好”这个条件是树的根，即决策树的根节点。对条件的不同回答产生了“是”和“否”两个分支；而是否“学习勤奋”是根节点的子节点（子节点的个数与决策树算法有关）；如果分支下无节点，则到树尾，称为叶子，图中“毕业成绩=坏”就是其中的一个叶子。从树根到每一片叶子的过程就是利用决策树进行分类的过程，通常称这个过程为“遍历”。

决策树算法是数据挖掘中常用的一种算法，常用于数据分析和预测。决策树的构造结果是一棵二叉树（即每个节点有两个分支）或多叉树（节点可以包含多于两个的子节点）。构造决策树的过程，即树的生长过程是把条件数据不断切分的过程，每次切分对应一个问题（即一个节点），二叉树的内部节点（非叶子）一般表示为一个逻辑判断，如图4-1。对每个切分的要求是分组之间的“差异”尽量最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。我们只需要把切分看成是把数据信息分成几份，每份数据信息之间尽可能不具有相同或相似的属性，而同一份内的数据尽量具有相同的属性，即属于同一类别。

对于教育管理决策者来说，决策树的构造，即在其生长过程中没有必要太“茂盛”。因为这样会大大降低树的易理解性和易用性，而且也使决策树本身对原始数据产生较大的依赖性，换句话说，这样的决策树可能对于原始数据非常准确，但当有新的数据信息加进的时候，准确性就会急剧下降，这种情况被称之为训练过渡。为了使得到的决策树所蕴含的规则具有普遍性，我们必须有效避免训练过度，同时减少训练的时间。常用的方法是限制决策树的过度成长，即预先设定决策树的最大高度（层数）；此外也可以通过设定每个节点必须包含的最少记录数来限制，当节点中记录的个数小于这个数值时就停止切分。

1使用VB对算法进行编程，实现各个模块的功能

通过VB来进行图形应用界面设计及核心程序编程。菜单的设计如下：导入数据仓库、选择数据仓库、任务确立、选择因素、开始运行、查看结果、保存结果、翻译规则、保存规则、退出。主要通过表单及命令来实现各功能。样本空间指的是由教职工、学生数据仓库中的数据所构成的数据空间。

2测试

根据软件测试的要求，必须对该系统进行数据测试，即用手中所拥有的档案资料与数据挖掘的结果对比，进行测试。

首先，假定某学校教师部分档案资料如下（受篇幅限制，仅有部分）：

其次，我们使用表中的数据来检测树形结构中每条枝叶的正确性。如果大部分吻合，那么该决策支持系统是成功的，软件和算法都是正确的；否则就得检查改正。这个测试以及测试结果比较的工作量是非常巨大的。

四、进行数据挖掘时应考虑的问题

1确定问题，即用数据挖掘解决什么样的问题，它是核心，偏离了这个主题，最终只能导致失败；

2海量数据的问题，一方面是源数据的挖掘，一方面是数据的提炼；另外非标准格式的数据、多媒体数据、面向对象数据处理问题；从而保证数据的质量和时效性；

3各种算法的使用；

4变化的数据和知识问题；

5枝叶——规则的易懂性问题；

6与其他系统的集成问题，如果可能的话，本系统可以嵌入到学校网络协同办公平台之中；

这些都是在具体实施时应该注意的，也关系着基于数据挖掘的教育管理决策支持系统模型成功与否。

五、展望未来

随着信息化不断向前发展，基于数据挖掘的教育管理决策支持系统也将涵盖人才培养、人力资源、教学评估、教育经济等几个大的方面，也将逐渐发展为教育管理数据挖掘应用平台。基于数据挖掘的教育管理决策支持系统也将发挥越来越重要的角色。

参考文献：

[1][加]Jiawei Han，Micheline Kamber（著）范明，孟小峰等译《数据挖掘概念与技术》北京机械工业出版社

[2][中国]张尧庭，谢邦昌，朱世武（编）《数据采掘入门及应用——从统计技术看数据采掘》中国统计出版社

[3][美]John W.Fronckowiak，David J.Helda（著）全刚，杨领峰，申耀军，张涛（译）高长剑（审校）《MS VB6.0 数据库编程大全》电子工业出版社

[4][中国]数据挖掘讨论组www.dmgroup.org.cn

管理决策模型与方法篇4

管理决策模型与方法--管理者的必备素质

一、什么是管理决策

决策是人们在政治、经济、技术和日常生活中普遍存在的一种选择方案的行为。决策就是决定的意思。决策的正确与否会给人们、企业或国家带来受益或损失。新产品研制中的决策，一个错误，可能造成的损失是几万、几百万或更多，国际市场的竞争活动中，一个错误的决策可能造成几亿甚至几十亿的损失。甚至可能导致企业破产。因此说在一切失误中，决策失误是最大的失误，一着不慎，损失重大。

决策也是指在现代社会和经济发展过程中，针对某些宏观或微观的问题按予定目标，采用一定的科学理论、方法和手段，从所有可供选择的方案中，找出最满意的一个方案，进行实施直至目标的实现。

所谓科学的方法，是指首先提出问题，然后分析问题、建立模型、软件求解、结果分析，以上过程被称为控制，最后确定解决方案和实施方案。

通过将抽象的问题建立起数据模型，通过计算得出结论，例如成本与收益，边际效益等。

关于决策的重要性，美国著名管理学家，诺贝尔奖金获得者赫伯特.A.西蒙有一句名言“管理就是决策”.这就是说，管理的核心是决策。

二、一些没有进行科学管理与决策的案例

1、秦池标王

广告“ 标王”大战杀出“ 秦池”一片

1995 年11 月份, 中央电视台的第二届电视广告竞标会, 在中央电视台梅地亚宾馆多功能厅举行, 经过几轮角逐, 山东秦池酒厂以6 666 万元夺得1996 年中央电视台黄金时段全年广告播放权, 一举成为“ 标王”。

1996 年11 月份, 仍在上述地点, 中央电视台一年一度的广告“ 标王”大战, 重燃战火。经过短短几个小时的激烈角逐, 中央电视台1997 年每天4 分40 秒的黄金时段广告,“ 竞”出了一年24 亿元的天文数字, 超过标的总额的3 倍。山东秦池酒厂以3.2 亿元的“ 天价”, 再次蝉联“标王”, 再度震撼全国。

实际上, 在1996 年10 月17 日,《广告导报》头版头条独家刊登了《’97 中央电视台黄金时段广告招标大透视》, 文章作者做出了“ 大胆的预测”: 标王将在酒类企业中产生, 所出价格将在1 亿元左右。这种分析也与中央电视台的设想吻合。

1996 年的黄金时段投标, 不仅比1995 年的激烈, 而且超过1 亿元的企业就有10 家, 其中酒类企业就占了70%。投标前, 有人说, 此次招标不能太乐观, 并预测: ’97 年“ 标王” 不会过亿元。

可是, 这些预测没有看到这样一个事实: 1995 年秦池竞标时销售收入才6 000 多万元, 而1996 年用6 666 万元夺标后, 到参加竞标时, 销售收入已达8 亿元。

可见, 广告的作用之巨大, 秦池酒厂是尝够甜头了。同时, 中央电视台广告中心主任谭希松宣布: 中标者高于末标的投标金额, 中央电视台将赠送其他段位的广告补偿。这就意味着, 中标企业在“ 竞”得5 秒广告时间的同时, 实际上获得了中央台每天40 分钟的广告播放权。

秦池酒厂深知上述事实。但商场如战场, 秦池酒厂在竞标前却保持低调, 大施欲擒故纵之计, 放出话来: 无意再争“ 标王”。果然, 在中央电视台台长杨伟光设宴款待全体投标企业时, 相伴左右的依然是孔府家、宴“ 两兄弟”, 1996 年的“ 标王”秦池没有露面。

人们纷纷议论: 下一匹“ 黑马”是谁?

其实, 秦池心中已有盘算: 用6 666 万元的广告费, 换来了收入8 亿元, 实现利税2.5 亿元, 广告带来的好处是明白的, 1996 年应该加大广告费投入。对于投标费多少为好, 秦池也做了分析: 酒类竞标企业共有40 家, 预计超过1 亿元的有10 家, 超过2 亿元的有5 家: 可能是“ 扳倒井”、“ 齐民思”、“ 两孔”和“ 秦池”。基于这种认识, 秦池设计了三种方案:

一、若允许以集团名义联合竞标, 则出价3.7 亿元;

二、把秦池厂办的电话3212118 作为竟标额(即用3.2 亿元投标);

三、在1995 年的6 666 万元数字前加一个“ 2”(即用2.666 6 亿元投标)。

广告竞标大战到1996 年已是第三届了, 届届引起轰动, 首届标王被“ 孔府宴”捧走, 二、三届由“ 秦池酒”蝉联标王。实际上, 最

大的赢家是中央电视台, 每天4 分40 秒的黄金时段广告“ 竟”出了24 亿元的总额, 与1995 年的10.8 亿元相比, 足足翻了一番。

深入探讨GIS数据模型与结构篇5

深入探讨GIS数据模型与结构

本文基于笔者多年从事地理信息系统建设的相关工作经验,以地理信息系统数据结构及数据组织管理为研究对象,探讨了GIS数据模型、数据结构、数据组织与管理方法,全文是笔者长期对GIS数据结构研究基础上对理论升华,相信对从事相关研究工作的`同行有着重要的参考价值和借鉴意义勇军.

作者：何小军作者单位：扬州智途科技有限公司,江苏扬州,225009刊名：科技创新导报英文刊名：SCIENCE AND TECHNOLOGY INNOVATION HERALD年，卷(期)：“”(26)分类号：P2关键词：地理信息系统数据结构数据组织管理

数据模型与决策mba 篇6

关键词：数据挖掘,高校图书馆,聚类分析,决策树

0 引言

随着数据库的不断深入发展以及Internet技术和WWW技术的日益成熟,图书馆所拥有的文献资源数据正在呈几何指数上涨。但目前大多数图书馆仍然采用传统的信息服务方式,即由读者提出信息请求,图书馆工作人员进行解答,或是定期向读者提供相关书目。而现代图书馆的信息服务应该更加关注读者的根本需求,并主动向读者推送个性化服务。由于读者在图书馆借阅图书及检索文献资源的过程中会留下诸如读者基本信息、借阅历史记录、检索记录等有价值的大量信息,应用数据挖掘技术对读者的借阅数据进行分析,得出读者借阅图书分类间的潜在信息。

本文以某高校图书馆的读者借阅数据为基础依据,在聚类分析结果中抽取学习样本,建立决策树模型对借阅数据的特性进行分析,尝试着从数据中挖掘隐含信息,清晰地把握读者真实的信息需求,据此开展读者个性化信息服务,优化馆藏。

1 研究方法

1.1 聚类

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类,经常被用作衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。K-means聚类算法是一种基于划分的聚类算法,因其理论上可靠、算法简单、收敛速度快而被广泛运用。k-means算法的工作原理为首先随机选择K个初始中心,利用欧式距离计算与初始中心的距离,将n个数据分别将它们分配给与其最相似的簇,然后用同一簇中所有对象的均值替换初始中心点。通过多次迭代计算直到结果明显变化为止,使得同一簇尽可能紧凑,而不同簇间尽可能独立。

1.2 决策树

决策树是一种典型的分类方法,采用自顶向下、递归的、各个击破的方式构造决策树。首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

ID3算法是一种经典的决策树学习算法,由Quinlan于1979年提出,是决策树分类方法中最具影响和最为典型的算法。ID3算法的基本思想是,以Shannon1948年提出的信息论为理论基础,信息熵为度量,用于决策树节点的属性选择,每次优先选取信息量最多的属性,亦即能使熵值变为最小的属性,以构造一颗熵值下降最快的决策树,到叶子节点处的熵值为0。此时,每个叶子节点对应的实例集中的实例属于同一类。

设节点N代表或存放待划分D的元组,选择具有最高信息增益的属性作为节点N的分裂属性。该属性使结果划分中的元组分类所需的信息量最小。对D中的元组分类所需的期望信息由下式给出:

其中,Pi是D中任意元组属于类Ci的概率,并用|Ci,D||D|估计。Info(D)是识别D中元组的类标号所需要的平均信息量。这里所具有的信息只是每个类的元组所占百分比,Info(D)又称为元组D的熵。

将D中的元组通过非类别属性A来进行划分,其中属性A根据训练数据的观测具有V个不同的值{a1,a2…,av}。为了使分类更加准确,需确定D中一个元素类的期望信息,可通过确定Di的加权平均值来得到,即:

其中|Dj||D|表示D中第j个划分权值。InfoA(D)是对D的元组分类按非类别属性A划分的期望信息。其中InfoA(D)值越小,则划分的准确度越高。将原来的信息需求与新的需求定义为信息增益,用Gain(A)表示,即:

通过Gain(A)能够确定以A的信息增益,Gain(A)越大,说明选择测试属性对分类提供的信息越多。因此选择具有最高信息增益的属性A作为根节点的分裂属性,使得完成元组分类还需要的信息最小。

ID3建立决策树的算法描述如下:

步骤1.决定分类属性;

步骤2.对目前的数据表,建立一个节点N;

步骤3.如果数据库中的数据都属于同一个类,N就是树叶,在树叶上标出所属的类;

步骤4.如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数服从多数的原则在树叶上标出所属类别;否则,根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N的测试属性;

步骤5.节点属性选定后,对于该属性中的每个值;

从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节点的数据表,在表中删除节点属性那一栏,如果分支数据表非空,则运用以上算法从该节点建立子树。

1.3 聚类下的决策树

为了保证评价模型的学习精度,学习样本的确定采用逐步尝试的方法,即根据建立的模型评价精度高低来决定学习样本的数目。首先考虑聚K个类,将数据集R划分为K个不相交的类。然后再分别从每个聚类中心附近抽取M条记录,得到K*M个样本数据,这样就可以最终获得聚类采样数据子集。

通过建立评价模型来检验评价模型的精度,满足实际情况的要求,表示该模型建立合理;如果所建立的评价模型精度不高,需要增加学习样本数目对模型进行训练,直至满足实际工作需要为止。该学习样本更具典型性和代表性,实际效果较好。文中将最为广泛的K-means聚类分析抽取训练样本,通过减少后的训练数据提高ID3决策树性能。

根据以上分析,研究方法的具体流程如图1所示。

2 实例分析

2.1 数据准备与预处理

在进行数据挖掘之前需要对提取的原始数据进行预处理,数据预处理是保证数据挖掘成功的先决条件,经过预处理后的数据可以为实现聚类分析提供标准的数据结构和数据格式,挖掘模型能够有效地调用预定的算法完成聚类分析。聚类分析的数据来源于图书馆管理系统数据库。

本实验数据来源于某高校图书馆管理系统。根据读者借阅数据分析的目的,需要从图书馆业务数据库提取的数据表包括读者借阅表、读者信息表和图书信息表。由于原始数据源中数据量非常大,本文特选取了2010年9月至2011年7月期间的读者借阅数据,通过去除残缺记录及不完整信息进行修补后,以校园卡号为识别标志,将数据表进行整合,并剔除多余的字段以简化数据表,共得到18472条有效记录。将处理后的数据导入SQL Server2005作为数据分析的数据源,通过K-means算法及ID3算法进行借阅数据的分析处理。

2.2 提取学习样本与建立决策树模型

依据图1所示流程图,首先通过K-means聚类算法来聚k个类,并且在每个聚类中心附近抽取4条记录构造训练样本,然后建立决策树模型来检验精度,若满足实际情况的要求,表示该模型建立合理。如果所建立的评价模型精度不高,需要重新增加学习样本对模型进行训练,直至满足实际指标为止,随着抽取样本个数的增加,预测精度如图2所示。

由图2可以看书,当聚32个类时,可得到128个训练样本,预测精度为72.64%,而随着训练样本的增加,发现256个样本比128个样本评价模型准确率提高了10.12个百分点。而512个和640个样本的预测精度并没有明显变化,曲线在256个样本个数处有明显的拐点,表明决策树模型的预测精度趋于稳定。因此确定256个训练样本建立的决策树模型作为读者借阅数据的预测模型,该样本所建立的模型预测精度为82.76%。

2.3 试验结果与分析

用所有样本数据检验所建立的基于K-means与决策树评价模型,测试的准确率为82.76%,而如果直接采用ID3算法进行预测,准确度为70.25%。

试验结果表明,利用聚类分析进行抽取数据,作为决策树的训练集,依据渐进原则,减少了学习样本的数量,并且能够使用典型样本数据推理出大量未知样本的类别,提高评价模型的预测精度。

在生成决策树之后可以方便地提取决策树描述的知识,沿着根节点到叶节点的每一条对应一条决策规则。抽取其中的决策规则描述如下:C915-43社会调查方法方面的图书和C819统计软件SPSS方面的图书之间存在强关联,因此可以考虑向读者进行相关图书推荐。TP39141Photoshop软件方面的图书同J534平面设计方面的图书同样存在强关联,同样进行相关图书推荐,确保学生理论联系实际等等。这些规则说明可以通过聚类算法和决策树算法的结合,得到很好的预测效果,进一步提高图书推荐的准确率,同时能够更好的主动服务于读者,提高服务质量。

3 结束语

本文运用聚类分析抽取决策树模型的学习样本,有效地减少了学习样本空间,在实验结果预测精度不高时增加抽取样本数量,所获得模型的预测精度相对于直接运用决策树进行处理有所增高,提取的规则能有效的实现个性化图书推荐。

参考文献

[1]Jiaw eiH an,M icheline K am ber.范明,孟小峰译.数据挖掘概念与技术.机械工业出版社,2001.

[2]元昌安.数据挖掘原理与SPSS Clementine应用宝典[M].电子工业出版社,2009.

[3]杨学兵,张俊.决策树算法及其核心技术[J].计算机应用与发展,2007.17:43-45.

[4]陈华月.基于加权关联规则和浏览行为的个性化推荐[D].重庆:重庆大学,2005.

【数据模型与决策mba】推荐阅读：

大数据推荐数据模型08-27

元数据模型05-31

工程数据模型06-26

通用数据模型07-25