数据挖掘技术概述

2024-09-29

数据挖掘技术概述(共9篇)

数据挖掘技术概述 篇1

在超市的经营中, 陈列是一项重要的技术。借由陈列的手法, 可将商品有魅力的展现在顾客的眼前, 激发顾客的购买欲。合理地陈列商品可以起到展示商品、刺激销售、方便购买、节约空间、美化购物环境等各种重要作用。据统计, 店面如能正确运用商品的配置和陈列技术, 销售额可以在原有基础上提高10%。

连销经营的超市, 也可借陈列法使整体形象趋于统一, 并使经营管理达到标准化。虽然大部分超市基本上都采用了现代化超市内部物流工具, 但对于店面商品的陈列方式和各种货架、隔物板、扩栏、台板、端架、价格卡、省力化栏车的布置和摆放缺乏科学的指导理论, 多半是被动的根据店面布置手册或是店长的个人经验进行布置和调整。但是进一步将怎样将超市中的展示工具系统的组织起来, 在给定时段和客流量的前提下, 如何达到最大销售额, 则只能是个完全说不清的事情。

所以非常有必要对该领域进行规范的实证研究, 建立相应的案例库与数据库, 通过现场观察实验与案例相结合研究的方法, 得出相关的理论模型, 并通过实地检验该模型的准确度, 最后得出科学的规律, 并指导店面商品陈列。

一、商品陈列技术

1. 商品陈列概念

商品陈列 (Goods Display) 指以产品为主体, 运用一定艺术方法和技巧, 借助一定的道具, 将产品按销售者的经营思想及要求, 有规律地摆设、展示、以方便顾客购买, 提高销售效率的重要的宣传手段, 是销售产业广告的主要形式。

2. 商品陈列的分类

根据不同原则, 如商品空间布置、价格特性和淡旺季销售特点, 商品陈列大体上又可以简单的做如下分类:

(1) 纵向陈列和水平陈列:纵向陈列是指同类商品从上到下地陈列在一组货架内, 顾客一次性就能轻而易举地看清所有的商品。水平陈列是把同类商品按水平方向陈列, 顾客要看清全部商品, 需要往返好几次。所以, 应尽量采用纵向陈列。

(2) 样品 (静止) 陈列与活动式陈列:样品陈列是指商场专柜中具有代表性的商品单独展示, 比如服装, 模特衣架要向顾客展示的新款式, 以立体的方式展现出来。对于一些商品, 可以采用活动式的陈列, 比如服装, 营业员选取其中一款, 作为制服身上, 这也是一种销售技巧, 营业员本身就在生动形象地直接给商品作着一种引人注目的最佳效果的展示。

(3) 综合陈列和特写 (场景) 陈列:将不同种类、不同规格的商品经过合理的搭配处理, 综合布置到一个空间, 这种陈列方式能让顾客快捷、方便的获得自己想要的信息。让顾客能迅速、系统的了解商品, 也给观众选择、比较商品提供了方便。而对于一些特殊产品 (如新产品和奢侈品等) 则必须采用特写陈列方式, 即在特定空间和特设场景中集中介绍某一种商品, 模仿电影特技的处理方式, 通过视觉放大或加强, 将某个或某种产品的陈列表现的非常突出, 这种陈列突出商品特色、体现商品优势、引起顾客的共鸣, 并形成品牌偏好。

(4) 季节陈列与节日陈列:在比较长的时间跨度上, 例如水果和服装的销售, 随着季节的变化而显著变化, 因此有必要将该季节急需的商品组织陈列到某个空间, 这种陈列方式能够很好的组织、引导消费, 并且便于配合厂家的淡旺季节货品品类管理和促销政策。而在一些特定的时间上, 如情人节的玫瑰、端午节的青团, 在特定节日期间则必须结合节日的特点、性质和要求, 通过商品的组织和陈列, 既体现卖场节日气氛, 又达到商品促销的作用。

(5) 廉价陈列和高档陈列:花车陈列属于廉价陈列, 它给顾客一种全家的感觉, 能够刺激顾客的购买欲望。专柜需要给顾客高档的感觉, 可以用豪华的货架和灯光处理的方法制造高档的感觉。

以上只是常用的几种商品陈列分类方式, 但是这些不同的陈列方式, 只能给予经营者一些定性的经验指导, 为进一步得出可靠的, 经得起检验的商品陈列理论, 我们必须采用统计学方法对商品陈列进行定量研究。

二、数据挖掘技术

1. 数据挖掘定义

数据挖掘 (Data Mining) 根据对“Mining”的理解, 也叫数据开采, 数据采矿, 数据采掘等, 同义词还有数据融合、数据分析和决策支持等, 严格的讲, 数据挖掘技术只是数理统计方法自然进化的过程, 是在处理新的海量数据集和复杂数据逐步形成的各种方法的总和。就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程, 这些信息和知识是可能有潜在价值的, 能支持决策, 可以为企业带来利益, 或者为科学研究寻找突破口。

2. 数据挖掘分类

数据挖掘综合了各个学科技术, 有很多的功能, 当前的主要功能如下:

(1) 分类:按照分析对象的属性、特征, 建立不同的组类来描述事物。例如:根据财务状况, 将上市公司分为高度风险投资对象, 中度风险投资对象, 低度风险投资对象;

(2) 聚类:识别出分析对内在的规则, 按照这些规则把对象分成若干类。分类上知道分类的法则后将目标归入相关的群, 而聚类则恰恰相反, 而是通过对象聚集的办法去寻找可以用以分类法则。

(3) 关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。著名的“啤酒和尿布”例子, 购买啤酒的人也有可能购买尿布, 比重有多大, 可以通过关联的支持度和可信度来描述。与关联不同, 序列是一种纵向的联系。例如:今天银行调整利率, 明天股市的变化。

(4) 预测:把握分析对象发展的规律, 基于时间序列对未来的趋势做出预见。例如:对上市公司未来收益的判断;

(5) 偏差的检测:对分析对象的少数的、极端的特例的描述, 揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为, 银行为了稳健经营, 就要发现这500例的内在因素, 减小以后经营的风险。

需要注意的是:数据挖掘的各项功能不是独立存在的, 在数据挖掘中互相联系, 发挥作用。

3. 数据挖掘算法

数据挖掘是许多学科的交叉, 运用了统计学、模式识别、机器学习等学科的技术, 所以分别从不同学科借来了不同的算法和模型, 以下是常见和应用最广泛的算法和模型:

(1) 传统的统计分析 (statistical analysis) 技术:

(1) 多元统计分析:因子分析, 聚类分析等。

(2) 统计预测方法, 如回归分析, 时间序列分析等。

(2) 神经网络:模拟人的神经元功能, 经过输入层, 隐藏层, 输出层等, 对数据进行调整, 计算, 最后得到结果, 用于分类和回归。

(3) 决策树:利用一系列规则划分, 建立树状图, 可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

(4) 粗糙集方法 (RST, Rough Set Theory) :是处理模糊和不确定性的一个新的数学工具, 用RST构造决策规则的算法一般都是考虑决策规则的数量而不是它们的代价。

(5) 关联规则挖掘算法:关联规则是描述数据之间存在关系的规则, 形式为“A1∧A2∧…An→B1∧B2∧…Bn”。一般分为两个步骤: (1) 求出大数据项集。 (2) 用大数据项集产生关联规则。

(6) 遗传算法:基于自然进化理论, 模拟基因联合、突变、选择等过程的一种优化技术。

除了上述的常用方法外, 还有模糊集合方法, 贝叶斯信念网络 (BBN, Bayesian Belief Netords) , 最邻近算法 (KNN, k-nearest neighbors method) 等。

三、基于数据挖掘算法的超市陈列

由于目前对该领域进行实证研究的文献寥寥, 经过多方查阅, 发现国外可能最早进行相关的研究文献最早的开始于上世纪80年代, 但是仅限于货架空间的研究, 如合理摆放高度。消费者走进商店, 经常会无意识地环视陈列商品, 通常, 无意识的展望高度是0.7至1.7米。同视觉轴大约30度角上的商品最容易让人清晰感知, 60度角范围内的商品次之。在1米的距离内, 视觉范围平均宽度为1.64米;在2米的距离内, 视觉范围达3.3米;在5米的距离内, 视觉范围8.2米;到8米的距离内, 视觉范围就扩大到16.4米。因此, 商品摆放高度要根据商品的大小和消费者的视线、视角来综合考虑。一般来说, 摆放高度应以1米至1.7米为宜, 与消费者的距离约为2米至5米, 视场宽度保持在3.3米至8.2米。在这个范围内摆放, 可以提高商品的能视度, 使消费者清晰地感知商品形象。同时要便于触摸。

后来的研究者又结合连锁超市业态的发展, 进行进一步的研究货架布置问题, 如代表文献[2]则给出了货架布置与店面销售利润最大化的实证研究, 文献[14]最经典的一篇, 根据品牌的市场份额和占有率来确定产品展示空间大小, 并考虑消费者的品牌爱好加以调整。并且通过测量市场占有率的弹性变化验证该实证模型, 以此得到一个利润最大化配置的产品展示空间。这种商业统计学研究方法现在还有很强的借鉴意义。文献[4]则给出国外研究的最新思路, 结合更广泛的因素考察商品陈列和品牌运营的关系, 并把商品陈列的影响提高到品牌运营的高度, 由于视角独特, 得到广泛的引用。

国内目前还没有相关的实证研究文献, 现有的有关商品陈列技术的研究仅限于对一般技巧和存在问题的初步探讨阶段[3]-[7], 譬如所谓的可口可乐品牌垂直陈列研究, 商家根据可口可乐公司商品陈列手册规定, 在货架上的产品应严格按照可口可乐、雪碧、芬达的次序排列, 同时可口可乐品牌的产品应至少占50%的排面;产品在货架上应唾手可得;包装相同的产品必须位于同层货架上, 同时要平行;包装轻的放上面, 重的在下面;要注意上下货架不同包装的品牌对应, 如上层是易拉罐的可口可乐, 则下层的对应陈列就是塑料瓶的可口可乐。

从上个世纪九十年代到现在, 该领域的基本没有很大的进展, 直到最近才出现相关的实证研究文献, 如文献[8]利用实证的方法对商店形象进行研究, 另外有不少研究者从传统工业工程角度对商品陈列也进行了研究, 由于不属于市场营销的范畴, 这里不再引述, 但是也为我们提供一个独特的研究视角。

综上所属, 该领域属于一个非常值得研究的研究热点, 考虑超市业态的快速发展, 即将取代原有的门市部或者其他类似的销售机构, “渠道扁平化”也是销售机构竞争的一个必然趋势。目前, 大型消费品厂商几乎无一例外地将竞争触角延伸到了零售终端。良好的商品陈列不仅可以方便、刺激顾客购买, 而且可以借此提高企业产品和品牌的形象。所以非常值得深入的进行研究。

摘要:在超市的经营中, 合理地陈列商品可以起到展示商品、刺激销售、方便购买、节约空间、美化购物环境等各种重要作用。但是目前商品陈列缺乏科学的指导理论, 多半是被动的根据店面布置手册或是店长的个人经验进行布置和调整, 有必要对该领域进行规范的实证研究, 而数据挖掘技术作为从海量的不同结构的数据中挖掘出可能有潜在价值的信息的定量分析方法非常适合用于超市商品陈列的研究, 本文先简单介绍下商品陈列和数据挖掘技术, 并介绍目前研究进展。

关键词:商品陈列,数据挖掘

数据挖掘技术概述 篇2

1、根据公司自主产品需求,研究设计相应数据挖掘方案及算法,分析数据,设计方案,构建原型,快速实现对于数据分析、挖掘的需求;

2、深入分析汽车后服务应用数据,特别是时间序列内的连续数据,应用统计学、机器学习、数据挖掘等技术建立模型,形成诊修技术分析报告或数据产品,并跟踪产品运营落地;

3、负责诊修行为、诊断过程、结果等数据与知识智推模型中的具体开发和应用。

任职要求:

1、本科以上学历,数学、统计等相关专业背景,硕士或以上学历优先;

2、4年以上相关工作经验,精通SQL,熟练使用Hadoop/MongoDB/Spark进行数据处理加工;熟练掌握Python,Shell任一种脚本

3、有统计建模、机器学习(聚类、分类、回归、贝叶期分类、神经网络等)或数据挖掘应用的项目或研究经验,能够熟练运用python、R、spark任意一种进行建模;

4、具有大型电商类、网约车类、汽车后服务类等数据挖掘经验者优先。

产品评论挖掘技术现状概述 篇3

产品特征就是研究人员在产品评论语句中获取的, 可以体现出消费者比较关心被评论产品的一些功能、性能、特点等, 例如:“这本书内容枯燥, 价格实惠。”其中, 内容和价格是用户关心比较的特征, 通过对这些特征的挖掘, 可以使消费者更为了解产品, 从而做出合理的决定。在产品特征提取的研究中, 主要有人工构建和自动抽取两个方面。在人工构建方面, Kobayashi、Inui和Matsumoto就汽车领域的产品特征, 通过人工构建的方式一共获取了287个产品特征, 每一个特征使用一个三元组进行表示。人工构建的方法虽然可以较好的提取评论中的产品特征, 但是每一个领域都需要该领域的专家参与提取, 对产品特征的分析也难免会有分歧, 并且把所有的表达模式都列出也非常有难度。因此人工构建的产品特征不具有移植性。

自动抽取产品特征主要是通过对评论语句进行分析, 使用分析句法、标注词性、以及文本模式等技术自动发现产品特征。Bing Liu和Mingqing Hu首次在产品特征提取中应用关联规则。Popescu、Yates等人通过人工定义的文本模式抽取产品特征, 这个方法在已有的产品评论语料库的基础上取得了良好的效果。李实等在基于关联规则的英文产品特征挖掘方法的基础上, 提出了中文的名词短语提取模式、邻近规则以及独立支持度概念, 适用于中文评论挖掘, 并将挖掘到的候选特征进行了语序的调整, 使得基于Apriori算法的中文产品特征挖掘算法取得了更好的效果。李培在抽取高频特征词和低频特征词时使用不同的策略, 利用特定窗口抽取高频特征候选词, 采用模式、支持度和修饰语等方法进行修剪, 取得了良好的效果。

2 观点词挖掘及极性判断的研究现状

观点词 (opinion word) 是指句子中带有感情倾向 (semantic orientation) 的词语, 目前观点挖掘中的主观性关系抽取研究主要集中在英语领域。一般在产品特征词出现的语句中都会有观点词的出现, Liu主要抽取和产品特征词相邻近的形容词作为观点词, Kim和Hovy将根据产品特征定义的窗口中出现的形容词为观点词。目前成对的提取产品特征词和其对应的观点词的研究越来越被人们关注。黄永文采用半监督学习方法, 以人工定义的一些特征观点对作为种子集, 结合评论语句中的语法依存关系等组成的模式特征集对评论库进行挖掘, 为了改善其性能, 提出基于MHM原则对观点序列优化的方法, 并取得了较好的效果。

观点词极性的判断是分析出评论中所体现出来的情感倾向, 一般情况下分为褒义、中性和贬义三种情况。观点词极性的判断最主要的工作是如何建立情感极性词典。目前主要的方法有两类, 一类是基于已有词典的方法, 一类是基于人工标注语料的方法。在Word Net中将形容词分为褒义词和贬义词, 将两个相反意思的形容词连接起来, 然后分别将与这两个形容词意思相近的词链接, 形成一个具有相反意义的, 以两极的形式呈现的形容词集合。Sista等利用GILexicon中的褒义词和贬义词作为种子集, 利用Word Net中褒贬义词的联系进行扩展, 对基于机器学习的文本自动分类问题进行了研究。Kampsdeng等在两个同义形容词之间利用Word Net建立联系, 利用公式计算计算其极性;Godbole等提前给出一个褒贬义词种子集, 利用Word Net的分析计算词的极性。目前, 中文词语的极性分析基本上是利用How Net的语义相似度来判断的, 最早是由刘群等提出, 利用How Net词汇语义相似度计算词汇极性。朱嫣岚在此基础上针对算法的不足做了一定改进, 提出语义相似度不能代替极性相似度, 准确率得到了很大的提高。

3 产品评论挖掘在电子商务中研究及应用的现状

评论挖掘技术在英文处理方面起步比较早, 自从文本挖掘这个概念被提出, 英文的文本挖掘技术在国外便迅速发展起来, 逐渐形成了一套相对成熟的技术体系, 并且在多个领域的研究都取得一定的成果。目前在国外评论挖掘技术在电子商务方面的研究越来越引起人们的重视, 在电子商务应用方面也有一些成功案例。例如, 美国Auto Trader.com, 一个汽车销售站点, 通过SAS软件对数据进行挖掘进一步分析出用户的访问模式以及对产品的喜欢程度, 取得了一定的成功。

而针对中文的文本挖掘技术, 中文评论需要首先进行分词处理, 发表网评的用户因为文化背景的不同, 会导致评论风格不同, 更重要的一点是中文语法复杂, 词性标注也是一个难点, 所以英文评论挖掘的研究成果不能直接用于中文的评论挖掘。最近几年, 随着数据挖掘技术的飞速发展, 国内评论挖掘技术也取得了较快的发展, 评论挖掘技术在电子商务中的应用也取得了一些成绩, 比如:李实等人建立了汽车领域的词汇知识库, 并利用优化后的Hownet语义相关度算法对复合短语进行提取标注, 扩展了该领域的知识库, 最终完成了汽车产品特征及评论提取系统的设计。付琼芳通过朴素贝叶斯对文本进行分类, 利用TF*IDF对特征词加权, 最终实现了手机评论挖掘系统;翟娜对面向图书的评论观点进行了分析研究, 将改进的CHI值思想应用到构建极性词典中, 然后根据满足一定特点的同类极性词添加到词典中, 实现了动态添加词典, 并对转折复句的极性公式做了改进;李纲等建立的汽车评论挖掘系统, 为用户选择适合自己的汽车提供了信息支持等等。随着互联网和电子商务的迅速发展, 评论挖掘技术在电子商务中的应用将会有着更广阔的前景。

摘要:目前产品评论挖掘问题主要分为以下四个任务:网络评论中产品特征词的挖掘;网络评论中用户观点词的挖掘;对评论观点词的极性判断和强度判断;对挖掘结果进行排名。目前国内外对评论挖掘的研究主要集中在前三个任务。

关键词:产品评论,挖掘技术,现状

参考文献

[1]伍星, 何中市, 黄永文.产品评论挖掘研究综述[J].计算机工程与应用.2008, 36.34-41.

[2]姚天昉, 聂青阳, 李建超等.一个用于汉语汽车评论的意见挖掘系统[C].中国中文信息学会成立二十五周年学术年会论文集.清华大学出版社.2006.

[3]姚天昉, 程希文, 徐飞玉, 等.文本意见挖掘综述[J].中文信息学报.2008, 3:71-80.

[4]娄德成, 姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用.2006.11:2622-2625.

数据挖掘工程师的岗位职责概述 篇4

1、负责建立和优化用以分析所采集时序数据中内在属性与联系的相应模型算法,

2、负责图像识别领域中相关物体检测算法、超分辨率重建等算法的构建及优化,提供一整套智慧实验室的解决方案包括但不局限,设备状态分析,设备利用率的分析、设备运行过程的分析,设备与人员方面的图像识别、语音识别等。

任职要求:

1、计算机,数学相关专业,本科以上学历;

2、有良好的阅读文献能力、扎实的数学以及编程功底,掌握python、java、c++、c中的一种或多种编程语言,掌握mysql等主流数据库技术。

3、熟悉基本机器学习算法及其原理,如SVM、聚类、逻辑回归等。

4、熟悉tensorflow、keras等主流深度学习框架,熟悉CNN、LSTM等主流的神经网络模型。

数据挖掘技术概述 篇5

在如今或不久的将来, 企业将完全淹没在浩瀚的海量数据中。PB字节的数据[1]以难以想象的速度通过不同的设备被收集起来, 无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据, 数以亿计的用户通过互联网服务时刻在产生巨量的交互。哈佛商业评论把人们使用和互动的社会网络导致大量实时和档案资料的现象称之为“数据革命”。

在信息技术领域, Big Data[2]。包含那些由于迅速增长使得无法通过现有的数据库管理工具进行管理的大规模数据集。分析师可以通过对这些数据的分析来预测商业趋势, 预防疾病, 打击犯罪等[3], 社会学家和研究人员用于预测失业、流感爆发、旅游消费和政治观点等, 相比通过政府或民意调查报告, 该方式快速、准确和廉价的特点使得对Big Data处理的需求不断增长。

从企业的角度来说, 日益增长的信息已经很难存储在标准关系型数据库甚至数据仓库中, 包括导致在实践中存在多年的难题。例如:怎样查询一个十亿行的表?怎样跨越数据中心所有服务器上的所有日志来运行一个查询?更为复杂的问题是, 大量需要处理的数据是非结构化或者半结构化的。

在Big Data场景下, 要处理的数据量增长速度快、容量大, 而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求, 传统的常规技术手段根本难以应付。Gartner预测, 到2015年, 超过85%的财富前500大企业, 无法善用Big Data分析后的数据以增加企业的竞争优势。带来的问题覆盖了从获取、存储[4]、搜索到共享、分析[5]以及可视化整个生命周期。Big Data所涉及的技术领域包括大规模并行处理 (MPP) 数据库, 数据挖掘网格, 分布式文件系统, 分布式数据库, 云计算平台, 互联网以及可伸缩的存储系统等, 吸引了学术界的研究兴趣, 工业界也在不断的在产品中突破创新, 应对Big Data带来的挑战。

本文通过对过去和当前面向Big Data的数据分析方面的研究进行了回顾, 概括为分布式处理技术和基于GPU的大规模处理技术两方面, 前者是在传统的基于CPU的计算机体系架构上, 通过缓存、分布式处理技术等提升应对大规模数据处理的鲁棒性、伸缩性, 提高数据分析算法的效率;后者则采用GPU并通过数据分析算法进行调整和优化, 探索最优化的方法来提高数据运算和处理效率。

2、分布式处理技术

2.1 以Greenplum为代表的分布式数据库

Greenplum[6]数据引擎软件专为新一代数据仓库所需的大规模数据和复杂查询功能所设计, 基于MPP (海量并行处理) 和SharedNothing (完全无共享) 架构, 基于开源软件和x86商用硬件设计 (性价比更高) 。支付宝公司在国内最早使用Greenplum数据库, 将数据仓库从原来的Oracle RAC平台迁移到Greenplum集群。Greenplum强大的计算能力用来支持支付宝日益发展的业务需求。

2.2 以GFS为代表的分布式文件系统

Google GFS[7]是分布式文件系统的典型代表。基于大量安装有Linux操作系统的普通PC构成的集群系统, 整个集群系统由一台Master (通常有几台备份) 和若干台Trunk Server构成。GFS中文件备份成固定大小的Trunk分别存储在不同的Trunk Server上, 每个Trunk维护多份拷贝, 也存储在不同的Trunk Server上。Master负责维护GFS中的Metadata, 客户端先从Master上得到文件的Metadata, 根据要读取的数据在文件中的位置与相应的Trunk Server通信, 获取文件数据。

在Google的论文发表后, 诞生了Hadoop[8]。截至今日, Hadoop被很多中国最大互联网公司所追捧, 百度的搜索日志分析, 腾讯、淘宝和支付宝的数据仓库都可以看到Hadoop的身影。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点, 同时能支持海量数据存储和计算任务。

2.3 Memcached等分布式缓存技术

Memcached[9]是danga.com开发的一套分布式内存对象缓存系统, 用于在动态系统中减少数据库负载, 提升性能。Memcached是分布式的, 也就是说它不是本地的。它基于网络连接方式完成服务, 本身它是一个独立于应用的程序或守护进程 (Daemon方式) 。

Memcached在很多时候都是作为数据库前端cache使用的。因为它比数据库少了很多SQL解析、磁盘操作等开销, 而且它是使用内存来管理数据的, 所以它可以提供比直接读取数据库更好的性能, 在大型系统中, 访问同样的数据是很频繁的, Memcached可以大大降低数据库压力, 使系统执行效率提升。另外, Memcached也经常作为服务器之间数据共享的存储媒介, 例如在SSO系统中保存系统单点登陆状态的数据就可以保存在Memcached中, 被多个应用共享。

2.4 No SQL

随着数据量增长, 越来越多的人关注No SQL, 特别是2010年下半年, Facebook选择HBase来做实时消息存储系统, 替换原来开发的Cassandra系统。这使得很多人开始关注HBase。Facebook选择HBase是基于短期小批量临时数据和长期增长的很少被访问到的数据这两个需求来考虑的。

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统, 利用HBase技术可在廉价PC Server上搭建大规模结构化存储集群。HBase是Big Table的开源实现, 使用HDFS作为其文件存储系统。Google运行Map Reduce来处理Big Table中的海量数据, HBase同样利用Map Reduce来处理HBase中的海量数据;Big Table利用Chubby作为协同服务, HBase则利用Zookeeper作为对应。

3、基于GPU的大规模数据处理技术

GPU (Graphics Prossessing Unit) 在提升数据挖掘算法效率上的显著表现正在改变大规模数据挖掘的格局。例如, GPU加速版本的K均值聚类算法相比于流行的Mime Bench程序, 在单核的CPU上运行, 前者比后者要快200至400倍;在一个高度优化的8核CPU的工作站上, 前者比后者快6至12倍。

GPU加速的性能结果也支持大规模数据集。在一个10亿的二维数据点、1000个聚类的2009年的数据集上的实验[10]结果显示, GPU加速版本的K均值算法共花费26分钟 (使用GTX 280 GPU, 共240核心) , 而CPU版本的Mime Bench程序则花费接近6天的时间 (使用单核CPU的工作站) 随后在最新的Fermi GPUs (480 cores and 1 TFLOPS) 平台上的测试页证实了加速的效果。

过去两年, 发表了大量相关的研究成果, 均证实了使用GPU带来的对数据处理性能的提升。下面列出了其他7个经证实的经GPU提升的数据挖掘算法:

隐马尔科夫模型 (HMM, Hidden Markov Models) 被用于许多数据挖掘应用, 包括金融经济学, 计算生物学, 解决金融方面的时间序列建模的挑战 (非平稳和非线性) , 网络入侵日志分析等。针对GPU设计的并行HMM算法[11], GPU版本的性能高出单核CPU的工作达到800倍。

排序是许多数据挖掘算法的重要组成部分。Duane Merrill and Andrew Grinshaw (弗吉尼亚大学) 宣布了基数排序算法的快速实现, 在GTX480 (NVidia Fermi GPU) 的平均排序速度超过1G keys/秒。

基于密度的聚类 (Density-based Clustering) 是聚类中的重要方法, 能够较好的处理任意形状的簇的噪声和离群点。实验显示, GPU加速版本在30K规模的数据点上性能提升3.5倍, 20亿数据集上提15倍, 超过250K的数据点基本可以保证至少10的运算性能提升。

相似性连接 (Similarity Join) 相似连接 (similarity join) 在数据清洗、生物信息、模式识别等应用领域中有着广泛应用。研究人员采用了一种称为Index-supported similarity join的特殊算法使用GPU在180M的数据集上的性能超出CPU版本的15.9倍。

贝叶斯混合模型 (Bayesian Mixture Models) 在尤其是结构化多元混合的大数据集的分析中应用广泛。最近的研究表明在老的GPU (Ge Force GTX285 with 240 cores) 较一个4核心CPU版本取得了120倍加速。

支持向量机 (Support Vector Machines, SVM) 被用于分类和聚类分析方面拥有许多用户。训练SVM以及用于分类一直属于计算密集。较之CPU版本, GPU版本的SVM算法在计算分类模型上发现在性能上提升43至104倍, 在计算回归模型上提升112至212倍。

核函数机 (Kernel Machines) 算法基于核方法, 在数据挖掘、现代机器学习和非参数统计方向扮演中重要的角色。这些算法的关键在于核函数矩阵的一系列线性操作, 并作为训练和测试数据的参数。最近的研究包括把核函数机转化为在GPU上的并行核算法。在10000个采样点上的估计1000个点的密度;CPU版本花费16秒, GPU版本花费13毫秒, 超过1230倍的提升;在8个维度的高斯过程回归进行预测的试验中, GPU版本花费2秒而CPU版花费数个小时来完成同样的预测。

4、结语

本文前面部分对面向Big Data的数据分析处理进行了回顾, 对当前的相关研究进行了归纳。基于分布式处理技术和采用GPU确实能一定程度上提升数据的处理效率。但各种方法产生的结果均是在对应的数据集上进行的, 一是某种方法的思想是否适用于其他领域、其他数据集, 仍需要通过新的实验来验证;二是这些方法是否存在共性的部分或者这些方法是否能够通过融合取得更理想的结果;三是对基于GPU的方法都是在单个GPU上获取的, 是否能够通过GPU集群能够获得更好的性能, 即如何集成分布式处理和GPU硬件的优势, 都是需要通过进一步的研究来获取答案。

另外, 组成Big Data的内容大多包含了用户的信息, 例如在线交易、交流, 地理位置等等, 而用户无法控制这些数据被谁使用, 用于什么目的。数据分析与隐私保护问题需要较好的处理。

摘要:无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据, 数以亿计用户的互联网服务时时刻刻在产生巨量的交互。Big Data作为一个专有名词成为热点, 归功于近年来互联网、云计算、移动和物联网的迅猛发展。针对现阶段业务需求和竞争压力对Big Data处理的实时性、有效性的高要求, 本文在介绍面向Big Data处理方面的主要问题和难点的基础上, 将现有的各种方法概括为两类并分别进行了阐述和分析, 最后指出了该领域可能的发展方向。

关键词:Big Data,数据处理

参考文献

[1]Petabytes of data.2011.

[2]White, T., Hadoop:The Definitive Guide.2009, O'Reilly Media.

[3]Cukier, K., Data, data everywhere.2010.

[4]Kusnetzky, D., What is"Big Data?", ZDNet.

[5]Vance, A., Start-Up Goes After Big Data With Hadoop Helper.2010.

[6]Corporation, E., Greenplum is driving the future of Big Dataanalytics.

[7]Ghemawat, S., et al., The Google file system.SIGOPS Oper.Syst.Rev 2003.37:p.29--43.

[8]Foundation, T.A.S., ApacheTM HadoopTM.2011.

[9]Dormando, memcached-a distributed memory object cachingsystem.2009.

[10]Wu, R., B.Zhang and M.Hsu.Clustering billions of datapoints using GPUs.in UCHPC-MAW'09.2009.New York, NY, USA:ACM.

数据挖掘技术概述 篇6

1 证候判别研究的方法学概况

如何将中医的辨证论治思想进行客观的表述,科学的表达,近几十年来中医人不断运用现代科学方法、手段在探索。辨证论治的核心是证候的规范化、客观化,自五十年代以来,我国卫生管理部门、中医药界首先在证型的标准化、规范化方面作出了大量的努力,并取得了很大的进展。对常见证型,尤其是肾虚证、脾虚证、血瘀证进行了广泛的探讨。先后制订了一系列的中医证候诊断标准,如《中医病证诊断疗效标准(中华人民共和国中医药行业标准)》(1994),《中医病证分类代码》(1995),《中医临床诊断标准》等等。其研究方法或为专家集体讨论制定,或运用计量医学半定量化方法制定,或运用临床流行病学方法建立。其赋分方法主要有专家问卷、多因素回归分析、最大似然判别法、条件概率转化法、模糊数学法等,其统计方法主要包括logistic回归、因子分析或主成分分析、典型相关分析、结构方程模型、隐结构模型等[14]。

如梁茂新等按症状显著或持续出现,症状时轻、时重或间断出现,症轻或偶尔出现分为重、中、轻3个等级,分别打3、2、1分,制定了虚证的症状量级赋分法,将30个虚证的症状按上述方法打分,如自汗分为不劳汗多(3分),不劳皮肤潮湿或小劳汗多(2分),小劳即汗1分[1]。

也有学者根据症状对于证候判断的权重不同进行积分,以得出证候计量诊断标准。如孟家眉引用了国际量表设计的原则,遵循中医学理论,并吸收部分专家的经验,将中风病分为风证、火热证、痰证等6大类,选择有特征性的症、舌、脉作为辨证项目,并予一定的分值,制定了辨证量表,经100例的预试验初步证明这个方法是可行的[2]。

全国中医脑病急症协作组上述基础上,多次组织专家论证修改,并经3000例次的病例统计分析,产生了第二代《中风病证候诊断标准》,成为第一个中医证候计量诊断标准。经1085例次中风患者临床验证,其辨证结果与经验辨证的符合率为87.29[3]。

而临床流行病学方法则是建立在群体调查基础上,通过对患病人群中症状、体征或有关指标的频数分布及相应的统计分析,最终得出证型的诊断方程。如赖氏等应用临床流行病学的方法,对203例内科疾病患者(血瘀证96例、非血瘀证107例)的148项症状和体征进行了调查,并应用多元分析等数理统计方法,对调查资料进行分析,探讨了血瘀证宏观辨证的计量方法,在数理统计及量化的基础上,以主要条件、次要条件的形式,拟定了血瘀证的宏观诊断标准[4]。

申春悌等亦遵循DME的原则,对肾虚证进行了回顾性研究,根据临床资料,并经统计学处理,确立了肾阳虚等的辨证指标[5]。赵玉秋等对9个肝证证型进行了临床辨证标准的系统研究,采用流行病学方法共调查5606例,涉及126个病种,在证候规范化研究方面做了有益的尝试[6]。王奇等还系统总结了中医证候量化的临床流行病学研究方法[7]。

刘士敬等对中医各科129种疾病的脾气虚证的诊断因素作了逐步回归分析,对868例临床各科患者与脾气虚证相关因素进行多元回归的电子计算机处理,得到了一个能代表各系统的、反映各系统脾气虚证共性特点回归方程[8]。

邱向红运用计数资料的最大似然判别法建立了"脾虚证诊断计分表",通过以整群抽样取得的549例各科各系统病人的四诊资料对其以往建立的"脾虚证诊断计分表"的诊断效果做了前瞻性的研究,诊断效果满意[9]。

汪东生进行了眼科血瘀证诊断标准研究,采用"特尔菲法"归纳眼科血瘀证的相关指标,并以此制定调查表,大量收集临床病例后对临床资料进行多元线性逐步回归分析,根据回归结果,首次提出了眼科血瘀证的定量诊断标准[10]。

陈家旭等根据模糊数学的原理,认为"证"的实质是一个模糊概念,可以使用模糊数学中的"隶属度"来刻划,进行量化分析,确定"证"的模糊集合中某些症状隶属于某证的程度,从而建立起"证"的数学模型[14,40]。

邱向红在脾虚证计量诊断中,参照数学的原理提出了条件概率转化的方法,首先计算证候各相关因素的条件概率,再将条件概率转化为诊断指数,按照诊断指数的大小对相关因素赋分[14,41]。

刘凤斌等运用现代多元统计Logistic逐步回归分析方法,按照诊断树的步骤计算出诊断树各枝杈和尾端各证型的诊断指数和Logistic回归方程。按诊断树各枝杈证型出现的概率连乘求出尾端证型(总的辨证分型)的概率。结论认为Logistic逐步回归分析方法充分考虑了每一个变量和诊断树每一个枝杈对证的贡献度,符合专家临床逻辑思维过程和接近临床实际[14,42]。

聂莉芳的采用临床流行病学的研究方法,对Ig A肾病的中医证候分布进行新的探索,病例问卷采用横断面调查,共收集合格病例308份,用因子分析的统计方法进行分析。结论认为用临床流行病学的方法对中医证候的探索性研究具有一定意义[14,43]。

查青林等研究认为,中医证候信息普遍存在多重共线性关系、变量值的分布多数为非正态分布和变量之间存在非线性关系的特点,提出了一种典型相关分析法,运用典型相关分析可以将证候变量看作一组变量,相应的客观指标也看作一组变量,不必根据患者的证候信息先进行证型判断,消除了证型判断的主观性对结果的影响[14,44]。

陈启光等研究了结构方程模型在中医证候规范标准研究中的应用,以西医的病为依托,以传统辨证结果为依据,对脑梗塞病等八个病种的现场调查资料采用结构方程模型方法研究,结果表明在区分各病种的证候、寻求各证候相应的主要指标,以及病和证候结合研究临床辨证等方面都得到较满意的结果[14,45]。

张连文等提出了一种中医辨证客观定量标准的研究方法--隐结构法,认为"腰膝酸痛"、"舌红少苔"、"脉细数"等症状可以通过望闻问切四诊直接观察到,是显变量,而"肾阴虚"的证候迄今没有办法直接观察到,是隐变量。除了证候以外,"肾阴虚失养"等的病机特点也是隐变量。隐变量与隐变量之间,以及隐变量与显变量之间的关系构成了一个隐结构。作者应用隐结构法在中医肾虚模型中得到了很好的验证[14,46],等等。

然而正如赖氏所言,目前采用的临床流行病学/DME方法,仍存在方法学上的不尽成熟,其所调查的样本数量也非常有限,少则数百,最多亦不过数千例,建立在有限样本上的研究结果其科学性和实用性是值得推敲的[4]。这也是研究成果临床应用不多的根结所在。事实表明,虽然上述研究取得了一定的成果,开展了有益探索,但仍存在问题,终未能够获得普遍认可与应用,其原因在于仍未摆脱获取统计量时的经验性和主观性,研究之初便留下欠客观的缺陷,而对证的信息量化处理时所用的数学模型均是依靠经验预先选定的,不是基于中医证候内在规律建立的专门的数学模型,不可避免存在一定的局限性[11]。

龚氏等研究认为,中医证候诊断系统是一个非线性的、多维多阶的可以无限组合的复杂巨系统,其变量大部分属于非量化的数据,和常见的观测数据有着本质的区别,有人称它为离散数据、分类数据、或者定性数据、属性数据。这就决定了兼顾其非量化数据特点的同时,不可能用线性的、单一化的统计方法进行研究,线性的方法是无法真正来进行证候的规范研究的[12,13,14]。就证候赋分方法而言,因为线性关系或非线性关系体现的是多维欧氏空间散点的一种分布状态,如果多维欧氏空间散点不是线性状态,而是非线性状态时,我们不应该用超平面去拟合它,对原本就不存在的线性关系的数据,用线性的方法就没有意义了[14]。就统计方法而言,上述统计方法是将复杂问题进行了线性简化,本有利于复杂问题的简单描述,但很可能与实际问题脱节,因为线性简化容易不加区别地看待每个变量对结局的影响。中医学所研究的症状与证候之间、证候与证候之间、证候与理化指标之间存在大量的多重共线性和协同关系,如果相关程度非常高,使用最小二乘法建立回归方程就可能失效,引起一些不良后果,如回归方程不稳定等[14,39]。

2 数据挖掘在证候辨证系统研究的应用

数据挖掘,又可称为数据库中的知识发现(knowledge discovery in database,KDD)是近年来兴起的将人工智能技术、数据库技术和统计分析技术结合在一起的计算机信息处理技术,可以从大量的、不完全的、有噪声的、模糊的、随机数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。由于DM可以处理具有模糊性和非线性的大量数据,已被广泛应用于许多领域,并获得良好的社会和经济效益[19]。数据挖掘采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等,需根据不同的知识发现目标,选取相应的算法参数,得到可能形成知识的模式模型。

正是由于DM具有可以处理具有模糊性和非线性数据等优势特点,其在中医证候诊断的研究中日益受得重视与利用[20]。如王相东等[21]将粗糙集理论应用到中医证候诊断中,以患者一般情况、症状、体征、物理检查、实验室检查结果为主要依据建立信息表,继而利用差别矩阵法进行属性简约和病例简约,得到下近似集和上近似集,从而抽取中医的确定规则和可能规则。秦中广等[22]人亦运用粗糙集理论,在专家经验的基础上,建立了中医类风湿证候诊断模型。瞿海斌等[23]利用决策树从血瘀证中自动抽取相应的诊断规则,得到决策树分类模型,并归纳出五条血瘀证的诊断规则。王学伟等[24]应用贝叶斯网络方法通过分析血瘀证临床数据进行血瘀证定量诊断,发现了血瘀证的七个关键症状,并定量计算了其诊断贡献度。杨洪军等[25]利用信息熵方法对中风病的四诊、证候等关系进行研究,取得了一定的成果。

3 人工神经网络技术在证候辨证系统研究的应用

在数据挖掘算法中,人工神经网络是近年来颇受关注的一种算法,它为解决复杂的问题提供了一种相对有效且简单的方法。人工神经网络方法模拟人脑神经元结构,是通过训练来学习的非线性预测模型,可以完成分类、聚类、关联规则挖掘等多种数据挖掘任务。

由于人工神经网络具有很强的自组织性、鲁棒性和容错性,已成为人工智能领域的前沿技术,在包括医学领域在内的众多领域得到广泛应用[26]。如[27]李建生等提出了用于中医证候诊断的径向基神经网络(RBF),利用聚类分析确定RBF神经网络隐层的参数,运用最小二乘法确定RBF神经网络输出层的参数,为中医证候诊断标准的研究提供了可行性方法[28]。周志坚等构造了一个神经网络分级系统,用于类风湿性关节炎寒热错杂证的病情分级诊断,初步探讨了神经网络用于中医诊断中的可行性[29]。边沁等的研究表明,神经网络用于证候的规范化研究具有方法上的可行性[30]。王炳和研究建立了一个8-5-7三层结构的脉象人工神经网络模型,经280例脉象的识别检验,结果表明,对7种脉象的识别准确率平均为87%[31]。

模糊神经网络系统则是利用神经网络进行模糊系统构造,采用神经网络的学习方法,根据输入输出样本来自动设计和调整模糊系统的设计参数,实现模糊系统的自学习和自适应功能。模糊神经网络集中了模糊控制技术和人工神经网络的双重优点,扩大了系统处理信息的范围,是当今智能控制领域的研究热点,更适合于中医证候的研究。如白云静等采用了基于模糊神经网络的糖尿病肾病中医证候规范研究,就是利用模糊多层感知器网络,构建糖尿病肾病中医证候的模糊神经网络模型,研究者认为这种集模糊系统和神经网络于一身的模糊神经网络技术能更有效地表达和处理中医领域非确定性、模糊性经验知识[32]。王燕研究认为人体系统是一个时变非线性的复杂系统,脉象是人体系统的输出信号。作者通过采用模糊神网络技术进行了脉象信号的分类识别优化和脉诊专家数据库的设计,建立了系统全面的脉象客观化理论研究方法[33]。

自组织竞争神经网络采用无监督的学习过程,它比有监督学习过程更接近生物神经系统,竞争网络的应用还实现在线学习的功能[34]。陈群教授领导课题组也通过基于竞争神经网络模糊推理的技术建立了瘀血舌象和血瘀证智能推理诊断模型,该模型的建立克服了传统中医舌象诊断依赖个人经验和不量化的缺点[35]。同时该方法也成功运用于亚健康状态[36,37]、中医舌诊[38]、的中医诊断推理过程。

4讨论

如上所述,正是由于中医证候诊断系统是非线性的、多维多阶性、复杂巨系统性,采用传统的线性方法进行症候的诊断研究,将很难真正地进行证候的规范化研究[4,13,14]、亦很难得到临床普遍认可与采纳。而数据挖掘具有可以处理具有模糊性和非线性数据等优势特点,模糊神经网络更有效地处理中医证候判断经验性、非确定性、和模糊性,自组织竞争神经网络更接近生物神经系统,上述技术的融合必将为中医证候的诊断提供可靠的方法学平台。

以处理具有模糊性和非线性的大量数据,已被广泛应用于许多领域,并获得良好的社会和经济效益[19]。数据挖掘采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等,需根据不同的知识发现目标,选取相应的算法参数,得到可能形成知识的模式模型。

正是由于DM具有可以处理具有模糊性和非线性数据等优势特点,其在中医证候诊断的研究中日益受得重视与利用[20]。如王相东等[21]将粗糙集理论应用到中医证候诊断中,以患者一般情况、症状、体征、物理检查、实验室检查结果为主要依据建立信息表,继而利用差别矩阵法进行属性简约和病例简约,得到下近似集和上近似集,从而抽取中医的确定规则和可能规则。秦中广等[22]人亦运用粗糙集理论,在专家经验的基础上,建立了中医类风湿证候诊断模型。瞿海斌等[23]利用决策树从血瘀证中自动抽取相应的诊断规则,得到决策树分类模型,并归纳出五条血瘀证的诊断规则。王学伟等[24]应用贝叶斯网络方法通过分析血瘀证临床数据进行血瘀证定量诊断,发现了血瘀证的七个关键症状,并定量计算了其诊断贡献度。杨洪军等[25]利用信息熵方法对中风病的四诊、证候等关系进行研究,取得了一定的成果。

在数据挖掘算法中,人工神经网络是近年来颇受关注的一种算法,它为解决复杂的问题提供了一种相对有效且简单的方法。人工神经网络方法模拟人脑神经元结构,是通过训练来学习的非线性预测模型,可以完成分类、聚类、关联规则挖掘等多种数据挖掘任务。

由于人工神经网络具有很强的自组织性、鲁棒性和容错性,已成为人工智能领域的前沿技术,在包括医学领域在内的众多领域得到广泛应用[26]。如[27]李建生等提出了用于中医证候诊断的径向基神经网络(RBF),利用聚类分析确定RBF神经网络隐层的参数,运用最小二乘法确定RBF神经网络输出层的参数,为中医证候诊断标准的研究提供了可行性方法[28]。周志坚等构造了一个神经网络分级系统,用于类风湿性关节炎寒热错杂证的病情分级诊断,初步探讨了神经网络用于中医诊断中的可行性[29]。边沁等的研究表明,神经网络用于证候的规范化研究具有方法上的可行性[30]。王炳和研究建立了一个8-5-7三层结构的脉象人工神经网络模型,经280例脉象的识别检验,结果表明,对7种脉象的识别准确率平均为87%[31]。

模糊神经网络系统则是利用神经网络进行模糊系统构造,采用神经网络的学习方法,根据输入输出样本来自动设计和调整模糊系统的设计参数,实现模糊系统的自学习和自适应功能。模糊神经网络集中了模糊控制技术和人工神经网络的双重优点,扩大了系统处理信息的范围,是当今智能控制领域的研究热点,更适合于中医证候的研究。如白云静等采用了基于模糊神经网络的糖尿病肾病中医证候规范研究,就是利用模糊多层感知器网络,构建糖尿病肾病中医证候的模糊神经网络模型,研究者认为这种集模糊系统和神经网络于一身的模糊神经网络技术能更有效地表达和处理中医领域非确定性、模糊性经验知识[32]。王燕研究认为人体系统是一个时变非线性的复杂系统,脉象是人体系统的输出信号。作者通过采用模糊神网络技术进行了脉象信号的分类识别优化和脉诊专家数据库的设计,建立了系统全面的脉象客观化理论研究方法[33]。

自组织竞争神经网络采用无监督的学习过程,它比有监督学习过程更接近生物神经系统,竞争网络的应用还实现在线学习的功能[34]。陈群教授领导课题组也通过基于竞争神经网络模糊推理的技术建立了瘀血舌象和血瘀证智能推理诊断模型,该模型的建立克服了传统中医舌象诊断依赖个人经验和不量化的缺点[35]。同时该方法也成功运用于亚健康状态[36,37]、中医舌诊[38]、的中医诊断推理过程。

摘要:本文回顾分析了中医证候诊断研究的方法学概况,包括各种统计学方法、症状的计分方法等,并就数据挖掘技术、人工神经网络技术、模糊神经网络技术在中医证候研究中的应用进行了系统文献整理,对上述技术在中医证候诊断研究中的应用进行分析。

数据挖掘技术概述 篇7

(一) 心理资本的内涵

心理资本概念由Goldsmith等 (1997) 首次提出。截至目前理论界关于心理资本的定义包括特质论、状态论和综合论三种。表1是对代表性观点的总结。

综上, 现有的研究认识到心理资本是人格特质, 是一种特定的积极心理状态, 是一种同时具有特质性和状态性的心理素质, 具体包括自信、希望、乐观、坚韧、积极能力、快乐 (幸福) 和情绪智力 (情商) 等结构维度。但是关于心理资本和人力资本的相关性, 以及能否像其他物质资本和无形资本一样可计量却没有得到充分论证。

(二) 管理会计发展

现有的研究总结了以往各阶段企业管理特征和管理会计方法 (如表2) 。但是资本形态的丰富———尤其是心理资本的出现扩大了会计活动范畴, 资本数据信息的复杂多样性对传统管理会计计量方法提出了变革的要求。2010年维克托·迈尔·舍恩伯格在《经济学人》上发表论文开启了大数据商业应用时代的大门。大数据带来了思维变革、商业变革和管理变革, 其所倡导的一切皆可量化理念和云计算为会计计量带来革命性进展。

二、心理资本管理会计研究意义

(一) 促进企业开展心理资本投资

当今社会竞争激烈, 企业成员背负巨大的工作压力, 造成了沉重的心理负担, 成员过劳猝死、自杀等恶性事件时有发生。一些企业陆续开展心理健康保健活动, 通过定期接受心理专家咨询、心理健康保健和极限拓展训练等舒缓身心的休闲娱乐活动, 加强企业成员心理资本水平。以往这些花费企业都记入了费用, 忽略了其对企业资本的正向建设作用。建立心理资本管理会计, 计量开发活动的成本收益信息, 做好企业预决策工作, 可以积极促进企业开展心理资本投资开发活动。

(二) 丰富管理会计体系

不同时期的管理会计均有创新和发展, 这是社会环境变化的产物。从早期注重成本管理, 发展到作业成本法, 加强全面质量管理, 到为企业价值增值服务, 培植企业核心竞争力, 到现在的心理资本管理会计均是管理会计顺应环境变化的产物。当前社会注重和谐发展, 企业管理倡导以人为本, 心理资本管理会计是在符合背景需求条件下对管理会计体系的丰富和发展。

(三) 企业与社会整体和谐发展的需要

心理资本管理会计是建立在关注企业成员心理健康的基础上, 是以马斯洛人文主义心理学为理论基础的。建立心理资本管理会计, 可以为统计和评价企业甚至社会心理资本投资开发活动效果提供数据支持, 为企业和社会提供心理资本相关信息数据, 进行社会评价, 从而达到企业和社会整体和谐发展。

三、心理资本管理会计研究的主要内容

(一) 心理资本特征对会计计量的影响

(1) 心理资本具有内在特质性, 隐藏性高。心理资本既然是人力资本的一部分, 就是一种客观存在, 而且它是以一种个体的内在的心理特质。人力资本内部表现为影响人的思考方式和思维过程、主观幸福感和情绪智力, 外部表现为通过行为过程影响成员的企业行为决策。企业拥有众多的员工, 这些员工都具有不等的心理特质水平, 而且都不是通过表面就能够测量出来的, 具有高度隐藏的特点。这是我们寻找会计计量方法需要抓住的第一个特征。 (2) 心理资本是一种潜在状态, 与环境相适宜。状态会随时间和地点发生变化, 也就意味着当外部时点和环境发生变化的情况下, 企业和成员的心理资本值会发生显著变化。心理资本不同于物质资本有外观形体, 可以测量长度、宽度、重量和体积, 它是隐藏在人力资本内部, 具备隐藏性, 为会计计量带来了难度。 (3) 心理资本是一个相时而动的有机系统, 瞬息万变。可以为员工个人和企业带来高效工作和快乐工作的正能量都归属于心理资本。在外界环境变化的情况下, 积极的心理状态是相时而动的。心理资本由多种因素构成, 各构成因素之间是互相影响的, 这些都决定了心理资本是个复杂的有机系统。

(二) 心理资本管理会计体系构建

(1) 定义心理资本管理会计的概念。心理资本管理会计是以企业心理资本价值为对象, 以专门的会计计量方法, 针对企业心理资本投资建设活动和消耗活动导致的心理资本价值流增减变化进行会计加工处理, 使之转化为企业内部管理需要的会计信息活动。 (2) 明确心理资本管理会计对象。心理资本管理会计的对象是心理资本价值流, 其承载的是企业心理资活动变化信息, 即企业心理资本价值的增减变化。包括企业开展的心理资本投入活动、心理资本的开发活动、心理资本的消耗活动、心理资本的结存状态及转化情况。 (3) 设定心理资本管理会计目标。心理资本管理会计为企业内部经营管理提供心理资本信息, 及时向各级管理人员提供与企业心理资本投资开发计划、心理资本投资开发效果评价和心理资本预决算等企业经营活动有关的各类信息。实际上, 现在的企业员工不仅注重工作报酬, 还非常重视生活幸福感。在此背景下, 企业经营目标也发生了显著变化:由过去的盲目追求经济扩张, 转变成既注重短期利益又注重长期发展, 既追逐经济价值又重视荣誉尊严, 力求最终达到健康、和谐与可持续发展。心理资本管理会计是为企业相关者全面了解企业资本信息, 人本管理, 为企业及成员最终达到健康和谐发展提供的全面体检报告。 (4) 明确心理资本管理会计职能。心理资本管理会计需要做好企业当前心理资本投资开发和长期心理资本发展战略的规划预测。建立经济考核指标体系, 落实经济责任制控制心理资本开发全过程。做好心理资本投资开发所需资金的筹集工作, 加强全过程的现金流量管理。建立严谨的心理资本投资开发内控体系, 加大奖惩力度。做好心理资本测评系统建设, 掌握心理资本流量和存量信息, 参与企业经济决策, 更好地服务于企业整体发展战略。 (5) 建立心理资本测评系统。大数据时代的决策行为基于数据和分析作出, 而非经验和直觉。运用大数据技术建立心理资本测评系统, 可以囊括企业心理资本众多信息数据, 便于随时掌握企业全体或者部分成员的心理资本信息。 (6) 设计心理资本管理会计报告。心理资本管理会计报告应包括企业高管人员心理资本信息和企业成员群体心理资本信息。企业高管人员心理资本信息包括企业高管人员自我效能信息, 企业高管人员希望信息, 企业高管人员乐观信息和企业高管人员韧性信息。企业成员群体心理资本信息包括企业成员分类信息和各类成员自我效能、希望、乐观和韧性的数据信息。

四、基本思路和方法

(一) 研究思路

介绍大数据和云计算的思想及其对当今社会宏观环境、企业微观环境和成员心理资本的渗透, 构建心理资本管理会计体系, 包括心理资本管理会计概念、对象、目标和职能, 运用大数据技术和云计算理念设计心理资本测评系统, 生成心理资本动态信息, 最终产生心理资本管理会计报告。研究技术路线图如图1。

(二) 研究方法

(1) 规范研究。心理资本管理会计预测采用边际分析和因素分析的方法, 在心理资本管理会计决策与控制模型的构建中引入高等数学、运筹学、信息统计和数理统计学等数量统计方法。 (2) 实地研究。首先选择和确定具体的管理会计实地研究项目;然后选择研究现场, 收集研究项目需要的数据, 收集数据可以采用直接观察、实验和访谈调查等;针对选择的数据进行分析进而形成表达和解释。

五、研究的重点难点

(一) 心理资本构成要素的确定

分析企业成员心理资本状况, 确定企业成员心理资本构成要素是后续计量的关键。在实际操作过程中, 由于成员群体构成复杂, 分布范围广, 样本数据大, 这些状况都给明确心理资本构成要素带来很多困难。

(二) 心理资本状态量的测量

心理资本的特性与传统资本不同, 它具有隐藏性、动态性和难以捕捉的特点, 这都决定了心理资本的计量需要创新, 如何利用大数据技术和云计算为会计工作提供全新的计量思路是重点难点问题, 也是心理资本管理会计体系设计过程的核心。

(三) 心理资本动态测量系统的建立

大数据和云计算为的会计计量带来了新思路和新方法, 如何将其应用于建立心理资本动态测量系统, 使之能够处理数量众多、种类繁杂和千变万化的心理资本信息是又一重点难点问题。

六、主要观点及创新之处

(一) 心理资本是人力资本的内核, 决定人力资本高度和质量

心理资本的增加能够增加人力资本, 给企业带来效益优势。心理资本投资开发可以提升人力资本及其他物质资本的作用效率, 进而提高企业核心竞争力, 最终达到推动企业和谐持续发展的目的。

(二) 心理资本与管理会计相融合, 开创心理资本管理会计的新领域

以往的管理会计研究没有涉及到心理资本, 仅是反映物质资本、人力资本 (不含心理资本) 和智力资本在企业中的经济活动。心理资本管理会计在承认心理资本是人力资本内核的基础上, 首次将心理资本引入管理会计范畴, 扩展了管理会计的领域。

(三) 将大数据技术和云计算引入心理资本管理会计

大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合, 是基于云计算的数据处理与应用模式。将大数据和云计算引入心理资本动态测评系统, 通过数据的整合共享, 交叉复用, 转换成可视化心理资本信息, 最终生成心理资本管理会计报告。

参考文献

[1]Avolio B J, Bass B M, Jung D.Reexamining the Components of Transformational and Transaction Using Multi-factor Leadership Questionnaire.Journal of Occupational and Organizational Psychology, 2004, (72) .

[2]F O, Li W.The Psychological Capital of Chinese Workers:Exploring the Relationship WithPerformance.Management and Organization Review, 2005, (1) .

大规模数据库的数据挖掘系统概述 篇8

1.1 数据库的数据挖掘系统

数据库的挖掘在广义上是数据挖掘过程中从存储在数据库中的大量数据中挖掘出有用的信息。从这个角度看, 数据库挖掘系统包括以下几个部分。

(1) 数据库:数据库可以恢复信息, 它可以整理数据库中的数据;

(2) 数据仓库服务器:根据用户的数据挖掘需求, 提取相关数据的数据仓库服务器;

(3) 知识库:它是一种领域知识用来评估结果的有趣程度模式或指导研究。这种知识库的概念是有层次的, 包括了解用户的认可;

(4) 数据挖掘引擎:这是数据挖掘的重要组成部分, 它是由一组功能模块的组合, 用来进行描述, 分类, 转换和偏差分析等;

(5) 数据评价模块:它通常是由有趣度去衡量, 并且能够与数据挖掘模块进行交互, 使得搜索专注于有趣程度的模型;

(6) 图形用户界面:用户和数据挖掘系统在这个模块之间的通信, 这使得系统与用户进行交互, 并且为数据搜索, 提供信息, 帮助搜索聚焦, 和探索性数据挖掘。

1.2 数据挖掘系统的功能

1.2.1 清洗泛化

数据挖掘系统可以把现有的数据提高到一个更高的水平。利用GDBR广义积分算法, 通过空间和时间上的复杂性的相关性, 然后采用N-gram方法可以有效地搜索和准确的重复记录系统中的相似信息, 然后进行排序和测试。智能化操作, 如规范的插入, 删除, 交换和置换可以处理常见的拼写错误, 数据清洗。但也有一些偏差, 采用精度检测正常消除基本算法, 本系统提高了基本消除算法, 利用统计原理, 结合合理的直接和逆重复矩阵, 能够提高拼写错误的检测和正确的修改。

1.2.2 数据挖掘的功能

根据相关的关联规则和序列规则, 系统的分类以及数据聚集的数据挖掘方法, 实现了数据挖掘系统的预期的应用目标。通过搜索与集成的频繁项目集之间的数据实现Apriori算法。频繁项集产生关联规则的基本思想是:通过记录I的频繁项, 并记录下I所有非空子集内容。如果值的支持 (I) /支持 (a) 大于最小置信度, 规则=> (1-a) 将直接输出。如果I中的非空子集不符合条件, 相关规则将不输出。换句话说, 关联规则不是由a形成的, 但时间序列规则往往与系统中的项目集的时间相关联。该系统中的时间序列规则是由Aprion AII决定的。在广泛的意义上说, 关联规则包含强烈规则, 例外规则和随机规则。规则的少量数据服从的例外规则的代表。虽然数量少, 其有趣性高。它是未知的信息在这个阶段的和不可预知的信息规则。该系统中的最小可信度的关联规则设置了例外。因此, 系统可以形成分类关联规则 (CAR) 和分类关联规则 (ECAR) 和虚假的规则 (SCAR) 。

这些定义数据和分类数据, 代表可以形成的数据类别, 并根据分类标准中属于未知类别的数据来形成分类。在这个系统中, 应用区间分类器可以提高正确率和分类精度水平、降低过深树扩展的决策树分类器。

聚类算法结合高密度集群采用CURE算法进行标记的许多不同的簇代表点。所以能够形成一定的集群分布式架构。然后有效地识别特殊的形态, 使数据处理更高效和提高处理能力。利用数据挖掘之前, 系统会自动划分空间分布, 使信息对象形成了许多数据单元。然后, 根据本单位的特点, 计算机集群分布。另一个独特的聚类算法是基于密度的聚类算法。通过改进Dbscan算法, 数据部门可以实现由小部门集群, 实现和算法的加速速度通过选择代表扩大种子点的相邻对象, 和整个数据库集群实现样本数据的聚类。它使系统的聚类算法更有效。

2 基于大规模数据库的数据挖掘系统的构建方法

2.1 整体框架结构的设置

该系统集成了各种模块密切相关, 形成数据结构层次, 包括多个独特的输出操作功能, 具有多数据源、多参数的特点。因此, 每个挖掘操作模块之间的可以是相互独立的, 这可以产生更多的功能和更稳定的系统。作为一个集成系统, 有一个协调统一的模块进行模块之间的关联, 从而提高并实现数据的传递、标准化系统的操作和数据源的挖掘结果。

在数据挖掘系统的基础上考虑一个庞大的数据库, 本系统的数据挖掘的范围必须要扩大, 因此实现挖掘对象不应该仅存在于数据库中, 也应该在文件中。因此, 根据文件系统提供的信息处理方法。呈现更容易挖掘结果, 实现远程决策支持分析, 该系统还具有自动恢复的功能挖掘结果, 扩大应用范围。因为它是操作电脑的人, 该系统配备了良好的操作界面, 这能够很方便用户的操作和帮助决策者做决策分析并做出准确的决定。

2.2 模块设置

根据本系统的上述结构, 以下模块设置是实现数据挖掘系统的相关功能。

(1) 挖掘模块可以实现挖掘工作功能, 采集不同数据库中的数据。每个挖掘模块是独立的。数据库管理模块可以控制单个模块。存储模块的数据源, 通过挖掘读入相应的数据挖掘基础, 为其他模块提供的基础数据。

(2) 在预处理模块的主要功能是过滤, 定义和格式的数据源, 进一步提高整个系统的可操作性和实用性。主要的子模块进行数据映射操作, 映射的列映射和类型映射。数据映射到地图源表成为身份类型, 并形成相应的对照表。不同的数据映射并形成一个统一的模块。列映射到数据源中提取有用的柱, 有利于减少数据量, 加快了计算速度。类型映射是将不同的数据源的类型强制性转换成统一数据库中的数据类型, 有利于挖掘。

(3) 存储模块操作整个数据库中的数据。然而, 首先必须导入外部文件, 然后存储和控制。采用ODBC技术底层界面。利用内存索引和缓冲功能, 加快系统的计算能力。

整个系统的核心模块是挖掘管理模块。各种信息用户实现从数据库的挖掘应存放在挖掘基地。挖掘基地直接设置在系统数据库中, 便于传输和管理。挖掘库管理包括所有类型的数据挖掘过程, 数据准备和数据存储。数据挖掘操作在整个挖掘过程中依赖一个其他数据挖掘和生成的一个新挖掘的运行结果。此外, 新的结果可能是另一个挖掘过程中的数据源。

3 结论

本文探讨了基于大数据的数据挖掘系统的构建。首先, 介绍了数据挖掘技术, 包括数据挖掘的内容和实质, 数据库挖掘过程和挖掘系统的组成, 以及数据挖掘系统的功能。然后, 论述了构建数据挖掘系统的方法, 包括总体框架结构设置, 模块设置界面设置。越来越多的相关数据集成系统进行发布和得到认可, 企业应当根据自己的特点和需求构建数据挖掘系统, 来为他们自己提供更好的服务和完善的应用及经济效益。

摘要:随着信息技术的发展, 数据库技术已经从最初的文件处理演变成一个复杂而且强大的数据库系统。如何更快、更好的提取有用的信息是大数据领域的重要研究课题。本文探讨了大规模数据库的数据挖掘系统的构建。构建数据挖掘系统可以进一步探讨基于大数据的数据库的功能, 并且有利于决策者能够快速、准确地找到有用的资料。从而根据这些数据能做出最合理、有效的决策。

关键词:大数据,数据挖掘,决策

参考文献

[1]王元卓等, 网络大数据:现状与展望[J].计算机学报, 2013, 36 (06) .

[2]李国杰, 程学旗.大数据研究:未来科技及经济社会发展的重大战略领域--大数据的研究现状与科学思考[J].中国科学院院刊, 2012 (06) :647-657.

数据中心电气设计概述 篇9

关键词:配电可靠性,TIA/942,电子信息系统机房,设计规范节能

近几年来,随着电脑网络的发展及银行数据中心建设力度的加大,企业、学校、高新技术园区也在积极筹备各种目的与功能的数据中心。当看到越来越多的数据中心建成,我们不由得回过头来审视:我们以前所做的数据中心设计是否完善?

1 供配电系统

数据中心的供配电系统设计是一个非常大的课题,其市电的系统具有以下特点:

1)容量巨大

列举一些实例,以供大家参考:2006〜2007年设计的上海银行张江数据中心,信息机房总面积4791m2,业主要求设计装机容量4237kW,功率密度为885W/m2,机房空调用电3211k W,功率密度6 7 0 W/m2,综合起来用电为1.555kW/m2。2009年设计杭州华为数据中心时,提出了云计算概念。600m2的机房,机房区面积为200 m2,用电设备装机容量2788k W,平均用电2.32k W/m2。2011年,上海银行正式实施的电气系统,将数据中心的用电量提升至中心机房服务器容量2k W/m2,加上空调容量,预计容量将会达到3.5kW/m2。容量的增大会带来很多设计上的难点:

(1)进线容量远远超出我们平时设计的普通项目。由于可靠性要求高,单路负荷就必需能负担起整个机房的服务器容量、机房照明、通讯用电等所组成的UPS(算UPS时要除上功率因数0.8),还要包括冷冻机、冷却塔、冷却水泵、冷冻水泵、精密空调等所组成的机房空调容量。两路市电都必须满足以上要求,仅此就需要申请2路16000kVA容量的35kV进线。以上论述的数据中心还是采用水冷的精密空调,如采用风冷的精密空调,则容量更大。

(2)电脑设备的发展速度远远快于建设速度。往往一个土建项目建设周期为3〜5年,但计算机的运算速度却可能在这几年中已经翻了几倍。往往数据中心的建设还没完,就需要改造。所以在开始设计时,一定要多了解计算机,尤其是服务器行业的发展动向,预估出一定的设备发展空间。有时在项目建设初期由于想节约项目投资,就压缩系统容量,而当市场上主流服务器负载发生变化后,却因线路已达上限而无法改造,只能采用另建或加建的方式来处理,增加不必要的麻烦。故此设计之初虽没有必要增加很多的备用容量,但必须留出足够的空间以供发展。

2)可靠性要求高

数据中心的断电,会带来非常大的损失。为了满足对数据中心高可靠性的要求,设计中一般都会配备多路进线、柴油发电机和UPS设备。但这么多的后备电源,就一定万无一失了吗?答案是否定的,一个不完善的配电系统,即使配备了众多的后备电源,还是会有弱点。

木桶定律:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而恰恰取决于桶壁上最短的那块木块。这就决定了数据中心供电系统的可靠性有如下三个特点:

(1)只有供配电所有环节均采用一样的级别的配置,才能说数据中心的配电达到这一级别。只要有一个部位标准略有降低,整个配电系统的标准就会随之降低。

(2)比最低配置环节所高出的所有环节均是没有意义的,高出越多、浪费越多。

(3)要想提高整个系统的可靠性,就应该设法找到最薄弱环节并加以提高。

我们对于一级中特别重要负荷的要求是两路独立电源,加上柴油发电机作为后备电源。(见图1)

这个系统是国内数据中心设计中相当流行的双母排结构的配电系统,即每路电源均可负担100%的UPS负荷。当1#市电失电时,ATS2即使故障也可通过ATS3继续供电,ATS3故障时也相同。系统中的柴油机、柴油机与市电切换点为单点故障点,即当1#市电失电,当2#市电也失电时,柴油发电机故障、ATS1故障会造成系统无可补救的失电。而柴油发电机、ATS设备均为平时不常使用的设备,设备故障率远高于断路器。故此,国家标准GB50174-2008中规定了柴油发电机必须有备用,柴油发电机与市电切换的开关必须带手动旁路。从个人理解而言,我认为ATS1与ATS2、ATS3都需带手动旁路开关。必须指出的是,手动旁路开关设备庞大而且贵。我们应该查好设备样本,以避免配电房面积不够,还要在扩初时提醒概算造价公司注意,一个4000A带旁路的ATS开关造价可能高达70多万。

TIA/EIA-942中推荐采用图2的主接线方式,区别主要在柴油发电机。TIA推荐方案要求设置两组柴油机,与两路市电分别切换。其中柴油发电机容量G1=G2=G。这样保证了任意一组柴油发电机组或切换设备或线路发生问题时,另一组还是能够坚持工作,其可靠性最高,但造价也非常昂贵。尤其在大型数据中心项目中,数据中心用电容量非常大,需要多台的柴油发电机并联发电才能满足其用电量。这样2N形式的柴油机备用方式是我们现有财力难以负担的。

经过长时间的研究探讨发现,可以采用折中的方式来解决这个问题。即柴油机为图1的N+1方式,但分两路分别引至两路市电进行切换,既解决了单ATS开关的故障点,也比图2方案降低了造价,不失为可靠性高于现行规范,造价却不高的一种选择。

如有条件,在当地申请三路以上电源时,可以考虑3母线形式。即每路市电分别承担总电量的1/3,每路的UPS负荷率为66.7%。柴油机负荷可以参照图3的接线思路,只需把两路改成三路,每路可带100%负荷改成66.7%负荷。由于UPS的最佳负载率在66.7%,故此这个方案就电气角度来说,是最节能的方案。

3)无功补偿

由于UPS设备是整流设备,当正常运行时,UPS设备处于负载率小于50%的工作状态下,UPS高频机对于电网来说,系统功率因数非常高。而当采用工频机时,由于系统中加入隔离变压器,功率因数会低一些。但目前一些UPS设备样本上会标注功率因数0.85,是加上了机器效率因素的。所以目前的大型UPS设备一般不需要功率因数补偿。曾经有相当多的业主反映,带UPS负载的变压器主回路中的无功补偿不能投入,一投入就会造成母排电压升高。分析其原因就是过度补偿造成功率因数超前。当供电部门要求30%的补偿量时,一定要根据实际情况,向供电部门解释清楚,不要造成不必要的浪费。当供电部门不能同意减少补偿量时,就要确定好控制器,设定好补偿步长,以免过补偿情况的发生。

2 空调设备配电

在数据中心的设计中,随着节能呼声的提高,直接风冷的精密空调已经越来越少,本文讨论水冷精密空调配电。水冷空调是利用水带走机房内的热量。和风冷系统不同,水循环系统给整个系统带来不少变数。为了可靠,数据中心的精密空调可采用利用冷冻循环水的盘管和利用冷却循环水的压缩机相结合的形式。随着空调技术的发展,很多的技术可以运用到数据中心的设计中,以增加可靠性并符合节能发展,如冰蓄冷,但这些只能增加提高可靠性的可能性。作为备用手段,但不能作为主要手段。这里让我们分析一下空调主要设备的电气特性,就会发现其供电有许多不同于服务器设备的地方。

2.1 冷冻机负载

冷冻机是压缩机负载,在断电后,会停机保护,其保护时间长达30min左右,而要让冷冻机保持不断电,其成本显然过高,太不经济。当冷冻机停机时,冷冻水还可以循环,直到温度过高还有一段时间。一般数据中心用冷冻机需要设置备用以增加设备可靠性,例如:三用一备;那我们就采用交叉供电,即两台用市电A,另两台用市电B。这样带来一个好处,当一路市电失电的情况下,总有两台设备在使用。另一路由于设备保护,即使使用了ATS设备,也因为断过了电,冷冻机还是停机了,在停机保护的时间内,还是来得及通过低压联络开关供上电源。从这个角度来说,冷冻机电源不论采用还是不采用ATS设备,冷冻机的停机时间是相同的,不同的只是管理模式而已。

2.2 冷冻水泵

冷冻水泵负责冷冻水循环,在冷冻机不工作时,保持冷冻水循环还能保持盘管工作一段时间。故此,冷冻水泵要比冷冻机负荷的电源要求高。我们要尽量延长冷冻水泵工作时间,水泵负荷在发生电源闪断时,励磁需要一定的时间。换言之,就是当ATS切换以后,水泵还是需要一定的时间才能恢复正常运行,除非采用特殊的ATS产品。在冷冻水泵的供电上,尽管采用了ATS自动切换,还是要尽量将常用电源分在两路市电上交叉供电,以避免冷冻水短时停止循环。

2.3 冷却水泵及冷却塔

冷却水泵及冷却塔是作为备用的最后一道防线,重要性就显得尤其突出。整个冷却系统的供电应该是同一级别的,尤其是容易忽视的冷却水补水装置。其供电重要性等同于精密空调的供电,应采用柴油机作为市电的后备电源。根据水管路由的不同,为供电设备分组。供电方式同冷冻水泵的供电方式,分由两路市电交叉供电,再取另一路电源作为备用电源,在设备机房内作ATS切换,以保证设备电源可靠。

3 柴油机设置

A级机房的UPS设备和空调设备都必须有柴油机作为备用,而且按照规范规定,还必须有设备冗余,柴油发电机的容量往往达到上万kW。因此,当设计到大型数据机房时,由于400V配电柜的水平母排最大做到8000A,低压框架开关最大6300A,远远无法解决汇流问题,只能采用设备分组的方式解决。而规范要求柴油机按组设置冗余,这样如采用400V柴油发电机组,虽单台设备价钱便宜,但系统成本昂贵,压降和可靠性也不同(10kV柴油发电机组可实行并机后汇流,可靠性高),所以应尽量考虑采用高压柴油机组。但采用10kV机组后,应注意以下几个问题:

1)短路电流:当采用10kV系统后,由于线路非常短,系统阻抗小,故此短路电流不小。采用高压配电设备提高短路耐受电流的方式不是根本上解决问题的好方式。应该要求柴油机生产厂商按照配电系统短路电流配置发电机输出阻抗或短路电流实测数据后,校验一下配电设备的短路耐受性能。

2)考虑假负载的测试位置和路由:银联对银行数据中心管理有测试演练要求,提到采用带负载切换,但实际使用中均不会真正地采用UPS负荷和精密空调负荷来做切换演练。那么就会采用假负载。所以我们设计中,即使没有假负载,也要预留负载切换演练的配电柜和假负载设备电缆出线的路由,以备将来使用。

3)柴油机设备的供电:由于柴油发电机是整个数据中心的电源后备,故此电源设计不能掉以轻心。建议采用以上冷却水系统的配电方式,控制系统和机房照明的供电应尽量采用UPS供电,以确保市电失电的瞬间,整个系统失电时,控制系统不能断电,能够确保柴油机可靠启动。直接风冷的冷却系统由柴油机直接带动,而远置式风冷的二次循环、冷却系统不是由柴油机直接带动的,低压发电机时,可用柴油机发出的电力带动。但当使用多台10kV发电机组的时候,必需采用变压器或从400V系统中取电。情况比较复杂,但一定要保障在一次水循环温度超出工作温度前供上冷却系统电源,一般不应该超过30s。

4 接地

我们以前的设计中,接地一直不太受重视。以为只要做好公用接地,就万无一失了。其实这个想法非常错误,很可能会引起很大的损失。因为接地干线大多随建筑预埋,如果没有预留好足够的接地装置,很可能就会造成数据中心不能正常工作。提几点需要注意的地方:

1)UPS设备需要接地,其接地最好要和放置于数据机房内的PDU箱共用接地。虽然规范要求零地电压小于2V,但是很多业主都要求小于1V,请在设计中一定要和业主充分交流,确定并控制好零地电压。我们一直关注的谐波控制就是控制零地电压的关键技术要点。尽量采用谐波控制和波形控制好的UPS对系统的稳定也是至关重要的。

2)在机房内设置两个以上的等电位接地箱。机房内所有设备的金属外壳,金属管道,金属线槽建筑物金属结构等必须进行等电位联结并接地。等电位联结网格应采用截面不小于25mm2的铜带或裸铜线,在防静电地板下构成边长为0.6〜3m的矩形网格。

5 结语

上一篇:产权关系运动论文下一篇:国际供应链