常用数据背诵

2024-10-03

常用数据背诵（通用4篇）

常用数据背诵篇1

随着计算机技术的不断发展, 产生了许多新的技术和新的应用, 而这些新的技术也为电网的发展提供了越来越多的支持, 特别是和配网调度人员密切接触的数据展示, 展示的界面相同或相似, 但展示的方法却大不相同, 这直接影响了电网监控的实时性, 因而利用B/S架构展示数据的方式就非常重要, 直接影响到配电网精益化调度的实现。

传统配电网自动化系统数据展示

传统的数据展示方式如图1。

Java Applet为Java语言编写的小应用程序, 通常直接嵌入到网页中, 从而可以产生特殊的效果。包含Applet的网页被称为Java-Powered页, 可以称其为Java支持的网页。Java Applet可以用来展示带有图形绘制、字体和颜色控制、动画的图形浏览、历史曲线、实时告警等功能, 其中曲线所展示的是来自数据库的遥测遥信信息或图元信息。

JSP (Java Server Pages) 由HTML代码和嵌入其中的Java代码组成。Java Servlet是JSP的技术基础, 而且大型的Web应用程序的开发需要Java Servlet和JSP配合才能完成。JSP具备了Java技术的简单易用, 完全的面向对象, 具有平台无关性且安全可靠, 主要面向因特网的所有特点。从而可以将Java Applet应用嵌入到JSP, 在页面上就可以查看历史曲线或者告警信息等, 最终可以用容器统一发布。

调度系统的Web模块常通过例如C++这样高效率语言进程和Java Applet结合应用通过调用Socket接口进行数据库传输。高级语言经常通常用于处理效率与时间效应要求高的事务, 如调用数据库数据, 修改数据库数据。

现代数据展示

1.配电网自动化系统实时性不高的数据展示

现在基于SVG技术的数据展示方式架构如图2。

涉及的关键技术如下。SVG可缩放矢量图形 (Scalable Vector Graphics) 是一种可扩展标记语言 (XML) , 用于描述二维矢量图形的一种图形格式, SVG采用文本来描述矢量化的图形, 这使得SVG图像文件可以像HTML网页一样有着很好的可读性。当用图像工具输出SVG后, 可以用任何文字处理工具打开SVG图像, 并可看到用来描述图像的文本代码。

DOM (Document Object Model文档对象模型) 是一种文档平台, 它允许程序或脚本动态的存储和上传文件的内容、结构或样式。幸运的是SVG完全支持DOM, 所以, SVG文档可以通过一致的接口规范与外界的程序打交道。SVG以及SVG中的物件元素完全可以通过脚本语言接受外部事件的驱动, 例如鼠标动作, 实现自身或对其他物件、图像的控制等。

servlet是在服务器上运行的小程序, Servlet是位于Web服务器内部的服务器端的Java应用程序, 与传统的从命令行启动的Java应用程序不同, Servle由Web服务器进行加载, 该Web服务器必须包含支持Servlet的Java虚拟机。

AJAX指异步Java Script及XML (Asynchronous Java Script And XML) , AJAX在浏览器与Web服务器之间使用异步数据传输 (HTTP请求) , 这样就可使网页从服务器请求少量的信息, 而不是整个页面。

对于利用图2展示数据的方式, C++进程生成包含实时数据、历史数据、曲线信息等查询方法的动态库, Servlet实例化Java模块中的主类, 调用主类中的方法, 并将数据以参数形式传递给主类中的方法, 得到方法的返回值, Javascript控制脚本每数秒提交Ajax请求 (如图片请求, 数据请求等) , Servlet接收到请求并调用java实例化主类中的方法得到请求的数据, 并再通过Ajax将结果返回给Js控制脚本, Js控制脚本利用得到的返回值修改加载到内存中的DOM形式的SVG图形 (只是部分修改) 。通常Js会内嵌到SVG文本中, 按照一定的逻辑, 根据SVG元素的唯一标识ID值, 利用Ajax来更新显示图层的更新区域。SVG转换主要正对一些格式不统一的SVG图形, 利用新的一些标准, 在知道原来SVG图形的标准上定制开发的一套转换逻辑 (通常利用SAX解析得到分解的标签、属性值, 再将之组合成需要的SVG图) , 并将它作为一个功能模块。最后将SVG嵌套进HTML网页文件, JSP通过客户端请求, 将SVG加载到JSP界面, 供浏览器浏览。

上述本可以用Java程序实现的功能模块为什么要加入C++层序, 因为JSP界面的一些应用 (如曲线信息等) , 需要和数据库进行不断的交互, 需要较高的实时性, 所以要求调用层序拥有较高的处理效率和较快的相应时间, 所以综合考虑, 利用效率高、响应快的C++作为该功能实现的语言。

2.配电网自动化系统实时性很高的数据展示

基于自有格式的数据展示方式如图3。

大部分厂商都是在页面上展示标准的SVG图, 但也有用自定义格式的图片展示, 原因是可以针对特有的业务特点和编辑工具来自定义更符合业务特点的图片格式。例如, lpf (描述二维矢量图形的自有格式) 格式的矢量图就是一种自有格式的矢量图, 由专门定制的组态工具生成, 组态工具主要用C#写成。

自有格式lpf矢量图生成大致可以分成以下四个步骤。

(1) SVG标准矢量图转换为C#对象

a) SVG标准矢量图以XML格式进行分析, 创建XML DOM Document;

b) 分析XML DOM Document中的结点, 提取元素属性, 读到内存中;

c) 在内存中建立图元对象, 然后解析元素属性, 将属性赋值给对象中的元素;

d) 将C#对象描述进行抽象, 得到C#中的绘图对象。

(2) 解析CIM (公共信息模型) 文件映射到lpf矢量图各元素

a) 标准CIM文件利用QT DOM解析出遥测遥信测点名存入实时数据库, 建立含有唯一ID的测点;

b) C++API与实时数据库进行交互, 获得测点信息以及测点实时/历史数据信息;

c) C#API在运行库的控制下执行托管代码, 通过读内存获得C++API与实时数据库的交互结果;

d) lpf格式组态图通过C#API获得实时数据库的公共信息模型。

(3) lpf矢量图从关系数据库中获取测点拓扑关系

a) 将CIM中的非关系数据信息与关系数据信息分开, 将非关系数据信息保存在实时数据库中, 将关系数据信息保存在关系数据库中;

b) lpf格式组态图通过ODBC调用关系库, 取得CIM中的关系数据信息。

(4) 通过Active X控件将动态lpf嵌入到JSP中, 在WEB页面中展现组态图

a) 静态自有格式lpf每秒钟定时通过上述方式, 主动从关系数据库以及实时数据库中分别获取关系数据信息和非关系数据信息, 并在lpf中将信息展现出来, 实现图像动态化;

b) 通过自主编写的Active X控件, 将动态自有格式lpf嵌入JSP中, 作为页面的一部分, 将动态lpf展现出来。

利用自有格式lpf较利用以java技术为主的svg展示方式的最大优点在于以JAVA SAX解析的SVG展示图需要整个页面全部更新, 对于实时性要求较高的页面显示, 如果以Servlet为主的数据转发方式, 在响应速度上不能达到要求, 所以对于实时性要求较高的页面展示, 可专门定制图形展示和数据展示的方式。

结语

从过去到现在, 配电网自动化系统的数据展示方式越来越多样化, 怎样从众多的技术中挑选适宜其特点和要求的关键技术并结合自身的特点将其合理的加以利用是一个值得深思的问题。在已有技术的基础上, 发掘符合业务要求新东西 (如用自有格式的lpf厂站图代替传统格式的可扩展二维矢量图svg) 是一次突破和创新, 只有不断的创新, 配电网自动化系统的发展才能更上一层楼。

摘要：本文根据配网自动化系统的特点, 介绍传统配电网自动化系统展示数据库测点的方法, 并介绍其所使用的技术。在新的技术发展背景下, 介绍了新形式下一种创新的数据展示方式, 发挥关系数据库和实时数据库自身的特长, 结合使用在现行配电网自动化系统中, 利用JAVA和C++等为主的成熟技术, 发掘各自的优势, 进行更好的组合, 提升其整体的性能, 从而使电网自动化系统对数据存储要求得到进一步的满足。

常用数据背诵篇2

【摘要】本文针对电网海量实时生产信息存储的问题，先介绍对比了关系数据和实时数据库的特点，指出实时数据库产品更适合电力企业实时生产信息的存储需要。接着对当前市场主流实时数据库产品进行简介，其中重点介绍和对比了PI实时数据库和国产海迅实时数据库；最后提出实时数据库和关系数据库的结合使用，可更好的服务于电网信息化建设。

【关键词】智能电网；海迅数据库；PI实时数据库

0.引言

信息化、自动化和互动化是智能电网的三大特征，这其中，信息化是基础，是解决智能电网可观测，继而实现可控与在控的重要途径。随着智能电网建设的不断深入，越来越多的智能测量装置遍布整个电网，尤其是各网省公司和直属单位输变电设备状态监测、用电信息采集、配电自动化、发电集团信息化等项目的试点与推广，产生了大量实时数据。实时数据沉淀生成海量历史数据，连同调度生产控制大区生成的电网运行方式、关口电量、保护、雷电等历史/实时数据一起，这些数据是重要财富，是实现精益化管理的重要基础。如何高效地采集、处理、存储、检索和利用这些海量信息，已经成为建设智能电网所要面临的首要问题。关系型数据库和实时数据库是目前数据库市场上应用较为广泛的两类数据库，故数据的存储一般采用关系型数据库或者实时数据库存储。本文先介绍这两个类型数据库的定义及特点。

1.实时数据库与关系数据库

1.1关系数据库的介绍

关系型数据库，是建立在关系模型基础上的数据库，以关系模型组织数据并借助于集合代数等数学概念和方法来处理数据库中的数据，用二维表的形式来表示实体和实体间联系的数据模型。关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成，具有数据结构简单、查询与处理方便、数据独立性高、理论基础坚实等特点。关系模型也是目前技术最成熟、应用最广泛的数据库技术，设计和实现风险较低，但由于关系模型提供了较高的数据独立性和非过程化的查询功能，系统的查询速度和查询效率较低，但其仍是数据存储的传统标准。

1.1.1关系型数据库组件

关系型数据库通常包含下列组件：

（1）客户端应用程序（ Client ）。

（2）数据库服务器（ Server）。

（3）数据库（ Database）。

1.1.2关系型数据库优缺点分析（相比实时数据库）

关系型数据库相比实时数据库而言，有着以下优点：

（1）容易理解。二维表结构是非常贴近逻辑世界的一个概念，建立在严格的数学概念基础上，数据结构简单、清晰。因此，关系模型相对其他模型来说更容易理解。

（2）使用方便。通用的SQL语言易学易懂，程序员、数据管理员可以方便地在逻辑层面操作数据库，而完全不必理解其底层实现。其提供的诸如视图、存储过程、触发器、索引等对象使数据访问趋于便利。

（3）易于维护。丰富的完整性大大降低了数据冗余和数据不一致的概率。

（4）安全性高。登录身份验证功能完善，提高安全性。

1.2实时数据库的介绍

实时数据库是数据库系统发展的一个分支，是一种专用的处理海量实时信息的基于测点模型的数据库，针对实时采集的具有时序特征的海量数据具有极高的事务处理能力、数据压缩比和查询检索速度。实时数据库是基于先进控制和优化控制而出现的，对数据的实时性要求比较高，因而实时、高效、稳定是实时数据库最关键的指标。

1.2.1实时数据库的逻辑结构

实时数据库逻辑上包含实时数据库、历史数据库和测点数据库三部分。实时数据库维护实时数据，实时数据是每个测点时间戳最大的量测值（也就是当前值）；历史数据库维护历史数据，历史数据由实时数据不断归档沉淀后产生，实时数据库中往往采用压缩的方式存储历史数据；测点数据库则维护所有测点的各种信息。

1.2.2实时数据库在处理实时数据上的优势

实时数据库具有实时数据写入和访问速度快、历史数据归档和访问速度快、历史数据高效压缩、数据以及接口符合测点模型等优点。但实时数据库对测点数有限制，而且往往按测点数收费，导致等量数据的管理成本相对关系型数据库偏高。

实时数据库在数据通信、数据组织、数据存储、数据检索、数据访问、数据处理、数据展现等方面的专业化及产品化，为构建基于大容量实时历史数据之上的分析应用提供了便捷稳定的数据支撑，使应用系统可以从更高更深层次充分利用宝贵的生产实时历史数据。

1.3实时数据库的和关系数据库的对比

从下表对关系型数据库和实时数据库在数据组织方式、访问方式、压缩方式、应用领域等的比较结果可见，实时数据库产品更适合供电企业生产的需要。这是因为电力生产具有生产、传输和使用同时完成的特点，生产过程中产生大量的时序数据，应用也需要大量围绕着这些实时/历史数据。实时数据库在处理时序数据时具有的存储速度快、数据压缩比大、节省存储空间等有点，在供电企业的生产应用中具有不可替代的优势。

2.实时数据库产品的介绍

目前市面上比较有名的实时数据库产品有PI实时数据库，eDNA实时数据库，iHistorian 实时数据库，此外，SyncBASE、海迅和安捷（Agilor）在数据库市场中也占有一定份额。其中，国际市场占有率最大的PI实时数据库。另外，我国自主研发的数据库产品海迅实时数据库也在配调自动化等领域暂露头角，取得了较大份额。因此下面重点对比这两个产品。

2.1 PI实时数据库

PI是由美国OSI Software公司开发的一套基于C/S架构的实时数据库软件应用平台，主要应用于存储和获取时间序列的实时数据，是工厂底层控制系统与上层管理信息系统连接的桥梁。一方面，PI用于工厂数据的自动采集、存贮和监视，作为大型实时数据库和历史数据库，PI可存贮每个过程点的多年数据，并提供清晰、精确的操作情况画面，用户既可浏览工厂当前的生产情况，也可查看过去的生产情况；另一方面，PI为最终用户和应用软件开发人员提供了快捷高效的工厂信息，PI在业务管理和实时生产之间起到了桥梁作用。

2.2海迅实时数据库

海迅实时数据库管理系统是江苏瑞中数据股份有限公司研发的国内拥有完全自主知识产权的大型通用实时数据库，该软件在全面总结国内外同类产品优缺点的基础上按照智能电网、工业自动化系统以及物联网特点和实际需求精心设计、潜心研制而成，是进行海量历史/实时数据处理的专业平台。（下转第249页）

（上接第155页）3.海迅实时数据库与PI实时数据库的对比

以下为PI和瑞中的海迅数据库在服务器端模块部署方式，性能指标、外围组态工具、应用领域、市场占有率等方面的对比介绍。

海迅数据库有着分布式体系架构和跨平台特性，让它在各厂商的实时数据库产品中格外突出。分布式体系架构使得它能支持更多的测点容量，达到更高的性能。跨平台特性使它的应用领域更广泛，使用更安全高效。

4.结语

数据加密常用技术及其发展趋势篇3

在工作中,人们经常担心自己的数据被破坏,在当今的网络时代,这种担心越加强烈。数据保密变换,或密码技术是对计算机信息进行保护的最实用和最可靠的方法,密码术以非常简单却具有革命性的数学思想为基础。加密的一些方法也非常直接,很容易掌握,可以很方便的对机密数据进行加密。

1 加密的一般原理

一个典型的数据加密模型如图一所示,由四个部分组成:

(1)未加密的报文,也称明文,用P表示;

(2)加密后的报文,也称密文,用Y表示;

(3)加密解密算法E、D;

(4)加密解密的密钥Ke、Kd。

发送方用加密密钥,通过加密设备或算法,将信息加密后发送出去。接收方在收到密文后,用解密密钥将密文解密,恢复为明文。其数学表达式可以写成:P=Dkd(Kd,Eke(Ke,P))。如果传输中有人窃取,他只能得到无法理解的密文,从而对信息起到保密作用。

2 数据加密方法

在传统上,我们有几种方法来加密数据流。所有这些方法都可以用软件很容易实现。但是当我们只知道密文的时候,是不容易破译这些加密算法的(当同时有原文和密文时,破译加密算法虽然也不是很容易,但已经是可能的)。下面来介绍一下常用的加密技术:

(1)对称密码技术

对称加密采用了对称密码编码技术。它的特点是文件加密和解密使用相同的密钥,即加密密钥也可以用作解密密钥,这种方法在密码学中叫做对称加密算法。对称加密算法使用起来简单快捷,密钥较短,且破译困难。除了数据加密标准(DES),另一个对称密钥加密系统是国际数据加密算法(IDEA),它比DES的加密性好,而且对计算机功能要求也没有那么高。IDEA加密标准由PGP(Pretty Good Privacy)系统使用。例如,对于一个输入‘a’执行一个操作得到结果‘b’,那么我们可以基于‘b’,做一个相对应的操作,导出输入‘a’。

(2)非对称密码技术

1976年,美国学者Dime和Henman为解决信息公开传送和密钥管理问题,提出一种新的密钥交换协议,允许在不安全的媒体上的通讯双方交换信息,安全地达成一致的密钥,这就是公开密钥系统。相对于“对称加密算法这种方法也叫做非对称加密算法。

与对称加密算法不同,非对称加密算法需要两个密钥:

公开密钥(publickey)和私有密钥(privatekey)。公开密钥与私有密钥是一对,如果用公开密钥对数据进行加密,只有用对应的私有密钥才能解密;如果用私有密钥对数据进行加密,那么只有用对应的公开密钥才能解密。因为加密和解密使用的是两个不同的密钥,所以这种算法叫作非对称加密算法。

非对称加密算法实现机密信息交换的基本过程是:甲方生成一对密钥并将其中的一把作为公用密钥向其它方公开;得到该公用密钥的乙方使用该密钥对机密信息进行加密后再发送给甲方;甲方再用自己保存的另一把专用密钥对加密后的信息进行解密。甲方只能用其专用密钥解密由其公用密钥加密后的任何信息。非对称加密算法的保密性比较好,它消除了最终用户交换密钥的需要,但加密和解密花费时间长、速度慢,它不适合于对文件加密而只适用于对少量数据进行加密。

(3)多步加密技术

这个算法在1998年6月1日才正式公布的,是一种新的加密算法,几乎不可能被破译的,下面详细的介绍这个算法。使用一系列的数字(比如说128位密钥),来产生一个可重复的但高度随机化的伪随机数字序列,一次使用256个表项,使用随机数序列来产生密码转表。

把256个随机数放在一个距阵中,然后对他们进行排序,使用这样一种方式使用最初的位置来产生一个表,随意排序的表,表中的数字在0到255之间。现在,产生了一个具体的256字节的表。让这个随机数产生器接着来产生这个表中的其余的数,以至于每个表是不同的。下一步,使用"shotgun technique"技术来产生解码表。基本上说,如果a映射到b,那么b一定可以映射到a,所以b[a[n]]=n(n是一个在0到255之间的数)。在一个循环中赋值,使用一个256字节的解码表,它对应于我们刚才在上一步产生的256字节的加密表。

(4)PGP加密技术

PGP是"Pretty Good Privacy"的缩写,是一个基于RSA公钥加密体系的邮件加密软件,它提出了公共钥匙或不对称文件加密和数字签名,其创始人是美国的Phil Zimmermann。他把RSA公钥体系的方便和传统加密体系的高速结合起来,并且在数字签名和密钥认证管理机制上有巧妙的设计,因此PGP成为目前几乎最流行的公钥加密软件包。

但PGP不是一种完全的非对称加密体系,它是个混合加密算法,它是由一个对称加密算法(IDEA)、一个非对称加密算法(RSA)、一个单向散列算法(MD5)以及一个随机数产生器(从用户击键频率产生伪随机数序列的种子)组成的。每种算法都是PGP不可分割的组成部分,PGP之所以得到流行,得到大家的认可,最主要的一半是它集中的几种加密算法的优点,使它们彼此得到互补。

我们知道采用“公钥”和“私钥”加密体系最大的安全性问题就是公开的“公钥”可能被人篡改,影响文件的解密。虽然PGP也采用这一加密体系,并且所有“公钥”和“私钥”都可以由用户自己产生,不需要专门的认证机构,但它却有一个比较完善的密钥管理体制,所以它的另一半优点就体现在PGP独特的密钥管理体制上。

3 密码技术的未来趋势

尽管双钥密码体制比单钥密码体制更为可靠,但由于计算过于复杂,双钥密码体制在进行大信息量通信时,加密速率仅为单钥体制的1/100,甚至是1/1000。正是由于不同体制的加密算法各有所长,所以在今后相当长的一段时期内,各类加密体制将会共同发展。而在由IBM等公司于1996年联合推出的用于电子商务的协议标准SET(Secure Electronic Transaction)中和1992年由多国联合开发的PGP技术中,均采用了包含单钥密码、双钥密码、单向杂凑算法和随机数生成算法在内的混合密码系统的动向来看,这似乎从一个侧面展示了今后密码技术应用的未来。

在单钥密码领域,一次一密被认为是最为可靠的机制,但是由于流密码体制中的密钥流生成器在算法上未能突破有限循环,故一直未被广泛应用。如果找到一个在算法上接近无限循环的密钥流生成器,该体制将会有一个质的飞跃。近年来,混沌学理论的研究给在这一方向产生突破带来了曙光。此外,充满生气的量子密码被认为是一个潜在的发展方向,因为它是基于光学和量子力学理论的。该理论对于在光纤通信中加强信息安全、对付拥有量子计算能力的破译无疑是一种理想的解决方法。

由于电子商务等民用系统的应用需求,认证加密算法也将有较大发展。此外,在传统密码体制中,还将会产生类似于IDEA这样的新成员,新成员的一个主要特征就是在算法上有创新和突破,而不仅仅是对传统算法进行修正或改进。密码学是一个正在不断发展的年轻学科,任何未被认识的加/解密机制都有可能在其中占有一席之地。

4 结束语

由于在现实生活中,我们要确保一些敏感的数据只能被有相应权限的人看到,要确保信息在传输的过程中不会被篡改和截取,这就需要很多的安全系统大量的应用于政府、大公司以及个人系统。数据加密肯定可以被破解,但我们所想要的是一个特定时期的安全,也就是说,密文的破解应该是足够的困难,在现实上是不可能的,尤其是短时间内。

摘要：介绍了加密的一般原理和当今常用加密技术中的对称加密技术、非对称加密技术、多步加密技术以及PGP加密技术,分析了各技术的适应领域,并展望了加密技术的未来。

关键词：数据加密,报文,对称加密技术,非对称加密技术,PGP加密技术

参考文献

[1]黄志洪.现代计算机信息安全技术[M].北京:冶金工业出版社,2004,6.

[2]Mohan Atreya,Benjamin Hammond,等著.贺珍:数字签名[M].北京:清华大学出版社,2003.

[3]射希仁.计算机网络(第2版)[M].北京:电子工业出版社,1999.

[4]张红旗,等.信息网络安全[M].北京:清华大学出版社,2002.

方剂数据挖掘研究常用方法探讨篇4

1 关联规则

关联规则是数据挖掘中的一项重要技术,反映了大量数据中项目集之间有趣的关联或相关联系。其数学定义为:设I={i1,i2,i3,…,im}是m个不同项(item)的集合,任何相关数据D是数据库事务的集合,其中每个事务T是项的集合,使得T I。每个事务有一个标识符,称作TID。设B是一个项集,事务T包含B当且仅当B I。关联规则是形如A==>B的蕴涵式,其中A I,B I,并且A∩B=Φ,规则A==>B在事务集D中成立,具有支持度s和置信度c,他们的概率分别是P(A∪B)和P(B|A)。关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度min-sup和最小置信度min-conf的关联规则[2]。

上述定义具体到方剂配伍的研究中,可如是表示:其中i代表单味药物,I是数据库中所出现的药物的集合。D代表所挖掘的对象--方剂数据库,T是具体的方剂,而T又是由I中的各药物组合而成,所以T I,TID指具体的方名。A和B可以是一味药或几味药物的组合,都被方剂数据库中方剂所包含,并且A、B无重合,所以A==>B的关联规则,指A、B在某方剂数据库中同时出现的频率高于一指定的最小支持度min-sup,和在含有A的方剂集中出现的频率高于一指定的最小置信度min-conf。最小支持度和最小置信度由相关专家根据实际情况,并结合专业知识指定。A、B的集合成为项集,如果该项集满足最小支持度,则称为频繁项集。

方剂配伍中的关联规则挖掘可以分解为以下3个问题:(1)找出所有频繁项集:根据预定义的最小支持度,找出所有的频繁项集。如对某哮喘类方数据库进行关联规则研究,可能得到麻黄--杏仁、甘草--麻黄、半夏--甘草等一系列频繁项集,如果对某四物汤类方数据库做关联规则挖掘,可能得到川穹-当归-地黄-芍药等频繁项集;(2)选定目标频繁项集:研究者可根据研究目的选取目标频繁项集,如上例,研究者如果想研究与四物汤配伍的情况,可选择川穹-当归-地黄-芍药或其中的两、三味药作为目标频繁项集。研究者也可直接选择支持度对最高的项集作为目标频繁项集,如在上例哮喘方的关联规则挖掘中,发现麻黄--杏仁是最高频繁项集,可把它作为目标频繁项集,当然也可以多选几对频繁项集作为目标频繁项集;(3)关联规则的生成:对于目标频繁项集A,若有频繁项集B≠Φ,且support(A∪B)/support(A)≧minconf,则有关联规则A==>(A-B)。选择上面四物汤类方关联规则挖掘的例子来说明该问题,目标频繁项集A为川穹-当归-地黄-芍药,假设其支持度为0.4871,频繁项集B为延胡,A∪B支持度为0.323,所以Confidence(A==>B)=support(A∪B)/support(A)=0.6631,大于预设的最小置信度0.3[3]。川穹-当归-地黄-芍药==>(川穹-当归-地黄-芍药--延胡)即为一条关联规则。

关联规则是目前应用于方剂研究最经典的一种方法,其应用主要有如下3类:药对的发掘与研究(1)利用关联规则的频繁项集探寻方剂中的高频药组。如对四物汤类方关联规则分析后发[3],香附-延胡是与四物汤配伍治疗痛经频率最高的用药组合,其次是桃仁-红花;(2)以病类方的用药研究以病为类,搜集方剂建立数据库,然后从中发掘出高频的用药组合。如吴荣[4]等人对名老中医冠心病用药规律的关联研究后发现,名医治疗冠心病最常用的3味药依次是丹参、瓜蒌、川芎;最常用的5个药对是薤白→瓜蒌、太子参→丹参、五味子→麦冬、半夏→瓜蒌、元胡→瓜蒌;出现频率最高的5个三项药物组合都是活血理气药+瓜蒌、薤白;四项组合多数是川芎、丹参、元胡、郁金、红花、陈皮与瓜蒌、薤白之间的随机组合。综合以上各条,作者认为瓜蒌薤白类方、活血通脉剂及生脉散是名医治疗冠心病的基本方药,三者之间的配合应用构成了名医用药的一般规律;(3)以证类方的关联规则挖掘以证为类,搜集方剂,进行关联规则挖掘,找出治疗该类证的用药规律。如杨雪[5]等从118部古医籍记载的治疗脾胃湿热证方剂591条中,挖掘出四味药组8条,三味药组14条,药对19对,从而总结出明清脾胃湿热方的药物配伍以祛邪为主,亦不忘扶正,祛邪指利湿行气、清热燥湿,扶正为益气健脾,与脾胃湿热证的湿热内蕴、脾失健运、气机升降失司之病机相呼应。

纵观以上研究案例,可知关联规则用于方剂配伍研究主要功能是探寻核心药群,以及寻找药物之间的相关联系。各研究的挖掘结果符合传统中医理论,可被其很好的解释,据此可知关联规则是方剂数据挖掘研究中的一个比较成熟的方法,可被广泛应用于各类方剂配伍的研究。

2 对应分析

在方剂的理论研究中,"方证对应"是个重点研究方向。所谓"方证对应",就是指对"方"和"证"的相应关系的研究,"方"就其本质来说是各种药物的组合,"证"有时指病情的整体性概括,即病机的提取,如"寒哮"、"热哮"等,有时"证"也被认为具体用药的指征,如"太阳病,头痛,发热,汗出,恶风,桂枝汤主之",其中"头痛,发热,汗出,恶风"即为桂枝汤的用药指征。从数学的角度看,"方"、"证"为含有多种分类值的两组变量,一般方法多侧重于揭示两变量间的关联,难以直接显示变量各分类之间的内在联系。而对应分析正是解决该类问题的一种基于图形分析的直观有效的多元分析方法。

对应分析以两变量的交叉列联表为研究对象,利用"降维"的方法,通过图形的方式直观揭尔变量不同类别之间的联系,特别适合于多分类型变量的研究[6]。对应分析的基本思想是,首先编制两组变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点。

下表是药症对应的交叉列联表示例,表中字母代表药物用于治疗相应的症状所出现的频数。

表中频数即是药物与症状的对应点,然后,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图,即对应分布图上,并使联系密切的类别点较集巾,联系疏远的类别点较分散。最后,通过观察对应分布图就能直观地把握变量类别之间的联系。

3 聚类分析

聚类分析是将现象分类的一种统计学方法。在研究大量的方剂数据时,分类是个重要的研究手段。例如,若从数据挖掘的角度研究中医治疗哮喘的用药特点时,对收集的大量历代治疗哮喘的方剂分类是个常见的研究手段。如果按传统人为分类的话,会带来两个弊端,一是工作量太大,二是主观色彩太浓,需要丰富的专业知识,否则得到的分类可能无法正确反映数据的特点。为解决该问题,希望从数据自身出发,充分利用数据自身特点对方剂分类,使诸多特征有相似性的方剂能被分在同一类里,而不相似的方剂能被区分到另一些类中,如可基于所含的药物功效分组,或基于所含药物的性味归经分组。这时便可采用聚类分析方法。

聚类分析正是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大[6]。所谓"没有先验知识"指没有事先指定分类标准,如对"麻黄汤"里的4味药分类,事先不指定诸如"药物是否有宣发功能",或"药物性味是否有辛味"等分类标准。所谓"亲疏程度"指变量特征的总体差异程度,如上例,这里的变量指麻黄、桂枝、杏仁、甘草,变量特征指药物的性味归经等自然属性,或所有药物所含的功效等应用属性。聚类分析按其分类目的,可分为两大类:(1)R型聚类:又称为指标聚类,指将指标归类的方法,其目的是将指标降维从而选择有代表性的指标;(2)Q型聚类:又称为样品聚类,指将样品归类的方法,其目的是找出样品的共性。

在应用于方剂研究时,多选用Q型聚类,根据聚类的样品不同,一般分为:(1)对方的聚类如对治疗某病的大量方剂进行研究时,想了解众多方剂的几大类型以推测该病治疗的基本方,可基于方中药物的属性对方聚类;(2)对药物聚类如想了解治疗某病的药物种类时,可对类方中所有的药物聚类,可基于药物功效或性味归经。若分析某一个方剂时,可对该方所包含的药物聚类,一般根据药物的性味归经聚类。

用SPSS11.5对少腹逐瘀汤(当归、川芎、赤芍、小茴香、肉桂、干姜、五灵脂、没药、蒲黄、延胡)基于性味归经聚类分析,试验结果如下。从下图可见,蒲黄、五灵脂、川芎聚为一类,三者均能活血化瘀,当归、延胡、小茴香聚为一类,均能活血止痛,赤芍、没药聚为一类,均能凉血散瘀,肉桂、干姜聚为一类,均可温里散寒。

综上所述,关联规则在方剂数据挖掘研究的应用中,优势体现在提取核心药物及揭示配伍关系;而对应分析的优势则在于能以直观形象的二维图,展示方证的对应关系及其内在联系,聚类分析能够使大量数据根据其自身特点自动分类,便于理解研究。但我们应该注意前两种方法所作的分析及对方的聚类分析均是以用药频率为基础的,所以在运用时需注意数据的准确性及可靠性,否则会与事实相差甚远,另外,数据挖掘的方法众多,适于方剂研究的有待拓展,笔者仅举以上3种方法作抛砖引玉之用。这3种方法目前虽然被普遍应用于方剂理论的研究,但也可用于历代方剂文献学术思想的研究等,希望笔者此不成熟的想法能对读者有所启发。

摘要：讨论3种方剂数据挖掘研究的常用方法,认为关联规则在方剂数据挖掘的研究中,其优势体现在提取核心药物及揭示配伍关系;而对应分析优势则在于能以直观形象的二维图展示方证的对应关系及其内在联系;聚类分析能够使大量数据根据其自身特点自动分类,便于理解研究

关键词：方剂,数据挖掘,关联规则,聚类分析,对应分析

参考文献

[1]乔延江,李澎涛,苏钢强,等.中药(复方)KDD研究开发的意义.北京中医药大学学报,1998,21(3):15.

[2]陈莉平,屈百达.基于关联规则的数据挖掘算法的研究与应用.现代电子技术,2007,20:71.

[3]叶亮,范欣生,卞雅莉,等.古今治疗四物汤类方的关联规则研究.南京中医药大学学报,2008,24(2):94.

[4]吴荣,刘晛,王阶,等.基于关联规则的名老中医冠心病用药规律研究.中国中药杂志,2007,32(17):1786.

[5]杨雪梅,王君,林端宜.明清脾胃湿热方用药关联规则挖掘.江苏中医药,2007,39(1):45.

【常用数据背诵】推荐阅读：

人事部门常用数据分析07-12

常用术语05-08

常用原则05-14