高维数据挖掘

2024-09-09

高维数据挖掘（精选7篇）

高维数据挖掘篇1

1、数据挖掘简介

数据挖掘 (Data Mining) 是在20世纪80年代被提出来的, 90年代取得发展, 是当今数据库系统及其应用领域中的一个热点话题。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中, 提取隐含在其中的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程, 并进行数据分析、数据融合 (Data Fusion) 以及决策支持的过程。

数据挖掘是一门交叉学科, 主要包括:数据库技术、人工智能、模式识别、统计学、信息搜索技术、数据可视化和高性能计算等。数据挖掘主要分3个阶段:数据准备、数据挖掘、结果的评价和表达。数据挖掘包括以下几个基本过程: (1) 确定研究目标; (2) 数据的收集与整理; (3) 建立合适的数据挖掘模型; (4) 分析和评价模型; (5) 知识同化, 即将数据挖掘中得到的信息应用到实际问题提出执行方案。数据挖掘方法通常分为两类:描述性方法和预测性方法。常用的方法包括:关联规则、决策树、聚类分析、回归分析、神经网络、预测估计、时间序列、异常分析、描述和可视化法等。

数据挖掘领域的具有十大经典算法:C4.5, k-Means, SVM, Apriori, EM, Page Rank, Ada Boost, k NN, Naive Bayes, and CART。常用的数据挖掘常用软件有:clementine, R软件, Weka软件。

2、高维数据简介

高维数据挖掘是基于高维度的一种数据挖掘, 数据挖掘领域并没有明确定义说维数达到多少称之为高维数据集, 但通常认为当维数增长到使一般的数据处理明显变得异常困难时, 该数据集即可认为是高维数据集。它和传统的数据挖掘最主要的区别在于它的高维度。目前高维数据挖掘已成为数据挖掘的重点和难点。如各种类型的贸易交易数据、Web文档、基因表达数据、WEB使用数据及多媒体数据等, 它们的维度 (属性) 通常可以达到成百上千维。

3、高维数据对于数据挖掘产生的影响

在高维空间中, 一方面引起基于索引结构的数据挖掘算法的性能下降, 另一方面很多基于全空间距离函数的挖掘方法也会失效。总的来说高维数据会对传统意义上的数据挖掘的影响主要存在以下几个方面:

(1) 聚类算法

在高维空间中很多情况下距离度量已经失效。另外在高维空间中索引结构的失效, 网格数随维数呈指数级增长的问题也使得不再有效。

(2) 关联规则挖掘

大多数频繁集挖掘算法都是基于特征计数的, 当维数增加, 特征的组合也呈指数级的增长, 这使得当维数达到一定量级时不可能再在这个空间中进行搜索。

(3) 异常检测

高维数据具有稀疏性, 它的稀疏性使得原来数据挖掘中对于“异常”检测的方法变得无法操作。

4、研究现状介绍

然后正因为高维数据具有“稀疏性”和“异质性”特点。解决的方法可以通过降维将数据从高维降到低维, 然后用低维数据的处理办法进行处理。

基于回归分析的方法当中中正则化方法是进行数据挖掘的最重要方法, 其主要的做法就是在目标函数上增加一个适当的惩罚函数, 利用惩罚参数的调节, 使得最终的估计具有自动的稀疏性, 从而实现变量的选择。实际处理中, 使用线性降维是一个主要研究方向。线性降维方法, 主要包括主成分分析、投影寻踪、线性奇异分析等。针对高维数据集的非线性特性, 近年来发展LLE、ISOMAP、多维尺度分析等非线性局部嵌入方法。近年来Hongyuan Zha和Zhenyue Zhang提出了一种可用于非线性流形学习的局部线性光滑方法;de Silva和Joshua B.Tenenbaum研究了曲线流形的非监督学习问题。L.Saul和S.Roweis提出了局部线性嵌入方法, 等等。

5、总结与展望

随着大数据时代的到来, 人们对数据的研究和利用越来越多。高维数据挖掘是数据挖掘理论研究的一个研究热点, 也是数据挖掘应用必须关注的一个实际问题。本文介绍了在高维数据的研究背景和研究现状, 总结了一些在已有的研究中方法策略。高维数据挖掘并没有一个通用的模型或实现方法, 只有与实际情况相结合并不断地改进模型才具有实际的价值。如果利用常用算法来建立适合的高维流数据挖掘平台, 为高维流数据挖掘的应用提供基础, 将有利于推动研究工作的深化和扩展, 也有利于创造商业价值。

摘要：数据挖掘出现于20世纪80年代后期, 是数据库研究中一个很有应用价值的领域.随着大数据出现, 高维数据的挖掘成为了热点和难点。本文在介绍传统数据挖掘的基础上, 介绍了高维数据的特点以及目前面临的问题, 高维数据挖掘最新研究的情况, 并在此基础上进行了总结和展望。

关键词：数据挖掘,高维数据挖掘,稀疏性

参考文献

[1]李泽安等, Beta回归模型在数据挖掘预测中的应用, 南通大学学报 (自然科学版) 2009, 8 (3) :83-85

[2]郑世明等, 网格环境下基于WEKA4WS的分布式矩阵关联规则挖掘算法, 南通大学学报 (自然科学版) , 2010, 03

高维数据挖掘篇2

二、文献选读内容分析及思考

（一）Borg算法

Borg算法是基于ε-MOEA算法（Deb，2003）的一种全新改进算法[32]，下面将从创新点、原理、算法流程和启发思考四方面进行阐述。1.创新点

1）在ε支配关系的基础上提出ε盒支配的概念，具有能同时保证算法收敛性与多样性的特点。

2）提出了ε归档进程，能提高算法计算效率和防止早熟。3）种群大小的自适应调整。

4）交叉算子的自适应选择。由于处理实际问题时，是不知道目标函数具有什么特性，前沿面如何，在具有多个交叉算子的池子里，根据进程反馈，选择不同的交叉算子，使产生的后代具有更好的特性针对要研究的问题。2.Borg算法原理

1）ε盒支配：通过对目标空间向量的每一维除以一个较小的ε，然后取整后进行pareto支配比较。这样的支配关系达到的效果是把目标空间划分成以ε为边长的网格（2目标时），当点处于不同的网格时，按pareto支配关系比较；当处于同一网格时，比较哪个点距离中心点（网格最左下角）最近。这样一来，网格内都只有一个点。

2）ε归档进程

如图1所示，黑点表示已经归档的，想要添加到档案集的新解用×表示，阴影表示归档解支配的区域。当新解的性能提升量超过阈值ε才属于ε归档进程。比如解

1、解2加入归档集属于ε归档进程，解3加入归档集就不属于ε归档进程。

图1 ε支配网格

在这个过程中设置了一个参数c，表示每一代中加入归档集解得个数，每隔一定迭代次数检测c有没有增加，如果没有增加表明算法停滞，重启机制启动。

3）重启

自适应种群大小：重启后的种群大小是根据归档集的大小设置。γ表示种群大小与归档集大小的比值，这个值也用于第二步中，如果γ值没超过1.25，重启机制也启动。启动后，γ人为设定为固定值，种群被清空，填充归档集的所有个体，不足的个体是随机选取归档集中个体变异所得。与之相匹配的锦标赛比较集大小是归档集大小乘以固定比值τ。

4）交叉算子的自适应选择

摒弃以往采用单一的交叉算子，采用包含各类交叉算子的池子，比如有K种交叉算子，选择概率最开始是相等的，设n表示各类交叉算子产生的后代属于ε归档进程所得个数，个数越多，选取相应交叉算子的概率就越大，逐渐趋于选择解决未知现实问题的交叉算子。3.Borg算法总体流程

通过交叉算子的自适应选择选择一种交叉算子，假设所选交叉算子需要K个父代，1个父代在归档集中按均匀分布选择，K-1个父代从种群中按锦标赛选择（大小按上述第3步中计算），交叉产生一个后代，如果这个后代pareto支配种群中一个或多个个体，则随机的取代一个；如果被种群中的任一个体支配，则不能加入种群；如果互不支配，也是随机的取代种群中的一个。而加入归档集，是按照上述第2步实施的。如此循环一定代数之后，看达没达到第3步重启的条件，达到则重启过程开始，直至满足终止条件。4.思考

1）ε盒支配时，同一网格内的点只是比较离中心点距离最近的，这就有一个不足，最近的不一定是非支配解，离的远的点有可能还支配它，我觉得还需要比较一下哪个解优的目标维数多。

2）设计一种云交叉算子，加入到交叉算子的池子里，或是参数控制云交叉算子替换其中的能达到类似效果的几种算子，便于统一。

（二）基于模糊支配的高维多目标进化算法 1.算法简介

基于模糊支配的高维多目标进化算法[33]是对模糊支配关系的一种改进，2005年M.Farina首次提出的模糊支配，其隶属函数是一条正态分布函数，如图2所示，而此文的隶属函数是一条半正态分布函数，表达的概念更加清晰。

图2 正态隶属函数

对于最小化问题，归一化后的解A（a1,a2,...,aM），B（b1,b2,...,bM）如果目标向量的某一维上的差量（ai-bi）达到-1，则ai好于bi的程度为1，即pareto支配关系下ai支配bi；如果差量（ai-bi）是1，则pareto支配关系下bi支配ai。A模糊支配B程度为每一维差量映射下的隶属度之积，与种群中其他解进行比较，所得隶属度相加即为A解在整个中群众的性能好坏程度，相当于NSGA-II中的非支配排序，只是这里的等级程度更加细分，然后还得设置一个阈值α，即模糊支配隶属度达到多少才能是最优解，也就是NSGA-II中的非支配排序等级为1的解。设定这个值是关键，此文献也对这个值得选取进行了实验说明，针对不同的问题选取不同的值，但是还没能达到根据问题特性自适应调整。2.思考

1）既然隶属度函数不是一成不变的，想用云模型确定隶属度，借鉴张国英《高维云模型及其在多属性评价中的应用》构造一M维云模型，它的作用是输入M维差量映射为一维的模糊支配隶属度u，无需像上文中求出每一维隶属度再相乘。

2）由于阈值α不好确定，可不可以根据归档集的大小取前N个，找到使个体数量大于等于N的u值为α。

（三）基于网格支配的高维多目标进化算法

GrEA[34]也是针对ε-MOEA算法进行改进的，作者认为ε-MOEA算法中的网格划分是基于个体的，如果个体分配不均匀，也就不能得到分布性好的最优前沿，而且网格的大小也不能随着目标空间的特性而自适应调整。1.支配关系创新

grid-dominance，这种支配关系是基于空间区域划分网格，就是在当代种群中找出每一个目标函数上的最大值与最小值（下图上行），然后根据这两个值计算出这个目标函数的网格上下界值（下图下行）。人为设定每一个目标函数需划分的段数div,是一个固定的值，这样就使得收敛性与多样性的要求随着算法进程自适应调整，比如说刚开始时目标空间的个体分布比较广，就需要大的网格来选择个体，随着算法深入，个体更加集中于Pareto前沿区域，就需要小的网格区分个体，更加强调个体的多样性，因此这样动态的网格划分更能体现算法的进程。另外，ε-支配强调个体生死，只有非支配才能加入归档集；而grid dominance不同，它更强调个体的先后，非支配个体只是先于支配个体进入归档集，支配个体还是有机会加入归档集，这在一定程度上保留了边界点，而ε-MOEA算法会丢失边界点。

图3 网格分段示意图

2.适应度值指派创新

本文提出了适应度值指派的三个指标grid ranking(GR)、grid crowding distance(GCD)和grid coordinate point distance(GCPD)，GR和GCPD是收敛性评价指标，GCD是多样性评价指标，网格指标如图4所示。

GR表示个体所处网格各维目标函数坐标之和，相当于将目标向量各维相加，只不过这里是将函数值映射为所处网格坐标值之和。比如下图A点的网格坐标为（0,4），则GR=0+4=4。

GCD是网格拥挤距离，以往的网格拥挤距离都是在一个网格之内的，这样就不能反映分布性了，此处的GCD还考虑临近网格的个体，用网格坐标的差量之和评估，之和越小的GCD值就越大，多样性就越差。如下图C的邻居是B、D，F的邻居是E、G。

GCPD表示的是同一网格内与中心点的距离，这一点与ε-MOEA中相同。比较的先后准则是GR，GR相同比较GCD，GR、GCD都相同则比较GCPD。

图4 网格指标示意图

3.归档策略的改进

以往的归档策略都是基于适应度值的支配关系选择删除，这样会导致解集多样性的缺失，因为相邻的点具有相似的适应度值，会使他们同时被选择或删除，比如上图的E、F、G，这样多样性会得不到保证。本文作者对归档策略进行了改进，就是当一个个体加入归档集时，在归档集中和它相关的个体GR值会受到惩罚，相关的个体包括：1.处于同一网格坐标 2.被网格支配的 3.邻域个体，惩罚力度依次减小。

（四）基于坐标转换的高维多目标进化算法

针对原始的密度评估算子在高维多目标中会出现不能很好的兼顾收敛性与多样性，解集往往会有很好的多样性而收敛性差的缺点，论文设计了一种包含收敛性的密度评估算子shift-based density estimation(SDE)[35]。比如图5中的A点，按照基于pareto支配的多目标优化算法来看，是非支配解切多样性好于B、C、D，但很明显得看出A点收敛性不及BCD。SDE是将各维目标函数上小于A点对应维的值转化为A点那一维的函数值，如下图所示。转换之后A点的密度值较大，而BCD密度值较小，符合所考虑的情况

图5 坐标转换示意图

从图6的四图中可以看出，只有收敛性和多样性都好的个体，其SDE值小，即其值不仅体现密度信息，而且将收敛性信息也包含在内。SDE是一种通用的密度评估算子，可以将其植入NSGA-II，SPEA2和PESA-II中。

图6 拥挤密度示意图

（五）基于角点排序的高维多目标进化算法

本文是在非支配排序上的改进。在高维多目标优化问题中，随着目标维数的增加，非支配解之间的比较次数是非常大的，因此论文提出了角点支配。所谓的角点指的是在M维目标空间中只考虑其中k个目标，在本文中只考虑一个目标函数上的，因为在一个目标函数上最好的点肯定是非支配解。二维、三维角点分别如下图所示。

图7 二维、三维角点示意图

找到角点后，所有被角点支配的点就不用比较了，大大减少评价次数。而且本文还指出非支配解排序的比较次数应该是精确到每一维的目标函数的比较上，因为每两个解之间目标函数的比较次数从2到M，也就是说不同的两个解之间比较所花费的计算量是不同的，只计算一个解与其他解的比较次数是不对的。角点支配排序大致过程如图8所示。

图8 角点非支配排序

图8是2维目标函数的情况，首先得找出每一维目标函数上最好的点，如上图A中的白点，标记他们所支配的点如上图阴影区域，这些点在当前等级中就不考虑排序了，在剩下的点中再寻找两个角点，直到将所有的点都标记，如图B，B中白点表示等级1，等级2、3依次进行。

（六）NSGA-III算法系列文献 1.MO-NSGA-II 为了适合解决高维多目标问题，Kalyanmoy Deb针对NSGA-II的缺点，提出了MO-NSGA-II（many-objective NSGA-II），这是NSGA-III的雏形。MO-NSGA-II的基本框架和NSGA-II差不多，不同之处在于精英选择机制上，因为原有的选择机制对快速增加的非支配解已经没有选择压力。MO-NSGA-II是一种基于参考点的多目标算法，放置分布性好的参考点，使得到的非支配解靠近这些参考点，就能得到分布性好的最优前端。

让我们回顾一下NSGA-II，有一个大小为N的当前种群Pt，由他产生的子代种群Qt，大小也为N，然后对Pt、Qt的合集Rt进行快速非支配排序F1、F2...Fi,将这些点按等级加入下一代种群Pt+1，通过对Fl中个体计算拥挤距离按降序排列，依次加入Pt+1，直到种群大小为N。

参考点的设置就是从这里开始，取代原有的拥挤距离。均匀分布的参考点可以通过一些特定的系统产生。

1）超平面的建立。设F1、F2...Fi的合集为St，在这个集合中找到每一个目标函数值最小的点组成理想点zminminmin(z1min,z2,...,zM)，将目标函数值转化为相对的minf‘i(u)=fi(u)zi，然后种群中的点通过一个聚集函数求最小值（它是相对于在某一维坐标轴上的参考点的）把它当成这一维的端点，通过这M个端点构造超平面，根据这个超平面重新计算参考点，这个超平面在每一代中都不同，所以它是可以根据种群特性自适应调整。

2）选取低拥挤度的解。为了确定解集拥挤度，需要把所有的点投影到超平面上（如图9左图），找到与之距离最近的参考点，这样每个参考点就会有一定数量的解与之相关联（如图9右图）。选择参考点周围个体最少的参考点，选出Fi解集中在这个参考点下ASF最小的点加入Pt+1。再选出个体数次最少的参考点，选出Fi解集中在这个参考点下ASF最小的点加入Pt+1，直到加满Pt+1。

图9 关联操作

3）锦标赛选择。当Pt+1形成，用锦标赛方法产生后代Qt+1，具体操作是从Pt+1任意挑选两个解，比较策略是如果一个解的非支配等级小于另一个解，选择前一个解；如果同处一个非支配等级但是所属参考点的拥挤度不同，选拥挤度小的点；如果非支配等级和所属参考点的拥挤度都相同，则选ASF值小的。然后采用模拟二进制交叉算子，产生后代Qt+1，然后在合并进行第一步，依次循环。2.NSGA-III 本文作者针对上文提出的MO-NSGA-II作了适当改进，提出了NSGA-III。1）超平面的建立。与上文不同的是，本文将超平面进行了归一化处理，找到基于坐标轴上的参考点的每一维端点zmax后，还必须将组成的超平面延伸相交于fi，坐标系，截距为ai，如图10所示。

图10 端点归一化示意图

2）个体与参考点的关联操作。上文中是将个体投影到超平面上，而此文是个体与参考线方向的垂直距离（参考线方向是参考点与理想点的连线方向），如图11所示。

图11 关联操作

3）小生境保留操作。此处本文与上文有个很大不同，本文只计算排除Fi的St，的小生境数，选出围绕参考线个体为0的参考线，如果有多条则任选一条，即0，这样Fi个体就有两种情况。第一，Fi中有一到多个个体与参考点j相j关联，这样就选一个与参考点j垂直距离最短的个体加入下一代种群Pt+1，加

j1。第二，如果，Fi中没有个体与参考点j相关联，则这个参考点在当前代就不用考虑了。如果0，则从Fi中与参考点j相关联的个体集合中任选一个，jj加1。重新调整小生境数，直到加满Pt+1。3.C-NSGA-III 上文提出的NSGA-III是处理无约束的问题，本文为处理约束条件，对NSGA-III进行了改进。1）精英选择操作上的改进，用约束支配取代pareto支配，和NSGA-II为处理约束条件的约束支配原则是一样。此时的种群一般既有可行解，还有不可行解，如果可行解的个数NfN，那么还需要从具有最小约束违反度的不可行解中选取个体加满Pt+1；如果NfN，则按照无约束的NSGA-III精英选择操作进行，接着也要用Pt+1中可行解更新理想点和端点。

2）子代种群生成。锦标赛选取规则是任选两个解，如果一个可行解，一个不可行解，选可行解；如果都是不可行解，选约束违反度小的；如果都是可行解，任选一个；这样选择出一个父代，再进行一次，选出另一个父代，模拟二进制交叉，然后变异。

但是通过实验发现上述算法有个不足，由于约束条件的存在，可行区域可能只是整个区域的一小部分，然而参考点是均匀的分布在目标向量空间，导致不是每个参考方向都能与最有前沿面相交，也就是说有一部分参考点是没用的，而用到的参考点会与多个个体相关联，又不能达到好的分布性，如图12所示。

图12 参考点自适应调整

这就涉及到一个问题：如何使所有的参考点能均匀分布在可行区域上，理想的方法是能分配所有的参考点均匀地分布在最优前沿面，但是对于不同的问题最优前沿面是未知的。于是本文作者提出了自适应的NSGA-III，叫做A-NSGA-III，让它能够自适应鉴别出无用的参考点然后分配他们，希望能找到新的最优解。于是在原有的NSGA-III生成大小为N的Pt+1后，有两个新的操作1.增加新的参考点 2.消除无用的参考点。

1）增加新的参考点。由于参考点个数等于种群规模，理想情况是一个参考点一个个体，当参考点j方向的小生境数j1，则必存在参考点k方向的小生境数，k0。我们针对参考点j，在其周围增加M个参考点的单纯形（单纯形法是一类在小范围内具有更精细搜索效果的优化算法，能提高点的多样性），如下图所示三维空间中具有三个顶点的单纯形扩展。

图13单纯形扩展法

但是扩张的点有两种情况是不接受的：1.不在第一象限 2.在参考点集中已经存在

2）消除无用的参考点。扩张完后的参考点可能存在一些无用的，则消除那些j0的扩展点，而原始的参考点j0是要保留的，有可能下一代就有用了。4.A2-NSGA-III 论文针对A-NSGA-III的四点缺点进行了改进，提出了A2-NSGA-III，四点缺点如下：

1）当问题的最优前沿面很小时，A-NSGA-III扩张操作不能提供足够的参考点使种群分布均匀。

2）扩张操作不适合角点，因为以角点为中心扩张生成的点不在第一象限或出界。

3）由于扩张操作是从第一代开始，种群较分散，离最优前沿面较远，很可能没有足够的时间使种群在各个区域均匀分布而由于额外的扩张点陷入局部最优。

4）只有当所有参考点小生境数为0或1时才开始消除操作，对于高维多目标，由于种群变大，这个条件很难达到。

改进措施：选取参考点为单纯形的一个顶点，而不是中心，且边长减半，而且这样可以有三种外形，如图14所示。

图14 改进单纯形扩展法

当添加一个外形后，还有小生境数大于1的，采用另一个外形，直到所有M个外形都采用，如果还有，则单纯形的边长再取半，直到小生境数为0。在一个外形加入之前，需要进行检查：1.如果外形的点超出边界是不被接受，比如上图Q点，外形1、3是不被接受的。2.如果外形的点在参考点中存在，也是不被接受。

这样的扩张操作引入了更多的单纯形，能缓解第一个缺点；以参考点为顶点半边长的单纯形适用于定点，比如Q点，缓解了第二个缺点；只有当原始的参考点小生境数在过去的10代稳定在一个定值，则扩张的点才被接受，这样能克服第三个缺点；只要参考点总数达到原始参看点个数的10倍，消除操作就开始，这样能克服第四个缺点。

（七）MOEA/D-M2M MOEA/D-M2M是将高维多目标问题分解为多个简单的多目标优化子问题，通过协同方式解决这些子问题，每个子问题对应一个子种群，通过这种方式种群多样性得到维护。它是针对MOEA/D的存在的两个缺点进行的改进。

MOEA/D有两个缺点：

1）一个新个体不该完全根据聚合函数值取代旧个体，因为在有些情况下，这样完全取代会导致种群多样性的丢失。

2）对于不同的问题，MOEA/D总是需要设置合适的聚合方法和权重向量，而这个在解决问题之前是很困难的。

均匀生成K个单位方向向量，将目标空间划分为K个子区间，通过计算N个种群个体所在方向与K个单方方向的夹角，将n个个体划分到k个区域里。这样基于方向向量分解目标空间有两个好处：

1）每个子区域的局部最优前沿面可以组成整个最优前沿面。2）即使整个区域的最优前沿面是非线性几何形状（不规则），经过分解，各个子区域只是整个区域的一小部分，所以最优前沿面在子区域内可以很接近线性形状。而求解线性形状的最优前沿面比非线性几何形状简单得多。

（八）-DEA算法 1.算法简介

近期进化算法上有人基于NSGA3提出一种基于新型支配关系支配的高维多目标优化算法-DEA，它通过引入分解算法MOEA/D中的PBI聚合函数来提高NSGA3的收敛性。出发点是整合NSGA-III 和MOEA/D，达到优势互补。通过分析，文章作者得出：

1）NSGA-III 强调的是个体中靠近参考线的Pareto非支配解，然而目标维数增大时，会导致非支配解个数也急剧增多，基于pareto支配关系的NSGA-III 将缺乏足够的选择压力去促使种群向最优PF面进化，事实上NSGA-III 过多的侧重于多样性而导致收敛性不足。

2）MOEA/D通过基于聚合函数的选择操作能很好地逼近最优PF面，在高维情况下收敛性也很好，而多样性试图通过设置均匀分布的权重向量来维护，低维可以到达目的，但是在高维情况下就不适用了，因为在高维空间中，一个具有很好聚合函数值的解有可能离相应的权重向量很远，那么多样性就会缺失。

综上所诉，NSGA-III收敛性不足，MOEA/D多样性缺失，因此作者通过引入MOEA/D的聚合函数来提高NSGA-III的收敛性，而继承NSGA-III优良的多样性。

2.算法步骤

St1）合并父代种群Pt和子代种群Qt，组成Rt，对Rt进行非支配排序，i1Fi，其中Fi表示第i层pareto前沿，满足i1FiN,i1FiN

2）以N个权重向量为聚类中心，将St中的个体聚类到各个权重向量附近（各个权重向量附近个体数是不一样的），然后通过支配关系对每一个类内个体划分等级。这里所说的支配也就是MOEA/D中的PBI聚合函数，如图15所示。

1图15 PBI聚合函数示意图

其中，d1越小，代表x解的收敛性越好；d2越小说明越靠近权重向量，多样性越好。

综合这两者表示一个解的优劣，可以令Fj(x)dj,1(x)dj,2(x)，如果Fj(x)Fj(y)，我们就说x支配y，其中是惩罚系数，实验仿真取5（对5作解释）

说明一下，这里通过支配关系对每一个类内个体划分等级，其实每一个等级上只有一个解，因为Fj(x)是一个可以比较大小的数值。

3）以此取每一个类里的第一等级，第二等级，以此类推，直到选择最后一个等级，他加入的话大于N，不加入就少于N，然后随机的在这一等级里选取个体满足数量N。3.思考

1）对-DEA的改进，在第三步中，是随机的在最后一等级里选择，而我的想法是定向的选择类内个体数少的那一类的最后等级个体，能够进一步提高多样性。

2）NSGA-III在多样性维护阶段只是依靠d2来选择个体，会导致收敛性不足，而-DEA在考虑多样性d2的同时稍微考虑一点收敛性d1，根据这一点我对自己的多个子种群进化算法做了进一步改进，将子种群中由以前只依靠d2选择个体变为d1+5d2。

3）NSGA-III和-DEA都是先进行非支配排序后聚类，不同的是NSGA-III通过评估每一个类里的小生境数选择小生境数少的类内个体，而-DEA是通过支配循环选择每一类个体，因此我可以将我的子种群的NSGA-III模式改为-DEA模式。参考文献

[1] R.C.Purshouse, P.J.Fleming.On the Evolutionary Optimization of Many Conflicting Objectives.Evolutionary Computation, IEEE Transactions on.2007, 11(6): 770-784 [2] 孔维健, 丁进良, 柴天佑.高维多目标进化算法研究综述.控制与决策.2010(03): 321-326 [3] 巩敦卫, 季新芳, 孙晓燕.基于集合的高维多目标优化问题的进化算法.电子学报.2014(01): 77-83 [4] E.Hughes.Radar Waveform Optimisation as a Many-Objective Application Benchmark.In: Evolutionary Multi-Criterion Optimization--S.Obayashi, K.Deb, C.Poloni, T.Hiroyasu, T.Murata, eds.: Springer Berlin Heidelberg, 2007: 700-714 [5] A.Sülflow, N.Drechsler, R.Drechsler.Robust Multi-Objective Optimization in High Dimensional Spaces.In: Evolutionary multi-criterion optimization: Springer, 2007: 715-726 [6] R.Lygoe, M.Cary, P.Fleming.A Real-World Application of a Many-Objective Optimisation Complexity Reduction Process.In: Evolutionary Multi-Criterion Optimization--R.Purshouse, P.Fleming, C.Fonseca, S.Greco, J.Shaw, eds.: Springer Berlin Heidelberg, 2013: 641-655 [7] K.Deb, A.Pratap, S.Agarwal, T.Meyarivan.A Fast and Elitist Multiobjective Genetic Algorithm: Nsga-Ii.Evolutionary Computation, IEEE Transactions on.2002, 6(2): 182-197 [8] E.Zitzler, M.Laumanns, L.Thiele.Spea2: Improving the Strength Pareto Evolutionary Algorithm.TIK, Swiss Federal Institute of Technology(ETH.2001 [9] D.W.Corne, N.R.Jerram, J.D.Knowles, M.J.Oates, J.Martin.Pesa-Ii: Region-Based Selection in Evolutionary Multiobjective Optimization.In: Proceedings of the Genetic and Evolutionary Computation Conference(GECCO’2001, 2001: 283--290 [10] 陈小红, 李霞, 王娜.高维多目标优化中基于稀疏特征选择的目标降维方法.电子学报.2015(07): 1300-1307 [11] H.Ishibuchi, N.Tsukamoto, Y.Nojima.Evolutionary Many-Objective Optimization: A Short Review.In: Evolutionary Computation, 2008.CEC 2008.(IEEE World Congress on Computational Intelligence).IEEE Congress on, 2008: 2419-2426 [12] K.Deb, M.Mohan, S.Mishra.Evaluating the ϵ-Domination Based Multi-Objective Evolutionary Algorithm for a Quick Computation of Pareto-Optimal Solutions.Evolutionary Computation.2005, 13(4): 501-525 [13] H.Sato, H.Aguirre, K.Tanaka.Controlling Dominance Area of Solutions and Its Impact on the Performance of Moeas.In: Evolutionary Multi-Criterion Optimization--S.Obayashi, K.Deb, C.Poloni, T.Hiroyasu, T.Murata, eds.: Springer Berlin Heidelberg, 2007: 5-20 [14] Y.Shengxiang, L.Miqing, L.Xiaohui, Z.Jinhua.A Grid-Based Evolutionary Algorithm for Many-Objective Optimization.Evolutionary Computation, IEEE Transactions on.2013, 17(5): 721-736 [15] Z.He, G.G.Yen, J.Zhang.Fuzzy-Based Pareto Optimality for Many-Objective Evolutionary Algorithms.Evolutionary Computation, IEEE Transactions on.2014, 18(2): 269-285 [16] 毕晓君, 张永建, 陈春雨.基于模糊支配的高维多目标进化算法mfea.电子学报.2014(08): 1653-1659 [17] A.Jaimes, L.Quintero, C.C.Coello.Ranking Methods in Many-Objective Evolutionary Algorithms.In: Nature-Inspired Algorithms for Optimisation--R.Chiong, ed.: Springer Berlin Heidelberg, 2009: 413-434 [18] Z.Xiufen, C.Yu, L.Minzhong, K.Lishan.A New Evolutionary Algorithm for Solving Many-Objective Optimization Problems.Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on.2008, 38(5): 1402-1412 [19] E.Carreno Jara.Multi-Objective Optimization by Using Evolutionary Algorithms: The

Src=“/Images/Tex/387.Gif”

无从感知的高维空间篇3

任一级低维空间都是高一级空间的横截面，并以高一级空间多出的维度为轴线移动而形成高一级空间模式。例如：线是面的横截面，以宽为轴线移动成面。只是在理论上，任一维空间仅仅只被本维空间的特有维度所确立。实际上，任一维空间除被本维空间的特有维度确立外，总是以横截面的形式在高一维空间有所体现。

只是这种以横截面形式呈现的要以不影响它依旧保有本维空间的实质为前提。例如：任一能被我们感知到的线都具有一定的宽度，只有长度没有宽度的线只在理论上才能成立。同样，任一能被我们感知到的面都具有一定的厚度(高)，而任一能被我们感知到的体都占据一个时间点(现在)，只有长、宽、高而不占据时间点(现在)的体是不存在的。

了解了上面的理论，我们就可以探讨生命形式在各自所适应的空间模式中的特性了。

生存在任一维空间的生命形式只对确立本维空间的维度有感知，而高一维空间的那个特有的维度对它们便是认知的极限了。

蚂蚁是典型的适应二维空间的生命形式。它们的认知能力只对前后(长)、左右(宽)所确立的面性空间有感应，不知有上下(高)。尽管它们的身体具有一定的高度，那也只是对三维空间的横截面式的关联。蚂蚁上树也并不知有高，因为循着身体留下的气味而去，它们在树上只会感知到前后和左右。我们都做过这样的游戏：一群蚂蚁搬运一块食物向巢里爬去。我们用针把食物挑起，放在它们头上很近的地方，所有蚂蚁只会前后左右在一个面上寻找，决不会向上搜索。对于蚂蚁来说，眼前的食物突然消失实在是个谜。当它们依据自己的认知能力在被长、宽确立的面上遍寻不着时，这块食物对它们来说就是神秘失踪了，因为这块食物已由二维空间进入到三维空间里。只有我们把这块食物再放在它们能感知到的面上，蚂蚁才可能重新发现它。这对于蚂蚁来说，却又是神秘出现了。如果蚂蚁能思考的话，眼前这块食物的神秘失踪和神秘出现足以让它们世世代代不得其解。可见三维空间的高是生存在二维空间中的蚂蚁们的认知极限了。

由此联想起我们人类社会里传闻中的神秘失踪案和神秘出现事件。我们人类是生存在三维空间里的生命形式，我们的认知极限是空间只可能由长、宽、高确立，并占据一个时间点(现在)。人类社会的万千事物都只能存在于长、宽、高确立的空间和与时间的接触点“现在”所构成的生存模式中。由上述推论得知：三维空间肯定是四维空间的横截面，是以四维空间多出的维度——时间为轴线移动而形成四维空间的。就是说在四维空间中，长、宽、高形成的体与时间的结合不是一点(现在)。而是拉长的“现在”，就是我们在三维空间中所认为的“过去”、“现在”和“将来”的集合。四维空间的模式就应是体可以自由地与时间结合，没有“过去”、“现在”和“将来”的概念。它打破了我们三维空间中的体与时间的结合只能局限于一点(现在)的认知极限。四维空间的体与时间的结合是自由的，当四维空间里的体和与之结合的时间在我们三维空间的人类认知里是“将来”的时间概念时，这个体在我们人类的感知中便发现不了，因为我们看不到将来的事物。如果四维空间的体和与之结合的时间是我们人类所认为的“过去”的时间概念时，我们同样感知不到，因为我们也看不到过去的事物。如果我们身边的物体不知什么原因掉进了四维空间中，与我们认为的“过去”和“将来”的时间结合了，立足于“现在”时间点上的我们会感到这个物体在我们眼前突然消失了。用我们的知识能力在上下、左右、前后立体地搜索不见时，我们就会认定出现了神秘失踪案。如果这一物体在四维空间里又自由地和我们所认为的“现在”的时间结合了的时候，由于物体回到了我们认知能力所及的时空交会点，就像我们把食物重新放在蚂蚁能感知到的地面上一样，我们又会认为物体神秘出现了。

高维数据对象聚类算法效果分析篇4

聚类分析是数据挖掘领域中的一项重要的研究课题, 高维数据对象的聚类又是聚类分析的重要研究课题, 也是涉及到聚类算法是否能够有效地应用于各个领域, 例如多属性 (高维) 流数据的聚类分析。高维数据的特点表现为: (1) 高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零; (2) 高维空间中数据比低维空间中数据分布稀疏, 其中数据间距离几乎相等是普遍现象。目前, 对高维数据的聚类主要有3种方法:属性转换、子空间聚类、协同聚类、属性转换是通过创建新属性, 将一些旧属性合并在一起来降低数据集的维度的方法。目前, 主成分分析方法 (PCA) 、自组织特征映射 (SOM) 、多维缩放 (MDS) 、小波分析等是普遍应用的降维方法。虽然采用降维技术使得数据的维度大大降低, 但数据的可理解性和可解释性变得较差, 一些对聚类有用的信息也可能会随之丢失, 很难准确地表达和理解结果。在处理高维数据时, 采用属性转换的方法得到的聚类效果并不是很理想, 有一定的局限性, 不能满足当前高维聚类算法发展的需要。

子空间聚类算法对特征选择的任务进行了拓展, 它是在同一个数据集的不同子空间上进行聚类。子空间聚类和特征选择一样使用搜索策略和评测标准来筛选出需要聚类的簇, 因为不同的子空间上存在不同的簇, 因此我们要对评测标准设置一些条件。

协同聚类在数据点聚类和属性聚类之间达到了一种平衡。因为它从对象—属性两个角度同时进行聚类操作。假设X是由数据对象和数据属性构成的矩阵, 一般被叫做关系矩阵、可能性矩阵、影响矩阵、频率矩阵等。一般被应用于反映基因响应的强度、一个Web页面的点击率, 或一个仓库里各项商品的销售数量等。Govaert于1995提出了可能性矩阵表中行列块的同时聚类算法。Dhillon于2001年提出了一种协同代数聚类算法, 它与文本挖掘相关, 是基于二部图和它们的最小切割的。Oyanagi等人于2001年提出了一种简单的Ping-Pong算法, 它能在稀疏二元矩阵中发现相应区域, 该算法能建立矩阵元素的横向联系, 并用此来重新分布列对行的影响, 并反过来进行。

本文在对数据对象间的最大距离和平均距离随维数增加的变化趋势实验基础上, 通过实验研究了聚类算法的聚类精度随数据对象维度的变化特征。同时, 提出了利用复相关系数倒数阈值实现降维的方法。

2 数据对象离散度与维度的关系

2.1 实验数据

实验中所用的数据集均来自UCI数据库, 数据集包括Iris, Wine, Wisconsin Diagnostic Breast Cancer, SPECT Heart和Libras Movement。数据集的详细描述见表1。

2.2 相关定义

为了确定数据对象随维度变化规律, 我们定义了数据对象间的最大距离和平均距离来定量确定数据对象间的离散度。

最大距离:假设数据集D有n个数据对象, 每个数据对象有d个属性 (维) , 即Xi={xk, k=1, …, d}, i=1, …, n。数据对象间的最大距离被定义为:

平均距离:数据对象间的平均距离被定义为:

2.3 实验结果

为了研究维数对聚类精度的影响, 有必要研究对象间的距离随维数增高的变化趋势。根据上面定义的公式 (1) 和公式 (2) , 数据对象间的最大距离和平均距离随维数的增加而增大。我们使用UCI数据库中的Libras Movement数据集, 先对数据集进行最小—最大标准化处理, 然后计算此数据集中数据对象间随维数增高的最大距离和平均距离。实验结果分别显示在图1和图2中。

如图1和图2所示, 随着维数的增加, 数据对象间的最大距离和平均距离逐渐增大。表明数据对象在高维数据空间变得比较稀疏, 很可能导致数据空间中客观簇的消失, 使得基于距离的聚类算法往往不能够取得良好的聚类效果。因此, 为了获得有效的聚类结果, 基于距离、密度和密度可达的聚类算法有必要进行改进或降维。

3 维数对算法聚类精度的影响

3.1 直接聚类

我们给出了确定聚类效果的准确度公式。假设数据集D中有k个类, 即Ci (i=1, …, k) , Oip (p=1, …, mp) 是类Ci中的数据对象。数据集D经过聚类后, 出现了k个类Ci′ (i=1, …, k) , O′ip (p=1, …, mp′) 是Ci′类中的数据对象, 准确度被定义为:

|Ck∩Ci′|是同时属于类Ci和Ci′的数据对象Oip (p=1, …, mp) 和Oip′ (p=1, …, mp′) 的个数;|D|是数据集D中的数据对象的个数。

为了研究维数对算法聚类精度的影响, 我们分别用K-means和层次聚类算法对以上5个不同维数的数据集进行聚类分析, 聚类结果如图3所示。当数据集的维数小于30的时候, 两种聚类算法的性能较好, 当数据集的维数大于30的时候, 聚类算法的精度随维数的增高而降低。实验结果在一定程度上表明, 当数据集的维数小于30的时候, 传统的聚类算法, 如K-means和层次聚类算法, 这种基于距离的聚类算法是有效的, 但是当维数大于30的时候它们的聚类结果很不理想。

3.2 PCA降维聚类

Wine数据集有13维, 经过主成分分析 (PCA) 降维后, 原有的13维变成了3维, 为了比较PCA降维前和降维后的效果, 我们用K-means和层次聚类算法对原有的数据集和经过降维后的数据集进行聚类, 结果如图4所示。

对数据集降维后, K-means和层次聚类算法的聚类精度有所提高, 但是效果不是很明显。此结果也说明了K-means和层次聚类对30维以内的数据集的聚类精度比较高。

Libras Movement数据集有90维, 经过PCA降维后变成了10维, 降维前和降维后的聚类结果如图5所示。

降维前和降维后K-means和层次聚类算法的聚类精度都很低, 结果表明: (1) 以上两种聚类算法不能有效地处理高维数据; (2) PCA降维对聚类算法不总是有效的; (3) 此数据集包含15个类, 对于高维、多类的数据集, 聚类算法不能很好地辨别存在的类 (簇) 。

4 基于复相关系数倒数降维

4.1 复相关系数倒数加权

复相关系数的倒数赋权法是在方差倒数赋权法的基础上提出来的。假设数据对象的某一属性为Xk, 则它的复相关系数记为ρk。ρk越大, 表明Xk与其余的属性越相关, 越能被非Xk代替, 也就是说Xk属性对聚类的作用越小;反之, ρk越小, Xk与其余的属性越不相关, Xk属性对聚类的作用越大。所以可以用|ρi|-1计算数据对象属性权重系数wk。

因此, 数据点密度计算公式中的加权欧式距离公式为:

4.2 降维实验

我们也可以采用复相关系数的倒数赋权法作为一种特征选择方法, 对数据集中数据对象的每个属性加权后, 得到了每个属性的权值, 然后根据权值的大小, 我们设定一个阈值参数σ, 选择权值大于σ的属性, 从而实现了对数据集的降维, 然后对降维后数据集进行聚类。为了说明此方法的有效性, 采用k-means算法、层次聚类算法、CADD (基于密度和密度可达聚类算法) 算法对WDBC数据集和SPECT Heart数据集进行聚类, 来对比降维前和降维后的结果。

WDBC数据集有30个属性, 取权值σ≥0.036时, 该数据集降为3维;取权值大于0.034时, 该数据集降为6维;取权值大于0.033时, 该数据集降为15维。降为3维、6维、15维的数据集和原数据集的聚类精度如图6所示, 实验结果表明该数据集降为6维时聚类效果最好。

SPECT Heart数据集有44个属性, 取权值大于0.024时, 该数据集降为5维;取权值大于0.023时, 该数据集降为18维;取权值大于0.022时, 该数据集降为28维。降为5维、18维、28维的数据集和原数据集的聚类精度如图7所示, 实验结果表明该数据集降为18维时聚类效果最好。

Libras Movement数据集有90个属性, 取权值大于0.0111113时, 该数据集降为10维;取权值大于0.0111111时, 该数据集降为34维;取权值大于0.0111110时, 该数据集降为47维。降为10维、34维、47维的数据集和原数据集的聚类精度如图8所示。实验结果表明聚类算法对该数据集的聚类效果较差, 原因是此数据集包含15个类, 类比较多, 聚类算法不能很好地识别, 但是该数据集降为47维时聚类效果有所提高, 仍能体现出本文降维方法的有效性, CADD算法的聚类效果相对好一些, 从而体现了CADD算法的优越性。

由以上实验结果表明: (1) 采用复相关系数的倒数赋权法作为一种属性选择方法是有效的, 并且计算量较小, 适合处理高维数据; (2) 降维要降到合适的维度, 如果维数太少, 则会丢失对聚类重要的属性信息, 如果维数太多, 则会产生“噪声”, 影响聚类结果; (3) 一般的聚类算法不能很好地处理高维且类比较多的数据集, 因此有待于进一步研究能处理高维且类比较多的数据集的聚类算法。

5 结论

对于传统的基于距离的聚类算法, 当数据对象的维数小于或等于30时, 聚类分析往往能够取得良好的聚类效果;维数高于30时, 聚类效果不佳。甚至使用PCA降维后, 聚类算法对高维数据的聚类效果的改进也不是很明显。用复相关系数的倒数赋权法为差异度加权, 并且把复相关系数的倒数赋权法用作一种属性选择方法, 通过设定属性加权系数的阈值参数对数据对象进行降维也能取得较好的聚类结果。

摘要：虽然经典聚类算法能够有效地处理维度较低的数据对象, 但随着维度的增加, 算法的性能和效率就会明显下降。本文在对数据对象间的最大距离和平均距离随维数增加的变化趋势实验基础上, 对聚类算法的聚类精度随数据对象维度增加的变化特征进行了实验研究。同时, 利用复相关系数的倒数对属性进行加权, 提出了利用复相关系数倒数阈值实现降维的方法, 并取得了良好的实验结果。

关键词：高维数据,聚类效果,复相关系数,降维

参考文献

[1]冯永, 吴开贵, 熊忠阳, 等.一种有效的并行高维聚类算法[J].计算机科学, 2005, 32 (3) :216-218.

[2]王永卿.高维海量数据聚类算法研究[D].南宁:广西大学, 2007.

[3][加]Jiawei Han, [加]Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社, 2001.

[4]G Govaert.Simultaneous Clustering of Rows and Columns[J].Control and Cyberyretics, 1995, 24 (4) :437-458.

[5]Inderjit S Dhillon.Co-clustering Documents and Words Using Bipartite Spectral Graph Partitioning[C]//Proceedings and the7th ACM SIGKDD, New York, NY, 2001.

[6]Shigeru Oyanagi, Kazuto Kubota, Ahihiko Nakase.Application of Matrix Clustering to Web Log Analysis an d Access Prediction[C]//7th ACM SIGKDD, San Francisco, CA, 2001.

[7]宋宇辰, 张玉英, 孟海东.一种基于加权欧氏距离聚类方法的研究[J].计算机工程与应用, 2007, 43 (4) :179-180.

高维数据挖掘篇5

基于非线性反馈控制的高维混沌系统同步

采用非线性控制系统的微分几何理论,将原混沌系统进行输入-输出部分线性化,并结合极点配置方法,在一定的假设前提下,设计了一个实现高维混沌系统同步控制的反馈控制器,该方法可用于同步由单个状态变量或多个状态变量线性或非线性组合形成的`多输出信号的同步.所提出的控制器的设计方法简单、直观,并且具有相当的灵活性,可适用于相当广泛的非线性系统,计算机仿真结果证实了所设计控制器的有效性.

作者：王智良张化光作者单位：东北大学信息科学与工程学院,辽宁沈阳,110004刊名：东北大学学报(自然科学版) ISTIC EI PKU英文刊名：JOURNAL OF NORTHEASTERN UNIVERSITY(NATURAL SCIENCE)年，卷(期)：23(2)分类号：O415.5关键词：混沌控制混沌同步微分几何多输入多输出非线性系统线性化

高维数据挖掘篇6

关键词：三次样条；插值；边界条件

中图分类号：V212.1文献标识码：A

1引言

在建立飞行器模型后，如要进行仿真计算必须要得到相关的气动参数的值。但由于试验条件的限制，获得的气动参数不可能是整个飞行包线内完整的数据，也不可能是在每种飞行状态条件下连续的点[1]。然而在全程的仿真计算中，需要的是这些气动参数的在全部飞行状态下连续的点，于是我们就需要建立起这些气动参数与对其有影响的量之间的关系，从而得到所需的气动参数值。通常情况下，气动参数作为因变量是以数据表格的形式给出的，与它们相关的自变量是马赫数、高度、升降舵、方向舵、襟翼偏角等[2]。因变量与自变量之间的函数关系大多是非线性的[3]。一般的，在飞行器仿真计算中常采用插值的方式进行气动参数的计算。然而常用的线性插值法虽然方法简单，但是精度较低。当自变量个数较少时，线性插值的精度尚可，但是随着自变量个数的增多，其精度下滑就较严重。

高维时空中的煤层篇7

煤炭是人类重要的生产和生活资料, 在地球上许多地区广泛存在。煤层及含煤地层作为岩石圈的组成部分, 其形成和形变 (建造和改造) 的过程, 也记录着一些地球时空演化、变迁和地壳运动的信息。自工业革命以来, 煤矿床成为人类勘探开采规模最大的矿产之一, 揭露出大量地层和煤层剖面, 获取了海量的数据。本文将结合相关资料提出一些看法。

1 高维时空的确定标准和等时坐标系

高一级的时空结构应该包含着低一级的时空结构, 即N+1维时空应该包含N维时空, 是判别时空结构的维度是否增加的标准。

包含时间维是地学现象的基本特征和重要特色, 不存在无时间维的地质现象和地质作用。四维是地层的最低维度, 就煤层而言, 四维是其基本属性。因而研究地学现象宜采用四维坐标系, 四维坐标系也是等时坐标系。建立等时坐标系的重点是确立等时层位, 确定等时对比的基点。在演化时空当中, 等时层位的确定并非易事。煤层作为岩石圈层当中的异常层, 是灾难性淹没时间的产物和记录[2], 具有很强的等时性, 可以作为等时对比的基点。

煤层底板最为常见的为暴露相, 如:根土岩、古土壤层、古喀斯特面、风化黏土、铝土岩、铝质泥岩以及含有大量植物根化石等, 也有少数较深水或深水相如石灰岩等。无论是何种相, 均代表了沉积间断, 一种非煤物质的沉积间断。煤层的底界是一个非聚煤时空向聚煤时空的转换面。因此, 每个煤 (分) 层可以作为一个等时坐标系的节点, 在这个坐标体系中, 记录了包括煤层在内的一系列沉积体系和体系域的全过程, 其相关沉积体系的平面和垂向叠置关系符合瓦尔特相律。

2 厚煤层是高维时空地质体

2.1 厚煤层的建造过程是加维的

自然的复杂性不是简单的线性组合。多个一维建造成平面, 多个二维建造成三维空间, 即建造过程是加维过程。厚煤层的建造过程是多期成煤物质侧向加积产生次生垂向加积的叠合过程[2]。图1为煤层侧向加积形成的水平层理 (沁水盆地主采3号煤层地表露头 (山西高平) 。井下观察, 发育大量条带状、线理状及均一状结构) 。宏观上的厚煤层由多个煤分层和薄层夹矸复合而成。每个煤分层有各自独立的时空坐标系, 表现为煤分层在垂向、平面分布范围, 形成地质年代、成煤物质来源、成分以及相邻的沉积体系和体系域等并不一致。露天开采实践揭露, 准格尔煤田黑岱沟煤矿6号煤层厚30多米, 含有的煤分层及薄层夹矸均超过15层[3]。厚煤层包含多个不同的等时时间节点, 跨越不同的时空坐标系。由多个不同时空的四维煤分层地质体叠加耦合形成的就是一个五维时空煤层 (图2) 。图2中多个等时坐标系小角度叠置, 近于平行 (由5个煤分层叠合而成, 不同灰度是为区分煤分层。相邻煤分层之间常存在连续或近似连续的夹矸。分叉处有非煤的碎屑岩或碳酸盐岩呈楔状嵌入) 。它符合N+1维时空包含N维时空这一判别时空结构加维标准。整体的时空维度要大于局部的。局部为四维时空结构时, 整体要大于或等于四维。

当不同时空坐标系中聚煤的那一部分叠加、耦合、扭曲、合并在一起时形成厚煤层, 否则煤层分叉、变薄直至消失。山西沁水盆地主采煤层之一的3号煤层 (图1) 4个煤分层耦合在一起大面积展布, 形成五维时空煤层, 这个五维煤层厚层区在山西省境内近10 000 km2, 在整个华北面积很大, 向西在山西沁源、屯留西部分叉, 向北在河北南部分叉, 向东在鲁西南才出现分叉[2]。图3为露天开采揭露的内蒙东部赤峰元宝山断陷盆地煤层断面。含煤建造为晚侏罗—早白垩世地层, 其中阜新组主要煤层、煤组 (5、6号) 在盆地中部合并成巨厚煤层, 总厚100多m。厚煤层之间有粗碎屑岩呈楔状嵌入, 横向变化很大, 局部分叉成马尾状。含煤建造形成后, 曾遭受构造变动, 但比较轻微[4]。图3中展示不同的煤层 (组) 沉积构造明显不协调, 多个等时坐标系呈一定角度叠置, 煤分层扭曲在一起时合并为厚煤层。

建造过程中, 每个四维时空煤分层还记录着成煤物质未固结时产生的软沉积变形构造及一些古地震记录, 如多种滑塌、包卷层理以及通过煤层开采揭露出的负载构造等。山西省沁源、灵石、介休、平遥等地的一些矿山开采9+10号煤层, 其基本顶为K2石灰岩, 常揭露出一种顶板构造, 当地人称为“奶头顶”, 实质是一种负载构造, 即煤层还未固结成岩时, 上覆石灰岩沉积压入软沉积煤层中产生的变形构造。井下观察发现, 这类构造仅对最上部煤分层 (9号煤层) 有影响, 下部煤分层 (10号煤层) 则不见痕迹。一方面表明, 煤层与较深水沉积 (石灰岩) 相对连续, 属于同一时空坐标系;另一方面, 也表明上下部煤分层之间沉积不连续, 是间断的, 上部煤分层沉积时, 下部的煤分层已经固结, 上、下部煤分层分属于不同的时空坐标系。准格尔煤田6号煤层硫分含量在垂向上变化很大, 底部硫分为6%~8%, 全层平均后, 均硫含量一般小于1%[5];晋东南主采煤层之一的15号煤层下部硫分普遍偏高, 俗称“高硫底”, 局部可达30%, 上部煤分层硫分却低于2%, 德国莱茵盆地科隆层 (下煤层组) 孢粉鉴定表明微植物段0Ⅰ和0Ⅱ之间的界线永远在岩层代号08层的中间, 这种微植物分子的大量出现或消失在整个下莱茵煤田具有同时性, 不因岩性的变化而变化[6]。不同时空坐标系的煤分层不仅沉积构造有区别, 煤质及所含物种也有差别。

厚煤层的成因一直是科学问题[2]。煤矿床的巨量富集总受到煤炭行业相关人士的质疑[7,8,9], 不可能, 也不会有那么多的植物堆积在一起。树上长树或质量优良的泥炭层上生长泥炭等都是传统观点无力解释的, 也需要多种假设[2], 尤其强调厚煤层是泥炭沼泽沉积速度与地壳下沉速度长期保持平衡时形成的, 或者在层序地层学诞生之后, 变成没有陆源碎屑大量输入的情况下, 泥炭堆积速率S与可容空间增加速率A之间保持较长时间的平衡 (即A/S≈1) , 有利于厚煤层的形成[10]。这类说法无法解释厚煤层中普遍存在的多层非煤薄夹层或夹矸, 以及厚煤层分叉、合并、变薄等现象, 也无法解决成煤物质的“提纯”问题。植物以年为单位累积, 为保证可容空间的持续增长, 聚煤期间, 地壳也须以年为单位下降, 这与富集巨量、超巨量煤炭必须有长期稳定的大地构造背景相矛盾;不与外界交换物质, 自生自储的泥炭沼泽体系应归为孤立或封闭系统。要富集巨量优质泥炭, 这类孤立或封闭的系统需要维持相当长时间, 并始终保持浅水状态, 水体中也要富含植物生长所需营养物质 (即水体为营养液) 。而这与煤层与深水或较深水沉积共生、含煤地层灰色或灰黑色的事实不符。作为宇宙天体的一部分, 地学现象的产生与发展必然受宇宙天体和物质的影响与作用, 包括产生液体或固体潮汐等现象, 不可能长时间孤立或封闭, 即便输入泥炭沼泽的“陆源碎屑被某种机理挡住了” (二维思维) , 也不能阻挡宇宙尘埃、火山灰以及其他类似沉积;生物圈是碳循环的重要环节。如果大量气态的碳被固化到煤层中, 会降低大气中二氧化碳浓度, 使地球温度降低, 进而影响碳循环平衡, 固碳作用不能持续, 则难以富集巨量的煤矿床。由于传统成煤“理论”存在诸多类似矛盾, 有人否定煤炭有机成因[8,9], 似乎回归到显微镜发明以前有关煤炭成因的论战。

成煤物质在开放系统中富集, 单一四维时空或许不会有巨量的成煤物质被富集, 但多个四维时空就不一样。瓦尔特相律适用于同一四维时空, 并不适用于不同的时空结构, 故分属多个时空坐标系的煤层叠置在一起不符合瓦尔特相律。厚煤层的建造过程是在五维时空内完成的, 是跨越时空的。这也是煤层、煤储层从宏观、中观、微观到分子结构具有复杂性、非均质性的重要原因。

2.2 厚煤层是时空扭曲的标志

(1) 时间上穿时。忽略了三维属性后, 每个煤分层只记录了各自时空坐标体系的一部分 (图4) 。一个五维时空的煤层就包含着多个等时时空节点和不同时空坐标体系的时间片段, 每个片段只代表了它的一部分, 厚煤层的建造过程跨越不同的等时时间节点, 具有明显的穿时性 (称为间断穿时) 。厚煤层是侧向加积—间断—侧向加积作用的产物[2]。煤层代表水进的过程, 颜色表现为黑色、灰黑色的事实也表明, 厚煤层中不存在暴露地表 (低水位) 的氧化相, 缺失低位以及从高水位到低水位的沉积过程和记录。“通过对准格尔煤田原6号煤层中65个孢粉样品成果的分析研究, 结合灰岩标志层的追索, 指出该煤层的层位相当于太原组中、上部及山西组下部几层灰岩和煤层的合并部位, 太原组与山西组的界线位于煤层下部三分之一处的夹矸之底。”[11]从整体上看, 该煤层下部煤分层在紫松期堆积之后穿时到隆林期, 直至罗甸期, 跨越两千多万年才加积形成上部的煤分层。事实上, 在盆地边缘处, 山西组与太原组呈微角度不整合[11]。即五维时空地质体对时间的记录是不完整的, 可跨越不同的地质年代。这也可以从地层记录的不完整性、非渐变性[12]、间断大于沉积等现象得到证实。

图4中煤层在山西分布很广, 呈煤组出现, 横向延续对比关系准确可靠, 基本顶为K2石灰岩[12,13]。该煤层与太原西山8+9号煤层相对应, 在山西长治一带变成14、15-1、15-2、15-3煤组, 也与晋城地区14及15号煤层合成的15号煤层相对应。在祁县、左权、榆社及阳泉地区14及15号煤层间距超过十米, 夹有一层细粒砂岩, 而15号煤层的几个煤分层合并;在山西长子、屯留一带14与15-1号煤层之间夹有少量薄层泥灰岩;在太原西山8+9号煤层之间常发育带状砂体, 宽度2~3 km, 称“屯兰砂岩”。不同的地区, 各煤分层及夹矸厚度变化不一, 空间上存在差异。

(2) 空间上扭曲。准格尔煤田是华北晚古生代聚煤盆地中煤层最富集的地带[5], 以该煤田6号煤层的建造过程为例, 在相同时间段内, 在华北地区600 000 km2范围内, 仅太原组中、上段在华北各地区赋存的灰岩层数、厚度就明显不同 (图5) :京西煤田夹有薄层泥灰岩;太原西山含有庙沟、猫儿沟、斜道和东大窑灰岩;沁水盆地含有3~7层石灰岩, 北部少, 南部多;山东新汶、肥城及北部诸煤田含灰岩3~4层;而江苏的丰沛和徐州煤田灰岩多达10层以上, 安徽的淮南、淮北等煤田也超过9层[4,11,13,14,15,16]。相应地层厚度从30多m变化到200 m以上不等[4,15]。可见准格尔煤田6号煤层建造过程中, 华北不同地区的时空扭曲是不一致的。再如, 阜新盆地在王家营子区厚煤层带为早白垩世海州组中间段、太平段和高德段[17]扭曲在一起。煤层分叉、合并等现象都是时空扭曲的体现。

时空扭曲使常造成地层及煤层对比困难。准格尔煤田6号煤层的地质年代归属曾长期争议, 有学者根据煤层顶板化石具有比较明显的中期华夏植物群早期植物的特征, 将该煤层定为山西组[11,16], 有学者则根据煤层底板下伏不远处的灰岩所含Montiparus umbonoplicatus, M.parammontiparus, M.minutus等化石属Triticites带, 为晚石炭逍遥期, 认为太原组不可能大范围沉积缺失或太薄, 此外有多层太原组灰岩尖灭于该煤层中, 从而将该煤层定为太原组[16]。时空扭曲现象启示人们, 地质时间有长短之分, 但不可简单地用地层厚薄或层数多寡来表示。局部或片段 (时间或空间) 得出的认识可能是片面的。时空扭曲也会造成其他一些矿床甚至微量元素的富集, 如锗[3]、铝[18]、锂[19]等。

2.3 煤层的后期改造过程是加维的

一维的直线被改造 (扭曲) 变成二维曲线, 二维平面被改造 (扭曲) 变成三维曲面, 即改造的过程也是加维的过程。N维时空被改造会变成N+1时空。

构造改造能改变地 (煤) 层固有时空坐标体系。含煤盆地富集成藏后会受到挤压、拉张、剪切以及火成岩侵入等多种改造, 形成断层、褶皱等。断层使不同时空的地层 (煤层) 扭曲在一起, 影响了地层 (煤层) 时空连续性、完整性;褶皱是地层 (煤层) 产生形变的结果之一, 改变了地层 (煤层) 的空间位置及属性, 如埋深、走向、倾向、变质程度等, 或者暴露于地表, 遭受风化、剥蚀, 直至消失;火成岩侵入会造成煤层的减少 (被侵吞) 、变质或失去工业价值等, 影响煤层时空连续性。地层 (煤) 被改造发生形变时, 对应的等时坐标系也发生形变。

复杂的地学现象经历了多期构造运动。以华北晚古生代煤层为例, 在海西期 (天山期) 建造完成后, 经历了印支期、燕山期、华北期、喜马拉雅期、新构造期等多期构造改造。每期构造运动的规模, 演化历程、涉及的范围, 地球动力学环境、构造应力场等都不相同, 改造的强度、方向、性质等也不一致。例如, 印支期中国大陆形成了以近东西向为主的 (以现代磁方位为准) 一系列强弱不等的构造变形带和山脉;燕山期形成一系列NNE-NE向褶皱和逆断层系, NWW向的走滑—正断层系, 以及NNW向或NEE向走滑断层系, 共同构成新华夏构造体系, 并伴随大规模的岩浆活动;喜马拉雅期中国大陆构造应力场以南北向近水平的缩短作用和近东西向的水平伸展作用为主要特征, 西部强烈变形, 形成青藏高原, 东部变形微弱, 以张裂为主, 形成断陷伸展盆地[20]。后期的构造改造都是在前期改造基础上的叠加, 在地层 (煤层) 中也保留了不同的构造形迹。后期构造变形及其变形特征的时空差异是中国含煤岩系赋存状况的一个显著特点[21]。华北含煤岩系具有明显的变形分区特征, 可分为强挤压的外环带、弱挤压的中环带和伸展变形的内环区[22]。因此, 后期多期构造改造过程使含煤地层整体发生时空变形、扭曲、移位, 也是加维的过程, 符合N+1维时空包含N维时空这一判别时空结构维度增加的标准。历经构造期次少或形成年代较晚的地 (煤) 层, 时空维度较低。图6为云南吕合断陷盆地煤层地质断面, 含煤岩系为晚第三纪。聚煤期后, 煤层遭受构造改造, 盆地边缘部分已遭受剥蚀[4]。该煤层形成之后遭受构造改造期次少, 为六维时空煤层断面。中国中生代晚期和新生代含煤盆地时空维度普遍较低。

煤炭属于来自高维时空的能源。地下采掘工程是一类对高维时空的作业活动。2012年1月7日山东新河矿业有限公司3301工作面在推采过程中, 发生突水事故, 最大涌水量达1 000 m3/h以上, 造成人员伤亡, 矿井停产。分析原因为采动造成DF49断层“活化”并与第四系下组含水层联通导致突水[23];2013年9月28日, 山西汾西正升煤业有限责任公司东翼回风大巷掘进工作面发生重大透水事故, 10人遇难。直接原因:该矿在超过允许掘进距离的情况下继续掘进, 导致煤壁不能承受小煤窑采空区 (属于已加维的煤层) 积水压力, 造成煤壁坍塌发生透水[24];2004年10月20日河南大平煤矿发生一起特大型煤与瓦斯突出引发的瓦斯爆炸事故, 造成148人死亡, 多人受伤。原因是岩石掘进工作面遭遇逆断层而引起的, 该部位构造复合, 应力集中、构造煤发育[25], 时空维度高。前者是采矿活动加维改造较高时空维度 (有断层) 时产生事故的案例, 后两者均是在建立穿越通道过程中, 接近或揭露更高时空维度时诱发灾难的案例。

3 讨论

(1) 矿井水害和瓦斯灾难是两大矿难。为解决煤与瓦斯突出问题, 张子敏等从构造叠加的地质现象出发, 提出瓦斯逐级构造控制理论[26,27]。“瓦斯逐级构造控制”就是煤储层的原生高维控制。煤与瓦斯突出是一定范围内时空转换的突变过程, 是加维过程的一种, 除了应充分考虑煤储层的原生高维属性外, 还应考虑到人类采掘活动对高维时空的影响, 包括建立通道和加维改造。

过高的时空维度会对煤层气 (瓦斯) 保存不利。多高的维度对煤层气 (瓦斯) 富集成藏有利, 煤与瓦斯突出的时空维度的阈值范围等有待于认真研究。

(2) 建立高维时空观, 有利于提高探索自然的能力。采用较高时空维度的方法去研究较低维度的东西, 能看到全貌, 会比较清楚透彻, 例如人类研究二维事物。相反, 将较高维度的内容降维处理来认识和分解, 会造成所认识的客观现象的杂乱与混乱, 更不会正确识别。忽略了时间维后, 高维时空的局部可能是三维、二维或一维。如, 在高维时空中断层是时空扭曲、错断的重要标志, 而在三维空间中断层为曲面, 在平面上是条线。日常所说的三维地质体, 其实是忽略了时间维后高维地质体的一部分。人们质疑巨厚煤层的储量问题, 本质是用低维思维去认知高维时空客观实在, 感到困惑, 也不会得出正确的结论。只有足够的时空维度才能容纳众多的建造作用和改造过程以及由这些作用过程所形成的各种地质记录。

从分形理论可知, 存在分数维, 现今的天然地震活动是否可以认作是新构造改造高维时空的一些分数维?低维思维制约着人类对客观世界的进一步认识和改造。认识客观世界不能停留在低维阶段。不过, 首先要做的是确定四维和五维时空及其划分标准, 这也是下一步研究的重点。

(3) 时空的无界性, 或许是人类的偏见。在人类生存时空当中, 形成了不少偏见。如直线无限延长, 平面无限宽广等, 然而点、线、面、体等都是抽象概念, 是人类的“理想模型”。既然低维时空有界限, 高维时空也应该有界限。放弃偏见, 会将时空论题转化为自然科学论题。

(4) 时空扭曲是高维时空普遍现象, 具有理论意义, 也与找矿实践相关。除了与厚煤层、微量元素的巨量富集有联系外, 由于不整合与油气[28]以及金、铀、铜 (银) 、铅、锌、锑、铂族元素等多种金属[29]的富集有着重要关系, 时空扭曲也会与它们的富集有关。有很多地区煤层与油页岩互层共生, 也有很多油气富集在背斜或断层封闭部位 (扭曲部位) 等等都是很好的实例。叠加复合成矿系统[30,31]为中国区域成矿的一个显著特色, 是中国复合—活动大陆成矿复杂性的表现, 国外也有叠加成矿的实例。叠加成矿作用是指不同地质时期的成矿作用在空间上相互叠加[30,31], 本质上就是时空扭曲成矿, 以比较常见的沉积—热液叠加成矿为例, 它们是后期构造—热液成矿系统跨越时空叠加到早期广义沉积类成矿系统之上时形成的。矿产属于高维时空的资源, 许多成矿过程与时空扭曲相关。

4 结论

(1) 地学现象的研究宜采用等时坐标系。

(2) 高维属性是地学的重要特征。厚煤层是在五维时空建造的。从建造到改造的过程, 也是时空维度不断增加的过程。现今所见到的厚煤层是一个五维、六维、七维、八维甚至更多维的地质体。足够的时空维度才能容纳众多的建造过程及改造作用。

(3) 时空扭曲是高维时空普遍现象。无论是前期的建造作用, 还是后期的改造过程, 都会造成时空扭曲。许多矿产资源的富集与时空扭曲相关。

【高维数据挖掘】推荐阅读：

高维数据聚类05-29

高维目标07-04