高维目标

2024-07-04

高维目标(共5篇)

高维目标 篇1

1 引言

电气工程中的综合问题常归结为多目标优化设计问题。这类优化问题的解不再是单一的“最优解”, 而是Pareto解集, 即一组全局非控解。因此, 多目标优化需要同时发现并均匀采样Pareto解集。众所周知, 由于具有种群特征, 进化算法可在一次优化中实现对Pareto解集的近似采样。因此, 该算法在工程综合设计中获得广泛应用。然而, 目前基于非控关系的进化算法在解决目标超过三维的高维多目标优化设计问题时很难获得全局非控解。其主要原因在于此时种群中的多数个体彼此非控, 无法赋予个体合理的适应度, 导致选择压力过小, 从而使启发式的搜索退化为随机的盲目搜索[1]。

为解决高维多目标优化设计问题, 人们又转而研究传统的矢量优化标量化技术[2]。其中多重单目标Pareto采样算法 (MSOPS) 可以看成是一种并行的自适应标量化搜索方法[3]。在该算法中, 通过采用不同的聚合方式将多目标函数优化问题转化为多单目标优化问题。因此, MSOPS算法实现简单, 计算复杂度低。此外, 基于单目标优化的聚合类算法易于保持进化过程的选择压力。然而, 研究也发现, MSOPS算法难以维持较好的种群多样性[4]。为此, 本文提出了若干改进措施, 以期在保证MSOPS算法选择压力的同时获得优良的种群多样性。

2 改进的MSOPS算法

2.1 MSOPS算法简介[3]

与一般进化算法不同, 除了初始种群, MSOPS算法还需一组预先设定的单位矢量T。这组矢量指明了算法在目标超空间中的搜索方向, 称其为目标矢量。这是因为在传统的标量化多目标算法中, 需要目标矢量为标量化后的目标函数确定其进化方向。根据不同的目标矢量, 种群P中的每个个体都可以获得一组不同的适应度值以代表其在各目标矢量下的优劣。取最优者为该个体最终的适应度, 便可用于进化算法的环境选择。由上所述不难发现, 在搜索过程中MSOPS算法总能保持足够多的优劣等级, 从而保证了选择压力。

2.2 目标矢量的确定

显然, 目标矢量的分布决定了最终种群的多样性。因此, 理想的目标矢量应保证最终解在Pareto解集上均匀分布。为实现这一目标, MSOPS在各可能方向上均定义了目标矢量。此时由于位于搜索边界的中间解对于指向可行域外的目标矢量总是具有最优的适应度, 致使搜索结果在Pareto解集边界出现集聚[3]。为解决这一问题, MSOPS-Ⅱ引入了自适应的目标矢量更新机制[4]。通过将现有种群中的个体标幺化, 使之成为备选的目标矢量。比较备选目标矢量与原有目标矢量相邻个体的内积, 保留内积较小者以用于下一代进化。然而, 文献[4]也同时发现, 较之于原算法, MSOPS-Ⅱ算法在Pareto解集边缘的搜索能力明显减弱。这主要是因为分布在Pareto解集的边缘区域的目标矢量较少。

为增加位于Pareto解集边缘区的目标矢量并保证搜索结果均匀分布, 本文采用了基于θ-拥挤操作的目标矢量更新机制[5]。θ-拥挤操作受NSGA-Ⅱ拥挤操作的启发而提出, 在原算法中用于保证群体的多样性, 而本文则用于克服MSOPS-Ⅱ算法的不足。将目标矢量用目标空间的极坐标表示为m-1个倾角θ1, p, θ2, p, …, θm-1, p (m为目标维数) , 设N为目标矢量规模, θ-拥挤操作的具体过程如下:

(1) 选出所有目标矢量第i维倾角, i=1, …, m-1, 对其进行排序, 共进行N组排序;

(2) 找出每组排序的最大倾角与最小倾角, 令其对应个体的拥挤度为∞;

(3) 找出与每个目标矢量与相邻矢量第i维夹角, i=1, …, m-1;

(4) 求出各矢量夹角之和, 称为个体之拥挤度。

可见, θ-拥挤操作的结果是对每个目标矢量相邻夹角求和。本文算法通过删除较低拥挤度值的目标矢量实现目标矢量的更新, 从而保证了目标矢量的均匀分布, 进而实现了搜索结果的均匀分布;同时由于处在当前搜索边界的目标矢量的拥挤度值总是无穷大, 因此这类矢量必然用于引导下一代的进化, 增强了算法对Pareto解集边缘解的搜索能力。

2.3 目标矢量的重新定位

在搜索过程中, Pareto解集的部分维度较其他维度更易于搜索。为此, 本文首先定义当前搜索范围以刻画算法在某一维度收敛的难易程度, 即

其中, pi与rangei分别代表当前解及其搜索范围的第i维分量, 而i=1, …, n。

当某些解接近Pareto解集在某一方向的边界时, 该维度的搜索范围将逼近0;相反, 当这些解距离Pareto解集在某一维的边界较远时, 则其维度指标值很大, 表示在这一维具有较大范围的未充分搜索空间。利用这一指标, 本文算法将目标矢量重新标幺化 (定位) 为:

其中, Ti与T'i为变换前后目标矢量的第i维分量;α为可调整数。

该变换将目标矢量重新定位到现有搜索空间的边界, 即靠近未搜索的区域。在图1 (a) 中, 原均匀分布的目标矢量 (以虚线表示) 通过变换移动到另一区域 (以实线表示) , 并呈非均匀分布状态。由于大量目标矢量逼近了未搜索区域, 整个群体就有更多可能进化到新的未搜索区域的机会。

需要说明的是, 上述集聚操作可能破坏了目标矢量的多样性。为解决这一问题, 本文算法采用变换前的目标矢量产生新的目标矢量, 而采用变换后的目标矢量计算适应度函数值。因此, 这样既保证了目标矢量的均匀分布, 又有效地增强了趋向未搜索区域的选择压力。

2.4 非控解筛选的外部档案

随着目标矢量的移动, 种群将从一个区域移动到另一区域。如图1 (b) 所示, 目标空间上种群个体用圆点表示, 由于采用2.3节方法, 种群从Pareto解集的一侧移动到了另一侧。于是, 全局非控解将由于目标矢量的移动而删除。为防止这一现象, 本文算法引入了非控解筛选的外部档案。首先, 将每一代的结果并入该档案;然后, 从档案中删除可控解。此时如果档案中个体数量没有超出存储上限, 则操作结束。否则采用类似于NSGA-Ⅱ与SPEA2的截断技术[6,7]截断非控解中的个体。

2.5 改进算法简述

首先生成初始种群P0与初始目标矢量集合T, 其次将初始种群P0标幺化, 构成备选目标矢量Tc;通过θ-crowding对集合T∪Tc进行排序并将其截断形成新的目标矢量T。通过P0与T, 依照MSOPS的方法赋予每个个体适应度并进行选择, 然后进入下一代进化直至算法满足一定的终止规则。

本文改进算法有两个可调参数:目标矢量数tv_num与α。一般而言, tv_num应当接近种群数量以保证选择压力与目标矢量均匀分布能力的平衡。至于正则化系数α则最好逐步从较小值增至最大值。因为虽然较大的α将增强算法的搜索能力, 但往往导致算法跳过某些未被充分搜索的区域, 从而影响了结果的完整分布。通常α最大值设定为5可以满足大多数实际应用。

3 算法验证

3.1 试验设计

为比较本文算法与MSOPS-Ⅱ[4]、NSGA-Ⅱ[6]以及Hyp E[9]的优劣, 首先应用上述算法求解高维多目标优化的测试函数DTLZ7[8]。该函数定义为:

式中

DTLZ7函数的优化变量数为8、目标函数为6。该函数具有间断的Pareto解集, 在高维优化问题中尤难寻优。本文主要考察个体适应度赋值评级的优劣, 各算法环境选择的方式统一采用差分进化算子 (DE) [10]。DE中的缩放系数F在[0.5, 1]中随机选取, 交叉率C则确定为0.8。为保证比较的合理性, 各算法的种群数量相同。

由于高维多目标优化问题无法将非控解集可视化, 所以必须采用某种性能指标评价优化结果的质量。本文采用超体积比较不同算法对Pareto解集的逼近优劣[11]。原理上讲, 由不同算法搜索到的两组解集中, 超体积大者, 其对Pareto解集的逼近度高。由于本文选用的都是随机搜索方法, 将相同算法多次应用于同一问题可能获得不同的优化结果。因而, 所得的超体积实际上是一组分布未知的随机变量。为此, 根据多次运行所获得的超体积样本, 根据其统计特性进行推断, 并在此基础上比较两个不同算法的性能。具体而言, 首先采用两个不同算法对测试函数多次优化, 从而得到两组超体积样本。然后, 应用非参数统计的Wilcoxon秩检验[12]对两组样本的差异做出统计推断。

在两组解集比较时, 如果一组样本持续高于另一样本, 则两个样本差异不显著的零假设不成立。从理论上看, 零假设对应于Z统计量的某一具体数值。在实际应用中, 如果取显著性水平为0.05, 则对应的零假设的Z统计量为2.81。如大于2.81, 则两者差异显著。在本文数值实验中, 每个算法的样本数取100, 即每个算法随机运行于优化函数产生100个Pareto解集。在每次优化中, 种群数量设为30, 运行代数设为300代。此外, 在MSOPS-Ⅱ和本文所改进算法中, 目标矢量个数确定为50。本文算法的外部档案个体上限也定为50。

3.2 结果与讨论

表1给出了上述条件下不同优化算法的统计性能比较结果。本文改进算法获得了最好的结果, 较之所有其他算法优势明显 (Z统计量均大于5) 。尤其需要说明的是, 本文算法的性能明显优于专用于高维多目标优化而设计的Hyp E算法。

3.3 应用实例

八木天线广泛应用于VHF/UHF等领域。除一个激励元与反射元外, 该天线还包含一组寄生单元构成引向元, 设计十分复杂。在八木天线设计中, 除对方向性的要求外, 往往还包含对输入阻抗以及旁瓣电平的要求, 因此可归结为高维多目标优化设计问题。本文以四振子八木天线优化为应用实例。该优化设计问题包括七个设计变量:四个振子振长Ln (n=1, 2, 3, 4) , 三个振子间距Sn (n=1, 2, 3) 。设计变量的调整范围0.1λ≤Ln≤λ, 0.1λ≤Sn≤λ。振子半径取为0.00225λ。优化的目标为:增益G最大化、旁瓣电平SLL最小化, 以及输入阻抗Z的实部等于50Ω而虚部等于0Ω[13]。

计算时, 种群个数设定为20, 迭代的总代数设为200代。其他设置与前例相同。各算法运行后得到的可行设计结果示于表2。显然, 较之MSOPS-Ⅱ与Hyp E, 本文的改进算法不仅可以得到多个可行解 (设计) , 而且解的性能较Hyp E为优。而NSGA-Ⅱ则没能获得任何有用的设计结果。

4 结论

为克服现有MSOPS算法的不足, 本文提出了若干改进措施。更加灵活的目标矢量更新与变换机制, 以及外部档案的增添提高了MSOPS算法在高维多目标优化设计应用中的性能。通过与MSOPS-Ⅱ、Hype和NSGA-Ⅱ在数学函数与八木天线上的数值试验的性能比较, 证明了本文改进算法不仅总是优于MSOPS-Ⅱ, NSGA-Ⅱ, 而且在多数应用场合均优于专用于高维多目标算法而设计的Hyp E算法。此外, 本文算法的计算复杂度较低。

摘要:电气工程中的设计问题常归结为多目标优化问题。对于目标函数超过三维的高维多目标优化设计, 目前基于非控关系的多目标进化算法很难获得理想的优化结果。为此, 人们提出了多重单目标Pareto采样 (Multiple Single Objective Pareto Sampling, MSOPS) 算法。该算法结构简单, 计算复杂度低。然而, 研究表明, 这种方法的最终优化结果往往缺乏多样性。为此, 本文对MSOPS算法进行了改进研究, 提出了目标矢量的拥挤操作, 非均匀的目标矢量更新以及附加外部档案等改进措施以提高优化结果的多样性。通过与MSOPS-Ⅱ、HypE以及NSGA-Ⅱ算法在求解测试函数上的性能比较, 证明了改进算法在Pareto解集上获得了更好的收敛性与多样性。最后, 通过八木天线的优化设计验证了改进算法解决实际问题的有效性。

关键词:高维多目标算法,进化算法,多重单目标Pareto采样算法,多样性保持

高维目标 篇2

如何提高作文教学的实效性

李沧区实验小学高维艺2011、12、22

对于小学教学来说,作文是语文教师的一大难题,习作成了学生望而生畏的科目。为了写好作文,师生都必须付出许多努力,但常常收效不大。通过《语文课程》标准和目标导学的学习,加之自己十多年来的教学经验,我认为,小学作文教学应注重以下几点。

一、注重平时积累,作文也像语文基础知识、阅读一样需要积累,比如好词、佳句、精彩片段等。

1、根据课文内容来积累,“重视文本”也是新课标的要求,而且很多课文的思考练习中都出现“背诵自己喜欢的自然段,摘抄好词、佳句”这样的练习,让学生在背诵时感受语言文字的优美,摘抄中积累材料。如果学生能掌握一些好词佳句就为写作做好了铺垫,能够让他们有词可用、有话可说。比如:在教完《草原》这课后,我让学生背过文中关于草原这段景色的描写,就让学生为以后写熟悉的景物作铺垫。

2、通过写日记来积累,坚持写日记是积累材料的是最好方式,也是练笔的最途径,由于日记的内容很广,可写听到的、可写看到的、也可写想到的。总之,自己的喜怒哀乐都可无拘无束地表现出来。这样就让学生有一个自由表达的空间,也能够写真实的事情。比如:每组织学生看完一场电影,搞完一次大扫除,都可让学生把当时的情景和感受用日记的形式写出来。一学期下来,学生们的周记本写的满满的,尽管很幼稚,尽管有这样或那样的毛病,但更多的是收获与喜悦。

二、注重学以致用,结合实际及时指导。

小学生的知识有一定的局限性,教师结合课文和生活实际及时指导很重要。大家都知道《一本男孩子必读的书》通过鲁滨逊的故事,告诉我们:在突如其来的不幸遭遇前,不能慌了手脚,要努力树立起战胜困难的信心,要善于观察和思考,寻找一切有利生存和发展的因素,进行创造性劳动,同时还要努力排除孤单情绪,要看到希望,要乐观向上。尽管我们现在不太可能会碰到鲁滨逊的境遇,但是他积极的人生观同样值得我们学习和继承。这也就是《鲁滨逊漂流记》能代代相传的原因。教学这篇文章的时候,我主张有必要对孩子们有个正确的引导,面对困境,每个人都有可能找到生存的勇气和乐趣的。在教学中,我要有意识地让学生去关注主人公遭遇到了哪些艰难和挫折,这对他们的人生起了什么影响,以此来体会主人公在逆境中奋起的崇高品质。我认为这篇课文最重要的一个功能是,课文不仅是一篇日

记,而且是一篇非常优秀的读书笔记,学习了课文我们不能不引导孩子说说,这篇读书笔记主要是围绕哪些方面来展开的?我们也可以尝试让孩子选择一本书,认真阅读,围绕这三个方面尝试写一篇读书笔记,这样在我们的读书报告会上我相信一定能听到孩子们自己的读书故事。

三、注重作文的评价

教师的评价对学生十分重要。评价得当,能激励学生敢于作文、乐于作文,因而对学生的文章不能千篇一律,也不能一棒打死。应根据不同水平的学生给予不同要求的评价,对基础好的学生要有较高的要求。基础差的哪怕是用了一个好词、一个佳句也应该及时表扬。(记得有一次,我发现一个平时作文很差的学生在文章中准确地用了一个表示时间过得很快的词“刹那间”,于是我在批语中这样写道:今后能多看点书,认真作好记录,教师相信你的作文会更上一层楼!)这样做,能让一些差生得到鼓励,看到希望。

高维时空中的煤层 篇3

煤炭是人类重要的生产和生活资料, 在地球上许多地区广泛存在。煤层及含煤地层作为岩石圈的组成部分, 其形成和形变 (建造和改造) 的过程, 也记录着一些地球时空演化、变迁和地壳运动的信息。自工业革命以来, 煤矿床成为人类勘探开采规模最大的矿产之一, 揭露出大量地层和煤层剖面, 获取了海量的数据。本文将结合相关资料提出一些看法。

1 高维时空的确定标准和等时坐标系

高一级的时空结构应该包含着低一级的时空结构, 即N+1维时空应该包含N维时空, 是判别时空结构的维度是否增加的标准。

包含时间维是地学现象的基本特征和重要特色, 不存在无时间维的地质现象和地质作用。四维是地层的最低维度, 就煤层而言, 四维是其基本属性。因而研究地学现象宜采用四维坐标系, 四维坐标系也是等时坐标系。建立等时坐标系的重点是确立等时层位, 确定等时对比的基点。在演化时空当中, 等时层位的确定并非易事。煤层作为岩石圈层当中的异常层, 是灾难性淹没时间的产物和记录[2], 具有很强的等时性, 可以作为等时对比的基点。

煤层底板最为常见的为暴露相, 如:根土岩、古土壤层、古喀斯特面、风化黏土、铝土岩、铝质泥岩以及含有大量植物根化石等, 也有少数较深水或深水相如石灰岩等。无论是何种相, 均代表了沉积间断, 一种非煤物质的沉积间断。煤层的底界是一个非聚煤时空向聚煤时空的转换面。因此, 每个煤 (分) 层可以作为一个等时坐标系的节点, 在这个坐标体系中, 记录了包括煤层在内的一系列沉积体系和体系域的全过程, 其相关沉积体系的平面和垂向叠置关系符合瓦尔特相律。

2 厚煤层是高维时空地质体

2.1 厚煤层的建造过程是加维的

自然的复杂性不是简单的线性组合。多个一维建造成平面, 多个二维建造成三维空间, 即建造过程是加维过程。厚煤层的建造过程是多期成煤物质侧向加积产生次生垂向加积的叠合过程[2]。图1为煤层侧向加积形成的水平层理 (沁水盆地主采3号煤层地表露头 (山西高平) 。井下观察, 发育大量条带状、线理状及均一状结构) 。宏观上的厚煤层由多个煤分层和薄层夹矸复合而成。每个煤分层有各自独立的时空坐标系, 表现为煤分层在垂向、平面分布范围, 形成地质年代、成煤物质来源、成分以及相邻的沉积体系和体系域等并不一致。露天开采实践揭露, 准格尔煤田黑岱沟煤矿6号煤层厚30多米, 含有的煤分层及薄层夹矸均超过15层[3]。厚煤层包含多个不同的等时时间节点, 跨越不同的时空坐标系。由多个不同时空的四维煤分层地质体叠加耦合形成的就是一个五维时空煤层 (图2) 。图2中多个等时坐标系小角度叠置, 近于平行 (由5个煤分层叠合而成, 不同灰度是为区分煤分层。相邻煤分层之间常存在连续或近似连续的夹矸。分叉处有非煤的碎屑岩或碳酸盐岩呈楔状嵌入) 。它符合N+1维时空包含N维时空这一判别时空结构加维标准。整体的时空维度要大于局部的。局部为四维时空结构时, 整体要大于或等于四维。

当不同时空坐标系中聚煤的那一部分叠加、耦合、扭曲、合并在一起时形成厚煤层, 否则煤层分叉、变薄直至消失。山西沁水盆地主采煤层之一的3号煤层 (图1) 4个煤分层耦合在一起大面积展布, 形成五维时空煤层, 这个五维煤层厚层区在山西省境内近10 000 km2, 在整个华北面积很大, 向西在山西沁源、屯留西部分叉, 向北在河北南部分叉, 向东在鲁西南才出现分叉[2]。图3为露天开采揭露的内蒙东部赤峰元宝山断陷盆地煤层断面。含煤建造为晚侏罗—早白垩世地层, 其中阜新组主要煤层、煤组 (5、6号) 在盆地中部合并成巨厚煤层, 总厚100多m。厚煤层之间有粗碎屑岩呈楔状嵌入, 横向变化很大, 局部分叉成马尾状。含煤建造形成后, 曾遭受构造变动, 但比较轻微[4]。图3中展示不同的煤层 (组) 沉积构造明显不协调, 多个等时坐标系呈一定角度叠置, 煤分层扭曲在一起时合并为厚煤层。

建造过程中, 每个四维时空煤分层还记录着成煤物质未固结时产生的软沉积变形构造及一些古地震记录, 如多种滑塌、包卷层理以及通过煤层开采揭露出的负载构造等。山西省沁源、灵石、介休、平遥等地的一些矿山开采9+10号煤层, 其基本顶为K2石灰岩, 常揭露出一种顶板构造, 当地人称为“奶头顶”, 实质是一种负载构造, 即煤层还未固结成岩时, 上覆石灰岩沉积压入软沉积煤层中产生的变形构造。井下观察发现, 这类构造仅对最上部煤分层 (9号煤层) 有影响, 下部煤分层 (10号煤层) 则不见痕迹。一方面表明, 煤层与较深水沉积 (石灰岩) 相对连续, 属于同一时空坐标系;另一方面, 也表明上下部煤分层之间沉积不连续, 是间断的, 上部煤分层沉积时, 下部的煤分层已经固结, 上、下部煤分层分属于不同的时空坐标系。准格尔煤田6号煤层硫分含量在垂向上变化很大, 底部硫分为6%~8%, 全层平均后, 均硫含量一般小于1%[5];晋东南主采煤层之一的15号煤层下部硫分普遍偏高, 俗称“高硫底”, 局部可达30%, 上部煤分层硫分却低于2%, 德国莱茵盆地科隆层 (下煤层组) 孢粉鉴定表明微植物段0Ⅰ和0Ⅱ之间的界线永远在岩层代号08层的中间, 这种微植物分子的大量出现或消失在整个下莱茵煤田具有同时性, 不因岩性的变化而变化[6]。不同时空坐标系的煤分层不仅沉积构造有区别, 煤质及所含物种也有差别。

厚煤层的成因一直是科学问题[2]。煤矿床的巨量富集总受到煤炭行业相关人士的质疑[7,8,9], 不可能, 也不会有那么多的植物堆积在一起。树上长树或质量优良的泥炭层上生长泥炭等都是传统观点无力解释的, 也需要多种假设[2], 尤其强调厚煤层是泥炭沼泽沉积速度与地壳下沉速度长期保持平衡时形成的, 或者在层序地层学诞生之后, 变成没有陆源碎屑大量输入的情况下, 泥炭堆积速率S与可容空间增加速率A之间保持较长时间的平衡 (即A/S≈1) , 有利于厚煤层的形成[10]。这类说法无法解释厚煤层中普遍存在的多层非煤薄夹层或夹矸, 以及厚煤层分叉、合并、变薄等现象, 也无法解决成煤物质的“提纯”问题。植物以年为单位累积, 为保证可容空间的持续增长, 聚煤期间, 地壳也须以年为单位下降, 这与富集巨量、超巨量煤炭必须有长期稳定的大地构造背景相矛盾;不与外界交换物质, 自生自储的泥炭沼泽体系应归为孤立或封闭系统。要富集巨量优质泥炭, 这类孤立或封闭的系统需要维持相当长时间, 并始终保持浅水状态, 水体中也要富含植物生长所需营养物质 (即水体为营养液) 。而这与煤层与深水或较深水沉积共生、含煤地层灰色或灰黑色的事实不符。作为宇宙天体的一部分, 地学现象的产生与发展必然受宇宙天体和物质的影响与作用, 包括产生液体或固体潮汐等现象, 不可能长时间孤立或封闭, 即便输入泥炭沼泽的“陆源碎屑被某种机理挡住了” (二维思维) , 也不能阻挡宇宙尘埃、火山灰以及其他类似沉积;生物圈是碳循环的重要环节。如果大量气态的碳被固化到煤层中, 会降低大气中二氧化碳浓度, 使地球温度降低, 进而影响碳循环平衡, 固碳作用不能持续, 则难以富集巨量的煤矿床。由于传统成煤“理论”存在诸多类似矛盾, 有人否定煤炭有机成因[8,9], 似乎回归到显微镜发明以前有关煤炭成因的论战。

成煤物质在开放系统中富集, 单一四维时空或许不会有巨量的成煤物质被富集, 但多个四维时空就不一样。瓦尔特相律适用于同一四维时空, 并不适用于不同的时空结构, 故分属多个时空坐标系的煤层叠置在一起不符合瓦尔特相律。厚煤层的建造过程是在五维时空内完成的, 是跨越时空的。这也是煤层、煤储层从宏观、中观、微观到分子结构具有复杂性、非均质性的重要原因。

2.2 厚煤层是时空扭曲的标志

(1) 时间上穿时。忽略了三维属性后, 每个煤分层只记录了各自时空坐标体系的一部分 (图4) 。一个五维时空的煤层就包含着多个等时时空节点和不同时空坐标体系的时间片段, 每个片段只代表了它的一部分, 厚煤层的建造过程跨越不同的等时时间节点, 具有明显的穿时性 (称为间断穿时) 。厚煤层是侧向加积—间断—侧向加积作用的产物[2]。煤层代表水进的过程, 颜色表现为黑色、灰黑色的事实也表明, 厚煤层中不存在暴露地表 (低水位) 的氧化相, 缺失低位以及从高水位到低水位的沉积过程和记录。“通过对准格尔煤田原6号煤层中65个孢粉样品成果的分析研究, 结合灰岩标志层的追索, 指出该煤层的层位相当于太原组中、上部及山西组下部几层灰岩和煤层的合并部位, 太原组与山西组的界线位于煤层下部三分之一处的夹矸之底。”[11]从整体上看, 该煤层下部煤分层在紫松期堆积之后穿时到隆林期, 直至罗甸期, 跨越两千多万年才加积形成上部的煤分层。事实上, 在盆地边缘处, 山西组与太原组呈微角度不整合[11]。即五维时空地质体对时间的记录是不完整的, 可跨越不同的地质年代。这也可以从地层记录的不完整性、非渐变性[12]、间断大于沉积等现象得到证实。

图4中煤层在山西分布很广, 呈煤组出现, 横向延续对比关系准确可靠, 基本顶为K2石灰岩[12,13]。该煤层与太原西山8+9号煤层相对应, 在山西长治一带变成14、15-1、15-2、15-3煤组, 也与晋城地区14及15号煤层合成的15号煤层相对应。在祁县、左权、榆社及阳泉地区14及15号煤层间距超过十米, 夹有一层细粒砂岩, 而15号煤层的几个煤分层合并;在山西长子、屯留一带14与15-1号煤层之间夹有少量薄层泥灰岩;在太原西山8+9号煤层之间常发育带状砂体, 宽度2~3 km, 称“屯兰砂岩”。不同的地区, 各煤分层及夹矸厚度变化不一, 空间上存在差异。

(2) 空间上扭曲。准格尔煤田是华北晚古生代聚煤盆地中煤层最富集的地带[5], 以该煤田6号煤层的建造过程为例, 在相同时间段内, 在华北地区600 000 km2范围内, 仅太原组中、上段在华北各地区赋存的灰岩层数、厚度就明显不同 (图5) :京西煤田夹有薄层泥灰岩;太原西山含有庙沟、猫儿沟、斜道和东大窑灰岩;沁水盆地含有3~7层石灰岩, 北部少, 南部多;山东新汶、肥城及北部诸煤田含灰岩3~4层;而江苏的丰沛和徐州煤田灰岩多达10层以上, 安徽的淮南、淮北等煤田也超过9层[4,11,13,14,15,16]。相应地层厚度从30多m变化到200 m以上不等[4,15]。可见准格尔煤田6号煤层建造过程中, 华北不同地区的时空扭曲是不一致的。再如, 阜新盆地在王家营子区厚煤层带为早白垩世海州组中间段、太平段和高德段[17]扭曲在一起。煤层分叉、合并等现象都是时空扭曲的体现。

时空扭曲使常造成地层及煤层对比困难。准格尔煤田6号煤层的地质年代归属曾长期争议, 有学者根据煤层顶板化石具有比较明显的中期华夏植物群早期植物的特征, 将该煤层定为山西组[11,16], 有学者则根据煤层底板下伏不远处的灰岩所含Montiparus umbonoplicatus, M.parammontiparus, M.minutus等化石属Triticites带, 为晚石炭逍遥期, 认为太原组不可能大范围沉积缺失或太薄, 此外有多层太原组灰岩尖灭于该煤层中, 从而将该煤层定为太原组[16]。时空扭曲现象启示人们, 地质时间有长短之分, 但不可简单地用地层厚薄或层数多寡来表示。局部或片段 (时间或空间) 得出的认识可能是片面的。时空扭曲也会造成其他一些矿床甚至微量元素的富集, 如锗[3]、铝[18]、锂[19]等。

2.3 煤层的后期改造过程是加维的

一维的直线被改造 (扭曲) 变成二维曲线, 二维平面被改造 (扭曲) 变成三维曲面, 即改造的过程也是加维的过程。N维时空被改造会变成N+1时空。

构造改造能改变地 (煤) 层固有时空坐标体系。含煤盆地富集成藏后会受到挤压、拉张、剪切以及火成岩侵入等多种改造, 形成断层、褶皱等。断层使不同时空的地层 (煤层) 扭曲在一起, 影响了地层 (煤层) 时空连续性、完整性;褶皱是地层 (煤层) 产生形变的结果之一, 改变了地层 (煤层) 的空间位置及属性, 如埋深、走向、倾向、变质程度等, 或者暴露于地表, 遭受风化、剥蚀, 直至消失;火成岩侵入会造成煤层的减少 (被侵吞) 、变质或失去工业价值等, 影响煤层时空连续性。地层 (煤) 被改造发生形变时, 对应的等时坐标系也发生形变。

复杂的地学现象经历了多期构造运动。以华北晚古生代煤层为例, 在海西期 (天山期) 建造完成后, 经历了印支期、燕山期、华北期、喜马拉雅期、新构造期等多期构造改造。每期构造运动的规模, 演化历程、涉及的范围, 地球动力学环境、构造应力场等都不相同, 改造的强度、方向、性质等也不一致。例如, 印支期中国大陆形成了以近东西向为主的 (以现代磁方位为准) 一系列强弱不等的构造变形带和山脉;燕山期形成一系列NNE-NE向褶皱和逆断层系, NWW向的走滑—正断层系, 以及NNW向或NEE向走滑断层系, 共同构成新华夏构造体系, 并伴随大规模的岩浆活动;喜马拉雅期中国大陆构造应力场以南北向近水平的缩短作用和近东西向的水平伸展作用为主要特征, 西部强烈变形, 形成青藏高原, 东部变形微弱, 以张裂为主, 形成断陷伸展盆地[20]。后期的构造改造都是在前期改造基础上的叠加, 在地层 (煤层) 中也保留了不同的构造形迹。后期构造变形及其变形特征的时空差异是中国含煤岩系赋存状况的一个显著特点[21]。华北含煤岩系具有明显的变形分区特征, 可分为强挤压的外环带、弱挤压的中环带和伸展变形的内环区[22]。因此, 后期多期构造改造过程使含煤地层整体发生时空变形、扭曲、移位, 也是加维的过程, 符合N+1维时空包含N维时空这一判别时空结构维度增加的标准。历经构造期次少或形成年代较晚的地 (煤) 层, 时空维度较低。图6为云南吕合断陷盆地煤层地质断面, 含煤岩系为晚第三纪。聚煤期后, 煤层遭受构造改造, 盆地边缘部分已遭受剥蚀[4]。该煤层形成之后遭受构造改造期次少, 为六维时空煤层断面。中国中生代晚期和新生代含煤盆地时空维度普遍较低。

煤炭属于来自高维时空的能源。地下采掘工程是一类对高维时空的作业活动。2012年1月7日山东新河矿业有限公司3301工作面在推采过程中, 发生突水事故, 最大涌水量达1 000 m3/h以上, 造成人员伤亡, 矿井停产。分析原因为采动造成DF49断层“活化”并与第四系下组含水层联通导致突水[23];2013年9月28日, 山西汾西正升煤业有限责任公司东翼回风大巷掘进工作面发生重大透水事故, 10人遇难。直接原因:该矿在超过允许掘进距离的情况下继续掘进, 导致煤壁不能承受小煤窑采空区 (属于已加维的煤层) 积水压力, 造成煤壁坍塌发生透水[24];2004年10月20日河南大平煤矿发生一起特大型煤与瓦斯突出引发的瓦斯爆炸事故, 造成148人死亡, 多人受伤。原因是岩石掘进工作面遭遇逆断层而引起的, 该部位构造复合, 应力集中、构造煤发育[25], 时空维度高。前者是采矿活动加维改造较高时空维度 (有断层) 时产生事故的案例, 后两者均是在建立穿越通道过程中, 接近或揭露更高时空维度时诱发灾难的案例。

3 讨论

(1) 矿井水害和瓦斯灾难是两大矿难。为解决煤与瓦斯突出问题, 张子敏等从构造叠加的地质现象出发, 提出瓦斯逐级构造控制理论[26,27]。“瓦斯逐级构造控制”就是煤储层的原生高维控制。煤与瓦斯突出是一定范围内时空转换的突变过程, 是加维过程的一种, 除了应充分考虑煤储层的原生高维属性外, 还应考虑到人类采掘活动对高维时空的影响, 包括建立通道和加维改造。

过高的时空维度会对煤层气 (瓦斯) 保存不利。多高的维度对煤层气 (瓦斯) 富集成藏有利, 煤与瓦斯突出的时空维度的阈值范围等有待于认真研究。

(2) 建立高维时空观, 有利于提高探索自然的能力。采用较高时空维度的方法去研究较低维度的东西, 能看到全貌, 会比较清楚透彻, 例如人类研究二维事物。相反, 将较高维度的内容降维处理来认识和分解, 会造成所认识的客观现象的杂乱与混乱, 更不会正确识别。忽略了时间维后, 高维时空的局部可能是三维、二维或一维。如, 在高维时空中断层是时空扭曲、错断的重要标志, 而在三维空间中断层为曲面, 在平面上是条线。日常所说的三维地质体, 其实是忽略了时间维后高维地质体的一部分。人们质疑巨厚煤层的储量问题, 本质是用低维思维去认知高维时空客观实在, 感到困惑, 也不会得出正确的结论。只有足够的时空维度才能容纳众多的建造作用和改造过程以及由这些作用过程所形成的各种地质记录。

从分形理论可知, 存在分数维, 现今的天然地震活动是否可以认作是新构造改造高维时空的一些分数维?低维思维制约着人类对客观世界的进一步认识和改造。认识客观世界不能停留在低维阶段。不过, 首先要做的是确定四维和五维时空及其划分标准, 这也是下一步研究的重点。

(3) 时空的无界性, 或许是人类的偏见。在人类生存时空当中, 形成了不少偏见。如直线无限延长, 平面无限宽广等, 然而点、线、面、体等都是抽象概念, 是人类的“理想模型”。既然低维时空有界限, 高维时空也应该有界限。放弃偏见, 会将时空论题转化为自然科学论题。

(4) 时空扭曲是高维时空普遍现象, 具有理论意义, 也与找矿实践相关。除了与厚煤层、微量元素的巨量富集有联系外, 由于不整合与油气[28]以及金、铀、铜 (银) 、铅、锌、锑、铂族元素等多种金属[29]的富集有着重要关系, 时空扭曲也会与它们的富集有关。有很多地区煤层与油页岩互层共生, 也有很多油气富集在背斜或断层封闭部位 (扭曲部位) 等等都是很好的实例。叠加复合成矿系统[30,31]为中国区域成矿的一个显著特色, 是中国复合—活动大陆成矿复杂性的表现, 国外也有叠加成矿的实例。叠加成矿作用是指不同地质时期的成矿作用在空间上相互叠加[30,31], 本质上就是时空扭曲成矿, 以比较常见的沉积—热液叠加成矿为例, 它们是后期构造—热液成矿系统跨越时空叠加到早期广义沉积类成矿系统之上时形成的。矿产属于高维时空的资源, 许多成矿过程与时空扭曲相关。

4 结论

(1) 地学现象的研究宜采用等时坐标系。

(2) 高维属性是地学的重要特征。厚煤层是在五维时空建造的。从建造到改造的过程, 也是时空维度不断增加的过程。现今所见到的厚煤层是一个五维、六维、七维、八维甚至更多维的地质体。足够的时空维度才能容纳众多的建造过程及改造作用。

(3) 时空扭曲是高维时空普遍现象。无论是前期的建造作用, 还是后期的改造过程, 都会造成时空扭曲。许多矿产资源的富集与时空扭曲相关。

浅谈高维数据挖掘的现状与方法 篇4

数据挖掘 (Data Mining) 是在20世纪80年代被提出来的, 90年代取得发展, 是当今数据库系统及其应用领域中的一个热点话题。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中, 提取隐含在其中的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程, 并进行数据分析、数据融合 (Data Fusion) 以及决策支持的过程。

数据挖掘是一门交叉学科, 主要包括:数据库技术、人工智能、模式识别、统计学、信息搜索技术、数据可视化和高性能计算等。数据挖掘主要分3个阶段:数据准备、数据挖掘、结果的评价和表达。数据挖掘包括以下几个基本过程: (1) 确定研究目标; (2) 数据的收集与整理; (3) 建立合适的数据挖掘模型; (4) 分析和评价模型; (5) 知识同化, 即将数据挖掘中得到的信息应用到实际问题提出执行方案。数据挖掘方法通常分为两类:描述性方法和预测性方法。常用的方法包括:关联规则、决策树、聚类分析、回归分析、神经网络、预测估计、时间序列、异常分析、描述和可视化法等。

数据挖掘领域的具有十大经典算法:C4.5, k-Means, SVM, Apriori, EM, Page Rank, Ada Boost, k NN, Naive Bayes, and CART。常用的数据挖掘常用软件有:clementine, R软件, Weka软件。

2、高维数据简介

高维数据挖掘是基于高维度的一种数据挖掘, 数据挖掘领域并没有明确定义说维数达到多少称之为高维数据集, 但通常认为当维数增长到使一般的数据处理明显变得异常困难时, 该数据集即可认为是高维数据集。它和传统的数据挖掘最主要的区别在于它的高维度。目前高维数据挖掘已成为数据挖掘的重点和难点。如各种类型的贸易交易数据、Web文档、基因表达数据、WEB使用数据及多媒体数据等, 它们的维度 (属性) 通常可以达到成百上千维。

3、高维数据对于数据挖掘产生的影响

在高维空间中, 一方面引起基于索引结构的数据挖掘算法的性能下降, 另一方面很多基于全空间距离函数的挖掘方法也会失效。总的来说高维数据会对传统意义上的数据挖掘的影响主要存在以下几个方面:

(1) 聚类算法

在高维空间中很多情况下距离度量已经失效。另外在高维空间中索引结构的失效, 网格数随维数呈指数级增长的问题也使得不再有效。

(2) 关联规则挖掘

大多数频繁集挖掘算法都是基于特征计数的, 当维数增加, 特征的组合也呈指数级的增长, 这使得当维数达到一定量级时不可能再在这个空间中进行搜索。

(3) 异常检测

高维数据具有稀疏性, 它的稀疏性使得原来数据挖掘中对于“异常”检测的方法变得无法操作。

4、研究现状介绍

然后正因为高维数据具有“稀疏性”和“异质性”特点。解决的方法可以通过降维将数据从高维降到低维, 然后用低维数据的处理办法进行处理。

基于回归分析的方法当中中正则化方法是进行数据挖掘的最重要方法, 其主要的做法就是在目标函数上增加一个适当的惩罚函数, 利用惩罚参数的调节, 使得最终的估计具有自动的稀疏性, 从而实现变量的选择。实际处理中, 使用线性降维是一个主要研究方向。线性降维方法, 主要包括主成分分析、投影寻踪、线性奇异分析等。针对高维数据集的非线性特性, 近年来发展LLE、ISOMAP、多维尺度分析等非线性局部嵌入方法。近年来Hongyuan Zha和Zhenyue Zhang提出了一种可用于非线性流形学习的局部线性光滑方法;de Silva和Joshua B.Tenenbaum研究了曲线流形的非监督学习问题。L.Saul和S.Roweis提出了局部线性嵌入方法, 等等。

5、总结与展望

随着大数据时代的到来, 人们对数据的研究和利用越来越多。高维数据挖掘是数据挖掘理论研究的一个研究热点, 也是数据挖掘应用必须关注的一个实际问题。本文介绍了在高维数据的研究背景和研究现状, 总结了一些在已有的研究中方法策略。高维数据挖掘并没有一个通用的模型或实现方法, 只有与实际情况相结合并不断地改进模型才具有实际的价值。如果利用常用算法来建立适合的高维流数据挖掘平台, 为高维流数据挖掘的应用提供基础, 将有利于推动研究工作的深化和扩展, 也有利于创造商业价值。

摘要:数据挖掘出现于20世纪80年代后期, 是数据库研究中一个很有应用价值的领域.随着大数据出现, 高维数据的挖掘成为了热点和难点。本文在介绍传统数据挖掘的基础上, 介绍了高维数据的特点以及目前面临的问题, 高维数据挖掘最新研究的情况, 并在此基础上进行了总结和展望。

关键词:数据挖掘,高维数据挖掘,稀疏性

参考文献

[1]李泽安等, Beta回归模型在数据挖掘预测中的应用, 南通大学学报 (自然科学版) 2009, 8 (3) :83-85

高维空间数据库聚类算法研究 篇5

聚类分析是数据挖掘的重点研究领域,也是研究的热点之一,当前各种聚类技术层出不穷。随着聚类技术的发展以及工程实践应用的深入,聚类的研究目标渐渐地针对的是大型、高维的空间数据库,这给聚类带来了挑战。实际上,在人们日常生活所接触和利用的现实数据中,大约有80%的数据与地理位置、属性及其空间分布有关[1]。

1 空间数据库聚类的基本概念

空间数据聚类是空间数据挖掘的一个重要分支,它是根据某个相似性准则对空间实体集进行自动分组或类,使空间数据库中的数据达到组内差异最小、组间差异最大的过程[2]。空间数据库聚类就是将空间数据库分成相似的对象集。设X是数据集,即:X=(x1,x2……,xm),将X分割成n个类(簇)C1……,Cn,使其满足下面三个条件:Ci≠,i=1,2...n;C1∪C2∪…∪Cn=X;Ci∩Cj≠;i≠j;i,j=1,2...n;其中聚类Ci中包含的对象彼此“更相似”,与其他类中的对象“不相似”[3,4]。

2 主要的空间数据库聚类算法

目前已经研究出来的空间聚类算法有很多种,采用不同的聚类算法,可能有不同的聚类结果。算法的选择主要取决于具体的数据集、数据类型、聚类的目的以及应用背景。对于高维空间数据库,从数据挖掘的技术角度来看,主要的高维空间数据库聚类算法分为层次方法,划分方法,基于密度的方法,基于网格的方法和基于模型的方法[5]。

2.1 层次方法

层次方法(hierarchical method)(也称系统聚类法,系统聚类法为传统统计学方法)采用距离作为衡量聚类的标准,根据层次分解有“自底向上”和“自顶向下”两种方式,进一步划分为合并的和分裂的两种方法。其中合并层次聚类初始时将每一个对象作为单独的簇,然后合并这些簇成越来越大的簇,直到满足某个条件为止或者所有对象在一个簇中。而分裂层次聚类则是先将所有对象看成在一个簇中,然后把它逐渐细分成越来越小的簇,直到满足某个条件为止或每个对象自成一簇。层次聚类法简单直接并且易于理解和应用,但缺点在于:一旦合并或者分裂执行,则不能修正,也没有办法更正错误;没有良好的伸缩性,时间复杂度是O(n2),为克服这一缺点,有人将层次聚类和迭代重定位等聚类技术进行集成,形成多阶段聚类。代表算法有:BIRCH算法[6],CURE算法[7],CHAMELEON算法[8]。

2.2 划分方法

划分方法也叫分割方法,是将一个包含有n个数据对象的数据库组织成k(k≤n)个划分,其中每个划分表示一个类或簇,而且这k个划分满足2个要求:(1)每一个划分至少包含一个对象;(2)每一个对象属于且仅属于一个划分,图1描述了划分方法的基本框图。

对于事先给定的K,算法首先创建一个初始划分,然后采用反复迭代的方法改变划分,使得每一次迭代之后的分组方案都比前一次好。而好的划分标准就是:同一分组中的对象越“接近”越好,而不同分组中的记录越“远离”越好。最著名的两种划分方法是基于质心的k-means方法[9]和基于粒计算的K-medoids算法。

2.3 基于密度的方法

基于密度的方法与层次方法、划分方法的根本区别是:它不是采用距离来衡量相似性的,而是基于密度的。该方法的核心思想就是:只要在指定空间区域中的点的密度大于某个设定的阈值就把它加到与之相近的聚类中去。其优点是可以发现任意形状的簇,抗干扰能力强,较适合空间数据聚类。代表算法有DBSCAN算法、OPTICS算法、DENCLUE算法[10]、SUBCLUSTER算法等。DBSCAN算法通过不断扩大足够高密度区域来进行聚类,它能处理噪声及发现空间数据库中任意形状的聚类,聚类速度快;此算法将一个聚类定义为一组“密度连接”的点集[11]。OP-TICS算法是为聚类分析生成一个增广的簇排序,并不显性地产生结果类簇,这个排序表示了各样本点基于密度的聚类结构[12]。

2.4 基于网格的方法

基于网格的方法首先把数据空间划分成为一定数目单元的网格结构,所有的聚类操作都是以网格中的单元对象进行的。这样处理的主要优点是处理速度很快,处理时间与目标数据库中记录的个数是无关的,只与把数据空间分为多少个单元有关。缺点是划分网格单元太粗糙时,不同聚类对象会被划分到一起,划分网格单元太细化时,会得到很多小的聚类,所以,基于网格的聚类算法存在如何选择合适的单元大小和数目的问题。另外,此算法不适合处理高维的数据,因为网格单元的数目随着维数的增加而呈指数级增长。代表算法有STING算法[13]、CLIQUE算法[14],WAVE-CLUSTER算法[15]则是基于网格与基于密度相结合的方法。

2.5 基于模型的算法

基于模型的方法给每一个簇假定一个模型,接着去寻找数据对给定模型的最佳拟合。它通过构建反映数据点空间分布的密度函数来定位簇,同时还需要考虑噪声数据和离群点的影响,从而产生比较鲁棒的聚类方法。它的一个潜在的假设是,目标数据集是由一系列的概率分布所决定的,代表算法有:统计方法COBWEB、EM、神经网络等。

3 空间数据库聚类方法比较

理想的空间聚类算法应该具有可扩展性、能发现空间任意形状的聚类、用户输入参数少、对噪声不敏感、能处理高维数据、可解释性和可用性。针对这几方面,对以上几种聚类算法进行了比较,见表1。

4 基于高维空间的聚类算法的改进

DBSCAN是一个典型的基于密度的空间聚类算法。其基本思想是采用一定半径范围内包含的空间对象实体的最小数目来定义空间密度的概念,只要一个区域中实体对象的密度大于某个阈值,就将该数据点加入到与之相近的聚类中去。

DBSCAN从任一对象p开始,根据参数ε和Min Pts提取所有从p直接密度可达的对象,如果p是核心对象,那么从p所有密度可达的对象标记为同一类(簇),并从他们进一步扩展,直至找到一个完整的聚类。如果p不是核心对象,则p标记为噪声,然后再选择一个新的对象进行扩展,得到下一个聚类,直到所有的对象都被标记为止,这个过程可能会合并一些密度可达的簇。当没有新的点可以被添加到任何簇时,算法结束。

DBSCAN的算法描述如下:

输入:ε为邻域半径、min Pts是一个簇中点的最小实体数量、SDB数据集

输出:达到阈值要求(ε和min Pts)的聚类区域。

从SDB中读取一个未被处理过的点;

do{

if(该点是核心对象)

寻找所有从该点密度可达的对象,标记为一个簇;

else

读取的点是非核心对象,不做处理;

读SDB的下一个空间对象;

}while(所有点都被处理过);

未加入任何簇的点标记为孤立点(噪声)。

该算法有两个明显的缺点:当数据量增大时,要有较大的内存支持,I/O开销也大;当空间聚类的密度不均时,聚类间距离大,聚类质量较差。针对这两点不足,下面给出改进后的算法,该算法采用分区的并行方式对其进行改进。先将高维空间内数据库降维为二维,再对二维数据库进行分区,分区后对每个区的数据进行聚类,然后再将聚类后的数据合并。

改进后的聚类算法如下:

输入:ε为邻域半径、min Pts是一个簇中点的最小实体数量、SDB分区后的数据集

输出:达到阈值要求(ε和min Pts)的聚类区域。

算法检索完一个点的邻域后,随机选取另一个未被分类的点,重复以上过程,直至所有的点都被分类或归为“噪声”。算法中,考察q的ε-邻域内的点,是最耗时的部分,在没有空间索引的情况下,时间复杂度为O(n2),如果采用空间索引,时间复杂度约为O(1ogn)。

5 总结及研究展望

目前,空间数据挖掘及其相关问题还是一个崭新的研究课题,有关的研究才刚刚开始还不是很深入,需要研究的问题还很多,如医疗成像,卫星探测,遥感解释,多媒体数据库等众多带有价值信息的空间数据的出现,使得空间数据的挖掘成为一个重要领域。由于空间数据库的规模巨大,数据类型和存取方法复杂,所以探索高效的空间数据挖掘一直是一个富有挑战的难题。本文主要是对空间数据的聚类技术进行研究和比较,并改进了基于高度的DB-SCAN算法,该算法减少了I/O开销,在对空间多维数据经过降维、分区后再进行聚类,提高了算法的效率,使其更适合高维空间数据库的数据聚类。

上一篇:综艺类电视节目下一篇:电导率的数据