复杂形态(精选4篇)
复杂形态 篇1
0 引言
随着三维测量技术的发展,三角网格模型逐渐成为最常用的几何模型表示形式,广泛应用于计算机图形学、几何建模等领域。由于被测实体表面复杂、局部形态缺失、测量设备受限制等原因,有时无法直接测量获取模型表面的全部三维数据,从而导致生成的网格模型出现孔洞。带有孔洞的网格模型在很多应用领域会导致不良后果,需要对模型孔洞按满足原始模型自然连续属性的方法进行修复[1]。很多学者针对三角网格模型的孔洞修复进行了研究,主要分为非几何方法[2,3,4,5]和几何方法[6,7,8,9,10,11]:(1)非几何方法主要根据模型孔洞边界顶点及N环邻域顶点的几何属性,构造描述孔洞对应缺失区域的场函数[2]或隐式曲面[3],并采用等值面抽取的方法进行网格化[4],生成对应的修复曲面片。非几何方法生成的修复曲面片具有唯一性,不能根据实际需要实现给定连续性的模型修复,且算法的总体效率较低。(2)几何方法中比较具有代表性的是采用基于映射平面[9]或者空间的网格化方法[7]对孔洞边界进行三角化剖分,然后对三角化剖分网格进行细分、优化[10]及Reshape调整得到均匀连续的修复曲面片[8,12]。该类算法的关键是对孔洞边界的三角化剖分和后续的Reshape处理。基于映射平面的剖分方法在处理形状简单的孔洞边界时,具有较好的效果,但在处理曲率变化剧烈、形态复杂的孔洞时,投影后产生的自相交使剖分结果出现剧烈“凹陷”。常用的空间三角化剖分方法[7]为NP complete问题,具有O(N3)的复杂度,不适合处理顶点较多的模型边界。同时,现有的对修复曲面片Reshape调整的方法通常基于径向基函数[6]、最小化能量函数[13]和光顺算法[8,11]等,难以取得指定连续性的修复结果,对复杂形态孔洞修复的效果较差。
针对现有孔洞修复方法效率低、修复结果单一、不能有效处理复杂形态孔洞的问题,本文深入研究分析了在对孔洞边界进行空间三角化剖分时的各种影响因素后,基于局部最优化的权值规则和曲面最小能量值特性的k阶离散欧拉-拉格朗日方程,提出了一种能有效地对复杂孔洞边界进行Ck-1(k=1,2,3)连续的三角网格模型修复算法。本文所提出的修复算法主要由封闭孔洞边界的三角化剖分、剖分网格的细分优化以及后续的Ck-1连续变形调整三个步骤组成。
1 孔洞修复算法及其实现
1.1 符号定义
对网格模型中的任意顶点vi,用NV,1(i)表示顶点vi的一环邻域顶点集合,NT,1(i)表示顶点vi的一环邻域三角形集合。|NV,1(i)|表示集合中顶点的个数,|NT,1(i)|表示集合中三角形的个数。NT,1(i)中的三角形在顶点vi处对应的内角称为vi的邻接内角(图1中的Aj、Ak),定义A(vi)为NT,1(i)在vi处的邻接内角之和:
对网格模型进行孔洞修复时,相应符号定义如下:孔洞边界三角化剖分生成的网格用MC表示;MC细分、优化后生成的网格用MRO表示;MRO进行Reshape调整后生成的最终修复网格用MF表示。
1.2 孔洞边界的三角化剖分
对网格模型孔洞边界进行三角化剖分时,首先计算三角形△vbi-1vibvbi+1的权值Ω(vbi-1,vib,vbi+1),然后,根据三角形权值的大小,迭代删除其对应的空间多边形顶点,实现对孔洞边界的快速网格化。孔洞边界三角化剖分的结果,对模型修复效果起着至关重要的作用。权值函数应满足以下条件。
(1)新增三角形后,待删除顶点及其一环邻域顶点组成的多面体,应与周边网格近似连续过渡,避免形成尖锐的棱角,使新增的网格表面出现凸凹不平和褶皱。
(2)剖分过程中,应避免同一边界顶点包含过多的邻接三角形,使剖分结果产生扭曲。
(3)生成的剖分网格中的边,应均匀地分布在孔洞边界上。
因此,根据以上条件,权值函数Ω(vbi-1,vib,vbi+1)应根据孔洞边界顶点vi的邻接内角之和A(vi)、一环邻域三角形的个数|NT,1(i)|及新增三角形的边长等因素综合决定。
1.2.1 顶点一环邻域内角因素
当顶点vi为网格模型内部任意顶点时,A(vi)的大小表示网格模型在该点处的“平坦”度,A(vi)越大,当前顶点与其一环邻域顶点共面度越大,网格模型内部的连续性越好;A(vi)较小的顶点,在模型表面会形成粗糙的特征,不仅影响后续的模型处理,而且对视觉效果有着不良影响。A(vi)≈2π时,顶点vi的邻接内角j∈NT,1(i);Aj≈π时,曲面的连续性发生剧烈变化。因此应避免生成A(vi)较小及存在邻接内角接近于π的新增三角形。
经实验分析,当边界顶点vib的邻接内角之和A(vib)∈(0,απ),α接近1时,对孔洞边界进行剖分,新增三角形△vbi-1vibvbi+1后,会产生图2所示的两种情况。因此,当0<A(vib)<απ时,使三角形△vbi-1vibvbi+1具有较低的候选优先级,赋给一个较小的权值Ω(vbi-1,vib,vbi+1)=lless。经过实验分析,α=1.2时,能有效地避免剖分后形成尖锐棱角和内角接近于π的三角形,如图2所示。
1.2.2 顶点一环邻域三角形因素
流形网格中,顶点vi的一环邻域三角形投影到顶点vi处的切平面时,投影后三角形的边除在顶点vi处应无相交产生。剖分过程中,新增候选三角形△vbi-1vibvbi+1在3个顶点vbi-1、vib、vbi+1处均应满足投影后无相交产生的条件。若投影后产生相交,则应避免顶点vib优先删除,即候选三角形△vbi-1vibvbi+1应具有0优先级,赋给一个无穷小值,即Ω(vbi-1,vib,vbi+1)=-∞。
1.2.3 三角形边长因素
当顶点vbi满足|NT,1(i)|≤8,A(vbi)>απ时,其在剖分过程中为“正常”的顶点,候选三角形△vbi-1vibvbi+1的权值应跟据三角形的属性(边长、面积、内角等)进行确定。为使剖分后的曲面能张紧覆盖在孔洞边界上,且内部变化平缓,剖分后的曲面片中的边应成“帘幕”状均布在孔洞边界上。此时,剖分曲面片中的三角形顶点在空间上应该是位置相对且距离较近的顶点。因此,三角形的权值应根据其对应的边长进行计算,三角形△vbi-1vibvbi+1的三条边长总和越小,即周长越小,候选优先级应越高,对应的权值计算方式为
式中,ei-1,i、ei,i+1、ei-1,in分别为三角形△Ubi-1UibUbi+1的三条边。
1.2.4 权值及三角化剖分算法
经对孔洞边界三角化剖分时可能产生影响的因素进行综合分析以及实际的编程验证后,权值Ω及lless、lbigger相应的计算公式如下:
式中,RC为模型的包围球半径。
三角化剖分算法描述如下:
(1)计算孔洞边界中,所有前后相邻的3个顶点组成的三角形△vbi-1vibvbi+1的权值Li,并将其插入到L。其中,vbn+1=v1b,vbn+2=v2b。
(2)从权值集L中取出最大的权值Lmax,并把其对应的三角形△vbi-1vibvbi+1添加到MC,把包含顶点vib的三角形所对应的权值Ω(vbi-2,vbi-1,vib)、Ω(vbi-1,vib,vbi+1)、Ω(vib,vbi+1,vbi+2)从L中删除掉;从BH中删除顶点vib,此时,BH={v1b,v2b,…,vbi-1,vbi+1,vbi+2,…,vnb};计算三角形△vbi-2vbi-1vbi+1、△vbi-1vbi+1vbi+2的权值Ω(vbi-2,vbi-1,vbi+1)、Ω(vbi-2,vbi-1,vbi+1)并插入到L中。迭代操作直到BH中顶点个数小于3为止,得到三角化剖分网格MC。
1.3 三角化剖分网格的细分及优化
由于三角化剖分网格MC中的边由BH中的顶点直接连接而成,故需对MC进行细分、优化,得到与原始网格模型网格密度相近的曲面片。网格模型的密度通常是由三角形的平均边长度量的,因此本文采用1-3“面分裂”方法,将边长较大的三角形△vivjvk按图3a所示的方式进行分裂,新增顶点为三角形的质心坐标vc,并采用边交换的方法进行优化调整,得到边长均匀且近似符合Delaunay划分准则的曲面片MRO[10](见图3b、图3c)。
1.4 Ck-1连续的形状恢复
MC经过细分、优化后得到的网格MRO仍为边界和内部均为C0连续的曲面片。为得到在边界和内部符合Ck-1连续性约束的曲面片,图形学领域中,在给定边界信息和边界约束条件的情况下,通常采用最小能量定律来实现曲面片的Ck-1连续Reshape调整[12,13]。因用二次函数表示的能量函数在求解时有着较高的效率和较好的稳定性,故本文基于二次能量函数的通用表示方式,设计了一种能实现Ck-1连续的Reshape调整框架,框架的设计过程如下:
设S:Ψ→R3为三角网格模型M对应的连续曲面,S*…*表示曲面的k阶偏导数,δΨ为曲面的边界。其对应的二次能量函数为
通常应用变分的方法对等式(3)进行求解,以得出对应最小能量值特性的欧拉-拉格朗日方程:
其中,Δ为拉普拉斯算子;bj为具有j(j<k)阶连续性的边界约束。为保证算法的效率和稳定性,通常限定k=1,2,3。k=1时,方程所表示的曲面为面积最小的薄膜曲面;k=2时,为弯曲度最小的薄板曲面;k=3时,为曲率变化最小的曲面。曲面M在经基于式(4)的Reshape调整变形后,将在边界处具有Ck-1和内部具有Ck的最优连续性,从而实现模型整体Ck-1连续的恢复。
当用三角网格曲面取代连续曲面时,式(4)中的拉普拉斯算子对应离散为
其中,S(vi)为顶点一环邻域三角形的面积之和;αij、βij为边eij的对角。k阶的拉普拉斯算子通过迭代定义求出:
对拉普拉斯算子进行离散后,式(4)转化为带有稀疏矩阵的线性方程:
其中,P=[vp,1vp,2…vp,n]T表示网格模型M的内部的自由顶点;B=[vb,1vb,2…vb,m]T表示具有Ck-1边界连续的约束顶点,对应为边界顶点的k-1环邻域顶点集合(包含边界顶点);n、m为对应顶点个数。根据设计的变形框架,对优化细分网格MRO中的顶点,按照给定的边界连续性约束进行调整后得到MF。
2 实验分析
2.1 剖分算法工作机理分析
采用第1节中的权值规则对孔洞边界进行剖分时,在剖分过程的起始阶段,由于边界顶点的邻接三角形较少,剖分规则主要根据邻接内角和三角形周长规则进行。如图4a、图4b所示,初始的剖分过程,亦是一消除“锯齿”、平滑边界的过程,使得边界顶点vib的邻接内角之和A(vib)在0~απ之间,处于较低的候选优先级状态。随着剖分过程的进行,剖分规则会选择边界“角落”处具有较高候选优先级的顶点。剖分后,与新生成边相连的边界顶点通常要比其余边界顶点具有更高的优先级,因此,会驱动剖分继续沿新生成的边界处向前推进,直至形成“帘幕”状的剖分结果(图4c、图4d)。
图4e所示为不考虑邻接内角约束时,对图4a中孔洞剖分的结果,图4f所示为不考虑邻接三角形个数约束时,对图4a中孔洞剖分的结果。由剖分结果可知,邻接内角约束主要影响剖分生成的三角片大小,邻接三角形个数约束主要影响剖分结果在孔洞边界上的均布性。
孔洞剖分过程中,剖分算法会在多个分支的“交汇处”生成较大的三角形,对多个分支进行闭合。
本文所提的权值规则使剖分过程近似分为边界平滑和边界“拉合”的过程,使得剖分结果能张紧在孔洞边界,得到均匀、自然和无扭曲的剖分。
2.2 算法效率分析
由于对孔洞边界采用局部最优化的权值规则,基于迭代删除顶点的方法进行三角化剖分,三角化剖分阶段对应的时间复杂度为线性O(N)(N为边界顶点个数)。对三角化剖分网格MC的细分、优化,以得到与原始网格模型密度相近的网格MRO,其对应的时间复杂度为线性O(M)(M为优化细分后得到的三角形的个数)。在对矩阵的求解阶段,本文采用增量最小二乘求解矩阵的方法,基于CPU(P4 2.4GHz)的速率可达每秒5万个顶点。因此,本文所提的模型修复算法,具有较高的效率,且算法的鲁棒性较好。
表1显示了本文算法在对网格模型修复过程中,生成MC、MRO和MF各步骤所用时间,并与文献[7-8]的剖分算法进行了对比。表1数据表明,利用本文的剖分算法对模型进行修复时,剖分效率为每毫秒200~300个顶点,修复效率为每秒3000~5000个顶点,适合应用于修复地形、文物等包含海量级数据的大尺寸三维模型。
2.3 应用举例
本节对带有大面积缺失的球模型(图5a)、牙颌模型(图5b、图5c)、兔子模型(图5d、图5e)、Pulley上的孔洞(图5f、图5g),进行了实验分析。
图6a显示,采用映射平面剖分时,由于孔洞边界曲率变化剧烈,模型缺失面积较大,投影后的边界会产生自交。图6b为基于映射平面法所生成的修复结果,其并不能满足实际需要。
图7a、图7b、图7c显示,在利用本文算法对孔洞边界进行三角化剖分时,能得到均布在孔洞边界上的剖分结果。
图8a、图8b、图8c为采用文献[7-8]面积最小化的剖分结果,剖分过程中没有对顶点的邻接三角形个数和邻接内角进行限制,这使得剖分结果会产生扭曲和生成内角接近于π的三角形。
由于对相同的孔洞边界无论采用何种剖分方法,总会得到具有相同三角形个数的剖分结果,因此,对空间孔洞边界的剖分好坏的判断标准,即为剖分后生成的边在孔洞边界上的均布性。由图7a、图7b、图7c可知,本文算法剖分得出的三角形更为均匀合理。
图9显示了利用本文算法,对模型进行具有不同边界连续性和内部连续性的修复结果。图10、图11显示,本文算法可以处理带有大面积缺失的复杂孔洞模型,对孔洞的修复结果均匀自然。由实例分析可知,本文算法能实现对模型不同连续性的修复,修复后的网格密度与原始网格密度相近,能满足实际工程的需要。
3 结语
本文深入分析了对三角网格模型孔洞边界进行剖分时的各种影响因素,根据二维流形网格模型的特性,对剖分过程中由边界顶点组成的候选三角形进行加权,使得对空间孔洞边界的剖分转化为边界平滑和边界“拉合”的过程,得到成“帘幕”状均布在孔洞边界上的三角化剖分网格。对三角化剖分网格进行细分、优化后操作后,采用基于能量最小化定律的方法进行Reshape调整,从而实现具有Ck-1连续的模型修复。由最终的修复模型可知,本文算法能根据模型的部分信息来恢复网格模型,可用于网格模型的压缩。本文算法简单、易于理解,能处理形状复杂、大面积缺失的网格模型孔洞,具有较好的工程应用价值。
复杂形态 篇2
1.1 幅度
分为高幅、中幅和低幅三个等级。
1.2 形态
钟型:它表示的是河道的慢慢废弃或侧向移动, 反应能量向上逐渐减弱的水流。
漏斗:可以表示砂体前积的后果, 此外也能代表砂体的水流能量慢慢加强, 也表示了颗粒的变组分选变好, 代表砂体的上部受波浪收造影响。
箱形:表示沉积的整个过程中的能量相同, 供应物源的条件, 同时也是河道、沙坝的明显曲线特点。
对称齿形:是一种很常见的曲线形态, 大多都起到冲刷、充填的作用, 有正粒形的特点。
反向齿形:一种常见的曲线形态, 主要是河水道的末梢以前积式来充填, 有反粒序的特点。
正向齿形:是堆积充填的特点, 一般代表的堆积是在洪水作用下形成的, 也有对称粒序。
指形:表示中间层组粒在较强的能量下的堆积, 如海滩就是这样的。
漏斗—箱形:表示水下砂体是在物源供应下的堆积, 河口的堆积是一个的典型例子。
箱形—钟形:物资充足的环境, 但是后来由于能量在河道转移或者废弃而衰弱, 具备河道的均质沉积, 到了后期沉积成为了正向粒度。
以上的后三种统称为复合形, 表示由大于一种的组合而成的曲线形态, 表示了水动力环境的相互转变。各种类型的曲线形态又能分为锯齿形和光滑形。
1.3 沉积中的接触关系
砂体沉积的初、期中水动力能量和物源供给的速度即为顶底关系, 它又可分为两种即突变和渐变, 渐变有减速、线性和加速三种, 能够反映了具有凹形、直线和凸型等形态的曲线。物源中断 (顶部突变) 或者冲刷 (底部突变) 通常由突变表示。砂体沉积的末期中的水的动力和供给物源的条件是由单砂层的顶部突变反映的。
顶部突变表示突然中断物源的供应, 大多情况下与河道的末期沉积有关, 顶部的均匀渐变表明了均匀的能量的减弱, 呈斜线形。它是河道转移的例子, 若在后期物质供给缓慢或者能量逐渐变弱就是顶部减速渐变, 比如:水下河道。
1.4 曲线形态的光滑程度
这是曲线形态的次一级变化, 由水动力能量改造沉积物所需时间的长短来决定的, 也体现了物源的丰富度, 表示水动力能量的强弱。
光滑曲体:物源丰富, 水动力强淘洗充分, 分选好的均质如沙坝、滩坝。
微齿状:物源丰富, 改造不彻底分选不好如河道砂, 或具季节性变化, 使流量引起沉积物粗细间互。
齿状:代表间歇性沉积选加, 海进海退交替, 还如冲积扇, 辨状河道沉积。
1.5 齿中线
指曲线形态上次一级的中线, 齿中线都互相平行就表示齿的形态相同, 它可以表示能量的变化, 平行齿中线又可分为水平、上顷、下顷三类。
1.6 层序的形态组合方式
多层曲线的组合形式及层序的曲线组合特征进行分析。多层曲线的组合形式, 是指多层曲线幅值的包络线的组合形态, 它可以反映多层砂体在沉积过程中的能量变化及速率变化的情况。根据包络线的形态不同, 可将多层曲线的组合形式分为加积式、后积式及前积式三种类型。
2 电测井曲线形态主要在复杂油气藏中用于沉积相的分析
2.1 沉积相的定义
沉积相即是能够表示沉积物沉积的环境、条件的岩性和生物特性的复合体, 利用电测井曲线形态分析沉积相的方法有很简便、很明显的效果。在沉积相的分析判断中一定要根据相模式和一些有特征意义的相标志才能运用该方法, 可以证明了它在勾画单孔沉积的框架, 十分可行地判断分析沉积的周围环境, 的确是一种可靠有效的相分析辅助手段。
2.2 基本原理
判断分析沉积相, 通常使用两条曲线即自然电位和视电阻率。显而易见, 流体性质的电性和地层岩性反映是电测井曲线形态, 地层水是一种很复杂的液体, 而不是很简单的水溶液。井内的泥浆浓度比地层的水离子浓度小、地层水中的压力比泥浆柱的压力小就会导致渗透性岩层的自然电位负异常, 假如募线也是以泥岩的自然电位, 则自然电位的异常幅度也会逐渐降低, 按粗砂岩、中砂岩、细砂岩、粉砂岩、泥岩的排列顺序一次递减。岩石颗粒较粗, 孔隙的发育, 透水性良好, 能够使浓度较高的地层水逐渐向浓度较低的泥浆扩散, 离子扩散导致的结果就产生了电位差, 正电荷附带在较高浓度的砂岩一端, 反之另一端则带负电荷, 砂岩粒度会慢慢变细, 泥质的成分也会增加, 岩石的孔隙直径慢慢变小, 从而地层内束缚了地层水, 逐渐减弱了溶液的扩散速度。岩石的视电阻率值, 同样是按粗砂岩、中砂岩、细砂岩、粉砂岩、泥岩的顺序逐次降低的, 这是由于越来越细的岩石颗粒, 对溶液中的负离子选择吸附的能力逐渐增强, 同时这些带有负电荷的离子, 也能够吸附一些正离子以此形成可自由移动的偶电层结构, 如果外电场对它有作用, 则会产生附加的导电性, 并使岩石的附加导电能力逐渐加强, 减小电阻率值。
2.3 几种沉积环境的电测井曲线的特征
河流。下面大上面小的正松塔型是河流沉积的主要曲线形态, 也有的沉积底界突折, 并向上的偏移度慢慢变小, 最终呈箱形。该曲线的顶、底部都突折, 而锯齿状的视电阻率曲线能够代表砾岩、砂岩互层和频繁交替。
三角洲。三角洲具有三层结构 (底积层、前积层、顶积层) 。电测井的电线底部是由表示泥质沉积的直线型构成, 如果向上过渡则呈倒松塔型, 它们分别代表了顶积层和前积层。
泥沼及泥炭沼泽。众所周知, 自然电位的曲线在平直的基线上偶含偏负的小异常, 表示泥岩中偶夹带少量的粉砂岩。若视电阻率曲线出现相间并出现峰状的高阻则代表了炭薄煤层或质泥岩。
3 电测井曲线形态在复杂油气藏的应用的总结
利用电测井曲线形态结合相模式和一些有特征意义的标志去判断分析复杂油气藏中的沉积相问题, 不管在理论上, 还是在实际生活中都是可行的。油气藏的地形十分复杂, 国家也对此十分重视, 鼓励科学家们对其的研究, 现阶段, 一些新技术也被应用到油气藏中, 比如:利用核磁共振成像技术判断油田的地下情况。电测井曲线形态在复杂油气藏的具有不可替代的作用, 我们有理由相信, 在科技快速发展的未来, 电测井曲线形态的更多用途会被研发出来, 服务于人们的生活。
参考文献
[1]罗菊兰, 张新, 王荣.用测井方法研究SG地区主要储层段沉积相[J].测井技术, 2003, 03[1]罗菊兰, 张新, 王荣.用测井方法研究SG地区主要储层段沉积相[J].测井技术, 2003, 03
[2]吴健君.用电测曲线形态解释沉积相[J];煤田地质与勘探, 1984, 06[2]吴健君.用电测曲线形态解释沉积相[J];煤田地质与勘探, 1984, 06
[3]杨成.油田沉积相模式识别的研究[D].哈尔滨工程大学, 2002[3]杨成.油田沉积相模式识别的研究[D].哈尔滨工程大学, 2002
复杂形态 篇3
统计机器翻译[1] ( Statistical Machine Translation, SMT) 是非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是对大量的平行语料进行统计分析, 构建统计翻译模型, 并使用此模型进行翻译。统计机器翻译模型主要包括基于词的翻译模型[2], 基于短语的翻译模型以及基于句法的翻译模型。
1. 1 机器翻译的发展现状
近年来, 机器翻译技术特别是统计机器翻译技术取得了巨大的进展, 一些语言之间的翻译已经在人们的实际生活和工作中得到了广泛的应用。越来越多的互联网和软件公司都成功推出基于统计的在线自动翻译系统, 譬如Google Translator, Microsoft Bing Translator, Baidu Translator和Yahoo! Bebel Fish。国内机器翻译领域发展较快, 近年来从事机器翻译研究的团队越来越多, 逐渐从最初的汉英、英汉机器翻译, 向多语言机器翻译发展, 汉英双向、日汉、德汉、阿汉、维汉、藏汉和蒙汉等多语种翻译系统已经在特定领域获得一些应用。
1. 2 维汉机器翻译的研究现状
维吾尔语言信息处理的研究工作始于80年代初。近年来, 随着互联网的普及和自然语言处理技术的发展, 越来越多的研究者开始尝试维吾尔语的语料库建设工作[3]、自动校对、智能检索等。目前, 对维语的研究工作主要集中于维语的词切分[4]、词的形态分析、句法分析[5]等基础理论研究上。值得欣慰的是, 近年来, 包括维语在内的少数民族语言的信息处理工作, 特别是少数民族语言到汉语的翻译, 正得到越来越多的关注与重视。例如, 2011年第七届全国机器翻译研讨会 ( CWMT2011) 首次将维语到汉语的翻译作为一项评测任务, 2013年第九届全国机器翻译研讨会 ( CWMT2013) , 维汉机器翻译已有九家单位参与其中。因此, 借鉴当前成熟的统计机器翻译方法, 结合维语的复杂语言形态特点, 展开维汉机器翻译中复杂语言形态模型的研究具有较高的理论价值与现实意义。
1. 3 本课题的研究意义与思路
“新疆少数民族信息处理”课题旨在围绕新疆信息安全和社会发展的重大需求, 进行维吾尔语基础资源库和信息处理工具库建设, 着重开展维汉机器翻译关键技术研究。语言隔阂问题已经成为制约新疆少数民族聚居地区经济社会发展和长治久安的主要因素。因此, 研究维汉机器翻译, 解决维吾尔语和汉语的信息不平衡问题, 对于推动新疆地区和谐快速发展, 提高处置网络突发事件的能力都具有重要意义。
由于维吾尔语和汉语两种语言之间的差异以及维吾尔语资源的匮乏, 维汉机器翻译面临着比英汉等主流语言对翻译更多的问题。维吾尔语[6]属于阿尔泰语系突厥语族左匈奴语支, 是典型黏着语, 它是通过在词干后附加若干词缀构成新词, 因此, 维吾尔语词汇量异常丰富; 另外, 与汉语S - V - O ( 主语 - 谓语 - 宾语) 的语法结构不同, 维吾尔语是S - O - V ( 主语 - 宾语 - 谓语) 结构, 这就要求维汉机器翻译模型有较强的调序能力, 而现有的基于短语和基于层次短语[7]的模型在长距离调序方面都有其局限性, 基于句法模型[8]因为考虑到了源语言和目标语言两种语言的句法信息, 因而具有较强的调序能力, 词性标注是基于句法模型的基础。于以上两点, 作为基于句法维汉机器翻译的探索性研究, 本文提出一种面向复杂形态语言机器翻译的多模型融合的维吾尔语词性标注方法。
2 面向维汉机器翻译的语料资源库
语料资源库的收集和加工整理是机器翻译研究的重要基础性工作。大规模维汉翻译资源的收集和加工整理是本研究的一项重要基础工作。
面向维汉机器翻译的语料资源主要包括三大类: 维汉翻译词典, 维汉平行语料库和维语单语语料库。其中, 维语单语语料库主要包括形态分析和词性标注的语料库。研究采取Web自动获取和人工收集整理相结合的方法实现大规模维汉翻译资源库的构建, 同时开发一系列翻译资源加工工具来提高资源建设的效率和质量, 最终形成一个大规模维汉翻译资源采集和加工处理平台。
3 语言形态分析及词性标注研究
3. 1 维汉机器翻译中语言形态差异性分析
维吾尔语属复杂形态语言, 有3万多个词根, 100多个后缀, 通过词根和后缀构成多种词形, 以表达不同的意义。而汉语几乎没有形态变化。由于语言形态的不对称, 维语和汉语之间的翻译问题较多, 主要原因是缺乏有效的形态分析与提取方法, 以及适合复杂形态信息的翻译模型。
维汉机器翻译属于词形变化丰富的语言到的词形变化不丰富语言的翻译。这类翻译存在的现象是: 在词形变化丰富的语言中, 一个词不仅表示某种语义, 而且包含多种语法意义, 从而在目标语言中有若干词与之对应, 这样在训练语料有限的情形下, 很容易导致数据稀疏问题。
因此, 为解决上述问题以提高其机器翻译质量, 需进行词干词缀切分、词法句法分析研究, 这些研究的前提是建立大规模语料资源库, 并进行词性标注。
3. 2 基于多模型融合的维吾尔语词性标注研究
传统的感知器标注模型[9,10]在英语等主流语言词性标注中取得了较好的效果, 但在语料匮乏的维吾尔语词性标注中, 不能达到很好的标注效果。
基于统计的词性标注方法在进行模型的训练时, 并未考虑具体的语法信息, 只对训练语料中出现的词性标注及当前词的上下文信息进行学习, 可能会出现过适应的现象 ( overfitting) ; 基于规则的方法需要大量的精确规则, 然而维吾尔语形态复杂, 规则的获取有很大难度。为了充分发挥感知器模型在词性标注方面的优势, 本文将对维吾尔语词进行浅层形态分析 ( 词干切分等) 后的语言学信息作为抽象的标注特征, 加入到感知器模型的训练过程中去。
3. 2. 1 感知器模型基本原理
感知器 ( perceptron) 是二类分类的线性分类模型, 1957年由Rosenblatt提出, 是神经网络与支持向量机的基础。其输入为实例的特征向量, 输出为实例的类别, 取 +1和 -1二值。感知器对应于输入空间 ( 特征空间) 中将实例划分为正负两类的分离超平面, 属于判别式模型。
定义1 ( 感知器) 假设输入空间是, 输出空间是Y = { +1, -1} 。输入x∈χ表示实例的特征向量, 对应于输出空间 ( 特征空间) 的点; 输出y∈Y表示实例的类别。由输入空间到输出空间的函数
称为感知器。其中w和b为感知器模型参数, w∈Rn叫作权值 ( weight) 或权值向量 ( weight vector) , b∈R叫作偏置 ( bias) , w·x表示w和x的内积。Sign是符号函数, 即
感知器是一种线性分类模型, 属于判别模型。感知器模型的假设空间是定义在特征空间中的所有线性分类模型 ( linear classification model) 或线性分类器 ( linear classifier) , 即函数集合 { f | f ( x) = w·x + b} 。
感知器有如下几种解释: 线性方程
对应于特征空间Rn中的一个超平面S, 其中w是超平面的法向量, b是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点 ( 特征向量) 分别被分为正、负两类, 超平面S称为分离超平面。
感知器学习, 由训练数据集 ( 实例的特征向量及类别)
其中, xi∈χ = Rn , yi∈Y = { + 1, - 1} , i = 1, 2, …, N , 求得感知器模型, 即求得模型参数w和b。感知器预测, 根据训练过程得到的感知器模型, 对于新的输入实例给出对应的输出类别。
3. 2. 2 渐进标注模型 ( Progressive POS, PPOS)
传统的感知器标注算法在进行模型的训练时, 是以维吾尔语字符为单位进行训练的, 即每次在前一个字符串的基础上附加字符, 组成新的标注对象。而针对面向机器翻译维吾尔语词性标注这一具体任务, 本文提出了以维吾尔语词后缀为渐进单位的词性标注模型。
在Collins提出的基于感知器模型的词性标注模型中, 用到了词与前后词, 词与前后词性标记、标记与前后词标记等信息。本特征的得分如下表示:
上式中的P ( w- 2w- 1w0w1w2) 表示当前词与前两个词和后两个词的共现概率, P ( t- 2t- 1w0t1t2) 表示当前词与前两个标记和后两个标记的共现概率, P ( t- 2t- 1t0t1t2) 表示当前词标记与前两个词和后两个词标记的共现概率。w0和t0分别表示当前词和对应标记。
3. 2. 3 泛化的标注模型 ( Generalize POS, GPOS)
维吾尔语词是由词干附加若干词缀构成新词, 因此词的数量非常巨大。根据维吾尔语构词知识, 维吾尔语词的词干信息 ( Stem Info) 和词缀信息 ( Affix Info) 对整个词的词性都有一定的预测作用。
词干信息对词性的预测得分:
词缀信息对词性的预测得分:
若待标注词符合StemX或者XAffix这两种情形, 可以使用以上的词干或词缀特征并结合上下文信息来进行当前词词性的预测。
3. 2. 4 模型融合 ( PPOS + GPOS)
由于维吾尔语词性标注的复杂性, 不能单纯地依赖于某一种标注模型。为了充分利用各个模型的优点, 本文提出一种将3. 2和3. 3两种词性标注模型进行融合的新模型, 因为各个模型在融合模型中所占比例不同, 本文将两种模型做带参数融合, 即:
其中的α和β 使用EM ( Expectation Maximum) 算法训练得到。
3. 2. 5 实验及分析
为了验证本文提出维吾尔语词性标注模型的有效性, 分别在三个模型上进行了实验, 并且分别与以字符为渐进单位标注模型 ( CPPOS) 、词缀泛化模型 ( SGPOS, 前部泛化; AGPOS, 后部泛化) 以及无参数融合模型 ( NNPOS) 进行了对比。训练语料203531词 ( 12000句) , 测试文件14522词 ( 1121句) 。
( 1) 渐进模型实验。以维吾尔语词后缀为渐进单位, 基于感知器词性标注模型进行维吾尔语词性标注。
( 2) 泛化模型实验。为了对泛化标注模型进行充分的验证, 本文分别从维吾尔语词的前后两个方向进行泛化, 对比实验中给出了前部泛化和后部泛化两种情形。
( 3) 融合模型实验。本文分别在无参数融合模型和带参数融合模型上进行了实验。
( 4) 结果分析。不同的渐进单位对词性标注模型的性能有较大影响 ( 表1) 。在CPPOS中, 由于维吾尔语的构词特点, 其中的一部分训练结果是非法的维吾尔语单词, 因此不可能成为词性标注模型解码的候选项, 极大地降低模型选择正确标注结果的可能性; 而以维吾尔语词缀为单位的渐进标注模型的渐进单位是词缀, 而词干和候选词缀有很大可能构成其他的维吾尔语词, 因此PPOS的性能好于CPPOS。在泛化模型的对比实验中 ( 表2) , 在维吾尔语词前部 ( SGPOS) 或后部 ( AGPOS) 进行泛化的模型性能都差于两端泛化标注模型 ( GPOS) 的性能, 这是因为GPOS的泛化能力强于任何一端的泛化, 对于未在训练语料中出现词的词性有更强的预测能力。带参数融合模型 ( NPOS) 不仅继承了两种模型 ( PPOS和GPOS) 的优点, 而且从全局上考量了不同模型在融合模型中所占比重, 因此其标注性能最佳 ( 表3) 。
4 总结与展望
本文面向维汉机器翻译中的关键技术问题, 提出了一种融合渐进模型和泛化模型的维吾尔语词性标注方法, 该方法综合维吾尔语形态特征及其维吾尔语词性标注这一任务, 基于感知器模型, 对维吾尔语单词进行词性标注。实验表明, 该方法取得了较好地标注效果。然而, 由于本文中采用普通的字符串匹配方法, 算法运行效率较低, 因而性能有待提高。在接下来的工作中, 将对模型的运行效率做进一步提高。
参考文献
[1]Philipp Koehn, Franz Josef Och, Daniel Marcu.Statistical phrase-based translation.Canada:Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003.48-54
[2]Peter F.Brown, Vincent J.Della Pietra, Stephen A.Della Pietra, etc.The mathematics of statistical machine translation:parameter estimation[J].Computational Linguistics, 1993, 19 (2) :263-311
[3]早克热·卡德尔, 艾山·吾买尔, 吐尔根·依布拉音, 等.混合策略的维吾尔语名词词干提取系统[J].计算机工程与应用, 2010, (1) :175-179
[4]玉素甫·艾白都拉.维语句法分析器中的词义排歧问题的研究[J].计算机应用与软件, 2002, 19 (4) :59-62
[5]玉素甫·艾白都拉, 潘伟民, 力提甫·托乎提.面向信息处理的维吾尔语短语结构规则与标注集研究.武汉:第七届中文信息处理国际会议论文集, 2007:96-101
[6]古丽拉·阿东别克, 米吉提·阿布力米提.维吾尔语词切分方法初探[J].中文信息学报, 2004, 18 (6) :61-65
[7]David Chiang, A hierarchical phrase-based model for statistical machine translation, Michigan:Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, 2005:263-270
[8]Kenji Yamada, Kevin Knight, A syntax-based statistical translation model, France:Proceedings of the 39th Annual Meeting on Association for Computational Linguistics, 2001:523-530
[9]Michael Collins, Discriminative training methods for hidden Markov models:theory and experiments with perceptron algorithms, Proceedings of the ACL-02 conference on Empirical methods in natural language processing, 2002, {10}:1-8
复杂形态 篇4
近些年,基于分形时间序列及混沌理论分析的流型识别和机理研究日趋增多。金宁德等对管内气液两相流电导波动信号进行复杂性测度分析,利用几种复杂性测度变化规律较好地表征了气液两相流流型转化机理[6];孙斌和周云龙用混沌特性分析的方法对管内压差信号进行研究,在两相流流动变化方面取得了较好的研究成果[7];肖楠和金宁德对管内气液两相流压差信号进行混沌吸引子形态描述[8];宗艳波等对油水两相流电导波动信号进行混沌吸引子形态特征分析,对两相流流型有很好的分类效果[9]。但是针对管束间两相流压差信号的特征分析却较少。笔者通过采集气液两相流向上横掠两种节距比管束的动态压差波动信号,研究不同工况下典型流型压差波动信号的盒子维数、近似熵和混沌吸引子图的动力学特性及其流型表征能力。
1 实验设备及方法
气-液两相实验系统主要由两部分组成:气液两相流系统和动态数据采集系统。实验工质采用空气和水,空气经过孔板流量计与水经过电磁流量计计量后进入气液两相混合器,从气液两相混合器出来的气水混合物,流经实验段进行压差信号采集后进入旋风分离器,分离后空气排入大气、水继续循环使用。动态数据采集系统主要由数据采集仪、压差变送器和恒压直流电源组成。采集仪为IDTS-4516U型16通道数据采集仪。压差变送器为Rosemount 3051S电容式差压变送器,测量精度为0.04%。实验中压差动态数据的采集时间为8s,采集频率为256Hz。实验段由厚10mm的有机玻璃构成,长度为700mm,其截面分别为180mm×65mm和182mm×65mm的矩形通道,其中分布着顺列布置的P/D为1.3和1.8的10×4与10×6两种节距比管束。管束长65mm,直径20mm。
实验中,先调节水流量调节阀,把水流量调到某一流量,再通过调节气体流量来改变流经实验段的总流量和含气率,重复上述步骤直到实验结束。实验参数范围:压力0.1~0.3MPa,温度10~25℃,水流量2~15m3/h,气流量0.01~48.00m3/h。
2 复杂性测度与混沌吸引子
2.1 分形盒子维数
设集合A为n维欧式空间Rn上的闭集,F⊂A,记N(F)是可以覆盖F的边长为ε的n维立方体的最少个数,则F的盒维数undefined。对于离散信号来说,则是将Rn划分成边长为ε的网格,Nε(F)则是在集合A中网格宽度为ε的覆盖在离散信号F上的网格计数。在双对数坐标上画出lgNε(F)对lgε的曲线,其直线部分的斜率就是时间序列离散信号的盒子维数[10]。对实验采集到的压差数据进行盒子维数计算,并根据其趋势对流型进行分类研究。
2.2 近似熵
近似熵是由Pincus S M提出的一种度量序列复杂性和统计量化的非线性方法[11],计算信息熵时需要确定3个参数:m、r和N。其中m称为模式维数,是比较序列的长度;r称为相似容限,可以认为是一个有效的阈值:N为u(i)序列给出的点数。对于固定的m、r,定义近似熵是ApEn(m,r)的极限值。当N为有限值时,定义ApEn(m,r,N)为N个点的统计估计值。由此可知ApEn(m,r)的值显然与m和r有关,Pincus S M研究指出,m=2、r=0.1→0.25SDx(SDx为序列u(i)的标准差)、N=100→5000时近似熵表现出较合理的统计特征。经过实验数据计算对比,笔者近似熵计算中采用m=2、r=0.2SDx、N=1024。近似熵算法的具体过程是[12]:
a. 设原始序列信号为u(i),i=1,2,…,N;
b. 将序列u(i)按连续顺序组成m维矢量X(i),即X(1)到X(N-m+1),其中X(i)=[u(i),u(i+1),…,u(i+m-1)],i=1→N-m+1;
c. 对于每个i值计算矢量X(i)与其余矢量X(j)之间的距离,并将差值最大的一个赋予[X(i),X(j)],即d[X(i),X(j)]=max[|u(i+k)-u(j+k)|],k=0→m-1;
d. 给定阈值r(r>0),对每个i值统计d[X(i),X(j)]小于r的数目,将此数目与总矢量数目N-m+1做比值并记作Cundefined(r),即Cmi(r)={d[X(i),X(j)]
e. 将所有的Cundefined(r)取对数,再求其对所有i的均值,记作Φm(r),即undefined;
f. 把维数m加1,重复步骤b~e,得到Φm+1(r);
g. 理论上此序列的近似熵即undefined,但当N为有限值时,其近似熵估计为ApEn(m,r,N)=Φm(r)-Φm+1(r)。
由此可知近似熵是从统计学角度区别时间序列的不规则性和复杂性。从理论上讲可以表征动力系统的差别和变化,反映两相流流动结构,度量两相流流动的复杂程度。
2.3 混沌吸引子
混沌吸引子是耗散流系统的混沌轨迹所产生的相空间中复杂的分形结构。对于时间序列,找出反映该序列的吸引子结构首先要进行相空间重构,而相空间重构的关键即嵌入维数m与延迟时间τ的确定。Takens F等证明,一维时间序列嵌入到m维空间中,只要嵌入维m>2D+1(其中D为吸引子的维数),则嵌入空间中吸引子的几何特性就等价于原动力系统吸引子的几何特性。τ的选择则对吸引子的形状与质量影响很大,对于利用混沌技术分析两相流实测的时间序列非常重要。这里用自相关函数法确定τ,即取自相关函数第一次过零点时对应的时滞。在m取5时泡状流、间歇流、雾状流的τ分别取5Δt、8Δt、12Δt。这时的吸引子图具有较好的几何拓扑性质。
3 实验结果与分析
3.1 复杂性测度分析
在实验范围内对采集到的压差信号分别进行近似熵与分形盒子维两种复杂性特征值提取,并分别绘制两种复杂性特征值与气相折算速度的关系图,如图1所示。由图可知不同节距比管束间各流型内两种复杂性测度的变化趋势是一致的。在泡状流区间(USG<0.38m/s)两种复杂性测度都随着气相折算速度的增加而增大,具体流动状态表现为气相以分散气泡的形式均匀地分布在连续的液相之中,随着气量的增加,气泡数量增多,无规则运动性增大,压差波动幅度增加,其动力学流动特性变复杂,两种复杂性测度呈现出上升趋势。当气相折算速度大于0.38m/s时两相流型发生变化,转变为间歇流。在这个流型区域,两种复杂度的敏感性同样较高,同样随气流量的增加呈上升趋势。而在雾状流区间(USG >0.65m/s)两种复杂性测度较泡状流与间歇流时敏感度要低,其主要原因为在气相折算速度较高的情况下,气液两相扰动剧烈,液相以液滴的方式随气流一起流动,气液两相表现出无规律的混沌特性,图中此区域两种测度的分布趋势能较好地表征这一动力学流动特性。
熵从统计学角度区别时间过程复杂性,盒子维则是从分形几何的角度描述了时间序列的波动。在各流型内不同节距比管束的两种测度值范围是不同的。大节距比的两种复杂性测度高,其原因是管束对两相流动有约束作用,节距比大,管束稀疏,气液两相流动能充分地发展,两相流动的随机程度高,复杂性测度高。在全气相折算速度范围内,近似熵呈先升后降的趋势,盒子维数则呈下降趋势,说明两种复杂性测度对流型的变化是敏感的。熵值在间歇流区域值最大,表示此流型区产生新模式的概率最大。具体流动表现为:随气量的增加,气泡在向上流动的过程中相互碰撞融合成气团,随着流动的继续,气团被上游圆柱挤变分散成小气团或气泡,并具有一定周期性。由此可得出间歇流区明显兼有泡状流和雾状流的部分流动特征。近似熵可以较好地表征其动力学流动特性。盒子维数则对压差的波动体现出高敏感性,其趋势在间歇流到雾状流区间与近似熵有较好的一致性,呈下降状态。但在泡状流到间歇流区却相反。其主要原因是间歇流中随着大气团的出现小气泡数目减少,使压差波动的幅度减小。压差的波动幅度气量的增加呈反趋势。
由分析可知,两种复杂性测度对气液两相绕流流型变化是敏感的,对流型有一定的表征能力。通过分析两种测度的变化趋势可以反映气液两相流的运动特性,有助于理解两相流动力学演化机理。
3.2 混沌吸引子形态特征分析
图2为两种节距比管束3种流型的二维混沌引子图,对比同一节距比下的吸引子图,可发现不同流型的吸引子结构有较大不同。泡状流的吸引子由大量稠密的环交织在一起,表征小气泡均匀地分布在连续液相中,液相比例大,气量较小。间歇流混沌引子的环交织密度降低,并明显出现少量的环线膨胀在外,说明间歇流区气量增大,膨胀在外的环线可由连续液相中大气团的出现来解释,表征了气相的行为,而交织在内的密环表征了连续液相的行为。雾状流的吸引子环稠密程度最低,膨胀程度整体变大,表征液相行为的密环分布在大环之中,这与雾状流中液相以液滴的方式随气相向上流动的流态是一致的。对比3种流型的混沌引子图,可发现间歇流的吸引子结构具有由泡状流到雾状流吸引子结构之间的演化特征,表征了间歇流的流态复杂性高,与上面分析的近似熵值大相互对应。不同节距比的吸引子图几何形状有所不同,这是由管束的密度不同引起的。大节距比管束密度小,两相流流过管束时发展程度较高,而在管束密集的小节距比中,两相流扰动较强烈,并相互影响,对两相流流动的发展有一定抑制作用。
通过选择正确的延迟时间与嵌入维数,得到的不同流型下的吸引子图具有较大不同,并代表了各自的动力学演化特征,反映其动力学结构。同时混沌吸引子具有一定的流型表征能力,说明了压差波动信息可以较好的反映流型演化规律。
4 结论
4.1 提取了管束间压差波动信号的盒子维数和近似熵,并分析其随气相测算速度的变化趋势,发现两种测度对流型的变化是敏感的。并与各个流型下气液两相流动状态互相对应,很好地反映了管束间气液两相流的流动特性,对管束间气液两相流流动机理有较好的表征作用。
4.2 分析了典型流型压差信号的吸引子形态特征,其拓扑结构准确地揭示了两相流流型演化机理,可以鉴别管束间气液两相流流型,说明压差波动信号能够较好地反映流型演化规律。
摘要:基于两种节距比管束间的不同流型的压差波动信号,对其进行复杂性测度特征值提取(盒子维数和近似熵),分析了两种复杂性测度随气相折算速度变化的动力学特性,并研究了典型流型下压差波动信号的混沌吸引子形态特征表征气液两相流流型的能力。结果表明:两种复杂性测度的变化趋势及典型流型下的吸引子形态反映出它们对流型的变化是敏感的。可以表征两相流动力学结构变化,有益于两相流动力学机理的研究,为揭示两相流流型演化机理和定量标识流型提供了一种有效的辅助工具。
关键词:气液两相流,管束,分形盒子维数,近似熵,混沌吸引子
参考文献
[1]郭喜庚,刘光临,李永光.高质量含气率垂直下降两相绕流的研究[J].武汉水利电力大学学报,2000,33(5):56~59.
[2]Ribatsk G,Thome J.Two-Phase Flow and Heat Trans-fer across Horizontal Tube Bundles—A Review[J].Heat Transfer Engineering,2007,28(6):508~524.
[3]Khalid B,David A M.Experimental and Numerical In-vestigation of Two-phase Pressure Drop in VerticalCross-flow over a Horizatal Tube Bundle[J].AppliedThermal Engineering,2009,29(7):1356~1365.
[4]Paul S S,Ormiston S J,Tachie M F.Experimental andNumerical Investigation of Turbulent Cross-flow in aStaggered Tube Bundle[J].International Journal ofHeat and Fluid Flow,2008,29(2):387~414.
[5]陈斌,郭烈锦,张西民.管束间气液两相流动特性研究进展[J].化工机械,1999,26(2):105~109.
[6]金宁德,董芳,赵舒.气液两相流电导波动信号复杂性测度分析及其流型表征[J].物理学报,2007,56(2):720~729.
[7]孙斌,周云龙.水平管内空气-水两相流流型的混沌特征[J].哈尔滨工业大学学报,2006,38(11):1964~1967.
[8]肖楠,金宁德.基于混沌吸引子形态的两相流流型分类方法研究[J].物理学报,2007,56(9):5149~5156.
[9]宗艳波,金宁德,马文衡,等.油水两相流流型混沌吸引子形态特性[J].化工学报,2008,59(4):851~858.
[10]胥永刚,何正嘉.分形维数和近似熵用于度量信号复杂性的比较研究[J].振动与冲击,2003,22(3):25~27.
[11]Pincus S M.Approximate Entropy as a Measure of Sys-tem Complexity[J].Proceedings of National AcademyScience,1991,88(6):2297~2301.