匹配/非匹配处理

2024-10-07

匹配/非匹配处理(精选7篇)

匹配/非匹配处理 篇1

0 引言

Bootstrap方法就是通过一定数量的仿真得到感兴趣的统计量(例如均值和标准差)在特定零假设下的仿真分布,从而建立该统计量的置信区间,并由此判断来自实际过程的该统计量的显著性。该方法在现代的统计推断中有着越来越重要的运用。Bootstrap方法的基本思想是:样本的信息通过计算机仿真的方式可以反复加以利用,从而减少统计推断偏差,并依靠数据本身产生的临界值,为检验提供更为精确、可靠的检验。

本文基于统计估计和近似匹配技术在关系数据库的应用分析,研究了关系数据库系统的非数值关系数据的近似匹配方法。近似匹配查询的关键字条件并不一定能跟数据表中存储的相关属性精确匹配,但可在一定的相似度下匹配,返回一系列合乎条件的近似结果。

1 Bootstrap方法分析

Bootstrap方法最明显的优势就是它是一个极其简单和机械的算法,任何估算f不管它有多复杂,都能通过它得到一个置信区间,且不需要任何基础数据分布的假定信息。运用Bootstrap方法可以很容易确定比较“稳定”的统计函数下数据集合的各种属性,但如果函数不是稳定的,Bootstrap方法几乎就没有什么可用性了。可以这样来定义这个“稳定”,假设重新采样构造一个新的数据集x*,计算f(x*)。然后删除x*中的一个数据,随机抽取x集合中的一个数据代替它,再计算出f(x*),如果此时f(x*)只有很轻微的变化,那么就可以说f是稳定的且适用于Bootstrap方法分析的。然而不管某些不稳定的函数,如求最小值的函数,当把x*中的最小值替换后,再求出的最小值将可能有很大的变化。

对Bootstrap方法的应用来说,采样的次数一定要足够多,因为样本的f(x*)往往是整个仿真数据集f(x*)的一个很好的近似值。例如,对于大多数应用,200个仿真数据是足够的,但对有一些应用来说却需要更多数据。被采样数据在数据分布中应该是独立且同一分布的。使用Bootstrap方法时必须考虑到缺省的数据是不可能跟存储在数据库中的数据一样分布的。例如,在进行完整性约束的数据整合时会丢掉一些记录,而这样将可能造成数据库的不完整,这样的记录往往比较老,因而它们可能跟数据库中的其它记录有不同的分配方式。这样的情况Bootstrap方法是不适合使用的。几乎任何统计推断的参数技术都有类似的需要。

Bootstrap方法比较依赖于待求问题标准差中的偏差和加速度,加速度指的是待估计的参数在涉及到实际值时的变化率。Bootstrap方法的一个长处是能自动纠正这类含有偏差和加速度的问题,尽管本文描述的Bootstrap方法并没有体现这个特点。为了提高访问置信区间更大的准确性,这就需要对Bootstrap方法的复杂度进行分析。

因此,Bootstrap方法是数据库系统统计估计时的重要工具。

2 非数值的近似匹配方法

对非数值的查询是数据库应用中举足轻重的一部分,由于拼写错误、截断、缺少或插入的标记、空字段、意外的缩略语和其他不规则问题,实际的数据是有问题的。通过某种手段对数据库进行基于某种方式的近似查询,使用户能得到某种精确程度的查询结果,并能在结果中挑选符合自己要求的结果也成了现行数据库技术领域急需解决的问题。本文在SQL Server 2005的环境下进行实验,并提出了解决问题的新方案。

本文所讨论的非数值的近似匹配是基于关键字的,用户可以通过关键字的近似匹配得到关键字所在或相关联记录包含的相关信息,其结果即为精确结果的近似值。

基于非数值的近似匹配与数值的近似匹配有很大的不同。精确匹配表明查询的结果跟用户需要查找的信息是绝对匹配的。近似匹配表明查询的关键字条件并不一定能跟数据表中存储的相关属性精确匹配,但可在一定的相似度下匹配,并返回一系列合乎条件的近似结果。

下面就通过一个简单的例子来说明精确匹配和近似匹配的区别:

例如,有关系表Student(s_id,s_name)和Score(S_id,English,C_prog),要求查找学号为‘08137’的学生的相关信息(显示结果应包括该学生的学号、姓名、各门课程的分数)。两个表中的部分信息如表1所示:

很显然,若对这个表进行精确匹配,对这两个表进行等值连接后进行如下SQL查询:

将找不到与‘08137’相匹配的记录,查询结果返回为空。

如上面对近似匹配进行的定义中,相似度是这种匹配方法的一个重要的系数,因此在对上面两个表进行近似查询之前,应预先约定一个相似度,这里可将相似度定义为字符串中相似字符的个数,在这个例子中假设已约定相似度等于3,即跟‘08137’有3个以上连续字符(如在这个字符串中,有3个这样的组合:‘081’、‘813’、‘137’)相同的关键字所在行及其相关记录就是这个查询的合乎条件的包括含有5个相同连续字符在内的精确结果的近似查询结果。

下面的SQL存储过程就可以实现这一近似查询:

运行这一存储过程得到的符合条件的近似查询结果如图1所示:

3 结束语

统计估计和近似匹配技术在关系数据库的应用领域越来越流行,本文研究了关系数据库系统的非数值关系数据的近似匹配方法。近似匹配查询的关键字条件并不一定能跟数据表中存储的相关属性精确匹配,但可在一定的相似度下匹配,返回一系列合乎条件的近似结果。下一步的工作需要进行关键字的近似匹配简化。

参考文献

[1]HAAS P J, NAUGHTON J F, SESHADRI S, et al.Selectivity andcost estimation for joins based on random sampling[J].JournalCompute System Science, 1996 (3) .

[2]ACHARTA S, GIBBONS P B, POOSALA V, et al.The Aqua Ap-proximate Query Answering System[C].Proceedings of the ACMInternational Conference on Management of Data, 2009.

[3]朱永松, 国澄明.基于相关系数的相关匹配算法的研究[J].信号处理, 2003 (6) .

[4]HALL P.The Bootstrap and Edgeworth Expansion[M].Berlin:Springer-Verlag, 1995.

匹配/非匹配处理 篇2

近年来,基于图像分类的图像集相关方法经历了一次爆炸性的发展[5 - 7]。一些非参数方法试图把图像集表示为一个线性子空间[8]或非线性流形[9],这些方法不附带任何数据分布的假设,并且相对于参数模型来说具有许多优点。例如,文献[10]应用仿射包模型来解释不可见外观并且提出近似最近点法以衡量不同集之间的相似性,其通过施加稀疏约束使得最近点贴近某些平面。基于这种假设,文献[11]提出了从子空间至子空间距离的方法,即相互子空间法( MSM) ,通过各个子空间之间的相互匹配来解决图像集之间的匹配问题。文献[12]从子空间至子空间距离拓展至流形—流形距离( Distance between Manifold and Manifold,MMD) ,通过最大线性分割[13]将线性流形分割成多个局部线性模型,然后转化成逐对的子空间之间的距离。局部线性模型的一个延伸称为流形判别分析,它的提出主要用于求解约束流形之间的距离。这些基于非线性流形的方法在许多公共的人脸数据库中都取得了很好的效果,然而,目前大多数现存的流形匹配方法都是局限于监督或非监督的范围内,需要通过手动标注或者先验知识获得一些已知的匹配点,而对于大规模的视频数据若通过手动标注的方式来获得匹配点是件非常棘手的事情,所以这些方法不适合用于解决视频图像集匹配问题。

为了解决两个图像集之间的匹配问题,提出了一种非约束图像参考集匹配方法( Non-Binding Image Referring Set Matching,NB-IRSM) ,较好地定义一个参考图像集并且预先结构化成若干局部线性离线模型,然后将其与所有的图像集匹配,不再使用传统的流形判别分析( Manifold Discriminative Analysis,MDA)[14]中的总体线性变换,实验结果表明了所提方法的有效性及优越性。

1 问题提出

不失一般性,本文连接所有像素的强度,形成特征向量进而表征任意人脸图像。形式上看,两个图像集———目标集( 图库集或待测集) 和参考集分别由X = { xi| i =1,2,…,m} 、Y = { yi| i = 1,2,…,n} 表示,其中xi和yi表示样本,m和n分别是X和Y中的样本数。目标是寻找一个映射函数f ,即所谓的匹配函数,它将X中任意目标图像x映射到Y中的参考图像y 。将这个问题看作一个优化问题

其中

式中: Nxi表示xi的邻近元素; λ1和 λ2是三项的影响平衡系数。第1 项Eg表征两图像集之间的几何相似度值,其中g为几何一致性函数,衡量两个局部模型的差异程度。第2 项Ec反应了外观相似度,其中c为两点之间的匹配成本函数。第3 项Es用于保持平滑性,例如目标集的邻近关系应当储存在参考集中。

2 非约束图像参考集匹配

简要介绍一下所提方法,首先选择一个图像集作为参考集,这样所有的图像集都可以与之进行相互匹配; 接着从图像集中随机选取某人的一个视频序列,该序列具有足够的帧数,覆盖了不同的变化因素; 接着实施一个离线过程,把参考图像集分割成若干局部线性子空间; 然后用图像集匹配算法将待测样本、图库样本集和参考集进行匹配; 随后根据参考集的预先分段,对待测集和图库集进行相应的子空间划分,从而使得待测集和图库集的子空间可以进行自然匹配; 最后,只要计算相应的子空间距离,而不是计算成对的子空间,并将这些相似度值送入分类器,完成人脸的分类与识别。

2. 1 几何一致性

引入局部恒定的几何约束用于图像集的匹配,如上面所说,将每个图像集表示为一个流形。为了表征流形中每个点的领域的几何性质,假设每个xi可近似表示为它邻近点的仿射和

式中: W = { Wij} 是所有点的重组权重矩阵; Wi -th行存储了i - th个点xi的所有重组系数,其中 。具体而言,就是利用最小二乘法描述每个点的局部几何特性,即

显然,方程( 6) 是近似仿射不变的,所以,可以通过权重矩阵进一步将Eg公式化,如下面的目标函数所示

式中: Wx表征了图像集X的重组权重矩阵。如果将每个点的映射关系标记为一个向量,那么函数f可以表示为{ 0,1} 的二维矩阵Fm ×n。因此,函数( 7) 可以改写成如下的矩阵公式

由于W每一行的和都等于1,所以Lx可以看作某个图形的拉普拉斯矩阵,其中,边界可以由Wx构建,I是一个单位矩阵。

利用k个邻近图像集的欧式距离矩阵去描述局部几何特性,其所有的k! 可能的排列都被考虑进匹配成本O( k! ) ,相比文献[1],该模型是局部仿射不变的,求解映射F更容易。

2. 2 面部匹配开销

为了测量姿势、光照、表情及其他因素均互不相同的两个来自不同图像集的图像的相似度,提出对应的局部空间最大主角作为相貌匹配成本。

给定两个线性子空间S1和S2,主角0 ≤ α1≤ … ≤αr≤π/2( r = min( dim( S1) ,dim( S2) ) ) 等同于如下定义

式中: uk和vk是标准向量的第k对元素,“”指子空间的减法运算。主角的余弦值称为典型相关值。显然,最大主角越小,子空间越接近。通常情况下,根据最相似模模型选取标准向量的第一对元素之间的距离作为两个子空间的距离。

鉴于上述对于子空间距离的定义,可以根据两个局部线性子空间的最大主角计算两个图像的相貌匹配成本,进而推进到邻近的两个图像。式中因为xi和yi分别来自于X和Y ,所以它们邻近的k - NN元素可以拓展为子空间Sx和Sy。然后,根据上述子空间距离计算xi和yi和匹配分值,记作Cij。然后,将图像集X和Y的匹配值记作矩阵C = { Cij} 。这样,式( 3) 中Ec可以改写为

式中: tr表示矩阵的迹。

2. 3 平滑约束

直观地说,流形应当保持平滑,构成的曲面嵌入更高维数的欧式空间中,因此,匹配两个图像集时,应当保存其局部的邻近关系,即X中邻近的两个图像,在Y中与之对应的图像也应当是邻近的。

形式上,定义X中每个图像的第k个邻近关系为矩阵Rk

所以,式( 4) 中Es可以由以下公式表示

式中: Lk= I - Rk,k是局部邻近元素的个数。

2. 4 高效的解决方案

根据以上分析,目标函数( 1) 可以由如下的带整数约束的二次规划进行式化

式中: 变量F是一个m × n的表征图像匹配函数f的二维分配矩阵。F的每一行只包含一个1 ,这意味着X中每个点在Y中有且仅有一个投影点。式( 13) 中有3 个约束。第1 个约束保证X中所有图像匹配到Y中。第2 个表示X和Y中点的匹配关系要么是“是”要么是“否”。第3 个约束表征了X中最多有l个图像可以匹配到Y中相同的图像。

式( 13) 是一个带整数约束的二次目标函数,这完全是NP问题,不能有效求解。放开整数约束,同时将目标函数简化如下

式中: U可以由SVD求出,方程如下

本文利用MATLAB工具箱,采用“内点”法[10]去优化目标函数( 14) 。非约束图像集匹配的整个算法流程总结在算法1 中,为了对算法进行加速,利用置信区间收缩法[9]去近似求解凸面优化问题。

算法1: 非约束图像集匹配

输入:X={x1,…,xm},Y={y1,…,yn},m≤n。

输出:二维矩阵Fm×n。

1)分别找出X和Y中每个点的k个邻近元素;

2)由式(6)计算出权重矩阵Wx;

3) 由主角计算出相貌匹配成本C ;

4) 对于每个点xi∈ X初始化置信区间Ti= { yi1,yi2,…,yit} ;

5)While置信区间足够大;

6)由式(14)求解F;

7)移除F中值非常低的点,进而收缩置信区间;

8)End;

9)根据最终的置信区间,由式(14)求解F;

10)将F量化到矩阵{0,1};

11) 优化目标函数( 15) ;

12)计算各个图像集与参考集之间的欧式距离;

13)k近邻完成识别。

3 实验

3. 1 人脸数据库

实验使用了三大通用的视频人脸数据库: Honda/UCSD[3],CMU Mo Bo[4]和You Tube Celebrities[7]。

Honda / UCSD由Lee等人收集用于视频人脸识别研究。实验用他们的第1 个子集,包含20 个目标的59 段视频( 对于每个目标至少有2 段视频) 。每个视频序列包含不同的姿势和表情变化。使用级联的人脸检测器检测每段视频序列的人脸。然后,将所有的人脸调成20 × 20 像素的灰度图像。视频的长度从12 帧到645 帧不等。为了消除灯光影响,采用直均衡化的方图对图像进行预处理。

CMU Mo Bo数据库起初创建是为了用于人的姿势鉴定。该数据库包括了24 个不同目标的96 个序列,即每个目标4 段视频。每个视频都是从跑步机上行走时抓拍的,有300 帧。利用处理Honda数据库相同的方法去获得30 × 30 像素的人脸图像。

You Tube用于在真实世界中进行跟踪和识别。该数据集包含47 位明星( 男演员,女演员和政治家) 的1 910段视频序列。每个序列数百帧,低分辨率和高压缩率。与Honda和Mo Bo数据库相比,该数据库更加具有挑战性,因为噪声因素以及姿势,光照和表情的复杂变化。人脸图像同上调整为30 ×30 像素。

3. 2 实验结果

实验首先进行图像匹配实验去验证所提的匹配方法的有效性,接着,将该匹配方法应用到基于视频的人脸识别中,用各种姿态执行人脸图像匹配,随机选取50 个目标,对于每个目标,选取7 个姿势,面侧角( 间隔15°) 的不同表情和光照的83 张人脸图像。这些图像裁剪至20 ×30像素来模拟低质量的视频人脸图像。

所提方法主要的参数设置: 1) 控制参数: λ1= 2,λ2=0. 1; 2) 当对局部线性模型的灰度特征进行投影时,对应于3 个数据库,PCA的维数分别设定为70,60,80; 3) LDA的维数设置为分类数减1。实验利用欧式距离计算投影后两个相关线性模型的相似度,最小值就是最终图像集的距离。r的值取0 或1,近邻数k取不同的值( k = 1,3,4,…,10) ,进行了大量的实验,在3 个视频人脸数据库上的实验结果图1、图2 所示。

从图1、图2 中可以看出,随着近邻数的增加,r = 1的情况下,所提方法在3 个视频人脸数据库上取得的最佳识别率分别为98. 9% 、95. 0% 、74. 6% ; r = 0 的情况下,所提方法在3 个视频人脸数据库上取得的最佳识别率分别为97. 2% ,93. 8% ,72. 5% 。当r = 1 时,最近的姿势也视为是一次正确的匹配,而r =0 时,表示仅仅当计算对应的姿势时才是正确的匹配。同时,r = 1 时,该方法的最高识别率可达98. 90% ,这意味着几乎所有的匹配结果最多在± 10° 的姿势偏差内。值得指出的是,以前的研究仅使用几何相似度,而没有相貌匹配成本,所提方法具有更高的精度,可能是因为同时使用了相貌匹配成本和几何结构相似度的原因。此外,该方法仅需3 s就可以完成2 个图像集之间的匹配,这比文献[7]的方法快很多。

3. 3 比较与分析

这部分将所提方法与最近几年提出的各种图像集方法进行了比较,包括线性判别分析方法( LDA)[2]、相互子空间法( MSM)[11],判别典型相关性分析法( DDC)[15],流形—流形距离法( MMD)[12],流形判别分析法( MDA)[14],以及稀疏近似邻近点法( SANP)[10]。除了LDA方法,这里没有提供较多的基于样本方法的实验结果,因为文献[5,7,8,11]都已表明基于图像集方法的实验效果均比基于样本的方法好。对于3 个不同的人脸数据库,所有参与比较的方法的最佳识别率如表1 所示。

%

从表1 中可以看出,与其他所有方法相比,所提方法在3 个视频人脸数据库上取得的效果都是最好的。其中,MSM,MMD及SANP均以衍生的方法处理图像数据,而DCC、MDA及所提方法都利用了辨别式标签信息,这使得它们比DCC、MDA及所提方法稍逊一筹。在3 个人脸数据库上,SANP方法都比MSM方法的效果更好,这是因为稀疏约束使得最近点更加贴近仿射面。与SANP方法一样,相对于MSM方法,MMD方法存在更优的识别效果,这是因为它把复杂图像用多个局部线性模型表示,也正因为如此,MDA和所提方法相对于DCC来说更加优越。MDA采用了非线性模型,但是它忽略了集之间的对应关系,仅仅采用总体线性转化以提取辨别特征,并执行成对子空间的比较,而没有匹配过程。与MDA相比,所提方法更为优越,这是因为它消除了由于归类而造成的偏差。

4 总结

针对视频人脸识别中系统不能很好地学习人脸图像有效特征的问题,本文提出了非约束图像参考集匹配方法,通过预先定义一个参考集,构造了多个局部模型,这些模型对于两个图像集的匹配起着很关键的作用。在三大通用视频人脸数据库上的实验结果表明,相比其他文献中的方法,所提方法在处理视频人脸识别问题时是非常有效的,并且效果也是非常稳定的。

以后会将所提的方法运用到其他视频人脸数据库中进行测试,改变不同参数的初始设置及变化,通过实验进一步提高识别率,并且改善识别率的效率。

摘要:针对视频人脸识别中系统不能很好地学习人脸图像有效特征的问题,提出了非约束图像参考集匹配方法,通过在两个图像集之间预先定义参考集构造多个离线的局部模型,并分别与参考集进行匹配,无需考虑所有的成对情况,从而计算出它们的相似度,有效地将视频人脸识别问题转化成二次规划问题。所提方法的有效性在Honda、MoBo及YouTube三大视频人脸数据库上进行了验证,实验结果表明,与现有的视频人脸识别方法相比,所提方法取得了更好的识别效果。

匹配/非匹配处理 篇3

关键词:非匹配不确定系统,T-S模糊控制,滑模控制,反演控制

0 引言

不确定系统的控制问题一直是控制理论界研究的热点问题, 滑模控制在匹配不确定系统控制系统设计中得了广泛应用, 但对于非匹配不确定系统, 滑模控制的鲁棒性难以保证。由于反演控制设计方法独特的构造性设计过程和对非匹配不确定性的处理能力, 在飞机、导弹、电机、机器等控制系统设计中得到了成功的应用[1]。W.C.ohn等基于分块反演技术设计了速度、姿态非线性控制系统, 并将其应用于格斗机的设计[2]。文献[3]用带有约束的自适应反演方法设计了F-16/MATV非线性模型的控制系统, 很好地实现了对攻角和侧滑角指令跟踪。Bao hua Lian等基于非线性反演技术[4], 设计了飞行器高速再入段的控制系统。Huang Shengjie等将反演技术应用于BTT导弹解耦控制[5], 将状态系数作为不确定项来处理, 实现了解耦控制。反演控制技术是一种非线性递推控制设计方法, 其稳定性及误差收敛性都已得到证明[6]。但反演方法要求系统不确定性可参数化表示, 并存在“计算膨胀”的问题, 随着被控对象相对阶的增加这使得控制器难以实现。

模糊控制是一种不依赖于对象的精确数学模型, 利用语言规则实现被控对象的控制, 特别适合于非线性、时变等动态特性复杂的多变量耦合系统[7,8]。T-S模糊模型是一种描述复杂系统动态特征的非线性模型, 它是描述非线性系统的一种比较有效的方法[9]。文献[10]已证明T-S模糊模型比Mamdani模糊模型具有更好的逼近性能。

滑模控制对参数不确定项和外部干扰具有不变性, 模糊控制与滑模控制相结合的设计方法不仅能够使闭环系统稳定, 并且能够避免滑模控制的抖振现象。本文考虑一类含非匹配不确定MIMO非线性系统的控制器设计问题。利用反演设计技术具有处理非线性系统存在的非匹配不确定性的能力, 并结合T-S模糊模型和滑模控制等理论设计了基于T-S模型的模糊反演控制器。

1 问题描述

考虑如下一类非匹配不确定性非线性多输入多输出系统:

式中:f (x) ∈Rn为系统非线性函数;G (x) ≠0, x=[x1T, x2T, ⋯, xnT]T为系统状态变量, xi=[xi1, xi2, ⋯, xin], (i=1, 2, ⋯, n) ;u∈Rn为系统的输入向量;rank (G) =n;w (t) 表示系统的不确定项和外干扰, 不需要满足匹配条件。

假设1存在正的常量bjm和bj M满足如下不等式0

系统控制的目标是在系统存在不确定项w (t) 的情况下, 设计控制律u (t) , 使系统由任意初始状态x (0) ≠0, 收敛至平衡点附近的邻域内。反演法在处理非匹配不确定性方面有很大优势, 为此引入反演滑模控制理论对控制器进行设计。

2 基于T-S模糊模型的反演滑模控制

2.1 T-S模糊反演滑模控制器设计

T-S模糊系统可将复杂的非线性问题转化为若干线性问题的组合, T-S模糊模型能够综合线性控制理论和模糊控制各自的优势。

针对非匹配不确定性式 (1) , 对其进行T-S模糊建模, 系统动态行为可描述为以下r条模糊规则, 则第i条模糊推理规则为:

式中:z (t) =[z1 (t) , z2 (t) , ⋯, zn (t) ]T为模糊前件变量;Fji为模糊集合;x (t) ∈Rn为状态变量;u (t) ∈Rm为模糊系统的输入;fji和bji为非线性函数矩阵;wi (t) 为系统的干扰和不确定性总和, i=1, 2, ⋯, r;j=1, 2。

设αi (ti) 为zi关于模糊集合Fi的隶属函数, 则非线性不确定性系统的全局模糊T-S模型为:

设计反演滑模方法控制器步骤如下:

第一步:引入新的误差状态向量z1, z2∈Rn, 则有:

式中:x1d, τ1为系统期望的状态轨迹;x1d由控制信号命令给出。将τ1视为虚拟控制量。由式 (2) 和式 (4) 可得:

取虚拟控制量τ1为:

式中:K1=diag (k11, k12, ⋯, k1n) , k1i>0, i=1, 2, ⋯, n。

结合上式整理式 (5) 可得:

第二步:设K2=diag (k21, k22, ⋯, k2n) , k1i>0, i=1, 2, ⋯, n。定义滑模面函数为:

定义Lyapunov函数:

根据上式可设计基于T-S模糊模型的反演滑模控制器为:

自适应律为:

全局控制器为各个局部子系统控制律的加权和, 根据以上模型可得:

2.2 稳定性分析

定义Lyapunov函数:

V=21z1Tz1+21sTs+12K5w͂2, 对其求导可得:

将设计的控制律式 (10) 和自适应律式 (11) 代入上式可得:

上式可整理变换为:

通过选取合适的参数值, 可使|Q|>0, 保证Q为正定矩阵。可使, 从而保证每个子系统是渐进稳定的。

取Lyapunov函数:

因此全局T-S模糊模型是渐进稳定的。

3 仿真算例

考虑二阶MIMO非线性系统:

为验证本文设计的控制器的有效性和正确性, 将式转化为可进行模糊反演滑模控制器设计的状态空间形式。选取, 系统状态变量为, 则式 (17) 转化为如下形式的状态空间方程:

式中w (t) 表示系统的不确定项和外干扰总和。

对系统式 (17) , 建立如下的T-S模糊模型:

采用如图1所示的三角隶属函数实现输入量的模糊化。

设系统指令信号q1d和q2d分别为q1d=sin (0.4πt) 和q2d=sin (0.6πt) ;系统的初始状态为x=[0.5, 0.5, 0, 0]。

采用本文设计的控制律式 (10) 对系统式 (18) 进行控制, 控制系统参数设计如下:

当w (t) =0时, 仿真结果如图2和图3所示。

当时, 控制系统参数取值同上, 仿真结果如图4和图5所示, 其中虚线为期望信号, 实线为实际信号。

从仿真结果可以看出, 设计的模糊反演滑模控制器具有良好的跟踪性能和动态品质, 在加入干扰项时, 系统仍具有良好的性能, 表明本文设计的控制律的有效性, 并具有较强的鲁棒性。

4 结论

反演法在处理系统不确定性尤其是非匹配不确定性方面有很大优势, 是处理非匹配不确定系统的一种有效方法。本文讨论了一类具有非匹配不确定系统的控制问题, 利用反演控制方法、模糊控制和滑模控制方法, 克服了非匹配不确定性的影响, 使系统具有较强鲁棒性的同时改善了系统的性能。从仿真结果可以看出, 所设计的模糊反演滑模控制器具有良好的跟踪性能和动态品质, 在加入干扰项时, 系统仍具有良好的性能, 表明本文设计的控制律的有效性, 并具有较强的鲁棒性。

参考文献

[1]胡云安, 晋玉强, 李海燕.非线性系统鲁棒自适应反演控制[M].北京:电子工业出版社, 2010.

[2]ROBINSON J W C, NILSSON U.Design of a nonlinear autopilot for velocity and attitude control using block backstepping[C]//AIAA Guidance, Navigation, and Control Conference and Exhibit.SanFrancisco, USA:AIAA, 2005:15-18.

[3]SONNEVELDT L, CHU Q P, MULDER J A.Constrained adaptive backstepping flight control application to a nonlinear F-16/MATV model[C]//AIAA Guidance, Navigation and Con-trol Conference and Exhibit.Keystone, Colorado, USA:AIAA, 2006:21-24.

[4]LIAN B, BANGY H.Adaptive backstepping control based auto-pilot design for reentry vehicle[C]//AIAA Guidance, Naviga-tion, and Control Conference and Exhibit.Rhode Island, USA:AIAA, 2004:16-19.

[5]HUANG Sheng-jie, ZHAO Zhu-wei, LUO Qi.Design for BTT missile controller base on the RBF neural networks[C]//Pro-ceedings of 2007 Chinese Control Conference.Hunan, China:CCC, 2007:26-31.

[6]TSAI Huang-liang, LIN Jium-ming.General autopilot design for btt missile by generalized linear quadratic gaussian/loop transfer recovery method[C]//AIAA Guidance, Navigation, and Control Conference and Exhibit.Keyston, Colorado, USA:AIAA, 2006:21-24.

[7]王宇飞, 姜长生.近空间飞行器直接自适应变论域模糊滑模控制[J].系统工程与电子技术, 2011, 33(3) :633-637.

[8]KUNDU A K.Aircraft design[M].New York:Cambridge Uni-versity Press, 2010.

[9]佟绍成, 王涛, 王艳平, 等.模糊控制系统的设计及稳定性分析[M].北京:科学出版社, 2004.

匹配/非匹配处理 篇4

随着市场经济发展,市场对资源的配置有着决定性作用,产权制度得地不断完善以及公司所有权和经营权的分离,高管团队成为公司的实际控制人员;而实施多元化战略也成为发展趋势。公司通过多元经营可以降低经营风险、实现范围经济,从而有效的配置资源、获得竞争优势。1984年,Hambrick提出“高阶理论”,之后高管团队与战略及绩效三者的关系成为新的研究热点。国内目前研究中,高管团队、战略、绩效三者中任意两个变量的影响研究较多;少有同时研究三者之间的关系,关于匹配关系的研究更少。

二、理论分析与研究假设

(一)非相关多元化战略的绩效

交易成本理论认为,多元化后通过内部交易降低了成本;资源基础理论认为,多元化有利于利用剩余资源,进行高效配置;生命周期理论认为,一个产品或者一个行业都有生命周期,进入新的领域、开发新的产品有利于创造新的盈利增长点。总体来讲,公司多元化有利于降低成本、高效配置资源、分散经营风险、创造盈利点。陈收等(2004)通过熵测法发现公司多元化和绩效成正向关系。李志辉等(2014)研究得出商业银行多元化水平正向影响盈利水平。综合上述,提出假设:

H1:非相关型多元化战略对公司绩效产生正向影响

(二)高管团队特征的调节作用

(1)年龄的调节作用。人是不断成长的过程,人所获得的经验随着年龄的增长而增加。高管人员的年龄越大,那么其经历越丰富,在进行战略决策时思考地更加周全。随着年龄的增加,人越来越趋向于保守,在进行战略决策时不敢冒险。(2)教育水平的调节作用。高管团队教育水平越高,那么接受的信息的机会就会越多,将有更多的机会获取新的信息源。这样教育水平的提高实际上等同于认识水平的提高,提高了高管对管理知识的认知,诸如看清了公司发展所在阶段、学会使用各种管理工具(包括战略矩阵分析、SWOT分析、杜邦分析等等),驾驭公司和市场的能力得以提高。更高的教育水平能够让公司决策时做出精准的市场定位,能够很快地找到适合公司发展的管理模式(包括公司组织结构、公司进入行业选择等等),从而提高公司绩效。(3)任期的调节作用。高管团队较长的任期有利于提高认同度,容易形成相同的价值观和经营理念,共同的组织管理经历有利于增加团队粘聚力。公司任期越长的团队,容易形成固化思维,无法应对全新不相关行业可能存在的危机,从而降低公司的绩效。(4)女性比例的调节作用。女性高管具有做事细致的天性:Cristian(2012)认为女性加入高管团队,一方面能够优化高管团队成员性别比例结构,在团队决策的过程中能够促成良好的交流氛围;另一方面Croson(2009)认为,女性倾向于追求低风险的决策。由于女性对风险的规避,追求稳定,在一定程度上抑制了公司的扩张行为,从而降低了公司绩效。综合以上分析,本文提出以下假设:

H2:高管团队特征对非相关多元化战略和公司绩效的关系存在着调节作用

H2a:非相关型多元化战略情境中,高管团队年龄越大时候,多元化程度与公司绩效的正向关系越不明显;相反,越明显

H2b:非相关型多元化战略情境中,高管团队教育水平越高时候,多元化程度与公司绩效的正向关系越明显;相反,越不明显

H2c:非相关型多元化战略情境中,高管团队任期越长时候,多元化程度与公司绩效的正向关系越不明显;相反,越明显

H2d:非相关型多元化战略情境中,高管团队女性比例越高时候,多元化程度与公司绩效的正向关系越不明显;相反,越明显

三、研究设计

(一)样本选取与数据来源

根据CSRC的标准,本文选取沪深A股上市公司为研究对象,收集2012-2014年的数据,根据战略执行的滞后性和执行效果的滞后性,选取的调节变量高管团队特征为2012年数据、自变量非相关型多元化战略为2013年数据,因变量公司绩效为2014年数据;控制变量中公司历史为2013年数据,公司规模和财务杠杆为2014年数据。根据以下顺序进行筛选:(1)剔除ST公司;(2)剔除金融类上市公司;(3)剔除主营业务收入(分行业)中含负值行业的公司;(4)剔除数据缺失的公司;(5)剔除高管变动超过2/3的公司;最终获得130家样本数据。本文使用的数据收集情况如下:高管团队背景特征数据来源于国泰安数据库、上海证券交易所、巨潮网,主营业务收入构成、控制变量、公司绩效来源于Wind数据库。

(二)变量定义

(1)高管团队特征的定义与测量。根据《公司法》对高级管理人员的规定以及数据收集便利性,参照雷辉等(2013)对高管团队的定义,本文定义为正副董事长、正副总经理、财务总监、董事会秘书等高层人员。本文选取高管团队的四个背景特征,分别是年龄、任期、教育水平、性别,具体定义如表1所示。(2)非相关型多元化战略的定义与测量。本文认为多元化战略是企业为了实现扩张而采取增加产品种类的多元化,非相关型多元化战略是选择与本行业业务不相关的多元化战略。本文根据《上市公司行业分类指引》对业务单位进行分类,按照门类、大类、中类来划分经济活动,其中门类按照字母递增编码、大类按照一个字母加两个数字进行编码、中类按照一个字母加四位数字进行编码;我国上市公司中制造业企业占大多数,为此,本文在门类和大类之间增设次门类———用一个字母加一个数字进行编码。把字母和前两位数相同的经营活动定义为一个业务单位,二位数字编码的主营业务收入占公司总收入的比值为专业化比率(SR);在制造业公司中,当经营内容中有两个或者以上的在同一个次门类中,那么判定为公司的经营内容具有相关性,即“C+前一位数字”相同;在非制造业公司中,当经营内容中有两个或者以上在同一个门类中,那么判定为公司的经营内容具有相关性。此外,本文采取Rumelt法对非相关型多元化战略的多元化程度进行测量,即采用专业化比率(SR)进行测量,由于SR值越大,表示多元化程度越低,因此进行同方向处理,用“1-SR”来表示多元化程度。(3)公司绩效的定义与测量。根据以往研究,采用ROA来测量绩效。(4)控制变量的定义与测量。本文选择以下控制变量:公司规模、公司历史、财务杠杆。

(三)模型构建

(1)非相关多元化战略绩效的模型。根据机理分析和实证设计建模:模型1为非相关型多元化战略中控制变量对绩效的影响;模型2为非相关型多元化战略中引入多元化变量后的回归模型,α1、α2、α3、α4为回归方程对应的回归系数,ε表示误差的随机干扰项。

(2)TMT调节作用的模型。关于调节效应的分析方法,参照温忠麟等(2005)所使用的方法,即当自变量为连续变量时,调节变量若是连续变量则可以采取分层回归的方法进行调节效应分析;调节变量若是类别变量,则进行分组回归分析。本文由于对自变量已经分组处理,所以自变量多元化程度属于连续变量;而高管团队特征作为调节变量,为了方便回归分析,通过对高管团队特征标准化处理引入虚设变量。因此采用分层回归进行调节效应分析。回归层次分析步骤:第一,对所有变量数据进行Z-score标准化处理,然后再用标准化之后的调节变量与自变量计算乘积项———交互作用。第二,构建回归模型,将控制变量放入模型进行回归分析。第三,将自变量和调节变量放入回归模型进行分析。第四,将调节变量的乘积项放入回归模型,检验乘积项回归系数的显著性;检验不同的高管团队特征对相关型多元化战略与绩效的调节作用,检验四个特征,年龄、教育水平、任期、女性比例,与多元化战略的交互项对公司绩效的回归系数显著性。综合,构建以下模型:

其中,Xi为调节变量(i=1,2,3,4),即高管团队特征,X1表示年龄变量,X2表示教育水平变量,X3表示任期变量,X4表示女性比例变量;βi是调节变量的回归系数,γi是交互项的回归系数,其中i=1,2,3,4;ε表示误差的随机干扰项。以上假设如假设框架图所示:

四、实证分析

(一)描述性统计

通过表2,发现高管团队平均年龄为49岁,最小年龄为41岁,最大年龄为62岁;高管教育水平较高,平均水平在本科和硕士之间(3.42),学历最低水平是大专文凭,没有大专以下的高管人员;公司高管的任期在1-12年之间,平均任期为5年;高管女性比例为0.14,说明女性高管不多。绩效均值水平在4.5%,公司最严重的亏损是-9.7%;最大盈利为18.4%。

注:N=130

(二)回归分析

通过表3的回归结果,看出:在模型2中加入多元化战略之后,R2从0.137提高到0.161,调整R2从0.117提高到0.134,解释变量多元化程度对模型的解释能力得到加强。非相关型多元化战略对公司绩效(ROA)产生正向影响,在显著性水平0.1时回归系数为0.052。支持了假设1;说明在非相关型多元化战略情境中,多元化程度越大,公司绩效越高。此外,财务杠杆对多公司绩效有显著负向影响;公司规模对公司绩效有显著正向影响。

注:N=130,*p<0.1,**p<0.05,***p<0.01(双尾检验)括号中为t值

通过统计变量的方差膨胀因子(VIF值),发现最大的VIF值为1.380,以上变量的VIF值在1和2之间、远远小于10,说明了变量之间不存在严重的共线性问题。模型3-5的F检验显示非常显著(通过0.01的显著性水平检验),表明回归方程有意义。控制变量组的判定系数R2为0.137,在加入自变量和调节变量之后,R2增大到0.200,方程的拟合优度效果得以加强;在加入调节变量的乘积项之后,R2增大到0.257,方程的拟合优度效果再次加强,表明控制变量、自变量和调节变量及其乘积项可以解释公司绩效的方差为25.7%;表明回归效果较好。在模型5之中,年龄与非相关多元化战略的交互项系数为0.000,其中P>0.1;表明年龄没有对非相关多元化和公司绩效的关系产生调节作用,H2a没有得到验证。教育水平与非相关多元化战略的交互项系数为0.169(通过0.1的显著性水平检验),H2b得到验证;任期和性别与相关多元化战略的交互项系数分别为-0.173(其中P<0.1),-0.146(其中P<0.05),说明任期和女性比例对非相关多元化战略和公司绩效的关系产生了负向调节作用,H2c和H2d得到验证。整体上,得出H2得到大部分支持。

注:N=130,*p<0.1,**p<0.05,***p<0.01(双尾检验).括号中为t值

为了更加直观地突显高管团队特征对非相关多元化战略与公司绩效的调节作用,采用同上面相同的方法:对自变量(按均值分成两组)和调节变量(按中位数分成两组)数据进行分组;分别计算出四个组研究样本的ROA数据,并绘图2、图3、图4;如图2所示;教育水平越高的一组相比教育水平较低的一组,非相关型多元化战略和公司绩效的正向关系越显著(教育水平高组的斜率为0.1289大于教育水平较低组的斜率———0.1121),因此,提高教育水平,可以正向影响非相关型多元化战略和公司绩效的关系,H2b得到进一步地验证。

同样地,由图3,可以得出,高管团队任期越短的上市公司,其非相关多元化战略与公司绩效的正向关系越明显。H2c再次通过验证。

同样地,由图4,可以得出,女性占比越低时,其非相关多元化战略与绩效正向关系越明显。H2d通过验证。

五、结论与建议

(一)结论

本文基于高阶理论分析了非多元化战略对绩效的影响以及高管团队特征的调节作用。得出以下结论:非相关多元化战略对公司绩效有正向影响。高管团队特征的调节作用:年龄无调节作用,可能是年轻的高管有闯劲但缺乏抗风险能力,而年长的高管虽然经得起大风大浪但做事比较保守,所以没产生调节效应。教育水平对多元化程度有显著正向调节作用:即教育水平越高,非相关多元化战略和公司绩效的关系越明显;反之,越不明显。任期和女性比例产生负向调节作用:即任期越长、女性比例越大,非相关多元化战略和公司绩效的正向作用越不明显,反之,越明显。

(二)建议

造纸废水混凝处理的最佳匹配条件 篇5

混凝是一种最普遍的水处理方法。其基本原理是向废水中投入一定量的混凝剂,使废水中难以自然沉淀的悬浮物、胶体状污染物和可絮凝的其他物质经过电性中和、吸附架桥和网捕卷扫等反应过程,凝聚成“絮团”,再经沉淀设备将絮凝后的废水进行固液分离,然后“絮团”沉入沉降设备的底部以污泥形式排出,而顶部流出的则是色度和浊度较低的清水,从而使胶体状污染物得以从废水中分离出来。混凝反应是一个复杂过程,涉及多种因素,这些因素中有影响矾花形成(混合反应)的混凝剂种类、投药量、溶液pH值等,也有影响矾花增长(絮凝反应)的投药顺序、混合时间、絮凝时间及水流的紊动情况等[4]。本文通过一系列实验就影响造纸废水混凝处理效果的各因素进行探索,获得了造纸废水混凝处理的最佳匹配条件。

1 材料与方法

1.1 材料

1.1.1 废水来源及水质状况

废水取自山西某造纸厂混合排放废水,水质指标见表1。

1.1.2 混凝剂

无机混凝剂:硫酸铝[AL2(SO4)3]、三氯化铁(FeCl3)、硫酸亚铁(FeSO4)、聚合氯化铝(PAC)。

有机助凝剂:聚丙烯酰胺(PAM)、海藻酸钠。

1.2 实验方法

1.2.1 混凝剂溶液的配制

硫酸亚铁、三氯化铁及硫酸铝均配成20%浓度,聚合氯化铝配成15%浓度,有机助凝剂均配成0.1%浓度[5]。

1.2.2 混凝方法

取500 mL水样装入800 mL烧杯中,定位在搅拌机上;开动搅拌器,调搅拌转速为150 r/min搅拌1.0 min;然后加入混凝剂,持续搅拌1.0 min后将转速降至60 r/min慢速搅拌10.0 min;接着把水样移入500 mmL量筒内,静置30 min,用移液管从量筒中部分别取出20.0 mL和10.0 mL澄清液,测CODcr和浊度[6]。

(1)无机混凝剂的选择。对几种常见的铝盐、铁盐混凝剂[AL2(SO4)3、PAC、FeSO4、FeCl3]及不同投加量、絮凝时间进行了比较实验,根据实验的因素和水平进行设计(见表2)。

(2) PAC投加量。分别投加80 mg/L、120 mg/L、160mg/L、200mg/L、240mg/L系列的PAC。

(3)有机助凝剂的选择。分别投加0.5 mg/L、1.0 mg/L、2.0 mg/L系列的PAM和海藻酸钠。

(4) PAC与PAM投加顺序:①先加PAC (200mg/L),30 s后加PAM (1.0 mg/L);②先加PAM (1.0 mg/L),30 s后加PAC(200 mg/L。

(5) pH值对PAC+PAM处理效果的影响。调出不同的pH值系列2.06、4.03、5.55、6.50、8.06、10.06。

1.2.3 COD的测定

重铬酸钾法,参照GB 11914—89[7]。

1.2.4 pH的测定

玻璃电极法,参照GB 6920—86[7]。

1.2.5 浊度的测定

GDS-3型光电式浑浊度仪。

2 结果与分析

2.1 几种无机混凝剂絮凝效果的对比及最佳混凝剂的确定

采用直观分析法,由混凝沉淀过程发现,FeSO4、FeCl3和Al2 (SO4)3混凝剂对该造纸废水的混凝效果很不理想,只有PAC具有比较好的混凝效果。这是由于PAC在其水溶液中存在着带正电荷的聚合离子:[AL13(OH)34]5+、[AL2(OH)17]4+等[8],对水中胶粒起电性中和及架桥作用。由于OH-桥连作用,形成具有巨大表面积的带正电荷的多核络合物,能够强烈地吸附胶体颗粒,通过电荷中和、黏附、架桥以及卷扫等物理和化学作用,从而使废水中的胶体杂质碰撞凝聚,形成絮体沉淀。同时还发现,絮凝反应时间对混凝效果的影响不大,故可把絮凝反应时间定为10.0 min,定最佳混凝剂为PAC并探索其处理造纸废水的最佳操作条件。

2.2 PAC不同投加量对CODcr、浊度去除率的影响及最佳投加量的确定

取500 mL水样装入800 mL烧杯中,定位在搅拌机上,开动搅拌器,快速搅拌1.0 min后加入0.27 mL、0.40 mL、0.53mL、0.67 mL、0.80 mL (即相当于80 mg/L、120 mg/L、160mg/L、200mg/L、240 mg/L的投加量)系列的PAC,测CODcr和浊度。实验结果见表3。

由表3、图1及图2联合分析可知,CODcr、浊度去除率随PAC用量增加而提高,尤其是当PAC投加量为200 mg/L时,其CODcr、浊度去除率与160mg/L投加量的相比,变化幅度很大。而当投加量变为240 mg/L时,其混凝效果与200 mg/L的混凝效果相比,变化幅度不大。同时,在实际运行中,投加量直接影响运行费用。综合考虑各种因素,PAC投加量应以200 mg/L为宜。

2.3 有机助凝剂的选择

当单独使用混凝剂不能取得预期效果时,需投加有机助凝剂以提高混凝效果。助凝剂通常是一些链状大分子的物质,其作用是为了改善絮凝体结构,即利用长链状分子的吸附桥连作用将无机混凝剂形成的絮凝体包围起来,促使细小而松散的絮粒变得粗大而密实,通过进一步的絮凝反应过程,逐渐将颗粒中的水分挤出,这样颗粒的沉降速度加快,从而提高CODcr去除率和浊度去除率,获得最佳混凝效果。实验结果见表4。

由表4及图3、图4可知,有机助凝剂的种类及投加量对CODcr、浊度去除率均有一定影响,尤其是对浊度去除率影响较明显,在0.5~2.0 mg/L范围内,PAM的处理效果比海藻酸钠好,且PAM投加量以1.0 mg/L为最佳。

综合以上分析可知,造纸废水混凝处理的最佳混凝剂与助凝剂组合为PAC (200 mg/L)+PAM (1.0 mg/L)。

2.4 PAC与PAM投加顺序对CODcr、浊度去除率的影响及投加顺序的确定

取500 mL水样定位于搅拌机上,快速搅拌1.0 min后,可按如下方法操作:①先加PAC (200 mg/L),30 s后加PAM(1.0 mg/L);②先加PAM (1.0 mg/L),30 s后加PAC (200mg/L)。沉淀后测上清液CODcr和浊度。实验结果见表5。

由表5可知,PAC与PAM的投加顺序对浊度去除率的影响不大,但是对CODcr去除率的影响却很显著,投加顺序应以先加PAC,30 s后加PAM为宜。

2.5 pH值对PAC+PAM处理效果的影响及适宜pH值范围的确定

加入NaOH或者HCl溶液,调出不同的pH值系列2.06、4.03、5.55、6.50、8.06、10.06,再投加PAC+PAM[即为先加PAC (200 mg/L),30 s后加PAM (1.0 mg/L)]絮凝后测上清液CODcr和浊度。实验结果见表6。

由表6与图5、图6可见,在适宜的pH值范围内,CODcr和浊度具有较好的去除率。最佳值为4.03,适宜pH值为2.0~6.5。同时我们还发现,pH由6.50变为4.03时,CODcr去除率和浓度去除率急剧上升,而当pH<4.03时,处理效果提高不是很明显,从经济角度考虑应以4.03为最佳。

3结论

对于再生纸浆造纸废水的混凝处理,4种无机混凝剂[AL2(SO4)3、PAC、FeSO4、FeCl3],以PAC效果最好,且处理效果随PAC投加量的增加而提高。当投加量为300 mg/L,废水pH为8.2时,CODcr去除率可达18.54%,浊度去除率可达72.11%,考虑到运行费用认为投加量以200 mg/L为宜。

两种有机助凝剂(PAM与海藻酸钠),以PAM效果较好。当PAC投加量为200 mg/L,PAM投加量为1.0 mg/L,废水pH为8.2时,CODcr去除率可达27.68%,浊度去除率可达43.32%,且投加顺序应为先加PAC后加PAM。

废水的pH值对混凝效果影响较大,处理效果随废水pH值的增加,降低。当pH为4左右,快速搅拌1.0 min后加入200 mg/L的PAC,持续快速搅拌30 s后加入1.0 mg/L的PAM,慢速搅拌10.0 min,其对CODcr去除率可达44.47%,浊度去除率可达96.90%。

摘要:混凝剂种类、投加量、投加方式及pH值是影响再生纸浆造纸废水混凝处理效果的4种最主要因素,文章通过对4种无机混凝荆[AL2(SO4)3、PAC、FeSO4、FeCl3]和2种有机助凝剂(PAM、海藻酸钠)进行混凝处理试验与研究。结果表明:在pH为4左右,快速搅拌1.0min后加入200mg/L的PAC,接着持续快速搅拌30s后加入1.0 mg/L的PAM,然后慢速搅拌10.0 min,其对COD?去除率可达44.47%,浊度去除率可达96.90%。

关键词:絮凝,造纸废水,混凝剂,助凝剂,再生纸

参考文献

[1]武书彬.造纸工业水污染控制与治理技术[M].北京:化学工业出版社,2001.

[2]胡大锵.再生纸浆造纸废水处理技术浅析[J].给水排水,2001,27 (9):42-45.

[3]刘素英,高信红,池明军.造纸废水的生物后处理工艺探讨.西北轻工业学院学报,2002,20(3):85-87.

[4]刘士锐,任南琪.朴庸健.正交法混凝试验对造纸废水处理的研究.哈尔滨建筑大学学报,2001:34(3):52-55.

[5]祁鲁梁.水处理剂及材料实用手册[M].北京:中国石化出版社,2000:5-10.

[6]胡万里.混凝·混凝剂·混凝设备[M].北京:化学工业出版社,2001:29-41.

[7]杨学富.制浆造纸工业废水处理[M].北京:化学工业出版社,2001:332-334.

[8]罗鸿.中药渣絮凝剂处理造纸废水的研究[J].四川环境,1998,17 (3):24-26.

[9]W.welsley Eckenfelder,Jr..Industrial Water Pollution Control (Third Edition)[M].McGraw-Hill Education(Asia)Co.and Tsing hua University Press,2002:5-138.

基于依存关系匹配的长难查询处理 篇6

目前,商业和学术搜索引擎主要基于关键词匹配的方法进行检索。传统的检索方法往往存在两个问题:(1)用户查询时输入的有限词语并不能完全准确表达其检索的真正意图,查询本身存在的歧义性导致搜索引擎返回大量与用户需求无关的文档[1]。该问题可以通过应用查询扩展和相关反馈等技术得到改善。(2)另一方面,用户有时往往会输入长难查询,提供给搜索引擎的查询词的长度发生了变化,其长度正在不断增长[2]。例如:在MSN日志中,大约10%的查询词长度都是在5个词以上[3]。长难查询就是词与词之间包含一定的语法语义关联的较复杂的查询,长难查询往往包含大量的具有语法意义的词,能更详细周全地表达用户的信息需求。与此同时,长难查询也经常会包含一些和用户需求无关联的词,传统的搜索引擎对待长难查询总是力不能及,导致长难查询的检索结果偏离查询主题。Tellex等学者[4]认为忽略关键字之间的重要关系是导致当前词汇匹配被错误判断的主要原因。许多不相关的文档和相关文档一样都包含相同的查询词,但在不相关文档中这些词之间的关系是不同于查询词之间的关系的。下面通过表1中例子来说明这一问题,即词汇匹配不会得到正确的返回结果。表中句子1是正确的返回结果,句子2虽然包含了许多和查询中相同的词,但也是不相关的返回结果。

本文认为在处理长难查询的时候,要充分考虑其自身特点,即充分利用长难查询自身具有的良好句法和语法结构,加以处理和分析。句法分析的任务是根据给定的语法,自动推导出句子的语法结构。句法分析性能的提高对信息检索、信息抽取以及机器翻译等应用产生重要的推动作用。在句法分析的研究中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视[5]。本文的方法中使用了依存语法分析技术对长难查询进行处理。

本文内容将按如下方式组织:本文第二节介绍长难查询处理的现状以及句法分析技术;第三节简单介绍依存句法和查询重构技术以及语言模型;第四节阐述基于依存关系的查询重构模型;第五节展实验设置。第五节介绍实验设置及结果分析;最后第六节将对本文工作进行总结并对未来的研究工作进行展望。

2 相关工作

对长难查询的处理,在之前的工作中[2,6,7,8,9,10,11,13]的方法可以归结为两类:查询词的重新加权(query re-weighting)和缩短查询词(query reduction)。查询词的重新加权,即对查询词中的每个词赋予不同的权重,再对新查询进行检索;缩短查询词,即通过一些方法来去掉查询词中一些无用的词,减少初始查询词中词的数量,然后对修剪后的查询进行检索[9]。

M.Bendersky等[8]利用有监督机器学习技术来找到长难查询中的关键概念,达到缩短查询词的目的。G.Kumaran等[2]找到初始长查询的所有子查询,若一个初始长查询长度为n,则其所有子查询有2n个,并选择了大量的特征,基于这些特征对初始长查询的所有子查询进行排序,然后选择打分最高的子查询代替原始长查询。他们把对长难查询的简化问题转为了排序初始长查询的所有子查询的问题。但此方法中用到了大量的特征,比如Query Clarity方法的花销很大。G.Kumaran等[13]向用户提供了缩短查询词技术的交互平台。他们用互信息这个单一特征选择了排在前十位的子查询展现给用户,供用户自己选择。然而此方法需要额外的用户的认知力,比较繁琐。

句法分析[5]是自然语言理解的一个关键组成部分,是对自然语言进行进一步语义分析的基础。随着自然语言应用的日益广泛,特别是对文本处理需求的进一步增加,句法分析的作用愈加突出,它几乎成为大多数自然语言处理应用的关键因素。句法分析的结果可直接用于机器翻译、自动问答、信息抽取等应用。目前的机器翻译主要依据短语对齐的结果,而准确高效的句法分析可以提高短语对齐的准确率,改善机器翻译的效果。在基于自然语言的自动问答中,查询扩展以及答案匹配均需要对句子进行深入的理解和分析。已有的一些工作将依存分析用于自动问答的问题分类中,取得了较好的效果,也证明了句法分析对自动问答所起的重要作用。句法分析的另一个应用是信息抽取。为了从非结构化的文本中自动抽取特定的结构化信息,句法分析的作用至关重要,Surseanu等人在句法分析的基础之上进行信息抽取,提高了信息抽取、特别是事件抽取系统的性能。

3 一种基于依存关系的查询重构

3.1 依存语法简介

句法分析,就是指根据给定的语法,自动地识别出句子所包含的句法单位和这些句法单位之间的关系[12]。句法分析的输入是一个词串(可能含词性等属性),输出是句子的句法结构。在句法分析的研究中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视[5]。依存句法分析可以反映出句子中各成分之间的语义修饰关系,它可以获得长距离的搭配信息,并与句子成分的物理位置无关。

本文采用了斯坦福自然语言处理组的the Stanford Parser。下面举例说明,例句通过该依存句法分析器的分析,句子各成分之间的依存关系如图1所示。

例句:there was some change in the order.

有了句子的依存结构信息,就可以据它来计算句子间的相似度,从而计算长查询与文档之间的相似度。

3.2 查询重构技术

查询重构也就是查询扩展,指的是利用计算机语言学,信息学等多种技术,把与原查询相关的词语或者与原查询语义相关联的概念以逻辑或方式添加到原查询,得到新查询后检索文档,以改善信息检索效果,解决信息检索领域长期困扰的词不匹配问题,弥补用户查询信息不足的缺陷。查询扩展技术即指实现查询扩展的方法和手段,其核心问题是如何设计和利用扩展词的来源。目前扩展词的来源有三种:一是来自初检中认为相关的文档;二是用某种技术如聚类技术,文本挖掘技术等从文献集或查询日志中找出与原查询相关的词语作为扩展词;三是来自某种包含词与词间相关信息的资源,这种资源可以是人工生成的,也可以是利用大规模语料通过统计的方法自动生成[14]。

本文即是利用来自词与词间相关信息的资源来进行查询重构。首先利用句法分析器对数据长难查询进行处理,得到句中词间的依存关系,利用这种关系对长难查询进行重构。

3.3 语言模型

语言模型是关于某种语言中所有句子或者其他语言单位的概率分布,也可以将它看作是生成某种语言文本的统计模型。这里所说的语言可以是常见的自然语言,比如中文、英文等,也可以是程序设计语言等其他逻辑语言。语言模型的基本思想如下:假设用户有一个信息检索需求(Information Need),此时用户的头脑中会构造出一个能够满足这个信息需求的理想文档,之后用户从这个理想文档中抽取出一定的词汇(Term)作为查询串,而用户所选择的查询能够将这个理想文档同文档集合中其他文档区分开来,也就是说可以将查询串看作是由理想文档生成的能够表达这个理想文档的文本序列。

本文进行查询重构后对每个文档进行打分,然后对此得分和语言模型的初始检索文档的得分进行插值平滑处理,得到最终分值并依此分值对文档进行重排序。

4 利用依存关系查询重构方法重排初检结果

4.1 抽取依存关系对

本文利用the Stanford Parser得到依存关系对,以表1中查询为例,分析结果列于表2,此查询返回的正确文档的分析结果列于表3,此文档由两句话构成。由于空间有限,没有把所有的分析结果列出。

其中以aux(produce,does)为例来说明这种表示形式的含义。关系标签aux表示的是括号中词does是produce的助动词。关系标签prep_of表示的是介词of关系,nsubj表示名词性主语关系,等等。Stanford Parser中定义了52种关系标签,本文只抽取了20种关系标签来进行查询重构。

4.2 查询重构模型与重排序

本文首先按传统查询扩展方法进行初始检索,选择初始检索文档的前1000篇文档,记录这1000篇文档的排名得分,由词袋模型得到启发,本文把文档看成为“句袋”,也就是把文档看成是由一个个句子构成的,分析长难查询和文档中每个句子的句法结构,据句法结构特征来计算两者之间的相似度得分,此方法记为tri Parse。

在利用依存文法进行相似度计算时,若对全部依存关系进行完全匹配的话,所花费的代价是巨大的。通过我们的实验验证若考虑全部的依存关系,实验结果并不好。所以这里只考虑那些有效搭配对之间的相似程度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的[15]。本文把一个搭配对关系看成是一个三元组,则一个有效搭配对则为一个有效三元组。

假设有两个三元组:(1)(Reli,word1i,word2i);(2)(Relj,word′1j,word′2j)。三元组(1)表示文档中第i个有效三元组,三元组(2)表示查询中第j个有效三元组。我们约定Reli=Relj为A事件,word1i=word′1j为B事件,word2j=word′2j为C事件。

Scorei()同理。公式中P()表示事件A不发生、事件B发生、事件C不发生的概率,i表示文档生成的有效三元组中第i个有效三元组。

Scorei()同理。

若有效三元组中均不能匹配,则得分为0。

则文档和查询的相似度得分用Sim Score(q,d)表示,如下:

依此对初始检索结果实现重排序。

以表2中查询和表3中结果文档为例,说明得分计算过程。表2中查询筛选出的有效三元组为nn(cheese,nation),prep_of(per-cent,cheese),nsubj(produce,California)。表3结果文档的全部有效三元组为prep_in(palpable,California),nsubj(produce,farmers),nn(cheese,nation),prep_of(percent,cheese),nsubj(palpable,outrage),nsubj(produce,California),nn(produce,cheese),prep_in(state,nation),prep_of(produce,state)。这里没有对这些三元组进行词干还原处理。对于文档中有效三元组prep_in(palpable,California),只和查询中的nsubj(produce,California)匹配上了一个词,所以Score1(AˉBˉC)=0.05。对于有效三元组nsubj(produce,farmers),和查询中的nsubj(produce,California)匹配上了关系和一个词,所以Score2(ABCˉ)=0.5。同理可得nn(cheese,nation)和prep_of(percent,cheese)匹配得分均为1,nsubj(palpable,outrage)匹配得分为0。以此类推,最后得到结果文档和查询的匹配得分为0.05+0.5+1+1+0=3.75。

得到初检结果文档和查询的匹配得分后,最后利用此得分和初始检索得分进行插值,得到最终分值并依其对初检结果的前1000篇文档进行重排序。

5 实验结果与分析

5.1 实验设计

本文的初次检索使用indri搜索引擎工具来建立索引和检索,检索模型使用统计语言模型应用于检索中的查询似然模型,Dirichlet平滑参数μ设置为1000,记为LM。本文实验采用的是TREC标准语料集Robust 2004作为检索文档集,共包含250个公开的查询主题和528155篇文档,文档来自the Financial Times、the Federal Register、the LA Times、和FBIS。TREC的Topic由title,description,和narrative组成,其中title长度通常是1至4个词的长度,description长度通常是3至30个词的长度。本文实验中使用TREC的description查询做为长难查询。

5.2 实验结果与分析

为了体现实验结果评价的公正性,本文使用了TREC标准评测工具来对结果进行评价。抽取的十个查询的插值情况如表4,此表是对三元组进行词干还原处理后的结果数据。作为对比,表5是没有对其三元组进行词干还原处理的结果数据。表6为剔除了含有停用词的三元组的结果数据。其中α为插值参数。

对实验结果进行分析可看出,平均MAP值基本在一个量级,但对于单个的查询,大部分查询的MAP值都有提高。通过观察发现,这些查询都是低召回率的查询,其中tri Parse方法在691查询、699查询上表现突出,MAP值如图2,P@N如图3。

由实验分析可得,图中query的初始检索的召回率均是在38.1%以下,由此可得出本方法对于召回率域值在38.1%以下的query初检结果性能有明显优化作用。

6 结论与未来工作

目前,用户查询词长度呈现逐渐增长的趋势,并且一般的搜索引擎对长难查询会导致偏离查询主题的错误,以致检索结果不尽人意。之前的工作对长难查询的处理,或者是对查询词重新加权或者是缩短查询词的方法,都没有利用长难查询具有较好的句法语法特征这一特点,因此本文从该角度出发,将依存句法分析引入进来充分挖掘长难查询的依存句法信息。利用此方法在标准TREC数据集上的实验验证了本文方法的有效性,尤其是对于低召回率的查询,在MAP评价指标和P@N指标上都有很大提升。

匹配/非匹配处理 篇7

关键词:图像处理,小波变换,匹配算法

由于传统的模板匹配算法运算量较大, 匹配效率和匹配精度较低, 很难满足当前图像处理中复杂算法处理的要求, 要加快机器处理效率就要改进传统的图像匹配算法, 利用小波变换的多分辨率特性将小波变换运用到图像匹配当中, 进而将图像进行高低频分解和多维分解, 图像被分为低频部分和高频部分后, 低频数据保持着原始图像的整体特征, 高频数据保持着原始图像的细节特征, 对小波变换处理过的高低频数据进行处理可以延伸到信息隐藏等领域, 这对于图形图像处理的研究和发展都有着很深远的意义。本文即基于小波变换图像处理的快速匹配算法基本步骤。

一、小波变换匹配公式

二维小波变换正确的约束条件为

二、图像低频分量一次匹配算300法匹配度定义

设经j次小波变换后, 目标图像的尺寸为Mj, Nj, 模板的尺寸为Mj0, Nj0, 可以得到匹配度矩阵P (Mj-M0j) × (Nj-N0j) , 由于-1

(1) 构造匹配度局部极大值点位置集合Sj;

(2) 初始化P下限, P上限=1;

(3) P阈值= (P下限+P上限) /2;

(4) 定义候选目标集合:Oj={ (x, y) | (x, y) ∈Sj, P (x, y) ≥P阈值};

(5) 若 (x1, y1) , (x2, y2) ∈Oj并且|x1-x2|<ε1Mj0, |y1-y2|<ε2Nj0, 即候选目标严重重叠, 则P下限=P阈值, 返回步骤3。式中实系数ε1, ε2∈ (0, 1) 决定了算法对漂移的容忍程度;

(6) 否则P上限=P阈值返回步骤3。直至|P上限-P下限|<δ, 其中δ为很小的正数, 它决定了阈值的精度和二分法的收敛速度。

通过以上快速迭代, 就得到了一次匹配的侯选目标位置集合Oj。

三、图像高频分量的二次筛选算法

在图像的低频分量上排除的非目标点越多, 越能减少高频分量上对候选目标所进行的匹配的计算量。具体实现如下:

Step 1:定义向量:

Step 3:对于各主要边界向量计算累计边界误差。

其中为两向量的夹角。

Step 4:对每个候选目标重复1~3步, 剔除主要边界误差较大者, 即得到层上的匹配结果。

四、结语

通过以上算法和仿真实验效果证明小波分析的良好特性, 它已成为工程领域有效的分析手段, 因此有着广阔的发展前景, 小波变换已成为图像处理非常优秀的工具, 并成为各国科学工作者在不同领域研究的一个热点。

参考文献

[1] .Charles K Chui.Wavelet analysis and its applicatllons[J].Acadenic Press Inc, 1992

[2] .姚玉荣等.利用小波和矩进行基于形状的图像检索[J].中国图形图像学报, 2000

【匹配/非匹配处理】推荐阅读:

匹配应用10-14

模式匹配06-07

职业匹配06-22

相关匹配08-01

服务匹配08-08

模块匹配08-11

人才匹配08-21

性能匹配08-22

立体匹配08-31

匹配理论09-01

上一篇:产品质量法律制度下一篇:中国平安集团