语义分析方法

2024-09-24

语义分析方法(通用10篇)

语义分析方法 篇1

0 引言

随着计算机技术和互联网的快速发展,人们可获得的信息数量以爆炸式的方式进行增长,高效准确的检索和过滤技术成为获取有用信息必不可少的方法。在信息检索和过滤的过程中,多义词和同义词使得采用精确匹配关键字检索信息的方法效果并不是太好,容易漏掉同义非同关键字所包含的信息。因此,高效准确的检索和过滤技术日益成为关注的焦点。潜在语义分析(Latent Semantic Analysis,LSA)是1990年S.T.Dumais等人提出的一种有效解决此类问题的自然语言处理方法[1],在自然语言理解、信息过滤、文档索引、文本分类与聚类、视频检索等领域得到了广泛的应用。

潜在语义分析的主要思想是通过奇异矩阵分解(Singular Value Decomposition,SVD)[2]的方法将高维向量空间模型表示的文档映射到低维的潜在语义空间,其应用过程中一个关键问题是如何确定奇异矩阵分解后所需保留的奇异值个数。在采用潜在语义分析对自然语言文档进行分类的过程中,如何确定主题数得到正确的分类,一直是开发人员、应用人员和管理人员所面临的首要问题。准确的主题数是自然语言文档正确分类的关键。主题数过大或过小都会导致分类的不准确。本文提出一种自动确定主题数的有效方法为文档分类奠定良好的基础。

1 技术简介及问题概况

1.1 LSA分类方法简介

在文档分类的过程中,确定主题数主要涉及到文档数据实现关键字/文档矩阵化处理、潜在语义分析、奇异矩阵分解和余弦相似度[3]等关键技术和方法。本文假设分类的文档已经进行矩阵化处理,因此重点关注潜在语义分析、奇异矩阵分解和余弦相似度,文档分类技术使用总体流程如图1所示。

潜在语义分析是一种新型的信息检索代数模型,是用于知识获取和展示的计算理论和方法[4],它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,来表示词与文本,达到消除词之间的相关性和简化文本向量实现降维的目的。

奇异矩阵分解是最常见的一种矩阵分解技术。SVD将原始数据集矩阵M分解成U、∑和VT三个矩阵[5]。如果原始数据矩阵M是m行n列,那么U、∑和VT三个矩阵就分别是m行m列、m行n列和n行n列。具体的分解形式如下所示,其中矩阵∑只有对角元素,其它元素全部为0,并且矩阵∑中的对角元素从上到下是从大到小排列的,这些对角元素称为奇异值[2]。每一个奇异值代表一个主题。

在重构原始矩阵的近似矩阵时,保留矩阵∑中前k个奇异值即文档主题数进行降维处理。由于矩阵∑仅为k×k的矩阵,因而只需要使用矩阵U的前k列和VT的前K行,原始矩阵的近似矩阵重构如图2所示。

余弦相似度是通过两个向量内积空间的夹角的余弦值来度量它们之间的相似性。向量A和B的余弦相似性θ用一个点积形式来表示其大小,如下所示:

产生的相似度范围从-1到1∶-1表示两个向量指向的方向完全相反,1表示两者的指向完全相同,0表示两者的指向完全垂直,而在这之间的值表示相应的相似度或相异度。值得关注的是余弦相似度可以用在任何维度的向量比较中,它在高维正空间中的利用尤为频繁。对于文本分类,向量A和B通常是文档中的词频向量,由于一个词的频率不能为负数,所以两个文档的余弦相似度范围在0到1之内,一个文档是由一个有权值的特征向量表示的,权值的计算取决于词条在该文档中出现的频率,因此余弦相似度可以给出两个文档其主题方面的相似度。

1.2 主题数确定问题概况

本研究重点关注的是文档分类过程中主题数的确定,假设已经将原始文档数据转化为可以处理的矩阵形式,重点介绍确定主题数时遇到的问题。文档分类的主要思路就是通过潜在语义分析将关键字/文档矩阵从高维映射到低维实现分类。在实现的过程中,关键字/文档矩阵被奇异矩阵分解后,再进行降维重构矩阵从而实现分类的过程中,需要确定降低的维数即主题数,然而,在对文档分类的过程中,文档所包含的主题数通常并不是预知的,因而,主题数的确定即是本文解决的关键的问题。

主题数是对关键字/文档矩阵进行奇异矩阵分解得到的对角矩阵中奇异值保留的个数。目前有很多种启发式策略来确定奇异值的个数,其中最典型的一种策略就是确定奇异值的个数后能够保留矩阵中80%~90%的能量信息。矩阵的总能量信息为所有奇异值的平方和,确定奇异值的个数后使其所有保留的奇异值的平方和达到矩阵总能量信息的80%~90%。另一种常用的策略是当矩阵的奇异值个数过大时,仅保留一定数量的奇异值。但是目前存在的这些策略都只是对要保留的奇异值个数的一个假设估计,并不够客观准确。准确的主题数是关系到分类精确的一个关键因素,以现有的启发式策略对主题数进行估计,当估计的主题数过大时,保留的矩阵能量信息虽然很多,但是噪音很多使得原本相同的分类出现冗余;当估计的主题数过小时,矩阵的能量信息丢失严重,使得文档的关键特征丢失,这将使原本不同的分类出现合并。

针对目前潜在语义分析的理论还不够完善,在文档分类时主题数的确定又严重关系到分类的准确性的问题,本文提出一种能够解决目前存在的问题的自动化确定主题数的有效方法。

2 自动化确定主题数方法

2.1 方法流程

本方法是对传统的采用潜在语义分析的文档分类基础上改进设计实现的。主要设计思想是采用从小到大依次递增的方式确定最小合理主题数:在被测主题数递增过程中,将它用于潜在语义分析文档归类,直到获得第一个合理归类时,即可得到最小合理主题数。之所以按照从小到大的顺序是因为采用大于等于最小合理的主题数的设计的分类显然都是合理的,这样就无法给出最小合理的主题数。该方法的总体流程如图3所示。

具体方法如下:

(1)初始化主题数k为已知的最小可能主题数,例如被分类的文档已知至少有3类。

(2)采用潜在语义分析的方法对被测主题数的文档进行分类处理得到一个分类结果。

(3)对分类结果进行分析,判断是否为合理分类,如果分类内出现小于一定相似度(本文取0.8为例)的文档,即可认为不相似的文档被归入了一类,则k不是合理的主题数,应将k的值加1,返回到2)中继续进行判断处理;反之,k即是合理的主题数,则可得到所需要的最小合理的主题数。

2.2 代码实现

自动化确定主题数的方法是在文档数据集进行关键字/文档矩阵化的假设前提下进行的,因此本方法实现实在Windows平台下采用MATLAB R2012a软件[6]作为开发工具进行的。

根据上文的方法描述,代码实现的过程是:(1)采用潜在语义分析的方法对原始数据矩阵做SVD分解,给定一个主题数进行降维处理再重构近似矩阵。(2)对(1)中的近似矩阵进行余弦相似度处理得到余弦相似矩阵。(3)对余弦相似矩阵处理来判断当前主题数是否为最终所要的值,如果是则完成,如果不是选定新的主题数重复(1)和(2)两个过程。因此,代码实现主要分为三大部分:

(1)SVD部分主要代码:

(2)余弦相似度处理函数

(3)确定主题数部分代码

3 实验和分析

3.1 实验目的

验证本方法能否确定实现正确的文档分类的最小主题数。

3.2 实验内容

本文使用一种简化的文档数据进行实验。提供3类文档,每类有3个文档,同类的文档具有相同的4个关键字,总共有9个文档作为实验数据。这组文档可以构成一个12行9列的关键字/文档矩阵。

为了说明文档顺序和关键字顺序对实验结果没有影响,将进行三组实验。第一组实验矩阵中同一类的文档相邻,第二组实验矩阵中三类文档交叉排列,第三组实验矩阵中将第一组实验矩阵中关键字顺序调换。

将上述三个矩阵分别加载到上文的自动确定主题数程序中进行实验。

3.3 实验结果分析

测试结果得到的主题数k全部为3,并且具体的分类结果如图4-6所示。

实验结果图是对文档正确分类后得到的余弦相似度矩阵的图像化表示。横坐标和纵坐标表示各个文档,图中颜色根据右边的指示条表示对应两个文档的相似度。

图4可以看出同类文档正确归为一类;图5可以看出交换文档顺序不影响分类结果;图6可以看出交换关键字顺序也不会影响分类结果。

根据实验数据,可以得出结论:

(1)三组实验所得主题数3与真实的分类数完全一致,满足实验要求。

(2)三组实验分类结果以余弦相似度表示文档之间的相似度,因此结果说明文档在正确的主题数下实现了正确的分类。

4 结束语

本文是在潜在语义分析进行文档分类的基础上进行改进,设计实现了一种自动确定主题数的方法。通过实验结果数据的分析,该方法能够达到所需的要求,实现文档的正确分类。

摘要:潜在语义分析的主要思想是通过奇异矩阵分解的方法将高维向量空间模型表示的文档映射到低维的潜在语义空间。在采用潜在语义分析对自然语言文档进行分类的过程中,一个关键的问题是如何确定主题数。通常的做法是在降维过程中缩减保留奇异值数目,使得保留的奇异值的平方和达到所有奇异值平方和的90%。此保留奇异值的数目即主题数,但这种方式并不够准确有效。为能够更加准确地确定主题数,文中提出了另一种自动确定主题数的有效方法。测试结果表明,该方法能够自动有效确定主题数。

关键词:潜在语义分析,奇异矩阵分解,主题数

参考文献

[1]Dcerwester Scott,Dumais Susan T,Furnas George W,et al.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.

[2]Peter Harrington.Mation Learning in Action[Z].2012.

[3]Saltion G,Mc Gill M J.Introduction to Modern Information Retrieval[M].Mc Graw-Hill,1986.

[4]Landauer T K,Foltz P W,Laham D.Introduction to Latent Semantic Analysis[J].Discourse Processes,1998(25):259-284.

[5]Yamaguchi F,Lindner F,Rieck K.Vulnerability extrapolation:Assisted discovery of vulnerabilities using machine learning[C]∥USENIX Workshop on Offensive Technologies(WOOT),Aug.2011.

[6]刘浩,韩晶.MATLAB R2012a完全自学一本通[M].北京:电子工业出版社,2013.

浅析语义悖论的解决方法之一 篇2

关键词:罗素;语义悖论;语言层次论

中图分类号:I206 文献标志码:A 文章编号:1002—2589(2009)16—0089—02

有人认为,在诸多研究悖论的学者之间,罗素的研究是较有价值的。因为层系解决悖论的方法,几乎都渊源于他早年提出的见解。罗素是从本质上而不是从个别技术细节上来分析悖论的。他提出解决悖论的标准有三条:(1)必须解决矛盾,这是绝对必要的。如果不解决矛盾,怎么能称得上是解决悖论了呢?(2)应该尽可能地保持数学的原来样式而不动。尽管从逻辑上讲并不非此不可。但是如果不具备这个条件,就很难贯彻他设想从逻辑导出数学的逻辑主义主张。(3)悖论的解决应该符合逻辑的常识。为此,罗素在对悖论做了深刻的分析的基础上,提出了他的解决悖论的具体方案:类型论。他的类型论可分为简单类型论和分支类型论。这里只介绍能排除语义悖论的分支类型论。

罗素的类型论在很大程度上采纳了彭加勒多次指出的悖论的根源在于非直谓定义的观点。彭加勒认为,所有悖论都与非直谓定义有关。所谓非直谓定义是指被定义项被包括在定义项之中,例如,“一个典型的英国人具有大多数英国人所具有的性质”,在这里,用“具有大多数英国人所具有的性质”来定义“典型的英国人”时,被定义项“典型的英国人”也包括在定义项“大多数英国人”组成的总体之中。罗素认可了这种观点,认为那些包括本类的总体作为分子的类是一种“不合法的总体”,承认它就会导致恶性循环。因此他提出了“恶性循环原则”,其实是不可恶性循环原则。这条原则认为,“没有总体能包含只能用该总体定义的、或涉及该总体的、或预设该总体的成员”。从集合的观点看,它直接地隐含了这样一种思想规定,任何一个集合决不是它自身的一个元素。故有人把它称为类型不可混淆原则。为了贯彻不可恶性循环原则,罗素提出了分支类型论。他的分支类型论除对谓词划分类型外,还对同类型的谓词,按定义方法进行分阶。那些在定义方法中没有涉及“所有属性”的属性(谓词)是第1阶,而那些在下定义时涉及到第n阶的“所有属性”的属性(谓词)是n+1阶的……。这样每一属性(谓词)必定归属于一定的类型和一定的阶。考虑到阶是在一个类型内再划分的,因此称为分支类型论。他认为只要严格按照分支类型论去研究“说谎者”等语义悖论,就可以避免“自我指称”这种恶性循环,从而也就消除了悖论。再看看该理论是如何排除“说谎者”悖论的:首先他把“我正在说的是假的”,改写成“我在某一时刻所说的一切都是假的”。当用q表示“我所说的语句”,B(q)表示:“我在某一时刻所说的q”时,公式P:(V q)( B(q)→ ┐q )意指:“对任何q来说,如果q 是我在某一时刻所说的语句,那么它是假的”,这与“我在某一时刻所说的一切都是假的”是等值的。考虑到这里的全称量词是作用于语句q的,如果q是一阶命题的话,公式P就是二阶命题。也就是说q具有一阶的真假,而命题P具有二阶的真假,它们是不相同的,属于不同的阶次,说P真并不会导致悖论。这样说谎者悖论就避免了,类似的语义悖论也就可以排除了。问题是分支类型论有一大毛病,它不能达到罗素提出的解决悖论的三条标准中的第二条:要尽可能保持数学的原来样式。因为根据罗素的恶性循环原则,是不允许非直谓定义的,否则就会造成“不合法的总体”。然而在数学中经常出现这种定义方法,如定义0:数0是使得对一切数X而言,均有0·X=0。这里“一切数X”显然也包括数0在内;对数1的定义也是如此。另外像高等数学中的实数、确界等定义也是如此。罗素的挽救方法是提出了可化归公理:一切非直谓谓词都有一等值的直谓谓词。但这实质上是取消了分支类型论的将谓词划分阶次的要求。

1933年塔尔斯基提出了解决说谎者悖论的另一方案——语言层次论,它大概是目前较为接受的方法。塔尔斯基认为语言有“语义上封闭的语言”和“语义上开放的语言”之分。他认为,语义上封闭的语言具有不相容性,因为只要运用语义上封闭的语言,又承认通常的逻辑规则的有效性,就必然会产生悖论。因此,要消除说谎者悖论,只要把语义上封闭的语言改造成语义上开放的语言就可以了。于是,他提出了语言层次论,构造了一个“塔尔斯基层系”:大多数语句根本不提述真假也不提述有效性或一般性的语义概念,称这样语句为基本语句。有一些语句谓述由基本语句表达的命题的真假、有效性等等,称这样的语句为“第1层语句”。还有一些语句谓述由第1层语句表达的命题的真假,这些语句是第2层语句。如此等等,因为每一层语句都有可能存在。塔尔斯基称这些层次为分立的、不同的语言,第1层作为第0层的元语言,第2层作为第1层的元语言……。

为避免悖论加以分层限制的思想是,每一语句都有一层次,一个语句只允许谓述比它层次低的语句所表达的命题的真假。悖论性语句企图谓述由自身即由自己层次的语句所表达的命题的真假,这就破坏了上述限制。任何破坏上述分层限制的语句都应作为无意义语句而受到拒斥。如果人们假设语句“本语句或表达一个假命题或是无意义的”是无意义的,那么这个语句好像表达了一个真命题,但实际上并非如此。因为试图说到人们正在说的该语句所表达的命题是假的或该语句是无意义的,这是无意思的。任何能推出相反意思的论证只是由于概念上的混乱,这种混乱来自对谓述真假的概念的内在复杂性的无知。按照这种思想,“我正在说的这句话是假的”这句话的真假不能通过它自身来断定,而只能由层次高于这种语言的语言来断定。这样,塔尔斯基认为他已成功地消解了悖论。而这实际上和罗素的解决方案没什么两样,甚至可以说,塔尔斯基的语言层次论实际上是罗素的分支类型论的翻版。

所以,我们根据语句的层系得到了避免悖论的方法。每一语句都有一个层次,虽然通常我们可能不知道它是属于哪一层次。假如巴门尼德认识到,若当下的观点是正确的,则他实际说的话“所有的克里特岛人都是说谎者”是无意义的,那么他很可能会修正他的话,说:“所有的克里特岛人至目前为止都是说谎者”。但是,因为他不可能非常详细地知道其他的克里特岛人多久一次说真命题或假命题,或者他们说的这些话如何互相依赖,所以他也不会知道他自己说的话处于什么层次。

但是,巴门尼德可能发现,即使他修正了的话也是无意义的,例如,某个其他克里特岛人在某个时候说,巴门尼德是他们中间唯一总是说真话的人。因为总存在(间接的)对巴门尼德来说未知的自指。在中世纪,对这样的悖论的标准刻画如下:柏拉图只断言凡是亚里士多德说的都是真的,而亚里士多德只断言凡是柏拉图说的都是假的。(例如,假设亚里士多德听错了柏拉图的话,以为柏拉图说“阿里斯托芬(Aristophanes)说的都是真的”。所以亚里士多德(Aristotle)否定这种说法。但柏拉图实际说的是亚里士多德(Aristotle)。)于是,如果柏拉图说的是真话,那么亚里士多德说的也是真话,所以柏拉图说的是假话。因此柏拉图说的话确实成为假话。在这种场合,亚里士多德说的也是假话,所以柏拉图说的是真话。我们再次(虽然间接地)有了导致悖论的自指。

我们目前谈到的避免悖论的方法将根本上这种循环。无论柏拉图说的话处于什么层次,他只能谈论更低层次亚里士多德说的话,所以亚里士多德说的话依次只能是更低层次的,它们不能返回到柏拉图关于亚里士多德说的话。但是,使人困惑的是我们通常可能意识不到已经出现的极大复杂性。正如我们已经提到的那样,这样的不确定性会使巴门尼德出差错,如果另一个克里特岛人已经说了他相信巴门尼德是(唯一)说真话的人。

虽然语言层次论解决悖论的方法大概是目前较为广泛接受的方法之一,但有其缺陷性。一个语句的意义由它的有意义的成分的意义组合而成。用这种方式,可以解释我们如何能够理解和自行构造新语句,使得这些新语句可以是以前从来没有听说和述说过的。如果一个语句由它的有意义成分正确地组合而成,那么它是有意义的。但上述的语言层次论就否定了这一点。用诸如像“不是真的”那样的短语正确地谓述指称命题的某一词项,在考虑“本语句表达的命题是不是真的”这个特殊场合时,将导致无意义。但是这种结果只是特设的,因为塔尔斯基实际上给不出理由来说明在自指出现的情况下,该特殊场合为何导致无意义性,即不能解释意义的缺乏。再来考虑一下巴门尼德的例子。他认为,他表达了一个有意义的命题。他的听众也认为如此,并把他作为说过“所有的克里特岛人者是说谎者”的人记录下来。但是根据这种层系方法的结果是,巴门尼德和他的听众都出了错。这个错误不是他们所说的话真不真的问题,而是他们说的话有没有意义的问题。每当任何人说任何事物时,有意义性总是纯猜测性的。有意义是与人们的主观理解相关的。同样的一句话,有人可能认为它有意义,但也有人也可能认为它没有意义。人的主观理解在任何时候都有可能出错。这确实是一个棘手的问题。综合起来说,这种层系构造对所有真的谓词和其他语义概念进行分层,然后消去由于违反分层要求而导致无意义的语句。实际上这种消去会消去比导致矛盾的自指语句更多的语句。此外,语义概念的每一个谓述都有一个层次,但通常说话者本人不知道这一点。因此,一个特定话语是否有意义可能到头来连说话者和听话者都不知道。

参考文献:

[1]刘高岑.论说谎者悖论和罗素悖论的辩证矛盾本质[J].河南师范大学学报:哲社版,1998,(2).

[2]张建军.关于悖论实质的几个问题——答马佩,黄展骥教授[J].人文杂志,1998,(1).

[3]张建军.科学的难题——悖论[M].杭州:浙江人民出版社,1990.

语义分析方法 篇3

潜在语义分析是一种将文本信息组织成空间语义结构的新模型, 其基本思想是假设文本中的特征项与特征项之间存在某种联系, 通过对大量的文本集进行统计分析, 从中提取出特征项的上下文使用含义。

潜在语义分析的基本过程是:首先构造典型特征项—文本矩阵M, 然后应用奇异值分解技术, 把特征项汇和文本从高维空间降到了低维潜在语义空间。最后得到一个新的矩阵M’。潜在语义分析只取前k个最大的奇异值, 而将剩余的值设为零。

2 基于潜在语义分析方法的迁移学习

2.1 数据的矩阵表示

潜在语义分析出发点是文本中的特征项与特征项之间存在某种联系, 采用统计计算的方法, 对大量的文本进行分析来寻找这种潜在的语义结构。在迁移学习语义分析的实现方法中文本矩阵的元素值并不仅仅是词频信息以及对单个文本的贡献度, 它还体现着特征项在文本集中区别、分辨类标签的能力。因此对特征项权重的计算方法包括文本贡献权重和类标签贡献权重两部分。最后将两个权重相乘, 得到最终特征项权重。

2.2 建立源领域与目标领域之间的桥梁

由于两个领域间的相似性, 可能存在一个低维的潜在语义空间, 成为连接源领域和目标领域之间的桥梁, 从而帮助完成源领域到目标领域的分类方法的迁移。

本文采用潜在语义分析方法挖掘源领域与目标领域中这一共同的低维潜在语义空间。使用奇异值分解技术, 将源领域与目标领域的高维数据特征表示, 映射到低维潜在语义空间中。

2.3 源领域到目标领域特征项的迁移

通过建立的低维潜在语义空间可得到文本和特征项的k维特征表示。但是在这个潜在空间中, 源领域数据与目标领域数据拥有共同的特征表示, 这有利于计算、分析有用的特征项, 进而实现源领域中有用特征项到目标领域的迁移。从源领域筛选有用特征项主要分两步完成。首先要消除同义词“噪音”影响, 然后从源领域中查找有用特征项。通过两步矩阵调整, 即可得到目标领域数据的新的特征表示。

2.4 算法描述 (Tr_LSA)

输入:两个训练数据集Ta和Tb, 一个未标记的测试数据集S, 一个传统的分类器。

输出:测试数据集S的标签

(1) 对训练数据做去停用词、词干化等处理, 得到特征项-文本矩阵M。 (2) 对矩阵M进行奇异值分解, 将M中特征项与文本映射到低维潜在语义空间, 建立联系Ta与Tb之间的桥梁。 (3) 去除“噪音”, 从Ta中找出Tb中特征项的同义词, 调整矩阵M结构;根据调整后的矩阵M, 从Ta中找出迁移词, 再对矩阵M进行调整。 (4) 分析调整后的矩阵M, 得到目标领域数据新的特征表示, 利用传统分类器, 在训练数据集中得到一个最终分类器, 对测试数据集S进行分类。

由于Tr_LSA算法对特征项和文本的处理都是在低维空间中计算的, 所以在一定程度上提高了算法的时间效率。

3 实验结果与分析

3.1 数据集

本文使用20 newsgroups数据集, 采用层次化的组织方式, 包含7个顶级类别、20个子类别, 并将其分成5组数据集。

3.2 对比算法

为了验证基于潜在语义分析的迁移学习方法的有效性, 选取了传统文本分类器SVM和NB做对比, 并使用Tr Ada Boost算法与本文方法作对比。表1展示了传统分类器和迁移学习算法在不同数据集上精确度对比, 可迁移学习算法在处理不同分布数据集时, 其分类性能明显优于传统分类器。另外, 与Tr Ada Boost算法相比, Tr_LSA算法也基本比Tr Ada Boost算法的精度高。

4 结论

迁移学习方法放松了对训练数据和测试数据同分布假设的要求, 利用相似领域的数据帮助目标领域数据分类。本文提出一种基于潜在语义分析的迁移学习方法, 首先通过对大量数据进行统计分析, 通过奇异值分解技术, 对训练数据挖掘其深层的语义含义, 得到源领域与目标领域的一个低维的潜在语义空间。然后以此为桥梁, 挖掘特征项与文本之间的关联关系, 去除同义词”噪音”影响, 进而从源领域中筛选出与目标领域文本关联度较大的特征项, 作为迁移词。在大量实验数据中表明, 本算法能较大提高分类的精确度。同时本算法的可扩展性强, 算法可扩展性强, 当资源不断增多, 算法的时间复杂度与空间复杂度不会明显增加。

参考文献

[1]Dietterich T G, Domingos P, Getoor L, et al.Structured machine learning:the next ten years[J].Machine Learning, 2008, 73 (1) :3-23.

[2]董秀杰.基于LSA的文本分析[D].北京理工大学.2008.

Unless语义分析 篇4

Unless的基本含义

Unless可以用来引导条件从句,其基本含义是“如果不……”或“除非……”,在语义上相当于“if … not”。请看下面一组例句。

1.a. You won’t pass the test unless you study hard.

b. You won’t pass the test if you don’t study hard.

解析:这里a、b两句意思是一样的,a句可译成“除非你用功学习,否则你就不会通过考试”,b句可译成“如果你不用功学习,你就不会通过考试”。其实,unless一词的英文释义是“except on the condition that …”(除了在……的条件下)或“except under the circumstances that …”(除了在……的情形下),也就是把unless之后所陈述的条件排除了。所以,上面的a句从字面含义来看,应该这样解释:除了在你努力学习这一条件下,你是不能通过考试的。

我们再来看一个有关unless的例句。一位美国老师指出,中国学生因为“面子”问题而不愿在口语课上开口说英语,于是对于应该如何处理中国学生的“面子”问题,他给出如下建议。

2.Discussions about “face” can be difficult if one is not familiar with the significance and importance attached to it by many Asian people. It does have different meanings to different people and, unless a teacher is “comfortable” with broaching the subject, it is best left alone.

亚洲人非常看重面子问题,如果你对此不熟悉的话,讨论面子问题就会很困难。对于不同人,面子的意义是不同的。除非老师很善于把握这个话题,否则还是不要涉及为好。

Unless与“if … not”的区别

从含义角度来看,unless的意思等同于“if … not”,所以unless可以被替换成“if … not”。但从用法角度来看,unless与“if … not”并不完全等同,有时候“if … not”不能被unless替换。简言之,unless都可以被“if … not”替换,而“if … not”未必能被unless替换。下面我们就来分析“if … not”不能被unless替换的两种情形。

情形一:虚拟语气中不能用unless替换“if … not”

在谈论与事实相反的情况时,我们可以用“if … not”,但不能用unless。因为上面说过unless的英文含义是“except on the condition that …”,其后面要接一個真实的条件(即尚未发生的情况),而不能接虚拟的条件(即对已发生的情况进行虚拟)。请看下面的例句。

3.a. You wouldn’t have passed the test if you had not studied hard.

b. You won’t pass the test if you don’t study hard.

解析:在a句中,我们谈论的是一个与过去事实相反的虚拟情形,句意为“你当初要是没有努力学习,就不能通过考试了”。实际情形则是“你努力学习了”,并且“你通过了考试”,此时“if … not”就不能被替换成unless,因为unless后面应接一个没有真正发生的条件。而在b句中,我们谈论的是一个将来可能发生也可能不发生的情形,句意为“如果你不努力学习,就不能通过考试”。这时我们可以用unless替换“if … not”,把句子说成:“You won’t pass the test unless you study hard.”

我们再来看一组例句。

4.a. If he weren’t so broke, he’d help me out.

b. If he is not broke, he will help me out.

解析:在a句中,我们谈论的是一个与现在事实相反的虚拟情形,句意为“他要不是那么穷的话,就会帮我了”。实际情形则是“他很穷”,并且“他帮不了我”。此时“if … not”就不能替换成unless。与a句不同,在b句中我们谈论的是一个将来可能发生也可能不发生的情形,句意为“如果他不是很拮据,他会帮我的”,即他可能没钱也可能有钱。这时候我们可以用“if … not”,也可以用unless这样说:“Unless he is broke, he will help me out.”

情形二:主句以then开头时不能用unless替换“if … not”

如果句子的主句以then开头,那么从句不能用unless引导。请看下面的例句。

5.a. If you don’t study hard, then you won’t pass the test.

b. Unless you study hard, you won’t pass the test.

解析:Then的基本含义是“那么”,英文含义是in that case (在那种情况下)或 accordingly (因而),所以then后面的主句内容是顺承前面的从句内容的。我们可以说“If A, then B”,意思是“如果出现A,那么就会出现B”。所以上面的a句正确,句意是“如果你不努力学习,那么你就不会通过考试”,语义通顺。但我们不能说“Unless A, then B”,这是因为unless与then之间存在语义冲突。含有then的主句与从句有顺承关系,但是unless表示“除非”,存在转折含义,无法与含有then的主句构成顺承关系。我们暂且去掉a、b句中条件从句的引导词,以此来体会then的顺承含义及其与unless的语义冲突。

nlc202309032333

c. ___ you don’t study hard, then you won’t pass the test.

d. ___ you study hard, then you won’t pass the test.

在c句中,去掉if后,逗号前后的两个分句(“你不努力学习”和“那么你就不会通过考試”)在逻辑语义上有很好的衔接,前后语义不矛盾。但在d句中,去掉unless后,逗号前后两个分句(“你努力学习”和“那么你就不会通过考试”)在逻辑语义上存在矛盾。由此可知,unless填入后能起到语义转折的作用,使主句与从句的逻辑关系产生逆转。汉语里会说“除非……,否则……”,而不能说“除非……,那么……”。英语里如果用“unless …, then …”的表达,就相当于在汉语里说“除非……,那么……”一样别扭,因而不对。此时把then去掉即可,即上面的b句。

Unless与only if的联系

Only if是if的加强版,而unless是“if … not”的加强版,所以only if与unless是存在内在联系的。这一点从二者的基本语义也可以看出:unless表示“除非从句情形不发生,主句情形才发生”;only if表示“只有从句情形发生,主句情形才发生”。二者表达的逻辑关系刚好相反。我们来看下面一组例句。

6.a. You won’t pass the test unless you study hard.

b. You will pass the test only if you study hard.

解析:上面a句的含义是“如果你不努力学习,你就不能通过考试”,b句的含义是“你只有努力学习,才能通过考试”。二者意思其实是一样的,只不过表达方式不同而已:unless所在句子的主句谓语是否定形式(won’t pass),而only if所在句子的主句谓语是肯定形式(will pass)。据此我们看到二者之间有如下关系:否定谓语+ unless do =肯定谓语+ only if do。

我们汉语里常说的“除非万不得已……”或者“只有万不得已……”用英文表达就是unless it is absolutely necessary或only if it is absolutely necessary。请看下面的例句。

7.a. We cannot use the emergency funds unless it is absolutely necessary.

b. We can use the emergency funds only if it is absolutely necessary.

解析:我们可以把a句译成“除非万不得已,否则我们不能动用这些紧急资金”,把b句译成“只有万不得已,我们才能动用这些紧急资金”。显然两句话的意思是一样的。

语义分析方法 篇5

一英国自然语言语义学研究的路径与特征

相对于逻辑实证主义语义学,英国的日常语言语义分析立足于生活语言本身的结构与特性,并且兼顾了语义学研究的自然性特征和结构属性,从而为语义学解释的一致性和完备性提供了重要启示。

1.日常语言语义学的方法论转向及其内涵特征。

英国的日常语言语义学从一开始就反感于逻辑实证主义对于意义的“理想状态”处理方式,认为这种态度并不合乎语言的自然性特征,“哲学家对于句法结构不能完全反映逻辑关系所表示的不满促使语言学家去寻找更深一层的描写……以解释句子的意义以及语义和形式之间的关系”[1]215,而这种特征内在地包含了语义、语用以及概念结构的意向性等方面特征。为此,英国的日常语言语义学研究虽然也秉承了语义分析的基本方法,把对于世界和事实的理解限定于语言实体范畴,但是在语义分析路径上则推翻了逻辑实证主义关于命题意义的经验证明方案,将与语义相关的语用、实践和语境等因素纳入到语义学方法论的系统框架之中,从而在整体上树立了语义学研究的崭新路径。

作为英国日常语言语义学的早期奠基者,摩尔(G.Moore)的语义学研究倾向于从“常识”的角度对日常语言进行细致的语义分析,期望从日常语言的“表象”背后揭示意义的本质和内涵。摩尔认为,观念即思维中与语词相对应的概念就是语词的意义,而命题则从总体上表征了句子的意义。也就是说,意义可以被看做是一种实体性的存在,“摩尔把他想加以分析的东西(即被分析者)说成是表达式的意义或表达式所代表的概念”[2]。中后期的维特根斯坦则否定了其前期《逻辑哲学论》所坚持的语词意义与事实指称严格对应的做法,认为语词的意义存在于我们对其应用和实践的理解过程中,也就是说语词只有在一种类似“游戏”的生活状态中才能实现其意义,“一个字词的意义是它在语言中的用法”。[3]我们可以看出,这种语义分析态度直接地体现为对于逻辑实证主义语义学的“反叛”,这既是维特根斯坦在后逻辑实证主义时代对于语义学研究路径反思的结晶,同时也在另一个维度上又开启了日常语言语义学研究的崭新征途。

对于牛津学派的日常语言语义分析而言,奥斯汀(J.Austin)和赖尔(G.Ryle)等人将语义分析的技术工作推向了极致。奥斯汀认为意义和真理等语义学问题只有在言语行为的基础上才能得到真正解决,因此意义的理解本质上就是对于我们存在的事实和世界状态的反应。因此,奥斯汀的语义分析实际上已经从语用化倾向出发走向了社会约定论的道路。赖尔对于语义分析方法的理解同样立足于概念、范畴的解释、澄清,并且深入到语词、句型的具体使用习惯、心理类型之中,“它是一个范畴错误……实际上它们属于另一种逻辑类型或逻辑范畴。”[4]在赖尔看来,逻辑的语形与世界的事实并不具有对应关系,因此对于意义本身而言,它既不是一种抽象的存在,也并不存在于语词的外延形态中,而真正具有重要地位的是语词的内涵。这种内涵的刻画、描述与语言的实践、主体的意向以及情境特征具有很大关系,在此基础上我们就可以达到语言逻辑的“纯粹”状态。

整体上来看,在英国以前期的剑桥为中心和在后期以牛津为中心的日常语言学派坚持了语义学研究的自然化趋向,其目的就在于通过日常语言的分析建立起可靠、完善的意义理论,“这种自然性恰恰通过具体的独立的语用环境及其意义的自主建构来得以实现。”[5]83因此,日常语言语义学的研究并没有否认语义分析的经验主义基础,而只是将希望寄予对形态多样、具有丰富内涵的自然语言本身进行理解、分析,以消除哲学的疑惑,达到真理性的认识,这就是日常语言语义学与逻辑实证主义语义分析的根本区别所在。

2.自然语言语义学研究的语境内涵与特征。

语义学分析的语境基础是包括了语形、语义和语用在内的系统背景,如果我们把语境区分为内涵语境和外延语境的话,逻辑实证主义语义分析的句法和语义规则也可以被看做是语词意义的逻辑句法语境,例如罗素摹状词的特征性家族就可以被看做是语词的内涵语境。尽管如此,对于英国语义学研究中一直存在的“语境”概念的内涵而言,如同对于“意义”概念的多维解读一样,历史上不同时期的哲学和语言学对其理解存在着较大的差异,但是总体上来说,语义学分析的“语境”内涵潜在地蕴含了语词外延存在的情态、环境以及主体的心理、意向等相关因素。斯特劳森(P.Strwson)认为意义与指称表达的语境基础具有重要意义,“表征的意义类型在语境中使用,给出特别的指称……语境条件一般作为指称正确使用的基础。”[6]也就是说,意义的理解应该立足于生活世界和语用实践,因为命题陈述本身并不具有真理性特征,只有在动态的语境之中才能把握语言与实在的关联性、确定指称的精确对象,同时实现意义与真值的有效结合。

马林诺夫斯基(B.Malinowski)较早地将意义理论的研究带入了语用、交流和朴素的语境分析层面,他认为我们对于语言的理解必须在人类社会的复杂系统中进行展开,而意义取决于语境功能的要求,也就是说“把语言看做行动的方式而不是思维的工具比较合适”[1]88。因此,意义的基本元素是句子而非语词,它本身并非是一种固定的实体,而是一种语境的存在。奥格登(K.Ogden)和理查德(I.A.Richards)则认为,在语言功能的实施过程中,意义解释和指称理解包含了意向、态度等语境因素。在语境的基础上,符号、意义与实在三者之间处于一种关联和制约的体系之中,“语境包括了符号和对象,为不同实体之间提供了意义关联,而内在心理语境在符号与指称之间建立了关联”,[1]9因此符号的意义表现为多种复杂的形态,其中就包含了意义实现的语用语境基础。

20世纪上半期,伦敦学派语义学从自然语言研究的背景出发,在文化和社会历史的视域之中对语言的本质、语义理解等问题进行了探索。受到英国日常语言学派的影响,伦敦学派的主要代表人物如弗思(J.R.Firth)、罗宾斯(R.H.Robins)、韩礼德(M.Halliday)等人采用语义分析技术对语言的概念和范畴以及语境因素等问题进行了研究,其共同特征就是强调语境因素与意义的对应性和关联性。例如,Firth的语义学思想具有“泛意义论”的色彩,他在经验研究的基础上将意义看做是言语行为活动的主要特征。罗宾斯则认为,作为意义基本单元的是句子而非语词,语言是一种活动的模式,而并非只是一种思想的表现,因此意义也并非是语词及其所指物之间的关联,而是语词与其所处语境的关联。在这里,语词的意义取决于语境的功能,“情境语境成为了意义理论的基础和语言理论的重要部分。”[7]

总体来看,日常语言语义学以及进行自然语言分析的伦敦学派语义学所强调的语境分析原则强烈地突出了意义存在的复杂性特征,并且将外延语境因素引入到语义问题的处理过程中,在一定程度上认识到了将语形、语义和语用分析相结合的语境分析原则的重要性,这对于语义学认识域的拓宽是具有重要意义的。

3.自然语言结构语义分析的旨趣与特征。

受到同时期欧洲大陆语义学的影响,从20世纪30年代到20世纪中期,英国语义学研究中一直存在的结构分析思维在语言学和哲学领域得到了很大程度的扩散与传播。事实上,早在英国的弗莱哲(J.G Frazer)关于社会结构关系的探索中就认为,心理意识与社会结构之间的意义关系表现在两者之间结构性的特征之中,而随后英国的阿丹森(R.Adamson)乃至于罗素都主张在逻辑基础上对命题进行结构性的分析,这样就能够使得作为分析基础的原子命题能够对事实的本质结构进行澄清。从方法论上来说,结构语义学与逻辑实证主义具有很大不同,这表现为结构语义分析强调对于实在、事实的隐含意义研究,而非直接指向实在本身。从结构语义分析的视角来看,语言本质上就是“客观的”、系统的整体结构,在其中意义的产生与表征就是各种结构、要素之间的关联活动,“自然语言的语义层有其本身与句法结构相对应的部分”,[1]15也就是说意义就存在于语词之间的关联以及系统和结构的关系之中,并且是作为一种系统和结构的“凸现”。

对于弗思而言,在语言的基本结构之中系统性的特征存在非常重要,语言的各种要素要求能够在关系的联结中形成特定的结构,这表现在语词与句子以及语境的内在构成等方面,“分析的首要原则就是区分结构和系统……意义是系统和结构相互作用的产物……系统为结构要素赋予了价值。”[8]也就是说,在意义实现的过程和层次之中都普遍存在着结构和系统的组合特征。乌尔曼(S.Ullmann)则强调在语言符号分析过程中的内部结构和系统功能,认为由符号所指示的语词意义在历时性上具有系统性特征。韩礼德则认为“语义是一种网络的结构”[9],而意义就是语言系统不同层次或类型的表征形态,它表现为语言系统和语境之间的一种结构性“产出”。

从英国结构语义分析的本质和特征研究中,我们可以看出,结构语义学否定了经验主义将语词意义与指称对象相等同的简单做法,将意义确定在了语词和句法所构成的网络结构中,其中结构性要素的关联即意义的产出并不依赖于指称的对象。也就是说,结构语义分析的前提是承认语言符号的社会约定性特征,在语言形态的多样性基础上力图寻求意义的确定性存在。实际上,这种结构语义学的分析方法在内涵语境的基础上赋予了语义分析以动态性和灵活性,这种分析倾向尽管存在着很大的缺陷和不足,但仍然对于英国后来的整体主义语义学、动态语义学和语义学分析中语境思维的应用提供了某种适当的契机。

二当代英国语义学的方法论建构与发展

20世纪后期以来,随着世界科学的全面突破和飞速跃进,英国语义学研究在计算机科学、认知科学等相关学科的持续推动下,呈现出多学科、跨领域和综合应用的发展趋向。在继承传统、反思历史的基础上,英国语义学研究不仅保持了与欧洲大陆语义学沟通、融合的开放态度,实现了逻辑语义分析和日常语言语义分析的有效贯通,而且力图在全新的背景、平台基础上构建科学语义学方法论的系统结构。

1.整体的和动态的语义学研究倾向得到了全面扩张和展开。20世纪后期,基于对实证的逻辑语义分析的反思和受到语义学语用化研究倾向的影响,英国语义学开始逐渐从传统的微观语义分析向整体、系统的语义分析进行转变,而这一点也符合了当代语言哲学的内在转变趋势。

从理论特征上来看,传统的微观语义学在与形而上学论题划清界限的同时又极端、绝对地把语言、逻辑树立为形而上学不可动摇的背景。对于英国的逻辑实证主义语义学而言,这种衍生于经验主义内核的语义还原论思维不可避免地走向了没落的厄运。正是在此基础上,整体主义语义学的提出鲜明地把意义理解的基础置于整体语境的分析视域之中,它从根本上要求命题理解在相关的语境因素和语义分析之间保持适度的平衡。为此,达米特在语义学方法论的建构过程中树立了系统整体的理论思想,在对于意义和真理等语义学问题的分析、处理过程中,语义分析的系统性、结构性和语用特征等多维界面被纳入进来,成为达米特语义学思想结构的重要组成部分,而在这种整体结构之中意义的表达、实践必须遵循科学的有效性和协调性等一般性特征。

在动态语义学研究方面,波普尔的语义学思想本质上是基于英国语义学研究中一直存在的经验主义基础上而对真理和知识等概念、范畴进行反思的结果,其思想的动态性特征主要体现在其理论、命题的经验证伪性基本原则之中。波普尔认为,理论的真理性本身就是一个不断被检验、不断被证伪的过程,真理性特征是暂时的,而被证伪是一直存在的,“客观真理观念,它是一个我们可能永远也达不到的标准。正是在这个意义上,真理观念是一种调节的观念。”[10]对于认识论的研究而言,真理是一种永远处在“被逼进”状态的存在,科学的探索能够不断地向真理的“本质”进发,但是这种“本质”永远都是一种相对性的存在。因此,面对这种理论命题的“逼真度”,科学的研究唯有不断地提升和进步才能为命题的意义赋予新的内涵。

总体上来说,在意义的动态理解过程中,“语义结构的语境独立性和语用结构的语境特殊性之间存在着内在的关联性。”[11]245也就是说,语义分析的动态化倾向充分专注到了语义内涵的语境转换特征,从而为语义学研究的自然性扩张奠定了基础,这也是当代英国语义学研究从相对的动态性和系统的整体性趋向扩张的动力所在。

2.意向和认知语义分析在英国语义学研究中得到广泛应用和普及。认知、意向语义学反对客观主义的语义分析趋向,同时基于经验论的研究背景,认为语言、概念结构与主体思维结构具有很大关系,这种语义分析的意向和认知特征反映了“心理现象与物理现象之间的关联”[11]350。也就是说,意向、认知语义解释为心理表征奠定了重要基础,“对语义特征的分析和把握,正是对命题态度极其意义分析和把握的前提和基础。”[5]84例如,格莱斯将交际参与者的意向性表达与意义的分析紧密结合起来,他认为语言交流的有效性依赖于对符号意向性的理解、分析,也就是说在语言交往过程中双方需要对说话者的意图进行推理、判断。在作为言语的非自然意义中最关键的就是意向性的意义内涵,这样意向性就成为了语言意义实现的重要工具和手段。在格莱斯之后,威尔森(D.Wilson)认为说话者的意向性包括信息和交流两个层面,信息意向即言语的表层含义,而交流意向则是语言的隐性含义,因此语言的交往实际上是在这两种含义的共同作用下进行的推理、判断和分析。

从认知语义学的立场上来说,我们应该将与语言相关的知识结构、认知过程和隐喻含义等相关界面进行整合,对文化、社会的语境信息进行认知处理。在这方面,达米特语义学研究的认知取向则在很大程度上代表了当代英国语义学实现“认知语义”转向的重要特征。达米特否定了实证主义将意义与指称简单等同的做法,认为必须将语义真理的确定根基于主体的内在理性,这样我们就可以通过理解语言形式的意向性表征来实现对于真理的把握。实际上,传统的思想将真理作为一个不可动摇的初始性存在,从而在某种程度上忽视或有意回避了真理分析中主体的能力和意向性地位的存在。为此,达米特强调我们必须了解语言的运行机制和交流双方所使用语言的意图、目的等背景知识,也就是说“意义理论是理解理论……本质要求……促进了意义理论的认知转向”[12],这样才能够实现意义与真理的有机结合。

从理论的目标指向性上来说,认知、意向语义分析肯定了人们在语言使用背后所具有的思维、心理作用,将意义作为命题形式在心理当中的整体反映,也就是说语义潜在地包含了心理认知图景。因此,相对于逻辑实证主义在意义理解中强调真值条件的狭隘做法,当代英国语义学试图从脱离主客观二元对立的基本背景出发,将意义的理解置于整体的认知结构、模式之中,强调人的思维、心理和大脑反应机制对于意义理解的重要作用,并且在此过程中将主体的情绪、态度和意向等因素涵盖进来。总体上来说,这种语义分析路径对于实现语义学方法论的科学性建构目标而言是值得肯定的。

3.计算、信息语义学和语义的规范性研究得到了普遍重视。20世纪后期以来,计算机科学和信息科学等新兴学科在英国迅速兴起,机器语言翻译和人工智能研究开始逐渐成为英国前沿科学领域的“显学”。正是在这种时代背景下,当代英国语义学的分析触角广泛地渗透到了计算机科学语言的语义研究当中,并且通过相关路径的开拓为语义学研究开辟了广阔的空间。

就计算语义学处理的规范性本质而言,自然语言的语义分析模式势必与语言、心理等计算信息处理实现跨领域的结合,而在信息科学方面基于哲学语言分析和逻辑计算处理的英国计算语义学一直走在世界前列。从内在特征上来看,计算语义学实现了语义和语形的内在关联,因此能够从结构上展开对于算法结构的理论分析。从信息和计算语义的视域出发,当代英国计算、信息语义学研究中存在着以下一些研究路径,这些路径从语义和计算的关联特征、结构等方面表达了对于规范语言语义学计算化处理的态度和方向:第一,语义学的公式化处理(Axiomatic semantics)。公理语义学对于意义的理解侧重于反映计算的程序状态对于命题的影响,同时也希望将对于程序的理解形式化,通过对于语言组成结构的语义分析建立公理系统,在这方面霍尔(C.A.R.Hoare)采用公理系统对语义进行了程序化的处理,并且强调了程序化处理的严格性和规范性。第二,语义学的代数式处理(Algebraic semantics)。皮特斯(M.Pitts),林科(G.Link)等人用代数方法对计算语言的语义进行分析,他们将计算语言的语形看做是抽象的代数结构,并且立足于数据类型的科学理解,用代数结构对于数据类型的语义进行研究。第三,语义学的操作化处理(Operational semantics)。这种语义方法采用虚拟的计算模型和条件性约束来对计算元语言进行定义,并且通过程序规范的语言对语义加以确定。英国的兰丁(P.J.Landi)和温斯克(G.Winskel)采用抽象模型的标准实施表述了计算式的语义,其本质就是用语言结构的计算操作来界定语义,从而建立起逻辑的解释系统。第四,指称语义学的程序化语言分析(Denotational Semantics)。例如,斯特罗奇(C.Strachey)将计算语言作为计算程序设计的结果,尽管计算系统自身存在差异性,但计算指令的执行方式并不影响输出的结果,因此语义的分析与计算程序的语言处理过程是无关的。

总体上来看,英国计算语义学的应用和发展,以及语义分析、处理的不同路径典型地反映了语义和语形之间的内在关联,也就说它首先要处理的就是语形和语义的“纠缠”关系。在实践过程中,它力图通过算法和集合的规定为意义表征赋予全新的解读方式,同时也希望能够通过语义信息的有效处理而实现对于对象意义的理性分析。也就是说,在计算语义学的系统研究中,语义分析和语形构造紧密地结合在了一起,这对于语词意义的理解和概念的深入分析具有重要意义。

4.语境论语义学的方法论研究成为了当代英国语义学科学性内涵建构的合理趋向。20世纪后期以来,英国的语义学研究在对语形、语义和语用相结合进行分析的背景基础上,充分认识到了作为意义理解整体基础的语境论能够作为一种本体论实在对命题意义进行判断,同时它也全面兼顾了多种形态的语境因素及其关联特性,为意义理解赋予了完备性和系统性。因此,从某种程度上来说,英国语义学的这种研究旨趣为当代世界语义学的发展指出了可资借鉴的崭新路径。

历史地看,利奇虽然对于语境论语义学的现状、进展表示了极大的不满,但他对于语境论语义学建构的系统性、结构性和科学性还是寄予了很大期望。他敏锐地意识到了导致语义学自诞生以来地位模糊、界限不清的主要原因在于对语义学方法论的科学性结构、领域没有建立一种统一而明确的认识,特别是在自然语言、规范语言之间以及与语义相关的逻辑性、意向心理等相关问题、特性的研究中没有实现科学的归纳和整合,而这一任务最终还是需要通过语境论语义学的继续完善、丰富来加以实现。也就是说,语境论语义学的方法论建构应该满足基本的科学性条件和要求,“语义学和下面几种知识划清界限的问题,这几种知识分别为:(1)真实世界的知识;(2)句法;(3)情景知识;(4)一般人类语言的语义学”,[1]124这实际上是指出了语境论语义学建构的基本界面和需要系统化处理的几个重要范畴。

站在语境论语义学的立场上,英国的逻辑实证主义语义学和日常语言语义学,以及当代英国的认知语义学和计算语义学研究实际上是从语境系统的不同界面出发而展开的语义分析路径,而语境论语义学分析的“语境”界面与语言构造本身以及心理状态和事实存在等因素密切相关。因此,达米特认为我们必须将意义的真值分析置于动态的语境之中加以理解,而句法形式、文化和意向特性等相关界面在整体上决定了真理的特征,也就是说我们需要对真理概念进行系统和完整的解释,“语境框架的变动规约了真理的形态。”[13]

从利奇和达米特等英国当代语境论语义学研究的核心思想来看,语义分析实际上是被要求恰当地处理语义表征的语形体系,而正是在这种语形体系的规定范围内语义的功能和作用才能够得以充分发挥,同时在自然语言的规范化和规范语言的自然化处理过程中理论和命题解释的语境平台被整体地凸现出来,从而在意义和语境之间建立起了动态的和结构性的关联。

结语

语义分析方法 篇6

近年来,随着卫星、网络等通信手段、海量存储技术和多媒体数据库技术的飞速发展,使人们能够在短时间内浏览大量的图文并茂的视频,新闻视频作为视频数据中的一种,具有代表性和丰富的信息量,受到人们广泛的关注。对于不断增长的视频新闻数据,开发快速、高效的检索和浏览方法以满足不同浏览者的需求变得越来越迫切[1]。

新闻视频中的字幕文本往往与视频内容密切相关,是实现自动化视频分类、检索、分析和理解的重要信息源之一,也是新闻视频语义信息获取的一条重要途径。文本所使用的语言种类包含了视频的来源、新闻故事发生地等,可以从中提取视频的身份语义信息。此外,OCR(光学字符识别)的选择多是基于语言种类已知的这一假设上的[2],而目前这一工作需要人工干预完成。因此在本文的研究中我们结合文种识别理论对视频的身份语义信息进行提取和分析,并且可以将文种识别的结果作为选用何种OCR处理软件的相关依据。利用字幕文本提取视频语义信息的基本流程如下:

1 镜头检测

由于新闻视频在拍摄、编辑上的纪实性和时间限制,新闻视频中的突变镜头占90%以上。而渐变镜头一般出现在节目的头尾及接缝处,不属于真正的新闻故事,因此本文只考虑对突变镜头的检测。首先将视频帧转化为亮度图像,考虑到新闻视频中字幕出现位置多为底部,其次为顶部和两边,为减少字幕出现对镜头检测的影响,将整个视频帧按如下比例分为3×3的子块(图3),统计各块的直方图,定义相邻帧间第m个子块的直方图之间的距离为:

其中n为直方图的颜色量化级数,为进一步减少文本区域的影响,定义加权矩阵W(图4),则经过加权后的相邻帧差定义为:

当两帧之间的直方图差超过了预设的阈值,便认为该帧为镜头边界。我们用300段新闻视频数据实验得到92%的准确率和90%的查全率。

2 字幕检测与定位

2.1 基于时空特性的字幕检测

在视频流中如有字幕,则一般出现在一段连续的帧内,不会只出现在一帧或几帧内;字幕要经过一段时间后才会发生改变,并且两段有字幕的视频之间应有一段无字的视频。据此本节在每个镜头内检测文本出现或消失的帧,然后就可以在发生文本切换的帧对内进行文本定位,而忽略其它具有相同文本的帧,从而减少运算量[3]。具体步骤如下:

(1)在一个镜头内计算第i帧与第i+1帧之间的二值帧差图像,T1为阈值:

(2)将二值帧差图像分成k块,每块大小为M×N,统计第k块中游程长度大于2的黑白游程数,记为YCi(k);

(3)若YCi(k)>T2,记第k块为似文本块,统计第i帧内似文本块个数,记为TBN(i);

(4)对一个镜头内的TBN(i)序列求其差值序列,对差值序列进行中值滤波后通过设定阈值就可以检测到文本出现或消失的帧对。

(5)为检测镜头边界处是否发生了文本变化,比较镜头边界的前后两帧中的文本块,若相同则说明没有变化;反之则发生了变化。

2.2 基于投影分析的字幕定位

将检测到的第n个文本切换帧对记为TPairn={ft,ft+1},并记该帧对的差值图像为:

其中t为发生文本切换时原视频序列中对应的帧号,(i,j)为帧中的任一象素点。

2.2.1 候选文本区域提取

Step 1:一次水平投影,对Diffn进行水平投影,若该水平线上的白色点数小于N1,则将该行所有点置0;统计连续的白色点大于N1的水平线数,若该数小于N2,则将这些水平线上的所有点置0;若该数大于N2,则对这些水平线进行归并从而形成一些水平带;

Step 2:一次垂直投影,对Step 1中的水平带进行垂直投影,设水平带的高度为H,若水平方向上有超过H列的投影为0,则在此处将水平带进行分割,形成一个个的候选文本区域;

Step 3:对这些候选文本区域做二次水平投影和垂直投影,重复上述过程,直到每个候选文本区域都不可分为止。

2.2.2 文本区域过滤

视频图像中的文本尺寸会在一定范围内,不会太大也不会太小,并且在排列上也会有一定的规律,因此根据如下准则滤除非文本区域:

准则1,Hmin<连通区域的高度<图像高度/2

准则2,Wmin<连通区域的宽度<图像宽度/2

准则3,连通区域的宽高比>Rmin

2.3 文本区域增强

单帧文本分割总会产生一些虚假文本区域,这里采用多帧综合的算法来增强文本区域。对包含同一文本区域的所有帧,利用文献[4]中提出的最小象素搜索或文献[5]中的多帧平均的方法进行增强,因为视频中的文字是静止的,而大部分背景在时间轴上则变化幅度相对较大,因此经过最小值搜索后变化的背景被最小化而文字则相对保持不变,增强了文字与背景的对比。

3 基于小波能量和PCA的文种识别

本节中介绍一种基于小波能量和PCA的文种识别算法。首先将文本区域归一化到16像素高同时保持其相同的宽高比,将文本行复制6行,行间距位8像素宽从而形成一幅新的文本图像,对该文本图像截取128×128的子块作为文种识别的输入图像。

主分量分析是一种非监督数据降维方法,用该方法确定的主分量对应于数据的均方重建误差曲面的最小点,对数据具有较强的描述能力[6],然而对于特征维数和类别数都比较大的识别问题,确定主分量需要较长的训练时间。因此为降低训练时间和充分利用PCA描述数据的能力,本文提出了一种基于小波变换和PCA分析的文种识别方法。此方法首先利用小波分解的方法,提取小波特征作为PCA重建的对象,对每种语言的文本图像建立模型,根据待识别图像样本的重建误差来进行分类,从而解决文种识别问题。

本文以小波能量、小波能量比例、小波对数能量和小波对数能量比例作为特征向量进行PCA重建:

其中小波能量、小波能量比例、小波对数能量和小波对数能量比例的具体定义见文献[7]。目前我们所采集的数据中多为包含中文和英文文本的视频片段,因此主要针对这两种文字进行识别,但此方法很容易推广到其它文种。首先对上述两种文字文本图像的训练样本集分别提取基于小波变换的特征,并对特征求均值和协方差矩阵;然后分别求取协方差矩阵的特征值,并按大小递减排列,求其前6个特征值对应的特征向量作为PCA的重建矩阵;提取测试样本的小波特征,分别利用各主分量对其进行重建。

其中l代表上述语言种类,如当l=Chinese时,是利用中文PCA重建矩阵对样本进行的重建。对于测试样本,其PCA重建与原始样本之间的误差,即重建误差,可作为文种识别的依据,取得最小重建误差的那个l值,则测试样本被识别为代表的那个文字种类。

4 实验结果

算法性能测试分别从两个方面进行,一是文本检测和定位性能;二是文种识别算法性能。为了验证算法的有效性,选取文本形式包括中文、英文两种语言的视频段作为实验数据,对文字区域检测采用基于文本区域数目查全率和查准率的两种性能评价指标,其中测试参照集是手工标注的。表1给出了数据的测试结果,算法平均达到92.26%的查全率和查准率,以及91.92%的正确率。

图4是对定位后的文本区域增强和二值化的过程,将二值化的文本条归一化到16像素高并复制6行,每行间距为8像素,这样得到一幅二值的文本图像,将该文本图像截取128×128的子块,反色后可进行文种识别。

图7列出了测试集中中文图像分别利用矩阵UCh与UEn重建后的误差,"+"表示以UCh为重建矩阵的误差,"o"表示以UEn为重建矩阵的误差。当"+"位于"o"下方时,Emin=ECh(x),测试样本被识别为中文;当"+"位于"o"上方时,Emin=EEh(x),测试样本被识别为英文。

本文以小波能量、小波能量比例、小波对数能量、小波对数能量比例为特征,分别做文种识别实验,识别的正确率如下:

5 结论

本文给出一种视频文本语义提取和分析的新思路,对视频中的文本采用一种语种无关的基于时-空特性的检测算法,对提取到的文本区域在OCR之前进行文种识别,该过程既能为OCR的选择提供相关依据,同时能提取视频的来源等身份特征。

摘要:本文提出一种视频文本语义信息分析的新思路,即在文本区域提取后结合文种识别理论来提取新闻视频的来源和身份等高级语义信息,同时文种识别结果可为OCR的选择提供先验知识。主要工作包括:1)针对视频中的字幕,提出一种基于时-空分析的算法来检测视频中的字幕,然后对检测到的字幕通过投影分析进行定位、增强和二值化;2)对提取到的文本区域提出一种基于PCA和小波变换的文种识别算法。

关键词:视频语义信息,时空特性分析,文本检测和定位,文种识别

参考文献

[1]Avrithis Y,Tsapatsoulis N,and Kollias S.Broadcast news parsing using visual clues:A robust face detection approach[C]//Proc.2000IEEE Int.Conf.Multimedia Expo.,2000,3:1469-1472.

[2]Spitz A L.Determination of the script and language content of document images[J].IEEE Transactions on Pattern Analysis And Machine Intelligence,1997,19(3):235-245.

[3]Tang Xiaoou,Gao Xinbo,Liu Jianzhuang,et al.A spatial-temporal approach for video caption detection and recognition[J].IEEE Transactions on Neural Networks,Special Issue on Intelligent Multimedia Processing,2002,13(4):961-971.

[4]Zhang Dongqing,RNendran R K,Chang Shihfu.General and domain-specific techniques for detecting and recognizing superimposed text in video[C]//IEEE International Conference on Image Processing,2002:22-25.

[5]Sato T,Kanade T,Hughes E K,et al.Video OCR:Indexing digital news libraries by recognition of Superimposed Captions[J].Multimedia Systems,1999,17(5):385-395.

语义分析方法 篇7

关键词:改进,fuzzy extended AHP方法,模糊语义层次方法

1 前言

AHP方法作为一种多目标决策 (MCDM) 方法已被广泛应用于各个领域[1]。它将决策者的偏好信息以两两比较的判断矩阵来表示, 并通过计算判断矩阵得出准则权重以及方案排序。有时, 在实际决策问题中, 决策者很难用精确值来表示他的偏好信息, 他们觉得用模糊语义, 或者模糊数, 甚至区间数来打分更合适。因此许多学者提出了各种处理模糊判断矩阵的方法。

fuzzy extended AHP方法是chang在1996年提出的一种处理三角模糊数组成的对比矩阵获得权重的方法[2]。该方法先把专家的语意打分的对比矩阵按照语意尺度转换成三角模糊数构成的对比矩阵, 然后将转换后的对比矩阵的每一行标准化, 并且两两比较, 最后选出比较结果中每一行的最小值, 经过归一化后得到对比矩阵的权重。它计算过程简单方便, 因此被广泛引用。但是wang2008的研究指出该方法不能为模糊对比矩阵计算出正确的权重, 它会使部分应该被考虑的准则的权重为0, 并且该方法无法处理由单值组成的对比矩阵[3]。此外, 有研究指出fuzzy extended AHP方法的计算公式中, 有错误的公式需要修正[4]。pei2011在总结前人对chang1996方法的研究后, 对chang1996方法的语义尺度进行了改进, 并通过实验证明改进是有成效的[5], 但是它没有修正fuzzy extended AHP方法中的错误公式。本文基于以上背景对该方法进行改进, 并提出模糊语义层次法。

2 模糊语义层次法

fuzzy extended AHP方法虽然是用于处理三角模糊数构成的对比矩阵, 但是严格意义上, 模糊理论在方法中体现的作用和意义并不明显, 因此把它作为一种FAHP并不是很准确。本文通过按照前人研究修正原fuzzy extended AHP方法的错误公式, 并且对原方法的语义尺度进行改进。具体的方法流程如下:

第一步, 设计评价模型的层次结构。这一步和AHP方法所要求的一样, 所以不详述。

第二步, 设计问卷并请专家进行打分。这一步和AHP大致相同, 不同的是, 模糊语义层次法要求问卷提问及专家打分时必须使用模糊语义, 例如“一样~”, “稍微~”等等。

第三步, 依据Arrow曾提出过两条公理[7] (连通性和传递性) 对模糊语义对比矩阵进行一致性检验和调整。由于专家初次打分的对比矩阵有可能不合理, 即不满足一致性, 因此需要专家重新打分或是调整。

第四步, 按照语义尺度将上一步得到的对比矩阵转换成由三角模糊数构成的对比矩阵。“一样~、稍微~、正常~、非常~、绝对~”等语义分别对应于 (49/50, 1, 50/49) 、 (49/50, 299/295, 3089/2950) 、 (49/50, 101/97, 5347/4850) 、 (49/50, 105/93, 1981/1550) 、 (49/50, 197, 19651/50) 等三角模糊数。

第五步, 按照修改后的公式逐步计算, 这里只的修改后的公式是指wang2008[4]中提到的公式。

第六步, 综合所有对比矩阵权重, 对方案排序。

从上面的整个步骤看, 模糊语义层次方法和AHP方法在流程上大同小异。他们的主要区别在于处理对比矩阵的方法。

3 结束语

本研究在总结前人研究的基础上, 对chang1996提出的fuzzy extended AHP方法了进行改进:一方面修正原方法中的错误公式, 另一方面对修正公式后的fuzzy extended AHP方法的语义尺度进一步改进。在今后的研究中, 作者会考虑进一步改进该方法, 并且将模糊语义层次方法应用于各种行业中去。

参考文献

[1]OS Vaidya and S.Kumar: Analytic hierarchy process: an overview of applications.European Journal of Operational Research Vol.169, No.1 (2006) , p.1-29.

[2]D.Y.Chang, Applications of the extent analysis method on fuzzy AHP, European Journal of Operational Research 95 (1996) 649-655.

[3]Y.M.Wang, Y.Luo and Z.S.Hua (2008) , On the extent analysis method for fuzzy AHP and its applications, European Journal of Operational Research 186 (2) , 735-747.

[4]Y.M.Wang and T.M.S.Elhag (2006) , On the normalization of in-terval and fuzzy weights, Fuzzy Sets and Systems 157, 2456-2471.

[5]Wen Pei, Hsiang-Fan Liao, Bai-Lin Tan《A REVISED MODEL OF FUZZY EXTENDED AHP》The International Journal of Organization-al Innovation, Volume 4.Number 1.Summer 2011.

[6]Kenneth J.Arrow, Social Choice and Individual Values, Cowles Commission Monograph No.12, New York: John Wiley and Sons, 1951, p.23-59.

语义Web服务组合方法研究 篇8

一般地,语义Web服务的组合方法按其关注点的不同可分为:面向Web服务行为的组合方法、面向Web服务功能的组合方法和基于Web服务类型的组合方法;按其实现方式的不同可分为:面向状态搜索算法的组合方法、面向自动推理的组合方法和面向人工智能规划的算法。

1 基于情景演算的人工智能规划方法

这类方法的基本思想是使用人工智能规划中的动作来对Web服务进行建模,利用人工智能中的规划算法来进行Web服务组合。它所找到的组合服务通常比基于服务输入、输出参数的类型匹配的方法要来得准确,但是这类方法所能适用的Web服务范围比较有限。

我们可以把Web服务看作是AI规划中的动作。在经典的规划问题中,动作由动作的前提条件和效应所刻画,而动作的前提条件和效应是参与动作的个体的一组状态构成,动作的执行将使得某些个体处于新的状态之中。例如在经典的积木世界里面,使用手臂举起物体的动作pickup可用PDDL(Planning Domain Definition Language)描述如下:

情景演算最基本的思想就是通过把动作和情境(situation)具体化(reify)以方便进行一阶逻辑推理。所谓情景,形式上就是参与规划的个体所处的状态。在情景演算中,我们用流(fluent)来抽象整个个体的某一特性随情景变化的过程,而个体的状态则就是个体在特定情境下所具有的特性。假设初始情景S0恰好满足动作pickup(a)的前提,也即是说S0为{clear(a,So),arm-empty(S0),…},那么我们只要通过一步的推理就可得出执行动作pickup(a)后的情景是{holding(a,do(pickup(a),So,…},其中do(pickup(a))是情景集合上的一函词,指定了执行动作pickup(a)之后相应的情景迁移。

情景演算通常包含两类公理,一类是动作的前提公理,用于指定各个动作能够被触发的条件;另一类是流的后继公理,用于指定各个状态在每个动作执行之后的变化情况。就上例来说,动作pickup的前提公理是Poss(pickup(ob),S)≡坌ob.cleat(ob)∧armempty。而流on-table的后继公理是on-table(x,do(action,S))≡on-table(x,S)∧action≠pickup(x)∨…其显得更为复杂些。

Web服务的并发行为特性和经典规划中的动作的行为特性是非常不一样的,而针对经典规划问题提出的情景演算仅能产生由一组顺序动作构成的计划,因此在处理循坏、非不确定性和并发性时的行为需要一个解释器,而不是一个规划产生器。Web服务的执行通常会导致新的个体产生,这些个体通常作为Web服务执行的结果返回给用户;而经典规划中假定参与规划的个体不会在规划的过程中产生或消失,动作执行只是导致个体的状态发生变化。

2 基于模型检验的人工智能规划方法

如果把Web服务进一步细分为感知动作(sending action)和实效动作(effect action)两类,则Web服务组合问题可以转化为不确定领域中的条件规划问题。下面我们将要介绍的用于服务交响自动化的规划算法正是反映了上述思想,这个思想对服务组合的自动化来说具有极大的借鉴意义。另外,我们可以在BPEL4WS上使用不确定领域中的规划算法,利用规划中的动作来刻画Web服务的交互信息,能够较好地处理Web服务的非确定性,产生非常健壮的Web服务组合方案。虽然这种方法避免了处理Web服务产生的新个体,但在Web服务的交互信息的层面上进行程序综合并不十分适合于面向功能的语义Web服务组合。所以使用这一类方法的服务组合方案一般是两段式的,即先使用基于输入输出参数的类型匹配或面向服务功能的人工智能规划的服务组合方法寻找满足查询的组合服务,然后针对这个组合服务使用这类方法找出与该组合服务交互的其他Web服务。

这里的规划算法的基本思想是先用迁移系统(transition system)来刻画初始状态在各个动作执行后的迁移过程,然后用模型检验检查目标状态的可达性。目标状态的可达性蕴含了规划算法处理不确定性时的健壮性。如果在其中定义了多种可达性,每种可达性的迁移过程是不一样,但是每个迁移过程都可以通过OBDD进行编码。下面我们简单的介绍一下OBDD(Ordered Binary Decision Diagram)和用于刻画这个迁移过程的程序框架。

例如对于有三个命题变量〈P,Q,V〉的系统,状态集合{〈T,T,F〉,〈T,T,T〉}可以用命题逻辑的表达式PQ来表示,它的一个OBDD表示如图1所示,其中实边表示把源节点的变量赋为真T,虚边表示把源节点的变量赋为假F。

在规划中,我们习惯于用一阶逻辑谓词来刻画规划中的动作和状态。但注意到参与规划的个体数量n是有限的,我们就把一阶逻辑谓词转化为命题词。由于任意的动作都可以看作从一组状态集合到另一组状态集合的迁移,我们令rn(Old)为状态集合上的一个函数,用于计算这样的状态集合New,使得New中的元素不包含于状态集合Old中但却能迁移至状态集合Old中的状态。设规划问题的初始状态集合为I,目标状态集合为G,我们可以使用下面程序刻画与这个迁移过程相对应的迁移系统:

对上面这个程序进行模型检验,若GENERATEPLAN(I,G)=Ф,则不存在满足要求的规划。否则,存在满足要求的规划。

3 基于参数匹配的形式化推理方法

参数匹配的形式化推理方法(Rao)依赖于输入输出参数类型的上下位匹配,只不过该方法借鉴了自动化程序综合的思想,提出了采用线性逻辑推理进行Web服务组合,因而具备对Web服务进行参数个数的匹配的能力。由于该方法所采用的线性逻辑具有不可判定性,这从一定程度上削弱了它能够对Web服务进行参数个数的匹配的优势。

线性逻辑不同于经典逻辑,它以资源的观点来看待命题,茚表示两个资源都存在,茌表示两个资源中必有一个,表示消耗前面的资源可以产生后面的资源。例如,分别用D和C表示一美元和一包烟,那么“两美元能购买一包烟”可以表示为D茚DC。

Rao用线性逻辑来刻画Web服务和参数类型的上下位关系。譬如一个具有I1和I2类型输入参数和O类型输出参数的Web服务可表示为I1茚I2O;又譬如SbSp可以表示Sb是Sp的子类。

线性逻辑和并发系统两个重要的计算模型———Petri网和进程代数都有着深刻的联系。图2给出了一个用线性逻辑对Petri网进行形式化的例子,其中!是模态词,用于产生无限个拷贝。

组合服务的进程构造子实质上就是进程代数中的顺序运算符“.”,不确定选择“+”和并发运算符“|”。通过对每个推理赋予一定的操作语义(即产生对应的Web服务的进程代数表达式),我们可以从推理序列获得组合Web服务的进程代数表达式,这个表达式又可以直接翻译成组合Web服务的服务模型。

例如Web服务exchange可以让客户用一张礼券换取一支铅笔,即Coupon ExchangePencil;Web服务buy可以让客户付一美元买一支铅笔,即DolarBuyPencil;那么我们可以得出结论;无论客户是选择Web服务exchange还是buy,都可以获得一支铅笔,即Coupon茌DollarExchange+buyPencil。在Rao的方案中,与这对应的推理步骤是,其对应的进程代数表达式是exchange+buy。

4 基于搜索的方法

语义Web服务组合和语义Web服务匹配的联系是非常密切的,这里所讨论的一类服务组合算法就是建构于服务匹配之上的。

一个Web服务S能够满足一个查询Q意味着:对于查询Q提供的所有输入,Web服务S必须都能接受;对于查询Q所要求的所有输出,Web服务S必须至少满足其中之一。根据Web服务类型之间是否存在互相包含或相交的关系,我们可以定义一个Web服务S能够满足一个查询Q的程度(按从高到低的顺序):

1)Exact

type(P,Q)≡type(P,S);

2)plugIn

type(P,Q)哿type(P,S)如果P是输入参数;type(P,S)哿type(P,Q)如果P是输出参数;

3)subsume

type(P,Q)哿type(P,Q)如果P是输入参数;type(P,Q)哿type(P,S)如果P是输出参数;

4)overlap

如果P输入参数;如果P输出参数。

在确定Web服务满足查询的程度时,输入参数类型的上下匹配方向和输出参数类型的上下匹配方向正好相反。例如有四个在线销售书籍的Web服务S1,S2,S3和S4。S1接受中国银行的和花旗银行的人民币信用卡,S2接受所有的人民币信用卡,S3接受中国银行的人民币信用卡,S4接受花旗银行的多币种信用卡。如果用户希望使用手中的中国银行和花旗银行的人民币信用卡来购得一些书籍,那么从输入的角度看,服务S1满足用户查询的程度是exact;服务S2满足用户查询的程度是plugIn;服务S3满足用户查询的程度是subsume;服务S4满足用户用查询的程度是overlap。如果进一步考虑输出的话,假定Web服务S1只出售科技书,那么服务S1满足用户查询的程度就降为plugIn。

根据上面的定义可知,仅是在subsume或overlap程度上满足查询的Web服务是无法单独满足我们的确切需要的。为此,它必须与其他Web服务“相加”,并且这些相加的Web服务必须能够囊括查询提供的输入。这正是文献[1]中的服务组合算法的基本出发点,该算法通过一个矩阵对服务进行初步的“相加”以得到一个在exact或pluhIn程度上满足查询的组合Web服务,然后再不断的向前搜索直至获得要求的输出。

矩阵的维数由需要匹配的输入参数的个数决定,矩阵的每个维对应着一个输入参数,矩阵中的元素是一组Web服务,它们在矩阵的各个维上的分量是对应的输入参数所能接受的类型。在上述的例子中,需要匹配的输入参数只有一个,即购买书籍所使用的信用卡,我们用图3来示意这个一维矩阵。由图3可以看出,将S3和S4组合在一起也能够在plugIn程度上满足查询。

目前大多数的语义Web服务匹配算法都局限于服务参数类型的匹配,但这不等于说不能从服务的功能上和从服务的外部行为上来进行服务匹配。如果从服务的功能上和从服务的外部行为上来进行服务匹配,那么多少都有计算性和复杂性方面上的诟病(最显著的如计算的不可判定性),难以获得普遍的适应性,这也是目前大多的语义Web服务匹配算法仍停留于参数类型匹配的原因之一。

5 基于自动机的形式化推理方法

自动机和进程代数都可以很自然的刻画Web服务的行为以及相应的状态变化,例如一个接收search消息然后发送result消息的Web服务S可以用图4(a)中的进程代数公式来刻画:

如果不区分动作前缀“?”和“!”在意义上的不同,那么图4(a)中的各式同时也刻画了一个自动机。它的字母表为{?search,!result},状态集为{S0,S1},并且S0既是初始状态也是终止状态。

另外,图4(b)和图4(c)分别给出了另外一个Web服务R和我们想要获取的组合服务Q。我们的目标是在自动机S,R和Q的基础上构造一个“组合”自动机,并使用PDL对其进行编码以检验其可满足性。由于“组合”自动机中所有的动作都来自于自动机S和R,我们用命题变量MovedS和MovedR分别来模拟自动机S和R在“组合”自动机中的动作。设u是由所有原子程序的并构成的程序,即,我们有:

自动机S,R和Q在“组合”自动机的动作遵循图5中的PDL公式。

(a)刻画自动机S的各个状态在每种输入下的动作的PDL公式

(b)刻画自动机R的各个状态在每种输入下的动作的PDL公式

显然,这个“组合”自动机还须满足初始状态和接受状态等其他一系列的要求。具体的说,这个“组合”自动机的初始状态必须满足

Q0∧S0∧R0,并且“组合”自动机的接受状态必须满足[u](Q0→S0∧R0)。最后,我们必须指明各个自动机中的每个状态都是不同的,即在自动机Q中有[u](Q0→┐Q1);在自动机R中有[u]R0→┐R1);在自动机S中有[u](S0→┐S1)。

从上面构造“组合”自动机的过程中,我们可以看出文献[2]的基本思想与模型检验的原理如出一辙。这不是偶然的,因为从理论上讲,一个迁移系统与一组动态逻辑公式是对等的。所以不论这个迁移系统是用于刻画动态逻辑中的Kripke语义结构,或是用于刻画自动机,还是用于刻画进程代数的操作语义,它从形式上总是与一组动态逻辑公式相对应。

6 结束语

Web服务组合和服务描述是分不开。Web服务的输入输出参数类型、执行前提和效果和消息交互序列等信息不仅是服务描述的对象,也是Web服务组合的根基。从本论文的论述可以看出,Web服务组合问题很难获得一个统一的解决方案。这是因为Web服务组合所依赖的计算理论基础决定了Web组合方法必须根据其关注的焦点在计算能力和可行性作出适当的折衷。

参考文献

[1]Ion Constantinescu,Boi Faltings,Walter Binder.Large Scale,Type-Compatible Service Composition.In:Proc.IEEE Int Conf.Web Services.IEEE CS Press,2004.

[2]Daniela Berardi,Diego Calvanese,Giuseppe De Giacomo,Maurizio Lenzerini and Massimo Mecella.Automatic Service Composition Based on Behavioral Descriptions.Int.J Coop.Inf.Sys,14(4),2005.

[3]陈旭辉.基于规划的语义Web服务组合技术研究[D].福州大学,2006.

“比”字句的情景语义分析 篇9

关键词:“比”字句 情景语义 强调和夸张 精确和模糊 对等和变化

现实生活中,语言和情景之间的关系密不可分,人与人之间的言语交际总是在一定的情景中进行。想要理解任何一种语言,都必须跟语言所依赖的情景结合起来。我们发现留学生在理解不同情景中的“比”字句时,总是产生这样或那样的偏误,给他们的学习和交际造成了极大的困扰。本文从情景语义的角度对“比”字句的语义特点进行分析,以期对“比”字句教学起到一定的帮助作用。

一、强调和夸张

(一)强调

“比”字句是用来反映同类事物、不同事物或者同一事物的不同方面之间的异同或高下的[1]。在比较句式“X比Y还W”中,很明显地有这样的预设:“Y”很“W”,“X”更“W”,句式重点强调“X具有的W的特征强于Y具有的W的特征”,至于“Y”具有“W”特征的强弱则没有明确的说明。例如:

(1)a.张峰比韩丽跑得还慢。

b.张峰比韩丽跑得慢。

(2)a.这道题比那道题还难。

b.这道题比那道题难。

在例(1)a中,存在这样的预设:韩丽(Y)跑得慢(W),但是张峰(X)在韩丽(Y)原有慢(W)的程度上又有所增加,突出了张峰(X)更慢(W)的程度。在例(2)a中,那道题(Y)难(W),但是这道题(X)在那道题(Y)原有难(W)的程度上又有所增加,突出了这道题(X)更难(W)的程度。至于“韩丽(Y)”本身跑得快慢和“那道题(Y)”的难易则没有进行明确说明。通过对语料的分析,我们发现这类表示强调意义的“比”字句一般都是动作动词作谓语中心,通常有“大、小,多、少,快、慢,早、晚,先、后,深、浅,高、低,松、紧,难、易,好、坏,明白、糊涂”等性质形容词放在动词前后表示程度的差异[2]。

(二)夸张

在比较句式“X比Y还W”中,不仅有表示强调的意义,人们还常常通过使用夸张的手法来说明“X”在“W”这一方面的程度之深。例如:

(3)妈妈比女儿还年轻。

(4)他的腿比你的腰还粗。

在例(3)和例(4)中,存在这样的预设:“X”非常“W”,完全超出了一般的标准。例(3)是说“妈妈(X)非常年轻(W)”,例(4)是说“他的腿(X)非常粗(W)”,通过夸张的手法来突出比较句中“X”具有“W”特征的程度之深,体现其预设义。实际上,再年轻(W)的“妈妈(X)”也年轻不过“女儿(Y)”,再粗(W)的“腿(X)”也粗不过“腰(Y)”。这种句式里的比较项“X”和“Y”是属性相反或相对的,也可能是在某方面具有显著差别的一对事物。如果“X”的一般特性是“A”的话,那么最终的比较结果(W)就是非“A”。在例(3)中,“妈妈(X)”一般是“老的”,所以比较的结果(W)就是非“A”即“年轻的”。例(4)中的“腿(X)”一般是“细的”,比较的结果(W)就是非“A”即“粗的”。

除了上面的“X比Y还W”句式表示“夸张”义外,人们还经常使用“X比Y还Y”句式来表示“夸张”义。例如:

(5)这个女孩比男人还男人。

(6)李飞总是病怏怏的,比林黛玉还林黛玉。

这种句式里的比较结果和比较的后项是相同的名词。例(5)中的比较结果“Y”是“男人”,比较的后项“Y”也是“男人”,该名词在此句式中已经丧失了自身的“名词性”,不仅仅表示是“男人”,更重要的是突显其附加义,即“坚强、勇敢、能干、有责任心”的一类人。例(6)中的“林黛玉”也不仅仅是一个“人名”,而是“体弱多病、弱不禁风、忧愁寡断”等的代名词。用这样形象的且稍有夸张的表达方式来更好地体现比较前项“X”的特征。这种句式中的“Y”不管是普通名词还是专有名词,都赋予了一定的附加意义。人们会根据不同的语境产生不同的联想,并丰富其意义。例如:我们经常用“木头”来说明一个人呆板,用“猴子”来形容一个人灵活,用“猪”来形容一个人笨拙等。用这些承载了文化积淀的名词来做比较的基准,夸张的意义显而易见[3]。

二、精确和模糊义

(一)精确

我们通过“比”字句式“X比YW+数量短语”,不仅仅能反映同类事物、不同事物或者同一事物的不同方面之间的异同或高下,还可以精确地指出异同的具体差距,量化比较项“X”和“Y”的差别,使比较的结果(W)更有明确义,最终人们可以对比较结果一目了然。例如:

(7)刘茜比韩丽高十厘米。

(8)他比老婆瘦八斤。

例(7)在比较结果“高(W)”后面加了数量短语“十厘米”,例(8)在比较结果“瘦(W)”后面加了数量短语“八斤”,这样在比较结果“W”后面加上表示确定数量的数量短语,使比较结果“W”的周延更具有明确性,清楚直接地用数值展现给人们。

(二)模糊

“比”字句式“X比YW”不仅可以表示明确的比较结果,还可以通过在比较结果“W”后加不定量词,来表示不确定的、模糊的语义。例如:

(9)周雨比李飞高了许多。

(10)别笑话他了,你比他也高不了几分。

在例(9)中,在比较结果“高(W)”后加了不定量词“许多”,例(10)中,在比较结果“高不了(W)”后面加了“几分”,都是用来增加句子所表达的结果的模糊性,而且这种模糊性,在不同人心里对具体所体现的量也会形成不同的值。

此句式中还可以用“一+不定量词”或者“代词+量词”等词组形式来表示模糊的意义,这些词组受人的主观心理因素的影响非常大。但有时候,也可以用表示精确意义的数量短语来表示模糊义。例如:

(11)吸毒是要花大量金钱的,这样看来,毒品比黄金贵一百倍。

(12)火最热;不,不,我们的决心比火还热一万倍。

例(11)中,在比较结果“贵(W)”后面加了表示确定数量的词“一百倍”,实际上不是说“毒品(X)”真的比“黄金(Y)”贵(W)“一百倍”,只是用来表示一个模糊的量,说明毒品是要消耗大量金钱的。例(12)中,在比较结果“热(W)”后加了表示确定数量的“一万倍”,并不是说“我们的决心(X)”比“火(Y)”热(W)“一万倍”,只是用来表示模糊的量,说明决心的火热与坚定。

三、对等和变化义

(一)对等

“比”字句有多种形式,其中“X不比YW”是用其委婉和消极的方式来表达积极的意思,以达到保护别人面子的作用[4]。实际上,在说话人主观看来,比较前项“X”和后项“Y”在程度上没有差别,或即使有差别,也是微乎其微,可以忽略不计。例如:

(13)我虽然不是厨子,我做的菜不比他差嘛!

(14)别墅我也住过,并不比普通楼房舒服多少。

例(13)里,从人们的常规认知来讲,“不是厨子”的“我”的厨艺一定比“厨子(Y)”差,但是在说话人“我(X)”的主观心理看来,这种差别是极其微小的,甚至可以忽略不计。但是因中国人特有的谦虚心理又不允许其直接讲“我做的菜比他好”或者“他做的菜比我差”,而是用比较委婉消极的方式来表达自己想说的积极的意思。例(14)中,在说话人看来,“别墅(X)”和“普通楼房(Y)”是没有差别的,是可以等同的。

(二)变化

“比”字句不仅能够显示同类事物、不同事物或者同一事物的不同方面之间的异同或高下,还可以表达变化的意义。这种表达变化意义的句式,谓语项一般是由能够体现差别或者结果语义的动词或动词性的短语来充当。我们通过对“比”字句语料的整理和分析,得出主要有表示数量变化和程度变化两种意义。

1.表示数量变化义

用数词或数量短语来充当比较的差值。例如:

(15)公司今年比去年减少12个招聘岗位。

(16)今年小麦产量比去年同期增产10%。

例(15)中的动词是“减少”,是指在原有的招聘岗位基础上减少了12个。例(16)中的动词是“增加”,即在原有的产量基础上增加一部分。两个动词都有表示变化的意义。

还可以直接在动词后面添加表示完成的助词。例如:

(17)我们这个星期的销量比上个星期增加了。

(18)学校今年的招生数量比去年减少了。

例(17)和(18)都是在动词后面直接添加助词“了”来表示已变化,虽然不能表示具体数量的差异,但也是一种体现结果的方式。通过分析各种语料信息,我们总结出能够用在这类句式中表示数量变化的动词还有:“超过、放大、改变、改进、改善、加强、节约、降低、扩大、缩小、提高、提前、推迟、下滑、延长”等[5]。

2.表示程度变化义

“比”字句还能表示程度上的变化。例如:

(19)他比我需要房子,也需要钱。

(20)一个胸怀坦荡的人比口蜜腹剑的人更值得信任。

例(19)和(20)中的“需要”和“信任”,都是表示人对某种事物的主观认识或看法,都隐含着程度变化的弹性空间,例如:可以说“比较需要/信任”“很需要/信任”“更需要/信任”“最需要/信任”等。这类型的动词在“比”字句中充当谓语,使句子整体表达程度上的变化。这类的动词还有:“想、害怕、喜欢、关心、欢迎、了解、明白、热爱、欣赏、支持”等。

另外,还常常用“一+量词+比+一+量词”这样的句式来表示程度上的递进。例如:

(21)他的体重一天比一天重。

(22)比赛一局比一局激烈。

例(21)中的“X”和“Y”是同形的,句子表示“体重(X)重(W),体重(Y)更重(W)”,有程度上的累加。“他的体重”是“X”和“Y”所指的范围,做句子的主题,“X”和“Y”有先后相承的关系。例(22)中也是一样,“X”和“Y”同形,表示“比赛(X)激烈(W),比赛(Y)更激烈(W)”。比赛是“X”和“Y”所指的范围,是句子的主题,“X”和“Y”有先后相承的关系。

参考文献:

[1]朱德熙.关于“比”字句[A].语法研究和探索[C].北京:北京大

学出版社,1983.

[2]陈昌来.介词与介引功能[M].合肥:安徽教育出版社,2002:

212.

[3]马真.现代汉语虚词研究方法论[M].北京:商务印书馆,2004.

[4]吕叔湘.中国文法要略[M].北京:商务印书馆,1982:359.

[5]刘晓玲.介词标记“比”的构句机制及情景语义分析[D].大连:

辽宁师范大学硕士学位论文,2012.

语义分析方法 篇10

在自然语言处理中,在对句子进行相似度比较时,必定会用到分词技术,将其分割成一个个词语进行相似度计算,然而这些词语的来源就是词典。同时每个词语的标注也来源于词典。所以词典中如果没有的词语,那么后期的分词工作就不能得到想要的分词效果,这需要词典管理员进行有效地维护和管理。词语标注问题同样如此,所以词典的维护和管理是一项基础而又重要的工作,在自然语言处理中占有重要的位置,是分词技术与词语标注工作的重要资源之一。

词典的整体性能会影响分词与词语标注工作。 如何能够使得词典语义信息丰富,而且能够有效的管理词典的质量,是一个艰巨的任务。

传统的词典的维护和管理大都耗费了很多的人力,如词语的录入都是很繁琐的工作。而且词典中词语的词间关系不够丰富,没有层次,对后期的工作造成了影响。

本文提出词语层次管理的方法,使得词语关系更加的丰富和明确,使得词语的标注性能得到了较大的改善。首先按照行业划分,每个行业下包含很多语义相似的词语集合。这样词语的关系较为清晰,层次感较强。

因为词典中数据较大,本文中还提出MS-kmeans算法,给每个行业选出较为精确的样本点作为初始的工作集,在初始的工作集上聚类,将待比较的样本与工作集进行相似比较,将其归为相似值最高的类别中,一次性的划分,不进行重复迭代过程。

1词间关系集及其模型构造

1. 1词间关系集

通过大量文本,本文整理出中文的词语之间的关系类型,大体上有以下几种类型:

1简称( X,Y)

X的简称是Y,反过来,Y的全称是X。简称,即抽出原词语中的共同部分,或概括原来几个词语表示的事物的共性的词。

例1: 词语: 江苏科技大学

简称: 江科大

简称: 中国

2全称( X,Y)

X的全称是Y,反过来,Y的简称是X。全称,即机关、团体等的正式名称的完整的称呼。

例2: 词语: 少先队

全称: 中国少年先锋队

3同义词( X,Y)

X同义词Y。约定俗成的俗称。

例3 : 词语: 七夕节

同义词: 中国情人节

4上位词( X,Y)

X的上位词是Y。相当于X的属词是Y。

把概括性较强的词位称为特定性较强的词位的上位词。

例4 : 词语: 小汽车

上位词: 交通工具

5下位词( X,Y)

X的下位词有Y。

特定性较强的词位称为概括性较强的词位的下位词。

例5: 词语: 水果

下位词: 苹果

6整体词( X,Y)

X的整体词是Y。整体的名称。

例6: 词语: 车门

整体词: 汽车

例7: 词语: 房门

整体词: 房间

说明: 车门是汽车的一部分,而房门是房间的一部分,汽车和房间是整体的一个名称。

7部分词( X,Y)

X的部分词是Y,与整体词相反。

例8: 词语: 汽车

部分词: 车门

例9 : 词语: 电脑

部分词: 显示屏

8代表词( X , Y )

X的代表词是Y,X表示一个词语类别集合,Y表示一个代表词或集合,最能代表X含义的一个词语或集合。此部分在后面也会详细叙述。

例 10:

查询相似类集合 = { 查询,查,查查,查一查, 查找 }

代表词: 查询

1. 2词间关系模型构建

通过词间关系集来构建词间关系模型,该模型采用3层模式,最顶层表示行业类别,用T表示; 中间层表示词语类别,最低层表示扩展词。

具体结构模型如下:

定义1行业类别: T( t,{ w1,w2,w3,…} )

即行业分类,t表示T行业名,w表示T的每个子类,即词语类别集合,即词语语义相似的归为一个数据集合。

例1: T( 医疗行业,{ 医生相似类,药品名称统称类} )

t为医疗行业,i为2,w1医生相似类,w2为药品品牌统称类,该医疗行业集合包含两个子类。

定义2词语类别: W( w,ei)

W表示相似类,w表示W的代表词,ei表示W的每个子类,即扩展词集合,见定义4。

例2: 医生相似类( 医生,{ 大夫,先生} )

W为医生相似类,代表词w为医生,ei集合为 { 大夫,先生} ,i为2。

定义3词语类别: C( c)

C表示统称类,c表示C的子类。

例3: 药品品牌统称类( { 快克,哈药六厂,白云山制药} )

C表示药品品牌统称类,c集合为 { 快克,哈药六厂,白云山制药} ,医药品牌统称类包含快克,哈药六厂,白云山制药。

定义4扩展词: E( K,Vi)

K代表词语类别,Vi表示K的扩展词集合。

例4: E( 医生相似类,{ 大夫,先生} )

K表示医生相似类,Vi表示一个集合{ 大夫,先生} ,医生相似类下包含大夫,先生。

1. 3词间关系模型

以医疗行业为例,关系模型如图1所示。

图1表示医疗行业下有两个子节点,包含医生相似类,和药品品牌名称统称类。医生相似类下包含的扩展词有大夫先生和医生。医药品牌名称统称类下包含快克,999和白云山制药。

2 MS-k-means算法设计

2. 1相关概念与公式

1集合SA: SA= { a1,a2,a3,…}

表示词语类别A的扩展词集合数据 。

例1 : 医生相似类 = { 医生,大夫,先生}

2集合SAT: SA T= { a1,a2,a3,…}

表示词语类别A的数据类型T的数据集合 。

例2 : 医生相似类的同义词集合 = { 大夫,先生}

A为医生相似类, T表示其同义词

例3 : 医生相似类的代表词集合 = { 医生}

A为医生相似类, T表示其代表词

3混合形似值S( A,B ):

表示SA和SB的词语形相似度。 | SA| ∩ | SB|表示SA和SB相同的数据集合,| SA| ∪ | SB|表示SA和SB组成的数据集合,比值为SA和SB混合形似值。

S ( A , B ) 属于[ 0 , 1 ]范围,当S ( A , B ) = 0 ,表示无相同的数据元素,形似度为0 ; S ( A , B ) = 1 ,表示S A和S B两个集合的数据完全相同,形似度为1 ,那么Similar AB = 1 ,见公式( 4 ) 。

例4: 大夫相似类 = { 大夫,医生,先生}

医生相似类 = { 医生,大夫,先生,看病的}

相同数据集合 = { 医生}

组成集合 = { 医生,大夫,先生,看病的}

4单一形相似值:

表示词语类别A和B的数据类型T的形相似值。S( A,B) T属于[0,1]范围,S( A,B) T= 0,表示类型T无相同的数据元素,S( A,B) T= 1,表示类型T数据完全相同。

例5: 大夫相似类的同义词集合 = { 医生,先生}

医生相似类 同义词集 合 = { 大夫,先生,看病的}

相同数据集合 = { 先生}

组成集合 = { 医生,大夫,先生,看病的}

A表示大夫相似类, B表示医生相似类 。

5语义关联值:

表示SA和SB语义相关值,衡量语义关联的程度。FAj和FBj分别表示SA和SB在文档j中出现的频率。关联值越大,则表明SA和SB相关性越强; 反之, 相关性越小。

G( A,B)属于[0,1]范围,G( A,B)= 0 ,表示SA和SB没有关联性,即FA= 0,FB= 0; G( A,B)= 1,表示SA和SB关联性达到最大值,即FA= FB,在文档中出现的次数相同。

6词语类别相似度:

式中,表示SA和SB的相似度值,其中,#表示形相似系数( 经验值0. 6) ,$表示语义关联值G( A,B)( 经验值0. 4) 。

SimilarAB属于[0,1]范围。当SimilarAB= 0时, 表示相似度为0; 当SimilarAB= 1时,表示相似度为1。当

( λ为设定阈值,经验值为0. 3) 时,判定SA和SB相似。

2. 2算法流程

由于自然语言处理的语义关系转化为数字形式分析较难,根据K-means方法中的距离,可以利用公式( 4) 计算词语类别相似度,作为距离值。

首先随机地抽取一些L个样本,构成初始聚类集X,利用传统的K-means方法进行聚类,由于初始样本个数比较小,初始的聚类过程迭代次数比较小, 减小了时间复杂度。根据公式( 4) ,计算其他样本与初始样本的距离,并一次性将它划分到相似度最高的类别集合。输入:

1若干样本集合XK,每个样本代表一个行业T ( t,{ w1,w2,w3,…} ) 。

2待比较的样本,即词语类别集合w( w,ei) 。

输出: 得到样本应归属的一个行业类别 。

方法:

1给定行业个数为K ,行业样本, X表示一个行业 。

2X = T( t,Wj) ,即预先给每个行业选定一些词语类别集合作为其子元素,即作为初始样本。

3待比较样本和Xj样本中的每个子元素的个体进行相似性的比较,计算其相似值SimilarAB,求:

SimilarAB> = λ,λ = 0. 3,其中,K为满足此条件的个数) 。

对于不满足式( 6) 的,SUMSimilar= 0。

4将待比较样本归到SUMSimilar最高的类别中, 当SUMSimilar= 0时,不属于预定义的行业中,将其归到“其他”类别中,算法终止。

3词典系统设计

词典质量,影响分词和词语标注性能。除词典的基本编辑操作外,词典中的词语具有层次鲜明的特点。同时系统能够在已有的数据基础上,利用MS-k-means算法进行智能的类别划分,使得词典管理员的工作相对减少; 同时也能够提高词典的整体质量,使得词语标注更为准确,避免了语义重复的词语类别出现。

本词典系统采用SOA组件模式开发,VS2010环境,C#语言,SQLServer2008数据库。

3. 1设计方案

采用组件模式开发,搭建Web Service服务, xml数据通信媒介 。 词典管理模块视为一个dll程序集文件,利用程序集的唯一标识guid ,在Web Service服务查找相应的程序集文件,调用其模块的指定方法 。

流程如图2所示 。

Xml数据文档可以自定义标签,简单易用,数据格式如下:

系统中的元数据有三个,Industry Info,Word Class Info,Word Info,分别表示 行业T ( t,{ w1,w2, w3,…} ) 元数据,词语类别W( w,ei) 或C( c) 的元数据和扩展词E( K,Vi) 元数据,定义在Data Define. cs文件中。而对外的 三大方法 接口定义 在DataSource. cs文件中。

每个组件的标识guid是唯一的,占用的字符长度是36,它是全局统一的标识符。在理想情况下, 任何计算机和计算机集群都不会生成两个相同的GUID。

Web Service服务对外有三大方法,setdata,getdata,和transformdata方法。针对查询和修改操作调用set方法,读取数据操作调用get方法,而统计和多条件查询,则调用transform方法。

通过Web Service平台,首先根据调用的组件的唯一标识符,查找到指定的组件,其次根据指定的三大方法名,查找与datatype对应的方法操作。

具体每个方式调用参数如下:

1set方法:

Set ( Task Guid , Data Guid , Xml Node , Data Type )

Task Guid : 调用的组件的标识,唯一的

Data Guid : 写入数据标识

Xml Node : 要写的数据xml文件格式

以行业元数据为例:

< Document Task Guid = " " Data Guid = " 001 " Data Type = " Industry Info" >

< Industry Guid Type = " GUID" >

行业标识 < /Industry Guid >

< Industry Name Type = " TEXT" >

行业名称 < /Industry Name >

< Explain Type = " MEMO" >

行业解释说明 < /Explain >

< Industry Code Type = " TEXT" >

行业代码 < /Industry Code >

< Remark Type = " MEMO" >

行业备注 < /Remark >

< / Document >

Data Type : 调用的set方法下的数据类型,即方法名 。

返回值: 1 ,为写入成功; 0 ,写入失败 。

2get方法:

Get ( Task Guid , Data Guid , Data Type )

Task Guid : 调用的组件的标识,唯一的 。

Data Guid : 要得到数据的标识 。

Data Type : 调用的get方法下的数据类型,即方法名 。

返回的数据格式是: xml形式,如set方法的Xml Node的xml格式 。

3transform方法:

Transform ( Task Guid , Xml Node , Data Type )

Task Guid : 调用的组件的标识,唯一的 。

Xml Node : 要查询条件数据xml格式文件 。

Data Type : 调用transform方法下的数据类型,即方法名 。

返回的数据格式是: xml形式。

3. 2 MS-k-means算法验证

本实验中,根据算法流程,确定初始化的K值为5,即行业类别为5种,初始的样本行业名为: 教育,医疗,食品药品,娱乐,电子通信,根据SUMSimila值判别属于那一个行业类。每个行业包含500个词语类别集合数据,作为其子元素。每个词语类别集合都包含语义准确的扩展词,同时保证初始化的行业数据都是精确的,以便后期的工作进行。

利用MS-k-means算法,测试2000个样本,包含预定义的不同行业数据,测试结果如表1所示。

4实验结果分析

从实验数据中,看出准确率在65% 左右,与其效果不理想,可能影响因素主要有两个: 初始化的样本选择和行业文档的质量问题。

1初始化的样本: 初始样本的选择至关重要,数量和质量影响关联值的计算。子元素个数较少,则不能很全面的反映该行业的整体概念,影响后期的相似度的计算。

2行业文档质量: 每个行业的相关文档数量少, 选取不全面,以及行业主旨不明确,都会影响关联值G( A,B)。

5结束语

上一篇:《星际争霸》下一篇:物理概念转变