结构语义学

2024-10-24

结构语义学(共12篇)

结构语义学 篇1

论文在“价值、缺失和学术转向”的框架中梳理关于夸张的已有研究成果, 探索兼容广义修辞学和认知语言学理论资源的夸张研究模式, 参与夸张研究转向的学术实践。论文采用封闭性研究和开放性视野, 依次探讨:夸张结构要素及相关问题、夸张语义特征和生成机制、夸张语篇叙述结构和修辞策略。论文的研究能够为修辞格研究的深化与细化以及跨学科视野中的学理兼容、优势互补提供可资参考的探索个案。

第一章探讨夸张结构要素及相关问题, 重新认识结构三要素:本体、夸体、夸张点, 认为在本体承前省略前提下, 只有夸体也可以生成夸张。依据夸张点凸显的特征为标准, 判断夸张属于夸大还是缩小。区分了借助副词、固定搭配生成的夸张结构, 连夸、博夸结构, 典型夸张结构和非典型夸张结构。关注到夸张非典型成员的非范畴化特征, 注重特殊夸张语例分析, 对相似语言结构但本质不同的现象区别对待, 采取不同的处理方式。描写与解释传达命题态度的话语标记“夸张地说”及其否定形式, 认为夸张话语标记生成的修辞动因来自语句关联性的语义限制, 通过4个步骤, 完成“明示—推理”模式, 分别为:1.存在明示语言形式, 2.推理过程, 3.最佳关联, 4.生成带有临场概念特质的夸张义, 让听话人在推理过程中抓住话语的最佳关联, 增强“夸张—凸显”关系的理解指数。

第二章探讨夸张语义的生成机制, 认为夸张语义以“夸张量”的生成为前提。由于夸张点在夸张结构里以显性、隐性两种方式呈现, 夸张点显隐义的丰富性与夸体语义的亚义位、自设义位特征, 使我们意识到只有在充分认识夸张结构意义与组合成分意义融合的整体性基础上, 才能判断一个数量结构是属于常量、超常量还是夸张量, 从而更充分地解释夸张语义。据此, 夸张可重新定义为:语义凸显同质经验域内的量变特征, 结构包含本体、夸体、夸张点三要素, 追求故意言过其实的修辞效果, 生成表达主观情感的修辞幻象。夸张在物象、意象、语象的转换过程中体现修辞幻象特征。夸张结构和语义的不可推导性吸引着人们打破现实世界的边界, 追寻想象世界的自由。

第三章从结构—语义结合的研究视角, 讨论“夸张量”呈现的具体形式——夸张型数字成语的结构和语义特点。指出夸张型四字格数字成语的4种结构模式和非四字格结构更多表现为主谓结构, 夸张语义具有丧失数字精确义、拥有成语语境规约的修辞义特点。

第四章从语篇层面观察夸张, 分析语篇类型和个案的夸张策略, 认为夸张不仅可以表现为局部的语言形式, 也可以成为推动语篇叙事的动力, 承担支持语篇框架的功能, 还可以被设计成宏观的修辞策略。夸张作为结构性修辞因素参与语篇生成, 控制着语篇叙事路向, 使之定型为特定样态。其下位类型封闭性夸张与开放性夸张都起到支撑语篇结构、影响语篇生成全过程的作用。隐含在语篇里的结构性夸张与词汇、句子层面的夸张有很大不同, 前者更多地表现为修辞诗学层面的叙事功能。

研究论证了夸张词汇、句子、语篇的三种存在形式, 注重理论和实践的关联, 使夸张的故意言过其实特质, 在跨学科研究模式中得到优化解释。论文的探讨发生于修辞学研究转向—辞格研究转向的学术背景下, 同时作为上述背景下的一道风景, 丰富着修辞学研究的学术资源, 二者体现为互为因果的关系。

结构语义学 篇2

语义场的结构和类型

词汇的语义系统具有心理现实性.词汇的语义系统中存在着多种语义场.文章描述分析了现代汉语词汇系统中语义场的结构和类型,并讨论了相关的`问题.

作 者:周国光 ZHOU Guo-guang 作者单位:华南师范大学文学院,广东,广州,510631刊 名:华南师范大学学报(社会科学版) PKU CSSCI英文刊名:JOURNAL OF SOUTH CHINA NORMAL UNIVERSITY(SOCIAL SCIENCE EDITION)年,卷(期):“”(1)分类号:H042 H103.4 H136关键词:词项 语义场 语义关系

汉语言介词语义与结构模式探析 篇3

关键词:介词 汉语结构 空间研究 句法

引言

介词的研究在汉语语法学中一直受到重视,相关文献资料数量多,统计繁杂。笔者研究了1996—2014年的《语文建设》,几乎每年都至少发表一篇专门研究汉语介词的文章,其中最具影响力的文献包括:学者王一平撰写的《介词短语“在+处所”前置、中置和后置的条件和限制》、刘大为撰写的《介词“为”为什么容易被误用》《关于动宾带宾现象的一些思考》、高平平撰写的《例谈介词短语中的成分残缺和多余》等论文,这些作者分别从介词判定、介词短语位置、介词误用等不同的角度和领域对介词做了全方位多角度的研究,涉及到介词的历时发展、语法化、语序演变、介词具体类型等多个层面和角度对介词进行研究。本文笔者主要从汉语介词的语义与结构进行具体研究,望对广大语言类学者研究提供理论参考。

一、汉语介词研究综述

在现代汉语中,介词的使用非常频繁,也相当复杂,我国语言学家陈昌来在著作《介词功能》中认为汉语言的介词在汉语语法之中与其他词汇存在差异,并具有与众不同的语言价值。由于介词的这些独有特点,使得介词受到现代汉语语法的领域诸多专家学者的重视。但是,关于介词的理论在很长一段时期内都受到争议,争议较大的包括介词标准、介词的划分标准、介词同动词之间的关系等一系列问题。在介词的相关理论中,关于介词的数量问题,笔者分析相关资料进行整理,发现目前常用的介词大致为110个。根据可靠资料分析,汉语一共有43380个词汇,这其中,介词的数量为98个,占有比例为0.23%。在不同的词典中对于介词的数量记载是不同的,例如語言学家吕叔湘主编的由商务印书馆出版的《现代汉语八百词》(增订本)列出了65个介词,而侯学超编写的《现代汉语虚词词典》列出了介词76个。在现代汉语中,介词的使用频率相当高,大致每三句话中就会出现一个介词短语,这是相当高的使用频率。至今为止,针对汉语介词的研究已经取得了不少的成果。

从语义的角度对汉语介词确定定义:介词主要用在句中表示关系或者方向的地方。不过,本文以为可以从语法角度对介词的定义限定更为准确:介词一般都会组成介词短语出现在句子中,用作名词性结构前做状语、定语或补语。一帮情况下,整个句子的核心是动词,动词占据着主要地位。但是句子仅仅依靠动词并不能将复杂情景的句法表现出来,细节方面的刻画必不可少,介词的作用就发挥出来的。

二、介词语义与结构的句法功能

通常情况下,介词结构在句子中句法作用只有三种:分别是定语、状语和补语。冯胜利在其所著的《韵律句法学》中认为以下两方面,一是汉语言的介词结构不能够是谓语成分的功能而存在;二是汉语言的句子的介词结构中作状语的成分是作为基本句法功能而存在的。同时学者陈昌来《介词与介引功能》认为为了保持汉语语法分析的统一性,汉语言的介词结构不能够作主语成分和宾语成分的功能。实际上,无论是作为定语、补语还是状语,所起到的作用都只是修饰作用,一些语法书将状语划分成描写性的和非描写性两类,这些主要是书面语体范畴,这类词汇主要功能是描写性的状语。用以下句子具体说明,例句:①从遥远的城市赶来。②在茫茫的大漠间驰骋。在这两个句子中,介词短语发挥的作用是描写性的,主要原因是由介词宾语中的定语决定的。句中的“遥远”“茫茫”与宾语中的中心语“城市”“大漠”没有直接关系,与介词更没有关系。其实,处在定语和补语位置的介词结构也存在描写性的问题,之所以成为描写性的原因与状语同类。例句:③生长在富饶的四川盆地(补语)。④对高山流水的喜欢(定语)。⑤沿着蜿蜒曲折的森林漫步(定语)。⑥来源于芸芸众生的智慧(补语)。通过对这些句子的分析,针对介词结构的语体考察,暂时忽视介词宾语中的定语因素。

在本文的内容中,首先对充当补语的介词结构语体进行分析,介词结构在句子中充当短语时的表现方式主要有两种:一种是V+P+NP结构模式。例句“来自上海、开往月球、生于1950年”等等;另外一种是V+NP+P+NP结构模式。例句“集多种功能于一体”。通过上述分析看出,第一种形式中的介词结构明显都是书面语。但是第二种形式中,很多的介词结构实际上是属于中性语体范畴,例如“路在何方、站在河边、迈向远方”等等。语言学家陈昌来在《介词与介引功能》中认为在汉语言领域的词汇只有极少数的介词可以放置在动词之后,并根据具体情况进行了分析探索。例如汉语介词包括的“向、往、以、自、于、到、在”等词汇,在这些介词中不仅包含我们日常用的介词,还有一类文言文常用介词“自、以、于”应该特殊对待,另外在动词之后汉语介词“从、用”也是不能使用的。陈昌来所表达的观点,清楚地说明介词用于补语的作用时,往往是书面色彩较浓。不过,在用作补语时,书面色彩的浓厚程度是不同的,主要从几个方面来理解:第一,介词带有中性语体。一般情况下,句子中如果出现多个并列的动词,那么介词后面不能出现 “了”,此时介词的书面语色彩比较浓厚。第二,介词作为书面语体。如果跟在介词之后的词性成分为光杆名词或定中式名词结构,那么可以说此时的介词书面语色彩最为强烈。以下面的句子为例:“忠于责任、出身贵族世家”,很明显,句子中的介词短语用来充当了补语,其语法化的程度相当高。我国现代著名学者冯胜利在《书面语语法及教学的相对独立性》中指出,动词和介词共同应用可以成为独立的语法结构,可以划分到动词领域,介词结构用在动词的后面,在句法角度是黏附于动词之上。第三,介词作为口语语体。口语语体比较容易区分,那就是“了”出现在了介词和体词性成分之间。根据上述第一条中所讲,如果没有 “了”时,介词结构是偏向于中性语体的,一旦介词和体词性之间出现“了”时,口语色彩就表现了出来。如:飞向(了)远方;看出(了)错误等等。

除了上述分析以外,本文针对介词结构充当句子状语这一现象也进行了详细的研究,主要从以下两方面进行理解:第一,介词结构用作句子的状语。句子中运用介词充当状语是非常常见的情况,这也是介词结构的主要作用之一,状语的类别有很多种,例如从时间、处所、范围、对象、目的等方面对句子、谓语成分或动词、形容词加以限制,它没有描写作用。按其意义可分成以下几个小类:①表示对象;②表示目的、依据、关涉、协同;③表示语气和估计;④表示处所、空间、路线、方向;⑤表示时间;⑥表示否定、程度、重复、范围、关联。在上述状语的类别中,有很多种类别都可以通过介词结构来表达,不过表示语气、估计和表示否定、程度、重复、范围、关联等类别除外,其他的几种类别均是可以的。第二,介词结构作为状语语体出现的情况。通常情况下,介词可以表现的状语语体分为几种类别:①针对某介词属于书面语或口语体系时,介词构成的结构与介词的语体一致。例如:书面语介词“于、自、经”等;口语介词“打、到、朝、往”等;中性语介词“从、向、在”等。由前面两种类别构成的介词结构用作句子中的状语作用时,实际上是受到语体体系限制的。以下面句子为例,清楚地看到不同情况下表达的差异性,书面语中是这样表述的: “自远方而来……”,但是口语语体中这样表述:“打远方过来……”。②如果是呈现出中性特征的介词结构,则其语体的界定是由其后面所跟的词语语体来决定。例如介词结构表示时间时,书面的表达方式是“在这个季度末”,但是书面的表达方式却是“在本季度末”。③假如介词结构呈现中性特征,而且其后面所跟词语也是中性特征,此时就需要适当地调整介词结构的韵律结构来改变语体属性。当介词结构用作表示依据和表对象的情况下,依据口语的表达方式是:“按照规定的程度来做”,书面的表达方式是:“照章办事”。④此外,包括以下“为……所……”“沿……而……”“以……为……”“为……而……”等介词结构,受到古代汉语语法的影响,上述这些介词结构,其内部成分从语体角度实际上和整体的构式是保持一致性的,也是书面语体的表达方式。例如:在书面语中,“以地为席”,在口语中,却是这样表述:“将大地当做席子”。

结语

本文主要针对介词的语义和介词结构进行详细分析,在实词的语体类型的前提下,介词同其之间搭配產生了不同情况,并将介词划分为书面语体词、口语体词和中性语体词,与此同时,我们发现无论是书面语还是口语中都频繁出现的介词结构。对介词结构进行深入探讨是一次与众不同的尝试,具有极大的学术意义,而且对汉语介词理论的发展起到了巨大的推动作用,开拓了汉语言学习者对于介词的全面认识。语

参考文献

[1]陈昌来.介词与介引功能[M].合肥:安徽教育出版社,2002.

[2]冯胜利.韵律句法学[M].上海:上海教育出版社,2000.

[3]吴春相.现代汉语介词结构的语体考察[J].当代修辞学,2013(04).

[4]王一平.介词短语“在+处所”前置、中置和后置的条件和限制[J].语文建设,1999(05).

[5]刘大为.介词“为”为什么容易被误用[J].语文建设,1997(10).

[6]傅雨贤.现代汉语介词研究[M].广州:中山大学出版社,1997.

[7]刘叔新.汉语描写词汇学[M].北京:商务印书馆,1990.

[8]高平平. 例谈介词短语中的成分残缺和多余[J].语文建设,2006(07).

[9]周国光,张国宪.汉语的配价语法理论研究[J].语文建设,1994(09).

结构语义学 篇4

句子作为交际单位, 表达相对完整的思想。因此, 对句子的研究历来受到语言学家的青睐。句子的结构模式和句子的语义结构反映了同一语言符号的两个方面, 即句子的形式与意义。从形态角度看, 句子形式方面的符号就是句子的结构模式;从语义角度看, 句子内容方面的符号就是句子的语义结构。

一、句子结构模式与语义结构

句子结构模式是一种抽象样板, 它由造句所必需的最小数量的成素组成。«80年语法»认为, “述语性基础 (предикативнаяоснова) 也叫结构模式 (структурнаясхемапредложения) , 指有形式结构与语言意义的句法模式。它是从无数具体句子抽象出的, 又是造非扩展 (最基本的) 句子的依据。 (信德麟, 张会森, 华劭2000:493) 句子结构模式是对句子形态组织描写的一种新形式, 是从形态角度对句子进行的抽象。如:Отецслушаетмузыку.可抽象为:名词第一格+行为动词+补语。句子的语义结构是从语义方面对句子信息内容类型的概括, 注意到了句子中词的词汇意义, 具有概括的类型意义, 上述句子可概括为主体的动作。

1. 不同的结构模式可表示相同的语义结构。如:

Тишина.其结构模式为N1 (静词句) ;Стоиттишина.其结构模式为N1—Vf (主谓句) 。它们的语义结构都表示存在着某种事物表现的状态。

类似的情况还有:Егоневидать.结构模式为Inf (不定式句) ;Егоневидно.其结构模式为Praed (副词句) 。

2. 同一个结构模式可能有几个不同的语义结构。如:

结构模式为Inf (不定式句) 可表示四种不同的语义结构。

(1) 表示希望出现某种状态的意义。如:Хорошетьнашемугороду![我们的城市定会日臻美好!]

(2) 表示主观上认为是合理的、及时的。如:Ещёразувидетьеё![顶好能再一次见到她!]

(3) 表示生理上的感觉, 理性上的领悟、认知。没有必然先决的意义, 而有性质评价鉴定的因素。如:Этомуконцаневидать.[这事没头儿。]

(4) 表示客观动作、状态的同时, 兼含主观态度与评价。如:СтранныелюдиэтиКрессе!Сказатьпримальчишкетакуювещь! (Булг.) [这些克列谢真是怪人!竟当着孩子说这样的事!]

二、句子结构模式的语义 (模式意义) 和句子的语义结构

语义结构是一种抽象出来的语言意义, 与模式意义相比, 较具体, 明确。如:

(1) Поездидёт.[火车在行驶。]

(2) Ребёноквеселится.[小孩高兴。]

(3) Собакикусаются.[狗咬人。]

上述三句中共同模式意义是“主体及其特征 (动作与过程状态) 之间的关系。由于各句子中词汇意义不同, 其语义结构分别表示“主体及其动作”, “主体及其状态”, “主体及其性能”。

三、语义结构决定结构模式

从理论上讲, 句子的语义结构应决定结构模式。因为它们之间的关系是内容与形式的关系, 即前者是第一性的, 后者是第二性的, 是从前者派生的。但在80年«语法»中没能解决好这一关系。如:

Явстретилего.按80年«语法»只能归纳到N1-Vf的结构模式中Явстретил。由此可看出, 语义结构似乎是由结构模式决定的, 这样, 在实践上必然无法生成信息完整的句子, 在理论上颠倒了句子语义结构与其结构模式的派生关系。

结语

在一般情况下, 结构模式和句子的语义结构二者是对等的, 即每个结构模式总是有其相应的语义结构。但有时二者又往往不对等。这也说明意义与形式都具有无限性和它们之间关系的复杂性。同一意义可以有多种的表现形式, 同一形式也可以表现或容纳不同的意义。

参考文献

[1]Русска яграмматика, АН СССР, М., 1980.

[2]信德麟, 张会森, 华劭, 苏联科学院1980年《俄语语法》简编[M], 北京, 外语教学与研究出版社, 2000:490-493.

[3]程雨民, 《语言系统及其运作》[M], 上海, 上海外语教育出版社, 1997:3-8.

[4]宁琦, 《现代俄语简单句的结构模式、语义结构及模型》[J], 《中国俄语教学》1998年第4期.

句模结构中的强制性语义角色 篇5

句模结构中的强制性语义角色

从语法研究的三个平面来看,语义角色是名词性成分在句模结构中担当的角色,它主要由动词规定.语义角色是一个层级分明的.体系,可以逐层分级分类.根据它是否必须在句法结构中出现,分为强制性语义角色和非强制性语义角色.其中强制性语义角色为十四个,非强制性语义成分为十一个,每种语义角色都有自己的句法、语义特点.

作 者:刘顺 Liu Shun 作者单位:南京审计学院对外汉语系副教授,南京,210029刊 名:南京社会科学 PKU CSSCI英文刊名:SOCIAL SCIENCES IN NANJING年,卷(期):“”(6)分类号:H043关键词:语义角色 强制性 非强制性 句模结构

结构语义学 篇6

关键词:“N+N”结构语义关系词义理解在全球经济高速发展的今天,网络在我们日常生活中所占比重越来越大,它对于人类的交际工具——语言的影响也越来越深刻。打开电脑,“神回复”“男神”“亲妈粉”等大量网络词汇充斥眼帘,这些陌生又熟悉的词语,是否会阻隔网民与非网民的沟通?本文将选取出现频率较高的“N+N”结构合成词,从语义关系的角度,对这类词的构词方式及能产性进行分析研究。

以往对词和短语的划分都是从语法层面上进行的,因为汉语没有形态变化,我们必须从词语的内部词义着手,将语法分析和语义分析结合起来,研究“N+N”结构合成词的结构关系和意义关系。黄伯荣、廖旭东《现代汉语》将合成词分为“复合式、附加式和重叠式”三类,这是根据语法中的构词规律,依据语素的位置和构成进行的分类。本文借鉴了这一分类方式,并且将研究单位从语素扩展到词,以两个名词之间的语义关系为重点,对“N+N”结构合成词进行语义分类。

一、复合式“N+N”结构合成词内部语义关系分析

复合式“N+N”结构合成词由两个不相同的,意义实在的名词构成。它们的语义关系比较复杂,我们可以先根据是否存在修饰和被修饰关系,将其分为联合型和偏正型。

(一)联合型

这种类型的两个名词语义独立,地位相等,不存在修饰方和被修饰方。它们意义相同、相近、相关或相反,两个词在语义组合上是并列的关系。例如:

1.牙齿 朋友 晨晓

2.躯体 乳液 粮食

3.师生 兄弟 祖孙

4.前后 左右 生死

5.碗筷 鞋袜 键鼠 人物 国家 窗户

第1类复合词中的两个名词意义相同;第2类复合词中的两个名词意义相近;第3类复合词中的两个名词组成了一种关系的两个方面,是关系词;第4类复合词中的两个名词意义相反;第5类复合词中的两个名词存在一种隐性的关系,例如“碗”“筷”都属于吃饭的用具,“国”是无数“家”的集合体。值得注意的是后面三个词,由于语言的长期演化或构词需要,词义偏向一方,另一个词的意义越来越弱,直至消失。如:在古汉语中,“人物”曾表示“人和物”;而在现代汉语里,“人物”一词仅仅指“人”。

(二)偏正型

这种类型的两个名词,一个词修饰、限制另一个词,多数情况下前一个词是修饰语,后一个词是被修饰的中心词。依据两者之间的语义组合关系,又可以分为以下几类:

1.后一个中心词是前一个名词的一部分,它们是整体和部分的关系。例如:

车轮 牛头 树苗 月光

利奇在《语义学》中,曾将这一类名词归为“部分名词”。这一类名词具有传递性,可以组成一系列由大到小的等级。例如“车轮→轮胎→胎面”。这种词语的组合规律提高了词汇的能产性。

2.前一个名词表示后一个中心词的原材料。它们是原材料和制成品的关系。例如:

蛋糕 玉米粉 橘子酱 布娃娃

3.一个名词表示另一个中心词的属性特征,中心词可以在前,也可以在后。例如:

老板娘 医生小王 基督教 佛教 共产主义

在“老板娘”一词中,“娘”仅仅表示老板的女性属性,“老板娘”既可以表示“女老板”,也可以表示“老板的夫人”。

4.前一个名词表示后一个中心词的内容和关涉方面。例如:

麦霸 山水画 爱情片 语文课 文艺范

其中,“文艺范”是近年来的网络流行词,表示“文学艺术方面的气质”。

5.前一个名词表示后一个中心词的对象。它们是作用对象和产生作用的工具或人的关系。例如:

盲道 酒杯 苍蝇拍 懒人桌 私人医生

6.前一个名词是后一个中心词的表现手段或工具。例如:

歌剧 话剧 毛笔字 铅笔画

7.前一个名词表示后一个中心词的范围。这里的“范围”区别于“处所”,主要针对较抽象的事物。例如:

英语 半价票 国际战争 内部矛盾

8.一个名词表示另一个中心词的程度。中心词可以在前,也可以在后。例如:

专家级 小学文化 职业水准 英语四级

9.前一个名词表示后一个中心词的时间。例如:

午饭 夜路 暮色 月薪

10.一个名词表示另一个名词的处所或方位。例如:

A.的哥 室友 公园雕塑 南京地铁

B.身后 广场前

A组表示处所的词在中心词前面,“的哥”的“的”表示“出租车”,是对出租车司机的亲切称呼;B组表示方位的名词放在中心词之后。其中第9类和第10类又可以交叉出现,由表示时间的词和表示方位的词共同组成“N+N”复合式名词。这时,前一个可以是时间名词,后一个可以是方位名词;也可以前一个是方位名词,后一个是时间名词。无论何种情况,它们组合成的复合词都表示时间。例如:

三天前 春节后 前年 后天

11.前一个名词是后一个中心词的原因。它们是原因和结果的关系。例如:

战争赔款 手术后遗症

12.前一个名词是后一个中心词的目的。例如:

装饰画 升学考试 光盘行动

13.一个词形式上是名词,而功能上已经是形容词,作另一个名词的定语,表示“像……一样的”。中心词可以在前也可以在后。例如:

雪花 蝴蝶结 玻璃心 亲妈粉 泡沫经济

“雪花”是像花一样的雪;“蝴蝶结”是像蝴蝶一样的绳结;“玻璃心”就是像玻璃一样的心,比喻内心脆弱;“亲妈粉”是像亲生母亲一样的粉丝,形容粉丝对偶像的无微不至。诸如此类的用法近年来在网络用语中大量出现。初看这些词,前一个名词和后一个名词似乎不能搭配,如果不是熟悉网络语言的人,很可能连这些词中的“回复”“粉”是什么意思都不明白。

二、附加式“N+N”结构合成词内部语义关系分析

附加式“N+N”结构合成词由两个不同的名词构成,与复合式不同的是,其中一个词意义实在,而另一个词意义虚化。由于词义是发展变化的,根据其意义虚化程度不同,可以稍作区分。例如:

1.枪手 杀手 打手 好手

2.石头 木头

3.嘴巴 尾巴

第1组词的“枪手”可以理解为“手中握枪的人”,词的主体已经不是“手”,而是“人”。“手”在词中的意义已经逐渐虚化,学术界将这一类词看作有词缀化倾向。如果说第1类词的“手”和词义仍有相关,那么第2组词的“头”和第3组词的“巴”的词义则已经完全虚化,只相当于一个音节。

三、重叠式“N+N”结构合成词内部语义关系分析

重叠式“N+N”结构合成词由相同的两个名词组成,由于名词不能用重叠式表示共同的语法意义,因此,这种重叠也被看成是构词的语素重叠,而不是构形的形态变化。虽然重叠的两个名词在理性意义上与一个名词并没有差别,但它们在情感意义上还是略有区别的,因此本文将其归为“合成词”。例如:

1.哥哥 妈妈 叔叔

2.果果 手手 本本

第1组是表示称谓的词,相比单纯的一个词,在情感表达上更亲热;第2组词往往产生于儿童初学语言的时期,也有成人故意使用这种语气模仿儿童,表现出可爱的感觉。如“本本”一词指笔记本电脑,使用者多为年轻女性,这样使用既缩短了词语的长度,使人际交往更加经济便捷,又使语言更加生动活泼。

四、结语

利奇在《语义学》中将广义的“意义”分为七类,分别是理性意义、内涵意义、社会意义、情感意义、反映意义、搭配意义和主题意义。其中,理性意义是一个词的根基,是最基本的意义。在理解词义时,首先要弄清理性意义;其次,新时期词汇的复杂性大大加强,究其原因,和社会发展进程加快,人类思维模式越来越多样化密不可分,因此,在辨析词义时,我们需要从多角度、多层次进行思考。

名词的作用在于指称,通过以上研究,我们发现“N+N”合成词具有可以用于指称的名词性,因此属于名词性结构。名词的形容词化在古代汉语中是一种语法手段,而在现代汉语中主要是一种修辞现象,在网络语言中得到很大发展,这一现象值得我们进一步研究。因为词语具有多义性,在解释词语时可能根据理解的不同,将词与词的关系划分为不同的种类。由于学识有限,本文对于“N+N”结构语义关系只选取较易理解的类别作出区分,其科学性和完备性还需进一步完善。

参考文献:

[1]黄伯荣,廖序东.现代汉语[M].北京:高等教育出版社,2007.

[2]周春林.词语语义语法偏离搭配研究[M].昆明:云南人民出版

社,2007.

[3]周日安.名名组合的句法语义研究[M].北京:中国社会科学出版

社,2010.

[4]张小平.当代汉语词汇发展变化研究[M].济南:齐鲁书社,

2008.

(张颖江苏南京 南京大学文学院210046)

英汉语篇逻辑语义结构及应用 篇7

一、英汉语篇逻辑语义结构异同

逻辑联系语指的是表示各种逻辑意义的连句手段。因此要进行英汉语篇逻辑语义对比就必须从逻辑联系语着手。逻辑联系语可以表示两个或更多的句子之间的某种逻辑联系, 并指出句子是在什么意义上相互联系起来的, 也可用来表明语篇中的各个组成部分之间语义上的联系。但并非没有连接性词语就没有连接关系。逻辑联系语只是语篇逻辑语义联系的外在形式。在有的情况下, 或是信息本身的逻辑关系非常清楚, 或是情景语境提供必要的启示, 即使没有连接性词语, 语篇仍是连贯的。语篇的连贯性并不单纯依赖表面语言形式之间的联系而存在, 而是取决于各句所表述的概念或命题之间以及这些概念和命题与整个语篇的主题之间在语义逻辑上的联系。换句话说, 语篇语义的逻辑联系更多地依赖语境。英汉语篇结构中汉语更注重意合即注重行文意义上的连贯, 而英语注重形合即注重语言形式上的接应, 这使得英汉两种语言在语言组织方面存在差异。

例如: (1) 上邪!我欲与君相知, 长命无绝衰。山无陵, 江水为竭;冬雷震震, 夏雨雪;天地合, 乃敢与君绝。

(2) If that’s your last stop at the end of an exhausting day of sight seeing, stay in the old city, because there are plenty of bars in which to enjoy an early evening drink. (对于观光了一天筋疲力尽的游人来说, 最后一站是老城, 那里有许多酒吧, 日暮时游人可以在那儿开怀畅饮。)

例 (1) 中没有太多的显性的逻辑联系语, 可是文中通过语境这个媒介, 让读者更含蓄、更深层次地体会到主人公对爱情的坚贞之心, 颇有一些“蝉噪林愈静, 鸟鸣山更幽”的意味。倘若诗中加上“除非”、“否则”等这些词, 也许, 这首诗就不会这样千古流唱了。例 (2) 中英文由“老城”过渡到“酒吧”, 主要靠“because”这一因果概念的逻辑联系语衔接。中文却可完全不必明示这种关系, 只需“那里”这一指称同时标示地点关系便够了。

(3) 子夏曰:“贤贤易色:事父母, 能竭其力;事君, 能致其身;与朋友交言而有信。……” (《论语·学而篇第一》)

Zixia said, “If a man who draws his mind from the love of beauty, and applies it as sincerely to the love of the virtuous;if, in serving his parents, he can exert his utmost strength;if, in serving his prince, he can devote his life;if, in his intercourse with his friend, his words are sincere...” (《四书》 (汉英对照) , p66-67)

以上子夏说的话, 表述的正是这样—个“如果……就……”的道理, 但却没有一个这样的联接语, 而主要靠语用文化背景及语法同构来实现语篇的连贯。译成英文, 那几个if却是不可或缺的。

以此可以看出, 英汉语篇结构中, 英语偏向于更多地使用形式词语来体现语义关系, 而汉语则相对地偏向于依赖语义的逻辑联系。关于产生这种差异的原因是由于中西两种思维方式的不同在语言中的折射, 比如英语的民族文化特质表现为理性思维逻辑以及形式组成的严谨, 表现在语言中也是同样, 而汉语重整体性思维, 表现为综合性思维方式, 强调整体平衡、整体程式, 表现在语言上则要求叙述全面、周到, 务求突出整体性综合框架, 等等。

二、逻辑语义在英汉互译方面的应用价值

1. 逻辑分析下的多义词翻译

英语同汉语一样, 拥有大量的多义词。在一定的上下文中, 多义词词义的确定和理解, 主要是一种逻辑分析活动。理解词义往往要运用概念、判断和推理等思维形式和方法。例如:

(4) It is recognition of compassion’s part that leads the up holders of cap ital punishment to accuse the abolitionists of sentimentality in being more sorry for the murderer than for his victim. (Advanced English)

原译:认可了怜悯者的看法, 就会使死刑鼓吹者去指责主张废除死刑者是感情用事, 是同情凶杀犯甚于同情受害者。

如果进行逻辑分析, 就会发现, 这句的译文在内容上有些自相矛盾:如果死刑鼓吹者真的认可了怜悯者的看法, 他们就不会去指责主张废除死刑的人了。原来recognition在这里不是“认可”、“承认”的意思, 而作“认出”、“识破” (identification, discovery) 解。故上句应译为:“正是由于识破了怜悯的作用, 才使得主张死刑的人去指责提倡废除死刑的人是感情用事, 说他们同情凶杀犯甚于同情被害者。”可见, 翻译要准确无误, 就必须对上下文进行逻辑分析, 从而确定词语的具体意思, 不能只进行字面翻译, 更不能望文生义。

2. 逻辑分析下的语法结构

语法结构可以加深我们对原文的理解, 可是有时侯单靠语法结构是不行的, 必须借助逻辑分析才能更好地解决问题。例如:

(5) 不光是大伙眼皮底下的事儿你赖不掉, 就连你打算破坏训练班, 偷偷饮病了枣红马, 那也成不了无头案。

You can’t wriggle out of this.These are things everyone has seen.And if you think we’re still in the dark about your making the sorrel ill and your trying to break up the training class, well, you’re mistaken.

原文的主干结构是“不光是……就连……那也……”, 这样的逻辑联结语构成的是一种递进-让步关系。译者在逻辑分析下对原文作了更灵活的处理。即将整个意思分为两层, 第一层有两个独立的句子。它们主要靠“this”的下指作用和“can’t wriggle out”与“has seen”的语用联系连接。其中隐含的是因果关系。第二层首先用“And”与前—层作并举的逻辑连接, 其次主要用“if”和“well”表现条件性的因果推论。因此, 几乎完全改变了原文的那种递进—让步关系, 但是结果翻译的英语是更加地道、更符合英语的语言习惯和文化审美。

总之, 由于文化和思维习惯的差异, 英汉语篇逻辑语义结构方面存在很大的不同, 如何避免由于欠缺逻辑分析而造成的辞不达意或者盲目照搬汉语的表达结构而造成的中式英语现象, 是今后逻辑语义进一步研究和完善的动力。

摘要:语篇逻辑语义结构分析着重研究的是语篇中表达的各种概念及命题之间在语义逻辑上的联系。本文旨在分析并描述英汉相似语篇结构的逻辑语义关系的异同点, 并探讨了英汉语篇逻辑语义结构对外语教学与翻译活动的应用价值。

关键词:英汉,语篇逻辑语义结构,异同,英汉互译

参考文献

[1]姚勇芳.论英汉语词汇和语篇的结构差异及其在诗歌翻译中的表现[J].中南工业大学学报 (社会科学版) .

[2]唐品芳.逻辑语义结构视阈下的英汉语篇对比研究.内蒙古农业大学学报, 2008, (6) .

结构语义学 篇8

信息集成是目前屏蔽数据之间半结构性、异构性和分布性的主要方法,其目的是最大限度地为用户提供统一门户,使其获取最大范围的精确数据[1]。异构性(即冲突):是指信息集成中多个数据源中存在不相似的内容。本文针对不相似内容将其划分为如下三个层次[2]。

(1)平台异构性:各个异构数据库系统驻留在不同的硬件平台之上,使用不同的操作系统,用不同的通讯协议进行通讯。

(2)数据库系统异构性:可以是同为关系型数据库系统的Oracle,SQL server等,也可以是不同数据模型的数据库,如关系、层次、网络、面向对象、函数型数据库共同组成一个异构数据库系统。

(3)语义异构性:不同的成员数据库系统中相同或相关数据在含义、解释和用途方面不同。由于不同的局部数据库是独立设计和开发的,在参加集成的局部数据库之间可能会产生各种语义冲突,包括模式冲突和数据冲突。

每一个信息系统都有适合自身环境与工作效率的领域模型,因而系统间存在各种异构性。如何克服系统间的异构性,特别是语义异构,是信息集成主要要解决的问题[3]。在信息集成过程中必须提供一种通用模型来解决语义异构问题,这个模型必须具备可移植性,与平台无关,能够有效解决信息之间的语义不同[4]。本体是一种可以明确且形式化地规范说明各项内容、能够有效表达特定领域内的通用知识的通用语义模型[5]。现采用本体来描述全局数据概念,树型结构描述局部数据概念,利用相似度计算匹配值来实现结构化数据在语义集成中的匹配。

1本体简介

本体的概念来源于哲学和人工智能,哲学中的本体是指对存在的系统化说明,而人工智能中的本体更强调概念的可表示与可呈现。在计算机界, Gruber、Studer、Borst等人认为本体是概念模型中可明确形式化规范说明各项内容以便共享。该定义涵盖了四层含义[6]:概念模型(Conceptualization)、明确(Explicit)、形式化(Formal)和共享(Share)。本体的目标是获取特定领域的数据信息,提供对该领域的共同理解,确定该领域内共同使用的数据,从不同层面形式化给出这些数据(术语)和数据间相互关系的确切定义,通过数据之间的关系来描述概念的语义。

同样,本体作为知识表示工具, 与语义网络非常相似,也正成为知识处理的技术平台,被称为下一代的语义Web。就语义Web本身而言,它是目前Web应用的扩展,它能够描述一定的语义,使计算机及人类能更好地协调合作。本体是语义Web中知识推理的基础,是要实现机器间的可理解。同时,基于本体的OWL使得Web服务(Web Services)具备机器可理解性和易用性,从而让人性化的智能主体支持自动的、动态的Web服务发现、执行、组合和互操作。

2数据异构分析及表示方法

2.1结构化数据存在的异构分析

同一领域信息资源系统之间存在着语义上的异构。这些语义上的异构能引起各种矛盾。经过多组数据的分析,确定造成异构的原因主要有如下几个因素[7]:

(1)不同的信息资源使用不同的术语或者词汇表示同一概念;

(2)同一词汇或者术语在不同的信息资源中表示不同的含义;

(3)各信息资源使用不同的数据结构来表示相同或者相似的数据组成[7];

各信息资源中概念之间存在着千丝万缕的联系,但因为各信息源分布在不同区域,不同平台,这种隐含的联系不能具体表现出来。针对多组数据源的分析,所面临的语义冲突主要有:

(1)值——值冲突:相同的数据表示的值不同。如同一数字分别用km和cm做单位,它就表示不同的长度;

(2)属性——属性冲突:不同数据源对相同实体的属性采用不同的组织结构,例如出生年月在一个数据库中是“年+月+日”,而在另外一个数据库中则采用年月日分开定义的方式;

(3)表——表冲突:相同的概念在不同的数据库有不同的表现模型;

(4)值——属性冲突:在不同数据源或者相同数据源中,某一表中被表示为属性名,而在另外一张表中被表示为属性值;

(5)值——表冲突:在不同数据源或者相同数据源中,某一数据库中表示为表中某属性的值,而另外一个表示为表名;

(6)属性——表冲突:在不同数据源或者相同数据源中,某一数据库中的属性名称被表示成另一数据库的表名。

2.2结构化数据表示方法

在结构化数据表示中,首先是建立领域本体,即某一特定领域中的元数据给出其全局性质的概念和定义。例如由OCLC首倡的都伯林核心(Dublin Core)元数据[8],包括提名Title、创建者Creator、日期Date、主题Subject、出版者Publisher、权限Rights、关联Relation、覆盖范围Coverage等十五个元素的元数据集合,用于描述资源对象的语义信息,目前已成为IETF RFC2413、ISO15836、CEN/CWA13874、Z39.85、澳大利亚、丹麦、芬兰、英国等国家、国际标准。

其次,建立局部数据结构的表示。通过对局部数据源的分析,采用树型结构表示结构化数据的层次关系;利用关联矩阵存储,能有效提高系统的访问效率。并给出树中每个节点存储表示。例如在某一个Sql Server数据源中,以数据源为顶点,采用自上而下的层次关系建立树结构。具体如图1所示。

在语义异构中,主要是解决取值范围、属性类型、属性和表的冲突。针对树型结构,采用邻接矩阵表示节点和节点之间存在的联系,利用节点的长度表示节点所处的层次,进而利用与领域本体的元数据匹配,解决数据间的冲突和异构。

3本文语义信息集成方法

3.1语义数据集成总体框架介绍

语义数据集成是将各局部数据源中的数据分析、整理组合后将最终的数据即结果返回给用户,使得用户不需要关心所有局部数据源的信息。语义信息集成在获得数据访问的结果时,根据领域本体处理文件中存在的异构定义如同名异义、异名同义等术语,处理掉这些异构,同时对于返回的数据进行冗余处理和排序,并将处理后的结果封装到虚拟体中,对外提供统一的API。如在M数据源中利用“男/女”表示性别,而在N数据源中,利用“0/1”表示性别,此时就要处理掉这些数据之间的不同,提供给完整精确的数据结果。

图2给出了语义数据集成的框架。其中任务生成是用户的门户,用户通过该部分提交自己需要完成的任务。任务处理包括任务分解、访问控制和数据访问三部分,是根据领域本体与映射服务将用户提交的任务转换为各个局部数据源相关的形式,并按照匹配标准,数据访问权限等进行数据的强制处理和转换。局部服务是采用图1的树型结构描述数据源的相关信息,将局部数据源利用Web服务技术,封装该数据源的访问接口。

3.2匹配映射方法

3.2.1 数据源形式化描述

为了能给出领域本体和局部数据源一个通用的形式化描述,首先要对本体进行形式化,在本文中,本体的形式化定义采用四元表示方法,具体见定义1。

定义1 本体的形式化表示

本体O=(C,S,R,δ)。其中O表示本体;C表示本体中的概念集合;S表示本体的组织结构,如用is-a表示具有传递性和非对称性的层次结构;R表示概念间的相互关系,RC*C;δ表示关系和概念间的匹配函数的集合δ:RC

语义数据集成中领域本体的形式化描述采用类似本体的表示方法。

假设某一个特定领域G由n个具体的局部数据源所构成,则需建立局部数据源和领域本体之间的映射关系,并描述局部数据源的形式化表示,见定义2。

定义2 数据源的形式化表示

G=(D1,D2,…,Dn)。

其中Di表示某一特定局部数据源的集合。根据图1给出Di的形式化表示:Di=(U,T,V,F)

其中U表示用户集合,T表示局部数据源表集合,V表示局部数据源视图集合,F表示局部数据源关系集合。详细定义为

T=(T1,T2,…,Tn),其中Ti=(p1,p2,…,pn);

V=(V1,V2,…,Vn),其中Vi=(T1,T2,…,Tn),TiT,

F=(F1,F2,…,Fn),Fi=(Tn,Tm),其中Tn,TmT pnTN,pmTm,pn,pm分表表示Tn,Tm表中的属性。

领域G中的概念一部分来源于领域专家的抽取,一部分来源于局部数据源T集合中,例如某具体数据源中具有代表性数据经专家判定和计算后可归纳到领域本体G的概念集合C中。

另外,在语义数据集成中,数据与数据之间的关系表示了数据所处的层次和数据要匹配的模型,所以关系的形式化表示非常重要,下面给出领域本体中组织结构R的部分关系标示内容:

1) Combined—表示概念和概念之间是组合关系;

2) SameAs—表示类和类相等,例如不同的表名称定义了同一组数据;

3) Equal—表示不同表之间的属性和属性相等;

4) IsPartof—表示部分与整体之间的关系;

5) Attriof—表示某个对象是另一个对象的属性;

6) Connect—表示两个对象之间通过同一变量具有关联的关系;

7) beFormed—表示多个同一对象可以组合成另一对象的关系。

8) Subclass—表示父类和子类之间的关系。

3.2.2 概念匹配方法及算法描述

在匹配过程中,根据概念的组织结构,采用语义匹配的方法计算概念之间的相似度以及概念的属性、取值比较完成概念之间的匹配。例如在数据源存储的相邻矩阵中,根据领域本体和局部数据源所存储概念在组织结构中的权值,如果权值不同表示所处的层次不同,则不进行匹配;如果权值相同,则根据其子类的属性、取值范围计算概念相似度(即采用了相似对象其拥有的属性和取值范围也基本相似的原理)。

概念匹配算法流程图和算法由图3和图4给出。

算法说明如下。

1)概念的权值表示概念在属性结构中所处的层次,即相邻矩阵中对应的数值。

2)概念的属性,如果此概念已经是叶子结点,则直接计算其相似度;如果概念有叶子结点,则逐一访问存储其叶子结点,利用其所表示的语义以及对应值的存储情况确定其相似性。在本体文件中,采用了SameAs表示概念相等;采用Attriof表示某个对象是另一个对象的属性;采用Subclass表示父类和子类之间的关系。例如在概念匹配中,如果匹配成功,则将其存储到本体文件中,并利用SameAs表示。

3)计算属性相似度的平均值。对于每个都找到相似概念的属性值,计算所有属性值的平均值。如果属性匹配成功,则利用Equal表示属性相等,并将其存储到对应的本体文件中。如果存在属性的组合情况,则利用beFormed表示。

4实例验证

在此实例验证过程中,采用了客户关系管理系统(CRM)中的知识管理部分作为实验数据(限于篇幅,本文仅给出部分数据)。利用KM_CRM作为全局本体的概念源,以此分别引出的全局概念和属性见全局树,利用KMx_CRM、KMy_CRM作为局部本体的概念源,以此引出的局部概念和属性见局部树。

通过算法的运行基本找到了相似数据,并能对用户通过唯一接口搜索的数据提供多系统的服务,保证了数据访问的完整性。图8是算法运行结束后建立的映射文档。

另外,对此算法进行空间复杂度和时间复杂度分析,其算法的复杂性和效率要优于目前被广泛使用的弹性匹配算法。

5结束语

针对现有异构数据库集成中存在的问题,如结构异构,语义异构等,给出了消除这些异构的统一描述方式和数据定义及其算法描述,解决了数据库表、属性中存在的同名意义和异名同义的问题。但是,由于本文的大部分内容是基于文档文件的查询,查询速度较低,这将是今后要进一步进行的研究工作。

摘要:语义信息集成是目前屏蔽数据之间半结构性、异构性和分布性的主要方法,其目的是为用户提供最大范围的精确数据。以解决信息集成中的语义冲突为目的,采用本体描述全局数据概念、树型结构描述局部数据概念,在此基础上,给出数据的逻辑定义方法,利用相似度计算匹配值来实现数据在语义集成中的匹配,并描述了语义信息集成中的映射算法。最后,给出了实验数据和算法执行结果,验证了此方法的正确性。

关键词:结构化数据,语义集成,数据描述,映射算法

参考文献

[1] Castro J L, Delgado M, Medina J. Intelligent surveillance system with integration of heterogeneous information for intrusion detection. Expert Systems with Applications, 2011;38(9): 11182—11192

[2] Luo Zhonghua, Wu Jitao. The Integration of directional information and local region information for accurate image segmentation. Pattern Recognition Letters, 2011;32(15): 1990—1997

[3] Gamez D, Aleksander I. Accuracy and performance of the state-based Φ and liveliness measures of information integration. Consciousness and Cognition, 2011;20(4): 1403—1424

[4] Zhou Lina,Mohammed A S,Zhang Dongsong.Mobile persona infor-mationl management agent:supporting natural language interface andapplication integration.Information Processing&Management,2012;48(1):23—31

[5] Shi Lei, Setchi R. User-oriented ontology-based clustering of stored memories. Expert Systems with Applications, 2012;39(10): 9730—9742

[6] Martínez-Cruz C, der Heide A,Sánchez D. An approximation to the computational theory of perceptions using ontologies. Expert Systems with Applications, 2012;39(10): 9494—9503

[7] Peeraer J, Van Petegem P. Measuring integration of informationl and communication technology in education: an item response modeling approach. Computers & Education,2012;58(4): 1247—1259

结构语义学 篇9

一、传统违实结构“用生命在VP”

“用生命在VP”这个结构在现代汉语中早已存在,是一种常见表达。在现代汉语中,介词“用”后接宾语一般是用来表示实行某个动作行为所凭借的工具或采用的方式,如“用筷子吃”、“用信函访问”等,“在”则用来说明动作行为正在进行。但在人们的常规认知中,生命本身并不是一个工具,况且,一般情况下我们也无需以生命的损耗或牺牲作为某一动作行为的方式。因此“用生命在VP”并不是指将生命作为VP的工具或以牺牲生命作为VP的方式,而是暗示事件主体在实施某个行为时对生命或时间的客观损耗,或在实施某个行为时迸发出生命的活力和热情、传达着对生命的理解和诠释,“生命”在这里只是VP的一个重要参与要素。我们将该结构称为违实结构。

传统违实结构“用生命在VP”至今仍保持着一定的使用频率,一般具有以下两种用法:

(一)表现行为主体在某件事情上做出了巨大牺牲。如:

(1)因为我们的一生很短暂,可能也就几十年的时间,某种意义上我们是用生命在换钱。(但斌《时间的玫瑰》)

(2)1953年十几万人口的小城有1万多人用花岗岩、用血汗、用生命在筑着一条连接大陆与海岛长达两千多米的海堤——厦门海堤。(厦门日报,1991年10月2日)

例(1)“用生命在换钱”表现了说话人赚钱的辛苦,例(2)“用生命在筑着”表现了厦门人民在筑造厦门海堤过程中的艰辛。

(二)表现行为主体在某件事情上达到了较高境界。如:

(3)他不是用技巧,而是用整个心在歌唱,用生命在歌唱。(马治权《苦难与自由的呐喊——再说陕北民歌》

(4)她是用生命在演绎音乐大师的作品,是用心血在浇灌这个年轻的交响乐团。(厦门晚报,2000年11月13日)

例(3)“用生命在歌唱”表现了农民歌手贺玉堂在歌唱艺术上达到了较高境界;例(4)“用生命在演绎”表现了音乐家郑小瑛在指挥交响乐演奏时达到了较高境界。

以上四个例子中,“用生命在VP”是说话人或作者为了表达某种强烈感情而使用了夸张的修辞手法,是一种极富艺术表现力和感染力的表达方式。这种用法一般出现在比较正式的新闻报道、文学作品和演讲场合中,以满足话人的情感表达和艺术表现需要。

二、新型违实结构“用生命在VP”

新型“用生命在VP”是在其原有的第一种用法的基础上发展起来的。只不过与传统违

实结构“用生命在VP”的艺术化抒情不同,新型“用生命在VP”表达的是说话人在吃惊之余的多种复杂感情。主要具有以下两种用法:

(一)描述行为主体在实施某个行为时的危险性,感情倾向依VP性质而定。这种用法又可分成两种情况:

一是行为主体的行为具有较大的危险性,但并没有以牺牲生命为代价。如:

(5)1200米悬空擦玻璃天桥,美国清洁工用生命在打扫(每经网,2016年5月12日)

(6)用生命在拍照!男子用下巴顶住巨鳄大嘴(新民网,2016年5月16日)

以上两个“用生命在VP”的使用是说话者为了描述行为主体在实施某个行为时的危险性。例(5)“用生命在打扫”描述了美国科罗拉多大峡谷景区清洁工进行高空清洁作业的危险性,例(6)“用生命在拍照”描述了美国某男子用自己的下巴顶住鳄鱼张开的大嘴来对其喉咙进行拍摄的危险性,由于两个句子中的VP“悬空打扫”和“顶着鳄鱼嘴拍照”都具有较大的危险性,因此其语义违实度都较低。

二是行为主体的行为具有较大的危险性,且以牺牲生命为代价。如:

(7)自拍激怒象被踩死网友:这是用生命在自拍(东北法制网,2016年5月13日)

例(7)“用生命在自拍”描述了印度尼西亚一女子靠近大象实施自拍行为的危险性。虽然“自拍”这种行为本身并不需要以损耗或牺牲生命作为该行为的方式,但行为主体确实在实施自拍行为时牺牲了生命,危险性最大,因此语义违实度最低。

至于句子的感情倾向,我们可以从VP的性质来判断。例(5)中行为主体(清洁工)的行为(打扫)是为民服务性质,因此“用生命在打扫”一定程度上流露出说话人在吃惊之余对这些清洁工的颂赞之情;例(6)中说话人只是对行为主体(男子)的行为(拍照)的危险性进行主观预估,并没有说明其拍照目的,仅仅是感到吃惊,无明显感情倾向;而例(7)中行为主体(自拍者)的行为(自拍)目的是为寻求个人满足,并且自拍本身是一种简单的娱乐休闲活动,一般情况下不会具有如此大的危险性,因此“用生命在自拍”流露出网友吃惊之余对自拍女子缺乏基本安全意识的自拍行为的调侃或讽刺。

(二)调侃行为主体在实施某个行为时动作力度或行为方式的夸张性,感情倾向基本一致。这种用法也可分为两种情况:

一是VP为具体行为动词,说话人调侃行为主体在实施某个行为时动作力度的夸张性。如:

(8)简直是用生命在吃饭!围观世界九大吃货大赛(图)(环球网,2014年11月25日)

(9)一位用生命在做广播操的水晶男孩,扩胸绷出去那一下感觉世界都是他的了(新浪微博,2016年5月16日)

例(8),“用生命在吃饭”是调侃吃货选手们比赛吃饭时动作力度的夸张性;例(9)“用生命在做广播操”是调侃某中学生做广播操时动作力度的夸张性。

二是VP为抽象行为动词,说话人调侃事件主体在实施某个行为时行为方式的夸张性。如:

(10)说到特立独行这些国外明星真是用生命在“作”(腾讯娱乐,2016年4月29日)

(11)第二季《全员加速中》大张伟宋小宝用生命在搞笑(中国网山东娱乐,2016年4月27日)

例(10)“用生命在‘作’”是调侃某些国外明星在“作”的方式上的夸张性,例(11)“用生命在搞笑”是调侃大张伟和宋小宝在搞笑方式上的夸张性。

目前,新型“用生命在VP”以第二种用法居多,即“用生命在VP”现在主要用来调侃行为主体在实施某个行为时动作力度或行为方式的夸张性。可见,VP的一般化和多样化,是违实结构“用生命在VP”发生语义嬗变的主要动因。

三、新型违实结构“用生命在VP”的流行探因

新型违实结构“用生命在VP”在网络交际和年轻人主导的口语交际中风头正劲,受全民热捧。那到底是什么原因致其如此盛行呢?我们认为,主要有以下几个因素:

(一)脱胎于传统违实结构“用生命在VP”,具有一定的社会认知基础。违实结构“用

生命在VP”在现代汉语中由来已久,是在比较正式的文学写作、新闻报道和演讲场合中说话人或作者欲表现行为主体在某件事情上做出了巨大牺牲或达到了较高境界、抒发某种感情、增强语言感染力而采用的一种艺术化表达。新型违实结构“用生命在VP”是在传统违实结构的基础上的创造性发展,跟传统违实结构“用生命在VP”具有形式上的继承关系,相对那些在形式上全新的、陌生的流行语,新型违实结构“用生命在VP”具有一定的社会认知基础和较高的社会接受度。

(二)新型违实结构“用生命在VP”是对事实的刻意夸大甚至主观偏离,具有强烈的心理冲击性和生动幽默的表达效果。相较于传统违实结构“用生命在VP”具有的艺术色彩,新型违实结构“用生命在VP”更多时候是说话人刻意夸大甚至主观偏离事实来表现自己的吃惊心理和其他各种复杂感情,将夸张手法运用到极致。这种表达方式在以网络为载体的言语交际和新闻报道中,常因其强烈的冲击性和生动幽默的表达效果而得到较大关注。

(三)语言模因的强势推动。新型违实结构“用生命在VP”的流行,很大程度上是受语言模因的推动。“用生命在VP”作为一个结构模因,能通过吸引别人模仿而不断复制。在这个结构式中,行为动词“VP”是可变的,能给予语言使用者较大的发挥空间。随着人们对该结构的表达效果的接受和认可,越来越多的人尤其是年轻群体根据自身表达需要将各种VP巧妙嵌入,以调侃事件主体在实施某个行为时动作力度或行为方式的夸张性。人们通过模仿,在合适的语境下可以类推出更多“用生命在VP”形式,如“用生命在洗澡”、“用生命在模仿”、“用生命在运动”等等。语言模因的强势推动,使得新型违实结构“用生命在VP”在语义表达上越来越丰富,使用上越来越灵活,从而得到大力传播。

结构语义学 篇10

介词短语“在+处所”结构是现代汉语中使用频率颇高且研究较多、争议较大的结构, 也是语法学界普遍关注的问题之一。自1978年朱德熙先生发表了《“在黑板上写字”及其相关句式》一文起, 这一问题便受到语法学界广泛关注, 成为较为敏感的课题, 对它的研究一直持续到现在, 并不断和新理论结合, 取得了较多的研究成果。笔者对这一结构的不同分布类型及其语义进行较为全面的探析, 以期对相关的语言现象作出有概括力的解释。笔者认为在这个问题展开之前有两点需要明确:

首先, 关于“在”的词性问题。语法学界一般认为“在”属于不同的词, 包括动词、介词、副词。但是在动词、介词的区分问题上还没有取得一致的意见。对于“他在家”和“他在家休息”这两个结构中的“在”, 有三种观点: (1) “在”是动词, 后例是连动式 (赵元任1968) 。 (2) “在”都是介词, 前例是介词短语作谓语。 (3) 前一例的“在”是动词;后例的“在”是介词, 构成介词短语作状语。目前语法著作一般采用第三种解释。笔者采用第三种观点, 因此在本文中不讨论动词“在”, 而把讨论范围限定在介词“在”所构成的“在+处所”结构中。

其次, 关于介词“在”引导的介词短语的分类问题。一般认为介词“在”和介词“到”一样, 可以引介时间类宾语构成介词短语, 如: (1) 这首诗写在诗人遭受政治迫害的前一年。 (2) 她将在春暖花开的时候回来。同时介词“在”又可以引介处所类宾语构成介词短语, 如: (1) 他在北京读大学。 (2) 那幅画挂在书房里。这是我们所熟悉的“在+处所”结构, 也是本文要研究的对象, 前一种情况不在本文的研究范围之内。

二、“在+处所”结构的分布类型及其语义的辨析

“在+处所”结构在现代汉语中可以出现的位置有三个:主语前做句首状语;主语谓语之间做句中状语;谓语后做补语。范继淹在《论介词短语“在+处所”》一文中, 从空间位置系统出发, 提出了三种句式类型: (1) A式:PP+NP+VP; (2) B式:NP+PP+VP; (3) C式:NP+VP+PP, 并进行了解释, 对以后的研究有着深远的启发和指导意义。但是这并非意味着介词短语在句中的位置可以随意转换, 事实上, 介词短语的三个位置都各有其特定的位置意义。本文把介词短语“在+处所”结构的不同分布进行比较来说明这一问题。

(一) 句首状语和句中状语在语义上的不同

介词短语在句首和在句中做状语时语义的不同主要是说话人的心理视点的不同。所谓心理视点, 是指说话人对语言信息的认知和表达方式。语言具有临摹性, 话语的线性序列是临摹客观事件发生的自然顺序的。一般来说, 施事是事件的起点, 因此, “施事—处所/工具/根由/关涉—动作—对象”这样的语序是同客观事件发生的时序相吻合的, 是最自然的陈述语序。如:

(1) 孩子们总是在大槐树下拣槐花。

(2) 他在商场里逛。

例 (1) 、 (2) 中介词短语是施事进行动作行为的处所, “孩子们”先到了“大槐树下”再“拣槐花”, “他”先到了“商场”再开始“逛”。这个语序符合人们对这件事情的认知过程, 是最自然的语序。不仅“处所”如此, 当介词短语是施事进行动作行为的“工具”或是“根由”时, 在人们对事物的正常认知过程中它们都应当处于施事之后。相关的调查统计结果也证明了这一点, 绝大部分的介词最常出现的位置就是在施事之后、动词之前。

若说话人选定了“处所—施事—动作—对象”这种语序, 则说明说话人对介词短语所要强调的侧重点发生了改变, 在说话人的心理时间中, “处所”是事件的起点, 是事件的先决条件。如:

(3) 在西峡镇上, 我们献旗致敬, 四乡八镇都来了民兵。

(4) 在阅览室里, 他们俩整整看了一天的书。

(5) 他们俩在阅览室里整整看了一天的书。

例 (3) 、 (4) 中, 说话人在描绘一幅场景, 或者说一个画面。对于这幅场景来说, 说话人首先要做的就是对该场景进行定位:“在西峡镇上”, “在阅览室里”, 然后再慢慢地描绘图画中每个人的一举一动。不同于“施事—处所—动作—对象”语序按照客观事件发生的时间顺序进行临摹, “处所—施事—动作—对象”语序是说话人按照自己对某一客观事件的认知和心理选择进行临摹的, 是说话人按照自己的心理视点安排语言序列的。我们将例 (4) 与例 (5) 比较后可以发现, 当“在+处所”结构作句首状语时, 说话人更倾向于描述一个静态的场景。当“在+处所”结构作句中状语时, 说话人则更倾向于表达一个动态连续的过程, 并指出动作发生的处所。

(二) 处所状语与处所补语在语义上的不同

“在+处所”结构在状语位置上和用在补语位置上所表达的语义有较大不同。“在+处所”结构在状语位置上时表示动作行为发生的处所, 即动作的处所, 如:

(6) 他们昨天在此处过夜。

(7) 他在北京饭店吃西餐。

而用在补语位置上则表示动作行为致使事物到达或停留的处所, 即事物的处所。如:

(8) 下雨了, 雨点打在窗户上。

(9) 那只骡子就暂时留在驿站上, 车夫回来时再带回去。

例 (8) 中“雨点”到达的处所为“窗户上”, 例 (9) 中“骡子”停留的处所为“驿站”。

又如:当“在+处所”结构修饰“坐、站、住、躺、睡”一类表示状态持续、动作性不强的动词时, 既可以在状语位置, 又可以在补语位置, 在状语位置和在补语位置都表示与动作关联的场所, 但表义上还是有差别, 试比较:

AB

他 (在沙发上) 躺着 他躺 (在沙发上)

他 (在门口) 站着 他站 (在门口)

风筝 (在天空中) 飘着 风筝飘 (在天空中)

用在状语位置上表示动作发生的处所, 而用在补语位置上则表示动作行为致使事物到达或停留的处所。不仅如此, 我们知道A、B句式的常规焦点均在句尾, 通过省略介词短语的方法我们也可以进一步检验得出两组句式的差别:A组句式可省去句中的介词短语而句子仍然成立, 这进一步说明句子的语义重心是在动作的状态;而B组句式省去介词短语则句子不再成立, 这也进一步说明该句式的语义重心是主体因动作而最后到达的处所。

三、对“在+处所”结构组成的相关句式的解释

(一) 为什么有的表达方式不能在口语中出现

我们知道, 有些表达方式只出现在讲求韵律和节奏的诗歌或歌词中, 而在一般散文作品中, 尤其是在口语中是不会出现的。如下列A组中带*号的例句:

A

(10) *云儿飘在海空。 (《渔光曲》歌词)

(11) 鱼儿藏在水中。 (《渔光曲》歌词)

(12) *我们走在大路上。 (《我们走在大路上》歌词)

(13) *我们游在大海里。

(14) 工人们战斗在铁道线上。

B

(15) 云儿在海空飘着。

(16) 鱼儿在水中藏着。

(17) 我们在大路上走着。

(18) 我们在大海里游着。

(19) 工人们在铁道线上战斗着。

通过观察我们可以发现, 像A组中带*号的例 (10) 、 (12) 、 (13) 这样一些表达方式在散文和口语中, 应该说成例 (15) 、 (17) 、 (18) 才成立。但是例 (11) “鱼儿藏在水中”和例 (14) “工人们战斗在铁道线上”却是散文和口语中也能说的句子, 这是为什么呢?

汉语的动词可以分作动作性动词和非动作性动词。从名称上就可以看出, 动作性动词都表示动作性很强的动作, 而非动作性动词则动作性很弱。汉语中动作性强的动词, 如果后面跟上“在+处所”结构充当补语, 表示动作发出后以何处为终点或目的地。例如:

(20) 风吹在脸上。

(21) 把字写在黑板上。

(22) 苹果落在地上。

如果“在+处所”不能表示动作的终点, 而仅表示动作发生的处所, 那就应采取“在+处所”结构作状语的格式, 如例 (10) 、 (12) 、 (13) 这三个句子中, “海空”并不是“飘”的终点或目的地, “大路”也不是“走”的终点或目的地, 同样“大海”也不是“游”的终点或目的地, 这就是为什么“我们走在大路上”, “云儿飘在海空”, “我们游在大海里”这类句子不符合我们口语语感的原因。而例 (11) 、 (14) 这两个句子中, “水”可以作为“藏”的终点或目的地, “铁道线”也可以作为“战斗”的终点或目的地, 因此符合我们的语感。

(二) 为什么同时作状语和作补语时表达上有限制

上文讲到, 如果是“坐、住、躺、睡、站”等表示状态持续、动作性不强的动词, 则可在前面加上“在+处所”结构充当状语, 也可在后面跟上“在+处所”结构充当补语, 如:

ABC

(23) 住在旅馆里 在旅馆里住着 /过?在旅馆里住

(24) 躺在床上 在床上躺着/过 *在床上躺

(25) 站在门口 在门口站着/过 *在门口站

(26) 坐在教室里 在教室里坐着 /过*在教室里坐

但是我们发现, 当“在+处所”结构在这类单音节动词前充当状语时, 这类动词后必须加上表示进行状态的助词“着”或者表示曾经发生或经历某事的助词“过”, 否则句子难以成立。笔者认为, “在+处所”结构作状语时表示动作发生的处所, 暗含着动作的持续并且强调动作的状态, 因此用“着”或“过”附着在动词后, 虽然时态上不一致 (前者是进行时态, 后者是过去时态) , 但是都和句子整体结构所表达的意义相符, 而且符合人们的认知心理。当这一结构作补语时则表示动作的结果或致使事物到达停留的处所, 暗含着动作的结束或完成并造成一定的结果, 因此我们不能在A组句中加“着”, 但我们可以在A组句尾或介词“在”后面加上表示完成态的“了”。

(三) 如何看待介词的黏附化趋势

有学者指出动词后边的介词往前黏附于动词, 即所谓介词的黏附化。朱德熙 (1982:182) 指出, “在椅子上坐着”明显是介词短语作状语, 但对“坐在椅子上”应该分析为“坐在/椅子上”。也有学者认为当介词短语作补语时, 介词如“在、给、向、到”已进一步虚化为动词的后缀性成分。

笔者认为, 介词短语出现在动词后边, 整个介词短语仍然成一个整体作为补语。由于在现代汉语中, “动介”后边可以用“了”, 介词有往前黏附于动词形成“动介 (了) +宾”的倾向, 仅仅是倾向, 并没有完全成为动词的黏附成分。这可以从语音形式上得到印证:

(27) 这项任务落在/我的头上。

(28) 标语贴在/墙上。

(29) 病人躺在/床上。

(30) 水桶掉在/井里。

我们发现以上四个例子的语音形式有一个共同特点, 停顿都在介词“在”的后面, 而不在动词和介词短语之间。笔者认为“介词黏附”只是导致这一现象的次要因素, 由于以上例句的动词都是“单音节”动词, 因此更主要的原因是韵律协调所导致的。以下两种情况更应该分析为介词短语充当补语:第一种情况, 动词部分结构复杂, 念起来停顿只能在动词和介词短语之间, 比如例 (31) 和 (32) ;第二种情况, 介词短语一共只有两个音节, 停顿只能在动词和介词短语之间。比如例 (33) 、 (34) 和 (35) 。

(31) 担任车间主任后, 他照样摸爬滚打在第一线。

(32) 班长马亮, 整整三个月起早贪黑在现场, 任务完成后他掉了十几斤肉。

(33) 这期间, 汝珍的婆母也卧病在床。

(34) 三岁那年的一次意外, 她失去了双腿, 瘫痪在床。

(35) 乡干部曾小安、黄云平、李跃军等人上前将邓贤清按倒在地。

(四) 为什么在有的句子中相同的补语和状语可以转换而有的不能

有的观点认为, 介词短语“在+处所”结构在句子中应该出现在状语位置还是补语位置或者两者皆可, 这是由谓语决定的, 因此热衷于对动词的分类, 并将每一小类动词带状语或补语的情况逐一分析。笔者认为这样的分析固然有其理据性和解释力, 但是化简为繁的分析方法不利于研究成果的实际掌握和应用, 同时这也与人们初学汉语时对这类句式的习得规律不相符合, 因此在一些问题上的解释力受到限制。对比下列两组句子:

A%%%B

(36) 在书房里挂画%%%%%% (38) 把画挂在书房里

(37) 在书房里写字%%%%%%* (39) 把字写在书房里

正如范继淹 (1982) 指出的, 例 (39) 不能成立显然不是由于动词的类别不同, “挂”和“写”都有“附着”的语义特征, 关键在于室内挂画通常是挂在墙上, 达到的处所明确;而室内写字, 可以写在纸上、墙上或其他地方, 达到的处所不明确。但仅仅将原因归为处所不明确, 其解释力是不够的。

笔者进一步思考认为, 例 (37) 能成立而例 (39) 不能成立的原因主要是:从认知的角度看, “在+处所”结构作状语具有“在某处所发生某动作”的整体意义, 因此例 (37) 中, “在书房里”仅仅指“写字”这个动作的发生处所, 这符合人们的认知常识;而“在+处所”结构作补语时具有“动作的终点或目的地, 动作作用下事物达到某个处所”的整体意义, 因此例 (39) 中, “在书房里”本应指“写字”这个动作的终点, 并强调“字”到达的处所, 但由于“在书房里”无法明确地指代“字”到达的具体处所, 不符合人们的认知常识, 因而句子难以成立。如果将例 (39) 中的“在书房里”改为“在墙上”、“在本子上”、“在文具盒里”等具体明确的地点, 则该句式完全成立。

因此, 在分析这类问题时, 我们不应该只把目光集中在动词词义的解析上, 而应该更多地从认知事物的基本原则出发, 从把握句子的整体结构出发, 并结合状语和补语的性质, 以及与句子其他成分在语义搭配上的优劣程度, 只有这样才能作出概括力较强的解释。

四、余论

近年来, 在认知研究方面, 沈家煊 (2006) 和崔希亮 (2001) 等语言学家在这类问题上都做出了有益的贡献并取得了比较丰富的研究成果。沈家煊在《“在”字句和“给”字句》一文中曾指出, 一个句式是一个“完形” (Gestalt) , 即一个整体结构。根据“完形心理学”理论, 整体大于部分之和, 因此句式的整体意义不等于各组成部分的简单相加, 整体的属性并不都能从对组成部分的分析中推断出来。句式整体意义的形成, 受到基本认知原则在不同概念域中的反复作用, 其中顺序原则、包容原则、相邻原则都对“在+处所”的位置产生了影响。

关于“在+处所”的研究还在继续, 任何理论方面的研究都应该以应用为最终目的, 并且在应用中得以不断的加深。本文的研究也不例外, 在对外汉语教学中, 留学生往往因为不了解“在+处所”结构的具体用法, 或者是了解了具体用法, 但不知道为什么要这样用, 出现种种错误。笔者希望能通过解释以上种种问题和现象, 对介词短语“在+处所”结构在对外汉语教学的应用领域中能有所帮助。

摘要:本文分析了介词短语“在+处所”结构出现在句首、句中作状语及在谓语后作补语的不同分布类型及其语义的辨析。句首状语与句中状语的不同主要是说话人心理视点的不同。而状语位置与补语位置的意义差别在于状语位置表达的意义为:从某一方面对动作行为加以限定、描写;补语位置则表示动作行为或动作行为致使事物最后到达的处所、方向、对象、结果、目的等。本文还试图从认知模式的角度对这一结构组成的相关句式作出意义上的解释。

关键词:介词短语,“在+处所”结构,分布类型,语义,语言现象

参考文献

[1]丁声树等.现代汉语语法讲话[M].北京:商务印书馆, 1961.

[2]吕叔湘.现代汉语八百词[M].北京:商务印书馆, 1981.

[3]朱德熙.语法讲义[M].北京:商务印书馆, 1982.

[4]崔希亮.语言理解与认知[M].北京:北京语言大学出版社, 2001.

[5]邢福义.汉语语法三百问[M].北京:商务印书馆, 2002.

[6]沈家煊.认知与汉语语法研究[M].北京:商务印书馆, 2006.

[7]范继淹.论介词短语“在+处所”[J].语言研究, 1982 (1) .

结构语义学 篇11

关键词:“一(半、几、两)+量词+中心语”结构 语义 数词 量词 中心语

“数词+量词+中心语”是汉语中常见的数量结构,如“一本书”“两口井”“三所学校”等。我们还常见到这样一些短语形式,比如“一身泥”“一片心意”等。值得注意的是,这类数量结构具有两个最突出的特点:一是该数量结构中的数词仅限于“一、半、几、两”,其中以数词“一”最为常见。在句式中该结构不能说成“两身泥”“两片心意”等。二是该数量结构中的量词与一般的量词明显不同,它们只取了量词的形式而没有计量单位的实质。因而这类数量结构与一般的数量结构有着质的区别。我们把这类数量结构称为“一(半、几、两)+量词+中心语”结构。

本文将从语义方面来具体分析一下“一(半、几、两)+量词+中心语”结构的特点。(本文语料均来自北京大学汉语语言学语料库CCL)。

一、“一(半、几、两)+ 量词 + 中心语”结构中量词对数词的选择性

“一(半、几、两)+量词+中心语”结构中的量词对其前面的数词具有选择性。量词分类标准不一,分类的结果也不一样,有二分法、三分法和多分法,且小类的划分也不相同。本文采用马真先生的三分法作为划分量词类别的依据,将表示事物、动作行为或时间量的单位分别称为名量词、动量词、时量词。[1]

(一)名量詞对数词的选择性

一般名量词可以跟任何数词搭配,但“一(半、几、两)+量词+中心语”结构中的名量词跟数词搭配的能力却很有限,不管修饰什么名词,它们只能跟某些数词搭配。

1.一般名量词,如“派、系列、曲、线、番、摊、片”等,它们前面的数词要么仅限于“一”,要么只限于“一、两、几”等。例如:

(1)据史书记载,洛阳灵台在全盛时期曾呈现一派繁忙景象。

(2)工业发达国家先后建立了环保机构,颁布了一系列政策、法令,并采取政治、经济手段,取得了一定效果。

(3)奔赴边疆、奔赴最艰苦的地方,为祖国的富强和人民的幸福,谱写了一曲又一曲动人的青春乐章。

(4)主创人员抱着一线希望,冒着飘飘大雪驱车赶去。

(5)这里别有一番天地。/经过几番风雨才懂得人生的价值。

(6)他全身蜷缩成一团,映入我们眼帘的是一摊深红的血。/门口果真有几摊血。

(7)正在举行网络政策国际研讨会的专家们一片欢腾。

2.不定量词,如“点(儿)、点子、丁点儿、丝、些”等,这些不定量词都表示少量,前面的数词要么仅限于“一”,要么只限于“一、半、几”。例如:

(8)就剩下这么一点子本领。

(9)我这里还有一丁点茶叶。

(10)国内也有一些学校开设了相关课程。

(11)整个会场一点声音也没有。/顿时没有了半点声音,都眼巴巴地望着老武的脸。

(12)他脸上露出一丝得意的微笑。/晴空挂着几丝白云。

不定量词具有模糊义量词的语义功能,主要在于通过“模糊量”或“模糊效果”体现一种氛围。

3.临时名量词

由临时名量词形成的数量结构有两种情况,一种是数词可以任意,另一种是数词仅限于“一”。如:

A.借自人体部位或器官的名词:头、脸、鼻子、口、腔、肚子、脑门子、身、嘴等。

B.借自自然地理的名词:池、地、湖、山、江等。

C.借自建筑所指的场所:屋子、院子等。

D.借自家具的名词:桌子、床等。

(13)一脸汗 *两脸汗

(14)一身泥 *三身泥

(15)一肚子不高兴 *三肚子不高兴

临时名量词和数词“一”组成的数量结构,表示的是大概量,有“满”的语义,有修饰色彩。如:

(16)屋里的空气是沉闷的,一桌子饭菜,没有一个人动筷子。

(17)坐船上了黑山,一山都是寺院。

(二)动量词对数词的选择性

一般动量词可以跟任何数词搭配,但有些动量词跟数词的搭配能力却很有限,前面都只能跟某个数词(一般限于“一”) 搭配。

1.一般动量词

如“气、下、通、场、阵”等,它们前面的数词或只限于“一”,或只限于“一、两、几”。如:

(18)一气儿喝了个精光 *两气儿喝了个精光

(19)一通吃喝 *两通吃喝

(20)一下记不起来 *三下记不起来

“下”前可以加“两、几”。加“两、几”时,后面经常加词缀“子”。如:

(21)四五分钟的发言内容,他竟能说四五十分钟,真有两下子。/胖三教训了这家伙几下子,他才老实了。

量词“气、通、下”都表示动作延续的时间,但是它们表示的时间延续量不同,各有附加语义,因受其所搭配的动词词汇意义的限制,其量词只能强调动作行为的过程,而不重于表示动作的次数,因而限用数词“一”。

量词“场、阵”限用数词“一”,也可以用“几”。如:

(22)做了一场美梦/刮了几场大风

(23)会场里响起了一阵热烈的掌声。/下了几阵雨,略微凉快了些。

“场、阵”在表示动作延续的时间上,并不在于表述时间量,因而限用数词“一、几”,是一种概量,表示虚指。

2.借用动量词

指借用名词、动词或一些离合词的后一个语素为动词。借用名词为动量词而数词又有限制的, 只有“眼”,其前面的数词限于“一、两、几”。如:

(24)她深深地叹了口气,随后又含情脉脉地瞟了大李一眼。

(25)小姑娘使劲用眼瞥了他两眼。

(26)他对着媳妇的脸瞪了几眼。

借用动词为动量词而数词又有限制的,只有“跳、惊”,其前面的数词仅限于“一”。

(27)村民们被这突如其来的情况吓了一跳,纷纷站住。

(28)因为受了一惊,他大病了一场。

在某些离合词中间插入数词后,把后面的语素借来当动量词。这类动量词有的数词不受限制,如“打了一(两、三、四)仗”;有的则数词受限制,其中有的只限于“一”,如“救一命”“吃一惊”“告一状”“插一嘴”;有的数词限于“一、两、几”,如“吵一(两、几)架”“见一(两、几)面”“睡一(两、几)觉”“摔一(两、几)跤”。

汉语中用动词重叠表示动作量,中间的数词一般只限于“一”,如“看一看”“试一试”“笑一笑”,而不能说“看两看”“试两试”“哭两哭”。有些重叠动词中间的数词多用“两、几”,如“把屋里扫了几扫”“拜了两拜”等,其中“两、几”都不指动作的确切次数,而是只表示动作的重复。

(三)时量词对数词的选择性

一般时量词前的数词不受限制。汉语中能形成数词有限制的数量结构的时量词只有5个:辈子、程子、会儿、刻、饷儿。它们的数词大都限于“一”,如:

(29)对我个人来说,这笔遗产确实一辈子也用不完。/我活了半辈子,还怕什么呢?

(30)这一程子我夜夜失眠!

(31)你再睡一会儿,我给你做饭去。

(32)他工作起来一刻也不停。

“春、春天、夏、夏天、秋、秋天、上午、下午、晚上”,这些表示季节和时段的词形成数量结构时一般限用数词“一”。在这类词前加数词“一”有“整个”的意思。如:

(33)这样,我们像一对老朋友,倾心地谈了一上午。

(34)为了种上这满坡的果树,他和他的家人大干了一春。

二、“一(半、几、两)+ 量词 + 中心语”结构中中心语对数词的选择性

有的量词跟名词或动词搭配时,它前边的数词有时受限制,有时不受限制,这与名词或动词本身的意义有关。

(一)名词所指的事物本身的数量具有选择性

如人只有两只眼睛,“泪痕”与“眼泪”一般只有“一(两)道泪痕”或者“一(两)行眼泪”的说法,数词只限于“一、两”。“嘴唇”也只说“两片嘴唇”。又如“老伴”也不能跟“一”以上的数词搭配,因为现代社会法律只允许一夫一妻。

(二)名词与名量词的语义搭配关系具有选择性

试比较:

A. 两堆木材 B. 一堆意见

三把鲜花 一把年纪

四片面包 一片忠心

两串荔枝 一串问题

A、B两组所用的量词是相同的,都具有形象性。如“串”,指称能连贯起来的东西,但A组里的数词可以是任意的,而B组里的数词只限于“一”。这是因为A组的名词“木材、鲜花、面包、荔枝”都是与名量词相应的形象具体的事物,所以两者之间有语义搭配关系。在这种情况下,数量结构表示具体的数量,所以数词可以是任意的。但是,B组的名词与名量词之间没有这种语义搭配关系,它们都是抽象名词,和有形象性的名量词之间没有逻辑上的语义搭配关系,也就是说,这些抽象事物无法用以上的量词度量,整个数量结构只表示一种大概的数量,所以“一”自然就不能被其它数词替换。再者,当抽象的或无具体外形的被描述对象用上某个量词时,这个量词所固有的语义特征就能使这些抽象的东西变为具体的东西,使无形的对象变为有形的对象,从而增加了名词本身的表现力[2]。

三、“一(半、几、两)+ 量词 + 中心语”结构中动词与动量结构对数词的选择性

试比较:

A. 吃了两顿饭 B. 训了一顿

打了三通鼓 骂了一通

叫了三四声 通知他一声

A组的数词不受限制,因为“吃、打、叫”都是动作动词,“两顿、三通、三四声”是说明动作的实际次数的。B组的动词是非动作动词,“一顿、一通、一声”只表示行为的过程,不表示实际次数,其意义是虚指的,因此数词只限于“一”。

四、“一(半、几、两)+ 量词 + 中心语”结构中各结构成分对数词具有选择性的原因分析

从上文可知,“一(半、几、两)+量词+中心语”结构中的量词、名词和相关的动词和动词性成分对数词具有很强的选择性,因而制约了数词的数量,主要是数词“一”的使用最为典型,还有数词“半、几、两”。根据目前收集的数据来看,以“一”为最多。下面以几个典型量词(数词可用“一、半、几、两”中两个以上数词)为例列表说明几个数词所占的比例,如下表:

数词“一(半、几、两)”在典型量词中所占比例

(注:数字为例数,百分比为所占比例。语料来自北京大学汉语语言学语料库CCL。)

下面从语义特征的角度来解释“一(半、几、两)+量词+中心语”结构特点形成的原因。

一般数量短语要求所用量词必须是其后事物的计量单位,不能随意择取量词,如“一件衣服”不能说成“一本衣服”等。因此,一般量词短语的量词在语义上具有数量的特征,记为[+数量]。但“一(半、几、两)+量词+中心语”结构中的“量词”与其后的名词不相对应,比如“泥”的计量单位是“团”或其他容器而不是“身”,“身”仍然保留着它原来作为身体器官名词的词汇意义,而计算单位的意义则被虚化,即在语义上不具有数量的特征,记为[-数量]。

另外,两组短语所含数词的语义特点也不相同。一般数量短语的数词“一”是数字的实指,量词与数词的结合具有原则上的任意性,如“一本书”可改为“两本书”“三本书”等。“一(半、几、两)+量词+中心语”结构中的“一”则被虚化了,有“全、满”的含义,可与“全”或“满”替换,意义基本不变。“一”指的是某个事物的整体而不是具体数字, 只是强调与其有关的事物数量之多,范围之广,多是一种主观上的看法。所以,处于量词位置上的词只能与“一”组合而不能换成其他数词, 如只能说“一脸无奈”而不能说“二脸无奈”“三脸无奈”等。

五、结语

“一(半、几、两)+量词+中心语”结构中的数词仅限于“一(半、几、两)”,因而在现代汉语中表现出自身独特的语法特点。其语义特点表现为:名量词(一般名量词、不定量词、临时名量词)、动量词(一般动量词、借用动量词)、时量词对数词的选择性;中心语或者动词与动量结构对数词的选择性。

(本文为国家社科基金项目,编号为07CYY021;江苏省教育厅哲学社会科学基金项目,编号为05SJD740010;南京林业大学高层人才基金项目,编号为16308002。)

注 释:

[1]马真.简明实用汉语语法[M].北京:北京大学出版社,1997.

[2]邵敬敏.量词的语义分析及其与名词的双向选择[J].中国语文,1993,(3)

参考文献:

[1]曹秀玲.“一(量)名”主语句的语义和语用分析[J].汉语学报,2005,(2).

[2]何杰.现代汉语量词研究[M].北京:北京语言大学出版社,2008.

[3]胡清国.“一量(名)”否定格式对量词的选择与限制[J].汉语学报,2006,(3).

[4]刘小梅.汉语数量词的语义分辨及進行式动词组中数量词的使用[J].世界汉语教学,1994,(4).

[5]吕叔湘.汉语语法分析问题[M].北京:商务印书馆,1979.

[6]李延瑞.关于修饰性临时量词[J].语言教学与研究,1987,(3).

[7]李宇明.“一V……数量”结构及其主观大量问题[J].汉语学习,1999,(04).

[8]倪建文.“一……也不(没)”句式的分析[J].汉语学习,2001,(4).

[9]邵敬敏.句法结构中的语义研究[M].北京:北京语言文化大学出版社,1998.

[10]邢福义.谈谈数量结构加形容词[J].语言教学与研究,1993,(4).

结构语义学 篇12

信息提取IE(Information Extraction)是一种通过分析非结构化文本,提取预先定义好的实体、关系或事件,把非结构化的文本转化为结构化的信息的一种技术手段。通过IE系统可以将非结构化的信息,通过XML标记、实体关系转换等方法,转化为机器可以利用的结构化信息。随着互联网的普及与发展,其具体应用也越来越广泛,网络的自动新闻监测就是IE系统典型应用之一。

近几年网上销售作为一种新的商品销售渠道发展势头迅猛。由于其运营成本较低,且不受时间、空间的限制,一时间吸引了大量的销售商进入这一领域。伴随着信息量的迅速扩大,许多问题也逐渐显现出来。由于无法获取全面和及时的信息,消费者对网上商品品质价格难以比较,而相关机构也难以对网上的商品销售进行监督和检查。因此如果能够及时全面地获取网上信息,将网页上的内容还原成商品对象信息,就可以有效地应用到诸如商品信息搜索、比价和监测等方面。

针对这些需求,商品搜索引擎和比价网站应运而生,目前国内应用较多的比价网站如易价网、大拿网等网站大都采用人工或者半人工的包装器生成的方式,存在着覆盖面有限、对新的电子商务网站的更新不够及时等问题。而其他通用的IE系统由于针对性不强,在商品信息提取方面又会存在抽取的粒度较粗和准确率不够等缺陷。

通过对多家电子商务网站的调查,发现由于缺乏统一的规范,商品在网上发布和销售的表现形式各异,具体表现在:不同的网站页面布局和布局标签应用不同;不同网站提供的商品属性不同;同一网站对于不同类别的商品提供的信息也有所差异。

监测网上的商品信息发布,需要全面及时地获取网上的商品信息。针对这种情况,本文设计了一种基于语义和网页结构的信息提取框架,该框架通过计算DOM树的结构语义熵,可以对新领域的网站信息进行自动识别与抽取,从而有效地提高网上商品销售数据抽取的查准率和查全率。

1 相关工作

1.1 网页信息提取的方法

一个基本信息提取系统一般由爬虫程序、页面分类程序、包装器(wrapper)转化程序和包装器生成程序组成[1],通过如图1所示流程将网上提供的半结构化网页信息转化为结构化信息。

网络爬虫(Web crawler)首先在互联网上搜索感兴趣的网页,并获取这些页面。而后通过分类器将页面根据结构的相似性或者不同的页面主题进行分类。最后将同一组页面通过特定的包装器转化为结构化的信息。早期的IE系统信息提取规则多为手工提取,较早的帮助构建包装器的框架是95年提出的TSIMMIS[2](The Stanford-IBM Manager of Multiple Information Sources)。

目前网页信息提取系统有很多,但就其基本提取方式可以归纳为两种[3]。第一种是基于监督学习(supervised learning)的包装器的归纳(Wrapper induction)。首先由用户先对一些网页中感兴趣的内容进行手工标注,而后由系统学习和归纳抽取规则,再将这些规则应用于其他页面。其中具有代表性的包装器归纳系统有WIEN[4]、Softmealy[5]、WHISK[6]等。

另一种方法是基于非监督学习(unsupervised learning)的全自动抽取(Automatic extraction)。因为一个网站中数据记录的表现形式往往具有相似性,也就是通过对这些数据挖掘重复模式,可以找到承载这些数据的模板。比较典型的系统有RoadRunner[7]、MDR[8]。其中RoadRunner是将多个HTML文件作比较,找出其相似特征和不同特征,基于这些特征生成包装器。

1.2 网页信息提取系统的研究现状

从最初的网页信息提取系统TSIIMMIS[2]开始,网页信息提取系统的发展超过十年,并形成了一系列对网页提取系统的评价指标[9]。

评价一个网页信息提取系统的优劣可以从以下几方面进行考虑:

1) 自动化程度 可以分为手工、半自动化和全自动。采用纯手工构建的系统需要大量的人工操作,现在已经较少采用。而采用监督学习的包装器归纳法的系统由于需要人工对训练集合进行标注,因此自动化程度相对较低。而通过挖掘重复模式的非监督学习方法的系统一般自动化程度较高。

2) 对输入网页的结构化程度要求 一些系统以结构化和结构化程度较好的网页为抽取目标,不支持页面的文本分析。其中比较典型的有ShopBot[10]和WIEN[4],这些系统通常采用分隔符为主的抽取规则。另一些抽取系统则抽取表达更加松散的半结构化和非结构化网页。其中具有代表性的系统有RAPIER[11]、WHISK[6],这些系统使用混合抽取的算法,利用了语义和句法信息,但并不依赖于这些信息。

3) 灵活性 因为网页的结构和表达往往变化频繁,所以评价包装器的一个重要指标就是灵活性,即当网页有部分改变时,包装器是否仍然有效。

4) 适应性 另一个重要指标是适应性,即一个针对某应用领域的某种Web源的包装器是否也能对同一应用领域中的其他Web源有效。

对于一个网页信息提取系统,除了基本的查全率和查准率,以上的几点也是相当重要的评价指标。目前的网页提取系统存在以下不足。基于监督学习的包装器归纳方法需要大量用户手工标注的页面作为训练集合,且灵活性不佳,一旦网页的格式更改就会导致包装器的失效。全自动的包装器生成方式虽然对人工干预的要求降低,但是由于完全基于表现结构的相似性,系统并不了解用户感兴趣的内容,因此抽取结果中可能会包含很多用户不需要的数据。而且大部分系统对于输入还是需要做筛选和归类,以保证从输入的页面中可以提取到公共模板。

对此文献[12]中曾提出一种利用页面表示规则对网页信息提取的方法,这种方法只需要单一页面作为输入。但是由于其完全基于对页面结构的理解,没有考虑到内容中的语义信息,因此在遇到相同结构表达了完全不同的信息内容和同种信息内容有多种的表现形式的时候也会导致信息的误判。

2 利用语义信息和网页结构提取信息

2.1 方案概述

领域知识模型可以帮助系统识别出用户真正感兴趣的内容,从而在页面上快速地定位到包含这些信息的节点,提高识别的准确率,并大大提高算法的效率。

网上商品信息是将数据库中的商品数据,利用一定的展示规则,将其映射到半结构化的网页上所形成的,因此这些信息具有一定的聚集度。经大量页面的统计分析,实际的商品详细页面上属性标签和属性值确实表现出很高的聚集度,和结构上的相似性。另外如图2所示,商品详细页面在主体商品以外,还包括很多干扰信息,比如同类商品的推广广告等。

在其他页面,例如网站的主页,商品的分级目录页一般包含商品数量较多,但每件商品的属性单一。同时这些商品在展示结构上具有类似性。

本文提出的算法以商品领域的语义信息和网页结构为基础,利用商品属性信息的聚集度找出页面的主体部分。基本思路是:首先对抓取到的网页进行预处理,生成DOM树;其次利用语义词汇对DOM树上的属性标签和属性值进行匹配,计算每棵子树的结构语义熵,得出其聚集度,从而找到商品子树的根节点;最后在这棵子树内获取商品的属性标签和其对应的属性值。整个方案充分考虑到了语义信息和网页结构信息,以单一的页面作为输入得到商品的结构化信息,减少了人工干预。

通过原型系统在药品销售网站上的模拟,我们发现这种方法可以在保证准确率的前提下实现自动化的网页信息提取,且适应于大多数的商品销售网站。

2.2 语义词典的设计

语义词典的主要作用是提供网页定位的参考信息,同时也要考虑到其通用性和可扩展性。

通过分析网上商品销售的特性,可以发现商品的属性和属性值是商品信息中十分重要的项目,因此我们扩展了WORDNET中原有的概念关系,加入了属性取值的关系。另外考虑到文字的表达方式的多样性,加入了同义词关系。同时删减了部分无用的关系,具体关系如表1所示。

定义上下位关系,根义类:基于本体概念,和实际应用中商品发布的内容,定义根义类为“商品”以及“商品属性”。其中商品属性类是商品包含的各种描述的标签,例如:名称、品牌、价格、生产厂商等基本信息。商品的上下位关系以商品的类别为依据,根据商品所属的类别,定义下一级义类。商品的下义包括:虚拟货品、电子产品、药品等。这些特定的商品在继承上一级商品属性的同时,也会包括自身的特殊属性,例如药品会包括:批号、规格、单位等其他特殊信息。

定义属性关系,对于每一个商品类定义其包含的属性标签,每一个子类都可以继承父类的属性。如果该属性的取值有一定规律性,则以正则形式定义其取值,比如价格和上市日期就可以利用正则定义属性取值。

对每一个所涉及的概念定义同义词,例如,批准文号的同义词为批号信息;生产厂家的同义词为厂家、生产商等。

2.3 商品网页的获取和预处理

商品网页的获取程序是从互联网上获取商品网页的模块,是整个处理过程的输入。在一个网站的内部利用爬虫循环取得单个页面。

对于取得的网页,去除其中包含的纯格式代码和js脚本代码,以降低DOM树的结构复杂度。之后使用开源的NekoHTML对经过预处理的页面进行处理,修正文件中不成对的html标签,并构造出对应的DOM树。

2.4 计算节点的结构语义熵

一个网页根据其内容和结构的相关性,经常可以划分为多个区域。而商品详细信息往往位于页面的主体区域内,为了找出主体区域,我们引入了结构语义熵对节点进行评分。

首先在DOM树所有叶节点中,找到可以与语义词典中属性标签和属性值的表达式相匹配的商品属性和属性值,比如在页面找到5个生产厂家的属性标签,那么我们对这些节点均进行标注M,同时属性M的集合当中就包含5个元素。对于所有没有匹配到的节点,就暂时标定为噪声信息,归为一类U。将所有的叶结点按照属性种类的不同进行归类,形成集合。

以下面这棵结构树为例,其中N表示提供“产品名称”的信息的节点;M表示提供“生产单位”信息的节点;P表示提供价格的信息的节点;C表示提供“批准文号”的信息的节点;U表示无关节点。在DOM树上的标注结果如图3所示。

信息熵是信息论中用于度量信息量大小的一个概念。当一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也是系统有序化程度的一个度量。在一棵子树中,如果出现的属性种类越多,那么表示这棵子树提供的商品信息越丰富。那么相对于属性种类来说,这棵子树的熵值就越高。

定义 设DOM 树中的节点S包含s个叶节点,每个叶节点可按提供信息的种类划分成m个不同的类别Ci , i ∈{1,2,…,m},不属于任何属性类别的节点都归为单独的一类,设si为属于类别Ci的叶节点个数。

用公式(1)计算DOM 树中任一节点的结构语义熵:

E(S)=-i=1mpilog(pi)(1)

其中:pi是任意一个叶节点属于类别Ci的概率,pi= si/s计算。其中的log 函数是以2 为底,因为按信息论原理,信息都是按位进行编码的。

以图3中的结构树为例,首先计算节点4的结构语义熵,节点4共有6个叶节点,其中属于类别为U的叶节点共2 个,属于其它类别叶节点各1 个。

E(4)=-i=1mpilog(pi)=-2/6log2(2/6)-1/6log2(1/6)-1/6log2(1/6)-1/6log2(1/6)-1/6log2(1/6)=2.2516

节点3 是一个典型的产品列表型节点,共有10 个叶节点,其中属于类别为N的叶节点共5 个,属于类别为P的叶节点也是5 个。其结构语义熵计算如下:

E(3)=-i=1mpilog(pi)=1

2.5 根据结构语义熵找到商品子树

经过计算,图3结构树各节点的结构语义熵值如图4所示。

通过计算我们可以得出以下规则:

(1) 任何叶节点的结构语义熵都为0。

(2) 应选择结构语义熵较大的节点作为商品子树的根节点,按信息论原理,此时信息熵比较大(理论上是更无序的节点)。在图4 的例子中,应该选择节点4。

(3) 当父子节点的结构语义熵一样大时,应选择子节点作为商品子树的根节点。如图4 所示,节点2 和节点4 的结构语义熵值相同,应该选择节点4。

根据上述结论,对页面DOM 树自根节点进行自上而下的计算,对每个节点计算其子节点的熵值,并取其中最大的那个与当前节点比较,如果当前节点的熵值大于其所有子节点的熵值,那么选取当前节点作为商品树的根节点,停止查找过程。否则取熵值最大的那个子节点重复上述过程。

算法1 查找商品主体子树根节点的算法

FindMerchandisetRoot

Input: Node R,root node in the DOM tree

Output: A node in the DOM tree

1: for Each child S of Node R do

2: E(S) := structured-semantic entropy of node S 公式1

3: end for

4: MaxS=argmax{E(S),S is the child node of R,

if there is more than one node has the max value,ignore all these nodes, get the node which has the next largest entropy }

5: if E(MaxS)< E(N) then

6: Output current node R

7: else

8: FindMerchandisetRoot (MaxS)

9: end if

其中为了排除商品列表的影响,在第四步寻找熵值最大的节点是,如果有大于两个节点熵值相同,那么认为这些节点是根据相同模板生成的商品列表,忽略这些节点,以随后熵值较大的那个节点作为熵值最大的节点。通过以上的算法可以找到页面上结构语义熵最大的那个节点。

计算以该节点作为根节点的那棵子树的结构语义熵和属性的种类个数,如果均大于设定的阈值,说明这棵树中的属性信息聚集度较高,且属性的个数可以充分地描述该商品特征。那么判定这棵树是一棵商品信息树,同时该页面是一个商品的详细页面。 否则认为这不是一个商品的详细信息页面。通过大量的商品详细网页统计发现页面出现属性种类的期望E(X)=6.75,标准差D(X)=1.45。根据契比雪夫不等式,在阈值的取值取4时,准确率在85%以上。同时根据信息论,编码可能出现4种不同情况的节点至少需要2bit,根据统计商品子树中所有叶节点中能够和语义词典中的属性标签或者属性值匹配到的比例在40%以上,那么可以得出熵的阈值应在1.5以上。

2.6 在选定的商品结构树内提取属性值

在网页上,商品的属性标签和属性值包含了语义信息。利用子树上已经标定的信息,对以下几种常见的表现形式的作不同处理,提取出DOM树中的标签和其对应的属性值。

(1) 节点中同时包含属性标签和属性值,例如叶节点中的文本为“品牌:施贵宝”。根据一般表达习惯,把非文字或数字的字符作为分割符,认为分割符的前面是属性标签,后面是属性取值。

(2) 标签和属性值位于不同的叶节点,例如匹配到的叶节点中的文本为“品牌”,它后面的叶节点中的文本为“施贵宝”。对于这种情况,寻找路径相同且紧跟标签节点的叶节点中的文本内容作为属性标签对应的属性值。

根据2.2节中语义词典的构建方法,商品按照其类别的层次结构可以视为一棵商品类别的层次树。根据取得的商品属性在商品的层次结构树上找到对应的类别K。对每一个有属性匹配到的商品类别,计算从该节点至根节点的路径上的每个商品类的得分K=m×i,其中m是该类别中匹配到的属性个数,i是属性深度。从当前节点至根节点对这些分数计算总和,作为该节点的分数。找到得分最高的就是商品对应的商品类别。这是因为随着深度的加深,商品属性的特殊性较大,应赋予较高的权值,同时在根节点到该节点的路径上的其他属性也符合这种商品的属性特征,只是其通用性较强,因此赋予较低的权重。例如找到{批准文号,适应症,商品名,价格,生产厂家,品牌}的商品对应商品类别就应该是药品。

3 系统实现和应用

3.1 算法实现

根据上述算法,我们实现了一个系统模拟该算法,系统的具体运行界面如图5所示。

通过对互联网上的药品销售网站的测试,我们随机选取了药房网等10家药品销售网站,对每一个站点随机选取了10个页面进行测试。测试项目如下:1)判断是否商品详细页面;2)提取页面商品属性标签和属性值对。

在属性种类阈值为4,结构语义熵阈值为1.5的情况下,发现该系统可以准确地判断出页面是否为详细页。另外在提取页面商品属性标签和属性值对时,除了偶有因为属性标签表述特殊而没有提取到的状况外,基本测试结果良好。而这种情况可以通过后期对语义词典词汇的丰富,使属性的查全率有进一步提高。

3.2 系统应用

目前该算法已经在“互联网药品监测系统”中得到了具体的应用。首先利用一般的搜索引擎对商品网站进行搜索,找到商品销售网站可能候选集合。再通过爬虫获取网站的具体页面,根据本文所提出的算法利用语义和结构信息对每个页面进行判别并获取其中的商品描述信息。

通过具体应用,发现通过该方法可以发现那些现有数据库中未记录的新的药品销售网站,并获取这些网站上发布的药品具体信息。

4 结 论

本文针对网页信息提取系统,深入分析了现有的抽取方案的优点与不足。并结合商品信息提取的具体应用场景,提出了一种基于结构语义熵的节点聚集度判别算法。该算法充分利用了商品的语义特征和网页的结构表现形式。通过实验验证该算法具有较高的准确率,且在商品信息提取领域具有灵活性和通用性。

通过使用本算法,可以实现全自动的商品信息提取。在具体应用中使商品信息提取具有自动扩展的能力,能够灵活应对网站格式变更以及新网站的查找,并且对商品的类别可以进行自动识别。通过语义词典的不断完善,可以使算法的查全率有进一步的提高,并且该算法还为实现全自动的包装器规则的归纳奠定了良好的基础。

参考文献

[1]Sergio Flesca.Exploiting structural similarity for effective Web informa-tion extraction[J].Data&Knowledge Engineering,2007(60):222-234.

[2]Chawathe S,Garcia-Molina H.The TSIMMIS Project:Integration of Het-erogeneous Information Sources[C]//Proceedings of IPSJ Conference,Tokyo,Japan,October1994:7-18.

[3]Liu B.Web Data Mining-Exploring Hyperlinks,Contents,and Usage Data[J].Springer,December,2006.

[4]Kushmerick N,Weld D S.Wrapper induction for information extraction[C]//Proc.of the Int.Joint Conf.on Artificial Intelligence,1997.

[5]Hsu C,Dung M.Generating finite-state transducers for semi-structured data extraction from the web[J].Information Systems,1998,23(8):521-538.

[6]Soderland S.Learning Information Extraction Rules for Semistructured and Free Text[J].Machine Learning,1999.

[7]Crescenzi V,Mecca G,Merialdo P.Roadrunner:Towards automatic data extraction from large web sites[C]//Proc.of 27th Int.Conf.on Very Large Data Bases,2001.

[8]Liu B,Grossman R,Zhai Y.Mining data records from web pages[C]//Proc.of14th ACMSIGKDD Int.Conf.on Knowledge Discovery in Da-tabases and Data Mining,2003.

[9]Laender A,Ribeiro-Neto B.A brief survey of web data extraction tools[J].ACM SIGMOD Record,2002,31(2):84-93.

[10]Doorenbos R B,Etzioni O.A Scalable Comparison-Shopping Agent for the World-Wide-Web[C]//Proceedings of the first International Con-ference on Autonomous Agents,California,February1997.

[11]Califf ME,Mooney R J.Relational Learning of Pattern-Match Rules for Information Extraction[C]//Proceedings of the ACLWorkshop on Nat-ural Language Learning,Spain,July1997.

上一篇:普通话课堂下一篇:学法守法用法