聚合词语语义分析(共4篇)
聚合词语语义分析 篇1
语言是特定时空条件下渐变发展的。从这个意义上讲, 每一种语言都有着自身的特点和实际情况。换句话说, 每一种语言在表达语义方式上的内在规律, 必然与该语言所产生和存在的环境和习俗等因素密切关联在一起;但与此同时, 语言也与语言使用者相关联, 而语言使用者的思维习惯和认知特征, 则在某种程度上存在着一些共性。对语言与思维和认知的关系, 前贤多有论述。清代陈澧说:“盖天下事物之象, 人目见之则心有意, 意欲达之则口有声。意者, 象乎事物而构之者也;声者, 象乎意而宣之者也。”刘师培说:“名起于言, 言起于意, 意起于心。人心有感物之能, 心物相感则致我之知以及于物。”①
事实上, 这种共性在语言的各个层面都可以得到体现。就句法层面而言, 认知语言学所提出了原型范畴、认知隐喻等理论;本文则尝试着对七组汉英词语的对比, 站在文字学的视角上, 通过其汉英构词理据即词源意义的相通性的分析, 对该问题作以理解。
1.wall和墙
英文单词wall 含有“墙”的意思。Wall来源于wicker-work或者wattle, 前者义为“柳条编织物”, 后者义为“枝条”。由此我们可以看出, wall的词源意义其实是“柳条类东西的编织物”②。考古学家通过发掘史前遗迹已经证实, 人类最早期的“墙”确实是用柳条等东西编织成底子后, 再在上面涂上泥巴, 或者把泥巴舂在两片柳条等东西编织的东西中间。这其实就是汉语里所说的“版筑”。
“墙”字本作“牆”。《说文解字》:“牆, 垣壁也, 从嗇爿声。才良切。”
“啬, 爱濇③也。从來从稟。來者, 稟而藏之, 故田夫谓之啬夫。凡啬之属皆从嗇。”《说文》“嗇部”所收字仅为两个, 即“嗇、牆”。
“爿”在大徐本《说文》未见收;段注本收于片部。《王力古汉语字典》立为一部, 其解释为:“劈木为二的左半边为爿。《新加九经字样杂辨部》:‘鼎, 下象析木以炊。析之两向, 左卫爿, 右为片。’” “爿部”下收字4个, 分别为:“牀、牁、牂、牆”。《新华字典》注音“爿”为pán;《王力古汉语字典》则据《龙龛手镜》“疾羊反音牆”拟音为qiánɡ。二者孰是孰非?
嗇字从來从回。“來”是“麥”的本字, 即麦子的意思。可见, “來”提供了“嗇”这个词的“类义素”④;回字古文形式表示“环绕”之像。汉语中凡表示“环绕”义的字多从“囗”, “囗”是“回”的部首化。比如“圜、團、圜”等;圆形的器皿也从“囗”, 如“箘”;國的四面有疆界, 所以“國”字从“囗”;“園、囿、圃”的周围有藩篱或围墙, 所以也从“囗”;“圈、囤”也有围墙, 所以从“囗”;“囹圄”有围墙, 也从“囗”;囚犯关于囹圄之内, 所以“囚”从“囗”;“固”的本义表示“四塞”, 所以“固”也从“囗”⑤。可见, “囗”这个字符, 是“嗇”字的核义素所在。
综上所述, 我们可以认为, “嗇”的词源意义为“将谷物环绕 (聚敛) 起来”, 即“收获”的意思。这个意义, 在“四体不勤五谷不分不识稼穑”这样的固定短语中被保留下来。从“啬”得声的字, 《说文》中只有一个“濇”。所以我们可以认为, “嗇”基本上是个形符, 而不是声符。《现代汉语词典》中以“啬”作为部首的常用字兹举如下:蔷、樯、嫱。
这些字多不读“啬”而多读“qiánɡ”, 这说明它们都是从“牆”省声的字;而且, 在这些词当中, 都保留了“嗇”的“聚敛-团簇”的词源意义:蔷薇是一簇一簇地开放的;作为船的桅杆的“樯”是用来聚敛风力的;作为后宫的女官, “嫱”是众多佳丽的总管。
这些都从语义的角度证明“嗇”只是个形符, 而不是声符。因此, “牆”从“爿”得声是可以成立的, 即“爿”就是“牆”的初文;“牆”是“爿”的加符象形字;如果“爿”就是“牆”, 而“爿”又是“劈木为二”的其中一部分, 那么, 中国最早的“牆”其实也和wall一样, 都是由最初的“编砌式建筑”⑥篱笆, 再“版筑”, 最后才到“土石”一路发展而来的, 我们从中可见, 现在的“篱笆”、“藩篱”等, 实际上就是远古时代的“牆”。
通过对wall和“牆”的分析和比较, 我们可以看到, 表示“墙壁”这个意义的汉英词汇, 其词理包含着同样的物理共性。
2.pen和笔 (筆)
Pen直接来源于拉丁语词penna, 而penna 的原义就是feather (羽毛) 。根据相关的历史事实, 西方最初用来写字的笔确实是鹅毛管儿, 虽然后来的笔在质料上发生了很大的变化, 但是这个词的读音和书写形式始终保存了该词的词源意义。比较有意思的是, 当人们刻意地拟古重新用鹅毛管儿的“笔”时, 还在pen的前面再加了一个修饰词quill, 即以quill pen来表示该义。
同样的语言现象在汉语中也存在。
“笔”的繁体形式为“筆”。“筆”在《说文》中在“聿部”。《说文解字》:“聿, 所以書也。楚谓之聿, 吴谓之不律, 燕谓之弗。”从“聿”的构型上头我们就可以看到, “聿”其实就是“筆”的本字。“竹”是加符象形, 以表明“筆”是由竹子这种原材料制作而成的;而后又因为强调“筆”的原材料“毛”的重要性, 而异化为“笔”。其后因为笔在制作质料上的巨大变化, “笔”已经跟“竹”和“毛”没有关系了, “笔”这个词的内涵已经因之而改变了, 但是词形却一直保存下来。尤其值得一提的是, 同英文强调“鹅毛笔”时需把pen 加quill相类似, 为了进一步与“钢笔”、“铅笔”、“圆珠笔”相区别的“毛笔”, 人们还需要在已经含有“毛”这个义素的“笔”前面加上“毛”, 造出明显含有冗余信息的双音词“毛笔”了。
同样的例子还包括street和“马路”。
Street原义是指用石头铺成的路, 其词根与stone (石头) 和feet (脚) 有关, 但是后来其词汇意义衍变为“街道, 马路”。汉语中“马路”, 其语义来源于古代用于供官方驿站间公用的宽阔道路, 其间主要由通讯联络人员骑马通过, 因此得名。但是今天的“马路”已经跟“马”基本上没有太大的关系了, 可是在词形上, 该词还保持着旧有的面貌。
这组词体现出了词理对物理和心理加以反映时的共性特征。
3.style和案
Style直接来源于法语词style[sti:l], 而该法语词来源于拉丁词stylus。罗马时代人们是用蜡板写字的, 当时用的是铁、木或者骨头所制成的工具。这种东西一头是尖的用来写字, 一头是扁平的, 用来擦抹。⑦这种蜡板可以反复使用。这种工具叫做stilus或stylus。它本来是指写字的工具而言, 意义渐渐引申, 变成用这种工具所写的东西, 包括文章、作品的风格和体裁, 进而引申到“风格”的意义上来了。之于style的“蜡板”本义, 则已经由拉丁文stylus直接进入英文, 进而style的“蜡板”义在使用中反倒为人们所摒弃, 而只能存在于字典之中了。
汉语词“案”的情况与之相类似。我们把在《现代汉语字典》中含有语素“案”的双音词进行分类整理后可以得到下表:
通过以上的分类分析, 我们可以清晰地看到“案”由具体的物象“几状物”和“文书、卷宗”义, 慢慢向抽象的“意见与建议” (提案) 和“刑事案件” (案件) 义方向发展的轨迹。
这组词也体现出了词理对物理和心理加以反映的共性特征。
4.bride和妻
英语词bride的意思是“新娘”, 其词根与bring和ride有关, 即由男性骑马而带来的女人。这其实是古老的抢婚制度在英语词汇层面的淹留。即使到今天, 女孩子心目的心仪男子也仍然被称之为“白马王子”, 其内在的语义来源即在于此。
与之相类似, 汉语词“妻”也保留了古老的抢婚制度。《说文解字》:“妻妇与夫齐者也。从女从屮从又。又, 持事, 妻职也。”
许慎对字形的分析是对的, 但是其解释比较牵强。事实上, 单就“妻”的字形来看, 即一个为男性揪住头发而被带走的女性。可以说, “妻”这个字形也是古老的抢婚制度在汉语词汇层面的淹留。
bride和“妻”反映的都是初民阶段人类社会的抢婚制习俗, 这一点我们通过民俗学等学科也可以进一步加以印证:抢婚的男子为了蒙住女子的眼睛而强行给她盖上的丝麻类物品, 在现代社会仍留遗迹, 即在英语词汇中, 与bride相关联的veil (婚纱) , 在汉语词汇中的“红盖头”。抢婚的男子为了捆绑住女子而利于行动所使用的绳子等物品, 在现代社会仍留遗迹, 即在英语词汇中, 对确立婚姻关系极其重要的ring (戒指) , 在汉语词汇中的“手镯”等等。
这组词也体现出了词理对物理和心理加以反映的共性特征。
5.henpecked和“领袖”、“侏儒”
据形象性的事物以造词并进行同方向的词义引申, 是词义发展的方式之一, 其认知基础在于物理所引起的同族心理感受, 这在各语言中都有所体现。这里仅举一组很有代表性的例证。
英语词henpecked由根词hen (母鸡) 和pecked (被啄的) 组成, 表示“ (经常) 遭受母鸡啄的”这一意义, 即对具有此类特征公鸡的统称;该词用于“人”则产生了隐喻意味, 表示经常遭受配偶欺侮的男子, 也就是汉语里“气管炎” (妻管严) 。该意义在英语和汉语里都有这样的俚语词, 所不同的是, 汉语采取了谐音造词的方式, 而英语则直接采取了形象化造词的方式。
与之相类似, 汉语中也有大量的形象化词语, 比如“领袖”。“领”与“袖”原本是衣服的两个部分, 其重要性在于, 都是穿衣服这一动作和过程中最为关键的部位, 所以, 在本义的基础上隐喻为对重要人物的指称;相应的词语还包括:结束、容易、元首、颜色、模范、嘴脸、手脚、前途、线索、面目、暗算、穿凿、浅薄、斗胆、稀松、鸡眼、鸡头、驴打滚等等。这些词的语义特征在于:
第一, 字面义即“词的底层意义 (zero-grade meaning) ”非常形象化。
第二, 其“词的底层意义 (zero-grade meaning) ”在使用过程中都发生了转义。
究其原因就在于王宁先生所强调的“词源意义与词汇意义是本质不同、有严格差别的”⑩。这样的例子, 在汉语的熟语和成语中更是屡见不鲜, 比如大刀阔斧、拖泥带水、指桑骂槐、铁石心肠等等, 不一而足。
事实上, 有些汉语词原来是非常形象的, 但是由于词语的演变, 其词源义已经被词汇义所掩盖, 只有通过探求词源义才能看到其原来的形象性, 比如“侏儒”一词。
“侏儒”的“侏”与“朱”同源。《说文》无“侏”字。《左传·襄公四年》:“我君小子, 朱儒是使”, 可见, “侏儒”本作“朱儒”, “侏”实为“朱”的孳乳字。
《说文解字》:“朱, 赤心木, 松柏属。从木, 一在其中。”郭沫若《金文丛考》认为“朱乃株之初文, 金文于木中圆点以示其处。”戴侗认为“朱, 干也。木中曰朱。干以朱数, 别作株。” (11)
我们认为, “朱”用于“事”时, 表示的是以“斧斤”伐树, 即“诛杀”的“诛”;砍伐树木之后所见的木中赤色为“朱” (12) ;砍伐过后留下的短小树桩是“株”;这个“株”用来隐喻指称矮小的人时就“侏儒”的“侏”。所以, 《说文》中表示“树名”义的“朱”, 表示“大红色”义的“朱”, 表示“屠戮”义的“诛”, 表示树木的名量词“株”, 表示“身材特别矮小的人”的“侏”, 都是单音词“朱”的派生。这样一来, 我们就可以清晰地看到“侏儒”这个词是多么的形象了。
这组词体现出了词理对物理和心理加以反映的共性特征。
6.paper、book和纸
英语词paper 来源于papyrus (莎草) , book 来源于boc (榉木) , 这是由原材料经过形变 (音变和字变) 而表产品的例证 (13) ;汉语词“纸”的演变也体现出这种特点。
据陆宗达先生的意见, “纸”的本字实为“”, 为抄纸用的竹帘 (14) 。《说文》:“, 蔽絮箦也。从竹沾声, 读若钱”。《后汉书》说“ (蔡) 伦造意, 用树肤、麻头及弊布、渔网以为纸, 元兴元年奏上之, 自是莫不从用焉, 天下咸称‘蔡侯纸’。”也就是说, 当时造纸, 一定会用极其细密的竹帘子在丝絮上过滤以成纸, 而这个在造纸过程中的重要工具进而演变成为“纸”这个产品的名称“”;以“”指称“纸”, 即以工具代称产品。但是, 现在我们所用的“纸”是从“糸”的, 之所以从“糸”, 可以说是源于造纸所用的材料“弊絮”而来。无论是“”还是“纸”, 都与英文词paper 和 book 一样, 是由表示制造产品所必需的工具或原材料的词, 经过形变 (音变和字变) 而变为表示产品的词的例证, 这也体现出了词理对物理和心理加以反映的共性特征。
7.ostracize、tally (talea) 和 则 (則)
英文词ostracize有“放逐;摒斥”义, 其起源在于古希腊雅典的风俗:凡人民所憎恶的人, 不论其有罪与否, 如果经由公众投票, 就可以决定将其放逐国外10年或5年。由于记名投票是记名于牡蛎壳上, 所以原本表示“牡蛎”的oyster凝结成为ostracism (贝壳放逐法) , 进而演变为ostracize (放逐;摒斥) 。
与之相似, 英文词tally作为名词表示“符木 (古时用, 上有刻痕记载交货、欠款等的数量) , 记账, 得分, 标记牌, 标签, 符合, 对应物, 计数器”等意思;作为及物动词表示“点数, 计算, 记录, 加标签于, 使符合”;作为不及物动词表示“符合, 吻合, 记分”等意思。该词直接来源于talea, 即“木棒”, 这源于古代用木签刻痕以记数的生活习惯。
同理, 汉语词“则 (則) ”也体现出了这一特点。
《说文》:“则, 等书物也。从刀从贝。贝, 古之物货也。”就其本义而言, “则”表示用“刀”在“贝”上刻画, 进而引申为“等书物”的意思;并由此而演化为“法则”指义。
从“貝 (贝) ”的字主要有三种语义情况:
第一, 作为名词往往与财物有关, 如:财货资费;第二, 作为形容词往往与财务情况 (15) 有关, 如:贵贱贫;第三, 作为动词往往与财物行为有关, 如:买卖贾贩贷赎;贻赠赏赐贺。
“则”字在此三种情况之外, 属于典型的引申。该情况与英文词ostracize和telly一样, 体现出了词理对物理的直接反映, 进而进一步进行词义引申的共性特征。
综上所述, 语义演变固然与语法原则和语用推理紧密地联系在一起, 但是更重要的, 在语言内部存在着强大的语义推动机制——即词理、物理和心理三者之间是不可分割的统一体。在词理中往往体现出语言使用者对于“物理”的把握, 虽然这种把握因“认识上对事物特征的理解和取义” (16) 不同而具有鲜明的民族性, 但是也有着不容忽视的人类认知共性。着眼于汉语的民族性特点, 同时也揭示出其与其他语言相类似的构词理据性, 对语言的理论研究有着重要的意义, 对汉语第二语言教学更有着特别的作用, 它不但可以消减学习者的语言陌生感和隔阂感, 同时也会激发其语言学习的兴趣。通过对七组汉英词语词理所反映的物理和心理共性特征的粗浅分析只是抛砖引玉, 真诚希望业内方家不吝指正, 以期共同推动汉外对比语义学的发展。
参考文献
罗常培《语言与文化》, 北京大学出版社, 2009
陆宗达《说文解字通论》, 北京出版社, 1981
王力《王力古汉语字典》, 中华书局, 2000
王宁、黄易青《词源意义与词汇意义论析》, 《北京师范大学学报 (人文社会科学版) 》2002年第4期
(通讯地址:100875
网络流行词语“水军”的语义泛化 篇2
关键词:网络流行词,水军,语义泛化
一、“水军”:从词典到流行
2010年11月7日晚,中央电视台《焦点访谈》栏目以“揭秘网络推广”为主题的报道,揭开了“水军”这个群体的神秘面纱。从此,“水军”一词成为了公众的热点议题。说到“水军”,我们可能最先会想到水上作战的军队。但是,在网络上也活跃着一群号召力极强的“水军”。然而,此“水军”非彼“水军”。在网络上发帖(一般为无意义的帖子)的行为被称之为“灌水”,而参与发帖的网络人员是以获利为目的,且人员数量庞大,像一支军队训练有素,因此称其为“水军”。
“水军”原本指用于水战的军队(《辞源》,1979)。而今天流行的“水军”一词,其意义已不同于原先词典里的解释,而且也不限于原先所指的军队,它在流行过程中不断泛化并在社会方方面面中得以广泛应用。例如:
1.周星驰的经纪人回应称:“早前已经通过媒体澄清过文章《为什么那么多人黑周星驰》不是我们写的,更不可能买‘水军’,但如果对方一直坚持她的想法,没有什么好回应的。”(2016年3月16日,中国日报中文网)
2 . 楼市“火爆”暗藏看房“水军”:公开招聘“房托儿”工资80元(2016年4月6日,腾讯视频)
3.这个黑客用“水军”操纵了拉美9个国家的民主选举(2016年4月1日,观察者网)
4.我是猴子请来的“水军”(2015年7月13日,天涯论坛:影视评论)
在以上四个例子中,“水军”一词的含义分别泛化成“网络写手”、“房托儿”、“网络黑客及恶意软件”和“影评者”,其意义远不同于词典释义。
二、“水军”的语义泛化
“水军”流行的意义并未完全脱离它的本意,而是“水军”原有意义发生“语义泛化”的结果。刘大为(1997)认为,语义泛化是指词语在保持越来越少的原有语义特征的情况下,不断产生新的使用方式用来囊括更多的指谓对象;流行语的语义泛化表现特别明显,泛化速度也很快;其泛化过程可分为三个阶段:语义隐喻、语义抽象以及语义含混。“水军”的流行恰好也经历了此般过程,使用频率不断提高,适用范围不断扩展。
1.第一阶段:隐喻引起的语义泛化。“水军”开始流行时,指的是大批以获利为目的在网络上发帖(一般为无意义的帖子)的网络人员,目的性强、训练有素且不承担责任。由于他们是存在于网络上的一个特殊群体,他们制造虚假舆论,降低舆论的可信度,阻碍网络环境的良性发展,因此,“水军”在开始使用的时候带有贬义色彩。2009年这一用法已经见诸报端。例如:
(1)记者采访著名的“网络推手”陈墨、“立二拆四”,其并不讳言他们雇用“水军”操纵舆论的赫赫“战果”。(2009年1月12日,华商报)
(2)现在论坛都有防止灌水的系统,得绞尽脑汁想新内容,又要看起来不像“水军”所为,这工作越来越不好做。(2010年11月26日,腾讯科技)
(3)正是由于他们的精心策划,“水军”们才会在互联网上进行灌水、刷帖,使所推事件在知名网站上得到热炒,进而受到普通网友关注讨论,使事件成为热点,甚至舆论制高点。(2011年1月18日,光明日报)
由于隐喻是建立在两者相似性的基础上,并涉及到语义的转移(束定芳,2000),因此,在词义泛化的第一阶段中,人们在“水上军队”和“网络发帖人员”之间建立隐喻关系,将两者相似之处——“人数多、目的性强、训练有素”凸显出来。这个特点原本是反映“水军”(词典意义)令人产生的联想,现在则成为了“水军”语义中概括两种所指对象的共同的核心特征。因此只要具备“人数多、目的性强、训练有素”这一特征,那么无论是指“水上军队”还是“网络发帖人员”,都可能成为“水军”的所指对象。“水军”指谓范围的扩大为“水军”的语义泛化开辟了空间。
2.第二阶段:语义抽象推动的语义泛化。在语义泛化的第二阶段,“水军”的语义进一步抽象化,由隐喻在网上进行发帖回帖的灌水人员变成各个行业的灌水人员,指谓范围也不再局限于网络。例如:
(1)据龙泉某行销公司负责人杨某介绍,成都的看房“水军”人数至少近万人,天天游走在成都各大楼盘“专业看房”。(2015年12月3日,四川新闻网)
(2)孩子的培训市场“蛋糕”很大,也很诱人,但真正能聘请到名师的却凤毛麟角,有的虽然声称教师具有三年以上的执教经验,实则是刚招进来的大学毕业生。这也给广大家长一个启示,选择业余学校时,不妨实地走走看看,名师是不是真正“师出有名”,课程设置是否过于“噱头”,而不是被“水军”误导。(2011年11月28日,新民晚报)
(3)在记者采访过程中,发现像张晓一样的考研“水军”也有不少。他们中有的是因为求职受困而进“临时起意”,有的是为了家人的希望并非个人意愿……(2014年12月26日,中国考研网)
从“灌水水军”到“看房水军”、“招生水军”、“考研水军”,这些词语与第一阶段相比,“水军”的所指对象从网络灌水者逐渐扩展到房地产、培训学校、和大学生考研等。第二阶段的“水军”开始尝试着跨领域使用,使得语义的边界逐渐模糊,隐喻的特征也淡化了。然而,这一阶段的“水军”依旧带有贬义色彩。
3.第三阶段:语义含混特征下的语义泛化。语义泛化的第三阶段以语义含混为特征。“水军”一词经过隐喻和语义抽象之后,它主要的内涵仅仅表示“人数多”。而前两个阶段的“水军”都有贬义色彩,所以,在第三阶段,它利用“人数多”的特点,越过了自身的贬义色彩,衍生出一种“以义务宣传为模式,以品质说话为保证”的正面舆论效应,也就是我们现在所说的“自来水”。“自来水”是指自然而然形成的“水军”,区别于前两个阶段有目的形成的“水军”。第三阶段的“水军”最初是一群义务宣传《西游记之大圣归来》的影民们的自称,后指真正热心为作品发声的观众。例如:
(1)我是猴子请来的水军,我是自来水。(2015年7月13日,天涯论坛)
(2)国产动画《大圣归来》逆袭《小时代4》,催生网络新词“自来水”。((2015年7月14日,中国日报网)
(3)《夏洛特烦恼》成票房黑马,继《大圣归来》后第二波“自来水”。(2015年10月8日,中国青年网:娱乐频道)
(4)《爱的牵绊》及姐妹篇《幸福抉择》由崔贞允、郑成云等人领衔演出,由于收视火爆和广受观众们的追捧,在首播结束后已无缝衔接复播,依旧在江苏卫视。相比于韩版的百集篇幅,国内版进行了重新剪辑和编排,情节更加紧凑和精彩。观众也在网络上当起了“自来水”,掀起了一阵荐剧狂潮,更有人表示自己得了“《幸福抉择》症候群”,在等待剧集更新期间备受煎熬。(2015年10月28日,南京晨报)
综上所述,“水军”一词在流行过程中的语义泛化从建构隐喻开始,依次经历了三个阶段:在第一阶段,“水军”隐喻大批以获利为目的在网络上发帖(一般为无意义的帖子的网络人员。在第二阶段,“水军”的所指对象由网络人员逐渐扩展到其他行业人员。在第三阶段,“水军”摆脱了贬义色彩,成为一个既有贬义又偏中性的流行词。
三、结语
词汇的语义泛化是社会因素作用下的语言发展。赵荣霞(2001)认为,语言变化的途径是语义泛化。“水军”的语义泛化则是网民们在网络平台上相互交流的产物。如果没有网络这一“催化剂”,“水军”也不会产生并得以迅速发展。此外,人们“求新求异”的社会心理也推动了某些流行语的语义泛化,例如,“水军”、“山寨”等。对于流行语的语义泛化研究,不仅可以更好的探究词语语义的变化过程,还能找到其发展的驱动力或是消亡的原因,为网络背景下社会语言现象的发展提供更好的研究依据。
参考文献
[1]辞源[Z].北京:北京商务印书馆,1979.
[2]包乌云,董锋.语义泛化研究现状[J].语文学刊,2014(21):14-15
[3]刘大为.流行语的隐喻性语义泛化[J].汉语学习,1997(4):33-37.
[4]缪俊.“山寨”流行中语义泛化与社会文化的共变[J].当代修辞学.2009(1):82-89.
[5]束定芳.隐喻学研究[M].上海:上海外语教育出版社,2000:43-44.
[6]赵荣霞.语义泛化和语用空间的扩展[J].平顶山师专学报,2001,16(1):62-64.
聚合词语语义分析 篇3
词语相似度是一个主观性相当强的词语,对于不同的应用词语的相似度也不同。词语之间的关系非常复杂,其相似之处很难用一个简单的数值来进行度量。从某一角度看非常相似的词语,从另一个角度看,很可能差异非常大。在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换程度;而在信息检索中,相似度更多的要反映文本或者用户查询在意义上的符合程度。
目前,对于语义相似度的计算主要分为两种:1) 词语信息量法, 该方法充分利用了信息论和概率统计的相关知识, 但计算的词语间语义相似度不能更细致地区分词语间语义的差别;2) 词语距离法,先计算两词语的语义距离,然后转化为语义相似度。本文在研究了大量文献后,提出了综合利用现代汉语语义分类词典的类层次关系中的多种影响因素来计算词语间的相似度的方法。文中词语间相似度的计算,主要是基于按照词语间结构层次关系组织的语义词典的方法,根据在这类语言学资源中词语之间的上下位关系以及其它一些因素,如语义重合度、语义距离、层次深度、调节因子等多种因素,来计算领域内部词语之间的语义相似度。
1、词语语义相似度的计算
与传统的语义词典不同,《知网》采用了1500多个义原,通过一种知识描述语言来对每个词语进行描述。义原一方面作为描述词语的最基本单位,另一方面,义原之间又存在复杂的关系。在《知网》中,一共描述了义原之间的8种关系:上下位关系、同义关系、反义关系、对义关系、属性-宿主关系、部件-整体关系、材料-成品关系、事件-角色关系。可以看出,义原之间组成的是一个复杂的网状结构,而不是一个单纯的树状结构。不过,义原关系中最重要的还是的上下位关系。根据义原的上下位关系,所有的"基本义原"组成了一个义原层次体系,这个义原层次体系是一个树状结构,可以得到一棵义原词语树,这也是我们进行语义相似度计算的基础。
1.1 词语语义相似度的概念
词语语义相似度是两个词语内在含义之间的相似程度,它在信息检索、信息推荐和过滤、数据挖掘、机器翻译等领域有着广泛的应用,成为当今信息技术研究的一个热点。
定义1当两个词语x、y满足某些共同特征时,用[0, 1]中的一个实数值来表示词语x、y之间的语义相似程度,记为sim (x, y) 。
有定义,易知词语语义相似度具有如下性质:
(1) 词语语义相似度是0和1中的一个实数值,即sim (x, y) ∈[0, 1];
(2) 如果两个词语完全相同,则语义相似度为1,即sim (x, y) =1当且仅当x=y;
(3) 如果两个词语没有任何共有的特征,则语义相似度为0,即sim (x, y) =0ㄢ
(4) 词语语义相似度具有对称性,即sim (x, y) =sim (y, x) 。
1.2 词语相似度的计算
目前,国内外对概念间语义相似度的研究大致可分为两类[3]:
(1) 利用语义词典如WordNet、HowNet中的同义词或义原组成的树状层次体系结构,通过计算两个概念之间的信息熵或语义距离,计算概念间语义相似度;
(2) 利用语料库统计的方法,根据两概念在上下文中出现的频率,计算概念间语义相似度。
在知网的相似度计算中,词语描述式的首义原对语义计算有着十分重要的作用,因此有的研究者将词语词语的首义原抽取出来,放在义原层次结构中计算它们的语义距离,然后用公式转换为相似度值,从而计算词语词语的相似度。
1.2.1 义原距离
两个义原之间的语义距离,是指在义原树中连接这两个节点的最短路径的长度。语言学研究认为,两个义原的语义距离越大,其相似度越低;反之,两个词语的语义距离越小,其相似度越大。
设义原集合为M,义原数量表示为|M|,义原用pi表示,i=1, 2,…,|M|。
设Li为义原pi在词语树中的深度,y为距离初始阈值,x为满足不等式max (L)<y/x成立的一个正实数,则pi与其父结点的距离定义为:
任意两个义原pi、pj之间的距离定义为:
其中ωk表示第k种关系对应的权重,通常取ωk≥1ㄢ
易验证,该定义符合对距离函数的数学要求。
1.2.2 词语相似度的改进
文献[4]中,董振东先生在描述《知网》的结构时,并不是将每一个词语概念对应于一个树状概念层次体系中的一个结点,而是通过用一系列的义原,利用某种知识描述语言来描述一个词语概念。而这些义原通过上下位关系组织成一个树状义原层次体系。因此词语语义相似度的计算我们可以是基于义原间的相似度计算。本文在公式 (2) 基础上考虑如下几个方面:
1) 节点的深度:节点的深度是指义原与树根的最短路径中所包括的边数。因为在义原树中,每一层都是对上一层概念的细化,由此可见,在语义距离相同的前提下,两个节点的深度差越小,概念之间的相似度越大。本文用Dep (p) 表示义原p的深度。
2) 节点密度:节点的密度是指两个义原最近共同祖先的子节点的密度。义原树中不同地方节点的密度是不同的,有的节点可能有几十个子结点,而有的节点可能只有几个子节点。一般来说,某个节点的子节点密度越大,说明细化的概念越具体。这些子节点间的语义相似度也就越小;反之越大。本文用den (p1, p2) 表示义原p1和p2与最近共同祖先的子节点密度。
3) 调节参数:语义相似度是一个主观性相当强的概念,对于不同的应用词语的相似度也不同。调节参数正是根据系统应用的不同来设计的,这里用α来表示调节参数。
综合上面提出的各方面的因素,可以得到以下词语S1和S2的相似度计算公式:
在式 (3) 的三项中,第一项表示语义距离对相似度的影响;第二项表示节点深度对相似度的影响;第三项表示节点密度对相似度的影响;α, β, γ表示语义距离、节点深度、节点密度对语义相似度影响的权重且α+β+γ=1,由于语义距离在相似度计算中占主导地位,而节点密度和节点深度只是起辅助作用,所以α的权重相对较大,β、γ的权重相对较小。
这里考虑的是孤立的两个词语的相似度。如果是在一定上下文之中的两个词语,最好是先进行词义排岐[4],将词语标注为概念,然后再对概念计算相似度。
2、语义相似度的应用
传统的搜索引擎都是基于关键字进行搜索的。搜索引擎本身并不理解用户所要检索内容的真正含义,只是严格地按照用户所提供的关键字进行匹配。这样很容易出现漏查、错查的现象,搜索的查准率和查全率都不能得到保证。例如:要查找以"计算机"为主题的网页,于是在搜索界面中输入检索词"计算机",搜索引擎响应用户的请求,然后把含有关键字"计算机"的网页信息返还给信息用户。然而,可能有一些网页的主题并不含有"计算机"这个词,含有的却是"电脑"这个关键字,虽然大家都知道"计算机"和"电脑"在很多情况下表达相同的意思,但由于基于关键词匹配的搜索机制,这些含有"电脑"的网页资源就被轻易地漏掉了,从而降低了搜索的查全率。在搜索引擎中加入语义相似度计算模块就可以很好的解决这一问题,在输入搜索关键字后,利用词语之间的语义相似度,根据实际应用的需要设定相似度的阈值,从而得到与输入关键词语义接近的概念扩充集,最后利用该概念扩充集中的概念, 进行信息搜索, 找到符合要求的页面[5]。
在实际计算中,假设图1中的词语集合{0, 1, 2, 3, 4, 5, 6, 7, 8, 910, 11, 12, 13}分别为{"电脑", "计算机", "软件", "硬件", "主机", "外设", "应用软件", "系统软件", "主板", "芯片", "内存", "windows", "linux"},如图1所示。
首先分析词语的语义关系,由于词语"计算机"和"电脑"属同义关系,它们的相似度为1,可以把它们等同对待。然后对余下的概念进行处理,这里取权值全为1, a=2,α=0.9,β=0.05,γ=0.05,经过计算得到各个节点之间的相似度如表1所示。
表1反映了人们对词语之间相关联程度的主观认识,在搜索"计算机"时,如果设定阈值为0.9,可以得到的扩展集为{"计算机","电脑"};若设定阈值为0.5,得到的扩展集为{"计算机","电脑","硬件","软件"},再利用这些扩充集进行搜索,可以大大提高搜索的查准率和查全率。
3、结束语
本文对目前词语的语义相似度研究进行了综合分析,提出了一种基于《知网》的词语语义相似度的计算方法。本文通过搜索引擎实例,分析了利用词语语义可以改善搜索引擎的功能,实现一定程度上的智能化。
参考文献
[1]朱礼军, 陶兰, 刘慧.领域本体中的词语相似度计算[J].华南理工大学学报 (自然科学版) , 2004, 32 (z1) :147-150.
[2]刘金岭.一种基于语义的中文短信文本高质量聚类算法[J].计算机工程, 2009, 35 (10)
[3]张承立, 陈剑波.基于语义网的语义相似度算法改进[J].计算机工程与应用, 2006, 42 (17)
[4]http://www.keenage.com, 2008.1.18
聚合词语语义分析 篇4
中华文化源远流长, 古代诗词乃是其中的一朵奇葩。在绮丽的诗词世界中, 被誉为“诗仙”的我国唐代著名诗人李白可谓创造了诗词史上的巅峰。在他或飘逸或大气或感伤或豁达的多变风格中, 与“天”相关的写作可谓多矣。“天”字相关表达, 尤其是那些隐含模糊意义的表达, 衬托出李白的文风, 达到了引人入胜的效果。本文就将选取李白的多首诗词作品为语料, 探究赏析暗含模糊语义的“天”字词组为李白成为“诗仙”所做出的贡献。
二、模糊语义
语义模糊性是哲学家和语言学家共同关注的焦点之一。札德的模糊集合论为范畴语义模糊性研究提供了一个强有力的工具, 从而带来了模糊语义研究的革命性变化。人类自然语言的模糊性在语词及其意义上表现得最为明显, 可能是因为“意义”本身就是一个模糊的概念, 而模糊性又涉及到词义的各个方面。 (陈维振, 吴世雄2003) 自然语言中的词绝大多数都是模糊的, 具体而言可分下列几种情况:a.指示“连续客体”的词。这种词包括时间词、颜色词、年龄词、象声词等;b.可分等级的词。这类词主要是指可分等级的形容词或副词, 如粗-细, 长-短等;c.某些抽象的词。语言中的某些词, 如爱, 民主等;d.无实际所指的词。如独角兽, 鬼等;e.模糊限制语。如汉语中的“大约、左右、也许”等;f.用于概括或虚指的数词。比如百折不挠、虽九死其犹未悔等 (文旭1996) 。
模糊修辞是利用语言的模糊性来提高表达效果的一种艺术。模糊修辞研究的对象是交际过程中的模糊言语问题。它构成手段丰富, 使人们理解语言和运用语言更为合适得体。常见的有:a.运用模糊词语;b.运用模糊限制语;c.利用精确数词和量词的模糊化;d.运用标点符号和没有确切意义的感叹词、充塞词;e.利用传统的修辞格如婉词、比喻、借代、禁忌等, “模糊”了事物之间的界限;f.运用模糊句 (鞠红2002) 。
三、语料分析及讨论
1、语料概况
李白 (公元701-762) , 字太白, 盛唐最杰出的诗人, 素有“诗仙”之称。李白性情旷达潇洒, 藐视权贵。他的诗作如天马行空, 语言豪放洒脱, 反映了唐王朝鼎盛时期的繁华景象和诗人对自由生活的热切向往。因此其诗中遣词造句可谓匠心独运, 无不展现出一种雄浑气魄。
李白一生共创作诗词1010首, 本文语料随机抽取230首李白的诗词作品, 统计分析其中含“天”字的短语或其他表达方式。结果表明有149首满足含“天”字条件, 占样本总数的64.8%。此项足以表明李白有用“天”字表达的习惯倾向。但研究发现, 在这些含“天”的诗句中, 并不是所有的都表示含有模糊修辞, 表示模糊语义。因此, 这些项目将被排除, 剩下的含有模糊意义的诗句方是本文研究的重点。
2、“天”字短语的具体分析
李太白诗中用“天”字短语来表达思想感情, 不自觉的运用了模糊修辞来达到模糊语义。伍铁平 (1999) 曾说“在修辞中模糊能起到精确所起不到的作用”。显然在李白的诗中, 这样的模糊被运用的淋漓尽致。通过分析研究, 可以总结归纳出在模糊语义和修辞下倍显气势的“天”字短语如下分类:
(1) 模糊高度, 形容高度很高。如诗句:“飞流直下三千尺, 疑是银河落九天。” (语出《望庐山瀑布》) 、“君不见黄河之水天上来, 奔流到海不复回。” (语出《将进酒》) 、“蜀道之难, 难于上青天, 侧身西望长咨嗟。” (语出《蜀道难》) 无论是九天, 天上, 还是青天, 它们都无疑用了传统的修辞格, 比喻和暗喻, 来达到模糊修辞, 从而暗指目标物的高度很高。虽然它们所表示的高度不清楚, 但正是这种使人难以料定的描述给人以震撼。读者看来也会对其高度在心里有种直观感悟。
(2) 模糊距离, 形容距离远。在“孤帆远影碧空尽, 唯见长江天际流。” (语出《送孟浩然之广陵》) 中“天际”确切有多远, 无人知晓, 只知描述的是很远的距离。“天际”即天的边界, 尽头, 它运用的模糊的词语来达到模糊修辞, 最终传达给读者的是远距这一意思。再如“三山半落青天外, 二水中分白鹭洲。” (语出《登金陵凤凰台》) 和“天涯失乡路, 江外老华发。” (语出《江南春怀》)
(3) 模糊环境, 形容美丽与未知。“月下飞天境, 云生结海楼。” (语出《渡荆门送别》) 、“不敢高声语, 恐惊天上人。” (语出《题峰顶寺》) 、“愿作天池双鸳鸯, 一朝飞去青云上。” (语出《白纻辞其一》) 在这里“天境”、“天池”和“天上”都不是实指, 而是一些并不存在的模糊语。它们用以描述隐含其中的或静谧或美丽或未知的环境, 修饰和限定其后的“雪”、“人”和“鸳鸯”。这种实际并不存在, 只是给读者提供一种印象, 营造出一种氛围。
(4) 模糊气势, 形容强悍宏大。在此项中, 诗人常以“天兵”、“天门”等这样的搭配来达到形容宏大强悍的气势。“天兵”在人们的印象中往往是某种程度强悍的代名词, 而“天门”给人以同样的感觉, 如“天兵下北荒, 胡马欲南饮。” (语出《塞下曲六首》) 、“天门中断楚江开, 碧水东流至此回。” (语出《望天门山》)
(5) 模糊平滑度, 形容光滑如镜。如“楼船入天镜, 帐殿开云衢。” (语出《春日陪杨江宁及诸官宴北湖感古作》) 中, “天镜”同第一种分类一样, 采用传统比喻这一修辞格达到对模糊修辞的运用, 从而展现出模糊语义, 形容湖水平静, 其光滑程度如镜面一样。
(6) 模糊范围, 形容范围宏广。经统计, 为表现出一种令人震撼的广阔范围, 李白多用以下词组:“天上”, “天下”, “天”, 和“天地”等。如“五月不可触, 猿声天上哀。” (语出《长干行》) 、“吾爱孟夫子, 风流天下闻。” (语出《赠孟浩然》) 、“天虽长, 地虽久, 金玉满堂应不守。” (语出《悲歌行》) “樊山霸气尽, 寥落天地秋。” (语出《经乱离后天恩流夜郎, 忆旧游》) 这些词或是涉及空间范围, 或是涉及所涵盖种类多样, 形容万物, 形容世界。
(7) 模糊气质, 形容神奇高贵。如“半壁见海日, 空中闻天鸡。” (语出《梦游天姥吟留别》) 、“弯弧惧天狼, 挟矢不敢张。” (语出《经乱离后天恩流夜郎, 忆旧游》) 中, “天鸡”、“天狼”都是神话中的模糊形象, 但给读者传达出的都是某物很神奇的感觉。除此之外, 还有表达高贵的词组。像“首农政, 鸣阳春。天子刻玉杖, 镂形赐耆人。” (语出《白鸠辞》) 、“胡马风汉草, 天骄蹙中原。” (语出《登金陵冶城西北谢安墩》) 其中含有的都是极为模糊的形象, 但总体都给人一种神奇高贵的印象。
(8) 模糊声音, 形容声音悦耳。“漫漫雨花落, 嘈嘈天乐鸣。” (语出《登瓦官阁》) 、“天籁何参差, 噫然大块吹。” (语出《感时留别从兄徐王延年从弟延陵》) 都暗指好听悦耳的声音, 至于何种程度就不得而知, 总之就如神话中天庭的音乐般令人陶醉。
(9) 模糊起源, 形容产生自然, 不需外力。有此意义的“天”字短语, 比如“古来万事贵天生, 何必要公孙大娘浑脱舞。” (语出《草书歌行》) 和“清水出芙蓉, 天然去雕饰” (语出《经乱离后天恩流夜郎, 忆旧游》) 。这些词语形容出了自强自立之傲, 自然而不需修饰之美。
(10) 模糊规章, 暗指规律、法规等。在“逆道违天, 矫诬实多。” (语出《日出入行》) 中“天”代表自然中的规律, 是上义词, 可能指总体的法规, 也可能指其中的一部分。简言之, 就是其具体所指代的事物并不清晰, 具有模糊含义, 同时也暗暗表达了违反规律的后果堪忧。
(11) 模糊难度, 形容困难。此项用法亦多采用暗喻的方式来形容艰巨的困难, 例如“举足蹋紫微, 天关自开张。” (语出《上云乐》) 中“天关”这一形象所要表达的就是不易解决的事物, 形容困难之大。也是通过修辞来表达出了模糊的含义, 正好显现出对任务艰巨性的考量。
以上分析了在李白诗中所出现的“天”字表达方式所表达出来的模糊意义, 可以看出达到这种模糊, 诗人多采用实际无所指的词和人们想象出来的词, 同时多运用比喻、暗喻等修辞方式成就模糊修辞。在这两方面的共同作用下, 李白完美的表现出各种想要表达的意象。
四、结语
一“天”字, 在李白笔下使得无数形象熠熠生辉, 道出多少神奇。与不同词语搭配, 恰当的展现出各种感情、形象:高远宏大、美丽高贵、悦耳纯真、敬天守纪、强悍困难等等, 而细细推敲发现这些成功的表达都与模糊语义和模糊修辞分不开。正是这些从“天”字展开的词语表达出了模糊意义, 才给读者留下了无限遐想的空间, 使之去感悟诗中的神奇宏大, 跌宕起伏。李白作诗的时代早已离世人远去, 但其高超的语言运用技巧仍值得今人细心研习, 弘扬古人遗风, 写出更好的诗歌。
参考文献
[1]陈维振, 吴世雄.有关范畴本质和语义模糊性的再认识[J].外国语, 2003 (1) :30.
[2]鞠红.论低调陈述模糊修辞及其特色[J].山东外语教学, 2002 (3) :17.
[3]文旭.语义模糊与翻译[J].中国翻译, 1996 (2) :5-6.