语义网络

2024-10-07

语义网络（精选10篇）

语义网络篇1

摘要：在社会因素的作用下,以网络为媒介的部分网络流行语在传播的过程中语义开始泛化。本文通过分析“水军”语义泛化的三个阶段,由此解释“水军”语义泛化的过程,丰富网络背景下的社会语言现象研究。

关键词：网络流行词,水军,语义泛化

一、“水军”:从词典到流行

2010年11月7日晚,中央电视台《焦点访谈》栏目以“揭秘网络推广”为主题的报道,揭开了“水军”这个群体的神秘面纱。从此,“水军”一词成为了公众的热点议题。说到“水军”,我们可能最先会想到水上作战的军队。但是,在网络上也活跃着一群号召力极强的“水军”。然而,此“水军”非彼“水军”。在网络上发帖(一般为无意义的帖子)的行为被称之为“灌水”,而参与发帖的网络人员是以获利为目的,且人员数量庞大,像一支军队训练有素,因此称其为“水军”。

“水军”原本指用于水战的军队(《辞源》,1979)。而今天流行的“水军”一词,其意义已不同于原先词典里的解释,而且也不限于原先所指的军队,它在流行过程中不断泛化并在社会方方面面中得以广泛应用。例如:

1.周星驰的经纪人回应称:“早前已经通过媒体澄清过文章《为什么那么多人黑周星驰》不是我们写的,更不可能买‘水军’,但如果对方一直坚持她的想法,没有什么好回应的。”(2016年3月16日,中国日报中文网)

2 . 楼市“火爆”暗藏看房“水军”:公开招聘“房托儿”工资80元(2016年4月6日,腾讯视频)

3.这个黑客用“水军”操纵了拉美9个国家的民主选举(2016年4月1日,观察者网)

4.我是猴子请来的“水军”(2015年7月13日,天涯论坛:影视评论)

在以上四个例子中,“水军”一词的含义分别泛化成“网络写手”、“房托儿”、“网络黑客及恶意软件”和“影评者”,其意义远不同于词典释义。

二、“水军”的语义泛化

“水军”流行的意义并未完全脱离它的本意,而是“水军”原有意义发生“语义泛化”的结果。刘大为(1997)认为,语义泛化是指词语在保持越来越少的原有语义特征的情况下,不断产生新的使用方式用来囊括更多的指谓对象;流行语的语义泛化表现特别明显,泛化速度也很快;其泛化过程可分为三个阶段:语义隐喻、语义抽象以及语义含混。“水军”的流行恰好也经历了此般过程,使用频率不断提高,适用范围不断扩展。

1.第一阶段:隐喻引起的语义泛化。“水军”开始流行时,指的是大批以获利为目的在网络上发帖(一般为无意义的帖子)的网络人员,目的性强、训练有素且不承担责任。由于他们是存在于网络上的一个特殊群体,他们制造虚假舆论,降低舆论的可信度,阻碍网络环境的良性发展,因此,“水军”在开始使用的时候带有贬义色彩。2009年这一用法已经见诸报端。例如:

(1)记者采访著名的“网络推手”陈墨、“立二拆四”,其并不讳言他们雇用“水军”操纵舆论的赫赫“战果”。(2009年1月12日,华商报)

(2)现在论坛都有防止灌水的系统,得绞尽脑汁想新内容,又要看起来不像“水军”所为,这工作越来越不好做。(2010年11月26日,腾讯科技)

(3)正是由于他们的精心策划,“水军”们才会在互联网上进行灌水、刷帖,使所推事件在知名网站上得到热炒,进而受到普通网友关注讨论,使事件成为热点,甚至舆论制高点。(2011年1月18日,光明日报)

由于隐喻是建立在两者相似性的基础上,并涉及到语义的转移(束定芳,2000),因此,在词义泛化的第一阶段中,人们在“水上军队”和“网络发帖人员”之间建立隐喻关系,将两者相似之处——“人数多、目的性强、训练有素”凸显出来。这个特点原本是反映“水军”(词典意义)令人产生的联想,现在则成为了“水军”语义中概括两种所指对象的共同的核心特征。因此只要具备“人数多、目的性强、训练有素”这一特征,那么无论是指“水上军队”还是“网络发帖人员”,都可能成为“水军”的所指对象。“水军”指谓范围的扩大为“水军”的语义泛化开辟了空间。

2.第二阶段:语义抽象推动的语义泛化。在语义泛化的第二阶段,“水军”的语义进一步抽象化,由隐喻在网上进行发帖回帖的灌水人员变成各个行业的灌水人员,指谓范围也不再局限于网络。例如:

(1)据龙泉某行销公司负责人杨某介绍,成都的看房“水军”人数至少近万人,天天游走在成都各大楼盘“专业看房”。(2015年12月3日,四川新闻网)

(2)孩子的培训市场“蛋糕”很大,也很诱人,但真正能聘请到名师的却凤毛麟角,有的虽然声称教师具有三年以上的执教经验,实则是刚招进来的大学毕业生。这也给广大家长一个启示,选择业余学校时,不妨实地走走看看,名师是不是真正“师出有名”,课程设置是否过于“噱头”,而不是被“水军”误导。(2011年11月28日,新民晚报)

(3)在记者采访过程中,发现像张晓一样的考研“水军”也有不少。他们中有的是因为求职受困而进“临时起意”,有的是为了家人的希望并非个人意愿……(2014年12月26日,中国考研网)

从“灌水水军”到“看房水军”、“招生水军”、“考研水军”,这些词语与第一阶段相比,“水军”的所指对象从网络灌水者逐渐扩展到房地产、培训学校、和大学生考研等。第二阶段的“水军”开始尝试着跨领域使用,使得语义的边界逐渐模糊,隐喻的特征也淡化了。然而,这一阶段的“水军”依旧带有贬义色彩。

3.第三阶段:语义含混特征下的语义泛化。语义泛化的第三阶段以语义含混为特征。“水军”一词经过隐喻和语义抽象之后,它主要的内涵仅仅表示“人数多”。而前两个阶段的“水军”都有贬义色彩,所以,在第三阶段,它利用“人数多”的特点,越过了自身的贬义色彩,衍生出一种“以义务宣传为模式,以品质说话为保证”的正面舆论效应,也就是我们现在所说的“自来水”。“自来水”是指自然而然形成的“水军”,区别于前两个阶段有目的形成的“水军”。第三阶段的“水军”最初是一群义务宣传《西游记之大圣归来》的影民们的自称,后指真正热心为作品发声的观众。例如:

(1)我是猴子请来的水军,我是自来水。(2015年7月13日,天涯论坛)

(2)国产动画《大圣归来》逆袭《小时代4》,催生网络新词“自来水”。((2015年7月14日,中国日报网)

(3)《夏洛特烦恼》成票房黑马,继《大圣归来》后第二波“自来水”。(2015年10月8日,中国青年网:娱乐频道)

(4)《爱的牵绊》及姐妹篇《幸福抉择》由崔贞允、郑成云等人领衔演出,由于收视火爆和广受观众们的追捧,在首播结束后已无缝衔接复播,依旧在江苏卫视。相比于韩版的百集篇幅,国内版进行了重新剪辑和编排,情节更加紧凑和精彩。观众也在网络上当起了“自来水”,掀起了一阵荐剧狂潮,更有人表示自己得了“《幸福抉择》症候群”,在等待剧集更新期间备受煎熬。(2015年10月28日,南京晨报)

综上所述,“水军”一词在流行过程中的语义泛化从建构隐喻开始,依次经历了三个阶段:在第一阶段,“水军”隐喻大批以获利为目的在网络上发帖(一般为无意义的帖子的网络人员。在第二阶段,“水军”的所指对象由网络人员逐渐扩展到其他行业人员。在第三阶段,“水军”摆脱了贬义色彩,成为一个既有贬义又偏中性的流行词。

三、结语

词汇的语义泛化是社会因素作用下的语言发展。赵荣霞(2001)认为,语言变化的途径是语义泛化。“水军”的语义泛化则是网民们在网络平台上相互交流的产物。如果没有网络这一“催化剂”,“水军”也不会产生并得以迅速发展。此外,人们“求新求异”的社会心理也推动了某些流行语的语义泛化,例如,“水军”、“山寨”等。对于流行语的语义泛化研究,不仅可以更好的探究词语语义的变化过程,还能找到其发展的驱动力或是消亡的原因,为网络背景下社会语言现象的发展提供更好的研究依据。

参考文献

[1]辞源[Z].北京:北京商务印书馆,1979.

[2]包乌云,董锋.语义泛化研究现状[J].语文学刊,2014(21):14-15

[3]刘大为.流行语的隐喻性语义泛化[J].汉语学习,1997(4):33-37.

[4]缪俊.“山寨”流行中语义泛化与社会文化的共变[J].当代修辞学.2009(1):82-89.

[5]束定芳.隐喻学研究[M].上海:上海外语教育出版社,2000:43-44.

[6]赵荣霞.语义泛化和语用空间的扩展[J].平顶山师专学报,2001,16(1):62-64.

[7]宗守云.不可小看的网络“水军”[J].语文建设,2011(1):39-40.

语义网络篇2

述谓结构的语义表达特征和潜在语义模式分析

述谓结构的研究和分析旨在展示一个更为具体的语义结构,并通过语义网络的探讨和描述使我们更清楚地看待世界认知现象的本质和特征.述谓结构中词义的.模式分析涉及矢量的测度、词义的余弦值、词义的邻近词域等,这些以语料库为基础的定量词义的描写和分析使我们更加明确地理解了语义结构描述的意义,并且通过模拟可体验到对事物进行认知的过程.

作者：蔡碧霞 Cai Bi-xia 作者单位：温州大学,经济学院,浙江,温州,325035刊名：安徽大学学报(哲学社会科学版) PKU CSSCI英文刊名：JOURNAL OF ANHUI UNIVERSITY(PHILOSOPHY & SOCIAL SCIENCES)年，卷(期)：29(4)分类号：H313 H314.1关键词：述谓结构潜在语义空间模式分析

语义Web:电脑能懂的网络篇3

eBags网站的CTO克里斯•卡明斯也认为使用基于语义技术的软件在增加销量上发挥了重要作用。“自从部署了这种软件后，我们的成交率增加了一倍。”他说。

科布解释说，Endeca的网站导航软件让购买者可以根据类型、品牌、价格和箱包大小迅速找到自己想要的商品。“我们有超过500个品牌和4万多种箱包，用传统技术用户找起来很不方便，我们几年前就意识到语义搜索和指导对改善消费者的购物体验是多么重要。”

由于为产品提供了非常详细的细节描述、明确的产品特性介绍以及合理的目录划分，语义技术还使得eBags网在Web搜索引擎结果页面中的位置得到了提升。最近几年来，像eBags这样引入语义技术的企业越来越多，语义技术本身也正在迅速成熟。

语义Web最早出现在上个世纪90年代后期，由有“互联网之父”的Tim Berners-Lee第一个提出。Tim Berners-Lee 认为，语义网是一种非常有前景的技术，因为它能帮助人们准确地找到所需的资料、答案以及想要的产品。最为重要的是，这一切非常简单，不需要使用者设计出复杂的查询语句，或组合几十个不同的关键字，也不需要对数千个互不相关的URL中进行排序。

为了实现“互联网之父”提出的这一愿景，W3C在Tim Berners-Lee的领导下制定了一些标准，以允许不同的计算平台和软件代理来识别、访问和集成来自不同网站的信息，并把企业内多个信息孤岛中的信息整合到一切。

“例如，使用W3C组织制订的标准RDF(Resource Description Framework,资源描述框架），零售商和制造商可以相互共享非常详细的产品信息。”百思买（BestBuy）Web开发首席工程师杰依•迈尔斯介绍说，“现在，许多供应商还在使用电子表单来提供产品信息，这使得产品信息的提取非常困难。”

迈尔斯认为，百思买目前还没有充分发挥W3C的RDF标准的潜力，他说这是一个相当长期的目标。同样，互联网之父的梦想要真正实现也非常遥远，虽然我们的确距离它越来越近。鉴于此，许多企业的决策者仍持对是否能采用语义技术实现赢利和回避风险持怀疑态度。

“对于语义技术而言，现在还需要一个杀手级应用来说服企业用户在语义Web软件方面大胆投资，语义技术到了该突破的时候了。”咨询顾问、《技术的下一次浪潮》一文的作者菲尔•西蒙表示。

事实上，尽管语义Web技术进展比较慢，但这项技术的确在进步，而且采用这项技术的企业也越来越多，包括电子商务、电子出版和医疗保健的市场营销和金融服务等都已经从这项技术中受益，虽然这些企业也许并不知道语义Web技术是如何发挥作用的，甚至也没有弄清楚其明确的投资回报率。另外，语义Web还衍生出新的技术，情绪分析（Sentiment Analysis）就是其中之一，情绪分析是一门用来分析人们是否真正喜欢某个公司的产品和服务以及到底是哪些人喜欢该公司的产品和服务的技术。

此外，一些企业软件供应商，如IBM、Oracle、SAS和微软已开始在自己的产品中引入语义技术，如Oracle Database 11g Semantic Technologies 、SAS Ontology Management以及IBM's InfoSphere BigInsights。而网络搜索引擎，如Google、微软的Bing和雅虎也在做同样的工作。

百思买等公司的成功就表明了语义Web技术的潜力。百思买的迈尔斯表示，自从他的团队在网站博客的产品页中加入语义元数据后不久，网站流量中来自搜索引擎的增加了30％，这意味着很多人是通过搜索结果知道该产品，而不是看到网络广告后点击而来。

语义Web技术如何工作

语义Web技术是指支持符合W3C标准的语义搜索、查询、发布和检索，语义技术采用了多种技术来分析和描述数据对象及其相互关系。

语义技术中数据的定义是基础，其中包括普通的字典以及一些行业专用术语，而对于那些有多种含义的单词，常常要分析语法和上下文来解决语言歧义。例如，“这个表单有40行”中的“行（row）”是名词，而“她每周划5次船”中的“划（row）”是动词。

解决了语义含糊问题后，才可以确保购物者到一个网站搜索时可以得到含义相同但表述方式略有不同的搜索结果。另外，才有可能解决复杂的语句查询问题。

完成数据的定义之后，内容还要和描述性元数据或“标记”联系起来，并映射到一个本体(ontology)，本体是一些描述数据对象及其关系的规则（参见附图）。建立本体通常需要两个方面的人共同努力，一方是懂得语义规范的技术人员，而另一方面则是懂业务、了解主题的专家。

语义技术的标准是非常关键的部分， W3C一直在着力推动这项工作。这些标准除了现有互联网协议（如XML和HTTP等）之外，还包括以下内容：

资源描述框架（RDF）和RDF模式（RDFS）：它描述如何表示信息和本体的架构（也称为词汇表）。

简单协议和RDF查询语言SPARQL）：它定义访问和查询数据的语言。

Web本体语言（OWL）：它对本体进行了更为详细的描述，还提供了一些RDFS的元素。

大多数业界领先的语义Web平台都支持这些标准的最新版，包括Cambridge Semantics、Expert System、Revelytix、Endeca、 Lexalytics、Autonomy和 Topquadrant等。而很显然，只有更多的语义Web平台都支持这些标准，语义技术的潜力才能充分发挥。比如，如果所有消费电子产品在线销售网都基于RDF这样的语义Web标准来建立用以描述其产品目录的本体，那么，其他语义Web平台就可以使用SPARQL查询来访问这些信息，网购者则可以用支持W3C标准的浏览器对这些网站的产品使用类似“按价格排序列出所有42〜52英寸的平板电视”这样的语句进行查询。

现在的搜索引擎和一些第三方网络购物网站虽然也提供产品的比较，但它们往往局限于一些事先规定的属性。而且，消费者常常发现第三方提供的信息已过时或者根本就不正确，要么尺寸不对要么颜色不准。基于W3C相关语义标准的查询与符合这些标准的购物网站结合起来，网购者就可以进行更全面的比较，更为重要的是这些信息就来自供应商，因而也是准确和最新的。

最近，W3C的SPARQL工作组正在开发一个SPARQL的服务指南，以规范SPARQL的“端点”或信息源如何以指定的方式提供它们的数据，比如如何描述数据是何种类型以及有多少数据等。

一个语义网络是一种由错综复杂的关系和单词含义构成的结构，它包括所有单词的全部定义以及所有单词之间的关系。

谁需要语义Web

浅谈“夏俊峰案”的网络语义障碍篇4

关于城管和小贩的报道历来都能引起极大的关注。小贩一直都被舆论视为弱势群体, 而城管则拥有一定的权力, 公众对城管自然不会理解和支持, 再加上一些城管队员粗暴执法, 成为媒体推波助澜的典型, 于是造成了一种社会公众的刻板成见——在人们眼中, 城管仿佛成了“野蛮”、“粗暴”的化身。这种刻板印象让人们对城管充满偏见。

以“夏俊峰案”为例, 从网络中搜集夏俊峰被执行死刑后的相关报道可以看出, 该案引发了强烈的关注, 这其中出现了传播的语义障碍, 与本案有关的事实似乎并没有完全得到客观的对待。

截至2013年11月25日, 在百度中搜索“夏俊峰”, 可以找到相关的新闻约89 200篇, 其中有大量的对于案情的追踪报道。在百度“夏俊峰吧”中, 有66 591篇帖子, 主题6 333个, 会员数为1 067个, 有24篇精品帖, 其中关于夏俊峰的有15篇。精品帖中点击率最高的为《2013年城管暴力执法事件》, 有20 808次点击, 排在其后的为《对夏俊峰再一次审判, 看看到底是不是正当防卫》, 有13 764次点击。与该案有关的精品贴题目分别为《夏俊峰刀刺城管案始末》、《对夏俊峰再一次审判, 看看到底是不是正当防卫》、《2013年城管暴力执法事件》、《祈福夏俊峰一路走好, 盖楼祈福》、《希望另一个世界不再有小贩和城管之间的冲突, 一路走好》、《夏俊峰, 一路走好, 天堂没有城管》、《夏俊峰, 天堂的路请走好》、《我认识的夏俊峰》、《许四多支持夏俊峰 (2011年5月) 》、《向日夜坚守在道德岗位上的挺夏者致敬!!!》、《夏俊峰列传》、《八点听书:一个小贩的生与死》、《凶恶的城管》、《陈有西律师为夏申冤已进入攻坚时刻, 请大家联名声援!!》、《是谁审核的“烈士”称号!是谁通过的?顶多算一件责任事故, 是不是》。这些帖子的内容均力挺夏俊峰, 为他伸冤等等。

在“夏俊峰吧”可以看到, 自夏俊峰被执行死刑这两个月来, 该贴吧几乎每天都有最新的回帖, 11月中仅有10日和17日没有回复, 10月也只有9、14、16、17和26日无人回复, 而9月25日, 也就是夏俊峰被执行死刑的当天开始, 一直到9月27日, 这个时间段的发帖数量约有650篇, 而9月1日至24日期间, 只有10次回帖。可见夏俊峰被执行死刑之后, 此案再度引发百度网友热议。回帖中大多为对夏俊峰及其家人的同情和支持, 仅少数帖子是替申凯和张旭东两人鸣不平, 同时, 也有极个别帖子保持了客观中立的立场, 如《不同情夏俊峰也不同情城管》。

“夏俊峰吧”中夏俊峰的支持者有的谴责城管的恶行, 有的可怜夏俊峰死得冤屈, 有的客观冷静地指出不要一味支持夏俊峰而辱骂城管。这几种类型的帖子数不胜数, 同时还有大量的帖子反映城管暴力执法, 如《城管打死无辜路人判刑6年, 小贩打死城管就该判死刑》、《城管又作孽了》、《城管戳瞎老人眼睛, 那只狗叫桂智宝》。

在百度中搜索被害人关键词“申凯”则只找到相关新闻约2 360篇, 占报道“夏俊峰”的2.65%。搜索“申凯张旭东”只找到了相关的新闻报道约1 530篇, 占报道“夏俊峰”的1.71%。其中有16篇的内容是关于为申凯追加烈士称号的报道。在百度中并没申凯和张旭东的贴吧。仅在“夏俊峰吧”里出现了一些力挺这两名城管的言论。

通过对比, 我们可以看出网络中多数意见是支持夏俊峰的, 杀人犯似乎成了民族英雄, 这就出现了传播中的语义障碍。舆论一边倒的现象, 阻碍了事实的正常传播, 让公众的意见逐渐向错误的方向发生偏离, 这是一个很明显的传播障碍, 这种障碍的出现在很大程度上要归于媒体的助推作用。

在“夏俊峰案”的报道中, 几乎很少出现媒体关于推动社会进步的反思, 更多的都是在煽情炒作, 丝毫不顾此案中死者家属的悲痛之情, 有的还试图违背道德塑造所谓的暴力“英雄”, 这有悖于媒体的客观公正态度。

如果媒体出于同情心去宽恕罪行, 并以此为暴力犯罪辩护的话, 最终只能助长更多极端情绪的爆发, 形成负面影响, 从而让更多公众形成难以更正的刻板成见。我们的媒体, 不能成为推动社会暴力的帮凶, 而应秉持公平公正的态度进行报道, 以客观和理性去推动社会进步。

同时, 公众也应当深刻反思, 在接收媒体信息时, 切忌不加思索地一味顺从, 要保持清醒的头脑, 对于媒体报道的新闻事件要冷静对待, 不要盲目跟风。要积极主动地接受新鲜的观点, 改正刻板成见, 从而减少网络信息传播中的语义障碍。

摘要：2013年9月25日, 沈阳小贩夏俊峰因刺死两名城管, 被执行死刑。然而, 这个轰动网络的小贩刺死城管案却远没有结束, 反而引来了更为激烈的争论。网络中关于该案的报道内容出现了语义障碍, 从而导致受众对于该事件的偏见, 使真实的内容得不到传播。

关键词：语义障碍,夏俊峰案,刻板成见

参考文献

语义网络篇5

【关键词】瓦西里椅子形态语义

产品语义是以符号的认知观来认识和研究工业产品，它的设计符号语言主要体现在形态上，所以也称为产品形态语义。产品形态语义对促进人机环境的和谐统一有积极的作用。建立产品形态语义的传达目标，从而用产品的概念性语义来逐层把握使用者的心理诉求，力求最大限度地满足其对产品的需求，同时诠释产品的特征，表达产品的功能。

产品形态语义的设计，无论是外观造型还是信息界面，都是经由设计师与使用者之间的交流，使产品形态表征，包括功能、使用、美学、文化等内在的意义信息的有意识的规划和调整，来加快产品形态语义的生成。

1 产品形态语义的生成

产品形态语义的生成实际上是人、物、环境、社会以及文化等关系在产品与人的情境构架中的清晰化、关联化的循环展开的过程。

产品形态语义生成的方法实质就是对各种造型符号进行编码，综合其材料、音响、色彩、质感、结构、造型等视觉要素；设定产品的使用环境；建立产品由“表及里”，即由外延意义向内涵意义这一预期语义的延伸。

产品形态语义的生成不仅要考虑产品形态的表象（能指）与意义（所指）之间的对应关系，更要考虑使用者这一因素，因为形态语义的生成都是在人际传播中形成的。产品形态语义实际上就是用来“传情达意”的，是传递信息情感的媒介。

2 瓦西里椅子形态语义生成方法及目标语义传达编码功效

2.1 瓦西里椅子背景资料分析

瓦西里椅子是包豪斯在德绍市崭露头角的第一批产品之一。它在很大程度上巩固了包豪斯学校作为功能主义设计领导者的声誉。椅子的设计者马塞尔·布鲁尔（1902-1981）是为了纪念他的老师瓦西里·康定斯基（Wassily Kandinsky），故而取名为“瓦西里椅子”。当时，为了方便，材料大多是用黑、白纤维布或金属丝网制成，包括可折叠和不可折叠两种造型。

2.2 瓦西里椅子的使用情境和文化情境设定

为了更好地分析瓦西里椅子的使用情境，本文首先描述一个高级设计公司的员工休憩与交流的场景图：一个美好的中午，忙碌了一个上午的员工们吃完午饭，聚集到这个充满艺术气息的场所，放松地进行沟通交流。小“休憩”场所以瓦西里椅子为依托，坐在椅子上不仅舒适，而且也烘托着整体空间简约实用的理念。员工们在这里阅读、思考、交流、休憩，促进了员工之间的友谊与合作，一切都显得十分的惬意，就这样，大家聚集在这里放松地度过中午时光......

从以上描述的休憩场景中我们可以提取瓦西里椅子使用的一些关键词：休憩、舒适、简约、实用、阅读、思考、交流、合作等，这些关键词构成了瓦西里椅子的使用情境。瓦西里椅子是现代主义风格，“Less is more”的装饰思想﹑机械化发展和新材料的应用，使椅子的造型越来越靠近纯形态（三角﹑圆﹑方）之间的组合重构。瓦西里椅子整体形态的简约实用与环境是一致的，西式生活的典雅和精致以及功能主义就构成了瓦西里椅子使用的文化情境（如左图所示）。

2.3 建立瓦西里椅子形态语义的传达目标

瓦西里椅子是受到当时的社会环境影响而产生的，是对包豪斯“艺术和技术新的统一”概念的表现形式。基于之前的分析，结合产品的任务描述，我们可以建立瓦西里椅子的形态语义传达目标。

主要从外延语义的传达目标和内涵语义的传达目标来描述。如表1所示。

2.4 瓦西里椅子形态语义传达编码转换和整合

在确立了瓦西里形态语义的传达目标之后，就要对这些传达目标转换成编码并进行整合。如表2所示。

在分析了瓦西里椅子的形态语义的传达编码之后，需要对传达编码中重复和冲突的内容进行调整和优化，最后形成完整的传达编码体系。通过综合运用产品设计中形态的各种要素，最后形成了如下方案。

设计说明：瓦西里椅子，是最早应用钢管材料的设计产品之一，是对包豪斯“艺术和技术新的统一”概念的一种表现形式。他使用现代工业的生产工艺，利用比较廉价和实用的材料，解决标准化问题，也是功能主义的代表作。造型轻巧优美，结构单纯简洁，具有优良的性能。不仅突破了传统的座椅造型，而且更加注意椅子的功能性，让人感觉更舒适，这款设计很好地将功能主义和式样主义相互补充，相互结合。总之，瓦西里椅子是艺术与功能相统一的设计产品。

2.5 瓦西里椅子形态语义目标传达编码功效描述

在完整地将产品形态语义的传达编码整合到实际产品的设计中之后，还需要对完成的产品进行评价。以下是对瓦西里椅子的传达编码功效的一个描述，主要是对产品所传达的信息内涵，体现的审美趣味和表达的情感诉求的一个描述。

瓦西里椅子，造型轻巧优美，结构单纯简洁，具有很优良的性能。瓦西里椅子曾被称作二十世纪椅子的象征，在现代家具设计历史上具有重要意义。由于钢管家具具有包豪斯最典型的特点，以至于被后人认为是包豪斯的同义词。

艺术创作的真正标准是形式和功能的相互关系。为了证明这一点，萨利文阐述了一条自然规律：“自然界中每个物都有形式，也就是说都有自己的外部特征，外部特征向我们指明这个物是什么，以及我们和其他物的区别。无论何时何地，形式都遵循功能”。瓦西里椅是比较注重功能性的设计。因 “坐”而“做”，为“座”而设计。这是一种典型的功能主义，其最基本的原则就是：形式遵循功能。瓦西里椅的外观造型很简约，没有繁琐的装饰加以点缀，更注重椅子本身的实用价值，即椅子的功能性。与瓦西里椅的功能主义完全不同的是装饰主义，装饰主义注重强调设计的外观形式，而不是优先考虑功能性。装饰主义不同于功能主义，它所奉行的不是形式和功能相统一，形式为功能服务的原则，而是使形式大于功能的手法，在游离于功能之外追求形式的新颖。

瓦西里椅不仅突破了传统的座椅造型，而且更加注意椅子功能性，让人感觉更舒服，同时，椅子的重量也更轻。这款设计很好地将功能主义和式样主义相互补充，相互结合。在艺术设计实践中，一件好的设计作品往往是功能主义和式样主义相互补充，相互结合，做到形式和功能相统一。

结语

语义网络篇6

互联网的发展表现为互联网分布的全球化和用户的普及化, 它急速发展的同时也给网络恶意代码的泛滥埋下了伏笔。近几年的调查显示在网络安全事件中大约有84%是计算机病毒、蠕虫和木马程序, 它们是危害网络安全的首要问题。目前的反病毒软件在一定程度上能够阻止这些恶意代码通过网络传播, 但是存在的一个严重的弱点是缺乏预测性, 即恶意代码的检测滞后于感染。

本论文针对以网络为传播途径的典型恶意代码, 基于语义过滤数据包研究新型检测技术, 弥补现有检测方法的不足。

2、典型的网络病毒特性分析

2.1 网络蠕虫

网络蠕虫经过十几年的演变, 文伟平等给出一个较为全面的定义, 网络蠕虫[1]是一种智能化、自动化, 综合网络攻击、密码学和计算机病毒技术, 不需要计算使用者干预即可运行的攻击程序或代码, 它会扫描和攻击网络上存在安全漏洞的主机, 通过局域网或者国际互联网从一个节点传播到另外一个节点。虽然网络种类繁多, 新的变种层出不穷, 但网络蠕虫源代码结构和攻击特点上有很大的共性, 其较为突出的特点表现为:具有自我复制能力、反复性、主动攻击性、很强的传播性、破坏性、潜伏性和触发性。

2.2 特洛伊木马

计算机上的特洛伊木马[2]是一个通过端口通信的客户端/服务器方式的远程控制程序, 它驻留在目标计算机里, 可随计算机自动启动并在某一端口进行侦听, 在对接收的数据识别后对目标计算机执行特定的操作。其实质就是通过一段特定的程序 (木马程序) 来控制另一台计算机, 通常包括两个可执行程序:一个是客户端, 即控制端, 另一个是服务端, 即被控制端。特洛伊木马通常具备以下特性:隐蔽性、自动运行性、欺骗性、自动恢复功能、自动打开特别端口。

2.3 恶意网页脚本

脚本病毒[3]是使用脚本语言编写的恶意代码, 一般以Script为前缀, 有时前缀为VBS或JS, 一般带有广告性质, 会修改IE首页、注册表等信息, 造成用户使用计算机的不便。比较典型的如红色代码 (Script.Redlof) , 欢乐时光 (VBS.Happytime) , 十四日 (Js.Fortnight.c.s) 等。恶意网页脚本病毒具有以下几大特点:编写简单、破坏力大、感染力强、变种多、欺骗性强。

3、本系统结构与原理

本系统主要包括主控模块、数据包获取模块、语义框架关系模块、访问控制模块和恶意代码特征库。各个模块以及数据库之间的所属关系用图1表示:

(1) 主控模块:负责向各个模块发出处理指令, 协调几个模块之间的工作。

(2) 数据包获取模块:对恶意代码过滤实质是对数据包的过滤, 所以实现感染前截获恶意代码必须先实现截获通过网络向客户机传递的数据包。利用NetTank-网络流量分析工具实现数据包截获, 同时对数据包解析, 并存入统计分析数据库, 以便于建立语义关系框架。

(3) 语义框架关系模块:将统计分析数据库中的所有信息分类, 填入预先构建的语义关系框架。在语义关系框架中将数据包内容分类, 根据NetTank的分析不同内容填入不同的类中。

(4) 恶意代码语义库:存放典型网络恶意代码语义特征, 提供判断当前数据包是否存在恶意代码的依据。对检测到的恶意代码抽取其语义特征并存入该数据库, 实现对语义库及时更新。

(5) 访问控制模块:增加路由器接口上数据包出入的灵活性, 限制网络流量, 根据每个数据包的信息内容决定是否允许该包通过接口。实现对网络数据包信息的一层过滤。

4、检测系统中的关键技术

4.1 数据包解析技术[4]

以太网中常用的帧格式有两种标准:DIX Ethernet V2标准和IEEE的802.3标准。现在最常用的MAC帧是V2格式, 以以太网V2帧的格式说明数据包解析。格式:

(插入8字节) 目的地址 (6字节) ->源地址 (6字节) ->类型 (2字节) ->数据 (46-1500) ->FCS (4字节)

抽取有用信息, 即:数据 (4 6-1500) , 并将这些传输中的二进制数据还原为字符, 以获得其行为属性。

4.2 语义框架模型

<框架名>

<1动作><11><12><13>...<1n> (权值11…权值1n)

<2主体><21><22><23>...<2n> (权值21…权值2n)

<3客体><31><32><33>...<3n> (权值31…权值3n)

<n词性><nl><n2><n3>..<nn> (权值n 1…权值n n)

其中权值按照以下公式[5]计算:

把这个关于行为属性的语义框架看作两个二维矩阵, 矩阵一为语义矩阵, 第一列表示属性, 依次向后为别表示具有该属性的元素, 没有数据的位置用“空”填充;矩阵二为权值矩阵, 分别表示语义矩阵中各元素的权值, “空”的权值为0。

4.3 语义过滤机制

将恶意代码语义库按照以上方法建立语义框架模型Q, 并与获取的数据包的语义框架模型F作比较运算。

(1) similar (F, Q) ∈[0, 阈值A) , 计算权值并比较权值的接近度。权值计算公式:

(1) similar (Wf, Wq) ∈[0, 阈值M], 无恶意代码;

(2) 否则, 有恶意代码;

摘要：当前比较成熟的恶意代码检测方法是特征码检测法, 它在网络恶意代码隐蔽性越来越好的趋势下已暴露出存在的弱点:病毒检测滞后于病毒感染。本文提出了一种基于语义的检测方法, 在网络通信阶段对数据包进行语义过滤, 在一定程度上解决了传统检测法存在的弊端。

关键词：恶意代码,数据包解析,语义框架,过滤机制

参考文献

[1]文伟平, 卿斯汉等.网络蠕虫研究与进展[J].软件学报.2008.8

[2]http://baike.baidu.com/view/446816.htm

[3]http://baike.baidu.com/view/22288.htm

[4]http://hi.baidu.com/ucyouma/blog/item/84fc76cb787c891fbe09e615.html

语义网络篇7

互联网的快速发展和广泛应用, 为人们提供了一个广阔的信息空间, 也为信息检索提供了一个广阔的发展平台。互联网的开放性和自由性使得网络信息资源呈现出数量巨大、异构性、分散性和动态性特征。但由于网络信息时效性强以及互联网缺乏必要的监督和质量控制, 使得大量垃圾信息混于高质量信息当中, 增加了有效信息获取的难度, 影响检索效率。因此, 使用有效的检索工具才能使得网络信息资源为人们所充分利用。

1 网络信息资源点与检索工具

上世纪90年代中期出现的搜索引擎技术目前已经成为检索各类网络信息资源最主要的检索工具。搜索引擎一般工作流程是借助于网络自动搜索软件 (Robot、Spider等) 访问浏览网页并抓取文件, 并通过已浏览的网页中的链接访问更多网页。在抓取网页的同时对页面文件进行分析分解以及索引, 建立索引数据库。当用户在搜索引擎界面输入搜索词后, 搜索引擎对搜索词进行处理, 按照处理后的搜索词在索引数据库中找出所有包含相关内容的网页, 并更具排名算法计算出排名顺序然后按照一定的格式返回到搜索页面。普通的搜索引擎缺点在于返回的检索结果数量巨大, 无关和冗余信息较多, 用户必须从中进行筛选。虽然布尔运算、截词运算、自然语言检索等技术使用大大提高了准确率, 但对用户检索素养要求很高。针对以上问题, 学者把研究对象放到对词意的挖掘上, 探索实现基于概念匹配的检索技术和方法, 基于本体的语义检索成为研究重点。

2 语义检索基本要素和原理

随着人工智能以及自然语言处理的发展, 尤其是语义网技术的兴起, 自上个世纪以来语义检索研究得到了迅猛的发展。虽然对于语义检索在概念上到目前为止没有统一的界定, 但是不同的研究都有一个共同之处就是基于对信息资源的语义处理时限效率更高的检索[1]。本体是语义检索的基础, 其主要任务是对信息资源进行语义表达。

本体 (Ontology) 原本是一个描述客观事物本质的哲学概念, 是对客观存在的一个系统的解释和说明。如今, 本体是一种能在语义和知识层次上描述概念体系的有效工具, 用来描述概念以及概念之间的关系, 通过概念之间的管理来描述概念的语义。本体作为一种最先进的知识表示方式能够充分的描述所以的数据结构, 是推理和关系数据库的结合[2]。概括的讲本体能够在人们和应用系统之间达成对术语含义的共享和共同理解, 通过函数 (functions) 、关系 (relations) 、原则 (axioms) 和实例 (instances) 、类 (classes) 这5种元素表达本体中的知识, 使其具有逻辑推理和语义识别功能, 帮助检索系统跨越目前基于关键词的检索过程中的上述问题以实现语义检索[3]。目前实现网络检索的技术主要有两种:第一种, 依赖于编码处理, 以分类模式来描述信息资源以实现检索的目的;第二种, 是通过全文检索查找文本中包含用户指定的词语的信息源。语义检索的语义信息的提取和处理是基于语义网方法与技术的查询处理与文档标注及索引。基于本体的查询处理包括:查询消歧和查询扩展, 通过消岐, 明确查询的确切所指, 准确反映用户的信息意图, 继而通过加入与其语义相关的其他概念来实施扩展。在对文档进行语义标注与索引的基础上, 先进行实例检索, 再据此返回所有以检出实例标注的文档信息是语义标注文档检索的一种普遍思路。相对于传统的网络检索, 基于本体的语义检索的优势在于体现语义信息, 准确表达用户的查询意图。

3 常见语义检索系统介绍

3.1 一体化医学语言系统 (UMLS) UMLS (Unified Medical Language System)

作为计算机化的情报检索语言集成系统, 是美国国立医学图书馆 (NLM) 主持的一项长期开发研究计划。它不仅是自然语言处理、语言规范化以及语言翻译的规范化工具, 更是实现实现跨数据库检测的词汇转换系统并且还可以帮助用户连接情报源, 包括书目数据库、事实数据库、计算机化的病案记录以及专家系统过程中对于其他的电子式生物医学情报的一体化检索。UMLS包括情报源图谱 (Information Sources Map) 、语义网络 (Semantic Network) 、专家词典 (SPECIALIST Lexicon) ) 和超级叙词表 (Metathesaurus) 四部分。其中超级叙词表是术语、生物医学概念、等级范畴、词汇及其涵义的广泛集成。1997年第8版的超级叙词表收录了739439个词汇, 这些词汇来源于30多种生物医学词表和分类表的能表达33万多个概念的, 词汇量达到空前规模。而语义网络是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具, 是为建立概念术语间相互错综复杂关系而设计的。UMLS的语义网络不仅运用了常规的语义控制手段, 如属分、相关关系控制、语义等级, 同时在语义规范和语义关系分析、延伸等多方面有许多创新。

3.2 语义网 (Semantic Web)

为了能够在网络环境下也同样实现语义检索的功能进而开发研究了语义网的W3C项目。W3C项目是将网络上的数据通过一种方式进行连续和定义, 通过这种定义和连续可以根据人的不同需求实现计算机将数据自动进行整合以及再利用, 从而达到更有利于人机协作的目的。资源描述框架 (Re-source Description Framework, 简称RDF) 是语义网的核心构件。在网络中, 一般用元数据对资源进行描述, 而RDF则是处理元数据的一个基础。RDF认为一个具体的元数据是由属性值 (Statements) 、属性 (Properties) 和资源 (Resources) 构成的三元关系模式[4], 实际上是关于一个特定的资源特定属性的取值声明。使用RDFS语言, 元数据的设计者不仅可以定义所描述资源的类别、属性以及词汇, 还可以定义这些属性或者对象的关系以及对象与属性之间的相互关系, 同时还可以进一步定义这些资源的对象、属性以及属性应用类别和取值条件等, 通过这些定义从而能以计算机理解的标准方式对元数据进行描述语义内容以及元数据的结构关系。

3.3 Word Net

Word Net是一种基于认知语言学的英语词典, 它是由普林斯顿大学的计算机工程师、心理学家和语言学家联合设计的不仅是把单词以字母顺序排列, 并且是按单侧的意义组成的一个“单词的网络”。Word Net将所有的英语词汇按词性分为功能词、形容词、动词、名词和副词五类。动词被组成各种推演关系;名词在词汇记忆中被组成主题的层次;而形容词和副词被组织在N维超空间中。根据Word Net关系分析最大的优势是能在他的单词网里通过相关关系消除歧义, 因为Word Net分析主要是关系分析。Word Net在名词的语义消歧率可以超过60%。

4 结语

从以上三个语义系统来看, 无论是相对封闭的ULMS系统还是开放式的语义网、wordnet系统都具有较强的灵活性和扩展性。相对于常见的关键字信息检索, 语义检索不需要用户使用专业的检索策略, 也不需要语法严谨的检索式, 用户可以将自己的信息需求通过自然语言直接表达出来。语义检索在后台经过大量的计算, 分析用户的用户的语义文档信息, 充分利用各种语义关系消除歧义将用户真正需要的准确的信息资源反馈给用户, 将用户的检索效率提升60—80%。因此, 语义检索无疑是当前信息爆炸条件下最适合的网络信息检索方式。

摘要：互联网给用户的信息检索带来便利的同时也导致大量冗余信息出现, 使得检索效率低下。语义检索通过对用户检索要求的语义分析使得检索效率以及检索准确度大大提升。本文在分析语义检索基本要素和检索原理的基础上, 介绍三种常用的语义检索系统, 体现语义检索在网络信息检索环境下的优势。

关键词：语义检索,本体,语义网

参考文献

[1]黄敏, 赖茂生.语义检索研究综述[J].图书情报工作, 2008, (6) :63-66.

[2]Studer R, Benjamins R, Fensel D.Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25 (1-2) :16l-197.

[3]翁畅平, 沈娟.基于Ontology的个性化语义检索系统研究[J].图书馆理论与实践, 2009 (10) :77-80.

语义网络篇8

网上的不良信息包括暴力、色情、邪教等内容。仔细分析后发现,这些信息的表达可以分成两类,一类是主题性信息表述;另一类是带有倾向性的表述。前者具有明确的主题表达,例如某些黄色网页、恶俗广告等等,这类信息清晰直观,容易识别;后者除了主题信息外,还涉及上下文的限定关系,例如包含“法轮功”主题的文章,有些是站在批判法轮功的立场上来表达观点的,有些却是站在支持法轮功的立场上的,因此对这类信息进行分析时,不仅要分析其主题内容,还要分析它的立场和态度,即它的倾向性。显然,单纯的基于统计的主题关键词匹配过滤技术不能满足这种过滤要求,要解决这个问题,除了要进行主题分析外,还要对文本进行内容分析,弥补统计方法缺乏语义信息的弊端,从而更准确地实施对不良信息的甄别。

通过进一步分析发现,局部的倾向性也不能作为定性的标准,因为许多分析文章可能存在不同观点的引用,所以必须分析上下文的语义表达,剔除干扰因素,正确理解文章的真实观点。

基于上述分析,不良信息过滤的主要技术特征是:

(1)确定文本与主题相关;

(2)确定与主题相关文本的倾向性;

(3)允许局部倾向性和全局倾向性不同。

与信息检索不同,不良信息过滤中的主题性信息一般都非常明确,利用主题词很容易定位,不必进行词义的延伸和相似性扩展。基于这一点,可以在整个分析过程中,先找出包含主题性信息的文本,然后再对该文本进行倾向性判定,这样就可以大大减轻语义分析的处理量,提高过滤速度采用。

1 语义分析的简化

语义分析是自然语言处理的主要技术。目前在语义分析研究领域已经获得了长足的进步,较为成功的研究成果包括Word Net语义词典、格语法、语义框架理论等[1,2],这些成果已经在信息处理领域得到应用并取得了很好的效果。鉴于其复杂程度和实际的过滤需求,用于网络不良信息过滤需要进行适度的简化处理,抽象出简单实用的语义框架。概括来讲,文本过滤中对语义分析的要求具有如下特点:

(1)无需对目标文档做整体的语义分析和理解,仅需要判断个别语句的倾向性;

(2)语义分析只针对特定的范围和知识领域;

(3)语义单元匹配不需要很精确;

(4)实时性要求较高,易于扩充更新。

相对于计算机的认知能力,自然语言具有极其复杂的结构和表达。因此,语义分析不得不使用复杂的语义词典和语义框架来近似表达,其中还有许多难以逾越的技术障碍,但就不良信息过滤的具体应用来说,问题就得以大大地简化。基于上述分析,本研究采用了一种经过简化的语义分析方法[3],既满足了倾向性文本过滤的范围和精度需要,又保证了在网络环境中的实时性要求。

为了表示语句中的语义关系,本文采用了简化的语义模式来表示文本的基本语义框架。在进行语法和语义分析时,根据动作的施加和承受,可以将文本分为四种语义模式:

(1)主体(Who)、行为(What)、个体(Whom),即主-谓-宾模式;

(2)主体(Who)、行为(What),即主-谓模式;

(3)行为(What)、个体(Whom),谓-宾模式;

(4)倾向性主题词,即关键对象模式。

在许多文本中,有些主体、行为或个体本身就表现出对问题的倾向,如个体“恐怖袭击”、行为“暴乱”本身就已经反映了强烈的正面倾向性,模式4中把具有这种明显倾向性的主体、行为或个体统称为关键对象。

2 基于语义分析的过滤模型

我们设计的基于语义分析的过滤模型如图1所示。

信息过滤过程主要分为三个步骤:

(1)主题信息过滤

因为语义分析是相对于文档中的单句处理,所以首先要对单句是否包含特征信息进行判别,直接滤除那些不含主题信息的语句。这样可以排除大部分对相关性分析影响不大的文档,降低语义分析过滤操作负荷,提高文档处理效率。

考虑到文字表达的多样性和一些规避审查故意加入干扰字符的特例,主题信息过滤按相似度进行匹配计算[4],相关算法表达如下:

用A={a0,a1,…,am-1}和B={b0,b1,…,bn-1}分别表示长度为m和n的短文本。基于相似度依赖于两个短文本中相同文字的位置,定义:

为A中第i个文字与B中相匹配文字的位置集合。当A的第i个文字在B中无相匹配文字时,C(A,i,B)为空集合。同时,定义:

其它为文字Ai的最小匹配偏移值,定义:

为文字Ai的匹配贡献值。定义:

为短语A相对于短语B的相似度,其数值在[0,1]之间。

根据不同的主题信息和过滤要求,可以将相似度阈值定义在0.5-0.8之间,阈值增大匹配范围缩小,考虑到有二级过滤,相似度阈值不宜过大。采用这种简单的相似度匹配算法可以简化主题词的表述,扩大了主题词匹配范围,大大提高了过滤效率。

(2)语义分析

语义分析是系统的核心单元,利用预先定义的模板,在给定的语句范围内进行匹配计算。由于待处理的字符串很小,所以处理速度已经不是问题,而准确率主要取决于过滤模板的设计和语义分析算法,从这个意义上来说,该过滤模式的准确率基本与速度无关并且是可调、可控的。

基于语义的过滤模板就是将语义关系体现在模板所定义的框架中。在过滤模板中,概念的角色分配是最重要的。根据敏感信息的语法结构,抽取特征项按模板的角色定义填充,形成一个可以进行类比的关系框架。这样的过滤模板具备以不完全信息去匹配文本的能力。

依据前述对语义关系的简化,我们定义三种语义关系过滤模板。

完整的语义分析过程包括分词、确定语义关系、填充语义框架等步骤。就目前的研究水平来说,准确分析自然语言的语句结构还难以实现,实际上多采用按词义和词性确定语义框架,这在一定程度上是可行的[5]。鉴于网络不良信息的范围和特点,可以构建一种专门针对不良信息的词典,基于这样的词典进行语义分析,相对于基于知网知识结构的语义分析[6],可操作性更强,算法更简便,随着词典的扩充和完善,精度将会不断提高。

(3)相关度计算

相关度(relevancy)表示对文档信息倾向性的量化,其量值就是过滤分析的结果。通过与给定的相关度阈值比较,计算机即可判定输入文档的倾向性。如果单个语句的相关度量值还不足以得出确切结论,系统还要依次处理后续文档,直至全部文档处理完毕。

假设待过滤文档表示为D,每个句语义分析得出的相关度值为Ri,(i=1,2,…,n),则全文语义相关度Rd的计算公式如下:

表示正面倾向的语义模式设置为正相关,表示反面倾向的语义模式设置为负相关,比如,批判法轮功的各模式相关度可分别设置为1~3,宣扬法轮功的各模式权重可分别设置为-1~-3,绝对值越大表示该种倾向性越大。

这样计算出的全文语义相关度可以消除因引用反面信息而造成的误判。例如,正面文章中可能引用一些反面信息,出现这类语句的语义模式的相关度可能会小于零,而其他大部分语义模式的相关度是大于零的,而通过上述公式计算出的整篇文章的全文语义相关度还是大于零,因此不会误判倾向性。

相关度设置的另一个好处是可以实现对不良信息的分级,这样就可以对信息进行分级审查。例如,政治性信息为1~3级,暴力4~5级,色情6~7级,其它8~10级,从而实现分类处理和预警,满足更深层次的需求。

3 结果分析

为了测试本模型的过滤效果,我们进行了一个有限范围内的简单测试,收集并筛选出了300篇(段)文档样本,包含正、反及无关文章各100篇,其中无关文档为涉及该主题的一般性报道,不带有明显的倾向性。系统测试结果如表1所示。

从实验结果来看,本系统一级过滤由于采用精确主题词匹配,准确率100%,可以滤除大量无关文本,大大减轻语义分析的负荷,符合预期。二级过滤的准确率达到80%以上,表明该过滤模型效果良好,好于设计预期。限于样本篇幅和测试条件没有进行过滤速率测试,但直观感觉没有问题。

影响准确率的因素很多,最关键是过滤模板的表示影响极大,试着改变不同的表示或所有格关系,结果在不同文档上表现差异很大,反映构建通用模板有一定难度。其次,语义词典既要有针对性,又要有一定的词义延伸,保证语义理解的正确性。另外,语义分析的算法还有待于优化,可以考虑引入较为复杂的匹配算法予以完善。

总之,初步测试证实了这种基于语义分析过滤模式具有高效、准确的过滤效果,符合设计预期,相信系统经过全面调试和优化之后,可以达到较高的过滤性能,完全满足对网络不良信息的过滤要求。

4 结论

本研究通过对信息过滤相关技术的深入分析研究,提出以自然语句为基本单元的思想,简化了文档预处理,同时大大地减轻了后期分析、统计和计算的工作量,提高了处理速度;采用以主题词扫描为初选的过滤技术,极大地减少语义分析的工作量,保证了系统的处理效率;设计了简化的语义分析模型,既保证了过滤的准确性要求又简化了算法,保证系统可以满足网络信息过滤的实时性需求。

摘要：设计一种基于语义分析的信息过滤模型。该模型针对不良信息的特点,以自然语句为处理单元,采用主题词和语义分析的两级过滤工作模式,可以同时获得较高的处理效率和精度。样本实验表明,该过滤模型能够更好地满足不良信息过滤的实时性和准确性要求。

关键词：信息过滤,语义分析,文本过滤,不良信息

参考文献

[1]Miller G A,Beckwith R,Fellbaum C,et al.Introduction to WordNet:An on-Line Lexical Database[C]//Five Papers on WordNet,CSL re-port,Cognitive Science Laboratory,Princeton University,1993.

[2]Laham D.Latent Semantic Analysis approaches to categorization[C]//Proceedings of the19th Annual Meeting of the Cognitive Science Socie-ty,1997:979.

[3]金峰,刘永丹.一个倾向性文本过滤系统的设计与实现[J].计算机工程与应用,2003(30):137140.

[4]王莹莹.中文短语相似度计算方法研究及应用[D].长沙理工大学,2008.

[5]金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291297.

语义网络篇9

1 网络机器翻译种类

广义地来说,网上机器翻译主要有如下几个方面:

(1)基于因特网的网上机器翻译。它指由软件来实时翻译的网页,或是客户将所要翻译的网页的URL地址发送到提供服务的服务器,服务器翻译完后再回送。这种类型的网上机器翻译有以下优点:可以在很短的时间里获得正式的译文及通俗文本;可以很快地翻译外国文章;还可以用多种语言进行实时交流。

(2)基于电子邮件的网上机器翻译。它由用户将需要翻译的资料用电子邮件发给提供此项服务的公司,等翻译完以后再用电子邮件发回给用户。这实际上是非严格意义上的“网上”机器翻译。

(3)基于语音的网上机器翻译。目前还只是在实验室阶段,仅仅做到面对一定主题域。但由于网络带宽的不断增长和多媒体技术的快速发展,以及当前对更加友好的人机界面的急迫要求,可以预料,这种类型的网上机器翻译将很快走向应用。

在机器翻译整体发展的同时,不可否认的是,中英之间的互译显得相对较难突破,这主要是因两种语系之间的巨大差异所造成的。其中,英语译汉语相对要容易些,但目前大部分产品的翻译结果依然难以让人正常阅读[1]。

2 当前网络机器翻译的理论和技术缺陷

当前网上机器翻译产品质量的进一步提高,有赖于各个方面的全面提高,其中包括基础理论方面、实现技术方面、利用因特网的特点方面以及用户和开发商的观念等。目前的机器翻译理论尚不是很完备,仍不足以圆满地以计算的方式来解析各种各样的语言现象,还需要计算机科学、语言学、心理学、逻辑学、信息学等多学科学者专家的共同努力。其中,最重要的是语言学,当前的网络机器翻译产品质量较差,这并不能反映出大多数机器翻译系统的真实能力,其原因在于几乎所有网络机器翻译系统都依赖于字典查找语言规则的有限集,以及基于规则的机器翻译方法的简单句法转换原则。现有的机器翻译理论在处理简单句上效果不错,但是句子结构稍复杂,修饰成分和限定成分多,就开始力不从心,对句子结构的识别出现困难,造成语序的混乱和成分的判断错误[2]。这是机器翻译理论现在最大的问题,此外还有歧义、指代等问题也有待解决[3]。目前,存储在网页中的信息以一种有限的形式存在,隐藏在网页里的标记语言用于描述文档的布局,例如视觉图像与文字穿插和互动环节。这样计算机才能读到并对其进行处理,然而现在计算机还不能理解网络中存储的信息,也就是说不能使基于意义的项目建立连接。如果要使网络信息被计算机理解,就应该使用语义网技术。

3 语义网技术的对现有互联网技术的升级

1990年,蒂姆伯纳斯李(Tim BernersLee)发明了互联网上的超文本系统,使网络互连技术用于人们的信息交流与共享,从而极大地促进了互联网的发展。现在,互联网已经成为人们进行信息交流的重要工具。人们可以通过互联网来寻找自己关心的信息,也可以通过互联网来将自己的信息发布出去。但随着互联网应用的不断扩展,现有互联网技术的局限也逐渐暴露出来。现有互联网技术的核心是超文本系统,它的主要思想是通过统一资源标识符(Uniform Resource Identifier,URI)对互联网上的信息进行标记,使人们可以迅速地对互联网上的信息资源进行定位。然而,现有互联网技术并没有对信息的含义进行描述,计算机在处理信息时只是按照URI来定位信息,但对信息的内容并不关心。而人们真正关心的是信息的内容,也就是互联网上的文本、图片等资源所包含的意义。由于现有互联网技术的局限性,互联网上信息处理的自动化、智能化程度是很低的,计算机处理器的强大功能也没有得到有效利用。互联网技术的研究者正在研究新的技术,以改变这种状况,其中最令人瞩目的是语义Web技术。语义Web是互联网研究者对下一代互联网的称谓,通过扩展现有互联网,在信息中加入表示其含义的内容,使计算机可以自动与人协同工作。也就是说,语义Web中的各种资源不再只是各种相连的信息,还包括其信息的真正含义,从而提高计算机处理信息的自动化和智能化。然而,计算机并不具有真正的智能,语义Web的建立需要研究者们对信息进行有效的表示,制定统一的标准,使计算机可以对信息进行有效的自动处理[4]。

3.1 智能检索的能力

语义网的主要开发任务是使数据更加便于电脑进行处理和查找,其最终目标是让用户变成全能的上帝,对因特网上的海量资源达到几乎无所不知的程度,计算机可以在这些资源中找到你所需要的信息,从而将万维网中一个个现存的信息孤岛,发展成一个巨大的数据库。语义网将使人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件,在搜索数以万计的网页时,通过“智能代理”从中筛选出相关的有用信息,为互联网上杂乱而庞大的信息设计一种架构,使它们易于查找和利用[5]。

3.2 智能评估的能力

语义网研究的主要目的是扩展当前的万维网,使得网络中尽可能多的信息都具有语义,使计算机能够理解和处理,便于人和计算机之间的交互与合作。语义网研究的重点就是如何把信息表示为计算机能够理解和处理的形式,即带有语义。语义网好比是数据库智能化、协调好的巨型大脑,可以解决各种难题。“语义网”就是使机器做到人类才能做的事情,所要解决的问题就是要使机器具备对储存在网络空间的数据进行智能评估的能力。能够进行语义分析的搜索代理,可以从多种来源收集机器可读的数据,对它们进行处理并推理出新的事实。语义网力图使计算机在一定程度上也同样可以像人类一样理解信息的含义,从而有助于信息的共享和再利用,并使网络能够提供动态的、个性化的服务。例如:它可以让计算机辨认和识别“head”这个单词的意思是“头脑”还是“领导”。

3.3 智能鉴别的能力

为了使语义网能实现让计算机自动识别和处理网上信息,更容易判断信息的真假,从而达到实用的目标,首先需要制订标准,该标准允许用户给网络内容添加元数据,即解释详尽的标记,这就需要采用所谓“置标语言”。不同应用领域的标记符号和规则是不一样的,因此“置标语言”必须是灵活的、可扩展的,以便给使用者提供自定义功能,也叫“可扩展的置标语言”,即XML。使用XML语言打上标记的那些词语或数据,计算机就可以读懂。名为“智能代理”的软件不仅能识别这些标记,理解它们的涵义,而且还能理出它们之间的逻辑关系,从而对文档中的数据进行深度的处理,准确、精细、快速地查找到人们需要的网页,这些词语也能被各种不同的计算机应用程序进行自动处理,帮助人们解决许多工作和生活中的难题[6]。

4 语义网对网络机器翻译的影响

机器翻译有多种不同的方法,但不是所有方法都适合网络机器翻译。语义网的潜在受益者之一是基于实例的机器翻译系统。基于实例的机器翻译系统的基本思路很简单:用以往的翻译实例来解决一个句子的翻译问题。其主要假设是:现有的许多翻译产品是以往翻译的简单修改。它主要依赖于通过从对齐平行语料库中提取的翻译实例自动生成新译文。这种方法的局限性在于这些语料库的可用性,因为这些语料库仅在某些学科领域和语言中存在[7]。语义网将有望提高所有网络文件的使用率,例如可以提高对源文件译文的自动识别,同时词义翻译准确性的提高也变得更为可行。这一切如何才能够达到?基本思路是给文件和数据库中的数据加上语义编码,然后以不同方式利用这些编码使文件之间建立更多连接,从而使文件内容的连接建立在意义之上。简单的说其构架包括以下内容:

(1)XML允许用户根据需要自定义一些“有意义的”标签对发布的内容进行标记,并使用文档类型定义(Document Type Definition,DTD)或XML Schema来约束这些标签的结构。例如,没有基于XML的标记语言,计算机不会知道“I have two cats”一句中“I”或“cats”指的是什么。

(2)资源描述框架(Resource Description Framework,RDF)和RDF schemas。RDF本身并没有规定语义,但是它为每一个资源描述体系提供一个能够描述其特定需求的语义结构的能力。它用来描述网页上一些特征,以RDF标注的网页上的信息,也称作“RDF Statement”,是以三元的形式注明的,即主语-谓语-宾语。主语是被描述的事物,谓语是被描述事物的特性,宾语是其特性的价值。

(3)Web ontology Language具有更多的词汇量和更强大的语法功能。它能帮助基于实例的机器翻译系统从网上文件中创建对齐平行语料库的其他来源,通过使用语料库从基于实例的机器翻译系统中生成大致粗略的译文,同时消除译文中词或短语的歧义现象[8]。Ontology在某种意义上说,就是一种简单的本体(Ontology)语言。RDF/RDFS对特定应用领域的词汇描述能力比较弱,需要进行扩展,RDF/RDFS之上的扩展层被称为Ontology层。本体定义了用于描述和表示领域知识的术语。它通常表征为一组对象(概念),关系、函数、定理等。换句话说,本体是对事物及其关系的描述。文件中的术语和代码可以和有关本体挂钩,这样,一个包含特定学科领域特点的文件通过一个“指针”机制就能从本体结构获得一些意义。

从内容和形式上来看,今天的万维网基本上是一个出版媒介,是一个存储和共享图像与文本的地方,通过扩展现有互联网,引入语义学后,在信息中加入表示其含义的内容,将可以从本质上改变Web的性质,从一个仅仅是显示信息的地方改变为一个可以对信息进行解释、交换和处理的地方。能够进行语义分析的搜索代理,可以从多种来源收集机器可读的数据,对其进行处理并推理出新的事实,使网络能够提供动态的、个性化的主动服务,是一个信息更为丰富,更为个性化的网络。从信息处理方式看,语义网的主要开发任务是使数据更加便于电脑进行处理和查询,其最终目标是让用户变成全能的上帝,对因特网上的海量资源达到几乎无所不知的程度,计算机可以在这些资源中找到你所需要的资源,从而将万维网中一个个现存的信息孤点,发展成一个巨大的数据库。将这个经过编码处理的具有意义链接的数据库作为机器翻译系统的语料库,不但解决了传统机器翻译中平行语料库学科领域和语言的限制,而且提高了机器对具体语境中词汇或短语意义自动识别的准确率[9],使其对意义的推理和判断更接近于人脑,从而超越了基于规则的句法转换原理。

5 结语

万维网是图像与文本的数据库,语义学引入后将会从根本上改变万维网的性质,将信息进行解释、交换和处理,从搜索服务器端通过分散于各处理服务器中的应用分析来搜索数据库,从多种来源可以收集一些机器可读数据,处理并推理出新的事实。基于语义网技术的机器翻译系统可以使分散于全球成百万的独立数据库融合为其后台语料库,使翻译结果更加智能化,最终使不同层次和语言的用户能独立运用网上庞大的信息资源。

参考文献

[1]QUAH C K.Translation and technology[M].上海:上海外语教育出版社,2008.

[2]CARPUAT M,WU D K.Improving statistical machinetranslation using word sense disambiguation[C]//Pro-ceedings of the 2007 Joint Conference on Empirical Methodsin Natural Language Processing and Computational NaturalLanguage Learning.[S.l.]:[s.n.],2007:61-72.

[3]刘群.机器翻译研究新进展[J].当代语言学,2009,11(2):157-158.

[4]白同强,刘磊.语义Web的研究与展望[J].吉林大学学报:信息科学版,2004,22(2):154-158.

[5]王宁.语义网的研究与展望[J].科技情报开发与经济,2007,32(17):1-3.

[6]王祥瑞,郭丰敏.语义网的功能特性及应用前景[J].农业与技术,2008,28(6):172-174.

[7]赵晴.国外基于语料库翻译研究述评[J].重庆交通大学学报:社科版,2008,8(6):100-103.

[8]段曹林,曾翠媚.网络语言的语义变异[J].江汉大学学报:人文科学版,2009,28(6):76-77.

语义网络篇10

关键词：语义网,Web3.0技术,Baidu MapAPI编程,地理数据获取,SQLite引擎,Jena工具,地理本体,本体构建, IKVM.NET虚拟机

经过近10多年的研究与发展, 作为Web3.0重要组成部分的语义网已经走出实验室进入工程实践阶段。由于万维网上已产生了浩瀚的网络信息和知识资源, 寻找人们所需要的准确信息常常耗费大量人力精力。提供网络信息的语义半自动化或自动化处理已迫在眉睫。这就使语义网是成为Web 3.0最有希望的基础技术。它的核心思想是:通过给万维网上的文档 (如:HTML) 添加能够被计算机所理解的语义 (Meta data) , 从而使整个互联网成为一个通用的信息交换媒介。语义网与本体技术实际上是人类知识领域的概念标准化运动, 这就涉及到逻辑描述 (Description Logics) 和推理 (reasoning) 技术。由于描述网络数据的需要, 科学家们开发了一系列元数据描述语言, 如RDF/RDFS等。出于建模后进行语义分析与推理的需要, 科学家规定了本体描述语言 (如OWL) , 并开发了种种特定领域的本体 (Ontology) 。所谓本体, 可以简单地将它理解成特定知识领域中满足共同约定的常识部分, 这对于特定领域信息分类是必要的一步。

接下来要实现的功能就是主要利用语义网技术, 在C#环境中基于IKVM的Jena接口来实现铁路交通的语义查询功能, 该功能结合了地理信息系统的周边领域, 获取城市中心范围内与火车站相关的POI信息, 存储于SQLite数据库中, 然后利用Jena推理进行“包含于”某城市的语义查询。本程序实验数据主要为在线调用百度地图数据。程序最后的实现效果如图1所示。

本程序使用的是SQLite数据引擎和Java API编程, 因此很容易移植到Android系统。

功能实现分为3篇介绍。本篇主要讨论了总体设计思路, 介绍在C#中进行地理数据的网络获取、SQLite数据操作类和本体操作类的设计, 第二篇介绍从关系数据库中创建本体与定义推理规则。第三篇介绍集成本体推理结果并在地理空间中可视化。

1 问题的提出

传统的信息检索通常是通过关键词来实现的, 其原理是用户提出查询式—通常由若干个反映主题的词汇组成, 然后系统在数据库中将提问式与预存的文本关键词进行自动匹配, 两者相符的文本被检出。但是大量的事实证明, 这种通过词汇简单匹配检索出的结果并不是最优的。例如, 在进行火车站点换乘查询时 (目前大多数程序就是根据关键词查询) , 当用户查询“武汉”关键词, 往往只能查询到包含“武汉”字符的记录, 而使用者的真实意图可能还需要知道武汉区域的“武昌站”、“汉口站”。本程序就是要利用语义网技术解决这个问题。

2 设计思路

下文所述的具体实现方法是根据百度地图的Web服务进行城市中心位置的周边查询, 将查询结果存储到SQLite数据中并与铁路交通数据相结合, 利用运行于IKVM.NET上的Jena API创建铁路站点本体, 将本体存储为owl文件;当用户进行火车站点查询时, 基于创建完的本体模型进行规则推理和本体查询, 得到语义查询结果并在网络电子地图上显示。方法设计思路如图2所示。

以下分别简单介绍一下百度地图Java Script API地图引擎、SQLite引擎、Jena工具、IKVM.NET虚拟机。

百度地图Java Script API提供了地图基本功能 (显示、平移、缩放、拖拽等) 、兴趣点搜索、周边搜索、公交驾车路线搜索、逆/地理编码等, 可以十分方便地获取地理信息数据并搭建电子地图应用。

SQLite是一款轻型的嵌入式数据库, 它有着相当小的内存占用和高速的响应, 遵守ACID的关联式数据库管理系统;它的设计目标是嵌入式的, 而且目前已经在很多嵌入式产品中使用了它, 在嵌入式设备中, 可能只需要几百KB的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统, 同时能够跟很多程序语言相结合, 比如C#、PHP、Java等, 还有ODBC接口;比起Mysql、Postgre SQL这两款开源的数据库管理系统来讲, 它的处理速度比他们都快。SQLite 3版本已经发布, 很多著名的公司 (诸如Adobe, Apple, Google, Sun, Symbian) , 开源项目 (Mozilla, PHP, Python) 都在产品中装配SQLite。Android中, SQLite是被集成于Android runtime, 每个Android应用程序都可以使用SQLite数据库。

Jena由HP Labs (http://www.hpl.hp.com) 开发的开源的Java开发工具包, 用于Semantic Web (语义网) 中的应用程序开发。Jena框架主要包括: (1) 以RDF/XML、三元组形式读写RDF:其内容包括RDF模型的创建、读写、查询等操作。 (2) RDFS, OWL, DAML+OIL等本体的操作:Jena框架包含一个本体子系统 (Ontology Subsystem) , 它提供的API允许处理基于RDF的本体数据。本体API与推理子系统结合可以从特定本体中提取信息。 (3) 利用数据库保存数据:Jena 2允许将数据存储到硬盘中, 或者是OWL文件, 或者是在关系数据库中。这里处理的本体就是由OWL文件读入的。 (4) 查询模型Jena 2提供了ARQ查询引擎, 它实现SPARQL查询语言和RDQL, 从而支持对模型的查询。 (5) 基于规则的推理:ena 2支持基于规则的简单推理, 其推理机制支持将推理器 (inference reasoners) 导入Jena, 创建模型时将推理器与模型关联以实现推理。

由于Jena是Java开发包, 因此, 在C#环境中使用Jena, 必须要使用虚拟机让Java程序和.NET应用程序一起协同工作。程序选中的C#环境中Java虚拟机就是IKVM.NET。

IKVM.NET包含以下的部分:IKVM.Runtime.dll VM运行时和所有支持代码。它包括以下的功能:Byte Code JIT编译器和验证器, 使用JIT将Java Byte Code编译为CIL (C中间语言) 。对象模式映射结构, 将.NET中的System.Object, System String, System.Exception映射为Java代码中的java.lang.Object, java.lang.String, java.lang.Throwable。管理本地方法 (在Classpath中) 的.NET重新实现。IKVM.GNU.Classpath.dll被编译的GNU Classpath版本, 它是由自由软件基金会实现的Java类库和一些IKVM.NET附加代码组成的。ikvmc.exe静态编译器, 被用来编译java类和jar使其成为.NET汇编 (静态模式) 。ikvmstub.exe一个从.NET汇编生成存根类的工具, 就如javap一样反编译.NET汇编。

以上的API或者开源代码都是本程序要用到的。

3 使用SQLite.NET设计数据操作类

程序在.NET使用的wrapper是SQLite 3.7.14., 命名空间为System.Data.SQLite, 它只需要一个dll, 接口符合ADO.Net的定义, 性能也不错, 支持集成VS2005、VS2008和VS2010, 支持.NET Framework 2.0-4.0, 而且Android系统已经集成了SQLite, 这是个亮点。。

下面详细介绍怎么使用SQLite.NET实现一个操作SQLite数据库的类。因为SQLite.NET符合ADO.NET的规范, 其使用方式基本和Ole Db、Odbc、Sql Client等一致。但是, 它的SQL语句略有区别, 如“udpate”语句的字符串连结操作符为“||”, 而不是有些数据库系统的“+”符号:

没有空间定位信息的SQLite事例数据内容如图3所示。

4 根据地图Web服务添加火车站点空间信息

程序中用到的测试数据是近期的部分铁道交通票价和主要城市名称, 由于这两种数据只有属性信息, 没有地理坐标信息, 也没有空间拓扑关系中的“包含于”那个城市的关系信息, 因此这些数据需要进行空间定位以获取这些信息。

程序利用.NET Framework类库中的Web Client类调用Baidu地图的Place Web服务来完成空间信息获取。百度地图Place服务是一个供程序员调用的、http形式的地图服务接口。它主要服务那些非网页程序的调用, 例如C#、C++、Java等开发语言都能发送http请求且能接收返回数据。用户只需在请求的url字串中拼接好关键词、检索区域和一些过滤条件, 即可获取到想要的POI点的信息, 包括该点的名称、地址、分类等信息。目前, Place API提供的功能包括:矩形区域关键词检索、周边区域关键词检索和城市内关键字检索。

Place Web服务地址及格式为:http://api.map.baidu.com/place/search?&query=关键词&bounds=查询区域&output=输出格式类型&key=用户密钥。

程序用到的两个地理信息检索为:

(1) 指定城市内检索 (返回xml数据)

如:http://api.map.baidu.com/place/search?&query=北京&re gion=北京&output=xml&key=37492c0ee6f924cb5e934fa08c6b1676

返回事例数据为:

(2) 周边区域检索 (返回xml数据)

如:http://api.map.baidu.com/place/search?&query=火车站&location=39.914889, 116.403874&radius=2000&output=xml&key=37492c0ee6f924cb5e934fa08c6b1676

返回事例数据如图4所示。

程序的Web Client对象从URI标识的以上的地图服务资源接收脱密变形后数据, 一边用城市内检索进行城市坐标定位, 一边用周边区域检索对火车站点定位并确定“包含于”关系, 程序具体实现如下。

得到坐标位置和站点位置“包含于”关系的样例数据, 如图5所示。

5 使用Jena创建本体的类、属性和个体

一般来说, 可以在Protege这样的编辑器里构建了本体, 但用程序操作本体是很有必要的, 因为在很多情况下如要从关系数据库中自动生成大量的本体, 靠人手通过Protege创建所有本体是不现实的。本应用程序里使用Jena创建OWL格式的本体。

Jena最基本的使用是处理RDF (S) , 但毕竟OWL已经成为W3C的推荐标准, 因此程序将使用com.hp.hpl.jena.ontology接口根据SQLite表的数据来创建本体。OWL核心是围绕三元组的, 即在很多资料中看到的陈述 (Statement) , 它的组成为:Statement= (Subject, Property, Object) , 其中Subject为主体, Property成为属性, Object成为客体。Individual称为个体。它是Subject、Object的一个实例, 例如在Statement= (Animals, Eat, Plants) 陈述中sheep是Animals的一个Individual, grass是Plants的一个Individual。一切的主体、客体、个体、类、属性等都可以称为资源 (Resource) 。在编程中OWL常用的是Ont Model, Ontclass, Ont Property, Individual。Ont Class可以用来创建主体、客体, Ont Propety用来创建属性, Individual用来创建个体, Jena结构如图6所示。

因此, 对应于关系数据库-本体, 在本应用程序中对应关系是:数据表-class (类) 、字段-属性 (Property) 、记录-个体

(Individual) 。

下面介绍代码具体实现:

6 结语

介绍了基于SQLite数据引擎、地图Web服务和C#环境中的Jena, 实现地理定位信息的网络获取和本体的类、属性等的构建。这一部分功能为利用语义网技术实现铁路交通的地理语义查询的实现进行了数据预处理和基本操作的准备工作。从本篇实现的功能可以看出, SQLite的执行效率高、地图Web服务能够方便提供有用的地理空间定位信息, 而使用IKVM, 可以使基于Java的开源程序很方便地集成到C#中使用。

参考文献

[1]董志.C#集成Google Map API进行地理空间的定位[J].电脑编程技巧与维护, 2011 (19) :47-53.

[2]Baader F, Horrocks I, Sattler U.Description Logics as Ontology Languages for the Semantic Web[M]//Lecture Notes inArtificial Intelligence.[S.l.]:Springer, 2005.

[3]http://www.ibm.com/developerworks/cn/java/j-jena/.

[4]http://www.sqlite.org/cintro.html.

[5]http://developer.baidu.com/map/.

【语义网络】推荐阅读：

语义类型06-05

语义数据06-06

语义变化06-07

语义模型06-17

语义比较06-20

语义检索07-04

语义指向07-27

语义知识07-29