语义信息模型

2024-07-24

语义信息模型(共7篇)

语义信息模型 篇1

随着互联网的迅速发展,网上信息资源越来越丰富,网络已经成为一个全球最大的信息库。然而用户获取所需的信息却越来越困难。传统信息检索技术[1]都是基于关键字的语法匹配,主要借助于目录、索引和关键词等方法来实现。此技术简单、快捷和容易实现,但是存在不少问题,如“忠实表达”问题、“表达差异”问题、“词汇孤岛”问题等。造成这些问题的实质在于传统信息检索方法只是基于语法层面上的简单匹配,而缺乏对知识的表示、处理和理解能力。语义Web的提出为解决这些问题提供了新的思路,能够把信息检索从基于关键字的语法匹配提升到基于知识层面的语义匹配。然而本体是语义Web中的关键技术之一。本体具有良好的概念层次结构和对逻辑推理的支持,把本体融合到传统信息检索技术中去,不仅可以继承传统的信息检索的优点,还可以克服信息检索中的局限性。

1 语义Web、本体及Lucene技术

语义Web是Berners-lee于2000年12月在XML2000会议上提出的概念,并于2001年5月在《科学美国人》杂志上发表同名论文“TheSemantic Web”。语义Web的目标[2]是,为因特网上的信息提供具有计算机可以理解的语义,从而满足智能主题(Agent)对WWW上异构、分布信息的有效检索和访问,实现网上信息资源的语义层上的全方位互联,并在此基础之上,实现更高层、基于知识的智能应用。语义Web的提出为处理网络上纷繁芜杂的信息提供了一个新的方向和平台,得到许多学者和组织的响应和重视。2001年2月W 3C组织正式推出SemanticWebActivity,它成为推动语义Web研究和发展的主要力量。

如图1所示,语义Web是一套包括网络信息存储、组织、表示、安全认证等各个方面的完整体系,涉及XML、本体、数字签名等技术与方法,它有利于网络信息的基于语义层面的组织和检索,是WWW的发展方向。

本体作为语义Web信息组织的语义支撑,在语义Web中起到核心的作用。实际上,本体原来是一个哲学的概念,被哲学家用来描述事物的本质。后来知识工程学者借用了这一概念。在计算机领域,当前比较权威的本体概念是Studer提出的:本体是共享概念的明确的形式化规范说明[3]。这个定义包含了4层含义:概念化、明确、形式化和共享。本体的目标是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解。确定该领域内的认可的词汇。并从不同层次的形式化模式给出这些词汇(术语)和词汇间相互关系的明确定义。正是本体对概念及其概念之间的关系的表现和描述能力使其成为语义Web的核心内容,也成为实现语义信息检索的关键。

Lucene[4]是一个高性能、纯Java的全文检索引擎工具包,它不是一个完整的搜索应用程序,而是能够为应用程序提供索引和搜索功能的一个插件。Lucene几乎适合于任何需要全文检索的应用,尤其是跨平台的应用。Lucene是ApacheJakarta家族中的一个开源项目,目前已经有很多应用程序的搜索功能是基于Lucene的,比如IBM的开源软件E-clipse的帮助系统的搜索功能等。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。

Lucene组件包的发布形式是一个JAR文件,包括七个类包,其中主要有3个核心类包:

(1)org.apache.lucene.analysis主要用于分词,分词的工作由Analyzer的扩展类来实现,Lucene自带了StandardAnalyzer类,我们可以参照它来写出自己的分词分析器类,如中文分析器等;

(2)org.apache.lucene.index主要提供库的读写接口,可以创建索引、更新索引等;

(3)org.apache.lucene.search主要提供检索接口,可以输入条件,得到查询结果集。

2 基于语义Web的信息检索模型

基于本体的信息检索的基本思想[5]:

(1)在领域专家的帮助下,建立相关领域的Ontology。

(2)收集信息源中的数据,并参照已建立的Ontology把收集来的数据按规定格式存储在元数据库中(RDB,KDB)等。

(3)对用户检索界面获取的查询请求,查询转换器按照Ontology把查询请求转换成规定的格式,在Ontology的帮助下从元数据库中匹配出符合条件的数据集合。

(4)检索结果经过定制处理返回给用户。在语义Web环境和基于本体的信息检索系统的思想,以及全文检索引擎Lucene的基础之上,提出一个基于语义Web的信息检索模型,如图2所示。

基于本体的语义信息检索模型共分为六个模块:用户UI模块、查询扩展模块、本体管理模块、资源管理模块、Lucene检索引擎模块、排序模块。

2.1 用户UI模块

该模块提供了两个界面:(1)用户查询界面;(2)查询结果显示界面。为用户提供了一个可视化的接口,以及负责向用户显示信息。它提交用户提出的检索请求,并当检索信息完成后,将检索结果返回给用户。

2.2 本体管理模块

本体在语义信息检索系统中处于重要的地位,它是信息组织的核心,定义了领域知识的概念层次、概念与概念之间的关系以及语义推理规则。作用主要有2点:1)在查询扩展中对用户的查询词进行语义扩展,并得到新查询词的权重有利于查询结果的排序。2)在对从Web上收集的信息进行标注的时候作为获取语义元数据的参照。在语义检索的发展中本体处于非常重要的位置,它承担着知识表达的核心任务,对检索中基于语义的文档与提问处理以及实现智能推理都起着支撑作用[6]。所以,构建语义信息检索系统首先要在领域专家和知识工程师的帮助下,建立本体,选择合适的存储方式和进化策略。

2.3 资源管理模块

信息检索的目标对象是Web上的资源信息,因而必须保证在检索之前有足够多的可供检索的信息。由于互联网具有分布性、开放性、动态性的特点,同时由于Web上信息组织格式的多样性,给信息获取带来了极大的不便,因而需要一个专门的信息采集器(Wrapper)事先将Web信息收集到本体的资源库中。同时还可以将Word、PDF等文档加入到本体资源库中。这样通过该模块能够对资源进行整合便于建立索引。

2.4 查询扩展模块

查询扩展是接受用户的查询请求,参照领域本体,将用户的查询词映射为本体中的概念和关系,并添加到原查询中,同时运用推理机等得到隐含在本体知识库的信息,这样得到新的查询词。然后进行检索,以改善信息检索的查全率和查准率。语义查询扩展的核心就是实现同义词扩展、语义蕴涵扩展、语义外延扩展及语义相关扩展。在该模型的查询扩展中,利用了语义相似度的查询扩展[7],其基本思想是将查询概念与领域本体中的概念、实例及属性进行匹配,根据本体层次结构及相关属性,从本体中提取与原查询的语义相似度大于阈值的概念,作为扩展概念,从而实现查询语义的提取和从概念语义层次上的概念扩展。在此模块中,必不可少地使用Jena对本体库进行处理和操作,Jena的查询和推理的强大功能在语义Web环境下语义检索中起到重要的作用。

2.5 Lucene检索模块

由于Lucene是个高性能、可扩展的信息检索工具库,而且是以成熟、自由、开放的软件项目,它用简单易用的API隐藏了复杂的索引和搜索操作的实现工程,因此可以使应用程序更专注于自身的业务模块。基于Lucene的检索引擎提供了如下功能:为文档库建立索引,生成索引库,根据用户的检索要求对索引库进行查询,并将查询的结果进行排序后返回给用户。

2.6 排序模块

查询结果的排序算法对信息检索式至关重要的,虽然Lucene对查询结果进行了排序,Lucene默认排序时按照文档权重的高低进行排序。但是有时候还不能够满足用户的特定需求,需要按照用户的意愿进行重新排序,如按照日期排序,或者按照多个字段组合排序等。还有,更进一步就是改进Lucene的排序算法来改善排序结果以便于用户在第一时间就能够找到需要的信息。排序算法的好坏决定了该信息检索模型的价值,也决定了查询结果对用户的有用性和重要性[8]。因此该排序模块在整个模型中起到举足轻重的作用。在该模块中,将目前比较著名的几种网页排序算法有词频位置加权排序法、DirectHit算法、PageRank算法融入到Lucene自身所具有的排序算法,来弥补其不足,使得此排序更能满足用户的检索需求[9]。

3 结束语

文中提出一种基于语义Web的信息检索模型,此模型结合了Lucene的全文检索技术。给出了它的总体框架、基本功能和实现方法。该模型具有的新特点体现在以下几点:

(1)比较传统的直接利用匹配关键字来进行检索的网络信息检索,这里使用基于本体之上利用Jena查询和推理对原关键词集合进行扩展得到新的关键词集合,这个集合更贴切用户所要表达的。这样使查询变得更加准确。

(2)利用全文检索Lucene技术,能够快速建立索引并能对索引进行优化,同时对经过查询扩展模块后的关键词集合进行构造检索式,这样在利用Lucene提供的搜索器进行检索。利用索引技术能够快速提高检索效率,缩短检索时间。

(3)经过排序模块,将会把检索结果中的最符合用户需求的信息排在前列,符合人性化要求。

摘要:提出一种基于语义Web的信息检索模型,它能够实现准确高效的网络信息检索,克服传统信息检索的局限。介绍了语义Web、本体以及Lucene全文检索技术,详细阐述该模型的六大模块,其中在本体基础之上充分利用Jena查询和推理技术进行查询扩展,以及Lucene技术来建立索引和检索,改进排序算法使得返回结果更加满足用户需求。

关键词:语义Web,本体,信息检索,Lucene

参考文献

[1]胡必云,黄因生,谢荣传.基于语义的Web信息检索.计算机技术与发展,2006;16(10):71—73

[2]宋炜,张铭.语义网简明教材.北京:高等教育出版社.2004

[3] Studer R,Benjamins VR,Fensel D.Knowledge engineering principlesand methods.Dataand Knowledge Engineering,1998;25(1):161—197

[4] Lucene:基于Java的全文检索引擎简介.http://www.chedong.com/tech/lucene.html,2009

[5]聂卉,龙朝晖.结合语义相似度与相关度的概念扩展.情报学报,2007;26(5):728—732

[6]黄敏,赖茂生.语义检索研究综述.图书情报工做,2008;52(6):63—66

[7]黄名选,严小卫,张师超.查询扩展技术进展与展望.计算机应用与软件,2007;24(11):1—4

[8]张贤,周娅.基于网页排序算法的改进.计算机系统应用,2009;(2):155—158

[9]段寿建,夏幼明,甘健侯.基于本体和Lucene的语义检索模型设计与实现.现代电子技术,2009;(12):36—38

语义信息模型 篇2

近年来,随着城市化进程加快,城市规模不断扩大,城市的交通安全隐患和风险也不断加大。另外,自然灾害和突发事件的频繁发生,交通信息管理越来越受到人们重视。同时,交通信息作为城市生命线的一部分,对人员的疏散和紧急救援[1]都起着至关重要的作用。

可变情报板在信息发布、交通诱导等方面起着非常重要的作用。它是一种可编程的交通控制设施,采用LED作为主要显示界面,通过显示组合字符向交通信息接收者提供信息,主要分固定式与移动式两种类型。这种情报板可以固定放置在道路上方或者路边。作为交通信息主要推送平台工具,在大城市的交通信息发布中占有绝对重要的地位。

语义,被赋予含义的数据,具有领域性的特征,没有不属于任何领域的语义。而语义异构则是能指明异质的同一事物,也就体现为同一事物在不同论域中的不同理解。交通信息作为交通系统中的主导因素,经过语义包装与处理,能为信息的传递创造更有利的传输途径。

发布/订阅是由信息生产者(发布者)、信息消费者(订阅者)和发布/订阅引擎组成的基础中间件,发布者以"事件"形式发布信息到发布/订阅引擎,订阅者向发布/订阅引擎订阅感兴趣的事件,发布/订阅引擎把发布的事件及时可靠地发布给感兴趣的订阅。其具有松耦合、匿名、多对多通信的特点,广泛应用在面向服务的架构、普适计算等新型网络计算领域。匹配算法是发布/订阅引擎的核心机制之一,负责高效地找到与给定的事件相匹配的所有订阅条件。

本文将基于语义的发布/订阅[2,3]应用于交通系统的可变情报板,保证了交通信息发布的高效性和稳定性。发布/订阅是面向城市交通信息管理的语义发布/订阅模型的核心,如图1所示,在发布/订阅模型中,消费者(可变情报板)以订阅的形式向发布/订阅器[4,7]注册,表达对特定事件的兴趣。生产者(各种交通信息流检测系统)发布事件到发布/订阅器。发布/订阅器充当生产者和消费者的媒介,负责订阅的管理,根据订阅过滤事件,并以通知的形式发布事件到感兴趣的消费者。

1 体系架构与模型

1.1 体系架构

面向城市交通信息发布的语义发布/订阅模块体系架构如图2所示。

该体系架构主要可分成以下三大部分:

(1)数据层在城市道路系统中,交通信息的主要来源是各种交通信息流检测系统,如车辆检测器、铺设在道路下面的感应线圈、巡逻车以及SCATS系统、Citilog系统、OD系统等[1]。这些交通信息监测系统向核心模型和算法层中的智能数据分析引擎提供尚未语义化和RDF事件化的粗糙异质异构交通数据。

(2)核心模型和算法层该层由智能数据分析引擎、交通信息RDF本体库、节目单列表、发布/订阅引擎等组成。智能数据分析引擎:将来自数据层的交通数据进行智能分析,通过已经建立的交通信息RDF本体库,把粗糙异质异构的原始数据进行语义化和RDF事件化;交通信息RDF本体库:智能数据分析引擎将粗糙数据进行语义化和RDF事件化的基础,是已经建立的各类交通信息事件的本体集合,交通信息本体库可以随时添加本体;节目单列表:粗糙异质异构数据经过智能数据分析器解析之后形成的交通信息RDF事件;发布/订阅引擎:发布/订阅核心模型和算法层的最重要模块,是数据层和显示层的中介,主要是用于语义算法匹配和提供发布/订阅的功能。

(3)显示层该层由各种路面可变情报板组成,各类可变情报板的订阅信息不同,则显示信息随之不同。可变情报板通过网络向发布/订阅引擎订阅交通信息,发布/订阅引擎则根据其订阅的信息实时发布该订阅相关的信息到可变情报板。

1.2 事件模型

一般意义上的发布/订阅系统中的事件模型是能够用来描述事件内部的数据结构的,而在我们的交通信息的发布/订阅系统中就体现为一个个的交通信息节目单,这些节目单采用RDF数据模型来建模事件。节目单一旦以RDF表示,就具备了语义特征,就能被机器无歧义地理解并处理,在应用程序之间数据交换而不丧失其语义,从而使系统从语义层面理解事件信息,达到支持异质异构事件的目的。

由于RDF图是最适合的语义表达方式,因此交通信息发布中的每个事件被表示为一个RDF图,即RDF交通信息节目单。RDF交通信息节目单实际上是一个三元组的集合,每个三元组由主体、属性和客体组成。每个元组都是一个节点,每个元组之间都是用弧来连接。节点可能为空,可能是文字信息。弧的标签指明了指向的客体的特性,并且总是指向客体。

城市交通信息发布中需要建立各类规范的RDF图的本体库,如洪涝事件、飓风事件、地震事件、火灾事件或者其他路况相关信息等等。

图3展示了一个洪涝事件的规范RDF图GE,洪涝事件的语义本体是所指的洪涝本体。洪涝RDF图GE指出了洪涝类型、洪涝状态、洪涝的始发时间以及流向与淹没。流向与淹没包括五个不同流向和若干淹没区域。

1.3 订阅模型

由于已经建模了基于RDF交通信息节目单,交通信息都能够以RDF图来表示,从而订阅也能够体现语义信息。例如,在我们的可变情报板信息发布系统中发布了一个基于“名字—值”对属性格式的洪涝事件信息———E:(disaster Item Name=“flood”)^(level=10),表示发生的灾害是洪涝,等级为10。假如此时有一个可变情报板向发布/订阅器作了如下订阅———S:(disaster Item Name=“disaster”)。由于“disaster”概念范畴包含“flood”,发布/订阅器作出了事件E同订阅S匹配的判断,并把该洪涝信息发送给已订阅该事件的可变情报板,从而实现了语义匹配问题。

下面来具体描述一下,交通信息的订阅模型:在1.2节中GE的基础上创建两个订阅图模式SE1(图4)和SE2(图5)。以其中一个订阅图模式为例(SE1):以图模式SE1为例,订阅E1也是一个三元组,两个变量节点之间用特性P的弧链接,每个变量节点的标签均以“*”开始,表示这个节点是个变量,其后紧跟变量名“?i”。在我们的交通信息的节目单中,规定变量名都以“?”为起始,其后为下划线、字母、数字等(类似于C语言的变量定义)。一般情况下,用户订阅RDF事件是都会指明一个rdf:type作为属性,但是也有可能指明一个布尔表达式来指明变量的约束条件。

所以对于没有rdf:type属性的变量节点,我们通过布尔表达式来约束变量,因为没有了rdf:type的资源类型的约束就没有办法进行类型检查。

2 订阅的数据结构与匹配算法

匹配算法负责如何快速地找到与节目单匹配的订阅,是交通信息发布/订阅系统的核心功能之一。

2.1 订阅的数据结构

如图6、图7分别描述了图4、图5中的订阅E1和E2索引结构。以订阅E1为例,其索引结构由以下数据结构定义:

定义1变量对应关系(VMap)是两组不同的变量的对应关系,根据RDF事件的订阅图转化而来,字段名为订阅中的变量;

定义2节点映射关系的哈希表(NMap)节点和节点通过一定特性进行映射后连接,主体的标签一般在客体应用中通过具体的URIHref来表示,因此可以省略主体复杂结构,如直接用URIHref1表示,但是客体如果也是变量,用“*”表示,此时主体也必须要用“*”表示,中间用“-”连接;

定义3属性映射的哈希表(PMap)属性映射,通过NMap可以映射到订阅图的事件属性P;

定义4订阅对象集合的哈希表(SMap)通过合并之后的订阅对象集,涵盖了所有属性P能够关联到的订阅事件。

2.2 事件匹配算法的实现

在建立了订阅数据结构的基础上,事件匹配算法的实现主要分两个部分:

(1)去除不相关订阅,相对于普通的订阅算法,减少了数据处理量,增加了数据处理的效率,达到语法层面的匹配。

(2)在去除不相关订阅之后,进一步检查约束条件,实现真正匹配,达到语义层面的匹配。

在匹配算法的第一阶段,针对RDF事件GE的每个属性P,在合并订阅图索引结构DME的属性映射的哈希表(PMap)中查找其节点映射关系,形成针对GE事件的节点映射关系哈希表NGEINDMMap,在NGEINDMMap不为空的情况下,取得RDF事件GE中所有节点映射关系NGEMap,对NGEMap进行轮询,判断是否存在于NGEINDMMap中,如果存在就将其对应的订阅事件加入到SList订阅队列中,SList订阅队列中每个对象,都能通过合并订阅图索引结构DME找到其相应的变量对应关系。对SList订阅队列中的每个订阅对象S作处理:首先根据订阅事件把相对应的S的订阅量Number加1,然后把该S对象加入到新建的Sub SList子订阅队列中。

在匹配算法的第二阶段,对Sub SList子订阅队列进行轮询,针对每个订阅对象Sub S,首先检查Sub S的订阅量Number是否大于等于它的三元组数量。如果Sub S的订阅量Number大于等于它的三元组数量,则事件必然与订阅相匹配,将相应变量表集合中变量V加入到Sub VMap绑定表中;反之事件与订阅不匹配,不必继续检查订阅的约束是否被满足。对Sub VMap进行轮询,对其每个变量V绑定的值进行类型判断和过滤,如果V的变量满足类型判断或者不被过滤,则将其对应的对象加入到Final SList队列中,并且中断返回。每个RDF事件只需要满足一项匹配就匹配成功,从而实现了匹配算法的优化,达到了提高效率的目的。

3 实验分析及数据

在没有将语义发布订阅模型应用于城市交通信息管理之前,可变情报板只能根据管理者预先设置好的数据,进行信息发布。但是在加入语义发布订阅模型之后,信息能够根据订阅事件实时更新,且具有了语义匹配,更符合交通信息接收者的需求。同时,模型中的交通信息本体库的基数是实现语义匹配的基础,基数越大,语义匹配程度和数据量都越大。本体库基数—语义匹配率数据如图9所示。

图9展示了语义匹配率随着本体库基数的增长而迅速增长,本体库基数达到一定程度时,对匹配率的刺激程度也逐渐趋缓,说明本体库的定义需要有一定积累才能充分发挥发布订阅模型的真正优势。同时,在本体库数量达到一定程度时,本体库的基数增加不再对匹配率产生巨大的影响,但是对于匹配的信息数量还是有所增加。

本体库基数—语义匹配数量数据如表1所示。

4 系统原型实现

城市应急交通疏散系统的总体模块架构图如图10所示。

(1)资源与图层管理该部分主要用于资源信息显示,基于GIS的地理信息模块。其下小模块主要有GIS平台;预案记录查看;界面配置管理器;疏散资源的管理;避难资源的管理。

(2)应急交通诱导该部分主要用于交通诱导,也是本文所述的面向城市交通信息管理的语义发布订阅模块应用部分。其下小模块主要有发布/订阅模型;可变情报板模型;人口分布模型;路网数据结构。

(3)灾害模拟该部分主要用于灾害模拟和演示,为疏散预案决策者提供直观的指导意见。其下小模块主要有信息操作接口;生成与表示模型;灾难扩散模型。

(4)交通应急疏散该部分直接提供疏散预案和策略。其下小模块有灾难数据获取接口;疏散结果显示;疏散寻优。

面向城市交通信息发布的语义发布/订阅模块作为在总体架构中应急交通诱导的子模块,现在该模块已经在杭州市可变信息板实时交通信息控制与发布系统中得到应用。信息采集子系统包括由车辆检测器、铺设在道路下面的感应线圈、巡逻车以及SCATS系统、OD系统、Citilog系统等。该系统是基于GIS开发,通过可变情报板的实时更新在道路发布实时信息。

通过从各种采集系统得来的实时数据通过面向城市交通信息发布的语义发布/订阅模块处理,通过发布/订阅模式和可变情报板定制的规则生成消息,将这些消息利用可变情报板的远程控制接口发送信息到可变情报板显示屏上,同时还具有更新显示屏过期的信息,发布管理员编辑的信息等功能。系统的这一模块已经应用到杭州市信息发布系统与控制平台中。

基于GIS的管理界面如图11所示,展示了各类情报板的状况。

5 总结与展望

本文将基于语义的发布/订阅应用于交通信息发布,从而具备了以下特点:1)迅速提高交通信息发布的效率;2)信息发布针对信息接收者的订阅,针对性强;3)针对具体订阅发布,减轻了服务器和客户端的压力。

交通领域的信息发布无论是解决城市交通阻塞,还是在灾害发生情况下,提供第一手高效可靠的信息,为指挥部门的应急疏散提供指导性建议,都具有非常重要的作用。采用基于语义的发布/订阅来提高交通信息发布的效率是其中的一种方法,更有其深入研究的重要性。

参考文献

[1]Wei Shi,Zhou Kan,Jian Wu,et al.Ontology-based TransportationInformation Integration.Intelligent Transportation System World Con-gress,2007.

[2]Wei Shi,Jian Wu,Ying Li,et al.Intelligent Transportation Information Sharing and Service Integration in Semantic Grid Environment.The2006 IEEE/WIC/ACM International Conference on Web Intelligence,WI 2007,Hong Kong,China,December 2006:18-22.

[3]Dongcai Shi,Jianwei Yin,Zhaohui Wu,et al.A Peer-to-Peer Ap-proach to Large-Scale Content-Based Publish-Subscribe[C]//Proceed-ings of the IEEE/WIC/ACM International Conference on Web Intelli-gence and Intelligent Agent Technology(WI-IAT 2006 Workshops),2006:172-175.

[4]Dongcai Shi,Jianwei Yin,Yiyuan Li,et al.JTangPS:An RDF-basedPublish/Subscribe System[C]//Proceedings of the 3rd InternationalConference on Semantics,Knowledge and Grid(SKG),2007,sub-mitted.

[5]Dongcai Shi,Jianwei Yin,Wenyu Zhang,et al.JTangPS:Content-based Publish/Subscribe over Structured P2P Networks[C]//Proceed-ings of the 1st International Symposium on Intelligent and DistributedComputing(IDC),2007.

[6]Svetlana Vukanovic,Ronald Kates,Samuel Denaes.A novel algorithmfor optimized,safety-oriented dynamic speed regulation on highways:INCA[C]//Proceedings of the 8th International IEEE Conference onIntelligent Transportation Systems Vienna,Austria,September 2005:13-16.

语义信息模型 篇3

农业信息技术是实现农业高速、健康和可持续发展的重要推动力, 是一门新兴的边缘应用学科, 是农业科学和信息科学相互交叉渗透而产生的新领域。基于语义的Web服务发现技术是其中的一个重要组成部分。随着语义Web服务技术在农业信息系统中的广泛应用, 如何从海量的Web服务资源中快速查找出需要的一个或者多个Web服务, 来满足客户需求, 是亟待解决关键问题。

语义Web服务是语义Web与Web服务的结合体, 通过对Web服务进行语义封装可实现Web服务的自动化发现、调用、互操作、组合、执行和监控。普遍存在的问题是:多数基于语义的Web服务发现方法都是建立在全新的语义Web服务模型和描述语言的基础上, 如OWL-S[1,2], WSMO, WSML[3,4]等, 造成这些方法的应用实施难度较大。另外, 很多服务发现系统的实现需要用户输入有关Web服务请求的详细信息, 增大了系统应用的复杂度。

针对上述问题, 本文提出一种轻量级的语义Web服务发现模型。该模型采用语义Web服务描述语言WSDL-S[5]来描述Web服务, 其好处是WSDL-S与WSDL (Web服务描述规范) 兼容, 并且只需在现有大量的基于WSDL的Web服务描述文档中添加一些扩展的XML element和Attribute, 就能达到语义标注的效果。本文重点分析发现模型中各个模块的时间性能, 并实验验证了模块和词典匹配模块分别匹配成功的情况下有很好的Web服务发现准确率和召回率, 该模型可应用在农业信息化等领域。

1 轻量级语义Web服务发现模型设计

本文提出的基于查询语句的轻量级语义Web服务发现模型如图1所示。

工作流程是:在系统启动之初, 先由WSDL-S文件处理模块将文件库中所有WSDL-S文档定义的Web服务名、操作名、输入输出参数名以及相关的领域本体名等信息集中存放在一个数据结构wsdl_information中, 然后用户在服务查询界面上输入Web服务请求的查询字符串, 经查询预处理模块按照一定规则规范化后提交给服务匹配模块。匹配模块首先进行查询语句关键字与领域本体库中各个本体词汇的直接匹配, 如果没有相匹配的领域本体, 则调用词典模块, 利用同义词词典WordNet[6]查找查询关键字的同义词, 之后再进行本体匹配;如果匹配成功, 则本体匹配模块内的学习机制就会把关键字的同义词写进相应的本体文件, 以扩充文体词汇, 方便下一次用户查询。一旦获得了匹配的领域本体名, 接下去本体匹配模块会查找数据结构wsdl_information中存放的领域本体信息, 以确定用户查询对应的Web操作名。反之, 如果本体匹配不成功, 就要调用第2个匹配子模块—词典匹配模块, 用查询语句的关键字直接与存储在wsdl_information中的Web操作名进行单词匹配;如果不成功再次启动词典模块, 在WordNet中查找同义词, 然后再与Web操作名进行匹配;最后, 由WSDL-S调用预处理模块检查调用相关Web操作的输入条件是否满足, 并执行后续的补充操作[7]。

2 本体匹配模块中的自学机制

首先, 本体匹配模块将用户输入的查询字符串匹配服务请求所涉及的领域本体;然后, 用领域本体名确定对应的WSDL-S文件 (列表) 。该模块的重点是匹配领域本体名, 其具体步骤是先用查询语句中的关键字去匹配领域本体库中的各个本体模型, 匹配的顺序是概念、对象和谓词。

匹配过程中, 介词不参与匹配, 但是介词却可以帮助推断出服务请求的上下文信息。如从查询字符串“flight from Boston to Chicago”中能推测出介词from和to之间的内容是两个地址信息, 其中from后面的是源地址, to后面的是目的地址。假如flight域的本体模型结构如图2所示, 则能够确定该查询字符串涉及的领域本体名是flight。如果上述基于查询语句关键字的匹配没能确定领域本体名, 则调用外部的词典模块。利用同义词词典WordNet查找查询语句关键字的同义词, 然后使用同义词进行本体模型的匹配, 以确定领域本体名。

考虑到一词多义的情况, 为了确保查询到的领域本体最大限度地与用户的查询语句相关, 需要深入分析以下4种可能存在的同义词匹配情况:

1) 查询语句关键字和同义词都不能匹配任何一个本体模型;

2) 查询语句关键字能匹配某一个本体模型, 但是同义词不能匹配任何一个本体模型;

3) 查询语句关键字不能匹配任何一个本体模型, 但是同义词能匹配某一个本体模型;

4) 查询语句关键字和同义词都能匹配某一个本体模型。

在上述第3种情况下, 为了提高用户查询语句的匹配率, 需要添加一个学习模块, 通过自学机制把查询语句的同义词也添加到相应的本体文件中, 然后再重新生成本体模型, 以便于以后相似查询语句本体模型匹配率的提高。而其他3种情况则不需要调用学习模块。

3基于轻量级语义Web服务发现模型的农业信息原型系统实现

在原型化实现农业信息Web服务发现模型的过程中, 主要涉及到农产品 (Farm-produce) 、农产品价格 (Farm-price) 、天气 (Weather) 以及地域 (Location) 等领域本体。领域本体用本体编辑工具Protégé来创建, 并存储在MySQL数据库中, 本体文件选用OWL语言描述, 本体词汇的查询和操作使用OWL API。WSDL-S文件是在WSDL编辑器的基础上添加语义标注而生成的。词典模块利用JWNL[8]提供的接口来操作同义词词典—WordNet。Web服务调用模块利用Axis[9]工具提供的相关Java类来调用选中的Web服务。整个原型系统的开发使用Eclipse作为开发平台。

4 实验及结果分析

4.1 实验准备

为了测试系统中各个模块的时间性能以及该发现模型的准确率和召回率在不同情况下的变化, 输入503个不同长度的查询语句, 涉及的领域有Farm-produce, Farm-price, Weather和Location, 其相关的领域本体存储在本体库中。实验运行于IBM R60上, 软硬件配置为:1.66-GHz Intel T2300处理器;1G内存;Microsoft Windows XP操作系统。实验结果的记录和分析使用Eclipse的插件TPTP。

4.2 实验结果与分析

图3显示的是系统各个模块花费的平均处理时间。其中:1代表WSDL-S文件处理模块;2代表查询预处理模块;3代表是词典模块;4代表本体匹配模块;5代表词典匹配模块;6代表相关检查模块。从实验结果看, 系统中最花费时间的模块是WSDL-S文件处理模块和词典模块。但由于WSDL-S文件处理模块只在系统启动之初被调用一次, 因此该模块执行的快慢并不会影响系统性能。那么, 整个系统的性能瓶颈就在于词典模块的执行时间。该模块主要用来在WordNet中查找查询语句关键词的同义词 (synonym) 、上位词 (hypernym) 和下位词 (hyponym) , 以扩充领域本体的词汇。数据分析的结果表明, 词典模块的大部分时间花费在了为每一个查询语句关键词查找同义词时调用JWNL的接口上。

为了进一步详细分析本体匹配模块和词典匹配模块在不同情况下对系统性能的影响, 下面主要测试经本体模块单级匹配成功、词典模块单级匹配成功以及经本体与词典两级匹配成功的前提下系统准确率和召回率的变化。假设D代表WSDL-S文件库中提供的Web操作的个数, Qi代表第i个用户查询, RQi代表WSDL-S文件库中与第i个用户查询Qi有关的Web操作的个数。由于RQiD, 所以DRQi代表与用户查询无关的Web操作个数。接下来, TQi代表原型系统返回的与第i个用户查询Qi对应的Web操作个数, GQi代表系统返回的与第i个用户查询Qi有关的Web操作个数。二者的关系用公式GQi=TQiRQi表示。因此, 第i个用户查询发现Web操作的准确率Pi=GQi/TQi, 召回率Ri=GQi/RQi

实验结果如表1所示。表1记录的是系统分别在经过本体模块单级匹配成功、词典模块单级匹配成功以及经过本体和词典两级匹配成功的情况下Web服务发现的召回率和准确率。实验结果显示:在词典模块单级匹配成功时, 系统的准确率和召回率是最低的, 因为词典匹配没能很好地利用语义信息;在本体模块匹配成功时, 系统地准确率和召回率就大大提高, 这是因为本体匹配模块有效地利用了语义和领域信息;最后, 经过本体匹配和词典两级匹配成功的情况下, 系统的准确率和召回率进一步得到提高, 因为那些在OWL本体文件中得不到匹配的查询关键字又经过了一次词典匹配, 所以匹配效率要高一些。

比较分析这3组数据发现 (见图4所示, 其中1代表词典匹配模块, 2代表本体匹配模块, 3代表词典和本体匹配模块) , 在整个语义Web服务发现模型中, 本体匹配模块对于系统准确性的提高起着至关重要的作用。如果没有本体匹配模块, 则系统准确率和召回率会下降23%左右。相反, 词典匹配模块对于系统性能的提高却无关紧要, 如果去掉词典匹配模块, 则系统准确率和召回率会下降1%左右。

5 结论

目前, 大多数基于语义的Web服务发现方法应用难度大, 使用不方便。为此, 本文提出一种基于用户查询语句的轻量级语义Web服务发现模型, 并在农业信息化领域做了原型系统的实现。农业信息用户只需输入简单的查询语句, 经过预处理、领域本体的匹配、词典级匹配以及一些优化措施, 最终自动查找到相关的农业Web服务操作。

实验结果表明, 本体匹配模块对于系统服务匹配准确性的提高起着至关重要的作用, 并且自学机制的使用在自动扩充本体词汇的同时也增加了系统的准确率和召回率。

实验结果充分证明了本文提出的轻量级语义Web服务发现模型的可行性和有效性。该模型在农业信息化领域的应用将为农业信息用户提供便利、快捷和效益。

摘要:针对现有多数语义Web服务发现方法应用实施难度大和对终端用户输入信息的完整性依赖度高的问题, 提出一种基于简单查询语句的轻量级语义Web服务发现模型。该模型将用户输入的查询语句经过领域本体匹配、基于WordNet同义词典匹配等步骤, 自动发现并调用相应的Web服务操作。实验结果表明, 采用该服务发现模型能够有效提高服务发现的准确率和召回率, 进而可推广应用到基于语义Web服务的农业信息化中。

关键词:农业信息化,Web服务发现,WordNet,自学机制

参考文献

[1]Anon.The OWL Services Coalition.OWL-S:semanticmarkup for Web services[EB/OL].[2006-11-08].http://www.daml.org/services/owl-s/view/.

[2]Wang X, Vitvar T, Kerrigan M, et al.A QoS-aware selec-tion model for semantic web services[C]//The 4th Interna-tional Conference on Service-Oriented Computing, 2006:12-24.

[3]Keller U, Lara R, Polleres A.WSMO Web service discover-y[EB/OL]. (2004-08-15) .http://www.wsmo.org/2004/d5/d5.1/v0.1/20041112/d5.1v0.1_20041112.pdf.

[4]Stollberg M, Keller U, Fensel D.Partner and service discov-ery for collaboration establishment with semantic Web serv-ices[C]//IEEE International Conference on Web Services, 2010:480-494.

[5]R Akkiraju, J Farell, J A Milleret, et al.Web service seman-tics-WSDL-S[EB/OL]. (2005-04-03) .http://www.w3.org/2005/04/FSWS/Submissions/WSDL-S.htm.

[6]邵东伟, 王俊发, 吴贵福, 等.国内外农业信息化建设对佳木斯地区的启示[J].农机化研究, 2010, 32 (8) :246-248.

[7]阮佳彬, 杨育彬.基于本体词汇的三维模型语义检索[J].计算机科学, 2009, 32 (2) :152-154.

[8]Bwalenz, Didion J.JWNL-Java WordNet Library[EB/OL]. (2010-05-14) .http://jwordnet.sourceforge.net.

语义信息模型 篇4

1 基于语义Web服务匹配的相关概述

基于语义Web服务匹配在其中加入了服务本体概念, 所以基于语义Web服务匹配在描述信息是具有清晰、准确的语义。语义Web模型是提供服务本身内部的流程信息, 和执行与服务相关的控制结构和数据流, 这些流程会在Web服务组合和执行时用到, 这些工作能够帮助发现Web服务是否符合请求者的要求。也能更加深入的去分析Web服务的可实施性。

1.1 语义Web服务匹配的现状

语义Web服务匹配是将用户的服务请求和Web服务数据库中的信息进行比较, 找出符合服务请求的语义Web服务信息。针对如何找出匹配的语义Web服务信息, 现阶段主要依据利用本体自身概念的逻辑包含关系进行推理实现匹配关系, 以及根据本体概念的语义相似度量进行相似度的匹配方法。例如:卡内基梅隆大学的Massimo Paolucc等提出的弹性匹配算法;基于本体属性的相似度算法;基于本体两个概念的几何距离来提出的语义相似度算法等运算方法。

1.2 基于语义的Web服务匹配排序模型的设计思路

在构建语义的Web服务匹配模型前, 应该通过研究相关的研究工作资料, 找出现有的语义Web服务匹配排序机制算法中存在的问题和不足。语义Web服务匹配模型的基本构架由八个部分组成, 根据语义描述的服务请求描述模块, 用于注册服务的服务注册模块, 用于存储本体信息的信息库, 用于搜索提取待匹配信息的信息提取模块等阶段的构建。

2 基于语义距离度量模型的语义Web服务匹配结果排序机制

随着语义Web服务匹配的发展, 在服务时对搜索结果的排序操作要求也越来越高。通过对各个研究工作概括和整理相关研究工作的资料, 探讨出一种基于语义距离度量模型的语义Web服务匹配结果排序机制, 运用这种基于语义距离度量模型来对在进行语义Web服务搜索时的匹配结果进行自动的排序操作, 这样能更加便捷、快速的完成Web服务的搜索工作。下文主要简单的介绍语义距离度量模型的相关知识和如何进行运用语义距离度量模型来对搜索结果排序, 以及加权语义距离度量在语义Web服务匹配中的运用。

2.1 语义距离度量模型

语义距离度量模型 (Semantic Distance Metric Model, 简称为SDMM) 是一种与“语义”信息本身定义具有相关信息的定义对象间的各种相关关系之间形成的一种三维空间可计算模型。利用本体的定义、实例、属性之间的语义联系:等价、包含和关联定义, 这三个向量可对应轴Veql、Vsub、Vrel, 利用这三个向量轴就能构成语义距离度量模型。语义距离度量模型是利用度量本体的定义、实例、属性与语义距离关系之间的三维空间可以计算的模型, 表达式为:SDMM=。在这之中Veql是指等价语义关系轴, Vsub是指包含语义关系轴, Vrel是指关联语义关系轴。利用本体定义对象Ci为坐标原点, 在向各个方向延长每个向量, 在语义距离度量模型中向量的坐标是可以随意转换的, 并没有固定的方向, 图1就为一个典型的语义距离度量模型 (SDMM) 的示意图。

2.2 基于语义距离度量模型的匹配结果排序

在语义距离度量模型 (SDMM) 中, 对象转换运算符 (→) 为其运算符, (→) 表示从语义距离度量模型的任意一个本体对象向另一个本体对象之间的转换函数。例如:从Ci向Cx转换可以记作Ci→Cx, 这样转换后就得到了一个集合Sx。在对对象进行求值算子Vx时, assign是作为语义距离度量模型中的算子, assign表示的是从坐标原点Ci→Cx所得的集合Sx中任意取一个元素, 语义距离度量模型的转换可由图2表示。

基于语义距离度量模型的语义Web服务匹配结果排序主要是根据语义Web服务所关系的本体对象的语义对象距离, 也就是说是本体定义对象在语义距离度量模型中的相互转换的操作序列之间的度量, 例如:在语义距离度量模型中Cm→Cn, 在计算语义距离时可利用公式 (1-1) 进行计算。

(1-1) 公式分为三个部分, 分别表示Cm→Cn在等价语义关系轴Veql上的操作, Cm→Cn在包含语义关系轴Vsub上的操作, 以及Cm→Cn在关联语义关系轴Vrel上的操作, 因此从概念Cm到概念Cn的转换距离度量实际上就是转换操作序列的三元组的度量。在这个过程中, 只是根据本体自身的概念, 属性作为一切推理的依据, 将本体中的所有对象映射在唯一的坐标点上, 再根据公式计算。

2.3 加权语义距离度量

因为语义Web服务匹配具有不同的服务要求类型和语义Web服务匹配要与上下文联系起来, 所以对语义Web服务匹配结果距离度量要运用加权的方式进行处理。在基于语义距离度量模型的语义Web服务匹配排序机制中, 可以给基于语义距离度量模型中的各个坐标轴的方向量赋予不同的权重值, 依靠权重值得到不同的加权语义距离度量, 从而进行语义Web服务匹配的排序。例如:有两个语义Web服务匹配距离对象Cm和Cn, 经过赋予不同的权重值后, 加权语义距离度量的计算表达式可以如公式 (1-2) 所示。

也可以根据不同的语义Web服务匹配内容, 在语义距离度量模型的三个方向的向量的语义距离度量权重值的设置可以有不同的方法, 甚至在实际的运用实例中可以将其中一个向量的权重值设置为0, 这就只需要考虑剩下的两个向量对语义距离度量的影响。

3 总结

语义Web服务匹配结果的排序机制在随着语义Web服务的搜索研究工作的不断深入的过程中, 已经成为了一个不可或缺的研究专题, 也在不断的研究运用不同的相似度度量模型和计算方法。而由于语义Web服务匹配搜索具有海量的信息, 运用不同的运算方法和不同的度量模型就有可能出现不同的Web服务匹配结果, 这就有可能影响到语义Web服务匹配搜索的准确性。本文在这些的基础上提出一种较科学的基于语义距离度量模型的语义Web服务匹配排序机制, 并且还依据不同的Web服务匹配搜索提出了对语义距离度量模型的方向轴赋予加权值的方法。但是怎样将语义信息完全统一的放入语义空间模型中并且进行一个统一的度量, 以及语义距离度量模型是否对不同的语义Web服务匹配搜索都适用, 这些都是以后研究工作的重心以及最需要解决的问题。

摘要:随着社会科技的进步和发展, 现在人们也越来越重视信息共享, 而开放的Web环境也成为了人们获取海量信息的主要来源。人们的需求也就让人们对语义Web服务技术不断地深入研究, 所以现在网上语义Web服务的数量也就快速的增加。本文主要提出了基于语义距离度量模型的语义Web服务匹配排序机制, 根据这种排序机制, 依据语义Web服务的语义相似度量对语义Web服务匹配结果进行排序。

关键词:语义Web服务,语义Web服务匹配,语义距离度量模型,语义Web服务组合

参考文献

[1]马应龙, 金蓓弘, 冯玉琳.基于进化分布式本体语义Web服务动态发现[J].计算机学报, 2013, 8 (11) :603-614.

[2]汤杰.语义Web服务组合的研究与实现[J].燕山大学学报, 2013, 11 (11) :120-121+125.

[3]方欣.基于语义的Web服务匹配研究[J].达宁大学学报, 2013, 2 (3) :156-157+159.

[4]杨易超.基于语义的Web服务匹配模型的研究与实现[J].电子科技大学学报, 2013, 2 (20) :178+180+185.

科技期刊语义共享模型研究 篇5

目前,作为信息共享的基础和信息传播的主要途径,互联网在信息表达、信息获取,以及互操作等诸多方面,日益暴露出严重的不足。大量的信息以自然语言的形式呈现给用户,首先,这些信息之间相互独立,无法进行有效的关联; 其次,尽管表示信息的词汇在逻辑层面上相同,但是所表达的含义大相径庭; 最后,对于相同的信息,计算机难以达到相同的认知。这些严重影响了信息共享的质量, 进而限制了信息服务质量的提升。

科技期刊,不仅是各行业科技合作与交流的方式,也是各种科技知识传播的主要载体。通过科技期刊传播载体,促进知识创新和科技创新成果转化的作用,同时,增长科学技术知识,提高国民的科技素养。作为科技信息获取的主要途径,科技期刊具有鲜明的领域性、创新性,以及时效性等显著特征。然而,长期以来的科技期刊传统纸质发行模式, 导致科技信息共享的严重滞后; 同时也影响人们获取相关科技信息的范围和效率。

当前,互联网对科技期刊传播的影响日益明显。 这种趋势,显著加快了科技期刊内容资源的传播速度,同时也扩大了共享范围。但受制于互联网现有的信息共享的模式,存在对科技期刊内容信息表述不清、表达不充分,以及内容信息之间相关性严重缺失等严重问题。从而导致共享范围受限,有用的科技期刊资源获取困难,以及期刊资源互操作性差等现象。这些已经成为科技期刊在基于互联网共享和快速传播中的制约因素。因此,研究新的科技期刊共享模型,加快科技期刊的传播效率,提升服务质量,是科技期刊出版和传播迫切需要和严峻课题。

语义Web的出现,无疑为科技期刊内容共享和传播指明新的方向。语义Web是对当前Web体系结构的有机扩展,能够使Web在满足人们视觉、听觉需要的同时,尽可能多的携带语义层面的信息,从而使这种信息能够被计算机理解和识别,进而实现自动处理,更好地满足人们信息共享的需要。因此, 采用语义Web对科技期刊内容信息描述,能够表达信息的真实含义。毋庸置疑,语义Web是破解上述严峻课题的一个重要出路。

本文研究新的科技期刊共享模型,以提高其内容信息传播效率,提升科技期刊的服务质量。该模型以现有的Web体系结构为基础,利用语义Web对已出版的科技期刊内容信息进行统一描述,在增强科技期刊内容信息语义表达的同时,实现内容信息之间的语义关联,从而,在保证科技期刊内容信息传播效率和服务质量的同时,进一步扩大科技期刊内容信息的共享范围。

1科技期刊传播媒介现状、共享趋势及存在问题

科技期刊在科技内容信息传播、共享方面起到重要的作用; 随着科技的进步,以及人们对内容信息需求的日益扩大,科技期刊面临严峻的挑战; 新技术的出现,也为科技期刊的出版及传播提出新的问题。

1.1科技期刊传播媒介现状及共享趋势

( 1) 印刷媒介期刊传播速度慢,共享范围有限。科技期刊种类繁多,数量庞大,是科技传播和交流的主要渠道; 科技期刊在促进科技创新,辅助人才培养,加速生产力转化等方面,发挥着重要的作用。长期以来,纸质发行的内容信息,比较符合人们的阅读习惯,而且比较有利于知识产权的保护。 然而,纸质期刊发行周期长,传播速度慢,信息量有限,以及不便于检索等明显问题,这严重影响科技信息的服务质量。基于传统的思路和方法,很难有实质性的突破。

( 2) 期刊数字化网上共享形成规模。计算机网络的快速发展,科技期刊的出版已经进入纸质和数字出版的时代[4]。数字出版是一种数字形态的出版发行模型,通过计算机终端、移动设备等进行阅读[5]。数字化出版,具有发行速度快、费用低,以及信息量大等特点[6],对传统的纸质发行模式产生巨大的冲击。尤其,平板电脑、智能手机等移动终端的迅速普及,在改变人们工作、生活习惯的同时, 也改变了人们科技信息的获取方式和阅读方式。目前,全球期刊总数超过15万种,而且,每年仍以2. 5个百分点持续增长。我国现有科技期刊5000种, 仅次于美国,位列第二。随着互联网技术的快速发展,数字化方向健康发展正是科技期刊的发展趋势。 借助成熟的信息化技术,越来越多的科技期刊构建自己的采编和传播平台。2009年,我国的数字出版业产值近800亿元,同比增长50. 6%[1]。至2009年底,958种中国科协所属的期刊,超过6成建立自己的门户网站,比2007年增加10个百分点[2]。截止2010年10月,中国知网 ( CNKI) 收录期刊总数达7686种[3]。部分期刊利用自身的平台优势,将创刊以来的论文等信息上网共享。尽管现有的期刊发行仍沿用纸质,但是,上述的统计表明,科技期刊借助互联网发行已经逐渐形成规模,而且,仍然处于强劲的上升趋势。

( 3) 期刊开放存取扩大内容资源共享范围,成为科技期刊 发展趋势。开放存取 ( Open Access, OA) ,已经成为学术界和出版界力推的一种发行模式[7]。OA出版赋予用户宽泛的使用权限,允许用户免费阅读和自由传播。OA的提倡和应用,不仅是对纸质发行的冲击,同时也深刻影响着现有的数字发行模式。一方面,OA节省了发行的周期,因而增强了科技期刊的实效性; 另一方面,OA采用开放的发行方式,促进科技期刊内容信息的广泛传播,从而扩大了内容资源的共享范围。2010年,中国科学技术信息研究所收录的核心期刊中,近1 /4实现自建OA初步[8]。

1.2科技期刊传播和共享服务中存在的问题

信息技术的发展,对科技期刊的传播模式、服务质量等诸多方面都提出了前所未有的挑战。科技期刊数字化催生了各种科技期刊出版发行与内容信息服务平台的出现。这些平台不仅为科技实体提供专业的服务,同时也为个人提供具有针对性的内容信息服务,甚至能够提供一定范围内的个性化服务定制。相信随着技术的发展,各种发型模式仅仅是适应时代需求的阶段性产物,而不是科技期刊出版发行模式的最终形态。

受到传统纸质发行模式的影响,现有的各种发行方式是将纸质内容信息,搬上了网络平台。例如, 各种影印、扫描电子期刊,PDF等文档式期刊,以及Web排版的科技期刊。毋庸置疑,这些方式是数字化或网络化的一种表现,较以往纸质发行方式, 传播速度更快,共享范围更广; 但是,包括上述这些科技期刊传播媒介形态在内,现有各种传播媒介仍有很大的提升空间。

现有的科技期刊传播媒介研究和应用上,仍存在诸多问题。 ( 1) 对科技期刊内容信息的表达不够,而内容信息的表达方式,决定科技服务的质量。 现有的对科技期刊内容信息的描述,更多的是采用关键字、主题词等方式,而对内容信息的获取则采用字符匹配的方式。 ( 2) 对科技期刊信息之间的相关性关注不够,我们知道,世界是充满联系的,科技期刊内容信息也不例外,在内容信息获取过程中, 往往被忽略或弱化。 ( 3) 共享的粒度过粗,科技期刊发行上,往往以整篇科技论文为单位,因此,科技期刊内容信息获取上同样以论文为单位,这样容易忽略很多有用的内容信息。

2科技期刊语义共享模型

从科技期刊内容信息共享的需求分析入手,分析科技期刊共享的本质要求,以此为基础建立科技期刊语义共享模型。

2.1科技期刊语义共享需求

科技期刊是科技信息的主要来源,传统的纸质期刊发行模式,发行周期长,传播速度慢,服务质量差。互联网的出现和快速普及,使得这些问题大有改观。通过互联网,人们以某种方式表达自己的科技信息需求,通过相应的信息检索手段,能够比较准确的获取相关的科技资源; 从而,及时的了解科技信息,这明显加快了科技信息的传播速度。因此,互联网技术的应用和发展,提高了科技信息服务质量。

然而,随着互联网上信息量的爆炸式增长,信息获取,尤其有用信息的获取变得越来越困难,这对科技期刊的出版发行和传播无疑是巨大挑战。传统科技期刊内容信息用关键字、主题词等进行描述, 通过比较获取 “有用”资源。而这种比较仅仅停留在字符异同的逻辑层面,一方面,字符的相同并不意味着语义的相同; 另一方面,字符的不同也不表明语义的不同。

因此,现有的基于互联网的资源共享模型,对于科技期刊所包含的语义描述不够。科技期刊所包含的内容信息具有很重要的相关性,同一领域的内容信息具有相关性,不同领域的内容信息同样可能具有相关性。现有的科技资源共享模型,更多的忽略了这一重要问题。这些严重影响现有科技期刊的信息服务质量。在当前共享模型下,所获取的期刊资源总量很多,而有用资源相对较少;“有用” 的资源中,与用户检索意图相符的也相对不多; 同时仍有很多密切相关的内容资源并没有找到。因此, 迫切需要研究新的科技期刊共享模型,清晰、准确的表达内容资源的语义信息,以避免所获取的资源与获取意图相差甚远; 同时,明确的描述科技资源之间的语义关系,不至于相关资源匮乏。

为此,必须建立新的科技期刊共享模型,不仅能够准确的表达内容信息的真实含义,也能反映内容信息之间的相关性; 同时增强计算机对内容信息的理解,能够被计算机自动识别和处理,从而达成广泛的共识,使得不同内容资源之间、计算机与内容资源之间,没有语义断层,真正实现语义层面的共享。

2.2科技期刊内容语义信息共享

语义信息是指语言文字所表达真实含义。长期以来,科技期刊界普遍采用字符 ( 关键字、主题词等) 对内容信息进行描述,这种描述方式简单、方便,也非常容易地被计算机处理,然而,这种方式却忽略了语义层面的信息,导致描述结果不能表现被描述信息的真实含义。例如, “苹果” 一词在不同领域可能有完全不同的语义。因此,这种传统描述方式具有明显的缺陷。将内容资源的语义信息表达出来,并且能够被互联网上的计算机接受和理解, 从而实现自动化处理,是科技期刊语义共享的关键。

1998年,Tim Berners - Lee首次提出语义Web的概念[9],这是对计算机和互联网下一阶段发展的定义,通过对Web文档添加能够被计算机理解的语义元数据,从而使得整个互联网能够进行信息交换。 并提出了语义Web的体系结构,定义和规范化语义Web的整体内容,W3C也为此专门成立了工作组。 语义Web的目的不是要推翻现有的Web体系结构, 而是对现有Web体系结构的扩展,使得现有的Web能够携带更多的语义信息,从而更好地满足人们各种语义信息服务的需要。

语义Web逐渐被人们所认识和接受,并已经成为研究的热点,尤其,近几年来,取得了丰硕的理论成果,相关的应用研究也已经展开。W3C将XML定义为一种资源描述语言,推荐RDF ( Resource Description Framework,资源描述框架) 作为描述和处理元数据的方案,同时制定OWL ( Web Ontology Language,Web本体语言) 标准规范,并以此作为资源的语义描述工具。上述语言都作为语义Web语言栈的标准语言,出现在语义Web体系结构中。同时,相应的开发工具,例如Protégé,已经得到工业应用的检验。

目前,语义Web在医学、机械、航空等诸多领域都有广泛的应用。在语义Web中,本体是基础。 本体是一种知识表示与组织体系,不仅澄清领域的概念或术语,同时也表达这些概念或术语之间的相互关系,阐明领域的知识体系结构,达成普遍的一致性理解,能够被计算机理解和自动识别,从而实现计算机的自动化处理。因此,构建科技期刊相关本体,是实现科技期刊资源语义共享的首要问题。 为此,需在领域专家和计算机专家的参与下,对科技期刊资源进行分析和信息处理,建立表示科技期刊语义知识的领域本体。

2.3科技期刊语义共享模型

语义Web能够携带科技期刊内容资源的语义信息,从而增进计算机与计算机之间,以及人与计算机之间的相互理解,这是传统Web体系机构所不具备的。因此,语义Web能够从根本上解决传统互联网在语义表达上的不足。这种语义上的表达是针对科技期刊的内容资源本身,包括内容信息与内容信息之间的语义关系,从而,实现计算机的使用自然语言进行自动推理和检索查询服务。因此,通过语义Web,能够显著提升网络信息获取能力,最终提高信息服务质量。为了实现以上科技期刊的语义Web功能,需要根据科技期刊的特点,设计科技期刊语义共享模型。本文所提出的模型如图1所示。

所建模型包括领域本体、科技期刊内容信息语义化处理、用户查询语义化处理、科技期刊内容信息获取,以及本体解析等环节。

模型中主要环节描述如下:

( 1) 科技期刊来源。目前,科技期刊有多种发布方式,有数据库发布、普遍Web发布、OA发布、 移动发布等,这些不同的发布方式,构成了科技期刊的来源。这些科技期刊来源的共同特点是非语义描述,在用户查询、内容资源共享等方式,无法最大化的发挥科技期刊的传播效果。

( 2) 领域本体。科技期刊与哲学社科期刊不一样,有其专门的领域特点、术语、核心词汇等。为了科技期刊发布共享的需要,使得更多用户能更快、 更精确的检索到所需的科学知识,同时,在一些跨库、异构的检索中,科技期刊领域本体的构建显得特别重要。领域本体构建包括三方面的内容:

1领域本体建模。抽取科技期刊相关领域的术语、核心词汇、概念和属性,在领域专家和计算机专家的参与下,建立领域本体的概念模型; 对所建立的概念模型,进行评价并逐步求精; 然后,将概念本体进行形式化描述,转化为计算机能够理解和处理的计算机世界的本体,即采用本体语言,对本体进行形式化编码。图1中,科技期刊领域本体在科技期刊领域的专家的指导下,完成领域知识的获取,并利用已获得的科技期刊领域的知识,实现领域本体的建模; 再利用Protégé 等工具对领域本体进行形式化处理,并且利用RDF或OWL等本体建模语言进行持久化;

2应用本体。应用本体是领域本体的具体化, 即将抽象的领域本体实例化。不同的科技期刊所采用的核心词汇、文章编排格式、概念和属性等不同, 因此,每一个科技期刊都必须根据领域本体进行取舍,并构建适合本刊实际情况的应用本体。

3本体解析。从持久化的应用本体,即科技期刊文档或数据库中读取本体; 对本体进行识别和理解,使机器理解本体的知识结构,理解本体的概念和概念之间的相互关系,理解概念所包含的属性和相应的取值范围等,为科技期刊内容信息和用户查询语义化处理。

( 3) 语义Web发布。对即将发布到互联网上的科技期刊内容信息,要进行以下三个步骤的处理:

1语义化处理。对需要语义化的科技期刊,根据应用本体的需要,抽取相关术语、核心词汇、概念和属性;

2应用本体解析。对术语等进行统一标识,使用期RDF或OWL进行描述,并将用XML描述的代码内嵌到Web中,创建语义Web ( 形式化后的Web文档) ;

3互联网进行发布。将创建的语义Web通过网刊系统、期刊数据库等形式发布到互联网中,实现科技期刊内容信息的语义Web发布和共享。

( 4) 查询语义。查询语义是用户查询和获取科技期刊内容资源的过程。

1用户查询语义化处理的过程。从用户的检索语句中,获取相关术语、核心词汇、概念和属性; 通过应用本体进行解析,对术语等进行统一标识; 用本体形式化语言对抽取出来的术语等进行描述。

2科技期刊内容信息资源获取。根据1所形成的本体描述,将其与互联网上的语义Web进行匹配,得到相应的检索列表; 通过该资源列表获取对应的科技期刊内容资源实体,呈现给用户。

2.4科技期刊语义共享的模型原理和运行机理

( 1) 模型原理

图1所示的共享模型,在科技期刊的语义表达上,利用概念、术语,以及相关属性对科技期刊进行描述,从而,提高语义表达的精确性; 同样,对用户的查询也采用这样的处理方式。在查询匹配的时候,利用概念与概念之间的相互关系,获取相关的科技期刊内容资源。因此,该共享模型,不仅能够准确的表达科技期刊内容资源的语义信息,也能反映各科技期刊资源之间的语义关联。对于以传统Web形式发布的科技期刊资源,通过对关键词、主题等,参照本体进行语义化处理,然后,以语义Web的形式发布。

为了进一步提高资源获取的效率,可以预先对语义Web所表示的科技期刊资源,进行语义索引。 对科技期刊资源进行语义化处理的粒度比较灵活, 例如,对具有明确语义的段落,或若干段落进行语义化标识,从而使得科技期刊内容信息的表达更加精确。

本体建模需要领域专家的参与,经形式化的本体,发布后具有复用价值,因此,可以在整个互联网上共享。各个科技期刊发行实体,都参照广泛认可的本体,对科技期刊内容资源进行语义化处理, 然后发行,那么,整个互联网上的科技期刊内容信息,将具有更广泛的语义相关性。这样,同一发行实体内部不同科技资源之间,可以相互关联,不同发行实体的科技资源也具有相关性,从而实现整个互联网上科技资源的互操作。

( 2) 运行机理

图1中虚线箭头表示用户资源获取过程,实线箭头表示科技期刊语义化处理过程。其中,用户、 领域本体、查询语义、Internet构成了一个用户资源查询和获取的过程; 而科技期刊、领域本体、语义Web、Internet构成了科技期刊语义化处理和发布的过程。

1用户资源查询和获取: 用户使用各种不同的检索语言查询所需要的资源,模式将用户检索内容转化为本体的表达形式,并与Internet上的发布的科技期刊本体对比,确定内容资源正确性,并将结果返回给用户;

2科技期刊语义化处理和发布: 从Internet获得的未语义化的科技期刊内容资源或者科技期刊即将发布的内容,通过对领域本体的实例化,形成了特定的科技期刊本体,并使用本体描述语言编写本体, 形成语义Web的并发布到Internet。

2.5模型的意义

科技期刊内容信息的快速传播,有益于人们及时了解和把握科技创新动态。传统科技期刊发行模式,发行周期长,传播速度慢,共享范围窄,这严重影响了科技信息的时效性。互联网为代表的信息技术的迅猛发展,为科技期刊发行模式的转变,提供了方向和前进的动力。尽管,已经出现了科技期刊数字化、网络化的明显趋势,以及实际的应用成果,但是,这与信息技术发展的现状相比,严重滞后。而且现有的理论研究和现实应用,仍然存在明显的不足。

语义Web是下一代互联网发展的目标,是互联网语义信息表示和获取的基础。科技期刊语义共享模型,能够很好解决已有的相关研究中对科技信息语义表达不充分,忽略科技信息之间的语义相关性等问题。而且具有非常明确的产业需求导向和广阔的应用前景。另外,通过语义Web的共享,使得越来越多的用户能更准确、方便的检索到相关的内容资源,提高科技期刊内容资源的的传播效率,提升科技期刊服务质量。因此,具有重要的理论价值和实际应用价值。

3总结

综上所述,基于语义Web已经被广泛应用信息共享等各个领域,它既对传统信息共享提出挑战, 同时也为未来信息共享指明了方向。而实现语义信息共享,对于从语法信息、语义信息、语用信息等方面研究科技期刊共享模型,进一步增强科技期刊的共享范围,提高科技期刊的传播效率,有着不可替代的重要作用。因而在信息资源日益网络化和信息载体逐步数字化的时代发展背景之下,研究科技期刊语义共享模型,已经是大势所趋。

科技期刊面对纷繁复杂的竞争环境,要进一步加大研究科技期刊共享模型的力度,以增强期刊的共享度,加快科技信息传播效率,从而提高科技期刊的服务质量。

摘要:语义Web对传统信息共享提出挑战,同时也为未来信息共享指明了方向。科技期刊作为重要的科技信息载体,一直发挥着不可替代的作用。本文通过基于语义Web信息处理的科技期刊共享模型的研究,以增强期刊的语义Web共享范围,提高内容信息传播效率,从而提升科技期刊的服务质量。

基于语义的VSM模型改进 篇6

关键词:文本聚类,VSM模型,特征向量,语义

0引言

随着现实世界中信息资源不断增加,特别是语义网、本体等理论的发展,使得基于语义的聚类搜索引擎有了更广阔的发展空间。聚类搜索引擎和传统的搜索引擎有着很大的区别,它更加智能化、人性化,可以指导用户进行二次搜素,使得搜索更加的便利、高效。而聚类搜索引擎的核心与难点就在于文本聚类。所谓文本聚类,就是将N篇文章聚集成K类,使得每类内的样本相似度较大,而每类间的样本相似度较小。国内外也围绕着文本聚类这一课题提出了很多理论和算法,大致可以分为基于数理统计的文本聚类(如VSM+K-means等方法)和基于语义的文本聚类(如ontology+WRBC等方法)这两大类。由于基于语义的文本聚类更加符合人的思维逻辑,效果比前者要好,所以成为文本聚类研究的主要方向和热点。

1基于语义的文本聚类方法改进

1.1现有的文本聚类思想

1.1.1 基于数理统计的文本聚类方法

目前基于数理统计的文本聚类方法一般是将M篇文章进行分词,特征提取,得出M篇文章的特征词,进而得到M×N的特征向量矩阵,其中NM篇文章特征词的种类数,然后将其映射到特征向量空间模型中进行聚类。聚类的差别主要体现在聚类算法的选择上,如基于划分的算法(k-means, FREM),基于密度的算法(ST-DBSCAN,DENCLUE,OPTICS),基于层次的算法(BIRCH,CURE)等。

如,有三篇文章A,B,C,需要聚类为两类。三篇文章经过分词,特征提取,得出特征向量矩阵F:

F=[a1a2anb1b2bnc1c2cn]

(1)

其中n为文章特征向量的维数,将其映射到VSM模型中去,那么可以得出A,B,C三篇文章的特征距离,一般用向量的夹角作为它们的语义距离:

dis(A,B)=arccos(A¯B¯|A¯||B¯|)=arccos(i=1naibii=1nai2i=1nbi2)(2)

如果dis(A,B)< dis(A,C)且dis(A,B)< dis(B,C),那么在理想的聚类情况下,文章A,B应该分为一类,而文章C单独为一类。

这种文本聚类方法虽然思想简单,易于实现,但其有两个主要问题:第一,M篇文章产生的特征向量矩阵大小为M×N,而N一般会很大,在这种情况下会对聚类的效率与效果产生负面影响;第二,利用数理统计方法得出的特征向量矩阵和之后基于这个矩阵求出的文章特征距离都是非语义的,会导致两篇文章在语义上是相似或相关,但它们的文章特征距离却很大,从而使聚类效果不理想。比如一篇文章只反复出现“电脑”这一关键词,而另一篇文章只反复出现“计算机”这一关键词,虽然它们在语义上是相似的,但基于数理统计的聚类方法却无法体现出这一点,依然认为这两篇文章的特征距离很大。

针对第一个问题,目前已经有理论对其进行改进,比较好的方法是利用语义对文本特征向量进行降维。

1.1.2 利用语义对文本特征向量进行降维

基于语义文本特征向量降维的主要思想是将特征向量矩阵中的特征集合先基于语义进行一次聚集。如有特征向量矩阵F:

F=(Fv11Fv12Fv1jFv1ΝFvi1Fvi2FvijFviΝFvΜ1FvΜ2FvΜjFvΜΝ)

(3)

其中Fvij为第i(0<iM)篇文章的特征向量中第j(0<jN)个分量的值,M为文本个数,N为特征向量的维数,特征向量的每个分量名用Fi表示。

因为特征的维数过高,所以将相似度达到阈值或者相似度符合某一公式的两个以上的特征合并,假设sim(F1,F2)>阈值,则将F1,F2列合并,F1,F2列所对应的权值相累加,则特征向量矩阵变为:

F=(Fv11+Fv12Fv1jFv1ΝFvi1+Fvi2FvijFviΝFvΜ1+FvΜ2FvΜjFvΜΝ)

(4)

聚类后新维与其它维的相似度可以用原始维与其它维的相似度进行简单转换。同样的,如果一个多维集合中每维间的相似度都达到阈值,则可以将这个多维集合进行合并。利用这种方法,可以将特征向量矩阵的维数大大降低,从而使其相对应的VSM模型维数大大降低,提高了之后聚类的效率和效果。

经过语义降维,基本可以解决基于数理统计的文本聚类方法的第一个问题,但并不能完全克服第二个问题,因为这种方法没有考虑到未达到阈值但又有一定相似度的那些维对聚类产生的影响。例如一篇文章只反复出现“电脑”这一关键词,而另一篇文章只反复出现“显示器”这一关键词,我们设定每维可以合并的相似度阈值为0.9,根据知网查询得知:sim(计算机,显示器)=0.444444 ,所以计算机和显示器这两维并不能合并,导致这两篇文章的特征距离依旧比较大,但事实上这两篇文章是有一定的相关性的。

1.2基于语义扭曲VSM模型下的聚类

在以上两个现有文本聚类思想的启发下,本文以其为基础进行了改进,即将VSM模型先基于语义进行扭曲,在扭曲后的空间下再利用传统聚类方法进行聚类,使语义的因素真正融入到文本聚类中,得到更好的聚类效果。

1.2.1 扭曲VSM模型下求向量夹角大小程度的方法

1) 假设有两向量A(a1,a2,…,an),B(b1,b2,…,bn),N维空间的语义相似度矩阵SV(N×N),横向用Xi来表示,纵向用Yi来表示,i从1开始,到N结束。即SV[X2,Y3]表示第2维与第3维的相似度,这两维组成的平面记作X2OY3。

2) 将向量A,B投影到各个平面上。比如将两向量投影到XiOYj平面上(i,jnij,n为向量的维数),得到两点Aij(ai,aj),Bij(bi,bj),这个平面上两维的相似度为SV[Xi][Yj]。

3) 分别扭曲各个平面,求各个扭曲平面下的点的距离。假设在XiOYj平面上做扭曲,横纵坐标在第一象限的夹角将变为arccos(SV[Xi][Yj]),两向量Aij(ai,aj),Bij(bi,bj)的夹角值会发生相应的变化。具体变换方法如下:

(1) 求出扭曲前向量Aij(ai,aj)和Bij(bi,bj)的夹角值angleij:

angleij=arccos(Aij¯Bij¯|Aij¯||Bij¯1)=arccos(aibi+ajbjai2+aj2bi2+bj2)(5)

(2) 求出二维坐标系XiOYj的扭曲程度degreeij:

degreeij=arccos(SV[Xi][Yj])Π2 (6)

(3) 求出扭曲后向量Aij(ai,aj)和Bij(bi,bj)的夹角值angleij′:

angleij′=angleij×degreeij (7)

4) 累加两向量Aij(ai,aj)和Bij(bi,bj)在各个扭曲平面下的平面夹角值angle:

angle=i=1n-1j<inangleij´ (8)

这样就可表示两向量在扭曲空间下的夹角大小程度了。

上方法求得的文本语义距离矩阵更加符合语义逻辑,可以代替传统聚类算法中的语义距离公式。

1.2.2 两个结论

结论1 按照上方法求出的扭曲空间前的向量夹角大小程度与用常用方法求出的向量夹角大小单调性一致。

过原点的两个向量的夹角α投影到任意两维平面XiOYj(i,jnij,n为向量的维数)上得出夹角βij,显然αβij的单调性是非严格同增减的,即α越大,βij则越大或不变。那么α和投影到所有二维平面上的夹角累加i=0n-1j=i+1nβij的单调性也是非严格同增减的,即按照上方法求出的扭曲空间前的向量夹角大小程度与用常用方法求出的向量夹角大小单调性一致。

结论1说明将上方法应用到普通文本聚类算法中与应用传统语义距离公式的普通文本聚类算法得出的聚类效果是一样的。

结论2 语义越相关的两个向量,扭曲后的夹角变小程度越大。

假设有A,B,C三篇文章,经过特征提取后将它们映射到VSM空间,得到特征向量A,B,C,考虑向量AB的夹角AOB,向量AC的夹角AOC,将两个夹角投影到某一二维坐标平面M上,如果会有三种情况,分别是:

情况一:夹角AOB与夹角AOC在二维坐标平面M上都有投影。在这种情况下,如果平面M对应的两维有相似度的话,则将对平面M进行扭曲,夹角AOB与夹角AOC在平面M上的值都会相应地变小,它们值之间的差距也会变小,即向量AB,AC的语义距离在平面M上的区分度由于基于语义对平面M进行的扭曲而削弱了,利用扭曲后平面M的两维来区分向量AB,AC之间语义关系的意义也变小了。相对的,就等于提高了向量AB,AC的语义距离在其它二维坐标平面的区分度,总体上使得语义越相关的两个向量的夹角变小的程度越大。

情况二:夹角AOB与夹角AOC中,有且仅有一个在二维坐标平面M上有投影。假设只有夹角AOB在平面M上有投影。如果平面M对应的两维有相似度的话,则将对平面M进行扭曲,夹角AOB投影在平面M上的值会变小,说明文章A与文章B在语义上是相关的,从而使向量A与向量B的夹角相对于向量A与向量C的夹角变得更小,总体上使得语义越相关的两个向量的夹角变小程度越大。

情况三:夹角AOB与夹角AOC在二维坐标平面M上都没有投影。在这种情况下,平面M对于向量AB,AC来说是没有区分度的,即在平面M上,无论是否需要扭曲,都不会对夹角AOB与夹角AOC产生影响。

从结论2可以说明,在基于扭曲的坐标下进行文本聚类,会与非语义聚类产生的结果有一定差异,将会更加符合语义逻辑。

1.2.3 实例

假设有文本A,B,C,需要将它们聚为两类,经过特征词提取后,统计关键词词频,得出表1。

从表1可以推断出,文本A和文本B是描述计算机部件维修相关的文章,而文本C是描述计算机组成相关的文章。

将关键词词频矩阵进行TF/IDF转换,得出表2。

在未对VSM模型进行转换前,按照本文的方法进行文本语义距离的计算,得出三篇文本间的距离,见表3。

从表3可以得出,若在理想的聚类情况下,文本A和文本C应聚为一类,而文本B单独为一类。这个结果是符合数理统计的,但并不符合语义逻辑。

根据知网查询得知,Sim(计算机,显示器)=0.444444 ,Sim(维修,显示器)=0.074074 ,Sim(计算机,维修)= 0.074074 ,对VSM模型基于语义进行转换,按照本文的方法进行文本语义距离的计算,得出三篇文本间的距离,见表4。

从表4可以看到文本A与文本B的距离相对于文本A与文本C减小的程度更大,原因是文本A与文本B中关键词的差别在于“计算机”和“显示器”的词频不同,但由于“计算机”和“显示器”这两个关键词是有比较大的相似度的,所以文本A与文本B在语义上更加地相似。文本A与文本C之间也是有一定的语义相似度的,但是由于不如文本A与文本C相似的程度大,所以语义距离也不如文本A与文本B变小的程度大。

从表4可以得出,在理想的聚类情况下,文本A和文本B应聚为一类,而文本C单独为一类。这个结果更符合语义逻辑。

1.2.4 传统方法与本文改进后方法复杂度的比较

首先比较时间复杂度。基于语义降维的VSM模型聚类方法由于要利用特征词相似度矩阵来对特征词做一次聚类,比基于数理统计的聚类方法要多一个步骤;但在聚类时,由于基于语义降维的VSM模型聚类方法的特征向量矩阵维数降低了,所以在这一步骤上时间复杂度比基于数理统计的聚类方法要低。总体上,当要处理的特征向量矩阵维数越大,而特征向量又基于语义内聚程度越高,基于语义降维的VSM模型聚类方法在时间复杂度上就越优(或接近)于基于数理统计的聚类方法;而改进后的方法只是在计算文本特征向量距离公式上做了改进,总体上来说与基于语义降维的VSM模型聚类方法在时间复杂度上是一致的。

考虑空间复杂度,基于语义降维的VSM模型聚类方法与本文的方法都需要利用特征词相似度矩阵,所以这两种方法在空间复杂度上略高于基于数理统计的聚类方法。

2实验

本文的实验语料库源于新浪、搜狐等各大主流网站,利用网络抓取软件基于经济、政治、科技、体育、军事这五类在各个网站上进行网页抓取,各取100篇,存为文本,然后利用中科院的分词系统(ICTCLAS)对文本进行分词,以及文本预处理(包括停用词、非语义词的过滤等),得到的特征向量矩阵进行基于语义的降维。最后应用本文的方法进行文本聚类,采用的聚类算法为K-means算法,关键词相似度计算利用的是知网(Hownet)的词汇语义相似度计算软件(WordSimilarity)。

聚类效果优劣的程度一般可以用召回率、查准率以及F-Score的值来说明。其中,召回率是指某聚类集合中文档数与此类相关的文档数的百分比,体现的是聚类效果的完备性;召回率是指某聚类集合中与此类相关的文档数与此聚类集合中所有文档数的百分比,体现的是聚类效果的正确性;而F-Score则是召回率与查准率的一个综合值,从总体上体现聚类效果的优劣。实验将语料库分组对传统文本聚类方法(VSM+K-means)和基于语义变换VSM模型后的文本聚类方法(VSM'+K-means)的效果进行对比分析。

首先将政治类、体育类、科技类的文本语料混合,进行聚类比较,结果如图1所示。

从图1可以看出,由于政治类、体育类、科技类的类别差距比较大,而且每类中特征词的语义相似度的内聚度高,所以在基于语义扭曲后的VSM空间上用K-means算法得到的效果比较理想,无论是召回率还是查准率都比传统的非语义聚类方法要好。

如果将政治类、军事类、经济类的文本语料混合,进行聚类比较,结果如图2所示。

从图2可以看出,由于政治类和军事类的类别差距比较小,而且每类间的某些特征词具有一定的语义相似度,所以在基于语义扭曲后的VSM空间上用K-means算法得到的效果不是很明显,但是在召回率与查准率等还是略优于传统的非语义聚类方法。从语义上分析,因为某些文章在类别上很模糊,可以算作政治类,也可以算作军事类,所以才造成改进后的聚类效果不如前一组明显。

如果随机的从实验语料库中不放回的抽取200篇文章,对其进行聚类比较,综合几次抽取实验的数据,结果如图3所示。

从图3可以得出,总体来看,特征词之间的相似度对聚类产生了积极的指导作用,加大了聚类后每类的内聚程度,即使是类别模糊的文章,改进的方法也会使聚类效果更加符合语义逻辑,所以改进后的聚类效果明显优于传统的非语义聚类方法。

3结论及工作方向

本文提出了基于语义变换VSM模型,从而改进文本聚类效果的一种方法。根据语义对VSM模型中的每两维进行扭曲,使得语义上越相似的特征向量,它们的语义距离减少得越快,从而使得它们能够基于语义进行合理的聚类,达到的效果优于传统非语义聚类方法所产生的聚类结果。另外,本文通过分析,实例及分组实验数据对比,从各个方面验证了这种改进方法的合理性和正确性。

本文已验证了基于语义变换VSM模型,可以应用于文本聚类。那么进一步将这种方法应用于文本分类,主题分类等基于VSM模型的其它数据挖掘领域,是否会有良好的效果,将是我们下一步研究的重点。

参考文献

[1]孙吉贵.聚类算法研究[J].软件学报,2008,19(1):48-61.

[2]景丽萍.基于K-Means特征加权算法的大规模文本数据子空间聚类[J].计算机研究与发展,2005(42):85-90.

[3]Xiquan Y.Research on ontology-based text clustering[C]//2008 ThirdInternational Workshop on Semantic Media Adaptation and Personaliza-tion,2008.

[4]Qinglin G.The similarity computing of documents based on VSM[C]//Annual IEEE International Computer Software and Applications Confer-ence,2008.

[5]Dhillion I S,Mallela S,Modha D S.Information theoretic co-clustering[C]//GETOOR L,SENATOR TE,DOMINGOS P,et al.Proc.of the9th ACM SIGKDD Int’l Conf:On Knowledge Discovery and Data Min-ing.Washington:ACM,2003.

语义信息模型 篇7

一、基于本体语义网模型研究

Tim Berners-Lee在2000 年XML会议上首次提出语义网概念, 并从体系结构上进行定义。第一层为Unicode和URL, 主要负责标识和处理Unicode代码; 第二层为XML+NS+XML Schema, 主要表示网络结构类型及数据;第三层为RDF+RDF Schema主要进行对Web资源进行描述;第四层为本体词汇, 以描述各类资源及其关系;第五层为逻辑, 主要进行逻辑推理;第六层为证明, 结合逻辑陈述进行验证并得出结论;第七层为信任, 由此建立用户间的信任关系。由此可见, 对于语义网信息检索模型来说是建立在数据的描述上, 其关键是建立领域本体库, 而实现的难点是对本体相似度的匹配。基于本体的语义网检索模型需要从语义思想的构成上来实现动态生成、匹配查询。其构成要素主要有两部分, 一是物理构成要素, 如用户、知识库、物理系统;对于用户可以分为一般用户和专家用户, 知识库是语义检索的核心, 也是构建零散数据和知识关联规则的基础, 为实现信息检索功能而服务。二是逻辑功能构成要素, 从语义网的检索系统功能上来看, 其逻辑功能主要是由人机交互层、知识处理层、知识收集层和存储层组成。

二、语义网检索机理和关键技术研究

基于本体的语义网检索模型, 在领域专家的引导下通过建立基于领域的本体库, 实现对信息源异构数据库的本体描述, 参照建立的领域本体, 将收集的数据源对象按规定格式进行存储。人机交互中的机器是具有理解语义信息的元数据, 通过语义标引工具来进行相似度匹配, 依照资源对象的类型、标引、描述和处理进行检索。用户在查询时, 通过查询界面将领域本体内的关键字集或域集进行匹配, 并在本体引导下构造查询本体;结合构造的查询本体, 从知识库的语义规则导引下, 依照语义逻辑推理模块来进行推理检索, 获得元数据库中的本体列表, 并将结构经过去重、合并、排序而返回给检索用户。也就是说, 对于基于本体的语义网检索模型, 其主要功能是在领域本体内检索, 对传统单一关键词检索更具有准确性;知识库中对知识的描述及推理规则的设定能够更有效地进行逻辑推理;借助于用户反馈来修正检索结构。

对于本体库的构建, 以及本体查询及相似度匹配推理都是语义网检索模型的关键技术。首先, 本体库的构建是由一系列概念、分层关系、函数、公理及实例组成, 对于其描述可以是功能、任务、行为、策略等等。在这个本体概念中, 各本体间的关系是相互关联的, 本体中的函数是一种特殊的关系, 函数之间也存在相应的约束和关联;实例是基于元素, 也是构成某概念的具体实体, 其形式化描述为:O:= (C, HC, R, rel , A, I) 。对于C表示为领域内的概念集, C={c 1, c2, ...cm}, 对于HCHC∈CXC表示为各概念间与实例间的层次关系, R表示为语义关系集合, 对于R={r 1, r2, ...rn}表示为概念间的相互关联, 如Is-a表示继承关系, Instance-of表示概念的所属关系, rel:R→CXC表示函数关系, A表示为领域内公理的几何, 也是对函数或关联关系的约束, 如一阶逻辑表示为A={a 1, a2, ...ap}, I表示为实例集合, 而实例是具有某概念的具体实体, 表示为I={i 1, i2, ...iq}。通过对上述本体的形式化描述, 从领域本体的概念确定、构造概念类、构造属性类、构建概念间的语义关系、构建属性间的语义关系, 以及具体的实例来形成领域本体库。

三、结论

基于本体的语义网检索模型及关键技术研究, 与传统关键词检索模型相比, 有效解决了对单纯关键词检索带来的语义不清、语义模糊问题, 特别是在本体、语义网、知识库的构建中, 从用户检索创新到输出检测结果, 提高了检索准确率。

参考文献

[1]李慧颖, 瞿裕忠.基于关键词的语义网数据查询研究综述[J].计算机科学, 2011 (07) .

【语义信息模型】推荐阅读:

语义模型06-17

语义类型06-05

语义数据06-06

语义变化06-07

语义比较06-20

语义检索07-04

语义指向07-27

语义知识07-29

文化语义08-12

语义运用08-14

上一篇:表面酸碱滴定下一篇:课后研讨练习