语义服务论文(共10篇)
语义服务论文 篇1
语义Web服务是指语义Web技术和Web服务技术的结合体, 在Web服务上添加上语义的标注。语义Web能够让数据被计算机自动化的处理以及理解, 能让计算机在因特网的大量的信息中找到指定的信息。随着社会科技的进步和发展, 现在人们也越来越重视信息共享, 而开放的Web环境也成为了人们获取海量信息的主要来源, 而随着对语义Web服务的研究工作的深入, 逐渐发现在语义Web服务的环节中有一个不可缺少的环节——语义Web服务匹配结果的排序机制。本文主要提出了基于语义距离度量模型的语义Web服务匹配排序机制, 根据这种排序机制, 依据语义Web服务的语义相似度量对语义Web服务匹配结果进行排序。
1 基于语义Web服务匹配的相关概述
基于语义Web服务匹配在其中加入了服务本体概念, 所以基于语义Web服务匹配在描述信息是具有清晰、准确的语义。语义Web模型是提供服务本身内部的流程信息, 和执行与服务相关的控制结构和数据流, 这些流程会在Web服务组合和执行时用到, 这些工作能够帮助发现Web服务是否符合请求者的要求。也能更加深入的去分析Web服务的可实施性。
1.1 语义Web服务匹配的现状
语义Web服务匹配是将用户的服务请求和Web服务数据库中的信息进行比较, 找出符合服务请求的语义Web服务信息。针对如何找出匹配的语义Web服务信息, 现阶段主要依据利用本体自身概念的逻辑包含关系进行推理实现匹配关系, 以及根据本体概念的语义相似度量进行相似度的匹配方法。例如:卡内基梅隆大学的Massimo Paolucc等提出的弹性匹配算法;基于本体属性的相似度算法;基于本体两个概念的几何距离来提出的语义相似度算法等运算方法。
1.2 基于语义的Web服务匹配排序模型的设计思路
在构建语义的Web服务匹配模型前, 应该通过研究相关的研究工作资料, 找出现有的语义Web服务匹配排序机制算法中存在的问题和不足。语义Web服务匹配模型的基本构架由八个部分组成, 根据语义描述的服务请求描述模块, 用于注册服务的服务注册模块, 用于存储本体信息的信息库, 用于搜索提取待匹配信息的信息提取模块等阶段的构建。
2 基于语义距离度量模型的语义Web服务匹配结果排序机制
随着语义Web服务匹配的发展, 在服务时对搜索结果的排序操作要求也越来越高。通过对各个研究工作概括和整理相关研究工作的资料, 探讨出一种基于语义距离度量模型的语义Web服务匹配结果排序机制, 运用这种基于语义距离度量模型来对在进行语义Web服务搜索时的匹配结果进行自动的排序操作, 这样能更加便捷、快速的完成Web服务的搜索工作。下文主要简单的介绍语义距离度量模型的相关知识和如何进行运用语义距离度量模型来对搜索结果排序, 以及加权语义距离度量在语义Web服务匹配中的运用。
2.1 语义距离度量模型
语义距离度量模型 (Semantic Distance Metric Model, 简称为SDMM) 是一种与“语义”信息本身定义具有相关信息的定义对象间的各种相关关系之间形成的一种三维空间可计算模型。利用本体的定义、实例、属性之间的语义联系:等价、包含和关联定义, 这三个向量可对应轴Veql、Vsub、Vrel, 利用这三个向量轴就能构成语义距离度量模型。语义距离度量模型是利用度量本体的定义、实例、属性与语义距离关系之间的三维空间可以计算的模型, 表达式为:SDMM=
2.2 基于语义距离度量模型的匹配结果排序
在语义距离度量模型 (SDMM) 中, 对象转换运算符 (→) 为其运算符, (→) 表示从语义距离度量模型的任意一个本体对象向另一个本体对象之间的转换函数。例如:从Ci向Cx转换可以记作Ci→Cx, 这样转换后就得到了一个集合Sx。在对对象进行求值算子Vx时, assign是作为语义距离度量模型中的算子, assign表示的是从坐标原点Ci→Cx所得的集合Sx中任意取一个元素, 语义距离度量模型的转换可由图2表示。
基于语义距离度量模型的语义Web服务匹配结果排序主要是根据语义Web服务所关系的本体对象的语义对象距离, 也就是说是本体定义对象在语义距离度量模型中的相互转换的操作序列之间的度量, 例如:在语义距离度量模型中Cm→Cn, 在计算语义距离时可利用公式 (1-1) 进行计算。
(1-1) 公式分为三个部分, 分别表示Cm→Cn在等价语义关系轴Veql上的操作, Cm→Cn在包含语义关系轴Vsub上的操作, 以及Cm→Cn在关联语义关系轴Vrel上的操作, 因此从概念Cm到概念Cn的转换距离度量实际上就是转换操作序列的三元组的度量。在这个过程中, 只是根据本体自身的概念, 属性作为一切推理的依据, 将本体中的所有对象映射在唯一的坐标点上, 再根据公式计算。
2.3 加权语义距离度量
因为语义Web服务匹配具有不同的服务要求类型和语义Web服务匹配要与上下文联系起来, 所以对语义Web服务匹配结果距离度量要运用加权的方式进行处理。在基于语义距离度量模型的语义Web服务匹配排序机制中, 可以给基于语义距离度量模型中的各个坐标轴的方向量赋予不同的权重值, 依靠权重值得到不同的加权语义距离度量, 从而进行语义Web服务匹配的排序。例如:有两个语义Web服务匹配距离对象Cm和Cn, 经过赋予不同的权重值后, 加权语义距离度量的计算表达式可以如公式 (1-2) 所示。
也可以根据不同的语义Web服务匹配内容, 在语义距离度量模型的三个方向的向量的语义距离度量权重值的设置可以有不同的方法, 甚至在实际的运用实例中可以将其中一个向量的权重值设置为0, 这就只需要考虑剩下的两个向量对语义距离度量的影响。
3 总结
语义Web服务匹配结果的排序机制在随着语义Web服务的搜索研究工作的不断深入的过程中, 已经成为了一个不可或缺的研究专题, 也在不断的研究运用不同的相似度度量模型和计算方法。而由于语义Web服务匹配搜索具有海量的信息, 运用不同的运算方法和不同的度量模型就有可能出现不同的Web服务匹配结果, 这就有可能影响到语义Web服务匹配搜索的准确性。本文在这些的基础上提出一种较科学的基于语义距离度量模型的语义Web服务匹配排序机制, 并且还依据不同的Web服务匹配搜索提出了对语义距离度量模型的方向轴赋予加权值的方法。但是怎样将语义信息完全统一的放入语义空间模型中并且进行一个统一的度量, 以及语义距离度量模型是否对不同的语义Web服务匹配搜索都适用, 这些都是以后研究工作的重心以及最需要解决的问题。
摘要:随着社会科技的进步和发展, 现在人们也越来越重视信息共享, 而开放的Web环境也成为了人们获取海量信息的主要来源。人们的需求也就让人们对语义Web服务技术不断地深入研究, 所以现在网上语义Web服务的数量也就快速的增加。本文主要提出了基于语义距离度量模型的语义Web服务匹配排序机制, 根据这种排序机制, 依据语义Web服务的语义相似度量对语义Web服务匹配结果进行排序。
关键词:语义Web服务,语义Web服务匹配,语义距离度量模型,语义Web服务组合
参考文献
[1]马应龙, 金蓓弘, 冯玉琳.基于进化分布式本体语义Web服务动态发现[J].计算机学报, 2013, 8 (11) :603-614.
[2]汤杰.语义Web服务组合的研究与实现[J].燕山大学学报, 2013, 11 (11) :120-121+125.
[3]方欣.基于语义的Web服务匹配研究[J].达宁大学学报, 2013, 2 (3) :156-157+159.
[4]杨易超.基于语义的Web服务匹配模型的研究与实现[J].电子科技大学学报, 2013, 2 (20) :178+180+185.
[5]曾志浩, 应时, 陈锐, 倪友聪, 赵楷.基于语义距离度量模型的语义Web服务匹配排序机制[J].计算机工程与科学, 2010, 5 (13) :138-139.
语义服务论文 篇2
【关键词】瓦西里椅子 形态 语义
产品语义是以符号的认知观来认识和研究工业产品,它的设计符号语言主要体现在形态上,所以也称为产品形态语义。产品形态语义对促进人机环境的和谐统一有积极的作用。建立产品形态语义的传达目标,从而用产品的概念性语义来逐层把握使用者的心理诉求,力求最大限度地满足其对产品的需求,同时诠释产品的特征,表达产品的功能。
产品形态语义的设计,无论是外观造型还是信息界面,都是经由设计师与使用者之间的交流,使产品形态表征,包括功能、使用、美学、文化等内在的意义信息的有意识的规划和调整,来加快产品形态语义的生成。
1 产品形态语义的生成
产品形态语义的生成实际上是人、物、环境、社会以及文化等关系在产品与人的情境构架中的清晰化、关联化的循环展开的过程。
产品形态语义生成的方法实质就是对各种造型符号进行编码,综合其材料、音响、色彩、质感、结构、造型等视觉要素;设定产品的使用环境;建立产品由“表及里”,即由外延意义向内涵意义这一预期语义的延伸。
产品形态语义的生成不仅要考虑产品形态的表象(能指)与意义(所指)之间的对应关系,更要考虑使用者这一因素,因为形态语义的生成都是在人际传播中形成的。产品形态语义实际上就是用来“传情达意”的,是传递信息情感的媒介。
2 瓦西里椅子形态语义生成方法及目标语义传达编码功效
2.1 瓦西里椅子背景资料分析
瓦西里椅子是包豪斯在德绍市崭露头角的第一批产品之一。它在很大程度上巩固了包豪斯学校作为功能主义设计领导者的声誉。椅子的设计者马塞尔·布鲁尔(1902-1981)是为了纪念他的老师瓦西里·康定斯基(Wassily Kandinsky),故而取名为“瓦西里椅子”。当时,为了方便,材料大多是用黑、白纤维布或金属丝网制成,包括可折叠和不可折叠两种造型。
2.2 瓦西里椅子的使用情境和文化情境设定
为了更好地分析瓦西里椅子的使用情境,本文首先描述一个高级设计公司的员工休憩与交流的场景图:一个美好的中午,忙碌了一个上午的员工们吃完午饭,聚集到这个充满艺术气息的场所,放松地进行沟通交流。小“休憩”场所以瓦西里椅子为依托,坐在椅子上不仅舒适,而且也烘托着整体空间简约实用的理念。员工们在这里阅读、思考、交流、休憩,促进了员工之间的友谊与合作,一切都显得十分的惬意,就这样,大家聚集在这里放松地度过中午时光......
从以上描述的休憩场景中我们可以提取瓦西里椅子使用的一些关键词:休憩、舒适、简约、实用、阅读、思考、交流、合作等,这些关键词构成了瓦西里椅子的使用情境。瓦西里椅子是现代主义风格,“Less is more”的装饰思想﹑机械化发展和新材料的应用,使椅子的造型越来越靠近纯形态(三角﹑圆﹑方)之间的组合重构。瓦西里椅子整体形态的简约实用与环境是一致的,西式生活的典雅和精致以及功能主义就构成了瓦西里椅子使用的文化情境(如左图所示)。
2.3 建立瓦西里椅子形态语义的传达目标
瓦西里椅子是受到当时的社会环境影响而产生的,是对包豪斯“艺术和技术新的统一”概念的表现形式。基于之前的分析,结合产品的任务描述,我们可以建立瓦西里椅子的形态语义传达目标。
主要从外延语义的传达目标和内涵语义的传达目标来描述。如表1所示。
2.4 瓦西里椅子形态语义传达编码转换和整合
在确立了瓦西里形态语义的传达目标之后,就要对这些传达目标转换成编码并进行整合。如表2所示。
在分析了瓦西里椅子的形态语义的传达编码之后,需要对传达编码中重复和冲突的内容进行调整和优化,最后形成完整的传达编码体系。通过综合运用产品设计中形态的各种要素,最后形成了如下方案。
设计说明:瓦西里椅子,是最早应用钢管材料的设计产品之一,是对包豪斯“艺术和技术新的统一”概念的一种表现形式。他使用现代工业的生产工艺,利用比较廉价和实用的材料,解决标准化问题,也是功能主义的代表作。造型轻巧优美,结构单纯简洁,具有优良的性能。不仅突破了传统的座椅造型,而且更加注意椅子的功能性,让人感觉更舒适,这款设计很好地将功能主义和式样主义相互补充,相互结合。总之,瓦西里椅子是艺术与功能相统一的设计产品。
2.5 瓦西里椅子形态语义目标传达编码功效描述
在完整地将产品形态语义的传达编码整合到实际产品的设计中之后,还需要对完成的产品进行评价。以下是对瓦西里椅子的传达编码功效的一个描述,主要是对产品所传达的信息内涵,体现的审美趣味和表达的情感诉求的一个描述。
瓦西里椅子,造型轻巧优美,结构单纯简洁,具有很优良的性能。瓦西里椅子曾被称作二十世纪椅子的象征,在现代家具设计历史上具有重要意义。由于钢管家具具有包豪斯最典型的特点,以至于被后人认为是包豪斯的同义词。
艺术创作的真正标准是形式和功能的相互关系。为了证明这一点,萨利文阐述了一条自然规律:“自然界中每个物都有形式,也就是说都有自己的外部特征,外部特征向我们指明这个物是什么,以及我们和其他物的区别。无论何时何地,形式都遵循功能”。瓦西里椅是比较注重功能性的设计。因 “坐”而“做”,为“座”而设计。这是一种典型的功能主义,其最基本的原则就是:形式遵循功能。瓦西里椅的外观造型很简约,没有繁琐的装饰加以点缀,更注重椅子本身的实用价值,即椅子的功能性。与瓦西里椅的功能主义完全不同的是装饰主义,装饰主义注重强调设计的外观形式,而不是优先考虑功能性。装饰主义不同于功能主义,它所奉行的不是形式和功能相统一,形式为功能服务的原则,而是使形式大于功能的手法,在游离于功能之外追求形式的新颖。
瓦西里椅不仅突破了传统的座椅造型,而且更加注意椅子功能性,让人感觉更舒服,同时,椅子的重量也更轻。这款设计很好地将功能主义和式样主义相互补充,相互结合。在艺术设计实践中,一件好的设计作品往往是功能主义和式样主义相互补充,相互结合,做到形式和功能相统一。
结语
语义Web服务技术研究综述 篇3
关键词:语义Web,服务组合,匹配计算方法
0 引言
信息化时代的到来, 解决了我们很多的问题, 于是万维网 (World Wide Web, 简称Web) 诞生了。Web服务是一种基于可编程的Web应用程序, 它是自描述、自包含、自独立、低耦合的、平台独立的。在形形色色庞大的数据中, 快速找到用户有用的信息, 将是未来我们要面临和解决的一个难题。Web服务依据其服务描述方式划分, 大体经历了基于关键字、基于语法和基于语义这三个阶段[1,2,3]。然而, 基于关键字的服务是根据关键字进行查找匹配, 返回含有大量关键字的结果, 其中含有很多不相关的内容, 与我们想要得到的信息匹配率比较低, 很难快速地得到你需要的信息;基于语法的主要是对用户比较方便, 但是计算机的识别能力和判别能力不够, 达不到精准的搜索结果;基于语义的服务是在搜索过程中对其添加了描述方式以及逻辑关系, 使得计算机容易匹配处理信息, 查询到的信息匹配度较高。
1 简介
万维网之父蒂姆·贝纳斯-李 (Tim Berners-Lee) [4]于2001年提出了语义Web, 在2006年, 他在普林斯顿大学演讲中公开表示, 最初把这种智能网络命名为语义网是不够准确的, 更贴切的应该是数据网。语义Web不仅是具有语义信息的, 并且是能够理解语义信息的互联网[5]。
Web服务是一套标准, 是建立可互操作的分布式应用程序的一个新平台, 这套标准定义了应用程序如何在Web上实现互操作性, 它可以基于任何语言和任何平台上, 通过Web服务标准对这些服务进行查询和访问, 为跨平台的互操作奠定了基础[6]。语义Web会根据人的思维, 把数据信息进行分解, 更准确的获得人们想要的信息, 代替人的一些智能化的网络, 使得它更具人性化、智能化。
2 语义Web服务的技术描述
Web服务和语义网技术的结合应用, 使计算机更容易被理解, 但是, 服务的语义描述问题是现今面临的核心问题, 也就是如何更好的描述才能使服务具有更准确的语义性。语义Web服务运用描述逻辑以及逻辑推理, 实现语义Web服务的自动发现、自动组合、自动监视和自动恢复等功能。目前语义Web服务的描述语义有以下几种[7]:OWL-S[8]、WSMO[9]、SAWSDL[10]、SWSO[11]、DSD[12]和SWSF等。
OWL-S是Darpa推出的新一代基于OWL的语义Web服务描述标准, OWL-S是引领目前语义Web服务的潮流, 用描述逻辑来实现其推理。基于OWL-S的服务描述是为服务这几个问题的, 为用户提供怎样的功能、如何使用服务和如何与服务进行交互。其对应的三部分可以分别对应解决以上问题:Service Profile, Service Model和Service Grounding。WSMO最初是由欧洲研究组织DERI实验室和Oracle共同提出的, 是基于WSMF的一个用一阶逻辑表示的Web服务的概念模型, 并且对WSMF进行了扩充。WSMO提供了一个概念性框架和语义的形式语言来描述Web服务的相关方面, 为语义Web提供了本体论的核心因素。WSMO由Goals, Ontology, Web Services和Mediators这四部分的内容组成。另外, SAWSDL利用本体概念对已有的Web服务描述标准的基础上进行语义标注和关联。SAWSDL是基于最初的WSDL, 所以SAWSDL对WSDL的兼容性比较高, 而且易实现。
3 语义Web服务匹配方法
Web服务匹配的关键和前提任务是服务的发现, 主要是研究用户请求的服务和已经发布的服务之间的匹配程度, 更多的研究在于服务的相似度和精准度上。语义Web服务匹配还应该做到查询的精准度和全面性, 查询到的结果还应该做到灵活性, 以便服务之间融会贯通, 同时, 提高组合的成功率[13]。
基于语义信息的服务匹配中, 一般按照语义服务匹配的个数划分, 可以分为单服务匹配和多服务组合匹配, 单服务匹配又包括基于概念本体逻辑关系匹配和相似度的两种服务匹配。
对于概念本体获取其相似度的匹配, 在两个本体之间具有影响相似度因素的关系大小, 来判断服务匹配的相似度。而确定相似度度量函数以及如何判定此相似度度量函数的优劣是其实现的重点, 也是难点。它是根据概念本体之间的逻辑推理来实现其匹配关系, 并且利用服务逻辑描述树的方法, 来描述服务状态的变化, 也就是服务接口所需要的特定输入 (Input/I) 、产生的输出 (Output/O) 、在此之前可能需要的前置条件 (Precondition/P) 以及完成之后产生的效果 (Effect/E) , 简称IOPE[14], 来实现基于概念本体逻辑关系的服务匹配。
多服务的组合能够满足用户更广泛更复杂的需求, 利用服务的可重用性[15], 把多个web服务组合形成一个新的服务, 供用户灵活方便地使用。比较常见的一种分类方法是将服务组合分为top-down, bottom-up和混合式三种[16];另外, 也有一种将web服务分为静态和动态两种方式[17], 它是根据其实现手段进行分类的, 动态相对于静态来说, 比较难以实现, 它在执行时调用服务并且进行组合, 而静态是在执行之前就被指定了它可能用到的服务。当前使用的服务, 常使用混合式服务组合匹配[18], 它汲取了top-down, 和bottom-up的优点, 既能保证用户的需求, 另外又能充分发挥已发布的服务的应用。
4 结语
语义与语境 篇4
【关键词】现代文阅读;理解语义;语境分析
在中学语文各类考试中,现代文阅读语言理解考查形式多样,现就语境分析在其中的具体运用分类予以阐释。
一、通过语境理解文章中的词语
构成语境的各种因素,都会直接或间接地影响文章的解读,使文章中某些词语的涵义发生变化,产生一种临时的、活用的新义。因此,在现代文阅读中,对词语的理解切忌照搬词典。
在现代文阅读中,词语的理解通常是考查它的指代义、比喻义和特定义,下面逐一阐释。
(一)根据语境推断词语的指代义。
例1.下面这段文字中有三个“此”字,请分别指出所指代的内容。
首先,项脊轩既然是一间不起眼的小屋,就得本此(1)立意,实事求是。“项脊”二字从何而来?有人认为归氏祖先住在项脊泾,因此(2)得名,此(3)勉强可通。
解析:对于此一类型题目,在实际运用中,我们应更多地重视指代词紧密相关的上文,因为代词的运用规律,总是先有指代对象,然后才用指代词语。根据语境不难分析到,例1的“此”其指代义依次为:
“此”(1),项脊轩是一间不起眼的小屋。
“此”(2),归氏祖先住在项脊泾。
“此”(3),归氏祖先住在项脊泾,(项脊轩)因此得名。
(二)根据语境推断词语的比喻义。
例2.下面文字中“兽类”一词的含义是什么?
书籍是会提高人的:从野蛮到文明,从庸俗到崇高。高尔基曾这样说过:“每一本书都是一个小小的梯子,我向这上面爬着,从兽类到人类,走到更为理想的境地,到那种生活的憧憬的路上来了。”
解析:这类题目的实质是通过喻体找本体。一般来说,本体往往出现在喻体前面,只要稍加对应分析、概括,也是容易找到的。例2中“兽类”的含义是:野蛮、庸俗。答案(本体)可以从喻体的上文中找到。
当然,有的比喻很难明显从上下文找到其本体,而了解其比喻义是经过更深层次的分析、比较,根据其相似的特性,找出其对应的本体。
(三)根据语境分析词语的特定含义。
例3.阅读下列一段文字,回答问题。
没有伟大的人物出现的民族,是世界上最可怜的生物之群,有了伟大的人物,而不知拥护、爱戴、崇仰的国家,是没有希望的奴隶之邦。因鲁迅的一死,使人们自觉出了民族的尚可以有为,也因为鲁迅之一死,使人家看出了中国还是奴隶性很浓厚的半绝望的国家。
鲁迅的灵柩,在夜阴里被埋入浅土中去了;而天角却出现了一片微红的新月。
“人们”和“国家”指什么?选出正确的一项:
A.所指相同,指中国人。
B.所指相同,指世界上的人。
C.“人们”指中国人,“人家”指外国人。
D.“人们”指看得起中国人的人,“人家”指看不起中国的人。
例4.阅读下列这段文字,回答后面的问题。
年轻时读《论语》,看到《子罕》篇“逝者如斯夫,不舍昼夜”的话,就想起希腊哲学家拉克利特“人不能两次走入同一河流”的名言。那所得是知识,因为自己年富力强,所以感伤之情没有机缘闯进来。转眼半个世纪过去,有时想到“逝者如斯”的意思,知识已成为老生常谈。无可吟味,旋转在心里的常是伤逝之情。年华远去,一事无成,真不免有烟消火灭的怅惘。
作者说:“知识已成为老生常谈”,这里“知识”指的是:
A.泛指年轻时所学的文章和道理。
B.关于时间不可留的道理。
C.指《论语》中的有关内容。
D.指读过的中外圣哲名言。
解析:这类词语的理解特别需要重视语境的分析,要把词语放在具体的情境下去理解,因为特定的情境会赋予语言更为具体的新义。这新义就是词语基本义在具体语境下的引申或转化,词语的内涵和外延都发生了变化,因此要重视文章的整体把握和语段的上下文分析,切忌照搬词典。
根据语境分析,不难得出:例3的答案是C,例4的答案为B。
二、根据语境理解含蓄的语句
含蓄是文学作品艺术性的重要特点之一,含蓄的语句大多出现在文学作品鉴赏中。要理解含蓄的语句,既要重视“大语境”——“知人论世”,整体把握,又要重视“小语境”——语段的上下文;而词语的理解大多只要抓住语段的上下文就行,起码现行的现代文阅读考试大体如此。显然,前者更不容易。
文学作品鉴赏在语文考试中难度指数最大(E级),这大语境不好把握大概就是其中的主要原因之一。那些利用托物言志、借古讽今、象征隐喻等手法写成的作品,语言最为含蓄,要理解它,就得更加倚重对语境的了解。下面就此分类举例阐释。
(一)根据语境,理解象征、隐喻性句子的涵义。
例5.结合原文和时代背景,阐释下列语段中画线句子的涵义。
出门向东,不上半里,走过一道石桥,便是我的先生的家了。从一扇黑油的竹门进去,第三间是书房。中间挂着一块扁道:三味书屋;扁下面是一幅画,画着一只很肥大的梅花鹿伏在古树下。没有孔子牌位,我们便对着那扁和鹿行礼。
——鲁迅《从百草园到三味书屋》
解析:例句的关键在于理解“鹿”在此处的特殊含义。在中国的传统文化语言背景里,因“鹿”与“禄”谐音,鹿就是福禄的象征。把鹿画在“三味书屋”扁下面,就隐喻了该私塾的教学目的:读书为了当官求禄。文末写到作者的一个同窗已经做了店主,“而且快要升到绅士的地位了”,就是对鹿画寓意的呼应。联系起来,作者含蓄地批评了旧中国腐朽落后的教育观。
(二)根据语境,理解语句的言外之意。
例6.结合原文和时代背景,阐释下列语段中画线句子的涵义。
下午,他拣好了几件东西:两条长桌,四个椅子,一副香炉和烛台,一杆抬秤。他又要所有的草灰(我们这里煮饭是烧稻草的那灰,可以做沙地的肥料),待我们启程的时候,他用船来载去。
——鲁迅《故乡》
解析:例句中润土所拣物品里竟有“一副香炉和烛台”,间接透露了润土在历经官匪兵盗天灾人祸后对生活的绝望、对命运的无奈,只能求鬼神赐福了。作者借此揭露了黑暗社会的罪恶,表达了对劳动人民的深切同情。
语义Web服务组合方法研究 篇5
一般地,语义Web服务的组合方法按其关注点的不同可分为:面向Web服务行为的组合方法、面向Web服务功能的组合方法和基于Web服务类型的组合方法;按其实现方式的不同可分为:面向状态搜索算法的组合方法、面向自动推理的组合方法和面向人工智能规划的算法。
1 基于情景演算的人工智能规划方法
这类方法的基本思想是使用人工智能规划中的动作来对Web服务进行建模,利用人工智能中的规划算法来进行Web服务组合。它所找到的组合服务通常比基于服务输入、输出参数的类型匹配的方法要来得准确,但是这类方法所能适用的Web服务范围比较有限。
我们可以把Web服务看作是AI规划中的动作。在经典的规划问题中,动作由动作的前提条件和效应所刻画,而动作的前提条件和效应是参与动作的个体的一组状态构成,动作的执行将使得某些个体处于新的状态之中。例如在经典的积木世界里面,使用手臂举起物体的动作pickup可用PDDL(Planning Domain Definition Language)描述如下:
情景演算最基本的思想就是通过把动作和情境(situation)具体化(reify)以方便进行一阶逻辑推理。所谓情景,形式上就是参与规划的个体所处的状态。在情景演算中,我们用流(fluent)来抽象整个个体的某一特性随情景变化的过程,而个体的状态则就是个体在特定情境下所具有的特性。假设初始情景S0恰好满足动作pickup(a)的前提,也即是说S0为{clear(a,So),arm-empty(S0),…},那么我们只要通过一步的推理就可得出执行动作pickup(a)后的情景是{holding(a,do(pickup(a),So,…},其中do(pickup(a))是情景集合上的一函词,指定了执行动作pickup(a)之后相应的情景迁移。
情景演算通常包含两类公理,一类是动作的前提公理,用于指定各个动作能够被触发的条件;另一类是流的后继公理,用于指定各个状态在每个动作执行之后的变化情况。就上例来说,动作pickup的前提公理是Poss(pickup(ob),S)≡坌ob.cleat(ob)∧armempty。而流on-table的后继公理是on-table(x,do(action,S))≡on-table(x,S)∧action≠pickup(x)∨…其显得更为复杂些。
Web服务的并发行为特性和经典规划中的动作的行为特性是非常不一样的,而针对经典规划问题提出的情景演算仅能产生由一组顺序动作构成的计划,因此在处理循坏、非不确定性和并发性时的行为需要一个解释器,而不是一个规划产生器。Web服务的执行通常会导致新的个体产生,这些个体通常作为Web服务执行的结果返回给用户;而经典规划中假定参与规划的个体不会在规划的过程中产生或消失,动作执行只是导致个体的状态发生变化。
2 基于模型检验的人工智能规划方法
如果把Web服务进一步细分为感知动作(sending action)和实效动作(effect action)两类,则Web服务组合问题可以转化为不确定领域中的条件规划问题。下面我们将要介绍的用于服务交响自动化的规划算法正是反映了上述思想,这个思想对服务组合的自动化来说具有极大的借鉴意义。另外,我们可以在BPEL4WS上使用不确定领域中的规划算法,利用规划中的动作来刻画Web服务的交互信息,能够较好地处理Web服务的非确定性,产生非常健壮的Web服务组合方案。虽然这种方法避免了处理Web服务产生的新个体,但在Web服务的交互信息的层面上进行程序综合并不十分适合于面向功能的语义Web服务组合。所以使用这一类方法的服务组合方案一般是两段式的,即先使用基于输入输出参数的类型匹配或面向服务功能的人工智能规划的服务组合方法寻找满足查询的组合服务,然后针对这个组合服务使用这类方法找出与该组合服务交互的其他Web服务。
这里的规划算法的基本思想是先用迁移系统(transition system)来刻画初始状态在各个动作执行后的迁移过程,然后用模型检验检查目标状态的可达性。目标状态的可达性蕴含了规划算法处理不确定性时的健壮性。如果在其中定义了多种可达性,每种可达性的迁移过程是不一样,但是每个迁移过程都可以通过OBDD进行编码。下面我们简单的介绍一下OBDD(Ordered Binary Decision Diagram)和用于刻画这个迁移过程的程序框架。
例如对于有三个命题变量〈P,Q,V〉的系统,状态集合{〈T,T,F〉,〈T,T,T〉}可以用命题逻辑的表达式PQ来表示,它的一个OBDD表示如图1所示,其中实边表示把源节点的变量赋为真T,虚边表示把源节点的变量赋为假F。
在规划中,我们习惯于用一阶逻辑谓词来刻画规划中的动作和状态。但注意到参与规划的个体数量n是有限的,我们就把一阶逻辑谓词转化为命题词。由于任意的动作都可以看作从一组状态集合到另一组状态集合的迁移,我们令rn(Old)为状态集合上的一个函数,用于计算这样的状态集合New,使得New中的元素不包含于状态集合Old中但却能迁移至状态集合Old中的状态。设规划问题的初始状态集合为I,目标状态集合为G,我们可以使用下面程序刻画与这个迁移过程相对应的迁移系统:
对上面这个程序进行模型检验,若GENERATEPLAN(I,G)=Ф,则不存在满足要求的规划。否则,存在满足要求的规划。
3 基于参数匹配的形式化推理方法
参数匹配的形式化推理方法(Rao)依赖于输入输出参数类型的上下位匹配,只不过该方法借鉴了自动化程序综合的思想,提出了采用线性逻辑推理进行Web服务组合,因而具备对Web服务进行参数个数的匹配的能力。由于该方法所采用的线性逻辑具有不可判定性,这从一定程度上削弱了它能够对Web服务进行参数个数的匹配的优势。
线性逻辑不同于经典逻辑,它以资源的观点来看待命题,茚表示两个资源都存在,茌表示两个资源中必有一个,表示消耗前面的资源可以产生后面的资源。例如,分别用D和C表示一美元和一包烟,那么“两美元能购买一包烟”可以表示为D茚DC。
Rao用线性逻辑来刻画Web服务和参数类型的上下位关系。譬如一个具有I1和I2类型输入参数和O类型输出参数的Web服务可表示为I1茚I2O;又譬如SbSp可以表示Sb是Sp的子类。
线性逻辑和并发系统两个重要的计算模型———Petri网和进程代数都有着深刻的联系。图2给出了一个用线性逻辑对Petri网进行形式化的例子,其中!是模态词,用于产生无限个拷贝。
组合服务的进程构造子实质上就是进程代数中的顺序运算符“.”,不确定选择“+”和并发运算符“|”。通过对每个推理赋予一定的操作语义(即产生对应的Web服务的进程代数表达式),我们可以从推理序列获得组合Web服务的进程代数表达式,这个表达式又可以直接翻译成组合Web服务的服务模型。
例如Web服务exchange可以让客户用一张礼券换取一支铅笔,即Coupon ExchangePencil;Web服务buy可以让客户付一美元买一支铅笔,即DolarBuyPencil;那么我们可以得出结论;无论客户是选择Web服务exchange还是buy,都可以获得一支铅笔,即Coupon茌DollarExchange+buyPencil。在Rao的方案中,与这对应的推理步骤是,其对应的进程代数表达式是exchange+buy。
4 基于搜索的方法
语义Web服务组合和语义Web服务匹配的联系是非常密切的,这里所讨论的一类服务组合算法就是建构于服务匹配之上的。
一个Web服务S能够满足一个查询Q意味着:对于查询Q提供的所有输入,Web服务S必须都能接受;对于查询Q所要求的所有输出,Web服务S必须至少满足其中之一。根据Web服务类型之间是否存在互相包含或相交的关系,我们可以定义一个Web服务S能够满足一个查询Q的程度(按从高到低的顺序):
1)Exact
type(P,Q)≡type(P,S);
2)plugIn
type(P,Q)哿type(P,S)如果P是输入参数;type(P,S)哿type(P,Q)如果P是输出参数;
3)subsume
type(P,Q)哿type(P,Q)如果P是输入参数;type(P,Q)哿type(P,S)如果P是输出参数;
4)overlap
如果P输入参数;如果P输出参数。
在确定Web服务满足查询的程度时,输入参数类型的上下匹配方向和输出参数类型的上下匹配方向正好相反。例如有四个在线销售书籍的Web服务S1,S2,S3和S4。S1接受中国银行的和花旗银行的人民币信用卡,S2接受所有的人民币信用卡,S3接受中国银行的人民币信用卡,S4接受花旗银行的多币种信用卡。如果用户希望使用手中的中国银行和花旗银行的人民币信用卡来购得一些书籍,那么从输入的角度看,服务S1满足用户查询的程度是exact;服务S2满足用户查询的程度是plugIn;服务S3满足用户查询的程度是subsume;服务S4满足用户用查询的程度是overlap。如果进一步考虑输出的话,假定Web服务S1只出售科技书,那么服务S1满足用户查询的程度就降为plugIn。
根据上面的定义可知,仅是在subsume或overlap程度上满足查询的Web服务是无法单独满足我们的确切需要的。为此,它必须与其他Web服务“相加”,并且这些相加的Web服务必须能够囊括查询提供的输入。这正是文献[1]中的服务组合算法的基本出发点,该算法通过一个矩阵对服务进行初步的“相加”以得到一个在exact或pluhIn程度上满足查询的组合Web服务,然后再不断的向前搜索直至获得要求的输出。
矩阵的维数由需要匹配的输入参数的个数决定,矩阵的每个维对应着一个输入参数,矩阵中的元素是一组Web服务,它们在矩阵的各个维上的分量是对应的输入参数所能接受的类型。在上述的例子中,需要匹配的输入参数只有一个,即购买书籍所使用的信用卡,我们用图3来示意这个一维矩阵。由图3可以看出,将S3和S4组合在一起也能够在plugIn程度上满足查询。
目前大多数的语义Web服务匹配算法都局限于服务参数类型的匹配,但这不等于说不能从服务的功能上和从服务的外部行为上来进行服务匹配。如果从服务的功能上和从服务的外部行为上来进行服务匹配,那么多少都有计算性和复杂性方面上的诟病(最显著的如计算的不可判定性),难以获得普遍的适应性,这也是目前大多的语义Web服务匹配算法仍停留于参数类型匹配的原因之一。
5 基于自动机的形式化推理方法
自动机和进程代数都可以很自然的刻画Web服务的行为以及相应的状态变化,例如一个接收search消息然后发送result消息的Web服务S可以用图4(a)中的进程代数公式来刻画:
如果不区分动作前缀“?”和“!”在意义上的不同,那么图4(a)中的各式同时也刻画了一个自动机。它的字母表为{?search,!result},状态集为{S0,S1},并且S0既是初始状态也是终止状态。
另外,图4(b)和图4(c)分别给出了另外一个Web服务R和我们想要获取的组合服务Q。我们的目标是在自动机S,R和Q的基础上构造一个“组合”自动机,并使用PDL对其进行编码以检验其可满足性。由于“组合”自动机中所有的动作都来自于自动机S和R,我们用命题变量MovedS和MovedR分别来模拟自动机S和R在“组合”自动机中的动作。设u是由所有原子程序的并构成的程序,即,我们有:
自动机S,R和Q在“组合”自动机的动作遵循图5中的PDL公式。
(a)刻画自动机S的各个状态在每种输入下的动作的PDL公式
(b)刻画自动机R的各个状态在每种输入下的动作的PDL公式
显然,这个“组合”自动机还须满足初始状态和接受状态等其他一系列的要求。具体的说,这个“组合”自动机的初始状态必须满足
Q0∧S0∧R0,并且“组合”自动机的接受状态必须满足[u](Q0→S0∧R0)。最后,我们必须指明各个自动机中的每个状态都是不同的,即在自动机Q中有[u](Q0→┐Q1);在自动机R中有[u]R0→┐R1);在自动机S中有[u](S0→┐S1)。
从上面构造“组合”自动机的过程中,我们可以看出文献[2]的基本思想与模型检验的原理如出一辙。这不是偶然的,因为从理论上讲,一个迁移系统与一组动态逻辑公式是对等的。所以不论这个迁移系统是用于刻画动态逻辑中的Kripke语义结构,或是用于刻画自动机,还是用于刻画进程代数的操作语义,它从形式上总是与一组动态逻辑公式相对应。
6 结束语
Web服务组合和服务描述是分不开。Web服务的输入输出参数类型、执行前提和效果和消息交互序列等信息不仅是服务描述的对象,也是Web服务组合的根基。从本论文的论述可以看出,Web服务组合问题很难获得一个统一的解决方案。这是因为Web服务组合所依赖的计算理论基础决定了Web组合方法必须根据其关注的焦点在计算能力和可行性作出适当的折衷。
参考文献
[1]Ion Constantinescu,Boi Faltings,Walter Binder.Large Scale,Type-Compatible Service Composition.In:Proc.IEEE Int Conf.Web Services.IEEE CS Press,2004.
[2]Daniela Berardi,Diego Calvanese,Giuseppe De Giacomo,Maurizio Lenzerini and Massimo Mecella.Automatic Service Composition Based on Behavioral Descriptions.Int.J Coop.Inf.Sys,14(4),2005.
[3]陈旭辉.基于规划的语义Web服务组合技术研究[D].福州大学,2006.
语义服务论文 篇6
要实现Web服务的自动组合,计算机需要根据一些Web服务的描述信息来自动地、动态地选取和组合服务。这些必要的信息就是Web服务的语义信息。Web服务的语义信息需要通过一种形式化的方法来描述,形式化方法的表达能力和推理能力直接影响Web服务的自动组合能否正确灵活的进行。
在人工智能中,有很多形式化的方法能够对动作(action)进行描述。一个动作可以通过输入输出参数、前提和结果等描述它的语义,来表明动作执行的前提条件、执行的对象参数和执行结果。而Web服务也具有和动作一样的特性,也有执行前提、执行参数和执行结果。因此可将Web服务看做人工智能中的动作,然后用人工智能的方法对这些动作进行形式化描述,在形式化描述的基础上进行推理来得出的服务的组合序列。情景演算(Situation Calculus)是恰恰是人工智能中的一种形式化的建模方法,有着广泛的应用。本文选择情景演算作为Web服务语义的形式化描述方法,在此基础上就能够展开形式化的推理,对Web服务进行组合。
1 情景演算
情景演算是人工智能中的一种一阶谓词演算语言,用来描述动态变化的世界,它能够将状态、状态下的动作和动作作用于状态的结果进行形式化,并推理动作的序列和结果。世界是处在不断变化的状态中的,而状态的转换是动作的执行结果,所以情景演算把世界的变化看做动作的执行序列。很多时候我们需要达到一个目标状态,但能否从现有的初始状态达到目标状态,若能达到,如何达到?这样的问题不好回答。而情景演算通过将系统目标状态和初始状态以及系统中的动作建模,能够解决这个问题,即是否能构造到达目标状态的一个动作序列。
在情景演算中,状态S定义为一系列原子动作从某个初始状态S0开始执行的动作序列。谓词流(fluents)表示和状态S相关联的函数和关系。常量S0表示初始状态,即流的初值。动作do(a,s)表示在状态S下执行动作a的后续状态。
情景演算通过动作理论D刻画变化的世界,包含动作前件公理(action recondition axiom)、动作后续状态公理(successor state axiom)等,动作理论D为如下形式:
∑:基础公理。
Dso:描述初始状态。
Duna:动作的唯一命名公理。
Dap:动作前提公理。领域中的每一个动作a都有一个对应的动作前提公理,
描述动作可以执行的前提条件。
其中π是a执行的所有前提条件。
Dss:动作后续状态公理。描述原子动作的执行如何影响流和状态的变化。
公式γF+(x,a,s)是正效果公理,描述了动作集合,使得流F的值在a执行后为真;
公式γF+(x,a,s)是负效果公理,描述了动作集合,使得流F的值在a执行后为假。
其中Poss(a,s)表示动作a在状态s下是可执行的;
这样,通过情景演算进行动作序列的计划就是:给出某个领域的动作理论D和一个目标公式Ф(s),能否找到一组动作的序列a軃,使得:。
2 会议行程安排系统的语义描述
该会议行程安排系统具有如下功能:有某用户,要从M地到N地参加一个会议,会议行程安排系统能够为他自动安排会议行程,包括订好去的交通以及酒店房间。
系统将这个过程定义为一个常规任务。这个常规任务的流程如图1。
在这个流程中包含9个原子Web服务:
(1)InquiryDriveTime(M,N):查询从M到N的行车时间;
(2)InquiryCarInfo(M):查询M到N的长途汽车信息,返回汽车的信息;
(3)bookCar(CNum,Date1,Date2):订车号为CNum的长途汽车票,时间从Date1到Date2;
(4)InquiryHotelInfo(N):查询N地的酒店,返回酒店名称;
(5)InquiryTrainInfo(M,N):查询从M到N的火车车次,返回车次信息;
(6)bookTrain(TNum,Date):订购日期为Date,车次为TNum的火车票;
(7)InquiryFlightInfo(M,N):查询从M到N的航班,返回航班信息;
(8)bookAirline(K,FNum,Date):订购日期为Date,航空公司为K,航班号为FNum的机票;
(9)bookHotel(H,Date1,Date2):预定酒店H的一个房间,时间从Date1到Date2。
该常规任务包含顺序序列和选择两种结构。选择结构中服务((2)(3))、((4)(5))、((6)(7))只需从中选择一个执行即可。而服务(1)、(8)、(9)是顺序序列,都必须执行。用户在选择交通方式上有一定的约束,会影响执行序列,包括:(1)如果两地的行车时间小于等于3小时,则做汽车去;(2)如果两地的行车时间大于3小时,小于8小时,则坐火车去;(3)否则乘飞机去。
要实现常规任务需要对这9个Web服务进行自动的组合,根据用户的需要来选择相应的Web服务,并将不同的Web服务排列成适当的执行序列,来实现用户的会议行程安排。
下面根据情景演算语言的动作理论D,从原始动作、系统谓词流、系统初始状态、动作执行的前提公理、动作的后续状态公理、复杂动作及用户的偏好等七方面对9个Web服务进行语义描述。
1)将这9个Web服务定义为情景演算中的原始动作:
2)定义系统中的谓词流,这些谓词流描述了系统的状态,谓词流的值会随着Web服务的执行而动态改变。为订航线原子Web服务bookAirline定义四个流:
类似的,还需要为表示bookCar,bookTrain和bookHotel的前提和结果的谓词定义相应的流,此略。
3)定义系统的初始状态,系统的初始状态就是谓词流的初始值,为真或为假。
4)将Web服务执行的条件定义为动作前提公理
服务bookAirline的前提条件包括己知航空公司、航班号和出发日期,以及信用卡有效。
条件为true表示动作在任何条件下都能够执行,例如:
其它原子服务类似,此略。
5)将Web服务执行的结果定义为后续状态公理,定义动作的执行对流值的改变情况。例如,InquiryFlightInfo执行后会使得流AirCompany和FlightNo的值变为真:
6)将常规任务定义为由原子动作构成的复杂动作,即过程。
常规任务表示为由9个原子Web服务组成的过程:
7)偏好公理
偏好公理只需给出动作在什么情况下是用户不希望执行的,未给出的就是用户所希望执行的。
以上基于情景演算完成了对会议行程安排系统中原子Web服务的语义描述,在此基础上就可以进一步对Web服务进行自动组合。
3 结论
WWW原来是静态的Web页面集合,而Web服务是模块化的程序,可以部署在Web上被其他程序发现和调用,这使得使得WWW逐渐演化成开放的应用和服务平台。而Web服务要想成为计算机可以理解的程序模块,从而支持服务的自动组合,就需要用语义Web的方法来来描述服务的语义。
情景演算是一种一阶谓词演算语言,用动作的序列表示动态变化的世界,在人工智能中有很广泛的应用,因为Web服务很类似于情景演算中的动作,所以可以通过情景演算可以对Web服务的语义进行描述建模。
本文通过使用情景演算对一个会议行程安排系统的进行了语义描述和建模,清晰的描述了会议行程安排系统中的各个Web服务的语义,在此基础上,能够准确快速的根据需要对Web服务进行组合,完成用户的需要。进一步的工作可以使用GOLOG语言对情景演算建立的模型进行实现,达到计算机程序自动进行Web服务组合的目的。
摘要:Web服务是WWW发展的一个重要的趋势,Web服务的相关问题得到了广泛的研究和应用,Web服务的自动组合是其中一个热点。要实现Web服务的自动组合,必须对Web服务的语义进行形式化的描述。情景演算是一种形式化的建模和规划方法,利用情景演算对Web服务进行描述,能使自动组合结果更加快速和准确。在分析情景演算特点的基础上,使用情景演算对一个基于Web服务的会议行程安排系统进行了Web服务语义描述。
关键词:Web服务自动组合,Web服务语义描述,情景演算
参考文献
[1]邱莉榕,史忠植,林芬,常亮.基于主体的语义Web服务自动组合研究[J].计算机研究与发展,2007,(4).
[2]张佩云,孙亚民.动态Web服务组合研究[J].计算机科学,2007,(5).
[3]王杰生,李舟军,李梦君.语义Web服务的自动化组合方法:研究综述[J].计算机科学,2007,(6).
[4]史忠植,蒋运承,张海俊,董明楷.基于描述逻辑的主体服务匹配[J].计算机学报,2004,(5).
[5]任志宏.Web服务复合的若干关健问题研究[D].中国科学院研究生院(软件研究所),2004.
[6]章陶,黎亮,黄巍,李磊.情景演算及其在工作流引擎中的应用[J].计算机应用研究,,2005,(2).
语义服务论文 篇7
面向服务体系结构(SOA)是网络环境下分布式应用系统的概念模型,在这个模型中松散耦合的系统组件在网络上被描述、发布和调用。实现SOA的主要方式是基于WSDL/UDDI的Web服务技术,Web服务的关键是服务的发现,基于语法级的服务描述语言和基于关键字的服务匹配算法导致了服务查准率低。语义Web服务综合了语义网技术和Web服务技术的优点,通过扩展UDDI,加入领域本体库,为每个注册服务添加语义信息等技术能够为Web服务的自动发现、执行、解释和自动组合提供有效支持。
本文首先介绍了基于推理的OWL-S/UDDI语义Web服务匹配算法,针对其同一级匹配结果间不能进一步区分的问题,提出了一种基于本体概念相似度计算的语义Web服务分级匹配算法。
2 相关技术概述
2.1 本体
目前较为公认的本体定义是Rudi Stuger于1998年提出的:“本体是共享概念的明确的、形式化的规范描述[1]”。通俗地讲,本体是为了让计算机对现实世界某一领域中的概念及概念间的关系有明确、一致的理解而进行的形式化、规范化的描述。本体的优点在于它能指导人们对某一领域的知识达到一致的认识和理解,并使用计算机进行描述和逻辑推理,从而达到语义Web的目标。
2.2 Web服务描述语言
实现语义Web服务的关键步骤是对Web服务进行语义描述。OWL-S是一种描述Web服务的本体语言,其前身是DAML-S,它为Web服务提供了核心的标记语言结构,用于精确描述Web服务的属性和能力,这些描述能被计算机无二义性的解释理解,从而实现服务的自动发现、执行和组合。这个描述至少包括三个方面语义:ServiceProfile提供服务的抽象描述,如服务实体、服务可以实现的功能,以及服务的性能参数等;ServiceModel描述Web服务如何执行,包括服务执行的先后顺序、过程流程等;ServiceGrounding描述了如何调用Web服务,描述具体的绑定信息,例如服务地址、通信协议及消息格式等。
2.3 OWL-S ServiceProfile
OWL-S Profile描述服务的三个基本方面:服务提供者的信息、服务的功能和服务的其他特征。ServiceProfile第一组属性描述Web服务提供实体,包括提供者名称(ServiceName)、描述文本(textDescription)和联系信息(ContactInformation)。ServiceProfile第二组属性描述服务功能,这是最本质的部分,表达了服务性能的两个方面:一是从信息流角度:输入信息Inputs和输出信息Outputs;二是从状态流角度:服务所需的前置条件Precondition以及服务执行后的结果Effect。ServiceProfile第三组属性描述服务的其他特征,包括服务分类ServiceCategory和服务等级QualityRating(提供服务质量信息)等。
本文将ServiceProfile作为广告发布在服务注册中心,并利用ServiceProfile的信息进行服务匹配。同时,服务请求也将ServiceProfile作为表达服务查询条件的语言,从而使服务匹配能够更加方便。
3 基于语义的Web服务匹配算法
3.1 基于推理的OWL-S/UDDI服务匹配算法
基于推理的服务匹配是利用本体概念间的包含关系来判断服务的请求方和发布方的匹配程度。Massimo Paolucci等于2002年首先提出了一种基于DAML-S的服务匹配算法[2],利用DAML-S的Service Profile对服务的输入、输出、前提、效果(IOPE)进行匹配。该方法定义了四种匹配程度(以输出匹配为例,设outR为请求者的一个输出,outA为服务发布者的一个输出):
1)Exact:当outR与outA相同或outR是outA的直接子类(subClassOf)时,结果为Exact。
2)Plug-In:如果outA包含outR,也就是说outA可能完全满足outR。
3)Subsume:如果outR包含outA,即outA能部分满足outR但不是完全满足。
4)Fail:在outR和outA之间没有任何包含关系,匹配失败。
随后,LeiLi等人对上述四种匹配类型进行了补充,在Subsume和Fail之间添加了Intersection,即outR与outA的交集是可满足的(outR∩outA≠Φ,但outR不包含outA),说明outA有可能满足outR的部分功能。从上述介绍可以看出,基于推理的OWL-S/UDDI服务匹配方法将服务间的匹配程度分为5个等级:Exact Plug-In Subsume Intersection Fail,但在同一等级内部无法进一步区分匹配度。
3.2 Web服务描述模型
在介绍匹配算法之前,先创建服务描述模型,将服务描述为:WS=.其中S是基本描述,是服务的公共属性,包括服务分类、服务名称,文本描述等。F是服务功能描述,即服务功能包括输入与输出,前提与结果等。NF是非功能的属性描述,如服务质量(QoS)。
3.3 Web服务匹配算法的分级匹配过程
算法的基本原理:服务请求者先提供一个OWL-S文档,对其所需服务进行描述。在预处理阶段,通过服务分类匹配(可通过属性ServiceCategory来判断)去掉不属于请求服务分类的注册服务,将分类符合的服务放入候选集中,首先进行基本描述匹配,经由基本描述匹配筛选的候选服务再参与功能匹配,合格的服务再进一步参与QoS非功能属性的匹配。下面详细介绍各部分的匹配过程。
3.3.1 基本描述的匹配
服务的名称和文本描述是已经在Web服务本体中的概念实体、概念属性以及概念间的关系,所以其计算的基础是概念间语义相似度。对于本体库中概念以及概念间上下位关系(subClassOf)形成的概念树,可用2个不同节点之间的距离来衡量节点概念间的相似度。因服务匹配的要求,定义概念树中节点的距离如下:
定义1概念树定义为一棵有向树,对于树中的每一条有向边
定义2对于概念树中的任意2个节点Vi,Vj的距离distance(Vi,Vj),定义为:
1)如果Vi与Vj为树中相同节点,则distance(Vi,Vj)=0
2)如果从节点Vi没有路径到达Vj,且从节点Vi也没有路径到达Vj,则distance(Vi,Vj)=∞
3)如果从节点Vi有路径到达Vj,则distance(Vi,Vj)为从Vi到达Vj的路径的长度。
4)如果从节点Vj反方向有路径到达Vi,则distance(Vi,Vj)为Vj从到达Vi的路径长度的负数。
定义3概念树中2个节点所表示的概念相似度函数定义如下,设结点Vi表示的概念为Cvi,结点Vj表示的概念为Cvj。
根据上式可算出广告服务与请求服务在服务名称(service name)和文本描述(text_description)两个方面的相似度。然后综合得到基本描述相似度如下:
其中AS是广告服务,RS是请求服务,Simsn(AS,RS)是服务名称的相似度,Simtd(AS,RS)是文本描述的相似度。SimBasic(AS,RS)的结果是0到1之间的实数值。其中wi是用户自定义的权值。
基本描述匹配算法描述:
3.3.2 服务功能的匹配
在这个阶段,使用基于WordNet和HowNet通过语义相似度的计算方法来计算请求服务与广告服务的匹配相似度。
WordNet是一个以同义词集合为单位来组织信息的语义词典,是基于英文的词汇语义网络系统。它为英语词语相似度的计算提供了便利。目前基于WordNet的相似度计算方法很多,如res、lin和jcn等方法使用WordNet中的上下位关系计算相似度;hso、lesk和vector等方法使用WordNet中包括上下位关系的所有关系计算相似度[3]。
为了在使用WordNet中所有信息关系的同时充分使用上下位关系,本文在计算英文信息的相似度时选择两个典型的方法:lin和lesk,其中对方法lin进行改进,再分别计算得到概念相似度Slin和Slesk,然后取Slin和Slesk的加权和作为英文概念最终的相似度值。
方法Lin是利用概率的方法计算两个概念的相似度。
在这里结合概念树中路径的方法,对Lin计算方法进行一些改进,得到下面公式。
在寻找词义Cvi和Cvj的共同上位词时,通过路径的方法,设定了一个系数αl/2。其中α是一个介于0和1之间的常数,用来调整随层次加深,相似度随之递减的程度,表示在某个同义词层次结构中,寻找词义Cvi和Cvj的共同上位词的最大路径。由于Cvi和Cvj两个词义,故乘以1/2。
HowNet是一个用以揭示概念与概念之间以及概念所具有属性之间的关系的常识知识库,是目前最完善的汉语语义知识词典。本文设汉语概念的语义相似度为Sch,使用刘群[4]等人提出的基于HowNet的语义相似度计算方法可得到汉语概念相似度值。最后对英文概念相似度值和汉语概念相似度值加权平均得到公式(4):
其中μi是用户自定义的权值。μ1+μ2+μ3=1,0≤μi≤1,i=1,2,3
设Ains表示广告服务输入参数的集合,Rins表示请求服务输入参数的集合,Aous表示广告服务输出参数的集合,Rous表示请求服务输出参数的集合,Aprs表示广告服务的前提条件参数的集合,Rprs表示请求服务前提条件参数的集合,Aes表示广告服务影响参数的集合,Res表示请求服务结果影响参数的集合。在这里需注意的是这四个参数都是本体中的概念而不是原子数据类型。基于公式(4),函数SimIOPE(AS,RS)可计算服务的功能性特征(IOPE)的匹配度,其参数是广告服务(AS)和请求服务(RS),其结果是0至1之间的实数值。
服务功能的相似度计算公式如下:
其中α1、α2、α3、α4分别是输入集、输出集、前提条件集、结果影响集的权值,
α1+α2+α3+α4=1,0≤αi≤1,i=1,2,3,4.权值可由用户决定,如果用户没有对权值的要求,则可采用默认的平均权值,即视这四个方面同等重要。
功能匹配算法描述:
由于PR和IO的匹配算法相似,在这里只对IO匹配加以说明。
3.3.3 非功能属性QoS的匹配
功能性的匹配只满足了请求服务方静态的常规要求,这些常规要求相对固定。而如果用户想要获得高质量的Web服务,还需要用一些非功能的属性来量化其服务功能,这就是Web服务的QoS(Quality of Service),文献[5]中Joge Cardoso给出了服务质量评价模型中应包括的因素,具体包括费用(cost)、时间(time)、可靠性(reliability)。这里再增加信誉度(Credit)因素。
函数SimQoS(AS,RS)计算广告服务AS和请求服务RS的QoS相似度。可通过分别计算AS和RS的QoS中各维相似度的几何距离来计算。函数返回一个0至1之间的实数,返回值越接近1,说明AS和RS越相似。
服务质量匹配算法描述:
4 算法性能分析
在评价服务匹配算法效率方面,通常用查准率和查全率来衡量一个Web服务匹配算法的好坏。查准率是指查询返回符合查询条件的Web服务数量与查询返回Web服务总数量的比率;查全率是指查询返回符合查询条件的Web服务数量与测试样本集中符合查询条件的Web服务数量的比率。查准率和查全率越高,服务匹配算法越好。为了验证本文匹配算法的有效性,设计了一个原型系统WSMS(服务匹配系统),本文选取医学诊断专家系统本体文件及100个可用于查询疾病诊疗方案的Web服务,对于本文算法和OWL-S/UDDI匹配算法进行仿真性能测试,测试结果如表1所示。
由此可见,本文算法综合考虑了服务的基本描述、服务功能和服务质量三个方面的相似度,具有较高的服务发现效率。
5 结束语
本文分析了基于推理的服务匹配算法的局限性,提出了一种基于本体概念相似度计算的服务匹配算法。实验结果表明该算法能过滤掉大多数不相关服务,缩小服务匹配范围,提高了服务匹配效率。下一步将完善算法和原型系统,考虑在语义网中存在多个异构本体情况下进一步改进服务匹配算法。
摘要:针对基于推理的OWL-S/UDDI匹配算法在同一级结果间不能进一步区分匹配度导致查全率和查准率不高的问题,提出了一种基于本体概念相似度计算的服务匹配算法,该算法分别按服务的基本描述、功能和非功能(QoS)三个层次进行匹配,提高了服务匹配效率。
关键词:语义,Web服务,OWL-S,服务匹配
参考文献
[1]Rudi Stuger,Richard Benjam ins V.Knowledge Engineering:Principles and Methods[J]..Data and Knowledge Engineering1998,25(2):161.
[2]Massimo Paolucci,Takahiro Kawamura,Terry R Payne.Semantic matching of Web services capabilities[C].In Proceedings of the First International Semantic Web Conference(ISWC).
[3]余晓峰.面向译文选择的双语语义词典自动构建研究[D].哈尔滨:哈尔滨工业大学,2005:30-42.
[4]刘群,李素建.基于《知网》的词汇语义相似度计算[J].Computational Linguistics and Chinese Language Processing,2002,7(2):59-76.
语义服务论文 篇8
我国医疗卫生信息系统 (health care information system) 建设历经了计算机技术在中国发展的不同时代。从单机系统, 到部门级的医院信息系统 (department hospital information system, DHIS) , 直至现在进入了一体化的医院信息系统 (integrated hospital information system, IHIS) 时代。随着我国医疗卫生事业的发展和改革的不断深入, 医疗卫生行业供应短缺的矛盾已得到缓解, 服务理念也在医院悄然生根, 传统的“以收费为中心”的医院信息系统已不能适应新形势的要求, “以病人为中心”的临床管理信息化将成为医疗卫生行业信息化的主要发展方向。
在当今的医疗领域中, 人们往往到多家医院进行就诊, 其门诊病历、出院小结易遗失, 就诊过程中医生对患者的既往信息不能及时掌握, 各医院之间的信息无法共享, 造成患者的重复检查和重复开药, 延长了诊治时间;市民对自己的健康状况也未能得到一个完整的资料, 既加重了患者的负担, 也不利于医生对患者病史的掌握, 还加大了政府的负担, 降低了社会医疗资源的使用效率, 影响了政府对卫生资源配置的决策和对医疗机构医疗行为的监控。因此, 如何实现快速安全的区域公共医疗信息共享是很具有现实意义的研究课题。
如何将相对分散的医疗行业软件进行整合, 信息共享, 发挥各自所长。把各自的精力放在自己特长的方向上, 打破医疗信息化发展的瓶颈, 可以更好地提供医疗信息服务, 同时帮助医院为患者提供优质的医疗服务成为医疗行业信息化亟需解决的重要问题。
随着网络技术的飞速发展和信息时代的到来, 在区域内各类医疗与卫生机构存在着大量的医疗信息系统以及业务信息系统和信息资源, 组织内的各个单位依据业务或任务进行分布, 并且管理着一组信息资源集合。不同业务信息系统会在不同工作领域下对底层的信息资源采用不同概念化描述。在这广域环境下的医疗信息资源具有动态性、分布性、多元性和无序性的特点, 信息共享机制尚未建立, 各部门或组织之间的信息相对封闭, 形成了一个个孤立的“信息孤岛”, 造成了巨大信息资源浪费。对于用户而言如何访问和利用这些信息资源, 区域内各节点分布存储的信息资源如何进行共享和交换形成一个统一的信息资源服务平台, 这就需要一种支持面向语义的、多样化的信息资源管理及服务体系框架。
本文针对广域分布环境下面向用户需求的信息资源共享与服务提出了一种基于语义覆盖网的信息资源共享与服务体系框架。该体系框架是采用自底向上与自顶向下相结合的方式, 面向用户需求建立需求本体, 同时各自治的信息资源节点采用基于语义的信息描述, 需求本体指导下的基于信息节点信息资源语义相似度聚类形成语义拓扑的覆盖网络, 从而基于语义覆盖网络的语义全局索引提供信息资源定位和共享服务。
2 信息共享机制及相关工作
美国未来学家奈斯比特在《大趋势》中指出:“我们淹没在信息中, 但是却渴求知识。”为什么当各类信息象洪水一样向我涌来的时, 我们仍然缺乏所需的信息呢?这是因为在信息环境中, “失去控制和无组织的信息不再是一种资源”。一方面信息量急剧增长, 另一方面信息质量参差不齐。这一现象给我们提出了两个问题:一是知识和信息的海量性、无限性和人的精力、时间的有限性形成了尖锐的矛盾;二是知识和信息的无序性、污染性与人类使用的选择性同样形成了尖锐的对立。解决这两个矛盾的根本途径是进行有效信息组织与服务。
P2P网络已经成为未来网络应用的基础结构, 对于如何解决P2P网络的信息共享问题有很多研究.基于P2P网络环境下, 不同的文章针对不同应用领域提出了不同的体系框架和系统架构。
ALEXANDER等[1]针对对等网络节点, 提出了基于语义覆盖聚类的超级节点网络。它以节点特征的聚类极大提高了搜索和集成的效能。ALEXANDER等提出超级节点的语义覆盖聚类 (SOC) 的概念, 其能够对节点分布按聚类进行有控制。对比当前所宣布的语义覆盖网络方法都是为平面的、纯端对端拓扑和有限元数据集而设计的, 如简单文件名, 我们允许一个复杂异构模式如关系数据库进行聚类, 并利用超级结点网络的优势, 如高效搜索和信息广播等。该方法是基于人类专家预先定义的规则, 基于这些规则一个完全分散的广播机制和匹配方法将结点自动分布到超级结点[2]。因此, 能自动进行超级节点网络中信息源的集成, 减少网络中信息泛滥。
陈汉华、金海等针对P2P网络环境下的文献检索提出了SemreX系统, 它为计算机领域研究者提供如下功能[3]: (1) 基于语义的本地文献信息存储和管理。为了实现SemreX网络Peer之间在语义上的信息交互, 设计了文献本体作为所有结点的共享信息模型。本地文件系统中异构格式 (目前SemreX主要支持PDF文档) 的文献信息经过信息提取后, 按照共享本体模型存储于本地Sesame数据库中。 (2) 基于语义的P2P文献搜索。SemreX用两个本体来规范SemreX网络环境下文献信息的语义模型:参考文献本体和ACM Topic。
pNear[4,5]系统采用了内容聚类和分布Hash表相结合的方法实现分布信息共享。该方法将目前P2P系统的信息搜索两个基本方法基于Hash表的分布索引 (DHTs) 和语义覆盖网结合, 从而克服了两者单独使用所带来的不足。PARIS[5]作为一种结构化与非结构化相结合的新型语义覆盖网体系结构为面向信息资源聚焦服务的高效索引体系提供了启发性思路。但是这些都没在网络中加入语义因素。
HENG等[6]提出一种分布式p2p信息共享系统的设计, 支持相关文档的基于语义的内容搜索。首先给出一个综合和可扩展的P2P网络的相似文档搜索框架, 这个框架建立在层次摘要结构的基础上的。在这个框架的基础上, 开发出高效文档搜索系统, 通过有效的摘要和以不同粒度维持所有网络中文档。最后通过试验研究在一个运行真实的P2P协议的行为和仿真大型网络环境。
文献[7]基于信息分类体系框架用LDAP目录服务器作为目录索引节点存贮信息资源的索引信息, 目录索引节点类似于混合式P2P网络的超级节点, 每个索引节点负责存贮一部分信息资源的索引信息。在整个体系框架中分布着多个目录索引节点, 并采用基于内容划分的覆盖网络将目录索引节点合理地组织起来, 并在此基础上提供了一种信息资源导航定位机制。并在此基础上基于语义关联提出了一种基于语义关联的语义覆盖网, 基于语义关联覆盖网提供信息聚焦服务[8]。
为了使网络检索包含语义信息Habib Rostami等提出构建语义划分树 (semantic partition tree, SPT) [9], 它本质上是一个静态共享的上层本体, 为了方便处理, 这个本体树是一个二叉树, 如果遇到特殊情况要把非二叉树转换成二叉树。每个节点都根据这个语义上层本体建立一个索引, 索引中维护着该节点所负责的几个概念指向的信息所在。实际上它构成了一个基于本体的分布式哈希表。
但是建立哈希表不适合在节点和资源庞大的网络中使用, 所以提出建立语义覆盖网[10,11,12,13], 它实际上是一种凌驾于物理网络之上的逻辑网络[14]。
文献[15]提出基于主题域构建网络, 根据主题将节点组织成层次化的覆盖网络, 保证将搜索限制在与查询主题相关的局部节点子集中, 为有组织的P2P系统提供了一种基于复杂查询条件的、能有效搜索数据对象的方法。但是文中构建的方法是基于对全局的网络信息有一个整体的了解, 这对于一个复杂、包含很多节点的P2P网络来说是一项艰巨、复杂的任务, 不容易实现。文献[16]提出基于概率的算法, 它对网络中每个节点维护一个本地索引表, 索引表中包含了该节点所有邻居节点的索引。索引值反映了对于一个特定查找对象, 该节点的邻居被选择作为下一跳的概率。
在非结构化的P2P网络中节点没有经过组织与管理, 每当提出一个检索请求只能通过洪泛的方法进行查询。要提高检索效率就要实行有效的组织, 是节点不再盲目的将检索请求随机的转发给任意的邻居, 要进行节点的组织第一步就是将相似的节点聚类。文献[14]中提出先建立一棵主题树, 根据主题树将资源归类得出节点上资源的分布情况, 设置一个只包含0, 1的字符串, 每一位对应一个资源类型, 当该位上为1时就表示节点上包含这一类的信息, 反之为0则表示不包含。把这个字符串称为KID (kind ID) , 然后利用如下公式计算节点之间的相似度, 见图1。
得出所有节点对之间的相似度之后, 利用聚类算法进行节点聚类, 将相似节点组织在一起, 并在聚类中选择一个节点作为超级节点, 负责举了内部以及聚类之间的消息传递, 每当聚类内有检索请求的时候首先将请求提交给超级节点。
这种算法的优点是它可以在不了解全局信息的基础上进行;计算节点之间的相似度不是简单的认为节点上只包含一类信息, 而是利用KID进行比较全面的节点相似度计算。
我们提出的基于语义覆盖网的信息服务体系框架将这些方法的进行补充, 考虑采用基于本体的元数据及跨本体语义相似度, 同时结合用户信息需求形成语义覆盖网实现面向用户需求的信息服务。
3 基于语义覆盖网络的信息共享框架
3.1 信息共享机制
基于区域分布环境下的医疗信息系统呈现出一个信息海量、多元、复杂、分布、动态、异构的新特征。各个医疗信息系统之间的信息交换和信息融合越来越频繁, 使得过去“孤岛化”的组织方式难以得到整个系统的信息统一视图。信息资源必须能够互连、互通和互操作, 用户的信息访问必须是在一体化的统一视图基础上的, 因而对信息资源组织与服务提出了更高的要求。本文考虑提供一个一体化信息共享空间环境来支持战场信息的共享与服务, 大体工作框架示意如图2所示。
现阶段, 各际医疗单位及机构都建立各自的信息资源库, 各级各类信息资源分布于广阔的互联网络环境中, 只能在局部环境下使用, 无法实现全局共享, 这就对面向一体化协同服务的信息保证形成了障碍。同时目前绝大部分医疗单位的信息资源也是从下而上来自各医疗业务信息系统逐级汇总的, 并采取基于关系数据库的查询提供信息支持, 而不能基于语义关系进行信息资源聚焦服务, 无法满足未来企业竞争需要的精确信息服务需要。本书考虑在各自治信息源基于统一元数据模型形成统一理解的基础上, 面向统一信息视图的形成提供有效的语义相似度计算方法, 并利用合理的组织索引体系提供有效的信息服务。本文采用基于语义覆盖网的有效信息组织, 并在此基础上提供基于语义相关度的信息资源聚焦服务来保证信息资源的有效利用。总体思路是信息提供者将分布的信息资源通过一体化元数据模型封装注册了信息资源中心, 信息资源中心通过语义相似度计算形成统一信息视图并基于语义覆盖网对信息资源进行索引, 信息用户通过基于语义的信息导航与检索方式获取所需信息资源。针对这样一个框架结构, 需要研究的问题包括:如何构筑一个基于语义的区域医疗信息共享空间;如何对各类异构医疗信息资源进行一体化描述;如何形成各自治医疗信息源基础上的统一信息视图;如何对发布进来的各类信息资源进行组织和索引;如何提供高效的信息服务能力。
3.2 区域医疗信息共享框架
基于区域医疗信息共享工作基本机制, 本文在基于语义覆盖网的信息组织框架基础上[17]提出一种基于语义覆盖网络的区域医疗信息共享框架 (semantic overlay networks based district medical information sharing framework, SONDMIS) , 来构筑一个信息共享空间, 如图3所示。在SONDMIS框架中采用一个基于对等信息资源中心 (information resource center, IRC) 网络的结构来组织管理分布环境下的各类信息资源[17], 各医疗信息中心或医疗信息系统将各自分布的信息资源通过一体化元数据模型描述并注册到IRC (一般依托各医疗机构信息中心) , 从而通过IRC发布到信息共享空间中进行组织索引, 信息用户通过发现、查询或订阅的方式获取所需信息资源。其中IRC是信息组织与管理的核心, 通过多IRC协作来提供一种虚拟的全局信息共享环境, IRC管理着多个医疗信息系统发布上来信息资源。发布到IRC的信息资源是通过规范化的、面向语义的元数据描述来保证信息资源的全局可视、可理解和可用性, 同时, 利用语义覆盖网技术提供一种全局组织索引策略对分布在不同IRC中的信息资源进行有效地索引, 并在此基础上提供一系列服务来满足区域医疗信息共享需求。
如图3所示, 整个信息共享框架可以分为五个层次, 分别为:信息源层、元数据语义规范层、信息资源层、语义覆盖层和共享服务层。其中元数据语义规范层贯穿于其他所有层次。
(1) 信息源层是由信息源节点 (information source peer, ISP) 组成, 包含区域共享环境下的所有信息源, 信息源的信息具有异构性和多样性的特点, 提供相应的wrapper, 对信息源进行存取访问。从信息资源内容上看, 包括各医疗信息系统的不同信息资源;从信息源模型结构和模式上看, 包括系统文件、数据库 (包括关系、面向对象、xml数据库) 、电子文档、声音、图像、视频音频文件、网页和提供信息的web服务等。 (2) 元数据规范层的目的是为了提供一种面向语义的元数据描述能力。元数据是信息资源组织管理基础之基础, 重中之重。信息资源是基于元数据规范模板进行描述, 通过注册发布到特定的IRC, 进行统一的组织。信息资源的组织、存储、管理、发现、检索与利用都依赖于一套元数据方案, 因而其贯穿于其他四个层次。 (3) 信息资源层是由IRC构成一个对等网络, 其提供区域共享环境下不同节点之间的信息存储、交互与协作机制。每个IRC负责维护和管理一组注册上来的信息资源。其功能是提供隶属信息资源的注册、维护和管理, 并为CP提供各种核心服务。每个IRC都维护着一组元数据规范模板, 注册进来的资源都依据元数据规范模板进行元数据描述。 (4) 覆盖网络层由大量信息索引节点 (IEN) 组成的语义覆盖网, 是在IRC对等网基础上通过构建的语义覆盖网形成IRC信息资源的索引体系。语义覆盖网的构造是依据IRC所存储信息资源语义相似度聚类并结合分布Hash表而形成的, 将语义上相近或相似的IRC节点聚集到一起, 从而提高信息资源的搜索和定位效率。图4呈现了覆盖网络层节点与其它相关节点的关系。
GWP是IRC和元数据规范模板进入SONIS环境的入口节点, 在SONIS环境中可以存在一个或多个GWP节点, 它们之间采用一种全复制的管理模式, 来提高GWP节点的可靠性。在信息共享环境中, 对进入SONIS环境的IRC节点和元数据规范模板要进行严格审查, 审查工作由GWP来完成, 同时对于元数据规范模板修改也要通过GWP审核后才能向其它所有节点传播。对于GWP即使存在单点失败问题, GWP失败问题可以通过多点复制来解决。
IEN是资源索引节点, 是语义覆盖网络节点, 负责索引IRC网络中各类信息资源, 提高资源的定位效率。
CP是客户节点, 它可能短暂地接入到SONIS环境, 获取SONIS提供的各种信息能力。
服务层包含和维护着环境中所有的服务, 服务由IRC节点提供, 主要是面向注册到IRC上的所有信息资源。服务层包括核心服务和终端服务两个层次。核心服务是环境提供的基本服务, 包括资源发布服务、资源发现服务、智能查询服务、资源订阅/分发服务和安全认证服务。
4 对等IRC及语义覆盖网
在整个框架中, 实现区域医疗信息共享的关键是采用多IRC结构, RC之间构成了一个对等网络, 通过多IRC的协作来提供高效的医疗信息共享服务。为了提高区域医疗信息共享效率, 本文在对等IRC结构基础上构建了基于语义关联的语义覆盖网。
4.1 对等IRC功能结构
在整个框架中, IRC是进行战场信息组织与共享的核心。在区域医疗信息共享环境中, 采用一种集中的单IRC的模式是不太实际的, 这样系统的可扩展性和健壮性都无法得到保证, 因而采用多IRC结构。每个IRC依附某一医疗机构信息中心或一个虚拟组织。区域医疗信息资源遵循特定的元数据规范模板进行描述注册发布到IRC网络中进行统一的组织。IRC扮演着中介和代理的角色, 管理着信息共享环境中的一个局部领域视图。IRC相当于传统P2P系统中的节点, 具有更好的稳定性, 并且中介和代理客户端的资源发布、资源发现、智能查询和订阅服务, 通过IRC之间的协作为用户提供相应的信息资源发布、发现、智能查询和分发等核心信息服务能力。
系统环境中各异构信息源 (ISP) 可以将其本地或局域环境内的各类信息源发布到相应的信息资源中心。进入信息资源中心节点之前, 要基于一体化元数据模型对信息源的语义内容和相应元数据进行描述。这些元数据内容自动地集成到信息资源中心的本地元数据知识库。IRC对外通过各种应用层协议与其它IRC协作完成网络拓扑维护、资源全局范围内的组织, 从而提供高效的信息资源发现、查询和订阅/分发服务;对内通过对各类信息资源的一体化描述, 有效地进行局部的信息组织管理, 并且通过信源代理可以有效地监控局部范围内信息源的状态和存取访问所需的信息资源。
IRC的总体结构如图5所示。
IRC的具体功能描述如下: (1) IRC采用一种客户/服务的形式, 负责所属局部区域环境下各类信息资源的注册管理和仓储管理。 (2) 提供信息资源整合功能, 通过本体集成与本体映射生成IRC局部信息视图, 本体映射的关键是实体语义相似度计算。 (3) 通过与其它IRC协作, 形成全局信息资源索引和全局信息视图。 (4) IRC可以通过本地搜索引擎和远程搜索引擎, 与其它IRC协作来代理完成客户的资源发现请求。 (5) IRC通过智能查询处理引擎可以完成对本地管辖信息资源的内容的查询。 (6) 提供语义关联查询服务, IRC存储着信息资源元数据, 其中包含了复杂的语义关系, IRC提供基于这些语义关系的聚焦服务。 (7) IRC能够提供相应订阅/分发服务。
4.2 关联语义覆盖网结构
为了提高区域医疗信息共享效率, 我们最终需要建立的是一种基于关联的语义覆盖网, 下面介绍一下网络的基本结构。
(1) 将网络中分布、分散的IRC节点按照资源相似的原则进行聚类, 将大量节点分成一个个的小区域。 (2) 从聚类中选择一个节点作为超级节点, 超级节点负责聚类内部以及聚类之间的通信。所有聚类内的消息传递由超级节点统一支配, 超级节点负责与邻居聚类通信, 将消息传递到整个网络。可见我们构建的网络是一种混合式的网络, 聚类内部是由超级节点集中控制的, 聚类之间是分布的。 (3) 衡量聚类之间消息的语义相关性, 在语义相关的聚类之间添加关联链接。这样每当某个节点提出查询请求的时候就可以根据语义关联定位到含有所需信息的节点, 将所有可能语义相关信息都检索到, 实现了信息资源的相关共享。 (4) 查询都是有偏好的, 某个聚类通常都有自己经常的访问的聚类, 我们将有这种关系的两个聚类称为朋友聚类。这个查询偏好可以在进行了一段时间的查询以后总结出来, 根据这个特性, 记录节点的查询偏好, 在经常有信息交换的聚类之间添加朋友聚类链接。
4.3 根据语义相似度聚类
首先要进行节点的本地信息分析, 得到当前节点上存储资源的基本情况, 并设置一个聚类特征向量来描述这个节点的特征。具体定义如下:定义3:聚类特征向量是一个三元向量元组, 分别代表特征、百分比和值。
这里的特征设置为关于这类数据的总体描述, 例如这个聚类所包含的内容, 百分比指这类资源在整个节点的资源中所占的百分比, 而值则是关于这类数据的地址信息, 例如存储它的节点的IP等。以便下一步进行节点聚类时使用。
每个节点所包含的资源是复杂多样的, 所以节点的特征向量不可能只有一个, 原则上节点包含了多少类资源, 这个节点就有多少个特征向量。
根据聚类特征向量将节点划分为一个个的聚类, 因为节点包含的资源种类多样, 所以一个节点可以同时加入不同的几个聚类中。这里有两种策略, 一是为了查全率考虑只要该节点含有某个资源无论节点上资源的数量有多少都将该节点加入相对应的聚类中;二是根据聚类特征向量中第二位的百分比值来确定节点应该加入哪些聚类, 设置一个阀值, 只有当百分比大于这个阀值的时候才将该节点加入对应聚类。为了效率考虑我们采取第二种做法。
如果某个节点上存储的信息类型特别多, 而且杂, 没有重点, 几乎是平均分布, 导致每种资源的特征向量的百分比值都没有超过阀值, 这时按照正常情况该节点就无法加入任何一个聚类。我们将所有这一类的节点都划到一起形成一个特殊聚类, 在进行检索的时候每个查询都访问一下该聚类, 以求达到尽可能高的查全率。当然因为节点具有节点偏好, 一般节点上存储似的资源都是有偏重的, 这种情况出现的可能性特别小。
在进行完节点聚类之后, 我们需要在聚类中选择一个节点作为超级节点来负责聚类内部和聚类之间的信息传递。因为超级节点责任重大, 所以我们选择CPU、内存等相对性能较好的节点作为超级节点。
4.4 聚类间添加关联链接
为了实现区域医疗信息资源高效共享, 需要在语义覆盖网中增加关联链接, 这样才可以在共享的过程中将所有相关信息全部得到。
在聚类之间添加的这些连接并不是相同的, 可以将每条链接赋予一个唯一标识符, 含有不同标识符的链接表示这两个聚类之间含有不同类型的关联。当然两个聚类可能同时含有两种或更多的关联, 这个标识符必须都可以表示出这种关系, 这也就意味着两个聚类之间也许不只有一条链接, 也有可能存在多种类型的链接。这样在进行关联搜索的时候就可以根据需要进行专门的关联搜索, 可以更加有效的实现信息资源聚焦服务。
图6中的七角形表示超级节点, 圆形表示普通节点, 每个椭圆形表示一个基于语义相似的聚类, 它由一个超级节点和几个普通节点组成, 超级节点管理聚类内的所有节点, 并负责与其它相邻聚类进行通信。相邻聚类之间并不是随意连接的, 根据一些相关关系把聚类连接起来, 这些链接是加在超级节点上的。
在进行搜索的时候, 首先将问题交给自己所在聚类的超级节点上, 油超级节点判断结果是否在本聚类之内, 并将问题提交给自己的邻居聚类, 当确定了查询结果所在的语义相似聚类之后, 再将这个问题提交给当前聚类的关联聚类, 进行关联信息的搜索, 最后将得到的相关信息都返还给用户。
通常情况下, 某个节点需要的信息类型是固定的或是有一定范围的。正如一个进行计算机研究的人, 他通常都是需要计算机方面的相关知识, 而其它方面, 例如自然辩证法等政治方面的知识则很少会涉猎, 恰恰相反, 一个从事思想政治方面研究的人则常常需要查询这些知识。这就是所谓的节点偏好, 这个偏好可以在某个节点进行了几次查询以后总结出来。所以在网络构建好并运行了一段时间之后就可以总结出某个聚类内的节点经常访问哪一个聚类, 因为同一个聚类内的节点上存储的都是相似的信息, 所以可以推断这些节点自然会有相似的节点偏好, 综合概括起来就是聚类偏好, 得到聚类偏好之后就可以在这些经常访问的聚类之间添加另外一种链接, 这里称其为朋友链接, 表示这两个聚类之间是经常访问的关系, 添加了朋友链接之后, 每当聚类中的一个节点提出了一个查询, 超级节点就可以将该查询直接转交给朋友聚类的超级节点, 大大节省了搜索时间。
在我们上边构建的包含关联关系的语义覆盖网上添加朋友链接得到如图7所示的语义覆盖网。
4.5 网络性能分析
在构成语义覆盖网之后, 根据聚类超级节点控制信息传递的原则, 可以根据查询所需的开销计算出如何分配超级节点和普通节点的比率来使整个网络的运行效率达到最高。
假设在一个P2P网络中存在n个节点, 其中有个超级节点, 个普通节点, 每个普通节点和m个超级节点相连, 每个超级节点平均与个超级节点相连, 与个普通节点相连。用来表示在构建语义覆盖网时选择作为普通节点和超级节点的比率。需要根据各种网络开销均衡得出的最佳值。
网络运行的过程中需要处理连接开销、问题提交开销和问题转发开销三类开销, 通过计算我们得到的最佳值。
有了最佳η值, 不仅可以在构建网络的时候进行最佳设置, 当网络中的节点数量有了变化的时候, 还可以进行动态的调整, 保证整个网络高效的运行。
5 总结
语义韵理论综述 篇9
一、理论的提出与发展
1.问题的发现与提出
Louw正式提出了语义韵这个概念,并给出了定义“一个语言形式会被其周围搭配词稳定的语义氛围所沾染,在本文中这种现象被称为语义韵。”(Louw,1993)然而随后Louw指出,是Sinclair首先发现语义韵现象并为其命名。
作为Cobuild词典项目的主持者和编纂者,Sinclair在参与项目的同时也有了一些自己有趣的发现和观察,这些现象为后来语义韵的发现奠定了基础,比如Sinclair利用语料库研究set in这个词组的语言环境时发现:“这个词组最引人注意的特点是它的主语。它们大致上都是一些表示消极事物的词。这些词主要有rot,decay,malaise,despair,ill-will,decadence等等。这些词之中,没有一个是表示人们想要的或是积极的。”(Sinclair,1987)
Louw认为语义韵其实是一种语义氛围,这种氛围稳定的存在于一些词中,并可以“传染”给其常用搭配词。Louw将语义韵分为两种即“好的”语义韵和“坏的”语义韵。Louw还着重探讨了语义韵在反语的使用和表达作者真实态度的方面所起的作用。在日常生活和文学作品中充斥着大量的反语的使用,而如何去使用反语或者作为读者如何去识别反语,与语义韵的知识密不可分。
2.语义韵理论的丰富与发展
语义韵(semantic prosody)这种命名方式受到了Stubbs的质疑,他认为话语韵律(discourse prosody)这个提法更加合适。Stubbs认为“话语韵律是一种可以横跨多个(语言)线性单位的特征……话语韵律表达了说话者的态度。”(Stubbs,2001)实际上Sinclair在1996年的论文中也强调了语义韵表达说话者的态度,而且相比语义更侧重于语用的一面。(Sinclair,1996)。
Sinclair提出了拓展的意义单位的概念。拓展意义单位由搭配,类连接,语义倾向和语义韵构成。其中语义韵表达了说话者或作者想要表达的态度,它的实现形式并不拘泥于一种或几种语义形式。一个语言单位的语义韵表达的是这个单位的功能。(Sinclair,1996)以naked eye为例,Sinclair认为,作者首先想要表达一种表示困难的语义韵,进而选择了一种表达可见度的语义倾向。这种语义倾向又限制了语法层面和词汇层面即类联结和搭配层面的选择。
Bublitz和Stubbs进一步讨论了语义韵现象形成的历时性特点;Stubbs提出将语义韵分为消极语义韵,中性语义韵,和积极语义韵。(Stubbs,1996)Partington(2004)将语义韵定义为一种评价性的意义并指出这种意义分布的单位要比单词长,而且通过人的直觉很难判断。Michael Hoey(2005)提出了词汇触发理论,这一理论与语义韵理论有类似之处但相比语义韵理论Hoey的触发理论不仅限于描述一系列的单词句子,还触及整个语篇。
Hunston(2007)总结了目前语义韵研究领域存在的主要争议:语义韵应该看作是某个单词固有的特征还是更长的意义单位的特征;关于语义韵的分类问题,是应当简单的采用二元分类还是在分类时采用更加详细的标签;语义韵是否会随着语境的变化而变化,等等。
二.理论基础
1.弗斯的语言学理论
韵律分析又称为韵律音位学。韵律分析是一种可以运用于连续话语的系统的分析方法,理论上它可以分析任何长度的连续话语,最极端的情况就是可以分析一个人一生中发出的所有的话语。Louw使用了Amen的例子来说明弗斯的理论,Amen中第一个元音和第二个元音在发音时明显受到两个鼻音/m/和/n/的影响,因此整个单词具有了“鼻音化”的性质。“鼻音化”的这个性质就被弗斯称为韵律成分。
除了韵律分析,弗斯的在语境和搭配方面的论述也为语义韵理论体系提供了理论基础。“我们必须把在语言的情境中去理解语言,这种情境是说话人进行创造性的活动的时所形成的。”(Firth,1957)。他认为语言情境包括的范畴很广,除了语言上下文和在语言环境中人们所从事活动之外,还包括社会的文化,参加者的关系等。弗斯做出的重要贡献还在于提出了搭配和类连接的概念。在弗斯看来,语言中的搭配现象很好的体现了“意义在于语言的使用”这一语言哲学思想。
2.语料库语言学的发展
语料库语言学不仅是一门独立的学科,还为研究语言提供了一种新的视角与方法。韩礼德认为语料库语言学把数据搜集和理论结合在一起,使得我们对语言的理解产生了新的变化。(Halliday,1993)。Stubbs提出了语料库语言学的两条基本原则。第一,数据的观察者不应当影响语料库中的数据。第二,重复出现的语言使用模式具有研究意义。语料库的首要任务是区别语言使用中的典型性和非典型性。出现频率高的词汇和语法模式就是典型的语言。(Stubbs,2001)。巨大的数据被汇聚到语料库中,通过观察大量的索引行,我们可以观察到以前从来不会察觉到的语言现象,比如语义韵现象。计算机技术为语料库的建设和使用提供了巨大的技术支持。语言学家设计出各种定位检索软件可以在语料库中进行检索。定位检索技术可以列出某个词或者词组在一个或多个语篇中的所有使用情况,这为语义韵的研究提供了极大的便利。
三、应用前景
(1)翻译领域
研究表明,语义韵现象不仅存在于英语中,也存在于各种语言之中。比如Tognini-Boneli就对意大利语和英语中个别词汇的语义韵进行了对比研究,发现了两种语言中语义韵存在着差异。表面看似对等的词在两种语言中具有不同的语义韵,如果不仔细辨别就容易会引起误译。因此将两种语言中语义韵是否匹配作为判定翻译质量好坏的标准很有必要。在语料库翻译研究中,学者们早就提出翻译语料库和类比语料库的概念。翻译语料库是一种特殊语料库,其包含的文本多为对一写语篇的翻译,有的翻译语料库包含原文,有的不包括。类比语料库由具有某些相同属性的文本构成,比如两种语言中的,口语书面语以及各种文体等。这两类语料库可以作为翻译的工具,为翻译工作者提供帮助。
(2)词典编纂和语言教学
早在上个世纪80年代中期,Sinclair就对传统字典进行了批判。Sinclair认为传统字典中对词条意义信息的描述既不全面也不完善。大部分的字典只对读者的阅读起到了帮助,而对于写作起到的帮助甚少。(Sinclair,1987)。大部分字典只是列举出词条本身固有意义,而忽视了词条与其习惯性搭配或是共现成分的意义。因此使用者在查阅时查阅到的仅仅是该词条自身的语义特点,如何使用该词条,该词条的发生在什么样的语言环境中,普通词典极少给出类似的信息。因此我们设想如果在词典中加入词条的语义韵信息,将会对外语学习者带来巨大的帮助。
关于语言教学,语义韵对词汇大纲的设计具有重要的意义。纵观我国的英语教科书,其中的词汇表设计不能称得上合适。很多词在语料库中检索出现的频率较低,算不上常用词。教科书中列举的而某些词的某些用法,与语料库中的证据并不相符和,这对于语言学习者来说很难分辨的清楚。结果就是,英语中最常见的用法,学习者不知道如何表达,而学习者从教学中学到的,又不是正确的表达方式。完全可以将语义韵考虑到教学大纲的设计中,比如,在进行词汇表设计时可以按照这样的分类方式,表达赞美的词汇和方式,表达厌恶的词汇和方式等等。
四.结语
本文通过按照时间的顺序介绍了语义韵理论的发展过程和理论基础,探讨了语义韵理论在翻译实践等领域的应用前景。本文抛砖引玉,希望更多的学者能够了解语义韵现象,能够做出更多的研究。
参考文献:
[1].Firth,J.R.1957.Papers in Linguistics 1934-1951 [C]London:Oxford University Press.
[2].Sinclair,J.1987.Looking up.London/Glasgow:Collins.
[3].Sinclair,J.1991.Corpus,Concordance,Collocation.Oxford:Oxford University Press.
[4].Sinclair,J.1996a.‘The search for units of meaning.Textus,9:75-106.
[5].Louw,B.1993 Irony in the text or insincerity in the writer? The diagnostic potential of semantic prosodies [A].In M.Baker,G.Francis & E.Tognini-Bonelli(eds).Text and Technology:In Honour of John Sinclair.[C].Amsterdam:John Benjamins.
[6].Stubbs,M.1996.Text and Corpus Analysis.[M].Oxford:Blackwell Publishers.
语义服务论文 篇10
近年来,随着Web服务相关标准的持续完善和支持Web服务开发的软件平台的不断成熟,Internet上的Web服务数量正在不断增长。Web服务发现的任务就是从Internet上数量庞大的服务群中找到满足用户需求的服务,其核心在于一个性能良好的服务匹配算法。目前的Web服务匹配算法主要分为语法级和语义级两类[1,2],语法级服务匹配利用基于关键字的精确匹配算法对服务请求和服务广告进行匹配,其查准率和查全率均无法达到令人满意的效果。对此,国内外学者展开了针对语义Web服务匹配算法的研究,文献[3]提出一种基于DAML-S (DARPA Agent Markup Language-Service)的经典服务匹配算法。该算法通过对本体中概念的包含关系的推理,给出服务请求和服务广告之间的匹配等级,通过返回不同匹配等级的服务提高了服务的查准率和查全率,但其最大的缺点在于不能反映出服务之间的精确匹配度。对此,文献[4,5]通过定义不同形式的语义距离来计算本体概念间的相似度,以一种量化的数值形式反映出相同或不同匹配等级之间概念的细化匹配程度,从而反映出服务之间的精确匹配程度。总体来说,这类方法的性能比语法级服务匹配算法有了较大提升,但它们只注重用于服务匹配的领域本体概念间的子类关系,忽略了概念间存在的其它多元关系,导致概念的语义不能被完整地反映出来,影响了算法的匹配性能。
本文利用本体概念间的多元关系(重点考虑了部分/整体关系、同义关系和子类关系)定义了一种语义距离,通过该语义距离计算出概念间的语义相似度,并在此基础上提出了基于语义相似度的Web服务匹配算法。最后,通过与文献[4]中算法的对比,并以实验验证了本文算法的可行性和有效性。
1Web服务本体语言OWL-S
语义描述是实现语义级服务匹配和语义Web服务发现的重要前提。目前,Web服务语义描述规范中最具有代表性的研究成果是OWL-S[6](Web Ontology Language for Services)。OWL-S是一种基于本体论思想构建的Web服务上层本体,如图1所示。从Service Profile、Service Model和Service Grounding三个方面对服务进行刻画。Service Profile描述一个服务能够做什么;Service Model描述一个服务是如何工作的;Service Grounding描述如何访问一个服务。
Service Profile主要通过其子类Profile来刻画一个服务的相关信息,包括服务的基本描述信息、功能描述信息和一组服务属性。其中,功能描述信息包括服务的输入参数集、输出参数集、前提集和结果集IOPEs(Inputs、Outputs、Preconditions、Effects)。Profile并未直接提供描述IOPEs实例的规范,所有的IOPEs实例都是在Service Model中创建,Profile只是通过hasInput、hasOutput、hasPrecondition和hasEffect属性指向IOPEs实例。
Service Model主要用来描述服务的内部流程。在Service Model中,Web服务被建模为一个过程。过程共分为三类:原子过程、简单过程和复合过程。所有的IOPEs实例都是在过程中创建。
Service Grounding描述了访问一个Web服务的具体细节,例如协议、消息格式、序列化、传输、寻址等。
2基于语义相似度的Web服务匹配
本文基于OWL-S规范描述Web服务,通过服务功能参数集的匹配实现Web服务匹配。
定义1 Web服务WS(Web Service)是一个四元组,WS=(SI, SO, SP, SE),SI、SO、SP、SE分别是Web服务的输入参数集、输出参数集、前提集和结果集。
定义2 服务请求WSR(Web Service Request)是一个四元组,WSR=(RI, RO, RP, RE),RI、RO、RP、RE分别是服务请求的输入参数集、输出参数集、前提集和结果集。
服务请求方和提供方通常都会采用领域本体来描述服务功能参数集中的参数[3,4,5],所以参数间的相似程度就可以直接通过本体概念间的相似程度来进行衡量。本文假设服务请求方与服务提供方采用共同的领域本体来描述服务功能参数集中的参数。本文的基本思想为:通过计算本体概念间的语义相似程度来反映出与概念相应的功能参数间的相似程度,进而计算出WS与WSR的匹配程度。
2.1本体概念间的语义相似度
领域本体描述了特定领域中的概念和概念与概念之间的关系。概念间存在着的关系复杂多样,除了子类关系外,还存在着其它多种关系,这使得在实际中本体概念的组织形式并不完全是一个树型结构,而是一个网络结构[7,8]。其中,子类关系构成网络中的主关联,体现了网络中概念的层次结构;其它关系则构成了网络中的辅关联。图2是一个本体的网络结构示意图,网络中的结点对应于概念,连接结点的边对应于某种关系,本文重点考虑了概念间的部分/整体(part of)关系、同义(equivalent class)关系和子类(sub class of)关系,对其余类型的关系不加区分。
本体概念间的语义相似度可以通过语义距离来衡量[4,5,9]。语义距离的定义并没有统一的标准,一般而言,两个概念间的语义距离越小,它们的语义相似度越高,反之则越低。
2.1.1 语义距离
本文利用本体概念间的多元关系来定义语义距离。从图2容易看出,任意两个概念间可能存在着多条路径(本文中提到的路径均指无环路径),每条路径又包含n(n>0)条边。本文首先给出一个关于边的权值计算式weight(edgei)。该式的计算与边所表达的关系类型和边在网络中所处的层次深度有关:
其中,edgei是某条路径所包含的第i条边,type(edgei)是边(关系)类型系数,H(edgei)是边在网络中所处的层次深度。
不同的边(关系)类型对weight(edgei)产生的影响不同,所以有:
定义3 边在网络中的层次深度H(edgei)等于它所连接的两个结点中层次较浅的那个结点在网络中所处的层次深度。
例如在图2中,连接结点C1和C5的边的层次深度等于C1的层次深度,即H(edge)=Min{H(C1), H(C5)}=1。
设:CS与CR是领域本体中任意两个概念,CS用于描述SI(SO/SP/SE)中的一个参数,CR用于描述RI(RO/RP/RE)中的一个参数。通过2.1节可知,子类关系构成了本体网络中的主关联,因此,任意两个概念CS与CR都可以通过一条全部由表达子类关系的边所构成的路径连接起来。
定义4 连接任意两个本体概念的路径中,全部由表达子类关系的边所构成的路径称为标准路径。
定义5 任意两个本体概念CS与CR之间的语义距离是连接它们的某条路径上所有边的权值总和:
(2)
显然,语义距离取标准路径时的权值满足:
本文在这里约定:
当CS与CR之间除标准路径外,其余路径的权值均≥2时,CS与CR的语义距离取标准路径的权值;
当CS与CR之间除标准路径外,还存在其它路径的权值<2时,CS与CR的语义距离取所有路径权值中的最小值;
综上所述,可以得出:CS与CR的语义距离distance(CS, CR)<2。
2.1.2 语义相似度
根据语义距离计算本体概念间的语义相似度:
其中,α>1,是一个可调节参数。
进一步研究发现,式(3)不能区分下列情况,例如在图2中,CS=C2和CR=C14的语义相似度与CS=C14和CR=C2的语义相似度相同。但主观上,当CS是CR的直接/间接父类、或H(CS)<H(CR)时,其相似度应该高于CS是CR的直接/间接子类、或H(CS)>H(CR)时的相似度。为体现这种区别,定义了一个系数β:
其中,H(*)是概念所处的层次深度。式(3)变为:
例:取α=2,对图2而言有,Sim(C2,C2)=1,Sim(C9, C10)=1,Sim(C2,C14)=0.83,Sim(C14,C2)=0.73,Sim(C14, C15)=0.90,Sim(C17,C18)=0.87,Sim(C14,C18) =0.55。
2.2基于语义相似度的Web服务匹配算法
根据定义1和2,将服务请求(WSR)和Web服务(WS)之间的相似度定义为:
通过式(5),WS与WSR的相似度计算转化为Sim(SI,RI)、Sim(SO,RO)、Sim(SR,RP)和Sim(SE,RE)的计算,分别表示WS与WSR的输入参数集、输出参数集、前提集和结果集之间的相似度。
Web服务匹配算法描述如下:
输入:服务请求(WSR)和Web服务(WS)库;
输出:满足请求的服务列表。
1) 设定匹配阈值threshold。
2) 如果服务库不空转步骤3),否则转步骤10)。
3) 从服务库中取出一个服务,将服务库中的服务个数减1。
4) 设:SI={Si1,…,Sin},RI={Ri1,…,Rim},Sij和Rii分别是SI和RI中的任一参数,1≤j≤n,1≤i≤m;构造相似度矩阵M:
其中,Sim(Sij,Rii)是SI中第j个参数与RI中第i个参数的语义相似度,通过式(4)计算。
5) 从M中选出一个最大值并将其记录在数组value [Min(n,m)]中,删除该值所在的行与列得到新的矩阵M’;重复此操作直到记录Min(n,m)个值为止;如果出现最大值相同的情况,以行号为先后顺序进行选择,行号越前优先权越高。
(注:SI与RI中的参数个数不一定相等,因此要对两个参数集中的参数进行两两配对,步骤4)~5)的目的在于实现参数的两两配对)。
6) Sim(SI,RI)
其中,value数组取自步骤5)。
7) 计算Sim(SO, RO)、Sim(SR, RP)和Sim(SE, RE),方法与Sim(SI, RI)相同。
8) 利用式(5)计算Sim(WS,WSR)。
9) 如果Sim(WS,WSR)≥threshold,将该服务记录在用户服务列表中,转步骤2)。
10) 如果服务列表不为空,返回给用户。
11) 结束。
3实验结果与分析
软硬件环境:P4 2.66 GHz CPU,768 M内存,Windows 2000,JDK 1.5 ,Eclipse 3.0。
测试服务集:OWL-S Service Retrieval Test Collection Version 2 (OWLS-TC V2)[10]。OWLS-TC V2是基于OWL-S规范构建的服务测试集,共包含576个Web服务。本文选取其中旅游领域包含的106个服务作为本次实验的测试服务集。
领域本体:利用本体编辑器Protégé 3.4.2,在OWLS-TC V2提供的与旅游相关的本体基础上补充了一些类和关系,构建起领域本体。领域本体中涉及到的关系包括子类关系、同义关系和部分/整体关系等。
文献[4]中提出的算法将经典算法[3]中的逻辑匹配巧妙地转换成了相似度匹配。算法中的匹配等级既保持了经典算法中匹配等级的合理性,又提供了精确的数值匹配度,因此本文选择与文献[4]的算法在性能上进行一些比较。
分别从地图、旅馆、天气和目的地几个方面对服务集进行了查询。实验中,本文算法的匹配阈值threshold分别取为0.2、0.4、0.6、0.8,文献[4]算法的匹配精度也分别取为0.2、0.4、0.6、0.8。实验结果如表1所示。
由于OWLS-TC V2中所有Web服务的功能信息中只包含了输入集/输出集的信息,不包含前提集/结果集的信息,所以在实验过程中,本文算法中的式(5)改为:
文献[4]算法和本文算法的平均查全率分别为73%和84%,平均查准率分别为81%和79%,两种算法的平均查准率相近,本文算法的平均查全率较高。分析得知,文献[4]的算法只注重用于服务匹配的领域本体概念间的子类关系,忽略了概念间的其它多元关系,导致概念的语义不能被完整地反映出来,从而影响了算法的查全率。本文算法在对服务进行匹配时利用了本体概念间的多元关系,因而在整体性能上较好。
4结语
服务匹配算法是Web服务发现的核心技术。本文提出的基于语义相似度的Web服务匹配算法,利用本体概念间的多元关系定义了一种语义距离,在此基础上,给出概念间的语义相似度计算方法,进而通过计算与服务功能参数集中参数相应的本体概念间的语义相似度实现了Web服务的匹配。实验的结果表明,与文献[4]中的算法相比,本文提出的算法具有较好的整体性能。本文主要针对服务的功能匹配进行了研究,但没有考虑到服务的QoS属性,所以下一步工作是研究服务的QoS匹配,以使服务匹配算法进一步完善。
参考文献
[1]廖祝华,刘建勋,刘毅志,等.Web服务发现技术研究综述[J].情报学报,2008,27(2):186-192.
[2]吕庆聪,周集良,杨帆,等.普适计算机服务匹配技术研究[J].计算机科学,2009,36(11):182-185.
[3]Paolucci M,Kawamura T,Payne T R,et al.Semantic Matching ofWeb Services Capabilities[C]//Proceedings of the First InternationalSemantic Web Conference(ISWC).Sardinia,Italia,2002:333-347.
[4]彭晖,史忠植,邱莉榕,等.基于本体概念相似度的语义Web服务匹配算法[J].计算机工程,2008,34(15):51-53.
[5]黄志成,李华.改进的语义Web服务匹配算法设计与实现[J].计算机工程,2009,35(20):88-90.
[6]Martin D,Burstein M,Hobbs J,et al.OWL-S:Semantic Markup forWeb Services[EB/OL].[2004-11-22].http//www.w3.org/Submission/OWL-S/.
[7]顾金睿,王芳.关于本体论的研究综述[J].情报科学,2007,25(6):949-956.
[8]刘汉兴,林旭东,田绪红.基于本体的自动答疑系统的研究与实现[J].计算机应用,2010,30(2):415-418.
[9]姜华.一种基于本体的概念语义相似度计算研究[J].计算机应用与软件,2009,26(7):143-145.