领域本体构建方法

2024-12-28

领域本体构建方法(共8篇)

领域本体构建方法 篇1

近年来,本体论的相关技术已被广泛应用于很多领域。本体作为领域内共享的知识概念模型,为信息平台之间资源沟通和信息交互存在的语义异构等问题提供了解决方案。介绍了模块化本体技术领域本体建设、模块本体建设的基本单位,采用OWL[1]将领域知识模块化,并将其用规则以松散耦合方式组装成所需本体,用SPARQL查询来获取所需的连接模块,虽然OWL可通过OWL:imports声明可将另一本体文件导入现有本体文件,但是由于OWL的描述能力主要在于以类别为基础的关联性推理,若知识不是用类别方式表达时,OWL便难以表示,因此又利用Jena支持规则的特点连接本体模块,这种方法连接本体模块灵活,可继续挖掘隐含知识。而且,在本体建立中采用模块化方法可以降低本体的复杂性,达到本体复用的目的。

1 本体模块化定义

目前没有明确的定义本体模块,一些研究已经开始探索模块的定义。文献[2]提出了模块化本体形式化的表示方法,并提出了模块化本体工程和半自动的模块化本体开发方法。Paul Doran等人基于本体重用目的定义了模块概念,Heiner Stucken-schmidt等人定义了本体模块的通用结构,但不清楚地反映了特征模块,B.Cuenca Grau认为本体模块化类似于软件工程模块化,使用一致的和良好定义的方法,使大规模本体可以分解成更简单的本体即本体模块。

本文在参考以上文献的基础上,定义本体模块如下,其中Sig()表示出现在中的符号集合,特别是本体模块,表示的符号出现在本体模块,M1⊎ M2说两个连接本体模块。

定义1 设O为本体,M1∪ M2= M ,如果满足以下条件,则M1和M2称为M的本体模块

3) 存在公理

定义2若

定义3且对于任意模块

2 领域知识模块化

1)同一类别的概念形式相同的本体模块的概念不同的类别分为不同的本体模块。

2)复用率较大的概念集合形成独立的本体模块。

3)同一知识集合的不同分类法应形成不同本体模块。

4)常常需要更改和维护的概念集合形成独立本体模块。

基于模块化定义和以上原则,本文在物流系统中划分的模块如图1,图2所示:

3 本体模块化连接方法

形成一个特定的背景下,有必要有一个目的定义一些概念,属性,限制,连接两个本体模块。等形式的背景下,运输货物运输、模块和货物运输模块连接,需要定义一些运输的概念,如定义cannot Transported By(不能由…运输)交通属性表达货物运输不能使用运输工具,再用Jena的规则连接两个本体模块。如用Jena定义的规则:

表达如果x的易爆属性(is Explosive)为真(ture),即具有易爆性,y是平车(Flat Car),那么x不能由y运输(?x ns Transport:cannot Transported By ?y)

图3 为货物和运输本体模块连接本体模块形式运输上下文的一部分,环境也可以通过这种方法,另一本是不同一个列表。

4 结语

在本文中,我们给出的定义本体模块、本体模块化技术领域本体建设,该模块本体建设的基本单位,并结合上下文,使用规则以松散耦合的方式组装进身体,减少设计和实现的困难,解决大身体很难重用和维护,以及应用困难等问题。并以物流领域为背景,验证了这一方法的可行性,取得了比较好的效果。

摘要:针对领域本体在构建过程中,由于概念众多造成本体文件过大,推理复杂等问题,介绍了模块化本体技术领域本体建设、本体模块本体建设的基本单位。结合上下文,规则以松散耦合的方式组装本体,减少设计和实现的困难,解决大身体很难重用和维护,以及应用困难等问题,并将这一技术应用到物流系统中,取得了较好的效果。

关键词:本体,模块化,规则,物流

战斗机领域本体构建研究 篇2

【关键词】领域本体;本体构建;战斗机;叙词表;互信息

1.引言

近几年,国内外不少学者对领域本体的构建进行了探索研究,有的已建立了可投入应用的本体。但是对于战斗机领域本体的构建,未有太多研究成果。借鉴现有的领域本体构建方法,要么工作量大、时间长,要么本体质量不高,适应性不强。本文在分析基于本体工程和叙词表领域本体构建方法的基础上,结合本体重用、基于互信息的本体半自动构建和人工校核的方式,提出了一种更有效率的战斗机领域本体构建方法。

2.本体的定义

1991年Neches等人最早给出本体在计算机科学中的定义:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延规则的定义”[2]。1993年Gruber定义本体为“概念模型的明确的规范说明”[1]。1997年Borst进一步完善为“共享概念模型的形式化规范说明”[3]。Studer等人对上述两个定义进行了深入研究,认为本体是共享概念模型的明确的形式化规范说明[4],这也是目前对本体概念的统一看法。

3.本体的构建方法

国内外在本体构建方法的研究上,主要针对以下两种:一是从知识工程的角度,探讨本体的构建方法,称为本体工程;二是探讨利用现有的叙词表资源,直接向本体转化的方法。

3.1 本体工程

本体工程方法的主要特点是强调构建本体时要按照一定的规范和标准,比较著名的方法包括TOVE法、骨架法和七步法等。

TOVE法。加拿大Toronto大学企业集成实验室基于在商业过程和活动建模领域内开发TOVE项目本体的经验,通过本体建立指定知识的逻辑模型。用一阶逻辑构造了形式化的集成模型,包含企业设计本体、项目本体、调度本体或服务本体。

骨架法。专门用来建立企业本体,为企业本体建模过程提供了指导性的方针,主要有以下5个阶段:①确定本体应用的目的和范围;②本体分析;③本体表示;④本体评价;⑤本体的建立。

七步法。斯坦福大学开发的领域本体构建方法,具体包括7个阶段:①确定本体的领域和范围;②考虑复用现有的本体;③列出本体中的重要术语;④定义类和类的等级体系;⑤定义类的属性;⑥定义属性的槽;⑦创建实例。

目前本体工程中尚没有权威的方法论,缺乏标准化的管理和制约。以上几种方法均是在本体构建项目中总结出来的。

3.2 基于叙词表的本体构建

叙词表收录了某一领域的所有叙词和非叙词,并按照一定顺序排列。叙词表的语义关系包括“用、代、属、分、参”,分别用来表示叙词之间的等同、等级、相关等语义关系。由于叙词表包含丰富的领域概念和一定的语义关系,在表达知识结构上与本体有着天然联系,包含了本学科领域中相对比较完整的术语,因此,国内外很多学术机构都在尝试基于叙词表进行本体的构建,研究重点在于叙词表向本体转换的方法。

4.战斗机领域本体构建

4.1 本体构建思路

本研究在深入考察现有的本体构建方法和现有领域资源的基础上,提出构建战斗機领域本体的指导方法。核心思想是,从本体工程的基本思想出发,借助叙词表和其他语义资源,结合本体重用、基于互信息的本体半自动构建和人工校核的方式,完成领域本体的构建。

本研究方法的意义在于,可以重用已有本体规范的术语和本体关系,同时引入半自动本体构建方法,降低了领域专家手工构建本体的工作量;保留人工校核和专家评价,以保证本体构建结果的准确性和专业性。

图4-1 战斗机领域本体构建方法框架图

4.2 本体构建步骤

4.2.1 确定本体的领域和范围

在本体构建之初,确定本体的领域和范围是非常重要的。战斗机领域本体的范围需要覆盖型号研制全生命期、全部专业领域涉及的术语和术语关系。

(1)战斗机领域本体的型号覆盖范围能够覆盖三代和四代战斗机相关型号。

(2)战斗机领域本体的生命期覆盖范围能够覆盖型号研制的全生命期,包括:立项论证、方案设计、工程研制、设计定型、生产定型。

(3)战斗机领域本体的专业覆盖范围能够覆盖型号研制全部专业领域,包括:总体、气动、结构、强度、飞行控制、飞行力学、机电与推进系统、航电、武器、飞行试验。

4.2.2 本体顶层设计

由于领域本体构建是一个从无到有的过程,因此需要对领域本体的顶层框架进行设计。

4.2.2.1 本体顶层分类设计

本体顶层分类通过自顶向下展开的方式进行设计,首先确定以“战斗机”为核心的一级分类,然后确定各专业的二级分类。本体的顶层分类将作为后续术语选取和划分的基本依据。

战斗机领域本体的一级类划分如下:

(1)飞行器:进一步划分为“机体”、“飞行器管理系统”、“任务管理系统”、“公共管理系统”。

(2)飞行原理:进一步划分为“空气动力学”、“飞行力学”。

战斗机领域本体中进行二级类划分的专业如下:总体、气动、强度、结构、飞行控制、机电系统、推进系统、航电系统、武器系统、飞行试验。

4.2.2.2 术语基础内容设计

术语是本体的基本组成单位,定义术语基础内容及其标准是非常重要的。战斗机领域本体的术语基础内容包括:

(1)术语:术语名称本身,应是领域内对某一概念较为统一、正式的常用叫法。

(2)术语定义:对一个术语的准确、完整、详细的解释和描述。

4.2.2.3 术语间关系类型设计

本体中的关系体现了术语与术语之间的联系,战斗机领域本体的术语间关系类型包括:

(1)同义关系:术语间在意义层面上相同或相似则构成同义关系。

(2)上下位关系:如果两个术语中,一个术语是另一个术语的子类,那么就说它们之间存在上下位关系。如“战斗机”是“飞机”的下位词,而“飞机”是“战斗机”的上位词。

(3)属性关系:事物本身所固有的性质。如“速度”是“飞机”的一个属性。

(4)相关关系:术语之间存在的不包含在以上三类关系中的其他关系,统一划归为相关关系。

4.2.3 本体构建

本体构建的核心工作体现在术语选取和术语关系构建上,因此需要选取合适的资源,配合可行的技术路线来完成。

4.2.3.1 术语选取

术语选取的主要目的是得到领域重要术语,这是本体构建的重点和难点之一。本研究采用以词典选取为主,从语义资源中提取关键词为辅的方式来完成术语选取工作:

(1)根据本体顶层分类,从语义资源中抽取能代表该领域的顶层术语。本研究选择从《航空百科词典》的以下分類中选取顶层术语:航空器、总体参数、飞行器结构、飞行器设计、强度分析与试验、推进系统、航空发动机、飞行控制系统、航空电子系统、航空机电系统、飞机飞行操纵系统、飞机燃油系统、悬挂发射装置、飞行试验。

(2)从各类语义资源中初步选取能加入顶层术语分类下的领域术语。术语选取资源包括《航空百科词典》和《飞机设计手册》。其中,以《航空百科词典》为主选择术语,以《飞机设计手册》中提取的关键词为辅作为对术语的验证和补充。

(3)由本体工程师对初步选取的术语进行校核,剔除其中领域无关的术语。

(4)请领域专家审核确认,对领域术语的选取进行验证。

4.2.3.2 术语关系构建

建立术语关系,在本体构建过程中是关键环节。传统的本体关系构建工作主要采用人工方式,由领域专家完成,人力和时间投入巨大。为实现对领域本体的快速有效构建,本研究结合本体重用、基于互信息的本体半自动构建和人工校核的方法,以如下技术路线实现本体关系构建:

(1)本体重用:在本体构建过程中,首先采用本体重用的方式,利用已有资源,以减低人工投入,并尽可能保证结果的权威性、可靠性。本研究将选取的战斗机领域术语分别与以下已有本体进行匹配:NASA叙词表、航空科技资料主题词表、国防科学技术叙词表。

(2)半自动构建:在本体重用的基础上,引入了两种提取相关术语的计算方法,实现对本体关系的半自动构建。

方法一、基于词典术语定义提取术语相关关系:匹配术语和术语定义,以得到术语的相关术语。凡在某术语的术语定义中出现且出现次数满足一定阀值要求的术语,认为是该术语的相关术语。

方法二、基于互信息提取术语相关关系:通过计算互信息,得到术语的相关术语。两个术语之间的互信息满足一定阀值要求,认为二者语义相关,是相关术语。互信息的思想是:对于两个术语,其互信息为M(x,y)=log(p(x,y)/p(x)p(y))。其中,p(x,y)为术语在语料中的共现频率,信息值大说明术语间相关度高。

(3)人工校核:最后,由专家对本体构建结果进行校核、确认。

图4-2 战斗机领域本体术语关系构建技术路线

4.2.4 本体表示

本研究选用W3C推荐的OWL作为本体表示语言,其通用性及出色的语义表达能力,能够很好的支持机器对文档的推理,为本体的进一步应用打下了基础。

4.2.5 本体评价

通过制定本体评价标准对所建本体进行评价,并使本体通过领域专家从专业角度进行的审核和评价。依据评价结果对本体构建结果进行修正和进化。

5.结论

本文对领域本体构建方法进行了研究,在借鉴业界已有理论和方法的基础上,提出针对战斗机领域本体的构建方法与技术方案。结合本体重用、基于互信息的本体半自动构建和人工校核的方式,提出了一种更有效率的战斗机领域本体构建方法,实现将术语间关系构建尽可能通过计算机自动完成,减少领域专家的工作量。通过本方法,初步构建出了战斗机领域本体。但是,由于各领域本体需求差异,本方法能否用于其他领域的本体构建,有待进一步检验。

参考文献:

[1]Gruber.A Translation Approach to Portable Ontologies[J].Knowledge Aequisition,1993,5(2):199-220.

[2]Neches R,Fikes R.E,Gruber TR.Enabling Technology for Knowledge Sharing[J].Al Magazine.1991(03)36-56.

[3]Borst W.N.Construction of Engineering Ontologies for Knowledge Sharing and Reuse.PhDthesis[D].University of Twente Enschede,1997.

唐卡领域本体构建研究 篇3

本体(Ontology)这个概念最初起源于哲学,是关于存在及其本质和规律的学说,后来被广泛引入到信息技术、知识工程、人工智能等领域。目前,本体还没有一个既准确又公认的定义,广泛使用的定义是由Gruber在1993年提出的“本体是概念化的明确的规范说明”,后来Studer等人又作了补充:“本体是共享概念模型的明确的形式化规范说明”。根据本体研究的主题及层次,将本体分为:知识表示本体、通用或顶层本体、领域本体、语言学本体、任务本体等五大类,其中领域本体是一种新兴的领域知识表示和共享的方法,能详细描述特定领域的概念及概念间关系,消除领域内部概念和术语上的分歧,提供对该领域知识的共同理解,实现领域知识的共享和重用[1,2,3,4]。将本体论思想引入唐卡领域,建立唐卡领域的本体模型,实现唐卡领域知识的形式化描述,这对唐卡分类、唐卡知识库构建、唐卡信息智能检索等方面的进一步研究具有重要意义。

1 唐卡领域本体的构建

目前,本体构建并没有统一的方法,常用的方法有:SENSUS法、骨架法、评估法、七步法等等。参考斯坦福大学医学院开发的领域本体构建七步法,提出了适合唐卡领域本体的构建方法[5,6]。

1.1 确定本体的专业领域和范畴。

唐卡题材广泛、种类繁多、形式多样、颜色复杂。内容涉及历史事件、宗教、人物、风土人情、民间传说、神话故事、建筑布局、天文历法和藏医藏药等多个方面。构建一个完整或完善的唐卡领域本体是一项极其浩大的工程,其工作量也是非常巨大的。为保证研究工作顺利进行,该文尝试缩小范围,将宗教肖像类唐卡作为研究对象,进行唐卡领域本体的构建。

宗教肖像类唐卡中央一般绘有主尊造像,即信徒供养膜拜的对象,如大日如来佛、四臂观音、莲花生大师、白度母、护法神等,主尊是宗教类唐卡的核心内容,全面揭示藏传佛教信仰的主体,代表了藏民族宝贵的精神文明。根据主尊在西藏佛教文化中的具体地位与身份特点,通常将主尊分类为:佛—“觉悟者”,佛是指所有修成正果的大觉悟者,如释迦牟尼佛、阿弥陀佛、药师佛等;祖师—藏传佛教徒对自己导师的尊称;菩萨—“觉悟的众生”、“有广大爱心的人”。此外有佛母、罗汉、空行、护法和地方神等类别[7]。

1.2 列出本体中的重要术语和概念

通过阅读大量唐卡方面的专业相关书籍、画册,同唐卡领域研究专家交流等方式获取唐卡方面的领域知识,列出宗教肖像类唐卡领域涉及到的重要术语清单,并尽可能详细地对它们进行含义界定。通过语义分析和概念的合并,汇总整理出核心概念集和术语如下:

①唐卡主尊名称

实例:释迦牟尼佛、燃灯佛、弥勒佛、四臂观音、狮吼观音、文殊菩萨、尊胜佛母、大白伞盖佛母……

②描述主尊的主要画面元素

实例:面相(愤怒、半怒、寂静等),面数(一面、两面、三面等),肤色(白色、红色、黄色、蓝色、绿色等),手印(无畏印、与愿印、禅定印、说法印等),法器(法轮、钵净瓶莲花宝镜、琵琶等)……

③所属教派

实例:宁玛派、萨迦派、噶当派、噶举派、格鲁派……

④制作材料

实例:纸、布、酥油、木料、金属、石材……

⑤制作方法

实例:绘制、堆绣、刺绣、缂丝、贴花、打籽绣、版印……

此外还有作者、唐卡作品风格或流派、制作时代、收藏地等通用概念。

1.3 定义类和类的等级体系

上一步骤中产生的大量概念是仅仅一张毫无组织结构的词汇表,还需建立该领域本体的框架。建立一个类的等级体系结构常用的有两种方法:一是自顶向下法,首先确定一个领域中最大的概念,然后将这些概念逐步细化;二是自底向上法,从底层最小类即最小概念出发,将它们加以组织、概括,放在更加综合的概念之下。该文结合两种办法,利用综合法构建宗教肖像类唐卡领域本体,期间通过查阅大量资料,向领域专业请教等方式,对每一个概念的重要性进行评估,筛选出关键性概念,去掉那些不必要或者超出领域范围的概念,尽可能精简的表达出领域的知识,最终形成一个系统的框架体系。

本文所开发的宗教肖像类唐卡领域本体主要包括4个大类:唐卡图像文本信息类、唐卡主尊名称类、描述主尊的主要画面元素类、相关信息类。每个大类下面继续划分成不同的子类,子类会自动继承父类的属性。

唐卡图像文本信息类用来描述唐卡图像文件属性,包括图像的编号、图像占用存储空间的大小、图像的存储格式、图像的存储位置,创建该类是为了与唐卡的图像数据库相对应。

按照唐卡中绘制的主尊不同,将唐卡主尊名称类分为佛、菩萨、佛母、度母、空行、金刚、护法、罗汉、祖师、地方神和历史人物10个子类。每个子类下面再继续细化,例如佛类包括:释迦牟尼佛、燃灯佛、弥勒佛、不动佛、三世佛、强巴佛、大日如来、五方佛、无量寿佛、药师佛等[8]。

唐卡图像构图复杂、组成元素较多,如图1所示。通常描述和识别中央主尊的主要画面元素有:面相、面数、头饰、肤色、左手印、右手印、姿态、法器、头光、背光、座台等等,因此定义描述主尊的主要画面元素类与之对应。

此外还有与唐卡有关的相关信息类,例如,根据所属教派不同将唐卡分为:宁玛派、萨迦派、噶当派、噶举派、格鲁派;根据颜色分为:黑唐、红唐、彩唐、金唐;根据制作方法可分为:绘制、堆绣、刺绣、缂丝、贴花、打籽绣、版印。还可以按照作者等其他方式进行划分,以上这些都作为相关信息类的子类。

1.4 定义类的属性

在本体中,类仅仅描述了一个框架,还不能确切地描述一个领域。因此,需要继续定义这个类的内部结。Protege中常用有两种类型的属性:Datatype Properties和Object Properties。Datatype Properties(数据类型属性)代表了个体实例和基本数据类型的关系,使用时需赋予一个具体的属性值,常用有字符型、数值型、布尔型、日期时间型等。Object Properties(对象属性),用于建立两个类的实例之间的关系。例如:唐卡主尊名称和描述主尊的主要画面元素之间定义一系列的对象来连接,如表1所示。此外,唐卡作者和唐卡之间是绘制和被绘制的关系,唐卡和唐卡作品风格或流派之间是隶属关系。所有属性都具有继承性,即父类的子类都具有该父类的所有属性。

1.5 定义属性的取值

属性的取值又称属性得分面,用来描述取值的类型、容许的取值以及取值的个数等其它特征。如描述唐卡主尊的主要画面元素中的面相取值类型是字符型,取值范围是愤怒、半怒、寂静;手印取值类型是字符型,取值范围是:无畏印、与愿印、禅定印、说法印、触地印、智拳印、辩法印、礼供印、定地印、期克印、合十印、殊胜三界印、安慰印、拔济众生印、弥陀定印等。

1.6 创建实例

创建实例是完成上述定义后的一个阶段,即将类进行实例化。方法是先建立一个类,然后创建这个类的实例,添加这个类的属性值。例如:一幅唐卡名称为释迦牟尼佛、面相是慈祥、面数是1、头饰是发髻、肤色是黄色、左手印是禅定印、右手印是触地印、姿态是金刚跏趺、持物是钵盂、头光是圆形、背光是马蹄形、座台是莲花座、所属教派是同属四大教派。

通过以上步骤,可不断丰富和完善宗教肖像类唐卡领域本体库,使领域中的概念以及概念间的关系更加规范描述,为构建层次清晰、内容丰富、体系完善的唐卡领域知识库做重要铺垫。

2 讨论

利用本体思想,结合领域知识,初步构建了宗教肖像类唐卡领域本体的模型,阐述了构建的方法和步骤,为基于本体的唐卡知识库构建、唐卡语义检索等其它的应用性研究做有益的尝试。

在唐卡领域本体开发过程中,发现存在以下问题,需要在以后的研究中作更加深入的探讨:

1)唐卡堪称是融会佛教精神、世间技术和个人创造力的“百科全书”,知识丰富,涉及方面众多,因此需要不断完善唐卡方面的领域知识。

2)描述唐卡概念的数据模型需进一步完善。每一幅唐卡,除了描述主尊本身的主要画面元素外,还应考虑其他一些重要信息,如:伴神、贡品、自然界景物、图案装饰、主尊上下界的背景等,以及唐卡构图各元素间的空间关系,这样才能较全面的描述一副唐卡的详细语义。

摘要:为实现唐卡数字资源的共享和重用,建立用计算机语言来表达的唐卡领域知识系统,从现有的本体相关理论出发,使用本体的形式化定义形式,对唐卡的概念进行语义形式化描述,利用七步法构建了唐卡领域的核心本体,对唐卡分类、唐卡知识库构建、唐卡信息智能检索等方面的进一步研究具有重要意义。

领域本体构建方法 篇4

在教育领域,国内外关于本体在智能教学系统的研究已有一些进展。利用本体表示的知识不仅有助于知识、信息资源的系统化,而且也便于知识、信息资源的扩展和更新,使之更容易满足不同层次、不同需求的个人终生学习。使用本体来表示知识,构建领域本体,能够促进智能学习系统的有效开发。

1 本体的相关概念

1.1 本体的定义

本体论(Ontology)来自哲学领域,旨在研究客观事物存在的本质和组成[1]。随着信息科学的飞速发展,本体论逐渐用于知识工程和信息科学等领域之中。

在知识工程领域中,本体通过对于概念及其相互关系的规范化描述,勾画出某一领域的基本知识体系。

在计算机科学领域,斯坦福大学的Gruber认为“本体是概念化的明确的规范说明,能够以一种明确的、形式化的方式来表示领域知识,促进知识共享”。

本体论可以分为四种类型:通用、应用、领域和任务。

1.2 本体建模元语

Perez认为Ontology包含五个基本的建模元语(Modeling Primitive):

(1)类(Classes)或概念(Concepts):表示领域知识元,包括一般意义上的概念以及任务、功能、策略、行为、过程等,通常具有一定的分类层次关系。

(2)属性(Properties):描述概念的性质。

(3)关系(Relations):表示概念之间的关联,在形式上定义为n维笛卡儿积的子集:

R:C1×C2×…×Cn。

(4)函数(Functions):表示一类特殊的关系,即由前n-1个要素来唯一决定第n个要素。

(5)实例(Instances):表示属于某个概念类的具体实体。

1.3 构建本体的步骤

构建领域本体的目标就是要将一个或多个特定领域的概念和术语规范化,为其在该领域或领域之间的应用提供便利。面向不同的学科领域、不同的应用需求,本体构建的方法不同。比较成熟的本体构建方法有IDEF-5法、Skeletal Methodology骨架法、TOVE企业建模法、METHONTOLOGY方法、Cyclic Acquisition Process循环获取法、软件工程法等。文本以“数据结构”为例结合上述本体构建方法来构建领域本体[2,3]。

构建本体的一般步骤:

(1)列出研究对象所涉及到的概念(concepts);

(2)按照概念的固有属性和专属特征进行归纳和修改,对概念建立类(class)以及层级化的分类模型(taxonomy);

(3)加入关系(relation)连接concepts;

(4)按照需要添加实例(instance)作为概念的具象。

2“数据结构”领域本体的构建

通过分析“数据结构”的知识结构,并结合本体的五个基本的建模元语,得到该领域本体五元组表示:

其中,O表示领域本体,C表示本体的概念集合,P表示本体的属性集合,R表示C上的关系集合,I表示本体的实例集合,X表示实例集与概念集的映射关系集合。

本体的属性集合P,描述概念自身的属性,称为数据类型属性(Datatype Property)。

本体的关系集合R,描述概念与概念之间的关系,称为对象类型属性(Object Property),关系集合R中除了本体中基本的关系如part-of、kind-of、instance-of、attribute-of关系之外[4],还可根据具体的情况定义相应的关系(如上位关系,下位关系,兄弟关系等)。

“数据结构”领域本体主要由“数据结构”课程中的概念,概念间的关系及计算机可以识别的形式化描述语言组成。构建该领域本体的目标就是要形成对于“数据结构”知识组织结构的共同理解和认识,为进一步建立智能学习系统奠定基础。

2.1 列出研究对象所涉及到的概念(concepts),即确定本体概念集C

分析“数据结构”知识内容[5],按照教学步骤,将知识对象进行划分,并进行抽象归纳,形成的核心概念集C为:

C={集合,线性结构,树形结构,图状结构,查找表,内部排序,外部排序,文件,基本概念,基本操作}

考虑到这些核心概念需要具体的习题资源来练习,因此增加了练习题核心概念。这些核心概念基本覆盖整个“数据结构”课程的全部知识。

2.2 对概念建立类(Class)以及层级化的分类模型,即建立概念层次结构关系

(1)对已确立的核心概念进行分析整理并进一步扩展,建立整个本体概念模型。

本体概念模型体现的是概念与概念之间的父子结构关系。这个过程是一个自顶向下的过程,根据已确立的上层父类概念,逐步细化形成下一级子类[6,7,8]。

把数据结构知识体系、练习题作为领域本体的顶级概念,数据结构知识体系向下有基本概念、基本操作、数据结构三个核心概念。每一个核心概念又有其子概念,进一步扩展为下一级概念,如:

C(数据结构)={集合,线性结构,树形结构,图状结构}

C(树形结构)={树,森林}

C(基本操作)={遍历操作,转换操作,构造操作,…}

……

以此建立的概念层次结构是以树型结构呈现,具有一条明确的主线。概念之间形成的等级层次结构如图1所示。

(2)确定概念的属性P

概念的等级层次结构是本体的骨架,其血肉要通过概念的属性来充实。本文将“数据结构”领域本体中概念的属性分为数据类型属性(Data Property)和对象类型属性(Object Property)。这里所说的属性P主要是指数据类型属性。

如数据结构的知识点可以从中文名称、英文名称、难易程度、掌握程度、考试概率、上位知识、下位知识、兄弟知识、关联练习题等方面描述进行描述,因此数据结构知识体系概念的属性P为:

P(数据结构知识体系)={中文名称,英文名称,难以程度,掌握程度,考试概率,上位知识,下位知识,兄弟知识,关联练习题}

练习题可以从以下六个方面来刻画:

P(练习题)={编号,题目,答案,练习题类型,练习题难度,关联知识点}

充分利用类属性继承性特性,子概念共有的属性在父概念中定义,子概念继承父概念中的所有属性,再定义自己的特有属性。

2.3 加入关系(relation)连接concepts,即确定概念间的关系R

领域本体除了上面建立的类的父子关系外,还要添加符合学习步骤和学习规律的其他关系,将两个概念之间的关系称为对象属性(Object Property)。

如在学习二叉树这一概念时,主要学习二叉树的概念及各种操作。因此需要有概念和操作将二叉树和对应的概念和操作联系起来。

又如按照学习规律,在学习二叉树之前我们应先学习树的一些知识,因此树是二叉树的前驱知识、二叉树是树的后继知识。需要用前驱知识、后继知识将二叉树和树关联起来。

前驱知识和后继知识互为逆关系。

在“数据结构”领域本体中,部分对象属性(Object Properties)如表1所示。

2.4 按照需要添加实例(instance)作为概念的具象

实例是概念的具体实体,具有概念所有属性,在添加实例前,要确定该实例的两种属性,即数据类型属性和对象属性,以练习题为例,为其添加实例,其所有属性及属性值如图2所示:

3 领域本体形式化编码及开发工具

本体形式化编码阶段就是选择合适的本体描述语言来描述知识本体,现有的形式化本体描述语言很多,主要有RDF和RDFS、OIL、DAML、OWL、KIF、SHOE等。本文选用的是OWL(Web Ontology Language)来对领域本体进行描述[9]。

目前本体的开发工具主要有Ontolingua、Ontosaurus、Web Onto、Onto Edit、Protégé等。本文选择Protégé4.1作为本研究的本体开发工具,Protégé是由斯坦福大学的Stanford Medical Information开发的一个开放源码的本体编辑器[10]。

由于篇幅有限,关于OWL及Protégé的内容这里不做具体介绍。

4 结束语

本体是一种用来描述概念以及概念之间关系的模型。将本体应用于领域本体的建设,可以表示复杂的知识层次结构。更便于知识的共享,重用及推理。下一步的工作将继续完善“数据结构”领域本体。

摘要:网络教育是国内外教育发展的新方向,资源共享是提高网络教育质量、降低教育成本的有效途径。但由于没有统一的教育知识表示方法,学习资源在各学习系统间难以实现共享。该文以“数据结构”为例说明构建领域知识本体的一般步骤,获取课程知识内容,采用标准的OWL本体描述语言对其进行定义和描述并形成领域本体。

关键词:本体,知识表示,领域本体,网络教育

参考文献

[1]谢娟.教学领域本体构建研究——以“C++程序设计”课程为例[D].济宁:曲阜师范大学,2010.

[2]PEREZ A G,BENJAMINS V R.Overview of knowledge sharing and reuse components:ontologics and problem-solving methods[C].Stock holm:Swtdem,1999:1-15.

[3]A Guide to Creating Your First Ontology[EB/OL].2011-10-25.http://protege.stanford.edu/publications/ontology_development/ontolo gy101.pdf

[4]Gruber T R.Towards Principle for the Design of Ontologies Used for Knowledge Sharing[J].International Journal of Human ComputerStudies.1995,43:907-928.

[5]严蔚敏,吴伟民.数据结构(c语言版)[M].北京:清华大学出版社,2009.

[6]潘颖,欧启忠,肖耿毅.面向语义的课程知识本体的构建[J].电话教育研究,2007,2:19-21.

[7]杜小勇,马文峰.学科领域知识本体构建方法研究[J].图书情报工作,2005,8(49):74-78.

[8]Boyce S.&Pahl C.Developing Domain Ontologies for Course Content[J].Educational Technology&Society,2007,10(3):275-288.

[9]董坚峰,胡凤.基于OWL本体的知识表示研究[J].情报理论与实践,2010,9(33):89-92.

领域本体构建方法 篇5

本文采用OWL这种W3C推荐的标准本体描述语言, 用OWL语言描述的本体能作为人和机器之间、不同机器之间交换数据和语义的良好工具, 是语义网中信息共享和交换的基础。一个OWL文档由四个部分的内容组成:

(1) 本体头。包含了文档的元数据, 如导入信息、版本信息以及与其他OWL文档的兼容信息。

(2) 类的定义。包括了类的定义信息和子类关系的信息。通过 标签定义类, 使用来继承一个或多个类, 由此建立类的层次关系。类的语义用类的描述来表达。OWL区分了六种类的描述:一个类标识 (一个URI) , 一个详细的列举, 一个属性限定, 两个或多个类描述的交, 两个或多个类描述的并, 一个类描述的补。

(3) 属性的定义。owl存在两种类型的属性, 即对象属性 (ObjectProperty) 本体和数据类型属性 (DatatypeProperty) 。对象属性是用来表述两个类实例之间的关系, 而数据类型属性则描述类的实例、 RDF literals, 以及XMLSchelna数据类型之间的关系。属性之间还能够定义子属性关系以及为属性声明额外的特征 (传递属性和逆属性) 。如能够定义father是parent的子属性, 定义ancestor为传递属性, 定义child为parent的逆属性。

(4) 个体 (实例) 的定义。一个个体是一个特定类的实例, 并与其属性相联系。

2 面向关系数据库构建领域本体

2.1 构建过程

我们首先给出面向关系数据库构建领域本体的具体过程, 分为以下五个步骤:

(1) 抽取表定义和表数据:从大量的关系数据库中抽取所有表的定义和数据, 包括表的主键、外键、属性、数据类型和约束。

(2) 关系识别:依据表定义对关系和约束等进行识别。

(3) 映射成本体:依据我们制定的映射规则形成本体。

(4) 实例化:将关系数据库中表的数据实例化到本体中。

(5) 本体提炼:由于具体应用领域和应用任务的需要, 会涉及到一些专业的知识领域和用户查询的需要, 根据具体要求, 进一步提炼本体。

下图显示了我们构建领域本体的过程:

这一过程的关键是关系模式到本体转换中映射规则的制定, 我们在下小节详细分析。

2.2 映射规则

我们知道关系模式是对关系的描述, 是对数据以及数据完整性约束的定义, 对数据的定义包括对关系、属性、域的定义和说明。一个关系数据库是一个关系模型的执行结果, 关系模型包含指定的表格、范围、列、数据类型、约束和其他语义, 这些信息和本体元素间存在着重要的对应关系, 是我们建立本体的重要机遇。为此我们针对关系数据据库中的关系类型提出一系列的映射规则, 这些规则将实现把关系模式映射成本体结构。

2.2.1 映射基本关系

基本关系不依赖于关系数据库模式中的任何其它关系, 它的属性中不存在外键。

规则1:关系模式的关系名映射到一个owl:Class。

规则2:关系模式的各个属性的域映射到一个XSD:xsdDataType。

规则3:关系模式的各个属性映射到一个owl:DatatypeProperty, 并对owl:DatatypeProperty的rdfs:range和rdfs:domain取值约束进行表示。

2.2.2 映射依赖关系

依赖关系是指关系模式的主键仅由一个外键组成, 且这个外键和另一个关系模式的主键相同。这类关系模式除了要遵守基本关系模式定义的转换规则外, 还要表示实体之间的rdfs:subClas-sOf关系, 因此制定如下相应的转换规则:

规则4:将此关系模式的关系名转换得到的owl:Class定义为另一个owl:Class的子类。父类是此关系模式的外键所对应的关系模式转换得来的。

2.2.3 映射复合关系

这种关系模式的主键由两个外键组成, 且这两个外键分别和另外两个关系模式的主键相同, 且此关系模式除了主键不包括其它的属性。由于这种关系模式只表示了实体之间的多对多关系, 不存在自己的属性, 因此不能对应一个owl:Class, 这里只需创建实体之间的关系, 其转换规则如下:

规则5:创建两个owl:ObjectProperty来表示两个关系之间的多对多关系, 用owl:inverserOf定义这两个owl:ObjectProperty互逆, 定义owl:ObjectProperty的rdfs:domain和rdfs:range。

另外还有其他的复合关系, 主要分为以下几种情况:

(1) 关系模式的属性中包括外键, 且外键的个数大于等于3。

(2) 关系模式的主键仅由两个外键组成, 且这两个外键分别和另两个关系模式的主键相同, 且此关系模式中除了主键还包括其它的属性。

(3) 关系模式中存在一个外键, 但外键不作为主键的组成部分。

(4) 关系模式中存在一个外键, 关系模式的主键由这个外键和关系模式本身的属性组成

以上几种关系模式都要应用第 (1) 类关系模式中定义的转换规则, 将关系名转换成一个owl:Class。除此之外因为存在外键表示关系模式之间存在着关系, 因此要应用规则5创建这两个关系模式之间的关系。

2.2.4 补充规则

在owl描述的本体中还有一套基数限制, 用来表达性质的一对一、一对多、多对多的关系。我们建立如下的规则把关系数据库模式中属性的取值约束和实体之间的关系转换成owl中的基数限制:

规则6:如果关系模式的属性 (除外键) 取值不可为空, 则此属性转换得到的

owl:Datatype-Property的基数限制

owl:Cardinality取值为“1”。

规则7:如果关系模式中的属性 (除外键) 取值可为空, 则此属性转换的得到的owl:DatatypeProperty的基数限制

owl:maxCardinality取值为“1”。

规则8:如果关系模式中的外键取值不为空, 则针对此外键创建的

owl:ObjectProperty基数限制minCardinality取值为“1”。

规则9:如果关系模式中外键取值可为空, 则针对此外键创建的owl:ObjectProperty的基数限制owl:minCardinality取值为“0”。

2.3 数据移植

在应用中过程中需要把关系数据库数据转换成本体的实例, 应用关系数据库模式到本体的转换规则, 把关系数据库模式映射到本体后, 就可以在本体的基础上把关系数据库数据转换成本体的实例。这一步的转换是直接的, 主要是用关系数据库里的数据为本体实例的性质赋值。这个过程主要用到以下三个规则:

规则1:把关系数据库的一个元组创建为本体的一个实例, 并为这个实例分配一个唯一的标志符, 这里我们用关系模式的名称和这个元组的主键值作为实例的标志符。

规则2:把关系数据库元组的属性值 (除外键) 转换成本体实例相应owl:DatatypeProperty的值。

规则3:根据关系数据库元组的外键创建本体实例之间的关系。把元组中外键的值映射到一个本体实例, 用这个本体实例作为由外键生成的owl:ObjectProperty的值。

实例化后就可以生成一个基于OWL语言的本体, 在模型的语义表达上更清晰和规范, 而且这种表达不仅能被人理解, 也能被计算机准确地理解并处理。

3 实验分析

3.1 装备保障领域本体构建

为了验证本文提出的本体建立过程的实用性, 从已有的装备保障系统中, 抽取一个MySql关系数据库存储的一个专家信息的关系数据库, 以此作为输入, 经过一系列的处理, 最终生成可用的领域本体作为输出。

第一步:提取已有数据库的关系模式, 并分析关系模式间的关系。装备保障专家库中几个表的关系模式如下所示:

专家:专家号, 人员类别, 姓名, 性别, 年龄, 技术级别, 所在单位, 所在单位名称, 相关装备;

教员:教员号, 姓名, 性别, 年龄, 技术级别, 所在单位, 所在单位名称, 现从事专业, 现从事专业类别;

技工:技工号, 姓名, 性别, 技术级别, 所在单位, 所在单位名称, 现从事专业, 现从事专业类别;

装备:装备代码, 装备名称, 装备型号, 出厂时间, 寿命, 已装备时间, 维修单位, 相关专家。

第二步:生成初步本体。根据映射规则的约定, 生成初步本体如下:

经过处理后输出Expert.owl本体如下:

第三步:本体精炼。把生成的Expert.owl文件导入Protégé本体编辑工具, 根据领域知识和用户查询的需要, 加入装备和配套设备等信息, 进一步对本体进行完善, 并添加了类实例等信息, 生成最终装备保障本体如图所示:

3.2 本体的持久化

本体建立以后, 需要考虑如何存储, 目前主要有基于内存、基于文件系统、基于关系数据库和专门的管理工具四类存储方法。其中关系数据库存储方法, 效率高、易管理、便于查找。我们使用Jena将装备保障领域本体存入MySQL中的ZhuangBei数据库。部分代码如下:

执行程序之后, 本体存入数据库, 如图3所示。

其中表jena_g1t1_stmt存储了领域本体的数据信息, 表jena_sys_stmt存储了领域本体的元数据信息

4 结束语

本文介绍了一种面向关系数据库构建领域本体的方法, 它分析关系数据库中关系信息和表数据, 抽取语义信息, 在此基础上结合用户查询和领域知识, 构建领域本体。下一步可在构建的装备领域本体的基础上, 利用Jena等语义网开发工具, 设计和实现基于本体的装备保障领域信息查询系统, 以完成现有的异构数据库集成, 实现基于语义的信息查询。

摘要:将本体技术引入到军事装备管理信息化系统中, 介绍本体理论相关知识, 深入分析面向关系数据库构建领域本体的过程, 结合军事装备管理信息化系统应用背景, 提出一种面向关系数据库构建领域本体的方法, 并实现了一个实例。

领域本体构建方法 篇6

万物皆有因果,社会危机都是由各种各样的社会事件造成的。一般来说如果能够对造成社会危机的各种成因进行有效分析,在社会危机未发生或者存在发生苗头的时候就进行合理处置和干预,则能够将社会危机限制在最初阶段,防止造成更大的不良后果。

全国各地具体情况不同,社会危机的类型不同,引起社会危机的原因也不尽相同。但是通过对大量社会危机成因的研究对比,我们发现社会危机的发生有其特有的“共性”原因:我国正处于社会转型和经济转轨时期,社会整体结构、资源结构、区域结构、组织结构都发生着重大转变。在经济社会大转型、大发展、大变革时期,社会贫富差距不断扩大,人民群众维护个人权益意识不断增强,人们的思想意识和价值观念日趋多元化、复杂化,社会矛盾尖锐化发展趋势。一旦人民群众的利益和权利受到侵犯,就可能通过集体集会、上访等行动维护“自身权益”,而如果政府相关部门或者领导干部应对能力不足,不倾听群众呼声,不关心群众疾苦,工作不作为,就会“小事拖大,大事拖炸”,使小矛盾酿成大矛盾。一些事件中还会出现不法分子唆使不明真相群众,故意将事件搞大、搞乱、搞砸,而达到他们不可告人的目的。具体来说社会危机的诱发因素有以下几种:收入分配不公、政策失误、干群矛盾积累、不依法行政、政府不作为、群众法制观念淡薄等。

建立社会危机成因本体,可以发挥本体在信息组织归纳方面的优势,对各种社会危机发生的原因进行系统梳理和分析,研究探索各种成因之间的内在关系和外在表现形式,构建社会危机成因本体模型,达到切断社会危机发生的源头,防患于未然的目的。

1 本体及其构建方法

本体最早是哲学上的概念,主要是指对世间万物本质属性的认识。本体包含了概念、属性和关系,有概念域、关联关系域和属性域,这几个部分相互结合,形成某一领域区别于其他领域的主要特征。关于本体的构建原则,最有影响的是Gruber(Toward Principles for the Design of Ontologies Used forKnowledge Sharing)在1995年提出的5条规则,即:清晰(Clarity);一致(Coherence);可扩展性(Extendibility);编码偏好程度最小(Minimal encoding bias);本体约定最小(Minimal onto-logical commitment)。

构建社会危机领域成因体系本体模型,我们主要参考本体构建的七步法,先即确定本体的专业领域和范畴,考查复用现有本体的可能性,列出本体中的重要术语,定义类(Class)和类的等级体系(Hierarehy),定义类的属性:内在属性、外在属性、与其他类的关系,定义属性的分面及创建实例。

2 构建社会危机领域风险评估本体模型

2.1 重要术语、概念

(1)社会危机:主要指社会发展过程中面临的一系列影响社会稳定的因素,也包括因此而导致的各类社会危机事件。

(2)社会稳定:主要是指当前社会安定、国泰民安的状态,社会稳定是社会和谐发展的基础,当前在社会经济高速发展的阶段,稳定压倒一切,发展是硬道理,稳定是硬任务。

(3)内部管理:主要是国家党政机构、企业事业单位在内部管理中采用的手段和方式,容易成为社会危机诱因的主要有单位招工、学历学籍、收费管理、辞退开除等人事问题管理等。

(4)安全事故:主要是指企业事业单位在业务活动(包括与业务活动有关的活动)中突然发生的,伤害人身安全和健康的意外事件,或者各种突发性灾难事故等,包括交通那个事故、消防事故、医疗事故等。

(5)工资待遇:主要指国家机关和企业、事业单位在人事管理中为本单位职工发放的各种货币型工资或福利,在本文中主要体现为工资待遇不及时发放或者不按国家有关法律法规执行,故意拖欠或克扣职工工资。

(6)征地拆迁:主要指国家出于公共利益的需要,按照法定程序强制征用群众集体所有的土地,并对地上建筑进行拆除。征地拆迁后根据补偿标准一次性给予被征地者(包括土地所有权人、使用权人以及土地承包经营权的发包人、承包人、转包人等)一定的货币补偿,有的还必须按照要求进行必要的其他安置。

(7)涉众型经济犯罪:是经济犯罪的一种,表现形式有:以合作养殖、种植、等为名目的集体经营,以投资展位、铺位、公寓式酒店经营权等为名目的“购后返租”,以促销为名的“消费返利”,以专卖、代理为名进行的传销,以即将上市、可获得成倍收益为名的非法销售“原始股”等等。一般涉及人员较多,一旦处理不力则会引起大量人员聚集上访等。

(8)涉法涉诉:主要是指当事人对刑事执法、行政执法等权力部门在案件或问题处理上不满,认为受到了不法侵害或不公平的待遇,从而引发上访告状的案件。

2.2 概念属性间的关系

(1)part-of:表达的是概念间的整体和部分的关系,如风险评估的基本出发点为风险评估指导思想的一个部分。

(2)instance-of:表达的是概念与实例之间的关系,相当于对象和类之间的关系。

(3)kind-of:表达的是概念之间的上下位关系,类似于父与子的关系,如重大事项的合理性评估是评估内容的一种,各级各类大众媒体是监督主体的一种等。

2.3 用 protégé 本体构建工具实现社会危机成因本体构建

首先,我们构建社会危机按成因本体的二级类目体系。

在类目体系的设计上,充分发挥protégé便于扩展、网状拓扑的优势,不仅仅局限于绝对的上下位类目结构,适当增加辅助类,在保证群体性时间成因本体概念体系严谨的基础上,更注重概念间、概念与属性间关系的展示,使模型的设计更加一目了然,便于指导实践。下面是细化后的部分类目体系图:

在对成因本体进行三级类目划分的基础上,我们还可以添加相关实例如下:

2.4 查看 xml 语言

构建了社会危机的本体模型之后,我们来查看xml语言,以便校验本体构建中概念与概念之间、概念与属性之间、属性与属性之间的关联关系。社会危机本体部分xml语言如下所示:

因为xml语言体例完整,形成的篇幅较长,我们文中只选取了部分的xml语言,属性中只选择了instance of作为举例展示,在分类中只是选择了main body等个别实体进行xml语言描述,并选择了部分的概念间关系语言表述。通过xml语言我们可以清晰看到社会危机成因体系概念间的分类及关系,便于校验本体生成的准确性。Xml提供的可修改特性也使得我们可以对生成的本体进行适时的增删和调整。

2.5 添加属性和实例,用 protégé 实现可视化展示

用xml语言校验了本体概念间、属性间的各种关联、互斥关系之后,我们对所构建的本体模型进行调整,并添加实例,调用protégé中的Onto Graf,实现本体模型的可视化展示,其部分可视化截图如下:

在Onto Graf的可视化中,我们可以标注概念与概念、属性与属性和概念与属性之间的关系,其中的实线、虚线、箭头是上述我们在xml语言中显示的各种关系、属性的展现,为了视图需要,我们不再一一标注,可参照上述xml语言。

3 结语

领域本体构建方法 篇7

本体 (ontology) [1]起源于哲学, 自20世纪80年代末90年代初被人工智能界引用至今。本体可以简单划分为通用本体和领域本体[2]。领域本体能够捕获相应领域概念、构建知识体系, 最后给出能够被认可的领域知识规律和特性[3], 而领域本体的出现为机器智能及知识服务奠定了重要基础。

在地质领域, 美国航天局提供的通用地球与环境本体SWEET[4] (semantic web for earth and environmental terminology) 是规范地球科学概念空间的重要本体, 也是本体技术在地理学的应用。英国地质调查局发布了OWL (ontology web language) 格式的地质领域概念描述, 并且在不断完善。

针对石油地质领域, Dickson M.Liadey研究石油生产相关的本体建造方法[5]。邓小亚提出基于多层次业务流程的石油勘探和开发领域本体库的构建方法[6]。杜睿山等利用叙词表将本体引入石油开发领域成功解决了该领域术语不统一、信息不共享的问题[7]。张茜茜等利用Protégé软件初步建立石油化工领域的本体框架模型来表示和组织石油化工领域知识[8]。

对于页岩气的领域本体尚无相关研究, 且目前构建本体的主要问题是概念关系表达过于单一, 虽然主题词表包含较全面的领域概念, 但同时仍存在许多主题词表无法描述的领域知识和语义关系, 因此单纯依赖叙词表或单一领域知识进行本体构建是远远不够的, 需整合各类资源并依据领域专家的指导, 进行完善的概念分类和语义关系定义, 从而构建真正有价值的领域本体。

2 页岩气领域本体的构建方法

自动构建本体是基于自然语言分析和机器学习方法抽取文档中的概念和关系, 是当前的研究热点和难点。而纯手工编辑本体大量耗时耗力, 除此之外, 目前可行的方案是复用已有的简单本体 (如主题词表) , 使用半自动的方法, 将可复用资源转化为本体。因此, 在遵循本体设计基本标准[9]的基础上, 采用基于扩展主题词表的页岩气领域本体的构建方法, 既能有效保留主题词表中的精华概念关系又能弥补叙词表的不足。

2.1 页岩气领域可复用资源

根据《石油主题词表》、《页岩气知识读本》、《非常规油气地质》、《地质汉语叙词表2010》、《中国石油探勘开发百科全书》、《石油地质学》等书进行页岩气领域本体的设计与构建, 以下就部分可复用资源进行简单介绍。

《石油主题词表》反映了石油地质领域的相关语义概念, 语义关系包括“用、代、分、属、参”, 共包含叙词15 349条, 非叙词1 590条, 共计16 939条, 参考了《汉语主题词表》、《石油工业汉语主题词表》、《PA叙词表》等重要资源, 是石油地质实现信息存储和检索必不可少的工具[10]。

《页岩气知识读本》首先对页岩气勘探开发中常用名词术语进行了规范性定义;并结合中国页岩气勘探开发实践, 分析了国内外页岩气生成富集理论研究进展和勘探开发技术现状;介绍了页岩气资源评价方法, 对中美页岩气资源评价方法进行了对比, 根据页岩气理论研究和勘探开发工作需要, 系统介绍了页岩气实验测试技术、页岩气地球化学勘查技术、页岩气地球物理勘查技术、页岩气钻井完井技术和页岩气压裂技术;简要分析了页岩气勘探开发可能产生的环境影响[11]。

其他可复用资源就不一一赘述, 但这些资源均是页岩气领域本体构建的重要参考。

2.2 页岩气领域本体构建方法

如图1所示采用自顶向下[12]的构建方法, 根据《地质汉语叙词表2010》搭建地学领域本体框架, 然后参照《石油主题词表》搭建石油地质领域本体框架, 再以页岩气为研究范畴, 根据《页岩气知识读本》及《非常规油气地质》进行页岩气属性关系的丰富, 再根据《中国石油勘探开发百科全书》《石油地质学》等进行页岩气实例的设计添加, 使用开源工具Protégé进行本体的构建与编辑。最后再由领域专家进行概念、属性关系及实例的增删归并, 优化领域本体。

3 页岩气领域本体的详细设计及实现

本体模型能够很好地表示和组织要刻画的术语和概念[13]。而在主题词表概念关系的基础上, 修改完善概念的属性、关系能够不断完善本体, 在页岩气本体设计过程中在面向知识的层面上关注了领域中概念、概念属性及概念间关系的分析研究。

3.1 概念及属性关系设计

根据前面所述参照资料及构建流程[14], 页岩气领域本体的构建设计模型如图2所示。其中灰色部分表示地学本体下的页岩气的形成框架, 即首先搭建地学本体框架, 然后丰富其中的石油地质框架, 再对石油地质中的石油天然气一般概念进行构建, 最后将其细化为常规天然气和非常规天然气, 最后对非常规天然气下的页岩气进行详细设计与实现。

针对图2中的深色部分, 即页岩气本体的具体分类, 其中每一类又涉及更多的概念, 可继续向下划分, 具体如下。

页岩气内涵:页岩储层特征、页岩气成因、页岩气类型。如图3。

页岩气地球化学勘查技术:井中 (罐顶气轻烃录井) 、地表 (微生物测量、放射性测量、水化学测量) 。如图4。

页岩气资源评价方法:动态法 (数值模拟法、物质平衡法、递减法) 、静态法 (成因法、类比法、统计法) 。如图5。

页岩气钻井完井技术:国外典型旋转导向钻井工具、页岩气井的完井方式、页岩气钻井完井技术差距、页岩气钻井完井相关技术。如图6。

页岩气基本分类:油页岩、炭质页岩、黑色页岩、硅质页岩、镁质页岩、钙质页岩和页岩。

页岩气实验测试技术:页岩气实验技术分类:含气量测定、岩石力学性质分析、岩石学分析、岩石物性分析、有机地球化学分析。

页岩气地球物理勘探技术:地震 (二维地震、三维地震、四维地震、岩石物理等) 、常规测井 (中子测井、声波测井、密度测井等) 、成像测井 (井壁成像、井边成像、井间成像) 、非地震 (电法、磁法、重力) 。

页岩气压裂技术:国外水平井分段压裂主体技术、影响页岩气储层改造效果的地质因素、影响页岩气储层改造的关键技术。

页岩气勘探开发进展:我国页岩气发展历程、我国页岩气实验测试技术存在问题。页岩气勘探开发环境影响:底面干扰、增加温室气体开发、影响人群及生态健康、水资源威胁、液压液使用的潜在污染风险、环境污染风险。

页岩气形成与分布:含气性、孔渗特征与微裂隙、有效页岩厚度、有机质丰度、有机质成熟度、有机质类型、矿物组成。

页岩气开发关键技术:储层评价技术、地质综合评价技术、实验分析技术、微地震监测技术、核心区评价技术、水平井钻井技术、测井评价技术、经济评价技术、资源评价技术、页岩储层压裂技术。

页岩气勘探潜力:中国页岩气资源潜力、全球页岩气资源潜力、页岩气勘探开发现状。

3.2 实例设计

为概念添加实例也是描述知识丰富本体的一个重要环节, 实例继承了概念的属性[15]。石油地质领域部分主要的实例是中国主要油气区、中国含油气盆地、烃源层、油气层、油气田、石油机构、人物、书籍等。页岩气部分丰富的实例主要是一些更加具体的盆地。如图7所示的沃斯堡盆地、阿巴拉契亚盆地等。

3.3 可视化构建

确定了领域的概念层级, 定义好概念的性质和关系后, 可以利用Protégé4.1编辑工具建造本体。

Protégé4.1的基本功能有添加、编辑、删除概念, 添加、编辑、删除属性, 添加、编辑、删除实例。图8~图10即在Protégé为概念添加定义、属性、实例及解释。

除此之外, Protégé4.1提供了支持中文的可视化工具Onto Graf, 如图11所示, 以页岩气钻井完井技术和页岩气资源评价方法为例:页岩气钻井完井技术是一种“Thing”;页岩气钻井完井技术是一种页岩气的具体描述, “相关于”水平钻井、完井、钻井泥浆、钻井证实的资源量等;页岩气资源评价方法是一种“Thing”;页岩气资源评价方法也是一种页岩气的具体描述;页岩气资源评价方法“分类为”动态法和静态法;动态法和静态法又具体分为更加细化的方法。

4 页岩气领域本体构建结果

4.1 轻量级页岩气领域本体构建完成

成功构建了轻量级的页岩气质领域本体, 包含概念3 785个, 概念和概念之间的关系达1 995个, 关系包括上下位词、相关词、等价词、英文词、族首词、正式词及属性定义等, 概念的实例共78个, 具体为中国主要的盆地和油气区等。详见表1。

图12~图14为页岩气领域本体可视化后的构建结果展示。

4.2 分析与讨论

构建的页岩气领域本体根据地质学科概念的特性, 在主题词表基础上增加了属性关系定义及实例部分。当然, 由于研究尚处于起步阶段, 文中构建的本体也存在一定问题, 仍有改进的空间。

(1) 仍存在一些不明确的概念分类, 还需更多的领域专家给出可靠分析;

(2) 属性和相关关系定义不全, 构建过程中发现仍存在无法精确描述的术语概念, 还需进一步细化以保障本体的严谨性。

5 总结与展望

5.1 总结

本文构建的页岩气领域本体主要实现了:

(1) 概念上整合了《石油主题词表》、《页岩气知识读本》、《非常规油气地质》、《中国石油勘探开发百科全书》等资源;

(2) 属性关系上改进了主题词表单一的“用代分属参”的简单模型, 增加了方法、定义释等关系;

(3) 丰富了页岩气领域的相关实例。

综上所述, 在概念、属性关系及实例的丰富使得页岩气领域知识表达更清晰, 定义更完整、结构更科学。能够提供给用户清晰的领域知识脉络, 有效提高专业人员的研究学习效率, 也能使初学者快速了解学科概况。因此, 使得页岩气领域知识重用成为了可能。

5.2 展望

领域本体构建方法 篇8

本体是共享概念模型的明确的规范说明[1]。领域本体是用于描述指定领域知识的一种专门本体,它将与特定领域相关的概念以及概念间的关系以形式化的说明进行了严格的规范,明确描述了概念的含义以及概念间语义的关系。民航突发事件领域本体是以民航突发事件应急救援计划、民航应急管理相关规定、民航突发事件应急救援预案,民航突发事件历史案例为基础,通过概念以及概念间关系的形式化描述,明确了领域中概念及概念间的语义关系。之前开展的基于领域本体的语义检索方法[2]是基于概念间的分类关系实现的,虽然有效解决了传统的基于关键词查询方法所存在的语义偏差和语义歧义等问题,但在查全率和查准率方面依然存在不足。非分类关系是指除分类关系以外的所有其他关系,是概念间语义关系的重要组成部分,影响着语义查询扩展的效率。因此,本文面向领域本体对基于非分类关系的语义相关度计算方法展开了研究。

目前,针对本体非分类关系的语义相关度计算方法的研究主要集中在数据属性[3,4,5,6]方面,在对象属性方面的研究[7,8]还比较少。本文结合民航突发事件应急救援的特殊性,通过深入分析已构建的民航突发事件领域本体[9,10]的特征,提出一种面向领域本体非分类关系的语义相关度计算方法。该方法不仅提高了语义查询的准确率和查全率,同时也为民航突发事件的应急决策与救援提供了辅助作用。

1 语义相关度

1.1 语义相关度定义

在本体领域,语义相关度是指概念间语义相互关联程度[11]。语义相关的两个概念可能不存在相似关系,但它们可以通过某些其他关系相关联形成相关关系。语义相似度是语义相关度的特例,通常情况下,相似概念一般是相关的,但相关概念却不一定相似。

本文依据语义相关度的一般定义和已构建的民航突发事件领域本体的特点,给出了以下基于民航突发事件领域本体的语义相关度的定义:

语义相关度是指本体中概念在非分类关系上的相关程度,记概念ci、cj之间的相关度为Sim(ci,cj),它需满足以下条件:

(1)相关度的值是区间[0,1]内的一个实数,即;

(2)如果两个概念完全相似,则相关度值为1,即Sim(ci,cj)=1(当且仅当ci=cj);

(3)如果两个概念之间不存在任何连通路径,则相关度值为0,即Sim(ci,cj)=0;

(4)概念之间的相关度是对称的,即Sim(ci,cj)=Sim(cj,ci)。

1.2 语义相关度计算方法

在民航突发事件领域本体中,非分类关系分为数据属性关系和对象属性关系。本文通过对数据属性和对象属性语义相关度的研究,提出了一种基于非分类关系的语义相关度计算方法,并将其应用于领域本体中事故案例的语义查询扩展中,其实现模型如图1所示。

图1中:

相关定义:负责语义相关度、数据属性权重和对象属性权重的定义。

相关度计算:实现查询词与本体概念、实例基于非分类关系的语义相关度计算。

相关度应用:将该基于非分类关系的语义相关度计算方法应用于民航突发事件领域本体中的事故案例语义查询扩展中。

2 领域本体数据属性的语义相关度计算

2.1 数据属性的权重

当民航突发事件发生时,救援指挥中心根据获取的各种事故信息和救援信息制定相应的救援方案并通知各救援部门实施及时、有效的救援。在突发事件的应急决策与救援中,突发事件案例对实现事故的及时、有效救援起到了重要的借鉴和指导作用。已构建的民航突发事件领域本体中与突发事件案例相关的数据属性如表1所示,这些数据属性实现了对突发事件案例的特征描述。

由于突发事件案例对事故的应急决策与救援具有重要的借鉴和指导作用,本文依据突发事件案例的各种信息在事故应急决策与救援中起到的重要程度,为上述数据属性分配了一定的权重。数据属性的权重越大,该数据属性越重要,越不可缺失。

对于各属性权重的具体取值,需要结合民航突发事件应急决策与救援的实际需求。由于Event_Level直接决定了应急救援响应等级,因此其权重应最大。Operation_Stage、Weather_Type、Event_Location对事故评估、救援实施具有重要作用,因此要为其分配次大的权重值。Plane_Type、Plane_Task和Event_Time对事故救援起到的辅助作用相比其他属性要弱一些,因此其权重值应较小。本文将上述各数据属性权重值限定在区间[0,1]内,并对其进行归一化处理,最终为各数据属性分配如表2所示的权重值。

2.2 数据属性类型的语义相关度

在本体中,数据属性将本体概念与属性值类型、本体实例与具体属性值相关联,它实现了对本体概念和实例的特征描述,起到了语义标签的作用。

目前,基于数据属性的语义相关度计算方法中最经典且最常被引用的是Tversrvy[3]方法,其公式如下:

其中,f(ci,cj)表示本体概念ci、cj拥有的相同数据属性的数量,f(ci-cj)表示ci拥有但cj没有的数据属性数量,f(cj-ci)表示cj拥有但ci没有的数据属性数量。α是调节因子,它与ci、cj的深度有关,其取值如下:

该方法在语义相关度计算中将比较的两概念视为同等重要,但语义查询扩展是利用目标概念在本体中查询扩展出与其语义相似或相关的其他本体概念,上述方法削弱了目标概念的重要性。同时,该方法使用的是典型的特征匹配方法,忽略了属性值之间的语义相关度问题。因此,本节以目标概念具有的数据属性为基准,对概念在数据属性类型和数据属性值上的语义相关度分别进行了研究。

在数据属性类型方面,两概念拥有的相同属性类型的个数越多,它们越相关;反之,两概念拥有的相同属性类型的个数越少,它们越不相关[12]。以目标概念或实例具有的数据属性为基准,提出了以下基于数据属性类型的语义相关度计算:

其中,ci、cj是任意本体概念或实例,ci作为目标概念或实例,cj作为源概念或实例。cik表示ci的第k个数据属性;cjl表示cj的第l个数据属性。type(cik)表示ci的第k个数据属性的属性类型。Simtype(cik,cjl)表示数据属性cik、cjk基于属性类型的语义相关度。wk是数据属性cik的权重值。n、m分别表示ci、cj拥有的数据属性的个数。

2.3 数据属性值的语义相关度

在民航突发事件领域本体中,数据属性值有三种:有序枚举型属性值、无序枚举型属性值和混合枚举型属性值。数据属性值的类型不同,对属性值的语义相关度计算方法也应不同。因此,根据数据属性值的特点提出了三种基于属性值的语义相关度计算。

1)有序枚举型属性值的语义相关度

有序枚举型属性值是指属性在给定的一个数据集中进行取值,该数据集中的数据存在有序关系,例如Event_Level的取值有1(特别重大)、2(重大)、3(较大)和4(一般)。

对于有序枚举型属性值,属性值相差越大,其语义相关度越小;反之,属性值相差越小,其语义相关度越大。在有序枚举型属性值的语义相关度计算方面,目前最常用的是海明距离法,其计算公式如下:

其中,Pi、Pj表示数据属性,xi、xj是Pi、Pj的数值型属性值。

该方法虽然解决了对有序枚举型属性值的语义相关度计算问题,但是计算结果受取值个数的影响较大。为了增强有序枚举型属性值之差对相关度的影响,进行了以下改进:

其中,ci、cj是任意本体实例,SimValue(cik,cjk)表示ci、cj在第k个数据属性上基于属性值的语义相关度。xk、yk分别表示ci和cj的第k个数据属性的数值型属性值。m是第k个数据属性的取值个数。

2)无序枚举型属性值的语义相关度

无序枚举型属性值是指属性在给定的一个数据集中进行取值,该数据集中的所有数据之间无关联关系,例如数据属性Weather_Type的取值有“适航”、“台风”、“雷暴”、“冰雹”等。

无序枚举型属性值一般都是字符型,因此,对于该属性值的语义相关度计算使用字符匹配法,即:

其中,ci、cj是任意本体实例,SimValue(cik,cjk)表示ci、cj在第k个数据属性上基于无序枚举型属性值的语义相关度。xk、yk分别表示ci和cj的第k个数据属性的属性值。

3)混合枚举型属性值的语义相关度

混合枚举型属性值是指属性在给定的多个数据集中进行取值,这些数据集之间存在分类关系,各数据集内部所有数据之间无关联关系。由于混合枚举型属性值通常是字符型,所以最常使用的方法是字符匹配法。但是该方法忽略了属性值之间的隐性语义关系,在一定程度上影响了语义相关度计算的准确度,因此本文依据该属性值的特点,提出了一种针对混合枚举型属性值的语义相关度计算方法。

对于混合枚举型属性值的语义相关度计算,在计算前先对属性的取值数据集进行有序编号。如数据属性Plane_Task的取值数据集有商用航空数据集和通用航空数据集,商用航空数据集包含“客运”、“货运”、“客货运”,通用航空数据集包含“工业航空”、“农业航空”、“航空科研和探险活动”等。商用航空数据集的序号为1,通用航空数据集的序号为2,Plane_Task的属性值“客运”、“货运”、“飞行训练”间的语义相关度关系为Sim(客运,客运)>Sim(客运,货运)>Sim(客运,飞行训练)。

依据混合枚举型属性值的特点,基于混合枚举型属性值的语义相关度计算如下:

其中,ci、cj是任意本体实例,SimValue(cik,cjk)表示ci、cj在第k个数据属性上基于混合枚举型属性值的语义相关度。Xk、Yk分别表示ci和cj的第k个数据属性的属性值所在数据集的序号,如Plane_Task的属性值“客运”所在数据集的序号为1,“飞行训练”所在数据集的序号为2。m是第k个数据属性的取值数据集的个数。xk、yk分别表示ci和cj的第k个数据属性的属性值。

2.4 基于数据属性的语义相关度计算

通过上述对属性类型的语义相关度和属性值的语义相关度的研究,提出了以下基于数据属性的语义相关度计算:

其中,ci、cj是任意本体概念或实例,ci作为目标概念或实例,cj作为源概念或实例。cik表示ci的第k个数据属性。SimDat(ci,cj)表示ci、cj基于数据属性的语义相关度。SimType(cik,cjl)表示cik、cjl在属性类型上的语义相关度。SimValue(cik,cjl)表示cik、cjl在属性值上的语义相关度。wk是属性cik的权重值。n、m分别是ci、cj拥有的数据属性的个数。

3 领域本体对象属性的语义相关度计算

3.1 对象属性的权重

本体中,对象属性将不同的概念、实例依据语义相关性关联在一起,构成了非分类关系。通常情况下,相似概念一般是相关的,但相关概念却不一定相似。

目前,通过对象属性计算语义相关度的方法主要依赖于概念间的语义距离来实现。许多研究者将基于词语距离的相似度计算方法引入了本体领域,成为了一种常用的基于对象属性的语义相关度计算方法,其计算公式如下:

其中,ci、cj是任意本体概念或实例,length(ci,cj)是ci、cj之间包含对象属性关系边的路径长度。α是调节参数。

后来一些研究者对概念间的对象属性通过关系权重进行了量化,进而产生了利用权重路径计算本体概念基于对象属性的语义相关度的方法,其中最常用的方法为:

其中,ci、cj是任意本体概念或实例,w(ei)是ci、cj之间包含对象属性关系边的路径中第ei条边的权重。

虽然该方法通过对象属性实现了语义相关度的计算,但是它仅考虑了本体概念或实例之间只存在一种对象属性的情况,对于本体概念或实例间拥有多种对象属性的情况并不适用。因此,本文基于民航突发事件领域本体对上述方法进行了改进。

在民航突发事件领域本体中,与突发事件案例相关的对象属性主要有Plan Own、Action Own、Related Cause、Related Effect、Related Experience、Keyfacor。由于突发事件案例对事故的应急决策与救援具有重要的借鉴和指导作用,本文依据突发事件案例的各种信息在事故应急决策与救援中的重要程度,为上述对象属性分配了一定的权重。对象属性的权重越大,该对象属性越重要,越不可缺失。

由于对象属性是将概念、实例进行语义相关联的一种非分类关系,所以对象属性的权重也与分类关系的权重相关。对于各对象属性权重的具体取值,需要结合民航突发事件应急决策与救援的实际需求、专家经验和下文改进的基于对象属性的语义相关度计算方法进行实验验证。实验中,将所有对象属性的权重初值设为0.1且取值范围为[0,1],同时以增值为0.1的方式对权重值进行递增,计算不同权重值下本体概念、实例基于对象属性的语义相关度。实验发现,当对象属性权重小于0.6时,会导致概念间的语义相关度值过小;当对象属性权重大于0.8时,会导致概念间的语义相关度值过大,与实际情况不符。最终,通过对不同对象属性权重下的实验结果的分析和对比,得到如表3所示的各对象属性的权重值。

3.2 基于对象属性的语义相关度计算

设集合R={r1,r2,…,rm}为对象属性非分类关系的集合,其中ri(i=1,2,…,m)是领域本体中已定义的某种对象属性非分类关系。

定义任意本体概念或实例ci和cj在对象属性非分类关系ri上的相关值为:

其中,weight(ri)是对象属性非分类关系ri的权重值。

在领域本体中,由于本体概念或实例之间可能存在多种对象属性非分类关系,因此定义ci和cj在对象属性非分类关系上的关系权重为:

其中,m为集合R中元素的个数。n为ci与cj间存在且不重复的对象属性非分类关系的个数。

将本体中通过对象属性相关联的概念或实例看成是由一条加权的非分类关系边直接相连,则基于式(12)的关系权重计算,ci和cj在对象属性上的语义相关度为:

其中,α、β为调节参数。

4 实现过程与效果分析

4.1 实现过程

通过上述对基于数据属性和对象属性的语义相关度的研究,提出了以下面向领域本体非分类关系的语义相关度计算方法。该方法将数据属性和对象属性的语义相关度进行了结合,其计算方法如下:

其中,ci、cj是任意本体概念或实例,ci作为目标概念或实例,cj作为源概念或实例,Sim(ci,cj)表示ci、cj基于非分类关系的语义相关度。是调节因子,且。

在基于非分类关系的语义相关度计算方法中,通过设定一个阈值λ来限制查询结果集的大小,将领域本体中与目标查询词的语义相关度大于阈值λ的本体概念和实例加入查询结果集中,该方法的具体实现过程如图2所示。

如图2所示,基于民航突发事件领域本体将关键词qk与本体概念、实例相匹配,计算匹配的关键词qk与其他任意本体概念或实例cj在数据属性和对象属性上的语义相关度值。确定调节因子的值,计算出关键词qk与cj基于非分类关系的总相关度值,将总相关度值大于阈值λ的本体概念或实例加入查询结果集Onto Set。

4.2 实现效果与分析

已构建的民航突发事件领域本体主要包含了与民航突发事件相关的应急预案、应急案例、应急救援处置方法等领域概念和实例,并对它们之间的各种语义关系进行了描述。图3是已构建的民航突发事件领域本体的一部分。

图3中,椭圆表示本体概念或实例,矩形表示属性值,实线空箭头表示Kind Of分类关系,实线实箭头表示Instance Of分类关系,虚线空箭头表示数据属性非分类关系,虚线实箭头表示对象属性非分类关系,边上的权值是该关系边对应的关系权重。

对于参数α、β的取值,依据已构建的民航突发事件领域本体和基于对象属性的相关度计算方法,首先进行了多组相关实验。实验中将α、β的初值都设为0.5,并以增值为0.5的方式对α、β的值进行递增,计算不同的α、β值下本体概念、实例基于对象属性的语义相关度。通过对所有相关度计算结果的分析和对比,最终确定α值为0.5、β值为1时,结果最符合实际情况。

为了验证本文提出的方法的有效性,将传统的基于数据属性的相关度计算方法Tversky方法[3]和P.W方法[13]作为对比方法,展开了以下实验。

实验中,将数据属性和对象属性视为同等重要,因此参数1、2的取值分别为0.5、0.5。对于阈值λ的取值,需要考虑实际情况。如果λ值过大,会导致查询结果集过小,影响语义查询的查全率。如果λ值过小,会将许多与查询词的语义相关度较小的本体概念和实例加入查询结果集中,影响语义查询的查准率。本文结合实际情况及需求,将阈值λ的取值设为0.38。基于已构建的民航突发事件领域本体,以“AF358号航班事故案例”为例,实验结果的部分对比情况如表4所示。

由于民航突发事件领域本体中,数据属性是根据概念或实例所具有的特征进行定义的,因此同类概念、实例的数据属性相关,不同类概念、实例的数据属性完全不相关。同时,由于领域本体中对象属性主要存在于不同类的概念、实例之间,因此通过对象属性相关联的概念或实例在数据属性上的相关性非常小,所以上述实验结果普遍偏小。

为验证方法的有效性,共做了10组查询对比实验。对得到的实验结果,使用信息检索最常用的两个基本评价指标—查全率Recall和查准率Precision进行评测。用N表示领域本体中所有相关概念和实例总数,A表示检索出的概念和实例总数,NC表示检索出的所有相关概念和实例总数,相关计算公式如下:

将本文提出的语义相关度计算方法与对比方法的查全率Recall和查准率Precision进行了对比,对比结果如表5所示。

实验结果表明,Tversky方法通过将查询词与本体概念、实例的数据属性值进行字符匹配来计算它们间的语义相关度。该方法不仅忽略了属性值间的语义关系,同时也忽略了查询词与本体概念、实例间的对象属性,因此查全率和查准率都较低。P.W方法基于多路径长度计算查询词与本体概念、实例间的语义相关度,该方法忽略了它们在数据属性上的语义相关问题,因此查全率和查准率也较低。本文提出的方法在数据属性方面,既考虑了查询词与本体概念、实例在属性类型上的语义相关性,又考虑了它们在属性值上的语义相关性;在对象属性方面,其解决了查询词与本体概念或实例存在多种对象属性非分类关系时的语义相关度问题,在一定程度上提高了语义查询的查全率和查准率。

5 结语

上一篇:农用车制动器下一篇:超高层住宅建筑