本体构建方法

2024-05-17

本体构建方法(通用11篇)

本体构建方法 篇1

地理信息系统 (geographicinformationsystem) 在方位确定、地址查找、路线选择等网络服务和工程甚至日常生活应用中发挥了重要作用。传统的地理信息查询以关键词为入口应用于GIS, 存在无法直接地对地理信息中的语义进行检索和引索;隐藏的语义信息, 语义推理和检索互不相关, 无法相互补充、共同促进;对异构的数据结构法共享和查询等问题。地理空间语义网[1]的主要思想, 就是把语义网上的关键技术应用于地理信息网络中。本文构建地理本体的方法使得应用本体有相同的数据结构, 使得地理本体具有良好的共享性和扩展性。1地理本体的构建

1.1领域本体的构建

构建层次如图1。

1.1.1 地理对象的概念分类及OWL描述

地理信息涵盖了与地表空间相关的广泛实体信息, 地理概念类型非常复杂[2]。具有多样性, 模糊性 (如山脉的界限区分) , 层次性, 粒度性 (如一粒沙子和一座城市) 等。面对错综复杂的地理概念, 要对地理概念进行分类, 首先根据地理概念的构成属性, 将其分为自然地理实体和人文地理实体[3]。

在自然地理实体中, 地理信息科学处理的概念大部分是自然界的实体, 如河流、山峰等。首先要将其概念化, 然后才可能把状态、过程、行为等概念与物理实体联系起来。地理现象是在自然界的实体基础上形成的地理现象, 如:台风, 泥石流等。此外根据国家资源与环境信息系统规范“专业数据分类和数据项目建议总表”, 认为自然资源与能源是自然地理中比较特殊的一类, 包括水资源、矿产资源、海洋资源等。以此可以将自然地理实体进一步划分为自然对象、自然地理现象和资源能源等。

在人文地理实体中, 包括了大量的人工建筑, 同时地学应用也涉及很多的经济社会的空间概念, 如行政区域划分等, 因此可以将人文地理实体分为人工建筑、人文现象、经济社会布局等。

在地理空间概念分类的基础上, 采用OWL对地理本体进行初步的表示。本体概念分类主要采用OWL中的类Class来表达, 并用子类subClassOf来建立概念分类的层次关系。具体的地理本体概念分类的类层次见图2。

用OWL语言部分描述如下:

类NatureGeography定义了“自然地理”, 它是地理概念的基类GeographicObject的直接子类, 从中可以看出, 用disjointWith体现了其与人文地理AuthropoGeography是互不相交的特性。

<owl:Class rdf:about="#NatureGeography">

<owl:disjointWith rdf:resource="#AuthropoGeography"/>

<rdfs:subClassOf>

<owl:Class rdf:about="#GeographicObject"/>

</rdfs:subClassOf>

</owl:Class>

1.1.2 地理对象的几何特征

点是定位所有几何对象的基础, 用类Point表示。定义了两个DatatypeProperty属性 (longitude, latitude) 即 (经度, 纬度) 来表示一个点的坐标, 采用地理坐标参考系, 用经度和纬度定义点在地球的位置。接着定义线Line类, Line类与Point类有关联属性haspoint, 最后定义面类LingRing, 类LineRing (环组成的面) 是Line类的子类, LineRingPoint类也有关联属性haspoint。

图3表示了地理概念间的逻辑关系:

1.1.3 地理对象的空间特征及OWL描述

空间关系是指地理空间实体对象之间的空间相互作用关系, 是空间分析、空间查询与空间推理的基础, 是连接GIS地理空间数据库与分析应用的桥梁。本文将空间关系分为四大类 (图4) : (1) 拓扑空间关系 (用来描述空间实体之间的相邻、包含和相交等空间关系) ; (2) 方位空间关系 (描述空间实体之间在空间上的排列次序, 如实体之间的前后、左右和东、南、西、北等方位关系) ; (3) 度量空间关系 (用于描述空间实体之间的距离等关系) ; (4) 整体部分关系 (如行政区域间的关系) 。

其中, 整体部分关系的OWL描述:

<owl:ObjectProperty rdf:ID="hasSubRegion">

<rdf:type rdf:resource="&owl;TransitiveProperty"/>

<rdfs:domain rdf:resource="#GeographicObject"/>

<rdfs:range rdf:resource="#GeographicObject"/>

<owl:inverseOf rdf:resource="#isSubRegionOf"/>

<rdfs:subPropertyOf rdf:resource="#semanticRelation"/>

</owl:ObjectProperty>

2 领域本体生成本体实例的方法

不同的领域本体的构建有其特有的数据结构。为了将领域本体中的地理数据转换成易于推理和检索的本体实例, 本文将异构的领域本体生成相同结构的用OWL语言描述的本体实例。具体步骤如下:

(1) 创建一个新的OWL文档;

(2) 取一个地理实体;

(3) 创建一个地理实体的实例;

(4) 从实例中取出一个属性;

(5) 判断这个属性是否是几何属性;

(6) 是几何属性, 则创建这个几何属性对应的实例;

(7) 是非几何属性, 则创建这个非几何属性对应的实例;

(8) 判断是否是空间属性;

(9) 是空间属性, 则创建这个空间属性对应的实例;

(10) 是非空间属性, 则创建这个非空间属性对应的实例;

(11) 判断是否有新属性;

(12) 有新属性, 则转到步骤 (3) ;

(13) 输出OWL文档。

一个本体实例可以表示一个地理实体, 在地理信息检索时, 可以将初始查询转换为对地理实体空间属性和非空间属性的查询, 使得查询更加高效。同时, 由此算法生成的本体实例具有相同的数据结构, 提高了不同的领域本体间的查询的共享性和扩展性。

3 结束语

本文构建的地理本体不仅具有优良的层次性, 还具备以下优点: (1) 通过对地理实体进行语义分析的基础上建立参照本体和应用本体, 为地理本体实例建立了统一的数据结构描述; (2) 通过算法将异构的多数据源的地理信息转换成地理本体实例, 提高了不同的领域本体间的查询的共享性和扩展性。

参考文献

[1]Egenhofer M.Toward the semantic geospatial Web.Proc of thel0th ACMInternational Symposium on Advances in GeographicInformation Systems, McLean, Virginia, USA.NY:ACMPress.2002

[2]Bittner T, Stell J G.Vagueness and rough location.Geoinformatica, 2002; (6) :99—121

[3]景东升, 毕思文.地理空间概念体系及其语义本体表达初探.两岸四地地理信息系统发展研讨会.2004

本体构建方法 篇2

道德教育方法的本体探讨

道德教育方法是道德教育的内在因素,方法的选择和应用直接影响道德教育的效果.通过对道德教育方法本体的`探讨,弄清道德教育方法的涵义、分类和功能,会更加明确道德教育方法对道德教育的重要意义.

作 者:杨华 YANG Hua 作者单位:北方交通大学,北京,100044刊 名:山西高等学校社会科学学报英文刊名:SOCIAL SCIENCES JOURNAL OF COLLEGES OF SHANXI年,卷(期):13(11)分类号:B82关键词:道德教育 道德教育方法 道德教育目标

药学本体构建实践 篇3

关键词:本体;领域知识;本体构建

中图分类号:TP311

文献标识码:A

文章编号:1009-3044(2007)12-20000-00

Practice of Pharmaceutical Ontology

WANG Mei-wen

(Library of Zhejiang Pharmaceutical College,Ningbo 315100,China)Abstract:Pharmaceutical ontology construct is signality. Firstly, the software and principle for ontology constructing are introduced. Then,follwing the construct method of‘seven steps’, every step to construct pharmaceutical ontology is described particularly. The process includes: requirement analysis, re-use possibility of existing ontology, to structural analyse for pharmaceutical domain knowledge, to acquire the core concepts and to design the class,property and instance of pharmaceutical ontology. The pharmaceutial ontology has applied in the Chinese meta search engine search result automatic classification system.The ontology can evolve with use process of this system.

Key words:ontology; domain knowledge; ontology construction

1 引言

在信息管理領域,越来越多的研究热点集中在对信息的理解、基于语义的整理和开发上。本体作为一种机器可理解的、形式规范的、可共享的领域知识表现方法,是实现语义网的关键技术。事实上本体的应用在智能检索、语义标注、自动分类等方面已有很多的实验项目,但是对于具体领域本体的构建实践并不多。而大量高质量的本体的构建,是本体技术获得良好应用效果的基础和前提。

本文对药学领域的本体构建进行了实践,并将它应用在了中文元搜索引擎检索结果的自动分类中。

2 本体构建工具

2.1 本体的形式化编码本体实质上是领域知识的形式化表达,因此需要一种形式化的描述语言,利用机器可读的形式对本体进行编码,使计算机可以存储、访问或修改本体,并将本体嵌入到各应用系统中,或在不同的系统之间进行互操作。目前有许多本体描述语言,如许多本体描述语言,如RDF(S)、OIL、DAML、OWL等。本文的药学本体采用的是RDF(S)本体描述语言[1]。

本体需要描述领域内的概念集及概念之间的关系,在RDF(S)中,用类(Class)描述概念(术语),属性(Property)描述概念间的关系。具体描述方式如以下例子:

rdfs:label="中枢神经兴奋药">

rdfs:comment="通常为药典名"

fs:label="中文正式名">

2.2 本体的形式构建

直接用RDF等本体描述语言编辑本体工作量非常大,而且概念与概念之间的关系不直观,所以在构建本体时一般会使用一种界面友好的可视化本体开发工具来辅助构建本体。

protégé[2]是由斯坦福大学医学院的医学信息研究小组(Stanford Medical Information research group)开发出来的本体和知识库编辑器,它有一个交互式的图形化开发环境,支持各种标准的存储格式,比较容易学习使用,提供大量的插件,基于这些优点,protégé成为最受欢迎的本体构建工具,本文的药学本体也采用它作为本体的开发平台。

图1

protégé编辑界面

3.1 已有的构建方法

选择一条合适的本体构建的方法路线对于保证本体的构建质量是至关重要的。由于各自的学科领域和具体工程的不同特点,构建本体的过程各不相同,目前尚没有一套经权威标准化机构认可的本体构建方法。从一般方法

论角度出发,1995年由Gruber提出的本体构建5条原则得到公认:明确性和客观性、完整性、一致性、最大单向可扩展性、最少约束从本体的概念和作用我们可以看出,共享和重用是其本质特征,因此相比于一般的软件,本体的建设更应该遵循工程化生产的路线。采用标准化的表达方式和规范化的工作步骤。事实上,已有的本体构建方法中都体现了工程化的思路。常用的本体构建方法有:企业建模法(Tove)、骨架法(Skeletal Methodology)、METHONTOLOGY 法、七步法等。

3.2 药学本体构建方法

综合分析已有的本体构建思路后,结合药学领域知识结构特征,本文的药学本体较多地借鉴了斯坦福大学医学院开发的七步法[3]。基本思路是:

第一步,确定本体的专业领域和使用需求。

第二步,考虑复用现有本体的可能性。

第三步,列出本体中的重要术语。

第四步,定义类(class)和类的等级体系(Hierarchy)。

第五步,定义类的属性(solts)。

第六步,定义属性的分面,如取值的类型(valueType)容许的取值(Allowed Values)等。

第七步,定义类的实例(Instances)。

以上七步并不是严格的循序渐进的次序,而是互有交织循环完善的过程。在这个过程中需要领域专家和IT技术人员的协作配合。领域专家需要领会本体描述领域知识的规则,并按此规则对知识进行重新整合。IT技术人员则需要将领域专家的知识描述转化为本体表现形式,并用本体描述语言进行形式化,进而嵌入到应用系统中发挥作用。

笔者在图书馆有多年的药学文献标引和参考咨询经验,具备了一定的药学领域知识,同时对本体方法较熟悉,因此在药学本体的构建中担当了主要角色。为了保证质量,在构建过程中,笔者还请教了相关的专家,请他们对药学本体的知识组织体系及一些概语(术语)的解释进行了指导。

4 药学本体构建过程

4.1需求分析

(1)药学本体领域范畴

本文构建的本体定位在药学领域,属于医药卫生领域的一个分支,是一个以药品为研究对象的学科。根据药品的来源分类,可分为中药(天然药物)、化学药品和生物制品,由于时间和人力的限制,笔者选择了化学药品为主要描述对象,将重点放在化学药品领域知识结构的组织与搭建,并选择其中几种具体药品(如阿司匹林、尼莫地平)进行详细描述。

(2)药学本体的应用目的

本文构建的药学本体将作为对中文元搜索引擎查询结果进行自动分类的分类知识库。因此,在构建本体时不仅要考虑药学领域自身的知识特征,而且要考虑到应用的场所特征。构建本体进所采用的概念、术语是由领域专家结合相关的学术文献抽取出来的,体现了从领域学者的角度来描述药学专业知识。而使用本体的人是元搜索引擎的使用者,他们不仅包括此领域的学者,还包括并不熟悉的此领域知识的人。因此本文的药学本体也提供了从这些非专业人土的角度来描述药学领域知识。

基于这个使用目的,笔者在提取领域概念时采用了两种资料来源,一种是药学专业期刊及工具书,另一种是分布于web上的相关网页内容。

4.2 复用现有药学本体的可能性分析

据笔者所知,现有的医药学领域的本体有很多,比较著名的有①美国的Unified Medical Language System Metathesaurus ( 联合医学语言系统元词表)。②英国曼彻斯特大学的Open Galen 项目。③基因本体联盟(GOC)开发的Gene ontology。这些本体都以英语为描述语言,侧重于医学的角度,并不适合本文分类系统的需要。当然,这些本体对医药学方面知识组织的思路为我们分析药学的领域知识提供了借鉴。

中国图书分类法[4]中的类目(概念)是表达文献内容学科知识领域的概念,而且分类法具有完备的类目组织系统,通过等级结构、逻辑关系显示文献主题概念(类目)之间的从属、并列、交替、相关等各种关系,在分类语言系统之中建立起语义联系。主题词表[5]中的主题词是表达文献主题的词和词组的集合,是经过规范化处理的,具有专指性、准确性、明确性和唯一性的术语集合。它还具有完备的参照系统通過主题词下设置“用、代、属、分、参”等多种参照项,以表示概念之间的等同关系、等级关系和相关关系。从某种程度上讲,主题词表与分类法都是相关领域概念和概念关系的集合,其基本功能和本体具有一致性,因此在药学领域本体构建时参考了《中国图书分类法(第4版 )》中的药学(R9)部分的体系结构,以及《分类主题词表》中的术语表达。

4.3 药学领域知识的结构化分析。

药学是个庞杂的学科,在参考了相关工具书[6,7,8,9,10]及分类法、主题词表的基础上,笔者认为:从知识工程的角度出发,药学领域最重要最核心的概念是药品,围绕每个药品,可以从药学各分支学科角度描述其药理学、药效学、药物制剂、药物分析、药物鉴定、药物不良反应、用法用量、贮藏、药事管理、商品学等方面的知识。

除了单个药品的各个分面知识外,药学领域还有一类是经过总结和提炼的某类药物的综合知识,例如“片剂制剂通则”、“抗生素药物相互作用”等。为了描述这些知识,我们为每个药品分设了按不同角度区分的抽象类,如卞卡青霉素注射液的上位类为抗生素(按药理作用分)、片剂(按剂型分),那些不属于单个药品知识的综合知识就可以在这些药品的相应上位类进行描述。

图2

药学本体结构图

4.4 药学核心概念集的获取

笔者从以下几个方面收集了药学领域的相关概念、术语及关键词:

(1)采用《中国药典》2005版(二部)中收录的化学药品名称,每种药品的概念包括中文正式名、英文名、化学名称、商品名称。

(2)以《中图分类主题词表》的体系结构为主要依据,参照相关工具书抽取出描述药学知识的学科分支,如药物治疗学、药理学、药物分析、临床用药注意事项等,并将这些分支学科进一步细化,如将临床用药注意事项细化为更小的概念,包括不宜使用者、安全剂量、患者类型、服药时间、禁忌病史、配伍禁忌等。

(3)药学领域的知识在不断地创新发展着,其相对活跃的一部分知识,就是药学专业论文。为了使药学本体能涵盖这些新的知识,笔者对《中国药学文摘》2004、2005年的年度主题索引进行了分析、整理,提取出新的概念或已有概念的不同表述,添加到本体中。

(4)从网页中抽取相关概念。虽然网页中出现首创的药学新知识的可能性比较小,但是网页中描述的药学知识通常表现了非专业人士对药学知识的表述方式,从中可以抽取出对于某一药学概念的“自然语言版”。如果将某一概念的正式术语称为主题词的话,那么其它表达这个概念的词都称为关键词,将这些关键词加入到本体中,是此药学本体能够对网页进行有效分类的重要手段。

4.5 定义类和类的层次结构

4.5.1 确定药品分类体系

药学本体的核心概念是各个药品,各个药品从不同的角度可以归为不同的类别体系,如按药理作用不同,可以分为:抗微生物药物、抗寄生虫药物,主要作用于中枢神经系统的药物……,上述各类可进行下一级细分,如抗微生物药物可分为抗生素、磺胺类、抗真菌药等等。药品的集合还可以按剂型分类:液体及半液体剂型、固体及半固体剂型、控制释放剂型等,又可往下一级细分:如液体及液体剂型可分为水剂、注射剂、糖浆剂、合剂等,设立各药品的类别概念主要是为了描述属于这个类的共性知识的概念,如抗生素的药物相互作用、糖浆剂制剂技术等。

4.5.2确定药学的各分支学科概念

药学各分支学科包括药理学、药物分析、药物化学、药物鉴定、药事管理、药物相互作用、药物不良反应等,这些分支学科可以看作是一个个元本体,各元本体中需要定义其相应的概念类、属性及实例。在本文的药学本体中,将各分支学科设立为与药品平级的类,类名设计为分支学科名后加“模板”作为其特征,如“药物不良反应模板”,并在下一步工作中根据分支学科的特点进一步定义其属性及实例。

4.2.3 与药品概念类平等的通用概念的提取

对于人、机构、疾病、设备等这些概念将与药品概念类及分支学科类产生经常的关联,例如患者(人的一种)将与的药物使用人,不宜使用者、药物代谢时间等诸多概念发生联系。为了提高表达的效率,将这些通用概念提取出来,作为药品概念类和学科分支类的平行概念。

4.6 定义类的属性及属性的侧面

概念之间关系的表示方法有两种:一种是设立特定的关系类,另一种是用属性来定义概念间的相互关系,在药学本体中,我们主要采取了第二种方法。

(1)药品概念类属性的定义,我们发现与单个药品概念类相关联的知识均可从药学分支学科的角度进行表达,即每个药品均有药理学知识、药物鉴定知识、药物不良反应知识等,所以药学分支学科类(如药物不良反应模板)可以作为药品类概念的属性,这样我们就在可以在这些属性下定义单个药品 各个侧面的知识,如阿司匹林的药物不良反应方面的知识。

把类定义为属性的方法是把属性的类型(type)定义成该类实例(instance),如我们为药品阿司匹林添加属性“药物不良反应”,并将其类型(type)定义为“instance of 药物不良反应模板”。

本文的药学本体为每个药品概念类设置了19个属性,分别为:中文正式名、化学名称、化学药品别名、商品名、英文名、制剂与规格、制备方法、物理性质、用法用量、用药注意事项、药事管理、药品商品学、药品贮存、药效、药物不良反应、药物代谢动力学、药物分析、药物历史、药物相互作用。

继承关系是整个本体体系中最重要的关系之一,子类将继承父类的所有属性,也可以拥有父类不具有的独特的属性。定义属性时我们同时需要为它定义约束条件:属性值(value type), 集的势(cardinality)、 属性所在的类(domain).

(2)药学分支学科类的属性定义根据各学科特点分别设计,如为“药物不良反应模板”设置了“不良反应症状”和“不良反应种类”2个属性。

图3

化学药品的属性定义

4.7 定义类的实例

定义类的实例就是为类的各个属性添加属性值。实例添加后,一条条知识单元完整了。本体对于领域知识的表达方式就是以类→属性→实例的形式来表达的。例如,我们为阿司匹林的“药物不反应”属性的“不良反应症状”子属性添加实例“呕吐”,就可表达一条完整的知识单元:“阿司匹林不良反应症状为呕吐”。实例所依据的领域知识单元从领域专家、工具书及学术论文处获取。

5 结语

药学本体的建设对于药学领域数字信息资源的深层次开发利用有重要作用。本文构建的药学本体旨在利用本体的思想和方法组织和整合药学领域知识,并用规范的形式化语言描述。本文的药学本体已应用在基于本体的中文元搜索引擎查询结坚果自动分类系统中,并通过系统的运行,实现了本体的进化。[11]由于时间和人力的限制,药学本体构建并不完善,更侧重于对药学知识的整体表现方式的探索,实例的添加较少。希望本文的工作能为语义Web、数字图书馆相关的领域本體构建研究提供有价值的参考,并期待更多专家的检验和评价。

参考文献:

[1]Lassila O., Swick R. Resource description framework (RDF) http://www.w3.org/TR/REC-rdf-syntax.,. w3c Recommendation 10 February 2004.

[2]protege3.2 beta, http://propege.stanford.edu,2006.09.

[3]Natalga F. Noy and Deborah L. Mc Guinness .Ontology Development 101: A Guide to Creatiy your First Ontology,2001-8 http://protege. stanford.edu/publications/ontology/development:/ontology101.pdf

[4]中国图书馆分类法编辑委员会.中国图书馆分类法(第4版)[M]. 北京图书馆出版社,1999.

[5]中国图书馆分类法编委会.中国分类主题词表[M].华艺出版社,1994.

[6]国家药典编委会.中华人民共和国药(2005版第二部)[M],化工出版社,2005.

[7]刘锡钧.实用药物指南[M].人民军医出版社,2000.

[8]陈新谦,金有豫,汤光.新编药物学(第15版)[M],人民卫生出版社,2003.

[9]国家执业药师手册编委会.国家执业药师手册[M].中国人事出版社,2002.

[10]中华人民共和国药典编委会.临床用药须知[M].化工出版社,2001.

林产品本体的构建方法研究 篇4

如何构建林产品领域本体是解决林产品领域内语义异构的研究课题。也是面向林产品商务信息Web信息整合需要解决的核心问题。林产品本体的构建也有助于解决相关知识领域内的推理等问题。

1 林产品本体的应用背景分析

国内林产品商务信息数据的质量是业内用户非常关心的问题[4]。作为信息的栽体, 用本体描述相关数据是解决该问题的方法之一。用本体对林产品以及相关信息进行形式化说明, 首先使纷繁复杂的林产品的名称得以规范、避免“二义性”的发生, 提高数据的质量, 从而提高用户获得林业相关产品、服务、技术等信息的效率;其次可通过本体本身所具有的语义知识关系, 挖掘出和林产品与其相关的生产企业中最具有价值的林产品商业信息;最后, 对可对提供林产品相关服务、技术的企事业单位之间的相关知识进行关联。通过本体对数据进行描述以及对知识进行关联, 提高用户获得林业相关产品、服务、技术等信息的效率, 图1是基于本体的Web信息服务系统的框架, 可以看出本体在其中的作用, 其主要表现在4个方面, 即 (1) 规范、并且形式化领域知识; (2) 明确领域知识逻辑结构和业务流程; (3) 在计算机之间共享对于形式化信息的理解; (4) 进行领域信息的知识推理。

该系统按照本体的领域知识结构, 进行知识挖掘、关联。从而展现知识结构化。围绕这个目的所建立基于本体的林产品商务Web信息整合系统具有语义存取结构和知识推理功能, 在实现这个系统之前需要对林产品以及相关商务信息做清晰的语义、概念化的形式描述, 构建相关领域知识整合系统需要以领域本体为基础。

2 林产品领域本体核心概念集的建立

2.1 林产品领域本体、概念本体和属性本体的定义

在引进本体概念构建林产品领域本体进行Web信息整合的工作中将林产品领域本体分为两个层次。

描述概念, 对林产品领域的相关概念进行精确化和形式化;建立属性关系, 刻画概念本体之间关系属的属性本体。

对林产品本体进行形式定义

定义1:undefined

林产品本体是一个六元组[4]。其中, C表示林产品本体中所涉及概念的集合;P表示所有关系的集合;A表示所有属性集合;Hc表示所有概念之间的层次联系, 其中, Hc (C1, C2) 表示C2和C1是上下位的关系, Prop (p) = (C1, C2) 表示C1和C2概念之间存在P联系;函数att:A→C将概念与相关解释对应起来。在林产品领域引进了本体的概念, 能够通过概念集的明确、关系集的确立、属性刻画和约束, 更好地描述林产品领域的数据这一概念。

2.2 林产品领域本体构建步骤

在构建林产品领域本体时, 采用了自顶向下迭代的构建方法。

迭代渐进的原则:首先, 根据应用需求的需要设计一个最小的核心本体;然后由用户需求不断地提出, 逐步地修正定义林产品概念并完善他的属性刻画。在本体评价的过程中发现核心本体存在的问题并加以改进, 从而形成以用户为中心且达到应用需求较完善的本体。

自上而下的方法:采用骨架法设计本体, 首先需要领域专家给出林产品领域内的顶层概念, 其次, 在根据定义好的骨架本体的范围, 从林产品领域内相关专业词典中抽取关键词, 同时为概念的分面 (facet) 进行分面分析。最后, 在细化概念的各种语义关系的过程中分层进行构建各层子类, 得到本体的概念集合。在对本体输出形式化描述可采用本体构建软件工具完成。

2.2.1 林产品概念的获取

相关领域本体的构建首先要获得林产品本体的重要概念、关键概念;其次确定上位概念、较为显著的概念和常用概念, 以建立核心概念集[5,6]最后在此基础上进行扩展。领域概念的获取要以应用为中心同时坚持用户保障原则、文献保障原则。领域专家给出的骨架本体也为概念的进一步获取圈定了范围[7], 概念获取的途径有2个:专业词典:从《中国林业产业与林产品年鉴》《国民经济行业》和《全国主要产品分类与代码》等中抽取林产品相关部分概念;关键词记录:抽取提供林产品商务服务相关Web页面的关键词, 保留频次大于2的词[8]。

该研究主要从Web信息整合系统需求为基础对林产品及相关商务信息进行语义分析并确立了本体间的属性关系。对专业词典Web数据库提供信息经过语义分析, 得到了林产品顶层类下18个相关概念作为该本体的一级核心概念[9]。木材生产、人造板、制浆造纸、木制品制造、竹、藤生产与加工、木本粮食与油料生产、水果生产、林木种苗生产、林产化学加工、森林蔬菜、饮料、饲料、花卉、驯化野生动物及其产品加工、药材生产、森林旅游、森林狩猎、林业机械制造、林业产业国际合作、林业投资。

2.2.2 概念层次的确定

对林产品领域本体的概念层次确定是从林产品领域的基本概念出发, 逐步细化进而逐层确定各层子类的概念。

在林产品本体中, 根据当前我国林产品生产及企业或个人对林产品的供应、需求等情况, 进行类的确定及划分。以我国林产品分类为例, 既要考虑到所建的类要全面覆盖整个林业生产领域内的概念, 也要考虑对普通互联网用户对林产品的认知程度。以此为前提参考了《林产品年鉴》《国民经济行业》等诸多国家级权威分类法和“苗木网”“阿里巴巴”等业内用户经常使用的电子商务网站。在对我国林业行业产品进行分类、再分类的过程中要注意同层的类与类之间要相互独立, 互不交叉。

在该研究中, 根据业务分析和领域专家确定, 将顶层类确定为“社会实体”类、“林产品”类、“市场信息”类和“地理位置”类。然后分别在顶层类下面建立相应的子类。如一个林业相关的产品可能是企业提供的技术或生产的实体产品, 或者政府、事业单位提供的与林产品相关的服务和技术等。所以又可将顶层概念林产品的子概念可分为“实体产品”“技术产品”“服务”子类。

如上所述, 社会实体的顶层类构建思路与林产品本体构建相似。对建立好的社会实体类再建立各自的子类, 然后逐步细化。

2.2.3 概念语义关系的确立

概念间的语义关系是领域本体的重要组成部分, 也是进行内容挖掘和语义推理的基础。其中包括同义关系、上下位关系、实例关系、包含关系这样的等级关系, 以及表示概念, 需要专家确定的非等级关系。由定义1可知林产品领域本体形式化定义中的P是领域本体概念和概念间的关系集合。在林产品领域本体中顶层类的语义关系可向下层分支类进行映射。

(1) 同义关系:

由于领域专家和业内用户或用户间描述产品的角度各有差异, 对同一概念的林产品可能有不同的表述。如人们提到板材的“材质”和板材的“材料”都是描述相同的产品属性。因此确认概念的语义关系可以扩大林产品领域本体的外延。

(2) 上下位关系:

一般指的是领域本体中上层本体与子本体之间的关系, 属于本体概念的层次关系。由定义1可知, 其中Hc⊆C×C表达了概念之间的层次联系。就具体实例而言, 人造板类是实体产品类的子本体, 它们之间是继承关系。这两个本体之间是直接的父子关系。上下位关系也可以定义为间接的语义关系。

(3) 包含关系:

指的是一个本体是另外一个本体的属性, 由定义1可知, 其中Hc (C1, C2) 表达了C1是C2的子概念这样的包含关系。

2.2.4 添加概念属性

类的概念层次结构主要用于描述领域知识的框架, 在确定了类的概念和类的概念层次结构后, 还必须描述概念间的内在结构来丰富领域知识, 即类的属性。类的属性也可从顶层类向下层分支类进行映射, 因此属性应该被定义在拥有该属性的最大的类上。类的属性包括对象属性和数据属性。

以面向林产品市场关注人群同时基于Web数据库的林产品商务信息知识需求类型进行属性设置为例。对目前互联网用户中对林产品商务信息关注较多的信息进行分类后, 将市场信息分为“供应信息”“求购信息”“市场行情”“价格信息” 4种类型知识, 因此在林产品本体顶层类“市场信息”中设置了这4个相关属性。同时为使得市场信息本体的属性覆盖面广、针对性强, 需要从用户需求角度考虑与上述4类知识的延伸属性。使之能够满足不同用户对市场信息不同类型的需求[10]。

2.2.5 属性约束分析

属性的约束条件和属性可以继承于父类, 也可以重新为子类添加新的属性约束。一般情况下属性约束分析只能通过领域专家进行确定。以原木本体为例。

2.2.6 添加实例

在由类的层次结构、语义关系、属性等条件构成的林产品领域知识体系框架中描述领域概念中的个体就可以逐步建立起林产品领域的本体模型了。其中包括类添加实例, 设置相应的属性并加以约束等。以原木本体添加实例为例, 在“林产品”—“原木”—“杨木”的层次结构中确定“林产品”为起始, 而“杨木”为最低粒度水平。至于类的起始和实例的最低粒度水平是由应用范围确定的。

2.2.7 本体的确认评价与进化

本体开发的确认与评价采用迭代增量的构建方法。构建好了核心本体原型后, 参照现有的本体评价准则, 其中包括明确性、清晰性、一致性、可扩展性、约束最小等方面。再由领域专家对本体进行评价和确认以达到应用的目的。

领域知识很多且存在交叉, 同时领域知识层出不穷。因此构建完成的核心本体原型是构建的结束也是该本体进化的开始。在修正与完善本体的方式有多种, 其中包括集成新本体、机器学习、内容挖掘等多种方法。当然本体的进化主要以相关领域内用户的需求为驱动的。

3 林产品本体OWL形式化表示与可视关联图

Web Ontology Language (OWL) 是W3C为语义网应用定义得本体语言。它是结合了DAML+OIL 应用经验而改进的修订版, 建立在RDF 基础上, 以XML 为书写工具。除了能表达概念间的语义关系外, 还用于计算机与计算机之间的交流, 相比较于XML、RDF和RDFS拥有更多的机制来表达语义[11]。OWL可以通过本体建模可视化工具Protégé[12]及其相关的插件来构建林产品本体。林产品领域本体的部分源代码见图4。

构建的林产品产品核心本体原型, 包含了林业企业、事业单位以及其相关实体产品和技术的实例。利用Protégé中的TGVizTab插件, 可以显示构建的林产品本体层次效果 (见图5) 。

4 结论

针对基于Web的林产品商务信息整合过程中, 由于分布、异构而造成的知识表达、知识共享等困难。采用本体的形式化定义方法, 提出了构建林产品本体的六元组逻辑结构。并采用自顶向下迭代的方法对该领域的概念进行描述。根据应用需求, 确定了该领域概念间的语义关系、属性及约束等工作。进而建立了林产品的本体原型。该原型有利于消除语义冲突, 为知识推理和内容挖掘等应用提供语义框架基础。

参考文献

[1]Ushold M.Knowledge levelmodeling:concep ts and termin-ology[J].Knowledge Engineering Review, 1998, 13 (1) :25-29.

[2]陈刚, 陆汝钤, 金芝.基于领域知识重用的虚拟领域本体构造[J].软件科学, 2003, 14 (3) :10-13.

[3]PerezA G, Benjamins V R.Overview of Knowledge Sharingand Reuse Components:Ontologies and Problem Solving-Methods[C]//BenjaminsV R, Chandrasekaran B, GomezPerez A, et al.Proceedings of the IJCA I-99Workshop onOntologies and Problem-Solving.Methods (KRR5) .Stock-holm:Sweden, 1999:1-15.

[4]蒋维, 郝文宁, 橱晓恕.军事训练领域核心本体的构建[J].计算机工程, 2008 (5) :191-192.

[5]张钢, 倪旭东.从知识分类到知识地图:一个面向组织现实的分析[J].自然辩证法通讯, 2005 (1) :59-60.

[6]苏新宁, 任皓, 吴春玉, 等.组织的知识管理[M].北京:国防工业出版社, 2004, 42 (3) :103-126.

[7]李景.本体理论在文献检索系统中的应用研究[M].北京:北京图书馆出版社, 2005.

[8]张云涛, 龚玲, 王永成.面向自然语言提问的检索技术[J].广西师范大学学报:自然科学版, 2003, 21 (1) :629.

[9]陈强, 廖开际, 奚建清.专家知识地图的关键技术与设计[J].计算机工程与科学, 2008, 30 (2) :96-114.

[10]郑业鲁, 李泽, 何绮云, 等.农业生产技术和市场信息本体构建及其初步应用[J].农业网络信息, 2009 (8) :47-49.

[11]高文, 张小栓, 傅泽田.基于OWL的鱼病诊断本体模型[J].计算机工程与设计, 2007, 28 (19) :4470-4471.

本体构建方法 篇5

[关键词]领域本体;本体构建;结构化方法;原型化方法

[中图分类号]TP311

[文献标识码]A

(文章编号)1008—0821(2012)08—0037—04

目前流行的领域本体构建方法有:英国Edinbunrgh大学AI应用研究所的Enterprise项目组开发的“骨架法”,该方法使用middle—out开发方式提供与商业和企业有关的术语及其定义的集合;加拿大Toronto大学企业集成实验室开发了TOVE项目本体,通过该本体来建立指定知识的逻辑模型;Bernaras等人开发的欧洲Eaprit KACTUS项目中由应用来控制本体的开发,每个应用都有相应的知识本体,这些本体即能复用其他的本体,又能集成到项目以后的本体应用中;西班牙Madrid理工大学AI实验室开发的,Methontology法构建知识级本体;美国Southern California大学信息科学研究所开发的Sensus法,主要通过自然语言处理,提取和合并不同电子知识源的信息而得到该领域本体的内容。

本文借鉴了上述传统领域本体构建方法中的基本思想,并在构建框架中融合了软件工程开发方法中的结构化开发方法和原型化开发方法。

1 传统领域本体构建方法分析

1.1 共同点分析

纵观上述“骨架法”、“评估法”、“Bernaras”、“Methonotology”及“Sensus”方法构建领域本体过程中的思路,它们之间存在以下共同点:

(1)许多本体构建方法都以一个具体任务为起点,这样易于知识的获取和本体功能的描述。

(2)本体构建大致可划分为阶段法(如骨架法)和演化法(如Methontology法)。

(3)在构建过程中可分为“非形式化描述本体”和用正规描述语言“形式化描述本体”前后两个阶段。

(4)希望通过累积的方法构建本体,即先构建一个基础本体,然后做进一步开发。

(5)对于由同一个基础本体构建出的领域本体,由于高层概念的共享,本体系统之间具有互操作能力。

1.2 缺陷分析

IEEE 1074—1995标准是软件开发生命周期过程的标准,其中包括模型阶段、项目管理阶段、软件开发阶段与集成阶段4个开发阶段,其中软件开发阶段的具体步骤如下:

(1)开发前期:主要进行可行性研究等活动;

(2)开发阶段:主要进行需求分析、设计和实现等活动;

(3)开发后期:主要进行软件的安装、试运行、操作和维护等活动。

与IEEE 1074—1995标准对比而言,目前领域本体构建还远远没有成为一种工程性活动,还具有如下缺陷:

(1)没有一种方法是完全成熟的,不论是Bemaras法、Sensus法、骨架法、评估法,还是Methontology法。

(2)缺乏工程化的本体通用构造方法和标准。由于每个研发团队处于不同的学科领域,虽然总结出各个领域不同的开发方法和体系结构,但是各个本体开发方法都不尽统一,缺乏通用的标准。

本文在领域本体构建过程中扬弃上述5种领域本体构建方法中的优缺点,而且借鉴了软件工程开发的基本标准。

2 基于软件工程开发的领域本体构建

2.1 构建框架

本文在领域本体框架构建的形式上采用结构化方法中分段式模式,将整个领域本体构建过程分为领域本体规划阶段、领域本体分析阶段、领域本体设计阶段、领域本体实施阶段及领域本体运行阶段,每个阶段都有自己独立的目标及主要任务,前一阶段任务的完成是后一阶段任务开始的前提和基础,后一阶段任务通常是对前一阶段提出的解决问题方法的进一步具体化,即该过程是按照软件工程开发的生命周期流程来逐步解决问题的。在领域本体分析阶段,根据领域本体规划阶段提出的具体要求和目标,采用原型化方法不断地对分析结果进行修改和完善。其构建框架如图1所示。

2.2 构建框架分析

2.2.1 领域本体规划阶段

(1)确定领域本体的用途和范围

确定领域本体范围的方式之一是设计并填写本体的性能调查表,以下从需求的角度对本体支持的性能调查表进行简单的分类:

①需求细化。需求细化过程必须满足何种标准?会产生多余的需求吗?需求是客户的清晰表述吗?

②需求追溯能力。需求还能分解吗?需求的来源是什么?谁记录需求?需求在特定的设计团队中适用吗?

③需求满足。需求能够满足吗?两个或多个需求间相互冲突吗?更高抽象级别的需求怎样满足评估?

④文档生成。需求属于哪类文档?哪些是与需求文档中的段落相符的需求?不属于客户报告的需求有哪些(商业机密)?

⑤升级。这是需求的最新版本吗?需求的旧版本有哪些?为什么还要改变需求?变化对需求文档的一致性和完整性有影响吗?

(2)考虑复用现有领域本体

一些本体已经初具规模,可以在网上找到相应的本体库及相关资料,在具体开发之前,有必要在这些本体中寻找系统可以重用的本体,这样可以省去元本体和顶层本体的建立,而把本体建立的目标重点放在领域本体的建立上。

2.2.2领域本体分析阶段

(1)定义类和类层次

类描述了领域的概念而非单词。在类和类层次的定义过程中,需要依据以下8个原则:

①确保类层次的正确性

恰当使用is—a和kind-of等类间关系,is-a关系指类A是类B的子类,前提是B的每个实例也是A的实例。类的子类表示概念是kind-of父类表示的概念;层次关系间具有传递性,并应区分直接子类和间接子类的关系;避免类层次的循环,确保类层次随着领域发展而进化。

②分析类层次中的兄弟关系

在类层次中,兄弟关系是同一类的直接子类,并在同一抽象级别上。关于直接子类的个数并没有明确规定,但父类一般只有2-12个直接子类,过多或过少不都合适。

③多重继承关系

一个类可以是几个类的子类,则子类的实例是其所有父类的实例,子类将继承所有父类的属性和关系约束。

④引入新类的时机

当类的子类有其父类不具有的新属性,或有已定义的新属性值,或覆盖父类属性的约束,此时可以引入一个新类。新类可以没有任何新的属性,没有必要为了一个额外的限定条件来创建新类。

⑤新类或特性值

如果有不同属性值的概念变成其他类中不同属性的约束,则应该生成新类,以便加以区别;类的单个实例不应经常改变,当使用概念的外在(非固有)属性来区别类时,这些类的实例将需从一个类移动到另一类。

⑥类或实例

判断类结束和单个实例开始依赖于知识表示中最低的粒度级,而粒度级又由本体应用来确定;如果概念已经形成自然的层次,则应表述为类,单个实例是最特殊的概念表述,实例没有层次性。

⑦限定范围

确保不包括类具有的所有特性,仅在本体中表述类最突出的特性,不增添所有类(术语)间全部的关系。

⑧不相关子类

很多系统明确指定某些子类不相交,如果类没有任何共同的实例,则它们不相交。

(2)定义类的属性及其约束

类的属性是描述类和实例的特性,也是类间区分的特性。通常有四种对象特性能变成本体中的属性:

①固有的特性,如圆柱的半径和高度。

②外在的属性,如螺旋的设计者。

③局部,若对象是结构化的,物理和抽象的部分。

④与其他个体间的关系。

不同的约束可以用来描述属性的值类型、值范围、值基准,及值的其他特征。下面从5个方面来描述属性普通的约束:

①属性基数。基数定义属性有多少值。有些系统定义单一和多个基数,而有些系统用最小和最大基数来描述属性值的个数。有些属性设置最大基数为O,目的是为了表示特定子类的属性不能有任何值。

②属性值类型。通常属性值类型可分为字符串型(String)、“浮点或整数”数值型(Float或Integer Number)、“是或否”布尔型(Yes或No Boolean)、枚举型或符号型(Enumerated或Symbol)、实例型(Instance)。

③属性的领域和范围

属性应能描述其领域中所有的类,属性应能填充其范围内所有类的实例,同时不应指定属性的范围是本体中最通用的类。

④逆属性

属性值可能会依赖于另一属性值,称为逆关系,在两个方向保存此数据是冗余的,通常使用逆属性,可以自动填充另一逆关系的值。

⑤默认值

如果类的多数实例的特定属性值是相同的,则可把该值定义成默认值。当类的每个新实例包含这个属性值时,系统自动填充默认值,还能把此值改成约束允许的其他值。

(3)生成实例

定义类的单个实例首先需要选择类,接着生成这些类的单个实例,最后填充属性值。

为了使生成的类、类间层次关系、类属性及约束、类实例等更符合构建目标和用途,并为了保障在较短时间内适合用户的需求,在领域专家的指导下,采用原型化软件工程开发方法对该阶段产生的成果不断修改和完善。

2.2.3 领域本体设计阶段

(1)领域本体的形式化表示

一般用语义模型表示领域本体。Perez等人用分类法组织领域本体,归纳出5个基本建模元语:

①类(Classes)或概念(Concepts)

从语义上讲,它表示的是对象的集合,其定义一般采用框架(Frame)结构,包括概念的名称、与其他概念之间的关系集合、以及用自然语言对概念的描述。

②关系(Relatiom)

在领域中概念之间的交互作用,形式上定义为n维笛卡尔积的子集,即:R=C1×C2×……×Cn

③函数(Functions)

一类特殊的关系。该关系的前n-1个元素可以惟一决定第n个元素。形式化定义为F:C1×C2×……×Cn-1→Cn

④公理(Axioms)

代表永真断言,如概念乙属于概念甲的范围。

⑤实例(Instances)

代表元素,从语义上讲实例表示的就是对象。

另外,从语义上讲基本的关系有4种:整体与部分关系(Part—Whole)、分类关系(Is—A)、实例与概念关系(Instance—Concept)和属性关系(Attribute-of)。但在实际建模过程中,概念之间的关系不限于上述4类关系,可以根据领域的具体情况定义相应的关系。

(2)领域本体的形式化描述语言

领域本体可用自然语言、框架、语义网络或逻辑语言等来描述。但对计算机来说,形式化描述语言做为一种可供计算机处理的概念模型,应具备以下条件:

①应该具有较强的表示能力,同时也应兼顾推理能力,以满足智能检索中进一步实现推理的需求。

②应该具有较强的内在逻辑系统支持。

③应该具备一致的描述概念和表示数据的能力。

④应该尽可能与W3C已有标准兼容,从而保证其持续发展需求。

⑤应该具备XML语法特性,最好是基于语义Web。

⑥所表示的领域知识是形式化的,即机器可读和可理解的。

目前已经开发了6种本体语言,有些是直接基于XML语言的语法,如简单HTML本体扩展(Simple Html OntologyExtension,SHOE)、本体标记语言(Ontology Markup Language,OML)和基于XML的本体交换语言(XML—based Ontology Exchange Language,XOL);另外有2种本体语言是建立于RDF(S)之上,以便改善RDF(S)的特征:本体交互语言(Ontology Interchange Language,OIL)和DARPA主体标记语言+本体推理层(DARAP Agent Markup Language with Ontology Inference Layer,DAML+OIL)。最近,以OIL和DAML+OIL语言为起点,已开发出语义网所用的Web本体语言(Web Ontology Language,OWL)。各个本体语言之间的层次化关系如图2所示:

(3)领域本体的文档化构建和存储

构建领域本体文档,可对后续领域本体修改和进化奠定基础。1个OWL文档由以下4个部分组成:

①本体首部:包含了文档的元数据,如导入数据、版本数据及与其他OWL文档的兼容数据。

②类的定义:通过(owl:Class)标签定义类,使用(rdfs:subClassOf)来继承1个或多个类,由此建立类的层次关系。类的语义用类的描述来表达。OWL区分了6种类的描述:1个类标识,1个详细的列举,1个属性的限定,2个或多个类描述的交,2个或多个类描述的并,1个类描述的补。

③属性的定义:OWL存在2种类型的属性,即对象属性(Object Property)和数据类型属性(Datatype Property)。对象属性是用来表述2个类实例之间的关系,而数据类型属性则描述类的实例、RDF Literals,以及XML Schema数据类型之间的关系。属性之间还能够定义子属性关系以及为属性声明额外的特征(传递属性和逆属性)。如能够定义father是parent的子属性,定义anceator为传递属性,定义child为parent的逆属性。

④个体(实例)的定义:一个个体是一个特定类的实例,并与其属性相联系。

2.2.4 领域本体实施和运行阶段

(1)领域本体评价

这里采用Gruber在1995年提出的5条准则:

①清晰性。所定义的术语应尽量客观,避免受社会背景和客观环境的影响;给出的定义应尽可能完整。

②一致性。即本体中定义的公理应该是逻辑一致的,概念和概念间关系在逻辑上也应该是一致的。

③可扩展性。本体应该能够保证添加新的通用或专用术语,而不需要修改原有的定义,即能支持在已有的概念基础上定义新术语。

④编码偏好程度最小。概念应该在知识层次上说明,而不应该依赖于特定的符号层次的编码,因为不同的系统可能采用不同的表示风格。

⑤最小本体承诺。一般地,本体承诺只要满足特定的知识共享需求即可,这可以通过定义约束最弱的公理及只定义交流所需的基本词汇来保证。

(2)领域本体试运行

可针对某一应用目标,可利用初始生成的领域本体在特定的应用范围内进行试运行,来验证初始领域本体是否能够满足领域范围应用的需求,特别是要检验其一致性、完整性和可扩展性。经过试运行,若符合要求则转向(4);若不符合要求则要重新经过本体分析阶段,然后转向(3)与(4)。

(3)领域本体文档的修改

针对试运行的结果,可在OWL文档的基础上做一些标注性的修改。

(4)领域本体应用

对于修改后的领域本体,可正式投入实际运行应用过程。

3 总结和展望

本体构建方法 篇6

本体起源于哲学领域,它用于描述客观世界的一切,同时也代表人类对客观世界所形成的共识。当前,在本体研究领域已提出了诸多本体构建方法与编辑工具,并已为不同领域构建了可作为标准的本体模型。其中,针对单个本体的创建、发布、浏览、编辑和存储等方面的研究已经较为成熟[1]。随着本体的应用愈发广泛,其复杂程度也越来越高,个人往往无法承担构建一个完整本体的任务。因此,支持多人或群体协作的本体协同编辑工具油然诞生,常见的工具包括Onto Wiki[2]、Collaborativ Protégé[3]等,这些工具支持多个用户参与本体的编辑工作,通过积累个人的知识逐渐形成一个完善的独立本体。

单个本体的集中式特性大大制约了协同编辑的效率,也很大程度上限制了本体的规模。在大规模协同环境下,单个本体的构建给本体编辑人员带来了诸多不便: 一是当本体规模较大时,本体编辑人员加载单个本体文件的耗时较长,更新和修改该文件时往往效率低下; 二是由于本体规模大,涉及的领域相对广泛,因此编辑和维护大规模的本体使得编辑人员难以只关注于自己擅长的领域,大量相关但不熟悉的知识阻碍了本体编辑人员对整个本体的理解; 三是对大规模本体构建的权限难以控制, 譬如,不同权限的编辑人员原则上应当仅能对自己熟悉的知识具有编辑权限而对其他领域的知识只有浏览权限,但是如何区分这些知识领域是一个难以处理的问题。从以上三个方面来看,随着本体构建的需求越来越复杂,集中式本体构建方法难以将不同视角的信息源进行静态或动态的集成[4],因此不适合于构建大规模的全局本体。与此相比,将单个本体文件进行拆分并在分布式环境中构建和维护这些拆分后的小粒度本体成为了一种流行的方案。

在分布式环境下构建本体有诸多的优势,例如可方便地维护和管理本体,可提高本体推理的效率,并可在构建过程中复用已存在的本体等。然而,这种方式也面临着两方面挑战: 一是需要一个合理的本体组织结构来支持不同用户的协同开发,并为不同用户角色赋予相应的本体操作权限; 二是为不同本体之间的互操作,尤其是概念之间的共享与引用定义一组规范,并保证分布式的本体在概念变更之后仍然能够保持一致性。

针对这些挑战,本文提出了针对分布式本体的协同构建与一致性维护方法。首先,该方法以层次化的分布式本体组织形式来构建大规模的本体,即根据概念层次或领域特点,将高层本体在细节层次上划分为若干子领域,每个子领域对应一个按特定知识领域分割的物理本体文件。这有助于达到简化本体的构建和编辑,同时又能在逻辑层次上保持大规模本体的完整性的目的。

其次,该方法归纳了在层次化分布式本体构建过程中所涉及到的针对概念引用关系的编辑操作,并给出了相应的约束。 随后提出了在概念变更时的协同一致性维护方案,该方案根据本体编辑人员提交的本体与操作集进行冲突检测和冲突消解, 以维护概念在相互引用后的一致性。

最后,为了验证方法的可行性和有效性,本文模拟本体编辑人员的编辑操作来展示针对实验本体集的冲突检测、冲突消解和更新的过程。实验的结果表明本文的一致性维护方案具有可行性,其时间消耗也在可接受的范围之内。

1相关工作

1. 1本体及本体构建

在20世纪90年代初,本体被引入计算机领域,诸多学者也对本体进行了自己的定义,目前得到广泛认同的本体定义是 “本体是共享概念模型的明确的形式化规格说明”[5]。这个定义包含四层含义: 概念化、明确、形式化和共享。

针对一个特定领域的本体构建过程是一个知识、概念挖掘与形式化的过程,这个过程需要参考具体的构建准则,使得建立起来的本体模型更加准确与可靠。其中最有影响的是Gruber提出的5条构造本体的准则[6]: ( 1) 明确性: 本体应客观和有效地说明所定义术语的内涵。( 2) 一致性: 本体应前后一致,由术语推理得出的推论与术语本身的含义会不会产生矛盾。( 3) 可扩展性: 在不修改已有内容的情况下能不断扩展本体。( 4) 最小编码偏好: 对本体概念的描述不应该依赖于某一种特殊的表示方法。( 5) 最小本体承诺: 初始构建的本体只需要满足特定的知识共享需求即可。

在实际的本体构建过程中需要领域专家的参与,结合她们对领域的完备认知,来不断完善本体构建。目前国内外的本体构建方法主要从两个方面着手[4]: 一是本体工程,它从知识工程角度探讨本体的构建方法; 二是利用领域叙词表,从叙词表向本体进行转化。

文献[7]介绍了不同领域中的本体的构建方法,提出了构建本体的步骤应从本体的范围、重点、编码、集成、评价和文档化六个步骤进行。国外一些知名的本体构建方法有骨架法[8]、七步法[9]、METHONTOLOGY法[10],国内的方法有基于需求分解的方法[11],重用现有领域知识库来构造新的领域知识库[12],以及基于描述逻辑进行本体建模的方法[13]。

工具为构建本体模型提供了便利。文献[14]介绍了多种本体建模工具。其中,Protégé[15]是由美国斯坦福大学开发的最为知名的本体编辑器,通过所见即所得的构建方式,编辑人员通过类、属性和实例的选项卡来进行本体编辑,并提供本体推理和本体结构图等功能。Onto Edit同样支持本体的开发和维护,它通过引用一个插件来进行对本体的一致性检查、分类和规则执行。OILED是一个图形化的本体编辑器,允许编辑人员使用FACT推理机来构建本体并且检查本体的一致性。

1. 2本体协同构建技术

针对一些大规模的知识领域,本体所涵盖的概念数量巨大, 因此这样的本体往往无法由某一个或几个本体开发人员在集中式的方式下进行构建。当前,大规模的本体可以由不同的开发人员在分布式的环境下进行开发的。

在相关的研究工作中,Mc Guinness提出对分布式本体开发环境的概念模型[16],这个模型为分布式本体的构建方式提供了理论指导: 一是要有整体标准的概念词汇表以及属性词汇表; 二是本体开发环境要支持本体的演化,例如多版本的支持,支持本体的层次扩展、本体合并、本体诊断工具等等。

文献[17]中介绍了许多基于分布式本体的集成项目,例如TAMBIS是为生命科学研究者提供一个单独的能访问全世界的生物信息资源的结点。为了让用户能够检索到自己需要的页面,Onto Broker需要事先在网页中加入预先定义的标识。HOZO是一个领域本体模块化的协同开发系统,通过一个集中式服务器协调分布式环境下各用户开发本领域的模块化本体,并可将模块化本体上传到服务器上,同时也可从服务器下载或重用其他模块化本体,由此实现各分布式本体之间的信息交互与共享。 SKC是斯坦福大学开展的项目,在多个不同的信息源上的不同本体上建立一个代数系统来实现各本体直接的互操作,以实现异构系统之间的互操作。

在有多个开发人员对同一个本体模型进行并发编辑的场景下,需要有一个完善的机制支持这些开发人员的协同编辑,避免出现编辑冲突的情况。这些研究工作大都以工具的形式发布, 文献[18]对一些本体协同编辑工具,如Collaborative Protégé、 Onto Wiki等进行了调研。

2层次化的分布式本体构建方法

随着专业知识的丰富,人们可以描述更加丰富和准确的本体,同时这些本体的规模也在快速地增长。这为单个的大本体的管理和维护等带来了许多的挑战。文献[19]对面向分布式环境下的本体开发做了情境假设,即为了实现分布式本体构建, 一个目标本体被分成多个组件本体而且在分布式环境下独立地( 可能是并行地) 构建每个本体,设计了本体之间的依赖如何管理,但不允许多个用户在同一时间访问同一个概念。针对这种分布式环境本体构建的情境,本文提出了一种分布式本体的协同构建方法,即将本体按照知识领域逐层细分来进行层次化的分布式本体构建,以简化本体的构建和编辑,同时又能在逻辑层次上保持本体的完整性。

2. 1层次化的分布式本体模型与结构

Pérez[20]等人提出本体应包含5种元素,分别是类、关系、函数、公理和实例的本体模型。本文在此模型的基础上进行了扩展,提出了层次化的分布式本体模型。层次化的分布式本体主要由框架本体与多个组件本体构成,组件本体多为按照领域划分的本体。定义1描述了层次化的本体模型。

定义1框架本体的定义是BO = { D,C,Rmap,F,A,I,} ,组件本体的定义是CO = { D,DT,C,Hs,Re,F,A,I} 。

D表示该本体的描述信息或所属领域,C表示本体中的概念集合,Rmap表示框架本体中的领域节点与子领域本体的对应关系,用来连接框架本体与子领域本体,F表示概念之间的一种特殊关系,表示形式为C1× C2× … × Cn - 1→Cn; A表示概念以及概念之间所满足的公理,都是永真断言,I表示本体中的实例集合。DT表示领域本体中Datatype类型属性,Hs表示本体中概念的上下位关系,Re表示概念之间的等价关系。本文设定BO以及按照知识领域划分的组件本体CO的默认域不同,即BO. domain≠CO. domain,将BO和CO的集合统称为全局本体。

定义2本体中概念的定义是C = { D,Csc,Cuc,Ic,Ac,Hs, Rs,Rr} 。

D表示概念C的描述信息,Csc表示概念C的子概念,Cuc表示概念C的父概念或上层概念,Ic表示概念C的实例,Ac表示概念C的属性,Hs表示概念的上下位关系,Rs表示概念的同义,Rr表示概念C被其他本体中的概念的引用关系。

定义3概念中的被引用关系定义是Rr = { Refc,Listref< C > } 。

Refc表示概念C被引用的次数,每个概念的Refc初始值为0,Listref< C > 表示引用概念C的链表,链表中的每个元素都是引用概念C的来自于其他组件本体中的概念。

本文设计的层次化的分布式本体框架如图1所示。图1中有多个不同层次化的分布式本体集合,每一个分布式本体的集合的层次结构都是一个框架本体,其中每个领域都是一个组件本体,并且还可以继续细分到更多的子领域。不同的框架本体代表着不同应用有不同的框架视图,因为不同的应用对构建本体的需求不同。层次化的分布式的本体构建过程通常首先是经历以层次化细分本体构建,完成对组件本体从无到有的构建方式,之后的过程可以复用之前构建好的组件本体,以层次化的方式来组织不同的组件本体以完成对不同应用对本体构建的不同需求。框架本体可以为应用提供一个全局的并按照领域细分的本体逻辑层次组织的视图,层次化的分布式本体构建方法将不会把组件本体与框架本体集成为一个单个本体,而是让各个组件本体自行地进行构建和维护,来保持组件本体对其领域的完整性。

层次化的分布式本体构建方法的特点是: ( 1) 本体以分布式方式进行构建,框架本体是本体应用对其领域的逻辑视图,把多个组件本体按照一定的层次化方式组织在一起; ( 2) 各个领域的组件本体之间可以进行知识的共享,允许不同组件本体中的概念进行相互的引用; ( 3) 由于不将组件本体按照框架本体的组织形式进行本体集成,各个领域的组件本体可以也可以相互进行知识的共享。

层次化的分布式本体构建方法的优点是: ( 1) 对本体按照特定的领域进行了划分,使得本体模块化,如同面向对象的开发一般,以这种方式构建完成的本体有良好的封装性,便于本体的重用; ( 2) 单个本体进行层次化细分成多个组件本体之后,通过对组件本体的权限控制,使得本体编辑人员仅能编辑自己擅长领域的组件本体,编辑过程能够更为集中和专注; ( 3) 不同应用可以组织自己的层次化本体,由于框架本体是通过映射的方式连接不同的组件本体,也可以比较容易地完成领域组件本体的更改和替换,有较强的扩展性。

为了更好地说明层次化的分布式本体框架与结构,本文按照知识领域对文献[14]中已经构建的农业本体知识库进行了层次化的本体划分,具体示例如图2所示。框架本体BO为BO农业系统,包含了农业、化学、颜色、环境、地理和生物这六个知识领域的组件本体CO,BO农业系统中的每个概念利用Rmap关系映射对应到其CO。为了简化图形描述,图2仅画了3个本体中的部分概念以及它们之间的概念引用关系。

在协同编辑的过程中,本体编辑人员可以去定位访问其他组件本体共享的信息,来选取编辑过程中要引用的概念,示例中COAgriculture引用了来自化学领域组件本体COChemistry中化学肥料概念和生物领域组件本体COOrganism中植物下的植物部位概念。

2. 2层次化的分布式本体编辑操作

大多数时候,层次化的分布式本体虽然按照领域划分为多个组件本体,但这些领域之间并不是完全独立的。组件本体需要去引用来自其他组件本体中的概念,以解决概念冗余,并减少本体编辑人员的工作量。然而这样使得本体间的相互操作相比集中式的本体构建更为复杂,例如需要提供对分布式本体中概念的定位、引用、增加、删除、修改等一系列操作,也可能需要在跨本体的情况下进行的操作。因此本文归纳了在层次化分布式本体构建过程中所涉及到的针对概念引用关系的编辑操作,并给出了相应的约束。

文献[14]已经在编辑农业本体的背景下,提出了一组支持本体协同构建的操作,这些操作的形式化定义见定义4。

定义4本体操作Onto Command( OC) 是一个三元组,记为OC = < Name,E,V > ,其中Name是操作名称,E是其操作的实体集合,V是操作的参数。

本文为概念的增加( ADD) 、修改( MOD) 和删除( DEL) 3种操作类别定义了具体操作命令,如表1所示。表中的黑体为本文增加的概念引用操作,之后重点讲述扩展后的概念引用操作。 其中约束的表示中,{ } 表示概念定义中的某个组成部分,冒号之后的部分表示该组成部分中的元素。

增加操作( ADD) 中的AddRef Class,是指编辑人员在有权限可编辑的组件本体中增加其他组件本体中的概念,即编辑人员进行概念定位后选中其他组件本体COn中想要引用的概念ref- Class,并添加ref Class到自己所编辑的本体CO中,添加位置在要引用ref Class的本体CO中的所在位置的上层结点sup Class的子节点中,同时将sup Class添加到概念ref Class的被引用关系Rr,并记录操作到操作集( OC Set) 中,以便合并时检测冲突以保证一致性。

修改操作( MOD) 中的ModRef Class与Mod Class类似,是指修改已经被其他组件本体所引用的概念。若是ModRef Class操作生效应该将修改过后的概念更新到引用它的其他所有组件本体中。MOD操作只能在其所属的组件本体中进行修改,引用该概念的其他组件本体没有修改该概念的权限。

删除操作( DEL) 中的DelRef Class与Del Class类似,是指删除本体中已经被其他本体引用的概念,唯一的不同在于概念是否已经被其他本体所引用; Del ClassReferred是指删除组件本体中引用其他组件本体的概念。删除操作比较复杂,其具体流程如下:

输入: 概念a Class

流程:

1 ) 用户进行删除概念操作,查看a Class { Rr: Refc} 的值;

2 ) 若a Class { Rr: Refc} = 0 ,则进行操作Del Class ;

3)若a Class{ Rr: Refc} > 0,则要查看该本体中a Class{ Cuc} 是否在a Class{ Rr: Listref} ,若存在则执行操作Del ClassReferred,删除概念a Class, 若不存在,则要询问操作的执行者,该概念已经被其他本体引用,是否确认删除,若确认,执行操作DelRef Class;

4)记录操作到操作集( OC Set) 中。

3协同一致性维护方案

本体编辑人员使用前文中设计的操作进行层次化的分布式本体构建与编辑。在多人协同编辑的情况下,不同本体编辑人员对概念的操作会产生冲突; 另外,如果本体中的概念之间存在相互引用,该如何保持引用概念在不同本体中的一致性是一个值得思索的问题。

针对概念一致性的问题,本文提出了协同一致性维护的方案。本文采取的方法是以迭代的方式构建本体,该方案根据本体编辑人员提交的本体与操作集进行冲突检测和冲突消解,以维护概念在相互引用后的一致性。

3. 1冲突规则

为了方便检测协同编辑的冲突,针对前面定义的本体概念的编辑操作,本文研究了这些操作以及操作类型之间的关系,定义了操作类型的冲突规则列表,如表2所示。表中T表示存在冲突,譬如AddRef Class操作的操作对象ref Class,Del Class操作删除了ref Class,则一定会产生冲突。F表示不存在冲突,X表示针对同一个概念的两个操作不会出现,OCD( Operation Conflict Detecting,操作冲突检测) 表示可能存在冲突需要作进一步判断,OCD将通过计算两个操作OC的对象实体E在操作之后实体E是否相同,如果一样则返回T,如果不同则返回F。

注: A1 : Add Class , A2 : Add Sub Class A3 : AddRef Class ; M1 : Mod Class , M2 : ModRef Class ; D1 : Del Class , D2 : DelRef Class , D3 : Del ClassReferred

3. 2协同一致性维护流程

层次化的分布式本体协同构建方法采用迭代方式进行,本体一致性维护的流程是:

( 1) 本体编辑人员编辑自己有权限的组件本体,在编辑完成之后进行本体的提交,所有操作记录在操作集中;

( 2) 对操作集进行冲突检测,通过匹配相应的冲突规则,找出冲突对,形成冲突集合;

( 3) 由多个专家参与冲突消解过程,从冲突的操作对中选中要生效的操作,形成消解冲突的操作集;

( 4) 将消解冲突的操作集更新到相应的本体中。 流程示意如图3所示。

3. 3协同一致性维护方法

1) 冲突检测

冲突检测的目标是从众多本体编辑人员编辑本体提交的操作集中找出冲突的操作对,形成冲突集合。首先要将表2中的冲突列表转化为规则R[OC. Name][OC. Name],用二元数组表示,然后将所有编辑人员的操作集OCSet作为输入,遍历操作集,找出所有的操作对,并将其与规则R进行匹配,看是否产生冲突,有冲突的操作对则作为冲突对放入冲突集合conflict Set中。算法1给出了冲突检测算法。

算法1冲突检测算法

输入数据: 所有本体编辑人员的操作命令集OCSet{ oc1,oc2,oc3, …. ocn} ,预定义冲突检测表格规则R[OC. Name][OC. Name]

结果: 协同冲突集合与通知集合,其初始化值均为空,即conflic Set []= { }

2) 冲突消解

冲突消解算法的目标是在已经生成的冲突集合,由本体专家或者本体构建团队参与消解冲突,对冲突集合的所有冲突对进行消解,算法流程是:

( a) 显示冲突集合中的第一个冲突对,由专家等组成的本体管理团队选择冲突对中的一个操作生效;

( b) 在本体管理团队选择后,将未被选中生效的冲突操作从操作集中删除;

( c) 同时从剩下的冲突集合中剔除其他与未被选中生效操作相关的冲突对;

循环重复第( a) - ( c) 步,直至冲突集合为空。

3) 更新操作

更新操作是将已经进行冲突消解的操作集中的操作更新到相应组件本体中,其输入是已经消解冲突的操作序列,对于Ad- dRef Class ,Del ClassReferred,Mod Class,ModRef Class等引用相关的操作需要先加入有向图中,用于更新有引用关系的相关概念。 与引用无关的操作可以直接应用到相应本体,待操作集中的操作遍历结束时再采用深度遍历的方法遍历有向图,将图中的每个结点中的概念更新到相应的本体中。算法2给出了更新操作算法。

算法2更新操作算法

输入数据: 所有本体编辑人员已经经过冲突解决的操作序列OC- Set’

结果: 所有操作应用到本体上,OCSet’= { }

经过以上三个步骤,一个编辑周期的所有操作更新到本体中,本体编辑人员可以进行下一个周期的本体编辑了。

4实验与分析

根据上文中描述的方法和算法,本文设计了相应的案例研究实验,用来验证所提出的方案的可行性和有效性,并与单本体构建方法进行了对比。本实验进行的环境是硬件配置为Intel Core i5-3320M 2. 6 GHz CPU、8 GB内存,系统为64位Windows 7操作系统、Java 1. 7语言环境,实验过程中关闭与本实验无关的其他程序和进程,保证实验开始前CPU空闲率达到85% 以上, 程序可用内存3 GB以上。

4. 1实验方法

实验的对象为预先设计的5个本体O1、O2、O3、O4、O5,每个本体的概念个数为7 ~ 10个,层次在3 ~ 4层不等,5个本体的总概念个数为41,且本体之间具有一定的引用关系。

实验流程如图4所示。随机操作生成模块作用是随机生成一系列操作序列,并记录形成操作集。冲突检测模块在随机操作生成模块生成的操作集上对所有操作进行冲突检测,生成有冲突的操作对所构成的冲突集合,同时记录检测结果和监测耗时等信息。冲突消解模块是在冲突检测模块完成后,在其生成的冲突集合上进行冲突消解,并将编辑管理员在冲突操作对中选择放弃的操作从操作集当中剔除,本文采用随机的方式来模拟管理员的选择,同时记录消解结果和操作耗时。更新操作模块对在更新后的操作集和本体集合上对本体集合进行更新操作,生成新版本的本体集合。

利用程序随机模拟用户行为,生成随机操作。实验生成随机操作的数量为1000组到10 000组等距的10次实验,同时为了进行对比,本文也预先将5个不同本体融合成一个单个本体, 在相同的环境和配置下进行了10次模拟实验。随机操作的部分样例如表3所示。

4. 2结果分析

本文提出的一致性维护的方法的总时间包括冲突检测、冲突消解和更新操作的三个阶段共消耗的时间。从图5给出的实验结果可以看出,两种本体构建方法在本体协同编辑的过程中, 在从1000个操作增长至10 000个操作的大规模条件下,基本在总时间消耗上保持一致的趋势。以上结果说明该方法具有更好的权限管理和更灵活的本体维护策略等特性的同时,还能保证有效地进行本体的维护,且在时间效率上与单本体相当,满足本体编辑人员的需求。

由于随机操作产生的冲突数不同,为了对比两种方法在冲突检测时间上的优劣,本文选用了如图6所示的平均每个冲突检测耗费的时间曲线作为对比指标。可以看出层次化的多本体方法随着本体操作规模的增大,在冲突检测时间上优于单本体构建方法,其原因是由于单本体相较于层次化的多本体,冲突检测需要更多的时间; 但同时根据图5中总时间曲线的一致趋势, 说明在冲突消解和更新操作所消耗的时间上,单本体要略微少于层次化的多本体,其值只是相差约低于0. 01毫秒,在超过2000个操作的大规模条件下几乎可以忽略; 造成这种结果的原因是层次化的多本体增加了概念的引用操作。当引用概念遇到修改时,需要将概念同步更新到多个本体中,而单本体中没有引用关系及其相关操作。

平均操作的更新时间为操作更新时间与最终操作数之比, 它用来衡量更新能力的差异。如图7所示,随着规模的增大,平均操作更新时间在下降; 但是层次化的多本体的方法更新时间大体上与单本体方法一致。有少许的波动,其原因是随机生成的操作集中,在这些波动所在处对应的操作集中有大量针对引用的操作,尤其是针对同一个概念的引用等,这些导致了操作更新时间的变化。

在本体维护的总时间上的一致性,以及较快的冲突检测和几乎相同的冲突消解和更新时间,这些说明了上本文提出的方案虽然比单本体增加了维护概念引用相关的操作,但在维护概念一致性上耗费时间依旧在可接受范围内。由此验证了本文提出的方案具有可行性,且有一定的实际应用价值。同时,在本体权限管理方面,本文算法相较于单本体有明显优势,编辑人员可以更加专注于其专业领域,不会在其他方面分散注意力,用户满意度更高。由于本文采用程序随机生成操作和冲突消解来模拟用户的行为,因此实验的结果具有相对参考意义。

5结语

本文针对大规模且复杂的环境提出了层次化的分布式本体的模型和协同编辑与一致性维护的方案,可以根据不同的需求进行本体协同编辑和管理的操作,增加了本体编辑的灵活性也提高了领域编辑专家的专注度和效率。

实验表明一致性维护的方案具有可行性,耗费的时间也在可接受范围内。若是扩展到大规模的分布式本体开发环境下, 本体的一致性维护也在可接受范围内。

在今后的工作中,在引用的方式上除了本体概念间的相互引用,应还有本体之间的相互引用,本体之间的概念操作也应该扩展到本体的属性、实例等操作上,继续改进算法,使之能应用到实际生活相关的领域中。

摘要:本体已经成为在语义Web环境下呈现和管理知识的重要手段。目前针对单个本体的创建、发布、浏览、编辑和存储等方面的研究已经较为成熟;随着知识规模的不断增大,在分布式环境下构建本体也已成为一种流行的方案。然而,分布式本体的构建受到多用户协同与一致性维护等问题的挑战。针对这种情况,提出一种分布式本体的协同构建与一致性维护方法,该方法以层次化的分布式本体组织形式来构建大规模的本体。在此基础上,该方法归纳了在本体构建过程中所涉及到的针对概念引用关系的编辑操作,并给出了相应的约束。另外,该方法还提出了在概念变更时的协同一致性维护方案。最后,通过模拟本体编辑人员对本体的编辑操作集合,实施了冲突检测、冲突消解和更新操作的实验。其结果表明,针对分布式本体的协同一致性的维护时间与单个本体的维护时间基本保持一致。

本体构建方法 篇7

关键词:工艺,物料清单,本体,网络本体语言

0 引言

在工业4.0的时代趋势下,发展智能制造已成为全球制造业的目标。然而企业智能化在管理上面临着的问题不再限于人、机、料、法、环等方面,同时还面临着大量数据资料的管理问题,异构知识信息的共享传递正是其中之一,诸如计算机辅助设计(Computer Aided D e s i g n,C A D)、计算机辅助工艺计划(Computer Aided Process Planning,CAPP)、企业资源计划(Enterprise Resource Planning,ERP)等系统都是独立发展起来的[1]。企业知识多形式样化,异构系统数据结构不兼容,甚至有些工艺物料清单文件,还得依靠人工手工录入和传递[2],这就造成了企业信息共享传递的滞涩形成信息孤岛[3]。

BOM是ERP的核心技术文件,是各部门指导工作和组织计划的基本资料及重要依据[4]。为了解决BOM信息从设计部门到工艺部门的转换和传递低效的问题,梁平[5]、周圣文[6]等人以可扩展标记语言(e Xetensible Markup Language,XML)模式的对BOM进行存储,郭春芬[7]、曲敏[8]等人,采用本体技术对工艺类知识进行描述和管理,钟艳如[9]、覃欲初[10]等人针对工艺公差知识进行详细研究,通过描述逻辑与本体技术,实现了公差类型的自动生成与推理,促进了工艺公差知识高效利用和共享,然而却未将工艺领域知识与BOM相关联,实现对工艺BOM的刻画。

首先,本文在前人研究的基础上设计基于OWL的工艺物料知识表示模型,然后,根据表示模型,采用本体形式化描述,将工艺领域知识与BOM相结合,构建工艺BOM本体,以OWL文件模式,促进设计部门到工艺部门BOM信息的高效传递与知识共享。

1 工艺物料知识表示模型的设计

1.1 概述

表示模型体现了自顶向下逐层细化的研究思路。通过对BOM文件的研究分析,将产品信息与工艺知识相结合,设计基于特征表面的工艺物料知识结构表示模型,模型将产品零件、加工表面、工艺知识和生产加工所需要的生产资料进行关联,实现工艺BOM的本体构建。

本体(Ontology)最早是由亚里士多德在“存在论”中提出的哲学概念,随着人工智能的发展,本体在计算机科学领域被定义为“共享概念模型的明确形式化规范说明[11]”。它最突出的优点是能够实现真正意义上的信息共享、应用集成、语义互操作及知识重用[12]。

W3C(World Wide Web Consortium)最初为了定义和实例化Web本体,设计了本体描述语言OWL,它由RDF语言和RDF(S)语言发展而来,其语法格式延续了RDF/XML的语法格式,使得非专业人员也能读懂OWL的代码。protégé软件是由斯坦福大学医学院研究中心,基于Java语言开发的本体编辑工具,是语义网本体构建的核心开发工具,支持OWL、RDF(S)、XML及DAML+OIL等本体语言[12]。本文将采用Protégé软件来实现工艺BOM元本体模型的构建。

1.2 表示模型结构的设计

模型设计由4个层次构成,自上而下分别为产品结构层、加工表面层、加工工艺层、生产资料层,如下图1所示。其中A为装配体,PK为零件,k=1,2,…,k;Sn(Pk)为零件Pk的第n个加工特征表面,n=1,2,…,n;同理m=1,2,…,m;Pr S1·i为加工工艺,i=1,2,…,i;Mj为工艺加工的生产资料,j=1,2,…,j。

通过装配体到零件的装配约束关系,零件加工特征表面加工工艺关系,以及零件工艺到加工所需生产资料的对应关系,将零部件信息、加工工艺信息与工艺生产资料信息相互链接,形成一个整体模型,进一步对工艺知识、工艺物料知识进行整合管理。

1)产品结构层

表示模型的第一层是产品结构层,它主要表示产品层次结构以及零件之间的装配约束关系,该层除了反映产品的结构关系还主要承载着产品零件的主要设计信息,以及BOM中装配体及零件的基本属性,同时依据其零部件的装配约束关系呈现其产品的零部件结构树,产品结构层中装配体可以看成是由一个或多个零件,按照一定的装配约束关系组成的集合,同时如零件的材质、原材料的基本尺寸等都将为模型后面的加工工艺层及生产资料层的构建奠定基础。

零件自身信息包括设计零件的基本尺寸等,除此之外还有与其相关的物料属性,如:层次号(level)、物料编号(material Number)、图号(drawing Number)、零件名称(part Name)、来源(source)、数量(amount)、材质(material)、备注(remarks)8种,这些属性信息源于BOM文件,是对零件工艺知识以及BOM知识进行本体描述的重要依据。

2)加工表面层

加工表面层是知识表示模型的第二层,其主要作用在于分析零件所需加工的表面,将作为下一层工艺加工层的重要支柱。对零件进行工艺分析确定零件加工工艺路线,除了需要考虑零件本身毛坯的材质、尺寸以及现有生产条件外,还需要考虑零件加工表面的形状类型以及粗糙度、精度的要求,不同的加工特征表面能够采取不同的加工工艺方案,而精度的要求除了对工艺加工方式的影响外,更多的是在是否考虑需要进行粗加工、半精加工和精加工上的划分。

在本文中借鉴产品几何规范(Geometrical Product Specification,CPS)中对几何面的分类,即GPS中的七个恒定类如表1所示,任何几何体模型或每个零件都可以看成是由数个特征表面围成的闭合几何体,这些特征几何面以其自由度及拟合导出要素划分为Spherical(球面)、Cylindrical(圆柱面)、Planar(平面)、Helical(螺旋面)、Revolute(旋转面)、Prismatic(棱柱面)、Complex(复杂面)。除了以下七种特征表面外,在实际加工工艺分析中还需要考虑是否为实体加工,在的成型过程中,部分实体加工的工艺会有一定的差异,例如内孔的加工,在特征表面中可以将其划分为圆柱面的特征表面加工,但在工艺分析中若为实体加工则必须优先进行钻孔工序。

3)加工工艺层

表示模型的第三层是加工工艺层,表示零件生产加工工艺约束关系,对产品每个零件进行工艺分析,提取工艺约束关系,为最后零件加工时所需生产资料的调度统计做准备,同时加工工艺层也是构建实际生产的工艺类本体的基础。工艺知识管理虽然在早年就被提起,但是由于其工艺种类的复杂性,工艺知识领域存在大量的显性和隐性知识,加上企业的知识形式多样化,表达方式不统一、不规范,致使工艺知识共享困难。

为此在加工工艺以七个恒定类的基础上,受限于文章篇幅仅以零件的切削加工为主要研究对象,对常规的切削加工工艺知识归纳总结如表2所示,通过表中关系约束简化工艺知识的复杂性,同时为之后的本体形式化描述对相关领域知识的提取奠定基础。

在工艺分析中工艺路线的确定中,除了需要考虑车间实际的生产加工条件,和加工表面类型外,同时还需要对加工面的精度进行考虑,同样的加工表面类型会有不同的加工精度要求,需要采取不同的加工策略,如表3所示,得出常用切削加工工艺与精度约束关系表,将加工工艺与加工精度相关联,为之后工艺知识的提取以及工艺知识库的构建以及知识推理奠定基础。

T(m)—保持要素在空间位置恒定的m个独立的平动;R(n)—保持要素在空间位置恒定的n个独立的转动;I—单位几何变动;Tx,Ty,Tz—几何要素沿x、y、z轴的平动,Rx,Ry,Rz—几何要素绕x、y、z轴的转动

工艺约束关系中主要包含了我们在生产过程中所参与的工艺相关步骤及工艺知识,如:毛坯清理(Blank Clean)、切削加工(Machining)、检验(Test)、装配(Assemble)等工艺步骤,以及在实际工艺中所采用的“其他加工”等步骤(如:倒角、工件调转、工件装卸、特种加工等),在切削加工中主要涉及常规的加工方式有车削(Turning)、铣削(Milling)、刨削(Planing)、插削(Slotting)、磨削(Grinding)、钻孔(Drilling)、铰孔(Reaming)、镗削(Boring)、拉削(Broaching)、切割(Cutting)、齿/涡轮加工(Teeth/Turbine Machining)、加工中心(Machining Center)、钳工(Bench Worker)等。

4)生产资料层

表示模型的最后一层为生产资料层。BOM在企业的不同部门和产品的不同阶段具有不同的信息表示,建立不同BOM之间的逻辑联系和映射转换是制造企业实现协同设计、制造和管理的关键,BOM间数据转换如图2所示[13]。产品设计开发部门主要反映产品零件的名称、数量等产品属性,而在工艺设计部门所编制的工艺BOM更多反映的是产品工艺属性:工序号(process Number)、工序名称(process Name)、工序内容(content)、设备(device)、刀具(cutter)、夹具(tong)、量具(measuringtool)等。

这些属性所反映的信息是表示模型第三层,生产资料层所携带的。在分析了前三层的约束关系之后,提取各个零部件在加工生产过程中所涉及到的生产资料,为之后工艺BOM的本体构建奠定基础。

2 工艺BOM本体的构建

工艺BOM的本体主要涉及到两个领域方面的知识:一是与物料清单领域的相关知识;另一个是产品工艺领域的相关知识。通过表示模型对该两个领域的知识进行了收集整理和归纳,将两个领域的知识相结合,从而为构建领域类本体建立基础。

通过表示模型获取构建本体领域知识后,将对本体的类以及属性进行创建。类的设置有三大部分,分别是表示BOM基本信息的BOM类(BOM Classes);产品零件信息相关的产品产品装配体类(Assembly)以及与生产工艺相关的工艺类(Process),通过分析研究把所有的类及其他的层次结构关系进行组织,其树状结构如图3所示,其中Part、Feature Surfaces、Surface Precision分别表示零件、加工表面、特征表面和表面精度。

BOM领域知识与工艺领域知识相结合进行本体构建的过程中,无论是产品自身物料信息,还是工艺上所涉及的物料内容,都会在软件界面中以属性栏中内容信息的方式清晰呈现,便于工作人员的查阅、修改。构建的本体属性分为两大类,即用来表示类中二元关系的关系(Object Properties),以及用来表示一个类固有特性的数据属性(Datety Properties),在本体中所设置属性关系及层次结构及含义如图4所示,has-Reflect表示反映关系即BOM反映产品或工艺相关属性信息,has-ACR表示具有零件间装配约束关系或,has-Surfaces表示零件具有加工表面或零件与实际表面的构成关系关系,hasProcess具有表示工艺关系,Sub-Of表示具有子类或子属性。

图3工艺BOM类及层次关系

在对属性进行了定义域和值域的限定之后,即完成了领域类本体的构建,最后依据设定的类与属性及其约束关系,得到基于OWL的工艺BOM元本体模型如图5所示。

3 实例研究

最后文章通过以联轴器工艺BOM为实例,在研究调查中获取了零件图纸、工艺说明书、工艺卡片以及在工艺编制阶段所使用到的物料清单,作为我们构建本体实例的重要材料,最后在protégé软件中构建本体。如图6所示,protégé中创建的本体类以及相应的OWLViz图。

图7为B O M C l a s s e s中联轴器实例个体B O M L i s t H e a d的属性内容展示,在属性栏中主要承载了联轴器工艺B O M的表头信息,如B O M名称“C o u p l e r P r o c e s s B O M”、B O M编制者“D a v i d”等,同样在相应的BOMClasses类下的Process BOM、Product BOM中会呈现相应的联轴器工艺BOM、产品BOM的相关信息。

最终在Protégé中会生成一份OWL格式的文件,BOM的信息在文件中以OWL数据的形式表示,如下两段代码1所示,OWL文件格式能被计算机直接识别读取,与传统的BOM文件相比,OWL提供的RDF/XML语法对BOM的知识信息进行表示,非专业编程人员同样也能轻易理解其表达含义,计算机可以轻易的对信息进行维护、存取,这极大的促进了产品物料信息在跨部门跨系统间顺畅传递以及知识有效共享。同时只需经过简单的Java解析即可进行数据形式转换,直接导入Access、My SQL等数据库或知识库中。

图4工艺BOM属性及层次关系

图5基于本体的工艺BOM元本体模型

图7联轴器实例个体BOM List Head

4 结束语

本体构建方法 篇8

目前, 飞机制造技术正向全数字化的设计、制造、试验一体化的方向发展。其突出特点是数字化已不仅仅是设计和制造的局部应用, 而是向具有跨地域的全数字化协同设计制造发展, 数字化技术贯穿了整个飞机的设计制造流程[1,2], 由此MBD (Model Based Definition) 技术应运而生。MBD即基于模型的定义, 是一个用集成的三维实体模型来完整表达产品定义信息的方法体, 它详细规定了三维实体模型中产品尺寸、公差的标注规则和工艺信息的表达方法。也改变了传统由三维实体模型来描述几何形状信息, 而用二维工程图纸来定义尺寸、公差和工艺信息的分步产品数字化定义方法及其设计制造模式[3]。

MBD技术涉及产品研制周期中不同阶段信息要素, 如总体设计信息、结构设计信息、工艺信息、制造和检验信息等。三维标注技术作为MBD的数据基础, 即是将飞机研制中面向不同阶段、不同对象所涉及的几何及非几何信息集成到三维模型之中, 体现设计者的设计思路, 产品的制造工艺, 同时保证了数据的标准性、唯一性。

从本质来看, 三维标注是一个产品数字化定义的过程, 三维标注所涉及的信息保证了飞机设计及制造的正常运行, 这使得无论是产品的几何设计信息, 还是非几何制造工艺信息都可以在三维模型空间上表达, 从而省去二维工程图, 实现设计制造过程的三维化, 使其更加直观、明确[4]。三维标注在CA-TIA中的示例如图1所示。

三维标注信息中除尺寸和公差外, 还包括零件的属性信息、零件的材料信息、零件的注释说明、零件加工工艺过程所必须提供的产品描述性定义信息、装配连接定义等[5]。这些信息数量大, 类型多, 贯穿于整个飞机设计制造流程[6]。所以, 构建三维标注信息本体, 以促进人工智能在三维标注上的应用, 可以极大提高三维标注的效率, 是十分必要的。

1 本体构建流程

本体构建是本体形成的具体过程, 其构建方法直接关系到整个本体能否成功建立, 能否实现预想的功能。关于本体构建, 目前一致认同的是:规范化的领域知识本体的构建应该基于一定的专业领域, 在领域专家的参与和协作下, 遵循某种构建知识本体的方法。当前有很多通用本体构建方法, 如TOVE法[7], METHONTOLOGY法[8]等, 这些方法各有特点, 也都有不完善之处。本文在这些方法的基础上, 参考文献[9], 结合所研究问题的特点, 提出了飞机三维标注信息元素本体构建方法, 如图2所示。

本体的构建步骤中, 数据收集、本体评价和形式化描述都有较为通用的方法, 可适用于各种不同的本体, 因此, 本文针对三维标注的具体特点, 重点说明领域知识分析、概念和类的定义两个部分的内容。

2 领域知识分析

数字化设计中存在不同的设计阶段和层次, 每个阶段主要涵盖不同的标注信息, 这些主要是根据标注对象的不同而划分的, 标注的对象是机加件、钣金件还是装配件, 都会给标注带来各自的内容特点。但分析这些标注对象可以发现, 标注内容都有其共同的格式和关联, 即本文的基本标注类别。整个飞机的设计标注过程实质上是这些基本标注类别的集合。

根据飞机设计制造过程中的标注流程, 结合具体经验, 提取出飞机三维标注过程中基本标注类别, 这些标注单元按照几何信息标注和非几何信息标注分为两大类, 具体如下。

2.1 几何信息标注

(1) 基准标注:表示有形位公差要求的理论精确点、轴线或平面的定位基准; (2) 几何图形公差标注:表示有形状和位置要求的几何特征; (3) 尺寸标注:表示有配合的尺寸或功能要求的尺寸; (4) 粗糙度标注:表示有特殊要求的表面特征; (5) 连接定义标注:表示装配件中零件之间的连接关系; (6) 密封定义标注:表示零组件的密封区域和密封工艺。

2.2 非几何信息标注

(1) 模型编号标注:零组件、装配件的编号; (2) 模型名称标注:零组件、装配件的名称; (3) 产权标注:模型的产权所有者; (4) 材料描述标注:包括材料的牌号、材料状态、材料规范和毛料尺寸; (5) 设计依据标注:包括协调单或其他协调类文件; (6) 模型属性标注:包括模型重量、有效性、阶段标识、对称性、对称说明、单元件类别、版次、更改说明等; (7) 工程注释标注:包含通用附注、旗注说明。

几何信息标注与非几何信息标注语义元素两部分包含的内容可以涵盖三维标注中涉及到的大部分元素, 通过基本标注单元的提取, 将整个飞机数字化设计三维标注过程进行归纳, 得到一个具有代表性的简化模型, 以此来代替整个飞机标注操作。

3 本体的形成

数字化设计包括各种概念性、规则性、经验性和过程性的知识, 其中的大部分将通过三维标注展现出来。所以, 三维标注信息的数据模型包含大量的知识内容, 不仅包括产品的几何数据, 还包括设计依据、没学术性、工程注释、过程元素等多方面知识, 是相当复杂的。为方便描述三维标注信息的数据模型, 本章采用基于元数据的方法建立其概念和层次关系。

元数据是帮助查找、存取、使用和管理信息资源的信息。在这个定义里, 元数据既适合于电子资源, 又适合于非电子资源;不仅包括编目信息, 也包括其他存取和管理资源的信息[9]。

采用元数据技术描述三维标注信息本体的概念模型, 主要包括业务元数据、联系对象和数据模型。业务元数据是用来描述有标注对象的信息;数据元数据表达标注文件的属性并指明文件在计算机网络中的存储位置, 数据文件就是数据元数据中指针所指的物理数据。联系对象可以将业务元数据和数据元数据以及数据模型在逻辑上集成为一个整体, 将其组成为完整的标注文件。

下面首先对不同的业务元数据进行定义。

(1) 几何信息业务元数据 (Geometric information Business meta-data, GIBD) , 描述三维模型所涉及的几何标注信息, 包括基准标注、几何图形公差标注、尺寸标注、粗糙度标注、连接定义标注、密封定义标注等方面的标注业务元数据属性。

(2) 数模信息业务元数据 (Mathematical model information Business meta-data, Mm IBD) , 描述三维模型相关的基本对象属性, 包括零部件标识号、名称、更改号、以及处理状态等业务元数据属性。

(3) 过程信息业务元数据 (Process information Business meta-data, PIBD) , 标注过程中所涉及的过程元素, 以及外部参考信息等业务元数据属性。

(4) 数模属性业务元数据 (Mathematical model property Business meta-data, Mm PBD) , 表示数模对应的主要属性信息, 包括模型重量、有效性、阶段标识、对称性、对称说明、单元件类别、版次、更改说明等业务元数据属性。

(5) 规范基准业务元数据 (Specification and Datum Business meta-data, SDBD) , 描述与产品零部件有关的各种各样的资料文件, 如设计标准、设计准则、制造要求等业务元数据属性。

(6) 材料信息业务元数据 (Material information Business meta-data, Mi BD) , 描述数模所对应实体的材料信息, 包括材料的牌号、材料状态和毛料尺寸等业务元数据属性。

(7) 工程注解业务元数据 (Engineering comment Business meta-data, Ec BD) , 描述数模中的工程注解标注信息, 包括注解文本、旗注说明等业务元数据属性。

(8) 审签信息业务元数据 (Audit information Business meta-data, Ai BD) , 描述数模中完整的审签流程信息以及发布信息等业务元数据属性。

与业务元数据对应的为数据元数据, 分别为几何信息数据元数据 (Geometric information Data metadata, GIDD) , 数模信息数据元数据 (Mathematical model information Business meta-data, Mm IDD) , 过程信息数据元数据 (Process information Business metadata, PIDD) , 数模属性数据元数据 (Mathematical model property Business meta-data, Mm PDD) , 规范基准数据元数据 (Specification and Datum Business meta-data, SDDD) , 材料信息数据元数据 (Material information Business meta-data, Mi DD) , 工程注解数据元数据 (Engineering comment Business meta-data, Ec DD) , 审签信息数据元数据 (Audit information Business meta-data, Ai DD) 。不同类型的数据元数据除继承其对应的业务元数据的属性, 同时记录了这些数据文件的格式、使用的系统、在计算机中的储存方式等属性。

通过上文对元数据进行的分析, 对大量的三维标注内容进行总结, 可定义其本体为一个三元组。

其中, C表示标注信息数据中概念实体元素的集合, 描述的是产品数据本体中的概念或类, 与上文所提到的元数据相对应;E表示标注信息数据中概念实例元素的集合, 描述的是产品数据本体中的实体的集合, E集合中的元素E (i) 与C中的元素C (i) 一一对应;R描述标注信息数据中概念间的相互关系, 概念之间关系主要有聚集关系 (“part-of”) , 表达概念实体之间的部分与整体之间关系;继承关系 (“kindof”) , 表达类中的父类与子类的关系;同类关系 (“same-as”) , 表达概念之间为同一类别与层次;实例关系 (“instance-of”) , 表达概念实体与概念实例间的关系;属性关系 (“attribute-of”) , 表达概念实体键的属性关系等。

对标注信息本体的元数据进行定义后, 需要明确其层次关系, 才能完成本体构建。参考文献[10], 结合上文提到的标注信息元数据定义, 得到了三维标注信息基于元数据的数据本体的体系结构, 如表1所示。在该本体的体系结构中, 标注信息数据元模型层主要包括其业务元数据、联系元数据以及数据元数据;模型层主要针对业务元数据、联系元数据和数据元数据进行进一步地分解, 从而得到元模型的实例。实例层描述的是由这些模型层所描述模型的实例组成的具体标注信息实例。

上文中定义了三维标注信息中的元数据的概念, 继续完成其层次关系的定义编完成了本体框架的搭建, 并可以通过概念和关系的填入, 使本体逐渐成形。由于在本体中, 层次关系是最重要的关系, 它确定了概念在本体中的位置, 确定了概念的上下层关系, 因此, 它是关系分析中重要的组成部分。层次关系的确定是一个复杂的过程, 在文献[11]方法的基础上, 首先判断新概念所属的基本概念, 然后从这个基本概念开始, 逐层细化, 不断与此概念的子概念进行比较, 最终确定新概念的层次关系。具体步骤如下:

Step1根据经验, 确定一个包含概念C的基本概念C0。

Step2选取C0的子概念C1i, 比较C与C1i的层次关系。若C1i的概念层次高于C且C1i包含了C, 则取C1i的子概念C2i, 比较C与C2i的层次关系, 以此类推。直到Cni, 转Step3;若C与C1i有相同的层次关系, 则转Step4。

Step3若Cni存在子概念Cin+1, 则转Step5;否则转Step7。

Step4取C1i的层次关系即为C的层次关系, 更新本体。

Step5比较C与Cin+1的层次关系, 若Cin+1为C的子概念, 则转Step6;否则转Step7。

Step6取Cni为C的父概念, 更改Cin+1的父概念为C, 更新本体。

Step7取Cni为C的父概念, 更新本体。

本体模型往往需要囊括一个领域中所有的知识, 强调知识的完备性, 因此本体的建立是一个不断重复、不断迭代的过程。同时, 建立好的本体还需要保证其可扩展性, 能够随着知识的发展变化而不断更新完善, 以符合实际情况, 满足使用的需要。在建立和更新的过程中, 当有新的概念要加入时, 只要重复以上的步骤, 就可以完成相应的工作。

4 应用实例

上面是经过深入分析飞机数字化设计中三维标注知识, 并且对原始数据进行再处理后得到的有关三维标注知识本体的一个数据模型。根据以上分析结果, 参考某型号飞机的翼肋标注内容, 给出了其本体的数据模型, 如图3所示。标注信息本体将某型号翼肋的多方面标注信息联系到一起, 设计人员根据需求在对相似翼肋或对该翼肋改进进行标注时, 只需从这些子数据特性表中选择相应的实例或作出简要修改就可快速、准确地得到满足设计及工艺需求的标注。同样可采取这样的方式描述组成飞机三维设计中的其他钣金件、装配件等。这样就构建成一个完整的三维标注数据模型。该数据模型可方便、准确、快速地为MBD中的三维快速标注提供所需的数据。

为使本体从自然语言的表示格式转化成为机器可读的逻辑表达格式, 从而可以直接被计算机存储、加工、利用, 并且在不同的系统之间进行互操作, 还需要使用本体描述语义对本体进行形式化描述。本文采用框架表示法对三维标注知识本体进行描述, 其BNF (Backus Normal Form, 巴科斯范式) 描述形式如图4。图4中标注知识由两部分组成, <Knowledge Head>是对知识的一般描述, 使知识更易识别, <Problem Domain>是问题描述, 包含了三维标注信息的层次结构和标注内容。

5 结论

本文提出的MBD中三维标注信息数据本体, 能够对飞机三维标注所涉及的元素进行一致性的存储和描述, 可快速为设计者提供有效、准确的标注信息数据。通过对飞机三维标注信息进行分析, 建立了三维标注信息中的元数据, 在此基础上, 形成了标注信息的本体框架, 建立了标注信息知识本体。最后, 给出了某型号飞机翼肋的三维标注信息数据模型。本文通过建立三维标注知识本体, 为MBD中的三维标注信息的快速标注和重用奠定了基础。

参考文献

[1]冯潼能, 王铮阳, 宋娅.MBD技术在协同设计制造中的应用[J].航空制造技术, 2010, 18:64-67.

[2]符磊, 余剑峰, 张杰.基于多级骨架模型的关联设计方法研究[J].锻压装备与制造技术, 2013, 48 (4) :94-98.

[3]周秋忠, 范玉青.MBD技术在飞机制造中的应用[J].航空维修与工程, 2008, 3:55-57.

[4]周秋忠, 查浩宇.基于三维标注技术的数字化产品定义方法[J].机械设计, 2011, (1) .

[5]刘俊堂.全三维飞机设计技术及其应用[J].航空制造技术, 2010, 20 (18) :68-71.

[6]李晓枫, 王仲奇, 康永刚.基于DELMIA的装配过程仿真及其在飞机数字化柔性工装设计中的应用[J].锻压装备与制造技术, 2012, 47 (6) :92-95.

[7]Mike Uschold, Michael Gruninger.Ontologies:Principles, methods, and applications[J].Knowledge Engineering Review, 1996, 11 (2) :93-155.

[8]Fernandz, Mariano.Overview of Methodologies for Building Ontologies[C].In Proceedings of IJCAI99’s Workshop on Ontologies and Problem Solving Methods:Lessons Learned and Future Trends, 1999.

[9]赵庆峰, 鞠英杰.国内元数据研究综述[J].现代情报, 2003, 11 (11) :42-45.

[10]顾巧祥, 祁国宁, 纪杨建, 等.基于元数据的产品数据本体建模技术[J].浙江大学学报:工学版, 2007, 41 (5) :736-741.

本体构建方法 篇9

1 本体模块化定义

目前没有明确的定义本体模块,一些研究已经开始探索模块的定义。文献[2]提出了模块化本体形式化的表示方法,并提出了模块化本体工程和半自动的模块化本体开发方法。Paul Doran等人基于本体重用目的定义了模块概念,Heiner Stucken-schmidt等人定义了本体模块的通用结构,但不清楚地反映了特征模块,B.Cuenca Grau认为本体模块化类似于软件工程模块化,使用一致的和良好定义的方法,使大规模本体可以分解成更简单的本体即本体模块。

本文在参考以上文献的基础上,定义本体模块如下,其中Sig()表示出现在中的符号集合,特别是本体模块,表示的符号出现在本体模块,M1⊎ M2说两个连接本体模块。

定义1 设O为本体,M1∪ M2= M ,如果满足以下条件,则M1和M2称为M的本体模块

3) 存在公理

定义2若

定义3且对于任意模块

2 领域知识模块化

1)同一类别的概念形式相同的本体模块的概念不同的类别分为不同的本体模块。

2)复用率较大的概念集合形成独立的本体模块。

3)同一知识集合的不同分类法应形成不同本体模块。

4)常常需要更改和维护的概念集合形成独立本体模块。

基于模块化定义和以上原则,本文在物流系统中划分的模块如图1,图2所示:

3 本体模块化连接方法

形成一个特定的背景下,有必要有一个目的定义一些概念,属性,限制,连接两个本体模块。等形式的背景下,运输货物运输、模块和货物运输模块连接,需要定义一些运输的概念,如定义cannot Transported By(不能由…运输)交通属性表达货物运输不能使用运输工具,再用Jena的规则连接两个本体模块。如用Jena定义的规则:

表达如果x的易爆属性(is Explosive)为真(ture),即具有易爆性,y是平车(Flat Car),那么x不能由y运输(?x ns Transport:cannot Transported By ?y)

图3 为货物和运输本体模块连接本体模块形式运输上下文的一部分,环境也可以通过这种方法,另一本是不同一个列表。

4 结语

在本文中,我们给出的定义本体模块、本体模块化技术领域本体建设,该模块本体建设的基本单位,并结合上下文,使用规则以松散耦合的方式组装进身体,减少设计和实现的困难,解决大身体很难重用和维护,以及应用困难等问题。并以物流领域为背景,验证了这一方法的可行性,取得了比较好的效果。

摘要:针对领域本体在构建过程中,由于概念众多造成本体文件过大,推理复杂等问题,介绍了模块化本体技术领域本体建设、本体模块本体建设的基本单位。结合上下文,规则以松散耦合的方式组装本体,减少设计和实现的困难,解决大身体很难重用和维护,以及应用困难等问题,并将这一技术应用到物流系统中,取得了较好的效果。

民法基本原则的方法、本体与规范 篇10

[关键词]民法基本原则;方法论;本体论;规范论

围绕我国民法应构建哪些基本原则,学界存在广泛争议,至今未形成统一观点。然而,这些研究多局限于对《民法通则》第3条至第7条的条文解释上,这种纯法条解释必然使所确立的民法基本原则缺少理论底蕴。并且,既有研究均主要关注民法基本原则的本体,对其方法论的研究尚未深入展开,对民法基本原则与民法具体规范之间的关联性也缺乏应有的关注。王立争博士的专著《民法基本原则专论》一书另辟蹊径,将民法基本原则的研究推向了方法论、本体论和规范论三重层面,学术视角新颖,学术观点创新。

一、民法基本原则的方法论拓展

该书首先开辟了民法基本原则两个崭新的方法论领域,即以民法的性质和民法的人性假设作为构建民法基本原则的方法,并将民法的性质论与人性论作为构建民法基本原则的精神基础,并在此基础上推演民法基本原则的本体构成。

该书认为,民法的性质可抽象为民法的谦抑性,其又包括有限性与宽容性两个方面。民法的有限性,意味着民法不对当事人可以通过意思自治决定的事项进行强制性规定,民法规范主要是对当事人意思自治的补充。相应地,民法应减少强制性规范的配置,而增加任意性规范的供给。民法是任意法,意味着民事主體可根据自己意愿设立、变更、消灭法律关系。民法是任意法同时意味着民法多为任意性规定,民事主体可做出不同于法律规定的约定。

民法的宽容性,意味着民法介入人类行为领域时,应当有尊重、保护、扩大民事主体自由和权利的极大同情心、自觉心和责任心,对于人性、人的价值和尊严、人的现实生活和幸福、人的发展和解放给予关注,并以此为自己的发展方向和奋斗目标。民法是权利法,对于民事主体所享有的权利的尊重,必然要求民法具有宽容的胸怀。民法是市场经济的基本法,是因为市场经济的发展,需要主体在平等的前提下根据自己的意愿与他人进行财产交易。对民事主体的这种自由交易行为,民法也应体现出应有的宽容。

近代人性论之历史语境为人性恶理论,关注的是人的欲望、自由与理性,其核心价值取向表现为:人作为独立之个体有权合理地追求自身欲望之满足并最终达到利益最大化。该价值取向经过其他学科之论证,最终成为近现代民法之价值指称,近现代民法据此做出了如下价值判断:第一,民法中的人是性恶论意义上的人,是理性人,从而于本体论方面确定了人作为私法主体之唯一性、独立性、自足性;第二,既然每一个私法主体均为性恶之人,则民法为实现私法正义目标,自应赋予每一主体以平等地位、独立人格以及意志自由,进而使其行为一方面具有自主性、排他性(针对自身权利),另一方面具有了限定性、自律性(针对他人权利);第三,人身保护与财产保护是人实现自身价值目标之最重要手段,是支配每一个利己主体之主导性力量。

二、民法基本原则的本体论塑造

按照民法谦抑性的要求,民法必须高扬人的主体性,肯定人的尊严与价值,肯定人与人之间的相互平等,并对这一关系做出民法解释;另一方面,它旨在弘扬自由的精髓,肯定有限制的自由主义的价值,肯定人与人关系中的自由,并对这一关系做出回答。前者要求肯定主体的地位一律平等,并对主体享有的私权进行全面保护,并由此推演出民法的主体平等原则与私权保护原则;后者要求必须尊重主体在治理民事关系中的主观自由,并由此推演出民法的意思自治原则。

民法的人性假设也对上述原则给予了理论支持。从人性角度,人类的纯粹欲望存在于自然状态中,而这种欲望在民法上的首要体现,便是私有财产权制度的全面建立。人对欲望的追求,还必须以主体享有独立人格为前提,于是,民法赋予每个主体独立的人格权;主体之间形成的身份关系在民法上也应当有相应的体现,这就是身份权。对人的财产权和人身权予以全面保护,意味着私权保护原则生成。人性恶价值判定与近代民法之人格抽象具有逻辑同构与价值同构之双重关系。从逻辑层面而言,人性恶判定以人类之伦理底线为基准,以人之生存、发展为前提,探讨人之行为,主要是经济行为对人之重要意义及其历史必然性。易言之,惟有人性恶理论前提下始得探讨人类之平等。从价值层面而言,性恶论奉行的不是一种“理想”而是一种“理性”,其要求“不为恶”。直而言之,人性恶价值判断使世俗之人具有了统一之逻辑前提与价值前提,于法律上获得了统一而平等之人格内蕴。于是,主体平等原则得以建立。法律规定了民事主体的权利以后,权利人还需通过自己的行为来主张和行使权利,同时法律还应维护因此而形成的民事关系。理性人假设与人的意志之间的紧密联系甚为显然,其预设的是人有对自己利益的独立判断意志。因此,民法应当有对民事主体依自己意志所形成的各种民事关系予以尊重的内容,这就是意思自治原则。

不仅如此,人性假设基础之上还可进一步演化出诚实信用原则、公序良俗原则和禁止权利滥用原则。私权保护观念在19世纪达致顶峰,由于其过分强调个人利益而忽视他人和社会公共利益,导致个人随意滥用其私权而损害他人和社会利益的现象时有出现。于是,19世纪末20世纪初,权利之享有和行使应有限制观念,上升到主要地位。如果私权行使超过必要限度即构成权利滥用,这就是禁止权利滥用原则。诚信是市场经济发展的基石,如果不从民法角度对人的自治范围进行限制,必然会破坏市场经济秩序的良性运转,与民法的市场经济基本法性质甚为不合。因此,民法必须建立诚实信用原则。在个人利益与国家利益之间也应当有适当的限制,这就是公序良俗原则。公序良俗原则的背后隐藏的是社会利益和国家利益,尤其是在法律不足以评价主体权利享有和行使是否滥用之时,公序良俗原则起到对意思自治之外部限制的作用,从而维护社会利益和国家利益。

该书在塑造了上述“正反面、六原则”体系的同时,还提出了一系列创新论点,如其认为诚实信用原则不属于民法的“帝王条款”、公平不应当属于民法基本原则、应以社会利益为基准界分诚实信用原则与公序良俗原则等等。

三、民法基本原则的规范论表达

本体论上的“正反面、六原则”体系,在逻辑结构上又是围绕权利这一民法最为重要的范畴而展开。私权保护原则首先肯认了民法对权利的一般性保护立场,而主体平等与意思自治的确立均是为了确保民事主体更好地享有和行使权利;诚实信用、公序良俗和禁止权利滥用无疑是对民事主体所享有权利的一种限制。由此,如果从权利角度解读民法基本原则,则可将其基本范畴概括为权利提倡、权利行使与权利限制。据此,该书将民法基本原则的研究推向规范论层面,分别对民事行为能力制度、准民事法律行为和取得时效制度进行了理论反思与重构。

民事行为能力制度,涉及民事主体有无资格通过自己行为行使权利的问题,该书将其置于权利提倡规则下进行阐释。自然人行为能力的具体样态,有两种立法模式,即法国二分法和德国的三分法。我国《民法通则》采纳了后一种模式。目前我国学界就二分法之立法并未有深入研究。但该书认为,无行为能力制度之设计,不能对无行为能力人提供有利保护,亦难兼顾交易安全。而二分法下撤销权制度之设计,不仅克服了无行为能力人的法定代理人无追认权之缺陷,而且对无行为能力人之保护更加周到,同时对方当事人的催告权、恶意抗辩权以及撤销权排除的规定,亦可兼顾交易安全,较三分法为优。因此,我国未来立法应当废除无行为能力制度,改采二分法。

准民事法律行为,是民事主体行使权利的一种重要方式,该问题在我国学界至今没有专题研究,该书将其置于权利行使规则下进行论述。准民事法律行为是不同于民事法律行为、也不同于事实行为的一种民事法律事实,它同样可引起法律关系的变动。准民事法律行为主要表现为意思通知、观念通知和感情表示三种样态。准民事法律行为准用民事法律行为的规则时,有可以直接准用、不能完全准用和完全不能准用三种情形。

取得时效制度,是民事主体取得权利的一种重要方式,既有研究忽视了其本质上也是一种权利丧失的原因,该书将其置于权利限制规则下予以重构。该书提出了恶意失权作为取得时效理论基础的观点。恶意失权强调权利人明知或应知有权利而不行使,导致社会秩序形成,从而使其丧失权利。在逻辑顺位上,先有权利人明知或应知有权利而不予行使,再加上占有人占有之外在事实,方有社会秩序之形成可能,它更加注重的是社会秩序形成的背后理论根源。通过将取得时效的理论视角转换为恶意失权,可重新构造取得时效的起算点、中止、中断等具体制度。

四、结语

民法基本原则身兼民法之“灵魂”和“神经”两种机能,对民事法学理论和私法实践具有“中枢”意义。该书不是对民法基本原则的概念、特征、功能等问题进行重复性研究,而是在方法、本体、规范三重维度下对民法基本原则进行阐释,将民法基本原则的理论价值与实践意义充分彰显。当前,我国主要民事单行法律均已制定完毕,下一步民事立法重点就是起草民法典或民法总则。未来的民法基本原则体系,一定要克服现有规定的缺陷与僵化,在方法——本体——规范的有机衔接方面着力,使民法基本原则的核心价值得以全面展现。

[参考文献]

[1]王立争.民法基本原则专论[M].合肥:安徽大学出版社,2010.

[2]刘云生.民法与人性[M].北京:中国检察出版社,2005.

[3]肖厚国.所有权的兴起与衰落[M].济南:山东人民出版社,2003.

[4]徐国栋.民法典与民法哲学[M].北京:中国人民大学出版社,2007.

[作者简介]齐恩平(1966—),男,天津商业大学法学院教师,法学博士,研究方向:民法学。

本体构建方法 篇11

计算机应用广泛, 计算机软件众多, 计算机已渗透到各个行业, 而且更新速度特快。

在软件知识缺乏系统性、内容繁杂的情况下, 我们不可能使用传统的方法循序渐进地、熟练掌握各种计算机软件知识。实际上存在“二八现象”, 就是80%的人使用20%最常用的软件, 比如Excel的决策模拟等功能很少人使用, 课堂教学不可能学习软件的全部功能, 更新太快又使得我们在学校进行计算机软件教学时不可能是最新的软件, 软件教学总是有一定的滞后性。根据软件的特点, 教学上选择的软件是最最常用的, 也只能教给学生最常用的功能, 而且软件版本只能是相对比较新。这样又使得学生出去工作时软件知识不够用, 版本低等情况, 可以大胆推测, 学生工作后使用的软件或软件的功能80%是要自学的。

“授人以鱼, 不如授人以渔”, 这种方法必然是软件教学方法的更好选择。

2 软件学习模型

如图1所示, 它以Bostrom等提出的计算机学习过程模型为基础进行教学修改, 增加了用户模型。它集成了认知心理学、教育心理学、信息科学和计算机科学等学科的研究成果。

模型组成部分包括:

1) 目标系统。用户将要学习软件。

2) 心理模型。用户对目标系统形成的心理表达。研究表明要取得良好的学习效果, 必须建立起正确的目标系统如何工作的心理模型, 尤其是面对新问题, 需要用户做一定程度的发挥。

3) 用户模型。系统开发者对用户特征的理解和表达。它包括用户的物理特征以及认知特点。为了使用户界面的设计真正符合用户的需要, 必须有一个正确的使用目标系统的用户模型。

4) 训练效果。主要从两方面考虑:用户对系统的理解程度;用户对系统感兴趣的程度。从训练效果我们可以看出用户的心理模型正确程度。

5) 个体差异。用户特性如可视能力等的差异。它影响训练效果。

在该模型中, 软件学习可看成是随着用户对软件的了解的深入, 他的心理模型不断完善、越来越复杂的过程。从图1可以看出软件学习有三种方式:直接使用该系统;以已有的知识、经验为基础, 通过类比、分析;通过培训, 给用户讲授正确的用户模型。

3 理论基础——语义Web与本体

3.1 语义Web和本体含义

语义的目标是对现有的Web进行扩充使Web中所有的信息都有明确的含义。

本体是共享概念模型的明确的形式化规范说明。

3.2 本体的建构方法

一般说来, 建构一个知识领域的本体, 包括以下5个步骤:

1) 确定本体的领域和范围。

2) 列举知识领域中重要的术语、概念。

3) 建立本体框架。

4) 设计元本体, 重用已有的本体, 定义领域中概念之间的关系。

a) 定义类及其层次关系。

b) 定义类的属性。

c) 定义属性值和创建实例。

5) 对领域本体进行编码、形式化选用合适的本体描述语言, 对上述建立的本体进行编码, 形式化。

4 描述方法——半边图模型

图是知识表示的形式化模型。图由顶点和边组成, 顶点是知识表示中的基本概念、基本模式等知识单元的抽象表达, 即顶点表示基元模式;顶点有若干属性, 不同顶点的属性可以互相识别与结合, 这样, 顶点之间就实现了关联, 在图中用边表示顶点之间的关联。

半边图模型中提出一个比顶点和边更基本的图元素, 称为可结合半边, 简称半边, 在自组图中, 顶点的属性表示为半边, 不同顶点的半边依据可结合性而结合起来称为边, 边就表示了顶点之间的关联。半边实现语义层次上的信息共享和交换。

4.1 主要概念

半边:半边是组成顶点的基本元素, 一个半边属于某个顶点且分为不同的半边类型, 半边与其它的半边可以相结合, 每个半边有权值, 一般取大于0的实数。这里权值用来表达语义的本体相似度。

顶点:顶点是组成图的基本元素, 顶点本身由有序的若干个半边组成。具有i个半边的顶点, 称为i度顶点。这里顶点表达软件知识点。

半边结合类型:称有序半边类型对为半边结合类型, 表示什么类型的两个半边可以结合在一起, 所有的半边结合类型所成的集合。这里用于表达知识的共享、交换与类比。

4.2 自组图聚合

图聚合算法实际上是聚类算法, 聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。图就相当于抽象对象 (半边、顶点、边) 的集合, 图聚合就是对抽象对象的集合的分类。聚类算法的关键是对象之间相似性的评判标准, 不同的标准就会有不同的分类结果。任何一个具体的图聚合准则均涉及两个基本概念, 即图中的对象和对象之间的相似性。图中的对象有半边、顶点和边, 其中半边是组成图的最基本元, 但不能独立存在, 故不适合于作为图聚合的对象, 而顶点和边均为具有模式性质的独立基元要素, 所以适合于做图聚合的对象。图中的对象之间的相似性可以指顶点之间的相似性, 也可以指边之间的相似性。

4.3 自组图的归约

聚合子图是一些比较基本的、相对稳定的由基元要素构成的组合模式;若需认知更大范围的问题, 这些组合模式相对来说就可以认为是更高层次或更高观点下的“基元要素”, 也就是说, 在大范围、高层次的角度下, 组合模式可以看作是忽略细节内容的“点”, 只有这样, 才能有效地认知和处理复杂度不断增加的问题, 而不至于陷入过多的细节处理之中。

归约顶点:将图聚合为若干聚合子图后, 将每个子图对应为一个超顶点, 称为归约顶点。

归约半边与归约边:归约半边是归约顶点的半边, 是归约顶点与其它归约顶点相关联的工具, 不同的归约顶点的归约半边相结合构成归约边。

既然归约顶点与聚合子图相对应, 归约半边就应由聚合子图之间的各种可能关系类型抽象而得, 所以归约半边对应着聚合子图与其它聚合子图相交互的部分, 即聚合子图的子边界。而归约边对应着实际相连的分别属于不同聚合子图的两个子边界。按聚合子图的子边界之间的关系分析, 两个聚合子图之间的关系可以分为如下三种类型, 见图2-图4。

4.4 多层次自组织认知系统

使用半边图模型来抽象多层次自组织认知系统。

1) 可结合原子标识:可结合原子标识是基本的信息描述符号, 其核心特性为各原子标识之间的可结合性, 可结合原子标识与可结合半边相对应。

2) 简单粒:简单粒是可结合原子标识的组合体, 表示实际问题中的基本概念或基本模式, 简单粒与顶点相对应。

聚合粒:聚合粒是由简单粒通过可结合原子标识的结合性聚合而成的信息粒, 表示实际问题中的组合概念或组合模式, 聚合粒与半边图以及聚合子图相对应。将聚合粒对应为归约粒, 则聚合粒的相互作用则转化为归约粒的相互作用, 而归约粒在形式表达上与简单粒是一致的, 则归约粒之间的相互作用在形式上就与原子相互作用的运作规律保持一致。

3) 归约粒:归约粒是聚合粒的归约, 在形式上与简单粒的表达方式一致, 归约粒与归约顶点相对应。

4) 可结合归约标识:可结合归约标识是组成归约粒的基本要素, 在形式上与可结合原子标识的表达方式一致, 表示归约粒之间的相互作用, 其核心特性也为各归约标识之间的可结合性, 可结合归约标识与归约半边相对应。

5) 各个层次的信息粒之间的关系:初始层的信息粒只有初始层可结合原子标识和初始层简单粒, 这两种信息粒均来源于针对实际问题的人工原始设计。第一层可结合原子标识和第一层简单粒直接继承自初始层可结合原子标识和初始层简单粒, 第一层简单粒相互结合形成第一层聚合粒, 第一层聚合粒对应为第一层归约粒, 第一层聚合粒之间的关系抽象出第一层可结合归约标识。第一层归约粒传入第二层系统即为第二层简单粒, 第一层可结合归约标识传入第二层系统即为第二层可结合原子标识。以下类推。

5 语义、本体、半边图来构建新的计算机软件教学方法

5.1 计算机软件教学中本体的构建

当前计算机软件教学类比共享性差, 要想降低重复教学、学习带来的资源浪费, 提高学习质量, 需要形成更好的知识共享和重用机制。知识共享和重用的关键在于共享者对所共享的信息的含义要有一个共同一致的理解, 才能在语义层次实现信息的互操作, 进而实现更高层的、基于知识的智能应用。语义Web采用了本体的思想;本体是一种能有效表现概念层次结构和语义的模型, 提供对领域知识的共同理解, 确定领域内共同认可的词汇, 从而无论是人还是应用系统之间都能够有效地进行语义上的理解和通讯。也就是说, 本体使得不同软件的知识之间能够通信、共享和重用, 新的知识系统可以有

效地利用现有的知识系统, 而不必“从头学习”, 从而提高学习效率。

计算机软件种类很多, 每个软件包含许多知识点。计算机软件本体的构建实质就是研究单个知识点对象的属性特征和各知识点之间的相互关系, 使用本体技术将这些知识点及其相互关系形式化地表示并存储于计算机中。描述数据库分成3层, 底层是所有软件最基本操作, 高层是软件功能学习模型, 复杂的是中间层, 包含操作的描述以及各种操作之间分析、类比。

5.1.1 定义知识点类和类的层次结构

在本体中, 类的定义为共有某些属性而同属一组的一些个体的集合。类是本体中最主要的知识单元。多个类可以用“子类”关系组织为一个特定的层次

结构。最高层的类代表着最抽象的实体概念, 子类继承了其父类的抽象特性, 比其父类更具体或范围更小的实体概念。

如图5, 底层的就是知识点类, 在软件学习模型中, 首先使用方式1和3 (见图1) 来学习, 当掌握这些知识点后, 构建出上一层, 如学习了中的字体、字号等, 掌握后就是掌握了的字的设置。也就是一个知识点类。

5.1.2 定义知识点的相关属性

属性是关于类成员的一般事实以及关于个体的具体事实。在本体中, 属性能用来表述个体之间或者从个体到数值的关系。将个体关联到个体的属性称为对象属性, 将个体关联到数据类型的属性称为数据类型属性。

如“操作步骤”和“操作效果”是数据类型的属性, 值域为String。设定“”类具有“操作步骤”和“操作效果”属性, 这样就可以对类的个体“字号”等定义这两个属性。在软件学习模型中, 经过上一步的构建后, 这一步是构建知识点的属性。如字号的设置, 包含的属性有“操作步骤”和“操作效果”。

5.1.3 构造软件类

上一篇:系统有效性下一篇:直觉