基于本体领域资源构建论文

2024-09-03

基于本体领域资源构建论文(精选8篇)

基于本体领域资源构建论文 篇1

摘要:本体是一种知识重用、知识共享和建模的重要工具。构建本体的方法很多,本文提出了一种自顶向下的领域本体构建方法,可从一定程度上减少概念冗余度,并按此法构建了一个文学领域本体。

关键词:本体,本体库,本体的构建方法

近几年,网络文化呈快速发展态势,网络游戏、网络动漫、网络音乐、网络影视、网络文学、网络广播等迅速崛起,网络文化繁荣发展。随着网络文化的迅猛发展,在线文化内容日益庞大,如何在这海量的数据中识别出特定的内容也就显得较为困难。本体是一种知识重用、知识共享和建模的重要工具,领域本体库对于在线网络文化监控系统是不可或缺的,通过构建网络内容领域本体库可解决网络文化监控系统中内容识别的问题。

1 本体

本体最早起源于哲学,其所研究的是世界万物的本源,即所有事物的客观,真实的存在[1]。

1.1 本体的定义

在计算机领域中认为“本体是共享概念模型明确的形式化规范说明”。本体根据不同的属性,可以将其进行不同的分类,分类方法也很多。根据领域依赖程度,可分为顶级、领域、人物、应用四类。

1.2 本体的组成元素

本体的组成元素可归纳为以下[2]:

1)类或概念:指任何事务,如工作描述、功能、策略和推理过程等;

2)实例:各种元素;

3)关系:领域中概念之间的作用;

4)函数:一类特殊的关系,即用前n-1个元素唯一确定第n个元素;

5)公理:永真的描述。

1.3 领域本体的构建方法

Stanford大学的Noy和Hafner分析了早期著名的本体设计项目,并结合其开发和使用Progege 2000、Ontolingua等本体编辑环境的经验,给出了本体构建的七步法[3]:1)确定本体的领域和范围。即明确一些基本问题,以此确定本体的领域或范围;2)考虑对现有本体的复用。如果是对特定的领域进行细化或扩展,那么系统需要与其他的特定本体知识库或受控词汇的应用交互,则可对现有本体进行复用。3)确定本体的重要术语;4)定义类和类的继承;5)定义属性和关系;6)定义属性的限制;7)生成实例。

2 文学领域本体的构建技术

2.1 创建领域术语集

根据上述七步法,要构建领域本体库,首先要构建领域术语集,由于这方面内容和范围纷繁复杂,本文根据中国的“四分法”将文学文划为诗歌、小说、散文、戏剧四大类,本论文将根据这四方面建立本体库。

2.2 文学领域本体库的构造和实现

2.2.1 建立类

本文中采用自顶向下模式构建文学本体库,顶层本体为文学,第二层为诗歌、小说、散文、戏剧,第三层再逐步求精、进一步细化,在构建本体的时候,还需充分考虑本体之间的联系。因此,本文中的类图也按此分层,最终构造出文学领域本体库。这里以“小说”本体为例,给出部分类层次图,如图1。

2.2.2 建立类的属性

根据以上四个本体构建类的属性,这里以章回小说为例,列出部分属性如表1。

2.3 添加本体实例

在设计好类和属性之后,就可以添加各种类的实例了。创建类的实例类似于向数据库中的表录入数据,在属性图中已给出属性名及其取值范围。一个完整的本体由类、属性和实例组成。例如:小说本体中,章回类的实例为四大名著等;演义小说的实例为《隋唐演义》、《杨家将》、《东周列国志》、《明史演义》等。

2.4 本体库的存储方式

目前对于本体的存储方式主要有三种:纯文本存储方式、数据库存储方式以及专门管理工具方式。文本方式适合于数据量较少的小型数据库,而专门管理工具通用性及扩展性差。考虑到本项目中数据规模较大,检索需求较频繁,故采用MySql数据库存储本体。

3 结束语

本文中在构建本体类的时,借用了软件开发中自顶向下的思想。首先确立“文学”这一顶层本体,然后分化为“诗歌”、“小说”、“散文”、“戏剧”本体,再据此进一步细化。从而,可从一定程度上降低概念的冗余度。当然,采用此方法建立的本体库在进行实例添加时,会存在一些二义性,因为有些文学的划分范围存在交叉部分。

参考文献

[1]李善平.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052.

[2]GRUBER T R.Towards principles for the design of ontologiesused for knowledge sharing[J].International Jouranl of Humanand Computer Studies,1995(43):907-928.

[3]Noy N F,Mc Guinness D L.Ontology development 101:a guideto creating your first ontology[R].USA:Standford University.2001.SMI Technical Report.SMI-2001-0880.

基于本体领域资源构建论文 篇2

[关键词] 领域本体 本体构建 信息抽取

1 引言

随着计算机技术和Internet的迅猛发展,Web已成为跨全球的信息源,如何快速、准确地从浩瀚的信息资源中寻找所需的信息已经成为困扰用户的一个难题。检索不能只盯着字面,而应当关注字面下隐藏的“内容”[1]。如何才能确定一篇文章、一张图片、一段视频或者音频流的内容呢?以查全率、查准率和检索速度为评判标准的关键词检索很难有大的作为,基于内容的检索就成为研究热点。

目前Web数据大都以半结构化为主的HTML形式出现,缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确,对于数据查询是十分不易的,这使得应用程序无法直接解析并利用Web上的海量信息[2]。在这样的背景下,为了增强Web数据的可用性,出现了Web信息抽取(information extraction,简称IE)技术。Web信息抽取是将信息抽取技术应用于Web网页,其面向的对象不是纯文本文件,而是半结构化的网页文本。

在语义层次上,本体是Web 信息共享和交换的基础。将本体引入信息科学,就是从语义层次上考察事物的运动状态及状态的变化方式,把本体意义上的信息赋予更具体的内涵。因此,将本体应用到信息抽取可以从语义上消除歧义,提高信息抽取系统的抽取性能。目前,面向语义的Web 信息集成方法一般都基于本体,主要是利用对数据本身的描述信息实现抽取,对网页结构依赖少,而且本体提供机器可识别的领域概念知识及其关系,具有简单的推理能力,对抽取出的实体之间联系领域知识有识别能力。本文主要探讨信息抽取系统中领域本体的构建方法和Web信息抽取的实现。

在基于领域本体的信息抽取中,领域本体通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义,提供对该领域知识的共同理解,确定领域内共同认可的词汇,并从不同层次的形式模式上给出这些词汇和术语间相互关系的明确定义,实现对该领域知识的推理。这将为信息抽取提供统一的概念和术语标准,提高信息抽取的准确性。

2 本体

2.1 本体的涵义

本体最开始是一个哲学的概念,用来描述事物的本质。后来本体被用于人工智能、计算机等方面。在自然语言处理中,本体被认为是特定领域内概念及概念之间关系的集合,它能够有效地表达特定领域内的概念、实体、关系等通用知识。本体描述语言能够描述复杂的关系并具有简单的推理能力。作为一种有效表示概念层次结构和语义的理论和方法,本体已经被广泛应用于计算机科学和信息管理领域,并且被成功应用于构建新的智能信息组织和检索系统。

2.2 本体分类

本体按照研究主题分为5种类型:知识表示本体、通用本体、领域本体、语言学本体和任务本体。本体的研究和开发工作是在不同层次上进行的。根据本体的研究层次,可分为顶级本体、领域本体、任务本体和应用本体。①顶级本体。主要研究非常通用的概念,描述的是最普遍的概念及概念之间的关系,它们完全独立于特定的问题或领域,与具体的应用无关,可以在一个很大的范围内共享。②领域本体。研究与一个特定领域相关的术语或词汇,描述的是特定领域中的概念和概念之间的关系。③任务本体。定义通用任务或推理活动,描述的是特定任务或行为中的概念及概念之间的关系。任务本体和领域本体处于同一个研究和开发层次。④应用本体。描述特定的应用,它既可以应用特定领域本体中的概念,又可以应用出现在任务本体中的概念[3]。本文重点探讨领域本体的构建以及与信息抽取的关系。

2.3 本体构成

本体的具体构成过程,可以用下面的公式形象地给出。组成本体的5个基本的建模元语为:C,R,F,A,I。

本体(ontology)=概念(concepts)+关系(relations)+函数(functions)+公理(axiom)+实例(instances)

概念(concepts):其含义非常广泛,可以指任何事物,如描述、功能、行为、策略和推理过程等,本体中的这些概念通常构成一个分类层次。

关系(relations):关系代表了在领域中概念之间的交互作用。

函数(functions):函数是一类特殊关系。在这种)表示y是x的母亲。

公理(axiom):代表永真断言,是定义在“概念”和“属性”上的限定和规则,比如概念乙属于概念甲的范围。

实例(instances):属于某概念类的基本元素,即某概念所指的具体实体。概念的定义一般采用框架结构,包括概念的名称、与其它概念之间关系的集合以及用自然语言对该概念的描述。基本的关系有4种:part-of,kind-of,instance of和attribute of[3]。

在实际应用中,不一定要严格地按照上述5类元素来构造本体,一些轻量级的本体仅由C,R,I组成。同时概念之间的关系也不仅限于上面列出的4种基本关系,可以根据特定领域的具体情况定义相应的关系,以满足应用的需要。

3 基于语义的领域本体构建

3.1 领域本体构建模式

基于本体的信息抽取由领域内的相关概念、属性、关系、约束及术语或实例等构成。主要是利用领域本体对领域内数据的描述信息来实现抽取,本体的构建是信息抽取的基础与核心,领域本体构建的好坏将直接影响到信息抽取的性能,如何构建出良好的本体对提高信息抽取的精确度有直接的影响。但目前还不能构建出通用型本体,只能对特定领域构建。

首先要构建一个形式本体,即能进行形式化表达的本体论模型,然后用计算机软件形式表达出来,其一般构造方法可以设计成三段法。这样构造的形式本体论是一个动态系统,其概念、关系和软件均可根据发展的需要而不断更新。

第一段:概念化。所谓概念化就是确定某一领域的元概念。概念之间的关系可以包括同义关系、反义关系、属中关系、交叉关系、全异关系等。这与分类法和主题表有一定类似,但却没有分类法和主题表体系固定的限制,也不像分类法和主题表那样庞大。元概念选择可以根据需要增减,以这些元概念为核心,再根据信息学内容和表现形式进一步分类,就很容易与实际存在的信息或知识相连通。

第二段:模型化。在本体概念确定后,所谓模型化就是用图示法将某领域的元概念和元关系表示出来,构筑成形式本体论的关系模型,用网络联络。与普通树型数据结构的元数据不同的是,形式本体论容许各级概念的交叉渗透。

第三段:软件化。所谓软件化就是用适当的软件工具将本体论模型转化为能在计算机上运行的软件。由于形式本体论可以软件化,故适合用计算机处理,这是其特点和优点。一旦确定了本体论模型,就可以用程序设计语言将形式本体论表示出来,制成软件界面。而通过该软件界面就可以将世界上所有与该领域相关的信息资源、知识资源和研究资源联络起来,构筑成具有特定功能的系统。

3.2 本体的设计准则

本体的构建遵循以下准则:①清晰明了。本体必须能有效地说明所定义的类、概念、属性、属性值的含义。本体中所有的类名、概念、属性等术语应该能清楚地表达所要传递的意义,不能有二义性。②一致性。本体应该是一致的,即本体所定义的公理、某些推理以及本体的描述文档都应该具有一致性。③可扩展性。本体应该为可预料到的任务提供概念基础,并可支持在已有概念基础上定义新的术语,以满足特殊需求,而无需修改已有的概念定义。④简洁高效编码。概念的编码应该简洁高效,以便计算机容易处理。

3.3 本体的构建步骤

以领域本体为例,构建步骤如图1所示:

3.3.1 需求分析确定领域本体的应用目的、领域与范围、表示方法与用途等。

3.3.2 罗列领域中重要的概念、术语在领域本体创建的初始阶段,尽可能地列举出该领域内所有够看到、想到的概念和术语。

3.3.3 构建领域本体框架罗列出领域中大量的概念、术语,这是一张无组织结构的汇表,需要按照一定的逻辑规则对它们进行分类形成不同的子领域,在同一子领域下的概念、术语相关性较强。另外,对其中的每一个概念、术语重要性要进行评估,选出关键性的概念、术语,放弃那些不必要或者超出领域范围的概念、术语,确立概念及概念间的等级关系,尽可能准确而简要地表达出领域的知识,从而形成一个领域知识的框架体系,得到领域本体的框架结构。构建领域本体框架包括:①定义领域本体中的类,即划分子领域本体;②定义领域本体中的概念及概念间的关系,采用自上向下的方法定义领域本体中的概念(先定义领域中综合的、概括性的概念,然后逐步细化说明);③定义属性值(属性值既可以是一个具体数值也可以是一个描述),即通过属性值来说明属性的取值类型、值个数及有关值的其他特征;④创建实例,即创建概念的特征词。

3.3.4 对领域本体编码、形式化选用合适的本体描述语言对上述所建立的领域本体进行编码、形式化,以便对领域本体进行计算机处理。

3.3.5 领域本体的确认和评价评价包括本体的清晰性、一致性、可扩展性等方面[4]。

4 信息抽取

4.1 信息抽取涵义

信息抽取(information extraction)是从自然语言形式的文本中抽取用户感兴趣的事实、事件以及卷入其中的特定类型的实体等信息,并将这些信息转换为结构化的数据并存储的过程[5]。信息抽取是自然语言处理(natural language process,NLP)和人工智能(artificial intelligent,AI)结合的结果,是从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出,供用户查询和使用的文本处理技术。广义上,信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据。信息抽取技术的最终目的就是从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库[6]。

4.2 信息抽取特征

信息抽取作为自然语言处理中一个发展很快的研究领域,有如下特征:①信息抽取是当前文本挖掘中最为突出的一项技术,这一技术结合了自然语言处理、语料资源以及语义技术,目前正趋于成熟;②信息抽取不是从文件集中选取一个与用户需求相关的子集,而是从文本中直接抽取与用户需求相关的事实或信息;③信息抽取是一个从无结构的自由文本或其他信息资源中抽取出结构化、无二义性信息的过程[7]。

4.3 信息抽取与信息检索

与信息抽取密切相关的一项研究是信息检索(information retrieval,IR)技术。信息抽取与信息检索密切相关,但二者存在差异,主要表现在三个方面:①实现功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。②处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合,不需要对文本进行深入分析;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。③适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息[8]。虽然信息抽取与信息检索有区别,但两种技术是互补的。在海量文本处理过程中,信息抽取系统往往以信息检索系统的输出为输入,而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地满足用户的信息处理需求。

4.4 信息抽取类型

信息抽取技术随着需求的增加而不断丰富,近年来国内外涌现出多种信息抽取方法,根据抽取原理和抽取方式的不同,分为以下几类:基于自然语言处理方式、基于包装器归纳方式、基于HTML结构方式和基于Web查询方式等。信息抽取系统各有其特点,但多采用基于模板和模式匹配,或者是采用基于统计的学习方法。这些方法都需要在前期准备大量的手工标注训练文本,然后对训练文本进行学习。但是训练文本不可能覆盖整个领域内出现的所有语言习惯。另外,信息抽取虽然能抽取出实体,但是缺乏领域知识来识别抽取实体之间的关系。要克服这些局限,其一是增强模板的知识表达能力,其二是运用某种歧义消解机制。针对这种情况,在Web信息抽取中引入一种能处理语义的基于本体的信息抽取技术[9]。

5基于领域本体构建的Web信息抽取的实现

5.1 基于本体的信息抽取

基于本体的信息抽取技术是一种把本体和信息抽取技术结合起来实现信息抽取的技术,近年来受到了广泛关注,已成为信息抽取研究的一个热点,并广泛应用于半结构化信息抽取技术中。基于本体的信息抽取技术主要是在信息抽取任务中引入相应的领域知识——领域本体来指导抽取过程 [10]。作为一种自然语言处理系统,信息抽取系统需要强大知识库的支撑。在不同的信息抽取系统中,知识库的结构和内容是不同的,但一般来说,都要有一个领域本体,该领域本体通常是面向特定领域或场景的,是通用概念层次模型在特定领域或场景的细化或泛化。基于领域本体的信息抽取系统能提供用户感兴趣的特定信息,并通过领域本体为信息源提供必要的语义标注信息,从而使系统对领域内的概念、概念之间的联系有统一的认识,有效地提高信息抽取的性能,提高信息抽取的准确率与覆盖率,并进一步提高系统的查准率和召回率,为用户提供更有价值的信息。

5.2 基于本体的信息抽取特点

本体信息抽取是新型的信息抽取方式,它利用本体网格而不是扁平结构的辞典与词表来识别抽取内容,本体信息抽取可以在语义层面理解抽取内容,从语义信息入手进行抽取,并可通过本体实例对抽取内容进行语义标注,可大大提高信息的召回率和精确度[11]。由于基于本体的信息抽取是一种基于本体、能处理语义的信息抽取系统,更为重要的是基于本体的信息抽取模型非常适合作为下一代Web技术的通用语义抽取模型,因为下一代Web技术——semantic Web是基于本体的Web技术。

5.3基于本体的信息抽取方法

5.3.1 知识工程的方法由专家对语料库本体进行分析、调整而人工制定规则、模板。根据选定的训练集中的数据来确定本体中出现的概念和关系,建立本体;手工统计概念和关系中出现的关键字,然后根据规则进行抽取。因为本体的构建和规则的制定是建立在特定的训练集上的,实际的抽取过程中如果抽取的文本结构和表述方式发生变化时,对于抽取的结果影响非常大。这种方法需要有经验的工程师来开发,个人的直觉能够对系统的性能产生很大的影响,性能较好,开发周期长。

5.3.2 自动训练方法给出根据本体中的概念进行标注的例子文档集,通过机器学习的方法来推导模板和模板的自动填充知识库和规则。也应用统计学的方法来抽取。使用这种方法的开发者并不需要掌握语言工程知识,但需要大量的经过标注的训练数据。如果需要对这类系统的核心数据进行修改,则相应的所有训练数据也需要重新标注[10]。

5.4 基于本体的信息抽取过程

基于本体的信息抽取的基本设计思路如下:在领域专家的帮助下,建立相关领域的本体。在构建完整的领域本体的基础上,收集信息源中的数据,并参照已建立的本体,参考本体论对异构信息进行标引,将概念关系生成标注规则,这些规则是抽取与领域相关的信息的一组原则,利用本体库得到的形式化地表达。还要利用这些概念关系参与文本的语法分析,把语法分析的结果和本体标注规则结合在一起生成信息标注器,再通过信息抽取器得到所需要的信息。本体论可以从语义信息入手进行抽取,这样可大大提高信息的召回率和精确度[12h]。基于本体的信息抽取过程如图2所示:

6 结束语

目前,基于本体的Web信息抽取技术的研究虽然取得了一定进展,但仍是一个新的研究领域,处于探索阶段。首先需要解决的问题是如何构建高质量的本体。本体的设计是一个创造性的过程,而领域本体的构建更是一个极具挑战性的工作。因为本体的建立需要领域专家的参与且需要耗费大量的人力和物力,特别是领域内实例术语的获取。依靠手工获得是不现实的,现在大量的研究致力于自动构建本体,自动获取本体的概念和关系,并利用信息抽取技术来自动获取本体中的实例。如何才能构建出高质量的本体,充分发挥本体的全部潜能,提高信息抽取的准确性是问题的瓶颈。其次,在一个新领域上建立信息抽取系统需要许多该领域专家和熟悉NLP (neuro-linguistic programming)系统的计算机语言学家的共同努力,既费时又费力。由于本体的自动构建技术还很不成熟,领域知识的自动获取还依赖于信息抽取技术。今后,只有提高本体的自动构建技术和信息抽取技术,使得两种技术相互促进,基于本体的信息抽取技术才能有个更大的发展空间。

参考文献:

[1] 陈立娜,张红,马莉.基于本体的旅游信息抽取.计算机应用软件,2010(4): 146-161.

[2] 陆进科,李新颖.基于Ontology的文本信息抽取.计算机应用研究,2003(7): 46-48.

[3] 宋炜,张铭.语义网简明教程.北京:高等教育出版社,2004.

[4] 于江德,李学钰,樊孝忠.信息抽取中领域本体的设计和实现.电子科技大学学报,2008(9): 746-749.

[5] 俞士汶,段慧明,朱学锋,等.综合型语言知识库的建设和利用.中文信息学,2004,18(5):1-10.

[6] 何召卫,陈俊亮.基于本体关系匹配的信息抽取.计算机工程,2007 (11): 207-209.

[7] 周峰,吴斌,石川.复杂网络构建中信息抽取技术综述.数字图书馆论坛,2008(6):28-33.

[8] 刘迁,焦慧.信息抽取技术的发展现状及构建方法的研究.计算机应用研究,2007(7):6-9.

[9] 陈静,朱巧云,贡正仙.基于Ontology的信息抽取研究综述.计算机技术与发展,2007(10): 84-91.

[10] 徐静,孙坦,黄飞燕.近两年国外本体应用研究进展.图书馆建设,2008 (8): 84-90.

[11] 徐萍,邵波.基于本体信息抽取的竞争情报预处理分析.情报杂志,2008(9): 33-38.

[12] 柳佳刚,贺令亚,陈山.基于Web的信息抽取技术现状与发展.福建电脑,2007(7): 48-49.

基于本体领域资源构建论文 篇3

1 本体模块化定义

目前没有明确的定义本体模块,一些研究已经开始探索模块的定义。文献[2]提出了模块化本体形式化的表示方法,并提出了模块化本体工程和半自动的模块化本体开发方法。Paul Doran等人基于本体重用目的定义了模块概念,Heiner Stucken-schmidt等人定义了本体模块的通用结构,但不清楚地反映了特征模块,B.Cuenca Grau认为本体模块化类似于软件工程模块化,使用一致的和良好定义的方法,使大规模本体可以分解成更简单的本体即本体模块。

本文在参考以上文献的基础上,定义本体模块如下,其中Sig()表示出现在中的符号集合,特别是本体模块,表示的符号出现在本体模块,M1⊎ M2说两个连接本体模块。

定义1 设O为本体,M1∪ M2= M ,如果满足以下条件,则M1和M2称为M的本体模块

3) 存在公理

定义2若

定义3且对于任意模块

2 领域知识模块化

1)同一类别的概念形式相同的本体模块的概念不同的类别分为不同的本体模块。

2)复用率较大的概念集合形成独立的本体模块。

3)同一知识集合的不同分类法应形成不同本体模块。

4)常常需要更改和维护的概念集合形成独立本体模块。

基于模块化定义和以上原则,本文在物流系统中划分的模块如图1,图2所示:

3 本体模块化连接方法

形成一个特定的背景下,有必要有一个目的定义一些概念,属性,限制,连接两个本体模块。等形式的背景下,运输货物运输、模块和货物运输模块连接,需要定义一些运输的概念,如定义cannot Transported By(不能由…运输)交通属性表达货物运输不能使用运输工具,再用Jena的规则连接两个本体模块。如用Jena定义的规则:

表达如果x的易爆属性(is Explosive)为真(ture),即具有易爆性,y是平车(Flat Car),那么x不能由y运输(?x ns Transport:cannot Transported By ?y)

图3 为货物和运输本体模块连接本体模块形式运输上下文的一部分,环境也可以通过这种方法,另一本是不同一个列表。

4 结语

在本文中,我们给出的定义本体模块、本体模块化技术领域本体建设,该模块本体建设的基本单位,并结合上下文,使用规则以松散耦合的方式组装进身体,减少设计和实现的困难,解决大身体很难重用和维护,以及应用困难等问题。并以物流领域为背景,验证了这一方法的可行性,取得了比较好的效果。

摘要:针对领域本体在构建过程中,由于概念众多造成本体文件过大,推理复杂等问题,介绍了模块化本体技术领域本体建设、本体模块本体建设的基本单位。结合上下文,规则以松散耦合的方式组装本体,减少设计和实现的困难,解决大身体很难重用和维护,以及应用困难等问题,并将这一技术应用到物流系统中,取得了较好的效果。

基于本体领域资源构建论文 篇4

本体 (ontology) [1]起源于哲学, 自20世纪80年代末90年代初被人工智能界引用至今。本体可以简单划分为通用本体和领域本体[2]。领域本体能够捕获相应领域概念、构建知识体系, 最后给出能够被认可的领域知识规律和特性[3], 而领域本体的出现为机器智能及知识服务奠定了重要基础。

在地质领域, 美国航天局提供的通用地球与环境本体SWEET[4] (semantic web for earth and environmental terminology) 是规范地球科学概念空间的重要本体, 也是本体技术在地理学的应用。英国地质调查局发布了OWL (ontology web language) 格式的地质领域概念描述, 并且在不断完善。

针对石油地质领域, Dickson M.Liadey研究石油生产相关的本体建造方法[5]。邓小亚提出基于多层次业务流程的石油勘探和开发领域本体库的构建方法[6]。杜睿山等利用叙词表将本体引入石油开发领域成功解决了该领域术语不统一、信息不共享的问题[7]。张茜茜等利用Protégé软件初步建立石油化工领域的本体框架模型来表示和组织石油化工领域知识[8]。

对于页岩气的领域本体尚无相关研究, 且目前构建本体的主要问题是概念关系表达过于单一, 虽然主题词表包含较全面的领域概念, 但同时仍存在许多主题词表无法描述的领域知识和语义关系, 因此单纯依赖叙词表或单一领域知识进行本体构建是远远不够的, 需整合各类资源并依据领域专家的指导, 进行完善的概念分类和语义关系定义, 从而构建真正有价值的领域本体。

2 页岩气领域本体的构建方法

自动构建本体是基于自然语言分析和机器学习方法抽取文档中的概念和关系, 是当前的研究热点和难点。而纯手工编辑本体大量耗时耗力, 除此之外, 目前可行的方案是复用已有的简单本体 (如主题词表) , 使用半自动的方法, 将可复用资源转化为本体。因此, 在遵循本体设计基本标准[9]的基础上, 采用基于扩展主题词表的页岩气领域本体的构建方法, 既能有效保留主题词表中的精华概念关系又能弥补叙词表的不足。

2.1 页岩气领域可复用资源

根据《石油主题词表》、《页岩气知识读本》、《非常规油气地质》、《地质汉语叙词表2010》、《中国石油探勘开发百科全书》、《石油地质学》等书进行页岩气领域本体的设计与构建, 以下就部分可复用资源进行简单介绍。

《石油主题词表》反映了石油地质领域的相关语义概念, 语义关系包括“用、代、分、属、参”, 共包含叙词15 349条, 非叙词1 590条, 共计16 939条, 参考了《汉语主题词表》、《石油工业汉语主题词表》、《PA叙词表》等重要资源, 是石油地质实现信息存储和检索必不可少的工具[10]。

《页岩气知识读本》首先对页岩气勘探开发中常用名词术语进行了规范性定义;并结合中国页岩气勘探开发实践, 分析了国内外页岩气生成富集理论研究进展和勘探开发技术现状;介绍了页岩气资源评价方法, 对中美页岩气资源评价方法进行了对比, 根据页岩气理论研究和勘探开发工作需要, 系统介绍了页岩气实验测试技术、页岩气地球化学勘查技术、页岩气地球物理勘查技术、页岩气钻井完井技术和页岩气压裂技术;简要分析了页岩气勘探开发可能产生的环境影响[11]。

其他可复用资源就不一一赘述, 但这些资源均是页岩气领域本体构建的重要参考。

2.2 页岩气领域本体构建方法

如图1所示采用自顶向下[12]的构建方法, 根据《地质汉语叙词表2010》搭建地学领域本体框架, 然后参照《石油主题词表》搭建石油地质领域本体框架, 再以页岩气为研究范畴, 根据《页岩气知识读本》及《非常规油气地质》进行页岩气属性关系的丰富, 再根据《中国石油勘探开发百科全书》《石油地质学》等进行页岩气实例的设计添加, 使用开源工具Protégé进行本体的构建与编辑。最后再由领域专家进行概念、属性关系及实例的增删归并, 优化领域本体。

3 页岩气领域本体的详细设计及实现

本体模型能够很好地表示和组织要刻画的术语和概念[13]。而在主题词表概念关系的基础上, 修改完善概念的属性、关系能够不断完善本体, 在页岩气本体设计过程中在面向知识的层面上关注了领域中概念、概念属性及概念间关系的分析研究。

3.1 概念及属性关系设计

根据前面所述参照资料及构建流程[14], 页岩气领域本体的构建设计模型如图2所示。其中灰色部分表示地学本体下的页岩气的形成框架, 即首先搭建地学本体框架, 然后丰富其中的石油地质框架, 再对石油地质中的石油天然气一般概念进行构建, 最后将其细化为常规天然气和非常规天然气, 最后对非常规天然气下的页岩气进行详细设计与实现。

针对图2中的深色部分, 即页岩气本体的具体分类, 其中每一类又涉及更多的概念, 可继续向下划分, 具体如下。

页岩气内涵:页岩储层特征、页岩气成因、页岩气类型。如图3。

页岩气地球化学勘查技术:井中 (罐顶气轻烃录井) 、地表 (微生物测量、放射性测量、水化学测量) 。如图4。

页岩气资源评价方法:动态法 (数值模拟法、物质平衡法、递减法) 、静态法 (成因法、类比法、统计法) 。如图5。

页岩气钻井完井技术:国外典型旋转导向钻井工具、页岩气井的完井方式、页岩气钻井完井技术差距、页岩气钻井完井相关技术。如图6。

页岩气基本分类:油页岩、炭质页岩、黑色页岩、硅质页岩、镁质页岩、钙质页岩和页岩。

页岩气实验测试技术:页岩气实验技术分类:含气量测定、岩石力学性质分析、岩石学分析、岩石物性分析、有机地球化学分析。

页岩气地球物理勘探技术:地震 (二维地震、三维地震、四维地震、岩石物理等) 、常规测井 (中子测井、声波测井、密度测井等) 、成像测井 (井壁成像、井边成像、井间成像) 、非地震 (电法、磁法、重力) 。

页岩气压裂技术:国外水平井分段压裂主体技术、影响页岩气储层改造效果的地质因素、影响页岩气储层改造的关键技术。

页岩气勘探开发进展:我国页岩气发展历程、我国页岩气实验测试技术存在问题。页岩气勘探开发环境影响:底面干扰、增加温室气体开发、影响人群及生态健康、水资源威胁、液压液使用的潜在污染风险、环境污染风险。

页岩气形成与分布:含气性、孔渗特征与微裂隙、有效页岩厚度、有机质丰度、有机质成熟度、有机质类型、矿物组成。

页岩气开发关键技术:储层评价技术、地质综合评价技术、实验分析技术、微地震监测技术、核心区评价技术、水平井钻井技术、测井评价技术、经济评价技术、资源评价技术、页岩储层压裂技术。

页岩气勘探潜力:中国页岩气资源潜力、全球页岩气资源潜力、页岩气勘探开发现状。

3.2 实例设计

为概念添加实例也是描述知识丰富本体的一个重要环节, 实例继承了概念的属性[15]。石油地质领域部分主要的实例是中国主要油气区、中国含油气盆地、烃源层、油气层、油气田、石油机构、人物、书籍等。页岩气部分丰富的实例主要是一些更加具体的盆地。如图7所示的沃斯堡盆地、阿巴拉契亚盆地等。

3.3 可视化构建

确定了领域的概念层级, 定义好概念的性质和关系后, 可以利用Protégé4.1编辑工具建造本体。

Protégé4.1的基本功能有添加、编辑、删除概念, 添加、编辑、删除属性, 添加、编辑、删除实例。图8~图10即在Protégé为概念添加定义、属性、实例及解释。

除此之外, Protégé4.1提供了支持中文的可视化工具Onto Graf, 如图11所示, 以页岩气钻井完井技术和页岩气资源评价方法为例:页岩气钻井完井技术是一种“Thing”;页岩气钻井完井技术是一种页岩气的具体描述, “相关于”水平钻井、完井、钻井泥浆、钻井证实的资源量等;页岩气资源评价方法是一种“Thing”;页岩气资源评价方法也是一种页岩气的具体描述;页岩气资源评价方法“分类为”动态法和静态法;动态法和静态法又具体分为更加细化的方法。

4 页岩气领域本体构建结果

4.1 轻量级页岩气领域本体构建完成

成功构建了轻量级的页岩气质领域本体, 包含概念3 785个, 概念和概念之间的关系达1 995个, 关系包括上下位词、相关词、等价词、英文词、族首词、正式词及属性定义等, 概念的实例共78个, 具体为中国主要的盆地和油气区等。详见表1。

图12~图14为页岩气领域本体可视化后的构建结果展示。

4.2 分析与讨论

构建的页岩气领域本体根据地质学科概念的特性, 在主题词表基础上增加了属性关系定义及实例部分。当然, 由于研究尚处于起步阶段, 文中构建的本体也存在一定问题, 仍有改进的空间。

(1) 仍存在一些不明确的概念分类, 还需更多的领域专家给出可靠分析;

(2) 属性和相关关系定义不全, 构建过程中发现仍存在无法精确描述的术语概念, 还需进一步细化以保障本体的严谨性。

5 总结与展望

5.1 总结

本文构建的页岩气领域本体主要实现了:

(1) 概念上整合了《石油主题词表》、《页岩气知识读本》、《非常规油气地质》、《中国石油勘探开发百科全书》等资源;

(2) 属性关系上改进了主题词表单一的“用代分属参”的简单模型, 增加了方法、定义释等关系;

(3) 丰富了页岩气领域的相关实例。

综上所述, 在概念、属性关系及实例的丰富使得页岩气领域知识表达更清晰, 定义更完整、结构更科学。能够提供给用户清晰的领域知识脉络, 有效提高专业人员的研究学习效率, 也能使初学者快速了解学科概况。因此, 使得页岩气领域知识重用成为了可能。

5.2 展望

基于本体领域资源构建论文 篇5

一、本体论概述

本体 (Ontology) 属于哲学方面的概念, 从哲学的角度来说, 它是对客观存在的一个系统的解释或说明, 关注的是客观现实的抽象本质。1993年, Gruber对此进行了新的定义, 认为“本体是概念模型的明确的规范说明”。后来, Borst在此基础上对本体理论进行了完善, 认为它是指共享概念模型的形式化规范说明。Studer对此进行研究与总结后提出“本体是共享概念模型明确的形式化规范说明”。“概念模型、明确、形式化、共享”是这一概念中的4大特征, 它们是在计算机人工智能方面有知识表达的意思。我们将本体理论运用到数字档案管理信息系统建设中, 对档案资源进行描述, 并统一数据采集模式, 从而实现信息资源的共享与提取。数字档案馆管理系统的主要功能包括借阅管理、档案录入、档案检索、档案备份与恢复等。

二、数字档案系统利用本体建模流程

档案管理系统中的本体是档案范畴内的专有概念, 用于表示某个专门领域范围内的全部知识。领域本体是专业性范畴, 可详细描述出某个学科内的关键词条与这些词条间的关系。有时描述的内容还涉及到该学科内颇有影响力的理论成果。具体来说, 档案领域本体就是针对查询功能的档案领域建模的结果。通过充分挖掘将与档案有关的所有查询操作均抽象为同一组概念。档案本体对现实活动中档案的解释, 是基于概念结构与抽象空间两个方面的, 属于一种系统化过程。创建本体的方法不是唯一的, 但能保证本体构建的正确性与完整性。本体构建流程包括四步:确定需求分析、创建共享词库、表示本体、客观评价本体。

本体中最基本的概念就是类, 定义本体中的类实际上就是明确类之间的层次关系, 并明确类的属性以及类之间的约束关系。对于概念层次的分析主要有3种方式:分别是自顶向下法、自底向上法、综合法。自顶向下法是指在某一领域中从最大的概念开始, 逐步添加子类, 从而将概念细化。自底向上法则相反, 是从最小的类定义开始, 逐步向上将这些相似的类组织在一起形成更大的概念。综合法是将上述两种方法结合起来运用的方法。不管采用何种方法, 均是从定义类开始。比如, 以档案本体为例, 采用自顶向下的方法, 其中, 最基本的类有档案与档案信息两个。在检索档案信息时, 用户可将题目、档案号、分类号、责任者、关键词等作为检索条件。因此, 顶层概念就是OWL Thmg, 中间层概念包括档案与档案信息, 底层概念中档案对应的是档案类别, 包括文学档案、历史档案、科技档案等;档案信息对应的是卷宗号、案卷编号、题名、文号、文种、密级、保管期限等信息。

三、利用Protege构建档案领域本体

根据目标客户的具体需求来建设档案管理信息, 以提高档案管理的工作效率。Protege是基于面向对象的JAVA的一种开发工具, 支持类、元类及属性的OKBC兼容。在利用该工具构建本体时共有4个步骤, 包括需求分析、确定类与所属层次、明确属性, 添加实例。在设计档案检索领域中的本体时, 借助该工具生成OWL文件, 达到检索目的。

当需要输入实例时, 必须先确定类与属性的结构。比如, 要将一个有序的子类插入到已排好序的父类中, 可选用数据结构算法描述其中的任何一种插入算法, 包括直接插入、两路顺序插入、表插入等。若要添加实例, 还需利用Individuals标签内的5个面板, 涉及到的属性内容主要有类的思想、实例名称、性能复杂性等。下面, 我们以直接插入为例进行阐述:Individual:直接插入排序算法。转化为具体文字描述:某个有序序列[1..., i-1], 共有i-1个元素, 若要插入r[i], 那么, 序列的元素个数就变为i个, 新序列为r[...i]。在插入时必须注意存放序列的数组不准越界, 可采用顺序查找算法, 在r[0]的地方设立一个“监视哨”, 任何插入操作均是从“i-1”向前挨个搜索, 记录能在查找过程中顺序往后移动一个位置。简而言之, 排序的过程需完成的插入操作有 (n-1) 次。将序列中的首个元素作为最简单的有序序列, 并从第二个记录开始依次添加到该序列中, 直到全部记录均被插入到序列当中。这里的序列是采用关键字进行排序的。

四、结语

随着社会的发展, 档案数字化的进程进一步加快, 数字化档案建设取得了一定的成效, 但仍存在不少问题。因此, 本文以本体构建论为基础, 利用本体的思想与方法, 对档案领域的知识进行组合与整合, 并通过规范的形式化语言进行描述, 以进一步提高数字档案管理效率。

参考文献

[1]贾艳平, 吴永明.基于本体论的数字档案馆知识检索模型的研究[J].大众科技, 2012, 14 (5) :222-223.

[2]周佳明.基于本体特征的档案系统模型构建[J].扬州教育学院学报, 2015, 33 (2) :51-54.

基于本体领域资源构建论文 篇6

随着人工智能和知识工程的发展,知识的重要性受到人们越来越多的关注,许多以知识库为核心技术的专家系统大量出现,知识已经成为实现人工智能的一条重要途径。本体关心的是客观存在的抽象与本质。知识工程就是研究知识和经验获取、表达、利用,进行分析、决策、规划、设计和实施,最终合理地解决问题[1]。

医学是与人类最密切相关的科学之一,由于其分布性、复杂性、多样性、模糊性、时序性、更新快和数据量巨大的特点,使对它的研究往往都局限于一个很狭窄的医学专业范围,各自为政,导致了医学知识在联通上的问题,不便于医学知识的综合利用。因此建立一个良好、协同工作性强的医学知识库具有极重要的意义,它将为医学专家系统、医学信息检索、医学教育系统、自然语言理解等领域提供智能基础[2]。

一个集成的计算与资源环境称为网格,基于网格的问题求解叫网格计算[3]。将本体论与集成的计算与资源环境—网格结合,可使网络整合成巨大的超级知识计算机系统。在讨论了面向网格与本体协同的医学知识获取体系的基础上,以心血管疾病本体知识库为例,构建与医学网格本体知识库匹配用的领域医学本体知识库资源,建立心血管本体体系结构和领域模式,形式地表示领域概念、概念的性质及概念与概念之间的各种约束与公理,为各领域医学本体知识库体系结构及构建方法提供参考[4]。

1面向网格与本体协同的医学知识获取体系构架

体系构架由六个部分组成:医学网格本体知识库(MedicalGridOntologyRepository)、领域医学本体知识库资源(DomainMedicalOntologyRepositoryResource)、应用执行层﹑智能主体(IntelligentAgent)移动主体(MobileAgent)、用户(USER)。它们之间布局如图1。

(1)MGOR是在网格环境的各领域医学知识目录本体知识库集合。

(2)DMORR是由各领域医学知识本体库组成的知识资源。(3)智能主体是MGOR与DMORR和USER之间进行互操作的代理软件实体。

(4)移动主体是完成与体系网格实体交互协同工作的移动软件实体。

(5)应用执行层是体系网格的基础设施分布组织。

2 心血管疾病领域本体的体系结构的构建

心血管疾病本体(CardOnto)是为了辅助医生诊断而构造的领域知识本体,也是实现基于领域知识的诊断推理的第一块基石。CardOnto本质上就是对所有进入知识库的心血管疾病领域信息进行分类和描述的概念实体。心血管疾病本体体系主要有两部分组成:概念分类体系和属性分类体系。因此,合理确定概念分类体系和属性分类体系是构建心血管疾病本体体系的关键性环节。

2.1 CardOnto的概念分类体系

合理的概类分念体系应该在反映领域事实的前提下,通过清晰的分类体系来描述领域知识之间的本质联系和隶属关系,澄清领域的知识结构。概念体系用以组织概念之间的隶属关系,表示概念的归属集合[3]。

在一个理想的概念分类体系中,类和实例组成树状结构,从顶层类往下是逐渐具体化的过程。越在体系上层的类,其内涵越少,描述的概念越抽象;越在体系下层的类,其内涵越丰富,描述的概念越具体。作为各个类的实例,处在这棵树的最下层,形成这棵树的叶子结点。但是在构建本体的实践中,这种理想的分类体系是很难获得的。

在医学领域,这样的分类关系显得尤为复杂,例如,在构建CardOnto子集——心力衰竭知识本体时,发现对于心力衰竭这个病种,国际卫生组织就有很多种分类方法[5],如:

根据发病速度,心力衰竭的临床分型有:急性心力衰竭,和 慢性心力衰竭;

根据发病部位,心力衰竭的临床分型有:左心衰竭,和 右心衰竭,和 全心衰竭。

虽然理想的树状分类结构难以获得,但是应该尽量使获得的分类结构符合上述原则。良好的分类结构是对领域知识的一种合理归类方法。在实际操作中,一方面,归类要体现领域知识之间的相似度,使得相似度最大的知识被归为一类,另一方面,归类要考虑到知识组织的有效性和结构化知识文本语义恢复的可行性。同一层次的概念之间应该保持最小的语义距离。具有相近语义的概念用相同的类表示,而不相似的概念不应该在同一个类中表示[6]。

通过查阅众多资料,发现多数的医学书籍都会按照发病部位进行分类来描述心力衰竭,说明此种分类法有一定的通用性,所以我们选择按照此种分类方法来构建分类树。图2表示CardOnto知识本体的概念体系。

2.2 CardOnto的属性分类体系

根据医学学科的范畴,可以得到如图3所示的疾病属性本体分类结构,它描述了心血管本体中描述疾病类时所使用的属性及关系集。由于属性之间固有的层次关系,疾病的属性及关系本身也可形成一个本体体系,称为疾病属性类。这样,本体将不再含有任何实例,而只能由疾病类来实现它。此外,这个属性本体反映的类别知识也是类公理的一部分。

概念类和概念的个体及其实例是通过槽来描述的。所有的槽依据其描述疾病知识的性质被组织成一系列的槽类(slot category)。各槽类之间的分类层次形成属性槽体系。为了描述疾病知识,定义了若干个槽,这些槽在描述概念时对应于一定的概念类,描述概念某一方面的知识。将这些具有一定共性的槽加以组织,形成具有一定层次关系的槽类。

疾病属性槽用以描述疾病概念知识。不同的属性槽之间也有层次关系,因此属性槽本身也形成了一个分类体系。属性槽依据其描述疾病概念的种类,将其划分为疾病临床属性和疾病非临床属性两类。根据属性槽所描述的疾病知识的性质,又将其进一步划分成不同的子类。如疾病临床属性可再分为临床表现属性类、并发症属性类、治疗属性类、流行病学及统计学属性类、诊断属性类等。通过这种方式组织属性槽,便于疾病概念的刻画和疾病知识的组织及其隐含知识的推理。

2.3 CardOnto的公理

作为心血管疾病本体的重要组成部分,心血管疾病领域公理是领域抽象层次方面的知识。首先,公理对心血管疾病概念的属性槽值和心血管疾病领域概念之间的关系起着约束作用;其次,公理也对属性槽的语义起着解释作用。心血管疾病领域公理在确保心血管疾病知识库中知识的准确性和一致性方面起着极为重要的作用,是进行知识推理的基础。我们在构建心血管疾病本体的过程中,在概念关系分析和概念属性分析的基础上,以及领域专家的指导下总结了部分公理。

2.3.1 类间公理

类间的公理分为类与类公理和类槽与类槽公理,简称类-类公理和槽-槽公理。获取这一类公理的方法是:首先对每个类都从医学涵义上找出该类与其它类之间的关系,然后用一阶逻辑表示这种关系。

(1)类与类公理

用以约束一个类与另一个类的关系,为一个类与另一个类建立联系提供描述。

公理1 所有X:疾病,存在Y:症状[是临床表现(Y,X)]。

解释:“所有疾病都有症状”。

公理2 所有X:疾病[beginwith(X,“原发性”)→isa(x,cutbegin(X,“原发性”))]。

解释:“原发性**疾病是**疾病的一种”。

公理3 所有X:疾病[isa(addbegin(X,“恶性”),X)]。

解释:“恶性**疾病是**疾病的一种”。

公理4 所有X:疾病[简称(X,Y)→简称(addbegin(X,“原发性”),addbegin(Y,“原发性”)]。

解释:例如,甲状性功能亢进简称甲亢、原发性甲状性功能亢进或原发性甲亢。

(2)类槽与类槽间公理

用于约束一个类的槽及另一个类的槽,为多个类之间的槽建立联系。获取这类公理时,将一个类与另一个类的同名槽或分类层次上的上下位槽进行比较,从医学上得出它们之间的关系。

公理5 所有X:疾病[beginwith(X,“急性”)→大于(起病(X),起病(addbegin(cutbegin(X,“急性”),“慢性”)))

解释:“急性**疾病的起病速度大于慢性**疾病起病速度”。

2.3.2 类内公理

医学公理中的类内公理包括类中关于属性医学涵义的公理以及类中属性之间关系的公理,是建立在医学本体之上的对本体中的槽及槽间的关系的一种约束。在获取这一类公理时,首先分析每一个槽,从中发现表示槽含义和约束的公理。把类内公理分为值域公理、语义类型公理、属性关系公理、属性关系内涵公理。

(1)值域公理

用以对槽值进行限定,将槽的取值限定在一个合理的范围内,有助于知识的错误检查,发现一些常识性矛盾。

公理6 所有X:疾病[大于(X.复发率,0)∧小于等于(X.复发率,1)]。

解释:“所有疾病x的复发率大于0并且小于1”。

公理7 所有X:疾病[大于等于(X.发病率,0)∧小于等于(X.发病率,1)]。

解释:“所有疾病X的发病率大于等于0并且小于等于1”。

(2)语义类型公理

用于对槽值的语义类型进行说明,实质上也是对槽的意义的一种解释,这有助于知识获取时对一个概念进行语义分析。

公理8 所有X:疾病[并发症(X,Y)→isa(Y,疾病)]。

解释:“对于所有的疾病X,若它的并发症是Y,则Y是一种疾病”。

公理9 所有X:疾病[继发于(X,Y)→isa(Y,疾病)]。

解释:“对于所有的疾病X,若它继发于Y,那么Y是一种疾病”。

(3)属性关系公理

用于对属性与属性之间、关系与关系之间的元关系进行限定,以便于在知识分析时进行诸如知识纠错和知识推理等操作。

公理10 所有X:疾病[大于(X.最大发病年龄,X.最小发病年龄)]。

解释:“所有的疾病X的最大发病年龄大于其最小发病年龄”。

公理11 所有X:疾病[小于等于(X.人群死亡率,X.发病率)]。

解释:“所有的疾病X的人群死亡率小于等于其发病率”。

公理12 所有X:疾病[并发症(X,Y)→病因(Y,X)]。

解释:“对于所有疾病X,若它的并发症是Y,则Y是X的一种病因”。

公理13 所有X:疾病[预后(X,不好)→严重程度(X,高)∧转归(X,不好)]。

解释:“对于所有疾病X,若它的预后性不好,则疾病X的严重程度会高,且转归性不好”。

公理14 所有X:疾病[小于(X.人群死亡率,X.死亡率)] 。

解释:“所有的疾病X的人群死亡率小于其死亡率”。

公理15 所有x:疾病[易复发(X,是)→大于等于(X.复发率,20%)]。

解释:“对于所有疾病X,若它是易复发的,则其复发率大于等于20%”,其中复发率20%是统计得到的。

公理16 所有X:疾病[大于(X.复发率,0)→可复发(X,是)]。

解释:“对于所有疾病X,若其复发率大于0,则该疾病是可复发的”。

(4)属性关系内涵公理

这是对属性及关系的内在意义的一种解释性公理,比较难以定义。定义这类公理的目的在于把属性关系的内涵尽可能地用用一阶语言公理的形式固定下来。此外,属性关系内涵公理是一种综合性公理,在内涵公理的形式化中,可以包含值域公理,语义类型公理,属性关系公理。

公理17 所有X:疾病[并发症(X,Y)→先于发生(X,Y)]。

解释:“对于所有疾病X,若X的并发症是Y,则X先于Y发生”。

公理18 所有X:疾病[最高发病年龄(X,Y)→isa(Y,年龄组)∧所有Z:年龄组(小于等于(发病率(X.Z),发病率(X.Y)))]。

解释:“若疾病X的最高发病率为Y,则Y介于某年龄组Z,且处于该年龄组内的人生疾病X的概率小于等于Y”。

公理19 所有X:疾病[并发症(X,Y)→小于(严重程度(X),严重程度(又新概念(X Y)))]

解释:“对于所有疾病X,若Y的并发症为Y,则X的严重程度小于新疾病XY的严重程度”。

公理20 所有X:疾病[代表病种(X,Y)→所有Z:疾病[isa(Z,X)∧不等于(Z,Y)→大于等于(Y.发病率,Z.发病率)]]。

解释:“对于所有疾病X,若Y是X的代表病种,则:如果Z是一种Y类疾病,且Z又不是Y,那么,Y的发病率大于等于Z的发病率”

通过分析心血管本体,建立了心血管本体体系结构和领域模式,形式地表示领域概念、概念的性质及概念与概念关系之间的各种约束与公理,就完成了具有良好结构、完备的、可共享、可复用的心血管知识库。

3 结束语

通过建立心血管疾病本体知识库,其他各领域医学本体知识库可以借鉴该方法。但因医学知识的复杂性,建立各个领域医学本体知识库需要众多的领域知识专家和知识工作者的共同努力工作,才能建立本文设想的体系所需要的领域医学本体知识库资源。

参考文献

[1] Sowa J F.Know ledge representation.北京:机械工业出版社,2003:131—137

[2]周肖彬,曹存根.基于本体的医学知识获取.计算机科学,2003;(10):331—337

[3] Foster L,Kesselman C.The grid 2.北京:电子工业版社,2004:102—105

[4]雷玉霞,眭跃飞.基于知识本体的属性分析以及概念联通,计算机科学,2004:(3)

[5]美国国家医学图书馆.ULM s Program,http://www.n lm.n ih.gov/research/um ls/

基于本体领域资源构建论文 篇7

在教育领域,国内外关于本体在智能教学系统的研究已有一些进展。利用本体表示的知识不仅有助于知识、信息资源的系统化,而且也便于知识、信息资源的扩展和更新,使之更容易满足不同层次、不同需求的个人终生学习。使用本体来表示知识,构建领域本体,能够促进智能学习系统的有效开发。

1 本体的相关概念

1.1 本体的定义

本体论(Ontology)来自哲学领域,旨在研究客观事物存在的本质和组成[1]。随着信息科学的飞速发展,本体论逐渐用于知识工程和信息科学等领域之中。

在知识工程领域中,本体通过对于概念及其相互关系的规范化描述,勾画出某一领域的基本知识体系。

在计算机科学领域,斯坦福大学的Gruber认为“本体是概念化的明确的规范说明,能够以一种明确的、形式化的方式来表示领域知识,促进知识共享”。

本体论可以分为四种类型:通用、应用、领域和任务。

1.2 本体建模元语

Perez认为Ontology包含五个基本的建模元语(Modeling Primitive):

(1)类(Classes)或概念(Concepts):表示领域知识元,包括一般意义上的概念以及任务、功能、策略、行为、过程等,通常具有一定的分类层次关系。

(2)属性(Properties):描述概念的性质。

(3)关系(Relations):表示概念之间的关联,在形式上定义为n维笛卡儿积的子集:

R:C1×C2×…×Cn。

(4)函数(Functions):表示一类特殊的关系,即由前n-1个要素来唯一决定第n个要素。

(5)实例(Instances):表示属于某个概念类的具体实体。

1.3 构建本体的步骤

构建领域本体的目标就是要将一个或多个特定领域的概念和术语规范化,为其在该领域或领域之间的应用提供便利。面向不同的学科领域、不同的应用需求,本体构建的方法不同。比较成熟的本体构建方法有IDEF-5法、Skeletal Methodology骨架法、TOVE企业建模法、METHONTOLOGY方法、Cyclic Acquisition Process循环获取法、软件工程法等。文本以“数据结构”为例结合上述本体构建方法来构建领域本体[2,3]。

构建本体的一般步骤:

(1)列出研究对象所涉及到的概念(concepts);

(2)按照概念的固有属性和专属特征进行归纳和修改,对概念建立类(class)以及层级化的分类模型(taxonomy);

(3)加入关系(relation)连接concepts;

(4)按照需要添加实例(instance)作为概念的具象。

2“数据结构”领域本体的构建

通过分析“数据结构”的知识结构,并结合本体的五个基本的建模元语,得到该领域本体五元组表示:

其中,O表示领域本体,C表示本体的概念集合,P表示本体的属性集合,R表示C上的关系集合,I表示本体的实例集合,X表示实例集与概念集的映射关系集合。

本体的属性集合P,描述概念自身的属性,称为数据类型属性(Datatype Property)。

本体的关系集合R,描述概念与概念之间的关系,称为对象类型属性(Object Property),关系集合R中除了本体中基本的关系如part-of、kind-of、instance-of、attribute-of关系之外[4],还可根据具体的情况定义相应的关系(如上位关系,下位关系,兄弟关系等)。

“数据结构”领域本体主要由“数据结构”课程中的概念,概念间的关系及计算机可以识别的形式化描述语言组成。构建该领域本体的目标就是要形成对于“数据结构”知识组织结构的共同理解和认识,为进一步建立智能学习系统奠定基础。

2.1 列出研究对象所涉及到的概念(concepts),即确定本体概念集C

分析“数据结构”知识内容[5],按照教学步骤,将知识对象进行划分,并进行抽象归纳,形成的核心概念集C为:

C={集合,线性结构,树形结构,图状结构,查找表,内部排序,外部排序,文件,基本概念,基本操作}

考虑到这些核心概念需要具体的习题资源来练习,因此增加了练习题核心概念。这些核心概念基本覆盖整个“数据结构”课程的全部知识。

2.2 对概念建立类(Class)以及层级化的分类模型,即建立概念层次结构关系

(1)对已确立的核心概念进行分析整理并进一步扩展,建立整个本体概念模型。

本体概念模型体现的是概念与概念之间的父子结构关系。这个过程是一个自顶向下的过程,根据已确立的上层父类概念,逐步细化形成下一级子类[6,7,8]。

把数据结构知识体系、练习题作为领域本体的顶级概念,数据结构知识体系向下有基本概念、基本操作、数据结构三个核心概念。每一个核心概念又有其子概念,进一步扩展为下一级概念,如:

C(数据结构)={集合,线性结构,树形结构,图状结构}

C(树形结构)={树,森林}

C(基本操作)={遍历操作,转换操作,构造操作,…}

……

以此建立的概念层次结构是以树型结构呈现,具有一条明确的主线。概念之间形成的等级层次结构如图1所示。

(2)确定概念的属性P

概念的等级层次结构是本体的骨架,其血肉要通过概念的属性来充实。本文将“数据结构”领域本体中概念的属性分为数据类型属性(Data Property)和对象类型属性(Object Property)。这里所说的属性P主要是指数据类型属性。

如数据结构的知识点可以从中文名称、英文名称、难易程度、掌握程度、考试概率、上位知识、下位知识、兄弟知识、关联练习题等方面描述进行描述,因此数据结构知识体系概念的属性P为:

P(数据结构知识体系)={中文名称,英文名称,难以程度,掌握程度,考试概率,上位知识,下位知识,兄弟知识,关联练习题}

练习题可以从以下六个方面来刻画:

P(练习题)={编号,题目,答案,练习题类型,练习题难度,关联知识点}

充分利用类属性继承性特性,子概念共有的属性在父概念中定义,子概念继承父概念中的所有属性,再定义自己的特有属性。

2.3 加入关系(relation)连接concepts,即确定概念间的关系R

领域本体除了上面建立的类的父子关系外,还要添加符合学习步骤和学习规律的其他关系,将两个概念之间的关系称为对象属性(Object Property)。

如在学习二叉树这一概念时,主要学习二叉树的概念及各种操作。因此需要有概念和操作将二叉树和对应的概念和操作联系起来。

又如按照学习规律,在学习二叉树之前我们应先学习树的一些知识,因此树是二叉树的前驱知识、二叉树是树的后继知识。需要用前驱知识、后继知识将二叉树和树关联起来。

前驱知识和后继知识互为逆关系。

在“数据结构”领域本体中,部分对象属性(Object Properties)如表1所示。

2.4 按照需要添加实例(instance)作为概念的具象

实例是概念的具体实体,具有概念所有属性,在添加实例前,要确定该实例的两种属性,即数据类型属性和对象属性,以练习题为例,为其添加实例,其所有属性及属性值如图2所示:

3 领域本体形式化编码及开发工具

本体形式化编码阶段就是选择合适的本体描述语言来描述知识本体,现有的形式化本体描述语言很多,主要有RDF和RDFS、OIL、DAML、OWL、KIF、SHOE等。本文选用的是OWL(Web Ontology Language)来对领域本体进行描述[9]。

目前本体的开发工具主要有Ontolingua、Ontosaurus、Web Onto、Onto Edit、Protégé等。本文选择Protégé4.1作为本研究的本体开发工具,Protégé是由斯坦福大学的Stanford Medical Information开发的一个开放源码的本体编辑器[10]。

由于篇幅有限,关于OWL及Protégé的内容这里不做具体介绍。

4 结束语

本体是一种用来描述概念以及概念之间关系的模型。将本体应用于领域本体的建设,可以表示复杂的知识层次结构。更便于知识的共享,重用及推理。下一步的工作将继续完善“数据结构”领域本体。

摘要:网络教育是国内外教育发展的新方向,资源共享是提高网络教育质量、降低教育成本的有效途径。但由于没有统一的教育知识表示方法,学习资源在各学习系统间难以实现共享。该文以“数据结构”为例说明构建领域知识本体的一般步骤,获取课程知识内容,采用标准的OWL本体描述语言对其进行定义和描述并形成领域本体。

关键词:本体,知识表示,领域本体,网络教育

参考文献

[1]谢娟.教学领域本体构建研究——以“C++程序设计”课程为例[D].济宁:曲阜师范大学,2010.

[2]PEREZ A G,BENJAMINS V R.Overview of knowledge sharing and reuse components:ontologics and problem-solving methods[C].Stock holm:Swtdem,1999:1-15.

[3]A Guide to Creating Your First Ontology[EB/OL].2011-10-25.http://protege.stanford.edu/publications/ontology_development/ontolo gy101.pdf

[4]Gruber T R.Towards Principle for the Design of Ontologies Used for Knowledge Sharing[J].International Journal of Human ComputerStudies.1995,43:907-928.

[5]严蔚敏,吴伟民.数据结构(c语言版)[M].北京:清华大学出版社,2009.

[6]潘颖,欧启忠,肖耿毅.面向语义的课程知识本体的构建[J].电话教育研究,2007,2:19-21.

[7]杜小勇,马文峰.学科领域知识本体构建方法研究[J].图书情报工作,2005,8(49):74-78.

[8]Boyce S.&Pahl C.Developing Domain Ontologies for Course Content[J].Educational Technology&Society,2007,10(3):275-288.

[9]董坚峰,胡凤.基于OWL本体的知识表示研究[J].情报理论与实践,2010,9(33):89-92.

基于本体领域资源构建论文 篇8

万物皆有因果,社会危机都是由各种各样的社会事件造成的。一般来说如果能够对造成社会危机的各种成因进行有效分析,在社会危机未发生或者存在发生苗头的时候就进行合理处置和干预,则能够将社会危机限制在最初阶段,防止造成更大的不良后果。

全国各地具体情况不同,社会危机的类型不同,引起社会危机的原因也不尽相同。但是通过对大量社会危机成因的研究对比,我们发现社会危机的发生有其特有的“共性”原因:我国正处于社会转型和经济转轨时期,社会整体结构、资源结构、区域结构、组织结构都发生着重大转变。在经济社会大转型、大发展、大变革时期,社会贫富差距不断扩大,人民群众维护个人权益意识不断增强,人们的思想意识和价值观念日趋多元化、复杂化,社会矛盾尖锐化发展趋势。一旦人民群众的利益和权利受到侵犯,就可能通过集体集会、上访等行动维护“自身权益”,而如果政府相关部门或者领导干部应对能力不足,不倾听群众呼声,不关心群众疾苦,工作不作为,就会“小事拖大,大事拖炸”,使小矛盾酿成大矛盾。一些事件中还会出现不法分子唆使不明真相群众,故意将事件搞大、搞乱、搞砸,而达到他们不可告人的目的。具体来说社会危机的诱发因素有以下几种:收入分配不公、政策失误、干群矛盾积累、不依法行政、政府不作为、群众法制观念淡薄等。

建立社会危机成因本体,可以发挥本体在信息组织归纳方面的优势,对各种社会危机发生的原因进行系统梳理和分析,研究探索各种成因之间的内在关系和外在表现形式,构建社会危机成因本体模型,达到切断社会危机发生的源头,防患于未然的目的。

1 本体及其构建方法

本体最早是哲学上的概念,主要是指对世间万物本质属性的认识。本体包含了概念、属性和关系,有概念域、关联关系域和属性域,这几个部分相互结合,形成某一领域区别于其他领域的主要特征。关于本体的构建原则,最有影响的是Gruber(Toward Principles for the Design of Ontologies Used forKnowledge Sharing)在1995年提出的5条规则,即:清晰(Clarity);一致(Coherence);可扩展性(Extendibility);编码偏好程度最小(Minimal encoding bias);本体约定最小(Minimal onto-logical commitment)。

构建社会危机领域成因体系本体模型,我们主要参考本体构建的七步法,先即确定本体的专业领域和范畴,考查复用现有本体的可能性,列出本体中的重要术语,定义类(Class)和类的等级体系(Hierarehy),定义类的属性:内在属性、外在属性、与其他类的关系,定义属性的分面及创建实例。

2 构建社会危机领域风险评估本体模型

2.1 重要术语、概念

(1)社会危机:主要指社会发展过程中面临的一系列影响社会稳定的因素,也包括因此而导致的各类社会危机事件。

(2)社会稳定:主要是指当前社会安定、国泰民安的状态,社会稳定是社会和谐发展的基础,当前在社会经济高速发展的阶段,稳定压倒一切,发展是硬道理,稳定是硬任务。

(3)内部管理:主要是国家党政机构、企业事业单位在内部管理中采用的手段和方式,容易成为社会危机诱因的主要有单位招工、学历学籍、收费管理、辞退开除等人事问题管理等。

(4)安全事故:主要是指企业事业单位在业务活动(包括与业务活动有关的活动)中突然发生的,伤害人身安全和健康的意外事件,或者各种突发性灾难事故等,包括交通那个事故、消防事故、医疗事故等。

(5)工资待遇:主要指国家机关和企业、事业单位在人事管理中为本单位职工发放的各种货币型工资或福利,在本文中主要体现为工资待遇不及时发放或者不按国家有关法律法规执行,故意拖欠或克扣职工工资。

(6)征地拆迁:主要指国家出于公共利益的需要,按照法定程序强制征用群众集体所有的土地,并对地上建筑进行拆除。征地拆迁后根据补偿标准一次性给予被征地者(包括土地所有权人、使用权人以及土地承包经营权的发包人、承包人、转包人等)一定的货币补偿,有的还必须按照要求进行必要的其他安置。

(7)涉众型经济犯罪:是经济犯罪的一种,表现形式有:以合作养殖、种植、等为名目的集体经营,以投资展位、铺位、公寓式酒店经营权等为名目的“购后返租”,以促销为名的“消费返利”,以专卖、代理为名进行的传销,以即将上市、可获得成倍收益为名的非法销售“原始股”等等。一般涉及人员较多,一旦处理不力则会引起大量人员聚集上访等。

(8)涉法涉诉:主要是指当事人对刑事执法、行政执法等权力部门在案件或问题处理上不满,认为受到了不法侵害或不公平的待遇,从而引发上访告状的案件。

2.2 概念属性间的关系

(1)part-of:表达的是概念间的整体和部分的关系,如风险评估的基本出发点为风险评估指导思想的一个部分。

(2)instance-of:表达的是概念与实例之间的关系,相当于对象和类之间的关系。

(3)kind-of:表达的是概念之间的上下位关系,类似于父与子的关系,如重大事项的合理性评估是评估内容的一种,各级各类大众媒体是监督主体的一种等。

2.3 用 protégé 本体构建工具实现社会危机成因本体构建

首先,我们构建社会危机按成因本体的二级类目体系。

在类目体系的设计上,充分发挥protégé便于扩展、网状拓扑的优势,不仅仅局限于绝对的上下位类目结构,适当增加辅助类,在保证群体性时间成因本体概念体系严谨的基础上,更注重概念间、概念与属性间关系的展示,使模型的设计更加一目了然,便于指导实践。下面是细化后的部分类目体系图:

在对成因本体进行三级类目划分的基础上,我们还可以添加相关实例如下:

2.4 查看 xml 语言

构建了社会危机的本体模型之后,我们来查看xml语言,以便校验本体构建中概念与概念之间、概念与属性之间、属性与属性之间的关联关系。社会危机本体部分xml语言如下所示:

因为xml语言体例完整,形成的篇幅较长,我们文中只选取了部分的xml语言,属性中只选择了instance of作为举例展示,在分类中只是选择了main body等个别实体进行xml语言描述,并选择了部分的概念间关系语言表述。通过xml语言我们可以清晰看到社会危机成因体系概念间的分类及关系,便于校验本体生成的准确性。Xml提供的可修改特性也使得我们可以对生成的本体进行适时的增删和调整。

2.5 添加属性和实例,用 protégé 实现可视化展示

用xml语言校验了本体概念间、属性间的各种关联、互斥关系之后,我们对所构建的本体模型进行调整,并添加实例,调用protégé中的Onto Graf,实现本体模型的可视化展示,其部分可视化截图如下:

在Onto Graf的可视化中,我们可以标注概念与概念、属性与属性和概念与属性之间的关系,其中的实线、虚线、箭头是上述我们在xml语言中显示的各种关系、属性的展现,为了视图需要,我们不再一一标注,可参照上述xml语言。

3 结语

上一篇:风冷冷水空调下一篇:石油环境