本体信息(共12篇)
本体信息 篇1
0引言
零件信息是工艺系统进行工艺设计的基础和依据。在进行计算机辅助工艺设计时,计算机需要“读懂”零件图上的零件信息,否则就不能对零件进行工艺设计[1]。按照目前的技术发展水平,计算机还不能直接读懂零件图,这样就产生了计算机辅助工艺设计(Computer Aided Process Planning,CAPP)系统面临的最重要问题,即CAPP系统的零件输入与计算机内部如何对产品或零件进行有效地表达问题,其实质就是如何组织和描述零件信息,让计算机也能够“读懂”零件图,这样才能使计算机可以有效地进行辅助工艺设计[2]。本文将本体及其相关技术引入到CAPP系统[3],方便了零件信息模型的建立,这样就可以在CAPP系统内部合理地表达和组织零件信息。
1零件信息总体分析
1.1 零件描述模型
把整个零件当作对象,对其进行高层次的对象抽象化,从而定义出零件描述模型的整体架构。如图1所示,整个模型的体系架构是高度抽象的,图中的管理信息、装配模型和零件特征描述模型等也抽象成对象。
零件描述模型是由不同抽象级别的对象以及对象之间的关系所组成的复杂对象。依据对象级别的不同,可以把基于本体的零件描述模型的体系架构分成3个不同的层次:零件层、特征层和几何层。零件层描述零件的结构、各种特性、技术要求和管理信息,以及各个零件之间的装配关系等;特征层描述组成零件的特征和各个特征之间的关系,以及与特征相对应的加工工艺等;几何层以几何体素和制造要求为基础来描述零件特征的几何拓扑信息。其中,特征层是体系架构的核心层,既可以为零件设计提供高层次的语义信息,又可以与几何层相互关联。
1.2 零件特征描述模型
特征是一组与零件的描述密切相关的信息集合。由于零件的描述可能会包含着设计、制造以及管理等多方面的信息,因此特征又是含有特定的设计和制造内涵的信息集合。尽管目前对零件的特征没有明确的分类标准,但是依据对零件的描述角度不同,可以把零件特征分成5种类型,即管理特征、形状特征、材料特征、技术特征和精度特征[4]。其中,形状特征是最主要的零件特征之一,它又分为主形状特征和辅形状特征[5]。主形状特征(简称主特征)用来描述构造回转类零件的整体形状结构;辅形状特征(简称辅特征)用来对主特征进行局部修饰,并依附于主特征之上。此外,从零件的设计或制造的角度来看,可把形状特征分成基本特征、复合特征、阵列特征和基准特征,由于与零件的设计和制造相关,因此这种分类方式的形状特征又称为设计/制造(Design/Manufacturing,DM)特征。
依据DM特征的聚集关系,可以把零件描述模型中特征层的零件特征描述模型进行展开,包括零件、几何体素、制造要求、基本特征和复合特征等对象。通过对零件特征描述模型进行分析和研究,提出该模型的基本结构,见图2。在此结构中,采用特征坐标树来表示零件、基本特征与复合特征等之间的空间坐标关系。每个基本特征都会形成一个局部坐标架,多个特征组合而成特征坐标树。通过坐标之间的相互结合,可以很好地解决零件与特征之间的位置关系,有利于采用本体及其相关技术对零件信息进行描述。
2零件信息的本体描述
2.1 零件阶梯轴信息分析
考虑到零件描述的特殊性,但又不失其一般性,现以载有阵列盲孔和键槽的零件——阶梯轴为例来研究对零件及其特征等信息的描述过程。图3为阶梯轴的示意图。依据零件特征的分类规则以及零件特征描述模型的基本结构,对图3所示的阶梯轴进行分析可知,该零件包含有以下信息。
(1)技术信息:
与零件相关的各种技术说明文档。
(2)基准特征:
主要有阶梯轴的中心线和阵列盲孔的中心线,通过特征坐标树分别与复合特征和基本特征相互参考。
(3)复合特征的特征坐标树:
以整个零件阶梯轴的轴线为基点,建立柱坐标系为全局坐标系;以复合特征中圆柱体的轴线为基点,建立复合特征的局部坐标系。
(4)复合特征:
带有辅特征盲孔的主特征圆柱体和带有辅特征键槽的主特征圆柱体。
(5)阵列特征:
盲孔的阵列,通过阵列值与基本特征盲孔相互关联。
(6)基本特征的特征坐标树:
所处的全局坐标系不变,依据各个基本特征的几何载体来建立相应的局部坐标系。
(7)基本特征:
主要有圆柱体、盲孔、键槽和倒角。
圆柱体:包括的属性有半径、高度、公差和粗糙度。
盲孔:继承抽象父类孔的所有属性,例如半径、阵列值与粗糙度等,同时生成自己的属性,如深度等,它的几何载体是圆柱体,其制造要求需根据领域知识来建立。
键槽:包含的属性是宽度、长度和深度等,几何载体是圆柱体,其制造要求需根据领域知识来建立。
倒角:基本属性是半径与弧度,几何载体是圆柱体,制造要求需根据领域知识来建立。
2.2 基于OWL语言零件信息的描述
利用本体编辑工具protégé 2000对零件及其所有的特征信息描述后,可把描述结果导成本体描述语言OWL[6]文档格式,限于篇幅,这里仅给出对普通零件中带有辅特征盲孔的复合特征圆柱的特征属性部分参数的OWL语言描述。该复合特征不仅直接继承上层主特征圆柱和辅特征盲孔的所有属性(例如半径和深度等),同时要间接地继承零件特征的部分属性(例如公差和粗糙度等),而且还需定义自身的特有属性(例如局部坐标系等)。为了对基于本体的零件描述模型有更为直观的认识,下面给出用本体语言OWL对复合特征进行本体描述部分代码:
>圆柱-盲孔指普通零件中带有辅特征盲孔的复合特征圆柱.
……
……
……
3结束语
本文针对计算机辅助工艺设计领域对零件信息的有效表达需求,提出一种基于本体的零件信息知识表达模型,结合本体OWL语言及阶梯轴零件示例构建了回转体零件特征的本体框架,从而合理有效地描述了CAPP领域零件信息的一种组织方法。
摘要:提出了基于本体的零件描述模型及其三层体系架构,并对该体系架构进行了详细介绍。以某阶梯轴为例,表明利用基于本体的零件描述模型对零件信息进行表达,可以更加合理有效地描述领域本体知识库中的零件信息。
关键词:零件信息,零件特征,本体,OWL
参考文献
[1]王细洋,万在红.CAPP的关键问题及其对策[J].制造业自动化,2000,22(2):25-29.
[2]席光辉.回转零件工艺设计专家系统[J].机械科学与技术,2000(3):342-344.
[3]Li Wenjie,Feng Zhiyong.Study of ontology-based multi-agent system for automatic process[G]//Hanna K,Plataniotis K,Anpalagan A.Proceedings of the 17thAnnual IEEE Canadian Conference on Electrical andComputer Engineering:Technology Driving Innovation.Ontario,Canada,2004:373-376.
[4]魏巍.基于特征的汽车零件CAPP研究[D].合肥:合肥工业大学,2002:17-21.
[5]盛伯浩,陈宗舜.机械产品设计与CAD技术[M].北京:清华大学出版社,2005.
[6]冯志勇,李文杰.本体论工程及其应用[M].北京:清华大学出版社,2007.
本体信息 篇2
本体诠释学体系的建立:本体诠释与诠释本体
本体诠释(自本体的诠释)与诠释本体(对本体的诠释)的同源性与同基性,表明了对本体的认知与诠释活动的互参与互含,与中国传统哲学中的`”体用相即“相互印证.本体诠释与诠释本体所构成的本体诠释圆圜,代表了人的存在的内在性与外在性的相合之道,也代表了人与天地万物、宇宙历史与未来的互动与交融.
作 者:成中英 作者单位:美国夏威夷大学,美国,夏威夷,檀香山11071信箱刊 名:安徽师范大学学报(人文社会科学版) PKU英文刊名:JOURNAL OF ANHUI NORMAL UNIVERSITY(HUMANITIES & SOCIAL SCIENCES)年,卷(期):30(3)分类号:B016 B506关键词:本体诠释学 诠释 本体
本体信息 篇3
关键词:本体;信息检索;信息检索系统
中图分类号:TP393.08
随着计算机技术和网络技术的不断进步和发展,互联网进入了人们生活的各个领域,检索方式也由原来的脱机检索、联机检索发展为今天的网络检索。然而,网络检索给人们带来方便的同时,也给信息检索带来了麻烦。信息检索是指根据用户的需求,从已有的检索工具或数据库中查找所需信息的过程,如何快速、准确地检索到用户所需要的信息是信息检索面临的问题。因此,提高检索效率,提高查全率、查准率,探讨新的检索模式是信息检索发展的必然趋势。本体理念有着良好的概念层次结构,是近几年学术研究的热点,它的应用和推广必然推动信息检索的发展。
1 本体的基本概念
本体作为一种信息表达形式,有着良好的概念层次结构,具有较强的表达能力。本体对逻辑推理的支持能够更好地表达概念之间的关系,使得信息具有一定的层次结构。
1.1 本体的概念。本体是指对客观存在物体的一种系统地描述,它并不是具体指某个人描述该事物使用的具体语言,而是将计算机的表达方式和人类的表达方式统一。Gruber认为:本体就是指给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则。Borst Pim则认为:本体是概念模型的规范说明。Studer认为:本体是指共享概念模型的形式化规范说明。第一,概念模型。所谓概念模型,是将客观世界中一些现象抽象为形同概念而得到得到的,独立于具体的环境。第二,形式化。指本体是计算机可读的。第三,共享。共享指本体是针对团体所达成的共同认可的知识。
1.2 本体的功能。本体作为知识的一种表达形式,它能够将计算机与人类的表达方式统一,也能够将术语和概念统一。我们通常认为本体的功能有以下几种:首先,本体为所有的语言提供了一个共同的标准,将语言规范化,为人们的交流提供了方便。其次,本体可以将不同软件系统集合在一起,给不同的软件系统提供了平台,促进软件系统的互操作。最后,本体能够将检索系统规范化,使得信息更容易被共享和重用。此外,形式化的本体可以提高软件的可靠性,方便设计者对软件的检查。
1.3 本体的分类。本体按照其研究范围的分类标准进行分类,可以分为通用本体和领域本体。通用本体是指研究通用的概念、通用属性,如空间、时间等等,并不局限在特定的领域。构建通用本体的过程与构造词典相似,目前常用的通用本体有Wordnet 和 Hownet。领域本体是指描述具体领域知识的概念和属性,描述某个领域的知识。目前,领域本体比较匮乏,相对成熟的是生物学本体、医学本体。领域本体库的构建需要领域专家的参与,并且要与共同达到的学术一致。
1.4 本体的构建方法。根据目前认可度较高的Gruber提出的本体构建规则,学界提出了多种构建方法。认可度最高的是斯坦福大学医院开发的七步法:确定专业领域范围;考查现有本体寻找复用机会;列出该领域的术语;对该领域事务进行分类;定义类的属性、类与类之间的关系;定义属性的分娩;创建属于该类的实例。
1.5 本体描述语言。本体描述语言随着网络发展而发展,并且具备多种功能使得本体在不同系统之间互操作。本体描述语言需要提供机器可读的形式,能够实现自然语言与机器表达形式的转化。目前,常用的本体描述语言主要有RDF、OWL,本文介绍RDF模型,以下是对这种语言的具体介绍。
RDF包括3种实体:资源和实体、属性、声明。资源和实体是对资源进行标识;属性是对资源的各个方面进行定义,如特征等;声明是指对已经被命名的属性且被赋值的特定资源,即RDF声明。
RDF模型的描述方式通常有以下几种方式:简化三元组方式,用尖括号将三元组的主语、位于、宾语隔离;RDF模型图方式,是以图形的方式将三元组描述的声明表现出来,资源、字符串节点、属性分别用椭圆、方框、连线来表示;RDF/XML方式,这种表达方式是按照RDF/XML语法和编码规则描述RDF模型,并将这种模型存放在计算机中。
2 基于本体的信息检索系统
随着互联网技术的发展,传统的信息检索已无法满足人们的需求。传统的信息检索主要采用结构化信息表示方式,要求有较高的查准率。但是,传统的信息检索存在一定局限性,如文档的添加较为复杂,增加了工作人员的工作量;结构化信息表达形式限制了用户的输入,只能输入与数据库一致的信息才能得到检索结果,而非结构化信息表达形式在一定程度上放宽了用户的输入限制,采用关键字匹配的方式,但是不能满足语义检索的要求,因此,不能提高查全率,出现漏检的情况。
基于本体的信息检索系统能够主动理解用户要求,通过逻辑推理后进行检索。同时,本体理念的信息检索系统可以将计算机的表达方式与人类的表达方式统一,实现计算机与人类的同语言交流。
基于本体的信息检索包含以下几个模块:文档预处理操作、构建索引、扩展合并用户查询词、构造检索模型、排序算法。文档预处理操作是指利用分词技术将大段文字分割成词语,经过词法分析后,删除没有语义的词汇,减少文档的冗余。利用倒排文档可将索引与原文档相连,检索词作为索引大大提高了检索效率。用户输入检索词后,系统需要通过一定的预处理、或者是通过查询处理算法,扩展合并查询词,推理用户的检索需求,从而提高查准率。构造检索模型能够迅速匹配用户查询的相关信息,提高检索效率。排序算法是指利用某种算法将与检索词相关性最强的检索结果放在前面,让用户先看到想要的结果。
为了提高检索的查全率、查准率,基于本体的信息检索系统还可以提供多類型的检索模式,本体检索作为基础检索,关系检索和属性检索为用户提供高级检索,为用户提供知识间的联系,如果用户需要个性化服务,还可以提供回溯检索。本体理念的信息检索系统可以将关键词进行概念匹配,用户在不具备专业检索技能的情况下,也能迅速并准确的检索到所需要的的信息,给用户带来全新的极富人性化的体验。
3 结束语
基于本体的信息检索需要构建本体领域知识库,以本体的相关理论为基础。由于理论的复杂性和技术难关等原因,目前国内外还没有对本体信息检索系统进行大规模应用。本体知识库虽然在技术上较为先进,但是就目前的发展水平来看,本体信息检索只能停留在研究的初期,还有许多技术难关要攻克。如何构建本体知识库、充分利用本体表示形式带来的优势仍有待进一步研究,使用本体直接进行匹配,将文档进行本体化,实现文档的自动标引,提供以自然语言为主的概念检索和关系检索模式,提供更人性化的服务。总之,基于本体的信息检索,能够同时提高查全率和查准率,提高检索效率。本文的观点仍有不成熟之处,希望诸位同仁对本体信息检索系统模式进行进一步分析和研究,随着本体技术的不断发展,基于本体的信息检索也会不断发展和完善。
参考文献:
[1]易运晖,朱畅华,裴昌幸.偏振旋转的量子私有信息检索方案[J].电子与信息学报,2012(10).
[2]李宏佳,刘国华,李金才.相互协作中的私有信息检索方案[J].计算机工程与设计,2010(13).
[3]邢晓辉,牟义军.一种基于本体的信息检索方案[J].山东科学,2011(02).
作者简介:方鹏(1974-),男,教师,研究方向:数据库技术应用。
作者单位:长江职业学院,武汉 430074
基于本体的旅游信息抽取 篇4
信息抽取是从一段文本中抽取指定的一类信息(事件、事实)并将其形成结构化的数据填入一个数据库中供用户查询使用的过程[1]。它的产生是为了让人们在Web的海量信息中准确找到自己需要的信息。传统的信息抽取技术有基于规则的方法和机器学习的方法,但是它们缺乏对抽取出的实体之间联系的领域知识的识别能力。本体提供机器可识别的领域概念知识及其联系,并具有简单的推理能力。将本体和信息抽取结合的基于本体的信息抽取成为研究的一个热点。
基于本体的信息抽取国内外有不少研究。文献[2]提出一个基于本体的生物学信息抽取与查询应答系统。文献[3]提出一种基于内容的信息获取,它把ontology驱动的内容匹配机制与适当的表达代理机制相结合。文献[4]提出了一个基于应用领域本体的非结构化文本的信息抽取方法。但是文献[2-4]的方法都仅仅是基于本体的抽取,没有将本体与其他方法结合起来[5]。文献[5]提出了一种新的基于本体的信息抽取方法,它对文章、句子的语法结构进行分析,把一些复杂的句子分解为简单的句子,又结合了领域本体里的概念、关系、关键词。
随着人们生活水平的提高,旅游成为人们节假日的首选。然而面对Web上旅游网站的大量旅游景区、旅游线路、旅行社、酒店等信息,人们需要手工筛选才能得到自己所想要的这些信息。
所以,本文提出了一种基于本体的旅游信息抽取方法。该方法在前期对网页的处理中,将网页的HTML文档生成了DOM树,这样更便于利用领域本体里的关键词准确地定位信息区域,抽取网页正文,然后对其进行分词,最后利用JAPE规则进行本体匹配,形成结构化的内容,存入数据库。该方法更提高了信息抽取的效率,改进了文献[5]的方法。
1 本体的构建
本体是概念和关系的集合,是对领域知识概念的抽象和描述。利用本体,可以让人们、数据库和应用软件来共享、重用领域知识[6]。
本体构造的方法也有很多种,本文按照Uschold和Gruninger提出的骨架方法[7],过程为:(1)确定本体的应用目的和范围;(2)本体分析;(3)本体表示;(4)本体评估;(5)本体的建立。
本文对网上的旅游网站进行大量的分析,从中提炼出一些核心概念、实例及其关系。旅游领域本体的核心概念有酒店、旅游景区、旅行社、旅游线路、旅游气象、民族风俗、特色小吃、餐饮和公交路线以及地区等。在这些核心概念中,如酒店有漓江大瀑布饭店、凯宁七星大酒店、桂林山水大酒店等,酒店还有一些属性是酒店名称、房间类型、房间价格、地址等;旅游景区的一些属性有名称、门票价格、景区等级、联系电话等;还有酒店、旅游景区以及旅行社等都属于某个地区,它们和地区的关系等信息。
有了上述的分析后,本文采用OWL DL语言作为建立旅游领域本体的语言,用Protege编辑器构建本体。步骤如下:
(1)定义本体的类别和层次
首先定义旅游领域的基本类及类之间的层次关系,图1为旅游本体部分类的关系层次图。
(2)建立本体的对象属性和数据属性
在建立完本体的类别和层次后,根据本体类,定义了本体的属性关系,如表1所示为酒店的部分属性表。
(3)建立旅游领域本体的实例
选择类,建立其对应的实例。如表2所示为旅游本体的(部分)实例表。
2 抽取算法
2.1 DOM树
文档对象模型DOM[8]是由W3C制定的一套标准接口规范。DOM提供了对文档中数据以及文档中结构(标签)的访问。DOM通过解析器读入整个HTML文档,将网页中的标签按照嵌套关系整理成一棵树状结构,构建一个驻留内存的树结构的对象模型集合,称DOM树,DOM树反映了HTML文档的树型结构。对应一个DOM树,通过对DOM树的遍历,可以对页面中每一个元素进行处理,来访问、修改HTML网页文档。
2.2 网页正文抽取算法
抽取算法有区域超链接数目算法和特征词算法,本文采用的是基于本体的关键词及网页DOM树结构的抽取算法。抓取的网页分为目录型网页和内容型页面,分别处理如下:
(1)目录型页面的信息抽取
对网站中目录型页面的信息抽取,关键是定位网页的目录标题区域,网页信息提供者通常很用心地处理网页的目录标题,其中标题通常包含了网页正文的重要信息,为网页正文主要信息的概括总结。
由于在前面已经建立旅游本体,从而可以使用本体中的关键词来对网页上信息区域进行定位。本文使用本体中的关键词,采用前序方法遍历整个DOM树,判断当前的节点是否属于HTML标签节点,如果当前节点不是HTML标签节点,则取当前节点的文字内容匹配关键词;若出现匹配的关键词,则认为该区域与概念关键词相关,获得标识节点位置;可以找到包含相关信息的最小子树,进而对内容进行抽取。具体算法如下:
输入:处理的DOM树;本体的关键词。
输出:网页中的标题和URL。
(2)对内容型页面的信息抽取
根据旅游本体中的关键词和前面目录型页面抽取的标题及URL,根据标题定位网页正文的内容,然后对网页正文所在DOM树、兄弟DOM树及其他们的子树进行遍历,抽取正文信息。网页正文抽取算法如下:
输入:旅游本体的关键词;标题与URL。
输出:网页正文文本。
Begin
Step1对网页进行规范化,消除网页噪音。
Step2找到标题或者旅游本体的关键词在网页
与
中所在DOM树的标签节点,并记录在DOM树中的路径,记为Tpath。
Step3继续找网页正文的DOM树中的
标签路径,若存在,记为Ppath,进入Step4;若不存在,对标题所在节点的DOM树及其兄弟DOM树和它们的子树进行遍历,抽取正文信息。
Step4把Tpath与Ppath进行相交运算,求出最长字符串Cpath,这就是包含网页正文的DOM树路径。
Step5遍历Cpath及其子节点,抽取文本内容,即得到网页正文内容。END
2.3 本体匹配规则
在前面我们已经建立了旅游领域本体,采用OWL(W3C推荐标准)语言描述领域本体的类、类层次关系以及类的属性等。类的属性有对象属性和数据属性,对象属性是描述类之间的关系,而数据属性一般是字符型的,前面旅游本体的建立里面已经有举例。在文献[5]中利用JAPE规则进行的英文信息的抽取,本文利用JAPE编写针对中文特点的规则。在编写JAPE规则前,首要处理的是中文分词、本体的解析及语料的问题,在中文分词的处理上本文采用开发旅游搜索平台时的分词工具,本体的解析和语料问题分别在文献[5]和文献[9]中详细介绍。
JAPE[9]提供了基于正规表达式的标注有限状态转换。JAPE编写的每条规则有左侧和右侧两部分组成。左侧部分LHS(Left Hand Side)是一个包含正规表达式操作符(|,*,?,+。其中“|”的含义是或者,“*”的含义是零次或者多次发生,“?”的含义是零次或者一次发生,“+”的含义是一次或者多次发生)的标注模式。右侧部分RHS(Right Hand Side)包含了标注集操作描述。与左侧部分匹配上的标注集将会按照右侧的操作执行。LHS->RHS。中文旅游信息中景点景区的门票价格的抽取,例如抽取出的网页页面正文中的“景点门票:门票31元”这个信息片段,经过分词后得到“景点/门票/:/门票/31/元”,规则如下:
3 基于本体的旅游信息抽取
基于本体的旅游信息抽取就是对旅游领域的信息进行抽取,得到结构化的旅游信息,使用户得到的信息更准确。如图2为基于本体的旅游信息抽取的过程。
具体步骤如下:
(1)本文的信息抽取在网页抓取这一步采用我们之前开发的旅游搜索平台的爬虫程序进行网页的抓取。
(2)对抓取下来的网页,因为HTML文档有许多没有完全遵守标准来编写,如无相应结束标记、标记嵌套不合理等。所以为了能够对网页都按照HTML标准来解析,本文使用JTidy工具来修正HTML文档。接着利用HTML Parser解析HTML文档,生成DOM树。最后,根据HTML标签来去除Web文档中存在的图像、脚本、样式和其他一些噪音元素,根据噪音源的特征定义特定的规则进行过滤。
(3)利用我们前面的网页正文抽取算法对经过步骤(2)处理后的网页进行正文的抽取。图3为抽取酒店网页正文信息图。
(4)中文词法分析是中文信息处理的基础与关键。分词工具也有很多,如中科院软件所的分词工具ictclas4j以及CKIP的分词工具等,但是这些工具对本文的分词都不是很理想。所以本文采用我们开发旅游搜索平台时建立的词库,结合Lucene中文分词包及je-analysis-1.4.0对上面得到的网页正文进行分词处理等。
(5)用本体的匹配规则与步骤(4)中分词得到的结果匹配进行抽取,将抽取的结果依据旅游本体中的核心概念及其属性信息,生成逐条记录存入数据库。
4 实验及总结
4.1 实验
信息抽取技术的评测起先采用经典的信息检索(IR)评价指标,即召回率(Recall)和查准率(Precision)[10]。计算公式如下:
为了综合评价系统的性能,通常还计算召回率和准确率的加权几何平均值,即F指数[10],它的计算公式如下:
其中,β是召回率和准确率的相对权重,取β为1。
本文的抽取实验以酒店和景点为例,取10个页面作为样本进行测试,得到的实验结果如表3所示。
分析以上的实验及实验数据说明本文提出的方法准确率高,主要是因为本文的方法将旅游网页的正文先抽取出来再做接下来的处理,这也为将来的操作提供了方便,更提高了抽取的准确率,文献[5]没有做这一步。
4.2 总结
本文的方法不仅结合DOM树结构和本体的关键词定位网页信息区域进行正文信息的抽取,在本体匹配规则中利用到JAPE语言,使得抽取的准确率更高。此外,该方法将无结构化网页的文本变成具有语义的、机器可理解的结构化信息。由以上实验也充分说明本文提出的方法可以很准确地抽取人们需要的旅游信息。由实验分析知道,影响抽取准确率的因素是:领域本体构建的不完善、分词的算法、本体匹配的规则。本文进一步的工作是针对以上这些方面进行改进,以得到更好的准确率。
参考文献
[1]Lutsky P.Information extraction from documents for automating soft-ware testing[J].Artificial Intelligence in Engineering,2000,14(1):63-69.
[2]Abulaosh M,Dey L.Biological relation extraction and query answering from MEDLINE abstracts using ontology-based text mining[J].Data&Knowledge Engineering,2007,61(2):228-262.
[3]Guarino N,Masolo C,Veter G.OntoSeek:content-based access to the web[J].IEEE Intelligent Systems,1999,14(3):70-80.
[4]Embley D,Campbell D,Smith R,et al.Ontology-based extraction and structuring of information from data-rich unstructured documents[C]//Proc.of ACM Conference on Information and Knowledge Management,USA,1998:52-59.
[5]陈兰,左志宏,熊毅,等.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2006,21(8):155-157.
[6]Soo V W,Lin C Y.Ontology-based information retrieval in a multi-a-gent system for digital library[C]//Proc.of the Sixth Conference on Artificial Intelligence and Applications(TAAI2001),Taiwan,2001:241-246.
[7]Uschold M,Gruninger M.Ontologies:Principles,methods and applica-tions[J].The Knowledge Engineering Review,1996,11(2).
[8]W3C.Document Object Model(DOM)Level1Specication,Version1.0[EB/OL].http://www.w3.org/TR/REC-DOM-Level-1.
[9]李飒.基于GATE的中文信息抽取系统的开发和实现[D].北京:中国科学院研究生院(文献情报中心),2004.
论本体名词 篇5
论本体名词
本体名词就是代表现实世界本体范畴的名词.文章研究本体名词的性质及其在句子中的地位和作用.认为:1.本体名词是句子的灵魂.任何一句语义完整的话,其中都有本体名词起主导作用.该本体名词或直接出现,或至少可以明确推知.2.动词的`“价”,实际上就是动词所能联系的本体名词的数目.工具格,当它由本体名词充任时,是句法结构中的核心格,否则就不是.处所格,由于不可能是本体名词,所以也就不可能成为句法结构中的核心格.3.谓词性成分既可以指称本体名词,也可以指称附属名词,但当它指称附属名词时,该附属名词所依附的本体名词必须出现,或至少可以明确推知.
作 者:姚振武 Yao Zhenwu 作者单位:中国社会科学院,语言研究所,北京,100732刊 名:语文研究 PKU CSSCI英文刊名:LINGUISTIC RESEARCH年,卷(期):“”(4)分类号:H13关键词:本体名词 句子 动词的“价” 谓词性成分
药学本体构建实践 篇6
关键词:本体;领域知识;本体构建
中图分类号:TP311
文献标识码:A
文章编号:1009-3044(2007)12-20000-00
Practice of Pharmaceutical Ontology
WANG Mei-wen
(Library of Zhejiang Pharmaceutical College,Ningbo 315100,China)Abstract:Pharmaceutical ontology construct is signality. Firstly, the software and principle for ontology constructing are introduced. Then,follwing the construct method of‘seven steps’, every step to construct pharmaceutical ontology is described particularly. The process includes: requirement analysis, re-use possibility of existing ontology, to structural analyse for pharmaceutical domain knowledge, to acquire the core concepts and to design the class,property and instance of pharmaceutical ontology. The pharmaceutial ontology has applied in the Chinese meta search engine search result automatic classification system.The ontology can evolve with use process of this system.
Key words:ontology; domain knowledge; ontology construction
1 引言
在信息管理領域,越来越多的研究热点集中在对信息的理解、基于语义的整理和开发上。本体作为一种机器可理解的、形式规范的、可共享的领域知识表现方法,是实现语义网的关键技术。事实上本体的应用在智能检索、语义标注、自动分类等方面已有很多的实验项目,但是对于具体领域本体的构建实践并不多。而大量高质量的本体的构建,是本体技术获得良好应用效果的基础和前提。
本文对药学领域的本体构建进行了实践,并将它应用在了中文元搜索引擎检索结果的自动分类中。
2 本体构建工具
2.1 本体的形式化编码本体实质上是领域知识的形式化表达,因此需要一种形式化的描述语言,利用机器可读的形式对本体进行编码,使计算机可以存储、访问或修改本体,并将本体嵌入到各应用系统中,或在不同的系统之间进行互操作。目前有许多本体描述语言,如许多本体描述语言,如RDF(S)、OIL、DAML、OWL等。本文的药学本体采用的是RDF(S)本体描述语言[1]。
本体需要描述领域内的概念集及概念之间的关系,在RDF(S)中,用类(Class)描述概念(术语),属性(Property)描述概念间的关系。具体描述方式如以下例子:
rdfs:label="中枢神经兴奋药">
rdfs:comment="通常为药典名" fs:label="中文正式名">
2.2 本体的形式构建
直接用RDF等本体描述语言编辑本体工作量非常大,而且概念与概念之间的关系不直观,所以在构建本体时一般会使用一种界面友好的可视化本体开发工具来辅助构建本体。
protégé[2]是由斯坦福大学医学院的医学信息研究小组(Stanford Medical Information research group)开发出来的本体和知识库编辑器,它有一个交互式的图形化开发环境,支持各种标准的存储格式,比较容易学习使用,提供大量的插件,基于这些优点,protégé成为最受欢迎的本体构建工具,本文的药学本体也采用它作为本体的开发平台。
图1
protégé编辑界面
3.1 已有的构建方法
选择一条合适的本体构建的方法路线对于保证本体的构建质量是至关重要的。由于各自的学科领域和具体工程的不同特点,构建本体的过程各不相同,目前尚没有一套经权威标准化机构认可的本体构建方法。从一般方法
论角度出发,1995年由Gruber提出的本体构建5条原则得到公认:明确性和客观性、完整性、一致性、最大单向可扩展性、最少约束从本体的概念和作用我们可以看出,共享和重用是其本质特征,因此相比于一般的软件,本体的建设更应该遵循工程化生产的路线。采用标准化的表达方式和规范化的工作步骤。事实上,已有的本体构建方法中都体现了工程化的思路。常用的本体构建方法有:企业建模法(Tove)、骨架法(Skeletal Methodology)、METHONTOLOGY 法、七步法等。
3.2 药学本体构建方法
综合分析已有的本体构建思路后,结合药学领域知识结构特征,本文的药学本体较多地借鉴了斯坦福大学医学院开发的七步法[3]。基本思路是:
第一步,确定本体的专业领域和使用需求。
第二步,考虑复用现有本体的可能性。
第三步,列出本体中的重要术语。
第四步,定义类(class)和类的等级体系(Hierarchy)。
第五步,定义类的属性(solts)。
第六步,定义属性的分面,如取值的类型(valueType)容许的取值(Allowed Values)等。
第七步,定义类的实例(Instances)。
以上七步并不是严格的循序渐进的次序,而是互有交织循环完善的过程。在这个过程中需要领域专家和IT技术人员的协作配合。领域专家需要领会本体描述领域知识的规则,并按此规则对知识进行重新整合。IT技术人员则需要将领域专家的知识描述转化为本体表现形式,并用本体描述语言进行形式化,进而嵌入到应用系统中发挥作用。
笔者在图书馆有多年的药学文献标引和参考咨询经验,具备了一定的药学领域知识,同时对本体方法较熟悉,因此在药学本体的构建中担当了主要角色。为了保证质量,在构建过程中,笔者还请教了相关的专家,请他们对药学本体的知识组织体系及一些概语(术语)的解释进行了指导。
4 药学本体构建过程
4.1需求分析
(1)药学本体领域范畴
本文构建的本体定位在药学领域,属于医药卫生领域的一个分支,是一个以药品为研究对象的学科。根据药品的来源分类,可分为中药(天然药物)、化学药品和生物制品,由于时间和人力的限制,笔者选择了化学药品为主要描述对象,将重点放在化学药品领域知识结构的组织与搭建,并选择其中几种具体药品(如阿司匹林、尼莫地平)进行详细描述。
(2)药学本体的应用目的
本文构建的药学本体将作为对中文元搜索引擎查询结果进行自动分类的分类知识库。因此,在构建本体时不仅要考虑药学领域自身的知识特征,而且要考虑到应用的场所特征。构建本体进所采用的概念、术语是由领域专家结合相关的学术文献抽取出来的,体现了从领域学者的角度来描述药学专业知识。而使用本体的人是元搜索引擎的使用者,他们不仅包括此领域的学者,还包括并不熟悉的此领域知识的人。因此本文的药学本体也提供了从这些非专业人土的角度来描述药学领域知识。
基于这个使用目的,笔者在提取领域概念时采用了两种资料来源,一种是药学专业期刊及工具书,另一种是分布于web上的相关网页内容。
4.2 复用现有药学本体的可能性分析
据笔者所知,现有的医药学领域的本体有很多,比较著名的有①美国的Unified Medical Language System Metathesaurus ( 联合医学语言系统元词表)。②英国曼彻斯特大学的Open Galen 项目。③基因本体联盟(GOC)开发的Gene ontology。这些本体都以英语为描述语言,侧重于医学的角度,并不适合本文分类系统的需要。当然,这些本体对医药学方面知识组织的思路为我们分析药学的领域知识提供了借鉴。
中国图书分类法[4]中的类目(概念)是表达文献内容学科知识领域的概念,而且分类法具有完备的类目组织系统,通过等级结构、逻辑关系显示文献主题概念(类目)之间的从属、并列、交替、相关等各种关系,在分类语言系统之中建立起语义联系。主题词表[5]中的主题词是表达文献主题的词和词组的集合,是经过规范化处理的,具有专指性、准确性、明确性和唯一性的术语集合。它还具有完备的参照系统通過主题词下设置“用、代、属、分、参”等多种参照项,以表示概念之间的等同关系、等级关系和相关关系。从某种程度上讲,主题词表与分类法都是相关领域概念和概念关系的集合,其基本功能和本体具有一致性,因此在药学领域本体构建时参考了《中国图书分类法(第4版 )》中的药学(R9)部分的体系结构,以及《分类主题词表》中的术语表达。
4.3 药学领域知识的结构化分析。
药学是个庞杂的学科,在参考了相关工具书[6,7,8,9,10]及分类法、主题词表的基础上,笔者认为:从知识工程的角度出发,药学领域最重要最核心的概念是药品,围绕每个药品,可以从药学各分支学科角度描述其药理学、药效学、药物制剂、药物分析、药物鉴定、药物不良反应、用法用量、贮藏、药事管理、商品学等方面的知识。
除了单个药品的各个分面知识外,药学领域还有一类是经过总结和提炼的某类药物的综合知识,例如“片剂制剂通则”、“抗生素药物相互作用”等。为了描述这些知识,我们为每个药品分设了按不同角度区分的抽象类,如卞卡青霉素注射液的上位类为抗生素(按药理作用分)、片剂(按剂型分),那些不属于单个药品知识的综合知识就可以在这些药品的相应上位类进行描述。
图2
药学本体结构图
4.4 药学核心概念集的获取
笔者从以下几个方面收集了药学领域的相关概念、术语及关键词:
(1)采用《中国药典》2005版(二部)中收录的化学药品名称,每种药品的概念包括中文正式名、英文名、化学名称、商品名称。
(2)以《中图分类主题词表》的体系结构为主要依据,参照相关工具书抽取出描述药学知识的学科分支,如药物治疗学、药理学、药物分析、临床用药注意事项等,并将这些分支学科进一步细化,如将临床用药注意事项细化为更小的概念,包括不宜使用者、安全剂量、患者类型、服药时间、禁忌病史、配伍禁忌等。
(3)药学领域的知识在不断地创新发展着,其相对活跃的一部分知识,就是药学专业论文。为了使药学本体能涵盖这些新的知识,笔者对《中国药学文摘》2004、2005年的年度主题索引进行了分析、整理,提取出新的概念或已有概念的不同表述,添加到本体中。
(4)从网页中抽取相关概念。虽然网页中出现首创的药学新知识的可能性比较小,但是网页中描述的药学知识通常表现了非专业人士对药学知识的表述方式,从中可以抽取出对于某一药学概念的“自然语言版”。如果将某一概念的正式术语称为主题词的话,那么其它表达这个概念的词都称为关键词,将这些关键词加入到本体中,是此药学本体能够对网页进行有效分类的重要手段。
4.5 定义类和类的层次结构
4.5.1 确定药品分类体系
药学本体的核心概念是各个药品,各个药品从不同的角度可以归为不同的类别体系,如按药理作用不同,可以分为:抗微生物药物、抗寄生虫药物,主要作用于中枢神经系统的药物……,上述各类可进行下一级细分,如抗微生物药物可分为抗生素、磺胺类、抗真菌药等等。药品的集合还可以按剂型分类:液体及半液体剂型、固体及半固体剂型、控制释放剂型等,又可往下一级细分:如液体及液体剂型可分为水剂、注射剂、糖浆剂、合剂等,设立各药品的类别概念主要是为了描述属于这个类的共性知识的概念,如抗生素的药物相互作用、糖浆剂制剂技术等。
4.5.2确定药学的各分支学科概念
药学各分支学科包括药理学、药物分析、药物化学、药物鉴定、药事管理、药物相互作用、药物不良反应等,这些分支学科可以看作是一个个元本体,各元本体中需要定义其相应的概念类、属性及实例。在本文的药学本体中,将各分支学科设立为与药品平级的类,类名设计为分支学科名后加“模板”作为其特征,如“药物不良反应模板”,并在下一步工作中根据分支学科的特点进一步定义其属性及实例。
4.2.3 与药品概念类平等的通用概念的提取
对于人、机构、疾病、设备等这些概念将与药品概念类及分支学科类产生经常的关联,例如患者(人的一种)将与的药物使用人,不宜使用者、药物代谢时间等诸多概念发生联系。为了提高表达的效率,将这些通用概念提取出来,作为药品概念类和学科分支类的平行概念。
4.6 定义类的属性及属性的侧面
概念之间关系的表示方法有两种:一种是设立特定的关系类,另一种是用属性来定义概念间的相互关系,在药学本体中,我们主要采取了第二种方法。
(1)药品概念类属性的定义,我们发现与单个药品概念类相关联的知识均可从药学分支学科的角度进行表达,即每个药品均有药理学知识、药物鉴定知识、药物不良反应知识等,所以药学分支学科类(如药物不良反应模板)可以作为药品类概念的属性,这样我们就在可以在这些属性下定义单个药品 各个侧面的知识,如阿司匹林的药物不良反应方面的知识。
把类定义为属性的方法是把属性的类型(type)定义成该类实例(instance),如我们为药品阿司匹林添加属性“药物不良反应”,并将其类型(type)定义为“instance of 药物不良反应模板”。
本文的药学本体为每个药品概念类设置了19个属性,分别为:中文正式名、化学名称、化学药品别名、商品名、英文名、制剂与规格、制备方法、物理性质、用法用量、用药注意事项、药事管理、药品商品学、药品贮存、药效、药物不良反应、药物代谢动力学、药物分析、药物历史、药物相互作用。
继承关系是整个本体体系中最重要的关系之一,子类将继承父类的所有属性,也可以拥有父类不具有的独特的属性。定义属性时我们同时需要为它定义约束条件:属性值(value type), 集的势(cardinality)、 属性所在的类(domain).
(2)药学分支学科类的属性定义根据各学科特点分别设计,如为“药物不良反应模板”设置了“不良反应症状”和“不良反应种类”2个属性。
图3
化学药品的属性定义
4.7 定义类的实例
定义类的实例就是为类的各个属性添加属性值。实例添加后,一条条知识单元完整了。本体对于领域知识的表达方式就是以类→属性→实例的形式来表达的。例如,我们为阿司匹林的“药物不反应”属性的“不良反应症状”子属性添加实例“呕吐”,就可表达一条完整的知识单元:“阿司匹林不良反应症状为呕吐”。实例所依据的领域知识单元从领域专家、工具书及学术论文处获取。
5 结语
药学本体的建设对于药学领域数字信息资源的深层次开发利用有重要作用。本文构建的药学本体旨在利用本体的思想和方法组织和整合药学领域知识,并用规范的形式化语言描述。本文的药学本体已应用在基于本体的中文元搜索引擎查询结坚果自动分类系统中,并通过系统的运行,实现了本体的进化。[11]由于时间和人力的限制,药学本体构建并不完善,更侧重于对药学知识的整体表现方式的探索,实例的添加较少。希望本文的工作能为语义Web、数字图书馆相关的领域本體构建研究提供有价值的参考,并期待更多专家的检验和评价。
参考文献:
[1]Lassila O., Swick R. Resource description framework (RDF) http://www.w3.org/TR/REC-rdf-syntax.,. w3c Recommendation 10 February 2004.
[2]protege3.2 beta, http://propege.stanford.edu,2006.09.
[3]Natalga F. Noy and Deborah L. Mc Guinness .Ontology Development 101: A Guide to Creatiy your First Ontology,2001-8 http://protege. stanford.edu/publications/ontology/development:/ontology101.pdf
[4]中国图书馆分类法编辑委员会.中国图书馆分类法(第4版)[M]. 北京图书馆出版社,1999.
[5]中国图书馆分类法编委会.中国分类主题词表[M].华艺出版社,1994.
[6]国家药典编委会.中华人民共和国药(2005版第二部)[M],化工出版社,2005.
[7]刘锡钧.实用药物指南[M].人民军医出版社,2000.
[8]陈新谦,金有豫,汤光.新编药物学(第15版)[M],人民卫生出版社,2003.
[9]国家执业药师手册编委会.国家执业药师手册[M].中国人事出版社,2002.
[10]中华人民共和国药典编委会.临床用药须知[M].化工出版社,2001.
数据信息在灾害领域本体应用 篇7
1 地质灾害领域本体
多层本体应用模型:本体一般可以分为顶级、领域、任务和应用, 这种划分的依据是领域依赖程度的不同。领域本体可以将承上启下的作用充分的发挥在多层本体结构中;本文设计的多层本体应用模型可以对本体进行相关的操作, 也可以有效的语义查询和检索地质灾害空间数据, 可以大致分为地质灾害信息系统应用层、本体层和数据层。
地震灾害领域本体:领域本体指的是可以在一个特定的领域内重用, 并且将在这个特定领域内的概念定义和概念之间的关系明确的提供出来, 还可以将在这个领域内发生的活动以及这个领域内的主要理论明确的提供出来, 比如医学概念本体、地理本体、企业本体以及生物学知识库等等。要想有效的将地质灾害的概念表达出来, 就需要采取和研究其他学科本体一样的方式, 也就是将语义学和逻辑学作为切入的角度, 依据引入的本体以及描述逻辑, 把可以清晰的描述出地质灾害信息的形式化系统给建立起来, 这个形式化的系统还可以有效的将地质灾害信息系统不同的地质灾害类型之间的相互关系以及作用的若干规则给反映出来。地震灾害领域本体建立在本体的地震灾害信息框架一个层次的基础上, 可以将一些灾害地质学学科的本体概念定义其中, 比如地震、滑坡、崩塌以及泥石流等;同时, 还应该对实际的地质灾害数据集产生足够的重视程度, 因为许多概念会有不同的名字在应用本体之中, 有些是名称相似但是本质不同, 有些是名称不同但是本质相似。所以, 针对同一地质灾害数据集会有不同表达方式的情况, 本体就可以实现桥梁的功能, 来实现地质灾害信息的语义共享, 这样将本体引入其中, 就可以对地质灾害领域的概念和之间的关系进行研究, 从而有效的实现地质灾害领域信息的集成和共享。
2 领域本体的基本构建方法
地质灾害数据分类与概念体系分析:地震灾害有着十分复杂的形成机理和时空演化过程, 并且多源、多类、多量、多维、多时态和多主题特征也是地震灾害数据的特点。因为地震灾害的成因非常的复杂, 并且在发生的过程中具有连锁性, 在区域表现上具有群发性, 所以在对灾害分类的时候还没有形成一个统一的标准。一般来说, 可以按照以下原则进行分类, 要遵循明确的分类系统和层次;要按照成因类型将地质灾害划分到相应的类中, 并且一个位置中只能有一种地质灾害;地质作用是地质灾害的动力标志, 因此, 不是直接地质作用的灾害不属于地质灾害。
地质灾害信息层次结构:对地质灾害进行分类的时候应该按照分类的原则以及地质灾害信息的分类方法, 还应该参照相关的法律法规和行业标准, 根据地质灾害类型的概念和本质含义进行科学的分类。一般可以按照灾类、灾种和子灾害三级层次对地质灾害进行分类。
地质灾害领域本体的构建技术路线:目前在领域本体的构建中使用非常普遍的就是斯坦福大学医学院开发的七步法, 具体是:对知识本体的专业领域和范畴进行确定;考察复用现有知识本体的可能性;将知识本体中的重要术语列出来;将类和类的等级体系定义出来;对类的属性进行定义;对属性的分面进行定义;创建实例。
根据上面所述七步法的思想, 可以将地质灾害领域本体的技术实现路线概括为:根据相关的行业标准和地质灾害信息处理标准和专家知识等, 建立起科学合理的地质灾害领域本体框架结构;在设计地质灾害空间数据本体应用模型的时候, 应该依照多层本体结构, 建立地质灾害空间数据本体, 采用OWL语言对空间数据本体进行形式化的表达;根据本体查询模式和描述逻辑的本体推理, 建立起科学的本体语义查询框架, 同时将地质灾害空间信息共享传播模型设计出来;为了实现各部应用系统或模块都能查询和检索空间数据的语义, 就需要提供全局的本体驱动接口模式。
3 结语
本文以我国的三峡库区为例, 因为三峡库区具有丰富的地质灾害资料, 采用的主线是地质灾害多源异构空间信息集成和共享, 研究了如何建立基于顶级、领域以及应用多层本体的地质灾害空间数据语义集成和共享模型, 从而希望可以有效的实现横向各部门之间的沟通和信息共享功能。
参考文献
[1]王艳妮, 刘刚.地质灾害领域本体的研究与应用[J].地理与地理信息科学, 2011, 27 (6) :36-39.
[2]吴冲龙, 谭照华, 李伟忠.三峡库区地质灾害勘察点源信息系统的研发[J].水文地质工程地质, 2006, 2 (2) :123-128.
基于本体的信息检索技术的研究 篇8
对于语义检索的定义,文献[1]认为:语义搜索是一种在获得了被搜索的数据或信息的语义的基础上,通过对语义进行明确的表示和处理来使得结果在意义上,而不仅仅是在语法或结构上满足搜索需求的系统或方法。文献[2]认为:语义检索是对检索条件、信息组织以及检索结果显式赋予了一定语义成分的一种新的检索方式。从这两个定义可以看出,语义检索本身还是信息检索,但它更加强调“语义”,这是与传统关键词检索相区别的。
当前的信息检索无论是采用元数据还是采用全文本,其基础都是文本字符串匹配,自然语言的不确定性极大限制了检索的查准率和查全率。语义检索关注信息资源的真实含义,不仅仅停留在文字表面,从而保证了信息检索的质量。
1语义信息检索的研究现状
语义检索领域内近几年的研究工作,大致包括5个主要的方向:语义查询优化、查询目标分析、复杂约束查询、信息查询个性化和语义关联分析。
1.1语义查询优化
语义查询优化是将语义技术应用到传统文本信息检索,利用本体技术提高检索的准确率和召回率的技术。语义查询扩展是语义查询优化的一种,其基本思想是利用本体知识扩展用户输入的查询关键字,大致过程如下:将关键字定位到本体库,通过图的遍历发现相关的概念,利用相关概念的关键字来扩展或限制搜索。
1.2查询目标分析
语义检索要求对用户查询需求赋予语义,因而如何确定用户查询的对象一直是语义检索的一个重要研究方向。当前这方面的研究工作主要在概念、实例及相互关系等本体知识己经确定的基础上,完成用户查询对象到本体概念的映射。
1.3复杂约束查询
许多复杂的查询需求可以表达为一组具有特定类型和特定关系的对象的形式,在语义检索中,这类查询用对象节点和对象节点的属性、类别表示。例如查询“FindallphonemanufacturedbyNokia in 2006,supporting MMS”中,“phone”、“Nokia”“2006”和“MMS”是对象节点,“manufacturedby”和“supporting”是对象节点应具有的属性。这类查询在本体知识的支持下很容易进行,问题在于一般用户很难构建这类查询。因而,在语义信息检索领域,大多数有关复杂约束查询的工作都在用户接口的层次,研究如何能直观地构建查询的方法。
1.4信息查询个性化
语义信息检索中的个性化研究,旨在使用语义信息记录用户偏好,实现用户偏好的确定、推理,为用户提供个性化的检索服务。区别于以往的个性化信息检索,语义个性化研究中的用户偏好被映射到了本体概念,具有了实际的含义,能够提供更加强大的推理分析能力。
1.5语义关联分析
通常语义关联分析被用于发现用户感兴趣的资源之间的关联[3],这些关联本身就具有一定的价值。
2基于本体的语义信息检索框架
如图1所示为基于本体的语义信息检索模型的基本框架。
整个系统框架主要分为两部分:基于本体的文档处理和基于本体的文档检索。基于本体的文档处理主要是网上信息的收集,由专家构建领域本体。通过构建的本体来对收集的信息进行语义标注,然后对信息进行索引,最终得到有关原始信息的语义索引库。基于本体的文档检索是用来对用户的查询进行处理,其中包括对用户查询请求的获取,查询的条件与本体库中的概念进行语义匹配。接下去用语义查询语言如:RDQL等,通过搜索引擎查询语义索引库,最后通过检索结果排序算法,将检索结果以一定的相关度返回给用户。
2.1 基于本体的文档处理的工作流程
2.1.1 领域本体的构建
由于对原始信息的收集、资源对象元数据的提取和信息查询等都需要以领域本体为基本依据,因此,首先需要构建合理的领域本体,领域本体的构建需要在领域专家的协助下来完成。
2.1.2 原始信息的收集
信息库是信息查询系统的基础设施之一,在信息查询时,首先要确保信息库中存在有足够多的可供查询的信息,然后才能考虑如何有效的查询。
2.1.3 文档信息的特征提取,即元数据的提取
传统信息查询通过索引器来提取文档的索引信息,并通过索引信息来反映文档的具体内容,而本系统中的文档元数据是按照领域本体的结构进行组织安排的,其不仅反映了该文档的内部信息,如:标题名、关键词、作者等信息,而且还反映了该文档与其它文档之间的关系。
2.1.4 元数据的语义编码
显然,采用统一语法格式标准的信息库往往更容易取得好的查询效果。在模型中采用了W3C所发布的资源描述框架(RDF)作为元数据编码的参考模型,将步骤3中所提取出来的文档特征信息编码成RDF/XML格式,这样,计算机可以高效地处理这些元数据信息。
2.1.5 元数据的语义推理
主要是根据领域本体和推理规则来完成对有关元数据的推理处理,得出隐含的信息,服务于后续的查询操作。
2.2 基于本体的文档检索的工作流程
2.2.1 查询条件的预处理
由于用户输入的查询条件可能不规范,信息检索模块无法直接使用,所以,有必要根据所建立的领域本体,对查询条件进行规范化处理,从而使后续工作顺利进行。
2.2.2 查询条件的编码
该过程是在领域本体组织框架的指导下,按照资源描述框架模型,将经过预处理的查询条件转化成RDF/XML格式的查询表达式。
2.2.3 信息查询
在前面多个模块的协作下,使得该模块的操作变得十分简单,只需要将处理过的查询条件和元数据库中的信息进行匹配,选出满足条件的元数据,交给后续部分处理就可以了。该模块处理的简单化也确保了系统的高效性。
2.2.4 查询结果的排序处理
一个优秀的排序算法应能较准确的反映出各查询结果对用户的重要性。
2.2.5 查询结果的返回
将经过排序处理的查询结果以合适的形式返回给用户。
3 主要的技术要点
3.1 领域本体的构建
由于没有统一的原则,加上每个实际构建的本体的类型和应用情况也不同,几乎每一个系统的开发都会产生一些不同的本体构建方案。目前为止, 本体构建中比较有名的几种方法包括TOVE 法、METHONTOLOGY 法、骨架法、KACTUS法、SENSUS法、DEF5法和七步法等。
以下构建了一个有关计算机学科的文献资料,以一些文献资料为基础,抽取领域中的核心概念,建立本体的概念化体系。
图2是计算机学科的概念体系的一部分,可以采用这种分类体系对计算机学科领域的资源进行抽象处理。在分析概念的基础上结合实际中的领域资源的特征,将资源的属性概括为标题、作者、主题、来源等。属性作者可以来自概念“作者”的实例。同样,属性来源也可以来源于发行单位、某一网站链接等的实例。
下面的代码就是采用Protégé对图2概念体系进行形式化,并采用OWL本体描述语言作为输出语言的部分代码。
3.2 基于本体的查询预处理技术
当前信息检索工具提供给用户的主要是基于关键词的检索接口,但是在很多情况下用户真正的检索意图很难用几个关键词清楚地表达,这是导致现有检索系统不能满足用户需求的主要原因之一。而另一方面用户在进行信息检索时,并不一定对他所检索的领域比较熟悉,有可能对其所查的内容不能按照领域内规范的表达方式进行表达,因此为了能够更好地让用户表达出他的检索意图,应提供给用户的检索接口是自然语言的表达方式。用户可以以自然语言的方式向系统提出问题,例如某个用户希望知道中国人口数量,他可以提出问题:“中国的人口是多少?”,此时利用领域本体中的知识和一些简单的自然语言理解的技术对用户的问题进行查询预处理,得到用户真正的检索意图,然后再将预处理后的检索请求提交给系统的查询模块。
3.3 基于本体的语义处理技术
经过查询预处理后用户查询表达式,主要解决概念的“一词多义”性,明确了用户真正的检索意图,并且得到概念在领域中的上下文环境,初步具备了语义信息,但对于概念的“一义多词”性,还需要借助概念相关性和相似性计算来处理。
由于信息检索主要以自然语言文本为处理对象,信息检索的需求促使人们开始研究如何在用户查询与文档之间寻求相关。概念的相关性和相似性是两个容易混淆的概念。刘群等人[4]辨析了词汇语义的相关性和相似性之间的关系,认为:概念相似性反映的是概念之间的聚合特点,而概念相关性反映的是概念之间的组合特点。本文认为相关性和相似性之间存在着密切的辨证关系。若两个概念非常相似,则这两个概念之间的相关性程度会比较高。也就是说相似概念之间一般都是相关的,反之,相关的两个概念并不一定是相似的。
4 结束语
随着信息时代的到来,人类进行信息生产的能力高速增长,如何在浩如烟海的信息中寻找出对用户有用的信息成为一项非常重要的问题。日益发展中的信息检索技术使这个问题的解决成为可能。将本体论应用到信息检索中来,使信息检索系统语义化、知识化,从而提高信息检索系统的查准率和查全率,更是成为研究的热点。对本体论的相关技术进行了研究,并将其应用到信息检索系统之中从而提高系统检索的效率与质量。通过实验系统的测试实践证明可以得出语义检索查准率明显高于全文检索。
摘要:基于关键词处理的传统检索技术会在检索过程中遗漏大量与检索概念相关或同义的内容。针对这种情况,提出了一种基于本体的Web信息检索模型。该模型能够利用本体得到具有语义的索引项,并生成较好的文档逻辑视图和用户需求逻辑视图,从而可以使检索性能大大提高。
关键词:本体,信息检索,语义检索
参考文献
[1]张雷.语义搜索的模型和应用.博士论文,上海交通大学,2005
[2]余传明.基于本体的语义信息系统研究——理论分析与系统实现.博士论文,武汉大学,2005
[3]Anyanwu K,Sheth A.ρ-Queries:enabling querying for semantic asso-ciations on the semantic web.Proceeding of the WWW2003,New-York,ACMPress,2003:690—699
基于领域本体的文本信息检索探讨 篇9
近年来, 随着人们对检索效率和准确率要求的不断提高, 现有的基于关键词的检索已难以符合用户的要求。基于本体的检索系统注重语义上的匹配, 能够有效地提高信息检索的查全率和查准率。目前, 研究人员对基于本体的信息检索关注颇多。至今为止, 在基于本体的检索研究方面, 较多的关注点是对Web资源的信息检索, 而对无结构文本信息的检索关注较少, 但是除了搜索引擎以外, 许多系统的信息源都是文本信息。为此, 对基于本体的文本信息检索研究显得至关重要。
1 本体概念
本体的概念来源已久, 它起源于哲学领域。古希腊哲学家亚里士多德将本体定义为研究“存在”的科学。近年来, 本体被引入到人工智能、知识工程和图书情报等领域。各领域专家对本体的定义也是众说纷纭, 其中最著名的是Gruber提出的“本体是概念化的明确的规范说明”。之后, Borst Pim博士对其作了少许修改, 即“本体是一套得到大多数人认同的、关于概念体系的明确的、形式化的规范说明”。
2 领域本体的构建
领域本体 (Domain Ontology) 是专业性的本体, 被表示的知识是特定学科领域的知识。它给出了领域实体概念及该领域所具有的特性和规律的一种形式化描述。如Chemical-Elements (化学元素) 是关于化学元素周期表的本体, 而Plinius Ontology是关于陶瓷物质化学成分的本体。领域本体主要有以下作用:明确专业术语、关系及其领域公理, 使其形式化;在人与人之间、人与机器之间达到共享;实现一定程度的领域知识复用。
领域本体可以使用Protege等工具软件, 在领域专家的协助下手工创建。其过程是反反复复不断补充迭代的。如果技术成熟, 该过程也可以自动完成。无论采取哪种构建方式, 其方法步骤均可按图1所示的顺序进行。
3 基于领域本体的文本信息检索系统
3.1 基于本体的信息检索
目前, 信息检索系统大都还是基于关键词或人工分类目录进行检索, 前者在信息的语义理解方面有一定局限性, 后者则对海量信息的搜索效率不高, 深度有限。基于本体的信息检索的提出, 使这一问题得到了有效改善。在基于本体的信息检索中, 用户在输入界面输入字词或语句等查询请求以后, 会形成一个独立于数据库的概念化摘要, 然后, 这些摘要被查询转换器按本体形式转化成规定格式的输入模块, 即依赖于数据库的查询。对于所检索出的结果, 系统会依据一定的相似度算法计算出每个结果的语义相似度, 为其分配一个度量值, 最后将度量值中不符合要求的结果删掉, 将其余符合要求的结果输送到输出界面过程如图2所示。
3.2 基于领域本体的文本信息检索
基于领域本体的文本信息检索归根究底实质也是信息检索, 但可以利用本体的丰富语义关系实现用户查询的语义理解, 进而提高文本信息检索的查全率和查准率。然而, 现有的基于本体的信息检索对本体的运用还很不成熟, 只是借助于领域本体知识判断文档所属领域进而对文档进行分类。从检索效率的角度来看, 标引能缩短检索时间, 并能显著提高全文数据库的查全率和查准率[7]。如果能在标引过程中引入领域本体对其进行可行性改进, 就可使领域本体在信息检索过程中发挥更多的作用。
文本信息包括主题和实体关系信息, 主题标引和实体关系标引是文本标引过程中比较重要的两个部分。因此, 文本信息检索系统除了提供主题信息的检索入口外还应提供实体关系信息的检索入口。
将领域本体引入到标引过程中, 在应用时可将其分为两类:一类是概念关系本体, 用来反映特定领域概念间的关系;一类是实体关系本体, 用来反映特定领域内实体间的关系。相对来说, 概念关系本体比较简单, 而实体关系本体比较复杂。主题标引中常用到概念关系本体, 实体关系标引则常用到实体关系本体, 实体关系本体在标引过程中可以看成信息抽取框架。实体关系标引属于信息抽取技术, 是深化了的信息检索技术。其过程为:标引系统对文本中所包含的主题进行识别, 并按主题对文本进行领域归类, 即对文本进行主题标引;按照文本的领域归类从文本中识别出命名实体;利用信息抽取技术将所提供信息与实体联系起来;标注实体之间的关系。
对文本信息检索系统而言, 没有必要使用本体形式的文档替代物 (文献的逻辑表示) , 但应该标注出每个标引词所对应的一个或多个概念关系本体[8]。因此, 笔者认为, 基于本体的文本信息检索系统, , 其一般模型应该如图3所示。
4 结论
利用领域本体指导主题标引和实体关系标引, 可进一步提高文本信息检索系统的性能。如果要实现上述检索系统, 后期工作将比较复杂, 也有一定的难度。像如何自动化构建各领域本体、如何利用领域本体集合生成本体形式的用户查询等, 我们将在以后的研究中作出改进。
参考文献
[1]刘肖静, 耿骞.Ontology与面向概念的网络信息检索[J].情报理论与实践, 2004 (6) .
[2]Borst W N.Construetion of engineering ontologies for knowledgeshard reuse[M].PhD thesis, University of Twente, Enschede, 1997.
[3]刘爱军.基于领域本体的语义信息检索及相关技术研究[D].西安:西北大学, 2008.
[4]VAN DER VET, Paul E.Proceedings of ECAI96’s workshop onontological Engineering[C].ECAI96, 1996.
[5]郭嘉琦.领域本体的构建及其在信息检索中的应用研究[D].北京:北京邮电大学, 2007.
[6]张志刚.领域本体构建方法的研究与应用[D].大连:大连海事大学, 2008.
[7]周水庚.隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统, 2001 (2) .
本体信息 篇10
关键词:领域本体,语义检索,查询扩展,语义标注
1 体系结构
本系统主要包括以下几个处理模块:Ontology构建模块、语义标引模块以及查询语义扩展模块, 如图1所示。各个模块相互协作, 共同完成用户检索任务。
2 系统实现
2.1 开发环境
操作系统:WindowsXP。
IDE:Eclipse3.2+JDK1.5;Web服务器:Tomcat5.5;本体编辑工具Protege3.2;分词工具ICTCLAS;语义解析工具Jena2.2。
2.2 领域本体构建
本体, 在英文中为Ontology, 提供了对人类知识的描述和说明[1]。从知识共享的角度看, 本体可以被看作是一种概念化的显式说明, 是对客观存在的概念和关系的描述。Studer等对本体进行了深入的研究, 认为本体是共享概念模型的明确的形式化说明, 包括概念化 (Conceptualization) 、明确 (Explicit) 、形式化 (Formal) 和共享 (Share) 四层含义。
对于本体的具体构造过程, 可以用式2.1形象地给出:本体=概念 (Concept) +属性 (Property) +公理 (Axiom) +取值 (Value) +名义 (N o m i n a l) (2.1) 概念可分为“原始概念 (Primitive concepts) ”和“定义概念 (Defined concepts) ”两种, 属性则是对概念特征或性质的描述。至于“公理”, 即是定义在“概念”和“属性”上的限定和规则。“取值”则是具体的赋值, “名义”是无实例 (Instances) 的概念或者是用在概念定义中的实例。领域本体描述特定领域中的概念和概念之间的关系。本文借助本体编辑工具Protege3.2构建一个较为完善的军用飞机领域本体, 本体中共收录了参考了《中图法》中V2航空及其下位类, 主要有:V22飞机构造与设计, V23航空发动机 (推进系统) , V24航空仪表、航空设备、飞行控制与导航, V27各类型航空器, V32航空飞行术, 以及V35航空港 (站) 、机场及技术管理。在《国防科技叙词表》中主要参考了04航空工程、07动力工程、11雷达、导航、对抗等三个一级范畴。
2.3 文献语义标注
语义标注的目的, 就是用本体对Web数据进行标引, 对Web智能的实现起着至关重要的作用。Erdmann给出了语义标注的一个定义:通过一种标记Tag的手段, 在HTML或者XML中把资源的元数据同相应的资源联系起来的过程我们就称为是语义标注 (Semantic Annotation) 。本文将半结构化或者非结构化的网页等信息首先将其文本内容抽取出来, 形成结构化的文档。然后对文档的语义预处理、使用领域本体中的概念以及概念与概念之间的三元组关系对文档内容进行标注。
处理流程的步骤包括以下5步:
(1) 提取文献中的题名、摘要、关键词以及全文内容。 (2) 使用ICTCLAS对所提取内容进行切词以及词性标注。 (3) 根据领域本体的语义关系对文献的全文内容进行句法及词法分析。 (4) 对所切词进行词频统计, 并设定阈值, 对所切词进行筛选形成文献标引词。 (5) 根据词频提取全文中重要的三元语义关系。在标注的基础上以句子或者段落的形式提取包含标注特征项的知识内容片段, 并实现知识内容与文档的映射, 形成语义标引库。
2.4 用户查询语义扩展
2.4.1 查询扩展的含义
在信息检索中, 往往出现由于用户所选择的词和文档中出现的目标词不匹配, 从而导致检索效率低下乃至失败, 比如, 用户使用“全球鹰”作为检索词, 而文档中出现的却是“RQ-4A”, 尽管它们描述的是完全相同的概念, 但是对于计算机而言, 这两个却是完全不同的检索对象。因此, 查询扩展 (Query Expansion) 技术在原来查询的基础上加入与用户用词相关联的词, 组成新的更长、更准确的查询, 这样就在一定程度上弥补了用户查询信息不足的缺陷。
2.4.2 查询的语义扩展
(1) 单个关键词;这种模式下, 用户在查询提问时, 输入的是单个关键词。将用户输入的提问词带入领域本体中与领域本体中的概念以及属性实例等进行匹配, 利用匹配到的概念词进行相关知识内容的检索。 (2) 多个关键词组合查询;这种模式下的查询可以由本体中所定义的概念、关系和实例等等组成, 对于这种形式的查询可以直接根据领域本体中的定义抽取出相关的内容, 并得知出用户的查询意图。例如用户查询Q1, 2, …n为“俄罗斯歼击机”的有关信息, 在领域本体中我们发现“俄罗斯”为一个国别属性信息, “歼击机”为领域本体中的一个概念。利用领域本体的丰富语义关系以及支持推理的机制, 借助于推理工具Jena我们可以推理找出国别属于“俄罗斯”歼击机, 对用户查询反馈的时候不仅把标注有“俄罗斯”和“歼击机”的知识片段反馈给用户, 同时还将标注有国别属于“俄罗斯”的“歼击机”, 如A的知识片段反馈给用户。
3 系统评价
(1) 查全率。由于领域本体的引入, 增加了概念的同义词、概念的上下位关系以及概念的多义性等描述, 系统可根据用户提出的检索词推理出一组相关或相近的词, 共同组成扩充后的查询条件, 这样就提高了查全率。 (2) 查准率。基于领域本体的文本信息的语义标注、知识片段的提取以及查询预处理能较高地提高查准率。
4 结语
计算机以及信息技术的发展, 人们进入网络信息时代, 信息量的爆炸式地增长使人们对于检索系统的要求越来越高, 检索系统如何高效, 准确地查找到用户所需信息成为人们研究的方向, 本文提出基于领域本体的文本信息的语义检索为检索系统实现语义检索提供了一种思路, 对于未来语义检索系统的发展具有参考价值。
参考文献
聚焦本体强化运用 篇11
人教版三年级上册第三组以秋天为专题,选取了《古诗两首》《风筝》《秋天的雨》《听听秋的声音》四篇诗文,体裁包含古诗、儿童诗、记叙文、散文。本组课文从多角度描写秋天,有记录秋天孩子们的欢乐的,有描绘秋天的美景的,有聆听秋天旋律的……秋意浓浓,秋色绚烂,秋声曼妙,别具风韵。本组课文,作者抓住了秋天的特点,以丰富的想象,优美生动的语言,将秋天的特色描写得惟妙惟肖。从聚焦本体,强化运用的视角出发,教学中引导学生读懂课文,一边读一边想象,充分利用生活积累,体会秋天的风采,感受秋天的美好,学习作者生动优美的语言,引导学生理解、朗读、背诵、积累和迁移运用语言是本组教学的重中之重。
在此,笔者将结合教学实践经历,谈谈如何基于课程标准设计富有实效性的教学活动,从而实施本体性教学内容。
首先,本单元本体性教学内容梳理如下:
针对以上本体性教学内容,本单元主题序列清晰可见。教师为了将相互关联、有机融合的语言训练点落实到位,让学生通过本组课文的学习,有效积累和运用表达样式,可从以下四个方面设计教学活动。
一、创设情境 想象画面
在阅读中展开想象,对阅读的内容加以分析与归纳,学生得到的自然就是深层次的感悟了。
教学案例:知有儿童挑促织
孩子们捉蟋蟀的情景让诗人倍感亲切,让他由此也想到自己的童年生活。他也曾林间捕蝉——(生:意欲捕鸣蝉,忽然闭口立),也曾溪边垂钓——(生:蓬头稚子学垂纶,侧坐莓苔草映身),也曾花丛追蝶——(儿童急走追黄蝶,飞入菜花无处寻),也曾田野放纸鸢——(儿童散学归来早,忙趁东风放纸鸢)。在这样的情境中,学生感受到作者的思乡之情。
“小朋友的脚,常被那香味勾住。”这一句短短的侧面描写,将水果的香味表达得淋漓尽致。所以教师在进行这一段教学时,可以让学生展开想象:如果是小猫、小松鼠、小狐狸、长颈鹿等动物路过果树,小动物们会有怎样的表现。孩子们在一次次想象中,体会到水果的香味,并在潜意识中学会了侧面描写。
大树抖抖手臂,刷刷,是黄叶道别的话音。黄叶仿佛在跟大树说_________。这样想象的环节中,既锻炼了学生的思维想象力,又锻炼了学生的语言表达能力。
二、感悟欣赏 理解表达
教师在教学生学习语言文字运用时,应教会其借助文本,通过感悟、欣赏言语现象,感受语言使用的精妙与特点,通过删、换等方式让学生体会作者用词的匠心。
教学案例:
在《秋天的雨》第二段中,“你看,它把黄色给了银杏树,黄黄的叶子像一把把小扇子,扇哪扇哪,扇走了夏天的炎热。”“扇哪扇哪”是画龙点睛之笔,这四个字刻画了银杏树叶翩翩落地的轻盈姿态。在教学设计中采取删除“扇哪扇哪”这四个字,比较两种不同的表达效果。从而理解,这优美的表达来源于叠词和语气词的运用。在《风筝》一课中,“风筝越飞越高,在空中翩翩飞舞着,我们快活地喊叫着,在田野里拼命地奔跑。”通过换词语方式,理解“拼命地”所传达出来的快乐。
三、品读升华 积累背诵
“节奏美和韵律美”是汉语的特点,只有把握了特点进行教学,课堂教学才有韵味。朗读可以最直接地品味到语言的美,尤其是本组课文意境优美,朗朗上口,所以笔者在本组教学中设计了大量阅读训练,让学生有默读思考、有感情地朗读,分角色读等。基于本单元写作特色,多次设计配乐朗读,为教学融情创景。学生在舒缓的旋律中感受到秋天的美,在澄澈的乐曲中体会到了秋天的韵味,对秋的热爱在一次次朗读中逐步升华。当然,让学生读的目的不仅停在理解的程度,也不只是为了读出情感,而是在读中理解表达方法,在读中感悟写法。
四、设计仿写 迁移运用
仿写迁移,既可以促进学生对文本内容的理解,又提高学生对语言运用的能力。本组课文的句式和段式都是比较经典的,基于此,笔者设计了句子的仿写和段的仿写。“你看,它把黄色给了银杏树,黄黄的叶子像一把把小扇子,扇哪扇哪,扇走了夏天的炎热。”《秋天的雨》可仿写总分的构段方式。
《听听,秋的声音》设计了诗节的仿写。
听听,
秋的声音,
_____________,
“________________”
是____________________。
《风筝》第三自然段通过抓住人物的动作进行具体描写,使活动的场面如在眼前。所以笔者在指导学生阅读体会词句运用的特点之后,要求学生仿写秋游挖红薯的场景。此外,笔者还设计了变换文体写,把《夜书所见》改编成一篇小日记,仿写诗歌《听听,秋的声音》等。
总之,工具性和人文性的统一,是语文课程的基本特点。本组语文教学,打破以往孤立割裂的学习范式,聚焦本体,强化运用,让语文教学紧紧地统一在主题创设的情境中让学生感受语言、学习语言、运用语言,让每一个孩子开始诗意的栖居,用纯挚的心灵和本真的语言去感受和表达这个美丽世界。
本体在农业信息检索中的应用 篇12
目前正在研究和使用的信息检索技术可以分为3类, 即全文检索、数据检索和语义检索。其中, 全文检索是基于词语的机械式匹配方式进行检索的, 比较好地保证了检索的查全率, 但是查准率不能令人满意;数据检索是基于一定格式和结构对特定字段的检索, 是目前主要的期刊论文数据库所采用的主要检索方法, 但是它要求人工基于特定的字段对信息资源进行标识, 检索的结果取决于标识方法的优劣以及用户对标识字段的理解;语义检索则是基于知识的和语义的匹配。
近年来, 起源于哲学领域的本体 (Ontology) 受到信息科学领域的关注。哲学上把本体论定义为“对世界上客观事物所进行的系统描述”。 在人工智能界, Studer 等提出了一个定义, 即“本体是共享概念模型的明确的形式化规范说明”。 本体的目标是捕获相关领域的知识, 提供对该领域知识的共同理解, 确定该领域内共同认可的词汇, 从不同层次的形式化模式给出这些词汇 (术语) 和词汇间相互关系的明确定义, 通过概念之间的关系来描述概念的语义。其特点在于检索过程中不是基于字面的机械匹配, 也不是基于字段的匹配, 而是基于知识理解和推理的语义匹配。语义检索技术和方法 (特别是面向网络信息资源的语义检索) 是目前信息检索和人工智能领域研究的重点和热点。
中国是一个农业大国, 有8亿多农民。随着计算机技术和通信技术的不断发展, 中国农村互联网络已经开始普及。信息资源尤其是与农村经济有关的信息资源与广大农民日常生活、生产和农产品流通有着越来越密切的关联。因此, 在农业领域提供准确和全面的信息检索资源将具有十分重要的社会意义和应用价值。
1 本体分类
本体是一个实体, 是对某领域应用本体的方法分析和建模的结果, 即把现实世界中的某个领域抽象为一组概念及概念之间的关系, 本体的本质是概念模型。概念模型是指某领域中的所有可能状态包含的所有元素涉及的概念及其之间的关系, 是一种与特定语言无关的抽象模型。如果要使用某种语言和相应的词汇把这种概念模型描述出来, 则可以被计算机理解和处理。这种被形式化的模型被称为目标模型, 它刻画了概念模型的基本结构和意义。
在具体描述过程中, 只有语言和词汇还不够, 必须有一定的描述结构和规则。本体就是要提供这种结构和规则, 其本质作用在于定义特定领域所要用到的概念以及描述这些概念之间的关系。由于目标模型包含的结构和意义是非常复杂与丰富的 (如本文的农业领域信息模型, 不可能用语言将其完全地以形式化的方式描述出来) , 所以本体只能间接地对目标模型进行模拟, 尽可能地接近目标模型。
按照本体描述对象的不同, 可以将本体分为顶层本体、领域本体、任务本体和应用本体等4类。其中, 顶层本体定义最基本的概念类、属性及语义关系;领域本体利用顶层概念集来细化定义具体应用领域, 如教育、农业的专用概念类、属性及语义关系;任务本体利用顶层概念集来细化定义具体通用任务, 如交易和传输等的专用概念类、属性及语义关系;应用本体利用领域和任务概念集来进一步定义针对某个具体应用的概念集。这4种本体之间具有一定的层次关系, 本文研究的就是农业领域本体。
2 农业领域本体的描述
Ontology的表示方式是多种多样的, 可以用自然语言来描述, 也可以用框架、逻辑语言或语义网络等来描述。若系统不需要太强的推理能力, 则Ontology 可用本体图的形式表示并存储, 此时数据可以保存在一般的关系数据库中, 采用图的匹配技术来完成信息检索。若系统要求比较强的推理能力, 则Ontology 一般要用一种描述语言 (如Ontolingua , Cycl, OIL) 进行表示。此时数据保存在知识库中, 采用描述语言的逻辑推理能力来完成信息检索。第3种就是直接利用XML来表示并保存Ontology, 用XML的查询语言来实现Ontology中本体的检索。 研究人员开发了一系列基于XML语法的描述语言, 包括RDF, RDFS, DAML+OIL和OWL等。
本文将建立农业领域概念描述元素及其关系, 联系通过带标记的有向图来表示, 构建一个语义网络, 便于逻辑推理, 并且选择RDFS作为本体描述语言生成RDFS的关系元数据文件。
2.1 语义网络
语义网络作为一种知识表示的工具, 它是由Quilian于1968年在博士论文中提出的。语义网络是通过概念及其语义关系来表达知识的一种网络图。
农业领域概念描述元素及其各种关系和联系, 从而构成了一个语义网络, 便于逻辑推理。构建的、面向农作物栽培管理领域的和局部简化的语义网络图如图1所示。
基于RDFS的农业领域本体的描述, 针对图1的“农业灾害”、“虫害”、“病害”、“草害”、“棉铃虫”、“立枯病”、“猝倒病”和“褐斑病”等类其关系生成的RDFS的代码如下:
针对图1左右两边交叉关系的“棉花”、“棉铃虫”、“立枯病”类及其关系, 生成的RDFS格式的代码如下:
3 农业领域本体语义信息检索系统的框架
将本体方法应用于农业信息检索系统中, 并对本体要解决的关键问题、本体的创建问题、本体的存储问题、信息资源的标引、存储问题、对RDF, RDFS, OWL等相关文件的解析和推理问题以及用户交互界面等问题进行分析, 设计一个基于本体的农业信息检索系统的基本框架, 如图2 所示。
当用户提出检索请求时, 界面主体将查询交给查询管理。表达式解析是借助本体把用户提交的查询问题, 转化为计算机可以理解的最小语义规范形式, 利用本体来规范检索信息, 将规范后的检索信息提交到推理机。推理机接收到相关的术语时, 根据本体库储存的各种农业本体的模型, 应用形式化本体的内容进行推理, 推理用户信息需求的内涵式结果和找到与提交术语相关的概念, 返回给远端资源管理与信息获取系统。资源管理与信息获取系统负责对资源库的管理和用户查询信息的获取, 并对各种资源按照本体模型的术语进行索引、储存以及根据用户的查询请求获取相关信息。语义标注和元数据抽取系统负责分析揭示Web文档内容特征, 并使之显化。
4 结束语
语义Web的发展与本体的应用为语义检索的研究发展提供了一个新的途径和机遇。本文抓住机遇, 沿着这条路径研究了语义Web与本体的相关概念和技术, 并在此基础上探索语义Web环境下基于农业领域本体的语义检索系统框架的设计。
参考文献
[1]Guarino N, Masolo C, Vetere G.Ontoseek:content2basedaccess to the Web[J].IEEE Intelligent System, 1999, 14 (3) :70-80.
[2]李善平, 胡玉杰, 郭鸣, 等.本体论研究综述[J].计算机研究与发展, 2004, 41 (7) :1041-1052.
[3]万捷, 滕至阳.本体论在基于内容信息检索中的应用[J].计算机工程, 2003, 29 (4) :122-123.
[4]林菡, 何钦铭.基于OWL的网页视觉结构本体表示和WEB检索[J].计算机工程与应用, 2004 (15) :157-160.
[5]李衍淼, 霍常青.本体论在企业信息检索中的应用[J].福建电脑, 2006 (8) :58-59.
[6]常春.Ontology在农业信息管理中的构建和转化[D].北京:中国农业科学院, 2004.
[7]杨芳, 杨振山.基于语义网的电子政务文档智能检索[J].计算机应用, 2005, 25 (10) :2434-2435.