语义检索

2024-07-04

语义检索（共7篇）

语义检索篇1

0 引言

互联网的快速发展和广泛应用, 为人们提供了一个广阔的信息空间, 也为信息检索提供了一个广阔的发展平台。互联网的开放性和自由性使得网络信息资源呈现出数量巨大、异构性、分散性和动态性特征。但由于网络信息时效性强以及互联网缺乏必要的监督和质量控制, 使得大量垃圾信息混于高质量信息当中, 增加了有效信息获取的难度, 影响检索效率。因此, 使用有效的检索工具才能使得网络信息资源为人们所充分利用。

1 网络信息资源点与检索工具

上世纪90年代中期出现的搜索引擎技术目前已经成为检索各类网络信息资源最主要的检索工具。搜索引擎一般工作流程是借助于网络自动搜索软件 (Robot、Spider等) 访问浏览网页并抓取文件, 并通过已浏览的网页中的链接访问更多网页。在抓取网页的同时对页面文件进行分析分解以及索引, 建立索引数据库。当用户在搜索引擎界面输入搜索词后, 搜索引擎对搜索词进行处理, 按照处理后的搜索词在索引数据库中找出所有包含相关内容的网页, 并更具排名算法计算出排名顺序然后按照一定的格式返回到搜索页面。普通的搜索引擎缺点在于返回的检索结果数量巨大, 无关和冗余信息较多, 用户必须从中进行筛选。虽然布尔运算、截词运算、自然语言检索等技术使用大大提高了准确率, 但对用户检索素养要求很高。针对以上问题, 学者把研究对象放到对词意的挖掘上, 探索实现基于概念匹配的检索技术和方法, 基于本体的语义检索成为研究重点。

2 语义检索基本要素和原理

随着人工智能以及自然语言处理的发展, 尤其是语义网技术的兴起, 自上个世纪以来语义检索研究得到了迅猛的发展。虽然对于语义检索在概念上到目前为止没有统一的界定, 但是不同的研究都有一个共同之处就是基于对信息资源的语义处理时限效率更高的检索[1]。本体是语义检索的基础, 其主要任务是对信息资源进行语义表达。

本体 (Ontology) 原本是一个描述客观事物本质的哲学概念, 是对客观存在的一个系统的解释和说明。如今, 本体是一种能在语义和知识层次上描述概念体系的有效工具, 用来描述概念以及概念之间的关系, 通过概念之间的管理来描述概念的语义。本体作为一种最先进的知识表示方式能够充分的描述所以的数据结构, 是推理和关系数据库的结合[2]。概括的讲本体能够在人们和应用系统之间达成对术语含义的共享和共同理解, 通过函数 (functions) 、关系 (relations) 、原则 (axioms) 和实例 (instances) 、类 (classes) 这5种元素表达本体中的知识, 使其具有逻辑推理和语义识别功能, 帮助检索系统跨越目前基于关键词的检索过程中的上述问题以实现语义检索[3]。目前实现网络检索的技术主要有两种:第一种, 依赖于编码处理, 以分类模式来描述信息资源以实现检索的目的;第二种, 是通过全文检索查找文本中包含用户指定的词语的信息源。语义检索的语义信息的提取和处理是基于语义网方法与技术的查询处理与文档标注及索引。基于本体的查询处理包括:查询消歧和查询扩展, 通过消岐, 明确查询的确切所指, 准确反映用户的信息意图, 继而通过加入与其语义相关的其他概念来实施扩展。在对文档进行语义标注与索引的基础上, 先进行实例检索, 再据此返回所有以检出实例标注的文档信息是语义标注文档检索的一种普遍思路。相对于传统的网络检索, 基于本体的语义检索的优势在于体现语义信息, 准确表达用户的查询意图。

3 常见语义检索系统介绍

3.1 一体化医学语言系统 (UMLS) UMLS (Unified Medical Language System)

作为计算机化的情报检索语言集成系统, 是美国国立医学图书馆 (NLM) 主持的一项长期开发研究计划。它不仅是自然语言处理、语言规范化以及语言翻译的规范化工具, 更是实现实现跨数据库检测的词汇转换系统并且还可以帮助用户连接情报源, 包括书目数据库、事实数据库、计算机化的病案记录以及专家系统过程中对于其他的电子式生物医学情报的一体化检索。UMLS包括情报源图谱 (Information Sources Map) 、语义网络 (Semantic Network) 、专家词典 (SPECIALIST Lexicon) ) 和超级叙词表 (Metathesaurus) 四部分。其中超级叙词表是术语、生物医学概念、等级范畴、词汇及其涵义的广泛集成。1997年第8版的超级叙词表收录了739439个词汇, 这些词汇来源于30多种生物医学词表和分类表的能表达33万多个概念的, 词汇量达到空前规模。而语义网络是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具, 是为建立概念术语间相互错综复杂关系而设计的。UMLS的语义网络不仅运用了常规的语义控制手段, 如属分、相关关系控制、语义等级, 同时在语义规范和语义关系分析、延伸等多方面有许多创新。

3.2 语义网 (Semantic Web)

为了能够在网络环境下也同样实现语义检索的功能进而开发研究了语义网的W3C项目。W3C项目是将网络上的数据通过一种方式进行连续和定义, 通过这种定义和连续可以根据人的不同需求实现计算机将数据自动进行整合以及再利用, 从而达到更有利于人机协作的目的。资源描述框架 (Re-source Description Framework, 简称RDF) 是语义网的核心构件。在网络中, 一般用元数据对资源进行描述, 而RDF则是处理元数据的一个基础。RDF认为一个具体的元数据是由属性值 (Statements) 、属性 (Properties) 和资源 (Resources) 构成的三元关系模式[4], 实际上是关于一个特定的资源特定属性的取值声明。使用RDFS语言, 元数据的设计者不仅可以定义所描述资源的类别、属性以及词汇, 还可以定义这些属性或者对象的关系以及对象与属性之间的相互关系, 同时还可以进一步定义这些资源的对象、属性以及属性应用类别和取值条件等, 通过这些定义从而能以计算机理解的标准方式对元数据进行描述语义内容以及元数据的结构关系。

3.3 Word Net

Word Net是一种基于认知语言学的英语词典, 它是由普林斯顿大学的计算机工程师、心理学家和语言学家联合设计的不仅是把单词以字母顺序排列, 并且是按单侧的意义组成的一个“单词的网络”。Word Net将所有的英语词汇按词性分为功能词、形容词、动词、名词和副词五类。动词被组成各种推演关系;名词在词汇记忆中被组成主题的层次;而形容词和副词被组织在N维超空间中。根据Word Net关系分析最大的优势是能在他的单词网里通过相关关系消除歧义, 因为Word Net分析主要是关系分析。Word Net在名词的语义消歧率可以超过60%。

4 结语

从以上三个语义系统来看, 无论是相对封闭的ULMS系统还是开放式的语义网、wordnet系统都具有较强的灵活性和扩展性。相对于常见的关键字信息检索, 语义检索不需要用户使用专业的检索策略, 也不需要语法严谨的检索式, 用户可以将自己的信息需求通过自然语言直接表达出来。语义检索在后台经过大量的计算, 分析用户的用户的语义文档信息, 充分利用各种语义关系消除歧义将用户真正需要的准确的信息资源反馈给用户, 将用户的检索效率提升60—80%。因此, 语义检索无疑是当前信息爆炸条件下最适合的网络信息检索方式。

摘要：互联网给用户的信息检索带来便利的同时也导致大量冗余信息出现, 使得检索效率低下。语义检索通过对用户检索要求的语义分析使得检索效率以及检索准确度大大提升。本文在分析语义检索基本要素和检索原理的基础上, 介绍三种常用的语义检索系统, 体现语义检索在网络信息检索环境下的优势。

关键词：语义检索,本体,语义网

参考文献

[1]黄敏, 赖茂生.语义检索研究综述[J].图书情报工作, 2008, (6) :63-66.

[2]Studer R, Benjamins R, Fensel D.Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25 (1-2) :16l-197.

[3]翁畅平, 沈娟.基于Ontology的个性化语义检索系统研究[J].图书馆理论与实践, 2009 (10) :77-80.

[4]李朝葵, 陶卫国.语义检索[J].情报科学, 2002 (11) :90-92.

语义网信息检索综述篇2

语义网并非独立的另一个Web, 而是现在的Web的一个延伸。在其中, 信息有定义完好的含意, 更利于人机之间的合作。将语义网融入现在Web结构的初步努力已经在进行中了。不久的将来, 当机器有更强的能力去处理和“理解”现在它仅仅进行显示的数据时, 我们将看到很多重要的新功能。

World Wide Web本质的特性便是其广泛性全球性。超文本链接的威力在于“任何事物之间都可以相链接”。因此, 无论是潦草的草稿, 还是精致的作品, 无论是商业信息还是学术内容, 无论何种文化和语言, 网络技术对它们都应该是一视同仁的。信息在各个方面有所不同, 其中的一个区别就是, 有些信息是主要提供给人使用的, 而有些则主要是给机器用的。到目前为止, Web大多数开发成为人们阅读文档的媒体, 而在提供可自动处理的数据和信息方面, 则发展较慢。语义网就是想弥补这方面的不足。

和Internet一样, 语义网将尽可能分散化 (Decentralize) 。这种类似Web的系统能够在各个层次产生大量令人激动的事物, 包括从大企业到个人用户, 能够提供今天还不能或很难预见的好处。分散化需要一定的妥协:应当抛弃网络互联必须保持完全一致性的想法, 因为那样可能动不动就跳出那句声名狼藉的“错误404:网页没有发现”。而允许一定的不完全一致性, 网络的相互链接数目会呈指数性增长。

知识表现为使语义网工作, 计算机必须能访问结构化的信息集合以及一套推理规则, 据此进行自动推理。在Web被开发出之前很久, 人工智能研究人员就已经研究过这样的系统。这个技术通常称为知识表现, 和Web出现之前的超文本的境地类似:它的确是个好主意, 也有一些非常好的范例, 但是它还无法影响和改变世界。它蕴含了能产生重要应用的种子, 但是要充分发挥其潜能, 它必须和一个全球系统联系在一起。

二、目前的Web搜索与语义网对比

传统的知识表现通常是集中化的, 要求每个人对于共同的概念, 如“电视”和“钢笔”, 使用完全一样的定义。但是, 集中化控制比较死板, 而且这种系统的规模和范围增长过快, 很快会变得难以管理。

并且, 这些系统往往小心地对允许问的问题加以限制, 这样计算机才能给与可靠的回答。问题就像数学中的哥德尔理论:任何足够复杂的系统如果是可用的, 就必然存在不可解决的问题。也就像那个最基本的悖论的复杂版本:“本句话是错误的。”为避免此类问题, 传统的知识表现系统通常各自都有针对数据作推理的一套有限和特殊的规则。即使数据可以由一个系统传到另一个系统, 规则则不然, 由于规则所处的环境完全不同了, 它往往不能运用到另一个系统中了。

相反, 语义网的研究者认为要获得多样性, 必然会有自相矛盾的情况或无法回答的问题出现。描述规则的语言要尽量具有表达力, 让Web能尽可能广泛地进行推理。这个思想和传统的Web相似:在Web开发的早期, 恶意批评者指出它永远无法是一个组织良好的库;没有集中的数据库和树状结构, 人们无法确保找到任何东西。他们曾经是正确的。但是, 系统的表现能力使我们能获得大量的信息, 而搜索引擎 (十年前看起来不切实际) 现在能从中对许多材料产生出非常完整的索引。因此, 摆在语义网面前的挑战是, 提供一种语言, 能同时表达数据以及根据数据进行推理的规则, 并且允许任何现存的知识表现系统中的规则都能输出到Web上。

在Web上增加逻辑性——使用规则去推理、选择行为的步骤并回答问题的方法——是语义网组织面临的一个任务。这个任务涵盖了数学和工程化决策, 使其更加复杂。逻辑必须强大到能够描述复杂的对象属性, 但也不能太复杂。

语义网并不“仅仅”是执行单个任务的工具。如果设计合理, 语义网还能从整体上帮助人类知识的发展。

人类的努力都无外乎这样一个永远的矛盾:那就是小部分人独立高效行动, 但是又必须融入更大群体。一小部分人能迅速有效地进行创新, 不过这就产生了一个小团体, 它的概念其他人无法理解。在一个大群体中进行协调, 不但慢, 而且需要大量的交流。世界就在这两个极端之间忙碌着, 把小团体中的个人想法, 逐步推向更广的范围, 让更多的人随着时间的推移而逐步理解。

三、结束语

语义网虽然是一种更加美好的网络, 但实现起来却是一项复杂浩大的工程。面对纷繁复杂的问题, 人尚且难以决断, 更何况计算机。希望日益发展的计算机网络技术使我们普通用户早日享受到了语义网技术所带来的便捷, 领略它超级强大的网络功能。

参考文献

[1]张晓林.Semantic Web与基于语义的网络信息检索.情报学报, 2002

基于本体的课程资源语义检索系统篇3

近年来,建立在语义网基础上的本体语义检索技术得到了人们的广泛关注。相比于传统的检索技术,其在检索精度和覆盖率上都有明显的优势。本体论最早起源于哲学领域,古希腊的亚里士多德通过对事物存在的本质进行了研究,得出了本体的概念。在较早时期,本体没有一个统一的定义,Studer等人对本体进行了一系列的深入研究后,提出了一个在当今被广泛采用的定义。对于共享概念模型而言,本体就是一种明确的形式化规范的说明。

1 课程资源本体构建

传统的基于关键字的搜索方法由于缺少语义,常造成检索信息的错检和漏检。由于受到了本体库的支持,基于语义的检索能很好地弥补这一缺陷。如果要进行基于本体的语义搜索,首先要构建规范的课程资源知识库本体。

本文以课程资源知识点作为领域本体进行构建。课程资源知识点本体的构建主要分为两点,即确定规范和基于规范构建本体。以计算机网络课程为例,本体存储的是相关知识点,其中包括计算机网络性能、因特网、计算机网络体系结构、计算机网络类别、网络安全五大类。这五大类的子类分别有:①计算机网络性能。速率、宽带、吞吐率、往返率、可扩展性、时延、利用率、可靠性。②因特网。因特网发展阶段、因特网组成、下一代因特网。③计算机网络体系结构。五层协议体系结构、TCP/IP体系结构、OSI体系结构。④计算机网络类别。广域网、城域网、局域网、接入网。⑤网络安全。数字签名、密码体制、安全协议、防火墙。

课程本体所包含的对象属性有蕴含关系、依赖关系、兄弟关系、平行关系、参考关系和游离关系。在构建完本体之后,本文采用My SQL数据库对本体文件进行存储,达到持久化。

2 语义关联度算法

用户在输入相关查询词进行检索后,语义检索系统对查询词进行形式化处理,并对形式化后的查询词进行语义关联度计算。语义关联度包括语义相似度和语义相关度。

2.1语义相似度

本文提出元概念的定义,指在领域本体中存在的概念集合C,设其中任一概念为Cx,如果集合Q中存在可以与概念C中的Cx匹配的查询词,则称为Cx为元概念,即将元概念作为查询映射到的概念来进行资源查询。

本文以知识点为单位构建教育资源本体,所以,从知识点的角度扩展了语义。知识点之间的关系有同义、平行、包含等,本节对本体概念之间的相似度所考虑的因素主要有以下6个。2.1.1语义距离

语义距离对语义相似度的影响可以表示成:

概念节点之间的距离表示为len(ei),是彼此之间相连的通路边所有对应的距离,比如父类和子类之间的距离为1.

2.1.2语义重合度

语义重合度对于语义相似度的影响主要表示为:

2.1.3节点密度

节点密度对于语义相似度的影响可以表示为:

式(3)中:degree(P)为概念节点X与概念节点Y之间最近的公共祖先P的度;degree(T)为概念树的度。

2.1.4节点深度

两个节点X与Y之间的概念深度对于语义相似度的影响可以表示成为:

式(4)中:dep(X)和dep(Y)分别为概念X和概念Y的深度。

2.1.5层次顺序

层次的顺序对概念相似度的影响为:

式(5)中:lyr(X)和lyr(Y)分别为X和Y节点所在的层次,根节点的层次为1;lyr(G)为领域本体中层次的最底层。

2.1.6查询词权重

在进行最后的语义相似度阶段计算时,对概念之间相似度的计算是受查询词权重的影响。领域本体之间的概念与概念节点之间的相似度的计算公式如下:

2.2语义相关度

语义的相关度指的是词语与词语之间的相互有联系的程度,它是一个随主观意愿变动比较强的概念。相关度的取值也在0~1,一般是两个词语在相同语境之中能够替换的程度。领域本体概念之间的相关度公式如下:

式(7)中:rel(ei)为概念与概念之间相连的关系边所对应的权值。

本文中概念与概念之间的相关度定义如表1所示。

综上所述,得出概念之间的关联度的计算公式如下:

3 语义检索模型

本文以教育资源的知识点为基础,对基于本体的教学资源的语义检索系统建立了原型。本文构建的语义检索是对教育资源进行本体推理来实现教育资源的语义检索,其中,还对向量空间模型进行了结合。语义检索主要包含了两个核心,即语义查询扩展和语义数据的检索算法。

图1为语义检索的模型图。

系统采用VPN、SNMP等词语进行测试,求得基于本体教学资源语义检索算法的查全率和查准率。同时,计算基于关键字的检索系统的查全率和查准率,结果如表2所示。

4 结束语

本文提出并研究了基于本体的课程资源信息语义检索问题。文中通过课程资源知识库本体的构建、本体相似度计算的研究,建立了基于课程资源的语义检索系统的原型,在一定程度上提高了对课程资源信息检索的查全率和查准率。下一步工作为课程资源本体的完善、探索更加精确的语义相似度计算方法,以提供给用户更好的检索支持。

参考文献

[1]代晓宇.基于本体的教学资源语义检索应用研究[D].哈尔滨:哈尔滨工程大学,2012.

[2]花开明,陈家训,杨洪山,等.基于本体与元数据的语义检索[J].计算机工程,2007,33(24).

[3]栾艳,丁二玉,骆斌.基于Ontology的语义检索技术[J].计算机工程与应用,2005,41(28).

[4]Studer R,Benjamins V R,Fensel D.Knowledge engineering:Principles and methods[J].Data&Knowledge Engineering,1998,25(02).

语义检索篇4

关键词：领域本体,语义检索,查询扩展,语义标注

1 体系结构

本系统主要包括以下几个处理模块:Ontology构建模块、语义标引模块以及查询语义扩展模块, 如图1所示。各个模块相互协作, 共同完成用户检索任务。

2 系统实现

2.1 开发环境

操作系统:WindowsXP。

IDE:Eclipse3.2+JDK1.5;Web服务器:Tomcat5.5;本体编辑工具Protege3.2;分词工具ICTCLAS;语义解析工具Jena2.2。

2.2 领域本体构建

本体, 在英文中为Ontology, 提供了对人类知识的描述和说明[1]。从知识共享的角度看, 本体可以被看作是一种概念化的显式说明, 是对客观存在的概念和关系的描述。Studer等对本体进行了深入的研究, 认为本体是共享概念模型的明确的形式化说明, 包括概念化 (Conceptualization) 、明确 (Explicit) 、形式化 (Formal) 和共享 (Share) 四层含义。

对于本体的具体构造过程, 可以用式2.1形象地给出:本体=概念 (Concept) +属性 (Property) +公理 (Axiom) +取值 (Value) +名义 (N o m i n a l) (2.1) 概念可分为“原始概念 (Primitive concepts) ”和“定义概念 (Defined concepts) ”两种, 属性则是对概念特征或性质的描述。至于“公理”, 即是定义在“概念”和“属性”上的限定和规则。“取值”则是具体的赋值, “名义”是无实例 (Instances) 的概念或者是用在概念定义中的实例。领域本体描述特定领域中的概念和概念之间的关系。本文借助本体编辑工具Protege3.2构建一个较为完善的军用飞机领域本体, 本体中共收录了参考了《中图法》中V2航空及其下位类, 主要有:V22飞机构造与设计, V23航空发动机 (推进系统) , V24航空仪表、航空设备、飞行控制与导航, V27各类型航空器, V32航空飞行术, 以及V35航空港 (站) 、机场及技术管理。在《国防科技叙词表》中主要参考了04航空工程、07动力工程、11雷达、导航、对抗等三个一级范畴。

2.3 文献语义标注

语义标注的目的, 就是用本体对Web数据进行标引, 对Web智能的实现起着至关重要的作用。Erdmann给出了语义标注的一个定义:通过一种标记Tag的手段, 在HTML或者XML中把资源的元数据同相应的资源联系起来的过程我们就称为是语义标注 (Semantic Annotation) 。本文将半结构化或者非结构化的网页等信息首先将其文本内容抽取出来, 形成结构化的文档。然后对文档的语义预处理、使用领域本体中的概念以及概念与概念之间的三元组关系对文档内容进行标注。

处理流程的步骤包括以下5步:

(1) 提取文献中的题名、摘要、关键词以及全文内容。 (2) 使用ICTCLAS对所提取内容进行切词以及词性标注。 (3) 根据领域本体的语义关系对文献的全文内容进行句法及词法分析。 (4) 对所切词进行词频统计, 并设定阈值, 对所切词进行筛选形成文献标引词。 (5) 根据词频提取全文中重要的三元语义关系。在标注的基础上以句子或者段落的形式提取包含标注特征项的知识内容片段, 并实现知识内容与文档的映射, 形成语义标引库。

2.4 用户查询语义扩展

2.4.1 查询扩展的含义

在信息检索中, 往往出现由于用户所选择的词和文档中出现的目标词不匹配, 从而导致检索效率低下乃至失败, 比如, 用户使用“全球鹰”作为检索词, 而文档中出现的却是“RQ-4A”, 尽管它们描述的是完全相同的概念, 但是对于计算机而言, 这两个却是完全不同的检索对象。因此, 查询扩展 (Query Expansion) 技术在原来查询的基础上加入与用户用词相关联的词, 组成新的更长、更准确的查询, 这样就在一定程度上弥补了用户查询信息不足的缺陷。

2.4.2 查询的语义扩展

(1) 单个关键词;这种模式下, 用户在查询提问时, 输入的是单个关键词。将用户输入的提问词带入领域本体中与领域本体中的概念以及属性实例等进行匹配, 利用匹配到的概念词进行相关知识内容的检索。 (2) 多个关键词组合查询;这种模式下的查询可以由本体中所定义的概念、关系和实例等等组成, 对于这种形式的查询可以直接根据领域本体中的定义抽取出相关的内容, 并得知出用户的查询意图。例如用户查询Q1, 2, …n为“俄罗斯歼击机”的有关信息, 在领域本体中我们发现“俄罗斯”为一个国别属性信息, “歼击机”为领域本体中的一个概念。利用领域本体的丰富语义关系以及支持推理的机制, 借助于推理工具Jena我们可以推理找出国别属于“俄罗斯”歼击机, 对用户查询反馈的时候不仅把标注有“俄罗斯”和“歼击机”的知识片段反馈给用户, 同时还将标注有国别属于“俄罗斯”的“歼击机”, 如A的知识片段反馈给用户。

3 系统评价

(1) 查全率。由于领域本体的引入, 增加了概念的同义词、概念的上下位关系以及概念的多义性等描述, 系统可根据用户提出的检索词推理出一组相关或相近的词, 共同组成扩充后的查询条件, 这样就提高了查全率。 (2) 查准率。基于领域本体的文本信息的语义标注、知识片段的提取以及查询预处理能较高地提高查准率。

4 结语

计算机以及信息技术的发展, 人们进入网络信息时代, 信息量的爆炸式地增长使人们对于检索系统的要求越来越高, 检索系统如何高效, 准确地查找到用户所需信息成为人们研究的方向, 本文提出基于领域本体的文本信息的语义检索为检索系统实现语义检索提供了一种思路, 对于未来语义检索系统的发展具有参考价值。

参考文献

语义检索篇5

一、基于本体语义网模型研究

Tim Berners-Lee在2000 年XML会议上首次提出语义网概念, 并从体系结构上进行定义。第一层为Unicode和URL, 主要负责标识和处理Unicode代码; 第二层为XML+NS+XML Schema, 主要表示网络结构类型及数据;第三层为RDF+RDF Schema主要进行对Web资源进行描述;第四层为本体词汇, 以描述各类资源及其关系;第五层为逻辑, 主要进行逻辑推理;第六层为证明, 结合逻辑陈述进行验证并得出结论;第七层为信任, 由此建立用户间的信任关系。由此可见, 对于语义网信息检索模型来说是建立在数据的描述上, 其关键是建立领域本体库, 而实现的难点是对本体相似度的匹配。基于本体的语义网检索模型需要从语义思想的构成上来实现动态生成、匹配查询。其构成要素主要有两部分, 一是物理构成要素, 如用户、知识库、物理系统;对于用户可以分为一般用户和专家用户, 知识库是语义检索的核心, 也是构建零散数据和知识关联规则的基础, 为实现信息检索功能而服务。二是逻辑功能构成要素, 从语义网的检索系统功能上来看, 其逻辑功能主要是由人机交互层、知识处理层、知识收集层和存储层组成。

二、语义网检索机理和关键技术研究

基于本体的语义网检索模型, 在领域专家的引导下通过建立基于领域的本体库, 实现对信息源异构数据库的本体描述, 参照建立的领域本体, 将收集的数据源对象按规定格式进行存储。人机交互中的机器是具有理解语义信息的元数据, 通过语义标引工具来进行相似度匹配, 依照资源对象的类型、标引、描述和处理进行检索。用户在查询时, 通过查询界面将领域本体内的关键字集或域集进行匹配, 并在本体引导下构造查询本体;结合构造的查询本体, 从知识库的语义规则导引下, 依照语义逻辑推理模块来进行推理检索, 获得元数据库中的本体列表, 并将结构经过去重、合并、排序而返回给检索用户。也就是说, 对于基于本体的语义网检索模型, 其主要功能是在领域本体内检索, 对传统单一关键词检索更具有准确性;知识库中对知识的描述及推理规则的设定能够更有效地进行逻辑推理;借助于用户反馈来修正检索结构。

对于本体库的构建, 以及本体查询及相似度匹配推理都是语义网检索模型的关键技术。首先, 本体库的构建是由一系列概念、分层关系、函数、公理及实例组成, 对于其描述可以是功能、任务、行为、策略等等。在这个本体概念中, 各本体间的关系是相互关联的, 本体中的函数是一种特殊的关系, 函数之间也存在相应的约束和关联;实例是基于元素, 也是构成某概念的具体实体, 其形式化描述为:O:= (C, HC, R, rel , A, I) 。对于C表示为领域内的概念集, C={c 1, c2, ...cm}, 对于HCHC∈CXC表示为各概念间与实例间的层次关系, R表示为语义关系集合, 对于R={r 1, r2, ...rn}表示为概念间的相互关联, 如Is-a表示继承关系, Instance-of表示概念的所属关系, rel:R→CXC表示函数关系, A表示为领域内公理的几何, 也是对函数或关联关系的约束, 如一阶逻辑表示为A={a 1, a2, ...ap}, I表示为实例集合, 而实例是具有某概念的具体实体, 表示为I={i 1, i2, ...iq}。通过对上述本体的形式化描述, 从领域本体的概念确定、构造概念类、构造属性类、构建概念间的语义关系、构建属性间的语义关系, 以及具体的实例来形成领域本体库。

三、结论

基于本体的语义网检索模型及关键技术研究, 与传统关键词检索模型相比, 有效解决了对单纯关键词检索带来的语义不清、语义模糊问题, 特别是在本体、语义网、知识库的构建中, 从用户检索创新到输出检测结果, 提高了检索准确率。

参考文献

[1]李慧颖, 瞿裕忠.基于关键词的语义网数据查询研究综述[J].计算机科学, 2011 (07) .

基于本体的教育资源语义检索研究篇6

随着信息技术的飞速发展, 网络教育已经成为一种重要的教学方式。网络教育具有共享性、交互性和教学结构的多样性, 利于个性化学习, 由此而受到学习者的普遍欢迎。随着网络教育资源的激增, 使得管理和获取网络教育资源的难度进一步加大。目前很多的网络教育资源都是以非结构化的形式存在, 传统的关键词匹配检索教育资源, 缺乏关键词的语义理解, 导致检索结果中可用教育资源较少, 无法满足学习者需求, 同时亦存在检索困难、冗余度大、效率较低等相应问题。教育资源语义检索利用本体中概念的逻辑结构、概念间的关系和本体推理能力, 揭示检索信息的概念语义, 并利用本体的层次结构和语义关系进行拓展, 如此即从教育资源本体库中寻找符合检索信息的最佳相关资源作为检索结果[1]。其中, 本体是实现语义检索的基层信息组织框架, 而且查询扩展和查询结果排序都需要以本体为基本依据[2]。下面即对基于本体的教育资源语义检索研究展开论述。

1 基于语义的查询扩展

查询扩展是对原查询信息进行权重修改, 并通过相关技术手段将相关的查询信息加入原查询信息, 得到新查询信息后, 再进行检索, 以改善信息查询的查全率和查准率。基于语义的查询扩展则是从语义理解的层次上对用户的查询信息进行相关分析、处理和查询扩展。此处使用语义是为了使计算机理解资源的含义, 而使用本体即用于描述实例、属性和关系, 基于此就实现了在检索中对用户检索信息的理解和判定, 进而计算和推理出用户的检索并得到最终的检索结果。本体可以从知识层面上描述信息系统的概念模型, 反映一个领域内所有概念关系的集合, 同时形式化定义概念和概念之间的内涵和外延。通过本体进行语义查询扩展就是利用查询信息的上下位概念和查询信息的约束或联系, 对其进行语义分析, 并实现查询信息扩展, 再由此而展开语义检索的操作与处理。

基于语义的查询扩展主要有直接扩展和推理扩展两种方法。其中, 直接扩展是以教育资源本体中概念间的显性语义联系 (OWL描述的本体中主要是通过概率的对象属性来描述) 为基础, 并在教育资源本体中获得与用户输入的检索信息之间语义相似度最大的n个关键词, 将其作为查询扩展的检索依据, 再检索获得教育资源。而推理扩展则是以教育资源本体中概念间的隐性语义联系为基础, 同时应用一些推理机和推理规则, 获得了与用户输入的检索信息有间接关系的关键词, 从而进行了查询扩展和检索。在推理扩展过程中, 推理机和推理规则的选择很重要。Jena推理机的推理引擎适用于OWL的推理, 效率高, 还可以根据应用需要使用自定义的推理规则, 也可以注册使用第三方的推理引擎, 因而在语义检索中得到较为广泛的运用。借助用户惯常推选的传统关键字搜索方式进行语义数据检索, 且于后台隐含数据语义结构, 即是现有数据检索机制向完全语义检索机制的最佳过渡。改进的语义查询扩展方法流程可如图1所示。

2 关键词间相似度计算

教育资源大部分以课程知识为基础, 可以看成一个树状的层次结构, 将教育资源本体定义为层次树Tree (V, E) , V为概念的集合, E为连接概念的边集合。概念节点Vi的深度定义为:

其中, Dep (root) =1, Parent (Vi) 是概念节点Vi的父节点。

而且, 概念节点Vi的宽度是其分支数, 可用Wid (Vi) 表示。概念节点Vi的权重ω (Vi) 计算公式为:

在教育资源本体树的层次结构中, 概念节点的深度和宽度越大, 概念之间的相似度越大。设ω (root) =1, 当Dep (Vi) 和Wid (Vi) 较大时, ω (Vi) 可能会很小, 需调整ω (root) 的设定值。所以概念节点Vi之间的语义关联程度的量化参数为深度Dep (Vi) 、宽度Wid (Vi) 、权重ω (Vi) 。概念节点Vi和Vj之间的语义距离为连通两个概念的最小路径的所有概念节点的权重之和, 则语义距离的Dis (Vi, Vj) 计算公式为:

基于距离的相似性算法的显著优点是其计算词语之间的相似性只基于某种词库或某一本体, 这样对不同领域就具有更好的适应性[3]。概念节点Vi和Vj基于语义距离的概念相似度SimD (Vi, Vj) 计算公式为:

其中加入调节因子α, α赋值可根据本体层次树的深度和宽度作相应的调整, 即使用a/ (a+x) 的方式进行归一化处理。令表示调节概念语义相似度的不对称因子, 该不对称因子将随着节点在本体层次结构中的深度增加而渐次减少[4]。

而相似度计算中还需要考虑基于属性的语义相似度。概念节点Vi和Vj中, Attri (Vi) 表示Vi属性值的个数, Attr (Vi) ∩Attr (Vj) 表示两个节点共同拥有的属性个数, Attr (Vi) ∪Attr (Vj) 表示两个节点拥有的全部属性个数。则基于属性的语义相似度计算公式为:

综合考虑基于语义距离的概念相似度SimD (Vi, Vj) 和基于属性的语义相似度SimA (Vi, Vj) , 概念节点Vi和Vj的语义相似度即用Sim (Vi, Vj) 表示, 定义为:

其中, 调节因子α和β在不同的应用中, 能够按需求调节语义距离和属性对相似度计算的影响, 且α, β>0, α+β=1。

3 语义检索模型设计

基于语义网信息检索设计实现的基础是数据的描述, 其实现的保证即是语义网检索模型的构造, 并且实现的关键是领域本体库的构建, 而实现的难点则在于本体相似度的匹配[5]。综上, 基于本体的教育资源语义检索总体设计将如图2所示。其中, 语义扩展、基于元数据的教育资源本体构建、语义数据检索就是该模型实现的核心关键技术。

3.1 语义扩展

在用户提出查询请求后, 对输入的检索信息进行分词处理, 再通过词典进行同义扩展, 如此可得到初步的查询关键词集合。而将查询关键词集合进行概念映射, 反映到教育资源本体的实例中, 对其完成量化处理。处理后, 就根据检索词在教育资源中的匹配程度, 判断是否构建检索树。当匹配度高时, 将在概念匹配集合中构建一个能代表检索需求的最小子树表示用户的检索信息。同时, 又结合教育资源本体和推理规则, 通过使用提出的改进的语义相似度计算方法, 则将初步的查询关键词集合施以进一步处理, 由此即得到作为语义扩展的最终查询关键词集合。

3.2 基于元数据的教育资源本体构建

教育资源在网络中以多种文件形式存在, 在学习过程中也将按某一教育目标进行组织。元数据和本体是对知识管理、组织和信息检索具有重要意义的两种信息处理方法, 并能为资源提供语义基础。而对于非文本的资源, 则需要元数据进行描述。本体能够提供不同知识体系、不同元数据之间的相互映射问题, 解决语义异构和资源对象之间的关联关系, 进而克服元数据描述能力的限制。此处研究采用国家标准《信息技术学习、教育和培训学习对象元数据 (CELTS-3) 》作为元数据描述标准。同时, 使用OWL技术将教育资源及其元数据进行本体表示, 如此则实现了知识点和教育资源及其元数据在语义上的关联。另外, 还需提取教育资源的元数据整合式创建数据库存储, 且与教育资源数据库相对应, 这样既便于系统管理, 又利于教育资源扩充。

3.3 语义数据检索

依据语义扩展后的最终查询关键词集合, 在教育资源本体中寻找相关的资源实例, 获得其关联关系。对教育资源实例中的元数据, 通过计算权重向量, 将多个元数据属性向量构成向量空间, 由此得到资源实例的语义向量。资源实例中存在很多元数据项、且对教育目标的作用较小时, 即可选取代表性的元数据项构建语义向量, 如此能够实现更准确的定位。构建资源实例的语义向量后, 将最终查询关键词集合进行检索向量的构建。继而将资源实例的语义向量和检索向量进行相似度计算, 计算结果又根据设定阈值经过筛选, 即得到了检索结果集合。检索结果集合需要应用本体的推理功能, 依据教育资源之间的关系, 在找出检索结果相关的资源实例后, 再按设定阈值, 进一步丰富检索结果。最终的检索结果则按相似度从大到小进行排序, 输出给用户。

4 结束语

当前, 本体技术在语义Web、搜索引擎、知识工程、信息抽取与检索等领域发挥着越来越重要的作用[1]。基于本体提出一种改进的教育资源语义检索方法, 对检索信息进行语义扩展, 应用本体推理, 完成相似度计算, 且获取与用户匹配度高的查询信息, 再结合向量空间模型, 以及通过教育资源本体推理得到最终检索结果, 就在一定程度上解决了传统关键词匹配检索中缺乏知识表示和语义理解的不足, 从而提高教育资源检索的效率和质量, 并最终实现网络教育资源的有效访问。后续工作中, 将进一步研究自动语义标注和个性化查询等问题, 使语义检索模型尽快推进至工程性的应用。

参考文献

[1]涂军, 曹鹏.数字图书馆中基于本体的语义检索模型研究[J].情报杂志, 2012, 31 (7) :191-194.

[2]甘健侯, 姜跃, 夏幼明.本体方法及其应用[M].北京:科学出版社, 2011.

[3]冯永, 张洋.基于概念间边权重的概念相似性计算方法[J].计算机应用, 2012, 32 (1) :202-205.

[4]徐红艳, 方欣, 冯勇.Web服务匹配中基于语义距离的概念相似度计算方法的改进[J].计算机应用, 2011, 31 (10) :2807-2810.

语义检索篇7

1 XML语言

XML (Extensible Markup Language) 是可扩展标记语言, 其优点主要有:简单、结构化、良好的可拓展性、互操作性、开放性、强大的数据交换功能等[3]。XML提供了一个规则, 利用这些规则可以根据实际需要定义置标语言, 并形成特有的一套标签。我们可以将XML的这些优势应用到图像检索系统, 提高系统的可扩展性及通用性。在本系统中, XML的解析非常关键, 解析方式一般有两种, 一种是基于文档对象类型DOM (Document Object Model) 的解析方式, 它是解析为树结构放入内存, 应用程序可以多次对树进行操作, 当树结构过大时, 运行速度会较慢;另一种是基于SAS (Simple API For XML) 的解析方式, 与DOM方式相比, 它是一种比较简单的解析方式, 运行速度比较快。本系统采用的时基于DOM的解析方式, 利用树的遍历算法对树进行遍历, 找到叶子结点获得比较信息。

2 基于XML的检索系统设计

2.1 基于XML的图像描述

图像描述过程如图1所示, 首先根据图像文件的语义理解进行描述, 描述的内容有两类, 一类是图像媒体特征, 如图像大小、格式、路径、创建与更新日期等客观信息。另一类是高层语义信息, 包含了对象、事件、语义 (图像理解) 等信息。然后解析原来存储图像信息的XML文档, 将当前描述的图像信息按类别加入到XML中, 形成新的XML文档。XML文档不能太大, 如果太大, 就会影响运行速度, 一般可以按图像类别建立多个XML文档。

本系统的XML描述符合MPEG-7 (多媒体内容描述接口, Multimedia Content Description Interface) 规范, 该规范解决对多媒体信息描述的标准问题, 以实现快速高效的检索。该文所定义描述图像语义的XML文档结构如下:

其中Object Type包含Event Type、Semantic Place Type、Semantic Time Type等类型语义的描述, Free Text Annotation用于对语义的自然语言描述。

2.2 基于XML的图像检索过程

系统通过对XML文档的解析, 找出语义信息与所输入的关键词进行比较, 得到查询结果, 其详细过程如下:

开始

Step1:打开XML标注文档

Step2:输入查询条件 (图像语义)

step3:判断检索类别

Step4:解析XML文档, 得到各节点信息

Step5:获得文件路径, 显示图片

Setp6:查询条件与解析结果进行匹配, 浏览检索结果, 如果得到满意结果, 则进入step6, 如果不满意, 则返回setp2

Step7:查询结果写入XML结果文档