基于语义网的信息检索

2024-09-29

基于语义网的信息检索(精选7篇)

基于语义网的信息检索 篇1

摘要:本文在构建军用飞机领域本体的基础上, 尝试基于领域本体的文本信息语义检索研究。重点探讨了基于领域本体的文本信息标注以及查询扩展方法以及知识片段的提取思想, 实现了基于语义的文本信息资源的检索功能。

关键词:领域本体,语义检索,查询扩展,语义标注

1 体系结构

本系统主要包括以下几个处理模块:Ontology构建模块、语义标引模块以及查询语义扩展模块, 如图1所示。各个模块相互协作, 共同完成用户检索任务。

2 系统实现

2.1 开发环境

操作系统:WindowsXP。

IDE:Eclipse3.2+JDK1.5;Web服务器:Tomcat5.5;本体编辑工具Protege3.2;分词工具ICTCLAS;语义解析工具Jena2.2。

2.2 领域本体构建

本体, 在英文中为Ontology, 提供了对人类知识的描述和说明[1]。从知识共享的角度看, 本体可以被看作是一种概念化的显式说明, 是对客观存在的概念和关系的描述。Studer等对本体进行了深入的研究, 认为本体是共享概念模型的明确的形式化说明, 包括概念化 (Conceptualization) 、明确 (Explicit) 、形式化 (Formal) 和共享 (Share) 四层含义。

对于本体的具体构造过程, 可以用式2.1形象地给出:本体=概念 (Concept) +属性 (Property) +公理 (Axiom) +取值 (Value) +名义 (N o m i n a l) (2.1) 概念可分为“原始概念 (Primitive concepts) ”和“定义概念 (Defined concepts) ”两种, 属性则是对概念特征或性质的描述。至于“公理”, 即是定义在“概念”和“属性”上的限定和规则。“取值”则是具体的赋值, “名义”是无实例 (Instances) 的概念或者是用在概念定义中的实例。领域本体描述特定领域中的概念和概念之间的关系。本文借助本体编辑工具Protege3.2构建一个较为完善的军用飞机领域本体, 本体中共收录了参考了《中图法》中V2航空及其下位类, 主要有:V22飞机构造与设计, V23航空发动机 (推进系统) , V24航空仪表、航空设备、飞行控制与导航, V27各类型航空器, V32航空飞行术, 以及V35航空港 (站) 、机场及技术管理。在《国防科技叙词表》中主要参考了04航空工程、07动力工程、11雷达、导航、对抗等三个一级范畴。

2.3 文献语义标注

语义标注的目的, 就是用本体对Web数据进行标引, 对Web智能的实现起着至关重要的作用。Erdmann给出了语义标注的一个定义:通过一种标记Tag的手段, 在HTML或者XML中把资源的元数据同相应的资源联系起来的过程我们就称为是语义标注 (Semantic Annotation) 。本文将半结构化或者非结构化的网页等信息首先将其文本内容抽取出来, 形成结构化的文档。然后对文档的语义预处理、使用领域本体中的概念以及概念与概念之间的三元组关系对文档内容进行标注。

处理流程的步骤包括以下5步:

(1) 提取文献中的题名、摘要、关键词以及全文内容。 (2) 使用ICTCLAS对所提取内容进行切词以及词性标注。 (3) 根据领域本体的语义关系对文献的全文内容进行句法及词法分析。 (4) 对所切词进行词频统计, 并设定阈值, 对所切词进行筛选形成文献标引词。 (5) 根据词频提取全文中重要的三元语义关系。在标注的基础上以句子或者段落的形式提取包含标注特征项的知识内容片段, 并实现知识内容与文档的映射, 形成语义标引库。

2.4 用户查询语义扩展

2.4.1 查询扩展的含义

在信息检索中, 往往出现由于用户所选择的词和文档中出现的目标词不匹配, 从而导致检索效率低下乃至失败, 比如, 用户使用“全球鹰”作为检索词, 而文档中出现的却是“RQ-4A”, 尽管它们描述的是完全相同的概念, 但是对于计算机而言, 这两个却是完全不同的检索对象。因此, 查询扩展 (Query Expansion) 技术在原来查询的基础上加入与用户用词相关联的词, 组成新的更长、更准确的查询, 这样就在一定程度上弥补了用户查询信息不足的缺陷。

2.4.2 查询的语义扩展

(1) 单个关键词;这种模式下, 用户在查询提问时, 输入的是单个关键词。将用户输入的提问词带入领域本体中与领域本体中的概念以及属性实例等进行匹配, 利用匹配到的概念词进行相关知识内容的检索。 (2) 多个关键词组合查询;这种模式下的查询可以由本体中所定义的概念、关系和实例等等组成, 对于这种形式的查询可以直接根据领域本体中的定义抽取出相关的内容, 并得知出用户的查询意图。例如用户查询Q1, 2, …n为“俄罗斯歼击机”的有关信息, 在领域本体中我们发现“俄罗斯”为一个国别属性信息, “歼击机”为领域本体中的一个概念。利用领域本体的丰富语义关系以及支持推理的机制, 借助于推理工具Jena我们可以推理找出国别属于“俄罗斯”歼击机, 对用户查询反馈的时候不仅把标注有“俄罗斯”和“歼击机”的知识片段反馈给用户, 同时还将标注有国别属于“俄罗斯”的“歼击机”, 如A的知识片段反馈给用户。

3 系统评价

(1) 查全率。由于领域本体的引入, 增加了概念的同义词、概念的上下位关系以及概念的多义性等描述, 系统可根据用户提出的检索词推理出一组相关或相近的词, 共同组成扩充后的查询条件, 这样就提高了查全率。 (2) 查准率。基于领域本体的文本信息的语义标注、知识片段的提取以及查询预处理能较高地提高查准率。

4 结语

计算机以及信息技术的发展, 人们进入网络信息时代, 信息量的爆炸式地增长使人们对于检索系统的要求越来越高, 检索系统如何高效, 准确地查找到用户所需信息成为人们研究的方向, 本文提出基于领域本体的文本信息的语义检索为检索系统实现语义检索提供了一种思路, 对于未来语义检索系统的发展具有参考价值。

参考文献

[1]邓志鸿, 唐世渭, 等.Ontology研究综述[J].北京大学学报 (自然科学版) , 2002, 20 (2) :21~25.

基于语义网的信息检索 篇2

在人类语言中由于时空和领域的差异, 同一个概念可以用不同的词语表达, 即用户和文章作者往往使用不同的词语来描述同一个概念。目前连接到Internet上的计算机并不能够分析Internet上的所有数据——包括内容、链接以及人与机器的交互。也就是说当前信息检索技术没有使用语义技术, 从而很难对用户提问给出精确的查询结果。

Tim. Berners-Lee对Semantic Web做过如下描述:语义万维网并不是一个孤立的万维网, 而是对当前万维网的扩展, 语义万维网上的信息具有定义良好的语义, 使得计算机之间以及人类通过语义能够更好地挖掘WWW信息的潜力。近年来提出的语义Web新标准——可扩展标记语言XML, 它的特点就在于用户可根据需要制定能够反映任意数据内容的标签, 实现数据内容和数据表现形式的分离。像DAML这种知识表示语言它还支持逻辑推理, 这可以使检索过程更方便, 同时获得更精确的查询结果, 可以想象将来的Web页面除了包含有文本信息以外还包含有丰富的语义标记。它是一个由大量机器可以理解的数据所构成的分布式体系结构, 在这个体系结构中, 数据之间的关系通过一些特定的概念表达, 这些概念之间又形成一种复杂的网络联系, 计算机能够通过这些概念得到数据的含义, 并且可以在这种联系上进行逻辑推理。

1 现有语义检索引擎

通过分析现有三种语义检索原型系统OWLIR[1] 、Swangler和Swoogle系统, 可以对它们进行改进, 使其提供更好的服务。

1.1 OWLIR原型系统

OWLIR是对含有自由文本和含有用RDF或DAML本体语言描述的语义标记的文档进行检索的系统 (如图1) 。该系统本来是为了解决一项特殊任务――过滤大学生事件通知问题, 每两周UMBC大学的学生要收到一封列出四五十条事件的邮件。这些事件一般包括:公选课的选择, 俱乐部会议, 体育比赛, 电影通知等等消息。系统的目标是自动处理这些消息, 同时产生一个包含有文本信息和语义标记的描述。这些描述可以被进一步用于丰富本地知识库、供推理引擎推理和检索引擎索引。一个简单的框架查询系统, 允许学生键入结构化信息进行查询, 框架系统将产生一个由DAML标记的文档。查询和事件描述通过语义三元组来表示, 使用本地知识库和推理引擎可以丰富结构化的语义三元组, 然后产生可索引的语义三元组。查询结果是一个经过处理的类似文本的事件列表。

(1) 文本抽取

事件是用自由文本表示的文档, 但其包含有语义标记, 这里利用AeroText TM系统对其抽取关键短语和本体元素。这些短语和元素对识别事件类型和增加语义标记起到一个非常重要的作用。AeroText由一个Java API提供对抽取结果在系统内部形式的存取, 并使用DAML产生器部件存取这内部形式, 然后把其翻译成相应的RDF三元组, 这可以通过在抽取过程中直接绑定事件本体和语言知识库来完成。

(2) 推理系统

OWLIR使用文本抽取过程中的元数据信息来推理语义关系, 这些关系用来确定搜索范围。OWLIR是基于DAMLJessKB[2]的推理。DAMLJessKB部件读取和翻译DAML文档, 然后进行推理。DAMLJessKB提供基本的事实和规则进行关系推理像子类和子属性等的关系。

(3) HAIRCUT检索引擎

HAIRCUT[3]是一个Johns Hopkins 大学应用物理实验室开发的信息检索系统, 它是一个基于传统的向量空间模型和隐马尔可夫模型基础上用来推断文档相似度, 支持各种语言的操作。此系统给出了一个对混合信息进行查询的实验数据:

1.2 Swangler原型系统

目前对HTML文档嵌入RDF或OWL等语义标记仍然没有一个统一的标准。像Google这样的信息检索引擎本来就可以发现和索引RDF文档, 但是Google只把这些带有语义标记的文档当作简单的文本文档来处理, 其主要因素有:一是XML命名空间机制对搜索引擎是不透明的;二是用于处理自然语言的符号规则并不总是能很好地处理XML文档;三是我们不能直接利用这些语义标记。

Swangler技术已经被运用于SWDs系统 (如图2) 中, 与OWLIR系统类似, 此系统中每个术语也用一个三元组表示。像Google的“机器人”程序可以搜集这些带语义标记的RDF文档, 然后它可以索引这些内容表示成语义三元组的形式。

1.3 Swoogle原型系统

Swoogle[4]是一个针对用RDF或OWL这样的语义Web文档进行索引和检索的专用语义检索引擎。本系统由多个部件组成, 包括:用来存储SWDs元数据的数据库, 负责RDF网络文档搜集的机器人程序, 计算有用文档元数据部件, 计算SWDs中文档语义关系的部件, RDF本体编辑器, 索引器和一个用户查询接口。类似Page Rank的概念, 此系统也有一个计算网页重要程度的算法SWD Rank, 并且该系统具有和当前基于关键字搜索引擎的所有相关技术。

1.4 三种原型系统的分析

通过对三种原型系统的介绍分析, 得出三种系统的异同点:①是希望处理的是什么样类型的文档, 三种系统要处理的都是用XML编码的RDF文档或者是带有语义标记的自由文档。②是语义标记怎样被处理, 是作为具有数据、知识模型结构化的信息还是作为与模型无关的自由文本信息。OWLIR和Swangler把语义标记作为结构化信息的同时在其上进行推理;而Swoogle系统以文档内容意义存储这些RDF文档在本地数据库中, 这就允许基于类、属性集作为检索文档的依据。③是最终检索系统使用传统的检索引擎还是专用的语义检索引擎。Swangler设计的目标是使像Google这样当前的检索引擎来检索语义Web, 而OWLIR和Swoogle采用的是专用的语义检索引擎。

相应的可以提出设计语义检索系统必须满足以下几个要求:

(1) 此框架必须同时支持检索驱动的和推理驱动的处理过程;

(2) 检索必须可以使用术语, 语义标记及两者结合起来的术语索引;

(3) 搜索是以文本为基础的现有搜索引擎或元搜索引擎;

(4) 推理机制和检索机制应该紧密结合, 检索性能的提高应该能够提高推理的准确性, 同时推理性能的提高也将促进检索的准确率的提高。

2 改进后的语义检索框架模型

2.1 改进后语义检索系统各模块功能介绍 (如图3)

用户界面 为用户提供方便的查询接口及显示搜索结果。

查询语句语义转换 把从用户检索界面获取的查询请求利用DAML本体语言对其进行语义化处理。

本体推理引擎 对给定的查询请求调用专业本体知识库的知识进行反演推理, 返回与当前输入语义相关的所有概念集。

HAIRCUT检索引擎 HAIRCUT是OWLIR原型系统中的语义检索引擎, 改进之后使其支持DAML索引和RDF三元组, 以及是否具有统配符的问题。该系统允许用户根据需要指定查询术语, 例如哪些术语是必须出现在查询结果中, 哪些是不必出现的。多种技术在HAIRCUT上的结合使该系统一方面方便了用户查询, 另一方面增强了查询准确性。

语义索引及DAML文档库 根据文档收集所搜索到的DAML实例信息, 合理组织信息资源的存储, 它是对专业权威站点所有资源的规范描述。

机器人程序 定期从Web站点上搜集符合该DAML模式的最新实例文档。将这些文件收集到本地DAML文档数据库以备本地数据库索引。

查询结果处理 将由HAIRCUT检索引擎的查询结果经过一系列处理后显示给用户, 它同时可以更新专业本体知识库。

专业本体知识库 包括专业词汇、专业同义词汇等专业知识, 可以根据这些知识对查询进行扩充以及概念归类从而实现对网上信息资源进行基于内容的查询。它的建立是通过领域专家和系统本身不断学习共同完成的。

2.2 构建专业Ontology知识库

对同一概念语义共享和共同理解是构建语义万维网的关键。为了建立Semantic Web, 首先需要一个通用的能被所有应用程序理解的语义表示模型, 通过这个模型实现对不同领域内的概念及其关系的描述, 并通过这些概念和关系实现对网络资源的描述。Ontology库正是一种能在语义和知识层次上描述网络资源的概念模型, 是语义信息检索系统的核心, 它使得语义网络上的信息能够为机器所理解。

诚然, Ontology库的创建和管理是一个费时复杂的工作, 但是Ontology库的准确合理程度将直接影响到系统搜索的结果, 是实现整个系统的基础。Ontology知识库是由本体语言DAML来描述的, 它定义了一定专业领域所需的各种概念和它们之间的关系, 以及基于这些概念的推理规则。

下面举一个用DAML描述的资源文档例子:

2.3 通过本体树进行推理和检索

本体之间的关系有多种, 这里主要考虑近似关系和包含关系两种。语义推理和检索主要是通过判定本体间的关系来实现, 例如判断查询的本体信息是否包含于本体知识库中的某个概念, 或是判断查询的本体信息与本体知识库中的某个概念是否相同或相似。

为了体现对有不同偏爱的用户检索的准确率, 改进后的检索系统提供了DAML查询集, 这种查询方式使得程序员可以更充分的根据实际需求定义本体声明, 然后由HAIRCUT进行检索。下面给出一个DAML描述的查询过程。

3 结束语

本文在分析三种语义检索系统原型的基础上, 提出了一个集成搜索和推理功能的语义检索系统框架, 其中DAML作为知识表示语言同时作为推理引擎的接口。本系统框架可以被扩展实现智能的个性化检索, 通过构建表示用户偏爱的用户个性化信息本体库, 结合本体知识库由推理引擎进行推理, 然后再利用查询结果不断更新用户个性化信息本体库, 这样将会提供更精确的查询结果。

摘要:提出了对含有自由文本和丰富语义标记的网络文档资源的一种检索方法。通过对现有的三种语义检索系统原型的分析, 提出了一个改进后的实现框架, 在此框架中文档资源和查询都可用Web本体语言描述。这些描述提供了关于文档和其内容结构化或半结构化的信息。当这些文档被索引后执行语义查询时或者查询结果处理时, 它可以对这些信息进行语义推理, 从而将极大地提高检索效果。

关键词:语义检索,本体知识库,本体推理引擎

参考文献

[1]Urvi Shah, Tim Finin, Anupam Joshi, Scott Cost R, James Mayfield.In-formation Retrieval on the Semantic Web.CIKM 02, November 4-9, 2002, McLean, Virginia, USA.

[2]Kopena J, Regli W.DAMLJessKB:Atool for reasoning with the Seman-tic Web.IEEE intelligent System18 (3) , May/June, 2003.

[3] Mayfield J, McNamee P, Piatko C. The jhu/apl haircut system at trec-8.The Eighth Text Retrieval Conference, TREC-8, 1999:445-452.

[4] Ding L, Tim Finin, Anupam Joshi, Rong Pan, Scott Cost R, Joel Sachs, Vishal Doshi, Pavan Reddivari, Yun Peng, Swoogle:A Search and Metadata Engine for the Semantic Web, Thirteenth ACM Conference on Information and Knowledge Management (CIKM'04) , Washington DC, November, 2004.

基于语义网的信息检索 篇3

关键词:领域本体,查询扩展,文本分类,信息检索

0 引言

随着信息技术和Internet的快速发展, 互联网上的文本数量呈指数级增长, 在海量性、多样性和动态变化的知识库中获取所需的信息是一项具有挑战性的任务。传统的信息检索主要使用关键词字符匹配和全文检索技术, 借助索引、目录和关键词等方法实现[1,2], 在许多情况下不能很好的表达用户的查询要求, 从而导致了检索结果的低相关性。针对这个问题, 研究者们把查询扩展[3]引入到信息检索。在初始查询的基础上加入与用户查询词相关的词组成更长、更准确的新查询串。查询扩展分为人工查询扩展和自动查询扩展两种[4,5]。人工查询扩展通过人工挑选与查询词相关的特征词来扩展查询串。该方法因为有用户的参与可以有效的提高检索精度, 但手工建立扩展词表需要很大的工作量, 且其操作过程有人的主观因素, 从而导致查询扩展的有效性强烈依赖于检索者的知识和判断。自动查询扩展根据某些规则自动扩展查询串[6,7]。该方法不需要用户参与, 且检索精度较高, 但需要对整个文档进行两次检索, 开销较大。文献[8]提出了一种基于分类的检索方法, 该方法可以较快的定位到类别, 但类特征项权值计算是以单个词语为单位的, 每个词语可能属于不同的类, 导致相关类判别错误, 影响检索精度。文献[9]提出了一种基于分类的交互式检索算法, 该方法由用户确定查询请求与那类最相关, 这种方法可以准确的找到类, 检索精度比较高, 但需要用户的参与。

本文提出了一种基于分类和语义查询扩展的信息检索方法。用支持向量机对语料库进行分类并提取出每类的类特征项向量。检索时, 首先对查询串进行语义扩展, 然后借助词语的语义约束定位相关类别, 最后在相关类中进行检索。

1 相关知识

1.1 支持向量机多类分类算法

支持向量机[10]是由Vapnik提出的一种新的机器学习方法, 已经成功的应用于文本分类等诸多领域。常用的支持向量机多分类算法有一类对余类 (1-a-r) 、一对一类 (1-a-1) 和有向无环图支持向量机 (DAGSVM) 等。其中, 1-a-1方法的分类精度较高, 且适用于类别数较少、样本规模较大的情况。

设给定的多类训练样本集{ (xi, yi) }, i=1, 2, …, l。其中, xiRn, yi∈{1, 2, …, M}, l为样本个数, M为样本集类别数, Rnn维实数空间。

1-a-1方法对任意两类构建一个二分类支持向量机, 对M类样本需要构建M (M-1) /2个二分类支持向量机。在训练第i类和第j类对应的分类器时, 在样本集中选取属于类别ij类别的数据作为训练样本, 并将属于第i类的样本标记为正类, 将属于第j类的样本标记为负类。对应的优化问题如下:

minwij, bij, ξij12wij2+Cijt=1lξtij (1)

s.t. wij·ϕ (xt) +bij≥1-ξtij, if yt=i (2)

wij·ϕ (xt) +bij≤-1+ξtij, if yt=j (3)

ξtij≥0 (4)

求解这M (M-1) /2个优化问题可以得到M (M-1) /2个决策函数:

fij (x) =sgn (wij·ϕ (x) +bij) i, j=1, …, M并且ij (5)

用1-a-1 SVM方法对待分类样本进行分类时, 用每一个分类器fij对其进行判断, 并为相应的类别“投一票”, 最后得票最多的类别即为待分类样本的类别。

1.2 语义查询扩展技术

为了更有效的解决信息检索过程中词不匹配的问题, 对查询扩展进行了补充, 把查询扩展提升到语义层面。

如果存在两个查询Q1和Q2, Q1⊆Q2 , 其中, Q1基于概念集C1, Q2基于概念集C2, 并且C1和C2在语义上是相关的, 那么就称Q2是Q1的语义查询扩展[11]。

文献[12]和文献[13]研究了基于本体的查询扩展方法, 基本思想是利用本体中的路径来进行用户查询的扩展。在本体的结构图中, 每一个概念的节点都与其他节点有着连通的路径, 因此对用户查询进行扩展的时候, 可以选择与该节点连通的路径上的概念。引入本体后, 实现查询扩展的基本步骤如下:

①根据本体知识库对原始查询进行扩展, 找到与之关联的扩展查询词;

②扩展查询词加入到原查询之中, 形成新的查询描述信息, 再送入检索系统进行查询;

③查询结果按照一定算法进行排序并展现给用户, 这个过程需要本体知识库的支持。

基于本体的查询扩展技术利用本体所推导的信息对用户的查询进行扩展, 得到了不错的检索效果。

2 分类和语义查询扩展相结合的信息检索方法

2.1 检索模型

检索模型如图1所示。

文本预处理及文本分类:对语料库中的文档进行分词处理, 去除停用词, 合并数字和人名等词汇, 利用关键词抽取算法抽取出文本的关键词。用支持向量机多类分类算法 (1-a-1) 对预处理的文本进行分类, 对每一类的关键词进行统计比较, 得到类关键词向量。

查询预处理:查询串经过分词程序分词后, 去除停用词, 合并数字和人名等词汇, 构成初始查询向量。

查询扩展:初始查询向量在领域本体的帮助下进行语义查询扩展。领域本体中包含了多种关系, 如同义关系、上下位关系、整体与部分关系、实例与概念关系、同类关系。通过这些关系, 每个关键词被扩展为以此关键词为根节点的树状结构。扩展的具体思路为:以关键词为根节点, 同时检索与此关键词邻接关系词, 并把这些词作为本次检索的查询扩展词, 这样就可以保证加入的扩展词在语义上与原查询是最相关的。

2.2 检索算法描述

步骤1:用领域本体对初始检索关键词进行语义扩展得到扩展查询串, 扩展范围包括关键词及其相关词。

步骤2:用支持向量机多类分类算法 (1-a-1) 确定扩展查询串所属类别。

步骤3:利用向量间的夹角余弦函数 (6) 计算扩展查询向量与所属类中每个文本向量的相似度[14]。

Sim (Q, d) =cosQ, d=k=1nWqkWdkk=1nWqk2k=1nWdk2 (6)

其中, Q= (Wq1, Wq2, ……, Wqn) 为扩展的查询向量, di= (W1, W2, ……, Wn) 为被检索的文本。

步骤4:按相似度值大小进行排序, 返回检索结果。

3 实验与结果分析

实验数据来自复旦大学提供的中文语料库, 从中提取艺术、历史、军事、教育、交通五类共2802篇文档。其中的1396篇文本作为训练样本, 其余的作为测试样本。将文本数据经过预处理后形成高维词空间向量, 采用信息增益的方法来进行特征降维, 向量中每个词的权重根据TF*IDF公式计算。

实验环境为CPU Pentium 1.6G, 512M内存, Windows Xp操作系统。

支持向量机多类分类算法 (1-a-1) 采用RBF核函数:K (x, y) =e-γx-y‖2, 其中, γ=0.1。系统参数C=10。算法实现参考了Chang和Lin所开发的Libsvm[15], 并在此基础上进行了相应的修改。根据分类结果, 抽取每类文档的关键词, 得到类特征向量。

实验中采用标准的查全率、查准率的F1值作为评价指标。

查全率 (Recall) 是只检索到的相关文档数与所有满足条件的文档数的比率。

查全率= (7)

查准率 (Precision) 是指检索到的相关文档与检索到的全部文档的比率。

查准率= (8)

查全率和查准率反映了检索质量的两个不同方面, 两者必须综合考虑, 不可偏废, 因此, 存在一种新的评估指标F-测试值 (F-measure) 。

F测试值=2××+ (9)

实验中, 用本文方法和用关键词与分类检索相结合的方法分别进行50次不同的查询, 表1给出了检索结果。

由实验结果可知, 本文方法的检索性能较关键词与分类相结合方法有了明显提高。因为用关键词检索只能返回与关键词匹配的检索结果, 当用户输入短查询时, 只检索出部分相关的文档, 从而造成查全率查准率较低的现象。本文算法首先对查询词进行扩展, 然后快速准确的定位到相关类别, 最后在相关类中进行检索得到最终的搜索结果。该算法大大缩小了检索的范围, 提高了检索速度, 与基于关键词检索方法相比, 查全率、查准率都有明显的提高。

4 结束语

结合领域本体概念对关键词进行语义扩展, 并和文本分类技术相融合, 构造了新的信息检索模型, 提出了基于分类和语义查询扩展的信息检索方法。该方法首先对查询串进行语义扩展, 提高了查全率, 其次该方法先定位到类, 然后在类中进行检索, 提高了检索的效率。实验结果表明, 基于分类和语义查询扩展的方法具有较好的检索效果。

基于语义网的信息检索 篇4

目前Web上的作物信息资源大多是分散的半结构化(XML)或是非结构化(Html)的文档,即大部分的作物信息资源都没有按照语义网的标准进行语义标注,查准率低,查询的冗余度高。基于语义Web的作物信息智能检索系统正是针对这些杂乱无章的作物信息资源进行设计。创建作物信息知识库,通过对文档的结构化处理和对用户需求进行的语义分析来实现在语义关联层面上的信息检索。

1 语义网的概念及核心技术

1.1 语义网的含义及结构

初期语义网的结构[1],如图1所示。在最底层Layerl中,Unicode是通用字符集,它包括世界上所有的语言、字母和文字。URI可以标示抽象资源、物理资源。在Layer2中包括XML语法、NS(name space名称空间)和XML Schema(XML模式),它们都是自描述文档。在Layer3中包括RDF(resource description framework)资源描述框架和RDF模式,提供了用于描述Web资源的技术。Layer 4是本体论层,是语义网的基石。Layer5和Layer6分别是逻辑层和验证层,它们与XML数字签名一起构建所谓的可信网络。

1.2 语义网的关键技术

RDF和RDF Schema:RDF(资源描述框架)提供了描述元数据[1],而RDF Schema(RDFS)则是用来定义描述所用到的主体(subject)、谓词(predicate)及客体(object)的。用面向对象的思想来类比它们之间的关系,则RDF是用来完成实际工作的对象,RDFS就是用来定义对象的类。

本体论:本体论着眼于定义概念并表达概念间的关系,是由术语抽象而来的概念,它规范地阐明了从术语到概念的映射。一个完善的本体能够提供结构的主体和概念的关系,包括父类/子类/对象(superclass/subclass/instance)关系、属性值(property value)、时间关系以及其它依赖于所用的表达语言的关系等。本体通过比较逻辑概念结构来推理概念的含义。由于本体能通过概念间的关系来表示概念语义,从而能够提高检索的查全率和查准率。

2 基于语义网的作物信息检索系统的体系构建

基于语义Web的作物信息检索系统的资源获得来自于网络,使用本系统的用户也是大量使用网络进行查询的分散用户。而需要上网进行检索的大部分农民用户经济条件有限,很难达到C/S(客户端/服务器)模式对机器硬件的需求,系统将来的升级维护也有一定的难度。除此之外,要求每个用户使用相同的操作系统也是比较困难的事情。为方便用户使用、节约研发和后期维护的成本,本系统采用B/S模式。用户只要安装了任意一款浏览器,便可以非常方便的使用该系统。系统模式如图2所示。

该系统的目的是为了实现网络信息资源的共享,根据对系统功能的分析,按照高聚合、低耦合,数据冗余小及便于系统集成开发的系统开发原则,结合根据智能检索的流程可以将本系统分为五大模块组成:网页搜索与下载模块,网页分析模块,索引文件创建模块,作物知识库管理模块,控制和管理模块。各模块之间的关系如图3所示。

3 作物知识库的构建

在作物信息检索系统中,要提高检索的效率,作物知识库是关键。本系统所设计的作物知识库应该包含:作物学的专业术语,作物的遗传规律,育种技术,作物的生长发育,品质形成规律及其与环境的关系等各个方面。

该作物知识库的主要目标是有效的组织管理作物学相关知识。其功能主要包括:如何有效地存储和检索大量作物学相关数据(数据的输入和输出、数据编辑、按属性和关系名进行查询、更新数据库等)。为了提高作物信息检索系统的检索效率,该知识库还希望能有效地实现作物知识的表示和推理机制。其推理的知识规则和事实都以数据库的形式来存储。

该系统采用了基于关系数据库的产生式知识表示方法,利用Oracle数据库管理机制来组织作物知识库,这样组织的优点体现在:1)借助于数据库的管理机制,可以很方便地对知识库进行扩充、维护和修改,使今后无论做功能上的扩充,还是做性能上的改进都有可能。2)便于知识的运用和输入、输出,以及知识库内容的一致性和完整性检查及维护。3)实现了从规则文件到规则数据库的转变。在传统产生式规则表达中常常利用文件表达方式。用文件表达规则比较混乱,并且检索效率低,无法提供规则之间的语义约束,特别是当规则库较大时,这些缺点表现得更为明显。因此,将产生式规则移植到数据库系统中,利用数据库技术实现产生式规则的表达、检索和语义约束,既提高了知识表达的规范性,又提高了知识表达的灵活性。

由Oracle组织的该作物知识库比较庞大,由于文章篇幅有限,其图示在此省略。

4 基于语义网的作物信息检索系统的设计

由于在互联网上的大部分作物信息资源都是半结构化或者非结构化的文档,该系统针对目前Web上存在的主要的HTML文档形式提出了一种结构化处理的办法:在网页文档中用本体的概念集进行匹配搜索,找出文档中与本体概念集相交的概念集合,然后使用本体内部定义的属性关系进行推理判断,推断出这个文档是否属于作物学本体领域,如果属于此本体领域,则按照这个交集对文档施行半人工化标注。将文档里的一些数据与领域概念联系起来,使得文档里的数据具有一定的语义。其设计的流程图如图4所示。

5 展望

该系统虽然实现了基于语义网的作物信息检索,但其技术还不够完善,还需要进一步的改进,归结起来主要有以下几点:

1)由于受实验条件的影响,本系统是在自写的压力测试程序下进行压力测试的,其实用性能如何还有待检验,还需要对系统作进一步的评估;2)当前,Web上存在的资源绝大多数都是非结构化的Html文档,而如果需要对这些文档进行元数据标注,则需要大量的人力资源进行手工或者半手工化处理。虽然在本研究中引入了本体的概念,但对大规模的文档的标注仍存在问题;3)本体的构建不完善,还需进一步完善;4)随着万维网的不断发展,该还需要进一步完善来适应互联网的发展。主要是下面几个方面:(1)在提取网页属性和分析网页间的关系的时候,规则的定义是人为的,这就需要人为的观察和分析网页的特征,并构造规则,随着万维网的不断更新变化,这一工作要不断地进行;(2)如何在深度搜索中提高初始页面的相关性,用以控制相关链接的数量,提高查询的效率;(3)如何保证提取的元数据的准确性,如何获得更多的元数据,以提高系统的实用性。

参考文献

[1]Berners-Lee T,Hendler J,Lassila O.The semantic Web[J].Scientific American,2001,284(5):34-43.

[2]官春云.农业概论[M].北京:中国农业出版社,2007:52-70.

[3]Rrigoris Antoniou.语义网基础教程[M].北京:机械工业出版社,2008:30-58.

[4]崔运鹏.基于本体论的农业知识管理关键技术研究[D].北京:中国农业科学院,2007.

基于语义网的信息检索 篇5

互联网的快速发展和广泛应用, 为人们提供了一个广阔的信息空间, 也为信息检索提供了一个广阔的发展平台。互联网的开放性和自由性使得网络信息资源呈现出数量巨大、异构性、分散性和动态性特征。但由于网络信息时效性强以及互联网缺乏必要的监督和质量控制, 使得大量垃圾信息混于高质量信息当中, 增加了有效信息获取的难度, 影响检索效率。因此, 使用有效的检索工具才能使得网络信息资源为人们所充分利用。

1 网络信息资源点与检索工具

上世纪90年代中期出现的搜索引擎技术目前已经成为检索各类网络信息资源最主要的检索工具。搜索引擎一般工作流程是借助于网络自动搜索软件 (Robot、Spider等) 访问浏览网页并抓取文件, 并通过已浏览的网页中的链接访问更多网页。在抓取网页的同时对页面文件进行分析分解以及索引, 建立索引数据库。当用户在搜索引擎界面输入搜索词后, 搜索引擎对搜索词进行处理, 按照处理后的搜索词在索引数据库中找出所有包含相关内容的网页, 并更具排名算法计算出排名顺序然后按照一定的格式返回到搜索页面。普通的搜索引擎缺点在于返回的检索结果数量巨大, 无关和冗余信息较多, 用户必须从中进行筛选。虽然布尔运算、截词运算、自然语言检索等技术使用大大提高了准确率, 但对用户检索素养要求很高。针对以上问题, 学者把研究对象放到对词意的挖掘上, 探索实现基于概念匹配的检索技术和方法, 基于本体的语义检索成为研究重点。

2 语义检索基本要素和原理

随着人工智能以及自然语言处理的发展, 尤其是语义网技术的兴起, 自上个世纪以来语义检索研究得到了迅猛的发展。虽然对于语义检索在概念上到目前为止没有统一的界定, 但是不同的研究都有一个共同之处就是基于对信息资源的语义处理时限效率更高的检索[1]。本体是语义检索的基础, 其主要任务是对信息资源进行语义表达。

本体 (Ontology) 原本是一个描述客观事物本质的哲学概念, 是对客观存在的一个系统的解释和说明。如今, 本体是一种能在语义和知识层次上描述概念体系的有效工具, 用来描述概念以及概念之间的关系, 通过概念之间的管理来描述概念的语义。本体作为一种最先进的知识表示方式能够充分的描述所以的数据结构, 是推理和关系数据库的结合[2]。概括的讲本体能够在人们和应用系统之间达成对术语含义的共享和共同理解, 通过函数 (functions) 、关系 (relations) 、原则 (axioms) 和实例 (instances) 、类 (classes) 这5种元素表达本体中的知识, 使其具有逻辑推理和语义识别功能, 帮助检索系统跨越目前基于关键词的检索过程中的上述问题以实现语义检索[3]。目前实现网络检索的技术主要有两种:第一种, 依赖于编码处理, 以分类模式来描述信息资源以实现检索的目的;第二种, 是通过全文检索查找文本中包含用户指定的词语的信息源。语义检索的语义信息的提取和处理是基于语义网方法与技术的查询处理与文档标注及索引。基于本体的查询处理包括:查询消歧和查询扩展, 通过消岐, 明确查询的确切所指, 准确反映用户的信息意图, 继而通过加入与其语义相关的其他概念来实施扩展。在对文档进行语义标注与索引的基础上, 先进行实例检索, 再据此返回所有以检出实例标注的文档信息是语义标注文档检索的一种普遍思路。相对于传统的网络检索, 基于本体的语义检索的优势在于体现语义信息, 准确表达用户的查询意图。

3 常见语义检索系统介绍

3.1 一体化医学语言系统 (UMLS) UMLS (Unified Medical Language System)

作为计算机化的情报检索语言集成系统, 是美国国立医学图书馆 (NLM) 主持的一项长期开发研究计划。它不仅是自然语言处理、语言规范化以及语言翻译的规范化工具, 更是实现实现跨数据库检测的词汇转换系统并且还可以帮助用户连接情报源, 包括书目数据库、事实数据库、计算机化的病案记录以及专家系统过程中对于其他的电子式生物医学情报的一体化检索。UMLS包括情报源图谱 (Information Sources Map) 、语义网络 (Semantic Network) 、专家词典 (SPECIALIST Lexicon) ) 和超级叙词表 (Metathesaurus) 四部分。其中超级叙词表是术语、生物医学概念、等级范畴、词汇及其涵义的广泛集成。1997年第8版的超级叙词表收录了739439个词汇, 这些词汇来源于30多种生物医学词表和分类表的能表达33万多个概念的, 词汇量达到空前规模。而语义网络是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具, 是为建立概念术语间相互错综复杂关系而设计的。UMLS的语义网络不仅运用了常规的语义控制手段, 如属分、相关关系控制、语义等级, 同时在语义规范和语义关系分析、延伸等多方面有许多创新。

3.2 语义网 (Semantic Web)

为了能够在网络环境下也同样实现语义检索的功能进而开发研究了语义网的W3C项目。W3C项目是将网络上的数据通过一种方式进行连续和定义, 通过这种定义和连续可以根据人的不同需求实现计算机将数据自动进行整合以及再利用, 从而达到更有利于人机协作的目的。资源描述框架 (Re-source Description Framework, 简称RDF) 是语义网的核心构件。在网络中, 一般用元数据对资源进行描述, 而RDF则是处理元数据的一个基础。RDF认为一个具体的元数据是由属性值 (Statements) 、属性 (Properties) 和资源 (Resources) 构成的三元关系模式[4], 实际上是关于一个特定的资源特定属性的取值声明。使用RDFS语言, 元数据的设计者不仅可以定义所描述资源的类别、属性以及词汇, 还可以定义这些属性或者对象的关系以及对象与属性之间的相互关系, 同时还可以进一步定义这些资源的对象、属性以及属性应用类别和取值条件等, 通过这些定义从而能以计算机理解的标准方式对元数据进行描述语义内容以及元数据的结构关系。

3.3 Word Net

Word Net是一种基于认知语言学的英语词典, 它是由普林斯顿大学的计算机工程师、心理学家和语言学家联合设计的不仅是把单词以字母顺序排列, 并且是按单侧的意义组成的一个“单词的网络”。Word Net将所有的英语词汇按词性分为功能词、形容词、动词、名词和副词五类。动词被组成各种推演关系;名词在词汇记忆中被组成主题的层次;而形容词和副词被组织在N维超空间中。根据Word Net关系分析最大的优势是能在他的单词网里通过相关关系消除歧义, 因为Word Net分析主要是关系分析。Word Net在名词的语义消歧率可以超过60%。

4 结语

从以上三个语义系统来看, 无论是相对封闭的ULMS系统还是开放式的语义网、wordnet系统都具有较强的灵活性和扩展性。相对于常见的关键字信息检索, 语义检索不需要用户使用专业的检索策略, 也不需要语法严谨的检索式, 用户可以将自己的信息需求通过自然语言直接表达出来。语义检索在后台经过大量的计算, 分析用户的用户的语义文档信息, 充分利用各种语义关系消除歧义将用户真正需要的准确的信息资源反馈给用户, 将用户的检索效率提升60—80%。因此, 语义检索无疑是当前信息爆炸条件下最适合的网络信息检索方式。

摘要:互联网给用户的信息检索带来便利的同时也导致大量冗余信息出现, 使得检索效率低下。语义检索通过对用户检索要求的语义分析使得检索效率以及检索准确度大大提升。本文在分析语义检索基本要素和检索原理的基础上, 介绍三种常用的语义检索系统, 体现语义检索在网络信息检索环境下的优势。

关键词:语义检索,本体,语义网

参考文献

[1]黄敏, 赖茂生.语义检索研究综述[J].图书情报工作, 2008, (6) :63-66.

[2]Studer R, Benjamins R, Fensel D.Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25 (1-2) :16l-197.

[3]翁畅平, 沈娟.基于Ontology的个性化语义检索系统研究[J].图书馆理论与实践, 2009 (10) :77-80.

基于语义网的信息检索 篇6

随着我国奥运会的闭幕和世博会的临近, 研究大型活动中可能出现的安全问题就变得十分有必要。这就需要为大型活动 (通常发生在大型的场所之中) 建立安全风险的快速评估机制。其中包括数据的采集、风险的定义、根据采集数据对风险的估算, 以及风险高时的应急措施等。数据的采集有很多实现的方法, 例如:视频采集、图像采集等等。采集点也有不同。为了将采集点的数据能够有效地综合在一起, 除了必须有统一的方式来描述采集的数据, 以及数据采集的后期处理结果之外, 还必须将采集点的空间位置等数据综合在一起。所以本文提出实现描述城市场所安全的语义网, 作为较大规模场所安全集成系统的语义基础。

1 应急决策系统软件的总体框架

应急决策系统软件的总体框架如图1所示。软件系统采用模块化设计, 在模型管理系统基础上, 结合GIS软件开发平台, 将事故模拟预测模型、应急预案、应急调度决策模型和人员疏散模型有机地整合起来, 建立城市重大事故应急决策的仿真模型, 实现各个环节的空间决策模拟, 包括灾情模拟分析与分级、应急预案、应急力量配置与调度、最佳调度路径分析、人员疏散等。

2 描述城市场所安全语义网的构建

在构建一个语义网之前必须要优先确定几件事:语义网数据的来源, 数据的描述语言以及数据结构等问题。

本文所采用的编辑器时Altova XMLSpy 2006企业版, 它提供工具以可视化编辑的方式编辑XML Schema, 编辑时的界面如图2所示。

这次需要构建的语义网所描述的对象是城市特定场所的安全, 选取的数据应符合安全监控反应等方面的需求, 使用相对较为简单的XML Schema进行描述。在数据结构上, 选择了树形结构对其进行描述。

2.1 结构分类以及对场所的表述

下面开始正式研究具体的监控数据的问题。作为一个场馆, 除了必须的监控数据之外, 具有自己的固有特征, 包括名称、地址、所举办的活动类型等等, 这些属性需要优先标出, 以方便从全局的角度对所有场馆的现状加以了解和管理。如图3所示, 添加可选属性备注, 以便在需要时对场馆的某些特殊属性进行描述。

每个游客区域除了监控数据之外的固有特征, 它们就是区域号以及位置。区域号用于独立标示每个区域, 通过这个属性可以知道区域之间相对之间的位置关系, 便于进行管理。位置属性用于表示每个区域的具体方位。

接下来讨论监控数据。首先要考虑的要素就是人数, 因为我们考虑的地区都是人口密集区, 所以对于人数的监控很重要, 另外由于是外部区域, 游客人数没有明确上限, 因此对于人数的判断需依赖经验, 即是要根据一段时间人数的平均值来考虑。接下来要考虑人流速度, 在大量的人群之中要监控个别人的行动几乎是不可能的, 所以对人群行动模式的判断, 最好的方法是根据人群的移动速度。例如如果现在速度大大低于标准速度, 那么可以认为是某一部分人流出现堵塞状况, 需要排遣工作人员处理;如果现在速度又大大高于标准速度, 那么可以怀疑是某一部分人流产生突然移动 (比如斗殴或骚乱) , 可能引起其他事件, 也需要排遣工作人员进行处理。接下来的数据是对环境温度的监测, 这个值也有标准值和现在值。如果局部温度过高, 可以判断出现了火灾, 就需要紧急处理。

内部场馆另一个比较重要的区域分类为出入口, 出入口对于封闭场所内部区域是不可或缺的, 它直接影响到了进入场馆内部时的人流速度, 出现特殊情况时的逃生效率等重要问题。出入口的数据结构如图4所示。出入口是工作人员和游客都需要使用的部分, 所以需要明确使用权限。这里使用权限给出了四个可选值:正常使用 (指的是游客和管理人员都有权限使用) , 管理人员专用, 紧急逃生用以及设备搬运用。这四个值一般可以覆盖出入口可能出现的所有需要用途和权限。

出入口是进出封闭场所内部的唯一方法, 所以时刻保证其通行状况良好十分重要。这里考虑到的出入口通行状况一般有三种:正常通行、拥堵和关闭。一旦出现拥堵, 则必须安排工作人员进行疏导, 以免发生事故, 或突然出现紧急情况而无法应对。关闭状态则是针对一些特殊权限的出入口。

2.2 基于突发事件语义网本体的构建

上文给出了基于场所分类的语义网本体的结构及数据描述, 建立以上结构的目的是对于所有举行活动的场馆进行监控, 以做到预防突发事件的发生或在突发事件发生的第一时间就能获得信息从而有所反应。本节建立了一个基于突发事件的语义网来实现这个目的。

基本数据结构如图5所示。与基于场所的语义网本体相比, 突发事件的描述结构相对较简单, 但是, 描述数据方面则显得更为复杂。下面对此本体的数据进行详细分析。

发生时间记述了突发事件发生的时间, 作为参考数据, 与之后的元素现在时间相结合可以确定从事件发生到目前为止一共经历了多少时间, 提供一个相关的参考数据。发生地点作用十分重要, 它标明了事件的发生位置, 使得我们在需要解决事件时, 可以就近调派人员分析。发生时间记述了突发事件发生的时间, 作为参考数据, 与之后的元素现在时间相结合可以确定从事件发生到目前为止一共经历了多少时间, 提供一个相关的参考数据。发生地点作用十分重要, 它标明了事件的发生位置, 使得我们在需要解决事件时, 可以就近调派人员前往事件地点, 对事件进行控制, 为之后更大规模的救援活动争取时间。

3 结束语

本文构建了一个简单的描述城市场所安全语义网。构建时, 采用了XML Schema作为数据描述语言, 并利用工具Altova XMLSpy 2006企业版来辅助描述。在描述具体内容时, 尝试从两方面着手, 一是基于场所的描述, 另一个是基于事件的描述。两者分别针对不同的应用目的, 描述了各自所需的安全数据。在实际应用时, 这两个本体可以作为描述数据的基本框架, 统一描述标准, 为进一步的拓展应用提供一个一致的数据标准。

现在的研究成果仅仅是一个语义描述的框架结构, 距离一个成型的城市场所安全描述系统还有很大的距离, 例如:数据的存储问题, 和其它数据本体 (例如气象信息本体, 交通信息本体等) 的交互问题, 这些都是在未来的研究中需要进一步解决的实质性问题。

参考文献

[1]廖光煊, 翁韬, 朱霁平, 等.城市重大事故应急辅助决策支持系统研究[J].中国工程科学, 2005 (7) .

[2]刘士兴, 张永明, 袁非牛, 等.城市公共安全应急决策支持系统研究[J].安全与环境学报, 2007 (2) .

[3]张敏, 陈锦富.城市规划视角的城市公共安全[J].城乡建设, 2007 (1) .

基于本体的课程资源语义检索系统 篇7

近年来,建立在语义网基础上的本体语义检索技术得到了人们的广泛关注。相比于传统的检索技术,其在检索精度和覆盖率上都有明显的优势。本体论最早起源于哲学领域,古希腊的亚里士多德通过对事物存在的本质进行了研究,得出了本体的概念。在较早时期,本体没有一个统一的定义,Studer等人对本体进行了一系列的深入研究后,提出了一个在当今被广泛采用的定义。对于共享概念模型而言,本体就是一种明确的形式化规范的说明。

1 课程资源本体构建

传统的基于关键字的搜索方法由于缺少语义,常造成检索信息的错检和漏检。由于受到了本体库的支持,基于语义的检索能很好地弥补这一缺陷。如果要进行基于本体的语义搜索,首先要构建规范的课程资源知识库本体。

本文以课程资源知识点作为领域本体进行构建。课程资源知识点本体的构建主要分为两点,即确定规范和基于规范构建本体。以计算机网络课程为例,本体存储的是相关知识点,其中包括计算机网络性能、因特网、计算机网络体系结构、计算机网络类别、网络安全五大类。这五大类的子类分别有:①计算机网络性能。速率、宽带、吞吐率、往返率、可扩展性、时延、利用率、可靠性。②因特网。因特网发展阶段、因特网组成、下一代因特网。③计算机网络体系结构。五层协议体系结构、TCP/IP体系结构、OSI体系结构。④计算机网络类别。广域网、城域网、局域网、接入网。⑤网络安全。数字签名、密码体制、安全协议、防火墙。

课程本体所包含的对象属性有蕴含关系、依赖关系、兄弟关系、平行关系、参考关系和游离关系。在构建完本体之后,本文采用My SQL数据库对本体文件进行存储,达到持久化。

2 语义关联度算法

用户在输入相关查询词进行检索后,语义检索系统对查询词进行形式化处理,并对形式化后的查询词进行语义关联度计算。语义关联度包括语义相似度和语义相关度。

2.1语义相似度

本文提出元概念的定义,指在领域本体中存在的概念集合C,设其中任一概念为Cx,如果集合Q中存在可以与概念C中的Cx匹配的查询词,则称为Cx为元概念,即将元概念作为查询映射到的概念来进行资源查询。

本文以知识点为单位构建教育资源本体,所以,从知识点的角度扩展了语义。知识点之间的关系有同义、平行、包含等,本节对本体概念之间的相似度所考虑的因素主要有以下6个。2.1.1语义距离

语义距离对语义相似度的影响可以表示成:

概念节点之间的距离表示为len(ei),是彼此之间相连的通路边所有对应的距离,比如父类和子类之间的距离为1.

2.1.2语义重合度

语义重合度对于语义相似度的影响主要表示为:

2.1.3节点密度

节点密度对于语义相似度的影响可以表示为:

式(3)中:degree(P)为概念节点X与概念节点Y之间最近的公共祖先P的度;degree(T)为概念树的度。

2.1.4节点深度

两个节点X与Y之间的概念深度对于语义相似度的影响可以表示成为:

式(4)中:dep(X)和dep(Y)分别为概念X和概念Y的深度。

2.1.5层次顺序

层次的顺序对概念相似度的影响为:

式(5)中:lyr(X)和lyr(Y)分别为X和Y节点所在的层次,根节点的层次为1;lyr(G)为领域本体中层次的最底层。

2.1.6查询词权重

在进行最后的语义相似度阶段计算时,对概念之间相似度的计算是受查询词权重的影响。领域本体之间的概念与概念节点之间的相似度的计算公式如下:

2.2语义相关度

语义的相关度指的是词语与词语之间的相互有联系的程度,它是一个随主观意愿变动比较强的概念。相关度的取值也在0~1,一般是两个词语在相同语境之中能够替换的程度。领域本体概念之间的相关度公式如下:

式(7)中:rel(ei)为概念与概念之间相连的关系边所对应的权值。

本文中概念与概念之间的相关度定义如表1所示。

综上所述,得出概念之间的关联度的计算公式如下:

3 语义检索模型

本文以教育资源的知识点为基础,对基于本体的教学资源的语义检索系统建立了原型。本文构建的语义检索是对教育资源进行本体推理来实现教育资源的语义检索,其中,还对向量空间模型进行了结合。语义检索主要包含了两个核心,即语义查询扩展和语义数据的检索算法。

图1为语义检索的模型图。

系统采用VPN、SNMP等词语进行测试,求得基于本体教学资源语义检索算法的查全率和查准率。同时,计算基于关键字的检索系统的查全率和查准率,结果如表2所示。

4 结束语

本文提出并研究了基于本体的课程资源信息语义检索问题。文中通过课程资源知识库本体的构建、本体相似度计算的研究,建立了基于课程资源的语义检索系统的原型,在一定程度上提高了对课程资源信息检索的查全率和查准率。下一步工作为课程资源本体的完善、探索更加精确的语义相似度计算方法,以提供给用户更好的检索支持。

参考文献

[1]代晓宇.基于本体的教学资源语义检索应用研究[D].哈尔滨:哈尔滨工程大学,2012.

[2]花开明,陈家训,杨洪山,等.基于本体与元数据的语义检索[J].计算机工程,2007,33(24).

[3]栾艳,丁二玉,骆斌.基于Ontology的语义检索技术[J].计算机工程与应用,2005,41(28).

[4]Studer R,Benjamins V R,Fensel D.Knowledge engineering:Principles and methods[J].Data&Knowledge Engineering,1998,25(02).

上一篇:大数据开发公司下一篇:高职学生英语教学