语义模型

2024-06-17

语义模型(共8篇)

语义模型 篇1

语义Web服务是指语义Web技术和Web服务技术的结合体, 在Web服务上添加上语义的标注。语义Web能够让数据被计算机自动化的处理以及理解, 能让计算机在因特网的大量的信息中找到指定的信息。随着社会科技的进步和发展, 现在人们也越来越重视信息共享, 而开放的Web环境也成为了人们获取海量信息的主要来源, 而随着对语义Web服务的研究工作的深入, 逐渐发现在语义Web服务的环节中有一个不可缺少的环节——语义Web服务匹配结果的排序机制。本文主要提出了基于语义距离度量模型的语义Web服务匹配排序机制, 根据这种排序机制, 依据语义Web服务的语义相似度量对语义Web服务匹配结果进行排序。

1 基于语义Web服务匹配的相关概述

基于语义Web服务匹配在其中加入了服务本体概念, 所以基于语义Web服务匹配在描述信息是具有清晰、准确的语义。语义Web模型是提供服务本身内部的流程信息, 和执行与服务相关的控制结构和数据流, 这些流程会在Web服务组合和执行时用到, 这些工作能够帮助发现Web服务是否符合请求者的要求。也能更加深入的去分析Web服务的可实施性。

1.1 语义Web服务匹配的现状

语义Web服务匹配是将用户的服务请求和Web服务数据库中的信息进行比较, 找出符合服务请求的语义Web服务信息。针对如何找出匹配的语义Web服务信息, 现阶段主要依据利用本体自身概念的逻辑包含关系进行推理实现匹配关系, 以及根据本体概念的语义相似度量进行相似度的匹配方法。例如:卡内基梅隆大学的Massimo Paolucc等提出的弹性匹配算法;基于本体属性的相似度算法;基于本体两个概念的几何距离来提出的语义相似度算法等运算方法。

1.2 基于语义的Web服务匹配排序模型的设计思路

在构建语义的Web服务匹配模型前, 应该通过研究相关的研究工作资料, 找出现有的语义Web服务匹配排序机制算法中存在的问题和不足。语义Web服务匹配模型的基本构架由八个部分组成, 根据语义描述的服务请求描述模块, 用于注册服务的服务注册模块, 用于存储本体信息的信息库, 用于搜索提取待匹配信息的信息提取模块等阶段的构建。

2 基于语义距离度量模型的语义Web服务匹配结果排序机制

随着语义Web服务匹配的发展, 在服务时对搜索结果的排序操作要求也越来越高。通过对各个研究工作概括和整理相关研究工作的资料, 探讨出一种基于语义距离度量模型的语义Web服务匹配结果排序机制, 运用这种基于语义距离度量模型来对在进行语义Web服务搜索时的匹配结果进行自动的排序操作, 这样能更加便捷、快速的完成Web服务的搜索工作。下文主要简单的介绍语义距离度量模型的相关知识和如何进行运用语义距离度量模型来对搜索结果排序, 以及加权语义距离度量在语义Web服务匹配中的运用。

2.1 语义距离度量模型

语义距离度量模型 (Semantic Distance Metric Model, 简称为SDMM) 是一种与“语义”信息本身定义具有相关信息的定义对象间的各种相关关系之间形成的一种三维空间可计算模型。利用本体的定义、实例、属性之间的语义联系:等价、包含和关联定义, 这三个向量可对应轴Veql、Vsub、Vrel, 利用这三个向量轴就能构成语义距离度量模型。语义距离度量模型是利用度量本体的定义、实例、属性与语义距离关系之间的三维空间可以计算的模型, 表达式为:SDMM=。在这之中Veql是指等价语义关系轴, Vsub是指包含语义关系轴, Vrel是指关联语义关系轴。利用本体定义对象Ci为坐标原点, 在向各个方向延长每个向量, 在语义距离度量模型中向量的坐标是可以随意转换的, 并没有固定的方向, 图1就为一个典型的语义距离度量模型 (SDMM) 的示意图。

2.2 基于语义距离度量模型的匹配结果排序

在语义距离度量模型 (SDMM) 中, 对象转换运算符 (→) 为其运算符, (→) 表示从语义距离度量模型的任意一个本体对象向另一个本体对象之间的转换函数。例如:从Ci向Cx转换可以记作Ci→Cx, 这样转换后就得到了一个集合Sx。在对对象进行求值算子Vx时, assign是作为语义距离度量模型中的算子, assign表示的是从坐标原点Ci→Cx所得的集合Sx中任意取一个元素, 语义距离度量模型的转换可由图2表示。

基于语义距离度量模型的语义Web服务匹配结果排序主要是根据语义Web服务所关系的本体对象的语义对象距离, 也就是说是本体定义对象在语义距离度量模型中的相互转换的操作序列之间的度量, 例如:在语义距离度量模型中Cm→Cn, 在计算语义距离时可利用公式 (1-1) 进行计算。

(1-1) 公式分为三个部分, 分别表示Cm→Cn在等价语义关系轴Veql上的操作, Cm→Cn在包含语义关系轴Vsub上的操作, 以及Cm→Cn在关联语义关系轴Vrel上的操作, 因此从概念Cm到概念Cn的转换距离度量实际上就是转换操作序列的三元组的度量。在这个过程中, 只是根据本体自身的概念, 属性作为一切推理的依据, 将本体中的所有对象映射在唯一的坐标点上, 再根据公式计算。

2.3 加权语义距离度量

因为语义Web服务匹配具有不同的服务要求类型和语义Web服务匹配要与上下文联系起来, 所以对语义Web服务匹配结果距离度量要运用加权的方式进行处理。在基于语义距离度量模型的语义Web服务匹配排序机制中, 可以给基于语义距离度量模型中的各个坐标轴的方向量赋予不同的权重值, 依靠权重值得到不同的加权语义距离度量, 从而进行语义Web服务匹配的排序。例如:有两个语义Web服务匹配距离对象Cm和Cn, 经过赋予不同的权重值后, 加权语义距离度量的计算表达式可以如公式 (1-2) 所示。

也可以根据不同的语义Web服务匹配内容, 在语义距离度量模型的三个方向的向量的语义距离度量权重值的设置可以有不同的方法, 甚至在实际的运用实例中可以将其中一个向量的权重值设置为0, 这就只需要考虑剩下的两个向量对语义距离度量的影响。

3 总结

语义Web服务匹配结果的排序机制在随着语义Web服务的搜索研究工作的不断深入的过程中, 已经成为了一个不可或缺的研究专题, 也在不断的研究运用不同的相似度度量模型和计算方法。而由于语义Web服务匹配搜索具有海量的信息, 运用不同的运算方法和不同的度量模型就有可能出现不同的Web服务匹配结果, 这就有可能影响到语义Web服务匹配搜索的准确性。本文在这些的基础上提出一种较科学的基于语义距离度量模型的语义Web服务匹配排序机制, 并且还依据不同的Web服务匹配搜索提出了对语义距离度量模型的方向轴赋予加权值的方法。但是怎样将语义信息完全统一的放入语义空间模型中并且进行一个统一的度量, 以及语义距离度量模型是否对不同的语义Web服务匹配搜索都适用, 这些都是以后研究工作的重心以及最需要解决的问题。

摘要:随着社会科技的进步和发展, 现在人们也越来越重视信息共享, 而开放的Web环境也成为了人们获取海量信息的主要来源。人们的需求也就让人们对语义Web服务技术不断地深入研究, 所以现在网上语义Web服务的数量也就快速的增加。本文主要提出了基于语义距离度量模型的语义Web服务匹配排序机制, 根据这种排序机制, 依据语义Web服务的语义相似度量对语义Web服务匹配结果进行排序。

关键词:语义Web服务,语义Web服务匹配,语义距离度量模型,语义Web服务组合

参考文献

[1]马应龙, 金蓓弘, 冯玉琳.基于进化分布式本体语义Web服务动态发现[J].计算机学报, 2013, 8 (11) :603-614.

[2]汤杰.语义Web服务组合的研究与实现[J].燕山大学学报, 2013, 11 (11) :120-121+125.

[3]方欣.基于语义的Web服务匹配研究[J].达宁大学学报, 2013, 2 (3) :156-157+159.

[4]杨易超.基于语义的Web服务匹配模型的研究与实现[J].电子科技大学学报, 2013, 2 (20) :178+180+185.

[5]曾志浩, 应时, 陈锐, 倪友聪, 赵楷.基于语义距离度量模型的语义Web服务匹配排序机制[J].计算机工程与科学, 2010, 5 (13) :138-139.

语义模型 篇2

摘 要:研究证明,学习风格是影响学习效果的重要因素。本文对当前多种学习风格模型的特点和应用情况进行了深入分析,选定FSLSM作为自适应学习系统的学习风格模型,并提出了学习风格显性诊断和隐性修正的具体方案,针对学习者的学习风格差异,从学习资源的提供、学习路径的安排、自适应规则等方面构建出语义网环境下的自适应教学策略模型。

关键词:语义网;自适应学习系统;学习风格;教学策略

中图分类号:G434 文献标志码:B 文章编号:1673-8454(2014)06-0024-04

研究证明,许多因素包括学习环境、学习风格等都可以对学习产生影响。主流的课程管理系统大多忽视学习者的个性特征,为其提供同样的资源和活动,也无法根据学习者知识背景、学习结果的改变而作出智能调整,大大降低了网络学习的效率。

自适应学习系统(Adaptive Learning System),是针对个体学习过程中的差异性而提供适合个体特征的学习支持的学习系统,能够为学习者提供个性化的资源及学习过程和学习策略等。[1]本文主要是对自适应学习系统中基于学习风格的教学策略模型作出详细的介绍。该模块的研究主要涉及以下几个问题:

1.采用何种学习风格模型作为自适应学习系统的标准,以及如何选择或设计一个有效的、定量的学习风格测量量表;

2.学习风格的诊断方法、学习风格中的哪些特征需要被诊断及被适应、学习行为中的哪些信息可以用于确定学习者的学习风格;

3.自适应学习系统如何实现自适应,即基于学习风格的自适应教学策略的生成。

一、学习风格模型的确定

在测量学习者的学习风格之前,要选择一个学习风格模型,并设计一个可供量化的学习风格测量量表。目前存在多种类型的学习风格模型,Coffield等人[2]从模型的设计角度出发将学习风格模型分为五类。第一类主要是将学习风格和偏好分为四个模块:视觉、听觉、动觉和触觉,例如Felder and Sliverman。第二类认为学习风格是认知结构的深层次特征,包括能力模式等。第三类认为学习风格是一个相对稳定的个性特征的组合,例如Myers-Briggs。第四类学习风格被看作是一种弹性的基本稳定的学习偏好,例如Honey and Mumford、Kolb等。最后一类将学习风格看作是学习方法、策略,例如Pask、Entwistle、Grasha-Riechmann等。这些模型在教育超媒体系统中都已经有广泛的应用。

在本研究进行之初,我们对主流的自适应教育超媒体系统(Adaptive Educational Hypermedia System, AEHS)中学习风格模型的选择进行了调查,并对各系统所采用的学习风格维度、针对各维度采取的自适应教学策略等进行了深入的分析。目前主流的学习风格模型在教育超媒体系统中的应用情况如表1所示。

我们选择FSLSM(Felder & Sliverman Learning Style Model),首先是基于它的可靠性。截至目前为止,FSLSM已经被其作者和多位专家所证实(Zywno, 2003)(Felder & Spurlin, 2005),[3]并且成功应用到了多种自适应超媒体教育系统中。这些成功的案例都表明了该模型具有良好的有效性和可靠性。

其次在于FSLSM提供了一个定量的学习风格测量量表ILS(Index of Learning Styles),该表是一个可计算的模型,通过对四个维度分别进行量化,其测量结果容易理解并具有很强的可操作性。同时FSLSM重视媒体类型的差异,对网络学习中基于学习风格的教学策略的制定也有很强的指导性。

基于以上三点优势,我们选择FSLSM作为自适应学习系统的学习风格模型,并采用该模型自备的学习风格测量量表对学习风格进行诊断。

二、学习风格的诊断

学习风格的诊断包括显性和隐性两种方式。显性方式主要是指学生填写学习风格调查问卷,隐性方式主要是通过在学习过程中监控学习者的各种行为进而确定其学习风格。在自适应学习系统中,我们采用了显隐性相结合的方式对学习风格进行诊断。在进入知识学习之前,建议学习者参与学习风格测试,如果学习者对测试结果提出异议,系统提供“学习风格切换”接口,可以在知识学习过程中随时对学习风格做出适当的调整。在学习过程中,制定了一套基于学习者学习行为的隐性的学习风格修正方案。

1.显性诊断

在学习风格的显性诊断阶段,我们采用FSLSM中自带的学习风格测量量表ILS,分别从信息加工、感知、输入、理解四个方面将学习风格分为4个维度8种类型。四个维度彼此独立,分别是:活跃/沉思,感悟/直觉,视觉/言语,序列/综合。

(1)学习风格前测

学习风格前测主要是对学习者模型中“学习风格”模块中部分字段的初始化。ILS具有很强的可操作性,学习者在回答ILS中设置的问题后,系统通过问题答案分析学习者的学习风格倾向和每种风格的强弱程度,进而推断出学习者所归属的学习风格类型。

(2)学习风格切换

由于量表测试往往会存在一定的误差,学习者使用系统前期缺乏修正误差所需的数据,并且一些学习者的学习风格倾向性并不明显,因此不将量表测试结果作为认定学习风格的唯一依据,而是提供给学习者充分自由的选择空间,提供“学习风格切换”功能,使学习者在学习过程中根据需要对学习风格进行调整,为量表的不足提供人性化的解决方案。

2.隐性修正

通过ILS对学习者进行的学习风格测试,以及学习者在学习过程中进行的学习风格切换,都存在较强的主观意识。并且学习者的学习风格也不是一成不变的,单一的量表也存在一定的误差,所以需要后期的数据挖掘对学习风格模型进行修正。在学习活动的过程中,我们将对学习者的各种行为进行监控,通过其各种行为表现对学习风格进行修正。在学习风格的隐性修正阶段,我们需要确定学习行为中的哪些信息可以用于确定学习者的学习风格。表2中详细列出了学习风格模型中各个维度的相关行为模式。

(1)活跃/沉思维度

活跃型学习者往往不深入思考就采取行动,喜欢积极表达自己的想法,在交流、协作等活动中来掌握信息,倾向于在集体的氛围中进行学习。沉思型学习者喜欢安静地思考问题,力求在头脑中完成对问题的全面、精细的分析之后再进行表达,倾向于独立进行学习。这一维度,主要通过学习者的论坛参与情况以及练习和实例的浏览次数对其进行修正。

(2)感悟/直觉维度

感悟型学习者喜欢学习事实性的知识,关注知识的细节,认真仔细并具有耐心,对知识往往偏重记忆,倾向于做一些现成的工作。直觉型学习者比较擅长抽象思维,能够更快地掌握新概念并积极应对复杂情况和突发情况,倾向于发现某种可能性和事物之间的关系。[4] 这一维度,主要通过学习者对不同抽象程度材料的浏览情况以及浏览实例的时间对其风格倾向进行修正。

(3)视觉/言语维度

视觉型学习者对于图像刺激比较敏感,喜欢从图片、图表、影片等内容中获取知识。言语型学习者对于文字信息和口头的阐释拥有更强的理解力。这一维度,主要通过记录学习者对不同媒体类型的浏览情况来修正其所属风格类型。

(4)序列/综合维度

序列型学习者喜欢按照线性的方式按部就班地进行学习,学习步调往往比较程序化,由局部到整体逐步掌握知识。综合型学习者喜欢先把握全局,在头脑中形成知识的整体框架,再通过顿悟等方式完成对知识的深入理解。这一维度,主要通过学习者对知识树、概述、总结等知识体系相关内容的浏览情况为其风格修正提供依据。

三、自适应教学策略的生成

每种学习风格都既有优势,又有劣势。教育的根本目的是要充分发挥其优势,又要尽力弥补由于学习方式、学习倾向所表现出的不足。自适应学习系统的短期目标是提高本知识点的学习效率,长期目标是使学习者均衡发展,能够适应所有类型的资源。本研究尝试找出一种针对学习风格差异的学习服务模式。

1.自适应内容的呈现

在语义网环境下,利用本体建模,可以通过语义元数据方便地添加关于资源本身的属性。结合学习风格涉及的多种影响因素,为学习资源定义了知识类型、媒体类型、抽象程度等元数据信息,表3中列出了部分与学习风格相关的语义元数据。系统针对学习者的学习风格提供了相应的知识呈现方式,同时,为了使学习者不局限于我们直接呈现出的内容,我们为学习者提供了一个可接触到平台其它优质资源的接口,使学习者能够有效利用本知识点相关的更多资源。

2.自适应导航的呈现

对于不同风格的学习者,合理的学习路径对于其认知过程有着重要影响。例如,综合型学习者适合首先掌握知识的整体架构再逐步细化,序列型学习者则与之相反。自适应学习系统主要通过自适应导航来为各种类型的学习者提供个性化的学习路径。

在语义网环境下,我们利用本体为每一个知识点设置了知识类型、前向知识、后向知识、难度级别、父子层级、相关知识等属性,使学习内容形成统一、规范、清晰的语义组织结构,从而实现了知识点之间的有效推理,为自适应导航的实现提供了可能。

自适应学习系统中的导航可以分为全局性导航和局部导航。全局性导航主要由领域知识树形结构来呈现。树形结构可以显示出课程的完整知识体系,并通过学习状态标记显示出当前学习者对知识的掌握状态。通过全局性导航,各类型的学习者都可以明确自己当前所学内容在知识体系中所处位置以及自己对课程知识的掌握情况,从而避免了信息迷航和对学习情况模糊不清的状况。

局部导航是系统进行自适应导航的关键。不同风格类型的学习者正是通过局部导航来获取个性化的学习路径。系统为学习者提供学习路径导航图,建议的学习步骤从上到下依次排列,学习者既可以按建议步骤进行学习,也可以自行安排。同时,局部导航还为学习者提供了知识概念图,使学习者可以方便地进入当前知识点的相关知识、先前知识、后向知识等,帮助学习者生成合理的图式。

3.资源的自适应排序

通过自适应的知识内容和学习路径呈现,我们为学习者提供了个性化的学习方案。而针对某一种风格的学习者,在确定为其呈现资源的方式之后,还需要保证学习者能够优先学习到最优质的资源。为此,有必要对学习资源进行有效的评价与排序。在语义网环境下的自适应学习系统中,我们通过Web2.0理念下的智能挖掘技术来实现资源的自适应排序,其中最为典型的应用是掘客。我们将掘客移植到自适应学习系统中,从而使传统的自上而下的由少数专家作为主导的资源呈现体系转变为自下而上的由切身参与学习的广大学习者的影响作为主要控制因素的自适应资源体系。

在我们的自适应学习系统中,掘客作为系统的一种功能和服务,主要通过学习者对学习资源的评价作为实现的依据。系统为学科专家和学习者的评价设置相应的权值,在系统使用初期,由于缺乏足够的用户,学科专家对资源的评价占主导地位,这在一定程度上解决了“冷开始”的问题,使最初的学习者也可以优先浏览到高质量的资源。随着学习者的增多,系统动态调整权值分配,学习者的评价将逐渐替代专家意见,成为影响资源评价和排序的主要因素,对资源的评价也将趋于客观和稳定。

四、总结

语义网是下一代的智能网络,语义网环境下的自适应学习也将成为智能化学习的重要发展趋势。针对不同学习风格的学习者建立自适应教学策略模型,为自适应学习系统功能的实现和教学应用提供了依据。本研究是自适应学习系统中的用户模型和领域模型沟通的桥梁,三者共同构成自适应学习系统的三大核心组件。

参考文献:

[1]黄伯平,赵蔚,余延冬.自适应学习系统参考模型对比分析研究[J].中国电化教育,2009(8):97-101.

[2]Graf S. Adaptivity in Learning Management Systems Focussing on Learning Styles[D]. University of Vienna,2007.

[3]Elvira Popescu. Dynamic adaptive hypermedia systems for e-learning [D]. University of Craiova, 2008.

[4]邱百爽,赵蔚,刘秀琴.基于语义网的自适应学习系统中用户模型的研究[J].开放教育研究, 2008(4):106-111.

[5]陈品德,李克东.适应性教育超媒体系统——模型、方法与技术[J].现代教育技术,2002(1):11-17.

[6]Brusilovsky, P. Methods and techniques of adaptive hypermedia, User Modeling and User Adapted Interaction[J] .1996, 6(2-3): 87-129.

[7]Berlanga, A.J., García-Pe?alvo, F.J. Learning Design in Adaptive Educational Hypermedia Systems, Journal of Universal Computer Science. 2008, 14 (22):3627-3647.

基于语义的协同模型研究 篇3

在动态、开放的分布式环境下,当一个系统需要完成某项任务时,一方面,系统中的模块之间不可避免的存在一些相互依赖关系,彼此之间的交互非常频繁;另一方面,各模块间还存在一定的自治性。因此,协同在一个多模块系统中具有至关重要的作用。以Linda为代表的元组空间其具有时间解耦和空间解耦,在解决动态开放的分布式系统中协同问题时被广泛采用。自从Linda协同语言[1,2]提出以来,已有许多人在此基础上进行了大量的改进[3],使得Linda在更广的范围内得到应用。但是影响这些协同模型在开放的分布式系统中广泛应用的一个主要原因是这些协同模型中元组的表示和检索方法缺乏语义信息,各协同Agent之间不能很好地理解其相互传递的信息,使得Agent不能精确的获取自己所需要的信息。本文提出一种基于语义协同模型AccSTuple。该协同模型以基本Linda协同模型为基础,加入语义Web技术中的OWL DL[5],为开放的分布式环境提供了一个基础设施,负责分布式数据的管理、多个Agent之间的协同。

2 基于语义和访问策略的协同模型AccSTuple

图1给出了AccSTuple的体系结构。其核心组件是Linda协同模型以及作为共享数据空间的元组空间。AccSTuple兼容对简单数据元组、XML元组、RDF(S)元组在数据视图的操作以及在信息视图对RDF(S)元组的操作,并且扩充了对新的元组类型———OWL元组在数据视图和信息视图的操作。其中,信息元组空间作为元组的共享数据空间;访问策略元组空间则用于存放访问策略元组。

此外,在AccSTuple中还有两个重要的组件———本体库和信息冲突调节规则库。本体库中存放的是领域本体和AccSTuple的本体。对于本体的管理则由相应的本体管理模块所负责,可以通过本体管理模块对本体库中所存储的本体进行查询、修改、删除以及添加等操作。因为OWL DL和RDF(S)语义之间不兼容可能产生冲突,以及不同信息提供者所供应的具有语义的元组,在信息视图的操作所产生的语义冲突,AccSTuple提供了信息冲突调节规则库,用以存储解决冲突的规则。相应的可以通过信息冲突管理模块对信息冲突调节规则库进行管理,如查询、删除、添加等操作。

3 AccSTuple的扩展

AccSTuple是将语义Web技术中的OWL DL和Linda协同模型相结合,为开放的分布式系统信息的发布与检索提供了一个中间件,作为多个Agent交流的平台。具体来说,它是在Linda基础上经过以下三个方面的扩展:元组类型、协同原语和匹配机制。

3.1 元组类型

3.1.1 空节点

在RDF(S)中空节点又称为匿名资源。空节点标识符可用于标记一个RDF图所对对应的一个或多个声明中多次出现的相同的匿名资源。在OWL DL中没有显式的使用空节点的概念。由于OWL DL允许定义匿名本体、匿名类、匿名个体以及特殊的枚举数据类型。当OWL DL文档使用抽象语法描述,转换成具体的交换语法RDF/XML的时候,需要使用转换规则将其转换成三元组的形式。若抽象语法中存在匿名本体、匿名类、匿名个体或枚举数据类型,就要借助空节点,才能顺利的将其转换成三元组。

在RDF(S)中空节点可表示任何无法全局引用的匿名资源,而OWL DL中,空节点只能用于匿名本体、匿名类、匿名个体以及特殊的数据类型。因此对于空节点这种特殊的元组域类型在AccSTuple本体中分别用asts:RDFsBlankNode和asts:OWLBlankNode表示。

3.1.2 集合

在RDF(S)中,集合是由一组资源所组成的封闭集合,一个集合的所有成员都在这组资源中,集合在RDF图中使用列表(List)的结构表示,可以使用内置的RDF词汇表示列表结构。在OWL DL中集合通常作为其它定义的一部分,只能隐式的出现,没有全局URI引用,通过空节点标识符作为其局部引用

在OWL DL中使用属性:owl:distinctMembers、owl:intersectionOf、owl:unionOf以及owl:oneOf时,要使用集合作为其值。当使用关系owl:oneOf定义枚举类时,关系的值是一组由个体组成的封闭集合。同样,使用owl:oneOf定义OWL中特殊的数据类型———枚举数据类型时,关系的值是一组由字面常量(literal)组成的封闭集合。在OWL中提供了一种特殊的内置类owl:AllDifferent,该类中的所有个体都是互不相同的,而这些个体组成了一个封闭的集合,必须通过内置的属性owl:distinctMembers定义该类的实例,将这个实例与一组互不相同的个体的集合关联起来。

在OWL DL中增加了更多的词汇用于描述领域中的类、属性、个体、以及它们之间的关系,因此使用OWL DL可以定义更加复杂的类,具有值约束和(或)基数约束的属性以及更加丰富的数据类型等,相应的增加了许多新的OWL元组域类型。

3.2 协同原语

AccSTuple不仅可以对具有语义信息的OWL元组进行操作,还可以对已有的普通数据元组、XML元组以及RDF(S)元组进行操作,所以Linda中定义的out、rd、in以及semantic tuplespace[6,7]中定义的outr、rdr、inr原语在AccSTuple中依然适用。在AccSTuple中,引入了具有更强语义的OWL元组以及与之相对应的新的协同原语和匹配方法。由于OWL元组也可以使用三元组的形式表示。对于具有语义信息的元组(无论是RDF(S)元组还是OWL元组),可以分别在两个视图———数据视图和信息视图(图2)上进行操作。在数据视图中,不考虑元组的语义信息,即将所有元组都看成是没有语义的无格式的字面常量或者是有RDF特殊结构(空节点、集合、容器以及具体化)的字面常量,这时所有元组都和传统Linda中的元组一样,不具有语义信息;而在信息视图中,具有语义信息的RDF元组和OWL元组将被看成是RDF图或本体,其语义是由相应的RDF图或本体唯一决定。因此,对原语作如下扩展:

3.2.1 ia

将OWL元组添加进信息视图,即在信息视图断言OWL元组所包含的信息是正确的,在AccSTuple中定义了原语ia:

ia:(s,p,o,id)→boolean

ia:(OWLSubSpace)→boolean.

从信息视图添加OWL元组要检测元组与本体的一致性,不符合本体要求的元组将被拒绝添加到语义元组空间中。无论是用OWL DL抽象语法还是RDF/XML交换语法,将一个定义转换成三元组的形式时可能只包含单个三元组,也可能对应一组相关联的三元组。若只包含一个元组时,需要对该类进行实例化。每一个类在实例化后都携带一个真值,当它们都实例化后,将这些真值与操作后的结果返还给信息提供者,如果为true,则表示断言OWL元组所包含的信息是正确的,否则拒绝将OWL元组添加进入信息视图并返还一个false。很显然这些真值只在信息视图中有效,它们作为OWL元组在信息视图下的一个属性,用于和数据视图中的OWL元组相区别。若对应一组相关联的三元组,以asts:OWLSubspace的形式将这组具有语义关联的OWL元组整体添加进AccSTuple中,并要求这组三元组中的每个元组都是满足要求的的,否则OWLSubspace中的所有内容将全部被拒绝添加。

3.2.2 sir和mir

从信息视图中读出一个基于领域本体的与指定的模板语义相匹配的OWL元组,定义了以下原语:

sir:(s,p,o,id)→OWLSubSpace

通过sir操作可以从信息视图中读出一个基于领域本体的与指定模板语义相匹配的OWL元组。使用者通过指定的模板执行sir操作时可能得到的是一组相关联的三元组,而这组三元组使用同一个标识符作为主节点(对应RDF图中的主节点)。因此sir操作的返回结果以asts:OWLSubspace的形式出现,它可能只包含一个的元组也可能包含一组相关联的元组。使用sir从AccSTuple中读出元组后,该元组在信息视图上依然存在。

为了解决Linda中的多读问题,在AccSTuple中定义了以下原语:

mir:(s,p,o)→LocalOWLSpace.

由于非破坏性读操作执行完后,元组依然在元组空间中,因而从信息视图中非破坏性地读取一个或多个元组时,对数据视图不产生影响;同样,从数据视图非破坏性地读取元组对信息视图也不产生影响。

3.2.3 dig

从信息视图中基于本体库中的相关领域本体,破坏性的读取语义匹配的OWL元组可以使用以下原语:

dig:(s,p,o,id)→OWLSubSpace.

从信息视图中添加的所有元组都声称其所包含的信息是正确的,dig只是将它们从信息视图中删除,但是在数据视图中相对应的OWL元组仍然是存在的。和ia操作一样,dig也是以asts:OWLSubspace的形式将结果返还给信息消费者。

3.3 匹配机制

3.3.1 基于OWL DL语法的匹配

基于OWL DL语法的匹配相对于传统的基于类型-值匹配主要区别在于前者考虑到了OWL DL的具体语法———三元组及其相关特性。OWL元组在信息元组空间中以的形式存储,第一个域X的类型是asts:SensorAgent(信息提供者),用以标识元组的源头;域s,p以及o的值对应于具体的信息内容,在OWL DL中域s值的类型只能是类或个体,域p值的类型只能是属性,域o值的类型可以是类、个体或是数据值。最后一个域id作为元组在信息元组空间中的唯一标识符,域值的类型是asts:OWLTuple。域id的值是在OWL元组成功添加时新建的类OWL元组的实例ID号。符合OWL DL语法的元组中每一个域在值和类型所对应的URI引用字符串都相同的情况下才匹配。

当OWL DL使用语法三元组进行描述时,会出现RDF中的特殊概念———空节点和集合,由于它们在OWL和RDF(S)中的语义不完全相同,所以在匹配OWL元组时对于空节点和集合必须进行特殊处理。对于空节点,在AccSTuple中定义了类asts:OWLBlankNode,该类的实例ID号是局部标识符,只在空节点所在的RDF图中有效。因此在OWL DL中,通常将空节点作为匿名本体、匿名类、匿名个体以及特殊的枚举数据类型的标识符。对于具体的匹配OWL元组中的空节点,可以在模板中使用类型是asts:OWL-BlankNode的变量或者通配符。AccSTuple本体中定义了类asts:OWLList用于表示在OWL DL中出现的集合概念。对于OWL元组和模板中集合常量之间的匹配,需将集合处理成数组数据类型,只有两个集合中按次序对应的每个元素具有相同的类型和值时,才认为它们是完全匹配的。当模板中出现的是集合变量时,只有OWL元组和模板相对应的域的类型都是asts:OWLList就认为是相匹配的。

3.3.2 基于OWL DL语义的匹配

OWL DL比XML,RDF以及RDF Schema具有更强的语义表达能力,它提供了更多的用于定义类、关系、个体、数据值及其关系的内置词汇。基于语义的匹配只能够在信息视图上进行操作,根据指定的模板基于领域本体以及AccSTuple本体经过推理引擎的执行产生语义匹配的信息。在基于语义的匹配中,OWL元组和模板的域s,p和o不再仅仅认为是对应某个数据类型的域,它们具有对应于本体定义中的语义。因此,在信息视图上对于OWL元组的匹配必须能够对元组内容所对应的语义进行解释。很显然语义表达能力越强,相应的计算资源的要求也越高,所以基于语义的匹配必须在推理能力和计算性能之间进行平衡。

对于在信息视图中基于语义的匹配关键的是领域本体和AccSTuple本体的定义。操作原语sir和mir兼容RDF(S)元组,所以基于本体推理的匹配可以最大限度的利用信息元组空间中具有语义信息的元组(信息视图下的RDF(S)元组和OWL元组),在描述逻辑强大推理能力的支持下,为客户提供更加贴近需求的信息。

4 性能分析

AccSTuple中协同原语的性能测试采用Sun JDK 5.0,使用的领域本体http://www.biopax.org/release/biopax-level2.owl来源于BioPAX Home。

在图4中显示了语义协同原语ia在一次执行过程中添加不同大小语义声明集合的性能。从图表中能够发现ia协同原语的执行时间随着发布数据集的大小成线性增长。图5显示了以非破坏性的方式检索出单个语义匹配元组的协同原语sir以及对应破坏性读操作dir的性能评估结果,从图中能够看到线条展示了平稳地上升趋势。在图6中显示了协同原语mir的评估结果。

摘要:大规模并行与分布式系统的出现开拓了软件技术的应用前景,要开发大规模并行与分布式系统的全部潜能,必须要处理系统中大量并发的活动体的协同过程。以Linda为代表的基于共享数据空间的协同模型和协同语言具有时间解耦、空间解耦和引用解耦的特点,为大规模并行与分布式系统的设计与发展提供了一种新方法。该文以多Agent系统为应用背景,研究有关Agent协同模型的问题,解决了现在大多数协同模型中缺乏语义信息的问题。

关键词:协同技术,协同模型,Linda协同语言,语义Web技术,OWL,本体

参考文献

[1]Gelernter D,Carriero N.Coordination Language and their Signicifance[J].Communications of the ACM,1992,35(2):97-107.

[2]Gelernter D.Generative communication in Linda[M]//ACM Trans Program,Lang.Syst,7(1):80-112.ACM Press,1985.

[3]Tolksdorf R,Nixon L,Liebsch F,et al.Semantic Web Spaces(Technical Report TR-B-04-11)[R].Technical report,Free University of Berlin,2004.

[4]Rossi D,Cabri G,Denti E.Tuple-based technologies for coordination[M]//Omicini A,Zambonelli F,Klusch M,et al.Coordination of Internet Agents:Models,Technologies,and Applications.Springer Verlag,2001:83-109.

[5]Peter F,Schneider P,Hayes P.Ian Horrocks.OWL Web Ontology Language Semantics and Abstract Syntax[EB/OL].http://www.w3.org/TR/2004/REC-owl-semantics-20040210.

[6]Tolksdorf R,Nixon L,Bontas E P,et al.Enabling real world Semantic Web applications through a coordination middleware[C]//Proceed-ings of the2nd European Conference on Semantic Web ESWC2005.Springer Verlag,2005.

基于语义的VSM模型改进 篇4

关键词:文本聚类,VSM模型,特征向量,语义

0引言

随着现实世界中信息资源不断增加,特别是语义网、本体等理论的发展,使得基于语义的聚类搜索引擎有了更广阔的发展空间。聚类搜索引擎和传统的搜索引擎有着很大的区别,它更加智能化、人性化,可以指导用户进行二次搜素,使得搜索更加的便利、高效。而聚类搜索引擎的核心与难点就在于文本聚类。所谓文本聚类,就是将N篇文章聚集成K类,使得每类内的样本相似度较大,而每类间的样本相似度较小。国内外也围绕着文本聚类这一课题提出了很多理论和算法,大致可以分为基于数理统计的文本聚类(如VSM+K-means等方法)和基于语义的文本聚类(如ontology+WRBC等方法)这两大类。由于基于语义的文本聚类更加符合人的思维逻辑,效果比前者要好,所以成为文本聚类研究的主要方向和热点。

1基于语义的文本聚类方法改进

1.1现有的文本聚类思想

1.1.1 基于数理统计的文本聚类方法

目前基于数理统计的文本聚类方法一般是将M篇文章进行分词,特征提取,得出M篇文章的特征词,进而得到M×N的特征向量矩阵,其中NM篇文章特征词的种类数,然后将其映射到特征向量空间模型中进行聚类。聚类的差别主要体现在聚类算法的选择上,如基于划分的算法(k-means, FREM),基于密度的算法(ST-DBSCAN,DENCLUE,OPTICS),基于层次的算法(BIRCH,CURE)等。

如,有三篇文章A,B,C,需要聚类为两类。三篇文章经过分词,特征提取,得出特征向量矩阵F:

F=[a1a2anb1b2bnc1c2cn]

(1)

其中n为文章特征向量的维数,将其映射到VSM模型中去,那么可以得出A,B,C三篇文章的特征距离,一般用向量的夹角作为它们的语义距离:

dis(A,B)=arccos(A¯B¯|A¯||B¯|)=arccos(i=1naibii=1nai2i=1nbi2)(2)

如果dis(A,B)< dis(A,C)且dis(A,B)< dis(B,C),那么在理想的聚类情况下,文章A,B应该分为一类,而文章C单独为一类。

这种文本聚类方法虽然思想简单,易于实现,但其有两个主要问题:第一,M篇文章产生的特征向量矩阵大小为M×N,而N一般会很大,在这种情况下会对聚类的效率与效果产生负面影响;第二,利用数理统计方法得出的特征向量矩阵和之后基于这个矩阵求出的文章特征距离都是非语义的,会导致两篇文章在语义上是相似或相关,但它们的文章特征距离却很大,从而使聚类效果不理想。比如一篇文章只反复出现“电脑”这一关键词,而另一篇文章只反复出现“计算机”这一关键词,虽然它们在语义上是相似的,但基于数理统计的聚类方法却无法体现出这一点,依然认为这两篇文章的特征距离很大。

针对第一个问题,目前已经有理论对其进行改进,比较好的方法是利用语义对文本特征向量进行降维。

1.1.2 利用语义对文本特征向量进行降维

基于语义文本特征向量降维的主要思想是将特征向量矩阵中的特征集合先基于语义进行一次聚集。如有特征向量矩阵F:

F=(Fv11Fv12Fv1jFv1ΝFvi1Fvi2FvijFviΝFvΜ1FvΜ2FvΜjFvΜΝ)

(3)

其中Fvij为第i(0<iM)篇文章的特征向量中第j(0<jN)个分量的值,M为文本个数,N为特征向量的维数,特征向量的每个分量名用Fi表示。

因为特征的维数过高,所以将相似度达到阈值或者相似度符合某一公式的两个以上的特征合并,假设sim(F1,F2)>阈值,则将F1,F2列合并,F1,F2列所对应的权值相累加,则特征向量矩阵变为:

F=(Fv11+Fv12Fv1jFv1ΝFvi1+Fvi2FvijFviΝFvΜ1+FvΜ2FvΜjFvΜΝ)

(4)

聚类后新维与其它维的相似度可以用原始维与其它维的相似度进行简单转换。同样的,如果一个多维集合中每维间的相似度都达到阈值,则可以将这个多维集合进行合并。利用这种方法,可以将特征向量矩阵的维数大大降低,从而使其相对应的VSM模型维数大大降低,提高了之后聚类的效率和效果。

经过语义降维,基本可以解决基于数理统计的文本聚类方法的第一个问题,但并不能完全克服第二个问题,因为这种方法没有考虑到未达到阈值但又有一定相似度的那些维对聚类产生的影响。例如一篇文章只反复出现“电脑”这一关键词,而另一篇文章只反复出现“显示器”这一关键词,我们设定每维可以合并的相似度阈值为0.9,根据知网查询得知:sim(计算机,显示器)=0.444444 ,所以计算机和显示器这两维并不能合并,导致这两篇文章的特征距离依旧比较大,但事实上这两篇文章是有一定的相关性的。

1.2基于语义扭曲VSM模型下的聚类

在以上两个现有文本聚类思想的启发下,本文以其为基础进行了改进,即将VSM模型先基于语义进行扭曲,在扭曲后的空间下再利用传统聚类方法进行聚类,使语义的因素真正融入到文本聚类中,得到更好的聚类效果。

1.2.1 扭曲VSM模型下求向量夹角大小程度的方法

1) 假设有两向量A(a1,a2,…,an),B(b1,b2,…,bn),N维空间的语义相似度矩阵SV(N×N),横向用Xi来表示,纵向用Yi来表示,i从1开始,到N结束。即SV[X2,Y3]表示第2维与第3维的相似度,这两维组成的平面记作X2OY3。

2) 将向量A,B投影到各个平面上。比如将两向量投影到XiOYj平面上(i,jnij,n为向量的维数),得到两点Aij(ai,aj),Bij(bi,bj),这个平面上两维的相似度为SV[Xi][Yj]。

3) 分别扭曲各个平面,求各个扭曲平面下的点的距离。假设在XiOYj平面上做扭曲,横纵坐标在第一象限的夹角将变为arccos(SV[Xi][Yj]),两向量Aij(ai,aj),Bij(bi,bj)的夹角值会发生相应的变化。具体变换方法如下:

(1) 求出扭曲前向量Aij(ai,aj)和Bij(bi,bj)的夹角值angleij:

angleij=arccos(Aij¯Bij¯|Aij¯||Bij¯1)=arccos(aibi+ajbjai2+aj2bi2+bj2)(5)

(2) 求出二维坐标系XiOYj的扭曲程度degreeij:

degreeij=arccos(SV[Xi][Yj])Π2 (6)

(3) 求出扭曲后向量Aij(ai,aj)和Bij(bi,bj)的夹角值angleij′:

angleij′=angleij×degreeij (7)

4) 累加两向量Aij(ai,aj)和Bij(bi,bj)在各个扭曲平面下的平面夹角值angle:

angle=i=1n-1j<inangleij´ (8)

这样就可表示两向量在扭曲空间下的夹角大小程度了。

上方法求得的文本语义距离矩阵更加符合语义逻辑,可以代替传统聚类算法中的语义距离公式。

1.2.2 两个结论

结论1 按照上方法求出的扭曲空间前的向量夹角大小程度与用常用方法求出的向量夹角大小单调性一致。

过原点的两个向量的夹角α投影到任意两维平面XiOYj(i,jnij,n为向量的维数)上得出夹角βij,显然αβij的单调性是非严格同增减的,即α越大,βij则越大或不变。那么α和投影到所有二维平面上的夹角累加i=0n-1j=i+1nβij的单调性也是非严格同增减的,即按照上方法求出的扭曲空间前的向量夹角大小程度与用常用方法求出的向量夹角大小单调性一致。

结论1说明将上方法应用到普通文本聚类算法中与应用传统语义距离公式的普通文本聚类算法得出的聚类效果是一样的。

结论2 语义越相关的两个向量,扭曲后的夹角变小程度越大。

假设有A,B,C三篇文章,经过特征提取后将它们映射到VSM空间,得到特征向量A,B,C,考虑向量AB的夹角AOB,向量AC的夹角AOC,将两个夹角投影到某一二维坐标平面M上,如果会有三种情况,分别是:

情况一:夹角AOB与夹角AOC在二维坐标平面M上都有投影。在这种情况下,如果平面M对应的两维有相似度的话,则将对平面M进行扭曲,夹角AOB与夹角AOC在平面M上的值都会相应地变小,它们值之间的差距也会变小,即向量AB,AC的语义距离在平面M上的区分度由于基于语义对平面M进行的扭曲而削弱了,利用扭曲后平面M的两维来区分向量AB,AC之间语义关系的意义也变小了。相对的,就等于提高了向量AB,AC的语义距离在其它二维坐标平面的区分度,总体上使得语义越相关的两个向量的夹角变小的程度越大。

情况二:夹角AOB与夹角AOC中,有且仅有一个在二维坐标平面M上有投影。假设只有夹角AOB在平面M上有投影。如果平面M对应的两维有相似度的话,则将对平面M进行扭曲,夹角AOB投影在平面M上的值会变小,说明文章A与文章B在语义上是相关的,从而使向量A与向量B的夹角相对于向量A与向量C的夹角变得更小,总体上使得语义越相关的两个向量的夹角变小程度越大。

情况三:夹角AOB与夹角AOC在二维坐标平面M上都没有投影。在这种情况下,平面M对于向量AB,AC来说是没有区分度的,即在平面M上,无论是否需要扭曲,都不会对夹角AOB与夹角AOC产生影响。

从结论2可以说明,在基于扭曲的坐标下进行文本聚类,会与非语义聚类产生的结果有一定差异,将会更加符合语义逻辑。

1.2.3 实例

假设有文本A,B,C,需要将它们聚为两类,经过特征词提取后,统计关键词词频,得出表1。

从表1可以推断出,文本A和文本B是描述计算机部件维修相关的文章,而文本C是描述计算机组成相关的文章。

将关键词词频矩阵进行TF/IDF转换,得出表2。

在未对VSM模型进行转换前,按照本文的方法进行文本语义距离的计算,得出三篇文本间的距离,见表3。

从表3可以得出,若在理想的聚类情况下,文本A和文本C应聚为一类,而文本B单独为一类。这个结果是符合数理统计的,但并不符合语义逻辑。

根据知网查询得知,Sim(计算机,显示器)=0.444444 ,Sim(维修,显示器)=0.074074 ,Sim(计算机,维修)= 0.074074 ,对VSM模型基于语义进行转换,按照本文的方法进行文本语义距离的计算,得出三篇文本间的距离,见表4。

从表4可以看到文本A与文本B的距离相对于文本A与文本C减小的程度更大,原因是文本A与文本B中关键词的差别在于“计算机”和“显示器”的词频不同,但由于“计算机”和“显示器”这两个关键词是有比较大的相似度的,所以文本A与文本B在语义上更加地相似。文本A与文本C之间也是有一定的语义相似度的,但是由于不如文本A与文本C相似的程度大,所以语义距离也不如文本A与文本B变小的程度大。

从表4可以得出,在理想的聚类情况下,文本A和文本B应聚为一类,而文本C单独为一类。这个结果更符合语义逻辑。

1.2.4 传统方法与本文改进后方法复杂度的比较

首先比较时间复杂度。基于语义降维的VSM模型聚类方法由于要利用特征词相似度矩阵来对特征词做一次聚类,比基于数理统计的聚类方法要多一个步骤;但在聚类时,由于基于语义降维的VSM模型聚类方法的特征向量矩阵维数降低了,所以在这一步骤上时间复杂度比基于数理统计的聚类方法要低。总体上,当要处理的特征向量矩阵维数越大,而特征向量又基于语义内聚程度越高,基于语义降维的VSM模型聚类方法在时间复杂度上就越优(或接近)于基于数理统计的聚类方法;而改进后的方法只是在计算文本特征向量距离公式上做了改进,总体上来说与基于语义降维的VSM模型聚类方法在时间复杂度上是一致的。

考虑空间复杂度,基于语义降维的VSM模型聚类方法与本文的方法都需要利用特征词相似度矩阵,所以这两种方法在空间复杂度上略高于基于数理统计的聚类方法。

2实验

本文的实验语料库源于新浪、搜狐等各大主流网站,利用网络抓取软件基于经济、政治、科技、体育、军事这五类在各个网站上进行网页抓取,各取100篇,存为文本,然后利用中科院的分词系统(ICTCLAS)对文本进行分词,以及文本预处理(包括停用词、非语义词的过滤等),得到的特征向量矩阵进行基于语义的降维。最后应用本文的方法进行文本聚类,采用的聚类算法为K-means算法,关键词相似度计算利用的是知网(Hownet)的词汇语义相似度计算软件(WordSimilarity)。

聚类效果优劣的程度一般可以用召回率、查准率以及F-Score的值来说明。其中,召回率是指某聚类集合中文档数与此类相关的文档数的百分比,体现的是聚类效果的完备性;召回率是指某聚类集合中与此类相关的文档数与此聚类集合中所有文档数的百分比,体现的是聚类效果的正确性;而F-Score则是召回率与查准率的一个综合值,从总体上体现聚类效果的优劣。实验将语料库分组对传统文本聚类方法(VSM+K-means)和基于语义变换VSM模型后的文本聚类方法(VSM'+K-means)的效果进行对比分析。

首先将政治类、体育类、科技类的文本语料混合,进行聚类比较,结果如图1所示。

从图1可以看出,由于政治类、体育类、科技类的类别差距比较大,而且每类中特征词的语义相似度的内聚度高,所以在基于语义扭曲后的VSM空间上用K-means算法得到的效果比较理想,无论是召回率还是查准率都比传统的非语义聚类方法要好。

如果将政治类、军事类、经济类的文本语料混合,进行聚类比较,结果如图2所示。

从图2可以看出,由于政治类和军事类的类别差距比较小,而且每类间的某些特征词具有一定的语义相似度,所以在基于语义扭曲后的VSM空间上用K-means算法得到的效果不是很明显,但是在召回率与查准率等还是略优于传统的非语义聚类方法。从语义上分析,因为某些文章在类别上很模糊,可以算作政治类,也可以算作军事类,所以才造成改进后的聚类效果不如前一组明显。

如果随机的从实验语料库中不放回的抽取200篇文章,对其进行聚类比较,综合几次抽取实验的数据,结果如图3所示。

从图3可以得出,总体来看,特征词之间的相似度对聚类产生了积极的指导作用,加大了聚类后每类的内聚程度,即使是类别模糊的文章,改进的方法也会使聚类效果更加符合语义逻辑,所以改进后的聚类效果明显优于传统的非语义聚类方法。

3结论及工作方向

本文提出了基于语义变换VSM模型,从而改进文本聚类效果的一种方法。根据语义对VSM模型中的每两维进行扭曲,使得语义上越相似的特征向量,它们的语义距离减少得越快,从而使得它们能够基于语义进行合理的聚类,达到的效果优于传统非语义聚类方法所产生的聚类结果。另外,本文通过分析,实例及分组实验数据对比,从各个方面验证了这种改进方法的合理性和正确性。

本文已验证了基于语义变换VSM模型,可以应用于文本聚类。那么进一步将这种方法应用于文本分类,主题分类等基于VSM模型的其它数据挖掘领域,是否会有良好的效果,将是我们下一步研究的重点。

参考文献

[1]孙吉贵.聚类算法研究[J].软件学报,2008,19(1):48-61.

[2]景丽萍.基于K-Means特征加权算法的大规模文本数据子空间聚类[J].计算机研究与发展,2005(42):85-90.

[3]Xiquan Y.Research on ontology-based text clustering[C]//2008 ThirdInternational Workshop on Semantic Media Adaptation and Personaliza-tion,2008.

[4]Qinglin G.The similarity computing of documents based on VSM[C]//Annual IEEE International Computer Software and Applications Confer-ence,2008.

[5]Dhillion I S,Mallela S,Modha D S.Information theoretic co-clustering[C]//GETOOR L,SENATOR TE,DOMINGOS P,et al.Proc.of the9th ACM SIGKDD Int’l Conf:On Knowledge Discovery and Data Min-ing.Washington:ACM,2003.

语义模型 篇5

机械产品的公差设计质量是影响其功能、质量及成本的决定性因素[1]。随着计算机辅助公差设计 (CAT) 的出现和发展, 利用计算机建模进行公差分析、公差综合以及公差优化的研究和应用工作已在国际范围内展开并取得了显著的成效。在这些研究与应用中, 各种公差建模思想和表示形式在不同的应用目标下各有所长[2,3,4,5,6,7]。在现代企业中, CAD/CAE/CAPP/CAM已逐步趋于集成。为了与企业现有产品开发系统相适应, 国内针对三维造型体的公差建模研究也逐渐增多, 这类建模主要基于数学定义或小位移旋量[8,9,10]。产品的公差设计是面向功能的设计。目前, 面向功能的公差设计研究往往以可装配性为目标。在机床精度设计中, 机床输出精度是一项必须保障的最终功能目标。机床系统的最终输出精度在很大程度上取决于机床零部件的公差设计, 在零部件的公差语义中增加对系统精度的作用属性, 就可以通过数字化方法分析相关公差项目对系统精度的约束效应, 为机床公差设计提供直接依据。基于这一目标, 本文以机床总装中最常见的安装接触表面———平面要素为例, 分析并完善其在装配系统中的公差语义, 并建立对应的数学模型。

1 对TTRS的公差语义需求

1.1 需求分析

零件由各种类型的表面围成, 这些表面的不同功用决定了它们加工要求的不同。Bourbet于1987年提出了“与工艺和拓扑相关表面” (topologically and technologically related surface, TTRS) 的概念, 之后逐步发展成为目前较为成熟且应用广泛的一种公差表示方法。TTRS的定义如下:一个TTRS是同一实体上因功能原因而彼此联系的表面。因此, 应用TTRS理论可较好地表示零件层面的公差信息, 也为在装配层面中确定与该零件相关的公差拓扑关系提供了条件。在对系统精度的定量分析及公差设计中, 还存在对基于TTRS的公差语义及其数学模型新的需求。下面举例说明。

图1为某机床结构示意图, 为叙述简明, 图中略去部分部件如工作台、导轨等。下标1、2、3、4分别表示床身、立柱、主轴箱及主轴, 相邻部件的接触此处视为广义配合。在整机层公差设计中, 将每一个部件视为一个误差单元, 即公差控制对象。其公差数字化分析及设计的简要方案如图2所示。

(1) 建立机床在整机层面上的数字化误差模型。机床误差建模基于多体系统运动学理论和齐次坐标变换原理[11], 在装配层面上, 模型能准确反映机床各个部件之间的几何位置、姿势、运动关系以及误差传递规律。该模型是计算机辅助系统精度分析及公差设计的核心, 将用于机床误差单元的敏感性分析、公差控制效果的数字化检验以及单项公差对系统输出精度的作用规律分析。

(2) 机床误差单元的敏感性分析。应用前述模型, 通过对误差单元的六自由度误差进行单位误差设定, 可以预测分析各个误差单元对机床输出误差的影响权重, 尤其是在加工误差敏感方向上的影响权重, 从而为机床整机的公差分配及装配调整提供重要依据。详细的建模、分析方法以及对具体样机的分析示例可参阅文献[12]。

(3) 公差制定。在该层面上, 只对各个部件中的部分TTRS进行公差限定, 即针对影响机床整机输出精度的装配结合面。限于目前计算机智能及推理能力的发展水平, 公差类型主要采用人工制定, 如床身-立柱安装面与工作台-导轨安装面之间的平行度、主轴轴线与主轴箱主轴输出端面的垂直度等。确定这些公差大小的依据来源于以下三个方面:①误差敏感性分析结果, 越敏感的误差制定越严格的公差;②企业现有工艺和加工设备的精度保障能力;③企业的公差设计经验沉淀。

(4) 公差控制效果检验及公差调整。在完成公差的初步制定后, 其控制效果是否满足设计要求是未知的, 必须对各项相关公差的积累控制效果进行数字化预测检验。如果预测检验的结果不合格或者不理想, 就需要结合敏感性分析的结果选择公差调整对象并进行针对性的调整, 而确定调整量大小, 则需要先分析该项公差对系统输出精度的量化作用规律。这是一项人机交互式的循环工作, 直到设计结果满意为止。要完成这两项工作, 都需要相关TTRS的公差具有面向系统的语义及与之对应的数学模型。

1.2 TTRS的公差语义范畴

上述需求分析表明, TTRS的公差语义应涵盖两个层面:

(1) 零件层。零件层公差语义表达零件的自身属性, 即描述公差的原始定义, 主要用于零件的加工工艺编制及检验等工作, 此处不再赘述。

(2) 装配层。装配层公差语义表达该零件作为系统的一个环节而具有的属性, 即在系统中对其广义配合件的作用输出, 因此也可称之为对外作用语义。例如, 设图1中床身与立柱的结合表面为P, 其公差为TP, 则该公差的零件层语义是该平面的最大允许变动范围和方向。在功能层面或者说装配层面上, 该公差所控制的误差对最终执行主轴的作用效果, 是在系统精度分析及公差设计中必须掌握的关键要素。平面P在公差范围内的变动, 通过部件2、3传递到主轴4, 并最终导致主轴4偏离理论位置和姿势 (简称位姿) 而影响机床功能。公差TP的直接作用效应是使部件2在六自由度上偏离其理想位姿, 即沿X向、Y向和Z向的平移以及绕X轴、Y轴和Z轴的转动, 本文用ΔX、ΔY、ΔZ、Δα、Δβ和Δγ表示, 这一组输出变量可定义为公差TP的对外作用语义。

在TTRS理论中, 零件的TTRS被划分为7个基本类, 平面只是其中一类, 本文选取机床总装中最常见的安装接触表面———平面这一要素为对象, 建立和探讨其两层语义对应的数学模型。

2 平面公差的数学模型建立

2.1 建模原则

(1) “一般”到“特殊”的原则。空间直角坐标系中, 平面可分为坐标面平行面、坐标面垂直面和一般位置平面三种, 前两者为特殊位置平面。尽管特殊位置平面在零件中出现频率更高, 但由于一般位置平面更具代表性, 故建模从“一般”状态入手, “特殊”状态由“一般”状态退化而成。

(2) 实用性原则。目前, 零件的三维几何造型技术及应用已相当普及, 而几何形体在原始造型时就携带公差信息的技术尚未进入实用阶段。为便于工程应用, 公差建模基于已完成造型零件的便于捕捉的几何特征。

(3) 统一性原则。平面要素尽管具有两个层面的公差语义, 但其数学模型应涵盖两个层面。

(4) 针对性原则。两层公差语义有不同的适用场合, 模型表达形式应符合使用场合的需要。

2.2 平面的公差域及其数学表达

2.2.1 平面的公差域范畴及公差原则分析

对一个指定的平面, 在不同情况下有不同的公差约束形式, 如尺寸公差, 相对其他要素 (平面和直线) 的平行度、垂直度、倾斜度、对称度以及本身的平面度。公差域由4个要素决定, 平面的公差域具有相同的形状, 所以不同的平面公差约束形式 (项目) 体现为位置、大小和方向的不同。

公差原则分成两类:独立原则和相关原则。尽管相关原则包含包容要求、最大实体要求、最小实体要求和可逆要求, 但它们的公差域均是由尺寸公差和形位公差的包容或叠加而成的, 可统一视为一个不同构成的公差域。独立原则由于是尺寸公差和形位公差单独约束并检验的, 可划入公差模型的两次使用问题。

2.2.2 公差域的数学表达

公差域选择基于点坐标的数学表达方式。这样选的原因如下:一是三点法是最基本的一种平面表示方式;二是三维造型体中的点坐标最易捕捉。另外, 在公差检验, 尤其是CMM (coordinate-measuring machine) 测量中, 点坐标是最直接的检测量。

如图3所示, 一空间理想平面P, 其总的公差要求为TP (上下界分别为PT1和PT2) , 并符合如下设定:①平面具有规则形状, 文中以矩形为例。平面被指定后, 4个角点的坐标至少三点可捕捉 (已知) , 其坐标为Mi (xi, yi, zi) , i=1, 2, 3, 用于表达该平面公差域的四要素。②公差TP为平面法向n上的总公差要求, 包括尺寸公差、形位公差以及公差原则。其两个极限边界的形状与平面P相同且到平面P的法向距离均为TP/2 (其他情况可转换为该模式) 。

平面P的方向由法向矢量表示:

应用点法式得平面P的理想位置方程为

按照平面公差的原始定义:实际平面P′应包容在由理想平面P及其公差TP决定的极限平面PT1与PT2内。平面公差的检测一般基于“与理想要素相比较”的原则, 在该原则下, 该语义又可描述为实际平面P′上的所有点M′i (x′i, y′i, z′i) 在法向n上的偏离量绝对值不超过TP/2。即

由式 (1) 、式 (3) 推导出P平面公差的两个极限 (上下界) 平面方程:

式 (1) ~式 (5) 构成了一般位置平面公差域的完整数学描述, 同时也表达了该平面在零件层的公差语义, 不仅可作为软件量规直接应用于平面公差的一致性检验, 也为公差的对外输出特性求解提供了基础。

变动体法是一种利用底层CAD进行系统公差分析与设计的方法[7], 是实现CAD/CAT/CAM集成的一种基础解决方案。如果采用上述公差域描述形式, 将更有利于变动体的高效构建。所谓高效构建变动体, 是指零件表面中只有被公差约束的几何要素发生局部变动, 即构造局部变形体。例如, 图3零件中的平面P为公差约束表面, 该零件的变动是局部的且受公差TP约束, 其变动量直接体现为4个角点M1, M2, M3, M4的坐标变化, 变动范围的求解分为以下两种情况:

(1) 棱边与平面P垂直。直接使用式 (2) 、式 (3) ;

(2) 棱边与平面P倾斜。需要进行棱边与极限平面PT1与PT2的求交运算。

2.3 平面装配层公差语义的数学表达

平面在装配层的公差语义, 应准确描述平面公差对广义配合体的作用效应。直观地讲, 图3中部件1的实际表面P在其上下界PT1与PT2内变动, 必然导致其广义配合体2偏离理想位姿, 这一位姿变化可用其局部坐标系的6个自由度变化输出描述。

2.3.1 参量求解

在6个输出参量中, 三个线位移输出的最大值ΔX、ΔY和ΔZ已由式 (3) 得到, 这里还需要补充三个转动自由度输出Δα、Δβ和Δγ的数学表达式。

如图3所示, 在平面P的中心建立局部坐标系OiXiYiZi, Xi和Yi轴分别平行于矩形的两条边, Zi轴平行于平面法向量n。设矩形边长分别为2a和2b (也可由角点坐标差表示) , 在该局部坐标系内, 平面法线n在公差TP范围内的最大转动偏移量为

式中, dθx、dθy和dθz分别为平面法矢量n与Xi、Yi和Zi轴的相对转动量。

从式 (6) 可以看出, 该组参量的值取决于平面的大小及其公差, 而在零件原始坐标系OXYZ中的输出值Δα、Δβ和Δγ则与平面的位姿有关, 其关系如下:

其中, Tr为局部坐标系OiXiYiZi与零件原始坐标系OXYZ之间的旋量矩阵:

式中, aij分别为局部坐标系OiXiYiZi中三个坐标轴与零件原始坐标系OXYZ中三个坐标轴夹角的余弦。

Zi轴的矢量已在式 (1) 中求出, Xi轴和Yi轴矢量表达式如下:

根据式 (1) 、式 (9) 和式 (10) 可求出式 (8) 中的各参量:

将式 (6) 和式 (8) 代入式 (7) 可得:

2.3.2 数学表达形式

按照“针对性原则”, 公差数学模型的表达形式应符合使用场合的需要。在前述机床系统精度分析及公差设计方案中, 机床误差建模基于多体系统运动学和齐次坐标变换原理, 相邻体i和j之间的实际位姿变换矩阵为[11]

其中, Tij为相邻体之间的理想位姿变换矩阵, 而ΔTij是两者之间的误差变换矩阵。公差用于约束指定的误差, 所以在系统的三维公差分析与设计中, 公差应具有与误差ΔTij一致的表达形式:

其中, 三个线位移输出的极限范围已由式 (2) 给定;而三个转角的极限输出范围分别为。

式 (12) 针对性地表示了一般位置平面P在公差TP约束下对相邻体的输出特性, 以下略去模型从一般位置平面退化到特殊位置平面的推导过程及结果。

3 应用示例

面向系统的公差语义及其数学模型的建立, 为实施图2所示的系统数字化精度分析及公差设计方案提供了必要的支持。由于整机的公差设计效果预测 (积累效应分析) 包括一系列的公差项目, 涉及过多的设定与分析描述, 所以本文选取一个单项公差的作用规律分析作为应用示例。

图4为国内第一台基于零传动技术的高精度高效滚齿机三维装配示意图, 图中工件主轴部件2安装在床身9上。图5为两者接触面以及工件主轴部件的坐标示意图, 此处将床身上的该平面简称为P。工件主轴轴线应平行于轴向进给导轨 (部件8和部件9之间的导轨) 是机床设计的一项重要要求, 床身上的平面P与轴向进给导轨安装面之间的平行度要求, 是保障该项设计要求的主要因素之一。

1.工件2.工件主轴3.滚刀4.滚刀主轴5.滚刀架6.转盘7.立柱8.进给拖板9.床身

分析目标:预测分析平面P在平行度公差TP约束下工件芯棒轴线的变动范围及规律, 用图5中X1和Y1两个方向的跳动值表征。

在工件芯棒轴线上设定分析点Q (0, 0, L) , L的取值范围为工件安装范围。根据机床系统误差建模结果[11], Q点到床身坐标系的传递关系为

基于这一传递关系, 设此时工件主轴部件到工件芯棒之间无误差, 即ΔT21为单位矩阵, 再将ΔT92设为式 (13) 所示公差, 就可以预测平面P的平行度公差TP在指定目标下的约束效果及调整量。

(1) TP的约束效果预测。设图5中X1和Y1两个方向跳动值的设计要求为300∶0.015mm。如果公差TP的初始设计值为0.02mm, P平面误差可以引起的最大跳动值如下:X1方向———0.001mm;Y1方向———0.0208mm。预测结果表明:如果TP=0.02mm, 即使不考虑主轴芯棒自身误差及轴向进给导轨误差的情况下, Y1方向的最大跳动值已超标, 所以, TP需要调整。另外, X1方向的跳动值对TP十分不敏感, 这对后续分析及今后的设计和加工十分有利。

(2) TP与作用结果之间的关系。图6是TP大小与Y1方向最大跳动值之间的映射关系;如果P平面误差在TP范围内服从正态分布, 则造成的Y1方向最大跳动值的统计分布如图7所示。依据图6、图7, 可反求满足要求的TP值。由于影响X1和Y1两个方向跳动值的因素包括TP、轴向进给导轨误差以及主轴芯棒自身误差等, 所以TP的调整应建立在合理的精度分配基础之上。

4 结论

(1) 在机床整机层面的数字化精度分析及其公差设计中, 需要零件的相关TTRS具有面向系统的公差语义, 该语义可定义为该公差对其广义配合件在6个自由度上的作用输出。

(2) 基于造型特征点的平面公差域描述更有利于在零件和装配两个层面中的应用;公差的对外作用语义表示为齐次坐标变换矩阵的形式, 可以将公差数学模型与系统误差模型统一起来, 实现公差设计效果的数字化预测以及公差大小的针对性调整。

(3) 建立公差与控制目标之间的映射关系, 可以为公差大小的合理调整提供量化依据。

参考文献

[1]张根保.计算机辅助公差设计综述[J].中国机械工程, 1996, 7 (5) :47-50.Zhang Genbao.Summary on Computer Aided Toleraning[J].China Mechanical Engineering, 1996, 7 (5) :47-50.

[2]Cai W.A New Tolerance Modeling and Analysis Methodology Through a Two-step Linearization with Applications in Automotive Body Assembly[J].Journal of Manufacturing Systems, 2008, 27 (1) :26-35.

[3]Noorul H A, Karthikeyan K, Sivakumar K, et al.Partiele Swarm Optimization (PSO) Algorithm for Optimal Machining Allocation of Clutch Assembly[J].International Journal of Advanced Manufacturing Technology, 2005, 27 (9) :865-869.

[4]Vignat F, Villeneuve F.Simulation of the Manufacturing Proeess (Ⅱ) :Analysis of Its Consequences on a Functional Tolerance[C]//Proceedings of the 9th CIRP Computer Aided Tolerancing Semimear.Tempe, 2005:1-15.

[5]Peng H P, Jiang X Q, Liu X J.Concurrent Optimal Allocation of Sesign and Process Tolerances for Mechanical Assemblies with Interrelated Dimension Chains[J].International Journal of Production Research, 2008, 46 (24) :6963-6979.

[6]Jeang A, Chung C P, Hsieh K.Simultaneous Process Mean and Process Tolerance Determination with a Symmetrical Loss Function[J].International Journal of Advanced Manufacturing Technology, 2007, 31:694-704.

[7]陈善勇, 李圣怡.多特征的位形空间理论及其在定向公差建模与评定中的应用[J].机械工程学报, 2005, 41 (9) :7-11.Chen Shanyong, Li Shengyi.Configuration Space of Multiple Features with Application to Modeling and Evaluation of Orientation Tolerances[J].Chinese Journal of Mechanical Engineering, 2005, 41 (9) :7-11.

[8]刘玉生.基于数学定义的平面尺寸公差数学模型[J].机械工程学报, 2001, 37 (9) :12-17.Liu Yusheng.Mathemathical Model of Size Tolerance for Plane Based on Mathemathical Definition[J].Chinese Journal of Mechanical Engineering, 2001, 37 (9) :12-17.

[9]胡洁, 吴昭同, 杨将新.基于旋量参数的三维公差累积的运动学模型[J].中国机械工程, 2003, 14 (2) :127-131.Hu Jie, Wu Zhaotong, Yang Jiangxin.Kinematic Model of 3D Tolerance Accumulation Based on Screw Parameter[J].China Mechanical Engineering, 2003, 14 (2) :127-131.

[10]徐旭松, 杨将新, 曹衍龙.一种面向可装配性的公差分析方法[J].中国机械工程, 2008, 19 (24) :2976-2981.Xu Xusong, Yang Jiangxin, Cao Yanlong.A Tolerance Analysis Method for Feasibility of Assembly[J].China Mechanical Engineering, 2008, 19 (24) :2976-2981.

[11]李圣怡, 戴一凡.精密和超精密机床精度建模技术[M].长沙:国防科技大学出版社, 2007.

语义模型 篇6

互联网上Web文档的爆炸式增长不可避免的加强了有效获取文档信息的重要程度。Web中99%的可分析信息是以文本形式存在的,为实现基于内容的文本挖掘,把文档简化为以特征项的权重为分量的向量表示,即以特征项作为文档代表。一般情况下,字、词、词组或者更高层次的语言单位都可做为特征项,还可以是相应词语或者短语的语义概念作为特征项。选择能全面覆盖文档信息的特征项能大大提高文档的检索效果。但以前的研究大都集中在优化文本中出现的特征项,局限于作者有限的知识表述,把文档看成是孤立的、不相关的。但Web在发展过程中存在着大量的社区,这些社区帮助Internet/Intranet服务提供者有效地组织门户。社区还代表了Web的社会活动,因此Web就是一个社会性的网络。特别是Web2.0及其相关技术的出现为整个互联网带来了一个新的惊喜,其中最具代表的社会化标注(Social Annotation),特别是以flicker,del.icio.ous(见http://del.icio.ous)等为代表的全民参与的网站,用户用语义浓缩的标签标注自己感兴趣的文章。标签不同于关键词的地方在于其具有灵活性,每个用户可根据自身的喜好对标签进行自由的添加、修改或删除。社区中所有用户的标签极大的丰富了文档的语义信息,并且社区元数据(特别是标签)就成了链接内容相关的Web文档的语义桥梁。这样Web文档就不是孤立的,而是在社区环境下的文档,整个社区都隐藏着与文档相关的信息。但由于标签的自由性,使对同一文章的标注信息存在大量的噪音数据,如果直接把语义标注作为特征项(检索项)无疑降低文档的检索率。据此本文提出IRF模型,很好的组织了具有语义信息的特征词,即丰富了文档的语义代表,同时又增强了文档的检索效果。

1 文档代表模型(向量空间模型)

向量空间模型(VSM)是20世纪60年代末由Salton等人提出来的,它是代数模型的一种,也是目前信息检索领域中广泛采用且效果较好的一种模型。其基本思想是:假设词与词之间是不相关的,以向量来表示文本,从而简化了文本中关键词之间的复杂关系,使得模型具备了可计算性。在VSM中,将文档可表示为相互独立的词条组(T 1,T 2,T3,T n),对于每一个词条iT,根据其在文档中的重要程度赋予一定权值iW,并将(T 1,T 2,T3,T n)看成是一个n维坐标系的坐标轴,(W 1,W2,W3,,Wn)为对应的坐标值。这样由(T 1,T 2,T3,T n)分解得到的正交词条矢量组就构成了一个文档向量空间。

2 特征选择

特征选择就是选择适当粒度并且能表征文本主题的语片。语片的粒度越大,概念越确定,但语片的正确识别和有效计算语片间的相似度也越困难。粒度过小,语片所含信息量不足以覆盖文档信息。所以选取语片粒度要适当,既要保证语片的相对简单又要保证概念确定和完整。根据粒度大小,一般可分为字、短语或者句子。

字是最基本也是最简单的语言单位,并且为了更好的计算英文单个词间的相似度,利用Porter algoritm提取词干作为特征项。短语具有更丰富的语义,并且权威的TREC会议的评测结果表明,许多系统使用复合索引项(短语)可以显著提高检索性能。短语抽取技术包括:用统计方法抽取短语,利用语言学方法生成短语。上述两种文档代表方法都可采用VSM作为文档代表模型。字,短语可以表达概念,但不能表达知识,句子是表达知识的基本单位,利用BOS(a Bag of Sentences)作为文档代表特征项,并在此基础上提出各种计算文档相似度的方法。但这些特征选择方法都集中研究文本中出现的信息对文档的贡献程度。但在社区环境下,社区元数据(锚文本、查询词、社区注解)和文本内容都能提供文档的语义信息。锚文本是对所指向网页内容最简洁最全面的概括,同一文档的所有历史查询词也表征了文档的语义信息,用户可能会选择语义相关的不同词汇去表述文档的同一话题。在社区中,社区用户用大量浓缩的词标注了同一文档。各类用户对同一文档的注解(包括锚文本,查询词,社区注解)从各个方面补充了文档的内容。但是由于文档标注的自由性和开放性,一些文档可能含有一些不相关的甚至是伪造的社区注解,那么数据的质量不能得到很好的保证,大量的数据属于噪音数据。为了更好的组织这些海量数据,得到丰富且高质量文档内容,并且减少时间和空间复杂度,我们采用单个字作为特征项的粒度,社区标注和文本内容作为语义代表候选项,采用空间向量模型,利用IRF(Iterative Reinforcement Framework)方法产生文档代表。

我们从一个很流行的社会化标签网站Del.icio.us上获取了被标注的网页和注解词,并且对文档词条和标注词条都进行了低频词和停用词的处理。假设在训练集中,ND:文档数目,NA:注解数,NT:文档词条数,MAT(NA×NT)是注解词与文本词条的关联矩阵。首先我们对文本中出现的词条(词干)t和所有文档注解a用TFIDF计算他们在文中的权重,并作为文档和注解的初始代表0T和0A,这两个代表向量各分量的权重值分别为Wt,d和Wa,d。

ct,d和ca,d分别是t和a在文中出现的次数,URL(t)和URL(a)是所有训练集中分别包含t和a的文档数目。iT和Ai是Web文档的文本词条向量和注解向量。

3 IRF模型

参数α和β在(0,1)之间,用于调整初始向量0T和新增向量M'ATAi为增强文档代表所作的相对贡献,并取经验值都等于0.3。关联矩阵MAT的每个元素描述了注解词a与文本内容词t的关联程度,本文采取典型的概率统计式(卡方统计量χ2)

A:在训练集中共同出现ax和ty的文档数目;B:出现ax但没有出现ty的文档数目;C:出现ty但没有出现ax的文档数目;D:既没有出现ax也没有出现ty的文档数目。由于本文考虑的是两个词之间的相关度不是独立程度,所以当AD

记wα=(1-α)M'AT,wβ=(1-β)MAT

把(1)式代入(2)式

从上述(3)和(4)可以看出,是相互独立的向量空间,文档的注解词只是两篇相关文档的语义桥梁,由与文档相关的文本内容词迭代产生,不包含注解词,反之亦然。从下列实验结果也可以得到证实。http://www.protonotes.com/为例:

4 结论

由于收敛,实验表明在迭代30次之后,趋于稳定。依照权重大小,选取前十个作为文档代表。从上表中可以看出,把合成一个向量,极大的丰富了文档的语义代表,提高了文档的检索效果。由于文档的代表词是从大量文档中找到与文档强相关的特征词,有效地突破了以往拘泥于文本中出现的词作为代表词的局限。也就是说,一篇文档中即使没有包含用户输入的查询词,但只要这篇文档与查询词是相关的,搜索引擎也会检索到,提高了文档的查全率和查准率。

参考文献

[1]王秀娟.文本检索中若干问题的研究[D].北京邮电大学.2006.

[2]M.F.PORTER An algorithm for suffix stripping,program14(3).1980.

[3]E.D.LIDDY.Enhanced text retrieval using natural language processing.[EB]ASIS Bulletin1998.5http://www.asis.org/bulle-tin/apr.98/liddy.html.

[4]沈斌.基于分词的中文文本相似度计算研究[D].天津财经大学.2006.

[5]S.BRIN AND L.PAGE.The Anatomy of a Large-Scale-Hypertextual Web Search Engine,[J]Computer Networks and ISDN Systems.1998.

[6]G.XUE,H.ZENG,Z.CHEN,Y.YU,W.MA,W.XI,and W.FAN.Optimizing Web Search Using Web Click-through Data[C].ACM Conference on Information and Knowledge Management.2005.

[7]S.BAO,X.WU,B.FEI,G.XUE,Z.SU,and Y.YU.OptimizingWeb Search Using Social Annotations.[C].WWW Conference.2007.

[8]XIAO XUN ZhANG LICHUN YANG AND XIAN WU.sDoc:Exploring Social Wisdom for Document Enhancement in Web Mining,[C].ACM Conference2009.

语义模型 篇7

通过各种搜索引擎进行信息检索的一般流程如图1:

在检索流程图中, 用户只关心流程图中的首尾部分, 检索系统和数字资源库相对于用户来说是一个黑盒, 它是科技工作者努力探索的任务。

2. 知识检索模型

数字图书馆的建设以用户至上为原则, 以一站式检索界面和简洁语言为基础, 以检索结果的快、精、准、序为目标, 在用户和数字资源库之间建立起一座便捷的桥梁。需要解决的主要问题有:实用的多语言、个性化的友好用户界面;清晰便捷、高效的导航系统;知识的准确描述、安全存储;系统集成;基于因特网的工具软件、云计算平台和技术等[1]。

随着云计算、本体、语义技术的诞生和发展, 将它们运用于数字图书馆的建设之中, 使得数字图书馆在知识组织、存储、表达、理解上向人性化、智能化方向发展, 这也是其发展的必然趋势。图2是基于语义的数字图书馆检索模型。

3. 关键技术

基于语义的知识检索模型关键部分是元数据提取、本体构建、知识推理。知识的推理以前两者为基础。

3.1 元数据提取

获取元数据的主要途径有两种。一是由作者提供元数据并录入, 这种方式最显著的优点在于作者熟悉知识所涉及的领域, 提供的元数据准确可靠, 但缺点也非常鲜明, 即元数据的结构很可能不符合系统的要求, 需要进行二次加工;二是资源信息由第三方人员进行加工并提取元数据再录入, 其优缺点正好与第一种相反。当前, 由于没有硬性规定知识的提供者必须随之提供元数据信息, 因而元数据绝大部分由第三方人员先加工、再逐条输入。这样, 不仅耗费了大量的人力、物力和财力, 而且准确性也不高, 甚至面目全非, 不能满足海量文献需要进行元数据提取和描述的需要。因此, 元数据的自动提取技术和工具也就应运而生了, 同时, 元数据标准的制定, 也为元数据的自动提取技术和工具的研究提供了规范。

目前, 国内外学者对元数据的自动提取主要研究成果有:对特定格式文档PDF、DOC、PPT、HTML、JPG等的自动提取;对篇名、作者、摘要、关键词、引文、来源、时间、数量、地名等特定元数据信息的自动提取;对Web站点元数据的自动提取;对中文文献元数据的自动提取。典型的元数据自动提取工具有:英国档案馆的DROID文件格式辨别工具、法国的Metadata Miner Catalogue PRO软件和新西兰图书馆的Metadata Extractor软件等[2]。不论是技术还是工具软件都存在着缺陷, 特别是对中文文献。

3.2 本体构建

本体这个哲学概念引入到数字图书馆的信息描述之中有其必然性, 在知识表示领域, 本体被形式化的定义成一个多元组, 这个组合中必须包括的特性有:属性集、关系集、规则集等。

本体的构建没有固定的模式、统一的规则, 目前比较著名的构建本体的方法有:KACTUS法、METH-Ontology法、SENSUS法、TOVE法、DEF5法、骨架法等, 被广大研究者推崇的是斯坦福大学医学院开发的领域本体建模七步法。

本体的描述语言有XML、RDF、RDF Schema, 首选W3C推荐的OWL (Web Ontology Language) , 它基于描述逻辑, 拥有丰富的形式化语义词汇, 更利于表示知识的属性、关系及其运算。

用于本体建模的主要工具软件有O n t o E d i t、Ontolingua、OntoSaurus、Protégé、WebODE等, 研究者们普遍使用开源软件Protégé[3]。

3.3 知识推理

知识推理既是检索系统的核心, 也是其最艰巨的部分。

领域专家、第三方人员和工具软件共同完成元数据的提取;专业人员借助本体建模工具完成元数据的本体化, 在这个本体化的多元组中包括了属性集、关系集、规则集等核心信息, 这两阶段的工作为知识的推理奠定了基础。

知识推理工作的步骤如下:服务器获取从浏览器表单中发送来的信息;先进行分词和标记, 进行降维和去噪处理, 形成简明扼要的信息, 得到预处理结果;再根据领域本体中的类、对象、数据、属性的概念、关系, 运用推理规则, 找到相关的语义关键词或语句, 形成关键词组或语句群;再根据语义相关度形成元数据组、以及它们之间的逻辑表达式;最后将它们转换成查询语句提交至检索系统进行数据库查询, 最终得到查询结果。

知识推理可以使用Jena推理机来完成, 其包含丰富的推理子系统和查询语言等优势, 除此之外, 它还可以与第三方的推理机进行集成, 更宜于知识的推理。

3.4 结果输出

检索系统从数字资源库中搜索出符合指定语义的所有文献资源组成结果集, 然后依照阈值、算法, 得到每条记录的语义相似度数值, 将结果集按照语义相似度降序排列, 最后将结果呈现在用户面前。

这样, 用户只需一次输入查询就可以获得准确的知识序列, 不需要反复地检索或人工检索, 繁琐耗时的工作都交给了智能检索系统来完成, 用户只需在有限的结果中攫取需要的答案。

4. 结语

对数字图书馆的信息检索来说, 知识元数据的提取、本体化、知识推理是一个递进的过程, 前两者是基础, 后者是核心。基于语义的数字图书馆检索模型虽提供了统一的框架, 但不同领域的知识千差万别、纷繁复杂, 实践和实现期望的结果仍是长期艰巨的任务。

摘要:数字图书馆的建设与研究涉及多学科知识的交叉融合, 以用户的简约输入, 检索的快、准、精为目标。文章给出了一个基于本体和语义的数字图书馆检索模型, 对模型中所涉及的若干主要技术的实现原理、方法和工具进行了论述。

关键词:数字图书馆,检索,本体,语义

参考文献

[1]数字图书馆_百度百科[DB/OL].http://baike.baidu.com/view/8181.htm.

[2]曾苏, 马建霞, 张秀秀.元数据自动抽取研究新进展[J].现代图书情报技术, 2008 (4) :8-9.

语义模型 篇8

随着互联网的不断发展与普及,Internet渗透到了人们生活的各个领域,成为影响日常生活的最重要信息源。但随着网络资源以指数般速度增长,用户时常置身于浩如烟海的信息中,无法充分利用Internet的潜在资源,出现了“信息过载”和“信息迷向”问题[1]。因此,如何根据用户的需要及时获取相关信息成为充分利用Internet的一个挑战性问题,如何帮助用户根据个人兴趣爱好检索相关的网络信息,成为近年来信息检索领域中研究的一个重点。

目前的搜索引擎只适用于短暂的随机性查询,一般是利用用户提供的关键字进行搜索,返回系统认为相关的文本。因此存在着一些问题:第一,基于关键字的信息检索不能全面反映用户兴趣,没有保存和维护功能;第二,简单的关键字匹配往往输出大量文档,真正相关的文本很少。因此建立一个有效的用户兴趣模型,为用户提供更为有效的帮助是非常必要的。

研究中通常把对用户检索的偏好和兴趣描述称为用户个性化兴趣建模,建立准确有效的用户个性化兴趣模型,是实现个性化信息检索的核心和关键。用户个性化兴趣模型的构建主要包含两点:首先要建立用户个性化模型,较好地反映用户兴趣爱好,为用户查找和推荐相关的信息;其次是要随着用户兴趣的变化,兴趣模型能适应性的改善[2]。

本文提出的基于潜在语义索引的用户兴趣模型,利用LSI技术对用户感兴趣的文本信息进行文本结构分析和语义分析,用特征词和文本之间的语义关系作为用户兴趣主题的一种体现方法,将符合约定条件的文本信息提交给用户,并在相关的反馈机制上不断改进和完善用户兴趣模型,从而可以有效地根据用户的兴趣检索相关信息,提高信息检索的效率。

1 潜在语义索引技术

潜在语义索引[3](Latent Semantic Indexing)是一种概念检索方法,可以解决文档中词的多义和同义现象。该方法构造出文本的词频矩阵X,利用奇异值分解技术(Singular Value Decomposition)对矩阵X进行分解,减少频数矩阵的维数并保留最重要的行,得到一个X的近似矩阵XK,以此来表达出特征词与文档之间的语义关系。利用潜在语义索引方法可以将原来大规模的文档词频矩阵用一个维数较低的矩阵来表示,在这个过程中可能会损失一些信息,但是可以保证所损失的仅仅是原来词频矩阵中非常不重要的部分内容[4]。

1.1 词频矩阵的构建

在潜在语义索引中,一个文档集合可以表示为一个m×n的文档词频矩阵X,这里n表示文档库中的文档数;m表示文档库中包含的所有不同的词的个数。X表示为:

X=aij(i=1,2,…,m;j=1,2,…,n) (1)

aij值非负,表示索引项i在文档j的权重值。aij值的确定通常考虑两个方面,即使用局部加权策略和全局加权策略分别来评价特征项在某一文档中和整个文档集中的相对重要性。

1.2 奇异值分解

按照奇异值分解技术,任意一个矩阵X(t*d)都可以分解为以下形式:

X=TSDT (2)

其中T,D的各列正交且长度为1,即TTT=1,DDT=1;S是奇异值的对角矩阵,即S=diag(λ1,λ2,…,λt),λ为对角矩阵中的特征值。这里分解得到的三个矩阵都是满秩矩阵。SVD的优点在于利用较小的矩阵做到最优的近似。如果S对角线上的元素均以按大小排序,则选取前k个最大的奇异值,其余的设置为0,如此得到的矩阵运算结果为Xk,用它去近似原始矩阵X,这个秩为k的新矩阵在最小平方意义上是最接近X的。在S中引入零以后,可以通过删除相应的行和列来化简S,获得新的对角矩阵S0。同时删除TD中相应的列,分别获得阵T0和D0,则可以得到下面的简化模型:

Xk=T0S0D (3)

在LSI中,不是仅仅使用特征词的出现信息,而是从文本中提取出隐含的语义结构信息。用Xk近似表示原有的词频矩阵X,实际上就是用Xm维特征空间的前k个主分量方向来近似原来矩阵中的m维特征词空间。前k个主分量方向解释了数据矩阵中的大多数变化,它可以消除特征词中的同义或多义的现象。主分量法的直观解释就是:由原始特征词的加权所构成的单个向量可以非常好的近似由大得多的向量集合所起得效果。在LSI中就是通过SVD技术来估计主分量向量,把原来的X矩阵简化为Xk矩阵,这里k可以远远小于m。此简化损失的信息是很少的。一方面消减了原词频矩阵中包含的“噪声”因素,更加体现出词和文档之间的语义关系;另一方面使词、文档向量空间大大缩减,可以提高文档过滤的效果。

2 基于LSI的用户兴趣模型

2.1 模型构建过程

通过对现有的用户模式构建方式的研究,结合潜在语义索引技术,本文提出了一种基于潜在语义索引技术的用户兴趣模式构建机制,构建过程如图1所示。

首先由用户提供相应兴趣主题的示例文本集,对样本文档进行分词、消除停用词处理后,生成出每篇文档中的特征词,将一个兴趣主题类别中所有文档的特征词统一为原始特征词集,计算出每个特征项表达该兴趣主题的权重值,并按权重值大小排序,按设定的阈值取适当的特征项数作为用户在该兴趣主题的信息表示,这样用户模板可以用一个文档词频矩阵来表示。其算法步骤为:

输入:每个兴趣主题的样本文档C(dj)和设定的特征项个数num。

输出:能够反映用户兴趣的特征词库和词频矩阵。

步骤:

①从训练文本集中依次取得每个文本,调用分词程序将其分词,并去除停用词。

②调用特征提取算法,提取出文档特征项。

③计算特征项的权重值,按照设定的num值取相应特征项数构建成特征词集。

④根据特征词集,为每篇文档生成一个映射(关键码,值)。关键码为特征词,值为该特征项在文本集中的权重值。

⑤生成每个文本的特征向量,构建出文档—词频矩阵。

词频矩阵X建立后,利用奇异值分解技术得到相应的矩阵T,S,D。其中,TD分别是矩阵X的奇异值对应的左、右奇异向量矩阵;矩阵Y的奇异值按递减排列构成对角阵S,取TD最前面的k列构建成k-秩近似矩阵Xk=T0S0D。其中S0是由S中前k个对角线元素组成的对角阵,T0和D0分别是TD的前k列组成。这一部分的具体算法如下。

输入:词频矩阵X,设定K值。

输出:近似矩阵Xk,以及T0,D0和S0。

步骤:

①输入X,调用奇异值分解程序,得到词频矩阵的左右奇异向量矩阵和对角阵。

②根据设定的k值,取左右奇异矩阵和对角阵的前k列,得到k-秩近似矩阵Xk

③输出索引矩阵Xk,以及它的左右奇异向量矩阵T0,D0和对角阵S0。

在这个算法中,关键是K值的确定。K被称为降维因子,其值的大小有很大的主观性, K过大会使运算量加大, K过小则会失去一些有用的信息。参考着因子分析的相应概念,在研究中一般使用下面的不等式确定K的值[5]:

λi表示S0中的特征值,λj表示S中的特征值,θ为包含原始信息的阈值。实际中往往需要通过多次的试验,选取对文档集合操作效率最好的θ值和K值。一般对于非常大的文档集合,k取100-300比较适合[6],中文文档集合LSI与英文文档集合LSI的取值范围基本上相同。

2.2 文本的匹配与过滤

利用LSI进行文本过滤,其理论基础是利用LSI方法在文档集中潜在的语义关系基础上构造了一个索引项—文档空间,具有相似主题的文档在空间中对应的位置点相距很近[7],用户的兴趣主题模型是由通过降维后的词频文档矩阵来表示的,通过奇异值分解得到的k个正交因子在一定程度上隐含了该兴趣主题的语义信息。过滤系统进行文本过滤的时候,将新的文档映射到LSI语义空间中,计算兴趣主题文档集中的文档向量与新的文档向量之间的相似值,如果该值大于设定的阈值则该文档是用户所需要的;反之,则是用户不感兴趣的。

设新的文档表示为一个m×1维文档向量d,投影到Xk空间后,根据下面的公式可以转换为D0中一行向量:

d′=dTT0S (5)

d即为新文档在LSI空间的映射向量,由此可用来计算其与兴趣主题的相关度。通常采用余弦公式计算新的文档向量与兴趣主题中的相关文档集之间的相似度。设用户的主题兴趣模主题为M,分别计算d′和矩阵Xk中的各个列向量xi的夹角余弦值,则获得一个n维向量

R=[cos(d′,xi)],(i=1,2,…,n) (6)

m维向量d′和Xk矩阵之间的相似关系可由n维向量R的大小表示出。可采用1-范数方法计算出向量R的大小,即可得到新文档d和兴趣主题模型M之间的相似度。计算公式如下:

设定一个兴趣阈值α∈(0,1),如果RR>α,则页面d属于用户感兴趣的文档,对其进行索引并提交用户;否则页面d不属于用户感兴趣的主题而被过滤掉。通常α需要由反复的试验确定最佳的取值,也可以由用户进行人为的调节来控制过滤的效果。

2.3 模型的更新完善

用户的兴趣随时间的推移是在不断变化着的,因此有必要获取用户的反馈信息,及时地修改系统参数,对用户的兴趣模型进行更新,从而不断调整和完善用户兴趣模型,更好地反映用户的兴趣变化。对一个已经存在LSI数据模型,如果需要加入新的文档和索引词,最直接的办法是重新建立词频矩阵然后进行SVD计算。但是SVD分解的计算量是非常大的,重新进行SVD分解将需要更多的计算时间,更大的问题是在实际运算中由于内存的限制而无法完成这样巨大的运算。所以在实际应用中,LSI模型的更新一般采用folding-in算法来实现[8]。folding-in算法能够在己经存在的潜在语义空间中加入新的文档和索引词而不影响现有文档和索引词的结构。首先对每个新的即将加入潜在语义模型中的文档进行预处理,将其转换成k维空间中的向量。设新的文档向量为d,则其在k维空间中的向量d′按下式计算:

d′=dTT0S (8)

与此类似向潜在语义模型中加入新的特征项时,先将其表示为一个1×n词语向量为t,然后在K维空间中将向量t进行转换,转换公式如下:

t′=tD0S (9)

每个加入模型的新文档向量均附加到D0的列上,每个新加入的词语向量附加到To的行上。通过folding-in算法可以在原有的语义空间的基础上,在加入新的文档和索引词的时候不用重新进行耗时的奇异值分解计算。由于加入大量索引词的时候会导致k维语义空间中的语义信息的减少,使得查询、过滤性能下降,因此该算法要求初始文档集要足够大。当然如果新加入的文本和索引特征项过多时也应当重新进行SVD计算,重新构建新的语义空间。

3 实验分析

3.1 实验数据的处理与计算

本文以实验来分析用LSI构建用户兴趣模型的有效性。实验如表1所示,设定有10篇文档和8个特征项构成的文档词频矩阵M。从表1中可以看出这10篇文档主要是数据库和数据挖掘两个方面的内容。

利用MATLAB软件编出处理程序,对矩阵M进行奇异值分解得到M=USVTU是一个10×8的矩阵,它的每一行是相对特定文档的权向量,S是每个主分量方向特征值的8×8对VT角阵,8×8的VT的各列提供了数据的新共轭基,即为主分量方向。S矩阵的对角元素为:S=(33.5302,31.3644,9.1859,7.9789,6.4280,4.7773, 2.3952, 1.4402)

S中的元素可看出,前两个主分量(33.5302, 31.3644)包含了数据中的主要信息量,由公式可得:

因此,如果取前两个主分量生成一个二维主分量空间来表示文档,可以保留原始文档信息量的90.55%。由此可以得到10篇文档在二维主分量空间中的分布情况,如图2所示。这两个主分量方向是原来8维特征项空间中数据最分散的方向,也是具有最大方差的方向。可以看出,在第一个方向中突出了描述数据库一类的文档,第二个方向中突出了描述数据挖掘一类的文档。当把文档投影到由前两个主分量方向所决定的平面时,不同类别的文档分布在不同的方向上,文档间的角度差异可以作为相似度的一个测量指标。

3.2 实验数据的分析

假设有两篇待测试的文档d1和d2,其文档向量在上述的8维空间中可表示为:

d1:(0,10,0,0,0,0,1,0) d2:(0,0,0,0,0,0,7,0)

文档1主要包含了数据库方面的词语,文档2只含有数据挖掘方面的词语。我们将两篇文档映射到LSI空间中,得到文档在语义空间中的向量值:

d1′:(0.0999,0.1233) d2′:(0.0035,-0.0845)

可以看出在二维主分量空间中,两篇待测文档所位于的位置与相应的类别相符合,还可以分别计算出两篇文档与示例中文档的相似关系,如表2所示。

由此可以将待测试的文档判断为相应的类别。由试验分析可以得出,潜在语义索引技术可以模拟特征项与文本之间的语义关系,匹配出包含不同相同特征词的相似文档,能够有效地提高信息检索的效果。

4 结束语

为用户提供个性化信息服务是网络时代发展的产物,其技术关键在于如何描述和更新用户的兴趣模型,寻求更为有效的文本与兴趣模型的匹配算法。本文提出的基于LSI的用户模型构建方法,以特征词与文本之间的语义关系作为文本相关度的测量尺度,通过在LSI语义空间中的转换与计算,对信息进行过滤和提交,并利用相关反馈机制不断改进模型以跟踪用户兴趣变化,从而提高信息检索系统的推荐效果。实验结果表明这种方法很有前途,较传统的关键词词形匹配方法在效率方面有显著的改进。但是利用LSI方法构建用户兴趣模型进行信息检索尚处于初步试验阶段,如何利用机器学习方法自动获取用户的兴趣和相关反馈信息以及如何从语法和语义的角度探讨用户兴趣模型的形成和应用等,都需要进一步研究。

摘要:用户兴趣模型的表示是信息检索的核心技术之一。利用潜在语义索引的方法构建了一种用户兴趣模型,通过计算文本与模型的匹配程度,将满足约定条件的文本推荐给用户,并利用相关反馈信息更新用户的兴趣模型。最后通过实验验证了该方法的有效性,实验表明该模型可以很好地提高用户信息检索的效率。

关键词:信息检索,用户兴趣模型,潜在语义索引

参考文献

[1]王岚,翟正军.Web使用挖掘在网络环境下的个性化信息服务[J].现代电子技术,2007(2):100-103.

[2]张敏.基于Web的个性化信息检索关键技术研究[J].计算机时代,2006(3):37-38.

[3]Deerwester S,Dumais S T.Indexing by Latent Semantic Analysis[J].Journal of the American Society of Information Science,1990(2):391-407.

[4]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002:252-254.

[5]张秋余,刘洋.使用基于SVM的局部潜在语义索引进行文本分类[J].计算机应用,2007,27(6):1382-1384.

[6]Bo-Yeong Kang,Dae-Won Kim,Sang-Jo Lee.Exploiting conceptclusters for content-based information retrieval[J].Information Sciences,2005,170(2):443-462.

[7]Jinxi Xu,W Bruce,Croft.Improving the effectiveness of informationretrieval with local analysis[J].ACM Transaction on information sys-tem.2000,18(1):79-112.

上一篇:交通运输类专业下一篇:体育学