基于图理论的检索

2024-07-02

基于图理论的检索(精选5篇)

基于图理论的检索 篇1

随着图像获取技术的飞速发展,许多领域都出现了大型的图像数据库。在大量的实际应用中,用户希望在这些图像库中快速有效地检索图像,但是又缺少对所有这些图像的语义标签,从而很难达到理想的效果。由于缺乏广泛使用的统一标准,应用关键字并不能全面的描述图像。这样,基于内容的图像检索[1]就应运而生。当用户希望检索图像时,不再需要对图像库中的图像以及查询图像进行文本描述,只需输入查询图像,便可以依靠检索系统得到理想的相似图像。

大多数基于内容的图像检索技术自动提取图像底层特征,如颜色、纹理、形状和空间布局等,然后根据特征向量空间计算两幅图像间的相似性,进而完成检索图像的工作。但是,图像底层特征和高层语义之间存在着巨大的“语义鸿沟”[2],导致了检索效果并不能很好的满足用户要求。因此,许多研究者开始关注缩减“语义鸿沟”的研究,提出了众多的解决方法,应用粗糙集理论实现基于图像对象的检索便是其中的一种。

在粗糙集理论背景下实现基于图像对象的检索方法,对图像库和查询图像有一定的要求限制。该方法应用于具有单个中心对象的图像,期望输出则是包含跟查询图像最相似对象的图像,这个对象可以不同的大小分布在不同位置的位置,也就是说,对对象的尺寸、偏移和旋转变化具有健壮性。

该方法主要依赖图像中物理对象的表征检索图像,物理对象可以是任何用户希望查找的对象,比如建筑物,直升机,大象等,但是须满足以下条件:1)基本上位于图像的中心;2)相对于背景,有显著地颜色或纹理特征;3)尺寸相对较大;4)边缘像素相对较锐利。

1 粗糙集预备知识

粗糙集作为一种处理不精确、不确定与不完全数据的数学理论,最初是由波兰数学家Z Paw lak[3]在1982年提出的,它是建立在分类机制基础上,将分类理解为在特征空间上的等价关系,而等价关系构成了对该空的划分。粗糙集中的知识表达方式一般采用信息表或称为信息系统的形式。一个信息系统S=(U,A),U是一个非空有限的对象集合,称为全集,A为一个非空有限的属性集合。令B哿A,X哿U,通过建立集合X的上下近似,仅用包含在B中的信息来表示集合X。

如果X哿U,集合{x∈U:[x]B},{x∈U:[x]B∩X≠Ф},分别称为X在U中B-下近似和B-上近似,分别用BX和BX表示,[x]B是对象x∈U的等价关系IB的等价类。在BX中的对象可以确定地分类为在B中的x成员,在BX中的对象只能分类为B的可能成员。

集合X对于B的粗糙性测度定义为:

0≤Rα≤1,等于0时,X对于B可定义的;Rα>0时,X是粗糙的。集合的粗糙表示方法可以用图1来描述,其中曲线包含的区域表示集合X,深灰色区域表示下近似,所有的灰色区域表示上近似。

2 图像建模

令论域U为包含像素点集合的图像。然后,如果将U分成大小为m×n不重叠的子窗体集合,每个子窗体可被看成是一个粒点G,每个粒点都是像素的簇。

考虑灰度级为L(0,1,...,T,T+1,...,L-1)的图像(m×n)中背景和对象的分离问题。设B和O分别代表两种属性:背景区域,对象区域。对象和背景可以看成是两个关于T的粗糙集[4]:

对象的下近似

对象的上近似

背景的下近似

背景的上近似因此,图像的粗糙集表示(对象OT和背景BT)取决于灰度级T的值。

集合的不精确性是因为边界的存在,而边界又由上近似和下近似的区别引起的,所以对象OT的粗糙性测度可表示为:

其中的基数。

相似地,背景BT的粗糙性测度可表示为:

现在,为一幅图像定义一个称为“平均粗糙性测度计算”RMT,当取某个特定的T值时,ROT和RBT的平均值,

由(1)和(2)可知,由于0≤ROT≤1,0≤RBT≤1,所以RMT∈[0,1]。当ROT=RBT=1时,RMT有最大值。ROT=RBT=0时,RMT有最小值。

对不同的大小的粒点,通过最小化RMT原则,得到以分割为基础的对象提取方法。RMT的最小化就是最小化由对象边界区域的模糊性引起的不确定性。因此,对一个既定的粒点,对象—背景分离的阈值可以通过最小化RMT获得。计算相对于图像每个灰度级T的RMT值,(0,…,T)代表背景,(T+1,…,L-1)代表对象区域。选择使RMT最小的T,即选择T*=argTminRMT作为阈值,由T*提供对象—背景的分离。

3 相似度计算和检索算法

3.1 相似度计算

为了检索跟查询图像相似的图像,需要计算图像的相似度。首先由用户输入查询图像,为提取出它的对象,根据最佳阈值T*计算对象的下近似数组。为了匹配两幅图像中的对象,需要比较两幅图像的对象下近似数组。

计算在两个数组中具有相似灰度值的像素数量N,然后按公式(4)求出对象相似度Object Similarity Ratio:

其中,N是图像的中上下近似数组中具有相同值的像素数量,T是对象下近似数组的大小。可以发现,Object Similarity Ratio的取值在0

3.2 检索算法

检索算法:

输入:拥有单个中心对象的灰度图像

输出:最优的相似图像

方法:

—创建图像数据库;

—在数据库中存储图像;

—根据最优阈值T*存储数据库中每幅图像的对象下近似数组;

—根据T*计算用户选择的查询图像的对象下近似值;

—比较查询图像和目标图像的对象下近似值数组;

—根据(4)得出每幅图像的Object Similarity Ratio;

—检索拥有最大Object Similarity Ratio值的图像,数量由用户指定。

4 实验结果及评价

在Matlab7.0中进行了仿真实验。收集了51张大小为128×128的灰度图像作为实验的数据集,其中每一幅图像都具有一个唯一的中心对象。图像数据集收集自http://www.cs.cmu.edu/~cil/v-images.html,一个专业的Web图像网站。当输入查询图像,检索出对象相似度Object Similarity Ratio的值接近于1的图像,并跟具对象相似度值对图像集中的图像按照降序排序,根据用户选择的数量返回检索图像,实验中返回的检索图像为4。选取了2幅图像分别作为输入,得到的检索结果如图2所示。

图2两次检索的查询图像和检索图像。中间一行为查询图像1的检索结果,第三行为查询图像2的检索结果。

通常用查准率(Pr)和查全率(Re)[5]评价检索算法的效率。设Nr为检索出的相关图像,K为检索出的总的图像数量,Nt为图像数据集中所有相关图像。则Rr=Nr/K,Re=Nr/Nt。表1显示了两次查询的查准率和查全率以及它们的平均值。

5 总结

传统的图像检索主要依赖于颜色、纹理和形状特征,由于这些可视特征仅是图像信息的一部分,不能很好的表达人们对图像语义层次的理解,因此检索结果并不是十分的完美。

应用粗糙集理论虽然实现了基于图像对象的检索,但是它仅局限于具有单个中心对象的灰度图像,应用范围有限。因此,今后的研究可以扩展到具有多个对象的彩色图像的检索,使其具有更加广阔的应用空间。

摘要:粗糙集理论已经成功应用于许多领域,特别是数据挖掘、知识发现、人工智能和信息系统分析。在粗糙集理论背景下,对图像进行建模,用集合的上下近似表示图像对象。通过定义新的图像相似度计算“Object Similarity Ratio”,介绍一种精确的基于对象的图像检索方法,它可以处理基于例图的查询,并且介绍了一种高效的大型图像库检索算法。

关键词:粗糙集理论,相似度,图像检索,图像建模,Object Similarity Ratio

参考文献

[1]Eakins J,Graham M,Content-based image retrieval,Technical Report,University of Northumbria at Newcastle,1999.

[2]Ying Liu,Zhang Deng-sheng.A survey of content-based image retrieval with high-level semantics.Pattern Recognition Society,2006.

[3]Paw lak Z Rough sets[J].International Journal of Computer and Information Sciences,1982(11):341-356.

[4]Pal S K,Uma S B,Mitra P.Granular computing,rough entropy and object extraction[J].Pattern Recognition Letters,2005(26):2509-2517.

[5]Koskela M,Laaksonen J,Laakso S,et al.Evaluating the performance of content-based image retrieval systems[C]//In:International conference on Visual Information Systems(Visual2000),2000:2-4.

基于图理论的检索 篇2

2002年招收硕士研究生考试试题

考试科目:科技文献检索

(总计150分)

一、填空(每空1分,共20分,请将答案写在答卷上)

1.文献数据库中,一条记录主要有、、、等字段。

2.美国《科学引文索引》(SCI)的索引体系中包括、、、引。

3.国际著名联机检索系统有、、、。

4.列举互联网上的四种主要搜索引擎、、、。

5.美国政府四大科技报告是指、、、等报告。

二、名词解释(每题3分,共30分)

1.索引款目6.CSDL

2.辅助索引7.NSTL

3.倒排文档8.CALIS

4.标目9.MARC

5.参照10.SDI

三、简答题(每题8分,共40分)

1.什么是灰色文献,灰色文献有哪些特点?

2.计算机检索与手工检索有哪些共同点和不同点?

3.构建一个文献数据库应注意哪些问题?

4.数字图书馆有哪些特点?

5.什么是URL,URL有何作用?

四、论述题(每题15分,共60分)

1.谈谈美国《化学文摘》(CA)的特点,结构和主要检索方法

2.简述叙词与叙词索引法的特点。

3.谈谈网络环境下科技情报检索的发展趋势。

基于图理论的检索 篇3

按照国家电网公司“十一五”信息发展规划中提出整合公司信息资源, 构建以总部为核心的公共信息资源共享体系的要求, 国电信息中心积极开展了数字化图书馆的建设。数字化图书馆的核心是资源及对资源的访问, 如何更全面、准确地获取最新、最有效的信息, 使之及时为国家电网公司生产经营、企业管理、科技创新和领导决策服务, 已经成为把握机遇、迎接挑战和获取成功的关键因素。全文检索技术的出现, 很好地实现了对数字图书馆TB级、甚至PB级海量信息的搜索。

当前主流的全文检索系统并不能完全满足用户的需求, 主要原因之一是用户一般只希望输入很少量的信息就能检索到自己需要的信息, 但当前的搜索技术由于较低的查准率大都会返回大量的匹配信息让用户筛选, 并不能针对用户的特定情况返回用户希望得到的准确结果。因此如何改进搜索引擎技术使其更能准确地满足用户的需求成为当前的一个重要研究课题。

1 全文检索技术发展简介

1.1 概述

全文检索技术是19世纪50年代末出现的一种面向全文和提供全文的信息检索技术。它不需对文献进行标引就可以实现检索, 可以将原文中任何有意义的字或词作为检索项目, 并由其指向原文的有关页面或链接。全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。1959年, 美国匹兹堡大学卫生法律中心建成的法律情报检索系统是世界上第1个全文检索系统, 此后全文检索获得巨大的发展, 已成为文字型信息检索的主流。

全文检索系统以文本数据为主要处理对象, 实现内容信息的存储与检索, 可分为3种类型: (1) 基于关系型的全文检索系统, 如DB2等; (2) 基于非关系型的全文检索系统, 如TRS、L0TUSNOTES等; (3) 基于Internet/Intranet的网络信息分布的全文检索系统, 如Google、Web Server等。此外, 开放源码的搜索引擎如Smart、Lernur等正以其特有的魅力吸引更多的目光。

1.2 研究热点

全文检索技术已进入全新的发展阶段, 热点集中在以下几个方面:

(1) 基于自然语言理解的智能检索技术, 也就是基于语义或者概念的识别, 其研究特点是如何自动分词。尤其是在面临到像中文语言分词时, 由于中文语言与英文语言有很大的不同, 面临比较大的挑战;

(2) 基于多媒体文件的信息检索, 要检索的媒体扩展到图像、mp3、pdf、Word、视频等不同类型的媒体;

(3) 基于主题或者问题求解的信息检索, 类似于近期各大搜索引擎陆续推出的问答系统, 如百度的“知道”、新浪的“爱问”、雅虎的“知识”等;

(4) 基于个性化的检索技术, 由于用户的背景复杂多样, 如何切实根据用户个人的爱好为其提供特有的检索查询, 以及内容推荐, 也成为近期各大搜索引擎研究的热点。

1.3 基本原理

(1) 从外部信息源获取原始数据, 原始数据可以来自关系型数据库, 可以来自互联网, 也可以是其他非结构化文本信息;

(2) 将获得的原始数据信息进行文本预处理、存入临时数据库, 进行数据挖掘、内容分析等。

(3) 对预处理完的信息按照倒排文件的算法, 建立全文索引数据库。

(4) 全文检索引擎根据用户提出的检索请求检索全文索引数据库, 并返回检索结果。全文检索引擎可将用户检索请求进行自动分词。

(5) 根据用户行为日志, 剖析用户兴趣方向, 进行日志分析, 以实现个性化检索。

一个完整的全文检索系统应该包含多个功能模块, 系统的整体工作模块结构如图1所示。

2 个性化全文检索技术相关理论

个性化全文检索技术通过收集和分析用户信息来学习用户的兴趣和行为, 从而实现主动推荐的目的。个性化全文检索技术能充分提高系统的服务质量和访问效率, 从而吸引更多的访问者。

2.1 个性化全文检索技术研究现状

目前个性化全文检索技术研究主要集中在以下几个方面:

(1) 各大搜索引擎纷纷采用各种新技术为用户查询提供更多的选择信息, 如Yahoo、ODP、Google采用向用户提供文档类别层次的方法, 用户可以先选择感兴趣的类别, 然后进行下一步搜索。Northern Light、WiseNut、Vivisimo则是提供搜索结果的聚类显示。Teoma不仅提供结果聚类, 而且还提供查询语句的优化;

(2) 元搜索引擎和分布式信息检索模型, 其通过选择合适的数据来源以及合理的组织搜索结果来提高搜索的准确度;

(3) 信息过滤技术和智能代理技术, 其主要思想是构建用户的兴趣剖象, 利用这些兴趣剖象对信息进行过滤后返回给用户, 或者基于兴趣剖象推荐信息给用户;

(4) 当前全文检索技术在个性化搜索方面还存在许多问题与不足。大多数全文检索技术都是通过用户注册及用户个性化配置 (利用cookie机制、为用户建立配置文件等) 来提高对用户搜索请求的精度和命中率, 实现一定程度的个性化服务。这种方式需要用户在服务器上登记个人信息, 但这可能造成用户某些隐私信息的泄漏。还有一些全文检索技术通过在返回的结果页面上提供反馈链接来获得用户的反馈信息, 但是要求用户的配合, 可行性大大降低。

2.2 个性化技术介绍

目前个性化技术根据其所采用的推荐技术可以分为2种:基于规则的系统和信息过滤系统。信息过滤系统又可分为基于内容过滤的系统和协作过滤系统。

基于规则的系统允许系统管理员根据用户的静态特征和动态属性来制定规则, 一个规则本质上是一个If-Then语句, 规则决定了在不同的情况下如何提供不同的服务。基于规则的系统其优点是简单、直接, 缺点是规则质量很难保证, 而且不能动态更新, 此外, 随着规则的数量增多, 系统将变得越来越难以管理。

基于内容过滤的系统利用资源与用户兴趣相似性来过滤信息。基于内容过滤的系统其优点是简单、有效, 缺点是难以区分资源内容的品质和风格, 而且不能为用户发现新的感兴趣的资源, 只能发现和用户已有兴趣相似的资源。

协作过滤系统利用用户之间的相似性来过滤信息。基于协作过滤系统的优点是能为用户发现新的感兴趣的信息, 缺点是存在2个很难解决的问题, 一个是稀疏性, 即在系统使用初期, 由于系统资源还未获得足够多的评价, 系统很难利用这些评价来发现相似的用户;另一个是可扩展性, 即随着系统用户和资源的增多, 系统的性能会越来越低。

为了实现个性化服务, 首先需要跟踪和学习用户的兴趣和行为, 并设计一种合适的表达方式。为了把资源推荐给用户, 必须组织好资源, 选取资源的特征, 并采用合适的推荐方式。此外, 还必须考虑系统的体系结构, 考虑在服务器端、客户端和代理端实现的利弊。用户描述文件的表达在不同的个性化系统中各有其特点, 用户描述文件从内容上可以划分为基于兴趣的和基于行为的2种类型。基于兴趣的用户描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、书签和目录结构等;基于行为的用户描述文件可以表示为用户浏览模式或者访问模式。个性化系统所处理的资源的描述方式与用户的描述密切相关, 一般两者用相同的机制来表达用户和资源。

2.3 数据挖掘介绍

数据挖掘在个性化全文检索技术中起到非常重要的作用, 通过对用户访问日志文件中的信息进行聚类分析, 可以发现用户的个性化搜索兴趣模式, 从而使搜索引擎为用户提供个性化的服务。

根据挖掘对象的不同, 可以将挖掘分为内容挖掘、结构挖掘、使用挖掘3类。其中基于日志文件和用户会话的数据分析及用户行为模式的挖掘主要有以下几种方法:

(1) 统计分析:主要是对访问信息的统计以及使用方式的统计。通过分析统计数据可以了解用户的需求与操作习惯, 从而相应的对内容进行优化。

(2) 聚类:把具有相似特征的用户或者数据项归类, 它可以帮助进行市场决策。在日志挖掘中, 聚类分析主要集中于用户聚类和页面聚类。用户聚类将具有相似浏览行为的用户归类, 利用这类知识可以为用户提供个性化页面内容;页面聚类则是将内容相关的页面归类, 搜索引擎可以利用这些信息为用户的查询提供相关的链接。

(3) 分类:将数据按照预先定义的类别进行划分。在日志挖掘领域中, 分类主要是将用户配置文件归属给定的用户类别。分类技术要求抽取关键属性描述已知的用户类别。可以通过指导性归纳学习算法 (Supervised inductive learning algorithm) 进行分类, 主要包括决策树分类算法、贝叶斯分类法、最近邻分类法和Support Vector Machine、SVM法等。

2.4 智能推荐系统介绍

智能推荐系统也被称为个性化推荐系统 (Personalized Recommender Systems) , 大量应用了数据挖掘、传统人工智能和数据库等领域的技术成果, 以实现向用户提供个性化、智能化的服务。

智能推荐系统主要采用的推荐实现方法为人工统计方法、协同过滤方法、分类方法、聚类方法等。

(1) 人工统计方法:是对人工方法和统计方法的统称。人工方法是根据专家的经验, 人工对用户、信息进行分类, 然后针对不同类别的用户给予不同类别推荐, 统计算法主要是简单的统计一些某些类别的某些指标的排名情况, 将最好的类别推荐给用户。这些方法是当前最容易实现, 也是应用最普遍的方法, 但是其个性化和动态性比较差。

(2) 协同过滤:Goldberg等人首次提出了关于“协同过滤”的描述, 继而这一技术在不断的改进过程中成为一种非常成功的推荐方法。协同过滤技术也称为面向用户 (userbased) 的技术, 它使用像k-最近邻方法 (KNN) 这样的技术通过分析历史数据, 生成与当前用户行为兴趣最为相近的用户集, 将他们最感兴趣而当前用户还并未浏览的页面作为当前用户的推荐结果, 即Top-N推荐。基于比较准确的评价来计算用户间的距离, 能得到一些符合用户需求的推荐。协同推荐的实现基于用户对对象的评价, 评价的获得可以是显示输入式的或隐式的。显式评价即用户对对象的一个文字评论或等级评分;隐式评价可以是顾客的兴趣强度的函数, 对象的兴趣强弱可以通过用户行为情况以及浏览相关页面的时间和次数来衡量。显示输入式评价时, 用户输入的真实性无法保证, 因此通常采用分析用户日志来分析获得隐式评价。协同过滤方法的优点是可以适用于用户信息更新速度很快的环境, 因为它每次都要根据最新的资料重新计算用户间的紧密程度而后给出推荐结果, 但由此带来的缺点就是在大数据环境下计算得出k个最近邻居的速度很慢。该方法在面对稀疏数据时效果也不能令人满意, 尤其是面对新产品和新用户时。同时协同过滤技术的可扩展性也并不是很好。针对这类问题可以用聚类技术、维数简化等方法进行弥补。

(3) 分类方法:通过分析示例数据库中的数据, 为每个类别做出准确描述、建立分析模型或挖掘出分类规则, 然后用这个分类规则对新的数据记录进行分类。目前已有多种分类分析模型得到应用, 其中几种典型模型是线性回归模型、决策树模型、基本规则模型等。决策树是一个简单而且应用广泛的分类方法, 已经被应用于网上智慧推荐当中。在推荐算法中, 可以将用户信息作为推荐系统的输入, 而将推荐程度以数值等级形式作为输出。贝叶斯分类器是一类很常用的分类器。而将分类方法与其他方法的结合也被很多研究者所关注, N.Good将分类方法结合到协同过滤技术当中, 取得了不错的效果。

(4) 聚类方法:将具有相似爱好、兴趣的用户分配到相同的簇 (Cluster) 中。聚类产生之后, 根据该簇中其他客户指定对象的评价, 就可以得到该系统给本簇用户对该对象的推荐值。聚类分析还可以帮助市场分析人员从客户信息库当中发现不同的用户群, 并且用该评价模式来刻画不同用户群的特征。在智能推荐系统当中, 聚类过程可以离线进行, 然后根据聚类结果再在线进行推荐, 这时推荐速度将非常令人满意。但如果某客户处于一个聚类的边缘, 则对该客户的推荐精度会比较低, 甚至非常差。改进的聚类方法可以将一个用户置于不同的簇当中, 然后根据在各个簇中的权值产生一个最终的推荐结果。与其他智能推荐方法相比, 聚类方法产生推荐集合的个性化稍微差一些。经常将聚类作为其他推荐方法的预处理步骤, 以降低后面推荐方法的计算复杂度, 例如把聚类分析作为协同过滤最近邻近算法的预处理, 即通过聚类分析来减小候选集, 最邻近算法就可以在一个较小的数据集合中进行, 从而加快了推荐速度, 提供实时性。

3 结语

与全文检索系统相比, 个性化全文检索技术不仅可提供强大的检索功能, 而且可以对客户信息进行挖掘, 根据用户兴趣, 对文献资料的内容进行多角度、多侧面的综合查询方式, 有很高的查准查全率, 从而更好地为管理和科研人员提供灵活、方便、快速的信息查询服务。

基于图理论的检索 篇4

关键词:图结构XML,关键字检索,层次连接

目前基于关键字的XML信息检索研究大都采用将XML文档建模成树结构, 返回结果采用LCA的思想。当XML文档中出现引用关系时 (包括文档内引用IDREF和文档外引用XLink) , 将引用关系当作一般属性来对待会忽略元素节点之间的隐含关系, 采用LCA的思想得到的结果将有所遗漏。研究表明, 将带有引用关系的XML文档建模成图结构是可取的, 能够改善检索质量。本文的主要贡献可以归纳为如下4点:

(1) 提出从关键字及其类型来分析和预测用户查询语义的模型;

(2) 提出了基于语义的图结构XML文档的返回结果模型———层次连接实体 (HJE) ;

(3) 提出图结构XML文档下高效的双层索引结构;

(4) 设计了基于层次连接实体语义的HJ算法。

1问题描述和相关工作

1.1预备知识

在图结构XML信息检索中, XML文档被定义成有标签的有向图, Q={V, E}, 其中, V是文档的结点集, E是文档的边集。

结点集V是文档的信息存储单位, V={Element, Attribute, AttributeValue, Text}, 其中Element是元素结点集, Attribute是属性结点集, Attribute Value是属性值结点集, Text是文本结点集。元素结点可以嵌套元素结点、属性结点和文本结点, 属性结点可以嵌套属性值结点。

边集E是结点之间联系的桥梁, E={CE, RE}, 其中C是包含边集, R是引用边集。C (u, v) ∈CE, 表示u是v的祖先结点;R (u, v) ∈RE, 表示结点u有一条引用边指向结点v。

为了方便表述, V (n) 表示结点n本身, T (n) 表示以结点n为根节点的子树, Descendant (n) 表示T (n) 的结点集 (包括n本身) , CR (k, V (n) ) 关键字包含在结点n中, RE (n, m) 表示在T (n) 和T (m) 中存在一条引用边, 且引用边从T (n) 指向T (m) 。

1.2相关工作

基于图结构的XML文档信息检索研究包括XRank[1], EASE[2], XKeyword[3]等。XRank提出了ElemRank[1]概念, 对XML文档区别对待引用和属性, 在检索过程采用查找LCA (LowestCommonAncestor) [1]的思想, 以LCA为根节点的子树包含所有关键字为返回结果, 当关键字在两个距离较远的不同片段中, 由于不考虑引用, 其公共的LCA往往返回根结点或高层结点, 这将是冗余的或者无意义的。EASE构造了一个半径为R的Steiner[2]图 (rradiusSteinergraph) , 并认为Steiner图越紧凑, 相关度越大。这种方法采用TF-IDF[2]模型, 而这一模型相对在传统文本检索中比较有效, 处理图结构的XML文档, 引用关系会打乱原有层次结构, 导致最优的结果的相关性反而较低。XKeyword是一种可以在大型XML图数据库上进行关键字近似查询的方法, 但其对子图的划分运用到了文档的schema, 而很多XML是缺失schema的, 因此应用并不广泛

2 关键字的查询语义模型

基于关键字的信息检索中, 用户只输入了若干关键字K= (k1, k2, ..., km) , 因此如何从关键字中推断用户的检索目标将是一个首先要解决的难点。

目前的研究都是在寻找LCA时不区分关键字类型, 而在结果的权重中考虑关键字类型, 本文提出从检索结果之前就加入关键字类型的考虑, 来作为检索时的语义判断, 提出了“关键字语义唯一性”和“关键字语义选择”的理论。

推理依据1 (关键字语义唯一性) 在一个返回结果中, 每个关键字只会在一种类型上有语义。

结合用户输入的关键字与返回的正确结果进行分析发现, 用户输入的每个关键字都是对检索目标的直接体现, 不会存在模糊指向, 因此每个关键字在一个结果中仅会在一种类型上有指导意义;如果一个结果上某个关键字存在多层语义, 那么必然能将此结果拆分为两个独立结果。例如图1中输入检索关键字“open_auciton, Jack”, 那么检索结果将有两个, 第一个是以{T (person (0.1.1) ) }, 语义表示名字叫“Jack”的人感兴趣的“open_auction”列表;第二个结果是T (open_auction (0.0.0) ) ∪T (person (0.1.1) ) ∪R (V (0.0.0) , V (0.1.1) ) , 语义表示有“jack”参与的“open_auction”。第二个中虽然“open_auction”出现了两次, 但仅有{T (person (0.1.1) ) }中的“open_auction”具有语义, 其引用边是联系两个子树的桥梁。

推理依据2 (关键字语义选择) 当一个关键字在一个结果中存在于多个类型中, 关键字的语义在哪个类型上是个“语义选择”问题, 以下进行理论分析。

通过对相关结果的分析发现, 关键字出现在Attribute上时, 往往代表了用户需要查找这个属性上的属性值, 因此作为Attribute的关键字往往语义信息是最明确的。例如图1中, 输入检索关键字“mike, city”, “city”出现在属性上, 那么可以推断用户的信息需求是:名字叫“mike”的所在“city”的值;Element上关键字是对信息的高度凝缩, 拥有很高的信息量, 所以关键字出现在Element上时, 这个元素所代表的主题结点往往是与结果直接相关, 例如“open_auction”、“buyer”、“person”这些关键字出现时, 其结点往往就是检索目标的一部分。关键字出现在属性值, 其代表了用户查找的是属性值对应的属性所在的结点, 例如图1中用户输入“person, jack”, 可以推断用户的检索目标是找到“name”是“jack”的“person”结点的信息;文本结点一般作为其所在的主题结点的描述性信息, 重要性相对较低。

针对以上分析, 本文给出关键字语义选择:Q (Attribute) > Q (Element) > Q (Attribute Value) > Q (Text) , 这里的”>”代表了语义选择顺序。语义选择顺序将作为关键字在一个结果中的类型判断规则。

以上的两个推理依据可对输入的关键字进行语义判断, 从而推断用户需求。

3 查询结果的语义模型及排序方案

3.1 查询结果的语义模型

图结构XML文档中的引用边的出现使得检索过程与检索结果的语义分析都与传统的树结构检索方法有了根本性的改变。如果按照树结构的返回LCA方法来检索, 返回的往往是根结点或高层结点, 冗余度较高, 需要用户在“大”的结果中寻找自己感兴趣的部分, 这样的结果显然是不合理或缺少意义的。本文提出了以下几个语义, 来定义无冗余的、语义正确的结果模型。

定义1 (主题结点 Subject ) 一个可以区别于其他事物的独立信息单元。

主题结点为可返回结果的最小信息单位, S (E) 表示以结点E为根节点的主题结点。

S (root) ={T (root) |∃V (n) ∈Descendant (root) ∧∃kK, CR (k, V (n) ) }。

sS表示s为一个主题结点, S (k) 表示关键字k所在的主题结点。

例如图1中, T (person (0.1.0) ) 可以作为一个主题结点, 但T (watch (0.1.0.2) ) 不可以;T (watch (0.1.0.2) ) 附属于T (person (0.1.0) ) , 不能独立存在。主题结点可以嵌套, 同时主题结点只可能是元素结点。

下面给出是否为主题结点的判别条件:

判别条件1:如果一个结点的子结点包含元素结点, 那么以下几种情况可以判断此结点可以作为主题结点: (1) 子结点中仅有一个元素结点时, 还包含其他结点 (属性结点或者文本结点) ; (2) 子结点包含两个或两个以上元素结点时, 所有元素结点的标签名不完全相同。

判别条件2:如果子结点中不包括元素结点, 那么以下几种情况可以判断此结点可以作为主题结点: (1) 子结点仅有一个属性结点时, 还包含至少一个文本结点; (2) 子结点包含两个或两个以上属性结点。

定义2 (纽扣 Fastener) 连接主题结点的结点集合。F (s, t) ={m|m∈ (path (LCA (p, q) , p) ∪path (LCA (p, q) , q) ) ∧ (∀sS, ∀tS, ∃RE (s, p) ∧RE (t, q) ) }, 其中LCA (p, q) 为V (p) 和V (q) 的最小公共前缀[3], path (s, t) 表示st的路径上的所有结点, 包括st本身, fF表示f为一个纽扣。

纽扣是主题结点之间的关系的桥梁, 形式上不同于主题结点, 为分散的结点集合。

定义3 (层次连接实体 Hierarchical Joined Entity, HJE) 。 一个有完整语义信息的返回结果。层次连接实体HJE是图结构XML文档的检索返回结果模型, 包含一个或多个主题结点, 零个或多个纽扣, 每个关键字至少存在于某一个主题结点中, 如果把纽扣当成一个边的话, HJE是个DAG[2]子图。

HJE (K) ={S, F| (∀kK, ∃sS, CR (k, s) ) ∧ (∀fF, ∃sS, ∃sS, f=F (s, t) ) } (1)

wHJE表示w为一个层次连接实体, S (w) 表示层次连接实体w的主题结点集, F (w) 表示层次连接实体w的纽扣集合。

定义4 查询结果给定查询关键字K= (k1, k2, …, km) 以及一个XML文档D, 查询结果定义“无冗余的HJE”, Result (K) ={wHJE (K) |∀zHJE (K) , S (w) ⊄S (z) }。

查询结果Result (K) 包含了一系列的主题结点和纽扣, 主题结点集包含了所有的关键字, 并且不存在主题结点集的真子集包含所有关键字。

主题结点作为结果的主要信息载体, 包含了用户感兴趣的信息单元, 纽扣作为连接这些信息单元的“桥梁”, 这样查询结果语义信息完整, 且无冗余。

3.2 基于语义的排序方案

3.2.1 相关度影响因素

结合以上给出的关键字的查询语义分析和查询结果的模型定义, 已经可以对所有的相关结果进行语义描述, 本文接下来将对影响返回结果的相关度因素进行阐述。

(1) 层次嵌套

关键字之间的层次嵌套关系对结果相关度影响最大。

多关键字的“层次嵌套”关系是指“关键字之间的直接嵌套或者间接嵌套”。直接嵌套是两个关键字之间的关系, 指的是在同一个主题结点内两个关键字所在的层次是祖先-子孙关系。间接嵌套是主题结点之间的关系, 关键字所在的主题结点被另一个主题结点引用。

下面给出层次嵌套对一个结果的Rank值计算公式:

Η (Result (Κ) ) =h1 (ki, kj) D1d (ki, kj) +h2 (S (ki) , S (kj) ) Ι1f (S (ki) , S (kj) ) (2)

式 (2) 中ki, kj是关键字, D代表直接嵌套, I代表间接嵌套, d () 函数是关键字所在层次之间的距离, f () 函数是关键字引用的最短距离。h1, h2是参数。

(2) 层次方向

关键字存在层次嵌套时, 层次之间的方向对结果的相关度有影响。

下面给出层次方向对一个结果Rank值的计算公式:

D (u) =p1sS (u) (|Ο (s) -Ι (s) |) +p2sS (u) (Ο (s) +Ι (s) ) (3)

式 (2) 中u为一个查询结果, O (s) 表示主题结点s的出度, I (s) 表示主题结点s的入度。p1, p2为参数。

3.2.2 相关度模型

通过以上分析, 我们给出返回结果的相关度的计算公式

R (u) =αΗ (u) +βD (u) (3)

式 (3) 中u为一个查询结果, R (u) 为相关度。α, β为参数。

4 基于语义的双层索引结构

XML文档的关键字检索方法不同于在原文档上进行查询的结构检索方法, 采用将文档解析后存入数据库中, 检索时从数据库中查询关键字, 来构造结果。目前主流的检索方法的索引结构使用Dewey[4]编码进行构建, 每个关键字有唯一的Dewey码, 另外还包括层次、类型或者其他信息。

本文针对图结构XML文档的独特结构, 不仅构建了基于主题结点的Dewey索引表 (主表) , 还构建了用于记录引用关系的Refer索引表 (副表) , 形成了双层索引结构。

在主表Dewey索引表中, 记录了必要的Dewey码、关键字、类型、所属主题结点Dewey码;在Refer索引表中, 记录了引用主题结点Dewey码、被引用主题结点Dewey码。例如图1中, “mike (0.1.1.1.0) ”结点在Dewey表中存储形式为{0.1.1.1.0, mike, 4, 0.1.1}, 其中第4项为关键字所在的主题结点S (person (0.1.1) ) 的根节点Dewey码。主题结点open_auction (0.0.0) 的子结点seller引用了主题结点person (0.1.1) , 在Refer表中记录为{0.0.0, 0.1.1}。

双层索引结构完整记录了图结构XML文档的信息, 在检索过程中通过调用主表找到关键字的信息, 通过调用副表找到关键字所在主题结点的引用信息及被引用信息, 来为检索提供足够的语义信息。

5 算法实现与实验分析

5.1 层次连接 (HJ) 算法

HJ算法的实现, 是基于用户提供N个检索关键字, 找到所有的相关结果片段, 并按照相关度进行排序。

算法1描述了HJ算法的查询过程, keyword [m]表示用户输入的m个关键字 (Line 1—2) 。invert[m]存储了经预处理的m个关键字对应的主题结点列表 (Line 3—4) 。每一个主题结点列表的组合都可能产生一个结果, 根据关键字的查询语义对一个组合进行语义选择, 产生候选主题结点列表singleList[n] (Line 5—8) 。遍历组合中的任意两个主题结点, 进行层次连接, 寻找产生的DAG子图 (Line 9—14) 。对结果进行清理和筛选是边计算边处理的 (Line 15—20) 。最后根据3.2节的排序方案进行排序输出 (Line 21—25) 。

5.2 实验环境

实验数据:华盛顿大学的XML数据仓库中XMARK以及IMDB数据集, 数据集大小分别为10 MB, 121 MB。手动选择8组Query进行测试。

实验硬件环境:CPU:AMD双核2.8 MHz;内存:2 G;操作系统:Windows 7;数据库:MYSQL 5.2。所有的算法用java语言实现。

5.3 查询质量

图3显示出Top-20的XRank[1]和HJ算法的检索质量比较。由于某类关键字组合涉及较多引用关系, 如QX6、QX7, 在XRank上的结果返回为空。

6 总结与研究展望

基于关键字的图结构XML文档上的检索带来了新的挑战, 本文试图通过对关键字的语义分析, 构建基于语义的结果模型进行探索, 从层次结构上分析结果的相关性。实验表明:与主流模型相比, 本模型在查询质量上有明显的优势。

参考文献

[1] Lin G, Feng S, Chavdar B, et al.XRank:ranked keyword search overXML documents.SIGMOD, 2003:16—27

[2] Guoliang L, Beng C O, Jianhua F, et al.EASE:an effective 3-in-1keyword search method for unstructured, semi-structured and struc-tured data.SIGMOD, 2008:903—914

[3] Vagelis H, Yannis P, Andrey B, et al.Keyword proximity search onXML graphs.ICDE Conference, 2003:367—378

基于图理论的检索 篇5

1 资料来源与方法

1.1 资料来源

以“社会办医”“社会参与公立医院改革”为关键词,通过中国知网、万方数据、维普等数据库,检索2009年4月至2015年4月153篇文献,采用Excel进行汇总分析。

1.2 方法

文献汇总分析后,利用鱼骨图定性的方法反映处理问题的过程。因为其不以数值来表示、处理问题,而是通过整理问题及原因的层次来表明关系,但这种定性分析方法主要依赖决策者的经验、知识和能力,存在一定的不足[1]。因此,引入AHP层次分析法模型,对定性问题进行定量化处理,以达到此次研究的目的。

2 结果

2.1 基于鱼骨图分析社会资本参与公立医院改革的影响因素

通过梳理153篇文献,笔者将影响社会资本参与公立医院改革的主要因素归纳为政策因素、组织因素、人员因素和其他因素,见表1。在汇总分析完主要影响因素后,绘制出鱼骨图,见图1。

2.2 影响因素分析

2.2.1 政策因素

主要包括了法律法规、配套政策、补偿机制、监管机制。(1)法律法规主要体现在目前社会资本在参与公立医院改革中尚未出台相关法律法规。从公立医院角度来看,对于公立医院资产的处置形式、历史遗留债务、富余人员出口等关系各方切身利益的具体运作办法,还缺少有效的法律依据[2]。社会资本举办的医疗机构从投资到运营,机构的所有权、占有权、使用权、支配权、经营权等归属问题若不解决,社会资本也很难进入[3]。(2)配套政策主要包括在土地使用、医保定点、人才培养、科研课题、税收优惠、多点执业、项目审批方面,现行的配套政策还不够完善,在一定程度上阻碍了社会办医的发展。(3)补偿机制主要体现在政府对公立医院改制的财政补偿。因为在社会资本参与公立医院改革中,政府对医院的补偿机制决定了医院的产权问题的归属范畴。如果补偿方面政府补偿与社会资本的补偿各占一定比例,政府有权利保持医院国有资产性质,在一定程度上也就保持了医院的公益性质。如果医院的补偿完全由社会资本补充,那么带来的便是国有资产流失,社会公益性质削弱。(4)加快发展社会办医必须加强对社会办医的监督与管理[4]。尤其是加强政府对于社会办医政策执行力度的监管,通过绩效考核、定期检查等手段保障政策真正落到实处,对于执行不力的相关部门应给予一定的处罚。

2.2.2组织因素

组织因素主要是指在推行社会资本参与公立医院改革中主要利益相关者,即政府、医疗机构、投资方。在社会资本参与公立医院改革中,政府制定政策,对医疗机构进行引导、规范和行使监管职能;医疗机构为患者提供服务,投资者参与卫生行业融资,因此,怎样平衡三方间的利益关系,发挥最大政策效应,应是现阶段社会资本参与公立医院改革的现实瓶颈问题。

2.2.3 人员因素

包括医院院长和医务人员对社会资本参与公立医院改革的态度。医院院长是医院院长是医院运行的“总舵手”,是医药卫生体制改革的践行者,也是医疗卫生事业发展的排头兵[5]。而在此次的社会资本参与公立医院改革中,医院院长也在一定程度上起到承上启下的作用,承上表现在接收政府、卫生行政部关于社会资本参与公立医院改革相关任务。启下表现在对社会资本参与公立医院改革政策如何在医院执行并落实。另外,同类研究认为[6,7]:未考虑医院员工的利益,医务人员在改制后既没有得到股份,也没有得到实际利益,大多数医务人员对公立医院改革仍然持保留甚至不赞同的消极态度,存在观望等待心态,主动参与改革的积极性不高。

2.2.4 其他因素

包括医疗保障、医疗市场和患者的就医需求,从卫生经济角度分析,新医改后,广覆盖的医疗保障体系一定程度上刺激了医疗市场的扩大和患者多层次的就医需求。这一客观影响因素,也说明社会资本参与公立医院改革是医疗卫生改革的必经之路。

3 AHP层次分析模型对影响因素的权重确定

3.1 构建目标树

基于上述分析结果,笔者对社会资本参与公立医院改革的影响因素进行分解,建立3层目标树,见图2。总目标集A=(B1,B2,B3,B4),子目标集B1=(C1,C2,C3,C4),B2=(C5,C6,C7),B3=(C8),B4=(C9,C10,C11)。子目标集=(B1,B2,B3,B4,)为一级指标,同理(C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,C11,C12)为二级指标。

3.2 判断矩阵

经设计问卷,专家按照九级判断尺度表(见表2)打分,得到具体判断矩阵,分别对一级指标和各部分的二级指标进行两两相对重要性评分,得到判断矩阵采用层次分析法确定各指标的权重,计算各层指标的权重系数。

注:如果一个指标对另一指标的重要性介于两个评价值之间,可以用2、4、6、8或1/2、1/4、1/6、1/8来表示。

矩阵A,矩阵B1、B2、B3、B4,如下所示。

3.3 一致性检验及排序

利用AHP的计算法则求矩阵的最大特征根并进行一致性检验,λmax为最大特征根,CI为一致性指标,,RI为平均随机一致性指标,CR为随机一致性比率;当CR<0.1时通过一致性检验。结果见表3,

4 讨论

根据鱼骨图,列出影响社会资本参与公立医院改革的因素,用AHP模型对影响因素做进一步分析。政策因素、组织因素、人员因素成为依次影响社会资本参与公立医院改革的主要因子,权重分别为:0.385、0.308、0.231、0.077。综上分析结果,笔者提出以下主要对策建议。

4.1 落实配套政策,加强监管

根据层次分析法,政策因素的影响权重为0.385,政策因素中配套政策0.379。因此,在社会资本参与公立医院改革中,首先应落实配套政策,即制定关于社会资本与公立医院合资、合作、托管等各种形式改革的实施细则。同时,加强政府对于社会办医政策执行力度的监管,充分发挥有关行业协会、社会组织对非公立医疗机构服务质量、服务费用、经营性质等方面的监管作用,建立统一立体的监管体系,实现对非公立医疗机构监管的制度化、常态化,保证医疗质量和医疗安全。

4.2 加强政府责任落实,保证改革顺利进行

在社会资本参与公立医院改革实施中,政府的角色和责任表现为:顶层设计者、监督管理者、利益的协调者等。但是就目前社会资本参与公立医院改革实施中,政府责任与角色还未真正的充分发挥。具体表现为,顶层设计还不完善,监督管理还不具体;政府还需要需要协调公立医院和社会资本方的目标和利益。因此,分析不同级别公立医院的情况,进行顶层设计,针对性地制定合作模式,同时转变政府角色,协调政府和市场的关系,加强政府治理[8]。

4.3 推进院长职业化,提高医务人员待遇

在AHP层次分析结果中,在人员因素中,医院院长和医务人员是影响社会资本参与公立医院改革的又一主要因素。在此次改革实施中首当其中的应是各级公立医院的院长,因为这一系列政策直接影响了院长们的利益。虽然公立医院院长是政府任命,但由于“管办分离”“组建管委会”的推进,院长不会再拥有“拍板决策”的权利,那么“没有实权”的院长,会不会如从前一样为医院的发展尽心尽力?因此首先应推行院长职业化,实施年薪制,提高院长的薪资,严格对院长的考核,使医院“掌舵者”真正在社会资本参与公立医院该改革中发挥“承上启下”作用。此外,在社会资本参与公立医院改革中可能会触动医务人员的利益,主要原因是目前的人事体制度与市场经济体制不相匹配,医务人员还是“单位人”,那么在此次改革中如何转变为“社会人”应是最大的阻力。因此在医务人员待遇方面,应通过“行政手段”与“市场经济”相结合,积极鼓励职工参与医院改革,允许职工个人资本参与其中,提高医务人员的积极性[2]。同时,按照公立医院改革方案,全面推行聘用制度和岗位管理制度。坚持按需设岗、竞聘上岗、按岗聘用、合同管理,建立能进能出、能上能下的灵活用人机制。

摘要:目的:了解现阶段社会资本参与公立医院改革存在的问题,提出对策建议。方法:文献研究法、鱼骨图法、层次分析法。结果:现阶段影响社会资本参与公立医院改革的主要因素依次为政策因素、组织因素、人员因素等。结论:政府应加强责任落实,完善配套政策,推进医院院长职业化和提高医务人员待遇。

关键词:鱼骨图,AHP,社会资本,公立医院改革

参考文献

[1]吴红,常飞.基于鱼骨图和模糊综合评价的有效技术创新识别认定研究[J].科技进步与对策,2013,30(1):33-37.

[2]赵大仁,何思长,张瑞华,等.ROCCIPI理论下的社会资本参与公立医院改革分析[J].现代医院管理,2015,13(2):27-29.

[3]郭琳.社会办医的投资主体和运行机制研究[J].中国卫生经济,2014,33(9):11-13.

[4]严妮.社会办医的新时期:机遇、挑战与对策[J].中国卫生政策研究2014,7(7):68-72.

[5]刘俊,王贤吉,彭颖.医院院长职业化建设:国际经验、国内现状与政策建议[J].中国卫生资源,2012,15(3):217-220.

[6]张少哲,向伟,俞敏洁.医务人员参与公立医院改革积极性的探讨[J].医学与社会,2014,27(10):59-60.

[7]周子君.公立医院改革:让人力资本获利[J].医院管理论坛,2014,31(1):3.

上一篇:海因里希下一篇:小儿扁桃体