优化检索论文

2024-05-30

优化检索论文（共7篇）

优化检索论文篇1

调搜索引擎的重要性, 渲染其无所不能, 而忽略了其他方法;有的教师则生硬、孤立地条块式教学, 割裂了各种信息检索方法的区别与联系, 造成学生面对具体问题茫然而不知所措。实际上, 各种信息检索方法具很强的互补性, 不能笼统地定性孰优孰劣, 一定要放在具体情境中辩证看待, 合理选择。笔者本着活动主题化、问题情境化、搜索趣味化的原则, 设计了三个主题探究活动, 有助于帮助学生理解各种信息检索方法之间的区别与联系。

创设情境, 导入新课。播放一段中央电视台非常6+1的节目视频, 继而提出如果大家也想参加非常6+1节目, 应该具备些什么条件, 怎样报名?

主题活动之一:八仙过海、各显其能———掌握基本的网络信息获取方式

提出任务:查询非常6+1节目的报名条件和报名方式。

合作探究:学生根据自己知道的网络知识和检索技巧上网查询, 并在小组内比较查询效果。教师进行巡回指导。

展示成果:鼓励学生以小组为单位踊跃展示自己查询到的结果, 并说出通过什么途径得到这一结果, 查询用了多长时间。

教师梳理:如果知道中央电视台的网址www.cctv.com, 可以直接访问该网站, 在“CCTV-2”或“名栏目”中找到“非常6+1”。这种直接访问网页∕网站的方法是一种最基本、最直接的网络信息获取方式。如果有的同学不知道中央电视台的网址, 怎么办呢?

主题活动之二:掌握关键词检索, 成为搜索高手———高效获取网络信息

教师导语:在前一活动中, 除了直接访问网页这一基本方式外, 有的同学还用到了搜索引擎, 即分类目录搜索引擎

关键词提炼:学会从复杂搜索意图中提炼出最具代表性和指示性的关键词, 对提高信息查询效率至关重要。给出1~2个贴近学生和社会生活的问题, 让学生提炼搜索关键词。如, 三鹿奶粉事件中的三聚氰胺是一种什么物质?不法奶站为什么要在牛奶中添加三聚氰胺?

拓展问题:搜索引擎中的关键词和我们平时说的关键词内涵和作用完全一样吗?

合作探究:打开百度搜索引擎, 查询自己感兴趣的问题, 如搜索关键词“奶粉三聚氰胺”, 单击列出的信息条末尾的“网页快照”, 你发现了什么问题? (网页中出现的该词语均反色显示)

知识延伸:目前搜索引擎还不能理解人的自然语言, 只能进行关键词检索。能否搜到一个网页, 关键看该网页上是否有你输的词语。因此, 在搜索结果不满意的时候, 换个意思相近的词语也许会柳暗花明。

⒉细化搜索条件, 限定查找范围

教师导语:搜索条件越具体, 搜索引擎返回的结果越精确, 有时通过多个关键词来限定搜索条件, 缩小查找范围。在“体验搜索关键词的重要性”活动中已涉及, 不再安排专门的上机活动。

⒊质疑教材“瑕疵”, 了解逻辑符号的前世今生

合作探究:教材中提到搜索引擎基本上都支持“AND”“OR”“NOT”等逻辑运算符号。打开百度和Google, 根据教材P27页给出的示例进行搜索。

质疑教材:为什么搜索时, 使用AND、OR、NOT无效呢?

知识延伸:在搜索引擎发展的早期, AND、OR、NOT等逻辑符号被普遍使用, 但随着因特网的普及和搜索引擎的大众化, 这些晦涩难懂的符号逐渐被直观易懂的符号代替, 如用“+”代替“AND”表示必须有某个关键词;“-”代替“NOT”表示排除某个关键词。

⒋授之以鱼, 不如授之以渔———“帮助”成就搜索高手

百度、Google等搜索引擎功能强大, 基本语法规则相近, 但各具特色, 同学们如果善于通过“帮助”掌握搜索方法和技巧, 一定能成为搜索高手。

主题活动之三:尺有所短、寸有所长———在线数据库PK搜索引擎

课题1:我校新疆班同学假期返乡, 我们应该如何帮助他们搜索“泰安至乌鲁木齐”的列车时刻?

比较探究: (1) 用百度搜索; (2) 访问中国铁路网 (http://www.tielu.org/) 。哪种方法得到的数据更可靠?

教师提示:对于某些时效性强的专业信息, 搜索引擎就显得力不从心了, 而访问专业的在线数据库, 能保证获取最新的数据信息, 并且数据来源权威可靠、数据准确无误。

课题2:“倡导绿色上网, 拒绝不良信息”是我校本月的德育主题, 如何查阅最近发表在学术期刊上的有关研究成果?

比较探究: (1) 通过搜索引擎百度或Google查找; (2) 通过中国知网 (http://www cnki.net/) , 查询学术期刊数据库。哪种方法更有效?

教师提示:由于公开发表在学术期刊上的论文受知识产权保护, 在知识产权保护有效期内不能放在网上免费下载, 只能访问专业的期刊数据库, 并且注册为交费用户才可查阅相关文章的全文。

教师总结:搜索引擎适合检索大众化的网络信息, 而对一些特定的专业信息就无能为力了, 必须访问相关的专业数据库。因次, 使用搜索引擎和访问在线数据库是两种不同信息获取方式, 各有优缺点, 应根据实际需要区别使用。

优化检索论文篇2

一、我国省级档案馆网站的检索功能现状分析

笔者以中华人民共和国国家档案局网站上的“友情链接”,访问了其所链接的31个省级档案馆(2016年6月份访问)。被访问的档案网站包括18个省(其中台湾省除外,山西、新疆、黑龙江、广东四省档案网站均无法正常浏览),5个自治区,4个直辖市。我们以网站“提供什么档案检索资源”“怎样去检索”“检索的结果怎么样”为中心线索,从检索资源、检索方式、检索帮助和指导、检索结果处理方式四个方面对省级档案网站的档案检索功能进行调查分析。

(一)检索资源。档案网站提供的检索资源是公众获得满意的档案检索服务的基础。通过调查发现:一是档案网站的可检索的资源量少。除北京、天津等网站外,90%的档案网站档案信息资源较少。部分网站档案检索版块只是虚设,无法打开浏览。二是检索提供的资源类型单一。目前档案检索中现行文件的全文检索内容较多,档案全文检索较少,且局限于文字类档案;最后,档案检索范围局限在站内检索,大部分无法实现馆际合作。

(二)检索方式。检索方式直接影响公众的利用效果。在访问的27个省级档案馆中88%的档案网站首页设有“检索”“高级检索”项,还专门设有网上查档版块,19%的网站仅有简单的检索。部分档案网站的检索方式过于简单,而有的则过于专业化。例如高级检索方式下有“档号”“题名”“责任者”“保管期限”等多种检索项,难以理解,易用性较差。

(三)检索帮助和指导。检索帮助和指导是帮助公众了解档案网站中可供查询的档案资源有哪些,怎样去检索查询的一个必要的说明和解释。调查的档案网站中大多的网站没有就网上检索相关操作进行解释说明。调查中仅有4%的网站提供查档帮助,且网站的档案信息分类完善。如北京、天津、湖南等地档案网站提供了可查询档案信息资源的相关说明,也介绍了检索条目如何填写,且这些网站均建有分类检索。

(四)检索结果处理方式。网站呈现的检索结果呈现方式也是影响公众评价检索功能的重要因素。就目录检索结果而言,大部分档案网站只是简单罗列检索结果;就全文检索结果而言,大部分网站不能实现浏览内容的缩放操作。15%的网站提供档案预约、在线申请查档等服务,但是要求用户身份验证、注册,再填写查档申请,等待批复,对于查阅档案极为不便。浙江省档案网站在检索结果中可以选择结果订制、默认排序、相关度排序等,而且检索结果中有偿使用的档案信息需要注册。

二、优化档案网站检索功能的建议

我国档案网站的建设存在着诸多不足,尤其是网站的检索功能,档案工作者任重而道远。

(一)树立以人为本的服务理念,建立服务型的网站。总体看我国档案馆网站建设仍旧未打破“重宣传,轻利用”的局面,档案网站的服务功能定位不清。而档案网站的定位直接关乎档案检索功能的优劣。档案工作者从树立以人为本服务理念着手,将公众的档案信息需求放在第一位,同时加强自身职业素质。

(二)丰富网站档案资源,实现档案资源共享。网站档案信息资源是实现公众检索档案的基础。目前我国各个省级档案馆在档案数字化方面仍需大量投入,网站整体服务效果较差,档案资源的共建共享已经迫在眉睫。

首先,加快档案信息资源的数字化,丰富网站档案资源。通过档案馆数字化的建设,利用网站为用户提供更多的检索资源、多样友好的检索方式。其次,对档案网站资源进行整体规划,整合相关的文件档案数据库,消除各档案馆之间的信息孤岛,实现资源共享。同时加强馆际间的合作,实现共同开发,实现档案资源利用效益最大化。

(三)完善网站的档案检索工具,提升网站检索服务能力。首先,增加网站检索途径,设置个性化检索方式。网站可以针对不同的利用需求和利用习惯设置扩充检索功能,比如模糊匹配和精确匹配、同义词、推荐检索词、分类查询等增加到高级检索中。或者有条件的网站可以借鉴电子商务网站的信息技术设计出个性化的检索方式设计优化现有的网站档案检索功能。

其次,提供档案检索帮助和指导,帮用户提高检索效率。档案网站应为公众有效使用检索系统网站应提供检索资源和检索操作的相关说明,同时可以借助社交媒体的即时性,及时为用户解决检索过程中出现的问题。

最后,优化检索结果处理方式。网站根据利用者信息处理需求的不同和使用的习惯与爱好不同,在检索结果显示内容和方式上增强可选功能。对于检索到的结果,做好后续服务的衔接,如网上预约调卷,全文复制、保存、下载、打印等服务。

摘要：本文以省级档案网站为调查对象,分析出网站的检索服务整体水平较低,档案馆需树立服务意识,丰富档案信息资源,完善档案检索工具。

关键词：省级档案馆网站,档案检索功能,检索工具

参考文献

[1]锅艳玲,段伟峰.完善我国档案网站检索功能之研究[J].浙江档案,2012(4).

[2]刘斌.完善我国档案网站检索功能之研究[J].兰台世界,2013(8).

[3]赵山山.浅谈我国档案网站网上检索功能现状与未来建设[J].档案管理,2009(3).

优化检索论文篇3

1 数据库性能与结构优化

1.1 概述

性能调整最终的目的就是要对系统的性能进行改造, 这种改造是通过改变系统配置、修改系统参数、优化数据库查询等方式实现的, 主要包括对数据库系统配置、硬件配置、操作系统配置等的优化, 本文主要为读者介绍对Oracle数据库的优化。

优化结构指的是以改善系统性能为目标, 调整组件, 降低响应时间, 加大数据库吞吐量。优化数据库性能要遵循一个基本原则:要在能够获得所需数据信息的前提下, 尽可能降低对磁盘的扫描。

1.2 性能评价指标

系统性能会受到系统运行环境、并发活动、服务器响应情况、应用程序体系结构等的影响。大多数人认可的对Oracle数据库性能的评价指标有:磁盘I/O量、内存使用率、数据库命中率、数据库响应时间、系统吞吐量等。下面将就其中几项指标进行进行着重介绍。

系统吞吐量:吞吐量指的是单位时间内数据库完成的SQL语句的数目, 是以每秒钟的事务量 (tps) 为单位表示的。提升系统吞吐量可以通过两种方式来实现:1.降低总响应时间;2.在同一资源环境下提高工作完成量。

磁盘I/O量:在内存或是硬盘中, 每个数据库动作都会产生I/O活动, 是计算机开销最大的方面。在有效减少不必要I/O开销的情况下, 用户任务的吞吐量就会提升, 用户相应时间也对减少, 这是数据库性能指标中最核心的部分。

数据库命中率:Oracle用户所需的数据信息都是在缓存中提取的, 在内存中用户需求的满足度是由缓存器高速缓存命中率来衡量的。在高速缓存的查找中命中的比率就是数据库命中率。

1.3 数据库调整方案

调整数据库内存分配:

系统全局区的一个内存区和一组Oracle后台进程就组成了一个Oracle实例。SGA是系统全局区的简称, SGA的使用率对数据库系统的性能产生很大影响, 在数据库运行时, 要依据其状况对SGA值进行调整。

为Oracle调整系统环境主要可以从下几点着手:修正OS参数配置、修改Oracle服务器配置优先级、调整内存分配配置等。

2 性能调整和优化技术

提高基于Oracle数据库的应用软件的检索效率, 主要在于对Oracle数据库进行优化。

2.1 优化SQL查询

在对SQL语句进行优化时, 第一步要做的就是要对查询语句进行检查, 找出待改进的语句, 如:访问数据库资源时错乱的语句、过度的I/O、不适当的SGA内存结构、效率低的SQL执行、劣质的SQL语句等。可见, SQL查询语句的效率直接影响着数据库系统的检索效率。

2.1.1 SQL语句优化实质

要做到对SQL语句的优化, 就是要在执行结果正确的基础上, 尽量降低对表的搜索和减小扫描I/O次数。其目的在于将效率低的SQL语句转化成为功能相同但性能更好的SQL语句, 以提高检索速度。

2.1.2 查找问题语句

一些SQL语句的结构不良状况是造成语句执行力低的主要原因。有效并准确的对SQL语句的执行情况进行测试, 是有利于发现问题语句和语句优化工作的。在进行优化工作时, 要有策略的寻找语句, 对使用频率高的、资源损耗大的语句可以优先进行检查。

2.2 调整Oracle内存分配

上文我们提到, 对缓存的访问效率是高于对磁盘的访问的, 所以可以通过将数据尽量放在内存中这种方式提高执行效率、减少响应时间等。因此, 对Oracle数据库内存分配情况进行调整, 可以有效提高系统性能。

2.2.1 Oracle内存结构

Oracle数据库的核心是SGA, 在SGA中可以对数据库数据进行高效访问, 在这个系统全局区中的数据是由用户和数据库所共享的。

2.2.2 对SGA的优化

通过对SGA内存结构的调整, 可以有效提升Oracle数据库系统的性能, 从而提高检索效率。SGA有两个重要的区域可以优化:缓存区高速缓存和共享池。SGA的主要功能是可以把数据调入内存以供高效存取, 它的使用和执行效率会对数据库的性能有很大影响。

2.3 优化磁盘I/O

磁盘I/O操作对数据库系统的性能影响是很大的, 同时它也是计算机开销的主要部分。减小磁盘I/O可以通过对Oracle表空间进行整理或是使用聚簇、分区、索引等手段来实现。

3 总结

Oracle是当下使用率最高的大型关系数据库, 在系统中的应用也越来越广泛。在实际操作中, 影响一个大型关系数据库运行效率和实用性的因素有很多, 其中影响最大的就是数据库的性能优化程度。合理的优化方法和技术, 可以达到提升系统的工作效率, 增加Oracle资源的利用率。

摘要：数据库性能的好坏直接影响到数据库的可靠性和实用性。一个已经通过设计而投入使用的大规模数据库系统, 它对环境和需求的适应性是很重要的, 而对它的应用程序实行优化调整是异常复杂的。本文将就Oracle数据库系统的特点对数据库的磁盘I/O、数据存取、系统全局区等方面进行分析, 在使系统应用程序不变的情况下, 对提升系统性能的策略进行阐述, 最终提高数据的检索效率。

关键词：Oracle,索引,性能优化,数据库系统

参考文献

[1]张江.Oracle数据库的性能优化策略浅析[J].现代计算机 (专业版) , 2012, 7 (13) :78-79.

[2]刘栋梁, 李海刚.基于Oracle的网络管理信息系统的设计与实现[J].哈尔滨工业大学学报, 2010, 2 (21) :89-90.

[3]李占红.居民信息管理系统及Oracle 10g数据库优化[D].山东:山东大学, 2012.

[4]李宝祥.语音关键词检索若干问题的研究[D].北京:北京邮电大学, 2013.

优化检索论文篇4

关键词：仿真优化,箱区规划,遗传算法,案例检索

近年来伴随着集装箱码头吞吐量的不断增长,堆场资源变得越来越紧张。如何在有限的空间约束前提下,通过合理的规划和管理来提升作业效率,已经成为码头管理者关注的重点问题。

由于码头生产作业中包含诸多随机因素,数学模型往往很难描述[1],而仿真与优化相结合成为解决该问题的一种有效手段。因此,本文采用仿真优化方法对进出口箱区规划问题进行求解。

针对仿真优化方法中存在的运算时间过长问题,在Lee[2]和Bachelet[3]研究基础上,提出了一种改进的案例检索方法,较好地解决了运算代价过大的问题。

1 仿真模型

1.1 仿真对象

以国内某集装箱码头实际布局为背景,开展仿真模型构建仿真对象中,包含4个泊位,36个堆区,6排码头进出闸口通道,每个泊位分配若干岸桥,每台岸桥配备10台内部集卡,每个堆区配备一台龙门吊,码头内会随机产生若干外部集卡开展作业。

1.2 模型特点

(1)仿真模型能够实现多船作业模拟,对过程的描述能够细化到每台机械的运行过程。

(2)仿真过程以秒为单位,实现细粒度仿真推进。

(3)为节省仿真运行时间,本模型采用数学仿真方式。

2 仿真优化算法设计

2.1 算法原理

仿真优化是一种将仿真模型与优化算法结合使用的一种组合算法,其与传统优化的主要区别在于,仿真程序取代数学公式成为目标评价的方式,主要优点在于仿真程序相对数学模型能够更为充分地考虑到系统中随机因素的干扰,从而更为准确地对不同方案的表现进行评估。优化算法负责将性能参数输入仿真模型,仿真模型负责输出评价指标给优化算法,优化算法再根据评价结果开展进化搜索,并将更优参数再次回馈仿真模型,不断重复评价—优化过程,直至满足终止条件。

2.2 遗传算法设计

(1)编码方案

决策向量采用0~1编码方式:

其中,

(2)适值计算

(3)遗传算子

选择策略:正比选择。

交叉策略:单切点方式,交叉概率0.9。

变异策略:位值方式,变异概率0.05。

(4)停止准则

最大进化代数100,运算停止。

3 基于案例检索的改进方法

3.1 案例检索原理

针对仿真优化方法运算时间过长的问题,可以从两个方面进行努力,一是避免重复仿真,二是通过预测减少表现不好的解的仿真次数。因此,本文设计了一种考虑近似匹配程度的案例检索方法。

3.2 几个基础定义

定义1:相似程度

定义2:完全匹配案例

定义3:近似匹配案例

3.3 案例检索流程

步骤1:在案例库中,是否存在该解的完全匹配案例,如存在,跳转至步骤8。如不存在,跳转至步骤2。

步骤2:在不存在该解的完全匹配案例的情况下,再次检测是否存在该解的近似匹配案例,如存在,跳转至步骤3。如不存在,转步骤9。

步骤3:如果发现该解的近似匹配案例的表现较好时,即它的评价值与最好评价值非常接近,差值小于一个常数M的话,则跳转至步骤5。否则,跳转至步骤4。

步骤5:运行仿真程序,获得解的评价值。跳转至步骤6。

步骤6:对比该解在案例库中存储的评价值,若更优,更跳转至步骤7。否则,跳转至步骤10。

步骤7:更新评价值,跳转至步骤10。

步骤8:将案例库中存储的评价值直接赋予当前解,跳转至步骤10。

步骤9:通过运行仿真程序,获得解的评价值,并将其加入案例库。转步骤10。

步骤10:完成评价值获取后,继续优化算法运算。

3.4 案例检索特点

(1)实现了对已完成仿真结果的有效利用,避免重复仿真。

(2)只将局部最优案例加入案例库,并不是所有的新解均加入案例库,有效缩小了案例库的规模。

(3)通过评估预测,实现对好评价的获得可能性进行评估,从而大大减少了仿真次数。

(4)通过当前解与近似案例的对比,节省了大量仿真运算代价。

(5)通过当前解与最优解的对比,保证了算法的全局探索能力,确保了解的多样性。

4 实验与分析

4.1 仿真参数设计

4.2 案例检索效果分析

案例检索之所以能够实现运算代价的降低,主要源于两点:一是能找到完全匹配案例的解,不需要进行仿真;二是能找到近似匹配案例的解,通过进一步与最优案例的对比,也存在很大可能不通过仿真运算而直接完成赋值。

因此,在实验中,本文记录了算法运算各代中,检索到完全匹配案例的解的个数,检索到近似匹配案例的解的个数以及案例库的规模等数值,如表1所示。

从表1中可以看出,本文所设计的案例检索方法,有效减少了调用仿真程序的次数,从而大大降低了运算时长,而且很好地控制了案例库的整体规模,在问题得到求解的同时,运行时间的问题也得到了有效解决。

5 结语

本文面向集装箱码头箱区规划问题,运用仿真模型与优化算法相结合的仿真优化方法进行求解,并引入了考虑案例匹配的案例检索方法,有效地解决了运算代价的问题,获得了较好的解决方案。

参考文献

[1]于越,金淳,霍琳.基于仿真的集装堆场大门系统规划研究[J].系统仿真学报,2007(13).

[2]Lee L H,Chew E P Manikam P.A general framework on the simulation-based optimization under fixed computing budget[J].European Journal of Operational Research,2006(3).

优化检索论文篇5

P2P网络对网络边缘资源的利用能力近年来被用到信息检索机制研究中[1],文献[2]针对网页缓存资源,提出了基于节点浏览兴趣的相似度计算配置策略,以节点持有信息的语义共享与广播为路由模式。但是由于节点的动态性,用户兴趣受到网络资配置的影响,其语义查询的准确率会降低。文献[3]采取边计算和信息共享含量相结合的策略计算节点的相似度,以带权概念集合中概念树的相似度加权平均进行网络覆盖查询,但是其方法受到初始参数的影响较大。文献[4]提出了一种无结构P2P系统中基于层次兴趣树的语义检索机制,通过将节点中文档信息依据分类目录分成层次兴趣树;但是由于该方法依赖自动分类技术对节点兴趣进行分类,因此其兴趣度计算受参数影响较大;文献[5]提出了基于兴趣域的对等网络动态搜索机制,利用预算值和搜索深度估计值控制参与搜索的节点数目和搜索深度,但是该算法对于兴趣域的边界及其计算没有进行量化。文献[6]提出了基于节点兴趣的非结构化P2P自动搜索机制,对在当前状态下用户访问新节点信息的信息量与当前节点信息量的兴趣相关程度进行了计算,但是用户依据个性化选择的信息量的最终评价质量会影响用户对于兴趣度的计算。文献[7]提出了一种基于用户行为的P2P模型,在该模型中对基于声誉激励的节点兴趣度选择引导策略进行了研究,但是该模型没有考虑用户选择信息量的兴趣度对兴趣树的兴趣相似度计算的影响。基于以上研究,本文提出了节点兴趣域聚类和信息量声誉激励的P2P网络检索机制,通过对P2P网络系统中节点用户的非结构化和兴趣域进行研究,依据兴趣度相似和信息量相似原则进行兴趣域聚类及兴趣树动态构造;结合个性化辅助语义信息量的生成,对网络系统中节点的数据信息量进行声誉激励选择和综合评价更新,并对其实现框架和算法进行了研究,通过实验仿真证明了其有效性。

1 相关知识

定义1 信息量

任意节点N所包含的内容中关键字Key出现的概率 $p_{i} [i \in (1, n)]$ 组成的信息向量成为信息量 $Μ s v (Ν) = {p_{1}, p_{2}, \dots, p_{n}}$ 。信息量 $Μ s v (Ν)$ 表示了节点N中信息的主要内容,通过计算节点的信息量可以快速地进行节点兴趣度计算。

定义2 信息量相似度

若∀节点 $(Ν_{i}, Ν_{j})$ ,节点Ni的信息量 $Μ s t (Ν_{i}) = (p_{1}^{i}, p_{2}^{i}, \dots, p_{n}^{i})$ ,节点Nj的信息量 $Μ s t (Ν_{j}) = {p_{1}^{j}, p_{2}^{j}, \dots p_{n}^{j}}$ ,则节点 $(Ν_{i}, Ν_{j})$ 的信息量相似度如下:

$\begin{array}{l} S i m (Ν_{i}, Ν_{j}) = ω \sqrt{\sum_{l \in (1, n)} (Μ s v_{l}^{i} - Μ s v_{l}^{j})^{2}} + \\ δ \frac{\sum_{l \in (1, n)} Μ s v_{l}^{i} Μ s v_{l}^{j}}{\sqrt{\sum_{l \in (1, n)} (Μ s v_{l}^{i})^{2}} \sqrt{\sum_{l \in (1, n)} (Μ s v_{l}^{j})^{2}}} 。 \end{array}$

其中参数 $(ω, δ)$ 的取值由实验统计获得,其决定了网络系统的信息量的优劣, $S i m (Ν_{i}, Ν_{j})$ 的值越小,节点 $(Ν_{i}, Ν_{j})$ 的信息量内容越接近。

定义 3 节点的兴趣

节点持有数据信息的关注程度,设数据信息为E,则

$S (A ‚ B ") = \max_{(A, B) \in S} [$ longP(E)]=longP[Dep(A,B)] (1)

式(1)[8]中的集合S为数据信息E的兴趣节点集合, $(A, B)$ 为其中包含的具体节点, $Ρ (E)$ 为E被访问的概率, $D e p (A, B)$ 为兴趣树中深度最大的节点,且深度越大,其信息越完整,被访问到的概率越大。

定义 4 节点的兴趣相似度

持有相同数据信息的兴趣树中感兴趣的节点与目标节点间的最短路径。设

式(2)引入LiLI在文献[9]中提出的度量IS-A概念树上两个概念间相似度的函数。本文将其应用到兴趣树节点之间相似度的计算,其中A和B是兴趣树上的任意两个节点,l是它们在兴趣树中的最短路径,h为深度,式(2)表示两个兴趣节点的相似度关于l呈单调递减函数关系;且关于h单调递增。其中α和β用来调整l和h对兴趣树相似度计算的影响,据测试,α=0.2,β=0.6时可获得最佳度量效果的优化值。通过兴趣相似度可将节点的信息量进行基于兴趣的信息分类。

定义5 节点的兴趣域

对于任意节点 $(Ν_{i}, Ν_{j})$ ,若节点的信息量相似值 $S i m (Ν_{i}, Ν_{j}) < Κ_{S (Ν_{i}, Ν_{j})}$ ,即节点的信息量以节点的兴趣相似度为上界,则节点 $(Ν_{i}, Ν_{j})$ 在同一个兴趣度域内。根据节点的信息量相似度和节点兴趣度将网络节点划分为不同的兴趣域 $(D m_{1}, D m_{2}, \dots, D m_{n})$ ,每个兴趣域均有一个域头节点 $(D m_{Ν o d e}, D n)$ ,它记录着兴趣域内节点的信息量和信息相似度。

定义6 兴趣相邻节点

根据信息量相似值 $S i m (Ν_{i}, Ν_{j})$ 和兴趣域可得:

则相邻域头节点 $(D n_{i}, D n_{j})$ 的信息相似度可表示为:

$S i m (D n_{i}, D n_{j}) = \frac{\sum_{l \in (1, n)} Μ s v_{l}^{i} Μ s v_{l}^{j}}{\sqrt{\sum_{l \in (1, n)} (Μ s v_{l}^{i})^{2}} \sqrt{\sum_{l \in (1, n)} (Μ s v_{l}^{j})^{2}}}$ 。

令 $S i m (Ν_{i}, Ν_{j}) < ε$ 时,节点 $(D n_{i}, D n_{j})$ 为相邻节点。ε的值越大则节点Dn的相邻头结点越多,兴趣树的子节点越多,兴趣关注度信息含量越丰富,搜索查询的信息就越准确[10]。

定义7 基于声誉激励的兴趣相邻节点

令文档d的名字集合 $Τ = {t_{1}, t_{2}, \dots, t_{n}}$ ,统计每个词在文档d中的词频,则词频向量为:

$D = {d_{1}, d_{2}, \dots ‚ d_{n}}$ 。

计算向量D中向量的第k个最大值dmax,对于D中的元素进行如下规则的处理:

若di<dmax,则令di=0,否则保持该值不变。

设节点的文档集合为Q,节点的k-高频词汇向量表可表示为:

$Ν = {w_{1}, w_{2}, \dots, w_{n}}$ ,其中 $w_{i} = \frac{\sum_{d \in Q} d_{i}}{\sum_{d \in Q} | D |}$ 。

设用户在当前信息量状态下依据兴趣选择了新的信息量,设为在集合Q的基础上增加了信息dθ,则

$w_{i} = \frac{\sum_{d \in Q} (d_{i} + d_{i}^{θ})}{\sum_{d \in Q} (| D | + | D^{θ} |)}$ 。

对于2个节点的k-高频词汇向量分别为 $(D_{i}, D_{j})$ 的节点 $(Ρ_{i}, Ρ_{j})$ 而言,其兴趣相关程度G为:

$G (Ρ_{i}, Ρ_{j}) = \frac{D_{i} D_{j}}{| D_{i} | | D_{j} |}$ 。

G值越大表示节点 $(Ρ_{i}, Ρ_{j})$ 的兴趣相关程度越高。

而对于用户依据兴趣选择的新增信息量,若符合P2P网络声誉策略[11],则设用户每次的下载和评价可为文件的声誉做增加1或减少1的贡献,当用户选择都进行诚实反馈时,用 $r_{g (t)}$ 和 $r_{b (t)}$ 分别表示好的信息量和恶意信息量的声誉,则:

$r_{g (t + 1)} = r_{g (t)} + α \sum_{j = 1}^{c} g (t + 1 - j) * p_{j}^{c}$ ;

$r_{b (t + 1)} = r_{b (t)} + α (1 - 2 p_{α}) \sum_{j = 1}^{c} b (t + 1 - j) p_{j}^{c}$ 。

其中α表示用户对信息量的反馈评价比,网络系统若将声誉低于阈值r0的信息舍弃,则用户依据兴趣选择声誉好的信息量的概率为:

$p_{g (t)} = {\begin{matrix} Κ_{S} \frac{r_{g (t)}}{r_{g (t)} + r_{b (t)}} ‚ & r_{b (t)} > r_{0} > 0 \\ 1 ‚ & r_{b (t)} < r_{0} \end{matrix}$

。

则声誉激励的兴趣相邻节点阈值ε为:

$ε = S i m (d n_{i}, d n_{j}) \frac{r_{g (t)}}{r_{g (t)} + r_{b (t)}}$ 。

当令 $S i m (Ν_{i}, Ν_{j}) < ε$ 时,我们称节点 $(D n_{i}, D n_{j})$ 为基于声誉激励的兴趣相邻节点。

定义8

用户个性化兴趣值

用户经过词语解析获得的查询关键字 $Κ e y = {k}$ 与节点信息向量 $Μ s v (Ν_{i})$ 的相似程度为用户个性化兴趣值 $U i v (k, Ν_{i})$ ,则

$U i v (k, Ν_{i}) = {\begin{cases} \frac{Μ s v_{k}}{\sum_{l \in (1, n)} Μ s v_{i}} ‚ Ν_{i} 为域头节点 \\ \frac{\sum_{i, j, k \in (1, n)} S i m (Ν_{i}, Ν_{j})}{\sum_{i, j, k \in (1, n)} | S i m (Ν_{i}, Ν_{j}) + S i m (Ν_{j}, Ν_{k}) |} ‚ \\ Ν_{i} 为非域头节点 ‚ (Ν_{j}, Ν_{k}) 为 Ν_{i} 的子节点 \end{cases}$

定义9 节点退出机制与兴趣的无关性

在定义4中我们对节点的兴趣相似度进行了计算,其中利用的是节点间的最短路径,若设其路径为平均路径,则其兴趣树的平均兴趣度为 $\bar{Κ_{S}}$ 。

对于节点Pi的兴趣值Uivi而言,若 $U i v_{i} < \bar{Κ_{S}}$ ,我们说节点Pi的退出与兴趣无关。

否则,节点Pi的退出与兴趣相关,其影响影子 $η = \frac{U i v_{i} + \bar{Κ_{S}}}{U i v_{i} * \bar{Κ_{S}}}$ 。在进行相似度计算时,则需乘以该影响因子。

定义10 词语分析

对用户输入查询语句进行分析,生成有利于检索条件的语义解析过程,其中包括同义词、近义词和歧义分析三个步骤。

定义11 辅助语义

在用户输入语句词语分析的基础上,结合用户使用习惯,检索历史,个人兴趣爱好等,提供给用户参考性的检索词语,帮助其修正合适的、完善的和更加准确的检索查询条件。

2 节点兴趣域聚类和信息量声誉激励的P2P网络检索机制

该模型包括以下几部分组成:(1)人机交互。用户登录后,输入检索关键语句,该系统提供与之相应的语义信息,用户获取数据信息后可根据自身情况选择退出或者继续保留在P2P网络中。(2)网络拓扑结构。该模型基于兴趣节点对数据信息持有程度的高低,依据信息含量的相似度和兴趣度的相似阈值,将具有相同兴趣的节点归为一个兴趣域,并依据兴趣相邻节点计算,构建基于声誉激励策略的兴趣树,进而形成P2P网络拓扑结构。(3)语义分析。对用户输入词语进行同义词、近义词和歧义分析,并在分析的同时使用数据挖掘技术进行关联语义分析,产生辅助语义,提供给用户个性化设置参考。(4)信息检索。当用户确定检索条件时,首先在P2P网络中发布借阅消息以确定可提供数据信息服务的在线节点,然后在满足数据信息服务节点的邻域范围内进行分布式搜索。(5)综合处理。对检索结果进行无效链接,空链接,冗余数据等去除处理,并依据兴趣相似度和用户个性化需求,对搜索结果进行关联度排列,以呈现给用户满足其需求的数据信息,同时对满足本次搜索的节点进行兴趣树更新,把用户选择的辅助语义和个性化设置添加进用户个性化列表。

该系统基于节点加入与退出对节点的兴趣树进行即时更新,保证了持有相同数据信息的节点始终在同一邻域范围内,提高了系统的检索效率;对用户输入词语的语义分析与辅助语义的结合,根据借阅消息判断能够提供服务的在线节点,对网络缓存的分布式搜索,对用户个性化设置的即时更新等,使该系统更符合用户对信息检索服务的需求。框架图如图1所示。

3 算法分析

该算法首先要进行基于服务个性化和节点信息声誉激励的P2P网络拓扑和兴趣树构造,然后在信息量相似度范围内对兴趣度相邻节点进行兴趣相似度匹配,其中资源库为网络缓存资源及节点持有资源,具体算法分析如下。

3.1 兴趣域聚类的P2P网络兴趣树生成

算法图如图2所示。

3.2 P2P网络信息检索机制

算法分析图如图3所示。

4 实验仿真

实验的配置环境为:同一网络环境的PC机,其配置为Intel Pentium 1.73GHz微处理器、Windows 2000 Professional操作系统、缓存为128 M RAM,编程环境为VC++2005 ,P2P协议采用BestPeer。实验数据集参考文档集TREC[12],TREC文档中的数据广泛应用于P2P网络数据测试,实验时随机抽取5 000份文档信息,使得每个节点持有一份文档信息。实验开始时首先通过本文系统对文档信息进行兴趣树构造和P2P网络的拓扑结构生成,然后进行信息检索评测。本实验采取信息检索中常用的三个指标进行评测,其中包括检全率V,检准率B和G值[13],其具体定义如下:

$V = \frac{Ι}{W} \times 100 %$ ; $B = \frac{Ι}{R} \times 100 %$ ; $G = \frac{2 B V}{B + V}$ 。

其中I表示经检索得到的满足检索方法的兴趣树个数,R为兴趣集合个数,W为可供选择的信息量,G为综合评价指标。实验时,对四种不同兴趣度的数据信息E进行分布式检索,实验数据如表1所示。

从表1可以看出该算法具有较好的搜索效率,由综合评价Q值可以看到,该系统的检索服务是高效和准确的,基本上实现了个性化实时搜索功能。同时将该算法与文献[14]和文献[15]的检索效率进行了对比,具体如图4所示。

从图4可以看出随着节点个数的增长,各算法执行所需的时间都在增长,其中本文的算法相对而言时耗增长较慢。初期时,基于频繁使用公共数据缓存的文献[14]在节点规模较小时采取随机路由具有一定的优势, 而文献[15]和本文算法则由于需要进行兴趣树和语义分析,算法时耗较大,较低。但当节点规模逐渐增大时,基于语义维层次链的文献[15]和本文算法的执行效率优于文献[14],这主要是因为基于语义和兴趣域的路由要优于随机路由,但是由于本文算法中对于兴趣域的相邻节点进行了定义和阈值分割,基于相邻节点的搜索要优于文献[15],所以其算法在节点规模较大时具有较好的执行效率。

5 结束语

通过对节点兴趣度和信息量的相似度计算进行研究,以节点的兴趣域聚类为方式进行兴趣树动态构造,将持有相同数据信息的节点进行兴趣分类,进而构成非结构化的P2P网络系统,然后结合用户输入关键词的辅助语义对兴趣节点进行信息向量抽取,并对最优声誉节点进行激励更新。实验仿真对该算法的搜索有效性和执行效率进行了验证,下一步需要对模型和算法设计参数变化对实验效果的影响展开研究。

摘要：为了解决P2P网络系统信息检索效率低、不能有效解决跨文本搜索,提出节点兴趣域聚类和信息量声誉激励的P2P网络检索机制。在该机制中,首先对网络系统中节点持有的数据信息量进行基于相似度和兴趣度阈值的兴趣域聚类;然后依据节点数据信息的声誉激励策略对兴趣相邻节点进行兴趣树构造,同时对用户输入的搜索关键字进行语义分析和个性化的辅助语义选择。将与查询信息向量最接近的节点持有信息量返回给用户,并对该数据信息量进行声誉激励评价和更新。实验仿真证明,该算法基于兴趣树的动态构造,能够避免结构化P2P网络系统对中心节点的过度依赖;同时检索的向量是基于用户个性化辅助语义生成的,能够有效地提高查询率和查准率。

优化检索论文篇6

随着信息化建设的不断推进以及信息技术的快速发展,为适应多元化业务发展需要,多个业务系统随之建设,产生了大量的以不同方式存储、依赖于不同数据库管理系统的数据。例如业务数据分别存储在SQL Server,Oracle数据库中[1],在这些异构数据库[2]平台上运行着业务相关的多种应用系统。如何在不影响现有系统运行的前提下,最大限度地利用信息资源,避免重复开发,必须解决异构数据库的统一操作问题。如何快速有效地采集异构数据库中的信息,建立综合信息资源库,实现数据共享,是本文需要解决的问题之一。另外,面对综合信息资源库中的大量数据,怎样在业务应用中实现快速、有效、全面的检索效果,提高数据的利用性,也是本文需要解决的另一问题。

本文围绕基于J2EE技术架构的多个业务应用系统开展研究,其信息来源十分广泛,包括现有的业务管理系统、文件系统、文档资料等。而各个系统的数据存储方式、存储结构、数据库类型均不相同,如何在异构的存储环境下实现稳定可靠的数据共享和数据采集是本文设计的要点之一。同时,业务数据涵盖日常应用中的所有资料、文档等信息,信息类型复杂多样,包括结构化信息、非结构化信息、文件(DOC,PDF,txt,Excel,HTML)等多种格式。系统数据量随着日积月累会越来越大,要在这样大量复杂的数据中实现对多种类型信息的高效准确检索也是本文设计的另一要点。

基于上述分析,本文采用了Oracle数据库的Oracle Transparent Gateway[3,4],Oracle Text[5,6]等技术。在设计采集检索功能时,不仅要满足异构数据库环境下数据的实时采集和共享,还要支持权限控制[7,8]下对多种类型、多种格式文件内容的高效检索。

1 数据采集与全文检索方案设计与实现

1.1 系统框架设计

在Oracle Transparent Gateway,Oracle Text组件的基础上,结合权限控制,本系统实现了高效简洁的数据采集与全文检索功能,系统框架设计如图1 所示。

系统数据来源于异构SQL Server数据库、Excel文件和本系统的文档资料。针对不同数据源,SQL Server数据库采用“采集—处理—导入”的数据层集成方式,实现了异构数据向本系统数据库的迁移,Excel文件和本系统的文档资料通过导入、手工录入方式将资料信息装载入库,自动建立全文信息索引,为实现全文检索奠定基础。全文检索建立于权限控制体制之上,首先由用户提出检索请求,待全文检索模块处理后进入综合信息库进行关键词检索,之后将检索匹配的结果传递给权限审核模块,然后在检索记录中过滤出可供用户查阅的信息,并将过滤后的信息经检索结果处理模块处理后存储于用户临时存储区供用户浏览查询。用户浏览资料详情时,必须同时具备对资料所属目录的查看权限和对资料的查看权限才能查看资料。

1.2 系统实现

(1)数据库设计

综合考虑系统采集检索需求,需要采集的数据类型包含数字、字符、日期、文本等,需要检索的资料信息分为三类:字符类型(varchar2)、大文本类型(clob)、非结构化blob类型数据(DOC,PDF,txt,Excel,HTML)。数据库设计采用了反规范化设计方式,需要检索的资料信息按其数据类型分别存储在三张表:资料内容1、资料内容2、资料内容3 中,每张表中均用记录ID、资料类型ID、资料表ID、资料表记录的ID、资料表记录的字段ID进行关联。系统资料与权限管理的数据库设计见图2。

(2)数据采集与存储

系统的数据来源主要有三部分:采集日报资料、导入重点资料和现行文档资料。日报资料来源于基于SQL Server平台的管理系统,系统采用Oracle Transpar⁃ent Gateway实现与SQL Server的无缝连接,采取“采集—处理—导入”的数据层集成方式,实现了异构数据向本系统数据库的迁移;重点资料为系统用户批量导入的Excel信息;现行文档为DOC,PDF,txt,Excel,HTML等格式的文档资料。重点资料的批量导入和文档资料的手工录入在应用层实现。日报资料的采集是在数据层采用Oracle Transparent Gateway连接SQL Server,由PL/SQL编程实现。Oracle Transparent Gateway的采集过程见图3。

在采集服务器上安装Oracle Transparent Gateway for SQL Server,完成配置透明网关相关参数、listener.ora、tnsnames.ora。在Oracle端创建链接SQL Server数据库的database link,发出查询需求,SQL Server通过Transparent Gateway识别出Oracle端发出的查询需求,获取查询结果记录集,记录类型主要包括数字、字符、日期、文本等,Transparent Gateway将记录集数据转换为与Oracle兼容的数据,并返回给Oracle服务器,存储在临时表中。通过临时表上的行级触发器将不同字段类型的数据导入到对应的信息资料表中。

(3)创建索引和索引同步

系统采用CONTEXT类型索引,它支持并行检索方式,在创建本地CONTEXT索引时,需要设置并行度和系统资源属性。在执行检索任务时,并行协调器依据创建索引时设置的并行度和系统资源属性调用多个从属进程对全文索引进行并行检索。每个从属进程对应于全文检索的一个或多个分区,当检索任务完成后,协调器负责将各个检索结果进行汇总并传递给用户。本系统分别对资料内容1、资料内容2、资料内容3 的“存储字符”、“存储大文本”、“存储二进制文件路径”创建并行分区全文索引。

本系统在创建全文索引的同时采用了索引同步机制,原因是当资料内容1、资料内容2、资料内容3 表中发生DML操作后,基表上对应的全文索引不会自动更新,需要手动对其更新,在此之前是不能检索到基表中的新内容,因此需要调用CTX_DDL.SYNC_INDEX存储过程手动同步索引。

(4)检索存储过程

为实现文档信息的全文检索和权限过滤,本文的检索存储过程采用了如下核心SQL语句:

2 系统优化

为了提高数据库性能,加快应用系统的检索速度,系统采用了以下方法进行优化。

2.1 采用分区表技术

系统在设计资料内容1、资料内容2、资料内容3 时采用了按范围分区的分区表技术[9⁃11],可以将大表分成多个存储单元,避免了系统资料信息表作为一个大的、单独的对象进行管理,提高了大量数据的伸缩性。

通过采用分区表技术,实现了对资料信息表的多分区管理,每个分区对应一个小的存储单元,每个存储单元可以单独操作管理。检索时采用多分区并行处理技术,减少时间开支,提高执行效率,还可通过采用屏蔽故障分区技术,确保数据检索的可靠性。

2.2 优化检索响应时间

在大规模数据检索过程中,用户期望在最短时间内看到检索结果,可采用快速返回前几条检索结果的方式显示给用户。在编写查询语句时加入FIRST_ROWS提示,可以使查询优化器以较快的查询速度将前几条检索结果传递给用户,避免了在整个查询任务结束后方能浏览检索结果的局限性,满足了用户快速检索的需求。

另外本系统在创建CONTEXT索引时采用了索引分区技术,为分区表创建相应的分区索引。这样在检索过程中,只需要检索相关的分区,特别是对于分区键列上的范围搜索和排序,可避免全表扫描过程,能够显著缩短检索响应时间。

2.3 定时优化全文索引

全文检索对象所在的基表经DML操作后,其相应的全文索引不会自动更新,有必要采用全文索引同步机制。同时频繁的索引同步操作会导致索引的碎片,过多的碎片会降低检索的效率,因此,需要对全文索引进行优化。

例如资料信息中包含关键词“优化”的文档有doc2,doc6,doc7,当含有关键词“优化”的doc8 被存储之后,倒排索引会单独为doc8 文档创建一条索引条目,从而产生了碎片。系统采用CTX_DDL.OPTIMIZE_INDEX存储过程对索引进行优化,可以避免碎片的产生,由于系统创建CONTEXT索引采用了分区索引技术,因此需要对每个分区进行索引优化。Oracle Text仅提供了一种手动索引优化方式,本系统采用dbms_scheduler调度的create_job创建作业,可定时自动优化全文索引。

2.4 定期维护统计信息

在Oracle较新版本中查询优化器采用了改进的CBO(基于成本的优化器)[12],根据收集的系统统计信息和对象统计信息对查询计划成本进行计算,最终实施选用最低成本的查询计划。这就需要对系统统计信息和对象统计信息进行实时更新,以确保CBO有良好执行计划。为获取最新系统统计信息和对象统计信息,系统将收集表统计信息过程DBMS_STATS.GATHER_TA⁃BLE_STATS和收集索引统计信息过程DBMS_STATS.GATHER_INDEX_STATS写入Oracle的自动维护作业中,定期自动执行,确保统计信息的实时更新。

2.5 存储优化

若将blob格式的数据存储在数据库中,随着数据量的增大,将导致全文索引的膨胀率随之增大,不仅占用较大的存储空间,增加管理维护难度,而且还会影响I/O效率。为此,系统采用了将blob格式(DOC,PDF,txt,Excel,HTML)数据存储在外部专用存储设备上的存储方式,使Oracle Text以FILE_DATASTORE方式进行数据访问。另外采用了Oracle的ASM(自动存储管理机制)以优化I/O资源实现负载均衡。通过创建ASM实例,系统可以自动将数据均匀地存储在不同通道的不同磁盘上,实现I/O请求的均匀化,并将对文件的操作改为对磁盘组的操作,可显著提高I/O性能。

3 系统测试分析

系统开发完成后,重点对检索速度和查准率进行了测试,测试过程如下:对于检索速度的测试,采用Ora⁃cle Text对1 000 个Word,PDF格式文档循环插入生成的50 万条记录进行了查询时间测试;对于查准率的测试,分别用微软和Adobe的搜索工具对1 000 个Word和PDF文档进行10 组关键词的检索,两者的检索结果合并后作为基准,与Oracle Text全文检索结果进行比较,以确定Oracle Text检索功能的准确性。

系统测试环境中戴尔R720 服务器CPU为2×4 核E5620 2.4 GHz,内存为12 GB,操作系统为redhat 5.5Linux,Oracle数据库版本为Oracle 11g R2 11.2.0.4。选取50 万条文档资料作为测试对象,在1 000,10 000,100 000,200 000,500 000 条数据规模下对Oracle Text检索分别进行了20 次测试,取其平均值作为测试结果,结果如表1 所示。

测试结果表明:数据库表中的记录在50 万数据量级的测试条件下,Oracle Text的检索响应时间小于1 s,平均查准率为88%,可以满足用户需求。

4 结语

本文采用Oracle Transparent Gateway,Oracle Text等关键技术,结合权限控制,给出了应用系统数据采集与全文检索的方案设计与优化。该方案具有运行效率高、简单快捷等优点,可以有效地采集业务系统中的异构信息资源,提供对多种类型、多种文件格式内容的高效检索。

从该方案应用前景来看,其异构数据库采集功能较强,不仅支持SQL Server数据库,还可扩展至Sybase,DB2等数据库。

参考文献

[1]魏永丰,刘立月.异构数据库系统中的Oracle与SQL Server数据共享技术[J].华东交通大学学报,2005,22(1):92-94.

[2]郭东恩,沈燕.Oracle透明网关技术实现异构数据库互连[J].电脑开发与应用,2008,21(9):58-59.

[3]蓝永健.利用Oracle透明网关技术进行系统整合的研究[J].广东第二师范学院学报,2008,28(5):92-96.

[4]Oracle Corporation.Oracle 11g database documentation:gate-way for SQL server user’s guide,11g release 2[R].Califor-nia,USA:Oracle Corporation,2009.

[5]Oracle Corporation.Oracle 11g database documentation:textapplication developer’s guide 11g Release 2[R].California,USA:Oracle Corporation,2009.

[6]Oracle Corporation.Oracle 11g a documentation:text reference[R].California,USA:Oracle Corporation,2009.

[7]熊志辉,王德鑫,王炜,等.基于Oracle的多权限多格式文档组织与检索系统[J].计算机应用,2008,28(9):2407-2409.

[8]朱松岩,叶华平,李生林,等.基于多层授权体制的档案全文检索系统设计与实现[J].后勤工程学院学报,2005,21(1):57⁃60.

[9]李瑞丽,钱皓,黄以凯.基于Oracle大数据的全文检索技术研究与实现[J].微型电脑应用,2013,29(1):18⁃21.

[10]李尚初.Oracle的全文检索技术[J].哈尔滨师范大学自然科学学报,2009,25(4):92⁃95.

[11]Oracle Corporation.Oracle 11g database documentation:per⁃formance tuning guide[R].California,USA:Oracle Corpora⁃tion,2009.

基于镜头检索的视频检索算法研究篇7

由于将一段视频的每一帧都转描述成数学特征向量是非常耗时并且难于计算的, 目前常用视频检索做法是以镜头为最小检索单位, 镜头是视频内的一部分连续场景, 一般以摄像机的一次开关为界限, 一个镜头内的视频帧具有较高的相似度。镜头检索并不是提取一个镜头的特征向量, 而是提取镜头的关键帧的特征向量, 用关键帧代表镜头, 进而计算关键帧的相似度, 从视频数据库中检索得到和待检索关键帧语义相似的关键帧, 这样就找到了相似度较高的关键帧和该关键帧代表的镜头, 视频检索就转换成了关键帧检索。

目前基于内容的视频检索主要包括以下几个研究方向:一、镜头检测, 镜头是视频的基本构成单元, 将一段视频根据拍摄的场景的不同分割成多个镜头是研究的一个重点。二、关键帧提取, 从镜头内检测出当前镜头的关键帧, 从语义上表示该镜头, 并提取关键帧的特征向量从数学上描述该镜头。三、基于内容的图像检索, 在提取完视频的关键帧之后, 视频相似度对比就转变成了关键帧相似度对比, 视频检索就转换成了关键帧检索, 关键帧本质上是一幅图像, 基于内容的图像检索也是研究的一个重要方向。

基于内容的视频检索算法从检索范围上来分有两种, 一种是视频全局检索, 一种是关键帧检索, 全局检索是对视频的所有帧进行检索匹配, 关键帧检索是用一个视频的关键帧代表这个视频, 全局检索的准确率更高, 但是由于视频的数据量很大, 一个30分钟的视频, 在每秒30帧时, 其视频帧数就达到了54000帧, 对如此数量的视频帧进行特征提取, 相似度计算无疑是一个浩大的工程, 所以目前一般采用的是基于关键帧的检索。

视频检索过程中的关键技术中包括镜头检测、关键帧提取和关键帧对比, 应用这些关键技术实现一次完整的视频检索。但是由于每个视频有多个镜头, 每个镜头又存在多个关键帧, 检索过程中计算量很大, 所以本文希望做预处理, 对镜头预先进行分类, 这样在用户检索的过程中, 只要根据自己待检索镜头所属的分类, 只检索对应的分类即可, 可以节省了大量的检索时间。

2. 镜头聚类

视频检索应该以镜头为单位, 将镜头作为视频检索的最小单元, 由于视频检索的计算量很大, 所以在检索之前最好对所有已经分析完毕的镜头进行聚类, 这里本文采用基于网格的聚类方法, 根据镜头的首个关键帧对镜头进行聚类基于网格的聚类方法, 如下图2所示, 将一个二维空间平均分成多个聚类, 根据拿到的对象, 通过算法直接确定物体所属的类, 对于图中属于区域11、12的两个点, 虽然距离很近, 但是根据聚类算法, 两个物体仍然分属两类, 属于边界限制的一种。对于本文的镜头聚类来说, 是将HSV空间向量的距离值分成多个块, 当拿到一个镜头的HSV特征向量时, 可以直接计算出该镜头所属的分类, 基于网格的聚类方法特点是快速, 只有一个特征向量也可以直到其所属的类。

由于空间向量的值的不确定性, 所以空间网格的划分造成一定的难度, 首先利用公式4.2对HSV颜色空间的各个分量进行归一化操作, 保证各个向量的值在0-1之间, 之后利用公式4.4计算, 图2基于网格的聚类这样, 所有视频帧的距离就可以保证在0-1之间, 就完成了视频帧特征向量的归一化, 并进行下一步的网格聚类。本文根据向量到 (0, 0, 0….0) 的距离直接计算向量所属网格, 本文简单的将网格设为100, 即距离 (0, 0, 0, 0, ) 乘以1000后, 距离值在0-10之间的属于类1, 聚类在10-20的属于类2, 依次类推, 确定视频帧所属网格类。

3. 镜头检索算法

在本文中, 将镜头作为检索的最小单元, 用户选择一个镜头, 并检索出相关镜头, 镜头作为检索结果反馈给用户, 用户可以根据检索出的镜头查找出包含镜头的视频。首先用户提交待检索视频, 经过前面的镜头检测算法, 将视频分解成镜头之后, 提供给用户两种检索模式, 单帧检索模式和多帧检索模式。单帧检索是用户由用户选择其中一个镜头, 并选择其中的一个或者多个关键帧进行检索, 当用户选择一个关键帧时, 首先对选择的关键帧进行网格聚类, 计算出待检索关键帧所属的聚类, 然后连接数据库, 从数据库的关键帧表中, 根据聚类结果, 检索出相似度较高的关键帧。例如对关键帧进行网格分析后, 发现该关键帧属于A类, 则从数据库中只对A类的关键帧进行相似度对比计算, 这样就节省了大量的时间, 在计算完毕后, 将这些相似度较高的关键帧列出来, 供用户选择, 用户选择出自己满意的关键帧之后, 根据数据库中的关联关系, 可以在数据库中直接检索出该关键帧对应的镜头和视频, 显示给用户, 即完成了一次视频检索。

当用户选择了多个关键帧进行检索时, 设关键帧用K1-Kt表示, t表示用户选择检索的关键帧数目, 首先根据第一个关键帧K1进行检索, 同样是首先进行网格分析, 得出距离最近的N个检索结果, 之后从N个结果中的第一个开始分析, 设第一个结果视频V有V1-Vm个关键帧, 当前关键帧K1和Vt相似度较高, 则从Vt-Vm循环和K2进行相似度计算找到第一个距离小于阈值t的视频, 如果循环完毕没有找到, 则从检索结果中去除v视频, 如果找到相似度小于阈值T的关键帧Vp, 继续在Vp-Vm中寻找K3, 直到Kt都在V中寻找到, 如果有Ki没有在v中相似度满足阈值, 则将视频V移出检索结果序列。本算法依次查找, 是充分考虑时间轴的影响因素, 在检索完毕后, 对检索结果进行二次排序并显示给用户。

4. 实验结果

对数据库中5000副图片进行分析, 首先要提取这5000副图片的特征向量, 本文选择7维的形状向量、8维的纹理向量和71维的颜色向量, 在提取完5000副图像的特征向量后, 对每一维取最大值和最小值, 然后利用公式对这5000副图像的所有特征向量进行归一化处理, 保证每一维的向量值都在0-1之间。经过统计发现, 98%以上的图片距离向量 (0, 0, 0, 0….0) 的距离在70-130之间。

所以本文就可以从70-130之间进行聚类, 分别以距离10聚类, 对一个镜头内的图片进行分析, 对镜头的内的所有图片进行分析, 设间隔是d, 对镜头的首帧进行分析, 确定镜头首帧所属类, 并查看其余帧所属类, 对10个镜头进行分析, 分别取d=10。第4类图片的截图如图4所示:

通过聚类发现, 例如下图中的5139和5382等, 通过聚类可以有效的将相似的图片聚类在一起, 在检索过程中可以减少对比的数量, 降低检索时间, 但是同一子类的图片之间也存在很大的不相关性, 说明每类之间有较大包容性和相似性。

5. 结束语

本文提出的视频检索算法在电视台视频管理系统中已经得到了很好的应用, 经过长期的实践表明该算法在同类算法中检索速度大大的增加。

摘要：在视频检索过程中每个视频有多个镜头, 每个镜头又存在多个关键帧, 检索过程中计算量很大, 本文提出基于镜头检索的视频检索算法, 并建立一个模型, 用于用户检索视频, 向用户提供单帧检索和多帧检索两种检索模式。通过测试表明本文的视频检索算法能够很好的检索视频内容。

关键词：视频检索,镜头,算法

参考文献

[1]Muneesawang P, Guan L.An interactive approach for CBIR usinga network of radial basis functions[J].IEEE Transactions on Multimedia, 2004, 6 (5) :703-716.

[2]Tang J, Acton S T.A decentralized image retrieval system foreducation.IEEE Information Engineering Design Symposium[C].2003:7–12.

【优化检索论文】推荐阅读：

检索平台论文09-29

医学检索论文11-24

论文检索11-28

文献检索论文10-23