文献检索系统开发研究论文

2024-06-22

文献检索系统开发研究论文(精选12篇)

文献检索系统开发研究论文 篇1

随着信息技术在传统教育教学领域的逐渐渗透, 传统的统一命题, 统一时间组织考试的纸质考试方法以及传统的题库方式已不能满足某高校文检课考试的需要, 因此, 急需一种新的基于网络平台的考试方法:同一考场内, 每个学生的检索题目不同, 学生通过在计算机网络上进行实际的操作, 给出检索结果, 这种考试方式能够反应学生的实际学习水平, 而且杜绝了考生考试作弊的可能性, 提高了考试的公平性。而且有效地解决了监考老师人员不够的问题。文献检索课考试系统拟解决某高校文献检索课考试的无纸化、自动化、现代化问题。

1. 某高校文献检索课考试现状以及系统的重要性

目前, 某高校文献检索课考试不同于常规的考试方式, 教师在开考时给出检索项目标题, 考生随机抽取其中一个检索项目标题, 然后根据检索项目标题, 分析并给出其关键词, 主题词, 中文分类号, 采用计算机考试, 通过计算机网络直接检索学校采购的数据库以及Internet上免费的数据库, 根据检索结果给出数据库检索情况。因为考生的检索项目标题不同, 虽然每个学生的题型是一样的, 但答案却是不同的。这种考试方式不仅在技术上避免了考生作弊, 而且考查了学生获取文件信息能力的程度, 同时实现了学校开设文献检索课以提高大学生文献检索能力的重要目标。

随着计算机技术以及计算机网络技术在高校的充分普及, 为了满足文检课考试无纸化的需要, 急需开发一个文检课考试系统。这个系统应该具备以下功能: (1) 按教师分别储存教师给出的检索项目标题, 这样可实现对检索项目标题的管理; (2) 学生登录系统, 随机抽取一个检索项目标题, 在系统中答题; (3) 保存学生考试答案; (4) 提供教师改题界面, 并统计学生分数。本系统的开发利用, 解决了某高校文检课考试无纸化、自动化、现代化问题。减少了教师简单重复的劳动, 使其可以把更多的精力用于题目的设计, 解决题目的科学性问题, 以提高考题的质量。本系统的研究开发采用软件工程的方法来实现, 包括可行性研究, 获取需求分析, 系统设计, 网页设计, 编码等步骤[1]。

2. 开发本系统的可行性

开发一个基于B/S架构的软件系统会受到时间、资源、经济等方面的限制, 所以在系统开发之前, 应该进行可行性研究, 从而避免贸然开发而造成的时间、人力、经费等方面无谓的浪费。可行性研究的任务不是研究如何解决问题, 而是研究这个项目是否值得去开发, 要用最小的代价、在最短的时间内确定问题是否能够解决[2]。

2.1 经济可行性

本系统的开发成本不是很高, 而且有校科研基金的支持, 在经济上是可行的。

2.2 政策可行性

本项目得到了学校和图书馆的支持, 也没有违背法律法规, 在政策上是可行的。

2.3 模式可行性

本系统在局域网内运行, 对信息安全的要求高, 交互性强, 处理数据量大, 采用B/S架构[3]。系统运行在Windows上, 开发环境为Microsoft Visual Studio。本单位工作人员对Microsoft SQL Server较为熟悉, 因此更加容易操作, 同时由于系统的数据量不大, 数据库为Microsoft SQL Server2005[4]。

2.4 技术可行性

本系统实质上是一个信息管理系统, 包括教师客户端、学生客户端、服务器端。系统的功能模块包括教师登录、学生登录、学生基本信息录入、教师基本信息录入、考题录入、改卷、统计分数、分数导出、抽题、答题、交卷等, 每个功能模块都是可实现的, 系统的整体开发在技术上是可行的。

2.5 组织和人力资源可行性

某高校文检课考试急需一个稳定运行的考试系统, 因此, 本系统的开发和利用得到了领导的大力支持。在获取用户需求分析阶段, 得到了文检课老师的大力支持, 因此, 较容易、较精确地获得了用户需求, 为后期的项目开发提供了坚实的基础。本人在图书馆工作多年, 熟悉图书馆的业务工作, 与图书馆的各位老师相处融洽, 因此, 在项目开发过程中, 较容易地理解问题的内涵和外延, 精准地了解问题的本质, 并且能够得到各位老师的配合帮助。本系统的编码人员是一位有多年软件开发经验的软件工程师, 其高超的编码能力保证了系统的最终实现。

至此, 经过上面的分析, 该系统开发是可行的。

3. 获取需求分析

需求分析阶段的成果有实体属性、实体关系图、数据流图。经过分析, 本系统的实体有:学生、教师、考试题目、考试科目。每个实体有其相应的属性, 其相应的属性分别为:

学生:学号、姓名、性别、班级、账号状态、密码、证件、证件号码、电话;

教师:工号、姓名、性别、单位、级别、职务、密码、权限类型、证件、证件号码、电话;

考试题目:题目编号、题目名称、题目级别;

考试科目:科目编号、科目名称、考查方式。

这些实体之间有一定的关系, 其实体关系图如图1所示。为了便于用户表达功能需求和数据需求及其联系, 便于两类人员共同理解现行系统和规划系统的框架, 清晰表达数据流的情况, 有利于系统建模, 图2为数据流图。

4. 系统设计

系统设计阶段的主要任务有:进行模块划分, 获得模块结构图, 如图3所示;根据需求分析阶段的实体关系图, 设计出能满足本系统功能的数据库。

本系统的数据库表及其相应的属性为:

5. 网页设计

本系统的用户分为3类:超级管理员、教师、学生, 他们的身份不同, 权限也不同, 可以访问的页面也不同, 不同身份所能访问的网页如表1所示:

6. 编码 (关键功能的代码)

本系统的核心部分是学生的登录、随机抽题、下载考试试卷、上传答案, 其中随机抽题是重点、难点, 实现其功能的部分重要代码如下:

6.1 创建与数据库的连接

Connection String Settings Collection connections=Configuration Manager.Connection Strings;

string str=connections["ATSConnection String"].Connection String;

cn=new Sql Connection (str) ;cn.Open () ;

6.2 获取调度Index (Schedule Index)

s tring s Sql="select Schedule Index from Exam Schedule where Examiner IDF='"+exf.Selected Value+"'and ExaminerIDS='"+exs.Selected Value+"'and Start Time='"+st.SelectedValue+"'and End Time='"+et.Selected Value+"'";

cm=new Sql Command (s Sql, cn) ;dr=cm.Execute Reader () ;int Sche Index=-1;

if (dr.Read () ) {Sche Index= (int) dr[0];}dr.Close () ;

6.3 获取选定类别的考试题目的总数量count, 然后产生1到count间的随机数

s Sql="select*from Subject Radom where Category='"+ca.Selected Value+"'";

cm=new Sql Command (s Sql, cn) ;dr=cm.Execute Reader () ;int count=0;

while (dr.Read () ) {count++;}Random rand1=new Random () ;

int ran=rand1.Next (count) ;dr.Close () ;

6.4 获取Subject Radom中第ran个考试题目和Subject ID

s Sql="select Subject ID, Subject Name from Subject Radom where Category='"+ca.Selected Value+"'";

cm=new Sql Command (s Sql, cn) ;

dr=cm.Execute Reader () ;

int cou=0;string sub ID="";

while (dr.Read () ) {if (cou==ran) {sub ID= (string) dr[0];subject.Text= (string) dr[1];break;}cou++;}dr.Close () ;

6.5 获取学生学号Student ID

string username= (string) (Session["username"]) ;

将该学生的Student ID, Schedule Index, Subject ID插入表Student Exam:

s Sql="insert into Student Exam (Student ID, Scheduling Index, Subject ID) values (@Stu, @Sch, @Sub) ";

cm=new Sql Command (s Sql, cn) ;cm.Parameters.Add ("@Stu", Sql Db Type.Char, 32) .Value=username;

cm.Parameters.Add ("@Sch", Sql Db Type.Int) .Value=Sche Index;

cm.Parameters.Add ("@Sub", Sql Db Type.Var Char, 32) .Value=sub ID;

cm.Execute Non Query () ;cn.Close () ;

6.6 每个学生只允许抽题一次

Button3.Enabled=false;

摘要:介绍了某高校文献检索课考试现状以及开发该系统的重要性。本系统的开发采用软件工程的方法, 详细介绍了实现本系统的各个步骤。

关键词:文献检索课,考试系统,软件工程

参考文献

[1]卫宏春.三种主流软件工程方法的比较[J].微电子学与计算机, 2002, (3) :5-6.

[2]李刚.教育实习网络支持平台可行性研究与需求分析[J].中国教育技术装备, 2011, (36) :3.

[3]张良银.浅论C/S和B/S体系结构[J].工程地质计算机应用, 2006, (4) :20-23.

[4]宋益众.Microsoft SQL Server 2000数据库管理系统性能研究[J].电脑知识与技术, 2005, (18) :69-70.

文献检索系统开发研究论文 篇2

文献计量法是基于数学以及统计学,通过对一切知识载体的定量分析,而形成的交叉科学。文献计量是一门综合知识体系,注重于对数学以及统计学的应用,主要对叙词、个人、团体以及各种出版物进行计量研究。文献计量模型在个性化信息推送中的分析

信息爆炸在满足人们对于各项信息的需求之外,也对用户的信息检索时间也造成了很大的浪费。如何在海量的信息中精确找出符合用户自身需要的信息,成为个性化信息推送的重要研究内容。科研人员在个性化推送系统的建设中发挥了重要作用。一方面,科研人员是信息资源的需求者,对信息有着独到的理解;另一方面,科研人员又是信息资源的提供者,其研究的理论成果推动了个性化信息的充实。因此,针对科研人员的个性化信息推送系统进行研究成为解决问题的关键。

2.1 文献计量的个性化推送系统优势分析

(1)为用户提供精确信息。针对于科研用户而言,信息来源的权威性与针对性是其重要的参考依据。因此,文献计量的个性化推送系统的优势就在于能够为科研用户提供信息的实用性与适用性。信息的精确性提供也为科研人员提供了一个理想的数据来源,从而节省了信息检索的时间,提高了研究质量。

(2)符合用户个性化需求。针对科研用户的引用文献以及产出信息进行模型的构建与分析,就能够科学有效的为科研用户提供需求信息。同时,信息的需求表现来源于多方面,科研用户的信息需求与信息的产出存在极大的联系,两者之间的互通性极为明显。

(3)体现文献量变化规律。定量分析通过模型的建立,对数据以及信息进行收集与分析工作,从而得出有效的数据结果,从而从数据中得出文献量变化的图表,进而对其进行分析之后,就能够得到普遍的规律。同时,通过规律的呈现,能够进行科学上的预测。个性化信息推送系统分析

个性化信息推送系统建立之前需要对个性化信息推送模型进行建立,进而采用计算机软件理论进行深入探讨与研究。

3.1 个性化信息推送模型的建立分析

在进行个性化信息推送模型建立的过程中,需要对输入参数以及结果的数值进行确定。

3.1.1 个性化信息推送模型学科热度参数的基本定义针对研究人员进行研究对象的热度进行分析与研究,发掘研究人员的研究热点,从而进行推送数据的准确定位。热度参数的词频的比率大小成为判断某一文献是否为研究人员的研究热点的重要依据。如下式:Fk= c / k(1)

此式是根据齐普夫定率的尼克尔斯改进,需要说明的是,其中 k 表示科研人员所发表的论文数量,c 以及 是公式中的待定参数。通过对待定参数进行相关的运算确定之后,我们就可以得到以下的推送模型:【1】

(2)

3.1.2 个性化信息推送模型学科专业度参数的基本定义根据相关的文献计量理论分析,科研人员的研究方向所在的领域的专业程度对文献的参考价值具有重要的意义。因此,在进行个性化推送的模型建立中,要对专业度进行选取以及确定,本文将专业度的参数确定结果用下式说明:【2】

(3)在上式中,指数的高低决定了为科研工作者所提供的文献的优先程度,其中优先提供给用户的系数应该足够大。另外,此公式基于乔治·赫希的运算方法进行推算与演练得到的。

3.1.3 个性化信息推送模型学科相关度参数的基本定义

针对相关系数选取有多种方法,相关度的选取也是图书馆在进行个性化信息推送时,实现信息有效服务的重要数值。

文献计量的相关度主要是指在被推送的文献与科研人员所创作的文献之间的相似程度。根据对余弦系数模型的分析与研究,通过多种资料的结合分析,得出如下式:【3】

通过有关资料的查阅,个性化信息推送服务系统在很多领域中得到了应用,其中关于模型的建立也相对成熟,因此,本文对个性化信息推送服务模型简单介绍。

3.2 个性化信息推送系统设计分析

3.2.1 数据的采集图书馆由于自身的优势,针对于数据的采集工作较为简单。同时,随着计算机的普及以及相关网络技术的提高,图书的数字化已经得到了很大程度上的应用。因此,针对于图书的数字化建设不需要投入过多的工作时间。另外,我国各大图书馆都已经建立了属于自己的数据库,并且实现了网上资源共享,自身资源与网络资源进行结合后,数据更为丰富。数据的主要采集对象可以包括三个部分,分别是内建数据库、互联网数据库以及各大高校、科研机构的数据库。在进行信息采集时,应该加强与各大高校以及科研单位的合作,建立共同的信息交流平台,实现数据的共享。

3.2.2 个性化信息推送系统数据处理程序在进行个性化信息推送系统数据的处理过程中,可以依照现有的成熟信息处理程序进行分析与论证。对于数据的处理,在信息管理系统等领域的应用中,发挥了十分重要的作用。

而文献计量个性化信息推送系统的数据处理,需要对原有数据资源进行大规模转化,使其形成标准数据,进而进行数据的存储与进一步分析。我们将数据进行大规模标准转化之后,再运用文献计量理论进行数据的分析与确定。并对数据进行归类与识别,对信息的作者进行重名分析,进而把符合用户需要的信息对用户进行推送。在整个数据处理过程中,通过对文献中的信息进行科学选取,确定文献中的关键词、摘要以及题目名称,对其输入系统模型中进行处理,以获得用户所需要的数据资源。

3.2.3 个性化信息推送系统的基本功能界定

(1)数据管理。根据收集上来的数据进行管理,通过运用计算机信息技术对文献进行信息上的修改或者是添加,必要时要进行数据的删除,进而实现数据或信息的个性化推送。

(2)信息分析。进行数据上分析需要由两个模块共同组成,其中之一是对科研人员中注册用户分数据分析,以及对数据分析范围扩大到整个数据库。对于数据库的信息分析,主要对专家学者分析、备推送文献分析、学科热点分析以及发展趋势分析。

(3)用户管理。用户管理主要针对于科研用户。其中,主要的管理类型为对科研用户的添加与删除,并对部门科研用户的信息修改。用户管理具有一定的操作程序,系统能够自动进行程序的履行,属于计算机技术中的一个重要职能。

(4)个性化数据推送。个性化数据进行推送之前,应该进行用户账号的建立以及确认,同时对协议端口进行相关认证。处理完上述程序之后就可以进行相关的数据推送任务,推送的信息就是备推送信息所分析的数据。

(5)数据模型管理。数据模块管理主要职能是对在文献计量模型中的所要使用到的参数进行修改并保存。

3.3 个性化信息推送系统数据库的设计分析

当今时代,充分有效利用与管理各类信息资源,是进行科学研究与决策管理的必要条件。在进行文献计量的数据库建设中,应该针对以下几点进行建设,主要包括:文献模型数据、主行业类别、主要专业、科研用户的编号以及专业度的参数等多方面内容。

3.4 个性化信息推送系统重名科研人员的识别技术分析

在进行个性化信息推送系统的建设中,对于信息的收集与处理,往往会遇到各种情况,而其中一种就是文献作者的重名。重名文献编纂者的识别技术在计算机技术中相对简单,首先系统进行信息数据的收集,并启动系统的数据读取程序,进而进行系统用户识别。识别过程主要针对作者姓名字段,并将作者的字段与数据库中的内容进行匹配工作。如果系统中没有显示出冲突字段,那么系统就会自动执行新作者的添加程序。与此相反的是,如果系统显示具有冲突字段,那么就会进行重名处理程序的操作。

系统的重名处理,即是对数据的再次检索,进而对重名字段进行下一步的筛选,主要针对作者的籍贯、所在单位、专业领域等相关数据进行再次匹配工作,从而完成整个文献科研作者的识别过程。

3.5 个性化信息推送系统个性化信息推送技术分析

在数据的推送模块中,主要进行推送方式的选择以及对数据推送的设置上。在进行信息推送时,有不同的推送方式,适合科研用户的是邮件信息推送。邮件信息推送主要是指将用户所需要的数据信息通过邮件作为载体,直接发送至用户的邮箱中。另外,与之相结合的是网站信息推送,也是最为常见的推送方式。用户在登陆网站之后,通过一定的操作程序,就可以看到系统推送的信息数据。

在进行个性化信息推送的过程中,可以选择使用观察者模式。在此模式中,通过对系统与对象的关系处理,使之形成一对多的关系。因此,当其中一个对象的状态受到某一因素干扰或者是执行操作指令时,其他与之相关联的对象都能够得到相应的通知,从而启动自动更新程序。这样的优势在于能够将业务逻辑与用户操作界面之间的关系进行分离,从而能够对用户界面进行管理,更不会对其他的应用程序产生干扰。

在进行信息的推送时,可以将推送的信息量设置为固定的值,从而有效避免了用户在接受推送信息时,收到大量推送值较低的数据,影响用户体验,降低系统的有效性。当用户登陆到数字平台时,经过一系列的操作,系统就会按照相关推荐值的大小,在系统操作平台上列出相应的推送信息。

随着用户对系统的要求越来越高,近些年来,系统也在不断进行优化与更新。除了前文所叙述到的邮件推送信息以及网络推送信息之外,还结合了目前较为流行的即时通讯系统。结语

近些年来,图书馆无论是在管理上还是服务上,相对以往都有了较大程度上的提高。但是,必须清醒地认识到,在图书馆个性化信息推送系统的研究方法以及研究水平上还需要进一步提高。

参考文献:

[1] 楼晶。图书馆个性化信息推送系统[J].图书馆学研究,2008(4)

文献检索系统开发研究论文 篇3

【关键词】品牌生态系统;运作机理;文献述评

一、引言

随着人们对品牌的重视,使得关于品牌的研究火热起来,与此同时,品牌与其生存的商业环境之间的互动关系也逐渐进入学者们的视线。如同自然界中生物与非生物间的互相影响、互相依存,多数品牌在与环境发生作用的同时,也经历着初创、发展、成熟、衰退、消亡等过程,使品牌与其商业环境的关系表现出生态系统的特征,再加上交叉学科研究的推广,促进了品牌生态学的诞生。品牌生态学毕竟是新的学科,品牌如何在其生态环境中发挥作用并得以成长,其运作机理到底怎样?本文对国内外有限的相关文献研究进行梳理评述。

二、品牌生态学研究渊源及脉络梳理

将生态学原理应用经济学和管理学的研究可追溯到20世纪初熊彼特经济进化论。1935年英国生态学家Tansley首次提出生态系统(ecosystem)概念,指出一定环境中生物和非生物可通过物质循环及能量流动形成相互依存的生态学功能单位。随着战后各国对经济重视,生物学隐喻在经济学研究中的应用开始出现。

20世纪80年代纳尔逊和温特出版《经济变迁的进化论》一书,形成了商业生态系统研究的雏形,并标志生态学隐喻在经济管理研究中应用的复兴。1986年,美国James F Moore在《哈佛商业管理评论》上发表《新竞争生态学》一文,首次提出商业生态系统(Business Ecosystem)概念,1996年又在《竞争的消亡:商业生态系统时代的领导与战略》一书中建立初步的理论框架,为经济学和管理学研究提供了新视角。1997年,欧文·拉兹洛出版《管理的新思维:第三代管理思想》,将广义进化论思想应用企业管理,并首次提出了“进化重构”思想方法。此后,商业生态系统理论得到关注与传播,促进生态学理论在品牌研究中的应用。

1998年,品牌专家David·A·Aaker提出基于单个企业品牌系统的“品牌群”概念,首次将生态种群概念引入品牌研究,开创了品牌生态系统研究的先河。随后,Agnieszka Winkler(1999)提出品牌生态环境的概念,指出品牌生态环境是一个复杂、充满活力并不断变化的有机组织。可以认为,真正的品牌生态学研究萌发于20世纪末,诞生于2l世纪初。

国内相关的研究较为滞后,1995年,孙成章出版的《企业生态学概论》一书是国内较早将生态学思想应用于经济管理领域的著作。199a7年,王玉在《企业进化的战略研究》一书中系统研究企业的进化特性及其机制。随后,1999年,山东大学王兴元教授首次提出“名牌生态系统”概念,并成为将生态学应用到营销领域的国内开创者。此后,王兴元带领弟子做出大量相关研究,构建了相对完整的品牌生态系统研究框架,并给出品牌生态系统的确切定义──以核心品牌为龙头,包括品牌企业、供应商、中间商、顾客、公众、相关组织及群体等成员在内组成的复杂社会经济系统。

三、品牌生态系统作用机理相关研究及评述

品牌生态系统理论将品牌研究重点从以往的品牌本身扩展到一个涵盖利益相关者的大环境中,为品牌研究提供新的思路。品牌在品牌生态系统中如何发挥作用?品牌生态系统对品牌影响机理到底如何?这些都成为品牌生态系统研究的核心话题。然而,当前相关研究屈指可数,以下仅通过对有限的文献资料进行梳理,将学者们关于品牌生态系统作用机理的研究评述如下:

(一)品牌基因论

袁虎(2005)把形成品牌独特识别,具有鲜明品牌个性的品牌核心价值称为品牌基因,认为品牌基因不仅是形成品牌个性并影响顾客购买的因素,还是维系生态关系、实现生态演进的根本原因,品牌生态运作过程正是自身品牌基因在生态系统内逐渐扩散和进化的过程。该类观点强调了对品牌内部核心价值的重视,然而,品牌核心价值问题在一定程度上还囿于品牌的本身。过分强调品牌基因,易导致忽视外界品牌生态环境因素的影响,进而导致对品牌生态系统的研究回到对单个品牌本身研究的起点。

(二)生态因子论

殷红春(2005)提出协同进化论,并提出生态因子的概念,认为影响品牌培育与成长的生态因子包括经济生态因子,社会生态因子、企业生态因子及其他生态因子(自然资源因子、物流因子、信息与传媒因等)四类,正是品牌生态因子的作用,使品牌生态系统纵向协同与横向协同,导致了品牌集群与主导品牌的诞生,促进系统走向更高级的有序。该类观点克服了达尔文进化观过于强调物种竞争(适者生存劣者淘汰)而忽略协同的缺点,同时还吸纳了复杂系统科学的研究,指出了品牌生态系统中竞争和协同的双向关系。然而,对于品牌生态系统中各品牌生态地位(在生态系统中不同的影响力)并无过多的讨论。

(三)成长动力论

王兴元,于伟和张鹏(2009)以高科技品牌为例,提出品牌生态系统包括自动力机制(适应顾客需求的企业家精神、创新、预见和组织能力等)和他动力机制(系统间的良性竞争、替代技术和产品威胁、政府政策等),指出高科技品牌生态系统的成长链式过程机制和网式过程机制。随后,徐豪(2011)在此基础上利用结构方程模型将品牌生态系统的动力因素又分为成长主动力因素和成长调节动力因素。该类观点从内外两方面对品牌生态系统的作用机理进行研究,既考虑到品牌运营企业本身的因素,又考虑到利益相关者对品牌的影响,相对较为合理。

(四)资源配置论

胡望明(2005)认为品牌生态竞争力的增强是品牌生态战略的基本目标,其中,品牌的生态竞争力是指企业通过对资源的有效配置和使用,使其品牌较其它品牌更能满足自身品牌生态系统共同演进的需要,从而建立企业综合竞争优势的比较能力,品牌生态系统竞争力增强意味着核心品牌在战略生态系统中的资源整合和利用能力增强。该类观点强调了对特殊异质资源的获取,在一定程度上又将品牌研究的视角从企业之外回转到研究资源配置能力的企业之内,并强调了品牌运营企业对自身条件能力的重视。然而,资源配置论对资源的具体定义不一,对于特殊资源、异质资源、核心资源等把握不清,易造成企业对于资源配置的无所适从。

四、品牌生态系统当前文献研究总况

尽管品牌生态系统从生态学角度赋予品牌生命特征为其研究提供新的方向,也为解决品牌环境复杂性问题提供新的思路,成为品牌理论创新的亮点。然而,当前理论研究还很有限,且存在以下不足:

(一)缺乏必要的理论佐证

当前对于品牌系统的研究还停留在对品牌特征和生物特征的类比基础上的隐喻研究,在一定程度上只是直接将生态学概念“套用”在品牌学,至于为什么品牌会表现出生物特征?品牌生态系统到底是否真的类似于生物的生态系统?这些都还缺乏深入的佐证材料。

(二)缺乏量化的实证分析

对于品牌生态系统的研究特别是系统运作机理的研究还处于一个不成熟的阶段,当前研究更多只是定性研究,缺乏足够的数据分析和定量研究支撑,使得品牌主体在进行品牌决策中缺乏可供参考的事实依据。

(三)缺乏具体的应用研究

当前学者对于品牌生态系统研究框架及模型的提出更多只是理论构思,缺少必要的分析工具。按照品牌生态系统的内涵,品牌操作需要全体品牌利益相关者共同参与,这在具体操作中是难以实现的,毕竟利益相关者间除了合作关系还有竞争关系(特别是利益竞争),如果系统中相关利益者的利益权衡和治理关系没有解决好,那么理论也只能成为理论。

(四)缺乏清晰的范围界定

品牌生态系统除了核心品牌之外,还包括品牌企业、供应商、中间商、顾客、公众、相关组织及群体等成员,看起来对于品牌的影响因素考虑较为全面,但是系统所涉及的范围没有得到一个明确界定。对于一个战略联盟所构成的品牌生态系统,站在战略联盟总体利益的高度来看,其理论操作性较好,但从一个品牌运营企业的角度来看,其应用价值则很难体现。

(五)缺乏深入的系统研究

由于品牌的特殊性,品牌生态学的研究还必须包括以下几方面内容:如代谢和发育品牌生理生态、营养品牌生理生态、抗性品牌生理生态、企业生命性、品牌生态关系生命性、品牌设计的生命性等。从国内外相关研究来看,已有学者初步探讨了品牌生态系统理论体系的粗略框架,但真正全面、深入、透澈的研究尚未出现,特别是对于品牌生态系统运作机理的研究还有待进一步深化。

参考文献

[1]James F Moore.The Death of Competition[M].USA:Harper Collins Publishers.1996

[2][美]欧文·拉兹洛,克里斯托弗·拉兹洛.文昭,黄丽华译.管理的新思维:第三代管理思想[M].北京:社会科学文献出版社,2001

[3]David A·Aaker.Building Strong Brand[M].New York:The Free Press.1996

[4]Agnieszka winkler.Warp-Speed Branding:The Impact of Technology on Marketing [M].New York:Wiley & Sons.Inc,1999

[5]王兴元.名牌生态系统评价与诊断[J].中国学术期刊文摘,1999(12):1570

[6]袁虎.品牌生态战略模式及其竞争力评价研究[D].武汉理工大学.2005

[7]殷红春.品牌生态系统复杂适应性及协同进化研究[D].天津大学.2005

[8]王兴元,于伟,张鹏.高科技品牌生态系统特征、成长机制及形成模式研究[J].科技进步与对策.2009,26(1):87~90

[9]徐豪.品牌生态系统成长动力机制研究[D].山东大学.2011

[10]胡望明.现代品牌生态战略的内涵及其特征分析[J].科技进步与政策,2005(6):102-~103

信息检索系统比较研究 篇4

1 信息检索可视化系统的优点及其类型

1.1 可视化信息检索的优点

1) 信息检索的可视化研究就是将文献信息、用户的提问在进行检索过程的同时, 将结果及可视化检索过程中的内部语义关系的转换等展示在一个低维的可视化空间中。可以使用户看到在传统信息检索过程中看不见的图形信息, 即向用户展现各种信息之间的语义关系, 使提问和检索结果以及检索过程中各信息之间的内部语义关系可见, 使得信息能够得到更有效的反馈。

2) 可视化信息检索使得检索结果清晰可见, 不仅让用户对其检索得到的文献分布一目了然, 还有助于用户浏览所检索的文献并进行文献信息分析;另外, 可视化的信息检索使得用户能够了解文献间隐含的语义关系, 从而更好地判断文献间的相关性[2]。

3) 可视化信息检索不仅可以用二维或三维图像显示结果, 还可以把人的视觉及认知过程融入检索过程、算法分析和设计系统当中, 因而减少了用于了解检索结果的聚类或语义分析的时间[2]。

4) 可视化信息检索系统可以通过改变文献的显示方式、改善人机交互功能来提高用户对文献间语义关系的理解, 实现个性化处理, 有助于不同语言背景的用户使用, 使得信息检索更加灵活简洁。

1.2 信息检索可视化系统的类型

1) 基于引文的信息检索可视化系统[3]。从检索系统的功能来看, 对于这种基于引文的信息检索可视化系统的评价, 除了要依据其理论基础外, 还应参照基于引文的检索系统的评价标准以及对可视化系统的评价标准。因该种可视化检索系统的主要特征是运用可视化技术进行知识域分析, 因此在参照信息可视化系统的评价标准时, 还分析检索过程中系统的交互性、可视化的显示形式、可视化的映射方法、用户界面等。

2) 基于知识模型的文本信息检索可视化系统[4]。该系统是通过信息、知识资源的元数据来进行可视化检索的。各种信息检索可视化系统都需确定两个方面的内容, 即系统的可视化对象以及可视化表现形式的内容。合适的可视化对象, 是指文档、网站结点、超链接结构等, 而可视化表现形式是指如几何图形、图表形式及自然物质实物形式等[5]。

2 对比分析基于引文和基于知识模型的信息检索可视化系统

笔者综合分析了基于引文的信息检索可视化系统和基于知识模型的信息检索可视化系统, 主要从系统设计、用户使用等方面着手对这两种系统进行了对比分析, 详细内容见表1。

从表1的对比分析中, 不难看出其各自的优势之处。由于这两类系统还处于原型研究阶段, 均缺少个性化服务及特色服务, 从界面到内容的设计还不够人性化, 帮助功能不够完善, 还需要加强与其他信息检索技术、方式及系统的集成, 以方便用户的最终使用。可以在现有的信息检索系统中通过对检索技术的改进和完善, 以缩短检索时间、增强系统和用户的交互性来满足用户科学研究、交流互动的需求, 并以知识结构图的形式将浏览或检索结果呈现给用户。

3 结论

在信息检索中, 跨语言信息检索终将成为现实, 随着经济全球化的开启, 科技文化早已不能各自为政, 而语言是实现全球化的最大障碍之一, 将可视化技术应用到跨语言信息检索中, 开发出跨语言的信息检索可视化系统将成为以后信息检索可视化系统的主要发展方向, 更好地解决用户在利用信息中的语言障碍问题。

摘要:本文对目前较为流行的信息检索可视化系统进行了简要的比较分析。

关键词:信息检索,可视化,对比分析

参考文献

[1]张进, 袁泽林 (翻译、整理) , 陆伟 (翻译、整理) .信息检索可视化的主流路径[J].图书情报知识, 2008 (5) :24-27.

[2]么新英.传统信息检索与可视化信息检索之比较[J].科技情报开发与经济, 2003, 13 (3) :1-2.

[3]孙巍, 张学福.基于引文的信息检索可视化相关系统比较分析[J].情报理论与实践, 2008 (4) :598-601.

[4]张学福.基于知识模型的文本信息检索可视化研究[J].中国图书馆学报, 2006 (5) :52-56.

文献检索系统开发研究论文 篇5

根据对典型科技文献语义检索系统的分析, 提出系统基本框架, 分为语义知识获取、数据集成与融汇、语义索引构建、查询处理、结果展示 5 个主要的系统功能, 如图 2 所示。实现科技文献的语义丰富化, 基于领域叙词表或本体, 利用语义标注、实体抽取、关系抽取等技术从科技文献文本信息中获取语义知识。以这些语义知识为基础, 借助实体或概念匹配、本体集成、Linked Data 之间的关联实现潜在语义知识、科技文献以及外部资源的数据集成与融汇, 支持细粒度的语义检索以及相关知识的扩展检索。在文献元数据索引的基础上, 构建实体、概念、关系、文本事实依据的索引, 支撑基于语义的检索功能。在查询处理方面, 采用术语匹配、自然语言处理、相似度计算、知识库图遍历、本体推理等技术手段理解用户的搜索意图, 通过基于语义知识的分类、聚类、排序等对检索结果进行重新优化计算。通过结果列表、可视化展示、分面浏览、树形导航、本体导航等方式将检索结果展示给用户, 同时提供基于语义知识的相关推荐和统计预测等功能。

文献检索系统开发研究论文 篇6

关键词:手机图书馆 检索系统 WAP 中国 美国

中图分类号: G254.92 文献标识码: A 文章编号: 1003-6938(2012)03-0080-05

An Empirical Study on Search Systems of WAP Mobile Libraries in China and the USA

Abstract The author investigated seven search systems of WAP mobile libraries in China and the USA by analyzing the characteristics of the search systems from three aspects, that is search functions, search effects and users burden. The results show that search functions of WAP mobile libraries in China and the USA need to be enhanced, and it can be completed through learning from popular search engines; search effects of WAP mobile libraries in China are different from those in the USA with precision rate as the main factor; search systems of WAP mobile libraries in China and the USA should be more user-friendly; quality of domestic search systems of WAP mobile libraries are different, and the whole level can be improved by adopting varied projects. The author believes that improving search functions, optimizing search effects and increasing users comforts are important for the development of mobile libraries.

Key words mobile library; search system; WAP; China; USA

手机图书馆是无线通信网络和数字图书馆系统的结合,它利用高普及率的手机新媒体平台延伸、拓展传统的图书馆服务,并且可以随时随地进行信息传输与服务。手机图书馆的出现,对于提高图书馆的服务效率,为读者提供实时个性化的信息服务起到积极的推动作用。目前,手机图书馆的主要服务功能包括图书借阅信息查询、图书预约、图书续借、图书到期提醒、读者证事务、参考咨询、书目信息查询等[1]。手机图书馆的实现方式根据其采用的无线接入技术标准,可分为短信方式(SMS)、无线应用通信协议(WAP)、IMODE、IDB和嵌入式软件等[2]。与此同时,行业研究报告指出,2010年手机上网用户使用手机上网的前三位行为依次是浏览新闻资讯(65.1%)、即时通讯服务(57.4%)和使用搜索引擎(49.7%)[3]。从手机上网用户对搜索引擎的高使用率可以看出,手机图书馆的用户满意度在较大程度上受其检索系统的影响。再者,手机图书馆出现的根本目的是为了给用户提供更便捷的服务,而帮助用户更快更好地获取馆藏资源信息便是达成这一目的的重要手段。因此,笔者对中美两国的手机图书馆检索系统进行调查研究,以期发现目前国内手机图书馆检索系统存在的不足,并为其发展提出相关建议。

1 研究对象

我国学者指出,目前国内外开展手机图书馆服务的机构大多为高校图书馆[4],但经笔者测试后,高校图书馆开展的手机图书馆服务范围普遍限于本校师生,不对外开放。与高校图书馆不同的是,部分开展了手机图书馆服务的公共图书馆的手机图书馆服务不限于只为本馆读者提供服务,只要拥有能够上网的手机,接入相关网页后,便可使用手机图书馆服务。为了便于开展研究,笔者选取中美两国共7家公共图书馆开设的手机图书馆进行研究(见表1)。这些手机图书馆均为读者提供免费服务,且服务对象不仅限于持有本馆读者证的读者。7家手机图书馆均采用WAP方式提供服务,一方面是由于WAP技术在手机图书馆领域应用广泛[3],针对其开展研究可使研究结果更具普遍意义和现实作用,另一方面是为了统一研究对象的技术标准,使研究结果更为科学可靠。

2 建立手机图书馆检索系统评价指标体系

目前,学界并没有针对手机图书馆检索系统形成专门的评价体系。但对于传统信息检索工具的评价,兰卡斯特在1973年提出了资源覆盖范围、查全率、查准率、响应时间、检索结果输出方式和用户方便性六个方面的指标[5],这一体系被大多数学者认可,至今仍广泛流传。然而,近年来随着计算机和网络的普及,大规模的数据量、多媒体资源以及新型检索工具的出现,使得过往的评价指标不能全面地描述检索效果。在此期间,信息检索系统评价相关理论不断发展,不同学者提出了不同的意见。如韩圣龙指出,网络信息环境下的真实查准率是难以计算的,较为科学的代替查准率的指标是相关性范畴和前X命中记录查准率[6]。孙昊和刘玉照提出,重复率、链接的可靠性等也应该成为检索系统的评价标准[7]。邓燕萍指出,除了查全率、查准率以外,相关排序度、过滤功能、运行速度、进阶检索等也是衡量网络信息检索效果的重要指标[8]。金玉坚等认为新型网络信息检索评价指标体系可分为四部分,分别是索引数据库评价指标、检索功能评价指标、检索结果评价指标和用户负担评价指标。其中,检索功能、检索结果和用户负担评价指标与图书馆检索系统评价较为相关,检索功能包括布尔逻辑检索、截词检索、邻近词检索、字段检索等,检索结果包括相对查全率、相对查准率、响应时间、相关性排序、重复率等,用户负担指标则包括用户界面、帮助文件、查询举例等[9]。综合以上学者的研究成果,笔者从中抽取部分评价指标,形成适用于手机图书馆检索系统的评价指标体系(见表2)。

nlc202309020724

3 调查及分析

3.1 检索功能

检索功能是检索系统的核心,它决定了资源能否及时、准确地传递给需要的用户[10]。从7家手机图书馆检索功能比较(见表3)可以看出,被调查的手机图书馆检索系统均不支持邻近词检索和时间限定功能,其余5项功能则呈现不同程度上的差异。

基本检索技术方面,被调查的7家手机图书馆均支持布尔逻辑检索功能,但国内的4家手机图书馆都不支持截词检索功能,而美国的3家手机图书馆则全部支持这一功能。

字段限定方面,国内的5家手机图书馆均支持此项功能,但具体设置上存在一定的差别,而国外的3家手机图书馆则不支持字段限定功能。东莞市图书馆的字段限定功能较为齐全,提供题名、著者、出版社、主题、分类号、ISBN和ISSN等7个字段;江西省图书馆和柳州市图书馆则提供书名、作者、主题词3个字段;镇江市图书馆的限定字段功能较为简单,仅提供题名和作者2个字段。

资源来源限定方面,共有4家手机图书馆支持该功能,但这4家手机图书馆资源来源限定的方式有所差异。江西省图书馆和柳州市图书馆根据资源类型的不同,将资源分为章节、图书、期刊、报纸等9个类别;美国斯科基公共图书馆根据其馆藏分类,将资源来源限定在成人馆藏、音像馆藏、流动馆藏、青少年馆藏及所有馆藏5个类别;奥兰治县图书馆根据资源所在的卫星城市分馆,将资源分为县馆馆藏、滨水市馆藏、荷顿市馆藏等17个类别。

二次检索方面,只有江西省图书馆和柳州市图书馆支持这一功能,其余都不提供该功能。

3.2 检索结果

以“莎士比亚”或“Shakespeare”作为题名关键词,分别在7家手机图书馆的检索系统上进行检索(见表4)。从响应时间来看,被调查的7家手机图书馆检索系统都非常迅速,基本在数秒内完成检索,并显示结果。

从检索结果数量来看,各家手机图书馆存在较大的差别,一方面可能是由图书馆馆藏资源数量的差异造成;另一方面也可能是受到检索系统的资源覆盖范围影响,其中,除柳州市图书馆外①,其余图书馆的资源检索均在馆藏范围内进行。此外,美国亨内平县图书馆在检索结果页并没有显示具体的检索结果数量。

在前50条命中记录查准率方面,国内手机图书馆表现差异较大,除东莞市图书馆的查准率达到100%外,其余3家手机图书馆的查准率均低于90%,镇江市图书馆更是只有56%的查准率。而美国的3家手机图书馆在查准率方面表现优异,均为100%。

在结果输出页面选择方面,有5家手机图书馆可以选择具体想要查看的结果输出页面,而在检索结果排序选择方面,只有江西省图书馆和柳州市图书馆为用户提供“按相似性”和“按时间”两种排序方式。

3.3 用户负担

用户负担指标是评价用户在使用手机图书馆检索系统时所需付出的努力,用户总是希望通过最少的努力获得需要的信息。笔者从检索举例、检索提示、语言选择三个方面,对7家手机图书馆检索系统的用户负担进行调查(结果见表5)。

被调查的7家手机图书馆在用户负担指标上均存在一定的不足。在检索举例方面,只有美国亨内平县图书馆提供这一功能。在检索提示方面,只有美国亨内平县图书馆的检索系统能够帮助用户纠正检索词的拼写错误。而在语言选择方面,只有美国奥兰治县图书馆支持此项功能,但可供选择的语言只有西班牙语。

4 中美手机图书馆检索系统评价比较的启示

4.1 中美手机图书馆检索功能均需加强

尽管7家手机图书馆均支持布尔逻辑检索功能,但诸如邻近词检索、截词检索等当前主流的检索功能则不甚完善。就检索技术而言,美国手机图书馆的检索系统相对比国内的更完善。然而,国内手机图书馆检索系统也有其优于美国之处,国内手机图书馆检索系统可将检索词限定在某一字段进行检索。但在字段限定的范围上,国内部分手机图书馆检索系统的限定字段稍显简略,有待加强,如镇江市图书馆仅可对题名和作者进行限定。

中美手机图书馆检索系统无法对时间进行限定也是缺陷之一。而在资源来源限定方面,虽然不同手机图书馆有不同的资源来源分类标准,但这项功能被4家手机图书馆应用仍是值得肯定的。检索时对资源来源进行限定,能使检索范围缩小,提高检索效率。所调查的3家美国手机图书馆检索系统均不支持二次检索功能,相对而言,国内有2家手机图书馆具备这一功能,在肯定国内手机图书馆做法的同时,应该认识到二次检索功能在整个手机图书馆检索系统领域中仍有待加强。

不管是国内还是美国的手机图书馆,其检索功能与主流搜索引擎间的差距,仍是显而易见的。要完善手机图书馆检索系统,其中一种值得参考的做法是借鉴诸如Google、Yahoo等主流搜索引擎,深入认识、了解主流搜索引擎所具备的检索功能,将之与手机图书馆检索系统进行对比,抽取其中适用于手机图书馆检索系统的功能,逐步移植以完善手机图书馆的检索功能。

4.2 中美手机图书馆检索效果存在较大差距

检索效果是指利用检索系统(或工具)开展检索服务时所产生的有效结果。它衡量了检索结果对用户需求的满足程度,是检索系统性能的直接反映[7]。测量检索效果最常用的指标是查全率和查准率。调查所涉及的3家美国手机图书馆检索系统的前50条命中记录查准率均为100%,但同一指标在国内的4家手机图书馆则表现出较大差异,平均查准率为81%,与美国存在近两成的差距,情况不容乐观。

相关度排序也是衡量检索效果的一个重要指标。调查中大部分手机图书馆并不注重这一功能,提供结果排序功能的两家手机图书馆也只有“按相似性”和“按时间”两种排序方式,功能设置仍显简单。手机图书馆检索系统应当加强检索结果的排序功能,为用户提供诸如借阅量排序等其它多种排序方法,让用户能够更好更快地获取自己所需要的书目信息。

检索结果的呈现,直接影响用户对自己所需信息的判断,这也是手机图书馆检索效果的重要衡量指标。被调查的7家手机图书馆均不能让用户自主选择每页显示的结果数量,但部分手机图书馆可以选择具体浏览的结果页数。

nlc202309020724

总体来说,美国手机图书馆的检索效果要优于国内的手机图书馆,其中一个重要的原因在于查准率的差异。因此,国内手机图书馆要保持良好的发展态势,必须重视检索系统的查准率问题,将查准率作为衡量手机图书馆检索效果的硬指标(但不是唯一指标),切实采取措施,提高查准率。要提高手机图书馆检索系统的查准率,可从规范索引数据库、加强标引工作、增加受控语言等角度展开工作。与此同时,手机图书馆检索系统不能忽视相关度排序、检索结果呈现等其它方面的功能。

4.3 中美手机图书馆检索系统需加强用户友好度

从用户负担指标来看,调查的7家手机图书馆检索系统整体水平不如人意,无论是检索举例、检索提示还是语言选择,大部分手机图书馆检索系统都不具备这些功能。尽管这些细节对手机图书馆检索效果产生的影响可能不如前文提及的检索功能,但它们的存在能减轻用户的负担,让用户付出较小的努力获取自己所需要的信息,符合“最小努力原则”。

由印度图书馆学家阮冈纳赞提出的“图书馆学五定律”,其中一条便是“节省读者的时间”。检索举例让用户更直观地明白如何使用检索系统;检索提示为用户创造友好的检索环境,协助用户寻找理想的检索词;语言选择使用户可在不同的语言环境下进行检索,提高检索系统的友好度。当然,用户负担指标不仅仅包含以上三点,诸如用户界面、帮助文件等指标,都是为用户节省时间,让用户更好地使用手机图书馆检索系统的有效措施。

4.4 国内手机图书馆检索系统发展水平参差不齐

从调查结果来看,国内手机图书馆检索系统发展水平差别较大。如,江西省图书馆和柳州市图书馆在检索功能及检索结果呈现上的表现优于另外两家手机图书馆,而在检索效果上,东莞市图书馆则表现优异,相对地,镇江市图书馆的检索效果则不能让人满意,其低至56%的查准率亟待提高。综合来看,国内不同手机图书馆检索系统的侧重点有所不同,有的检索功能较强,有的检索效果较好,但整体来看,国内手机图书馆检索系统的发展仍处于起步阶段,呈现出质量参差不齐的现象。

针对国内手机图书馆检索系统发展水平参差不齐的现状,可考虑通过以下方案着手改善:①手机图书馆之间实现技术共享,互相提高检索系统团队技术水平。手机图书馆的开发团队可加强与其他手机图书馆技术团队的交流,进行技术共享,就检索系统开发、运营、维护中遇到的问题展开探讨,以期互相提高检索系统研发团队的技术水平,从而完善手机图书馆检索系统;②构建手机图书馆联盟,推出联合式手机图书馆检索系统。目前,国内已有多家图书馆推出手机图书馆服务。考虑到此前图书馆界已经有过全国图书馆参考咨询联盟及联合参考咨询网的成功经验[11],手机图书馆可借鉴这一模式,构建手机图书馆联盟,推出联合式的手机图书馆检索系统。以加盟图书馆的馆藏资源作为数据库,通过统一的WAP检索平台,用户只需进行一次检索便可获得不同图书馆的馆藏信息。最大程度地实现资源共建共享,将有限的资源集中在一起,形成规模效应,共同建立一个完善的手机图书馆检索系统;③挖掘技术成熟的第三方企业,形成专业化的手机图书馆检索系统供应商。现今市场上存在着大量技术成熟的软件公司,图书馆可将手机图书馆检索系统的研发及运维工作外包给更专业的第三方企业,在节省图书馆自身精力的同时,也可以确保检索系统更为专业化。此外,国内手机图书馆可以采用集团外包的方式,共同委托某一企业进行检索系统的研发工作,培养专业化的手机图书馆检索系统供应商。需要注意的是,采用集团外包的方式应尽量避免一家独大,垄断市场现象的出现。

5 结语

此次针对中美手机图书馆检索系统的调查不尽完善,其中存在着不少缺陷,如研究对象仅选取7家手机图书馆致使覆盖面较小,中美两国调查对象数量的不对等、检索系统评价指标不涉及各家手机图书馆的资源覆盖范围、没有检索效果强调查准率却没有提及查全率、除了WAP手机图书馆外的其他类型手机图书馆的检索系统情况没有涉及等问题都是未来研究中不可避免的现实命题。从整体上看,中美手机图书馆检索系统仍处于起步阶段,存在着检索功能不完善、检索效果不尽理想、用户友好度不高等问题。作为手机图书馆重要组成部分的检索系统,是用户查找馆藏资料的快捷通道,其对于提高手机图书馆的使用率及用户满意度具有重要意义。因此,完善检索功能、优化检索效果、提高用户友好度成为手机图书馆发展面临的重要课题。

参考文献:

[1]茆意宏等. 手机图书馆的兴起与发展[J]. 大学图书馆学报, 2008,(1):3-6,27.

[2]张文彦,张瑞贤.美中WAP手机图书馆发展现状比较[J]. 图书馆杂志, 2009,(7):64-68.

[3]艾瑞咨询集团.2010-2011年中国手机上网用户行为研究报告简版[EB/OL].[2012-02-13]. http://wenku.baidu.com/view/3ef6bff8c8d376eeaeaa31cd.html.

[4]夏南强等.论手机图书馆的信息服务[J]. 情报科学, 2009,(11):1641-1644.

[5]黄如花.网络信息组织:模式与评价[M]. 北京:北京图书馆出版社, 2003:106-119.

[6]韩圣龙. 网络信息检索工具评价指标[J]. 情报学报, 2001,(8):471-477.

[7]孙昊,刘玉照.网络环境下检索效果评价标准浅析[J]. 情报杂志, 2003,(1):56-58.

[8]邓燕萍.网络信息检索效果评估[J].现代情报,2004,(4):45-46.

[9]金玉坚,刘焱.新型网络信息检索效果评价指标体系设计[J].现代情报,2005,(4):184-186.

[10]常唯.综合性搜索引擎研究[J].大学图书馆学报, 2007,(2):73-78.

[11]于丹辉. 联合参考咨询网的实践与思考[J]. 图书馆论坛, 2008,(3):44-47.

作者简介:陈冠桦(1989-),男,中山大学资讯管理学院2011级硕士研究生。

基于文本的图片检索系统研究 篇7

关键词:互联网,基于文本的图片检索,相关文本,提取文本

现代科学技术的迅速发展给互联网技术与多媒体技术的发展不断带来新的机遇与挑战, 而图片作为承载重要信息的工具, 其数据规模也在不断壮大。但是面对海量的图片, 我们所常用的检索WEB图片的技术和方法还未得到完善, 图片检索的过程经常会遇到各种问题。这是因为基于文本的图片检索技术未充分考虑到WEB的复杂程度以及影响词条权重的种种因素, 通常只对词条进行组织索引, 并使用固定的模式来提取图片中的文本信息, 导致检索结果以偏概全, 提取效果不尽人意。因此, 应对不同布局的图片要采用不同模式的基于文本的图片检索 (包括图片相关文本的提取) 技术, 充分利用图片名信息, 提高WEB图片的检索率。

1 相关技术

WEB图片检索中提取图片信息的技术主要有基于内容的提取和基于文本的提取两种形式。基于内容的提取技术是通过分析图片本身的像素来提取图片表征的一些特性, 并对图片的这些特性建立相应的索引。如此一来, 用户在检索时, 基于内容的提取技术通过比较检索示例图片的相似度特征来衡量各种图片之间的相似性, 并从中挑选匹配度最高的图片返回给检索的用户。基于文本的信息提取技术则以与图片相关的文字信息为检索重点, 并对这些文本信息建立索引, 在获得用户提供的文本信息后, 利用传统的检索文本信息的技术进行组织和查询, 以提供所要检索的图片。

基于内容的检索技术借鉴文本检索技术, 对带检索的图片通常进行预处理工作, 将图片中的可视化信息包括图片的颜色、纹理和形状等提取出来并建立索引, 利用相关的匹配算法查找图片。基于内容的检索技术最大的特点是它可对图片本身包含的信息进行分析, 而不必费心分析图片来源, 这样就可扩大用于检索图片的领域。

基于文本的检索技术则通过分析互联网上的网络资源, 利用HTML文档工具以获取所要检索图片的相关文本信息。利用启发式规则通过分析HTML中的标记来获取所要检索的图片与文字等, 在对抽象的语义和概念的查询方面有很大的优势, 能够有效提高系统的查准率和查全率, 本文将重点讨论基于文本的检索技术。

2 基于文本的图片检索技术

基于文本的图片检索技术要完成的第一个工作就是确定能够描述图片所要表达意思的相关文本, 当然, 人工确定文本有较高的查准率和查全率, 但是面对每天增加的上百万的海量图片, 人工确定文本显然是不实际的。实际的工作情况是:提取图片所在的HTML文档的文本信息作为相关文本。这就要求网页开发人员仔细分析HTML源文件, 在描述图片区域的语言中寻找有关图片的“相关”信息。

2.1 相关文本的定义

图片的相关文本在图片检索过程中为图片进行“代理”工作, 它是与图片所含意义相关的所有文本信息 (包括文件名、图片URL、周围文本、标签文本、网页标题以及栏目名等) 的组合。

2.2 词条的权重

可反映图片内容的各种相关文本的信息的侧重点都有所不同, 一般来说, 图片锚文字要比HTML页面标题的重要性大得多。因此, 基于文本的图片检索技术要建立新颖的权重模式来衡量各种词条的重要性, 以便使图片检索工作更加快捷、准确。

2.3 为图片建立索引

为了方便检索图片, 通常会为每个图片的所有相关文本 (用集合{Li}表示) 建立一组“属性”, 即O1···Ok, 要做到每个相关文本都相应地有一组包含足够信息的属性值来唯一表示本对象Li。这些属性值就是我们所说的索引向量, 为海量图片资源的相关文本寻找属性值的过程便是为图片建立索引的过程。图片的文本索引要尽量做到能够全面并真实地反映图片相关信息, 支持海量图片信息的查询工作, 建立索引是基于文本的图片检索技术的核心。

2.4 为图片嵌入相关的HTML标记

网页开发的语言多种多样, 而HTML语言则是最常用的, 一般都会采用HTML语言生成最后的可供浏览的网页。因此, 如何准确地为图片嵌入相关的HTML标记具有十分重要的意义。与图片相关的常用的HTML标记大约有5种。分别为字符属性标记……, 网页标题标记

, 网页之间或网页与多媒体之间的导航标记……, 图片嵌入标记, 以及定义表格标记

……

3 HTML信息的提取方法

HTML信息的提取方法有三种, 包括基于DOM的提取方法、基于字符串的提取方法以及基于Wrapper的提取方法。其中第一种方法中的DOM是用来对网页文档进行解析和操作的一种对象模型, 现在主要应用于XML文档的处理工作中, 早起则为处理HTML文档服务, 它在HTML文档的组织结构以及各个标记之间的关系的了解方面具有更强的优势, 能够更方便地利用结构信息来提取文本信息, 但是这个过程需要耗费大量时间, 效率不高。第二种方法把HTML文档当做顺序字符串, 检索过程要遍历整个文档, 用字符串匹配方法来获取信息。这种方法效率较高, 但是不能准确提取一些依赖于结构的信息。基于Wrapper的提取方法可以帮助用户准确得到结构类型网页中图片的相关文本信息, 提高了处理能力以及系统检索效率。

从HTML页面信息中提取图片相关文本可包括以下几个内容:提取图片的URL、提取图片的文件名 (可从URL中获取) 、提取图片所在网页的URL、提取图片所在网页的标题和图片链接网页的标题、提取图片超链接URL、提取图片所在网页的栏目名以及提取图片标签等。

4 从图片周围文本中提取图片的相关文本

从分布在图片周围 (上下左右) 并与图片内容含义相关联的文本中也可提取图片的相关文本, 一般图片周围的文本是设计人员对图片所添加的说明。

5 提取图片相关文本的启发式方法

WEB图片一般分为装饰页面的图片和无装饰性的图片两类, 在检索前要排除装饰性的图片, 并根据图片以及周围文本复杂的布局情况按照规则模式、图片组模式、视距距离、语法距离以及短文本优先等准则对图片的相关文本进行提取, 每种准则对应不同的“图片—文本”布局:规则模式准则主要应用于图片与周围文本位于表格中的布局模式;而图片组准则适用于一个说明文本对应多个图片的布局模式;视觉距离准则则要求计算视距距离, 把文本信息赋予多个图片之中视距距离最近的图片;语法距离准则应用的前提是两图片视距距离相等, 这时要把文本信息赋予给语法距离最小的图片;在视距距离和语法距离都相等的情况下则要应用短文本优先准则, 短文本的长度不到长文本的1/X时淘汰长文本, 否则将两文本合并并赋予图片。

6 结语

随着计算机网络的迅速发展, 互联网技术得到全球性范围的普及, 有力地推动了信息检索技术的发展。基于文本的图片检索技术要借鉴发展成熟的文本检索技术, 致力于解决图片内容与文本信息相关度不高的问题, 以更省力、有效的方法来提高图片检索的质量, 将基于文本的图片检索技术的检索效果提高到更高档次, 巩固其在图片检索领域的重要地位, 以更高的查准率、查全率为图片检索提供更好的服务。

参考文献

[1]陈佳.与众不同的以"图"找"图"[J].电脑知识与技术-经验技巧, 2010, 34 (1) :45-46

[2]热依玛依.买买提, 维尼拉.木沙江.基于维吾尔文网页的图片相关文本提取技术研究[J].现代计算机 (专业版) , 2010, 12 (9) :76-77

[3]焦蕾, 殷锋社.图像搜索引擎检索模式分析与研究[J].电子设计工程, 2012, 20 (5) :23-24

图像检索研究综述及系统实现 篇8

事实上,20多年的研究已经为人们带来了一些实验性的商用产品:如百度识图、谷歌图像搜索引擎等,然而由于用户需求的多样性和庞杂性以及基于内容图像检索技术自身并不成熟,目前,正在使用的基于内容图像检索系统的检索结果并不能完全达到预期。同时,随着Internet由IPv4协议向IPv6协议逐渐过渡、云计算服务的日趋成熟,在可预见的未来,Internet提供的网络服务将具有更大带宽和更强运算能力。因此,基于内容的图像检索技术将有较大的应用前景。

1 研究现状

1.1 图像检索基本框架

如图1所示,分别为带有反馈机制和引入图像语义信息的图像检索系统基本框图。从框图中可看出,基于内容图像检索的系统主要由图像视觉特征提取和表示、特征索引与相似性匹配、用户相关反馈技术和语义标注4个部分组成。因此,基于内容图像检索技术的研究也基本围绕这4方面展开。

1.2 知识图谱的视角下的研究现状

利用Cite Space II[2]进行引文分析,为缩小引文分析范围,在Web of Science中,利用“Image Retrieval”为关键词搜索2007~2014年间发表的SCI索引论文,共搜到相关论文2 115篇。在Cite Space II中分别从科研机构分布、学科分布、作者共被引、文献共被引和科研领域关键词共现这几个角度对搜索的2 115篇SCI论文进行分析。

图2分别从研究机构和学科领域角度分析了文献相关信息。从图2(a)中可看出,在该领域较为活跃的科研机构有中国科学院、哈尔滨工业大学、北京大学、香港科技大学、卡内基-梅隆大学、微软亚洲研究院等科研院所和高校。另外,从图2(b)中可以看出,与图像检索研究相关的学科领域以计算机科学领域为主,涵盖到工程、数学、信息科学、自动控制等领域。随着图像检索技术逐渐趋于成熟,其可能的应用领域将越来越多。同样,图像检索技术的进步也需要不断借鉴相关学科的科研成果。例如检索系统的用户界面设计和用户反馈的设计可能会用到用户行为分析和评价等管理科学方面知识,这一点在图谱中亦有所呈现。

为清晰描述目前CBIR领域的关键技术,利用知识图谱方式对Web of Science中引文文献进行分析,如图3所示,除了图像抽象表示和相似性判断外,目前CBIR热门的研究领域还有检索系统的框架设计、图像标注、图像分割、图像分类、相关性反馈、检索性能评价、支持向量机的应用等。

1.3 基于内容图像检索的关键技术

CBIR技术主要的研究内容可以归纳为以下几方面[3]:

(1)基于全局视觉特征的图像检索,主要是研究如何利用图像全局特征来描述图像的视觉特性,再根据图像全局特征间的相似性进行匹配。其特点是全局特征的运算速度较快、实现简单,然而不足之处是全局特征往往很难准确表示图像的实际意义。因此单纯依靠全局特征的方法在早期图像检索研究的文献中较为多见,在较新的文献中,全局方法通常和局部方法配合使用以期得到更好的检索效果;

(2)基于区域视觉特征的图像检索,这种方法的主要思想是首先利用一定的准则对图像进行区域分割,然后对分割后区域分别提取其相应的视觉特性进行匹配。其特点是实现技术相对复杂,但由于其以若干区域信息表示一幅图像,因此其特征描述往往更加精确,在图像检索时搜索效果相对较好;

(3)相关反馈机制[4],如图1(a)所示,为提高检索的精准度,在一些实际检索系统中,会引入用户反馈机制,对检索结果按照相关度排序,然后由用户确定检索结果与自己意图的接近性。从而可减小底层特征和高级语义之间的差距。反馈机制与机器学习相关技术关联,是目前图像检索研究的一个重要分支;

(4)基于内容和语义信息检索,基于内容图像检索主要依靠图像的底层视觉信息,而使用者检索图像时通常是建立在对图像高层意义的理解上。图像的底层特征与图像的高层语义之间往往会存在差异。这种差异性被描述为“语义鸿沟”[5]。“语义鸿沟”的存在让一些看似成熟的特征检测和匹配技术在实际应用中难以取得预期效果。针对这一问题,研究者开始尝试在图像检索中引入图像语义信息。到目前为止,“语义鸿沟”问题并未得到完美解决,该方向在未来一段时间内依然值得不断探索研究。

CBIR研究需要解决的核心问题有两个,即图像特征提取与表示和高维空间特征向量的快速比较[6]。基于图像内容信息提取的基本方法常用的有全局特征和局部特征。全局特征有颜色、纹理、形状等基本特征的提取和特征生成;局部特征有SIFT、SURF等特征点检测算法[7]。在实际检索系统中,这些图像内容特征通常会综合使用,而非单一使用某一种,这样能进一步提升检索的准确性。此外,特征表示出来后,在检索阶段需要由特征向量匹配的相应算法。这些算法的核心是要解决高维空间向量快速匹配问题。针对这一问题,常用B树、B+树、K维分类树和散列方法[8]。基于树型结构的索引匹配可以在一定程度上提升检索匹配的效率,但树型结构的快速匹配是以牺牲图像检索的准确度为代价的,因此,散列表索引匹配方式也成为一种高维空间匹配常用方法。本文的研究就是基于局部敏感哈希方法的一种图像检索的技术实现。

2 本文系统实现的方法

2.1 高维空间索引的研究

为图像特征建立索引是提高图像检索效率的常用方法。特征检测算法提取出的图像特征描述子通常是几十维甚至上百维的向量。传统的低维空间比较方法无法直接用于高维数据空间。解决方法一般是采用基于数据分布、空间划分或者是散列降维的方式来提高特征向量的比较速度。

一般来说,图像特征向量的分布不是独立的。利用数据分布划分的方法对特征向量索引形成的数据密集区的点具有相似性,从而可将查询范围缩小到某个区域,达到加速检索的目的。但是基于数据分布划分会在不同的结点区域产生重叠现象。

基于空间划分的方法认为在数据空间中相互接近的点在特征上具有相似性,采用某些固定范围对数据空间划分,使查询范围限定在包含与查询点的同一空间的邻域内,会提高查找速度。如四元树、AV-File、网格文件等。然而,基于空间划分思想的算法存在的问题是该方法假设数据在空间上的分布是均匀的,使得在实际的检索中难以取得理想的结果。

以上基于数据分布和空间划分的索引方法都存在无法克服的缺陷。例如,当特征向量维数超过一定值时,K-D树搜索的效率甚至不如穷尽搜索的方法。如果特征向量的分布是均匀的,基于空间划分的方法将能够合理的将特征向量分布在不同的检索路径上,从而得到较为高效的检索效率和准确的检索结果,但是实际上,图像特征向量之间的相关性会导致进行空间划分时,某些节点数据较为集中,而某些节点没有数据的情况,从而影响检索效率,降低检索的精度。

位置敏感哈希算法(Locality Sensitive Hashing Algorithm,LSH)是常用的高维据索引方法之一。该算法核心思想是将高维空间中的元素视为点并赋以坐标值。通过一族哈希函数将空间所有点映射到n个哈希表中。LSH不再使用空间划分方法,利用哈希表的思路为特征建立索引:首先将特征向量投影到某个坐标空间并赋以坐标值;然后利用k个哈希函数对坐标值进行哈希运算。两个输出相近哈希码的高维数据点会被认为可能是近邻而散列到同一个哈希桶中。

LSH索引在数据维数增加时依然能表现出较好的检索性能,因此吸引了较多学者的关注。目前,LSH算法已经逐渐应用到图像检索系统。

2.2 LSH算法的实现

与一般哈希函数不同的是位置敏感哈希函数的位置敏感性,即散列前的相似点经过哈希之后,也能在一定程度上相似,并具有一定的概率保证。

这一特性可形式化定义:对于任意我q,p属于S,若从集合S到U的函数族H={h1,h2,…,hn}对距离函数D(·),满足条件(1)若D(p,q)≤r则pro[h(p)=h(q)]≥p1;(2)若D(p,q)>r(1+ε)则pro[h(p)=h(q)]≤p2。则称D(;)是位置敏感的。

通过分析不难看出,位置敏感哈希算法将相似度较高的样本映射到同一个哈希桶(Hash Bucket)中,通过增加存储开销来降低样本的查找区间,如图4所示。按图5所示,位置敏感哈希算法的可进一步描述为:假定给定的数据点v和q属于集合S,那么若从集合S到集合U的函数族H={h:S→U}对距离函数Dis(;)满足条件:(1)当条件Dis(v,q)≤r1满足时,PrH[h(q)=h(v)]≥p1成立;(2)当条件Dis(v,q)≤r2满足时,PrH[h(q)=h(v)]≥p2成立。则认为函数族H={h:S→U}对函数Dis(;)是(r1,r2,p1,p2)敏感的。并且只有条件p1>p2和p均都成立时,位置敏感哈希函数才有实际意义。

假定G表示哈希函数族,从其中随机地抽取哈希函数集合g={h1,h2,…,hk}。数据点g(p)=[h1(p),…,hk(p)]可表示为g(p)=[h1(p),…,hk(p)],接下来,把哈希函数集g(p)映射对应到哈希表。论文使用下述函数进行图像相似度的计算

其中,参数a是服从高斯分布的d维随机变量,参数b是从数值区间[0,r]中的实数。函数fab(V):Rd→N将d维向量V映射到整数空间。

在位置敏感哈希算法的基础上,本文按如图5所示算法进行图像检索。

3 实验结果与分析

从图像检索时间和图像检索召回率两个角度来衡量算法的有效性。在比较系统检索运行时间时,将本文算法与基于Lucence方法的图像索引检索方法进行比较分析。Lucence作为开源的Java全文检索平台已经在多个领域有所研究。

实验在Core-i5 CPU和4 GB内存的计算机上进行,如图6所示,从索引和检索时间来看,与Lucence检索相比,论文采用LSH方法能有效提高对图像数据库和图像检索的时间。

此外,为衡量算法检索的准确性,文中从图像检索查准率和查全率两方面来衡量LSH索引的检索图像准确率的性能。查准率是指查出图像结果集中准确图像所占的比率,即

而查全率是用来衡量检索出的结果集中正确图像数量与数据库中实际正确匹配结果的比率,如式(3)所示

这两个指标实际上是互相影响的。从实验验证角度来看,提高查准率是以牺牲查全率为代价的,同样在查全率提高的同时,错误检索结果也会相应增加,实际检索中,要靠检索阈值的调节来达到检索需求。

如图7所示,直观来看,对于不同类型的图像,本文设计的方法得到的检索准确率并不完全相同,但能保证基本检索结果的准确性。

从实际系统分析来看,查准率和查全率的比较关系如图8所示。本文选用的LSH索引方法与Lucence索引方法有比较接近的图像检索准确率。

4 结束语

设计了一种基于位置敏感哈希算法的快速图像检索技术。该技术利用将图像高维特征映射到不同哈希桶中的方式实现降维处理,从而能在一定程度上提高图像索引和检索的效率。实验结果表明,利用位置敏感哈希的降维方法在保证查全率-查准率前提下,能较好提高图像检索的速度。本文研究仅限于单机版的个人图像数据库中,因此所得结论的全面性还有待进一步论证。后续研究中应考虑采用多种形式图像特征表示以及在大数据环境下进行系统实测,以获取更为科学、全面的研究数据。

摘要:利用文献可视化分析工具对图像检索研究现状进行了综述,同时设计了一种基于位置敏感哈希算法的图像检索系统。通过位置敏感哈希算法将图像的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了图像检索的效率。实验结果表明,文中设计的方法在检索效率以及查全率-查准率两个测度上均获得了较好的性能。

关键词:位置敏感哈希,图像检索,图像特征向量

参考文献

[1]Ritendra Datta,Joshi Dhiraj.Image retrieval:ideas,influences,and trends of the new age[J].ACM Computing Surveys,2008,40(2):1-60.

[2]Chen C.Cite space II:detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.

[3]齐恒.基于内容图像检索的关键技术研究[D].大连:大连理工大学,2012.

[4]Yang C,Dong M,Fotouhi F.Semantic feedback for interactive image retrieval[C].MA,USA:In Proceedings of the ACM International Conference on Multimedia,2005.

[5]Arnold W,Worring M,Santini S,et al.Content-based image retrieval at the end of the early years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(12):3845-3849.

[6]许锐.基于颜色和纹理特征的图像检索技术研究[D].长沙:中南大学,2008.

[7]Jia Li,James Z Wang.Automatic linguistic indexing of pictures by a statistical modeling approach[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,25(9):1075-1088.

文献检索系统开发研究论文 篇9

目前,信息知识已成为农业生产活动的基本资源和发展动力,信息和技术咨询服务业也相应成为整个农业结构的基础产业之一,信息和智力活动对农业增长的贡献越来越大。而农业知识检索[1]作为一个新兴的研究领域, 近年来受到了较多的关注。虽然国外知识检索的理论研究和实践应用已取得了一定的进展,但农业知识检索系统的可用性评价研究相对匮乏, 缺乏可操作性的研究成果[2]。

我国农业信息化服务平台研究起步较晚,与国际还存在较大差距,主要表现在:基于现代信息技术的农业信息服务基础设施薄弱,农业信息的规范化程度不高、信息传输渠道不畅,农业公共信息平台的技术支撑能力没有充分发挥[3]。国家有关部门已进行了一系列富有创造性的探索,如国务院的“金农工程”、信息部和广播总局的“村村通”、中央组织部的“农村基层党员干部现代远程教育网”、科技部的“星火科技12396”和商务部的“信福工程”等均可为农业生产者、经营者、管理者和决策者提供信息服务,并指导农业的产前、产中和产后各环节,以充分发挥信息技术在农业中的“信息支撑”作用。

然而,当前农业数字资源的组织依旧停留在信息层面上。由信息组织机制直接引发的信息检索的弊端是显而易见的, 基于关键词匹配的信息检索技术无法达到对知识的检索与利用[4]。尽管一些数字资源检索系统引入了主题词典或概念词典, 但其描述知识的能力非常有限。由此导致的结果是,众多的数字资源系统依然是异构、多源和分布的, 数量巨大的数字资源与人们有效接收能力之间的矛盾不仅没有缓解,反而日益突出。为此, 创新农业知识检索理论方法与技术,从信息检索走向知识检索势在必行[5],并且知识检索能适应用户的现实信息需求及其发展变化。

1 系统设计概述

农业知识库知识检索系统由基于数据中心下的知识库及知识库群、信息交互平台、数字门户3部分组成。其中,以知识库为核心,主要包括农业知识条目的采集与加工规范、组织与表示、存储结构、知识库和知识库群构建。

农业知识库有显性知识和隐性知识[6]:显性知识是指一个巨大的知识库或知识库群,存放的经过知识重组和表达后可供农户直接使用的知识;隐性知识是指农技人员、种养大户、普通农户和专家等在长期的农业生产实践中积累的丰富经验、诀窍和农谚等隐性知识。农业信息化知识服务就是将存在知识库中有关农业的显性知识和农业生产实践中的隐性知识转移给农户的过程。为了实现这个目标,采用3个层次的知识转移方法来满足农业知识库知识检索系统的要求。第1层次是知识录入层:通过农技人员、种养大户、普通农户等在长期的农业生产实践中积累的丰富经验、诀窍、农谚以及网络垂直搜索提炼与挖掘的资源、自主开发的“网络爬虫”[7]技术爬取的农业知识、人工整理纸质资料等隐性知识,形成原始资料数据库,并录入农业知识库,实现农业隐性知识的转移。第2层次是知识审核层:农业专家和农技人员 将这些隐性知识通过获取、分析、处理和重构组织及提炼分类等方式转化为农业科学知识,即显性知识。 转化过程中应注意剔除错误知识、纠正知识, 然后反馈给信息管理专家,由信息管理专家经过科学解释、标准编码和合理分类等信息化技术知识处理操作转化为可管理的农业实用科学知识, 存储到知识服务系统中,形成知识库和知识库群,实现农业知识的显性化。第3层次是知识检索层:座席人员、农业专家、农技人员和农户等可通过计算机、信息机、触摸屏等终端浏览、查询知识服务系统或通过报刊、报告、短信、电子邮件和电话等得到知识数据工程,指导农户进行更为高效、科学的农事活动,实现农业标准化生产。

2 系统分析

2.1 农业知识库检索系统整体需求

知识库检索系统用例,如图1所示。

用例:知识检索;参与者:撰写专家、审核专家、系统管理员;操作流:撰写专家登陆专家系统后在WEB页面录入临时知识并修改临时库中还没有进入审核流程的知识,而且该知识必须由该撰写专家撰写的。

系统管理员登陆管理系统后,如果有初审权限,可以对所有知识进行初审。初审内容为:对无价值的知识直接删除,对没有注明产业类型的知识要根据知识内容给它指定产业类型,对错别字进行修正。审核专家登陆审核系统后,可以审核已经通过了管理员初审的、属于该专家审核范围内的知识。复审内容为:确认知识的准确性,并可根据需要对知识进行编辑(修改内容,添加内容,删除内容),对有重大错误的知识也可以直接删除。系统管理员登陆管理系统后,如果有终审权限,可以对所有知识进行终审。终审内容:确认知识无误,把知识录入知识库。

呼叫中心座席员登陆座席系统后,可以通过web页使用搜索引擎进行知识检索,并且用来接收用户的查找关键字,然后系统调用相应的功能模块从数据库中找到满足用户需求的相应信息,同时在前台页面进行回显。

2.2 农业知识检索系统流程

所谓系统流程,就是用户在使用系统时的工作过程。对于多类型用户的管理系统来说,每一类型用户的工作流程都不是相同的。本系统的流程图如图2所示。

2.3 农业知识检索系统架构及关键技术研究

农业信息化的知识检索系统中的知识录入是知识库的咽喉,关系到知识的“入”。是否所有的农业专业知识都可以畅通无阻地进入知识库呢?答案是否定的。因为相似甚至雷同的知识只能使知识库臃肿,达不到丰富知识库的目的,所以录入系统需要设计一个查重分析器,判断问题的相似度,从而减少知识库冗余;当检索或者查重时,系统需要对问句或者知识条目进行关键词提取,特别是农业关键词、方言关键词的提取,从而能最大程度地理解问句的语义,这就离不开针对农业的专业分词器。农业信息化知识检索系统使用目前主流的开源搜索引擎框架lucene。自定义分词器即农业专业分词器,将分词器与lucene开源框架对接,并使用lucene的索引器对知识库记录建立倒排索引[6],为以后实现高效的检索提供必要条件。系统架构如图3所示。

2.3.1 词典在硬盘中的表示

词典常驻于内存中,这样可以避免每次分词都要加载词典,提高分词效率。分词器将词典从磁盘中加载到内存,词典增删改之后又将内存中的词典保存到磁盘,这个过程中需要实现内存和磁盘的数据同步。同时,方言词与关键词的对应关系备份在知识库中,并在数据库中建立对应关系。数据库表中的数据与词典必须对应,所以需要建立一个函数,对词典的数据和数据库中的数据进行同步操作。词典的Hash函数表示为:设一个词条word去掉首字后还有n个字,而使用I[i][n]来表示第n个字的GB码的高位和低位。词典在磁盘中部分表现形式如图4所示。

其中,每行第1个字为中文常用字6 763个,每行首字之后的数字表示以该字为首字的词汇数量,“F”和“T”表示是否为农业专业词汇;符号“#”表示分隔;其余汉字表示词汇除首字的剩余字符串。如“底”表示的词汇为“到底”;“181215”为“哈”字的Hash值。Hash值后面的数字“1”表示常用词汇,“2”表示农业专用词汇,“3”表示农业方言专用词汇。

2.3.2 词典的结构

系统设计词典结构主要考虑以下几个方面:一是空间复杂度;二是查找的时间复杂度;三是方言词翻译的时间复杂度。综合以上几个方面,系统设计的词典结构如下如图5所示。

以图5中“棉”字为首字的词汇为例:33表示以“棉”字为首字的所有词汇有125个;“F”表示“棉”字能不能单独成词;“子籽”、“絮”、“绒品”表示以“棉”字为首字的词汇,它能分别组成词语“棉籽”、“棉絮”、“棉绒品”等词;3标识词汇的性质为农业方言词(如果该词汇为农业关键词,则该值为2;如果该词为常用词,该值为1);(215209)(208245)等分别表示“籽”、“絮”等的Hash值。“棉籽”用指针指向“棉花”,表示棉籽只是方言词,它的关键词是“棉花”,这样由一对多关系中的多的一方指向单一的一方,以方便对应关系的管理;如果该词并不存在关键词,则指向空对象。

2.3.3 词典的构建

构建流程如图6所示。构建步骤如下:

1)初始化,建立词典对象AgcDictionary,索引对象AgcFirstWord,读取下载的词典;

2)读取词典一行,取首字,得到首字GB码;

3)判断内存中的AgcFirstWord对象中是否存在该字,如果存在,则转至5);

4)将该字加入AgcFirstWord对象中,并新建AgcHashtable对象与之关联;

5)计算除首字其余字符串的Hash值,并保存在AgcHashtable的key中,将该字符串保存在Value中;

6)判断词汇属性,常用词汇的词汇属性为1,农业专业词汇的词汇属性为2,方言词汇词汇属性为3,并将其保存至AgcHashtable的Value中;

7)词汇属性如果为3,该词汇为方言词汇,则新建AgcMykeyword类,保存其对应的农业专业词汇;

8)将内存数据保存到磁盘,形成词典。

这种方法构建的词典,提高了分词系统2~3倍的存储空间利用率。

2.3.4 词汇的查找

查找算法是分词算法中最常用的算法,使用频率最高,是Hash算法相比其他算法最有优势的地方。在本算法中,首先根据查询字符串可以得到首字的GB码,将此GB码作为索引值直接可以定位到词条行,然后通过计算词条的Hash值进行Hash查找,查找完后,进行近义词的查找。

输入:要查找的字符串;输出:该词条存在,返回词条属性,否者返回false。

1)取得输入字符串的首字,计算其GB码,得到数组下标。

2)根据数组下标,得到以该字为首字的所有词汇的AgcHashTable。

3)计算剩余字符的Hash值,如在该AgcHashTable中直接定位到该字符串,则表明该字符串成词,返回该词的词汇属性,并转步骤4);否则,该字符串不成词, 返回false。

4)如果该词是方言词汇,根据该词找到对应的专业词汇,并返回。

2.3.5 词汇的添加

本分词器主要应用于农业。实际中,农业专业词汇非常生僻,而在常用词典中农业词汇的收集量相当匮乏。因此,在知识库构建时,知识条目的字段设计了专业关键词和湖南各地的相对应的方言关键词。只要将这些词构建到词库中,知识库所有的关键词和方言词都能被准确地切分;且随着知识库的成长,分词词典将越来越完善。

针对湖南各地的方言词汇,在词典添加过程中,需要建立起方言词和农业关键词的对应关系,从而高效地完成将方言词翻译成农业关键词(专业术语)。词汇的添加一般发生在知识库保存数据时,其过程如下:输入,农业方言词及对应的农业专业关键词;输出,添加成功或者失败。

1)取得农业方言词及对应的农业专业关键词。

2)运用词汇查找(2.3.4描述的算法),如果词库中已经存在,更改其词汇属性;否则,计算词汇Hash值,并保存词汇、Hash值及词汇属性。

3)建立农业方言词和农业专业关键词的对应关系,将方言词的词汇属性置为3;新建AgcMykeyword类存放其对应的农业关键词,形成方言词与农业关键词的对应关系。

3 系统功能实现

3.1 系统实现时序图

3.1.1 知识录入

3.1.1.1 知识来源

知识库知识的来源主要有3个途径:一是聘请有经验的权威专家撰写知识块;二是利用网络爬虫从网络上收集部分知识;三是从农民提问和专家解答的知识沉淀中提取知识。无论来自于哪个途径,都必须经过专门的审核专家审核后才能进入正式知识库。

3.1.1.2 知识录入时序图

知识录入时序图如图7所示。

3.1.2 知识审核

3.1.2.1 知识审核功能

由于相似甚至雷同的知识只能使知识库臃肿,而达不到丰富知识库的目的。为了减少知识库冗余,知识审核模块用于把已经录入到临时知识库的知识进行审核,审核通过后自动录入到正式知识库,主要审核的步骤是先由系统管理员初审临时知识库的知识,然后由专家组复审临时知识库里的知识,最后由系统管理员终审临时知识库里的知识并使之进入正式知识库。

3.1.2.2 知识审核时序图

知识审核时序图见图8所示。

3.1.3 知识检索

3.1.3.1 知识检索功能

用户提出问题,向系统发送请求,查询器发送数据给分词器,并由分词器进行分词。首先,分词器查阅农业专业词库,分析词汇是否为专业词汇;然后,分词器查阅近义词库,分析词汇是否为近义词;最后,分词词库对农民问题进行分词。 综合以上3个词库进行分词,形成分词结果集并返回分词结果。检索器根据分词结果发出请求,查询种类器,确认问题所属类别,并返回类别;然后,检索器根据类别查询相应的索引库,索引器对结果进行相关性分析,并排序和返回结果集。

3.1.3.2 知识检索时序图

知识检索时序图如图9所示。

3.2 系统实现效果图

系统实现效果图如图10和图11所示。

4 前台搜索结果与性能分析

农业信息化知识检索系统是基于web的,在知识检索操作方式上类似于百度、谷歌等通用搜索引擎。为此,在前台搜索方面把农业专业词汇和方言专业词汇搜索分别与国内比较大型的农业垂直搜索引擎网站做了对比测试(本测试主要从搜索速率和查准率上做了对比分析),如表1、表2所示。

通过表1和表2对比分析发现,本知识检索系统已经有了一定的信息检索能力,由于测试用的数据库数据量较少,加之程序的优化做得还不是很到位,因此在返回结果数量上还存在一定的差距,但已基本上只实现了知识检索的基本功能要求。从表1和表2可以看出,农联网和湖南农业信息网在农业专业词汇和方言词汇查准率方面效率不高,甚至偏低;而基于农业信息化知识检索系统平均搜索用时较之要少,且在查准率方面比两大知名网站较高,证实了中文农业分词算法在速率和查准率方面的优势。

5 结语

系统刚进入试运行阶段,其知识库数据较少,因而词典的专业词汇和方言词汇比较匮乏,分词器的词库在未来一段时间中需要不断完善。查重机制非常复杂,本文只是做了一些基础性的研究工作,在未来的工作中需要不断地对查重算法进行改进和优化,以提高系统查重的精度。

实验和使用结果表明,该系统的是可行的,为农业推广及农业科技信息服务提供了有效的帮助,因而应用前景广阔。

参考文献

[1]马文峰,杜小勇.知识检索研究[J].情报理论与实践,2006,29(2):157-158.

[2]张新兴.国外知识检索研究进展[J].山东图书馆季刊,2008(4):26-30.

[3]朱大成,于丰年.农业信息化的必要性及发展对策[J].现代农业科技,2010(1):28.

[4]金芳.浅谈信息检索与信息检索技术[J].晋图学刊,2001(3):22-25.

[5]程慧平,陈永超.国内知识检索研究进展[J].图书情报工作,2011,55(11):126-129.

[6]C.Stevenson.Taking the pith out of reality:a reflexive meth-odology for psychiatric nursing research[J].Blackwell Pub-lishing Ltd,2008(2):103-110.

文献检索系统开发研究论文 篇10

关键词:商品,检索,Web

一、引言

随着消费者需求的日益丰富和商店竞争的日益激烈, 商场零售贸易不能较好地满足顾客的需求, 顾客有时候会觉得“在喜欢的商场找不到自己喜欢的商品”。商场有时候采购的商品不能满足顾客的要求, 还有一些商场没有足够的资金进行宣传等。另外, 大中型商场的营业面积一般从几千平方米到几万平方米不等, 有的还分为几层楼, 陈列的商品更是琳琅满目, 种类齐, 顾客从中选出自己中意的商品确实不是一件容易的事情。因此, 如果能够借助于商品检索系统, 顾客就能轻松地找到目标商品, 商场也只需承担较少的资金。但是, 大多数在网上销售的商品, 只是使用目录, 而没有任何检索服务, 少数商场的检索系统只是提供一些关键词进行检索, 因为这些关键词未标准化, 因此细节检索还不完善, 也不能统一。基于以上原因, 我们开发了商场商品检索系统, 这套系统能为顾客提供详细的检索信息, 让顾客方便地检索到自己喜欢的商品, 操作简单快捷, 界面友好。

二、商场商品检索系统网站的开发

1. 商场商品检索系统网站的总体结构设计

整个网站的总体结构如图1所示。

在网站总体结构中, 人机接口是顾客和网站管理员共同的接口, 当顾客操作时, 不用进行身份认证就可以直接查询商品信息;当要进入后台进行管理的时候, 就需要输入身份认证了, 需要的帐号需要由管理员来分配和控制。商品各类信息数据库中存储着商品的信息, 其中包括商品名称、价格、数量等, 这些信息分别存储于不同的表格中, 当前台需要查询不同信息时就调用后台不同的表格。

2. 系统的开发环境

系统的开发环境采用Windows2003操作系统下的Dreamweaver 8网站开发环境。Dreamweaver 8是Macromedia公司最新的产品, 作为站点和应用程序的专业工具, 将可视布局工具、应用程序开发功能和代码编辑支持组合在一起, 功能强大, 操作简单, 能够快速创建界面美观、引人入胜、基于标准的网站和应用程序, 提供了一个集成和高效环境中所需的工具。

3. 数据库的建立

系统的后台数据库使用SQL Server2000网络数据库。在开发数据库应用程序之前, 必须建立一个完整的数据库即要进行数据定义。在利用SQL Server 2000开发数据库应用程序时, 需要注意几种情况:

⑴数据库不存在或者要重新建立数据库;

⑵数据库以别的文件形式保存, 必须转换成SQL Server 2000环境中的数据库形式, 数据才能正常使用;

⑶数据库SQL在数据库服务器中, 应用程序必须到服务器上访问SQL数据库才能达到需要的数据, 这是一个标准的客户端/服务器应用。

总之, 后台数据库创建的目的是能满足顾客检索商品的需要, 并且能满足他们长期的需要。开发过程如图2所示。

在后台数据库中, 根据实际需求分别建立不同的表格, 这些表格用来存储顾客查询的各种商品的信息, 比如, 建立电器表, 里面建立字段电器编号、电器名称、现价、折扣、数量等信息, 当顾客查询电器类商品时就调用这个表格, 则顾客在系统中点“搜索”按钮后就可以显示表中这些信息。

4. 商场商品检索系统网站的首页建设

在商场商品检索系统网站的首页中设计了用户的认证系统, 需要输入授权的用户名和密码才能进入后台管理系统, 顾客可以直接在首页中查询所需要的商品信息, 并可以显示查询结果。首页页面如图3所示。

三、结论

根据顾客选择商品面临的实际困难, 开发了这套商场商品检索系统。这套系统操作简单易懂, 管理方便。但是也存在一些问题, 比如, 如果数据库中建立的表格及表格中字段设置不合理, 有可能出现货架上或库存中有商品顾客却查询不出来的情况, 所以这套系统在这方面还在不停地改进。但就目前这套系统投入使用后反应情况来看, 效果较好。

参考文献

[1]张世君:基于消费者心理和行为分析的货商场大类商品布局模式研究[J].商场现代化, 2007.1 (上旬刊) , 59~60

[2]王莹陈雁:日本研发的服装商品检索系统[J].国外丝绸, 2005 (4) :20~2

整合检索系统发展概述 篇11

关键词:整合检索 跨库检索 发现系统 统一资源管理

中图分类号: G254.92 文献标识码: A 文章编号: 1003-6938(2011)05-0025-04

The Development of Unified Retrieval Systems

Xia Cuijun (Guangdong University of Foreign Studies Library, Guangzhou, Guangdong, 510420)

Abstract:This paper mainly introduces the development of unified retrieval system. Then, the author analyses two kinds of unified retrieval system: search in just-in-case metadata central indexes,and just-in-time search in cross-database resources that are not indexed. Finally,the author introduces discovery system and unified resource management.

Key words: federated search; unified retrieval systems; discovery interface; Unified Resource Management

CLC number: G254.92 Document code: A Article ID: 1003-6938(2011)05-0025-04

整合检索由最初的“Google-like”一站式检索图书馆电子资源发展到强力存取图书馆各种资源(物理馆藏和虚拟馆藏)的探索发现系统,更进一步提出以统一资源管理平台管理图书馆的各种资源。系统开发商积极开发新功能组件的系统,图书馆面临更多的选择,也有了更多思考。本文试图通过梳理整合检索系统的发展脉络,引发图书馆思考如何让读者利用整合检索成更加方便、快捷的获取所需信息资源,并以整合检索系统为新的信息服务起点做好信息服务工作。

1 整合检索系统的兴起

面对复杂多元的网络信息环境,图书馆与数据库商、系统服务商等都在努力开发可以像Google一样一站式检索图书馆各种信息资源的工具——整合检索系统。整合检索并不是近几年出现的新概念,上世纪70年代开始发展的Z39.50及90年代与网络资源搜寻有关的Metacrawler都体现了整合检索的诉求,它们均是架构于透过一个共通的搜寻接口检索异质信息来源概念所形成的信息检索通讯协议或程序工具。也有的通过API程序对检索接口的分析、指令的包装与数据的重整达到整合检索。这类型的通讯协议与程序工具的设计目的都是希望能够透过一个共通的检索接口,降低信息使用者检索多个信息来源、重复输入多次相同检索策略的繁琐。[1 ] 但由于技术限制,不论是Z39.50、API程序或者Metacrawler,检索范围多限于单一形态资源,整合程度有限。近年来随着OpenURL以及相关程序工具的发展,整合检索在图书馆运用的成效也日见显著,metasearch, parallel search, federated search, broadcast search, cross-database search, search portal这些词汇从不同角度反映了对检索图书馆电子期刊、电子图书、自建资源等多种异构数据库信息资源的探索。

在整合检索系统的功能要求上,2005年美国国家信息标准组织(National Information Standards Organization、简称NISO)在“整合检索先导计划(NISO Metasearch Initiative)”的网站上对整合检索系统提出了三点要求,即:整合检索系统服务商能提供更有效的服务;内容供应商提供更多的内容并能保障他们的知识产权;图书馆能提供异于Google和其它免费网络资源的服务。[2 ] 这三点要求是开发整合检索系统的基本要求,整合检索系统的发展也经历了一个由初步发展到相对成熟的过程。

2 整合检索的技术方案

目前进入商业化开发的整合检索的技术方案有两种。一是基于备用性(just- in-case)处理的元数据集中索引式整合检索,预先将各个数据库资源的元数据集中到一台或几台中间服务器上,用户通过向这几台中间服务器发送检索请求的方式来完成整合检索。[3 ]二是基于即时性(just-in-time)处理的跨库检索系统,用户即时将查询提交给整合系统,通过整合服务器向源数据库发送请求,获取实时检索结果的整合方式。[4 ]这两种方案各有优缺点,也都各自的适用范围。

2.1 基于元数据集中索引的整合检索系统

基于元数据索引的整合检索系统就是通过抽取、映射和导入等手段对分布异构资源的元数据(也可能包括对象数据)进行收集和聚合,安装在本地系统或者中心系统平台提供统一的检索和服务。[5 ]这是一种备用性的整合检索,需要预先集中外部数据库源的元数据,检索是针对本地系统或中心系统平台的元数据库进行的,不需要跨多个外部数据库源,也不受源数据库访问方式的限制,检索速度快。从读者使用体验看,检索速度快是这种方式的最大优点。

元数据整合是目录信息的整合,基于元数据的整合检索系统会充分发现各个源数据库的共性,它会按照异构数据的共性,重组新的学科体系,做到分类体系统一,实现对所有异构资源的学科聚合,实现学科导航检索功能。[6 ]

基于元数据索引的整合检索系统需要建立一个庞大的集中式索引,强调元数据的提交与处理,注重元数据的更新与维护,存在着较大的管理难题。最初由于这种方式由于涉及数据库厂商的商业利益,不要说将所有资源的元数据集中到一起,就是集中图书馆订购的那些资源的元数据也很难操作。而且由于源数据库不断更新,已经集中索引的元数据也面临数据更新和维护问题。随着开放获取运动的发展,这一困境正在得到缓解。传统数据库商担心免费资源会影响到他们的用户,开始与 Google合作,一些学术性商业数据库和出版商已将其全文或文摘让Google Scholar编入索引。有些学术性商业数据库和出版商与图书馆系统服务商签约,同意系统服务商从他们数据库中直接收割元数据甚至是全文文本,并可存取这些元数据和生成索引。

元数据集中索引的整合检索在电子期刊整合中用的比较多。SwetsWise的元数据库SwetsWise MetaData收录了22000种刊名目录、3.5亿条篇名目次信息。[7 ] 360 Core的Knowledge Works是电子期刊、电子图书及其它资源的权威知识库,Serials Solution公司与全球各地的资源提供商合作,从中收集元数据,并集成到Knowledge Works中,通过Knowledge Works合作伙伴认证计划,确保数据库商按要求正确收集和呈现元数据。目前Knowledge Works包括来自2700多个全文和4720多个非全文的出版社权威数据库的18.5万多种电子期刊、50余万种电子图书的元数据,并以每月新增150个数据库资源的速度增加。[8 ]

元数据集中索引的整合检索也应用在资源探索发现系统。Ex Libris公司的Primo Central就是这样一个元数据集中式索引,它由Ex Libris统一维护、更新,将来自不同数据库商的数据进行集中索引,力求整合、揭示全世界的各主要电子期刊、电子数据库。Ex Libris公司与各个数据库商协商并签订合同,定时从供应商处直接收割元数据甚至是全文文本。从不同供应商收割回来的数据全部进入Primo系统中,进行统一的数据加工、规范化,最终建立一个单一的集中式索引。目前,Primo Central中已经整合了世界上大部分的外文电子期刊文章和部分报纸、电子书元数据,目前已收录记录超过2.5亿条。[9 ]

Serials Solution公司的Summon Unified Search Index 也是这样一个元数据集中式索引。经加工处理的元数据(部分包括全文)被预先收割到Summon Unified Search Index,并可深度索引,内容涵盖了数字资源库、报告、引文、灰色文献、会议录、学术仓储、电子期刊、报纸、电子图书、学位论文、图书馆书目记录等。[10 ]与Summon签约的出版商和内容供应商持续增长,目前,已有超过6800家出版商、约10万种期刊向Summon提供超过5亿条的记录。[11 ]

2.2 基于即时性处理的跨库检索系统

基于即时性处理的跨库检索系统指用户即时将查询提交给系统,系统将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,并对检索结果加以整合,在经过去重和排序等操作后,以统一的格式将结果呈现给用户。[12 ]

对异构分布资源的整合,最佳的方式是采用标准的数据格式XML和标准的通用检索协议,如Z39.50、Open URL、Zing、ODL、OAI以及Web Service等,但实际上大多数电子资源并不支持或者并不开放这些接口,在实际情况中, 也经常遇到资源提供商不公开他们所遵循的协议情况。针对未知协议, 通常采用“页面分析技术”实现跨库检索,即通过分析各数据库的URL和HTML页面, 通过抽取、尝试和分析去判定检索请求和页面内容。[13 ]通过标准的通讯协议和标准的数据格式来进行的整合检索能够提供准确、全面、及时的检索结果,而通过Http页面分析和模拟进行的整合检索由于受到源数据库访问方式的限制, 整合的效果和准确性会受到不同程度的影响。

基于即时性处理的跨库检索系统,使用完全实时的目标资源数据,可即时检索到源数据库的最新数据,也避免了数据的更新与维护问题。但当源数据库检索接口、数据字段、数据结构发生变化时,跨库检索系统必须重新配库。

基于即时性处理的跨库检索系统的具体产品,国内目前使用比较多的有Metalib元搜索,已有许多详细介绍,此处不赘述。Deep Web Technology在检索获取集成分析深层网页数据库资源方面有独到之处,它开发的Explorit能同时并发检索数百个资源库,在几秒钟内返回高度相关性的检索结果,并将检索结果以智能聚类方式呈现给用户。[14 ]360 Secarch将全球领先的两大联邦检索引擎360 Secarch和WebFeat整合在一起,形成了一个功能强大、齐全的服务,可对检索结果进行整理和综合,并以聚类方式显示在一个简单易用的界面中。[15 ]Innovative的Encore通过Research Pro来检索资源,Research Pro异构资源整合检?系统采用的是Muse异构资源整合检索引擎。Swets 公司的SwetsWise Searcher采用的也是Muse的技术,2010年2月,Swets宣布与Deep Web Technology合作来改进SwetsWise Searcher的功能。[16 ]

3 整合检索的发展

整合检索的两种技术方案各有优缺点,也都有各自的适用范围。如何让这两种方案扬长避短优势互补呢?资源探索与发现系统正在做这方面的尝试,而整合检索也从最初尝试按Google族的使用习惯为读者提供一个简易的检索入口来查找图书馆丰富的电子馆藏,发展到强力存取、管理图书馆各种资源(物理馆藏和虚拟馆藏)的统一资源管理平台。

3.1 从整合检索到探索发现系统

两种方案各有优缺点,也都有各自的适用范围。元数据集中索引的整合检索需要学术性商业数据库、出版商等数据提供商的配合,经许可才可采集、索引元数据。基于即时性处理的跨库检索实现了对异构资源库的并发检索,但若要访问多个外部源数据库,则检索进程缓慢,且受外部源数据库访问方式的限制容易出现检索中断。如果将两种技术集成,既可解决元数据集中索引中未提供元数据的数据库的整合检索问题,又可减少跨库检索中要访问的外部数据库数量,换而言之,既扩大了检索范围又提高了检索效率。随着数字环境的形成,两种技术也整合在一起,并作为关键技术应用到图书馆的资源门户中,单一技术的整合系统发展到两种技术并用的资源发现与获取平台。

Serials Solution公司的探索发现解决方案集成了Summon互联网级探索发现和360 Search联邦检索服务。Innovative的Encore Discovery通过Research Pro 联邦检索工具和Encore Harvesting Services收割OAI元数据生成的索引集来发现资源,2010年1月宣称所整合的内容供应商的文章层级的内容,都是基串流XML模式而成,而不仅仅提前作内容的收割与索引。[17 ]

Ex Libris将MetaLib整合检索集成到Primo中,成为Primo的组件Primo Metasearch。Primo设计为通过Primo Central提供的元数据集中式检索方式和MetaLib元搜索提供的整合检索方式进行检索和发现资源,采取了以下几种检索:

①本地Primo检索。通过检索Primo本地索引、Primo其它用户的远程索引、Primo Central索引来进行。本地索引来自当前图书馆资源的元数据,其它用户的远程索引指Primo其它用户图书馆的索引。

②Primo深度检索。没有被预先抽取元数据索引的资源,而且这些资源符合Primo的深度检索的要求。

③Primo元搜索。适用于没有被预先抽取元数据索引的资源且不符合Primo深度检索。其核心组件是Metalib元搜索。[18 ]

3.2 从整合检索到统一资源管理

整合检索则由最初的“Google-like”检索界面改进到发现界面,以此为基础建立服务导向的架构,一方面提升读者的使用体验,另一方面与开放链接、聚类导航、个性化空间与信息定制、用户认证和权限控制等功能一起构成一个实用的数字资源整合系统。国外图书馆和软件商相继开发出十几种数字资源整合系统,在资源整合的基础上进行更深入的资源管理研究,提出了一些新的概念,如Ex Libris提出的统一资源管理(Unified Resource Management,简称URM),OCLC推出的 Web-scale Management Services(简称WMS);国内ALIS提出了三期建设和服务计划。

Ex Libris的统一资源管理平台将可处理各类资源(包括印刷资源、电子资源和数字资源),统一整合图书馆自动化系统、电子资源管理系统、机构仓储管理系统及其它系统,2011年1月 公布了Alma解决方案。Alma采用统一资源管理框架,支持图书馆所有资源的全部业务,不管这些资源是什么载体或格式、是在本地还是远程,全部业务涵盖了采分编、元数据管理、数字化以及日常业务。[19 ]如:Alma提供高质量、可共享的元数据,统一管理图书馆的各类资源,简化图书馆的工作流程,智能的馆藏管理让图书馆在有限的经费范围内实现最优的馆藏发展计划等。

OCLC指出WMS可让地方图书馆拥有完整自动化解决方案,而不需本地图书馆自动化系统,希望通过扩展WorldCat Local的功能来取代本地图书馆自动化系统。OCLC将WorldCat Local定位为探索发现工具,即WMS的发现层,加入流通、采购与许可管理的功能模块,旨在将现有的OCLC服务和最新开发的应用模块集成到一个协同在线网络中,希望开发一个可支持数千个图书馆有效处理数据的全球技术平台。目前已经形成三个主要的WMS模块:许可和订阅管理、流通发展、采购和工作流程。[20 ]

CALIS三期项目的建设目标是为全国近2000个高校成员馆提供标准化、低成本、自适应、可扩展的数字图书馆统一服务和集成平台,既要建立多级共建共享中心,又要为不同规模的高校图书馆提供低成本、本地化的数字图书馆解决方案。[21 ]

虽然统一资源管理目前仅为概念模式,Alma、WMS和CALIS的三期服务计划仅有少数图书馆开始早期试用,但对图书馆的影响不可忽视。以Exlibris的URM理念为例,在传统图书馆自动系统中,OPAC由图书馆提供元数据(MARC书目记录)和内容(纸本馆藏),自动化系统只是图书馆更好管理资源服务读者的工具,若元数据由Exlibris整合,内容由数据库商提供,那图书馆除了购买服务内容和服务平台,还能干什么?新技术带给图书馆的挑战前所未有!但数字化的浪潮不可阻挡,图书馆要在关注变化中寻找行业的发展机会。

4 结语

提供一个单一整合接口让读者能够非常容易地获得所需的信息是图书馆界一直追求的目标,整合检索系统让图书馆朝这目标又向前迈进了一步。但准确便捷的一站式整合检索也是对图书馆信息服务的巨大挑战,如何让整合检索入口成为图书馆服务的起点,而不是服务的终点是需要我们思考的问题。

参考文献:

[1]罗思嘉. 信息搜寻与异质数据库整合查询系统建置之初探 [EB/OL].[2011-07-26]. http://www.lib.ncku.edu.tw

/journal/15/4.htm.

[2]NISO Metasearch Initiative[EB/OL].[2011-05-20].http://www.niso.org/workrooms/mi/#background.

[3][4]窦天芳等.以Exlibris&Metalib为例谈整合检索的几个关键技术及应用[J].情报科学,2007,(8):1235-1239.

[5]姜爱蓉.数字资源整合系统的技术发展与应用趋势[J].图书馆杂志,2006,(12):14-18.

[6]蒋继平,姚倩.文献资源整合中的统一检索系统应用研究[J].大学图书馆学报,2011,(1):72-76.

[7]SwetsWise MetaData[EB/OL].[2011-05-16].http://www.swets.com/sites/default/files/factsheet/sw-md-03-2011-web.pdf.

[8]The Authoritative E-Resource Knowledgebase[EB/OL]. [2011-05-16].http://www.serialssolutions.com/assets/resources/Brochure-Serials-Solutions-KnowledgeWorks.pdf.

[9]资源发现与获取系统[EB/OL]. [2011-05-16]. http://www.exlibris.com.cn/product/primo/index.html.

[10][15]电子资源整体解决方案[EB/OL]. [2011-05-10]. http://www.serialssolutions.com/assets/publications/SerialsSolutions_Catalog_sch.pdf.

[11]Your Library Discovered[EB/OL]. [2011-5-10]. http://www.serialssolutions.com/assets/resources/Summon-Br

ochure-2010.pdf.

[12]李广建, 张智雄. 国外跨库检索系统研究项目及其特点[J]. 图书情报工作,2004,(4):444-447.

[13]姜爱蓉等.分布异构资源整合管理系统的技术特点和应用趋势——MetaLib& SFX综述[J].现代图书情报技术,2004,(4):1-5.

[14]Explorit Overview[EB/OL].[2011-05-16]. http://www.deepwebtech.com/products/explorit-overview/.

[16]SwetsWise Searcher improves its federated search performance with Deep Web Technologies[EB/OL].[2011-05-20].http://www.librarytechnology.org/ltg-displaytext.pl?RC=14516.

[17]Marshall Breeding. Automation Marketplace 2010:New Models,Core Systems[J].Library Journal,2010,135(6):22-36.

[18]Primo Search[EB/OL].[2011-05-20].http://www.exlibrisgroup.com/de/files/Germany/Produkte/PrimoSearchWh

itePaper.pdf.

[19]Ex Libris announces the cloud-based Alma Library Management Service[EB/OL].[2011-05-17].http://www.librarytechnology.org/ltg-displaytext.pl?RC=15322.

[20]David Rapp. OCLC's Cloud-Based ILS Enters Next Phase[J]. Library Journal,2010,135(13):16-18.

[21]王文清,陈凌. CALIS数字图书馆云服务平台模型[J].大学图书馆学报,2009,(4):13-18.

文献检索系统开发研究论文 篇12

关键词:标签,信息检索,CTS,folksonomy

1 引言

近年来,Web用户使用自定义标签来进行Web资源分类的方式已经比较流行了,一般称支持这种信息组织方式的系统为协作标签系统(Collaborative Tagging System,CTS)。协作标签系统和语义Web是目前Web的两大主流发展方向,都取得了阶段性成果,但是也都存在一些瓶颈问题。语义Web的应用前景很远大,但是它需要大量的结构化知识(三元组)来支持机器推理,由于目前本体的生成效率很低,造成了语义Web中知识的获取比较困难。协作标签系统结构化程度较低,很容易通过多用户的协作形成非结构化和半结构化知识库,但是这些知识的利用是很大的难题,常通过社会机制来控制,如标签的推荐、评价和协作等策略。

对于CTS来说,多用户通过因特网共享自己的资源固然是好事,但是这种信息组织方式过于自由了,资源的分类也十分随意,这造成了大量的重复信息和含义模糊的信息,对用户检索和利用有用信息极为不便。事实上,对于这种庞大的社会资源库,依赖直接通过标签来搜索往往很难得到用户想要的信息,查全率和查准率都得不到保障。因此,本文对CTS的信息检索方法进行了研究和探索。

2 协作标签系统概述

CTS是开放性的,任何用户都可以自定义标签标注资源和共享资源。这种多用户的协作方式形成了以半结构化知识和非结构化知识为主要内容的的社会知识库,如维基百科全书。CTS目前最典型的是自由分类(folksonomy)的形式,本文后续部分都针对folksonomy进行讨论。

2.1 Folksonomy和Wikipedia

维基百科全书(Wikipedia)是由Jimmy Wales和Lmay Sanger于2001年1月创建的一种大众参与的自由的百科全书,是国际性的开放内容的百科全书协作计划,其目标是为地球上每个人提供由他们的语言所书写的世界知识。随着成千上万的志愿者的参与,它已经成为目前世界上最大的百科全书。

自由分类*(folksonomy)是由网络信息用户自发为某类信息定义一组标签进行描述,并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法。folksonomy是个人为方便检索对信息和对象进行自由标注的产物。标注是在公开的网络环境下进行的,可以对其他人公开并共享。

2.2 CTS的特点

folksonomy是一个社会系统,多用户协作标注采用的都是用户自定义的非控词汇(标签),一般对标签的控制都采用社会机制,如选举、推荐和协作等方式。folksonomy采用基于用户的平面结构来组织信息,它的主要优点是:

(1)认知门槛低,用户不需要具有专业的知识就可以参与。

(2)用户之间可以进行即时的反馈和交流。

(3)如果标注词汇有所变化,则新的词汇将被迅速采纳。

(4)对每个用户都可以自行定制个性化需求和信息组织形式。

CTS的主要用途就是信息共享,但是用户自定义的标签并不一定是大众认同的,因此需要对自定义标签加以一定的控制。现有的folksonomy系统采取许多措施来促进信息的共享。

(1)建议使用流行标签,如图1所示的del.icio.us网站上的流行标签推荐。

(2)揭示标签之间的统计关系,帮助用户查找相关信息。

(3)允许用户协同合并他们认为具有同意义的标签。

需要指出的是,上述的措施都是从服务建议的角度提出的,并非是对用户自定义标签的强制控制。folksonomy的成功之处在于它将人作为因特网的核心,面向单个用户提供个性空间,面向用户群体支持协作和交互,因此它的发展动力源于大众。

2.3 CTS中的信息检索问题

尽管目前采取了很多措施来控制用户自定义标签,但是对folksonomy的信息检索仍然很困难。folksonomy用户的兴趣具有明显的主观性,定义标签十分随意,因此造成了如下的问题:

(1)由于没有统一标准,同样的标签可能存在多种含义。

(2)不同的标签可能表示相同的含义。

(3)用户定义的标签一旦离开上下文环境往往就难以准确理解。

其中,最困扰用户使用CTS信息的问题就是多义标签和同义标签。图2所示的是del.icio.us网站提供的搜索引擎,当输入air进行检索时发现对air的理解有多种,如Adobe Integrated Runtime的缩写形式AIR和航空、空气等,正是这种语义的模糊使得folksonomy似乎变得“一团糟”。由于CTS缺乏基础的符号系统,造成对同一实体的不同描述依据上下文,因此要对CTS中的信息进行比较准确的检索就不能仅仅通过标签(关键词)的查找来实现。

3 面向CTS的信息检索方法

对CTS的信息检索离不开上下文环境,标签代表的语义往往是模糊的和不全面的。目前面向folksonomy的信息发现方法研究是影响folksonomy发展的重大问题,主要存在两种思路:第一,通过发现相似文档或社区共同兴趣来对信息进行归类;第二,通过分析实体间的联系来确定标签间的关联。

3.1 CTS的形式化描述

CTS由用户、标签和资源三部分组成,整个系统可以用超图来描述[5]。超图的概念1973由法国数学家Berge提出,用于研究有限集合中各元之间的多元关系问题,描述最具一般性的离散结构关系。为了将超图理论用于大型的电网络、计算机网络设计和物流领域。首先定义用户集、标签集和资源集如下:

则用户对资源的注释集可以描述为:

将用户、标签和资源看作是超图的顶点,将用户对资源的标注路径看作是超图的边,则得到CTS的超图结构为:

G=顶点:V=U∪R∪T边:E={{u,r,t}|(u,r,t)∈A}

这样,针对具体的实例就可以把folksonomy定义为如下的四元组:

F=(U,T,D,A)

3.2 用三方图分析CTS语义

一种能够反映CTS本质的方法就是三方图(tripartite graph)。三方图反映了用户、标签和资源之间的关联,通过分析三方图就能够结合上下文确定标签的含义[4]。分析三方图往往是首先确定用户、标签和资源三方中的一方,这样三方图就可以简化为两方图,具体来说有以下三种简化后得到的两方图:

(1)面向单一用户的两方图TDu

TDu=,Etd={{t,d}|(u,t,d)∈A}

含义为特定用户的空间里标签和文档资源的对应关系。

(2)面向特定标签的两方图UDt

含义为使用特定标签的用户和文档资源的对应关系。

(3)特定文档的两方图UTd

含义为对于特定文档,用户和自己定义的标签的对应关系。

将三方图变为两方图的过程其实就是确定上下文环境的一个过程,限定了关系的范围,因此可以较为准确的分析出CTS实体的语义。要进行CTS的信息检索,就不可避免的涉及到语义分析的问题。

3.3 问答式检索

由于CTS由用户、标签和资源三部分组成,对CTS的信息检索自然也涉及到这三个方面,一般来说,可能的检索方式有:

(1)通过标签检索资源,对应于UDt。

(2)通过用户检索资源,对应于TDu。

(3)从文档出发,通过标签检索用户,对应于UTd。

大多数用户使用资源时关注的是信息资源本身,有时也可能会关注到某个用户和他的空间。一般情况下对标签本身的检索意义不大。而用户的名称虽然可能重复,但是通过输入用户名称来检索用户及其相关资源比较容易做到,一般也不存在语义混乱的问题,在此不再做讨论,本文主要关注通过标签检索资源的问题。

由于CTS中信息的组织过于随意,常规检索方法难以返回有效结果,因此首先要对CTS的信息组织方法进行改进,一种比较好的思路就是对用户的自定义标签再添加可控标签[5],即标签的标签。CTS服务方需要通过选举算法得出同一内容下的最流行标签,并用该标签对所有与这一内容相关的资源、标签、或者标签之间的关系加标签。这其实是一个信息分类的过程,也是一个把“图”变成“树”的过程。例如,可以把所有和“air”有关的标签分为一大类,对缩写和非缩写进行区分,形成两个子类。

在客户端要对文档资源进行检索,可以按照问答方式分阶段进行,一旦输入关键词,则系统提供与之相关的标签,当用户选择兴趣范围,再返回下一层,直到用户满意为止。以“air”的查询为例,假设我们需要得到有关航空公司的信息,则系统可以提示与air相关的标签,用户选择后再进一步缩小范围。

4 结束语

维基百科的成功,引起了人们的深思:世界上最大的百科全书为什么不是微软的Encarta百科全书或者是大不列颠百科全书呢?道理很简单:大众的力量是无穷的。这引起了人们对因特网的新的思考,因特网是大众的网络,它的诞生和发展都是为大众服务的,离开了这条主线就背离了因特网的发展方向。支持分布式的、大众参与的因特网的社会性系统是今后信息系统的一个重要发展方向。本文针对目前CTS中信息检索面临的难题进行了一定研究和探索,但是尚未从根本上解决此类问题,这需要在今后的研究中不断深入。

参考文献

[1]Scott A Golder,Bernardo A Huberman.The Structure of Collaborative Tagging Systems[EB/OL].2005[2008-03-21].http://arxiv.org/ftp/cs/papers/0508/0508082.pdf.

[2]Mika,P.Ontologies are us:A unified model of social networks and semantics Proc[C].ISWC2005,2005.

[3]Mathes Adam.Folksonomies-cooperative classification and communication through shared metadata[EB/OL].2004[2008-03-21]http://www.adammathes.com/academic/computermediatedcommunication/folksonomies.html.

[4]Ching-man Au Yeung,Nicholas Gibbins,Nigel Shadbolt.Understanding the Semantics of Ambiguous Tags in Folksonomies[C].ES-OE2007,2007.

[5]Vlad Tanasescu,Olga Streibel.Extreme Tagging:Emergent Semantics through the Tagging of Tags[C].ESOE2007,2007.

上一篇:软件与服务外包下一篇:纠错系统