服务搜索引擎评价(精选7篇)
服务搜索引擎评价 篇1
0 引言
近年来,随着互联网行业高速发展,Web Service作为一种新兴的Web应用程序分支,可以执行从简单的请求到复杂商务处理的任何功能。这使得其在互联网领域取得了巨大的成功,并已经渗透到商业领域和个人生活的各个方面。当前,针对网络上充斥的各式各样的Web服务,如何有效的进行服务发现成为一个重要的研究问题。
在各种解决方案中,服务搜索引擎模式因其满足用户的使用习惯以及其方便与Web2.0的融合而受到业界的普遍欢迎。并且据调查,当前在UDDI注册中心中发布的服务中,超过53%的服务已经无效,而通过搜索引擎方式获得的Web服务,其中有92%都是有效和可用的。[1]
随着Web服务搜索引擎技术的发展,如何评价其搜索质量也成为一个亟待解决的问题。评价问题的研究是目前信息检索领域研究的热点问题。上世纪中期,英国Cranfield工程建立了Cranfield评价体系,并应用于信息检索相关研究领域的评价过程中。由于该评价体系的可操作性和客观性,确立了评价在信息检索研究中的核心地位。国际文本信息检索会议是目前国际上最大规模的文本信息检索评测组织,其一直采用Cranfield评价体系,并对Cranfield评价体系自身进行不断地改进和优化。[2]
针对Web服务搜索引擎,使用基于Cranfield评价体系的思想设计评价方案,结合Web服务垂直搜索引擎检索效果评价的特殊性,基于用户Qo S信息进行群体聚类,利用用户查询和点击的行为信息分析,得到搜索的查询集合和结果集合,可以对Web服务搜索引擎搜索效果有一个客观的评价。
论文的组织结构为:第一章介绍相关研究工作,讨论搜索引擎评价研究工作现阶段的发展和存在的问题。第二章针对Web服务搜索引擎分析传统Cranfield适用的场景问题,分析优化方案。第三章基于用户行为分析的数据,对Web服务搜索引擎的自动评价算法给出设计。第四章列出主要结论。
1 相关工作
Cranfield方法直到今天仍然被广泛地应用于包括搜索引擎在内的大多数信息检索系统评价工作中。Cranfield评价体系框架包含四个部分:语料库集合、查询样例集合、查询答案集合和评价指标。不同的信息检索系统首先对相同的语料库集合进行处理和索引;其次,构造查询样例集合,抽取能够表示用户信息需求的查询样例,并提交给各信息检索系统检索;同时,评价人员在语料库中标注出查询样例对应的相关答案文档集合;最后,将信息检索系统返回的检索结果和标注的答案集合作比较,利用相关评价指标对各系统的检索性能进行评价。[3]
在实际的试验中,Cranfield方法并不理想,主要的困难在于查询样例集合和查询答案集合的标注过程。如果使用手动标注的方法的话,面对互联网上海量的数据,使用Cranfield方法将使整个评价周期拉长许多。例如,对于一个规模为800万文档的语料库,进行某个查询样例的标准答案的标注可能需要耗费一个工作人员9个月的时间。[4]另一个问题是,标注人员在针对查询样例集合选择查询答案集合时,受到个人情绪、理解水平等主观因素的影响,查询答案集合仍然是有一定偏差的。
对于Cranfield方法的改进工作主要有两方面:替换Cranfield中人工标注的步骤,使用自动化的方法;使用其他的评价方案来评测搜索引擎效果。针对前者的思想,根据相关统计分析,独立的查询数和用户访问频率之间存在着幂律关系,即少量的高频查询代表了大多数用户的查询请求,而大量的低频查询词只被少量用户提交。因此,需要根据实际用户需求情况来抽样构建查询样例集合。[5]国际文本信息检索会议(TREC)经过多年的研究,提出了结果池过滤(Pooling)的人工标注方法,其主要思想是:对于某个查询,利用多个信息检索系统返回前N个结果,将这些结果放在一起构成结果池列表,对池中的结果文档进行人工标注,判定其和查询的相关性。这种标注方法仍需要相关人员参与,对于信息检索的相关研究来讲,其具有一定的可操作性。但对于搜索引擎来讲,需要评价的查询样例集合较大,评价周期要求短,因此仍难于实际操作。
除了结果池过滤方法之外,还有利用已有万维网资源实现查询答案集合的标注。利用开放目录计划(Open Directory Project,简称ODP,一个利用万维网用户标注万维网资源的项目)所整理的信息资源构建查询答案集合。然而,通过这种方式构建的查询和真实的用户信息需求差距较大,难于大规模应用。
在第二方面的研究工作中,比较有代表性的有IBM Haifa研究院研发的“相关词集合评价方法”。该方法首先选择一定量的代表用户查询需求的查询词;随后针对每一个查询词,手工标注尽量多的与此查询词相关联的词项;在进行评价时,通过待评测文档中关联词项的分布情况判定文档的相关程度及检索结果的可靠性。这种方法在一定程度上解决了评价结果反馈时间过长的问题,但丝毫没有减少甚至增加了相关性标注的难度。同时,词与词的相关程度本身就是一个难以界定的问题。
总的来说,Cranfield方法的思想体系是理论和实践证明过的值得研究发展的,通过自动化标注的方法,对其进行优化也是一个可以考虑的发展方向。与以往研究工作不同的是,本文专注于研究针对Web服务垂直搜索引擎的性能评价方案。在这个特殊场景里,使用Qo S数据和用户行为分析数据对Cranfield方法进行优化是本文的研究重点。
2 服务搜索引擎评价方法分析
2.1 搜索引擎搜索评价分析
在传统信息检索中,衡量系统的基本指标:查全率(Recall)和查准率(Precision),查全率是检索出的相关文档数和文档库中所有的相关文档数的比率;查准率是检索出的相关文档数与检索出的文档总数的比率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。
对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。由于互联网海量信息的特征,查询返回的结果大都非常多,因此目前的搜索引擎系统都非常关心精度。同时,互联网的信息是动态变化的,搜索引擎必须反映这种变化。
简单来讲,搜索引擎要满足用户对信息查询的需求,提高用户的搜索体验。以下是几个比较重要的指标:网页覆盖率,提高查全率,是保证查准率的基础;返回结果的准确性,主要是第一页结果的准确性。大部分用户仅仅察看搜索结果的第一页;重复信息返回的过滤,返回结果应该尽可能不出现重复、类似的结果;网页更新速度,取决于新网页的发现,和死链(指无法访问网页)的及时删除,结果中大量死链和过时信息的链接,将会降低用户体验;搜索服务的响应时间,也就是用户提交检索后得到结果返回的等待时间,一般要低于一秒即可;最后是搜索服务的系统稳定性。
2.2 基于用户行为分析的标注
在上文中,我们提出了依靠用户的查询和点击行为,进行答案自动标注的想法。我们做了这样一个假设,即用户键入的查询在大部分时候还是可以找到满足其需求的结果的,所以,用户对于查询结果的点击行为在一定程度上也是对检索结果的一个筛选评价的过程。
依靠用户行为分析依赖于用户的规模。对于个体用户来说,由于有个人习惯,理解角度等因素的影响,对于结果的选择可能不一定是他最需要的那个结果。但是如果从宏观上看,能满足用户需求的优秀的Web服务应该会被大部分人所接受。其他的用户选择可以作为随机噪声而过滤掉。同时,当用户规模足够大,查询-点击行为足够多时,我们得到的查询样例集合和查询结果集合的映射应该是相当可靠的。
使用Cranfield方法评价搜索引擎时,首先需要解决的问题是构造一个测试样例集合。Andrei Broder[6]指出,用户查询信息时,一般主要包括以下3类信息:
●寻址类查询(Navigational)。用户是要寻找某个特定的网站或者网页。例如“新浪微博”、“淘宝网”等。
●信息类查询(Informational)。用户需要综合若干网页数据才能获取的信息。例如“Web服务发展现状”、“中国钢铁行业发展”等。
●事务类查询(Transactional)。用户需要在网上进行除了阅读之外的某些交互行为。例如“订机票”,“视频下载”等。
实际上,对于不同种类的查询信息,可能会需要不同的检索模型、参数,而评价方法也会随之发生变化。但是在Web服务搜索引擎中,首先,检索出来的Web服务之间基本上没有什么联系,用户一般会使用结果中某个Web服务,而不会把这些服务连起来使用,也即,用户使用Web服务搜索引擎进行检索后,想找到的是最合适的Web服务使用。其次,用户在使用Web服务搜索引擎时,场景一般是这样的:输入查询关键词,在检索结果中根据显示的Web服务信息选择最合适的Web服务,然后根据接口说明编写相应程序完成对Web服务的调用。所以,从以上分析可以看出,对Web服务的查询过程,大部分用户的行为更加偏向于类似寻址类查询的行为。这样,每次查询的结果选择,其正确答案相对唯一,这样用户行为分析的可靠性也能得到保障。这样,根据用户的查询-点击行为,我们容易得到一个查询-最佳答案的映射,使得评价结果相对客观,准确。
在通用搜索引擎中,依据用户行为分析做自动标注并不需要对用户群体做划分,即用户行为是宏观上作为一个统一的整体去看待的。但是,在Web服务搜索引擎中,Web服务的Qo S值是随着用户的位置发生变化的。也就是说,不同的用户即使在查询同一个关键词时,因为地理位置或者网络位置不同,得到的Web服务结果集合中每个Web服务相对于他的Qo S值也不同。而Qo S值是影响检索结果集合排序的一个重要的影响因子。同时,因为用户总是期望得到Qo S值相对好的服务。所以,在使用Cranfield方法时,标注人员所表现出来的Qo S信息差异也需要区别对待,在实际研究过程中,需要针对用户群体进行聚类,并且尽量减少个体点击行为的噪音。
3 服务搜索引擎算法评价设计
在上一章的讨论中,我们已经明确了Web服务搜索引擎的检索过程类似于寻址类信息的查询过程,使用用户行为分析的方法实现Cranfield评价分析是可行的。在Cranfield方法中,为了进行性能评价,必须具备语料库集合、查询样例集合和查询答案集合。在Web服务搜索引擎中,语料库集合就是索引数据库中的Web服务信息,实验数据大概有20,000个Web服务。所以查询样例集合和查询答案集合如何生成成为需要重点考虑的问题。
Web服务搜索引擎基于用户行为分析方法的自动标注过程如图1所示。搜索引擎首先接收用户输入的查询数据,然后对用户输入依照查询数据的特征和用户的QoS信息对查询进行分类,并记录该次查询,放入查询样例集合中。经过搜索引擎检索后,记录用户选取的结果,放入查询答案集合中。最后利用标注的信息对搜索引擎的性能进行评价。
对于Web服务搜索引擎而言,用户的Qo S数据信息会对排序结果产生很大影响,所以用户检索分类这一步与通用搜索引擎最大的区别在于根据用户Qo S数据对用户进行聚类的过程。Web服务搜索引擎系统在实际运行中会在全球若干个不同地点测量Qo S数值,计算出用户的网络坐标,然后根据用户的网络坐标和Web服务的网络坐标,得到用户和Web服务的网络距离,即Qo S数据。最终反映到数值上是一个区间,有效的Qo S数值是在1到10000之间的整数。超过10000的数值即认为服务不可达。
根据服务搜索引擎的特点,可以根据服务和检索用户之间的Qo S信息进行区间分类,以保证在一个区间内部,QoS数值对检索排序结果影响是可以控制的。实际的分类算法采用hash桶算法,将Qo S数值划分成若干个桶区间。当分析某一次检索操作时,根据用户和Web服务之间Qo S数值放入对应桶里,同一个桶内部的检索过程才具有比较性。由此我们可以得到根据Qo S进行分类的算法:
a)对Qo S取值区间进行划分,形成若干区间桶(桶内Qo S数值对排序结果的影响在阀值T以下);
b)从用户查询样例集中选择一次查询,针对该用户在查询过程中服务搜索引擎记录的检索过程用户的Qo S数据,计算其应该放入的桶位置;
c)将该检索过程记录放入对应的桶中保存,然后重复b)步骤,直到所有的样例集都被分类。
搜索引擎性能评价的指标计算我们使用reciprocal rank方法[7]。该方法计算出来的数值表示搜索引擎返回的结果序列中第一个满足用户需求的结果在检索结果集中出现的序号的倒数。例如,返回1,表示搜索引擎返回的结果集中第一个结果就满足用户的需求,1/2表示第二个结果满足用户的需求,以此类推。这个指标比较适合Web服务搜索引擎的性能评估,因为对于用户来说,他需要的Web服务信息通常会有一个最满足他需求的结果。
有时,可能用户需要查看多个Web服务才能判断出最符合需求的Web服务,使用reciprocal rank算法并不一定很好的描述这一状况。于是我们希望找到在用户多次点击情况下最佳的结果。我们需要计算点击集中度[8]数据。点击集中度表示,针对用户某次查询Q,我们定义Target Result为查询关键词Q的用户点击最多的一个结果,而点击集中度Click Focus Rate为Target Result的点击次数与查询Q时的总点击数据的比,如公式3-1所示。在这个概念中,TargetResult实际上是最有可能成为针对特定关键词查询的目标Web服务,也就是我们希望标注的目标服务。
由此,我们提出计算TargetResult并对服务进行标注的算法:
a)从用户查询样例集中选择一个查询,使用Web服务搜索引擎进行搜索;
b)在得到的检索结果集中,筛选出用户针对该查询点击过的查询结果的位置Li(i表示第i次查询);
c)在
- 这个集合中,找到用户点击次数最多的结果Target Result,计算其点击集中度,如果点击集中度大于阀值W,将其在查询答案集合中标注;否则终止标注过程。
算法当中提到了阀值W,它的作用是当遇到用户需要查找的Web服务无法显示在前i个结果时的情况,点击集中度无法区分出针对该查询的最佳答案,使用阀值W限制,将其抛出。
4 结论
搜索引擎的评价问题一直以来都是信息检索领域核心研究方向之一,其同时也是搜索引擎进行算法改进、系统优化和日常运营维护重要保障。在Web服务搜索引擎中,同样面临着传统的评价方法费时费力、评价周期长、评价不客观等相关问题。通过分析服务搜索引擎提供的检索服务特殊性,本文提出了基于用户行为分析进行自动化标注的方法,并且根据Web服务搜索引擎排序影响因子的特点,提出了基于Qo S数据信息进行样例集合划分的方法,可以比较客观,准确的评价Web服务搜索引擎的性能情况。
摘要:基于垂直搜索引擎设计思想提出的Web服务搜索引擎相比传统的UDDI服务发现方法能更好的满足用户对于Web服务查询的需求。随着服务搜索引擎技术的不断发展,如何评价其检索效果成为提高服务搜索质量的核心问题。本文提出了一种基于用户行为分析对Web服务搜索引擎进行自动性能评价的方法,并且根据Web服务特点,提出了基于QoS数据信息进行样例集合划分的方法。通过对用户的查询和点击行为分析,推导出针对特定查询集合的检索结果集合,并将两个集合之间自动建立映射。通过分析Web服务搜索引擎的搜索效果,评价本文提出的方法与人工标注的方法的对比,基于用户行为的评价算法能够对服务搜索引擎进行较客观的评价。
关键词:计算机应用技术,Web服务发现,用户行为分析,服务搜索引擎评价
参考文献
[1]ELGAZZAR K,HASSAN A E,MARTIN P.Clustering WSDL documents to bootstrap the discovery of Web services[A].ICWS2010-2010IEEE8th International Conference on Web Services[C].Miami,FL,United states;2010.147-154.
[2]费巍.搜索引擎检索功能的性能评价研究[D].武汉:武汉大学,2010.FEI W.Research in Search Engine User Behavior Based on Log Analysis[D].Wuhan:Wuhan University,2010.(in Chinese)
[3]HARTER K,STEPHEN P.CAROL A.Evaluation of Information Retrieval Systems:Approaches,Issues,and Methods[J].Annual Review of Information Science and Technology(ARIST),1997,v32:3-94.
[4]VOORHEES E M.The Philosophy of Information Retrieval Evaluation[M].Gaithersburg MD20899USA:Springer Berlin Heidelberg,2002.
[5]余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[A].第三届学生计算语言学研讨会论文集[C].中国中文信息学会,2006.YU H J,LIU Y Q,ZHANG M,et al.Research in Search Engine User Behavior Based on Log Analysis[A].SWCL2006[C].Shenyang:CIPSC,2006:217-222.(in Chinese)
[6]BRODER A.A taxonomy of web search[J].ACM SIGIR Forum,2002,Volume36Issue2:3-10.
[7]OLIVIER C,DONALD M.Expected reciprocal rank for graded relevance[A].Proceedings of the18th ACM conference on Information and knowledge management[C].New York:CIKM,2009:621-630.
[8]LEE U,LIU Z Y,CHO J.Automatic identification of user goals in Web search[A].Proceedings of the14th international conference on World Wide Web[C].New York:WWW,2005:391-400.
常见搜索引擎评价方法分析 篇2
搜索引擎是目前Web环境中最常见的工具之一,但一个搜索引擎是否能在上线后完成原有设计目标,不能靠感觉或目测,需要有一定的方法进行系统评估。即使是成功上线后,也需要继续监测,以便于调整其性能,更好地适应用户的需求,从而取得更大的市场竞争力。
1 常见搜索引擎评价方法分析
搜索引擎评价应能估计在给定条件下检索算法的有效性,并在相同情况下与另外的检索算法的有效性进行比较,或者预测这种算法在不同情况下的有效性。对于评价方法,一般要满足如下条件:
(1)能表示检索算法预期目标。
(2)量化多大程度实现了预期目标
(3)采用准确、精确且经济的度量技术。
(4)能度量误差。
1.1 效果和效率
效果衡量的是搜索引擎返回正确的搜索答案的能力,即搜索引擎的实际排序结果与人工排序结果的吻合度。
效率衡量的是搜索引擎的搜索响应速度,即搜索引擎采用的排序算法所消耗的时间和空间复杂度。
搜索引擎的这两项指标相互关联,相互制衡。通常而言,由于引擎的主要用途是为用户反馈查询的结果,所以效果评价更受重视。在评价某搜索引擎能取得有效查询结果的前提下,才将评价重点转到效率评价。
1.2 效果评价
1.2.1 召回率与准确率
效果评价中最常用的两种方式是召回率(Recall)和准确率(Precision),用于总结和比较搜索结果。召回率衡量的是搜索引擎找到所有相关文档的能力,准确率则衡量搜索引擎排除不相关文档的能力。这两种方式倾向于检索尽可能多的相关文档,且使检索到的不相关文档数量尽量最少。
对于任一个给定的查询,将会产生被检索到的文档集和未被检索到的文档集。假定A是相关文档集合,是不相关文档的集合;B是被检索到的文档集合,是未被检索到的文档集合。则召回率和准确率可以表示如下:
由上可见,召回率是相关文档被检索到的比率,准确率是检索出的文档中有多少相关文档的比率。
这两种方式,都要基于检出的经过排序的文档。当一个查询有许多个相关文档,或者相关文档较零散地分布在排序中,通常用三种方法来计算召回率和准确率。
(1)在预定义的排序位置上计算,通常计算出准确率即可。如果一个排序位置p的准确率比另一个排序高,那么相应的召回率也就高,这被称为位置p的准确率。
(2)当召回率从0到1.0每增加0.1跨度时,计算准确率的相应变化。这种方法适用于所有排序结果中的相关文档,而不仅是那些排序靠前的文档。
(3)计算当一个额外的相关文档被检出时(即召回率增加),准确率的平均值。平均准确率只有用单一的数值对所有相关文档的排序结果进行衡量,但这个值很大程序取决于排序位置较靠前的相关文档。
在实际评价中,还有第四种方法,即计算F值将召回率和准确率进行综合。F值被定义为召回率(R)和准确率(P)的加权调和平均数,其优点是用单一的数值即可评价搜索引擎的性能,表示如下:
其中α是权重,用于表示侧重召回率或者是准确率。
1.2.2 平均化与插值
1.2.1中的评价方法主要针对一个查询,为对搜索引擎进行全面的评价,必须选择多个查询进行测试,此时,会采用平均化技术,即通过某个查询集来总结某个排序算法的排序性能。
使用1.2.1中的平均准确率,可得到每个查询的相关排序结果的评价数值,要对多个查询总结该排序算法性能,可把这些数值再平均。因为基于平均准确率,所以表示对每个查询,用户都倾向于找到更多的相关文档。为了简化平均化过程,每个查询的召回率-准确率值被转化为标准召回率等级上的准确率值,即将标准召回率等级上的准确率值进行平均,可评价排序算法的效果。
标准召回率等级是0到1.0,以0.1为单位增量。为获得每个查询在这些召回率等级下的准确率,必须进行插值。即要基于这些数据点定义函数,使其在每个召回率等级处都产生值。现在最常用的函数表示如下:
其中,S是观测点(R,P)的集合。在任意的召回率等级处,该插值定义准确率为在较高的召回率等级处,召回率-准确率点中能观测到的最大准确率。
任何搜索引擎的搜索结果都包含一些不相关的文档,所以随着召回率升高,通常准确率趋于下降。这一点在上述插值方法中得以体现,因为这个函数值是单调下降的。
1.2.3 排序靠前的文档
尽管许多搜索的结果有许多个文档,但用户往往只关注排序在前的相关文档,在Web环境下,通常是结果的前1-3页。有时还有这种情况,搜索仅需要一个单独的相关文档,这时,召回率评价就不再起作用,而相关文档是否靠前才最重要。
在1.2.1中提到的位置p的准确率的评价通过平均多个查询的评价结果来评价搜索引擎,但不足之处在于:对于给定数量的相关文档,不能很好地区分不同的排序。因此选用排序倒数评价方法更为合适。它返回第一个相关文档位置的倒数,与其相关的平均排序倒数是针对一组查询的排序倒数平均值。
实际评价中,当高相关性的文档比边缘相关的文档有用得多,一般采用折扣累积增益法(Discounted Cumulative Gain)。这种方法从排序靠前的结果开始计算,在靠后的排序位置上开始打折,表示如下:
其中,reli搜索返回的文档中排序为i的文档的相关性等级,分母log2i是损失因子。通过变化公式中的对数的基数,损失可能变得更陡峭或者趋于平滑。
DCG评价首先对每个查询的位置p上的DCG进行计算,再进行平均。但不同的查询,会返回不同数量的相关文档,为了便于平均不同查询的评价值,可通过将每个排序位置上的DCG值与该查询的最优排序的DCG值进行比较,得出归一化的值。
1.3 效率评价
最常用的效率评价方法是基于查询流量的方法,记录每秒处理的查询数量,这是个单一数值的评价。通常,两个搜索引擎应在同一个测试集、同一个查询集合、同样的硬件环境下进行评价。搜索引擎提供方希望借助于流量数据来估计系统容量,从而决定是否还需要投入硬件资源来满足大量的用户查询。
主要的效率评价方法如下:
(1)索引时间开销:用于评价在一个特定系统上建立文档索引所需的时间。
(2)索引处理器时间开销:用于评价建立文档索引所需的时间,与索引时间开销相似,但不包括I/O等待时间或者系统并行获得的速度。
(3)查询流量:每秒钟处理查询的数量。
(4)查询延迟:用户提交一个查询后,在获得返回结果之前需要等待的时间,以毫秒计算。用中值或者百分比表示。
(5)临时索引空间:创建索引所使用的临时磁盘空间的数量。
(6)索引大小:用于存储索引文件的存储空间的大小。
但如仅用流量数据来评价,就会忽略延迟因素的影响。延迟和查询流量并不是正交关系,通常可以通过增加延迟来改进流量。
与效果评价中的召回率与准确率一样,低延迟和高流量都代表搜索引擎的高性能,但这两项指标却是相互冲突的,不可能同时达到峰值。在一个搜索引擎中,查询流量是基本需求,因为系统需要处理用户提交的每一个查询,延迟和硬件资源则相对是动态的。
查询流量和延迟是最有效的效率评价方法,但同时也应将索引的代价考虑其中。假设给定足够的时间和空间,存储每个可能长度的查询,那查询流量和延迟有可能达到各自的峰值,但这时的索引代价极其巨大。所以需要衡量索引结构的大小,以及创建索引所消耗的时间。
2 结论
对于搜索引擎的评价方法有许多,但并没有哪一个就能全面评价搜索引擎的性能。所以实际评价过程中,通常是综合运用多种评价方法,力求从不同的角度验证搜索引擎的工作性能。常用的组合包括召回率准确率、平均值、关注靠前文档等。
摘要:搜索引擎是网络环境中普通用户获取信息的重要工具,其性能优劣需要靠科学的评价方法来测定。文中分析了常用的搜索引擎评价方法及其各自的应用特征。重点分析的是效果评价中的三种方法以及适用的环境。实际评价中,以多种评价方法的综合为宜。
关键词:搜索引擎,评价,效果,效率,查询算法
参考文献
[1]魏蕾如.基于搜索引擎的网络中文信息检索工具评价[J].数字技术与应用,2011(06):187-188.
[2]Stefan Buttcher.信息检索实现和评价搜索引擎[M].北京:机械工业出版社,2012:279-323.
[3]苏君华.搜索引擎评价研究综述[J].情报杂志,2011(04):28-63.
[4]黄盛.浅议信息检索的相关特性及效果评价[J].全国商情(理论研究),2010(13):111-112.
服务搜索引擎评价 篇3
1.1 研究现状
目前有论文对我国大学生的信息素养做详细的研究, 绝大部分在定性的基础上得出我国大学生信息素养需要极大提高的结论。鲜有调查报告和评价研究特定在大学生的网络信息搜索行为上;同时, 对搜索引擎的评价体系的研究也有很多, 但是由于出发点不同, 评价标准多种多样, 也没有形成一致的结论。本文借鉴已有的网站和搜索引擎的评价体系, 结合大学生自身的搜索行为来构建评价指标体系。
1.2 大学生搜索行为现状
根据CNNIC的2009年1月发布的第24次中国互联网发展统计报告, 中国的网民年龄构成中, 18—24岁的网民占据了31.5%;职业构成中, 学生占据了33.2%;由此可见, 中国大学生群体是网民中的生力军。根据《中国青年报》2008年8月的一份调查报告, 80后群体, 尤其是大学生群体, 对搜索引擎已经有了一定程度的依赖, 但是搜索方法和效率普遍存在问题。如学术检索使用频率较低, 相当一部分大学生仅用百度和谷歌来下载论文, 对数字图书馆等权威的网络文献数据库却几乎没有概念。
2. 基于大学生网络信息搜索行为的搜索引擎评价体系的设计
2.1 基于大学生搜索行为的搜索引擎评价指标的选取
1) 针对性本研究评价体系是基于大学生的网络信息搜索行为, 所以大学生这个群体就是本次评价体系构建的“专家”和“问卷对象”, 所有指标的设定都要和大学生的搜索行为相关联。
2) 系统性指标体系要能够全面反映被评价对象的综合情况。
3) 科学性每个指标都要有明确的含义和目标导向;层次划分要有逻辑性, 避免出现范围相交, 越界;注重客观评价和主观评价相结合。
4) 实用性指标体系的内容要操作简单, 易于理解, 易于实施。
5) 定性与定量相结合在赋值的时候我们将运用AHP的相关数学方法进行计算和校验。
根据上述原则, 选取评价指标如下:
查全率:检出的相关文献量与系统文献库中相关文献总量的比率。在网络检索阶段, 系统文献库中的相关文献是个不定值, 难以测量, 故在网络信息检索中, 查全率可以等同于搜索的广度。该数据在大学生群体中运用问卷调查法取得。
查准率:检出的相关文献量与检出文献总量的比率。
权威性:引擎结果提供的内容必须是科学的, 包括信息的编著者是否为该学科的权威, 内容是否规范, 信息的发布或转载是否已获得版权许可等。
新颖性:链接信息能否保持最新状态, 更新周期是否有正确标识。
用户界面友好程度:关注引擎界面是否友好, 是否有利于用户操作。
帮助信息:是否有帮助菜单以协助用户了解搜索引擎的服务和使用。
网站的交互性:是否提供入口接受用户提问、请求或建议。
检索方式的多样性:是否提供高级检索或二次检索、站内搜索引擎检索功能的完备性程度, 是否提供布尔检索、截词检索等。
对用户要求:用户是否需要具备复杂的检索技能, 是否具有普遍适用性。
检索的响应速度:从发出检索命令到显示结果的等待时间。
安全过滤:检索结果是否有安全过滤, 是否可以屏蔽非法信息和病毒 (包括竞价排名合理程度) 。
访问量:反映搜索引擎被用户重视的程度和使用频率。
人链网页数:是指研究对象以外的网络信息资源指向该对象的页面数。
2.2 基于大学生搜索行为的搜索引擎评价体系的构建
1) 我们运用层析分析 (AHP) 方法进行评价体系的建立, 这种方法的基本思想是将定量与定性相结合, 将客观数据和人的主观判断按照数值的比例关系进行表示, 从而对对象进行评价。
我们采用广泛使用的1—9标度, 将两个指标之间的比值用1—9以及1—1/9进行表示, 若两个指标之间比例为1, 则说明这两个指标的重要性相同, 若两个指标之间的比例为9, 则说明两个指标之间的重要性相差极大, 而数字2—8就相应表示指标之间的重要性差异。
我们在建立评价体系时将搜索引擎分为学术和生活两个种类分开考虑, 二者的评价指标相同而相应的权值不同。评价的一级指标为:信息内容、用户服务、技术支持、访问情况。其中信息内容对应的二级指标为:查全率、查准率、权威性、新颖性;用户服务对应:用户界面友好度、具备帮助信息、交互性、搜索方式多样性、对用户的要求;技术支持对应:响应速度、安全过滤;访问情况对应:访问量、入链数。
根据各级指标建立相应的矩阵, 并通过matlab软件计算各个矩阵的最大特征值。已知一致比例系数其中, n为矩阵阶数。已知只有当CR<0.1时, 关系矩阵的一致性才能够通过并作为最后的指标参考, 若CR>0.1, 则说明矩阵的一致性不佳, 需要重新建立矩阵。
2) 学术类搜索引擎的评价体系建立
通过查询资料和专家访问法, 在学术方面, 一级指标的关系矩阵为:
信息内容、用户服务、技术支持和访问情况二级指标均按照上述方法计算, 均通过一致性检验。
3) 生活类搜索引擎评价体系建立和学术类搜索引擎方法相同。
4) 利用一级指标和二级指标权重相乘可得到最终指标权重。学术和生活方面的指标权重值如下:
生活类搜索引擎
一级指标:信息内容0.350, 用户服务0.190, 技术支持0.110, 访问情况0.350。分别所属二级指标:查全率0.102, 查准率0.078, 权威性0.033, 新颖性0.138, 界面友好度0.045, 帮助信息0.016, 交互性0.035, 搜索方式多样性0.078, 对用户要求0.015, 响应速度0.055, 安全过滤0.055, 访问量0.21, 入链数0.14。
学术类搜索引擎
一级指标:信息内容0.528, 用户服务0.195, 技术支持0.117, 访问情况0.160。
分别所属二级指标:查全率0.103, 查准率0.103, 权威性0.260, 新颖性0.061, 界面友好度0.018, 帮助信息0.028, 交互性0.021, 搜索方式多样性0.095, 对用户要求0.034, 响应速度0.047, 安全过滤0.070, 访问量0.080入链数0.080。
3. 结论及建议
本文通过层次分析方法构建了基于大学生网络信息搜索行为的搜索引擎评价指标体系。该体系指标的选取和权重的赋值均特定在大学生群体。具有较强的针对性。后期可进行实证分析, 如选取百度、谷歌、雅虎、腾讯搜搜和CNKI知识搜索等最为测评对象, 将量化的指标带入该评价指标模型中, 从而筛选出最适合大学生学习、生活使用的网络搜索引擎, 指导大学生更为合理、充分地利用网络信息资源。
摘要:近年来搜索引擎技术发展迅猛, 大学生是网民的重要组成群体, 也同时是搜索引擎的主要使用者。文章首先分析了大学生网络搜索行为的现状, 进而提出了基于大学生搜索行为的搜索引擎评价指标体系的设计构建, 从而对大学生合理选择搜索引擎提供参考价值。
关键词:大学生,搜索行为,搜索引擎,评价体系
参考文献
[1]乔冬梅.搜索引擎现状与发展研究[D].郑州大学硕士学位论文.
[2]叶鹰.信息检索:理论与方法[M].北京:高等教育出版社, 2004.
[3]沈固朝.网络信息检索:工具-方法-实践[M].北京:高等教育出版社, 2004.
服务搜索引擎评价 篇4
一、问题的提出
个性化服务充分尊重了服务对象的个性化差异, 能够带给服务对象更好的服务体验。尤其是随着计算机技术和网络信息技术的进步, 数字图书馆的建立, 图书馆已经成为用户学习与工作的得力助手, 是获取专业知识与信息的首要途径, 但是随着图书馆馆藏资源的增多, 知识更新换代速度的加快, 馆藏资源变得更加的分散和复杂, 加上有的图书馆缺乏统一的管理, 用户如何快速、准确的获取自己需要的有价值的信息就变得越来越困难, 进而造成了用户单一化需求与图书馆信息量日益增长之间的矛盾, 此时图书馆的个性化服务显得更加重要。
在新时代背景下, 图书馆的服务对象在专业背景、研究领域等方面都体现出很大的差异性, 信息检索的个性化需求在不断增长, 因此图书馆需要借助智能搜索引擎等技术建立起与客户个性化需求相适应的信息服务系统和服务机制, 这不仅关系到图书馆个性化服务水平和馆藏资源利用效率的提高, 还关系到用户能否在复杂的网络环境下快速、准确的检索到自己所需要的信息。
二、智能搜索引擎在图书馆个性化服务中的优势
首先, 智能搜索引擎可以对图书馆用户的检索意图进行更准确的定位, 智能搜索引擎借助对图书馆知识库的科学构建和语义网络等智能技术的合理运用, 可以对图书馆用户的信息检索需求在知识层面或概念层面进行分析, 并进行有效的逻辑推理和提问联想, 最终实现对图书馆用户检索需求的准确判断和研读, 进而开展更有针对性的个性化服务。
其次, 智能搜索引擎的检索效率更加高效和准确, 在衡量图书馆检索服务水平时, 准确率、完整性和过程费用是衡量个性化服务水平的主要标准, 智能搜索引擎可以将图书馆检索的响应时间控制在1秒之下, 而且准确率和完整率也实现了大幅提高, 为图书馆个性化服务的开展奠定了良好的基础。
再次, 智能搜索引擎的检索表达模式更加灵活, 既可以检索准确的关键词, 也可以对用户的一些模糊检测和不规范表达给予支持。
三、图书馆基于智能搜索引擎的个性化服务与技术改进
(一) 积极开发知识决策服务方面的功能
目前图书馆在个性化服务信息的推送与推荐方面的职能已经相对完善, 但是在知识决策方面的职能还相对欠缺, 所以可以充分发挥智能搜索引擎在知识挖掘和数据发现方面的优势, 为图书馆用户提供更具个性化的知识决策服务。
(二) 加强集成式元搜索功能的开发
目前图书馆在应用智能搜索技术时, 虽然在一定程度上实现了多种搜索引擎的检索结果的整合, 但是其集成功能还不够高, 因此在很多时候检索结果并不理想, 所以智能搜索引擎在图书馆中的应用, 应积极朝着集成化、智能化的方向发展, 以元搜索的方式加强图书馆用户在知识搜索上的层次性和全面性。
(三) 加强问题库技术的合理应用
问题库技术作为一种人机交互式的操作技术, 主要是通过问答界面的设立并查询FAQ文件来实现的, 借助问题库技术的合理应用, 可以提高智能搜索引擎对图书馆用户在问题处理时的灵活性和主动性, 更好的把握用户的信息检索需求和知识检索意图。
(四) 提高对元知识和元数据的认知能力
由于元知识是对特定领域知识的抽象与提炼, 元数据是对网络信息资源的有效发现和规范化描述, 因此加强对它们的认识, 可以有效促进智能搜索引擎在目标知识索引与知识调度方面的效率。
(五) 重视知识语用能力的强化
通常情况下, 知识的语用逻辑包括常识层、本体论层、语言层等几个层面, 而智能搜索引擎对于图书馆用户在知识层面的分析, 虽然在常识层和语言层具有较好的处理与判断能力, 但是集中在本体论层面的知识分析与理解能力还相对弱化, 因此有必要对其知识语用能力进行全面的强化与改善。
(六) 构建多点、多用途的搜索引擎模式
由于目前图书馆在使用智能搜索引擎时, 体现出的检索方式和检索用途还不够丰富, 在推送服务和个性化推荐方面还存在很多亟待改进的环节, 所以图书馆在应用智能搜索引擎时, 可以多应用一些专题功能或多种途径的检索方式, 如多媒体检索、跨库检索等。
四、结语
随着数字图书馆的不断发展, 个性化服务的需求在不断增长, 图书馆需要充分利用智能搜索引擎等现代信息技术来进行服务职能上的创新, 准确获取计算机用户在检索习惯、使用偏好、学习背景等方面的个性化差异, 坚持以人为本的服务原则, 给图书馆用户提供更贴切、更有针对性的服务, 进一步拓展图书馆的服务范围和服务能力。
参考文献
服务搜索引擎评价 篇5
“雅虎案”和“百度案”的二审判决, 虽然从结果上看截然相反, 但是分析北京高院的判决理由, 却可以看出北京高院对百度、雅虎等网络服务提供者提供的搜索服务的定性, 遵循了基本相同的原则, 并趋于成熟和模式化。
原告主张被告对涉案歌曲的试听和下载实施了控制, 把其他网站的资源作为自己的资源控制和使用, 属于复制或者网络传播原告享有录音制作者权的涉案歌曲行为。被告辩称网站通过其音乐搜索服务, 只是提供了试听和下载过程的便利, 相关音乐盒服务, 亦仅为存储相关网站链接地址提供了便利, 并不能推导出其提供了涉案歌曲的来源, 不会使网络用户产生涉案歌曲来自被告网站的误认。
法院通过审理最终判定被告的涉案行为不构成复制或者通过网络传播涉案歌曲的行为。法院同时判定雅虎网站因不及时履行删除与涉案歌曲有关的其他侵权链接的义务, 放任涉案侵权结果的发生, 其主观具有过错, 属于通过网络帮助他人实施侵权的行为进而应当承担相应的共同侵权责任。
无论何种形态的共同侵权行为, 在行为人之间都发生一定的效果。这就有了搜索服务侵权责任的抗辩和承担问题。
一、搜索侵权责任的抗辩事由
对于提供搜索或者链接服务的网络服务提供者, 在其提供的服务中实际侵犯权利人著作权及其相关权利时是否应当免责呢?一种意见认为, 搜索或者链接作为一种技术, 对方便人们查找信息, 减少重复储存有重要作用, “无搜索则无信息、无链接则无共享”;因此, 只要提供此类服务的网络服务提供者主观上没有侵权故意, 就不应当承担法律责任。美国《数字千年版权法》采取了该种意见。另一种意见认为, 搜索或者链接服务的网络服务提供者在为人们提供方便的同时, 也扩大了网络上侵权行为的范围, 因此, 提供搜索或者链接服务的网络服务提供着不应当免责, 不能纳入“避风港”。第三种意见认为, 搜索或者链接技术比较复杂, 对提供搜索或者链接的网络服务提供者是否应当免责, 可以由司法实践进行判断, 或者在全球有关法律发展比较成熟的时候再处理, 法律不宜简单地规定免责还是承担责任。欧盟的《电子商务指令》就没对搜索或者链接服务免责。通说认为, 搜索或者链接服务作为网络服务的一种方式, 对促进网络产业发展大有裨益, 并不必然带来对权利人著作权或相关权利的侵害。只要主观上没有过错, 客观上没有直接行使侵犯权利人权利的行为, 并遵守了一些合理规定, 则应当免于承担法律责任。为了防止搜索或者链接服务对侵权行为推波助澜, 对明知或者应知作品、表演、录音录像制品权人仍链接的, 则规定承担共同侵权责任。为此, 《信息网络传播权保护条例》参考了美国《数字千年版权法》的规定, 将提供搜索或者链接服务的行为纳入“避风港”。避风港条款成为了我国搜索服务最常见的侵权免责抗辩事由, 同时也是法院判决搜索服务提供者是否承担共同侵权责任的重要规则。
我国《信息网络传播权保护条例》第23条规定, 网络服务提供者为服务对象提供搜索或者链接服务, 在接到权利人的通知书后, 根据本条例的规定断开有著作权的作品、表演、录音录像制品的链接的, 不承担赔偿责任;但是, 明知或者应知所链接的作品、表演、录音录像制品侵权的, 应当承担共同侵权责任。在处理搜索侵权责任问题时应以此条款作为搜索侵权责任承担和抗辩的依据。但是对于此避风港的但书中主观状态的认知存在不少争议。为此本文认为, 在互联网国际化大发展的今天大可以借鉴发达国家的做法。美国《数字千年版权法》对提供“信息定位工具”的网络服务提供者规定了免责条件:网络服务提供者因为通过使用信息定位工具, 包括目录、索引、指南、指示或者超文本链接, 将用户指引或链接至一个包含了侵权材料或侵权行为的在线站点而侵犯版权的, 在满足下列条件的情况下, 网络服务提供者不承担经济赔偿责任:不实际知晓材料或行为是侵权的;在缺乏该实际知晓状态时, 没有意识到能够从中明显推出侵权行为的事实或情况;或在得以知晓或意识到 (侵权行为) 之后, 迅速移除材料或屏蔽对它们的访问。上述规定是合理且有效的。
二、共同侵权的对外连带责任
搜索服务商承担侵权责任的直接或参照法律依据有: (1) 《民法通则》第130条规定, “二人以上共同侵权造成他人损害的, 应承担连带责任”。 (2) 最高人民法院颁布的《关于审理涉及计算机网络著作权纠纷案件适用法律若干问题的解释》第4条规定, “网络服务提供者通过网络参与他人侵犯著作权行为, 或者通过网络教唆、帮助他人实施侵犯著作权行为的, 人民法院应当根据《民法通则》第130条的规定, 追究其他行为人或者直接实施侵权行为人的共同责任”。 (3) 《信息网络传播权保护条例》第23条规定, “提供搜索和链接的网络服务提供者明知或应知链接对象侵权的, 应当承担共同侵权责任”。搜索侵权行为以明知或者应知的过错实施帮助网络传播的侵权行为, 在搜索服务被认定为共同侵权后, 搜索服务提供者在搜索侵权中应当对受其侵害者承担连带责任。搜索服务侵权对外承担连带责任有利于保护著作权人利益。
三、共同侵权内部分担责任的确定
共同侵权行为人之间虽然对受害人的损害承担连带责任, 但共同侵权的内部责任分担中应当依据过错程度和对损害所起的原因力的大小来确定搜索侵权的责任大小。侵权责任难以确定的, 应当判定承担同等责任。搜索侵权的责任认定应坚持主客观相统一, 从搜索服务侵权责任的四个构成要件, 结合案例的具体情况并考虑搜索服务的过错程度和对损害的作用综合分析。具体来说可以考虑以下四个方面因素:
1、搜索服务提供者促成侵权的可能程度
搜索服务提供者帮助实施的网络传播行为到底在多大程度上可能造成侵权结果是判断其是否承担侵权责任的因素。例如作为一个专业提供音乐搜索服务的网站, 如果强调免费的信息交换, 而且“信息”又侧重于流行歌曲, 其促成侵权的可能性即显著提升。
2、搜索服务提供者的先前行为
前事不忘, 后事之师, 搜索网站具有相当强的控制能力, 在雅虎案中雅虎网站对于侵权信息的先前删除行为可以认定是其应知侵权的关键因素。
3、侵权信息的明显程度
与工业产权不同, 著作权因创作而产生, 没有注册或者登记的程序, 这就给服务提供者对侵权信息予以注意提高了难度。在海量信息的情况下, 要求搜索服务提供者对于所有的信息去辨别是否侵犯著作权显然是勉为其难, 因此侵权信息的显著性就成了判断搜索服务提供者责任的重要考虑因素。
4、搜索服务提供者对侵权警告的反应
《信息网络著作权条例》为搜索服务设定了通知与移除规则, 其主要原因是搜索服务提供者在很多情况下没有办法也没有能力对网站上的海量信息进行系统的排查, 并从中甄别出侵权信息。问题在于, 当海量信息转化为定量信息后, 这种责任豁免是否依然适用呢?雅虎案的事实表明, 当海量信息在具体案件中转化为定量的信息后, 搜索服务提供者完全有能力切断与侵权信息有关的所有链接, 因此服务提供者在接到移除通知后的反应与原告起诉后的反应之间体现出来的差异, 有时候对于法官判断搜索服务提供者是否采取鸵鸟政策至关重要。
四、结论
正确认识和解决搜索侵权问题应把握民法的基本理论与搜索特点的结合。搜索服务侵权是一种一般侵权行为, 适用一般过错责任原则;在明知或者应知链接侵权的过错存在, 违反法律规定仍不删除链接, 实施帮助网络传播行为, 损害著作权人利益, 构成学理上的间接侵犯信息网络传播权, 应当依法承担共同侵权责任, 其抗辩依法适用“避风港”条款。对尽到注意义务是否仍承担侵权责任问题, 依一般过错责任原则, 适用行为违法性的结果损害说及过错问题的主观说, 不应把审查是否侵权当成搜索服务的法定义务, 藉此来作为判断其是否知晓侵权网站链接构成侵权责任的依据。解决搜索侵权问题需要提高公众认识、加强执法, 实现著作权保护的利益平衡。
参考文献
服务搜索引擎评价 篇6
关键词:搜索引擎,图书馆,信息服务
随着搜索引擎技术的不断完善, 在信息服务方面, 图书馆面临着越来越大的生存压力。随着数字化范围的扩大, 图书馆中许多内容将都能在网上找到, 用户对图书馆员的依赖将进一步下降。本文在对我馆读者信息来源、信息需求等进行调查分析的基础上, 探讨网络搜索引擎对图书馆的冲击, 提出在网络时代图书馆信息服务的工作重点, 为网络环境下图书馆发展的服务模式提供借鉴和参考。
1 网络搜索引擎对图书馆的冲击
1.1 信息获取途径
随着信息技术的不断发展, 人们利用信息技术及计算机网络加工、处理、传递、搜集、存储、利用信息资料越来越普遍, 网络悄悄的融入人们的生活、学习、工作中, 成为继图书馆后的又一主要信息来源。对我校科研人员首选的信息获取途径进行问卷调查发现, 当科研人员具有信息需求时, 首选的信息获取途径主要是图书馆和搜索引擎, 两者比例相近, 分别占总被调查人数的48%和45%。
1.2 参考咨询服务
Google、百度等搜索引擎先后推出Google Answers、百度知道、雅虎问答和Live QnA等。2002年Google Answers刚推出时, 在一天半内收到的咨询超过了美国所有图书馆一年的参考咨询量。方便快捷的提问方式、数量庞大的志愿应答者以及激励参与者的积分制度, 网络搜索引擎提供的咨询服务向图书馆参考咨询服务提出了巨大的挑战[1]。
1.3 "藏书"查询
一般图书馆均提供本馆书目查询的功能, 但查询字段相对简单, 如文献的标题、作者、主题、关键词等。而Google Book Search不仅提供全文检索, 且检索到的图书能直接阅读目录摘要和部分章节, 近期也开始提供公共领域版权过期的经典图书的完整PDF版下载。Google在全球已对20多个国家开放, 支持7种语言, 有上万出版社加入此项目。在我馆进行的调查中, 64%的读者对图书馆书目查询界面的友好程度不满, 71%的读者对查询结果的准确性持怀疑态度。另外, 81%的读者通过搜索引擎查询感兴趣的图书信息。在确定所需图书后, 79%的读者首先试图通过搜索引擎寻找下载电子书的可能性。
1.4 学术文献
学术搜索对存在于互联网上的各类学术资源进行整合, 利用网络在线搜索形式向用户提供各种查询, 使用户更方便地搜索全球的学术科研信息。它与传统搜索的不同之处或者说它的成就在于能过滤掉大量无用信息[2]。比如用"学术搜索"搜寻某人姓名, 得到的结果中没有关于他的新闻报道, 只会显示该作者历年来发表的学术文章。图书馆的数据库需要向供应商支付费用, 面向一定IP范围内的特定对象提供服务, 有时会有并发用户、下载数量等方面的限制。而Google Scholar的服务是免费的, 它的优势在于:广泛的学术信息源;一站式的搜索服务;符合学术搜索习惯的搜索机制;满足学术需要的搜索结果输出。这些特点足以使Google对读者产生足够的吸引力。
2 在搜索引擎冲击下图书馆发展的思考
2.1 专业信息储存功能
正如2007年IDC白皮书所指出的一样, 网络信息资源快速增加, 2007年开始网络新增资源将超过新增的存储空间。2002年, Koehler发现随机网页的半衰期为2.0年, Nelson和Allen发现图书馆内有组织的数据库资源半衰期为24.5年, 很显然, 不论是因为网络资源相对于存储空间的过度增长, 还是因为随机网页过短的资源半衰期, 随机网页上的信息并没有得到很好地利用, 而且会在不知不觉中消逝[3]。作为科研人员信息保障的主要机构, 图书馆有义务也有必要尽力保存好这些有用的专业信息, 做好信息储存器的角色, 而这恰是搜索引擎不具备的能力。
2.2 有针对性的信息服务
与搜索引擎相比, 无论是针对某一科研团体的信息推送, 还是单个课题的信息服务, 图书馆员可以充分发挥主观能动性, 根据实际情况, 进行有针对性的个性化信息服务[4]。另外, 图书馆员可以通过与读者的交流和对课题的了解, 发掘服务对象潜在的信息需求, 影响科研行为的进程与方向。
2.3 结合搜索引擎, 发挥图书馆专业技能优势
图书馆工作人员具有专业的信息检索技巧和敏锐的信息意识, 能够更好地使用搜索引擎和其它数据库。在充分了解读者的信息需求后, 可以充分利用包括搜索引擎在内的网络信息资源, 满足读者高层次的信息需求。另外, 图书馆参考咨询服务中结合使用搜索引擎, 使馆内的信息资源与网络信息资源形成优势互补, 为用户提供更为贴心周到的信息服务[5]。
3 图书馆发展模式
3.1 建设特色数据库, 构建多级馆藏模式
随着数字资源的增加, 现代图书馆馆藏中的数字资源建设越来越受重视, 大多数高校图书馆都引进了国内外专业相关的数据库。但是, 对于网络上的专业信息却很少关注, 使得许多有用信息因为没有及时保存而消逝。我们认为, 图书馆应当建立有专业特色的数字资源库, 丰富馆藏资源, 充分发挥其专业信息储存器的作用。
特色数据库的资源搜集包括以下三个方面:一是定期下载权威性网站以及学科密切相关网站的优秀文献和网络上的免费电子期刊, 二是充分利用GOOGLE等搜索引擎追踪下载相关领域的专业信息, 三是加强原生资源数字化, 积极搜集会议录、研究生论文等进行数字化加工。另外, 数字化馆藏的组织有着不同于纸型文献的要求。纸型文献可以根据现有的中图分类法进行组织, 理论和实践方面都已经十分完善, 而数字化馆藏有着许多特性, 按中图分类法进行组织略显不足。首先, 对于特色数字资源的组织分类依据更应注重读者群本身的业务组划分, 这样才能易于实现针对性的信息服务, 提高服务质量。其次, 为节约管理成本, 应当根据信息的利用率对数据进行分级存储管理, 便于无用资源的剔除。
3.2 课题查新与定题服务相结合, 加强科研中的信息元素
现在, 各级课题申请均需要出具课题查新报告, 因此, 查新站可以大致掌握科研人员的研究动向。图书馆可以通过与查新站的内部信息共享, 了解校内课题立项的实际情况, 开展主动性的信息推送。另外, 我校还专门构建了网上定题服务系统, 接受科研人员的网络委托, 尽可能地扩大图书馆服务的影响面, 增强图书馆信息服务在科研工作中的比重[6]。相对于搜索引擎的被动信息服务, 图书馆这种有针对性的主动信息推送更能满足科研人员的信息需求。
3.3 吸收网络咨询的优点, 打造经济高效的虚拟参考咨询模式
吸引百度知道等网络咨询的优点, 建立图书馆参考咨询论坛, 一方面传播文献检索方面的知识, 与读者进行检索技巧上的互动交流, 解答读者遇到的难题, 培养读者的信息技能;另一方面, 提供读者互助的场所, 培养网上互助的氛围, 一般问题由读者互相代为解答, 馆员仅负责审查问题答案以及处理未获得解决的问题。这种参考咨询模式不仅分担了图书馆员的部分压力, 节省人力, 提高参考咨询的效率, 还可以让读者在解答问题的过程中实习文献检索理论与技能。
总之, 搜索引擎给图书馆带的既是挑战又是机遇, 既是冲击又是助力。面对扑面而来的信息浪潮, 图书馆员不仅要清醒地认识到信息化带来的冲击, 更要充分利用包括搜索引擎在内的各种便利工具, 更好地开展读者服务。
参考文献
[1]朱前东, 庞弘.搜索引擎个性化检索研究综述.图书馆学刊, 2008, (6) :14-17.
[2]颜世伟.搜索引擎的学术搜索服务及其影响分析.大学图书情报学刊, 2007, 25 (1) :38-41.
[3]Koehler, W.A longitudinal study of Web pages continued:a report after six years.Information Research, 9 (2) :174.
[4]刘金元.现代图书馆信息服务模式--个性化定制服务.兰台世界, 2007, (1) :60-61.
[5]毛军.图书馆信息服务和搜索引擎的跨界合作.现代图书情报技术, 2006, (9) :2-7.
服务搜索引擎评价 篇7
进入21世纪后, 基于软件与信息技术的IT开发外包 (I T O) 和业务流程外包 (BPO) 在世界范围内兴起, 大连市提出了“大连, 中国IT外包中心”的发展目标, 1998年开始建设的大连软件园, 现在已经发展成为国内世界500强企业最多、产业研究一体化最为典范、国际化程度最高、品牌影响力最强的专业化园区。
(一) 服务外包
服务外包是指企业将其非核心的业务外包出去, 利用外部最优秀的专业化团队来承接其业务, 从而使其专注核心业务, 达到降低成本、提高效率、增强企业核心竞争力和对环境应变能力的一种管理模式。目前, 在全球范围内, 服务外包正以其不可替代的优势成为国际商务活动中的新宠。根据联合国贸发会议估计, 未来5-10年全球服务外包市场将以30%-40%的速度递增。
(二) 大连服务外包的发展历程
在产业升级过程中, 大连使资源消耗从自然资源的消耗转向人力资源的消耗, 走可持续发展的之路。大连“以外看世界, 内看清自己”的超前眼光和魄力, 选择了软件和信息服务业。
大连软件服务外包的发展走在全国前列, 从1998年到2008年软件信息服务外包业的销售收入从2亿增长到306亿, 出口已达到10.5亿美元, 从业人员从3000人左右, 增至近7.5万人, 企业达750家, 全球前十大服务外包提供商中, 已有6家在连开展外包业务;52家世界500强企业在大连高新区设立了软件和服务外包技术中心或服务中心;东软、华信、海辉三家本地企业多年蝉联全国软件出口前三强。基于这些基础, 2007年大连确立“建设全球软件和服务外包新领军城市”发展目标;国务院总理温家宝在调研大连软件研发、外包情况时要求:大连软件和服务外包要“争中国第一, 争世界第一”。
在发展服务外包产业中, 大连已经搭建起以软件和信息技术外包 (ITO) 、业务流程外包 (BPO) 和研发中心三大产业类型为核心的服务外包产业体系, 建立起完整的服务外包产业链。
二、大连发展服务外包产业的关键因素分析
(一) 人力资源因素
服务外包强调技术含量及附加值, 人力资源是大连市发展承接国际服务外包业务的首要因素, 虽然大连市的各高校和人才培养机构每年培养大量软件人才, 但是仍然在一定程度上存在人才培养模式与用人单位的需求有较大差异。
(二) 基础设施因素
基础设施的好坏影响着大连市能否以相对低廉的成本提供有效地服务外包服务。大连市已经形成了以旅顺南路软件产业带为核心的软件和服务外包产业基地, 但是相关基础设施建设仍有待进一步加强, 更好的满足服务外包的需求。
(三) 政府相关扶持政策因素
配套政策也出现了滞后现象, 主要表现为:一方面对从事服务外包承接业务的企业的支持鼓励政策仍需加强;另一方面对服务外包业务的相关企业没有给予足够的税收优惠和资金支持。
三、促进大连服务外包产业发展的策略
(一) 注重服务外包人才培养
一是加强复合型服务外包人才的培养教育。按照“软件工程+外语+专业”的模式培养复合型人才, 重点培养高质量的即精通外语, 主要是英语和日语, 又熟练掌握软件技术的复合型人才。二是采取“本地培养”和“大量引进”两种方式。一方面, 充分利用本地22所大学和其他200多个教育机构培养软件人才和一些全新体制的软件学院。另一方面, , 大力引进软件人才, 市政府每年拿出2亿多元的专项资金, 用于人才引进和培养。
(二) 政府产业政策建议
一是要加强政府职能转变, 增强服务意识, 调整税收优惠政策。二是各行业主管部门和相关单位要加强现有政策的宣传推广并及时听取企业意见, 加强制定服务外包产业扶持政策的针对性;三是完善服务外包的招商平台, 积极利用国内国外各种资源和信息, 动员海外华侨、留学生吸引国外先进服务业的龙头企业投资;四是要打造供求网络信息平台, 为国内国际发包商发布发包信息;五是扶持中小企业发展。市政府专门为中小企业建立了创业基金, 为中小企业提供土地、财政、金融等方面的政策支持, 降低中小企业经营成本。
(三) 完善自主创新提高科技含量
目前大连已经形成了比较完整的外包业务产业链, 业务内容也从一些初级的软件开发和业务流程管理, 逐步扩展到产业链中高端技术含量高、管理含量高和附加值高的外包业务。在全球外包产业链上, 大连要扮演更重要的角色将不只做“泥瓦匠”, 也要当“工程师”。企业打造自主品牌, 提高本土企业自主研发能力和自主创新能力, 对拥有自主知识产权的企业, 大连市政府也给予财政补贴, 帮助企业开发市场。面向新的10年, 大连的目标是成为我国重要的软件产业自主研发基地、高端服务外包承接基地和连接国内外服务外包市场的再次转移中心。
参考文献
[1]、姜云飞. 大连服务外包十年探路.决策.2008.1、姜云飞. 大连服务外包十年探路.决策.2008.
[2]、王迎. 以信息技术和软件业带动大连服务外包发展. 黑龙江对外经贸.2007 (11) .2、王迎. 以信息技术和软件业带动大连服务外包发展. 黑龙江对外经贸.2007 (11) .
[3]、王斌. IT服务外包, 一直在路上.技术编年史.2009.3、王斌. IT服务外包, 一直在路上.技术编年史.2009.