查询检索

2024-09-27

查询检索（精选4篇）

查询检索篇1

0引言

专家检索(亦称之为专家查询、专家推荐、专长定位、专长识别[1])作为实体检索的一个特例,要求返回的实体类型是具有特定专长(与查询主题相关的)的专家。由于在促进知识共享和交流、构建学术界和产业界的桥梁、知识管理等方面有重要的应用价值,近年来专家检索引起了学术界广泛兴趣。

企业搜索这一新领域的出现,给信息检索研究社群带来了新的挑战。一个典型企业内对于复杂信息需求的多样性和内联网数据的异质性使得提高总体检索质量比较困难。相反,研究者们仅仅集中于几项重要的检索任务。其中一个重要的任务就是要在一个组织内搜寻到相关的专家。这就意味着用户需要找到一名知识最渊博、学识最高深的专家来亲自解答他所查询的主题。用户只要在当地的内联网搜索引擎中输入几个关键字,就会检索到一组候选专家,并根据他们成为该主题专家的可能性进行排序。国际文本检索会议组织的企业追踪专题首创的搜寻专家任务推动了当前专家检索系统的发展。到目前为止,对语言模型方法出现的问题及可能的解决方案最全面的一种描述在文献[2]中有所介绍。本文采用了具有良好理论基础的语言建模方法,并应用不同的技术对模型进行评估和排序。

1查询扩展技术

查询扩展QE(Query Expansion)是采用计算机语言学、信息学等多种技术,将与原查询相关的词或者词组与原查询重新组合成新查询,以便更完整、更准确地描述原查询所隐含的语义或主题,帮助信息检索系统判断更多相关的文档,从而改善和提高信息检索系统的查询性能。它的核心问题是扩展词的来源及其权重的设置问题。

传统的查询扩展方法[3]主要分为基于全局分析、基于局部分析、基于用户查询日志和基于关联规则等几大类。

查询扩展方法[4]多沿袭信息检索领域查询扩展的研究成果,在查询时动态地扩展原始查询语句,使得扩展的查询语句能比原始查询语句更好地表达用户的查询意图。该技术有助于改进传统的文件检索性能,提高专家检索的准确度和覆盖面。不少工作采用常见的伪相关性反馈PRF(pseudo-relevance feedback)技术,主要是利用查询时返回的Top-N 最相关的支持文档来扩展原始查询语句。

2基于语言模型的排序方法

专家检索问题的实质是:根据用户的查询q,返回与q相关的专家并排序返回给用户。依据查询似然的思想,专家排序可以看作是:用户在检索中提出的查询表达式q是针对某个特定的专家e生成的,而检索系统观察(接受)到用户提出的查询q后,其任务是预测可能生成q的专家并将其根据可能性大小排序返回给用户,即将专家按照p(e|q)排序,模型如式(1):

$p (e | q) = \frac{p (q | e) \times p (e)}{p (q)}$ (1)

对于一次确定的专家检索过程而言,查询q对每个专家e 都是确定的,因此p(q)与排序无关,则如式(2):

p(e|q)∝p(q|e)×p(e) (2)

p(e)则是每个专家的先验概率,可用来结合专家权重优先级等因素。在这里,假设p(e)是均匀分布的,即与排序无关。因此,也可以用p(q|e)对专家排序,则如式(3):

p(e|q)∝p(q|e) (3)

在TREC 2005中,Cao等[5]和Azzopardi等[6]介绍了两种用于专家检索任务的语言模型。它们被Balog等[2]解释为候选专家模型(模型1)和文档模型(模型2)。这是目前较常用的专家检索模型框架,它们为基于此的扩展和新方法的产生提供了理论基础。

2.1专家语言模型(模型1)

模型1基于的是Craswell等[7]提出的虚拟文档方法,Fang等[8]将该模型称之为基于专家档案的模型,Petkova和Croft则将其称之为查询独立法[9]。

该模型的主要思路为:根据每个专家e,估算一个专家语言模型,利用p(q|θe),计算专家θe产生q的概率,如式(4):

$p (q | e) \underline{\underline{r a n k}} p (q | θ_{e}) = \prod_{t_{i} \in q} p (t_{i} | θ_{e})^{t f (t_{i}, q)}$ (4)

通常情况下,查询q是通过一系列词来表示的,tf(ti,q)表示出现在查询q中的词频。该公式假设各个词ti从θe中发生的事件是相互独立的。p(ti|θe)表示的是候选专家e写某种东西的概率。若一个候选专家对某方面谈论得越多,则他(她)越有可能是这方面的专家。给定候选专家e,生成查询q类似于询问该专家是否有可能写了与查询主题相关的东西。关于p(t|θe),可以认为θe是由与专家e主题相关的索引词分布模型和背景语言模型p(t|C)的插值,如式(5):

$p (t | e) = \sum_{d_{i} \in D} p (t | e, d_{i}) \times p (d_{i} | e)$ (5)

2.2文档语言模型(模型2)

该模型假定候选专家与查询之间是相互独立的。该模型将查询的生成过程看成如下两个步骤:选择与候选专家e相关的文档di;在di中,用户针对文档中专家的相关信息提出查询q。于是查询q的生成过程被划分到各个文档di中去,如式(6):

$p (q | e) = \sum_{d_{i} \in D} p (q | d_{i}, e) \times p (d_{i} | e)$ (6)

该思想可以表达为:查询q是针对每个文档生成的。在该模型中,p(di|e)的计算与模型1是相同的。而p(q|di,e)的计算可以简化为p(q|di),相对于模型1,模型2的优点在于可以对查询词之间的依存进行建模,而模型1由于首先引入索引词之间的独立假设,因此无法对索引词之间的依存性进行考察。而模型2保留了完整的查询q和每个文档di,从而可以利用各种文本检索中考察查询索引词依存的方法。

3基于查询模型的排序方法

查询建模方法中出现的大量特殊查询扩展和语言模型利用Top-N最相关的支持文档进行操作。本文运用掌握的运算法则建立一个集伪相关性反馈和查询扩展功能为一体的查询式模型。

基于查询模型的专家检索方法可以分为两步,第一步和第2节中模型1的方法相似,而第二步包含实际上的优化改进过程,也就是本文讨论的核心内容。

3.1步骤一:运用语言模型进行专家排序

语言建模的基本观点是评估每个专家有关文档的语言模型,然后根据评估的查询式模型和专家语言模型的交叉熵对专家候选人进行排序。在本文的程序设置中,集合中每个支持文档d都和专家候选人ca有关联,这种关联性可以表示为(d,ca)。信息检索中根据可能性排序原则存在的专家检索问题可以表述为:“专家候选人ca在给定查询式q范围内成为专家的概率是多少?”每位专家候选人ca用专业术语的多项概率分布p(t︱ca)来表示。专家语言模型θca被看作是对术语生成概率的最大似然规则的概率评估,通常应用语言模型语料的数据平滑技术。查询式q同样也由概率分布p(t︱ca)来表示,且查询式语言模型被表示为θq。因此,系统的输出应该包含语言模型θq 和 θca的交叉熵之间专家候选人的降序排列。关于专家模型的查询式交叉熵的表示方法如式(7):

$E x p e r t S c o r e_{c a} (q) = - \sum_{t \in q} p (t | θ_{q}) \log p (t | θ_{c a})$ (7)

步骤一的结果是使获得最高分数的Top-N专家退回到系统(而不是用户),这一过程中N是根据经验设定的。步骤二包含了对专家检索的优化过程。

3.2步骤二:运用查询模型对专家排序进行优化

为了更准确地对用户的查询主题建模,需要一个信息源来对该用户的信息需求进行更多了解。传统上的信息检索将查询式Top-N支持文档作为信息源,并用于建立广泛、详细的查询式模型。专家检索是与标准的文档检索截然不同的一项任务。用户搜寻的不是某些具体的信息,而是这些信息的实际发出者和(或者)收集者。这就意味着除了查询主题需要非常具体外,候选专家也要有与该主题相关的专业知识。此外,专家们的专业领域越广泛,对于某个比较专业的问题,他们被咨询的概率就越大。因此,在专家检索任务中需要利用两个用户信息需求的证据:

1) 在整个文档集合中检索的Top-N支持文档(运用经典的LM方法进行文档检索);

2) 与查询主题相关联的Top-N专家候选人(在步骤一中进行检索)。

第一个信息源让检索者对初始用户信息需求有了详细的了解,而第二个信息源相对而言不是很具体,对查询主题有所扩展。所以,作为一个新的查询式模型,本文采用两种查询式模型的混合式:基于Top-N文档的模型(表示为DocumentBasedNewθq)和基于Top-N专家的模型(表示为ExpertBasedNewθq),如式(8):

对于这两种查询式模型的评估,不是采用文献[2]中提到过的方法,而是应用文献[10]中由Zhai和Lafferty提出的原则性强、理论基础好的方法,这一方法优于本文之前信息检索分布实验中用到的其它类似的运算法则。一旦用于运算,就需要将新的查询式模型和初试模型混合以防止偏离主题。本文通过运用查询扩展和术语生成概率建立了一套新的专家排序体系。在式(9)中,用不同的新的查询式模型计算了交叉熵。

$Ν e w E x p e r t S c o r e_{c a} (q) = - \sum_{t \in q} p (t | Ν e w θ_{q}) \log p (t | θ_{c a})$ (9)

4实验结果与分析

4.1测试集的选择

如何获得实用数据集用于研究测试是专家检索的一个重要挑战,目前所使用的标准测试集大多是从组织内部网收集而来,它们各具优缺点。本文采用W3C数据集作为测试集,它是TREC企业追踪专题所采用的标准测试集,主要用于企业专家检索场景。TREC 2005和TREC 2006使用的专家检索数据集是在2004年6月从W3C(Wide Web Consortium)的公开网站(*.w3c.org)上抓取的,其数据集的详细信息如表1所示。

此外,在这两次的专家检索任务中,W3C给参与者提供了包含1092个候选专家的列表,在候选专家列表中包括了专家的全名和邮件地址。

4.2测试结果分析

在实验中,本文利用第2节中所提到的模型2作为基线语言排序方法,对TREC的企业追踪专题提供的W3C数据集进行检索。同时,运用查询模型方法索引了W3C数据集的邮件列表,并检索专家检索任务中官方主题的标题查询式部分。图1和图2显示了基线法和本文所采用方法关于前10组结果(P@10)的准确度对比情况。

通过观察,查询式建模对于检索方法的改进很有帮助。当步骤一中的平均准确度已经很高的时候,本文的方法是有效率的,但是当平均准确度低于中间值的时候,本文的方法就不会很成功。如果初始的排序很差,那么查询式建模也就会随之变差。但是最好的查询式的准确度会提高10%-20%,因而这种方法适合应用于已经很有效率的检索系统中。因此,查询式功能方面的预测对于查询式建模是非常关键的。

但是也能看到,虽然查询结果有提高,但提高不大,这是由于候选专家的档案和支持文档中包括了候选专家其他的与查询主题不相关的专家领域,如果将这个文档作为查询扩展,则其它不相关的专长领域会影响到查询扩展的效果,从而使得最后扩展的查询主题失去了原有意思(即跑题)。跑题是将查询扩展运用到专家检索中不可避免的现象。目前有一些衡量专家档案中跑题发生的次数的方法,但还未提出一些衡量跑题是何时与如何发生的方法。总之,查询扩展在专家检索中的成功运用有助于发现相似专家,也有助于在组织中自动创建“专长路线图”。

5结语

本文通过对基于语言模型的专家检索方法的研究,提出了一种基于查询式建模的专家检索方法。该方法通过运用查询扩展技术和术语生成概率建立了一套新的专家排序体系。实验结果表明,该方法有效,能提高和改善信息检索性能。进一步研究专家检索专门的查询式建模和预测查询式性能是未来研究检索领域的主要侧重点。

参考文献

[1]Serdyukov P.Search for Expertise Going Beyond Direct Evidence[M].2009.

[2]Balog K,Azzopardi L,M de Rijke.Formal models for expert finding inenterprise corpora[C]//SIGIR’06:Proceedings of the 29th Annual In-ternational ACM SIGIR Conference on Research and Development inInformation Retrieval.Seattle,USA,ACM Press,2006:43-50.

[3]黄名选,严小卫,张师超.查询扩展技术进展与展望[J].计算机应用与软件,2007,24(11):1-4,8.

[4]武洁,王美姣,冯佳明,等.专家检索研究进展[J].计算机应用研究,2010,27(10):3633-3638.

[5]Cao Y,Liu J,Bao S,et al.Research on Expert Search at EnterpriseTrack of TREC 2005[C]//Proceedings of the 14th Text REtrievalConference(TREC 2005),2005.

[6]Azzopardi L,Balog K,M de Rijke.Language Modeling Approaches forEnterprise Tasks[C]//Proceedings of the 14th Text REtrieval Confer-ence(TREC 2005),2005.

[7]Craswell N,Hawking D,Vercoustre A M,et al.P@noptic expert:searching for experts not just for documents[C]//Ausweb Poster Pro-ceedings,Queensland,Australia,2001.

[8]Fang H,Zhai C.Probabilistic Models for Expert Finding[C]//Pro-ceedings of the 29th annual European Conference on Information Re-trieval Research(ECIR’07),Rome,Italy,2007:418-430.

[9]Petkova D,Croft W B.Hierarchical language models for expert findingin enterprise corpora[J].International Journal of Artificial IntelligenceTools,2008,17(1).

[10]Zhai C,Lafferty J D.Model-based feedback in the language modeling approach to information retrieval[C]//CIKM’01:Proceedings of the 2001ACM CIKM International conference on Information and Knowl-edge Management.Atlanta,Georgia,USA,November5-10,2001:403-410.

[11]Macdonald C,Ounis I.Expertise Drift and Query Expansion in Expert Search[C]//Proceedings of the16h ACM conference on Conference on information and knowledge managemen,Lisboa,Portugal,2007:341-350.

查询检索篇2

为了解当前我国档案网站的检索查询功能, 笔者查询了具有代表性的省、市、县 (区) 档案信息网, 详细访问网站的“档案检索”或“查询服务”栏目。在调查访问中发现大多数档案网站都设置了档案检索、查询服务、开放档案查询等栏目, 但总体来说, 档案网站的检索查询功能还比较弱, 离利用者的最终需求还有一定距离。

1.1 提供的检索查询内容少

大多数档案网站提供的只是案卷级或文件级目录检索, 能够实现网上全文查询的则寥寥无几。首先, 网上开放档案目录才3000余万条, 所占比例还很低。其次, 档案网站能够提供全文检索的很少。极少能实现档案全文检索的档案网站, 无一例外在查询的时候要求用户身份验证, 要求注册, 再填查档申请, 申请需要批复, 对于查档者极不方便。再者, 部分档案网站中的“档案检索”只是一个空壳子, 没有实质性的内容。点击该栏目, 往往弹出“该栏正在建设中”的界面。这与档案网站要实现用户“足不出户, 便知天下”的目标还有很长一段距离。

1.2 档案检索查询途径单一

在大部分档案网站上, 检索查询案卷级或文件级目录, “关键词”是作为检索的唯一途径, 而象截词检索、加权检索则没有采用, 也没有设置时间、档号之类的作为检索项, 检索途径单一, 难以满足不同层次不同专业的利用者的需求。笔者曾运用信息检索知识使用多个档案网站的检索查询功能, 尝试查询几个方面的现行文件和档案目录, 结果都不理想。那么, 缺乏一定检索技能的用户必然也会遇到同样的问题。

1.3 检索查询的档案形式单一

社会的发展使得档案形式趋向多样化, 出现了诸如表格、图片、声音、视频等形式的档案。目前绝大多数档案网站没有充分利用网络的优势, 所提供的档案信息多是文本信息, 而声音、视频档案很少, 这样的档案网站将难以满足现代利用者的需求。只有很少一些省市级档案部门的网站上出现了如“视频档案”, “网上展厅”之类的栏目。如浙江档案网的“视频档案”, 甘肃档案信息的网上展厅展出了大量的图片档案, 效果非常好。

1.4 缺少先进的网络信息分类检索与导航系统

调查显示, 目前的绝大部分档案网站没有提供检索的档案目录分类。多数情况下, 对于往往不能表达自己真正的信息需求的社会用户, 不只如何入手。此外, “档案检索查询”这一项服务功能, 缺少与用户互动。又没有供检索方面的建议, 使得用户遇到检索难题时往往得不到及时解答。

2 完善档案网站检索查询功能的几点建议

美国的国家档案馆网站 (www.archives.gov) 以及台湾的国立故宫博物院网站 (www.npm.gov.tw/index-c.htm) , 都具有较好的档案检索查询功能, 很多做法都值得我们学习借鉴。笔者认为, 档案网站要完善检索查询功能可以从以下方面入手。

2.1 加快馆藏数字化和数据库建设力度, 尽快实现全文检索档

案馆在大力开发档案目录数据库的同时, 还应加强对馆藏开放档案的全文扫描、识别, 并将其上网以便利用。通过档案馆的数字化建设, 提供网上档案的全文检索将能很快实现, 那么利用者无须到档案馆就能查询到所需要的档案信息。当然, 提供网上全文检索, 面临着文件的保密、知识产权保护等问题, 开放哪些, 开放到什么程度, 是必须事前理性考虑的。这需档案馆专业人员对国家相关法规的出台以及档案部门对保密法、知识产权法的准确理解和把握。

2.2 提供档案检索的分类目录

针对除了“档案检索”, 没有其他相关提示或者是引导利用者查询的内容, 没有本馆开放档案目录的分类的问题, 可借鉴北京市档案馆 (www.bjma.gov.cn或www.bjma.org.cn) 和杭州市萧山区数字档案网 (www.archives.xs.zj.cn) 对档案检索分类、解释的做法。北京市档案馆将网站上可供检索的档案目录分成了:文书档案类、专题档案类、专门档案类、资料目录类, 每类后面都有详细的介绍, 如“文书档案类:您可以进入明清、民国档案数据库或建国后档案数据库, 按不同时期查询公务文书档案”。杭州市萧山区数字档案网的开放档案目录近30多万条, 并做了详细地分类, 其中包括了文件库、案卷库、萧山文章索引、多媒体档案、照片档案、图书资料、档案信息化论文、萧山家谱目录、民国档案等等, 方便利用者查询到所需要的档案信息。

2.3 开展网上咨询和业务联系服务, 并与档案检索查询结合

单一的档案检索查询服务不能完全满足利用者的查档需求, 这是因为利用者范围广, 文化程度和素质不相同, 档案网站查询的时候可能会遇到很多困难。鉴于此种情况的增多, 档案网站应该设置一些辅助栏目, 诸如“网上咨询”、“查档答疑”、“预约服务”等, 利用者可以通过网站将检索相关情况及计划到馆阅档的时间通过网络交给档案馆, 完成预约调卷, 了解档案阅览所需的手续, 这大大节省用户的时间。

2.4 加强多媒体技术研究

档案媒体形式的多样化, 可以增加利用者的利用兴趣, 刺激利用需求的增长。档案部门在档案网站建设或更新中应根据本馆的条件, 应尽可能提供更多种形式的档案, 可以向用户提供档案目录查询、全文浏览及部分声音、照片、录像的查询等, 以图、文、声、像并茂形式为用户服务, 来满足利用者多角度的需求, 扩大档案网站的影响。

摘要：检索查询功能作为档案网站的核心功能, 评价档案网站的重要指标, 分析了我国档案网站检索查询功能所存在的问题, 并在此基础上提出相应的解决措施。

查询检索篇3

通过搜索引擎查询信息是网络用户日常生活的一部分。使用者除了查询相关信息,也经常重复查询曾经点选或造访过的网页或网站。根据多项研究,个人造访的网页中有超过半数以上是再访的网[1]。而就搜寻引擎的检索语句等领域,一项针对Google!的检索语句分析研究证明,39%是来自使用者曾查询及造访网页所使用的检索语句,显见搜索引擎的流量中,有颇高比例是来自重复查询。这种同一使用者在一段时间后进行重复查询的行为即称为Web资源二次查询[2]。相较于网络使用者的一般性检索行为研究已颇具成果,Web资源二次查询的研究则是近几年才开始受到重视的。

有关Web信息二次查询的相关研究,因网络检索环境的变动性大,研究情境较难控制,如一次查询与二次查询的时间长短、使用者需求的多样性及搜索引擎的变动性等,使得研究设计十分困难。目前相关研究多以探讨某特定议题或某因素变项的实证性研究为主,研究方法也以实验法或访谈法居多[3],本文也是基于此角度进行相关分析与研究。据Teevanetal(2007)[3]要求119人一小时内回覆的前输入的检索语句测试中,有30%调查对象回想的检索语句是错误的。由于网络环境的变动性及信息初始查询情境的多元性,网络资源重复检索与一般信息初始查询的检索行为可能存在差异,值得进一步探究。

Web搜索引擎的检索模型中广泛引入了pagerank算法和HITS算法,可以通过分析整个Web上网页间相互链接的关系找出查询相关的网页。但由于不是每一个链接都具有注解性,有些链接是为了广告而建立的,使得pagerank的算法精度不高,且如果最终的网页不在结果网页集中,Pagerank算法就无能为力,HITS算法则存在主题漂移的现象,从而使得检索的精度不高。

本文通过分析网络用户Web资源二次查询的检索行为特性,以实验、观察、访谈、问卷等方法,尝试研究网络用户的Web资源二次查询检索行为特性。研究结果显示,相较信息一次查询行为,用户于Web资源二次查询过程中所使用的检索方式更为多元,也会交互使用多种检索策略寻得先前情境线索,所采用的检索优化更为复杂。研究结果除提供Web资源二次查询相关研究的参考,同时也有助发展协助使用者二次查询信息的功能设计参考。

1 Web信息二次检索分析

信息一次查询与信息二次查询属于不同的搜寻活动类型。Capra(2005)的研究指出(如表1所示),信息一次查询偏重探索性活动,在检索过程中,使用者并无法预期检索结果内容,因此较具不确定性;而信息二次查询的检索过程,则因使用者曾看过检索结果内容,相较之下,其对检索结果多有预期,目标信息也较为明确。此外,在这两类活动中,使用者的认知活动及使用策略也略有差异。就信息一次查询行为,使用者多依靠个人既有的知识与直觉,针对检索结果进行再认,以决定是否符合所需;而Web资源二次查询则常借助回想与再认,强调回忆线索的建构与目标导向式的浏览。如Lansdale(1988)提及[4],回想与再认会相互影响,即用户会回想目标信息的部分资讯(如前次使用的关键词、检索结果的标题、储存的位置等),以此缩小检视范围,再加以确认。

2 基于Web信息二次查询的信息检索策略实证研究设计

2.1 研究对象设计

本研究对象为抽样,共有100名国内图书信息领域的学生参与本研究。以国内硕士生为对象的主要考虑,包括研究生多具备相当信息素养,其信息检索知识与经验较一般用户为多;同时,硕士生进行论文研究时,多需大量搜寻及收集信息,甚且进行个人信息管理,因此常有二次查询网络信息的需求与经验。

2.2 研究思路设计

本研究主要采用实验法,并辅以观察、问卷及访谈等方法。实验设计主要分两阶段的实验方式进行。考虑调查对象若时间过久未查询先前一次查询的数据,甚至完全遗忘,可能等于重新查询,而较难观察一般一次查询与二次查询的关联。因此本研究以采用一周为实验间隔。

首先有关信息二次查询的行为特性及因应策略是较常见的研究议题。在观察使用者如何重返网页及所遭遇困难的研究中,其发现使用者常会以「where’d it go?」(网页跑去哪?)来表示未能造访先前网页的困惑[5]。换言之,使用者在重返网页却未能及时获取该网页时,其最初的反应多希望获得路径而非目标信息,显示路径在Web资源二次查询中是一重要线索。此研究结果与Maglio[6]先前研究发现颇为一致,即使用者在回想其检索历程时,多会记住路径中经过的关键节点及其检索路线。这些关键节点也就是所谓的导航点,即用户在一次查询信息的路径中所出现的网页或网站。用户虽无法记得明确的一次查询路径,但常能再认或回想路径中的导航点。根据信息明确度也将导航点分为三种:网页/网站、网址URL、网页内容细节等。

2.3 研究方案设计

实验开始时会先引导调查对象一次查询并取得目标信息;间隔一周后,再要求调查对象二次查询并取得目标信息。实验过程中使用LogSquare屏幕操作录制软件,记录调查对象的一次查询与二次查询的检索历程。二次查询过程中,本研究并不限制调查对象所选择的二次查询策略,以客观观察调查对象可能采用的二次查询策略,如重新寻找、检视浏览器所保存的暂存记录、检视个人保存的档案记录等。最后本研究也与调查对象进行访谈,以进一步了解其二次查询。

有关指定检索任务的规划,为贴近调查对象日常生活情境,本研究先设计一个网络调查问卷,搜集调查对象相关网络活动,主要为生活取向的网络活动。生活取向系指调查对象利用网络从事非学术性的活动类型,如购物消费、娱乐休闲、金融交易等。问卷内容主要询问填答者经常及很少进行的生活及工作取向网络活动。Web问卷调查于2012年3月1日起至3月15日,共取得226项网络活动描述。

扣除非搜寻类型任务(如收发E-mail、上传或下载文件等),本研究参考上述收集到的网络活动描述,共设计4项指定检索任务(如表2所示)。

正式实验进行前,调查对象须填写检索任务调查表,包括对任务的熟悉度及接触次数等。在两阶段的实验中,每位调查对象须完成8项指定检索任务,共取得144笔任务结果,扣除无效样本8笔(如花费时间太久或无法一次查询目标信息而自行放弃等),有效样本共计122笔。实验结束后,会请调查对象填写检索结果评估表,包括其满意度、认知难易度、是否成功找到目标信息等。最后再进行一对一访谈,主要了解其对二次查询过程的主观感受及对支持方式的改善建议。从表中可以看出,相对比于信息一次查询行为,在Web资源二次查询过程中所使用的检索方式、检索策略更为多元化、所采用的检索优化方法更丰富。

3 研究结果分析

本研究通过两阶段的网络信息一次查询与再一次查询实验,初步分析Web资源二次查询的检索行为特性,主要关注其检索方式的使用特性及检索优化,分述如下。

3.1 检索方式与手段分析

根据实验结果,调查对象二次查询信息时,仍与信息一次查询阶段一样使用相同的浏览器。调查对象所使用的浏览器种类不尽相同,而针对二次查询的支持功能,调查对象表示包括可记忆最常浏览网站、可设定常用网页、网址列具助记检索词汇或URL功能、可查询检索历史等。就二次查询的检索方式与手段,多数调查对象最常利用搜索引擎进行二次查询,且不会更换信息一次查询阶段所使用的搜索引擎;其次为直接输入URL撷取网页,即调查对象会利用平日熟悉的手段二次查询信息;最后则是使用浏览器中的检索历史,这类手段可作为辅助回想的相关线索或作为检索来源,如同Soergel(2007)指出,检索历史具有记忆支持、检索系统使用、或信息使用等辅助功能。值得注意的是,超过八成的检索任务,调查对象是以单一检索手段即成功二次查询信息,但仍有二成检索任务使用超过二种以上的检索手段。简言之,相较一次查询阶段集中于搜索引擎的使用,二次查询的检索方式显得较为多元。

3.2 检索策略与优化分析

根据研究者观察及访谈结果,如同资讯一次查询阶段,调查对象在二次查询阶段也以关键字检索与浏览为主要检索策略。但其同时也会回想信息一次查询阶段的相关情境信息。部分调查对象会记得导航网页,却忘记目标信息;部分调查对象则是记得目标信息,却忘记导航网页。若为前者情境,调查对象多会采取依循信息一次查询阶段的检索路径二次查询信息;若为后者情境,调查对象则多选择重新寻找。

除上述检索策略外,调查对象亦会交互使用关键字搜寻及浏览策略,从中寻找相关情境线索,逐步接近目标信息,即所谓的定向式检索策略。就检索优化的运用,由于二次查询较一次查询阶段来得复杂,调查对象使用进阶检索功能的比例较高。如表3所示,调查对象一次查询与二次查询信息过程中经常使用「空格」以表达AND的交集功能。扣除空格的使用情况后,两阶段实验实际运用布林逻辑运算元与修饰符号的使用比例,皆低于5%,与一般使用者搜索引擎检索行为特性颇为相似。整体而言,Web资源二次查询阶段使用的进阶检索功能比例较高。

4 结语

本研究主要通过指定检索任务的实验情境,分析网络用户的Web资源二次查询检索行为特性。研究结果显示,就检索行为特性,搜索引擎虽同时为信息一次查询与二次查询的最主要检索方式,但二次查询的检索方式显得较为多元;二次查询阶段也以关键词检索与浏览为主要检索策略,但其同时也会交互使用这些策略,从中寻得相关检索情境线索;二次查询所使用的检索优化也较为复杂。只有综合利用相关手段,才可提高相应的检索效率。

针对未来研究建议,以目前网络搜寻方式多以信息一次查询观点设计,很少以Web资源二次查询观点进行探讨,如何设计一具有保存个人使用情境的检索系统,是值得进一步发展的方向。同时,本研究仅以某校区图书信息领域研究生的小样本进行实证,未来若能增加其他领域或不同人口背景的研究对象,将有助于了解不同类型用户的信息一次查询与二次查询行为差异与检索成效,并提升研究结果的概括化。此外,本研究的实验场域为网络的搜索引擎平台,且着重于较一般性的信息需求,未来若能以特定的机构组织作为研究对象,将有助了解不同机构组织的二次查询行为特性,并可比较组织与个人情境的二次查询行为差异。

参考文献

[1]张银犬,朱庆华.网格环境下个人数字图书馆信息检索策略[J].中国图书馆学报,2007,33(3):56-59.

[2]贾丹明.专利技术信息检索策略解析[C]//第十六届中国竞争情报年会论文集,2010:230-233.

[3]杨林,张永胜,邢长明,等.基于教育资源网格的信息检索策略[J].计算机应用研究,2009,26(4):1484-1486.

[4]程琳.谈信息检索策略与方法新观点[C]//《图书情报工作》杂志社、图书情报工作研究会第23次图书馆学情报学学术研讨会论文集,2010:1-3.

[5]张辉.基于语义关联技术的信息检索策略[J].计算机工程与设计,2011,32(12):4291-4293,封3.

[6]肖红.浅析网络信息资源的检索策略[J].中小企业管理与科技,2011(30):296.

[7]鄢百其.信息检索策略优化分析[J].武汉科技大学学报:社会科学版,2011,13(2):237-239,248.

[8]李璐,江葆红,孙红红,等.搜索引擎检索策略调整研究[J].内蒙古科技与经济,2011(14):81-81,84.

[9]刘科,秦磊华,周敬利,等.内容感知存储系统中的两阶段检索策略[J].计算机科学,2011,38(5):20-23,48.

[10]鄢百其.便于快速入门的检索策略模式[J].情报理论与实践,2011,34(12):126-128.

[11]Effects of Spatial Locations and Luminance on Finding and Re-findingInformation in a Desktop Environment[C]//27th annual CHI confer-ence on human factors in computing systems 2009(CHI 2009):Ex-tended abstracts,2009,2:815-820.

查询检索篇4

基于简单的搜索查询[3],在数据量如此之大的现代信息环境中,找到满足用户需求的相关信息变得越来越难,因为用户向搜索引擎提交的关键词,一般都短而且模糊。研究发现,向搜索引擎提交的平均查询长度仅为2.35个词语。研究人员发现,根据中国的Sogou搜索引擎的用户日志分析[5],平均查询长度仅为1.8个词语,同时有接近93.15%的用户词语查询个数小于3个。显然,这些短且模糊的查询词汇都不可能精准地表达用户真正的需求,用户通过这种模糊查询[6]必然会得到大量与自身需求不相关的网页信息。此外,用户可能并不会使用更多的搜索词汇来改写查询,因为这会给他们在搜索时增加额外的负担。

用户点击某条搜索结果主要是因为该网页片段中包含了用户感兴趣的相关主题,基于用户点击的数据来识别用户感兴趣的内容,提出了一种评估查询相似度的混合语义策略。本文使用了三种方法计算查询相似度,即向量空间模型(VSM)中的词汇相似度[7],概念提取[8]和TF-IQF模型[9]。提出混合语义相似度策略主要是对后两种方法进行了广泛讨论的结果。该方法主要包含下面三个步骤:(1)当用户提交查询后,从网络片段中挖掘出查询的概念(即网络片段该类的重要词汇或短语)或标记(即点击的URL中的重要词汇)及它们的关系,构建二分图;(2)基于以上的二分图计算出查询相似度,同时提出了混合相似度计算方法;(3)向用户建议最相似的查询以精简搜索。

1 相关工作

在网络搜索引擎中,点击数据[10]是一种隐含的用户信息的反馈。显然,它是查询推荐的重要资源[11]。Beeferman和Berger提出了一种凝聚聚类算法[12],利用用户的查询日志将链接(URLs)和查询(Queries)聚类以找出相关的查询。他们使用了如图1所示的二分图。图1中左边的节点代表了查询,而右边的节点代表了用户点击的URLs。用户如果点击了一条URL,相关查询和该URL就在该二分图上建立了连接。得到二分图之后,使用一种迭代算法相继对两种查询和两个URLs聚类。该算法的劣势在于它不能够有效地处理噪声数据,即如果用户错误地点击了一条URL,两个不相关的查询将会永久连接在一起。

为了计算不同查询间的相似度,文献[13]中同样考虑了点击文档间的相似度。他们建议如果两条查询包含了相同或相似的词汇,这两条查询就应当聚类起来,从而导致选择相同的URLs。然而,因为通常查询条件过短,仅有很少的URLs指向了相同的文档,他们的方法对于消除Web查询的歧义并不有效。此外,该方法还需要预先构建分类精度相对较高的文档分类系统,计算复杂。

总之,这两种方法有一个共同的主要问题,不同的查询间存在共同点击的URLs数量很少,仅少数热门查询能够有足够的信息挖掘出他们共同点击的URLs。因此,用户看到相同查询结果的可能性将会很小,更不用说去点击它们。为解决这种问题,Leung等人提出了基于概念图的观点[14],考虑从网络片段中提取概念并对该新文本采用了Beeferman和Berger的方法。概念的使用减少了结果文档的体积,同时保持了满足用户需求的精度和容量。文献[15]借助于TF-IQF模型提出了与他人不同的查询算法。该模型通过一些分隔标志将URL字符串划分成一些标志词汇,同时测量这些标志的权重以计算它们的相似度。

2 混合语义相似度算法提出

2.1 点击文档

隐含反馈和查询模式可用来组织网络文档,即用户的查询可视作文档特征词汇用来解决字典问题。反之,用户可以选择视图文档作为查询单词的扩展。如图2中,Doc1,Doc2可作为Query1的说明,Doc2和Doc4可作为Query3的说明。因此,这种方法可以解决查询说明不足的问题。也就是说,如果URLs在查询搜索中被点击,对应于这些URLs的被点击的视图文档可视作为相似或相关文档。

假设两次查询p和q,可得到一个m×m矩阵S(sij)m×m,其显示了文档的相似关系。

式(1)中sij=sim(di,dj),i=1,2,…,m,j=1,2,…,m,di和dj代表两个点击的文档,m代表与查询p和q相关的被点击文档的总数。明显,可知

sim(di,dj)可用余弦算法测得,即这两个相关矩阵的归一化的内积。

式(2)中wi,k关联到文档dk中的词汇ti,其通过tf×idf方法计算。因此,用点击的文档度量simdoc(p,q)定义查询p和q的相似度。

式(3)中sij是矩阵S(sij)m×m的一个元素,un(p)和un(q)分别是关于查询p和q的对应于被点击URLs的查询文档的总数。

2.2 关联查询

直观可知,如果两个查询有越多的近义词,那么这两个查询的相似度越高。如果某原始查询和其他查询有相同或相似的词汇,它们就可能是相关检索。也就是说,如果检索相似的查询,可以提高查询扩展的质量。因此,相关查询可作为候选查询扩展词汇被检索。如果用户点击数据的格式为ClickThroughi=(useridi,queryi,clicked_urli),分割过程之后,原始查询的过程变成query=(q1,q2,…,qn)。例如,输入的查询West Lake可表示为(west,lake)。如果(q1∈queryi)∧(q2∈queryi)∧…∧(qn∈queryi)(i=1,2,…,n),其中n为关联查询的数量。关联查询列表可定义为

因此,关联查询的相似度定义为

式(5)中δ为0和1之间的实常数,simcn(p,q)表示基于单词字面上的词项的相似度,定义为

式(6)中tn(p)和tn(q)分别为查询p和q的分割后的词汇数量。tcn(p,q)为p和q中相同词汇的数量。例如,查询‘‘compute game’’和‘‘mobile game’’的simcn(p,q)为simcn(p,q)=1/max(2,2)=0.5。用simsn(p,q)表示查询p和q的语义相似度。这里利用了查询-概念二分图计算查询间的语义相似度,参见式(5)。

2.3 反向查询

在URL点击时,对应于相同URL的两种查询高度相关。例如,因为两种查询,如‘‘cross fire’’和‘‘world of war craft’’有相同的URL,games.sina.com.cn,它们就是语义相关的。这两种查询可视作为反向查询,因为他们都想搜索游戏。相似地,两种查询‘‘audi’’和‘‘ford’’也是语义相关的,因为它们的相同URL car.auto.ifeng.com表示他们都想查询汽车。图3显示了一个反向查询的例子,即,Query1和Query3分别与Query4和Query5语义相关。

经证明,利用查询-(TF-IQF)二分图计算查询间的语义相似度所获得的性能明显好于单独使用URLs获得的性能。

2.4 混合语义相似度计算

总之,上面的每种方法都可以部分揭示查询定义背后有限的语义信息。但这些方法仍存在缺陷,不足以捕捉深层次的语义信息。为此提出了一种结合了这三种策略的新方法,定义为

式(7)中simdoc(p,q)是被点击文档的相似度,simass(p,q)是关联查询的相似度,simrev(p,q)是反向查询的相似度。α、β和γ为0和1之间的实常数,且满足限制α+β+γ=1。为了找出α、β和γ的最优权重,实验部分将通过逐步调整权重进行对照实验。

2.5 聚类

在此,使用了基于遗传算法(GA)的聚类算法,进行分组查询并为用户生成副标题结构,算法描述为:

(1)先将每次查询视作查询空间中的独立点,然后将查询随机结合并以字符串形式编码,称之为染色体。染色体的集合称为一个种群,如此就建立了随机分布式种群;

(2)将三种生物启发算子,即:选择、交叉和突变应用到生成新子染色体过程中。这三种操作持续若干代直至满足终止判据。本项研究中,选择了高适应度的健壮染色体进行下一代繁殖,以保持种子优良。本方法中采用了典型的单点交叉和高斯变异;

(3)当无强化的最佳染色体连续迭代nmax(nmax=10)代后,算法终止。在迭代过程中,使用式(8)计算两大类的相似度

式(8)中,qi和qj分别是聚类ci和cj中的查询,n1和n2分别是聚类ci和cj中查询的次数。

3 实验

为评估所提出算法的性能,首先描述收集所需点击数据的实验步骤。利用Google搜索300项给定的查询条件,并收集点击数据。为避免偏差,测试的查询随机从10种不同的类别中选出。表1显示了查询中选中的十项主题类别。从Google中收集这些查询的前50条搜索结果(网络片段)作为数据语料库。

为将本文算法与点击文档、关联查询、反向查询和混合语义相似度四种算法作比较,实验中对查全率、精度和F-Measure这三项指标进行了评估。假设存在查询q,其相应由聚类算法生成的查询类为{q1,q2,…},查全率R(q),精度P(q)和F-Measure由式(9)—式(11)计算

式中q_relevant为查询q的预定义聚类中存在的查询集合。q_retrieved是由本文聚类算法生成的相关查询集{q1,q2,…}。表2显示了这四种方法的查全率、精度和F-Measure指标对比。其中,α,β和γ为式(7)中的三个权重参数。实验中首先以0.1间隔变换它们三个的数值。

表2中,simdoc,simass和simrev分别代表点击文档、关联查询和反向查询三种方法。从表2中可见,当α=0.1,β=0.6,γ=0.3时,其F-Measure性能达到最高,远高于其他三种方法,也高于α、β和γ参数分别为其他值时混合语义相似度算法的性能。对于查全率结果而言,尽管当α=0.3,β=0.5,γ=0.2时性能最佳,但此时其精度和F-Measure并不高。同时,当α=0.4,β=0.5,γ=0.1其精度最高。当α=0.1,β=0.6,γ=0.3时,混合语义相似度算法的F-Measure性能最佳。对这三个参数做些微调,其结果如表3所示。

从表3可以看出,当α=0.15,β=0.55,γ=0.3时本方法的F-Measure性能最佳,即β和γ值大于α值,该思路得益于simass、simrev与simdoc方法相比较,后两种方法能够为查询提供更多的语义信息和描述性表达,而简单点击文档方法仅适用于独立词汇。图4和图5分别显示了四种方法的截止相似度的精度和查全率对比。图6显示了精度和查全率对比。

如图4,simrev方法的精度最低,simass的精度最高但如图5其查全率并不高。此外,从图5可见simdoc的查全率最低,而本文提出的混合语义相似度方法查全率最高。因此,由图6易见所提混合语义相似度方法能同时获得较好的查全率和精度。

4 结束语

针对搜索引擎领域存在的查询条件模糊这一主要问题,提出了一种混合语义相似度方法。首先,提出了概念上与其他方法接近的新概念提取方法。然后,利用TF-IQF模型将URLs划分成标记,那么查询就可由这些标记组成的集合表示。最后,使用二分图计算出查询相似度。为了从语义分析中计算出查询相似度,给出了三种查询的表示方法,即:点击文档、关联查询和反向查询。根据给三种方法分别设置合适的权重,提出的混合语义方法,并进行了一些对照实验。实验结果显示,本文所提的混合语义方法获得了很高的评估性能。

未来将改变不同的权重设置,研究更多不同的权重变化对查询的影响,进一步改善查询的效率,以满足用户的多元化需求。

摘要：针对搜索引擎领域存在的因查询条件模糊而严重影响信息检索性能的问题,提出了一种混合语义相似度优化模糊查询算法。首先,根据相似度计算概念提出了与其接近的新概念提取方法;然后,利用TF-IQF模型将链接划分成标记,并使用这些标记组成的集合表示出查询;最后,构建二分图识别出相关的查询,使用二分图计算出查询相似度。实验结果表明,相比点击文档、相关查询和反向查询三种算法,取得了更好的全查率、检索精度及F-度量。

【查询检索】推荐阅读：

文献信息检索课程文献检索参考课题05-24

动态检索05-29

检索算法05-29

语义检索07-04

检索软件07-29

统一检索09-07

标准检索09-27

文件检索09-06

数据检索07-19

优化检索论文05-30

>> 查看更多相关文档