搜索方法(通用12篇)
搜索方法 篇1
1 空间数据查询的含义
空间数据查询首先是给出查询条件, 然后系统经过空间量算, 或在空间数据库和与其相联的属性数据库中快速检索返回满足条件的内容。查询是GIS用户最经常使用的功能, 用户提出的很大一部分问题都可以通过查询的方式解决, 查询的方法和查询的范围在很大程度上决定了GIS的应用程度和应用水平。通过数据查询可以定位空间对象, 提取对象信息, 为地理信息系统的高层次空间分析奠定基础。
2 空间数据查询的方式
2.1 基于空间关系查询。
空间实体间存在着多种空间关系, 包括拓扑、顺序、距离、方位等关系。通过空间关系查询和定位空间实体是地理信息系统不同于一般数据库系统的功能之一。
地理信息系统中简单的面、线、点相互关系的查询包括: (1) 面面查询。如与某个多边形相邻的多边形有哪些 (与安徽省相邻的省市有哪些) ; (2) 面线查询。如某个多边形的边界有哪些线 (密云水库的边界) ; (3) 面点查询。如某个多边形内有哪些点状地物 (安徽省有哪些旅游景点) ; (4) 线面查询。如某条线经过 (穿过) 的多边形有哪些 (京广铁路穿过那些省、市) ; (5) 线线查询。如与某条河流相连的支流有哪些, 某条道路跨过哪些河流; (6) 线点查询。如某条道路上有哪些桥梁, 某条输电线上有哪些变电站; (7) 点面查询。如某个点落在哪个多边形内 (黄山位于哪个省内) ; (8) 点线查询。如某个结点由哪些线相交而成 (经过淮南的铁路线) 。
在实际的地理信息系统的中往往不是指对单一关系查询, 而是数种关系的组合, 还可能有属性信息的条件限制。
2.2 基于空间关系和属性特征查询
(1) 基于属性数据的查询。根据空间目标的属性数据来查询该目标的其他属性信息或者相应的图形信息。GIS中基于属性数据的查询包括两个方面的内容:一是由地物目标的某种属性数据 (或者属性集合) 查询该目标的其他属性信息;由地物目标的属性信息查询其对应的图形信息。目前GIS的地物属性数据库大多是以传统的关系数据库为基础的, 地物的图形数据和属性数据是分开存贮的, 图形和属性之间通过目标的ID码进行关联, 因此基于属性的GIS查询可以通过关系数据库的SQL语言进行查询。
(2) 基于图形数据的查询。基于图形的查询是为方便用户输入查询条件而设计成可视化空间查询的, 其实在GIS中仍然要翻译成形式化的SQL语言。查询过程是:通过屏幕捕捉获取目标的坐标信息, 根据坐标信息在图形库中查询对应的图形及其ID, 再通过ID在属性库中找出相应的属性。
2.3 图形与属性的混合查询。
图形与属性的混合查询是指查询条件同时包括了图形方面的内容和属性方面的内容, 查询结果集应该同时满足这两个方面的要求。
3 空间数据搜索的规则
在Mapguide平台中对地图中的数据进行搜索时, 可以在Mg Feature Query Options中定义从数据源中查询要素规则, 搜索过程中的选择操作可基于要素的一般属性和几何属性查询。
对一般属性查询时, 和我们平时对数据库的表进行查询基本一样, 在查询属性表时, 所用到的查询过滤条件主要有以下这几点:
(1) 包含条件查询:比较运算符>, <, <>, >=, <=和Like、In。 (2) 包含表达式:Avg、Sum、Count、Min, Max、Ceil, Floor…。
而对几何属性进行查询时, 与一般属性的查询有比较大的区别, 一般属性的查询基本都是对字符或数字进行匹配选择, 而几何属性的查询则是通过设定两个几何对象在空间关系的判断进行选择。根据国际标准OGC定义的空间关系预测有:Contains (包含) 、Crosses (交叉) 、Disjoint (分离) 、Equals (相等) 、Intersects (相交) 、Overlaps (重叠) 、Touches (接触) 、Within (包含于内) 。
4 Mapguide平台中提供搜索方法的要素服务
Mapguide平台在针对对地图的要素操纵提供了许多的API函数, 通过调用这些API可以实现对地图数据源执行空间和列表查询。
通过Mg Site Connection对象创建要素服务, 要素服务可以保存前一Map Guide对话状态, 因为Mg Site Connection对象是通过会话ID创建的。要素服务提供从数据源获取要素的方法。返回的要素保存Mg Feature Reader。通过Mg Feature Reader对象遍历获取对应的要素属性值。获取基于在要素模式中所定义类型的属性值。
调用要素读取器 (Mg Feature Reader) Mg Feature Reader:Read Next () 方法来处理要素读取器中回的查询返结果。Mg Feature Reader类提供一系列专门用于获取指定类型的属性数据的函数, GetGeometry、Get String、Get Double。如果事先知道所查询的要素类别的属性名称和属性所包含数据的类型, 那么可以直接调用Mg Feature Reader提供的取值函数获取需要的属性数据。
5 在Mapguide中空间数据搜索的具体实现方法
以下根据中国地图来进行演示地图数据搜索的方法, 首先对于基于要素的一般属性查询的方法进行详细的探讨, 例如在地图数据China Map中有个关于定义城市的层ch_city, 该层有关于各个城市的描述, 其中一个属性为Name记载城市的名称, 在查询的时候通过输入城市名称, 通过城市名称进行搜索, 将搜索到的城市在地图中高亮显示。
在服务器端, 通过高亮显示在一定区域内的要素更新地图显示;客户端和服务器端通过XML实现通信, 在服务器端将符合搜索条件的选择选择集保存在XML文档格式中, 再将其传送给客户端, 通过客户端的脚本语言将地图进行刷新并将选择集中的地块进行高亮显示。具体实现如以下代码所示。 。
查询结果如下图所示, 高亮图标显示的即为查询到的对象。
6 结论
空间数据的查询是地理信息系统的一项重要功能, 查询是用户与系统交流的途径, 它可以向人们提供与地理空间、时间空间相关的空间数据, 或者是与其关联的属性数据。
参考文献
[1]秦洪现, 崔惠岚, 孙剑.Autodesk系列产品开发培训教程[M].北京:化学工业出版社, 2008.
[2]胡林.WebGIS的发展现状和实现方法研究[J].2007 (5) :40-44.
[3]代荣辉.基于MapGuide平台的WebGIS的研究与应用[Z].2000.
[4]周成虎, 贵景飞, 陆锋等.第四代GIS软件研究[J].中国图像图形学报, 2001, 6A (9) :817-823.
[5]杜莹.Autodesk Map Guide——矢量地图网上浏览的新革命[Z].2000.
搜索方法 篇2
有了做搜索引擎优化的正确思想认识,接着就是探讨搜索引擎优化的方法了。搜索引擎优化可以从站内优化与站外优化两个方面去考虑。下面文军信息给大家详细介绍一下从网站源代码入手该如何优化和其他一些优化方法总结。
从网站源代码做优化主要从以下八个方面去考虑。
1、尽可能少地使用javascript来做与内容相关的事情。
尽可能少地使用javascript来做与内容相关的事情。例如用document.write去显示正文。这样会影响搜索引擎对页面内容的搜索。
2、千万不要去javascript来实现你网站的导航。
Javascript脚本导航,方便了你但很可能会将搜索引擎拒之门外。那样会让搜索引擎迷失方向。
3、每个页面的关键字尽可能出现在页面的标题,也就是头部的Title标签中。
当然,要合理应用,不要太长,更别用大量与页面内容无关的网络热门关键字。因为那就不是优化而是在作弊。
4、将css与javascript全部用下边的方法分离到外部文件中去。
让html代码最大可能的只是用来显示实际内容。
5、采用xhtml代码编写页面,抛弃传统Table布局模式,去掉页面中的例如font/bgcolor等格式化控制标签。
用符合web标准的代码来制作页面。这样能够让xhtml代码结构化、语义化。提高页面代码的可读性。
6、让页面代码体积变得更小。
采用了上边的方法你会发现你的html代码会变得非常小,当然如果可以的话。让它变得更小。
太大的页面会影响搜索引擎的处理速度。一般通过xhtml+css设计的网页,html代码应该可以控制在50K以内。大家可以去看一下用web标准重构得比较好的网站。
7、用好图片的alt标签,合理的使用页面关键字去描述图片,这样能增加页面的关键字密度。
搜索引擎毕竟不是人脑,它不能读懂图片内容然后生成概要。因此alt属性的加入非常重要。使得合理的页面关键字来描述图片,会使得你的页面对搜索引擎更友好。
8、合理使用恰当标签,体现文档结构。
尽量在每个页面代码中合理使用标签并让你的关键字出现在标签中,让页面的文档结构更清晰。这里只是将在页面制作的过程中涉及到的一些细节问题拿出来和大家探讨一下。由此也可以说明为什么基于web标准设计的网站会更有利于SEO了。文军信息建议如果您不打算花钱去请专业的SEOER来为您的网站做优化,那么可以让页面制作人员在制作上注意一些细节。相信这样免费的一些细节也能达到一个比较好的效果。
下面文军信息给大家介绍其他一些SEO优化的技巧:
1、使用位置导航图: 一个让浏览者进入后不知东西的页面很难留住人,浏览者可能马上离开,提供一项位置导航图不仅可以让用户体验更好,同时可以让搜索引擎的支柱程序更正确更快速的载入并记录网站相关内容,这样有助于提升网页PR值。
2、了解搜索引擎到底要什么: 搜索引擎对于收录页面并如何判定页面的PR值有一套规则,应该阅读它们,使优化向着搜索引擎的知道原则方向去做使使网站被收录的最快最有效的方法。
3、使用关键字语句: 关键字没必要只限于一个单词或字符,事实上,并不是这样的.使用关键字语句可以让你更好的将内容集中面向目标客户群体。
4、使用合适的关键字: 使用最能概括您网站内容的关键词,而这个关键词一般也应该是普通的浏览者平常在搜索某一类产品像您的网站所列的一类产品所习惯使用的.直接使用不同的索引擎来试验一下,看下您所设置的关键词在搜索引擎下得到的结果,并改善。
5、将关键字置于最前面。当构建页面内容时,确保您所使用的引导浏览者登录到您网站的关键词出现在第一个句子当中,而这点正是搜索引擎在搜索结果中显示出来的。
6、雇佣专业人士.并非所有的人都有非常专业的文字表达能力.雇佣专业人士进行网站内容的编排可以有助于使网站页面看上去条例清晰,简洁,内容集中,这样的网站用户感觉更舒服,更愿意回头再浏览。
7、使用容易记的网址.对于一个容易吸引人,容易记的网址是无可替代的.务必使网址简短,好记.,这就是为何谷歌搜索这个字眼引擎进入我们的日常语言的重要原因。
8、在整个网页中都使用关键词: 一旦发现关键字的数量降下来了,一定要毫不吝惜的在页面内容中多加入些关键词.关键词是页面内容当中非常吸引浏览者的一个方面,努力确保关键词所指向的内容为受众所认可.9、更新内容: 一旦完成了相应的优化内容并获得了较好的PR值后,还必须做到网站内容的及时更新,一定要记住竞争者随时都在想一些更能吸引您现在顾客的方法,您的顾客可能会被挖走.如果网站内容很旧而且又很久都没有更新的网站很难带来回头浏览客,更别谈留住浏览者,即便是您的网站在搜索引擎的搜索结果中非常靠前。
搜索方法 篇3
一、 利用GOOGLE 搜索引擎寻找外贸客户的功能与优势
(一)GOOGLE搜索引擎的五大功能
GOOGLE搜索引擎内含众多强大的功能。外贸企业可利用GOOGLE搜索引擎5大功能寻找客户:
1.GOOGLE网页关键词搜索
该方法是常规搜索方法。即在GOOGLE网页搜索栏中输入出口产品名称等关键词,访问Google可检索到数十亿个网页。
2.Google 图片搜索
利用GOOGLE的图片搜索功能,即IMAGES 功能,根据图片展示的产品性能、款式等可以寻找与出口产品对路的目标客户。
3.GOOGLE 地图搜索
利用GOOGLE 的地图搜索功能,即MAP功能,在MAP搜索页面中输入出口产品以及拟开发的国家、城市即可找到目标地区的客户。
4.GOOGLE高级搜索
GOOGLE高级搜索,即 Advanced Search功能。该功能提供了大量选项,包括“包含键入所有的搜索字词”,“包含键入的完整词组”,“至少包含键入的其中一个字词”,“不包括所键入的任何字词”等。通过高级搜索,可以使搜索更加精确并能获得更多有用的结果。
此外,Google Advanced Search 还可以搜索特定日期,特定国家或地区的含有某个关键词的网页,通过此方式,外贸企业可掌握某个国家和地区某种产品在某个时期内的产品信息,以进一步优化搜索结果。
5.GOOGLE目录搜索功能
GOOGLE目录搜索功能,即directory功能于2011年7月25日关闭使用。但其目录搜索功能为外贸企业开发国外客户提供了一个良好的路径。利用类似于Google Directory 搜索功能的知名分类目录网站,如dmoz (http://www.dmoz.org/ )同样可以达到寻找外贸客户的目的。在dmoz 网站的Business 目录下,外贸企业可搜寻到更加详细的与出口产品有关的分类,进而获得大量的与其出口产品有关的国外公司信息。
(二)GOOGLE搜索引擎的三大优势
Google作为全球最大的多语言搜索引擎,有其三大优势:
1.Google在国际市场拥有绝对的垄断地位。其覆盖250个国家,拥有113 个国际域名,支持 109 种语言,拥有全球搜索流量近80%以上的市场。
2.特有的PR技术能够对网页的重要性做出客观的评价。PR是GOOGLE评价一个网站质量高低的重要标准,PR分为十个等级,从1至10,PR越高代表网站质量和权威性越高,排名也就越靠前。
3. 更新和收录频率高。GOOGLE收录新站一般在十个工作日左右,是所有搜索引擎中收录最快的,更新也比较稳定,一般一周即会有大范围的更新。
由于GOOGLE搜索引擎的上述特有优势,其更适合搜寻国外企业信息,而且从外贸行业人员普遍的实践效果看,也即如此。
二、遵循GOOGLE编程方式选取优化搜索结果的关键词
运用GOOGLE搜索引擎的搜索方式很简单:只要在搜索框中键入任何字词,按Enter或点击搜索按钮,Google 就会在网络上搜索与该搜索字词相关的内容。而GOOGLE是遵循语法逻辑和程序要求的,因此了解GOOGLE的编程方式将有助于选取可简化和优化搜索结果的关键词。
(一)GOOGLE搜索的基本要点
主要包括三个方面的要点:(1)每一个字词都很重要。通常,搜索引擎会使用在查询中输入的所有字词。(2)搜索不区分大小写。搜索[new york times]与搜索[New York Times] 获得的结果相同。(3)标点符号(包括 @#$%^&*()=+[])以及其他特殊字符)都会被忽略。
(二)遵循GOOGLE编程方式,选取优化搜索结果的关键词
1.关键词应保持简单。如查找某个特定的公司,只要输入公司名称即可,或者能想到该公司名称的多少字词就输入多少。大多数查询都不需要高级操作符或不常见的语法。简单即可。
2.使用最可能出现在要查找的网页上的字词作为关键词。搜索引擎毕竟只是一个程序,它需要根据指定的字词,搜索网络上匹配的网页,所以应使用最可能出现在要查找的网页上的字词。例如,不要使用[我的头很痛],而应使用[头痛],因为这才是医疗网页会使用的字词。
3.关键词应尽量简明扼要地描述要查找的内容。查询中的每个字词都应使目标更加明确。因为每增加一个词,就会对结果多一些限制。如果限制过多,将会错过许多有用的信息。以较少的关键字开始搜索的主要优点在于:如果没有找到需要的结果,那么所显示的结果很可能会提供很好的提示,以了解需要添加哪些字词以便在下次搜索中优化结果。例如,[天气北京]是一种查询天气的简单方法,而且与更长的[中国北京市的天气预报] 相比,很可能会得到更好的结果。
4.可选择描述性的字词作为关键词。字词越独特,越有可能获得相关的结果。在通常情况下,不要使用描述性欠佳的字词,如"文档"、"网站"、"公司"或"信息"。如果某个字词不是绝大多数人常用的,那么即使它意思正确,也可能与要找的网页不匹配。例如,[名人铃声]比[名人声音] 更具描述性而且更具体。
三、借助GOOGLE工具准确选择关键词
遵循GOOGLE编程方式,可选取优化搜索结果的关键词,但这些关键词未必就关键。因此还需借助GOOGLE相关工具进行甄别和筛选关键词,通过该方法,或将找到许多以前不曾考虑到的关键词,扩大关键词列表。
(一)通过GOOGLE关键词功能判断选取的关键词是否重要
虽然GOOGLE关键词工具,即ADWORDS功能,是用来为GOOGLE在线广告服务的,但它也是一个研究关键词的重要工具。该功能准确地覆盖世界各地的互联网用户,受众群体的规模庞大,因此由此得出的相关数据具有代表性和实践意义。GOOGLE关键词工具标识出某些关键词或短语的全球搜索量、月搜索量等相关信息。因此GOOGLE的关键词工具可帮助选择正确的关键字并跟踪关键字效果。即在关键字工具中输入与出口业务相关的关键字或网站网址,查找最常用同义词及相关词组列表,并列出关键字的点击量估算。分析这些数据,选出排名靠前的关键词和相关关键词。如运用该功能查询“撬锁工具”英文关键词“locksmith tools”和“lock picks”全球搜索情况,lock pick 在全球每月搜索量显然比locksmith tools多很多。该功能同时也列出了近100个与关键词类似的常用关键词。因此可参考所查关键词和类似关键词相关数据判断选取的关键词是否重要。
在运用该工具时需特别注意在页面的左侧有个匹配类型[Match types]列表框,见下图:
在默认情况下,GOOGLE搜索引擎程序将自动和所查找的关键词的相关词汇进行组合,这就是GOOGLE搜索引擎所谓的广义匹配[Broad]。这个功能带来了极大方便,但也不能过于信赖这个功能。
默认情况下广义匹配[Broad]类型显示的搜索量包含了关键词所涉及的短语。短语匹配"Phrase",即在搜索结果里完整包含了要搜索的关键词。精确搜索[Exact]显示的搜索量是指有多少人搜索某个特定的关键词,尽管在该选择项下搜索数量急剧下降,但是真实的数据。总之利用匹配类型工具可进一步研究关键词重要性和发掘更多相关的关键词。
(二)运用GOOGLE趋势工具可针对特定市场和特定期间精准确定关键词
GOOGLE趋势工具,即TRENDS工具,其分析并计算用户输入的字词被搜索的次数,并将其与 Google 上随时间推移的搜索总量相比较。搜索结果通过线性比例搜索量图表显示。
因为GOOGLE趋势工具是根据用户搜索的关键词的数据库做出分析,所以并不是所有的字词都能用GOOGLE趋势工具进行分析,只有有足够的的搜索量的关键词才能支持GOOGLE趋势工具的分析,这也是GOOGLE趋势工具分析的局限。但是若采用的关键词有足够搜索量,就可以从分析结果中得到关于关键词的搜索的频率、国家以及比较分析等,其对于外贸营销有很大的帮助。
利用GOOGLE趋势工具可以对关键词进行初步分析。单个关键词的Trends的分析更多地侧重于了解这个关键词在Google的搜索状况。如通过数据表能更全面地了解关键词搜索量历年的变化状况,也可以了解世界各国对这一产品的关注,另外图表也从一个侧面反映了产品发展趋势。
如果选择特定的地区作为目标市场,GOOGLE趋势工具可列出在某个地区的近一段时间的搜索状况,可检索出该地区近期使用频率较多的关键词。如果选择特定的语言作为目标市场,GOOGLE趋势工具可列出使用关键词搜素的语种的排行。从而可根据数据选择更准确的关键词接触到潜在客户群,以提高外贸营销的成功率和针对性。
四、利用关键词组合提高GOOGLE搜索的针对性和效率
尽管遵循GOOGLE编程方式选取出可优化搜索结果的关键词并利用google工具进一步甄选出基本关键词,但在实际搜索中,为了提高GOOGLE搜索的针对性和效率,极少单一运用这些关键词,而是按照GOOGLE的语法逻辑,将若干关键词组合。因为关键词不仅限于单个的字词,还包括词组和短语。
常见的组合关键词搜索包括:
第一,针对目标客户采购的行为,组合关键词可按照“产品名称+客户类型”搜索。如搜索“产品名称(空格)importer”、“产品名称(空格)buyer”、“产品名称(空格)seller”、 “产品名称(空格)wholesaler” 、“产品名称(空格)distributor”、“产品名称(空格)retailer”、“产品名称(空格)supplier” 、“产品名称(空格)vendor”等,其中,”importer”、“buyer”等词单复数均可,该组合关键词的搜索结果可以包含比较丰富的客户信息和其他市场信息,比如行业状况、竞争对手信息和技术资料等。如果产品名称包含多个单词,最好加英文的引号,便能得到更准确的结果。
第二,针对特别国家的市场,组合关键词可加国别名精确搜索。如搜索“国别名(空格)产品名称(空格)importer”。加有国别名的关键词组合方式需相应调整产品名称。因为对某些产品来说,不同国家的名称使用习惯可能不同,所以可让专业人士或借助相关的翻译工具将出口产品的名称翻译成不同的语种,以适应不同的目标市场的语言习惯。该组合关键词的搜索结果可得到所需产品在目标市场的情况,其中也包含不少客户信息和客户信息源。
第三,针对目标客户的邮箱,组合关键词可按照”产品名称+邮箱后缀”搜索。邮箱后缀包括公共邮箱名后缀,如hotmail.com, @gmail.com, @aol.com, @yahoo.com 等;各国邮箱后缀,如@ yahoo.co.jp (日本),@yahoo.co.kr (韩国)等。针对目标客户采购行为,该组合还可扩展到“产品名称+importers+email”、“产品名称+distributors+email”、“产品名称+wholesaler+email”、“产品名称+buyer+email”、“产品名称+supplier+email”等。通过该类组合关键词搜索可找到目标客户的邮箱,继而找到目标客户的公司名称、联系人等信息。
第四,针对各国对公司称谓不同,组合关键词“产品名称+公司后缀”搜索。每个国家对公司称谓因语言特点不同,公司称谓也不同。如中国常用的公司后缀是Co., LTD;美国常用的是INC、LLC;意大利常用的是S.R.L;西班牙常用的是S.P.A。因此组合关键词“产品名称+公司后缀”搜索或可寻找到潜在国外客户。
第五,针对组合关键词“Price +产品名称”搜索。通过该组合关键词可搜索到在网上销售产品的零售商和经销商及一些关于产品行情的市场报告,进而挖掘到潜在的目标客户。
第六,针对组合关键词“产品名称+ Market research”搜索。通过该组合关键词可搜索某种产品的市场研究报告。一般在这类报告的提要或者内容中,或提到行业内制造商和分销商。进而对该类信息进行甄选或可挖掘出潜在的目标客户。
常见搜索引擎评价方法分析 篇4
搜索引擎是目前Web环境中最常见的工具之一,但一个搜索引擎是否能在上线后完成原有设计目标,不能靠感觉或目测,需要有一定的方法进行系统评估。即使是成功上线后,也需要继续监测,以便于调整其性能,更好地适应用户的需求,从而取得更大的市场竞争力。
1 常见搜索引擎评价方法分析
搜索引擎评价应能估计在给定条件下检索算法的有效性,并在相同情况下与另外的检索算法的有效性进行比较,或者预测这种算法在不同情况下的有效性。对于评价方法,一般要满足如下条件:
(1)能表示检索算法预期目标。
(2)量化多大程度实现了预期目标
(3)采用准确、精确且经济的度量技术。
(4)能度量误差。
1.1 效果和效率
效果衡量的是搜索引擎返回正确的搜索答案的能力,即搜索引擎的实际排序结果与人工排序结果的吻合度。
效率衡量的是搜索引擎的搜索响应速度,即搜索引擎采用的排序算法所消耗的时间和空间复杂度。
搜索引擎的这两项指标相互关联,相互制衡。通常而言,由于引擎的主要用途是为用户反馈查询的结果,所以效果评价更受重视。在评价某搜索引擎能取得有效查询结果的前提下,才将评价重点转到效率评价。
1.2 效果评价
1.2.1 召回率与准确率
效果评价中最常用的两种方式是召回率(Recall)和准确率(Precision),用于总结和比较搜索结果。召回率衡量的是搜索引擎找到所有相关文档的能力,准确率则衡量搜索引擎排除不相关文档的能力。这两种方式倾向于检索尽可能多的相关文档,且使检索到的不相关文档数量尽量最少。
对于任一个给定的查询,将会产生被检索到的文档集和未被检索到的文档集。假定A是相关文档集合,是不相关文档的集合;B是被检索到的文档集合,是未被检索到的文档集合。则召回率和准确率可以表示如下:
由上可见,召回率是相关文档被检索到的比率,准确率是检索出的文档中有多少相关文档的比率。
这两种方式,都要基于检出的经过排序的文档。当一个查询有许多个相关文档,或者相关文档较零散地分布在排序中,通常用三种方法来计算召回率和准确率。
(1)在预定义的排序位置上计算,通常计算出准确率即可。如果一个排序位置p的准确率比另一个排序高,那么相应的召回率也就高,这被称为位置p的准确率。
(2)当召回率从0到1.0每增加0.1跨度时,计算准确率的相应变化。这种方法适用于所有排序结果中的相关文档,而不仅是那些排序靠前的文档。
(3)计算当一个额外的相关文档被检出时(即召回率增加),准确率的平均值。平均准确率只有用单一的数值对所有相关文档的排序结果进行衡量,但这个值很大程序取决于排序位置较靠前的相关文档。
在实际评价中,还有第四种方法,即计算F值将召回率和准确率进行综合。F值被定义为召回率(R)和准确率(P)的加权调和平均数,其优点是用单一的数值即可评价搜索引擎的性能,表示如下:
其中α是权重,用于表示侧重召回率或者是准确率。
1.2.2 平均化与插值
1.2.1中的评价方法主要针对一个查询,为对搜索引擎进行全面的评价,必须选择多个查询进行测试,此时,会采用平均化技术,即通过某个查询集来总结某个排序算法的排序性能。
使用1.2.1中的平均准确率,可得到每个查询的相关排序结果的评价数值,要对多个查询总结该排序算法性能,可把这些数值再平均。因为基于平均准确率,所以表示对每个查询,用户都倾向于找到更多的相关文档。为了简化平均化过程,每个查询的召回率-准确率值被转化为标准召回率等级上的准确率值,即将标准召回率等级上的准确率值进行平均,可评价排序算法的效果。
标准召回率等级是0到1.0,以0.1为单位增量。为获得每个查询在这些召回率等级下的准确率,必须进行插值。即要基于这些数据点定义函数,使其在每个召回率等级处都产生值。现在最常用的函数表示如下:
其中,S是观测点(R,P)的集合。在任意的召回率等级处,该插值定义准确率为在较高的召回率等级处,召回率-准确率点中能观测到的最大准确率。
任何搜索引擎的搜索结果都包含一些不相关的文档,所以随着召回率升高,通常准确率趋于下降。这一点在上述插值方法中得以体现,因为这个函数值是单调下降的。
1.2.3 排序靠前的文档
尽管许多搜索的结果有许多个文档,但用户往往只关注排序在前的相关文档,在Web环境下,通常是结果的前1-3页。有时还有这种情况,搜索仅需要一个单独的相关文档,这时,召回率评价就不再起作用,而相关文档是否靠前才最重要。
在1.2.1中提到的位置p的准确率的评价通过平均多个查询的评价结果来评价搜索引擎,但不足之处在于:对于给定数量的相关文档,不能很好地区分不同的排序。因此选用排序倒数评价方法更为合适。它返回第一个相关文档位置的倒数,与其相关的平均排序倒数是针对一组查询的排序倒数平均值。
实际评价中,当高相关性的文档比边缘相关的文档有用得多,一般采用折扣累积增益法(Discounted Cumulative Gain)。这种方法从排序靠前的结果开始计算,在靠后的排序位置上开始打折,表示如下:
其中,reli搜索返回的文档中排序为i的文档的相关性等级,分母log2i是损失因子。通过变化公式中的对数的基数,损失可能变得更陡峭或者趋于平滑。
DCG评价首先对每个查询的位置p上的DCG进行计算,再进行平均。但不同的查询,会返回不同数量的相关文档,为了便于平均不同查询的评价值,可通过将每个排序位置上的DCG值与该查询的最优排序的DCG值进行比较,得出归一化的值。
1.3 效率评价
最常用的效率评价方法是基于查询流量的方法,记录每秒处理的查询数量,这是个单一数值的评价。通常,两个搜索引擎应在同一个测试集、同一个查询集合、同样的硬件环境下进行评价。搜索引擎提供方希望借助于流量数据来估计系统容量,从而决定是否还需要投入硬件资源来满足大量的用户查询。
主要的效率评价方法如下:
(1)索引时间开销:用于评价在一个特定系统上建立文档索引所需的时间。
(2)索引处理器时间开销:用于评价建立文档索引所需的时间,与索引时间开销相似,但不包括I/O等待时间或者系统并行获得的速度。
(3)查询流量:每秒钟处理查询的数量。
(4)查询延迟:用户提交一个查询后,在获得返回结果之前需要等待的时间,以毫秒计算。用中值或者百分比表示。
(5)临时索引空间:创建索引所使用的临时磁盘空间的数量。
(6)索引大小:用于存储索引文件的存储空间的大小。
但如仅用流量数据来评价,就会忽略延迟因素的影响。延迟和查询流量并不是正交关系,通常可以通过增加延迟来改进流量。
与效果评价中的召回率与准确率一样,低延迟和高流量都代表搜索引擎的高性能,但这两项指标却是相互冲突的,不可能同时达到峰值。在一个搜索引擎中,查询流量是基本需求,因为系统需要处理用户提交的每一个查询,延迟和硬件资源则相对是动态的。
查询流量和延迟是最有效的效率评价方法,但同时也应将索引的代价考虑其中。假设给定足够的时间和空间,存储每个可能长度的查询,那查询流量和延迟有可能达到各自的峰值,但这时的索引代价极其巨大。所以需要衡量索引结构的大小,以及创建索引所消耗的时间。
2 结论
对于搜索引擎的评价方法有许多,但并没有哪一个就能全面评价搜索引擎的性能。所以实际评价过程中,通常是综合运用多种评价方法,力求从不同的角度验证搜索引擎的工作性能。常用的组合包括召回率准确率、平均值、关注靠前文档等。
摘要:搜索引擎是网络环境中普通用户获取信息的重要工具,其性能优劣需要靠科学的评价方法来测定。文中分析了常用的搜索引擎评价方法及其各自的应用特征。重点分析的是效果评价中的三种方法以及适用的环境。实际评价中,以多种评价方法的综合为宜。
关键词:搜索引擎,评价,效果,效率,查询算法
参考文献
[1]魏蕾如.基于搜索引擎的网络中文信息检索工具评价[J].数字技术与应用,2011(06):187-188.
[2]Stefan Buttcher.信息检索实现和评价搜索引擎[M].北京:机械工业出版社,2012:279-323.
[3]苏君华.搜索引擎评价研究综述[J].情报杂志,2011(04):28-63.
[4]黄盛.浅议信息检索的相关特性及效果评价[J].全国商情(理论研究),2010(13):111-112.
常用搜索引擎优化方法分解 篇5
摘要:在网络营销中,对于网站搜索引擎优化工作来说,它是一件比较漫长的工作,这一个过程只能用时间去衡量,搜索引擎优化工作者永远也跟客户保证不了,词上线的时间,它是一个琐碎而复杂多变的技术性工作,
做为我们搜索引擎优化ER,经常性的被网站推广搜索引擎牵着鼻子走,如果您触犯搜索引擎的警备区,或针对搜索引擎算法不知如何下手的工作?那么您这个单子就不会成功,网络营销搜索引擎优化工作也不会成功。
我相信您在入这行业的时候,看了不少对于搜索引擎优化技术相关的文章,当然这些文章完全是出自于较早从事搜索引擎优化界的前辈所积累经验与心得。如果您不知道创意,完完全全是按着前辈们的网络营销思路去做的,那么迟早也是个完。针对百度搜索引擎来说,当你搜搜索引擎优化时,一个友情提示,就能把您惊醒,“搜索引擎优化是一项非常得要的网站推广工作”一句简单的话,可里面存有的意义有多大呢?
这个只有自己知道,所以从事网络营销搜索引擎优化行业搜索引擎优化ER,我们从事这行业,必须得做到创意,这样才能把搜索引擎优化的路走好,
下面主要来给大家分解搜索引擎优化使用的几个方法。
一、告别JS实现搜索引擎优化优化方法
大家也知道JS用我们肉眼是看不出来了,那么针针搜索引擎蜘蛛来讲,那爬行起来就更加不可能。您可以用网络营销搜索引擎蜘蛛爬行工具测试下,你可以发现,利用JS的是根本抓取不到的。
二、网站优化文字链接讲究
搜索引擎优化优化的时候,描文本起了什么作用,加粗的作用,这主要的目的就是让蜘蛛认为这就是网站推广的重点,从搜索引擎优化角度来讲,它需要我们对内容做一个细致的了解并对该频道的主要网络营销关键词进行调研。
三、网站图片如何作为关键词链接辅助
我相信大家在学习网络营销搜索引擎优化的时候,讲师肯定有讲过这么一课。ALT标签的作法。使用图片作为网站搜索引擎优化优化辅助关键词链接。
四、网站链接必须清晰明了
网站链接是为了给网络营销搜索引擎爬行而做的一条线路,它是从上往下爬行的,链接主要是何站网站推广跟内容之间互通而建的桥梁,因此利用文字链接最佳。
搜索方法 篇6
在移动互联网时代,用户从移动端获取资讯的来源主要是各类型的APP,但随着应用数量越来越多,主打的功能领域越来越细分,用户获取资讯的渠道反而相对更短了:因为没有人会无限制地往自己的手机里塞一些并不常用的APP。
那么应用内搜索带来的是什么体验?顾名思义,不同于“应用搜索”,“应用内搜索”不仅仅是按照APP的名字或者上架摘要来为用户提供搜索结果,它是搜索结果是以关键词匹配的“内容”。
如果要理解得更为简单一些,之前的“应用搜索”就像是在《微信》用的“+”功能下按名称关键词搜索公众号,“应用内搜索”则是在“放大镜”功能下搜索文章,其搜索的直接结果就是文章本身。
打个比方,以前想要得到旅游信息,是用户先搜索到APP,然后选择下载,再然后才是寻找自己需要的信息,如果没有就还得换一款APP继续试。但如果用户使用“应用内搜索”,那么搜索结果就是各类旅游信息本身,在这之外,才是安装某款APP的推荐。
应用内搜索—国内:爱过。
此次谷歌面向Android平台推出的搜索功能,引起了国内各大科技平台的关注。可实际上,类似功能在国内早已出现(谷歌于2013年也推行过此相似功能),但却没有引发任何能改变格局的“地震”。这又是为何?
以业内的普遍观点来看,2015年是移动搜索的爆发之年,除了国外的强者,国内也有一些领域内的巨头重点发力移动搜索市场。而之所以都认为应用内搜索会是行业突破点,是因为如今APP的信息太过封闭,一旦其信息被该功能所串联,那么用户的使用习惯也将会受到影响。同时,在设想的影响中,传统应用商店的作用也会有所改变。
在国内,豌豆荚是第一个使用该功能的分发渠道,与谷歌发布的App Indexing和Quixey发布的APP URL不同,豌豆荚的“应用内搜索技术协议”在兼容这两种标准的同时,提供不需要应用与网页绑定的路径、全面支持移动端独有内容的接入。因为当下很多APP并没有与之配套的网站,豌豆荚希望借这批APP来避开谷歌或者百度等巨头的市场。
对于应用内搜索,百度的方法比较取巧—内容数据是放在Web端的,在用户手机上运行的仅仅是一个“替身”,用户通过APP操控的内容,事实上还是放在Web端的内容。因此百度很容易在轻应用的服务器上构建索引。并且也方便通过大数据和用户画像,建立更加精准化的广告推送机制。但是现实是残酷的,轻应用对于没有开发能力的内容生产者来说,或许更有吸引力。但是就目前App Store和Google Play的库存来看,想要让这群主流的开发者都投入到轻应用的怀抱还是非常困难的。对于大多数有编程能力的开发者而言,他们更愿意在自己的应用中添加新API,然后打包编译,而非去套用公共模板。
另外,由阿里巴巴投资的Quixey也是早已入局的玩家之一。这款针对APP的功能性搜索引擎通过AppURL在APP之间建立联系,还以各大社交平台、微博、论坛和科技媒体中对某款应用的描述、评价作为搜索结果的依据。
总的来说,国内该领域稍有实力的巨头基本上都曾有过涉足,但最后都是无疾而终,并非这个功能不实用,而是因为它们做得太“晚”了。
优势虽有,只比手机自带的应用商店高一筹
于开发者来说,如今最大的需求是打破巨头垄断排行榜单下的“被发现”,这并非单指用户“看到APP名字出现在那里”,而是指“这款APP所拥有哪些内容”。而且对于用户来说,应用内搜索更能减少试错成本和节约时间。
可有问题的是,要实现应用内搜索,不仅仅是搜索方技术达标即可,这还与处于被搜索方的APP是否愿意合作直接相关(包括支持外部调用、提交APPURL等内容信息)。而大环境下的第三方应用商店的优势逐渐减弱,取代其位置的手机自带应用商店随着设备出货量的增加而扩大市场占有率。例如早有意识做应用内搜索的豌豆荚,其此前宣布合作的APP数量仅为200+;百度则是在数次降低合作标准之后,依然没有吸引到多少合作伙伴;神马搜索和UC等更是再无声音。
小编观点
基于预测运动矢量的菱形搜索方法 篇7
全搜索模型是所有搜索模型中最为简单可靠的一种, 能获得高质量的视频, 但由于该方法进行的是逐点搜索, 所以该搜索方法的实现计算量大、耗时长, 不利于编码器实时性的实现。因此提出了多种快速搜索方法, 如三步搜索法[2]、四步搜索法[3]、 DIA[4]、UMHexagonS[5]等, 这些搜索方法和全搜索相比减少了搜索点数和并且降低了计算量, 并且快速搜索方法得到的视频质量和全搜索方法得到的视频质量相比没有明显降低。
尽管快速搜索方法已经达到了很好的改善效果, 但运动搜索的速度和计算量仍然存在很大的改进空间。在运动估计过程中, 每个搜索块都有不同的动态的预测运动矢量 (mvp) , 预测运动矢量的方向和编码块的运动方向是一致的, 利用运动矢量的这一特性可以判断编码块的运动方向。本文首先制定了不同方向的搜索模型, 然后根据预测运动矢量的方向确定选用的搜索模型, 该方法更好地减少了搜索点数, 降低了搜索时间, 进而提高了编码速度。
1 H.264/AVC运动估计过程
在H.264/AVC视频编码中, 运动估计包括运动搜索和模式选择两部分, 主要用于帧间预测编码部分。在H.264/AVC视频编码标准中P帧帧间预测模式有七种:P_16×16模式、P_16×8模式、 P_8×16模式、P_8×8模式、P_8×4模式、P_4×8模式和P_4×4模式[6]。运动估计首先通过运动搜索部分搜索到当前块的最佳匹配块, 计算出七种当前块和最佳匹配块率失真代价值, 通过七个代价之间的比较, 选出代价值最小的作为最佳预测模式。 帧间率失真函数代价值计算如式 (1) 所示。
式 (1) 中:SATD (x, y) 表示当前编码块x和最佳匹配块y的像素值差的绝对值之和;SATD (x, y) 是当前编码块x和最佳匹配块y的像素值差经过哈达玛变换后所得到的系数之和;IMOTION是运动估计的拉格朗日乘子, Δmv表示预测运动矢量与实际运动矢量的差值, b (Δmv) 表示编码 Δmv所需比特数[7]。 Bcost值最小时选块就是当前块的最佳匹配块。
2运动搜索算法优化
2.1原有菱形搜索算法分析
菱形算法具有实现简单、鲁棒性高等特点, 是视频编码中的一种高效快速的运动估计算法。菱形搜索模板如图1所示。
在该模板中n取值可以根据搜索步长不同而不同, 在搜索时对搜索点o、a、b、c和d共5个点, 分别计算出对应匹配块的SAD值。
菱形搜索的实现流程如图2所示, 候选搜索起始点是利用当前块与邻近块的空间相关性, 以及参考帧中对应位置的时间相关性预测得到, 将几个候选搜索起始点进行比较得到最佳搜索起始点。该模板中n取值可以根据搜索步长不同的而不同, 在搜索时对搜索点o、a、b、c和d共5个点, 分别计算出对应匹配块的SAD值, 若最小值在点o取得, 则终止搜索, 否则, 继续使用该模板进行搜索, 直到将搜索区域内的搜索点搜索完毕。但是该菱形搜索模型在同一个测试码流中始终有着固定的搜索步长和范围, 在搜索区中有一定的搜索空区, 这样将导致计算资源浪费。搜索步长较短时搜索到最佳点需要计算的搜索块也就较多, 计算量也会随着增大, 搜索步长大时, 搜索到最佳匹配块需要计算的搜索块相对较少。
2.2改进的菱形搜索方法
本文针对前文提到的不足, 提出了以下改进方法。由于mvp所指向的方向和当前编码块的运动方向是一致的, 所以通过预测运动矢量可以大致判定最佳匹配块所在位置的方向。本文提出了对角线不相等的菱形搜索模型优化方法。
首先, 将mvp终点的所在位置划分为平面坐标系中的一、二、三、四象限。
其次, 当mvp终点在一、三象限时, 可以采用一三象限跨度较大的搜索模型如图4所示, 这样可以更快地找到最佳匹配点;当mvp终点在二、四象限时, 可以采用二、四象限跨度较大的搜索模型如图5所示。
该菱形搜索方法的实现过程为:首先, 通过对候选搜索起始点对应块的代价值计算, 比较得出最优的mvp。然后, 判断mvp的横纵坐标值的正负性是否一致, 若正负性一致, 则选用图4所示的一、三象限跨度较大的菱形模型, 若正负性不一致则选用图5所示的二、四象限跨度较大的菱形模型。这样在当前块的运动方向上进行搜索, 可以更快速地搜索到最佳匹配块。
3实验结果
本文对上述改进方法进行了实验分析, 分别从峰值信噪比 (PSNR) 、码率 (BR) 和帧率 (FPS) 三个方面将新的菱形搜索方法和原有菱形搜索方法进行了比较。实验过程中的参数设置为:参考帧帧数为5帧, I帧的QP设为30, P帧的QP设为32, 编码序列为IPPP格式。本实验分别对QCIF (分辨率为176×144) 、CIF (分辨率为352×288) 、D1 (分辨率为704×576) 三种格式的视频序列进行测试, 并分析比较了不同运动剧烈程度的经典测试序列 (表3中FUN和APPLE为实验室采集的测试序列) 的峰值信噪比、码率和帧率的变化。实验数据见表1~ 表3。
上述表格中 Δ (PSNR) =优化后峰值信噪比- 优化前峰值信噪比, Δ (BR) = (优化后码率- 优化前码率) /优化前码率 ×100%, Δ (FPS) = (优化后帧率-优化前帧率) /优化前帧率×100%, 其中“+” 表示提高, “-”表示降低。信噪比中“+”表示图像质量提高, 码率中“-”表示压缩率大, 帧率中“+”表示帧率提高, 编码速度提高。由实验结果可以看出, 所有测试序列信噪比降低不超出0.30dB, 码率增加不超出0.40%, 帧率都有了明显提高。总体来看, 在峰值信噪比和码率变化不明显的情况下, 帧率平均提高5.73%, 更好地满足了编码器的实时性要求。
4小结
本文通过对H.264/AVC编码器整像素运动估计算法中运动搜索模型的分析, 深入研究了菱形搜索模型的特点和不足之处, 并提出对相应的菱形搜索模型进行改进。本文提出的基于预测运动矢量的菱形搜索方法, 该方法首先将菱形搜索模型划分为两类, 根据当前编码块预测运动矢量的方向, 来确定采用的菱形搜索模型。大量测试结果表明, 该方法在没有明显降低图像质量和视频压缩率的情况下, 大幅度提高了H.264/AVC编码器的编码速度, 进一步满足了视频压缩编码的实时性要求。
参考文献
[1] 刘易, 李太君.H.264中快速运动估计UMHexagonS算法的改进.计算机技术与应用, 2011;37 (8) :128—130
[2] 焦梅.AVS视频编码器优化及算法研究.济南:山东大学, 2009
[3] 王园园, 张刚, 李付江, 等.AVS的自适应提前终止运动估计算法.电视技术, 2012;36 (23) :9—11, 14
[4] Zhu Shang, Ma Kaikuang.A new diamond search algorithm for fast block-matching motion estimation.IEEE Trans Image Processing, 2000;9 (2) :287—290
[5] 杨齐, 李子印.一种改进的UMHexagonS运动估计算法.电视技术, 2012;36 (5) :15—17, 25
[6] 毕厚杰.视频压缩编码标准——H.264/AVC.北京:人民邮电出版社, 2005
聚合搜索技术及其评价方法研究 篇8
一、“聚合搜索”的技术
为了实现聚合搜索, 重要的是对输入到Web搜索引擎的问题混入了哪种垂直搜索的搜索结果, 因此, 下面重点介绍垂直搜索选择方法及其评价方法。
1. 垂直搜索的选择方法。
垂直搜索的选择判断使用三个要素, 即问题、垂直搜索文集、问题日志。聚合搜索时, 或用其中的一个要素选择垂直搜索, 或用逻辑回归法组合几个要素选择垂直搜索。 (1) 问题。使用问题选择垂直搜索的方法, 是把问题中是否包含特定的关键词作为判断材料。具体说, 在Ad Hoc网指定垂直搜索名和相关的“picture”、“movie”、“product”、“shopping”等单词, 以及地名、观光地名等, 以关键词作为选择垂直搜索的使用。例如, 搜索“digital camera shopping”这一问题时, 就以“购物”为关键词把购物垂直搜索作为选择对象, 搜索“Dayan Pagoda”问题时, 就以“塔”为关键词把图像垂直搜索作为选择对象。文献 (1) 使用微软Web搜索的问题日志确认本方法的关联性。具体讲, 对于选择图像垂直搜索的问题, 设定“image of*”和“*image”模式, 就把“image”问题的搜索范围扩大至picture, galley, wallpaper, pic, 得到与“imageof*”和“*image”模式相符的问题数。以这种模式查找的问题数肯定超过了直接输入“image”获得图像搜索的问题数。 (2) 垂直搜索的文集。使用垂直搜索的文集选择垂直搜索的方法, 是把输入Web搜索的问题同时输入垂直搜索, 选择更多与问题相符的检索结果的垂直搜索。由于本方式是把输入Web搜索的问题全都送入垂直搜索, 所以计算成本较大。因此进行垂直搜索时, 不使用含各类垂直搜索的完整索引, 而是使用每种垂直搜索独设的简化索引, 简化索引是从完整索引节选而成的。对此, 在文献 (5) 中提出, 在进行垂直搜索时, 把能高频度搜索到的内容优先输入简化索引的方法。具体说, 就是从各垂直搜索的问题文集中抽出频度高的1000件问题, 把各问题上位100件搜索结果合并作为简化索引使用。 (3) 问题日志。使用问题日志选择垂直搜索的方法, 是通过问题与垂直搜索的相关度选择垂直搜索。通过直接输入垂直搜索的问题, 能反映出用户对该垂直搜索感兴趣的主题, 以及每类垂直搜索的问题的倾向性。例如, 在垂直搜索A中问题X的频度高时, 判断问题X与垂直搜索A的关联度高, 给问题X混入垂直搜索A的搜索结果。因为一个问题一般是由几个单词组成, 所以把问题分割成若干单词, 找出被分割的单词与垂直搜索之间的关联度。另外, 被分割的单词, 不仅在一个垂直搜索, 有时也在多个垂直搜索中频繁出现, 此时, 为了查全可以选择多个垂直搜索进行查找。
2. 聚合搜索的评价。
在聚合搜索中为了实现更好的信息聚合, 需要熟悉聚合搜索的评价方法。 (1) 评价对象和评价条件。聚合搜索的评价, 分为由评价者的评价和依据有无点击的评价。由评价者的评价又分为评价对象的不同和有无问题意图两种。 (1) 评价对象的不同。这种评价是评价者以何为依据判断适合、不适合的问题。即, 对给出的问题, 有不看搜索结果, 判断问题与垂直搜索的关联度;或是看了来自各垂直搜索的结果, 判断问题与垂直搜索的关联度两种。前者的方法是由评价者给出的评价, 只是以问题为对象得出的评价;而后一种方法, 是以各垂直搜索的搜索结果为对象得出的评价。 (2) 问题意图的有无。此评价观点有两个, 一是有意图, 即事先把问题背后的意图告知评价者让其评价;二是无意图, 即不告知评价者问题背后的意图, 让评价者自己思考问题背后的意图再行评价。前一个评价方法是被信息检索领域竞赛式会议TREC (Text REtrievalConference) 和NTCIR (ResearchInfrastructurefor Comparative Evaluation of Information Retrieval and Access Technologies) 上采用的, 目前, 在信息检索评估中被普遍使用。但是在聚合搜索评价方面至今尚无统一的评价方法。 (2) 评价方法的不同对评价的影响。图卢兹大学的Kopliku等人对评价方法不同对评价的影响进行调查, 本调查以视频、图像、新闻、地图、Wiki、商品、A&Q、字典等八个垂直搜索为对象, 利用2007年TREC会议上使用的300个问题, 由33个评价者参与评价。从调查结果看, 评价者用实际看到的搜索结果, 得出的判断更确切、全面。以视频类垂直搜索为例, 只从问题判断, 所有问题中有12%适合视频垂直搜索。但在看完检索结果后再判断, 所有问题中有24%适合视频垂直搜索。其次是把问题背后的意图告知评价者的评价和不告知评价者的评价, 表示出告知问题背后意图时的评价较局限, 不灵活。例如, 当问题为“海南岛”时, 告知检索意图是想知道海南岛的地理位置, 给出正确解释的垂直搜索是地图、Wiki。但是不告知搜索意图时, 也可从图像垂直搜索和动画垂直搜索获得正确解释, 由此可见, 不告知搜索意图时, 评价者的视野更宽泛, 使用正确解释的垂直搜索的种类也增多。除了导航性质的问题, 开展聚合搜索时, 其搜索意图都会涉及多方面。为此, 作为聚合搜索的结果应该输出有多样性的搜索结果, 不告知搜索意图的评价更适合。 (3) 搜索结果的多样性。图卢兹大学的Kopliku等人还对聚合搜索结果的多样性进行调查[3]。调查显示:只适合Web搜索的问题占19%, 只适合垂直搜索的问题占16%, 超过80%的问题适合垂直搜索, 而且65%的问题适合多个垂直搜索。进一步, 对于适合多个垂直搜索的问题最适合的垂直搜索进行调查, 依次是50%问题适合Web搜索、23%问题适合Wiki、10%问题适合Q&A、6%问题适合动画。结论是:进行一个垂直搜索, 不能有多样性的搜索结果;若进行聚合搜索能够实现一个垂直搜索不能实现的多样性。
二、聚合搜索的课题与未来
关于聚合搜索的研究, 近年来比较盛行, 涉及的课题也是多方面的, 其中作为新的方向性的研究, 有新闻搜索的选择方法, 以及用户属性推断的应用。
1. 新闻搜索的选择方法。
为了把随时变化的信息源混入聚合搜索中, 利用者必须知道“现在正在查找什么?”Yahoo!的Diaz提出有效聚合新闻搜索结果的方法。例如, 输入“Yahoo!”这一问题, 以关于Yahoo!的事件为起点, 不是搜索导航性的问题, 而是搜索新闻事件方面的问题, 在这种情况下不能用2.1讲述的方法选择新闻搜索。Diaz提出了把“问题是否突然发生的?”“用该问题进行新闻搜索, 排在顶端的新闻报道是数分钟之前登录的新的报道吗?”作为判断基准。进一步, 从被聚合的新闻搜索结果的点击率, 对是否继续聚合做动态性补充。与Diaz方法相同, 微软也提出了针对最新新闻报道选择新闻搜索的方法。这个方法是利用在最近7日内的新闻报道和博客报道中出现的关键词选择新闻搜索。
Yahoo!的Diaz们进一步提出, 不是把新闻报道和博客报道, 而是把Twitter的微博报道作为选择的方法。假定记述微博的URL是最近关注的新闻和Web页面, 把URL上的报道内容排在上位以表示其重要性。具体说, 以Twitter为对象进行试验, 把URL上报道发送者的Tweet数、Retweet数、Follow数等各类信息输入学习器, 抽出有用的URL。以上这些可以作为选择新闻搜索的指标使用。
2. 用户属性推断的应用。
如果能够推断Web搜索用户的专业性, 即可实现包括垂直搜索的各种应用。根据微软的White等人的调查, 提出从输入Web搜索的问题中, 可以判断出用户是计算机专家、金融专家、医学专家、法律专家的方法。具体说, 就是用输入Web搜索的问题长度、问题中专业术语的含有度、一次搜索提出的问题数、访问Web页面数、对话时间等进行等级分类。有实验报告称对计算机专家的判断, 再现率50%时能达到80%的精准度。而其余三类专家再现率50%时精准度为60%以下。如果判断专家的精准度提高, 可以作为选择垂直搜索的一个要素使用。
摘要:Web搜索引擎的聚合搜索就是将垂直搜索引擎的搜索结果混入Web搜索引擎的搜索结果, 输入到Web搜索引擎的问题是否混入了某垂直搜索引擎的搜索结果是聚合搜索成功的关键。
关键词:搜索引擎,聚合搜索,垂直搜索,评价方案
参考文献
[1]Liu, N.;Yan, J.;ChenZ.Aprobabilistic model based approach for blended search, Proceedings of18th International World Wide Web Conference.2009, P.1075~1076.
[2]http://www.hudong.com/wiki/NAVER (2012-03-02)
[3]Kopliku, A.;Sauvagnat, K.;Boughhanem, M..A user study to evaluate aggregated search.Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence.2011.
基于模块化本体的网络搜索方法 篇9
本体是被共享的、概念化的、明确的规格说明。本体的本质是概念模型, 表达的是概念及概念之间的关系, 其表示的含义独立于具体的环境状态, 是在各种应用主体之间交换意见时所用到的共同语言。本体用形式化语言进行描述, 所使用的概念及对这些概念的约束都有明确的定义, 能够为机器所理解。由于本体具有良好的概念层次结构和对逻辑推理的支持, 在网络搜索引擎中引入本体, 能够通过同义词、相关词扩展用户关键词, 提高查准率和查全率。
1. 模块化本体
在网络搜索引擎中引入本体, 首要的问题是本体的获取, 建立一个包含各个领域的完整通用本体是难以做到的。目前一种方法是以WORDNET为基础, 查找出同义词进行扩展搜索, 然而WORDNET是词语知识而非世界知识, 不包含比词更大的组织单位, 如本体描述中用的框架之类的单位, WORDNET不能深入描述领域概念和概念之间的关系;另一种方法是用开放式分类目录搜索系统 (Open Directory Project, ODP) 的分类法作为本体, ODP目前是网上最大的人工编制的分类检索系统, 采用网民共建方式编制和管理目录。由于ODP是目录式的而并非严格意义上的本体, 使得概念之间的关系仅有子集关系, 没有属性关系、实例关系等, 这就使得ODP的描述能力较弱;另外还有采用某一领域的本体为基础的垂直搜索引擎, 如基于计算机领域本体的垂直搜索引擎, 然而这限制了搜索引擎的通用性。
本研究提出了一个基于模块化本体的网络搜索方法, 该方法所基于的本体不是单一本体, 而是由多个模块构成[1]。一个本体模块可以是一个已建立的某领域本体, 如计算机本体、物理本体、物流本体等。这些本体模块的概念不一定是完全独立的, 有时不同模块中的两个概念可能是指同一个概念, 本体映射在这方面已有一定的研究成果。各本体模块的进化是独立的, 搜索引擎所基于的本体可以集成各领域最新的本体描述。另外, 在构建某个领域的本体时, 采用模块化的思想也是发展的方向, 即领域本体内部也分成若干个相对独立的模块。这样的多层模块化结构便于本体的开发, 有利于各领域专家的分工合作。在本体推理时, 由搜索引擎将推理任务同时交付给各顶层模块, 顶层模块也将接收到的推理任务同时交付给各子模块, 使得各模块或子模块的推理工具并行进行推理, 提高了推理的速度。
搜索引擎基于哪些本体模块, 可以由系统管理员进行选择, 也可以由用户在搜索界面上进行选择或进行定制。通过本体模块的动态加载, 既可以减小本体知识的规模, 也可以灵活地满足不同用户的需求。
2. 关键词和概念的匹配
当前基于本体的搜索引擎主要是使用本体查找出用户输入关键词的同义词, 通过同义词进行扩展搜索;或将用户输入关键词作为概念名, 找出对应概念的上下位概念, 利用上下位概念的名称进行扩展搜索。然而用户输入的是关键词, 而非概念名, 有些关键词所对应的概念名和关键词相同或相似, 但有时用户欲搜索概念的名称和关键词差别较大, 特别在用户输入多个关键词来表达一个概念时。让用户直接输入或选择概念名也是不现实的, 用户对自己欲搜索的概念可能并不了解, 他们习惯于通过输入一个或多个关键词进行搜索。用户友好的基于本体的搜索引擎首先要完成关键词向量到概念的转换。可以为概念设置关键词向量, 在用户搜索时, 计算用户输入的关键词向量和概念关键词向量间的相似度, 计算方法通常采用基于向量空间模型的简单向量距离算法, 该算法的基本思想就是计算两个向量之间夹角的余弦值。取相似度最大的几个概念作为目标概念, 可以用目标概念的其它关键词进行扩展搜索, 也可以利用和目标概念语义距离较近的概念的关键词进行扩展搜索。进行目标概念匹配时, 由搜索引擎将用户输入的关键词向量发送给各本体模块, 采用各领域本体模块并行推理的方式, 各模块分别返回本模块中最相似的几个概念, 再在模块间比较, 得到最后返回的目标概念集。对于目标概念集中的各概念, 如果用户输入的一些关键词没有出现在该概念的关键词向量中, 则这些关键词将作为该概念的候选关键词或将对应候选关键词的频度加1, 当某候选关键词的频度达到界线值时, 将被加入到该概念的关键词向量中, 从而使得概念的关键词向量能动态变化。
3. 搜索结果的聚类
将搜索结果进行聚类, 便于用户快速找到感兴趣的文档[2]。当前网络搜索引擎聚类的方法一般是根据返回文档的关键词向量进行的, 通过计算关键词向量之间的距离将文档分为若干个类并将文档归到不同的类中, 各类的名称由该类中文档的共同关键词构成。这样聚类的结果使得类别不一定是自然的, 和各领域中的概念可能相差甚远。在基于模块化本体的搜索方法中, 可以直接由文档的关键词向量计算它最近似的概念, 由目标概念还可以找到各祖先概念。这样不但能将同一概念下的文档聚成一个类, 而且能根据概念的共同祖先概念或共同属于的模块聚成更大范围的类, 从而形成一个多层聚类结果。这个聚类的结果符合领域知识, 精确而深入。这个聚类的结果同时也是稳定的, 一篇文档在不同搜索中, 都将被聚在同一个概念或它的祖先概念所标注的类中。用户对这个稳定的聚类结果可能也更熟悉, 能快速理解类和展开感兴趣的类。用户可以对这多层聚类按自身的兴趣进行展开, 对于特别感兴趣的底层类, 用户还可以提出对该类的扩展搜索请求, 搜索引擎找到该类所对应概念语义距离较近的概念, 根据这些概念的关键词向量进行扩展搜索。
4. 个性化搜索
不同的人有不同的搜索偏好, 即使他们输入的是相同的关键词, 也可能是指不同的含义。个性化搜索是指对作为搜索结果的文档进行排序, 把用户最感兴趣的文档排在前面, 综合考虑两个因素决定文档的重要性:文档和用户输入的关 (下转第7页) 键词向量的匹配程度以及文档和用户兴趣的相关程度。对于用户偏好的表述, 目前主要是记录用户搜索记录中经常使用的关键词, 返回搜索结果时将文档的关键词向量和用户常用关键词向量进行距离计算, 距离短的表示用户更为感兴趣。同记录用户常用关键词不同, 文献[3]提出了基于本体的偏好表述, 每个用户有一个本体实例, 本体实例中每个概念用一个分值进行标注, 代表着用户对该概念的兴趣度。文献[3]的方法是基于单一本体的, 用户的本体实例要包括所有的概念, 然而一个用户在整个本体中只对一个较小的部分感兴趣。引入模块化方法后, 表达用户兴趣的本体实例中只包括一个或几个相关模块, 由于采用多级模块机制, 对那些用户没有兴趣的模块或子模块整体标注为零, 可明显减小用户轮廓文件的大小。一个模块的兴趣度等于模块内各概念兴趣度的总和, 在对搜索的返回结果进行聚类时, 可方便地根据模块的兴趣度进行顶层分类的排序, 当用户选择某一个分类时, 再按照兴趣度的排序展开下一级子模块或概念。用户轮廓文件也是动态变化的, 根据用户点击的文档和在该文档上浏览的时间调整相应概念的兴趣度, 使用户的兴趣轮廓文件能够跟踪用户兴趣的变化。
5. 结束语
提出了一个基于模块化本体的网络搜索方法, 该方法能够集成现有各领域本体, 并通过并行推理提高本体推理的速度。通过计算用户输入关键词向量和概念关键词向量的距离, 能够挖掘出用户搜索的目标概念。对搜索结果进行聚类能够方便用户浏览, 而根据概念进行聚类更加自然、稳定, 且对多层聚类的支持性好。通过标注概念的兴趣度和仅重用相关本体模块, 能够用一个较小的用户轮廓文件表达用户的兴趣, 提高个性化搜索的效率。
摘要:基于本体的搜索引擎能对搜索进行关键词扩展, 从而提高搜索的查全率和查准率。由于单一通用本体难以获取且推理效率低, 该研究提出了一个基于模块化本体的网络搜索方法。本体的模块化有利于领域专家的分工合作, 各模块并行推理能够提高推理的速度。对该方法中关键词向量和概念的匹配、搜索结果的聚类以及个性化搜索进行了分析, 并阐述了该方法的优点。
关键词:本体,模块化,搜索引擎
参考文献
[1]Rector A.Modularisation of Domain Ontologies Implemented in De-scription Logics and Related Formalisms including OWL[c].Florida, USA:Proc.of the Second International Conference on Knowledge Capture, 2003, 121-128.
[2]苍宏宇, 谭宗颖.聚类搜索引擎发展现状研究[J].图书情报工作, 2009, 53 (2) :125-128.
搜索方法 篇10
一、犯罪现场搜索的模式
大多数基本的搜索模式都采用几何方法。常见的六种基本搜索模式包括直线搜索法、网格搜索法、螺旋搜索法、辐射搜索法、区域搜索法和关联搜索法。由于这些搜索模式简便易行, 它们通常也是最富有成效的搜索方法。
(一) 关联搜索法
关联搜索法是最有成效也最常用的一种犯罪现场搜索方法。这种方法建立在试图发现犯罪现场、被害人、犯罪嫌疑人和物证之间存在的关联。犯罪现场勘查人员运用这种方法仔细分析犯罪现场之后, 按照一定的逻辑顺序系统地搜索该区域, 从而收集可能与某个犯罪行为或者活动相关的物证。犯罪现场搜索并非随意进行, 相反, 要依据从犯罪现场上发现和观察到的情况, 结合犯罪现场勘查人员的经验, 运用合理的概率和简单逻辑推理逐步地搜索犯罪现场。
例如, 在郊区堤坝底部发现了一具年龄为20多岁的女性裸尸。在已有的少量数据的基础上, 勘查人员根据逻辑推理认定该现场是第二现场。在制定了足迹和轮胎痕迹的搜索计划之后, 勘查人员可以沿着尸体和潜在逃逸路途之间的路径, 或者在该路径的附近区域开始搜索。如果尸体上没有发现裤子、衬衫、鞋子或者钱包, 这就表明这些东西已被犯罪行为人从她身上脱下或者取走。这些被脱下的衣服要么被遗留在第一现场, 要么被抛弃在第二现场, 要么被犯罪嫌疑人拿走。
在很多案件中, 关联搜查法是普通逻辑方法的一种实际运用。例如, 如果在犯罪现场发现大量的血迹, 犯罪现场勘查人员应当寻找受伤的人, 如果被害人被刺伤。犯罪现场勘查人员就应当搜索造成这种伤害的凶器。
(二) 直线搜索法
室外犯罪现场的范围可能较大, 由于存在植物、水以及各种地形地物的遮蔽和掩盖, 搜索工作就会面临很大的困难。另外, 由于没有确定的目标区域, 因此, 如果没有一定的搜索模式, 就难以系统地搜索室外犯罪现场。最简单, 同时也是最有效的一种搜索模式是直线搜索法, 该方法就是将犯罪现场划分成一系列的线形或者条形区域。首先, 将该区域划分成矩形, 然后, 搜索小组成员以一定的间距排成直线, 通常是一臂左右的距离, 再沿直线进行搜索, 从而发现其前进路径上的任何证据。该种方法也可以被称为带状搜索法。犯罪现场指挥人员要确定搜索的距离, 通常情况下, 标示证据或者给证据贴上标签, 这种做法对于随后的证据处理工作非常有帮助。这种方法非常适合大面积区域的搜索, 例如公园、田野、广场、停车场或者高速公路等。
(三) 网格搜索法
网格搜索法是直线搜索法的衍生方法。根据此种搜索方法, 现场勘查人员应当事先确定一条直线, 然后在同一区域内确定与前一条直线垂直的一条直线。搜索者沿着第一条直线, 按照直线搜索法的方式进行搜索。在沿着第一条直线完成搜索之后, 搜索者进行调整, 沿着另外一条直线开展搜索。因此, 运用网格搜索法可以对同一区域搜索两次。另一个优点是由两个不同的人搜索同一区域。虽然这种方法要多耗费一些时间, 但是更彻底、更系统。
(四) 区域搜索法
如果犯罪现场由数个易于划分的区域构成, 那么, 以系统的方式集中地搜索这些区域会取得事半功倍的效果。
现场勘查人员可以使用很多技术开展区域搜索。如果由经过训练的犯罪现场勘查人员小组进行搜索, 则整个小组的人员可以同时在特定的区域进行搜索。例如, 如果犯罪现场包括私人住宅, 犯罪现场勘查人员可以同时进入同一房间, 作为一个联合小组记录、搜索和收集所有相关的证据。对于犯罪现场的主要区域, 建议使用这种搜索方法。然而, 如果犯罪现场附属范围内存在很多区域, 则可以把联合小组的人员分开, 每个成员负责特定区域的搜索工作。如果选择这种方法, 建议由两个不同的犯罪现场勘查人员对一个特定区域搜索两次。犯罪现场勘查人员应当确定搜索的范围和所要寻找的证据种类。这有助于确定在进行区域搜索时选择更为合适的搜索方法。区域搜索的优点在于可以选择优先针对某个区域进行搜索。
(五) 圆周辐射搜索法
使用辐射搜索法搜索的犯罪现场一般是形状大致为圆形的犯罪现场。犯罪现场勘查人员从关键点开始沿着多条直线向外前进, 或者从该点开始沿着放射线方向前进。搜索的范围越大, 这种搜索模式就显得越发力不从心, 因此, 这种方法通常仅仅适用于一些特殊的犯罪现场, 并且适用范围十分有限。
(六) 螺旋搜索法
与辐射搜索法相似, 螺旋搜索法也将犯罪现场视作一个圆形区域。常用的螺旋搜索法有两种, 一种是向心螺旋式搜索法, 另一种是离心螺旋式搜索法。
向心螺旋式搜索法是指, 犯罪现场勘查人员从犯罪现场外部边界开始, 朝向关键点环绕犯罪现场开展搜索。每环绕一周, 圆的直径就逐渐减小一些, 直至到达中心点。相反, 离心螺旋式是从关键点开始向外环绕。这两种方法有赖于犯罪现场勘查人员在一定的区域内遵循特定模式开展搜索的能力。因此, 在搜索过程中, 犯罪现场的有形障碍可能会给搜索工作带来困难。螺旋搜索法一般适用于犯罪现场搜索的特殊情形。但是, 使用这种方法存在一定的危险, 当搜索人员走向中心点准备开始搜索时, 可能会破坏物证。
二、犯罪现场搜索的实际运用
在侦查实践中, 任何单一的犯罪现场搜索模式都无法解决所有种类的犯罪现场勘查问题。因此, 有经验的犯罪现场勘查人员必须对犯罪现场的特殊障碍、现有的设备和资源、搜索的范围、想要或者希望得到的证据等方面进行全面的评估, 从而选择适当的搜索方法犯, 罪现场物证搜索的步骤和阶段需要严格地遵循基本的科学原则和搜索方式。通常情况下, 现场勘查人员都需要综合采用多种搜索方法, 关联搜索法可以与其他任何一种几何搜索模式结合使用。
除了上述传统的搜索模式之外, 还可以运用特殊的设备或者方法进行犯罪现场搜索。
接受过证据识别训练的警犬小组是非常重要的资源。警犬可以被训练用来检测毒品、助燃剂和爆炸残留物、腐败尸体和带有物证的物品。经验表明, 警犬具有超常嗅觉灵敏度, 用来检测助燃剂的警犬可以发现浓度为百万分之几的助燃剂。纵火案件的犯罪现场勘查人员已经开始应用很多类型的嗅探器和探测仪器, 并取得了一定的成功。因此, 结合犯罪现场搜索方法开展工作, 现场上存在的即使是微量级别的证据物质也可被发现。
在大多数案件中, 犯罪现场勘查人员仅有一次搜索原始犯罪现场的机会。因此, 最初的搜索过程必须彻底而又准确。当犯罪现场勘查人员存在合理的理由认为可能忽略一些痕迹或者物证时, 则应当采用组织有序的搜索模式再次搜索犯罪现场。审慎细致的搜索是获得重要物证的必要条件, 在现有的方法都已经应用于犯罪现场搜索之前, 不要放弃犯罪现场, 应当指派警察24小时保护犯罪现场, 直到所有的现场处理工作完成为止, 否则, 初步搜索工作所发现的证据的法律完整性就可能由此遭到破坏。
犯罪现场勘查人员应当记住:犯罪现场上任何形式的活动都可能导致证据被改变或者被破坏。因此, 如果需要大量搜索人员, 尤其是需要大量未经过训练的搜索人员参与搜索, 只有在初步记录工作以及证据的收集和保存工作完成之后, 才可以进行现场搜索。同时, 上述工作还应当遵守法律程序的规定。如果在随后的搜索中发现了新的证据, 应当按照有关的程序规定记录、收集和保存该证据。
摘要:物证搜索在现场勘查中和在实际应用的重要作用。根据实际情况灵活运用六种物证搜索方法发现物证, 分析犯罪现场形态、物证的位置和状态, 为侦查工作提供宝贵的侦查信息, 在犯罪嫌疑人和犯罪现场之间建立起关键性的关联。犯罪现场物证搜索的步骤和阶段需要严格地遵循基本的科学原则和搜索方式, 审慎细致的搜索是获得重要物证的必要条件。
关键词:搜索,勘验,物证搜索,科学分析,实际应用
参考文献
[1]万立华.法医现场学[M].北京:人民卫生出版社, 2012:11-43.
实时搜索将成新的搜索战场 篇11
新浪、腾讯、百度……无论是否能够抢得先机,也不管是不是专业的搜索企业,未来恐怕都得在实时搜索的技术或产品上下下功夫。
近日,《MIT技术评论》评选出了“年度十大新兴技术”,其中实时搜索位列头名。Google走后,中国内地市场一直存在着对百度一家独大的担忧,但是在对实时搜索的探索过程中,中国现有的几大搜索平台却是各有千秋。
三年前,MySpace、Facebook等SNS网站风生水起,人们第一次发现SNS网站正逐渐变成实时信息的聚散地。随后,Twitter的兴起更是引领着互联网进入了全民生产微内容的时代。而微内容价值的体现在于有用信息立体化的呈现,这在一定程度上推动着实时搜索的发展。
在Web 2.0时代的市场混战中,海量的微内容带给搜索引擎巨大的利益。如今,无论是哪家的搜索引擎,在做实时搜索时首先想到的就是微博内容。可以说,微博是搜索引擎实现实时搜索不可缺少、也是最方便的捷径——微博内容的实时性是任何媒体都无法比拟的,每秒几十万条的信息量,无论是传统的门户网站还是博客、论坛,都无法与之媲美。微博内容的实时性、传递信息的时效性已经远远超过了任何一种媒体,要想搜索到实时内容,不靠微博靠什么呢?
为了抢占市场先机,Google、Bing、Yahoo等搜索巨头先后进入了实时搜索领域。Google第一个实现了搜索实时化,通过与Twitter、FriendFeed、Facebook、MySpace、新华网、网易、新浪等微内容生产平台和新闻网站的合作,为广大用户提供实时信息的搜索。据了解,在目前Google的日均查询总量中,对Twitter信息的搜索已达到9%。接着,Bing也紧随其后,与Twitter 和Facebook等签订了合作协议,推出了实时搜索的服务。
从国内市场来看,新浪、腾讯、搜狐、网易等门户网站微博如火如荼的势头,也为其发展实时搜索增添了几分底气。网易有道率先在国内推出实时搜索,其信源包括门户网站微博、论坛、贴吧等; 同属搜狐旗下的搜狗和搜狐微博,前者将后者内容整合进去,实现实时搜索的初级功能也是易如反掌的事情; 至于腾讯,尽管其微博目前还在内测,但搜搜已经脱离Google推出自己的内核,未来结合也没有什么不可能。
为应对挑战和竞争,百度也在今年初在新产品“贴吧地图”中融合了百度贴吧与百度地图两种产品形态,力求将地图、贴吧、微博产品实现有机结合。虽然目前国内实时搜索市场的争端尚不明显,但各门户都拥有丰富的信息源和自己的搜索技术优势,相信未来门户与百度这样的搜索提供商之间将很快展开实时搜索的竞争。
然而,值得注意的是,实时搜索最艰巨的工作并不是收集数据,真正的困难在于,如何搞清楚稍纵即逝的微信息的意义和价值。社交网络的信息很可能在发布后的几分钟内失去价值。随着你关注的人越来越多,谁的平台能够让这些庞杂的信息条分缕晰,一目了然,谁就有可能成为新的“Google”和“百度”。
搜索同质异能态的一种简便方法 篇12
由于在重质量丰中子核区存在许多核的结构和衰变性质方面的迷人现象, 所以越来越引起人们对其研究的兴趣[1,2]。特别, 重丰中子核的合成和研究对天体物理的探讨可以起到重要作用[3]。
重丰中子核激发态的研究有助于检验远离β-稳定线的核模型。而同质异能态付与核结构有价值的信息, 因为它们的独特性质[4]。
1问题的提出
2003年, 我们进行了一次185Hf衰变性质的实验, 用14 MeV中子轰击天然钨, 通过186W (n, 2p) 产生185Hf。实验过程中, 由186W (n, p) 反应, 也产生了大量的186Ta。在分析γ谱时, 发现186Ta的衰变γ射线随时间的变化关系与文献[5]呈现的结果不一致。当时, 经反复核查我们的探测系统, 确认没有问题。这个现象引起了我们的关注, 给我们提出了一个问题, 在我们所观测到的衰变曲线中, 除去来自186Ta基态β衰变的γ活性外, 是否含有来自它的激发态衰变的成份?
关于186Ta的文献资料不多, 186Ta的半衰期测量的报道主要有两篇文章[6,7]。Pathak等[7]1970年发表的文章, 吸引了我们的注意力。他们利用14.8 MeV 中子照射186W同位素及光谱纯的钨粉末, 通过 (n, p) 反应产生186Ta。然后用GM计数器进行测量, 经过β射线活性的观测获得186Ta的半衰期是10.5 min。图1显示他们所测得的β射线随时间的变化关系以及对其所进行的分解。图1中的β射线衰变曲线, 与我们观测到的何等相似。在他们分解出的两个分量中, 其中10.5 min的一个是186Ta的半衰期, 另一个1.6 min的分量可能正好就属于186mTa。只不过可惜的是, 他们把它误指认为185mW, 为什么说它们的指认是错误的呢, 因为185mW是一种100/100 同质异能跃迁 (IT) 的核, 不可能发射β射线, 所以在β射线活性的观测中, 它不会出现。
2实验基本思想的形成
前面所述现象启发了我们, 这给我们揭示了一种很好的方法, 可以利用我们现有的不是太好的实验条件寻找同质异能态。前面提到的我们所做的实验, 是根据185Hf的具体情况进行的, 很不适合186Ta。因此, 所看到的186Ta的衰变γ射线随时间的变化关系是比较模糊的, 不能得出确切的结论。而在Pathak等[7]所观测到的如图1所示的衰变曲线是经过β活性的观测获得的, 由于β射线为连续谱, 不能区分它是来自哪个核, 所以不能完全确定, 图1中的1.6 min的分量一定就属于186mTa。综上所述, 结合我们的实际情况, 形成了我们以一种简便方法寻找186Ta同质异能态的实验基本思想是, 通过14 MeV中子轰击天然钨而引起的186W (n, p) 反应产生186mTa连同186Ta。利用γ (X) 谱学方法, 经由已知186Ta的γ射线随时间变化的观测, 来搜索未知短寿命的186Ta的同质异能态186mTa。如果186Ta的γ射线随时间变化偏离已知的半衰期10.5 min的衰变规律, 则可以说明这些γ射线中可能包括一个186mTa的贡献。而且, 还可以从186Ta的γ射线随时间变化来确定186mTa的衰变模式, 若186Ta的γ射线随时间变化是增长-衰变型, 则186mTa为IT型。若186Ta的γ射线随时间变化是双组分型, 则186mTa为β-衰变型。然后, 再对所测得的衰变曲线进行拟合, 从而得到186mTa的半衰期。
3实验过程
对于钽所在的这个重丰中子核区, 裂变产物是接近不了的, 而快中子引起的 (n, p) 反应则是产生它们的很有效的反应机制[6,7,8]。186mTa连同186Ta是利用14 MeV中子照射钨通过186W (n, p) 反应产生的。
实验是在中国科学院近代物理研究所的600 kV高压倍加器上进行的, 14 MeV 中子是由氘轰击TiT 靶通过T (d, n) 4He反应产生的。实验所用的靶子是~100 mg/cm2 厚的钨粉, 这个靶厚的选择, 一方面是考虑到靶子不能太薄, 以产生足够数量的目标核。另一方面, 靶子又不能太厚, 致降低X射线在它里面的损失。钽的放射性同位素就是由14 MeV中子照射这种靶子而产生的。为了有效地降低长寿命活性的积累, 我们准备了尽量多的靶子, 以保证每一块钨靶只照射一次。为了降低186Ta的强度, 尽量突出短寿命分量而可能观测到它, 照射只进行4 min。这样, 也可以降低杂质中长寿命活性的积累。照射后, 用改进了的靶辐照传输系统把它们传送到铅室里, 用以测量。在照射结束20 s后使用如下探测器开始进行测量: 1) 一台小平面高纯锗X射线和低能γ射线探测器, 它的能量分辨是对57Co 的122 keV 线为580 eV, 它的有效直径和灵敏层深度分别是32 mm和10 mm; 2) 一台由四个同轴N型锗探测器组成的CIOVER 探测器, 其中, 每个有25% 的效率和2.1 keV的能量分辨 (对60Co的1 332 keV线) 。这两个探测器的选择是非常有特色的, 鉴于由186Ta衰变而来的KX射线的能量在60 keV以上, 因此, 在满足能量分辨的前提下, 选择了适当大的X射线探测器, 以提高探测效率。CIOVER 探测器的采用, 其对探测效率提高的贡献, 除表现在单谱测量中外, 由于四个探测器之间的交叉符合效应, 它的特殊作用表现在符合测量中。把这两个探测器面对面地放在铅室里并置于源的两边。测量持续了27 min以适合186Ta的半衰期[5]。用多参数数据获取系统记录γ (X) 射线单谱事件和三参数γ (X) -γ-t符合事件, 这里, t是每个事件在一个记数周期开始之后的时间。为了增加统计, 上述过程重复进行了多次。
4结果
在照射过程中, 分别通过 (n, 2n) , (n, γ) , (n, p) , and (n, α) 等反应产生了钨、钽、和铪的一些放射性源。图2给出在这个实验中测得的γ射线单谱。分析图2的γ谱可知, 谱中除包括一些放射性杂质像179W、179mW、 185mW、 187W、 182mTa、184Ta和183Hf等的γ射线外, 186Ta的γ射线是清楚可见的[5]。在图2中, 有6条比较强的186Ta的γ射线是挺干净的, 它们的能量分别为197.9、307.5、417.7、615.3、737.5和739.2 keV。我们仔细地跟踪了这6条γ射线, 它们的衰变曲线给于图3。很明显, 图3中的衰变曲线包括两个组分。利用分析双组分放射性衰变的计算机程序拟合如图3所示实验上测得的衰变曲线, 提取出两个组分的加权半衰期分别为 (1.5±0.1) min和 (10.4±0.4) min。其中, 较长的一个属于186Ta, 与文献值符合得很好[5,6,7]。而较短的一个应当来源于186mTa β-衰变。为了排除大量杂质的影响, 除了单谱外, 还仔细分析了X-γ符合谱。结果表明, 实验过程中所产生的全部杂质放射性, 都不会影响我们的实验结果。
5结论
因为同质异能态具有基态所没有的独特性质, 它们能付与核结构的有价值的信息。我们试图借助于已知186Ta的γ射线的观测, 来搜索未知的186mTa。实验证明, 这个想法是可行的。为了排除大量杂质的影响, 除了单谱外, 还仔细分析了X-γ符合谱。与此同时, 指出先前实验未能发现186mTa的原因。从而, 肯定了我们的实验结果, 测定186mTa的半衰期为 (1.5±0.1) min。
参考文献
[1] Meissner F, Hild T, Kunze V, et al. Allowed-unhindered β decay of 180Yb and the nuclear structure of 180Lu. Phys Rev, 1995; C51: 1558—1561
[2] Al-Garni S D, Regan P H, Walker P M, et al. Evidence for a high-spin β-decaying isomer in 177Lu. Phys Rev, 2004; C69: 024320-1—024320-12
[3] Meyer B S, Howard W M, Mathews G J, et al. Beta-delayed fission and neutron emission calculations for the actinide cosmochronometers.Phys Rev, 1989; C39: 1876—1882
[4] Genevey J, Ibrahim F, Pinston J A, et al.Identification ofμs iso-mers in the fission products of241Pu (nth, f) .Phys Rev, 1999;C59:82—89
[5] Baglin C M. Nuclear data sheets for A=186. Nucl Data Sheets, 1997; 82: 1—186
[6] Poe A J. Radioactive 186tantalum. Phil Mag, 1955; 46: 1165—1168
[7] Pathak B P, Murty K S N, Mukherjee S K, et al. Decay of Ta186 to levels in W186. Phys Rev, 1970; C 1: 1477—1490