搜索引擎用户数据库

2024-06-04

搜索引擎用户数据库(共8篇)

搜索引擎用户数据库 篇1

近年来,我国的移动互联网技术得到了充分的发展,这使我国的互联网运营商面临着一个新的发展机遇,开始走向话务量经营向流量经营的道路,并对用户的行为规律进行深入分析,发掘市场与广大用户的真实需求。为了能够充分满足用户日新月异的需求变化,运营商必须不断开发、推出新产品,加强计算机技术的功能发挥。而云计算技术正是这样一种能够满足海量数据分析与处理的强大引擎系统。

1 云计算技术下的大数据用户行为引擎系统设计

1.1 总体构架

在本次研究中,主要是利用云计算技术的海量数据计算能力,建立完善的移动互联网数据挖掘分析系统,实现对互联网用户行为引擎的分析,并根据用户的上网习惯与行为偏好,为用户提供具有针对性的个性化服务,使数据的采集、分析与服务类型、营销策略能够形成一个统一的有机整体,提升企业的营销效率。另外,云计算系统主要是借助FTP服务器来实现对数据的采集,然后在系统的接口处对数据进行分布式计算以及批量处理,并将这些大数据一并存入Hbase数据库,该系统不仅能够实现海量数据存储,而且对于那些非结构化的数据也能够存储[1]。然后再经过Hive整合层与汇总层EIL处理,利用Ma⁃p Reduce数据分析模型,将处理的结果传入数据库,其系统总体构架见图1 。

1.2 系统拓扑与功能分布

系统的拓扑主要是指将一台服务器作为Hapdoop平台的主节点服务器,其他都作为Hapdoop平台的从节点服务器。一般情况下,从节点服务器可以根据实际需要进行动态扩展,而主节点服务器不仅要将任务与流量分配给从节点服务器,而且还要监督从节点服务器的工作执行情况,由多台从节点服务器共同参与完成任务,能够提升数据处理效率,主节点服务器的软件运行情况如图2所示。

将所有汇聚到系统的移动互联网用户行为数据进行分析,主要借助了Map Reduce用户行为分析模型资源,能够对用户的上网习惯、偏好,甚至包括用户的社会关系进行有效的分析,并提供全面的业务服务,给用户推荐具体的内容。一般来说,从节点服务器与主节点服务器在软件的结构上没有太大的差异,唯一不同的是从节点服务器不具备部署任务以及管理调度的功能[2]。以搜狗公司数据分析为例,根据第三方互联网数据统计机构CNZZ公布的2015年9月的中国网民搜索引擎使用情况统计报告,搜狗搜索的市场份额已经达到15.68%,成为中国第三大互联网搜索公司,其用户行为数据分析格式如表1所示:

2 用户行为分析大数据入库组件设计

通常,对移动互联网用户的行为分析引擎的数据主要是通过应用平台数据与DPI数据两个渠道获取的,这两个数据源有着明显的不同。首先,应用平台数据比较集中,在一个访问行为表中就能够完整的呈现,每天表现为一个文件,且文件的大小以GB分级;DPI数据则是众多分散的小文件,这些文件一般都不超过10MB,其最重要的一个特点就是文件的来源特别快,平均每2min就能够接收到多个新文件,大约一个省一天可收集到1TB左右的数据量,效率极高。针对这两种数据源的特点,分别采取了不同的设计方案。在获得用户访问基本数据信息的情况下,对这些数据进行统计分析,能够从中获取用户行为的基本特征与规律。采用Hadoop平台的用户行为分析系统对搜狗实验室提供的搜索引擎日志数据集进行分析处理,源文件大小共4.4G,行数为43545444行。用户查询关键词的排名、点击URL排名以及用户搜索记录、时间段等用户行为特征都能够有效的呈现出来,详见表2。

2.1 应用平台数据入库

该平台主要采用的是批量入库的方式,每天进行一次数据入库,文件的大小一般为GB级。通常对于大型数据文件多采用Hadoop平台进行入库,然而经过实践证明,Map Reduce分布式处理Hbase入库效率普遍不高,因此,可对这一系统进行优化处理,在Map Reduce分布处理的基础上,进而实行批量入库处理。在Hadoop系统应用过程中,多使用Text Input Format,其在map中多显示的是文件的单行记录[3],因此,可采用NLine In⁃put Format类使其能够在Map REduce中实现批量入库,在这种系统的支持下,每个分片都会留下N行记录,然后通过适当的参数配置,实现每次可读取N行记录,进而在map中行批量入库的相关操作,能够在一定程度上提升数据分析的效率。

2.2 DPI数据入库设计

DPI数据入库主要针对的是大量的小型数据文件,这些文件尽管所含数据量不大,但是数据来源的频率特别高,对这些文件的处理有中方式。首先,可采用Sequence Files软件将这些小文件进行压缩打包,在文件打包的初期就要采取措施降低小文件的数量。然而,对其读取却会受到一定的限制,无论是Ha⁃doop shell软件还是Map读取软件,都很难实现对数据的灵活读取。而采用HAR软件对小文件进行归档,这尽管能够在一定程度上减少小文件的数量,却仍然达不到数据的灵活读取,这很大程度上是由于HAP软件的读取性能较低。另外Hadoop append系统尽管能够将这些小文件追加到同一个文件中,然而,这些小文件的大小千差万别,且数据来源频率广,有峰值与低谷之分,因此,对这些数据的控制也较为繁琐。除此之外还有Flume、FLume NG以及Scribbe系统,这些系统能够对中间层的数据进行处理,有效降低小文件的数量,然而这两者传输与压缩文件功能不强,具有一定的缺陷。由此可见,以上这4 种方式都不能实现数据文件的有效处理,因此,要对DPI数据的特征进行科学分析,对Combine File Input Fornt进行有效继承,将数据的分片大小进行设置,以便实现Create Record Reader,这种方式也能够促进DPI大数据实现入库[4,5]。

3 结语

随着我国社会主义现代化建设的不断发展,我国的计算机信息技术取得了卓有成效的进步,并由此进入一个信息时代,使人们的生产与生活方式发生了一系列的变革。然而随着信息多元化与多用户模式的出现,传统的计算机信息技术已经不能够满足人们的需求,开始转向对云计算技术的开发与应用。云计算技术下的大数据用户行为引擎设计,能够对用户形成高效的跟踪,且运行成本低廉,在企业的营销中有着极大的应用价值,值得推广应用。

参考文献

[1]谢晓頔.大数据环境下云计算分布式数据管理和分析技术工具的研究[J].科技风,2015(19):51-51.

[2]王宁,杨扬,孟坤,等.云计算环境下基于用户体验的成本最优存储策略研究[J].电子学报,2014,42(1):20-27.

[3]尹天骄.云计算时代下的数据管理技术探讨[J].计算机光盘软件与应用,2015(3):179-180.

[4]李晓飞.基于云计算技术的大数据处理系统的研究[J].长春工程学院学报:自然科学版,2014,15(1).

[5]李进生,杨东陵.云计算环境下大型电气数据库存储性能分析与优化[J].电气应用,2015(6).

互联网专属引擎提升用户体验 篇2

高清视频普及,技术保障先行

高清已成为互联网视频行业中的发展焦点,视频行业对用户体验提升的强烈渴望,促生了基于Adobe FMS 3.5技术的CDN流媒体加速平台,既在网络传输速度上保证了高清视频的流畅播放,更在视频内容版权保护上提供了崭新的技术手段。

网络加速为用户体验带来新天地

以往用户欣赏高清视频主要通过完全下载来实现。缓慢的下载速度使得对于高清大片的渴求变成了不断的煎熬;由于受到网络传输速率的限制,在线视频如何保证网络用户的高清视频体验一直困扰各大视频网站。

基于FMS3.5视频流媒体服务平台采用了Adobe Flash Media Server流媒体加速系统,使得高清视频的诸多典型应用如:H.264编解码、AAC音频格式、图形硬件加速功能等都提供了完善的支持。

至此,用户欣赏高清视频时摆脱了以往因传输速率缓慢造成的延迟或无法正常播放等情形。由于应用FMS3.5视频流媒体服务的播放平台并不会在本地产生缓冲源文件,对视频版权将会进一步控制,使得相关视频内容提供商提升了行业形象,用户端较容易产生的版权被侵害现象将得到明显的改观。

互联网“引擎”

互联网行业对于技术创新的渴求从未中断,每一项技术都会从单一行业应用开始,通过完善自身逐步升级,生产出适合不同行业的多种解决方案,而成为推动行业发展的引擎,则更需要不断的创新突破。例如CDN技术极大提升了网游和视频内容的用户体验,使得短时间内用户群体快速扩大;虚拟化技术引发的技术创新和服务创新,推动着互联网基础服务全面升级。互联网的多元化应用时代,不仅仅是视频行业,诸如电子商务,网游,社交网站等新兴热点行业无疑都需要成熟且高效的网络加速解决方案。FMS3.5视频流媒体加速服务正是具备了上述必要条件,不仅仅是视频网站,凡需要更高效传输技术,对于用户体验有着更强需求的互联网行业都是这一加速服务平台的应用对象。

CDN通过新技术不断创新,从提升用户体验出发,进一步满足互联网多行业、多种类型的网络加速需求,将全力打造符合行业发展的互联网专属引擎。

APC机架式电源切换开关

2009年10月20日施耐德旗下的APC公司宣布,推出2U 32A的机架式电源切换开关新晶AP7724。输入输出均为230V,净重6.86kg。输出接口为IEC 320 C13和IEC 320 C19,具有过载保护功能。

AP7724电源切换开关的优点包括配有电流监测显示功能,可令管理人员通过数字显示屏了解每个配电单元实际电流总量。管理人员能够收到可视警告,避免当实际电流接近插线板最大安培限值后引起线路过载。新品还具备全功能的网络管理界面,用户可以通过Web、SNMP和Telnet.三种方式对系统进行远程登陆、配置和管理。另外,用户也可以通过快捷的网络下载方式升级固件程序。该系列产品线的输入输出规格比较丰富,包括为不同规格插座提供120V、208V或230V的电力供应,以适应不同的供电需求。产品具备双电源输入,可为连接设备提供冗余交流供电,两条交流线路设计可以保证在主交流供电出现故障后,系统可以自动切换到备用的交流供电。而信息显示功能可以显示出交流供电状态以及哪条是主供电线路、负载目前由哪条线路供电,用户通过信息显示,能够掌握负载端的供电电流情况。在不必连接设备的前提下,用户还可以快速掌握电流以及输入电源的状态。

CTP技术创商机

2009年10月13日,柯达图文影像集团携手广州奇先印刷设备有限公司、威誉印刷设备深圳有限公司召开了“金融危机,用CTP逆市创商机”的应用技术研讨会。会议围绕着:随着印刷行业竞争的日趋激烈,企业的利润日渐微薄。并呈现出:少印量的订单持续增长,印刷工价越来越低,要求交货速度更快,对质量的要求也越来越高等发展趋势。在“适者生存,不适者被淘汰”的严峻环境下,CTP技术以其可以提升印刷生产各个环节的效率、安全的自动化生产、降低时间和资源的浪费、提高生产过程的透明度、印刷质量提升等优势越来越受到印刷企业的关注这一主题展开讨论。

搜索引擎用户数据库 篇3

关键词:图像搜索,元搜索引擎,基于用户,批量搜索

现代人的生活离不开搜索引擎,每天都有大量的用户访问搜索引擎网站,像百度,Google[1]等。目前互联网上的搜索引擎大部分都是面向全体用户的,它们服务的目标性较弱。在将来基于用户的搜索引擎必将更加受欢迎,它不仅能根据不同的需求提供不同的服务,而且还可以尽可能地优化搜索资源,针对特定的用户提供特定的服务。

基于用户的图像元搜索引擎是以用户为主体,根据用户的需求和搜索习惯调用元搜索引擎的内部资源,更加快速地展现给用户个性化、智能化的搜索结果。

批量化图像的搜索将是未来图像搜索的发展趋势之一,它摒弃了传统的搜索方式。在传统搜索模式中,用户只有在得到上一个搜索结果之后,才能提出搜索请求进行下一个搜索。在搜索过程中浪费了大量的时间,并且搜索结果也没有进行有效融合。批量搜索有效节约了时间,当第一个搜索结果展示给用户时,后台已经在对其他需要搜索的内容进行搜索,最终展示给用户的结果是综合对多个搜索需求的融合考虑。

传统的元搜索引擎往往比较注重搜索结果融合阶段处理,文章[2]提出一种基于主题信息与相关度相结合的结果整合算法,该算法综合考虑了主题信息与成员搜索引擎之间的相关度,主题信息与查询结果之间的相关度等因素。文章[3]提出用模糊积分思想进行结果排序,该算法能够解决信息提取和处理过程中的不确定性。本文提出的元搜索引擎不仅注重在搜索结果融合阶段加强处理,更加注重在搜索请求预处理阶段进行处理。事实证明本文设计的元搜索引擎在搜索请求预处理阶段花费时间较长,但总的来说缩短了整个搜索过程的时间。

1 搜索引擎结构设计[4]

基于用户的批量化搜索引擎是根据文本元搜索引擎进行改进设计的,综合了元搜索引擎的多种优点。该搜索引擎的结构如图1所示。

图像元搜索引擎主要分为三个部分,用户接口模块、元搜索引擎模块、搜索引擎库模块。用户接口模块负责将用户的搜索请求传递给元搜索引擎和将最终的搜索结果展现给用户。元搜索引擎模块是整个搜索引擎的核心部分,它包含请求预处理子模块、推荐引擎子模块、搜索处理子模块、结果融合子模块以及知识库。知识库是元搜索引擎的大脑,具有学习,分析,处理,判断的能力,指导整个搜索过程顺利工作。搜素引擎库模块储存大量个体图像搜索引擎。

2 基于用户服务的实现过程

在实际生活中,根据图片的主题一般会将图片分成多类,例如有风景、人像、事物、纪实、新闻、婚纱等等。根据图片在计算机中的数据存储格式,又有JPEG、GIF、PNG、TIFF、BMP、EPS等等。每一张图片都可以归分到其中的某一类或者几类,对于不同类别的图片使用不同的搜索引擎进行搜索会产生不同的结果。

针对个体图像搜索引擎在搜索的图像侧重点不同,产生的效果大相径庭。例如,搜索引擎库中的淘淘搜和搜图网等是面向网购用户的,它们在搜索衣服,鞋,包等物品时效率较高;TINEYE、GAZO-PA和INCOGNA[5]等是依据色彩和形状特征进行搜索,在风景,人像等方面有较强的搜索效果。在每一次图像搜索过程中,针对图片的类别会调用搜索引擎库中的某几个搜索引擎。具体的调用方案是根据图像的类别调用合适的搜索引擎。

基于用户的图像元搜索引擎给每一名注册用户分配一片存储块,用以记录用户最近几次的调用搜索引擎的参数。每个存储单元中存储着一次搜索引擎的调用方案。例如,假设图像元搜索引擎的库中共有N(N≤12)个独立图像搜索引擎,则分配一个16位的存储单元:

前面12位用来记录搜索引擎的具体调用情况,也就是对应搜索引擎库中第1、3、4、8、9、10个独立搜索引擎被调用。后4位用来统计近期这种调用方案的调用次数。由最近经常被使用的调用方案在接下来的一次调用中可能再次被调用的理论,我们将接下来的搜索先使用近期被调用次数最多的方案。经过搜索处理之后,若发现该调用方案适合本次搜索,则将该方案的统计次数加1;若该方案不适合本次搜索,则将本次搜索的最终使用方案与用户存储块中的方案进行比较:若存在该方案,对应的统计次数加1;若不存在,则将存储块中使用次数最少的内存块清空,存储本次搜索方案,并将统计次数设为1。其调用方式可由图2和图3展示。

最不常使用法[6,7]选择过去一个时间段内访问次数最少的数据块,它既充分利用了历史信息,又反映了程序的局部性。

3 批量化搜索的实现过程

传统的搜索都是一次只能搜索一个主题或者是一项内容,当要搜索内容较多时,完成全部搜索过程缓慢。如何同时搜索一批内容将是未来搜索领域的研究重点。在个性化的图像元搜索引擎下,批量图像处理可以实现。

独立的图像搜索引擎或者传统的图像元搜索引擎一次只可以搜索一张图片,而在个性化的图像搜索引擎中,由于对每一类的图像调用的独立搜索引擎都不同,使得同时搜索不同类的图片成为可能。

假设现在有需要搜索的图片A和图片B,且A和B是不同类的图片(例如,图片A是物品类搜索图片;图片B是风景类搜索图片)。将两张图片同时输入到搜索请求里,则搜索引擎会对图片进行分析,在请求预处理阶段,通过知识库理解和分析,得出图片A的搜素需要调用m个独立搜索引擎,图片B的搜索需要调用n个独立搜索引擎,且

m+n≤N,N为搜索引擎库中独立图像搜索引擎数量;

(m个独立搜索引擎)∩(n个独立搜索引擎)=;即A的调用方案为:

B的调用方案为:

由上可以看出,两张图片在进行搜索过程中,调用的独立搜索引擎互相并无干扰,所以可以同时进行搜索。在整个搜索过程中,时间较传统的搜索方式节约了一半,在提高大批量图片搜索效率方面发挥重大作用。

如果图片A和图片B是同类图片,则它们不能同时进行搜索。是因为他们在搜索过程中调用的独立搜索引擎重复率太高,只能按照传统搜索方式进行处理。

当大批量图片同时被送到图像元搜索引擎中,首先工作的是请求预处理模块和知识库。他们负责将所有图片的独立搜索引擎调用方案分析出来,接着将调用方案互不干扰的两个图片配对起来,同时进行搜索处理。假设这批图片总数量为s个,单个图片的平均搜索时间为t,则如果按传统的搜索方式,搜索完这批图像共需要的时间T1=st。如果利用图像元搜索引擎的批量搜索技术,单个图片的平均搜索时间为t',且。最终需要的时间T2=st',所以。由此可见,总时间T2较T1有大幅减少。当最理想情况出现,即所有图片两两配对时,;当最差情况出现,即没有任意两幅图片配对成功时,T2=T1。

搜索引擎库中的独立搜索引擎的数量为N,规定每张图片在搜索过程中,调用的独立搜索引擎数量不超过一半,则两张图片同时进行搜索处理的概率会大大增加。如果规定每张图片在搜索过程中,调用的独立搜索引擎数量不超过,则同时进行搜索处理能达到三张图片。同理,如果规定每张图片调用的独立搜素引擎数量不超过,则同时进行搜索处理最多能达到四张图片。但是,并不是同时处理的图片越多越好,同时处理的图片数量越多,则每张图片所占用的独立搜索引擎数量就较少,这会影响单张图片的搜索效果。所以在这之间存在着优化关系,在什么时候是最优需要同做大量的实验才能得出结论。

在评价一个搜索引擎的好坏时,我们常常用到查全率[8]和查准率[9]。在这里我们假设令用户满意的查全率为X(0

查全率:[1-(1-p)k]≥X;k≥lg(1-p)(1-X)。

查准率:[1-(1-q)h]≥Y;h≥lg(1-q)(1-Y)。

引擎需求数:min[N,max(k,h)];

最佳分组数:

4 搜索结果的融合

基于用户的批量图像元搜索引擎在处理搜索结果时与传统的元搜索引擎相比具有较大的区别。文章[10]通过提取用户个性化行为特征,建立用户兴趣库,并对搜索结果进行合理排序和整合。本文的搜索结果需要经过纵向和横向优化之后,才将最终结果展现给用户。首先,它是基于用户的,在经过搜索处理得到初级搜索结果后,要判定本次处理过程中调用的方案与上次是否相同,这是纵向比较。如果相同,则这两次搜索的内容相似,在搜索同样的结果的概率较大,最终需要将本次搜索结果结合上次搜索结果进行再次融合,以期望达到最优搜索结果展现给用户。

其次,它同时处理批量的图片搜索。在批量图片中存在着大量的同类图片,它们在搜索结果中存在着或多或少的相关性,这是横向比较。在搜索结果第二次融合过程中必须考虑到同类图片之间的相关性,将相关性较大两张或多张图片的搜索结果进行融合,得到的最终结果才更加全面,准确。

5 总结

图像搜索是未来搜索的发展方向,图像搜索引擎也将在搜索引擎领域占有重要的地位。文章结合基于文本的元搜索引擎的优缺点,提出构建基于图像的元搜索引擎。图像元搜索引擎与独立图像搜索引擎相比,具有搜索范围广,搜索准确度高,搜索使用更加灵活等特点。

在图像元搜索引擎的基础上,又提出基于用户的服务。它针对每名用户提供符合该用户习惯的服务,提高用户的搜素速度,体现了图像元搜索引擎的人性化设计。

在进行大量图片进行搜索时,图像元搜索引擎又提出批量搜索技术。它利用不同图片具有不同的内容属性,同时调用不同的独立图像搜索引擎进行搜索。并分析根据独立图像搜索引擎的搜素效率,同时进行几幅图片进行搜索会有最好的搜索结果。

参考文献

[1]唐培和,杨新论,刘浩.Google搜索引擎剖析.情报检索,2004;8:88—89

[2]刘健,唐小春,晋峰.基于主题元搜索的结果整合算法研究.计算机工程与应用,2010;46(35):156—158,218

[3]李建延.基于模糊积分的元搜索引擎结果排序算法.计算机仿真,2010;27(7):138—140,161

[4]张俊,石志寒,郭新鹏.图像元搜索引擎研究.扬州大学学报,2013;1:48—51

[5] http://playkid.blog.163.com/blog/static/56287260201131384139129/

[6]王小银,陈莉君.Linux内核中内存池的实现及应用.西安邮电学院学报,2011;16(4):40—43

[7]陈少波.一个微内核操作系统中内存管理的实现.价值工程,2011;11(33):141—143

[8]徐群岭.搜索引擎的定性、定量评价研究与合理选择.情报检索,2003;3:32—33

[9]李东园,白宇,蔡东风.面向中文问答的信息检索系统及评测.沈阳航空工业学院学报,2008;26(3):86—89

搜索引擎用户数据库 篇4

近年来,随着互联网行业高速发展,Web Service作为一种新兴的Web应用程序分支,可以执行从简单的请求到复杂商务处理的任何功能。这使得其在互联网领域取得了巨大的成功,并已经渗透到商业领域和个人生活的各个方面。当前,针对网络上充斥的各式各样的Web服务,如何有效的进行服务发现成为一个重要的研究问题。

在各种解决方案中,服务搜索引擎模式因其满足用户的使用习惯以及其方便与Web2.0的融合而受到业界的普遍欢迎。并且据调查,当前在UDDI注册中心中发布的服务中,超过53%的服务已经无效,而通过搜索引擎方式获得的Web服务,其中有92%都是有效和可用的。[1]

随着Web服务搜索引擎技术的发展,如何评价其搜索质量也成为一个亟待解决的问题。评价问题的研究是目前信息检索领域研究的热点问题。上世纪中期,英国Cranfield工程建立了Cranfield评价体系,并应用于信息检索相关研究领域的评价过程中。由于该评价体系的可操作性和客观性,确立了评价在信息检索研究中的核心地位。国际文本信息检索会议是目前国际上最大规模的文本信息检索评测组织,其一直采用Cranfield评价体系,并对Cranfield评价体系自身进行不断地改进和优化。[2]

针对Web服务搜索引擎,使用基于Cranfield评价体系的思想设计评价方案,结合Web服务垂直搜索引擎检索效果评价的特殊性,基于用户Qo S信息进行群体聚类,利用用户查询和点击的行为信息分析,得到搜索的查询集合和结果集合,可以对Web服务搜索引擎搜索效果有一个客观的评价。

论文的组织结构为:第一章介绍相关研究工作,讨论搜索引擎评价研究工作现阶段的发展和存在的问题。第二章针对Web服务搜索引擎分析传统Cranfield适用的场景问题,分析优化方案。第三章基于用户行为分析的数据,对Web服务搜索引擎的自动评价算法给出设计。第四章列出主要结论。

1 相关工作

Cranfield方法直到今天仍然被广泛地应用于包括搜索引擎在内的大多数信息检索系统评价工作中。Cranfield评价体系框架包含四个部分:语料库集合、查询样例集合、查询答案集合和评价指标。不同的信息检索系统首先对相同的语料库集合进行处理和索引;其次,构造查询样例集合,抽取能够表示用户信息需求的查询样例,并提交给各信息检索系统检索;同时,评价人员在语料库中标注出查询样例对应的相关答案文档集合;最后,将信息检索系统返回的检索结果和标注的答案集合作比较,利用相关评价指标对各系统的检索性能进行评价。[3]

在实际的试验中,Cranfield方法并不理想,主要的困难在于查询样例集合和查询答案集合的标注过程。如果使用手动标注的方法的话,面对互联网上海量的数据,使用Cranfield方法将使整个评价周期拉长许多。例如,对于一个规模为800万文档的语料库,进行某个查询样例的标准答案的标注可能需要耗费一个工作人员9个月的时间。[4]另一个问题是,标注人员在针对查询样例集合选择查询答案集合时,受到个人情绪、理解水平等主观因素的影响,查询答案集合仍然是有一定偏差的。

对于Cranfield方法的改进工作主要有两方面:替换Cranfield中人工标注的步骤,使用自动化的方法;使用其他的评价方案来评测搜索引擎效果。针对前者的思想,根据相关统计分析,独立的查询数和用户访问频率之间存在着幂律关系,即少量的高频查询代表了大多数用户的查询请求,而大量的低频查询词只被少量用户提交。因此,需要根据实际用户需求情况来抽样构建查询样例集合。[5]国际文本信息检索会议(TREC)经过多年的研究,提出了结果池过滤(Pooling)的人工标注方法,其主要思想是:对于某个查询,利用多个信息检索系统返回前N个结果,将这些结果放在一起构成结果池列表,对池中的结果文档进行人工标注,判定其和查询的相关性。这种标注方法仍需要相关人员参与,对于信息检索的相关研究来讲,其具有一定的可操作性。但对于搜索引擎来讲,需要评价的查询样例集合较大,评价周期要求短,因此仍难于实际操作。

除了结果池过滤方法之外,还有利用已有万维网资源实现查询答案集合的标注。利用开放目录计划(Open Directory Project,简称ODP,一个利用万维网用户标注万维网资源的项目)所整理的信息资源构建查询答案集合。然而,通过这种方式构建的查询和真实的用户信息需求差距较大,难于大规模应用。

在第二方面的研究工作中,比较有代表性的有IBM Haifa研究院研发的“相关词集合评价方法”。该方法首先选择一定量的代表用户查询需求的查询词;随后针对每一个查询词,手工标注尽量多的与此查询词相关联的词项;在进行评价时,通过待评测文档中关联词项的分布情况判定文档的相关程度及检索结果的可靠性。这种方法在一定程度上解决了评价结果反馈时间过长的问题,但丝毫没有减少甚至增加了相关性标注的难度。同时,词与词的相关程度本身就是一个难以界定的问题。

总的来说,Cranfield方法的思想体系是理论和实践证明过的值得研究发展的,通过自动化标注的方法,对其进行优化也是一个可以考虑的发展方向。与以往研究工作不同的是,本文专注于研究针对Web服务垂直搜索引擎的性能评价方案。在这个特殊场景里,使用Qo S数据和用户行为分析数据对Cranfield方法进行优化是本文的研究重点。

2 服务搜索引擎评价方法分析

2.1 搜索引擎搜索评价分析

在传统信息检索中,衡量系统的基本指标:查全率(Recall)和查准率(Precision),查全率是检索出的相关文档数和文档库中所有的相关文档数的比率;查准率是检索出的相关文档数与检索出的文档总数的比率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。

对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。由于互联网海量信息的特征,查询返回的结果大都非常多,因此目前的搜索引擎系统都非常关心精度。同时,互联网的信息是动态变化的,搜索引擎必须反映这种变化。

简单来讲,搜索引擎要满足用户对信息查询的需求,提高用户的搜索体验。以下是几个比较重要的指标:网页覆盖率,提高查全率,是保证查准率的基础;返回结果的准确性,主要是第一页结果的准确性。大部分用户仅仅察看搜索结果的第一页;重复信息返回的过滤,返回结果应该尽可能不出现重复、类似的结果;网页更新速度,取决于新网页的发现,和死链(指无法访问网页)的及时删除,结果中大量死链和过时信息的链接,将会降低用户体验;搜索服务的响应时间,也就是用户提交检索后得到结果返回的等待时间,一般要低于一秒即可;最后是搜索服务的系统稳定性。

2.2 基于用户行为分析的标注

在上文中,我们提出了依靠用户的查询和点击行为,进行答案自动标注的想法。我们做了这样一个假设,即用户键入的查询在大部分时候还是可以找到满足其需求的结果的,所以,用户对于查询结果的点击行为在一定程度上也是对检索结果的一个筛选评价的过程。

依靠用户行为分析依赖于用户的规模。对于个体用户来说,由于有个人习惯,理解角度等因素的影响,对于结果的选择可能不一定是他最需要的那个结果。但是如果从宏观上看,能满足用户需求的优秀的Web服务应该会被大部分人所接受。其他的用户选择可以作为随机噪声而过滤掉。同时,当用户规模足够大,查询-点击行为足够多时,我们得到的查询样例集合和查询结果集合的映射应该是相当可靠的。

使用Cranfield方法评价搜索引擎时,首先需要解决的问题是构造一个测试样例集合。Andrei Broder[6]指出,用户查询信息时,一般主要包括以下3类信息:

●寻址类查询(Navigational)。用户是要寻找某个特定的网站或者网页。例如“新浪微博”、“淘宝网”等。

●信息类查询(Informational)。用户需要综合若干网页数据才能获取的信息。例如“Web服务发展现状”、“中国钢铁行业发展”等。

●事务类查询(Transactional)。用户需要在网上进行除了阅读之外的某些交互行为。例如“订机票”,“视频下载”等。

实际上,对于不同种类的查询信息,可能会需要不同的检索模型、参数,而评价方法也会随之发生变化。但是在Web服务搜索引擎中,首先,检索出来的Web服务之间基本上没有什么联系,用户一般会使用结果中某个Web服务,而不会把这些服务连起来使用,也即,用户使用Web服务搜索引擎进行检索后,想找到的是最合适的Web服务使用。其次,用户在使用Web服务搜索引擎时,场景一般是这样的:输入查询关键词,在检索结果中根据显示的Web服务信息选择最合适的Web服务,然后根据接口说明编写相应程序完成对Web服务的调用。所以,从以上分析可以看出,对Web服务的查询过程,大部分用户的行为更加偏向于类似寻址类查询的行为。这样,每次查询的结果选择,其正确答案相对唯一,这样用户行为分析的可靠性也能得到保障。这样,根据用户的查询-点击行为,我们容易得到一个查询-最佳答案的映射,使得评价结果相对客观,准确。

在通用搜索引擎中,依据用户行为分析做自动标注并不需要对用户群体做划分,即用户行为是宏观上作为一个统一的整体去看待的。但是,在Web服务搜索引擎中,Web服务的Qo S值是随着用户的位置发生变化的。也就是说,不同的用户即使在查询同一个关键词时,因为地理位置或者网络位置不同,得到的Web服务结果集合中每个Web服务相对于他的Qo S值也不同。而Qo S值是影响检索结果集合排序的一个重要的影响因子。同时,因为用户总是期望得到Qo S值相对好的服务。所以,在使用Cranfield方法时,标注人员所表现出来的Qo S信息差异也需要区别对待,在实际研究过程中,需要针对用户群体进行聚类,并且尽量减少个体点击行为的噪音。

3 服务搜索引擎算法评价设计

在上一章的讨论中,我们已经明确了Web服务搜索引擎的检索过程类似于寻址类信息的查询过程,使用用户行为分析的方法实现Cranfield评价分析是可行的。在Cranfield方法中,为了进行性能评价,必须具备语料库集合、查询样例集合和查询答案集合。在Web服务搜索引擎中,语料库集合就是索引数据库中的Web服务信息,实验数据大概有20,000个Web服务。所以查询样例集合和查询答案集合如何生成成为需要重点考虑的问题。

Web服务搜索引擎基于用户行为分析方法的自动标注过程如图1所示。搜索引擎首先接收用户输入的查询数据,然后对用户输入依照查询数据的特征和用户的QoS信息对查询进行分类,并记录该次查询,放入查询样例集合中。经过搜索引擎检索后,记录用户选取的结果,放入查询答案集合中。最后利用标注的信息对搜索引擎的性能进行评价。

对于Web服务搜索引擎而言,用户的Qo S数据信息会对排序结果产生很大影响,所以用户检索分类这一步与通用搜索引擎最大的区别在于根据用户Qo S数据对用户进行聚类的过程。Web服务搜索引擎系统在实际运行中会在全球若干个不同地点测量Qo S数值,计算出用户的网络坐标,然后根据用户的网络坐标和Web服务的网络坐标,得到用户和Web服务的网络距离,即Qo S数据。最终反映到数值上是一个区间,有效的Qo S数值是在1到10000之间的整数。超过10000的数值即认为服务不可达。

根据服务搜索引擎的特点,可以根据服务和检索用户之间的Qo S信息进行区间分类,以保证在一个区间内部,QoS数值对检索排序结果影响是可以控制的。实际的分类算法采用hash桶算法,将Qo S数值划分成若干个桶区间。当分析某一次检索操作时,根据用户和Web服务之间Qo S数值放入对应桶里,同一个桶内部的检索过程才具有比较性。由此我们可以得到根据Qo S进行分类的算法:

a)对Qo S取值区间进行划分,形成若干区间桶(桶内Qo S数值对排序结果的影响在阀值T以下);

b)从用户查询样例集中选择一次查询,针对该用户在查询过程中服务搜索引擎记录的检索过程用户的Qo S数据,计算其应该放入的桶位置;

c)将该检索过程记录放入对应的桶中保存,然后重复b)步骤,直到所有的样例集都被分类。

搜索引擎性能评价的指标计算我们使用reciprocal rank方法[7]。该方法计算出来的数值表示搜索引擎返回的结果序列中第一个满足用户需求的结果在检索结果集中出现的序号的倒数。例如,返回1,表示搜索引擎返回的结果集中第一个结果就满足用户的需求,1/2表示第二个结果满足用户的需求,以此类推。这个指标比较适合Web服务搜索引擎的性能评估,因为对于用户来说,他需要的Web服务信息通常会有一个最满足他需求的结果。

有时,可能用户需要查看多个Web服务才能判断出最符合需求的Web服务,使用reciprocal rank算法并不一定很好的描述这一状况。于是我们希望找到在用户多次点击情况下最佳的结果。我们需要计算点击集中度[8]数据。点击集中度表示,针对用户某次查询Q,我们定义Target Result为查询关键词Q的用户点击最多的一个结果,而点击集中度Click Focus Rate为Target Result的点击次数与查询Q时的总点击数据的比,如公式3-1所示。在这个概念中,TargetResult实际上是最有可能成为针对特定关键词查询的目标Web服务,也就是我们希望标注的目标服务。

由此,我们提出计算TargetResult并对服务进行标注的算法:

a)从用户查询样例集中选择一个查询,使用Web服务搜索引擎进行搜索;

b)在得到的检索结果集中,筛选出用户针对该查询点击过的查询结果的位置Li(i表示第i次查询);

c)在

  • 这个集合中,找到用户点击次数最多的结果Target Result,计算其点击集中度,如果点击集中度大于阀值W,将其在查询答案集合中标注;否则终止标注过程。

    算法当中提到了阀值W,它的作用是当遇到用户需要查找的Web服务无法显示在前i个结果时的情况,点击集中度无法区分出针对该查询的最佳答案,使用阀值W限制,将其抛出。

    4 结论

    搜索引擎的评价问题一直以来都是信息检索领域核心研究方向之一,其同时也是搜索引擎进行算法改进、系统优化和日常运营维护重要保障。在Web服务搜索引擎中,同样面临着传统的评价方法费时费力、评价周期长、评价不客观等相关问题。通过分析服务搜索引擎提供的检索服务特殊性,本文提出了基于用户行为分析进行自动化标注的方法,并且根据Web服务搜索引擎排序影响因子的特点,提出了基于Qo S数据信息进行样例集合划分的方法,可以比较客观,准确的评价Web服务搜索引擎的性能情况。

摘要:基于垂直搜索引擎设计思想提出的Web服务搜索引擎相比传统的UDDI服务发现方法能更好的满足用户对于Web服务查询的需求。随着服务搜索引擎技术的不断发展,如何评价其检索效果成为提高服务搜索质量的核心问题。本文提出了一种基于用户行为分析对Web服务搜索引擎进行自动性能评价的方法,并且根据Web服务特点,提出了基于QoS数据信息进行样例集合划分的方法。通过对用户的查询和点击行为分析,推导出针对特定查询集合的检索结果集合,并将两个集合之间自动建立映射。通过分析Web服务搜索引擎的搜索效果,评价本文提出的方法与人工标注的方法的对比,基于用户行为的评价算法能够对服务搜索引擎进行较客观的评价。

关键词:计算机应用技术,Web服务发现,用户行为分析,服务搜索引擎评价

参考文献

[1]ELGAZZAR K,HASSAN A E,MARTIN P.Clustering WSDL documents to bootstrap the discovery of Web services[A].ICWS2010-2010IEEE8th International Conference on Web Services[C].Miami,FL,United states;2010.147-154.

[2]费巍.搜索引擎检索功能的性能评价研究[D].武汉:武汉大学,2010.FEI W.Research in Search Engine User Behavior Based on Log Analysis[D].Wuhan:Wuhan University,2010.(in Chinese)

[3]HARTER K,STEPHEN P.CAROL A.Evaluation of Information Retrieval Systems:Approaches,Issues,and Methods[J].Annual Review of Information Science and Technology(ARIST),1997,v32:3-94.

[4]VOORHEES E M.The Philosophy of Information Retrieval Evaluation[M].Gaithersburg MD20899USA:Springer Berlin Heidelberg,2002.

[5]余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[A].第三届学生计算语言学研讨会论文集[C].中国中文信息学会,2006.YU H J,LIU Y Q,ZHANG M,et al.Research in Search Engine User Behavior Based on Log Analysis[A].SWCL2006[C].Shenyang:CIPSC,2006:217-222.(in Chinese)

[6]BRODER A.A taxonomy of web search[J].ACM SIGIR Forum,2002,Volume36Issue2:3-10.

[7]OLIVIER C,DONALD M.Expected reciprocal rank for graded relevance[A].Proceedings of the18th ACM conference on Information and knowledge management[C].New York:CIKM,2009:621-630.

搜索引擎用户数据库 篇5

用户兴趣模型是实现搜索引擎个性化服务的起点, 也是搜索引擎个性化服务的基础和核心。用户兴趣模型的质量直接关系到个性化服务的质量, 用户兴趣模型与用户的检索需求相结合可以更加逼近用户“真实”的信息需求, 通过对检索结果进行过滤和筛选, 可以提高搜索引擎的搜索精度。

1 现有用户兴趣模型的不足

信息过滤技术是对个体对象进行信息筛选、过滤, 信息过滤更注重用户的长期兴趣需求。早期的用户模型是信息过滤技术中的一个核心问题, 当时的用户模型是用来建立个性化人机界面的。个性化人机界面是一个接口部分, 它提供用户与系统的交互接口, 个性化人机界面与用户进行交互, 在交互的过程中学习用户的行为, 并学习用户对事务进行处理的经验, 以对用户将要出现的新行为或新动作做出反应。

当前, 通用的信息检索系统对用户本身的个性需求没有给予较大的关注, 它们大多通过改进当前的检索模型、优化信息处理过程等方面的工作来提高检索的准确性。这类搜索引擎系统中没有考虑到用户的检索行为、历史, 用户也不能方便地发现其最新兴趣偏好点。用户兴趣模型是用来描述用户潜在兴趣需求的模型, 其主要功能是捕获用户查询需求及其兴趣偏好, 同时记录、管理用户兴趣偏好。在信息查询系统中引进用户兴趣模型, 有助于为用户提供个性化的信息查询服务, 以实现自适应信息搜索。由于用户兴趣模型可以定位用户的信息需求, 因此可为用户提供主动的个性化信息服务。

现有的个性化服务系统在某些方面已经取得了较满意的效果, 比如服务的个性化、智能化、自适应性等, 但仍然存在一些不足之处:①个性化程度不高;②用户兴趣描述文件可存放在服务器端、客户端或代理端;③用户的兴趣可划分为近期兴趣和长期兴趣;④用户模型中对用户兴趣信息的学习效率较低;⑤用户兴趣模型更新较慢。

2 个性化搜索引擎中的用户兴趣模型

2.1 用户兴趣模型的基本结构

不同知识结构的用户对文档相关性的判断和对检索结果的要求是各不相同的, 即使同一个用户, 在不同的时期其兴趣的侧重也是不同的。用户兴趣模型是为用户提供个性化服务信息检索或信息过滤系统的核心组成部分, 它能够获取每个用户不同的信息需求, 跟踪用户的兴趣与行为, 因此对每个用户需要分别建立用户描述文件, 也即个性化服务文件, 该文件用来保存用户的兴趣偏好。

目前, 发掘用户兴趣主要有两种方式:显式获取和隐式获取。显式获取是指用户主动提供自己的兴趣偏好, 进而获取用户的个性化向量;隐式获取是通过用户访问的相关信息来更新用户的个性化向量。一般的个性化系统采用显式和隐式相结合的方式建立用户兴趣模型, 即在用户主动提供的显式个性化向量的基础上, 通过用户浏览的网页和用户对搜索引擎检索结果反馈的信息建立和更新用户的兴趣向量, 并通过对用户的浏览行为进行观察, 更新用户兴趣模型。考虑到用户短期兴趣和长期兴趣的不同, 在建立的用户兴趣模型中, 应该根据用户短期兴趣和长期兴趣来不断更新用户的兴趣模型。用户兴趣模型的基本框架如图1所示。

由图1我们可以看到, 用户兴趣模型的基本结构主要包括以下几个方面:

(1) 用户兴趣的量化。首先要将用户对搜索引擎检索结果的反馈信息和用户的页面浏览行为进行量化处理, 以便后续的定量处理。

(2) 信息预处理和特征量的提取。对定量后的用户兴趣量进行各种处理、例如各种噪声点的处理, 去除无用的信息等。

(3) 建立短期用户兴趣模型。根据提取到的用户特征量建立用户兴趣模型, 该用户兴趣模型根据用户短期的兴趣信息, 建立相应的短期用户兴趣模型。

(4) 建立长期用户兴趣模型。对获得的用户兴趣、用户的兴趣量进行更新和优化, 利用Web数据挖掘中的各种挖掘方法挖掘用户更深层次的兴趣偏好。对用户兴趣模型进行更新, 得到用户最终的长期兴趣模型。

2.2 用户兴趣模型的特征提取

文档表示向量中词条ti的选取及其权值Wi*的评价称为特征提取。特征提取是利用向量空间模型进行信息检索的关键步骤, 特征提取采用何种策略算法以及策略算法的优劣将会直接影响到用户检索查询的效果。其权值W*i的评价需要大量样本文档, 这些样本文档依据特征项对文档内容贡献大小经过多次统计而完成。各词条在不同的自然语言文档中所呈现出的频率分布是不相同的, 可根据各词条的频率特性用统计的方法进行特征提取。从基于VSM的用户兴趣偏好目标表示可了解到:用户兴趣关键字pi及文档词条ti的确定、兴趣偏好权重及词条权重的计算是用户兴趣偏好库建立的关键。目前较常用的一种方法是基于词频统计的TF-IDF算法。

基于词频统计的TF-IDF算法是一种基于文本的Web内容挖掘方法。在TF-IDF算法中规定, 文档词条的重要性正比于词条的文档内频数, 反比于训练文档集中出现该词条的文档频率, 进而可以构造词条权值评价函数:

undefined

W*ti为文档D中词条ti的权值, tfi表示词条ti在文档D中出现的频率, idfi为反转文档频率 (文档集合中含词条ti的文档的数目) , 其中:

undefined

其中, N为用于进行特征提取的全部训练文本的文档总数, ni是在样本文档集合中词条ti至少出现一次的文档个数。将式 (2) 代入式 (1) 中, 可得到式 (3) :

undefined

从式 (3) 中我们可以看到, tfi的值和 W*ti的值成正比;ni值和W*ti值成反比。也即是说, 此算法可以保证整个文档中低频率的词条也可能具有较高的权值。

2.3 用户兴趣模型的建立

初次使用系统时, 检索系统中的用户模型是非常简单的, 用户可以在分类信息中大致选择自己的兴趣偏好, 系统根据用户所选择的结果形成不同的用户个性化向量, 并用这些个性化向量来表示用户的各种不同的兴趣偏好。

用户兴趣模型可以由以表示用户兴趣的关键字为主题的对象组成, 每个对象都有一个权重值, 权重值越高, 表明该用户对该关键字的信息越感兴趣。其中, 每个关键字对象的权重值的计算方法已经在上一节中作了详细说明。根据兴趣模型的基本框架, 可以将用户的兴趣分为偶然兴趣和稳定兴趣或者短期兴趣与长期兴趣。

将用户兴趣关键词对关键词ti的兴趣度定义为关键词在文档中出现的频率, 即Wi* (d) , 也就是用户对该关键词对象的偏好程度。假设用户对某一个关键词对象可能是偶然兴趣也可能为稳定兴趣, 将偶然兴趣即短期兴趣表示为U (Tshort) , 将稳定兴趣即长期兴趣表示为U (Tlong) , 则可以将Web用户的兴趣共同表示为:

undefined

其中, T表示关键词的集合, 大小为n, Tshort表示短期兴趣的关键词集合, Tlong表示长期兴趣的关键词集合, 则兴趣集合为:

undefined

根据用户对单个关键词词条偏好程度的不同, 可以定义兴趣集合中某个词条ti的兴趣度为:

undefined

其中, ti∈T, ti (short) ∈Tshort, ti (long) ∈Tlong, {x, y|x>0, y>0, x+y=1}。

2.4 用户兴趣模型的更新优化

在用户使用系统的过程中, 系统不断地记录用户的使用情况、分析记录的使用情况, 从而不断地修改、完善用户兴趣模型。用户兴趣模型的更新方法可分为兴趣交集淘汰法和兴趣合集归并法两种。两种方法都把用户当前反馈的兴趣向量作为当前的兴趣向量, 而兴趣模型中存储的兴趣向量作为历史兴趣向量, 并将当前获取的用户兴趣向量与历史兴趣向量进行对比。

在一般的用户兴趣模型中, 需要考虑到偶然兴趣 (短期兴趣) 和稳定兴趣 (长期兴趣) 。偶然兴趣一般为用户当前的兴趣, 当用户偶然兴趣信息积累到一定的程度, 就转化为稳定兴趣, 因此, 我们将稳定兴趣作为用户长期存储的历史兴趣, 这样可以形象地描述用户的兴趣偏好特点。

用户兴趣模型的更新优化可以按照如下3个步骤来完成:

2.4.1 获取用户的偶然兴趣

按照规则将偶然兴趣向量添加到用户的最新兴趣向量中, 并剔除较老的用户兴趣向量。

2.4.2 偶然兴趣向稳定兴趣的转变

对于偶然兴趣向量中相对重要的关键词及兴趣度 (权重值) , 把超过一定阈值的兴趣向量转换成用户的稳定兴趣向量, 如式 (7) 所示:

undefined

其中, 阈值为Thresh, 阈值常取均值和标准方差之和, 即Thresh =μ+σ。

2.4.3 更新稳定兴趣

随着时间的推移, 逐步淘汰掉用户不感兴趣的兴趣向量 (关键词) 。通过用户兴趣模型的更新过程, 可以得到更加符合用户需求的用户兴趣模型, 这样也就为系统的智能支持提供更多的帮助。另外, 用户兴趣模型随着时间的推移在不断发生着变化, 可以引入机器学习过程, 对用户的操作记录、反馈信息等进行学习, 不断地更新用户兴趣模型, 从而得到更加稳定、更适合用户的兴趣偏好模型。

3 基于用户兴趣模型的个性化搜索引擎

个性化搜索引擎的关键技术在于用户兴趣模型和个性化检索结果的显示。先从用户界面上的用户交互过程中不断获取用户的兴趣偏好, 然后构建用户兴趣模型, 并对用户兴趣模型进行不断地更新优化, 将用户兴趣模型得到的用户所关注的信息传送给搜索引擎, 使得搜索引擎能检索出用户感兴趣的信息。同时, 搜索引擎对检索到的信息与用户的兴趣模型进行对比, 以获取用户感兴趣页面的排名, 再按照用户对页面感兴趣的程度进行排序, 并将页面个性化地显示出来。其工作原理如图2所示。

参考文献

[1]李伟超, 付永华.一种改进的基于浏览行为的用户兴趣模型[J].电信科学, 2011 (5) .

[2]吴晓, 吕爽, 李丹宁.个性化搜索引擎中用户兴趣模型的研究[C].第三届全国信息检索与内容安全学术会议, 2007.

[3]刘建波.基于Agent的用户兴趣模型的研究[D].沈阳:沈阳工业大学, 2005.

[4]林鸿飞, 扬元生.用户兴趣模型的表示和更新机制[J].计算机研究与发展, 2002 (7) .

[5]郭新明, 弋改珍.基于向量空间模型的用户兴趣模型研究[J].咸阳师范学院学报, 2009 (6) .

[6]COLE CHARLES.Intelligent information retrieval:Part IV.Tes-ting the timing of two information retrieval devices in a naturalisticsetting[J].Information Processing and Management, 2001 (1) .

[7]LEE D L, CHUANG H, SEAMONS K.Document ranking and thevector-space model[J].IEEE Software, 1997 (2) .

[8]徐科, 崔志明.基于搜索历史的用户兴趣模型的研究[J].计算机技术与发展, 2006 (5) .

[9]单蓉.一种基于用户浏览行为更新的兴趣模型[J].电子设计工程, 2010 (4) .

[10]李峰, 裴军, 游之洋.基于隐式反馈的自适应用户兴趣模型[J].计算机工程与应用, 2008 (9) .

基于百度搜索日志的用户行为分析 篇6

随着人们生活水平提高,互联网趋于爆炸式增长。搜索引擎已经成为人们生活中的必需品,人们通过搜索引擎来解决生活、情感、工作和学习中遇到的问题。搜索日志记录用户查询过程,包括查询内容和点击频次以及URL等丰富信息。如何通过对日志分析来改善搜索引擎的质量,已经成为当前重要研究方向。

2011年12月中国搜索引擎市场研究报告[1]指出,截止到2011年第三季度搜索引擎用户规模已经达到了3.96亿,在庞大用户群体中百度用户渗透率达到了98.3%,搜狗用户渗透率为45.8%,是国内使用最多的两大搜索引擎。因为搜狗搜索日志数据开放得比较早,所以基于搜狗开放日志的用户行为分析研究比较多,而基于百度日志的用户行为分析研究比较少。本文主要对百度开放日志进行分析。

1 国内外研究现状

国外对搜索引擎日志研究起步比较早,二十世纪九十年代开始研究。文献[2]对大型商务搜索引擎日志进行分析统计,揭示了在英文搜索引擎中查询串长度等规律。文献[3]指出查询串重复是普遍存在的。文献[4,5]通过查询串和URL点击关系,来进行查询扩展和推荐研究。文献[6]通过对日志挖掘研究查询串和点击网页之间的关系。另外,Google推出了两款基于搜索引擎日志分析的应用产品Goole Trends和Goole Insights,利用这两种工具可得到某一个查询串被检索次数随时间变化的规律。

国内对搜索引擎日志研究起步比较晚,文献[7]通过对Sogou日志统计,总结出查询长度、查询频度等规律。文献[8]对中文搜索引擎中的查询串进行分析,发现查询串的长度及结构连续多年保持稳定,在网络搜索引擎中使用的词汇具有很强的集中效应。文献[9]对北大天网搜索日志进行分析,URL点击表现出明显的局部性,用户查询分布具有良好的自相似性。文献[10]引入中文分词技术对中文搜索引索日志进行了分析,提出了用户搜索词模型,给出了历史搜索结果影响因子算法。文献[11]对给定查询建立了相近查询回归模型。文献[12,13]从语法角度出发,使用机器学习方法对日志中查询串进行结构和功能识别。

2 百度开放日志介绍

2011年12月中国搜索引擎市场研究报告[1]指出,百度是全球最大的中文搜索引擎,有3.77亿忠诚用户,有1.6亿高度忠诚用户,用户平均单日使用搜索引擎3.1次。由此可以推算出百度每天将产生6-7亿条日志记录。

百度公司开放了2010年某一时间段内的108520856条日志记录。每条日志的格式为“Query:用户在搜索框中输入的查询串t Title:查询返回结果中用户第一次点击的页面标题t URL:用户点击的页面链接”。例如“北京大学欢迎访问北京大学主页http://www.pku.edu.cn/”。

在百度开放日志中Query与Title之间用Tab键分开,Title与URL之间也用Tab键分开。下面将对用户输入的Query、点击的URL以及使用高级检索情况进行分析。

3 百度开放日志分析

3.1 查询串分析

百度开放日志中的查询串通常包含汉字、英文字母、数字以及下列特殊字符:“,”、“?”、“《”、“》”、“(”、“)”、“·”、“'”、“:”、“.”、“+”、“″”、“!”、“”、“-”、“———”、“;”、“[”、“]”、“/”、“【”、“】”、“<”、“>”、“<<”、“>>”、“=”、“#”、“&”、“%”。根据包含成分不同,可以分为四类。第一类为中文查询串,至少含有一个汉字,还可以含有0至多个数字或者特殊字符。第二类为英文查询串,至少含有一个英文字母或数字,还可以含有0至多个特殊字符。第三类为中英文查询串,至少含有一个汉字和一个英文字母,还可以含有0至多个数字或特殊字符。不符合以上三种情况的称为第四类查询串。第四类查询串共有78505个,主要为日韩和一些非常规字符,由于数量出现的少可以忽略不计。统计结果如图1所示,从图中可以看出中文搜索引擎还是以中文查询为主。同时也发现本文统计结果与文献[10]统计的搜狗开放日志查询串分布(见图2)有一定差别,明显的可以看出百度开放日志里中英文查询串比例是后者的二倍。

3.1.1 查询串长度分析

每个查询串由一个或多个“查询小串”构成,相邻的查询小串之间由空格隔开。

对查询串进行统计,有94939904个查询包含1个查询小串,占全部查询的87.49%;有10483312个查询包含2个查询小串,占全部查询的9.66%;有3097640个查询包含3个或3个以上查询小串,占全部查询的2.85%。平均每个查询含1.16个查询小串,比文献[2]指出的英文搜索引擎中用户平均输入2.35个词要少。这与中文用户很少输入空格有关。那么在百度开放日志里英文查询串平均长度会不会接近2.35个词呢?统计结果表明平均含有1.35个词,还是小于2.35个。对其进行分析,发现在中文搜索引擎中输入的英文查询串与传统意义上的英文查询串不同,它们大多为网站域名、游戏名称、汉语拼音组成的字符。例如“youku.com”、“tudou”、“cf”、“shijiebeikaimushizhibo”,很少会出现“system volume information”这样的查询串。所以在百度开放日志里英文查询串平均长度小于英文搜索引擎里查询串平均长度就很正常了。

本文使用中科院计算所提供的ICTCLAS50分词工具并结合搜狗实验室提供的互联网词库作为词表,对中文查询串进行分词,然后进行统计。结果表明在中文查询串中用户平均输入3.29个词,比英文搜索引擎中2.35个词要高。中文查询串中词个数分布如图3所示。从图中可以看出在一个查询中用户数输入2、3、4个的词的情况比较多。

在统计结果中“世界杯”出现了1776147次、“高考”出现了863086次、“答案”出现了806815次,造成这些高频词的出现的原因,是受一些突发事件、或者是周期性事件的影响。根据“世界杯”、“高考”、“答案”等热门词,可以大致推断本文所使用的百度开放日志数据为2010年6月前后抽样所得。

以字为单位对中文查询串进行统计,查询串平均长度为6.73个字,有89.6%的用户输入2-10个字,超过16个字的查询不足2%,说明百度限制查询串长度是有根据的。从图4可以看出,用户输入4-8个字的查询最多,考虑到在汉语中含有双字词的情况比较多,这样字的统计结果与词的统计结果就比较一致了。

3.1.2 查询串频次分析

百度开放日志中查询串去重后得到静态查询串30107399条。被检索次数较多的查询串称为高频静态查询串。有80%的静态查询串被检索过一次,超过90%的静态查询串被检索次数小于4次。其中2214条静态查询串被检索次数大于2560次,占静态查询串的0.0073%,但总计被检索次数达到了22582881次,占总检索次数的20.8%。高频静态查询串被检索次数占总检索次数的比例,如图5所示。从中可以看出10%的最高频静态查询串被检索次数占总检索次数的70.8%。统计结果表明在搜索引擎中用户输入查询串重复性很大,其中10%的最高频查询串就能覆盖70.8%的查询请求。

表1是百度日志中十大高频查询串,可以看出搜索引擎用户对电子商务越来越感兴趣,此外像视频类、游戏类、社交类等都是人们所关注的焦点。

3.2 URL分析

URL是搜索日志的重要组成部分,它记录了用户点击的网址信息,代表了用户的需求。URL分析包括网页深度分析和网页点击频次分析。

3.2.1 URL网页深度分析

网页深度是指网站可以访问的网页层数。通过URL地址包含“/”个数来进行深度区分,例如:一级网页http://www.sina.com.cn/;二级网页http://sports.sina.com.cn/nba/等等。

统计结果如图6所示。本文统计结果与文献[14]统计的搜狗开放日志URL深度分布有一定差别,在搜狗开放日志中三级网页被点击次数最多,其次为二级网页和四级网页。而本文统计结果表明一级网页访问量最大,二级网页紧随其后,而几乎很少有用户点击九级深度以上网页。这表明互联网用户习惯通过搜索引擎找到网站入口也就是一级网页,然后在逐级选择应用或查找信息。对热门二级网页进行分析发现它们大多是关于问答方面的网页,其中百度知道被点击了10723887次,大约占二级网页总被点击次数的1/3,其次是搜搜问问、百度百科、爱问知识人、天涯问答。这说明越来越多的互联网用户通过网络来解决生活、工作、学习中遇到的问题,用户之间相互给予解答,使用户和用户之间建立了紧密联系,打破了传统问答模式。通过收集用户群体智慧来解问题,已经成为人们一种新的学习、生活模式。

3.2.2 URL点击频次分析

对百度开放日志中URL去重后得到非重复的26370604个URL,发现比查询串去重后少,造成这一现象的主要原因是用户输入的查询串不同,但是他们的查询目标可能相关,这时他们会点击相同的网站。例如,不同用户分别输入“K53”和“Z61”,但是他们都点击了火车网。

如图7所示,73%的网页只被点击了1次,90%的网页被点击不超过3次。互联网中存在大量低频访问网页,网页点击频次符合Zipf定律。

在高频URL中,http://www.taobao.com/被点击685562次,http://www.xunlei.com/被点击290645次,http://www.renren.com/被点击276038次,http://www.kugou.com/被点击179389次。这表明搜索引擎用户对电子商务、视频、音乐和社交网络感兴趣。

3.3 高级搜索使用情况分析

在国外搜索引擎中,文献[2]发现有超过20%的用户使用高级搜索进行查询,以使返回结果更加准确。但是在百度开放日志中仅有不足0.12%的查询使用到高级搜索功能,如表2所示。书名号是百度特有的精确匹配方法,例如“<<政治经济学批判导言>>的读后感”。

复杂搜索方法很少被用户所使用,人们更希望通过简单的搜索得到有效的信息。

对高级搜索使用情况进一步分析发现一件有趣的事情,几乎所有用户都在错误地使用“-”高级检索。他们真实目的不是为了在返回结果页面中去掉减号后面的词,反而是去强调,例如“重庆龙煜精密铜管有限公司-招聘”、“高考答案2010-四川卷”。通过对上述两个例子分析,发现用户真实目是想看到关于这家公司招聘网页和有关于四川2010年高考答案网页,但是由于用户误使用了“-”高级搜索,使他们不能够得到满意答案,对用户体验方面有消极影响。

4 结语

本文根据百度开放日志分析了搜索引擎用户行为。在用户的输入的108520856条查询串中存在大量重复,10%的高频查询串被检索次数占总查询次数的70.8%,可以从高频查询串入手,挖掘用户兴趣和使用偏好。在中文查询串中,用户平均输入3.29个词或6.73个字。在英文查询串中用户平均输入1.35个词少于英文搜索引擎的2.35个词。在开放日志中73%的网页只被点击了一次,90%的网页被点击不超过3次,表明互联网中存在大量低频访问网页,这部分网页和高频访问网页应该分类进行处理。在中文搜索引擎中用户很少使用高级搜索功能,他们更加喜爱简单方便的搜索操作。

摘要:基于大规模搜索日志进行用户行为分析有助提高搜索引擎的各种性能指标。从三个方面对百度开放日志进行详细分析。首先对查询串长度和频次进行统计,发现查询串中存在着长尾效应,前10%最常用查询串的查询次数占总查询次数的70.8%。其次对URL点击深度和频次进行分析,发现有73%的网页只被点击一次,表明互联网中存在着大量低频访问网页。最后对用户使用高级检索情况进行分析,发现有不足0.12%的用户使用高级检索,表明用户更喜爱简单方便的操作。

搜索引擎用户数据库 篇7

然而, 移动搜索引擎的研究总量远远低于PC端, 研究方法、评价体系大多沿用PC端搜索引擎的方法、体系。其研究着眼于两者的共性, 忽视了移动端独特性的影响, 尤其缺乏对移动端市场与用户特殊性分析、移动用户的需求、行为分析。移动搜索引擎终端和网络都是影响其发展的重要因素, 而用户需求是技术发展的重要引导, 具体分析其规律性将为移动搜索引擎提供优化策略。

一、移动搜索引擎

移动搜索引擎是PC端搜索引擎在移动端的延伸, 也是搜索引擎发展的重要趋势, 其服务的核心是将搜索引擎与移动端结合成符合移动搜索用户需求、检索特点的搜索结果, 从而摆脱固定设备约束和固定通信网络限制, 实现随时随地获取信息。

目前, 移动搜索引擎主要分为:基于浏览器、基于短信、基于手机APP的三大类移动搜索, 移动搜索融合了搜索技术与移动通信技术的两种技术的特点, 与PC端搜索相比的特点在于:1.检索的便利性与便捷性;2.使用简约性和查询准确性;3.移动端用户数量庞大;4.强调用户体验与个性化。

同时, 移动搜索引擎也具有一定的局限性, 如:移动终端输入、输出设备、处理器性能的差异使检索效率容易受到信号的影响, 检索反应时间快慢不均, 搜索引擎服务工作很难为所有终端用户提供同样的服务;另一方面, 大多数的移动搜索引擎需要支付一定的费用, 限制了用户的使用。随着4G网络推广及其他技术的提升, 移动搜索引擎的功能及服务越来越完善, 其发展还需要进一步提高。

二、市场现状

2014年, 中国搜索引擎市场规模为587.2亿, 其中, 移动端搜索收入规模达92.3亿, 占中国搜索引擎企业总收入的15.7% (CNCC) 。搜索引擎运营商收入规模相较于去年增长了197.4亿, 其中来自移动端的增长贡献率 (移动端收入的增长规模/搜索企业整体收入的增长规模) 占到25.1%。移动搜索引擎从流量和商业化两方面都有较大程度的提升, 其重要性不断增强, 移动端收入的增长成为搜索引擎企业收入增长的最大动力。

2014年, 搜索引擎市场结构当中, 百度占比81.8%、谷歌中国占比10.4%、搜狗占比4.0%、360搜索占比2.8%、其它占比1.1% (IRESEARCH) 。与2013年相比, 2014年移动搜索引擎市场整体体现几大趋势:搜搜退出市场竞争, 谷歌份额有所收缩, 百度、搜狗及360搜索的份额均呈上升态势。专家预计, 短期内搜索引擎市场不会发生大的变动, 百度、搜狗及360搜索都还存在上升的空间。移动搜索是目前整个搜索引擎市场的最大变数, 这不仅是移动端市场的问题, 更有可能会影响到整个搜索引擎市场的格局。

移动搜索具有较大的市场潜力, 一方面来自用户需求:我国手机用户人数庞大, 且用户已经熟悉互联网检索和网络信息访问方式, 更易接受和理解移动端搜索。另一方面来自服务商需求:作为搜索引擎运营商及其他期望提高关注度的网站/公司, 移动搜索是待开发的移动新媒体宣传平台, 可以跟踪用户的喜好, 使搜索结果更加可靠。

未来的移动搜索引擎市场充满了机遇与挑战, 相对于PC端搜索, 决定移动搜索份额的因素更多, 移动搜索入口与渠道更加复杂, 使得其竞争环境更加开放。面对不断增长的用户数量, 其个性化和特殊性逐渐凸显, 如何有效的分析市场与用户关系, 预测未来用户群体的变化, 针对移动用户群体的需求、行为、动机等因素, 采取移动搜索引擎特有的设计、优化策略, 则需要对移动搜索引擎用户需求进行深入研究。

三、移动搜索引擎用户需求模型

中国互联网络信息中心 (CNNIC) 第34次《中国互联网络发展状况统计报告》显示, 截至2014年12月, 中国网民规模达6.5亿, 移动网民规模达到5.6亿, 占全体网民总数的86.15%, 手机上网比例首超传统PC上网比例。手机搜索使用率逐年提升, 在新增网民中, 使用手机搜索的用户占搜索用户的70%, 手机搜索已成为新增网民上网搜索的主要方式, 是近两年来移动搜索引擎用户增长的主要来源。手机搜索一方面来自于电脑搜索需求的延伸, 另一方面来自于人们随时随地、各种场景的信息搜寻需求。

从移动端用户的行为来看, 其行为特征主要呈现出碎片化、分散化、长尾化、场景化等特征, 移动搜索渗透到人生活的方方面面, 用户群体正在经历从第三阶段到第四阶段的过渡———分裂和重组过程。对应市场出现分化和整合趋势, 2014年, 搜索市场集中度进一步提升, 百度在搜索市场中仍一家独大, 地位难以撼动;同时, 随着腾讯、搜狗资本合作, 新搜狗整合力量可能会出现, 搜索领域将成为巨头之间的竞争;而谷歌等老牌搜索引擎若没有大的变革, 则被边缘化的趋势会越来越明显。目前很多公司正在进行搜索方面的新尝试, 更多地依靠用户需求及大数据的支持。用户反向定义将成为智能硬件的发展趋势。越来越多的企业意识到用户反向定义产品的重要性, 智能硬件的发展, 最重要的是把用户放在第一位, 向用户开放所有权。真正的用户反向定义, 是一个循环的过程:用户通过产品的体验, 获得对产品的认可, 从而购买和使用产品;用户在使用中, 与同类产品的所有者互相探讨, 对产品提出改进意见, 企业根据用户的意见对产品和功能进行改进;企业根据用户的需求, 重新定义产品。

用户信息检索目的主要涉及获取信息资源和获得信息服务两个方面, 具体包括对信息客体的需求, 以及为了满足这一需求而产生的对信息检索工具 (移动搜索引擎) 、系统的需求和对信息服务的需求。移动搜索与PC搜索在产品形态和用户需求有较大区别, 移动搜索引擎的用户需求除具备与PC端相似的基本检索需求之外, 其个性化及智能化需求、及时化及本地化需求、用户信心与忠诚需求比较突出, 本文期望通过建立移动搜索引擎需求模型反映用户需求变化规律, 体现移动搜索引擎用户需求的独特性 (图1) 。

基本检索需求定义为移动搜索引擎的根本, 是作为一种网络检索工具而存在, 源于用户检索的需要, 作用在于通过检索系统获取信息, 如各种索引、目录、文摘、检索系统和多媒体等, 满足用户对检索需求、检索目的、检索方式、交互界面、检索便捷度、系统稳定性、网站安全等基本要求。其中, 由于用户在移动端使用的目的性极强, 而所期望花费的时间尽可能少, 因此对检索便捷度、检准率以及交互界面的关注度较高。

个性化及智能化是现阶段PC端与移动端搜索引擎用户的普遍需求, 包括个性化、智能检索、信息推送、隐私保护、多媒体检索等。人工智能和搜索技术的发展使得通过对内容索引的关键词进行简单的抓取已经难以满足用户对搜索引擎的期待, 用户希望搜索引擎能针对特定的问题及时动态给出准确的答案。因此, 通过对人工智能技术的运用和用户使用习惯、个人日志记录等信息或数据的融入, 为用户提供具备深度个性化和丰富交互性的服务成为移动搜索引擎发展的重点, 如:检索方式多元化, 语音、手势、图片、二维码等多种搜索形式, 人机互动的方式更加多样化, 优化交互界面设计, 提升用户体验。

用户需求及时化、本地化是移动搜索引擎用户最大的特色需求。移动搜索用户搜索的内容强调极强的目的性、及时性, 如地图搜索、视频搜索、比价搜索等, 因为移动设备便于携带, 且一机一号, 定位位置精确, 用户希望能很快了解自己所处的位置, 附近的餐厅、娱乐场所、团购等信息, 使更加方便地服务用户需求。百度移动搜索引擎综合网页的综合地域特征和相关性计算, 通过移动用户的搜索词、IP地址信息、网页文本中的关键词三个特性, 返回搜索结果, 不仅可以精确到省份、城市级别, 而且可以精确到经纬度标注的地标级别。搜狗希望与腾讯合作试水社会化搜索, 同时融入腾讯大的体系;神马则希望移动搜索不能像PC搜索那样追求大而全, 而是要精准、个性、去PC化。

用户需求的最高级是信心与忠诚, 忠诚度是指半年前首选使用某搜索引擎的用户中, 现在仍选择首选使用某搜索引擎的比率。搜索引擎公司都在致力于开发更个性化、智能化、多样化、全面化的搜索引擎工具, 目的是吸引更多用户使用搜索引擎, 并说服用户相信某搜索引擎的性能与服务。基于信心与忠诚, 用户能更方便快捷的选择所需要的搜索引擎, 节省时间、提高效率。

移动搜索引擎用户需求模型的各个层级依据满足程度的提升而爬升至更高的阶段, 这是需求规律的推动, 与马斯洛需求理论有异曲同工之意。随着低层次需求的满足, 用户会产生更高层次的需求, 不断交替与递升, 基层需求是高层需求的基础, 高层需求是运营商所需要努力的方向。需求层级变化中, 最高层次满足用户的忠诚和相信, 需要用户经历多次的低层次需求的满足, 慢慢的累积构成对某一搜索引擎的品牌忠诚。评价移动搜索引擎的最终目的是为了更好满足用户需求, 依据用户需求层次构建模型, 将更加贴切的反应出用户的需求和行为, 为优化移动搜索引擎建设提供合理和更具实际意义的策略。

四、移动搜索引擎发展策略

(一) 基本检索功能是基础, 需牢牢把握

一个产品的发展需要把握其本质, 如果脱离了这个本质, 产品就会成为“无根之木、无源之水”, 移动搜索引擎的存在是满足用户随时随地便捷地检索信息资源的需求, 任何附加功能或服务的提供都要以此为前提。而基本检索能力的提高和完善将是一个不断丰满的过程, 如检索方式的多样化、个性化, 在未来或可能成为用户的基本需求, 因此, 尤其要不断提高检准率、便捷性、友好性等各项指标。

(二) 个性化、智能化是重点, 需不断完善

搜索引擎将推出更多的搜索形式, 改变用户搜索习惯, 占领更大的市场份额。相比之前依赖于传统的文字输入, 随着移动互联网的兴起, 其他一些新型输入方式的出现也对搜索引擎提出了更高的要求。近两年用户在使用二维码扫描输入和语音输入的用户比例大幅度上升, 不管是从二维码的认知度还是使用率上都保持着较高的水准。2014年, 越来越多的用户、尤其是儿童在用语音和图像表达搜索需求, 语音图像搜索量增幅超过移动搜索大盘。

(三) 及时化、本地化是趋势, 需抢占先机

用户高时效性需求越来越多, 对本地资源需求不断提升, 在选择结果时更倾向于选择本地、最新内容。如地图服务:手机搜索用户中有56.6%的用户在过去半年中使用网络地图搜索过信息, 明显高于PC的43.0%。其中, 用户在进行手机地图搜索时最常用的是百度地图, 常用率为66.3%, 是及时化、本地化需求的最强体系, 将移动搜索与位置信息融合, 根据用户的地理位置提供搜索结果, 从而催生更好的生活服务。移动搜索的人机互动形式将变得多样, 生活服务、教育培训和新闻资讯是未来的三大需求缺口, 将成为移动搜索用户需求的重要体现点。

(四) 获得用户信心与忠诚是目标, 需致力实现

与国外相比较, 我国不论是各类产品还是企业的品牌建设都相对落后, 品牌意识比较淡薄。但最近几年, 随着经济全球化脚步的快速向前, 大部分企业都意识到品牌这种无形资产的重要性, 开始创建并维护品牌。虽然Google逐渐被中国市场边缘化, 但是其品牌影响力还是很大, 依靠的是其强大的前端引流, 如Chrome、IOS系统等设置Google为默认检索工具, 因而在初中国外的市场中占有强大的地位。

建立品牌形象, 吸引用户、增加用户黏性, 需要通过多方面实现。用户首选的移动搜索引擎, 部分选择来自电脑检索习惯的延伸, 而手机预装搜索引擎、浏览器默认也是用户选择移动搜索引擎的重要来源。搜索引擎APP和浏览器是移动搜索引擎最主要的直接入口, 决定这些入口的前端入口———手机助手、应用商店、运行系统、输入法等设置对移动搜索引擎的选择至关重要。通过多样化的前端产品引流、通过社会舆论与媒体宣传、通过前三阶段需求的满足与未来需求的把握, 都能进一步提升用户对搜索引擎的信心。

五、结语

搜索引擎用户数据库 篇8

针对用户行为进行分析,结合用户行为日志和用户检索日志[2],挖掘行为日志中潜在的“搜索关键词”,与用户检索日志构成新的关键词集合,来分析计算关键词集合中的关联规则,生成权重字典,提高搜索查询排序的结果的准确率。

1 用户访问日志的挖掘

1.1 构建用户行为模型

从原始行为日志中分离出用户会话和标记会话中出现的页面类型与行为类型,通过代码设计来提取相关数据(如用户访问的商品信息、检索词语等),统计页面访问时刻与持续时间等,最终建立“状态–行为”模型[3,4]。在“状态–行为”模型中,提取3个关键的方面来刻画用户行为:序列模式、时间偏好、内容复杂度,这里把它们形式化地描述为STC模型:{Sequence,Time,Content}。

S:序列模式(Sequence),即用户访问页面的序列特征。该特征是多方面的,可能是用户访问不同页面之间的先后关系,也可能是用户访问序列的起始页面或终止页面。

T:时间偏好(Time),用户的访问行为在时间上的特征。页面停留时间,即用户在不同类型页面上的停留时间。

C:内容复杂度(Content),一次会话中用户访问的商品种类。内容复杂度可通过访问的商品数与类别数来近似。

1.2 用户行为日志的挖掘框架构建

传统数据分析相对简单,数据通常以文件或数据库中元数据的形式组织,然后对其进行抽样选择,并利用分类算法和预测算法来预测数据对象的离散类别和连续取值。大数据挖掘是一个知识自动发现的过程,在没有明确的目标前提下,从不同数据源获取数据,先进行预处理,再大量使用机器学习与人工智能算法对这些数据进行挖掘分析。电商用户数据挖掘着重解决这样一个问题:在大数据中,分析各用户群体的特点,进而分析用户个人特点,获得有价值的知识和商业价值。针对电商用户数据挖掘体量大、类型多、效率快等特点,使用如图1所示的用户数据挖掘框架。

2 权重字典的生成

判断两个词是否相关,常用方法是计算两个词的关联词的公共部分比例,公共部分的比例越高,相关性越强,相关性取值也就越高。例如“联想电脑”的关联词包含“戴尔电脑”和“华硕电脑”等围绕电脑主题的关键词,也包含了以联想品牌为主题的关键词,如联想音响、联想耳机等。与“联想”主题关联词相比,“电脑”主题的关联词与“联想电脑”的相关性更高。提出的方法是结合用户的行为对上述相关性计算做进一步优化,基于将上述构建的用户行为模型中挖掘的信息与用户直接提交的检索串联系起来,构成一个新关键词集合,即扩大了关键词的关联范围,也使得关联词的权重以及范围更准确。例如在搜索“电脑”之前,已经搜索或长时间浏览过“背包”,那么在“电脑”搜索过程中,“电脑背包”这个关联词也出现在以“电脑“为主题的关键词中,且相关性紧密。

通过上述分析,采用线下挖掘用户行为数据,并将挖掘的结果与用户提交的检索串,构成一个关键词集合,计算挖掘该集合中关键词关联规则,获取关键词的关联词并生成权重词典。线下关联挖掘主要有3个步骤:数据源的收集,关键词的关联挖掘,权重字典和数据文件的生成。

2.1 数据源的收集

线下关联挖掘的语料库来自于用户访问日志文件的挖掘结果和用户直接查询的日志文件。使用“用户-行为”模型对用户访问日志进行挖掘,得到用户潜在的“搜索”关键词。用户访问记录如图2所示。

用户查询的日志记录如图3所示。每一条记录表示用户的一次搜索行为。

对用户在规定时间内的访问日志进行挖掘提取关键词,与用户提交的搜索关键词组成一个关键词集合,然后对该集合中的关键词进行编码,将字符串转换成数字标识(Identifier以下简称ID),生成所有关键词的ID转换的编码表<query,ID>,以后的关联挖掘都是基于集合关键词ID的进行,而非关键词本身,可以有效地减少存储开销。完成预处理后结果,作为关联挖掘的数据源。

2.2 关键词的关联计算

采用FP-growth算法对关键词集合进行关联计算。FP-Growth算法是韩家炜[5,6]等人在2000年提出的一种关联分析算法,采取分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。FP-growth算法有两个步骤:(1)构造频繁模式树FP-Tree,(2)调用FP-growth算法进行频繁项集的挖掘。FP-growth的输入的值是事务数据,算法经过频繁集挖掘,去除低于最小支持度的频繁项得到频繁项集,将上述过程的结果抽象成一张超图。如图4所示为关联关机按次构成的超图的一个示意图,超图中的节点为关联关键字,两个节点间的连线上的权值为两个关联关键字的相关程度。从中可以看到,用户浏览“背包”后并提交关键词“电脑”,买电脑背包有1.33%的概率,有5%的概率买品牌电脑。

2.3 权重字典和数据文件的生成

从关联算法中,找到那些存在关联词的关键词的集合,对关键词进行分析,得到它们的核心成分,并存人词典文件和数据文件具体步骤如下:

(1)对搜索关键词进行切词,获得切词集合X。

(2)对于每个切词Xi,用Ochiai coefficient相似度公式计算切词Xi与上述得到的关联词集合Y的相似度,其结果作为Xi的权重。Ochiai coefficient相似度的计算公式如公式(1)所示,其含义为X、Y俩集合的交集大小除以X、Y两集合大小的几何平均值。

(3)取权重最大的切词作为原搜索关键词的核心切词,表示为Xc。将其他的切词遂一和Xc进行粘贴组成切词Xp,使用步骤2的方法,计算得到Xp相似度,并作为Xp的权重。重新计算各个权重,如果Xp的权重小于Xc的权重,则将Xp的权重改为Xc权重减去0.0001。

(4)将Xc和Xp进行排序,取权重大的20个切词,作为搜索关键词的核心成分集合,一个切词对应一个核心成分。最后将搜索关键词分析的结果(<检索串,核心成分集合>对)写入搜索关键词字典文件和搜索关键词数据文件。

3 结语

针对用户行为日志进行挖掘,并提出了将挖掘的用户潜在的搜索行为与用户直接搜索日志相结合,来计算搜索关键词的关联关系,生成权重字典。提出的方法有效地提高了切词权重的准确性,经验证,是一种切实可行的实时计算切词权重的方法。

摘要:电子商务网站中,关键词搜索是用户查询的一种重要手段,计算搜索关键词中的切词权重,是搜索引擎查询处理时的一个重要内容。基于现有的切词权重的计算方法,对用户在网站进行信息查询等购物的决策过程中产生的多种类型的用户行为进行深入数据挖掘,并将其挖掘结果作用于切词权重词典,有效地提高了切词权重的准确性,提高了搜索排序准确率。

关键词:用户行为,切词权重,数据挖掘

参考文献

[1]Adomavicius G,Tu zhilin A.Towards the next generation of recommender systems:A survey of the state-of-the-art and possible extensions.IEEE TKDE,2005,17(6):734-749.

[2]Ji J,Liu C,Sha Z,et al.Online Personalized Recommendation Based on a Multilevel Customer Model[J].International Journal of Pattern Recognition and Artificial Intelligence,2005,19(7):895-916.

[3]纪征.基于用户兴趣模型的电子商务网站推荐技术比较及启示[J].图书情报工作,2010,54(16):138-140.

[4]王微微,夏秀峰,李晓明.一种基于用户行为的兴趣度模型[J].计算机工程与应用,2012,48(8):148-151.

[5]丁宏飞.个性化电子商务系统中用户兴趣模型的研究[D].广州:暨南大学,2008.

上一篇:中小饭店论文下一篇:通讯网络工程