搜索引擎优化模型

2024-08-22

搜索引擎优化模型(精选8篇)

搜索引擎优化模型 篇1

1 问题重述

在某次大地震中, 为确定需要救助的人员的准确位置, 救灾指挥部紧急派出一支20人的小分队。在紧急情况下需要解决的重要问题是:制定搜索队伍的行进路线, 对预定大小为11 200米×7 200米的矩形区域进行快速的既全面又高效的搜索。已知每个人搜索时的可探测半径为20米, 搜索时平均行进速度为0.6米/秒, 不需搜索而只是行进时, 平均速度为1.2米/秒。

2 问题分析

对于一组搜索队员在特殊形状面积中进行搜索问题, 经实践证明队员同时出发同时到达用时最短。将队伍排成一列, 并将大的矩形区域划分为126个以800米为边长的正方形小区域, 根据图论中的一笔画问题, 探究不同起始点对搜索时间的影响程度, 关键在于队伍的搜索路径的确定。

另外在不影响问题求解的前提下, 为简化问题, 做以下基本假设: (1) 假设搜索区域地面状况不影响搜索速度; (2) 搜救人员发现、汇报、处理问题所需时间不作考虑; (3) 假设搜索必须完全, 不存在遗漏情况。

3 模型建立与求解

3.1 单个人在小方格内的行进路线及所用时间

(1) 情形1, 直线走完

若直线行走完一个40×40小方格 (如图1) , 所用时间:40÷≈66.7s。队伍直线行走时如图1所示。

(2) 情形2, 若遇到转弯

我们有如下两种方案进行搜索。

方案一:如图2, 先横向直走A到C点后, 再斜向扫角到D, 再回到C点。所用时间为:

方案二:如图3, 180°转角直线行走, 搜索原直线沿着AB边向右移动, 当到达CD边时, 整体向上移动, 使得原CD边与DE或BD边重合, 然后DE边继续向左边运动, 搜索遇难人员。所用时间为:t3=40/0.6+40/1.2=100s。

3.2 整个队伍在经过800×800的方格时, 队伍内成员的行进路线及所用时间

情形1, 直线走完:队伍在该方格内直行通过时, 每位队员所用时间为:。

情形2, 需要转弯:队伍在该方格内转弯时, 每位队员的转角方式我们给出以上两种方案, 经分析可知方案一为最佳。但对队伍而言, 只有当内转弯与外转次数相同时, 所有成员才能同时到达, 具体分析如下。最内侧的人转弯用时为tmin=t=43.69s最外侧的人转弯用时为tmax=2× (40×20/0.6+tmin) =0.743 3h。因此, 连续转4次90°弯, 队伍步伐达到一致时间为:t1=2 (tmin+tmax) =1.51h。

3.3 对整个区域进行划分

在一块矩形区域进行全境搜索问题, 在保证全部搜索到的情况下, 使搜索时间最短。我们将20人看成排成一排的整体, 并将大的矩形区域划分为126个以800米为边长的正方形小区域, 把矩形区域划分为如下小块, 并且标号为Ai, 如表。

3.4 建立搜索路线模型

3.4.1 模型一, 固定起点和终点

(1) 队伍并排行走, 以这种转弯方式搜索完整个区域, 以1号格为起点, 126号格为终点, 过程如下图所示:

由图可知整个路线可实现90°转弯16次, 内转外转次数相同, 故队伍同时到达终点。即所用时间为:直线用时t11=40.741h, 转弯用时t12=4t1=6.04h, 总时间为:t11+t12=46.79h。

(2) 以66号为起点, 57号为终点。根据图论中关于奇顶点个数为偶数能不重复走完全程的原理, 判断出所用方格可以用一条不重复的线路走完。

由于出发点在A66处, 设定搜索队首先进入A66区域, 然后在搜索完全部区域后, 最后回到A57, 过程是一笔画成的, 无重复区域。而经上述计算直走用时比转弯用时少, 所以, 转弯次数达到最少, 该问题得到最优解答。

如表1可以看出:矩形中的各个小区域在前后左右有另外的小区域与其相邻 (边界的区域较特殊, 可能某个方向没有相邻的区域) 。把各个小区域看成一个点, 如果要进行一笔画, 则除了开始点A66只有一个出口和结束点A57只有一个入口, 每个点均有两个接口与其他区域连接。故:。

(1) 一个点有上下左右四个方向, 用字母Ai, j表示Ai这个点在j方向上是否与其他点连接, 1为连接, 0为不连接, j=1, 2, 3, 4分别表示上下左右四个方向。

以两个特殊的点为例, 如:A1点, 由于在顶角, 则其上边和左边必定没有连接, 所以, A11=0, A13=0。A114点:由于在下边沿, 则其下边必定没有连接, 所以A114, 2=0, 全面地表示出这些点的特征, 表达式为:

(2) 由于每个点的连接个数只能为2个 (A57A66除外) , 所以

(3) 如果有2个点, 一个点的左边与另一个点连接, 则另一个点的右端必定与该点连接。基于这个原则, 得到如下表达式:

(4) 点A66只有一个出口, 结束点A57只有一个入口, 故:

(5) 为了判定在一个点处是否转弯, 只要判定该点的2个接口是否为上和下, 或者左和右, 当一个为上, 一个为下, 可以说明该点处不转弯;当一个为左, 一个为右, 也可以说明该点处不转弯。用表达式来表示:当Ai, 1×Ai, 2+Ai, 3Ai, 4时, 为不转弯。根据以上 (1) (2) (3) (4) (5) 四点, 可以转化为一个优化问题的求解。

用LINGO编写程序, 可以得到Ai对应的上下左右四个方向是否有连接的数据, 根据数据可以表示出其路线图。为了方便观看, 用线路图表示路线, 如图4所示。

图4所示该路线经过了所有的区域, 一共需要转弯17个。在上述分析可得转弯次数为偶数时可同时到达, 因此在最后一个弯道采用方案三的方式转角用时t23=0.185h, 其余16次转弯所需的时间为t21=4t1=6.04h, 直线行走时间t22=40.7h, 则总共搜索时间为:t21+t22+t23=46.97h。

3.4.2 模型二, 变动起点和终点

4 模型推广与应用

当遇到不规则图形时, 同理将其划分为整支队伍搜索的方格, 不足于的区域进行规则化。由微积分思想可得:根据所剩地面不规则区域面积, 安排相应人数进行区域划分, 其人数的安排由转弯方法三确定, 再根据上述原理安排搜索人数与路径。以上模型可以广泛应用于大规模农业播种收割, 以及广场的大扫除等。

摘要:近来, 由于自然灾害频发并造成较大损失, 地面搜索问题得到了广泛的关注。为确定出最优搜索方案, 以一个队在一已知区域类搜索为研究对象, 通过讨论分析队伍的前进方式, 来提高队伍的搜索效率。其中包括讨论每位队员的转角方式, 以及整个队伍的行进路线, 通过建立0-1模型, 根据一笔画模型思想使用lingo编程求解, 模型可以推广到不规则面积中, 进而应用于一般搜索问题。

关键词:地面搜索,0-1规划,一笔画模型

参考文献

[1]安霞, 刘艳艳, 王福昌.震区地面搜索路线模型[J].廊坊师范学院学报, 2011, 11 (6) , 13-16.

[2]马翠玲.浅谈矩形地面搜索区域搜索路径的优化方案[J].科技资讯学术论坛, 2012, 3.

[3]刘晓妍, 吕濯缨, 高国成.地面搜索路径的”S”式折线模型和螺线模型[J].河南教育学院学报 (自然科学版) , 2011, 20 (1) :7-9.

搜索引擎优化模型 篇2

搜索引擎优化及其表现

所谓搜索引擎优化,也就是针对各种搜索引擎的检索特点,让网站建设和网贞设计的基本要素符合搜索引擎的检索原则(即搜索引擎友好),从而获得搜索引擎收录并在检索结果中排名靠前。如对于基于META标签检索的搜索引擎,在META标签中设置有效的关键词和网站描述,对于以网页内容相关性为主的蜘蛛型搜索引擎,则通过在网页中增加关键词的密度,或者专门为搜索引擎设计一个便丁检索的页面.

一个搜索引擎友好的网站,依靠适合搜索引擎的方式来设计网站,注重每个细节问题的专业性,以真实的信息和有效的表达方式赢得搜索引擎的青睬,方便搜索引擎检索信息.并且返回的检索信息让用户看起来有吸引力,从而获得更好的搜索引擎营销效果,达到搜索引擎营销的目的。搜索引擎优化可以从以下几个方面进行考虑。

(1)为每个网页设置一个相关的主题

网页标题中的关键词在搜索引擎排名中具有重要的作用,如两个同时做DVD的厂家都建立有自己的网站,都在相同的网站上注册了,可是一个厂家网站的搜索排名却比另外一家靠前多了。原因是那个排名靠后的厂家把自己网站上所有网页的标题都设为厂家的名称,而另一家在标题中加上了DVD关键词。其实当用户用某种商品名进行搜索时,关心的首要问题是商品,而不是厂家。因此,在设计网页的标题时,尽量体现网页中的核心词汇,这些桉新词汇应该是有较大被检索可能的,而不是一些冷僻同汇,也不是一些太常见的词汇。

(2)尽量使用静态网页

目前能够像Google一样对动态网页进行索引的搜索引擎还比较少,而同样内容的动态网页其权重比静态网页要低很多。因此,无论从效率上讲还是方便搜索引擎收录,使用内容发布系统将网站内容发布成静态网页都是非常必要的。搜索引擎对动态URL不太友好。如动态网页的常见形式以“php”后缀,而静态网页往往以“thml”或“htm”结尾,静态的URL通常在搜索引擎结果页面上能获得更好的排名,

(3)在网页中以文字为主

目前搜索引擎只分析HTML页面里头的文字(动态页面如ASP,PHP也行,不过优先级会比较低),尽管flash动画内容比起一般的文字加图片的HTML.网页有更好的视觉效果和艺术效果,但纯粹的flash网站里头的文字很难被一般的搜索引擎捕捉到。虽然6月20日,G00me和Adobe公司共同宣布了一套新的算法,力求能充分抓取到flash的内容,但至今还有很多需要解决的问题。

(4)重视外部网站链接的数量和质量

被外部网站链接的数量称为“链接广度”,它是影响网站排名的一个重要指标。在注重外部链接数量的同时,更要重视外部链接的质量。经验表明,对于新网站有一种有效的获得高质量链接的方法,就是在付费分类目录中登记网站,并且优先登录分类目录,等到获得收录后再向机器手搜索引擎提交,因为主要搜索引擎的分类目录的链接通常可以作为链接广度来计算。被已经登录于搜索引擎的网络链接,对于新网站来说,另外一个价值在于:即使没有主动向搜索引擎提交网站,搜索引擎也会根据原有网站的链接路径来发现这个新网站。

(5)为搜索引擎访问网站提供方便

当有用户开始搜索时,搜索引擎的机器手要到网站上发现有价值的网页,要到每个网页检索有效的关键词,但这些信息有时并不一定能被机器手顺利发现,因此,为搜索引擎提供方便是提高网页被搜索机会的有效方法。为此,需要专门设计一个名为simemap.htm的网页,存放在网站的根目录下,称为“网站地图”,在这个网页中列出网站所有子栏目的链接。

为搜索引擎提供方便,最终也是为网络营销提供方便,我们总是希望搜索引擎能够方便地检索整个网站的所有网页,并发现我们所希望被检索的所有关键词。这是设计“网站地图”网页的基本原则。

(6)正确处理各种关键词的优化关系

搜索引擎优化模型 篇3

关键词:牵引供电系统,三维仿真,渲染效率,静态几何,实例几何

0 引言

传统可视化仿真通常是基于二维的, 采用AutoC AD[1,2]和PSCAD/EMTDC[3]等。随着人们对电气化铁路牵引供电系统可视化需求不断提高, 基于二维平面的方法已不能满足要求。鉴于三维技术的日益成熟及诸多领域采用三维技术带来的优势[4,5,6,7], 对电气化铁路牵引供电系统进行三维仿真是非常必要和有意义的。

电气化铁路牵引供电系统主要包括牵引变电站、接触网、开闭所、分区所等众多设备, 对其进行三维仿真时场景海量, 规模巨大。因此, 考虑到目前三维技术引擎发展的特点, 本文采用OGRE引擎进行牵引供电系统的三维仿真建模。

在三维仿真中对海量场景进行渲染时, 渲染效率是一个非常重要的问题。文献[8]利用GPU的运算能力和编程性, 将渲染过程中的大量计算从CPU中分离出来, 实现大规模波动草叶的实时渲染, 该方法编程极其复杂。文献[9]将三维可视地理信息系统应用于电厂的设计与管理中, 采用多层次细节模型与空间二分树来实现电厂的室内室外的实时漫游, 该文献没有深入讨论漫游时的场景渲染效率。文献[10]利用建筑物的航拍图及地面图片构造单体建筑物的几何模型与纹理, 结合分页式场景剔除技术, 绘制大规模复杂城市场景, 该方法建立的建筑模型比较粗糙, 且场景渲染速度不是很高。文献[11]设计了一个基于PC机集群的保留模式Sort-first并行渲染系统, 分析了影响渲染性能的关键因素, 给出提高性能的具体步骤, 实现了系统的高效并行计算及虚拟现实应用中的复杂场景实时处理, 但是该方法是基于PC集群的, 研究开发成本高, 难度大。文献[12]介绍了一种基于可扩展对象库建立三维仿真平台的方法, 变电站的各种仿真对象都能通过复用对象库中的元素完成建模, 以减少三维建模周期, 但并未就大规模场景中模型对渲染效率的影响进行深入分析研究。

在面对电气化铁路牵引供电系统中的海量场景, 本文通过优化模型加载过程以提高场景的时实渲染效, 结合普通的加载方式 (单个物体独立加载) 、静态几何加载方式 (Static Geometry) 和实例几何加载方式 (Instanced Geometry) , 设计电气化铁路牵引供电系统仿真的模型加载优化方案, 并进行了实际开发验证。

1 三维仿真中渲染批次对渲染效率的影响

在三维仿真中渲染效率非常严重地影响到仿真系统的性能, 而渲染批次是牵引供电仿真系统中最小的渲染单元, 在供电系统的渲染当中又极大地影响渲染效率。例如:渲染1 000个单材质的绝缘子, 若分10个批次, 每批渲染100个, 场景平均每秒渲染80.2帧图像;若分100个批次, 每批渲染10个绝缘子场景平均每秒渲染36.8帧图像, 可见渲染相同数量的物体, 批次越少渲染速度越快, 因此渲染批次应尽量少。

牵引供电系统在OGRE引擎里面可渲染的对象有两种:大的不可动的周围环境地形;小的或可活动的设备、铁轨、杆塔和其它各种元器件等。这些设备、建筑等拥有各自的骨骼、动画、材质等属性, 这些属性必须由与之对应的实体 (Entity) 来维护。仿真中实体是对与之对应网格 (Mesh) 的封装。一个网格由多个子网格组成, 实体由子实体组成, 网格的细节部分由子网格管理。实体与网格, 子实体与子网格之间是一一对应的, 其对应关系如图1所示。

OGRE引擎中对模型的加载一般采用单个物体独立加载的方式, 这种普通加载方式可以根据场景中材质的多少生成渲染批次。一个物体有多少个材质, 就对这个物体进行渲染就需要用多少个批次。因此, 对电气化铁路牵引供电系统采用该方式进行模型加载将严重地影响渲染效率。

2 牵引供电系统仿真模型加载优化方案

为了优化模型的加载过程以提高渲染效率, 本文结合普通加载方式、静态几何加载方式和实例几何加载方式, 设计了一种牵引供电系统仿真模型的加载优化方案, 如图2所示。

优化方案中对牵引供电系统中唯一出现的物体采用普通加载方式;对场景会多次出现的物体, 如:相对不动的如钢轨、杆塔等物体, 采用静态几何方式进行加载;对将来可能会活动的物体或是人们会对其进行操作的物体如变压器、开关等, 采用实例几何方案进行加载。

该方案从根节点出发, 首先创建子节点, 调用Entity类来创建实体挂接到子节点上;接着判断这个实体在场景中是否唯一, 若是则将这个实体作为一个批次送入渲染循环进行渲染;若否, 再判断这个实体是否是可活动的物体, 若是则将他以实例几何的方式进行加载;当实例几何中的实例达到80个时, 把他们作为一个批次送入渲染循环进行渲染;若实体不可活动, 判断实体是否在当前已有的静态几何体的范围之类, 若是则将其加入到该静态几何体中, 若不是则新建一个静态几何体, 并将实体加入其中;等待物体加载完毕后, 将每一个静态几何作为一个批次加入渲染循环中进行渲染, 完成渲染。

在该设计方案, 静态几何加载和实例几何加载是牵引供电系统仿真模型加载优化中需要解决的两个关键问题。

2.1 静态几何加载

在牵引供电系统仿真模型加载优化方案中, 静态几何把具有相同材质的物体合并成一个批次进行渲染, 从而大大减少渲染的批次, 提高渲染效率, 静态几何的批次合并原理如图3所示。

在图3中, 若场景中包括100个相同的实体, 对应需要100个网格来实现;假设每个网格有5个子网格, 一共有500个子网格, 采用普通加载方式需要500个批次, 采用静态几何将具有相同材质的子网格合并成一个批次, 只有5个批次, 可以很大程度地提高渲染效率。牵引供电系统仿真中的静态几何体是在一个小范围内, 可以把本来独立的设备、器材集合成一个一起行动的静态几何体, 几何体内部的物体相互之间不发生位移等动作。一起行动意味着位置、朝向、放大缩小的统一动作等, 其实就可以看成是一个设备, 认为只是把不同部位画在了不同的位置。

2.2 实例几何加载

在普通加载方式里面, 一个材质渲染一次就产生一个批次, 如系统中有多少个绝缘子渲染一帧画面就产生多少个批次, 相当于程序向显卡连续传输同一份绝缘子顶点数据多少次。这些批次的不同之处在于顶点、法线等方面的不同。显卡不会对这种重复数据多次传输做任何优化, 所以内存和GPU的数据传输负载随着可渲染对象的调用次数增多而增大。当程序效率更多地损失在数据传输上之时, 会造成渲染瓶颈, 即FPS (每秒的渲染帧数) 急剧下降。因此, 普通加载方式将对牵引供电系统海量场景的加载造成窗口显示的卡滞。

针对该问题, 本文采用实例几何方式加载模型, 可以只用一个批次, 把所有顶点数据传输到显卡, 并通知显卡绘制次数。实例几何实现在一个批次中渲染模型的多个副本, 难点在于如何确定现在渲染具体的实例 (Instance) , 论文通过添加顶点缓冲的数据通道索引每个实例, 实现当下现在渲染具体实例的判断。

OGRE引擎中的模型网格由三角形拼装而成, 例如:一个矩形有2个三角形, 6个顶点构成, 如图4所示。

若在程序中采用实例几何渲染两个矩形, 需要进行相应的数据动作, 其数据组织关系如图5所示。

在图5中, 三角形Triangle 0和Triangle 1表示第一个矩形实例中使用的数据, 三角形Triangle 2和Triangle 3表示第二个矩形实例中使用的数据, 顶点缓冲区 (Vertex Buffer) 中包含的两个副本拥有相同的位置 (Position) 、法线 (Normal) 和纹理数据 (Texture) , 通过实例索引值 (Instance Index) 可以对它们进行区别。该索引值用来指定每个实例的变换矩阵 (Instance Transform Matrix) 。将所有的实例放入一个批次, 通过变换矩阵重用顶点数据使用不同的渲染参数进行渲染。采用此方法可以实现每帧调整实体的位置、方向、大小等功能。

图2所示模型加载优化方案中实例几何的每一批次中最多只有80个实例, 是由于GUP中着色常量寄存器能装入的实例变换矩阵有限制并且索引值是16位的, 太多了会产生溢出。

3 仿真实验

为了能够验证论文提出方案的可行性和有效性, 我们采用每秒渲染的帧数 (FPS) 作为评价标准, 以牵引供电系统中的绝缘子模型为对象进行实验, 分别采用三种方法加载模型, 计算机采用AMD Athlom (tm) ⅡDual-Core M320 2.10 GHz处理器, 2.00 GB内存, 实验数据如表1所示。

表1中普通加载方式渲染批次与模型数量成线性增长, 渲染效率随着模型数量的增长快速下降, 当个数达到1 000的时候, FPS降到9.9, 并在大规模场景中屏幕显示出现严重的滞屏现象。静态几何与实例几何方式的渲染批次随着模型数量的增加也在增长, 但增长十分缓慢, 与模型的数量相比, 批次仍然是相当少, 它们的渲染效率仍然很高, 当个数达到1 000的时候, FPS能保持80左右的高效率。

图6为静态几何与实例几何在不同绝缘子模型数量下渲染批次相对于模型数量的百分比。

从表1中可以看出, 普通加载方式的渲染批次始终都和模型数量一样, 这会导致渲染效率低下。图6中实线表示静态几何的批次与模型数量的百分比, 虚线表示实例几何的批次与模型数量的百分比, 从图中可以看到随着绝缘子模型数量的增多, 渲染批次与模型数量百分比会越来越小。当绝缘子个数为150时, 渲染批次与模型数量百分比小于2%。图中的锯齿状突起是由于模型到一定数量时批次的增加所致。

图7为静态几何与实例几何渲染时的FPS相对普通加载方式FPS的倍数。

图7中实线表示静态几何相对普通加载方式的FPS的倍数, 虚线表示实例几何相对普通加载方式的FPS倍数。从图7中可以看出随着绝缘子模型数量的增加, 相对渲染倍数也增加, 当达到1 000个时, 静态加载方式比普通加载方式渲染速度快了8.37倍, 而实例几何加载方式比普通加载方式的渲染速度快7.1倍。

若牵引供电系统仿真采用普通加载方式, 渲染效率非常低, 最大FPS将低于5。本文采用图2所设计的模型加载方案对牵引供电系统进行三维仿真, 图8和图9中所示为供电系统中的牵引变电站的内部场景。在这个仿真系统中, 所有相对固定, 没有动作的物体采用静态几何的方式加载, 如绝缘子等;大型设备和可活动的物体采用实例几何的方式加载, 如变压器等。

从图8中可以看出, 整个牵引变电站视场中物体非常丰富, 特别是绝缘子数量很多, 而渲染批次仅有86个, 平均FPS可以达到63.2。

从图9中可以看出, 对牵引变电站中以变压器为主要对象的场景进行渲染时, 渲染批次仅有80个, 平均FPS可以达到55.1。因此, 从实验结果来看, 采用本文所设计的模型加载优化方案可以有效地减少对场景实时渲染时所使用的批次, 实时地、有效地提高了渲染效率, 使系统实时浏览流畅, 操作反应迅速和高效。

4 结论

本文采用OGRE对电气化铁路牵引供电系统进行三维仿真, 分析了普通的加载方式、静态几何加载方式和实例几何加载方式加载模型对仿真系统的渲染效率影响, 并以绝缘子为对象进行实验, 实验结果表明静态几何与实例几何加载式相比普通加载方式可以大幅地提高渲染效率。结合牵引供电系统的特点, 本文设计了对牵引供电系统仿真模型加载优化方案, 实验结果表明采用该设计方案可以大大优化电气化铁路牵引供电系统三维仿真系统的模型加载过程, 提高渲染效率。

参考文献

[1]张虹, 赵冬梅, 张旭.电厂继电保护整定计算智能系统图模库一体化工具的研究[J].电力系统保护与控制, 2011, 39 (12) :117-121, 139.ZHANG Hong, ZHAO Dong-mei, ZHANG Xu.Research on integration tool of graph, model and database in power plant relay[J].Power System Protection and Control, 2011, 39 (12) :117-121, 139.

[2]黄宇峰, 刘文霞, 盛洁, 等.应用Object ARX的中压配电网可靠性评估模块的设计与实现[J].电力系统保护与控制, 2010, 38 (17) :70-75, 81.HUANG Yu-feng, LIU Wen-xia, SHENG Jie, et al.Design and implementation of reliability evaluation module for medium voltage distribution networks by Object ARX technology[J].Power System Protection and Control, 2010, 38 (17) :70-75, 81.

[3]束洪春, 田鑫萃, 董俊, 等.基于多重分形谱的高压直流输电线路区内外故障识别方法[J].电工技术学报, 2013, 28 (1) :251-258.SHU Hong-chun, TIAN Xin-cui, DONG Jun, et al.Recognition method of HVDC transmission line fault based on multifractal spectrum[J].Transactions of China Electrotechnical Society, 2013, 28 (1) :251-258.

[4]冯岱鹏, 胡炎, 邰能灵, 等.地下变电站虚拟现实仿真系统的研究[J].电力系统保护与控制, 2010, 38 (11) :90-93, 103.FENG Dai-peng, HU Yan, TAI Neng-ling, et al.Research of underground substation simulator based on virtual reality[J].Power System Protection and Control, 2010, 38 (11) :90-93, 103.

[5]梁慧敏, 由佳欣, 叶雪荣, 等.基于三维磁场仿真分析的含永磁继电器等效磁路模型的建立[J].电工技术学报, 2011, 26 (1) :46-50.LIANG Hui-min, YOU Jia-xin, YE Xue-rong, et al.Construction of equivalent magnetic circuit for permanent magnet relay based on 3-D magnetic field analysis[J].Transactions of China Electrotechnical Society, 2011, 26 (1) :46-50.

[6]周封, 李翠, 王晨光.基于三维超声波阵列的风电场风力瞬变特性测量研究[J].电力系统保护与控制, 2012, 40 (13) :127-134.ZHOU Feng, LI Cui, WANG Chen-guang.Research on wind transient characteristics measurement based on 3D ultrasonic formation for wind farm[J].Power System Protection and Control, 2012, 40 (13) :127-134.

[7]朱少敏, 刘建明.电力设备三维网格模型自适应鲁棒水印算法[J].电工技术学报, 2011, 26 (12) :197-204.ZHU Shao-min, LIU Jian-ming.Electric power equipment 3D mesh model adaptive robust watermarking algorithm[J].Transactions of China Electrotechnical Society, 2011, 26 (12) :197-204.

[8]刘明, 徐飞, 刘玉.基于GPU的大规模波动草叶实时渲染技术[J].微计算机信息, 2008, 24 (15) :293-295.LIU Ming, XU Fei, LIU Yu.GPU-based real-time rendering techniques of massive waving grasses[J].Microcomputer Information, 2008, 24 (15) :293-295.

[9]田宜平, 张戈, 刘兴无, 等.三维可视地理信息系统在禹州电厂的应用[J].电力系统自动化, 2005, 29 (5) :88-92.TIAN Yi-ping, ZHANG Ge, LIU Xing-wu, et al.Application of three-dimension visualization GIS in Yuzhou power plant[J].Automation of Electric Power Systems, 2005, 29 (5) :88-92.

[10]刘波, 王章野, 王丽英, 等.大规模城市场景的高效建模及其实时绘制[J].计算机辅助设计与图形学学报, 2008, 20 (9) :1153-1162.LIU Bo, WANG Zhang-ye, WANG Li-ying, et al.Efficient modeling and real-time rendering of large-scale urban scenes[J].Journal of Computer-Aided Design&Computer Graphics, 2008, 20 (9) :1153-1162.

[11]汪伟, 范秀敏, 武殿梁.虚拟现实应用中的并行渲染技术[J].计算机工程, 2009, 35 (3) :282-285.WANG Wei, FAN Xiu-min, WU Dian-liang.Parallel rendering technology in virtual reality applications[J].Computer Engineering, 2009, 35 (3) :282-285.

搜索引擎优化模型 篇4

评价指标反映了企业网络营销绩效的关键因素, 也揭示了企业网络营销绩效评价的内容, 是企业管理者对评价对象进行全面认识的具体途径, 因而设计指标体系是企业网络营销绩效评价的重要基础工作。同时, 评价指标的建立必须遵循一定的原则, 构建网络营销绩效评价体系的五个原则, 即全面性原则、科学性原则、可比性原则、可测性原则、独立性原则。我们按照以上原则, 结合搜索引擎营销的实际效果, 对影响网络营销绩效评价的主要因素进行综合分析和整理, 从品牌效益、经济效益、服务效益三个方面出发, 构建了一套绩效评价指标体系。下面分别介绍各指标的具体含义。

1.1 品牌效益指标

(1) 企业网站推广。

就是为用户发现网站信息并来到网站创造机会。

(2) 产品推广。

企业利用用户通过输入产品名称搜索相关产品的信息资料的行为, 采取的宣传推销产品的方式。

1.2 经济效益指标

经济效益指标是指通过搜索引擎营销为企业带来的经济效益, 主要包括网上产品销售和网下产品销售。

(1) 网上产品销售。

顾客在网上了解产品信息后, 通过电子商务模式购买产品, 也就是P2C 模式。

(2) 网下产品销售。

顾客在网上了解产品信息后, 在现实市场中购买产品。

(3) 服务效益指标。

搜索引擎是企业获取行业资讯、了解国际市场动态的一个重要工具, 同时还是网站优化检测的工具。

① 市场调研。

通过搜索引擎了解竞争者的市场动向, 产品信息, 用户反馈, 市场网络等公开信息。

② 网站优化检测。

利用搜索引擎检查网站链接数量、网站被搜索引擎收录网页数量、网站的PR值等。

2 搜索引擎营销绩效综合评价模型

依据各评价指标的独立性, 采取加权求和的方法, 建立搜索引擎营销绩效综合评价模型如下:

undefined (1)

其中, Pi为第i个评价指标的取值, Wi为第i个指标在所有指标体系中所占的权重。

该模型在实际应用中要计算Pi和Wi的值。Pi的计算要根据实际情况, 收集客观数据, 采用统计学的方法, 如指数法, 线性回归等方法计算。下面我们介绍用层次分析法 (AHP) 计算权重Wi。

3 利用层次分析法计算指标权重

层次分析法 (Aanalytic Hierarchy Process, AHP) 是美国著名数学家萨蒂在20世纪70年代提出的一种新的定性分析与定量分析相结合的系统分析方法。它将人的主观判断用数量形式表达, 从而便于在数学上进行处理和分析。层次分析法把复杂问题分解成各个组成因素, 又将这些组成因素按支配关系分组成递阶层次结构, 通过两两比较的方式确定各个因素的相对重要性, 然后综合决策者的判断, 确定决策方案相对重要性的总排序。

3.1 分析各指标间因果关系, 建立指标体系层次结构

根据指标体系构建的原则, 建立三层指标体系结构 (如下页图所示) , 其中第一层为目标层, 第二层为准则层, 第三层为方案层。

3.2 计算指标权重, 并进行一致性检验

这里我们采用和法计算权重, 其计算公式为:

undefined, (i=1, 2, …, n) 。

一致性指标计算公式为:undefined, 其中λmax为比较矩阵的最大特征值, 按下面的公式计算:

undefined。

一致性比例计算公式为undefined, 其中R.I.为平均随机一致性指标, 它的取值由矩阵阶数确定, 具体取值如下表:

下面是我们用以上公式计算各层指标权重所得的结果 (具体计算过程略去) 。

计算得λmax=3.01, 取R.I.=0.52, 则一致性比例C.R.=0.01<0.1, 即矩阵具有一致性。

计算得λmax=4, 取R.I.=0.89, 则一致性比例C.R.=0<0.1, 即矩阵具有一致性。

续 表

计算得λmax=4.05, 取R.I.=0.89, 则一致性比例C.R.=0.02<0.1, 即矩阵具有一致性。

3.3 计算第三层指标对于总目标层的权重

计算第三层指标对于总目标的权重时利用如下公式:

undefined, (i=1, …, 6) 。

即:

W1=0.45×0.375+0.45×0.09+0.1×0=0.21

同理可计算:

W2=0.22, W3=0.24, W4=0.24, W5=0.025, W6=0.075。

即权重向量为:

W= (0.21, 0.22, 0.24, 0.24, 0.025, 0.075)

3.4 第三层指标对于目标层的一致性检验

层次总排序的一致性指标:

undefined;

层次总排序随机一致性指标:

undefined。

带入数据计算得:

C.I.= (0.005, 0.016, 0) · (0.45, 0.45, 0.1)

=0.005×0.45+0.016×0.45

=0.01

R.I.= (0.89, 0.89, 0) · (0.45, 0.45, 0.1)

=0.89×0.45+0.89×0.45=0.80

所以层次总排序一致性比例为:

undefined

通过总体一致性检验。

4 结论

搜索引擎优化模型 篇5

1)搜索结果集庞大,用户为找到其真正感兴趣的信息,耗费大量的时间和精力。

2)不同用户在不同时期采用同样的查询关键词请求所得到的搜索结果几乎相同,对用户来说不能提供个性化的服务。

3)用户在使用搜索引擎检索时带有一定的目的性,但往往由于该用户相关领域知识的不足以及搜索引擎查询接口的局限性,导致用户不能清楚地表达其信息需求[2]。

针对传统搜索引擎不能提供面向用户的个性化服务这一缺陷,大量的专家学者开始研究查询扩展技术,并在此领域有所突破。文献[1]根据文档分析,提出局部共现的思想,利用词项与所有查询词在局部文档集合中的共现程度以及在语料集中的全局统计信息来评估扩展词的质量,选择合适的扩展词;文献[3-5]通过分析用户浏览历史,主要采用关联规则进行查询扩展;文献[6]利用HITS和Text Rank技术提取用户主题,并结合关联规则进行查询扩展;而文献[7]提出了一种基于二级向量的搜索引擎个性化服务模型SEPMBDVD(Search Engine Personalization Model Based on Double Vector Description),其实质也是利用对用户浏览的历史网页进行挖掘而得的用户兴趣模型生成与用户输入的查询关键词配对的扩展词。通过扩展词加入,使用户在利用搜索引擎检索的时候能够得到符合用户兴趣或者兴趣偏好的结果,经过实验验证该模型具有查准率高,反应速度快等优点。这种查询扩展模型依赖于用户兴趣模型,文献[7]采用的是二级向量模型,即通过一组关键词向量和扩展词向量描述用户兴趣,这种模型是基于一个全局词典对用户浏览的历史网页进行描述、聚类挖掘以后生成的。整个模型结构如图1所示。

全局词典由于词汇量过大,词汇太杂,无法体现用户的兴趣等原因,会对用户兴趣模型的生成造成较大的影响,从而影响到词扩展的效果。因此本文使用个性化词典替换全局词典,并采用查询扩展策略实现个性化服务,设计出一种基于个性化词典的搜索引擎查询扩展模型QEMBUPDSE(Query Expansion Model Based on User Personalization Dictionary for Search Engine)。该模型能够通过个性化词典优化用户兴趣模型,从而优化查询扩展词,使得用户的个性化搜索更快,更准确。

1 基于个性化词典的搜索引擎查询扩展模型

基于个性化词典的搜索引擎查询扩展模型从用户浏览历史网页描述开始就利用个性化词典的两级词典,即关键词词典和扩展词词典,形成网页的二级向量描述,接着通过数据挖掘手段更直接的生成用户兴趣的二级向量模型,最后根据用户输入的关键词进行查询扩展,如图2所示。

2.1 个性化词典的定义与实现

根据文献[10],个性化词典UPD(User Personalization Dictionary)由关键词词典(Key Dict)和扩展词词典(Ex Dict)两级构成,位于两级词典中的词分别定义为关键词和扩展词。每一级词典中包含n个(n由人为设定)由词和词权构成的二元组。关键词通常表示用户浏览兴趣,词的权值越大,表示在用户兴趣中的重要性越大。而扩展词用于描述用户在兴趣点上的兴趣偏好,从而在查询扩展时提供符合用户偏好的扩展检索词。

特定用户的UPD能够充分表达用户对信息需求的倾向性,同时对基于二级向量的用户兴趣模型提供支持,是一种符合用户兴趣的私有词典,在词典设计上主要考虑如下主要原则:

1)网页文档集合中,某词出现的频度越高,该词对用户特征的描述能力越强。

2)网页文档集合中,包含某词的网页数越多,该词对用户特征的描述能力越强。

3)对于一些网页中比较常用的,没有检索价值的词,我们称之为网页频繁词,如:评论、版权、文章等,在词典中应该被过滤掉,以免对用户的个人描述带来噪音。

基于以上设计原则,通过对传统的TF-IDF公式进行改进,得出用于计算UPD中词的权值的公式WTUPD(Weight of Term in the User Personalization Dictionary),如公式1所示:

在公式1中S为网页集合,T为词空间,W(t,S)为词t在S中的权重,tf(t,S)为词t在S中的词频,N为S包含的网页总数,nt为S中的文档出现t的数量,分母为归一化因子。在TF-IDF公式中,㏒(N/nt+0.01)为IDF因子,即“逆文本频率指数”,在WTUPD中依然沿用这个名称,IDF因子越大,表明该词在网页集合中分布越稀疏,那么该词的重要性越小,权值越小。反之,该词的IDF因子越小,表明其在网页集中分布越密集,越均匀,那么该词的重要性越大,权值越大。

考虑到词在网页集合中分布的均匀程度不同,本文认为词t在整个网页集合S中的权重与其在网页中的均匀度成正比。因此,本文引入衡量均匀度的因子对词t的权重进行修正,公式1中词t的均匀度由t在网页集合中的标准差(Standard Deviation)来衡量,如公式2所示:

在公式2中,fi表示词t在出现该词的第i张网页中出现的次数,f表示出现词t的网页集合中t出现的平均次数,这样计算得出的词t在网页集合中的标准差σ(t)表示t在网页集合中出现次数f的离散程度。σ(t)越大,f值的波动越大。反之,σ(t)越小,1/σ(t)值就越大,f值波动越小,分布越均匀。

通过WTUPD公式可以看出:词t在网页集S中的权重,与它在该网页集中的词频成正比,与它在该网页集中分布的稀疏程度和均匀程度成正比。通过WTUPD公式得到用户浏览的网页文集合中所有词的权重并排序,再根据个人浏览兴趣的广泛度选择关键词扩展词,兴趣点较集中的用户选择前1/3的词作为关键词,余下的词即为扩展词。而兴趣点较分散(核心兴趣点5个以上)的用户选择前1/2的词作为关键词,余下即为扩展词,以此形成关键词词典和扩展词词典。

最后还要清除关键词词典和扩展次词典中的频繁词,频繁词的特征是分布在网页集合中大多数文档中,且在单张网页中出现的次数往往较少(一般为1-2次)。本文采用如下的方法对这部分词进行过滤。

公式3中,采用函数filter()在词典中筛选并剔除网页频繁词,t∈W(2N/3)表示词t出现在占用户浏览的总网页集中2/3的网页中,E(tf(t,S)/n)≤2表示词t在网页中出现次数的均值不大于2。此函数除去了所有在2/3及更大比例的网页中出现且平均出现次数不大于2次的词。

经过以上公式处理,最终可以建立满足用户兴趣描述要求的个性化词典。

2.2 基于个性化词典的用户兴趣建模

最终的词扩展依赖于准确的用户兴趣模型,而个性化词典的建立将有利于用户兴趣模型快速、准确地建立,因此本文采取的用户兴趣建模方法如下:

首先,利用个性化词典将用户浏览的网页转换为特征向量,由于个性化词典包含两级词典,因此,生成的网页特征向量即为二级向量,例如某网页的特征向量表示为{[(单反,0.05327385),(摄影,0.04826857),(像素,0.03272436),(市场,0.02713352),(专业,0.02639451),……];[(镜头,0.01135712),(显示屏,0.01023895),(环境,0.09325765),(浏览,0.09031257),(效果,0.08736234)……]},分号之前是关键词向量而之后是扩展词向量。

接着,利用网页特征向量进行聚类分析,得到用户的各个兴趣子类。

最后,利用各类的网页特征向量将兴趣子类描述成为二级向量,生成用户兴趣模型。

由此可见,个性化词典使得整个用户兴趣建模过程均使用二级向量,用户兴趣模型的生成更直接和顺利,并且由于个性化词典规避了传统全局词典中的大量与用户兴趣无关的词和频繁词,使得网页特征描述更加准确,为后续的聚类分析和兴趣模型生成奠定良好的基础,并通过用户兴趣模型提供符合用户兴趣偏好的扩展词,有利于扩展词的分析比较和选取。

2.3 查询扩展策略的实现

根据文献[7]当用户向搜索引擎提交查询词时,查询扩展模型能够自动根据用户描述文件对初始查询词进行有效的扩展,为用户推荐合理的查询扩展词。这样的扩展词更能体现用户的信息检索意图,提高检索质量。那么这种查询扩展策略的实施步骤主要如下:

首先,要将用户的初始查询与用户兴趣模型中的兴趣类匹配,以掌握用户的查询意图。由于在二级向量模型中,用户兴趣类用对应的关键词向量ci={,,…,}表示,即一个m维的向量,而初始查询词Qini通常是一两个词。因此,我们将Qini也可以扩展成一个m维向量,以兴趣类ci的所有关键词作为分量,若初始查询中有包含词tk,则Qini在tk分量上的权值为1,反之为0。这时就可以用两个文档向量夹角余弦函数[6]表示向量ci与Qini的相似度。

其中,分子为向量ci与Qini各分量乘积的和,分母为向量模的乘积。本文选择与初始查询相似度最高的兴趣点C作为用户的查询意图。即:

为了尽可能的向用户提供查询扩展词,如果在关键词向量中无法找到用户的查询词,即Qini与关键词向量的相似度为0的话,那就将扩展词向量并入关键词向量中一起参与运算。

接下来,为了找到与用户查询词最相关的扩展词,需要计算词间关联度。本文参照LSI模型[7]中的方法,将一个网页文档集合表示成“词—文档”矩阵TD,如表1所示。

表1为“词—文档”矩阵TD的截取内容,顶部一行表示文档集合中所有文档的名称(编号),而左边一列中的“欧洲、足球”为用户向搜索引擎提交的初始查询词Qini,“国家队、世界杯、澳大利亚、…”为Qini所匹配兴趣类的扩展词向量中的扩展词。中间的矩阵单元TDij为对应的词Ti在文档Dj中的权值(频度)按行归一化后的结果。由于词和文档的数量都很大,而单个文档中出现的词又非常有限。因此,TD一般为高阶稀疏矩阵。

然后利用TD构造词间关系矩阵TT,并计算词间关联度,构造方法如公式(6):

其中TD’是TD的转置。所得矩阵TT中每一个单元的TTij的值所反映的是在特定环境下(特定用户的特定兴趣类)词i与词j之间的相似度。我们可以看到,每个词与它本身的相似程度为1,而在该兴趣类的任何文档中都没有同现的两个词之间的相似度为0。如表2所示。

最后,可以通过适当的方法选取扩展词帮助用户完成搜索。本文引入相对误差公式来对候选的扩展词进行合理筛选,如公式7所示:

公式7中x*表示词间关系矩阵TT中与初始查询词Qini相似度最大的候选扩展词对应的关联度,x表示其他候选扩展词与Qini的关联度。公式8中的参数δ表示x与x*的相对误差阈值,表示只要某候选扩展词与Qini的关联度与x*之间的相对误差只要小于δ,那么该候选扩展词就可以最终推荐给用户,在实际应用中δ通常取值10%,可以保留较好的扩展词,同时也减少运算时间。可以根据情况设置。这样将筛选出来的词进行按关联度从大到小的顺序排序以后,就可以推荐给用户了。由于过多的扩展词将导致搜索的返回结果减少,反而会不利于用户获取足够的信息。通常选择3个扩展词为宜,那么最终可以从已经排序的扩展词队列里面选择前3个进行推荐。当然,根据用户需求,扩展词的推荐数量可以自行设定。

3 实验与分析

3.1 评价指标SWUI

由于用户个性化词典UPD实际上几乎包含了用户所有感兴趣的词,并且从浏览历史网页里计算出的词的权值也反映了用户对这些词的感兴趣程度,因此,本文利用通过查询扩展搜索到的网页集合与用户个性化词典进行比较的方式来进行实验,评测本文提出的个性化服务模型的效果。

为了将检索到的网页集合与用户个性化词典进行比较,本文计算检索到的网页集合特征向量的中心向量,并称中心向量为用户向量UV(User Victor),然后计算UV与UPD之间的相似度(余弦函数值),通过该相似度反映网页集合与用户兴趣之间的相关程度,称该相似度为SWUI(Similarity between Webpages and User Interests)。

3.2 实验数据

本文实验基于三位用户进行,他们分别按照自己的兴趣浏览网页,然后将自己感兴趣的网页保存下来,接着对三位用户提供的兴趣网页进行兴趣建模,得到用户兴趣模型表4所示,限于篇幅,每个兴趣类只用部分关键词表示。

3.3 对比实验

本文在Google和百度两大主流搜索引擎上,进行了以下三组实验:

1)None实验:不采用查询扩展,只使用用户查询关键词进行检索的实验。

2)Standard实验:采用文献[7]提出的SEPMBDVD模型进行查询扩展,然后在搜索引擎上进行检索的实验。

3)UPD based实验:采用本文提出的QEMBUPDSE模型进行查询扩展,然后在搜索引擎上进行检索的实验。

对比实验由提供用户兴趣模型的三位用户实施,每位用户对自己的每个兴趣选用适当的关键词按以上三组实验要求在Google和百度上进行搜索,每组实验都将每种搜索引擎返回的前100张网页保存下来。接着针对每种搜索引擎,计算每个关键词搜索到的网页集合与UPD之间的SWUI,最后根据各SWUI计算各个兴趣类的ASWUIIC(Average Similarity between Webpages and User Interest in each Interest Class),计算公式如公式9所示:

公式9中,n为某兴趣类的测试关键词数量,因此ASWUIIC表示某兴趣类的所有关键词搜索的网页集合与UPD之间的SWUI的平均值。最终实验结果如表5所示:

为了更直观的反映对比的效果,本文计算了UPD based相对于None以及Standard的实验结果的提高百分比,如表6所示:

从表6可以看出,首先,使用QEMBUPDSE模型进行查询扩展后,搜索到的网页比不使用查询扩展明显与用户的兴趣更相关。其次,与使用SEPMBDVD模型扩展相比,使用QEMBUPDSE模型进行查询扩展后,搜索到的网页在与用户的相关性上也有一定的提高,反映了网页更符合用户的兴趣。这主要是由于在用户建模之前使用了UPD后,可以使整个用户建模过程得到一定程度的优化,最终的用户兴趣模型更加准确,使查询扩展发挥出更好的效果。

4 结束语

本文在文献[7]提出的基于二级向量的搜索引擎个性化服务模型基础上进行改进,加入了用户个性化词典,用以优化用户兴趣建模过程,进而改善查询扩展的效果。实验表明基于个性化词典的搜索引擎查询扩展模型能够更有效的辅助用户利用搜索引擎搜索到自己感兴趣的信息。在下一步的研究中,需要考虑如何更准确地建立个性化词典和用户兴趣模型,提出更好的相似度计算方法,用以改进整个个性化搜索模型的性能。

参考文献

[1]丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):48-53.

[2]袁薇,高淼.搜索引擎系统中个性化机制的研究[J].微电子学与计算机,2006(2):68-75.

[3]黄名选,严小卫,张师超.基于关联规则挖掘的查询扩展模型研究[J].现代图书情报技术,2007(10):47-51.

[4]黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.

[5]黄名选,严小卫,张师超.完全加权关联规则挖掘及其在查询扩展中的应用[J].计算机应用研究,2008,25(6):1724-1730.

[6]支凤麟,徐炜民.基于主题的个性化查询扩展模型[J].计算机工程与设计,2010,31(20):4471-4475.

[7]徐静秋,朱征宇,谭明红,等.基于二级向量的搜索引擎个性化服务模型[J].计算机科学,2007,34(11):89-92.

[8]Zhengyu ZHU,Yunyan TIAN,Kunfeng YUAN,Yong YANG.An Improved Web Document Clustering Method.Journal of Computa tional Information Systems,2007,3(3):1087-1094.

[9]Khan M S,Khor S.Enhanced web document retrieval using automatic query expansion[J].Journal of the American Society for In formation Science and Technology,2004,55(1):29-40.

未来搜索引擎优化分析 篇6

关键词:网络,搜索引擎,用户体验

随着现在互联网技术的发展, 搜索引擎也变得越来越重要。虽然它只有十几年的历史, 但我们不得不承认它确实改变了我们的生活。因此, 也确立了它在Web的上地位。据统计, 它已经成为了继Email之后的第二大Web应用。有需求那么就有产品, 许多公司也纷纷将自己研制的搜索引擎推向市场, 受到了网民的关注和喜爱。虽然用途是一样的, 但是其特点却又不同。从目前的市场来看, 谷歌和百度占据了搜索引擎的大半壁江山。然而现有的搜索引擎的目标和定位都有着缺陷。

搜索引擎是很据一定的策略、运用特定的计算机程序从互联网上搜集信息, 在对信息进行组织和处理后, 为用户提供检索服务, 并将用户所要检索的相关信息展示给用户的系统。

现在全球的搜索引擎有很多个, 但是主要分为3种:.全文索引、目录索引、元搜索引擎。

随着Internet的强势发展, 人们对信息的获取也有了更高的要求。首先就是WEB2.0的用户相比以前有了很大的不同, 他们正在由单纯的信息消费者向生产者双重身份转变。这种转变, 从模式上可以概括为是单纯的“读”向“写”和“共同建设”发展。这也体现了互联网的第一规则:“用户需要表达”。只要有机会和便利, 网民就不会满足于只是被动的信息接受者, 他们需要表达, 希望驾驭自己的传媒, 而不是受其掣肘。也正因为这样, 很多研究者也正在克服重重困难, 探索如何有效地发现在这里面提取有用的信息给用户。各大搜索引擎要想巩固和强化在搜索市场的地位, 就必须发展搜索技术, 提高竞争力。针对各种挑战, 搜索引擎如何应对呢?针对用户各种各样的需求, 搜索引擎已经到了细分市场的时候, 多元化是搜索引擎的必然之路。一方面, 针对大量的普通用户, 搜索引擎仍然致力于最广泛、最全面的信息检索;另一方面, 针对检索目的明确、查询要求精准的用户, 搜索引擎在特定领域和行业中发展, 推出更有针对性的垂直搜索系统, 为这些专业人士更好地服务。

随着多媒体信息在网络上的大量涌现和人们对多媒体信息需求的高涨, 知名搜索引擎如Google、Yahoo、百度、Lycos、All The Web等对于多媒体搜索的能力也在不断加强。它们或在一个统一的用户界面上提供资料类型选择, 或直接提供独立的多媒体搜索引擎。另外, 各种图像搜索引擎和各种娱乐搜索引擎也不断涌现。利用搜索引擎查找相关信息并不是终极目的, “搜索”和“发现”都只是手段和过程, 用户的最终目的是“获得”。鉴于此, 用户在使用搜索引擎时, 对速度的要求非常高, 甚至超过搜索准确度。因此, 搜索引擎的速度有三方面的意义:其一是信息搜集速度, 其二是信息处理速度, 其三是提供服务的速度。搜索引擎优化的全称是Search Engine Optimization, 简称为SEO。其实就是利用长期总结出的搜索引擎收录和排名规则, 对网站进行程序、内容、板块、布局等调整, 使网站更容易呗搜索引擎收录, 在搜索引擎相关的关键词的排名中占据有利的位置。但是主要分为两个部分, 一是站内优化, 二是站外优化。站内优化就是通过SEO手段使得我们的网站在搜索引擎友好和站内用户的良好体验度上升。这样的目的很简单, 就是为了让我们的网站在搜索引擎的排名考前并且得到很好的客户转换率。站外优化就是通过SEO手段帮助网站进行品牌推广, 这个过程可能涉及到的方式有竞价和广告。我们为什么要关心搜索引擎技术?这取决于“我们”指的是谁。普通百姓, 计算机专业学生, 科研人员, IT企业, 一般企业, …, 特别是, 政府科技发展政策研究与咨询部门, 应该有不同的原因。普通百姓了解搜索引擎能更有效地从网上获取信息, 计算机专业的学生则可能是为了未来一份满意的工作, …, 我们应该如何看待“搜索技术”?它是个产业吗, 它能是一个支柱产业吗, 或者它是否是我们必争的某种战略制高点?如果是, 我们该采取一条什么样的路线?这里, 我们不特别讨论搜索引擎作为一个产业的特殊存在形式 (商业模式既不同于汽车、钢铁等传统产业, 也不同于计算机软件、移动通信等IT产业, 甚至也不同于B2B、B2C等新兴互联网产业之类) , 但我们已经看到它不仅有了极大的市场价值 (例如Google目前的市值和Intel差不多了;任何大的门户网站, 如果不提供搜索, 则会在竞争中被淘汰) , 而且也具有社会文化发展和国家安全的意义。想象一个充分数字化、网络化的社会 (就是我们未来信息化社会的目标) , 任何信息 (不仅是网页) , 理论上都应该是能搜索到的, 无论是公开的、真伪不辨的信息, 还是受控的、权威性高的信息;无论是当前产生的信息, 还是以前出现过的信息;无论是网页信息, 还是数据库中的信息;无论是文本信息, 还是多媒体信息。这些, 都将更加突出地彰显搜索技术在社会经济、政治与日常生活中不可或缺的作用。搜索将无处不在。

有了上述, 我们似乎有理由说国家应该重视搜索技术了。那么, 应该怎么重视呢?这些都有意义, 我们欣喜地看到最近发布的“863计划”项目对搜索及其相关课题的重视, 我们认为, 在信息化社会, 信息资源是一个国家的基本资源。对各种各样的需求, 能够迅速精准地获得有关的信息, 也是国家竞争力的一个体现。搜索技术的核心, 是对信息建立起便于查找的索引。在前述广义信息的情形下, 任何商业搜索引擎都只能索引其中很少的一部分。因此, 一个有重要意义的举措就是发挥我国的制度优势, 同时利用市场机制, 逐步建立一个国家信息搜索基础设施, 从各种数据 (信息) 表示的标准化, 到就地存储与维护, 到分布索引与管理, 到联合响应搜索请求的协议规程, 到贡献的评估与回报, 形成一整套既有广度, 也有纵深的运行机制。特别地, 那时的搜索将不限于关键词匹配, 以种类丰富、质量可控的数据 (信息) 为基础, 还要有“深度搜索”, 满足综合的、复杂的信息需求。

参考文献

[1]李晓明.搜索引擎原理, 技术与系统第二版.科学出版社, 2012.

[2]王鹏.移动搜索引擎原理与实践.机械工业出版社, 2009

[3]梁春燕.Internet主题搜索引擎设计与研究.水利水电出版社, 2012.

[4]李树青, 韩忠愿.个性化搜索引擎原理与技术.科学出版社, 2008.

[5]藏锋者.实战SEO实用技法与案例剖析.电子工业出版社, 2011.

搜索引擎排序技术的优化 篇7

随着互联网的不断发展和日益普及, 网上的信息量在爆炸性的增长。当用户大致上知道自己要关心的内容, 但不清楚哪里能够找到相关信息 (即不知道哪些URL能给出这样的信息) 的时候, 搜索引擎能够为用户提供一个相关内容的网址及其摘要的列表, 由用户一个个试探看是否为自己需要的。搜索引擎通常指的是一种在Web上应用的软件系统, 它以一定的策略在Web上搜集和发现信息, 在对信息进行处理和组织后, 为用户提供Web信息查询服务。如下图1, 搜索引擎通常会提供一个网页界面, 让用户向浏览器提交一个词语或者短语q, 然后很快返回一个可能和用户输入内容相关的信息列表L。

这个列表中的每一条目代表一篇网页, 至少有3个元素:标题 (以某种方式得到的网页内容的标题) , URL (该网页对应的“访问地址”) 和摘要 (以某种方式得到的网页内容的摘要) 。通过浏览条目上的这些元素, 用户对相应的网页是否真正包含他所需的信息进行判断。

2 Google采用的Page Rank技术原理

2.1 Page Rank概念

众所周知, 目前Google搜索引擎是现在世界上最流行的搜索引擎, 也是最成功的搜索引擎。Google的排名运算法则主要使用了两个部分, 第一个部分是它的文字内容匹配系统, 也就是网页的相关性。Google使用该系统来发现与搜索者键入的搜索词相关的网页;第二部分也是排名运算法则中最重要的部分, 就是Google的专利网页级别技术 (Page Rank) 。

Google的核心技术称为Page Rank, 即网页级别。Page Rank技术能够快速的计算出网页的级别 (Rank) 。这个级别的依据是:当从网页A连接到网页B时, Google就认为"网页A投了网页B一票"。Google根据网页的得票数评定其重要性。然而, 除了考虑网页得票数 (即链接) 的纯数量之外, Google还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重, 并且有助于提高其他网页的“重要性”。为了得到更好的搜索结果, 尤其是使搜索引擎自动抵制那些基于对详细等级标准页面 (入口页) 内容的分析而自动生成的网页, 链接人气值的概念开始被开发了。因此, 一般地, 如果从其他网页链接到一个网页的数量越多, 那么这个网页就越重要。与链接人气值向比较, Page Rank的概念并不是简单地根据入站链接的总数。

Page Rank的原理类似于科技论文中的引用机制:谁的论文被引用次数多, 谁就是权威。在互联网上, 链接就相当于“引用”, 在B网页中链接了A, 相当于B在谈话时提到了A, 如果在C、D、E、F中都链接了A, 那么说明A网页是最重要的, A网页的Page Rank值也就最高。即越是重要的文件链接一个文件, 则这个文件就越重要, 但那些入站链接并不是被平等计算的。首先, 如果其他高等级的文件连接到它, 那么根据Page Rank的规则, 此文件的等级也高。如此, 在Page Rank概念中, 文件的等级由与它连接那些文件的等级决定的。它们的等级再由与他们连接文件的等级决定。因此, 文件的Page Rank由其他文件的Page Rank总递归之和确定。总而言之, Page Rank的等级是由整个网的连接结构决定的。

2.2 Page Rank算法描述

Lawrence Page和Sergey Brin在个别场合描述了Page Rank最初的算法。这就是PR (A) = (1-d) +d (PR (T1) /C (T1) +...+PR (Tn) /C (Tn) ) 式中:

PR (A) :网页A页的Page Rank值;

PR (Ti) :链接到A页的网页Ti的Page Rank值;

C (Ti) :网页Ti的出站链接数量;

d:阻尼系数, 0

于是可知, 首先, Page Rank并不是将整个网站排等级, 而是以单个页面计算的。其次, 页面A的Page Rank值取决于那些连接到A的页面的Page Rank的递归值。PR (Ti) 值并不是均等影响页面PR (A) 的。在Page Rank的计算公式里, T对于A的影响还受T的出站链接数C (T) 的影响。这就是说, T的出站链接越多, A受T的这个连接的影响就越少。PR (A) 是所有PR (Ti) 之和。所以, 对于A来说, 每多增加一个入站链接都会增加PR (A) 。最后, 所有PR (Ti) 之和乘以一个阻尼系数d, 它的值在0到1之间。因此, 阻尼系数的使用, 减少了其它页面对当前页面A的排序贡献。

3 搜索引擎的优化

3.1 优化Page Rank

虽然Page Rank技术在实践的检验中被认为是很成功, 但不代表Page Rank就不存在不足之处。从根本上说, Page Rank只是一种基于bake-link的算法, 它不能给页面的具体分类提供任何帮助, 细化检索范围。有分析统计表明, 用户平均察看返回结果不超过2页。据此, 笔者认为Google可采用某种反馈机制实现根据用户的需求、行为的反馈进行检索结果的Page Rank值的重新组织排序, 使一些较准确的、满足用户要求的记录, 能较为全面的显示在检索结果前面部分, 从而为用户提供更为有效的信息服务, 提高客户满意度。针对用户信息行为特征以及Page Rank技术的优点, 本文建议采用一种基于C/S模式的行为反馈再排序机制。如图2所示:

该机制在Server端继续运行Page Rank, 在Client端建立一系列跟踪反馈器, 记录下用户的所有行为操作并进行反馈, 根据这些行为操作, 系统可进行再次的行为分析描述, 产生与用户需求密切相关的特征量以及附加Rank值。最后, 系统根据收集的行为特征量, 进行再次的文本匹配, 产生一系列检索结果项, 同时Page Rank系统会在对附加Page Rank值进行Page Rank值复合的基础, 实现结果项的重排序, 使准确、有效、满足用户需求的记录项能充分全面地集中地显示在前面位置, 从而使用户能更容易地获得所需的各种信息。

3.2 添加个性因子

上面我们所说搜索引擎排名与Page Rank的关系是搜索引擎结果Ranking (排名列表) 是“Page Relevance” (页面因子) 与“Page Rank”因素综合承继的结果

Ranking= (Page Relevance) x (Page Rank)

但是这样的排名方式是同样的搜索引擎对不同的任何人输入同样的查询值都会返回相同的结果, 但是我们每个人查询的目的都不同, 很有可能自己所关心的内容在前面2页都没有返回。这样就导致搜索效率的低下和用户的流失。作者认为可以在排名技术上再加上新的因子, 即除了页面因子和Page Rank值之外有一个新的因子来对排名进行一定的影响, 即针对用户行为来制定个性化搜索服务的相关因子。本文暂时命名为个性因子 (Personality) 。即把上述的公式扩展为:Ranking= (Page Relevance) x (Page Rank) x (Personality) , 本文假设对个性因子值的确定可以有个初步的假设公式为:Personality= (times) +relevance) , 而之所以采用加的方式, 因为若用户对某一个网页进行点击很多的次数时, 即使该网页的其他判定值不是很高, 但是由于该用户足够喜欢该网页, 搜索引擎没有理由不为这个用户把该网页放在第一位。这样得出一个合理的排序值是由若干方面的因素综合而成的, 排序算法的关键在于确定这些因素并求解, 最终依据系统需求形成一个综合的值供查询时排序显示。

4 总结

随着互联网上信息量和信息种类在不断增加, 并且上网人数剧增以及网民成分的变化, 搜索引擎要覆盖所有的网上信息查找需求已出现困难, 因此各种主题搜索引擎, 个性化搜索引擎, 问答式搜索引擎等纷纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用, 但随着互联网的发展, 我们相信它们的生命力会越来越旺盛。而为了进一步满足个人的需要, 个性化的服务将会是一种必然的趋势, 通用的检索系统不可能满足不同背景、不同目的和不同时期的查询请求。我们衷心的希望在不久的将来出现交互式个性化的新型搜索引擎技术的出现为用户的信息检索带来更大的帮助。

摘要:搜索引擎面临的一个主要问题就是如何使得用户所关心的网页能在搜索后的结果能够排序靠前或者说是重要的网页能够获得较好的排序位置。这个就涉及到本文所提到的搜索引擎技术中的一种——搜索结果排序技术。本文提出了一种在原有的排序机制中加入新的排序因子, 即个性因子。这是根据个人的查询习惯来影响查询结果的排序情况。

关键词:搜索引擎,排序技术,PageRank,个性因子

参考文献

[1]蔡国民, 王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报 (自然科学版) , 2006, 27 (5) :17-19.[1]蔡国民, 王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报 (自然科学版) , 2006, 27 (5) :17-19.

搜索引擎优化的作弊与防范 篇8

一、搜索引擎优化作弊的概念

搜索引擎作弊,或SEO作弊是指为了在搜索引擎中提高排名的目的而欺骗搜索引擎的行为。它与搜索引擎优化最大的区别在于,搜索引擎优化是一种利用搜索引擎的搜索规则来提高网站在有关搜索引擎内的排名。

二、搜索引擎优化作弊的常见形式

1、隐藏文本或隐藏链接

一般指网页专为搜索引擎所设计,网页内含的文字不能被人们所看到,但是却能被搜索引擎看到。在形形色色的隐藏技术中,最常见的就是把文本或链接文字的字体颜色设置为与背景色相同或十分接近。

2、恶意更换页面内容

一般发生于先向搜索引擎提交一个网站,等该网站被收录后再以其它页面替换该网站。“诱饵行为”就属于此类偷梁换柱之举:创建一个优化页和一个普通页,然后把优化页提交给搜索引擎,当优化页被搜索引擎收录后再以普通页取而代之。

3、关键词堆砌

关键词堆砌是指在页面上堆放大量与页面主题相关或无关的关键词,这样做是为了增加某些关键词的词频以提高页面相关性。它通常分为误导性关键词和重复性关键词两种形式。

4、域名重定向

简单的说就是通过各种方法,例如使用刷新标记、CGI程序、JAVA等将各种网络请求重新定个方向转至其他位置。常见的重定向包括301 redirect,302 redirect和meta fresh三种。

5、门页

门页是指针对搜索引擎而进行特别优化的页面,当用户访问门页时,会自动或被引导至另外一个内容完全不同的页面上。门页可能是针对一个搜索引擎,也可能是针对多个不同的搜索引擎。由于每个搜索引擎的算法会存在或多或少的差异,不同的搜索引擎会有不同的门页,在对不同的搜索引擎蜘蛛程序返回相应的门页。

6、镜像网站

广义上的镜像网站是指那些复制或者抄袭其他网站内容的网站。常见的镜像网站有三种:克隆网站,数据采集网站,多域名网站。

7、作弊链接技术

指由大量网页交叉连接而构成的一个网络系统。这些网页可能来自同一个域或多个不同的域,甚至可能来自不同的服务器。这种方法在建站初期的时候可能影响不会太大,毕竟搜索引擎要发现这些网站群的关系是需要一定的时间的。假如这些网站的链接超过了半年,依旧大量的相互链接,,很有可能这几十个网站都会被察觉。

三、搜索引擎优化作弊的防范措施

1、搜索引擎要反作弊的重要性

搜索引擎是各大搜索公司的生命。因此,对于上述提到的搜索引擎作弊行为,谷歌,百度这些知名公司总是想方设法防范的。搜索引擎作弊不仅直接破坏了搜索引擎网站赖以生存的关键,而且也破坏了搜索引擎网站获得收益的来源。近几年来谷歌、百度等已经在反作弊上做了很大的工作,并对这些作弊行为给出了相应的惩罚措施。

2、搜索引擎反作弊方法

像谷歌,百度等这样的知名公司,总是不断的运用各种技术提高自己的搜索质量。因为作弊具有共性,只要抓住这些共性就可以解决一类问题,一类类问题的解决,作弊的影响就可以降到最低点。

(1)基于网页特征分析的方法

从大规模的网页实验集中提取网页特征,然后通过统计的方法对特征进行分析,得到作弊网页和正常网页的不同特征。根据这些特征建立一个网页分类器来实现自动的把网页分成作弊网页和正常网页。最常见的方法是建立常用的spam列表并对其分类和分级,通过常用的spam列表分析相关词汇重复使用率,密度,分布等情况,进而判断是否存在恶意重复现象。

(2)基于页面链接结构分析的方法

通过分析网页的链接结构来判断某网页是否是作弊页面,这种方法主要通过算法来实现,主要的思路是从正面出发的hilltop算法、trustrank算法和从反面出发的badrank算法。通过不同的算法对作弊进行防范,不同的排序算法会有不同的排序依据,不断的寻找作弊者不能控制的排序依据使其无法进行作弊行为。

(3)检测隐藏技术的方法

通过分析使用隐藏技术的网页的特征,一些简单的隐藏技术很容易被检测出来。例如:对于隐形页面作弊如果发现页面内部大量文本采用和背景相同的颜色设置,则确定为作弊页面;对于重定向、伪装页面可以使用网络爬虫来检测。搜索引擎可以让一部分爬虫伪装成普通用户来访问站点,对网站进行测试,看网站对用户和搜索引擎返回的内容是否一致,如果不一致则很大可能是在作弊。

(4)加强人工审查

虽然通过技术手段反作弊的精准度接近于100%,但也不可能完全的消除,只能有效的减少。当技术手段不能解决问题,就用人工来解决。人工审核是最后的补充,前面的技术方法可以将需要审核的作弊网站范围大大缩小,人工审核是判断搜索引擎作弊的最后方法,也是最准确的方法。

四、总结

如今,反作弊技术已经日趋成熟,搜索引擎在对付网页作弊的工作上取得了不错的效果。但是,商业利益的诱惑让作弊技术不断的更新和改进,所以搜索引擎很难从根本上消除网页作弊现象。因此,作弊和反作弊的斗争将是一个长期的反复的过程,同时也变相的推动了互联网搜索行业的不断创新和发展。我们相信,随着反作弊技术的发展和成熟,在识别和对付作弊网页上一定可以取得更好的成绩。

参考文献

[1]网利刚,赵政文,赵鑫鑫。搜索引擎中的反SEO作弊研究[M].计算机应用研究.2009.

[2]张兴华.搜索引擎技术及研究[J].现代情报.2004.

[3]格拉夫,库辛.搜索引擎优化[M].清华大学出版社.2007.

上一篇:体育课外活动下一篇:协同主义