搜索引擎的研究现状(精选10篇)
搜索引擎的研究现状 篇1
摘要:从搜索引擎的现状入手, 介绍它的原理、构成和分类, 对常用的索引器和搜索器算法进行研究, 比较并分析了当前国内外常用的搜索引擎工具, 并对搜索引擎的现状和未来进行了总结和展望。
关键词:搜索引擎构成,算法,搜索工具
0 引言
随着信息爆炸时代的来临, 互联网上充斥着大量的信息, 越来越让人应接不暇。在这种情况下, 用于信息检索的搜索引擎工具应运而生, 它帮助人们在海量信息中寻找着自己感兴趣的内容, 成为了网民生活中不可缺少的一部分。
本文首先介绍了当前搜索引擎的发展情况, 然后介绍常用的搜索算法, 并对当前国外常用的搜索工具进行了比较分析, 在文章的最后进行总结和展望。
1 搜索引擎的现状
1.1 搜索引擎的原理
搜索引擎 (Search engines) 实质上是一种网页网址检索系统, 提供分类和关键词检索的途径。它根据检索规则从其他信息服务器上得到数据并对数据进行加工处理, 自动建立索引, 并通过检索接口为用户提供信息查询服务, 能够自动对网络资源建立索引或进行主题分类, 并通过查询语法为用户反馈相应的资源[1]。
1.2 搜索引擎的构成
搜索引擎主要由搜索器、索引器、检索器和用户接口等四个部分组成。
(1) 搜索器。搜索器的功能是在互联网中漫游、发现和搜集信息。它要尽可能多、尽可能快地搜集各种类型的新信息。同时因为互联网上的信息更新很快, 所以还要定期更新己经搜集过的旧信息, 以避免死连接和无效连接。
(2) 索引器。索引器的功能是理解搜索器所搜索的信息, 从中抽取出索引项, 用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法[3]。一个搜索引擎的有效性在很大程度上取决于索引器的质量。
(3) 检索器。检索器的功能是根据用户的查询在索引库中快速检出文档。进行文档与查询的相关度评价, 对将要输出的结果进行排序, 并实现某种用户相关性反馈机制。
(4) 用户接口。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
1.3 搜索引擎的分类
根据不同的分类方法, 可以对搜索引擎进行不同的分类。常见的分类方法主要有五种:按搜索内容的详略划分, 按搜索资源的来源划分, 按覆盖范围划分, 按检索方式划分和按检索机制划分[3]。
2常用搜索算法
搜索算法主要是应用于搜索器和索引器上, 这里着重介绍二种用于索引器的算法:根据Web结构对网页内容进行分类的索引器算法和根据用户需求对网页检索进行分类的索引器算法, 以及一种搜索器算法即增量方法的搜索器。这三种算法在实践中具有广泛的应用。
2.1 根据Web结构来对网页进行内容分类
传统的分类方法为基于网页文本或利用人工进行分类, 由于网页文本可能并不含有准确表示网页所属类别的关键字, 而利用人工分类又可能有较大的主观性而且速度较慢, 故可以利用Web结构进行较为准确客观快速的分类[4]。
(1) Web结构。一个网页可以分为标题 (title) 、网页文本 (Full text) 、锚文本 (Anchor text) 、扩展锚文本 (Extended anchor text) 和链接 (Link) 。
(2) 实现步骤。利用Web结构对网页进行分类, 需要如下的步骤: (1) 摘取网页重要的特性来训练一个基于网页文本分类的分类器; (2) 利用锚文本和扩展锚文本来产生虚拟文本代替原有的网页文本, 再对虚拟文本进行分类; (3) 将步骤 (1) 和 (2) 产生的结果进行合并来提高准确性。
(3) 小结。通过将基于页面文本、锚文本、扩展锚文本三种分类方法合并, 分类的准确性可达到90%以上, 而单独利用一种方法最多只有75%左右的准确性。
2.2 根据用户需求对网页检索进行分类
网页不仅可以根据其内容有不同的分类, 根据用户使用目的的不同, 也可以进行分类。通过对用户需求进行分类, 再把网页分成对应的类别, 可以提高网页检索的准确性。
2.2.1 用户需求分类
用户需求可以分为搜索主题、搜索主页、搜索服务。
(1) 搜索主题是指用户输入关键词, 寻找这个词的解释、说明, 一种“是什么”的搜索, 是搜索信息的。如“堰塞湖”、“什么是堰塞湖”。
(2) 搜索主页是指用户寻找某一特定网站的具体网址, 是一种“在哪里”的搜索。如搜索“中南大学主页”。
(3) 搜索服务是搜索提供相应服务的网页或告诉他如何得到某一服务的网页, 是一种“怎么办”的搜索。如“买奥运门票”。
2.2.2 分类方法
由于分类方法的相似性, 这里只讨论对搜索主题、搜索主页两种需求进行分类的方法。常见的有四种分类方法。
(1) 利用关键词词性。主页搜索通常只含有名词, 主题搜索含有动词, 如果含有除系动词以外的动词就认为是主题搜索。
(2) 作为链接文本的出现率。若某关键词经常出现在链接文本中, 则认为该搜索为主页搜索。
(3) 关键词常属类别。有一些词通常常用于主题搜索, 而另一些词常用于主页搜索。
(4) 关键词间的依赖性。若几个词间的依赖性大于设定的主题搜索阈值或主页搜索阈值, 则认为它是主题或主页搜索。
2.2.3 小结
由于用户在输入同样的关键字时, 可能有不同目标, 所以无法达到完全准确分类, 通过对上述四种分类方法的合并, 可以有效提高分类的准确性。
2.3 利用增量方法实现搜索器
由于Web中网页经常发生变化, 搜索引擎为了保证搜索结果的有效性就要经常利用搜索器更新数据库中的现有网页。通过对Web中网页更新的观察, 发现不同类型的网页具有不同的更新频率, 可以根据网页的特性, 逐渐地对数据库中的信息进行更新。
2.3.1 相关数据的调查
通过对25, 000, 000个网页四个月的观察, 发现了Web中网页的变化具有如图1所示的规律, 不同后缀名网页生命周期具有如图2所示的规律。
(1) 网页变化规律。横坐标表示发生变化的时间间隔, 纵坐标表示发生变化的网页数量占总网页的比例。
(2) 网页生命周期。横坐标表示网页生命周期的长短, 纵坐标表示具有这种生命周期的网页数量占所有网页的比例。
2.3.2 增量搜索器设计思想
通过2.3.1的分析, 我们可以设计稳定的爬行器 (steady crawler) , 它持续地访问Web中的网页并增量地更新。通过使用增量搜索器可以保持数据库中信息的及时性并提高数据库中信息的质量。
设计增量搜索器时, 根据网页的更新周期, 来决定不同的时间间隔再次访问哪些不同类型的网页, 又根据网页的生命期决定用新发现的网页替换哪些网页[5]。
2.3.3 小结
与传统的周期性更新数据库全部信息的方法相比, 增量搜索器通过有效利用Web中网页更新和生命周期的特性, 提供了一种更有效率, 更节省网络带宽, 并能更加及时发现网络中新页面的搜索器方法。
3 具体实例
介绍和分析了国内外著名的搜索引擎工具Google (谷歌) , 百度和Yahoo (雅虎) 。
3.1 Google
Google成立于l997年, 是目前规模最大的搜索引擎。Google的搜索规则:以关键词搜索时, 返回结果中包含全部及部分关键词;短语搜索时默认以精确匹配方式进行;不支持单词多形态和断词查询;字母无大小写之分.默认全部为小写。Google借用Dmoz的目录索引提供分类目录查询, 默认按PageRank的分值高低对网站进行排序。
3.2 百度
百度成立于2000年, 是全球最大的中文搜索引擎, 主旨是“让人们最便捷地获取信息, 找到所求”, 同样采用基于内容的搜索方法。网页的排名根据关键词分数, 域名权重, 链接分数, 用户数据, 网站内容分数和人干干预六大因素来计算PageRank[5]。
3.3 Yahoo
Yahoo, 曾经的搜索引擎之王, 最早的目录索引之一, 也是目前重要的搜索服务网站, 其数据库中的注册网站无论是在形式上还是内容上质量都非常高。由于Yahoo的分类库是由人工维护的, 也不提供全文关键词检索服务, 因此对于较为专业偏僻的查询很难提供满意的结果。
4 结语
不可否认, 搜索引擎自身技术还存着一些有等解决的问题, 如语义检索、内容检索等, 视频检索也越来越成为人们关注的重点之一。
搜索引擎的未来发展方向, 主要有网站内和企业局域网内搜索引擎的普及化, 某一领域内的搜索专业化, 搜索内容的多样化, 搜索形式的个性化、智能化等。
参考文献
[1]Amit Singhal and Marcin Kaszkiel, "A Case Study in Web Search using TREC Algorithms", International World Wide Web Conference (WWW) , 2001.
[2]Charu C.Aggarwal, Fatima Al-Garawi and Philip S.Yu, "Intelligent Crawling on the World Wide Web with Arbitrary Predicates", International World Wide Web Conference (WWW) , 2001.
[3]In-Ho Kang and GilChang Kim, "Query type classification for web document retrieval", SIGIR Special Interest Group on Information Retrieval (SIGIR) , 2003.
[4]候越先, 张鹏, 于瑞国.基于内容相关性挖掘的反馈式搜索引擎框架[J].天津大学学报, 2008
[5]袁津生.搜索引擎与信息检索教程[M].水利水电出版社, 2008
百度搜索引擎的媒介化研究 篇2
从国内搜索引擎行业竞争情况来看,目前百度、谷歌的搜索引擎营收份额之和超97%,基本垄断搜索引擎市场。但在实际运作中,搜索引擎已经不仅仅是一个提供信息方向和交流的平台那么简单,它逐渐发展成为一种新型媒介,通过用户创造内容,通过类似“百度新闻”“google新闻”“新闻热搜词”控制信息的流动,引导信息消费,进行议程设置,起到舆论引导和监督作用,间接或直接影响到人们认知世界的方式。
中国第26次互联网发展状况统计报告披露,2010年上半年,搜索引擎用户规模已达到3.2亿人,在网民中的使用率达到76.3%。正因为搜索引擎成为了人们获取信息的主要途径,它的媒体特质也就凸最出来。
2003年7月,百度新闻推出,它利用强大的搜索引擎技术,针对新闻信息源的点击和排列情况进行自动化的编辑和处理,不含仃何人工编辑成分,没有新闻偏见,真实地反映每时每刻的新闻热点,突出新闻的客观性和完整性。2010年8月7日,在由中国互联网协会主办的中国网站排名中,我们可以看到百度搜索新闻位居新闻分类综合排名的第六位(数据截取于2010年8月7日中国网站排名);而在之前的统计数据显示,谷歌资讯和百度新闻持续地亮卡H在新闻网站排行榜前10名。
一副刊PK百度贴吧、MP3、图片等
所谓“副刊”,百度百科定义为“报纸上用文学体裁反映社会、文岂色彩较浓的、能给读者提供美的享受的固定版面,定期出版,·般有刊名”。互联网时代,副刊的概念有了更大的外延,它不仅包括报纸刊登的文艺性的版面,更包括娱乐、消费及休闲资讯。在搜索引擎中,为了满足用户的多元需求,进一步提升搜索引擎作为互联网人口的地位,国内各搜索引擎厂商服务更加多元化,增加了浏览器、输入法、网络社区、网络视频、电子商务等不同领域的投入。以百度为例,类似副刊性质的种类繁多,而且占据了相当重要的比例,百度贴吧、空间、MP3下载、视频搜索、地图搜索、手机娱乐、风云榜、游戏类等。
这些“副刊”内容丰富多彩、形式多样,极大地增加了网民对网站的黏性和依赖性,不仅富有教育意义,而且能够启迪智力、增长知识、休闲娱乐,为受众所喜闻乐见。同时,搜索引擎的“副刊”质量对搜索引擎网站的点击率和流量也有着很大的影响。
二、广告PK搜索排名、关键词广告、竞价排名
根据百度百科的定义,搜索引擎广告是指“广告主根据自己的产品或服务的内容、特点等,确定相关的关键词,撰写广告内容并自主定价投放的广告;当用户在互联网上搜索到广告主投放的关键词时,相应的广告就会展示(关键词有多个用户购买时,根据竞价排名原则展示),并在用户点击后按照广告主对该关键词的出价收费,无点击不收费”。
竞价排名是一种按效果付费的网络推广方式,由百度在国内率先推出。企业在购买该项服务后,通过注册一定数量的关键词,其推广信息就会率先出现在网民相应的搜索结果中。比如企业在百度注册“洗衣机”这个关键词,当消费者寻找“洗衣机”的信息时,企业就会优先被找到。同时,百度按照给企业带去的潜在客户访问数收费。百度负责人自称,百度已经覆盖95%的中国网民,竞价排名收入占百度总收入的80%以上。
三、百度具有大众传播媒介的社会功能
1948年,拉斯韦尔在文章《传播在人类社会中的结构与功能》中,将传播的基本社会功能概括为环境监视功能、协调关系功能、传承文化功能和娱乐功能。
(一)环境监视功能
自然和社会都在不断地变化和发展中,人类必须了解并适应这些变化和发展,才能使自身适应并生存下去。因此,大众传播对社会的发展起到了“嘹望哨”的作用。
2008年“5·12”汶川大地震中,搜寻失踪的家人,定位飞机降落点,哪里出现新的险情,百度搜索引擎都能及时反映之出来,成为人们获取汶川地震信息的重要渠道。
在这次震灾中,受灾的地方右一个中学教师,在百度贴吧发布了他同3000人受困灾区的消息,很快地受到了关注,当地政府就因为这个知道了这件事并展开积极的救援行动。通过贴吧及时传递当地灾情,充分发挥搜索引擎的优势,抓取各大网络媒体的地震救援信息,以便在第一时间迅速传递信息。应该说,无论是谷歌还是百度,搜索引擎在灾害期间、突发事件期间、重大事件期间提供的服务都很及时,数据来源也较广,更新较快,极大地满足了人们的信息需求,更为政府部门及民众提供了重要的参考数据和信息。
(二)协调关系功能
社会是一个建立在不同分工基础上的有机体,各组成部分之间的协调发展才是保证整个社会和谐、稳定的基础。大众传播正是通过执行联络、沟通、协调社会各组成部分的功能,使得参与传播的各方接受或接近传播的信息内容,从而达成共识,达到了社会关系的和谐。目前,通过网络搜寻查找他人信息是一些网民热衷的行为,俗称“人肉搜索”。比如,在百度上点击“犀利哥”,立即就有11100000多项结果出来。从最初的戏谑到关注他的生存状况,再到网友找寻他的家人,志愿者、民政局的介入,再到“犀利哥”成功回家。这种公开、透明、全角度的“人肉搜索”,对犀利哥事件的解决具有重要的意义。
在这里,包括搜索引擎在内的传媒引导受众,协调社会共同应对弱势的流浪汉遇到的困境,不仅表现在提供犀利哥的详细个人信息,激发受众情绪;而且还表现随着事态的进展,分析事件的来龙去脉、点评不良围观现象,并引发大家的思考。搜索引擎在这里不仅具备了舆论引导功能,而且重新设置传媒议程,引导公众议程。
(三)传承文化功能
人类社会的发展是建立在对历史的继承和创新基础上的。我们只有将前人的智慧、知识、经验加以记录、整理、保存并传给后代,才能使后人在前人的基础上进一步完善并发展和创造。因此说,大众传播是社会文化、精神遗产代代相传的重要保证。
实现信息共享,是人类一直以来的梦想。百度通过图书搜索、百度知道、百度百科等打造数字在线图书馆,让人们最便捷地获取信息,找到所求,要取就取,想用就用,随时随地。因此在某种程度上,搜索引擎已经成为了人类文化传承的重要载体。
(四)娱乐功能
为了满足人的精神生活的需要,大众传播媒介传递的信息,不只是告知性、知识性等务实的信息,也有娱乐性的信息,如文学的、游戏的、艺术的、消遣的等等。作为百度来说,它所包含的娱乐功能更是多种多样:图片搜索、MP3下载、视频搜索、网络游戏等。
四、百度具有新媒介个性化传播
特点
百度网络新闻传播,可以一对一、一对多或多对多地单向、双向甚至多向互动交流,带给信息传受双方的交互性体验,传播具有个性化。
(一)用户产生内容
在网络媒体发展初期,出现了第一代网站(web1.0),其特点在于信息量大、点击率高,涉及面广、影响面大,代表性网站有新浪、搜狐、腾讯。第二代网站(web2.0)则以百度、博客、SNS、WIKI为代表,其主要特征就是“用户产生内容”,彻底打破传统媒体的传受关系,以前的信息发布者和受众现在都成为了信息的发布者,而且可以进行互动,受众享有了前所未有的参与度,成为媒体的一部分。
百度贴吧是百度网站推出的一款基于关键词的搜索类主题讨论社区产品,是为网民量身打造的一个通过网络适时发布、获取、交流信息的平台。作为Web2.0时代的一款代表性产品,百度贴吧完全是一种用户驱动的网络服务,强调用户的自主参与、协同操作和交流分享。
百度贴吧自2003年12月设立以来,以迅猛的发展态势,取得了全球第一大中文社区的称号。百度用户注册一个账号进入贴吧界面,首页就有明星人物、动漫、游戏、校园等19个相关的主题讨论区目录,如果讨论区搜索栏有自己希望的关键词贴吧。可直接进入该贴吧,阅读已有的帖子就成为了贴吧的受众,也可以自己发帖成为贴吧的传播者;如果目录没有自己希望的相关关键词贴吧,用户就可以自己建立一个新贴吧,用户在该贴吧发布相关信息(帖子),成为贴吧的传播者。
目前,贴吧可以创立两类,一类是注册用户可以创建“公共贴吧”,吧内资源向所有用户公开,并且可以在百度搜索出本吧内容;另一类则是注册满1个月的会员可以创建“贴吧俱乐部”,限会员才能发贴,且帖子内容不会在百度搜索中出现,这个更适合小型群体,如本班同学,三五知己等。
贴吧的运行完全不依赖于传统媒介,而只是建基于用户的关键词搜索和系统自动生成,基本可以做到“所想即所建”,“所见即所求”。
由此可见,在搜索时代,传统的信息发布者和受众的界限完全打破,而且接收者可以产生内容,传播者、接收者享有了前所未有的参与度,成为媒体的一部分。同时,贴吧信息的建立完全由用户自由创建。贴吧用户可以自主创建任意话题的讨论区和内容,由此生成的内容是任何传统媒体和讨论区无法比拟的。
(二)个性化传播
搜索引擎从形式上来看本身是不提供信息的,一般不直接产生内容。但是当用户在百度上输入某个关键词时,譬如“九寨沟”,搜索结果就会在短时间内呈现在用户眼前,搜到的信息可能是旅游新闻、公司网站、天气预报、歌曲、图片、旅行社等,这些信息分属不同的制造者,依次可能是新闻记者、企业、气象局、歌手、摄影爱好者、电子商务网站等。也就是说,用户现在不是在单个的媒体“推”送出来的信息中被动选取自己需要的,而是在所有媒体中根据自己的特定需要,主动地“拉”出自己想要的个性化信息。同一主题的不同信息制造者和信息量,究竟需要哪种,由用户的搜索行为决定,用户成为信息传递,内容的决定者。
因此,从大众传播基本构成要素,大众传播社会功能、特点及传受双方的交互性看,百度搜索引擎已经在向媒介化方向发展,而且呈现出一个超越于传统大众媒体的新媒体,一种完全意义上的个人化媒体,一种自媒体。
参考文献:
[1]刘延章,面向网络信息:数据库与搜索引擎[M],西安:西北工业大学出版社,2007:209
[2]艾瑞,2010年2季度搜索市场达26亿百度份额首超七成[EB/OL]http://tech.sina.sina.con/i/2010-07-19/10344444326.shtml
[3][4]中国互联网络发展状况统计报告[R],2010-07-25
[5]尖山夫,搜索引擎竞价“以钱排名”之忧[N],辽沈晚报,2008-11-18
[6]沈皓瑜,搜索引擎的媒体特质正在凸显出来[EB/OL],腾讯财经http://finance.qq.com/a/20080531/001215.htm
[7]中凡,戚海龙,当代传播学[M],武汉:华中理工大学出版社,2000
[8]张晓林,走向知识服务:寻找新世纪图书情报工作的生长点[J],中国图书馆学报,2000,(5)
搜索引擎的研究现状 篇3
高中阶段正是学生成长的关键时期,语文教师的学识、眼界、世界观、人生观、价值观将会深深影响他们。语文教师在走进课堂之前,必须正视备课,你将以怎样的面貌呈现课堂,不仅影响学生对课程的喜欢程度,更影响他们的人生走向。然而“搜索时代”,许多高中语文教师的备课现状,让人难以满意,呈现以下几个特点。
备课时间短。“搜索时代”,教授一篇课文,设计一个教案,已不需要再翻教学参考书,到图书馆寻找各种教学资料,然后再花上几个小时写出教案来,你只要问一下“度娘”,那么这篇课文的所有教案就会显示出来,随便点击之一就可以了。如果想省点力,从中挑一个你觉得好的教案打印出来即可,只是几分钟的事情。如果想要个满意的教案,那你可挑出数个教案,然后把你所需内容重组一下,一个新教案就出来了,也就是几十分钟的时间。“搜索时代”,单在备教案这一点上,所用时间明显短了。再加上现在又流行集体备课,这备课时间更是少之又少。
备课内容单一。备课不仅只是备教案,还要备课标、教材、学生等。但现在,还有多少人在研究课程标准,以课程标准来指导教学?又有多少人在仔细研读教材,并创造性的加工教材?又有多少人的教学设计是从学生出发,真正站在学生角度来组织课堂?就是在课堂上朗读课文,也是从网上找个音频或视频来让学生听、看,许多教师从不在课堂上朗读。一个从不在课堂上朗读的教师怎么可能仔仔细细研读课文呢?一个不仔仔细细研读课文的老师,又何如能深入掌握文本并进行创造性教学?今天许多高中语文教师备课内容不但单一而且浅薄。
呈现手段单一。按理,时代发展到今天,备课内容呈现的手段应丰富多彩才对。以前是一支粉笔一张嘴,然后今天却成了一套多媒体设备一张嘴。“搜索时代”什么都能找到,教学设计、课文朗读、作业设计等,甚至有时连教学视频都有。许多高中语文教师,特别是年轻教师,上课打开多媒体设备,一切OK了。放放PPT,播播视频,稍作讲解,一堂课下来,也没见黑板上写几个字,也没听到教师声情并茂的朗读。可以说,今天的课堂已是从一种单一走向了另一种单一。
弱化个人教学能力的提升。“搜索时代”备课确实方便,但方便的同时弱化了高中语文教师自身教学能力不断提升的速度与深度。当然,不管我们以何种方式去备课、上课,终将随时间的推移,教学能力在不断提升。但提升的速度及深度是有区别的。你总是通过这种“拷贝”及另一种形式的“剪刀加糨糊”来备课,终将无法真正意义上来提升教学能力并使之达到一定的深度。教学能力不仅只是课堂教学内容呈现的能力,它还包括教学研究、学术研究等能力,甚至还有朗读、书写等最基本的能力。而过度的依赖搜索引擎,就无法真正地提升这些能力。
二、高中语文教师备课“搜索依赖症”的成因
懒惰是人的本性。搜索引擎的出现,进一步激发了人身上的惰性,使得许多高中语文教师在备课时患上了“搜索依赖症”。当然,这只是其中原因之一,其他原因主要体现在以下几个方面。
(一)师资紧缺,课程任务重
高中语文师资是紧缺的。江苏由于特别的高考模式,导致高中语文教师课程任务重,师资紧缺。你想想,如果高三语文教师带两个班,每周二十多节课,那他还有多少时间去备课?于是许多学校开始让高三教师带一个班,这样就导致高一高二师资的紧缺,再加上现在又鼓励生二胎,而女性教师比重大,这就导致师资的严重紧缺。师资紧缺,势必导致课程任务重;而课程任务重,必然在备课上少花时间。但课又不能不备,于是也就离不开“度娘”了。
(二)应试严重,刷题是常态
虽说如今是素质教育时代,但还是应试为主。即便在一些教育发达地区,那些高考录取率高的地区,它们的应试教育似乎更严重,不但每个周末被各门课程占领,甚至早上7点之前,教师们已在教室了。而每月一考已是高中校的必选了,每周一考也成了许多高中校的选项。每考一次都要成绩甚至排名。应试严重到如此地步,还有多少教师能静下心来备一堂课真正属于自己的课。所以,如今的高中语文教学,刷题已是常态。当刷题成为常态,谁还愿意去花大量的时间备课?
(三)繁杂事物,占据时间多
现代社会,对学校要求越来越高。各级部门对高中教育越来越重视,一些领导为了政绩,对教育相当重视。当然重视的同时,必然对高中教育的要求也高了,相应对高中语文教育的要求也在不断提高。要求高,管理也就严;管理严,相应检查就多。学校在采取各种措施促进教师专业化成长的同时,负面影响也随之产生,各类活动应接不暇,导致他们被动地去搜索、点击、下载。而一些地区为了解决师资紧缺,采用扩大班额的招数,也耗尽了教师的精力。
(四)职业倦怠,对教育失望
今日的高中语文教育现状让越来越多有思想的语文教师失去了工作热情,每天似陀螺一样的教育生活,让他们原本所渴望的充满诗意与快乐的课堂不复存在。追逐分数,让他们对高中语文教育失望透了。于是职业倦怠产生,对语文教育本身失去热情,甚至冷漠并产生距离。部分教师开始从事第二职业,也有些人投入文学创作,甚至一些人有离开教师岗位的想法。这种情形下,还有多少人愿意花大把的时间在备课上?
除了以上几种原因,高中语文教育队伍中确实也存在着一些思想落后、上进性不强的教师,他们确实没把备课当回事,也不愿把备课当回事。所以,依靠搜索引擎给你弄个教案出来已是最正常不过了。
三、高中语文教师摆脱备课“搜索依赖症”的对策
(一)要改变僵化的教育体制,让高中语文教师从应试教育中走出来
僵化的教育体制说到底就是应试教育制度。当升学率的高低成为学校好坏的最重要标准,当教师的绩效、职称等与考试成绩挂钩,当高考分数成为学生进入高校的唯一标准,我们有什么理由不应试?当一切唯分论时,高中语文教师是无法从应试教育中走出来的。可以这么说,当今中国的高三语文教师是一批最没有语文精神的人。如果语文没有了精神,那么语文教育还有多少价值?当然不是说教师愿意过这种语文教育生活,愿意这样不停地应试、刷题,他们也毫无办法。只要唯分论的紧箍咒套着,他们只能这样。所以,要改变目前高中语文备课不堪的现状,还语文更多精神,还课堂更多快乐,还教师更多自由,只有彻底改变僵化的教育体制。
(二)要重视师德师风的建设,进一步激发高中语文教师的教学热情
功利的社会风气,尴尬的教师地位,繁重的教学任务,逼仄的教育生活,让越来越多的高中语文教师对教育失去信心及信念。许多教师不但失去了工作热情,更看不到自己身上应有的社会责任,一些人是“做一天和尚撞一天钟”,上级任务能推则推,教学工作应付了事,备课问问度娘已是很给面子,甚至有的人整天淘宝、游戏、股票、微店。这种情形在高中校中虽不说比比皆是,但确实不是个别现象。为此,有关部门要重视师德师风建设,通过切实提高教师地位、净化社会环境、狠抓师德学习、建立师德机制等方法,努力营造良好的教育环境,让教师具有尊严,明白责任,激发他们的教学热情,让他们全身心地投入到语文教育中去。
(三)要转变现有的教学观念,重新使高中语文课堂充满生机与活力
高中语文教育大环境确实糟糕,但教师完全可以在自己的一亩三分地里创造出新天地。我们从以前的“一支粉笔一张嘴”到今天“一套多媒体设备一张嘴”时,你依然看不到课堂的生机与活力。语文课堂的生机与活力不在于形式的花哨,也不在于设备的先进,而在于思想的激烈碰撞、生命的精彩对话、心灵的真诚交流。而这些东西靠搜索引擎靠多媒体设备靠贫乏的语言是无法得到,它只能靠思想靠热情靠爱。为此,我们要转变现有的教学观念,更加注重语文教育本质的东西,通过提高自身语文修养,让自己更有思想;语文教师还要对教育本身充满热情,这样才能把这份热情传递给学生;更要对教育、对学校、对学生满怀爱意,有爱就会在语文教育生活中迸发智慧,从而让课堂充满生机与活力。
(四)要具有深刻的反省意识,明白语文教师自身专业发展的使命感
高中语文教师应该具有反省意识,明白自己在语文教育改革中的使命。使命感的缺失会导致教育改革停滞不前,应试教育大行其道;会导致师德缺失师风败坏,教师失去教育热情;会导致教学观的错位,导致教师人文精神的缺失,导致语文课堂灵性的泯灭和学生学习兴趣的丧失……而且,高中阶段是世界观人生观价值观的形成时期,语文教师必须明白语文教育在其中所负的重要责任。如果你的备课离不开“度娘”,你的课堂只是点点音频视频放放PPT,你的语文教学毫无创造意识,你又如何让自己的语文专业有所发展,你自己的语文生命又如何成长,你不发展不成长又如何带动学生更好更快的发展与成长?为此,每一个高中语文教师必须深知自己身上的使命,为高中语文教育春天的到来献出自己的力量。
摘要:高中语文老师备课依赖搜索引擎,过分“搜索依赖”对教师个人专业成长不利,影响语文教育改革。本文探究此种现状出现的原因,最后从四个方面提出相应对策,建议教师理性对待搜索引擎,消除“搜索依赖症”,努力提升自身语文素养,成为一名优秀教师。
关键词:搜索时代,高中语文教师,备课,现状,成因,对策
参考文献
[1]卢丽娜.幼儿园教师网络依赖症的成因和应对机制[J].好家长,2015(19).
搜索引擎优化策略研究 篇4
关键词:搜索引擎优化;网站优化;策略;seo技术
互联网的发展使得人们利用搜索引擎进行关键词查找以获取所需要的信息成为越来越普遍的方式。搜索引擎优化技术应运而生,搜索引擎优化即Search Engine Optimization,简称SEO。它是用来提高某网站在有关搜索引擎内的排名的一种方式,最终达到提升该网站的访问量,为网站做宣传的目的。
一、搜索引擎优化的重要性
近几年,随着我国互联网用户数量的大幅增加,搜索引擎市场发展速度飞快。目前,国内中文搜索引擎市场中,百度市场占有率最高。而在国际范围内,谷歌是全球最大的多语言搜索引擎。
搜索引擎已成为网络用户查找信息和资料的主要方式。根据全球最大的网络调查公司的一项调查表明,网站的访问量有一大部分都来自搜索引擎,搜索引擎已成为网站推广的一种重要手段。越来越多的企业开始利用搜索引擎优化技术提高网站的网络营销效果。
二、百度搜索引擎的收录习惯
目前,中文搜索引擎中百度baidu是中国互联网用户最常用的搜索引擎,全球最大的中文搜索引擎,可查询数十亿中文网页。百度在收录时有如下特点:
(一)重视首次收录的印象
在某些层面上百度是否收录网页人为的因素更多一点,因此在制作网站时要注意丰富网站内容,重视原创内容,网页关键词词与内容相关度高一点,能给百度较好的初次印象。
(二)对网页更新较敏感
百度搜索引擎经常更新,在搜索结果中都标明了收录时间。及时更新网站信息能够提高搜索排名。
三、搜索引擎优化策略
排除掉搜索引擎公司的竞价排名方式,如何使网站被主要的搜索引擎收录、获得较高的排名,就是搜索引擎优化策略所要解决的主要问题。
(一)关键词策略
关键词(keyword)是指用户在使用搜索引擎时输入的、能够最大程度概括用户所要查找的信息内容的字或者词,是信息的概括化和集中化。同时,一个网站的关键词是该网站中频繁出现的,对该网站内容的高度概括,对网站具体介绍的简练表达。
关键词在网站中出现的位置关系到网站的收录排名。关键词最好出现在如下几个位置:(1)网页的titile部分,title就是网站的核心。(2)网页的Meta Keywords部分。(3)网页的Meta Discription部分。(4)网页的body部分,最好在页面的最上部。(5)在网址url當中。(6)站内链接和站外链接的文本中。(7)图像alt标签中。
在关键词的选取方面也有一定的技巧。关键词要包含企业名称、产品和服务的相关内容,如介绍产品的特点、型号、适用人群,服务能够解决的问题等。如服装类型的网站,关键词可包含服装的材质、款式、适合人群,适合季节等。关键词还应善于利用地理位置,尤其是一些对位置要求比较高的企业,如家政服务、同城快递等。关键词还要注意时效性,在更新网站内容时,要保证关键词内容应该是最新的。要善于使用长尾关键词,长尾关键词的流量没有热门关键词那么大,但数量众多,竞争小,只需要一点点资源就可以排在前面,而且所有长尾关键词流量加起来不会比热门关键词少。更需要注意的是,长尾关键词由于语义更丰富,所带来的流量更加精准,转化率更高。此外,还可以通过调查来选取关键词,利用优化工具来选取关键词等。
在选取关键词时还应注意关键词与网站提供的产品与服务相匹配,不要将自身行业不相关的那些所谓的热门关键词出现在我们网站中,从而提高网站的访问量。同时,不要进行关键词的堆砌,搜索引擎会对堆砌关键词进行惩罚。
(二)链接策略
对于搜索引起而言,链接是提高页面权重的主要因素之一。链接又可以分为内部链接和外部链接,内部链接是同一网站域名下的内容页面之间的互相链接,它除了决定网站的逻辑结构,还影响到网站中各个页面的权重和相关性,做好内链优化可以提升搜索排名的位置,也能够带领搜索引擎蜘蛛对整站进行抓取。外部链接是通过其他网站链接到本网站的链接,外链优化有友情链接、软文链接、论坛推广、网站推广等形式,有助于快速提升本网站知名度和排名。通过内外链的不断优化,以及网站内容的逐渐充实,网站的整体权重会呈健康的上升趋势,并逐步提升网站在互联网中的排名。
(三)网站布局策略
合理的网站布局不但能够吸引上网用户的眼球,还能够起到搜索引擎优化的作用。
(1)DIV+CSS技术。目前,DIV+CSS技术已经逐渐取代了表格来进行网站内容的定位。这种技术对SEO的影响是显而易见的,由于其结构简单、符合标准,利用DIV+CSS架构的网站深受搜索引擎喜欢。(2)伪静态处理。一些做搜索引擎优化的人强调页面静态化,他们认为动态URL不利于搜索引擎抓取网页,严重影响网站排名。但是,目前如谷歌、百度等搜素引擎都能收录动态页面,使用动态页面的站点数远远大于静态页面的网站。其实搜索引擎对静态页面和动态页面并没有特殊喜好之分,可以做伪静态处理。以html一类的静态页面形式,但其实是用ASP一类的动态脚本来处理的。(3)目录。目前SEO界公认的说法是目录级别在3级以内,清晰简短的目录结构不仅有利于用户体验和网址传播,更是搜索引擎友好的体现。其次,目录的路径和文件名也是影响排名的一个重要因素,应该引起SEO人员的注意,根据关键词无所不在的原则,许多重要优化的页面直接命名为文件名。
(四)其他注意事项
不要将网站和作弊网站在同一台服务器上,不要盲目引入与网站的主题不相符关键字。注意网页的实时更新。注重首页内容。注重原创性。
四、结语
SEO对网站排名具有重要的价值,是网站推广的首选媒介。随着搜索引擎技术的进步,SEO策略也在不断改进。不管搜索引擎的算法如何变化,其都是围绕一个目标,那就是提供给搜索者真正有价值的网站。SEO策略还需要长期的实验摸索,总结经验。
【参考文献】
[1]刘远航.浅论SEO[J].科技资讯,2010(12)
[2]徐晓力.SEO及其策略研究[J].电脑知识与技术,2010(01):59-61
[3]范彦忠.SEO技术研究[J].计算机应用与软件,2010(01):160-164
[4]吴莉霞.浅谈搜索引擎优化策略[J].电脑知识与技术,2014(15):3662-3664
[5]雷军.浅析网站的搜索引擎优化(SEO)[J].科技信息,2012(27)
搜索引擎的研究现状 篇5
目前我国正处于信息化社会发展的关键阶段, 由于移动通信业务在我国获得了巨大的成功, 移动信息化将是未来信息化社会的重要组成部分。移动业务的普及极大地促进了移动搜索业务的发展, 它和目前的固网搜索业务将是互为补充、共同发展, 将是未来信息化社会建设中的两个生力军。移动搜索业务在我国获得了比较快的发展, 同时也存在一些的问题, 特别是在发展策略方面亟需突破和创新, 本文在分析我国移动搜索业务现状和问题的基础上, 对我国移动搜索业务的创新发展策略进行了研究并提出一些切实可行的创新发展策略, 未雨绸缪, 以期为祖国的移动搜索业务发展贡献绵薄之力。
2 移动搜索业务发展现状
中国移动搜索市场用户市场处于快速增长期, 移动搜索作为工具型的应用服务, 今后与移动IM、手机游戏、手机音乐等交互性、娱乐性的手机应用服务的配合将更加紧密[1]。
目前移动搜索业务主要商业模式为关键词广告和广告联盟。对于用户付费模式, 目前移动互联网用户对于移动搜索服务收费的接受度较低, 这主要归因于互联网搜索服务采用免费模式和用户对移动搜索使用粘性低。
用户使用WAP搜索服务的主要搜索内容中, 网页搜索比例达到69.6%[2], 其次生活信息、音乐、图片、新闻的搜索比例为41%左右[3], 而软件、小说、游戏等内容被搜索的比例相对较低。短信搜索服务, 对于邮编/区号/号码归属地、无线网址、列车时刻、飞机航班、票务查询、天气预报内容的储备相对比较丰富, 而且精准。当然也需要适当刺激用户娱乐搜索;尽量丰富用户搜索结果以供用户选择, 避免单一回复广告内容, 会引起用户反感;需要提高短信的回复速度。
3 移动搜索业务存在的问题
3.1 产业链缺乏协调
移动搜索服务提供商在产业链中的作用是巨大的, 如果移动搜索服务提供商不能很好的提供移动搜索服务, 那么产业链上的最终顾客就会流失, 必然会影响整条产业链的利润。而移动搜索服务提供商目前的盈利主要靠分得运营商的流量费, 加之目前移动搜索用户使用习惯需要培养, 其竞价排名和广告的收入有限, 而运营商却“坐享其成”, 这将严重挫伤移动搜索服务提供商的积极性, 不能协调好各方的利益, 充分调动产业链上各方的积极性。因此, 移动搜索产业链缺乏协调是目前比较突出的问题。
3.2 用户的使用习惯需要培养
对于一种新的搜索业务而言, 目前大部分消费者更习惯于使用固网搜索, 移动终端的作用主要还是打电话, 这种情况对于推广移动搜索业务是极为不利的。加上移动终端屏幕比较小, 阅读搜索到的海量信息不方便, 尽管终端朝着智能化方向发展, 但是智能化手机的成本高, 售价也相对较高, 消费者在购买方面需要权衡。加之移动搜索的信息反馈速度慢、短信搜索需要消费者记住相应的搜索代码、移动搜索的操作步骤繁琐等因素都严重地影响了消费者的使用和偏好。用户使用习惯的培养需要产业链各方的努力方能实现。
3.3 搜索的信息资源匮乏
由于移动搜索在我国起步较晚, 独立的WAP站点规模较小, 搜索内容有限, 且在内容上存在严重的同质化现象, 不能满足消费者日益增长的需求。与互联网上海量的信息相比, 移动搜索上的信息资源匮乏, 消费者在使用移动搜索时, 仅是下载图片、歌曲、进行位置搜索等, 目前的移动搜索还不能像互联网一样, 搜索到顾客想要的信息。
3.4 盈利模式不清晰
移动搜索的盈利问题, 对于移动搜索服务提供商而言是一个大问题。由于运营商仅提供网络, 移动搜索服务提供商从中分得流量费, 广告与竞价排名的收入受限, 移动搜索服务提供商存在严重的“烧钱”现象。每每提起移动搜索的市场潜力与前景, 都兴高采烈, 而一提到盈利问题, 移动搜索服务提供商都缄口不答[4]。
4 移动搜索业务的5P服务营销策略
消费者一般可以分为四类, 即年轻便利型消费者、捕捉时尚型消费者、稳健易用型消费者、保守费用型消费者。移动搜索服务的营销策略, 包括产品 (product) 、定价 (price) 、促销 (promotion) 、渠道 (place) 、有形展示 (physical evidence) 等“5P”策略, 都应围绕这四类目标消费者展开[5,6,7]。
4.1 移动搜索业务的产品策略 (product)
移动搜索服务提供商在移动搜索产业链上发挥着主导作用, 积极倡导合作共赢, 深入挖掘移动搜索客户需求, 将自身做大做强, 这样在与运营商进行合作分成谈判时, 方具有更大的话语权。移动搜索服务提供商应在保证自身利益分成的前提下, 充分利用运营商在移动搜索产业链中的优势, 如丰富的客户资源;良好的平台资源;政策制定者、监督者、产品上线的审批者及各种品牌优势等, 与运营商建立良好、平稳、共赢、持续的合作关系。在产品设计上, 应扬长避短, 回避自身缺憾, 发扬自己营销能力强、个性化服务提供水平高、管理机制健全且灵活等优点, 全力打造属于自己的移动搜索品牌。
(1) 与运营商合作经营
移动搜索服务提供商应与运营商建立建设性战略合作伙伴关系, 由运营商负责提供各种网络平台, 负责各种产品的上线、费用收取等工作, 而移动搜索服务提供商可以自己独立开发消费者需要的个性化内容, 也可以整合相关内容资源, 提供内容服务。
(2) 推广移动搜索服务提供商的门户网站
移动搜索服务应具有丰富的搜索内容资源, 针对目前手机用户登录移动互联网速度慢的情况, 应着重搞好技术研发, 提高搜索引擎的搜索效率, 为顾客提供方便快捷的服务, 增强顾客感知提高用户的满意度, 进一步培养用户对移动搜索业务的使用习惯。
针对四类目标消费群体, 结合移动搜索业务的使用偏好和习惯, 制定了以下产品策略, 如表1所示。
针对不同类型的消费者群体, 设计的产品包应紧密结合目标消费者群体的个性特点、偏好及对价格的敏感程度等一系列因素。随着移动搜索业务的发展, 本地搜索服务将是大势所趋, 且本地搜索服务不会再采用收取流量费的方式, 而会对消费者采取收取信息查询费等方式收费。所以本地搜索服务可以区分出高价值的消费群体和低价值的消费群体。但是高低价值的消费群体是不能相互取代的, 因其各有各自的市场, 各有相应的价值所在。
移动搜索业务进入成长期, 行业的进入者会越来越多, 各移动搜索服务提供商应细分消费群体, 明确自身的市场定位, 找准目标市场, 针对目标市场消费者的偏好, 制定出符合自身条件和发展的移动搜索产品策略。
4.2 移动搜索业务的定价策略 (price)
由于移动搜索业务的盈利模式必将朝着合作共赢的方向发展, 不可能存在产业链上的霸主, 运营商虽然具有较强的话语权, 但并不能完全掌控移动搜索业务的价格变动情况, 只能在流量费方面进行适当的定价。但随着内容提供商的兴起及本地搜索服务启动, 移动搜索服务定制费用将要逐步收取。
移动搜索服务提供商在制定移动搜索服务价格时, 应充分考虑不同目标市场群体的使用态度、使用意愿、感知有用性、感知易用性及社会影响力等因素, 并对不同的产品采取不同的优惠政策, 以吸引更多的用户使用, 培养用户体验。但必须避免和杜绝高价值的顾客使用低价值产品, 低价值的顾客使用了高价值产品的情况发生。
由于移动搜索业务发展处在成长期, 市场竞争会变得异常激烈, 如何扩大市场占有率, 争取更多的消费者, 成为新进入者的首要任务。对移动搜索业务的差异化定价, 对使用费用予以适当优惠, 这无疑对移动搜索服务提供商迅速占领市场是很有帮助的。在产品定价策略上, 移动搜索服务提供商应与运营商一道, 本着互利共赢的宗旨, 共同将移动搜索这块“蛋糕”做大, 开展更深层次的合作, 联合定价, 更好促进移动搜索业务的发展。不同产品包定价策略见表2所示。
4.3 移动搜索业务的促销策略 (promotion)
(1) 推广目标
推出移动搜索业务品牌“搜索也疯狂”, 树立品牌知名度, 建立品牌文化, 在广大网民中形成良好口碑和忠诚度, 带动增值业务用户的使用和发展。
(2) 推广策略
以品牌塑造为重点, 从时间和空间上分阶段和区域的进行有效的推广。
(3) 传播组合
结合移动搜索业务启动仪式和新闻发布会等活动, 报纸和IT专业媒体作宣传, 以新闻、产品介绍、深度报道相结合, 引导帮助大众树立起“移动搜索随手可及”的概念。
4.4 移动搜索业务的渠道策略 (place)
移动搜索服务提供商在渠道策略上, 应充分注意三个方面:首先是移动搜索服务提供商利用自身渠道来宣传移动搜索业务, 如未来百度可以在自己的宣传片中, 加入一段关于移动搜索的描绘。其次是充分利用运营商的宣传渠道, 与运营商建立深层次稳定的合作关系, 将移动搜索业务的宣传与体验设置到运营商的广告宣传中去, 让用户真正体会到移动搜索的易用、方便等特点。最后是与终端厂商建立合作, 可以将搜索软件内置到终端手机中, 方便消费者直接使用;也可以在终端厂商销售终端时, 在其促销和宣传中, 加入移动搜索业务的宣传与体验。
4.5 移动搜索业务的有形展示策略 (physical evidence)
由于服务的不可感知性[8], 不能实现自我展示, 必须借助一系列的有形证据才能向消费者传递相关信息, 顾客方能据此对服务做出评价和判断。
移动搜索服务的有形展示, 可以从两个方面着手进行:首先是移动搜索服务提供商可以自己举办专场促销及体验活动, 在形式多样的促销活动中, 让顾客真实的体会到移动搜索的特点, 展示出移动搜索与固网搜索的不同。其次是移动搜索服务提供商可以将移动搜索业务的有形展示委托给运营商来进行, 以3G体验为契机, 在中国移动、中国联通、中国电信三家运营商的3G体验区、促销活动、营业网点等地方加入移动搜索服务的促销和体验, 让顾客体会到移动搜索服务的时效性、易用性、个性化等特性, 向消费者传达移动搜索的相关信息, 提高用户的感知, 增加移动搜索的市场受众。
5 结论
本文通过对我国移动搜索业务现状和存在问题的分析, 提出了我国移动搜索业务在中国信息化社会转型中的创新发展策略, 对移动搜索服务的发展进行了一定的探索。
参考文献
[1]李怀斌, 于宁.服务营销学教程[M].大连:东北财经大学出版社, 2002.49-52.
[2]马龙龙, 李智.服务营销与管理[M].北京:首都经济贸易大学出版社, 2002.111-121.
[3]王振友, 陈莉娥.多元线性回归统计预测模型的应用[J].理论新探.2008, (5) .
[4]袁以美.马尔科夫模型在汽车市场预测中的应用[J].行业探讨.2008 (3) .
[5]马庆国.管理统计[M].北京:科学出版社, 2002.56-60.
[6]李怀祖.管理研究方法论[M].西安:西安交通大学出版社, 2004.
[7]韩璐.移动搜索业务的市场分析及研究[D].北京:北京邮电大学学位论文.2006 (6) :30-33.
网络搜索引擎的现状及发展探析 篇6
关键词:搜索引擎,现状,比较研究,建议,动向
随着互联网的快速发展,越来越丰富的信息呈现在用户面前,但用户却越来越难以获得其最需要的信息。为了解决此问题,网络搜索引擎应运而生。搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,经过对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”,搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。
1 网络搜索引擎的现状
1.1 网络搜索引擎的分类
搜索引擎按其工作方式主要可分为3种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
(1)全文搜索引擎。全文搜索引擎是大家最常用也最能体现搜素引擎技术含量的搜索引擎。它通过从互联网上提取各个网站的信息(以网页文字为主)而建成数据库,并从中检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。该类搜索引擎国外最具代表性的有Google、AltaVista、Teoma、WiseNut等,国内著名的有“百度”“天网”“悠游”等。
(2)目录式搜索引擎。目录式搜索引擎以人工方式或半自动方式搜集信息,在编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以给出的信息准确、导航质量高。其缺点是需要人工介入、维护量大、信息量少、信息更新不及时。该类搜索引擎的代表是:Yahoo、LookSmart、GoGuide等。
(3)元搜索引擎。元搜索引擎在接受用户查询请求时,它不仅通过自身力量,而且同时在其他多个引擎上进行搜索,并将结果返回给用户。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,有的则按自定的规则将结果重新排列组合。该类搜索引擎代表是:Infospace、Dogpile、WebC rawler、InfoMarket等。
1.2 搜索引擎的主要性能指标
通常衡量传统信息检索系统性能的参数有2个:①召网率(Recall)。它是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率。②精度(Pricision)。它是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个搜索引擎来讲,召回率和精度不可能两全其美,两者往往成负相关的关系,召回率高时,精度低,而精度高时,召回率低。
1.3 搜索引擎的主要技术
一个搜索引擎由搜索器、索引器、检索器和用户接口等4个部分组成。
(1)搜索器。搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息。
(2)索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。
(3)检索器。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
(4)用户接口。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。其主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
2 网络搜索引擎的发展动向
由于目前的搜索引擎提供给用户的附加信息太多,而真正对用户有价值的信息过少,无形中加剧了用户的信息负担。因此,提高引擎的搜索能力还需要做很多工作。
2.1 提高信息查询结果的精度与检索的有效性
用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的问题目前有3方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途。包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关,哪些不相关,通过多次交互逐步求精。二是用正文分类技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容类聚,减少信息的总量。
2.2 智能、个性化的搜索引擎
目前的搜索引擎,对于不同的用户,如果基于相同的关键词进行搜索,得到的结果基本是相同的,但由于用户的个人爱好、文化背景等不同,虽然使用的是同样的关键词,但是想要的结果却不一样。为了满足用户的个性化搜索需求,必须开发智能、个性化的搜索引擎。开发以自然语言理解技术为基础的搜索引擎,可以很好地满足用户个性化的需求。当然,这种智能搜索引擎应该将信息搜索从目前基于关键词层面提高到基于知识或概念的层面,要对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等,并能根据用户的搜索历史进行个性化分析,提供以用户为中心的智能信息服务。这样的搜索引擎具有信息服务的智能化、人性化特征,可以有效提高搜索引擎的服务质量和用户满意度。
2.3 采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构。2种结构各有特点,但当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高系统性能。除了用户接口之外,搜索引擎的各个组成部分都可以进行分布。搜索器可以在多台机器上相互合作、相互分工,进行信息发现,以提高信息发送和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。
2.4 XML搜索引擎
XML扩展标记语言,提供了一种标准化、可扩展的方法。XML将语义信息包含在描述半结构数据的文档内,解决了HTML的诸多问题,被认为是第二代因特网信息组织的格式标准。在XML文件中,标记内的数据都可以被看作一个元素,而每一个元素都可以作为数据的索引,搜索结果也可以只是一个文件的相关片断,因而搜索结果更为精确。与传统搜索引擎相比,XML搜索引擎搜索的对象不再是无结构的纯文本,而是有结构或结构不甚规则的XML数据,返回的结果也可能不是整个文档,而是XML数据中的某个元素。通过充分利用XML文档的标签所带来的上下文信息,大幅度提高信息搜索的准确率,从而提高搜索引擎的工作效率。XML搜索引擎的研究前景将是十分广阔的。
2.5“趋众模式”的应用
Direct Hit搜索引擎提出这样一种理念:多人选择访问的网站就是最重要或重要的网站。因此,对比较著名的网站按被访问的次数和时间进行重要性排队,把访问人数最多的网站排在最前面,检索时,搜索引擎按排队顺序依次访问,这不仅可以节省时间而且有较好的客观性和公正性,实际效果也会更好。另一种相似的理念是:被访问人数越多的网页越重要,因而可以依此重要性之高低排队。在查询时,搜索引擎根据用户的请求先访问重要性的网页,并顺延往下访问,这可大大提高检索速度。这种由大众确认的网站、网页重要性的方法,具有一定的客观性和公正性,实际效果也令人满意。例如:Lycos就采用了此技术。该技术操作快,信息反馈及时,内容准确性高。
参考文献
[1]陈树年.搜索引擎及网络信息资源的分类组织[J].图书情报工作.2004(7).
[2]李晓明,闫宏飞,等.搜索引擎:原理、技术与系统[M].北京:科学出版社,2005.
[3]徐宝文.张卫峰.搜索引擎与信息获取技术[M].北京:清华大学出版社,2003.
[4]俞士汶.计算语言学概论[M].北京:商务印书馆,2003.
搜索引擎的研究现状 篇7
搜索引擎营销, 是英文Search Engine Marketing的翻译, 简称为SEM。简单来说, 搜索引擎营销就是基于搜索引擎平台的网络营销, 利用人们对搜索引擎的依赖和使用习惯, 在人们检索信息的时候尽可能将营销信息传递给目标客户。现如今越来越多的企业开始使用搜索引擎营销, 也有越来越多的企业感受到搜索引擎营销给他们带来的优势。但是毕竟是一种新型的营销方法, 因此企业在实施这一营销方法的过程中自然会遇到一些问题。
1. 搜索引擎选择的问题。
对于企业来说选择搜索引擎应该是开始搜索引擎营销的第一步。目前常用的中文搜索引擎服务商有国内的百度、搜狐、新浪、网易等, 国外的中文搜索引擎服务商有Google、Yahoo。面对种类繁多的搜索引擎, 中小企业在选择搜索引擎的时候通常会遇到以下问题:首先, 众多的搜索引擎服务商让企业难于选择。对于刚开始实施搜索引擎营销的企业, 由于对搜索引擎服务商的市场份额和推广效果并不了解, 他们很难选择到最适合自己的搜索引擎, 对于资金实力雄厚的中小企业来说, 他们可以把广告资金分散投资在各个搜索引擎, 然后根据推广效果, 投资回报率等重新制定方案。可是大多数的中小企业都有着严格的资金预算很难做到遍地撒网。其次, 虽然中小企业把范围缩小在百度或者Google, 但是确定它们谁作为自己的主要搜索引擎也不是一件易事。由于百度的盈利模式有别于Google, 存在着对搜索结果的人为干扰, 受到有维权意识的用户质疑。同样Google也是以关键词广告作为盈利模式, 但Google严格遵守搜索的公平原则, 在商业利益和用户利益上做到了较好的平衡。要根据不同的客户对象, 从有利于提高用户转化率的角度出发, 作出合理的选择也是企业所面临的一道难题。
2. 搜索引擎优化的问题。
搜索引擎优化是一门很专业的技术, 由于很多企业不了解搜索引擎优化的原理及其科学的操作方法, 所以企业在实施搜索引擎优化的过程中会遇到很多问题。有些企业由于缺乏完善的搜索引擎营销计划, 可能过度依赖搜索引擎优化来取得好的排名, 而搜索引擎排名算法要不断定期调整, 使搜索引擎营销效果充满变数, 导致网络营销效果不稳定。更为严重的是, 有些企业为了追求短期排名的迅速上升, 可能会在网站的一个广告页面内放置大量与其业务有关的热门关键词, 但是很快被搜索引擎视为作弊, 排名由前列迅速下降到一百名以后, 使企业业务严重下滑。
3. 搜索引擎关键词费用的不断上涨问题。
由于越来越多的企业加入到搜索引擎广告的推广行列, 为了在有效的展示空间中, 获得更好的排名和用户的关注, 许多企业纷纷采用增加每次点击费用的方式期望获得好的排名, 这就使得搜索引擎竞价排名费用不断上涨。如果关键词价格再上涨, 就不能保证企业广告投入的盈亏平衡了。关键词广告的低成本优势是相对的, 虽然百度关键词竞价排名的最低起价是人民币0.3元, Google关键词广告的每次点击费起价是人民币0.15元, 单价看似不高, 但一个月上万次的点击量, 也会让一般的企业负担不起。无论是在百度还是在Google做关键词广告, 越是热门的关键词, 价格会越高, 随着竞价排名的竞争越来越激烈, 尤其是一些营销预算充足的企业加入到竞价排名的行列中来, 竞价排名的低成本优势将逐渐消失, 中小企业将面临新的竞争压力。
二、相应对策
1. 搜索引擎选择对策。
根据第三方调研机构易观国际发布的《2008年第四季度中国搜索引擎市场季度监测》, 图1显示, 从2008年搜索引擎运营商竞争格局上来看, 百度、Google以及Yahoo仍然占据这一市场的前三名, 三者共占到市场份额的95.8%。其中, 百度与Google的市场份额进一步提高。百度的市场份额由2007年的59.3%上升至2008年的62.2%, Google的市场份额由2007年的23.4%上升至2008年的27.8%。
资料来源:易观国际《2008年第四季度中国搜索引擎市场季度监测》。
鉴于百度和Google在中国的超高市场份额以及他们长久以来较好的推广效果, 建议企业主要选择百度和Google作为搜索引擎营销的平台。至于百度和Google谁作为企业的主要搜索引擎就需要根据企业的自身特点作出科学合理的选择。由于百度和Google的盈利模式和覆盖范围不同, 建议那些刚开始做搜索引擎营销的中小企业把百度作为主要搜索引擎, 而对于已经有着较为丰富的实施搜索引擎营销经验的企业来说, 建议他们考虑选择Google作为自己的主要搜索引擎。
2. 搜索引擎优化对策。
一些在网站优化方面领先的网站已经从中获得了极大的收益, 由此也吸引更多的网站加大了对搜索引擎优化工作的重视。搜索引擎优化是一项复杂的工作, 如果一个企业希望做好搜索引擎优化, 必须拥有自己的搜索引擎优化团队, 由专业的人员负责制定科学的规划。一般来说, 网站对搜索引擎优化的内容可以归纳为以下几个方面: (1) 网站栏目结构和网站导航系统优化。 (2) 网站内容优化, 包括网页标题、META标签设计、网页正文内容。 (3) 网页布局。 (4) 网站链接策略。
3. 合理的搜索引擎关键词定价。
关键词的点击价格主要由企业对ROI的预期和企业竞争对手的定价来确定。首先, 是竞争对手和企业共同决定了某个关键词的最高点击单价, 像百度、Yahoo、新浪等均采用竞价排名的方式, 只要愿意, 就可以出比别人高的价格取得最高排名。Google的关键词定价则要复杂一些, 它需要由企业确定一个最高的点击价格, 然后系统根据企业和竞争对手的报价以及点击率等因素综合确定排名位置。另外, 为了有效节省广告成本, 还应对目标群体进行锁定。百度和Google都提供了按语言和地区选择潜在客户群体的功能, 这一功能的实现是通过搜索引擎系统自动监测访问者IP地址所在地以及访问者所输入语言得到的。Google在中国目前还不能做到按地区进行选择, 如果想做中文关键词广告, 只能按国家选择“中国”。作为全球最大的中文搜索引擎, 百度已经可以精确到中国的各个省市。例如, 某公司由于主要业务只能在上海进行, 所以就设定让关键词广告只能出现在上海地区的访问者面前, 从而避免了由于外地访问者点击带来的不必要支出。
参考文献
[1]搜索引擎营销的特点[EB/OL].http://www.seozs.cn/yingxiao/yingxiao/2008-10-10/314.html, 2008-10.
[2]宋正刚, 张晓峰.中小企业搜索引擎营销模式初探[J].科技情报开发与经济, 2007, (5) :65-67.
[3]张晓玲.搜索引擎营销.企业营销的新亮点[J].商业文化.商业研究, 2008, (1) :15-17.
[4]冯英健.网络营销基础与实践:第3版[M].北京:清华大学出版社, 2007:185-199.
[5]冯英健.搜索引擎竞价排名的应用状况分析及建议[EB/OL].www.marketingman.net, 2003-06.
智能搜索引擎发展现状及关键技术 篇8
1 引言
随着信息技术的迅速发展和Internet的广泛普及, 信息搜索成为广大网络用户获取互联网信息的主要手段。在网络上信息量成几何级数的增长, 人们将怎样在网络上搜索自己需要的信息。传统的搜索引擎技术在日益庞大的信息量面前逐渐显得力不从心。在这样的状况下, 智能搜索引擎技术应运而生, 也成为当前搜索引擎技术发展的主要方向。
2 搜索引擎发展历史及现状
目前公认的第一代搜索引擎是以Yahoo为代表的人工目录分类导航检索的网站搜索, 它开始了互联网搜索的时代。这是最为传统的搜索引擎, 主要缺陷在于检索结果的相关性差, 检索结果杂乱无章且数量庞大, 与用户所想检索的结果差异太大, 无法做到较为精确的检索。
第二代搜索引擎是以Google为代表的, 基于关键词和特殊算法的搜索, 是依靠机器抓取的、建立在超链分析基础上的大规模网页搜索, 相较于第一代搜索引擎提高了查准率、查全率和检索速度。但是仍然不能满足网民的检索需求, 用户在信息检索过程中有仍存在查全率、查准率低, 检索多媒体信息的能力差等。
由此可见, 第一、第二代搜索引擎使用的技术难以满足用户快速准确查找信息的需求。造成这种情况的本质在于搜索引擎对要检索的信息仅采用机械的关键词匹配来实现, 无法对所检索的内容进行处理和理解达到智能检索的目的。将信息检索从基于关键词层面提高到基于知识 (或概念) 理解层面, 是解决问题的根本和关键。正是基于此需求, 近年来研究人员一直致力于改进Pagerank算法 (在孟涛的文章中有较全面的综述) , 由此来提高搜索结果的质量。
从第一代搜索引擎到第二代搜索引擎是质变过程, 而到第三代搜索引擎则是量变与质变的结合, 不仅提升了检索技术, 还向着智能化的方向发展。自从进入第三代搜索引擎, 全球都在不断探索和完善搜索引擎技术, 经过多年的探索和市场历练, 现今已露端倪。这一端倪包括两个趋势:一是以Goog le为主要代表技术驱动型理念, 还包括雅虎、搜狐等;二是以J wm guagua (精武门呱呱) 为主要代表的服务驱动型理念。以上两种类型的理念体现了第三代搜索引擎的智能化、人性化特征, 不再局限于机械的关键词检索, 可以直接对用户输入的检索词进行语义分析整合, 满足了用户更快、更准、更方便的查询需求。
3 智能搜索引擎的关键技术
智能化搜索引擎具有信息服务的智能化、人性化特征, 可以为用户提供更快、更准确的搜索服务, 一般包括人工智能、模式识别、语义分析、神经网络等智能搜索。目前面对这用户对搜索引擎的要求不断提高, 要求智能搜索的技术在不断更新, 相关的算法不断的优化。现在的搜索引擎主要还是以文字内容为基础, 其主要方法有两种:一是基于词典匹配, 该方法是将待分析的汉字与事先造好的词典中的词条进行匹配, 在待分析汉字串与词典中已有的词条匹配则成功, 或切分出一个单词。词典匹配方法计算较为简单, 其准确度较大程度上取决于词典的完整性和更新情况;二是基于统计方法, 该方法需要分析大量的文字样本, 计算统计出字与字相邻出现的概率, 几个字相邻出现越多形成一个词的可能性就越大。基于统计的方法优势是对新出现的词反应更快速, 也有利于消除歧义。以上两种方法各有优劣, 实际应用中则是混合使用两种方法来达到快速高效, 又能识别生词、新词, 消除歧义。
而为了更好的应用以上两种方法, 并要求智能引擎能够进行自然语言理解和处理关键词的含义, 机器学习和数据挖掘技术的发展显得至关重要。目前机器学习逐渐成为人工智能研究的核心之一, 它的应用已经遍及人工智能的各个领域。数据挖掘又可称为数据库中的知识发现, 指的是从存放数据库、数据仓库货其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程[5]。
4 结束语
Internet的信息量爆炸性递增, 搜索引擎在用户和信息源之间架起了沟通的桥梁, 为人们迅速、方便地获取有效信息提供检索服务, 起到信息导航的目的。当前的智能化搜索引擎能够实现信息服务的智能化、人性化、高效化, 为用户检索互联网信息提供了方便, 其发展是一个长期的过程。目前的搜索引擎主要提供基于文字内容的信息检索服务, 而对于进一步提高检索结果的相关、个性化检索服务、支持多媒体检索、支持自然语言检索、增强检索界面的友好程度等还有非常多的工作需要去做, 搜索引擎要真正地实现智能化并不仅仅局限于概念上那么简单。但是我们要坚信, 在科学技术的不断发展和推动下, 一些高性能的满足不同需求的搜索引擎将会不断被开发出来。
参考文献
[1]浅析第三代搜索引擎的发展[J].包瑞.晋图学刊, 2010年第4期 (总第119期) .
[2]第三代搜索引擎的研究现状及其发展趋向探析[J].张立彬1, 杨军花1, 杨琴茹2.情报理论与实践, 2008 (5) :785—789.
[3]搜索引擎的未来发展[J].韩进军, 安园园.医学信息学杂志, 2007 (5) :431—434.
搜索引擎的研究现状 篇9
关键词 搜索引擎优化 SEO 公共图书馆网站
分类号 G250.72
Investigation of Public Library Website Search Engine and Optimization Study
Yao Shun
Abstract With the escalation of search engine users over the recent years, it has become increasingly popular to apply search engine optimization to websites. This paper conducts an investigation and analysis on 27 public libraries’ website collection amount, keywords, page content and off-site SEO, discovers the status quo and problems of the current public library websites in term of search engine optimization, and proposes recommendations for improvement.
Keywords Search engine optimization. SEO. Public library website.
搜索引擎优化(SEO)是网站的一种营销手段,它通过一些方法和技术手段使网站关键词排在搜索引擎结果的前面,让用户主动访问自己的网站。近几年,随着搜索引擎用户的不断增加,SEO变得越来越流行。有些商业公司想尽一切办法优化自己的网站以获得更好的搜索排名,提高企业的知名度和获取更多的客户。与商业公司的网站相比,公共图书馆网站虽然不用来营利,但同样希望能提高图书馆知名度和吸引更多的读者。因此,SEO对于公共图书馆网站也十分重要。笔者对国内部分公共图书馆网站的搜索引擎优化情况进行了深入的调查和分析,并提出网站优化改进的建议。
1 调查对象和方法
本文以省级和副省级公共图书馆的网站作为主要调查对象,按照地区和现代化程度的差异从中抽取了26家作为样本。另外还增加了东莞市图书馆作为样本,该图书馆在2013年5月的AlEXA排名中位于全球网站的87 155位,是国内公共图书馆(国图除外)排名最好的。因此,这27家样本的调查结果能够反映国内公共图书馆网站搜索引擎优化的整体情况和最高水平。调查过程通过网络进行,采用多种方法和查询工具,如通过浏览各家图书馆网站得到网站内容,采用查看源文件的方式得到网站的代码,采用爱站和站长网站工具得到网站的基本信息,采用Xenu工具检查死链,采用百度指数工具查询网站关键词的检索情况,采用ahrefs.com网站外链查询工具获得网站的外链情况等等。本次调查时间为2013年10月5日。
2 调查结果分析
2.1 站收录量
网站收录是指搜索引擎对网站页面的收录,它是网站进行搜索引擎优化的基础。在国内,百度是绝大多数网民首选使用的搜索引擎,在网民中的首选率占85.7%[1]。因此,调查国内公共图书馆网站的收录情况主要是查询其在百度中的收录量。表1是笔者对27所公共图书馆进行网站收录量的调查结果。
从表1可以看出,大部分公共图书馆网站收录量在1万以下,有的甚至只有几百条,只有5家收录量超过10万,显然绝大多数图书馆网站的大部分内容没有被搜索引擎收录。被调查的这些图书馆网站域名年龄基本都在十年左右,这么久的域名年龄却没有积累比较高的网站收录量,说明公共图书馆对网站的搜索引擎优化与营销理念缺乏。在网站收录的内容上,主要是网站新闻、特色资源、购买电子资源、书目信息等页面,其中购买的电子资源和书目信息占网站收录的主要部分。如:东莞图书馆收录量198 000条,其中栏目“东莞学习中心”收录150 000条,占总收录量的76%;上海图书馆收录211 000条,其中主要是OPAC收录114 000条,占总收录量的54%;江西省图书馆收录469 000条,其中OPAC收录464 000条,占总收录量的99%。在特色资源方面,百度只收录了很小一部分。其中广州图书馆的特色资源收录最多,达到8740条,其次是广东省图书馆被收录了6990条。其他图书馆的特色资源收录很少。笔者分析其原因主要有两个方面:一是部分图书馆网站没有建设或没有发布特色资源库;二是特色资源的链接不友好,搜索引擎无法收录到。
表1 公共图书馆网站收录与排名
2.2 关键词
关键词是用户使用搜索引擎检索信息时在搜索框里输入的检索词。在网站里,关键词存在于每个网页的keywords标签中,它不仅是对网站主题的描述,也是对用户上网行为习惯的分析。在搜索引擎排名中,关键词是一项重要参数,因此对关键词的优化是SEO中关键的一环[2]。笔者对27家公共图书馆网站首页关键词进行调查,发现大部分图书馆网站首页没有设置关键词,只有上海图书馆、东莞图书馆、辽宁省图书馆、重庆图书馆等六家网站首页包含关键词(见表2)。对这六家图书馆网站的关键词进行分析后发现存在一些问题。第一,关键词的数量不合理。有的图书馆网站首页有20余个关键词,这么多的关键词会让搜索引擎认为是关键词堆砌,不利于关键词排名。一般首页keywords标签选择2-3个关键词。第二,关键词的选择上欠考虑。如“电子书看书”“民主与法制”“中外文摘”等,这些关键词在搜索引擎中搜索量几乎为零,不适合作为首页关键词。第三,关键词出现次数不合理。页面中出现关键词是必要的,也是必然的。可调查发现有些关键词(如:学习网、古籍保护)在首页甚至整个网站页面的正文中都未出现一次,这显然是不合理的。第四,大部分关键词的百度排名不高。从表2中可以看出虽然部分关键词的百度排名在10以内,但大部分的关键词排名在100名以外。
nlc202309040929
表2 公共图书馆网站首页关键词调查
2.3 页面内容分析
2.3.1 标题信息
网站的标题常用来表达网页的主题内容,是搜索引擎优化中最重要的因素。在首页里,27家公共图书馆网站都设置了标题标签,并将本馆的馆名作为标签内容。这能让搜索引擎明白这就是图书馆的首页;在内容页(图书馆新闻、书目信息)内,有17家图书馆将馆名或栏目名作为标题,其他10家图书馆以新闻标题或书名作为标题。以新闻标题或书名作为标题的页面容易让搜索引擎分析到页面主题,在检索相关内容时有好的排名,而那些以馆名或栏目名作为标题的内容页面却很难被检索到。
2.3.2 框架
框架(Frame)在网页中表现为一个网页中嵌套显示另外一个网页的内容。有些浏览器不支持这种结构。大多数搜索引擎无法识别框架,也不会收录其中的内容。调查发现目前有11家图书馆网站首页中使用框架,主要有检索框、读者登陆框、外网数据调用和友情链接等,虽然这些框架没有什么值得收录的内容,但却会给用户带来浏览的不便。
2.3.3 URL地址
URL地址的设计应该规范、简单。笔者在调查中发现9家图书馆网站的URL地址中包含了公网IP地址,还有5家网站的部分内容页面的URL太长且没有规律。这样的URL地址既不利于搜索引擎优化,也不便于用户记忆。
2.3.4 Flash文字描述和图片ALT信息
Flash和图片在网页设计中应用非常广泛,被调查的图书馆网站页面都插入了Flash或图片,有的甚至整个页面都是Flash构成,如安徽省图书馆网站首页和福建省图书馆的自建专题数据库。这样的网站表现非常漂亮且有创意,但无法让搜索引擎识别所表达的信息。常见的解决办法是在Flash和图片中加入描述信息或ALT标签,方便搜索引擎采集和收录。调查发现有20家图书馆网站没有对Flash和图片进行注释处理,显然大多数的网站管理员没有注意这方面的问题。
2.3.5 网站导航
网站导航对网站逻辑结构和用户体验有很大影响,清晰的导航也容易让网站页面被搜索引擎抓取。调查发现所有的图书馆网站都有导航功能,但只有22家网站的导航功能是完整的。导航功能不完整主要在以下几个方面:(1)使用script脚本设计导航,这种脚本搜索引擎是不进行收录的;(2)栏目页或内容页中缺少导航;(3)导航链接地址错误。
2.3.6 网站地图
网站地图是展示网站结构的网页,它将网站结构以树状目录的方式展示给用户,方便用户寻找某些栏目页面,同时也有利于搜索引擎对网站更全面的抓取。调查发现在27家图书馆网站中只有9家有网站地图。
2.3.7 死链接
搜索引擎蜘蛛对网站的收录是通过链接来完成的,如果网站存在死链接,不仅会使收录页面数量减少,还会使网站在搜索引擎中的权重降低,同时大大损伤网站在用户心中的整体形象。调查发现有17家图书馆网站存在死链接,其原因有以下几方面:(1)图书馆网站改版后有部分链接地址未及时更新,使得这些链接无法访问;(2)图书馆网站上有些链接是测试地址或试用资源地址,这些地址取消测试或试用后没及时删除链接;(3)图片被删除或移动了位置,造成图片无法显示;(4)程序员疏忽大意使得URL地址写错。
2.4 站外SEO分析
站外SEO,也可以说是脱离站点的搜索引擎技术,源自外部站点对网站在搜索引擎排名的影响,主要从外部链接、链接源数量和外部链接质量上进行分析[3]。经统计,在外部链接数量和链接源域名数量上,上海图书馆远远高于其他图书馆,其外部链接数量达到97万条,链接源域名数量6千余条。其他图书馆网站的外部链接数量在几千到几万之间,链接源域名数量在4千以内。对被链接的页面进行分析,上海图书馆网站被链接的页面前三位是“上海图书馆馆藏”(65%)、“知识导航”(8%)和“上海图书馆首页”(8%),可以看出上海图书馆及其联合知识导航平台在网上知名度很高。其他图书馆网站被链接的页面主要集中在图书馆首页,约占总数量的90%以上。由此可见,大部分图书馆网站对外部链接不够重视,缺乏对特色资源的网上推广。
网站外部链接的质量比数量更重要。Google提出使用PR(PageRank,网页级别)值表示,PR值的大小由外部链接数量与质量决定。调查显示,几乎所有的公共图书馆网站的PR值都在6以上,说明其外部链接数量虽然少但质量还是比较高的。这主要是由于公共图书馆网站的外部链接很多都是来自政府类网站之间的链接,如东莞图书馆的外部链接中含有来自东莞阳光网、陕西文化信息网、广东数字文化网、中国图书馆学会等网站的链接。政府类网站具有信息的权威性,在搜索引擎中的权重很高,从而影响了图书馆网站的PR值。
3 改进建议
3.1 重视网站的搜索引擎优化
通过调查发现,国内公共图书馆网站在搜索引擎优化方面做得远远不够,还有很大的改进空间。图书馆应当重视网站的搜索引擎优化,特别是得到图书馆领导的重视,因为搜索引擎优化不仅是技术部门的事情,还需要与网站内容相关的多部门配合,这需要领导的协调和支持。另外,SEO是一项复杂而长期的工作,需要我们对网站不断进行优化、更新与推广。公共图书馆应当组建专门的搜索引擎优化团队负责网站页面优化、内容编辑、外链推广和流量分析,并将这个工作作为一项长期的任务来执行[4]。
3.2 对网站进行技术改进
(1)对URL地址进行规范与统一。无论静态页面还是动态页面,其URL地址都应该统一和简洁,减少复杂冗长的地址。不要使用含有IP的URL地址,将IP地址转换成二级域名或者子目录,让一个页面只对应一个地址。(2)设置网页标题与关键词。每个页面必须设置网页标题,首页以图书馆的馆名作为标题,栏目页面和内容页面分别用栏目名称和文章标题作为网页标题。在关键词的设置上需要技巧,既要体现图书馆的特色,又要在搜索引擎中有较高的搜索量。在首页,笔者建议既可采用热门通用词,如图书馆、电子书、图书等,也可采用馆藏特色名称,如湖南人物、徽派建筑等,还可采用直接需求词,如免费电子书、电子书下载、手机电子书等。在内容页可采用文章关键词作为页面关键词,文章没有关键词的则可使用文章标题代替。(3)减少对搜索引擎不友好的网页设计。在页面中应减少或不使用Iframe框架结构,避免使用图片或JS程序做链接,对页面中的图片和flash添加alt属性或描述[5-6]。(4)拥有清晰的导航。无论首页还是内容页都应该有导航系统,首页可以采用“菜单”式导航,栏目页和内容页可以采用“面包屑”式导航。导航应使用文字导航,不要采用图片或flash做导航,并且能正确地表示用户现在所处的网站位置。(5)制作网站地图[6]。网站地图采用HTML或XML格式制作,应能清晰地反应网站架构,既让用户通过地图能找到网站的每个栏目,也让搜索引擎收录网站的全部内容。
nlc202309040929
3.3 加强网站的外链推广
图书馆网站的外链建设在重视数量的同时更要重视质量,与一些流量大、权重高和内容相关的网站合作,在对方的网站上建立本馆的网站链接。笔者建议可通过以下几种方式建立本馆的网站外链。(1)加强网站之间的交换链接。这种方式比较简单,也可以获得不少的用户访问,但一定要注重对方网站的排名与相关性,不建议与一些排名低或毫不相关的网站交换链接[7]。(2)与媒体合作,在网络宣传图书馆活动的同时建立网站的外链。图书馆会定期和不定期地举办一些活动,不少媒体会对活动进行报道。我们可以建议他们将图书馆的首页或活动的页面地址写进报道中,增加图书馆网站的曝光率。(3)增加网站页面的网络分享功能。图书馆网站上的新闻动态、新书推荐、讲座预告和数字资源等页面能让用户分享到自己的微博、微信、贴吧、空间上进行宣传。如果信息被多次转发,图书馆网站将会获得大量外链。(4)建立引导式外链。百度知道、腾讯问问、新浪爱问等知识问答网站非常受欢迎,原因是其反应了人们的真实需求。这些提问中有些是直接与图书馆相关的,如咨询图书馆地址、借阅权限等,还有一些提问是间接与图书馆相关的,如询问是否有2013年英语“四级”考试模拟试卷等。图书馆应当重视这些咨询,及时回答,引导用户访问图书馆网站并成为图书馆的持证读者。
3.4 重视用户体验
搜索引擎优化是我们提高网站排名和进行网站推广的方法。我们不能以搜索引擎优化为目的去建设图书馆网站,而应该将用户体验作为网站建设的目标。用户体验好的网站自然会受到搜索引擎的喜欢,其排名也会不错。改善用户体验主要包括以下几个方面:其一,增加互联网带宽和提升服务器配置,减少用户访问页面等待时间和服务器故障频率;其二,删除或替换网站页面中的死链,确保网站上的每个链接都是可用的;其三,除了购买商业数据库外,还要建设本馆原创的资源,让用户觉得图书馆网站不仅资源丰富,还有一些独有的东西;其四,定期对网站内容进行更新,让用户觉得本馆网站充满活力。
参考文献:
[ 1 ] 中国互联网络信息中心.2013年中国网民搜索行为研究报告[R/OL].[2014-02-10].https://www.cnnic.cn/hlwfzyj/hlwxzbg/ssbg/201308/P0201308283311533761
73.pdf.
[ 2 ] 欧朝晖.SEO智慧—搜索引擎优化与网站营销革命[M].北京:电子工业出版社,2010:100-101.
[ 3 ] 佚名.SEO_百度百科[EB/OL].[2014-01-01].http://baike.baidu.com/link?url=mosR_k3C-IAMbl-vWWR
UdBJxxg909JbnMQVXtbEzbPFXtbLCNJLFSU_wzE0h
RiNF.
[ 4 ] 昝辉.SEO实战密码[M].北京:电子工业出版社,2011:366-378.
[ 5 ] 张建军.网站设计和SEO优化策略的融合[J].北京工业职业技术学院学报,2013(2):14-17.
[ 6 ] Jaimie Sirovich;Cristian Darie.搜索引擎优化高级编程(PHP版)[M].北京:清华大学出版社,2008:
145-146.
[ 7 ] 杨帆.SEO攻略[M].北京:人民邮电出版社,2009:100-111.
姚 舜 湖南图书馆现代技术部副主任。湖南长沙,410011。
(收稿日期:2014-07-08 编校:方 玮)
搜索引擎的研究现状 篇10
1.1 宽度优先策略或深度优先搜索策略
这两种策略是基于图的遍历思想的策略, 它没有考虑到页面间的相关性, 目的只是为了搜索整个互联网。基于整个Internet搜集的Robot目的只是搜集到尽可能多的Web信息, 没有特定的要求, 一般选用这两种策略。
1.2 聚焦搜索策略
聚焦搜索策略只关注某一个特定主题的页面, 根据"最好优先原则"进行访问, 快速、有效地获得更多的与主题相关的页面, 主要通过内容和Web的链接结构来指导进一步的页面抓取[1]。
1.3 基于内容评价的搜索策略
基于内容评价的搜索策略[2], 主要是根据主题 (如关键词、主题相关文档) 与链接文本的相似度来评价链接价值的高低, 并以此决定其搜索策略。链接文本是指链接周围的说明文字和链接URL上的文字信息, 相似度的评价通常采用以下公式:
其中, q代表主题关键词集合, p代表页面链接文本集合, wkq代表集合q中单词k对某一主题的重要程度, wkq通常采用tf*idf公式计算[3]。
1.4 基于链接结构评价链接价值的搜索策略
由于Web页面不同于传统的文本, 它是一种半结构化的文档, 包含许多结构信息;Web页面不是单独存在的, 页面中的链接指示了页面之间的相互关系, 因而有些学者提出了基于链接结构评价链接价值的策略。这种是通过对Web页面之间相互引用关系的分析来确定链接的重要性, 进而决定链接访问顺序的方法。通常认为有较多入链或出链的页面具有较高的价值。PageRank[4]和HITS[5]是其中具有代表性的算法。
1.5 基于巩固学习的搜索策略
考虑到巩固学习 (reinforcement leaning) 在预测远期回报方面具有优势[6], Rennie和McCallum将其引入网络爬虫的学习过程。在其提出的模型中, 将网络爬虫看作代理体, 面对的Web环境代表状态, 对链接的访问代表行动。搜索过程中, 经过若干无关页面的访问之后才能获得的主题相关页面称为未来回报, 对未来回报的预测值称为未来回报价值。
1.6 基于"语境图"的搜索策略
基于巩固学习的搜索策略能够通过计算链接的Q价值确定搜索方向, 但它却无法估计距离目标页面的远近。为此, Diligenti提出了基于"语境图" (Context Graph) 的搜索策略[7], 它通过构建典型页面的Web"语境图"来估计离目标页面的距离, 距离较近的页面较早得到访问。
2、中文搜索引擎Robot搜索策略
2.1 基于首页优先搜索的策略
这种搜索策略使中文搜索引擎Robot在运行过程中生成了一个较为完整的中文域名表, 在匹配过程中提供新站点识别的功能。新站点识别的过程:一个URL, 提取其域名部分, 使用域名过滤时若在中文域名表中匹配成功, 则该URL所在的域名已经处理过, 若匹配不成, 说明该域名为新出现的域名, 域名代表的站点为新站点。在搜索过程中一旦发现一个新站点, 那么系统将基于它的首页优先搜集信息。
2.2 基于链接深度的搜索策略
给定这样三个URL:http://www.lytu.edu.cn/xuexiaojianjie.htm、http://www.lytu.edu.cn/cupnews/a/200505/20060221140941.shtml、http://www.lytu.edu.cn/。我们定义它们的链接深度分别为1、4、0。URL的链接深度为它的路径的深度, 域名的链接深度定义为0, 根据路径的深度依次增加。
基于链接深度的搜索策略就是根据URL链接深度和URL重要度的某种关系, 对链接深度进行排序, 优先搜集重要度高的URL。例如:对于一个链接深度为5的网站, 链接深度的重要度排序为0、1、2、5、4、3。那么在搜集过程中优先处理链接深度的重要度排在前面的URL。
2.3 基于发现深度的搜索策略
这是一种动态的启发式搜索策略, 发现深度为基于首页的发现深度。规定所有首页的发现深度为0, 那么解析首页提取的URL的发现深度为1, 在深度为1上提取的URL的发现深度为2, 依次增加。由于互联网上存在的大量的重复链接, 一个URL要被解析出很多次, 使它有多个发现深度值, URL的发现深度值取其最小值。
基于发现深度的搜索策略规定:发现深度值越小, 它的优先级别越高。这种策略在首次搜集中适用性不强, 因为URL之间复杂的链接, 使得发现深度值的计算量非常大, 而且一些URL发现深度值的最终确定前, 此URL可能早就搜集过。但可以基于此策略计算出所有搜集到的URL的发现深度值, URL的发现深度值可以作为URL重要度的一个参数, 应用于信息更新和返回结果的排序上。因此也可以叫做基于发现深度的更新策略。
2.4 基于信息变化度的更新策略
基于信息变化度的更新策略是对周期性更新策略的一种改进, 它依据每个URL信息变化度来调整其更新周期, 是一个动态学习的过程, 最终为每个URL设定一个较为合理的更新周期。信息变化度的定义:URL更新时, 当前的信息与上一次信息的差异值。该策略的难题是采用什么方式计算URL的信息变化度。本文给出基于关键词的计算模型。
定义:用表示URL的当前文档的关键词集合, dn表示URL的下一次文档信息的关键词集合。用dci表示dc的关键词集合第i个关键词, pci表示dci出现的频率;用dni表示dc的关键词集合第i个关键词, pci表示dni出现的频率。若令t表示文档中关键词的数量, 关键词集合dc={dc1, ..., dct}, 频率集合pc={pc1, ..., pct}。用wi表示权值, 这个权值表示第i个关键词与文档的相关度。若关键词dci没有出现在文档关键词集合dni中, 则wi=0, 若出现在关键词集合dni中的第j个位置, 则wi=min (pci, pcj) 。
S (c, n) 为dc与dn的相似度, 其定义如下:
V (c, n) 为dc与dn的变化度, 其定义如下:
由公式可以获知V (c, n) ∈[0, 1]。
基于变化度更新策略的文档周期的调整:最初设定所有的文档更新周期为q, 若一个URL经过第i-1次基于变化度的调整, 更新周期为qi-1, vi-1为该URL的第i-1次更新的变化度, vi为该URL的第i次更新的变化度, 其具体调整如下:
若vi>vi-1, 则qi的定义如下:
若vi<vi-1, 则qi的定义如下:
基于变化度更新策略可以根据实际的变化度动态的调整每个URL的更新周期, 它使得每个URL都有自己的更新周期, Robot根据每个URL的更新周期对URL进行更新, 减少了更新的盲目性, 争取使更新达到最好的效果。为了某些URL的更新周期过于短, 给更新周期q设定最小值qmin, 也为防止某些URL的更新周期太长, 给更新周期设定最大值qmax。
3、小结
本文详细介绍了搜索引擎Robot的搜索策略, 针对中文搜索引擎Robot, 给出了基于首页优先搜索的启发式搜索策略, 并对基于链接深度的搜索策略和基于发现深度的搜索策略进行了分析, 最后, 提出了一种新的更新策略基于信息变化度的更新策略, 并给出了一种计算模型。
参考文献
[1].Focused Crawling:A New Approach to Topic-Specific Web Resource Discovery.S.Chakrabarti, M.van, B.Dom.In Proceedings of the 8th Inter-national WWW Conference, Toronto, Canada, 1999
[2].Cho J, Garcia-Molina H, Page L.Efficient crawling through URL order-ing.Computer Networks, 1998;30 (1~7) :161~172
[3].Srinivasan P, Pant G, Menczer F.Target seeking crawlers and their topicalperformance.In:Proc of SIGIR Conference on Research and Developmentin Information Retrieval, ACM press, 2002
[4].Page L, Brin S, Motwani R, et al.The PageRank Citation Ranking:Bringing Order to the Web.Stanford Digital Libraries Working Paper, 1998
[5].Bharat K, Henzinger M R.Improved Algorithms for Topic Distillation ina Hyperlinked Environment.In Proceedings of the ACM-SIGIR, 1998
[6].Sutton R S, Barto A G.Reinforcement leaning:an introduction.MA:MITPress, 1998
【搜索引擎的研究现状】推荐阅读:
网站搜索引擎优化研究08-30
搜索引擎研究与开发10-03
垂直搜索引擎应用研究10-24
B2B搜索引擎平台研究05-31
5个竞争研究工具提高搜索引擎优化性能07-25
搜索引擎的使用07-29
未来的搜索引擎10-08
使用搜索引擎的代价10-30
搜索引擎的安全性12-09