搜索技术的未来(精选10篇)
搜索技术的未来 篇1
随着互联网的信息量越来越大, 搜索在生活中的应用也越来越普遍, 越来越多的企业也加入到了搜索这片没有边界的市场中。Google近些年推出了多项创新型的搜索技术, 比如商品搜索、基于地理位置的搜索、加密搜索等等。相对于百度、必应等其他搜索引擎, 我们能从大量的仔细分析中感受到Google在提供更有价值的结果页面所做的努力。尤其是作为一个SEO从业人员, 对搜索引擎的分析也是不可或缺的, Google搜索或许已经在下面列举的这些技术细节上有了突破:
1、Google已经开始尝试感知信息的来源地址, 并在为保护原创作出努力
众所周知, 中国的互联网是一片抄袭的天地, 国外虽然有比较强烈的版权意识, 但转载也是非常普遍的事情, 这就给许多坚持内容为主的中小型网站带来了毁灭性的打击:既打击了原创作者的积极性, 也对互联网的健康发展有着非常消极的影响。并且在这一大的互联网环境下, 也催生了许多以转载、采集为主要内容、以各种广告联盟为资金来源的“垃圾网站”。
从对Google的大量分析来看, Google已经在开始逐步清理这种垃圾网站了, 并且会刻意降低此类网站的权重。
例如, 对于某些站长聚集的原创网站, 往往都会有大量的垃圾网站进行采集。而当这个原创站发布新的新闻之后, 就会马上被垃圾站进行转载。然后在百度等搜索引擎进行搜索, 很可能垃圾网站上的这篇文章的排名比原创站上的这篇文章的排名还要高得多。因此, 百度对文章内容是否原创的判断是, 网上是否还有其它相同文章, 如果没有, 放出页面再说;而Google则不然, Google会检索大量的类似页面, 然后做出一个判断, 这篇文章的原创来源应该是哪一个网站, 然后再放出页面并将这个网站的排名放于其它转载的网站之前。
或许以上只是我的个人推断, 但实现这一原创识别技术并不困难, 比如原创的文章一般会带有来源网址, 原创网站大部分都是原创文章, 原创的文章会带有网站的特殊标识, 比如网站名等等……Google应该有能力进行模糊判断。
2、Google已经有能力推断某一访问者的行业与兴趣, 并且尽力提供相关的内容
如果你查看计算机上存储的Cookies, 会惊讶的发现, Google的几乎全线产品都会在用户的计算机上留下Cookies, 并且过期时间非常的长。即使你从来不使用Google的产品, 也同样骗不过Google的眼睛:非常多的网站上都有Google Adsense广告, 非常多的网站都有Google Analytics统计等等。
通过Google庞大的数据分析系统, 它甚至可以追踪到你打开浏览器的那一瞬间, 在大部分的网站做的任何事情, 包括访问轨迹、点击情况、浏览时间等等。如果将这一分析结果应用到你的搜索结果页面, 将会出现非常不可思议的情形:你是一个IT从业人员, 经常浏览IT相关的网站, 你在Google中搜索“联想”, Google将会给你返回与联想计算机有关的结果;如果你是一名文学爱好者, 经常浏览各大文学网站, 你在Google中搜索“联想”, Google将会给你返回精神、思想方面的“联想”词条。
3、Google已经在尝试分析你输入关键词的意图, 甚至是具体意图
曾经有人嘲笑Google不懂本土化、不懂中文, 并且举了个例子:《功夫》电影上映时, 在百度中输入“功夫”, 返回的是与电影有关的资料, 而在Google中输入“功夫”, 却出现了中国功夫的介绍和少林武术的广告。
这的确是当时谷歌存在的现实情况, 但是, 随着谷歌的不断努力, 现在的状况已经今非昔比了。Google不仅可以敏锐地捕捉各种新闻词汇, 而且可以实时显示全球当前正在发生的新闻, 甚至连Tittwer上正在发表的有关微博也没有放过。这种巨大的进步与开放的姿态是国内许多公司都无法比拟的。
4、Google一直在坚持技术主导的概念, 并且与百度等公司的文化形成了巨大的差异
在百度中搜索“delphi embeddedwb”等纯粹技术类的文章就傻眼了。但是, Google在在这些冷门的搜索中依旧保持着良好的表现。
因此, Google是按照文章的含金量来决定是否收录的, 而不是某些搜索引擎的搜索热度。
从上面的分析中可以看出, Google作为国际上著名的搜索引擎, 不仅没有因退出大陆市场而放弃本地化的尝试, 而且更加努力的去适应这片神奇的土地。 (来源:站长网)
移动搜索的未来图景 篇2
对于移动搜索的价值和发展前景,去年人们还在持怀疑态度,现在形势已发生逆转。中国互联网络信息中心CNNIC最新发布的《第34次中国互联网络发展状况统计报告》显示,手机搜索用户规模首次超过手机网络新闻成为第二大规模手机应用,两者用户规模分别为:4.05亿和3.9亿。(见表1)
最近,移动搜索领域再次硝烟弥漫,百度继续加大移动端推进力度,阿里合并UC推出“神马搜索”主打个性化,腾讯与搜狗联姻推出“搜狗搜索”独立APP,360搜索也发布了独立APP,豌豆荚提出“应用内搜索”,以及专注于移动搜索的新锐宜搜,等等。这些互联网巨头和新锐的争夺,不单单是看到移动搜索的用户规模,更是觉察到不同于PC搜索的移动搜索所隐藏的巨大市场价值。
当前,移动搜索正处于技术大变革的前夜,绝不是百度一家所能通吃的,也不是上述几家搜索公司的事情。据统计,2013年中国移动搜索市场规模已超过50亿元,未来五年将增加到数百亿元,存在众多技术变革、商业掘金和品牌崛起的机会,需要更多的创业者向这个方向摸索和打拼。
那么,未来的移动搜索是个什么样的表现形态?与PC搜索将有哪些颠覆性的创新呢?
输入输出呈现多样性
CNNIC数据显示,过去两年,移动搜索的输入方式已经发生了巨大的变化。从2012年到2013年,移动搜索的图像输入的用户渗透比例已由8%上涨为25%,涨幅超过200%;语音输入则由13%上涨为22%,涨幅接近70%。与此同时,文字输入的占比有小幅下降,由97%降至96%。可见,语音和图像输入等新型交互方式正日益受到移动搜索用户的欢迎。
未来的移动搜索已经不再局限于PC时代输入关键词的搜索了,我们可以输入更加多元的数据。因为传统的文本搜索有非常明显的局限性,就是一定要用文本对于你要搜索的目标进行描述,当你没办法进行描述的时候,就没办法发起搜索。而在移动互联网时代,手机是人的延伸,他是有眼睛、耳朵和思维的,所以移动搜索的三个主要入口分别是:图片搜索、语音搜索、二维码搜索。
比如,手机可以通过拍照的方式描述你所搜索的目标,当我们看到很多大山大河上面有很多历史明人的题字,写的可能是篆书、行书、草书,语文不好的很难读下来,如果能够用手机拍照,能够识别出那段诗是什么,作者是谁,写于什么背景,这就大大超越了传统的PC搜索。
今后,用户不论在何处,只要手里有手机,即可通过拍摄图片实现“图片搜索”。不管是网络购物,还是户外游玩,不管是学术研究,还是知识普及,都可以通过“图片搜索”获取拍摄事物的信息,可谓是一次技术革命。
语音交流,也是人类最基本的本能之一。自苹果Siri发布以来,它就被认为是谷歌搜索的潜力型竞争对手,虽然目前来看它并没有对谷歌搜索带来实质性的影响,但其所代表的趋势却意味着搜索技术“质”的转变。因为语音搜索符合人类便捷搜索、移动搜索的特殊需求。
随着智能手机的普及,各种各样的二维码应用也随机而生。由于其具有信息量大、纠错能力强、识读速度快、全方位识读等特点,正被应用到各行各业中。在超市货架、在街边的宣传海报上、在淘宝卖家的宣传册上、在地铁公交车站、在户外广告上,我们正看到越来越多的商品推出了二维码。扫描二维码,我们即可看到与商品相关的价格、属性、网络口碑等信息。
比如,阿里巴巴推出了“码上淘”五大应用:商品码、服务码、互动码、媒体码、码上店,消费者扫码后,即拥有最短的消费路径、个性化互动体验和无所不在的“码”上服务。
二维码搜索,正是基于二维码应用的普及和二维码的便捷性。可以预见,随着越来越多企业对二维码的重视,二维码搜索必将成为移动搜索的主要入口之一。
从输出角度看,移动搜索也不再是文本,可以直接提供给你一段语音,所有的手机,从旅游角度,都会变成为景点的导游机,输入是图片,输出是语音;从购物角度,都会变成商场的导购员,输入图片、二维码,输出语音、文本。
所以,未来的移动搜索,输入和输出越来越具有多样性,可以随心所欲地输入文本、语音、图片、二维码、体感、位置等传感信息,也可以根据自己的需要,接收到文本、图片、语音、视频等其它形式。一句话,互联网时代,只有想不到,没有做不到。
要准确答案,不要罗列结果
移动搜索与PC搜索最大的不同在于使用场景,PC搜索的使用场景永远是坐在电脑前,而移动搜索的使用场景则相当多元,而且使用场景和搜索需求之间有着密切的联系。
PC搜索时代,对于信息搜索的追求是“全”,任何一个关键词输出的结果要提示你有几百万个结果,在“全”的基础上用文本链的方式,也就是搜索的目录列表这种方式呈现搜索结果,搜索网页的数量代表了搜索引擎的质量。但是到了移动搜索,在小小的手机屏幕上,一百万个网页对用户来说变得毫无意义,而搜索结果的“准”变得更重要。
一般来说,PC适合于工作和学习,手机更适合于生活和娱乐。与PC搜索不同的是,移动搜索的使用目的性更强,场景化鲜明(如家庭、逛街、机场、餐厅等),使用时间更加碎片化(如公交地铁上、银行排队等),用户希望以最快的速度得到想要的答案,所以用户理想中的移动搜索应该能直接给出用户想要的答案,而非罗列许多与关键词相关的结果,用户不可能在搜索的结果中一页一页寻找自己想要的东西,更不能提供令人厌烦的一大堆广告。
移动搜索场景下,最需要解决的是降噪的问题。降噪最有效的方式是将大众化需求做结构化展示,例如搜索“世界杯”时直接展示赛程表,可以减少大量相同内容的网页干扰用户获取有效信息。也可以通过语音、拍照等更智能输入、反馈方式为用户提供便利,提高输入效率,同时也为特殊人群提供帮助。
nlc202309041943
由于用户的使用场景不断变化,因此,基于地理位置和用户需求的属性,为用户精准匹配相关信息与服务,将成为决定移动搜索用户体验优劣的重要标准。与云计算、大数据和物联网一样,LBS(基于地理位置的信息服务)已经渗透到人类生活的方方面面,一切服务都基于位置。人们的逛街购物、娱乐游戏、工作学习、旅游出行、健康医疗、教育学习,均与地理位置紧密结合起来。毫不夸张地说,LBS现在已经影响到每一个人,它就像空气和水一样成为必需品,无处不在。
“百度地图春节人口迁徙大数据”(简称“百度迁徙”)是百度公司在2014年春运期间推出的一项技术品牌项目。“百度迁徙”利用大数据技术,对其拥有的LBS(基于地理位置的服务)大数据进行计算分析,并采用创新的可视化呈现方式,在业界首次实现了全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征。“百度迁徙”的LBS大数据来自于百度地图LBS开放平台,该平台为数十万款APP提供免费、优质的定位服务,日处理用户定位请求超过35亿次(截至2013年8月统计数字),是中国LBS数据源最广的数据和技术服务平台。
百度自推出大迁徙产品后,又陆续推出了城市预测、景点预测、赛事预测等产品,基于海量用户的搜索行为,再对相关搜索进行相关预测。搜索回归到个体后,搜索引擎能够更加精确地了解到每个用户的搜索行为,从而在大数据预测上能够更精确。
对于未来的移动搜索,有一种超前的想法是“无需输入”,也就是说,搜索引擎发展到终极阶段,已经不需要人为地输入任何信息,搜索引擎可以根据用户画像、使用行为记录、传感器数据等做智能判断,这个智能判断的背后就是建立在大量用户数据基础上的机器学习。
提供更加个性化搜索服务
移动互联网时代,用户需求发生了很大的变化。手机是用户须臾不可缺少的随身携带品,其个性化的诉求得到了强化。碎片时间的效率更要求产品或服务从个性化和定制化方面去做更多工作。“快”的诉求很明确,提供个性化、高效的搜索直达是未来的发展方向。
传统搜索的相关性是基于文本关键词的,但在移动搜索上,一定会从“一致性搜索”逐渐向“个性化搜索”过渡,会按照用户的特点展现不同的搜索结果。而且,这种个性化搜索结果并不是唯一的,每一个厂商都可以根据自己本身的优势出发做移动搜索。
手机作为用户与互联网连接的媒介,同时也是用户在移动互联网世界的唯一身份标识,其中包含了大量的数据可以帮助我们定位用户。
移动搜索可以通过该用户的社交账户、使用了哪些APP、浏览习惯等,逐渐描绘出精准的用户画像,而精准的用户画像其实是未来的移动搜索中最基础的输入项。它能帮助移动搜索更加了解当前用户,以提供更加个性化的服务。
当一个用户在使用移动搜索时,其实他无形中也在输入他的使用行为数据,这些数据会结合用户画像送到云端做数据挖掘,进一步完善用户画像。也就是说,用户使用得越多,用户画像越精准,搜索引擎也就越了解用户的喜好,就能更加精准地提供用户想要的信息。
“未来移动搜索会向本地化生活搜索以及应用内置搜索的方向发展。”易观智库分析师于静认为,基于LBS的生活服务兴起,未来本地化生活的搜索也会兴起。此外,移动端的应用主要是APP,APP作为一个个独立的个体,在PC端的搜索内容形式已经不再使用,在应用内部搜索已经不可避免。应用内搜索会成为未来的一个主流。“随着移动搜索的不断成熟,在搜索产品、搜索合作方式以及搜索结果方面也会呈现多元化。”
目前,百度、神马搜索、搜狗搜索、360搜索纷纷提供个性化服务,搜索引擎不再是纯搜索引擎,“个体”的作用在被放大、被重视,用户至上的原则,再一次体现在搜索引擎上。
4月28日,UC宣布旗下潜行四年的移动搜索业务,在整合阿里巴巴“一搜”团队后,以神马 (sm.cn)为新品牌正式发布,明确“打造中文移动搜索第一品牌”的目标。为了实现这一目标,神马搜索针对App搜索(游戏)、购物搜索、小说搜索等移动用户的刚需功能做了优化和完善,在三大特色功能领域的布局初见成效。
依托UC浏览器和阿里巴巴的资源在推出后不久,神马搜索月活跃用户已经突破 1 亿,在国内移动搜索市场用户渗透率突破 20%。(见图1)中国 IT 研究中心(CNIT-Research)的报告也显示,百度搜索、神马搜索和搜狗搜索在7月份月活跃用户数都超过1亿,其中百度搜索的月活跃用户高达 3.84亿,而神马搜索的月活跃用户数为1.35 亿。
另外数据显示,神马搜索在网络购物、游戏和移动阅读三个方面的用户渗透率分别达到了 72.5%、62.6% 和 58.8%,高于百度。
而百度依托强大的桌面搜索,推出手机版的“个体”模式。实际上,百度在早期就设有专门的ID体系来让用户登录,但是早期基于单个个体的搜索行为并没有得到重视,或者说用户粘性不高,用户即使登录,也很难有较大的用户体验的提升。但是现在不一样了,百度整个的产品线非常长,用户通过登录百度的个人ID,可以体会到非常多的服务。
首先是基于搜索行为的,用户可以记录自己一段时间内的搜索记录。其次,基于百度其他产品线上的,比如百度贴吧、百度知道、百度文库、百度经验、百度空间等,一个ID可以通用百度所有产品线上的产品。另外,基于百度提供的周边服务,比如百度地图、百度团购、百度理财等,在生活服务上,用户也可以一键登录。
最后,用户自己的个人利益保障。搜索引擎推出用户的保障服务已有很长一段时间,但是却始终未能奏效,原因在于,用户并不会记录自己的搜索行为。登录后,用户通过搜索记录,就可以查询到自己是在哪个搜索的环节中上当受骗的,这样,当用户因为搜索行为上当受骗后,和搜索引擎之间的索赔就容易的多。搜狗、360搜索也推出了相关的个人登录,但是在用户个体的粘性上,还需要有所提升。
随着移动应用受到用户的追捧,如今的微信拥有了巨大的用户量,作为社交类的应用,自然也少不了搜索功能的延伸。日前因上线“微信公众平台搜索”而备受关注的搜狗就现有发展与未来布局发布了战略计划。搜狗方面表示,在数百万微信公众号资源数据接入的搜索引擎后,将更多高质量的文章“开放”到整个中文互联网世界当中,极大丰富了用户获取优质内容的渠道和方式。借此,搜狗成为了唯一一家能够提供“通用搜索”和“微信公众平台搜索”服务、全面覆盖网页、微信等媒体形态的搜索引擎,差异化优势得到进一步的提升。
电子商务领域的搜索一直是各大搜索企业虎视眈眈的市场,电商企业本身也希望通过搜索和结合大数据的分析来提升用户的网购体验,让搜索与大数据和移动平台有机地结合在一起。除了依托阿里电商的神马搜索在网络购物方面具有得天独厚的优势,一些垂直电商也在电商搜索方面也推出个性化应用。
日前唯品会就宣布在美国硅谷正式成立首家海外研发中心,聚焦于大数据领域的机器学习、移动平台等领域的前沿技术研究。唯品会美国研发中心将通过搜索技术的应用,挖掘用户的行为习惯和喜好,找到更符合用户兴趣和习惯的产品和服务,从而根据用户需求对产品和服务进行针对性地调整和优化。
唯品会将让很多想象中的场景变为现实。比如,当你走在街上看到喜欢的商品,或者看到路人背了一款让你心动的挎包,就算不知道是什么品牌,只要拍照并上传至唯品会,平台将立即自动识别并为你展示唯品会售卖的同款商品或类似商品,以“所见即所得”的快速匹配即刻实现你的购物愿望。同时,通过对大数据的研究和运用,唯品会将为消费者提供更多精选商品、新品,甚至是定制化的服务。
搜索回到个体是趋势,毕竟每个用户的需求都是不同的,针对每个用户进行单独的“私人定制”,这是一个多赢的局面。
未来的搜索引擎 篇3
目前的搜索有很多缺陷
目前搜索链接到的大部分是静态内容, 主要依靠流行的关键字来显示相关内容, 依靠的是一个流行的算法, 对个性化的搜索没什么贡献。不过现在的趋势变了, 不再是回答专门的问题、关键字的时代, 移动界面上没法像桌面上那样自在地搜索, 这种行为既不是动态的也不灵活, 每每搜索之后要在一堆推荐、建议、静态的URL里寻找我们需要的消息。
下一站:移动搜索
用户现在用着许多高度专一的手机应用, 而且Google的用户中100个只有1个转移到移动Google搜索中来了, 这说明不是没人用移动搜索, 而是他们在手机上用Google用得少而已, 因为今天的用户更习惯一个特定主题的应用程序可以生成定制的内容。
比如你想为即将到来的派对买个衣服, 且希望是自己最喜欢的衣店, 如果从Google开始你会高兴吗?如果马上就能在前往商店的路上, 你是不是还得看看你的银行卡数字够不够?然后你会在Google里面搜索你的银行名字吗?不, 你会在银行应用里输入你的账号付款。
当下生活已经量化成了大量的数据, 需要新型的搜索和发现形式, 需要在线下也能够方便地为我们服务。随着数据消费和数据创建的不断增长, 搜索发现不仅仅是显示匹配的结果, 还应该根据个人需要提供个性化服务。
最近Nielsen的一份报告揭示美国智能手机用户平均应用数是41个, 比去年的28个上升了28%, 为的是更直接地访问我们想要的信息, 所以我们开始爱上下载购物应用、银行应用、新闻应用、娱乐应用、社交应用……
人工智能和搜索的结合才是搜索的未来
人工智能 (AI) 将有望提供更深的个性化搜索和良好互动, 因为它会分析一系列用户习惯、用户资料、用户行为, 从而确保搜索结果匹配的相关性迅速提高。
AI能够处理复杂的任务例如根据上下文优化个人推荐和建议, 比如地点、时间, 个人爱好、需要、瓶颈。就比如和AI整合的房地产应用, 它会根据你的财政情况、周边学校要求、娱乐需求、工作喜好等因素把你带到你最理想的房子面前, 这样就不用你到处看房或者上网搜索了。
“情境”搜索未来 篇4
“情境”(Context)——这一源自计算技术的词汇,正因其新含义而走红互联网。
IT咨询公司Gartner公布的“未来10大消费级移动应用”中,“情境感知服务”位列其中,与“LBS(基于位置的服务)”、“社交网络”、“移动支付”等平起平坐。
根据Gartner的解释,这里的“情境”意为对人们的偏好、目的、历史、行为、位置等信息的理解。通过感知这些“情境”,服务商得以预测用户的需求和喜好,提供最适当的内容、产品和服务,进而提升用户体验。
Google副总裁玛丽莎•梅耶尔在LeWeb大会上(欧洲最大规模的互联网大会)透露,公司将在2011年重点推动“情境发现”(contextual discovery)新产品。而Google所谓“情境发现”,正是“情境”概念在搜索上的应用。基于用户的位置等信息,搜索引擎可主动发现并推送最贴合用户需求的内容,用户无需再自行搜索。这无疑是对传统搜索形态的一次重大转变。
一些业内人士指出,“情境发现”体现了搜索引擎的发展方向,即在搜索的过程和结果中,结合更多移动、位置、社交等方面的元素,这对产品和技术积累提出更高要求。
进化中的搜索引擎
“情境发现”的提出,建立在搜索引擎近20年发展积累的基础上。
早期通用搜索引擎的思路,是根据用户在搜索框中输入的关键字,对网页内容匹配一定的算法,尽量给用户提供更多更全的结果。
但人们很快发现,海量搜索结果并不都是用户真正需要的。于是,以用户为中心,体现更好的专业化、个性化和领域化的新一代搜索应运而生。其思路就是结合用户信息,例如标签、社交信息、关联内容等,返回更加精准、更加智能化的搜索结果。
在此过程中,还出现了更为智能的推荐引擎,即通过统计用户行为记录来发现关联,进一步分析用户的需求,向用户推荐个性化的搜索结果。目前国内在电子商务、音乐、视频、社区、分享等领域,已不同程度地实现多种形式的推荐引擎。
“情境发现本质上就是这样一种个性化搜索,它表明搜索是可以按照用户需求自动聚合的。”中搜CEO陈沛告诉《财经国家周刊》记者,未来搜索将无时无处不在,渗透在所有应用中,在用户需要的地方主动获取,自动呈现。
实际上,类似的情景概念在国内的搜索引擎服务中已有体现。
例如,在腾讯搜搜描述的未来搜索应用场景中,当用户在QQ上谈论某电影时,电影名会自动形成链接,用户可点击观看影片介绍、评价、视频预告片等,还可在线预定和支付电影票,并查找交通线路等信息,全部功能以一种“边聊边搜”的方式主动呈现在用户面前。
目前,借助新版QQ的聊天助手和划词搜索,部分情境已初步应用到了聊天工具、腾讯网、QQ空间等多个产品上,用户获得了一定的交互体验。
“基于丰富的产品线,有利于将更多的个人数据用于改善针对特定用户的搜索结果。”互联网分析人士洪波举例说,当用户登录Google账号,使用大量的其他产品时,就在把更多的个人信息提供给Google。再次搜索的时候,Google会更加了解该用户的身份、特点和需求。
此外,“情境发现”更强化了和本地商户的关系,也使得传统的广告付费点击、竞价排名等模式得到延伸。推荐搜索和“情境发现”返回的结果,并不止于用户感兴趣的搜索内容。
前阿里巴巴搜索业务负责人陈华告诉《财经国家周刊》记者,真正要推送的东西肯定是有商业价值的,最好的应用场合就是广告,比如Google也会根据Gmail邮件的内容,放置更加精准的广告。而基于用户浏览行为和位置信息,推送的广告也具有更高的相关性。
“很多广告系统都已经在用类似的情境技术了。其实广告系统和搜索引擎很相似,后者搜的是网页,前者是拿关键词搜广告。”陈华表示,阿里巴巴广告有一种Behavier Target(用户行为定位)的类似功能,就是根据人浏览的行为,猜测和推荐用户可能会买的东西。
布局LBS
如果说推荐引擎体现了“发现”的含义,那么“情境”就是在这种关联与推荐的基础上,强化了用户位置信息的整合,进一步提高了推荐精确度。作为移动互联网的代表性应用,LBS无疑是与“情境发现”最为密切的服务之一。
不过,尽管基于位置的搜索已经成为行业共识,但没有哪家公司具备Google一样的产品和技术积累优势。目前,梅耶尔管理的位置及本地服务团队,员工总数已超过2000人。Android(Google手机操作系统)系统的成熟,更使得Google在移动互联网时代的优势难以撼动。
“Google早在2005年推出Earth(Google开发的虚拟地球仪软件)的时候就开始布局LBS了。”搜索引擎领域资深人士张国平告诉《财经国家周刊》记者,其使命是整合全球信息,Earth正是一个很好的结合点,此后Google收购了很多基于位置的应用厂商,都围绕地图服务来实现。
目前,较高版本的Android系统都已内置“商家”功能。Android手机用户可借助Google本地搜索引擎Places和推荐引擎Hotpot,查找自己当前所在地附近的咖啡店、宾馆、自动取款机以及加油站等位置、交通、营业时间、评价等内容,若用户感兴趣更可直接拨打电话。此外,Android“商家”还内置了指南针等步行导航功能。
而这些商家的信息大部分依靠Google Base服务,它允许用户将自己格式化的信息,通过开放数据接口,在地图上建立自己的条目。只要搜索符合公司名称,商家信息将被无条件排在第一位——这使得商家有动力提供自己的信息,帮助Google实现信息整合。
Google还提供了标记服务Tags和广告解决方案Boost,帮助本地商家更好营销。业内人士称,Google现在已经拥有了本地商业领域中总流量的40%。
实际上,国内移动互联网发展也声势浩大,LBS服务如火如荼。玩转四方、街旁等网站迅速崛起,实现了用户定位“签到”和社交功能,随时向朋友广播自己所处的地理位置。但这些服务目前还仅停留在第三方应用层面,进一步的推荐和建议服务并未实现。
对于商家来说,目前国内的LBS服务商没有太大吸引力,他们更乐于将信息放到搜索引擎的平台上。
“国内LBS应用的信息量都少得可怜,并且服务商都有各自独立的平台,数据互相不打通。”张国平告诉记者,有一次在机场打开某LBS流行软件,本应是LBS应用集中度较高的地方,里面发布的消息却都是5天甚至20天前发布的。
多重瓶颈
根据CNNIC最新发布的《第27次中国互联网络发展状况统计报告》,2010年,中国网民搜索引擎使用率达到81.9%,首次超过网络音乐成为第一大应用。但庞大的用户规模,并不真正具备发展“情境发现”的成熟市场。
除LBS服务问题之外,“情境发现”所依托的智能手机终端普及率偏低,这也成为摆在用户和开发人员面前的第一道门槛。
其次,国内的地图数据信息都经过加密,与真实经纬度坐标信息存在偏移,除了带来更高的资料购买成本,还容易出现导航与地图数据不兼容的问题。
“这对于开发来说很麻烦。”张国平表示,使用国内地图数据资料,获得位置较准,但成本较高,而基于Google免费资料开发应用,则风险极大。
另一方面,尽管“情境发现”并非搜索技术的重大演进,但仍涉及数据挖掘、语义网、机器学习、精准营销等方面的技术。而与Google相比,国内搜索引擎服务技术积累水平普遍较低。占据国内搜索市场垄断地位的百度,并未在情境服务方面有所作为。
“机器学习方面不是百度擅长。”陈华表示,从广告系统的角度看,其实淘宝是做了很多事情的,但是现在做得也不够好。
“难点在于算法。”陈华告诉记者,“情境发现”理论上很简单,但要和应用结合在一起,需要在提取用户特征信息后,合理设置参数,通过机器学习的方式预测用户行为,这是一个积累的过程。
搜索技术的未来 篇5
这听起来耸人听闻, 单是Google, 每月就要处理超过1000亿次的搜索请求, 何来“search已死”一说?
如果搜索已死, 未来人们依靠什么来获取自己想要的信息?———伏笔在几年前就已经埋下:智能手机的发展使智能信息时代成为可能。人们获取信息的方式正在发生变化, 只不过, 由于这一变化过于剧烈, 很多人并没有意识到, 这是对搜索的颠覆。
此外, 由于大多数个性化和专业化的应用, 仍旧处于数据收集的早期阶段, 人们还不得不普遍依赖搜索获取较为全面的信息。这一趋势也常常被人忽略。
但是, 当谷歌员工都认为, 传统搜索已死的时候, 我们必须重新思考搜索:我们需要的是搜索, 还是搜索后得到的结果?我们需要的是打洞机, 还是需要墙上的洞?
尽管仍占统治地位, 传统搜索的式微已经清晰可见。取而代之的, 是数据, 是更智能的更贴身的搜索结果。好消息是, 由于过去掌握的用户数据, 传统搜索巨头仍有机会在此获得一席之地;坏消息是, 他们必须颠覆过去的商业模式:要么拥抱未来, 要么被未来淘汰。
“匹配+推送”代替“搜索”
搜索的本质是帮助用户“寻找信息”。过去, 每个网站都是一座孤岛, 要寻找个人需要的信息, 只有搜索这一种方式。谷歌是第一家把搜索当成一门生意来做的企业, 它也确实从中淘金成功。
谷歌的巨大成功帮助它超越微软, 成为了世界第二大科技公司, 仅次于苹果。但, 也正是在苹果引爆的移动互联网热潮, 让谷歌传统的商业模式受到了致命的威胁。
这不是危言耸听。早在2010年8月———当时iPhone诞生仅3年时间———《连线》杂志就撰文指出, iPhone等移动计算模式的推动下, APP繁荣导致“Web已死”:并不是因为他们不喜欢Web, 而是因为这些有特定功能的平台对他们来说更有用, 或者更方便他们使用 (他们可以自动获得信息, 而不用主动寻找信息) 。企业更容易在这些平台上获得商业利益, 这更加助长了这种趋势。
这种趋势的后果就是:“Google没办法抓取它们的数据”。搜索变得更加垂直、更加应用内、甚至更加主动:你说出你的需求, 就有一个应用给你提供相匹配的服务。如果你想找到身边哪家餐厅更好吃, 打开手机上的“大众点评网”, 要比搜索引擎更能直接的反馈给你准确的信息。登陆微博看看自己关注的人在看什么新闻, 再搜索一下微博内的评论, 会让你更快了解真相。
如果说过去, Web提供了通用化的服务, 而搜索则针对关键词提供通用信息的查找方式的话;那么未来, 移动互联网将提供更加智能化、个性化的服务, 而针对智能化、个性化的信息查找, 已经超出了传统搜索的能力之外。
确切的说, 搜索的未来, 就是不需要搜索。未来的应用 (或网站) , 将会依靠其掌握的数据和用户的个性化需求, 为用户智能匹配信息———你不必去搜索, 应用会主动推荐你要的结果。
谷歌早就意识到这一点。或许因为谷歌前CEO、现任董事长施密特曾在苹果董事会的缘故, 谷歌同步进入了智能手机领域, 以“雷锋精神”无偿为业界提供智能手机操作系统, 借此布局智能信息时代。它最早意识到智能化、个性化信息的重要性, 也最早发现地图对于智能设备的决定性作用, 并基于地图结合搜索做了多种尝试。
显然, 谷歌也意识到, 随着网络数据的日益完善, 以及智能信息时代的到来, 人们不再需要去搜索数据, 数据会根据人的需要, 主动推送到用户面前。“匹配+推送”代替“搜索”, 成为未来信息时代的核心, 用户的一个“Like”或者“Delete”就将决定某一类信息的存亡。人们将不必再耗时寻找信息, 新时代到来了。
退一步讲, 未来即便人们寻找信息, 也不再会特意选择搜索引擎作为入口。应用内搜索 (垂直搜索) 、手机直接搜索 (Siri、Google Now等) 将成为主流趋势, 搜索将成为应用内的技术支持。传统搜索还会存在, 但仅仅是其他搜索方式的补充。
新玩家的机会
要做到准确的“匹配+推送”, 就需要拥有海量的信息和数据。当下, 个性化 (垂直) 应用正在数据的积累过程中, 其威力尚未完全显现。因此, 当下搜索的挑战者是已经拥有海量数据的社交网络和电子商务们。
首先, 以Facebook为代表, Twitter、阿里巴巴等都对搜索引擎关闭了接口, 准备自己做搜索, 其所依仗的, 就是网站拥有的海量数据。根据玛丽米克尔的《互联网分析报告》, Facebook拥有超10亿用户, 每天上传超过3亿张图片, 有超过1250亿个好友关系。
2012年9月, Facebook CEO马克·扎克伯格说, “我们每天的搜索请求量达到10亿次, 而我们却还未尝试争夺该市场。”他还补充道, “未来某个时候我们会推出搜索服务。”
国内的社交网络也已经向搜索迈出了第一步。11月30号, 新浪微博将搜索引擎替换成了云云搜索;12月18日, 人人网开放了站内内容搜索功能。
其次, 智能化、个性化的需求, 使垂直搜索 (应用内搜索) 也开始试图分一杯羹。Yelp、AirBNB、大众点评网、去哪儿等国外内企业的内置搜索, 已经 (甚至可以说完全) 代替了搜索引擎。———因为和搜索引擎相比, 从应用内返回的搜索数据, 可以更准确的提供用户需要的信息。
再次, Siri、Google Now等人机交互层的应用, 也部分的取代了传统搜索。随着语音识别技术的成熟, 人们可能会更习惯直接与手机对话, 寻求问题的答案。
另外, 诸如豆瓣、闹米网等内容推荐引擎, 由于它们是基于用户的喜好数据进行推荐, 也应当是未来搜索的一种形态。
即使上述新玩家加入搜索阵营, 他们目前的业态也仍旧是“搜索1.5”, 距离“搜索2.0”还有遥远的距离。但是可以想见的是, 一旦上述网站通过你的搜索记录, 洞察了你的个性化需求或者个人喜好, 它们就能为你准确的“匹配和推送”你想要的信息, 搜索就会推出历史舞台。
而未来, 每一个细分应用都将汇集足够多的数据, 并将在细分领域, 为你匹配和推送你需要的精准信息。
传统搜索只剩“招架之功”
传统搜索的霸主Google最早感受到危机, 并开始了应对:它一边通过收购巩固护城河, 建立搜索生态系统, 一边加紧布局移动互联网和社交网络:Android操作系统和Google+。同时, Google的知识图谱搜索是对垂直搜索数据的处理和整合;在推出Google Now时, 谷歌就明确表示, “推出Google Now是为了在后台替用户完成搜索工作, 该服务甚至可以在用户意识到自己的需求之前就将相关信息呈现给用户。”它不仅已经介入了“搜索1.5”, 而且在“匹配+推送”的智能信息时代, 已经抢先获得了席位。
国内的传统搜索巨头百度, 也已经参与到智能信息时代的圈地运动当中。此前, 百度专注于发展自身垂直业务 (地图、知道、百科) 和“中间页”, 已经取得了一定效果, 数据积累已有基础。目前, 百度确立了云战略的发展方向, 并开始重视移动互联网。
但百度仍然身处危机之中。百度在桌面搜索市场正受到挑战, 在移动互联网也不是第一入口 (虽然百度发布了自己的手机ROM, 但装机量十分有限) 。因此, 百度能否在未来占据一席之地, 前景并不清晰。
此外, 其他传统搜索的竞争者中, Bing、雅虎空有技术积累, 却少数据来源;国内市场中, 360综合搜索或能挑战百度, 但在“搜索2.0中并无实质优势;搜狗也是如此;唯一掌握着大量用户数据的腾讯, 已将搜搜部门拆分。
综上所述, 我们会发现, 因为传统搜索手中掌握大量的搜索数据, 它们在未来仍旧有一线生机。但由于移动时代的全新模式, 使每个人的网络入口日益个性化和分散化, 传统搜索在智能信息时代, 不会在处于垄断地位。未来, 传统搜索若能幸存, 并非是因为他们传统的搜索方式, 而必然是因为它们颠覆了传统搜索, 蜕变成全新的“智能信息时代”的信息 (数据) 引擎。
从这个角度看, 谷歌还有机会。谷歌在智能设备市场拥有Android系统, 其核心的原生应用对应原生搜索;在“搜索1.5”时代进一步收集和获取了个性化数据。并且已经对“智能信息时代”进行了提前布局, 将能够顺利过渡到“匹配+推送”的“搜索2.0”时代。但百度等其他搜索则没有那么幸运了:因缺少系统级的应用, 在移动时代前景坎坷;又因没有掌握用户的个性化需求, 无法进入“搜索2.0”的门槛。
从这个角度来看, 大众点评的成功、和新浪微博的搜索尝试等等, 仅仅是掌握用户需求的开始。智能信息时代, 最辉煌的一页远未到来。
智能信息时代靠的是什么?数据要玩转智能信息时代, 需要两个方面的储备:
一是大数据。无论是老玩家如谷歌的Google Now、知识图谱搜索, 还是百度的中间页计划、语音助手, 搜狗发布知识库搜索引擎———知立方;还是新玩家苹果的Siri, 新浪微博的云云搜索等, 它们背后的核心只有一个:数据。知识图谱等内容与传统搜索的差异在于:传统搜索依赖搜索技术和算法, 而知识图谱的背后是对数据的深层次挖掘和智能处理。
未来搜索时代, 数据即价值。数据将会是智能信息时代的入场券。一方面, 智能信息时代的垂直化、精准化和个性化, 将会使信息更加符合用户的心意;另一方面, 智能信息时代对数据的挖掘和运用, 将会催生更多样化的商业模式。
二是用户数据。仅有大数据还不够。必须要将大数据处理能力和处理结果, 与每个用户能够精确的匹配。要做到这一点, 必须更全面的掌握用户的行为方式和个性化需求, 这需要从“搜索1.0”、“搜索1.5”以及用户在个性化需求方面, 提交的各种数据, 并且要进行交叉匹配, 最终更为准确的把握用户的习惯, 再与大数据进行匹配。从而达到最为精准的“匹配+推送”。目前, 掌握大数据的公司不乏其人, 但能够将用户习惯与之精准匹配和推送的, 却少之又少。
传统搜索必然式微。谁能为用户提供最个性化的信息;谁能对数据进行最精准的处理;谁就能赢得未来的信息之战。———但是显然, 智能信息时代不再是一家独享、也不再是一家独大, 而将是众神狂欢。
搜索技术的未来 篇6
未来的搜索应满足:用户需求变化,搜索将随需而变,朝着开放式搜索、社会化搜索及移动化搜索三个方向发展,最终将成为一个智能化的搜索工具,为全球网民带来全面、便捷、丰富、生活化的搜索体验。搜索在“变脸”的同时,其商业价值也将迸发出新的活力。
智能化搜索的三个方向
最初,互联网的出现解决了人们获取信息、资讯问题,大量的信息通过搜索框分配给网民。但如今的互联网已今非昔比,网民被各种创新式的应用所包围,团购、视频、移动位置服务、社区、微博、论坛、博客、知识分享,以及各种贴近人们生活、工作、日常需求的工具、娱乐、商务应用插件,可以说,网民对互联网的依赖度会大大提升,但也对互联网提出了苛刻的要求。在大变局的前夜,搜索引擎不会一成不变,应该适应新的环境。
人们都在想,面对数量和种类持续膨胀的互联网,谁能成为全球互联网的新入口,去将零散的应用和产品串接在一起?搜索引擎无疑担当起这一重任。在中国,这一趋势已经显露出来。CNNIC的数据显示,搜索引擎用户规模在2010年达到3.75亿,使用率达到81.9%,超过邮箱、IM、音乐等跃居网络应用第一位。但同样也面临着挑战。沈皓瑜表示,搜索引擎将变得更加智能化,开放式搜索、社会化搜索及移动化搜索是未来发展的三大方向。
过去搜索检索信息的工具特征明显,但随着网民需求的转变,在百度每日数十亿次的检索请求响应中,搜索娱乐、工具、阅读等各种应用产品的比例已经超过30%,“框计算”技术将各种优质应用聚拢在一起,通过海量计算、语义分析、智能匹配等技术,根据网民检索的关键词匹配对应的应用,这是开放式搜索的方向;社会化搜索趋势也很明显,网民正在编织一个社会化网络,并制造出了大量的动态行为数据,搜索也会增加更多的社会化元素和功能,去发现、跟踪消费行为,百度已有25%来自“社会化搜索”的贡献;再者,移动互联网的成熟将催生移动化搜索市场,人们通过平板电脑、智能手机等移动终端设备接入,更及时的购物比较,随时随地挑选餐厅、价格、好评、预订,便捷地获取应用,与现实生活贴合更紧密。
网民行为数据挖掘及价值
未来的搜索将更智能化、跨平台、跨应用,成为消费者接入网络生态的中心。广义上的互联网将融入人们的生活、工作及社会经济发展的各个环节,中国4.57亿网民活跃在这张虚拟与现实合而为一的网络中,将产生海量的行为动态数据,这也对搜索引擎的数据处理、挖掘、分析能力提出了挑战,也决定了网民的搜索体验和搜索背后的商业价值。
数据中蕴藏着智慧,这种智慧不仅能满足网民的需求,更能给企业借助搜索平台推广产品和品牌提供了广阔的空间。通过数据跟踪,捕捉用户需求和意愿,为不同用户提供不同的信息和应用体验,将大大改变以往应用碎片化发展的迷茫,为用户节省时间,最便捷地获取信息和应用;另一方面,通过深层数据挖掘,洞悉消费需求和真实意愿,不断构架消费者与企业间的桥梁,缩短企业与消费者间的接触路径,助力企业商业决策,获得更高ROI效果回报。
互联网正处于一个变革的时代,搜索也正被赋予新的使命和定义。在瞬息万变的互联网大潮中,搜索引擎处于用户行为和庞杂应用的核心中枢地带,管理和分配、发现和挖掘新的应用和价值,以用户为中心的技术和产品创新是驱动力,去延伸搜索引擎的未来世界。
基于本体的领域智能搜索技术研究 篇7
搜索引擎的工作原理与传统的二次文献检索相同,都是先收集资源,整理加工以提供检索入口,然后用户通过提供的检索入口进行检索。
目前搜索引擎正向着领域化、智能化的方向发展。领域化智能搜索为特定领域的信息服务提供了更安全、便捷的方式。同时,随着信息量的急剧增加,从维护内部网的安全、访问方式、信息处理便宜性的角度考虑,在特定领域网中如何进行快速搜索及信息处理也成为了一个亟待解决的问题。特定领域内部网搜索引擎的研究和开发,对于维护国家安全、提高工作效率具有深远的战略意义。
1 目前主要采用的搜索技术
目前,搜索引擎一般提供的是关键词的全文检索和分类浏览的查询方式,检索方式单一。分类目录浏览常常检索到很多无关的信息,查全率、查准率不高;关键词检索仅仅是机械的词语匹配,缺乏知识处理能力和理解能力,信息检索质量不高。此外,数据库检索功能和应用上的局限性、排序技术指标单一、分类目标体系缺乏规范、信息加工深度不够,这些都严重影响着搜索引擎的发展。因此,必须增加检索途径,加强网络信息资源的科学标引和组织,推动网络资源标准化进程,积极推进搜索引擎的发展。
元搜索引擎要比传统搜索引擎的性能要好,但由于搜索引擎是建立在传统搜索引擎的基础上,因此,传统搜索引擎所存在的查询精度低的问题在元搜索引擎中同样出现。由于用户查询信息一般都是基于某个特定知识领域进行信息检索,因此,在局限于某一特定知识领域或某一特定主题的情况下进行原始信息的收集,可以大大提高信息检索的精确度,从而出现了基于领域的搜索引擎技术,并且这种搜索引擎由于在特定主题的限定下进行数据的搜集与检索,要求搜索引擎具有智能化的特性,能够识别所搜索的网页是否与其主题相关,并且在搜索的过程中,能够沿着与主题最相关的链接进行搜索。从而使得这种基于领域的搜索引擎具有相当的智能化的技术,形成基于领域的智能搜索引擎。
利用人工智能先进技术重新设计搜索引擎,使搜索引擎更具智能化,检索结果更能反映用户的需求,这类搜索引擎称为智能搜索引擎。把信息检索从目前基于关键词层面提高到基于知识(或概念)层面,是解决问题的根本和关键,智能搜索引擎基于语义层面的检索形式,是建立在大规模的知识库基础上,用一个强有力的推理机,根据用户所提供的表达检索要求进行分析,然后形成检索策略进行搜索。具有领域化和智能化的特点。
2 领域与概念
领域是指一组具有相似或相近软件需求的应用系统所覆盖的功能区域。领域工程是为一组相似或相近系统的应用工程建立基本能力和必备基础的过程,它覆盖了建立可复用软件构件的所有活动。概念是领域抽象的直接结果。本体是一种概念体系且本体通常与领域相关。对于软件系统来讲,本体包括构造该软件所需要的概念词汇以及词汇之间相互关系的约束。本体的目标是捕获相关领域的知识、信息,提供对该领域知识的共同理解。概念是现实对象在某一或某些属性领域空间上的投影,任何本体都不能描述复杂现实对象的全部属性,只能根据领域来刻画其某些侧面。如圆柱体从不同角度可刻画出椭圆、矩形、圆顶矩形等形状,本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础,可以在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和继承。相对于元模型而言,本体是领域相关和超领域描述的,这种形式化的描述可成为遗留软件系统中可重用和共享的组件。
3 基于本体的语义检索模型
系统按照层次划分为三个部分:数据层、中间层和表示层。
数据层主要解决本体的建立和存储问题。本体的建立是针对特定领域的,因此需要领域专家的参与,依照一定的本体建立规范方法,并且要借助一定的辅助工具,本文采用Protégé工具。建立本体目前大多采用的依然是手工的方式。在web环境中,ontology主要以RDF文件或者OWL文件的形式存储,这些文件也可以由相关专家根据标准的格式以XML基本语法手工编辑,也可以由Pmotégé等工具自动导出生成。
仿真系统模型总体结构如图所示。
中间层允许用户以自然语言输入查询请求(可以是一个词语或者是一个语句),通过一系列的自然语言处理技术,结合ontology进行语素、句法、语义等的分析,最终将用户的请求,表达为一个模板化的查询表达式。这里所谓模板化,是指这种表达式符合系统内部对于信息资源的描述模式,是系统内部的应用可以识别和处理的形式。
利用ontology中的概念和关系,对网页资源进行预处理,并以特定的格式存储。根据用户的检索要求,从大量的信息中找到满足用户要求的信息,并对检索结果按照与用户请求的相关性大小进行排序后返回给用户。要从大量的信息中查找所需的信息,如果不对文本进行任何处理,仅仅通过字符串匹配,效率肯定十分低下。数据库系统之所以具有较高的检索性能,其原因就在于对于数据的表示模型进行了事先的规定,也就是具备良好的元数据管理机制。
中间层作用就是从非结构化的信息中提取出有用信息,并根据领域本体的概念类型模板抽取出信息实体,从而将这些非结构化的文本信息转化成具有一定结构的信息实体。在这里,基于ontology构建实体库和实体索引库,是借鉴了传统的元数据思想。元数据事实上是数据的模板,而这里,基于实体库的建立,也是参照由ontology描述的实体的模板,是关于实体的概念,关系和属性的一种特殊的元数据模板。
表示层给用户提供操作的交互界面。主要是对RDF、RDFS、OWL等相关文件的解析和推理。将以一般文件存储的本体信息资源从文件中读取出来,存储在特定的模型中处理。
随着互联网上信息爆炸式的增长,互联网为人们提供了一个信息的海洋,在增加了用户信息量的同时也增加了用户查找准确信息的难度。搜索引擎的出现在一定程度上缓解了这种压力,但随着信息的海量增长,传统概念的通用搜索引擎已不能满足特定用户群对其相关领域中专有信息检索的特定需求。特定领域内的信息搜索已经逐渐成为互联网搜索的重点。
通过对上述情况的分析,在基于本体技术的基础上讨论了如何建立一个智能搜索引擎模型并对其进行测试研究。
参考文献
[1]王幕东.搜索引擎的发展状况与使用技巧[J].情报理论与实践,2001(4).
[2]邓志鸿,唐世渭,张铭等.Ontology研究综述[J].北京大学学报(自然科学版),2002,38(5).
[3]李曼,王大治,杜小勇等.基于领域本体的Web服务动态组合[J].计算机学报,2005,28(4).
[4]邓志鸿,唐世渭,杨冬青.面向语义集成——本体在web信息集成中的研究进展[J].计算机应用,2002,22(1):15-17.
[5]周琦钰.搜索引擎的发展概况与趋势[J].湖南第一师范学报,2006,6(2).
[6]余以胜,张玉峰.基于本体论的知识库系统研究[J].情报杂志,2003(6).
基于文本的网络图像信息搜索技术 篇8
关键词:文本搜索,网络图像信息,搜索技术
在当今社会的网络信息存储中, 图像方面的信息占据了越来越重的比例, 根据之前的调查表明, 互联网上有80%的信息都来源于图像, 网民们对于图像的搜索需求越来越高。就目前的技术来看, 图像的搜索技术主要是基于文本和基于图像内容两种方法。在这两种技术方法中, 基于文本的网络图像搜索技术的不断发展, 更加符合绝大多数人的搜索习惯, 对于关键字的描述也相对准确。
1 基于文本的图像检索技术
1.1 什么是基于文本的图像搜索技术
基于文本的图像搜索, 就是指在收集图像的时候, 把这个图像周围的文本也一同收集了起来, 或是在搜索过程中, 图像中存在的文本被识别出来, 作为对于该图像的定量描述。基于文本的图像检索也就是通过关键字来进行图像检索, 非常地简便并且易于实现。
1.2 基于文本的图像检索技术索引数据库的建立
在基于文本的图像搜索技术中, 最关键要素就是索引数据库的建立。建立起这个索引数据库, 首先就要提取出跟图像的所有有关的信息, 比如图像的格式、名称和尺寸等。
1.3 基于文本的图像搜素技术的特点
根据当前的事情来分析, 基于文本的搜索存在着两方面的困难:一方面就是通过文本上的描述并不能准确表达图像的全部内容, 因为文字的描述能力有限, 它只能是通过定向的词语或句式来表达。一旦图像中出现了类似不规则形状或不常见的纹理时, 就很难应用文本对其进行解释。再有就是通过文本描述离不开会出现主观因素的形象, 当图像的内容过于丰富, 就会使内容上的描述具有很大的主观性, 那么这样的搜索方法会出现歧义。
但是基于文本的图像搜素技术也有很多优点, 比如说可以把图像的搜索转为了与图像相适应相符合的文本检索, 这样更加利于实现。另一方面, 由于文本搜索是人工来控制操作的, 所以它的查准率非常高, 可以用来辅助其他图像的搜索技术。
2 如何用文本的方法对图像进行搜索
2.1 图像关联文本的选取
基于文本的图像搜索, 其实就是找到与这个图像有关连的文本, 来对图像进行索引和标注。跟图像有关联的文本主要包括了文件的拓展名和超文本文件的图像标记符号。文件的拓展名就是图片的存储格式, 常见的有gif.、jpg.等, 根据这些文件的拓展名, 我们可以很好地定位图像信息。而超文本文件的图像标记符号其实就是让我们在实际的搜索中应用到超文本标记语言和可拓展标记语言。
2.2 文本匹配技术
当一个需要被搜索的图像里所有的文本都提取出来时, 就要根据这些文本的特征进行排序。不同的排序标准往往会出现不同的搜索结果, 比如根据图片的类型来进行文本搜索, 那么我们可能会搜索出特定的图片, 但如果是根据这个图片的内容在网站中进行搜索, 那么搜索的范围也会缩小。
3 如何对图像中的文字进行提取
3.1 基于文本区域空间频率特征的纹理方法
基于文本区域空间频率特征的纹理方法, 又称为纹理图像分割法。主要是采取了平稳离散的小波变换来对图像进行着分解, 由于纹理图像在局部的区域内是呈现不规则性, 但在整体中又表现出了规律性, 因此可以对其进行分割。这样的方法可以准确检测到字符与背景的对比度较小的文本, 但是也有一定的缺点:由于它产生的文本区域常常和附近的其他边缘轮廓相互黏接, 所以说不能得到文本区域的精确位置。
3.2 连通区域方法
根据图像进行连通区域的方法可以有效确定出文本区域的精确位置和大小, 但和基于文本区域空间频率特征的纹理方法相反的是, 它不能够检测到字符与背景的对比度较小的文本, 因此也有着自身的约束性。
3.3 神经网络方法
由于区域空间纹理法和连通区域法都有着自身的局限性, 所以提出了一种新的方法——神经网络方法。这种方法将纹理法和连通区域法进行了巧妙的融合, 通过整幅的彩色图像色调的直方图来对图像的颜色进行分类, 当字符和背景的对比度较小时, 根据图像中的其他像素颜色, 文本和背景的颜色就会在神经网络中形成一个绝大值。在实际的搜索中, 会用纹理法将图像分隔成一个个可能会包含着文本的图像块, 然后用区域法来确定文本的大小和具体位置。
神经网络的方法改进了纹理法和连通区域法中存在的不足, 是目前为止应用最为广泛的图像中文字的提取方法。
4 结论
其实基于文本来对图像进行搜索, 从根本上说就是利用文本的特征来准确搜索到图像, 在这里文本就是起到了桥梁的作用。在今后的生活中, 互联网将会是一个多媒体的网络, 除了文字外, 图像、音频、视频都在扮演着越来越重要的角色。随着基于文本的图像搜索技术发展水平越来越高, 也有着非常大的现实意义。但是技术的发展并不是一朝一夕可以完成的, 在现阶段的搜索技术力还有这很多问题, 显得不够成熟, 我们应该通过分析文本的图像搜索技术的优点和不足, 找出今后的发展方向, 推动检索技术更加成熟化发展, 给人们创造出更多的价值。
参考文献
[1]赖庆.基于文本的网络图像信息搜索技术[J].民营科技, 2008, (11) :30-32
[2]王占一, 徐蔚然, 郭军.智能文本搜索新技术[J].智能系统学报, 2012, (01) :40-49.
[3]阿斯艳·哈米提, 阿不都热西提·哈米提.基于文本的图像检索与基于内容的图像检索技术的比较研究[J].首都师范大学学报 (自然科学版) , 2012, (04) :6-9.
[4]韩泉叶, 杨晓健.文本信息搜索模型研究[J].兰州铁道学院学报, 2002, (01) :27-29.
看搜索那些事从发展到未来 篇9
1 何为搜索
搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。它使用特定程序把因特网上的所有信息归类,以帮助人们在茫茫网海中搜寻到所需要的信息。目前常用的网络搜索引擎有百度、Google、必应、搜狐、雅虎、有道、中搜、搜搜等。
2 搜索原理
搜索引擎的工作原理大致可以分为三部分。
搜集信息
搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(Spider)的自动搜索机器人程序来连上每一个网页上的超链接。机器人程序根据网页链到其中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。
整理信息
搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息,就能迅速找到所要的资料。想象一下,如果信息是不按任何规则随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。
接受查询
用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息,以帮助用户判断此网页是否含有自己需要的内容(如图1)。
对并不算漫长的搜索技术的发展来说,搜索历史的三次突破就是三张图谱:网页图谱、社交图谱和实体图谱。
3 网页图谱
上世纪90年代,信息检索只有两个衡量的指标:查准率和查全率,最早的搜索引擎AltaVista只解决了查全率,就成了当时最富盛名的搜索工具。谷歌的两位创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)使用PageRank的全新算法,解决了查准率的问题,令当时所有搜索入局者难以望其项背。
网页搜索的发展时间相对较长,它也拥有很多特色功能来便利大家的查找,比如说网页快照、相关搜索、拼音提示、错别字提示以及一些高级搜索语法。
比如当你遇到网站服务器暂时故障或网络传输堵塞时,可以通过“快照”快速浏览页面文本内容(如图2)。而如果搜索结果不佳,有时候则是因为选择的查询词不是很妥当,你可以通过参考别人是如何搜索的,来获得一些启发,百度的“相关搜索”就是和你的搜索很相似的一系列查询词(如图3)。
然而信息爆炸让改变悄然发生,互联网产生的数据越来越多,没有被纳入搜索引擎的“暗网”以万亿计,人们也往往没有时间和耐心点击第五页以后的搜索结果。在过去的十几年里,搜索引擎的研究和创新一直围绕排序进行,业内参与者竞争的焦点是谁的排序相关性更好!不过基于传统网页搜索的卡位战已经基本结束,谷歌、百度脱颖而出。
4 社交图谱
Facebook去年高调推出“社交图谱搜索(Graph Search)”,你可以通过它搜索好友圈中谁看过灾难电影。Facebook搜索依靠的是10亿用户、2400亿张照片和1万亿次页面访问量带来的数据金矿。社交图谱是一种表明“我认识你”的网络图谱,它反映了用户通过各种途径认识的人:家庭成员、工作同事、开会结识的朋友、高中同学、俱乐部成员、朋友的朋友等等。社交图谱主要由一些主流的社交网络产生,用户们互相向自己认识的人们发送邀请来构建和维持他们的社会关系(如图4)。
Facebook的社交行为数据可以满足相当比例的搜索请求。可以基于朋友的“Like”搜索加州的特色餐厅,或是通过朋友的照片寻找一起滑雪的玩伴。除相关的语义研究,社交图谱搜索背后是把用户行为产生的数据,比如点击习惯、Like等运用到极致,它更倾向于解决与生活相关的社交信息。
社交网络为信息的交流与分享提供了新的途径。作为社交网络的网站一般会拥有数以百万的登记用户,使用该服务已成为了用户们每天的生活。社交网络服务网站当前在世界上有许多,知名的包括Facebook、Quazza.com、Myspace、Orkut、Twitter等等。在中国大陆地区,以社交网络服务为主的流行网站有人人网、开心网、微博、QQ空间等(如图5)。
5 实体图谱
实体搜索对比Facebook的显著进阶是,不仅仅有“人”、“地点”、“照片”等一些最常见的实体,也有如哈利·波特、植物、动物等真实和虚拟世界内的所有实体。
实体搜索的概念产生于2004年,其前身是微软研究院研发的学术搜索,它试图解决信息检索的精准化。而实体搜索结果的理想呈现形式将会类似于维基百科,不过不同的是,维基百科是人们手动整理和撰写的,而实体搜索则是试图通过自动算法、机器学习、数据挖掘和自然语言理解等技术自动生成的类似网页(如图6)。
在算法上,实体搜索把传统基于“文本”的搜索改变为基于“对象”的搜索,搜索引擎更加智能地去理解用户的真实需求。例如搜索“Apple”,它理解成苹果公司的机率最高;如果搜索“Big Apple”,最高的可能性则是列出纽约市。短期来看,实体搜索是对现有搜索精准度的一次改进。
看起来前景无限的社交图谱搜索和实体搜索吸引了行业巨头纷纷涉足。可是无论是社交图谱还是实体搜索,结构化数据库成为一大难点。一个显而易见的难点是,现在万亿级的网页以及全人类的知识,都是用非结构化的方法在处理。
另外手机等移动设备带来了移动互联网的高速发展期,平台和工具的变化引起了用户使用习惯的改变。一个显而易见的变化是“语音搜索”,随着三星最新开发的“眼动追踪”技术,以及微软、英特尔在体感计算上的突破,越来越多的电子设备可以感知用户的手势和动作。
从搜索的方式来讲,目前的搜索相对被动,而未来的搜索会更加智能,能够根据用户不同的使用场景,用最适合的输入方式实现“主动搜索”;而从搜索的形式来讲,随着技术的不断突破,或许未来的搜索只需要挥一挥手,就可以如《黑镜》中的主人公一样随意切换。然而不论搜索如何变化,我们都能看出,搜索引擎是在不断揣摩人的心理,为满足网民的需求而不断发展的。正如Google Search产品经理Jack Menzel所说,未来的搜索会更自然,就像与朋友聊天一样。
基于JAVA技术的搜索引擎研究 篇10
也就是说每隔一个周期搜索引擎数据库的数据都会持续性地更新, 一方面扩大了搜索引擎的应用范围, 另一方面为用户也提供了极大的便捷。在搜索引擎使用过程中用户通过搜寻关键词便可在数据库中进行相关搜索, 其中会涉及到各类特殊算法, 经过处理后将关联程度以由高至低的顺序向用户反馈。JAVA技术的革新给搜索引擎的发展带来了新的动力, 使其朝着更高的层次迈进。
一、JAVA技术特征概述
相对于其他汇编语言, JAVA语言具有良好的兼容性, 另外在通用性、安全性方面较其他语言更具优势, 另外JAVA语言涵盖了以下特点:首先JAVA语言具有良好的安全性, 这种安全性对于网络环境而言有着十分重要的意义, 其安全机制能够遏制相关代码攻击[2]。其次JAVA语言具有强制性特征, 在其面向对象的过程中, 通常情况仅仅支持类之间的单向继承, 在多个接口情况下则能够进行多处承接。再者JAVA语言呈现了良好的动态性特点, 它可以满足动态性环境变化进行匹配, 这使得基于JAVA语言汇编的系统、软件等均得到了良好的兼容性, 特别是使对于应用而言易于升级。另外JAVA语言具备多线程特征, 这种特征使得相关应用及系统的性能得到了保证, 为开发者与使用者带来了更高质量的服务。
二、JAVA技术在搜索引擎中的应用分析
利用JAVA技术可对搜索引擎进行有效优化, 其中java2 PSE、Lucne以及Tomcat等均是常见的开发工具。通过使用这些工具可以使JAVA应用开发环境得到优化, 并且能够让搜索java类库以及索引java类库得以实现。本研究中网站搜索引擎构建对JAVA技术的应用进行了分析[3]。以JAVA为基础首先可以对网站内部链接进行优化。从形式上来看网站内部结构复杂, 但却表现了显著的层次性。因此为了让网站能够保持正常的工作状态就需要构建出一个通常的信息渠道, 保持其畅通性, 这样才能促使网站良性运作, 并且使得网站内部环境与外部环境关联起来。以网站搜索为例, 在网站中置入搜索框, 那么该搜索框便可为用户提供快速的信息获取途径。
同时可将其整合成一个针对性的平台界面, 归类对象。这种形式可以让用户更好地在平台上进行交互从而让业务面得以扩充。对于搜索引擎而言网页标题也是关键的部分, 因此需对其进行优化。标题直接关系到了搜索引擎使用过程中的成效性, 会影响搜索引擎的预判。另外从心理层面来看网页标题会对用户产生一定程度的心理引导效应, 若标题具有吸引力则能够吸引用户点击并查阅。因此利用JAVA技术结合网站布局在不同页面构建出不同的标题, 从而体现标题的差异性。当然标题相互之间具有明显的差异性, 但是又体现了统一性, 也就是说标题整体内容应该围绕网页内容组织构建, 不仅仅能够对网页内容进行明确反映并促使两者可相互匹配。JAVA汇编提升了网站系统的识别能力, 让网站的功能性得以增强。
在应用JAVA技术的过程中Internet连接技术发挥了十分重要的作用, 由于搜索引擎需要对网站中不同页面的信息进行调用, 而JAVA则带来了丰富的功能选择。事实上在网络中应用计算机的过程中都离不开套接字类的作用, 而端口则承担了这种角色。
实际应用时在一个特定的时刻存在唯一的服务器程序对相同的端口进行侦听, 而Server Socket与Socket是JAVA定义的两个重要类别, 通过上述两类可对关键字进行声明, 从而构建出一对一的连接。也就是说利用JAVA保证了套接字可对相关信息数据进行直接读取或写入。另外需要注意的是JAVA可能对中文字体可能会产生乱码, 因此需要进行针对性处理, 另外可充分利用JAVA的多线程机制使得后台运行保持稳定的状态。
三、结语
JAVA为搜索引擎提供了重要的技术支持, 特别是在搜索引擎智能化发展的情况下JAVA技术将得到更大的应用空间让搜索引擎的功能性得以完善。
参考文献
[1]郭彦秋.浅析百度与谷歌两搜索引擎的比较与分析[J].才智.2012 (06)
[2]劳志佳.基于Lucene3.5搜索技术的研究与实现[J].现代计算机 (专业版) .2012 (06)
【搜索技术的未来】推荐阅读:
搜索技术05-17
未来的搜索引擎10-08
搜索引擎排序技术11-14
中文智能搜索引擎技术10-15
实时信息搜索技术论文06-06
搜索引擎技术及趋势11-18
百度搜索引擎技术分析05-20
搜索引擎核心技术介绍10-21
智能搜索引擎技术论文12-29