搜索引擎排序技术

2024-11-14

搜索引擎排序技术(精选6篇)

搜索引擎排序技术 篇1

摘要:搜索引擎是一项崭新而深奥的技术,该文主要研究了搜索引擎的排序问题,首先简单介绍了搜索引擎的发展和搜索排序的重要性,然后分析了当前用户对搜排序索结果中存在的问题并结合搜索引擎的工作流程阐述了搜索排序的巨大作用。接着研究了当前搜索引擎中使用比较广泛的搜索排序算法,如Alexa算法、PageRank算法、HillTop算法等,并比较了各个算法的不同,最后并指出当前搜索引擎排序算法存在的一些不足,并展望了今后搜索引擎排序算法的发展趋势。

关键词:搜索引擎,排序,排序算法

搜索引擎是要给对互联网上的海量信息资源进行搜集并整理,然后给用户查询的系统。它一般包括信息搜集、信息整理和用户查询三个部分组成。

早期的搜索引擎是把Internet中的丰富的资源地址搜集起来,然后又由其提供的资源的不同类型而分成不同的目录,在逐层地进行分类,这就是目录索引搜索引擎的原理。随着因特网上的信息成几何级数式增长[1],出现了真正意义上的搜索引擎,这些搜索引擎收集很多网站的地址,随后逐一搜索网站的所有链接,把网站的所有链接和链接中的所有词汇分类存入数据库中,便于用户能够方便地进行查询,并快速返回用户查询的结果信息,并对查询的结果进行排序,其中,搜索结果的排序对搜索引擎起着重要的作用,也是衡量搜索引擎的一个重要指标。

1 搜索排序的作用

搜索引擎的目标是帮助用户迅速查找到所需的网络资源,并快速将搜索的信息反馈给用户。作为用户希望最符合自己需求的网络资源能在放置在搜索结果队列里排在前面。从用户的搜索行为习惯来看,用户通常最关心前几页的信息,而越往后的信息用户越不愿意查看。

然而,针对当前用户反应,搜索引擎排序主要存在如下一些问题:

1)搜索结果重复;

2)搜索结果排序欠佳;

3)搜索结果太陈旧;

4)广告太多。

由此可见,搜索引擎排序中搜索结果的排序在搜索引擎中发挥着很重要的作用。好的搜索引擎总能将用户需要的结果信息放置在搜索结果的前面,相反如果用户需要的结果信息总被排在检索结果的后面,则被用户点击的机率就很小,这样的搜索引擎也不会取得成功。图1中展示了搜索引擎的工作原理以及搜索排序在搜索引擎中的地位和作用,由图中可以看出,搜索排序是整个流程中与用户的接口层,其排序的好坏直接影响整个搜索引擎的设计流程。总而言之,排序是搜索引擎最关键的技术之一,排序策略和算法决定了排序效果的优劣。

2 排序技术介绍

2.1 Alexa网站排序算法

Alexa 是发布世界网站排名而引人注目的一个网站 ,在收集 URL 数量上 , ALexa 位居四大搜索引擎第一位 ,超过 350 亿 。 Alexa 的网站世界排名主要分两种:综合排名和分类排名。 综合排名也叫绝对排名,即特定的一个网站在所有网站中的名次。 Alexa 每三个月公布一次新的网站综 合排名,此排名的依据是用户链接数(users reach)和页面浏览数(page views)三个月累积的几何平均值。 当前世界排名最靠前的网 站:雅虎(www.yahoo.com)高居榜首,而世界著名的搜索引擎 Google 排名第二。

但Alexa网站排名会受到一些因素的影响,如Alexa工具栏仅在windows操作系统下,Internet Exploer浏览器中管用,使用其它操作系统或者浏览器的访问将不能被计数。Alexa工具栏也受到语言、地域、文化等各方面的影响,网站宣传广告的影响等。

2.2 Page Rank排序算法

Goolge是当前全球用户使用最多的搜索引擎。Google之所以能够如此成功,一个重要的因素是Google对搜索结果的排序比其它的搜索引擎都要好,总能将结果返回到前几个页面。这与Google的搜索引擎排序算法分不开,Google的搜索结果的质量在很大程度上受益Page Rank排序算法。

Page Rank算法的基本思想是:如果一个页面被许多其他页面引用[2],则这个页面很可能就是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面,一个页面的重要性被均分并将传递到它所引用的页面中。其中页面的重要程度量化后的分数就是Page Rank值。著名的搜索引擎Google所用的就是Page Rank算法,该排序根据网页间的链接信息迭代计算得到,这里的链接信息是相对静态的,没有考虑网页使用的动态信息。

根据这个思想,可以得出页面A的Page Rank值PR(A)的计算公式为:

式中:PR(A)——页面A的Page Rank值;PR(Ti)——页面Ti的Page Rank值,页面Ti链向页面A;C(Ti)——页面Ti链出的链接数量;d——阻尼系数,d=0-1,实际应用时设0.85;N——互联网上所有网页的数量。

由上面的公式可以看出,一个网页链入的数量越多,这些链入网页的Page Rank值越高,这些链入网页本身的链出数量越少,则该网页的Page Rank值越高。和Alexa算法不同,Page Rank算法并不是将整个网站排名而是以单个页面计算的。其次,页面A的Page Rank的值取决于那些连接到A的Page Rank的递归。

Page Rank技术根据网页之间的链接结构对网页的重要性进行了客观的评价,并将网页的Page Rank值应用于检索已过的排序,网页的Page Rank值越高,表明其越重要,排序越前。这样,在很大程度上避免和减少了人为因素,做到客观地将最恰当的检索结果展现给用户。消除了通过用不公正的方式处理网页级别,使真正有信息资源价值的任何小网站的网页在检索时和有名的网站的网页占有同等的地位,使搜索用户不会被假排名靠前的网站所干扰,保证用户能够检索到真正有用的信息。

2.3 Hill Top排序技术

和Page Rank一样,Hill Top同样是一项搜索引擎结果排序的专利,是Google一个工程师Bharat在2001年获得的专利。

Hill Top算法的指导思想和Page Rank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果和排序权重。但Hill Top认为只计算来自具有相同主题的相关文档链接对于搜索的价值会更大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。与Page Rank结合Hill Top算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠Page Rank值去寻找那些权威页面的方法,这对于两个具有同样主题而且PR值相近的网页排序过程中,Hill Top算法就显得非常重要了。同时,Hill Top也能避免了许多想通过增加许多无效链接来提高网页Page Rank值的作弊方法。

2.4 竞价排名

竞价排名是现在商业搜索引擎非常重要的一个手段,对于某些关键词搜索引擎进行拍卖,出价高的单位可以获得较高的排名,即在该关键词的检索结果中处于较前的位置,通常情况下,首页排名竞价最高。例如在“百度”购买一个关键词足球,首页的可能要2000元人民币甚至更多,下面以百度竞价为例作一个简单的介绍。

搜索引擎是应用最广泛的网络服务,每天有上千万的用户通过搜索引擎来寻找各种信息,企业的潜在用户也在其中。因此,存在了关键词竞价排名的商机。参加百度搜索竞价排名,注册属于企业的产品关键词(如产品或服务的具体名称),当企业的潜在用户通过搜索引擎寻找相关产品信息时,企业的网站将出现在搜索结果的醒目位置上。百度搜索竞价排名,可以将那些只在寻找企业产品的潜在客户直接带到企业的网站进行访问,从而为企业带来大量业务咨询,进而产生新订单,赢得新客户,实践证明,竞价排名是目前效果最好、投资回报最高的网络推广服务。

百度竞价排名是百度首创的一种按效果付费的网络推广方式[3],用少量的投入就可以给企业带来大量潜在客户,有效提升企业销售额,每天有超过一亿人次在百度查找信息,企业在百度注册与产品相关的关键词后,企业就会被查找这些产品的客户找到“竞价排名”按照给企业带来的潜在客户访问数量计费,企业可以灵活控制网络推广投入,获得最大回报应该说收费排名并不属于排序技术,这里指的收费排名也包括竞价排名,而是一种搜索引擎的赢利模式,但收费排名已经最直接的影响到了搜索引擎的排序,在此也略做一下说明,用户可以购买某个关键词的排名,只要向搜索引擎公司交纳一定的费用,就可以让用户的网站排在搜索结果的前几位,按照不同关键词、不同位置、时间长短来定义价格收费,排名一方面给搜索引擎公司带来收益,一方面给企业带来访问量,另外对访问者也有一定好处因为访问者想找“足球”,企业想卖“足球”,于是出钱让访问者能找到他,这样,买家和卖家能马上见面但收费排名给访问者带来更多的却是不真实,结果排序已经失去了公正性,有时候还带来大量垃圾。

当然,对于企业来说,收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。如前所述的针对搜索引擎排序,通过修改网页或者网站结构和主动增加网站链接等方法来让搜索引擎认为这些网页是很重要的,从而提升网页在搜索引擎结果中的排序,这对众多没有参加竞价排名的网站来说,是有失公平的。

3 排序结果存在的问题

目前各种搜索引擎的技术都有改进和优化,都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法,来提升用户的满意度。

搜索引擎排序算法上还存在两大不足:[4]

1)没有真正解决相关性

相关性是指检索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断检索词和文章的相关性,更何况许多时候这些特征不会都同时存在。这也是许多对搜索引擎作弊方法能起效的原因。另外,有些文章中没有出现检索词,但说的就是和检索词十分相关的内容,例如检索“篮球”,但有网页是介绍的一些赛事活动,文中没有出现“篮球”的字眼,搜索引擎就无法检索到该网页。表面特征只能治标,不能治本。解决相关性的的方法应该是增加语意理解,例如主题词和关键词的提取,从语意上分析,得出检索词和网页的相关程度,分析得越准,效果就会越好。

2)搜索结果的单一化

在搜索引擎上,任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。科学家搜索“星球”,可能是希望了解星球的知识,但普通人可能是想找“星球大战”电影,但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者,需要对搜索结果的个性化。Vivisimo公司就是想解决这个问题,他们采用对检索结果自动聚类的办法来满足不同类型客户的需要。检索结果排序如果要实现从单一化到个性化,该公司已经迈出了重要一步,但最理想的结果应该是针对每个访问者,排序结果直接和他们的检索习惯和意愿有关。例如搜索“体育”,对喜欢足球的人应该把足球的相关结果排在前面,对喜欢篮球的人应该把篮球的相关结果排在前面。

4 结束语

综上分析可知,目前现有的所有引擎排序算法并不能很好的满足用户的需求,因此,对于搜索排序算法的改进和优化有深入研究的必要。如何解决信息的相关性,如何将搜索的结果实现个性化,搜索引擎的排序技术也会朝着解决这两个不足的方向发展语意相关性和排序个性化,前者需要完善的自然语言处理技术,后者需要记录庞大访问者信息和复杂的计算。相信这方面问题的研究会给搜索引擎技术带来巨大的发展,也必将会更好的满足用户的需求。

参考文献

[1]Ricardo Baeza-Yates,Berthier Ribeiro-Neto.Modern Information Retrieval[M].北京:机械工业出版社,2005,(3):275~276.

[2]Google的秘密-PageRank彻底解说[EB/OL].http://www.kreny.com/pagerank_cn.htm.

[3]谈大军,林明茵,叶赛.中文和百度的排序方式与检索效率比较分析[J].现代情报,2005.3.

[4]许丽丽.专业搜索引擎对比研究[J].现代情报,2005,(1):188~190.

搜索引擎排序技术的优化 篇2

随着互联网的不断发展和日益普及, 网上的信息量在爆炸性的增长。当用户大致上知道自己要关心的内容, 但不清楚哪里能够找到相关信息 (即不知道哪些URL能给出这样的信息) 的时候, 搜索引擎能够为用户提供一个相关内容的网址及其摘要的列表, 由用户一个个试探看是否为自己需要的。搜索引擎通常指的是一种在Web上应用的软件系统, 它以一定的策略在Web上搜集和发现信息, 在对信息进行处理和组织后, 为用户提供Web信息查询服务。如下图1, 搜索引擎通常会提供一个网页界面, 让用户向浏览器提交一个词语或者短语q, 然后很快返回一个可能和用户输入内容相关的信息列表L。

这个列表中的每一条目代表一篇网页, 至少有3个元素:标题 (以某种方式得到的网页内容的标题) , URL (该网页对应的“访问地址”) 和摘要 (以某种方式得到的网页内容的摘要) 。通过浏览条目上的这些元素, 用户对相应的网页是否真正包含他所需的信息进行判断。

2 Google采用的Page Rank技术原理

2.1 Page Rank概念

众所周知, 目前Google搜索引擎是现在世界上最流行的搜索引擎, 也是最成功的搜索引擎。Google的排名运算法则主要使用了两个部分, 第一个部分是它的文字内容匹配系统, 也就是网页的相关性。Google使用该系统来发现与搜索者键入的搜索词相关的网页;第二部分也是排名运算法则中最重要的部分, 就是Google的专利网页级别技术 (Page Rank) 。

Google的核心技术称为Page Rank, 即网页级别。Page Rank技术能够快速的计算出网页的级别 (Rank) 。这个级别的依据是:当从网页A连接到网页B时, Google就认为"网页A投了网页B一票"。Google根据网页的得票数评定其重要性。然而, 除了考虑网页得票数 (即链接) 的纯数量之外, Google还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重, 并且有助于提高其他网页的“重要性”。为了得到更好的搜索结果, 尤其是使搜索引擎自动抵制那些基于对详细等级标准页面 (入口页) 内容的分析而自动生成的网页, 链接人气值的概念开始被开发了。因此, 一般地, 如果从其他网页链接到一个网页的数量越多, 那么这个网页就越重要。与链接人气值向比较, Page Rank的概念并不是简单地根据入站链接的总数。

Page Rank的原理类似于科技论文中的引用机制:谁的论文被引用次数多, 谁就是权威。在互联网上, 链接就相当于“引用”, 在B网页中链接了A, 相当于B在谈话时提到了A, 如果在C、D、E、F中都链接了A, 那么说明A网页是最重要的, A网页的Page Rank值也就最高。即越是重要的文件链接一个文件, 则这个文件就越重要, 但那些入站链接并不是被平等计算的。首先, 如果其他高等级的文件连接到它, 那么根据Page Rank的规则, 此文件的等级也高。如此, 在Page Rank概念中, 文件的等级由与它连接那些文件的等级决定的。它们的等级再由与他们连接文件的等级决定。因此, 文件的Page Rank由其他文件的Page Rank总递归之和确定。总而言之, Page Rank的等级是由整个网的连接结构决定的。

2.2 Page Rank算法描述

Lawrence Page和Sergey Brin在个别场合描述了Page Rank最初的算法。这就是PR (A) = (1-d) +d (PR (T1) /C (T1) +...+PR (Tn) /C (Tn) ) 式中:

PR (A) :网页A页的Page Rank值;

PR (Ti) :链接到A页的网页Ti的Page Rank值;

C (Ti) :网页Ti的出站链接数量;

d:阻尼系数, 0

于是可知, 首先, Page Rank并不是将整个网站排等级, 而是以单个页面计算的。其次, 页面A的Page Rank值取决于那些连接到A的页面的Page Rank的递归值。PR (Ti) 值并不是均等影响页面PR (A) 的。在Page Rank的计算公式里, T对于A的影响还受T的出站链接数C (T) 的影响。这就是说, T的出站链接越多, A受T的这个连接的影响就越少。PR (A) 是所有PR (Ti) 之和。所以, 对于A来说, 每多增加一个入站链接都会增加PR (A) 。最后, 所有PR (Ti) 之和乘以一个阻尼系数d, 它的值在0到1之间。因此, 阻尼系数的使用, 减少了其它页面对当前页面A的排序贡献。

3 搜索引擎的优化

3.1 优化Page Rank

虽然Page Rank技术在实践的检验中被认为是很成功, 但不代表Page Rank就不存在不足之处。从根本上说, Page Rank只是一种基于bake-link的算法, 它不能给页面的具体分类提供任何帮助, 细化检索范围。有分析统计表明, 用户平均察看返回结果不超过2页。据此, 笔者认为Google可采用某种反馈机制实现根据用户的需求、行为的反馈进行检索结果的Page Rank值的重新组织排序, 使一些较准确的、满足用户要求的记录, 能较为全面的显示在检索结果前面部分, 从而为用户提供更为有效的信息服务, 提高客户满意度。针对用户信息行为特征以及Page Rank技术的优点, 本文建议采用一种基于C/S模式的行为反馈再排序机制。如图2所示:

该机制在Server端继续运行Page Rank, 在Client端建立一系列跟踪反馈器, 记录下用户的所有行为操作并进行反馈, 根据这些行为操作, 系统可进行再次的行为分析描述, 产生与用户需求密切相关的特征量以及附加Rank值。最后, 系统根据收集的行为特征量, 进行再次的文本匹配, 产生一系列检索结果项, 同时Page Rank系统会在对附加Page Rank值进行Page Rank值复合的基础, 实现结果项的重排序, 使准确、有效、满足用户需求的记录项能充分全面地集中地显示在前面位置, 从而使用户能更容易地获得所需的各种信息。

3.2 添加个性因子

上面我们所说搜索引擎排名与Page Rank的关系是搜索引擎结果Ranking (排名列表) 是“Page Relevance” (页面因子) 与“Page Rank”因素综合承继的结果

Ranking= (Page Relevance) x (Page Rank)

但是这样的排名方式是同样的搜索引擎对不同的任何人输入同样的查询值都会返回相同的结果, 但是我们每个人查询的目的都不同, 很有可能自己所关心的内容在前面2页都没有返回。这样就导致搜索效率的低下和用户的流失。作者认为可以在排名技术上再加上新的因子, 即除了页面因子和Page Rank值之外有一个新的因子来对排名进行一定的影响, 即针对用户行为来制定个性化搜索服务的相关因子。本文暂时命名为个性因子 (Personality) 。即把上述的公式扩展为:Ranking= (Page Relevance) x (Page Rank) x (Personality) , 本文假设对个性因子值的确定可以有个初步的假设公式为:Personality= (times) +relevance) , 而之所以采用加的方式, 因为若用户对某一个网页进行点击很多的次数时, 即使该网页的其他判定值不是很高, 但是由于该用户足够喜欢该网页, 搜索引擎没有理由不为这个用户把该网页放在第一位。这样得出一个合理的排序值是由若干方面的因素综合而成的, 排序算法的关键在于确定这些因素并求解, 最终依据系统需求形成一个综合的值供查询时排序显示。

4 总结

随着互联网上信息量和信息种类在不断增加, 并且上网人数剧增以及网民成分的变化, 搜索引擎要覆盖所有的网上信息查找需求已出现困难, 因此各种主题搜索引擎, 个性化搜索引擎, 问答式搜索引擎等纷纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用, 但随着互联网的发展, 我们相信它们的生命力会越来越旺盛。而为了进一步满足个人的需要, 个性化的服务将会是一种必然的趋势, 通用的检索系统不可能满足不同背景、不同目的和不同时期的查询请求。我们衷心的希望在不久的将来出现交互式个性化的新型搜索引擎技术的出现为用户的信息检索带来更大的帮助。

摘要:搜索引擎面临的一个主要问题就是如何使得用户所关心的网页能在搜索后的结果能够排序靠前或者说是重要的网页能够获得较好的排序位置。这个就涉及到本文所提到的搜索引擎技术中的一种——搜索结果排序技术。本文提出了一种在原有的排序机制中加入新的排序因子, 即个性因子。这是根据个人的查询习惯来影响查询结果的排序情况。

关键词:搜索引擎,排序技术,PageRank,个性因子

参考文献

[1]蔡国民, 王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报 (自然科学版) , 2006, 27 (5) :17-19.[1]蔡国民, 王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报 (自然科学版) , 2006, 27 (5) :17-19.

搜索引擎排序技术 篇3

随着互联网的快速发展,人们的生活也在快速的享受着互联网带来的乐趣。互联网数据呈现膨胀性的增长,大多数人在面对网络上的海量数据时都无所适从,不知道如何提高查询信息的效率[1]。

通用搜索引擎大大提高了人们信息检索的效率,但是当今社会正在向专业化、智能化方向快速发展,单纯的依靠通用搜索引擎并不能满足一些特殊人群的需要,垂直搜索引擎的出现正好弥补了这方面的不足,并引起了许多研究人员的重视。现实生活中,垂直搜索引擎已经进入了平常百姓家,一淘、去哪儿网、百度音乐都应用了垂直搜索引擎技术。网页排序算法是搜索引擎最核心的技术之一,本文通过对Page Rank网页排序算法的研究,提出了一种改进的Page Rank算法,然后将其用于垂直搜索引擎的网页等级排序,并对比验证了算法改进前后的查准率和用户满意度。

1 Page Rank算法的研究现状

1998年斯坦福大学的Sergey Brin和LawrencePage提出了基于网页链接结构的一种网页排序算法——Page Rank算法[1],该算法成功应用于Google搜索引擎,并获得了巨大的成功。Page Rank算法的基本思想:对每一个网页赋初值,然后根据每一个网页链出网页的个数平均分配其权值,按照计算公式计算出每一个网页的权值,再次进行迭代计算,直到每一个网页的权值趋于平稳,最后按照网页权值的大小决定网页的重要程度。那么Page Rank计算公式表示如下:

上式中,P R ( u ) 表示网页u的的权值,N表示网络中所有的网页,Vi为链接到网页u的其中一个网页,C(v i)表网页Vi链出的网页总个数。d为阻尼因子,通常取值为0.85,阻尼因子d的引入,为了保证计算结果收敛。

Page Rank算法通过离线计算网页的权值,当用户查询时根据关键字匹配获得网页集合,然后按照权值的大小排序展示给用户。由于离线计算权值,搜索引擎在用户信息检索的时候具有非常高的相应速度,Google搜索引擎的成功也直接证明了其高效性。但是Page Rank算法的计算方式仅仅依赖于网页之间的链接结构,其存在一定的缺陷:

(1) 主题飘逸:该算法无法判断网页之间主题的相关性;

(2) 偏重旧网页:网页存在的时间越长,则网页的被其他网页链接到的可能性更高,搜索排序比较靠前;

(3) 忽略了链接位置:没有充分考虑网页链接位置的重要程度,网页链出的数量平分其权值。

由以上可知,如果用户在信息检索的时候,查询的结果集中存在非常多的网页与用户所要查询需求不相关,降低了用户查询的效率,那么说明PageRank算法并不一定很好的反应出网页的重要性[3]。

2 Page Rank算法的改进

2.1 对Page Rank算法主题漂移现象的改进

互联网网页质量参差不齐,经常存在两个主题毫无关联的网页为了提升网页排序而相互链接。为了应对这样的问题,本文通过引入向量空间模型(VSM)[4]分析两个网页之间主题相关度,让主题更突出,消除主题飘逸现象。向量空间模型将网页文档中的字或者词抽象为一个n维的向量空间,以向量的方式降低文本分类的复杂性。在空间向量模型中,其中文档表示计算机所能识别的所有的数据记录,特征项是由字或者词构成的一个关键字或关键词,且能代表网页文本内容的最小语义单位。文档是由特征项和它的权重值组成的向量,然后构成了一个向量空间,最后把文档映射到该空间。网页X和网页Y的文档向量为,其中x、y为网页X和网页Y的文档向量,x1为文档x的一个特征项,y1为文档y的一个特征项,那么他们的相关度为:

在公式(2)中,W(X,Y)表示网页X和网页Y之间的相似度。例如,网页X中文档包含的特征项为

x1,x2,x3,x4,其对应的权值为10、21、30、50;网页Y中文档包含的特征项为y1, y2, y3, y4,其对应的权值为25、35、40、20;则文档x可以写成(10、21、30、50、0),文档y可以写成(25、0、35、40、20),x和y之间的相似度计算方法如下:

改进后的Page Rank算法为:

当两个网页之间具有较高的相关度,那么权值也相对较高。

2.2 对Page Rank算法偏重旧网页现象的改进

用户经常要查询最新的信息如新闻、天气、股票等,由于有些重要的网页在互联网上存在的时间短,许多其他的网页还没有链接向它,那么它的权值就比较低,以至于在网页搜索排序中比较靠后,这种情况不能很好的满足用户需求。我们需要考虑网页存在的时间因素。一般搜索引擎的搜索周期为半个月到一个月,我们认为在一个周期中如果网页被搜索到,那么就累加1次,同一周期中被搜索到多次都算作一次。那么我们就引进时间因子T,对于T来说,我们希望它能够通过T影响PR的值,这样就能加速新网页的上浮和旧网页的下沉,达到和人们的期望一致。为了和公式(2)对应起来,引入参数 ,使得其值为:

那么改进后的Page Rank算法为:

从公式(5)中可看出不会很大的影响PR值的分布,但是影响算法迭代的过程。改进后的算法就可以解决Page Rank算法偏向旧网页带来的不足,提升新网页的排名。

2.3 对Page Rank算法忽略链接位置现象的改进

目前,几乎所有的网页都采用半结构化的HTML语言,这样在网页的结构中包含着重要的信息[6]。网页中包含<head>、<title>、<meta>、<body>、<H1>等标签,而标签中的链接的重要程度是不相同的。我们应当对链接在网页标签中的位置加以重视,计算时应该赋予它们不同的权重因子。

在这里,我们引入分段函数F ( v i ),对链接数据挖掘出的位置不同进行处理分级,根据挖掘出的信息位置设置其权重。为了不影响PR值总体的波动性,我们的取值尽量围绕着1进行。F ( v i ) 函数如下:

那么最后的Page Rank算法为:

3 算法仿真和分析

为了验证改进后的算法效果,本文从起点中文网、番茄小说网、笔趣阁三个小说网站获取网页。采用开源搜索引擎Nutch为本算法的载体,设置搜索关键词如:红高粱、完美世界、凡人修仙传、斗罗大陆、盘龙。搜索引擎质量的好坏通常由查全率、查准率、响应时间和用户满意度来衡量[7]。对于Page Rank算法改进前后都是利用离线计算权值,并且爬虫的深度也相同,则算法改进前后的查全率和响应时间相差无几,这两方面对比没有太大意义。本课题研究重点为改进后算法的查全率和用户满意度。查询效果如图1所示。

通过查询页面对五个关键词的查询结果进行分析,并对Page Rank算法改进前后的搜索数据进行计算得出查准率。我们统计搜索引擎的前20条数据,分析数据中的相关文档个数和非相关文档个数,用相关文档个数除以前20条数据得出关键词的查准率。实验结果表明,改进后的算法与原算法相比具有更高的查准率,该算法能有效的遏制主题飘逸现象,如2所示。

用户满意度只能根据用户的主观性评价其优劣,用户查询关键字的主题特征越明显,用户越满意。实验过程中,组织10人成立测试小组,然后设置用户对每个关键字的满意度值最高为1,最低为0,最后将每个关键字的得分相加求和,然后除以小组总人数求得平均值,表示用户对所有关键的满意度。将算法改进前和算法改进后进行对比,数据如图3所示。

4 结束语

本文通过分析Page Rank算法中存在的不足,从主题漂移、偏重旧网页和忽略链接位置重要度三方面对Page Rank算法进行改进。并通过搜索引擎返回用户所需求的网页,提高了搜索引擎质量,使得搜索引擎更专业化。实验仿真结果表明,改进的算法在查准率和用户满意度方面比传统的Page Rank算法更好。

摘要:伴随着垂直搜索引擎领域的全面发展,为了满足人们对搜索引擎系统的高质量需求,通过深入剖析了Google经典的Page Rank算法,针对其单纯的考虑网页链接结构方面的不足,提出了改进的Page Rank算法。分析了网页文本结构、网页被抓取时间、网页内容相关度等问题,在此基础上对Page Rank算法进行改进,理论分析和仿真实验表明,改进后的算法具有更高的查准率和用户满意度。

搜索引擎中结果网页排序方法研究 篇4

搜索引擎以用户给出关键词作为查询请求, 收集和整理万维网上海量信息, 按照用户需求返回相关查询结果, 解决了用户从浩瀚的网络资源中查找所需信息的难题。然而, 当前大部分搜索引擎的返回结果与用户查询需求的相关程度并不十分理想, 用户通常需要从大量的返回结果中手工挑选符合自己需求的网页, 搜索引擎的导航优势没有充分发挥。

因此, 如何将用户最关心的网页排在最前面, 帮助其快速找到所需信息, 以提高用户满意度具有非常重要的意义。为了解决这一问题, 结果网页排序技术成为搜索引擎研究的一项重要研究内容。

2. 搜索引擎技术原理

目前, 常用搜索引擎系统的工作流程是:用户首先输入查询词, 系统根据查询词查找相匹配的文档, 然后依据文档与查询词的相关度, 返回有序文档作为结果呈现给用户[1]。因此, 一个完整的搜索引擎系统通常由搜索器、索引器、检索器组成[2]。

2.1 搜索器

搜索器也称网络爬虫, 负责从万维网上收集网页, 将网页的相关数据保存起来, 为构建索引做准备。传统的网络爬虫从一个或若干初始网页的URL开始, 获得其超链接, 在抓取网页的过程中, 不断从当前网页上抽取新的URL放入队列, 直到满足系统的停止条件。

2.2 索引器

索引器的功能是理解搜索器所搜索回来的信息, 从中抽取索引项, 生成文档库的索引表。索引表一般使用倒排表, 由索引项查找相应的文档。倒排文档索引, 可以被看成一个链表数组, 每个链表的表头是关键词, 其后链接包含该关键词的所有文档标号, 以及一些其他信息, 如文档中关键词的词频, 关键词的位置等。

2.3 检索器

用户输入关键词, 检索器首先从索引数据库中找到符合该关键词的所有相关文档, 然后计算这些文档与关键词的相关度, 并且按照相关度对文档进行排序, 将结果输出给用户。

检索系统就是根据用户的信息需求, 对系统存储的信息资源进行选择, 把与用户查询相关的文档排在前列。

3. 现有的结果网页排序方法

3.1 基于PageRank算法的网页排序方法[3]

基于PageRank算法的网页排序方法的主要思想是:搜索引擎从Internet上抓取大量的页面, 然后建库并使倒排表来索引, 同时计算出每个页面的PageRank保存起来。当搜索引擎收到一个搜索请求时, 搜索引擎根据用户提交的查询词在倒排表找出含有查询词的页面。然后, 按PageRank值的大小, 将这些页面进行排序, 并将每个页面的URL以列表的形式组织起来, 生成搜索结果列表页面返回给用户。

其通常的算法是:依据每个页面入链、出链的数量和一个合适的权值, 计算出每个页面的PageRank值, 按PageRank值的大小将符合条件的页面集进行排序。PageRank较高的页面被排在前面, 而较低的页面则排在后面。以google为例, 其PageRank值计算公式为:

d是介于0和1之间的常数, 在这里d=0.85。TI…Tn是指向页面A的页面, C (Ti) 是Ti出链数量。

3.2 基于信息检索者知识信息的技术[4]

该技术主要利用用户与搜索引擎在交互过程中产生的用户反馈信息和用户兴趣之间的关系, 从中挖掘出对检索有意义的数据。

Liu等人[5]考虑搜索引擎的用户很多时候并不会查看排在后面的结果, 提出了基于点阅数据搜索top结果的方法:分析用户搜索日志, 提取出查询的点阅数据信息以及Navigational类型的查询, 然后寻找历史数据中点击量最大的结果, 标注为最相关结果。

Eugene等人[6]提出为Web搜索用户的行为建立一个模型, 引入更丰富的用户浏览和交互特征, 从而给出更好的排序结果。该方法旨在能够通过分析用户搜索行为信息, 建立用户搜索行为与所选择网页之间的对应关系。通过这种对应关系, 更好地理解用户真实查询意图, 自动标注相关结果。

4. 现有算法局限性

目前, “超链分析”技术在web搜索领域中取得了巨大的成功, 但是仍然存在较大的缺点:PageRank排序算法建立在链接结构基础之上, 不同的链接结构对PageRank值造成不同的影响, 进而影响结果网页排序[7];基于信息检索者知识信息的技术考虑网页与查询词的相关性, 而此相关性仅仅局限于网页内容与查询词的字面相关度, 很难判断出用户的真实查询需求。

5. 研究趋势

通过上述研究与分析, 可以看出, 大部分现有的结果网页排序方法并不能很好地将用户最关心的网页排列在结果的最前端。在今后工作中, 将主要从以下两个方面进行排序算法研究:

(1) 基于网页重复性的结果排序算法:如果一个结果被多个成员搜索引擎同时检索, 那么这个结果对应用户的潜在有用性可能较高, 因此可以利用该信息以期提高结果排序的有效性。

(2) 基于语义的结果排序算法:用户输入的查询词的语义信息能更好地反映用户真实需求, 利用该语义信息再结合网页文档的语义信息将能更有效地实现结果的网页排序。

摘要:主要对现有主流搜索引擎结果排序技术进行了研究, 分析了对其各自的优缺点, 并在此基础上总结了搜索引擎结果排序算法的研究趋势。

关键词:搜索引擎,PageRank算法,结果排序,网页重复,语义

参考文献

[1]苏新宁.信息检索理论与技术.科学技术文献出版社.2004

[2]王黎.搜索引擎的相关性排序算法研究[D].中国科技大学.2010.

[3]杨广翔, 俞宁, 谌莉.搜索引擎结果的重排序方法[J].计算机应用.2005.

[4]张志强, 梁婷婷, 谢晓芹.一种基于用户标记的搜索结果排序算法[J].计算机研究与发展.2009.

[5]Liu Yiqun, Zhang Min, Ru Liyun.Automatic query typeidentification based on click through information//LNCS4182:Proc of Asia Information Retrieval Symp (AIRS) .Berlin:Springer, 2006:593-600.

[6]Eugene Agichtein, Eric Brill, Susan Dumais, et al.Learning user interaction models for predicting Web searchresult//Proc of the ACM Conf on SIGIR.New York:ACM, 2006:3-10.

搜索引擎排序技术 篇5

1 问题简述

假设问题:每个阶段每个产品至多是由一台机器加工;每个阶段的机器具有持续加工能力同时在同一时间加工一个产品;每个阶段的每台机器上的加工顺序是唯一且由算法决定;每个阶段一批产品只有全部加工完,且不能停顿,才能送至下个阶段;生产系统会产生于排序无关的产品加工的整备时间和费用;遵循0转换规则,在每个产品生产循环开始之前库存量要为0。

1.1 参数变量

m为工作阶段个数;n为产品种类个数;mj为阶段j中机器的台数;Mkj为阶段j中第k台机器;di 为产品i的需求率;Pij为阶段j中产品i的生产率;tij为阶段j中一批产品i的生产时间; sij为阶段j中产品i与排序无关的整备时间;sci为所有阶段产品i总的整备费用;hij为阶段从jj+1阶段每个产品i的单位时间库存费用;hi为每个成品i的单位时间的库存费用;A为每次交货的运输费用;H为计划期限长度;M为一个无限大的实数。

1.2 决策变量

δj为阶段j的生产排序向量;δkj为机器Mij上的生产排序向量;T为一个生产交货周期的长度;Qi为每个阶段产品i的批量Qi=di×T;F为循环次数;Bij为阶段j产品i开始处理的时间;zilj为阶段j只有一台机器,如果zilj=1表示产品i排在第l位置,如果zilj=0表示产品i不排在第l位置;xilkj为阶段j的机器台数,mj>1,如果xilkj=1表示产品i排在机器k的第l位置,如果xilkj=0表示产品i不排在机器k的第l位置。

可以描述为一个混合0-1非线性问题。问题的目标是使这个简单供应链中单位时间的运输、整备、和库存费用最小。目标函数中有两项的费用是很容易求出的:单位时间的整备费用∑i=1nsci/T;单位时间的交货运输费用A/T。而单位时间的库存费用的计算相对来说就比较复杂了,生产系统和装配系统都会产生库存费用。

图1显示了在一个循环中装配设备处的加工完成产品的库存量,产品i单位时间平均的库存量是1τ(diΤ)τ2)=diΤ/2;单位时间的平均库存费用是∑i=1ndihiT/2。

在生产系统中将有两种的库存费用:加工过程中的和加工完成的。图2中的(a)、(b)分别显示两个连续阶段j-1到j产品i的加工过程的库存量和成品i的库存量。

阶段j-1阶段j产品i加工过程的单位时间的库存量

.所有产品加工过程中总的单位时间的库存费用是

.成品i单位时间的库存量

.所有成品总单位时间的库存费用为.问题的目标函数

问题的目标函数

2 建立模型

目标函数

约束条件

3 算法设计与求解

3.1模拟退火算法及思想

模拟退火(simulated annealing)算法是局部搜索算法的扩展,是源于对热力学中退火过程的模拟。它不同于局部搜索之处是以一定的概率选择邻域中的费用值大的状态。从理论上来说,它是一个全局最优算法,而最优解是最低能量的状态。

1) 初始化:初始温度T(充分大),初始解状态S(是算法迭代的起点),每个T值的迭代次数L;

2) 对T<u 进行第(3)至第(6)步;

3) 产生新解S′;

4) 计算增量Δt′=C(S′)-C(S),其中C(S)为评价函数;

5) 若Δt′<0则接受S′作为新的当前解,否则以概率exp(-Δt′/T)接受S′作为新的当前解;

6) 如果满足终止条件则输出当前解作为最优解,结束程序。 终止条件通常取为连续若干个新解都没有被接受时终止算法;

7) T=a*T,且T->0,然后转第2步。

3.2算法参数的确定

1)初始温度。初始温度越大,获得高质量解的几率也就越大,但是花费的计算时间将延长。本算法采用的初始温度的选择方法是Metropolis准则法

要使算法在开始时达到平衡应该让接受概率P0接近于1,Δf为目标函数转换时的改变量。则初始温度为

取可接受的概率P0=0.9,Δf=1 000;则T≈10 000。

2)冷却进度表。冷却进度表由温度更新函数确定,它定义了温度下降的方式。常用的温度冷却方式可定义为Tk=αTk-1,k=1,2,3……k,取α=0.9。

3)Markov链长度Lk。Markov链长度Lk控制在温度Tk下产生的候选解数目。对于一般组合优化问题,Lk可以去为常数。Lk=(N-1)*(N-2),N=5;取Lk=12。

4)停止规则。原则上,退火过程终止的条件应该取为当温度足够接近于零或最后转移解不再发生变化时为止。根据经验法则,常用的选取停止准则的方法有:①温度降低到冷却阈值Ts以下;②当前最好的解已经连续在若干降温状态没有得到进一步改善;③降温总次数大于预设值K。本算法采用其中②方法,并且用方法①作为算法时间的控制。

4 实验数据及结论

本文的实验采用C语言编程,本实验是以n=5,m=3,m1=m3=1,m2=2的情况举例说明的。其中其余的参数是随机产生的,其产生的规律如下 diU(100,1 000),PijU(5 000,15 000),

由于hij的值随着j的增加也在不断的成非线性的增加,于是确定hij+1-hij的值在[1,5]之间,从而来确定每个工件以后各阶段的hij值

C语言编程随机产生的问题的参数值,问题的初始解是:4 3 5 1 2,单位时间的费用是96275.2;程序运行的结果第一阶段:1 2 4 3 5,第二阶段第一台机器:1 4 5,第二阶段第二台机器:2 3,第三阶段:12 4 3 5,问题的最佳解是:单位时间的费用是88583.6,总的运行时间是1min 19s。分析得到的结果可以认为是满意解,此解要比其余的解都要好。

5 结束语

经过验算比较,本文中设计的模拟退火算法,能让解逃离局部最优点,收敛到全局最优。与局部最优算法相比有较好的优化,且思路易理解,算法易实现等优点,但算法在解决规模较大时搜索性能也有所下降。如何选择一个更好的初始解,并结合其他一些具有全局优化性能的算法,更有效的求解规模较大的供应链问题是进一步的课题。

参考文献

[1]S.A.Torabi,S.M.T.Fatemi Ghomi,B.Karimi.A hybridgenetic algorithm for the finite horizon economic lot anddelivery scheduling in supply chains[M].2004:1-11.

[2]邢文训,谢金星.现代优化计算方法[M].北京:清华大学出版,1999:11-28.

[3]黄平,孟永钢.最优化理论与方法[M].北京:清华大学出版社,2009:168-176.

[4]谢云.模拟退火算法的原理及实现[J].高等学校计算数学学报,1999.

[5]李文勇,李泉永.基于模拟退火的全局优化算法[J].桂林电子工业学院学报,2001.

[6]高尚.模拟退火算法中的退火策略研究[J].航空计算技术,2002.

[7]席自强.单纯形-模拟退火算法[J].湖北工学院学报,2000.

搜索引擎排序技术 篇6

1.1 系统设计的概念定义

在核心方案提出之前,先形式化定义几个概念。

编辑距离:两个字符串,之间由一个变成另一个需要的最少的编辑操作次数。其中,编辑操作包括三种:1)插入一个字母;2)删除一个字母;3)修改一个字母。字符串和字符串的编辑距离我们记为ed(,)。

模糊关键字搜索:定义一个加密的数据文件集合F={,,,⋯,},该数据文件集合F保存在云端上;同时,给出预先定义的关键字集合W={,,⋯,},以及编辑距离d,用户输入关键字(w,k),当然这个k值也可以让代理软件来设置默认值。在云服务器进行模糊关键字查询时,假如用户输入的关键字w=∈W(其中i=1,2,…,n),则返回包含的文件ID;如果w不存在于集合W中,则计算w与的编辑距离c,找到满足c≤min(k,d)的,最后返回包含的文件ID。

1.2 系统设计的工作流程

密文模糊搜索的主要步骤如下,如图1所示。

数据拥有者首先根据需要上传的明文文件提取出相应的关键字集和文件ID。首先使用某种模糊关键字方案对原始关键字操作以产生模糊关键字集合,然后对模糊关键字集合进行加密形成关键字陷阱门,再根据某种数据结构生成安全索引。其次,将文件本身和文件ID进行加密生成密文文件。最终,将安全索引和密文文件上传至云服务器。

当合法的用户需要搜索他想要的文件时,先根据数据拥有者提供的方法生成模糊关键字集合,再对其进行加密生成关键字陷阱门,最后将这个关键字陷阱门上传至云服务器进行搜索。

云服务器在收到合法用户提交的关键字陷阱门后,通过和预先存储在云端的索引表进行对比,返回所有相对应的密文文件ID,这样一来,数据使用者就能够找到相对应的密文文件了。将密文文件下载到本地后,数据使用者使用密钥进行解密后得到自己感兴趣的明文文件。

2 密文模糊搜索方案设计

2.1 基于通配符的模糊关键字集的构建

通过编辑距离的定义,可以有一种直观的方法从关键字变化出所有的单词,比如,MOTHER变化出{MATHER,MBTHER,…,MZTHER}。然而,所有这些关键字变化出的单词都不得不列举出来,尽管一种操作是在同样的位置进行。基于上述的观察,即在同样的位置进行一种操作,我们提出使用通配符来标识在同样的位置进行的编辑操作。当编辑距离为d时,关于的基于通配符的模糊关键字集被标识为={,,…,};同时,有t个通配符的集合被标识为。注意到每一个通配符都代表上的一种编辑操作。举例说明,如对于关键字MOTHER,预先定义的编辑距离假定为1,那么它的基于通配符的模糊关键字集构建如下,={MOTHER,*MOTHER,*OTHER,M*OTHER,M*THER,MO*THER,…,MOTHE*R,MOTHE*,MOTHER*}。以这种方式,当编辑距离被置为1时,由MOTHER变化而来的所有单词的总数将只有13+1,从而代替了前面全部枚举的方式所产生的13*26+1个单词。一般来说,对于一个长度为l的给定关键字,的大小将仅仅只有2l+1+1,然而在前面的直观方法中它的大小却是巨大的(2l+1)*26+1。当预先定义的编辑距离越大时,更多的存储花费将会大大减少:在前面直观的方法中设置一样的例子,我们所提出的基于通配符的模糊关键字集的构建技术会将索引30 GB的存储量锐减到近似只有40MB。这就大大地减少了索引表在云服务器的存储量,提高了云计算环境下模糊密文搜索的可用性。

2.2 基于符号的字典树遍历搜索方案设计

为了提高搜索效率,提出了一种基于符号的字典树遍历搜索方案。在提出的这个基于符号的字典树遍历搜索方案中,用到了字典树的结构。树的构建就是在有限的符号集之上用于存储模糊关键字集合。我们这种结构构建背后的关键思想是,所有拥有相同前缀的陷阱门可以拥有相同的节点。树的根节点关联一个空的集合,而一个关键字陷阱门的所有符号可以从根结点到叶子节点(关键字陷阱门的终点)搜索得到。在字典树中的所有模糊关键字陷阱门都可以通过深度优先搜索得以找到。假定△={}是一个预先定义的符号集合,不同符号的总数为|△|=,也就是说,每一个符号△都可以用n位来表示,搜索方案设计如图2所示。

我们注意到,通过将键入的散列值划分成l/n个部分,每一个n位的散列值都代表△中的一个特定的符号。每一个模糊关键字所对应的散列值都是确定的,因为根据同样的输入sk和,输出的具有唯一性。进而可以推知,关于的信息将不会从输出的中泄露出去。在这个方案中,通过组合所有具有相同前缀的路径进一个单一的字典树路径,使得不同的关键字的陷阱门的路径得到整合,以支持更加高效的搜索。加密的数据文件标识符将通过文件地址或者是名称而被索引,并且这个数据文件标识符的索引信息将会被存储在相关路径的最终节点上。用户获得返回的搜索结果{Enc(sk,)}之后,便可以通过解密搜索到他自己感兴趣的文件,从而获得。对于每一个请求,在云服务器端搜索复杂度仅仅只有O(l/n),而这与文件的数量和相关关键字的大小都没有关联。

2.3 基于相似度排序的进一步研究改进

首先,我们对模糊关键字集的构建采用的是前面提到的基于通配符的模糊关键字集的构建方案。在这个方案中,使用通配符来标识两个关键字之间的编辑距离,也就是他们之间的相似度。这样,我们认为,通配符个数越少的关键字,其与原始请求的关键字的相似度越高,如原始单词是hate,那么*ate与hate的相似度记为1,比*at*与hate的相似度2要高。在该方案的构建算法中,对每一个都附加一个相似度d的值(0除外,因为当d为0时,我们的方案中是特别处理的),这个数据结构和算法的设计只需要在前面基于通配符的模糊关键字集的构建算法中简单地增加一个标识符。

其次,在后面基于符号的字典树搜索遍历方案中,在安全索引里引入多个字典树,每一个字典树都独自拥有一个标识其相似度的标识符,记为d。d的值为1,2,3…。这样在安全索引里多增加了一线性表,记录了相似度d和指向某一个字典树地址的指针,但是这个存储量是非常小的,所以可以接受。当然这个相似度d和指针是分别加密了的,只是用来进行信息的等值匹配。

最后,用户的搜索请求(w,k)先通过代理软件生成模糊关键字集{(,0),(,1),…,(,d)},在我们前面搜索方案的处理中,先将进行搜索处理,看是否有搜索结果返回;如果没有,我们再将{(,1),…,(,d)}上传到云服务器和索引中的关键字进行比对。先将d值与安全索引中的线性表进行等值比对,然后去相应的字典树进行查找。返回的结果中将d值小的关键字排在前面,这样我们便完成了基于相似度排序的模糊搜索。当然,在这里,会泄露云服务器安全索引里面字典树对应的相似度大小关系,但是并不会泄露相似度的值,在某种程度上并没有泄露什么重要的信息。

3 结语

本文通过对编辑距离相似度标准形式的观察,设计了基于通配符的技术来构建高效存储的模糊关键字集合。基于构建的模糊关键字集合,进一步提出了一种新的基于符号的字典树的搜索方案。其中,多路树结构的构建使用了符号集的形式来表示模糊关键字集合的结果。最后我们提出了一种通过对通配符个数的观察而使得结果基于相似度排序的解决方案。

摘要:云计算是信息技术高速发展的时代产物,近年来,人们更多地选择将数据存储在云端。但为了保证数据在云端的安全性,用户选择将数据加密之后存储到云端。如何对存储在云端的密文进行模糊搜索是一个研究的重点内容。本文对于密文模糊搜索提出了通过通配符的方式来产生模糊关键字集合,然后通过通配符的个数来标识文档的相似度并进行排序,最后将进行排序的密文文档结果返回给用户。

关键词:云计算,模糊关键字,密文搜索,相似度排序

参考文献

[1]Li J,Wang Q,Wang C,Cao M,et al.Fuzzy Keyword Search Over Encrypted Data in Cloud Computing.In:Proc.of the IEEE INFOCOM Mini-Conf[M].San Diego:IEEE Computer Society,2010:1-5.

上一篇:淮海经济区下一篇:住房商业银行贷款制度