爬行策略(精选9篇)
爬行策略 篇1
摘要:在深入分析了HTML页面的超链结构的基础上, 加入了锚文本内容分析权重和动态评价策略, 提出了算法的改进, 形成了综合动态价值的URL链接结构的搜索策略。改进的算法根据链接类型的不同赋予了不同的权重因子, 并结合了动态价值评价穿越"隧道", 简化了优先级的计算, 有效地降低了"短视"问题和"主题漂移"现象, 是一种高效实用的主题采集策略。
关键词:主题搜索引擎,URL链接结构,主题爬虫
主题爬虫的爬行策略是实现主题搜索引擎的一个重要模块,它直接决定爬虫的爬行方向,制约着搜索引擎的工作质量和效率问题。本文对现有的爬行策略略作分析,并提出综合动态价值和链接结构的改进搜索策略。
1、主题爬虫的搜索策略分析
1.1 基于内容评价的搜索策略
网页的标题和链接锚文本通常都是对文档内容的一个高度概括,该搜索策略就是根据标题、链接锚文本、关键词等叶面内容和主题信息的相似度,来评价链接的重要程度,并以此作为排序依据来决定搜索策略。
其主要的代表算法是De Bra等提出的著名的Fish-search算法[1]。该算法以用户输入的查询关键字为主题,通过字符串匹配来判定哪些页面包含主题内容,包含就认为是主题相关的,但是这种方法无法对页面的相关度高低进行排序[2];Hersocvic针对Fish-Search算法的问题对其进行改进,提出了Shark-Search算法[3],对链接价值的计算采用连续值的相似度函数,这样就能通过数值来判断网页与主题的相关性大小;Cho还提出了BestFirst算法[4],采用空间向量模型来计算页面和主题的相似度。
1.2 基于链接结构的搜索策略
基于Web页面的半结构化设计,其相互之间通过超链接进行关联,因此这种结构特征使得链接的重要性可以通过链接分析来确定,主要是依据文献计量学的引文分析理论,认为入链接和出链接比较多的页面价值也比较高。
这种思想的代表性算法是前文中介绍过的PageRank算法和HITS算法,由于页面的重要性完全依赖于页面的链接,因此,一个被大量与主题无关的页面集所指向的页面,其PageRank值就要比被一个由少量与主题相关的页面集指向的页面的PageRank值高,这种现象对基于主题的搜索引擎来讲比较容易出现"主题漂移"的状况[5]。并且由于每次搜索都要重复计算PageRank值或Authority及Hub值,致使计算复杂度随访问的页面数及链接数量的增长呈指数级增长[6]。
1.3 基于"综合价值"的搜索策略
这种基于"综合价值"的搜索策略是Bharat等对HITS算法进行的改进算法,是结合了内容分析和链接分析策略,通过查询主题与页面的相关度来确定页面P的主题权重W[p],将Authority权重用W[p]*H[p]来代替,Aggarwal用页面文本、URL标记和相邻页面的链接关系等信息计算链接的"综合价值"[7]。
1.4 基于未来回报的搜索策略
该搜索策略需要先对网络爬虫进行训练,通过已有的经验信息对链接做出相关性评价,能够预测较远的回报,从中选择价值高的页面优先进行爬行。此评价方法是建立在一种研究成果上[8]:Web资源信息的分布在某种程度上存在"相似性":同一类型的Web站点在构建方式上具有一定的相似性;同一主题的相关页面在组织方式上也存在一定的相似性。该策略通过训练挖掘出链接文本中潜在的结构信息,通过结构信息来反应当前结点距离搜索目标的距离。
这种方法的不足之处是预测的能力有限,研究表明其对未来回报的预测距离不超过3~4层;另外"离线"的训练方式必须要挑选训练的种子站点,因此加重了用户的负担[9]。
1.5 基于"动态价值"的搜索策略
近年来,基于"动态价值"评价的搜索策略越来越受到研究者们的重视。通常它采用动态变化的评价机制,随着搜索环境的变化而动态变化。在Web环境下,并不是同一主题相关的页面都互相链接在一起的,有很多是分成多个页面群相对独立地存在的,这就导致从一个主题相关的页面群到达另一个相关的页面群需要经历不相关页面。这些不相关的页面像一个长长的隧道一样连接着两个主题相关页面群,为了能够穿越这种隧道,解决网络爬虫的"短视"问题,M.Ester提出了基于隧道技术 (Tunneling Strategy) [10]的搜索策略。当当前页面的主题相关性比较低时,认为进入了隧道,此时通过动态地调整搜索策略,使主题搜索的范围扩大,以跨越无关网页,找到相关页面。
针对传统的利用固定的种子集合作为训练集合,Aggarwal[11]提出了动态调整用户的兴趣集合来指导爬虫的搜索。这种方法更能够针对用户的兴趣进行在线训练,使搜索更加灵活,进而提高了搜索效率。
基于"动态价值"评价的搜索策略能够根据环境的变化来动态地调整价值评价的机制,表现出了极大的灵活性[12]。
2、基于URL链接结构的分析
当前应用的搜索策略主要是分为两大类:基于内容相似度评价的搜索策略和基于链接结构评价的搜索策略。这些策略都是借助某些领域的知识对网络资源信息的分布做出一定的估计,并以此指导网络爬虫的爬行方向,但是普遍存在的问题是"近视性"和"主题漂移性"。导致这些问题产生的原因主要是网络爬虫是根据已搜索页面中的文本信息或页面的结构信息来进行分析和统计,但是这些信息本身可能是不精确的、粗糙的,且具有局部性等特点[13]。
为了避免上述缺点,本文提出一种基于动态评价URL链接结构的搜索策略,在简单的基于URL链接结构的基础上进行算法的改进,加入动态价值评价机制,消除"近视"问题。
Web页面内的链接,根据HTTP协议,其URL地址的标准格式是固定的:
其中带方括号[]的部分是可选的;hostname是站点的域名;port是端口地址;path部分是完整的URL路径,由零个或多个""符号隔开的字符串,一般是表示主机上的一个目录或者是文件的地址,是一种分层的树形结构;parameters用于制定特殊参数的可选项;query是用来给动态网页传递参数的。对于"路径path",定义为从URL的起始到最后一个"/"之间的部分。
根据URL地址的格式以及页面内链接结构,可以将页面内的链接分为五类:
(1) 向上链接:所链接页面处于当前页面的上一层;
(2) 向下链接:所链接页面处于当前页面的下一层;
(3) 交叉链接:所链接页面和当前页面不属于同一路径,或者说处于不同的目录;
(4) 兄弟链接:所链接页面和当前页面处于同一层,即它们是属于同意目录内的不同文件;
(5) 站外链接:所链接页面和当前页面不属于同一站点。
为了便于理解,图1给出了一个简单的实例图:
首先,可以根据hostname来判断两个链接是否是同一个站点,对于同一个站点的URL,再通path来进一步判断属于哪种站内的链接类型。
3、综合动态价值URL链接结构的搜索策略
对于URL的链接类型,通过其hostname和path可用如下方法判断:
(1)若所链接页面和当前页面的hostname不相同,则属于站外链接;
(2)若所链接页面和当前页面的hostname以及path都相同,则属于兄弟链接;
(3)若所链接页面和当前页面的hostname相同而path不相同,但所链接页面的hostname包含在当前页面的hostname中,则属于向上链接;
(4)若所链接页面和当前页面的hostname相同而path不相同,但当前页面的hostname包含在所链接页面的hostname中,则属于向下链接;
(5)其他情况下的URL都属于交叉链接。
对于一般的站点来说,内容的组织是按照栏目分类的,每个栏目下的文档通常是一个比较相近的主题内容。因此,对于一个主题相关的页面,当确定好其页面内的链接类型后,要赋予给每种链接一个合理的权重值,我们按照以下启发规则来确定:
(1)对于向下链接,通常是对该主题的细化,赋予最高的权重因子;
(2)对于兄弟链接,一般与当前页面主题相同,赋予一个较高的权重因子;
(3)对于站外链接,通过锚文本判断其与主题的相关性,若比较相关,赋予一个较高的权重因子,否则赋予一个中等的权重因子;
(4)对于交叉链接,与当前页面的主题一般相同,赋予一个中等的权重因子;
(5)对于向上链接,通常是当前页面主题的一个泛化概括,赋予一个较低的权重因子。
另外对于每个页面赋予一个深度属性值,来标示其与主题相关页面的距离,对于当前页面是主题相关的,对其深度属性值赋值-1;如果判断出当前页面是主题不相关页面,则对其深度属性赋值加1;当页面的深度属性值超过预先设定好的阈值时,认为其基本不可能到达主题相关页面,将此URL丢弃。
根据上述改进算法,针对主题搜索引擎的网络爬虫,对当前页面的操作流程如下图2所示:
上述改进算法在基于内容评价的爬行策略基础上,加入了链接结构的权重因子,将同一页面内不同类型的链接赋予了不同的权重因子,修正了待访问页面的优先级顺序,另外结合了动态评价策略,对穿越隧道提出了解决办法,从而在一定程度上缓解了"短视"问题并提高了主题网络爬虫的搜索效率。
4、基于动态评价URL链接结构的主题爬虫的实验结果
从新华网军事频道、人民网军事频道、军人网等军事网站上选择200篇与军事主题相关的文档作为种子页面,按照本文提出的基于动态评价URL链接结构的主题爬虫搜索策略测试5000个网页。
得到的测试结果如表1所示:
通过数据的对比发现:
采用基于动态评价URL链接结构的主题搜索策略后,提取的文档数增加了,这得益于搜索策略对爬行方向进行了有效地控制,使爬行方向尽可能与主题相关,当爬行同样多的链接网页时,能抓取到更多的相关文档。
对于采用了主题爬虫策略的军事主题搜索引擎和通用搜索引擎的网络爬虫相比较,爬行数据比较结果如表2所示:
由上表中的数据不难看出:
主题爬虫提取的文档数较通用爬虫要少很多,而通用爬虫并不丢弃任何文档,主题爬虫在搜索的过程中丢弃了大量的无关文档,这是因为采用了搜索策略加入的了对无关页面的过滤过程;在检索时间上,主题爬虫的耗时要稍高于通用爬虫,这是因为在主题搜索的过程中采用的搜索策略和页面过滤机制在执行上都需要一定的时间,但是并未比通用爬虫耗时很多,说明其工作效率还是可以的。
爬行策略 篇2
爬对宝宝来说是一项非常有益的动作,既能锻炼宝宝全身肌肉的力量和协调能力,又能增强小脑的平衡感,对宝宝日后学习语言和阅读有良好的影响,因此,爸爸妈妈一定要帮助宝宝完成爬行动作。
宝宝学爬行,共分3阶段
刚开始宝宝学爬有3个阶段:有的宝宝学爬时向后倒着爬;有的宝宝则原地打转,只爬不前进;还有的是在学爬时匍匐向前,不知道用四肢撑起身体;这都是宝宝爬的一个过程,因此,爸爸妈妈应该根据宝宝的特点耐心教宝宝练习爬行。
通常,在5~6个月时,宝宝就会为爬行做准备了,他会趴在床上,以腹部为中心,向左右挪动身体打转转,渐渐地他会匍匐爬行,但腹部仍贴着床面,四肢不规则地划动,往往不是向前爬而是向后退。
大概在宝宝6~7个月大,能够不用支撑独自坐稳后,可能很快就可以开始爬了。宝宝会把头抬来,向四周看。这时候他的手臂、腿和背部的肌肉也足够强壮有力,在用双手和双膝支撑身体时,不至于摔倒。
宝宝会逐渐(在几个月内)学会充满信心地从坐姿转换为四肢着地的姿势,而且很快就会意识到,如果自己伸开四肢,让身体和地板平行,就可以前后晃动身体了。
到大概9~10个月的时候,宝宝会发现借助膝盖用力推动身体,就能向前移动了。随着动作越来越熟练,宝宝还能学会从爬的姿势转到坐下的姿势。宝宝甚至还能掌握一种高级爬行技巧:交叉爬行,就是向前爬的时候移动一只胳膊和另一侧的腿,而不是同时移动同侧的胳膊和腿。在这之后,只要多加练习,宝宝就可以熟能生巧。到1岁左右时,他爬得就非常好了。
爬行策略 篇3
近年来随着因特网技术的发展与普及, 网络上的信息量越来越大, 如何高效地从网络上获得有用的资源变得至关重要。主题爬行器是解决这一问题的技术之一, 它是在预定主题的指引下, 在网络上选择与主题相关的网页进行爬取, 并避免了非相关的网页[1]。传统的爬行策略大多都是通过与关键词机械的匹配, Ehrig等人把本体引入到主题爬行中[2], 利用本体代替了关键词, 利用本体中的词汇层次关系计算出网页的主题相关度, 但本体的描述方法过于复杂, 直接影响了使用效率。在计算网页相关性上, 传统主题爬行策略主要有两类:基于网页内容的搜索策略、基于Web链接评价的搜索策略。基于网页内容的搜索策略是对文本中的相似度进行计算, 根据相似度确定URL优先级;基于Web链接评价的搜索策略是根据Web页面之间的相互引用关系来确定网页的相似度, 从而确定URL优先级队列。基于网页内容的搜索策略虽然简单但忽略了链接结构信息, 所以不能很好的预测链接价值;而基于Web链接评价的搜索策略只考虑了网页之间的相互引用, 但忽略了页面与主题的相关性, 容易出现“出题漂移”的问题[3], 因此不适合挖掘主题资源。本文在综合考虑以上问题的基础上, 设计了一种新的主题爬行策略, 首先通过维基百科对主题进行描述;对下载的网页进行处理后, 综合基于网页内容和Web链接分析来确定URL的优先级。
1 主题爬行策略设计
本文综合维基百科、网页内容和Web链接的方法来设计主题爬行策略, 新策略的处理流程图如图1所示。
1.1 基于维基百科的主题描述
在主题爬虫中如果对主题描述太为广泛就会导致搜索的网页量大而相关性就小;如果太具体就会限制爬行范围, 虽然搜索的网页相关度高, 但是会减少数量[4]。而维基百科[5]是一个动态的、可自由访问和编辑的全球最大的Web知识库。维基百科对其中的每个概念都给出了对应的描述文档, 并以分类树[6]的形式组织在一起。分类树中上层为较泛化的概念, 下层为较细化的概念。
本文通过维基百科的主题向量来描述主题, 约束爬取范围, 具体方法为:
(1) 完善分类树。维基百科中对属于某概念的部分下层概念并不收录进分类树中, 而出现在描述文档中, 这样就导致了分类树不完整, 从而影响相关度计算。本文将这些概念提取出来, 并加入到分类树中。例如, 将出现在“转基因”描述文档中的“遗传工程”加入到“转基因”的分类树中。
(2) 从分类树中提取概念p向上一层的概念集合Cup和向下N层概念的集合Cdown, 组成p的相关概念集合 (Relevant Concept Mass, RCM) , 即RCMp=Cup⋃Cdown⋃ {p}。
(3) 对概念p的相关概念集合中的每个概念RCMp={c1, c2, ⋯, ci, ⋯, cm} (m>0) 计算权重 (0<i<m) , 权重wi由ci与主题概念p的距离d (ci) 决定, W (ci) =μd (ci) 。其中, d (p) =0, 0≤d≤N;0<μ<1, μ根据实验获得;W为递减函数, 即距离主题概念p越近, 权值W越大, 反之, 越小。计算出p的概念集合RCMp后就确定了主题概念的向量空间VSp。
(4) 将主题描述文档经过分词和去除排除词汇后映射到VSp上, 即将词语映射到RCMp中存在并且在分类树中距离主题概念p最近的概念上, 然后统计VSp中每个概念在主题描述文档中出现的频率 (f) , 最终计算主题向量T:
式中:fi等于属于ci的词的频率之和。
1.2 网页主题相关性计算
主题相关性的计算准确与否直接影响了主题爬行器的性能。本文将下载的网页进行分块后, 利用改进的Shark[7]启发式搜索算法, 根据爬行过的网页内容和Web链接信息来计算待爬行网页队列中的URL优先级。
1.2.1 网页内容评价
本文设计两个队列来存放待爬行的URL, 分别为相关度高的优先队列PQ (Prior Queue) 和相关度低的普通队列NQ (Normal Queue) ;设计三类阈值来决定待爬行URL属于哪个队列, 分别为页面内容阈值上限page MaxLimit、页面阈值下限page Min Limit, 节点阈值上限nodeMax Limit、节点阈值下限node Min Limit, 锚文本的相关度阈值anchor Limit。其中, 节点阈值上限即是PQ的最低相关度值, 节点阈值下限即是NQ的最低相关度值。而网页和关键词的相似度计算仍采用向量空间模型, 计算公式如下:
根据相关度可以将待爬URL放入相应的队列中, 若一个页面的主题相关度大于page Max Limit, 则将该页面的子页面放入PQ队列中;若一个页面的主题相关度值介于page Max Limit和page Min Limit之间, 则根据该页面的子页面的锚文字或URL字符串是否包含关键词向量中的关键词来决定是否将其加入到PQ中, 如果满足任何一个条件, 则将其加入到PQ中;否则由子节点的相关度值来决定加入队列的类型。
1.2.2 Web链接评价
本文采用Hits[8]算法思想来进行Web链接评价。Hits算法由Kleinberg首先提出, 用来判断网页重要性, 目前主要用于搜索结果排序。该算法思想是如果一个网页被其他多个网页链接, 则比其他链接少的页面重要。因此引入权威 (Authority) 页面和中心 (Hub) 页面的概念。即好的Hub页面总是指向许多好的Authority页面;反之, 好的Authotirty页面总是被许多好的Hub页面所链接。因此, 这种相互加强的关系可以用于发现Authority页面。算法首先利用爬虫从Web上获取与用户查询相关的部分网页构成网络子图G (V, E) (V为网络子图的节点集, E为网络子图的边集) , 然后通过迭代计算出每个网页的权威值和中心值, 迭代步骤如下:
(1) 确定与主题最相关的K (200) 个页面, 称为root集。
(2) 对于root集中的任一网页p, 将p中所包含的链接加入到root集中, 最多不超过d (50) 个, 扩展后称为base集。
1.2.3 改进的优先级计算
由于基于内容评价的策略忽略了链接结构信息, 在预测链接价值方面存在不足;而Hits算法只考虑了Web页面之间的引用关系, 忽略了页面的主题相关性, 容易造成主题漂移现象。为了克服二者的不足, 本文设计了基于主题敏感的链接分析方法, 称为主题Hits。对于中心Hub页面只有当所指网页为主题相关时才能获得相应值, 该值由所指页面的Authority值和其主题相关度决定;而Hub值由其链接到的页面的主题相关度决定。因此迭代公式如下:
式中:ti指网页i的主题相关度;thr为相似度阈值;Pi指网页i的链接个数;o (i-1) k指网页i-1的第k个链接所指的网页编号。
2 实验与分析
系统选用Java语言在Eclipse平台下开发。实验环境为微机1台, CPU为Intel Core 2, 内存1 GB。软件环境为Windows XP和JDK1.6, 选IIS 6.0为Internet为信息服务, 数据库选用My SQL。系统选用转基因生物为主题, 运行时初始种子网页包括乌有之乡, 天涯网:天涯杂谈、经济论坛, 凤凰网:辩论会、铿锵杂谈, 新华网:发展论坛, 人民网:强国论坛, 百度贴吧, 中华网论坛, 腾讯论坛, 网易论坛, 新浪论坛, 搜狐论坛;主要门户网站新闻及相关转载情况, 主要门户网站:雅虎、搜狐、新浪、网易、腾讯等。关注人物包括:金薇 (国际先驱报) 、张宏良、蒋高明、顾秀林、郎咸平。根据上述内容, 设计了一个主题爬虫, 将三种爬行策略进行对比, 图2是对比结果, 其中, 查准率=主题相关的网页数/总网页数。
上面的分析可知, 新的爬行策略在查询特定主题信息方面比传统的爬行技术有着明显的优势, 随着网页数量的增大, 新的策略在总体上也存在优势。算法中各种参数的设置和阈值的选择对爬行结果有重要的影响, 因此如何确定最有利的参数和阈值有待于进一步研究。
3 结语
本文研究了主题爬虫中爬虫策略的选取, 主要包括对关键字向量的描述、网页优先级计算, 设计并实现了一个通用的主题爬虫爬行策略, 实验表明本文的方法取得了良好的效果, 具有较大的应用价值。
摘要:针对当前常用爬虫爬行策略的不足, 提出结合维基百科和网页相似度分析的主题爬行策略。利用维基百科分类树的结构对主题进行描述;下载网页后对网页进行相应处理, 结合文本相关性和Web链接分析来计算候选链接的优先级。实验表明, 该爬虫搜索结果与主题相关度明显高于传统爬虫, 爬虫爬全率有一定提高。该主题爬虫主题描述方法和爬行策略有一定的推广价值, 尤其在转基因生物领域中, 该爬虫中有一定的创新性。
关键词:维基百科,文本相关性,链接分析,相似度计算
参考文献
[1]蔡号, 贾于波, 黄成伟, 等.Web日志挖掘中的会话识别算法[J].计算机工程与设计, 2009, 30 (6) :1321-1324.
[2]戴智利, 王鑫昱.一种基于动态时间阈值的会话识别方法[J].计算机应用与软件, 2010, 27 (2) :244-246.
[3]AGGARWAL C C, AL-GARAWI, YU P S.Intelligentcrawling on the world wide Web with arbitrary predicates[C]//Proceedings of the 10th International Conference on WorldWide Web.New York:ACM, 2001:89-113.
[4]史天艺, 李明禄.基于维基百科的自动词义消歧方法[J].计算机工程, 2009, 35 (18) :62-65.
[5]Anon.Wikipedia[EB/OL].[2011-02-16].http://wikipedia.jaylee.cn.
[6]赵飞, 周涛, 张良, 等.维基百科研究综述[J].电子科技大学学报, 2010, 39 (3) :321-334.
[7]陈竹敏.面向垂直搜索引擎的主题爬行技术研究[D].济南:山东大学, 2008.
爬行怎么造句 篇4
2、于是两个女孩在狭窄的地道里爬行,靠着双手和膝盖慢慢移动。
3、现代鳄鱼则用肚子爬行,因为它们的腿伸展到了身体两侧。
4、他在这个庞大的官僚机器里爬行了几十年,爬到顶峰,却一脚踹开了这个机器,而这个机器的倒塌也意味着他自己的坠落。
5、曾经是海底的陆地现在成了广阔肥沃的田野,在城市的四周伸展开来,这里曾经有过螃蟹爬行,现在则有驴子择路而行,生长出了海藻和玫瑰花。
6、这些飞行的爬行动物身上覆盖着薄丝,它们看起来也许就如同图中的这只雏雉。
7、巨大的黑鱼会吃掉某个水域中的任何东西,然后,在陆地上爬行至另一个池塘或湖里。
8、鱼龙在另一个方面也很像鲸类:和多数现有的爬行动物产卵不同,它们直接胎生活的幼体。
9、这将使机器人可以在胃肠道周围爬行,得到细致的图片,用适当的外科手术工具施行治疗,进行活体组织检查。
10、我们将介绍如何使用一个定制的ICA导出插件实现该场景,该插件是一个事件处理器,ICA将在爬行并索引完文档后执行该插件。
11、如果机舱里有烟雾,把身体放低到烟雾与有毒气体的下面爬行,这样你能在你离开飞机前保持呼吸。
12、然后他们震惊地发现地上有许多爬行或蠕动着的生物,它们仿若巨大的蟋蟀。
13、在读完这篇文章后,我发现他对获得有价值的爬行数据更感兴趣。
14、有了红瓷砖背景的对比,这只小绿色爬行动物的出场颇有“帝王”风采。
15、从未有过一块岩石能像袋鼠一样跳跃,从未有过一粒鹅卵石能像寻偶的甲壳虫一样爬行,从未有过一颗沙砾能像水蚤一样游泳。
16、将注释器和映射文件链接到集合之后,就可以对文档进行爬行、解析和编制索引。
17、赖歇特曾一直关注腮弓的发展,这是哺乳类与爬行类动物胚胎头部底端形成的一种膨大。
18、婴儿舞还可以帮助小宝宝们锻炼肌肉力量,有助于他们将来爬行和走路。
19、“纽约蟋蟀爬行”活动的`参与者要求在黄昏和午夜之间外出去记录来自蟋蟀大约一分钟的叫声,然后把采集到的声音和所处的位置通过手机发给科学家们。
20、他直到10个月大才学会爬行,紧接着才学会倒着爬。
21、体力稍有恢复后他继续爬行,在两天后找到了水,最后在水源附近找到了一个营地。
22、婴儿可能不会尝试着去爬行或者翻身。
23、营地有个珊瑚小丘,车子经过那里的时候得慢到像爬行一般方能经过,而减速的当儿,冲撞声震耳欲聋。
24、数数你离前方和后方的出口各有几排,这样一来,在你冒着浓重的烟雾在地上爬行的时候,就能知道什么时候会到达出口了。
25、在“古生物”杂志上最新发表的一篇论文上中,将这个230万年前的动物归为爬行类动物进化树的一个不同的早期分支。
26、它们已经发展到对市面上卖的杀虫剂有抵抗力了,还发展出许多绝技,诸如在你的房子和公寓墙上爬行。
27、实际上,仅有两层可以算的上是有用的,但对于孩子们来说,另外一米高的四层才是用来打闹,探索和爬行。
爬行的野燕麦 篇5
麦子生长的季节, 野燕麦一直以恶草的形象挤在麦田中, 不请自来, 农人看见它总要连根拔起。但在与麦子的空间抢夺战中, 野燕麦从来没有输过。哪怕麦子有除草剂和人类这两大帮手, 野燕麦也依然能够挺立在北方的麦田里, 以一种侵略者的姿态。
野燕麦旺盛的生存能力来源于智慧, 这智慧体现在其小小的种子上, 它们会“爬”。
野燕麦种子的外壳下, 长着一根长两三厘米的芒, 芒的中间有像膝盖一样可以弯曲的“关节”, “关节”将芒分为上部的芒针和下部的芒柱两个部分。
较粗的芒柱平常是扭曲着的, 它对空气的干燥程度非常敏感。傍晚, 空气湿润时, 芒柱不断吸水膨胀, 随即产生旋转。芒针在旋转的芒柱的带动下, 也朝着同一方向旋转, 这时, 膝状弯曲部分会逐渐伸直, 种子便向前爬行了一点点。
而当太阳升起, 空气变得干燥时, 芒柱由于不断地失水而干缩, 随之产生反向的旋转运动, 芒中间部分又形成膝状弯曲。如此一屈一展, 芒的伸屈运动, 成为种子向前爬行的动力。
种壳上密生的细硬短毛, 是齐刷刷朝同一个方向生长的, 因而, 种子只能前进, 不会后退。
没有学过物理的野燕麦, 竟然能够如此巧妙地利用物理学的原理, 一点点向前爬行, 直至找到自己中意的萌发地。当然, 这种爬行速度很缓慢, 一昼夜大概只能前行一厘米。但无论如何, 它毕竟从母亲脚下, 依靠自己的努力, 爬到了另一个起点。
聚焦爬虫爬行性能研究 篇6
爬虫是一个网页自动搜索程序, 根据既定的抓取目标, 有选择地访问互联网上的网页与相关的链接, 获取所需要的信息, 为搜索引擎重要组成部分。文献[1]指出, 聚焦爬虫与通用爬虫的不同之处在于并不追求大的覆盖面, 而将目标定为抓取与某一特定主题内容相关的网页, 为面向主题的用户查询, 可实现搜索引擎对Deep Web网页数据的发现和索引。聚焦爬虫采用了一定的网页分析算法过滤与主题无关的链接, 保留有用的链接并将其放入等待抓取的URL队列, 然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL, 并重复以上过程直到到达程序的某一条件时停止, 可以有效提高Deep Web数据发现的效率。
一个高性能爬虫需要注重以下几个方面。
1.1 程序执行效率
能抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为、工作有效性、及时性的关键所在。这两个部分的算法又是紧密相关的, 决定了爬虫程序的执行效率。
1.2 分布式爬行
文献[2]指出, 集中式的爬虫已经不能满足目前互联网的规模, 因此支持分布式的爬行, 处理和协调好各结点之间的交互, 也是一个重要环节。
1.3 硬件条件
由于网络环境及硬件资源、IP地址和带宽等因素造成的爬虫协同工作问题也是造成爬虫工作效率低的重要因素。
2 爬行网络环境
网页分析算法和URL搜索策略是聚焦爬虫程序的两个最重要的组成部分, 一定程度上决定了爬虫工作效率的高低。但除此之外, 仍有相当一部分工作时间是停留在爬虫选定了某个URL下载网页并打开时。这部分工作时间往往比程序内部的算法分析时间要更长, 其重要因素在于URL的无序分配导致网页数据通信缺少优化、分布式爬虫无法有效协同工作等问题。
因此, DNS解析也是网络爬虫的瓶颈之一, 因为有些域名请求要经过很多层服务器才能解析到, 或者因解析服务器的忙碌而超时。文献[3]指出, DNS查询占用整个爬行的时间高达70%。解决的方法有两种:一是提供DNS缓存, 二是建立异步DNS查询模块。在实际应用中一般会综合这两种方法。DNS解析子模块可以单独拿出来放在一台Server上做成DNS服务器, 这样可以采用更大的缓存和更多的查询线程。
2.1 DNS缓存服务器
IDC可安装本地DNS缓存服务器, 保存爬虫抓取的解析网页的域名与IP映射。default TTL=3600 (1hour) (缓存服务器保存记录的时间是1h。也就是告诉DNS保存域的解析记录为1h) ;将DNS缓存服务器地址加入到爬虫服务器的/etc/resolv.conf中。
2.2 异步DNS查询
(1) 创建多个DNS查询线程, 每个查询线程调用gethostbyname等同步的API, 主线程与查询线程之间通过MessageQueue连接, MessageQueue基于事件通知机制。该方法缺点是实际的并发受限于查询线程的个数。
(2) 基于非阻塞socket+事件驱动机制, 自行构造和解析DNS报文。这个跟常规的异步网络应用思路一致, 但是需要自行编写DNS协议构造和解析代码。
3 分布式爬行
普通单处理机系统受限于CPU的处理能力、磁盘存储的容量, 不可能具备处理海量信息的能力, 这就要求爬虫支持分布式协同工作。文献[4]指出, 一般说来, 爬虫的分布式爬行可分为内部分布式爬行和外部分布式爬行。
3.1 内部分布式爬行。
所有的爬行进程在同一个本地网络上运行并通过一个高速连接 (如LAN) 进行通信, 从远程Web站点下载网页时都利用相同的本地网络。采用这种方式, 硬件资源扩展方便, 几台PC就能增大磁盘容量, 提高I/0吞吐量, 做成一个小机群, 性价比较高。此时, 瓶颈主要是在网络出口带宽上。
3.2 外部分布式爬行。
当并行爬行的不同爬行进程在通过Internet相连的地理位置较远的不同地区运行时, 则这种爬行为外部分布式爬行。它的优势是网络带宽较富裕, 可以就近爬行周围的Web站点, 速度较快。在这种情况下, 重要的是确定不同地理位置的爬行进程问进行通信的频率和数量。因为进程间的带宽存在限制, 有时甚至是拥塞不堪而导致堵塞。分布式爬行的主要问题是当多个爬行节点并行下载网页时, 不同的节点可能会多次下载同一个网页。为了避免这种交叉, 并同时提高网页下载质量, 并行节点之间应该进行充分的通信, 在网页下载上达成协调, 以便并行、一致、高效率地下载网页。
4 URL分配策略
URL分配模块是爬虫的重要组成部分, 主要考虑两个问题。
(1) 在节点间划分URL的策略, 即如何分配下载任务。
(2) 优化性能, 比如负载均衡、协同工作的开销等。
目前一般有两种分配模式可以参考:
4.1 静态分配模式
各节点按事先规定的URL范围独立下载。若遇到不属于本节点的URL, 有3种处理方法: (1) 放弃; (2) 下载; (3) 传送到URL隶属的节点。静态分配模式的优点是配置比较简单。关键在于如何划分URL范围, 有效利用各个节点的资源。
4.2 动态分配模式
由一个统一的URL管理器统一调度根据各节点的情况动态地分配URL。该模式的优点是能做到负载均衡, 使各个节点下载最大化。缺点也是很明显的, 要有一个专门的URL管理器, 增大了成本和配置难度。URL管理器需要与各节点保持高速实时通信, 存在单点故障。由于要存放所有节点需要的URL集合, 当下载规模增大时, 本身也是一个瓶颈。
5 结语
制约爬虫的外部分布式爬行的客观及硬件因素较多, 且环境复杂, 一般可通过定义URL分配策略及配置异步DNS查询实现高性能内部分布式爬行。基于URL动态分配方式成本高、配置难度大, 使用配置成本低效果明显的静态分配方式实现, 爬行效率更高, 如图1所示。因此, 开发聚焦爬虫程序时根据硬件条件、网络环境、带宽等因素, 合理设计URL分配策略, 配合高效的DNS查询方法可有效提高分布式爬行的性能。
摘要:爬虫作为网页搜索下载程序, 其网络爬行性能决定了搜索引擎的性能和数据质量。本文通过分析聚焦爬虫的特点和网络环境, 总结出三类制约爬行性能的主要问题, 分别是DNS查询及缓存设置、内外部分布式爬行特点和网页URL静态与动态分配策略。结论为聚焦爬虫使用URL静态分配策略结合异步DNS查询及缓存设置, 在内部分布式爬行时可有效提高网络爬行性能。
关键词:爬虫,DNS,URL分配,分布式爬行
参考文献
[1]周立柱, 林玲.聚焦爬虫技术研究综述[J].计算机应用, 2005, 25 (9) .
[2]周德懋, 李舟军.高性能网络爬虫:研究综述[J].计算机科学, 2009, 36 (8) .
[3]Heydon A, N~ork M.Mercator:Ascalable, extensible Web crawler[J].WorldWide Web, 1999, 2 (4) :219~229.
基于BFO的主题爬行算法 篇7
关键词:主题网络爬虫,Best-First算法,召回率
1、引言
近年来, 随着WWW技术的广泛应用, 传统的通用搜索引擎, 如Google、Fast、Alta Vista等正面临巨大的挑战:一是Web信息资源呈几何数级增长, 搜索引擎无法索引所有页面;二是Web信息资源的动态变化, 搜索引擎无法保证对信息的及时更新;三是传统的搜索引擎不能满足人们对个性化信息检索服务的日益增长的需要。面对这些挑战, 各类适应特定人群需要的“定题搜索引擎” (Topic-Specific Search Engine) 应运而生并引起了研究者的重视。
近年来, 研究者们提出了许多评价方法, 这些方法可以归为两类:一类是对整个页面进行综合评价, 页面中的每个链接会被赋予相同的权重;另一类是基于链接上下文的网页预测, 即网页中的每一个链接依据它的上下文赋予不同的权重。这两种方法都有一些不足之处, 对整个页面进行综合评价则会有大量的不相关的链接会被优先爬行, 而基于链接上下文的方法则因为所取的信息量偏少会有许多相关链接被爬行器忽略掉。早期的Breadth-First算法和Depth-First算法, 后来出现的Shark Search算法 (Fish Search算法的变体) , 还有基于链接结构的Page Rank算法和HITS算法以及基于网页内容的Best-First[1]算法等。主题网络爬虫是近几年才兴起的研究热点, 它是针对某一专门领域的信息进行搜索, 用于专业搜索引擎系统中, 满足特定人群的需要。随着人们对信息查询要求的不断提高, 专业领域化的搜索引擎正日益得到广大研究者的重视。系统对主题网络爬虫的要求更高, 其搜索策略更加复杂, 往往需要引入机械学习算法使搜索具有一定的适应性和进化性, 要尽可能地使所搜索的网页与主题之间具有很高的相关度。目前主题网络爬虫搜索策略的主要困难在于:网络爬虫对web搜索空间中信息资源的整体分布总是未知的, 不能很好地预测爬行方向。虽然目前出现的“启发式”搜索策略可以借助某些领域知识对信息资源的分布情况做出某种程度的估计, 据此推断出大致的搜索方向, 但是这种方法的计算量大、时空复杂度高, 目前也没有找到很合适的学习算法来指导训练过程。本文经过对几种主题网络爬虫的研究比较, 利用Best-First算法的优越性, 在Best-First算法的基础上引入并行分布式计算的思想对Best-First算法进行了改进, 提出了BFO算法。该算法具有在全局范围内获到最优解的功能, 极大的改善了Best-First算法。
2、已有的网络爬虫算法的性能比较
把获得的与主题相关的页面称为“回报”, 将可以通过直接计算相关度得到的页面称为“立即回报”, 将网络爬虫不能直接获得必须通过间接计算才能得到的页面称为“未来回报”。文献[2]中采用了一种性能评价策略主要对Best-First算法、Breath-First算法、Shark Search算法和InfoSpiders[3]这几种算法进行了全方位的评价。对这几种算法评价过程中将存放链接的最大缓冲区MAX_BUFFER设为256。BestFirst法在这几种算法中表现的性能最优, 其次Infospiders算法, Breath-First算法得到的“召回率”最低。
3、算法设计
3.1 Best-First算法简单介绍
Best-First算法:Best-First算法是由Cho和Hersovici等人于1998年研究提出的, 后人在此基础上也作了很多改进。其基本思想是构建一个URL链接列表, 然后按照某种评价选择策略选择出最好的链接进行访问。不同的Best-First算法有着不同的选择链接的方法。有基于页面内容评价的方法和基于链接结构评价的方法。通常最常用的是基于页面内容的评价方法[4]。采用的是计算网页文档内容与主题关键字之间相似度的方法, 相似度的计算通常采用下列公式:
向量Vb为已经设定好的主题空间向量, 利用下面公式计算向量Va和向量Vb的相似度:
式中:Wak、Wbk分别为Va、Vb的某个特征词的权值, M为向量空间的维数。
计算出来的相似度如果达到一定域值, 可以认为该网页文本符合设定已设定好的主题, 否则将改网页过滤掉。计算所得结果即为网页内容与主题的相关度。
3.2 Best-First算法分析
虽然Best-First算法在这几种算法中表现出了最优的性能, 但从实验中可以看出算法本身也存在着一定的缺陷, 它具有很大的贪婪性, 容易过早的陷入Web搜索空间中局部最优子空间的陷阱。在搜索的网页范围达到1000页时, 算法已经开始收敛。也就是说Best-First算法只适用于小范围内主题的搜索。算法的贪婪性体现在它只选择本身与主题相关度值很大的链接, 而忽略掉某些蕴涵很大远期价值的链接。这些蕴涵远期价值很大的链接本身与主题内容的相关度值并不高, 但是通过这些链接节点可能搜索到大量的与主题相关的网页。搜索策略的这种贪婪性使得搜索在还没有扩大到一定范围时就已经开始收敛了。故搜索难以得到全局范围内的最优解, 只能找到局部范围内的最优解[5,6,7]。
3.3 BFO算法的提出
这里将直接可以得到的主题相关链接称为“立即回报”, 将经过若干与主题无关链接之后才能获得的主题相关链接称为“未来回报”。在搜索过程中, 对立即回报的预测值, 称为“立即回报”价值;对未来回报的预测值, 称为“未来回报”价值。“立即回报”价值大的链接, 其“综合价值”不一定大。因为有些链接节点尽管与主题的相关度不高, 也就是说“立即回报”价值很小, 但是通过此链接节点可以找到更多的与主题相关的链接, 这说明它的“未来回报”价值很大。所以某些链接尽管没有立即回报价值, 但它们依然具有很大的“回报”值。网络爬虫在搜索时如何权衡“立即回报”价值和“未来回报”的关系, 获得“综合价值”最大的链接, 一直是网络爬虫搜索策略研究的热点[7]。Best-First算法恰恰是一种只注重“立即回报”价值, 忽略“未来回报”价值的贪婪算法。p0, p2, d0, d1, d2, d3, d4为主题相关页面, p1为无关页面, 假设网络爬虫从p0开始搜索, 一般Best-First算法的思想是:如果经过计算发现p1为无关页面, 而d0为相关页面, 就会将p1这个链接节点忽略, 沿着l0这条路径搜索。这样就会导致p2, d1, d2, d3, d4这些潜在的相关页面也被网络爬虫所忽略, 从而导致搜索的整体“回报”不高, 不能使网络爬虫得到全局范围内的最优解。本文所提出的BFO算法的基本思想是:虽然网络爬虫发现p1为无关链接节点, 但它暂时也不会放弃这个链接, 它会继续验证p1的邻节点是否存在与主题非常相关的页面。系统设定一个参数D, D是网络爬虫在遇到无关链接时所需最大的爬行深度。如果网络爬虫在爬行深度D步以后仍然没有发现相关页面, 才将p1这个无关链接舍弃。但是如果网络爬虫经过l2, l3, l4, l5, l6, 这几条路径的搜索后都能找到主题相关页面, 这说明p1这个链接虽然“立即回报”价值很小, 但是它蕴涵着很大的远期回报价值。故BFO算法会很注重它的“未来回报”价值。这时, BFO算法就会并发出另一个线程将p1作为初始节点开始搜索。
BFO算法部分数据结构及参数设定:
(1) 构建一个存放候选链接的URL列表, 用于存放未被访问但需要访问的链接。
(2) 构建一个存放没有回报价值的链接的URL列表, 这些链接节点将被网络爬虫视为无用链接而被舍弃。
(3) 设定相似度阈值r1, 用于衡量“立即回报”价值。如果“立即回报”价值大于r1, 就将链接的URL存入候选链接列表。如果“立即回报”价值小于r1, 就计算此链接的“未来回报”价值。
(4) 设定相似度阈值r2, 用于衡量“未来回报”价值。如果“未来回报”价值大于r2, 算法就并发新的线程。如果“未来回报”价值小于r2, 就将该链接舍弃。
(5) 设定参数D, 表示当链接的“立即回报”价值小于给定阈值r1时, 网络爬虫在计算“未来回报”价值时所需要爬行的深度。
BFO算法过程描述:
(1) 网络爬虫首先从一个“种子集”出发, 选择其中的一个链接进行访问 (“种子”链接由系统给定) 。
(2) 抽取所访问链接节点页面内容及超级链接。
(3) 按照主题和网页文本的相似度公式计算每个链接节点的“立即回报”价值。
(4) 判断所得的“立即回报”价值是否大于系统所给定阈值r1, 如果大于给定阈值, 就将该链接的URL地址加入到候选U R L地址列表中。如果所得的“立即回报”价值小于给定阈值r1, 就计算此链接的“未来回报”价值。
(5) 如果经计算所得的“未来回报”价值大于系统所给定的阈值r2, 系统就并发另一个线程从此链接节点开始重复执行以上各步。
(6) 如果所得的“未来回报”价值小于所给定的阈值r2, 就视此链接节点为无用链接节点, 将它列入被舍弃的URL列表。
3.4“立即回报”价值和“未来回报”价值的计算方法
BFO算法中相关度的计算选用公式 (1) 来计算主题与网页文本的相似度, 用相似度值表示对“立即回报”价值的预测。对“未来回报”价值预测的关键问题是参数D的设定。D值太小, 算法的收敛速度不会得到明显的改善, 算法的贪婪性依然很强, 不能达到很好的效果。D值太大, 会造成网络爬虫爬行的盲目性和计算资源的严重浪费, 但结果可能没有任何意义。通过实验证明D=5是一个比较理想的深度值。也就是说网络爬虫在遇到一个“立即回报”价值很小的链接后, 会继续沿链接爬行, 直到深度值大于5, 如果此时仍然没有发现主题相关页面, 就停止爬行, 并将此链接节点放入被舍弃的URL列表中。
4、实验分析
本文将改进后的算法利用文献[2]中的性能评价系统进行了评价, 其中收获率Rharvest代表的是挖掘到的页面中与主题相关的页面的比例, 召回率Rharvest代表的是挖掘到的主题相关页面占web上所有相关页面的比例。
实验结果为:
从实验中可以看出BFO算法的召回率和收获率比单纯的Best-First算法有所提高, 并且搜索范围得到了扩大, 解决了单纯Best-First算法收敛速度过快的缺陷和算法贪婪性问题。BFO算法不但考虑了链接的“立即回报”价值, 同时还考虑了链接的“未来回报”价值, 能够在一定程度上获得全局范围内的最优解。
5、小节与展望
本文通过对几种主要的网络爬虫搜索策略的比较研究, 得出Best-First算法具有很大的优越性。并分析了Best-First算法的优越性和缺陷, 利用Best-First算法的基本思想引入并行分布式的计算方式提出了BFO算法。并利用文献[2]中给出的网络爬虫搜索策略性能评价系统对BFO算法进行了评价, 实验结果证明BFO算法的“召回率”比单纯的Best-First算法有了提高, 并且此算法能够在一定程度上获得全局范围内的最优解, 解决了搜索算法的贪婪性问题。而怎样充分利用搜索过程中网链级、网页级和网站级之间相互关联与约束的有关知识, 怎样有效整合知识表示、知识获取、知识推理和主题搜索, 实现主题搜索的智能化、个性化和专业化, 将是我们下一步研究的重点。
参考文献
[1]Cho J, Garcia-Molina H, Page L.Crawling through URL ordering[J].Computers Networks and ISDN Systems, 1998, 30:161-172.
[2]Srinivasan P, Menczer F, Pant G.A general evaluation framework fortopical crawlers.Information Retrieval, 2005, 8 (3) :417-447.
[3]Angkawattanawit N, Rungsawang A.Learnable topic-specific Web crawler[J].Massive Information&Knowledge Engineering, 2005, 28 (2) :97-114.
[4]Menczer F, Pant G, Srinivasan P.Topic Web crawlers:evaluating adaptive algorithm[J].ACM Transactions on Internet Technology, 2004, 4 (4) :378-419.
[5]Chskrabarti S, vander Berg M, Dom B.Focused crawling:a new approach to topic-specific Web resource discovery[J].Comput Netw, 1999, (31) :11-16.
[6]Menczer F, Belew R.Adaptive retrieval agents:Internalizing local context and scaling up to the Web[J].Machine Learning, 2000, 39:203-242.
爬行式钢管外表面打磨器 篇8
市面上现有对钢管进行打磨除锈的方法和工具, 最为普遍的是人工使用简单的砂纸或电动工具除锈。该方法的优点是除锈全面, 但劳动强度大;抛丸机可用于打磨除锈, 但体积较大, 操作不便, 缺乏灵活性, 无法应用于已经安装在现场的固定栏杆的除锈;还有高压喷水除锈, 不但耗费水资源, 也不方便进行大面积工作, 残留水分易使表面再度生锈[1,2]。还有一种方法就是化学除锈, 这种方法成本高, 对环境影响也很大。针对已经固定安装的栏杆除锈困难的问题, 本文设计开发了一种结构简单、使用灵活、自动化程度高、节能环保的除锈打磨器, 专用于金属圆柱外表面栏杆的打磨和除锈。
1 总体结构和原理
如图1所示, 爬行式钢管外表面打磨器主要由由机机架架部部件件11、、打打磨磨部部件件22、、可可伸伸缩缩打打磨磨头头33、、打打磨头锁紧机构4、导轨部件5、往复机构6、夹紧部件7、进给机构8和控制部分等组成。
1.机架部件2.打磨部件3.可伸缩打磨头4.打磨头锁紧机构5.导轨部件6.往复机构7.夹紧部件8.进给机构
机架部件1通过夹紧部件7装夹于所需打磨的钢管上。两组夹紧部件7中的电磁铁39通电夹持, 断电放松;整体呈C字型的结构使打磨器易于在钢管上装卸;在导轨部件5中弧形导轨24的作用下, 打磨头可以沿钢管作旋转运动;三个电机15之间的夹角为120°, 电机15带动钢丝轮绕着钢管轴心旋转, 每个打磨头绕钢管的打磨弧度大于120°;三个打磨头的打磨弧度连起来, 可完成钢管外表面的完整打磨;可伸缩打磨头3能自动调节钢丝轮与钢管的距离, 改善打磨效果;贯通轴式直线电机42转子具有内螺纹, 与丝杆41配合形成丝杆螺母副实现进给直线运动;利用两套夹紧部件7的交替松紧, 驱动打磨器爬行进给移动。
2 往复机构
打磨器能沿钢管做往复旋转运动是通过往复机构实现的, 该机构如图2所示。由右链轮33、链条32、换向爪35、上挡板34、下挡板30、左扭簧36、右扭簧29、导向槽31和减速电机45等组成;右链轮33安装于减速电机输出轴上, 减速电机固定在图1的机架上;链条32的上段外侧与下段的内侧分别与上挡板34和下挡板30接触, 并环绕两端链轮;左扭簧36和右扭簧29用螺钉固定, 左扭簧36末端固定在下挡板30上, 右扭簧29固定在上挡板34上。
29.右扭簧30.下挡板31.导向槽32.链条33.右链轮34.上挡板35.换向爪36.左扭簧45.减速电机
若换向爪的上钩脚38钩住链条32上段内侧, 则导向脚37在下导向槽31中滑动, 即换向爪顺时针移动。下钩脚39将悬空, 不与链条32的下段接触。导向脚37在下导向槽31中滑动, 防止上钩角38与链条32脱离啮合。当换向爪35运行到导向槽31的左端, 左扭簧36弯曲变形, 贮存能量, 导向脚37最后不受导向槽31的制约, 上钩角38与链条32脱离啮合, 在左扭簧36的作用下, 导向脚37迅速被推向上导向槽31, 同时下钩脚39与链条32的下段的外侧啮合。链条32带动换向爪35逆时针移动。同样道理, 在导向槽31的右端, 换向爪35和上下钩脚完成切换, 换向爪35又顺时针移动。该机构将减速电机45的单方向旋转运动转换成打磨器所需要的往复旋转运动。
37.导向脚38.上钩脚39.下钩脚
如图3所示的换向爪由上钩脚38、下钩脚39和导向脚37组成。
导轨结构原理如图4所示。弧形导轨24与固定板9配合实现打磨头在钢管上的整周打磨。
24.弧形导轨25.上调节柱26.下调节柱27.滑轮28.弹簧卡圈9.固定板
3 可伸缩打磨头
可伸缩打磨头结构如图5所示。该结构由电机15、电机轴套筒16、定位销20、弹簧17、定位套筒18、连接套筒19和钢丝轮14等零件组成;当钢丝轮与钢管存在间隙, 弹簧17推动定位套筒18, 同时带动套筒19移动, 打磨头伸出, 消除钢丝轮14与钢管之间的间隙。反之, 当钢丝轮与钢管之间间隙过小, 弹簧能够压缩变形, 使打磨头后退。该结构能自动调节钢丝轮与钢管的距离, 以弥补打磨头在钢管安装过程中可能存在的偏心, 获得均匀的打磨效果。
14.钢丝轮15.电机16.电机轴套筒17.弹簧18.定位套筒19.套筒20.定位销
4 进给机构
根据仿生学的原理, 模仿尺蠖的爬行, 设计了自动爬行进给机构。原理如图6所示。该进给机构由丝杆41、直线轴承43、贯通轴式直线电机42、光杆10、固定板9、内夹头固定板40和外夹头固定板34等组成。内夹头固定板40上的电磁铁39通电, 夹紧钢管, 控制贯通轴式直线电机42正转, 转子与丝杆41配合, 转子正向旋转, 带动外夹头固定板34向前移动一定距离后停止, 此时轮到外夹头固定板34上的电磁铁39通电, 夹紧钢管, 内夹头固定板40上的电磁铁39断电, 松开钢管, 贯通轴式直线电机42的转子反转, 丝杆41带动内夹头固定板40向前移动一定距离。如此循环反复, 实现装置的爬行进给功能。
5 结论
爬行式钢管外表面打磨器具有方便装卸、整圆打磨、自动进给和与钢管自适应调整同心度的功能, 可应用于悬空架设的金属管道外表面和金属管防护栏杆的除锈打磨工作[3,4]。适当调整夹持距离和钢丝轮的规格, 可以应用于直径不同的钢管的打磨抛光, 适用范围较广, 劳动强度降低, 市场前景广阔。
9.固定板10.光杆34.外夹头固定板39.电磁铁40.内夹头固定板41.丝杆42.贯通轴式直线电机43.直线轴承
摘要:设计开发了一种爬行式钢管外表面除锈打磨器。主体结构采用C字形结构, 容易在钢管上装卸。三个等角度安装的打磨头, 各往复运行大于120°, 合成360°的钢管外表面的打磨作业。通过两套电磁铁夹持装置的交替夹持, 配合螺杆正程和反程运转, 实现打磨器在钢管上的爬行进给。该装置可应用于悬空架设的金属管道外表面和金属管防护栏杆的除锈打磨工作。
关键词:除锈,打磨,爬行式,自动进给,可伸缩
参考文献
[1]王亚军, 支左.钢管除锈机设计与经验[J].中国化工装备, 2002 (04) :43-48.
[2]杨刚.磨料水射流除锈技术仿真研究[J].机电工程, 2013 (8) :929-932.
[3]熊健祥, 温超文, 张伟文, 等.钢管外表面除锈打磨装置:广东, CN203579369U[P].2014-05-07.
浅谈机床爬行故障的诊断与排除 篇9
爬行是机床液压设备中一种常见的不正常的运动状态,轻微爬行时肉眼很难觉察到振动,严重爬行时会有跳动现象。
爬行有很大的危害,会破坏工件的表面质量(粗糙度)和加工精度,降低机床和刀具的使用寿命,严重时会产生报废工件及造成事故。因此,消除爬行对于改善机床稳定性、提高使用寿命和加工件精度是非常重要的。
下面以我们厂数控Φ260落地镗床(产自齐齐哈尔第二机床厂)滑座爬行为例,由于液压系统的密闭性及多信息模式,使得爬行故障的排除过程比较复杂,本文就这一实例详细分析爬行现象的各种因素,结合此例说明其原因及排除方法。
1 滑座锁紧是否松开
滑座与导轨锁紧是由四套浮动夹紧装置控制,夹紧装置各有一个油缸,由泵站夹紧回路供油,电磁阀控制油缸动作。
油路(一):油缸夹紧松开路径,油箱→吸油滤油器→液压泵→单向阀→压力表、溢流阀→电磁换向阀→油缸。
1.1 先看夹紧装置是否完全打开、是否漏油
a、假如有漏油现象出现,说明油缸内部密封件损坏,无法启到密封油的作用,油在此漏掉,没有足够压力打开夹紧装置,只能更换油缸内部密封装置。
b、假如夹紧装置没有完全打开,说明油压力不够,油路(一)所示,首先看压力表示数是否满足工作压力需要:压力表示数低,说明在压力表前面油压不够,逐一排除油箱油位是否满足工作要求,油温是否在正常范围,油箱内油液是否混有空气;滤油器、单向阀、液压管路是否堵塞,发现堵塞现象及时清洗或更换;液压泵和电机是否正常工作,液压泵是否由于密封件损坏或密封不可靠而进气;溢流阀是否压力过低或不稳,解决方法清洗阀芯或更换溢流阀;压力表数正常,说明后面电磁阀有可能发生以下故障,阀芯不能移动、电磁铁线圈烧坏、外泄漏、阀内堵塞,发现以上问题要清洗、更换部件或整个电磁阀。
1.2 夹紧装置一切正常,在其他方面找原因
2 滑座静压是否正常
滑座导轨采用恒压式静压导轨,油腔压力油由泵站静压回路供油,经减压阀及螺旋毛细管节流进入各静压支撑油腔。
油路(二):滑座静压浮起路径,油箱→吸油滤油器→液压泵→单向阀→压力表→减压阀→螺旋毛细管→镶条上的静压油腔。
2.1 检查是否由于滑座静压问题引起爬行,检查方法如下,在滑座与底座导轨接触的四个面分别放上百分表,启动油泵,建立静压油膜后观察四个百分表读数。
a、假如四块百分表只有一个或两个读数偏低,油路(二)所示,说明浮生量不均匀,个别螺旋毛细管堵塞,需要把它拆掉,并逐一检查、清洗,此处要注意螺旋毛细管顺序不要装乱,因为各部分所需压力不同,厂家在出厂前已经调试完毕。
b、假如四块百分表读数都低,说明导轨静压没有建立起来。油路(二)所示,首先看压力表示数是否满足条件:压力表示数低,说明在压力表前面油压不够,逐一排除油箱油位是否满足工作要求,油温是否在正常范围,油箱内油液是否混有空气;滤油器、单向阀、液压管路是否堵塞,发现堵塞现象及时清洗或更换;液压泵和电机是否正常工作,液压泵是否由于密封件损坏或密封不可靠而进气;压力表数正常,说明后面减压阀有可能发生以下故障,出口压力很低、阀内泄漏严重、出口压力不稳定,发现以上问题要检查阀芯并清洗减压阀,或更换此阀;发现油路、螺旋毛细管有堵塞处,及时清理。
c、以上油路检查无误,检查是否由于滑座与导轨的间隙问题,导致导轨静压建立不起来。
滑座采用恒压闭式静压导轨,导轨间隙过大时,静压油膜刚度小,精度不稳定。间隙过小,会增加附加摩擦,使滑座移动困难。导轨的间隙需要调整到即能建立刚度适合的静压,又能运动自如。滑座静压导轨的两垂直面有一侧导轨面是基准导轨面,与其相对的导轨面是有可调整的镶条,组成的导轨面。因镶条与底座导轨的结合面有1:50的斜度。因此只要前后移动镶条,即可减小或增加导轨间隙。
静压油腔开在镶条上,镶条位置的调整不影响静压的建立。此机床设备的镶条是由定位销定位,定位销由内六角螺栓和螺母定位。间隙偏小时,先用小六方扳手向外拧松螺栓,然后逐渐向外微调螺母。调整中随时检查导轨间隙应保持0.04mm塞尺不入,而且进给电机的电流保持没有突然的变化和电流加大的情况。调整适当间隙后,再用小六方扳手将里面的螺栓向里拧靠紧定位销,这样两个螺栓将定位销重新定位,完成了导轨间隙的调整。间隙偏大时,按以上顺序和相反方向进行调整。
滑座的背板无镶条,通过修磨背板与滑座的结合面进行调整。
液压故障维修通常应遵循以下过程:认真观察故障现象→看懂液压原理图→详细、全面的分析→最后拆卸检修。
2.2 滑座静压一切正常,在其他方面找原因。
3 机械传动方面是否正常
在检查滑座液压系统后,并无发现导致爬行的原因,这时应排查是否由于滑座进给箱问题造成的爬行现象。
经检查发现进给箱中与齿条啮合的齿轮上下微移导致爬行。此台机床滑座进给箱大体结构如下:电机所带轴为Ⅰ轴→传动轴为Ⅱ轴→与齿条啮合轴为Ⅲ轴。调整方法如下:
(1)拆掉Ⅲ轴上的轴盖,取出轴承,可观察到齿轮与轴之间是由涨圈进行固定的,把涨圈一周的螺栓松开;(2)把Ⅱ轴的背帽松开,并把Ⅱ轴上提至无间隙;(3)用扳手逆时针扳紧Ⅰ轴同时把Ⅲ轴上涨圈往下打,然后锁死涨圈一周的螺栓;(4)要是调整的好,此时Ⅱ轴的轴没有上下移动量,并拧紧背帽;(5)最后再检查齿轮与齿条啮合间隙的大小,间隙大时,可适当的修磨调整垫的方法调整进给箱,然后压紧楔块,紧固进给箱固定螺栓。
本机床滑座爬行问题经常发生,初期维修现场通过大量更换零件,不但未能解决问题,反而使维修工作更加复杂,耽误了生产,造成了浪费;后期通过技术人员的认真分析,使问题明朗化,及时地解决了问题。可见快速、准确地查找、分析是维修爬行故障的重要前提。
【爬行策略】推荐阅读:
爬行故障07-05
爬行07-15
机床爬行05-13
爬行与振动09-07
液压爬行的控制05-19
爬行机器人11-20
大型爬行动物10-02
最古老的爬行动物07-20
《死亡爬行》观后感——信念 鼓励07-06
两栖动物和爬行动物教案06-13