python采集百度百科的方法(精选5篇)
python采集百度百科的方法 篇1
作者:两把刷子 字体:[增加 减小] 类型:
这篇文章主要介绍了python采集百度百科的方法,涉及Python正则匹配及页面抓取的相关技巧,需要的朋友可以参考下
本文实例讲述了python采集百度百科的方法,分享给大家供大家参考。具体如下:
#!/usr/bin/python# -*- coding: utf-8 -*-#encoding=utf-8 #Filename:get_baike.pyimport urllib2,reimport sysdef getHtml(url,time=10): response = urllib2.urlopen(url,timeout=time) html = response.read response.close() return htmldef clearBlank(html): if len(html) == 0 : return ‘‘ html = re.sub(‘ | | ‘,‘‘,html) while html.find(“ ”)!=-1 or html.find(‘ ‘)!=-1 : html = html.replace(‘ ‘,‘ ‘).replace(‘ ‘,‘ ‘) return htmlif __name__ == ‘__main__‘: html = getHtml(‘baike.baidu.com/view/4617031.htm‘,10) html = html.decode(‘gb2312‘,‘replace‘).encode(‘utf-8‘) #转码 title_reg = r‘
(.*?)
‘ content_reg = r‘(.*?)
‘ title = re.compile(title_reg).findall(html) content = re.compile(content_reg).findall(html) title[0] = re.sub(r‘<[^>]*?>‘, ‘‘, title[0]) content[0] = re.sub(r‘<[^>]*?>‘, ‘‘, content[0]) print title[0] print ‘#######################‘ print content[0]
希望本文所述对大家的Python程序设计有所帮助,
python采集百度百科的方法 篇2
随着网络的发展, 百度已成为用户查询信息、寻找信息帮助的主要平台, 而百度百科是其旗下的主要产品, 用户可以创建和阅览百度百科的词条。如果用户在编写词条的开放分类时采用自然语言自已创建, 难免会出现标签分类不准确、标签重复等问题, 如果由百度官方指定, 工作量比较大, 而且也违背了Web2.0基于“以用户为中心”的理念和“开放、自由” 的思想[1]。鉴于此, 在对百度百科平台的运行机制、词条特点等进行研究后, 以教育技术学词条为例设计了基于百度百科词条开放分类方法系统, 用户可以根据自已的理解自由建立标签, 也可以根据系统推荐的标签进行选择。
2 数据需求
该系统基于Java EE平台技术进行设计与实现, 采用MySQL数据库作为后台数据库, 设计如下的数据项:
开放分类标签 (category), 包括数据项有: 分类编号(cgid)、分类名称 (cgname)。
词条信息 (ctinfo), 包括数据项有: 词条编号 (ctid)、词条名称 (ctname)、词条内容 (ctcontent) 和词条开放分类标签(cgname)。
教育技术学受控词汇 (ct), 包括数据项有: 词条编号(ctid)、分类编号 (cgid)、词条名称 (ctname)。
3 系统实现
3.1 环境搭建
操作系统: WindowsXP
Web服务器: Tomcat5.5以上
Java开发工具包: JDK1.5以上
开发工具: Eclipse3.2和MyEclipse5.1以上
数据库: MySQL 5.0以上
3.2 功能实现
在参考相关的分类法文献和网络词汇后, 编制出了由分类号、分类名和词条名3部分组成的教育技术学受控词汇表[2],为用户在编辑开放分类标签时, 提供较合理的推荐。用户编制开放分类标签时, 可以点击【推荐分类】按钮, 会给出开放分类名称供用户多项选择, 如果上面的选择用户都不满意,也可以点击【添加分类】人为手动添加标签, 如图1所示。
相关代码如下:
单击【确定】按钮, 执行当前页面的JavaScript代码, 将所选开发分类标签存储在checkboxs数组中, 再跳转到下一页面显示所选开放分类标签, 如图2所示。该词条信息编辑完成后, 单击【提交】按钮将信息保存到数据库中。
相关代码如下:
4 结语
百度百科升级经验 篇3
在你刚刚接触百度百科的时候你一定要去做任务。新手任务会一步一步带着你去了解百度百科,活动任务能够给你积分让你更快升级,一定不要先凭着自己的理解去编辑词条,在这种还没有摸清门路的情况下很容易通不过,一旦不能通过就会拉低你的通过率,笔者就犯了这个错误,上来就编辑了兴义人才网这个词条,结果没通过,我就不停的修改、提交,结果出现了好几个未通过审核的版本,到现在所有未通过的版本都一直记录在案,还在影响着我的通过率!
接着在你做百科任务的时候会遇到通过版本的个数任务,还有复杂版本的个数任务等,下面我就详细和你说一下这两个形式的任务要怎么做。
通过版本包括你自己编辑的和你修改别人的,如果你想保证通过率的话我建议你修改错别字,去百度一下常用错别字,会出现很多,然后把其中一个错误的复制到百度百科的搜索框里面点击搜索词条,不要点击进入词条,这样就会出现很多带有这个错别字的词条,分别进入这些词条,利用收索【Ctrl + F】找出错别字所在的地方,修改成正确的,然后在修改原因上写上:修改错别字 “XXX”改为“XXX”,这样几乎都能通过,当然也会出现极例外的情况,笔者就曾经遇到过一次,第一次未通过的原因是“损失了之前版本中的有效信息”我投诉之后给我的解答是“参考资料缺失”,当时笔者瞬间变成了火龙,一肚子的火没地方发泄最后只能自己消化了……
上面说的是简单版本,但是要想升级并且成为百科核心用户要编辑复杂版本50个,所以这个一定要找到技巧,我推荐的方法是在百度随便搜索一个省市的旅游景点,你会找到很多旅游景点的名字,然后在复制景点去百度百科的搜索框里面点击搜索词条,你就会发现有的景点不止是一个百度百科,有的是景点的名字,有的是地名加上景点的名字,还有的是景点名字后面加上风景区三个字,把这些词条都打开你就会发现有的词条只是简单的介绍了一下,有的词条却很丰富,这个时候只要你把简单介绍的仿照丰富的词条编辑一下就好了,当然了你也是要达到一定量的,不是编辑一点就可以的,要编辑近千字或者加上你改动的地方达到千字也,
还有一点就是参考资料一定要是权威的网站,千万不要是论坛或者地方小网站,自从百度百科上次改版之后对参考资料方面非常严格,如果你想抱着人品好的态度去尝试的话,那我只能说你会发现你的人品并没有想象的那么好!
唐论曾巩百度百科 篇4
曾巩《唐论》原文及翻译
原文:
成、康①殁而民生不见先王之治,日入于乱,以至于秦,尽除前圣数千载之法。天下既攻秦而亡之,以归于汉。汉之为汉,更二十四君,东西再有天下,垂四百年。然大抵多用秦法,其改更秦事,亦多附己意,非效先王之法,而有天下之志也。有天下之志者,文帝而已。然而天下之材不足,故仁闻虽美矣,而当世之法度,亦不能效于三代。汉之亡,而强者遂分天下之地。晋与隋虽能合天下于一,然而合之未久而已亡,其为不足议也。
代隋者唐,更十八君,垂三百年,而其治莫盛于太宗。太宗之为君也,诎己从谏,仁心爱人,可谓有天下之志。以租庸②任民,以府卫任兵,以职事任官,以材能任职,以兴义任俗,以尊本任众。赋役有定制,兵农有定业,官无虚名,职无废事,人习于善行,离于末作。使之操于上者,要而不烦;取于下者,寡而易供。民有农之实,而兵之备存;有兵之名,而农之利在。事之分有归,而禄之出不浮;材之品不遗,而治之体相承。其廉耻日以笃,其田野日以辟。以其法修则安且治,废则危且乱,可谓有天下之材。行之几岁,粟米之贱,斗至数钱,居者有余蓄,行者有余资,人人自厚,几致刑措,可谓有治天下之效。 夫有天下之志,有天下之材,又有治天下之效,然而不得与先王并者,法度之行,拟之先王未备也;礼乐之具,田畴之制,庠序之教,拟之先王未备也。躬亲行阵之间,战必胜,攻必克,天下莫不以为武,而非先王之所尚也;四夷万里,古所未及以政者,莫不服从,天下莫不以为盛,而非先王之所务也。太宗之为政于天下,得失如此。
由唐、虞之治,五百余年而有汤之治;由汤之治,五百余年而有文、武之治;由文、武之治,千有余年而始有太宗之为君。有天下之志,有天下之材,又有治天下之效,然而又以其未备也,不得与先王并而称极治之时。是则人生于文、武之前者,率五百余年而遇治世;生于文、武之后者,千有余年而未遏极治之时也。非独民之生于是时者之不幸也。士之生于文、武之后,千有余年,虽孔子之圣、孟轲之贤而不遇。虽太宗之为君,而未可以必得志于其时也。是亦士之生于时者之不幸也。故述其是非得失之迹,非独为人君者可以考焉,士之有志于道,而欲仕于上者,可以鉴矣。
译文:
周成王、周康王死后,百姓见不到土古圣王那样的太平盛世了,天下一天天地陷入混乱,一直到秦代,完全废除了前代圣王沿用了数千年的法度。天下群起攻秦,使它灭亡了,政权归于汉室。汉朝建立以来,更换了二十四位君主,西汉、东汉两度拥有天下,相传四百年。但汉代大都沿用秦法,即使改变一些秦的成例,也多数是根据自己的意图,而不是仿效上古圣王的法度,有治理天下的志向。有治理天下志向的君主只有文帝一天而已。但文帝治理天下的才能不足,所以,尽管有仁爱的美名,而他在位时的法度,也不能与夏、商、周三代相仿。东汉亡后,几个强大的势力集团就把天下瓜分了。晋朝与隋朝虽然统一了天下,但是统一不久就灭亡了,它们的政治措施就不值得评价了。
取代隋朝的是唐,前后更换了十八位君主,相传三百年,它的国势没有比太宗时代更兴盛的了。太宗作为君主,能够屈己意倾听劝谏,用仁心爱护百姓,可以说是有治理天下的志向。他定租庸征民赋役,置府兵保养军队,因政务设立官职,视才能委任官吏,用礼仪改良风俗,重农业劝导百姓。赋役有规定的制度,兵农有安定的职业,官吏不挂空名,职事不会废弛,人民习惯于行善,离弃了末作贱业。使在上掌权的,政务切要而不繁难;向百姓征取的,数量不多而易供应。百姓能切实务农,国家也不废军备;既保持了军队编制,又得到了农田利益。大小政务都有专人负责,俸禄支出都实而不虚;人才都能得到录用,治国的体制可以一派相承。人们的廉耻观念一夭比一天加深,国家的耕地面积一天比一天扩大。用他的这套法令制度治理天下,天下就安宁太平;废弛了,天下就危险混乱,可以说他有治理的才能。实行这套法令制度几年以后,粮食的价格贱到一斗米只要几个钱,居家的人都有积蓄,出门的人也有余财,人人都懂得自尊自爱,几乎连刑法都废置不用了,可以说他有治理天下的成效。太宗虽然有治理天下的志向,有治理天下的才能,又有治理天下的成效,却还不能与前代圣王相提并论,这是因为他的法度的施行,与前代圣王相比还有不完备的.地方;礼乐的设施,田亩的制度,学校的教育,与前代圣王相比还有不完备的地方。他亲临作战阵地,战必胜,攻必克,天下没有人不认为他是勇武的,但这并不是前代圣王所崇尚的行为;四方万里之外的异族,古代未及推行政教的地方,没有不顺服的,天下没有人不认为他是强盛的,但这并不是前代圣王所追求的。太宗治理天下,得失就是这样。
从唐尧、唐舜的治世,经历五百余年才有商汤的治世;从商汤的治世,经历五百余年才有周文王、周武王的治世;从周文王、周武王的治世,又经历了一千多年才遇到太宗做国君。太宗有治理天下的志向,有治理天下的才能,又有治理天下的成效,但又因为他不够完善,不能与前代圣王并论而称为极治之时。这样看来,生活在周文王、周武王之前的人,大致相隔五百年遇到一次太平盛世;生活在周文王、周武王之后的人,经历一千多年也没有遇到极盛之世。不只是生在这个时代的平民百姓是不幸的。生在周文王、周武王之后的士人,一千多年来,即使像孔子这样的圣人、孟轲这样的贤人,也遇不着君主的赏识。即使太宗做他们的国君,他们也不一定可以得志于那个时代。这也是生在那个时代的士人的不幸。所以论述唐太宗是非得失的原委,不仅做国君的人可以参考,士人中有志于先王之道,而又想为朝廷服务的人,也可借鉴。
【注】
巧用百度百科 引爆网站流量 篇5
百度的产品很多,但对于我们做推广的话,大多是选择百度百科、知道、贴吧、经验这四种,而现在贴吧和知道对于外链的发布进行了严格的限制,基本上是很难留下链接的,一般只要是留下链接的都会被机器或是人工直接删除掉,所以这两个很难去突破,但这两个用来做品牌推广还是很好的,后面有机会再跟大家详细的讲讲。
上面说到既然百度知道和贴吧很难去突破,那我们就可以选择用百度百科和百度经验去做推广,而且百度百科不仅在百度的权重高,在google排名中也是有着一定地位的。其实笔者之前一直都没有去怎么接触百度百科这一个产品,但是朋友经常跟我说百度百科是一个很不错的产品,可以给网站带来不少流量,所以笔者自己也就花时间和精力去做了下,发现确定挺不错的,今天就来给大家分享一下如何用百度百科,引爆网站流量和高质量外链的建设。首先让大家看一下我博客一周从百度百科带来的流量图:
自己做的词条不是很多,但流量也还可以。下面我就给大家讲解一下怎么用百度百科来给自己网站带来流量和高质量的外链。在张力看来做好百度百科有三步,1、帐号升级 2、链接添加 3、词条创建这三个步骤。
第一个:帐号升级
我们都知道百度对于帐号等级是很看重的,在百度看来帐号等级越高的越具有权威性,而且帐号等级越高,百度的限制也就越小,那我们怎么来升级自己的百科帐号呢?相信大家之前应该有看过很多关于百科帐号升级的文章,而我今天只在这两给大家讲解两种,一是简单版和一个复杂版。
1、简单版,我们只需要去百度百科用tag标签语法,来找寻词条,而不要使用百科推荐给你的词条去做,百科tag标签用法如下图:
当我们找到这些词条后,只需要点击进入以后直接选择编辑此词条,然后再在里面添加内链就可以了,随便添加几个都可以,写上修改原因,一般这种通过率基本是100%的,
2、复杂版,这个就需要我们多花时间了,我们可以运用百科tag标签找到一些企业的百度百科,然后再去找字数比较少,最好选择字数在1000字以下的词条来进行编辑,编辑方法很简单,我们可以通过百度去搜一下这个企业的网站,然后在企业网站中可以了解到更多的企业信息,而这些信息我们就可以添加到百度百科上,这种方法的通过率基本达到95%以上。
以上这两张方法是笔者来进行帐号升级中有用到的,但是大家千万记住,升级前最好做完百科所有的任务。我自己是花了三天时间做完百科所有任务,帐号同时也达到了四级,相信大家每天多花点时间做一下,不用多长时间帐号等级就起来了的。
第二种:链接添加
在百度百科添加链接,首先需要找到我们想要做的词条,这个我们可以通过tag标签用法来找,找到词条后,我们一定要认真阅读一下词条找到好的链接切入口,这样我们在做添加链接时才不会不通过。下面我就给大家简单说一下不通过的两大种原因。
1、参考资料与内容不符,这一个问题是因为我们在添加链接时没找到好的链接切入口,这个需要我们重新去词条编辑一下,寻找好的切入口再次提交。
2、包含广告宣传性质内容,这个问题是因为我们所做链接的链接页面内容包含了太多宣传性的东西,建议链接页面宣传性的内容放在文章中部,不管是宣传产品还是公司名称,不要在文章中频繁出现,这样的话很难通过的。
以上就是百度百科做链接时不通过的两大主要原因,大家在添加链接时一定要注意的。
第三种:词条创建
可能很多朋友会觉得创建词条很一件很容易的事,但其实不然,创建词条是很复杂的。我自己也有创建过词条,但大多都没有通过,而原因就是包含广告信息、内容结构不清晰等等。建议在创建词条之初,一定要搜集好内容,内容越多越详细越全面最好,这样编辑出来的词条通过率才大。
【python采集百度百科的方法】推荐阅读:
python爬取网站数据保存使用的方法08-28
Python实现动态添加类的属性或成员函数的解决方法06-09
Python编程07-15
Python脚本06-13
Python语言06-26
Python技术08-27
python语法汇总08-03
python基础总结09-11
考勤系统Python09-22
python运动数据分析10-10