美文网首页
爬虫小试-0217影响因子表

爬虫小试-0217影响因子表

作者: zd200572 | 来源:发表于2017-10-09 16:00 被阅读0次

题目来源于生信技能树论坛,参考了几个帖子。 http://www.biotrainee.com/thread-1695-1-1.html http://www.biotrainee.com/thread-1316-1-1.html
比如这个最简单的,表格爬取: http://www.letpub.com.cn/index.p … r=¤tpage=1000 http://www.letpub.com.cn/index.p … tter=¤tpage=3 http://www.letpub.com.cn/index.p … tter=¤tpage=2 http://www.letpub.com.cn/index.p … tter=¤tpage=1 规律很简单,就是url从1增加到1000即可,很简单的循环! 每一个页面只有一个表格,所以很容易提取,用python,perl,R都可以 截止2017年,一共收录期刊:9991份 试试看吧
http://www.zd200572.com/2017/10/09/craw_learnning/

里边最重要的就是正则表达式了,另外就是把想要的内容分离出来,这是个很简单的爬虫,我的代码也很初级,仍需继续努力学习!
遇到的问题有:1、网络连接被切断,估计是没有进行伪装成浏览器的原因;2、才开始正则表达式影响因子中有两位数的,没有考虑;3、有的被除名的标签不一样,导致有影响因子(0.000)没有杂志名。 我的代码如下:

Paste_Image.png

相关文章

  • 爬虫小试-0217影响因子表

    题目来源于生信技能树论坛,参考了几个帖子。 http://www.biotrainee.com/thread-16...

  • 小试爬虫

    由于种种原因,简书等第三方平台博客不再保证能够同步更新,欢迎移步 GitHub:https://github.co...

  • python爬虫小试

    问题来源:最近想在一品威客上寻找兼职,但是发现一品威客的兼职信息不支持按任务或者投标人数进行排序,因而想通过爬虫将...

  • python爬虫小试

    刚开始学习,慢慢积累经验喽!大家共勉 这个代码是看博客拿到的,连接在此:python简单学习 在python3.6...

  • Python的编码问题

    问题: 初学Python开发,今天拿简书小试了一下网络爬虫强大的Requests库: import request...

  • node.js 小试爬虫

    cheeriorequest 封装 download.js index.js over express 脚手架 搭...

  • Python爬虫入门-小试CrawlSpider

    首先,先转载一张原理图: [转载]CrawlSpider原理图.png 再贴一下官方文档的例子: 再贴一下重要参数...

  • Java爬虫小试牛刀

    爬虫?相信很多人对这个词都不陌生,简单来说,就是利用工具爬取网页上的数据并加以整理分析。照例向小白科普一下对爬虫的...

  • pandas数据保存至Mysql数据库

    因为最近又在写爬虫,所以想把爬到的数据(dataframe格式)存在mysql里 终于在今天下午成功了 小试牛刀 ...

  • 读书感悟0217

    【0217 读书感悟】3195莫语 书名:《非暴力沟通》 作者:马歇尔·卢森堡 金句:人们常以为自己的负面情绪是因...

网友评论

      本文标题:爬虫小试-0217影响因子表

      本文链接:https://www.haomeiwen.com/subject/oddpyxtx.html