美文网首页
Python爬虫笔记

Python爬虫笔记

作者: No_limit | 来源:发表于2017-11-09 20:56 被阅读0次

讲道理,还是应该先把正则学一下的,不过因为任务简单,我就简单的尝试用了BeautifulSoup,还是很好用的。


任务1:获取康奈尔图书馆的论文的题目、日期、摘要信息。

图书馆地址:https://arxiv.org/

github代码:https://github.com/leiseraiesecqd/Python-crawler/blob/master/for%20paper%20info.py

========================================

主要解决的问题,获取第一级页面中的N个href链接(论文),依次访问所有链接,进入二级页面(每篇论文的主页),爬取论文的具体信息。

主要的两个方法:

1)bs4.BeautifulSoup/bs4.element.Tag共有的

get_text()---->去掉标签,获取文本信息(返回str类型)

find_all()--->获得标签(返回bs4.element.ResultSet类型,每个元素都是一个bs4.element.Tag)

2)bs4.BeautifulSoup的select()方法,返回bs4.element.Tag类型。

例子:find_all('a')[0]['href']--->获取所有a标签集合中第一个a标签的href值,即链接

相关文章

网友评论

      本文标题:Python爬虫笔记

      本文链接:https://www.haomeiwen.com/subject/bcvmmxtx.html