Python爬虫笔记

作者: No_limit | 来源:发表于2017-11-09 20:56 被阅读0次

大师兄的Python学习笔记(三十）: 爬虫（十一）
大师兄的Python学习笔记(二十一）: 爬虫（二）
大师兄的Python学习笔记(二十二）: 爬虫（三）
大师兄的Python学习笔记(二十九）: 爬虫（十）
大师兄的Python学习笔记(二十四）: 爬虫（五）
大师兄的Python学习笔记(二十六）: 爬虫（七）
大师兄的Python学习笔记(二十五）: 爬虫（六）
大师兄的Python学习笔记(二十三）: 爬虫（四）
大师兄的Python学习笔记(二十七）: 爬虫（八）
大师兄的Python学习笔记(二十八）: 爬虫（九）

讲道理，还是应该先把正则学一下的，不过因为任务简单，我就简单的尝试用了BeautifulSoup，还是很好用的。

任务1：获取康奈尔图书馆的论文的题目、日期、摘要信息。

图书馆地址：https://arxiv.org/

github代码：https://github.com/leiseraiesecqd/Python-crawler/blob/master/for%20paper%20info.py

========================================

主要解决的问题，获取第一级页面中的N个href链接（论文），依次访问所有链接，进入二级页面（每篇论文的主页），爬取论文的具体信息。

主要的两个方法：

1）bs4.BeautifulSoup/bs4.element.Tag共有的

get_text()---->去掉标签，获取文本信息（返回str类型）

find_all()--->获得标签（返回bs4.element.ResultSet类型，每个元素都是一个bs4.element.Tag）

2）bs4.BeautifulSoup的select（）方法，返回bs4.element.Tag类型。

例子：find_all('a')[0]['href']--->获取所有a标签集合中第一个a标签的href值,即链接

大师兄的Python学习笔记(三十）: 爬虫（十一）
大师兄的Python学习笔记(二十九）: 爬虫（十）大师兄的Python学习笔记(三十一）: 爬虫（十二）十一、...
大师兄的Python学习笔记(二十一）: 爬虫（二）
大师兄的Python学习笔记(二十）: 爬虫（一）大师兄的Python学习笔记(二十二）: 爬虫（三）三、提取信...
大师兄的Python学习笔记(二十二）: 爬虫（三）
师兄的Python学习笔记(二十一）: 爬虫（二）大师兄的Python学习笔记(二十三）: 爬虫（四）四、保存数...
大师兄的Python学习笔记(二十九）: 爬虫（十）
大师兄的Python学习笔记(二十八）: 爬虫（九）大师兄的Python学习笔记(三十）: 爬虫（十一）十一、S...
大师兄的Python学习笔记(二十四）: 爬虫（五）
大师兄的Python学习笔记(二十三）: 爬虫（四）大师兄的Python学习笔记(二十五）: 爬虫（六）六、模拟...
大师兄的Python学习笔记(二十六）: 爬虫（七）
大师兄的Python学习笔记(二十五）: 爬虫（六）大师兄的Python学习笔记(二十七）: 爬虫（八）八、使用...
大师兄的Python学习笔记(二十五）: 爬虫（六）
大师兄的Python学习笔记(二十四）: 爬虫（五）大师兄的Python学习笔记(二十六）: 爬虫（七）七、识别...
大师兄的Python学习笔记(二十三）: 爬虫（四）
大师兄的Python学习笔记(二十二）: 爬虫（三）大师兄的Python学习笔记(二十四）: 爬虫（五）五、爬取...
大师兄的Python学习笔记(二十七）: 爬虫（八）
大师兄的Python学习笔记(二十六）: 爬虫（七）大师兄的Python学习笔记(二十八）: 爬虫（九）九、爬取...
大师兄的Python学习笔记(二十八）: 爬虫（九）
大师兄的Python学习笔记(二十七）: 爬虫（八）大师兄的Python学习笔记(二十九）: 爬虫（十）十、Py...