（学习笔记）爬虫入门（4）

作者: 半颗卷心菜 | 来源:发表于2018-12-22 00:41 被阅读0次

webpack4入门学习笔记(一)
webpack4入门学习笔记(二)
webpack4入门学习笔记(三)--Babel的使用
（学习笔记）爬虫入门（4）
Python爬虫入门
Python爬虫学习系列教程
爬虫学习笔记
Python爬虫笔记一 ——爬取网页题目
scrapy笔记
（学习笔记）爬虫入门（1）

本次内容学自莫烦Python2.4

这次要爬的是百度百科的网站，

先通过第一个页面，抓取出多个符合条件的链接放入一个list，然后再从list随机选出一个链接把它打印出来，并以它作为新的目标进行重复操作。

https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711

要爬取的第一个网站首页：

图1 网站首页

这次并不像之前一样直接用一个完整的网站，而是将它分成两部分。

图2 网站的处理

base_url是百度百科的首页，his（history)就是我收集到的网站的集合。

因为url的处理不一样，所以解析的步骤稍有区别：

图3 解析网站

这里用find('h1')，而不是findAll，是因为这里的第一个h1就是网站的主题，这样可以防止抓到无用信息。

这里抓到的信息就是这个：

图4 抓到的信息

然后就是筛选出需要的信息：

图5 筛选信息

'_blank'属性在于可个打开一个新的tag，也就是指这是另一个百度词条，我们要重新进入的就是这类网站。

至于为什么'href'要这么处理呢

第一，在<a>标签中，其信息是这样的：

图6 <a>标签信息

如果你不嫌累到我们的soup中去找，也是这个样子的。

第二，要过滤掉这类信息：

图7 要过滤的信息

再回到刚刚的代码：

图8 if判断

这里的if就是法sub_urls不为空时，从中随机选一个段加入到list中，用于作下一个我们要爬取的链接。（如果是用jupyter notebook的话，这里每运行一次，list中的字符个数就会加一个）

以上内容重复20次：

图9 以上内容重复20次

这里的图没截完，实际有20个链接。

因为每次取的是随机的一个序列，所以每运行一次，结果都不一样，但第一个肯定是‘网络爬虫’

网友评论

本文标题：（学习笔记）爬虫入门（4）

本文链接：https://www.haomeiwen.com/subject/tmkbkqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

（学习笔记）爬虫入门（4）

本次内容学自莫烦Python2.4

要爬取的第一个网站首页：

这次并不像之前一样直接用一个完整的网站，而是将它分成两部分。

因为url的处理不一样，所以解析的步骤稍有区别：

然后就是筛选出需要的信息：

再回到刚刚的代码：

以上内容重复20次：

相关文章

webpack4入门学习笔记(一)

webpack4入门学习笔记(二)

webpack4入门学习笔记(三)--Babel的使用

（学习笔记）爬虫入门（4）

Python爬虫入门

Python爬虫学习系列教程

爬虫学习笔记

Python爬虫笔记一 ——爬取网页题目

scrapy笔记

（学习笔记）爬虫入门（1）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

（学习笔记） 爬虫入门（4）

本次内容学自莫烦Python2.4

要爬取的第一个网站首页：

这次并不像之前一样直接用一个完整的网站，而是将它分成两部分。

因为url的处理不一样，所以解析的步骤稍有区别：

然后就是筛选出需要的信息：

再回到刚刚的代码：

以上内容重复20次：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

（学习笔记）爬虫入门（4）