爬虫入门教程⑥—安装爬虫常用工具包

作者: 终可见丶 | 来源:发表于2018-04-26 21:39 被阅读254次

爬虫入门教程⑥—安装爬虫常用工具包
Scrapy爬虫入门教程五 Selectors（选择器）
Scrapy爬虫入门教程六 Items（项目）
Scrapy爬虫入门教程四 Spider（爬虫）
Scrapy爬虫入门教程九 Item Pipeline（项目管道
Scrapy爬虫入门教程十 Feed exports（导出文件）
Scrapy爬虫入门教程八交互式 shell 方便调试
Scrapy爬虫入门教程三命令行工具介绍和示例
Scrapy爬虫入门教程二官方提供Demo
Scrapy爬虫入门教程一安装和基本使用

这是承前启后的一节，也是很有可能出错的一节。

我们要安装的有

jupyter(简单方便的写代码工具)
requests(Python HTTP请求工具)
lxml(解析网页结构工具)
beautifulsoup(网页文档解析工具)

pip是Python的包管理工具，可以安装，升级，卸载Python包，并且只需要一条命令就行，是个非常棒的工具。

开始安装

Windows键+X键，点出来命令提示符。
然后输入pip3 install jupyter，回车。然后就开始下载安装jupyter了。

jupyter安装

安装完成了会提示successful installed jupyter,...。我的因为安装过了，所以提示需求已经满足了。

安装requests和之前一样。在命令行继续输入pip3 install requests。回车开始下载安装。

安装lxml，继续输入命令pip3 install lxml。回车安装。

安装beautifulsoup有一点不一样，安装命令为pip3 install bs4。这是安装第四版的beautifulsoup的意思。

jupyter简介

Jupyter Notebook（此前被称为 IPython notebook）是一个交互式笔记本，支持运行 40 多种编程语言。
Jupyter Notebook 的本质是一个 Web 应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。

用这个来写代码会比Python自带的IDLE或者命令行要好很多，不仅有代码着色、代码智能提示，还可以点击Run立即得出结果。
我们仅仅是把它作为我们的代码编辑器，另外的强大功能，如果有精力可以自己去jupyter的官方文档探索。下面是jupyter的截图。

jupyter 截图

requests简介
requests是个非常优秀，非常棒的库。使用它我们可以减少非常大的工作量，专注于对请求的创建和处理，而不需要去处理中间过程，诸如302跳转、cookie的发送与接收、表单的编码。
简单来说，我们就是使用它进行网络请求，获取到网页的内容。如果要自己全程实现一个请求的流程，代码会非常多。但是有了requests，一切都是那么easy、放弃urllib吧！
lxml简介

lxml is the most feature-rich and easy-to-use library for processing XML and HTML in the Python language.

lxml可以用来解析XML文件或者HTML文件，能够一个一个节点地解析，并且经过测试，lxml是Python所有解析HTML结构的包里面，解析速度最快的。lxml可以使用css选择器进行选择网页的节点，但是css选择器对新手不是很友好，所以我们采用了一个折中的办法，用beautifulsoup。
BeautifulSoup 简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

BeautifulSoup是一个非常友好的HTML解析选择器，他可以选择几个不同的解析器：
- html.parser(Python原生自带，速度慢，容错能力差)
- html5lib(Python自带，速度慢)
- lxml(需要安装，Python最快，还可以解析xml文件)
有了BeautifulSoup，我们对网页的解析会方便很多。

关系这几个工具的具体使用，会在之后的章节介绍。欢迎关注~！

传送门

下一章:
爬虫入门教程⑦— jupyter与requests的初步使用

所有的章节:

爬虫入门教程⑥—安装爬虫常用工具包
这是承前启后的一节，也是很有可能出错的一节。我们要安装的有 jupyter(简单方便的写代码工具) reques...
Scrapy爬虫入门教程五 Selectors（选择器）
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
Scrapy爬虫入门教程六 Items（项目）
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
Scrapy爬虫入门教程四 Spider（爬虫）
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
Scrapy爬虫入门教程九 Item Pipeline（项目管道
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
Scrapy爬虫入门教程十 Feed exports（导出文件）
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
Scrapy爬虫入门教程八交互式 shell 方便调试
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
Scrapy爬虫入门教程三命令行工具介绍和示例
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
Scrapy爬虫入门教程二官方提供Demo
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
Scrapy爬虫入门教程一安装和基本使用
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...

爬虫入门教程⑥—安装爬虫常用工具包

开始安装

相关文章

爬虫入门教程⑥—安装爬虫常用工具包

Scrapy爬虫入门教程五 Selectors（选择器）

Scrapy爬虫入门教程六 Items（项目）

Scrapy爬虫入门教程四 Spider（爬虫）

Scrapy爬虫入门教程九 Item Pipeline（项目管道

Scrapy爬虫入门教程十 Feed exports（导出文件）

Scrapy爬虫入门教程八交互式 shell 方便调试

Scrapy爬虫入门教程三命令行工具介绍和示例

Scrapy爬虫入门教程二官方提供Demo

Scrapy爬虫入门教程一安装和基本使用

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python爬虫

Python 爬虫 web 数据分析机器学习人工智能

Python 爬虫技术分享

大数据爬虫Python AI Sql

大数据

程序员