《超详细的python爬虫入门，从 requests 到 scrapy》专题

专题列表页

超详细的python爬虫入门，从 requests 到 scrapy

本专题以项目为驱动，从基本的网络请求和页面解析开始，逐步深入到 scrapy爬虫框架，在讲解完库之后，会跟上对应的实践项目，有兴趣朋友的可以跟着实践自己敲代码或者完成我留下的 bug，把代码发到评论区，我会不定时查看。

本专题假设读者有一定的python基础，所以并不会讲python的基本语法，遇到语法问题可以评论求助。

因为本专题涉及的库比较多，而且作者不能把时间全部用在更新上，所以本专题完成的时间可能较长，在本专题中会涉及到以下主题：
1、requests 库
（网络请求）
2、lxml 库和 xpath 用法
（htnl页面解析）
4、html 网页的解析
5、数据的处理和存储（json，csv）
6、threading 库（多线程）
7、asyncio 库（异步）
8、数据库以及 orm
9、scrapy 爬虫框架

在写这些的时候，我也在不断地学习，如果我在学习的过程中发现了更好的库，就会换一个库讲，但是上面所列的点是不会变的。

最后，如果在文章中出现了错误，欢迎在评论中指出，我会在后续的更新中修改。

谢谢

python爬虫小工具--快速获得请求头
6
2019-01-30

我们在写爬虫脚本的时候经常要获取请求头，但是每次从浏览器粘贴到代码里时，都要费一番功夫来处理格式。于是写了一个请...[作者空间]

Scrapy初体验
5
2018-09-13

学了python之后一直在给自己找点儿什么需求练练手，爬虫是学python最快的途径，就想着爬点豆瓣电影的数据吧，...[作者空间]

scrapy爬虫框架（四）：scrapy中 yield使用详解
6
2018-08-24

开始前的准备工作： MySQL下载：点我python MySQL驱动下载：pymysql（pyMySql，直接用p...[作者空间]

scrapy爬虫框架（三）：爬取壁纸保存并命名
35
2018-08-23

写在开始之前按照上一篇介绍过的 scrapy爬虫的创建顺序，我们开始爬取壁纸的爬虫的创建。首先，我们先过一遍 ...[作者空间]

scrapy爬虫框架（一）：scrapy框架简介
0
2018-08-21

一、安装scrapy框架二、创建一个scrapy项目安装完成后，python会自动将 scrapy命令添加到环...[作者空间]

实战：异步爬取之异步的简单使用
26
2018-08-17

一、使用异步的注意事项异步代码中不能有耗时的 I/O操作，像文件读写、网络请求、数据库读写等操作都需要使用对应的...[作者空间]

实战：异步爬取之初识异步
15
2018-08-16

一、为什么要用异步？许多之前没有听说过异步地朋友可能看到标题地第一反应就是：什么是异步？为什么要用异步？我们先...[作者空间]

实战：简书爬取之多线程爬取（二）速度提升何止10倍
24
2018-07-22

一、程序结构既然要使用多线程，那么关于多线程的使用的模型我们也要了解一下。许多新手在写多线程的代码时总是喜欢把...[作者空间]

实战：爬取简书之多线程爬取（一）
23
2018-07-20

在上上篇我们编写了一个简单的程序框架来爬取简书的文章信息，10分钟左右爬取了 1万 5千条数据。现在，让我们先来...[作者空间]

占位文章，无内容--简书爬取之断点续爬
11
2018-07-18

自己立的 flag哭着也要写出来 ... ...[作者空间]

实战：爬取简书之搭建程序框架
61
2018-07-13

上一篇一共提到了四个模块，这一篇我们来实现它们请求模块 uid 解析模块数据爬取模块数据保存模块一、请求模...[作者空间]

一个大胆的想法，爬取简书所有的文章信息
106
2018-07-12

在上一篇我们写了一个爬虫脚本，这个脚本可以通过用户的 uid爬取对应用户的所有文章的信息并保存到本地。既然我们已...[作者空间]

python爬虫系列之数据存储实战：爬取简书用户文章列表并保存
47
2018-07-10

前面讲了 json和 csv两个存储数据的库，在数据量比较少的时候，用这两个库很方便。一、分析爬取逻辑这一篇我...[作者空间]

python爬虫系列之数据的存储（二）：csv库的使用
41
2018-07-07

上一篇我们讲了怎么用 json格式保存数据，这一篇我们来看看如何用 csv模块进行数据读写。一、csv简介 CS...[作者空间]

python爬虫系列之数据的存储（一）：json库的使用
66
2018-07-03

在上一篇文章里我们讲了 xpath写法的问题还以爬取我的文章信息写了示例，但是在上一篇中我们只是爬取并打印了信息，...[作者空间]

python爬虫系列之 html页面解析：如何写 xpath路径
25
2018-07-01

一、前言上一节我们讲了怎么批量下载壁纸，虽然爬虫的代码很简单，但是却有一个很重要的问题，那就是 xpath路径应...[作者空间]

python爬虫系列之 xpath实战：批量下载壁纸
54
2018-06-26

一、前言在开始写爬虫之前，我们先了解一下爬虫首先，我们需要知道爬虫是什么，这里直接引用百度百科的定义网络爬虫...[作者空间]

python爬虫系列之 xpath：html解析神器
41
2018-06-21

一、前言通过前面的文章，我们已经知道了如何获取网页和下载文件，但是前面我们获取的网页都是未经处理的，冗余的信息太...[作者空间]

python爬虫系列之 requests实战：用 request
57
2018-06-21

一、requests获取网页并打印这个在上节我们已经讲过，并不是很难，接下来来点有意思的。二、requests...[作者空间]

python爬虫系列之 requests: 让 HTTP 服务人
51
2018-05-18

一、安装requests库二、发起一个简单的网络请求 requests支持所有的HTTP请求，以最常用的get方...[作者空间]

延伸阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

爱情美文推荐

热点爱情美文

最新爱情美文

关于我们|服务条款|联系我们|用户中心|投稿指南|网站地图|RSS订阅|排版工具|百度一下|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！