2018-03-01 python3 爬虫（一）

作者: 小郑的学习笔记 | 来源:发表于2018-03-06 13:28 被阅读0次

学了一段时间的爬虫，想记录一下，但是突然没有了思路。其实学的还是有一点乱的，主要是对python3的包还不是很熟练。

感觉学爬虫，得现有python的基础知识才行：

1 python 打开创建文件，写入文件
2 python 的正则表达列表和字典的知识
3 对request包的使用（获取网页信息）
4 对BeautifulSoup包的使用（处理获得信息）

现在还不是很熟练和清楚，感觉网路爬虫的套路是这样的：

模拟浏览器登录网页 ——> 获取网页信息——>找出自己想要的——> 格式化储存

这里包括了文字，图片，影像。里面的坑不少，每个步骤都有要注意的地方，还有一些网站有反爬虫的机制，所以我感觉还是要从基础的开始学习，然后爬一些简单的网站。

我根据网上的教程，爬了一本小说下来，但是基本是模仿教程的代码，后来我自己编写了一个爬虫，把我自己维护的网站上所有合影全部下载保存到自己的电脑里面，才真正算学会了一点点皮毛。就先记录这么多，后面再慢慢学：

我的脚本

其中
headers 是用来模拟浏览器登录的，只要使用谷歌chrome ，右击检查就可以了

target是目标网站

requests.get（）是用来把整个网页代码拿下来

BeautifulSoup 是使用解析器解析格式化的网页文件

find_all 函数是用来查找特定的标签

replace 函数是把信息再整理清楚

get 函数可以解析指定的标志后面的路径

最后，如果是保存图片，记得要使用"wb"，二进制的模式

学的比较乱，不过至少是个自己编写的可以运行的爬虫了，后面再慢慢学。

网友评论

本文标题：2018-03-01 python3 爬虫（一）

本文链接：https://www.haomeiwen.com/subject/qgmixftx.html

2018-03-01 python3 爬虫（一）