美文网首页
2018-03-01 python3 爬虫(一)

2018-03-01 python3 爬虫(一)

作者: 小郑的学习笔记 | 来源:发表于2018-03-06 13:28 被阅读0次

学了一段时间的爬虫,想记录一下,但是突然没有了思路。 其实学的还是有一点乱的,主要是对python3的包还不是很熟练。

感觉学爬虫,得现有python的基础知识才行:

1 python 打开创建文件,写入文件
2 python 的正则表达 列表 和 字典的知识
3 对request包的使用 (获取网页信息)
4 对BeautifulSoup包的使用 (处理获得信息)

现在还不是很熟练和清楚,感觉网路爬虫的套路是这样的:

模拟浏览器登录网页 ——> 获取网页信息——>找出自己想要的——> 格式化储存

这里包括了 文字,图片,影像 。 里面的坑不少,每个步骤都有要注意的地方,还有一些网站有反爬虫的机制,所以我感觉还是要从基础的开始学习,然后爬一些简单的网站。

我根据网上的教程,爬了一本小说下来,但是基本是模仿教程的代码,后来我自己编写了一个爬虫,把我自己维护的网站上所有合影全部下载保存到自己的电脑里面,才真正算学会了一点点皮毛。就先记录这么多,后面再慢慢学:


我的脚本

其中
headers 是用来模拟浏览器登录的,只要使用谷歌chrome ,右击检查就可以了

target是目标网站

requests.get()是用来把整个网页代码拿下来

BeautifulSoup 是使用解析器解析格式化的网页文件

find_all 函数 是用来查找特定的标签

replace 函数是 把信息再整理清楚

get 函数可以解析指定的标志后面的路径

最后,如果是保存图片,记得要使用"wb",二进制的模式

学的比较乱,不过至少是个自己编写的可以运行的爬虫了,后面再慢慢学。

相关文章

网友评论

      本文标题:2018-03-01 python3 爬虫(一)

      本文链接:https://www.haomeiwen.com/subject/qgmixftx.html