为了做到更优雅,这次抛弃了urllib库的引用,使用requests和beautifulsoup搭配的方式进行
首先构建一个请求并且响应它

然后呢到简书上找一篇文章试试手,看一下网页源码找到文章的div

以及找到文章内容,仔细看看内容还挺不错哈哈

可以发现所有的内容都在p标签里面,那么接下来就简单多了只需要

f5运行一下

最后使用codecs库来进行文件操作将文章保存到本地

没错使用上requests和bs4之后爬取文章的工作是那么的轻松呢

效果图
为了做到更优雅,这次抛弃了urllib库的引用,使用requests和beautifulsoup搭配的方式进行
首先构建一个请求并且响应它
然后呢到简书上找一篇文章试试手,看一下网页源码找到文章的div
以及找到文章内容,仔细看看内容还挺不错哈哈
可以发现所有的内容都在p标签里面,那么接下来就简单多了只需要
f5运行一下
最后使用codecs库来进行文件操作将文章保存到本地
没错使用上requests和bs4之后爬取文章的工作是那么的轻松呢
效果图
本文标题:使用python3 requests和bs4进行爬虫(二)爬取文
本文链接:https://www.haomeiwen.com/subject/bydypttx.html
网友评论
我把博主的内容在github上手打了一遍,也加上了一些自己的理解,欢迎来交流,能给个star最好,哈哈。https://github.com/zmb4973992/1