美文网首页Python
使用python3 requests和bs4进行爬虫(二)爬取文

使用python3 requests和bs4进行爬虫(二)爬取文

作者: 十年之前i | 来源:发表于2016-11-20 22:07 被阅读5066次

为了做到更优雅,这次抛弃了urllib库的引用,使用requests和beautifulsoup搭配的方式进行

首先构建一个请求并且响应它

构建请求

然后呢到简书上找一篇文章试试手,看一下网页源码找到文章的div

找到标题

以及找到文章内容,仔细看看内容还挺不错哈哈

内容

可以发现所有的内容都在p标签里面,那么接下来就简单多了只需要

f5运行一下

最后使用codecs库来进行文件操作将文章保存到本地

没错使用上requests和bs4之后爬取文章的工作是那么的轻松呢

效果图

相关文章

网友评论

  • 5cb23805edd7:楼主,520张带有我爱你画面的电影截图 是怎么获得的
    十年之前i:@沈小祺 我电脑存有,你需要发给你?
  • 吃面崩掉牙:写得很清楚,我照着操作了一遍,感觉对模块有些理解了。有个疑问:为什么在get_text函数里要使用article变量?直接查找标题和正文就可以了吧?还有except Exception这里,真正出错的话,貌似也不会在这里报错,一般都出错在get_text这个函数里,解析错误、没有文章等等。
    我把博主的内容在github上手打了一遍,也加上了一些自己的理解,欢迎来交流,能给个star最好,哈哈。https://github.com/zmb4973992/1
    十年之前i:@吃面崩掉牙 article变量是用来定位的,很多网站在不同的地方会有h1标签,主要是防止标题混乱
    d0c6ea16d70e:厉害。。。取图片那个原作者的有点问题,后来用你的没问题了

本文标题:使用python3 requests和bs4进行爬虫(二)爬取文

本文链接:https://www.haomeiwen.com/subject/bydypttx.html