IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频（实

IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频（实

作者: f99d7f32290f | 来源:发表于2020-05-16 17:35 被阅读0次

IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频（实
贴吧帖子内图片抓取
python爬虫例题：爬取百度贴吧评论区图片和视频
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比
30分钟！用python的request模块抓取百度贴吧内容
Python爬虫入门
一篇文章教会你利用Python网络爬虫抓取百度贴吧评论区图片和视
python爬虫-抓取百度贴吧帖子图片
Python爬虫实战，requests模块，Python实现抓取
这可能会是你见过的最全的网络爬虫干货总结！抓紧时间收藏！

【一、项目背景】

百度贴吧是全球最大的中文交流平台，你是否跟我一样，有时候看到评论区的图片想下载呢？或者看到一段视频想进行下载呢？

今天，小编带大家通过搜索关键字来获取评论区的图片和视频。

【二、项目目标】

实现把贴吧获取的图片或视频保存在一个文件。

【三、涉及的库和网站】

1、网址如下：

2、涉及的库：requests、lxml、urrilb

【四、项目分析】

1、反爬措施的处理

前期测试时发现，该网站反爬虫处理措施很多，测试到有以下几个：

（1）直接使用requests库，在不设置任何header的情况下，网站直接不返回数据。

（2）同一个ip连续访问40多次，直接封掉ip，起初我的ip就是这样被封掉的。为了解决这两个问题，最后经过研究，使用以下方法，可以有效解决。获取正常的 http请求头，并在requests请求时设置这些常规的http请求头。

2.如何实现搜索关键字？

通过网址我们可以发现只需要在kw=() ，括号中输入你要搜索的内容即可。这样就可以用一个{}来替代它，后面我们在通过循环遍历它。

【五、项目实施】

1、创建一个名为BaiduImageSpider的类，定义一个主方法main和初始化方法init。导入需要的库。

2、准备url地址和请求头headers 请求数据。

3、用xpath进行数据分析

3.1、chrome_Xpath插件安装

（1）这里用到一个插件，能够快速检验我们爬取的信息是否正确。具体安装方法如下。

（2）百度下载chrome_Xpath_v2.0.2.crx， chrome浏览器输入：chrome://extensions/

（3）直接将chrome_Xpath_v2.0.2.crx拖动至该扩展程序页面。

（4）如果安装失败，弹框提示“无法从该网站添加应用、扩展程序和用户脚本”，遇到这个问题，解决方法是：打开开发者模式，将crx文件（直接或后缀修改为rar）并解压成文件夹，点击开发者模式的加载已解压的扩展程序，选择解压后的文件夹，点击确定，安装成功。

3.2、chrome_Xpath插件使用

上面我们已经安装好了chrome_Xpath插件，接下来我们即将使用它。

（1）打开浏览器，按下快捷键F12 。

（2）选择元素，如下图所示。

（3）右键，然后选择，“Copy XPath”，如下图所示。

3.3、编写代码，获取链接函数。

上面我们已经获取到链接函数的Xpath路径，接下来定义一个获取链接函数get_tlink，并继承self，实现多页抓取。

4、保存数据

这里定义一个write_image方法来保存数据，如下所示。

注：@data-video是网址中的视频，如下图所示。

【六、效果展示】

1、点击运行，如下图所示（请输入你要查询的信息）：

2、以吴京为例输入，回车：

3、将图片下载保存在一个名为“百度”文件夹下，这个文件夹需要你提前在本地新建好。务必记得提前在当前代码的同级目录下，新建一个名为“百度”的文件夹，否则的话系统将找不到该文件夹，会报找不到“百度”这个文件夹的错误。

4、下图中的MP4就是评论区的视频。

【七、总结】

1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。

2、本文基于Python网络爬虫，利用爬虫库，实现百度贴吧评论区爬取。就Python爬取百度贴吧的一些难点，进行详细的讲解和提供有效的解决方案。

3、欢迎大家积极尝试，有时候看到别人实现起来很简单，但是到自己动手实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解的更加深刻。学习requests 库的使用以及爬虫程序的编写。

4、通过本项目可以更快的去获取自己想要的信息。

欢迎大家点赞，留言，转发，感谢大家的相伴与支持，需要本文源码可以关注公众号：【Python的进阶之旅】有惊喜哦！

往期精彩文章：

安装好Pycharm后如何配置Python解释器简易教程

python初学者，用python3实现基本的学生管理系统代码实例

相关文章

IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频（实
【一、项目背景】百度贴吧是全球最大的中文交流平台，你是否跟我一样，有时候看到评论区的图片想下载呢？或者看到一段视...
贴吧帖子内图片抓取
Python之爬虫练习利用Python对百度贴吧进行网络爬虫，实现抓取每个帖子内的所有图片并将之保存到本地。本...
python爬虫例题：爬取百度贴吧评论区图片和视频
百度贴吧是全球最大的中文交流平台，你是否跟我一样，有时候看到评论区的图片想下载呢？或者看到一段视频想进行下载呢？ ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态（上）和利用Python网络爬虫爬取微信朋友圈动态—...
30分钟！用python的request模块抓取百度贴吧内容
001 我想通过自动抓取百度贴吧 “python爬虫吧“ 里的帖子数据，找到那些付费写爬虫的帖子，赚点零花钱！为了...
Python爬虫入门
获取图片并存入文件夹中利用有道翻译 Python爬虫将煎蛋网上的图片全部下载到本地 Python爬虫将贴吧上的图...
一篇文章教会你利用Python网络爬虫抓取百度贴吧评论区图片和视
【一、项目背景】百度贴吧是全球最大的中文交流平台，你是否跟我一样，有时候看到评论区的图片想下载呢？或者看到一段视...
python爬虫-抓取百度贴吧帖子图片
本爬虫可以爬取百度贴吧帖子中的图片，代码有待完善，欢迎大家指教！出处：https://github.com/jin...
Python爬虫实战，requests模块，Python实现抓取
前言利用Python实现抓取B站视频弹幕评论，废话不多说。让我们愉快地开始吧~ 开发工具 Python版本： ...
这可能会是你见过的最全的网络爬虫干货总结！抓紧时间收藏！
《健壮高效的网络爬虫》，从抓取、解析、存储、反爬、加速五个方面介绍了利用Python进行网络爬虫开发的相关知识点和...

网友评论

视觉艺术

本文标题：IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频（实

本文链接：https://www.haomeiwen.com/subject/itsrohtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

视觉艺术

关于我们|服务条款|联系我们|IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频（实|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！