尽管百度是个大企业，然而python还是可以轻易爬取数据！

尽管百度是个大企业，然而python还是可以轻易爬取数据！

作者: 48e0a32026ae | 来源:发表于2018-09-21 15:19 被阅读1次

尽管百度是个大企业，然而python还是可以轻易爬取数据！
尽管百度是个大企业，然而python还是可以轻易爬取数据！
python爬取百度图片代码
通过关键字爬取百度图片
用python网络爬虫爬取英雄联盟英雄图片
1、什么是搜索引擎
Python学习
爬百度图片
爬虫案例
Python学习

先说下我写这个爬虫的思路吧：

环境：Windows7，Python3.5，pycharm

使用到的库：requests,re,selenium,time

具体步骤：

一、搜索贴吧

先搜索一个存在的贴吧（比如python爬虫），得到的网页链接

然后搜索一个不存在的贴吧（比如sad213），得到的网页链接

对比两个链接可知，如果返回的链接里包含tieba.baidu.com/f?ie=utf-8，则该贴吧存在。所以我利用selenium模拟浏览器，根据返回的结果判断搜索的贴吧是否存在。

二、显示贴吧首页的帖子

在搜索到贴吧之后，我们要进入该贴吧并查看该贴吧首页上的帖子，这部分实现起来不算难。

首先是获取网页源码，用requests.get()方法请求网页，然后打印出text内容，可以找到如下部分。

要提取发帖人的名字和帖子主题，我选择用正则表达式来实现，具体代码如下：

titles = re.findall('

authors = re.findall('title="主题作者: (.*?)"', res.text)

这样我们就能成功获取首页上的帖子信息了。

三、查看某一个帖子

要查看一个帖子里的内容，第一步是和上面的步骤一样的，用get方法请求网页，然后打印text，再用正则表达式提取回复人的名字和回复内容。

接下来的步骤花了我不少时间，因为很多人在评论的时候会发表情，而这些表情我们是无法将它显示出来的，因此我选择将表情对应的链接显示出来，如果要看别人发的是什么表情，直接点链接进去就能看到了。对于评论中的图片，我也是这么处理的，将图片的链接显示出来。

这一步还有一个坑，就是因为有些人的回复是带有回复框的，也就是说这些人的评论是包裹在div里的，用上面的方法是无法得到他们的回复的。

通过观察网页源码，我发现可以用正则表达式匹配到这部分回复，然后对于这些回复，也要进行处理后再显示出来。

comment_list2 = re.findall('post_bubble_middle_inner">(.*?)

comment = comment_list2[num].replace('
', ' ').replace('', ' ')

这样我们就能够搜索贴吧并且进入贴吧查看我们想看的帖子了==

具体源码如下：

相关文章

尽管百度是个大企业，然而python还是可以轻易爬取数据！
先说下我写这个爬虫的思路吧：环境：Windows7，Python3.5，pycharm 使用到的库：reques...
尽管百度是个大企业，然而python还是可以轻易爬取数据！
先说下我写这个爬虫的思路吧：环境：Windows7，Python3.5，pycharm 加小编python学习群...
python爬取百度图片代码
python爬取百度图片代码
通过关键字爬取百度图片
在 Python 3 多线程下载百度图片搜索结果提供了通过关键字爬取百度图片的代码，而 Python爬取百度图片...
用python网络爬虫爬取英雄联盟英雄图片
用python爬虫爬取lol皮肤。这也用python网络爬虫爬取lol英雄皮肤，忘了是看哪个大神的博客（由于当时...
1、什么是搜索引擎
专业的解释可以百度。爬取网站的数据，对爬取的数据建立索引，给用户一个搜索的功能，用户通过关键词搜索，找到爬取的数...
Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...
爬百度图片
requests + re 爬百度图片一、爬取百度图片一页二、爬取更多图片通过上面的方法我们可以成功爬取百度...
爬虫案例
实战巩固爬取搜狗指定页面的数据-待完成爬取破解百度翻译爬取豆瓣电影分类排行榜爬取肯德基餐厅查询地址爬取国...
Python学习
python爬虫(四) python爬虫爬取豆瓣电影数据今天我们爬取一下豆瓣电影TOP250页面电影的数据，依然...

网友评论

python热爱者

本文标题：尽管百度是个大企业，然而python还是可以轻易爬取数据！

本文链接：https://www.haomeiwen.com/subject/qzbgnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

python热爱者

热点阅读

python热爱者

关于我们|服务条款|联系我们|尽管百度是个大企业，然而python还是可以轻易爬取数据！|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！