python爬虫—关于大众点评数据的爬取！

python爬虫—关于大众点评数据的爬取！

作者: 小张Python | 来源:发表于2019-02-08 15:24 被阅读0次

学Python，大众点评还不会爬？跟着我，我教你
python爬虫—关于大众点评数据的爬取！
Python学习
Python学习
大众点评还不会爬？跟着我，我教你！
上海大众点评美食数据可视化
python爬虫爬取英雄联盟英雄图片
python爬虫爬取王者荣耀英雄列表图片
【二】PYTHON爬取全国新房房价与浅析
Python商品数据预处理与K-Means聚类可视化分析

前序：

这两天写了一个关于采集大众点评评论的爬虫，写的时候遇到了不少的坑，当然也学到了不少，有一定的收获；就写个教程来巩固一下。

现在无论爬那个网站的数据，基本都会碰到相应反爬机制，问题的关键在于反爬机制的强弱；这次爬取点评评论时主要遇到了css机制反爬问题：

正文：

首先我们打开大众点评内其中一个店铺的页面，找到评论的面板，打开开发者模式（按下F12键），用选择工具选取指定的评论区与相应的源码进行对比，会发现一个问题，就是源码中的评论不全：

源码中的评论并不是一句话连起来的，而是一个字一个字间隔出现的而且会出现字符缺失的现象，中间会出现相应 <span class="yscak"></span>标签的出现，而标签 span内的class标签文字的替换就是这次破解反爬的关键，

我们第一次碰到这个东西肯定是蒙蒙的，我们可以尝试点一下span标签，看会有什么发现；点进去会发现源码的右边会出现关于这一元素的基本格式：位置、大小、字体大小等，里面还会有个url:

图2

url点进去会出现类似于class="yscak"标签的隐藏文字：

但是我们需要找到文字的替换规则，打开这个网页的源码：

这里要有两个点需要我们注意：一个是文字的大小font-size，另一个就是每一行都会有一个y标签会对应一个数值；这里我看了网上的一些教程，了解到与这两个点对应的就是图二中下标签内元素对应的background对应的两个位置元素（区别是位置元素里面的数值是负值）；定位规则就是第二个元素对应的是y值决定该class标签替换的元素在哪一行，而第一个元素数值与文字大小之比对应的是这一行的第几个即为偏移量，从而形成映射关系；

为了读者们更加明白上面这句话，我这里以为例，从图中可以看到它对应的文字是“盗”，它的background对应的是：-322.0px -572.0px;

接下来打开标签对应url,打开对应网页的源码：

接下来就是需要找到与标签相对应的文字了，-572px说明元素位于包含572哪一行，从源码中对应的就是y = "595"那一行，然后通过第一个位置元素数值计算偏移量： 322/14 + 1 = 24（因为文字大小为14px所以需要除以14），验证即为所得：

基本总结：

下面就是这个爬虫整个基本流程：

找到评论中class属性标签对应替代文字url；

根据y标签数值以及文字偏移量，化成对应元素位置格式，写出文字与元素位置所对应的映射关系：

访问class标签对应的位置元素数值（在评论源码中就能找到相关url的链接），形成class标签元素与位置元素数值对应的映射

然后就是通过以上的一一映射，可以把class标签元素与文字进行替换；

然后通过select或者xpath等方法来提取评论；

这里还需要注意一点，就是大众点评评论需要登陆才能够爬取，这里解决的方法比较简单就是先登录，获取cookies，添加到requests里面再进行爬取，但是一般爬取200页的时候会现滑块验证；所以可以准备一个相关cookies池让里面的cookie轮流访问；

代码部分：

获取class标签对应的位置元素url（以.css结尾的）:

构建class标签元素与位置元素数值对应的映射关系：

构建隐藏文字与位置元素数值对应的映射关系：

进行class属性元素与隐藏文字的替换：

我把爬取的数据都存入Mongodb数据库中，爬取结果如下：

想获取本次教程的完整源码，关注微信公众号：小张Python，后台回复“大众点评”即可获取。

相关文章

学Python，大众点评还不会爬？跟着我，我教你
今天的文章是关于如何使用requests来爬取大众点评的数据。看完本文，你可以： 1、了解大众点评的CSS反爬虫...
python爬虫—关于大众点评数据的爬取！
前序：这两天写了一个关于采集大众点评评论的爬虫，写的时候遇到了不少的坑，当然也学到了不少，有一定的收获；就写个教...
Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...
Python学习
python爬虫(四) python爬虫爬取豆瓣电影数据今天我们爬取一下豆瓣电影TOP250页面电影的数据，依然...
大众点评还不会爬？跟着我，我教你！
今天的文章是关于如何使用requests来爬取大众点评的数据。看完本文，你可以： 1、了解大众点评的CSS反...
上海大众点评美食数据可视化
本文首先使用python爬取了上海市大众点评735条数据，各商户信息来源于这里。第一步：数据爬取 python网...
python爬虫爬取英雄联盟英雄图片
python爬虫爬取英雄联盟英雄图片 python爬取数据四步走1、确定目标2、分析目标3、编写代码4、执行爬虫 ...
python爬虫爬取王者荣耀英雄列表图片
python爬虫爬取王者荣耀英雄图片 python爬取数据四步走1、确定目标2、分析目标3、编写代码4、执行爬虫 ...
【二】PYTHON爬取全国新房房价与浅析
【一】学PYTHON及爬虫的一些总结【二】PYTHON爬取全国新房房价与浅析 PART ONE:【数据采集】爬取...
Python商品数据预处理与K-Means聚类可视化分析
数据提取在我之前的文章Scrapy自动爬取商品数据爬虫里实现了爬虫爬取商品网站搜索关键词为python的书籍商品...

网友评论

pythoner

本文标题：python爬虫—关于大众点评数据的爬取！

本文链接：https://www.haomeiwen.com/subject/ebfosqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

pythoner

关于我们|服务条款|联系我们|python爬虫—关于大众点评数据的爬取！|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！