大众点评数据爬取

作者: 向右奔跑 | 来源:发表于2017-01-07 13:02 被阅读8893次

之前准备把大众点评商户和评价信息都抓取下来，遇到两个问题就搁下来。

分类（菜系）、地点都不限制，不能搜到全部信息，分页也只有50页数据（750条），而在首页显示的餐厅是15万多家（上海地区）。

选定一个分类后，如“本帮江浙菜”，发现显示数据也是50页。

基本可以断定，不限制分类和地点，或者限定条件比较少，最多是显示50页数据。是不是考虑到没有人会无聊地一页一页翻看。

解决的方式，就是先按分类和地点进行组合，构建出所有的url，爬取时再爬过所有分页的页面。于是今早就开干。

1. 先把分类和地点的基础数据抓取下来

把上图蓝色框中的基础数据先抓取下来，就是分类和地点，地点包括，热门商区、行政区。分类是都是以g开头的加上数字，如川菜是g102，地点是以r开头的加上数字，如浦东新区是r5，人民广场是r860

location=['r5', 'r2', 'r6', 'r1', 'r3', 'r4', 'r12', 'r10', 'r7', 'r9', 'r13', 'r8', 'r5937', 'r5938', 'r5939', 'r8846', 'r8847', 'c3580', 'r801', 'r802', 'r804', 'r865', 'r860', 'r803', 'r835', 'r812', 'r842', 'r846', 'r849', 'r806', 'r808', 'r811', 'r839', 'r854']

foodtype=['g101', 'g113', 'g132', 'g112', 'g117', 'g110', 'g116', 'g111', 'g103', 'g114', 'g508', 'g102', 'g115', 'g109', 'g106', 'g104', 'g248', 'g3243', 'g251', 'g26481', 'g203', 'g107', 'g105', 'g108', 'g215', 'g247', 'g1338', 'g1783', 'g118']

常见的菜系，本帮江浙菜g101、川菜g102、火锅g110、东北菜g106、海鲜g251、日料g113，哪一种是你的最爱。

2.组合出所有的URL，包括分页

在组合出所有的URL时，发现也可以把分页加上，就是直接在url后跟上如p2，就是第二页，如 “g102r5p2”，这个就表示点评上“浦东新区川菜餐厅第2页的 url”，完整的URL是这样的：

http://www.dianping.com/search/category/1/10/g102r5p2

当然需要先获取组合的每个URL的有多少页。

3. 其他就是解析页面数据，写入数据库

我之前的文章都写得比较详细。
页面数据的提取，可以参考，《Scrapy 抓取数据提取对象小技巧》
写入数据库可以参考，《Scrapy爬取数据存入MySQL数据库》

数据库信息字段

今天代码非常顺利，测试基本都是一次过。启动爬虫，数据顺利抓到写入数据库，很快，我看了一下超过了5000条。

我检查一下数据，发现代码中有个小错误，停下爬虫修改好，数据库Truncate一下。

再次启动爬虫，发现居然被Ban了，我设置了浏览器请求头（伪装），也设置了下载延迟（就是短了点，有点后悔）。这时的时间大概9:30，是不是攻城狮上班了啊，今天是周六啊。

2017-01-07 10:02:58 [scrapy] DEBUG: Crawled (403) <GET http://www.dianping.com/search/category/1/10/g3243r9> (referer: None)
2017-01-07 10:02:58 [scrapy] DEBUG: Ignoring response <403 http://www.dianping.com/search/category/1/10/g3243r9>: HTTP status code is not handled or not allowed
2017-01-07 10:02:58 [scrapy] INFO: Closing spider (finished)

Snip20170107_2.png

想着上周也被Ban过，把图也贴出来。爬取拉勾网招聘信息被Ban，换了一种入口请求，居然好了。

拉勾网被Ban

接下来，再怎么启动也不行。我只好找找设置IP代理的方法。一大早代码写得像在飞，现在...，干脆，先换个地方，换个IP试式看。

这次我把下载延时稍微设长一点，OK，现在下载了2万多数据。

吃货们，等着我的数据分析吧。

分析文章出来啦：献给吃货们的爱♡ -- 大众点评美食数据分析

Github: https://github.com/ppy2790/dianpingshop

网友评论

40aa7ae8f48a:大兄弟，没用啊，是不是过时了。魔高一尺，道高一丈？

09a497871d88:新手初学，看了你的文章对我的帮助很大，len(pages)很好的提供了分页的思路。想请教下，如果菜品分类和地点的组合出来的网页不存在，该怎么处理呢？

喵鸢:try一下 except一下

夏树的宝马:大佬你说的下载延迟指的是啥，是每一段时间加一个类似 sleep的东西吗

Rflash7:兄弟，能给一份你爬取的评论吗？我爬取评论总是被封ip,实在是没办法，只爬取出了商店信息。

七月宋:最近也看中大众点评，想把店铺点评，跟推荐菜一起爬下来，做两个表，用店铺ID做关联。 spider里面可以做到返回两个itema,itemb, 在pipeline 里面根据返回item，存入两张表。不知这样的思路可以不？

小叮当_032a:@向右奔跑，为什么抓取的数据库相同的信息会有好多条？怎么限定每条不一样？还有想问问怎么在你的代码基础上抓取商户的评论信息？谢谢。

小叮当_032a:好的

向右奔跑: @小叮当_032a 加我微信吧 yong164647

乌托邦的潜力:我比较想知道你这个每家店铺的全部点评是怎么爬下来的？

向右奔跑:@乌托邦的潜力是的，没有抓取点评的用户评论，是因为没有找到对所有评论的分析方法，抓取下来不知道怎么处理，要用到机器学习了。

乌托邦的潜力:@向右奔跑恩恩，是的，我看倒你分享的代码里面似乎没有获取点评的信息是吗？

向右奔跑:@乌托邦的潜力从列表页到每家店铺的点评页面，就能获取所有点评数据

DianeHuu:

在浏览器看到你的文章才下载的简书。做美食相关工作，如果我想拖取某个城市中所有入驻大众点评的餐饮门店，是用这个方式对吧

向右奔跑:恩，是这么个弄法～

9a996ce6ed8d:请问用的抓包工具是什么啊

向右奔跑:@blackforever charles是抓包工具，编写的爬虫可以一次抓大量数据

9a996ce6ed8d:@向右奔跑用法和charles差不多吗-0-

向右奔跑:@blackforever Python编写的爬虫

chengcxy:这个来做做餐馆分布地图不错

向右奔跑:哈哈，好主意

0b91e96f0824:求源代码ʘᴗʘ

我系哆啦:求源码学习，哈哈

504f9299acda:@向右奔跑 github地址有吗

向右奔跑:哈哈，等等我传到github上～

MJGA:会玩

向右奔跑:

40aa7ae8f48a:大兄弟，没用啊，是不是过时了。魔高一尺，道高一丈？
09a497871d88:新手初学，看了你的文章对我的帮助很大，len(pages)很好的提供了分页的思路。想请教下，如果菜品分类和地点的组合出来的网页不存在，该怎么处理呢？
喵鸢:try一下 except一下
夏树的宝马:大佬你说的下载延迟指的是啥，是每一段时间加一个类似 sleep的东西吗
Rflash7:兄弟，能给一份你爬取的评论吗？我爬取评论总是被封ip,实在是没办法，只爬取出了商店信息。
七月宋:最近也看中大众点评，想把店铺点评，跟推荐菜一起爬下来，做两个表，用店铺ID做关联。 spider里面可以做到返回两个itema,itemb, 在pipeline 里面根据返回item，存入两张表。不知这样的思路可以不？
小叮当_032a:@向右奔跑，为什么抓取的数据库相同的信息会有好多条？怎么限定每条不一样？还有想问问怎么在你的代码基础上抓取商户的评论信息？谢谢。
七月宋:最近也看中大众点评，想把店铺点评，跟推荐菜一起爬下来，做两个表，用店铺ID做关联。 spider里面可以做到返回两个itema,itemb, 在pipeline 里面根据返回item，存入两张表。不知这样的思路可以不？
小叮当_032a:好的

向右奔跑: @小叮当_032a 加我微信吧 yong164647
乌托邦的潜力:我比较想知道你这个每家店铺的全部点评是怎么爬下来的？
向右奔跑:@乌托邦的潜力是的，没有抓取点评的用户评论，是因为没有找到对所有评论的分析方法，抓取下来不知道怎么处理，要用到机器学习了。
乌托邦的潜力:@向右奔跑恩恩，是的，我看倒你分享的代码里面似乎没有获取点评的信息是吗？
向右奔跑:@乌托邦的潜力从列表页到每家店铺的点评页面，就能获取所有点评数据
DianeHuu:在浏览器看到你的文章才下载的简书。做美食相关工作，如果我想拖取某个城市中所有入驻大众点评的餐饮门店，是用这个方式对吧
向右奔跑:恩，是这么个弄法～
9a996ce6ed8d:请问用的抓包工具是什么啊
向右奔跑:@blackforever charles是抓包工具，编写的爬虫可以一次抓大量数据
9a996ce6ed8d:@向右奔跑用法和charles差不多吗-0-
向右奔跑:@blackforever Python编写的爬虫
chengcxy:这个来做做餐馆分布地图不错
向右奔跑:哈哈，好主意
0b91e96f0824:求源代码ʘᴗʘ
我系哆啦:求源码学习，哈哈
504f9299acda:@向右奔跑 github地址有吗
向右奔跑:哈哈，等等我传到github上～
MJGA:会玩
向右奔跑:

大众点评数据爬取

1. 先把分类和地点的基础数据抓取下来

2.组合出所有的URL，包括分页

3. 其他就是解析页面数据，写入数据库

吃货们，等着我的数据分析吧。

Github: https://github.com/ppy2790/dianpingshop

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据部落

程序员

今日看点

大数据爬虫Python AI Sql

随便

大众点评数据爬取

1. 先把分类和地点的基础数据抓取下来

2.组合出所有的URL，包括分页

3. 其他就是解析页面数据，写入数据库

吃货们，等着我的数据分析吧。

Github: https://github.com/ppy2790/dianpingshop

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据部落

程序员

今日看点

大数据 爬虫Python AI Sql

随便

大数据爬虫Python AI Sql