首先爬大众点评有两种方式
http://www.dianping.com/shop/14686875
直接爬店铺 大家一看这个uri 可能都明白了吧 直接一个for 循环 14686875
一般来说 一个商铺大概是三个url 初步估计应该是 330万的商家左右
(理想状态下)差不多会发1000w的请求
这个不需要登录但是对于我们这种小成本制作来说肯定是不行的
那怎么办呢
所以就有了第二种方式 先爬 搜索列表过滤 在爬详细信息 但是这种方式需要登录 不过问题不大,下面我来说一下这种方式
首先是登录那cookie
经测试 需要 _lxsdk_cuid _lxsdk _hc.v _hc.v最为重要 拿到之后就可以开始写了
然后是封禁策略 这也没啥好说的 就是ip加账号 账号就那几个 重点就是换ip 如果你请求的比较慢 其实换不换都无所谓 一个账号可以支撑10个线程 1个小时的爬取工作 到点之后需要滑动一下验证码 当然如果你是土豪 准备应cookie池当然是最好的 然后就是 _lxsdk_cuid _lxsdk 一直不变的的问题 清理一下 浏览器就好了
其实说白了 就那就是些常规的反爬措施
1.png
(url解析)
还有就是大众点评的css反扒 网上一大堆 我就不说了
网友评论