大众点评详情页电话的反爬对策

作者: raphah | 来源:发表于2018-08-10 17:24 被阅读132次

两天前大众点评详情页的电话一栏还是以明文数字的形式渲染到的html页面上,爬取也很简单,这里我用的是requests库和pyquery库对页面进行爬取和分析

import requests
from pyquery import PyQuery as pq

res = requests.get(theurl,headers=headers)
pqPrice = pq(res.text)
phone = pqPrice('#basic-info')('.expand-info.tel').text()

但是今天重新爬取时发现大众点评修改了策略

不使用明文号码,而是将每个数字变成span用样式显示成原来的数字,通过对比发现,1依旧使用明文,其他每个样式对应的数字如下,

num = {
    'fn-Xgcz': 0,
    'fn-OeNo': 2,
    'fn-dykL': 3,
    'fn-uRoy': 4,
    'fn-UQqq': 5,
    'fn-eKMG': 6,
    'fn-dyBl': 7,
    'fn-JaiW': 8,
    'fn-vbpK': 9
}

这样我们再多一步对比替换就可以重新获取到详情页中的电话

res = requests.get(theurl, headers=headers)
pqPrice = pq(res.text)
phone = str(pqPrice('#basic-info')('.expand-info.tel'))

a = phone.replace('   1', '<span class="fn-kong"/>')
b = a.replace('1', '<span class="1"/>')
c = pq(b)
tel = c('span').items()
number = ''
for i in tel:
  attr = i.attr('class')
  if attr in num:
    attr = num[attr]
  number += str(attr)
print(number)

最后得到的number就是原来的电话号码

相关文章

  • 大众点评详情页电话的反爬对策

    两天前大众点评详情页的电话一栏还是以明文数字的形式渲染到的html页面上,爬取也很简单,这里我用的是request...

  • SVG反爬

    SVG反爬即是映射反爬,通过不给你真实的编码来实现反爬的目的。比如大众点评的商家电话这些有价值的数据,网站 检查源...

  • 攻克大众点评商铺详情页反爬

    说明: 代理已经被修改,勿直接复制粘贴使用;代码使用pyspider框架写的,不懂的留言哦;反爬相对于上一个帖子的...

  • 大众点评还不会爬?跟着我,我教你!

    今天的文章是 关于如何使用requests来爬取大众点评的数据 。 看完本文,你可以: 1、了解大众点评的CSS反...

  • 学Python,大众点评还不会爬?跟着我,我教你

    今天的文章是关于如何使用requests来爬取大众点评的数据。 看完本文,你可以: 1、了解大众点评的CSS反爬虫...

  • 大众点评字体反爬

    可以看到字体是一个个的框,用了自定义的字体文件。 源码中是这样显示的: 字体文件下载到本地,安装FontCreat...

  • 关于大众点评的反爬技术

    被ban响应类型: 一、403forbidden二、响应码是200: 1.返回空的响应体,什么都没有2.返回一个静...

  • css字体通用反爬

    css字体反爬通用方案 在爬大众点评的时候 我们也许会遇到下面这种情况, 我们看到的信息明明是正确的,爬虫拿下来就...

  • python 采集大众点评(数字反爬)

    前言: 大众点评是一款非常受大众喜爱的第三方的美食相关的点评网站因此,该网站的数据也就非常具有价值,优惠,评价数量...

  • python采集大众点评(字体反爬)

    前言 大众点评是一款非常受大众喜爱的第三方的美食相关的点评网站因此,该网站的数据也就非常具有价值,优惠,评价数量,...

网友评论

  • crbhf:楼主,大众点评的地址信息怎么爬呀
    raphah:@crbhf 是指什么地址?店铺地址的话只要分析html代码就行了呀,一页是15个商家,我用的pyquery 进行的dom解析,挺方便的
  • 看五年前自己的文章真是唏嘘不已:我用代理ip爬大众点评详情页还是返回空给我怎么回事?
    raphah:@我想宿舍的瞄姬了 我之前没带是一直为空的,点评封的还是挺厉害的,人工操作频繁点详情页都会跳验证码,只能寄托于多ip多账号模拟登陆爬取了,单ip我1秒睡眠时间差不多1000页详情页就被封ip了,24后才解除
    看五年前自己的文章真是唏嘘不已:@raphah 我用的隐身窗口打开详情页,请求头没有cookies,再说带cookies对方反爬不是轻而易举吗?
    raphah:@我想宿舍的瞄姬了 带cookie了嘛

本文标题:大众点评详情页电话的反爬对策

本文链接:https://www.haomeiwen.com/subject/zjdlbftx.html