美文网首页python热爱者码农的世界Python新世界
利用Python获取一批征信黑名单信息, 没想到同事竟然欠了几十

利用Python获取一批征信黑名单信息, 没想到同事竟然欠了几十

作者: Python新世界 | 来源:发表于2018-08-17 13:40 被阅读66次
image
  • 踩点

网信贷黑名单网站截图:

image

真实数据截图:

image

我这里想爬取这些个人的信息,但是有些内容是需要登陆才可以查看的,所以先去注册了一个账号。

登陆进来后得到的内容是完整的:

image

(PS:这里就不激活邮箱了)

  • 结构分析&代码编写
image

这些被黑名单的人信息是首页点入进去的,对比下:

image image

点开后的链接是:/blacklist-jgp94CtrsB.html

相信大家一眼就看出来了规律吧,显示的HTML代码中有链接特征。

根据链接的规则我们可以写出这样一段python代码:

image

现在我要获取的是“姓名、身份证、手机号、微信、支付宝”,这里我使用的是XPATH来获取这些数据,因为这样更简单一些。

大概的来了解下XPATH的语法吧:

image

这里完全可以使用更快速的方法:

image

直接使用Firebug或者其它浏览器的Copy XPath:

image

得到的XPath语法:

/html/body/div[2]/div/div/h2

我们要获取的名字是h2标签内的所以直接修改成:

/html/body/div[2]/div/div/h2/text()

直接上Python代码:

image

注:from lxml import etree 是支持XPath语法的库)

可以看到输出的结果是unicode编码 ,直接解码就显示了:

image

其他的XPath代码:

image image

这里要记得加上登陆的Cookie去访问哦:

1.在控制台输入document.cookie获取Cookie

image

2.带上Cookie请求访问

geturl = requests.get(url,headers={'Cookie':'__cfduid=d8b7bef3c3b678161d9fe747ccb651cea1499931877; PHPSESSID=mp6oh6j7o03hqd42n06r9p2bii; AJSTAT_ok_pages=5; AJSTAT_ok_times=1; _ga=GA1.2.1572452184.1499931870; _gid=GA1.2.2100292624.1499931870'})

image
  • 最后

核心的代码都写好了,其他的就是结构的梳理,完善代码:

image

相关文章

网友评论

    本文标题:利用Python获取一批征信黑名单信息, 没想到同事竟然欠了几十

    本文链接:https://www.haomeiwen.com/subject/lawzbftx.html