美文网首页程序员Python新世界码农的世界
趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

作者: Python新世界 | 来源:发表于2018-07-26 13:59 被阅读62次

    背景:

    老妈天天像催债一样催我娶媳妇,有没有对象呀,头都快秃完了,没对象赶紧回来相亲吧.....

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    都是乡里乡亲的,叫我怎么好意思相亲,每次都是简单的应付几句,最近无意中看到了一些相亲网的广告,我就动了心思,想着能不能把数据都用python爬虫获取下来,然后分析下,制造一些偶然。

    当然,对于纯粹的相亲,我还是很抵制的。下面记录一下这次抓取信息的过程。

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    欲爬取的网站:


    情人岛 python学习群.png

    欲抓取的数据:

    • 地区
    • 用户详细信息

    步骤:

    打开网页分析

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    这些空格都是我们要填写的对象信息,先提交一次查看网页的反应。

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    把完整的URL复制下来,可以看到是一个字符形式,从里面的那些参数的命名能够看得出来,需要提交的相关参数和受控制所对应的元素。

    这些就涉及到post的知识点了,不过都是些简单的东西罢了,我举个例子:

    网页上显示一个性别,那么我们填写男或者女,那么网页内的内容就是一个什么样的呢?同样有个标签代表着性别,例:sex = 性别

    ,同时还有男女各有一个标签,man = 1、women = 2,好了不多说了。

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    这些都是我们第一次操作可以从url中提取到的信息,然后再尝试能不能少提交某个参数得到其它不同的反馈,把ddl_Area删除得到修改后的URL,同样能够获取相关数据。

    测试一下翻页情况:

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    我们开始删除的东西并没有再次出现,然后多出了一个箭头指向的信息。

    接着再点到用户信息去查看我们具体的需要信息,观察URL变化,尝试能否获取有用信息。

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    点开几个用户,查看url后发现后面全是/数字.html,那么,我们返回到上一个页面,打开审查元素,相对应的四个数字,都在当前页面是否出现,以及出现的位置。

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    利用正则表达式写出来<a href="http://www.7rdao.com/user1/(d+).html" target="_blank"> ,一会写代码的时候再放进去验证效果!

    接着去用户页面看看需要用户的那些信息:

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    审查元素查看:

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    得到下图所示信息:

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    开始编写Python代码:

    趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

    代码大概就四十来行,自己照着敲试试,祝各位趁头发还在,早日找到自己的另一半!

    相关文章

      网友评论

        本文标题:趁头发还未掉光,记录一次利用Python抓取相亲网站的美女信息!

        本文链接:https://www.haomeiwen.com/subject/bpkbmftx.html