爬了一个相亲网站的数据能干点啥？

作者: 竹廿金 | 来源:发表于2020-04-14 02:41 被阅读0次

爬了一个相亲网站的数据能干点啥？
CrawlSpider爬取某相亲网站数据
手把手教你搭建windows全栈开发环境
姑娘，你受累了
Scrapy 学习笔记 -- 解决分页爬取的问题
强大的爬虫利器scrapy（介绍与安装）！
能干点啥干点啥
退休了干点啥
Python 学习——每天写点小东西-6
Scrapy爬取数据初识

记一次无聊的画图练习。

最近，同学的弟弟开始被相亲了。被，这个字挺好，很好的诠释了他当前的处境吧，用在当年的我的身上，也许也行得通。

周末，和同学唠了会儿家常后一直坐在电脑前发呆。为什么不能主动，一定要被动呢？这个问题是我同学耿耿于怀的，谁让家里大事小事都要她操心呢！

我也是好奇，或者说是感同身受，一直憋着一股劲，想要替同学弟弟干一件主动的事。当然，身体还是很诚实的，只做自己的事。之后，一个相亲网站就被我爬了。也没什么特别会让人张针眼的信息，就几个字段。而且也不出所料的男多女少。瞅着这些，能干点啥呢？

要不，看看那些竞争者们的情况，比如身高、收入、学历。

Environment

·python 3.7.4

·jupyter notebook

导入数据

很简单的那么几列，我也就这点本事。

目标

我们这些小城市的三无老青年，只所以被逼婚被相亲，终其原因就是‘贫’。如果富的话，爸妈肯定是另外一套说辞，什么‘小心被女人骗’，你爱什么时候交，交几个都不会管。所以，就挖挖，我们这些老青年处在哪个阶层吧。身高真的还可以吗？这个年纪的收入一般会有多少？大部分的人学历都是怎么样的？从中挖出一点比自己改变的动力。

数据情况

本数据有11个字段，对本次瞎扯有意义的是性别、身高、教育水平、出生年份、薪水和省份。因为数据量并不大，城市暂不做考虑。为了规避隐私，我上图会将id和用户名遮掩。从严格上面讲，本数据会由于填写信息的人的不同目的而导致数据失真，本文纯当练手。

data.info()之后没有发现缺失值

第一图

想了解不同省份的身高差异，是不是正如刻板印象中的南矮北高。用箱线图的形式表现出来，直观展现各个省份男女平均身高，身高中位数的差异。

需要的数据男（女)：各省男（女）身高平均数（以此进行排序）。

1，查看身高数据中的空值和异常值，并剔除==>data1

2，筛选出男（女）数据，添加一列平均身高，数据为各省男（女）身高平均值==>data1

3，筛选出data1的省份，身高，平均身高做图数据==>data2

4, 画图

剔除异常

查看身高汇总之后，发现有填0的，有填1米的，1.4米，2.5米的也有。成年人，如果不是有特殊疾病的话也该都不会太矮或太高。剔除身高小于150和高于220的人。身高太高和太矮会对平均值造成影响。

data1=data[(data['身高']>=150) & (data['身高']<=220)]

接着还有对省份的检查

筛选出男（女）数据，计算身高平均值

然后将平均值关联到data1中。并筛选出省份、升高、平均升高字段。

接着，就可以画图了。使用matplotlib，一个比较复杂的包。

得出了这么个图。用平均值做了排序。从图中可以看出，广西、贵州平均值都是小于1.7米，中位数也刚好1.7米。看样子那里的人多数是不高的。但广西最高最矮的身高差挺大，难道是外来人口也比较多？广西，我只去过玉林，满街的狗肉摊。从图中看，浙江得平均值稍低于全国平均。实际计算全国也是172.91，浙江的数字在上上图中有显示。

此刻，值得欣慰的是，大众脸，大众名，大众身高。

重新查看了下各省的样本数，发现很很多省的用户数量是小于1000的。还是重点比一下人数上千的省份的中位数吧。

(data1[data1['性别']=='男'].pivot_table('用户id',index=['省份份'],aggfunc='count')>1000).iloc[1:,]

同透析表把人数多于1000的身份找出来。

计算出中位数，并把它添加到表中，对象名data3_men_1