matplotlib数据可视化分析——知乎用户地区构成及关注行为

matplotlib数据可视化分析——知乎用户地区构成及关注行为

作者: 随风去吧zZ | 来源:发表于2018-04-23 21:31 被阅读0次

matplotlib数据可视化分析——知乎用户地区构成及关注行为
数据分析入门
EDA
学习数据分析，从了解数据模型开始
药品是真的贵！利用Python对药品销售进行数据分析！
基于pandas、matplotlib、pyecharts的人工
3. 通往机器学习用到的库
matplotlib学习笔记
与生物信息学相关的实用教程收集（持续更新）
可视化神器--Plotly

现有数据：

1.第六次人口普查各地常住人口
2.2017年知乎用户基本信息

分析目标:

1.知乎用户地区分布状况，筛选知友数量分布top20地区。
2.结合常住人口数据，统计出知友密度最高的top20地区。
3.根据关注情况，查看各大学校友相互关注的程度。

导入工具包，读取数据：

读取数据

知乎用户数据有缺失值需要清洗，另外 居住地 字段不包含“省”、“市”字样。这里留意，后面会提到。

知乎用户数据概览
人口普查数据中可以观察到，在各省份常住人口总和之后，紧跟着的是该省份各市人口的统计量。

人口普查数据概览

数据清洗、合并、标准化处理

定义函数data_cleaning(df)，对缺失数据填充，对于“object”类型字段填充“缺失数据”字样，其他类型一律填充0.

数据清洗函数
运行函数，清洗知乎数据data1，并查看结果：

数据清洗并查看
统计居住地字段值的个数，并查看前21条。

地区知友数
上图可以看到，第一行是缺失数据，可通过索引号[1：]剔除。由于该行代码是Series类型，可将其转化为Dataframe。
结合普查人口数据，可将两个表连接，以便矩阵计算求地区知友密度。需要注意的是，知友居住地字段是不含“省”“市”字样的，故需要对普查人口数据清洗后才可将两个表连接。
首先，对普查人口数据data2的地区字段进行两次字符替换，采用df[colunms].str.repalce(old,new,count)的方法，替换后的字段放入新增加了所在地列。

普查人口数据清洗
将两表通过地点连接，生成合并后的新列表merge

通过地点将两表连接
对知友数量、知友密度字段做标准化处理:

采用公式：标准化计算结果 = (X - Xmin) / (Xmax - Xmin)

设置自定义函数standard(df,col)，并返回一个新生成的标准化处理后的字段col_std。运行两次函数，并查看函数运行后的合并列表。

标准化处理
上图输出结果，index是数据编号，通过set_index()方法将所在地字段变为新的index，并查看结果。另外，将标准化处理后的两个字段按降序排列，并选取top20。

所在地变为index

图表绘制

为每个柱子上添加字符，该字符是保留两位小数后的对相应字段标准化处理后的结果。

图表绘制

1.png

关注者人数表示某校用户的个人粉丝数，关注人数表示某校用户所关注的人数。按照教育经历即用户所在学校名称分组，并对粉丝数和关注人数求和。然后按照"关注","关注者"两个字段降序，根据输出的结果将其中不合适的行删除。

image.png

drop删除不合适的行

画图：

点的大小用粉丝数量衡量，点越大，粉丝数越多。
颜色深浅表示关注人数的多寡。
红绿辅助线分别标出粉丝数和关注人数的平均数。

2.png

由上图可得出结论：浙大用户的粉丝数最多。武汉大学的用户关注他人最多，华中科技大、北大、浙大次之。

相关文章

matplotlib数据可视化分析——知乎用户地区构成及关注行为
现有数据： 1.第六次人口普查各地常住人口2.2017年知乎用户基本信息分析目标: 1.知乎用户地区分布状况，筛...
数据分析入门
数据分析 1.matplotlib折线图 matplotlib：最流行的Python底层绘图库，主要做数据可视化图...
EDA
常用数据分析库：数据：pandas,numpy,scipy 可视化：matplotlib,seaborn 1.数...
学习数据分析，从了解数据模型开始
数据分析的好处：可视化：用户行为可视化，可清晰的了解用户的行为。可追踪：通过一个时间段的数据对比，可一路追踪产...
药品是真的贵！利用Python对药品销售进行数据分析！
我们可以用Python中的numpy、pandas、matplotlib等包对数据进行可视化分析。一、数据分析的...
基于pandas、matplotlib、pyecharts的人工
pandas是python中的数据分析库，matplotlib、pyecharts是python中的数据可视化库。...
3. 通往机器学习用到的库
Numpy: 科学计算库Pandas：数据分析处理库Matplotlib：数据可视化库scikit-learn：机...
matplotlib学习笔记
数据分析-可视化工具matplotlib 一、数据分析的流程 ①提出问题：明确想干什么； ②准备数据：将数据取出，...
与生物信息学相关的实用教程收集（持续更新）
1 https://zhuanlan.zhihu.com/p/32967606 知乎基因共表达分析及可视化 2 h...
可视化神器--Plotly
数据分析离不开数据可视化。我们最常用的就是pandas，matplotlib，pyecharts当然还有Table...

网友评论

本文标题：matplotlib数据可视化分析——知乎用户地区构成及关注行为

本文链接：https://www.haomeiwen.com/subject/bhmklftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|matplotlib数据可视化分析——知乎用户地区构成及关注行为|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！