课程简介
本节将使用随机数生成函数自行构建婴儿名字数据框,并介绍基本的数据框处理方法。
数据来源 - 使用随机数生成函数自行创建婴儿的名字以及数量数据集。
数据准备 - 数据准备 - 从自行创建的数据集中读取所需数据,并进行缺失、异常数据的查看及处理。
分析目标 - 简单地找到在 1880 年最流行的名字。
数据可视化 - 通过表格数据和图表,清晰地展示分析结果。
首先导入 pandas 和 matplotlib 等相关库:

创建数据
假设数据集由 1000 个 1880 年出的生婴儿名字及人数构成,其中会存在大量重复项,也就是将会多次看到同一个婴儿名字出现。可以设想每个名字的多条项目,只是全国不同医院记录每个婴儿名字的数量,所以如果有两家医院记录婴儿的名字为"Bob",则这个数据集对于"BoB"会有两个值。下面就开始创建婴儿名字的随机数据集。

使用下面 5 个婴儿名字来制造 1000 个婴儿名字的随机列表:
生成0-4的随机数
我们将会使用方法 seed, randint, len, range, and zip.
方法使用说明:
seed(500) - 创建种子
randint(low=0,high=len(names)) - 生成0 到“names”列表的长度的随机整数
names[n] - 选择索引为 n 的 name
for i in range(n) - 循环直到 i 等于 n, 换言之1,2,3....n.
random_names = 从 names 列表选择随机名字,并且这样做 n 次.

生成0到1000的随机数

未完待续:课程内容较多,请复制链接通过电脑学习,获得最佳学习效果。 http://datacademy.io/lesson/154
更多课程和文章尽在微信号:「datartisan数据工匠」

网友评论