本章内容包括: 填充、去空、重复值
导入数据
//input1
import pandas as pd
import numpy as np
position = pd.read_csv('DataAnalystAll_utf.csv',encoding='utf')
position.head()
//output1
positionId city companyId firstType secondType education industryField positionAdvantage positionName positionLables salary workYear
0 2537336 上海 8581 技术 数据开发 硕士 移动互联网 知名平台 数据分析师 ['分析师', '数据分析', '数据挖掘', '数据'] 7k-9k 应届毕业生
1 2427485 上海 23177 技术 数据开发 本科 金融 挑战机会,团队好,与大牛合作,工作环境好 数据分析师-CR2017-SH2909 ['分析师', '数据分析', '数据挖掘', '数据'] 10k-15k 应届毕业生
2 2511252 上海 57561 设计 数据分析 本科 移动互联网 时间自由,领导nic 数据分析师 ['分析师', '数据分析', '数据'] 4k-6k 应届毕业生
3 2427530 上海 7502 市场与销售 数据分析 本科 企业服务,数据服务 五险一金 绩效奖金 带薪年假 节日福利 大数据业务分析师【数云校招】 ['商业', '分析师', '大数据', '数据'] 6k-8k 应届毕业生
4 2245819 上海 130876 技术 软件开发 本科 其他 在大牛下指导 BI开发/数据分析师 ['分析师', '数据分析', '数据', 'BI'] 2k-3k 应届毕业生
//input2
position.loc[position.city == '上海','city'] = np.NaN
position.head()
//output2
positionId city companyId firstType secondType education industryField positionAdvantage positionName positionLables salary workYear
979 2441296 深圳 385 技术 数据开发 本科 数据服务 风口行业,完善培养体系,无限成长空间 数据分析师(2017届校招) ['分析师', '数据分析', '数据挖掘', '数据'] 10k-20k 应届毕业生
980 2210020 深圳 44982 金融 风控 本科 金融 发展前景好+薪酬福利丰富+办公环境舒适 风险数据分析 ['数据分析', '数据'] 6k-10k 应届毕业生
981 1259338 深圳 16797 技术 高端技术职位 博士 移动互联网 朝阳产业,股票期权 数据科学家 ['数据'] 30k-40k 应届毕业生
982 689580 深圳 33807 运营 运营 不限 移动互联网,数据服务 自由 欢乐 创新 晋升 福利 发展 数据专员 ['数据'] 3k-4k 应届毕业生
983 2441276 深圳 385 技术 后端开发 本科 数据服务 风口行业,完善培养体系,无限成长空间 大数据采集工程师(2017届校招) ['大数据', '数据'] 8k-12k 应届毕业生
//input3
position = position.dropna()
position.head()
//output3
positionId city companyId firstType secondType education industryField positionAdvantage positionName positionLables salary workYear
979 2441296 深圳 385 技术 数据开发 本科 数据服务 风口行业,完善培养体系,无限成长空间 数据分析师(2017届校招) ['分析师', '数据分析', '数据挖掘', '数据'] 10k-20k 应届毕业生
980 2210020 深圳 44982 金融 风控 本科 金融 发展前景好+薪酬福利丰富+办公环境舒适 风险数据分析 ['数据分析', '数据'] 6k-10k 应届毕业生
981 1259338 深圳 16797 技术 高端技术职位 博士 移动互联网 朝阳产业,股票期权 数据科学家 ['数据'] 30k-40k 应届毕业生
982 689580 深圳 33807 运营 运营 不限 移动互联网,数据服务 自由 欢乐 创新 晋升 福利 发展 数据专员 ['数据'] 3k-4k 应届毕业生
983 2441276 深圳 385 技术 后端开发 本科 数据服务 风口行业,完善培养体系,无限成长空间 大数据采集工程师(2017届校招) ['大数据', '数据'] 8k-12k 应届毕业生
//input4
s = pd.Series([1,1,2,2,2])
s
//output4
0 1
1 1
2 2
3 2
4 2
dtype: int64
//input5
s[~s.duplicated()]
//output5
0 1
2 2
dtype: int64
//input5
s=s.drop_duplicates()
s
//output5
0 1
2 2
dtype: int64
网友评论