给数据分析师的23个Pandas代码,可以帮助大家更好地理解数据!Pandas这是一个开源的,BSD许可的库,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具,一起了解一下。
基础数据集信息
1.读入 CSV 数据集,pd.DataFrame.from_csv(“csv_file”)
2.读入 Excel 数据集,pd.read_excel("excel_file")
3.直接把数据写入 CSV如数据以逗号分隔,且没有索引:df.to_csv("data.csv", sep=",", index=False)
4.基础数据集特征信息,df.info()
5.基础数据集统计结果print(df.describe())
6.以表格形式打印数据,print(tabulate(print_table, headers=headers))其中“print_table”是一列list,“headers”是一7.列字符串抬头,列出列名称,df.columns
基本数据处理
8.删除缺失的数据,df.dropna(axis=0, how='any'),返回给定轴上标签的对象,逐个丢掉相应数据。
9.替换丢失的数据,df.replace(to_replace=None, value=None)用“value”的值替换“to_replace”中给出的值。
10.检查 NAN,pd.isnull(object),检测缺失值(有数值数组中的NaN,对象数组中的None和NaN)
11.删除特征,df.drop('feature_variable_name', axis=1),轴为 0 代表行,1 代表列
12.将对象类型转换为 float,pd.to_numeric(df["feature_name"], errors='coerce'),将对象类型转换为数字型以便计算(如果它们是字符串的话)
13.将数据转换为 Numpy 数组,df.as_matrix()
14.获取数据的头“n”行,df.head(n)
15.按特征名称获取数据,df.loc[feature_name]
操作数据
16.将函数应用于数据,这个函数将数据里“height”一列中的所有值乘以2,df["height"].apply(lambda height: 2 height)或:def multiply(x): return x 2df["height"].apply(multiply) 17.重命名数据列,这里我们将数据的第3列重命名为“size” df.rename(columns = {df.columns[2]:'size'}, inplace=True)
18.单独提取某一列,这里我们单独得到“name”一列,df["name"].unique()
......
原文 :数据分析常用的23个代码
成都加米谷教育,专注于大数据人才培养,9月下旬数据分析与挖掘培训班新课正在火热咨询报名中,大数据开发新课咨询中,双节特惠,活动好礼可叠加使用!
网友评论