微信图片_20211020172855.jpg
1、读入 CSV 数据集
pd.DataFrame.from_csv(“csv_file”)
#或者
pd.read_csv(“csv_file”)
2、读入 Excel 数据集
pd.read_excel("excel_file")
3、直接把数据写入 CSV
#如数据以逗号分隔,且没有索引:
df.to_csv("data.csv", sep=",", index=False)
4、基础数据集特征信息
df.info()
5、基础数据集统计结果
df.describe()
6、以表格形式打印数据
#其中“print_table”是一列list,“headers”是一列字符串抬头
print(tabulate(print_table, headers=headers))
7、列出列名称
df.columns
8、删除缺失的数据
#返回给定轴上标签的对象,逐个丢掉相应数据。
#how:筛选方式。‘any’,表示该行/列只要有一个以上的空值,就删除该行/列;‘all’,表示该行/列全部都为空值,就删除该行/列。默认为'any'
df.dropna(axis=0, how='any')
9、替换丢失的数据
#用“value”的值替换“to_replace”中给出的值。
df.replace(to_replace=None, value=None)
10、检查 NAN
#检测缺失值(有数值数组中的NaN,对象数组中的None和NaN)
pd.isnull(object)
11、删除特征
#轴为 0 代表行,1 代表列
df.drop('feature_variable_name', axis=1)
12、将对象类型转换为 float
#将对象类型转换为数字型以便计算(前提是字符串格式)
pd.to_numeric(df["feature_name"], errors='coerce')
13、将数据转换为 Numpy 数组
df.as_matrix()
14、获取数据的头“n”行
# n直接填写数字
df.head(n)
15、按特征名称获取数据
df.loc[feature_name]
16、将函数应用于数据
#这个函数将数据里“height”一列中的所有值乘以2
df["height"].apply(*lambda* height: 2 * height)
# 或者
def multiply(x):
return x * 2
df["height"].apply(multiply)
17、重命名数据列
#这里我们将数据的第3列重命名为“size”
df.rename(columns = {df.columns[2]:'size'}, inplace=True)
18、单独提取某一列
df["name"].unique()
19、访问子数据
#我们从数据中选择“name”和“size”两列
new_df = df[["name", "size"]]
20、总结数据信息
#数据之和
df.sum()
#数据中的最小值
df.min()
#数据中的最大值
df.max()
#最小值的索引
df.idxmin()
#最大值的索引
df.idxmax()
#数据统计信息,有四分位数,中位数等
df.describe()
#平均值
df.mean()
#中位数值
df.median()
21、对数据进行排序
df.sort_values(ascending = False)
22、布尔索引
#这里我们过滤“size”的数据列,以显示等于5的值:
df[df["size"] == 5]
23、选择某值
#选择“size”列的第一行:
df.loc([0], ['size'])
网友评论