本文翻自Kaggle
往期回顾
您的数据集有太多变量,让您难以理解,甚至无法打印出来。怎样才能将这些庞大的数据缩减到你可以理解的程度呢?
我们将从凭直觉挑选几个变量开始。后面的课程将向你展示自动排列变量优先级的统计技术。
要选择变量/列,我们需要查看数据集中所有列的列表。这可以通过 DataFrame 的列属性来实现(下面最下面一行代码)
import pandas as pd
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns
选择数据子集的方法有很多。Pandas 课程更深入地介绍了这些方法,但我们现在将重点介绍两种方法。
点符号,我们用它来选择 "预测目标
使用列表选择,用于选择 "特征"。
网友评论