【课后答疑】
tensor张量是数学中定义的概念,数组array是计算机中的一个概念。深度学习里混着用的。
新分配了y的内存,那么之前y的内存会自动释放吗?——python会给自动释放
chapter_preliminaries/pandas.ipynb
为了处理缺失的数据,典型的方法包括插值法和删除法。其中插值法用一个替代值弥补缺失值,而删除法则直接忽略缺失值。
NumRooms Alley
0 NaN Pave
1 2.0 NaN
2 4.0 NaN
3 NaN NaN
插值法可以用fillna()函数,把这里面所有NA(缺失值)用指定的值替换掉,比如用均值:
inputs = inputs.fillna(inputs.mean())
NumRooms Alley
0 3.0 Pave
1 2.0 NaN
2 4.0 NaN
3 3.0 NaN
某一列是string类型,没有均值,就不会变。这种也可以将其视NaN视为一个类。
例如(“Alley”)列只有两种类型的值“Pave”和“NaN”, pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。
inputs = pd.get_dummies(inputs, dummy_na=True)
NumRooms Alley_Pave Alley_nan
0 3.0 1 0
1 2.0 0 1
2 4.0 0 1
3 3.0 0 1
现在inputs和outputs中的所有条目都是数值类型,它们可以转换为张量格式。
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X:(tensor([[3., 1., 0.],
[2., 0., 1.],
[4., 0., 1.],
[3., 0., 1.]], dtype=torch.float64),
y:tensor([127500, 106000, 178100, 140000]))
传统的python一般默认浮点数为float64,但是64位浮点数对深度学习来说计算有点慢,通常用32位浮点数。
课后:pandas删除缺失值最多的列
# 方案一
#统计每一列的NaN,找出最多的,按列删掉(data不变)
data.drop(data.isnull().sum().idxmax(),axis=1)
# 方案二
#统计每一列非缺失值的个数,找出最小的,按列删掉,并替换原来的data(data变)
data.drop(data.count(axis='index').idxmin(),axis=1,inplace=True)
网友评论