李沐-动手学深度学习（二-2）数据预处理

作者: minlover | 来源:发表于2022-04-07 13:47 被阅读0次

李沐-动手学深度学习（二-2）数据预处理
2022-02-15
李沐-动手学深度学习（二-1）数据操作
线性回归的实现
图像分类
机器翻译学习总结
动手学深度学习(一)——线性回归(gluon)
计算机视觉中的深度学习
卷积神经网络知识学习笔记
自然语言处理中的深度学习

【课后答疑】

tensor张量是数学中定义的概念，数组array是计算机中的一个概念。深度学习里混着用的。

新分配了y的内存，那么之前y的内存会自动释放吗？——python会给自动释放

chapter_preliminaries/pandas.ipynb

为了处理缺失的数据，典型的方法包括插值法和删除法。其中插值法用一个替代值弥补缺失值，而删除法则直接忽略缺失值。

NumRooms Alley

0 NaN Pave

1 2.0 NaN

2 4.0 NaN

3 NaN NaN

插值法可以用fillna()函数，把这里面所有NA（缺失值）用指定的值替换掉，比如用均值：

inputs = inputs.fillna(inputs.mean())

NumRooms Alley

0 3.0             Pave

1 2.0              NaN

2 4.0              NaN

3 3.0              NaN

某一列是string类型，没有均值，就不会变。这种也可以将其视NaN视为一个类。

例如（“Alley”）列只有两种类型的值“Pave”和“NaN”， pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。

inputs = pd.get_dummies(inputs, dummy_na=True)

   NumRooms Alley_Pave Alley_nan

0 3.0       1       0

1 2.0     0       1

2 4.0       0     1

3 3.0       0       1

现在inputs和outputs中的所有条目都是数值类型，它们可以转换为张量格式。

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)

X：(tensor([[3., 1., 0.],

[2., 0., 1.],

[4., 0., 1.],

[3., 0., 1.]], dtype=torch.float64),

y：tensor([127500, 106000, 178100, 140000]))

传统的python一般默认浮点数为float64，但是64位浮点数对深度学习来说计算有点慢，通常用32位浮点数。

课后：pandas删除缺失值最多的列

# 方案一

#统计每一列的NaN，找出最多的，按列删掉（data不变）

data.drop(data.isnull().sum().idxmax(),axis=1)

# 方案二

#统计每一列非缺失值的个数，找出最小的，按列删掉，并替换原来的data（data变）

data.drop(data.count(axis='index').idxmin(),axis=1,inplace=True)