美文网首页
李沐-动手学深度学习(二-2)数据预处理

李沐-动手学深度学习(二-2)数据预处理

作者: minlover | 来源:发表于2022-04-07 13:47 被阅读0次

【课后答疑】

tensor张量是数学中定义的概念,数组array是计算机中的一个概念。深度学习里混着用的。

新分配了y的内存,那么之前y的内存会自动释放吗?——python会给自动释放


chapter_preliminaries/pandas.ipynb

为了处理缺失的数据,典型的方法包括插值法删除法。其中插值法用一个替代值弥补缺失值,而删除法则直接忽略缺失值。

     NumRooms   Alley 

0      NaN            Pave  

1      2.0               NaN 

2      4.0               NaN

3      NaN            NaN

插值法可以用fillna()函数,把这里面所有NA(缺失值)用指定的值替换掉,比如用均值:

inputs = inputs.fillna(inputs.mean())

      NumRooms Alley

0      3.0              Pave

1      2.0               NaN

2      4.0               NaN

3      3.0               NaN

某一列是string类型,没有均值,就不会变。这种也可以将其视NaN视为一个类。

例如(“Alley”)列只有两种类型的值“Pave”和“NaN”, pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。

inputs = pd.get_dummies(inputs, dummy_na=True)

        NumRooms   Alley_Pave   Alley_nan

0      3.0                        1                        0

1      2.0                        0                        1

2      4.0                        0                        1

 3      3.0                        0                        1

现在inputs和outputs中的所有条目都是数值类型,它们可以转换为张量格式。

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)

X:(tensor([[3., 1., 0.],

        [2., 0., 1.],

        [4., 0., 1.],

        [3., 0., 1.]], dtype=torch.float64),

y:tensor([127500, 106000, 178100, 140000]))

传统的python一般默认浮点数为float64,但是64位浮点数对深度学习来说计算有点慢,通常用32位浮点数。


课后:pandas删除缺失值最多的列

# 方案一

#统计每一列的NaN,找出最多的,按列删掉(data不变)

data.drop(data.isnull().sum().idxmax(),axis=1)

# 方案二

#统计每一列非缺失值的个数,找出最小的,按列删掉,并替换原来的data(data变)

data.drop(data.count(axis='index').idxmin(),axis=1,inplace=True)

相关文章

  • 李沐-动手学深度学习(二-2)数据预处理

    【课后答疑】 tensor张量是数学中定义的概念,数组array是计算机中的一个概念。深度学习里混着用的。 新分配...

  • 2022-02-15

    《动手学深度学习》环境搭建教程指南—windows10系统 本文在李沐博士的《动手学深度学习》 — 动手学深度学习...

  • 李沐-动手学深度学习(二-1)数据操作

    1、n维数组 N维数组(也称为张量tensor)是机器学习和神经网络的主要数据结构。 2维:例如图中,三个样本,每...

  • 线性回归的实现

    选自 李沐 《动手学深度学习》 第三章。 3.3 线性回归的简洁实现 随着深度学习框架的发展,开发深度学习应用变得...

  • 图像分类

    李沐 《动手学深度学习》 第三章 读取数据 定义和初始化模型 初始化参数 也可以通过 name paramter ...

  • 机器翻译学习总结

    1.李沐《动手学深度学习》pytorch版-机器翻译https://github.com/ShusenTang/D...

  • 动手学深度学习(一)——线性回归(gluon)

    文章作者:Tyan博客:noahsnail.com | CSDN | 简书 注:本文为李沐大神的《动手学深度学习》...

  • 计算机视觉中的深度学习

    教材选用《动手学深度学习》,李沐等著; 图像增⼴ 图像增⼴(image augmentation)技术通过对训练图...

  • 卷积神经网络知识学习笔记

    教材选用《动手学深度学习》,李沐等著; 卷积神经网络(CNN)是含有卷积层(convolutional layer...

  • 自然语言处理中的深度学习

    教材选用《动手学深度学习》,李沐等著; 词嵌⼊(word2vec) ⾃然语⾔是⼀套⽤来表达含义的复杂系统。把词映射...

网友评论

      本文标题:李沐-动手学深度学习(二-2)数据预处理

      本文链接:https://www.haomeiwen.com/subject/gdirsrtx.html