美文网首页
李沐-动手学深度学习(二-2)数据预处理

李沐-动手学深度学习(二-2)数据预处理

作者: minlover | 来源:发表于2022-04-07 13:47 被阅读0次

    【课后答疑】

    tensor张量是数学中定义的概念,数组array是计算机中的一个概念。深度学习里混着用的。

    新分配了y的内存,那么之前y的内存会自动释放吗?——python会给自动释放


    chapter_preliminaries/pandas.ipynb

    为了处理缺失的数据,典型的方法包括插值法删除法。其中插值法用一个替代值弥补缺失值,而删除法则直接忽略缺失值。

         NumRooms   Alley 

    0      NaN            Pave  

    1      2.0               NaN 

    2      4.0               NaN

    3      NaN            NaN

    插值法可以用fillna()函数,把这里面所有NA(缺失值)用指定的值替换掉,比如用均值:

    inputs = inputs.fillna(inputs.mean())

          NumRooms Alley

    0      3.0              Pave

    1      2.0               NaN

    2      4.0               NaN

    3      3.0               NaN

    某一列是string类型,没有均值,就不会变。这种也可以将其视NaN视为一个类。

    例如(“Alley”)列只有两种类型的值“Pave”和“NaN”, pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。

    inputs = pd.get_dummies(inputs, dummy_na=True)

            NumRooms   Alley_Pave   Alley_nan

    0      3.0                        1                        0

    1      2.0                        0                        1

    2      4.0                        0                        1

     3      3.0                        0                        1

    现在inputs和outputs中的所有条目都是数值类型,它们可以转换为张量格式。

    X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)

    X:(tensor([[3., 1., 0.],

            [2., 0., 1.],

            [4., 0., 1.],

            [3., 0., 1.]], dtype=torch.float64),

    y:tensor([127500, 106000, 178100, 140000]))

    传统的python一般默认浮点数为float64,但是64位浮点数对深度学习来说计算有点慢,通常用32位浮点数。


    课后:pandas删除缺失值最多的列

    # 方案一

    #统计每一列的NaN,找出最多的,按列删掉(data不变)

    data.drop(data.isnull().sum().idxmax(),axis=1)

    # 方案二

    #统计每一列非缺失值的个数,找出最小的,按列删掉,并替换原来的data(data变)

    data.drop(data.count(axis='index').idxmin(),axis=1,inplace=True)

    相关文章

      网友评论

          本文标题:李沐-动手学深度学习(二-2)数据预处理

          本文链接:https://www.haomeiwen.com/subject/gdirsrtx.html