Dataset

作者: 阿凡提说AI | 来源:发表于2024-01-14 09:48 被阅读0次

几个常用的机器学习训练数据集（最全格式）
tensorflow tf.data使用笔记
毕业研究笔记3_机器学习公平性实验
Spark SQL（二）DataFrame和DataSet
无标题文章
四、Charts
Jasper画交叉表
R语言下的subset()函数
Structured Streaming中的Join
Stata Basic

在PyTorch中，torch.utils.data.Dataset是一个抽象类，用于表示数据集。它是一个可迭代对象，可以通过索引来访问数据集中的样本。

torch.utils.data.Dataset类是一个抽象类，需要用户自定义子类来实现自己的数据集。用户需要重写以下两个方法：

__len__(self)：返回数据集中样本的数量。
__getitem__(self, index)：根据索引index返回数据集中的一个样本。

通过继承torch.utils.data.Dataset类并实现上述两个方法，可以创建自定义的数据集类。这样，我们就可以使用PyTorch提供的数据加载器（如torch.utils.data.DataLoader）来加载和处理数据集。

以下是一个简单的示例，展示如何创建一个自定义的数据集类：

import torch
from torch.utils.data import Dataset

class MyDataset(Dataset):
    def __init__(self, data):
        self.data = data
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, index):
        sample = self.data[index]
        return sample

# 创建数据集对象
data = [1, 2, 3, 4, 5]
dataset = MyDataset(data)

# 使用数据加载器加载数据集
dataloader = torch.utils.data.DataLoader(dataset, batch_size=2, shuffle=True)

# 遍历数据集
for batch in dataloader:
    print(batch)

在上面的示例中，我们创建了一个名为MyDataset的自定义数据集类，其中的data参数是一个列表，表示数据集中的样本。我们重写了__len__方法和__getitem__方法来定义数据集的长度和获取样本的方式。

然后，我们使用torch.utils.data.DataLoader来加载数据集，并设置了批量大小为2，打乱数据集顺序。最后，我们通过遍历数据加载器来获取批量的样本数据。

通过使用torch.utils.data.Dataset抽象类，我们可以方便地创建自定义的数据集类，并使用PyTorch提供的数据加载器来加载和处理数据集。这样，我们可以更方便地进行数据预处理、批量处理和模型训练。