美文网首页
Task04 模型训练与验证

Task04 模型训练与验证

作者: 天秤座的机器狗 | 来源:发表于2020-05-31 19:09 被阅读0次

    一、模型训练与验证的流程

    1 、在训练集上进行训练,在验证集上进行验证
    2 、模型可以保存最优的权重,并读取权重
    3 、记录下训练集和验证集的精度,便于调参

    二、训练集、验证集和测试集

    训练集(trainning set):用于模型训练和调整模型参数
    验证集(validation set):用于验证模型精度和调整模型超参数
    测试集(test set):验证模型的泛化能力

    三、验证集的划分方式

    1.留出法(Hold out)

    直接将训练集化为两个部分,新的训练集和验证集。这种划分方式的优点是最为简单;缺点是只得到一份验证集,有可能导致模型在验证集上过拟合。留出法的应用场景是数据量比较大的情况。

    2.交叉验证法(Cross Validation)

    将训练集划分成K份,将其中的K-1份作为训练集,剩下的一份作为验证集,循环K次。这种方法的优点是验证集的精度比较高,训练K次可以得到的K个有多样性的差异的模型;交叉验证的缺点是需要训练K次,不适合数据量很大的情况。

    3.自助采样法(BootStrap)

    在原始样本集中有放回的随机采样n次,构成与原始样本集一样大小的训练集(包含n个样本)。根据概率,约36.8%的样本没有被采到,另外60%多的样本有很多被重复采到。这样可以使用采出来的大小为n且包含重复样本的集合为训练集,剩下约36.8%的样本当测试集。
    这种方式一般适用于数据量较小的情况。

    四、解析代码

    先看一下这个task的代码

    def train(train_loader, model, criterion, optimizer):
           # 切换模型为训练模式
            model.train()
            train_loss = []
     
            for i, (input, target) in enumerate(train_loader):
                if use_cuda:
                    input = input.cuda()
                    target = target.cuda()
     
                c0, c1, c2, c3, c4 = model(input)
                target = target.long() 
                loss = criterion(c0, target[:, 0]) + \
                       criterion(c1, target[:, 1]) + \
                       criterion(c2, target[:, 2]) + \
                       criterion(c3, target[:, 3]) + \
                       criterion(c4, target[:, 4])
     
                # loss /= 6
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
     
                if i % 100 == 0:
                   print(loss.item())
     
                train_loss.append(loss.item())
            return np.mean(train_loss)
    def validate(val_loader, model, criterion):
           # 切换模型为预测模型
            model.eval()
            val_loss = []
            # 不记录模型梯度信息
            with torch.no_grad():
                 for i, (input, target) in enumerate(val_loader):
                        if use_cuda:
                            input = input.cuda()
                            target = target.cuda()
     
                        c0, c1, c2, c3, c4 = model(input)
                        target = target.long()
                        loss = criterion(c0, target[:, 0]) + \
                               criterion(c1, target[:, 1]) + \
                               criterion(c2, target[:, 2]) + \
                               criterion(c3, target[:, 3]) + \
                               criterion(c4, target[:, 4])
                               # loss /= 6
                        val_loss.append(loss.item())
            return np.mean(val_loss)
    def predict(test_loader, model, tta=10):
            model.eval()
            test_pred_tta = None
     
            # TTA 次数
            for _ in range(tta):
                test_pred = []
     
                with torch.no_grad():
                    for i, (input, target) in enumerate(test_loader):
                        if use_cuda:
                            input = input.cuda()
                        c0, c1, c2, c3, c4 = model(input)
                       
                        output = np.concatenate([
                                 c0.data.numpy(),
                                 c1.data.numpy(),
                                 c2.data.numpy(),
                                 c3.data.numpy(),
                                 c4.data.numpy()], axis=1)
                        test_pred.append(output)
     
                    test_pred = np.vstack(test_pred)
                    if test_pred_tta is None:
                        test_pred_tta = test_pred
                    else:
                        test_pred_tta += test_pred
     
            return test_pred_tta
    
    model = SVHN_Model1()
    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.parameters(), 0.001)
    best_loss = 1000.0
    use_cuda = False
    if use_cuda:
        model = model.cuda()
    for epoch in range(2):
        train_loss = train(train_loader, model, criterion, optimizer)
        val_loss = validate(val_loader, model, criterion)
     
        val_label = [''.join(map(str, x)) for x in val_loader.dataset.img_label]
        val_predict_label = predict(val_loader, model, 1)
        val_predict_label = np.vstack([
                            val_predict_label[:, :11].argmax(1),
                            val_predict_label[:, 11:22].argmax(1),
                            val_predict_label[:, 22:33].argmax(1),
                            val_predict_label[:, 33:44].argmax(1),
                            val_predict_label[:, 44:55].argmax(1),
                            ]).T
        val_label_pred = []
        for x in val_predict_label:
            val_label_pred.append(''.join(map(str, x[x!=10])))
     
        val_char_acc = np.mean(np.array(val_label_pred) == np.array(val_label))
        print('Epoch: {0}, Train loss: {1} \t Val loss: {2}'.format(epoch, train_loss, val_loss))
        print(val_char_acc)
        # 记录下验证集精度
        if val_loss < best_loss:
            best_loss = val_loss
            torch.save(model.state_dict(), './model.pt')
    
    

    1.第一部分的代码

    model = SVHN_Model1()
    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.parameters(), 0.001)
    best_loss = 1000.0
    use_cuda = False
    if use_cuda:
        model = model.cuda()
    for epoch in range(2):
        train_loss = train(train_loader, model, criterion, optimizer)
        val_loss = validate(val_loader, model, criterion)
     
        val_label = [''.join(map(str, x)) for x in val_loader.dataset.img_label]
        val_predict_label = predict(val_loader, model, 1)
        val_predict_label = np.vstack([
                            val_predict_label[:, :11].argmax(1),
                            val_predict_label[:, 11:22].argmax(1),
                            val_predict_label[:, 22:33].argmax(1),
                            val_predict_label[:, 33:44].argmax(1),
                            val_predict_label[:, 44:55].argmax(1),
                            ]).T
        val_label_pred = []
        for x in val_predict_label:
            val_label_pred.append(''.join(map(str, x[x!=10])))
     
        val_char_acc = np.mean(np.array(val_label_pred) == np.array(val_label))
        print('Epoch: {0}, Train loss: {1} \t Val loss: {2}'.format(epoch, train_loss, val_loss))
        print(val_char_acc)
        # 记录下验证集精度
        if val_loss < best_loss:
            best_loss = val_loss
            torch.save(model.state_dict(), './model.pt')
    

    (1)理解一下CrossEntropyLoss
    baseline中将CrossEntropyLoss作为损失函数。损失函数结合了NLLLoss和LogSoftmax两个函数。这个损失函数的具体详细解释后续再说吧。
    (2)optimizer
    这里是选择adam作为优化器
    (3)初始设定best_loss为1000

    二、第二部分代码

    这里看一下每个epoch具体做了什么

    def train(train_loader, model, criterion, optimizer):
           # 切换模型为训练模式
            model.train()
            train_loss = []
     
            for i, (input, target) in enumerate(train_loader):
                if use_cuda:
                    input = input.cuda()
                    target = target.cuda()
     
                c0, c1, c2, c3, c4 = model(input)
                target = target.long() 
                loss = criterion(c0, target[:, 0]) + \
                       criterion(c1, target[:, 1]) + \
                       criterion(c2, target[:, 2]) + \
                       criterion(c3, target[:, 3]) + \
                       criterion(c4, target[:, 4])
     
                # loss /= 6
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
     
                if i % 100 == 0:
                   print(loss.item())
     
                train_loss.append(loss.item())
            return np.mean(train_loss)
    

    简单理解一下:
    (1)

    for i, (input, target) in enumerate(train_loader):
    

    得到每张图片的input和对应的target的tensor
    (2)

                c0, c1, c2, c3, c4 = model(input)
                target = target.long() 
                loss = criterion(c0, target[:, 0]) + \
                       criterion(c1, target[:, 1]) + \
                       criterion(c2, target[:, 2]) + \
                       criterion(c3, target[:, 3]) + \
                       criterion(c4, target[:, 4])
    

    将input输入到model,然后通过target根据损失函数计算loss
    (3)

                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
    

    optimizer.zero_grad()先手动将梯度清零
    loss.backward():反向传播求解梯度
    optimizer.step():更新权重参数
    (4)
    最后计算所有的图片得到的loss的均值

    三、第三部分代码

    def validate(val_loader, model, criterion):
           # 切换模型为预测模型
            model.eval()
            val_loss = []
            # 不记录模型梯度信息
            with torch.no_grad():
                 for i, (input, target) in enumerate(val_loader):
                        if use_cuda:
                            input = input.cuda()
                            target = target.cuda()
     
                        c0, c1, c2, c3, c4 = model(input)
                        target = target.long()
                        loss = criterion(c0, target[:, 0]) + \
                               criterion(c1, target[:, 1]) + \
                               criterion(c2, target[:, 2]) + \
                               criterion(c3, target[:, 3]) + \
                               criterion(c4, target[:, 4])
                               # loss /= 6
                        val_loss.append(loss.item())
            return np.mean(val_loss)
    

    注意一下这里使用了一个with torch.no_grad(),表示这里的数据不需要计算梯度,也不会进行反向传播
    很显然,这里是验证集,当然不需要

    相关文章

      网友评论

          本文标题:Task04 模型训练与验证

          本文链接:https://www.haomeiwen.com/subject/fshrzhtx.html