美文网首页初见CV算法毕业设计
毕业设计:基于CNN的图像分类算法

毕业设计:基于CNN的图像分类算法

作者: 跌跌撞撞小红豆 | 来源:发表于2020-02-10 22:18 被阅读0次

    近年来人工智能越来越火,好像本科毕设不搞人工智能都很丢人似的。但是普通本科生对于这个领域的了解显然很少,基本也就是做做数据搜集、数据标注、工程实现、调调参的工作。

    不过这也不错,可以为以后硕士深造埋下伏笔,创造兴趣,打好基础。所以如果不读硕的同学建议不要选这方面的题目。

    这次我介绍的毕设题目是:基于卷积神经网络的图像分类算法的工程实现。先说一下电脑配置和环境依赖版本。

    联想T480
    8G内存
    2G显存
    MX150显卡(支持GPU加速)
    torch 1.3.1
    cuda 10.2
    

    我们首先选择LeNet-5这个卷积神经网络的鼻祖来当做baseline。该网络发表于1998年,当年广泛应用于美国银行的数字识别。

    当我们跑模型的时候,首先要选择一个简单并通用的网络来当做baseline,即知道这个问题的下限在哪里。这样方便以后我们选择更复杂更通用的模型来持续优化效果。

    数据集是这样的。近五千张船舶图片。船舶种类丰富,包括帆船、渔船、木舟、游轮、货船、工作船、军舰等。拍摄角度包括航拍、红外图像、可见光图像、船上拍摄、船舶加海天背景等。其中军舰图像占50%,其他图像占50%。该毕设问题即解决,区分军舰和其他船舶的问题。

    图像大致如下:

    others.4.jpg others.604.jpg warship.214.jpg transport.21.jpg working.23.jpg small.378.jpg

    这是个二分类的问题。

    接下来介绍LeNet-5的网络结构,如图。

    LeNet-5

    这里先介绍一个公式:

    N = (W - F + 2P)/ S   +  1
    W 输入矩阵大小
    F  卷积层、池化层的核大小
    P  填充大小
    S  移动步长
    N  输出矩阵大小
    

    先贴上该网络的pytorch的代码实现。

    class LeNet(BasicModule):
        def __init__(self, num_classes=2):
    
            super(LeNet, self).__init__()
            self.model_name = 'LeNet'
    
            self.conv1 = nn.Conv2d(3, 6, 5)
            self.conv2 = nn.Conv2d(6, 16, 5)
            self.fc1 = nn.Linear(16 * 53 * 53, 120)
            self.fc2 = nn.Linear(120, 84)
            self.fc3 = nn.Linear(84, num_classes)
    
        def forward(self, x):
            x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
            x = F.max_pool2d(F.relu(self.conv2(x)), 2)
            x = x.view(x.size()[0], -1)
            x = F.relu(self.fc1(x))
            x = F.relu(self.fc2(x))
            x = self.fc3(x)
            return x
    

    在原始论文中,网络结构如此。卷积层1 + 池化层2 + 卷积层3 + 池化层4 + 全连接层5、6、7。一共七层网络。原始论文中,图片大小为33232,即长宽为32的三通道图片。

    而在本实验中,因为原始图片本身很大,在这里我统一设置成了3224224的图片。因此在网络中,最后一个池化层和全连接成对接的时候,需要注意大小

    原始论文为:

    self.fc1 = nn.Linear(16 * 5 * 5, 120)
    

    我改为了:

    self.fc1 = nn.Linear(16 * 53 * 53, 120)
    

    可根据上面的公式自行计算。

    根据不同参数,我进行了九次实验,在验证集上的表现如下:

    Figure_1.png

    有两条线明显效果很差,我们把它们排除,再看一下其他七次实现的情况。

    Figure_2.png

    从这里可以清楚的看到七次实验,验证集上的变化情况。

    一般调参,重要的参数无非是batch_size、学习率。从该曲线可以看出,当batch_size为32,学习率为0.001时,正确率最高。

    随后在测试集上表现如下:

    image.png

    相关文章

      网友评论

        本文标题:毕业设计:基于CNN的图像分类算法

        本文链接:https://www.haomeiwen.com/subject/osinxhtx.html