美文网首页
Kaggle竞赛:Human Protein Atlas Ima

Kaggle竞赛:Human Protein Atlas Ima

作者: 深度学习模型优化 | 来源:发表于2019-05-04 08:34 被阅读0次

             在这个竞赛中,我们使用MobileNet V1和MobileNet V2来尝试解决蛋白质识别的问题。

    1 问题描述

    图1 蛋白质图片示例

             在这个比赛中,参赛者需要实现显微镜下的混合蛋白质图像的分类。The Human Protein Atlas 会使用这些模型来创建集成了智能显微系统的工具,从高throughput图像中识别蛋白质。

             蛋白质是人体细胞的"doers",其维持着生命的正常运转。以前,蛋白质分类被限制在一个或少部分类别细胞中的单个模式。但是为了能够理解人类细胞的复杂性,模型需要通过有多个不同人类细胞的图片中分类混合模式的蛋白质。

    细胞图像中可视化蛋白质常用于生物学研究,并且这些细胞可以推动医药的研究突破。但是,得益于高清显微镜技术,图像的数据产生的速度超过了数据处理的速度。因此,急切需要我们研究自动的生物图像分析,来推动人类细胞和疾病的理解。

    2 数据描述

    我需要什么文件?

    你需要下载图像。由于图像太大,我们使用两种版本的图像。在下载页中,可以发现尺寸为512\times 512的PNG文件,这些图像存储在文件train.ziptest.zip中。可选的是,如果你希望使用完整的原始图像(2048 \times 20482072\times 3072混合大小的图像文件),可以下载文件train_full_size.7ztest_full_size.7z 这里下载(warning: these are ~250 GB total)

    当然也需要文件train.csv来指示图像和其对应的标签,以及上交的文件格式sample_submission.csv

    我希望数据格式应该是什么样子?

    数据格式是two-fold - first,标签在文件train.csv文件中提供。

    图像数据是压缩文件train.ziptest.zip。它们解压后是两个文件夹,分别是每个样本有4个文件。每个文件使用不同的滤波器对同样的采样图像进行了处理。文件的格式为[filename]_[filter color].png是PNG格式的文件。[filename]_[filter color].tif为TIF格式的文件。

    我们预测什么?

    你需要对每个测试样本进行预测。在数据集中有28种不同的标签。数据集使用图像方法(共焦显微镜)来实现高度标准化的数据存储。但是数据集包括27个不同的细胞类型(高度不同的形态学),这种形态学样式会影响不同细胞的蛋白质模式。所有的样本有4种滤波器类型(均存储为单一的文件),感兴趣的蛋白质(绿色的)加上三个标记:nucleus (blue), microtubules (red), endoplasmic reticulum (yellow). 因此绿色滤波器图像用于预测,其它三种图像仅供参考。

    图像的标签被表示为如下整数形式:

    0\.  Nucleoplasm  
    1\.  Nuclear membrane   
    2\.  Nucleoli   
    3\.  Nucleoli fibrillar center   
    4\.  Nuclear speckles   
    5\.  Nuclear bodies   
    6\.  Endoplasmic reticulum   
    7\.  Golgi apparatus   
    8\.  Peroxisomes   
    9\.  Endosomes   
    10\.  Lysosomes   
    11\.  Intermediate filaments   
    12\.  Actin filaments   
    13\.  Focal adhesion sites   
    14\.  Microtubules   
    15\.  Microtubule ends   
    16\.  Cytokinetic bridge   
    17\.  Mitotic spindle   
    18\.  Microtubule organizing center   
    19\.  Centrosome   
    20\.  Lipid droplets   
    21\.  Plasma membrane   
    22\.  Cell junctions   
    23\.  Mitochondria   
    24\.  Aggresome   
    25\.  Cytosol   
    26\.  Cytoplasmic bodies   
    27\.  Rods & rings  
    
    

    文件描述

    • train.csv - 文件名和标签(训练数据,在使用中需要划分为训练和验证数据集)
    • sample_submission.csv - 测试数据集的文件名,提供了上传文件的标准格式
    • train.zip - 包含所有训练文件的压缩包
    • test.zip - 包含所有测试文件的压缩包

    数据域

    • Id - 样本的基本文件名,注意所有的样本包含4个文件 - blue, green, red, and yellow
    • Target - 在训练数据中,这个域表示每个样本对应的真实标签。

    相关文章

      网友评论

          本文标题:Kaggle竞赛:Human Protein Atlas Ima

          本文链接:https://www.haomeiwen.com/subject/rikqgqtx.html