美文网首页
2018-04-16 宏基因组实战(二)—qiime2-2018

2018-04-16 宏基因组实战(二)—qiime2-2018

作者: 小郑的学习笔记 | 来源:发表于2018-04-16 19:55 被阅读0次

    在学习宏基因组的过程中,这个大神的中文翻译可以让你快速上手https://blog.csdn.net/woodcorpse/article/details/78407438

    在实践操作中,还是要针对自己个案做一些调整。
    我现在得到的一批数据,下机已经分装拆分好了,所以可以直接导入

    首先先说一个坑

    由于样品很多,如果公司给你的样品有问题,那你后面分析不下去,可能会一直找不到原因,我就是遇到了这么一个问题,公司给的原始数据,里面的样品中,竟然有几个双端测序的read1 和 read2重复了,我一开始不知道,导入数据分析到后面dada2一直进行不下去,或者就是分析结构很差,找半天原因也找不出来,去论坛提问也没有答案,找了一周才发现,运来read1 和read2竟然重复了。

    所以我用python自己编了一个脚本,可以检查下机数据是否重复。

    def splitline(input):
        return input.split()
    
    address = input("输入文件路径")
    f = open(address)
    print("文件名和绝对路径:" + f.name + "\n")
    
    print("以下显示RawData中相同的项:\n")
    
    
    dic = {}
    i = 0
    for line in f.readlines():
        line = line.strip()
        splitlines = splitline(line)
        dic[splitlines[1]] = splitlines[0]
            
    counter = Counter(dic.values())
    
    
    for item in counter:
        if counter[item] > 1:
            same = item
            i = i + 1
    
    
            match_data = {}
    
            for (key, value) in dic.items():
                if value.startswith(same):
                    match_data[key] = value
    
            print(match_data) ```
    
    
    
    
            
            
    print("\nRawdata中共有"+str(len(dic))+"项")        
    print("\n总共有"+ str(i) + "个重复项")
    
    

    这个脚本是在命令行的,我在 jupyter notebook 中也编了一个,测试可行


    显示相同的项

    代码不是很完美,但是可以用哈。

    开始准备导入

    导入方式有很多,看你的初始数据是啥,具体可以看官网:
    https://docs.qiime2.org/2018.2/tutorials/importing/

    我主要用的是“Fastq manifest” formats 的格式导入数据

    直接先看命令:
    创建环境

    source activate qiime2-2018.2

    导入数据

    qiime tools import
    --type 'SampleData[PairedEndSequencesWithQuality]'
    --input-path pe-33-manifest.txt
    --output-path paired-end-demux.qza
    --source-format PairedEndFastqManifestPhred33

    1. 选择你的数据格式,我这里是双端测序数据
    2. pe-33-manifest.txt 是自己制作的一个文件,告诉程序导入的内容和地址
    3. paired-end-demux.qza 是生成已经分装好的数据
    4. 一般来说都选33 ( 官网是这么说的,当然也有可能是64)

    PairedEndFastqManifestPhred33
    In this variant of the fastq manifest format, there must be forward and reverse read fastq.gz / fastq files for each sample id. As a result, each sample id is represented twice in this file: once for its forward reads, and once for its reverse reads. This format assumes that the PHRED offset used for the positional quality scores in all of the fastq.gz / fastqfiles is 33.

    pe-33-manifest.txt 的格式

    格式

    三列 第一列是样品名 第二列是路径 第三列是告诉程序是正向还是反向

    导入成功

    导入成功之后,就可以后续分析了


    导入成功

    new 是一个装原始数据的文件夹

    相关文章

      网友评论

          本文标题:2018-04-16 宏基因组实战(二)—qiime2-2018

          本文链接:https://www.haomeiwen.com/subject/iuaekftx.html