美文网首页基因组
supernova对10X genomics进行组装

supernova对10X genomics进行组装

作者: 涤生生 | 来源:发表于2018-07-16 15:53 被阅读363次

    10X genomics 既是带有barcode的二代reads,但测序打成的片段在几k之几十不等,且同一DNA片段带有相同的barcode,可仅用二代数据就可组装出较好质量的基因组,后续可用三代提升组装质量

    软件使用:

    ### Example
    
    ## 0
    # Illumina BCL output folder to generate FASTQ files
    $ supernova mkfastq
    # We usually get the fastq file and don't neet to do this step, but we need to generate some special files. View in "Attention"
    
    ## 1 
    # generate a whole genome de novo assembly 
    $ supernova run --id=sample --bcfrac=0.75 --maxreads=45000000 --fastqs=/path/of/fastq --sample=sample &>supernova.log 
    
    ## 2 
    # generate various styles of FASTA output for your assemblies by set "style", which can be set to "raw" ,"megabubbles","pseudohap","pseudohap2",
    $ supernova mkoutput --asmdir=/path/of/fastq/sample/outs/assembly --outprefix=sample.pseudohap --style=pseudohap
    

    注意事项:

    ### Attention
    # /path/of/fastq/ 应包含如下这些文件并使用官方的标准命名方式.
    # 这是其中一个示例
    sample_S1_L001_I1_001.fastq.gz
    sample_S1_L001_R1_001.fastq.gz
    sample_S1_L001_R2_001.fastq.gz
    sample_S1_L002_I1_001.fastq.gz
    sample_S1_L002_R1_001.fastq.gz
    sample_S1_L002_R2_001.fastq.gz
    
    # "sample_S1_L001_I1_001.fastq.gz" ? 自己脚本生成的文件,即质量文件
    # 这是一个示例
    @ST-E00370:428:H7HFWXCYY:8:1101:8816:2170 1:N:0:CAGCGGTA
    CAGCGGTA
    +
    JJJJJJJJ
    

    软件运行时间:

    ## 日志文件里面共57步_complete,可计算该值判断已经跑了多少步
    $ grep _complete supernova.log  -c
    57
    ## 组装时间
    #基因组约1G,30X
    # 5785009.37user 460357.19system 80:03:13elapsed 2167%CPU
    

    组装结果:

    ##统计大于1K的片段
            scaffold                contig
            length(bp)      number  length(bp)      number
    max_len 7855829         268785
    N10     2370140 38      69432   1141
    N20     1588513 101     49249   2971
    N30     1121827 191     36835   5465
    N40     752446  321     27561   8789
    N50     433856  530     19973   13286
    N60     124276  1019    14128   19596
    N70     17844   4607    9737    28640
    N80     9452    14218   6448    42027
    N90     4936    31725   3749    63373
    Total_length    1199668617      1055592882
    number>=1000bp  81041   115071
    number>=2000bp  58015   86579
    GC_rate 0.335           0.378
    

    组装结果并步特别理想,原因之一是植物基因组杂合度高

    结果可视化:

    组装结果会生成一个histogram_reads_per_barcode.json文件,可对reads_per_barcode,contig,phase_block,scaffold做图


    image.png
    image.png

    以及组装结果的长度分布:


    分子长度密度图
    分子长度

    相关文章

      网友评论

        本文标题:supernova对10X genomics进行组装

        本文链接:https://www.haomeiwen.com/subject/ydebpftx.html