supernova对10X genomics进行组装

作者: 涤生生 | 来源:发表于2018-07-16 15:53 被阅读363次

10X genomics 既是带有barcode的二代reads，但测序打成的片段在几k之几十不等，且同一DNA片段带有相同的barcode，可仅用二代数据就可组装出较好质量的基因组，后续可用三代提升组装质量

软件使用：

### Example

## 0
# Illumina BCL output folder to generate FASTQ files
$ supernova mkfastq
# We usually get the fastq file and don't neet to do this step, but we need to generate some special files. View in "Attention"

## 1 
# generate a whole genome de novo assembly 
$ supernova run --id=sample --bcfrac=0.75 --maxreads=45000000 --fastqs=/path/of/fastq --sample=sample &>supernova.log 

## 2 
# generate various styles of FASTA output for your assemblies by set "style", which can be set to "raw" ,"megabubbles","pseudohap","pseudohap2",
$ supernova mkoutput --asmdir=/path/of/fastq/sample/outs/assembly --outprefix=sample.pseudohap --style=pseudohap

注意事项：

### Attention
# /path/of/fastq/ 应包含如下这些文件并使用官方的标准命名方式.
# 这是其中一个示例
sample_S1_L001_I1_001.fastq.gz
sample_S1_L001_R1_001.fastq.gz
sample_S1_L001_R2_001.fastq.gz
sample_S1_L002_I1_001.fastq.gz
sample_S1_L002_R1_001.fastq.gz
sample_S1_L002_R2_001.fastq.gz

# "sample_S1_L001_I1_001.fastq.gz" ? 自己脚本生成的文件，即质量文件
# 这是一个示例
@ST-E00370:428:H7HFWXCYY:8:1101:8816:2170 1:N:0:CAGCGGTA
CAGCGGTA
+
JJJJJJJJ

软件运行时间：

## 日志文件里面共57步_complete，可计算该值判断已经跑了多少步
$ grep _complete supernova.log  -c
57
## 组装时间
#基因组约1G，30X
# 5785009.37user 460357.19system 80:03:13elapsed 2167%CPU

组装结果：

##统计大于1K的片段
        scaffold                contig
        length(bp)      number  length(bp)      number
max_len 7855829         268785
N10     2370140 38      69432   1141
N20     1588513 101     49249   2971
N30     1121827 191     36835   5465
N40     752446  321     27561   8789
N50     433856  530     19973   13286
N60     124276  1019    14128   19596
N70     17844   4607    9737    28640
N80     9452    14218   6448    42027
N90     4936    31725   3749    63373
Total_length    1199668617      1055592882
number>=1000bp  81041   115071
number>=2000bp  58015   86579
GC_rate 0.335           0.378

组装结果并步特别理想，原因之一是植物基因组杂合度高

结果可视化：

组装结果会生成一个histogram_reads_per_barcode.json文件，可对reads_per_barcode，contig，phase_block，scaffold做图

image.png

以及组装结果的长度分布：

分子长度密度图

分子长度

网友评论

基因组

本文标题：supernova对10X genomics进行组装

本文链接：https://www.haomeiwen.com/subject/ydebpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！