10X genomics 既是带有barcode的二代reads,但测序打成的片段在几k之几十不等,且同一DNA片段带有相同的barcode,可仅用二代数据就可组装出较好质量的基因组,后续可用三代提升组装质量
软件使用:
### Example
## 0
# Illumina BCL output folder to generate FASTQ files
$ supernova mkfastq
# We usually get the fastq file and don't neet to do this step, but we need to generate some special files. View in "Attention"
## 1
# generate a whole genome de novo assembly
$ supernova run --id=sample --bcfrac=0.75 --maxreads=45000000 --fastqs=/path/of/fastq --sample=sample &>supernova.log
## 2
# generate various styles of FASTA output for your assemblies by set "style", which can be set to "raw" ,"megabubbles","pseudohap","pseudohap2",
$ supernova mkoutput --asmdir=/path/of/fastq/sample/outs/assembly --outprefix=sample.pseudohap --style=pseudohap
注意事项:
### Attention
# /path/of/fastq/ 应包含如下这些文件并使用官方的标准命名方式.
# 这是其中一个示例
sample_S1_L001_I1_001.fastq.gz
sample_S1_L001_R1_001.fastq.gz
sample_S1_L001_R2_001.fastq.gz
sample_S1_L002_I1_001.fastq.gz
sample_S1_L002_R1_001.fastq.gz
sample_S1_L002_R2_001.fastq.gz
# "sample_S1_L001_I1_001.fastq.gz" ? 自己脚本生成的文件,即质量文件
# 这是一个示例
@ST-E00370:428:H7HFWXCYY:8:1101:8816:2170 1:N:0:CAGCGGTA
CAGCGGTA
+
JJJJJJJJ
软件运行时间:
## 日志文件里面共57步_complete,可计算该值判断已经跑了多少步
$ grep _complete supernova.log -c
57
## 组装时间
#基因组约1G,30X
# 5785009.37user 460357.19system 80:03:13elapsed 2167%CPU
组装结果:
##统计大于1K的片段
scaffold contig
length(bp) number length(bp) number
max_len 7855829 268785
N10 2370140 38 69432 1141
N20 1588513 101 49249 2971
N30 1121827 191 36835 5465
N40 752446 321 27561 8789
N50 433856 530 19973 13286
N60 124276 1019 14128 19596
N70 17844 4607 9737 28640
N80 9452 14218 6448 42027
N90 4936 31725 3749 63373
Total_length 1199668617 1055592882
number>=1000bp 81041 115071
number>=2000bp 58015 86579
GC_rate 0.335 0.378
组装结果并步特别理想,原因之一是植物基因组杂合度高
结果可视化:
组装结果会生成一个histogram_reads_per_barcode.json文件,可对reads_per_barcode,contig,phase_block,scaffold做图
image.png
image.png
以及组装结果的长度分布:
分子长度密度图
分子长度
网友评论