1 比对的是:相似菌参考基因和使用seqtk随机抽取出来的转录组数据。
2 bowtie2做index
建索引结果1)使用方法: bowtie2-build<要生成的索引文件前缀名>;
比如:path/bowtie2-build genome.fabowtie2 index/genome
2)参数说明:genome.fa是fasta文件;
genome是要生成的索引文件的前缀名;
bowtie2index是一个文件夹,用来存放索引文件,方便日后查看和使用;
注意:程序运行完后genome.fa文件要放在bowtie2 index索引目录中,tophat2软件才能正确运行。
3 reads mapping到参考基因组——tophat2软件:基于bowtie2
1)用法:
命令行:tophat2 -p 4 -G /home/andengdi/lyr/rna-seq/00-reference/genome.gff -o test_output /home/andengdi/lyr/rna-seq/00-reference/genome /home/andengdi/lyr/rna-seq/01-data/YSH-qurRNA-42-314-4_L001_R1.fastq /home/andengdi/lyr/rna-seq/01-data/YSH-qurRNA-42-314-4_L001_R2.fastq
2)参数说明:
-p :指定线程数,默认为1
-G :指定已有的基因组注释信息,gtf或gff文件;
-o :指定输出目录,默认为”./tophat_out“;
后面加上索引文件:与前面的bowtie2建立的索引相对应,只取前缀名。
最后加上fastq文件:filename.fq;如果是双端测序则是filename_1.fq和filename_2.fq两个文件。
( 细菌是没有junction的,但不排除可能出现错误; 将注释文件去掉跑流程。)
4 结果:
结果文件其中,需要查看各类说明去logs文件下:
logs比如:需要了解这个程序跑了多久,可以看
tophat.log
总结结果因为我使用seqtk随机取转录组的部分数据和细菌基因组比对的,所以耗费时间比较短,大概耗时8小时。
另外查看一下mapping率:
mapping到1.9%
这个测试数据还是可以的,下一步就是用cufflinks软件将这个这些基因merge起来。
网友评论