1.软件安装(Trinity)
1.1 配置安装
wget https://github.com/trinityrnaseq/trinityrnaseq/archive/refs/tags/Trinity-v2.15.1.tar.gz
#下载安装包
tar -zxvf Trinity-v2.15.1.tar.gz
#解压缩安装包
cd Trinity-v2.15.1
make
#编译安装
1.2 conda安装
conda create -n trinity
conda activate trinity
#创建环境
conda install -c bioconda trinity=2.15.1
#安装指定版本的trinity
再将trinity添加到环境变量,这样就不用每次都使用conda 激活。
2.基本命令
Trinity --seqType fq --max_memory 50G --left reads_1.fq --right reads_2.fq --CPU 6
--seqType fq指定测序文件的类型
--max_memory指定最大使用内存
--left/right双端测序文件名称
--CPU 最大CPU使用数目
如果有较大的数据量需要批量处理,Trinity也提供了批量运行的方法,即添加--samples_file参数指定,其基本格式如下:
cond_A cond_A_rep1 A_rep1_left.fq A_rep1_right.fq
cond_A cond_A_rep2 A_rep2_left.fq A_rep2_right.fq
cond_B cond_B_rep1 B_rep1_left.fq B_rep1_right.fq
cond_B cond_B_rep2 B_rep2_left.fq B_rep2_right.fq
此外,也可以使用awk命令批量生成运行命令
3.组装结果统计
3.1 统计命令
/path/to/your/TrinityStats.pl transcripts.fasta > Stat.txt
/path/to/your/TrinityStats.pl指定TrinityStats.pl脚本的位置,transcripts.fasta是需要统计的转录本,Stat.txt将统计结果指定到文件中。
3.2 统计结果解读
(1)Trinity.fasta
Trinity.fasta由两部分组成,一部分是表头,一部分是序列;表头部分TRINITY_DN93_c0_g1表示了该基因的ID,_i1表示可变剪切的某一部分;len=260表示该基因的序列长度;path=[238:0-259] 描述了该转录本的组装路径,包括从节点238的第0到259个碱基对; [-1, 238, -2]反映了组装过程中的连接关系。
(2)Stat.txt
该文件中需要注意的有以下几个:Total trinity 'genes'和Total trinity transcripts都不应该超过20万条;N50提供了关于序列集合的中等大小的信息,该值应该在1Kb左右。
网友评论