miRDeep-P2 利用small RNA 二代测序结果识别植物中的miRNA基因,尤其是那些尚未得到较好注释的物种。
安装篇
miRDP2是一个分析流程,也就意味着执行该软件之前需要先安装其他软件
预先安装以上软件之后,然后在mirdp2下载最新版的miRDP2, 以及ncRNA_rfam.tar.gz
# 个人习惯: 生信软件安装在 /opt/biosoft 下载
tar xf miRDP2-v1.1.2
mv 1.1.2 /opt/biosoft/miRDP2-v1.1.2
注意: 1.1.2版本的miRDP2-v1.1.2_pipeline.bash
脚本中存在一行bug,src=${0%%/miRDP2-v1.1.1_pipeline.bash}
, 原本目标是利用变量名替换获取执行文件的路径,然而它却忘了将1.1.1改成1.1.2了,请按照我下面的代码进行更改。
#src=${0%%/miRDP2-v1.1.1_pipeline.bash}
src=$(dirname $0)
在TestData下载测试数据集--TestData.tar.gz 。
运行篇
新建一个文件夹,用于存放下载的测试数据集
mkdir -p miRDP2_Test
之后将下载的测试数据集和非编码RNA的Rfam文件上传到该文件夹中,对两个文件进行解压缩
tar xf ncRNA_rfam.tar.gz
tar xf TestData.tar.gz
分别为参考基因组和和非编码RNA的Rfam建立索引
bowtie-build --threads 8 -f ./TestData/TAIR10_genome.fa ./TestData/TAIR10_genome
# 为Rfam建立索引,一定得在流程的script/index 目录下
bowtie-build --threads 20 -f ./ncRNA_rfam.fa /opt/biosoft/miRDP2-v1.1.2/scripts/rfam_index
运行流程
miRDP2-v1.1.2_pipeline.bash -g ./TestData/TAIR10_genome.fa -i ./TestData/TAIR10_genome -f ./TestData/GSM2094927.fa -o . &
# -g: 基因组序列
# -i: bowtie索引
# -f sRNA-seq 文件
# -o 输出文件夹
运行结束之后会在当前目录下出现一个目录 GSM2094927-15-0-10
, 主要关注如下内容:
- miRNA预测结果:
GSM2094927-15-0-10_filter_P_prediction
, 每列的内容分别为,“染色体编号”,“所在链”,“代表性的短读编号”,“前体编号”,“成熟miRNA位置”,“前体位置”,“成熟序列”,“前体序列 ” - 日志文件:
script_log
和script_err
, 在运行出错时用于排除
数据预处理
这一步是为了给流程提供可用的输入文件,主要是将fastq文件转换成流程所需的fasta文件。
第一步: 去接头。miRNA长度仅有21 nt,而测序一般至少都有50bp,因此需要去除一些接头序列。这一步公司负责处理。如果要自己处理,我推荐用cutadapt
.
第二步: 将fastq文件转成fasta文件
第三步:去除冗余序列, 每个短读的编号形如"read0_x29909", x后面表示相同的序列数
最后要保证FASTA中的每个序列都唯一。
网友评论