欢迎关注”生信修炼手册”!
得益于NGS测序技术和生物信息学的发展,我们可以通过NGS测序数据识别新的miRNA,大大加快了miRNA的研究进程。
mirdeep2这个软件不仅可以对miRNA进行定量,也可以用于识别新的miRNA, 只需要有small RNA文库的测序reads和参考基因组的序列即可,步骤如下
1. 将reads和参考基因组进行比对
基本用法如下
mapper.pl mirdeep.unique.fa -c -j -q -p ref_bowtie -t reads_vs_genome.arf -v
需要对参考基因组建立bowtie1的索引。
2. 根据reads和基因组比对的结果,预测novel miRNA
基本用法如下
miRDeep2.pl reads.fa genome_fasta reads_vs_genome.arf
软件的操作相当简单,只有两个步骤,实际上在第二步中封装了所有的处理细节。
首先就是mapping结果进行过滤,只保留能够完全精确比对上基因组, 而且长度在18到25bp的reads, 同时去除在基因组的hit超过5个的reads,代码如下
parse_mappings.pl file_reads_vs_genome -a 0 -b 18 -c 25 -i 5 > dir_tmp/${parsed_arf}_parsed.arf
过滤之后的比对结果,用于预测miRNA前体序列,代码如下
excise_precursors_iterative_final.pl file_genome dir_tmp/${parsed_arf}_parsed.arf dir_tmp/precursors.fa dir_tmp/precursors.coords max_pre
将reaads与预测出的miRNA前体序列进行比对,代码如下
prepare_signature.pl file_reads dir_tmp/precursors.fa read_align_mismatches -o dir_tmp/signature.arf
RNAfold预测miRNA前体的二级结构,代码如下
RNAfold < dir_tmp/precursors.fa --noPS > dir_tmp/precursors.str
运行miRDeep2的核心算法,代码如下
miRDeep2_core_algorithm.pl dir_tmp/signature.arf dir_tmp/precursors.str -v -50 -l longest_id
执行survey分析,代码如下
survey.pl dir/output.mrd -a dir_tmp/output_permuted.mrd -d stack_height_min > dir/survey.csv
运行permuted controls,代码如下
miRDeep2_core_algorithm.pl $dir_tmp/signature.arf $dir_tmp/precursors.str -v -50
perform_controls.pl dir_tmp/command_line dir_tmp/precursors.str 100 -a > dir_tmp/output_permuted.mrd
输出结果,代码如下
make_html.pl -f $dir/output.mrd -p dir_tmp/precursors.coords -v sc -s dir/survey.csv -c -e -r ${scripts}Rfam_for_miRDeep.fa -y time sort_by_sample OE
详细探究算法的每个细节,工作量是巨大的,但是从整理框架上理解算法的大概过程,只需要花费一点时间即可做到,有助于更好掌握算法的使用场景和必须的输入信息。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!
网友评论