美文网首页RNA
miR-PREFeR:植物miRNA预测

miR-PREFeR:植物miRNA预测

作者: xiaoji_hb | 来源:发表于2021-06-24 09:20 被阅读0次

    对于miRNA大家应该都不陌生,是一段长度在21-23nt的单链非编码RNA序列。


    microRNA, abbreviated miRNA or miR, are short, highly conserved, non-coding RNAsthat play an important role in the complex network of gene regulation,especially in gene silencing. MicroRNAs regulate gene expression highly specifically at the post-transcriptional level. In general, microRNAs have a size of 21 to 23 nucleotides (nt).

    引自维基百科[MicroRNA]


    对于已发表的miRNA鉴定,使用测序数据与标准数据库进行比对即可;对于新的miRNA,就需要借助一些软件进行预测。目前已发表的用于预测miRNA的软件很多,今天给大家介绍一款miRNA预测的软件miR-PREFeR,针对的是植物物种的miRNA预测,内容主要来源于软件发表的文献。

    文献:miR-PREFeR: an accurate, fast, and easy-to-use plant miRNA prediction tool using small RNA-Seq data
    发表年份:2014
    期刊:Bioinformatics
    引用频次:91
    
    github:https://github.com/hangelwen/miR-PREFeR
    

    miRNA预测的优缺点

    只要是预测软件,就不能百分之百的保证预测结果完全正确。对于植物的miRNA预测而言,目前软件的弊端主要有一下几个。

      1. 假阳性比较高,也就是预测得到的结果高于真实值
      1. CPU或者内存资源消耗比较多,可以理解为运行时间长
      1. 物种支持度低,对于某些小众物种,没有对应的数据库数据进行参照
      1. 某些软件依赖关系复杂,难以安装

    miR-PREFeR软件是python语言编写的,免安装;不过运行时依赖ViennaRNA包(说实话,这个不好装);软件支持断点续投,这也算是很大的一个优点了,毕竟断掉重来真的很费事。

    软件及依赖包的安装大家参考官网说明即可,不再赘述。

    miR-PREFeR使用

    输入数据

    软件输入数据很简单,比对结果以及参考基因组,如果有gff文件,可以辅助。也就是说只要有能用的参考基因组,就可以进行预测。参考基因组等信息统一在配置文件中指定,示例如下。

    #Genomic sequence file in fasta format.  Absolute path perfered. If a path
    #relative if used, it's relatvie to the working directory where you execute
    #the pipeline.
    FASTA_FILE =  ./TAIR10.chr1.fa
    
    #Small RNA read alignment file in SAM format. The SAM file should contain 
    #the SAM header. If N samples are used, then N file names are listed here, 
    #separated by comma. please note that before doing alignment, process the 
    #reads fasta files using the provided script 'process-reads-fasta.py' to
    #collapse and rename the reads. Absolute path perfered. If a path
    #relative if used, it's relatvie to the working directory where you execute
    #the pipeline.
    ALIGNMENT_FILE = ./cold.chr1.sam, ./pdep.chr1.sam, ./pind.chr1.sam
    

    软件使用的是所有样本数据,一来整合所有样本数据,增加可信度,二来进行相互矫正,提高低表达miRNA的预测成功率。

    准备完成后,运行很简单,执行 python /software_path/miR_PREFeR.py -L -k pipeline config.example即可。

    输出数据

    输出数据有多种格式,其中最简单明了的是html文件,相当于分析报告,示例如下。

    miRNA-report-lendis

    对预测得到的数据进行统计并给出相应的序列。

    miRNA-report-blast

    除此之外,报告中还会给出miRBase数据库链接,可以进行blast比对,查看数据库中相似序列的信息,可以说是非常人性化了,点击之后的结果如下。

    miRNA-miRBase

    与其他软件的对比

    这款软件的最大创新点就在于保证检出灵敏度的情况下,极大地减少了假阳性比率,以下是与各软件的对比。

    miRNA-software-compare

    对于软件的分析结果,77.8%的预测miRNA与已知的miRNA起始位置相同,81%的长度完全一致,98.4%的预测结果与已知的有1nt的差别(并不清楚为什么这么比,不应该是直接说有多少和已知的完全一样?)。

    软件分析原理

    • 筛选潜在的区间

    因为是miRNA测序,理论上成熟的miRNA区域的测序深度应该更高,软件第一步就是根据这个条件筛选潜在的miRNA-peak区域。

    miRNA-peak

    选定peak之后,会进行侧翼扩展用于筛选miRNA前体序列,示例如下。

    miRNA-region

    对于临近的两个峰值,会进行整合,筛选后获得一个区间;对于单一峰值,会向侧翼进行扩展形成两个区域。

    • miRNA预测

    miRNA预测时遵循两个标准

      1. 序列能形成稳定的颈环结构(miRNA预测的经典结构)
      1. 成熟miRNA区域高深度覆盖,侧翼序列至少有一条reads覆盖;若没有侧翼覆盖数据,适当提高成熟区覆盖度阈值

    参考文献:

    [1] https://doi.org/10.1093/bioinformatics/btu380

    #如有侵权,请告知删除#
    #如有错误,欢迎指正#

    相关文章

      网友评论

        本文标题:miR-PREFeR:植物miRNA预测

        本文链接:https://www.haomeiwen.com/subject/lakwyltx.html