三种方法提取miRNA成熟体序列

作者: 生信交流平台 | 来源:发表于2021-03-16 22:01 被阅读0次

miRNA 专题 | 数据过滤 & 比对 & 靶基因预测
三种方法提取miRNA成熟体序列
miRNA-target序列比对结果展示
第 28 策绝渡逢舟
外泌体相关文章
提取染色体脚本
一文解决如何下载前体或者成熟体miRNA表达矩阵（TCGA数据库
miRNA Realtime引物设计（茎环法）
microRNA茎环引物设计
人员信息提取其实很简单

前面我们讲过☞miRNA靶基因预测☜，我们知道miRNA靶基因预测一般是通过seed（种子序列）与靶基因序列互补配对来实现的。有很多本地版本的软件都是基于这个原理来预测miRNA靶基因的，例如☞targetscan ☜，miRanda，RNAhybrid等等。这些软件都有本地版本，可以下载到自己的电脑上运行。一般输入都是两个文件，一个是miRNA的成熟体序列，因为miRNA的种子序列一般位于miRNA成熟体5‘的2-7位（参考☞miRNA靶基因预测☜），另外一个输入文件就是你要预测的靶基因序列了，这里的靶基因序列可以是mRNA 3’UTR序列，也可以是lncRNA或者circRNA序列。

那么今天我们就来给大家分享一下如何获取miRNA的成熟体序列。首先我们去miRbase（http://www.mirbase.org/ftp.shtml）数据库下载目前所有物种的miRNA成熟体序列文件mature.fa。关于miRbase的介绍可以参考☞miRBase数据库介绍及miRNA数据下载 ☜。

mature.fa打开内容如下

接下来我们给大家分享三种不同的方法来提取感兴趣的物种的miRNA成熟体序列

1. perl语言

#!/usr/bin/perl  -w

#打开包含所有物种miRNA成熟体序列的文件
open FILE,"mature.fa";
#新建一个输出文件，保存人的所有miRNA成熟体序列
open OUT,">hsa_mature_seq.fa";
#循环的读取每一行内容
while($line=<FILE>){
 chomp($line);
 #如果某一行匹配>hsa开始，证明这是人的miRNA
 #如果对其他物种感兴趣，需要知道这个物种的miRNA以什么开头，如小鼠的是mmu
 if($line=~/(^>hsa.*?) /){
 #读取下一行就是对应的miRNA成熟体序列
  $seq=<FILE>;
  chomp($seq);
  #写到输出文件中
  print OUT "$1\n$seq\n";
 }
}
#关掉输入和输出文件
close FILE;
close OUT;

hsa_mature_seq.fa文件打开内容如下

2. R语言

#安装Biostrings这个R包
BiocManager::install("Biostrings")
#加载Biostrings这个包
library("Biostrings")
#读取包含所有物种miRNA成熟提序列的文件
mir=readRNAStringSet("mature.fa")
#替换序列名字，只保留第一个空格前面的内容
#>cel-let-7-5p MIMAT0000001 Caenorhabditis elegans let-7-5p
#替换之后变成了>cel-let-7-5p
names(mir)=gsub(" .*$","",names(mir))

#提取以hsa开头的miRNA，如果对其他物种感兴趣
#需要知道这个物种的miRNA以什么开头，如小鼠的是mmu，人的是hsa
index=grepl("^hsa",names(mir))
#提取相应的序列
hsa=mir[index]
#写出到human_mature_mir_seq.fa文件中
writeXStringSet(hsa, "human_mature_mir_seq.fa")

human_mature_mir_seq.fa文件打开内容如下