美文网首页
mouse和human的rRNA参考序列数据库

mouse和human的rRNA参考序列数据库

作者: njmujjc | 来源:发表于2019-04-04 16:09 被阅读0次

    1. ##从rfam下载所有的序列##

    wget ftp://ftp.ebi.ac.uk/pub/databases/Rfam/12.0/fasta_files/*

    cat RF*.gz>Rfam.all.fa.gz

    ##Convert a multi-line FASTA file to a single-line FASTA file:

    zcat Rfam.all.fa.gz | fasta_formatter -w 0 | gzip >Rfam.nowrap.fa.gz

    ##Remove empty lines, replace spaces with underscores, and keep just "ribosomal" sequences:

    zcat Rfam.all.nowrap.fa.gz | sed'/^$/d' | sed's/\s/_/g' | awk'BEGIN {RS=">"; ORS="";} tolower($1) ~ /ribosomal_rna/ {print ">"$0}' | gzip >Rfam.rRNA.nowrap.fa.gz

    ####Set a variable for species of interest. For example:

    species="homo_sapiens"

    species="mus_musculus"

    species="drosophila_melanogaster"

    species="mycobacterium"

    species="mycobacterium_tuberculosis"

    ####Extract species-specific ribosomal sequences:

    zcat Rfam.rRNA.nowrap.fa.gz | grep -A 1 -i"${species}" | grep -v'^--$' | fasta_formatter -w 80 > rRNA.${species}.fa

    ###建立索引##

    samtools faidx rRNA.${species}.fa

    bowtie2-build rRNA.${species}.fa rRNA.${species}

    2. 从ensemble下载ncRNA.fa

    ##Convert a multi-line FASTA file to a single-line FASTA file:

    zcat Homo_sapiens.GRCh38.ncrna.fa.gz | fasta_formatter -w 0 | gzip > Rfam.nowrap.fa.gz

    ##提取rRNA

    grep -A 1 "rRNA" Rfam.nowrap.fa > hg19.rRNA.fa

    ##将两个数据库得到的fa合并在一起

    cat hg19.rRNA.fa  rRNA.${species}.fa > all.human.rRNA.fa

    问题:这样建的库仍然不是完整的rRNA databse,目前还没有找到一个完整的rRNA数据库。。

    相关文章

      网友评论

          本文标题:mouse和human的rRNA参考序列数据库

          本文链接:https://www.haomeiwen.com/subject/xdhqiqtx.html