往日都是对Mus 基因表达探针进行重注释,今日遇到了对大鼠表达探针进行重注释,但是在往日的分析中很少遇到Rattus基因组,更谈不上它的基因组注释信息了,终于在多番的搜索之下,还是发现了抑制被我忽略的重要信息。
- Rattus的基因组早就有了,在2014年就被发布了;
- Rattus基因组bowtie2索引也有的,就再mm10,hg19的下边,喏最后一个就是;
(链接:http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml)
索引图片
3.那么就差注释gtf文件了,之前我一直就在GENCODE网站上去下载,但是那里只有Human和Mus两个物种,所以我又找到了数据库宝藏,之前一直都不知道,定睛一看是ensemble下的...
这个是数据链接:http://ftp.ensembl.org/pub/
ensemble
有了注释文件和基因组信息,下面就开始对Rattus的探针进行重注释了:
1.基因组索引
ref=/home/reference/rn4_index
2.bowtie2比对
bowtie2 -x $ref -f HG-U133_Plus_2.probe_fasta -S hgu133plus2.sam
#将.sam转化为.bam
samtools view -b -S hgu133plus2.sam > hgu133plus2.bam
- bedtools提取比对结果
#将.bam转换为.bed
bamToBed -i hgu133plus2.bam > hgu133plus2.bed
#根据染色体位置信息取交集,并写入hgu133plus2.txt文件
intersectBed -a hgu133plus2.bed -b gencode.v29.long_noncoding_RNAs.gtf -wa -wb >hgu133plus2.txt
#提取注释的lncRNA信息
cat hgu133plus2.txt|awk '{if($9 ~ "gene")print $4, $20}' > probe_lncrna.txt
以上就完成了一个表达芯片的探针重注释
网友评论