探针重注释到lncRNA

作者: Stone_Stan4d | 来源:发表于2018-12-13 23:07 被阅读79次

探针重注释到lncRNA
Rattus norvegicus基因表达探针lncRNA重注释
Rattus norvegicus基因表达探针lncRNA重注释
LncBook:综合性的人类lncRNA数据库
lncRNA芯片的探针到底该如何注释到基因组信息呢
lncRNA 注释分析
小鼠基因探针注释
lncRNA 注释分析小结
FEELnc: LncRNA注释工具
GEO芯片数据下载及清洗

先看曾老师完全用R骚操作的教程，反正我的小本本是带不起来这样的操作的：

搜狗微信搜索，第一篇就是

首先去affy官网下载相应的fasta文件：
hg-u133-plus

然后用bowtie2比对到hg38基因组：

source activate wes2
ref=/home/qmcui/database/reference/index/bowtie/hg38
bowtie2 -x $ref -f HG-U133_Plus_2.probe_fasta -S hgu133plus2.sam
samtools view -b -S hgu133plus2.sam > hgu133plus2.bam
bamToBed -i hgu133plus2.bam > hgu133plus2.bed

完成后的bed文件：
前3列是基因组坐标，第4列是包含探针id的信息，第6列是正负链

去gencode下载lncRNA的gtf文件：

lncRNA gtf

wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.long_noncoding_RNAs.gtf.gz
gunzip gencode.v29.long_noncoding_RNAs.gtf.gz

然后用bedtools通过取交集的方式对前面比对好的探针进行注释：

intersectBed -a hgu133plus2.bed -b gtf2bed/gencode.v29.annotation.gtf -wa -wb >hgu133plus2.txt

红色框内是一行信息，黄色框内色是hgu133plus2.bed文件信息，其余是gencode.v29.annotation.gtf文件信息

接下来需要对信息进行筛选：

cat hgu133plus2.txt | awk '$9=="gene"&&$6==$13{print $4,$16,$18, $20}'> hgu133plus2lnc.txt

只要第9列是'gene'，且第6列和第13列标明的正负链方向一致的行。

image.png

把文件下载到本地，接下来就进入R中操作了。

options(stringsAsFactors = F)
library(data.table)
library(stringr)
rm(list=ls())

probe2lnc = fread('./hgu133plus2lnc.txt')
probe2lnc = probe2lnc[, -5]
colnames(probe2lnc) = c('probeID', 'EnsID', 'type', 'Symbol')
#对探针id的字符串进行提取
probe2lnc$probeID = word(probe2lnc$probeID, 3, sep = ':')

tmp = unique(probe2lnc)#去除重复行
#对probeID进行计数，如果出现两次或两次以上
#说明一个探针映射到多个基因，要舍去该probe
tmp$ProbeNum = table(tmp$probeID)[tmp$probeID]
hgu133plus2lnc = tmp[tmp$ProbeNum == 1,-5]

save(hgu133plus2lnc, file = 'hgu133plus2lnc.rdata')

得到的结果：