水稻蛋白的两种命名方式:LOC4334374(ncbi geneid)或LOC_Os01g01010.1(MSU (LOC_Os ID))和Os04t0485300(RAP (Os ID)),可能下载的不同的版本所以需要涉及到id的转换。
在水稻中有一些网页工具能完成ID的转换,如Ensemble Plants(http://plants.ensembl.org/index.html),RAP-Db(https://rapdb.dna.affrc.go.jp/),RIGW(http://rice.hzau.edu.cn/rice/).
一般而言,我们无法直接拿到类似于Os06t0664200-01或者3131385的命名数据,通常拿到的是类似于 LOC4334374或LOC_Os01g01010.1的结果。
这是我的
对于RGAP水稻的基因编号,如LOC_Os01g01010.1 我们要把它变成Os06t0664200-01 RAP-ID的命名方式,符合dosa的要求。相关数据库到https://shigen.nig.ac.jp/rice/oryzabase/download/riceId下载。
这里用徐州更的脚本把LOC_Os01g01010.1 转为 Os06t0664200-01。(同样适用于把Os06t0664200转为Os06t0664200-01)
cat your_id.txt | xargs -i awk 'BEGIN{FS="\t"} $0 ~/{}/ { print $2}' rice_id_20140620174522.txt > RAP_id.txt
富集分析
# 对于RAP ID
Osat_specific <- read_csv("/home/lx_sky6/yt/ltl/Water-use/Results_Nov13/statistics/Osat.txt",
col_names = FALSE)
class(Osat_specific) ##记得把dataframe改成list或者vecter
O.sat <- enrichKEGG(Osat_specific$X1, organism="dosa",
keyType = "kegg",
pvalueCutoff=0.05, pAdjustMethod="BH",
qvalueCutoff=0.05)
barplot(O.sat)
image.png
对于拟南芥直接用
AT2G19210
AT2G19230
AT1G51800
AT4G29990
AT4G00280
AT2G19190
AT5G33340
AT1G31450
Ath-specific <- read_csv("/home/lx_sky6/yt/ltl/Water-use/Results_Nov13/statistics/tair.txt",
col_names = FALSE)
Ath <- enrichKEGG(Ath-specific$X1, organism="ath",
keyType = "kegg",
pvalueCutoff=0.05, pAdjustMethod="BH",
qvalueCutoff=0.05)
enrichplot::dotplot(Ath, font.size =10,showCategory=20)+
theme ( legend.key.size = unit(10,'pt'),plot.margin=unit(c(1,1,1,1), 'lines'))
image.png
网友评论