好用的资源整合
你从没见过的的TCGA下载工具 - 生信人 (shengxin.ren)
关于TCGA数据下载,我能说的就是这些了-肿瘤信息学-生信技能树 (biotrainee.com)
现在下载TCGA数据也是非常方便,接着是cgdsR和cbioportal-肿瘤信息学-生信技能树 (biotrainee.com)
使用R包cgdsr来下载TCGA的数据 | 生信菜鸟团 (bio-info-trainee.com)
TCGA ID转换
前置基础学习资料
ID转换大全-测序原理-数据格式-数据库-生信技能树 (biotrainee.com)
生信编程直播第8题-几个ID转换咯-生信人必练的200个数据处理任务-生信技能树 (biotrainee.com)
正文
R****包转换
这个方法就比较好理解了,就是利用注释R包中的数据进行ID转化,比如TCGA肯定是用org.Hs.eg.db包了,然后利用 org.Hs.egENSEMBL2EG和 org.Hs.egSYMBOL中的数据;从命名上应该很好理解,前者是ensembl id和gene id的对应关系,后者是gene id和gene symbol的对应关系。最后整理下获得跟上述一样的ensembl id和gene symbol的对应关系。
-
library(org.Hs.eg.db)
-
ensembl2gene <- toTable(org.Hs.egENSEMBL2EG)
-
gene2symbol <- toTable(org.Hs.egSYMBOL)
-
ensemble2symbol <- merge(ensembl2gene, gene2symbol, by = "gene_id")[2:3]
-
write.table(ensemble2symbol, file = "ensembl2symbol.txt", sep = "\t", quote = F, row.names = F)
ensembl2symbol.txt文件中有28945个ID对应关系,这比第一种方法获得的结果还多3000多个。。。然后我粗略的检查了下,发现是由于有多个gene id对应到同一个ensembl id上的情况,然后我也有理由相信第一种方法也会有这种情况发生(但是检查了下,第一种方法这种情况比较少,大约只有39个。。)。但是我在ENSEMBL官网查到一般一个ensemble id也只有一个gene Symbol,所以还是由于两者数据库的数据有部分不统一所造成的。
生存分析
肿瘤中lncRNA机制研究的常见思路 (360doc.com)
整整24个!lncRNA科研必备最全数据库收录 (360doc.com)
[图片上传失败...(image-5b8a73-1650040503761)]
相关性分析
|
R****包
|
描述
|
|
ellipse
|
以椭圆代表相关系数。
|
|
pcaPP
|
用于两个相关系数矩阵的比较。
|
|
corrplot
|
相关系数矩阵可视化专业户,推荐。
|
|
ggcorrplot
|
相关矩阵重排序以及在相关图中展示显著性水平
|
|
corrgram
|
比ggcorrplot 强一点。
|
多组学的因子分析
https://mp.weixin.qq.com/s/0QVIgsg7Irv4Zpzt8utBJw mofa2
突变signature分析工具 musicatk
https://mp.weixin.qq.com/s/5CoagBfOowwXOcu9kBrMfg
keras 高层神经网络 https://mp.weixin.qq.com/s/BBx5Ouw10VPFWpoeLGjztw
注释基因/位点的R包 https://mp.weixin.qq.com/s/XUVauE4llEsVD6yNnju-ng
CellbaseR Gviz VariantAnnotation
UpsetR 韦恩图高级版
https://mp.weixin.qq.com/s/LUTGNJB6n8xvQq9DVP5F3w
今天给大家介绍一个通过uniprot数据库API进行蛋白质示意图的绘制的R包drawProteins。通过这个包可以进行蛋白质域的位置分布的可视化并且可以标注磷酸化位点等信息
https://mp.weixin.qq.com/s/esJE90M9y9_V61wQ-rM4nA drawProteins
ggsignif ggplot2补充包 标注差异信息,组
间P值,倍数等 https://mp.weixin.qq.com/s/6EJZhrduQvXQ2m2ZCOXp3A
R语言批量处理Pubmed数据库文献信息 包RISmd pumed.mineR ,wordcloud2,
https://mp.weixin.qq.com/s/UC3YdNuo2NJZpQ-OiebP_w
R包DNAshapeR 预测DNA结构
https://mp.weixin.qq.com/s/XyW9nVFDzhryPVkHHdaneA
富集分析包 ReactomePA https://mp.weixin.qq.com/s/q0lbs0LFbOfPYlQSiBBUFQ
Rcrossref 文献批处理 https://mp.weixin.qq.com/s/hUWiAxNJUdfeiZr30w3zPA
Survminer 生存分析R可视化 https://mp.weixin.qq.com/s/rkMx4t3eyxGfbP1V8DEWLA
Biclust包 双聚类
https://mp.weixin.qq.com/s/8zqpVf1rqSKJUhEzL-TASQ
geo多数据集分析 https://mp.weixin.qq.com/s/FOWx1H6O20l9MafrEqfetQ
ggsci https://mp.weixin.qq.com/s/qapf33qCP1oyEvB_tUM9BQ
桑基图 https://mp.weixin.qq.com/s/30fuqs5Ug7ozvU7iXDsq2A
测序数据的批次数据分析的R包sva
https://mp.weixin.qq.com/s/vp4vtmuDiH5grrMnJlmi8A
数据库
http://www.datjar.com:40013/bt2104/
常用的假设检验方法(U检验、T检验、卡方检验、F检验) - Lxk- - 博客园 (cnblogs.com)
TCGA phenotype各列的含义 - emanlee - 博客园 (cnblogs.com)
网友评论