B站视频地址:https://www.bilibili.com/video/av49363776?from=search&seid=17709076368945641839
特此致谢:生信技能树
101
需要了解的内容:TCGA的研究范围、数据来源、数据格式、数据储存、基本的生物学概念、肿瘤学知识、熟悉使用R语言
R语言教程:https://www.bilibili.com/video/av25643438?from=search&seid=2313097517440657329
102
配套代码:https://github.com/jmzeng1314/tcga_example 也可以把整个github上的代码打包下来(就是考验网速---事实证明:网速卒)
miRNA数据库:http://www.mirbase.org/
miRNA 的命名方式:(引自周凡,庄诗美.《microRNA与肿瘤》, 生命科学, 2008, 20(2):207-212. )
-
(1) miRNA 简写成miR,再根据其被克隆的先后顺序加上阿拉伯数字,如miR-21
-
(2) 高度同源的miRNA 在数字后加上英文小写字母(a、b 、c),如miR-199a 和miR-199b;
-
(3) 由不同染色体上的DNA序列转录加工而成的具有相同成熟体序列的miRNA,则在后面加上阿拉伯数字以区分, 如miR-199a-1 和miR-199a-2;
-
(4) 如果一个前体的2 个臂分别加工产生miRNA,则根据克隆实验,在表达水平较低的miRNA 后面加“”,如miR-199a和miR-199a,或进行如下命名,miR-142-5p(也可命名为miR-142-s,表示从5' 端的臂加工而来)和miR-142-3p(也可命名为miR-142-as,表示从3′端的臂加工而来);
-
(5) 将物种缩写置于miRNA 之前,如hsa-miR-195 ;
-
(6) 确定命名规则之前发现的miRNA,如let-7,则保留原来名字。
流程:
-
下载数据
-
提取表达矩阵、临床信息
-
差异分析---count用DEG+limma;micro-reads用limma
-
把每个结果存成Rdata
-
bach--logrank(去NA、修改变量名称、引入临床信息开始做生存分析---生存分析的几个统计学方法?)
-
bach--cox(cox回归,探究多因素对生存期的影响)及森林图制作
-
LASSO回归(听说要用泰勒公式展开,先放着)
-
(还有很多可以做的,慢慢去开发)
103
TCGA的用法:用于验证自己的数据,或者做了数据挖掘后,进行临床验证,可以多组学、多平台联合分析。多读文献多开脑洞
听说技能树承包了你2020生物信息学文献 https://mp.weixin.qq.com/s/7nvBDPZb2uGVglwJE7p_Rw
201
数据权限: 3级、4级才能下载分析;1级、2级需要申请下载。
大家记得去扫视频4:36 的二维码 https://www.bilibili.com/video/av49363776?p=4
测序--比对(BWA)--去除重复---碱基校正---BAM---IGV可视化---QC---mutation(somatic--体细胞突变--仅存在于特定组织中,不遗传给后代;germinal--种系突变--全身大部分细胞都突变,且可遗传 )---indels/purity(可下载作为数据校正)、ploidy/CNV/rearrangements(结构变异)----annotation
六种数据:外显子、表达数据、甲基化、蛋白质、CNV、临床信息、miRNA
网页工具
-
GDC---目前TCGA的整合
-
cbioportal--按照文章来分
-
UCSC---可以用Python下载
-
FIREHOSE
-
oncolnc---看生存相关专用
-
gepia
-
tanric---lncRNA
-
TCIA---与TCGA配套的影像资料
-
ICGC---比TCGA更大
202
GTEx: 可以与TCGA联合做正常 对照组或eQTL的分析
203---Xena
不需要编程
acdb994b-aa04-4a6c-8b52-2226e1984d99-4204432.jpg
关于筛选空白样本(左侧有黑色边框即为保留的)
bc55e617-1ddd-4532-bb8f-421182ba9859-4204432.jpg
- 可以直接找文献,官方也有帮助手册https://cbiit.webex.com/recordingservice/sites/cbiit/recording/play/d5a83a983b924f3dabe053dce439f754
- https://docs.google.com/presentation/d/1J0cbcWLkf4zL3q9sOCU8tRg7nvjYqlySMurRTTtDCrg/edit#slide=id.g36b4f396f2_0_278
- https://docs.google.com/presentation/d/1rZaMmNbx3zZ21wnOudncWjV3Gt7buYFDYC5UjYxl_lo/edit#slide=id.g78f6768f9d_1_931
读取数据出现空值要设置 fill=F,去除含空值数据:na.omit(),去除特定行的办法如下
b82270cb-5a76-4dc5-a3df-c7a8c3346cc8-4204432.jpg
204
firehose:http://gdac.broadinstitute.org/
(鉴于它数据更新的慢而且我已经学会了GDC全套,所以各位看视频吧)
205
文章规律(还是那句话:多看文章,多开脑洞,让技能树的文献推送承包你今年的文献吧)
https://mp.weixin.qq.com/s/7nvBDPZb2uGVglwJE7p_Rw
第三章单独写一个
从未想到GDC下载到数据合并整理
整整让我费了好久的脑子(大概是太久没做了)
尤其是304节,我整整看了四五遍才大致理清楚要怎么做
结果:脑子:懂了没,赶紧做;手:不,你不会。
网友评论