学习资料B站视频:生物技能树 第八季转录组测序数据分析
“学好一个东西,再去扩展到其他东西,只要稍微有点儿逻辑和认知理解能力,是很容易的。”——jimmy老师在本季课中的语录。
一、转录组分析基本流程
质控&清洗:需要参考基因组gtf文件,参考转录组genome.fa文件。软件:fastqc,multiqc,trimgalore,cutadaptor(这几个软件都是和ChIP-seq的一样啊),Trimmomatic
比对:STAR,HISAT2,TOPHAT2,SUBREAD
计数定量获得表达矩阵:featureCounts,htseq-counts,bedtools
归一化&差异分析:DEseq2,edge2,limma(voom)
差异分析:
功能富集
二、生物信息学常识
1. linux(在生信人如何学linux里面学过)
去可视化
安装软件及conda
文本处理及脚本
环境变量
2. 数据库(初步接触过,待深入学习)
三大数据中心: NCBI、ENSEMBLE、UCSC
3.语言
R要持续继续学
perl或python选一个学,优选python
4. 各种数据格式
三、linux操作复习常用命令
- 在shell软件或者Mac的终端里中输入ssh xxx@X.X.X.X登录。
- ls -lh 查看当前目录下文件和文件夹
- du -sh 查看当前目录总共占用的磁盘空间大小
- cd 改变当前目录
四、转录组常识
1.测序常识
2.转录组研究RNA,在gtf文件可以查基因转录本的长度。
GTF全称为gene transfer format,主要是用来对基因进行注释,就是指出某基因在那个染色体的那个位置,以及其他特征。可以去ensembl或genecode下载。
比如要下载人的:
ftp://ftp.ensembl.org/pub/release-93/gtf/homo_sapiens/Homo_sapiens.GRCh38.93.gtf.gz
https://www.gencodegenes.org/human/
3.实验设计
*生物学重复比同一个样本高深度测还要重要。宁可多测几个样本,也不要可着一个样本加深去测。这样假阴性就比较少。
*经费充足条件下,动物组织样本最好n大于等于6;细胞最好n大于等于3;人类样本最好大于等于30。。。
*spike-ins 并不是非要加的
网友评论