linux学的半半拉拉,觉得需要用实战来激励一下,之后再回过头还要再学linux的哦。所以先来ChIP-seq吧,这个挺急需的,去年的数据估计也需要用这一套流程来跑。感谢Jimmy大神无私地录教程。https://www.bilibili.com/video/BV16s411T7Fh?spm_id_from=333.999.0.0
一、表观遗传学背景知识,ChIP-seq第1-4讲。
二、ChIP-seq第5讲-数据分析流程主干和侧枝
1. 步骤大同小异:
1.1 下机数据处理
raw data转换,quality control。
1.2比对到参考基因组
1.3确定与目的蛋白结合的DNA以及其结合区域。
call peak-通常是用MACS2来找到peaks。有的可以IGV可视化。
1.4单个样品的蛋白结合峰进行分析
包括结合峰相关基因的注释、GO分析KEGG通路富集分析和motif分析,主要是 motif和peaks的注释。
1.5对多个样品可进行差异结合峰分析
包括差异结合峰相关基因的注释、GO分析、KEGG通路富集分析和motif分析。即多次重复的相关性,或者处理前后peaks差异的对比。
1.6结合配套的RNA-seq或lncRNA-seq数据
还能对目的蛋白的调控机制做进一步的深入分析。
2. 多种文件格式和转换:
从知乎大神-生信宝典这里学习到https://zhuanlan.zhihu.com/p/436823899
2.1 sam,bam
这些之前都知道啦。bam和sam文件可以帮助我们探索reads在参考基因组中的比对情况。
2.2wiggle(简称wig
)、bigwig(简写bw
)以及bedgraph(简写bdg
)
只包含区域和区域的覆盖度信息,文件更小,用于可视化更方便,可以导入基因组浏览器(Genome Browser)中进行可视化,以查看reads在参考基因组各个区域的覆盖度并检测测序深度。这几个文件在[ChIP-seq数据分析]、Call Peak阶段会生成,可以利用[IGV]等工具进行可视化,方便查看组蛋白修饰的程度。
wig文件包括染色体长度,步长多少,span多少
bw文件,bigWig是 wig文件的二进制压缩格式,可通过wigToBigWig工具转换。bw文件可以直接导入IGV。
bedGraph: bed与wig的结合,更省空间和灵活,展示信息与wig类似。
2.3 bed 文件
分析过程中的bed文件一般代表区域信息,如表示Peak位置的bed文件,表示基因注释的bed12文件。
3. 要通过阅读文献具体了解实际应用。
下文可以详读。
Pedro Rosmaninho et al, Zeb1 potentiates genome‐wide gene transcription with Lef1 to promote glioblastoma cell invasion, The EMBO Journal (2018). DOI: 10.15252/embj.201797115
网友评论