注释一般有以下几种方法,但是一般经验有:
1.比对时下载UCSC格式的参考基因组,后续操作障碍少
2.数据准备要严格按照软件的说明,若遇到格式正确就是读不进的情况,试试dos2unix file
1.ChIPseek在线工具
特点:在线,使用简单,运算速度非常快,实质是后台调用了HOMER和bedtools
TSS区域不能自己定义,观察了一下软件的定义应该是+-1000bpTSS。
input:只需准备UCSC格式的bed文件或者txt,总之染色体号是chr的而不是NC_0000的。
out:所有注释的列表txt,diffpeaks基因组分布图,还可以得到peak sequence。
2.bedtools -intersect
原理:本质是找两个文件的overlap,这里两个文件一个是注释文件一个是peaks文件的话,就相当于把peaks文件注释了。
命令:bedtools intersect -wa -wb -a */A549K27.bed -b */hs19_anno.bed
input:注释和peaks文件都要是bed/gff/vcf/bam格式,xls转的时候要注意,先xls-txt-bed
在linux中cat打不开就是格式错误,需要认真准备,或:dos2unix file
转化成linux系统识别的格式。
3.R包CHIPseeker
特点:很综合,能自定义TSS的区域范围。
缺点:包太大,需要安装、调用不计其数的包,不好安装。本次尝试多次多个版本的R均未成功。
*2.27看B站jimmyzeng教程,也提到Y叔的包需要调用大量的包,里面一旦有一个更新了其他都要更新才能用,尤其是DOSE这个包。
4.HOMER
注释peak,安装起来比较复杂,可以用conda安装。
还可以find motif,这个功能与MEME相似。
至此我的ChIP分析的前半段就结束了,后面是寻找我感兴趣的目标基因的差异peak情况,不方便共享,不过方法就是一系列shell操作,还需要多练习,野蛮生长,每天进步~
网友评论