bam和peak之后都可IGV可视化
一、windows的IGV安装及使用方法(略)
二、bam和bai文件导入无图问题
因为sam转为bam过程中没有加-h这个参数。输入文件要求:sort过、有index、包括header信息的bam文件
samtools view -Sbh...才行。
day21中的脚本命令:samtools view -@ 5 -Sbh sample.sam -b >sample.bam
所生成的bam文件无header(默认不带header),所以IGV中不能显示图。
三、IGV所用的genome应该和bowtie2用的保持一致
ssDNA数据bowtie2用的hg19,而去年公司分析ssDNA数据是比对到hg38的。
我重新比一次吧。
hg38版本的index在bowtie2网站上有三种:
http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#how-is-bowtie-2-different-from-bowtie-1
H. sapiens, GRCh38 no-alt analysis set NCBI ,似乎这个更常用,用这个吧。
H. sapiens, GRCh38 no-alt +decoy set NCBI
H. sapiens, GRCh38 + major SNVs NCBI+1KG
在用改名命令rename -v GRCh38_noalt_as hg38 *
把所有文件都改成hg38为前缀的文件。
四、一个小技巧,建立文件夹
project=/data/zds209/ssresult
ls $project | if [ ! -d trim ]; then
mkdir -p $project/trim;
fi
!是取相反
-d 文件夹
ls project文件夹下的文件,管道命令给if,如果没有trim这个文件夹那么就建立一个文件夹trim,-p 参数的意思是,万一有这个,那么也不要报错哦,继续运行就是啦。
五、复习bam、bedgraph、bw几种文件格式的意义
fatstq文件比对后得到sam,转为二进制的bam文件,但是bam文件非常的大,处理起来很不方便。如果我们只是想知道这些read都比对到了基因组的什么区域,以及基因组上每个区域有多少read存在,此时用wig/bw/bdg则会更加方便。也就是用wig/bw/bdg文件可以追踪比对到的序列的覆盖度和测序深度。
1. bedgraph(bdg)和bed的关系
就是MACS2 - B那个命令生成的bed和bdg。
peak calling后的bed⽂件最短只有三列,染⾊体序号,染⾊体起始位置和结束位置,就是这些peak比对到了参考基因组的什么位置。而 bedgraph则还多最后第1行的设置信息和第4列的测序深度信息。也就是把bedgraph的前三列抽出来,就是bed啦。
2. wig和bigwig(bw)的关系
wig里面标注了从起点,终点的位置,测序深度等信息。bigWig文件为wig文件进行了索引二进制格式。
网友评论