最近疲于整文章,写本子,所以很久木有跟新啦。
今天终于可以整理一下先前的工作啦~~
一、转录组定量
转录组定量的软件有太多了,网上一搜一大堆。但是,原理原理大同小异,选一个你自己趁手的就行。
我这里就选择:Hisat2——samtools——featureCounts——DEseq2/edgeR
1、Hisat2比对
1.1、安装
去官网(http://daehwankimlab.github.io/hisat2/)下载。
按照readme文件装在服务器上即可。
1.2、比对
需要参考基因组文件和fastQ文件。
人的参考基因组文件,Hisat2官网上有直达的链接。(真是方面,用户体验满分)
然后就是自己的测序文件。
hisat2 -q -x ../reference/hg38 -1 ../rawdata/control-2_1.clean.fq.gz -2 ../rawdata/control-2__2.clean.fq.gz -S control-2.sam
最后的-S后面是输出文件,是sam格式。
2、samtools格式转换
刚才得到的sam文件需要一系列转化,换成featureCounts可识别的bam文件。
具体脚本如下:
samtools view -bS control-2.sam > control-2.bam
samtools sort control-2.bam -o control-2.sorted.bam
提示,
在上述步骤的时候要格外注意服务区的线程数和内存。
我发现了很多次,在转换的时候如果任务太多,会被挤掉。
3、featureCounts定量
这里就是需要把所有样本的每个基因进行定量。
需要提前准备人的基因组注释文件genes.gtf
这个Hisat2官网上貌似也有。
命令:
featureCounts -p -t exon -g gene_id -a ../reference/genes.gtf -o counts.txt control-2.sorted.bam control-3.sorted.bam
-o后面 是输出文件
最后是所有的样本的bam文件。
我这里只记录集体的操作方法,不会写具体的原理。
原理你们自己去google(百度)都行。
哈哈,实在是不想写那么多字。
网友评论