文章摘自:https://www.jianshu.com/p/d9d76ce23822
https://www.jianshu.com/p/ff585b72f04e
简介:htseq-count 是一款用于reads计数的软件,他能对位于基因组上的一些单位的reads数进行统计,这里所说的单位主要是指染色体上的一组位置区间(我们常见的就是gene exon)
基本用法:
htseq-count [options] <alignment_file> <gff_file>
一般用法为: htseq-count *bam $gtf
-f <format>, –format=<format> :
指定输入文件的格式,<format> 可以是 sam (for text SAM files) 或 bam (for binary BAM files)格式,默认是sam.
-r <order>, –order=<order>
对于双端测序数据,必须要对SAM文件进行排序,对read name或 位置 进行排序皆可,通过 -r 可以指定您的数据是以什么方式排序的: <order> 可以是 name 或 pos , 默认是name.
如果你指定name(按read name 排序), htseq-count 期望输入的文件中的read pair是紧邻的2行;而指定pos (按位置排序) ,则不需要这样,进一步说,如果指定pos , 可以不排序,但这样会耗费更多的内存和效率。
-s 是否这个数据是来自链特异性建库(默认 yes)
-a 指定一个最低 read mapping质量值,低于值会被过滤掉,默认是10
-t 指定最小计数单位类型,默认值是:exon
-i GFF文件的一类属性,最终的计数单位,默认值是:gene_id
-m 判断一个reads属于某个基因的模型,默认:union
-n 指定多线程,默认是1
输出文件类似于:
ENSG00000000003.14 21
ENSG00000000005.5 8
ENSG00000000419.12 13
ENSG00000000457.13 65
......
ENSG00000282815.1 25
__no_feature 42987809 #不能对应到任何单位类型的reads数
__ambiguous 183025 #不能判断落在那个单位类型的reads数
__too_low_aQual 0 #低于-a设定的reads mapping质量的reads数
__not_aligned 0 #存在于SAM文件,但没有比对上的reads数
__alignment_not_unique 0 #比对到多个位置的reads数
计数原理:
![](https://img.haomeiwen.com/i6634703/10f85c6577893ca9.png)
网友评论