faCount是UCSC中的一个工具,UCSC的安装可以看我的相关笔记。
faCount可以统计得到基因组数据中的总碱基数和基因组装配中缺失碱基数(即被标位N的碱基)。
有效基因组大小 = 总碱基数 - 被标为N的碱基数
$ faCount csi.chromosome.fa
#seq len A C G T N cpg
chr1 28800734 8998530 4599939 4612033 8991187 1599045 454414
chr2 30837053 9651458 4941569 4953578 9646645 1643803 477195
chr3 28714068 8835469 4553243 4556295 8807282 1961779 455628
chr4 19953105 6147050 3199362 3202541 6194030 1210122 313534
chr5 36146064 11203242 5782007 5785538 11207898 2167379 564410
chr6 21179577 6595931 3401500 3396773 6606163 1179210 336809
chr7 32205053 9868781 5124838 5113035 9845517 2252882 510283
chr8 22710839 6925300 3568907 3567985 6935555 1713092 347638
chr9 18450726 5609179 2911080 2926460 5646576 1357431 293562
chrUn 88947451 25456073 13151652 13216648 25413739 11709339 1250058
total 327944670 99291013 51234097 51330886 99294592 26794082 5003531
如上得到的数据中:
总碱基数 = 327944670
被标为N的碱基数 = 26794082
有效基因组大小 = 327944670 - 26794082 = 301150588
网友评论