在数据分析中,软件经常会要求参考基因组对应的chrom.sizes文件,该文件保存了基因组中的染色体名称已经对应的长度,例如,第一列为染色体名称,第二列为染色体的长度。
head hg19.chrom.sizes
chr10 135534747
chr11 135006516
chr11_gl000202_random 40103
chr12 133851895
chr13 115169878
chr14 107349540
chr15 102531392
chr16 90354753
chr17_ctg5_hap1 1680828
chr17 81195210
第一种方式:利用samtools进行提取
samtools的faidx命令可以获取fasta文件中的序列长度信息,从其生成的后缀为fai的文件中可以获得chrom.sizes文件
samtools faidx hg19.fa
cut -f1,2 hg19.fa.fai > hg19.chrom.sizes
第二种方式:从UCSC下载
这种方法适用于UCSC中已有的物种。以hg19为例,在UCSC的FTP中直接提供了对应的chr.sizes文件,下载红框标记的chrom.sizes文件即可。
image.png
image.png
image.png
hg38链接:https://hgdownload.cse.ucsc.edu/goldenpath/hg38/bigZips/hg38.chrom.sizes
网友评论