美文网首页测序文件常见操作
获取参考基因组chrom.sizes文件的2种方式

获取参考基因组chrom.sizes文件的2种方式

作者: Z_bioinfo | 来源:发表于2022-03-24 11:00 被阅读0次

在数据分析中,软件经常会要求参考基因组对应的chrom.sizes文件,该文件保存了基因组中的染色体名称已经对应的长度,例如,第一列为染色体名称,第二列为染色体的长度。

head hg19.chrom.sizes
chr10   135534747
chr11   135006516
chr11_gl000202_random   40103
chr12   133851895
chr13   115169878
chr14   107349540
chr15   102531392
chr16   90354753
chr17_ctg5_hap1 1680828
chr17   81195210

第一种方式:利用samtools进行提取

samtools的faidx命令可以获取fasta文件中的序列长度信息,从其生成的后缀为fai的文件中可以获得chrom.sizes文件

samtools faidx hg19.fa
cut -f1,2 hg19.fa.fai > hg19.chrom.sizes

第二种方式:从UCSC下载

这种方法适用于UCSC中已有的物种。以hg19为例,在UCSC的FTP中直接提供了对应的chr.sizes文件,下载红框标记的chrom.sizes文件即可。

image.png
image.png
image.png
image.png
hg38链接:https://hgdownload.cse.ucsc.edu/goldenpath/hg38/bigZips/hg38.chrom.sizes

相关文章

网友评论

    本文标题:获取参考基因组chrom.sizes文件的2种方式

    本文链接:https://www.haomeiwen.com/subject/ibqhjrtx.html