美文网首页
2023-04-16 | 先对第一列排序再对第二列排序

2023-04-16 | 先对第一列排序再对第二列排序

作者: 汪大山 | 来源:发表于2023-04-15 16:18 被阅读0次

    很适合我们的基因组文件,先对染色体排序,再对位点排序

    sort -k1,1V -k2,2n  aa > bb
    

    具体解释如下:

    sort :排序命令
    -k1,1V :按照第1个字段排序,起始字段为1,终止字段为1,即只按照第1个字段排序,V以自然语言方式进行排序
    -k2,2n :按照第2个字段排序,n以数字方式进行排序
    aa :要排序的文件名
    bb :将排序后的结果输出到文件 bb 中,如果文件 bb 不存在,则创建该文件;如果文件 bb 已存在,则覆盖原有内容。

    因此,该命令的含义是:将文件 aa 按照第1个字段和第2个字段排序,按照第1个字段进行升序排序,如果第1个字段相同,则按照第2个字段以数字方式进行升序排序,最后将排序后的结果输出到文件 bb 中。

    例子:用gff文件作为vep的annotation source

    grep -v "#" data.gff | sort -k1,1 -k4,4n -k5,5n -t$'\t' | bgzip -c > data.gff.gz
    tabix -p gff data.gff.gz
    ./vep -i input.vcf --gff data.gff.gz --fasta genome.fa.gz
    

    相关文章

      网友评论

          本文标题:2023-04-16 | 先对第一列排序再对第二列排序

          本文链接:https://www.haomeiwen.com/subject/bcuxjdtx.html