美文网首页生信基础知识
滑窗统计基因组的一些特征值比如基因密度和GC含量

滑窗统计基因组的一些特征值比如基因密度和GC含量

作者: 深山夕照深秋雨OvO | 来源:发表于2023-02-26 16:59 被阅读0次

    1.划分窗口
    bedtools makewindows -g Chr.length -w 50000 > 50k.windows


    Chr.length就是每条染色体的长度

    2.计算每个滑窗内基因的数量 #同理可以换成任何其余东西比如SNP
    grep -w "gene" input.gff | awk '{print 1"\t"4"\t"$5}' > gene.pos

    gene.pos长这样,每个基因的位置信息, 只要前三列的信息就行,其余无所谓

    bedtools intersect -a 50k.windows -b gene.pos -c > out

    最后的结果和TBtools输出的一致,光拿基因密度来说
    如果不需要基因密度为0的窗口的信息,还是用TBtools方便一点,后续画什么Circos图啥的
    TBtools Ref: https://www.jianshu.com/p/801807865864

    1. 滑窗统计基因组GC含量
      seqkit sliding -s 100000 -W 100000 input.fa | seqkit fx2tab -n -g > out

    用TBtools输出文件看着舒服很多,还顺带有N,GC skew两个参数
    https://www.jianshu.com/p/de97067136a9

    3.1. 滑窗统计基因组GC含量
    但是上述两个方法会有一个细节问题,比如我以50kb滑窗计算GC含量
    如果最后一个窗口没有50kb这么长,seqkit会跳过这个窗口,TBtools则是会把最后一个窗口并入到前一个窗口中

    所以最后改用 https://www.cnblogs.com/liujiaxin2018/p/16567643.html提供的脚本
    即使最后一个窗口没有50kb,也会照常计算, 唯一的缺点是运行的相对慢一点

    相关文章

      网友评论

        本文标题:滑窗统计基因组的一些特征值比如基因密度和GC含量

        本文链接:https://www.haomeiwen.com/subject/xhdcldtx.html