美文网首页数据处理与作图/系统发育
统计基因组中repeat的种类和数量

统计基因组中repeat的种类和数量

作者: 徒唤奈何_c5f0 | 来源:发表于2023-03-26 10:13 被阅读0次

1 使用shell grep命令统计(可得到每种类型的数量)

grep -v '^#' example.gff | cut -f 9 | cut -f 2 -d ';' | cut -f 2 -d '=' | sort | uniq -c >> output.txt

或者使excel中数据透视表的功能实现(对windows的要求较高)

2 统计每个CLASS类型的序列总长度

**awk '/LTR\/R1/ {sum += $5-$4} END {print "LTR/R1", sum > "output.txt"}' repeat.gff
awk 'BEGIN{FS="\t";OFS="\t"}NR==FNR{a[$1]=$5-$4;next}{if($1 in a){print $0,a[$1]}}' repeat.gff input.txt > output.txt**

/LTR/R1/(另一个斜杠需要加反斜杠)
这些均可使用处理大批数据的access或者power bi实现,excel可能会遗漏部分数据

3 使用python脚本实现

# 打开文件
with open('repeat.gff', 'r') as infile:
    # 初始化字典
    class_dict = {}
    # 逐行处理
    for line in infile:
        # 忽略注释行
        if line.startswith('#'):
            continue
        # 分割行数据
        cols = line.strip().split('\t')
        # 获取Class类型和序列长度
        class_type = cols[8].split(';')[1].split('=')[1]
        seq_len = int(cols[4]) - int(cols[3]) + 1
        # 累加序列长度
        if class_type in class_dict:
            class_dict[class_type] += seq_len
        else:
            class_dict[class_type] = seq_len

# 输出结果
for class_type, seq_len in class_dict.items():
    print(f"{class_type}\t{seq_len}")

以上代码来自于chatgpt,统计gff中其他类型数据的种类和数量可以通过修改该代码实现。

相关文章

  • RAC的repeat数量计算

    数量计算——repeat:

  • js 统计页面标签种类及数量

    统计页面标签种类 统计页面中每个标签的出现次数,及出现次数最多的标签 第一步:取得页面所有的标签 第二步:取得标签...

  • repeat注释---EDTA

    以前做基因组的repeat注释的时候,我一般都是采用repeatmasker/model的,在注释大点的基因组,尤...

  • 青铜器

    青铜器特点 中国青铜器数量大,种类繁多。究竟中国有多少件青铜器物,这是谁也无法统计的数字。正因为数量大,中...

  • 申请美本择校三策略

    据不完全统计,美国有4000多多高等院校,美国大学数量和种类繁多,每所学校都有各自的个性和特点,如何从这么多院校中...

  • 群体DNA甲基化分析1——基因组各个组分相关统计

    写于20201114这部分,我是进行了基因组各个组分的一些统计。详细内容如下: 01.DMR和NSR在基因组中各个...

  • MySQL 统计总数和各分组数量

    在MySQL统计查询中,一次性的统计出表中的总数和各个分组内的数量 结果截图如下:

  • 统计redis中key的数量

    背景 需求:测试需要统计redis中某类key的数量 redis中可以使用keys命令来查看指定表中所有的key。...

  • 宏基因组介绍

    宏基因组基本概念自然界中存在数量巨大、种类繁多的微生物,人类目前仅分离培养了其中很小的一部分。如何清楚的认识环境样...

  • Excel 统计符合多个条件中任意一个条件的单元格数量

    这种类型的问题实际工作中比较常见。例如,统计公司某几个部门的人数,统计在指定某几年出生的员工数量等等。 这类问题的...

网友评论

    本文标题:统计基因组中repeat的种类和数量

    本文链接:https://www.haomeiwen.com/subject/szeordtx.html