重复区域注释

作者: 晓佥 | 来源:发表于2019-06-06 08:57 被阅读69次

    1.UCSC上重复区域文件rmsk.txt.gz

    将rmsk文件根据重复序列分类需求转换为bed文件:
    grep LINE rmsk.txt | awk -F"\t" '{print $6,$7,$8,$10}' |sed 's/ /\t/g'>LINE.bed

    重复类型:

    Short interspersed nuclear elements (SINE), which include ALUs
    散在重复序列是与串联重复序列的组织形式不同的另一类重复序列,是散在方式分布于基因组内的散在重复序列。
    ALU 序列属于SINE, 人类基因组10%以上。Alu重复序列由于这种DNA序列中有限制性内切核酸酶AluⅠ的识别序列AGCT,所以称为Alu重复序列
    Long interspersed nuclear elements (LINE)
    重复序列单元长度在1,000 bp以上的散在重复序列称为长散在重复序列。
    Long terminal repeat elements (LTR), which include retroposons
    长末端重复序列(LTR):反转录病毒的基因组的两端各有一个长末端重复序列(5’—LTR和3’—LTR),不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的LTR可转移到细胞原癌基因邻近处,使这些原癌基因在LTR强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。
    DNA repeat elements (DNA)
    Simple repeats (micro-satellites)
    重复单元为1-6个bp, 重复数目在5-50,也有可能更多。简单重复序列,比如 单碱基重复Tn、 二碱基重复(CG)n、三碱基(CAG)n重复等。
    遗传多态性,突变率高于基因组其他区域
    Low complexity repeats
    低复杂重复
    Satellite repeats
    卫星序列, 重复单元、重复数目都比微卫星要多。
    RNA repeats (including RNA, tRNA, rRNA, snRNA, scRNA, srpRNA)
    Other repeats, which includes class RC (Rolling Circle)
    环状DNA重复
    Unknown

    2.Repbase数据库:

    https://www.girinst.org/repbase/
    Repbase是最常用的重复DNA元件数据库

    3.RepeatMasker :

    http://www.repeatmasker.org/
    RepeatMasker是一个筛选散布重复序列和低复杂度DNA序列的DNA序列的程序。 程序的输出是查询序列中存在的重复的详细注释,以及查询序列的修改版本,其中所有带注释的重复都已被屏蔽(默认值:由Ns替换)。
    RepeatMasker利用精选重复库,目前支持Dfam(源自Repbase序列的配置文件HMM库)和遗传信息研究所的服务Repbase。

    4.RepeatModeler:

    http://www.repeatmasker.org/RepeatModeler/
    是一个从头重复的家庭识别和建模包。 核心是两个从头重复发现程序(RECON和RepeatScout),它们采用互补计算方法从序列数据中识别重复元素边界和家族关系。 给定基因组数据库,RepeatModeler协助自动运行RECON和RepeatScout,并使用输出构建,改进和分类推定的散布重复序列的共识模型。

    5.PILER

    (Parsimonious Inference of a Library of Elementary Repeats)(初级重复文库的简明推理)在基因组序列中搜索重复元素。输入是一组一个或多个DNA序列。 通常,输入是基因组或基因组的子集,例如染色体。
    PILER实现了四种搜索方法,每种方法都旨在找到特定的重复类。 它们总结在下表中:


    6.GATK HC VariantAnnotator

    -A 接参数 TandemRepeatAnnotator
    -A 其他参数 https://www.jianshu.com/p/c1232ba4e2cc

    INFO=<ID=STR,Number=0,Type=Flag,Description="Variant is a short tandem repeat">
    INFO=<ID=RU,Number=1,Type=String,Description="Tandem repeat unit (bases)">
    INFO=<ID=RPA,Number=.,Type=Integer,Description="Number of times tandem repeat unit is repeated, for each allele (including reference)">


    相关文章

      网友评论

        本文标题:重复区域注释

        本文链接:https://www.haomeiwen.com/subject/bafyxctx.html