美文网首页试读生信
三代STR检测软件tandem-genotype实操

三代STR检测软件tandem-genotype实操

作者: 生信阿拉丁 | 来源:发表于2021-10-10 18:15 被阅读0次

作者:大行山
审稿:童蒙
编辑:angelica

背景

在人类基因组中有近一半的序列为重复序列,根据重复序列的重复单元长度分为STR、微卫星、转座元件等。目前已知有30多种疾病跟STR有关。这里介绍的软件tandem-genotypes,主要针对STRs。

软件操作

软件tandem-genotypes的主要操作步骤包括:
1.基因组数据库构建
2.数据比对
3.检测重复序列
4.多样本合并
5.结果展示及可视化

1.数据库构建

在检测TRs分析中,推荐使用GRCh38,该版本的基因组注释更全,得到的STRs相对更准确。该步骤,所有项目都是一样的,其实就是检索参考基因组中的重复序列,包括4步。

windowmasker -mk_counts -mem 10000 -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wmstat
windowmasker -ustat GRCh38.wmstat -outfmt fasta -in Homo_sapiens.GRCh38.100.chr.fa > GRCh38.wm.fa
lastdb -P 8 -u YASS -R 11 -c GRCh38_db GRCh38.wm.fa
tantan -f 4 -w 2000 Homo_sapiens.GRCh38.100.chr.fa > GRCh38.tantan_out

2.比对

在该步骤中可以参考上面的流程图,主要包括2步,第一步是预测测序的碱基错误率,第二步是比对。

last-train -P 8 -Q 0 GRCh38_db M430a1.par
lastal -P 8 -p M430a1.par GRCh38_db M430a0.ccs.fq |last-split > M430a0.maf

3.检测重复序列

可以看到前面的分析主要使用的是其他软件,到这里才开始使用tandem-genotypes,该软件主要用来鉴定STR。

tandem-genotypes -n 10 -g GRCh38_refGene.flat.txt GRCh38.tantan_out M430a0.maf > M430a0.TR.genotype

4.多样本结果合并

这个步骤主要是在人群上比较不同样本之间STRs的差异,便于筛选候选致病的STRs。

tandem-genotypes-join M430*genotype > sample.M430.merge.out

5.结果显示及可视化

这里展示3个样本的合并结果中的第一个结果。表1 结果示例



对该结果进行可视化,命令如下:

/minicoda3/bin/python3.9 /tandem-genotypes-master/tandem-genotypes-plot sample_all.merge.out
图:tandem-genotypes结果展示。横坐标表示STR的拷贝数,纵坐标表示支持该拷贝数的reads数目。红色表示链1或者正链的reads,蓝色表示链2或者负链的reads。

注意

在数据库构建过程中,为了加快速度,可以考虑拆分为单个染色体进行,最后再合并。

总结

软件tandem-genotypes支持在全基因组范围内检测STR,需要输入的数据包括三代测序数据,参考基因组fa文件,参考基因组基因信息。如果参考基因组版本不变,其中的建库步骤可以一次完成,多次使用。该软件整体使用友好,结果可读性好,满足STR的基本需求。

参考资料

  1. Koning A D , et al. Repetitive elements may comprise over two-thirds of the human genome.[J]. PLoS Genetics, 2011, 7(12):e1002384.
  2. Liehr, T. Repetitive Elements in Humans. Int. J. Mol. Sci. 2021, 22, 2072
  3. Mitsuhashi, S. , et al. "Tandem-genotypes: robust detection of tandem repeat expansions from long DNA reads." Genome Biology 20.1(2019):58-.
  4. Tandem-genotypes:https://gitee.com/bucongfan/tandem-genotypes

相关文章

  • 三代STR检测软件tandem-genotype实操

    作者:大行山审稿:童蒙编辑:angelica 背景 在人类基因组中有近一半的序列为重复序列,根据重复序列的重复单元...

  • day5(6.21)

    上午 跟随常玉莹去我爱我家(秋岚路)做了一个实操,教他们如何用怎么用我们的软件,六星地产实操培训 小经验:实操尽量...

  • monocle实操+细胞功能富集分析

    monocle实操 1 软件安装 1.1 conda安装——Linux https://anaconda.org/...

  • 实操Redission

    实操Redission 分布式对象(一)实操Redission 分布式Map集合(二)实操Redission 分布...

  • 判断密码强度

    Python字符串 str.isnumeric()检测字符串是否只由数字组成str.isalpha()检测字符串是...

  • 学员Ray Day-3

    linux环境下的软件安装 今日内容重实操,笔记从略,记录要点 初识conda conda——anaconda——...

  • 生信星球学习记录Day2-HEYi😛

    Linux 基本命令 实操一 实操二 实操三3 实操四 练习题 如何输出长格式列表,以及显示文件大小ls -l ...

  • 轻量级卷积神经网络的设计技巧

    作者:zhouyuangan 这篇文章将从一个证件检测网络(Retinanet)的轻量化谈起,简洁地介绍,我在实操...

  • 三代SV检测软件之cuteSV

    作者:大行山审稿:童蒙编辑:angelica 三代测序在检测基因组结构变异方面有着很大的优势,但是由于数据分析算法...

  • 今日所学

    长见的操作查找 1.string.find(str, beg=0, end=len(string)) 检测 str...

网友评论

    本文标题:三代STR检测软件tandem-genotype实操

    本文链接:https://www.haomeiwen.com/subject/hgwholtx.html