美文网首页
2023-05-22比较基因组分析大致流程

2023-05-22比较基因组分析大致流程

作者: Athena404 | 来源:发表于2023-05-21 17:55 被阅读0次

    1. 下机数据的质检,组装。基因组survey可以预测基因组大小。

    (三代测序长,但不准,可以用二代协助组装。还可以测HiC进行染色体级别的组装。不同的测序手段选择不同的组装软件)

    二代组装策略:

    小片段 insert size:170bp;500bp; 800bp
    大片段 insert size:1kb;2kb;5kb;10kb;20kb;
    主流组装工具
    ABySS
    IDBA
    SOAPdenovo2 动植物基因组组装常用且高效
    Velvet
    SPAdes 小基因组(<100Mb)组装时的首选
    Minia 速度快,内存资源最省
    MaSuRCA
    plantnus 适合高杂合度组装

    可能见到的名词

    de Bruijn Graph(DBG)算法
    Overlap-Layout-Consensus(OLC)算法

    三代组装策略

    测序方法:Pacific Biosciences (PacBio) Single Molecule Real Time (SMRT) 和Oxford Nanopore Technology (ONT)
    纠错
    组装
    polish提升准确度

    二、三代混合组装策略

    二代数据组装得到contig
    三代长读长序列延长contig,提升组装效果
    提升重复序列注释效果

    评价指标

    contig N50 使得累加后长度超过组装总长度一半的contig的长度就是N50
    对组装效果的评价主要依由于据组装序列的连续性、完整性和准确性。——3C原则:
    连续性(Contiguity): 得到的contig要足够的长
    正确性(Correctness): 组装的contig错误率要低
    完整性(Completeness):尽可能包含整个原始序列
    组装评价工具:BUSCO。(conda即可安装)

    2. 注释

    可分为重复序列注释,基因结构注释,基因功能注释,ncRNA注释

    重复序列注释

    denovo:TRF, LTR-finder / LTR-harvest / LTR-STRUC,Repeatmodeler …
    Homlog-based: RepeatMasker (Repbase),RepeatProteinMasker

    基因结构注释

    这个就很多了 也是分denovo(augustus等)和homlog(genewise等)。
    然后多种方法得到的基因集用EVM软件合并。有fasta文件和gff文件就可以得到基因序列和基因蛋白序列。BUSCO检查基因集完整度。

    基因功能注释

    GO,KEGG等,在线即可完成。需要pep文件。

    ncRNA注释

    我还没做过 不清楚

    3.有基因集后,可分析

    WGD鉴定,有基因集就能做。种间互相比,和已知WGD次数的模式物种比。生成一个曲线图。
    共线性。(MSCcanX)没有染色体可能不好比

    4.树是基本,不对的话就要调整。

    orthofinder可以提单拷贝同源基因(物种选择不要太多)也可以生成一个初级的树。orthofinder可以找到单拷贝同源基因(近缘物种间一般要达到200个基因左右 树才是准确性较高的)
    单拷贝同源基因构树:多序列比对(muscle)---->提取保守序列(Gblocks)---->选择模型(prottest)---->使用RAxML构建系统发育树。
    基因家族收缩扩张(CAFE5)在树的基础上去推算分化时间(r8s,timetree,mcmctree,iqtree)后做。

    5.特色基因的分析

    多看文献,找到相关基因家族(如MADS-box)在拟南芥(或者水稻)中相关的基因序列,然后blast比对,找到自己物种的基因序列,然后看数量,结构,序列构成的变化,进化选择压力。进行详细分析。

    345可以同时进行。互不影响

    相关文章

      网友评论

          本文标题:2023-05-22比较基因组分析大致流程

          本文链接:https://www.haomeiwen.com/subject/bdtzsdtx.html