1. 下机数据的质检,组装。基因组survey可以预测基因组大小。
(三代测序长,但不准,可以用二代协助组装。还可以测HiC进行染色体级别的组装。不同的测序手段选择不同的组装软件)
二代组装策略:
小片段 insert size:170bp;500bp; 800bp
大片段 insert size:1kb;2kb;5kb;10kb;20kb;
主流组装工具
ABySS
IDBA
SOAPdenovo2 动植物基因组组装常用且高效
Velvet
SPAdes 小基因组(<100Mb)组装时的首选
Minia 速度快,内存资源最省
MaSuRCA
plantnus 适合高杂合度组装
可能见到的名词
de Bruijn Graph(DBG)算法
Overlap-Layout-Consensus(OLC)算法
三代组装策略
测序方法:Pacific Biosciences (PacBio) Single Molecule Real Time (SMRT) 和Oxford Nanopore Technology (ONT)
纠错
组装
polish提升准确度
二、三代混合组装策略
二代数据组装得到contig
三代长读长序列延长contig,提升组装效果
提升重复序列注释效果
评价指标
contig N50 使得累加后长度超过组装总长度一半的contig的长度就是N50
对组装效果的评价主要依由于据组装序列的连续性、完整性和准确性。——3C原则:
连续性(Contiguity): 得到的contig要足够的长
正确性(Correctness): 组装的contig错误率要低
完整性(Completeness):尽可能包含整个原始序列
组装评价工具:BUSCO。(conda即可安装)
2. 注释
可分为重复序列注释,基因结构注释,基因功能注释,ncRNA注释
重复序列注释
denovo:TRF, LTR-finder / LTR-harvest / LTR-STRUC,Repeatmodeler …
Homlog-based: RepeatMasker (Repbase),RepeatProteinMasker
基因结构注释
这个就很多了 也是分denovo(augustus等)和homlog(genewise等)。
然后多种方法得到的基因集用EVM软件合并。有fasta文件和gff文件就可以得到基因序列和基因蛋白序列。BUSCO检查基因集完整度。
基因功能注释
GO,KEGG等,在线即可完成。需要pep文件。
ncRNA注释
我还没做过 不清楚
3.有基因集后,可分析
WGD鉴定,有基因集就能做。种间互相比,和已知WGD次数的模式物种比。生成一个曲线图。
共线性。(MSCcanX)没有染色体可能不好比
4.树是基本,不对的话就要调整。
orthofinder可以提单拷贝同源基因(物种选择不要太多)也可以生成一个初级的树。orthofinder可以找到单拷贝同源基因(近缘物种间一般要达到200个基因左右 树才是准确性较高的)
单拷贝同源基因构树:多序列比对(muscle)---->提取保守序列(Gblocks)---->选择模型(prottest)---->使用RAxML构建系统发育树。
基因家族收缩扩张(CAFE5)在树的基础上去推算分化时间(r8s,timetree,mcmctree,iqtree)后做。
5.特色基因的分析
多看文献,找到相关基因家族(如MADS-box)在拟南芥(或者水稻)中相关的基因序列,然后blast比对,找到自己物种的基因序列,然后看数量,结构,序列构成的变化,进化选择压力。进行详细分析。
345可以同时进行。互不影响
网友评论