popgene
下载地址
1.32为最新版,感觉这个软件好老
根据官方文档使用提供的文件/* Test Data Set II: Diploid Data */ 进行测试。
结果文件内容是,
Single-Population Descriptive Statistics:
1.群体1的第1-x位点 遗传多样性信息(因为结果文件里是缩写,需要查找相应的含义),
- 群体1 x位点的等位基因频率
- Summary of Genic Variation Statistics for All Loci
- Summary of Heterozygosity Statistics for All Loci
The Ewens-Watterson Test for Neutrality:
Multi-populations Descriptive Statistics:
Overall Allele Frequency :
Overall Summary Statistics:
遇到的问题:
1.好像只能计算种群之间的遗传距离,不同个体之间的遗传距离是不是需要从文件的格式下手
- 可自选需要分析的内容,根据作软件提供的样本数据可计算相应一些内容,先了解大概流程。
powermarker
案例
跟着案例操作,顺利得到个体聚类结果,看来还是得学一下ggtree
GneAlex
下载地址
相关文献引用一万七千多,666,下载GenAlEx 6.503 版本,This version offers access to all GenAlEx options via the Excel Ribbon, while at same time remaining backwards compatible with previous Windows versions of Excel.
excel 中 可通过加载项和 Gnealex 选项使用 宏
参数计算较简单,结果文件中有部分参数的计算公式,群体基础上的平均等位基因数没有表现出计算方法。目前只熟悉了 等位基因频率相关、AMOVA、主成分分析 。也都是一键操作。
Structure
structure下载地址
有四个相关文献,基本算法及扩展。有关于画图的软件及output数据的可视化软件介绍,
简单的操作流程
inputfile格式:整数标记基因型、不出现的基因型代表确实数据、格式为txt文件
第一列为个体变化(2行或一行),第二行为取样群体编号
文件内容
![](https://img.haomeiwen.com/i19317908/b145632a8968fc88.png)
一般选择混合模型
LOCPRIOR模型:利用取样位置作为先验信息来辅助聚类——用于结构信号比较弱的数据集
popflag :与已知参考群体比较,比较有用
Structure Harvester
将structure结果文件压缩,使用下面的网站进行一顿计算
Structure Harvester
使用自有数据出现数据,先使用网站自带结果数据可进行下一步分析。
![](https://img.haomeiwen.com/i19317908/67c07608ed9e2c12.png)
-Blackwell Publishing, Ltd.Detecting the number of clusters of individuals using the software
STRUCTURE: a simulation study
![](https://img.haomeiwen.com/i19317908/1e8eb8c8a3d07757.png)
一般选择混合模型
LOCPRIOR模型:利用取样位置作为先验信息来辅助聚类——用于结构信号比较弱的数据集
两个文件需要查看structure相关文件
indfile 内的内容是 某个体、所属取样群体、计算属于某个基因池的概率
popfile 内容是取样群体落入某基因池的概率,
clumpp
不明白这个软件是做什么用的。
distruct
使用Structure Harvester 网站提供的结果勉强做出结果
CLUMPAK
structure官网发现这个软件,好像是整合了clumpp与distruct的功能,
网页版CLUMPAK有两种格式input,除了structure还有admicture,这个运行速度快,好像只使用snp数据。
admixture下载
CLUMPAK 的网页版的使用速度慢,使用本地版本。本地版本是perl脚本,网上没有相关的教程,先看软件的手册。
3输入文件及参数
有3中 输入文件格式,2种stucture 格式1种admixture格式。手册里有Q-matrices这个概念,不清楚。
所有k一起压缩,或分k压缩再压缩为一个文件
3.1 Advanced options’ files
关于label color 的参数文件
3.2 Additional parameters
(1) input format
命令行更改输入的格式
(2) MCL threshold
不太懂这个参数的意义
(3) CLUMPP options within single K values
选择不同算法、更改input orders (REPEATS)不懂、更改check-up的threshold(与工作时间有关)
(4) CLUMPP options between K values
大概是根据不同的k 选择不同的比对算法,up to k=8 使用 consider all possible permutations,较大的使用greedy procedure.
4.Usage options
main pipeline, ‘DISTRUCT for many K’s’, ‘Compare’, and ‘Best K'. 四个模块功能
4.1 main pipeline
recommend using POP_DATE = 1. 含有群体分类,=0是需橙色群体分类文件,如无认为是一个群体
The basic command-line for the main pipeline is as follows:
perl CLUMPAK.pl --id <INTEGER> --dir <CLUMPAK_OUTPUT_DIR> --file <results.zip>
是否要先确定最佳k值,
5 CLUMPAK outputs
软件操作
perl CLUMPAK.pl
Can't locate List/MoreUtils.pm in @INC (you may need to install the Lis t::MoreUtils module) (@INC contains: /root/miniconda2/lib/site_perl/5.2 6.2/x86_64-linux-thread-multi /root/miniconda2/lib/site_perl/5.26.2 /ro ot/miniconda2/lib/5.26.2/x86_64-linux-thread-multi /root/miniconda2/lib /5.26.2 .) at StructureOutputFilesAccessor.pm line 7.
BEGIN failed--compilation aborted at StructureOutputFilesAccessor.pm li ne 7.
Compilation failed in require at CLUMPAK.pl line 8.
BEGIN failed--compilation aborted at CLUMPAK.pl line 8.
需要先安装需要的模块,使用cpanm安装所需模块,需要模块较多。
使用官网input文件顺利得到结果,`
cp: cannot copy a directory, ‘./’, into itself, ‘1’ 先忽略这个错误
Creating summary zip 1.zip
Finished creating zip
Done!
是否需要判断最佳k,先看一下结果文件。此软件为每一个k都画图。关于最后软件的配色可以更改文本文件。以及label也可以更改。
structure 每个k有多个run,不同k的同一个run有什么关系?
网友评论