GBS hapmap 格式转化为Plink格式：tassel

作者: 育种数据分析之放飞自我 | 来源:发表于2019-08-01 07:31 被阅读1次

GBS hapmap 格式转化为Plink格式：tassel
hapmap 格式转化为Plink格式方法
VCF格式转换(plink, hapmap)
【Plink】Error: Multiple instances
plink各种格式转换
treemix使用2021-03-11
2021-04-01 文献中对Fit的理解
转变Genotype数据格式（Hapmap，Plink ，VCF
如何反向推断基因型文件中的参考碱基（REF/ALT）？
2021-03-17 在linux上将vcf文件转plink的格

1. 参考资料

https://zhuanlan.zhihu.com/p/38590403
环境：linux系统

2. 安装软件

首先，要安装anaconda或者miniconda，然后使用conda install进行软件安装, 安装conda方法：
https://docs.anaconda.com/anaconda/install/linux/

2.1 安装tassel

tassel的按照方法，使用git将文件copy到本地，然后将里面的内容（可执行文件） copy到home下的bin文件中，不用设置路径了。

git clone https://bitbucket.org/tasseladmin/tassel-5-standalone.git

2.2 安装vcftools

https://anaconda.org/bioconda/vcftools

conda install -c bioconda vcftools

2.3 安装R语言

https://anaconda.org/r/r

conda install -c r r

3. 文件格式

3.1 hapmap格式：`genotype.hmp.txt`

行头：

rs#    alleles    chrom     pos     strand    assembly#    center    protLSID    assayLSID    panelLSID    QCcode    sample1 sample2 ...

内容：

rs#     alleles chrom   pos     strand  assembly#       center  protLSID        assayLSID       panelLSID       QCcode  Sample_YCX334/12Sample_ya>1:1151  C       1       1151    +       NA      NA      NA      NA      NA      NA      N       N       N       C       C       C       N       C>1:1203  T/C     1       1203    +       NA      NA      NA      NA      NA      NA      T       N       T       N       T       T       T       T>1:1249  A/C     1       1249    +       NA      NA      NA      NA      NA      NA      A       N       A       N       A       A       A       A>1:1266  G/A     1       1266    +       NA      NA      NA      NA      NA      NA      G       N       G       G       G       G       G       N>1:1277  T/C     1       1277    +       NA      NA      NA      NA      NA      NA      T       T       T       T       T       T       T       N>1:1325  C/T     1       1325    +       NA      NA      NA      NA      NA      NA      C       N       N       N       N       N       C       N>1:1335  G/T     1       1335    +       NA      NA      NA      NA      NA      NA      G       G       G       G       G       G       G       G>1:1362  G/A     1       1362    +       NA      NA      NA      NA      NA      NA      G       G       G       G       G       G       G       G>

3.2 plink格式：`ped`和`map`

plink格式是基因组选择中经常用到的文件类型， plink软件功能强大，运行速度快。

3.2.1 `.map格式`

格式说明链接: http://zzz.bwh.harvard.edu/plink/data.shtml#map

map格式的文件, 主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标.
1, map文件没有行头
2, map文件包括四列: 染色体, SNP名称, SNP位置, 碱基对坐标
染色体编号为数字, 未知为0

SNP名称为字符或数字, 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应

染色体的摩尔未知(可选项, 可以用0)
SNP物理坐标
3, 如果只有SNP名称, 可以手动构建map文件, 第二列为SNP名称, 其它三列为0即可.
Example:
1 snp1 0 11 snp2 0 21 snp3 0 3
这里有3个SNP, 分别名为snp1, snp3, snp3 (第二列)

这三个SNP在第一个染色体上 (第一列)

第三列为0

第四列为SNP所在染色体的坐标
3.2.2 .ped格式
格式说明链接:http://zzz.bwh.harvard.edu/plink/data.shtml#ped
bed格式的文件, 主要包括SNP的信息, 包括个体ID, 系谱信息, 表型和SNP的分型信息.
1, 数据没有行头, 空格或者tab隔开的文件
2, 必须要有六列, 包括系谱信息, 表型信息

第一列: Family ID # 如果没有, 可以用个体ID代替

第二列: Individual ID # 个体ID编号

第三列: Paternal ID # 父本编号

第四列: Maternal ID # 母本编号

第五列: Sex (1=male; 2=female; other=unknown) # 性别, 如果未知, 用0表示

第六列: Phenotype # 表型数据, 如果未知, 用0表示
第七列以后: 为SNP分型数据, 可以是AT CG或11 12, 或者A T C G或1 1 2 2
3, 上面六列, 必须要有, 如果没有相关数据, 用0表示.
Example:
1 1 0 0 1  0  G G  2 2  C C1 2 0 0 2  0  A A  0 0  A C1 3 1 2 1  2  0 0  1 2  A C2 1 0 0 1  0  A A  2 2  0 02 2 0 0 2  2  A A  2 2  0 02 3 1 2 1  2  A A  2 2  A A
数据包括两个家系 (第一列)

每个家系有三个个体 (第二列)

第三列父本编号

第四列母本编号

第五列性别

第六列表型值

第七列, 第八列为一个基因型

第九列, 第十列为第二个基因型

网友评论

本文标题：GBS hapmap 格式转化为Plink格式：tassel

本文链接：https://www.haomeiwen.com/subject/azefdctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

GBS hapmap 格式转化为Plink格式：tassel

1. 参考资料

2. 安装软件

2.1 安装tassel

2.2 安装vcftools

2.3 安装R语言

3. 文件格式

3.1 hapmap格式：`genotype.hmp.txt`

3.2 plink格式：`ped`和`map`

3.2.1 `.map格式`

3.2.2 `.ped格式`

相关文章

GBS hapmap 格式转化为Plink格式：tassel

hapmap 格式转化为Plink格式方法

VCF格式转换(plink, hapmap)

【Plink】Error: Multiple instances

plink各种格式转换

treemix使用2021-03-11

2021-04-01 文献中对Fit的理解

转变Genotype数据格式（Hapmap，Plink ，VCF

如何反向推断基因型文件中的参考碱基（REF/ALT）？

2021-03-17 在linux上将vcf文件转plink的格

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生物信息-生物统计

R语言和Julia以及Python数据分析

数量遗传或生统

生物信息学

GBS hapmap 格式 转化为Plink格式：tassel

1. 参考资料

2. 安装软件

2.1 安装tassel

2.2 安装vcftools

2.3 安装R语言

3. 文件格式

3.1 hapmap格式：genotype.hmp.txt

3.2 plink格式：ped和map

3.2.1 .map格式

3.2.2 .ped格式

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

GBS hapmap 格式转化为Plink格式：tassel

3.1 hapmap格式：`genotype.hmp.txt`

3.2 plink格式：`ped`和`map`

3.2.1 `.map格式`

3.2.2 `.ped格式`