美文网首页生物信息学习群体遗传学
Tassel 命令行版本使用笔记

Tassel 命令行版本使用笔记

作者: 正踪大米饭儿 | 来源:发表于2019-02-25 17:55 被阅读6次

1. 常见的基因型数据格式

1.1 Hapmap 数据格式

1 2 3 4 5 6 7 8 9 10 11 12
rs# alleles chrom pos strand assembly# center protLSID assayLSID panelLSID QCcode Line1
HAPMAP

1.2 VCF数据格式

VCF 包含9列,从第10列开始为每个样本信息。表头##开头的为注释信息,包含了 VCF 文件的版本信息,以及对INFOFORMAT列的解释。

1 2 3 4 5 6 7 8 9 10
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Line1

1.3 plink数据格式

2. Tassel软件的安装

Tassel 下载地址:https://www.maizegenetics.net/tassel

Tassel

Tassel软件可以直接下载对应平台安装包进行安装。Linux 命令行下还可以使用conda命令进行安装: conda install -c biobuilds tassel

3. 数据格式转换

3.2 VCF到Hapmap

## 添加 -sortPositions 参数,以便在转换之前进行位点排序
run_pipeline.pl -Xms10g -Xmx100g  -vcf in.vcf.gz -sortPositions -export out.hmp.txt -exportType HapmapDiploid

exportType 的类型有多种:

Hapmap
HapmapDiploid
HDF5
VCF
Plink
Phylip_Seq
Phylip_Inter
Fasta
Text
ReferenceProbablity
Depth
SqrMatrix
SqrMatrixRaw (for MultiBLUP)
SqrMatrixBin (for MultiBLUP)
Phenotype
PlinkPhenotype
Table

4. 数据过滤

4.1 位点过滤

不建议使用Tassel过滤位点,建议使用 vcftools软件或者自己编写程序对不合格位点进行过滤。

run_pipeline.pl -Xms10g -Xmx100g  -h in.hmp.txt  -filterAlignMinFreq 0.05 -filterAlignMaxFreq 0.95 -export out.hmp.txt -exportType HapmapDiploid

5. 缺失基因型插补

5.1 使用 FILLIN 方法进行插补

run_pipeline.pl -Xms10g -Xmx100g -FILLINFindHaplotypesPlugin -hmp in.hmp.txt -o Donor
 run_pipeline.pl -Xms10g -Xmx100g -FILLINImputationPlugin -hmp in.hmp.txt  -d Donor -o out.hmp.txt

相关文章

网友评论

    本文标题:Tassel 命令行版本使用笔记

    本文链接:https://www.haomeiwen.com/subject/cmprjqtx.html