学会了基本的plink之后,就要开始学习了解输入文件的格式了。
详细的格式建议看官网
因为之前以及接触过几次,这里来个详细的归总
主要认识 ped map bed fam bim 这五种格式
其中 :
ped 和 map 是一组的
bed fam bim 是一组的
ped
ped.png1.ped 包含样本的谱系信息和基因型信息
2.ped 必须与fam 文件一起,前6个字段与fam文件对应
3.使用recode 产生ped文件
举个例子
每一行是一个个体,前六列是固定的,从第七列开始后面就是每个snp位点的基因型情况,第七列第八列就是第一个snp位点,第九列第十列就是第二个snp位点,依次类推。。。 其中 0 代表 no calling, 从图中可以看出 第一个个体第一个snp 就是 00 第二个个体第二个snp 就是 AG 。
我们再回过头来看前六列:
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID
第四列 Maternal ID
第五列 Sex (1=male; 2=female; other=unknown)
第六列 Phenotype
这里要主要的是,对于表型
注意.png
map
map1.map文件和ped文件是一起的,表示每个SNP的信息
2.总共有4列
举个例子
第一列代表染色体
第二列代表snp的名称
第三列代表摩尔距离,一般用不上
第四列代表物理距离,这个有用的
第二组开始
bed
bed.png1.首先这里强调的是bed文件与UCSC Genome Browser's BED format 是完全不一样的。
2.bed 文件与bim fam 文件一起的
3.bed文件是一个二进制文件,所以你是看不来的
一定要和其他两个文件一起
采用二进制的方式保存文件,代表的数据意义和其他两个文件对应
bim
bim1.从这个说明我们可以看出bim文件是对map文件的拓展
2.总共有六行,包含了snp(variants)的具体信息、
3.这个文件也是要和bed fam 文件结合来使用
eg
我们来看个例子:
1.第一列是染色体信息
2.第二列是snp的名字
3.第三列是摩尔距离,文件中说可以用0,没关系
4.第四列是物理距离
5.第五列是次要等位基因
6.第六列是主要等位基因
这里的信息要和bed文件对应起来
fam
fam1.fam文件记录了每个样本家系的信息
2.fam文件也是必须和bed bim文件一起使用
3.主要有6 列
1.第一列是Family ID ('FID')
2.第二列是Within-family ID ('IID'; cannot be '0')
3.第三列是Within-family ID of father ('0' if father isn't in dataset)
4.第四列是Within-family ID of mother ('0' if mother isn't in dataset)
5.第五列是性别 ('1' = male, '2' = female, '0' = unknown)
6.第六列是表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
看到这里我发现其实这个和ped文件格式太像了,是代表信息的提取,这样的格式更加利于观察
以上就会5中常用格式的介绍,中间还有很多的细节,需要去理解。
这两组格式的数据可以相互转化,还可以使用--recode(eg. recodeA recodeAD)来进行编码,这个使用数据更加灵活
最简单的就是入下
ped map 转 bed bim fam
plink --file toy --out toy
ped:map转bed:bim:fam
当然有些时候转要加 --make-bed
现在我再倒过来转回去
bed bim fam 转 ped map
plink --bfile toy --recode --out toy1
反转
OK了
PS:一定要多看官方的网站
网友评论