1000G简单介绍
千人基因组也许是被研究得和使用得最多的数据库了。其包含的个体是来自不同人群(如欧美、亚洲等)的健康对照样本,可以很方便的下载到原始数据,在缺乏对照研究时可以作为很好的对照。
另,仅有少部分样本进行了深度测序;绝大部分数据都是低深度测序,所以,使用原始数据做对照时也要注意哦。
主要数据组成
1000G是按阶段实施的,主要包括4个阶段的数据,pilot, phase1, phase2, phase3;每个阶段包含的样本、使用的基因组版本、数据存储位置均有所不同;而且一直在更新,包括分析结果的迭代、数据扩充等。
- pilot是试点阶段,包括pilot1,2,3,比对到NCBI36
- Phase 1 第一批1092例样本的低深度和外显子数据的分析,比对到GRCh37
- Phase 2 包含1700例样本,分析方法有更新
- Phase 3 包含3115例样本,比对到GRCh37,公开的数据里一般包含2504例样本的信息。
- 1000 Genomes on GRCh38 包含2709例样本,最新版本的数据,比对到GRCh38
Note: We also have frozen versions of the alignments use for both the pilot and the phase 1 analyses in different directories on the ftp site.
GRCH37不同版本是咋回事?GRCH37.p1, GRCH37.p2...是指对GRCH37的修补(patch),坐标不会改变。
目录介绍
http://www.internationalgenome.org/
Data 数据详细介绍
Portal 在该目录下可以根据人群、测序数据类型等筛选样本;有各样本、群体的介绍。
比如中国人群包括,CDX(西双版纳的傣族人群 n=109)、CHB(北京人,基本代表北方人群 n=112)、CHS(南方人群 n=171)

![取样人群分布图][2]
数据下载——待更新
- 样本筛选
http://www.internationalgenome.org/data-portal/sample
筛选比对到hg19(GRCh37)的高深度测序的中国样本(不包含傣族)使用的关键词:CHB, CHS, Phase 3, High cov WGS。有86个样本符合要求,点击Download the list
下载得到样本名称。 - 下载在指定区域的SNP基因型信息
tabix -h ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr6.phase3_shapeit2_mvncall_integrated_v5.20130502.genotypes.vcf.gz 6:7580958-7580959
3.下载比对文件(bam/cram)
网友评论