美文网首页
1000 Genome Project

1000 Genome Project

作者: 生信修炼手册 | 来源:发表于2018-05-31 13:40 被阅读0次

    欢迎关注"生信修炼手册"!

    1000 Genome Project 的目标是发现在人群中频率大于1%的变异位点,对来自不同人群的大量样本进行测序,识别到了许多的变异位点,为人类遗传变异的研究提供了一个综合的资源。

    整个项目划分为四个阶段,试点阶段和三个主要阶段,主要阶段中只有第一阶段和第三阶段产生了数据,每个阶段数据的详细情况如下图所示

    整个项目从2008年开始到2013年结束,最终的版本为2013年5月2日发布的数据, 包含了来自26个人群,共2504个样本的SNP分型结果。1000G的数据是免费公开的,可以通过ftp下载得到,网址如下

    ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/

    26个不同的群体,用3个字母的缩写表示,具体情况如下

    Code Des Detail
    CHB Han Chinese Han Chinese in Beijing, China
    JPT Japanese Japanese in Tokyo, Japan
    CHS Southern Han Chinese Han Chinese South
    CDX Dai Chinese Chinese Dai in Xishuangbanna, China
    KHV Kinh Vietnamese Kinh in Ho Chi Minh City, Vietnam
    CHD Denver Chinese Chinese in Denver, Colorado (pilot 3 only)
    CEU CEPH Utah residents (CEPH) with Northern and Western European ancestry
    TSI Tuscan Toscani in Italia
    GBR British British in England and Scotland
    FIN Finnish Finnish in Finland
    IBS Spanish Iberian populations in Spain
    YRI Yoruba Yoruba in Ibadan, Nigeria
    LWK Luhya Luhya in Webuye, Kenya
    GWD Gambian Gambian in Western Division, The Gambia
    MSL Mende Mende in Sierra Leone
    ESN Esan Esan in Nigeria
    ASW African-American SW African Ancestry in Southwest US
    ACB African-Caribbean African Caribbean in Barbados
    MXL Mexican-American Mexican Ancestry in Los Angeles, California
    PUR Puerto Rican Puerto Rican in Puerto Rico
    CLM Colombian Colombian in Medellin, Colombia
    PEL Peruvian Peruvian in Lima, Peru
    GIH Gujarati Gujarati Indian in Houston, TX
    PJL Punjabi Punjabi in Lahore, Pakistan
    BEB Bengali Bengali in Bangladesh
    STU Sri Lankan Sri Lankan Tamil in the UK
    ITU Indian Indian Telugu in the UK

    对于这26个群体,归属于5个不同的super  population

    Population Code Description
    EAS East Asian
    SAS South Asian
    AFR African
    EUR European
    AMR American

    除了通过FTP直接下载以外,还可以通过以下两种方式下载:

    1. Aspera

    由于1000G的数据量比较大,通常通过Aspera 进行下载,命令如下

    ascp -i bin/aspera/etc/asperaweb_id_dsa.openssh -Tr -Q -l 100M -P33001 -L- fasp-g1k@fasp.1000genomes.ebi.ac.uk:vol1/ftp/release/20100804/ALL.2of4intersection.20100804.genotypes.vcf.gz ./

    2. Globus

    Globus 是一个软件,通过这个软件可以方便的管理和分发数据,官网如下:

    https://www.globus.org/

    首先需要注册一个账号,然后要下载软件才可以使用,和百度网盘的使用体验类似。

    通常情况下使用Aspera就可以了。

    1000G和hapmap都是对不同人群大量样本测试,然后鉴定变异位点。和hapmap相比,1000G无论是样本数量,还是变异位点的数量,都更具优势,所以使用1000G的科研工作者更多。随着hapmap官网的关闭,1000G完全取代了hapmap。

    1000G中发现的SNP位点信息都提交到了dbSNP数据库,SV结构变异位点信息都提交到了DGVA数据库。

    扫描关注微信号,更多精彩内容等着你!

    相关文章

      网友评论

          本文标题:1000 Genome Project

          本文链接:https://www.haomeiwen.com/subject/sssqsftx.html