随着一批国家的生物银行的完成和结果公布,多个Biobank的GWAS summary statistics文件已经公开,这里列下不同国家的相关资源,这些资源基本是使用开源的pheweb工具进行数据公开的,多数开放数据下载。
当然,对我们来说最有用的是国人的或者是东亚的。不得不承认,国外在数据开放方面走在了我们前面,即使我们台湾省,也没有提供GWAS summary statistics文件的下载,只是公布了结果。
关于之前的国人的相关数据集,基本没有开放的,除了发表的文章和附件。之前列过几个可以用来进行基因型填充的参考:
UKB 英国生物银行

这个大名鼎鼎的想必大家都是知道的,在这里不多赘述了,它是相关研究的标杆和典范,第一个,不得不说大英在科技领域做得不错的。据我所知,几代测序技术都是发源于英国,当然多数发财的是美国公司。科技行业龙头也能列出一大把,ARM等,不过有些帝国余晖的感觉,总是听美国哥哥的。把相关资源列在这,有多个填充参考的选择
PheWeb Datasets

FinnGen 芬兰基因组研究

由赫尔辛基大学领导,FinnGen 集成了 500,000 个人的基因组和医疗登记信息,为芬兰人口的 10%。北欧国家,对民众福利的投入还是舍得的,不过最近的国际形势,他们好像不怎么淡定了。
FinnGen results
BBJ 日本生物银行

这个也应该是大家相对熟悉的一个项目,去年正式发表的,其主要采用了bolt-lmm这个软件进行的分析。BioBank Japan Project (BBJ) 号称是非欧洲人群最大的一个 biobank 项目。
PheWeb.jp
KoGES 韩国基因组和流行病学研究

- 来自KoGES(韩国国家生物银行)的76种表型的全基因组关联
- 日本生物样本库(BBJ)对32种表型的荟萃分析
- 使用 SPACox 对 14 种表型进行生存分析
- 使用 TAPE 对 10 种有家族史的表型进行关联分析
总共使用了72,298个具有韩国芯片基因分型和插补的个体(总共8,056,211个变体)。使用SAIGE对连续和二元表型进行了分析,调整了遗传相关性,性别,年龄,前10个主要组成部分和评估细节(队列和检查年份)。对于分类表型,我们使用POLMM(比例赔率逻辑混合模型),在SAIGE中针对相同的协变量进行调整。
KoGES PheWeb (leelabsg.org)
中国台湾biobank

128,775名参与者的全基因组关联。所有个体均在Axiom全基因组TWB阵列或Axiom全基因组TWB2.0阵列上进行基因分型。然后用IMPUTE2软件输入由来自1000个基因组第三阶段(n=504)的东亚人群和来自台湾生物库(n=1,451)的全基因组测序数据组成的合并参考小组。
使用Saige软件对年龄、性别、BMI、基因分型排列和前5个主成分进行调整(根据年龄、性别、基因分型排列和前5个主成分调整身高、体重和BMI表型)。我们处理了一组194个表型,包括121个数量性状和73个二元性状,至少100例。LDSC使用1000基因组计划第三阶段的东亚LD分数来估计遗传度z分数>2的表型之间的遗传相关性。
比较遗憾地是,只提供结果查询,不提供下载,还有甲基化和HLA分型的数据库供查询。
BioBank::v3 (twbiobank.org.tw)
汇总暂时到这里,期待我们国家其他省份和国家级别的Biobank数据的发布。如有错误,欢迎指正!
网友评论