美文网首页
基于dbSNP 批量注释Variant (Rs#、POS、ALL

基于dbSNP 批量注释Variant (Rs#、POS、ALL

作者: 倪桦 | 来源:发表于2025-01-07 15:45 被阅读0次

dbSNP(单核苷酸多态性数据库,Database of Single Nucleotide Polymorphisms) 是由 NCBI(美国国家生物技术信息中心,National Center for Biotechnology Information) 负责维护和管理的全球性变异数据库。

核心功能与特性

  1. 唯一标识符(rsID)
    dbSNP 为每个变异分配一个唯一的参考标识符 rsID(Reference SNP cluster ID),如 rs533316401,方便科研人员在不同研究中共享和引用变异信息。

  2. 在线查询
    NCBI 提供了便捷的在线查询平台,用户可以通过 URL 查询感兴趣的 SNP 信息,例如:
    https://www.ncbi.nlm.nih.gov/snp/rs533316401

Variant 基本信息
iVariant 基因组浏览器
  1. 离线数据资源
    dbSNP 提供多种格式的离线数据(如 VCF 格式),用户可以从 NCBI 的 FTP 服务器 下载。离线数据支持下游分析,例如 SNP 注释、功能预测或疾病关联研究。

  2. 版本选择
    用户可根据参考基因组版本(如 GRCh37 或 GRCh38)选择对应的 dbSNP 数据集,确保研究中数据的一致性和准确性。

数据分析工具与应用

  • 快速查询与注释
    使用工具如 bcftoolstabix,可以快速查询特定位置或变异的 rsID,并进行批量注释和筛选工作。
  • 功能预测与关联分析
    借助 dbSNP 数据,科研人员可开展 SNP 功能预测及疾病相关变异的深入研究。

利用 bcftools 查询 Variant 的 RS# 操作示例

① 下载 2024-10-25 最新版 dbSNP156(hg19)

wget https://ftp.ncbi.nih.gov/snp/archive/b156/VCF/GCF_000001405.25.gz
wget https://ftp.ncbi.nih.gov/snp/archive/b156/VCF/GCF_000001405.25.gz.tbi
wget https://github.com/Shicheng-Guo/AnnotationDatabase/blob/4b11dce4c65ceb666a143a611588cde1d754f3dc/GCF_000001405.25_GRCh37.p13_assembly_report.txt ### 用于转换染色体命名

② 数据库格式整理:

conda install -c bioconda -c conda-forge bcftools=1.15.1
awk -v RS="(\r)?\n" 'BEGIN { FS="\t" } !/^#/ { if ($10 != "na") print $7,$10; else print $7,$5 }' GCF_000001405.25_GRCh37.p13_assembly_report.txt > dbSNP-to-UCSC-GRCh37.p13.map
bcftools annotate --threads 48 --rename-chrs dbSNP-to-UCSC-GRCh37.p13.map GCF_000001405.25.gz -o dbSNP156.hg19.vcf.gz
bcftools index dbSNP156.hg19.vcf.gz

③ 基于chr:posi 查询RsID:
bcftools view -H -r chr1:754182 dbSNP156.hg19.vcf.gz --regions-overlap 0 --threads 40| cut -f 1,2,3,4,5

④ 基于文件的多位点批量查询:

准备记录查询位点的文件,以 \t 分割的位点基因组坐标(chr, posi):
"""
chr1 752721
chr1 753405
chr1 753541
"""
执行批查询
bcftools view -H -R input.tsv dbSNP156.hg19.vcf.gz --regions-overlap 0 --threads 40 -o findRs.out

③ 基于RsID 查询变体信息:

准备位点的ID信息表
"""
rs11127467
rs10172629
rs10171242
rs78936662
"""
执行批量查询:
bcftools view -H -R input.tsv dbSNP156.hg19.vcf.gz --regions-overlap 0 --threads 40 -o findRs.out
A quite efficient way:

conda install bioconda::plink2
plink2 --vcf dbSNP156.hg19.vcf.gz --extract snplist.txt --make-just-pvar --threads 10

plink2 检索 RsID 的时间相比 bcftools 预计减少 ~50%.

Reference

Variation Glossary
How to download dbSNP153 vcf files in hg19/GRCH37 version
bcftools merge error: could not load index · Issue #1360 · samtools/bcftools
Fast way to return genomic regions for 10,000 SNPs in rsID

相关文章

网友评论

      本文标题:基于dbSNP 批量注释Variant (Rs#、POS、ALL

      本文链接:https://www.haomeiwen.com/subject/viqkyjtx.html