美文网首页生信log
生信log34|dbNSFP的phyloP30_score的来源

生信log34|dbNSFP的phyloP30_score的来源

作者: 小周的万用胶囊 | 来源:发表于2023-03-29 12:41 被阅读0次

dbNSFP数据库收录了PhyloP值的数据,并且是tsv格式的,为了对一下数据库,就去官网找了相关的数据,但是看了一圈并没有现成的tsv。看了一圈资料也没看出怎么得出dbNSFP里面的phyloP这个唯一值怎么来的。后面尝试了很多,才发现原来如此简单:就是把官网上的bw文件转成 bedGraph文件即可,但是这个做法会把7.9G的数据拓展至50G左右,转换数据需慎重。

1、工具准备及其用法

  • 下载ucsc上的工具bigWigToBedGraph(转换bigwig到bedGraph format)
  • 下载bigWigToWig(非必需)
#bigWigToBedGraph
wget https://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64.v369/bigWigToBedGraph
#用法
   bigWigToBedGraph in.bigWig out.bedGraph
#其他参数
   -chrom=chr1 - if set restrict output to given chromosome
   -start=N - if set, restrict output to only that over start
   -end=N - if set, restict output to only that under end
   -udcDir=/dir/to/cache - place to put cache for remote bigBed/bigWigs

#bigWigToWig
wget https://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64.v369/bigWigToWig
#用法
bigWigToWig in.bigWig out.wig
#其他参数
   -chrom=chr1 - if set restrict output to given chromosome
   -start=N - if set, restrict output to only that over start
   -end=N - if set, restict output to only that under end
   -udcDir=/dir/to/cache - place to put cache for remote bigBed/bigWigs

2、phyloP的数据格式

  • phyloP30way.bw的数据是二进制格式的,用一般的less是没办法查看的,可以 转换成Wigfile查看一下里面的数据结构,下面仅为示例数据。
1.根据示例数据发现,每个fixedStep下面都跟着一系列的数值,
fixedStep chrom=chr1 start=15002 step=1
1.451
1.561
1.671
1.618
1.564
1.51
1.456
...
fixedStep chrom=chr1 start=16003 step=1
1.451
1.561
1.671
1.618
1.564
1.51
1.456
...

2. 转换后的BedGraph文件
  • 仅展示头几行,该文件有四列信息,分别是染色体名字起始位点终止位点phyloP的值
chr1    10700   10701   0.088
chr1    10701   10702   0.079
chr1    10702   10703   0.088
chr1    10703   10704   0.079
3. 验证一下dbNSFP里面的数据
  • dbNSFP的数据是从位点65565开始的,那我们找一下刚转换好格式的数据是否含有一致的位点以及相同的phyloP值(如代码框所示),值确实是一样的。
CHROM POS phyloP30way_mammalian
1 65565 1.152000
#查找hg38.phyloP30way.bedGraph|
grep '65565' hg38.phyloP30way.out.bedGraph|head -1
chr1    65564   65565   1.152

4、总结

  • 简单来说只要去官网下载提供的XXX.bw,用bigWigTobedGraph工具转换就能得到每个位点的phyloP值了。(PS下面这个流程图也是压榨chatGPT帮我画的)


    数据转换图

题外话chatGPT真好用,苦于没有数据展示数据的时候想到它了(问就是存储少),放心数据结构我检查过是一样的。


chatGPT提问

参考及数据来源
PhyloP30way
官方工具说明文档

相关文章

网友评论

    本文标题:生信log34|dbNSFP的phyloP30_score的来源

    本文链接:https://www.haomeiwen.com/subject/ugdxddtx.html