预测变异的效果

作者: 扇子和杯子 | 来源:发表于2021-04-16 11:08 被阅读0次

基因组上有很多变异,不同变异的效果不同。
除了wet-lab,现在也有很多软件预测。接下来,我打算用SIFT4G、Polyphen-2、SnpEff和provean预测。

因为老板想法改变,剩下的两个软件就···不弄了

0. vcf文件准备

msa2vcf可以把多序列比对转为vcf文件。较其他工具,它可以处理gap,但无法转换为reference genome上的位置,需要自己写程序转换。

1. SnpEff

1.1 检查database是否正确

软件里存了很多database,大部分物种都在,用之前可以先检查一下感兴趣物种在不在。

# 列出已构建的database
java -jar snpEff.jar databases

不过,即使有,也需要检查database创建是否有误,比如genetic code是否正确

java -Xmx4g -jar snpEff.jar -v Lactobacillus_plantarum_gca_001005805

编码方式居然是standard code,事实上应该是bacteria code ,也就是genetic code 11。

1.2 build自己的database

具体参考:https://pcingola.github.io/SnpEff/se_buildingdb/
如何build,要根据自己手边的数据。接下来,我采取的是genbank方式。
分三步:1)下载genbank数据,2)配置文件,3)run

1.2.1 下载genbank数据

拿着chromosome或scaffold的编号,去ncbi的nucleotide库中搜,下载数据。




下完之后,将所有chromosome的cat起来,命名为genes.gbk。

一定得叫genes.gbk

1.2.2 配置文件

在snpEff.config中添加配置信息:

# Lactobacillus plantarum ps128
Lactobacillus_plantarum_ps128.genome : Lactobacillus plantarum
    Lactobacillus_plantarum_ps128.chromosomes : NZ_LBHS01000003.1, NZ_LBHS01000004.1, NZ_LBHS01000008.1, NZ_LBHS01000009.1, NZ_LBHS01000010.1, NZ_LBHS01000011.1, NZ_LBHS01000005.1, NZ_LBHS01000006.1, NZ_LBHS01000007.1, NZ_LBHS01000001.1, NZ_LBHS01000002.1
    Lactobacillus_plantarum_ps128.NZ_LBHS01000003.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000004.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000008.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000009.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000010.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000011.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000005.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000006.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000007.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000001.1.codonTable : Bacterial_and_Plant_Plastid
    Lactobacillus_plantarum_ps128.NZ_LBHS01000002.1.codonTable : Bacterial_and_Plant_Plastid

每个chromosome都要弄,chromosome的id不能搞错。比如NZ_LBHS01000003.1不能写成NZ_LBHS01000003。

在snpEff.config目录下做以下操作:

mkdir -p data/Lactobacillus_plantarum_ps128
mv genes.gbk data/Lactobacillus_plantarum_ps128/

1.2.3.run

java -jar snpEff.jar build -genbank -v Lactobacillus_plantarum_ps128

检查日志文件,是否有报错。
如果没有什么问题,在data/Lactobacillus_plantarum_ps128文件夹下会出现snpEffectPredictor.bin文件,创建成功。

1.3 预测

java -Xmx4g -jar snpEff.jar -v Lactobacillus_plantarum_ps128 -ud 0 0_align.formatted.vcf | ./scripts/vcfInfoOnePerLine.pl> 0_align.prediction.vcf

-Xmx4g:给程序分配4G内存,视自己情况而定
-ud: 设置upstream和downstream interval size。如果变异与gene A的距离小于interval size,预测时会包括对gene A的影响。

2. Provean

注意点1:
与SnpEff相比,Provean只能预测部分蛋白质编码基因的variation。建议Provean放在SnpEff之后,这样子可以借用SnpEff的结果作为Provean的输入,比较简单。

提取SnpEff结果中的非intergenic region的变异,作为Provean输入数据。

注意点2:
因为研究物种是细菌,所以只能选用PROVEAN Protein工具,缺点是不能批量,每次只能预测一个蛋白质序列。

From Provean Home

2.1 预测

为了方便整理,我为每个蛋白质都建了一个文件夹,里面放了两个文件:

  • sequence.fa:存储一条蛋白质序列
  • var:存放该蛋白质上的变异(必须是HGVS表示,SnpEff结果文件中有)
provean.sh -q sequence.fa -v var

SnpEff中的HGVS表示是三字母氨基酸缩写,需要转为单字母氨基酸缩写。

相关文章

  • 预测变异的效果

    基因组上有很多变异,不同变异的效果不同。除了wet-lab,现在也有很多软件预测。接下来,我打算用SIFT4G、P...

  • snpEff注释变异位点信息

    SnpEff是一种变体注释和效果预测工具,它注释和预测遗传变异的影响(例如氨基酸变化)。 1. 软件安装 2. 运...

  • snpEff使用说明(上)-了解及创建SnpEff注释数据库

    SnpEff是一款注释变异位点(SNP+InDel+MNP)和预测变异对基因的影响(例如氨基酸变化)的工具。 用法...

  • 图分类预测

    原创:梁华雄 导入 图级别的预测可以完成对整个图属性的预测,比如在生化预测任务中,可以实现对某个分子是否产生变异进...

  • 2019-05-28

    艺术言语发生变异的类型 (一)词语作为声响形态的语音变异 言语表达者利用声音形式上的变异手段,达到提高表达效果的目...

  • bert的使用

    1.预测词很容易实现,预测定理性的词语效果比较好,预测句子中间的词语效果比较好。当预测其他领域的语句和句子末尾的词...

  • 如何评价客户流失预测模型效果

    如何评价客户流失预测模型效果呢? 用来评估客户流失预测模型预测效果好坏的一个重要指标就是提升度了。所谓提升度,简单...

  • 12.17预测效果

    嗯,调整目前行动力下降,做事提不起兴趣,还有噩梦连连。牌面正好缺了星币牌,我觉得是很实在的很落地的一次旅程。第一张...

  • 广告效果预测与评估的主要方法-eboR媒介监测中心

    广告效果预测与评估,是广告主在投放广告前对媒体效果的预估,通过广告投放前的效果预测和广告投放后的评估结果,提前调整...

  • 模型评估指标

    评估指标用于反映模型效果。在预测问题中,要评估模型的效果,就需要将模型预测结果f(X)和真实标注Y进行比较,评估指...

网友评论

    本文标题:预测变异的效果

    本文链接:https://www.haomeiwen.com/subject/gszslltx.html