如何计算kaks值和4dtv值

作者: Davey1220 | 来源:发表于2018-10-15 17:26 被阅读0次

前期准备

  • 不同物种的蛋白和cds序列:
    os.pep, os.cds, sb.pep, sb.cds
  • 依赖程序:
    blast+, clustalw2, ParaAT, KaKs_Calculator
    注:所依赖程序需提前安装好,并添加到环境变量中
  • 所用脚本:
    axt2one-line.py, calculate_4DTV_correction.pl

获得不同物种之间的同源序列

对参考物种的蛋白序列构建索引

makeblastdb -in sb.pep -dbtype prot

将目标物种的蛋白序列与参考物种进行比对,并保留最优匹配结果

blastp -query os.pep -db sb.pep -evalue 1e-5 -max_target_seqs 1 -num_threads 12 -out os2sb.blastp_out.m6 -outfmt 6

提取最优匹配的同源序列基因对

cut -f1-2 os2sb.blastp_out.m6|sort|uniq > os2sb.homolog

合并目标物种和参考物种的蛋白序列和cds序列

cat os.cds sb.cds >os_sb.cds
cat os.pep sb.pep >os_sb.pep

使用ParaAT程序将蛋白序列比对结果转化为cds序列比对结果

# 新建proc文件, 设定12个线程
echo "12" >proc
# -m参数指定多序列比对程序为clustalw2,-p参数指定多线程文件,-f参数指定输出文件格式为axt
ParaAT.pl -h os2sb.homolog -n os_sb.cds -a os_sb.pep -m clustalw2 -p proc -f axt -o os2sb_out

计算kaks值和4dtv值

cd os2sb_out
# 使用KaKs_Calculator计算kaks值, -m参数指定kaks值的计算方法为YN模型
for i in `ls *.axt`;do KaKs_Calculator -i $i -o ${i}.kaks -m YN;done
# 将多行axt文件转换成单行
for i in `ls *.axt`;do axt2one-line.py $i ${i}.one-line;done
# 使用calculate_4DTV_correction.pl脚本计算4dtv值
ls *.axt.one-line|while read id;do calculate_4DTV_correction.pl $id >${id%%one-line}4dtv;done
# 合并所有同源基因对的4dtv
for i in `ls *.4dtv`;do awk 'NR>1{print $1"\t"$2}' $i >>all-4dtv.txt;done
# 合并所有同源基因对的kaks值
for i in `ls *.kaks`;do awk 'NR>1{print $1"\t"$3"\t"$4"\t"$5}' $i >>all-kaks.txt;done
# 给结果文件排序并去冗余
sort all-4dtv.txt|uniq >all-4dtv.results
sort all-kaks.txt|uniq >all-kaks.results
# 清除中间文件
rm *one-line
rm all-4dtv.txt
rm all-kaks.txt
# 将kaks结果文件和4dtv结果文件进行合并
join -1 1 -2 1 all-kaks.results all-4dtv.results >all-results.txt
# 给结果文件添加标题
sed -i '1i\Seq\tKa\tKs\tKa/Ks\t4dtv_corrected' all-results.txt

使用calc_kaks_4dtv.sh脚本一步计算kaks值和4dtv值

nohup sh calc_kaks_4dtv.sh os sb &

查看脚本文件

#!/bin/bash
set -e
set -u

if [ $# -lt 2 ];then
    echo "Two parameters needed, but only $# given!"
    echo "Usage: sh calc_kaks_4dtv.sh <Species1> <Species2>"
exit 1;
fi

Species1=$1
Species2=$2

# 对参考物种的蛋白序列构建索引
makeblastdb -in ${Species2}.pep -dbtype prot
# 将目标物种的蛋白序列与参考物种进行比对,并保留最优匹配结果
blastp -query ${Species1}.pep -db ${Species2}.pep -evalue 1e-5 -max_target_seqs 1 -num_threads 10 -out ${Species1}2${Species2}.blastp_out.m6 -outfmt 6
# 提取最优匹配的同源序列基因对
cut -f1-2 ${Species1}2${Species2}.blastp_out.m6|sort|uniq > ${Species1}2${Species2}.homolog
# 合并目标物种和参考物种的蛋白序列和cds序列
cat ${Species1}.cds ${Species2}.cds >${Species1}_${Species2}.cds
cat ${Species1}.pep ${Species2}.pep >${Species1}_${Species2}.pep
# 使用ParaAT程序将蛋白序列比对结果转化为cds序列比对结果
ParaAT.pl -h ${Species1}2${Species2}.homolog -n ${Species1}_${Species2}.cds -a ${Species1}_${Species2}.pep -p proc -m clustalw2 -f axt -o ${Species1}2${Species2}_out
cd ${Species1}2${Species2}_out
# 使用KaKs_Calculator计算kaks值
for i in `ls *.axt`;do KaKs_Calculator -i $i -o ${i}.kaks -m YN;done
# 将多行axt文件转换成单行
for i in `ls *.axt`;do axt2one-line.py $i ${i}.one-line;done
# 使用calculate_4DTV_correction.pl脚本计算4dtv值
ls *.one-line|while read id;do calculate_4DTV_correction.pl $id >${id%%one-line}4dtv;done
# 合并所有同源基因对的4dtv值
for i in `ls *.4dtv`;do awk 'NR>1{print $1"\t"$2}' $i >>all-4dtv.txt;done
# 合并所有同源基因对的kaks值
for i in `ls *.kaks`;do awk 'NR>1{print $1"\t"$3"\t"$4"\t"$5}' $i >>all-kaks.txt;done
# 排序并去冗余
sort all-4dtv.txt|uniq >all-4dtv.results
sort all-kaks.txt|uniq >all-kaks.results
# 清除中间文件
rm *one-line
rm all-4dtv.txt
rm all-kaks.txt
# 将kaks结果文件和4dtv结果文件进行合并
join -1 1 -2 1 all-kaks.results all-4dtv.results >all-results.txt
# 给结果文件添加标题
sed -i '1i\Seq\tKa\tKs\tKa/Ks\t4dtv_corrected' all-results.txt

脚本运行完后会生成以下结果文件


image.png

最终得到的结果在os2sb_out文件夹中的all-results.txt文件中


image.png

绘制kaks值和4dtv值的密度分布图

setwd("/Users/Davey/Desktop")
library(ggplot2)
library(patchwork)
data <- read.table("all-results.txt",header=T,check.names=F)
head(data)
                       Seq        Ka       Ks     Ka/Ks 4dtv_corrected
1 Os01g0276600-Sb03g022840 0.2954040 2.146660 0.1376110      0.3852584
2 Os01g0276700-Sb03g022860 0.0372221 0.586840 0.0634280      0.2272330
3 Os01g0276800-Sb03g022870 0.1293250 0.560683 0.2306560      0.2456600
4 Os01g0721900-Sb03g158830 0.0769183 0.849214 0.0905759      0.1966413
5 Os01g0723100-Sb03g158910 0.1109170 1.198870 0.0925176      0.4060341
6 Os01g0723200-Sb03g158920 0.0398003 0.941168 0.0422882      0.1695289
p1 <- ggplot(data,aes(Ks))+ geom_line(stat="density",color="red")+theme_classic()+theme(axis.title = element_text(size=24),axis.text = element_text(size = 22,color = "black"))
p2 <- ggplot(data,aes(Ka/Ks))+ geom_line(stat="density",color="blue")+theme_classic()+theme(axis.title = element_text(size=24),axis.text = element_text(size = 22,color = "black"))
p3 <- ggplot(data,aes(`4dtv_corrected`))+ geom_line(stat="density",color="orange")+theme_classic()+theme(axis.title = element_text(size=24),axis.text = element_text(size = 22,color = "black"))
p1 + p2 + p3
image.png

相关文章

  • 如何计算kaks值和4dtv值

    前期准备 不同物种的蛋白和cds序列:os.pep, os.cds, sb.pep, sb.cds 依赖程序:bl...

  • paml计算 KaKs值

    此前介绍利用Kaks_calculator计算ka/ks 值,本次对paml 进行计算kaks做一简单介绍。 软件...

  • kaks calculator批量计算多个基因的选择压力kaks

    欢迎来到"bio生物信息"的世界 今天给大家带来“批量计算kaks值”的技能。 关于kaks的背景知识我就不介绍了...

  • Kaks_calculator计算ka/ks 值

    kaks_calculator可用来计算ka,ks值,后续可计算分化时间点等。 安装 安装ParaAT 在安装ka...

  • 使用paml计算kaks值练习

    感谢大壮大佬的教程,教程来源 https://zhuanlan.zhihu.com/p/105159767[htt...

  • 如何寻找同源基因---OrthoFinder

    构建物种的系统发育树,计算kaks值或者比较基因组学和进化的其他分析都少不了需要寻找同源基因。之前已经介绍过Ort...

  • 利用tbtools批量计算KaKs值

    如上图需要准备三个文件。 1.一个###必须的###基因对信息文件,大体格式如下(tab分割): 2. 一个##必...

  • PTA L3-023计算图

    题意 给一个表达式的计算图,和输入变量的值。求解表达式的值和对每个输入变量的偏导。题目链接 如何计算值 从输入变量...

  • T-test——T检验

    前面几节内容,我们了解了在回归分析中,如何判断变量之间的相关性——计算R2,如何判断相关的真实性——计算F值和P值...

  • Kotlin(二十一)协程(异步流)

    1.Flows(Flows) 挂起函数可以通过返回值返回单个计算值,但如何返回多个计算值呢?我们可以使用Flows...

网友评论

    本文标题:如何计算kaks值和4dtv值

    本文链接:https://www.haomeiwen.com/subject/emtqzftx.html