基因家族分析（保姆级教程二------鉴定）

作者: GenomeStudy | 来源:发表于2023-07-12 19:55 被阅读0次

练习：基因家族
基因家族鉴定及分析
目录
基因家族分析（四）
基因家族分析（三）
基因家族分析 | 番茄Nramp基因家族分析（二）
基因家族分析（一）
基因家族分析（七）
木薯KUP基因家族分析-基因组质量差也挡不住基因家族鉴定分析基
基因家族分析一(NBS基因家族鉴定)

太久没有更新了，最近忙着组装好几个基因组，后面我也会吧基因组组装的一些东西分享出来哦~
那就步入正题吧，我们在前面准备好了数据之后，就可以开始鉴定所需要的基因家族成员了，这样才能开始后续的分析

先从，最最最最基础的linux的一些使用开始吧，要是不知道在自己电脑上怎么安装linux系统可以参考下面网址哟~
https://www.jianshu.com/p/821e1b409e95?v=1689247563616

1、最最最最基础的就是需要在linux中安装软件了，就像买了一个新手机一样；安装软件当然需要一个软件商店喽
就需要首先安装一个linux中的软件商店，叫做conda，有Anaconda和Miniconda两种，区别的话.......感兴趣的可以了解一下，自己电脑上推荐Miniconda，不占内存，哈哈哈哈

#首先用mkdir software  &&  cd software  创建一个文件夹
#安装Anaconda
#下载
wget -c http://mirrors.aliyun.com/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh?spm=a2c6h.25603864.0.0.49f16323pglbMi -P ~/software
#运行安装包（一路yes）
bash ~/software/Anaconda3-5.3.1-Linux-x86_64.sh
#启动conda程序
source ~/.bashrc

#安装Miniaconda
##Download Miniaconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -P ~/software
bash ~/software/Anaconda3-5.3.1-Linux-x86_64.sh  ##一路yes
source ~/.bashrc

#生成.condarc文件
 conda config --set show_channel_urls yes
#添加conda镜像源
 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
 conda config --set show_channel_urls yes

2、安装完conda就需要借助conda安装基因家族分析需要的软件（工具）

#基因家族成员鉴定的软件，也就几个，三下五除二就能搞定！！！
 conda install seqtk -y
 conda install seqkit -y
 conda install blast -y
 conda install hmmer -y

没啦，是不是几分钟！

3、那我们就开始正式鉴定家族成员，继续以CYP超家族为例吧

#你们是不是进ubuntn系统里面去找不到自己电脑上的文件呀？？很简单，一个命令!!
cd /mnt/  #就可以看到你的c盘d盘f盘啥的

############################################################
###废话少说，解释一下下面那些带着$的符号。

#对氨基酸序列进行结构域搜索
hmmsearch --cut_tc --domtblout CYP.domtblout -o CYP.hmmout CYP.hmm genome.pep.fa

#基于E-value值进行过滤
awk '$7<0.01 && $1 !~ /^#/ {print $0 }' CYP.domtblout > CYP.domtblout.filter

#提取预测的目标基因ID
awk '{print $1}' CYP.domtblout.filter | sort -u > CYP.domtblout.filter.id

#构建blast比对数据库
makeblastdb -in Ath.CYP.pep.fa -dbtype prot

#blastp比对
blastp -query  $fasta  -db  Ath.CYP.pep.fa -evalue 1e-10 -outfmt '6 std qlen slen ' -out CYP.blastout

#blast结果基于identity30%过滤
awk '$3 > 30 && $4> 155  {print $1}' CYP.blastout | sort -u > CYP.blastout.filter.id

###具体情况具体分析，二选一即可
#合并hmm和blast结果,也就是取交集（避免缺漏）
cat CYP.domtblout.filter.id  CYP.blastout.filter.id | sort -u > CYP.geneID
##当然也可以取交集（更加精确）
cat CYP.domtblout.filter.id  CYP.blastout.filter.id | sort | uniq -C | awk '$1 == 2 {print $2}'  > CYP.geneID

#提取目标基因的pep和cds序列
seqtk subseq genome.pep.fa CYP.geneID >CYP.pep.fasta
seqtk subseq genome.cds.fa CYP.geneID > CYP.cds.fasta

现在就得到家族基因的基因ID，蛋白序列和cds序列了！很简单吧！

还有其他复杂一点的家族基因，比如多结构域的、结构域嵌合的等，下次再说吧......
我也要去搬砖去了，呜呜呜~~~