美文网首页
2022-02-24 MATTF

2022-02-24 MATTF

作者: 千容安 | 来源:发表于2022-02-24 22:57 被阅读0次

    处理师姐的数据作氨基酸频率图。因有两组样本,单个样本的CDR3序列有5000+条,muscle只能支持<500的序列,故试用MATTF处理大量序列。
    安装MAFFT要先安装Ubuntu。试在Microsoft Store中获取Ubuntu,但打开后闪退。使用用管理员权限进入命令提示符,输入wsl --install -d Ubuntu


    不知道为什么下载的有点慢

    下载一下午后报错了,暂时先不下了,借用老师的linux服务器跑程序。
    在 putty窗口中,运行以下命令以下载 MAFFT 包
    wget https://mafft.cbrc.jp/alignment/software/mafft_7.503-1_amd64.deb
    遇到报错:

    (错误尝试:
    输入sudo yum install -y ca-certificates

    输入apt-get install sudo同样报错
    输入apt-get install -y ca-certificates没有报错但也不能解决问题)
    了解到:

    rpm包和deb包是两种Linux系统下最常见的安装包格式,在安装一些软件或服务的时候免不了要和它们打交道。
    rpm包主要应用在RedHat系列包括 Fedora等发行版的Linux系统上,
    deb包主要应用于Debian系列包括现在比较流行的Ubuntu等发行版上。

    解决方法:在wget后添加引号内的内容
    wget --no-check-certificate https://mafft.cbrc.jp/alignment/software/mafft_7.503-1_amd64.deb
    安装软件包
    sudo dpkg -i mafft_7.503-1_amd64.deb
    检查位置和版本:


    输入mafft进入
    出现一些选择:

    这个参数我不知道输入什么,搜索不到,蒙了一个'no'

    然后出了指示:

    重启后,找不到N1.txt,发现MATTF有网页版可以在线比对:
    MAFFT alignment and NJ / UPGMA phylogeny (cbrc.jp)
    将得到的fasta文件用xls打开,筛选删去>开头的及其他非序列内容。删除B、C列无用内容。

    发现MAFFT比对后的fasta文件的序列长度有35、60个字节两种,故分开两个文件导入R,其他画图代码与上一篇简书不变
    setwd("C:\\Users\\Administrator.DESKTOP-4UQ3Q0K\\Desktop")
    library(ggseqlogo)
    library(stringr)
    library(ggsci)
    library(tidyverse)
    seq<-read.csv("N1后 35.csv")
    p1 = ggseqlogo(as.character(seq$cdr3nt), method = 'prob',col_scheme="taylor") +
      theme_classic() +
      scale_y_continuous(labels = scales::percent)
    p1
    p2 = ggseqlogo(as.character(seq$cdr3nt), method = 'bits') +
      theme_classic() +
      scale_y_continuous(labels = scales::percent)
    p2
    


    我觉得这两个图有点奇怪。。但因为比对后的结果里把CDR3开头的C放在中间,所以图中也在中间。
    待解决

    相关文章

      网友评论

          本文标题:2022-02-24 MATTF

          本文链接:https://www.haomeiwen.com/subject/fnvzlrtx.html