美文网首页Alternative polyadenylation
二代转录组可变剪切(AS)分析

二代转录组可变剪切(AS)分析

作者: 路人里的路人 | 来源:发表于2024-02-28 20:42 被阅读0次

    1.背景知识

    1.1什么是可变剪切

    可变剪切(differential splicing)也叫做选择性剪切alternative splicing, 指的是在mRNA前体到成熟mRNA的过程当中,不同的剪切方式使得同一个基因可以产生多个不同的成熟mRNA, 最终产生不同的蛋白质,在不同组织或者发育的不同阶段,可变剪切不是一成不变的,在特定的组织或者条件下,会产生特定的剪切异构体isofrom, 这说明不同异构体具有特定的时间与空间作用,从而将可变剪切与正常的生命活动和疾病相关联,有大量的研究发现,可变剪切的变化与癌症等多种疾病相关,所以研究可变剪切在不同组织中的研究是非常有意义的[1]。

    1.2 可变剪切类型

    在生物体内,主要存在7种可变剪接类型[2]:

    1. ES(Exon skip)指一个外显子从初始转录物上被剪切掉。基因发生可变剪接形成两种不同的转录本, 第1种转录本比第2种转录组本多一个外显子,我们将这种外显子称为inclusive exon,inclusive exon两侧的两个外显子称为constitutive exon。
    2. RI(Retained intron):基因发生可变剪接形成两种不同的转录本, 第2种转录本由retained Intron与两侧的外显子一起形成新的外显子。
    3. AD(Alternate Donor site):基因发生可变剪接形成两种不同的转录本,它们的3'端剪接位点一致但5'端剪接位点不同, 第二种转录本的5'端外显子有所延长。
    4. AA(Alternate acceptor site):基因发生可变剪接形成两种不同的转录本,它们的5'端剪接位点一致但3'端剪接位点不同, 第二种转录本的3'端外显子有所延长。
    5. AP(Alternate promoter):基因的两个转录本的区别在于第一个外显子不同,这样的可变剪接事件称为Alternative First Exon。
    6. AT(Alternate terminator):基因的两个转录本的不同之处于最后一个外显子不同,这样的可变剪接事件称为Alternative last exon。
    7. ME(Mutually exclusive exons):基因发生可变剪接形成两种不同的转录本,两转录本之间相同的外显子称为constitutive exon, 不同的外显子称为inclusive exon,两个inclusive exon不能同时存在与同一转录本中, 只能分别存在于不同转录本中。 这样的可变剪接事件称为Mutually Exclusive Exon。


      图1

    2.分析策略

    Hisat2+StringTie+Astalavista

    Hisat2用于将转录组测序数据比对到参考基因组(Camellia sinensis),使用samtools将sam文件转换成bam文件并构建索引,Stringtie将利用上一步samtools生成的bam文件获得gtf文件,最后Astalavista可从gtf文件中检测可能存在的可变剪切事件。

    3.软件的安装与使用

    3.1 Hisat2的安装与使用

    3.1.1 Hisat2安装

    直接使用miniconda进行安装,解决所有依赖软件。

    conda create -n hisat2
    conda activate hisat2
    conda install -c bioconda hisat2=2.1.1.0
    #创建环境并安装指定版本的的hisat2
    

    下载安装包自行安装,Hisat2安装包下载地址:Download | HISAT2 (daehwankimlab.github.io)
    ,下载指定版本的安装包。

    wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
    unzip hisat2-2.1.0-Linux_x86_64.zip
    export PATH=path/to/your/hisat2-2.1.0:$PATH
    source ~/.bashrc
    

    3.1.2 Hisat2构建参考基因组

    在正式比对前还需要构建参考基因组,所使用的软件是hisat2,基本命令为hisat2 -build,基础命令为:

    hisat2-build /path/to/the/genome.fasta /path/to/your/output/genome 1>hisat2-build.log 2>&1
    

    以上各代码各部分分别为:
    /path/to/the/genome.fasta:参考基因组所处位置;
    /path/to/your/output/genome:输出文件所存储位置及所使用的前缀;
    1>hisat2-build.log 2>&1:将标准输出流与错误输出流同时输入到hisat2_build.log这个文件中。

    3.2 samtools的安装与使用

    3.2.1 samtools安装

    通过miniconda安装,一步到位。

    conda create -n samtools
    conda activate samtools
    conda install -c bioconda samtools=1.18
    #创建samtools的安装环境并安装指定版本的samtools
    

    3.2.2 使用samtools转换格式与构建索引

    samtools sort -o output.bam input.sam
    #将sam文件转换为bam文件,输入为sam文件,输出为bam文件
    samtools index input.bam
    #samtools对bam文件进行索引构建
    

    3.3 Stringtie的安装与使用

    conda create -n stringtie
    conda activate stringtie
    conda install -c bioconda stringtie=2.2.1
    #创建环境并安装指定版本的stringtie
    

    stringtie基本使用方法

    stringtie input.bam -p 16 -v -o stringtie.gtf -A abundance.txt
    

    input.bam:是输入的 BAM 文件路径,即待进行转录组装的 BAM 文件.
    -p 16: 这个选项指定了并行处理的线程数.
    -v: 这个选项用于开启详细的输出信息(verbose mode),显示更多关于程序运行的详细信息。**
    -o stringtie.gtf: 这个选项指定输出的 GTF 文件的名称和路径。
    -A abundance.txt: 这个选项指定输出一个文本文件,其中包含每个基因的表达量信息。

    3.4 Astalavista的安装与使用

    conda create -n asvista
    conda activate asvista
    conda install -c bioconda astalavista=4.4
    #创建环境并安装对应版本的astalavista
    

    Astalavista基本使用命令:

    astalavista -t asta --threads 24 -i input.gtf -o output_gtf.gz
    

    将output_gtf.gz解压后就会得到可变剪切的信息文件,Astalavista软件产生的结果是用各种符号组合来表示的,不同符号类型表示不同的可变剪切类型:对于简单AS事件,AStalavista软件定义AS编码0,1–2ˆ( '为外显子跳跃( ES ),1ˆ,2ˆ为替代供体( A5SS ),1-,2-为替代受体( A3SS ),'0, 1ˆ2-为内含子保留( IR ),'1–2ˆ, 3–4ˆ为相互外显子跳跃( MXE*)。

    图2

    参考文献
    [1]可变剪切分析(一)详细教程 - 知乎 (zhihu.com)
    [2]7种可变剪接类型(TCGA可变剪切)-生信自学网 (biowolf.cn)

    相关文章

      网友评论

        本文标题:二代转录组可变剪切(AS)分析

        本文链接:https://www.haomeiwen.com/subject/mdhaadtx.html