转录组学习一(软件安装)

作者: Dawn_WangTP | 来源:发表于2018-01-17 14:58 被阅读185次

    转录组学习一(软件安装)
    转录组学习二(数据下载)
    转录组学习三(数据质控)
    转录组学习四(参考基因组及gtf注释探究)
    转录组学习五(reads的比对与samtools排序)
    转录组学习六(reads计数与标准化)
    转录组学习七(差异基因分析)
    转录组学习八(功能富集分析)

    开篇:2017/10/7正式开始生信技能树论坛里的转录组入门从Linux下软件的安装 到 差异表达基因的功能注释及功能分析相关。

    转录组相关软件的安装

    任务

    1. 本地Windows电脑及服务器Linux系统下安装此次入门学习的各类软件及简单了解软件的基本用法:包括:sratoolkit, fastqc,Trimmomatic, hisat2, samtools, bcftools, htseq-count, R, Rstudio
    2. windws下的一些基础编程工具如:git, notepad++, ...

    <font color =orange>环境变量</font>

    软件安装,首先最重要的问题就是Linux操作系统的环境变量。这问题真的是有些有些小坑,记得当时反复看了几篇文章+实际操作安装几次软件下才清楚了环境变量的概念。后来再在Windows的dos操作时就瞬间明白这种东西都是通用的概念。主要参考文章Linux学习-环境变量和可执行属性群体基因组(二)

    环境变量:首先要明白,Linux操作系统执行如ls/cd/mkdir这类的命令实际是系统从内置的文件目录下调用这些ls/cd/mkdir的程序文件然后执行。而这系统内置的文件目录就是环境变量。环境变量就是告诉电脑操作系统几个目录,这几个目录下存储着可执行的文件。
    系统中环境变量的名字是PATH, 可通过echo $PATH 显示系统环境变量的目录。
    加入临时变量 命令:export PATH=$PATH: ~~~~~~~~; 而加入永久变量可以通过将上述export命令加入到~/.bashrc文件里。如 echo 'PATH=$PATH:~/biosoft/samtools/bin' >> ~/.bashrc ,然后再source ~/.bashrc即可

    <font color = orange>sratoolkit</font>

    • 功能:sratookit主要功能现阶段主要还是把 NCBI的SRA数据库中的NGS原始测序数据 从sra格式转换到fastq格式,从而进行下一步的操作。 其他的还有prefetch 功能直接根据编号下载SRA数据
    • 官方主页:NCBI SRA Toolkit
    • 其他文档说明SRA_TOOLKIT documents
    • 具体安装:
    mkdir bio_soft && cd bio_soft
    wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-centos_linux64.tar.gz ### 选择不同系统下的版本,一般服务器的Linux版本为centos。
    tar -zxvf sratoolkit.2.8.2-1-centos_linux64.tar.gz
    
    echo ' PATH=$PATH:~/bio_soft/sratoolkit.2.8.2-1-centos_linux64.tar.gz/bin' >> ~/.bashrc  ###添加到环境变量
    source ~/.bashrc ##是环境变量生效
    ###以下为测试一下,和preftch -c
    prefetch -v ##测试版本号
    preftch -c SRR390728 ##速度有点慢,会默认下载到家目录的ncbi/public/sra文件夹下。
    

    <font color = orange>samtools</font>

    cd bio_soft
    wget https://github.com/samtools/samtools/releases/download/1.6/samtools-1.6.tar.bz2
    tar -jxvf samtools-1.6.tar.bz2
    cd samtools-1.6
    ./configure ### 软件的编译过程。
    make ###编译结束会发现samtools程序,把这个软件程序移到环境变量文件夹下及可以使用。
    

    <font color = orange>利用Conda来安装软件</font>

    ps. 自己装软件,真的是会遇到各种麻烦。软件编译啊,版本不对啊,软件安装得依赖于各种奇奇怪怪的前置包,有的软件就是死活装不上。装的时候就在想,如果Linux下有类似Windows的360软件管家这种东西该多好,直接一键安装,然后就能直接使用。也不必浪费时间在装软件这种事情上面了。结果后来看文章:还真的是有!这神器就是conda。

    参考文章,博客青山屋主_知乎生信软件的好帮手-biocondaLinux学习 - 又双叒叕一个软件安装方法

    • CONDA介绍:Conda是一种通用包管理系统,旨在构建和管理任何语言的任何类型的软件。通常与Anaconda和Miniconda一起分发。Anaconda囊括了100多个常用的Python包,一键式安装,解决Python包安装的痛苦。但后来发现,其还有更多的功能,尤其是其增加了bionconda频道后,生物信息分析的1500多个软件都可以一键安装了,免去了编译时间浪费和解决库文件安装的问题。简单来说,就是一键安装生物信息软件,还能日后更新,另外,还有一个重要的工作环境概念,可以简单的配置不同Python版本的环境、不同Python包的环境、不同R环境和R包的环境。
    • 下载:下载Anaconda或者miniconda。miniconda是一个简化版本,保留了一些核心的功能,对于生信安装软件来说,miniconda已经足够,如果日后再出现什么问题,那就再重新装Anaconda再说吧
    wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh ## 下载
    
    • 安装:输入命令
    bash Miniconda3-latest-Linux-x86_64.sh
    

    然后就是一路回车加输入yes,最后有一个将miniconda目录输入到环境变量~/.bashrc中,输入yes,还未完成,最后输入命令 source ~/.bashrc 使环境变量文件生效,大功告成。

    • 添加channels频道:重要的就是bioconda环境还有清华的镜像,里面包含几乎所有常用的生信软件。
    conda config --add channels r
    conda config --add channels defaults
    conda config --add channels conda-forge
    conda config --add channels bioconda 
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
    conda install -c bioconda multiqc
    
    • 软件搜索:看你要的生信软件是否有,以samtools为例
    conda search samtools
    
    • 软件安装
    conda install samtools
    conda install samtools=(版本号)
    
    • 其他目前常用的一些conda命令
    conda config --get channels ## 查看已添加的channels
    conda config --remove channels ~~~ ##删除频道
    conda update conda ## 更新conda软件
    conda remove 软件名 ## 删除指定软件
    conda update 软件名 ## 更新指定软件
    conda list ## 查看已经安装软件
    conda config --remove channels ~~~
    
    source activate python=2.7
    source deactivate
    

    <font color = orange>fastqc</font>

    conda install fastqc
    

    <font color = orange>Trimmomatic</font>

    conda install trimmomatic
    

    <font color = orange>hisat2</font>

    • 功能:将测序结果比对到基因组上,通常是对有参转录组进行的比对。HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用,作者推荐TopHat2/Bowti2和HISAT的用户转换到HISAT2。
    • 官网:官网地址
    • 其他相关网站:PloB 博客
    conda install hisat2
    ### 基本命令
    trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
    
    
    

    <font color = orange>HTseq</font>

    • 功能: 一款用于reads计数的软件,他能对位于基因组上的一些单位的reads数进行统计,这里所说的单位主要是指染色体上的一组位置区间(我们常见的就是gene exon
    • 相关介绍中文相关介绍:Bluesky's blog
      OA_maque
    conda install htseq ##会有一些其他依赖的软件,默认安装就好
    

    <font color = orange>R及 R studio</font>

    对于目前还不是很懂的R语言来说,日后得熟悉基本语法,主攻R语言的画图功能。
    R和R studio直接在Windows电脑上安装就好。其中基于R软件的一些转录组差异表达矩阵分析的包:如 ballgown, sleuth, ggplot2等等,需要安装Bioconductor,也是类似的一键安装生物信息软件的程序。

    相关文章

      网友评论

        本文标题:转录组学习一(软件安装)

        本文链接:https://www.haomeiwen.com/subject/axkuoxtx.html