美文网首页
xshell转录组hisat-samtools-StringTi

xshell转录组hisat-samtools-StringTi

作者: 就是大饼 | 来源:发表于2020-08-07 15:28 被阅读0次

下载

创建hisat目录

mkdir hisat

进入

cd hisat

下载

wget http://ccb.jhu.edu/software/hisat/downloads/hisat-0.1.5-beta-source.zip

建议:去官网下2.0的更好,能多线程跑

解压

unzip hisat-0.1.5-beta-source.zip

配置环境(网上教程)

echo 'PATH=$PATH:/home/wbq/hisat/hisat-0.1.5-beta/' >> ~/.pro

因为我是xshell交互式login shell,所以用的是profile。
非交互式的用

echo 'PATH=$PATH:/home/wbq/hisat/hisat-0.1.5-beta/' >> ~/.bashrc

二者区别参考https://www.cnblogs.com/Chary/p/No0000177.html

比较好的配置环境操作

在~目录中

vim .bash_profile
E  #编辑改文件。电脑无反应,没关系,正常。再输入
PATH=$PATH:文件的绝对路径
#输入好了之后检查无错误后
按键盘左上角Esc键  #电脑无反应,没关系,正常。再输入
:wq   #保存并退出
source .bash_profile #使其生效

配置环境时一定要用绝对路径
重启后生效

检查有没有成功

echo $PATH

显示多出一个hisat-0.1.5-beta 即为成功

运用

构建索引文件

hisat-build /home/xxxx.fa /home/genome

genome是指给index的命名名字,而不是指文件夹。


hisat-build.png

比对

没有注释文件的比对方法

hisat2 -p 18 --dta -x ~/genome/HJX74 -1 /home/wbq/liuqing/rawdata/fq.gz/Rice_D908-T02_good_1.fq.gz -2 /home/wbq/liuqing/rawdata/fq.gz/Rice_D908-T02_good_2.fq.gz -S HJX74.sam

有2个输入文件,是因为双端测序的结果有左端和右端。如果是单端测序,就只有一个输入文件。
不知道每个option的意义的可以输入

hisat2 -h  #看说明书
hisat.png

21.60%的比对没有一次对齐,61.81%的有一次对齐,16.59%的超过一次对齐。
超过一次对齐的原因:存在重复序列,有基因不止一个拷贝。
整体比对在最后一行,87.68%的序列能够比对成功。


另一个数据的.sam文件

.sam文件全称是 sequence alignment map format, 专门储存高通量测序文件。保存了序列名字、长度、序列比对到染色体的什么位置(并校验数据可靠性)、program命令。
各列的意义:
序列,以什么状态(没)比对上(SAM Flags),染色体,比对具体位置,比对质量(the more the better),比对差异情况(插入(i)和缺少(d)算miss match)

有注释文件的比对方法

hisat2_extract_splice_site.py gene.gtf > genes.ss  #把剪切位点提取出来
hisat2 -p 4 --known-splicesite-infile gene.ss -x genome(index文件) -1 SRRxxxx_1.fastq -2 SRRxxx_2.fastq -S SRRxxxx.sam

samtools

下载安装

mkdir samtools
cd samtools
wget https://github.com/samtools/samtools/releases/download/1.10/samtools-1.10.tar.bz2
tar -jxvf samtools-1.10
./configure --prefix=/home/wbq/samtools/samtools-1.10
make
make install
vim .bash_profile
E
PATH=$PATH:/home/wbq/samtools/samtools-.1.10
source .bash_profile
echo $PATH

使用

就是把sam文件改成bam文件,压缩成二进制文件

samtools view -bS HJX74.sam > /home/wbq/HJX74/HJX74.bam  #查看bam文件内容
samtools sort -@ 2 -o HJX74.sort.bam HJX74.bam  #按比对位置排序+格式转换
samtools index HJX74.bam  #建立bam文件索引
samtools merge -@ 4 -h SRR1582649.bam merged.bam SRR1582646.bam SRR1582647.bam SRR1582648.bam SRR1582649.bam SRR1582650.bam SRR1582651.bam #把生成的bam文件合并为一个文件。因为每个文件的sam文件表头都一样,所以用-h指定某一个文件的表头作为总文件的表头。

以上命令不是全都需要打,samtools sort的命令必须打

StringTie

下载安装

mkdir stringtie
cd stringtie
wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-2.1.4.tar.gz
tar -zxvf stringtie-2.1.4.tar.gz
make
vim .bash_profile
i
PATH=$PATH:/home/wbq/stringtie/stringtie-2.1.4
source .bash_profile
echo $PATH

使用

有参考基因组文件

stringtie /home/wbq/HJX74/HJX74.sort.bam -e -G /home/wbq/liuqing/newW0/Oryza_HJX74_top_level.v2.2real.gff3 -o /home/wbq/HJX74/HJX74.gtf

结果


与命令是不同数据

我们拼出来的有1947条转录本,但实际原本有5400+基因,差异原因:

  • 有些基因表达量比较低;
  • 基因间距很小,有重叠,软件会把他们拼接为一个转录本,但里面不止一个基因
  • 链特异性
  • ...

可视化结果

IGV软件

表达量定量

三种定量指标


image.png
stringtie -p 4 -G genes.gtf -e -A SRR1582646.gene_exp \ -o SRR1582646.out SRR1582646.bam
image.png

FPKM和TPM都是样本内可比,样本间不可比。

差异表达分析

有重复的分析

cuffdiff -p 4 genes.gtf SRR1582646.bam,SRR1582647.bam,SRR1582648.bam SRR1582649.bam,SRR1582650.bam,SRR1582651.bam 
#重复用逗号隔开,比较差异的组用空格隔开。

如果它报错:BAM record error: found spliced alignment without XS attribute
没关系,是因为cufflinks版本太老,与hisat2格式有点不合,等它报错报完还是会继续跑的。但是缺点是检查不到可变剪切。
结果:


image.png

fold_change大于1的就是显著上调,0~1的是不显著变化,小于0的为显著下调。

相关文章

网友评论

      本文标题:xshell转录组hisat-samtools-StringTi

      本文链接:https://www.haomeiwen.com/subject/cnferktx.html