下载
创建hisat目录
mkdir hisat
进入
cd hisat
下载
wget http://ccb.jhu.edu/software/hisat/downloads/hisat-0.1.5-beta-source.zip
建议:去官网下2.0的更好,能多线程跑
解压
unzip hisat-0.1.5-beta-source.zip
配置环境(网上教程)
echo 'PATH=$PATH:/home/wbq/hisat/hisat-0.1.5-beta/' >> ~/.pro
因为我是xshell交互式login shell,所以用的是profile。
非交互式的用
echo 'PATH=$PATH:/home/wbq/hisat/hisat-0.1.5-beta/' >> ~/.bashrc
二者区别参考https://www.cnblogs.com/Chary/p/No0000177.html
比较好的配置环境操作
在~目录中
vim .bash_profile
E #编辑改文件。电脑无反应,没关系,正常。再输入
PATH=$PATH:文件的绝对路径
#输入好了之后检查无错误后
按键盘左上角Esc键 #电脑无反应,没关系,正常。再输入
:wq #保存并退出
source .bash_profile #使其生效
配置环境时一定要用绝对路径
重启后生效
检查有没有成功
echo $PATH
显示多出一个hisat-0.1.5-beta 即为成功
运用
构建索引文件
hisat-build /home/xxxx.fa /home/genome
genome是指给index的命名名字,而不是指文件夹。
hisat-build.png
比对
没有注释文件的比对方法
hisat2 -p 18 --dta -x ~/genome/HJX74 -1 /home/wbq/liuqing/rawdata/fq.gz/Rice_D908-T02_good_1.fq.gz -2 /home/wbq/liuqing/rawdata/fq.gz/Rice_D908-T02_good_2.fq.gz -S HJX74.sam
有2个输入文件,是因为双端测序的结果有左端和右端。如果是单端测序,就只有一个输入文件。
不知道每个option的意义的可以输入
hisat2 -h #看说明书
hisat.png
21.60%的比对没有一次对齐,61.81%的有一次对齐,16.59%的超过一次对齐。
超过一次对齐的原因:存在重复序列,有基因不止一个拷贝。
整体比对在最后一行,87.68%的序列能够比对成功。
另一个数据的.sam文件
.sam文件全称是 sequence alignment map format, 专门储存高通量测序文件。保存了序列名字、长度、序列比对到染色体的什么位置(并校验数据可靠性)、program命令。
各列的意义:
序列,以什么状态(没)比对上(SAM Flags),染色体,比对具体位置,比对质量(the more the better),比对差异情况(插入(i)和缺少(d)算miss match)
有注释文件的比对方法
hisat2_extract_splice_site.py gene.gtf > genes.ss #把剪切位点提取出来
hisat2 -p 4 --known-splicesite-infile gene.ss -x genome(index文件) -1 SRRxxxx_1.fastq -2 SRRxxx_2.fastq -S SRRxxxx.sam
samtools
下载安装
mkdir samtools
cd samtools
wget https://github.com/samtools/samtools/releases/download/1.10/samtools-1.10.tar.bz2
tar -jxvf samtools-1.10
./configure --prefix=/home/wbq/samtools/samtools-1.10
make
make install
vim .bash_profile
E
PATH=$PATH:/home/wbq/samtools/samtools-.1.10
source .bash_profile
echo $PATH
使用
就是把sam文件改成bam文件,压缩成二进制文件
samtools view -bS HJX74.sam > /home/wbq/HJX74/HJX74.bam #查看bam文件内容
samtools sort -@ 2 -o HJX74.sort.bam HJX74.bam #按比对位置排序+格式转换
samtools index HJX74.bam #建立bam文件索引
samtools merge -@ 4 -h SRR1582649.bam merged.bam SRR1582646.bam SRR1582647.bam SRR1582648.bam SRR1582649.bam SRR1582650.bam SRR1582651.bam #把生成的bam文件合并为一个文件。因为每个文件的sam文件表头都一样,所以用-h指定某一个文件的表头作为总文件的表头。
以上命令不是全都需要打,samtools sort的命令必须打
StringTie
下载安装
mkdir stringtie
cd stringtie
wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-2.1.4.tar.gz
tar -zxvf stringtie-2.1.4.tar.gz
make
vim .bash_profile
i
PATH=$PATH:/home/wbq/stringtie/stringtie-2.1.4
source .bash_profile
echo $PATH
使用
有参考基因组文件
stringtie /home/wbq/HJX74/HJX74.sort.bam -e -G /home/wbq/liuqing/newW0/Oryza_HJX74_top_level.v2.2real.gff3 -o /home/wbq/HJX74/HJX74.gtf
结果
与命令是不同数据
我们拼出来的有1947条转录本,但实际原本有5400+基因,差异原因:
- 有些基因表达量比较低;
- 基因间距很小,有重叠,软件会把他们拼接为一个转录本,但里面不止一个基因
- 链特异性
- ...
可视化结果
IGV软件
表达量定量
三种定量指标
image.png
stringtie -p 4 -G genes.gtf -e -A SRR1582646.gene_exp \ -o SRR1582646.out SRR1582646.bam
image.png
FPKM和TPM都是样本内可比,样本间不可比。
差异表达分析
有重复的分析
cuffdiff -p 4 genes.gtf SRR1582646.bam,SRR1582647.bam,SRR1582648.bam SRR1582649.bam,SRR1582650.bam,SRR1582651.bam
#重复用逗号隔开,比较差异的组用空格隔开。
如果它报错:BAM record error: found spliced alignment without XS attribute
没关系,是因为cufflinks版本太老,与hisat2格式有点不合,等它报错报完还是会继续跑的。但是缺点是检查不到可变剪切。
结果:
image.png
fold_change大于1的就是显著上调,0~1的是不显著变化,小于0的为显著下调。
网友评论