比对参考基因组的2种软件:hisat2、subjunc
hisat2软件
1、构建索引:
- 官网下载:https://ccb.jhu.edu/software/hisat2/manual.shtml
hisat2官网下载官方索引
- 通过hisat2-build构建基因组索引:(不推荐)
2、关于hisat2:
- Hisat2主要是用来进行转录组数据的比对。使用--help查看选项和参数
hisat2主要参数:
-x <hisat-idx> ## 索引数据文件的前缀。
-1 <m1> ## 双末端测序结果的第一个文件。若有多组数据,使用逗号将
文件分隔。 Reads的长度可以不一致。
-2 <m2> ## 双末端测序结果的第二个文件。若有多组数据,使用逗号将
文件分隔,并且文件顺序要和-1参数的对应。 Reads的长度可以不一致。
-U <r> ## 单端数据文件。若有多组数据,使用逗号将文件分隔。可以和-1,-2参数同时使用。 Reads的长度可以不一致。
-p <num> ## 线程数
- hisat2输出的为sam文件
3、hisat2出现的错误日志:
IndexError: index out of range:此错误并不影响比对过程的完整进行,可以忽略。
https://zhuanlan.zhihu.com/p/121813072
4、比对结果:

subjunc比对:
subjunc是subread软件包中用于比对的工具,可用于发现外显子与外显子之间的连接,及发现融合基因。
1、建立参考基因组索引:
(rna) May5 15:21:21 ~/project/airway/05.mapping
$ index=/teach/database/index/subread/hg38/hg38 #技能树
2、subjunc常用参数
subjunc常用参数:
• -i <index> ## 索引数据文件的前缀。
• -r <m1> ## 双末端测序结果的第一个文件。 #相当于hisat2的-1参数
• -R <m2> ## 双末端测序结果的第二个文件。 #相当于hisat2的-2参数
• -T <num> ## 线程数 #相当于hisat2的-p参数
- subjunc输出的为bam文件
sam与bam文件
- 1、SAM全称: sequence alignment/map format。
BAM是SAM的二进制文件(B源自binary)。
SAM/BAM文件构成:
标头注释部分(header section)
比对结果部分(alignment section)
-
2、表头注释部分:
表头注释部分
-
3、比对结果部分:参考网站:https://www.samformat.info/sam-format-flag
a.每一行表示一个read的比对信息。
b.每行包括11个必须字段和1个可选字段,字段之间用制表符分割。
sam比对结果示例
比对结果说明
比对结果说明2
cigar序列信息表达式解释
网友评论