测序数据比对到参考基因组

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-07-11 23:31 被阅读0次

HISAT-StringTie-Ballgown流程的解释（原理
下载小鼠rRNA序列
测序数据比对到参考基因组
转录组数据标准化--Normalization
STAR序列比对（测试支原体污染序列）
NGS基础 - 参考基因组和基因注释文件
Biostar handbook学习笔记五-基因组测序技术原理简
序列比对 —— Hisat2
如何使用GMAP/GSNAP进行转录组序列比对
[基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的

基因课FTP地址：ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课

服务器间数据拷贝

两台服务器间的数据拷贝用 scp 用户名@服务器：文件路径

样本名称处理

sed -i 's/.fastq.gz//' xxx.file,类似rename的方式处理文件内容
awk 利用文件名生成样本信息表

构建参考基因组

hisat2-build genome.fasta genome
运行时间 —— 二十分钟以内

比对

hisat2 -x [ref-genome] -U [input_filename].fq.gz -S [output_file name].sam -p [threads] --new-summary --rna-strandness R

PE 的输入文件-U项换为 -1 和 -2
线程数建议一般设置为2-6即可
--new-summary 历史原因，使用tophat的旧日志文件格式则不加此项，用新格式日志文件则加此项
--rna-strandness 链特异性文库
链特异性测序针对性解决的问题是：某些基因所在的正链与另一些基因的反链有交集，表达量定给谁？
若不是链特异性测序，去掉此项
若是链特异性测序，要问清楚是用的哪个技术，大部分都用的是dUTP(90%) 如果是，
单末端测序(SE) --rna-strandness参数设置为R
PE 设置为RF
目前绝大部分为链特异性测序
非连特异性测序按照链特异性测序比对，有问题
连特异性测序按照非链特异性测序比对，问题不大
比对DNA序列到基因组用bwa软件
批量生成比对脚本，用awk实现
vim的Ctrl+v也可以实现
linux for循环也可以实现
一般不需要设置错配率，默认就好。若比对后发现比对率特别低，则需要考虑。
比对率一般至少70以上，比对率和参考基因组测序组装质量、比对软件、测序品种与参考基因组物种亲缘关系相关
并行总线程可超过CPU数，超过即排队

比对结果比对率统计与可视化

比对率结果在.log文件中

比对结果压缩排序

samtools sort -o xxx.bam xxx.sam

构建bam index

samtools index xxx.bam

IGV可视化

需要的文件
①导入基因组文件 genome.fasta
②基因注释文件genes.gtf
③sample.bam
④sample.bam.bai

代码集中营

nohup hisat2-build xxx_genome.fasta xxx_genome 1>hisat2-build.log 2>&1 & # 标准输出与错误输出到同一文件
# 比对
# SE
hisat2 -x [ref-genome] -U [input_filename].fq.gz -S [output_file name].sam -p [threads] --new-summary --rna-strandness R
# PE
hisat2 -x [ref-genome] -1 [input_filename]_1.fq -2 [input_filename]_2.fq -S [output_file name].sam -p [threads] --new-summary --rna-strandness RF

网友评论

本文标题：测序数据比对到参考基因组

本文链接：https://www.haomeiwen.com/subject/onogqktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

测序数据比对到参考基因组

服务器间数据拷贝

样本名称处理

构建参考基因组

比对

比对结果比对率统计与可视化

比对结果压缩排序

构建bam index

IGV可视化

相关文章

HISAT-StringTie-Ballgown流程的解释（原理

下载小鼠rRNA序列

测序数据比对到参考基因组

转录组数据标准化--Normalization

STAR序列比对（测试支原体污染序列）

NGS基础 - 参考基因组和基因注释文件

Biostar handbook学习笔记五-基因组测序技术原理简

序列比对 —— Hisat2

如何使用GMAP/GSNAP进行转录组序列比对

[基因组学]使用GAMP根据已知CDS序列来进行未知基因组序列的

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

走进转录组

比对