转录组直播课学习：第四天

作者: 焱黎 | 来源:发表于2020-04-01 16:45 被阅读0次

转录组直播课学习：第四天
转录组学习三（数据质控）
转录组学习二（数据下载）
转录组学习五（reads比对）
转录组学习八（功能富集分析）
转录组学习六（reads计数与标准化）
转录组学习四（参考基因组及gtf注释探究）
转录组学习一（软件安装）
生信菜鸟团-专题学习目录
转录组学习

转录组原理介绍
首先先来解决一下有的参考基因组序列在打开时由于每行碱基太多了，所以要修改一下，利用FASTX-Toolkit工具的fasta_formatter命令, 先利用conda search fastx 搜索可用的软件，然后利用conda install fastx_toolkit安装该软件。然后使用命令：fasta_formatter -i genome.fa -o genome_format.fa -w 70(-i:输入文件。-o:输出文件。-w：设置每行碱基数数目。)

第一步：比对(Spliced alignment)

输入文件：测序数据(sample.fastq)、基因组序列(genome.fasta)
输出文件：比对结果(sample.bam)

软件：比对到基因组（Hisat2或者STAR[准确度高，研究肿瘤可以使用，但是运行占用的资源比较多]软件），比对到转录组（Bowtie2）
比对率至少要达到70%以上。
一个项目测序量现在要求达到6G的碱基量，对于双末端测序相当于20M reads( 因为双末端测序每个read在左右两个末端各测150的碱基数，总共300个，乘以20M就等于6G的量)
步骤：
①构建参考基因组(建立索引)：输入：基因组序列(genome.fasta)；输出：构建好的参考基因组；命令：hisat-biuld命令。(对于模式物种可以去hisat网站下载构建好的)
②比对：输入：构建好的参考基因组和测序数据(sample.fastq)；输出：比对结果(sample.sam)；命令：hisat2
③压缩和排序：输入：sample.sam；输出：sample.bam；命令：samtools sort（这个命令属于samtools这个软件，利用conda install samtools安装）
④对bam文件建立索引：输入：sample.bam；输出：sample.bam.bai;
命令：samtools index