转录组原理介绍
首先先来解决一下有的参考基因组序列在打开时由于每行碱基太多了,所以要修改一下,利用FASTX-Toolkit工具的fasta_formatter命令, 先利用conda search fastx 搜索可用的软件,然后利用conda install fastx_toolkit安装该软件。然后使用命令:fasta_formatter -i genome.fa -o genome_format.fa -w 70(-i:输入文件。-o:输出文件。-w:设置每行碱基数数目。)
第一步:比对(Spliced alignment)
输入文件:测序数据(sample.fastq)、基因组序列(genome.fasta)
输出文件:比对结果(sample.bam)
- 软件:比对到基因组(Hisat2或者STAR[准确度高,研究肿瘤可以使用,但是运行占用的资源比较多]软件),比对到转录组(Bowtie2)
- 比对率至少要达到70%以上。
- 一个项目测序量现在要求达到6G的碱基量,对于双末端测序相当于20M reads( 因为双末端测序每个read在左右两个末端各测150的碱基数,总共300个,乘以20M就等于6G的量)
- 步骤:
①构建参考基因组(建立索引):输入:基因组序列(genome.fasta);输出:构建好的参考基因组;命令:hisat-biuld命令。(对于模式物种可以去hisat网站下载构建好的)
②比对:输入:构建好的参考基因组和测序数据(sample.fastq);输出:比对结果(sample.sam);命令:hisat2
③压缩和排序:输入:sample.sam;输出:sample.bam;命令:samtools sort(这个命令属于samtools这个软件,利用conda install samtools安装)
④对bam文件建立索引:输入:sample.bam;输出:sample.bam.bai;
命令:samtools index
第二步:表达定量(Quantification)
输入文件:比对结果(sample.bam)、基因注释文件(genes.gtf)
输出文件:表达量(sample.count)
- 软件:subread软件的featureCounts命令。
- 安装:conda install bioconductor-rsubread
- 得到reads count 矩阵,然后进行标准化(FPKM[错误的,不建议使用]和TPM)
本节课后需要练习hisat2、samtools软件的使用方法
网友评论