三、质量控制
该步骤的质量控制主要包括三个方面:去除嵌合体、去除单一序列、去除非细菌序列和叶绿体序列。
1、去除嵌合体序列
去除嵌合体序列主要包括:嵌合体序列的确定、从序列文件中删除嵌合体和从OTU table中删除嵌合体。
(1)嵌合体序列的确定:
QIIME中提供了identify_chimeric_seqs.py命令以确定嵌合体,方法主要有ChimeraSlayer和USEARCH 6.1两种,但是,经尝试,速度均很慢,所以可以直接使用Mother中UCHIME方法确定嵌合体。使用上面第三步得到的Alignment序列,进行嵌合体确定,嵌合体序列被记录在.accnos文件中,将文件后缀改为.txt得到chimeraID.txt文件。
(2)从序列文件中删除嵌合体
filter_fasta.py -f inseqs.fasta -o non_chimeric_seqs.fasta -s chimeric_seqs.txt -n
-s选项为只包含序列名的文件(例如上步得到的chimeraID.txt),加上-n选项表示从序列文件中删去该文件中出现的序列,不加-n选项则表示只保留这部分序列。
(3)从OTU table中删除嵌合体
两种方法可以实现:
一是重新生成新的OTU table,在上面第七步make_otu_table.py中加入去除嵌合体的选项:
make_otu_table.py -i otu_map.txt -o otu_table.biom -e chimeric_seqs.txt -t taxonomy.txt
二是在第七步得到的OTU table中删除:
filter_otus_from_otu_table.py -i otu_table.biom -o otu_table_non_chimeric.biom -e chimeric_otus.txt
2、去除单一序列:
单一序列(Singleton)是指在所有测序结果中只包含一条序列的OTU,针对OTU table操作同样使用filter_otus_from_otu_table.py命令进行去除:
filter_otus_from_otu_table.py -i otu_table.biom -o otu_table_no_singletons.biom -n 2
3、去除非细菌序列和叶绿体序列:
根据进化分类的信息,仅保留细菌序列,同时去除叶绿体序列,使用filter_taxa_from_otu_table.py命令操作:
filter_taxa_from_otu_table.py -i otu_table.biom -o otu_table_1.biom -p k__Bacteria -n c__Chloroplast
其中-p选项为仅保留,-n选项为去除,注意k和c后面为连续两条下划线。
当然,2、3两步只是针对OTU table进行处理,如果需要针对.fasta序列文件删除该部分序列,可以通过filter_fasta.py结合OTU table的biom文件实现:
filter_fasta.py -f inseqs.fastq -o biom_filtered_seqs.fastq -b otu_table.biom
这样得到的序列文件就可以重新进行上面第二项中的5、6两小步,即对齐、剪切、建树。
四、Biom格式的OTU table操作
经过质控后,我们最终得到了OTU table,这是下游分析的基础。
(1)Biom格式的OTU table描述:
biom summarize-table -i rich_sparse_otu_table.biom -o rich_sparse_otu_table_summary.txt
执行该命令可以得到OTU table的一些基本信息,包括各样品包含的序列条数等。
(2)为方便后续使用其他软件进行统计分析,需要将Biom格式OTU table转化为.txt的文本格式:
biom convert -i table.biom -o table.from_biom_w_taxonomy.txt --to-tsv --header-key taxonomy
网友评论