Qiime2-2.导入文件

作者: jlyq617 | 来源:发表于2019-11-15 13:45 被阅读0次

我我我终于要回来写qiime2了。折腾其他东西了一段时间,终于有时间回过来写这个了!

具体如何导入文件可以参考:Qiime Importing Data

由于大部分人获得的数据都是来自公司,而公司一般都已经做好了去barcode、demultiplexed(分样)等工作,所以我从中挑选了几种导入方式讲解,其他的大家可以参考qiime2提供的官方手册选择适合自己的导入格式。
首先简单介绍一下数据格式,一般我们获得文件为fastq或fasta格式。
这两者的区别很简单:FASTQ=FASTA+Quality,FASTQ与FASTA文件相比,它对每个碱基还增加了质量评估,具体大家可以自行查看fastq的规则FASTQ format

Casava 1.8 single-end demultiplexed fastq
第一种方式是将你的文件名按照casava这种类型的固定格式命名,具体地:
你的数据文件名字应该如:L2S357_15_L001_R1_001.fastq.gz,每个部分的含义如下:
L2S357:样本的identifier
15:barcode的序列或identifier
L001:测序泳道序号
R1:测序方向 (单端测序仅有R1,双端测序为R1和R2)
001: the set number

代码方面主要差异就是--type和--input-format,根据数据实际情况确定是单端还是双端

#单端数据
wget \
  -O "casava-18-single-end-demultiplexed.zip" \
  "https://data.qiime2.org/2019.10/tutorials/importing/casava-18-single-end-demultiplexed.zip"
unzip -q casava-18-single-end-demultiplexed.zip
#单端测序
qiime tools import \
  --type 'SampleData[SequencesWithQuality]' \
  --input-path casava-18-single-end-demultiplexed \
  --input-format CasavaOneEightSingleLanePerSampleDirFmt \
  --output-path demux-single-end.qza
#双端数据
wget \
  -O "casava-18-paired-end-demultiplexed.zip" \
  "https://data.qiime2.org/2019.10/tutorials/importing/casava-18-paired-end-demultiplexed.zip"
unzip -q casava-18-paired-end-demultiplexed.zip
#双端测序
qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path casava-18-paired-end-demultiplexed \
  --input-format CasavaOneEightSingleLanePerSampleDirFmt \
  --output-path demux-paired-end.qza

“Fastq manifest” formats
如果你不想像上面的要求批量修改文件名,你也可以选择借助“manifest”文件的方式导入文件,具体地:
第一步,你首先要创建一个’manifest‘文件,文件的格式如下:

sample-id     forward-absolute-filepath       reverse-absolute-filepath
sample-1      $PWD/some/filepath/sample0_R1.fastq.gz  $PWD/some/filepath/sample1_R2.fastq.gz
sample-2      $PWD/some/filepath/sample2_R1.fastq.gz  $PWD/some/filepath/sample2_R2.fastq.gz
sample-3      $PWD/some/filepath/sample3_R1.fastq.gz  $PWD/some/filepath/sample3_R2.fastq.gz
sample-4      $PWD/some/filepath/sample4_R1.fastq.gz  $PWD/some/filepath/sample4_R2.fastq.gz

该文件是用‘\t‘即tab进行分割的一个txt文件,当然tsv也可以。
第一列应为Sample ID,第二列为正向测序(R2)文件的储存路径,如果为双端测序的话第三列为反向测序(R2)文件的路径。

另外,导入的时候我们还需要指明FASTQ具体的格式,FASTQ有4种十分相似的常用格式变体: FASTQ format
SingleEndFastqManifestPhred33V2:单端的33编码的质量得分
SingleEndFastqManifestPhred64V2:单端的64编码的质量得分
PairedEndFastqManifestPhred33V2:双端的33编码的质量得分
PairedEndFastqManifestPhred64V2:双端的64编码的质量得分
在导入的过程中,qiime2会将64编码转为33 编码质量得分。

在qiime2手册中提供了其中两种格式的示例:SingleEndFastqManifestPhred33V2 和 PairedEndFastqManifestPhred64V2

#单端数据
wget \
  -O "se-33.zip" \
  "https://data.qiime2.org/2019.10/tutorials/importing/se-33.zip"

#单端数据对应的manifest
wget \
  -O "se-33-manifest" \
  "https://data.qiime2.org/2019.10/tutorials/importing/se-33-manifest"

#导入数据
unzip -q se-33.zip
qiime tools import \
  --type 'SampleData[SequencesWithQuality]' \
  --input-path se-33-manifest \
  --output-path single-end-demux.qza \
  --input-format SingleEndFastqManifestPhred33V2
#双端数据
wget \
  -O "pe-64.zip" \
  "https://data.qiime2.org/2019.10/tutorials/importing/pe-64.zip"

#双端数据对应的manifest
wget \
  -O "pe-64-manifest" \
  "https://data.qiime2.org/2019.10/tutorials/importing/pe-64-manifest"

#导入数据
unzip -q pe-64.zip

qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path pe-64-manifest \
  --output-path paired-end-demux.qza \
  --input-format PairedEndFastqManifestPhred64V2

除上述介绍的2种导入方式,qiime2还提供了50多种数据格式的导入方式以满足不同的需求,比如:

如果是没有demultiplexed的混样FASTQ格式数据:
单端:“EMP protocol” multiplexed single-end fastq
双端:“EMP protocol” multiplexed paired-end fastq

如果是没有质量得分的FASTA格式数据:
qiime支持导入qiime中的seqs.fna格式数据:
该格式由一个fasta文件组成,每条记录只有两行:header和sequence。每个序列必须正好一行,不能拆分多行。每条序列的ID必须遵循要求的格式。

如果是代表性序列数据:
Per-feature unaligned sequence data (i.e., representative FASTA sequences)

如果是对齐的FASTA格式文件:
Per-feature aligned sequence data (i.e., aligned representative FASTA sequences)

如果是特征表(BIOM)格式:
Feature table data

如果是系统发育树数据:
Phylogenetic trees(newick格式数据)
....

更多的类型我们可以使用以下命令查看:

qiime tools import \
  --show-importable-formats

相关文章

网友评论

    本文标题:Qiime2-2.导入文件

    本文链接:https://www.haomeiwen.com/subject/urgxnqtx.html