1.创建工作目录,工作目录下存放公司处理过的 rawdata 和 mapping.txt
2.使用 validate_mapping_file.py 验证 mapping.txt 格式是否正确
validate_mapping_file.py -m mapping.txt -o validate_mapping_file_output
3.使用 vsearch 进行序列连接
mkdir join
vsearch --fastq_mergepairs rawdata/yourdata1_1.fastq.gz \--reverse rawdata/yourdata1_2.fastq.gz \--fastqout join/yourdata1.fastq \--relabel yourdata1_
vsearch --fastq_mergepairs rawdata/yourdata2_1.fastq.gz \ --reverse rawdata/yourdata2_2.fastq.gz \ --fastqout join/yourdata2.fastq \ --relabel yourdata2_
......
vsearch --fastq_mergepairs rawdata/yourdatan_1.fastq.gz \ --reverse rawdata/yourdatan_2.fastq.gz \ --fastqout join/yourdatan.fastq \ --relabel yourdatan_
3.使用 vsearch 去除 barcode 和 primer 信息
1)将双端合并成功的 fastq 文件存放到同一个 fastq 文件中
makedir split
cat join/*.fastq > split/all.fq
2)去除 barcode 和 primer 信息
在这里经过查询 barcode 为左端的前12bp,primer 左右端分别有19bp 和20bp
vsearch --fastx_filter split/all.fq \--fastq_stripleft 31 --fastq_stripright 20 \--fastq_maxee_rate 0.01 \--fastaout join/seqs.fna
4.剩余步骤和前面的 cleandata 数据处理方式一致
网友评论