一个细菌基因组完整分析脚本
https://mp.weixin.qq.com/s/J4j_-XnEDu0S7k5VdeWH6w
conda create -n danjun python=2.7
conda activate danjun
conda install -c bioconda/label/cf201901 sratools
conda install -c bioconda/label/cf201901 fastp
conda install -c bioconda/label/cf201901 prodigal
conda install -c bioconda/label/cf201901 fastqc
conda install -c bioconda/label/cf201901 soapdenovo2
conda install -c bioconda/label/cf201901 spades
conda install -c bioconda/label/cf201901 soapdenovo2-gapcloser
conda install -c bioconda/label/cf201901 quast
fasterq-dump --split-3 SRR7969781 -e 20
#一、数据质控
mkdir result
fastqc -f fastq -o result SRR7969781_1.fastq SRR7969781_2.fastq
#二、数据过滤
#利用fastp进行数据过滤 -q 质量 -u 指定最多可以有多少百分比的质量不合格碱基 -n 可以限定一条 read 中最多能有多少个 N -z 压缩
fastp -i SRR7969781_1.fastq -I SRR7969781_2.fastq \
-o clean.1.fq.gz -O clean.2.fq.gz -z 4 -q 20 -u 30 -n 10 -h clean.html
#三、序列拼接
#SOAPdenovo
mkdir kmer35
# -K 输入kmer大小 -D 去除频数不大于该值的由k-mer连接的边 -d 去除频数不大于该值的k-mer,默认值为0
# -u 构建scaffold前不屏蔽高覆盖度的contig,这里高频率覆盖度指平均contig覆盖深度的2倍。默认屏蔽
# -p 线程 -s 配置文件
SOAPdenovo-63mer all -s lib.list -K 35 -o kmer35/kmer35 -D 1 -d 1 -u 2 -p 16>kmer35.log
#SPAdes # 不能出现中文目录
spades.py -o illumina_result -1 ./clean.1.fq.gz -2 ./clean.2.fq.gz -t 16
#四、序列补洞
#补洞 -l maximum read length -p overlap param
GapCloser -a kmer35/kmer35.scafSeq -b lib.list -o kmer35.fill.fa -l 100 -p 25 -t 16
#五、拼接结果统计
# 不能有中文路径
#quast.py kmer35.fill.fa -o quast/ -t 16
#quast.py contigs.fasta -o spades/ -t 16
# vulgatus.fa 参考序列
quast.py -r vulgatus.fa -o quast1 kmer35.fill.fa contigs.fasta
#六、基因预测
#原核生物基因预测
# -a 翻译成蛋白质 -d 核酸 -f 选择输出格式 -g Specify a translation table to use
prodigal -a sample1.pep -d sample1.cds -f gff -g 11 -o sample1.gff -p single -s sample1.stat -i contigs.fasta >prodigal.log
#七、基因功能注释
mapper.py -i contigs.fasta --output contigs_bact -d bact --data_dir /ifs1/Software/biosoft/eggnog-mapper-1.0.3/data/
网友评论