在刚接触生信的时候,测到的第一套数据就发现有一定量的rRNA,那会就找了silva数据库,经过查看文档,可以通过以下命令整理,得到泛植物的rRNA序列库。可用于去除rRNA污染,或者评估
aria2c -j 20 https://www.arb-silva.de/fileadmin/silva_databases/release_132/Exports/SILVA_132_SSUParc_tax_silva_trunc.fasta.gz
aria2c -j 20 https://www.arb-silva.de/fileadmin/silva_databases/release_132/Exports/SILVA_132_LSUParc_tax_silva_trunc.fasta.gz
pigz -d *
cat *.fasta|perl -ne 'BEGIN{$id=q{};$seq=q{}}chomp;if(/^>/){print $id,qq{\n},$seq,qq{\n} if ($id=~/Eukaryota;Archaeplastida/);$id=$_;$seq=q{}}else{$seq.=$_;}END{print $id,qq{\n},$seq,qq{\n} if ($id=~/Eukaryota;Archaeplastida/)}'|perl -pe 'tr/U/T/ unless /^>/' > panPlant.rRNA.fa
网友评论