下载参考基因组的网站/方法
Ensembl:https://ftp.ensembl.org/pub/
Ensemblgenome:http://ftp.ensemblgenomes.org/pub/
NCBI:https://ftp.ncbi.nlm.nih.gov/genomes/
UCSC:ftp://hgdownload.soe.ucsc.edu/goldenPath
JGI:
论文中提供的地址:论文中也会提供数据的储存位置,找到对应的储存网站即可
需要下载的数据
基因组序列(genome.fasta)
基因注释(genes.gtf)
蛋白序列(proteins.fasta)
下载步骤
1.以Ensembl中人(homo_sapiens)的数据为例
打开ftp网址找到最新版本的release版本(release_xxx)fasta/homo_sapiensdna/*.primary_assembly版本服务器wget命令下载返回release_xxxgtf/homo_sapiens/.chr.gtf.gz/.gtf.gz服务器wget命令下载 返回release_xxxfasta/homo_sapiens/pep/Homo_sapiens.GRCh38.pep.all.fa.gz服务器wget命令下载
其实大部分时候参考基因组的信息都是要从其他地方下载的,查找该物种最新的基因组文章,里面一般会交代他们把基因组数据存放在哪里了。
基因组序列(genome.fasta)处理
如果下载的基因组文件已经将基因分配到不同的染色体上,则需要将他们再重新组装到一个文件中,具体操作为:
gunzip *.fq.gz
#解压以fq.gz结尾的染色体文件
cat *.fa > genome.fa
#将所有解压的染色体拼接成一个文件,用于后续分析
fold -w 60 genome.fa > genome_out.fa
#fold命令将每行的长序列转换成每行60个碱基,因为后续的分析中某些软件不支持单行的过长序列
基因注释文件(genes.gff3/gtf)处理
guzip gff3.fq.gz
#解压gff3压缩文件
less -S gff3.fa
#查看gff3的文件内容
awk '$3=="gene"' HFTH1.gene.gff3 | wc
使用awk命令对gff3文件中的基因数进行统计,也可将gene换成mRNA,观察两者的数目是否一致,一致则说明该物种只研究到转录组水平,若mRNA数多余gene数,则说明研究到了可变剪切水平。
将gff3文件转换成gtf文件
conda create -n gffread
conda activate gffread
conda install -c gffread
gffread -T -o genes.gtf genes.gffs
以上代码展示了安装转换软件gffread的过程并提供了gff3文件转换为gtf文件命令,gtf文件中包含的信息有转录本、外显子、CDS及转录本隶属的基因关系这几行。
蛋白序列文件的处理(proteins.fasta)
若物种没有功能注释文件则需要使用proteins.fasta生成一个功能注释文件。若蛋白序列抬头不是基因的ID则还需要想办法将其处理成抬头为基因ID,参考命令如下:
awk -F '-' '{print $1}' HFTH1.gene.pep.fa > proteins.fasta
#使用awk命令将分隔符换为-,打印第一列并将结果输入到proteins.fasta中
我自己找的蛋白序列文件的抬头是这样的:>KAF5929869.1 hypothetical protein HYC85_000052, partial [Camellia sinensis],通过替换功能将其变成了>KAF5929869.1_HYC85_000052。再使用以下命令找到每一行中匹配KAF..1*正则表达式的部分,并将其替换为空。
sed -i 's/KAF.*\.1//g' GCA_013676235.1_HZAU_G240_1.0_protein.faa
网友评论