在使用比对软件之前要做的一件事就是需要下载参考基因组和注释文件,但是我每次都下载的晕乎乎的,建立索引的时候就会建立到一半然后就失败了,真的是很气人,然后晚上要建斑马鱼的索引,又折腾了半天,想着整理出来一下下吧,虽然折腾了一晚上,有进步总比没有进步好。
(1)参考基因组(.fa)和注释文件(.gtf)的理解。
(2)从哪里可以下载参考基因组和注释文件
1)Ensembl
ensembl的话,我感觉是挺方便的,就是我下载的时候有时候就是链接点不进去,可麻烦了,还有就是文件比较多,会不知道下载哪一个。
2)UCSC
个人觉得UCSC的参考基因组文件是比较好下载的,GTF文件的话比较麻烦了点,就是需要设置一系列参数,然后再下载相对比较麻烦
3)Gencode
Gencode数据库中只有human和mouse的,没有其他物种。
4)NCBI 的genome
NCBI是说不推荐从这里下载,如果能从上面几个网站中下载的话就不推荐从这里下载啦。
参考: 参考基因组及注释文件下载
(3)分别从Ensembl和UCSC下载参考基因组和GTF文件
1)从Ensembl 下载参考基因组和GTF文件
a. 从网址进入ensembl网站,选择需要的物种.
我这边选择的是zebrafish GRCz11这个版本的,需要注意的是,一定要下载对应的版本,测序的时候选择的斑马鱼是哪种基因型的,下载的时候也需要是对应的那种基因型。
b.下载参考基因组和GTF文件
点击进入zebrafish 然后会进入 参考基因组.png但是这边下载下来的是个html的文件,点开这个链接的话会有一系列文件(需要注意的是,有时候下载的时候并不提示你是个html文件,但是打开确实是html文件格式,这时候可以把后缀改了就可以看到文件了,我之前一直很懵逼,后来才明白)。但是我下载的时候,我更喜欢从下面这个方式下载。
FTP.png 但是需要注意的是这边点链接下载的话全提供的是Html格式的文件。
我喜欢这么处理在服务器上把链接下载下来然后在打开
wget ftp://ftp.ensembl.org/pub/release-96/fasta/danio_rerio/dna/
wget ftp://ftp.ensembl.org/pub/release-96/gtf/danio_rerio
#需要注意的是,下载下来的时候文件名都是index.html,可能之前一个会被覆盖,这时候需要自己手动改下之前的文件名了
下载下来后打开那两个链接分别是
FA.png
GTF
这里的话GTF文件比较好下载,直接下载Danio_rerio.GRCz11.96.gtf.gz就可以了。但是对于参考基因组的话会有比较多文件,我当时看的时候,头大啊,然后将参考基因组那个链接往下拉的时候,会有个readme可以点进去看。我选择了toplevel的sm的文件,因为rm是有masked,sm没有masked,我自己感觉用没有Masked的就可以了。
fa文件
Readme rm和sm区别
网友评论