两个有趣的小问题

作者: 刘小泽 | 来源:发表于2019-01-15 23:17 被阅读6次

两个有趣的小问题
Category的一个冷门小问题
两个小问题
如何向内寻找自己-献给姑娘们
分享两个小问题
JDBC两个小问题
家长把班主任的微信电话统统拉黑，长期失联，警察找到他们后，说出了
iOS 小坑集锦
在朋友眼里,你算“有趣的灵魂”吗？
探讨两个种地小问题

刘小泽写于19.1.15

第一个基因组下载版本问题

听说许多朋友都遇到过下载ensembl数据库的基因组都会犯选择困难症，并且如果版本选择不对，后续解压可能会带你“惊喜“【例如一个1G的文件解压成50G=》花花就遇到过，我当时还不信，后来又有朋友遇到，我信了】

首先说，基因组有哪些选择呢？

最常用的就是NCBI(ftp://ftp.ncbi.nlm.nih.gov/genomes/);

UCSC(http://hgdownload.cse.ucsc.edu/downloads.html);

Ensembl(ftp://ftp.ensembl.org/pub/release-94/)

许多时候我们会选择ensembl，主要考虑到以下几点：

Ensembl的信息很详细，比如build version就很明显【例如UCSC上是"hg38.fa.gz”，在Ensembl上就是"Homo_sapiens.GRCh38.dna_sm.primary_assembly.fa.gz”】
Ensembl上可以看到基因组是不是masked，另外是”primary_assembly“还是"toplevel"
Emsembl有亚洲下载镜像，对于大陆的小伙伴下载速度会快一些
因为正规，所以专业，有自己的注释文件搭配使用，这一点比UCSC和Refseq要好

然后，ensembl中选择哪个版本呢？

例如，打开最新的Ensembl人类基因组目录：ftp://ftp.ensembl.org/pub/release-94/fasta/homo_sapiens/dna/ 【看看是不是眼花缭乱？】

image.png

但慢慢看还是有规律的：文件名以.分隔，最开始是物种拉丁文名，然后是版本信息，重点看.dna的后面：

有的是rm表示repeat mask ，表示基因组重复区域标记成N，如果你的用途是比对，那么尽量不要用rm版本，因为会降低总体的比对率，但比对速度会稍快。例如Homo_sapiens.GRCh38.dna_rm.chromosome.Y.fa.gz
有的是sm表示soft_mask，表示将重复区域换成小写（与上面rm的N不同），这个对于比对软件如BWA，Bowtie2等就比较友好，可以不分大小写识别
还有Primary和Top level ，比如Homo_sapiens.GRCh38.dna.toplevel.fa.gz， Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
其中primary的版本中是不包括haplotype info的，而top level中会包含大量的变异信息，而这部分是很冗余并且一般也用不太到

因此，结论就是：有primary就用它，不要选rm，因此像这种就可以：Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

https://www.biostars.org/p/129568/

第二个关于fastq-dump问题

看到一个粉丝问的问题

fastq-dump命令执行完sra数据后

有部分数据生成xxxx_1.fastq.gz,xxxx_2.fastq.gz，还有的生成了xxxx.fastq.gz

数据都是PE数据，命令是：fastq-dump --gzip --split-3

image.png

这个我还从来没有遇到过，我一直也是用这个命令来运行，结果都是正常的两个fq.gz文件，一搜索果然不是个例，https://www.biostars.org/p/186741/

# 其实我也一直好奇为什么--split会加个3？这回知道原因了，就是规定生成3个文件，但是平常我们只能看到两个，因为测序质量可能比较好
--split-3 will output 1,2, or 3 files: 
1 file means the data is not paired. 
2 files means paired data with no low quality reads or reads shorter than 20bp. 
3 files means paired data, but asymmetric quality or trimming. in the case of 3 file output, most people ignore <file>.fastq

这个命令参数--split-3出现的比较早，是在1000 Genome的Phase1阶段产生的，基本实现了一个trim的过程产生了第三个文件，也因此第三个文件会比较小

实际使用时，我们会忽略掉产生的第三个文件【当然也有例外，不过应该比较少见：如果第三个文件比标准的1、2文件还大，那么就要忽略掉1、2文件了】

当然如果只想要2个结果文件，可以用--split-files

欢迎关注我们的公众号～_～　　
我们是两个农转生信的小硕，打造生信星球，想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

网友评论

全基因组/外显子组测序分析

本文标题：两个有趣的小问题

本文链接：https://www.haomeiwen.com/subject/nfaudqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

两个有趣的小问题

第一个基因组下载版本问题

首先说，基因组有哪些选择呢？

然后，ensembl中选择哪个版本呢？

第二个关于fastq-dump问题

相关文章