两个有趣的小问题

作者: 刘小泽 | 来源:发表于2019-01-15 23:17 被阅读6次

刘小泽写于19.1.15

第一个 基因组下载版本问题

听说许多朋友都遇到过下载ensembl数据库的基因组都会犯选择困难症,并且如果版本选择不对,后续解压可能会带你“惊喜“【例如一个1G的文件解压成50G=》花花就遇到过,我当时还不信,后来又有朋友遇到,我信了】

首先说,基因组有哪些选择呢?

最常用的就是NCBI(ftp://ftp.ncbi.nlm.nih.gov/genomes/);

UCSC(http://hgdownload.cse.ucsc.edu/downloads.html);

Ensembl(ftp://ftp.ensembl.org/pub/release-94/)

许多时候我们会选择ensembl,主要考虑到以下几点:

  • Ensembl的信息很详细,比如build version就很明显【例如UCSC上是"hg38.fa.gz”,在Ensembl上就是"Homo_sapiens.GRCh38.dna_sm.primary_assembly.fa.gz”】
  • Ensembl上可以看到基因组是不是masked,另外是”primary_assembly“还是"toplevel"
  • Emsembl有亚洲下载镜像,对于大陆的小伙伴下载速度会快一些
  • 因为正规,所以专业,有自己的注释文件搭配使用,这一点比UCSC和Refseq要好

然后,ensembl中选择哪个版本呢?

例如,打开最新的Ensembl人类基因组目录:ftp://ftp.ensembl.org/pub/release-94/fasta/homo_sapiens/dna/ 【看看是不是眼花缭乱?】

image.png

但慢慢看还是有规律的:文件名以.分隔,最开始是物种拉丁文名,然后是版本信息,重点看.dna的后面:

  • 有的是rm表示repeat mask ,表示基因组重复区域标记成N,如果你的用途是比对,那么尽量不要用rm版本,因为会降低总体的比对率,但比对速度会稍快。例如Homo_sapiens.GRCh38.dna_rm.chromosome.Y.fa.gz
  • 有的是sm表示soft_mask,表示将重复区域换成小写(与上面rmN不同),这个对于比对软件如BWA,Bowtie2等就比较友好,可以不分大小写识别
  • 还有PrimaryTop level ,比如Homo_sapiens.GRCh38.dna.toplevel.fa.gz, Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
    其中primary的版本中是不包括haplotype info的,而top level中会包含大量的变异信息,而这部分是很冗余并且一般也用不太到

因此,结论就是:有primary就用它,不要选rm,因此像这种就可以:Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

https://www.biostars.org/p/129568/

第二个 关于fastq-dump问题

看到一个粉丝问的问题

fastq-dump命令执行完sra数据后

有部分数据生成xxxx_1.fastq.gz,xxxx_2.fastq.gz,还有的生成了xxxx.fastq.gz

数据都是PE数据,命令是:fastq-dump --gzip --split-3

image.png

这个我还从来没有遇到过,我一直也是用这个命令来运行,结果都是正常的两个fq.gz文件,一搜索果然不是个例,https://www.biostars.org/p/186741/

# 其实我也一直好奇为什么--split会加个3?这回知道原因了,就是规定生成3个文件,但是平常我们只能看到两个,因为测序质量可能比较好
--split-3 will output 1,2, or 3 files: 
1 file means the data is not paired. 
2 files means paired data with no low quality reads or reads shorter than 20bp. 
3 files means paired data, but asymmetric quality or trimming. in the case of 3 file output, most people ignore <file>.fastq 

这个命令参数--split-3出现的比较早,是在1000 Genome的Phase1阶段产生的,基本实现了一个trim的过程产生了第三个文件,也因此第三个文件会比较小

实际使用时,我们会忽略掉产生的第三个文件【当然也有例外,不过应该比较少见:如果第三个文件比标准的1、2文件还大,那么就要忽略掉1、2文件了】

当然如果只想要2个结果文件,可以用--split-files


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

相关文章

  • 两个有趣的小问题

    刘小泽写于19.1.15 第一个 基因组下载版本问题 听说许多朋友都遇到过下载ensembl数据库的基因组都会犯选...

  • Category的一个冷门小问题

    问题的发现:今日笔者在复习Category的相关知识时,突然发现了一个有趣的小问题,即当一个类的两个(或者更多)分...

  • 两个小问题

    1.比特币是匿名的么?为什么? 存放我们比特币的是一个个的地址,这个地址没有存储我们个人信息,交易的时候只要知道比...

  • 如何向内寻找自己-献给姑娘们

    在TED上看到能够让两个陌生人之间的亲密关系快速升温的36个小问题,觉得有趣,找了英文原版翻译了一下,可以用于朋友...

  • 分享两个小问题

    一、UIImageView 的initWithImage:方法 1、问题 看到有人讨论,为什么这样创建了一个U...

  • JDBC两个小问题

    The Server time zone value 'XXXXX' 乱码 -- MySQL数据库连接报错 错误信...

  • 家长把班主任的微信电话统统拉黑,长期失联,警察找到他们后,说出了

    听到一个有趣的家庭,有趣的事情。 同事班里有一个学生,平时有点小问题,偶尔她会跟家长联系,以客观反馈给家长。 因为...

  • iOS 小坑集锦

    (持续更新中……更新 SWTableViewCell 和 SVPullToRefresh 遇到的两个小问题)在做自...

  • 在朋友眼里,你算“有趣的灵魂”吗?

    前几天假期,邀请朋友圈几个朋友回答了一个小问题: 不是说“有趣的灵魂万里挑一”嘛,请问你觉得“有趣的灵魂”是什么样...

  • 探讨两个种地小问题

    大伙儿都知道,几千年来中国一直是小农经济。小农经济低下的劳动生产率和收入回报已与当前国情不相适应,因此农业必须走现...

网友评论

    本文标题:两个有趣的小问题

    本文链接:https://www.haomeiwen.com/subject/nfaudqtx.html