美文网首页
SCI发文前必须了解的数据库

SCI发文前必须了解的数据库

作者: wo_monic | 来源:发表于2021-07-27 20:30 被阅读0次

    NCBI 的SRA数据库: Bioproject ID 一般上传重测序,转录组,HiC的原始数据fastq或者bam文件和基因组文件。
    DDBJ数据库 :新组装的基因组序列,基因组注释,蛋白序列,转录本序列等
    datadryad 收费的数据保存网站,起步价:120$.
    figshare 接受的比较杂,论文,预印本,文中的插图的高清版,组装的基因组,基因组注释,中间文件,进化树的文件,SNP的vcf文件都支持 已经和多个出版集团合作 最大免费空间为20G,后续会收费。

    SRA需要下载工具,命令行提交上传速度轻松达到50M/S,一般设置为100M即可,如果你的带宽足够宽,可以设置为300M,如果带宽不够,而设置的值比较大,则会出现经常掉线的问题。不过支持断点续传,会自动检测文件夹里的文件的上传状态。
    DDBJ需要下载数据检测工具
    DDBJ提交前,先填写注册表信息https://www.ddbj.nig.ac.jp/ddbj/mss-form-e.html
    大的数据使用MSS 批量提交工具提交

    NCBI SRA数据库上传的时候,一定要注意上传的时候使用文件夹,而且在aspera的ascp命令的最后加上一个新的文件名,

    ascp -i /share/home/aspera.openssh -QT -l100m -k1 -d /share/home/upload_to_NCBI subasp@upload.ncbi.nlm.nih.gov:uploads/wangjing_gmail.com_XXXXX9/Pacbio
    

    上面的示例中:upload_to_NCBI文件夹里应该是所有要上传的文件
    最后面跟了/Pacbio是上传到这个目录,如果不加文件夹名,上传后是找不到数据的。

    NCBI数据上传错误的处理

    极少的情况会遇到你上传了所有的文件,到NCBI审核的时候,数据不完整。所有上传到NCBI的数据都不会被删除,所以要慎重上传。我就遇到了上传上去的文件和我本地的文件不一致的问题(MD5值不一样)。有问题就发邮件给sra@ncbi.nlm.nih.gov寻求帮助,他们回邮件的速度比较快(2天之内给答复,因为有时差,北京时间比NCBI早8h)。我得到回复是,让使用ftp上传到ftp-private.ncbi.nlm.nih.gov,给了账户和密码,上传完成后,发邮件回复给NCBI那边。

    快速检测bam文件的完整性

    samtools quickcheck -u ./upto_NCBI/m542.bam && echo 'OK' || echo 'error' #适用于pacbio的下机数据
    samtools quickcheck ./upto_NCBI/m542.bam && echo 'OK' || echo 'error' #普通的比对后的bam数据
    

    或者使用view检测(速度比较慢)。

    samtools view -h ./upto_NCBI/m542.subreads.bam|tail -n 1 >check.status
    

    相关文章

      网友评论

          本文标题:SCI发文前必须了解的数据库

          本文链接:https://www.haomeiwen.com/subject/inggultx.html