NCBI 的SRA数据库: Bioproject ID 一般上传重测序,转录组,HiC的原始数据fastq或者bam文件和基因组文件。
DDBJ数据库 :新组装的基因组序列,基因组注释,蛋白序列,转录本序列等
datadryad 收费的数据保存网站,起步价:120$.
figshare 接受的比较杂,论文,预印本,文中的插图的高清版,组装的基因组,基因组注释,中间文件,进化树的文件,SNP的vcf文件都支持 已经和多个出版集团合作 最大免费空间为20G,后续会收费。
SRA需要下载工具,命令行提交上传速度轻松达到50M/S,一般设置为100M即可,如果你的带宽足够宽,可以设置为300M,如果带宽不够,而设置的值比较大,则会出现经常掉线的问题。不过支持断点续传,会自动检测文件夹里的文件的上传状态。
DDBJ需要下载数据检测工具
DDBJ提交前,先填写注册表信息https://www.ddbj.nig.ac.jp/ddbj/mss-form-e.html
大的数据使用MSS 批量提交工具提交
NCBI SRA数据库上传的时候,一定要注意上传的时候使用文件夹,而且在aspera的ascp命令的最后加上一个新的文件名,
ascp -i /share/home/aspera.openssh -QT -l100m -k1 -d /share/home/upload_to_NCBI subasp@upload.ncbi.nlm.nih.gov:uploads/wangjing_gmail.com_XXXXX9/Pacbio
上面的示例中:upload_to_NCBI
文件夹里应该是所有要上传的文件
最后面跟了/Pacbio
是上传到这个目录,如果不加文件夹名,上传后是找不到数据的。
NCBI数据上传错误的处理
极少的情况会遇到你上传了所有的文件,到NCBI审核的时候,数据不完整。所有上传到NCBI的数据都不会被删除,所以要慎重上传。我就遇到了上传上去的文件和我本地的文件不一致的问题(MD5值不一样)。有问题就发邮件给sra@ncbi.nlm.nih.gov寻求帮助,他们回邮件的速度比较快(2天之内给答复,因为有时差,北京时间比NCBI早8h)。我得到回复是,让使用ftp上传到ftp-private.ncbi.nlm.nih.gov
,给了账户和密码,上传完成后,发邮件回复给NCBI那边。
快速检测bam文件的完整性
samtools quickcheck -u ./upto_NCBI/m542.bam && echo 'OK' || echo 'error' #适用于pacbio的下机数据
samtools quickcheck ./upto_NCBI/m542.bam && echo 'OK' || echo 'error' #普通的比对后的bam数据
或者使用view检测(速度比较慢)。
samtools view -h ./upto_NCBI/m542.subreads.bam|tail -n 1 >check.status
网友评论