其实官网说的蛮详细的,整个过程其实就是用FileZilla上传数据后(Completed metadata worksheet;Raw data;Processed data)后,点通知GEO,然后填写上传的目录即可。
另外,这个教程写的也不错超详细的GEO数据上传攻略,手把手教学。
不过我补充几个注意点:
1、使用FileZilla上传数据的时候要注意,先设置你的工作目录,按回车最好再新建一个文件夹才能够成功连接上去。这个工作目录再你用账号登陆进去的时候,点击上传数据可以看到,一般是uploads/your_special_name。
2、md5码获取。md5码是文件的唯一编码,是防止你上传数据丢包,他们检验一下md5一致的话,说明文件上传比较完整。怎么获取官网写过了,简单而言在unix/linux环境下可以用md5sum *.gz>../tpm_md5.tsv批量获得文件的md5码。
3、原始文件注意paired-end测序的问题,在填写metadata worksheet的时候,下载的模版里面有例子的,填写之前仔细参考一下。
4、建议使用压缩的文件,请提前准备好fastq文件,最好是压缩后的fastq.gz文件。强烈建议在填写metadata worksheet文件之前把文件准备好并上传,这样你填好了也上传好了。记得不要用无线网传数据。
5、还有中办法用 Aspera command-line去上传,官网也写了,但是要写信到sra@ncbi.nlm.nih.gov问他们要一个sra-1.ssh.priv文件,写信的时候说明是要上传到GEO的,然后用以下代码,我要了这个key文件但是我没用他这个方法,还是建议用上述方法,以下仅供参考。
Command line is as follows:
ascp -i <path to key>/aspera_keys/sra-1.ssh.priv -QT -l 100m -k1 -d <folder-with-files> [asp-sra@upload.ncbi.nlm.nih.gov:incoming](mailto:asp-sra@upload.ncbi.nlm.nih.gov:uploads/your_special_name)
Sometimes when Aspera is fed too many files at once it gets interrupted, therefore it is useful to script a loop that serves one file at a time:
for F in ./*.bam
do
ascp -i -QT -l 200m -k1 $F -i <path to key>/aspera_keys/sra-1.ssh.priv -QT -l 100m -k1 -d <folder-with-files> [asp-sra@upload.ncbi.nlm.nih.gov:incoming](mailto:asp-sra@upload.ncbi.nlm.nih.gov:uploads/your_special_name
done
网友评论