美文网首页
RNA_seq下载与处理

RNA_seq下载与处理

作者: javen_spring | 来源:发表于2020-05-27 22:38 被阅读0次

RNA_seq下载的三种方法:

一、NCBI--GEO--SRA Run Selector (https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA229998

RNA_seq数据下载界面
SRA数据库的几种标识

二、EBI数据--ENA数据(https://www.ebi.ac.uk/ena/browser/home)

ENA数据库首页搜索 搜索栏可输入SRR编号或PRJNA项目编号 image.png

三、SRA-explorer : https://sra-explorer.info/

SRA-explorer首页 输入SRR或PRJNA编号搜索得到数据下载页面 选择相应的SRR测序结果加入购物车 三种下载fastq的链接(源文件,bash脚本,aspera脚本)

linux下载数据:

1、使用SRA Toolkit下载和转换原始数据:prefetch命令下载sra文件(较慢,不推荐),fastq-dump命令进行sra转换为fastq格式(可用于下游sra文件转换为fastq文件)。
SRA Toolkit下载和转换原始数据 fastq-dump命令及参数
2、Aspera下载数据:

Aspera的常用参数:
-T # 不进行加密。若不添加此参数,可能会下载不了。
-i string # 输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,
使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。
--host=string # ftp的host名, NCBI的为ftp-private.ncbi.nlm.nih.gov;
EBI的为fasp.sra.ebi.ac.uk。
--user=string # 用户名, NCBI的为anonftp, EBI的为era-fasp。
--mode=string # 选择模式,上传为 send,下载为 recv。
-l string # 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。
若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。

aspera命令下载
>wget http://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
>tar -xvf aspera-connect-3.6.2.117442-linux-64.tar.gz
>sh aspera-connect-3.6.2.117442-linux-64.sh  #此方法下载aspera比较慢
#试用
>axel -n 16 http://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz  ##*axel是Linux下一个不错的HTTP/[ftp](http://man.linuxde.net/ftp "ftp命令")高速下载工具。支持多线程下载、断点续传,且可以从多个地址或者从一个地址的多个连接来下载同一个文件。适合网速不给力时多线程下载提高下载速度
#或
$ sudo mkdir /usr/local/src/aspera_connect 
$ tar -zxvf aspera-connect-3.6.2.117442-linux-64.tar.gz  -C /usr/local/src/aspera_connect
$ cd /usr/local/src/aspera_connect/ ; sh aspera-connect-3.6.2.117442-linux-64.sh
$ echo "alias acsp=/home/sxuan/.aspera/connect/bin/ascp"  >>  ~/.bashrc 
$ source ~/.bashrc 
$ ascp --help
#或
conda search aspera
conda install aspera=version
$ echo "alias acsp=/home/sxuan/.aspera/connect/bin/ascp"  >>  ~/.bashrc 
$ source ~/.bashrc 
$ ascp --help

附:安装axel工具:

wget -c http://pkgs.repoforge.org/axel/axel-2.4-1.el5.rf.x86_64.rpm
rpm -ivh axel-2.4-1.el5.rf.x86_64.rpm

3、最简单的方法是安装aspera软件,方法是:(从teach目录下进行软连接,只适合教程练习用)

ln -s /teach/software/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz ./
tar -zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
echo 'export PATH=~/.aspera/connect/bin/:$PATH' >> ~/.bashrc
source ~/.bashrc

4、批量下载:

###可以用这个命令下载,不用while循环#######
>ascp -l 100M -P33001 \
-i  /trainee2/May5/.aspera/connect/etc/asperaweb_id_dsa.openssh \
--mode=recv --host=fasp.sra.ebi.ac.uk --user=era-fasp --file-list=brca_modify.txt  .

brca_modify_7_12.txt 
##下载7到12条双端测序:
ascp -QT -l 100M -P33001 \
-i  /trainee2/May5/.aspera/connect/etc/asperaweb_id_dsa.openssh \
--mode=recv --host=fasp.sra.ebi.ac.uk --user=era-fasp --file-list=brca_modify_11_26.txt  .

其他软件:

  • mutiQC:支持的软件
    fastqc:质量控制生成软件
    fastp:序列修剪的软件
    bowtie2、hisat2、tophat:比对软件
    salmon:不需要比对即可定量表达量的软件
    featureCounts:比对完成后对基因进行定量的软件

相关文章

网友评论

      本文标题:RNA_seq下载与处理

      本文链接:https://www.haomeiwen.com/subject/mtvbahtx.html