转录组分析——一、工作目录搭建及SRA文件下载

作者: A西方不亮东方亮 | 来源:发表于2021-03-24 21:58 被阅读0次

转录组分析——一、工作目录搭建及SRA文件下载
下载SRA数据（一）
01~GEO-数据下载
SRA批量下载及转为Fastq格式
转录组学习三（数据质控）
转录组学习二（数据下载）
转录组学习五（reads比对）
转录组学习八（功能富集分析）
转录组学习六（reads计数与标准化）
转录组学习四（参考基因组及gtf注释探究）

一、准备工作-目录管理

mkdir rna
cd rna
mkdir biosoft database pipline project project_backup

一句命令同时创建多个同级别文件夹，规律存放，方便溯源
几个文件的作用分别为“软件安装，数据库存放，流程搭建目录，项目分析，数据备份”

二、数据下载

流程：tsv文件——获取sra.url——ascp命令下载sra文件

1、从ENA数据库获取tsv文件

从文献到获取tsv文件的思路：
文献中的GSE编号（materials and methods）——GEO数据库获得该数据集的BioProject编号（PRJNA229998）——到ENA数据库下载tsv文件（其内有aspera下载链接）
（tips：WiFi打开ENA数据库速度慢，建议手机热点）
勾选所需信息列

image.png

tsv文件可被Excel打开，其中sra_aspera为下载URL，sra_md5为sra文件的md5值
而后用Xftp将tsv文件导入到Linux服务器，直接放到项目工作目录，或者软链接至工作目录，如下：

# 或者不直接放到工作目录，放到其他目录，软链接到工作目录
ln -s file.tsv ./

2、获取sra.url（sra文件的下载链接）

# 查找sra_aspera，即sra.url在哪一列
head -n 1 file.tsv | tr '\t' '\n' | less -NS
# 发现URL在第14列，切出第14列
less -S file.tsv | cut -f 14
# 剔除第一行信息，并将结果重定向至sra.url文件——14列虽然已经切出，但14列的表头占据了第一行
less -S file.tsv | cut -f 25 | awk 'NR>1{print}'>sra.url
# 附——简化：三四行代码可以用awk简化，直接取出第14列，且排除第1行，重定向至sra.url文件
cat file.tsv | awk 'NR>1{print $14}'>sra.url
# 最后查看一下提取出来的URL，-A可以查看所有字符
cat -A file.tsv
# 发现每行的行尾有一个$符号

3、sra数据下载

# 下载单个文件（注：'\'字符为转义字符，表示命令还没有输完）
# 最后一行下载链接之前有“era-fasp@”，注意！！！
ascp -k 1 -QT -l 300m -P33001 \ 
-i   '秘钥文件的绝对路径'  \
era-fasp@'sra的下载链接' ./

# 任务投递
# Ctrl+z           下载时使任务暂停并转入后台
bg     # 后台再次运行
jobs # 查看当前运行的任务
top  
ps -fx
fg  #转前台 不加参数时，把刚刚转后台的任务转前台；如果已经退出服务器，需要把后台转前台，需要在fg后面加任务号，jobs -l 命令可以显示任务号（中括号里面的数字）

# 批量下载
# 得到sra.url文件，如果行尾存在特殊字符，运行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符
# 行尾有$符号，批量下载之前要去掉！！！！
cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $13}' >sra.url
cat filereport_read_run_PRJNA229998_tsv.txt |awk -F '\t' 'NR>1 {print $20}' |tr ';' '\n'  >fastq.url

# 批量下载命令   用shell脚本＋while循环批量下载！！！！！！！！！！！！！！！！！！！！
cat  sra.url |while read id
do
    ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@${id} ./ &
done

释义：
ascp命令（aspera软件中的命令）
-k 表示断点续传，通常设置为1
-Q 启用QQ传输策略，使用-l和-m可以分别设定最高和最小传输速度
-T 取消加密传输，若不添加此参数，可能无法下载
-P 表示默认端口
-i 输入秘钥，此参数后接秘钥文件
公共账户名（era-fasp@)，后面是下载URL，最后是下载文件存放的文件夹

tips：秘钥文件的路径可以用find命令查找

find '待搜索文件夹' -name '*.openssh'
# ‘待搜索文件夹’使用绝对路径填写，返回的路径也会是绝对路径，就可以直接拷贝到秘钥文件位置

网友评论

本文标题：转录组分析——一、工作目录搭建及SRA文件下载

本文链接：https://www.haomeiwen.com/subject/qwbqhltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

转录组分析——一、工作目录搭建及SRA文件下载

一、准备工作-目录管理

二、数据下载

1、从ENA数据库获取tsv文件

2、获取sra.url（sra文件的下载链接）

3、sra数据下载

相关文章

转录组分析——一、工作目录搭建及SRA文件下载

下载SRA数据（一）

01~GEO-数据下载

SRA批量下载及转为Fastq格式

转录组学习三（数据质控）

转录组学习二（数据下载）

转录组学习五（reads比对）

转录组学习八（功能富集分析）

转录组学习六（reads计数与标准化）

转录组学习四（参考基因组及gtf注释探究）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

转录组

走进转录组