RNASeq实战练习-软件安装及数据下载

作者: 小小白的jotter | 来源:发表于2021-08-12 15:32 被阅读0次

RNASeq实战练习-软件安装及数据下载
art-illumina模拟测序
ChIP-seq数据分析实战训练（一）
如何下载TCGA拷贝数变异（CNV）数据
R中用GDCRNATools包下载TCGA数据
【可视作图】MEGA7 构建 NJ 树
xmind使用
群体结构分析Admixture 使用遇到报错及解决
《学习小组Day 3笔记--JnG》
TCGA临床资料的下载和整理

软件安装

新建 rnaseq 分析环境

conda env list
conda create -n rnaseq -y

安装软件

# 激活rnaseq分析环境
conda activate rnaseq

# 安装所需的软件
conda install -c biobuilds sra-tools -y
conda install -c hcc aspera-cli -y
conda install -c bioconda gffread -y
conda install -c bioconda trim-galore -y
conda install -c bird fastqc -y
conda install -c bioconda multiqc -y
conda install -c bioconda hisat2 -y
conda install -c bioconda samtools -y
conda install -c bioconda subread -y

有时候用 conda 直接搜索搜索不到，可以百度 conda 软件名查找安装方式

image-20210812140243741

转录组数据下载

实战使用数据NCBI登录号：PRJNA480638。

惨痛教训，刚开始不懂做练习的时候最好用别人已经做过没有问题的数据，不然中间有哪一步出问题根本不知道是自己参数设置不对，还是下载的数据有问题。。。

下载方式一：sra数据下载

NCBI搜索登录号：PRJNA480638，勾选搜索结果，下载包含转录组数据下载地址的 excel 文件

image-20210729132012168

打开下载的 excel 文件找到下载文件路径在 Windows 中下载

image-20210729132358193

winscp 将 SRA 数据上传到服务器 /home/jiamj/analysis/raw 目录下

image-20210730100951072

fastq-dump 将 sra 文件转换为 fastq 格式

转录组(三)：了解 fastq 测序数据：https://www.cnblogs.com/fhn7/articles/12355025.html

#确认是否在rnaseq分析环境中，否则激活
conda activate rnaseq

# 进入到存放文件的目录
cd /home/jiamj/analysis/raw

批量将sra文件转换为fastq格式
for i in 39 40 41 42 43 44 
do
fastq-dump --gzip --split-3 -O /home/jiamj/analysis/raw SRR75089${i}.1
done

下载方式二：aspera下载数据（使用）

后续分析用的是该方式下载的数据。

ENA 数据库： https://www.ebi.ac.uk/ena/browser/home

ENA 数据库输入 PRJNA480638 搜索

image-20210729160707100

输入登录号查找，选择自己想要的信息。可以看物种分组和文件大小

image-20210729161423432

点击 TSV 下载，filereport_read_run_PRJNA480638_tsv.txt

image-20210729161954989

将 fastq_aspera 整理成下面的文件，命名为 aspera_download.txt

image-20210729171223341

winSCP 将这 aspera_download.txt 上传到服务器 /home/jiamj/analysis/rnadata 目录下

Aspera下载安装使用：https://www.jianshu.com/p/fed19a8821eb

Aspera工具安装与使用：https://www.jianshu.com/p/a6ac81456c01

# 先看看 rnaseq 环境激活没有，没有激活就激活分析环境
# conda activate rnaseq 
# 查看是否安装成功
ascp -h
# 查找密钥
which ascp

image-20210729173258753

把bin及bin后面的内容换成etc/asperaweb_id_dsa.openssh即为密钥地址

/home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh

参数	说明
-l	最大传输速率
-i	密钥地址，/home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh，用conda安装可以看上面操作
-P	提供SSH port，一般是33001
-Q	Enable fair transfer policy
-k	断点续传，一般设置为1
-T	取消加密

批量下载

ascp -k 1 -QT -l 100m -P33001 -i /home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list aspera_download.txt . 
# .表示当前文件夹

数据完整性检验

windows 将 filereport_read_run_PRJNA480638_tsv.txt 中的 fastq_md5 整理出来记为 md5.txt

image-20210729175527689

将这个文件上传到服务器 /home/jiamj/analysis/rnadata 目录

用md5sum -c md5.txt进行数据检查的时候会报错，因为在 Windows 系统下编辑的文件，换行符回车的格式为 ’\r\n’，在 linux 系统下，回车的格式为 ’\n’，在 Windows 下编辑的文本文件在上传至 linux 服务器时，回车 ’\r\n’ 就显示成 ^M+’\n’

问题解决_md5sum检验提示没有该文件 https://blog.csdn.net/mudong0052/article/details/108931285

sed 's/\r//g' md5.txt | md5sum -c -

image-20210730100902652

参考基因组下载

ensembl plant 数据库，点击进去拟南芥的链接

image-20210702161500551

点进上图红框，右键复制所要下载文件的地址链接地址

# 在analysis目录下创建一个ref文件夹存放参考基因组文件
mkdir ref

#进入ref目录下
cd ref

#下载
wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.51.gff3.gz

# 解压缩
gunzip *.gz

image-20210812141412669