软件安装
新建 rnaseq 分析环境
conda env list
conda create -n rnaseq -y
安装软件
# 激活rnaseq分析环境
conda activate rnaseq
# 安装所需的软件
conda install -c biobuilds sra-tools -y
conda install -c hcc aspera-cli -y
conda install -c bioconda gffread -y
conda install -c bioconda trim-galore -y
conda install -c bird fastqc -y
conda install -c bioconda multiqc -y
conda install -c bioconda hisat2 -y
conda install -c bioconda samtools -y
conda install -c bioconda subread -y
有时候用 conda 直接搜索搜索不到,可以百度 conda 软件名
查找安装方式
转录组数据下载
实战使用数据NCBI登录号:PRJNA480638。
惨痛教训,刚开始不懂做练习的时候最好用别人已经做过没有问题的数据,不然中间有哪一步出问题根本不知道是自己参数设置不对,还是下载的数据有问题。。。
下载方式一:sra数据下载
NCBI搜索登录号:PRJNA480638,勾选搜索结果,下载包含转录组数据下载地址的 excel 文件
image-20210729132012168打开下载的 excel 文件找到下载文件路径在 Windows 中下载
image-20210729132358193winscp 将 SRA 数据上传到服务器 /home/jiamj/analysis/raw 目录下
image-20210730100951072fastq-dump 将 sra 文件转换为 fastq 格式
转录组(三):了解 fastq 测序数据:https://www.cnblogs.com/fhn7/articles/12355025.html
#确认是否在rnaseq分析环境中,否则激活
conda activate rnaseq
# 进入到存放文件的目录
cd /home/jiamj/analysis/raw
批量将sra文件转换为fastq格式
for i in 39 40 41 42 43 44
do
fastq-dump --gzip --split-3 -O /home/jiamj/analysis/raw SRR75089${i}.1
done
下载方式二:aspera下载数据(使用)
后续分析用的是该方式下载的数据。
ENA 数据库: https://www.ebi.ac.uk/ena/browser/home
ENA 数据库输入 PRJNA480638 搜索
image-20210729160707100输入登录号查找,选择自己想要的信息。可以看物种分组和文件大小
image-20210729161423432点击 TSV 下载,filereport_read_run_PRJNA480638_tsv.txt
image-20210729161954989将 fastq_aspera 整理成下面的文件,命名为 aspera_download.txt
image-20210729171223341winSCP 将这 aspera_download.txt 上传到服务器 /home/jiamj/analysis/rnadata 目录下
Aspera下载安装使用:https://www.jianshu.com/p/fed19a8821eb
Aspera工具安装与使用:https://www.jianshu.com/p/a6ac81456c01
# 先看看 rnaseq 环境激活没有,没有激活就激活分析环境
# conda activate rnaseq
# 查看是否安装成功
ascp -h
# 查找密钥
which ascp
image-20210729173258753
把bin
及bin
后面的内容换成etc/asperaweb_id_dsa.openssh
即为密钥地址
/home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh
参数 | 说明 |
---|---|
-l | 最大传输速率 |
-i | 密钥地址,/home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh,用conda安装可以看上面操作 |
-P | 提供SSH port,一般是33001 |
-Q | Enable fair transfer policy |
-k | 断点续传,一般设置为1 |
-T | 取消加密 |
批量下载
ascp -k 1 -QT -l 100m -P33001 -i /home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list aspera_download.txt .
# .表示当前文件夹
数据完整性检验
windows 将 filereport_read_run_PRJNA480638_tsv.txt 中的 fastq_md5 整理出来记为 md5.txt
image-20210729175527689将这个文件上传到服务器 /home/jiamj/analysis/rnadata 目录
用md5sum -c md5.txt
进行数据检查的时候会报错,因为在 Windows 系统下编辑的文件,换行符回车的格式为 ’\r\n’,在 linux 系统下,回车的格式为 ’\n’,在 Windows 下编辑的文本文件在上传至 linux 服务器时,回车 ’\r\n’ 就显示成 ^M+’\n’
问题解决_md5sum检验提示没有该文件 https://blog.csdn.net/mudong0052/article/details/108931285
sed 's/\r//g' md5.txt | md5sum -c -
image-20210730100902652
参考基因组下载
ensembl plant 数据库,点击进去拟南芥的链接
image-20210702161500551点进上图红框,右键复制所要下载文件的地址链接地址
# 在analysis目录下创建一个ref文件夹存放参考基因组文件
mkdir ref
#进入ref目录下
cd ref
#下载
wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.51.gff3.gz
# 解压缩
gunzip *.gz
image-20210812141412669
网友评论