美文网首页
转录组数据下载与质控

转录组数据下载与质控

作者: 路人里的路人 | 来源:发表于2023-12-31 23:44 被阅读0次

1.数据下载与完整性检测

将网盘上的数据下载到本地后通过XFTP上传至服务器
上传完成后检查文件完整性,使用的命令是:

md5sum yourfilename.fq.gz

该命令会计算文件的MD5哈希值,结果输出为一个长字符串,比对该字符串与公司返回的MD5.txt是否一致,一致则没有错误。
批量进行检测

ls *_1.fq.gz > name.lst
#将所有测序文件名放到一个文件中,生成文件名列表
awk '{print "md5sum "$1}' name.lst > md5sum.sh
nohup sh md5sum.sh
#批量生成运行文件并后台挂起运行

2.下载数据过滤软件fastp

conda create -n fastp
conda activate fastp
conda install -c bioconda fastp=0.24.3
#上述代码实现了对fastp环境的设置和指定版本软件的安装,直接fastp就能激活

3.使用fastp初步过滤数据

软件基本用法

fastp -i input.fq.gz -o output.fq.gz
#单末端测序数据过滤代码,-i 后是过滤前的数据名称,-o后是过滤后的数据名称
fastp -i input.R1.fq.gz -I input.R2.fq.gz -o output.R1.fq.gz -O output.R2.fq.gz  -h output.html
#双末端测序数据过滤代码,-i后是第一条数据过滤前名称,-I是第二条数据过滤前名称。-o是第一条数据过滤后名称,-O是第二条数据过滤后名称,-h后是总结的文件

针对数据量比较大的情况可以使用awk批量生成命令

awk '{print "fastp -i "$1"_1.gz -I "$1"_2.gz -o "$1"_1.fq.gz -O "$1"_2.fq.gz -h "$1".html"}' name.lst > fastp.sh

4.结果解读

会生成一个html文件,里面有过滤前后的Q20与Q30的值,对应的可以看过滤了哪些数据。

相关文章

网友评论

      本文标题:转录组数据下载与质控

      本文链接:https://www.haomeiwen.com/subject/dtcyndtx.html