1.数据下载与完整性检测
将网盘上的数据下载到本地后通过XFTP上传至服务器
上传完成后检查文件完整性,使用的命令是:
md5sum yourfilename.fq.gz
该命令会计算文件的MD5哈希值,结果输出为一个长字符串,比对该字符串与公司返回的MD5.txt是否一致,一致则没有错误。
批量进行检测
ls *_1.fq.gz > name.lst
#将所有测序文件名放到一个文件中,生成文件名列表
awk '{print "md5sum "$1}' name.lst > md5sum.sh
nohup sh md5sum.sh
#批量生成运行文件并后台挂起运行
2.下载数据过滤软件fastp
conda create -n fastp
conda activate fastp
conda install -c bioconda fastp=0.24.3
#上述代码实现了对fastp环境的设置和指定版本软件的安装,直接fastp就能激活
3.使用fastp初步过滤数据
软件基本用法
fastp -i input.fq.gz -o output.fq.gz
#单末端测序数据过滤代码,-i 后是过滤前的数据名称,-o后是过滤后的数据名称
fastp -i input.R1.fq.gz -I input.R2.fq.gz -o output.R1.fq.gz -O output.R2.fq.gz -h output.html
#双末端测序数据过滤代码,-i后是第一条数据过滤前名称,-I是第二条数据过滤前名称。-o是第一条数据过滤后名称,-O是第二条数据过滤后名称,-h后是总结的文件
针对数据量比较大的情况可以使用awk批量生成命令
awk '{print "fastp -i "$1"_1.gz -I "$1"_2.gz -o "$1"_1.fq.gz -O "$1"_2.fq.gz -h "$1".html"}' name.lst > fastp.sh
4.结果解读
会生成一个html文件,里面有过滤前后的Q20与Q30的值,对应的可以看过滤了哪些数据。
网友评论