数据校验

公司的测序文件提供了md5码

fastq文件

MD5文件内容，左md5码，右文件名

md5sum -c ***.md5

-c或 --check:用来从文件中读取md5信息检查文件的一致性

参考：Linux命令详解：md5sum
https://blog.csdn.net/hanlizhong85/article/details/77844635
转录组入门(3)：了解fastq测序数据
http://www.cnblogs.com/freescience/p/7277620.html

确认OK

校验所有目录下的md5

find ../ -name "*.md5" -print0 | xargs -0 md5sum -c

原理解读https://www.jianshu.com/p/82d315a89a1f

tips：

终端活用tab补全长文件名
活用终端命令# Linux终端命令全面介绍

质控

mkdir qc #新建文件夹
cd qc
find ../../chem/ -name "*.gz" -print| xargs ls |while read id;do(/mnt/hgfs/linuxshare/biosoft/FastQC/fastqc $id  -o /mnt/hgfs/linuxshare/chem/qc  -t  3);done

原理解读https://www.jianshu.com/p/06de287783c3

开始质控

每次产生两个文件

质控解读

结果显示有大量支原体污染...

10 大量超过0.1%的重复，通过ncbi blast发现支原体污染....

支原体污染

另外有大量接头

11

参https://www.jianshu.com/p/d72c62b907e9

序列比对

下现成的index
参考转录组入门（5）：序列比对https://www.jianshu.com/p/681e02e7f9af

还是迅雷好用...不知道是不是多线程不符合规定...下载后解压缩至hg19文件夹

hg19文件夹内文件

使用hisat2比对

for i in `0 2 4`
do
hisat2 -t -x ../hg19/genome -1 ../../${i}h/${i}h_combined_R1.fastq.gz -2 ../../${i}h/R19000257LR01-${i}h_combined_R2.fastq.gz -S ../../aligned/${i}h.sam
done

参https://www.jianshu.com/p/be74422b74aa

比对结果解读

比对结果

57.25%的配对数据一次都没有比对，40.05%的数据比是唯一比对，2.70%是多个比对。剩下的部分单端数据进行比对，95.89%数据没比对上，3.37%的数据比对一次，0.73%比对超过一次。总共才50.03%的比对率。
考虑到前面QC的两个问题，一个是支原体，一个是adapter，接下来尝试用支原体的index比对一下。