美文网首页
1转录组fastq文件处理

1转录组fastq文件处理

作者: cakarote | 来源:发表于2019-03-19 13:09 被阅读0次

    第一次转录组分析
    公司提供的数据为双端fastq.gz,省略了sra转换这步,sra转换为fastq这步可以以后再说了


    数据校验

    公司的测序文件提供了md5码

    fastq文件
    MD5文件内容,左md5码,右文件名
    md5sum -c ***.md5
    

    -c或 --check:用来从文件中读取md5信息检查文件的一致性

    参考:Linux命令详解:md5sum
    https://blog.csdn.net/hanlizhong85/article/details/77844635
    转录组入门(3):了解fastq测序数据
    http://www.cnblogs.com/freescience/p/7277620.html

    确认OK
    校验所有目录下的md5
    find ../ -name "*.md5" -print0 | xargs -0 md5sum -c
    

    原理解读https://www.jianshu.com/p/82d315a89a1f

    tips:

    1. 终端活用tab补全长文件名
    2. 活用终端命令# Linux终端命令全面介绍

    质控

    mkdir qc #新建文件夹
    cd qc
    find ../../chem/ -name "*.gz" -print| xargs ls |while read id;do(/mnt/hgfs/linuxshare/biosoft/FastQC/fastqc $id  -o /mnt/hgfs/linuxshare/chem/qc  -t  3);done 
    

    原理解读https://www.jianshu.com/p/06de287783c3

    开始质控
    每次产生两个文件

    质控解读

    结果显示有大量支原体污染...


    10 大量超过0.1%的重复,通过ncbi blast发现支原体污染.... 支原体污染

    另外有大量接头

    11

    https://www.jianshu.com/p/d72c62b907e9

    序列比对

    下现成的index
    参考转录组入门(5): 序列比对https://www.jianshu.com/p/681e02e7f9af

    还是迅雷好用...不知道是不是多线程不符合规定...下载后解压缩至hg19文件夹


    hg19文件夹内文件

    使用hisat2比对

    for i in `0 2 4`
    do
    hisat2 -t -x ../hg19/genome -1 ../../${i}h/${i}h_combined_R1.fastq.gz -2 ../../${i}h/R19000257LR01-${i}h_combined_R2.fastq.gz -S ../../aligned/${i}h.sam
    done
    

    https://www.jianshu.com/p/be74422b74aa

    比对结果解读

    比对结果

    57.25%的配对数据一次都没有比对,40.05%的数据比是唯一比对,2.70%是多个比对。剩下的部分单端数据进行比对,95.89%数据没比对上,3.37%的数据比对一次,0.73%比对超过一次。总共才50.03%的比对率。
    考虑到前面QC的两个问题,一个是支原体,一个是adapter,接下来尝试用支原体的index比对一下。

    对比结果
    果然36.21%的是支原体,加上adaptor的话,能够解释为什么只有50%的比对率了...
    https://www.jianshu.com/p/5ddbe9508b69

    去除adaptor(待做)

    AdapterRemoval

    bam

    samtools sort -@ 5 -o 6h.bam 6h.sam
    
    实际分两步进行
    过程中会产生一些小文件

    相关文章

      网友评论

          本文标题:1转录组fastq文件处理

          本文链接:https://www.haomeiwen.com/subject/wxabmqtx.html