去PCR冗余

作者: 苏牧传媒 | 来源:发表于2018-08-06 20:49 被阅读1次

    ref:你真的懂Illumina数据质量控制吗? | hope

    1. FastQC察看

    2. 进行reads的修剪和过滤

    Short-insert paired end reads

    接头序列:

    >PrefixPE/1

    TACACTCTTTCCCTACACGACGCTCTTCCGATCT

    >PrefixPE/2

    GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT

    Trimmomatic等通常的质控软件。

    Long Mate Pair libraries

    针对此类数据的处理软件主要是:nextclip和skewer,从文章结果来看后者略优。

    处理软件:nextclip (同时移除PCR duplicates)

    nextclip -d -i xxx_R1.fastq -j xxx_R2.fastq -o output

    若出现:too much rehashing!! Rehash=26的错误信息

    则增大[-n | --number_of_reads] Approximate number of reads (default 20,000,000)参数值;

    nextclip -d -e -i xxx_R1.fastq -j xxx_R2.fastq -o output -n 30000000

    处理软件: skewer

    skewer -mmp -i xxx_R1.fastq xxx_R2.fastq -o output -t 5

    3. FastUniq 去除 paired reads 的PCR重复

    建议先trim,然后在来用这个软件来去除dup,因为,这个软件是比较以后,随机保留相同的pair的中一个,如果不先trim,容易保留质量差的哪一个,而且即使trim后,它也能处理不同长度的pair。 【每日一生信—FastUniq去除paired reads的duplicates

    cat AS285.list

    AS285A_R1.clean.fastq

    AS285A_R2.clean.fastq

    fastuniq -i AS285.list -o xxx_R1.rd.clean.fastq -p xxx_R2.rd.clean.fastq

    4. 进行reads 的纠正

    BLESS和Musket有相似的纠正结果,前者一直报错;

    BLESS:

    bless -read1 xxx_R1.rd.clean.fastq -read2 xxx_R2.rd.clean.fastq -prefix xxx -kmerlength 31

    Musket - a multistage k-mer spectrum based corrector:

    musket xxx_R1.rd.clean.fastq xxx_R2.rd.clean.fastq -o multi AS485 -inorder -p10

    本文作者: tiramisutes

    感谢!

    相关文章

      网友评论

        本文标题:去PCR冗余

        本文链接:https://www.haomeiwen.com/subject/egxnvftx.html