美文网首页
跟着Genomics, Proteomics & Bioinfo

跟着Genomics, Proteomics & Bioinfo

作者: 小明的数据分析笔记本 | 来源:发表于2021-12-02 20:33 被阅读0次

    论文

    High-quality Arabidopsis thaliana Genome Assembly with Nanopore and Hi‐ Fi Long Reads

    本地文件名 拟南芥.pdf

    image.png

    参考资料

    下载原始测序数据

    wget ftp://download.big.ac.cn/gsa/CRA004538/CRR302667/CRR302667.fastq.gz
    

    查看数据的基本情况

    ~/Biotools/SeqKit/seqkit stats -a CRR302667.fastq.gz -T
    

    seqkit软件的下载链接

    https://bioinf.shenwei.me/seqkit/download/

    image.png

    论文中对这部分的描述

    A total of 56.54 Gb of ONT long reads with ~388 × coverage were generated including ~177 × coverage of ultra-long (> 50 kb) reads. The N50 of ONT long reads is 46,452 bp, and the longest reads were 495,032 bp.

    关于配置文件的设置

    image.png

    这里关于各个参数都是什么意思还需要仔细看

    https://nextdenovo.readthedocs.io/en/latest/OPTION.html

    论文中关于参数的设置描述

    The long-read assembler NextDenovo v. 2.0
    (https://github.com/Nextomics/NextDenovo) was used to assemble the ONT long reads with parameters: ‘read_cutoff = 5k’ and ‘seed_cutoff = 108,967’.

    我这边是直接使用的test_data下的配置文件

    组装差不多用了12个小时,最终组装结果

    image.png

    18个contig,论文中好像是得到了14条contig,N50直接达到15M

    今天的推文内容先到这里了,关于论文的内容还需要好好看

    欢迎大家关注我的公众号

    小明的数据分析笔记本

    小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

    相关文章

      网友评论

          本文标题:跟着Genomics, Proteomics & Bioinfo

          本文链接:https://www.haomeiwen.com/subject/oedyxrtx.html