学习小组Day7笔记--尹露茜

作者: 尹露茜 | 来源:发表于2019-07-07 23:07 被阅读0次

    最后一天在豆豆花花的引导下成长
    教程的知识总结特别好
    是我一直接触又疑惑的部分
    喜欢这样的系统归纳
    真诚致谢

    学习内容

    怎么区分一二三代测序
    二代测序大体流程
    NGS组学都包括哪些分类

    测序过程和原理

    Fastq & Fasta
    Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
    第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
    第二行:碱基序列;
    第三行:由‘+’开始,后面是序列的描述信息;
    第四行:第二行序列的质量评价(quality value)。
    Fasta格式:

    1:以“>”为开头,fasta格式标志。
    2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
    格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
    3:序列描述。
    4:碱基序列,序列中允许空格、换行、空行,一般一行60个。

    Fastq文件→Fasta文件

    Linux命令
    法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
    法2:seqtk seq -A input.fastq  > output.fasta
    
    FASTX-Toolkit

    一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
    http://hannonlab.cshl.edu/fastx_toolkit/

    屏幕快照 2019-07-07 上午10.26.11.png

    相关文章

      网友评论

        本文标题:学习小组Day7笔记--尹露茜

        本文链接:https://www.haomeiwen.com/subject/pvkwhctx.html