美文网首页生信星球培训第五十九期
学习小组Day7笔记--59期(远方)

学习小组Day7笔记--59期(远方)

作者: 远方_fcf5 | 来源:发表于2020-05-24 22:30 被阅读0次
    1. 基因测序

      • 第一代DNA测序:双脱氧链终止法。行业金标准,成本高,通量低,但是准确性高
      • 第二代DNA测序:循环列阵测序法,成本底,illuminat公司的市场应用最多的,但错误率较高
      • 第三代DNA测序:纳米孔单分子测序,不需要经过PCR扩增,可达二代的100倍,但错误率比二代更高

    基因组学 包括全基因组测序WGS,全外显子组测序(WES),简化基因组测序(RRGS),主要作用是基因组作图,核苷酸序列分析,基因定位,基因功能分析
    以全基因组测序为目标的结构基因组学,以基因功能鉴定为目标的功能基因组学

    转录组学   mRNA-Seq,incRNA-Seq(长链非编码RNA)  ,sRNA-Seq(主要是miRNA-Seq)
    

    作用 :获得物种和组织的转录本信息,得到转录本上基因的相关信息,发现新的基因,基因结构优化,发现可变剪切,发现基因融合,基因表达差异分析

    蛋白质组学:蛋白质组学数据处理,蛋白及其修饰鉴定;构建蛋白质数据框,相关软件和开发应用,蛋白质结构功能预测 蛋白质连锁图

    代谢组学:代谢物指纹分析,代谢轮廓分析

    3 基因测序数据格式

    Fastq格式:保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
    第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
    第二行:碱基序列;
    第三行:由‘+’开始,后面是序列的描述信息;
    第四行:第二行序列的质量评价(quality value)。

    Fasta格式:
    1:以“>”为开头,fasta格式标志。
    2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
    3:序列描述。
    4:碱基序列,序列中允许空格、换行、空行,一般一行60个。

    Fastq文件→Fasta文件
    Linux命令
    法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
    法2:seqtk seq -A input.fastq > output.fasta

    FASTX-Toolkit
    •一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。
    http://hannonlab.cshl.edu/fastx_toolkit/

    GenBank格式
    以LOCUS和一些注释行开始。
    序列的开头以“ORIGIN”标记,末尾以“//”标记。

    EMBL格式
    以标识符行(ID)开头,后面跟着更多注释行。
    序列的开头以“SQ”开头标记,序末尾以“//”标记。

    EMBL → Fasta格式转换(在线工具):
    http://www.geneinfinity.org/sms/sms_embltofasta.html

    另外给大家介绍一个常见测序文件格式解析的网站:
    https://genome.ucsc.edu/FAQ/FAQformat.html#format1

    测序.png

    相关文章

      网友评论

        本文标题:学习小组Day7笔记--59期(远方)

        本文链接:https://www.haomeiwen.com/subject/czksahtx.html