美文网首页走进转录组比对
测序数据比对到参考基因组

测序数据比对到参考基因组

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-07-11 23:31 被阅读0次

    基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
    听张旭东老师的课

    服务器间数据拷贝

    两台服务器间的数据拷贝 用 scp 用户名@服务器:文件路径

    样本名称处理

    • sed -i 's/.fastq.gz//' xxx.file,类似rename的方式处理文件内容
    • awk 利用文件名生成样本信息表

    构建参考基因组

    hisat2-build genome.fasta genome
    运行时间 —— 二十分钟以内

    比对

    hisat2 -x [ref-genome] -U [input_filename].fq.gz -S [output_file name].sam -p [threads] --new-summary --rna-strandness R

    • PE 的输入文件-U项换为 -1 和 -2
    • 线程数建议一般设置为2-6即可
    • --new-summary 历史原因,使用tophat的旧日志文件格式则不加此项,用新格式日志文件则加此项
    • --rna-strandness 链特异性文库
      链特异性测序针对性解决的问题是:某些基因所在的正链与另一些基因的反链有交集,表达量定给谁?
      若不是链特异性测序,去掉此项
      若是链特异性测序,要问清楚是用的哪个技术, 大部分都用的是dUTP(90%) 如果是,
      单末端测序(SE) --rna-strandness参数设置为R
      PE 设置为RF
    • 目前绝大部分为链特异性测序
    • 非连特异性测序按照链特异性测序比对,有问题
      连特异性测序按照非链特异性测序比对,问题不大
    • 比对DNA序列到基因组用bwa软件
    • 批量生成比对脚本,用awk实现
      vim的Ctrl+v也可以实现
      linux for循环也可以实现
    • 一般不需要设置错配率,默认就好。若比对后发现比对率特别低,则需要考虑。
    • 比对率一般至少70以上,比对率和 参考基因组测序组装质量、比对软件、测序品种与参考基因组物种亲缘关系 相关
    • 并行总线程可超过CPU数,超过即排队

    比对结果比对率统计与可视化

    比对率结果在.log文件中

    比对结果压缩排序

    samtools sort -o xxx.bam xxx.sam

    构建bam index

    samtools index xxx.bam

    IGV可视化

    • 需要的文件
      ①导入基因组文件 genome.fasta
      ②基因注释文件genes.gtf
      ③sample.bam
      ④sample.bam.bai

    代码集中营

    nohup hisat2-build xxx_genome.fasta xxx_genome 1>hisat2-build.log 2>&1 & # 标准输出与错误输出到同一文件
    # 比对
    # SE
    hisat2 -x [ref-genome] -U [input_filename].fq.gz -S [output_file name].sam -p [threads] --new-summary --rna-strandness R
    # PE
    hisat2 -x [ref-genome] -1 [input_filename]_1.fq -2 [input_filename]_2.fq -S [output_file name].sam -p [threads] --new-summary --rna-strandness RF
    
    

    相关文章

      网友评论

        本文标题:测序数据比对到参考基因组

        本文链接:https://www.haomeiwen.com/subject/onogqktx.html