美文网首页
数据获取及处理

数据获取及处理

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-07-10 07:36 被阅读0次

基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课

数据下载

  • 工具1:sratoolkit
    注:必须用SRR号,即必须为SRR、DRR等开头
    prefetch SRR062637
  • 工具2:ascp
    注:需要翻墙,通过sra_explorer的网站查找对应序列的URL地址,通过该URL下载(目前最快)

批量重命名文件名

  • rename
$ ll
-rw-r--r-- 1 lyao CLChen  1.3G Jun 20 09:40 SRR2176358_RNA-seq_of_Kidds-D_8_fruit_skin_with_flesh_at_stage_I_Rep._II.fastq.gz
-rw-r--r-- 1 lyao CLChen  1.3G Jun 20 09:41 SRR2176359_RNA-seq_of_Kidds-D_8_fruit_skin_with_flesh_at_stage_I_Rep._III.fastq.gz

$ rename 's/SRR.*_RNA-seq_of_//' *.gz
# ".*"为正则表达式,通配符,将前面一长串改为空

PS 为什么我们的服务器rename就不行呢??????

数据质控、过滤

fastp -i -o -h -j -w
-h 生成网页版报告储存位置
-j 生成json格式报告储存位置
-w
fastp官网说明文档
默认两个线程
nohup ****** & —— 程序后台执行

参考基因组下载、处理

访问ftp地址一定不能翻墙

  • 苹果基因组在github,github上下载方式

    复制克隆链接 git clone

git clone 克隆链接
苹果参考基因组下载
git clone https://github.com/moold/Genome-data-of-Hanfu-apple.git

基因组注释文件有.gtf文件则选择.gtf文件,因为是最新注释文件,.gff/gff3文件较原始

  • 参考基因组处理
    需要的文件包括
    基因组序列(genome.fasta)
    基因组注释文件(genes.gtf)
    蛋白序列文件(proteins.fasta)
    • 基因组序列合并
      cat *.fa > genome.fasta
    • 大文件用less,单行太长时,不换行显示
      less -S genes.gtf
    • gff格式注释文件转为gtf格式文件(内容比较规范的gff格式文件可以转换为gtf文件)
      gffread -T -o output_filename.gtf input_filename.gff
      -T指定输出格式为gtf,gffread可用conda安装
    • 注意
      基因注释文件必须的为exon & CDS,基因项在注释中gene ID项
      gtf文件中第三列没有gene和mRNA项

    gff文件中第三列mRNA代表可变剪接,许多物种没有研究到可变剪接,所以gene与mRNA数量相等;在人、鼠等研究较透彻的基因组中,mRNA > gene (可以通过比较此两项是否相等 判断该基因组注释中是否包含可变剪接数据)
    实现:

    awk '$3 == "gene" ' xxx.gff | wc
    awk '$3 == "mRNA" ' xxx.gff | wc
    

    比较输出结果

    • 参考基因组蛋白功能注释
      • 蛋白序列pep下载
      • 蛋白序列ID修改,ID应该修改为对应基因的ID
        E.X. 苹果基因组中蛋白ID为mRNA的ID,含有“-RA”后缀,可以通过awk -F更改分隔符为“-”去除后缀
        awk -F '-' '{print $1}' xxx.pep.fa

样本信息表

  • sample.txt
  • 内容(分隔符为‘\t’):
    • 单末端数据:第一列-分组名称,第二列-样本名称,第三列-序列绝对路径
    • PE数据:除前三列外,加第四列,为PE第二条序列的绝对路径
  • 可以通过序列名,利用awk实现

问题

  • DNA测序duplication控制在8%以下;RNA测序分析不管duplication,30%以下为正常

相关文章

  • 数据获取及处理

    基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%...

  • iOS CLLocation定位处理

    CLLocationManager 需要强引用 定位授权及相关处理 CLLocation 代理、数据获取的处理

  • 使用fetch时报Uncaught (in promise) T

    先贴一下使用fetch获取数据的代码: 通过fetch中使用then来获取数据及处理response的数据时,报了...

  • 大数据学习导图

    数据获取 数据获取与查看 数据处理 数据处理I:缺失值填补 数据处理II:数据转换 数据处理III:无量纲化 特征...

  • tensorflow模型建立与训练

    线性分类器Model 数据获取及预处理: tf.keras.datasets 模型的构建: tf.keras.Mo...

  • Pytorch学习之全连接识别MNIST数字

    Pytorch之全连接识别MNIST数字 导入库 设置超参数 数据预处理方法 数据集下载及获取 模型建立 确定损失...

  • Windows下使用COCO数据集训练Yolo(darknet)

    本文主要记录使用COCO 数据集训练darknet网络获取yolo权重的过程,主要包括:数据集处理及训练过程。参考...

  • 如何从高德获取地铁数据

    概述 本文讲讲如何在高德获取地铁数据及后期处理,以北京为例。 实现 获取数据 打开高德地铁,按下F12打开调试模式...

  • 数据分析的流程

    以我的数据日常为例,简单将数据分析的流程梳理一下。数据的整个流程可以划分为 数据目的 数据获取 数据处理及认知 模...

  • videoformat 视频格式处理工具

    该插件是为了解决视频上传前获取视频基础数据及编码格式,从而判断是否需要进一步处理(如转码等) 安装 使用 [ 获取...

网友评论

      本文标题:数据获取及处理

      本文链接:https://www.haomeiwen.com/subject/gqjytktx.html