数据获取及处理

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-07-10 07:36 被阅读0次

数据获取及处理
iOS CLLocation定位处理
使用fetch时报Uncaught (in promise) T
大数据学习导图
tensorflow模型建立与训练
Pytorch学习之全连接识别MNIST数字
Windows下使用COCO数据集训练Yolo(darknet)
如何从高德获取地铁数据
数据分析的流程
videoformat 视频格式处理工具

基因课FTP地址：ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课

数据下载

工具1：sratoolkit
注：必须用SRR号，即必须为SRR、DRR等开头
prefetch SRR062637
工具2：ascp
注：需要翻墙，通过sra_explorer的网站查找对应序列的URL地址，通过该URL下载（目前最快）

批量重命名文件名

rename

$ ll
-rw-r--r-- 1 lyao CLChen  1.3G Jun 20 09:40 SRR2176358_RNA-seq_of_Kidds-D_8_fruit_skin_with_flesh_at_stage_I_Rep._II.fastq.gz
-rw-r--r-- 1 lyao CLChen  1.3G Jun 20 09:41 SRR2176359_RNA-seq_of_Kidds-D_8_fruit_skin_with_flesh_at_stage_I_Rep._III.fastq.gz

$ rename 's/SRR.*_RNA-seq_of_//' *.gz
# ".*"为正则表达式，通配符,将前面一长串改为空

PS 为什么我们的服务器rename就不行呢？？？？？？

数据质控、过滤

fastp -i -o -h -j -w
-h 生成网页版报告储存位置
-j 生成json格式报告储存位置
-w
fastp官网说明文档
默认两个线程
nohup ****** & —— 程序后台执行

参考基因组下载、处理

花生壳内网穿透工具 —— 链接课程提供的网站
参考基因组下载网址
Ensembl: ftp://ftp.ensembl.org/pub
EnsemblGenomes: ftp://ftp.ensemblgenomes.org/pub/
推荐以上两个，更新勤快。第二个含有多个物种
NCBI: ftp://ftp.ncbi.nih.gov/genomes/
UCSC: ftp://hgdownload.soe.ucsc.edu/goldenPath
更新不勤快

访问ftp地址一定不能翻墙

苹果基因组在github，github上下载方式

复制克隆链接 git clone

git clone 克隆链接
苹果参考基因组下载
git clone https://github.com/moold/Genome-data-of-Hanfu-apple.git

基因组注释文件有.gtf文件则选择.gtf文件，因为是最新注释文件，.gff/gff3文件较原始

参考基因组处理
需要的文件包括
基因组序列（genome.fasta）
基因组注释文件（genes.gtf）
蛋白序列文件（proteins.fasta）
- 基因组序列合并
  cat *.fa > genome.fasta
- 大文件用less，单行太长时，不换行显示
  less -S genes.gtf
- gff格式注释文件转为gtf格式文件（内容比较规范的gff格式文件可以转换为gtf文件）
  gffread -T -o output_filename.gtf input_filename.gff
  -T指定输出格式为gtf，gffread可用conda安装
- 注意
  基因注释文件必须的为exon & CDS，基因项在注释中gene ID项
  gtf文件中第三列没有gene和mRNA项
gff文件中第三列mRNA代表可变剪接，许多物种没有研究到可变剪接，所以gene与mRNA数量相等；在人、鼠等研究较透彻的基因组中，mRNA > gene （可以通过比较此两项是否相等判断该基因组注释中是否包含可变剪接数据）
实现：
```
awk '$3 == "gene" ' xxx.gff | wc
awk '$3 == "mRNA" ' xxx.gff | wc
```
比较输出结果
- 参考基因组蛋白功能注释
  - 蛋白序列pep下载
  - 蛋白序列ID修改，ID应该修改为对应基因的ID
    E.X. 苹果基因组中蛋白ID为mRNA的ID，含有“-RA”后缀,可以通过awk -F更改分隔符为“-”去除后缀
    awk -F '-' '{print $1}' xxx.pep.fa

样本信息表

sample.txt
内容(分隔符为‘\t’)：
- 单末端数据：第一列-分组名称，第二列-样本名称，第三列-序列绝对路径
- PE数据：除前三列外，加第四列，为PE第二条序列的绝对路径
可以通过序列名，利用awk实现

问题

DNA测序duplication控制在8%以下；RNA测序分析不管duplication,30%以下为正常

网友评论

本文标题：数据获取及处理

本文链接：https://www.haomeiwen.com/subject/gqjytktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据获取及处理

数据下载

批量重命名文件名

数据质控、过滤

参考基因组下载、处理

样本信息表

问题

相关文章

数据获取及处理

iOS CLLocation定位处理

使用fetch时报Uncaught (in promise) T

大数据学习导图

tensorflow模型建立与训练

Pytorch学习之全连接识别MNIST数字

Windows下使用COCO数据集训练Yolo(darknet)

如何从高德获取地铁数据

数据分析的流程

videoformat 视频格式处理工具

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读