NCBI数据、获取使用

作者: pearlp | 来源:发表于2017-12-03 13:39 被阅读146次

获取数据的来源
NCBI数据、获取使用
免疫组库分析实战/mixcr+vdjtools+R实现
运行FastQC报错
测序数据简单分析流程
转录组分析流程
收集 | 生信常用数据库（待更新）
biostar 学习笔记（4-1）--- 认识数据和数据的获取
在 NCBI 中获取数据
使用ascp向NCBI上传数据

一、NCBI各类数据储存库

1、Sequence Read Archive (SRA)：raw sequence data and alignment information from

high throughput sequencing platforms including 454, illumina, SOLiD and PacBio.

此外， European Nucleotide Archive (ENA) 和 DNAnexus SRA 均有SRA数据。

2、Gene Expression Omnibus (GEO)：RNA-Seq, ChIP-seq, RIP-seq, HiC-seq, methyl-seq, expression data such as microarray, SAGE or mass spectrometry data sets.

3、Database of Short Genetic Variations (dbSNP)：variation data, such as single nucleotide variations, microsatellites, and small-scale insertions and deletions.

4、Database of Genomic Structural Variations (dbVar)：genomic structural variation data, such as large insertions, deletions, translocations etc.

5、Database of Expressed Sequence Tags (dbEST)

6、Transcriptome Shotgun Assembly Sequence Database (TSA)：transcriptome assemblies

7、Whole Genome Shotgun Submissions (WGS)：incomplete genome assemblies.

二、Entrez

如何使用Entrez？NCBI提供了一个API网络接口Entrez E-utilsand 和一个命令行工具Entrez Direct。

Entrez E-utils

query URL ：https://service.nih.gov?param1=value1&param2=value2

在shell中，&需要使用转义符\，或者将URL添加引号‘’

curl -s https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi? id=AF086833.2\&db=nuccore\&rettype=fasta|head

curl -s 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?id=AF086833.2&db=nuccore&rettype=fasta'|head

具体命令参考文档：https://www.ncbi.nlm.nih.gov/books/NBK25500/

Entrez Direct

具体命令参考文档：https://www.ncbi.nlm.nih.gov/books/NBK179288/

einfo

抓取描述信息，einfo -dbs 查看所有数据库类型

esearch

esearch -help 查看帮助，esearch 查找的记录可以传递给efetch下载

esearch -db .. -query .. | efetch -formate ..

esearch -db sra -query PRJNA257197 | efetch -format runinfo > info.csv (runinfo — 所有搜索的信息)

efetch

It can even produce the sequence from reverse strands(reverse complement):

三、sratoolkit

1、prefetch 可以从远程站点下载文件

prefetch --option-file ids.list

2、fast-dump : downloads data in FASTQ format, 初始sra data 保存在 ~/ncbi/public/sra/

fastq-dump SRR1553607 --split-files( separate paired end reads)

下载project里多个SRA数据：

在上一步得到的info.csv文件中，第一列为这个project里所有的SRA文件，取第一列run编号，用xargs批量下载

cat info.csv|cut-f 1 -d','|grepSRR|head>ids ； cat ids |xargs-n 1 fastq-dump -X 10000 --split-files $1

3、sra-stat

sra-stat --xml --quick SRR1553610 生成xml报告

四、 SeqKit

seqkit stat *.gz 查看全部fasta/q文件的简要信息

seqkit fx2tab --name --only-id --gc *.fna 显示GC含量

seqkit fx2tab -H -n -i -B a -B c -B ac *.fna 显示A、C、AC含量

随机取出0.001比例的id号，并根据id从总体中提取序列：seqkit sample --proportion 0.001 duplicated-reads.fq.gz|seqkitseq --name --only-id>id.txt ；seqkit grep --pattern-file id.txt duplicated-reads.fq.gz > duplicated-reads.subset.fq.gz

seqkit grep --pattern-file id2.txt --invert-match viral.1.1.genomic.fna.gz > clean.fa 取出list上的序列

seqkit grep --pattern-file id2.txt viral.1.1.genomic.fna.gz|seqkitlocate--ignore-case --only-positive-strand --pattern K+ --pattern N+ 显示含K、N的数据

seqkit rmdup --by-seq --ignore-case duplicated-reads.fq.gz 去除重复

seqkit locate --degenerate --ignore-case --pattern-file enzymes.fa *.fna 匹配短序列如酶结合位点

seqkit sort--by-length／full header (--by-name) or sequence content (--by-seq)

seqkit split --by-id --id-regexp"\[(.+)\]" 根据ID, number of parts, size of each part, or sequence region分离

csvtk join-H -t<(seqkit fx2tab 1.fa)<(seqkit fx2tab 2.fa)|sed's/\t\t//'|seqkit tab2fx 合并两个文件

五、other tool

get subreads from a single ZMW : bamtools filter -in subreads.bam -out zmw.bam -tag 'zm..'

get the consensus sequence from the subreads : # ccs [options] INPUT OUTPUT

网友评论

本文标题：NCBI数据、获取使用

本文链接：https://www.haomeiwen.com/subject/khonbxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

NCBI数据、获取使用

一、NCBI各类数据储存库

二、Entrez

Entrez E-utils

Entrez Direct

einfo

esearch

efetch

三、sratoolkit

四、 SeqKit

五、other tool

相关文章

获取数据的来源

NCBI数据、获取使用

免疫组库分析实战/mixcr+vdjtools+R实现

运行FastQC报错

测序数据简单分析流程

转录组分析流程

收集 | 生信常用数据库（待更新）

biostar 学习笔记（4-1）--- 认识数据和数据的获取

在 NCBI 中获取数据

使用ascp向NCBI上传数据

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Biostar Handbook学习小组

NCBI&Ensembl&UCSC&EBI&Genecode