fastq格式，如何快速计算fasta, fastq的reads

作者: 朱渠成 | 来源:发表于2021-03-30 23:08 被阅读0次

fastq格式，如何快速计算fasta, fastq的reads
2019-05-04
NGS常用文件格式详解
NGS数据格式01-FASTQ|FASTA格式详解
【生信技能树】fa和fq格式文件的shell小练习
56.《Bioinformatics Data Skills》之
fasta文件与fastq文件相互转化
NGS009 生信常用数据格式
Linux生信练习2--fastq/fasta
学习小组DAY7笔记——shoan

FASTQ

fastq格式是一种基于文本的存储生物序列和对应碱基或者氨基酸质量的文件格式，最初由桑格研究所（Wellcome Trust Sanger Institute）开发出来，现已成为存储高通量测序数据的事实标准。
举个例子：

head SRR4407795_1.fastq  #查看前 10 行

我们可以看到每一个序列有四行

@SRR4407794.1 1 length=86
CCTGGCTTATTGCAGTTGTAACAAGATGGTTCGTCGGGACTCTGAGGGCAATCTTTGGCAAAGTGCCCTTCGCCATTACAGCGATA
+SRR4407794.1 1 length=86
FFFFFIIIIIIIIIIFFBFFIIBFF<FFBFFFF<FFFFFFFBBFBBFBBFBFFFFFBBBB<BB<BBBFBBBBFFFBBBBBFFFBBB
@SRR4407794.2 2 length=86
ATTTAAAATTAAAATATTAGATTTTATATTCACAAATCAATGATTTAAATTAAAAAAGTTTATTAAATAGATCGGAAGAGCACACG
+SRR4407794.2 2 length=86
BFFFBFIFIIBBFFFFFIFIIIIIIIIFIIFFFBFFI<<BFF<FFIIIFIIIFBFIII<BFBFFBBBFFFFFFFFBFFFFFFFBB<
...

第一行：必须以"@"开头，后面跟着序列的id信息，以及描述（测序通道，坐标，reads长度等）
第二行：序列
第三行：必须以"+"开头，后面跟着可选的ID标识符和可选的描述内容，但是内容必须和第一行保持一致
第四行：质量分数，对应到该测序仪器所采用的phred标准，对应ascall码范围求得整数质量分数值.

FASTA

fasta格式比较常见，用于表示核苷酸序列或氨基酸序列。

>QE2142515.1 CO1_species
MLLNKWFYSHKNIGTLYFIFGAGMLGTSFSLLIRAELGSPGSLIGNDHIFNVIVTSHAFIFFMVMPIMIGGFGNWLI

第一行：必须以">"开头,后面接序列的id信息，然后是描述部分
第二行：序列信息，可以是核酸或者是氨基酸序列

如何计算fasta，fastq的序列条数

根据以上的描述，我们知道知道fastq条数就是总行数/4，fasta条数就是数">"的个数

fastq

expr $(cat test.fastq | wc -l) / 4

fasta

grep ">" test.fasta | wc -l

网友评论

转录组学

本文标题：fastq格式，如何快速计算fasta, fastq的reads

本文链接：https://www.haomeiwen.com/subject/qtsghltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

fastq格式，如何快速计算fasta, fastq的reads

FASTQ

FASTA

如何计算fasta，fastq的序列条数

相关文章

fastq格式，如何快速计算fasta, fastq的reads

2019-05-04

NGS常用文件格式详解

NGS数据格式01-FASTQ|FASTA格式详解

【生信技能树】fa和fq格式文件的shell小练习

56.《Bioinformatics Data Skills》之

fasta文件与fastq文件相互转化

NGS009 生信常用数据格式

Linux生信练习2--fastq/fasta

学习小组DAY7笔记——shoan

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

转录组学