文件格式__小论fasta&fastq

作者: 青鳉君 | 来源:发表于2018-04-06 17:38 被阅读16次

文件格式__小论fasta&fastq
fastq 文件介绍
FastQC
NGS常用文件格式详解
基因数据格式
生物信息分析常用文件格式和软件
文件格式——FASTQ
fastp文件合并追加
FASTQ文件格式及测序文件phred质量格式判断
fastq格式，如何快速计算fasta, fastq的reads

@如有侵犯您的权益请联系me，感谢分享！

参考自

>微信公众号-高通量测序技术《生物信息学基础100问—— 第1 ~ 5问问题及答案》生信基础100问第1-5

>度狗百科 fastQ格式

>生信技能树生信人必会数据格式持续收集(有fastq、fasta、VCF、SAM格式)

1.作用目的：

$ fasta: 多用于储存碱基/AA序列及序列在数据库中的信息。

(一般为入库数据，单纯的蛋白/核酸序列)

$ fastq:储存碱基/AA序列及其测序相关信息

(原始数据，包含了仪器本身记录)

2.制式区别：

$fastq:

一般包含四行信息

1.以@开始，包含序列测序时的坐标信息、仪器信息等。

2.序列内容

3.以+开始，可储存一些附加信息，一般多为空。

4.测序质量信息

eg1：

>第一行 : @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133

# ‘:’为分隔标志

@，开始的标记符号;

ST-E00126:128:HJFLHCCXX，测序仪唯一的设备名称;

2，lane的编号；

1101，tile的编号；

7405，在tile中的X坐标；

1133，在tile中的Y坐标

( lane指测序板上泳道，tile是板上测序孔 )

>第二行：

表序列信息，一般使用ATCGN，N表示无法判断是哪种碱基（因荧光信号受干扰）

>第三行 :

+开头，后为一些补充说明信息，多为空。

>第四行：

存储质量信息，与第二行的碱基序列一一对应。即表示对应位置碱基的测序质量值。

用ASCII码表示，值越大，质量越好。ASCII码由phred值经过换算而来。phred值则通过测序错误概率转换而来。有phred33和phred64两种体系。

phred值用以评估bp测序质量，测序仪通过判断荧光信号的颜色来判断碱基的种类，ATCG分别对应红黄蓝绿，信号强弱不同，在这种情况下对每个结果的判断的正确性都存在一个概率值P。如P=1%，将P取log10，再乘以-10，所得结果为Q 。

将Q+33 or +64 得值即为phred。每个phred有对应的ASCII码，如phred值=53对应A码为5。

（看数值大小范围能知体系类型）

* Phred33 & Phred64 由来是illumina公司的锅，近年来新数据多为Phred33体系

！trimmomatic软件能自动识别数据的质量类型

eg2 ：

NCBI看到的FASTQ格式如下：

@HWUSI-EAS100R:6:73:941:1973#0/1

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT

+HWUSI-EAS100R:6:73:941:1973#0/1

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6

>第一行：

#0，若输入样本为多样本混合，则该标志代表样本的编号，用来区分各样本的reads。

/1，代表paired end中的前一个read。

>第四行：

phred值为63对应的ASCII码为“？”。

一般地，碱基质量从0-40，既ASCII码为从 “！”（0+33）到“I”(40+33）。

ASCII码映射图：

Dec <---> Chr

eg3 ：

(Y表示此数据已经过过滤？18？？)

条形码-> barcode

$fasta:

包含有两类信息。

第一行：序列描述信息，一般以 >开头。包括数据库中的编号、序列名称、序列类型。

第二行：序列信息

示例1.核酸序列文件（mRNA序列统一以T代替U）

>gi|13650073|gb|AF349571.1|Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds

CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG

# 以‘|’符号作区隔

> ，开头标记

gi|13650073，基因ID

gb|AF349571.1， genebank中的编号

Homo sapiens hemoglobin alpha-1 globin chain (HBA1)，基因名称

mRNA, complete cds 序列类型

示例2 蛋白质文件

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1

MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKLASVSTVLTSKYR`

# 以‘|’符号作区隔

>, 开头标记

sp|P69905 ，蛋白数据库编号

HBA_HUMAN Hemoglobin subunit alpha，蛋白质名称

OS=Homo sapiens，所属物种

GN=HBA1，基因名称

（MVLSPA……指代氨基酸类型？）

扩展名:

*题外：

SRA数据转fastq文件的一些note：

（当使用trinity时亦会自动给出操作提示）

END

#错误与缺漏望不吝赐教~

>>>

下期预计讨论fasta与fastq的格式互转，并研究脚本“fasta_stats.pl & fastq_stats.pl”

网友评论

🍊码农

本文标题：文件格式__小论fasta&fastq

本文链接：https://www.haomeiwen.com/subject/xdzdhftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！