美文网首页🍊码农
文件格式__小论fasta&fastq

文件格式__小论fasta&fastq

作者: 青鳉君 | 来源:发表于2018-04-06 17:38 被阅读16次

@如有侵犯您的权益请联系me,感谢分享!

参考自

>微信公众号-高通量测序技术《生物信息学基础100问—— 第1 ~ 5问问题及答案》生信基础100问第1-5

>度狗百科 fastQ格式

>生信技能树生信人必会数据格式持续收集(有fastq、fasta、VCF、SAM格式)

1.作用目的:

$ fasta: 多用于储存碱基/AA序列及序列在数据库中的信息。

(一般为入库数据,单纯的蛋白/核酸序列)

$ fastq:储存碱基/AA序列及其测序相关信息

(原始数据,包含了仪器本身记录)

2.制式区别:

$fastq:

一般包含四行信息

1.以@开始,包含序列测序时的坐标信息、仪器信息等。

2.序列内容

3.以+开始,可储存一些附加信息,一般多为空。

4.测序质量信息

eg1

>第一行 :  @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133

# ‘:’为分隔标志

  @,开始的标记符号;

  ST-E00126:128:HJFLHCCXX,测序仪唯一的设备名称;

  2,lane的编号;

  1101,tile的编号;

  7405,在tile中的X坐标;

  1133,在tile中的Y坐标

  (  lane指测序板上泳道,tile是板上测序孔 )

>第二行:

    表序列信息,一般使用ATCGN,N表示无法判断是哪种碱基(因荧光信号受干扰)

>第三行 :

  +开头,后为一些补充说明信息,多为空。

>第四行:

    存储质量信息,与第二行的碱基序列一一对应。即表示对应位置碱基的测序质量值。

    用ASCII码表示,值越大,质量越好。ASCII码由phred值经过换算而来。phred值则通过测序错误概率转换而来。有phred33和phred64两种体系。

    phred值用以评估bp测序质量,测序仪通过判断荧光信号的颜色来判断碱基的种类,ATCG分别对应红黄蓝绿,信号强弱不同,在这种情况下对每个结果的判断的正确性都存在一个概率值P。如P=1%,将P取log10,再乘以-10,所得结果为Q  。 

  将Q+33 or +64 得值即为phred。每个phred有对应的ASCII码,如phred值=53对应A码为5。

  (看数值大小范围能知体系类型)

  * Phred33 & Phred64 由来是illumina公司的锅,近年来新数据多为Phred33体系

  !trimmomatic软件能自动识别数据的质量类型

eg2

NCBI看到的FASTQ格式如下:

@HWUSI-EAS100R:6:73:941:1973#0/1

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT

+HWUSI-EAS100R:6:73:941:1973#0/1

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6

>第一行:

  #0,若输入样本为多样本混合,则该标志代表样本的编号,用来区分各样本的reads。

  /1,代表paired end中的前一个read。

>第四行:

  phred值为63对应的ASCII码为“?”

  一般地,碱基质量从0-40,既ASCII码为从 “!”(0+33)到“I”(40+33)。

ASCII码映射图:

Dec <---> Chr

eg3

(Y表示此数据已经过过滤?18??) 条形码-> barcode

$fasta:

包含有两类信息。

第一行:序列描述信息,一般以 >开头。包括数据库中的编号、序列名称、序列类型。

第二行:序列信息

示例1.核酸序列文件(mRNA序列统一以T代替U)

>gi|13650073|gb|AF349571.1|Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds

CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG

# 以‘|’符号作区隔

  > ,开头标记

  gi|13650073, 基因ID

  gb|AF349571.1, genebank中的编号

  Homo sapiens hemoglobin alpha-1 globin chain (HBA1), 基因名称

  mRNA, complete cds  序列类型

示例2 蛋白质文件

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1

MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKLASVSTVLTSKYR`

# 以‘|’符号作区隔

  >, 开头标记

  sp|P69905 ,蛋白数据库编号

  HBA_HUMAN Hemoglobin subunit alpha,  蛋白质名称

  OS=Homo sapiens,所属物种

  GN=HBA1,基因名称

(MVLSPA……指代氨基酸类型?)

扩展名:

*题外:

SRA数据转fastq文件的一些note:

(当使用trinity时亦会自动给出操作提示)

                                                                      END

#错误与缺漏望不吝赐教~

>>>

下期预计讨论fasta与fastq的格式互转,并研究脚本“fasta_stats.pl & fastq_stats.pl”

相关文章

网友评论

    本文标题:文件格式__小论fasta&fastq

    本文链接:https://www.haomeiwen.com/subject/xdzdhftx.html