@如有侵犯您的权益请联系me,感谢分享!
参考自
>微信公众号-高通量测序技术《生物信息学基础100问—— 第1 ~ 5问问题及答案》生信基础100问第1-5
>度狗百科 fastQ格式
1.作用目的:
$ fasta: 多用于储存碱基/AA序列及序列在数据库中的信息。
(一般为入库数据,单纯的蛋白/核酸序列)
$ fastq:储存碱基/AA序列及其测序相关信息
(原始数据,包含了仪器本身记录)
2.制式区别:
$fastq:
一般包含四行信息
1.以@开始,包含序列测序时的坐标信息、仪器信息等。
2.序列内容
3.以+开始,可储存一些附加信息,一般多为空。
4.测序质量信息
eg1:
>第一行 : @ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
# ‘:’为分隔标志
@,开始的标记符号;
ST-E00126:128:HJFLHCCXX,测序仪唯一的设备名称;
2,lane的编号;
1101,tile的编号;
7405,在tile中的X坐标;
1133,在tile中的Y坐标
( lane指测序板上泳道,tile是板上测序孔 )
>第二行:
表序列信息,一般使用ATCGN,N表示无法判断是哪种碱基(因荧光信号受干扰)
>第三行 :
+开头,后为一些补充说明信息,多为空。
>第四行:
存储质量信息,与第二行的碱基序列一一对应。即表示对应位置碱基的测序质量值。
用ASCII码表示,值越大,质量越好。ASCII码由phred值经过换算而来。phred值则通过测序错误概率转换而来。有phred33和phred64两种体系。
phred值用以评估bp测序质量,测序仪通过判断荧光信号的颜色来判断碱基的种类,ATCG分别对应红黄蓝绿,信号强弱不同,在这种情况下对每个结果的判断的正确性都存在一个概率值P。如P=1%,将P取log10,再乘以-10,所得结果为Q 。
将Q+33 or +64 得值即为phred。每个phred有对应的ASCII码,如phred值=53对应A码为5。
(看数值大小范围能知体系类型)
* Phred33 & Phred64 由来是illumina公司的锅,近年来新数据多为Phred33体系
!trimmomatic软件能自动识别数据的质量类型
eg2 :
NCBI看到的FASTQ格式如下:
@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
>第一行:
#0,若输入样本为多样本混合,则该标志代表样本的编号,用来区分各样本的reads。
/1,代表paired end中的前一个read。
>第四行:
phred值为63对应的ASCII码为“?”。
一般地,碱基质量从0-40,既ASCII码为从 “!”(0+33)到“I”(40+33)。
ASCII码映射图:
Dec <---> Chreg3 :
(Y表示此数据已经过过滤?18??) 条形码-> barcode$fasta:
包含有两类信息。
第一行:序列描述信息,一般以 >开头。包括数据库中的编号、序列名称、序列类型。
第二行:序列信息
示例1.核酸序列文件(mRNA序列统一以T代替U)
>gi|13650073|gb|AF349571.1|Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG
# 以‘|’符号作区隔
> ,开头标记
gi|13650073, 基因ID
gb|AF349571.1, genebank中的编号
Homo sapiens hemoglobin alpha-1 globin chain (HBA1), 基因名称
mRNA, complete cds 序列类型
示例2 蛋白质文件
>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKLASVSTVLTSKYR`
# 以‘|’符号作区隔
>, 开头标记
sp|P69905 ,蛋白数据库编号
HBA_HUMAN Hemoglobin subunit alpha, 蛋白质名称
OS=Homo sapiens,所属物种
GN=HBA1,基因名称
(MVLSPA……指代氨基酸类型?)
扩展名:
*题外:
SRA数据转fastq文件的一些note:
(当使用trinity时亦会自动给出操作提示)
END
#错误与缺漏望不吝赐教~
>>>
下期预计讨论fasta与fastq的格式互转,并研究脚本“fasta_stats.pl & fastq_stats.pl”
网友评论