美文网首页
BGI-College生信入门系列——2、什么是数据?

BGI-College生信入门系列——2、什么是数据?

作者: 华大基因学院 | 来源:发表于2021-11-29 10:41 被阅读0次

    从直觉上看,数据貌似很好理解,但真正要说清楚数据这个词却有点困难。

    想一想,数据到底是什么呢?

    数据的定义实际上包含两方面内容,即信息的符号设计

    其中信息的设计,也就是数据的格式,决定了读者从中获取有效信息的难易程度。

    人们经常忽略的一个事实——数据的格式和数据本身同等重要。

    生物信息学中的数据

    传统的生物学家可能会认为,生物信息学是一种将数据转换成结果的软件。

    实则不然,生物信息学只是将一种格式的数据,转换成另一种格式的数据。

    这种格式转换往往带来信息的综合和优化。

    数据格式

    生物信息学中几种常见的数据格式:

    1.GenBank

    2.Fasta

    3.FastQ

    4.BED/GFF/GTF

    5.SAM/BAM

    1.GenBank

    文件后缀为.gb/.genbank,GenBank 是一种符合人们阅读习惯的数据格式。

    GenBank示例文件

    数据来源:https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2/

    GenBank分类简称

    眼尖的朋友一眼就发现了,GenBank示例文件展示的正是肆虐全球的新冠病毒(SARS-CoV-2)的基因组信息

    新冠病毒结构示意图 图片来源:Alissa Eckert, MS; Dan Higgins, MAM CDC

    如果了解新冠亚单位疫苗研制原理的小伙伴,大概会知道上面展示的 S 蛋白(spike glycoprotein),其受体结合区(RBD)片段含有多个 B 细胞和 T 细胞的表位,属于理想的靶标抗原。

    然而重组得到的靶蛋白免疫原性较差,往往需要经过一定的优化才能刺激机体产生足够的抗体。

    高福院士团队通过二聚化 RBD 片段及免疫佐剂的配合,弥补了重组蛋白免疫原性差的短板,并成功诱导小鼠产生大量中和抗体[1]。

    另外,目前世界大流行的新冠病毒 Delta 变异株,正是 S 蛋白的氨基酸位点发生了突变导致的[2]。

    可见 GenBank 是一种相当复杂的存储格式,存储了丰富的生物信息。

    2.Fasta

    文件后缀通常为.fa/.fasta/.fna/.seq,可以记录类似于 GenBank 中的序列信息。

    Fasta 示例文件——新冠病毒 M 蛋白的基因序列

    Fasta 文件包含序列的注释信息行和碱基序列行

    3.FastQ

    文件后缀为.fq/.fastq,用于存储测序仪经过测序实验读取到的碱基信息,可以看作是带有碱基质量评分的 Fasta 文件。

    Fastq 文件中每 4 行为一条 read 的测序记录

    FastQ 示例文件

    4.BED/GFF/GTF

    这一类数据主要用于记录基因组中特定区间的坐标信息,列之间以制表符(TAB)分隔,如基因(gene)、编码区序列(CDS)和非编码区(UTR)等。

    BED

    3 列的 BED 文件包括染色体、起始和终止

    6 列的 BED 文件增加了名称、值和链方向

    GFF/GTF

    文件通常包含 9 列,以制表符分隔。

    P.S. BED文件的坐标有效起始值是0,GFF/GTF的有效起始坐标是1

    GFF 示例文件

    GTF 与 GFF 文件的差异在第 9 列,GTF 的第 9 列必须是包括 gene_id 和 transcript_id 才是有效的格式。

    5.SAM/BAM

    BAM 文件是 SAM 文件的二进制格式,两种文件都包含了 reads(FastQ)比对到参考基因组(Fasta)的信息。

    一般包括下面11列信息,详见:https://samtools.github.io/hts-specs/SAMv1.pdf

    Linux下安装使用samtools查看BAM文件

    若是SAM文件可先用samtools view进行转换

    有时候需要用到BAM的索引文件,需要先用samtools sort命令排序,再调用samtools index为BAM文件建立索引。

    参考文献

    [1] Dai L, Zheng T, Xu K, et al. A Universal Design of Betacoronavirus Vaccines against COVID-19, MERS, and SARS.Cell. 2020;182(3):722-733.e11. doi:10.1016/j.cell.2020.06.035

    [2] Korber B, Fischer WM, Gnanakaran S, et al. Tracking Changes in SARS-CoV-2 Spike: Evidence that D614G Increases Infectivity of the COVID-19 Virus.Cell. 2020;182(4):812-827.e19. doi:10.1016/j.cell.2020.06.043

    相关文章

      网友评论

          本文标题:BGI-College生信入门系列——2、什么是数据?

          本文链接:https://www.haomeiwen.com/subject/vcnkxrtx.html