美文网首页生物信息学生物信息数据科学
39.《Bioinformatics Data Skills》之

39.《Bioinformatics Data Skills》之

作者: DataScience | 来源:发表于2021-07-06 20:29 被阅读0次

    地球上各个分支的生物都包含染色体序列,生物信息学可以方便地将这样的一条碱基序列录入电脑中进行研究。参考基因组作为坐标系统来定位所有我们需要描述的东西。通过线性染色体序列的区域关联很多类型的基因组数据,例如基因模块,变异的位置等等。

    指定染色体的一个区域需要指定3个信息:

    • 染色体名:每个基因组都包含一系列的染色体,需要指定我们说的是哪一条。不幸的是没有一个统一的命名模式,不同的数据与不同的版本可能采用不同的说法,有可能是:"chr22",“12”, "chrX",“MT”,“scaffold_1648”等等。
    • 范围:一组起点与终点坐标,例如112,333,444到222,333,444
    • 链:分为正义链与反义链,染色体体由两条互补的碱基序列组成。很多特征是链特异的,例如蛋白编码基因只有在某一条链上才有生物学意义。

    注意,使用基因组坐标系统的时候一定要注意数据的版本,人类参考基因组序列一直在完善,不同版本间的碱基位置可能完全不同。

    基因组坐标第2个令人头疼的地方在于坐标起始位置的编号。有的数据采用基于0起始,前闭后开(例如[2,3),包含2不包含3),而有的采用基于1起始,闭区间(例如[2,3],2和3都包括)(见下图)

    图1 两种坐标系统

    两种编号方式都有其优点,例如使用0为起点更好计算序列的长度(终止位置- 开始位置,而使用1为起点则是:终止位置-开始位置+1),使用1作为起点更符合我们的直觉。

    对于字符串来说Python采用的是0起点,而R采用的是1起点。基于0的[1,5)与基于1的[2,5]是一致的区域:

    # python
    >>> "CTTACTTCGAAGGCTG"[1:5]
    'TTAC'
    
    # R
    > substr("CTTACTTCGAAGGCTG", 2, 5)
    [1] "TTAC"
    

    下表给出了不同的文件采用的编号起始数字,使用的时候多加注意:

    表1 常见文件采用的坐标编号

    相关文章

      网友评论

        本文标题:39.《Bioinformatics Data Skills》之

        本文链接:https://www.haomeiwen.com/subject/kuxnultx.html