美文网首页转录组
如何快速获得正确的gene symbol

如何快速获得正确的gene symbol

作者: 生信阿拉丁 | 来源:发表于2021-03-13 11:43 被阅读0次

    作者:童蒙
    编辑:angelica

    由于基因一般有别名、或者因为excel的转换、人为错误等其他原因,使得基因名容易有错误。对于人和小鼠,有标准名称数据库如HGNC和MGI,但是缺少可视化的界面。

    最新推出的HGNChelper这个R包,可以很方便地鉴定和修改基因别名、曾用名,以及由于excel引入的错误等。下面我们来看看这个文章吧。

    01. 背景介绍

    基因名是我们经常打交道的名称,方便记忆,可以是功能的缩写,用于科研的交流。然而使用gene symbol有以下几个问题:

    1. gene symbol经常更新,从而产生了新的名称和别名。例如GCN5L2和KAT2A就是同一个基因。

    2. excel自动修饰或者说更改基因名,例如DEC1会被调整成1-DEC。例如下图:


    02. 方法说明

    数据来源

    HGNC数据库来源于:
    ftp://ftp.ebi.ac.uk/pub/databases/genenames/new/tsv/hgnc_complete_set.txt

    MGI的数据库来源于:
    http://www.informatics.jax.org/downloads/reports/MGI_EntrezGene.rpt

    流程

    软件总共会进行三步操作:

    • 将所有的字符变成大写
    • 将日期形式或者小数形式的名称,根据内部索引,转成gene symbol
    • 更新gene symbol到最新的形式

    03. 安装使用

    安装

    利用R安装,链接如下:
    https://cran.r-project.org/web/packages/HGNChelper/index.html

    使用

    主要是checkGeneSymbols这个函数。
    输入为:
    x : gene symbol的vector
    chromosome:对应的染色体vector
    unmapped.as.na : 对于没有匹配上的,输出值是NA还是初始值
    map:可以提供一个额外的对应文件
    species:物种,人(默认)或者小鼠
    输出为:
    第一列:输入的gene symbol
    第二列:gene symbol是否有效
    第三列:正确的gene symbol

    04. 结果与结论

    GEO数据进行验证和检查

    对GEO上2002-2020的20,716个数据进行检查,发现有很多错误的gene symbol,统计如下图:



    有几个特征:

    • 年份越早,错误的gene symbol比例就越高
    • 校正后准确率能到92%左右的样子,校正后还有错误的是lncRNA、假基因

    使用这个软件可以很方便的对基因名进行转换,大家快试试吧~

    05. 参考资料

    相关文章

      网友评论

        本文标题:如何快速获得正确的gene symbol

        本文链接:https://www.haomeiwen.com/subject/rskxcltx.html