美文网首页RDKit | 操作与实践
RDKit|分子片段、片段指纹与指纹重要性分析

RDKit|分子片段、片段指纹与指纹重要性分析

作者: 最会设计的科研狗 | 来源:发表于2020-05-20 19:47 被阅读0次
    • 一、分子片段生成
    • 二、片段指纹生成
    • 三、指纹重要性分析

    一、分子片段生成

    分子片段(Molecular Fragments)是一组相连的原子,并可能包含有相关官能团。在rdkit中提供了一系列用于分析、操作分子片段的工具。说起来比较抽象,操作起来也比较抽象。

    • 获取官能团库:RDConfig.RDDataDir目录下的'FunctionalGroups.txt'
    • 根据官能团库实例化一个参数器:FragmentCatalog.FragCatParams()
    >>> import os
    >>> from rdkit import Chem
    >>> from rdkit.Chem import Draw
    >>> from rdkit.Chem import RDConfig
    >>> from rdkit.Chem import FragmentCatalog
    >>> fName = os.path.join(RDConfig.RDDataDir, 'FunctionalGroups.txt')
    >>> fparams = FragmentCatalog.FragCatParams(1, 6, fName)
    
    • 查看库中包含的官能团数量:GetNumFuncGroups()
    • 查看每个官能团对应的基团:GetFuncGroup()
    >>> print(fparams.GetNumFuncGroups())
    >>> m = fparams.GetFuncGroup(0)
    >>> m
    39
    
    1
    • 传入参数器,创建一个片段存储器:FragmentCatalog.FragCatalog()
      产生的分子片段都会存储在该对象中
    • 创建一个片段生成器:FragmentCatalog.FragCatGenerator()
      通过该对象生成片段
    • 计算分子片段:AddFragsFromMol()
    • 查看分子片段数量:GetNumEntries()
    >>> m = Chem.MolFromSmiles('OCC=CC(=O)O')
    >>> fcat = FragmentCatalog.FragCatalog(fparams)
    >>> fcgen = FragmentCatalog.FragCatGenerator()
    >>> fcgen.AddFragsFromMol(m, fcat)
    >>> fcat.GetNumEntries()
    3
    
    • 通过存储器查看片段:fcat.GetEntryDescription()
      尖括号中的内容:表示与片段相连的官能团,以下面的结果为例:
      第0号片段中,对应着一个乙基片段,该乙基与一个羟基相连。
      第1号片段中,对应着一个乙烯片段,该乙烯与一个羧基相连。
    >>> print(fcat.GetEntryDescription(0))
    >>> print(fcat.GetEntryDescription(1))
    C<-O>C
    C=C<-C(=O)O>
    

    关于官能团的详细信息,可以通过下述方法获取:

    • 向存储器传入分子片段id,获取片段中所包含的官能团编号:fcat.GetEntryFuncGroupIds()
    • 向参数器传入官能团编号,获取官能团对应的mol对象:fparams.GetFuncGroup()
    >>> print(list(fcat.GetEntryFuncGroupIds(0)))
    >>> funcgroup = fparams.GetFuncGroup(34)
    >>> print(Chem.MolToSmarts(funcgroup))
    >>> print(funcgroup.GetProp('_Name'))
    [34]
    *-[O&D1]
    -O
    

    提取得到的片段是层级结构,小片段在最底层,逐渐合并形成大片段。可以查看一个小片段形成了哪些大片段。

    • 根据id获取片段:fcat.GetEntryDescription()
    • 获取上级片段id:fcat.GetEntryDownIds()
    >>> print(fcat.GetEntryDescription(0))
    >>> list(fcat.GetEntryDownIds(0))
    C<-O>C
    [2]
    
    • 根据上级片段id,获取上级片段信息
    >>> fcat.GetEntryDescription(2)
    'C<-C(=O)O>=CC<-O>'
    

    二、片段指纹生成

    • 先将多个分子的片段汇总到一个片段存储器中
    >>> ms = [Chem.MolFromSmiles('OCC(NC1CC1)CCC'), Chem.MolFromSmiles('OCC=CC(=O)O')]
    >>> fcat = FragmentCatalog.FragCatalog(fparams)
    >>> for m in ms:
    >>>     fcgen.AddFragsFromMol(m, fcat)
    >>> fcat.GetNumEntries()
    17
    

    存储器收集完所有片段后,再用它来生成分子指纹

    • 创建一个片段指纹生成器:FragFPGenerator()
    • 传入分子和存储器来生成指纹:GetFPForMol(mol, fcat)
    • 以字符串形式查看指纹:ToBitString()
    • 查看指纹中哪些位是有效的:GetOnBits()
    >>> fpgen = FragmentCatalog.FragFPGenerator()
    >>> fp1 = fpgen.GetFPForMol(ms[1], fcat)
    >>> print(fp1.ToBitString())
    >>> print(list(fp1.GetOnBits()))
    10000000000000011
    [0, 15, 16]
    

    可以用处理一般分子指纹的方法来处理片段分子指纹,例如寻找相同的片段

    • 先对分子指纹做一步“&”位运算,两个指纹都为1时,结果为1,否则为0
    • 获取两个指纹中都出现的片段:GetOnBits()
    • 查看片段信息:GetEntryDescription()
    >>> fp0 = fpgen.GetFPForMol(ms[0], fcat)
    >>> andfp = fp0 & fp1
    >>> onbit = list(andfp.GetOnBits())
    >>> fcat.GetEntryDescription(onbit[0])
    'C<-O>C'
    

    也可以按上述思路查看一下哪些片段导致了分子的不同

    • 对分子指纹做“^”运算,两个指纹相同时,结果为0,否则为1。再做一步“&”运算
    • 按上述方法查看相异片段
    >>> dis = fp0 ^ fp1
    >>> combinedfp = fp0 & dis
    >>> onbit = list(combinedfp.GetOnBits())
    >>> fcat.GetEntryDescription(onbit[-1])
    'CCCC(C<-O>)N<-cPropyl>'
    

    三、指纹重要性分析

    这里主要介绍指纹对离散标签的重要性分析。在rdkit.ML.InfoTheory.rdInfoTheory.InfoBitRanker中提供了对指纹分析的功能。这个类可以根据分子指纹和离散标签,对特征进行计算和排序,看看哪些特征对活性比较重要。

    • 先对163个分子生成片段指纹,完整代码如下
    >>> suppl = Chem.SDMolSupplier('data/bzr.sdf')
    >>> sdms = [x for x in suppl]
    
    >>> # 获取官能团库
    >>> fName = os.path.join(RDConfig.RDDataDir, 'FunctionalGroups.txt')
    >>> # 片段参数器
    >>> fparams = FragmentCatalog.FragCatParams(1, 6, fName)
    >>> # 片段存储器
    >>> fcat = FragmentCatalog.FragCatalog(fparams)
    >>> # 片段生成器
    >>> fcgen = FragmentCatalog.FragCatGenerator()
    >>> # 片段指纹生成器
    >>> fpgen = FragmentCatalog.FragFPGenerator()
    >>> # 汇总所有片段
    >>> for m in sdms:
    >>>     fcgen.AddFragsFromMol(m, fcat)
    >>> # 生成片段指纹
    >>> fps = [fpgen.GetFPForMol(x, fcat) for x in sdms]
    >>> print(len(fps), fps[0].GetNumBits())
    163 8266
    
    • 信息增益(infoGain)分析,实例化一个排序对象:InfoBitRanker(nBits, nClasses, infoType)
      nBits:指纹长度
      nClasses:类别数量,需要和标签满足的关系:0 <= 标签 < 类别数量
      infoType:度量指标。默认使用rdInfoTheory.InfoType.ENTROPY,即信息增益作为比较标准,它反映了使用某个特征进行分类后,系统混乱程度降低的多少,数值越大表明特征越重要。
    >>> from rdkit.ML import InfoTheory
    >>> ranker = InfoTheory.InfoBitRanker(len(fps[0]), 2)
    
    • 获取每个分子的活性信息:GetDoubleProp('ACTIVITY')
    • 以7作为标准对活性离散化,大于7为1,小于7为0
    • 根据指纹和类别进行投票:AccumulateVotes(fp, act)
    • 获取前5个重要特征:GetTopN(5)
    • 依次输出特征id、信息增益、特征为1类别中的无活性分子数、特征为1类别中的有活性分子数。
    >>> acts = [x.GetDoubleProp('ACTIVITY') for x in sdms]
    >>> for i,fp in enumerate(fps):
    >>>     act = int(acts[i]>7)
    >>>     ranker.AccumulateVotes(fp,act)
    >>> top5 = ranker.GetTopN(5)
    >>> for id, gain, n0, n1 in top5:
    >>>     print(int(id), '%.3f'%gain, int(n0), int(n1))
    698 0.081 20 17
    222 0.073 23 25
    378 0.073 30 43
    196 0.073 30 43
    1207 0.073 0 25
    
    • 加入偏置,以信息增益为例,重新设置infoType
    • 设置偏置类别:SetBiasList()
      在这种模式下,一个特征与所设置了偏置类别的相关性要高于所有非偏置类别,例如设置偏置类别为4,某位特征为1对应的标签中,类别为4的数量应该大于其他类别的数量。
    >>> ranker = InfoTheory.InfoBitRanker(len(fps[0]), 2, InfoTheory.InfoType.BIASENTROPY)
    >>> ranker.SetBiasList((0,))
    >>> acts = [x.GetDoubleProp('ACTIVITY') for x in sdms]
    >>> for i,fp in enumerate(fps):
    >>>     act = 0 if acts[i]<7 else 1
    >>>     ranker.AccumulateVotes(fp, act)
    >>> top5 = ranker.GetTopN(5)
    >>> for id, gain, n0, n1 in top5:
    >>>     print(int(id), '%.3f'%gain, int(n0), int(n1))
    698 0.081 20 17
    222 0.073 23 25
    378 0.073 30 43
    196 0.073 30 43
    2375 0.062 5 0
    
    • 使用卡方检验(chi squared test),将infoType设置为如下参数,其他相同
    >>> ranker = InfoTheory.InfoBitRanker(len(fps[0]), 2, InfoTheory.InfoType.CHISQUARE)
    >>> for i,fp in enumerate(fps):
    >>>     act = int(acts[i]>7)
    >>>     ranker.AccumulateVotes(fp, act)
    >>> top5 = ranker.GetTopN(5)
    >>> for id, gain, n0, n1 in top5:
    >>>     print(int(id), '%.3f'%gain, int(n0), int(n1))
    698 20.023 20 17
    222 17.451 23 25
    378 16.242 30 43
    196 16.242 30 43
    2375 14.861 5 0
    
    • 带偏置的卡方检验同上,重新设置infoType为InfoTheory.InfoType.BIASCHISQUARE即可

    本文参考自rdkit官方文档
    代码及源文件在这里

    相关文章

      网友评论

        本文标题:RDKit|分子片段、片段指纹与指纹重要性分析

        本文链接:https://www.haomeiwen.com/subject/xcxoohtx.html