这是关于小分子文件库的处理教程
小分子文件的处理手法很重要,前期的处理可以为后期省下很多的工作
主要工具是openbabel,下载链接:http://openbabel.org/wiki/Main_Page
这个脚本适用于linux,单行的程序win可以借鉴
目的:将SDF文件分割为单个的小文件,并且将CAS号作为小分子的标题,并将其转化为标准SMILES格式
步骤:
#将SDF文件的Title修改为CAS编号
#这是一个shell脚本
#先将SDF文件分割为单个分子文件,再对其进行转化
#-m
#Produce multiple output files, to allow:
#Splitting one input file - put each molecule into consecutively numbered output files
#Batch conversion - convert each of multiple input files into a specified output format
#这是openbabel的官网解读
obabel 输入文件 -osdf -O new.sdf -m
#这条指令可以将输入文件分割为单独的文件
rm 输入文件
#删除输入文件
#下面是一个循环,PATH输入分子所在的绝对路径
Folder_A="PATH"
for file_a in ${Folder_A}/*
do
#obabel $file_a --title -osdf -O $file_a
#sed -i 's/CAS Number/CAS/g' $file_a
obabel $file_a --delete Name -osdf -O $file_a
#去除原始分子标题
obabel $file_a --title -osdf -O $file_a
obabel $file_a --append CAS -osdf -O $file_a
#新分子标题为CAS,注意看自己的sdf文件中是否有cas属性
obabel $file_a -ocan -O $file_a.smi
#输出为标准SMILES格式
done
cat *.smi > total.smi
#将cas文件汇总输出到total.smi
echo 'done'
~
网友评论