最近,小编经常在一些学术讨论群中的看到有研究合成方法学的同学询问一个问题,就是如何检索出含有他们自己方法学构建出的片段的药物结构来。出现这一需求当然很正常,因为如今许多的方法学研究并非是主动进行探索的结果,而是属于偶然发现,那么如何将自己的发现包装成具有重要意义的研究成果呢,就需要说明该方法学能够合成的“有用”的分子。哪些是有用的分子?上市药物由于具有巨大的经济价值和社会价值毫无疑问是首选,一些在研的药物或者其他的功能分子当然也能在方法学论文的背景部分做出很好的佐证,一般也是可以用于说明问题的。那么,小编在此就结合一些自己检索的经验,给大家提供一个快速解决该问题的方法,当然,这只是小编自己思考的结果,如果读者有更加有效的方法,欢迎大家提供交流。
对于研究有机合成的机构,一般都会购买Scifinder数据库,所以以下介绍的方法主要基于对Scifinder的检索,并且配合一些免费公开的数据库。Scifinder数据库的一些基本功能由于篇幅所限在此就不再赘述,大家如果有不理解或者不熟悉的话,可以在网上下载相关的官方教材自行补习。
言归正传,说回方法学的研究,大致可以分两种情况,一是合成特定的骨架,另外是合成了含特征性官能团化的片段。其实熟悉药物化学的同学应该知道药物研究中优势结构与片段(Privileged Structures and Motifs)的概念,也就是说某些特定结构或者片段较高频率地出现在具有药理活性的分子结构中,与上述两种情况有很大的联系。
针对第一种情况,HouTingjun在2010年通过对几千种上市以及候选药物的结构进行构建砌块的分析得到了出现频率最高的骨架以及环系统数据。[1]相信对于已有的数据按图索骥,读者可以很快识别自己的方法学是否能够与这些对上号,比如你发现某类合成β-内酰胺的有效方法,那可以很快和抗生素药物挂钩。至于具体的药物结构检索,在下一部分会详细展示,相信了解了由片段检索药物的方法,经由骨架的检索应当更加方便。
图1. 药物结构中出现频率最高的50种骨架
图2. 药物结构中出现频率最高的50种环系统
对于第二种更普遍的结构片段这种情况,小编在此举一个例子,虽然人造痕迹比较明显,但是也能说明问题。不妨假设,读者在实验中发现了一种能够合成含有磺酰胺结构片段化合物的高效方法,那么如何寻找具有该结构片段的药物呢?(图3)
图3. 如何寻找含有磺酰胺结构片段的化合物
其实很简单,只要在结构检索中输入该结构片段进行亚结构检索即可,诀窍在于如何快速的减少相关化合物数量,只保留我们需要的结构。就像是函数求解,虽然最后终将得到结果,但是运算量太大,收敛速度很慢的话是非常折磨人的。我们需要的只是利用药物结构的特点来迅速排除无关化合物以达到我们的筛选目标,而我们的目的只是需要找到几个含有该结构的药物即可,所以有时候不必在意使用某些过滤手段造成的的查全率下降,我们在意的查准性。
首先,我们在结构检索框中输入该结构,选择亚结构检索即可;
果不其然,得到的结果数量十分庞大,有16万之多,手工筛选的话看完估计都得猴年马月了,现在我们就需要利用一些简单手段来迅速减少目标集合的数量;
由于考虑到上市药物显然是商业可以获得的,我们利用Refine里的这一选项对结果进行限定,可以一次性去掉绝大多数不相干化合物,看下结果如何;
效果显著,在限定之后,化合物减少为2万不到,减少了将近90%。虽然减少了相对比例很大,但是剩下的绝对数量依然庞大,所以我们需要进一步进行限定,依葫芦画瓢,这次我们试一下用同位素选项,选择不含同位素的化合物,试试看结果如何;
结果令人沮丧,才减少了10个结果,看了不是所有限定选项都有立竿见影的效果。现在,让我们回过头来分析下,用什么手段继续往前推进。如果读者平时经常用Scifinder进行检索的话可能会发现,这种数量结果下很多化合物出现的相关文献其实并不高,大多只有一篇到两篇,甚至还有很多收录的化合物其相关文献数量为0!思考过后,我们尝试利用此限定进行处理,试看结果如何;
如我们所预期的,结果真的又得到了巨大的改进,再次减少为2000多。到此时,我们已经可以大致浏览来筛选分子了,不过且慢,在浏览前,我们还需要一步操作来提高我们效率,那就是将默认的分子排布顺序由原来的相关性(Relevance)排列修改为按文献数量由高到低排列(Number of References)。相信读者经过前面的步骤已经可以体会这一步的缘由,那就是上市药物的相关文献其实是非常可观的,从临床前合成制备,活性研究,到后期的工艺放大,晶型保护,药物制剂等等,涉及到非常多方面,而且文献类型也广得多,从期刊文献,专利文献,会议论文等,并且如果上市多年的话,其临床后相关的医学文献报道也会逐年增长,总而言之,利用文献数量这一指标可以有效地达到区分目的,尽可能将我们需要的药物分子排在前列。在此,小编给非药物化学专业的同学再提供一个快速浏览时筛选小技巧。如上图按文献数量重新排列后的分子中,我们如何迅速甄别哪些像是药物呢?此时读者只需点开每个分子旁边的快速查看,即放大镜按钮,比如点开序号5的化合物后,如下图;
可以看到在其他名字一栏,会有Parocoxib和SC 69124这类的名称。前者是该药物的国际非专有名,又称为通用名,后者是药物的研发代码。一般具有这种形式名称的就是药物无疑。所以如果你打开后只能看到一大串IUPAC命名法的名称,而没有这种的话那可以迅速跳过,查找下一个,直到足够为止。
经过对前30个左右的化合物进行筛选,小编选出了四个结构还容易画的药物,完全满足论文发表。以上步骤经过仔细拆解,向读者进行了解释分析,通过学习掌握这类检索思路和方法,相信各位读者可以有效地利用Scifinder进行该类检索任务。其中需要掌握的要点就是利用你所需要目标的特点来进行逐级限定,在这里是利用了上市药物的可商业购买特性和文献数量特点,迅速而有效缩小目标范围,达到检索目的。
然而,这就是全部了么?虽然在此之前小编确实是这样进行检索的,而且这个实例在小编第一次操作时全程从登录到最终筛选出所有符合条件的化合物耗时不超过五分钟,但是这个过程在小编看来仍然效率不高而且不优雅。原因就出在我们利用地数据库有太多不相干的化合物,导致一开始查准率出奇地低!如果有一个数据库能够尽量的覆盖我们需要的化合物类型,比如基本只收录药物和有药理活性化合物,而没有太多别的干扰,并且这个数据库能够进行Scifinder一样的结构检索,最好还是免费的在家也能使用的话,那就太完美了。就在今天执笔写下这篇文章的时候,小编突然想到了答案,那就是大名鼎鼎的Merck Index!
我们利用RSC提供的Merck Index Online(https://www.rsc.org/Merck-Index/)对这个检索任务再次进行尝试。
如图界面,我们利用结构检索选项,打开这个界面;
画出我们需要的结构片段;
选择亚结构检索;
返回7条结果,仔细查看一下如下图;
可以看到,确实都是我们需要的结构片段的药物,任务达成,耗时30秒以内,效率提高。
在此,我们总结一下,小编提供了两种方法来解决我们这个问题,用Merck Index在解决这个问题上效率确实超过Scifinder很多,而且其他方面优势也很明显。但是有两点需要指出,第一,Merck Index在其他检索方面同样有优势,第二,这不代表介绍Scifinder的方法就是多余的,这两个问题在此不详细展开,有机会小编再谈。学好信息检索需要不停地尝试与改进,没有一劳永逸的方法,小编在此只是提供一点浅见,希望读者看后能通过自己实践更好地解决这类问题。
[1] Wang, J.; Hou, T. J. Chem. Inf. Model. 2010, 50, 55.本文版权属于Chem-Station化学空间, 欢迎点击按钮分享,未经许可,谢绝转载!
No comments yet.