FavoriteLoading
0

用算法合成新药:一场新式卡斯帕罗夫与深蓝的巅峰对决

一分子就是一世界。

对药物研发人员来说,确实这样。在这篇《Nature》的文章中,渥太华记者Asher Mullard将把你拉进一个药香世界。

故事即将开场——

2016年,住友制药的美国子公司Sunovion召集了几名经验丰富的研发者,分配给他们一个不一般的任务:

我们来个游戏吧,看看谁能发现最好的新药。

摆在研究人员面前的是数百个化学结构,其中只有不足十分之一的结构标注了生物效应信息。研究人员需要从众多结构中挑选出最合适的几种,依据他们的化学和生物知识合成药物。

11名参赛者中,10名纠结了数小时,但有一名参赛者仅用几毫秒轻松得出结果。

它是一个算法。

作为初创公司Exscientia的化学信息学部负责人,Willem van Hoorn设计了这个计算机程序。当时,Exscientia还是个坐落于英国邓迪的初创公司,它研究用AI设计药物,并期望与Sunovion合作。

但Sunovion并没有把这个小创业公司放在眼里。“一开始我的信誉岌岌可危,”van Hoorn感慨。经过20几个游戏回合后统计比分时,他才终于松了口气。这个算法好像掌握了一些化学“黑魔法”,击败了除一名合成专家外的所有人。

这个“游戏”开启了Sunovion与Exscientia开始合作的里程碑。“是这场比赛说服了那些研究人员,”Sunovion的计算化学部主任Scott Brown回忆。

无论学术界还是工业界,想用计算机技术探索奥妙化学世界的大军不断增长,而Exscientia也仅是其中一员。

化学家们预测,人类可以合成1060种类药性分子,比太阳系中的原子还要小。他们希望芯片中的算法能把数百种硅氧化合物分类比较,帮助研究人员快速、合理地找到最佳候选药物。

不少支持者认为,这些备选方案让药物更安全,减少药物在临床试验中失败的概率,并能发现新的治疗方法,或许它们还能帮助开括未知的领域。

当然,也有不少反对的声音。很多药物化学家仍对这种“炒作”行为持怀疑态度,不相信复杂奇妙的化学反应最终能被几行代码概括出来。一些AI支持者也承认,很多尝试达不到预期效果,计算机生成的化合物有时候很难合成出来,有时候反应条件又过于苛刻,合成起来很危险。

“当研究人员不了解这个领域时,计算机生成的合成方法就不太可行了,”van Hoorn说。同时他表示,人类专家可以训练这些张扬的数字设计师。“我认为一些想法可以在计算机科学家和化学家的介入下实现。”van Hoorn说。

太空探索

想在化学宇宙中遨游,有张“地图”是必不可少的。2001年,瑞士伯尔尼大学的化学家Jean-Louis Reymond开始尽可能用电脑绘制化学空间。16年后,他他已经整理出世界上最大的小分子数据库GDB-17。这是一个巨大的化合物虚拟数据库,参与研究的原子总数多达17个,形成了1660亿个组合,刚好也是Reymond的计算机能应付的数量。“现在,用一台计算机编译数据库中的化合物列表仅需要10小时。”Reymond说。

为了弄清这些大量药物的合成起始点,Reymond想了一种方法拼凑他的化学小宇宙。他从元素周期表中获取灵感,将化合物聚集在一个多维空间中,结构相似的化合物也会挨在一起。化合物的位置是根据42个特征分配的,比如每个分子中的碳原子数量。

每种进入市场的药物,都有数百万种在结构上与之相似的化合物,可能只是一个氢键或双键的位置变化。其中一些可能比进入市场的药物效果更好,但化学家们不可能完全构想出所有同分异构体。

“你不可能用一支笔和一张纸来对付这些异构体。”Reymond说。

有一种方法帮助解决这个难题,Reymond和他的团队能通过寻找化合物间的相似点识别出有治疗前景的“近邻”。通过一种特殊的药物作为起始合成点,研究人员可在3分钟内对数据库中所有1660亿种化合物进行梳理,筛选出可以合成药物的最佳备选结构。

在一个概念验证实验中,Reymond开始结构用一个已知结构的分子与尼古丁乙酰胆碱受体结合。这是使神经系统和肌肉功能紊乱的一种途径,为此他们还编制了344个相关化合物的备用名单。

之后,研究小组合成了其中三种结构,发现有两种可以有效地激活受体,还能治疗老年肌肉萎缩。Reymond说,这种方法就像通过地质地图寻找金矿。“你需要通过某种方式选择你要挖掘的地方,”他说。

对计算机来说,这意味着用芯片从化学库中的海量结构里筛选出与指定蛋白质结合的小分子。首先,研究人员需要用X射线给蛋白质“拍照”,确定其中的结合位点。之后,用分子对接算法,计算化学家可以通过化合物的集合寻找给定位点的最佳匹配。

随着计算力的爆炸式增长,这些算法的能力得到了提高。加州大学旧金山分校的化学家们在Brian Shoichet的带领下,在2016年展示了这一方法的潜力,找到了一种新的止痛药。

Shoichet团队通过筛选300多万市场上可以买到的化合物找到了最好的一种,选择性地激活μ-阿片受体信号减轻疼痛,而且不会扰乱β-抑制蛋白密切相关的信号通路。研究人员从巨大的化合物库中迅速找到了23个最可能化合物。

除了大学教授,Shoichet还有一个双重身份,他还是加州旧金山的生物技术公司Epiodyne的联合创始人。Epiodyne想用相同的办法找到更安全的止痛药,他们计划在千万中之前从未被合成出的化合物中找到容易合成的备选止痛药。

目前,已经有商业化的药物开发公司在测试这种方法,比如这个马萨诸塞州的生物技术公司Nimbus Therapeutics。它将屏幕上的虚拟化合物与自然界产生的化合物相结合。目前还不清楚这种方法是否会促进新药出现,但该公司首席执行官Don Nicholson表示,这至少在药物设计项目中,“是个很好的着力点”。

巅峰对决

虽然这些数据搜索方法已经经过尝试和测试,但计算机只能按照脚本指令执行。机器学习一直走在发现新药的前沿,算法用数据和经验自学哪些化合物与哪些目标结合在一起,找到新模式。大约有12家公司如雨后春笋般涌现,与大型制药公司合作共同创建药物追踪算法。

Andrew Hopkins是英国药物研发公司Exscientia的CEO,就证明了这些新方法是可靠的。一种新药从发现、到优化、到临床研究一般需要4.5年的时间,化学家通常会合成上千种化合物保证最后能够得到最优选择,即便这样,药物最终能商业化生产的可能性依然微乎其微。

Exscientia尝试将一些算法进行组合(前文提到的惊艳了Sunovion的算法就是其中一个),算法的组合或许能够将药物研发时间从4.5年降低至1年,并且能够有效减少前期需要考虑的化合物的数量。

位于加州圣布鲁诺的AI药物设计公司Numerate的CTO Brandon Allgood表示,算法还能帮助药物研发人员尽早决定pass掉哪些化合物。

他认为,如果一个化合物在几个月后的毒性或吸收测试中失败,那么之前的研究和测试都将变得没有意义。在未开始用AI研究化学前,Allgood曾是一名宇宙学家,“用AI控制它只需要一毫秒的时间。”Allgood说。

今年,Numerate已经与制药公司达成了两项协议,其中包含与法国Suresnes公司共同创建的合作项目,它们想通过临床试验治疗心脏衰竭和心律失常。

虽然不断有新资金流入整个AI制药行业,但这些计算方法的正确性仍有待证明。与其他学科库相比,Reymond的收藏价值巨大,但它仅涵盖了化学宇宙的一小部分。

许多计算出来的备选化合物在实验室中的合成难度很大,化学家们须费尽心思找到推荐化合物的原材料,这可能需要几个月甚至更长时间。即便如此,也不能保证这种分子一旦制成就会起效。

Reymond的方法预测了一种化合物的活性谱,但预测准确率仅有5-10%,这就意味着化学家必须在20种以上化合物中选择,才能找到最符合预期的那种。“我想说,探索化学空间的瓶颈是敢不敢制造这种化合物。”Reymond说。为了达到这个目的,他最近把化学物质库转变成一个由1000万分子组成的短链,这些分子很容易制造,但仍然涵盖了广泛的属性。

剑桥大学科学家Mark Murcko认为,计算化学家关注的重点不应该是算法策略,而更多的是改进他们从中改进数据集。“我知道的最好的预测模型的方法就是持续不断地喂它,”他说。

对于Exscientia的首席执行官来说,这些合作至关重要。这需要计算科学家花费数十年的时间写程序来击败国际象棋大师。之后,1997年,IBM的深蓝就打败了象棋大师卡斯帕罗夫。但这些失败并不意味着象棋游戏的终结。相反,卡斯帕罗夫创造出双人版象棋玩法,每队有一个人和一名AI组成。

“人和AI结合可以胜过任何人类,也可以胜过任何算法,”Hopkins说。他想要同样的数据处理、创造性和常识改变新药的发现。“我们就处在卡斯帕罗夫和深蓝的巅峰对决时刻。”Hopkins说。

 

本文来自量子位