机器学习预测蛋白质行为,助力药物设计
来源:Technology Networks
语言:英语,所在国:美国
分类:科技 , 关键词:AI与医疗健康
研究人员开发了ProtGPS,一种能够预测蛋白质在细胞内定位的人工智能工具,揭示了突变如何影响疾病机制。该模型可以识别功能紊乱并设计用于靶向治疗的新蛋白质。这可能会彻底改变药物开发,帮助科学家创造更有效的治疗由蛋白质错位引起的疾病的药物。
关键要点
- ProtGPS可以预测蛋白质的定位,提供有关其功能和疾病机制的见解。
- 该AI模型能够识别改变定位的突变,揭示潜在的疾病机制。
- 研究人员设计了能够定位于特定区室的新蛋白质,有助于药物开发和治疗设计。
蛋白质是维持我们细胞正常运行的“主力”,细胞中有成千上万种类型的蛋白质,每种都执行特定的功能。长期以来,研究人员一直知道蛋白质的结构决定了它的功能。最近,研究人员意识到蛋白质的定位对其功能也至关重要。细胞中充满了各种区室,这些区室有助于组织细胞中的许多成分。除了生物教科书中常见的细胞器外,还包括多种动态的、无膜的区室,这些区室将某些分子集中在一起以执行共同的功能。了解给定蛋白质的定位及其共定位的伙伴,可以帮助更好地理解该蛋白质及其在健康或患病细胞中的作用,但研究人员一直缺乏系统的方法来预测这些信息。
与此同时,蛋白质结构的研究已有半个多世纪的历史,最终诞生了人工智能(AI)工具AlphaFold,它可以根据蛋白质的氨基酸序列预测其结构。AlphaFold及其类似的模型已成为研究中的常用工具。
蛋白质还包含一些不折叠成固定结构的氨基酸区域,而是帮助蛋白质加入细胞中的动态区室。怀特黑德研究所成员理查德·杨(Richard Young)及其同事想知道这些区域的编码是否可以像其他区域一样用于预测蛋白质的定位。
其他研究人员已经发现了一些编码蛋白质定位的序列,并开始开发预测蛋白质定位的模型。然而,研究人员并不清楚是否可以根据蛋白质的序列预测其在任何动态区室中的定位,也没有类似于AlphaFold的工具用于预测定位。现在,杨教授(也是麻省理工学院生物学教授)、杨实验室博士后亨利·基尔戈尔(Henry Kilgore)、麻省理工学院计算机科学与人工智能实验室的AI和健康杰出教授雷吉娜·巴兹拉伊(Regina Barzilay)及同事们构建了这样一个模型,他们称之为ProtGPS。在2月6日发表于《科学》杂志的一篇论文中,跨学科团队首次展示了他们的模型。研究人员表明,ProtGPS可以预测蛋白质将定位于十二种已知区室中的哪一种,以及疾病相关突变是否会改变这种定位。此外,研究团队还开发了一种生成算法,可以设计定位于特定区室的新蛋白质。
“我希望这是迈向强大平台的第一步,这个平台可以帮助研究蛋白质的人进行研究,”杨教授说,“并且它有助于我们了解人类如何发育成复杂的有机体,如何通过突变破坏这些自然过程,以及如何生成治疗假设并设计药物来治疗细胞功能障碍。”
研究人员还通过实验验证了许多模型的预测。
“能够从计算设计一直走到实验室测试,这让我非常兴奋,”巴兹拉伊教授说。“在这个领域的AI论文中有很多令人兴奋的研究,但其中99.9%从未在真实系统中得到测试。感谢我们与杨实验室的合作,我们能够测试并真正了解我们的算法表现如何。”
研究人员用两批具有已知定位的蛋白质训练和测试了ProtGPS。他们发现它可以高度准确地预测蛋白质的最终位置。研究人员还测试了ProtGPS能否根据蛋白质中的疾病相关突变预测其定位的变化。许多突变——基因及其相应蛋白质序列的变化——已被发现会促成或导致疾病,但这些突变如何导致疾病症状仍然未知。
确定突变如何导致疾病非常重要,因为这样研究人员可以开发疗法来修复这一机制,从而预防或治疗疾病。杨教授及其同事怀疑,许多与疾病相关的突变可能是通过改变蛋白质的定位来促成疾病的。例如,突变可能导致蛋白质无法加入含有重要伙伴的区室。
他们通过向ProtGPS输入超过二十万个带有疾病相关突变的蛋白质,并要求它预测这些突变蛋白的定位及其预测变化,来测试这一假设。较大的预测变化表明定位可能发生显著变化。
研究人员发现许多情况下,与疾病相关的突变似乎改变了蛋白质的定位。他们在细胞中测试了二十个例子,使用荧光比较正常蛋白质和突变版本在细胞中的位置。实验结果证实了ProtGPS的预测。总体而言,这些发现支持了研究人员的怀疑,即错位可能是被低估的致病机制,并证明了ProtGPS作为理解和识别新治疗途径的工具的价值。
“细胞是一个如此复杂的系统,有许多组件和复杂的相互作用网络,”伊兰·米特尼科夫(Ilan Mitnikov)说。“通过这种方法,我们可以扰动系统,观察结果,从而推动细胞机制的发现,甚至基于此开发治疗方法。”
研究人员希望其他人能像使用AlphaFold等预测结构模型一样使用ProtGPS,推进关于蛋白质功能、功能障碍和疾病的各项研究。
研究人员对预测模型的可能用途感到兴奋,但他们也希望模型不仅能预测现有蛋白质的定位,还能设计全新的蛋白质。目标是让模型生成完全新的氨基酸序列,当在细胞中形成时,这些序列将定位于所需位置。生成能够执行功能的新蛋白质——在这种情况下,定位于特定细胞区室的功能——是非常困难的。为了提高模型的成功率,研究人员限制了算法,使其只设计类似于自然界中存在的蛋白质。这是一种在药物设计中常用的策略;大自然经过数十亿年的进化,已经确定了哪些蛋白质序列有效,哪些无效。
由于与杨实验室的合作,机器学习团队能够测试他们的蛋白质生成器是否有效。模型取得了良好的结果。在一个轮次中,它生成了十个旨在定位于核仁的蛋白质。当研究人员在细胞中测试这些蛋白质时,发现其中四个强烈定位于核仁,其他一些也可能有偏向于该位置的趋势。
“我们实验室之间的合作对我们所有人都产生了巨大的影响,”彼得·米哈伊尔(Peter Mikhael)说。“我们学会了如何用彼此的语言交流,在我们的情况下,学到了很多关于细胞的知识。通过有机会实验性地测试我们的模型,我们得以了解如何使模型工作,并使其工作得更好。”
以这种方式生成功能性蛋白质可以提高研究人员开发疗法的能力。例如,如果药物必须与定位于特定区室的目标相互作用,则研究人员可以使用该模型设计同样定位于该区室的药物。这应该会使药物更有效,并减少副作用,因为药物将更多时间与目标相互作用,而较少时间与其他分子相互作用,导致脱靶效应。
机器学习团队成员对利用此次合作中学到的知识设计具有其他功能的新蛋白质充满热情,这将扩大治疗设计和其他应用的可能性。
“很多论文表明他们可以设计一种可以在细胞中表达的蛋白质,但并未说明该蛋白质具有特定功能,”伊塔马尔·奇恩(Itamar Chinn)说。“我们实际上进行了功能性蛋白质设计,并且与其它生成模型相比,成功率相对较高。这对我们来说非常令人兴奋,并且是我们想要进一步发展的方向。”
所有参与的研究人员都将ProtGPS视为一个令人兴奋的起点。他们预计,该工具将用于深入了解定位在蛋白质功能中的作用以及错位在疾病中的作用。此外,他们有兴趣扩展模型的定位预测,包括更多类型的区室,测试更多的治疗假设,并设计越来越具有功能性的蛋白质用于治疗或其他应用。
“我们现在知道这种定位代码存在,而且机器学习模型可以理解这种代码,甚至可以使用其逻辑创建功能性蛋白质,这为许多潜在的研究和应用打开了大门,”亨利·基尔戈尔(Henry Kilgore)说。
(全文结束)