家医健康
国内健康世界健康探索科学

AI破解蛋白质代码,绘制细胞目的地地图

新闻时间:2025年2月6日 - 更新时间:2025-02-15 00:42:53
来源:Armed robbery in Revesby
语言:英语,所在国:美国
分类:科技 , 关键词:AI与医疗健康

蛋白质是维持我们细胞运转的关键分子,我们的细胞中有成千上万种不同类型的蛋白质,每种蛋白质执行特定的功能。研究人员长期以来一直知道蛋白质的结构决定了它的功能。最近,研究人员逐渐认识到蛋白质的定位对其功能也至关重要。细胞内有许多隔室帮助组织其众多成分,除了生物学教科书中常见的细胞器外,这些空间还包括各种动态的、无膜隔室,这些隔室将某些分子集中在一起以执行共同的功能。了解给定蛋白质的定位及其共定位伙伴,有助于更好地理解该蛋白质及其在健康或疾病细胞中的作用,但研究人员缺乏系统的方法来预测这些信息。

与此同时,蛋白质结构研究已有半个多世纪的历史,最终诞生了人工智能工具AlphaFold,它可以根据蛋白质的氨基酸代码(即折叠成其结构的线性构建块)预测蛋白质结构。AlphaFold及其类似的模型已成为研究中的常用工具。

蛋白质还包含不会折叠成固定结构的氨基酸区域,而是对帮助蛋白质加入细胞动态隔室非常重要。麻省理工学院教授理查德·杨(Richard Young)及其同事想知道这些区域中的代码是否可以像其他区域用于预测结构一样用于预测蛋白质定位。其他研究人员已经发现了一些编码蛋白质定位的序列,并开始开发预测蛋白质定位的模型。然而,研究人员并不知道是否可以根据蛋白质序列预测其在任何动态隔室中的定位,他们也没有类似AlphaFold的工具来预测定位。

现在,杨教授(也是怀特黑德生物医学研究所成员)、杨实验室博士后亨利·基尔戈尔(Henry Kilgore)、麻省理工学院计算机科学与人工智能实验室(CSAIL)杰出人工智能与健康工程学教授雷吉娜·巴兹莱(Regina Barzilay),以及他们的同事们建立了一个这样的模型,称为ProtGPS。2月6日,跨学科团队在《科学》杂志上发表了这一模型,论文的第一作者包括基尔戈尔和巴兹莱实验室的研究生伊塔玛尔·欣恩(Itamar Chinn)、彼得·米哈伊尔(Peter Mikhael)和伊兰·米特尼科夫(Ilan Mitnikov)。研究人员展示了ProtGPS可以预测蛋白质将定位到12种已知类型的隔室中的哪一种,以及疾病相关突变是否会改变这种定位。此外,研究团队还开发了一种生成算法,可以设计新型蛋白质以定位到特定隔室。

“我希望这是迈向强大平台的第一步,使研究蛋白质的人能够进行他们的研究,”杨说,“并且这有助于我们了解人类如何发展成复杂的有机体,了解突变如何破坏这些自然过程,以及如何生成治疗假设并设计药物来治疗细胞功能障碍。”

研究人员还通过实验测试验证了许多模型的预测。

“从计算设计一直到在实验室中尝试这些事情,这真的让我感到兴奋,”巴兹莱说。“这个领域的AI有很多令人兴奋的论文,但其中99.9%从未在真实系统中进行过测试。由于与杨实验室的合作,我们能够测试并真正了解我们的算法做得如何。”

开发模型

研究人员使用两批已知定位的蛋白质训练和测试ProtGPS。他们发现它可以高度准确地预测蛋白质的最终位置。研究人员还测试了ProtGPS预测基于蛋白质内部疾病相关突变的蛋白质定位变化的能力。许多突变——基因及其相应蛋白质序列的变化——已被发现会促成或导致疾病,但突变如何导致疾病症状仍不清楚。

弄清楚突变如何导致疾病的机制非常重要,因为研究人员可以开发疗法来修复这种机制,从而预防或治疗疾病。杨和他的同事怀疑许多疾病相关突变可能通过改变蛋白质定位来促发疾病。例如,突变可以使蛋白质无法加入含有关键合作伙伴的隔室。

他们通过向ProtGPS输入超过20万个带有疾病相关突变的蛋白质,并要求它预测这些突变蛋白质的定位及其预测变化来测试这一假设。预测结果的大幅变化表明定位可能发生改变。

研究人员发现了许多疾病相关突变似乎改变了蛋白质定位的情况。他们在细胞中测试了20个例子,使用荧光比较正常蛋白质和突变版本在细胞中的位置。实验确认了ProtGPS的预测。总体而言,这些发现支持了研究人员的怀疑,即错误定位可能是疾病机制中被低估的因素,并证明了ProtGPS作为理解疾病和确定新的治疗途径的工具的价值。

“细胞是一个非常复杂的系统,有许多组件和复杂的相互作用网络,”米特尼科夫说。“用这种方法思考,我们可以扰动系统,看到结果,并因此推动细胞机制的发现,甚至基于此开发治疗方法。”

研究人员希望其他人开始像使用AlphaFold等预测结构模型一样使用ProtGPS,推进关于蛋白质功能、功能障碍和疾病的各种项目。

超越预测,走向新生成

研究人员对其预测模型的潜在用途感到兴奋,但他们也希望模型不仅限于预测现有蛋白质的定位,还能设计全新的蛋白质。目标是让模型生成全新的氨基酸序列,在细胞中形成时能够定位到所需位置。生成能够实现特定功能(在这种情况下,定位到特定细胞隔室的功能)的新蛋白质是非常困难的。为了提高模型成功的几率,研究人员将其算法限制为仅设计类似于自然界中存在的蛋白质。这是药物设计中常用的方法,有逻辑原因;大自然经过数十亿年的进化,已经弄清楚哪些蛋白质序列有效,哪些无效。

由于与杨实验室的合作,机器学习团队得以测试他们的蛋白质生成器是否有效。模型取得了良好的结果。在一轮测试中,它生成了10个旨在定位到核仁的蛋白质。当研究人员在细胞中测试这些蛋白质时,发现其中四个强烈定位到核仁,其他一些可能也有轻微的偏向。

“我们实验室之间的合作对我们所有人都非常富有成效,”米哈伊尔说。“我们学会了彼此的语言,了解了很多关于细胞如何工作的知识,并通过有机会实验性地测试我们的模型,我们能够弄清楚如何使模型实际工作,然后使其更好。”

以这种方式生成功能性蛋白质可以改善研究人员开发疗法的能力。例如,如果药物必须与定位在特定隔室的目标相互作用,则研究人员可以使用此模型设计一种也定位到该隔室的药物。这应使药物更有效,并减少副作用,因为药物将更多时间与目标相互作用,减少与其他分子的相互作用,从而避免脱靶效应。

机器学习团队成员对利用这次合作中学到的知识设计具有其他功能(不仅仅是定位)的新蛋白质感到兴奋,这将扩大治疗设计和其他应用的可能性。

“很多论文表明它们可以设计出可以在细胞中表达的蛋白质,但并不是所有蛋白质都具有特定功能,”欣恩说。“我们实际上进行了功能性蛋白质设计,并且与其它生成模型相比,成功率相对较高。这对我们来说真的很令人兴奋,我们希望在此基础上进一步发展。”

所有参与的研究人员都认为ProtGPS是一个令人兴奋的开端。他们预计该工具将用于深入了解定位在蛋白质功能中的作用以及错误定位在疾病中的作用。此外,他们有兴趣扩展模型的定位预测以包括更多类型的隔室,测试更多的治疗假设,并设计越来越功能化的蛋白质用于治疗或其他应用。

“现在我们知道这种定位蛋白质代码存在,并且机器学习模型可以理解这种代码,甚至使用其逻辑创建功能性蛋白质,这为许多潜在的研究和应用打开了大门,”基尔戈尔说。


(全文结束)